Hoja de datos estadísticos de la empresa para tontos

De las estadísticas empresariales para tontos

Por Alan Anderson

Las estadísticas permiten analizar los problemas empresariales del mundo real con datos reales para que pueda determinar si una estrategia de marketing está funcionando realmente, cuánto debería cobrar una empresa por sus productos o cualquier otro millón de preguntas prácticas. La ciencia de la estadística utiliza análisis de regresión, pruebas de hipótesis, distribuciones de muestras y más para asegurar un análisis preciso de los datos.

3 maneras de describir poblaciones y muestras en las estadísticas empresariales

Cuando se trabaja con poblaciones y muestras (un subconjunto de una población) en las estadísticas empresariales, se pueden utilizar tres tipos comunes de medidas para describir el conjunto de datos: tendencia central, dispersión y asociación.

Por convención, las fórmulas estadísticas utilizadas para describir las medidas de población contienen letras griegas, mientras que las fórmulas utilizadas para describir las medidas de muestra contienen letras latinas.

Medidas de tendencia central

En estadística, la media, la mediana y el modo se conocen como medidas de tendencia central; se utilizan para identificar el centro de un conjunto de datos:

  • Malvado: El valor entre los valores máximo y mínimo de un conjunto de datos, obtenido mediante un método prescrito.
  • Mediana: El valor que divide un conjunto de datos en dos mitades iguales
  • Mode: El valor más comúnmente observado en un conjunto de datos

Las muestras se eligen aleatoriamente de entre las poblaciones. Si este proceso se lleva a cabo correctamente, cada muestra debe reflejar con precisión las características de la población. Por lo tanto, una medida de muestra, como la media, debe ser una buena estimación de la medida de población correspondiente. Considere los siguientes ejemplos de media:

La población significa:

Esta fórmula simplemente le dice que sume todos los elementos en la población y divida por el tamaño de la población.

Promedio de la muestra:

El proceso para calcular esto es exactamente el mismo; se suman todos los elementos de la muestra y se divide por el tamaño de la muestra.

Además de las medidas de tendencia central, otros dos tipos clave de medidas son las medidas de dispersión (spread) y las medidas de asociación.

Medidas de dispersión

Las medidas de dispersión incluyen la varianza/desviación estándar y el rango de percentiles/cuartiles/intercuartiles. La desviación y la desviación estándar están estrechamente relacionadas entre sí; la desviación estándar siempre es igual a la raíz cuadrada de la desviación.

Las fórmulas para la población y la varianza de la muestra son:

Desviación de la población:

Desviación de muestreo:

Los percentiles dividen un conjunto de datos en 100 partes iguales, cada una de las cuales consiste en un 1 por ciento de los valores del conjunto de datos. Los cuartiles son un tipo especial de percentiles; dividen los datos en cuatro partes iguales. El rango intercuartil representa el 50 por ciento medio de los datos; se calcula como el tercer cuartil menos el primer cuartil.

Medidas de asociación

Otro tipo de medida, conocida como medida de asociación, se refiere a la relación entre dos muestras o dos poblaciones. Dos ejemplos de esto son la covarianzay la correlación:

Covarianza poblacional:

Covarianza de la muestra:

Correlación de población:

Correlación de la muestra:

La correlación está estrechamente relacionada con la covarianza; se define para asegurar que su valor esté siempre entre negativo y positivo.

Variables aleatorias y distribuciones de probabilidad en las estadísticas empresariales

Las variables aleatorias y las distribuciones de probabilidad son dos de los conceptos más importantes de la estadística. Una variable aleatoria asigna valores numéricos únicos a los resultados de un experimento aleatorio; este es un proceso que genera resultados inciertos. Una distribución de probabilidad asigna probabilidades a cada valor posible de una variable aleatoria.

Los dos tipos básicos de distribuciones de probabilidad son discretas y continuas. Una distribución de probabilidad discreta sólo puede asumir un número finito de valores diferentes.

Ejemplos de distribuciones discretas incluyen:

Una distribución de probabilidad continua puede asumir un número infinito de valores diferentes. Ejemplos de distribuciones continuas incluyen:

  • Uniforme
  • Normal
  • Estudiante t
  • Chi-cuadrado
  • F

Comprender las distribuciones de muestreo en las estadísticas empresariales

En estadística, las distribuciones de muestreo son las distribuciones de probabilidad de cualquier estadística dada basadas en una muestra aleatoria, y son importantes porque proporcionan una simplificación importante en la ruta hacia la inferencia estadística. Más específicamente, permiten que las consideraciones analíticas se basen en la distribución del muestreo de una estadística, más que en la distribución conjunta de probabilidad de todos los valores de la muestra individual.

El valor de una estadística de la muestra, como la media de la muestra (X), es probable que sea diferente para cada muestra extraída de una población. Por lo tanto, puede considerarse como una variable aleatoria, cuyas propiedades pueden describirse con una distribución de probabilidad. La distribución de probabilidad de una estadística de muestreo se conoce como distribución de muestreo.

De acuerdo con un resultado clave en las estadísticas conocido como Teorema del Límite Central, la distribución del muestreo de la media de la muestra es normal si una de dos cosas es cierta:

  • La población subyacente es normal
  • El tamaño de la muestra es de al menos 30

Se necesitan dos momentos para calcular las probabilidades de la media de la muestra; la media de la distribución del muestreo es igual:

La desviación estándar de la distribución de muestreo (también conocida como error estándar) puede tomar uno de dos valores posibles:

Esta es la opción apropiada para una muestra «pequeña»; por ejemplo, el tamaño de la muestra es menor o igual al 5 por ciento del tamaño de la población.

Si la muestra es «grande», se produce el error estándar:

Las probabilidades pueden calcularse para la media de la muestra directamente a partir de la tabla normal estándar aplicando la siguiente fórmula:

Explore las pruebas de hipótesis en las estadísticas empresariales

En estadística, la prueba de hipótesis se refiere al proceso de elegir entre hipótesis competidoras sobre una distribución de probabilidad, basadas en datos observados de la distribución. Es un tema central y una parte fundamental del lenguaje de las estadísticas.

La prueba de hipótesis es un procedimiento de seis pasos:

1. Hipótesis nula

2. Hipótesis alternativa

3. Nivel de significación

4. Estadística de test

5. Valor(es) crítico(s)

6. Regla de decisión

La hipótesis nula es una afirmación que se asume que es cierta a menos que exista una fuerte evidencia contradictoria. La hipótesis alternativa es una afirmación que será aceptada en lugar de la hipótesis nula si es rechazada.

El nivel de significación se elige para controlar la probabilidad de un error de «tipo I»; es el error que se produce cuando se rechaza erróneamente la hipótesis nula.

La estadística de la prueba y los valores críticos se utilizan para determinar si la hipótesis nula debe ser rechazada. La regla de decisión que se sigue es que una estadística de prueba «extrema» resulta en el rechazo de la hipótesis nula. Aquí, una estadística de prueba extrema es aquella que se encuentra fuera de los límites del valor o valores críticos.

A menudo se prueban hipótesis sobre los valores de las medidas de población, como la media y la varianza. También se utilizan para determinar si una población sigue una distribución de probabilidad específica. También constituyen una parte importante del análisis de regresión, en el que se utilizan hipótesis para validar los resultados de una ecuación de regresión estimada.

Cómo utilizan las empresas las estadísticas del análisis de regresión

El análisis de regresión es una herramienta estadística utilizada para la investigación de las relaciones entre variables. Por lo general, el investigador busca determinar el efecto causal de una variable sobre otra -el efecto de un aumento de precios sobre la demanda, por ejemplo, o el efecto de los cambios en la oferta monetaria sobre la tasa de inflación.

El análisis de regresión se utiliza para estimar la fuerza y la dirección de la relación entre dos variables relacionadas linealmente: X e Y. X es la variable «independiente» e Y es la variable «dependiente».

Los dos tipos básicos de análisis de regresión son:

  • Análisis de regresión simple: Se utiliza para estimar la relación entre una variable dependiente y una sola variable independiente; por ejemplo, la relación entre el rendimiento de los cultivos y las precipitaciones.
  • Análisis de regresión múltiple: Se utiliza para estimar la relación entre una variable dependiente y dos o más variables independientes; por ejemplo, la relación entre los salarios de los empleados y su experiencia y educación.

El análisis de regresión se basa en varios supuestos sólidos sobre las variables que se están estimando. Se utilizan varias pruebas clave para asegurar que los resultados son válidos, incluyendo pruebas de hipótesis. Estas pruebas se utilizan para asegurar que los resultados de la regresión no se deben simplemente al azar, sino que indican una relación real entre dos o más variables.

Una ecuación de regresión estimada puede ser usada para una amplia variedad de aplicaciones de negocios, tales como:

  • Medición del impacto en los beneficios de una empresa de un aumento de los beneficios
  • Entender cuán sensibles son las ventas de una corporación a los cambios en los gastos de publicidad
  • Ver cómo se ve afectada la cotización de una acción por las modificaciones de los tipos de interés

El análisis de regresión también se puede utilizar con fines de pronóstico; por ejemplo, se puede utilizar una ecuación de regresión para pronosticar la demanda futura de los productos de una empresa.

Debido a la extrema complejidad del análisis de regresión, a menudo se implementa mediante el uso de calculadoras especializadas o programas de hoja de cálculo.

Responder