Regresión Múltiple: Conceptos, Aplicaciones y Mejores Prácticas

Tipos de Modelos de Regresión

  • Según la ecuación de ajuste:
    • Regresión lineal: Si la ecuación de ajuste es una recta.
    • Regresión no lineal (Logit): Si la ecuación de ajuste no es una recta.
  • Según el número de variables:
    • Simple: Una variable dependiente y una independiente.
    • Múltiple: Una variable dependiente y varias independientes.

Proceso de Decisión en la Regresión Múltiple

  1. Formulación del Modelo General: Análisis bivariante mediante gráficos de dispersión y correlaciones bivariadas.
  2. Estimación de los Parámetros: Método de Mínimos Cuadrados y coeficientes de regresión estandarizados.
  3. Inferencia (Test de significación): Significación del modelo en general (ANOVA) y de los coeficientes de regresión (t-Student).
  4. Determinación de la Fortaleza y Construcción del Modelo: Índice R2 y técnicas de construcción de modelos.
  5. Predicción (Examen de los Residuos): Exactitud de la predicción y adecuación del modelo.

Formulación del Modelo General

Se utiliza para describir la relación que existe entre una variable dependiente y varias independientes. El objetivo es encontrar una ecuación de regresión para una variable dependiente en función de un conjunto de variables independientes.

Modelo general: Y (v. dependiente. Criterio a explicar) = B0 + B1X1 + B2X2… (B = constante – cambio esperado en la dependiente / X = v. independientes)

Estimación de los Parámetros

El objetivo es encontrar las estimaciones de los valores de β1, β2, … que “mejor” describen la relación real entre la variable dependiente y las variables independientes.

El Método de estimación por Mínimos Cuadrados puede extenderse a modelos con más de una variable independiente.

Ecuación deseada: Y^ = B^0 + B^1X1 + … aquella que minimiza el cuadrado de la desviación total entre los datos reales y los valores estimados por el modelo de regresión. Y^ = el valor de la variable dependiente estimada para un conjunto de valores de las variables independientes.

Se utiliza para encontrar la ecuación de la línea que produce la recta de mejor ajuste (representación de la realidad), sin existir otra que esté más próxima a los puntos (única).

  1. Aunque la línea no pase por ningún punto, es la que más se acerca.
  2. La distancia entre los puntos y la línea = desviación/errores del modelo (residuos).
  3. Queremos la línea que minimice los residuos.

Coeficientes de Regresión Estandarizados: La tipificación es el proceso en donde las variables originales son transformadas en nuevas que se caracterizan por tener media 0 y varianza 1. (Z = (X – Ẍ) / s)

Cuando las variables son estandarizadas y la constante es 0, esta se anula. Los coeficientes beta se denominan coeficientes de regresión estandarizados. El coeficiente de regresión estandarizado coincide con el coeficiente de correlación simple entre X e Y (r de Pearson).

Inferencia: Test de Significación

Una vez que tenemos la regresión, queremos saber si la relación entre las variables es “significativa”.

Significación o Validez General del Modelo

Se testa la significación del modelo como ecuación de regresión general. La hipótesis nula: H0: B1 = B2 = … = 0

Si el p-valor es < 0,05 (nivel de significación), la hipótesis nula se rechaza, ya que hay coeficientes de regresión con valor distinto de 0.

Los resultados: el modelo es significativo cuando H0 es rechazada (< 0,05) – al menos uno de los coeficientes de la regresión no es nulo.

El test F: la cantidad de varianza en la variable dependiente es significativamente mayor que la cantidad que no explica.

Test para los Coeficientes Individuales (t-Student)

Para determinar qué coeficientes son nulos (variables útiles para predecir el valor de la variable dependiente) H0: B1 = 0 / H0: B1 ≠ 0 (Si el p-valor es < 0,05, el nivel de significación de la hipótesis nula se rechaza).

Si eliminamos una variable, “el modelo cambia”. Hay que volver a ejecutar el análisis y obtener un nuevo modelo. (Eliminar las variables con valores de p-valor < 0.05: el modelo cambia, pero el valor de R2 no varía, o el R2 disminuye, pero los coeficientes del modelo permanecen más o menos igual). Técnicas: model-building techniques, que tratan de encontrar el “mejor modelo” a partir de un conjunto de variables de entrada. Mejor es aquel que, con menor número de variables, es capaz de explicar la mayor proporción de la varianza de la variable dependiente.

Fortaleza de la Relación entre Variables

La fuerza de la relación entre Y y el conjunto de variables X se mide a través del coeficiente de determinación múltiple, R2. Varía entre 0 y 1, y es una medida que indica el porcentaje de la varianza de la variable dependiente, E, explicado por el conjunto completo de variables independientes, X1, X2, …

Características del R2

Cuantas más variables, el R2 incrementa, pero no quiere decir que el modelo sea mejor. A más variables, mayor complejidad. A mayor variable, mayor es el número de maneras que pueden interactuar las unas con las otras. Todo esto resulta en modelos inestables.

  • R2 será mayor cuando las correlaciones entre las variables independientes sean bajas.
  • R2 ajustado: Después de las primeras variables introducidas en el modelo, las variables independientes adicionales no aportan mucho al modelo, tienen una baja contribución. Por esta razón, el R2 es ajustado por el número de variables independientes y el tamaño muestral: Ajuste R2 = R2 – [(k (1 – R2)) / (nk – 1)]

n: tamaño muestral

k: nº variables indep.

Puede disminuir a medida que añadimos variables al modelo, ya que estas variables no realizan ninguna contribución al modelo explicando parte de la varianza de la variable dependiente.

Model Building Techniques

Métodos utilizados para identificar el mejor Modelo de Regresión Múltiple seleccionando, de entre un gran número de variables independientes, un pequeño subconjunto de variables que recojan la mayor parte de la varianza de la variable dependiente. En este proceso, las variables independientes entran o salen de la ecuación de regresión de una en una. Entre estas técnicas se encuentran:

  • Forward inclusion: Se construye el modelo añadiendo (entered) variables de una en una, hasta que la incorporación de variables no consigue mejorar el modelo.
  • Backward elimination: Todas las variables están incluidas de inicio y son eliminadas (removed) de una en una hasta que el modelo comienza a deteriorarse.
  • Stepwise solution: Es una combinación de los dos métodos anteriores. Forward inclusion se combina con la eliminación de las variables independientes que no verifican el criterio específico establecido en cada etapa.

Predicciones

Una vez que tenemos la ecuación de regresión, podemos utilizarla para predecir los valores de la variable dependiente, Y, a partir de los distintos valores del conjunto de variables independientes X.

Dos Tipos de Predicciones

  • Valores de Y dentro del rango de valores de X, interpolación.
  • Valores de Y fuera del rango de valores observados de X, extrapolación.

Residuos

Una medida cuantitativa de la correspondencia entre la línea ajustada y los datos reales se obtiene estudiando las diferencias entre los valores observados y estimados de Y para cada valor de X. (e = yi – y^i)

Precisión de la Predicción. Standard Error of Estimate (SEE)

Es una medida de cuánto varían los datos alrededor de la línea de regresión. Este estadístico es la desviación típica de los residuos. La precisión de la predicción viene dada por la variación media de los datos alrededor de la línea de regresión. (SEE = )

Adecuación del Modelo

Un modelo puede darnos buenas predicciones y tener un alto valor de R2 y aún no ser un buen Modelo de Regresión Múltiple.

Análisis de los Residuos (Ruido Blanco)

Supuestos básicos sobre los residuos (término de error): Y = B0 + B1X1 + … + e

  • Media cero.
  • Varianza constante.
  • Incorrelados; independientes entre sí.
  • Distribución Normal.

Los gráficos de dispersión de los residuos nos proporcionan información útil para examinar la idoneidad de los supuestos subyacentes y el ajuste del modelo de regresión.

  • El supuesto de varianza constante de los errores puede ser examinado dibujando los residuos contra los valores estimados de la variable dependiente.
  • Un gráfico de los residuos a lo largo del tiempo, o la secuencia de observaciones, nos ayudará a examinar el supuesto de incorrelación de los residuos. Debe observarse un patrón aleatorio para que este supuesto sea cierto.

(Abierto… línea recta): Gráfico de los residuos que nos indica que la varianza no es constante.

(Recto – diagonal): Gráfico que nos indica una relación lineal entre los residuos a lo largo del tiempo.

  • Graficar los residuos contra las variables independientes nos dará evidencias de lo apropiado o no de utilizar un modelo lineal. El gráfico debería mostrar un patrón de comportamiento aleatorio. Los residuos deben estar distribuidos aleatoriamente alrededor de cero.

Para decidir si el supuesto sobre si los residuos presentan una distribución normal es cierto, podemos utilizar el gráfico de probabilidad normal o un histograma, exactamente igual que se hace en el Análisis de Regresión Simple. Si el examen de los residuos indica que los supuestos subyacentes de la Regresión Lineal no se cumplen, el investigador puede transformar las variables en un intento por satisfacer dichos supuestos. Logs, raíces cuadradas, o recíprocas, pueden estabilizar la varianza, hacer que la distribución sea normal, o la relación lineal.

Multicolinealidad

Surge cuando las intercorrelaciones entre las variables “independientes” es muy alta. Las variables en el conjunto de variables independientes están correlacionadas entre sí. Cuando esto sucede, puede dar lugar a varios problemas:

  • Las magnitudes, así como los signos de los coeficientes de regresión, pueden cambiar de forma muestra tras muestra, presentando valores ilógicos.
  • Se hace difícil evaluar la importancia relativa de las variables independientes para explicar la varianza de la variable dependiente.
  • Las variables independientes pueden ser incorrectamente incluidas o eliminadas en la regresión por etapas (stepwise regression).
  • Los coeficientes de regresión no se pueden estimar con precisión, sus desviaciones típicas (standard errors) tienden a ser altos.

Cuando los coeficientes tienen una elevada desviación típica y, por tanto, presentan un pequeño valor del estadístico t, es posible que el modelo pueda ser significativo en su conjunto, pero que ningún coeficiente individual sea significativamente distinto de cero. ¡Esto es una contradicción y una indicación de que algo va mal!

La Tolerancia es uno de los indicadores más útiles para detectar la existencia de Multicolinealidad. Se define para cada variable independiente, como el tanto por uno de su varianza no explicada por el resto de variables. Siendo R2i el coeficiente de determinación múltiple cuando la i-ésima variable independiente es considerada como variable dependiente y se calcula la ecuación de regresión entre ella y el resto de variables independientes. Un alto valor de R2i indicaría que la variable independiente i es casi una combinación lineal de las otras variables independientes. La proporción de varianza no explicada por las otras variables sería: (1 – R2) = tolerancia

Soluciones

  • Un sencillo método para detectar la Multicolinealidad es calcular las correlaciones entre cada par de variables independientes y ver si existen valores altos cerca de 1 o -1. Si parece que algunas variables están altamente correlacionadas entre sí, entonces el analista puede concentrarse en modelos que no incluyan ambas variables, utilizando solamente una de ellas.
  • Alternativamente, el conjunto de variables independientes puede ser transformado en un nuevo conjunto de variables predictoras que sean totalmente independientes entre sí utilizando la técnica del Análisis de Componentes Principales.
  • En algunas ocasiones existe un problema con el tamaño de la muestra y necesitamos obtener más observaciones o casos.

Importancia Relativa de las Variables Independientes

Cuando la Multicolinealidad aparece, debemos tener especial cuidado a la hora de evaluar la importancia relativa de las variables independientes.

  1. Significación estadística: Si los coeficientes de regresión no son significativos, esa variable se considera de poca o nula importancia.
  2. Incremento en el R2: Si el R2 se incrementa cuando introducimos una variable en la ecuación de regresión que ya contiene el resto de variables independientes, esa variable es importante ya que contribuye a explicar la variable dependiente.
  3. Medidas basadas en los coeficientes estandarizados o betas: Las medidas más utilizadas son el valor absoluto de los betas, o sus valores al cuadrado.
  4. Regresión por etapas (stepwise regression): El orden en el cual las variables predictoras entran o salen de la ecuación de la regresión puede ser utilizado para deducir su importancia relativa.

Validación Cruzada

Además de la Multicolinealidad, la “sobreestimación” del modelo puede ser un problema importante. Esta situación ocurre cuando el enfoque “más es mejor” se adopta para la modelización. Si se agregan suficientes variables al modelo, podemos conseguir un ajuste casi perfecto para el conjunto de variables de entrada que estamos utilizando. El problema es que el ajuste perfecto es sólo para ese conjunto particular de datos. Si varía el conjunto de datos, entonces el modelo también variará tremendamente, lo que le hace casi inútil para el análisis “what if” y la gestión de escenarios. Un método para evaluar el modelo de éste y otros problemas es la validación cruzada utilizada en la Investigación Comercial de la siguiente manera:

  1. El Modelo de Regresión se estima utilizando el conjunto completo de datos.
  2. Los datos disponibles se dividen en 2 partes, la muestra de estimación (50-90% de la muestra total) y la muestra de validación.
  3. Calculamos el Modelo de Regresión utilizando sólo los datos de la “muestra de estimación”. Comparamos este modelo con el modelo estimado sobre la muestra completa para determinar la correspondencia de los signos y magnitudes de los coeficientes de regresión.
  4. El modelo obtenido se aplica a los datos de la “muestra de validación” para predecir los valores de la variable dependiente, a partir de las observaciones contenidas en esta muestra.
  5. Los valores observados y estimados en la “muestra de validación” se correlacionan entre sí para calcular su coeficiente de correlación simple al cuadrado (simple r2). Esta medida se compara con el R2 para la “muestra total” y el R2 de la “muestra de estimación” para evaluar el grado de contracción.

Análisis de Regresión con Variables Dummy

Las variables no métricas (nominales o categóricas) pueden ser utilizadas como variables independientes si las codificamos como variables dummy. Y = B0 + B1D1 + …