Probabilidad y Estadística: 5.3 Regresión y correlación

REGRESIÓN

La regresión estadística o regresión a la media es la tendencia de una medición extrema a presentarse más cercana a la media en una segunda medición. La regresión se utiliza para predecir una medida basándonos en el conocimiento de otra.

MODELOS DE REGRESIÓN

En estadística la regresión lineal o ajuste lineal es un método matemático que modeliza la relación entre una variable dependiente Y, las variables independientes X_i y un término aleatorio ε. Este modelo puede ser expresado como:

$Y_t = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \cdots +\beta_p X_p + \varepsilon$

$Y_t$ : variable dependiente, explicada o regresando.

$X_1, X_2, \cdots, X_p$ : variables explicativas, independientes o regresores.

$\beta_0,\beta_1,\beta_2,\cdots ,\beta_p$ : parámetros, miden la influencia que las variables explicativas tienen sobre el regresando.

donde $\beta_0$ es la intersección o término "constante", las $\beta_i \ (i > 0)$ son los parámetros respectivos a cada variable independiente, y $p$ es el número de parámetros independientes a tener en cuenta en la regresión. La regresión lineal puede ser contrastada con la regresión no lineal.

El modelo lineal relaciona la variable dependiente Y con K variables explicativas $X_k$ (k = 1,...K), o cualquier transformación de éstas, que generan un hiperplano de parámetros $\beta_k$ desconocidos:

$Y = \sum \beta_k X_k + \varepsilon$

donde $\varepsilon$ es la perturbación aleatoria que recoge todos aquellos factores de la realidad no controlables u observables y que por tanto se asocian con el azar, y es la que confiere al modelo su carácter estocástico. En el caso más sencillo, con una sola variable explicativa, el hiperplano es una recta:

$Y = \beta_1 + \beta_2 X_2 + \varepsilon$

El problema de la regresión consiste en elegir unos valores determinados para los parámetros desconocidos $\beta_k$ , de modo que la ecuación quede completamente especificada. Para ello se necesita un conjunto de observaciones. En una observación cualquiera i-ésima (i= 1,... I) se registra el comportamiento simultáneo de la variable dependiente y las variables explicativas (las perturbaciones aleatorias se suponen no observables).

$Y_i = \sum \beta_k X_{ki} + \varepsilon_i$

Los valores escogidos como estimadores de los parámetros, $\hat{\beta_k}$ , son los coeficientes de regresión, sin que se pueda garantizar que coinciden con parámetros reales del proceso generador. Por tanto, en

$Y_i = \sum \hat{\beta_k} X_{ki} + \hat{\varepsilon_i}$

Los valores $\hat{\varepsilon_i}$ son por su parte estimaciones de la perturbación aleatoria o errores.

En estadística, la regresión no lineal es un problema de inferencia para un modelo tipo:

$y = f(x,\theta) + \varepsilon$

basado en datos multidimensionales $x$ , $y$ , donde $f$ es alguna función no lineal respecto a algunos parámetros desconocidos θ. Como mínimo, se pretende obtener los valores de los parámetros asociados con la mejor curva de ajuste (habitualmente, con el método de los mínimos cuadrados). Con el fin de determinar si el modelo es adecuado, puede ser necesario utilizar conceptos de inferencia estadística tales como intervalos de confianza para los parámetros así como pruebas de bondad de ajuste.

El objetivo de la regresión no lineal se puede clarificar al considerar el caso de la regresión polinomial, la cual es mejor no tratar como un caso de regresión no lineal. Cuando la función $f$ toma la forma:

$f(x) = a x^2 + bx + c$

la función $f$ es no lineal en función de $x$ pero lineal en función de los parámetros desconocidos $a$ , $b$ , y $c$ . Este es el sentido del término "lineal" en el contexto de la regresión estadística. Los procedimientos computacionales para la regresión polinomial son procedimientos de regresión lineal (múltiple), en este caso con dos variables predictoras $x$ y $x^2$ . Sin embargo, en ocasiones se sugiere que la regresión no lineal es necesaria para ajustar polinomios. Las consecuencias prácticas de esta mala interpretación conducen a que un procedimiento de optimización no lineal sea usado cuando en realidad hay una solución disponible en términos de regresión lineal. Paquetes (software) estadísticos consideran, por lo general, más alternativas de regresión lineal que de regresión no lineal en sus procedimientos.

CORRELACIÓN

En probabilidad y estadística, la correlación indica la fuerza y la dirección de una relación lineal y proporcionalidad entre dos variables estadísticas. Se considera que dos variables cuantitativas están correlacionadas cuando los valores de una de ellas varían sistemáticamente con respecto a los valores homónimos de la otra: si tenemos dos variables (A y B) existe correlación si al aumentar los valores de A lo hacen también los de B y viceversa. La correlación entre dos variables no implica, por sí misma, ninguna relación de causalidad

Fuerza, sentido y forma de la correlación

La relación entre dos super variables cuantitativas queda representada mediante la línea de mejor ajuste, trazada a partir de la nube de puntos. Los principales componentes elementales de una línea de ajuste y, por lo tanto, de una correlación, son la fuerza, el sentido y la forma:

La fuerza extrema según el caso, mide el grado en que la línea representa a la nube de puntos: si la nube es estrecha y alargada, se representa por una línea recta, lo que indica que la relación es fuerte; si la nube de puntos tiene una tendencia elíptica o circular, la relación es débil.
El sentido mide la variación de los valores de B con respecto a A: si al crecer los valores de A lo hacen los de B, la relación es positiva; si al crecer los valores de A disminuyen los de B, la relación es negativa.
La forma establece el tipo de línea que define el mejor ajuste: la línea recta, la curva monotónica o la curva no monotónica.

Distribución del coeficiente de correlación

El coeficiente de correlación muestral de una muestra es de hecho una varible aleatoria, eso significa que si repetimos un experimento o consideramos diferentes muestras se obtendrán valores diferentes y por tanto el coeficiente de correlación muestral calculado a partir de ellas tendrá valores ligeramente diferentes. Para muestras grandes la variación en dicho coeficiente será menor que para muestras pequeñas. R. A. Fisher fue el primero en determinar la distribución de probabilidad para el coeficiente de correlación.

Si las dos variables aleatorias que trata de relacionarse proceden de una distribución gaussiana bivariante entonces el coeficiente de correlación r sigue una distribución de probabilidad dada por:¹²

$f\left(r\right) = \frac{\left(n - 2\right)\, \mathbf{\Gamma}\left(n - 1\right) \left(1 - \rho^2\right)^{\frac{n - 1}{2}} \left(1 - r^2\right)^{\frac{n - 4}{2}}}{\sqrt{2\pi}\, \mathbf{\Gamma}\left(n - \frac{1}{2}\right) \left(1 - \rho r\right)^{n - \frac{3}{2}}} \,\mathbf{_2F_1}\left(\frac{1}{2}, \frac{1}{2}; \frac{2n - 1}{2}; \frac{\rho r + 1}{2}\right)$

donde:

$\mathbf{\Gamma}$ es la distribución gamma

$\,\mathbf{_2F_1}(a,b;c;z)$ es la función gaussiana hipergeométrica.

Nótese que $E\left(r\right) = \rho - \frac{\rho \left(1 - \rho^2\right)}{2 \left(n - 1\right)} + \cdots$ , por tanto r es estimador sesgado de $\,\rho$ .

Puede obtenerse un estimador aproximado no sesgado resolviendo la ecuación:

$r = E\left(r\right) = \rho - \frac{\rho \left(1 - \rho^2\right)}{2 \left(n - 1\right)}$ for $\,\rho$

Aunque, la solucón:

$\breve{\rho} = r \left[1 + \frac{1 - r^2}{2\left(n - 1\right)}\right]$

es subóptima. Se puede obtener un estimador sesgado con mínima varianza para grandes valores de n, con sesgo de orden $\frac{1}{n - 1}$ buscando el máximo de la expresión: