viernes, 15 de junio de 2012

5.3 Regresión y correlación

REGRESIÓN
La regresión estadística o regresión a la media es la tendencia de una medición extrema a presentarse más cercana a la media en una segunda medición. La regresión se utiliza para predecir una medida basándonos en el conocimiento de otra.

MODELOS DE REGRESIÓN

En estadística la regresión lineal o ajuste lineal es un método matemático que modeliza la relación entre una variable dependiente Y, las variables independientes Xi y un término aleatorio ε. Este modelo puede ser expresado como:
Y_t = \beta_0  + \beta_1 X_1 + \beta_2 X_2 +  \cdots +\beta_p X_p + \varepsilon
Y_t: variable dependiente, explicada o regresando.
X_1, X_2, \cdots, X_p : variables explicativas, independientes o regresores.
\beta_0,\beta_1,\beta_2,\cdots ,\beta_p : parámetros, miden la influencia que las variables explicativas tienen sobre el regresando.
donde \beta_0 es la intersección o término "constante", las \beta_i \ (i > 0) son los parámetros respectivos a cada variable independiente, y p es el número de parámetros independientes a tener en cuenta en la regresión. La regresión lineal puede ser contrastada con la regresión no lineal.
El modelo lineal relaciona la variable dependiente Y con K variables explicativas  X_k  (k = 1,...K), o cualquier transformación de éstas, que generan un hiperplano de parámetros  \beta_k desconocidos:
 Y = \sum \beta_k X_k + \varepsilon
donde  \varepsilon  es la perturbación aleatoria que recoge todos aquellos factores de la realidad no controlables u observables y que por tanto se asocian con el azar, y es la que confiere al modelo su carácter estocástico. En el caso más sencillo, con una sola variable explicativa, el hiperplano es una recta:
 Y = \beta_1 + \beta_2 X_2 + \varepsilon
El problema de la regresión consiste en elegir unos valores determinados para los parámetros desconocidos \beta_k, de modo que la ecuación quede completamente especificada. Para ello se necesita un conjunto de observaciones. En una observación cualquiera i-ésima (i= 1,... I) se registra el comportamiento simultáneo de la variable dependiente y las variables explicativas (las perturbaciones aleatorias se suponen no observables).
 Y_i = \sum \beta_k X_{ki} + \varepsilon_i
Los valores escogidos como estimadores de los parámetros, \hat{\beta_k}, son los coeficientes de regresión, sin que se pueda garantizar que coinciden con parámetros reales del proceso generador. Por tanto, en
 Y_i = \sum \hat{\beta_k} X_{ki} + \hat{\varepsilon_i}
Los valores  \hat{\varepsilon_i}  son por su parte estimaciones de la perturbación aleatoria o errores.
En estadística, la regresión no lineal es un problema de inferencia para un modelo tipo:
 y = f(x,\theta) + \varepsilon
basado en datos multidimensionales x,y, donde f es alguna función no lineal respecto a algunos parámetros desconocidos θ. Como mínimo, se pretende obtener los valores de los parámetros asociados con la mejor curva de ajuste (habitualmente, con el método de los mínimos cuadrados). Con el fin de determinar si el modelo es adecuado, puede ser necesario utilizar conceptos de inferencia estadística tales como intervalos de confianza para los parámetros así como pruebas de bondad de ajuste.
El objetivo de la regresión no lineal se puede clarificar al considerar el caso de la regresión polinomial, la cual es mejor no tratar como un caso de regresión no lineal. Cuando la función f toma la forma:
f(x) = a x^2 + bx + c
la función f es no lineal en función de x pero lineal en función de los parámetros desconocidos ab, yc. Este es el sentido del término "lineal" en el contexto de la regresión estadística. Los procedimientos computacionales para la regresión polinomial son procedimientos de regresión lineal (múltiple), en este caso con dos variables predictoras x y x^2. Sin embargo, en ocasiones se sugiere que la regresión no lineal es necesaria para ajustar polinomios. Las consecuencias prácticas de esta mala interpretación conducen a que un procedimiento de optimización no lineal sea usado cuando en realidad hay una solución disponible en términos de regresión lineal. Paquetes (software) estadísticos consideran, por lo general, más alternativas de regresión lineal que de regresión no lineal en sus procedimientos.

CORRELACIÓN
En probabilidad y estadística, la correlación indica la fuerza y la dirección de una relación lineal y proporcionalidad entre dos variables estadísticas. Se considera que dos variables cuantitativas están correlacionadas cuando los valores de una de ellas varían sistemáticamente con respecto a los valores homónimos de la otra: si tenemos dos variables (A y B) existe correlación si al aumentar los valores de A lo hacen también los de B y viceversa. La correlación entre dos variables no implica, por sí misma, ninguna relación de causalidad
Fuerza, sentido y forma de la correlación
La relación entre dos super variables cuantitativas queda representada mediante la línea de mejor ajuste, trazada a partir de la nube de puntos. Los principales componentes elementales de una línea de ajuste y, por lo tanto, de una correlación, son la fuerza, el sentido y la forma:
  • La fuerza extrema según el caso, mide el grado en que la línea representa a la nube de puntos: si la nube es estrecha y alargada, se representa por una línea recta, lo que indica que la relación es fuerte; si la nube de puntos tiene una tendencia elíptica o circular, la relación es débil.
  • El sentido mide la variación de los valores de B con respecto a A: si al crecer los valores de A lo hacen los de B, la relación es positiva; si al crecer los valores de A disminuyen los de B, la relación es negativa.
  • La forma establece el tipo de línea que define el mejor ajuste: la línea recta, la curva monotónica o la curva no monotónica.

Distribución del coeficiente de correlación

El coeficiente de correlación muestral de una muestra es de hecho una varible aleatoria, eso significa que si repetimos un experimento o consideramos diferentes muestras se obtendrán valores diferentes y por tanto el coeficiente de correlación muestral calculado a partir de ellas tendrá valores ligeramente diferentes. Para muestras grandes la variación en dicho coeficiente será menor que para muestras pequeñas. R. A. Fisher fue el primero en determinar la distribución de probabilidad para el coeficiente de correlación.
Si las dos variables aleatorias que trata de relacionarse proceden de una distribución gaussiana bivariante entonces el coeficiente de correlación r sigue una distribución de probabilidad dada por:12
f\left(r\right) = \frac{\left(n - 2\right)\, \mathbf{\Gamma}\left(n - 1\right) \left(1 - \rho^2\right)^{\frac{n - 1}{2}} \left(1 - r^2\right)^{\frac{n - 4}{2}}}{\sqrt{2\pi}\, \mathbf{\Gamma}\left(n - \frac{1}{2}\right) \left(1 - \rho r\right)^{n - \frac{3}{2}}} \,\mathbf{_2F_1}\left(\frac{1}{2}, \frac{1}{2}; \frac{2n - 1}{2}; \frac{\rho r + 1}{2}\right)
donde:
\mathbf{\Gamma} es la distribución gamma
\,\mathbf{_2F_1}(a,b;c;z) es la función gaussiana hipergeométrica.
Nótese que E\left(r\right) = \rho - \frac{\rho \left(1 - \rho^2\right)}{2 \left(n - 1\right)} + \cdots , por tanto r es estimador sesgado de \,\rho.
Puede obtenerse un estimador aproximado no sesgado resolviendo la ecuación:
r = E\left(r\right) = \rho - \frac{\rho \left(1 - \rho^2\right)}{2 \left(n - 1\right)} for \,\rho
Aunque, la solucón:
\breve{\rho} = r \left[1 + \frac{1 - r^2}{2\left(n - 1\right)}\right]
es subóptima. Se puede obtener un estimador sesgado con mínima varianza para grandes valores de n, con sesgo de orden \frac{1}{n - 1} buscando el máximo de la expresión:
\log{f\left(r\right)}, i.e. \hat{\rho} = r \left[1 - \frac{1 - r^2}{2\left(n - 1\right)}\right]
En el caso especial de que \,\rho = 0, la distribución original puede ser reescrita como:
f\left(r\right) = \frac{\left(1 - r^2\right)^{\frac{n - 4}{2}}}{\mathbf{B}\left(\frac{1}{2}, \frac{n - 2}{2}\right)}
donde \mathbf{B} es la función beta.



5.2 Estimaciones puntuales y por intervalos de confianza

ESTIMACIÓN PUNTUAL
Consiste en la estimación del valor del parámetro mediante un sólo valor, obtenido de una fórmula determinada. Por ejemplo, si se pretende estimar la talla media de un determinado grupo de individuos, puede extraerse una muestra y ofrecer como estimación puntual la talla media de los individuos. Lo más importante de un estimador, es que sea un estimador eficiente. Es decir, que sea insesgado(ausencia de sesgos) y estable en el muestreo o eficiente (varianza mínima)

ESTIMACIÓN POR INTERVALOS DE CONFIANZA
En estadística, se llama intervalo de confianza a un par de números entre los cuales se estima que estará cierto valor desconocido con una determinada probabilidad de acierto. Formalmente, estos números determinan un intervalo, que se calcula a partir de datos de una muestra, y el valor desconocido es un parámetro poblacional. La probabilidad de éxito en la estimación se representa con 1 - α y se denomina nivel de confianza. En estas circunstancias, α es el llamado error aleatorio o nivel de significación, esto es, una medida de las posibilidades de fallar en la estimación mediante tal intervalo.
El nivel de confianza y la amplitud del intervalo varían conjuntamente, de forma que un intervalo más amplio tendrá más posibilidades de acierto (mayor nivel de confianza), mientras que para un intervalo más pequeño, que ofrece una estimación más precisa, aumentan sus posibilidades de error.
Para la construcción de un determinado intervalo de confianza es necesario conocer la distribución teórica que sigue el parámetro a estimar, θ. Es habitual que el parámetro presente una distribución normal. También pueden construirse intervalos de confianza con ladesigualdad de Chebyshov.
En definitiva, un intervalo de confianza al 1 - α por ciento para la estimación de un parámetro poblacional θ que sigue una determinada distribución de probabilidad, es una expresión del tipo [θ1,θ2] tal que P[θ1 ≤ θ ≤ θ2] = 1 - α, donde P es la función de distribución de probabilidad de θ.

Intervalo de confianza para la media de una población

De una población de media \mu y desviación típica \sigma se pueden tomar muestras de n elementos. Cada una de estas muestras tiene a su vez una media (\bar{x}). Se puede demostrar que la media de todas las medias muestrales coincide con la media poblacional: \mu_{\bar{x}} = \mu
Pero además, si el tamaño de las muestras es lo suficientemente grande, la distribución de medias muestrales es, prácticamente, una distribución normal (o gaussiana) con media μ y una desviación típica dada por la siguiente expresión: \sigma_{\bar{x}} = \frac{\sigma}{\sqrt{n}}. Esto se representa como sigue: \bar{X} \sim N(\mu, \frac{\sigma}{\sqrt{n}}). Si estandarizamos, se sigue que: \frac{\bar{X} - \mu}{\frac{\sigma}{\sqrt{n}}}=Z \sim N(0, 1)
En una distribución Z ~ N(0, 1) puede calcularse fácilmente un intervalo dentro del cual caigan un determinado porcentaje de las observaciones, esto es, es sencillo hallar z1 y z2 tales que P[z1 ≤ z ≤ z2] = 1 - α, donde (1 - α)·100 es el porcentaje deseado.
Se desea obtener una expresión tal que P\left[\mu_1 \le \mu \le \mu_2\right] = 1 - \alpha
En esta distribución normal de medias se puede calcular el intervalo de confianza donde se encontrará la media poblacional si sólo se conoce una media muestral (\bar{x}), con una confianza determinada. Habitualmente se manejan valores de confianza del 95 y del 99 por ciento. A este valor se le llamará 1 - \alpha (debido a que \alpha es el error que se cometerá, un término opuesto).
Para ello se necesita calcular el punto X_{\alpha/2} —o, mejor dicho, su versión estandarizada Z_{\alpha/2} o valor crítico— junto con su "opuesto en la distribución" X_{-\alpha/2}. Estos puntos delimitan la probabilidad para el intervalo, como se muestra en la siguiente imagen:
ConfIntervNormalP.png
Dicho punto es el número tal que:
\mathbb{P}[\bar{x} \ge X_{\alpha/2}] = \mathbb{P}[z \ge z_{\alpha/2}] = \alpha/2
Y en la versión estandarizada se cumple que:
z_{-\alpha/2} = -z_{\alpha/2}
Así:
\mathbb{P}\left[-z_{\alpha/2} \le \frac{\bar{x} - \mu}{\frac{\sigma}{\sqrt{n}}} \le z_{\alpha/2}\right] = 1 - \alpha
Haciendo operaciones es posible despejar \mu para obtener el intervalo:
\mathbb{P}\left[\bar{x} - z_{\alpha/2}\frac{\sigma}{\sqrt{n}} \le \mu \le \bar{x} + z_{\alpha/2}\frac{\sigma}{\sqrt{n}}\right] = 1 - \alpha
De lo cual se obtendrá el intervalo de confianza:
(\bar{x} - z_{\alpha/2}\frac{\sigma}{\sqrt{n}}, \bar{x} + z_{\alpha/2}\frac{\sigma}{\sqrt{n}})
Obsérvese que el intervalo de confianza viene dado por la media muestral (\bar{x}) ± el producto del valor crítico Z_{\alpha/2} por el error estándar (\frac{\sigma}{\sqrt{n}}).
Si no se conoce \sigma y n es grande (habitualmente se toma n ≥ 30):
(\bar{x} - z_{\alpha/2}\frac{s}{\sqrt{n}}, \bar{x} + z_{\alpha/2}\frac{s}{\sqrt{n}}), donde s es la desviación típica de una muestra.
Aproximaciones para el valor z_{\alpha/2} para los niveles de confianza estándar son 1,96 para 1 - \alpha = 95% y 2,576 para 1 - \alpha = 99%.