Regresión o Ajuste

La observación de una variable estadística bidimensional (X, Y) conlleva la representación de los puntos obtenidos en una nube o diagrama de dispersión.

El problema general de regresión se plantea en el intento de ajustar una función de ecuación conocida (recta, parábola, exponencial, etc.) a la nube de puntos en cuestión, con el interés de obtener una 'predicción' aproximada de una de las variables a partir de la otra.

Entre todas las funciones que se pueden elegir para ajustar a la nube de puntos, ha de seleccionarse la óptima, es decir, la que mejor encaje sobre los puntos, para lo cual se recurre al método de los mínimos cuadrados.

 

Línea de regresión

La función que se pretende obtener será una línea que denotaremos por línea de regresión, cuya ecuación puede ser de distintas formas:

Recta

y = a + b x

 

Parábola

y = a + b x + c x2

Exponencial

y = k ea x

.......................

............................

La regresión adoptará un nombre distinto, dependiendo de la función elegida para el ajuste. De este modo, cuando es una recta, se denomina 'regresión lineal'; cuando es una parábola, se tiene la 'regresión parabólica, etc.

 

Método

Dependiendo de la forma que adopta le nube de puntos, en un principio, se intuirá si ha de emplearse una recta, una parábola, una función mixta, etc. Una vez elegida la línea se han de estimar los parámetros correspondientes de la misma a partir de los datos observados.

En estos casos, los parámetros a estimar serían: 'a', 'b' y 'c'.

Finalmente, una vez realizada la estimación ha de verificarse si efectivamente el ajuste era el idóneo o no. Para ello, se emplean cualesquiera de los tests construidos para estudiar la bondad del ajuste. El test más utilizado es el de la c 2 (chi-cuadrado) de Pearson.

 

Regresión Lineal Mínimo Cuadrática

Cuando la línea de regresión que mejor se ajusta a la nube de puntos es la recta, es un problema de regresión lineal y distinguiremos dos casos:

a> Recta de regresión de Y sobre X: Se obtienen valores aproximados de la variable Y conocidos los valores de la variable X

b> Recta de regresión de X sobre Y: Se obtienen valores aproximados de la variable X conocidos los valores de la variable Y

 

Recta de regresión de Y sobre X

[ y = a + b x ]

 

En cada par de valores (X, Y) consideramos que al valor observado xi le corresponde un valor observado o experimental yj y otro teórico que sería el que le correspondiera en la recta como función. A la distancia entre estos dos valores, teórico y experimental, la denotamos:

El 'método de los mínimos cuadrados' para la obtención de los parámetros 'a' y 'b', toma estas distancias al cuadrado para que no se puedan contrarrestar los signos positivos y negativos, y hacer mínima su suma. En consecuencia, se trata de minimizar la expresión:

Para simplificar el mecanismo en la obtención de la recta de regresión de Y sobre X, suponemos que cada par se repite una sola vez, descartando multiplicidades (ni, j). Por otro lado, para minimizar M, tenemos en cuenta que los valores teóricos sobre la recta son:

 

Hallando las derivadas parciales, respectivamente, de 'a' y 'b' e igualando las ecuaciones resultantes a cero, se tiene:

 

 Con las propiedades del sumatorio, resulta:

Resulta, el sistema de ecuaciones normales de la recta:

 

 

Dividiendo las dos expresiones por N, y como suponemos que la frecuencia absoluta [ ni j = 1 ] de cada par es la unidad, resulta:

Considerando el valor de los Momentos, se tiene:

 

de donde,

Ecuación recta regresión de Y sobre X

 

Test Bondad de Ajuste

Se aplica el test de la c 2 de Pearson para ver si el conjunto de datos observados coincide o no con el conjunto de datos esperados o teóricos. En este sentido, se establece la hipótesis nula:

Ho: " Diferencias entre valores observados y teóricos son debidos al azar"

Se acepta la hipótesis nula Ho a un nivel de significación a , cuando

 En caso contrario, se rechaza la Hipótesis nula.

NOTA.- 'p' es el número de parámetros que necesitamos hallar para obtener los valores teóricos (en el caso de la regresión lineal, p = 2)

Coeficiente (b YX) de regresión

El coeficiente de regresión se suele denotar por b YX, es la pendiente (el coeficiente angular) de la recta de regresión de Y sobre X, siendo: 

 

 

Coeficiente r de correlación lineal

El coeficiente de correlación lineal  r es un número abstracto que determina el grado de ajuste entre una nube de puntos y una recta de regresión. Esta definido por la media geométrica de los coeficientes de regresión lineal.

 

Recta de regresión de X sobre Y

[ x = c + d y ]

Por un proceso exactamente igual, se llega a la conclusión: