350
300
f(x)=ax+b
Moving average trend line with period = %PERIOD
R2=0.99
R² = NaN
250
REGRESIÓN
200
150
0 200 400 600 800 1000 1200 1400 1600
100
X Y
50
0
REGRESIÓN
“Es una forma de estudiar la asociación o relación, entre
una variable dependiente (Y) y la variable que es la base de
la predicción a la que se le denomina variable
independiente (X) ”
Y
El propósito del análisis de regresión es usar los datos
o valores observados de las variables, para realizar
estimaciones, en base a una relación funcional.
Regresión Simple, cuando en el Regresión Múltiple. cuando se considera
análisis de regresión, se utiliza sólo dos o más variables independientes .
una variable independiente.
y=f(X1,X2) X2
y=f(x)
X1
X
Donde:
y ………………………... es la variable dependiente,
x, x1, x2, . . . , xk, ………….son variables independientes.
También se clasifica en lineal y no lineal, según el comportamiento de las
variables.
Qué vamos a estudiar
En esta unidad estudiaremos la Regresión Lineal simple, es
decir, vamos a tratar diferentes formas de describir la relación
entre dos variables cuando estas son numéricas.
Ejemplo:
Estudiar si hay relación
entre la altura (X ) y el peso (Y ).
y=f(x)
X
El tiempo de estudio dedicado
a un curso (X) , esta relacionado 20
con la calificación obtenida (Y)
MODELO DE REGRESIÓN LINEAL SIMPLE
Se busca encontrar una función de X muy simple (lineal) que
nos permita aproximar Y mediante la siguiente formula:
Y
Y = b0 + b1 X
s
te
eni
b0 (ordenada en el origen,
nd
pe
constante)
De
b1 (pendiente de la recta)
X
Esta Y e Y rara vez coincidirán
ientes
determinado Independ por muy bueno que sea el
s
por 2 Explicativa modelo de regresión. A la
s
Predictora cantidad e=Y-Y se le
variables:
denomina residuo o error
residual.
Qué hacer para realizar una regresión
El paso inicial que generalmente Y
se realiza, es la construcción del
Diagrama De Dispersión.
El 2º paso es, a través del
Método de los Mínimos
Cuadrados, estimar los
Coeficientes de Regresión ( b0 X
y b1) para establecer la recta de Y = b0 + b1 X
regresión.
b0 (ordenada en el origen,
constante)
b1 (pendiente de la recta)
Finalmente, cuando se realiza una predicción estadística,
siempre será útil calcular una medida que indique que tan
preciso es el pronóstico de Y sobre X. A esta medida se le
llama Error Estándar de Estimación.
DIAGRAMA DE DISPERSION
Es la representación de los puntos o datos de cada una
de las variables en el plano cartesiano.
100
90
80
70
60
50
40
30
140 150 160 170 180 190 200
Es recomendable en todo estudio de regresión pues
permite tener una idea, sobre la existencia o no de la
regresión.
Modelos de Diagrama de Dispersión
Ejemplo: Estudio del conjunto de dos variables
• A la derecha tenemos una posible manera de recoger los
datos obtenidos, observando dos variables en varios
individuos de una muestra.
Altura Peso
– En cada fila tenemos los datos de un individuo en cm. en Kg.
161 50
– Cada columna representa los valores que toma una
variable sobre los mismos. 187 76
197 85
– Las individuos no se muestran en ningún orden 179 65
particular. 171 66
169 60
• Dichas observaciones pueden ser representadas en un
diagrama de dispersión o nube de puntos. 166 54
En ellos, cada individuos es un punto cuyas coordenadas 176 84
son los valores de las variables. 163 68
... ...
• Nuestro objetivo será intentar reconocer a partir del mismo
si hay relación entre las variables, de qué tipo, y si es
posible predecir el valor de una de ellas en función de la
otra.
Diagramas de dispersión o nube de puntos
Tenemos las alturas y los pesos de 30 individuos representados en un
diagrama de dispersión. Observar datos del cuadro anterior
100
90 Pesa 85 kg.
80 Pesa 76 kg.
70
Mide 197cm
Mide 187 cm.
60
Pesa 50 kg.
50
Mide
40 161 cm.
30
140 150 160 170 180 190 200
Relación entre las variables altura (X) y peso (Y) de los 30
individuos vistos en el ejemplo anterior.
Peso (Kg.)
100
90 nt a
m e
o au
80 P es
a
70 en t
a um
60 l t ura
A
50
40
30
140 150 160 170 180 190 200
Altura (cm)
METODO DE LOS MINIMOS CUADRADOS
• Este método consiste en hallar los valores de b0 Y b1,
haciendo mínima la suma de los cuadrados de los errores.
Siendo la tarea principal en el análisis de regresión lineal
simple.
• Una vez obtenidos estos valores nos permitirá establecer
la recta de regresión que mejor se ajuste a los datos o la recta
de mínimos cuadrados. Veamos las formulas a aplicar
• Hallaremos la Suma Cruzada de X, Y con la siguiente formula:
( Xi)( Yi
SC xy X Y i i
n
)
• Luego, la Suma de Cuadrados de X de la siguiente manera:
( Xi) 2
SC x X i2
n
Con las formulas anteriores, obtenemos la pendiente de la recta:
b1, haciendo la siguiente división:
SC xy
B1
SC x
El siguiente paso es hallar la ordenada en el origen:b0, con la
siguiente formula:
_ _
donde:
_
x
Xi
,y
_Yi
B0 y B 1 x n n
Y obtenemos la ecuación de regresión:
Y = b0+b1(X)
EJEMPLO:
En un estudio de la relación entre la publicidad de una nueva
Clínica de Salud por radio y el número de consultas realizadas
durante 10 semanas, se han recopilado los tiempos de duración
en minutos de la publicidad por semana (X), y el número de
consultas realizadas(Y).
Semana 1 2 3 4 5 6 7 8 9 10
Publicidad X 20 30 30 40 50 60 60 60 70 80
Consultas 50 73 69 87 108 128 135 132 148 170
Realizadas Y
Solución X Y XY X2 Y2
20 50 1000 400 2500
30 73 2190 900 5329
30 69 2070 900 4761
40 87 3480 1600 7569
50 108 5400 2500 11664
60 128 7680 3600 16384
60 135 8100 3600 18225
60 132 7920 3600 17424
70 148 10360 4900 21904
80 170 13600 6400 28900
500 1100 61800 28400 134660
Xi Y X Y Y
2
X
2
i i i i i
También se utilizara los
X Xi / n , Y Yi / n
promedios de las variables:
…Solución
Reemplazando en las formula de los coeficientes de regresión, se tiene lo
siguiente:
( Xi)( Yi 500 x 1100
X iYi n ) 61800 10
1 2
2 ( Xi )
2 2
(500)
Xi n 28400
10
_ _
0 y b x 110 2 (50) 10
Por lo tanto la recta de regresión Y = b0+b1(X), estará determinada de la
siguiente manera Y = 10+ 2x.
Interpretación
B0: El Número real de consultas realizadas es de 10.
B1: Por cada minuto de publicidad que se realice en la semana, el número de
consultas realizadas aumenta en 2.
Error Estándar y Error de Estimación
Cuando se realiza una predicción, es importante determinar el
error estándar, el cual se representa por Sy.x y mide la
dispersión de los datos observados con respecto a la línea
de regresión.
Sy.x
y 2
B0 y B1 xy
Error de
predicción
n2
134660 10(1100 ) 2(61800)
Sy.x 2.74
10 2
El error de estimación,
que esta representado: e = y – y
COEFICIENTE DE CORRELACIÓN
La correlación habitualmente denotada por “” se
puede estimar mediante el coeficiente de correlación
de Pearson denotado por “R“, y es utilizado cuando
ambas variables son cuantitativas siguiendo una
distribución normal.
Para cada coeficiente obtenido se puede realizar el
siguiente el contraste de hipótesis para determinar si el
coeficiente es igual a cero:
H0: = 0
H1: 0
El estadístico que usaremos para estimar la correlación para datos cuantitativos es el COEFICIENTE DE CORRELACIÓN DE PEARSON , el cual nos determinará el grado de asociación
que existe entre las variables estudiadas.
El coeficiente de correlación se expresa como:
Donde:
: Suma Cruzada de X e Y.
: Suma de Cuadrados de X.
: Suma de Cuadrados de Y.
INTERPRETACIÓN DEL COEFICIENTE DE
CORRELACIÓN DE PEARSON
R INTERPRETACIÓN
De ±0.01 a ±0.19 Correlación Muy Baja
De ±0.20 a ±0.39 Correlación Baja
De ±0.40 a ±0.69 Correlación Moderada
De ±0.70 a ±0.89 Correlación Alta
De ±0.90 a ± 0.99 Correlación Muy Alta
+1 Perfecta Positiva
-1 Perfecta Negativa
0 Correlación Nula
COEFICIENTE DE DETERMINACION R2
El coeficiente de determinación, también conocido
como Bondad de Ajuste es la proporción de la variación
total en la variable dependiente Y que está explicada por
o se debe a la variación en la variable independiente X.
El coeficiente de determinación es el cuadrado del
coeficiente de correlación, y toma valores de 0 a 1.
Donde:
R: Coeficiente de Correlación.