[go: up one dir, main page]

0% encontró este documento útil (0 votos)
94 vistas43 páginas

Correlación vs Causalidad y Regresión

Este documento explica la diferencia entre correlación y causalidad. La correlación se refiere a cuando dos eventos ocurren al mismo tiempo pero no necesariamente uno causa el otro, mientras que la causalidad implica una relación causa-efecto. También describe el método de regresión lineal simple, el cual puede usarse para determinar si existe una relación causal entre una variable dependiente y una independiente.

Cargado por

Franco Fredes
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
94 vistas43 páginas

Correlación vs Causalidad y Regresión

Este documento explica la diferencia entre correlación y causalidad. La correlación se refiere a cuando dos eventos ocurren al mismo tiempo pero no necesariamente uno causa el otro, mientras que la causalidad implica una relación causa-efecto. También describe el método de regresión lineal simple, el cual puede usarse para determinar si existe una relación causal entre una variable dependiente y una independiente.

Cargado por

Franco Fredes
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
Está en la página 1/ 43

Unidad 2

Correlación y
Causalidad

Regresión Lineal Simple

Clase 6
Diferencia entre Correlación
y Causalidad
Diferencia entre Correlación
y Causalidad

El principio de vincular erróneamente la


correlación y la causalidad está
estrechamente relacionado con el
razonamiento a posteriori, donde las
suposiciones erróneas generan una
relación incorrecta entre los dos efectos.
Diferencia entre Correlación
y Causalidad

Correlación
La correlación se produce cuando dos o más
eventos ocurren al mismo tiempo.
Dichos sucesos pueden compartir algún tipo de
asociación entre sí, sin embargo, una correlación
no implica una relación de causalidad.
Se trata simplemente de establecer una especie
de comparación entre dos o más variables al
mismo tiempo, pero de ningún modo la
correlación busca explicar porqué las variables
sufren tal o cual cambio.
Diferencia entre Correlación
y Causalidad

Causalidad
La causalidad ayuda a determinar la
existencia de una relación entre las
variables. Es transitiva en la
naturaleza, lo que significa que si A
es la causa de B y B es la causa de
la C, entonces A es la causa de la C.
Uno tiende a derivar esta inferencia
a partir de datos de correlación.
Diferencia entre Correlación
y Causalidad

La causalidad se refiere a la causa y efecto de un


fenómeno, en el que una cosa provoca directamente el
cambio de otra. Mientras que una correlación es una
comparación o descripción de dos o más variables
diferentes, pero juntas. En este caso, se dice que las
variables están correlacionadas.
Las correlaciones son más fáciles de establecer en
comparación con las causalidades.

Un ejemplo de causalidad es decir que fumar causa


cáncer, mientras que un ejemplo de correlación sería
decir que el fumar está relacionado con el alcoholismo.
Regresión Lineal Simple
Aplicación
Regresión lineal: Método causal en el que una variable dependiente, está
relacionada con una o más variables independiente por medio de una
ecuación lineal.

Problemas en ingeniería y ciencias requiere


de explorar las relaciones entre dos o más
variables
Análisis de Regresión (o como la Correlación)
Ejemplo: un proceso químico, supone que la
“producción” de un producto está relacionado
con la “temperatura” del proceso de
operación.
Regresión: puede ser usado para construir un
“modelo” que permita “predecir” la
producción a un nivel de temperatura
determinado
Gráficos de Dispersión
Relaciones entre dos variables

Y
Y
Y = b*X
Var. Dependiente:
variable que se desea Y=X
pronosticar

X X
Var. Independiente: variable(s) que se supone influyen en la Var
Dependiente, por lo que son la “causa” de los resultados.

IMPORTANCIA DE BUSQUEDA DE RELACIONES


- Interpretación causa y efecto
- Modelo matemático... (estático, no dinámico)
- Conocer la magnitud de relación entre variables (fuerza)
- Dependencia y predicción
Tipos de modelos de
Regresion
Positiva Lineal Relacion NO Lineal

Negativa Lineal No Relacion


Diagrama Dispersión

1. Graficar (Xi, Yi)


2. Sugerencia del mejor ajuste

Y
60
40
20
0 X
0 20 40 60
12
Filosofía del mejor “ajuste de línea”

Cómo representar de mejor manera una línea entre


los puntos? Cómo determinar la mejor línea de
ajuste?

Y
60
40
20
0 X
0 20 40 60
EPI 809/Spring 2008 13
El Método de los Mínimos
Cuadrados para realizar el
Análisis de Regresión
Lineal
El método de los mínimos
cuadrados
Este método se utiliza para encontrar la
línea que “mejor se ajusta a los datos
observados”.
El mejor ajuste significa la línea que pasa
mas cerca de todos los valores
observados.
El método de los mínimos
cuadrados
Los coeficientes son elegidos de forma
que la suma de cuadrados entre los
valores observados y los pronosticados
sea mínima, es decir, que se va a
minimizar la varianza residual.
¿Cómo conseguimos eso?
Regresión Lineal Simple: relación funcional y
predictiva entre dos variables

Método de Mínimos Cuadrados


Dos variables: una dependiente (Y) y otra
independiente (X): el incremento del CO2 en la
atmósfera causa un incremento de la Temperatura
a nivel planeta,
Coeficiente de Regresión entre -1 y +1
Ecuación de Regresión: Y = a + b*X
Con dos parámetros desconocidos
a: intercepto y b: pendiente (muestra la velocidad
de cambio (tasa: mm/días))
Cálculo del Coeficiente de
Regresión
r (Coeficiente de correlación)= Medida de fuerza de la
relación (nivel de asociación) entre la variable
dependiente y la independiente.
r varía entre -1 y 1
r>0 indica una relación lineal positiva
r<0 indica una relación lineal negativa
r=0 indica que no existe relación entre la variable
dependiente y la independiente
r2 (Coeficiente de determinación)= proporción de la
variabilidad de los valores de y que puede ser explicada
por la variable independiente.
Coeficiente de
correlación de
Pearson
Regresion lineal

Modelo de Regresión:
Termino
Variable Error, o
y intercepto Pendiente Independiente residual
Variable
Dependiente
y = β0 + β1x + ε
Componente lineal Componente Error
aleatorio
Regresion Lineal

y = β0 + β1x + ε
y
Valor observado
de y para xi

εi pendiente = β1
Valor predicho
de y para xi Error aleatorio para este valor x

Intercepto = β0

xi x
Modelo Estimado de
Regresion
La línea de regresión provee una estimación de la línea
de regresión poblacional

Estimado de la
Estimado (o Estimado de la
regresión
predicho) regresión
pendiente
intercepto

variable

ŷ i = b0 + b1x Independente

ŷ = b 0 + b1 x + b2 x2 + b3 x3 + b4 x4
Ecuación Lineal múltiple
La ecuación de los
mínimos cuadrados
Las formulas para b1 y b0 son:
Datos muestrales para un modelo de precio
de casa: determinar las variables X e Y

Precio Casa $1000s Metros cuadrados


(y) (x)
245 1400
312 1600
279 1700
308 1875
199 1100
219 1550
405 2350
324 2450
319 1425
255 1700
Análisis de Regresión:
Principales Supuestos
Linealidad: los valores de la variable dependiente
están generados por un modelo lineal
Homocedasticidad: todas las perturbaciones tienen
las misma varianza:
Independencia: las perturbaciones aleatorias son
independientes entre sí:
Análisis de Regresión:
Principales Supuestos
Normalidad: la distribución de la perturbación
aleatoria tiene distribución normal (Para cada sub-
población de x)

Residuales
Análisis de Regresión: pasos

1.- seguridad en seleccionar la variable dependiente (Y)


y la variable independiente (X)
2.- Hipótesis:
Ho: no existe regresión entre las variables X e Y (la
pendiente = 0)
Ha: si existe regresión entre ambas variables, y la
variable Y es explicada por la variabilidad de X
3.- Regla de decisión:
Se acepta la Ho si el valor de p es mayor
a 0.05 (por lo tanto, NO existe regresión
entre ambas variables)

Se rechaza la Ho si el valor de p es menor


a 0.05 (por lo tanto, SI existe regresión
entre ambas variables y la variabilidad en
Y es explicada por la variabilidad de X)

Ejemplo: excel
Regression Statistics
Software Output
Multiple R 0.76211
R Square 0.58082
Adjusted R
Square 0.52842
Standard Error 41.33032
Observations 10

ANOVA Significanc
df SS MS F ia F significancia

Regression 1 18934.93 18934.98 11.08 0.01039

Residual 8 13665.56 1708.19


Total 9 32600.50

Coefficie Standard P- Upper


nts Error t Stat value Lower 95% 95%
0.128 232.073
Intercept 98.24833 58.03348 1.69296 92 -35.57720 86
0.010
Square Feet 0.10977 0.03297 3.32938 39 0.03374 0.18580
5.- valor de los parámetros
desconocidos

Si la regresión es significativa, entonces


se busca los parámetros de la pendiente e
intercepto para completar el modelo de
regresión lineal simple.
Regression Statistics
Software Output
Multiple R 0.76211
R Square 0.58082 preciocasa = 98.24833 + 0.10977 (metros cuadrados)
Adjusted R
Square 0.52842
Standard Error 41.33032
La ecuación de regresión es:
Observations 10

ANOVA Significanc
df SS MS F ia F
18934.93 11.084
Regression 1 18934.9348 48 8 0.01039
1708.195
Residual 8 13665.5652 7
Total 9 32600.5000

Coefficie Standard P- Upper


nts Error t Stat value Lower 95% 95%
0.128 232.073
Intercept 98.24833 58.03348 1.69296 92 -35.57720 86
0.010
Square Feet 0.10977 0.03297 3.32938 39 0.03374 0.18580
Representación gráfica
Modelo precio casa: scatter plot y modelo precio
450
precio casa ($1000s)
400
350
300
pendiente
250
= 0.10977
200
150
100
50
Intercepto
= 98.248 0
0 500 1000 1500 2000 2500 3000
metros cuadrados
preciocasa = 98.24833 + 0.10977 (metros cuadrados)
Regression Statistics
Software Output
Multiple R 0.76211
R Square 0.58082
Adjusted R
Square 0.52842
Standard Error 41.33032 Coeficientes de Regresión y
Observations 10 Determinación
ANOVA Significanc
df SS MS F ia F

Regression 1 18934.9348 18934.93 11.08 0.01039

Residual 8 13665.5652 1708.19


Total 9 32600.5000

Coefficie Standard P- Upper


nts Error t Stat value Lower 95% 95%

Intercept 98.24833 58.03348 1.69296 0.128 -35.577 232.073

Square Feet 0.10977 0.03297 3.32938 0.010 0.033 0.185


REGRESION LINEAL MULTIPLE

En la regresión lineal múltiple se utilizan más de una


variable explicativa; esto nos da la ventaja de utilizar
más información en la construcción del modelo y,
consecuentemente, realizar estimaciones más precisas.
REGRESION LINEAL MULTIPLE

Al tener más de una variable explicativa (no se debe de


emplear el término independiente) surgirán algunas
diferencias con el modelo de regresión lineal simple.
Una cuestión de gran interés será responder a la
siguiente pregunta: de un vasto conjunto de variables
explicativas: x1, x2, …, xk,
¿cuáles son las que más influyen en la variable
dependiente Y.
REGRESION LINEAL MULTIPLE

En la práctica deberemos de elegir cuidadosamente qué


variables vamos a considerar como explicativas. Algunos
criterios:

Tener sentido numérico.


No deberá de haber variables repetidas o redundantes
Las variables introducidas en el modelo deberán de tener
una cierta justificación teórica.
La relación entre variables explicativas en el modelo y casos
debe de ser como mínimo de 1 a 10.
La relación de las variables explicativas con la variable
dependiente debe de ser lineal, es decir, proporcional.
REGRESION LINEAL MULTIPLE

ŷ = b 0 + b1 x + b2 x2 + b3 x3 + b4 x4
Ejemplos valores R2

y
R2 = 1

Relacion lineal perfecta entre x e y:


x
R2 = 1 100% de la variación en y es
y explicada por la variacion en x

x
R2 = +1
Ejemplos de valores aproximados
R2

y
0 < R2 < 1

Relación lineal débil entre x e y:

x Alguna pero no toda la variación


en Y es explicada por la variación
y
en x

x
Ejemplos de valores
R2

R2 = 0
y
No hay relación lineal entre x e y:

El valor de Y no depende de x.
(Nada de la variación en y es
x explicada por la variación en x)
R2 = 0
Ejemplo
Regresión lineal

Ejemplo 2

Gráfico de dispersión entre


pureza de oxigeno (y) versus
nivel de hidrocarbono (x); Tendencia positiva
modelo regresion:
ŷ = 74.20 + 14.97x.
predicción
CARACTERISTICAS DE LAS PRUEBAS DE

CORRELACION versus REGRESION

Propiedad Correlación Regresión

Cuando usar Cuantificar, Relación, Cuantificar, Relación,


Asociación Asociación
-Relación predictiva
- Relación de dependencia
- Causa – Efecto
Variables Dos, independientes Dos, Var. Dependiente (Y)
(X1, X2) Var. Independiente (X)
Supuestos de variables Ambas variables ajustar Dist. Var. Y Ajuste a Dist. Normal
Normal
Función o modelo matemático No hay Ecuación de la recta
Y= a + b*X
Hipótesis Nula RHO= 0 (No existe relación) Pendiente = 0 (No existe
relación)
Prueba de Bondad de Ajuste o TEST DE t Análisis de varianza (ANOVA O
significancia ANDEVA)
Gráficos Sólo incluye puntos Incluye puntos + Línea recta

Coeficientes De –1 a +1 De –1 a +1

Coeficiente de Determinación De 0 a 100% De 0 a 100%

También podría gustarte