Unidad 2
Correlación y
           Causalidad
      Regresión Lineal Simple
Clase 6
Diferencia entre Correlación
y Causalidad
Diferencia entre Correlación
y Causalidad
 El principio de vincular erróneamente la
 correlación y la causalidad está
 estrechamente relacionado con el
 razonamiento a posteriori, donde las
 suposiciones erróneas generan una
 relación incorrecta entre los dos efectos.
Diferencia entre Correlación
y Causalidad
Correlación
La correlación se produce cuando dos o más
eventos ocurren al mismo tiempo.
 Dichos sucesos pueden compartir algún tipo de
asociación entre sí, sin embargo, una correlación
no implica una relación de causalidad.
Se trata simplemente de establecer una especie
de comparación entre dos o más variables al
mismo tiempo, pero de ningún modo la
correlación busca explicar porqué las variables
sufren tal o cual cambio.
Diferencia entre Correlación
y Causalidad
Causalidad
La causalidad ayuda a determinar la
existencia de una relación entre las
variables. Es transitiva en la
naturaleza, lo que significa que si A
es la causa de B y B es la causa de
la C, entonces A es la causa de la C.
Uno tiende a derivar esta inferencia
a partir de datos de correlación.
Diferencia entre Correlación
y Causalidad
La causalidad se refiere a la causa y efecto de un
fenómeno, en el que una cosa provoca directamente el
cambio de otra. Mientras que una correlación es una
comparación o descripción de dos o más variables
diferentes, pero juntas. En este caso, se dice que las
variables están correlacionadas.
Las correlaciones son más fáciles de establecer en
comparación con las causalidades.
Un ejemplo de causalidad es decir que fumar causa
cáncer, mientras que un ejemplo de correlación sería
decir que el fumar está relacionado con el alcoholismo.
Regresión Lineal Simple
      Aplicación
Regresión lineal: Método causal en el que una variable dependiente, está
relacionada con una o más variables independiente por medio de una
ecuación lineal.
         Problemas en ingeniería y ciencias requiere
         de explorar las relaciones entre dos o más
         variables
         Análisis de Regresión (o como la Correlación)
         Ejemplo: un proceso químico, supone que la
         “producción” de un producto está relacionado
         con la “temperatura” del proceso de
         operación.
         Regresión: puede ser usado para construir un
         “modelo” que permita “predecir” la
         producción a un nivel de temperatura
         determinado
Gráficos de Dispersión
Relaciones entre dos variables
                        Y
                                                                Y
                                                                           Y = b*X
Var. Dependiente:
variable que se desea                           Y=X
pronosticar
                                                    X                                    X
                            Var. Independiente: variable(s) que se supone influyen en la Var
                            Dependiente, por lo que son la “causa” de los resultados.
       IMPORTANCIA DE BUSQUEDA DE RELACIONES
       - Interpretación causa y efecto
       - Modelo matemático... (estático, no dinámico)
       - Conocer la magnitud de relación entre variables (fuerza)
       - Dependencia y predicción
   Tipos de modelos de
   Regresion
 Positiva Lineal         Relacion NO Lineal
Negativa Lineal                No Relacion
Diagrama Dispersión
 1.   Graficar (Xi, Yi)
 2.   Sugerencia del mejor ajuste
               Y
         60
         40
         20
          0                                 X
               0           20       40    60
                                         12
 Filosofía del mejor “ajuste de línea”
 Cómo representar de mejor manera una línea entre
 los puntos? Cómo determinar la mejor línea de
 ajuste?
                           Y
                      60
                      40
                      20
                       0                    X
                           0   20   40    60
EPI 809/Spring 2008                      13
El Método de los Mínimos
Cuadrados para realizar el
    Análisis de Regresión
                   Lineal
El método de los mínimos
cuadrados
 Este método se utiliza para encontrar la
 línea que “mejor se ajusta a los datos
 observados”.
 El mejor ajuste significa la línea que pasa
 mas cerca de todos los valores
 observados.
El método de los mínimos
cuadrados
 Los coeficientes son elegidos de forma
 que la suma de cuadrados entre los
 valores observados y los pronosticados
 sea mínima, es decir, que se va a
 minimizar la varianza residual.
 ¿Cómo conseguimos eso?
Regresión Lineal Simple: relación funcional y
predictiva entre dos variables
  Método de Mínimos Cuadrados
  Dos variables: una dependiente (Y) y otra
  independiente (X): el incremento del CO2 en la
  atmósfera causa un incremento de la Temperatura
  a nivel planeta,
  Coeficiente de Regresión entre -1 y +1
  Ecuación de Regresión: Y = a + b*X
  Con dos parámetros desconocidos
  a: intercepto y b: pendiente (muestra la velocidad
  de cambio (tasa: mm/días))
Cálculo del Coeficiente de
Regresión
 r (Coeficiente de correlación)= Medida de fuerza de la
 relación (nivel de asociación) entre la variable
 dependiente y la independiente.
 r varía entre -1 y 1
 r>0 indica una relación lineal positiva
 r<0 indica una relación lineal negativa
 r=0 indica que no existe relación entre la variable
 dependiente y la independiente
 r2 (Coeficiente de determinación)= proporción de la
 variabilidad de los valores de y que puede ser explicada
 por la variable independiente.
Coeficiente de
correlación de
Pearson
   Regresion lineal
  Modelo de Regresión:
                                                         Termino
                                          Variable       Error, o
              y intercepto   Pendiente   Independiente   residual
Variable
Dependiente
              y = β0 + β1x + ε
                         Componente lineal   Componente Error
                                              aleatorio
  Regresion Lineal
                      y = β0 + β1x + ε
                  y
Valor observado
  de y para xi
                           εi            pendiente = β1
 Valor predicho
  de y para xi         Error aleatorio para este valor x
Intercepto = β0
                      xi                              x
    Modelo Estimado de
    Regresion
        La línea de regresión provee una estimación de la línea
        de regresión poblacional
                                              Estimado de la
         Estimado (o       Estimado de la
                                              regresión
         predicho)         regresión
                                              pendiente
                           intercepto
                                                      variable
                    ŷ i = b0 + b1x                   Independente
                                  ŷ = b 0 + b1 x + b2 x2 + b3 x3 + b4 x4
Ecuación Lineal múltiple
La ecuación de los
mínimos cuadrados
Las formulas para b1 y b0 son:
Datos muestrales para un modelo de precio
de casa: determinar las variables X e Y
      Precio Casa $1000s   Metros cuadrados
              (y)                 (x)
             245                1400
             312                1600
             279                1700
             308                1875
             199                1100
             219                1550
             405                2350
             324                2450
             319                1425
             255                1700
Análisis de Regresión:
Principales Supuestos
 Linealidad: los valores de la variable dependiente
 están generados por un modelo lineal
 Homocedasticidad: todas las perturbaciones tienen
 las misma varianza:
 Independencia: las perturbaciones aleatorias son
 independientes entre sí:
Análisis de Regresión:
Principales Supuestos
 Normalidad: la distribución de la perturbación
 aleatoria tiene distribución normal (Para cada sub-
 población de x)
                                      Residuales
Análisis de Regresión: pasos
1.- seguridad en seleccionar la variable dependiente (Y)
y la variable independiente (X)
2.- Hipótesis:
Ho: no existe regresión entre las variables X e Y (la
pendiente = 0)
Ha: si existe regresión entre ambas variables, y la
variable Y es explicada por la variabilidad de X
3.- Regla de decisión:
 Se acepta la Ho si el valor de p es mayor
 a 0.05 (por lo tanto, NO existe regresión
 entre ambas variables)
 Se rechaza la Ho si el valor de p es menor
 a 0.05 (por lo tanto, SI existe regresión
 entre ambas variables y la variabilidad en
 Y es explicada por la variabilidad de X)
       Ejemplo: excel
  Regression Statistics
                                   Software Output
Multiple R        0.76211
R Square          0.58082
Adjusted R
Square            0.52842
Standard Error   41.33032
Observations              10
ANOVA                                                          Significanc
                    df           SS           MS        F         ia F           significancia
Regression                1      18934.93   18934.98   11.08      0.01039
Residual                  8      13665.56    1708.19
Total                     9      32600.50
                 Coefficie     Standard                 P-                   Upper
                   nts           Error       t Stat    value   Lower 95%      95%
                                                       0.128                 232.073
Intercept        98.24833        58.03348    1.69296      92    -35.57720         86
                                                       0.010
Square Feet       0.10977         0.03297    3.32938      39      0.03374    0.18580
5.- valor de los parámetros
desconocidos
 Si la regresión es significativa, entonces
 se busca los parámetros de la pendiente e
 intercepto para completar el modelo de
 regresión lineal simple.
  Regression Statistics
                                      Software Output
Multiple R        0.76211
R Square          0.58082         preciocasa = 98.24833 + 0.10977 (metros cuadrados)
Adjusted R
Square            0.52842
Standard Error   41.33032
                                            La ecuación de regresión es:
Observations              10
ANOVA                                                            Significanc
                    df           SS            MS         F         ia F
                                             18934.93   11.084
Regression                1    18934.9348          48        8      0.01039
                                             1708.195
Residual                  8    13665.5652           7
Total                     9    32600.5000
                 Coefficie     Standard                  P-                    Upper
                   nts           Error        t Stat    value    Lower 95%      95%
                                                        0.128                  232.073
Intercept        98.24833        58.03348     1.69296      92     -35.57720         86
                                                        0.010
Square Feet       0.10977         0.03297     3.32938      39       0.03374    0.18580
   Representación gráfica
                             Modelo precio casa: scatter plot y modelo precio
         450
      precio casa ($1000s)
         400
         350
         300
                                                                        pendiente
         250
                                                                        = 0.10977
         200
         150
         100
           50
Intercepto
= 98.248    0
                                 0      500    1000     1500    2000    2500    3000
                                                    metros cuadrados
                                preciocasa = 98.24833 + 0.10977 (metros cuadrados)
  Regression Statistics
                               Software Output
Multiple R        0.76211
R Square          0.58082
Adjusted R
Square            0.52842
Standard Error   41.33032                   Coeficientes de Regresión y
Observations              10                Determinación
ANOVA                                                          Significanc
                    df           SS           MS        F         ia F
Regression                1    18934.9348   18934.93   11.08      0.01039
Residual                  8    13665.5652    1708.19
Total                     9    32600.5000
                 Coefficie     Standard                 P-                   Upper
                   nts           Error       t Stat    value   Lower 95%      95%
Intercept        98.24833        58.03348    1.69296   0.128       -35.577   232.073
Square Feet       0.10977         0.03297    3.32938   0.010        0.033      0.185
          REGRESION LINEAL MULTIPLE
En la regresión lineal múltiple se utilizan más de una
variable explicativa; esto nos da la ventaja de utilizar
más información en la construcción del modelo y,
consecuentemente, realizar estimaciones más precisas.
          REGRESION LINEAL MULTIPLE
Al tener más de una variable explicativa (no se debe de
emplear el término independiente) surgirán algunas
diferencias con el modelo de regresión lineal simple.
Una cuestión de gran interés será responder a la
siguiente pregunta: de un vasto conjunto de variables
explicativas: x1, x2, …, xk,
¿cuáles son las que más influyen en la variable
dependiente Y.
           REGRESION LINEAL MULTIPLE
En la práctica deberemos de elegir cuidadosamente qué
variables vamos a considerar como explicativas. Algunos
criterios:
Tener sentido numérico.
No deberá de haber variables repetidas o redundantes
Las variables introducidas en el modelo deberán de tener
una cierta justificación teórica.
La relación entre variables explicativas en el modelo y casos
debe de ser como mínimo de 1 a 10.
La relación de las variables explicativas con la variable
dependiente debe de ser lineal, es decir, proporcional.
             REGRESION LINEAL MULTIPLE
ŷ = b 0 + b1 x + b2 x2 + b3 x3 + b4 x4
Ejemplos valores R2
y
                     R2 = 1
                     Relacion lineal perfecta entre x e y:
                 x
     R2 = 1          100% de la variación en y es
y                    explicada por la variacion en x
                 x
     R2   = +1
    Ejemplos de valores aproximados
    R2
y
                    0 < R2 < 1
                   Relación lineal débil entre x e y:
               x   Alguna pero no toda la variación
                   en Y es explicada por la variación
y
                   en x
               x
    Ejemplos de valores
    R2
                    R2 = 0
y
                    No hay relación lineal entre x e y:
                    El valor de Y no depende de x.
                    (Nada de la variación en y es
                x   explicada por la variación en x)
       R2 = 0
Ejemplo
 Regresión lineal
   Ejemplo 2
Gráfico de dispersión entre
pureza de oxigeno (y) versus
nivel de hidrocarbono (x);                  Tendencia positiva
modelo regresion:
ŷ = 74.20 + 14.97x.
                               predicción
              CARACTERISTICAS DE LAS PRUEBAS DE
                     CORRELACION versus REGRESION
         Propiedad                     Correlación                      Regresión
        Cuando usar               Cuantificar, Relación,           Cuantificar, Relación,
                                      Asociación                       Asociación
                                                                   -Relación predictiva
                                                                - Relación de dependencia
                                                                     - Causa – Efecto
         Variables                 Dos, independientes           Dos, Var. Dependiente (Y)
                                         (X1, X2)                 Var. Independiente (X)
   Supuestos de variables      Ambas variables ajustar Dist.    Var. Y Ajuste a Dist. Normal
                                         Normal
Función o modelo matemático               No hay                    Ecuación de la recta
                                                                        Y= a + b*X
       Hipótesis Nula          RHO= 0 (No existe relación)       Pendiente = 0 (No existe
                                                                        relación)
Prueba de Bondad de Ajuste o            TEST DE t              Análisis de varianza (ANOVA O
        significancia                                                     ANDEVA)
          Gráficos                 Sólo incluye puntos         Incluye puntos + Línea recta
        Coeficientes                    De –1 a +1                      De –1 a +1
Coeficiente de Determinación          De 0 a 100%                      De 0 a 100%