Regresion Lineal Multiple 3
Regresion Lineal Multiple 3
J. M. Rojo Abuín
                                Instituto de Economía y Geografía
                                                 Madrid, II-2007
I.      INTRODUCCIÓN .................................................................................................. 2
II.     EL MODELO DE REGRESIÓN LINEAL MÚLTIPLE........................................ 5
III.    HIPÓTESIS............................................................................................................. 6
IV.     ESTIMACIÓN DE LOS PARÁMETROS POR MÍNIMOS CUADRADOS........ 7
V.      VARIANZA RESIDUAL ..................................................................................... 11
VI.     CONTRASTE DE REGRESIÓN ......................................................................... 13
VII.    COEFICIENTE DE DETERMINACIÓN R2 ....................................................... 16
VIII.   DIAGNOSIS Y VALIDACIÓN DE UN MODELO DE REGRESIÓN LINEAL
        MÚLTIPLE ........................................................................................................... 17
        VIII.1. Multicolinealidad .................................................................................................. 17
        VIII.2. Análisis de residuos .............................................................................................. 18
        VIII.3. Valores de influencia (leverage) ........................................................................... 20
        VIII.4. Contrastando las hipótesis básicas ........................................................................ 21
        VIII.5. Homocedasticidad ................................................................................................. 22
        VIII.6. Errores que deben de evitarse ............................................................................... 23
IX.     SELECCIÓN DE LAS VARIABLES REGRESORAS ....................................... 24
X.      EJEMPLO 1 .......................................................................................................... 25
y = b0 + b1 ⋅ x1 + b2 ⋅ x2 + ... + bk ⋅ xk + u
       Los coeficientes son elegidos de forma que la suma de cuadrados entre los
valores observados y los pronosticados sea mínima, es decir, que se va a minimizar la
varianza residual.
               e + 1,41 * a_espald
                                             A
                                     A
                                         A       A       A
                                                     A
                                                                                 A
                                                         A
                                                                 A           A       A
                                                                     A                       A
                                                             A
                                                                             A
                                                                                                    A
                                                                                                 AA
                                                                                                  A            A
                                                                                                        A
                                                                                         A
                                                                                                               A
                                                                                                   A
Registr
            sexo          estatura l_roxto                                       pie                        l_brazo a_espald         d_cráneo       peso
  o
                              X1                     X6                          X2                           X3       X4                     X5    Y
1         mujer               158                    39                          36                           68       43                     55    43
2         mujer               152                    38                          34                           66       40                     55    45
3         mujer               168                    43                          39                          72.5      41                    54.5   48
4         mujer               159                    40                          36                          68.5      42                     57    49
5         mujer               158                    41                          36                          68.5      44                     57    50
6         mujer               164                    40                          36                           71      44.5                    54    51
7         mujer               156                    41                          36                           67       36                     56    52
8         mujer               167                    44                          37                           73      41.5                    58    52
        En base a estos datos, vamos a construir un modelo para predecir el peso de una
persona (Y). Esto equivale a estudiar la relación existente entre este conjunto de
variables x1 ,..., x5 y la variable peso (Y).
y = b0 + b1 ⋅ x + u
y = b0 + b1 ⋅ x1 + b2 ⋅ x2 + b3 ⋅ x3 + ... + bk ⋅ xk + u
                estatura
                pie
                l_brazo
                a_espald
                d_craneo
Y = X * B +U
V (ui ) = σ 2
E (ui ⋅ u j ) = 0, ∀i ≠ j
U ≈ N (0, σ 2 )
Min∑ ( y j − yˆ j ) 2
Donde:
                                          ⎡ u1 ⎤ ⎡ y1 − yˆ1 ⎤
                                          ⎢u ⎥ ⎢ y − y ⎥
                                          ⎢ 2 ⎥ ⎢ 2 ˆ2 ⎥
                                      u = ⎢ . ⎥ = ⎢ . ⎥ = y − yˆ
                                          ⎢ ⎥ ⎢                 ⎥
                                          ⎢.⎥ ⎢ . ⎥
                                          ⎢⎣un ⎥⎦ ⎢⎣ yn − yˆ n ⎥⎦
        u=⎢ . ⎥=⎢                                  .                                  ⎥ = y − yˆ
          ⎢ ⎥ ⎢                                                                       ⎥
          ⎢.⎥ ⎢                                    .                                  ⎥
          ⎢⎣u n ⎥⎦ ⎢⎣ yn − b0 − b1 * x1,n − b2 * x2,n − b3 * x3,n − ... − bk * xk ,n ⎥⎦
Por lo tanto:
                         ⎡ y1 ⎤ ⎡1 x1,1        .   .   xk ,1 ⎤ ⎡b0 ⎤
                         ⎢ y ⎥ ⎢1 x            .   .   xk , 2 ⎥⎥ ⎢ b1 ⎥
                         ⎢ 2⎥ ⎢        1, 2                        ⎢ ⎥
                     u = ⎢ ⎥−⎢                 .               ⎥ * ⎢ . ⎥ = y − X *b
                         ⎢ ⎥ ⎢                                 ⎥ ⎢ ⎥
                         ⎢ ⎥ ⎢                 .               ⎥ ⎢.⎥
                         ⎢⎣ yn ⎥⎦ ⎢⎣1 x1,n             xk ,n ⎥⎦ ⎢⎣bk ⎥⎦
n * σ 2 = u′ * u = ( y − X * b)′ * ( y − X * b)
Es decir:
Φ(b) = ∑ ( y j − yˆ j ) 2 = u′ * u
         ∂φ (b)
                =0
          ∂b
n * σ 2 = u ′ * u = ( y − x * b )′ * ( y − x * b ) = y ′ * y − y ′ * x * b − b ′ * x ′ * y + b ′ * x ′ * x * b
Por lo tanto:
Φ (b) = ∑ ( y j − yˆ j ) 2 = u ′ * u = y′ * y − y ′ * x * b − b′ * x′ * y + b′ * x′ * x * b
          ∂ φ (b ) ∂ ( y − X * b ) ′ * ( y − X * b )
                  =                                  = −2 * X ′ * Y + 2 * X ′ * X * B
            ∂b                   ∂b
X ′ *Y = X ′ * X * B
X ′ *Y = X ′ * X * B
Multiplicando por ( X ′ * X ) −1
( X ′ * X ) −1 X ′ * Y = ( X ′ * X ) − 1 X ′ * X * B
( X ′ * X ) −1 X ′ * Y = I * B
B = ( X ′ * X ) −1 * X ′ * Y
X ′ *Y − X ′ * X * B = 0
X ′ * (Y − X * B ) = 0
X ′ *U = 0
       Es decir, los residuos obtenidos del modelo estimado por mínimos cuadrados no
van a estar correlacionados con las variables explicativas.
Nota
       Si no hay variables que sean combinación lineal de las demás, pero están
fuertemente correlacionadas, el determinante no será cero pero tendrá un valor muy
próximo a cero; este caso va a producir una inestabilidad en la solución del estimador,
en general, se va a producir un aumento en su varianza.
n *σ 2 = ∑ ( yi − Y ) 2
           ∑ ( y − y ) = ∑ ( y) − y ) + ∑ ( y − y) )
                 i
                       2
                                 i
                                     2
                                             i        i
                                                          2
VT = VE + VNE
                  VT
         SY2 =
                  n −1
                    VNE
         S R2 =
                  n − (k + 1)
Tabla resumen
                           ∑ ( y − y)
                                                                                  VT
VT
                                     2
                                                n-1                      SY2 =
                                                                                  n −1
VE                         ∑ ( yˆ − y )
                                     2
                                                k-1
                                     )
                           ∑ ( y − y)
                                                                                   VNE
VNE
                                          2
                                                n-k-1                    S R2 =
                                                                                  n − k −1
H 0 ≡ b1 = b2 = ... = bk = 0
H 1 ≡ ∃b j ≠ 0
       Nota
       La hipótesis nula es que todos los coeficientes menos b0 son nulos y la hipótesis
         VT
                      ≈ χ n2−1
          σ   2
         VE
                      ≈ χ12
         σ2
         VNE
                        ≈ χ n2− ( k +1)
          σ       2
Por tanto:
                       VE
                            1                 VE
                                          =        ≈ F1, n − ( k +1)
         VNE                                  S R2
                       n − (k + 1)
Nota
       Vamos a construir un coeficiente (estadístico) que mida la bondad del ajuste del
modelo. Si bien la varianza residual ( S R2 ) nos indica cómo están de cerca las
estimaciones respecto de los puntos, esta varianza está influida por la varianza de la
variable dependiente, la cual, a su vez, está influida por su unidad de medida. Por lo
tanto, una medida adecuada es la proporción de la varianza explicada (VE) entre la
varianza total (VT); de este modo, definimos el coeficiente de determinación R 2 :
                 VE VT − VNE      VNE
          R2 =      =        = 1−
                 VT    VT          VT
       Por ser cociente de sumas de cuadrados, este coeficiente será siempre positivo.
       Si todos los puntos están sobre la recta de regresión, la varianza no explicada
será 0, y por lo tanto:
                 VE       0
          R2 =      = 1−    =1
                 VT      VT
       Este coeficiente es muy importante pues determina qué porcentaje (en tantos por
uno) de la varianza de la variable dependiente es explicado por el modelo de regresión.
   Menor de 0.3           0.3 a 0.4   0.4 a 0.5      0.5 a 0.85       Mayor de 0.85
    Muy malo                Malo       Regular         Bueno           Sospechoso
VIII.1. Multicolinealidad
α1 x1 + α 2 x2 + ... + α k xk + α 0 = 0
ANOVAb
                                            Sum of
                   Model                   Squares          df        Mean Square          F           Sig.
                   1       Regression      3485,401               6       580,900         14,986         ,000a
                           Residual         775,265              20        38,763
                           Total           4260,667              26
                     a. Predictors: (Constant), l_roxto Longitud de rodilla a tobillo, d_cráneo, a_espald, l_
                        brazo, pie, estatura
                     b. Dependent Variable: peso
                                               Unstandardized           Standardized
                                                 Coefficients           Coefficients                       Collinearity Statistics
             Model                              B        Std. Error         Beta         t       Sig.     Tolerance        VIF
             1       (Constant)              -133,261       43,985                      -3,030     ,007
                     estatura                   -,354          ,445             -,283    -,796     ,435         ,072       13,882
                     pie                        2,187        1,248               ,489    1,752     ,095         ,117        8,574
                     l_brazo                     ,821          ,621              ,317    1,323     ,201         ,159        6,307
                     a_espald                   1,067          ,660              ,335    1,616     ,122         ,212        4,724
                     d_cráneo                   1,093          ,922              ,157    1,186     ,250         ,517        1,933
                     l_roxto Longitud
                                                -,003         ,841              -,001    -,004     ,997         ,212         4,724
                     de rodilla a tobillo
               a. Dependent Variable: peso
1 − R2
ui = yi − yˆi
       Los residuos son variables aleatorias que siguen (¿?) una distribución normal.
Los residuos tienen unidades de medida y, por tanto no se puede determinar si es grande
o pequeño a simple vista.
                ui      1
       Zui =        *
                SˆR   1 − hii
       Se considera que un residuo tiene un valor alto, y por lo tanto puede influir
negativamente en el análisis, si su residuo estandarizado es mayor de 3 en valor
absoluto.
⎣Zui ⎦ ≥ 3
                       ui         1
            SZui =            *
                     ˆ
                     S (i ) R   1 − hii
Residuals Statisticsa
                    1     ( x − x )2
         l (i ) =     (1 + i 2 )
                    n         sx
                                                                                              ZRE_1
                                                                                           Standardized
                                                                                             Residual
                                                N                                                      27
                                                Normal Parameters a,b     Mean                  ,0000000
                                                                          Std. Deviation      ,87705802
                                                Most Extreme              Absolute                   ,117
                                                Differences               Positive                   ,117
                                                                          Negative                  -,105
                                                Kolmogorov-Smirnov Z                                 ,609
                                                Asymp. Sig. (2-tailed)                               ,852
                                                  a. Test distribution is Normal.
                                                  b. Calculated from data.
Y ′ = log(Y )
        Errores que son fáciles pasar por alto al realizar un modelo de regresión lineal
múltiple son los siguientes:
       •   Eliminación progresiva.
       •   Introducción progresiva.
       •   Regresión paso a paso (Stepwise Regression).
Statistics
                                                                                                            l_roxto
                                                                                                           Longitud
                                                                                                           de rodilla
                                   estatura      peso        pie       l_brazo     a_espald    d_cráneo     a tobillo
N                        Valid            27          27          27          27          27          27            27
                         Missing           0           0           0           0           0           0              0
Mean                               168,7963     63,8889     38,9815     73,4815     45,8519     57,2407      43,0926
Median                             168,0000     65,0000     39,0000     73,0000     46,0000     57,0000      43,0000
Std. Deviation                     10,22089    12,80124     2,86384     4,93707     4,02113     1,84167      3,15630
Skewness                                ,173        ,187        ,303        ,427       -,249        ,178         ,632
Std. Error of Skewness                  ,448        ,448        ,448        ,448        ,448        ,448         ,448
Kurtosis                              -1,016       -,658       -,855       -,605        ,075       -,740        1,044
Std. Error of Kurtosis                  ,872        ,872        ,872        ,872        ,872        ,872         ,872
Minimum                              152,00        43,00       34,00       66,00       36,00       54,00        38,00
Maximum                              189,00        91,00       45,00       83,00       53,00       61,00        52,00
ANOVAb
                                   Sum of
          Model                   Squares           df        Mean Square         F            Sig.
          1        Regression     3485,401                6       580,900        14,986          ,000a
                   Residual        775,265               20        38,763
                   Total          4260,667               26
            a. Predictors: (Constant), l_roxto Longitud de rodilla a tobillo, d_cráneo, a_espald, l_
               brazo, pie, estatura
            b. Dependent Variable: peso
                                  Unstandardized          Standardized
                                    Coefficients          Coefficients                                     Collinearity Statistics
Model                              B        Std. Error        Beta              t            Sig.         Tolerance        VIF
1       (Constant)              -133,261       43,985                          -3,030          ,007
        estatura                   -,354          ,445             -,283        -,796          ,435             ,072        13,882
        pie                        2,187        1,248               ,489        1,752          ,095             ,117         8,574
        l_brazo                     ,821          ,621              ,317        1,323          ,201             ,159         6,307
        a_espald                   1,067          ,660              ,335        1,616          ,122             ,212         4,724
        d_cráneo                   1,093          ,922              ,157        1,186          ,250             ,517         1,933
        l_roxto Longitud
                                   -,003         ,841              -,001         -,004          ,997            ,212         4,724
        de rodilla a tobillo
  a. Dependent Variable: peso
Residuals Statisticsa
Model Summaryc
ANOVAc
                                          Sum of
              Model                      Squares           df          Mean Square         F           Sig.
              1          Regression      3076,382                1        3076,382        64,942         ,000a
                         Residual        1184,285               25          47,371
                         Total           4260,667               26
              2          Regression      3382,065                2        1691,032        46,192           ,000b
                         Residual         878,602               24          36,608
                         Total           4260,667               26
                  a. Predictors: (Constant), pie
                  b. Predictors: (Constant), pie, a_espald
                  c. Dependent Variable: peso
Coefficientsa
                             Unstandardized            Standardized
                               Coefficients             Coefficients                                Collinearity Statistics
  Model                       B        Std. Error          Beta              t            Sig.     Tolerance        VIF
  1         (Constant)      -84,173       18,421                            -4,569          ,000
            pie               3,798          ,471                ,850        8,059          ,000       1,000          1,000
  2         (Constant)      -87,250       16,228                            -5,376          ,000
            pie               2,213          ,687                ,495        3,219          ,004           ,363       2,753
            a_espald          1,415          ,490                ,444        2,890          ,008           ,363       2,753
      a. Dependent Variable: peso
                    6
        Frequency
                                                   Mean = 1,99E-15
                                                   Std. Dev. = 0,961
                    0