ANÁLISIS DE REGRESIÓN
El propósito de éste análisis es determinar la ecuación de regresión lo cual se usa para predecir,
estimar el valor de la variable dependiente (Y) basado en la variable independiente (X).
Procedimiento: seleccionar una muestra de la población; dibujar un diagrama de dispersión
para visualizar la relación; la ecuación se determina de la siguiente manera:
                                            Y=a+bX             donde:
Y, es el valor promedio pronosticado para cualquier valor de X,
a, es la intercepción en Y, o el valor estimado de Y cuando X = 0
b es la pendiente de la recta, o cambio promedio en Y por cada cambio de una unidad en X
  i)    Si b es positivo (b > 0), entonces existe una relación lineal positiva o indirecta, es decir.
        que ante incrementos en la variable independiente, corresponde incrementos en la variable
        dependiente
  ii)   Si b es negativo (b< 0), se tiene una relación lineal negativa es decir, que incrementos en
        la variable independiente origina decrementos o disminuciones en la variable dependiente.
        Se usa el principio de mínimos cuadrados para obtener a y b:*
El primer paso en el análisis de regresión es construir una gráfica de datos denominado
diagrama de dispersión que nos indica frecuentemente el tipo de tendencia de Y con respecto
aX
Es una gráfica que describe la relación entre las dos variables de interés.
                (A)                     (B)                              (C)
En las figuras A Y C los datos visualizan una relación lineal entre las variables y en la figura B
observamos que no hay relación.
                               COEFICIENTE DE CORRELACIÓN
El análisis de correlación emplea métodos para medir la significación del grado o intensidad
de asociación entre dos o más variables. Normalmente, el primer paso es mostrar los datos
en un diagrama de dispersión. El concepto de correlación está estrechamente vinculado al
concepto de regresión.
El coeficiente de correlación (r) consiste en determinar el grado de relación entre ambas
variables.
                                                 SX = desviación estándar de x
               S xy
 r       =                                       SXY = covarianza
             SxS y
                                                 SY = desviación estándar de y
El coeficiente de correlación es un número            comprendido entre:
                                               -1 ≤     r       ≤1
                                    n                   n             n
                                 n X iYi −  X i  Yi
                 r=        n
                                   i =1
                                           n
                                                       i =1
                                                               n
                                                                     i =1
                                                                             n
                        n X i2 − ( X i ) 2 n Yi 2 − ( Y1 ) 2
                          i =1            i =1                i =1          i =1
     •   Si r > 0, se dice que hay una correlación directa positiva.
     •   Si r = 1, se dice que hay una correlación perfecta positiva, es decir existe una alto
         grado de relación.
     •   Si r < 0, se dice que hay una correlación inversa negativa.
     •   Si r = -1, se dice que hay una correlación perfecta negativa, es decir existe una bajo
         grado de relación.
     •   Si r = 0, se dice que no hay correlación lineal entre las 2 variables.
   a)    0.00     ≤      r         ≤        0,20            Existe correlación no significativa.
   b)    0,20     ≤      r         ≤        0,40            Existe una correlación baja.
   c)    0,40     ≤      r         ≤        0,70            Existe una significativa correlación.
   d)    0,70     ≤      r         ≤        1,00            Existe alto grado de asociación.
                         COEFICIENTE DE DETERMINACIÓN
El coeficiente de determinación,( r2 ) es la proporción de la variación en la variable
dependiente Y que está explicada por o se debe a la variación en la variable independiente
X.
El coeficiente de determinación es el cuadrado del coeficiente de correlación, y toma valores
de 0 a 1.
                                  0≤   r2      ≤1
Cuando mayor sea el valor del coeficiente de determinación mejor será el ajuste es decir
será más útil la recta de regresión como instrumento de predicción.
        Ejemplo: Supongamos que se quiere estimar la relación entre ingreso y consumo, para
                 el efecto se eligió una muestra de 6 familias.
        Dados los datos se tiene la variable dependiente (Y = Consumo) y las variable
        Independiente (X = Ingreso).
   Ingreso             Consumo                         60
      X                   Y
      35                  30                           50
                                             CONSUMO
      40                  35
      38                  30                           40
      55                  50
      42                  35                           30
      60                  50
     270                 230                           20
                                                            30      35      40       45      50     55   60   65
     ∑X                      ∑Y
                                                                                      INGRESO
                X            Y            XY            X2            Y2
                35          30           1050         1225           900
                40          35           1400         1600          1225
                38          30           1140         1444           900
                55          50           2750         3025          2500
                42          35           1470         1764          1225
                60          50           3000         3600          2500
               270         230          10810        12658          9250
               ∑X           ∑Y           ∑XY           ∑X2          ∑Y2
        Reemplazamos los valores de las sumatorias en la ecuación (*)
                6(10810 ) − (270 )(230 ) 2760
          b=                            =      = 0,9055
                  6(12658 ) − (270 )
                                    2
                                          3048
          a=
                (12658 )(230 ) − (270 )(10810 ) = − 7360 − 2,4147
                     6(12658 ) − (270 )
                                         2
                                                    3048
            También      a = Y − bX
            Luego la recta de regresión es Y = -2,4147 + 0,9055 X
b = 0,9055 significa que al aumentar el ingreso en un nuevo sol, el consumo aumenta el consumo
    en 0, 9055 dólares
Aplicaciones
   1. En una muestra de 5 obreros de una fábrica se han observado sus años de experiencia
      (X) y el tiempo que tardan en realizar una determinada tarea (Y). Los datos se muestran
      en la siguiente tabla:
                   X     1      2      3          4         5
                   Y     8      9      4          3         3
       a.        Encontrar la recta de regresión lineal.
       b.        Estimar el tiempo que tarda en realizar una tarea un obrero que tiene 8 años de
                 experiencia.
       c.        Determinar si existe un alto grado de relación entre estas 2 variables.
   2. El banco PRÉSTAMO estudia la relación entre las variables, ingresos (X) y ahorros (Y)
      mensuales de sus clientes (docentes). Una muestra aleatoria de sus clientes reveló los
      siguientes datos den dólares:
                   X     350   400 450           500 950 850           700 900 600
                   Y     100   110 130           160 350 350           250 320 130
       a. Dibuje el diagrama de dispersión y describa la tendencia trazando una línea a través
       de los puntos.
       b. Use el método de mínimos cuadrados para hallar la ecuación muestral que relaciona
       las 2 variables.
       c. Calcule el coeficiente de determinación. Interprete.
   3. Se realizó un estudio para determinar la relación entre los gastos de publicidad mensual
      por radio y el Nº de inscritos. En el estudio se obtuvieron los siguientes resultados:
                  SEMANA                    2          3         4    5     6     7     8     9    10    11
                 GASTOS DE
             PUBLICIDAD     ($)             30         20        40   30    50    70    60    80    70    80
              Nº DE INSCRITOS              300        250       400        550   750   630   930   700   840
       En el quinto mes por diversos motivos no se pudo hacer el estudio.
       a. Determine la ecuación de regresión de ventas sobre gastos de publicidad.
       b. ¿En cuánto estimaría el número de inscritos el quinto mes?
   4. Las calificaciones de un grupo de estudiantes en el examen parcial(X) y en el examen
      final (Y), fueron las siguientes:
                a. Determine la ecuación de regresión lineal de Y en X.
    b. Halle R, R2 .Interprete sus resultados.
X   12   8    10    13   9     14    11   18     12   10   12   14   9    12
Y   15   10   12    14   12    15    16   20     14   12   10   16   11   13
X   15   12   11    12   11    10    14   13     10   12   13   12   16   15
Y   17   15   12    13   12    13    12   14     13   15   14   13   18   17