Análisis de regresión y correlación
Iván Torres Sotelo
cesar.torres@unica.edu.pe
Facultad de Medicina Humana
Bioestadística
2020-2
Iván Torres Sotelo Bioestadística 1 / 26
Universidad Nacional San Luis Gonzaga Bioestadística
Facultad de Medicina Humana Análisis de regresión y correlación
Contenido
Introducción 3
Logros de la sesión 5
1. Correlación simple o de Pearson 6
2. Análisis de regresión 12
Taller N° 1 18
Conclusión 25
Bibliografía 26
Iván Torres Sotelo Bioestadística 2 / 26
Universidad Nacional San Luis Gonzaga Bioestadística
Facultad de Medicina Humana Análisis de regresión y correlación
Introducción
Iván Torres Sotelo Bioestadística 3 / 26
Universidad Nacional San Luis Gonzaga Bioestadística
Facultad de Medicina Humana Análisis de regresión y correlación
Iván Torres Sotelo Bioestadística 4 / 26
Universidad Nacional San Luis Gonzaga Bioestadística
Facultad de Medicina Humana Análisis de regresión y correlación
Logros de la sesión
•
•
Iván Torres Sotelo Bioestadística 5 / 26
Universidad Nacional San Luis Gonzaga Bioestadística
Facultad de Medicina Humana Análisis de regresión y correlación
1. Correlación simple o de Pearson
El análisis de correlación es un grupo de técnicas estadísticas que permiten
medir la intensidad de la relación que puede existir entre dos variables.
Ejemplo 1.
Si se quiere conocer la relación entre los datos de peso y talla de 30 individuos
que se presentan a continuación:
Altura
162 154 180 171 169 166 176 163 165 160 185 175 155 167 170
(cm)
Peso
63 58 79 74 72 68 78 65 67 59 82 76 59 70 75
(kg)
Los datos pueden ser representados en un diagrama de dispersión, en el cual
cada individuo es un punto que se ubica en el espacio según los valores de
sus variables talla (X) y peso (Y).
Iván Torres Sotelo Bioestadística 6 / 26
Universidad Nacional San Luis Gonzaga Bioestadística
Facultad de Medicina Humana Análisis de regresión y correlación
Iván Torres Sotelo Bioestadística 7 / 26
Universidad Nacional San Luis Gonzaga Bioestadística
Facultad de Medicina Humana Análisis de regresión y correlación
Con este diagrama se puede suponer, por observación, que existe una relación
directa entre ambas variables. Sin embargo, se requiere de un análisis de
correlación para comprobar y validar la suposición.
El coeficiente de correlación lineal de Pearson indica si los puntos en el
diagrama tienen una tendencia a disponerse alineadamente (relación lineal).
Siendo este el caso, indica también el grado de relación y el sentido (relación
directa o inversa). Este coeficiente – representado como parámetro ρ o como
estadístico r se halla con la siguiente fórmula:
Iván Torres Sotelo Bioestadística 8 / 26
Universidad Nacional San Luis Gonzaga Bioestadística
Facultad de Medicina Humana Análisis de regresión y correlación
Del ejemplo 1, se tiene
Iván Torres Sotelo Bioestadística 9 / 26
Universidad Nacional San Luis Gonzaga Bioestadística
Facultad de Medicina Humana Análisis de regresión y correlación
Interpretación del coeficiente r
a) Sentido:
- Relación directa cuando el valor del coeficiente r es positivo.
- Relación inversa cuando el valor del coeficiente r es negativo.
b) Intensidad:
- Correlación positiva perfecta cuando r = 1
- Correlación positiva intensa cuando 0.5 < r < 1
- Correlación positiva moderada cuando r = 0.5
- Correlación positiva débil cuando 0 < r < 0.5
- Correlación negativa perfecta cuando r = - 1
- Correlación negativa intensa cuando -1 < r < - 0.5
- Correlación negativa moderada cuando r = - 0.5
- Correlación negativa débil cuando - 0.5 < r < 0
Iván Torres Sotelo Bioestadística 10 / 26
Universidad Nacional San Luis Gonzaga Bioestadística
Facultad de Medicina Humana Análisis de regresión y correlación
Del ejemplo 1, se puede concluir que la relación es directa y de correlación positiva
intensa, pues r = 0.973
Propiedades del coeficiente de relación (r)
- Es adimensional
- Solo toma valores en [-1; 1]
- Si r = 0 las variables son incorreladas
- Relación lineal perfecta entre dos variables cuando r = +1 o r = -1
- Cuanto más cerca esté r de +1 o -1 mejor será el grado de relación lineal.
Iván Torres Sotelo Bioestadística 11 / 26
Universidad Nacional San Luis Gonzaga Bioestadística
Facultad de Medicina Humana Análisis de regresión y correlación
2. Análisis de regresión
Es el estudio de la relación funcional entre dos variables. Sirve para establecer
una relación cuantitativa entre dos o más variables relacionadas. Se trata de
predecir y/o explicar el valor de una variable –que es la denominada variable
dependiente– dado el valor de otra(s) variable(s) relacionada(s) que sería(n)
la(s) variable(s) independiente(s).
Las variables que van a ser estudiadas mediante este análisis deben tener
como características ser de naturaleza cuantitativa y de preferencia continua.
Iván Torres Sotelo Bioestadística 12 / 26
Universidad Nacional San Luis Gonzaga Bioestadística
Facultad de Medicina Humana Análisis de regresión y correlación
La regresión lineal simple
En la regresión lineal simple se busca establecer, mediante una ecuación, la relación
cuantitativa entre dos variables solo en el caso de que exista una relación lineal entre
ellas.
Para entender el concepto se presenta el siguiente diagrama de dispersión del
ejemplo 1.
Iván Torres Sotelo Bioestadística 13 / 26
Universidad Nacional San Luis Gonzaga Bioestadística
Facultad de Medicina Humana Análisis de regresión y correlación
Iván Torres Sotelo Bioestadística 14 / 26
Universidad Nacional San Luis Gonzaga Bioestadística
Facultad de Medicina Humana Análisis de regresión y correlación
Solo por observación, se puede afirmar que probablemente la variable Y (Peso)
aumente a medida que incrementa la variable X (Altura). Es decir, que existe una
relación directa y posiblemente lineal entre las variables.
Es evidente que, para poder hallar la relación cuantitativa entre las variables,
mediante la regresión lineal, se debe ajustar una línea entre los puntos observados.
Hecho esto, es posible usar la línea para predecir el valor de Y (Peso) a partir de un
valor conocido de X (Altura).
Línea de regresión
La estimación de la línea o recta de regresión solo se puede conseguir mediante una
ecuación lineal cuya representación es,
Donde: es la variable dependiente, es la variable independiente, es la
intersección en Y y es la pendiente de la recta.
Iván Torres Sotelo Bioestadística 15 / 26
Universidad Nacional San Luis Gonzaga Bioestadística
Facultad de Medicina Humana Análisis de regresión y correlación
Evidentemente, los valores constantes de la ecuación son y . El primer paso
para determinar la ecuación es hallar con la fórmula:
Conociendo es posible hallar con la fórmula:
Del ejemplo 1, los valores constantes y son:
Iván Torres Sotelo Bioestadística 16 / 26
Universidad Nacional San Luis Gonzaga Bioestadística
Facultad de Medicina Humana Análisis de regresión y correlación
Con los valores de y ya calculados, ahora reemplazamos en la ecuación de
regresión lineal,
así:
De donde ya se podrán hacer predicciones, por ejemplo, para una persona con altura
de 190 cm su peso será:
Iván Torres Sotelo Bioestadística 17 / 26
Universidad Nacional San Luis Gonzaga Bioestadística
Facultad de Medicina Humana Análisis de regresión y correlación
Taller N°1
Caso 1
Una compañía farmacéutica conduce un estudio piloto para evaluar la relación
entre tres dosis en un nuevo agente hipnótico y tiempo de sueño. Los
resultados de este estudio son presentados de la siguiente manera.
Tiempo de sueño (horas) 4 6 5 9 8 7 13 11 9
Dosis (mM/kg) 3 3 3 10 10 10 15 15 15
Construya un diagrama de dispersión e interprete el gráfico, además calcule
el coeficiente de correlación e interprete el resultado. Finalmente determine
la ecuación de regresión lineal y realice alguna predicción.
Iván Torres Sotelo Bioestadística 18 / 26
Universidad Nacional San Luis Gonzaga Bioestadística
Facultad de Medicina Humana Análisis de regresión y correlación
Caso 2
Una muestra aleatoria de los expedientes de un hospital proporcionó la
siguiente información acerca de la duración del internamiento en días y el
ingreso anual (redondeado hasta los $500 más próximos) de 15 pacientes
dados de alta.
Ingreso Duración del Ingreso Duración del Ingreso Duración del
anual internamiento anual internamiento anual internamiento
familiar familiar familiar
2000 11 4500 10 7000 5
2500 12 5000 7 7500 6
3000 9 5500 8 8000 3
3500 8 6000 4 8500 4
4000 9 6500 7 9000 4
Elabore un diagrama de dispersión y comente los resultados. Estime el
coeficiente de correlación e interprete. Determine la ecuación de regresión
Iván Torres Sotelo Bioestadística 19 / 26
Universidad Nacional San Luis Gonzaga Bioestadística
Facultad de Medicina Humana Análisis de regresión y correlación
lineal y estime la duración del internamiento para un paciente cuyo ingreso
anual familiar es de 10000.
Iván Torres Sotelo Bioestadística 20 / 26
Universidad Nacional San Luis Gonzaga Bioestadística
Facultad de Medicina Humana Análisis de regresión y correlación
Caso 3
Los siguientes valores representan 15 lecturas que indican el volumen de
tráfico y la concentración de monóxido de carbono tomados en un laboratorio
para determinar la calidad del aire de cierta ciudad.
Volumen del CO Ingreso Duración del Ingreso Duración del
tráfico (ppm) anual internamiento anual internamiento
(automóviles por familiar familiar
hora)
100 8.8 190 10.5 300 12.1
110 9.0 200 10.5 325 12.5
125 9.5 225 10.6 350 13.0
150 10.0 250 11.0 375 13.2
175 10.5 275 12.1 400 14.5
Elabore un diagrama de dispersión y comente los resultados. Estime el
coeficiente de correlación e interprete. Determine la ecuación de regresión
Iván Torres Sotelo Bioestadística 21 / 26
Universidad Nacional San Luis Gonzaga Bioestadística
Facultad de Medicina Humana Análisis de regresión y correlación
lineal y estime la concentración de monóxido de carbono cuando transiten por
la vía 500 automóviles en una hora.
Iván Torres Sotelo Bioestadística 22 / 26
Universidad Nacional San Luis Gonzaga Bioestadística
Facultad de Medicina Humana Análisis de regresión y correlación
Caso 4
Una muestra aleatoria de 25 enfermeras seleccionadas de un registro estatal
proporcionó la siguiente información acerca de la calificación obtenida por
cada una de ellas en un examen aplicado por la dirección estatal, así como la
calificación final obtenida en la escuela. Ambas calificaciones se relacionan
con el área de especialización de la enfermera.
Calif. Calif. de la Calif. Calif. de la Calif. Calif. de la Calif. Calif. de la Calif. Calif. de la
final dirección final dirección final dirección final dirección final dirección
estatal estatal estatal estatal estatal
87 440 89 480 90 495 91 600 93 595
87 480 89 510 90 545 92 490 94 525
87 535 89 530 90 575 92 510 94 545
88 460 89 545 91 525 92 575 94 600
88 525 89 600 91 575 93 540 94 625
Elabore un diagrama de dispersión y comente los resultados. Estime el
coeficiente de correlación e interprete. Determine la ecuación de regresión
Iván Torres Sotelo Bioestadística 23 / 26
Universidad Nacional San Luis Gonzaga Bioestadística
Facultad de Medicina Humana Análisis de regresión y correlación
lineal y estime la calificación de la dirección estatal para una enfermera cuya
calificación final fue de 70.
Iván Torres Sotelo Bioestadística 24 / 26
Universidad Nacional San Luis Gonzaga Bioestadística
Facultad de Medicina Humana Análisis de regresión y correlación
Conclusiones
El análisis de correlación nos permite medir la intensidad con la que se relacionan
dos variables.
El análisis de regresión nos permite hacer predicciones a partir de conocer el valor
de la variable independiente.
Iván Torres Sotelo Bioestadística 25 / 26
Universidad Nacional San Luis Gonzaga Bioestadística
Facultad de Medicina Humana Análisis de regresión y correlación
Bibliografía
• Dawson, B, y Trapp R. (1997). Bioestadística médica (2a ed.). México: Editorial
Manual moderno.
Iván Torres Sotelo Bioestadística 26 / 26