FACULTAD DE INGENIERIA DE PROCESOS
ASIGNATURA: ESTADISTICA INDUSTRIAL (IQ313APQ)
DOCENTE: DRA. LECSI MARICELA ROMERO PEÑA
Contenido : REGRESION LINEAL Y CORRELACIÓN (A)
MATERIAL DE ESTUDIO (PARTE 9)
2017-II
Análisis de correlación simple
Análisis de correlación simple: permite obtener la
relación entre dos conjunto de datos.
Para investigar la relación entre dos variables es
conveniente considerar:
Las observaciones que muestran los valores de las
variables.
Si se tiene “n” observaciones bidimensionales,
cada par de puntos(X, Y) se representa en un
sistema de coordenadas rectangulares por un
punto como parejas de observaciones se tenga.
Análisis de correlación simple
La representación de los puntos en el sistema de coordenadas
rectangulares, da origen al diagrama de dispersión.
El diagrama de dispersión en una gráfica en la que cada punto
trazado representa el par de valores observados de las variables
independientes y dependientes.
La gráfica del diagrama de dispersión nos permite visualizar el
valor de la variable independiente “X” en el eje horizontal y el
valor de la variable dependiente “Y” en el eje vertical.
Diagramas de correlación que representan correlaciones cero,
débil y fuerte
covarianza
Covarianza
Supongamos que tenemos dos variables aleatorias X e Y,
discretas o continuas, con función de probabilidad o densidad
conjunta f(x,y) y definimos una función z(x,y) igual al producto
de las desviaciones de cada valor a su media respectiva (es
decir, z(x,y) tiene la misma estructura que (X - μ)2 = (X - μ) (X - μ)
si sustituimos una vez a X por Y).
Cov(x,y) = xy =
Al valor esperado de z(x,y) se le llama covarianza de las
variables X e Y y se representa como σxy o cov(x,y).
La covarianza es una medida de la variación común a dos variables y, por
tanto, una medida del grado y tipo de su relación.
Coeficiente de correlación
Creado por Karl Pearson alrededor de 1900, es una medida de
la fuerza de la relación lineal entre dos variables en escala de
intervalo o de razón.
El coeficiente de correlación se define como el cociente
entre la covarianza y el producto de las desviaciones
estándar de las dos variables.
Coeficiente de correlación muestral (r):
O también
En las fórmulas:
(xi, yi ) = Observaciones individuales para el elemento i
(x , y ) = Medias muestrales.
(Sx, Sy) = desvíos estándares muestrales en x e y respectivamente.
(Sxy) = covarianza muestral.
n = número de elementos de la muestra
Coeficiente de correlación poblacional ():
En la fórmula:
= es el coeficiente de correlacional poblacional
xy = es la covarianza poblacional de (x,y)
x = es la desviación estándar poblacional de la variable x
y = es la desviación estándar poblacional de la variable y
Coeficiente de correlación (r)
Características:
1. El coeficiente de correlación de la muestra se identifica con la
letra minúscula r.
2. Muestra la dirección y fuerza de la relación lineal (recta)
entre dos variables en escala de intervalo o en escala de razón.
3. Varía de -1 hasta +1, inclusive.
4. Un valor cercano a 0 indica que hay poca asociación entre las
variables.
5. Un valor cercano a 1 indica una asociación directa o positiva
entre las variables.
6. Un valor cercano a -1 indica una asociación inversa o negativa
entre las variables.
Ejemplo 1
El propietario de una empresa desea analizar la relación entre
las ventas y la suma de dinero que gastó en publicidad. A
continuación se presenta la información de las ventas y de los
gastos publicitarios durante los últimos cuatro meses.
a) El propietario desea pronosticar las ventas con base en los
gastos publicitarios. ¿Cuál es la variable dependiente? ¿Cuál es
la variable independiente?
b) Trace un diagrama de dispersión.
c) Determine el coeficiente de correlación.
d) Interprete la fuerza del coeficiente de correlación.
Respuestas
• a) Variable independiente: Gastos en publicidad
• Variable dependiente: Ingreso de ventas
d) Hay una correlación fuerte
Prueba t del coeficiente de correlación
Las hipótesis nula y alternativa son:
PRUEBA t DEL COEFICIENTE con n-2n-2 grados de libertad
DE CORRELACIÓN
Regla de decisión en la prueba de hipótesis con un nivel de significancia
de 0.05
Autoevaluación
Una muestra de 25 campañas para la alcaldía de ciudades de tamaño
medio con poblaciones entre 50 000 y 250 000 habitantes demostró
que la correlación entre el porcentaje de los votos recibidos y la
cantidad gastada en la campaña por cada candidato fue 0.43. A un
nivel de significancia de 0.05, ¿hay una asociación positiva entre las
variables?
Respuesta
Regresión lineal simple
• Los métodos de regresión estudian los modelos para explicar la
dependencia entre una variable independiente (respuesta) (y) y las
variables explicativas o dependientes (X).
• El modelo de regresión lineal , tiene lugar cuando la dependencia
es de tendencia lineal y se usa para dar respuesta a dos cuestiones
básicas:
• ¿Es significativo el efecto que una variable X causa sobre otra Y?,
• ¿ Es significativa la dependencia lineal entre esas dos variables?.
Regresión: Objetivos
• Investigar si existe una asociación entre las dos variables.
• Estudiar la fuerza de la asociación, a través de una medida de
asociación denominada coeficiente de correlación.
• Estudiar la forma de la relación. Usando los datos se propone un
modelo para la relación que permitirá predecir el valor de una
variable a partir de la otra.
Regresión: Objetivos
• Determinar una ecuación que pueda utilizarse en pronósticos.
• Medir el error del pronóstico.
• Presentar las consideraciones en que se basa el análisis de
regresión.
• Determinar intervalos de confianza para los pronósticos.
Análisis de regresión
El análisis de la regresión es un proceso estadístico para
estimar las relaciones entre variables
La técnica para desarrollar una ecuación lineal entre dos
variables y proporcionar las estimaciones de la variable
dependiente Y en base a un valor seleccionado de la
variable independiente X .
Ecuación de regresión. Ecuación que expresa la relación
lineal entre dos variables.
Análisis de regresión
Principio de los mínimos cuadrados. Determina una ecuación
de regresión al minimizar la suma de los cuadrados de las
distancias verticales entre los valores reales (observados) de
Y y los valores pronosticados (estimados) de Y.
El criterio de mínimos cuadrados permite obtener la ecuación
de mejor ajuste.
Ecuación de la línea recta
Forma general de la ecuación de regresión lineal: Ŷ = a + bX
Ecuación de la línea recta
Forma general de la ecuación de regresión lineal: Ŷ = a + bX
Intersección con el eje y: a = Ῡ - bX
Diferencia entre el análisis de regresión y
el análisis de correlación
La regresión y la correlación son dos técnicas
estrechamente relacionadas y comprenden una forma de
estimación. ... El análisis de correlación produce un
número que resume el grado de la correlación entre dos
variables; y el análisis de regresión da lugar a una
ecuación matemática que describe dicha relación.
Autoevaluación
Consulte la autoevaluación 1, donde el propietario estudió la
relación entre las ventas y la cantidad que gastaba en
publicidad. La información de las ventas de los cuatro últimos
meses se repite a continuación.
a) Determine la ecuación de regresión.
b) Interprete los valores de a y b.
c) Estime las ventas cuando se gastan $3 millones en
publicidad.
Respuestas
Ejercicio
Una compañía de electricidad estudia la relación entre los
kilowatts-hora (miles) consumidos y el número de
habitaciones de una residencia privada familiar. Una muestra
aleatoria de 10 casas reveló lo siguiente.
Nro de habitaciones 12 9 14 6 10 8 10 10 5 7
Kilowatts-hora (miles) 9 7 10 5 8 6 8 10 4 7
a) Determine la ecuación de regresión
b) Encuentre el número de kilowatts-hora, en miles, de una
casa de seis habitaciones.
Prueba de significancia de la pendiente
Las hipótesis nula y alternativa son:
H0: β=0
H1: β≠0
Donde β representa la pendiente de la población de la ecuación
de regresión.
Identificamos el valor de la pendiente como b. Así que la
pendiente “b” calculada se basa en una muestra y es una
estimación de la pendiente de la población, identificada como
“β”.
La hipótesis nula es que la pendiente de la ecuación de
regresión de la población es cero. Si éste es el caso, la recta
de regresión es horizontal y no existe relación entra la variable
independiente, X, y la variable dependiente, Y.
Si se rechaza H0 y se acepta H1, se deduce que la pendiente
de la recta de regresión de la población no es igual a cero;
existe una relación significativa entre las variables X e Y.
Prueba de significancia de la pendiente
b es la estimación de la pendiente de la recta de regresión,
calculada a partir de la estimación de la muestra.
sb es el error estándar de la estimación de la pendiente.
Excel. Regresión
Kw-hr = 1.3333 + 0.66667
habitaciones
Error estándar de estimación
SS
R
SSTotal
Capacidad predictora de una ecuación de
regresión
Error estándar de estimación. Medida de la dispersión de los
valores observados respecto de la recta de regresión para un
valor dado de X.
Capacidad predictora de una ecuación de
regresión
Coeficiente de determinación, r2. Proporción de la
variación total de la variable dependiente Y que se
explica, o contabiliza, por la variación de la variable
dependiente X.
Suposiciones de la regresión lineal
Intervalos de confianza e intervalos de
predicción
• Intervalo de confianza. Se utiliza para predecir el valor medio de Y para
una X dada.
• Intervalo de predicción. Se usa para predecir una Y individual para un
• valor dado de X.
Ejercicios
58 y 59 (páginas 506 y 507).
Análisis de regresión múltiple
La ecuación lineal múltiple para k variables independientes es
Donde
a es la intersección, el valor de Y cuando todas las X son cero
bi es la cantidad en que Y cambia cuando esa Xj particular
aumenta una unidad, cuando los valores de todas las demás
variables independientes se mantienen constantes. i=1..k
Prueba global del modelo de regresión
múltiple
La hipótesis nula es:
H0: β1 = β2 = β3 = 0
H1: No todas las βi son 0.
Evaluación de los coeficientes de regresión
individuales
La distribución de muestreo de los coeficientes sigue la
distribución t con n – (k+1) grados de libertad.
Las variables independientes se pueden probar individualmente
para determinar si los coeficientes de regresión difieren de cero.
El coeficiente bi se refiere a cualquiera de los coeficientes de
regresión, y sbi, a la desviación estándar de esa distribución del
coeficiente de regresión. Se incluye 0 debido a que la hipótesis
nula es βi = 0.
Supuestos de la regresión múltiple
1. Existe una relación lineal entre la variable dependiente y c/u
de las variables independientes
2. La variación entre los residuos es la misma tanto
para valores grandes como pequeños de . Esto significa
que los valores de predicción es constante, sin que importe
si los valores de predicción son grandes o pequeños
(homoscedasticidad).
3. Los residuos siguen la distribución de probabilidad normal.
4. Las variables independientes no deben estar
correlacionadas entre sí (no debe existir multicolinealidad).
5. Los residuos son independientes. Las observaciones
sucesivas de la variable dependiente no están
correlacionadas.