Correlación Canónica
Es un método de análisis multivariante desarrollado por Harold Hotelling. Su
objetivo es buscar las relaciones que pueda haber entre dos grupos de variables y
la validez de las mismas. Se diferencia del análisis de correlación múltiple en que
este solo predice una variable dependiente a partir de múltiples independientes,
mientras que la correlación canónica predice múltiples variables dependientes a
partir de múltiples independientes. La correlación hipercanónica es una correlación
lineal y, por tanto, solo busca relaciones lineales entre las variables. En este
análisis, entonces, se crean combinaciones lineales de las variables originales,
sobre la base de su estructura de correlación. Al diseñar el experimento hay que
considerar el tamaño de la muestra ya que son necesarias un mínimo de
observaciones por variable, para que el análisis pueda representar las
correlaciones adecuadamente.
Se deben explicar las operaciones canónicas para determinar la significación de
cada variable en las funciones canónicas. La dinámica observada de las cargas
canónicas refleja sus diferencias con la teoría canónica, cada eje se refiere a la
correlación múltiple entre los nuevos accesorios lineales generados a partir del
análisis.
Definición de términos
Correlación: Correspondencia o relación recíproca entre dos o más cosas o
series de cosas.
Canónica: Que se ajusta exactamente a las características de un canon.
Canon: Modelo de características perfectas.
Por lo que se puede decir que la correlación canónica es la relación que hay entre
dos variables, como una puede influir en la otra y como pueden ser dependientes
de variables completamente independientes.
El procedimiento Correlaciones Canónicas esta diseñado para ayudar a identificar
asociaciones entre dos conjuntos de variables. Esto lo hace encontrando
combinaciones lineales de las variables en los dos conjuntos que exhiban
correlaciones fuertes. El par de combinaciones lineales con la correlación más
fuerte forman el primer conjunto de variables canónicas. El segundo conjunto de
variables canónicas es el par de combinaciones lineales que muestran la siguiente
correlación más fuerte entre todas las combinaciones que no están
correlacionadas con el primer conjunto. Frecuentemente, un número pequeño de
pares puede ser usado para cuantificar la relación que existe entre los dos
conjuntos.
Cálculo de las Correlación Canónica: La idea básica del análisis de correlación
canónica comienza buscando una combinación lineal de las y, tal como:
U1 = a1y1+a2y2+...+aqyq (1)
y una combinación lineal de las x, tal como:
V1 = b1x1+b2x2+...+bpxp (2)
Para cualquier elección de los coeficientes, a y b, se puede calcular los
valores U1 y V1 de cada individuo de la muestra. Para los N individuos de la
muestra se puede calcular la correlación simple de los N pares, U1 y V1, de la
manera usual. La correlación resultante dependerá de la elección de los valores
de a y b. En el análisis de correlación canónica, se seleccionan los valores de los
coeficientes a y b de manera que maximice la correlación entre U1 y V1. Como
consecuencia de esta particular elección de los coeficientes, a la combinación
lineal U1 se le denomina primera variable canónica de las y, y a la combinación
lineal V1 se le denomina primera variable canónica de las x. Nótese que tanto U1
como V1 tienen media cero. La correlación entre U1 y V1 se le denomina primera
correlación canónica. La primera correlación canónica es, por tanto, la correlación
mayor posible entre la combinación lineal de las x y la combinación lineal de las y.
En este sentido, es la correlación lineal máxima entre el grupo de las x y el grupo
de las y. La primera correlación canónica es análoga al coeficiente de correlación
múltiple entre una variable Y y un grupo de variables X. La diferencia es que en la
correlación canónica hay varias y por lo que también hay que encontrar una
combinación lineal de ellas. Un método para interpretar el valor relativo de cada
variable en la combinación lineal canónica, es viendo el valor de los coeficientes
tipificados, así, para las Y, la primera variable canónica viene determinada .Otro
método para interpretar el valor relativo de cada variable en la combinación lineal
canónica, es viendo el valor de la correlación de cada variable original con su
variable canónica (o con la variable canónica del otro grupo de variables). Se
puede realizar interpretaciones adicionales de la relación entre las X y las Y
obteniendo otro conjunto de variables canónicas y su correspondiente correlación
canónica. El número máximo de correlaciones canónicas y sus correspondientes
variables canónicas es igual al número mínimo de variable en los grupos, esto es,
si hay por ejemplo 10 variables X y 5 variables Y el número de correlaciones
canónicas que se podrán calcular será de 5
Existe una prueba para de hipótesis para validar las correlaciones esta se llama
prueba de razón de verosimilitud según nos explican en varias fuentes se utiliza la
función de distribución F para probar las correlaciones canónicas.
La correlación canónica tiene varias áreas en las que se puede aplicar desde
climatología hasta la comparación de autos con diferentes características. En este
caso veremos el siguiente ejemplo de aplicación del análisis de correlación y como
podemos analizarlo:
Datos del Ejemplo de las variables de varias marcas de auto y sus diferentes variables, para lo que
tenemos la siguiente información:
El archivo 93cars.sf6 contiene información acerca de 26 variables para n = 93 marcas y modelos de
automóviles, tomadas de Lock (1993). La siguiente tabla muestra una lista parcial de los datos de
este archivo:
Las variables serán divididas en dos conjuntos.
El primer conjunto de p = 7 variables que caracterizan las características físicas de
los vehículos:
1. Tamaño del motor
2. Caballos de fuerza
3. Longitud
4. Distancia entre ejes
5. Anchura
6. Asiento trasero
7. Peso
El segundo conjunto de q = 4 variables que caracterizan el precio y el
funcionamiento de los automóviles:
1. Precio medio
2. 1 / MPG en carretera
3. 1 / MPG Ciudad
4. Espacio de giro en U
Note que las millas observadas por galón han sido reexpresadas como
galones por milla, de aquí que las 4 variables se espera que se incrementen
con el tamaño del automóvil.
Un gráfico de matriz de las 11 variables muestra correlaciones positivas
consistentes entre todas las variables:
Entrada de Datos
La caja de dialogo de entrada requiere los nombres de las columnas que contiene
los datos en los dos conjuntos
Primer Conjunto de Variables: Los nombres de las p variables en el conjunto mas grande
Segundo Conjunto de Variables: Los nombres de las q variables en el conjunto más
pequeño
Etiquetas de Puntos: Etiquetas opcionales para cada observación.
Selección: Selección de un subconjunto de los datos. Note que los conjuntos deben ser
seleccionados tal que p ≥ q.
Modelo Estadístico El objetivo de la correlación canónica es construir
combinaciones lineales de las variables en los dos conjuntos tal que tengan las
correlaciones más grandes. El primer conjunto de variables canónicas toma la
forma
donde X y Y representan los valores estandarizados de las variables en el
primer y segundo conjunto respectivamente. La correlación entre el primer
conjunto de combinaciones lineales es llamada la primera correlación canónica
y será denotada por p1.
Resumen del Análisis
La tabla del Resumen del Análisis es mostrada enseguida:
SOFTWARES
Algunos de los software que se utiliza para realizar estudios de correlación
canónica son los siguientes:
STATGRAPHICS Centurion
Es una potente herramienta de análisis de datos que combina una amplia gama de
procedimientos analíticos con extraordinarios gráficos interactivos para
proporcionar un entorno integrado de análisis que puede ser aplicado en cada una
de las fases de un proyecto, desde los protocolos de gestión Six Sigma hasta los
procesos de control de calidad.
Incluye funciones estadísticas avanzadas, capaces de proporcionar rigurosos
análisis propios de los profesionales estadísticos más exigentes y experimentados,
y al mismo tiempo ofrece un interface muy intuitivo, con funciones de asistencia
exclusivas, de tal forma que proporciona la simplicidad suficiente para permitir a
un analista inexperto realizar procedimientos complejos.
XLSTA
Es un potente y flexible complemento de análisis de datos de Excel que permite a
más de 150.000 usuarios de más de 120 países de todo el mundo analizar,
personalizar y compartir resultados en Microsoft Excel.
SPSS
(acrónimo en inglés de Statistical Package for the Social Sciences [Paquete
Estadístico para las Ciencias Sociales]) es un programa estadístico informático
que originalmente se usaba únicamente en las investigaciones de las ciencias
sociales y en las ciencias aplicadas, y también se aplica ahora (con el nombre IBM
SPSS) en el ámbito la de investigación de mercado (mercadotecnia).1
Es uno de los programas estadísticos más conocidos teniendo en cuenta su
capacidad para trabajar con grandes bases de datos y una sencilla interfaz para la
mayoría de los análisis. En la versión 12 de SPSS se podían realizar análisis con
dos millones de registros y 250 000 variables. El programa consiste en un módulo
de base y módulos anexos que se han ido actualizando constantemente con
nuevos procedimientos estadísticos. Cada uno de estos módulos se compra por
separado.
Existen varias aplicaciones que permiten el análisis multivariado por las diferentes
necesidades en el ámbito de mercadotecnia, ciencias sociales y naturales así
como en la bolsa de valores.