Variables Bidimensionales
Bioestadística
Equipo 2:
-Tomé Tomé Andrés Ezequiel 201810171
-Portilla Cruz Brian Gilberto 201814387
-García López Stephany 201805428
-Ramírez Torres Christian Roberto 201822300
-Bueno Vazquez Lizbeth 201807981
-
-
Introducción
● El estudio de una sola variable permite considerar su comportamiento. Estudiamos
sus medidas de tendencia central (media, mediana, moda), la dispersión de los datos
de esa variable, a través de la varianza, desviación típica, rangos, desviación
mediana,…, así como su simetría.
● Cabría considerar ahora el estudio simultáneo de dos variables, es decir, si
estudiamos a la vez dos variables ¿Influirán los valores que tome una en la otra?
¿Habrá una relación entre ambas? ¿De qué tipo?.
¿Qué son las variables bidimensionales?
● En el análisis estadístico es conveniente a veces contrastar los datos procedentes de
dos caracteres estudiados sobre un mismo individuo.
● En este sentido se plantea la consideración de variables estadísticas bidimensionales,
así como la detección de posibles relaciones entre los dos caracteres investigados.
● Resulta al estudiar 2 características de los individuos de una población.
● Se designa mediante (X,Y) y queda determinada por los pares de datos (x1,y1) (x2,y2)...
(xn,yn).
Ejemplo
Tablas de doble entrada
La tabla que describe los individuos, atendiendo a sus dos caracteres, es una tabla de doble entrada. En la
primera columna se colocan las modalidades x1, x2, . . . , xp de X y en la primera fila las modalidades y1, y2,
. . . , yq de Y . La intersección de la fila donde se encuentra xi con la columna donde se encuentra yj
corresponde a la frecuencia absoluta nij
Ejemplo:
El número de veces que aparece la modalidad xi de la variable X, con independencia de la variable Y , es la
frecuencia absoluta marginal de X, ni· , que es igual al la suma de las frecuencias que aparecen en la i-ésima fila
Análogamente se define frecuencia absoluta marginal de Y, nj·. Para cada j, los valores de nj· se obtienen de sumar
las frecuencias absolutas de cada una de las columnas de la tabla y se sitúan en una fila marginal en la parte
inferior de la tabla
Se observa que las
distribuciones marginales son
distribuciones estadísticas
unidimensionales. Para estas
distri- buciones marginales
pueden obtenerse las medias,
varianzas y desviaciones típicas
marginales de X e Y .
Distribuciones condicionadas
Cuando se posee información previa de una de las variables en estudio, ésta puede modificar
la información disponible de la otra. En particular, cuando se considera la distribución de una
variable para un valor fijo de la otra se obtiene la distribución condicionada. Más
concretamente, las frecuencias condicionadas son:
nij: Variable condicionada de Y para el valor xi de X
resultante.
ni: Número total de
individuos en la condicionada de X para el valor yj de Y
condicional
La variable condicional de Y
La variable X condicionada a Y: condicionada a X:
(conjuntos pequeños y
especiales).
(Subconjuntos con aspectos
generalizados)
La distribución de cada una de las variables condicionadas se puede representar en tablas
Dependencia funcional e Independencia
Diagrama de Dispersión
Dependencia Funcional
Sólo con observar el diagrama de dispersión nos podemos hacer
una idea de si existe más o menos relación entre ambas variables y
del tipo de relación existente.
Dependencia funcional. Cuando todos los puntos del diagrama de
dispersión están situados en la gráfica de una función.
Correlaciones
Correlación lineal. Cuando los puntos están situados alrededor de una línea recta.
Correlación curvilínea. Cuando los puntos están situados alrededor de una línea curva.
Correlación positiva. Cuando al crecer una variable, crece también la otra.
Correlación negativa. Cuando al crecer una variable, decrece la otra.
Correlación fuerte. Cuando los puntos están muy próximos a la gráfica de una función.
Correlación débil. Cuando los puntos se aproximan poco a la gráfica de una función.
Independencia
Para el análisis de distribuciones bidimensionales es necesario saber si son
independientes o por el contrario si existe asociación o relación entre las variables X
e Y.
Se dice que son independientes si los valores de las variables de las variables X e Y no
afecta la distribución de la otra. Esto dice que todas las distribuciones condicionadas
sean iguales.
Por otro lado también se dice que las variables X e Y son independientes si se cumple la
frecuencia relativa conjunta es igual al producto de las frecuencias relativas marginales.
Por Ejemplo:
Si las variables a estudiar son el peso(x) y el número de miembros de la unidad
familiar (y), en principio y al menos intuitivamente, la variable peso se comportara
independientemente del condicionamiento que podamos hacer en cuanto al número
de miembros de la unidad familiar
Ejemplo
Comprueba si son o no independientes las variables X e Y de la distribución bidimensional (X, Y)
siguiente:
Cálculo
Basta ver que las distribuciones condicionadas son
iguales. Por ejemplo, las condicionadas de X/Y
Condicionadas de X a los valores de Y: X/Y
¿Cómo se hacen los cálculos?
Verticalmente: Dividiendo cada casilla
(frecuencia) entre el total de columna.
Observa que la variable X se
distribuye igual en el conjunto de
individuos que presenta la condición
Y=y1, que en el grupo que cumple
Y=y2.
La lectura de la tabla de condicionadas se hace en sentido contrario al que se hayan
realizado los cálculos:
Fila 1: 0,404=0,404; Fila 2: 0,211=0,211; Fila 3: 0,236=0,236; Fila 4: 0,123=0,123
Todas las condiciones son iguales, por lo tanto las variables X e Y son INDEPENDIENTES
Covarianza
¿Qué es la covarianza?
● Una medida del grado en que dos variables aleatorias se mueven en la misma
dirección o en direcciones opuestas la una respecto a la otra. En otras palabras, si
dos variables aleatorias generalmente se mueven en la misma dirección se dirá
que tienen una covarianza positiva. Si tienden a moverse en direcciones opuestas,
se dirá que tienen una covarianza negativa.
● La covarianza se mide como el valor que se espera de los productos de las
desviaciones de dos variables aleatorias respecto a sus correspondientes medias.
Una varianza es un caso especial de covarianza.
La covarianza es el valor que refleja en qué cuantía dos variables aleatorias varían de
forma conjunta respecto a sus medias.
Nos permite saber cómo se comporta una variable en función de lo que hace otra
variable. Es decir, cuando X sube ¿Cómo se comporta Y? Así pues, la covarianza puede
tomar los siguiente valores:
Covarianza (X,Y) es menor que cero cuando “X” sube e “Y” baja. Hay una relación
negativa.
Covarianza (X,Y) es mayor que cero cuando “X” sube e “Y” sube. Hay una relación
positiva.
Covarianza (X,Y) es igual que cero cuando no hay relación existente entre las variables
“X” e “Y”.
El signo de la covarianza nos permitirá conocer como interactúan las variables, así:
● Si >0, al aumentar los valores de X aumentan los de Y, se dice que hay una relación directa entre las
variables.
● Si <0, al aumentar los valores de X disminuyen los de Y, se dice que hay una relación inversa entre
las variables.
● Si =0 las variables están incorreladas, no hay relación lineal entre las variables, eso no quiere decir
que no haya relación estadística.
Propiedades de la covarianza
● Cov (X, b) = 0, siendo b en este caso una constante.
● Cov (X, X) = Var(X) es decir, la covarianza de una variable y de sí misma es igual a la varianza de
la variable.
● Cov (X, Y) = Cov(Y,X) la covarianza es la misma, independientemente del orden en que las
pongamos.
● Cov (b·X, c·Y) = c·b ·Cov(X,Y) siendo b y c dos constantes. La covarianza de dos variables
multiplicadas por dos constantes cualesquiera es igual a la covarianza de las dos variables
multiplicada por la multiplicación de las constantes.
● Cov (b+X, c+Y) = Cov(X,Y) sumar dos constantes cualesquiera a cada variable, no afecta a la
covarianza.
● Cov (X,Y) = E(X·Y) – E(X)·E(Y) o lo que es lo mismo, la covarianza es igual a la esperanza del
producto de las dos variables menos el producto de las dos esperanzas por separado.
Ampliando las propiedades anteriores, en el caso de que dos variables sean independientes. Es decir,
que no tengan relación estadística alguna, se cumple que:
E(X·Y) = E(X)·E(Y)
Es decir que la esperanza del producto de dos variables, es igual al producto de las dos esperanzas
por separado de dichas variables.
Cálculo de la covarianza
Dónde la y con el acento es la media de la variable Y, y la x con el acento es la media de la
variable X. “i” es la posición de la observación y “n” el número total de observaciones.
Alternativamente, cuando las frecuencias absolutas no son unitarias (es decir, los pares i,j
se repiten al menos una vez) la fórmula aplicable es la siguiente:
Ejemplo
¿Cómo interpretamos este 4?
Este 4 nos está diciendo, al ser
mayor que cero, que estas dos
variables tienen una relación
positiva. Para saber la relación
ajustada entre las dos variables
deberíamos calcular la correlación
lineal. Dos covarianzas de distintas
variables no son comparables, ya
que el valor de la covarianza es un
valor absoluto que depende de la
unidad de medida de las variables.
Coeficiente de correlación lineal de Pearson
El coeficiente de correlación de Pearson, es un índice que mide el grado de covariación entre
distintas variables relacionadas linealmente.
Sus valores absolutos oscilan entre 0 y 1, si tenemos dos variables X e Y, y definimos el
coeficiente de correlación de Pearson entre estas dos variables como rxy entonces:
La magnitud de la relación viene especificada por el valor numérico del coeficiente,
reflejando el signo la dirección de tal valor.
Es igual de fuerte es una relación de +1 como de -1.
+1 la relación es perfecta positiva
-1 la relación perfecta negativa
Decimos que la correlación entre dos variables X e Y es perfecta positiva cuando
exactamente en la medida que aumenta una de ellas aumenta la otra. Esto sucede cuando
la relación entre ambas variables es funcionalmente exacta
Se dice que la relación es perfecta negativa cuando exactamente en la medida que
aumenta una variable disminuye la otra. Igual que en el caso anterior esto sucede para
relaciones funcionales exactas, propio de las ciencias físicas.
Diagrama de dispersión o nube de punto
Es de interés como primera toma de contacto para conocer la naturaleza de la relación
entre dos variables.
Si tal nube es alargada, apunta a una recta y ascendente,, es susceptible de aplicarse
el coeficiente lineal de Pearson.
El grosor de la nube da una cierta idea de la magnitud de la correlación; cuanto más estrecha
menor será el margen de variación en Y para los valores de X, y por tanto, más acertado los
pronósticos, lo que implica una mayor correlación.
En los fenómenos humanos, fuertemente cargados de componentes aleatorios, no suelen ser posible
establecer relaciones funcionales exactas. Dado un cierto valor en la variable X no encontraremos uno y
solo un único valor en la variable Y.
Se trata de una correlación positiva pero no perfecta.
Si la nube de puntos es alargada y descendente nos encontramos con una correlación negativa.
Si la nube de puntos adopta una configuración más o menos redondeada de tal forma que
no pueda especificarse ningún tipo de relación, nos encontramos con una correlación nula
¿Cómo sacar el coeficiente de correlación de pearson?
r= coeficiente de correlación
σxy= covarianza
σx= desviación típica de x
σy= desviación típica de y
Ejemplo
Regresión
La regresión consiste en determinar relaciones entre X e Y que permitan predecir o aproximar el valor de
una de ellas a partir del valor tomado por la otra.
Concretamente, si se quiere predecir los valores de Y a partir de los de X, se considera una función d(X)
de forma que cuando X tome el valor x, la predicción para el valor de Y será y = d(x).
Bondad de un ajuste
Una vez tenemos la recta de regresión, es necesario saber si el ajuste que ofrece la recta
sobre la nube de puntos es suficientemente bueno.
Coeficiente de correlación lineal.
r al cuadrado será nuestro determinante para determinar si los datos se
ajustan a la distribución.
(también llamado coeficiente de determinación o porcentaje de variabilidad explicado)
Los valores de r2 van de 0 a 1, siendo los valores más cercanos a 1 los
que dicten un mejor ajuste de la recta de regresión.
Regresión lineal
Se calculan las líneas que mejor se aproximen a la nube de puntos. A estas líneas se les
llama líneas de regresión.
La función que mejor se aproxima a la nube de puntos puede ser lineal, de segundo
grado, exponencial, logarítmica, ...
Cálculo de Recta
La recta de regresión es una línea recta tal que la distancia entre cada uno de los puntos y la línea recta es la mínima posible.
Para calcular la línea de regresión se utiliza el método de mínimos cuadrados.
Datos que necesitamos: