Bioestadística
Primera Fecha – Recuperatorio del Segundo Regulatorio
                              Segundo Cuatrimestre 2020
ANOVA
Ejercicio 1
Un grupo de investigación desea analizar los efectos de una estatina sobre el valor del colesterol
LDL (c-LDL). Para ello deciden trabajar con ratas y las dividen en grupos para ensayar diferentes
dosis del fármaco. Al finalizar el tratamiento toman muestras de suero y miden el c-LDL en
mg/dl. Se muestra a continuación una tabla con algunas medidas de resumen de los diferentes
grupos:
Para verificar si la administración de distintas dosis de la estatina produce un cambio en la
concentración de c-LDL, realizaron un ANOVA considerando un nivel de significación α =
0,05.
Verificar que se cumple el supuesto homogeneidad de varianzas, completar la tabla del ANOVA
y decidir si hay diferencia significativa en los valores medios de concentración de c-LDL con las
4 dosis. Definir las variables aleatorias, establecer las suposiciones del modelo y plantear las
hipótesis correspondientes.
Resolución
Yij: concentración de c-LDL (mg/dl) en la rata j que recibió la dosis de estatina i.
Suposiciones del modelo: Yij ~ N(µi; 𝜎) independientes
Test de Fmáx:
H0) 𝜎12 = 𝜎22 = 𝜎32 = 𝜎42    H1) No todas las 𝜎𝑖2 son iguales
Fm= 3,94; J = 6,66 ≈ 7 (se elige redondear hacia arriba para colocarse en la situación más
desfavorable); valor crítico Fmax4;6;0,05= 10,4.
La suposición de homogeneidad de varianzas se cumple ya que el estadístico es menor al valor
crítico hallado en la tabla; por lo tanto, no hay evidencia suficiente para rechazar la hipótesis nula
y podemos decir que las varianzas son homogéneas.
H0) µ0 = µ1 = µ2 =µ3     H1) No todas las µi son iguales
CMDENTRO: SCdentro/gl = 39965,98/24 = 1665,2491
F = 6374,15/1665,25 = 3,83
F3,24;0,05=3,01
3,83 > 3,01 Rechazamos H0, por lo tanto, podemos decir que hay diferencias significativas entre
las concentraciones medias de c-LDL de los distintos tratamientos.
Ejercicio 2
Un laboratorio de investigación de una compañía farmacéutica desea evaluar el efecto de un
nuevo fármaco sobre la concentración de colesterol no HDL (col_no_HDL). Para ello deciden
trabajar con un modelo de ratones a los cuales dividen en grupos para ensayar diferentes dosis
del fármaco. Al finalizar el tratamiento toman muestras de suero y miden el nivel de colesterol
no HDL en mg/dl. Se muestra a continuación una tabla de InfoStat con algunos estadísticos de
los diferentes grupos:
Para verificar si la administración de distintas dosis del fármaco produce una disminución en la
concentración de colesterol no HDL, realizaron un ANOVA considerando un nivel de
significación α = 0,05.
Verificar que se cumple el supuesto homogeneidad de varianzas, completar la tabla del ANOVA
y decidir si hay diferencia significativa en los valores medios de concentración de colesterol no
HDL con las 3 dosis. Definir las variables aleatorias, establecer las suposiciones del modelo y
plantear las hipótesis correspondientes.
                                                                                                 2
Resolución
Yij: concentración de colesterol no HDL (mg/dl) en el ratón j que recibió la dosis de fármaco
i.
Suposiciones del modelo: Yij~N(µi;𝜎) independientes
Test de Fmáx:
H0) 𝜎12 = 𝜎22 = 𝜎32     H1) No todas las 𝜎𝑖2 son iguales
Fm= 5,03; J = 6; valor crítico Fmax3;5;0,05= 10,8
La suposición de homogeneidad de varianzas se cumple ya que el estadístico es menor al
valor crítico hallado en la tabla; por lo tanto, no hay evidencia suficiente para rechazar la
hipótesis nula y podemos decir que las varianzas son homogéneas.
H0) µ0 = µ1 = µ2      H1) No todas las µi son iguales
CMDENTRO: SCdentro/g.d.l = 878,8/15 = 58,59
F = 4582,07/58,59 = 78,21
F2,15;0,05=3,68
78,21>3,68 Rechazamos H0, por lo tanto, podemos decir que hay diferencias significativas
entre las concentraciones medias de no HDL de los distintos tratamientos.
Intervalos de confianza
Ejercicio 1
La salida de InfoStat muestra los límites de un intervalo de confianza para la varianza del
contenido de Losartán potásico en los comprimidos fabricados por un laboratorio, al que se
supone con distribución aproximadamente normal. Construir un intervalo de confianza del
95% para la esperanza de la variable, sabiendo que la muestra arrojó una media de 50,6 mg.
Definir la variable aleatoria y establecer los supuestos.
Resolución
X= Contenido de Losartán potásico en comprimido fabricado por el laboratorio Z.
Suposiciones: X~ N (μ; σ) con σ desconocido
Intervalo de Confianza para la varianza de una variable aleatoria normal:
                                                                                                3
                            (𝑛 − 1)𝑠 2                  (𝑛 − 1)𝑠 2
                       𝐶(                   < 𝜎2 <                   )= 1− 𝛼
                             𝜒2    𝛼                    𝜒2      𝛼
                               𝑛−1;                       𝑛−1;1−
                                    2                            2
De la salida de InfoStat obtenemos:
                                C (3,41 < 𝜎 2 < 12,58) = 0,95
Tomemos el límite inferior para despejar 𝑠:
                                        (20 − 1)𝑠 2
                                                         = 3,41
                                         𝜒2      0.05
                                            20−1;
                                                  2
                                        (20 − 1)𝑠 2
                                                    = 3,41
                                          32,852
                                        𝑠 = √5,90 = 2,43
También podemos tomar el valor de la varianza, de la salida de Infostat dada.
Intervalo de Confianza para la media de una variable aleatoria normal:
                                        𝑠                                𝑠
                 𝐶 ( 𝑥̅ − 𝑡𝑛−1; 𝛼 ∗         < 𝜇 < 𝑥̅ + 𝑡𝑛−1; 𝛼 ∗              )=1− 𝛼
                                2     √𝑛                             2   √𝑛
                                    2,43                                      2,43
              𝐶 ( 50,6 − 2,093 ∗              < 𝜇 < 50,6 + 2,093 ∗                ) = 0,95
                                      √20                                     √20
                              𝐶 ( 49,46 < 𝜇 < 51,74) = 0,95
Ejercicio 2
La salida de InfoStat muestra los límites de un intervalo de confianza para la varianza del
contenido de Amlodipina en los comprimidos fabricados por un laboratorio, al que se supone
con distribución aproximadamente normal. Construir un intervalo de confianza del 90% para
la esperanza de la variable, sabiendo que la muestra arrojó una media de 5,03 mg. Definir la
variable aleatoria y establecer los supuestos.
                                                                                             4
Resolución
X= Contenido de Amlodipina en comprimido fabricado por un laboratorio.
Suposiciones: X~ N (μ; σ) con σ desconocido
Intervalo de Confianza para la varianza de una variable aleatoria normal:
                            (𝑛 − 1)𝑠 2                  (𝑛 − 1)𝑠 2
                       𝐶(                   < 𝜎2 <                   )= 1− 𝛼
                             𝜒2    𝛼                    𝜒2      𝛼
                               𝑛−1;                       𝑛−1;1−
                                    2                            2
De la salida de InfoStat obtenemos:
                                  C (0,52 < 𝜎 2 < 1,55) = 0,90
Tomemos el límite inferior para despejar 𝑠:
                                        (20 − 1)𝑠 2
                                                         = 0,52
                                        𝜒2       0.10
                                            20−1;
                                                  2
                                      (20 − 1)𝑠 2
                                                  = 0,52
                                        30,144
                                        𝑠 = √0,83 = 0,91
También podemos tomar el valor de la varianza, de la salida de Infostat dada.
Intervalo de Confianza para la media de una variable aleatoria normal:
                                        𝑠                                𝑠
                 𝐶 ( 𝑥̅ − 𝑡𝑛−1; 𝛼 ∗         < 𝜇 < 𝑥̅ + 𝑡𝑛−1; 𝛼 ∗              )=1− 𝛼
                                2     √𝑛                             2   √𝑛
                                    0,91                                      0,91
              𝐶 ( 5,03 − 1,729 ∗             < 𝜇 < 5,03 + 1,729 ∗                 ) = 0,90
                                      √20                                     √20
                              𝐶 ( 4,68 < 𝜇 < 5,38 ) = 0,90
Regresión lineal
Ejercicio 1
El volumen espiratorio forzado (FEV) es una medida de la función pulmonar. Para identificar
pacientes con función pulmonar anormal, se deben establecer FEV para la población normal.
Uno de los inconvenientes para esto es que la FEV está relacionada tanto a la edad como a la
                                                                                             5
altura. Enfocándonos entonces en los pacientes con edad de 10 a 15 años, postulamos un
modelo de regresión para FEV según altura. Los datos de FEV media para intervalos de 4
centímetros de altura se recolectaron en la siguiente tabla.
                                     Altura   FEV    Altura     FEV
                                      134     1,7     158       2,7
                                      138     1,9     162       3,0
                                      142     2,0     166       3,1
                                      146     2,1     170       3,4
                                      150     2,2     174       3,8
                                      154     2,5     178       3,9
Considerando que CMReg = 6,0239 y SCRes=0,1452, decidir si la regresión es significativa.
Justificar. Definir las variables aleatorias, plantear el modelo, los supuestos y las hipótesis
correspondientes.
Resolución
Yij: volumen espiratorio forzado de un paciente j con edad entre 10 y 15 años de altura i
Modelo:
       Yij = α + β xi + εij con εij ~ N (0; σ ) , independientes ∀ 1 ≤ i ≤ I ∀ 1 ≤ j ≤ ni
Suposiciones del modelo:
       Yij ~ N (μi; σ) , independientes ∀ 1 ≤ i ≤ I           ∀ 1 ≤ j ≤ ni
       Hipótesis a testear:       H0: β = 0                     H1: β ≠ 0
       Utilizando los datos se puede realizar con InfoStat el ANOVA:
Cuadro de Análisis de la Varianza (SC tipo III)
 F.V.        SC   gl     CM     F        p-valor
Modelo.     6,02   1    6,02 414,78      <0,0001
ALTURA      6,02   1    6,02 414,78      <0,0001
Error       0,15 10     0,01
Total       6,17 11
Como p < 0,0001; la regresión es significativa.
También se puede calcular el estadístico con los estadísticos que brinda el enunciado:
     𝐶𝑀𝑅𝑒𝑔       6,0239
𝐹=           =   0,1452   = 414,87 y compararlo con el valor de tabla: 𝐹1;10;0,01 = 10,04.
     𝐶𝑀𝑅𝑒𝑠
                  12−2
Como p < 0,01; la regresión es significativa.
                                                                                             6
Ejercicio 2
Se quiere investigar la relación entre el peso del cuerpo (en lb) y la concentración de colesterol
en la sangre (en mg/100ml). Para valores fijos de peso, se seleccionan aleatoriamente 15
sujetos de una población de varones adultos entre 50 y 55 años de edad, y se les mide la
concentración de colesterol en la sangre. Se determinó que hay una relación significativa entre
el peso del sujeto y la concentración de colesterol en la sangre:
                  𝑆𝑋𝑋 = 6.873,733; 𝑆𝑋𝑌 = 13.966,333; 𝑥̅ = 176,13; 𝑌̅.. = 230,33
A partir de la salida de InfoStat, correspondiente al análisis de regresión lineal, y a los datos
agregados, expresar el modelo de regresión lineal, definiendo las variables e indicando las
suposiciones del modelo y las hipótesis corrspondientes; calcular la ecuación de la recta de
cuadrados mínimos, y construir un intervalo de confianza del 95% para la pendiente de la recta.
Resolución
Yij: concentración de colesterol en sangre del varón adulto j con edad entre 50 y 55 años con peso
i
Modelo:
       Yij = α + β xi + εij con εij ~ N (0 ;σ ) , independientes ∀ 1 ≤ i ≤ I ∀ 1 ≤ j ≤ ni
Suposiciones del modelo:
      Yij ~ N (μi; σ) , independientes ∀ 1 ≤ i ≤ I ∀ 1 ≤ j ≤ ni
Ecuación de la recta ajustada por el método de cuadrados mínimos:
                                       𝑆𝑋𝑌 13.966,333
                                𝛽̂ =       =           = 2,0318
                                       𝑆𝑋𝑋   6.873,733
                                    ̂ 𝑥̅ = 230,33 - 2,0318.176,13 = 127,53
                        𝛼̂ = 𝑌̅.. − 𝛽.
                                    𝑌̂ = −127,53 + 2,0318 𝑋
IC (95%) para 𝛽
                                                        𝐶𝑀𝑅𝑒𝑠
                                        𝛽̂ ± 𝑡𝑛−2;𝛼⁄ . √
                                                    2    𝑆𝑋𝑋
                                                         1.359,377
                                   2,0318 ± 𝑡13;0,05⁄ . √
                                                     2   6.873,733
                                                                                                7
                                         2,0318 ± 2,16 . 0,4447
                                            2,0318 ± 0,9606
                                      C (1,0712< 𝛽< 2,9924) = 0,95
Distribución de la Varianza Muestral
Ejercicio 1
Sea X ~ N (μ; 7) y S2 la varianza de muestras aleatorias de X de tamaño 25. Calcular el número a de
modo que P (S2 < a) = 0,90.
Resolución
𝑃(24.S2 /49 < 24.a /49) = 0,90 y 24.S2 /49 tiene distribución χ2 con 24 grados de libertad.
De la tabla: 24a/49=33,196, el valor crítico que deja un área a derecha 0,10 y resulta:
a = 33,196*49/24 = 67,77
Ejercicio 2
Sea X ~ N (μ; 8) y S2 la varianza de muestras aleatorias de X de tamaño 36. Calcular el número a de
modo que P (S2 > a) = 0,90.
Resolución
P (35.S2 /64 > 35.a/64) = 0,90, con 35.S2 /64 con distribución χ2 con 35 grados de libertad. De
la tabla, 35.a/64 = 24,797 y entonces a = 24,797*64/35 = 45,34
PRUEBA DE HIPÓTESIS
Ejercicio 1
En el sector norte de un bosque, los árboles de una especie nativa a los 10 años de edad tienen
un diámetro medio de 15 cm, medido a 1 metro del suelo. Se seleccionó una muestra aleatoria
de árboles de 10 años en el sector sur del mismo bosque (donde los suelos son fértiles y bien
drenados). Con dichos datos se realizó una prueba de hipótesis con Infostat, para determinar
si el diámetro medio de los árboles del sector sur del bosque es distinto del diámetro medio
de los árboles del sector norte.
Se pide definir la variable aleatoria, escribir los supuestos y las hipótesis del test, completar
los dos datos faltantes en la salida de Infostat y concluir en base al intervalo de confianza,
detallando cuál es el nivel de significación utilizado.
Resolución
                                                                                                 8
X=”Diámetro (en cm) de un árbol del sector sur del bosque” Suponemos 𝑋 ∼ 𝑁(𝜇; 𝜎) y se
quiere testear H o )   15 H1 )   15
El estadístico observado del Test de Student es 𝑇 = 5,407
            𝑥−𝜇0       17,66−15                   2,66
Entonces:     𝑠    =         𝑠    = 5,407 ⇒ 𝑠 = 5,407 ⋅ √20 = 2,2
             √𝑛             √20
                              𝑆
𝐿𝐼(95) = 𝑋 − 𝑡𝑛−1,𝛼 ⋅                         𝑡𝑛−1,𝛼 = 𝑡19;0.025 = 2,093
                        2    √𝑛                    2
                                  2,2
𝐿𝐼(95) = 17,66 − 2,093 ⋅                = 16,63
                                  √20
Entonces el intervalo de confianza del 95% para  es I  (16, 63;18, 69) , y como 15  I
rechazamos H 0  el diámetro medio de los árboles del sector sur del bosque es
significativamente distinto del diámetro medio de los árboles del sector norte. El nivel de
significación de este test es 0,05.
Ejercicio 2
Muchos autores afirman que los pacientes con depresión tienen una función cortical inferior,
debido a un riego sanguíneo cerebral más bajo que el considerado normal.
Se tomó una muestra de individuos con depresión, de tamaño nD  13 , y otra de individuos
normales, de tamaño nN  22 , y se les midió un índice que indica el flujo sanguíneo en la
materia gris (expresado en mg/(100g/min)). Se obtuvieron los siguientes datos:
𝑥𝐷 − 𝑥𝑁 = −6,8 y 𝑠𝑃2 = 46,6. (𝑠𝑃2 es el promedio ponderado de las varianzas de las dos
muestras)
Los investigadores desean saber si hay evidencia para afirmar que el valor medio de este índice
es efectivamente menor en los pacientes con depresión, con respecto a los pacientes sin este
cuadro.
Se pide definir las variables aleatorias involucradas y escribir todos los supuestos necesarios
para aplicar la prueba de hipótesis adecuada; plantear el test y explicitar su conclusión en base
al cálculo (o la acotación) del p-valor.
Resolución
Sean las variables:
X D = “Valor del índice que indica flujo sanguíneo en la materia gris ( en mg/(100g/min)) en
un paciente depresivo”
X N = “Valor del índice que indica flujo sanguíneo en la materia gris (en mg/(100g/min)) en
un paciente normal”.
Suponemos 𝑋𝐷 ∼ 𝑁(𝜇𝐷 ; 𝜎𝐷 ); 𝑋𝑁 ∼ 𝑁(𝜇𝑁 ; 𝜎𝑁 ) variables independientes, con 𝜎𝐷2 = 𝜎𝑁2
Planteamos las hipótesis: 𝐻0 ) 𝜇𝐷 ≥ 𝜇𝑁            𝐻1) 𝜇𝐷 < 𝜇𝑁
                                                                                               9
O, equivalentemente: 𝐻0 ) 𝜇𝐷 − 𝜇𝑁 ≥ 0         𝐻1 ) 𝜇𝐷 − 𝜇𝑁 < 0
Aplicaremos el test de Student para diferencia de medias en muestras independientes.
                                                                    2          2
                                  𝑋𝐷 −𝑋𝑁 −𝑎                 (𝑛𝐷 −1)𝑆𝐷 +(𝑛𝑁 −1)𝑆𝑁
El estadístico de prueba es 𝑇 =       1   1
                                              donde 𝑆𝑃2 =
                                  𝑆𝑃 √  +                        𝑛𝐷 +𝑛𝑁 −2
                                     𝑛𝐷 𝑛𝑁
Bajo H 0 T tiene distribución T de Student con 𝑛𝐷 + 𝑛𝑁 − 2= 33 grados de libertad.
Con los datos muestrales resulta:
            −6,8
𝑇𝑂𝐵𝑆 =         1   1
                       = 2,848
         √46,6√13+22
Se deduce de la tabla que
0,0025 < p <0,005
p-valor = 0,00376
Por tanto, rechazo H 0 : el valor medio del índice es
significativamente menor en los pacientes con depresión,
con respecto a los pacientes sin este cuadro.
                                                                                       10