Bioestadistica

A mi hermano Beni in memoriam. A mis hijos. Cuqui Para Julia y Cristina. Javier 2 Prólogo El desarrollo y el nivel de aplicación que la Bioestadı́stica, como herramienta útil y rigurosa en el campo de la investigación en todas las Ciencias Sociales, ha experimentado en los últimos años, ha sido espectacular. Es indudable que este progreso en el conocimiento y aplicación de la Estadı́stica ha venido estrechamente vinculado al que ha experimentado el área de la computación, que nos ha llevado a una sociedad absolutamente informatizada donde el ordenador se ha convertido en un utensilio personal de uso habitual. Este auge y progreso de la informática, a nivel de software y hardware, ha hecho posible, a su vez, la realización de pruebas estadı́sticas que, de forma habitual, hubiesen sido muy costosas desde el punto de vista humano ası́ como manejar volúmenes de información que habrı́an resultado absolutamente impensables. Un segundo factor asociado a este progreso del conocimiento en el ámbito estadı́stico, ha sido el cambio de actitud experimentado por todos los profesionales de las áreas de Ciencias Sociales y especialmente, en el ámbito de las Ciencias de la Salud. De una sociedad en la que los roles y el desempeño de la profesión estaban ajustados a la mera aplicación de los conocimientos adquiridos, hemos evolucionado a una Sociedad Cientı́fica donde la investigación ha pasado a formar parte esencial de su labor diaria. El interés por descubrir nuevos procedimientos a través de la experiencia acumulada, ha sido determinante en la necesidad de que todos estos profesionales se vean inmersos en la formación y aprendizaje de técnicas básicas de metodologı́a de la investigación y de algunas más concretas como el análisis de datos. Este cambio en la dimensión del ejercicio profesional, determina que los planes de estudio de todas las licenciaturas y diplomaturas incluyan la Bioestadı́stica para el ámbito de Salud y Biologı́a, como materia troncal con entidad propia y de auténtica necesidad. Se pretende, con ello, que un profesional de la Salud, o de cualquier ciencia Social, que se apoye en la cuantificación y en el estudio empı́rico de lo que observa a diario, entienda y conozca los conceptos básicos de la ciencia que le va a permitir, abandonando conductas pragmáticas, profundizar y comprender el fundamento cientı́fico de su área de trabajo. No se trata de hacer expertos en Estadı́stica. El principal objetivo de los docentes de esta materia se centra en generar, en los discentes, una 3 actitud crı́tica ante cualquier lectura cientı́fica, adquirir un lenguaje común con estadı́sticos y otros profesionales del área y conocer a priori los pasos y los elementos imprescindibles en cualquier investigación empı́rica que se apoye en el manejo de volúmenes grandes de datos y cuyo propósito final sea condensar dicha información para que pueda ser transmitida o extrapolar las conclusiones a las poblaciones de las que fueron tomadas las medidas. Es importante saber que no existe investigación si no existen objetivos previos: no puede descartarse ni confirmarse lo que no se ha planteado. Ajena a esta transformación social se encuentran la gran mayorı́a de nuestros alumnos que cursan los primeros cursos de alguna de estas licenciaturas o diplomaturas de Ciencias Sociales o Ciencias de la Salud. Sus únicos objetivos se centran en llegar a ser médicos, biólogos, psicólogos. . . y no alcanzan a entender que utilidad les puede reportar una materia como la Bioestadı́stica en su currı́culo. Es por ello que al margen de la dificultad intrı́nseca que genera el entendimiento de la materia, la enseñanza de la Bioestadı́stica en estos cursos se ve agravada por la imposibilidad de usar cualquier tipo de motivación. En muy distinta situación se encuentran los alumnos de postgrado que ya han comenzado su vida profesional y han tenido, por tanto, ocasión de darse cuenta de qué manera la Bioestadı́stica les puede resultar útil y necesaria. Aunque no sea su deseo adentrarse en el mundo de la investigación, una parte importante en la transmisión de los nuevos hallazgos y conocimientos de otros colegas de su ámbito profesional, es el lenguaje estadı́stico. Es por ello que han de estar absolutamente familiarizados con dicha terminologı́a si se pretende tener una actitud crı́tica y objetiva ante la lectura de cualquier literatura cientı́fica. Fruto del trabajo realizado con estos sectores de estudiantes e investigadores es nuestra experiencia, que nos ha animado a escribir el presente libro que podrı́a definirse como un Manual de Estadı́stica básica aplicada al ámbito de la Salud. Su contenido abarca desde los aspectos más básicos de la Estadı́stica descriptiva, en su función de resumir, presentar y comunicar los resultados de cualquier estudio a las diferentes técnicas de extrapolación de las conclusiones a una población, a partir de lo verificado en una muestra representativa de ésta. Obviamente, para ello, se hace necesario revisar las nociones más básicas de aspectos como probabilidad, Variable aleatoria, 4 Distribuciones de probabilidad, ası́ como los elementos imprescindibles de toda la Inferencia Estadı́stica: técnicas de muestreo, conceptos fundamentales, estimación confidencial y contrastes de hipótesis más importantes de la Estadı́stica Univariante, abordando los test usados bajo supuesto de distribución gaussiana ası́ como los de distribución libre. La variabilidad que han generado los nuevos planes de estudio no facilita la selección de unos contenidos que abarque la totalidad de los programas de todas las Universidades, sin embargo hay una parte troncal que constituye un porcentaje amplio del conjunto de todos ellos. Esta es la parte que hemos seleccionado, para nuestro contenido, de manera que podamos acercarnos lo máximo posible a lo que pudiera ser un libro de texto para las asignaturas de Bioestadı́stica que se imparten en la mayorı́a de las Facultades de Medicina y Escuelas de Ciencias de la Salud. En lo que concierne al modo y la forma, la experiencia acumulada a través de los años de docencia y el apoyo en el área de la investigación de los profesionales de la salud de nuestro entorno, nos condiciona a que teorı́a y práctica avancen de manera simultánea, en este manual, complementándose la una a la otra y apoyándose mutuamente, con numerosos ejemplos que puedan acercar al lector a situaciones más cotidianas de su entorno. Pretendemos con ello ayudarles a entender las nociones más abstractas y a relacionarlas con un futuro no lejano como profesional del mundo de la salud. No obstante, no hemos querido evitar tratar algunos temas con algo más de rigor, para que el lector que esté interesado en profundizar algo más, pueda hacerlo; siempre teniendo en cuenta que la lectura de dichas partes es algo optativo y que dependerá de las necesidades individuales. A todos esos alumnos y compañeros queremos dedicarle nuestro más sincero agradecimiento, por su inestimable colaboración al orientarnos, a través de sus opiniones sinceras, sobre nuestra metodologı́a docente y haber podido observar cual ha sido su evolución a lo largo de los años y de las diferentes etapas que se han ido sucediendo. Esperamos que la ilusión puesta en la realización de este texto nos haya permitido suavizar, en la medida de lo posible, la aridez del tema que tratamos, y sólo comprobar que realmente pueda ser un elemento eficaz de ayuda, apoyo y consulta entre nuestros discı́pulos y compañeros, justificará todas las horas que hay detrás de estas lineas. Índice general 1. Conceptos previos 13 1.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 1.2. ¿Qué es la estadı́stica? . . . . . . . . . . . . . . . . . . . . . 14 1.3. Elementos. Población. Caracteres . . . . . . . . . . . . . . . 15 1.4. Organización de los datos . . . . . . . . . . . . . . . . . . . 17 1.4.1. Variables estadı́sticas . . . . . . . . . . . . . . . . . . 17 1.4.2. Tablas estadı́sticas . . . . . . . . . . . . . . . . . . . 19 1.5. Representaciones Gráficas . . . . . . . . . . . . . . . . . . . 21 1.5.1. Gráficos para variables cualitativas . . . . . . . . . . 22 1.5.2. Gráficos para variables cuantitativas . . . . . . . . . 26 1.6. Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 2. Medidas descriptivas 39 2.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 2.2. Estadı́sticos de tendencia central . . . . . . . . . . . . . . . 40 2.2.1. La media . . . . . . . . . . . . . . . . . . . . . . . . 41 2.2.2. La mediana . . . . . . . . . . . . . . . . . . . . . . 43 2.2.3. La moda . . . . . . . . . . . . . . . . . . . . . . . . . 46 2.2.4. Relación entre media, mediana y moda . . . . . . . 47 2.3. Estadı́sticos de posición . . . . . . . . . . . . . . . . . . . . 48 5 6 ÍNDICE GENERAL 2.4. Medidas de variabilidad o dispersión . . . . . . . . . . . . . 55 2.4.1. Rango . . . . . . . . . . . . . . . . . . . . . . . . . . 55 2.4.2. Varianza . . . . . . . . . . . . . . . . . . . . . . . . . 55 2.4.3. Desviación tı́pica o estándar . . . . . . . . . . . . . . 56 2.4.4. Ejemplo de cálculo de medidas de dispersión . . . . 56 2.4.5. Coeficiente de variación . . . . . . . . . . . . . . . . 57 2.5. Asimetrı́a y apuntamiento . . . . . . . . . . . . . . . . . . . 59 2.5.1. Estadı́sticos de asimetrı́a . . . . . . . . . . . . . . . . 60 2.5.2. Estadı́sticos de apuntamiento . . . . . . . . . . . . . 66 2.6. Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68 3. Variables bidimensionales 73 3.1. introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . 73 3.2. Tablas de doble entrada . . . . . . . . . . . . . . . . . . . . 75 3.2.1. Distribuciones condicionadas . . . . . . . . . . . . . 76 3.3. Dependencia funcional e independencia . . . . . . . . . . . . 77 3.3.1. Dependencia funcional . . . . . . . . . . . . . . . . . 77 3.3.2. Independencia . . . . . . . . . . . . . . . . . . . . . 78 3.4. Covarianza . . . . . . . . . . . . . . . . . . . . . . . . . . . 78 3.5. Coeficiente de correlación lineal de Pearson . . . . . . . . . 81 3.6. Regresión . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81 3.6.1. Bondad de un ajuste . . . . . . . . . . . . . . . . . . 84 3.6.2. Regresión lineal . . . . . . . . . . . . . . . . . . . . 86 3.7. Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94 4. Cálculo de probabilidades y variables aleatorias 4.1. introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . 99 99 4.2. Experimentos y sucesos aleatorios . . . . . . . . . . . . . . . 100 4.2.1. Operaciones básicas con sucesos aleatorios . . . . . . 101 ÍNDICE GENERAL 7 4.3. Experimentos aleatorios y probabilidad . . . . . . . . . . . 102 4.3.1. Noción frecuentista de probabilidad . . . . . . . . . 102 4.3.2. Probabilidad de Laplace . . . . . . . . . . . . . . . . 105 4.3.3. Definición axiomática de probabilidad . . . . . . . . 105 4.4. Probabilidad condicionada e independencia de sucesos . . . 106 4.5. Teoremas fundamentales del cálculo de probabilidades . . . 109 4.5.1. Teorema de la probabilidad compuesta . . . . . . . . 110 4.5.2. Sistema exhaustivo y excluyente de sucesos . . . . . 110 4.5.3. Teorema de la probabilidad total . . . . . . . . . . . 111 4.5.4. Teorema de Bayes . . . . . . . . . . . . . . . . . . . 112 4.6. Tests diagnósticos . . . . . . . . . . . . . . . . . . . . . . . 115 4.7. Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119 5. Variables aleatorias 123 5.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . 123 5.2. Variables aleatorias discretas . . . . . . . . . . . . . . . . . 125 5.3. Variables aleatorias continuas . . . . . . . . . . . . . . . . . 126 5.4. Medidas de tendencia central y dispersión de v.a. . . . . . . 129 5.4.1. Valor esperado o esperanza matemática . . . . . . . 130 5.4.2. Varianza . . . . . . . . . . . . . . . . . . . . . . . . . 130 6. Principales leyes de distribución de variables aleatorias 131 6.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . 131 6.2. Distribuciones discretas . . . . . . . . . . . . . . . . . . . . 132 6.2.1. Distribución de Bernoulli . . . . . . . . . . . . . . . 132 6.2.2. Distribución binomial . . . . . . . . . . . . . . . . . 133 6.2.3. Distribución geométrica ( o de fracasos) . . . . . . . 137 6.2.4. Distribución binomial negativa . . . . . . . . . . . . 139 6.2.5. Distribución hipergeométrica . . . . . . . . . . . . . 141 8 ÍNDICE GENERAL 6.2.6. Distribución de Poisson o de los sucesos raros . . . . 143 6.3. Distribuciones continuas . . . . . . . . . . . . . . . . . . . . 144 6.3.1. Distribución uniforme o rectangular . . . . . . . . . 144 6.3.2. Distribución exponencial . . . . . . . . . . . . . . . . 146 6.3.3. Distribución normal o gaussiana . . . . . . . . . . . 150 6.3.4. Distribución χ2 . . . . . . . . . . . . . . . . . . . . 153 6.3.5. Distribución t de Student . . . . . . . . . . . . . . . 155 6.3.6. La distribución F de Snedecor . . . . . . . . . . . . 157 6.4. Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159 7. Introducción a la inferencia 163 7.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . 163 7.2. Técnicas de muestreo sobre una población . . . . . . . . . . 164 7.2.1. Muestreo aleatorio . . . . . . . . . . . . . . . . . . . 165 7.2.2. Muestreo aleatorio estratificado . . . . . . . . . . . . 166 7.2.3. Muestreo sistemático . . . . . . . . . . . . . . . . . . 168 7.2.4. Muestreo por conglomerados . . . . . . . . . . . . . 169 7.3. Propiedades deseables de un estimador . . . . . . . . . . . . 169 7.3.1. Estimadores de máxima verosimilitud . . . . . . . . 170 7.3.2. Algunos estimadores fundamentales . . . . . . . . . 172 8. Estimación confidencial 175 8.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . 175 8.2. Intervalos de confianza para la distribución normal . . . . . 177 8.2.1. Intervalo para la media si se conoce la varianza . . 178 8.2.2. Intervalo para la media (caso general) . . . . . . . . 182 8.2.3. Intervalo de confianza para la varianza . . . . . . . 186 8.2.4. Estimación del tamaño muestral . . . . . . . . . . . 187 ÍNDICE GENERAL 9 8.2.5. Intervalos para la diferencia de medias de dos poblaciones . . . . . . . . . . . . . . . . . . . . . . . . . . 189 8.3. Intervalos de confianza para variables dicotómicas 8.3.1. Intervalo para una proporción . . . . . 195 . . . . . . . . . . . . 195 8.3.2. Elección del tamaño muestral para una proporción . 197 8.3.3. Intervalo para la diferencia de dos proporciones . . . 198 8.4. Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 200 9. Contrastes de hipótesis 203 9.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . 203 9.1.1. Observaciones . . . . . . . . . . . . . . . . . . . . . . 206 9.2. Contrastes paramétricos en una población normal . . . . . . 210 9.2.1. Contrastes para la media . . . . . . . . . . . . . . . 210 9.2.2. Contrastes para la varianza . . . . . . . . . . . . . . 218 9.3. Contrastes de una proporción . . . . . . . . . . . . . . . . . 219 9.4. Contrastes para la diferencia de medias apareadas . . . . . 224 9.5. Contrastes de dos distribuciones normales independientes . 228 9.5.1. Contraste de medias con varianzas conocidas . . . . 228 9.5.2. Contraste de medias homocedáticas . . . . . . . . . 231 9.5.3. Contraste de medias no homocedáticas . . . . . . . . 232 9.5.4. Contrastes de la razón de varianzas . . . . . . . . . . 234 9.5.5. Caso particular: Contraste de homocedasticidad 9.6. Contrastes sobre la diferencia de proporciones . . 236 . . . . . . . 244 9.7. Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 246 10.Contrastes basados en el estadı́stico Ji–Cuadrado 255 10.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . 255 10.2. El estadı́stico χ2 y su distribución . . . . . . . . . . . . . . 256 10.3. Contraste de bondad de ajuste para distribuciones . . . . . 264 10 ÍNDICE GENERAL 10.3.1. Distribuciones de parámetros conocidos . . . . . . . 265 10.3.2. Distribuciones con parámetros desconocidos . . . . . 268 10.4. Contraste de homogeneidad de muestras cualitativas . . . . 269 10.5. Contraste de independencia de variables cualitativas . . . . 272 10.6. Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 278 11.Análisis de la varianza 283 11.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . 283 11.2. ANOVA con un factor . . . . . . . . . . . . . . . . . . . . . 285 11.2.1. Especificación del modelo . . . . . . . . . . . . . . . 287 11.2.2. Algo de notación relativa al modelo . . . . . . . . . 289 11.2.3. Forma de efectuar el contraste . . . . . . . . . . . . 291 11.2.4. Método reducido para el análisis de un factor . . . . 292 11.2.5. Análisis de los resultados del ANOVA: Comparaciones múltiples . . . . . . . . . . . . . . . . . . . . . . 295 11.3. Consideraciones sobre las hipótesis subyacentes en el modelo factorial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 297 11.3.1. Contraste de homocedasticidad de Cochran . . . . . 298 11.3.2. Contraste de homocedasticidad de Bartlett . . . . . 299 11.4. Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 301 12.Contrastes no paramétricos 305 12.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . 305 12.2. Aleatoriedad de una muestra: Test de rachas . . . . . . . . 306 12.3. Normalidad de una muestra: Test de D’Agostino . . . . . . 308 12.4. Equidistribución de dos poblaciones . . . . . . . . . . . . . 309 12.4.1. Contraste de rachas de Wald—Wolfowitz . . . . . . 309 12.4.2. Contraste de Mann—Withney . . . . . . . . . . . . 310 12.5. Contraste de Wilcoxon para muestras apareadas . . . . . . 311 ÍNDICE GENERAL 11 12.6. Contraste de Kruskal–Wallis . . . . . . . . . . . . . . . . . . 313 12.7. Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 314 Bibliografı́a 321 12 ÍNDICE GENERAL Capı́tulo 1 Conceptos previos 1.1. Introducción Iniciamos este capı́tulo con la definición de algunos conceptos elementales y básicos, y sin embargo pilares, para una comprensión intuitiva y real de lo que es la Bioestadı́stica. Pretendemos introducir al estudiante en los primeros pasos sobre el uso y manejos de datos numéricos: distinguir y clasificar las caracterı́sticas en estudio, enseñarle a organizar y tabular las medidas obtenidas mediante la construcción de tablas de frecuencia y por último los métodos para elaborar una imagen que sea capaz de mostrar gráficamente unos resultados. El aserto “una imagen vale más que mil palabras” se puede aplicar al ámbito de la estadı́stica descriptiva diciendo que “un gráfico bien elaborado vale más que mil tablas de frecuencias”. Cada vez es más habitual el uso de gráficos o imágenes para representar la información obtenida. No obstante, debemos ser prudente al confeccionar o interpretar gráficos, puesto que unas misma información se puede representar de formas muy diversas, y no todas ellas son pertinentes, correctas o válidas. Nuestro objetivo, en este capı́tulo, consiste en establecer los criterios y normas mı́nimas que deben verificarse para construir y presentar adecuadamente los gráficos en el ámbito de la estadı́stica descriptiva. 13 14 1.2. Bioestadı́stica: Métodos y Aplicaciones ¿Qué es la estadı́stica? Cuando coloquialmente se habla de estadı́stica, se suele pensar en una relación de datos numéricos presentada de forma ordenada y sistemática. Esta idea es la consecuencia del concepto popular que existe sobre el término y que cada vez está más extendido debido a la influencia de nuestro entorno, ya que hoy dı́a es casi imposible que cualquier medio de difusión, periódico, radio, televisión, etc, no nos aborde diariamente con cualquier tipo de información estadı́stica sobre accidentes de tráfico, ı́ndices de crecimiento de población, turismo, tendencias polı́ticas, etc. Sólo cuando nos adentramos en un mundo más especı́fico como es el campo de la investigación de las Ciencias Sociales: Medicina, Biologı́a, Psicologı́a, ... empezamos a percibir que la Estadı́stica no sólo es algo más, sino que se convierte en la única herramienta que, hoy por hoy, permite dar luz y obtener resultados, y por tanto beneficios, en cualquier tipo de estudio, cuyos movimientos y relaciones, por su variabilidad intrı́nseca, no puedan ser abordadas desde la perspectiva de las leyes determistas. Podrı́amos, desde un punto de vista más amplio, definir la estadı́stica como la ciencia que estudia cómo debe emplearse la información y cómo dar una guı́a de acción en situaciones prácticas que entrañan incertidumbre. La Estadı́stica se ocupa de los métodos y procedimientos para recoger, clasificar, resumir, hallar regularidades y analizar los datos, siempre y cuando la variabilidad e incertidumbre sea una causa intrı́nseca de los mismos; ası́ como de realizar inferencias a partir de ellos, con la finalidad de ayudar a la toma de decisiones y en su caso formular predicciones. Podrı́amos por tanto clasificar la Estadı́stica en descriptiva, cuando los resultados del análisis no pretenden ir más allá del conjunto de datos, e inferencial cuando el objetivo del estudio es derivar las conclusiones obtenidas a un conjunto de datos más amplio. 1.3. ELEMENTOS. POBLACIÓN. CARACTERES 15 Estadı́stica descriptiva: Describe, analiza y representa un grupo de datos utilizando métodos numéricos y gráficos que resumen y presentan la información contenida en ellos. Estadı́stica inferencial: Apoyándose en el cálculo de probabilidades y a partir de datos muestrales, efectúa estimaciones, decisiones, predicciones u otras generalizaciones sobre un conjunto mayor de datos. 1.3. Elementos. Población. Caracteres Establecemos a continuación algunas definiciones de conceptos básicos y fundamentales básicas como son: elemento, población, muestra, carácteres, variables, etc., a las cuales haremos referencia continuamente a lo largo del texto Individuos o elementos: personas u objetos que contienen cierta información que se desea estudiar. Población: conjunto de individuos o elementos que cumplen ciertas propiedades comunes. Muestra: subconjunto representativo de una población. Parámetro: función definida sobre los valores numéricos de caracterı́sticas medibles de una población. Estadı́stico: función definida sobre los valores numéricos de una muestra. 16 Bioestadı́stica: Métodos y Aplicaciones En relación al tamaño de la población, ésta puede ser: Finita, como es el caso del número de personas que llegan al servicio de urgencia de un hospital en un dı́a; Infinita, si por ejemplo estudiamos el mecanismo aleatorio que describe la secuencia de caras y cruces obtenida en el lanzamiento repetido de una moneda al aire. Caracteres: propiedades, rasgos o cualidades de los elementos de la población. Estos caracteres pueden dividirse en cualitativos y cuantitativos. Modalidades: diferentes situaciones posibles de un carácter. Las modalidades deben ser a la vez exhaustivas y mutuamente excluyentes —cada elemento posee una y sólo una de las modalidades posibles. Clases: conjunto de una o más modalidades en el que se verifica que cada modalidad pertenece a una y sólo una de las clases. 1.4. ORGANIZACIÓN DE LOS DATOS 1.4. 17 Organización de los datos 1.4.1. Variables estadı́sticas Cuando hablemos de variable haremos referencia a un sı́mbolo (X,Y,A,B,. . . ) que puede tomar cualquier modalidad (valor) de un conjunto determinado, que llamaremos dominio de la variable o rango. En función del tipo de dominio, las variables las clasificamos del siguiente modo: Variables cualitativas, cuando las modalidades posibles son de tipo nominal. Por ejemplo, el grupo sanguı́neo tiene por modalidades: Grupos Sanguı́neos posibles: A, B, AB, O Variables cuasicuantitativas u ordinales son las que, aunque sus modalidades son de tipo nominal, es posible establecer un orden entre ellas. Por ejemplo, si estudiamos el grado de recuperación de un paciente al aplicarle un tratamiento, podemos tener como modalidades: Grado de recuperación: Nada, Poco, Moderado, Bueno, Muy Bueno. A veces se representan este tipo de variables en escalas numéricas, por ejemplo, puntuar el dolor en una escala de 1 a 5. Debemos evitar sin embargo realizar operaciones algebráicas con estas cantidades. ¡Un dolor de intensidad 4 no duele el dobleque otro de intensidad 2! Variables cuantitativas o numéricas son las que tienen por modalidades cantidades numéricas con las que podemos hacer operaciones aritméticas. Dentro de este tipo de variables podemos distinguir dos grupos: Discretas, cuando no admiten siempre una modalidad intermedia entre dos cualesquiera de sus modalidades. Un ejemplo es el número de hijos en una población de familias: Número de hijos posibles: 0, 1, 2, 3, 4, 5, . . . Continuas, cuando admiten una modalidad intermedia entre dos cualesquiera de sus modalidades, v.g. el peso X de un niño al nacer. Ocurre a veces que una variable cuantitativa continua por naturaleza, aparece como discreta. Este es el caso en que hay limitaciones en lo 18 Bioestadı́stica: Métodos y Aplicaciones que concierne a la precisión del aparato de medida de esa variable, v.g. si medimos la altura en metros de personas con una regla que ofrece dos decimales de precisión, podemos obtener Alturas medidas en cm: 1.50, 1.51, 1.52, 1.53,. . . En realidad lo que ocurre es que con cada una de esas mediciones expresamos que el verdadero valor de la misma se encuentra en un intervalo de radio 0,005. Por tanto cada una de las observaciones de X representa más bien un intervalo que un valor concreto. Tal como hemos citado anteriormente, las modalidades son las diferentes situaciones posibles que puede presentar la variable. A veces éstas son muy numerosas (v.g. cuando una variable es continua) y conviene reducir su número, agrupándolas en una cantidad inferior de clases. Estas clases deben ser construidas, tal como hemos citado anteriormente, de modo que sean exhaustivas y excluyentes, es decir, cada modalidad debe pertenecer a una y sólo una de las clases. Variable cualitativa: Aquella cuyas modalidades son de tipo nominal. Variable cuasicuantitativa: Modalidades de tipo nominal, en las que existe un orden. Variable cuantitativa discreta: Sus modalidades son valores enteros. Variable cuantitativa continua: Sus modalidades son valores reales. 1.4. ORGANIZACIÓN DE LOS DATOS 1.4.2. 19 Tablas estadı́sticas Consideremos una población estadı́stica de n individuos, descrita según un carácter o variable C cuyas modalidades han sido agrupadas en un número k de clases, que denotamos mediante c1 , c2 , . . . , ck . Para cada una de las clases ci , i = 1, . . . , k, introducimos las siguientes magnitudes: Frecuencia absoluta de la clase ci es el número ni , de observaciones que presentan una modalidad perteneciente a esa clase. Frecuencia relativa de la clase ci es el cociente fi , entre las frecuencias absolutas de dicha clase y el número total de observaciones, es decir fi = ni n Obsérvese que fi es el tanto por uno de observaciones que están en la clase ci . Multiplicado por 100 % representa el porcentaje de la población que comprende esa clase. Frecuencia absoluta acumulada Ni , se calcula sobre variables cuantitativas o cuasicuantitativas, y es el número de elementos de la población cuya modalidad es inferior o equivalente a la modalidad ci : N i = n1 + n2 + . . . + ni = i X nj j=1 Frecuencia relativa acumulada , Fi , se calcula sobre variables cuantitativas o cuasicuantitativas, siendo el tanto por uno de los elementos de la población que están en alguna de las clases y que presentan una modalidad inferior o igual a la ci , es decir, Fi = i X n1 + . . . + ni Ni fj = = f1 + . . . + fi = n n j=1 Llamaremos distribución de frecuencias al conjunto de clases junto a las frecuencias correspondientes a cada una de ellas. Una tabla estadı́stica 20 Bioestadı́stica: Métodos y Aplicaciones sirve para presentar de forma ordenada las distribuciones de frecuencias. Su forma general es la siguiente: Modali. C c1 ... cj ... ck Frec. Abs. ni n1 ... nj ... nk n Frec. Rel. fi f1 = nn1 ... n fj = nj ... fk = nnk 1 Frec. Abs. Acumu. Ni N 1 = n1 ... N j = n1 + . . . + nj ... Nk = n Frec. Rel. Acumu. Fi F1 = Nn1 = f1 ... Nj Fj = n = f1 + . . . + fj ... Fk = 1 Ejemplo de cálculo con frecuencias Calcular los datos que faltan en la siguiente tabla: li−1 — li 0 — 10 10 — 20 20 — 30 30 — 100 100 — 200 ni 60 n2 30 n4 n5 n fi f1 0,4 f3 0,1 f5 Ni 60 N2 170 N4 200 Solución: Sabemos que la última frecuencia acumulada es igual al total de observaciones, luego n = 200. Como N3 = 170 y n3 = 30, entonces N2 = N3 − n3 = 170 − 30 = 140. Además al ser n1 = 60, tenemos que n2 = N2 − n1 = 140 − 60 = 80. 1.5. REPRESENTACIONES GRÁFICAS 21 Por otro lado podemos calcular n4 teniendo en cuenta que conocemos la frecuencia relativa correspondiente: n4 f4 = =⇒ n4 = f4 · n = 0, 1 × 200 = 20 n Ası́: N4 = n4 + N3 = 20 + 170 = 190. Este último cálculo nos permite obtener n5 = N5 − N4 = 200 − 190 = 10. Al haber calculado todas las frecuencias absolutas, es inmediato obtener las relativas: f1 = f3 = f5 = n1 60 = = 0, 3 n 200 30 n3 = = 0, 15 n 200 n5 10 = = 0, 05 n 200 Escribimos entonces la tabla completa: li−1 — li 0 — 10 10 — 20 20 — 30 30 — 100 100 — 200 1.5. ni 60 80 30 20 10 200 fi 0,3 0,4 0,15 0,1 0,05 Ni 60 140 170 190 200 Representaciones Gráficas Hemos visto que la tabla estadı́stica resume los datos que disponemos de una población, de forma que ésta se puede analizar de una manera más 22 Bioestadı́stica: Métodos y Aplicaciones sistemática y resumida . Para darnos cuenta de un sólo vistazo de las caracterı́sticas de la población resulta aún más esclarecedor el uso de gráficos y diagramas, cuya construcción abordamos en esta sección. 1.5.1. Gráficos para variables cualitativas Los gráficos más usuales para representar variables de tipo nominal son los siguientes: Diagramas de barras: Siguiendo la figura 1.1, representamos en el eje de ordenadas las modalidades y en abscisas las frecuencias absolutas o bien, las frecuencias relativas. Si, mediante el gráfico, se intenta comparar varias poblaciones entre sı́, existen otras modalidades, como las mostradas en la figura 1.2. Cuando los tamaños de las dos poblaciones son diferentes, es conveniente utilizar las frecuencias relativas, ya que en otro caso podrı́an resultar engañosas. frecuencias 8 6 4 2 Solteros Casados Viudos Divorciados Figura 1.1: Diagrama de barras para una variable cualitativa. 1.5. REPRESENTACIONES GRÁFICAS frecuencias relativas 23 autocar 1 autocar 2 Solteros Casados Viudos Divorciados Figura 1.2: Diagramas de barras para comparar una variable cualitativa en diferentes poblaciones. Se ha de tener en cuenta que la altura de cada barra es proporcional al número de observaciones (frecuencias relativas). 24 Bioestadı́stica: Métodos y Aplicaciones Diagramas de sectores (también llamados tartas). Se divide un cı́rculo en tantas porciones como clases existan, de modo que a cada clase le corresponde un arco de cı́rculo proporcional a su frecuencia absoluta o relativa (figura 1.3). Grupo A 375 individuos 37,5% Grupo B 250 individuos 25% Grupo D 125 individuos 12,5% Grupo C 250 individuos 25% Figura 1.3: Diagrama de sectores. El arco de cada porción se calcula usando la regla de tres: n −→ 360◦ ni −→ xi = 360 · ni n Como en la situación anterior, puede interesar comparar dos poblaciones. En este caso también es aconsejable el uso de las frecuencias relativas (porcentajes) de ambas sobre gráficos como los anteriores. Otra posibilidad es comparar las 2 poblaciones usando para cada una de ellas un diagrama semicircular, al igual que en la figura 1.4. Sean n1 ≤ n2 los tamaños respectivos de las 2 poblaciones. La población más pequeña se representa con un semicı́rculo de radio r1 y la mayor con otro de radio r2 . 1.5. REPRESENTACIONES GRÁFICAS 25 La relación existente entre los radios, es la que se obtiene de suponer que la relación entre las areas de las circunferencias es igual a la de los tamaños de las poblaciones respectivas, es decir: n2 r22 = ⇐⇒ r2 = r1 · 2 n1 r1 r n2 n1 Poblac. A 1000 individuos No fumadores 750 individuos. Fumadores 75% 250 ind. 25% No fumadores Poblac. B 250 individuos 125 ind. 50% Fumadores 125 ind. 50% Figura 1.4: Diagrama de sectores para comparar dos poblaciones Pictogramas Expresan con dibujos alusivo al tema de estudio las frecuencias de las modalidades de la variable. Estos gráficos se hacen representado a diferentes escalas un mismo dibujo, como vemos en la figura 1.5. El escalamiento de los dibujos debe ser tal que el área1 de cada uno de ellos sea proporcional a la frecuencia de la modalidad que representa. Este tipo de gráficos suele usarse en los medios de comunicación, para que sean comprendidos por el público no especializado, sin que sea necesaria una explicación compleja. 1 Es un error hacer la representación con una escala tal que el perı́metro del dibujo sea proporcional a la frecuencia, ya que a frecuencia doble, corresponderı́a un dibujo de área cuadruple, lo que da un efecto visual engañoso. 26 Bioestadı́stica: Métodos y Aplicaciones Figura 1.5: Pictograma. Las áreas son proporcionales a las frecuencias. 1.5.2. Gráficos para variables cuantitativas Para las variables cuantitativas, consideraremos dos tipos de gráficos, en función de que para realizarlos se usen las frecuencias (absolutas o relativas) o las frecuencias acumuladas: Diagramas diferenciales: Son aquellos en los que se representan frecuencias absolutas o relativas. En ellos se representa el número o porcentaje de elementos que presenta una modalidad dada. Diagramas integrales: Son aquellos en los que se representan el número de elementos que presentan una modalidad inferior o igual a una dada. Se realizan a partir de las frecuencias acumuladas, lo que da lugar a gráficos crecientes, y es obvio que este tipo de gráficos no tiene sentido para variables cualitativas. Según hemos visto existen dos tipos de variables cuantitativas: discretas y continuas. Vemos a continuación las diferentes representaciones gráficas que pueden realizarse para cada una de ellas ası́ como los nombres especı́ficos que reciben. 1.5. REPRESENTACIONES GRÁFICAS 27 Gráficos para variables discretas Cuando representamos una variable discreta, usamos el diagrama de barras cuando pretendemos hacer una gráfica diferencial. Las barras deben ser estrechas para representar el que los valores que toma la variable son discretos. El diagrama integral o acumulado tiene, por la naturaleza de la variable, forma de escalera. Un ejemplo de diagrama de barras ası́ como su diagrama integral correspondiente están representados en la figura 1.6. Ejemplo de variable discreta Se lanzan tres monedas al aire en 8 ocasiones y se contabiliza el número de caras, X, obteniendose los siguientes resultados: 2,1,0,1,3,2,1,2 Representar gráficamente el resultado. Solución: En primer lugar observamos que la variable X es cuantitativa discreta, presentando las modalidades: 0,1,2,3 Ordenamos a continuación los datos en una tabla estadı́stica, y se representa la misma en la figura 1.6. xi 0 1 2 3 ni 1 3 3 1 n=8 fi 1/8 3/8 3/8 1/8 1 Ni 1 4 7 8 Fi 1/8 4/8 7/8 8/8 Ejemplo de regresentación gráfica Clasificadas 12 familias por su número de hijos se obtuvo: Número de hijos (xi ) Frecuencias (ni ) 1 1 2 3 3 5 4 3 28 Bioestadı́stica: Métodos y Aplicaciones frecuencias frecuencias absolutas absolutas acumuladas 8 7 4 3 1 1 0 1 2 3 0 1 2 3 Figura 1.6: Diagrama diferencial (barras) e integral para una variable discreta. Obsérvese que el diagrama integral (creciente) contabiliza el número de observaciones de la variable inferiores o iguales a cada punto del eje de abcisas. Comparar los diagramas de barras para frecuencias absolutas y relativas. Realizar el diagrama acumulativo creciente. Solución: En primer lugar, escribimos la tabla de frecuencias en el modo habitual: Variable xi 1 2 3 4 F. Absolutas ni 1 3 5 3 12 F. Relativas fi 0,083 0,250 0,416 0,250 1 F. Acumuladas Ni 1 4 9 12 Con las columnas relativas a xi y ni realizamos el diagrama de barras para frecuencias absolutas, lo que se muestra en la figura 1.7. Como puede verse es identico (salvo un cambio de escala en el eje de ordenadas) al diagrama de barras para frecuencias relativas y que ha sido calculado 1.5. REPRESENTACIONES GRÁFICAS 29 usando las columnas de xi y fi . El diagrama escalonado (acumulado) se ha construido con la información procedente de las columnas xi y Ni . 5 frecuencias absolutas frecuencias absolutas acumuladas 12 3 9 1 1 5/12 2 3 4 frecuencias relativas 4 3/12 1 1/12 1 1 2 3 2 3 4 4 Figura 1.7: Diagramas de frecuencias para una variable discreta Gráficos para variables continuas Cuando las variables son continuas, utilizamos como diagramas diferenciales los histogramas y los polı́gonos de frecuencias. Un histograma se construye a partir de la tabla estadı́stica, representando sobre cada intervalo, un rectángulo que tiene a este segmento como base. El criterio para calcular la altura de cada rectángulo es el de mantener la proporcionalidad entre las frecuencias absolutas (o relativas) de cada intervalo y el área de los mismos. Véase la figura 1.8. El polı́gono de frecuencias se construye fácilmente si tenemos representado previamente el histograma, ya que consiste en unir mediante lineas rectas los puntos del histograma que corresponden a las marcas de clase. Para representar el polı́gono de frecuencias en el primer y último interva- 30 Bioestadı́stica: Métodos y Aplicaciones 3 2 1 0 frecuencia absoluta 4 Peso de 20 individuos 40 50 60 70 80 Peso Figura 1.8: Histograma para una variable continua. lo, suponemos que adyacentes a ellos existen otros intervalos de la misma amplitud y frecuencia nula, y se unen por una lı́nea recta los puntos del histograma que corresponden a sus marcas de clase. Obsérvese que de este modo, el polı́gono de frecuencias tiene en común con el histograma el que las áreas de la gráficas sobre un intervalo son idénticas. Veanse ambas gráficas diferenciales representadas en la parte superior de la figura 1.9. El diagrama integral para una variable continua se denomina también polı́gono de frecuencias acumulado, y se obtiene como la poligonal definida en abcisas a partir de los extremos de los intervalos en los que hemos organizado la tabla de la variable, y en ordenadas por alturas que son proporcionales a las frecuencias acumuladas. Dicho de otro modo, el polı́gono de frecuencias absolutas es una primitiva del histograma. Véase la parte inferior de la figura 1.9, en la que se representa a modo de ilustración los diagramas correspondientes a la variable cuantitativa continua expresada en la tabla siguiente: 1.5. REPRESENTACIONES GRÁFICAS Intervalos 0—2 2—4 4—6 6—8 8 – 10 4 n ci 1 3 5 7 9 31 ni 2 1 4 3 2 12 Ni 2 3 7 10 12 Diagramas diferenciales i 3 2 1 0 12 2 4 6 8 10 6 8 10 Ni 10 8 6 Diagrama acumulado 4 2 0 2 4 Figura 1.9: Diagramas diferenciales e integrales para una variable continua. 32 Bioestadı́stica: Métodos y Aplicaciones Ejemplo La siguiente distribución se refiere a la duración en horas (completas) de un lote de 500 tubos: Duración en horas 300 — 500 500 — 700 700 — 1.100 más de 1.100 Número de tubos 50 150 275 25 Total 500 Representar el histograma de frecuencias relativas y el polı́gono de frecuencias. Trazar la curva de frecuencias relativas acumuladas. Determinar el número mı́nimo de tubos que tienen una duración inferior a 900 horas. Solución: En primer lugar observamos que la variable en estudio es discreta (horas completas), pero al tener un rango tan amplio de valores resulta más conveniente agruparla en intervalos, como si de una variable continua se tratase. La consecuencia es una ligera perdida de precisión. El último intervalo está abierto por el lı́mite superior. Dado que en él hay 25 observaciones puede ser conveniente cerrarlo con una amplitud “razonable”. Todos los intervalos excepto el tercero tienen una amplitud de 200 horas, luego podrı́amos cerrar el último intervalo en 1.300 horas2 . Antes de realizar el histograma conviene hacer una observación importante. El histograma representa las frecuencias de los intervalos mediante áreas y no mediante alturas. Sin embargo nos es mucho más fácil hacer representaciones gráficas teniendo en cuenta estas últimas. Si todos los intervalos tienen la misma amplitud no es necesario diferenciar entre los 2 Cualquier otra elección para el lı́mite superior del intervalo que sea de “sentido comun” serı́a válida. 1.5. REPRESENTACIONES GRÁFICAS 33 conceptos de área y altura, pero en este caso el tercer intervalo tiene una amplitud doble a los demás, y por tanto hay que repartir su área en un rectángulo de base doble (lo que reduce su áltura a la mitad). Ası́ será conveniente añadir a la habitual tabla de frecuencias una columna que represente a las amplitudes ai de cada intervalo, y otra de frecuencias relativas rectificadas, fi′ , para representar la altura del histograma. Los gráficos requeridos se representan en las figuras 1.10 y 1.11. Intervalos 300 — 500 500 — 700 700 — 1.100 1.100 — 1.300 ai 200 200 400 200 ni 50 150 275 25 n=500 fi 0,10 0,30 0,55 0,05 fi′ 0,10 0,30 0,275 0,05 Fi 0,10 0,40 0,95 1,00 0,3 f 0,275 i 0,1 900 300 500 700 0,05 1100 1300 Figura 1.10: Histograma. Obsérvese que la altura del histograma en cada intervalo es fi′ que coincide en todos con fi salvo en el intervalo 700 — 1.100 en el que fi ′ = 1/2 fi ya que la amplitud de ese intervalo es doble a la de los demás. Por otro lado, mirando la figura 1.10 se ve que sumando frecuencias relati- 34 Bioestadı́stica: Métodos y Aplicaciones 1 0,95 0,675 0,4 0,1 900 300 500 700 1100 1300 Figura 1.11: Diagrama acumulativo de frecuencias relativas vas, hasta las 900 horas de duración hay 0,10 + 0,30 + 0,275 = 0,675 = 67,5 % de los tubos. Esta cantidad se obtiene de modo más directo viendo a qué altura corresponde al valor 900 en el diagrama de frecuencias acumuladas (figura 1.11). Como en total son 500 tubos, el número de tubos con una duración igual o menor que 900 horas es 0,675 × 500= 337,5. Redondeando, 338 tubos. 1.5. REPRESENTACIONES GRÁFICAS Cuadro 1.1: Principales diagramas según el tipo de variable. Tipo de variable Diagrama V. Cualitativa Barras, sectores, pictogramas V. Discreta Diferencial (barras) Integral (en escalera) V. Continua Diferencial (histograma, polı́gono de frecuencias) Integral (diagramas acumulados) 35 36 Bioestadı́stica: Métodos y Aplicaciones 1.6. Problemas Ejercicio 1.1. Clasificar las siguientes variables: 1. Preferencias polı́ticas (izquierda, derecha o centro). 2. Marcas de cerveza. 3. Velocidad en Km/h. 4. El peso en Kg. 5. Signo del zodiaco. 6. Nivel educativo (primario secundario, superior). 7. Años de estudios completados. 8. Tipo de enseñanza (privada o pública). 9. Número de empleados de una empresa. 10. La temperatura de un enfermo en grados Celsius. 11. La clase social (baja, media o alta). 12. La presión de un neumático en Nw/cm2 Ejercicio 1.2. Clasifique las variables que aparecen en el siguiente cuestionario. 1. ¿Cuál es su edad? 2. Estado civil: a) Soltero b) Casado c) Separado d ) Divorciado e) Viudo 1.6. PROBLEMAS 37 3. ¿Cuanto tiempo emplea para desplazarse a su trabajo? 4. Tamaño de su municipio de residencia: a) Municipio pequeño (menos de 2.000 habitantes) b) Municipio mediano (de 2.000 a 10.000 hab.) c) Municipio grande (de 10.000 a 50.000 hab.) d ) Ciudad pequeña (de 50.000 a 100.000 hab.) e) Ciudad grande (más de 100.000 hab.) 5. ¿Está afiliado a la seguridad social? Ejercicio 1.3. En el siguiente conjunto de datos, se proporcionan los pesos (redondeados a libras) de niños nacidos en cierto intervalo de tiempo: 4, 8, 4, 6, 8, 6, 7, 7, 7, 8, 10, 9, 7, 6, 10, 8, 5, 9, 6, 3, 7, 6, 4, 7, 6, 9, 7, 4, 7, 6, 8, 8, 9, 11, 8, 7, 10, 8, 5, 7, 7, 6, 5, 10, 8, 9, 7, 5, 6, 5. 1. Construir una distribución de frecuencia de estos pesos. 2. Encontrar las frecuencias relativas. 3. Encontrar las frecuencias acumuladas. 4. Encontrar las frecuencias relativas acumuladas. 5. Dibujar un histograma con los datos del apartado a. 6. ¿Por qué se ha utilizado un histograma para representar estos datos, en lugar de una gráfica de barras? 38 Bioestadı́stica: Métodos y Aplicaciones Capı́tulo 2 Medidas descriptivas 2.1. Introducción En el capı́tulo anterior hemos visto cómo se pueden resumir los datos obtenidos del estudio de una muestra (o una población) en una tabla estadı́stica o un gráfico. No obstante, tras la elaboración de la tabla y su representación gráfica, en la mayorı́a de las ocasiones resulta más eficaz “condensar” dicha información en algunos números que la expresen de forma clara y concisa. Los fenómenos biológicos no suelen ser constantes, por lo que será necesario que junto a una medida que indique el valor alrededor del cual se agrupan los datos, se asocie una medida que haga referencia a la variabilidad que refleje dicha fluctuación. Por tanto el siguiente paso y objeto de este capı́tulo consistirá en definir algunos tipos de medidas (estadı́sticos o parámetros) que los sintetizan aún más. Es decir, dado un grupo de datos organizados en una distribución de frecuencias (o bien una serie de observaciones sin ordenar), pretendemos describirlos mediante dos o tres cantidades sintéticas. En este sentido pueden examinarse varias caracterı́sticas, siendo las más comunes: La tendencia central de los datos; 39 40 Bioestadı́stica: Métodos y Aplicaciones La dispersión o variación con respecto a este centro; Los datos que ocupan ciertas posiciones. La simetrı́a de los datos. La forma en la que los datos se agrupan. Centro , Dispersion , Posicion , Asimetria 1/2 1/4 1/4 Figura 2.1: Medidas representativas de un conjunto de datos estadı́sticos A lo largo de este capı́tulo, y siguiendo este orden, iremos estudiando los estadı́sticos que nos van a orientar sobre cada uno de estos niveles de información: valores alrededor de los cuales se agrupa la muestra, la mayor o menor fluctuación alrededor de esos valores, nos interesaremos en ciertos valores que marcan posiciones caracterı́sticas de una distribución de frecuencias ası́ como su simetrı́a y su forma. 2.2. Estadı́sticos de tendencia central Las tres medidas más usuales de tendencia central son: la media, la mediana, la moda. 2.2. ESTADÍSTICOS DE TENDENCIA CENTRAL 41 En ciertas ocasiones estos tres estadı́sticos suelen coincidir, aunque generalmente no es ası́. Cada uno de ellos presenta ventajas e inconvenientesque precisaremos más adelante. En primer lugar vamos a definir los conceptos anteriores. 2.2.1. La media La media aritmética de una variable estadı́stica es la suma de todos sus posibles valores, ponderada por las frecuencias de los mismos. Es decir, si la tabla de valores de una variable X es X x1 ... xk ni n1 ... nk fi f1 ... fk la media es el valor que podemos escribir de las siguientes formas equivalentes: x = x1 f1 + . . . + xk fk 1 = (x1 n1 + . . . xk nk ) n k 1 X xi ni = n i=1 Si los datos no están ordenados en una tabla, entonces x= x1 + . . . + xn n Algunos inconvenientes de la media La media presenta inconvenientes en algunas situaciones: (2.1) 42 Bioestadı́stica: Métodos y Aplicaciones Uno de ellos es que es muy sensible a los valores extremos de la variable: ya que todas las observaciones intervienen en el cálculo de la media, la aparición de una observación extrema, hará que la media se desplace en esa dirección. En consecuencia, no es recomendable usar la media como medida central en las distribuciones muy asimétricas; Si consideramos una variable discreta, por ejemplo, el número de hijos en las familias españolas el valor de la media puede no pertenecer al conjunto de valores de la variable; Por ejemplo x = 1, 2 hijos. Otras medias: Medias generalizadas En función del tipo de problema varias generalizaciones de la media pueden ser consideradas. He aquı́ algunas de ellas aplicadas a unas observaciones x1 , . . . , xn : La media geométrica xg , es la media de los logaritmos de los valores de la variable: log xg = log x1 + . . . + log xn n Luego xg = √ n x1 x2 . . . xn Si los datos están agrupados en una tabla, entonces se tiene: xg = q n xn1 1 xn2 2 . . . xnk k La media armónica xa , se define como el recı́proco de la media aritmética de los recı́procos, es decir, 1 = xa 1 x1 + ... + n 1 xn 2.2. ESTADÍSTICOS DE TENDENCIA CENTRAL 43 Por tanto, xa = 1 x1 n + ... + 1 xn La media cuadrática xc , es la raı́z cuadrada de la media aritmética de los cuadrados: xc = 2.2.2. s x21 + . . . + x2n n La mediana Consideramos una variable discreta X cuyas observaciones en una tabla estadı́stica han sido ordenadas de menor a mayor. Llamaremos mediana, Med al primer valor de la variable que deja por debajo de sı́ al 50 % de las observaciones. n 100% Ni n/2 C’ B’ 50% Triang. Semejantes Ni−1 A 0 B C 0% li Med li−1 Figura 2.2: Cálculo geométrico de la mediana En el caso de variables continuas, las clases vienen dadas por intervalos, y aquı́ la fórmula de la mediana se complica un poco más (pero no demasiado): Sea (li−1 , li ] el intervalo donde hemos encontrado que por debajo están 44 Bioestadı́stica: Métodos y Aplicaciones el 50 % de las observaciones. Entonces se obtiene la mediana a partir de las frecuencias absolutas acumuladas, mediante interpolación lineal (teorema de Thales) como sigue (figura 2.2): CC ′ BB ′ = AC AB =⇒ =⇒ n − Ni−1 ni = 2 ai Med − li−1 Med n − Ni−1 · ai = li−1 + 2 ni (2.2) Esto equivale a decir que la mediana divide al histograma en dos partes de áreas iguales a 12 . Propiedades de la mediana Entre las propiedades de la mediana, vamos a destacar las siguientes: Como medida descriptiva, tiene la ventaja de no estar afectada por las observaciones extremas, ya que no depende de los valores que toma la variable, sino del orden de las mismas. Por ello es adecuado su uso en distribuciones asimétricas. Es de cálculo rápido y de interpretación sencilla. A diferencia de la media, la mediana de una variable discreta es siempre un valor de la variable que estudiamos (ej. La mediana de una variable número de hijos toma siempre valores enteros). Un ejemplo de cálculo de mediana Sea X una variable discreta que ha presentado sobre una muestra las modalidades X ❀ 2, 5, 7, 9, 12 =⇒ x = 7, Med = 7 2.2. ESTADÍSTICOS DE TENDENCIA CENTRAL 45 Si cambiamos la última observación por otra anormalmente grande, esto no afecta a la mediana, pero si a la media: X ❀ 2, 5, 7, 9, 125 =⇒ x = 29, 6; Med = 7 En este caso la media no es un posible valor de la variable (discreta), y se ha visto muy afectada por la observación extrema. Este no ha sido el caso para la mediana. Un ejemplo de cálculo de media y mediana Obtener la media aritmética y la mediana en la distribución adjunta. Determinar gráficamente cuál de los dos promedios es más significativo. li−1 – li 0 – 10 10 – 20 20 – 30 30 – 100 100 – 500 ni 60 80 30 20 10 Solución: li−1 – li 0 – 10 10 – 20 20 – 30 30 – 100 100 – 500 ni 60 80 30 20 10 n = 200 La media aritmética es: x= ai 10 10 10 70 400 xi 5 15 25 65 300 xi ni 300 1.200 750 1.300 3.000 P xi ni = 6,550 Ni 60 140 170 190 200 ni ′ 60 80 30 2,9 0,25 6,550 1X xi = = 32, 75 n 200 La primera frecuencia absoluta acumulada que supera el valor n/2 = 100 es Ni = 140. Por ello el intervalo mediano es [10; 20). Ası́: 46 Bioestadı́stica: Métodos y Aplicaciones Med = li−1 + n/2 − Ni−1 100 − 60 · ai = 10 + × 10 = 15 ni 80 Para ver la representatividad de ambos promedios, realizamos el histograma de la figura 2.3, y observamos que dada la forma de la distribución, la mediana es más representativa que la media. 80 60 Mediana Media 30 5 0 10 20 30 100 Figura 2.3: Para esta distribución de frecuencias es más representativo usar como estadı́stico de tendencia central la mediana que la media. 2.2.3. La moda Llamaremos moda a cualquier máximo relativo de la distribución de frecuencias, es decir, cualquier valor de la variable que posea una frecuencia mayor que su anterior y su posterior. Observación De la moda destacamos las siguientes propiedades: Es muy fácil de calcular. Puede no ser única. 2.2. ESTADÍSTICOS DE TENDENCIA CENTRAL 47 Cuadro 2.1: Resumen de las medidas de posición centrales. Medidas de tendencia central Datos sin agrupar Datos agrupados (ordenados) x1 , x2 , . . . , xN Media x= x1 + · · · + xn N Mediana Primera observación que deja debajo de sı́ estrictamente a las [N/2] observaciones menores: x[N/2]+1 Moda Moda = xi de mayor frecuencia 2.2.4. Interv. l0 —l1 l1 —l2 ... lk−1 —lk x= xi x1 x2 ... xk ni n1 n2 ... nk Ni N1 N2 ... Nk n1 x1 + · · · + nk xk N Med = li−1 + Moda == li−1 + N 2 − Ni−1 · ai ni n′i −n′i−1 (n′i −n′i−1 )+(n′i −n′i+1 ) Relación entre media, mediana y moda En el caso de distribuciones unimodales, la mediana está con frecuencia comprendida entre la media y la moda (incluso más cerca de la media). En distribuciones que presentan cierta inclinación, es más aconsejable el uso de la mediana. Sin embargo en estudios relacionados con propósitos estadı́sticos y de inferencia suele ser más apta la media. ai 48 Bioestadı́stica: Métodos y Aplicaciones 2.3. Estadı́sticos de posición Los estadı́sticos de posición van a ser valores de la variable caracterizados por superar a cierto porcentaje de observaciones en la población (o muestra). Tenemos fundamentalmente a los percentiles como medidas de posición, y asociados a ellos veremos también los cuartiles, deciles y cuartiles. Percentiles Para una variable discreta, se define el percentil de orden k, como la observación, Pk , que deja por debajo de si el k % de la población. Véase la figura 2.4. Esta definición nos recuerda a la mediana, pues como consecuencia de la definición es evidente que Med = P50 0.03 0.02 P50 P75 0.01 P25 0.00 frecuencia relativa 0.04 Peso de 100 individuos 40 50 60 70 80 90 Peso Figura 2.4: Percentiles 25, 50 y 75 de una variable. Los que se muestran dividen a la muestra en cuatro intervalos con similar número de individuos y reciben también el nombre de cuartiles. 2.3. ESTADÍSTICOS DE POSICIÓN 49 En el caso de una variable continua, el intervalo donde se encuentra Pk ∈ (li−1 , li ], se calcula buscando el que deja debajo de si al k % de las observaciones. Dentro de él, Pk se obtiene según la relación: n Pk = li−1 + k − Ni−1 100 · ai ni (2.3) Cuartiles Los cuartiles, Ql , son un caso particular de los percentiles. Hay 3, y se definen como: Q1 = P25 Q2 = P50 (2.4) = Med Q3 = P75 (2.5) (2.6) Deciles Se definen los deciles como los valores de la variable que dividen a las observaciones en 10 grupos de igual tamaño. Más precisamente, definimos D1 ,D2 , . . . , D9 como: Di = P10 i i = 1, . . . , 9 Ejemplo de cálculo de cuartiles con una variable discreta Dada la siguiente distribución en el número de hijos de cien familias, calcular sus cuartiles. 50 Bioestadı́stica: Métodos y Aplicaciones xi 0 1 2 3 4 5 ni 14 10 15 26 20 15 n=100 Ni 14 24 39 65 85 100 Solución: 1. Primer cuartil: n = 25; Primera Ni > n/4 = 39; luego Q1 = 2. 4 2. Segundo cuartil: 2n = 50; Primera Ni > 2 n/4 = 65; luego Q2 = 3. 4 3. Tercer cuartil: 3n = 75; Primera Ni > 3 n/4 = 85; luego Q3 = 4. 4 Ejemplo Calcular los cuartiles en la siguiente distribución de una variable continua: li−1 – li 0–1 1–2 2–3 3–4 4–5 ni 10 12 12 10 7 n = 51 Ni 10 22 34 44 51 2.3. ESTADÍSTICOS DE POSICIÓN 51 Solución: 1. Primer cuartil N = 12, 75; Primera Ni > n/4 = 22; La lı́nea i es la del intervalo [1; 2) 4 n − Ni−1 12, 75 − 10 Q1 = li−1 + 4 ai = 1 + × 1 = 1, 23 ni 12 2. Segundo cuartil: 2n = 25, 5; Primera Ni > 2 n/4 = 34; La lı́nea i es la del intervalo [2; 3) 4 2n − Ni−1 25, 5 − 22 ai = 2 + × 1 = 2, 29 Q2 = li−1 + 4 ni 12 3. Tercer cuartil 3n = 38, 25; Primera Ni > 3 n/4 = 44; La lı́nea i es la del intervalo [3; 4) 4 3n − Ni−1 38, 25 − 34 ai = 3 + × 1 = 3, 445 Q3 = li−1 + 4 ni 10 Ejemplo de cálculo de cuartiles con una variable continua Han sido ordenados los pesos de 21 personas en la siguiente tabla: 52 Bioestadı́stica: Métodos y Aplicaciones Intervalos li−1 — li 38 — 45 45 — 52 52 — 59 59 — 66 66 — 73 f.a. ni 3 2 7 3 6 21 Encontrar aquellos valores que dividen a los datos en 4 partes con el mismo número de observaciones. Solución: Las cantidades que buscamos son los tres cuartiles: Q1 , Q2 y Q3 . Para calcularlos, le añadimos a la tabla las columnas con las frecuencias acumuladas, para localizar qué intervalos son los que contienen a los cuartiles buscados: li−1 — li 38 — 45 45 — 52 52 — 59 59 — 66 66 — 73 ni 3 2 7 3 6 21 Ni 3 Q1 y Q2 se encuentran en el intervalo 5 52—59, ya que N3 = 12 es la primera 12 ∋ Q1 , Q2 f.a.a. que supera a 21 · 1/4 y 21 · 2/4. Q3 está en 66—73, pues N5 = 21 es 15 21 ∋ Q3 el primer Ni mayor que 21 · 3/4. Ası́ se tiene que: 1 n − Ni−1 1 · 21 = 5, 25 ⇒ i = 3 ⇒ Q1 = li−1 4 · ai 4 ni 5, 25 − 5 = 52 + · 7 = 52, 25 7 2 n − Ni−1 2 · 21 = 10, 5 ⇒ i = 3 ⇒ Q2 = li−1 + 4 · ai 4 ni 10, 5 − 5 = 52 + · 7 = 57, 5 7 2.3. ESTADÍSTICOS DE POSICIÓN 53 3 n − Ni−1 3 · 21 = 15, 75 ⇒ i = 5 ⇒ Q3 = li−1 + 4 · ai 4 ni 15, 75 − 15 · 7 = 66, 875 = 66 + 6 Obsérvese que Q2 = Med . Esto es lógico, ya que la mediana divide a la distribución en dos partes con el mismo número de observaciones, y Q2 , hace lo mismo, pues es deja a dos cuartos de los datos por arriba y otros dos cuartos por abajo. Ejemplo La distribución de una variable tiene por polı́gono acumulativo de frecuencias el de la figura 2.5. Si el número total de observaciones es 50: 1. Elaborar una tabla estadı́stica con los siguientes elementos: intervalos, marcas de clase, frecuencia absoluta, frecuencia absoluta acumulada, frecuencias relativa y frecuencias relativa acumulada. 2. Cuántas observaciones tuvieron un valor inferior a 10, cuántas inferior a 8 y cuántas fueron superior a 11. 3. Determine los cuartiles. Solución: 1. En la siguiente tabla se proporciona la información pedida y algunos cálculos auxiliares que nos permitirán responder a otras cuestiones. Intervalos 0–5 5–7 7 – 12 12 – 15 ni 10 25 5 10 Ni 10 35 40 50 fi 0,2 0,5 0,1 0,2 Fi 0,3 0,7 0,8 1 xi 2,5 6 9,5 13,5 2. Calculemos el número de observaciones pedido: ai 5 2 5 7 ni ′ 2 12,5 1 3,33 54 Bioestadı́stica: Métodos y Aplicaciones 1 0,8 0,7 0,2 0 5 7 12 15 Figura 2.5: Diagrama acumulado de frecuencias relativas. 7 a 12 7 a 10 5 x ⇔ 5 3 5 x ⇒ x= 3×5 =3 5 10 + 25+3 = 38 observaciones tomaron un valor inferior a 10 7 a 12 7a8 5 x ⇔ 5 1 5 x ⇒ x= 1×5 =1 5 10 + 25+1 = 36 observaciones tomaron un valor inferior a 8 7 a 12 7 a 11 5 x ⇔ 5 4 5 x ⇒ x= 4×5 =4 5 50 -(10 + 25+4) = 50-39=11 observaciones tomaron un valor superior a 11 3. Cuartiles: Q1 = li−1 + 12, 5 − 10 n/4 − Ni−1 · ai = 5 + · 2 = 5, 2 ni 25 Q2 = li−1 + 2 n/4 − Ni−1 25 − 10 · ai = 5 + · 2 = 6, 2 ni 25 2.4. MEDIDAS DE VARIABILIDAD O DISPERSIÓN Q3 = li−1 + 2.4. 55 37, 5 − 35 3 n/4 − Ni−1 · ai = 7 + · 5 = 9, 5 ni 5 Medidas de variabilidad o dispersión Los estadı́sticos de tendencia central o posición nos indican donde se sitúa un grupo de puntuaciones. Los de variabilidad o dispersión nos indican si esas puntuaciones o valores están próximas entre sı́ o si por el contrario están o muy dispersas. 2.4.1. Rango Una medida razonable de la variabilidad podrı́a ser la amplitud o rango, que se obtiene restando el valor más bajo de un conjunto de observaciones del valor más alto. Propiedades del rango Es fácil de calcular y sus unidades son las mismas que las de la variable. No utiliza todas las observaciones (sólo dos de ellas); Se puede ver muy afectada por alguna observación extrema; El rango aumenta con el número de observaciones, o bien se queda igual. En cualquier caso nunca disminuye. 2.4.2. Varianza La varianza, S 2 , se define como la media de las diferencias cuadráticas de n puntuaciones con respecto a su media aritmética, es decir n 1X S = (xi − x)2 n i=1 2 (2.7) 56 Bioestadı́stica: Métodos y Aplicaciones Esta medida es siempre una cantidad positiva, con propiedades interesante para la realización de inferencia estadı́stica. Como sus unidades son las del cuadrado de la variable, es más sencillo usar su raı́z cuadrada, que es la que vemos en la siguiente sección. 2.4.3. Desviación tı́pica o estándar La varianza no tiene la misma magnitud que las observaciones (ej. si las observaciones se miden en metros, la varianza lo hace en metros cuadrados. Si queremos que la medida de dispersión sea de la misma dimensionalidad que las observaciones bastará con tomar su raı́z cuadrada. Por ello se define la desviación tı́pica, S, como S= 2.4.4. √ S2 Ejemplo de cálculo de medidas de dispersión Calcular el rango, varianza y desviación tı́pica de las siguientes cantidades medidas en metros: 3, 3, 4, 4, 5 Solución: El rango de esas observaciones es la diferencia entre la mayor y menor de ellas, es decir, 5 − 3 = 2. Para calcular las restantes medidas de dispersión es necesario calcular previamente el valor con respecto al cual vamos a medir las diferencias. Éste es la media: x = (3 + 3 + 4 + 4 + 5)/5 = 3, 8 metros La varianza es: n 1 2 1X x2i − x2 = S = 3 + 32 + 42 + 42 + 52 − 3, 82 = 0, 56 metros2 n i=1 5 2 siendo la desviación tı́pica su raı́z cuadrada: S= √ S2 = p 0, 56 = 0, 748 metros 2.4. MEDIDAS DE VARIABILIDAD O DISPERSIÓN 57 Propiedades de la varianza y desviacion tı́pica Ambas son sensibles a la variación de cada una de las puntuaciones, es decir, si una puntuación cambia, cambia con ella la varianza. La razón es que si miramos su definición, la varianza es función de cada una de las puntuaciones. La desviación tı́pica tiene la propiedad de que en el intervalo def (x − 2 S, x + 2 S) ∼ x ± 2 S se encuentra, al menos, el 75 % de las observaciones Incluso si tenemos muchos datos y estos provienen de una distribución normal (se definirá este concepto más adelante), podremos llegar al 95 %. No es recomendable el uso de ellas, cuando tampoco lo sea el de la media como medida de tendencia central. 2.4.5. Coeficiente de variación Hemos visto que las medidas de centralización y dispersión nos dan información sobre una muestra. Nos podemos preguntar si tiene sentido usar estas magnitudes para comparar dos poblaciones. Por ejemplo, si nos piden comparar la dispersión de los pesos de las poblaciones de elefantes de dos circos diferentes, S nos dará información útil. ¿Pero qué ocurre si lo que comparamos es la altura de unos elefantes con respecto a su peso? Tanto la media como la desviación tı́pica, x y S, se expresan en las mismas unidades que la variable. Por ejemplo, en la variable altura podemos usar como unidad de longitud el metro y en la variable peso, el kilogramo. Comparar una desviación (con respecto a la media) medida en metros con otra en kilogramos no tiene ningún sentido. El problema no deriva sólo de que una de las medidas sea de longitud y la otra sea de masa. El mismo problema se plantea si medimos cierta cantidad, por ejemplo la masa, de dos poblaciones, pero con distintas unidades. Este es el caso en que comparamos el peso en toneladas de una población de 100 elefantes con el correspondiente en miligramos de una población de 50 hormigas. 58 Bioestadı́stica: Métodos y Aplicaciones El problema no se resuelve tomando las mismas escalas para ambas poblaciones. Por ejemplo, se nos puede ocurrir medir a las hormigas con las mismas unidades que los elefantes (toneladas). Si la ingerierı́a genética no nos sorprende con alguna barbaridad, lo lógico es que la dispersión de la variable peso de las hormigas sea practicamente nula (¡Aunque haya algunas que sean 1.000 veces mayores que otras!) En los dos primeros casos mencionados anteriormente, el problema viene de la dimensionalidad de las variables, y en el tercero de la diferencia enorme entre las medias de ambas poblaciones. El coeficiente de variación es lo que nos permite evitar estos problemas, pues elimina la dimensionalidad de las variables y tiene en cuenta la proporción existente entre medias y desviación tı́pica. Se define del siguiente modo: CV = SX x (2.8) Propiedades del coeficiente de variación Sólo se debe calcular para variables con todos los valores positivos. Todo ı́ndice de variabilidad es esencialmente no negativo. Las observaciones pueden ser positivas o nulas, pero su variabilidad debe ser siempre positiva. De ahı́ que sólo debemos trabajar con variables positivas, para la que tenemos con seguridad que x > 0. No es invariante ante cambios de origen. Es decir, si a los resultados de una medida le sumamos una cantidad positiva, b > 0, para tener Y = X + b, entonces CV Y < CV X . Es invariante a cambios de escala. Ası́ por ejemplo el coeficiente de variación de una variable medida en metros es una cantidad adimensional que no cambia si la medición se realiza en centı́metros. Tipificación Se conoce por tipificación al proceso de restar la media y dividir por su desviación tı́pica a una variable X. De este modo se obtiene una nueva 2.5. ASIMETRÍA Y APUNTAMIENTO 59 variable Z= X −x S (2.9) de media z = 0 y desviación tı́pica SZ = 1, que denominamos variable tipificada. Esta nueva variable carece de unidades y permite hacer comparables dos medidas que en un principio no lo son. Ası́ por ejemplo nos podemos preguntar si un elefante es más grueso que una hormiga determinada, cada uno en relación a su población. También es aplicable al caso en que se quieran comparar individuos semejantes de poblaciones diferentes. Por ejemplo si deseamos comparar el nivel académico de dos estudiantes de diferentes Universidades para la concesión de una beca de estudios, en principio serı́a injusto concederla directamente al que posea una nota media más elevada, ya que la dificultad para conseguir una buena calificación puede ser mucho mayor en un centro que en el otro, lo que limita las posibilidades de uno de los estudiante y favorece al otro. En este caso, lo más correcto es comparar las calificaciones de ambos estudiantes, pero tipificadas cada una de ellas por las medias y desviaciones tı́picas respectivas de las notas de los alumnos de cada Universidad. No confundir coeficiente de variación y tipificación Los coefientes de variación sirven para comparar las variabilidades de dos conjuntos de valores (muestras o poblaciones), mientras que si deseamos comparar a dos individuos de cada uno de esos conjuntos, es necesario usar los valores tipificados. Ninguno de ellos posee unidades y es un error frecuente entre estudiantes de bioestadı́stica confundirlos. 2.5. Asimetrı́a y apuntamiento Sabemos cómo calcular valores alrededor de los cuales se distribuyen las observaciones de una variable sobre una muestra y sabemos cómo calcular la dispersión que ofrecen los mismos con respecto al valor de central. Nos 60 Bioestadı́stica: Métodos y Aplicaciones proponemos dar un paso más allá en el análisis de la variable. En primer lugar, nos vamos a plantear el saber si los datos se distribuyen de forma simétrica con respecto a un valor central, o si bien la gráfica que representa la distribución de frecuencias es de una forma diferente del lado derecho que del lado izquierdo. Si la simetrı́a ha sido determinada, podemos preguntarnos si la curva es más o menos apuntada (larga y estrecha). Este apuntamiento habrá que medirlo comparado a cierta distribución de frecuencias que consideramos normal (no por casualidad es éste el nombre que recibe la distribución de referencia). Estas ideas son las que vamos a desarrollar en lo que resta del capı́tulo. 2.5.1. Estadı́sticos de asimetrı́a Para saber si una distribución de frecuencias es simétrica, hay que precisar con respecto a qué. Un buen candidato es la mediana, ya que para variables continuas, divide al histograma de frecuencias en dos partes de igual área. Podemos basarnos en ella para, de forma natural, decir que una distribución de frecuencias es simétrica si el lado derecho de la gráfica (a partir de la mediana) es la imagen por un espejo del lado izquierdo(figura 2.6). Cuando la variable es discreta, decimos que es simétrica, si lo es con respecto a la media. Dentro de los tipos de asimetrı́a posible, vamos a destacar los dos fundamentales: Asimetrı́a positiva: Si las frecuencias más altas se encuentran en el lado izquierdo de la media, mientras que en derecho hay frecuencias más pequeñas (cola). Asimetrı́a negativa: Cuando la cola está en el lado izquierdo. Cuando realizamos un estudio descriptivo es altamente improbable que la distribución de frecuencias sea totalmente simétrica. En la práctica diremos que la distribución de frecuencias es simétrica si lo es de un modo 2.5. ASIMETRÍA Y APUNTAMIENTO 61 Asim. Positiva Cola 50% 50% 50% 50% Mediana Mediana Asim. Negativa Cola 50% 50% 50% 50% Mediana Mediana Figura 2.6: Distribuciones de frecuencias simétricas y asimétricas aproximado. Por otro lado, aún observando cuidadosamente la gráfica, podemos no ver claro de qué lado están las frecuencias más altas. Se definen entonces toda una familia de estadı́sticos que ayuden a interpretar la asimetrı́a, denominados ı́ndices de asimetrı́a. El principal de ellos es el momento central de tercer orden que definimos a continuación. Momento central de tercer orden Sea X una variable cuantitativa y p ∈ IN . Llamamos momento de orden p a: n 1X µp = xpi n i=1 Se denomina momento central de orden p a la cantidad (2.10) 62 Bioestadı́stica: Métodos y Aplicaciones n 1X mp = (xi − x)p n i=1 (2.11) Los momentos de orden p impar, son siempre nulos en el caso de variables simétricas, ya que para cada i que esté a un lado de la media, con (xi − x) < 0, le corresponde una observación j del otro lado de la media tal que (xj − x) = −(xi − x). Elevando cada una de esas cantidades a p impar, y sumando se tiene que mp = 0 si la distribución es simétrica. Si la distribución fuese asimétrica positiva, las cantidades (xi −x)p , con p ≥ 3 impar positivas estarı́an muy aumentadas al elevarse a p. Esta propiedad nos indica que un ı́ndice de asimetrı́a posible consiste en tomar p = 3 y elegir como estadı́stico de asimetrı́a al momento central de tercer orden. Apoyandonos en este ı́ndice, diremos que hay asimetrı́a positiva si a3 > 0, y que la asimetrı́a es negativa si a3 < 0. Índice basado en los tres cuartiles (Yule–Bowley) Si una distribución es simétrica, es claro que deben haber tantas observaciones entre la que deja por debajo de sı́ las tres cuartas partes de la distribución y la mediana, como entre la mediana y la que deja por debajo de sı́ un quarto de todas las observaciones. De forma abreviada esto es, Q3 − Q2 = Q2 − Q1 Una pista para saber si una distribución de frecuencias es asimétrica positiva la descubrimos observando la figura 2.7): Q3 − Q2 > Q2 − Q1 Por analogı́a, si es asimétrica negativa, se tendrá Q3 − Q2 < Q2 − Q1 2.5. ASIMETRÍA Y APUNTAMIENTO 63 Para quitar dimensionalidad al problema, utilizamos como ı́ndice de asimetrı́a la cantidad: As = Es claro que (Q3 − Q2 ) − (Q2 − Q1 ) Q3 − Q1 (2.12) (Q3 − Q2 ) − (Q2 − Q1 ) ≤1 (2.13) (Q3 − Q2 ) + (Q2 − Q1 ) El número obtenido, As , es invariante ante cambios de origen de referencia y de escala. −1 ≤ As = Q 1 Q Q 2 3 Figura 2.7: Uso de los cuartiles para medir la asimetrı́a Otros ı́ndices de asimetrı́a Basándonos en que si una distribución de frecuencias es simétrica y unimodal, entonces la media, la mediana y la moda coinciden, podemos definir otras medidas de asimetrı́a, como son: As = o bien, x − Moda S (2.14) 64 Bioestadı́stica: Métodos y Aplicaciones As = 3(x − Med ) S (2.15) Diremos que hay asimetrı́a positiva si As > 0 y negativa si As < 0 Coef. Asim. ~ 0 Q1 Q2 Q3 Coef. Asim.>0 Q3 Q1 Q2 x x Figura 2.8: Diferencias entre las medidas de tendencia central, o bien entre las distancias entre cuartiles consecutivos indican asimetrı́a. Ejemplo Las edades de un grupo de personas se reflejan en la tabla siguiente: Intervalos 7—9 9 — 11 11 — 12 12 — 13 13 — 14 14 — 15 15 — 17 17 — 19 ni 4 18 14 27 42 31 20 1 2.5. ASIMETRÍA Y APUNTAMIENTO 65 Determinar la variabilidad de la edad mediante los estadı́sticos varianza, desviación tı́pica, coeficiente de variación y rango intercuartı́lico. Estudie la simetrı́a de la variable. Solución: En primer lugar realizamos los cálculos necesarios a partir de la tabla de frecuencias: Intervalos 7—9 9 — 11 11 — 12 12 — 13 13 — 14 14 — 15 15 — 17 17 — 19 ni 4 18 14 27 42 31 20 1 157 xi 8 10 11,5 12,5 13,5 14,5 16 18 Ni 4 22 36 63 105 136 156 157 xi ni 32 180 161 337,5 567 449,5 320 18 2.065 x2i ni 256 1.800 1.851,5 4.218,75 7.654,5 6.517,75 5.120 324 27.742,25 La media es x = 2,065/157 = 13, 15 años. La varianza la calculamos a partir de la columna de la x2i ni como sigue: S 2 = 27,742, 25/157−13, 152 = 3, 78 años2 ⇒ S= El coeficiente de variación no posee unidades y es: CV = p 3, 78 = 1, 94 años 1, 94 = 0, 15 = 15 % de variabilidad. 13, 15 En lo que concierne a la simetrı́a podemos utilizar el coeficiente de asimetrı́a de Yule–Bowley, para el cual es preciso el cálculo de los cuartiles: Q1 = 12 + 39, 25 − 36 × 1 = 12, 12 27 Med = Q2 = 13 + 78, 5 − 63 × 1 = 13, 37 42 66 Bioestadı́stica: Métodos y Aplicaciones Q3 = 14 + 117, 75 − 105 × 1 = 14, 41 31 Lo que nos dice que aproximadamente en un rango de Q3 − Q1 = 2, 29 años se encuentra el 50 % central del total de observaciones1 Además: = As = (Q3 − Q2 ) − (Q2 − Q1 ) (14, 41 − 13, 37) − (13, 37 − 12, 12) = = −0, 09 Q3 − Q1 14, 41 − 12, 12 Este resultado nos indica que existe una ligera asimetrı́a a la izquierda (negativa). Un resultado similar se obtiene si observamos (Figura 2.9) que la distribución de frecuencias es unimodal, siendo la moda: Moda == 13 + 42 − 27 × 1 = 13, 57 (42 − 27) + (42 − 31) en cuyo caso podemos usar como medida del sesgo: As = 2.5.2. x − Moda 13, 15 − 13, 57 = = −0, 21 S 1, 94 Estadı́sticos de apuntamiento Se define el coeficiente de aplastamiento de Fisher (curtosis) como: γ2 = m4 −3 σ4 donde m4 es el momento empı́rico de cuarto orden. Es éste un coeficiente adimensional, invariante ante cámbios de escala y de origen. Sirve para medir si una distribución de frecuencias es muy apuntada o no. Para decir si la distribución es larga y estrecha, hay que tener un patrón de referencia. El patrón de referencia es la distribución normal o gaussiana2 para la que se tiene 1 Eso hace que dicha cantidad sea usada como medida de dispersión, denominándose rango intercuartı́lico. 2 Será introducida posteriormente. 2.5. ASIMETRÍA Y APUNTAMIENTO 67 40 35 30 25 20 15 10 5 moda=13,57 7 8 9 10 11 12 13 14 15 16 17 18 19 edad media=13,15 Figura 2.9: La distribución de frecuencias de la edad presenta una ligera asimetrı́a negativa. m4 = 3 =⇒ γ2 = 0 σ4 De este modo, atendiendo a γ2 , se clasifican las distribuciones de frecuencias en Leptocúrtica: Cuando γ2 > 0, o sea, si la distribución de frecuencias es más apuntada que la normal; Mesocúrtica: Cuando γ2 = 0, es decir, cuando la distribución de frecuencias es tan apuntada como la normal; Platicúrtica: Cuando γ2 < 0, o sea, si la distribución de frecuencias es menos apuntada que la normal; 68 Bioestadı́stica: Métodos y Aplicaciones curtosis<0 curtosis=0 curtosis>0 Figura 2.10: Apuntamiento de distribuciones de frecuencias 2.6. Problemas Ejercicio 2.1. En el siguiente conjunto de números, se proporcionan los pesos (redondeados a la libra más próxima) de los bebés nacidos durante un cierto intervalo de tiempo en un hospital: 4, 8, 4, 6, 8, 6, 7, 7, 7, 8, 10, 9, 7, 6, 10, 8, 5, 9, 6, 3, 7, 6, 4, 7, 6, 9, 7, 4, 7, 6, 8, 8, 9, 11, 8, 7, 10, 8, 5, 7, 7, 6, 5, 10, 8, 9, 7, 5, 6, 5. 1. Construir una distribución de frecuencias de estos pesos. 2. Encontrar las frecuencias relativas. 3. Encontrar las frecuencias acumuladas. 4. Encontrar las frecuencias relativas acumuladas. 5. Dibujar un histograma con los datos de la parte a. 6. ¿Por qué se ha utilizado un histograma para representar estos datos, en lugar de una gráfica de barras? 7. Calcular las medidas de tendencia central. 2.6. PROBLEMAS 69 8. Calcular las medidas de dispersión. 9. Calcular las medidas de forma. 10. ¿Es esta una distribución sesgada? De ser ası́, ¿en qué dirección? 11. Encontrar el percentil 24. Ejercicio 2.2. A continuación se dan los resultados obtenidos con una muestra de 50 universitarios. la caracterı́stica es el tiempo de reacción ante un estı́mulo auditivo: 0,110 0,113 0,124 0,117 0,108 0,118 0,110 0,098 0,118 0,111 0,120 0,106 0,126 0,122 0,132 0,112 0,099 0,128 0,112 0,105 0,108 0,101 0,102 0,094 0,117 0,103 0,115 0,112 0,129 0,1114 0,113 0,119 0,120 0,111 0,115 0,135 0,100 0,107 0,119 0,121 0,107 0,117 0,123 0,103 0,130 0,122 0,113 0,109 0,100 0,134 1. ¿Cuál es la amplitud total de la distribución de los datos? 2. Obtenga la distribución de frecuencias absolutas y relativas. 3. Obtenga la distribución de frecuencias acumuladas, absolutas y relativas, con los intervalos anteriores. 4. Calcular la media y la varianza con los intervalos del apartado b y después calculense las mismas magnitudes sin ordenar los datos en una tabla estadı́stica.¿Con qué método se obtiene mayor precisión? 5. Dibuje el polı́gono de frecuencias relativas. 6. Dibuje el polı́gono de frecuencias relativas acumuladas. Ejercicio 2.3. Con el fin de observar la relación entre la inteligencia y el nivel socioeconómico (medido por el salario mensual familiar) se tomaron dos grupos, uno formado con sujetos de cociente intelectual inferior a 95 70 Bioestadı́stica: Métodos y Aplicaciones y otro formado por los demás; De cada sujeto se anotó el salario mensual familiar. Teniendo en cuenta los resultados que se indican en la tabla: Nivel socioeconómico Intervalos 10 o menos ≡(4,10] 10 – 16 16 – 22 22 – 28 28 – 34 más de 34 ≡(34,40] Sujetos con CI < 95 Frecuencia 75 35 20 30 25 15 Sujetos con CI ≥ 95 Frecuencia 19 26 25 30 54 46 1. Dibuje un gráfico que permita comparar ambos grupos. 2. Calcule las medidas de tendencia central para aquellos sujetos con CI < 95. 3. Calcular las medidas de dispersión para aquellos sujetos con CI ≥ 95. Ejercicio 2.4. Un estudio consistió en anotar el número de palabras leı́das en 15 segundos por un grupo de 120 sujetos disléxicos y 120 individuos normales. Teniendo en cuenta los resultados de la tabla N ◦ de palabras leı́das 25 o menos ≡25 26 27 28 29 30 o más ≡30 Disléxicos nD 56 24 16 12 10 2 calcule: 1. Las medias aritméticas de ambos grupos. 2. Las medianas de ambos grupos. Normales nN 1 9 21 29 28 32 2.6. PROBLEMAS 71 3. El porcentaje de sujetos disléxicos que superaron la mediana de los normales. 4. Compare la variabilidad relativa de ambos grupos. Ejercicio 2.5. La tabla siguiente muestra la composición por edad, sexo y trabajo de un grupo de personas con tuberculosis pulmonar en la provincia de Vizcaya en el año 1979: Edad 14–19 19–24 24–29 29–34 34–39 39–44 Trabajadores Varón Mujer Total 2 1 3 10 4 14 32 10 42 47 12 59 38 8 46 22 4 26 No trabajadores Varón Mujer Total 25 40 65 20 36 56 15 50 65 13 34 47 10 25 35 7 18 25 Varón 27 30 47 60 48 29 Totales Mujer Total 41 68 40 70 60 107 46 106 33 81 22 51 1. Representar gráficamente la distribución de frecuencias de aquellas personas trabajadoras que padecen tuberculosis. 2. Representar gráficamente la distribución de frecuencias de los varones no trabajadores que padecen tuberculosis. 3. Representar gráficamente la distribución de frecuencias del número total de mujeres que padecen tuberculosis. 4. ¿Cuál es la edad en la que se observa con mayor frecuencia que no trabajan los varones? ¿Y las mujeres? Determinar ası́mismo la edad más frecuente (sin distinción de sexos ni ocupación). 5. ¿Por debajo de qué edad está el 50 % de los varones? 6. ¿Por encima de qué edad se encuentra el 80 % de las mujeres? 7. Obtener la media, mediana y desviación tı́pica de la distribución de las edades de la muestra total. 8. Estudiar la asimetrı́a de las tres distribuciones. 72 Bioestadı́stica: Métodos y Aplicaciones Ejercicio 2.6. En una epidemia de escarlatina, se ha recogido el número de muertos en 40 ciudades de un paı́s, obteniéndose la siguiente tabla: N ◦ de muertos Ciudades 0 7 1 11 2 10 3 7 4 1 5 2 6 1 1. Representar gráficamente estos datos. 2. Obtener la distribución acumulada y representarla. 3. Calcular media, mediana y moda. 4. Calcular la varianza y la desviación tı́pica. 5. Porcentaje de ciudades con al menos 2 muertos. 6. Porcentaje de ciudades con más de 3 muertos. 7. Porcentaje de ciudades con a lo sumo 5 muertos. 7 1 Capı́tulo 3 Variables bidimensionales 3.1. introducción En lo estudiado anteriormente hemos podido aprender cómo a partir de la gran cantidad de datos que describen una muestra mediante una variable, X, se representan gráficamente los mismos de modo que resulta más intuitivo hacerse una idea de como se distribuyen las observaciones. Otros conceptos que según hemos visto, también nos ayudan en el análisis, son los estadı́sticos de tendencia central, que nos indican hacia donde tienden a agruparse los datos (en el caso en que lo hagan), y los estadı́sticos de dispersión, que nos indican si las diferentes modalidades que presenta la variable están muy agrupadas alrededor de cierto valor central, o si por el contrario las variaciones que presentan las modalidades con respecto al valor central son grandes. También sabemos determinar ya si los datos se distribuyen de forma simétrica a un lado y a otro de un valor central. En este capı́tulo pretendemos estudiar una situación muy usual y por tanto de gran interés en la práctica: Si Y es otra variable definida sobre la misma población que X, ¿será posible determinar si existe alguna relación entre las modalidades de X y de Y ? 73 74 Bioestadı́stica: Métodos y Aplicaciones Un ejemplo trivial consiste en considerar una población formada por alumnos de primero de Medicina y definir sobre ella las variables X ≡ Y ≡ altura medida en centı́metros, altura medida en metros, ya que la relación es determinista y clara: Y = X/100. Obsérvese que aunque la variable Y , como tal puede tener cierta dispersión, vista como función de X, su dispersión es nula. Un ejemplo más parecido a lo que nos interesa realmente lo tenemos cuando sobre la misma población definimos las variables X ≡ Y ≡ altura medida en centı́metros, peso medida en kilogramos. Intuitivamente esperamos que exista cierta relación entre ambas variables, por ejemplo, Y = X − 110± dispersión que nos expresa que (en media) a mayor altura se espera mayor peso. La relación no es exacta y por ello será necesario introducir algún termino que exprese la dispersión de Y con respecto a la variable X. Es fundamental de cara a realizar un trabajo de investigación experimental, conocer muy bien las técnicas de estudio de variables bidimensionales (y n–dimensionales en general). Baste para ello pensar que normalmente las relaciones entre las variables no son tan evidentes como se mencionó arriba. Por ejemplo: ¿Se puede decir que en un grupo de personas existe alguna relación entre X = tensión arterial e Y = edad? Aunque en un principio la notación pueda resultar a veces algo desagradable, el lector podrá comprobar, al final del capı́tulo, que es bastante 3.2. TABLAS DE DOBLE ENTRADA 75 accesible. Por ello le pedimos que no se asuste. Al final verá que no son para tanto. 3.2. Tablas de doble entrada Consideramos una población de n individuos, donde cada uno de ellos presenta dos caracteres que representamos mediante las variables X e Y . Representamos mediante X❀x1 , x2 , . . . , xi , . . . , xk las k modalidades que presenta la variable X, y mediante Y ❀y1 , y2 , . . . , yj , . . . , yp las p modalidades de Y . Con la intención de reunir en una sóla estructura toda la información disponible, creamos una tabla formada por k · p casillas, organizadas de forma que se tengan k filas y p columnas. La casilla denotada de forma general mediante el subı́ndiceij hará referencia a los elementos de la muestra que presentan simultáneamente las modalidades xi e yj . Y X x1 x2 ... xi ... xk y1 y2 ... yj ... yp n11 n21 ... ni1 ... nk1 n•1 n12 n22 ... ni2 ... nk2 n•2 ... ... ... ... ... ... ... n1j n2j ... nij ... nkj n•j ... ... ... ... ... ... ... n1p n2p ... nip ... nkp n•p n 1• n 2• ... ni• ... nk • n•• De este modo, para i = 1, . . . , k, j = 1, . . . , p, se tiene que nij es el número de individuos o frecuencia absoluta, que presentan a la vez las modalidades xi e yj . 76 Bioestadı́stica: Métodos y Aplicaciones El número de individuos que presentan la modalidad xi , es lo que llamamos frecuencia absoluta marginal de xi y se representa como ni• . Es evidente la igualdad ni• = ni1 + ni2 + · · · + nip = p X nij j=1 Obsérvese que hemos escrito un sı́mbolo “•” en la “parte de las jotas” que simboliza que estamos considerando los elemento que presentan la modalidad xi , independientemente de las modalidades que presente la variable Y . De forma análoga se define la frecuencia absoluta marginal de la modalidad yj como n•j = n1j + n2j + · · · + nkj = k X nij i=1 Estas dos distribuciones de frecuencias ni• para i = 1, . . . , k, y n•j para j = 1, . . . , p reciben el nombre de distribuciones marginales de X e Y respectivamente. El número total de elementos de la población (o de la muestra), n lo obtenemos de cualquiera de las siguientes formas, que son equivalentes: n = n•• = 3.2.1. k X i=1 ni• = p X j=1 n•j = p k X X nij i=1 j=1 Distribuciones condicionadas De todos los elementos de la población, n, podemos estar interesados, en un momento dado, en un conjunto más pequeño y que está formado por aquellos elementos que han presentado la modalidad yj , para algún j = 1, . . . , p. El número de elementos de este conjunto sabemos que es n•j . La variable X definida sobre este conjunto se denomina variable condicionada y se suele denotar mediante X|yj o bien X|Y =yj . La distribución de frecuencias absolutas de esta nueva variable es exactamente la columna j de la tabla. 3.3. DEPENDENCIA FUNCIONAL E INDEPENDENCIA 77 De la misma forma, es posible dividir la población inicial en k subconjuntos, cada uno de ellos caracterizados por la propiedad de que el i–ésimo conjunto todos los elementos verifican la propiedad de presentar la modalidad xi . Sobre cada uno de estos conjuntos tenemos la variable condicionada Y|xi ≡ Y|X=xi , cuya distribución de frecuencias relativas condicionadas es: fji = 3.3. nij ni• ∀j = 1, . . . , p Dependencia funcional e independencia La relación entre las variables X e Y , parte del objetivo de este capı́tulo y en general de un número importante de los estudios de las Ciencias Sociales, puede ser más o menos acentuada, pudiendo llegar ésta desde la dependencia total o dependencia funcional hasta la independencia. 3.3.1. Dependencia funcional La dependencia funcional, que nos refleja cualquier fórmula matemática o fı́sica, es a la que estamos normalmente más habituados. Al principio del capı́tulo consideramos un ejemplo en el que sobre una población de alumnos definı́amos las variables X ≡ Y ≡ altura medida en centı́metros, altura medida en metros, Al tomar a uno de los alumnos, hasta que no se realice una medida sobre el mismo, no tendremos claro cual será su altura. Podemos tener cierta intuición sobre qué valor es más probable que tome (alrededor de la media, con cierta dispersión). Sin embargo, si la medida X ha sido realizada, no es necesario practicar la de Y , pues la relación entre ambas es exacta (dependencia funcional): Y = X/100 78 Bioestadı́stica: Métodos y Aplicaciones 3.3.2. Independencia Existe un concepto que es radicalmente opuesto a la dependencia funcional, que es el de independencia. Se dice que dos variables X e Y son independientes si la distibución marginal de una de ellas es la misma que la condicionada por cualquier valor de la otra. Esta es una de entre muchas maneras de expresar el concepto de independencia, y va a implicar una estructura muy particular de la tabla bidimensional, en el que todas las filas y todas las columnas van a ser proporcionales entre sı́. 3.4. Covarianza La covarianza SXY , es una medida que nos hablará de la variabilidad conjunta de dos variables numéricas (cuantitativas). Se define como: SXY = n 1X (xi − x)(yi − y) n i=1 Una interpretación geométrica de la covarianza Consideremos la nube de puntos formadas por las n parejas de datos (xi , yi ). El centro de gravedad de esta nube de puntos es (x, y), o bien podemos escribir simplemente (x, y) si los datos no están ordenados en una tabla de doble entrada. Trasladamos los ejes XY al nuevo centro de coordenadas (x, y). Queda ası́ dividida la nube de puntos en cuatro cuadrantes como se observa en la figura 3.1. Los puntos que se encuentran en el primer y tercer cuadrante contribuyen positivamente al valor de SXY , y los que se encuentran en el segundo y el cuarto lo hacen negativamente. De este modo: Si hay mayorı́a de puntos en el tercer y primer cuadrante, ocurrirá que SXY ≥ 0, lo que se puede interpretar como que la variable Y tiende a aumentar cuando lo hace X; 3.4. COVARIANZA 79 . − Y + − Y + ( −x , − y) ( −x , − y) X + − X + − Cuando X crece, Y crece Cuando X crece, Y decrece Casi todos los puntos pertenecen a los cuadrantes primero y tercero Casi todos los puntos pertenecen a los cuadrantes segundo y cuarto . Figura 3.1: Interpretación geométrica de SXY Si la mayorı́a de puntos están repartidos entre el segundo y cuarto cuadrante entonces SXY ≤ 0, es decir, las observaciones Y tienen tendencia a disminuir cuando las de X aumentan; Si los puntos se reparten con igual intensidad alrededor de (x, y), entonces se tendrá que SXY = 0. Véase la figura 3.2 como ilustración. 80 Bioestadı́stica: Métodos y Aplicaciones . S =0 xy Las dos variables son independientes. S xy =0 Hay dependencia entre las dos variables, aunque la covarianza sea nula. . Figura 3.2: Cuando los puntos se reparte de modo más o menos homogéneo entre los cuadrantes primero y tercero, y segundo y cuarto, se tiene que SXY ≈ 0. Eso no quiere decir de ningún modo que no pueda existir ninguna relación entre las dos variables, ya que ésta puede existir como se aprecia en la figura de la derecha. La Covarianza • Si SXY > 0 las dos variables crecen o decrecen a la vez (nube de puntos creciente). • Si SXY < 0 cuando una variable crece, la otra tiene tendencia a decrecer (nube de puntos decreciente). • Si los puntos se reparten con igual intensidad alrededor de (x, y), SXY = 0 (no hay relación lineal). 3.5. COEFICIENTE DE CORRELACIÓN LINEAL DE PEARSON 3.5. 81 Coeficiente de correlación lineal de Pearson La covarianza es una medida de la variabilidad común de dos variables (crecimiento de ambas al tiempo o crecimiento de una y decremimiento de la otra), pero está afectada por las unidades en las que cada variable se mide. Ası́ pues, es necesario definir una medida de la relación entre dos variables, y que no esté afectada por los cambios de unidad de medida. Una forma de conseguir este objetivo es dividir la covarianza por el producto de las desviaciones tı́picas de cada variable, ya que ası́ se obtiene un coeficiente adimensional, r, que se denomina coeficiente de correlación lineal de Pearson r= SXY SX SY (3.1) Propiedades del coeficiente de correlación lineal Carece de unidades de medida (adimensional). Es invariante para transformaciones lineales (cambio de origen y escala) de las variables. Sólo toma valores comprendidos entre −1 y 1, Cuando |r| esté próximo a uno, se tiene que existe una relación lineal muy fuerte entre las variables. Cuando r ≈ 0, puede afirmarse que no existe relación lineal entre ambas variables. Se dice en este caso que las variables son incorreladas. 3.6. Regresión Las técnicas de regresión permiten hacer predicciones sobre los valores de cierta variable Y (dependiente), a partir de los de otra X (independiente), entre las que intuimos que existe una relación. Para ilustrarlo retomemos 82 Bioestadı́stica: Métodos y Aplicaciones r=1 r=0,97 r=−1 r=0,53 r=−0,97 r=0 Figura 3.3: r = ±1 es lo mismo que decir que las observaciones de ambas variables están perfectamente alineadas. El signo de r, es el mismo que el de SXY , por tanto nos indica el crecimiento o decrecimiento de la recta. La relación lineal es tanto más perfecta cuanto r está cercano a ±1. los ejemplos mencionados al principio del capı́tulo. Si sobre un grupo de personas observamos los valores que toman las variables X ≡ Y ≡ altura medida en centı́metros, (3.2) altura medida en metros, (3.3) no es necesario hacer grandes esfuerzos para intuir que la relación que hay entre ambas es: Y = X . 100 Obtener esta relación es menos evidente cuando lo que medimos sobre el mismo grupo de personas es 3.6. REGRESIÓN 83 X ≡ Y ≡ altura medida en centı́metros, peso en kilogramos. La razón es que no es cierto que conocida la altura xi de un individuo, podamos determinar de modo exacto su peso yi (v.g. dos personas que miden 1, 70m pueden tener pesos de 60 y 65 kilos). Sin embargo, alguna relación entre ellas debe existir, pues parece mucho más probable que un individuo de 2m pese más que otro que mida 1, 20m. Es más, nos puede parecer más o menos aproximada una relación entre ambas variables como la siguiente Y = X − 110 ± error. A la deducción, a partir de una serie de datos, de este tipo de relaciones entre variables, es lo que denominamos regresión. Mediante las técnicas de regresión inventamos una variable Ŷ como función de otra variable X (o viceversa), Ŷ = f (X). Esto es lo que denominamos relación funcional. El criterio para construir Ŷ , tal como citamos anteriormente, es que la diferencia entre Y e Ŷ sea pequeña. Ŷ = f (X), Y − Ŷ = error, El término que hemos denominado error debe ser tan pequeño como sea posible (figura 3.4). El objetivo será buscar la función (también denominada modelo de regresión) Ŷ = f (X) que lo minimice. Véase la figura 3.5. 84 Bioestadı́stica: Métodos y Aplicaciones , Observacion (x , y ) i i Y , Aproximacion y=f(x) ( x i , y i) X Figura 3.4: Mediante las técnicas de regresión de una variable Y sobre una variable X, buscamos una función que sea una buena aproximación de una nube de puntos (xi , yi ), mediante una curva del tipo Ŷ = f (X). Para ello hemos de asegurarnos de que la diferencia entre los valores yi e ŷi sea tan pequeña como sea posible. 3.6.1. Bondad de un ajuste Consideremos un conjunto de observaciones sobre n individuos de una población, en los que se miden ciertas variables X e Y : X ❀ x1 , x2 , . . . , xn Y ❀ y1 , y2 , . . . , yn Estamos interesamos en hacer regresión para determinar, de modo aproximado, los valores de Y conocidos los de X, debemos definir cierta variable Ŷ = f (X), que debe tomar los valores Ŷ ❀ŷ1 = f (x1 ), ŷ2 = f (x2 ), . . . , ŷn = f (xn ) de modo que: 3.6. REGRESIÓN Modelo lineal Buen ajuste 85 Modelo lineal Mal ajuste Modelo no lineal Buen ajuste Cuando x crece, y crece Cuando x crece, y crece Modelo lineal Buen ajuste Cuando x crece, y decrece Cuando x crece, y crece Modelo no lineal Buen ajuste Variables no relacionadas Ninguna curva de regresion es adecuada Cuando x crece, y decrece Figura 3.5: Diferentes nubes de puntos y modelos de regresión para ellas. Y − Ŷ ❀y1 − ŷ1 ≈ 0, y2 − ŷ2 ≈ 0, . . . , yn − ŷn ≈ 0 Ello se puede expresar definiendo una nueva variable E que mida las diferencias entre los auténticos valores de Y y los teóricos suministrados por la regresión, E = Y − Ŷ ❀e1 = y1 − ŷ1 , e2 = y2 − ŷ2 , . . . , en = yn − ŷn y calculando Ŷ de modo que E tome valores cercanos a 0. Dicho de otro modo, E debe ser una variable cuya media debe ser 0 , y cuya varianza SE2 debe ser pequeña (en comparación con la de Y ). Por ello se define el 86 Bioestadı́stica: Métodos y Aplicaciones coeficiente de determinación de la regresión de Y sobre X, RY2 |X , como RY2 |X = 1 − SE2 SY2 (3.4) Si el ajuste de Y mediante la curva de regresión Ŷ = f (X) es bueno, cabe esperar que la cantidad RY2 |X tome un valor próximo a 1. La cantidad RY2 |X sirve entonces para medir de qué modo las diferencias entre los verdaderos valores de una variable y los de su aproximación mediante una curva de regresión son pequeños en relación con los de la variabilidad de la variable que intentamos aproximar. Por esta razón estas cantidades miden el grado de bondad del ajuste. 3.6.2. Regresión lineal La regresión lineal consiste en encontrar aproximar los valores de una variable a partir de los de otra, usando una relación funcional de tipo lineal, es decir, buscamos cantidades a y b tales que se pueda escribir Ŷ = a + b · X (3.5) con el menor error posible entre Ŷ e Y . Las cantidades a y b que minimizan dicho error son los llamados coeficientes de regresión: a = y − bx b= SXY 2 SX La cantidad b se denomina coeficiente de regresión de Y sobre X. En el modelo lineal de regresión la bondad del ajuste es simplemente r2 . Con lo cual el modelo lineal dará mejores predicciones cuando r sea próximo a 1 ó -1. 3.6. REGRESIÓN 87 Interpretación de los coeficientes de regresión Obsérvese que la relación 3.5 explica cosas como que si X varı́a en 1 unidad, Ŷ varı́a la cantidad b. Por tanto: Si b > 0, las dos variables aumentan o disminuyen a la vez; Si b < 0, cuando una variable aumenta, la otra disminuye. Ejemplo de cálculo con un modelo de regresión lineal En una muestra de 1.500 individuos se recogen datos sobre dos medidas antropométricas X e Y . Los resultados se muestran resumidos en los siguientes estadı́sticos: x = 14 SX = 2 y = 100 SY = 25 SXY = 45 Obtener el modelo de regresión lineal que mejor aproxima Y en función de X. Utilizando este modelo, calcular de modo aproximado la cantidad Y esperada cuando X = 15. Solución: Lo que se busca es la recta, Ŷ = a + b · X, que mejor aproxima los valores de Y (según el criterio de los mı́nimos cuadrados) en la nube de puntos que resulta de representar en un plano (X, Y ) las 1.500 observaciones. Los coeficientes de esta recta son: b= SXY 45 2 = 4 = 11, 25 SX a = y − b · x = 100 − 11, 25 × 14 = −57, 5 Ası́, el modelo lineal consiste en: Ŷ = −57, 5 + 11, 25 · X 88 Bioestadı́stica: Métodos y Aplicaciones Por tanto, si x = 15, el modelo lineal predice un valor de Y de: ŷ = −57, 5 + 11, 25 · x = −57, 5 + 11, 25 × 15 = 111, 25 Propiedades de la regresión lineal Una vez que ya tenemos perfectamente definida Ŷ , (o bien X̂) nos preguntamos las relaciones que hay entre la media y la varianza de esta y la de Y (o la de X). La respuesta nos la ofrece la siguiente proposición: Proposición En los ajustes lineales se conservan las medias, es decir ŷ = y (3.6) x̂ = x (3.7) En cuanto a la varianza, no necesariamente son las mismas para los verdaderos valores de las variables X e Y y sus aproximaciones X̂ y Ŷ , pues sólo se mantienen en un factor de r2 , es decir, S 2 Ŷ S 2 X̂ = r2 SY2 = r 2 2 SX (3.8) (3.9) Observación Como consecuencia de este resultado, podemos decir que la proporción de varianza explicada por la regresión lineal es del r2 · 100 %. Nos gustarı́a tener que r = 1, pues en ese caso ambas variables tendrı́an la misma varianza, pero esto no es cierto en general. Todo lo que se puede afirmar, como sabemos, es que −1 ≤ r ≤ 1 y por tanto 3.6. REGRESIÓN 89 0 ≤ SŶ2 ≤ SY2 La cantidad que le falta a la varianza de regresión, S 2 Ŷ , para llegar hasta la varianza total de Y , SY2 , es lo que se denomina varianza residual, Proposición La varianza residual del modelo de regresión es de Y sobre X es la varianza de la variable E = Y − Ŷ . Obsérvese que entonces La bondad del ajuste es RY2 |X = 1 − SE2 = 1 − (1 − r2 ) = r2 SY2 Para el ajuste contrario se define el error como E = X − X̂, y análogamente su varianza residual es también proporcional a 1 − r2 . Todo esto se puede resumir como sigue: Proposición Para los ajustes de tipo lineal se tiene que los dos coeficientes de determinación son iguales a r2 , y por tanto representan además la proporción de varianza explicada por la regresión lineal: 2 RX = r2 = RY2 |X |Y Por ello: Si | r |≈ 1 el ajuste es bueno (Y se puede calcular de modo bastante aproximado a partir de X y viceversa). Si | r |≈ 0 las variables X e Y no están relacionadas (linealmente al menos), por tanto no tiene sentido hacer un ajuste lineal. Sin embargo 90 Bioestadı́stica: Métodos y Aplicaciones no es seguro que las dos variables no posean ninguna relación en el caso r = 0, ya que si bien el ajuste lineal puede no ser procentente, tal vez otro tipo de ajuste sı́ lo sea. Ejemplo De una muestra de ocho observaciones conjuntas de valores de dos variables X e Y , se obtiene la siguiente información: X X xi = 24; xi yi = 64; SY2 = 12; X yi = 40; 2 SX = 6. Calcule: 1. La recta de regresión de Y sobre X. Explique el significado de los parámetros. 2. El coeficiente de determinación. Comente el resultado e indique el tanto por ciento de la variación de Y que no está explicada por el modelo lineal de regresión. 3. Si el modelo es adecuado, ¿cuál es la predicción ŷ para x = 4. Solución: 1. En primer lugar calculamos las medias y las covarianza entre ambas variables: x = x = SXY X X xi /n = 24/8 = 3 yi /n = 40/8 = 5 X = ( xi yi )/n − xy = 64/8 − 3 × 5 = −7 (3.10) 3.6. REGRESIÓN 91 Con estas cantidades podemos determinar los parámetros a y b de la recta. La pendiente de la misma es b, y mide la variación de Y cuando X aumenta en una unidad: b= SXY −7 = = −1, 667 2 6 SX Al ser esta cantidad negativa, tenemos que la pendiente de la recta es negativa, es decir, a medida que X aumenta, la tendencia es a la disminución de Y . En cuanto al valor de la ordenada en el origen, a, tenemos: a=y−b·x=5−( −7 ) × 3 = 8, 5 6 Ası́, la recta de regresión de Y como función de X es: Ŷ = 8, 5 − 1, 1667 · X 2. El grado de bondad del ajuste lo obtenemos a partir del coeficiente de determinación: RY2 /X 2 =r = SXY SX · SY 2 = (−7)2 = 0, 6805 = 68, 05 % 6 × 12 Es decir, el modelo de regresión lineal explica el 68 % de la variabilidad de Y en función de la de X. Por tanto queda un 32 % de variabilidad no explicada. 3. La predicción que realiza el modelo lineal de regresión para x = 4 es: ŷ = 8, 5 − 1, 1667 · x = 8, 5 − 1, 6667 × 4 = 3, 833 la cual hay que considerar con ciertas reservas, pues como hemos visto en el apartado anterior,hay una razonable cantidad de variabilidad que no es explicada por el modelo. 92 Bioestadı́stica: Métodos y Aplicaciones Ejemplo de cálculo en regresión lineal En un grupo de 8 pacientes se miden las cantidades antropométricas peso y edad, obteniéndose los siguientes resultados: X ≡ edad Y ≡ peso Resultado de las mediciones 8 10 11 7 7 10 14 42 51 54 40 39 49 56 12 58 ¿Existe una relación lineal importante entre ambas variables? Calcular la recta de regresión de la edad en función del peso y la del peso en función de la edad. Calcular la bondad del ajuste ¿En qué medida, por término medio, varı́a el peso cada año? ¿En cuánto aumenta la edad por cada kilo de peso? Solución: Para saber si existe una relación lineal entre ambas variables se calcula el coeficiente de correlación lineal, que vale: r= 15, 2031 SXY = = 0, 9431 SX SY 2, 3150 × 6, 9631 ya que 8 X xi = 79 =⇒ x = 79 = 9, 875 años 8 yi = 389 =⇒ y = 389 = 48, 625 Kg 8 i=1 8 X i=1 8 X i=1 8 X i=1 8 X i=1 2 x2i = 823 =⇒ SX = 823 − 9, 8752 = 5, 3594 años2 8 =⇒ SX = 2, 3150 años yi2 = 19,303 =⇒ SY2 = 19,303 − 48, 6252 = 48, 4844 Kg2 8 =⇒ SY = 6, 9631 Kg xi yi = 3,963 =⇒ SXY = 3,963 − 9, 875 × 48, 625 = 15, 2031 Kg · año 8 3.6. REGRESIÓN 93 Por tanto el ajuste lineal es muy bueno. Se puede decir que el ángulo entre el vector formado por las desviaciones del peso con respecto a su valor medio y el de la edad con respecto a su valor medio, θ, es: r = cos θ =⇒ θ = arc cos r ≈ 19◦ es decir, entre esos vectores hay un buen grado de paralelismo (sólo unos 19 grados de desviación). La recta de regresión del peso en función de la edad es Ŷ = a1 + b1 X = 20, 6126 + 2, 8367 · X a1 = y − b1 x = 20, 6126 Kg SXY b1 = 2 = 2, 8367 Kg/año SX (3.11) La recta de regresión de la edad como función del peso es X̂ = a2 + b2 Y = −5, 3738 + 0, 3136 · Y a2 = x − b2 y = −5, 3738 años SXY b2 = = 0, 3136 años/Kg SY2 que como se puede comprobar, no resulta de despejar en la recta de regresión de Y sobre X. La bondad del ajuste es 2 = RY2 |X = r2 = 0, 8894 RX |Y por tanto podemos decir que el 88, 94 % de la variabilidad del peso en función de la edad es explicada mediante la recta de regresión correspondiente. Lo mismo podemos decir en cuanto a la variabilidad de la edad en función del peso. Del mismo modo puede decirse que hay un 100 − 88, 94 % = 11, 06 % de varianza que no es explicada por las rectas 94 Bioestadı́stica: Métodos y Aplicaciones de regresión. Por tanto la varianza residual de la regresión del peso en función de la edad es SE2 = (1 − r2 ) · SY2 = 0, 1106 × 48, 4844 = 5, 33 Kg2 y la de la edad en función del peso: 2 SE2 = (1 − r2 ) · SX = 0, 1106 × 5, 3594 = 0, 59 años2 Por último la cantidad en que varı́a el peso de un paciente cada año es, según la recta de regresión del peso en función de la edad, la pendiente de esta recta, es decir, b1 = 2, 8367 Kg/año. Cuando dos personas difieren en peso, en promedio la diferencia de edad entre ambas se rige por la cantidad b2 = 0, 3136 años/Kg de diferencia. 3.7. Problemas Ejercicio 3.1. Se realiza un estudio para establecer una ecuación mediante la cual se pueda utilizar la concentración de estrona en saliva(X) para predecir la concentración del esteroide en plasma libre (Y ). Se extrajeron los siguientes datos de 14 varones sanos: X Y 1,4 30 7,5 25 8,5 31,5 9 27,5 9 39,5 11 38 13 43 14 49 14,5 55 16 48,5 17 51 18 64,5 20 63 1. Estúdiese la posible relación lineal entre ambas variables. 2. Obtener la ecuación que se menciona en el enunciado del problema. 3. Determinar la variación de la concentración de estrona en plasma por unidad de estrona en saliva. Ejercicio 3.2. Los investigadores están estudiando la correlación entre obesidad y la respuesta individual al dolor. La obesidad se mide como porcentaje sobre el peso ideal (X). La respuesta al dolor se mide utilizando el 23 68 3.7. PROBLEMAS 95 umbral de reflejo de flexión nociceptiva (Y ), que es una medida de sensación de punzada. Se obtienen los siguientes datos: X Y 89 2 90 3 75 4 30 4,5 51 5,5 75 7 62 9 45 13 90 15 20 14 1. ¿Qué porcentaje de la varianza del peso es explicada mediante un modelo de regeseión lineal por la variación del umbral de reflejo? 2. Estúdiese la posible relación lineal entre ambas variables, obteniendo su grado de ajuste. 3. ¿Qué porcentaje de sobrepeso podemos esperar para un umbral de reflejo de 10? Ejercicio 3.3. Se lleva a cabo un estudio, por medio de detectores radioactivos, de la capacidad corporal para absorber hierro y plomo. Participan en el estudio 10 sujetos. A cada uno se le da una dosis oral idéntica de hierro y plomo. Después de 12 dı́as se mide la cantidad de cada componente retenida en el sistema corporal y, a partir de ésta, se determina el porcentaje absorbido por el cuerpo. Se obtuvieron los siguientes datos: Porcentaje de hierro ≡ X Porcentaje de plomo ≡ Y 17 8 22 17 35 18 43 25 80 58 85 59 91 41 92 30 96 43 100 58 1. Comprobar la idoneidad del modelo lineal de regresión. 2. Obtener la recta de regresión, si el modelo lineal es adecuado. 3. Predecir el porcentaje de hierro absorbido por un individuo cuyo sistema corporal absorbe el 15 % del plomo ingerido. 96 Bioestadı́stica: Métodos y Aplicaciones Ejercicio 3.4. Para estudiar el efecto de las aguas residuales de las alcantarillas que afluyen a un lago, se toman medidas de la concentración de nitrato en el agua. Para monitorizar la variable se ha utilizado un antiguo método manual. Se idea un nuevo método automático. Si se pone de manifiesto una alta correlación positiva entre las medidas tomadas empleando los dos métodos, entonces se hará uso habitual del método automático. Los datos obtenidos son los siguientes: Manual ≡ X Automático ≡ Y 25 30 40 80 120 150 75 80 150 200 300 350 270 240 400 320 450 470 575 583 1. Hallar el coeficiente de determinación para ambas variables. 2. Comprobar la idoneidad del modelo lineal de regresión. Si el modelo es apropiado, hallar la recta de regresión de Y sobre X y utilizarla para predecir la lectura que se obtendrı́a empleando la técnica automática con una muestra de agua cuya lectura manual es de 100. 3. Para cada una de las observaciones, halle las predicciones que ofrece el modelo lineal de regresión para X en función de Y , e Y en función de X, es decir, X̂ e Ŷ . 4. Calcule los errores para cada una de dichas predicciones, es decir, las variables X − X̂ e Y − Ŷ . 5. ¿Que relación hay entre las medias de X y X̂? ¿Y entre las de Y e Ŷ ? 6. Calcule las medias de X − X̂ e Y − Ŷ . ¿Era de esperar el valor obtenido? 7. Calcule las varianzas de X, X̂, Y , Ŷ , X − X̂ e Y − Ŷ . 2 y S 2 ¿Y entre S 2 y S 2 ? 8. ¿Qué relación existe entre SX Y X̂ Ŷ 2 y S2 9. ¿Que relación ecuentra entre SX ? ¿También es válida para X−X̂ 2 2 SY y SY −Ŷ ? 3.7. PROBLEMAS 97 10. Justifique a partir de todo lo anterior porqué se denomina r2 como grado de bondad del ajuste lineal. Ejercicio 3.5. Se ha medido el aclaramiento de creatinina en pacientes tratados con Captopril tras la suspensión del tratamiento con diálisis, resultando la siguiente tabla: Dı́as tras la diálisis ≡ X Creatinina (mg/dl) ≡ Y 1 5,7 5 5,2 10 4,8 15 4,5 20 4,2 25 4 35 3,8 1. Hállese la expresión de la ecuación lineal que mejor exprese la variación de la creatinina, en función de los dias transcurridos tras la diálisis, ası́ como el grado de bondad de ajuste y la varianza residual. 2. ¿En qué porcentaje la variación de la creatinina es explicada por el tiempo transcurrido desde la diálisis? 3. Si un individuo presenta 4′ 1 mg/dl de creatinina, ¿cuánto tiempo es de esperar que haya transcurrido desde la suspensión de la diálisis? Ejercicio 3.6. En un ensayo clı́nico realizado tras el posible efecto hipotensor de un fármaco, se evalúa la tensión arterial diastólica (TAD) en condiciones basales (X), y tras 4 semanas de tratamiento (Y ), en un total de 14 pacientes hipertensos. Se obtienen los siguiente valores de TAD: X Y 95 85 100 94 102 84 104 88 100 85 95 80 95 80 98 92 102 90 96 76 100 90 96 87 110 102 99 89 1. ¿Existe relación lineal entre la TAD basal y la que se observa tras el tratamiento? 2. ¿Cuál es el valor de TAD esperado tras el tratamiento, en un paciente que presentó una TAD basal de 95 mm de Hg? 98 Bioestadı́stica: Métodos y Aplicaciones Ejercicio 3.7. Se han realizado 9 tomas de presión intracraneal en animales de laboratorio, por un método estándar directo y por una nueva técnica experimental indirecta, obteniéndose los resultados siguientes en mm de Hg: Método estándar ≡ X Método experimental ≡ Y 9 6 12 10 28 27 72 67 30 25 38 35 76 75 26 27 52 53 1. Hallar la ecuación lineal que exprese la relación existente entre las presiones intracraneales, determinadas por los dos métodos. 2. ¿Qué tanto por ciento de la variabilidad de Y es explicada por la regresión? Hállese el grado de dependencia entre las dos variables y la varianza residual del mismo. Capı́tulo 4 Cálculo de probabilidades y variables aleatorias 4.1. introducción Si el único propósito del investigador es describir los resultados de un experimento concreto, los métodos analizados en los capı́tulos anteriores pueden considerarse suficientes. No obstante, si lo que se pretende es utilizar la información obtenida para extraer conclusiones generales sobre todos aquellos objetos del tipo de los que han sido estudiados, entonces estos métodos constituyen sólo el principio del análisis, y debe recurrirse a métodos de inferencia estadı́stica, los cuales implican el uso inteligente de la teorı́a de la probabilidad. Comenzamos este bloque interpretando la noción de probabilidad y la terminologı́a subyacente a esta área de las matemáticas, ya que la probabilidad constituye por sı́ misma un concepto básico que refleja su relación con la faceta del mundo exterior que pretende estudiar: los fenómenos aleatorios, los cuales obedecen unas ciertas reglas de comportamiento. De alguna manera, el concepto de probabilidad, se relaciona o nos recuerda las propiedades de la frecuencia relativa. A partir de ella, y junto con las definiciones de probabilidad condicionada y la de sucesos independientes, se deducen los teoremas fundamentales 99 100 Bioestadı́stica: Métodos y Aplicaciones del Cálculo de Probabilidades. Nos centraremos posteriormente en el eslabón que une la teorı́a de la probabilidad y la estadı́stica aplicada: la noción de variable aleatoria, mostrando de esta manera, como puede emplearse la teorı́a de la probabilidad para sacar conclusiones precisas acerca de una población en base a una muestra extraı́da de ella, y que muchos de los estudios estadı́sticos son de hecho, estudio de las propiedades de una o más variables aleatorias. Tal como hemos citado anteriormente, en las aplicaciones prácticas es importante poder describir los rasgos principales de una distribución, es decir, caracterizar los resultados del experimento aleatorio mediante unos parámetros. Llegamos ası́ al estudio de las caracterı́sticas asociadas a una variable aleatoria introduciendo los conceptos de esperanza y varianza matemática, relacionándolos con los conceptos de media y varianza de una variable estadı́stica. El cálculo de probabilidades nos suministra las reglas para el estudio de los experimentos aleatorios o de azar, constituyendo la base para la estadı́stica inductiva o inferencial. Para trabajar con el cálculo de probabilidades es necesario fijar previamente cierta terminologı́a. Vamos a introducir parte de ella en las próximas lı́neas. 4.2. Experimentos y sucesos aleatorios Diremos que un experimento es aleatorio si se verifican las siguientes condiciones: 1. Se puede repetir indefinidamente, siempre en las mismas condiciones; 2. Antes de realizarlo, no se puede predecir el resultado que se va a obtener; 3. El resultado que se obtenga, e, pertenece a un conjunto conocido 4.2. EXPERIMENTOS Y SUCESOS ALEATORIOS 101 previamente de resultados posibles. A este conjunto, de resultados posibles, lo denominaremos espacio muestral y lo denotaremos normalmente mediante la letra E. Los elementos del espacio muestral se denominan sucesos elementales. e1 , e2 ∈ E =⇒ e1 , e2 son sucesos elementales. Cualquier subconjunto de E será denominado suceso aleatorio, y se denotará normalmente con las letras A, B,. . . A, B ⊂ E 4.2.1. =⇒ A, B son sucesos aleatorios. Operaciones básicas con sucesos aleatorios Al ser los sucesos aleatorios nada más que subconjuntos de un conjunto E —espacio muestral—, podemos aplicarles las conocidas operaciones con conjuntos, como son la unión, intersección y diferencia: Unión: Dados dos sucesos aleatorios A, B ⊂ E, se denomina suceso unión de A y B al conjunto formado por todos los sucesos elementales que pertenecen a A o bien que pertenecen a B (incluyendo los que están en ambos simultáneamente), es decir A∪B = {e ∈ E : e ∈ A ó e ∈ B} (4.1) Intersección: Dados dos sucesos aleatorios A, B ⊂ E, se denomina suceso intersección de A y B al conjunto formado por todos los sucesos elementales que pertenecen a A y B a la vez, es decir, A∩B = {e ∈ E : e ∈ A y además e ∈ B} (4.2) 102 Bioestadı́stica: Métodos y Aplicaciones Diferencia: Dados dos sucesos aleatorios A, B ⊂ E, se llama suceso diferencia de A y B, y se representa mediante A\B, o bien A − B, al suceso aleatorio formado por todos los sucesos elementales que pertenecen a A, pero no a B: A\B ≡ A − B = {e ∈ E : e ∈ A y además e ∈ / B} = A∩B (4.3) Diferencia simétrica: Si A, B ⊂ E, se denomina suceso diferencia simétrica de A y B, y se representa mediante A△B, al suceso aleatorio formado por todos los sucesos elementales que pertenecen a A y no a B, y los que están en B y no en A: A△B = (A\B)∪(B\A) = (A∪B)\(A∩B) 4.3. (4.4) Experimentos aleatorios y probabilidad Se denominan experimentos deterministas aquellos que realizados de una misma forma y con las mismas condiciones iniciales, ofrecen siempre el mismo resultado. Como ejemplo, tenemos que un objeto de cualquier masa partiendo de un estado inicial de reposo, y dejado caer al√vacı́o desde una torre, llega siempre al suelo con la misma velocidad: v = 2 g h. Cuando en un experimento no se puede predecir el resultado final, hablamos de experimento aleatorio. Este es el caso cuando lanzamos un dado y observamos su resultado. 4.3.1. Noción frecuentista de probabilidad En los experimentos aleatorios se observa que cuando el número de experimentos aumenta, las frecuencias relativas con las que ocurre cierto suceso e, fn (e), 4.3. EXPERIMENTOS ALEATORIOS Y PROBABILIDAD (a) E (b) E B B A A (c) E 103 (d) E B B A A Figura 4.1: Dados dos sucesos aleatorios A, B ⊂ E se representa: en (a) A∪B; en (b) A∩B; en (c) A − B; en (d) A△B. fn (e) = número de ocurrencias de e n tiende a converger hacia cierta cantidad que denominamos probabilidad de e. Esta es la noción frecuentista de probabilidad. Prob [e] = lı́m fn (e) n→∞ En la Figura 4.2 se presenta la evolución de la frecuencia relativa del número de caras obtenido en el lanzamiento de una moneda en 100 ocasiones 104 Bioestadı́stica: Métodos y Aplicaciones (simulado por un ordenador). En principio la evolución de las frecuencias relativas es errática, pero a medida que el número de tiradas aumenta, tiende a lo que entendemos por probabilidad de cara. 0.6 0.5 frecuencia de caras 0.4 0.3 0.2 0.1 0 0 10 20 30 40 50 60 Lanzamientos de moneda 70 80 90 100 Figura 4.2: Convergencia a 1/2 de la frecuencia relativa del número de caras obtenido en lanzamientos sucesivos de una moneda (simulación en ordenador). Problemas de la noción frecuentista de probabilidad La noción frecuentista de probabilidad no puede usarse en la práctica como definición de la probabilidad por que:: se requiere realizar un número infinito de veces un experimento para calcular una probabilidad. Por ejemplo, lanzar infinitas veces un 4.3. EXPERIMENTOS ALEATORIOS Y PROBABILIDAD 105 dado para ver que las frecuencias relativas de la aparición de cada cara convergen a 1/6. Esto puede suplirse en la práctica realizando el experimento un número suficientemente elevado de veces, hasta que tengamos la precisión que requieran nuestros cálculos. Sin embargo, los experimentos aleatorios a veces no pueden ser realizados, como es el caso de calcular la probabilidad de morir jugando a la ruleta rusa con un revolver: no es posible (o no se debe) calcular esta probabilidad repitiendo el experimento un número indefinidamente alto de veces para aproximarla mediante la frecuencia relativa). Para ello existen métodos mucho más seguros, como los que mencionaremos a continuación. 4.3.2. Probabilidad de Laplace Si un experimento cualquiera puede dar lugar a un número finito de resultados posibles, y no existe ninguna razón que privilegie unos resultados en contra de otros, se calcula la probabilidad de un suceso aleatorio A, según la regla de Laplace como el cociente entre el número de casos favorables a A, y el de todos los posibles resultados del experimento: P[A] = 4.3.3. número de casos favorables a A número de casos posibles Definición axiomática de probabilidad Para hacer una definición rigurosa de la probabilidad, necesitamos precisar ciertas leyes o axiomas que deba cumplir una función de probabilidad. Con la definición axiomática de la probabilidad pretendemos dar el menor conjunto posible de estas reglas, para que las demás se deduzcan como una simple consecuencia de ellas. Concepto axiomático de probabilidad Dado un espacio muestral E, diremos que P es una probabilidad sobre A si las siguientes propiedades (axiomas) son verificadas: 106 Bioestadı́stica: Métodos y Aplicaciones Ax-1. La probabilidad es una función definida sobre A y que sólo toma valores positivos comprendidos entre 0 y 1 P : A −→ [0, 1] ⊂ IR A ⊂ E, A ∈ A 7−→ 0 ≤ P[A] ≤ 1 Ax-2. La probabilidad del suceso seguro es 1 P[E] = 1 Ax-3. La probabilidad de la unión numerable de sucesos disjuntos es la suma de sus probabilidades (figura 4.3): A1 , A2 , . . . , An , . . . ∈ A =⇒ P "∞ [ # Ai = i=1 ∞ X i=1 P[Ai ] A A1 A2 A3 A 5 A4 Figura 4.3: El tercer axioma de probabilidad indica que si A = A1 ∪A2 ∪ · · · con Ai ∩Aj = ∅, entonces P[A] = P[A1 ] + P[A2 ] + · · · 4.4. Probabilidad condicionada e independencia de sucesos Sea B ⊂ E un suceso aleatorio de probabilidad no nula, P[B] > 0. Para cualquier otro suceso A ⊂ E, llamamos probabilidad condicionada de 4.4. PROBABILIDAD CONDICIONADA E INDEPENDENCIA DE SUCESOS107 A a B a la cantidad que representamos mediante P[A|B ] o bien PB [A] y que se calcula como: P[A|B ] = P[A∩B] P[B] Ejemplo de cálculo de probabilidades condicionadas Se lanza un dado al aire ¿Cuál es la probabilidad de que salga el número 4? Si sabemos que el resultado ha sido un número par, ¿se ha modificado esta probabilidad? Solución: El espacio muestral que corresponde a este experimento es E = {1, 2, 3, 4, 5, 6} y se ha de calcular la probabilidad del suceso A = {4}. Si el dado no está trucado, todos los números tienen la misma probabilidad de salir, y siguiendo la definición de probabilidad de Laplace, P[A] = = = casos favorables casos posibles número de elementos en {4} número de elementos en {1, 2, 3, 4, 5, 6} 1 6 (4.5) Obsérvese que para calcular la probabilidad de A según la definición de Laplace hemos tenido que suponer previamente que todos los elementos del espacio muestral tienen la misma probabilidad de salir, es decir: P[1] = P[2] = P[3] = P[4] = P[5] = P[6] Por otro lado, si ha salido un número par, de nuevo por la definición de probabilidad de Laplace tendrı́amos 108 Bioestadı́stica: Métodos y Aplicaciones Ppar [4] = = = casos favorables casos posibles número de elementos en {4} número de elementos en {2, 4, 6} 1 3 Esta misma probabilidad se podrı́a haber calculado siguiendo la definición de la probabilidad condicionada, ya que si escribimos A = {4} ⇒ B = {2, 4, 6} ⇒ A∩B = {4} ⇒ 1 6 3 1 1 1 1 P[B] = + + = = 6 6 6 6 2 1 P[A∩B] = 6 P[A] = (4.6) y entonces Ppar [4] = PB [A] = P[A|B ] = 1/6 1 P[A∩B] = = P[B] 1/2 3 que por supuesto coincide con el mismo valor que calculamos usando la definición de probabilidad de Laplace. Independencia Obsérvese que según la definición de probabilidad condicionada, se puede escribir la probabilidad de la intersección de dos sucesos de probabilidad no nula como P[A∩B] =    P[A] · P[B|A ]   P[B] · P[A ] |B 4.5. TEOREMAS FUNDAMENTALES DEL CÁLCULO DE PROBABILIDADES109 O sea, la probabilidad de la intersección de dos sucesos, es la probabilidad de uno cualquiera de ellos, multiplicada por la probabilidad del segundo sabiendo que ha ocurrido el primero. Si entre dos sucesos no existe ninguna relación cabe esperar que la expresión “sabiendo que” no aporte ninguna información. De este modo introducimos el concepto de independencia de dos sucesos A y B como: A es independiente de B 4.5. ⇐⇒ P[A∩B] = P[A] · P[B] Teoremas fundamentales del cálculo de probabilidades Hay algunos resultados importantes del cálculo de probabilidades que son conocidos bajo los nombres de teorema de la probabilidad compuesta, teorema de la probabilidad total y teorema de Bayes. Veamos cuales son estos teoremas, pero previamente vamos a enunciar a modo de recopilación, una serie de resultados elementales. Reglas de cálculo de probabilidades básicas Sean A, B ⊂ E no necesariamente disjuntos. Se verifican entonces las siguientes propiedades: 1. Probabilidad de la unión de sucesos: P[A∪B] = P[A] + P[B] − P[A∩B] (4.7) 2. Probabilidad de la intersección de sucesos: P[A∩B] =    P[A] · P[B|A ]   P[B] · P[A ] |B (4.8) 110 Bioestadı́stica: Métodos y Aplicaciones 3. Probabilidad del suceso contrario: P[A] = 1 − P[A] (4.9) 4. Probabilidad condicionada del suceso contrario: P[A|B ] = 1 − P[A|B ] (4.10) Ejemplo de cálculo de probabilidades con intersecciones En una universidad el 50 % de los alumnos habla inglés, el 20 % francés y el 5 % los dos idiomas ¿Cuál es la probabilidad de encontrar alumnos que hablen alguna lengua extranjera? Solución: Sea A el suceso hablar inglés: P[A] = 0, 5. Sea B el suceso hablar francés: P[B] = 0, 2. El suceso hablar francés e inglés es A∩B: P[A∩B] = 0, 05. Ası́: P[A∪B] = P[A] + P[B] − P[A∩B] = 0, 5 + 0, 2 − 0, 05 = 0, 65 4.5.1. Teorema de la probabilidad compuesta Sea A1 , A2 , . . . , An ⊂ E una colección de sucesos aleatorios. Entonces: P[A1 A2 · · · An ] = P[A1 ] · P[A2 | A1 ] · P[A3 | A1 A2 ] · · · P[An | A1 A2 · · · An−1 ] 4.5.2. Sistema exhaustivo y excluyente de sucesos Los teoremas que restan nos dicen como calcular las probabilidades de sucesos cuando tenemos que el suceso seguro está descompuesto en una serie de sucesos incompatibles de los que conocemos su probabilidad. Para ello necesitamos introducir un nuevo concepto: Se dice que la colección 4.5. TEOREMAS FUNDAMENTALES DEL CÁLCULO DE PROBABILIDADES111 E A1 A2 A 3 A 4 Figura 4.4: A1 , A2 , A3 , A4 forman un sistema exhaustivo y excluyente se sucesos. A1 , A2 , . . . , An ⊂ E es un sistema exhaustivo y excluyente de sucesos si se verifican las relaciones (véase la figura 4.4): n [ Ai = E i=1 Ai ∩Aj = ∅ 4.5.3. ∀ i 6= j Teorema de la probabilidad total Sea A1 , A2 , . . . , An ⊂ E un sistema exhaustivo y excluyente de sucesos. Entonces ∀ B ⊂ E, ⇒ P[B] = n X i=1 P[B|Ai ] · P[Ai ] (4.11) 112 Bioestadı́stica: Métodos y Aplicaciones Ejemplo de cálculo usando el teorema de la probabilidad total Se tienen dos urnas, y cada una de ellas contiene un número diferente de bolas blancas y rojas: Primera urna, U1 : 3 bolas blancas y 2 rojas; Segunda urna, U2 : 4 bolas blancas y 2 rojas. Se realiza el siguiente experimento aleatorio: Se tira una moneda al aire y si sale cara se elige una bola de la primera urna, y si sale cruz de la segunda. ¿Cuál es la probabilidad de que salga una bola blanca? Solución: La situación que tenemos puede ser esquematizada como 3B 2R U1 4B 2R U2 P[U1 ] = 1/2 P[B|U1 ] = 3/5 P[U2 ] = 1/2 P[B|U2 ] = 4/6 Como U1 y U2 forman un sistema incompatible y excluyente de sucesos (la bola resultado debe provenir de una de esas dos urnas y de una sólo de ellas), el teorema de la probabilidad total nos permite afirmar entonces que P[B] = P[B|U1 ] · P[U1 ] + P[B|U2 ] · P[U2 ] = 4.5.4. 19 3 1 4 1 · + · = 5 2 6 2 30 Teorema de Bayes Sea A1 , A2 , . . . , An ⊂ E un sistema exhaustivo y excluyente de sucesos. Sea B ⊂ E un suceso del que conocemos todas las cantidades P[B|Ai ], i = 1, . . . , n, a las que denominamos verosimilitudes. entonces se verifica: 4.5. TEOREMAS FUNDAMENTALES DEL CÁLCULO DE PROBABILIDADES113 ∀ j = 1, . . . , n, P[Aj |B ] = P[B|Aj ] · P[Aj ] n X i=1 (4.12) P[B|Ai ] · P[Ai ] Ejemplo de cálculo con el teorema de Bayes Se tienen tres urnas. Cada una de ellas contiene un número diferente de bolas blancas y rojas: Primera urna, U1 : 3 bolas blancas y 2 rojas; Segunda urna, U2 : 4 bolas blancas y 2 rojas; Tercera urna, U3 : 3 bolas rojas. Se realiza el siguiente experimento aleatorio: Alguien elije al azar y con la misma probabilidad una de las tres urnas, y saca una bola. Si el resultado del experimento es que ha salido una bola blanca, ¿cuál es la probabilidad de que provenga de la primera urna? Calcular lo mismo para las otras dos urnas. Solución: Vamos a representar en un esquema los datos de que disponemos: 3B 2R U1 4B 2R U2 0B 3R U3 P[U1 ] = 1/3 P[B|U1 ] = 3/5 P[U2 ] = 1/3 P[B|U2 ] = 4/6 P[U3 ] = 1/3 P[B|U3 ] = 0 En este caso U1 , U2 y U3 forman un sistema incompatible y excluyente de sucesos (la bola resultado debe provenir de una de esas tres urnas y de una 114 Bioestadı́stica: Métodos y Aplicaciones sólo de ellas), por tanto es posible aplicar el teorema de Bayes: P[U1 |B ] = = = P[B|U1 ] · P[U1 ] P[B|U1 ] · P[U1 ] + P[B|U2 ] · P[U2 ] + P[B|U3 ] · P[U3 ] 3 1 · 5 3 3 1 4 1 1 · + · +0· 5 3 6 3 3 9 19 Con respecto a las demás urnas hacemos lo mismo: P[U2 |B ] = = = P[U3 |B ] = = P[B|U2 ] · P[U2 ] P[B|U1 ] · P[U1 ] + P[B|U2 ] · P[U2 ] + P[B|U3 ] · P[U3 ] 4 1 · 6 3 3 1 4 1 1 · + · +0· 5 3 6 3 3 10 19 P[B|U3 ] · P[U3 ] P[B|U1 ] · P[U1 ] + P[B|U2 ] · P[U2 ] + P[B|U3 ] · P[U3 ] 1 3 3 1 4 1 1 · + · +0· 5 3 6 3 3 0· = 0 Comentario sobre el teorema de Bayes Obsérvese que en el ejemplo anterior, antes de realizar el experimento aleatorio de extraer una bola para ver su resultado, tenı́amos que la probabilidad de elegir una urna i cualquiera es P[Ui ]. Estas probabilidades se 4.6. TESTS DIAGNÓSTICOS 115 denominan probabilidades a priori. Sin embargo, después de realizar el experimento, y observar que el resultado del mismo ha sido la extracción de una bola blanca, las probabilidades de cada urna han cambiado a P[Ui |B ]. Estas cantidades se denominan probabilidades a posteriori. Vamos a representar en una tabla la diferencia entre ambas: a priori P[U1 ] = 1/3 P[U2 ] = 1/3 P[U3 ] = 1/3 1 a posteriori P[U1 |B ] = 9/19 P[U2 |B ] = 10/19 P[U3 |B ] = 0 1 =⇒ Las probabilidades a priori cambian de tal modo de las a posteriori que una vez observado el resultado del experimento aleatorio, se puede afirmar con certeza que no fue elegida la tercera urna. Esta fenómeno tiene aplicaciones fundamentales en Ciencia: Cuando se tienen dos teorı́as cientı́ficas diferentes, T1 y T2 , que pretenden explicar cierto fenómeno, y a las que asociamos unas probabilidades a priori de ser ciertas, P[T1 ] , P[T2 ] podemos llevar a cabo la experimentación que se considere más conveniente, para una vez obtenido el cuerpo de evidencia, B, calcular como se modifican las probabilidades de verosimilitud de cada teorı́a mediante el teorema de Bayes: P[T1 |B ] , P[T2 |B ] Ası́ la experimentación puede hacer que una teorı́a sea descartada si P[Ti |B ] ≈ 0 o reforzada si P[Ti |B ] ≈ 1. Una aplicación básica de esta técnica la tenemos en Medicina para decidir si un paciente padece cierta enfermedad o no, en función de los resultados de un test diagnóstico. 4.6. Tests diagnósticos Los tests diagnósticos son una aplicación del teorema de Bayes a la Medicina, y se basan en lo siguiente: 116 Bioestadı́stica: Métodos y Aplicaciones 1. Se sospecha que un paciente puede padecer cierta enfermedad, que tiene una incidencia de la enfermedad en la población (probabilidad de que la enfermedad la padezca una persona elegida al azar) de P[E]; 2. Como ayuda al diagnóstico de la enfermedad, se le hace pasar una serie de pruebas (tests), que dan como resultado: Positivo, T + , si la evidencia a favor de que el paciente esté enfermo es alta en función de estas pruebas; Negativo, T − , en caso contrario. Previamente, sobre el test diagnóstico a utilizar, han debido ser estimadas las cantidades: Sensibilidad: Es la probabilidad de el test de positivo sobre una persona que sabemos que padece la enfermedad, P[T + |E ]. Especificidad: Es la probabilidad que el test de negativo sobre una persona que no la padece, P[T − |E ]. Lo que interesa saber en la práctica es, predecir si una persona está sana o enferma, a partir del resultado del test diagnóstico, es decir, las cantidades: Indice predictivo positivo: Es la probabilidad de que un individuo esté enfermo si el test dió resultado positivo, P[E|T + ]. Especificidad: Es la probabilidad que el test de negativo sobre una persona que no la padece, E |P[T − ]. La sensibilidad y especificidad se denominan también respectivamente tasa de verdaderos positivos y tasa de verdaderos negativos. Estas cantidades son calculadas de modo aproximado, antes de utilizar el test diagnóstico, considerando grupos suficientemente numerosos de personas de las que sabemos si padecen la enfermedad o no, y estimando los porcentajes correspondientes. Tı́picamente esta labor es realizada por un laboratorio que quiere probar la eficacia de un test diagnóstico. Los indices predictivos son interesantes sobre todo para el clı́nico que efectivamente desea evaluar la probabilidad de 4.6. TESTS DIAGNÓSTICOS 117 que un individuo esté o no enfermo, en funcion de los resultados de las pruebas qu se realizan sobre el mismo. Ejemplo de cálculo en tests diagnósticos Se toman 100 personas sanas y 100 enfermas, y se observa que E E T+ 89 3 T− 11 97 100 100 Tasa Tasa Tasa Tasa de de de de verdaderos positivos: falsos positivos: verdaderos negativos: falsos negativos: 89 % 3% 97 % 11 % 3. teniendo en cuenta el resultado del test diagnóstico, se utiliza el teorema de Bayes para ver cual es, a la vista de los resultados obtenidos, la probabilidad de que realmente esté enfermo si le dio positivo (ı́ndice predictivo de verdaderos positivos), P[E|T + ] = P[T + |E ] · P[E] P[T + |E ] · P[E] + P[T + |E ] · P[E] , o la de que esté sano si le dio negativo (ı́ndice predictivo de verdaderos negativos): P[E |T − ] = P[T − |E ] · P[E] P[T − |E ] · P[E] + P[T − |E ] · P[E] Otro ejemplo de cálculo con tests diagnósticos Con el objeto de diagnosticar la colelietasis se usan los ultrasonidos. Tal técnica tiene una sensibilidad del 91 % y una especificidad del 98 %. En la población que nos ocupa, la probabilidad de colelietasis es de 0, 2. 118 Bioestadı́stica: Métodos y Aplicaciones 1. Si a un individuo de tal población se le aplican los ultrasonidos y dan positivos, ¿cuál es la probabilidad de que sufra la colelietasis? 2. Si el resultado fuese negativo, ¿cuál serı́a la probabilidad de que no tenga la enfermedad? Solución: Vamos a utilizar la siguiente notación: E ≡ Padecer la enfermedad (colelietasis); E ≡ No padecer la enfermedad; T + ≡ El resultado del test es positivo; T − ≡ El resultado del test es negativo; Los datos de que disponemos son las probabilidades condicionadas Sensibilidad o Tasa de Verdaderos Positivos ≡ P[T + |E ] = 091, Especificidad o Tasa de verdaderos Negativos ≡ P[T − |E ] = 0, 98 y la incidencia de la enfermedad en la población P[E] = 0, 20 En el primer apartado se pide calcular el “Índice Predictivo de Verdaderos Positivos”, P[E|T + ], que por el teorema de Bayes es: P[E|T + ] = P[T + |E ] P[T + |E ] · P[E] · P[E] + P[T | + {z |E ] } · P[E] | {z } 1−P[T − |E ] 1−P[E] = 0, 91 · 0, 2 = 0, 9192 0, 91 · 0, 2 + 0, 02 · 0, 8 4.7. PROBLEMAS 119 En el segundo apartado, se ha de calcular el “Índice Predictivo de Verdaderos Negativos”, P[E |T − ], P[E |T − ] = P[T − |E ] P[T − |E ] · P[E] · P[E] + P[T | − {z |E ] } ·P[E] = 0, 98 · 0, 8 = 0, 9775 0, 98 · 0, 8 + 0, 09 · 0, 2 1−P[T + |E ] 4.7. Problemas Ejercicio 4.1. Una mujer portadora de hemofilia clásica da a luz tres hijos. 1. ¿Cual es la probabilidad de que de los tres hijos, ninguno esté afectado por la enfermedad? 2. ¿Cual es la probabilidad de que exactamente dos de los tres niños esté afectado? Ejercicio 4.2. El 60 % de los individuos de una población están vacunados contra una cierta enfermedad. Durante una epidemia se sabe que el 20 % la ha contraı́do y que 2 de cada 100 individuos están vacunados y son enfermos. Calcular el porcentaje de vacunados que enferma y el de vacunados entre los que están enfermos.. Ejercicio 4.3. La proporción de alcohólicos que existe en la población de Málaga es, aproximadamente, un 10 %; no obstante, en las bajas que dan los médicos de la Seguridad Social difı́cilmente se encuentra el diagnóstico de alcoholismo. Aparecen sin embargo diagnosticados de hepatopatı́as, lumbalgias, etc., que pueden hacer sospechar alcoholismo subyacente. Se realizó un estudio que puso de manifiesto que el 85 % de los individuos alcohólicos y el 7 % de los no alcohólicos sufrı́an tales patologı́as. Se desea saber cuál es la probabilidad de que un individuo con esas patologı́as sea realmente alcohólico. 120 Bioestadı́stica: Métodos y Aplicaciones Ejercicio 4.4. Dos tratamientos A y B curan una determinada enfermedad en el 20 % y 30 % de los casos, respectivamente. Suponiendo que ambos actúan de modo independiente, cuál de las dos siguientes estrategias utilizarı́a para curar a un individuo con tal enfermedad: 1. Aplicar ambos tratamientos a la vez. 2. Aplicar primero el tratamiento B y, si no surte efecto, aplicar el A. Ejercicio 4.5. Se eligen al azar 3 deportistas de un equipo de 10 integrantes para realizar un control antidopaje; Se sabe que 2 de los jugadores del equipo han tomado sustancias prohibidas. ¿Cuál es la probabilidad de elegir para el análisis a alguno de los infractores? Ejercicio 4.6. Estamos interesados en saber cuál de dos análisis A y B es mejor para el diagnóstico de una determinada enfermedad, de la cual sabemos que la presentan un 10 % de individuos de la población. El porcentaje de resultados falsos positivos del análisis A es del 15 % y el de B es del 22 %. El porcentaje de falsos negativos de A es del 7 % y de B es del 3 %. ¿Cuál es la probabilidad de acertar en el diagnóstico con cada método? Ejercicio 4.7. Con objeto de diagnosticar la colelitiasis se usan los ultrasonidos. Tal técnica tiene una sensibilidad del 91 % y una especificidad del 98 %. En la población que nos ocupa la probabilidad de colelitiasis es del 20 %. 1. Si a un individuo de tal población se le aplican los ultrasonidos y dan positivos, ¿cuál es la probabilidad de que sufra la colelitiasis? 2. Si el resultado fuese negativo, ¿cuál es la probabilidad de que no tenga la enfermedad? Ejercicio 4.8. Entre los estudiantes de una Facultad de Filosofı́a y Letras se dan las siguientes proporciones: el 40 % son hombres. El 70 % de los 4.7. PROBLEMAS 121 varones fuman, mientras que entre las mujeres sólo fuman el 20 %. Escogido un estudiante al azar, calcúlese la probabilidad de que fume. Ejercicio 4.9. Los estudios epidemiológicos indican que el 20 % de los ancianos sufren un deterioro neuropsicológico. Sabemos que la tomografı́a axial computerizada (TAC) es capaz de detectar este trastorno en el 80 % de los que lo sufren, pero que también da un 3 % de falsos positivos entre personas sanas. Si tomamos un anciano al azar y da positivo en el TAC, ¿cuál es la probabilidad de que esté realmente enfermo? Ejercicio 4.10. Sabemos que tiene estudios superiores el 15 % de la población española, estudios medios el 40 %, estudios primarios el 35 % y no tiene estudios el 10 %. Los desempleados no se distribuyen proporcionalmente entre esas categorı́as, dado que de entre los de estudios superiores están sin trabajo el 10 %, entre los de estudios medios el 35 %, entre los de estudios primarios el 18 %, y entre los que no tienen estudios el 37 %. Obtenga las probabilidades de que extraı́do uno al azar, éste sea: 1. Titulado superior, sabiendo que está parado. 2. Un sujeto sin estudios que está en paro. 3. Un sujeto con estudios primarios o que está trabajando. Ejercicio 4.11. Una enfermedad puede estar producida por tres virus A, B, y C. En el laboratorio hay 3 tubos de ensayo con el virus A, 2 tubos con el virus B y 5 tubos con el virus C. La probabilidad de que el virus A produzca la enfermedad es de 1/3, que la produzca B es de 2/3 y que la produzca el virus C es de 1/7. Se inocula un virus a un animal y contrae la enfermedad. ¿Cuál es la probabilidad de que el virus que se inocule sea el C? Ejercicio 4.12. El 70 % de los estudiantes aprueba una asignatura A y un 60 % aprueba otra asignatura B. Sabemos, además, que un 35 % del total 122 Bioestadı́stica: Métodos y Aplicaciones aprueba ambas. Elegido un estudiante al azar, calcular las probabilidades de las siguientes situaciones: 1. Haya aprobado la asignatura B, sabiendo que ha aprobado la A. 2. Haya aprobado la asignatura B, sabiendo que no no ha aprobado la A. 3. No haya aprobado la asignatura B, sabiendo que ha aprobado la A. 4. No haya aprobado la asignatura B, sabiendo que no ha aprobado la A. Ejercicio 4.13. La cuarta parte de los conductores de coche son mujeres. La probabilidad de que una mujer sufra un accidente en un año es de 5/10.000, y para los hombres es de 1/10.000. Calcúlese la probabilidad de que si acaece un accidente, el accidentado sea hombre. Ejercicio 4.14. En un campus universitario existen 3 carreras sanitarias. Se sabe que el 50 % cursan estudios de Enfermerı́a, el 30 % Medicina y el 20 % Veterinaria. Los que finalizaron sus estudios son el 20, 10 y 5 % respectivamente. Elegido un estudiante al azar, hállese la probabilidad de que haya acabado la carrera. Capı́tulo 5 Variables aleatorias 5.1. Introducción Normalmente, los resultados posibles (espacio muestral E) de un experimento aleatorio no son valores numéricos. Por ejemplo, si el experimento consiste en lanzar de modo ordenado tres monedas al aire, para observar el número de caras (C) y cruces (R) que se obtienen, el espacio muestral asociado a dicho experimento aleatorio serı́a: E = {CCC, CCR, CRC, CRR, RCC, RCR, RRC, RRR} En estadı́stica resulta más fácil utilizar valores numéricos en lugar de trabajar directamente con los elementos de un espacio muestral como el anterior. Ası́ preferimos identificar los sucesos {CRR, RCR, RRC} con el valor numérico 1 que representa el número de caras obtenidas al realizar el experimento. De este modo aparece el concepto de variable aleatoria unidimensional como el de toda función X : E −→ IR e 7−→ X(e) = xe que atribuye un único número real xe , a cada suceso elemental e, del espacio muestral E 123 124 Bioestadı́stica: Métodos y Aplicaciones Por ejemplo, en el ejemplo anterior, se define la variable aleatoria (v.a. en adelante) X ≡ número de caras del siguiente modo: X : E −→ IR X(CCC) = 3 X(CCR) = X(CRC) = X(RCC) = 2 X(RRC) = X(RCR) = X(CRR) = 1 X(RRR) = 0 En función de los valores que tome la variable, esta puede ser clasificada en discreta o continua del siguiente modo: v.a. discreta es aquella que sólo puede tomar un número finito o infinito numerable de valores. Por ejemplo, X : E −→ IN v.a. continua es la que puede tomar un número infinito no numerable de valores. X : E −→ IR Vamos a estudiar los conceptos más importantes relacionados con la distribución de probabilidad de una v.a., diferenciando entre los casos de v.a. discreta y v.a. continua. 5.2. VARIABLES ALEATORIAS DISCRETAS 5.2. 125 Variables aleatorias discretas Dada una v.a. discreta X : E −→ IN , su función de probabilidad f , se define de modo que f (xi ) es la probabilidad de que X tome ese valor: f : IN −→ [0, 1] xi 7−→ f (xi ) = P[X = xi ] = P [{e, t.q. X(e) = xi }] Si xi no es uno de los valores que puede tomar X, entonces f (xi ) = 0. La representación gráfica de la función de probabilidad se realiza mediante un diagrama de barras análogo al de distribución de frecuencias relativas para variables discretas. Por ejemplo, si retomamos el caso del lanzamiento de 3 monedas de forma que cada una de ellas tenga probabilidad 1/2 de dar como resultado cara o cruz, se tiene que (véase la figura 5.1): f (3) = P[X = 3] = P[{CCC}] = 1 1 1 1 · · = 2 2 2 8 f (2) = P[X = 2] = P[{RCC, CCR, CRC}] = 1 1 1 3 + + = 8 8 8 8 f (1) = P[X = 3] = P[{RRC, RCR, CRR}] = f (0) = P[X = 0] = P[{RRR}] = 1 1 1 3 + + = 8 8 8 8 1 1 1 1 · · = 2 2 2 8 Otro concepto importante es el de función de distribución de una variable aleatoria discreta, F , que se define de modo que si xi ∈ IR, F (xi ) es igual a la probabilidad de que X tome un valor inferior o igual a xi : F : IN −→ [0, 1] xi 7−→ F (xi ) = P[X ≤ xi ] = P [{e, t.q. X(e) ≤ xi }] 126 Bioestadı́stica: Métodos y Aplicaciones Figura 5.1: Equivalencia entre las probabilidades calculadas directamente sobre el espacio muestral E de resultados del experimento aleatorio, y las calculadas sobre el subconjunto {0, 1, 2, 3} ⊂ IN ⊂ IR mediante la v.a. X. Esta función se representa gráficamente del mismo modo que la distribución de frecuencias relativas acumuladas (figura 5.2). Volviendo al ejemplo de las tres monedas, se tiene que F (0) = P[X ≤ 0] = P[X = 0] = f (0) = F (1) = P[X ≤ 1] = f (0) + f (1) = 4 1 3 + = 8 8 8 F (2) = P[X ≤ 2] = f (0) + f (1) + f (2) = F (3) = P[X ≤ 3] = f (0) + f (1) + f (2) + f (3) = 5.3. 1 8 1 3 3 7 + + = 8 8 8 8 8 1 3 3 1 + + + = =1 8 8 8 8 8 Variables aleatorias continuas Si una variable discreta toma los valores x1 , . . . , xk , la probabilidad de que al hacer un experimento, X tome uno de esos valores es 1, de modo que cada posible valor xi contribuye con una cantidad f (xi ) al total: 5.3. VARIABLES ALEATORIAS CONTINUAS 127 1 Func. Probabilidad Func. Distribucion ’ f 7/8 F 4/8 3/8 1/8 1/8 0 1 2 3 Figura 5.2: Función de probabilidad a la izquierda, y función de distribución a la derecha de una v.a. discreta k X f (xi ) = k X i=1 i=1 P[X = xi ] = 1 Aun cuando la variable tomase un número infinito de valores, x1 , x2 , . . . , no hay ningún problema en comprobar que cada xi contribuye con una cantidad f (xi ) al total de modo que ∞ X i=1 f (xi ) = ∞ X i=1 P[X = xi ] = 1 Cuando la variable es continua, no tiene sentido hacer una suma de las probabilidades de cada uno de los términos en el sentido anterior, ya que el conjunto de valores que puede tomar la variable es no numerable. En este P caso, lo que generaliza de modo natural el concepto de suma ( ) es el de R integral ( ). Por otro lado, para variables continuas no tiene interés hablar de la probabilidad de que X = x ∈ IR, ya que esta debe de valer siempre 0, para que la suma infinita no numerable de las probabilidades de todos los valores de la variable no sea infinita. 128 Bioestadı́stica: Métodos y Aplicaciones De este modo es necesario introducir un nuevo concepto que sustituya en v.a. continuas, al de función de probabilidad de una v.a. discreta. Este concepto es el de función de densidad de una v.a. continua, que se define como una función f : IR −→ IR integrable, que verifica las dos propiedades siguientes:  f (x) ≥ 0    Z +∞    f (x) dx = 1 (5.1) −∞ y que además verifica que dado a < b, se tiene que P[a ≤ X ≤ b] = Z b f (x) dx (5.2) a f P[a<X<b] a b X Figura 5.3: Función de densidad f . La probabilidad de un intervalo, es el área que existe entre la función y el eje de abscisas. La función de distribución de la v.a. continua, F , se define de modo que dado x ∈ IR, F(x) es la probabilidad de que X sea menor o igual que x, es decir F : IR −→ [0, 1] x 7−→ F (x) = P[X ≤ x] = Z (5.3) x −∞ f (t) dt 5.4. MEDIDAS DE TENDENCIA CENTRAL Y DISPERSIÓN DE V.A.129 F(x) f(x) Area=F(x) x Figura 5.4: Función de distribución F , calculada a partir de la función de densidad f . 5.4. Medidas de tendencia central y dispersión de v.a. De forma análoga a lo que se se hizo en el capı́tulo 2 sobre estadı́stica descriptiva podemos definir para variables aleatorias medidas de centralización, dispersión, simetrı́a y forma. Por su interés nos vamos a centrar en dos medidas sobre v.a. que son la esperanza matemática que desempeña un papel equivalente al de la media y el momento central de segundo orden, también denominado varianza. 130 5.4.1. Bioestadı́stica: Métodos y Aplicaciones Valor esperado o esperanza matemática La esperanza matemática o valor esperado de una variable aleatoria es el concepto equivalente al de media aritmética. Como las variables aleatorias se expresan de modo diferente en el caso discreto que en el continuo, tratemos a cada una de llas por separado. Sea X una v.a. discreta. Se denomina esperanza matemática de X o valor esperado, y se denota bien E [X] o bien µ, a la cantidad que se expresa como: E [X] = X xi f (xi ) (5.4) i∈II donde II es el conjunto numerable de ı́ndices de los valores que puede tomar la variable (por ejemplo II = {1, 2, . . . , k} para un número finito de valores de la v.a. o bien II = IN para una cantidad infinita numerable de los mismos. Si X es una v.a. continua, se define su esperanza a partir de la función de densidad como sigue: E [X] = Z +∞ −∞ 5.4.2. x · f (x) dx (5.5) Varianza La varianza la denotamos mediante Var [X] o bien σ 2 : h i Var [X] = E (X − E [X])2 =  X  (xi − E [X])2 f (xi )     i∈II Z      +∞ −∞ (x − E [X])2 · f (x) dx si X disc. si X cont. Capı́tulo 6 Principales leyes de distribución de variables aleatorias 6.1. Introducción Como complemento al capı́tulo anterior en el que definimos todos los conceptos relativos a variables aleatorias, describimos en éste las principales leyes de probabilidad que encontramos en las aplicaciones del cálculo de probabilidades. Atendiendo a la clasificación de las v.a. en discretas y continuas describiremos las principales leyes de probabilidad de cada una de ellas, las cuales constituirán el soporte subyacente de la inferencia estadı́stica y a las que será necesario hacer referencia en el estudio de dicho bloque. Iniciamos este capı́tulo con el estudio de las distribuciones para v.a. discretas. 131 132 Bioestadı́stica: Métodos y Aplicaciones 6.2. Distribuciones discretas 6.2.1. Distribución de Bernoulli Consiste en realizar un experimento aleatorio una sóla vez y observar si cierto suceso ocurre o no, siendo p la probabilidad de que esto sea ası́ (éxito) y q = 1−p el que no lo sea (fracaso). En realidad no se trata más que de una variable dicotómica, es decir que únicamente puede tomar dos modalidades, es por ello que el hecho de llamar éxito o fracaso a los posibles resultados de las pruebas obedece más una tradición literaria o histórica, en el estudio de las v.a., que a la situación real que pueda derivarse del resultado. Podrı́amos por tanto definir este experimento mediante una v.a. discreta X que toma los valores X = 0 si el suceso no ocurre, y X = 1 en caso contrario, y que se denota X❀Ber (p) X❀Ber (p) ⇐⇒ X =    0   1 −→ q = 1 − p = P[X = 0] (6.1) −→ p = P[X = 1] Un ejemplo tı́pico de este tipo de variables aleatorias consiste en lanzar una moneda al aire y considerar la v.a. X ≡ número de caras obtenidas =  1   0 −→ q =   2     1 −→ p = 1 2 Para una v.a. de Bernouilli, tenemos que su función de probabilidad es: f (x) =    q p   0 si x = 0 si x = 1 en cualquier otro caso; Los principales momentos de X son: 6.2. DISTRIBUCIONES DISCRETAS 6.2.2. 133 E [X] = p (6.2) Var [X] = p · q (6.3) Distribución binomial Se dice que una v.a. X sigue una ley binomial de parámetros n y p, X❀B (n, p), si es la suma de n v.a. independientes de Bernouilli con el mismo parámetro, p: X❀B (n, p) ⇐⇒ X = X1 +· · ·+Xn , donde Xi ❀Ber (p), ∀ i = 1, . . . , n (6.4) Esta definición puede interpretarse en el siguiente sentido: Supongamos que realizamos n pruebas de Bernouilli, Xi , donde en todas ellas, la probabilidad de éxito es la misma (p), y queremos calcular el número de éxitos, X, obtenidos el el total de las n pruebas. Su ley de probabilidad es1 En la Figura 6.1 se representa la función de probabilidad de una variable binomial. f (k) = P [X = k] = n k ! pk q n−k ∀ k = 0, 1, . . . , n (6.5) El valor esperado y la varianza de esta variable son: E [X] = np Var [X] = npq Ejemplo de uso de la distribución binomial Un médico aplica un test a 10 alumnos de un colegio para detectar una enfermedad cuya incidencia sobre una población de niños es del 10 %. 1 Los valores f (k) los podemos encontrar tabulados para ciertos valores pequeños de n, y ciertos valores usuales de p en la tabla 1 (al final del libro). 134 Bioestadı́stica: Métodos y Aplicaciones 0.35 Bin(5;0,5) 0.3 0.25 0.2 0.15 0.1 0.05 0 -1 0 1 2 3 4 5 6 Figura 6.1: Función de probabilidad de una variable binomial cunado n es pequeño. La sensibilidad del test es del 80 % y la especificidad del 75 %. ¿Cual es la probabilidad de que exactamente a cuatro personas le de un resultado positivo? Si en la muestra hay cuatro personas a las que el test le da positivo, ¿cuál es la probabilidad de que entre estas, exactamente dos estén sanas? Calcular la probabilidad de que el test suministre un resultado incorrecto para dos personas. Calcular la probabilidad de que el resultado sea correcto para más de 7 personas. Solución: Los datos de que disponemos son: P[E] = 0, 1 P[T + |E ] = 0, 8 P[T − |E ] = 0, 75 prevalencia de la enfermedad en la población | {z Probabilidad a priori de estar enfermo sensibilidad (verdaderos positivos) especificidad (verdaderos negativos) } (6.6) 6.2. DISTRIBUCIONES DISCRETAS 135 0.18 Bin(20;0,5) 0.16 0.14 0.12 0.1 0.08 0.06 0.04 0.02 0 0 5 10 15 20 Figura 6.2: Función de probabilidad de una variable binomial cuando n es grande. donde E, T + , y T − tienen el sentido que es obvio. Si queremos saber a cuantas personas el test le dará un resultado positivo, tendremos que calcular P[T + ], para lo que podemos usar el teorema de la probabilidad total (estar enfermo y no estarlo forman una colección exhaustiva y excluyente de sucesos): P[T + ] = P[T + |E ] · P[E] + P[T + |E ] · P[E] | {z 1−P[T − } | {z } ] 1−P[E] |E = 0, 8 × 0, 1 + 0, 25 × 0, 9 = 0, 305 Sea X1 la v.a. que contabiliza el número de resultados positivos. Es claro que llamando p1 = P[T + ], se tiene que X sigue una distribución binomial X1 ❀B (n1 = 10, p1 = 0, 305) ⇐⇒ P[X1 = k] = n1 k ! pk1 q1n1 −k 136 Bioestadı́stica: Métodos y Aplicaciones Por ello la probabilidad de que a cuatro personas le de el resultado del test positivo es: 10 4 P[X1 = 4] = ! 0, 3054 · 0, 6956 = 0, 2048 Si queremos calcular a cuantas personas les dará el test un resultado positivo aunque en realidad estén sanas, hemos de calcular previamente P[E |T + ], o sea, el ı́ndice predictivo de falsos positivos: 1−P[T − |E ] 1−P[E] z }| z }| { { P[T + |E ] · P[E] P[E∩T + ] P[E |T + ] = = = 0, 7377 P[T + ] P[T + ] Es importante observar este resultado. Antes de hacer los cálculos no era previsible que si a una persona el test le da positivo, en realidad tiene una probabilidad aproximadamente del 74 % de estar sana. Sea X2 la variable aleatoria que contabiliza al número de personas al que el test le da positivo, pero que están sanas en realidad. Entonces X2 ❀B (n2 = 4, p2 = 0, 7377) ⇐⇒ P[X2 = k] = n2 k ! pk2 q2n2 −k y 4 2 P[X2 = 2] = ! 0, 73772 · 0, 26232 = 0, 22465 Por último vamos a calcular la probabilidad p3 de que el test de un resultado erróneo, que es: p3 = P[(T + ∩E) ∪ (T − ∩E)] | {z incompatibles } 6.2. DISTRIBUCIONES DISCRETAS 137 = P[T + ∩E] + P[T − ∩E] = P[T + |E ] · P[E] + P[T − |E ] · P[E] = 0, 25 × 0, 9 + 0, 2 × 0, 1 = 0, 245 La variable aleatoria que contabiliza el número de resultados erróneos del test es X3 ❀B (n3 = 10, p3 = 0, 245) ⇐⇒ P[X3 = k] = n3 k ! pk3 q3n3 −k Como la probabilidad de que el test sea correcto para más de siete personas, es la de que sea incorrecto para menos de 3, se tiene P[X3 < 3] = P[X3 ≤ 2] | = {z FX3 (2) 2 X i=0 = 10 0 n3 i ! } ! pi3 q3n3 −i 0 0, 245 · 0, 755 10 + 10 1 ! 1 9 0, 245 × 0, 755 + 10 2 = 0, 5407 6.2.3. Distribución geométrica ( o de fracasos) Consideramos una sucesión de v.a. independientes de Bernouilli, X1 , X2 , . . . , Xi , . . . donde Xi ❀Ber (p), i = 1, 2, . . . , ∞ Una v.a. X sigue posee una distribución geométrica, X❀Geo (p), si esta es la suma del número de fracasos obtenidos hasta la aparición del primer éxito en la sucesión {Xi }∞ i=1 . Por ejemplo ! 0, 2452 × 0, 7558 138 Bioestadı́stica: Métodos y Aplicaciones X1 X2 X3 X4 X5 ↓ ↓ ↓ ↓ ↓ 1 0 0 1 1 1 0 1 1 0 0 1 0 1 0 0 0 0 1 1 ··· ··· ··· ··· ··· X ↓ X=0 f (0) = p X = 1 f (1) = qp X = 2 f (2) = qqp X = 3 f (3) = qqqp =⇒ =⇒ =⇒ =⇒ ... De este modo tenemos que la ley de probabilidad de X es f (k) = P[X = k] = pq k , k = 0, 1, 2, . . . , ∞ (6.7) La media y varianza de esta variable aleatoria son: E [X] = Var [X] = q p q p2 Ejemplo de uso de la distribución geométrica Un matrimonio quiere tener una hija, y por ello deciden tener hijos hasta el nacimiento de una hija. Calcular el número esperado de hijos (entre varones y hembras) que tendrá el matrimonio. Calcular la probabilidad de que la pareja acabe teniendo tres hijos o más. Solución: Este es un ejemplo de variable geométrica. Vamos a suponer que la probabilidad de tener un hijo varón es la misma que la de tener una hija hembra. Sea X la v.a. X = número de hijos varones antes de nacer la niña Es claro que 6.2. DISTRIBUCIONES DISCRETAS X❀Geo p = 1 2 139 ⇐⇒ P[X = k] = q k−1 · p = 1 2k q = 1, por p tanto el número esperado en total entre hijos varones y la niña es 2. Sabemos que el número esperado de hijos varones es E [X] = La probabilidad de que la pareja acabe teniendo tres o más hijos, es la de que tenga 2 o más hijos varones (la niña está del tercer lugar en adelante), es decir, X z discr. }| { P[X ≥ 2] = 1 − P[X < 2] = 1 − P[X ≤ 1] = 1 − P[X = 0] − P[X = 1] = 1 − p − q p = 1 4 Hemos preferido calcular la probabilidad pedida mediante el suceso complementario, ya que serı́a más complicado hacerlo mediante la suma infinita P[X ≥ 2] = 6.2.4. ∞ X q i p. i=2 Distribución binomial negativa Sobre una sucesión de v.a. de Bernouilli independientes, X1 , X2 , . . . , Xi , . . . donde Xi ❀Ber (p), i = 1, 2, . . . , ∞ se define la v.a. X como el número de fracasos obtenidos hasta la aparición de r éxitos en la sucesión {Xi }∞ i=1 . En este caso se dice que X sigue una ley de distribución binomial negativa de parámetros r y p y se denota del modo: X❀Bn (r, p). Su ley de probabilidad es: 140 Bioestadı́stica: Métodos y Aplicaciones f (k) = P[X = k] = | k+r−1 r−1 ! p r−1 k q p· {z k+r−1 primeros experimentos } = p |{z} k+r−1 k éxito final ! pr q k (6.8) E [X] = Var [X] = rq p rq p2 (6.9) (6.10) Ejemplo de variable binomial negativa Para tratar a un paciente de una afección de pulmón han de ser operados en operaciones independientes sus 5 lóbulos pulmonares. La técnica a utilizar es tal que si todo va bien, lo que ocurre con probabilidad de 7/11, el lóbulo queda definitivamente sano, pero si no es ası́ se deberá esperar el tiempo suficiente para intentarlo posteriormente de nuevo. Se practicará la cirugı́a hasta que 4 de sus 5 lóbulos funcionen correctamente. ¿Cuál es el valor esperado de intervenciones que se espera que deba padecer el paciente? ¿Cuál es la probabilidad de que se necesiten 10 intervenciones? Solución: Este es un ejemplo claro de experimento aleatorio regido por una ley binomial negativa, ya que se realizan intervenciones hasta que se obtengan 4 lóbulos sanos, y éste es el criterio que se utiliza para detener el proceso. Identificando los parámetros se tiene: X = número de operaciones hasta obtener r = 4 con resultado positivo 7 X❀Bn r = 4, p = 11 ⇐⇒ P[X = k] = k+r−1 k ! q k pr Lo que nos interesa es medir el número de intervenciones, Y , más que el número de éxitos hasta el r–ésimo fracaso. La relación entre ambas v.a. 6.2. DISTRIBUCIONES DISCRETAS 141 es muy simple: Y =X +r Luego E [Y ] = E [X + r] = E [X] + r = 4 · 7/11 rp +r = + 4 = 11 q 4/11 Luego el número esperado de intervenciones que deberá sufrir el paciente es de 11. La probabilidad de que el número de intervenciones sea Y = 10, es la de que X = 10 − 4 = 6. Por tanto: P[Y = 10] = P[X = 6] = 6.2.5. 6+4−1 6 ! 4 q p = 84· 11 6 4 6 7 11 4 = 0, 03185 Distribución hipergeométrica Por claridad, consideremos el siguiente ejemplo: Tenemos una baraja de cartas españolas (N = 40 naipes), de las cuales nos vamos a interesar en el palo de oros (D = 10 naipes de un mismo tipo). Supongamos que de esa baraja extraemos n = 8 cartas de una vez (sin reemplazamiento) y se nos plantea el problema de calcular la probabilidad de que hayan k = 2 oros (exactamente) en esa extracción. La respuesta a este problema es Prob [2 oros en un grupo de 8 cartas] = = = casos favorables casos posibles 6 naipes 2 naipes × de otros palos entre los oros 8 naipes cualesquiera 10 2 ! · 40 8 30 6 ! ! = D k ! N −D n−k · N n ! ! 142 Bioestadı́stica: Métodos y Aplicaciones En lugar de usar como dato D es posible que tengamos la proporción existente, p, entre el número total de oros y el número de cartas de la baraja p=    D =N ·p 10 1 D = = =⇒  N 40 4  N −D =N ·q (q = 1 − p) de modo que podemos decir que Prob [k oros en un grupo de n cartas] = N ·p k ! · N n N ·q n−k ! ! Este ejemplo sirve para representar el tipo de fenómenos que siguen una ley de distribución hipergeométrica. Diremos en general que una v.a. X sigue una distribución hipergeométrica de parámetros, N , n y p, lo que representamos del modo X❀HGeo (N, n, p), si su función de probabilidad es P[X = k] = N ·p k ! · N n N ·q n−k ! ! si máx{0, n − N q} ≤ k ≤ mı́n{n, N P } (6.11) Cuando el tamaño de la población (N ) es muy grande, la ley hipergeométrica tiende a aproximarse a la binomial: N →∞ HGeo (N, n, p) −→ B (n, p) El valor esperado de la hipergeométrica es el mismo que el de la binomial, E [X] = np 6.2. DISTRIBUCIONES DISCRETAS 143 sin embargo su varianza Var [X] = npq · N −n N −1 no es exactamente la de la binomial, pues está corregida por un factor, N −n N −1 , que tiende a 1 cuando N → ∞. A este factor se le denomina factor de corrección para población finita. 6.2.6. Distribución de Poisson o de los sucesos raros Una v.a. X posee una ley de distribución de probabilidades del tipo Poisson cuando f (k) = P[X = k] = e−λ λk , k! k = 0, 1, 2, . . . (6.12) Este tipo de leyes se aplican a sucesos con probabilidad muy baja de ocurrir, obteniéndose como la distribución lı́mite de una sucesión de variable binomiales, B (n, p), donde n · p = λ, y n → ∞ (por tanto p → 0+ ). En general utilizaremos la distribución de Poisson como aproximación de experimentos binomiales donde el número de pruebas es muy alto, pero la probabilidad de éxito muy baja. A veces se suele utilizar como criterio de aproximación: n > 30, p ≤ 0, 1 ⇒ B (n, p) ∼ = Poi (n · p) Su valor esperado y varianza coinciden: E [X] = Var [X] = λ (6.13) Ejemplo de distribución de Poisson Cierta enfermedad tiene una probabilidad muy baja de ocurrir, p = 1/100,000. Calcular la probabilidad de que en una ciudad con 500,000 habitantes haya más de 3 personas con dicha enfermedad. Calcular el número esperado de habitantes que la padecen. 144 Bioestadı́stica: Métodos y Aplicaciones Solución: Si consideramos la v.a. X que contabiliza el número de personas que padecen la enfermedad, es claro que sigue un modelo binomial, pero que puede ser muy bien aproximado por un modelo de Poisson, de modo que 1 X❀B n = 500,000, p = 100,000 ≈ =⇒ X ❀ Poi (λ = 5) Ası́ el número esperado de personas que padecen la enfermedad es E [X] = 5. Como Var [X] = 5, existe una gran dispersión, y no serı́a extraño encontrar que en realidad hay muchas más personas o menos que están enfermas. La probabilidad de que haya más de tres personas enfermas es: P[X > 3] = 1 − P[X ≤ 3] = 1 − P[X = 0] − P[X = 1] − P[X = 2] − P[X = 3] e−5·0 e−5·1 e−5·2 e−5·3 = 1− − − − 0! 1! 2! 3! = 0, 735 6.3. Distribuciones continuas En esta sección estudiaremos las distribuciones más importantes de v.a. continuas unidimensionales. El soporte de una v.a. continua se define como aquella región de IR donde su densidad es no nula, f (x) 6= 0. Para las distribuciones que enunciaremos, podrá ser bien todo IR, IR+ = (0, +∞) o bien un segmento de la forma [a, b] ⊂ IR. 6.3.1. Distribución uniforme o rectangular Se dice que una v.a. X posee una distribución uniforme en el intervalo [a, b], X❀U (a, b) 6.3. DISTRIBUCIONES CONTINUAS 145 si su función de densidad es la siguiente: f (x) = 1 b−a si a ≤ x ≤ b (6.14) 1.0 Con esta ley de probabilidad, la probabilidad de que al hacer un experimento aleatorio, el valor de X este comprendido en cierto subintervalo de [a, b] depende únicamente de la longitud del mismo, no de su posición. Cometiendo un pequeño abuso en el lenguaje, podemos decir que en una distribución uniforme la probabilidad de todos los puntos del soporte es la misma 2 . 0.6 0.8 F(x) 0.4 f(x) 0.0 0.2 Unif(a = 0, b = 2) −0.5 0.0 0.5 1.0 1.5 2.0 2.5 3.0 Figura 6.3: Función de densidad y de distribución de U (a, b) E [X] = Var [X] = b+a 2 (b − a)2 12 2 Hay que observar que en principio esa afirmación es cierta para cualquier v.a. continua, ya que para ellas la probabilidad de cualquier punto es nula. Serı́a más preciso decir que la densidad de todos los puntos es constante en [a, b]. 146 Bioestadı́stica: Métodos y Aplicaciones 6.3.2. Distribución exponencial La distribución exponencial es el equivalente continuo de la distribución geométrica discreta. Esta ley de distribución describe procesos en los que: Nos interesa saber el tiempo hasta que ocurre determinado evento, sabiendo que, el tiempo que pueda ocurrir desde cualquier instante dado t, hasta que ello ocurra en un instante tf , no depende del tiempo transcurrido anteriormente en el que no ha pasado nada. Ejemplos de este tipo de distribuciones son: El tiempo que tarda una partı́cula radiactiva en desintegrarse. El conocimiento de la ley que sigue este evento se utiliza en Ciencia para, por ejemplo, la datación de fósiles o cualquier materia orgánica mediante la técnica del carbono 14, C 14 ; El tiempo que puede transcurrir en un servicio de urgencias, para la llegada de un paciente; En un proceso de Poisson donde se repite sucesivamente un experimento a intervalos de tiempo iguales, el tiempo que transcurre entre la ocurrencia de dos sucesos consecutivos sigue un modelo probabilı́stico exponencial. Por ejemplo, el tiempo que transcurre entre que sufrimos dos veces una herida importante. Concretando, si una v.a. continua X distribuida a lo largo de IR+ , es tal que su función de densidad es f (x) = λe−λx si 0 < x (6.15) se dice que sigue una distribución exponencial de parámetro λ, X❀Exp (λ). Un cálculo inmediato nos dice que si x > 0, Z 0 x λe−λt dt = −e−λt ix 0 = 1 − e−λx 1.0 6.3. DISTRIBUCIONES CONTINUAS 147 0.0 0.2 0.4 0.6 0.8 f(x) = e−λx para λ = 1 0 1 2 3 4 Figura 6.4: Función de densidad, f , de una Exp (λ). luego la función de distribución es: F (x) =  −λx   1−e si 0 < x   0 E [X] = Var [X] = en otro caso. 1 λ 1 λ2 Ejemplo de variable exponencial En un experimento de laboratorio se utilizan 10 gramos de 210 84 P o. Sabiendo que la duración media de un átomo de esta materia es de 140 dı́as, Bioestadı́stica: Métodos y Aplicaciones 1.0 148 0.2 0.4 0.6 0.8 1 F(x) = 1 − e−λx λ 0.0 f(x) = e−λx 0 1 2 3 4 Figura 6.5: Función de distribución, F , de Exp (λ), calculada como el área que deja por debajo de sı́ la función de densidad. ¿cuantos idas transcurrirán hasta que haya desaparecido el 90 % de este material? Solución: El tiempo T de desintegración de un átomo de v.a. de distribución exponencial: 1 T ❀Exp λ = 140 210P o 84 ⇐⇒ f (t) = λe−λ t si ∀ t ≥ 0 ⇐⇒ F (t) = 1 − e−λ t es una Como el número de átomos de 210 84 P o existentes en una muestra de 10 gramos es enorme, el histograma de frecuencias relativas formado por los tiempos de desintegración de cada uno de estos átomos debe ser extremadamente aproximado a la curva de densidad, f . Del mismo modo, el polı́gono de frecuencias relativas acumuladas debe ser muy aproximado a la curva de su función de distribución F . Entonces el tiempo que transcurre hasta 6.3. DISTRIBUCIONES CONTINUAS 149 que el 90 % del material radiactivo se desintegra es el percentil 90, t90 , de la distribución exponencial, es decir F (t90 ) = 0, 9 ⇔ e−λ t90 = 1 − 0, 9 ⇔ t90 = − 1 ln 0, 1 ≈ 322 dı́as λ Otro ejemplo de variable exponencial Se ha comprobado que el tiempo de vida de cierto tipo de marcapasos sigue una distribución exponencial con media de 16 años. ¿Cuál es la probabilidad de que a una persona a la que se le ha implantado este marcapasos se le deba reimplantar otro antes de 20 años? Si el marcapasos lleva funcionando correctamente 5 años en un paciente, ¿cuál es la probabilidad de que haya que cambiarlo antes de 25 % años? Solución: Sea T la variable aleatoria que mide la duración de un marcapasos en una persona. Tenemos que 1 T ❀Exp λ = 16 ⇐⇒ f (t) = λe−λ t si ∀ t ≥ 0 ⇐⇒ F (t) = 1 − e−λ t Entonces P[T ≤ 20] = Z 20 0 20 f (t) dt = F (20) = 1 − e− 16 = 0, 7135 En segundo lugar P[T ≤ 25|T ≥5 ] = 0, 522 P[5 ≤ T ≤ 25] = = 0, 7135 P[T ≥ 5] 0, 7316 25 P[5 ≤ T ≤ 25] = Z +∞ P[T ≥ 5] = Z 5 5 (6.16) 25 5 f (t) dt = F (25) − F (5) = \1 − e− 16 − 1\ + e− 16 = 0, 522 5 f (t) dt = F (+∞) − F (5) = \1 − 1\ + e− 16 = 0, 7316 150 Bioestadı́stica: Métodos y Aplicaciones Luego como era de esperar, por ser propio a un mecanismo exponencial, P[T ≤ 25|T ≥5 ] = P[T ≤ 20] o sea, en la duración que se espera que tenga el objeto, no influye en nada el tiempo que en la actualidad lleva funcionando. Es por ello que se dice que “la distribución exponencial no tiene memoria”. 6.3.3. Distribución normal o gaussiana La distribución gaussiana, recibe también el nombre de distribución normal, ya que una gran mayorı́a de las v.a continuas3 de la naturaleza siguen esta distribución. Se dice que una v.a. X sigue una distribución normal de 2 2 parámetros µ y σ , lo que representamos del modo X❀N µ, σ si su función de densidad es: f (x) = σ √1 2π e− 2 ( 1 x−µ 2 σ ) , ∀ x ∈ IR (6.17) Observación Estos dos parámetros µ y σ 2 coinciden además con la media (esperanza) y la varianza respectivamente de la distribución como se demostrará más adelante4 : E [X] = µ Var [X] = σ (6.18) 2 (6.19) La forma de la función de densidad es la llamada campana de Gauss. Para el lector es un ejercicio interesante comprobar que ésta alcanza un único máximo (moda) en µ, que es simétrica con respecto al mismo, y por 3 Incluso v.a discretas pueden ser aproximadas por la ley gaussiana. Hemos adelantado al lector el significado de µ y σ 2 pues esta es una distribución que queda definida en primera instancia por su media y varianza. 4 151 0.4 6.3. DISTRIBUCIONES CONTINUAS 0.3 N(µ = 0, σ = 1) σ 0.1 0.2 σ 0.0 µ −3 −2 −1 0 1 2 3 Figura 6.6: Campana de Gauss o función de densidad de una v.a. de distribución normal. EL parámetro µ indica el centro y σ la dispersión. La distancia del centro a los puntos de inflexión es precisamente σ. tanto P[X ≤ µ] = P[X ≥ µ] = 1/2, con lo cual en µ coinciden la media, la mediana y la moda, y por último,calcular sus puntos de inflexión. El soporte de la distribución es todo IR, de modo que la mayor parte de la masa de probabilidad (área comprendida entre la curva y el eje de abcisas) se encuentra concentrado alrededor de la media, y las ramas de la curva se extienden asintóticamente a los ejes, de modo que cualquier valor “muy alejado”de la media es posible (aunque poco probable). La forma de la campana de Gauss depende de los parámetros µ y σ: µ indica la posición de la campana (parámetro de centralización); σ 2 (o equivalentemente, σ) será el parámetro de dispersión. Cuanto menor sea, mayor cantidad de masa de probabilidad habrá concentrada alrededor de la media (grafo de f muy apuntado cerca de µ) y cuanto mayor sea “más aplastado”será. 152 Bioestadı́stica: Métodos y Aplicaciones 0.3 0.4 N(µ = 0, σ = 1) 0.1 0.2 P(x ∈ µ ± σ) = 0.68 0.0 P(x ∈ µ ± 2σ) = 0.95 −3 −2 −1 0 1 2 3 Figura 6.7: A una distancia que no supera en una desviación de la media tenemos una probabilidad del 68 %. A dos desviaciones tenemos el 95 %. Aproximación a la normal de la ley binomial Se demuestra que una v.a. discreta con distribución binomial, X❀B (n, p) se puede aproximar mediante una distribución normal si n es suficientemente grande y p no está ni muy próximo a 0 ni a 1. Como el valor esperado y la varianza de X son respectivamente n p y n p q, la aproximación consiste ≈ en decir que X ❀ N (n p, n p q). El convenio que se suele utilizar para poder realizar esta aproximación es: X❀B (n, p) donde  n > 30       np > 4       ≈ =⇒ X ❀ N (n p, n p q) nq > 4 aunque en realidad esta no da resultados muy precisos a menos que realmente n sea un valor muy grande o p ≈ q ≈ 1/2. Como ilustración obsérvense las figuras 6.10 y 6.11. 6.3. DISTRIBUCIONES CONTINUAS 153 N(0,1) N(3,1) N(-3,1) 0.5 0.4 0.3 0.2 0.1 0 -4 -2 0 2 4 Figura 6.8: Distribuciones gaussianas con diferentes medias e igual dispersión. 6.3.4. Distribución χ2 Si consideramos una v.a. Z❀N (0, 1), la v.a. X = Z 2 se distribuye según una ley de probabilidad distribución χ2 con un grado de libertad, lo que se representa como X❀χ21 Si tenemos n v.a. independientes Zi ❀N (0, 1), la suma de sus cuadrados respectivos es una distribución que denominaremos ley de distribución χ2 con n grados de libertad, χ2n . {Zi }ni=1 ❀N (0, 1) =⇒ n X i=1 Zi2 ❀χ2n (6.20) 154 Bioestadı́stica: Métodos y Aplicaciones N(0,1) N(0,2) N(0,4) 0.5 0.4 0.3 0.2 0.1 0 -4 -3 -2 -1 0 1 2 3 4 Figura 6.9: Distribuciones gaussianas con igual media pero varianza diferente. La media y varianza de esta variable son respectivamente: E [X] = n (6.21) Var [X] = 2n (6.22) En consecuencia, si tenemos X1 , . . . , Xn , v.a. independientes, donde ca da Xi ❀N µi , σi2 , se tiene n X Xi − µi 2 i=1 σi ❀χ2n 6.3. DISTRIBUCIONES CONTINUAS 155 Bin(100;0,15) N(np,npq) 0.16 0.14 0.12 0.1 0.08 0.06 0.04 0.02 0 0 20 40 60 80 100 Figura 6.10: Comparación entre la función de densidad de una v.a. continua con distribución N (n p, n p q) y el diagrama de barras de una v.a. discreta de distribución B (n, p) para casos en que la aproximación normal de la binomial es válida. Es peor esta aproximación cuando p está próximo a los bordes del intervalo [0, 1]. 6.3.5. Distribución t de Student La distribución t–Student se construye como un cociente entre una normal y la raı́z de una χ2 independientes. De modo preciso, llamamos distribución t–Student con n grados de libertad, tn a la de una v.a. T , T =q Z 1 2 n χn ❀tn (6.23) donde Z❀N (0, 1), χ2n ❀χ2n . Este tipo de distribuciones aparece cuando tenemos n + 1 v.a. independientes X❀N µ, σ 2 156 Bioestadı́stica: Métodos y Aplicaciones Bin(100;0,5) N(np,npq) 0.1 0.08 0.06 0.04 0.02 0 0 20 40 60 80 100 Figura 6.11: La misma comparación que en la figura anterior, pero realizada con parámetros con los que damos la aproximación normal de la binomial es mejor. Xi ❀N µi , σi2 y nos interesa la distribución de i = 1, . . . , n X −µ σ T =v ❀tn u X 2 n u1 X − µ i i t n i=1 σi La distribución t de Student tiene propiedades parecidas a N (0, 1): Es de media cero, y simétrica con respecto a la misma; Es algo más dispersa que la normal, pero la varianza decrece hasta 1 cuando el número de grados de libertad aumenta; 0.5 6.3. DISTRIBUCIONES CONTINUAS 157 0.3 0.4 χ22 0.2 χ24 0.0 0.1 χ26 0 2 4 6 8 Figura 6.12: Función de densidad de χ2n para valores pequeños de n. Para un número alto de grados de libertad se puede aproximar la distribución de Student por la normal, es decir, n→∞ tn −→ N (0, 1) 6.3.6. La distribución F de Snedecor Otra de la distribuciones importantes asociadas a la normal es la que se define como cociente de distribuciones χ2 independientes. Sean X❀χ2n e Y ❀χ2m v.a. independientes. Decimos entonces que la variable F = 1 nX 1 mY = m X ❀Fn,m n Y (6.24) sigue una distribución de probabilidad de Snedecor, con (n, m) grados de libertad. Obsérvese que Fn,m 6= Fm,n . 158 Bioestadı́stica: Métodos y Aplicaciones 0.4 t30 ≈ t∞ = N(0, 1) 0.3 t3 0.0 0.1 0.2 t1 −4 −2 0 2 4 Figura 6.13: Cuando aumentan los grados de libertad, la distribución de Student se aproxima a la distribución normal tipificada. La forma más habitual en que nos encontraremos esta distribución será en el caso en que tengamos n + m v.a. independientes i = 1, . . . , n i = 1, . . . , m Xi ❀N µi , σi2 Yj ❀N mj , s2j y ası́ F = n 1X n i=1 m 1 X m j=1 Xi − µi σi 2 Yj − mj sj !2 ❀Fn,m Es claro que la distribución de Snedecor no es simétrica, pues sólo tienen densidad de probabilidad distinta de cero, los punto de IR+ . Otra propiedad interesante de la distribución de Snedecor es: 6.4. PROBLEMAS 159 0.8 F10, 20 0.6 F10, 10 0.0 0.2 0.4 F10, 5 0.0 0.5 1.0 1.5 2.0 2.5 3.0 Figura 6.14: Funciónes de densidad para la distribución F de Snedecor. F ❀Fn,m ⇐⇒ 6.4. 1 ❀Fm,n F Problemas Ejercicio 6.1. Para estudiar la regulación hormonal de una lı́nea metabólica se inyectan ratas albinas con un fármaco que inhibe la sı́ntesis de proteı́nas del organismo. En general, 4 de cada 20 ratas mueren a causa del fármaco antes de que el experimento haya concluido. Si se trata a 10 animales con el fármaco, ¿cuál es la probabilidad de que al menos 8 lleguen vivas al final del experimento? Ejercicio 6.2. En una cierta población se ha observado un número medio anual de muertes por cáncer de pulmón de 12. Si el número de muertes causadas por la enfermedad sigue una distribución de Poisson, ¿cuál es la probabilidad de que durante el año en curso: 160 Bioestadı́stica: Métodos y Aplicaciones 1. Haya exactamente 10 muertes por cáncer de pulmón? 2. 15 o más personas mueran a causa de la enfermedad? 3. 10 o menos personas mueran a causa de la enfermedad? Ejercicio 6.3. Dañando los cromosomas del óvulo o del espermatozoide, pueden causarse mutaciones que conducen a abortos, defectos de nacimiento, u otras deficiencias genéticas. La probabilidad de que tal mutación se produzca por radiación es del 10 %. De las siguientes 150 mutaciones causadas por cromosomas dañados, ¿cuántas se esperarı́a que se debiesen a radiaciones? ¿Cuál es la probabilidad de que solamente 10 se debiesen a radiaciones? Ejercicio 6.4. Entre los diabéticos, el nivel de glucosa en sangre X, en ayunas, puede suponerse de distribución aproximadamente normal, con media 106 mg/100 ml y desviación tı́pica 8 mg/100 ml, es decir X❀N µ = 106, σ 2 = 64 1. Hallar P[X ≤ 120] 2. ¿Qué porcentaje de diabéticos tienen niveles comprendidos entre 90 y 120 ? 3. Hallar P[106 ≤ X ≤ 110]. 4. Hallar P[X ≤ 121]. 5. Hallar el punto x caracterizado por la propiedad de que el 25 % de todos los diabéticos tiene un nivel de glucosa en ayunas inferior o igual a x. Ejercicio 6.5. Una prueba de laboratorio para detectar heroı́na en sangre tiene un 92 % de precisión. Si se analizan 72 muestras en un mes, ¿cuál es la probabilidad de que: 6.4. PROBLEMAS 161 1. 60 o menos estén correctamente evaluadas? 2. menos de 60 estén correctamente evaluadas? 3. exactamente 60 estén correctamente evaluadas? Ejercicio 6.6. El 10 % de las personas tiene algún tipo de alergia. Se seleccionan aleatoriamente 100 individuos y se les entrevista. Hallar la probabilidad de que, al menos, 12 tengan algún tipo de alergia. Hallar la probabilidad de que, como máximo, 8 sean alérgicos a algo. Ejercicio 6.7. La probabilidad de muerte resultante del uso de pı́ldoras anticonceptivas es de 3/100,000. De 1,000,000 de mujeres que utilizan este medio de control de natalidad: 1. ¿Cuántas muertes debidas a esta causa se esperan? 2. ¿Cuál es la probabilidad de que haya, como máximo, 25 de estas muertes? 3. ¿Cuál es la probabilidad de que el número de muertes debidas a esta causa esté entre 25 y 35, inclusive? Ejercicio 6.8. La probabilidad de presentar una caracterı́stica genética es de 1/20. 1. Tomando una muestra de 8 individuos, calcular la probabilidad de que 3 individuos presenten la caracterı́stica. 2. Tomando una muestra de 80 personas, ¿cuál será la probabilidad de que aparezcan más de 5 individuos con la caracterı́stica? Ejercicio 6.9. Se supone que en una cierta población humana el ı́ndice cefálico i, (cociente entre el diámetro transversal y el longitudinal expresado en tanto por ciento), se distribuye según una Normal. El 58 % de los 162 Bioestadı́stica: Métodos y Aplicaciones habitantes son dolicocéfalos (i ≤ 75), el 38 % son mesocéfalos (75 < i ≤ 80) y el 4 % son braquicéfalos (i > 80). Hállese la media y la desviación tı́pica del ı́ndice cefálico en esa población. Ejercicio 6.10. Se supone que la glucemia basal en individuos sanos, Xs sigue una distribución Xs ❀N (µ = 80, σ = 10), mientras que en los diabéticos Xd , sigue una distribución Xd ❀N (µ = 160, σ = 31, 4). Si se conviene en clasificar como sanos al 2 % de los diabéticos: 1. ¿Por debajo de qué valor se considera sano a un individuo? ¿Cuántos sanos serán clasificados como diabéticos? 2. Se sabe que en la población en general el 10 % de los individuos son diabéticos ¿cuál es la probabilidad de que un individuo elegido al azar y diagnosticado como diabético, realmente lo sea? Ejercicio 6.11. Supóngase que se van a utilizar 20 ratas en un estudio de agentes coagulantes de la sangre. Como primera experiencia, se dio un anticoagulante a 10 de ellos, pero por inadvertencia se pusieron todas sin marcas en el mismo recinto. Se necesitaron 12 ratas para la segunda fase del estudio y se les tomó al azar sin reemplazamiento. ¿Cuál es la probabilidad de que de las 12 elegidas 6 tengan la droga y 6 no la tengan? Capı́tulo 7 Introducción a la inferencia 7.1. Introducción El propósito de un estudio estadı́stico suele ser, como hemos venido citando, extraer conclusiones acerca de la naturaleza de una población. Al ser la población grande y no poder ser estudiada en su integridad en la mayorı́a de los casos, las conclusiones obtenidas deben basarse en el examen de solamente una parte de ésta, lo que nos lleva, en primer lugar a la justificación, necesidad y definición de las diferentes técnicas de muestreo. Los primeros términos obligados a los que debemos hacer referencia, definidos en el primer capı́tulo, serán los de estadı́stico y estimador. Dentro de este contexto, será necesario asumir un estadı́stico o estimador como una variable aleatoria con una determinada distribución, y que será la pieza clave en las dos amplias categorı́as de la inferencia estadı́stica: la estimación y el contraste de hipótesis. El concepto de estimador, como herramienta fundamental, lo caracterizamos mediante una serie de propiedades que nos servirán para elegir el “mejor”para un determinado parámetro de una población, ası́ como algunos métodos para la obtención de ellos, tanto en la estimación puntual como por intervalos. En el capı́tulo anterior dedujimos ciertas leyes de probabilidad mediante un método deductivo a partir del conocimiento del mecanismo generador 163 164 Bioestadı́stica: Métodos y Aplicaciones de los sucesos aleatorios. De este modo pudimos deducir las leyes de probabilidad binomial o hipergeométrica por ejemplo. Ası́ una vez precisamente determinada la ley probabilı́stica que subyace en el experimento aleatorio, podemos obtener muestras de la v.a. siguiendo esa ley de probabilidad. En este momento nos interesamos por el proceso contrario, es decir: ¿Cómo deducir la ley de probabilidad sobre determinado carácter de una población cuando sólo conocemos una muestra? Este es un problema al que nos enfrentamos cuando por ejemplo tratamos de estudiar la relación entre el fumar y el cáncer de pulmón e intentamos extender las conclusiones obtenidas sobre una muestra al resto de individuos de la población. La tarea fundamental de la estadı́stica inferencial, es hacer inferencias acerca de la población a partir de una muestra extraı́da de la misma. 7.2. Técnicas de muestreo sobre una población La teorı́a del muestreo tiene por objetivo, el estudio de las relaciones existentes entre la distribución de un carácter en dicha población y las distribuciones de dicho carácter en todas sus muestras. Las ventajas de estudiar una población a partir de sus muestras son principalmente: Coste reducido: Si los datos que buscamos los podemos obtener a partir de una pequeña parte del total de la población, los gastos de recogida y tratamiento de los datos serán menores. Por ejemplo, cuando se realizan encuestas previas a un referéndum, es más barato preguntar a 4,000 personas su intención de voto, que a 30,000,000; Mayor rapidez: Estamos acostumbrados a ver cómo con los resultados del escrutinio de las primeras mesas electorales, se obtiene una aproximación bastante buena del resultado final de unas elecciones, muchas horas antes de que el recuento final de votos haya finalizado; Más posibilidades: Para hacer cierto tipo de estudios, por ejemplo el de duración de cierto tipo de bombillas, no es posible en la práctica 7.2. TÉCNICAS DE MUESTREO SOBRE UNA POBLACIÓN 165 destruirlas todas para conocer su vida media, ya que no quedarı́a nada que vender. Es mejor destruir sólo una pequeña parte de ellas y sacar conclusiones sobre las demás. De este modo se ve que al hacer estadı́stica inferencial debemos enfrentarnos con dos problemas: Elección de la muestra (muestreo), que es a lo que nos dedicaremos en este capı́tulo. Extrapolación de las conclusiones obtenidas sobre la muestra, al resto de la población (inferencia). El tipo de muestreo más importante es el muestreo aleatorio, en el que todos los elementos de la población tienen la misma probabilidad de ser extraı́dos; Aunque dependiendo del problema y con el objetivo de reducir los costes o aumentar la precisión, otros tipos de muestreo pueden ser considerados como veremos más adelante: muestreo sistemático, estratificado y por conglomerados. 7.2.1. Muestreo aleatorio Consideremos una población finita, de la que deseamos extraer una muestra. Cuando el proceso de extracción es tal que garantiza a cada uno de los elementos de la población la misma oportunidad de ser incluidos en dicha muestra, denominamos al proceso de selección muestreo aleatorio. El muestreo aleatorio se puede plantear bajo dos puntos de vista: Sin reposición de los elementos; Con reposición. Muestreo aleatorio sin reposición Consideremos una población E formada por N elementos. Si observamos un elemento particular, e ∈ E, en un muestreo aleatorio sin reposición se da la siguiente circunstancia: 166 Bioestadı́stica: Métodos y Aplicaciones La probabilidad de que e sea elegido en primer lugar es 1 N; Si no ha sido elegido en primer lugar (lo que ocurre con una probabilidad de NN−1 ), la probabilidad de que sea elegido en el segundo intento es de N 1−1 . en el (i + 1)–ésimo intento, la población consta de N − i elementos, con lo cual si e no ha sido seleccionado previamente, la probabilidad de que lo sea en este momento es de N1−i . Muestreo aleatorio con reposición Sobre una población E de tamaño N podemos realizar extracciones de n elementos, pero de modo que cada vez el elemento extraı́do es repuesto al total de la población. De esta forma un elemento puede ser extraı́do varias veces. El muestreo aleatorio con reposición es también denominado muestreo aleatorio simple, y se caracteriza porque cada elemento de la población tiene la misma probabilidad de ser elegido, y las observaciones se realizan con reemplazamiento. De este modo, cada observación es realizada sobre la misma población (que no disminuye con las extracciones sucesivas). 7.2.2. Muestreo aleatorio estratificado Un muestreo aleatorio estratificado es aquel en el que se divide la población de N individuos, en k subpoblaciones o estratos, atendiendo a criterios que puedan ser importantes en el estudio, de tamaños respectivos N1 , . . . , Nk , N = N1 + N2 + · · · + Nk y realizando en cada una de estas subpoblaciones muestreos aleatorios simples de tamaño ni i = 1, . . . , k. A continuación nos planteamos el problema de cuantos elementos de muestra se han de elegir de cada uno de los estratos. Para ello tenemos 7.2. TÉCNICAS DE MUESTREO SOBRE UNA POBLACIÓN 167 fundamentalmente dos técnicas: la asignación proporcional y la asignación optima. Asignación proporcional Sea n el número de individuos de la población total que forman parte de alguna muestra: n = n1 + n2 + · · · + nk Cuando la asignación es proporcional el tamaño de la muestra de cada estrato es proporcional al tamaño del estrato correspondiente con respecto a la población total: ni = n · Ni N Asignación óptima Cuando se realiza un muestreo estratificado, los tamaños muestrales en cada uno de los estratos, ni , los elige quien hace el muestreo, y para ello puede basarse en alguno de los siguientes criterios: Elegir los ni de tal modo que se minimice la varianza del estimador, para un coste especificado, o bien, habiendo fijado la varianza que podemos admitir para el estimador, minimizar el coste en la obtención de las muestras. Ası́ en un estrato dado, se tiende a tomar una muestra más grande cuando: El estrato es más grande; El estrato posee mayor variabilidad interna (varianza); El muestreo es más barato en ese estrato. 168 Bioestadı́stica: Métodos y Aplicaciones 7.2.3. Muestreo sistemático Cuando los elementos de la población están ordenados en fichas o en una lista, una manera de muestrear consiste en h i Sea k = N n ; Elegir aleatoriamente un número m, entre 1 y k; Tomar como muestra los elementos de la lista: n em , em+k , em+2k , . . . , em+(n−1)k o Esto es lo que se denomina muestreo sistemático. Cuando el criterio de ordenación de los elementos en la lista es tal que los elementos más parecidos tienden a estar más cercanos, el muestreo sistemático suele ser más preciso que el aleatorio simple, ya que recorre la población de un modo más uniforme. Por otro lado, es a menudo más fácil no cometer errores con un muestreo sistemático que con este último. El método tal como se ha definido anteriormente es sesgado si N n no es entero, ya que los últimos elementos de la lista nunca pueden ser escogidos. Un modo de evitar este problema consiste en considerar la lista como si fuese circular (el elemento N + 1 coincide con el primero) y: Sea k el entero más cercano a N n; Se selecciona un número al azar m, entre 1 y N ; Se toma como muestra los elementos de la lista que consisten en ir saltando de k elementos en k, a partir de m, teniendo en cuenta que la lista es circular. Se puede comprobar que con este método todos los elementos de la lista tienen la misma probabilidad de selección. 7.3. PROPIEDADES DESEABLES DE UN ESTIMADOR 7.2.4. 169 Muestreo por conglomerados Si intentamos hacer un estudio sobre los habitantes de una ciudad, el muestreo aleatorio simple puede resultar muy costoso, ya que estudiar una muestra de tamaño n implica enviar a los encuestadores a n puntos distintos de la misma, de modo que en cada uno de ellos sólo se realiza una entrevista. En esta situación es más económico realizar el denominado muestreo por conglomerados, que consiste en elegir aleatoriamente ciertos barrios dentro de la ciudad, para después elegir calles y edificios. Una vez elegido el edificio, se entrevista a todos los vecinos. 7.3. Propiedades deseables de un estimador Sea X una v.a. cuya función de probabilidad (o densidad de probabilidad si es continua) depende de unos parámetros θ1 , . . . , θk desconocidos. f (x; θ1 , θ2 , . . . , θk ) Representamos mediante X1 , . . . , Xn una muestra aleatoria simple de la variable. Denotamos mediante fc a la función de densidad conjunta de la muestra, que por estar formada por observaciones independientes, puede factorizarse del siguiente modo: fc (x1 , x2 , . . . , xn ; θ1 , . . . , θk ) = f (x1 ; θ1 , . . . , θk )·f (x2 ; θ1 , . . . , θk ) · · · f (xn ; θ1 , . . . , θk ) Se denomina estimador de un parámetro θi , a cualquier v.a. θ̂i que se exprese en función de la muestra aleatoria y que tenga por objetivo aproximar el valor de θi , θ̂i (X1 , . . . , Xn ) ←− estimador de θi . (7.1) Obsérvese que el estimador no es un valor concreto sino una variable aleatoria, ya que aunque depende unı́vocamente de los valores de la muestra observados (Xi = xi ), la elección de la muestra es un proceso aleatorio. Una vez que la muestra ha sido elegida, se denomina estimación el valor numérico que toma el estimador sobre esa muestra. 170 Bioestadı́stica: Métodos y Aplicaciones Intuitivamente, las caracterı́sticas que serı́an deseables para esta nueva variable aleatoria (que usaremos para estimar el parámetro desconocido) deben ser: Consistencia: Cuando el tamaño de la muestra crece arbitrariamente, el valor estimado se aproxima al parámetro desconocido. Carencia de sesgo: El valor medio que se obtiene de la estimación para diferentes muestras debe ser el valor del parámetro. Eficiencia: Al estimador, al ser v.a., no puede exigı́rsele que para una muestra cualquiera se obtenga como estimación el valor exacto del parámetro. Sin embargo podemos pedirle que su dispersión con respecto al valor central (varianza) sea tan pequeña como sea posible. Suficiencia: El estimador deberı́a aprovechar toda la información existente en la muestra. 7.3.1. Estimadores de máxima verosimilitud Sea X una v.a. con función de probabilidad f (x; θ) Las muestras aleatorias simples de tamaño n, X1 , X2 , . . . , Xn tienen por distribución de probabilidad conjunta fc (x1 , x2 , . . . , xn ; θ) = f (x1 , x2 , . . . , xn ; θ)f (x1 ; θ) · f (x2 ; θ) · · · f (xn ; θ) Esta función que depende de n + 1 cantidades podemos considerarla de dos maneras: Fijando θ, es una función de las n cantidades xi . Esto es la función de probabilidad o densidad. Fijados los xi como consecuencia de los resultados de elegir una muestra mediante un experimento aleatorio, es únicamente función de θ. A esta función de θ la denominamos función de verosimilitud. 7.3. PROPIEDADES DESEABLES DE UN ESTIMADOR 171 En este punto podemos plantearnos el que dado una muestra sobre la que se ha observado los valores xi , una posible estimación del parámetro es aquella que maximiza la función de verosimilitud. (cf. figura 7.1) x1 , . . . , xn fijados =⇒ Verosimilitud ≡ V (θ) = f (x1 , x2 , . . . , xn ; θ) Figura 7.1: La función de verosimilitud se obtiene a partir de la función de densidad, intercambiando los papeles entre parámetro y estimador. En una función de verosimilitud consideramos que las observaciones x1 , . . . , xn ,están fijadas, y se representa la gráfica con el valor de los valores que tomarı́a la función de densidad para todos los posibles valores del parámetro θ. El estimador máximo verosı́mil del parámetro buscado, θ̂MV , es aquel que maximiza su función de verosimilitud, V (θ). Como es lo mismo maximizar una función que su logaritmo (al ser este una función estrictamente creciente), este máximo puede calcularse derivando con respecto a θ la función de verosimilitud ( bien su logaritmo) y tomando como estimador máximo verosı́mil al que haga la derivada nula: ∂ log V θ̂MV = 0. ∂θ De modo más preciso, se define el estimador máximo verosı́mil como la v.a. θ̂MV = máx f (X1 , X2 , . . . , Xn ; θ̃) θ̃∈IR 172 Bioestadı́stica: Métodos y Aplicaciones Los estimadores de máxima verosimilitud tienen ciertas propiedades en general que a continuación enunciamos: 1. Son consistentes; 2. Son invariantes frente a transformaciones biunı́vocas, es decir, si θ̂MV es el estimador máximo verosı́mil de θ y g(θ̃) es una función biunı́voca de θ̃, entonces g(θ̂MV ) es el estimador máximo verosı́mil de g(θ). 3. Si θ̂ es un estimador suficiente de θ, su estimador máximo verosı́mil, θ̂MV es función de la muestra a través de θ̂; 4. Son asintóticamente normales; 5. Son asintóticamente eficientes, es decir, entre todos los estimadores consistentes de un parámetro θ, los de máxima verosimilitud son los de varianza mı́nima. 6. No siempre son insesgados. 7.3.2. Algunos estimadores fundamentales Vamos a estudiar las propiedades de ciertos estimadores que por su importancia en las aplicaciones resultan fundamentales: estimadores de la esperanza matemática y varianza de una distribución de probabilidad. Estimador de la esperanza matemática Consideremos las muestras de tamaño n, X1 , X2 , . . . , Xn , de un carácter sobre una población que viene expresado a través de una v.a. X que posee momentos de primer y segundo orden, es decir, existen E [X] y Var [X]: X1 , X2 , . . . , Xn ,    E [Xi ] = µ   Var [X ] = σ 2 i El estimador media muestral que denotaremos normalmente como X (en lugar de µ̂ es 7.3. PROPIEDADES DESEABLES DE UN ESTIMADOR X= 173 1 (X1 + X2 + · · · + Xn ) n verifica: h i E X =µ h i Var X = σ2 n Por tanto es un estimador insesgado. Si además sabemos que X se distribuye según una ley gaussiana, se puede comprobar que coincide con el estimador de máxima verosimilitud: Proposición σ2 Xi ❀N (µ, σ) =⇒ X ≡ µ̂MV ❀N µ, n ! Estimador de la varianza Al elegir un estimador de σ 2 = Var [X], podemos comenzar con el estimador más natural (que es el estimador máximo verosimil) sin embargo éste no es insesgado, ya que el valor esperado del estimador S2 = n 1X (Xi − X)2 n i=1 se demuestra que es (n − 1)/n · σ 2 . De esta manera, para conseguir un estimador insesgado de la varianza se introduce la cuasivarianza muestral: n S2 (7.2) Ŝ 2 = n−1 la cual presenta como valor esperado σ 2 . Se puede comprobar además que (n − 1)Ŝ 2 ❀χn−1 σ2 174 Bioestadı́stica: Métodos y Aplicaciones Capı́tulo 8 Estimación confidencial 8.1. Introducción En el capı́tulo anterior establecimos toda la teorı́a que concierne a la definición y concepto de un estimador puntual, ası́ como las propiedades deseables que debe verificar para considerar el producto una “buena.estimación del parámetro. Existen, no obstante, multitud de circunstancias en las que el interés de un estudio no estriba tanto en obtener una estimación puntual para un parámetro, como determinar un posible “rango”de valores o “intervalo.en los que pueda precisarse, con una determinada probabilidad, que el verdadero valor del parámetro se encuentra dentro de esos lı́mites. Las técnicas que abordan este tipo de situaciones, se encuadran dentro de la estadı́stica Inferencial bajo el tı́tulo de “Estimación Confidencial.o “Estimación por Intervalos de Confianza”. El desarrollo teórico de como llega a constituirse un intervalo, realizado en el caso más intuitivo y sencillo, ası́ como los intervalos de confianza para los parámetros más usuales: medias, varianzas y proporciones, para una y dos poblaciones, son el objetivo de este capı́tulo. Para ello empezamos bajo el supuesto de que nuestra variable en estudio es una variable aleatoria que sigue una distribución cualquiera Nuestro objetivo será determinar los lı́mites del intervalo de confianza para éstos. 175 176 Bioestadı́stica: Métodos y Aplicaciones Sea X❀Fam (θ) una v.a. de cierta familia, que se distribuye según un parámetro θ que desconocemos. Para estimar dicho parámetro a partir de una muestra aleatoria simple ~ def X ≡ X1 , X2 , . . . , Xn ~ y hemos enunciado las buenas hemos definido lo que es un estimador θ̂(X) propiedades que es deseable que posea. Cuando se realiza el experimento aleatorio de extraer una muestra concreta de la población, el estimador (que a veces denominaremos estimador puntual) nos da una aproximación de θ.      X1 = x1   X2 = x2 ... Xn = xn       =⇒θ̂(x1 , x2 , . . . , xn ) ≈ θ | {z } ~ x=(x1 ,x2 ,...,xn ) Esto es lo que se denomina estimación puntual, pues se asigna un punto como estimación del valor del parámetro. La estimación confidencial o estimación por intervalos de confianza asigna un conjunto de valores como estimación del parámetro, que ~ generalmente tiene forma de intervalo: I(X). ~ es un intervalo aleatorio al nivel de significación Diremos que I(X) α, o equivalentemente, intervalo aleatorio al nivel de confianza 1 − α si h i ~ ≥ 1 − α, P θ ∈ I(X) o lo que es lo mismo h i ~ < α. P θ ∈\I(X) 8.2. INTERVALOS DE CONFIANZA PARA LA DISTRIBUCIÓN NORMAL 177 ~ tiene una probabilidad menor del Cuando un intervalo aleatorio I(X) 100 · α % de que el parámetro no esté en el intervalo decimos que el intervalo es de confianza 1 − α, o de significación α. ~ es un conEs importante comprender correctamente esta idea: I(X) junto aleatorio que depende de la muestra elegida. Por tanto para cada muestra tenemos un intervalo de confianza diferente. Si elegimos un nivel de confianza por ejemplo de α = 95 %, y encontramos (mediante la técnica que sea) intervalos de confianza al 95 % que se correspondan con cada una de las muestras, lo que sabemos es que en el 95 % de los casos los intervalos de confianza dieron una respuesta correcta. En el 5 % restante se obtuvo una respuesta incorrecta. Cuando una muestra ha sido elegida mediante un muestreo aleatorio simple, no tiene sentido decir θ ∈ I(~x) con probabilidad 1 − α, pues sólo puede ocurrir que (fijada la muestra) el parámetro esté o que no esté dentro del intervalo. Sin embargo por comodidad a veces se utiliza esa expresión, donde lo que queremos con esa frase es expresar la idea de que “si hubiésemos tomados muestras del mismo tamaño en una gran cantidad de ocasiones, hubiésemos acertado por lo menos en un 100 · (1 − α) % de las ocasiones al decir que el parámetro estaba en el intervalo que cada muestra suministra”. 8.2. Intervalos de confianza para la distribución normal Dada una variable aleatoria de distribución gaussiana X❀N µ, σ 2 , nos interesamos en primer lugar, en calcular intervalos de confianza para sus dos parámetros, µ y σ 2 . He aquı́ un resumen de las situaciones que consideraremos: a la media si se conoce la varianza: Este no es un caso práctico (no se puede conocer σ 2 sin conocer previamente µ), pero sirve para introducirnos en el problema de la estimación confidencial de la media; 178 Bioestadı́stica: Métodos y Aplicaciones anza para la media (caso general): Este se trata del caso con verdadero interés práctico. Por ejemplo sirve para estimar intervalos que contenga la media del colesterol en sangre en una población, la altura, el peso, etc, cuando disponemos de una muestra de la variable. valo de confianza para la varianza: Éste es otro caso de interés en las aplicaciones. El objetivo es calcular un intervalo de confianza para σ 2 , cuando sólo se dispone de una muestra. Estimación de tamaño muestral La utilidad consiste en decidir cuál deberá ser el tamaño necesario de una muestra para obtener intervalos de confianza para una media, con precisión y significación dadas de antemano. Para que esto sea posible es necesario poseer cierta información previa, que se obtiene a partir de las denominadas muestras piloto. Más adelante, consideramos el caso en que tenemos dos poblaciones 2 donde cada una sigue su propia ley de distribución N µ1 , σ1 y N µ2 , σ22 . Los problemas asociados a este caso son ferencia de medias homocedásticas Se realiza el cálculo del intervalo de confianza suponiendo que ambas variables tienen la misma varianza, es decir son homocedásticas. En la práctica se usa este cálculo, cuando ambas variables tienen parecida dispersión. Diferencia de medias (caso general) Es el mismo caso que el anterior, pero se realiza cuando se observa que hay diferencia notable en la dispersión de ambas variables. 8.2.1. Intervalo para la media si se conoce la varianza Este caso que planteamos es más a nivel teórico que práctico: difı́cilmente vamos a poder conocer con exactitud σ 2 mientras que µ es desconocido. Sin embargo nos aproxima del modo más simple a la estimación confidencial de medias. Para estimar µ, el estadı́stico que mejor nos va a ayudar es X, del que 8.2. INTERVALOS DE CONFIANZA PARA LA DISTRIBUCIÓN NORMAL 179 conocemos su ley de distribución: X❀ σ2 N µ, n | {z ! } un parámetro desconocido Esa ley de distribución depende de µ (desconocida). Lo más conveniente es hacer que la ley de distribución no dependa de ningún parámetro desconocido, para ello tipificamos: Z= X −µ √σ n | {z } par. desconocido + estimador + cosas conocidas ❀ N (0, 1) | {z } tabulada Este es el modo en que haremos siempre la estimación puntual: buscaremos una relación en la que intervengan el parámetro desconocido junto con su estimador y de modo que estos se distribuyan según una ley de probabilidad que es bien conocida y a ser posible tabulada. De este modo, fijado α ∈ (0, 1), consideramos la v.a. Z❀N (0, 1) y tomamos un intervalo que contenga una masa de probabilidad de 1 − α. Este intervalo lo queremos tan pequeño como sea posible. Por ello lo mejor es tomarlo simétrico con respecto a la media (0), ya que allı́ es donde se acumula más masa (véase la figura 8.1). Ası́ las dos colas de la distribución (zonas más alejadas de la media) se repartirán a partes iguales el resto de la masa de probabilidad, α. Vamos a precisar cómo calcular el intervalo de confianza: Sea zα/2 el percentil 100 · α2 de Z, es decir, aquel valor de IR que deja por debajo de si la cantidad α2 de la masa de probabilidad de Z, es decir: Bioestadı́stica: Métodos y Aplicaciones 0.1 0.2 0.3 0.4 180 Intervalo de confianza 1 − α 0.0 zα −3 −2 z1−α 2 −1 0 1 2 2 3 Figura 8.1: La distribución N (0, 1) y el intervalo más pequeño posible cuya probabilidad es 1 − α. Por simetrı́a, los cuantiles zα/2 y z1−α/2 sólo difieren en el signo. P[Z ≤ zα/2 ] = Sea z1−α/2 el percentil 100 · 1−α 2 , α 2 es decir, P[Z ≤ z1−α/2 ] = 1 − α 2 Es útil considerar en este punto la simetrı́a de la distribución normal, y observar que los percentiles anteriores son los mismos aunque con el signo cambiado: zα/2 = −z1−α/2 El intervalo alrededor del origen que contiene la mayor parte de la masa de probabilidad (1 − α) es el intervalo siguiente (cf. Figura 8.1): 8.2. INTERVALOS DE CONFIANZA PARA LA DISTRIBUCIÓN NORMAL 181 h i h zα/2 , z1−α/2 = −z1−α/2 , z1−α/2 lo que habitualmente escribiremos como: i |Z| ≤ z1−α/2 De este modo podemos afirmar que existe una probabilidad de 1 − α de que al extraer una muestra aleatoria de la variable en estudio, ocurra: |Z| ≤ z1−α/2 ⇒ ⇒ ⇒ X −µ ≤ z1−α/2 √σ n σ X − µ ≤ z1−α/2 · √ n De este modo un intervalo de confianza al nivel 1 − α para la esperanza de una normal de varianza conocida es el comprendido entre los valores σ xα/2 = X − z1−α/2 · √ n σ x1−α/2 = X + z1−α/2 · √ n σ µ = X ± z1−α/2 · √ n (8.1) Ejemplo Se sabe que el peso de los recién nacidos sigue una distribución normal con una desviación tı́pica de 0,75 kg. Si en una muestra aleatoria simple de 182 Bioestadı́stica: Métodos y Aplicaciones 100 de ellos se obtiene una media muestral de 3 kg, y una desviación tı́pica de 0,5 kg, calcular un intervalo de confianza para la media poblacional que presente una confianza del 95 %. Solución: En primer lugar hay que mencionar que la situación planteada no es habitual, ya que si somos capaces de obtener σ = 0, 75, es natural que hayamos podido calcular tambien µ, y no necesitariamos una muestra aleatoria para estimar µ confidencialmente. Esto ocurre porque el ejemplo tiene utilidad puramente académica. Para calcular µ usamos el estadı́stico: Z= X −µ √ ❀N (0, 1) σ/ n que como se observa no depende de la dispersión de la muestra, ya que tenemos la “fortuna” de disponer de la dispersión exacta de la población. Esto no es lo habitual en una situación práctica, y como veremos más adelante, el papel del la dispersión exacta de la población (desconocido) será sustituido por el de la dispersión de la muestra. Un intervalo de confianza al 95 % se calcula teniendo en cuenta que Z❀N (0, 1), y dicha distribución presenta un 95 % de probabilidad de ocurrir entre sus cuantiles z0,025 = −1, 96 y z0,975 = 1, 96 (son de signo opuesto por simetrı́a de la distribución normal). Luego con una confianza del 95 % ocurre: σ −1, 96 ≤ Z ≤ +1, 96 ⇔ |Z| ≤ +1, 96 ⇔ |x−µ| ≤ +1, 96 √ ⇔ |µ−3| ≤ 0, 147 n Es decir con una confianza del 95 % tenemos que µ = 3±0, 147kg. Esto debe ser interpretado como que la técnica que se usa para el calcular el intervalo de confianza da una respuesta correcta en 95 de cada 100 estudios basados en una muestra aleatoria simple diferente sobre la misma población. 8.2.2. Intervalo para la media (caso general) El intervalo de confianza al nivel 1 − α para la esperanza de una distribución gaussiana cuando sus parámetros son desconocidos es: 8.2. INTERVALOS DE CONFIANZA PARA LA DISTRIBUCIÓN NORMAL 183 distrib. media muestral distrib. muestra 2.0 2.5 3.0 3.5 4.0 Figura 8.2: Un intervalo de confianza para la media podemos visualizarlo como el que corresponderı́a a una distribución normal con el mismo centro √ que la de la población, pero cuya desviación está reducida en n. µ = X ± tn−1,1−α/2 · √Ŝ n Ejemplo Se sabe que el peso de los recién nacidos sigue una distribución normal. Si en una muestra aleatoria simple de 100 de ellos se obtiene una media muestral de 3 kg, y una desviación tı́pica de 0,5 kg, calcular un intervalo de confianza para la media poblacional que presente una confianza del 95 %. Solución: Para calcular µ usamos el estadı́stico: T = X −µ √ ❀tn−1 Ŝ/ n que a diferencia del ejemplo mencionado anteriormente, no depende se σ 184 Bioestadı́stica: Métodos y Aplicaciones (desconocido) si no de su estimación puntual insesgada: Ŝ = q n/(n − 1) S = q 100/99 0, 5 = 0,503 Un intervalo de confianza al 95 % se calcula teniendo en cuenta que T ❀tn−1 , y dicha distribución presenta un 95 % de probabilidad de ocurrir entre sus cuantiles Tn−1;0,025 = −1, 98 y Tn−1;0,975 = 1, 98 (son de signo opuesto por simetrı́a de la distribución de Student). Luego con una confianza del 95 % ocurre: Ŝ |x − µ| ≤ +1, 98 √ ⇔ |µ − 3| ≤ 0, 1 n Es decir con una confianza del 95 % tenemos que µ = 3 ± 0, 1kg. Ejemplo Se quiere estimar un intervalo de confianza al nivel de significación α = 0, 05 para la altura media µ de los individuos de una ciudad. En principio sólo sabemos que la distribución de las alturas es una v.a. X de distribución normal. Para ello se toma una muestra de n = 25 personas y se obtiene x = 170 cm S = 10 cm Solución: Este ejemplo es similar al anterior, pero vamos a resolverlo de una manera más detallada. En primer lugar, en estadı́stica inferencial, los estadı́sticos para medir la dispersión más convenientes son los insesgados. Por ello vamos a dejar de lado la desviación tı́pica muestral, para utilizar la cuasidesviación tı́pica: S = 10 =⇒ Ŝ = S r n = 10 n−1 r 25 = 10′ 206 24 8.2. INTERVALOS DE CONFIANZA PARA LA DISTRIBUCIÓN NORMAL 185 µ = 170 ± 2, 06 · 10, 206 = 170 ± 4, 204 5 o dicho de forma más precisa: Con un nivel de confianza del 95 % podemos decir que la media poblacional está en el intervalo siguiente: µ ∈ [165, 796 ; 174, 204] Ejemplo Este ejemplo se puede considerar como una introducción a los contrastes de hipótesis. La variable IL se presenta en los niños recién nacidos con una distribución normal de media 2,5. En un grupo de 31 niños con sepsis neonatal se encuentra que el valor medio de IL es de x = 1, 8 y Ŝ = 0, 2. ¿Cree que presenta la presencia de sepsis neonatal afecta el valor de IL? Solución: Si no hubiese relación entre la sepsis neonatal y el valor de IL deberı́a ocurrir que el valor de IL en niños nacidos con sepsis se comporte del mismo modo que en los niños normales. Por tanto deberı́a seguir una distribución normal. Además un intervalo de confianza al 95 % para la media de la población de niños sépticos, calculado a partir de los datos de la muestra deberı́a contener (con una confianza del 95 %) a la media de la población de niños normales. Si no fuese ası́ habrı́a que pensar que la variable IL está relacionada con la presencia de sepsis. Calculemos el intervalo de confianza para la media de los niños con sepsis. Para ello elegimos el estadistico más adecuado a los datos que poseemos: T = x−µ √ ❀t30 Ŝ/ 31 Un intervalo de confianza al 95 % se calcula teniendo en cuenta que T ❀t30 , y dicha distribución presenta un 95 % de probabilidad de ocurrir entre sus cuantiles T30;0,025 = −2, 04 y T30;0,975 = 2, 04 (son de signo opuesto por simetrı́a de la distribución de Student). Luego con una confianza del 95 % ocurre: 186 Bioestadı́stica: Métodos y Aplicaciones 0, 2 |1, 8 − µ| ≤ +2, 04 √ ⇔ |µ − 1, 8| ≤ 0, 07 31 Por tanto podemos afirmar (con una confianza del 95 %) que la media poblacional de los niños con sepsis estarı́a comprendida entre los valores 1,73 y 1,87, que están muy alejados de 2,5 (media de los niños normales). Por tanto, podemos afirmar con una confianza del 95 % que están relacionados la IL y la sépsis en niños recien nacidos. 8.2.3. Intervalo de confianza para la varianza Un intervalo de confianza al nivel 1 − α para la varianza de una distribución gaussiana (cuyos parámetros desconocemos) lo obtenemos como σ2 " (n − 1)Ŝ 2 (n − 1)Ŝ 2 , ∈ χ2n−1,1−α/2 χ2n−1,α/2 # Ejemplo Se estudia la altura de los individuos de una ciudad, obteniéndose en una muestra de tamaño 25 los siguientes valores: x = 170 cm S = 10 cm Calcular un intervalo de confianza con α = 0, 05 para la varianza σ 2 de la altura de los individuos de la ciudad. Solución: σ 2 ∈ [63, 45 ; 201, 60] Por tanto, para el valor poblacional de la desviación tı́pica tenemos que 8.2. INTERVALOS DE CONFIANZA PARA LA DISTRIBUCIÓN NORMAL 187 7, 96 ≤ σ ≤ 14, 199 con una confianza del 95 %, que por supuesto contiene a las estimaciones puntuales S = 10 y Ŝ = 10, 206 calculados sobre la muestra. 8.2.4. Estimación del tamaño muestral Antes de realizar un estudio de inferencia estadı́stica sobre una variable, lo primero es decidir el número de elementos, n, a elegir en la muestra aleatoria. Para ello consideremos que el estudio se basara en una variable de distribución normal, y nos interesa obtener para un nivel de significación α dado, una precisión (error) d. Para ello, recordemos que un intervalo de confianza para una media en el caso general se escribe como: Ŝ µ = X ± tn−1,1−α/2 · √ n | {z precisión d } Si n es suficientemente grande, la distribución t de Student se aproxima a la distribución normal. Luego una manera de obtener la precisión buscada consiste en elegir n con el siguiente criterio: 2 z1−α/2 Ŝ 2 n≥ d2 Donde Ŝ 2 es una estimación puntual a priori de la varianza de la muestra. Para obtenerla nos podemos basar en una cota superior conocida por nuestra experiencia previa, o simplemente, tomando una muestra piloto que sirve para dar una idea previa de los parámetros que describen una población. Ejemplo En los últimos ejemplos se ha estudiado la variable altura de los individuos de una población, considerando que ésta es una variable que se 188 Bioestadı́stica: Métodos y Aplicaciones ? z }| X❀ N µ, σ 2 {        ← población normal     X ← media de la muestra Ŝ 2 ← cuasivarianza de la muestra n ← tamaño de la muestra           Intervalos de confianza Para µ cuando σ 2 se conoce µ ∈ X ± z1−α/2 · √σ n Para µ cuando σ 2 no se conoce Ŝ µ ∈ X ± tn−1,1−α/2 · √ n Para σ 2 con µ desconocido " (n − 1)Ŝ 2 (n − 1)Ŝ 2 σ2 ∈ , χ2n−1,1−α/2 χ2n−1,α/2 # Cuadro 8.1: Intervalos de confianza para los parámetros de una población normal, a partir de una muestra aleatoria simple de la misma. 8.2. INTERVALOS DE CONFIANZA PARA LA DISTRIBUCIÓN NORMAL 189 distribuye de modo gaussiana. Para ello se tomó una muestra de 25 individuos (que podemos considerar piloto), que ofreció los siguientes resultados: x = 170 cm S = 10 cm Calcular el tamaño que deberı́a tener una muestra para que se obtuviese un intervalo de confianza para la media poblacional con un nivel de significación α = 0, 01 (al 99 %) y con una precisión de d = 1 cm. Solución: Obsérvese que sobre la muestra piloto, el error cometido al estimar el intervalo al 95 % fue aproximadamente de 4′ 2 cm por lo que si buscamos un intervalo de confianza tan preciso, el tamaño de la muestra, n, deberá ser bastante mayor. En este caso se obtiene: 2 z0,995 · 10, 2062 n≈ = 2, 582 · 10, 2062 ≈ 694 12 Por tanto, si queremos realizar un estudio con toda la precisión requerida en el enunciado se deberı́a tomar una muestra de 694 individuos. Esto es una indicación de gran utilidad antes de comenzar el estudio. Una vez que el muestreo haya sido realizado, debemos confirmar que el error para el nivel de significación dado es inferior o igual a 1 cm, utilizando la muestra obtenida. 8.2.5. Intervalos para la diferencia de medias de dos poblaciones Consideremos el caso en que tenemos dos poblaciones de modo que el carácter que estudiamos en ambas (X1 y X2 ) son v.a. distribuidas según leyes gaussianas X1 ❀ N µ1 , σ12 190 Bioestadı́stica: Métodos y Aplicaciones X2 ❀ N µ2 , σ22 En cada una de estas poblaciones se extrae mediante muestreo aleatorio simple, muestras que no tienen por que ser necesariamente del mismo tamaño (respectivamente n1 y n2 ) ~ 1 ≡ X11 , X12 , . . . , X1n X 1 ~ 2 ≡ X21 , X22 , . . . , X2n X 2 Podemos plantearnos a partir de las muestras el saber qué diferencias existen entre las medias de ambas poblaciones, o por ejemplo estudiar las relación existente entre sus dispersiones respectivas. A ello vamos a dedicar los siguientes puntos. Intervalo para la diferencia de medias homocedáticas Supongamos que dos poblaciones tengan varianzas idénticas (homocedasticidad),σ 2 . Es decir σ 2 = σ12 = σ22 . Por razones análogas a las expuestas en el caso de una población una población, se tiene que χ2n1 −1 (n1 − 1)Ŝ12 ❀χ2n1 −1 = σ χ2n2 −1 = (n2 − 1)Ŝ22 ❀χ2n2 −1 σ       χ2 reprod. =⇒ χ2n1 +n2 −2 = χ2n1 −1 +χ2n2 −1 ❀χ2n1 +n2 −2      De manera similar al caso de la media de una población, si las varianzas fuesen conocidas, podemos definir la v.a. Z= (X 1 − X 2 ) − (µ1 − µ2 ) s σ12 n1 + σ22 n2 = (X 1 − X 2 ) − (µ1 − µ2 ) s σ 2 1 1 + n1 n2 ❀N (0, 1) 8.2. INTERVALOS DE CONFIANZA PARA LA DISTRIBUCIÓN NORMAL 191 Cuando las varianzas de las poblaciones son desconocidas, pero podemos asumir que al menos son iguales, el siguiente estadı́stico se distribuye como una t de Student con n1 + n2 − 2 grados de libertad: Tn1 +n2 −2 = s Z 1 χ2 n1 + n2 − 2 n1 +n2 −2 donde se ha definido a de Ŝ12 y Ŝ22 Ŝ 2 = (X 1 − X 2 ) − (µ1 − µ2 ) Ŝ q 1 n1 + 1 n2 ❀tn1 +n2 −2 (8.2) como la cuasivarianza muestral ponderada Ŝ 2 = (n1 − 1)Ŝ12 + (n2 − 1)Ŝ22 n1 + n2 − 2 Si 1−α es el nivel de significación con el que deseamos establecer el intervalo para la diferencia de las dos medias, calculamos el valor tn1 +n2 −1,1−α/2 que deja por encima de si α/2 de la masa de probabilidad de Tn1 +n2 −2 P[Tn1 +n2 −2 > tn1 +n2 −2,1−α/2 ] = α ⇔ P[|Tn1 +n2 −2 | ≤ tn1 +n2 −2,1−α/2 ] = 1−α 2 Repitiendo un proceso que ya hemos realizado en ocasiones anteriores, tenemos una probabilidad de 1 − α de que a extraer una muestra aleatoria simple ocurra: |Tn1 +n2 −2 | ≤ tn1 +n2 −2,1−α/2 ⇔ ⇔ (X 1 − X 2 ) − (µ1 − µ2 ) Ŝ q 1 n1 + 1 n2 ≤ tn1 +n2 −2,1−α/2 ⇔ |µ1 − µ2 | ≤ (X 1 − X 2 ) + tn1 +n2 −2,1−α/2 · Ŝ Luego el intervalo de confianza al nivel 1−α para la diferencia de esperanzas de dos poblaciones con la misma varianza (aunque esta sea desconocida) es: s 1 1 + n1 n2 192 Bioestadı́stica: Métodos y Aplicaciones µ1 − µ2 = (X 1 − X 2 ) ± tn1 +n2 −2,1−α/2 · Ŝ s 1 1 + n1 n2 Ejemplo Queremos estudiar la influencia que puede tener el tabaco con el peso de los niños al nacer. Para ello se consideran dos grupos de mujeres embarazadas (unas que fuman y otras que no) y se obtienen los siguientes datos sobre el peso X, de sus hijos:    Madres fumadoras   → n1 = 35 mujeres, x1 = 3, 6 Kg Ŝ1 = 0, 5 Kg Madres no fumadoras → n2 = 27 mujeres, x2 = 3, 2 Kg Ŝ2 = 0, 8 Kg En ambos grupos los pesos de los recién nacidos provienen de sendas distribuciones normales de medias desconocidas, y con varianzas que si bien son desconocidas, podemos suponer que son las mismas. Calcular en cuanto influye el que la madre sea fumadora en el peso de su hijo. Solución: Si X1 es la v.a. que describe el peso de un niño que nace de madre no fumadora, y X2 el de un hijo de madre fumadora, se tiene por hipótesis que ∃ µ1 , µ2 , σ 2 , tales que  2   X1 ❀N µ1 , σ   X ❀N µ , σ 2 2 2 Si queremos estimar en cuanto influye el que la madre sea fumadora en el peso de su hijo, podemos estimar un intervalo de confianza para µ1 − µ2 , lo que nos dará la diferencia de peso esperado entre un niño del primer grupo y otro del segundo. El estadı́stico que se ha de aplicar para esta cuestión es: (x1 − x2 ) − (µ1 − µ2 ) Ŝ q 1 n1 + 1 n2 ❀tn1 +n2 −2 = t35+27−2 = t60 8.2. INTERVALOS DE CONFIANZA PARA LA DISTRIBUCIÓN NORMAL 193 donde Ŝ 2 = (n1 − 1)Ŝ12 + (n2 − 1)Ŝ22 34 · 0, 52 + 26 · 0, 82 = = 0, 419 =⇒ Ŝ = 0, 6473 n1 + n2 − 2 60 Consideramos un nivel de significación que nos parezca aceptable, por ejemplo α = 0, 05, y el intervalo buscado se obtiene a partir de: 0,4 z }| { | (3, 6 − 3, 2) −(µ1 − µ2 ) | r ≤ t60;1−0,05/2 = t60;0,975 = 2 1 1 0, 6473 + 27} {z35 | 0,1658 =⇒ µ1 − µ2 = 0, 4 ± 2 · 0, 1658 =⇒ µ1 − µ2 = 0, 4 ± 0, 3316 con lo cual se puede decir que un intervalo de confianza para el peso esperado en que supera un hijo de madre no fumadora al de otro de madre fumadora está comprendido con un nivel de confianza del 95 % entre los 0, 068 Kg y los 0, 731 Kg. 194 Bioestadı́stica: Métodos y Aplicaciones  ?  z }|  {    2  N µ , σ X ❀  1 1  1            ← poblaciones normales          2   X ❀ N µ , σ 2 2 2    | {z }  ? X 1 , X 2 ← medias de las muestras Ŝ12 , Ŝ22 ← cuasivarianzas de las muestras n1 , n2 ← tamaños de las muestras                  Intervalos de confianza para µ1 − µ2 Si σ12 = σ22 (desconocidos) µ1 − µ2 ∈ (X 1 − X 2 ) ± tn1 +n2 −2,1−α/2 · Ŝ Si σ12 6= σ22 (desconocidos) donde µ1 − µ2 ∈ (X 1 − X 2 ) ± tf,1−α/2 · s s 1 1 + n1 n2 Ŝ12 Ŝ22 + n1 n2  2 2   2 = (n1 − 1)Ŝ1 + (n2 − 1)Ŝ2  Ŝ    n1 + n2 − 2            !2   Ŝ12 Ŝ22    +   n1 n2    f = !2 !2 − 2 ← Welch.   2  1 Ŝ1 Ŝ22 1    +  n +1 n n +1 n 1 1 2 2 Cuadro 8.2: Intervalos de confianza para la diferencia de las medias de dos poblaciones normales, calculados a partir de sendas muestras independientes de cada una de ellas.Los resultados dependen de que podamos suponer cierta o no la condición de homocedasticidad. 8.3. INTERVALOS DE CONFIANZA PARA VARIABLES DICOTÓMICAS 195 8.3. Intervalos de confianza para variables dicotómicas Cuando tenemos una variable dicotómica (o de Bernoulli) a menudo interesa saber en qué proporción de casos, p ocurre el éxito en la realización de un experimento. También nos puede interesar el comparar la diferencia existente entre las proporciones en distintas poblaciones. También es de interés calcular para un nivel de significación dado, el tamaño muestral necesario para calcular un intervalo de confianza de cuyo radio sea menor que cierta cantidad. 8.3.1. Intervalo para una proporción Sean X1 , . . . , Xn ❀Ber (p). Si queremos estimar el parámetro p, la manera más natural de hacerlo consiste en definir la suma de estas —lo que nos proporciona una distribución Binomial X = X1 + · · · + Xn ❀B (n, p) y tomar como estimador suyo la v.a. p̂ = X . n Es decir, tomamos como estimación de p la proporción de éxitos obtenidos en las n pruebas. p̂. La distribución del número de éxitos es binomial, y puede ser aproximada a la normal cuando el tamaño de la muestra n es grande, y p no es una cantidad muy cercana a cero o uno: ≈ X❀B (n, p) ⇒ X ❀ N (np, npq) El estimador p̂ no es más que un cambio de escala de X, por tanto X ≈ pq p̂ = ❀ N p, n n =⇒ p̂ − p r ≈ Z ❀N (0, 1) pq n 196 Bioestadı́stica: Métodos y Aplicaciones Esta expresión presenta dificultades para el cálculo, siendo más cómodo sustituirla por la siguiente aproximación: p̂ − p r ≈ Z ❀N (0, 1) p̂q̂ n Para encontrar el intervalo de confianza al nivel de significación α para p se considera el intervalo que hace que la distribución de Z❀N (0, 1) deje la probabilidad α fuera del mismo. Es decir, se considera el intervalo cuyos extremos son los cuantiles α/2 y 1 − α/2. Ası́ se puede afirmar con una confianza de 1 − α que: p = p̂ ± z1−α/2 s p̂q̂ con una confianza de 1 − α n Ejemplo Se quiere estimar el resultado de un referéndum mediante un sondeo. Para ello se realiza un muestreo aleatorio simple con n = 100 personas y se obtienen 35 % que votarán a favor y 65 % que votarán en contra (suponemos que no hay indecisos para simplificar el problema a una variable dicotómica). Con un nivel de significación del 5 %, calcule un intervalo de confianza para el verdadero resultado de las elecciones. Solución: Dada una persona cualquiera (i) de la población, el resultado de su voto es una variable dicotómica: Xi ❀Ber (p) El parámetro a estimar en un intervalo de confianza con α = 0, 05 es p, y tenemos sobre una muestra de tamaño n = 100, la siguiente estimación puntual de p: 35 p̂ = = 0, 35 =⇒ q̂ = 0, 65 100 El intervalo de confianza buscado es: p = 0, 65 ± 0, 0935 Por tanto, tenemos con esa muestra un error aproximado de 9, 3 puntos al nivel de confianza del 95 %. 8.3. INTERVALOS DE CONFIANZA PARA VARIABLES DICOTÓMICAS 197 8.3.2. Elección del tamaño muestral para una proporción En unejemplo previo con una muestra de 100 individuos se realizó una estimación confidencial, con un 95 % de confianza, del porcentaje de votantes a una cuestión en un referéndum, obteniéndose un margen de error de 9, 3 puntos. Si pretendemos reducir el error a 1 punto y queremos aumentar el nivel de confianza hasta el 97 % (α = 0′ 03) hemos de tomar una muestra lógicamente de mayor tamaño, N . Un valor de N que satisface nuestros requerimientos con respecto al error es: 2 z1−α/2 N ≥ p̂q̂ error2 Si en un principio no tenemos una idea sobre que valores puede tomar p, debemos considerar el peor caso posible, que es en el que se ha de estimar el tamaño muestral cuando p = q = 1/2. Ası́: N≥ 2 1 z1−α/2 cuando no se tiene estimación de p 4 error2 Ejemplo Se quiere estimar el resultado de un referéndum mediante un sondeo, y sin tener una idea sobre el posible resultado del mismo, se desea conocer el tamaño de muestra que se ha de tomar para obtener un intervalo al 97 % de confianza, con un error del 1 Solución: Como no se tiene una idea previa del posible resultado del referéndum, hay que tomar un tamaño de muestra, N , que se calcula mediante: N≥ 2 0, 25 · 2, 172 1 z0,985 = = 11,773 4 0, 012 0, 012 Ası́ para tener un resultado tan fiable, el número de personas a entrevistar debe ser muy elevado —lo que puede volver excesivamente costoso 198 Bioestadı́stica: Métodos y Aplicaciones el sondeo. 8.3.3. Intervalo para la diferencia de dos proporciones Vamos a considerar que tenemos dos poblaciones de modo que en cada una de ellas estudiamos una v.a. dicotómica (Bernoulli) de parámetros respectivos p1 y p2 . De cada población vamos a extraer muestras de tamaño n1 y n2 ~ 1 ≡ X11 , X12 , . . . , X1n X 1 ~ 2 ≡ X21 , X22 , . . . , X2n X 2 Entonces X1 = X2 = n1 X i=1 n2 X X1i ❀B (n1 , p1 ) X2i ❀B (n2 , p2 ) i=1 Si las muestras son suficientemente grandes ocurre que una aproximación para un intervalo de confianza al nivel 1 − α para la diferencia de proporciones de dos poblaciones es: p1 − p2 ∈ (pˆ1 − pˆ2 ) ± z1−α/2 · s pˆ1 qˆ1 pˆ2 qˆ2 + n1 n2 Ejemplo Se cree que la osteoporosis está relacionada con el sexo. Para ello se elige una muestra de 100 hombres de más de 50 años y una muestra de 200 mujeres en las mismas condiciones. Se obtiene que 10 hombres y 40 mujeres con algún grado de osteoporosis. ¿Qué podemos concluir con una confianza del 95 %? Solución: 8.3. INTERVALOS DE CONFIANZA PARA VARIABLES DICOTÓMICAS 199 Llamamos p1 a la incidencia de la osteoporosis en las mujeress de más de 50 años y p2 a la de los hombres. Calculemos un intervalo de confianza para la diferencia (p1 − p2 ). Si 0 no forma parte de dicho intervalo con una confianza del 95 % podemos decir que p1 es diferente a p2 (con tal grado de confianza, por supuesto). La estimación puntual insesgada que podemos hacer de ambos parámetros a partir de los datos muestrales son: pˆ1 = 40/200 = 0, 2 pˆ2 = 10/100 = 0, 1 (p1 − p2 ) = (0, 2 − 0, 1) ± r 0, 2 × 0, 8 0, 1 × 0, 9 + = 0, 08 200 100 Es decir, enemos una confianza del 95 % en la afirmación de que la diferencia entre la incidencia de osteoporosis en mujeres y hombres está entre 0,02 (2 %) y 0,18 (18 %). Obsérvese que como 0 % no es un valor de dicho intervalo puede concluirse con una confianza del 95 % que hay diferente incidencia de osteoporosis en hombres que en mujeres para las personas de más de 50 años. Esta conclusión es algo más pobre de lo que hemos obtenido con el intervalo de confianza, pero visto de esta manera, este ejemplo puede considerarse como una introducción a los contrastes de hipótesis. 200 8.4. Bioestadı́stica: Métodos y Aplicaciones Problemas Ejercicio 8.1. Se ha medido el volumen diario de bilis, expresado en litros, en 10 individuos sanos, obteniéndose 0,98; 0,85; 0,77; 0,92; 1,12; 1,06; 0,89; 1,01; 1,21; 0,77. ¿Cuanto vale la producción diaria media de bilis en individuos sanos suponiendo que la muestra ha sido obtenida por muestreo aleatorio simple sobre una población normal? Ejercicio 8.2. La cantidad mı́nima requerida para que un anestésico surta efecto en una intervención quirúrgica fue por término medio de 50 mg, con una desviación tı́pica de 10,2 mg, en una muestra de 60 pacientes. Obtener un intervalo de confianza para la media al 99 %, suponiendo que la muestra fue extraı́da mediante muestreo aleatorio simple sobre una población normal. Ejercicio 8.3. Un investigador está interesado en estimar la proporción de muertes debidas a cáncer de estómago en relación con el número de defunciones por cualquier tipo de neoplasia. Su experiencia le indica que serı́a sorprendente que tal proporción supere el valor de 1/3. ¿Qué tamaño de muestra debe tomar para estimar la anterior proporción, con una confianza del 99 %, para que el valor estimado no difiera del valor real en más de 0,03?. Ejercicio 8.4. Se desea realizar una estimación confidencial de la varianza de la estatura de los niños varones de 10 años de una ciudad con una confianza del 95 %. ¿Cuál será dicho intervalo si se toma una muestra de 101 niños al azar, entre todos los que reúnen las caracterı́sticas deseadas, y medimos sus estaturas, y se obtienen las siguientes estimaciones puntuales: x = 138, 6 cm, S 2 = 29, 16 cm2 ? Ejercicio 8.5. Un cardiólogo se encuentra interesado en encontrar lı́mites de confianza al 90 %, para la presión sistólica tras un cierto ejercicio fı́sico. Obtenerlos si en 50 individuos se obtuvo x = 13, S = 3 y suponemos que el comportamiento de la v.a. es normal. 8.4. PROBLEMAS 201 Ejercicio 8.6. En una muestra de 25 bebés varones de 12 semanas de vida, se obtuvo un peso medio de 5.900 gr y una desviación tı́pica de 94 gr. 1. Obtener un intervalo de confianza (al 95 %) para el peso medio poblacional. 2. ¿Cuántos niños habrı́a que tomar para estimar dicha media con una precisión de 15 gr? Ejercicio 8.7. En un determinado servicio de odontologı́a se sabe que el 22 % de las visitas llevan consigo una extracción dentaria inmediata. En cierto año, de 2.366 visitas, 498 dieron lugar a una extracción inmediata. ¿Entran en contradicción las cifras de ese año con el porcentaje establecido de siempre? Ejercicio 8.8. Sólo una parte de los pacientes que sufren un determinado sı́ndrome neurológico consiguen una curación completa; Si de 64 pacientes observados se han curado 41, dar una estimaciones puntual y un intervalos de la proporción de los que sanan. ¿Qué número de enfermos habrı́a que observar para estimar la proporción de curados con un error inferior a 0,05 y una confianza del 95 %? Ejercicio 8.9. Se desea estimar el tiempo medio de sangrı́a en fumadores de más de 20 cigarrillos diarios, con edades comprendidas entre 35 y 40 años, con una precisión de 5 segundos. Ante la ausencia de cualquier información acerca de la variabilidad del tiempo de sangrı́a es este tipo de individuos, se tomó una muestra preliminar de 5 individuos, en los que se obtuvieron los siguientes tiempos (en segundos): 97, 80, 67, 91, 73. Determinar el tamaño mı́nimo de muestra, al 95 %, para cumplir el objetivo anterior. Ejercicio 8.10. En una determinada región se tomó una muestra aleatoria de 125 individuos, de los cuales 12 padecı́an afecciones pulmonares. 202 Bioestadı́stica: Métodos y Aplicaciones 1. Estı́mese la proporción de afecciones pulmonares en dicha región. 2. Si queremos estimar dicha proporción con un error máximo del 4 %, para una confianza del 95 %, ¿qué tamaño de muestra debemos tomar? Ejercicio 8.11. En una muestra de tabletas de aspirinas, de las cuales observamos su peso expresado en gramos, obtenemos: 1,19; 1,23; 1,18; 1,21; 1,27; 1,17; 1,15; 1,14; 1,19; 1,2 Suponiendo la Normalidad para esta distribución de pesos, determinar un intervalo al 80 % de confianza para la varianza. Ejercicio 8.12. Se quiere estimar la incidencia de la hipertensión arterial en el embarazo. ¿Cuantas embarazadas tenemos que observar para, con una confianza del 95 %, estimar dicha incidencia con un error del 2 % en los siguientes casos: 1. Sabiendo que un sondeo previo se ha observado un 9 % de hipertensas. 2. Sin ninguna información previa. Capı́tulo 9 Contrastes de hipótesis 9.1. Introducción Hasta ahora hemos estudiado cómo a partir de una muestra de una población podemos obtener una estimación puntual o bien establecer un intervalo más o menos aproximado para encontrar los parámetros que rigen la ley de probabilidad de una v.a. definida sobre la población. Es lo que denominábamos estimación puntual y estimación confidencial respectivamente. Pueden presentarse en la práctica, situaciones en las que exista una teorı́a preconcebida relativa a la caracterı́stica de la población sometida a estudio. Tal serı́a el caso, por ejemplo si pensamos que un tratamiento nuevo puede tener un porcentaje de mejorı́a mayor que otro estándar, o cuando nos planteamos si los niños de las distintas comunidades españolas tienen la misma altura. Este tipo de circunstancias son las que nos llevan al estudio de la parcela de la Estadı́stica Inferencial que se recoge bajo el tı́tulo genérico de Contraste de Hipótesis. Implica, en cualquier investigación, la existencia de dos teorı́as o hipótesis implı́citas, que denominaremos hipótesis nula e hipótesis alternativa, que de alguna manera reflejarán esa idea a priori que tenemos y que pretendemos contrastar con la “realidad”. De la misma manera aparecen, implı́citamente, diferentes tipos de errores que podemos cometer durante el procedimiento. No podemos olvi- 203 204 Bioestadı́stica: Métodos y Aplicaciones dar que, habitualmente, el estudio y las conclusiones que obtengamos para una población cualquiera, se habrán apoyado exclusivamente en el análisis de sólo una parte de ésta. De la probabilidad con la que estemos dispuestos a asumir estos errores, dependerá, por ejemplo, el tamaño de la muestra requerida. Desarrollamos en este capı́tulo los contrastes de hipótesis para los parámetros más usuales que venimos estudiando en los capı́tulos anteriores: medias, varianzas y proporciones, para una o dos poblaciones. Los contrastes desarrollados en este capı́tulo se apoyan en que los datos de partida siguen una distribución normal. Los contrastes de significación se realizan: • suponiendo a priori que la ley de distribución de la población es conocida. • Se extrae una muestra aleatoria de dicha población. • Si la distribución de la muestra es “diferente” de la distribución de probabilidad que hemos asignado a priori a la población, concluimos que probablemente sea errónea la suposición inicial. Ejemplo Supongamos que debemos realizar un estudio sobre la altura media de los habitantes de cierto pueblo de España. Antes de tomar una muestra, lo lógico es hacer la siguiente suposición a priori, (hipótesis que se desea contrastar y que denotamos H0 ): H0 : La altura media no difiere de la del resto del paı́s. Al obtener una muestra de tamaño n = 8, podrı́amos encontrarnos ante uno de los siguientes casos: 1. Muestra = {1,50 ;1,52; 1,48; 1,55; 1,60; 1,49; 1,55; 1,63} 9.1. INTRODUCCIÓN 205 2. Muestra = {1,65; 1,80; 1,73; 1,52; 1,75; 1,65; 1,75; 1,78} Intuitivamente, en el caso a serı́a lógico suponer que salvo que la muestra obtenida sobre los habitantes del pueblo sea muy poco representativa1 , la hipótesis H0 debe ser rechazada. En el caso b tal vez no podamos afirmar con rotundidad que la hipótesis H0 sea cierta, sin embargo no podrı́amos descartarla y la admitimos por una cuestión de simplicidad. Este ejemplo sirve como introducción de los siguientes conceptos: En un contraste de hipótesis (también denominado test de hipótesis o Contraste de significación) se decide si cierta hipótesis H0 que denominamos hipótesis nula puede ser rechazada o no a la vista de los datos suministrados por una muestra de la población. Para realizar el contraste es necesario establecer previamente una hipótesis alternativa (H1 ) que será admitida cuando H0 sea rechazada. Normalmente H1 es la negación de H0 , aunque esto no es necesariamente ası́. El procedimiento general consiste en definir un estadı́stico T relacionado con la hipótesis que deseamos contrastar. A éste lo denominamos estadı́stico del contraste. A continuación suponiendo que H0 es verdadera se calcula un intervalo de denominado intervalo de aceptación2 de la hipótesis nula, (Ti , Ts ) de manera que al calcular sobre la muestra T = Texp el criterio a seguir sea:    Si Texp ∈ (Ti , Ts ) =⇒   Si T / (Ti , Ts ) =⇒ exp ∈ no rechazamos H0 (⇒ \ rechazamos H1 ); rechazamos H0 y aceptamos H1 El intervalo de aceptación o más precisamente, de no rechazo de la hipótesis nula, se establece fijando una cantidad α suficientemente pequeña denominada nivel de significación, de modo que la probabilidad de que el estadı́stico del contraste tome un valor fuera del mismo — región crı́tica— región crı́tica ≡ C = IR \ (Ti , Ts ) 1 Esto ocurre con muy baja probabilidad en un muestreo aleatorio simple cuando el número de observaciones es alto 2 Se entiende la palabra “aceptaciónçomo en el sentido de “no rechazo”. 206 Bioestadı́stica: Métodos y Aplicaciones cuando la hipótesis nula es cierta sea inferior o al 100 · α %; Esto se ha de entender como sigue: Si H0 es correcta el criterio de rechazo sólo se equivoca con probabilidad α, que es la probabilidad de que una muestra ofrezca un valor del estadı́stico del contraste extraño (en la región crı́tica). La decisión de rechazar o no la hipótesis nula está al fin y al cabo basado en la elección de una muestra tomada al azar, y por tanto es posible cometer decisiones erróneas. Los errores que se pueden cometer se clasifican como sigue: Error de tipo I: Es el error que consiste en rechazar H0 cuando es cierta. La probabilidad de cometer este error es lo que anteriormente hemos denominado nivel de significación. Es una costumbre establecida el denotarlo siempre con la letra α α=P h i rechazar H0 |H0 es cierta = P h i aceptar H1 |H0 es cierta . Error de tipo II: Es el error que consiste en no rechazar H0 cuando es falsa. La probabilidad de cometer este error la denotamos con la letra β β=P 9.1.1. h no rechazar H0 |H0 es falsa i 6= P h i no rechazar H0 |H1 es cierta . Observaciones 1. Los errores de tipo I y II no están relacionados más que del siguiente modo: Cuando α decrece β crece. Por tanto no es posible encontrar tests que hagan tan pequeños como queramos ambos errores simultáneamente. De este modo es siempre necesario privilegiar a una de las hipótesis, de manera que no será rechazada, a menos que su falsedad se haga muy evidente. En los contrastes, la hipótesis privilegiada es H0 que sólo será rechazada cuando la evidencia de su falsedad supere el umbral del 100 · (1 − α) %. 2. Al tomar α muy pequeño tendremos que β se puede aproximar a uno. Lo ideal a la hora de definir un test es encontrar un compromiso sa- 9.1. INTRODUCCIÓN 207 tisfactorio entre α y β (aunque siempre a favor de H0 ). Denominamos potencia de un contraste a la cantidad 1 − β, es decir potencia del contraste ≡ 1 − β = P H0 es cierta H0 es falsa no rechazar H0 Correcto Probabilidad 1 − α Error tipo II Probabilidad β h rechazar H0 |H0 es falsa i rechazar H0 Error tipo I Probabilidad α Correcto Probabilidad 1 − β 3. En el momento de elegir una hipótesis privilegiada podemos en principio dudar entre si elegir una dada o bien su contraria. Criterios a tener en cuenta en estos casos son los siguientes: Simplicidad cientı́fica: A la hora de elegir entre dos hipótesis cientı́ficamente razonables, tomaremos como H0 aquella que sea más simple. Las consecuencias de equivocarnos: Por ejemplo al juzgar el efecto que puede causar cierto tratamiento médico que está en fase de experimentación, en principio se ha de tomar como hipótesis nula aquella cuyas consecuencias por no rechazarla siendo falsa son menos graves, y como hipótesis alternativa aquella en la que el aceptarla siendo falsa trae peores consecuencias. Es decir,    H0 : el paciente empeora o queda igual ante el tratamiento   H : el paciente mejora con el tratamiento 1 Otro ejemplo claro es cuando acaban de instalar un nuevo ascensor en el edificio que habitamos y queremos saber si el ascensor caerá o no al vacı́o cuando nosotros estemos dentro. Una persona prudente es la que espera a que un número suficiente de vecinos suyos hayan usado el ascensor (muestra aleatoria) y realiza un test del tipo 208 Bioestadı́stica: Métodos y Aplicaciones    H0 : el ascensor se caerá   H : el ascensor no se caerá 1 y sólo aceptará la hipótesis alternativa para α ≈ 0 aunque para ello tenga que ocurrir que β ≈ 1, ya que las consecuencias del error de tipo I (ir al hospital) son mucho más graves que las del error del tipo II (subir a pie varios pisos). Es decir a la hora de decidirse por una de las dos hipótesis no basta con elegir la más probable (nadie dirı́a “voy a tomar el ascensor pues la probabilidad de que no se caiga es del 60 %”). Hay que elegir siempre la hipótesis H0 a menos que la evidencia a favor de H1 sea muy significativa. Volviendo al ejemplo de la estatura de los habitantes de un pueblo, un estadı́stico de contraste adecuado es X. Si la hipótesis H0 fuese cierta se tendrı́a que σ2 X❀N µ, n ! (suponiendo claro está que la distribución de las alturas de los españoles siga una distribución normal de parámetros conocidos, por ejemplo3 N µ = 1, 74, σ 2 = 102 Denotemos mediante µ0 el verdadero valor de la media en el pueblo que estudiamos. Como la varianza de X es pequeña para grandes valores de n, lo lógico es pensar que si el valor obtenido con la muestra X = x está muy alejado de µ = 1, 74 (región crı́tica), entonces o bien la muestra es muy extraña si H0 es cierta (probabilidad α); 3 Estos valores de la media y la desviación tı́pica no han sido tomados de ningún estudio. 9.1. INTRODUCCIÓN 209 o bien la hipótesis H0 no es cierta. Concretamente en el caso a, donde la muestra es Muestra = {1, 50; 1, 52; 1, 48; 1, 55; 1, 60; 1, 49; 1, 55; 1, 63} el contraste de hipótesis conveniente es:    H0 : µ = µ0   H : µ>µ 1 0 En este caso H1 no es estrictamente la negación de H0 . Esto dará lugar a un contraste unilateral, que son aquellos en los que la región crı́tica está formada por un sólo intervalo: Intervalo de no rechazo de H0 Región crı́tica ≡ (Ti , +∞) ≡ (−∞, Ti ] En el caso b, donde la muestra es Muestra = {1, 65; 1, 80; 1, 73; 1, 52; 1, 75; 1, 65; 1, 75; 1, 78} el contraste de hipótesis que deberı́amos realizar es:    H0 : µ = µ0   H : µ 6= µ 1 0 Como vemos, ahora sı́ se puede decir que H1 es la negación de H0 . Esto es un contraste bilateral, que son aquellos en los que la región crı́tica está formada por dos intervalos separados: Intervalo donde no se rechaza H0 Región crı́tica ≡ (Ti , Ts ) ≡ (−∞, Ti ] ∪ [Ts , +∞) Los últimos conceptos que introducimos son: 210 Bioestadı́stica: Métodos y Aplicaciones Hipótesis simple: Aquella en la que se especifica un único valor del parámetro. Este es el caso de las hipótesis nulas en los dos últimos contrastes mencionados. Hipótesis compuesta: Aquella en la que se especifica más de un posible valor del parámetro. Por ejemplo tenemos que son compuestas las hipótesis alternativas de esos mismos contrastes. 9.2. Contrastes paramétricos en una población normal Supongamos que la caracterı́stica X que estudiamos sobre la población sigue una distribución normal y tomamos una muestra de tamaño n ~ ≡ X1 , . . . , Xn X mediante muestreo aleatorio simple. Vamos a ver cuales son las técnicas para contrastar hipótesis sobre los parámetros que rigen X. Vamos a comenzar haciendo diferentes tipos de contrastes para medias y después sobre las varianzas y desviaciones tı́picas. 9.2.1. Contrastes para la media Test de dos colas con varianza desconocida Sea X❀N µ, σ 2 donde ni µ ni σ 2 son conocidos y queremos realizar el contraste    H0 : µ = µ0   H : µ 6= µ 1 0 Al no conocer σ 2 va a ser necesario estimarlo a partir de su estimador insesgado: la cuasivarianza muestral, Ŝ 2 . Por ello la distribución del estimador del contraste será una t de Student, que ha perdido un grado de libertad: H0 cierta ⇐⇒ Texp = X − µ0 √Ŝ n ❀tn−1 9.2. CONTRASTES PARAMÉTRICOS EN UNA POBLACIÓN NORMAL211 Consideramos como región crı́tica C, a las observaciones de Texp extremas n C = Texp < −tn−1,1−α/2 ó tn−1,1−α/2 < Texp o Observación Para dar una forma homogénea a todos los contrastes de hipótesis es costumbre denominar al valor del estadı́stico del contraste calculado sobre la muestra como valor experimental y a los extremos de la región crı́tica, como valores teóricos. Definiendo entonces Texp = X − µ0 √Ŝ n Tteo = tn−1,1−α/2 el resultado del contraste es el siguiente:    si |Texp | ≤ Tteo   si |T | > T exp teo =⇒ no rechazamos H0 ; =⇒ rechazamos H0 y aceptamos H1 . Tests de una cola con varianza desconocida Si realizamos el contraste    H0 : µ = µ0   H : µ<µ 1 0     H0 : µ ≥ µ0     H : µ<µ   o bien 1 por analogı́a con el contraste bilateral, definiremos Texp = X − µ0 √Ŝ n Tteo = tn−1,1−α 0 212 Bioestadı́stica: Métodos y Aplicaciones No hay evidencia contra H0 tn−1, α −3 tn−1, 1−α 2 −2 −1 0 1 2 2 3 Figura 9.1: Sombreada apreciamos la región crı́tica sombreada para el contraste bilateral de una media. y el criterio para contrastar al nivel de significación α es    si Texp ≥ −Tteo   si T exp ≤ −Tteo =⇒ no rechazamos H0 ; =⇒ rechazamos H0 y aceptamos H1 . Para el contraste contrario,    H0 : µ = µ0   o bien   H : µ>µ 1 0     H0 : µ ≤ µ0     H : µ>µ 1 0 definimos Texp y Tteo como anteriormente y el criterio a aplicar es (véase la figura 9.3):    si Texp ≤ Tteo   si T exp > Tteo =⇒ no rechazamos H0 ; =⇒ rechazamos H0 y aceptamos H1 . 9.2. CONTRASTES PARAMÉTRICOS EN UNA POBLACIÓN NORMAL213 No hay evidencia contra H0 tn−1, 1−α −3 −2 −1 0 1 2 3 Figura 9.2: Región crı́tica a la derechapara el contrastes unilaterales de una media. Ejemplo Conocemos que las alturas X de los individuos de una ciudad, se distribuyen de modo gaussiano. Deseamos contrastar con un nivel de significación de α = 0, 05 si la altura media es diferente de 174 cm. Para ello nos basamos en un estudio en el que con una muestra de n = 25 personas se obtuvo: x = 170 cm S = 10 cm Solución: El contraste que se plantea es:    H0 : µ = 174 cm   H : µ 6= 174 cm 1 214 Bioestadı́stica: Métodos y Aplicaciones No hay evidencia contra H0 tn−1, α −3 −2 −1 0 1 2 3 Figura 9.3: Región crı́tica a la izquierda para el contrastes unilateral de una media. La técnica a utilizar consiste en suponer que H0 es cierta y ver si el valor que toma el estadı́stico Texp = x − 174 √Ŝ n ❀tn−1 = t24 es “razonable.o no bajo esta hipótesis, para el nivel de significación dado. Aceptaremos la hipótesis alternativa (y en consecuencia se rechazará la hipótesis nula) si no lo es, es decir, si |Texp | ≥ t24;1−α/2 = t24,0,975 = 2, 06 Para ello procedemos al cálculo de Texp : S = 10 =⇒ Ŝ = S r n = 10 n−1 r 25 = 10′ 206 24 9.2. CONTRASTES PARAMÉTRICOS EN UNA POBLACIÓN NORMAL215 |Texp | = |170 − 174| 10,206 √ 25 = |−1, 959| ≤ t24;0,975 = 2, 06 Luego, aunque podamos pensar que ciertamente el verdadero valor de µ no es 174, no hay una evidencia suficiente para rechazar esta hipótesis al nivel de confianza del 95 %. Es decir, no se rechaza H0 . Figura 9.4: El valor de Texp no está en la región crı́tica (aunque ha quedado muy cerca), por tanto al no ser la evidencia en contra de H0 suficientemente significativa, ésta hipótesis no se rechaza. Ejemplo Consideramos el mismo ejemplo de antes. Visto que no hemos podido rechazar el que la altura media de la población sea igual a 174 cm, deseamos realizar el contraste sobre si la altura media es menor de 174 cm. Solución: Ahora el contraste es 216 Bioestadı́stica: Métodos y Aplicaciones    H0 : µ ≥ 174 cm   H : µ < 174 cm 1 Para realizar este contraste, consideramos el caso lı́mite y observamos si la hipótesis nula debe ser rechazada o no. Este es:  ′   H0 : µ = 174 cm   H : µ < 174 cm 1 De nuevo la técnica a utilizar consiste en suponer que H0′ es cierta y ver si el valor que toma el estadı́stico Texp = x − 174 √Ŝ n ❀tn−1 = t24 es aceptable bajo esta hipótesis, con un nivel de confianza del 95 %. Se aceptará la hipótesis alternativa (y en consecuencia se rechazará la hipótesis nula) si Texp ≤ t24;α = −t24;1−α = −t24;0,95 = −1, 71 Recordamos que el valor de Texp obtenido fue de Texp = −1, 959 < t24;0,05 = −t24;0,95 = −1, 71 Por ello hemos de aceptar la hipótesis alternativa Es importante observar este hecho curioso: Mientras que en el ejemplo anterior no existı́a una evidencia significativa para decir que µ 6= 174 cm, el “simple hecho”de plantearnos un contraste que parece el mismo pero en versión unilateral nos conduce a rechazar de modo significativo que µ = 174 y aceptamos que µ < 174 cm. Es por ello que podemos decir que no sólo 9.2. CONTRASTES PARAMÉTRICOS EN UNA POBLACIÓN NORMAL217 Figura 9.5: El valor te Texp está en la región crı́tica, por tanto existe una evidencia significativa en contra de H0 , y a favor de H1 . H0′ es rechazada, sino también H0 . Es en este sentido en el que los tests con H0 y H0′ los consideramos equivalentes:  ′   H0 : µ = 174 cm   H : µ < 174 cm 1 ⇐⇒    H0 : µ ≥ 174 cm   H : µ < 174 cm 1 218 Bioestadı́stica: Métodos y Aplicaciones 9.2.2. Contrastes para la varianza Consideremos que el carácter que estudiamos sobre la población sea una v.a. normal cuya media y varianza son desconocidas. Vamos a contrastar la hipótesis H0 : σ 2 = σ02 , donde σ02 es un valor prefijado frente a otras hipótesis alternativas que podrán dar lugar a contrastes bilaterales o unilaterales. La técnica consiste en utilizar el teorema de Cochran, para observar que el siguiente estadı́stico experimental que utiliza el estimador insesgado de la varianza, posee una distribución χ2 , con n−1 grados de libertad: H0 cierta =⇒ χ2exp = (n − 1) · Ŝ 2 ❀χ2n−1 σ02 Entonces construimos las regiones crı́ticas que correspondan a las hipótesis alternativas que se formulen en cada caso atendiendo a la ley de distribución χ2 . Contraste bilateral Cuando el contraste a realizar es  2 2   H0 : σ = σ 0 definimos   H : σ 2 6= σ 2 1 0 χ2exp = (n − 1) · Ŝ 2 σ02 ateo = χ2n−1,α/2 bteo = χ2n−1,1−α/2 9.3. CONTRASTES DE UNA PROPORCIÓN 219 y el criterio que suministra el contraste es    si ateo ≤ χ2exp ≤ bteo   si χ2 < a 2 teo ó χexp > bteo exp =⇒ no rechazamos H0 ; =⇒ rechazamos H0 y aceptamos H1 . Contrastes unilaterales Para un contraste de significación al nivel α del tipo  2 2   H0 : σ = σ 0   H : σ2 < σ2 1 0   2 2   H0 : σ ≥ σ 0   o bien    H : σ2 < σ2  1 0 se tiene que el resultado del mismo es: ateo = χ2n−1,α −→  2   si ateo ≤ χexp   si χ2 < a teo exp =⇒ no rechazamos H0 ; =⇒ rechazamos H0 y aceptamos H1 . Para el contraste contrario tenemos la formulación análoga  2 2   H0 : σ = σ 0   H : σ2 > σ2 1 0   2 2   H0 : σ ≤ σ 0   o bien    H : σ2 > σ2  1 0 calculamos el extremo inferior de la región crı́tica en una tabla de la distribución χ2n−1 bteo = χ2n−1,1−α −→ 9.3.  2   si χexp ≤ bteo   si b < χ2 teo exp =⇒ no rechazamos H0 ; =⇒ rechazamos H0 y aceptamos H1 . Contrastes de una proporción Supongamos que poseemos una sucesión de observaciones independientes, de modo que cada una de ellas se comporta como una distribución de Bernoulli de parámetro p: 220 Bioestadı́stica: Métodos y Aplicaciones ~ ≡ X1 , . . . , Xi , . . . , Xn , X donde Xi ❀Ber (p) La v.a. X, definida como el número de éxitos obtenidos en una muestra de tamaño n es por definición una v.a. de distribución binomial: X= n X Xi ❀B (n, p) i=1 La proporción muestral (estimador del verdadero parámetro p a partir de la muestra) es P̂ = X n Nos interesamos en el contraste de significación de H 0 : p = p0 , donde p0 es un valor prefijado frente a otras hipótesis alternativas. Para ello nos basamos en un estadı́stico (de contraste) que ya fue considerado anteriormente en la construcción de intervalos de confianza para proporciones y que sigue una distribución aproximadamente normal para tamaños muestrales suficientemente grandes: pq X ≈ P̂ = ❀ N p, n n Si la hipótesis H0 es cierta se tiene p0 q 0 X ≈ ❀ N p0 , P̂ = n n P̂ − p0 ≈ ⇐⇒ r = Zexp ❀ N (0, 1) p0 q 0 n 9.3. CONTRASTES DE UNA PROPORCIÓN 221 Contraste bilateral Para el contraste    H 0 : p = p0   H : p 6= p 1 0 extraemos una muestra y observamos el valor X = x ⇒ p̂ = se define Zexp = x n. Entonces p̂ − p0 p0 q 0 n r Zteo = z1−α/2 siendo el criterio de aceptación o rechazo de la hipótesis nula el que refleja lafigura 9.6:    si |Zexp | ≤ Zteo   si |Z | > Z exp teo =⇒ aceptamos H0 ; =⇒ rechazamos H0 y aceptamos H1 . Contrastes unilaterales Consideremos un contraste del tipo    H 0 : p = p0   H : p<p 1 0  p̂ − p0  Zexp = r   p0 q 0   n      Zteo = zα →     H 0 : p ≥ p0   o bien    H : p<p     si Zexp ≤ Zteo   si Z exp > Zteo 1 0 =⇒ rechazamos H0 y aceptamos H1 ; =⇒ no rechazamos H0 . 222 Bioestadı́stica: Métodos y Aplicaciones N(0, 1) No hay evidencia contra H0 zα −3 −2 z1−α 2 −1 0 1 2 2 3 Figura 9.6: Contraste bilateral de una proporción. Para el test unilateral contrario, se tiene la expresión simétrica    H 0 : p = p0 Luego   H : p>p 1 0  p̂ − p0  Zexp = r   p0 q 0   n      Zteo = z1−α →     H 0 : p ≤ p0   o bien    H : p>p     si Zexp ≤ Zteo   si Z exp > Zteo 1 0 =⇒ no rechazamos H0 ; =⇒ rechazamos H0 y aceptamos H1 . Ejemplo Se cree que determinada enfermedad se presenta en mayor medida en hombres que en mujeres. Para ello se elige una muestra aleatoria de 100 de 9.3. CONTRASTES DE UNA PROPORCIÓN 223 N(0, 1) No hay evidencia contra H0 zα −3 −2 −1 0 1 2 3 Figura 9.7: Contraste unilateral cuando se tiene H0 : p ≥ p0 estos enfermos y se observa que 70 son hombres. ¿Qué podemos concluir? Solución: Sea p la proporción de hombres que existen entre los enfermos. Queremos encontrar evidencia a favor (H1 ) de que p > 1/2, pero nuestra hipótesis de partida (mientras no tengamos evidencia en contra) es que p = 1/2 (H0 ). Es decir, plantemos el siguiente contraste unilateral para una proporción:    H0 : p = 1/2   H : p > 1/2 1 La estimación puntual de p es p̂ = 70/100 = 0, 7. El estadı́stico que usamos para el contraste es: p̂ − p ❀N (0, 1) Z=p pq/n Está claro que se obtien mayor evidencia a favor de H1 cuando los valores de p̂ se acercan a 1, o lo que es lo mismo, cuando Z se hace “suficientemente grande”. Dicho de otro modo, los valores crı́ticos de Z (los que nos conducen 224 Bioestadı́stica: Métodos y Aplicaciones a rechazar H0 y aceptar H1 son los de la cola de la derecha de la distribución N (0, 1). Si elegimos α = 5 %, los valores crı́ticos son los que están situados a la derecha del percentil 95 de esta distribución, es decir, los valores superiores a zteo = z1−α = 1, 96. Veamos si el valor experimental del estadı́stico (el calculado a partir de la muestra si suponemos cierta H0 ) supera o no dicho valor: 0, 7 − 0, 5 p̂ − p =p =4 Zexp = p pq/n 0, 5 × 0, 5/100 Como se aprecia, Ze xp entra ampliamente dentro de la región crı́tica, por tanto hemos de concluir con el rechazo de la hipótesis nula y la aceptación de la hipótesis alternativa. Resumamos el ejemplo con otras palabras: Si la hipótesis nula fuese cierta, deberı́amos esperar que el valor del estadı́stico Z no fuese “demasiado grande”. Por tanto como hemos obtenido un valor “grande” del mismo, debemos concluir que la hipótesis de partida (H0 ) ha de ser rechazada. El valor zteo se calcula exclusivamente a partir de α, y nos sirve para saber a que nos referimos por un valor “demasiado grande” para Z. 9.4. Contrastes para la diferencia de medias apareadas Las muestras apareadas aparecen como distintas observaciones realizadas sobre los mismos individuos. Un ejemplo de observaciones apareadas consiste en considerar a un conjunto de n personas a las que se le aplica un tratamiento médico y se mide por ejemplo el nivel de insulina en la sangre antes (X) y después del mismo (Y ) Paciente 1 2 ... n xi 150 180 ... 140 yi 120 130 ... 90 di 30 50 ... 50 9.4. CONTRASTES PARA LA DIFERENCIA DE MEDIAS APAREADAS225 No es posible considerar a X e Y como variables independientes ya que va a existir una dependencia clara entre las dos variables. Si queremos contrastar el que los pacientes han experimentado o no una mejorı́a con el tratamiento, llamemos di a la diferencia entre las observaciones antes y después del tratamiento di = xi − yi Supongamos que la v.a. que define la diferencia entre el antes y después del tratamiento es una v.a. d que se distribuye normalmente, pero cuyas media y varianza son desconocidas d❀N µd , σd2 Si queremos contrastar la hipótesis de que el tratamiento ha producido cierto efecto ∆ H0 : µd = ∆, en el caso en que H0 fuese cierta tendrı́amos que el estadı́stico de contraste que nos conviene es Texp = d−∆ √1 n Ŝd ❀ tn−1 donde d es la media muestral de las diferencias di y Ŝd es la cuasivarianza muestral de las mismas. El tipo de contraste serı́a entonces del mismo tipo que el realizado para la media con varianza desconocida. Contraste bilateral Consideramos el contraste de tipo    H0 : µd = ∆   H : µ 6= ∆ 1 d 226 Bioestadı́stica: Métodos y Aplicaciones Entonces se define Texp = d−∆ √1 n Ŝd y se rechaza la hipótesis nula cuando Texp < −tn−1,1−α/2 ó Texp > tn−1,1−α/2 . Contrastes unilaterales Si el contraste es    H0 : µd = ∆   H : µ <∆ 1 d     H0 : µd ≥ ∆   o bien    H : µ <∆  1 d entonces se rechaza H0 si Texp < −tn−1,1−α . Para el test contrario    H0 : µd = ∆   H : µ >∆ 1 d se rechaza H0 si Texp > tn−1,1−α .     H0 : µd ≤ ∆   o bien    H : µ >∆  1 d Ejemplo Se pretende demostrar que cierto tratamiento practicado durante un mes, ayuda a reducir el colesterol. Para ello se reliza un estudio con una muestra aleatoria simple de 10 personas. Los resultados se muestran a continuación. 200 210 330 240 260 300 245 210 190 225 Antes Después 150 200 275 250 200 250 200 180 190 205 ¿Que podemos concluir de estos datos. Solución: Obsérvese que las mediciones se realizan sobre las mismas personas, por tanto no tenemos dos muestras aleatorias independientes, sino una sola, en la cual lo que nos interesa es la diferencia producida entre el colesterol antes del tratamiento y después del mismo. Para ello 9.4. CONTRASTES PARA LA DIFERENCIA DE MEDIAS APAREADAS227 introducimos una nueva variable que expresa la diferencia existente entre el colesterol antes del tratamiento y después del mismo: d = Xant − Xdes Antes Después Diferencia 200 150 50 210 200 10 330 275 55 240 250 -10 260 200 60 300 250 50 245 200 45 210 180 30 190 190 0 225 205 20 Encontrar evidencia a favor de que el tratamiento surgen el efecto deseado (baja el colesterol) es lo mismo que encontrar evidencia estadı́sticamente significativa en el contraste:    H0 : µd = 0   H : µ >0 1 d Esto es de nuevo un contraste para una media, que se realiza sobre la variable diferencia. El estadı́stico que usamos es: Texp = d − µd Ŝd √ n ❀tn−1 = t9 Si d es “muy grande” deberemos concluir que la hipótesis H1 es correcta, lo que equivale a decir que la región crı́tica del contraste está en la cola de la derecha de la distribución t9 . Si elegimos un nivel de significación α = 0, 05, los valores crı́ticos del contraste son los que superan al percentil 95 de la distribución mencionada, es decir, son los que superan la cantidad Tteo = T9;0,95 = 1, 8331. Para ver si Texp supera el valor teórico hemos de calcular previamente a partir de la muestra las estimaciones insesgadas de la media y la desviación tı́pica: d = 31 Ŝd = 7, 43 228 Bioestadı́stica: Métodos y Aplicaciones Luego si suponemos que la hipótesis nula es cierta y que la variable diferencia sigue una distribución normal de parámetros desconocidos, tenemos: Texp = 31 − 0 √ = 13, 19 7, 43/ 10 El valor experimental se encuentra claramente en la región crı́tica del contraste (Texp > Tteo ) por tanto concluimos que existe evidencia estadı́sticamente significativa en contra de la hipótesis nula y a favor de la hipótesis alternativa (al menos con un nivel de significación del 5 %). 9.5. Contrastes de dos distribuciones normales independientes Consideramos a lo largo de toda esta sección a dos poblaciones normales que representamos mediante X1 ❀N µ1 , σ12 X2 ❀N µ2 , σ22 De las que de modo independiente se extraen muestras de tamaño respectivo n1 y n2 . Los tests que vamos a realizar están relacionados con la diferencias existentes entre ambas medias o los cocientes de sus varianzas. 9.5.1. Contraste de medias con varianzas conocidas De manera similar al caso del contraste para una media, queremos en esta ocasión contrastar la hipótesis de que las dos poblaciones (cuyas varianzas suponemos conocidas) sólo difieren en una cantidad ∆ H0 : µ1 − µ2 = ∆ frente a hipótesis alternativas que darán lugar a contrastes unilaterales o bilaterales como veremos más tarde. Para ello nos basamos en la distribución del siguiente estadı́stico de contraste: 9.5. CONTRASTES DE DOS DISTRIBUCIONES NORMALES INDEPENDIENTES 229 H0 cierta =⇒ !  2  σ  1  X 1 ❀N µ1 ,    n1  !    σ22     X 2 ❀N µ2 , n2 =⇒ ⇐⇒ σ2 σ2 X 1 − X 2 ❀N ∆, 1 + 2 n1 n2 Z= (X 1 − X 2 ) − ∆ r σ12 n1 + σ22 n2 ! ❀N (0, 1) Contraste bilateral Consideremos en primer lugar el contraste de dos colas    H0 : µ1 − µ2 = ∆   H : µ − µ 6= ∆ 1 1 2 Se define entonces Zexp = (X 1 − X 2 ) − ∆ r σ12 n1 + σ22 n2 Zteo = z1−α/2 y el test consiste en    si |Zexp | ≤ Zteo   si |Z | > Z exp teo =⇒ no rechazamos H0 ; =⇒ rechazamos H0 y aceptamos H1 . 230 Bioestadı́stica: Métodos y Aplicaciones Contrastes unilaterales Para el test    H0 : µ1 − µ2 = ∆   H : µ −µ <∆ 1 1 2 el contraste consiste en Zteo = zα = −z1−α →     H0 : µ1 − µ2 ≥ ∆   o bien    H : µ −µ <∆  1    si Zexp ≥ Zteo   si Z exp < Zteo 1 2 =⇒ no rechazamos H0 ; =⇒ rechazamos H0 y aceptamos H1 . y para el contraste de significación contrario    H0 : µ1 − µ2 = ∆   H : µ −µ >∆ 1 1 2 se tiene Zteo = z1−α →    si Zexp ≤ Zteo   si Z exp > Zteo     H0 : µ1 − µ2 ≤ ∆   o bien    H : µ −µ >∆  1 1 2 =⇒ no rechazamos H0 ; =⇒ rechazamos H0 y aceptamos H1 . 9.5. CONTRASTES DE DOS DISTRIBUCIONES NORMALES INDEPENDIENTES 231 9.5.2. Contraste de medias homocedáticas Ahora consideramos el problema de contrastar H0 : µ1 − µ2 = ∆ cuando sólo conocemos que las varianzas de ambas poblaciones son iguales, pero desconocidas. El estadı́stico que usaremos para el contraste fue ya introducido en la relación (8.2), pues si suponemos que H0 es cierta se tiene Texp = (X 1 − X 2 ) − (µ1 − µ2 ) Ŝ q 1 n1 + 1 n2 ❀tn1 +n2 −2 donde Ŝ 2 es la cuasivarianza muestral ponderada de Ŝ12 y Ŝ22 Ŝ 2 = (n1 − 1)Ŝ12 + (n2 − 1)Ŝ22 n1 + n2 − 2 Obsérvese que se han perdido dos grados de libertad a causa de la estimación de σ12 = σ22 mediante Ŝ12 y Ŝ22 . Contraste bilateral Para el contraste de significación    H0 : µ1 − µ2 = ∆   H : µ − µ 6= ∆ 1 1 2 se tiene como en casos anteriores que el contraste adecuado consiste en definir Texp = (X 1 − X 2 ) − (µ1 − µ2 ) Ŝ q 1 n1 + Tteo = tn1 +n2 −2,1−α/2 1 n2 232 Bioestadı́stica: Métodos y Aplicaciones y rechazar o admitir la hipótesis nula siguiendo el criterio    si |Texp | ≤ Tteo   si |T | > T exp teo =⇒ no rechazamos H0 ; =⇒ rechazamos H0 y aceptamos H1 . Contrastes unilaterales Cuando el contraste es unilateral del modo    H0 : µ1 − µ2 = ∆   H : µ −µ <∆ 1 1 2     H0 : µ1 − µ2 ≥ ∆   o bien    H : µ −µ <∆  1 1 2 el contraste se realiza siguiendo el mismo proceso que en otros realizados anteriormente, lo que nos lleva a Tteo = −tn1 +n2 −2,1−α →    si Texp ≥ Tteo   si T exp < Tteo =⇒ no rechazamos H0 ; =⇒ rechazamos H0 y aceptamos H1 . y cuando el contraste de significación es el contrario    H0 : µ1 − µ2 = ∆   H : µ −µ >∆ 1 1 2 del mismo modo Tteo = tn1 +n2 −2,1−α → 9.5.3.     H0 : µ1 − µ2 ≤ ∆   o bien    H : µ −µ >∆     si Texp ≤ Tteo   si T exp > Tteo 1 1 =⇒ no rechazamos H0 ; =⇒ rechazamos H0 y aceptamos H1 . Contraste de medias no homocedáticas Consideramos el contraste 2 9.5. CONTRASTES DE DOS DISTRIBUCIONES NORMALES INDEPENDIENTES 233 H0 : µ1 − µ2 = ∆ en el caso más problemático, es decir cuando sólo conocemos de las dos poblaciones que su distribución es normal, y que sus varianzas no son conocidas y significativamente diferentes. En este caso el estadı́stico de contraste tendrá una ley de distribución muy particular. Consistirá en una distribución t de Student, con un número de grados de libertad que en lugar de depender de modo determinista de la muestra (a través de su tamaño), depende de un modo aleatorio mediante las varianzas muestrales. Concretamente, el estadı́stico que nos interesa es T = (X 1 − X 2 ) − ∆ s Ŝ12 Ŝ22 + n1 n2 ❀ tf donde f es el número de grados de libertad que se calcula mediante la fórmula de Welch Ŝ12 Ŝ22 + n1 n2 f= 1 n1 + 1 Ŝ12 n1 !2 !2 1 + n2 + 1 Ŝ22 n2 !2 − 2 No desarrollamos en detalle los cálculos a realizar, pues la técnica para efectuar los contrastes son análogos a los vistos anteriormente cuando las varianzas son desconocidas e iguales. Observación Si lo que pretendemos contrastar es si las medias poblacionales de dos muestras independientes obtenidas de poblaciones normales son idénticas, esto se reduce a los casos anteriores tomando ∆ = 0, es decir, realizando el contraste: 234 Bioestadı́stica: Métodos y Aplicaciones    H0 : µ1 − µ2 = 0   H : µ − µ 6= 0 1 1 2 9.5.4. Contrastes de la razón de varianzas Consideramos dos muestras independientes de dos poblaciones que se distribuyen normalmente (cuyas medias y varianzas son desconocidas). Vamos a abordar cuestiones relacionadas con saber si las varianzas de ambas poblaciones son las mismas, o si la razón (cociente) entre ambas es una cantidad conocida, R. La igualdad entre las dos varianzas puede escribirse σ12 − σ22 = 0 o bien, la existencia de una diferencia entre ambas (∆), del modo σ12 − σ22 = ∆. Este modo de escribir la diferencia entre varianzas (que era el adecuado para las medias) no es sin embargo fácil de utilizar para las varianzas, de modo que nos será más fácil sacarle partido a las expresiones de las relaciones entre varianzas como σ12 = R. σ22 Por ejemplo, si R = 1 tenemos que ambas varianzas son iguales. Consideramos entonces la hipótesis nula H0 : σ12 =R σ22 la cual vamos a contrastar teniendo en cuenta que: (n1 − 1) Ŝ12 ❀χ2n1 −1 σ12 (n2 − 1) Ŝ22 ❀χ2n2 −1 σ22        1 (n1 − \ 1) Ŝ12 σ22 Ŝ12 (n1 − \ 1) σ12 ❀Fn1 −1,n2 −1 =⇒ =  σ12 Ŝ22 (n2 − \ 1) Ŝ22 1      (n2 − \ 1) σ22 9.5. CONTRASTES DE DOS DISTRIBUCIONES NORMALES INDEPENDIENTES 235 Por tanto el estadı́stico del contraste que nos conviene tiene una distribución conocida cuando H0 es cierta —véase la definición de la distribución de Snedecor: F = 1 Ŝ12 ❀Fn1 −1,n2 −1 R Ŝ22 Contraste bilateral El contraste bilateral para el cociente de varianzas se escribe como:  σ12    =R H : 0   σ22     σ12   6 R  H1 : 2 = σ2 Habida cuenta que la distribución F de Snedecor no es simétrica sino que sólo toma valores positivos, se rechazará la hipótesis nula cuando el el valor que tome el estadı́stico del contraste al aplicarlo sobre una muestra sea muy cercano a cero, o bien, muy grande. Es decir, se define el estadı́stico experimental y los lı́mites de la región crı́tica como: Fexp = 1 Ŝ12 R Ŝ22 ateo = Fn1 −1,n2 −1,α/2 bteo = Fn1 −1,n2 −1,1−α/2 y el criterio de aceptación o rechazo es:    si ateo ≤ Fexp ≤ bteo   si F exp < ateo ó Fexp > bteo =⇒ no rechazamos H0 ; =⇒ rechazamos H0 . 236 Bioestadı́stica: Métodos y Aplicaciones 9.5.5. Caso particular: Contraste de homocedasticidad En la práctica un contraste de gran interés es el de la homocedasticidad o igualdad de varianzas. Decimos que dos poblaciones son homocedáticas si tienen la misma varianza. El test de homocedasticidad serı́a entonces el mismo que el de un cociente de varianzas, donde R = 1, es decir:  2 2   H0 : σ 1 = σ 2   H : σ 2 6= σ 2 1 1 2 ⇐⇒  σ12    H : =1 0   σ22     σ12   6 1  H1 : 2 = σ2 Observación Una de las razones de la importancia de este contraste es la siguiente: Si queremos estudiar la diferencia entre las medias de dos poblaciones normales, el caso más realista es considerar un contraste donde las varianzas de las poblaciones son desconocidas. Ante esta situación podemos encontrarnos dos situaciones: 1. Las dos varianzas son iguales. Este es el caso más favorable pues utilizamos la distribución de Student para el contraste con un número de grados de libertad que sólo depende del tamaño de la muestra. 2. Las varianzas son distintas. En este caso el número de grados de libertad es una v.a. (fórmula de Welch) y por tanto al realizar el contraste se pierde cierta precisión. En esta situación lo recomendable es En primer lugar realizar un test de homocedasticidad. Si la igualdad de varianzas no puede ser rechazada de modo significativo, aplicamos un test de diferencia de medias suponiendo que las varianzas son desconocidas pero iguales. En otro caso se utiliza la aproximación de Welch. 9.5. CONTRASTES DE DOS DISTRIBUCIONES NORMALES INDEPENDIENTES 237 Observación Al realizar el contraste bilateral sobre la igualdad de varianzas podemos también economizar parte de trabajo definiendo Fexp como el cociente entre la mayor varianza muestral y la menor Fexp =   Ŝ12       Ŝ22    Ŝ22     Ŝ12 si Ŝ12 ≥ Ŝ22 =⇒ Fexp ≥ 1 si Ŝ22 > Ŝ12 ya que ası́ no es necesario calcular el extremo inferior para la región donde no se rechaza H0 , pues Fexp nunca estará próxima a 0. Con esta definición de Fexp el criterio a seguir frente al contraste de significación para un valor α dado es: Fteo =   =⇒ Ejemplo    Fn1 −1,n2 −1,1−α Fn2 −1,n1 −1,1−α    si Fexp ≤ bteo   si F exp > bteo si Ŝ12 ≥ Ŝ22 si Ŝ22 > Ŝ12 =⇒ no rechazamos H0 ; =⇒ rechazamos H0 . Se desea comparar la actividad motora espontánea de un grupo de 25 ratas control y otro de 36 ratas desnutridas. Se midió el número de veces que pasaban delante de una célula fotoeléctrica durante 24 horas. Los datos obtenidos fueron los siguientes: Ratas de control Ratas desnutridas n1 = 25 n2 = 36 x1 = 869, 8 x2 = 465 S1 = 106, 7 S2 = 153, 7 ¿Se observan diferencias significativas entre el grupo control y el grupo desnutrido? 238 Bioestadı́stica: Métodos y Aplicaciones Solución: En primer lugar, por tratarse de un problema de inferencia estadı́stica, nos serán más útiles las cuasivarianzas que las varianzas. Por ello calculamos: Ŝ12 = Ŝ22 = 25 n1 S12 = 106, 72 = 11,859, 26 n1 − 1 24 n2 36 S22 = 153, 72 = 24,298, 653 n2 − 1 35 El contraste que debemos realizar está basado en el de la t de Student para la diferencia de medias de dos poblaciones. Para ello conocemos dos estadı́sticos posibles, según que las varianzas poblacionales de ambos grupos de ratas puedan ser supuestas iguales (homocedasticidad) o distintas (heterocedasticidad). Para ello realizamos previamente el contraste:  2 2   H0 : σ 1 = σ 2   H : σ 2 6= σ 2 1 1 2 ⇐⇒  σ12    =1 H : 0   σ22     σ12   6 1  H1 : 2 = σ2 Suponiendo H0 cierta, tenemos que el estadı́stico del contraste conveniente es   Ŝ12   si Ŝ12 ≥ Ŝ22   2   Ŝ2 =⇒ Fexp ≥ 1 Fexp =   2  Ŝ2    si Ŝ22 > Ŝ12  2 Ŝ1 ya que ası́ no es necesario calcular el extremo inferior para la región donde no se rechaza H0 . En este caso: Fteo Ŝ22 = 2′ 0489 ❀Fn2 −1,n1 −1 Ŝ12 = F35,24,0′ 95 ≈ 2′ 97 Fexp = 9.5. CONTRASTES DE DOS DISTRIBUCIONES NORMALES INDEPENDIENTES 239 Como Fexp ≤ Fteo , no podemos concluir (al menos al nivel de significación α = 0′ 05) que H0 deba ser rechazada (figura 9.8). Figura 9.8: No hay evidencia significativa para rechazar la homocedasticidad. El estadı́stico del contraste ha sido elegido modo que el numerador de Fexp sea mayor que el denominador, es decir, Fexp > 1. Por lo tanto no rechazamos la hipótesis de homocedasticidad de ambas poblaciones, y pasamos a contrastar la igualdad de las medias    H0 : µ1 − µ2 = 0   H : µ − µ 6= 0 1 1 2 utilizando el estadı́stico más sencillo (el que no necesita aproximar los grados de libertad mediante la fórmula de Welch). Para ello calculamos en primer lugar la cuasivarianza muestral ponderada: Ŝ 2 = y posteriormente (n1 − 1)Ŝ12 + (n2 − 1)Ŝ22 = 19,238′ 6 n1 + n2 − 2 240 Bioestadı́stica: Métodos y Aplicaciones Texp = Ŝ · x1 − x2 q 1 n1 + 1 n2 = 11′ 2101❀tn1 +n2 −2 = t59 Tteo = tn1 +n2 −2,1−α/2 = t59,0′ 975 ≈ 2 Como |Tteo | ≤ Texp concluimos que se ha de rechazar la hipótesis de igualdad de las medias, y por tanto aceptamos que las medias son diferentes. Figura 9.9: Hay una gran evidencia en contra de la hipótesis de que ambas medias poblacionales coincidan, y a favor de que la de la primera población es mayor que la de la segunda. Ejemplo Supongamos que cierta variable numérica se comporta de modo gaussiano sobre dos poblaciones, de las que se han extraido respectivamente una muestra aleatoria simple. Los resultados se muestran a continuación: Muestra 1 Muestra 2 10 32 30 39 32 35 23 30 23 37 24 28 20 34 18 33 19 25 45 30 37 33 ¿Cree que las distribuciones normales que describen a ambas poblaciones, poseen los mismos parámetros? Solución: La distribución normal está descrita por dos parámetros: La media y la varianza. Vamos a realizar entonces el contraste adecuado para 9.5. CONTRASTES DE DOS DISTRIBUCIONES NORMALES INDEPENDIENTES 241 cada uno de estos parámetros. Como el contraste de igualdad de medias depende de que las varianzas sean iguales o distintas, vamos a comenzar por el contraste de homocedasticidad (igualdad de varianzas). Previamente, resumimos la información existente en las muestras con los estimadores insesgados de los parámetros: Primera muestra X1 ❀N µ1 , σ12 Segunda muestra X2 ❀N µ2 , σ22 n1 = 10 x1 = 22, 182 Ŝ1 = 9, 513 n2 = 12 x2 = 32, 75 Ŝ2 = 4, 048 El contraste de homocedasticidad es el siguiente:  2 2   H0 : σ 1 = σ 2   H : σ 2 6= σ 2 1 1 2 El estadı́stico del contraste lo elegimos de tal modo que la varianza mayor esté en el numerador, pues de este modo tenemos que la región crı́tica no es nada más que la cola de la derecha de la distribución de Snedecor: Fexp = 2 Ŝmayor 2 Ŝmenor = Ŝ12 Ŝ22 = 9, 5132 = 5, 5222 4, 0482 Si elegimos un nivel de significación α = 5 %, el valor crı́tico para dicho estadı́stico (aquel a pertir del cual rechazamos la homocedasticidad) es Fteo = F10;12;0,95 = 2, 8962 Por tanto se rechaza la hipótesis de igualdad de varianzas. El contraste de igualdad de medias es:    H0 : µ1 = µ2   H : µ 6= µ 1 1 2 242 Bioestadı́stica: Métodos y Aplicaciones Desconocemos el valor de las varianzas poblacionales, pero al menos sabemos que hemos rechazado la igualdad de las mismas, por tanto el estadı́stico del contraste es: 24, 4 − 32, 75 (x1 − x2 ) =p T =s = −2, 5874 9, 5132 /10 + 4, 0482 /12 Ŝ12 Ŝ22 + n1 n2 La región crı́tica en este caso está dividida en dos zonas (contraste bilateral). Por tanto hemos de observar si el estadı́stico del contraste es un valor inferior al percentil 2,5 o superior al 97,5 de la distribución teórica (la que seguirı́a el estadı́stico del contraste si la hipótesis nula fuese cierta). Como Te xp es un valor negativo, basta con que nos preocumos nada más que de la cola de la izquierda: Tteo = Tf ;0,025 = −Tf ;0,975 = −T12,29;0,975 = −2, 173 donde f es el número de grados de libertad que se calcula mediante la fórmula de Welch Ŝ12 Ŝ22 + n1 n2 f= 1 n1 + 1 Ŝ12 n1 !2 !2 1 + n2 + 1 Ŝ22 n2 !2 − 2 = 12, 29 Como Texp es un valor de la región crı́tica del contraste de igualdad de medias de poblaciones normales con varianzas diferentes, hemos de rechazar (al menos para una significación del 5 %) que las medias de ambas poblaciones coincidan. Ejemplo Supongamos que cierta variable numérica se comporta de modo gaussiano sobre dos poblaciones. Mustra 1 10 30 32 23 23 24 20 18 19 35 Muestra 2 12 28 30 30 20 25 31 15 12 22 24 40 9.5. CONTRASTES DE DOS DISTRIBUCIONES NORMALES INDEPENDIENTES 243 ¿Se puede decir que las media de laprimera población es menor que la de la segunda? Usar un nivel de significación del 10 % Solución: Hemos de realizar un contraste de medias, pero para decidir el estadı́stico del contraste a elegir, debemos contrastar la similitud entre las dispersiones de ambas poblaciones. Para empezar resumimos la información existente en las muestras: Primera muestra X1 ❀N µ1 , σ12 Segunda muestra X2 ❀N µ2 , σ22 n1 = 10 x1 = 22, 4 Ŝ1 = 9, 721 n2 = 12 x2 = 23, 08 Ŝ2 = 10, 466 El contraste de homocedasticidad se escribe:  2 2   H0 : σ 1 = σ 2   H : σ 2 6= σ 2 1 1 2 El estadı́stico del contraste lo elegimos de tal modo que la varianza mayor esté en el numerador, pues de este modo tenemos que la región crı́tica no es nada más que la cola de la derecha de la distribución de Snedecor: Fexp = 2 Ŝmayor 2 Ŝmenor = Ŝ22 Ŝ12 = 10, 4662 = 1, 1593 9, 7212 Si elegimos un nivel de significación α = 10 %, el valor crı́tico para dicho estadı́stico (aquel a pertir del cual rechazamos la homocedasticidad) es Fteo = F12;10;0,90 = 2, 3961 Por tanto no encontramos diferencia que sea estadı́sticamente significativa entre ambas varianzas, es decir, no rechazomos la hipótesis de homocedasticidad. 244 Bioestadı́stica: Métodos y Aplicaciones El contraste de medias es:    H0 : µ1 = µ2   H : µ <µ 1 1 2 Desconocemos el valor de las varianzas poblacionales, pero las diferencias entre ellas (sean cuales sean) no son estadı́sticamente significativas. Por tanto vamos a elegir como estadı́stico del contraste al que se usa cuando podemos asumir que las varianzas son iguales: Texp = (x1 − x2 ) Ŝ q 1 n1 + 1 n2 = −0, 1574 Esta claro que rechazaremos la hipótesis nula y aceptaremos la alternativa, cuando los datos muestrales de la primera muestra sean significativamente menores que los de la segunda, en cuyo caso el estadı́stico del contraste tomarı́a valores muy pequeños. Dicho de otro modo, la región crı́tica es la región comprendida a la izquierda del percentil 10 de la distribución tn1 +n2 −2 . Tteo = T10+12−2;0,10 = −T20;0,90 = −1, 3253 Como Texp no es un valor de la región crı́tica del contraste, concluimos que no hay evidencia estadı́sticamente significativa en contra de la hipótesis nula y a favor de la alternativa. 9.6. Contrastes sobre la diferencia de proporciones Supongamos que tenemos dos muestras independientes tomadas sobre dos poblaciones, en la que estudiamos una variable de tipo dicotómico (Bernoulli): ~ 1 ≡ X11 , X12 , . . . , X1n X 1 ~ 2 ≡ X21 , X22 , . . . , X2n X 2 9.6. CONTRASTES SOBRE LA DIFERENCIA DE PROPORCIONES 245 Si X1 y X2 contabilizan en cada caso el número de éxitos en cada muestra se tiene que cada una de ellas se distribuye como una variable aleatoria binomial: X1 = X2 = n1 X i=1 n2 X X1i ❀B (n1 , p1 ) X2i ❀B (n2 , p2 ) i=1 de modo que los estimadores de las proporciones en cada población tienen distribuciones que de un modo aproximado son normales (cuando n1 y n2 son bastante grandes) p1 q 1 X1 ≈ Pˆ1 = ❀ N p1 , n1 n1 X p 2 ≈ 2 q2 ˆ P2 = ❀ N p2 , n2 n2 El contraste que nos interesa realizar es el de si la diferencia entre las proporciones en cada población es una cantidad conocida ∆ H 0 : p1 − p2 = ∆ Si H0 fuese cierta se tendrı́a que   p1 q 1 p 2 q 2  ≈  + Pˆ1 − Pˆ2 ❀ N p1 − p2 ,  | {z } n1 n2 ∆ Desafortunadamente ni p1 ni p2 son conocidos de antemano y utilizamos sus estimadores, lo que da lugar a un error que es pequeño cuando los tamaños muestrales son importantes: (pˆ1 − pˆ2 ) − ∆ s p̂1 q̂1 p̂2 q̂2 + n1 n2 ≈ = Zexp ❀ N (0, 1) 246 Bioestadı́stica: Métodos y Aplicaciones Contraste bilateral El contraste bilateral sobre la diferencia de proporciones es    H 0 : p1 − p 2 = ∆ Entonces se define   H : p − p 6= ∆ 1 1 2 (pˆ1 − pˆ2 ) − ∆ Zexp = s p̂1 q̂1 p̂2 q̂2 + n1 n2 y se rechaza la hipótesis nula si Zexp < −z1−α/2 o si Zexp > z1−α/2 Contrastes unilaterales En el contraste    H 0 : p1 − p2 = ∆   H : p −p <∆ 1 1 2     H 0 : p1 − p2 ≥ ∆   o bien    H : p −p <∆  1 1 2 se rechazará H0 si Zexp < −z1−α . Para el test contrario    H 0 : p1 − p2 = ∆   H : p −p >∆ 1 1 2 se rechaza H0 si Zexp > z1−α . 9.7.     H 0 : p 1 − p2 ≤ ∆   o bien    H : p −p >∆  1 1 2 Problemas En todos los problemas que siguen a continuación, se supone que las muestras han sido elegidas de modo independiente, y que las cantidades 9.7. PROBLEMAS 247 cuantitativas que se miden, se distribuyen de modo gaussiano. En temas posteriores se verá cómo contrastar si estas premisas pueden ser aceptadas o no al examinar las muestras. Ejercicio 9.1. El calcio se presenta normalmente en la sangre de los mamı́feros en concentraciones de alrededor de 6 mg por cada 100 ml del total de sangre. La desviación tı́pica normal de ésta variable es 1 mg de calcio por cada 100 ml del volumen total de sangre. Una variabilidad mayor a ésta puede ocasionar graves trastornos en la coagulación de la sangre. Una serie de nueve pruebas sobre un paciente revelaron una media muestral de 6,2 mg de calcio por 100 ml del volumen total de sangre, y una desviación tı́pica muestral de 2 mg de calcio por cada 100 ml de sangre. ¿Hay alguna evidencia, para un nivel α = 0, 05, de que el nivel medio de calcio para este paciente sea más alto del normal? Ejercicio 9.2. El número de accidentes mortales en una ciudad es, en promedio, de 12 mensuales. Tras una campaña de señalización y adecentamiento de las vı́as urbanas se contabilizaron en 6 meses sucesivos 8, 11, 9, 7, 10 , 9 accidentes mortales. ¿Fue efectiva la campaña? Ejercicio 9.3. El promedio de las puntuaciones de un número elevado de alumnos de Bioestadı́stica es de 6,50. Un determinado año se examinaron 50 alumnos con resultados promedio de 7,25 y desviación tı́pica de 1. ¿Variaron las calificaciones? Ejercicio 9.4. El peso medio de mujeres de 30 a 40 años es de 53 kg. Un estudio realizado en 16 mujeres de tales edades que siguen una dieta vegetariana da x = 50 y S = 5. ¿Modifica la dieta el peso medio? Ejercicio 9.5. Una población infantil se dice que es susceptible de recibir una campaña de educación e higiene si su porcentaje de niños con dientes 248 Bioestadı́stica: Métodos y Aplicaciones cariados es superior al 15 %. Una población con 12.637 niños, ¿debe hacerse la campaña si de 387 de ellos 70 tenı́an algún diente cariado? Ejercicio 9.6. Un 8 % de los individuos que acuden a un servicio sanitario son hiperutilizadores del mismo (más de 11 visitas al año) y, de entre ellos, un 70 % son mujeres. De entre los no hiperutilizadores, son mujeres el 51 %. ¿Puede afirmarse que han variado los hábitos de estas si, tras una campaña de información y control de visitas, de 90 mujeres elegidas al azar 6 resultaron hiperutilizadoras? Ejercicio 9.7. Se conoce que un 20 % de los individuos tratados crónicamente con digoxina sufren una reacción adversa por causa de ella. A 10 pacientes se les administró durante largo tiempo digoxina mas otros medicamentos, y de ellos 5 desarrollaron la reacción adversa. ¿Puede afirmarse que la asociación entre la digoxina y los otros medicamentos hace variar el número de reacciones adversas? Ejercicio 9.8. Para comprobar si un tratamiento con ácidos grasos es eficaz en pacientes con eczema atı́pico, se tomaron 10 pacientes con eczema de más de 9 meses y se les sometió durante 3 semanas a un tratamiento ficticio (placebo) y durante las tres siguientes a un tratamiento con ácidos grasos. Tras cada periodo, un médico ajeno al proyecto evaluó la importancia del eczema en una escala de 0 (no eczema) a 10 (tamaño máximo de eczema). Los datos fueron los siguientes: Placebo Tratamiento 6 5 8 6 4 4 8 5 5 3 6 6 5 6 6 2 4 2 5 6 ¿Es eficaz el tratamiento? Ejercicio 9.9. En un programa de Control de Enfermedades Crónicas, la hipertensión está incluida como la primera patologı́a a controlar. 15 pacientes hipertensos son sometidos al programa y controlados en su tensión 9.7. PROBLEMAS 249 asistólica antes y después de 6 meses de tratamiento. Los datos son los siguientes: Inic. Fin. 180 140 200 170 160 160 170 140 180 130 190 150 190 140 180 150 190 190 160 170 170 120 190 160 200 170 210 160 ¿Es efectivo el tratamiento? 10.- Muchos autores afirman que los pacientes con depresión tienen una función cortical por debajo de lo normal debido a un riego sanguı́neo cerebral por debajo de lo normal. A dos muestras de individuos, unos con depresión y otros normales, se les midió un ı́ndice que indica el flujo sanguı́neo en la materia gris (dado en mg/(100g/min))obteniéndose: Depresivos Normales n1 = 19 n2 = 22 x1 = 47 x2 = 53′ 8 Ŝ1 = 7′ 8 Ŝ2 = 6′ 1 ¿Hay evidencia significativa a favor de la afirmación de los autores? Ejercicio 9.10. Por fistulización se obtuvo el pH de 6 muestras de bilis hepática con los siguientes resultados: 7,83; 8,52; 7,32; 7,79; 7,57; 6,58 Se desea saber al nivel de significación del 0,05 si la bilis hepática puede considerarse neutra. Si se conociera σ = 0, 5, ¿qué decisión tomarı́amos? Ejercicio 9.11. La prueba de la d–xilosa permite la diferenciación entre una esteatorrea originada por una mala absorción intestinal y la debida a una insuficiencia pancreática, de modo que cifras inferiores a 4 grs. de d–xilosa, indican una mala absorción intestinal. Se realiza dicha prueba a 10 individuos, obteniéndose una media de 3,5 grs. y una desviación tı́pica de 0’5 grs. ¿Sepuede decir que esos pacientes padecen una mala absorción intestinal? 220 150 250 Bioestadı́stica: Métodos y Aplicaciones Ejercicio 9.12. La eliminación por orina de aldosterona está valorada en individuos normales en 12 mgs/24 h. por término medio. En 50 individuos con insuficiencia cardı́aca se observó una eliminación media de aldosterona de 13 mgs/24 h., con una desviación tı́pica de 2,5 mgs/24 h. 1. ¿Son compatibles estos resultados con los de los individuos normales? 2. ¿La insuficiencia cardı́aca aumenta la eliminación por orina de aldosterona? Ejercicio 9.13. La tabla siguiente muestra los efectos de un placebo y de la hidroclorotiacida sobre la presión sanguı́nea sistólica de 11 pacientes. Placebo H–cloro 211 181 210 172 210 196 203 191 196 167 190 161 191 178 177 160 173 149 170 119 163 156 Según estos datos experimentales, ¿podemos afirmar que existe diferencia en la presión sistólica media durante la utilización de estos dos fármacos? Ejercicio 9.14. Se sabe que el 70 % de los pacientes internados en un hospital traumatológico requieren algún tipo de intervención quirúrgica. Para determinar si un nuevo método de fisioterapia reduce el porcentaje de intervenciones, se aplica éste a 30 pacientes de los cuales 17 requieren alguna intervención quirúrgica. Comprobar que no hay razones suficientes para afirmar la eficacia del método con un nivel de confianza del 95 %. Ejercicio 9.15. De un estudio sobre la incidencia de la hipertensión en la provincia de Málaga, se sabe que en la zona rural el porcentaje de hipertensos es del 27,7 %. Tras una encuesta a 400 personas de una zona urbana, se obtuvo un 24 % de hipertensos. 1. ¿Se puede decir que el porcentaje de hipertensos en la zona urbana es distinto que en la zona rural? 9.7. PROBLEMAS 251 2. ¿Es menor el porcentaje de hipertensos en la zona urbana que en la zona rural? Ejercicio 9.16. Con cierto método de enseñanza para niños subnormales se obtiene una desviación tı́pica de 8, en las puntuaciones de los tests finales. Se pone a prueba un nuevo método y se ensaya en 51 niños. Las calificaciones obtenidas en los tests finales dan una desviación tı́pica de 10. ¿Puede asegurarse que el nuevo método produce distinta variación en las puntuaciones? Ejercicio 9.17. Se desea comparar la actividad motora espontánea de un grupo de 25 ratas control y otro de 36 ratas desnutridas. Se midió el número de veces que pasaban delante de una célula fotoeléctrica durante 24 horas. Los datos obtenidos fueron los siguientes: Ratas de control Ratas desnutridas n1 = 25 n2 = 36 x1 = 869, 8 x2 = 465 S1 = 106, 7 S2 = 153, 7 ¿Se observan diferencias significativas entre el grupo control y el grupo desnutrido? Ejercicio 9.18. Se pretende comprobar la hipótesis expuesta en algunos trabajos de investigación acerca de que la presencia del antı́geno AG–4 está relacionada con un desenlace Con éste fin, se hizo una revisión sobre las historias clı́nicas de 21 mujeres muertas por carcinoma de cuello uterino, observando que 6 de ellas presentaban el citado antı́geno. Por otro lado y con fines de comparación se tomó otra muestra de 42 personas, con edades similares a las del grupo anterior y que reaccionaron bien al tratamiento del carcinoma de cuello uterino, en 28 de las cuales se observó la presencia del citado antı́geno. ¿Está relacionada la presencia del antı́geno con una efectividad del tratamiento? Ejercicio 9.19. Se quiso probar si la cirrosis de hı́gado hacia variar el 252 Bioestadı́stica: Métodos y Aplicaciones ı́ndice de actividad de la colinesterasa en suero. Se eligieron dos muestras aleatorias e independientes de individuos. Los resultados fueron: Individuos normales Individuos cirróticos n1 = 20 n2 = 25 x1 = 1, 8 x2 = 0, 66 S1 = 0, 4 S2 = 0, 2 La cirrosis de hı́gado, ¿hace variar el ı́ndice de la colinesterasa en suero? Ejercicio 9.20. Un investigador ha realizado el siguiente experimento: Tomó una primera muestra de 25 pacientes que padecı́an cierto sı́ntoma y otra segunda muestra de 30 pacientes con el mismo sı́ntoma. A los de la primera muestra les aplicó un tratamiento especifico y a los de la segunda les dio un placebo. Anotó el tiempo en horas en que cada uno dijo que el sı́ntoma habı́a desaparecido y obtuvo los siguientes resultados: Muestra 1a Muestra 2a n1 = 25 n2 = 30 P x = 85 P i i1 i xi2 = 216 P 2 x = 343 P i 2i1 i xi2 = 1,650 ¿Puede concluir el investigador que el tratamiento es realmente efectivo? Ejercicio 9.21. Para comprobar si la tolerancia a la glucosa en sujetos sanos tiende a decrecer con la edad se realizó un test oral de glucosa a dos muestras de pacientes sanos, unos jóvenes y otros adultos. El test consistió en medir el nivel de glucosa en sangre en el momento de la ingestión (nivel basal) de 100 grs. de glucosa y a los 60 minutos de la toma. Los resultados fueron los siguientes: Jóvenes: Basal 60 minutos 81 136 89 150 80 149 75 141 74 138 97 154 76 141 89 155 83 145 77 147 Adultos: Basal 60 minutos 98 196 94 190 93 191 88 189 79 159 90 185 86 182 89 190 81 170 90 197 9.7. PROBLEMAS 253 1. ¿Se detecta una variación significativa del nivel de glucosa en sangre en cada grupo? 2. ¿Es mayor la concentración de glucosa en sangre a los 60 minutos, en adultos que en jóvenes? 3. El contenido basal de glucosa en sangre, ¿es menor en jóvenes que en adultos? 4. ¿Se detecta a los 60 minutos una variación del nivel de glucosa en sangre diferente de los adultos, en los jóvenes? 254 Bioestadı́stica: Métodos y Aplicaciones Capı́tulo 10 Contrastes basados en el estadı́stico Ji–Cuadrado 10.1. Introducción Existen multitud de situaciones en el ámbito de la salud en el que las variables de interés, las cuales no pueden cuantificarse mediante cantidades numéricas, entre las que el investigador esté interesado en determinar posibles relaciones. Ejemplos de este tipo de variables pueden ser las complicaciones tras una intervención quirúrgica, el sexo, el nivel socio-cultural, etc. En este caso tendrı́amos, a lo sumo, las observaciones agrupadas en forma de frecuencia, dependiendo de las modalidades que presente cada paciente en cada una de las variables, por los que los métodos estudiados en los capı́tulos anteriores no serı́an aplicables. El objetivo de este tema es el estudio de este tipo de cuestiones en relación con las variables cualitativas (y también v.a. discretas o continuas agrupadas en intervalo). Estos son los contrastes asociados con el estadı́stico χ2 . En general este tipo de tests consisten en tomar una muestra y observar si hay diferencia significativa entre las frecuencias observadas y las especificadas por la ley teórica del modelo que se contrasta, también denominadas “frecuencias esperadas”. Sin embargo, aunque éste sea el aspecto más conocido, el uso del test 255 256 Bioestadı́stica: Métodos y Aplicaciones χ2 no se limita al estudio de variables cualitativas. Podrı́amos decir que existen tres aplicaciones básicas en el uso de este test, y cuyo desarrollo veremos en el transcurso de este capı́tulo: Tres son los temas que abordaremos de esta manera: Test de ajuste de distribuciones: Es un contraste de significación para saber si los datos de una muestra son conformes a una ley de distribución teórica que sospechamos que es la correcta. ad de varias muestras cualitativas: Sirve para contrastar la igualdad de procedencia de un conjunto de muestras de tipo cualitativo. Test para tablas de contingencia: Es un contraste para determinar la dependencia o independencia de caracteres cualitativos. 10.2. El estadı́stico χ2 y su distribución Sea X una v.a. cuyo rango son los valores i = 1, 2, . . . , k, de modo que pi es la probabilidad de cada valor; X❀  1 → P[X = 1] = p1      2 → P[X = 2] = p2    ...  i → P[X = i] = pi     ...    k → P[X = k] = pk Supongamos que el resultado de un experimento aleatorio es una clase c1 , c2 , . . . , ck (ci , i = 1, . . . , k), que puede representar valores cualitativos, discretos o bien intervalos para variables continuas. Sea pi la probabilidad de que el resultado del experimento sea la clase ci . Vamos a considerar contrastes cuyo objetivo es comprobar si ciertos valores p0i , propuestos para las cantidades pi son correctas o no, en función de los resultados experimentales 10.2. EL ESTADÍSTICO χ2 Y SU DISTRIBUCIÓN  0   H0 : Los pi son correctos   H : Alguno de los p0 es falso 1 i ⇐⇒         H0 :                   H1 :      257 p1 = p01 p2 = p02 ... pk = p0k y y p1 6= p01 p2 6= p02 ... pk 6= p0k . o bien o bien (10.1) Mediante muestreo aleatorio simple, se toma una muestra de tamaño n y se obtienen a partir de ella unas frecuencias observadas de cada clase que representamos mediante O1 , O1 , . . . , Ok Clase ci c1 c2 ... ck Frec. Abs. Oi O1 O2 ... Ok k X i=1 Oi = n Supongamos que la hipótesis nula es cierta. Al ser pi = p0i la proporción de elementos de la clase ci en la población, el número de individuos de que presentan esta modalidad al tomar una muestra de tamaño n, es una v.a. de distribución binomial, B n, p0i . Por tanto la frecuencia esperada de individuos de esa clase es Ei = n · p0i k X i=1 ∀ i = 1, 2, . . . , k Ei = n · k X i=1 p0i = n 258 Bioestadı́stica: Métodos y Aplicaciones Obsérvese que a diferencia de las cantidades Oi , que son las frecuencias que realmente se obtienen en una muestra, las frecuencias esperadas no tienen por que ser números enteros. De cualquier modo, bajo la suposición de que H0 es cierta cabe esperar que las diferencias entre las cantidades Ei y Oi sea pequeña. Pearson propuso el estadı́stico χ2 = k X (Oi − Ei )2 i=1 Ei el cual, siguiendo la linea de razonamiento anterior debe tomar valores pequeños si H0 es cierta. Si al tomar una muestra, su valor es grande eso pone en evidencia que la hipótesis inicial es probablemente falsa. Para decidir cuando los valores de χ2 son grandes es necesario conocer su ley de probabilidad. Se tiene entonces el siguiente resultado Teorema [Ley asintótica para χ2 ] Si la hipótesis H0 es cierta, entonces χ2 se distribuye aproximadamente como: χ2 = k X (Oi − Ei )2 i=1 Ei ≈ ❀ χ2k−p−h donde el número de grados de libertad depende de El número k, de clases usadas; El número p de parámetros estimados a partir de la muestra para calcular los Ei . Por ejemplo si todas las cantidades p0i son especificadas entonces p = 0. El número de relaciones o condiciones impuestas a los Ei . Por ejemplo, P si la única condición sobre los Ei es que ki=1 Ei = n entonces h = 1. 10.2. EL ESTADÍSTICO χ2 Y SU DISTRIBUCIÓN 259 La aproximación mejora cuando n es grande y los pi son cercanos a 12 . Como sólo son los valores grandes de χ2 los que nos llevan a rechazar H0 , la región crı́tica es C = (χ2k−p−h,1−α , ∞) χ2n para n=10 No se rechaza H0 Se rechaza H0 2 χn, 1−α 0 5 10 15 20 25 Figura 10.1: Región crı́tica (sombreada) para un contraste con el estadı́stico χ2 . es decir, sean  k  X (Oi − Ei )2  2    χexp = i=1 Ei      χ2 = χ2 teo k−p−h,1−α −→  2 2   Si χexp ≤ χteo no rechazamos H0 ;   Si χ2 > χ2 se rechaza H y se acepta H . 0 1 exp teo Observación A pesar de que el contraste parece ser bilateral al ver la expresión de la relación (10.1), la forma de C, nos indica que el contraste es unilateral: 260 Bioestadı́stica: Métodos y Aplicaciones Sólo podemos saber si existe desajuste entre los esperado y lo observado, pero no podemos contrastar hipótesis alternativas del tipo “pi mayor que cierto valor”. Observación Obsérvese que en realidad χ2 no es una variable aleatoria continua: Los posibles resultados de la muestra se resumen en las cantidades O1 , O2 , . . . , Ok , que únicamente toman valores discretos. Luego las cantidades χ2exp (O1 , O2 , . . . , Ok ) sólo puede tomar un número finito de valores distintos (aunque sean cantidades con decimales). Por tanto su distribución no es continua. Luego al realizar la aproximación mencionada hay que precisar en qué condiciones el error cometido es pequeño. De modo aproximado podemos enunciar el siguiente criterio que recuerda al de la aproximación binomial por la distribución normal: 1. n > 30; 2. Ei = n · pi > 5 para todo i = 1, . . . , k. Sin embargo esta regla resulta demasiado estricta a la hora de aplicarla en la práctica. Se utiliza entonces una regla más flexible y que no sacrifica demasiada precisión con respecto a la anterior: 1. Para ninguna clase ocurre que Ei = n · pi < 1 2. Ei = n · pi > 5 para casi todos los i = 1, . . . , k, salvo a lo sumo un 20 % de ellos. Si a pesar de todo, estas condiciones no son verificadas, es necesario agrupar las clases que tengan menos elementos con sus adyacentes. 10.2. EL ESTADÍSTICO χ2 Y SU DISTRIBUCIÓN 261 Observación El lector puede considerar los contrastes con el estadı́stico χ2 como una generalización del contraste de proporciones. Para ello le invitamos a estudiar el siguiente ejemplo. Ejemplo Se desea saber si cierta enfermedad afecta del mismo modo a los hombres que a las mujeres. Para ello se considera una muestra de n = 618 individuos que padecen la enfermedad, y se observa que 341 son hombres y el resto son mujeres. ¿Qué conclusiones se obtiene de ello? Solución: El contraste a realizar se puede plantear de dos formas que después veremos que son equivalentes: Contraste de una proporción: Si p es el porcentaje de hombres en la población de enfermos, podemos considerar el contraste:    H0 : p = 1/2   H : p 6= 1/2 1 De la muestra obtenemos la siguiente estimación puntual del porcentaje de enfermos de sexo masculino: p̂ = 341/618 = 0, 55178 Para ver si esto es un valor “coherente” con la hipótesis nula, calculemos la significatividad del contraste: Por otro lado, p̂ − p Zexp = p ❀N (0, 1). p ∗ q/n 262 Bioestadı́stica: Métodos y Aplicaciones 0, 55178 − 0, 5 = 2, 574 Zexp = p 0, 5 × 0, 5/60 Como el contraste es de tipo bilateral, la significatividad del contraste es (buscando en la tabla de la distribución normal): P[|Z| > 2, 574] = 2 · P[Z > 2, 574] = 2 ∗ 0, 005 = 1 % < 5 % Lo que nos indica que se ha de rechazar la hipótesis nula y aceptar la hipótesis alternativa, es decir, afirmamos que existe una evidencia significativa a favor de la hipótesis de que la enfermedad no afecta por igual a hombres y mujeres. Contraste con el estadı́stico χ2 : En este caso planteamos el contraste:     H0 :            H1 : phombres = 1/2 pmujeres = 1/2 y phombres = 6 1/2 pmujeres = 6 1/2 o bien Para resolverlo escribimos en una tabla los frecuencias muestrales observadas de hombres y mujeres, junto a los valores esperados en el caso de que la hipótesis nula fuese cierta: Hombres Mujeres frecuencias observadas Oi 341 277 618 frecuencias esperadas Ei 618 × 1/2 = 309 618 × 1/2 = 309 618 diferencia Oi − Ei 9 -9 0 (Oi − Ei )2 /Ei 322 /309 (−32)2 /309 6,63 Consideremos entonces el estadı́stico χ2 = k X (Oi − Ei )2 i=1 donde: Ei ≈ ❀ χ2k−p−h = χ22−0−1 = χ21 10.2. EL ESTADÍSTICO χ2 Y SU DISTRIBUCIÓN 263 k = 2 es el numero de modalidades posibles que toma la variable sexo: hombres y mujeres; p = 0 es el número de parámetros estimados; h = 1 es el números de restricciones impuestas a los valores esperados. Sólo hay una (que es habitual), que consiste en que el número esperado de enfermos entre hombres y mujeres es 60. El estadı́stico calculado sobre la muestra ofrece el valor experimental: χ2exp = 6, 63 que es el percentil 99 de la distribución χ21 . De nuevo se obtiene que la significatividad del contraste es del 1 %<5 %. En conclusión, con los dos métodos llegamos a que hay una fuerte evidencia en contra de que hay el mismo porcentaje de hobres y mujeres que padecen la enfermedad. La ventaja de la última forma de plantear el contraste (diferencia entre frecuencias observadas y esperadas) es que la técnica se puede aplicar a casos más generales que variables dicotómicas, como se verá más adelante. Observación Hay una fórmula alternativa para el cálculo de χ2 cuya expresión es más fácil de utilizar cuando realizamos cálculos: Proposición χ2 = k X Oi2 i=1 Ei −n Demostración 264 Bioestadı́stica: Métodos y Aplicaciones χ2 = k X (Oi − Ei )2 Ei i=1 = k X Oi2 − 2 Oi Ei + Ei2 Ei i=1 = k X Oi2 −2 k X Oi2 − 2n + n k X Oi2 −n i=1 = i=1 = i=1 10.3. Ei Ei Ei k X i=1 Oi + k X i=1 Ei Contraste de bondad de ajuste para distribuciones Vamos a aplicar el contraste χ2 para determinar a través de una muestra si una v.a. X sigue o no cierta distribución. Podemos encontrarnos entonces con dos casos: La ley de la v.a. X que deseamos contrastar está completamente determinada. La ley de la v.a. X no es totalmente conocida y es necesario estimar algunos de sus parámetros. 10.3. CONTRASTE DE BONDAD DE AJUSTE PARA DISTRIBUCIONES265 350 ’observaciones’ esperado(x) 300 250 Frecuencias esperadas 200 150 Frecuencias observadas 100 50 0 55 60 65 70 75 80 85 90 Figura 10.2: En los contrastes de distribuciones, se compara si las observaciones (histograma) se distribuye según una ley de probabilidad conocida. 10.3.1. Distribuciones de parámetros conocidos Deseamos contrastar si la v.a. X sigue una ley de distribución X❀  1 → P[X = 1] = p1      2 → P[X = 2] = p2    ...  i → P[X = i] = pi     . ..    k → P[X = k] = pk donde todos los pi están fijados (hipótesis H0 ). Entonces por lo mencionado anteriormente, el contraste consiste en: 266 Bioestadı́stica: Métodos y Aplicaciones  k  X (Oi − n pi )2  2    χexp = i=1 n pi      χ2 = χ2 teo k−1,1−α −→  2 2   Si χexp ≤ χteo no rechazamos H0 ;   Si χ2 > χ2 se rechaza H 0 exp teo En este contraste se comete cierto error de aproximación y por tanto será tanto mejor cuanto mayor sea n. Ejemplo Dadas dos parejas de genes Aa y Bb, la descendencia del cruce efectuado según las leyes de Mendel, debe estar compuesto del siguiente modo: Leyes de Mendel −→ Fenotipo AB Ab aB ab Frecuencias relativas 9/16 3/16 3/16 1/16 Elegidos 300 individuos al azar de cierta población se observa la siguiente distribución de frecuencias: Fenotipo AB Ab aB ab Total Frecuencias observadas 165 47 67 21 300 ¿Se puede aceptar que se cumplen las leyes de Mendel sobre los individuos de dicha población? Solución: 10.3. CONTRASTE DE BONDAD DE AJUSTE PARA DISTRIBUCIONES267 El contraste a realizar es:    H0 : Se cumplen las leyes de Mendel   H : No se cumplen 1 ⇐⇒         H0 :                   H1 :      pAB = 9/16 pAb = 3/16 paB = 3/16 pab = 1/16 y y y pAB 6= 9/16 pAb 6= 3/16 paB 6= 3/16 pab 6= 1/16 o bien o bien o bien Para ello vamos a representar en una sóla tabla las frecuencias observadas, junto con las que serı́an de esperar en el caso de que H0 fuese cierta: Oi 165 47 67 21 300 Fenotipo AB Ab aB ab Total Ei 300 × 9/16 = 168, 75 300 × 3/16 = 52, 25 300 × 3/16 = 52, 25 300 × 1/16 = 18, 75 300 Oi2 /Ei 161,33 42,27 85,91 23,52 313,03 Bajo la hipótesis de que H0 sea cierta, se tiene que: χ2exp = X i Oi2 /Ei − n❀χ24−0−1 ya que 4 son los posibles fenotipos, no se ha estimado ningún parámetro (la distribución según las leyes de Mendel es conocida), y sobre las cantidades P Ei existe solamente una restricción, que es: i Ei = 300. Por otro lado, χ2exp = X i Oi2 /Ei − n = 313, 03 − 300 = 13, 03 que según la tabla de la distribución χ2 es aproximadamente el percentil 99, 5 de la distribución χ23 . Por tanto la significatividad del contraste es del 268 Bioestadı́stica: Métodos y Aplicaciones 0, 5 % < 5 %, lo que nos conduce a rechazar la hipótesis de que la población de la que la muestra ha sido extraı́da sigue las leyes de Mendel. Al mismo resultado llegamos sin calcular con precisión la significatividad del contraste, sino considerando que el valor teórico máximo que admitimos para el estadı́stico experimental con un nivel de significación del 5 % es el percentil 95 de χ23 , es decir, χ2teo = χ23;0,95 = 7, 815 y claramente ocurre que χ2exp > χ2teo , por lo que se rechaza la hipótesis nula. Obsérvese también que el que se haya rechazado la hipótesis nula significa que hay diferencia estadı́sticamente significativa entre las frecuencias observadas y las esperadas. Figura 10.3: Aunque aparentan ser aproximadamente iguales las frecuencias observadas y esperadas, existe diferencia estadı́sticamente significativa entre ellas. 10.3.2. Distribuciones con parámetros desconocidos Supongamos que la distribución de X que queremos contrastar no especifica ciertos valores de r parámetros 10.4. CONTRASTE DE HOMOGENEIDAD DE MUESTRAS CUALITATIVAS269 X❀Fam (θ1 , . . . , θr ) =⇒ X❀  1 → P[X = 1] = p1 (θ1 , . . . , θr )      2 → P[X = 2] = p2 (θ1 , . . . , θr )    ...  i → P[X = i] = pi (θ1 , . . . , θr )     . ..    k → P[X = k] = pk (θ1 , . . . , θr ) Estimemoslos a partir de la muestra, y consideremos las cantidades pi = pi (θ̂1 , . . . , θ̂r ) Entonces el contraste consiste en  k  X (Oi − n pi )2  2    χexp = i=1 n pi      χ2 = χ2 teo k−r−1,1−α 10.4. −→  2 2   Si χexp ≤ χteo no rechazamos H0 ;   Si χ2 > χ2 se rechaza H 0 exp teo Contraste de homogeneidad de muestras cualitativas Vamos a generalizar el contraste de comparación de dos proporciones (página 244). Consideremos una variable cualitativa (o cuantitativa agrupada en intervalos) que puede tomar valores en diferentes clases. Se toman r muestras diferentes y se desea contrastar:    H0 : Las r muestras son homogéneas con respecto a la variable   H : Alguna muestra es diferente 1 La manera de proceder consiste en representar las r muestras en una tabla del tipo 270 Bioestadı́stica: Métodos y Aplicaciones Frec. clases ↓ F1 Muestra1 Muestra2 ··· Muestrar Clase1 O11 O12 ··· O1r Clase2 O21 O22 ··· O2r F2 ... ... ... ... ... ... Clasek Tamaño muestras → Ok1 Ok2 ··· Okr Fk C1 C2 ··· Cr T donde Fi = Oij → frecuencia observada de la clase i en la muestra j k X Oij → número de individuos de la clase i r X Oij → total de individuos de la muestra j j=1 Cj = i=1 T = r X i=1 Fi = k X j=1 Ci → total de individuos muestreados Bajo la hipótesis H0 , la frecuencia esperada para la clase i en la muestra j es —compárese con la condición de independencia en tablas de doble entrada, relación (??): Eij = Fi · Cj T La diferencia entre lo esperado y lo observado la mide el estadı́stico χ2 10.4. CONTRASTE DE HOMOGENEIDAD DE MUESTRAS CUALITATIVAS271 χ2exp = r X k X (Oij − Eij )2 Eij i=1 j=1 = k r X 2 X Oij i=1 j=1 Eij −T Su distribución es aproximadamente χ2gl , donde los grados de libertad, gl = a − b − c, se calculan teniendo en cuenta que a = k · r → número de casillas b = k − 1 → número de parámetros estimados c = r → relaciones impuestas sobre losEij Por tanto (10.2) ≈ χ2 ❀ χ2(k−1)×(r−1) y rechazamos H0 si χ2exp > χ2(k−1)×(r−1),1−α . Ejemplo Se desea saber si la distribución de los grupos sanguı́neos es similar en los individuos de dos poblaciones. Para ello se elige una muestra aleatoria simple de cada una de ellas, obteniéndose los datos reflejados en la tabla: Frec. Obs. Muestra 1 Muestra 2 A 90 200 B 80 180 AB 110 240 0 20 30 ¿Qué conclusiones pueden obtenerse de estos datos si se usa un nivel de significación del 5 %? Solución: Poseemos una variable cualitativa X, que es el grupo sanguı́neo, y debemos contrastar si la distribución es la misma en la primera población y la segunda. Para ello planteamos el contraste de homogeneidad conveniente: 272 Bioestadı́stica: Métodos y Aplicaciones    H0 : La variable X se distribuye igualmente en ambas poblaciones   H : La distribución no es homogénea 1 Para ello escribimos la que serı́a la distribución de frecuencias esperadas. Éstas se calculan a partir de las frecuencias marginales de la distribución de frecuencias esperadas: Frec. Esp. Muestra 1 Muestra 2 A 91,58 198,42 290 B 82,11 177,89 260 AB 110,53 239,47 350 0 15,79 34,21 50 300 650 950 El estadı́stico del contraste mide las discrepancia entre las observaciones observadas y esperadas: χ2exp = 4 2 X 2 X Oij i=1 j=1 Eij − 950 = 902 302 + ··· + − 950 = 1, 76 91, 58 34, 21 Los valores crı́ticos están a la derecha del percentil 95 del la distribución χ2(2−1)×(4−1) = χ23 , que es χ2teo = χ23;0,95 = 2, 35. Por tanto de dichas muestras no se obtiene evidencia estadı́stica suficiente en contra de que exista una distribución homogénea del grupo sanguı́neo en ambas poblaciones. 10.5. Contraste de independencia de variables cualitativas A partir de una población se toma mediante muestreo aleatorio simple una muestra de tamaño n. En cada observación se analizan dos caracterı́sticas cualitativas A y B ( o cuantitativas agrupadas en intervalos), las cuales presentan r y s modalidades respectivamente. Deseamos contrastar si las dos variables son independientes, o sea, queremos realizar un test de significación para las hipótesis: 10.5. CONTRASTE DE INDEPENDENCIA DE VARIABLES CUALITATIVAS273    H0 : Las caracterı́sticas A y B son independientes   H : Las caracterı́sticas A y B están asociadas 1 Este test puede ser enunciado de forma equivalente ordenando la muestra en una tabla de doble entrada denominada tabla de contingencia, muy parecida a la de la sección anterior: B A A1 A2 ... Ai ... Ar B1 B2 ... Bj ... Bs n11 n21 ... ni1 ... nr1 n•1 n12 n22 ... ni2 ... nr2 n•2 ... ... ... ... ... ... ... n1j n2j ... nij ... nrj n•j ... ... ... ... ... ... ... n1p n2p ... nip ... nrp n•p n1• n2• ... ni• ... nr • n•• Aunque sobre la población las siguientes probabilidades sean desconocidas, introducimos la siguiente notación pij → Probabilidad de una observación del tipo (Ai , Bj ); pi• → Probabilidad de una observación de Ai ; p•j → Probabilidad de una observación de Bj ; (10.3) Recordando el concepto de independencia entre variables bidimensionales cualitativas, otro modo de escribir el contraste a realizar lo obtenemos basándonos en la relación (??):    H0 : ∀ i = 1, . . . , r ∀ j = 1, . . . , s   H : ∃ i = 1, . . . , r ∃ j = 1, . . . , s 1 pij = pi• p•j pij 6= pi• p•j 274 Bioestadı́stica: Métodos y Aplicaciones La idea para realizar este contraste consiste en comparar como en los casos anteriores las frecuencias esperadas bajo la hipótesis H0 , Eij = n•• pi• p•j , con las obtenidas en la muestra, Oij = nij . Como las cantidades pi y pj no son en principio conocidas, han de ser estimadas a partir de las frecuencias observadas  ni•    p̂i• = n ••    p̂ = n•j •j =⇒ Eij = n•• p̂i• p̂•j = ni• n•j n•• n•• lo que nos hace perder (r − 1) + (s − 1) grados de libertad adicionales al estadı́stico del contraste: χ2exp = s r X X (nij − Eij )2 i=1 j=1 Ei j ≈ ❀ χ2(r−1)×(s−1) Luego rechazamos H0 si χ2exp > χ2(r−1)×(s−1),1−α . Observación Aunque el contraste de homogeneidad de muestras es conceptualmente diferente al de independencia de variables cualitativas, obsérvese la analogı́a existente entre los criterios de aceptación o rechazo de ambas hipótesis. Ejemplo 500 niños de escuela primaria se clasificaron de acuerdo con el grupo socioeconómico y la presencia o ausencia de cierto defecto en la pronunciación, los resultados son los siguientes: Con defecto Sin defecto Total Superior 8 42 50 Grupo socioeconómico Medio–Superior Medio–Inferior 24 32 121 138 145 170 Inferior 27 108 135 Total 91 409 500 10.5. CONTRASTE DE INDEPENDENCIA DE VARIABLES CUALITATIVAS275 ¿Son compatibles estos datos con la hipótesis de que el defecto en la pronunciación, no está relacionado con el grupo socioeconómico? Solución: En forma de contraste de hipótesis, se ha de realizar el siguiente:    H0 : Son independientes el nivel socioeconómico y el defecto de pronunciación   H : No son independientes ambas cuestiones. 1 Para ver si H0 puede considerarse cierta, o si por el contrario hay una fuerte evidencia a favor de H1 , fijamos un nivel de significación α = 0, 05, y analizamos gracias al estadı́stico χ2 , las diferencias existentes entre los valores esperados y los observados, de suponer H0 cierta, es decir, las diferencias entre las cantidades Oij Eij = nij ni• · n•j = n•• 276 Defecto Si No Total Bioestadı́stica: Métodos y Aplicaciones Superior Medio superior Grupo socioeconómico Medio inferior Inferior O11 = 8 O12 = 24 O13 = 32 O14 = 27 E11 = 9, 1 E12 = 26, 39 E13 = 30, 94 E14 = 24, 57 2 O11 E11 2 O12 E12 2 O13 E13 2 O14 E14 = 7, 033 = 21, 82 = 33, 096 O22 = 121 O23 = 138 O24 = 108 E21 = 40, 9 E22 = 118, 61 E23 = 139, 06 E24 = 110, 43 2 O21 E21 2 O22 E22 2 O23 E23 2 O24 E24 n•1 = 50 = 123, 438 n•2 = 145 = 136, 948 n•3 = 170 n•4 = 135 χ2teo = χgl,1−α = χ3,0′ 95 = 7′ 81. Calculemos χ2exp : X (Oij − Eij )2 i,j Eij = 2 X Oij i,j Eij n2• = 409 = 105, 623 El número de grados de libertad del estadı́stico del contraste es gl = (2 − 1) × (4 − 1) = 3. Luego de ser H0 cierta, la cantidad χ2exp no deberı́a superar el valor teórico. que se muestra en la Figura 10.4: χ2exp = n1• = 91 = 29, 67 O21 = 42 = 43, 130 Total − n•• = 500, 758 − 500 = 0, 758 En consecuencia, no existe evidencia significativa a favor de la hipótesis alternativa, o sea, no se rechaza la independencia entre el defecto de pronunciación de los niños de la población y el nivel socioeconómico de su familia. n•• = 500 10.5. CONTRASTE DE INDEPENDENCIA DE VARIABLES CUALITATIVAS277 Figura 10.4: Comparación del valor teórico con el experimental. 278 10.6. Bioestadı́stica: Métodos y Aplicaciones Problemas Ejercicio 10.1. Ante la sospecha de que el hábito de fumar de una embarazada puede influir en el peso de su hijo al nacer, se tomaron dos muestras, una de fumadoras y otra de no fumadoras, y se clasificó a sus hijos en tres categorı́as en función de su peso en relación con los percentiles P10 y P90 de la población. El resultado se expresa en la tabla siguiente: ¿Madre fumadora? Si No Menor de P10 117 124 Peso del niño Entre P10 y P90 529 1147 Mayor de P90 19 117 ¿Hay una evidencia significativa a favor de la sospecha a la vista de los resultados de la muestra? Ejercicio 10.2. Varios libros de Medicina Interna recomiendan al médico la palpación de la arteria radial con el fin de evaluar el estado de la pared arterial. Se tomaron 215 pacientes y se les clasificó según la palpabilidad de dicha arteria (grados 0, 1 y 2 para no palpable, palpable y muy palpable o dura, respectivamente) y según una puntuación de 0 a 4 en orden creciente de degeneración arterial (evaluada tras la muerte del paciente y su análisis anatomo-patológico). Los datos son los de la tabla siguiente: Degeneración 0 1 2 3 Palpabilidad 0 1 2 20 5 5 60 20 10 45 15 15 10 5 5 ¿Existe relación entre el grado de palpabilidad y el análisis anatomopatológico? Ejercicio 10.3. Se realizó una encuesta a 2979 andaluces para evaluar su opinión acerca de la atención recibida en los Ambulatorios de la Seguridad Social, clasificándolos también en relación a sus estudios. Analizar los datos 10.6. PROBLEMAS 279 de la siguiente tabla: Nivel de estudios Ninguno Primarios Bachiller Medios Superiores Opinión Buena Regular 800 144 905 312 287 157 95 48 38 32 Mala 32 67 44 11 7 Ejercicio 10.4. Con el fin de conocer si un cierto tipo de bacterias se distribuyen al azar en un determinado cultivo o si, por el contrario, lo hacen con algún tipo de preferencia (el centro, los extremos, etc...), se divide un cultivo en 576 áreas iguales y se cuenta el número de bacterias en cada área. Los resultados son los siguientes: no de bacterias no de áreas 0 229 1 211 2 93 3 35 4 7 ≥5 1 ¿Obedecen los datos a una distribución de Poisson? Ejercicio 10.5. La siguiente tabla recoge la distribución de los triglicéridos en suero, expresados en mg/dl en 90 niños de 6 años: Nivel de triglicéridos 10 – 20 20 – 30 30 – 40 40 – 50 50 – 60 60 – 70 70 – 80 80 – 90 Frecuencias 5 11 15 24 18 12 4 1 Contrastar la hipótesis de que el nivel de triglicéridos en niños de 6 años 280 Bioestadı́stica: Métodos y Aplicaciones sigue una distribución Normal. Ejercicio 10.6. La distribución en Andalucı́a del grupo sanguı́neo es de un 35 %, 10 %, 6 % y un 49 % para los grupos A, B, AB y O respectivamente. En Málaga, se realizó el estudio en una muestra de 200 individuos obteniéndose una distribución del 50 %, 30 %, 18 %, y 10 % para los grupos A, B AB y O respectivamente. Se desea saber si la distribución del grupo sanguı́neo en dicha provincia es igual que en Andalucı́a. Ejercicio 10.7. En un estudio diseñado para determinar la aceptación por una parte de los pacientes de un nuevo analgésico, 100 médicos seleccionaron cada uno de ellos una muestra de 25 pacientes para participar en el estudio. Cada paciente después de haber tomado el nuevo analgésico durante un periodo de tiempo determinado, fue interrogado para saber si preferı́a éste o el que habı́a tomado anteriormente con regularidad, obteniendo los siguientes resultados: no de pacientes que prefieren el nuevo analgésico 0 1 2 3 4 5 6 7 8 9 10 o más Total no de médicos que obtienen estos resultados 5 6 8 10 10 15 17 10 10 9 0 100 no total de pacientes que prefieren el nuevo analgésico 0 6 16 30 40 75 102 70 80 81 0 500 Queremos saber si estos datos se ajustan a una distribución binomial. 10.6. PROBLEMAS 281 Ejercicio 10.8. Disponemos de una muestra de 250 mujeres mayores de 18 años, cuyos pesos son los presentados en la tabla adjunta, y queremos saber si los datos de esta muestra provienen de una distribución Normal. Pesos 30 – 40 40 – 50 50 – 60 60 – 70 70 – 80 80 – 90 90 – 100 100 – 110 no de mujeres 16 18 22 51 62 55 22 4 Ejercicio 10.9. Deseamos conocer, si las distribuciones atendiendo al grupo sanguı́neo, en tres muestras referidas atendiendo al tipo de tensión arterial, se distribuyen de igual manera. Para lo cual, se reunió una muestra de 1500 sujetos a los que se les determinó su grupo sanguı́neo y se les tomó la tensión arterial, clasificándose ésta en baja, normal, y alta. Obteniéndose los siguientes resultados: Tensión arterial Baja Normal Alta Total A 28 543 44 615 Grupo sanguı́neo B AB O 9 7 31 211 90 476 22 8 31 242 105 538 Total 75 1.320 105 1.500 Ejercicio 10.10. La recuperación producida por dos tratamientos distintos A y B se clasifican en tres categorı́as: muy buena, buena y mala. Se administra el tratamiento A a 30 pacientes y B a otros 30: De las 22 recuperaciones muy buenas, 10 corresponden al tratamiento A; de las 24 recuperaciones buenas , 14 corresponden al tratamiento A y de los 14 que tienen una mala recuperación corresponden al tratamiento A. ¿Son igualmente efectivos 282 Bioestadı́stica: Métodos y Aplicaciones ambos tratamientos para la recuperación de los pacientes? Capı́tulo 11 Análisis de la varianza 11.1. Introducción Del mismo modo que el contraste χ2 generalizaba el contraste de dos proporciones, es necesario definir un nuevo contraste de hipótesis que sea aplicable en aquellas situaciones en las que el número de medias que queremos comparar sea superior a dos. Es por ello por lo que el análisis de la varianza, ANOVA1 surge como una generalización del contraste para dos medias de la t de Student, cuando el número de muestras a contrastar es mayor que dos. Por ejemplo, supongamos que tenemos 3 muestras de diferentes tamaños que suponemos que provienen de tres poblaciones normales con la misma varianza: X1 ❀N µ1 , σ 2 ~x2 ∈ IRn2 X2 ❀N µ2 , σ 2 ~x3 ∈ IRn3 X3 ❀N µ3 , σ 2 Si queremos realizar el contraste 1 ~x1 ∈ IRn1 Del término inglés “Analysis of variance”. 283 284 Bioestadı́stica: Métodos y Aplicaciones    H0 : µ1 = µ2 = µ3   H : µ 6= µ ó µ 6= µ ó µ 6= µ 1 1 2 1 3 2 3 podrı́amos en plantearnos como primer método el fijar una cantidad α ! 3 = 3 contrastes siguientes con α como próxima a cero y realizar los 2 nivel de significación:  ′   H0 : µ1 = µ2 nivel de significación α  ′′   H0 : µ1 = µ3 nivel de significación α  ′′′   H0 : µ2 = µ3 nivel de significación α   H ′ : µ 6= µ 1 2 1   H ′′ : µ 6= µ 1 3 1   H ′′′ : µ 6= µ 2 3 1 de modo que se aceptarı́a H1 y se rechazarı́a H0 sólo si alguna de las hipótesis alternativas H1′ , H1′′ ó H1′′′ es aceptada y rechazada su correspondiente hipótesis nula. El error de tipo I para este contraste es: h Prob Rechazar H0 |H0 es cierta h i = 1 − Prob No rechazar H0 |H0 es cierta h i = 1 − Prob No rechazar H0′ ni H0′′ ni H0′′′ |H ′ y 0 = 1 − (1 − α)3 H0′′ y H0′′′ son ciertas i 11.2. ANOVA CON UN FACTOR 285 Por ello el nivel de significación obtenido para este contraste sobre la igualdad de medias de tres muestras no es α como hubiésemos esperado obtener inicialmente, sino 1 − (1 − α)3 . Por ejemplo, si tomamos un nivel de significación α = 0′ 1 para cada uno de los contrastes de igualdad de dos medias, se obtendrı́a que el nivel de significación (error de tipo I) para el contraste de las tres medias es de 1 − 0, 93 = 0, 27, lo que es una cantidad muy alta para lo que acostumbramos a usar. En consecuencia, no es adecuado realizar el contraste de igualdad de medias de varias muestras mediante una multitud de contrastes de igualdad de medias de dos muestras. Una técnica que nos permite realizar el contraste de modo conveniente es la que exponemos en este capı́tulo y que se denomina análisis de la varianza. 11.2. ANOVA con un factor Se denomina modelo factorial con un factor o ANOVA con un factor al modelo (lineal) en el que la variable analizada la hacemos depender de un sólo factor de tal manera que las causas de su variabilidad son englobadas en una componente aleatoria que se denomina error experimental: X = factor ± error Vamos a exponer esto con más claridad. Consideremos una variable sobre la que actúa un factor que puede presentarse bajo un determinado número de niveles, t. Por ejemplo podemos considerar un fármaco que se administra a t = 3 grupos de personas y se les realiza cierta medición del efecto causado: Gripe (nivel 1) Apendicitis (nivel 2) Sanos (nivel 3) 5 8 2 3 9 3 2 6 2 Resultado de la medición 5 4 3 → n1 = 6 7 8 9 10 8 10 → n2 = 9 1 2 3 2 → n3 = 7 286 Bioestadı́stica: Métodos y Aplicaciones En este caso los factores que influyen en las observaciones son tres: el que la persona padezca la gripe, apendicitis, o que esté sana. De modo general podemos representar las t muestras (o niveles) del siguiente modo: Niveles Nivel 1 ≡ N1 Nivel 2 ≡ N2 ... Nivel t ≡ Nt x11 x21 xt1 Observaciones de X x12 · · · x1n1 x22 · · · x2n2 ... xt2 ··· xtnt tamaños muestrales n1 n2 ... nt donde por supuesto, los tamaños de cada muestra ni , no tienen por que ser iguales. En este caso decimos que se trata del modelo no equilibrado. Observación De ahora en adelante asumiremos que las siguientes condiciones son verificadas por las t muestras: Las observaciones proceden de poblaciones normales; Las t muestras son aleatorias e independientes. Además, dentro de cada nivel las observaciones son independientes entre sı́. En el modelo de un factor suponemos que las observaciones del nivel i, xij , provienen de una variable Xij de forma que todas tienen la misma varianza —hipótesis de homocedasticidad: Xij ❀N µi , σ 2 j = 1, . . . , ni o lo que es lo mismo, Xij = µi + ǫij , donde ǫij ❀N 0, σ 2 De este modo µi es el valor esperado para las observaciones del nivel i, y los errores ǫij son variables aleatorias independientes, con valor 11.2. ANOVA CON UN FACTOR 287 esperado nulo, y con el mismo grado de dispersión para todas las observaciones. Otro modo de escribir lo mismo consiste en introducir una cantidad µ que sea el valor esperado para una persona cualquiera de la población (sin tener en cuenta los diferentes niveles), y considerar los efectos αi introducidos por los niveles, de modo que µi = µ + αi t X i = 1, . . . , t ni αi = 0 i=1 11.2.1. Especificación del modelo Con todo lo anterior, el modelo ANOVA de un factor puede escribirse como Xij = µ + αi + ǫij , donde ǫij ❀N 0, σ 2 y con la siguiente interpretación: µ es una constante común a todos los niveles; αi es el efecto producido por el i–ésimo nivel. Al sumarlos todos deben compensarse los efectos negativos con los positivos para que la media común a todos los niveles sea realmente µ. Esto implica en particular que los efectos, αi , de los niveles no son independientes; ǫij es la parte de la variable Xij no explicada por µ ni αi , y que se distribuye del mismo modo (aunque independientemente) para cada observación, según la ley gaussiana: ǫij ❀N 0, σ 2 Ésta es la condición de homocedasticidad, y es fundamental en el análisis de la varianza. 288 Bioestadı́stica: Métodos y Aplicaciones Obsérvese que ahora podemos escribir el contraste de que los diferentes niveles no tienen influencia sobre la observación de la variable como:    H0 : µ1 = µ2 = · · · = µt o bien   H : Al menos dos son distintos 1    H0 : α1 = α2 = · · · = αt = 0 Observación   H : Algún α 6= 0 1 i Se utiliza el nombre de análisis de la varianza ya que el elemento básico del análisis estadı́stico será precisamente el estudio de la variabilidad. Teóricamente es posible dividir la variabilidad de la variable que se estudia en dos partes: La originada por el factor en cuestión; La producida por los restantes factores que entran en juego, conocidos o no, controlables o no, que se conocen con el nombre de error experimental. Si mediante los contrastes estadı́sticos adecuados la variación producida por cierto factor es significativamente mayor que la producida por el error experimental podemos aceptar la hipótesis de que los distintos niveles del factor actúan de forma distinta. Ejemplo Consideremos dos muestras tomadas en diferentes niveles de una variable, de forma que ambas tengan la misma varianza muestral (lo que indica que no se puede rechazar la igualdad de varianzas poblacionales) y medias muestrales bastante diferentes. Por ejemplo: 11.2. ANOVA CON UN FACTOR  nivel 1   n1 = 3 z }| { 1, 2, 3 ❀ x1 = 2   Ŝ 2 = 1 1 nivel 2 }| { 11, 12, 13 ❀ z    n2 = 3 x2 = 12   Ŝ 2 = 1 2 289             =⇒               n = n1 + n2 = 6 x=7   Ŝ 2 ≈ 5, 55 La dispersión calculada al medir la de los dos niveles conjuntamente es mucho mayor que la de cada uno de ellos por separado. Por tanto puede deducirse que ambos niveles no tienen el mismo valor esperado. 11.2.2. Algo de notación relativa al modelo Este apartado está dedicado a introducir alguna notación para escribir los términos que serán más importantes a la hora de realizar un contraste por el método ANOVA. En primer lugar tenemos: N = xi• = t X i=1 ni X ni xij suma de las observaciones del nivel i j=1 xi• = xi• ni x•• = ni t X X x•• = número total de observaciones (entre todos los niveles) i=1 j=1 x•• N media muestral del nivel i xij = t X i=1 ni xi• suma de todas las observaciones media muestral de todas las observaciones Usando estos términos vamos a desglosar la variación total de la muestra en variación total dentro de cada nivel (intravariación) más la variación entre los distintos niveles (intervariación). Para ello utilizamos la proposición ?? (página ??): 290 Bioestadı́stica: Métodos y Aplicaciones SCT = SCD + SCE donde SCT = i=1 j=1 SCD = SCE ni t X X = ni t X X i=1 j=1 t X i=1 (xij − x•• )2 Suma de Cuadrados Totales (xij − xi• )2 SC Dentro de cada nivel ni (xi• − x•• )2 SC Entre todos los niveles Observación En el cálculo del estadı́stico SCT intervienen N cantidades, ligadas por una relación: x•• = ni t X X xij i=1 j=1 de este modo el número de grados de libertad de este estadı́stico es N − 1 (recuérdese la noción de grados de libertad de un estadı́stico, página ??). Por razones análogas tenemos que el número de grados de libertad de SCD es N − t y el de SCE es t − 1. Ası́ introducimos los siguientes estadı́sticos: ŜT2 = ŜE2 = 2 ŜD = SCT N −1 SCE t−1 SCD N −t Cuasivarianza total Intervarianza Intravarianza (11.1) (11.2) (11.3) 11.2. ANOVA CON UN FACTOR 291 Estos son los estadı́sticos que realmente nos interesan a la hora de realizar el contraste de igualdad de medias. Cuando la diferencia entre los efectos de los diferentes niveles sea muy baja, es de esperar que la cuasivarianza total sea próxima a la intravarianza, o lo que es lo mismo, que la intervarianza sea pequeña en relación con la intravarianza. Figura 11.1: En la figura de superior no existe una evidencia significativa en contra de que las medias de los tres grupos de observaciones coinciden. En la figura inferior sı́. 11.2.3. Forma de efectuar el contraste Consideramos el contraste    H0 : α1 = α2 = · · · = αt = 0   H : Algún α 6= 0 1 i y suponemos que estamos en las condiciones del modelo factorial de un 292 Bioestadı́stica: Métodos y Aplicaciones factor. Si H0 es cierta se puede demostrar que el siguiente estadı́stico se distribuye como una F de Snedecor: Fexp = ŜE2 2 ŜD ❀Ft−1,N −t Luego si al calcular Fexp obtenemos que Fexp > Ft−1,N −t,1−α donde α es un nivel de significación dado, deberemos de rechazar la hipótesis nula (ya que si H0 fuese cierta, era de esperar que ŜE2 fuese pequeño en relación 2 ). con ŜD 11.2.4. Método reducido para el análisis de un factor En este apartado vamos a resumir lo más importante de lo visto hasta ahora, indicando la forma más sencilla de realizar el contraste. En primer lugar calculamos los siguientes estadı́sticos a partir de la tabla de las observaciones en cada nivel: A = ni t X X i=1 j=1 B = C = t X x2i• i=1 x2 •• N ni x2ij 11.2. ANOVA CON UN FACTOR 293 Niveles Observaciones de X Nivel 1 x11 Nivel 2 x21 x12 x22 ... Nivel t ··· x1n1 ··· x2n2 ... xt1 xt2 ··· Cálculos al margen n1 n2 x1• x21• n1 x2• x22• n2 ... ... nt xt• x2t• nt x•• B xtnt N n1 X x21j n2 X x22j nt X x2tj j=1 j=1 j=1 A Entonces las siguientes cantidades admiten una expresión muy sencilla: SCE = B−C SCT = A−C SCD = A − B =⇒ ŜE2 = SCE t−1 =⇒ 2 = ŜD SCD N −t Calculamos Fexp = ŜE2 2 ŜD y dado el nivel de significación α buscamos en una tabla de la distribución F de Snedecor el valor Fteo = Ft−1,N −t,1−α rechazando H0 si Fexp > Fteo . como se aprecia en la Figura 11.2. 294 Bioestadı́stica: Métodos y Aplicaciones Fn, m para n=3, m=16 No rechaza la igualdad de medias: H0 Se rechaza H0 Fn, m, 1−α 0 1 2 3 4 Figura 11.2: Región crı́tica en un contraste ANOVA. Ejemplo Se aplican 4 tratamientos distintos a 4 grupos de 5 pacientes, obteniéndose los resultados de la tabla que se adjunta. Queremos saber si se puede concluir que todos los tratamientos tienen el mismo efecto. Para ello vamos a suponer que estamos en condiciones de aplicar el modelo de un factor2 . 2 Esto es algo que debe ser contrastado previamente. En principio la independencia entre las observaciones es algo bastante natural a la hora de realizar un estudio, pero no lo es tanto la condición de homocedasticidad. Más adelante veremos ciertos contrastes de homocedasticidad que deben ser siempre realizados antes de aplicar esta técnica: test de Cochran y test de Bartlett. 11.2. ANOVA CON UN FACTOR Tratamientos Tratamiento Tratamiento Tratamiento Tratamiento Observaciones 1 2 3 4 -1 -2 0 1 1 -4 -1 4 2 -5 -2 6 0 -4 -4 3 -1 -7 -1 8 295 ni xi• 5 5 5 5 N = 20 1 -22 -8 22 x•• = 7 ⇓ 49 C= 20 grados de libertad Suma cuadrados Cuasivarianzas Entre t−1=3 SCE ŜE2 = 2 ŜD · = SCD N −t tratamientos Dentro de los tratamientos N − t = 16 SCD =204,15 =A−B =58,4 SCE t−1 7 110 22 126 A = 265 Estadı́stico Fexp =68,167 =3,65 x2ij j=1 1/5 484/5 64/5 484/5 B = 1,033 5 Fuente de variación =B−C ni X x2i• ni = 2 ŜE 2 ŜD =18,676 Fteo = Ft−1,N −t =3,24 En conclusión, Fexp > Fteo , por tanto se ha de rechazar la igualdad de efectos de los tratamientos. En la Figura 11.4 se representan las observaciones de cada nivel de tratamiento mediante una curva normal cuyos parámetros se han estimado puntualmente a partir de las observaciones. Obsérvese que las diferencias más importantes se encuentran entre Los tratamientos 2 y 4. Esto motiva los contrastes de comparaciones múltiples (dos a dos), para que, en el caso en que la igualdad de medias sea rechazada, se pueda establecer qué niveles tuvieron mayor influencia en esta decisión. 11.2.5. Análisis de los resultados del ANOVA: Comparaciones múltiples Una vez contrastado el que existen diferencias significativas mediante el análisis de la varianza, nos interesa conocer que niveles del factor son los que han influido más para que se de este resultado. Como ilustración, en 296 Bioestadı́stica: Métodos y Aplicaciones F3, 16 Se rechaza la igualdad de medias: H0 Fexp = 18.68 F3, 16, 0.95 0 5 10 15 20 Figura 11.3: Se rechaza la hipótesis de que los tratamientos tienen el mismo efecto en los diferentes grupos. Hay gran evidencia estadı́stica en contra. el último ejemplo se ve claramente que los tratamientos segundo y cuarto dan resultados muy diferentes, y probablemente de ahı́ venga el que se haya rechazado la igualdad de todos los efectos. El método más simple es el de Bonferroni, que consiste en realizar todas las comparaciones por parejas:    H0 : µi = µj   H : µ 6= µ 1 i j i, j = 1, . . . , t i 6= j =⇒ t 2 ! contrastes lo que corresponde a los ya conocidos contrastes de la t de Student, que tienen en este caso como estadı́stico experimental a (de nuevo suponiendo la homocedasticidad en todas las muestras): xi − xj Texp = ŜD s 1 1 + ni ni ❀ tN −t 11.3. CONSIDERACIONES SOBRE LAS HIPÓTESIS SUBYACENTES EN EL MODELO FAC Figura 11.4: Las diferencias más importantes se encuentran entre los niveles 2 y 4. ya que la intravarianza ŜD , es un estimador de σ 2 con N − t grados de libertad. Sin embargo el nivel de significación de los contrastes debe ser disminuido para tener en cuenta que ahora al hacer multitud de contrastes aumenta la probabilidad del error de tipo I. Para una probabilidad de error de tipo I (nivel de significación) α, el procedimiento de comparaciones múltiples de Bonferroni nos indica que declaremos significativas las diferencias entre muestras cuando estas sean significativas en contrastes bilaterales para el estadı́stico anterior para el nivel de significación α′ = 11.3. α t 2 ! Consideraciones sobre las hipótesis subyacentes en el modelo factorial Para aplicar el modelo de un factor hemos hecho, entre otras, las siguientes suposiciones: 298 Bioestadı́stica: Métodos y Aplicaciones Las observaciones de cada muestra han de ser independientes y también la de las muestras entre sı́. Para ello podemos aplicar cualquiera de los contrastes no paramétricos de aleatoriedad. En principio esta aleatoriedad es algo que es bastante razonable admitir si la metodologı́a para elegir los datos (muestreo) ha sido realizada siguiendo técnicas adecuadas. Los datos han de ser normales en cada una de las muestras. Esto es algo que deberı́a ser contrastado previamente antes de utilizar el ANOVA de un factor mediante, por ejemplo, el test de ajuste a la distribución normal mediante el estadı́stico χ2 que ya conocemos, o bien el test de d’Agostino, que veremos más adelante en la página 308, y que es mucho más cómodo de utilizar; Las varianzas de cada muestra son todas iguales, es decir:    H0 : σ 1 = σ 2 = · · · = σ t   H : Algún σ 6= σ 1 i j Para esto podemos utilizar un par de contrastes que exponemos brevemente a continuación: contraste de Cochran y contraste de Bartlett. 11.3.1. Contraste de homocedasticidad de Cochran Este test se aplica cuando n = n1 = n2 = · · · = nt y si ha sido verificada previamente la aleatoriedad y la normalidad de las observaciones. En este caso N = t · n. El estadı́stico del contraste es: Rexp = n máx Ŝi2 t X i=1 ot i=1 Ŝi2 donde se define Ŝi2 como la cuasivarianza de la muestra del nivel i, es decir Ŝi2 = ni ni X X ni 1 1 (xij − xi• )2 = x2ij − x2 ni − 1 j=1 ni − 1 j=1 ni − 1 i• 11.3. CONSIDERACIONES SOBRE LAS HIPÓTESIS SUBYACENTES EN EL MODELO FAC Figura 11.5: En la figura superior hay evidencia en contra de la homocedasticidad en las tres muestras. En la inferior, no. Fijado un nivel de significación α se busca en la tabla de la distribución de Cochran el valor Rteo = Rn−1,t,1−α y se rechaza H0 si Rexp > Rteo . 11.3.2. Contraste de homocedasticidad de Bartlett Este test se aplica si estamos en la misma situación que en el de Cochran, pero en este caso no es necesario el que todas las muestras sean del mismo tamaño. El estadı́stico del contraste es: χ2exp 1 = k " (N − t) 2 ln ŜD − t X i=1 ln Ŝi2 # 300 Bioestadı́stica: Métodos y Aplicaciones siendo 1 k =1+ 3 (t − 1) Se rechaza H0 si χ2exp > χ2t−1,1−α t X i=1 1 1 − ni − 1 N − t ! 11.4. PROBLEMAS 11.4. 301 Problemas 1.- Para evaluar la influencia del tipo de acidosis del recién nacido en los niveles de glucemia medidos en el cordón umbilical del mismo, se obtuvieron los datos de la siguiente tabla: Controles Acid. Respiratoria Acid. Metabólica Acid. Mixta 51 60 69 70 56 65 73 75 58 66 74 76 Niveles de 60 62 68 68 78 79 77 79 glucemia 63 65 69 73 79 82 80 82 68 75 85 86 72 78 87 88 73 80 88 89 Obtener conclusiones a partir de los resultados de esas muestras. 2.- Se desea saber si el grado de ansiedad es el mismo, por término medio, en tres enfermedades distintas. Para ello se tomaron tres muestras de 10, 12 y 8 personas, respectivamente, con esas enfermedades, pasándoles a cada una de ellas un test que mide el grado de ansiedad del individuo. Los resultados se dan en la tabla adjunta. Enfermedad A B C 4 2 7 6 1 5 5 5 8 Grado 5 6 5 4 7 9 de 3 6 3 ansiedad 3 2 6 4 4 4 5 5 5 3 3 2 ¿Que puede concluirse de los datos?. 3.- En una experiencia para comparar la eficacia de diversas técnicas en el tratamiento del dolor producido por una intervención quirúrgica superficial, 28 pacientes se agruparon al azar en 4 grupos de 7, tratando al primero con placebo, y a los siguientes con dos tipos de analgésicos (A y B) y acupuntura. Los datos se dan en la siguiente tabla: 302 Bioestadı́stica: Métodos y Aplicaciones Tratamiento Placebo Analgésico A Analgésico B Acupuntura Minutos para la remisión del dolor 35 22 5 14 38 42 65 85 80 46 61 99 114 110 100 107 142 88 63 94 70 86 125 103 99 154 75 160 ¿Que conclusiones pueden obtenerse de esta experiencia?. 4.- Se está llevando a cabo un estudio para comprobar el efecto de tres dietas diferentes en el nivel de colesterina de pacientes hipercolesterinémicos. Para ello se han seleccionado al azar 3 grupos de pacientes, de tamaños 12, 8 y 10. Los niveles de colesterina medidos después de 2 semanas de dieta se representan a continuación: Dieta A B C 2’9 3’15 3 3’35 2’95 2’6 3’25 2’8 2’65 3 3’1 2’2 Nivel 3’3 2’75 2’55 de colesterina 3’1 3’25 3’25 2’6 2’8 3’05 2’3 2’35 2’6 3’1 3’05 2’35 2’6 3’25 Analice los resultados obtenidos. 5.- En un colectivo de 5 individuos se aplican 3 fármacos para estudiar su influencia sobre sus movimientos respiratorios (número de inspiraciones por minuto). Los valores obtenidos para cada individuo vienen expresados en la tabla: Antes de los tratamientos Después de I Después de II Después de III 1 14 16 15 17 Individuos 2 3 4 16 18 15 17 21 16 14 18 15 16 20 13 5 20 24 22 18 Estudie si el efecto de estos fármacos en la variación respiratoria producida 3 11.4. PROBLEMAS puede considerarse o no el mismo. 303 304 Bioestadı́stica: Métodos y Aplicaciones Capı́tulo 12 Contrastes no paramétricos 12.1. Introducción Hasta ahora todas las técnicas utilizadas para realizar algún tipo de inferencia exigı́an: bien asumir de ciertas hipótesis como la aleatoriedad en las observaciones que componen la muestra, o la normalidad de la población, o la igualdad de varianzas de dos poblaciones, etc; o bien, la estimación de cualquier parámetro como la media, varianza, proporción, etc, de la población. El conjunto de estas técnicas de inferencia se denominan técnicas paramétricas. Existen sin embargo otros métodos paralelos cuyos procedimientos no precisan la estimación de parámetros ni suponer conocida ninguna ley de probabilidad subyacente en la población de la que se extrae la muestra. Estas son las denominadas técnicas no paramétricas o contrastes de distribuciones libres, algunos de los cuales desarrollamos en este capı́tulo. Sus mayores atractivos residen en que: Son más fáciles de aplicar que las alternativas paramétricas; 305 306 Bioestadı́stica: Métodos y Aplicaciones Al no exigir ninguna condición suplementaria a la muestra sobre su proveniencia de una población con cierto tipo de distribución, son más generales que las paramétricas, pudiéndose aplicar en los mismos casos en que estas son válidas. Por otro lado, esta liberación en los supuestos sobre la población tiene inconvenientes. El principal es la falta de sensibilidad que poseen para detectar efectos importantes. En las técnicas no paramétricas juega un papel fundamental la ordenación de los datos, hasta el punto de que en gran cantidad de casos ni siquiera es necesario hacer intervenir en los cálculos las magnitudes observadas, más que para establecer una relación de menor a mayor entre las mismas, denominadas rangos. 12.2. Aleatoriedad de una muestra: Test de rachas A veces al realizar un muestreo, puede llegar a influir el orden temporal o espacial en que las muestras han sido elegidas, con lo cual no estamos en las condiciones de un muestreo aleatorio simple, ya que la ley de probabilidad varı́a de una observación a otra. Como ilustración obsérvese la figura adjunta. También podemos denominar a este contraste como test de independencia de las observaciones de una muestra. Consideremos una muestra de tamaño n que ha sido dividida en dos categorı́as ⊖ y ⊕ con n1 y n2 observaciones cada una. Se denomina racha a una sucesión de valores de la misma categorı́a. Por ejemplo si estudiamos una población de personas podemos considerar como categorı́a el sexo ⊖ ≡ ser hombre ⊕ ≡ ser mujer rachas z }| { ⊕ ⊕ ⊕ ⊖⊖ ⊕ ⊖ ⊖ ⊖ | {z } |{z} |{z} | {z } 4 3 2 1 3    n1 = 5 n =4 2   n=n +n =9 1 2 12.2. ALEATORIEDAD DE UNA MUESTRA: TEST DE RACHAS 307 x x ✘ ✿ ✘ ✿✘ ✘ ✿✘ ✘ ✟ ✯ ❳ ③✟ ✓t t t t t t✲ t t t t✓✼ ✏ ✶ ✏ 1✏ 2✚ ❃3 3 5 6 7 8 9 ✶✚ ✏ ✑ ✸❈ ✄✗❙ ✇✑ ❘ ✂✍❅ t t t ✄ t t t❈ t✂ t ❇t t✲ 1 2 3 ✄ 3 5 6 ❈ 7✂ 8 9 ❇◆❇ ❈❲✂ ✏ ✶❩ ✄ ✏ no observación ❩ ⑦✄ no observación No aleatoria (tendencia) Aleatoria x x ✘ ✿ ✲❩ ✘ ❩ ⑦ ✡ ✣ t t t t t t t❆ t t t✲ ✡ 1 2✒3 3 5 6 7 ❆❯8❳ ✟ ✯ ❳ ③9✟ ✏ ✶ ✏ no observación No aleatoria (periódica) ✄✄✗❈ t✄ t❈ t ✍✂t❇ t ✍✂❈t t ✍✂t❆ t t✲ ✂ ❇ ✂ ❈ 1✄ 2 ❈❈3✂ 3 ❇◆5✂ 6 ❈ 7 ✂8 ❆9❆❯✒ ✄ ✂ ❈❲✂ n❈❲❈o✂ observación No aleatoria (alternante) 308 Bioestadı́stica: Métodos y Aplicaciones En función de las cantidades n1 y n2 se espera que el número de rachas no sea ni muy pequeño ni muy grande. Si las observaciones son cantidades numéricas estas pueden ser divididas en dos categorı́as que poseen aproximadamente el mismo tamaño (n1 = n2 ± 1), si consideramos la mediana de las observaciones como el valor que sirve para dividir a la muestra: ⊖ ≡ observación inferior a la mediana ⊕ ≡ observación superior a la mediana Se define la v.a. R como el número de rachas. Su distribución está tabulada para los casos n1 ≤ 20 y n2 ≤ 20 (tabla 7 de Downie). La aleatoriedad en la extracción de la muestra se rechaza cuando R ≤ Rn1 ,n2 ,α/2 ó R ≥ Rn1 ,n2 ,1−α/r . 12.3. Normalidad de una muestra: Test de D’Agostino Consideremos n observaciones, las cuales ordenamos de menor a mayor y les asignamos su rango en función de este orden Observaciones ordenadas → x1 x2 x3 · · · xi · · · xn → Rango 1 2 3 ··· i ··· n Se calculan sobre la muestra la media, la desviación tı́pica un estadı́stico T y por último el estadı́stico del contraste D cuya distribución está tabulada T = n X i=1 D= T n2 S n+1 i− 2 xi = n X i=1 i xi − n(n + 1) x 2 (12.1) (12.2) En la tabla de la distribución del estadı́stico de D’Agostino, (tabla 8) D, para un nivel de significación α, se busca un intervalo (Dn,α , Dn,α ) de modo 12.4. EQUIDISTRIBUCIÓN DE DOS POBLACIONES 309 que si D ∈ / (Dn,α , Dn,α ) se rechaza la normalidad y en otro caso se asume. Para realizar este test es necesario que al menos n ≥ 10. 12.4. Equidistribución de dos poblaciones Estas son las alternativas no paramétricas del contraste de la t de Student para poblaciones normales (sección §9.5, página 228). Están concebidas para contrastar la hipótesis de que dos muestras aleatorias independientes ~x = x1 , x2 , . . . , xn1 ~y = y1 , y2 , . . . , yn2 provienen de poblaciones que tienen idénticas distribuciones. Para aplicar estos contrastes será en primer lugar necesario contrastar si cada una de las muestras se ha obtenido mediante un mecanismo aleatorio. Esto puede realizarse mediante un test de rachas. Supongamos que el contraste de aleatoriedad de ambas muestras (cuantitativas) no permite que ésta se rechace a un nivel de significación α. Entonces aplicaremos el contraste de Mann—Withney o el de rachas de Wald—Wolfowitz, que exponemos a continuación. 12.4.1. Contraste de rachas de Wald—Wolfowitz Si combinamos las dos muestras y disponemos el conjunto completo de todas las observaciones, ordenadas de menor a mayor, cabe esperar que bajo la hipótesis H0 : Las poblaciones de las que provienen las muestras están equidistribuidas las dos muestras estén muy entremezcladas, y por tanto el número de rachas, Rexp , formadas por las categorı́as ⊖ ≡ Observación de la muestra ~x ⊕ ≡ Observación de la muestra ~y debe ser muy alto. 310 Bioestadı́stica: Métodos y Aplicaciones Cuando n1 , n2 ≤ 20 el valor teórico del número de rachas por debajo del cual se rechaza H0 , Rteo = Rn1 ,n2 ,α se busca en la tabla 7 (de Downie) y entonces no se rechaza H0 si Rexp ≥ Rteo y se rechaza en otro caso. 12.4.2. Contraste de Mann—Withney El objetivo es el mismo que el del test anterior: contrastar la hipótesis    H0 : Las poblaciones de las que provienen las muestras están equidistribuidas   H : Las poblaciones no están equidistribuidas 1 para dos muestras ~x, ~y cuantitativas independientes, tomadas de modo aleatorio. El contraste se efectúa combinando las dos muestras y disponiendo el conjunto completo de las observaciones, ordenado de menor a mayor. Se asignan después números de rango a cada observación Observaciones unidas y ~z = ~x ∪ ~y ordenadas Rango → z1 z2 z3 · · · zi · · · → 1 2 3 ··· i zn1 +n2 · · · n1 + n2 Se calcula después la suma de los rangos de las observaciones pertenecientes a la primera muestra y a la segunda, obteniéndose respectivamente R1 y R2 , para después calcular los estadı́sticos n1 (n1 + 1) − R1 2 n2 (n2 + 1) = n1 n2 + − R2 = n1 n2 − U1 2 U1 = n1 n2 + (12.3) U2 (12.4) Entonces si la hipótesis H0 es cierta, U1 y U2 tienen una distribución de Mann—Withney de parámetros n1 y n2 que está tabulada (tabla 9) para 12.5. CONTRASTE DE WILCOXON PARA MUESTRAS APAREADAS311 valores en que    máx{n1 , n2 } ≤ 40   mı́n{n , n } ≥ 20 1 2 Para el contrate bilateral, se define Uexp = mı́n{U1 , U2 } (12.5) y se rechaza H0 si Uexp < Un1 ,n2 ,α . Si el contraste que pretendemos realizar es unilateral, como por ejemplo,    H0 : La primera población toma valores menores o iguales a la segunda   H : Los de la segunda son menores 1 rechazaremos la hipótesis nula si U1 < Un1 ,n2 ,α . Si el test es el contrario    H0 : La segunda población toma valores menores o iguales a la primera   H : Los de la primera son menores 1 se rechaza H0 si U2 < Un1 ,n2 ,α . 12.5. Contraste de Wilcoxon para muestras apareadas El contraste de Wilcoxon es la técnica no paramétrica paralela a el de la t de Student para muestras apareadas (sección §9.4, página 224). Igualmente dispondrı́amos de n parejas de valores (xi , yi ) que podemos considerar como una variable medida en cada sujeto en dos momentos diferentes. ∀ i = 1, . . . , n, i–ésima observación ≡ (xi , yi ) → diferencia ≡ di = xi −yi El test de Wilcoxon, al igual que los otros contrastes no paramétricos puede realizarse siempre que lo sea su homólogo paramétrico, con el inconveniente 312 Bioestadı́stica: Métodos y Aplicaciones de que este último detecta diferencias significativas en un 95 % de casos que el de la t de Student. Sin embargo a veces las hipótesis necesarias para el test paramétrico (normalidad de las diferencias apareadas, di ) no se verifican y es estrictamente necesario realizar el contraste que presentamos aquı́. Un caso muy claro de no normalidad es cuando los datos pertenecen a una escala ordinal. El procedimiento consiste en: 1. Ordenar las cantidades |di | de menor a mayor y obtener sus rangos. 2. Consideramos las diferencias di cuyo signo (positivo o negativo) tiene menor frecuencia (no consideramos las cantidades di = 0) y calculamos su suma, T T =  P   di >0 i   P di <0 i si los signos positivos de di son menos frecuentes; si los signos negativos de di son menos frecuentes. Del mismo modo es necesario calcular la cantidad T ′ , suma de los rangos de las observaciones con signo de di de mayor frecuencia, pero si hemos ya calculado T la siguiente expresión de T ′ es más sencilla de usar T ′ = m(n + 1) − T donde m es el número de rangos con signo de di de menor frecuencia. 3. Si T ó T ′ es menor o igual que las cantidades que aparecen en la tabla de Wilcoxon (tabla número 10), se rechaza la hipótesis nula del contraste    H0 : No hay diferencia entre las observaciones apareadas   H : Si la hay 1 12.6. CONTRASTE DE KRUSKAL–WALLIS 12.6. 313 Contraste de Kruskal–Wallis El contraste de Kruskall–Wallis es la alternativa no paramétrica del método ANOVA, es decir, sirve para contrastar la hipótesis de que k muestras cuantitativas han sido obtenidas de la misma población. La única exigencia versa sobre la aleatoriedad en la extracción de las muestras, no haciendo referencia a ninguna de las otras condiciones adicionales de homocedasticidad y normalidad necesarias para la aplicación del test paramétrico ANOVA. De este modo, este contraste es el que debemos aplicar necesariamente cuando no se cumple algunas de las condiciones que se necesitan para aplicar dicho método. Al igual que las demás técnicas no paramétricas, ésta se apoya en el uso de los rangos asignados a las observaciones. Para la exposición de este contraste, supongamos que tenemos k muestras representadas en una tabla como sigue, Niveles Nivel 1 ≡ N1 Nivel 2 ≡ N2 ... Nivel k ≡ Nk x11 x21 xk1 Observaciones de X x12 · · · x1n1 x22 · · · x2n2 ... xk2 ··· xknk El número total de elementos en todas las muestras es: N = n1 + n2 + · · · + nk (12.6) La hipótesis a contrastar es:    H0 : Las k muestras provienen de la misma población   H : Alguna proviene de una población con mediana diferente a las demás 1 El modo de realizar el contraste es el siguiente: Se ordenan las observaciones de menor a mayor, asignando a cada una de ellas su rango (1 para la menor, 2 para la siguiente, . . . ,N para la mayor). 314 Bioestadı́stica: Métodos y Aplicaciones Para cada una de las muestras, se calcula Ri , i = 1, . . . , k, como la suma de los rangos de las observaciones que les corresponden. Si H0 es falsa, cabe esperar que esas cantidades sean muy diferentes. Se calcula el estadı́stico: H= k X Ri2 12 − 3(N + 1) N (N + 1) i=1 ni (12.7) La regla para decidir si se ha de rechazar o no la hipótesis nula es la siguiente: Si el número de muestras es k = 3 y el número de observaciones en cada una de ellas no pasa de 5 se rechaza H0 si el valor de H supera el valor teórico que encontramos en la tabla de Kruskall–Wallis —tabla número 11. En cualquier otro caso, se compara el valor de H con el de la tabla de la χ2k−1 con k − 1 grados de libertad. Se rechaza H0 si el valor del estadı́stico supera el valor teórico χ2k−1,1−α . 12.7. Problemas 1.- Recientes estudios sobre el ejercicio de la Medicina en centros en los que no actúan estudiantes, indican que la duración media de la visita por paciente es de 22 minutos. Se cree que en centros donde con un elevado número de estudiantes en prácticas esta cifra es menor. Se obtuvieron los siguientes datos sobre las visitas de 20 pacientes aleatoriamente seleccionados: Duración en minutos de la visita 21’6 13’4 20’4 16’4 23’5 26’8 24’8 19’3 23’4 9’4 16’8 21’9 24’9 15’6 20’1 16’2 18’7 18’1 19’1 18’9 1. ¿Constituyen estos datos una muestra aleatoria? 12.7. PROBLEMAS 315 2. ¿Podemos concluir en base a estos datos que la población de la cual fue extraı́da esta muestra sigue una distribución Normal? 2.- Se realiza un estudio para determinar los efectos de poner fin a un bloqueo renal en pacientes cuya función renal está deteriorada a causa de una metástasis maligna avanzada de causa no urológica. Se mide la tensión arterial de cada paciente antes y después de la operación. Se obtienen los siguientes resultados: Antes Después 150 90 132 102 130 80 Tensión arterial 116 107 100 101 82 90 94 84 96 93 90 89 78 8????? ¿Se puede concluir que la intervención quirúrgica tiende a disminuir la tensión arterial? 3.- Se ensayaron dos tratamientos antirreumáticos administrados al azar, sobre dos grupos de 10 pacientes, con referencia a una escala convencional (a mayor puntuación, mayor eficacia), valorada después del tratamiento. Los resultados fueron: Tratamiento primero Tratamiento segundo 12 21 Nivel de eficacia del tratamiento 15 21 17 38 42 10 23 35 18 25 14 52 65 40 43 35 28 42 Decidir si existe diferencia entre los tratamientos. 4.- Puesto que el hı́gado es el principal lugar para el metabolismo de los fármacos, se espera que los pacientes con enfermedades de hı́gado tengan dificultades en la eliminación de fármacos. Uno de tales fármacos es la fenilbutazona. Se realiza un estudio de la respuesta del sistema a este fármaco. Se estudian tres grupos: controles normales, pacientes con cirrosis hepática, 316 Bioestadı́stica: Métodos y Aplicaciones pacientes con hepatitis activa crónica. A cada individuo se les suministra oralmente 19 mg de fenilbutazona/Kg. de peso. Basándose en los análisis de sangre se determina para cada uno el tiempo de máxima concentración en plasma (en horas). Se obtienen estos datos: Normal 4 30’6 26’8 37’9 13’7 49 Cirrósis 22’6 14’4 26’3 13’8 17’4 Hepatı́tis 16’6 12’1 7’2 6’6 12’5 15’1 6’7 20 ¿Se puede concluir que las tres poblaciones difieren respecto del tiempo de máxima concentración en plasma de fenilbutazona? 5.- El administrador de un laboratorio está considerando la compra de un aparato para analizar muestras de sangre. En el mercado hay 5 de tales aparatos. Se le pide a cada uno de los 7 técnicos médicos que después de probar los aparatos, les asignen un rango de acuerdo con el orden de preferencia, dándole el rango 1 al preferido. Se obtienen los siguientes datos: Técnico 1 2 3 4 5 6 7 Analizador de sangre I II III IV V 1 3 4 2 5 4 5 1 2 3 4 1 3 5 2 1 3 2 5 4 1 2 3 4 5 5 1 3 2 4 5 1 4 3 2 12.7. PROBLEMAS 317 Utilizar el contraste adecuado para determinar si los técnicos perciben diferencias entre los aparatos. 6.- Los efectos de tres drogas con respecto al tiempo de reacción a cierto estı́mulo fueron estudiados en 4 grupos de animales experimentales. El grupo IV sirvió de grupo control, mientras que a los grupos I, II y III les fueron aplicadas las drogas A, B y C respectivamente, con anterioridad a la aplicación del estı́mulo: I ←A 17 20 40 31 35 II ←B 8 7 9 8 III ←C 3 5 2 9 IV ←Control 2 5 4 3 ¿Puede afirmarse que los tres grupos difieren en cuanto al tiempo de reacción? 7.- La tabla siguiente muestra los niveles de residuo pesticida (PPB) en muestras de sangre de 4 grupos de personas. Usar el test de Kruskal–Wallis para contrastar a un nivel de confianza de 0’05, la hipótesis nula de que no existe diferencia en los niveles de PPB en los cuatro grupos considerados. Grupo Grupo Grupo Grupo I II III IV 10 4 15 7 37 35 5 11 Niveles de 12 31 32 19 10 12 1 08 PPB 11 9 33 18 6 6 2 5 23 8 15 3 8.- La cantidad de aminoácidos libres fue determinada para 4 especies de ratas sobre 1 muestra de tamaño 6 para cada especie. Comprobar si el contenido de aminoácidos libres es el mismo para las 4 especies. 318 Bioestadı́stica: Métodos y Aplicaciones Especies I II 431’1 477’1 440’2 479’0 443’2 481’3 445’5 487’8 448’6 489’6 451’2 403’6 de ratas III IV 385’5 366’8 387’9 369’9 389’6 371’4 391’4 373’2 399’1 377’2 379’4 381’3 9.- Los siguientes datos nos dan el peso de comida (en Kg.) consumidos por adulto y dı́a en diferentes momentos en un año. Usar un contraste no paramétrico para comprobar si el consumo de comida es el mismo en los 4 meses considerados. Febrero 4’7 4’9 5’0 4’8 4’7 Mayo 4’7 4’4 4’3 4’4 4’1 Agosto 4’8 4’7 4’6 4’4 4’7 Noviembre 4’9 5’2 5’4 5’1 5’6 10.- Se hizo un estudio neurofisiológico sobre la conducción motora tibial posterior en dos grupos de pacientes embarazadas con las siguientes determinaciones: Primer grupo Segundo grupo 51 58 Conducción motora tibial posterior 40 41 53 48 50 45 58 45 43 40 45 41 42 44 52 56 44 48 Comprobar la igualdad o no de ambas muestras. 11.- En un experimento diseñado para estimar los efectos de la inhalación prolongada de óxido de cadmio, 15 animales de laboratorio sirvieron de su- 12.7. PROBLEMAS 319 jetos para el experimento, mientras que 10 animales similares sirvieron de controles. La variable de interés fue el nivel de hemoglobina después del experimento. Se desea saber si puede concluirse que la inhalación prolongada de óxido de cadmio disminuye el nivel de hemoglobina según los siguientes datos que presentamos: Expuestos No expuestos 14’4 15’7 17’4 14’2 16’7 16’2 13’8 13’7 17’1 Nivel de hemoglobina 16’5 14’1 16’6 15’9 15’3 14’0 17’5 15’0 16’0 16’9 15’6 14’1 15’3 15’0 16’3 16’8 12.- A 11 ratas tratadas crónicamente con alcohol se les midió la presión sanguı́nea sistólica antes y después de 30 minutos de administrarles a todas ellas una cantidad fija de etanol, obteniéndose los datos siguientes: Antes Después 126 119 120 116 124 117 Presión sanguı́nea sistólica 122 130 129 114 116 122 127 122 110 120 119 112 112 110 118 111 ¿Hay un descenso significativo de la presión sanguı́nea sistólica tras la ingestión de etanol? 13.- Un test de personalidad, tiene dos formas de determinar su valoración suponiendo inicialmente que ambos métodos miden igualmente la extroversión. Para ello se estudia en 12 personas obteniéndose los siguientes resultados: Forma A Forma B 12 10 18 17 Medida de la extraversión 21 10 15 27 31 6 15 20 5 21 24 29 7 11 ¿Hay diferencia entre los dos métodos? 13 13 8 8 10 11 320 Bioestadı́stica: Métodos y Aplicaciones Bibliografı́a [AB 92] P. Armitage, G. Berry, Estadı́stica para la Investigación Biomédica. Doyma, Barcelona, 1992. [Cal 74] G. Calot, Curso de Estadı́stica Descriptiva. Paraninfo, Madrid, 1974. [Car 82] J.L. Carrasco de la Peña, El Método Estadı́stico en la Investigación Médica. Karpus, Madrid, 1982. [Dan 90] W.W. Daniel, Applied Nonparemetric Statistics. PWS–Kent Publishing Company, Boston, 1990. [Ham 90] L.C. Hamilton, Modern Data Analysis. Brooks/Cole Publishing Company, Pacific Grove, 1990. [Mar 94] A. Martı́n Andrés, J.D. Luna del Castillo, Bioestadı́stica para las Ciencias de la salud. Norma, Granada, 1994. [MS 88] L.A. Marascuilo, R.C. Serlin, Statistical Methods for the Social and Behavioral Sciences. W.H. Freeman and Company, Nueva York, 1988. [Peñ 94] D. Peña Sánchez de Rivera, Estadı́stica: Modelos y Métodos, 1. Alianza Universidad Textos, Madrid, 1994. [RMR 91] T. Rivas Moya, M.A. Mateo, F. Rı́us Dı́az, M. Ruiz, Estadı́stica Aplicada a las Ciencias Sociales: Teorı́a y Ejercicios (EAC). Secretariado de Publicaciones de la Universidad de Málaga, Málaga, 1991. 321 322 BIBLIOGRAFÍA [RM 92] E. Rubio Calvo, T. Martı́nez Terrer y otros, Bioestadı́stica. Colección Monografı́as Didácticas, Universidad de Zaragoza, Zaragoza, 1992. [RS 79] R.D. Remington, M.A. Schork, Estadı́stica Biométrica y Sanitaria. Prentice Hall International, Madrid, 1979. [Rum 77] L. Ruiz–Maya, Métodos Estadı́sticos de investigación (Introducción al Análisis de la Varianza). I.N.E. Artes Gráficas, Madrid, 1977. [SR 90] E. Sánchez Font, F. Rı́us Dı́az, Guı́a para la Asignatura de Bioestadı́stica (EAC). Secretariado de Publicaciones de la Universidad de Málaga, Málaga, 1990. [ST 85] Steel, Torrie, Bioestadı́stica (Principios y Procedimientos). Mac Graw–Hill, Bogotá, 1985. [Tso 89] M. Tsokos, Estadı́stica para Psicologı́a y Ciencias de la Salud. Interamericana Mac Graw–Hill, Madrid, 1989. [WG 82] S.L. Weinberg, K.P. Goldberg, Estadı́stica Básica para las Ciencias Sociales. Nueva Editorial Interamericana, Mexico, 1982. [Zar 74] J.H. Zar, Biostatistical Analysis. Prentice Hall Inc., Englewood Cliffs, 1974.

Log In

Bioestadistica

Related papers

Related papers