3 - Manual de Teoria Bioest I
3 - Manual de Teoria Bioest I
BÁSICA
PRIMERA PARTE:
BIOESTADÍSTICA I
CAC
0
MANUAL DE BIOESTADÍSTICA BÁSICA
CAPITULO 1 LOS DATOS Y LAS ESTADÍSTICAS……………………………...4
Índice
1. Introducción a la Bioestadística
2. Variables y Tipos de variables
3. Distribución de frecuencias
3.1. Descripción de variables cualitativas
3.2. Descripción de variables cuantitativas
3.2.1 Descripción de variables cuantitativas discretas
3.2.2 Descripción de variables cuantitativas continúas
4. Representaciones gráficas
4.1. Representaciones gráficas de variables cualitativas
4.2 Representaciones gráficas de variables cuantitativas
4.2.1 Representaciones gráficas de variables cuantitativas discretas
4.2.2. Representaciones gráficas de variables cuantitativas continúas
1
CAPITULO 4. VARIABLES ALEATORIAS DISCRETAS Y DISTRIBUCIONES
DE PROBABILIDAD DISCRETAS…………………………………………………62
Índice
1. Introducción
2. Variable aleatoria
2.1. Variables aleatorias discretas
3. Medidas características de una variable aleatoria discreta
3.1. Media o esperanza
3.2. Varianza
4. Principales modelos de distribuciones discretas
4.1. Distribución de Bernoulli
4.2. Distribución binomial
4.3. Distribución de Poisson
CAPITULO 5. VARIABLES ALEATORIAS CONTINUAS Y DISTRIBBUCIONES
DE PROBABILIDAD CONTINUAS………………………………………………...70
Índice
1. Introducción
2. Variables aleatorias continuas
3. Medidas características de una variable aleatoria continua
3.1. Media o esperanza
3.2. Varianza
4. Principales modelos de distribuciones continuas
5.La distribucion de probabilidad normal
5.1. La distribución normal estándar N(0,1)
5.2. La distribución normal N(µ,σ2)
LITERATURA CONSULTADA…………………………………………………...…………78
2
NOTAS DEL AUTOR
3
CAPITULO 1. LOS DATOS Y LAS ESTADÍSTICAS
1. Introducción a la Bioestadística
4
El campo de la estadística tiene que ver con la recopilación, presentación,
análisis y uso de datos para tomar decisiones y resolver problemas. Cualquier
persona, tanto en su carrera profesional como en la vida cotidiana recibe
información en forma de datos a través de periódicos, de la televisión y de otros
medios.
Ejemplo 1: Un cardiólogo, que investiga un nuevo fármaco para rebajar el
colesterol, desea conocer el consumo de grasas en varones adultos mayores de
40 años. ¿Cómo debe proceder?
Población: Es el universo de individuos al cual se refiere el estudio que se
pretende realizar.
Muestra: Subconjunto de la población cuyos valores de la variable que se
pretende analizar son conocidos.
Variable: Rasgo o característica de los elementos de la población que se
pretende analizar.
Una muestra aleatoria es un subconjunto de casos o individuos de una población.
En el Ejemplo 1, la población objeto de estudio sería la formada por todos los
varones adultos mayores de 40 años. La variable de interés es el consumo de
grasas. El cardiólogo podría pensar en analizar a todos los individuos de la
población. Sin embargo, esto resulta inviable (y así ocurre en muchas otras
situaciones prácticas debido al coste, al tiempo que requiere,...) Entonces se
conformará con extraer una muestra. La muestra proporciona información sobre
el objeto de estudio. Lo habitual en nuestro contexto es que en el procedimiento
de extracción intervenga el azar. Por ejemplo, el cardiólogo seleccionaría al azar
a 100 varones adultos mayores de 40 años y estudiaría el consumo de grasas
de cada uno de ellos.
Ejemplo 2: Se quiere analizar el tiempo que dedican al estudio semanal los
alumnos del Grado en Medicina de esta Universidad. Para ello se pregunta a 50
alumnos de esta titulación.
Población: Todos los estudiantes del Grado en Medicina de esta Universidad.
Variable: Número de horas de estudio semanal.
Muestra: 50 alumnos encuestados.
Ejercicio 1: Se desea estimar el porcentaje de albúmina en el suero proteico de
personas sanas. Para ello se analizan muestras de 40 personas, entre 2 y 40
años de edad.
a) Cuál es la población objeto de estudio?
b) Cuál es la variable de interés?
c) Cuál es la muestra con la que se realiza el estudio?
5
Clasificamos las tareas vinculadas a la Estadística en tres grandes disciplinas:
Estadística Descriptiva. Se ocupa de recoger, clasificar y resumir la información
contenida en la muestra.
Cálculo de Probabilidades. Es una parte de la matemática teórica que estudia
las leyes que rigen los mecanismos aleatorios.
Inferencia Estadística. Pretende extraer conclusiones para la población a partir
del resultado observado en la muestra.
La Inferencia Estadística tiene un objetivo más ambicioso que el de la mera
descripción de la muestra
(Estadística Descriptiva). Dado que la muestra se obtiene mediante
procedimientos aleatorios, el Cálculo de Probabilidades es una herramienta
esencial de la Inferencia Estadística.
2. Variables y tipos de variables y Conceptos básicos más utilizados en
bioestadística
En ocasiones, una variable puede tener sólo dos categorías, por lo que se llaman
también dicotómicas. Un ejemplo de pregunta que representa la variable que se
va a indagar y sus posibles respuestas son: ¿tuvo fiebre antes de llegar al
hospital?: sí o no; ¿cómo está la presión arterial sistólica de este paciente?: baja,
normal o alta.
Debe tenerse en cuenta que, usualmente, a la hora de almacenar los datos para
su posterior análisis, a cada opción de respuesta se le puede asignar un código
numérico. Así, en las variables cualitativas, este número es un resumen de lo
que significa cada posible respuesta (o categoría) de la variable, pero no es una
cantidad. Por ejemplo, al codificar la variable sexo se puede asigna el valor 1
(uno) al encuestado “masculino” y 2 (dos) o 0 (cero) al “femenino”; no por esto la
variable sexo deja de ser cualitativa, ni mucho menos la categoría “1” será más
que la “0” o se podrán hacer operaciones con ellas. Sería muy ingenuo sacar el
promedio de los ceros y unos que codifican la variable sexo de una investigación.
Dependiendo del programa que va a ser utilizado para el análisis, generalmente
se prefiere codificar como cero (0) o dos (2) a la ausencia de enfermedad o de
exposición a algún factor específico; en cambio, el uno (1) usualmente indica
presencia de enfermedad o antecedente de exposición al factor de riesgo (por
ejemplo: no fumador: 0; fumador: 1). En cualquier situación, si usa una
codificación propia, debe tener claro lo que significa cada código para cada
variable.
6
Una variable que usualmente genera confusión es la que indica el estado clínico
de una enfermedad, la cual se clasifica como 0, 1, 2, 3 (o en sus números
romanos correspondientes); aunque es una numeración que implica un
gradiente, es arbitraria y representa diferentes niveles de avance no
cuantificables de la enfermedad en el individuo; una ampliación sobre estos se
puede ver en el apartado sobre variables ordinales.
Variable discreta. Es una variable cuantitativa que sólo permite valores enteros,
sin que exista la posibilidad de intermedios entre dos enteros. Por ejemplo, la
variable número de hijos permite decir cero, uno, dos, tres u otro valor, pero
siempre es un entero. Es posible llegar a considerar a las variables discretas
también como variables cualitativas porque en determinado momento se tiene o
no la característica. Por ejemplo: el color de ojos puede ser azul, verde o café,
sin dar la posibilidad de valores intermedios.
Variable continua. Es una variable cuantitativa que puede tomar cualquier valor,
sea entero o fraccionario, entre los valores límites mínimo y máximo. Por
ejemplo: el peso: 64,3 kilogramos; la estatura: 173.5 centímetros; la temperatura
del paciente: 37.5 grados centígrados; el valor del colesterol HDL: 45.5 mg/dL.
Un detalle que permite identificar a las variables continuas es que el valor entre
cada unidad es el mismo (hay el mismo kilómetro de diferencia entre medir 45 y
46 km que entre 73.4 y 74.4 km).
7
Variable nominal. Es una variable cualitativa en la que sus opciones de
respuesta no tienen un orden de importancia definido ni representan un
gradiente; es decir, ninguna posible respuesta es más relevante, buena o mala
que otra, aún si se expresan en números. Tal es el caso de la diabetes tipo 1 y
diabetes tipo 2, en las que el número no representa ni una cantidad ni algún tipo
de gradiente y pueden presentarse en cualquier orden ya que ninguno denota
mayor importancia; son tan solo caracteres alfanuméricos de igual significado
que cualquier otro. Ahora bien, a veces cuando se montan las bases de datos,
estas categorías se recodifican con números, que igualmente solo diferencian
una característica de otra pero sin que representen una cantidad o un orden; por
ejemplo: el sexo puede definirse como hombre (1) y mujer (0), o mujer (1) y
hombre (0).
8
que explican el comportamiento de la dependiente, o sea, las variables
independientes). De otra manera:
Ahora, imagínese otro estudio que se hace en forma casi simultánea en la misma
población y en el que se busca determinar las causas de otra enfermedad
cardiovascular, el infarto agudo del miocardio (IAM); en éste se recolectan como
variables independientes a la edad y los antecedentes de hipertensión, diabetes
y tabaquismo. Se podría generar una expresión similar a la anterior:
Por ejemplo, en un estudio se encontró que a mayor número de hijos, mayor era
el riesgo de hipertensión arterial en las mujeres. Los investigadores no se
explicaban esta aparente relación, la cual no había sido informada previamente
en la literatura; sin embargo, fue desmentida cuando analizaron el papel que
juega la edad tanto en la probabilidad que una mujer tenga hijos como que sea
hipertensa.
Se sabe que a mayor edad hay mayor probabilidad de tener esta patología;
también es cierto que la probabilidad de tener hijos aumenta a mayor edad.
Cuando los investigadores analizaron la asociación entre el número de hijos y la
presencia de hipertensión arterial, pero ajustando por la edad, se observó que el
aparente mayor riesgo dado por el número de hijos desaparecía. La edad cumple
entonces el papel de factor de confusión.
9
estrategias metodológicas, el apareamiento (o emparejamiento), la
aleatorización y la restricción de la población 10. Una explicación más detallada
está por fuera del objetivo de este artículo.
Variable
Valores límites Ejemplo de
(unidad de Tipo de Variable Definición para el estudio
(códigos) Interpretación
medida)
Edad Cuantitativa, Edad en años 0 – 14 años La edad media
En la base: discreta, de cumplidos referida por la de las niñas del
Edad niño razón, persona cargo del niño a estudio fue de
independiente estudio 10 años
Azúcar en Cuantitativa, Cifra que muestra el nivel 40-600 mg/dL * La glicemia de
sangre (mg/dl) continua, de de glicemia en cada uno de los
razón, sujeto luego de 8 horas 1.Hipo:<70 sujetos de
independiente de ayuno y observada en 2.Normo:70-130 investigación
el informe de glicemia 3 Hiper: >130 fue de 140
En la base: realizado por el mg/dl
glicemia laboratorio clínico
contratado.
Sexo Cualitativa, Sexo del menor informado 0. Femenino El 50% de los
En la base: nominal, por la persona a cargo del participantes
masculino discreta, menor fueron de sexo
independiente masculino
1 Masculino
10
finalmente, se procede a técnicas más sofisticadas como son los análisis
estratificado y multivariado. Abundar en estos tópicos va más allá del alcance de
este escrito, pero es necesario hacer algunas anotaciones relevantes con miras
a que el lector pueda abordar de una mejor manera estas temáticas en otros
documentos.
3. Distribución de frecuencias
La primera forma de recoger y resumir la información contenida en la muestra es
efectuar un recuento del número de veces que se ha observado cada uno de los
distintos valores que puede tomar la variable.
A eso le llamamos frecuencia. Daremos definiciones precisas del concepto de
frecuencia en sus distintas formas de presentación a través de un ejemplo
práctico.
11
2.1 La matriz de datos y la tabla de distribución de frecuencias.
La descripción de una sola variable, para la cual el tiempo no es un factor, supone tres
mediciones principales: la distribución, el promedio y la variación de la variable.
Los datos estadísticos sin ordenar se le suele llamar datos crudos o datos brutos.
La Matriz de datos es un modo de ordenar los datos de manera que sea particularmente
visible la estructura tripartita de los datos (arreglo de datos).
Datos estadísticos sin ordenar pueden presentarse en la tabla 2-1, que contiene los
ingresos medios mensuales de 40 mensajeros de la ciudad de Santo Domingo.
Tal distribución posee ventajas indudables sobre los datos en forma desordenada. Con
ella pueden apreciarse fácil y rápidamente muchas características de la variable.
Primero una sola mirada a la distribución nos dice que el ingreso medio mensual de los
mensajeros es de $12,618.75. Segundo, hay una gran concentración de ingresos medio
mensuales próximo a $ 11,100.00. Finalmente, revela también aproximadamente el
modelo de distribución de la serie.
TABLA 2-1.
12
TABLA 2-2.
68 71 77 83 79
72 74 57 67 69
50 66 70 66 76
70 84 59 75 94
65 72 85 79 71
83 84 74 82 97
77 73 78 93 95
78 81 79 90 83
80 84 91 101 86
83 92 102 80 69
13
Dado que los datos están en bruto resulta un poco engorroso llegar a una simple
conclusión significativa. Procede en este caso agrupar los datos en una distribución de
frecuencias.
La fórmula de Sturges:
Número de Intervalos C
Cada clase tiene un límite inferior y un límite superior. EJ Los valores exactos de estos
límites son muy importantes. Si los datos en una variable de frecuencias son continuos,
es necesario permitir valores fraccionarios. Los límites de clase se consideran las
fronteras de la clase.
Las verdaderas fronteras de las clases son los puntos medios de las clases Xi, y se
calculan con la semisuma de los límites de las clases:
A demás del uso de la fórmula de Surges el tamaño de las clases puede determinarse
como:
En nuestro ejemplo hemos elegido siete clases para la tabla de frecuencia 2.4, el
intervalo de clase se convierte en:
102- 50
IC = = 7.4 mm/dl
7
Debido a que los datos originales no son continuos el intervalo puede ajustarse de
manera leve hacia arriba o hacia abajo, y lo hemos redondeado a 8 por conveniencia
para formar la tabla 2-4. Como puede percatarse el límite superior de la primera clase
es el límite inferior de la segunda clase, el límite superior de d la segunda clase es el
14
límite inferior de la tercera clase y así sucesivamente. Esto es así debido a que debemos
incluir cualquier valor incluidos entre los límites inclusive, de esta manera incluimos el
intervalo próximo a la clase.
Cuando sea posible, debe formase una tabla o cuadro de frecuencias con intervalos de
clases iguales. La uniformidad facilita las comparaciones de frecuencias de clases y los
cálculos de ciertas medidas estadísticas. Las frecuencias entre las clases se llaman
frecuencia absoluta (fi) Pero, con frecuencia, puede resultar impráctico y aun
inconveniente observar esta regla. En ocasiones hay grandes lagunas entre los datos y,
en consecuencia, el uso de intervalos de clases iguales daría por resultado grandes
irregularidades como ausencia de frecuencias, o solo unas cuantas partidas en algunas
clases. Por estas razones suelen formarse distribuciones de frecuencias de intervalos
de cases variables. Las tablas 2-5 y 2-6 muestran distribuciones de frecuencia de clases
desiguales.
15
Existen otros tipos de frecuencias y conforme a ellas existen tablas de distribuciones de
frecuencia.
Una distribución de frecuencia relativa expresa la frecuencia dentro de una clase como
un porcentaje del número total de observaciones. La frecuencia relativa de una clase se
determina como la frecuencia de dicha clase entre la suma total de las frecuencias
absolutas. La tabla 2-7 muestra la distribución de frecuencia relativa para pasajeros.
Esto permite sacar conclusiones sobre el número de observaciones en nuestra clase
respecto a toda la muestra.
50-58 2 4.00%
58-66 4 8.00%
66-74 13 26.00%
74-82 14 28.00%
82-90 10 20.00%
90-98 5 10.00%
98-106 2 4.00%
____ _______
Total 50 100.00%
Clase Punto
(nivesles)m medio (xi) Conteo fi fr Fi Fr
m/dl
50-58 54 // 2 0.04 2 0.04
58-66 62 //// 4 0.08 6 0.12
66-74 70 ///// ///// /// 13 0.26 19 0.38
74-82 78 ///// ///// //// 14 0.28 33 0.36
82-90 86 ///// ///// 10 0.20 43 0.38
90-98 94 ///// 5 0.10 48 0.96
98-106 102 // 2 0.04 50 1.00
____ ____
Total 50 1.00
Fuente: Laboratorio Amadita, 2014.
16
Ejemplo 3: En la última hora han acudido al servicio de urgencias de un hospital
ocho pacientes, cuyos datos de ingreso se encuentran resumidos en la siguiente
tabla. Clasifica las variables recogidas (sexo, peso, estatura, temperatura,
número de visitas previas al servicio de urgencias y dolor).
Sexo Peso (kg.) Estatura (m.) Temperatura ( oC) Visitas Dolor
Sxo Peso(kg) Estatura(m) Temperatura (C) Visitas Dolor
M 63 1.74 38.0 0 Leve
M 58 163 36.52 2 Intenso
H 84 1.86 37.20 0 Intenso
M 47 1.53 38.20 0 Moderado
M 70 1.75 37.11 1 Intenso
M 57 1.68 36.80 0 Leve
H 87 1.82 38.41 1 Leve
M 55 1.46 36.61 1 Intenso
fr= fi /∑fi
La frecuencia relativa es igual a la frecuencia absoluta dividida por el tamaño
muestral.
Frecuencia absoluta acumulada. Es el número de veces que se ha observado el
resultado con los valores anteriores. La denotamos por Fi, es una suma continua
de las frecuencias absolutas.
En la mayor parte de procedimientos estadísticos es necesario manejar
conjuntos de observaciones numéricas. Para representar de forma concisa los
17
cálculos, se ha desarrollado una notación matemática abreviada. Por ejemplo,
para designar la adición se usa la letra griega ∑ = sigma
Frecuencia relativa acumulada. Es la frecuencia absoluta acumulada dividida por
el tamaño muestral.
La denotamos por Fr, y es igual: Fr = Fi / ∑fi
Debemos observar que las frecuencias acumuladas sólo tienen sentido cuando
es posible establecer una relación de orden entre los valores de la variable, esto
es, cuando la variable es ordinal.
Las frecuencias se pueden escribir ordenadamente mediante una tabla de
frecuencias, que adopta la siguiente forma:
Xi fi fr Fi Fr
X1 f1 fr1 Fr1
X2 f2 fr2 Fr2
X3 f3 fr3 Fr3 . . . . . . .
Xn fn frn Fin Fr n
Propiedades:
Frecuencias absolutas 0 ≤ fi ≤ n
Frecuencias relativas 0≤ fr ≤ 1.00
Frecuencias absolutas acumuladas 0≤Fi ≤ fi
Frecuencias relativas acumuladas 0 ≤ Fr ≤ 1.00
∑fr =1.00
Claramente, la suma de las frecuencias absolutas es el número total de datos,
n; y la suma de las frecuencias relativas es 1.0 Observa que el último valor de
la distribución de frecuencias absolutas acumuladas coincide con el número de
observaciones. Análogamente, el último valor de la distribución de frecuencias
relativas acumuladas es uno. La distribución de frecuencias acumuladas permite
conocer la proporción de valores por debajo de cierto valor de la variable, o entre
dos valores especificados, o por encima de cierta cantidad.
Como ejemplo, vamos a construir la tabla de frecuencias para la variable Dolor
del Ejemplo 3. La variable Dolor es una variable cualitativa ordinal que presenta
tres modalidades: leve, moderado e intenso. Tendríamos así la tabla de
frecuencias:
Xi Xi fr Fi Fr
Leve 3 0.375 3 0.375
Moderado 1 0.125 4 0.5
Intenso 4 0.5 8 100
Total ∑fi = 8 1.00
18
-Interpreta los resultados obtenidos y comprueba que se verifican las
propiedades de las frecuencias.
-Qué porcentaje de pacientes que acudieron al servicio de urgencias sufren dolor
intenso?
-Cuántos pacientes acudieron al servicio de urgencias con dolor leve o
moderado?
Ejercicio 2. Construye la tabla de frecuencias para el resto de variables
cualitativas que aparecen en el Ejemplo 3.
Ejercicio 3. Con el objetivo de estudiar la influencia de la dureza del agua en
ciertos trastornos gastrointestinales simples, un laboratorio determinó la dureza
del agua de 10 muestras obteniendo los siguientes resultados:
Muestra n Dureza
1 Agua blanda
2 Agua blanda
3 Agua dura
4 Agua muy dura
5 Agua muy dura
6 Agua extremadamente dura
7 Agua blanda
8 Agua blanda
9 Agua dura
10 Agua muy dura
19
Considera ahora la variable Visitas del Ejemplo 3. Fíjate que la variable Visitas
es discreta ya que puede tomar los valores 0,1, 2... (un número infinito numerable
de valores). A continuación, construimos la tabla de frecuencias:
Xi fi fr Fi Fr
Leve 3 0.375 3 0.375
Moderado 1 0.125 4 0.5
Intenso 4 0.5 8 1.00
∑fi = 8 1.00
Fíjate en la información que nos ofrece la tabla de frecuencias. Observamos por
ejemplo que el 87.5%de los pacientes registrados no habían acudido con
anterioridad en más de una ocasión al servicio de urgencias. También
observamos que sólo 1 paciente había acudido anteriormente en 2 ocasiones al
servicio de urgencias (lo que representa un 12.5% del total de pacientes
registrados).
Ejercicio 4: Consideremos una muestra de 200 familias en las que contamos el
número de hijos.
Supongamos que se han observado 50 familias sin hijos, 80 familias con un hijo,
40 familias con dos hijos, 20 familias con tres hijos y 10 familias con cuatro hijos.
Construye la tabla de frecuencias correspondiente.
3.2.2 Descripción de variables cuantitativas continúas.
Para construir tablas de frecuencias de variables cuantitativas continuas es
habitual agrupar los valores que puede tomar la variable en intervalos. De este
modo contamos el número de veces que la variable cae en cada intervalo. A
cada uno de estos intervalos le llamamos intervalo de clase y a su punto medio
marca de clase. Por tanto, para la definición de las frecuencias y la construcción
de la tabla de frecuencias sustituiremos los valores ci por los intervalos de clase
y las marcas de clase. Algunas consideraciones a tener en cuenta:
Número de intervalos a considerar: Para adoptar esta decisión tendremos en
cuenta:
1. Cuantos menos intervalos tomemos, menos información se recoge.
2. Cuantos más intervalos tomemos, más difícil es manejar las frecuencias.
Aunque no hay unanimidad al respecto, un criterio bastante extendido consiste
en tomar como número de intervalos el entero más próximo a √n.
Amplitud de cada intervalo: Lo más común es tomar todos los intervalos de igual
longitud.
Posición de los intervalos: Los intervalos deben situarse allí donde se encuentran
las observaciones de forma contigua. Es aconsejable que los restos de intervalos
20
en los extremos derecho e izquierdo del conjunto de observaciones sean
similares.
Si una variable cuantitativa discreta toma muchos valores distintos puede ser
conveniente una agrupación por intervalos como en el caso continuo.
A continuación, veremos un ejemplo práctico de cómo se construyen los
intervalos y la tabla de frecuencias para variables cuantitativas continuas. En la
resolución de los ejemplos será útil ordenar la muestra de observaciones y
después calcular el recorrido o rango, que de mínimos como la diferencia entre
el dato más grande y el más pequeño de la muestra. El recorrido se usa para
obtener la amplitud de los intervalos. La ordenación facilita mucho también el
recuento de las frecuencias encada intervalo.
Considera la variable Peso del Ejemplo 3. En primer lugar vamos a ordenar los
datos de la muestra de menor a mayor para que sea más sencillo el recuento de
frecuencias.
Muestra ordenada: 47; 55; 57; 58; 63; 70; 84; 87.
Recorrido= 87- 47 = 40.
21
4. Representaciones gráficas
La representación gráfica de la información contenida en una tabla estadística
es una manera de obtener una información visual clara y evidente de los valores
asignados a la variable estadística. Existen multitud de gráficos adecuados a
cada situación. Unos se emplean con variables cualitativas otros con variables
cuantitativas.
4.1 Representaciones gráficas de variables cualitativas
Diagrama de barras: Representaremos las frecuencias absolutas o relativas de
variables cualitativas mediante un diagrama de barras. Para ello, situamos las
modalidades de la variable en el eje de abscisas, respetando su orden si lo
hubiera, y dibujamos barras verticales sobre ellas. Las alturas de las barras
representan frecuencias absolutas, relativas o porcentajes.
En la Figura 1 se muestra el diagrama de barras de frecuencias absolutas para
la variable Dolor del Ejemplo 3
Diagrama de barras
Frecs. Absols.
5
4
3
2
1
0
Leve Moderado Intenso
DOLOR
50% 37.5%
12.5%
22
Ejercicio 6:
Un laboratorio está desarrollando unas nuevas tiras de orina para detectar los
niveles de acetona. Se realizan 50 pruebas de acetona en pacientes y se obtiene
en 15 ocasiones el color naranja, 25 veces se obtiene el color amarillo y en 10
ocasiones resulta el color verde. Construye la tabla de frecuencias y representa
las gráficas adecuadas para la variable Color de reacción.
4.2 Representaciones gráficas de variables cuantitativas
4.2.1 Representaciones gráficas de variables cuantitativas discretas
Representaremos los datos de variables cuantitativas discretas mediante
diagramas de barras, al igual que hicimos con variables cualitativas. En la Figura
3 se muestra el diagrama de barras de frecuencias absolutas para la variable
Visitas del Ejemplo 3.
Figura 3: Diagrama de barras de frecuencias absolutas para la variable Dolor
23
El histograma ayuda a describir cómo es la distribución de la variable, si es
simétrica (con un eje de simetría), bimodal (con dos máximos),...etc.
Figura 4
24
Figura 5
Poligono de frecuencia
4.5
4
3.5
3
2.5
2
1.5
1
0.5
0
40-46 46-60 60-74 74-78 78-84
Como se nota el polígono de frecuencias está formado por los puntos medios de
las clases vecinas, este tiende acerrarse.
25
5.1 Medidas de posición
En esta sección estudiamos medidas que nos indican la posición que ocupa la
muestra. La posición central son el objetivo de la media, la mediana y la moda.
El estudio de posiciones no centrales se hará con los cuantiles.
Media aritmética para una muestra simple (sin agrupar): Sean X1; X2, , , Xn un
conjunto de n observaciones de la variable X. Se define la media aritmética
(o simplemente media) de estos valores como:
𝟏
𝑿 = 𝑵 ∑𝑿𝒊, Para una muestra (1)
𝟏
µ = 𝑵 ∑(𝑿𝒊𝒇𝒊) Para una poblacion (2)
Observamos que el peso medio es 65.125 kg. Fíjate que la unidad de medida de
la media es la misma que la de los datos originales.
Ejemplo 4: Calculamos el peso medio de los pacientes de urgencias del
Ejemplo 3.
X = 63+58+84+…+55 = 61.125 kg
Observamos que el peso medio es 65.125 kg. Fíjate que la unidad de medida de
la media es la misma que la de los datos originales.
Para una muestra agrupada la media aritmética se calcula con la siguiente
formula:
𝟏
𝑿 = 𝒏 ∑(𝑿𝒊𝒇𝒊) Para una muestra
Total 29 5205
𝟏
𝑿 = ∑(𝑿𝒊𝒇𝒊) = 5205 = 179.48 kg
𝒏
29
26
Si los datos están clasificados se buscan las marcas de clase o puntos medios
de las clases.
En caso de que se trate de una población se procede igual, pero se utilizan todos
los datos y se usa la formula (2).
Propiedades:
1. min(xi) ≤x ≤ max(xi ) y tiene las mismas unidades que los datos originales.
2. Es el centro de gravedad de los datos:
3. Si yi = a + bxi y = a + bx.
Observa que la media y la mediana tendrán valores similares, salvo cuando haya
valores atípicos o cuando la distribución sea muy asimétrica. La mediana es la
medida de posición central más robusta es decir, más insensible a datos
anómalos).
27
La mediana para datos agrupados sin clasificar. Si los datos están agrupados
pero sin estar distribuidos en clases tanto para muestras como población,
primero identificamos el área de la mediana, luego calculamos la mediana con la
ayuda de la siguiente técnica:
-Identificamos donde recae la mitad de todos los valores N/2 = 28/2 = 14
pacientes.
Pe kg de 37 pacientes de un hospital
Peso kg x Pacientes Fi
fi
165 9 9
Área de la mediana
195 7 16
200 5
210 4
225 3
Total 28
28
Moda (Mo): Es el valor de la variable que se presenta con mayor frecuencia.
A diferencia de las otras medidas, la moda también se puede calcular para
variables cualitativas. Pero, al mismo tiempo, al estar tan vinculada a la
frecuencia, no se puede calcular para variables continuas sin agrupación por
intervalos de clase. Al intervalo con mayor frecuencia le llamamos clase modal.
Puede ocurrir que haya una única moda, en cuyo caso hablamos de distribución
de frecuencias unimodal. Si hay más de una moda, diremos que la distribución
es multimodal.
Ejemplo 7: Calculamos la moda de la variable a número de hijos de pacientes
con TBC: 6, 2, 1, 1, 2, 2, 4, 3, 0, 3, 4, 4, 0, 2.
La moda es 2 hijos.
Si los datos están agrupados pero sin clasificar, se hace el siguiente
procedimiento:
Número de hijos de pacientes con TBC
No. de hijos Pacientes
0 8
1 6
2 4
3 5
4 3
6
Mo = 0 Hijos. Ocurre con mayor frecuencia
Cuando los datos están agrupados y clasificado, la moda se calcula por
interpolación con la ayuda de la siguiente fórmula:
Mo = Lim inf + ( Δ1 ) i
Δ1+ Δ2
Donde
Lim. inf = límite inferior de la clase modal
Δ1 = diferencia entre la frecuencia de la clase modal y la frecuencia de la
premodal
Δ2 = diferencia entre la frecuencia de la clase modal y la frecuencia de la
posmodal
i = tamaño de la clase modal
29
Ejemplo 8.
En nuestro ejemplo la moda sería:
Número de hijos de pacientes con TBC
No. de hijos Pacientes(fi)
0-2 5
3-4 6 área modal
4-5 4
5-6 3
Total 18
Mo = 3 + (6-5) *1 = 3.33 hijos
(6-5) +( 6-4)
Una aplicación interesante de la moda es la comprobación de los cálculos. Si un
cálculo se repite un número de veces, el resultado aceptado es el que aparece
el mayor número de veces.
Aunque la moda es un concepto muy sencillo, de interpretación muy clara y útil,
su aplicación plantea muchos problemas difíciles. Primero, una distribución
puede revelar que dos o más valores se repiten igual número de vece, y en tal
caso no hay forma lógica de determinar qué valor debe escogerse como la moda.
En una distribución con datos discretos la moda es el valor que ocurre con mayor
frecuencia.
Segundo, al tratar una serie continua cuyos valores siguen unos a otros aun para
los datos discretos, puede que no encontremos un valor que aparezca más de
una vez, como el caso de las poblaciones de las grandes ciudades chinas.
Finalmente, la moda es un valor inestable. Tiende a cambiar si se modifica la
manera de redondear los datos.
Relación entre los promedios
Existen ciertas relaciones numéricas entre los promedios:
Para cualquier serie, excepto para aquella cuyas observaciones son de idéntico
valor, la media aritmética siempre es mayor que la media geométrica, la cual a
su vez es mayor que la media harmónica.
Para una distribución simétrica y unimodal la media = mediana = moda.
Para una distribución de asimetría positiva (asimetría hacia la derecha),
30
Para una distribución de asimetría negativa (asimetría hacia la izquierda),
X < Md < Mo.
La gráfica 6 presenta la relación entre la media, mediana y moda.
31
Se representan con la letra P. Para el percentil i-ésimo, donde la i toma valores
del 1 al 99. El i % de la muestra son valores menores que él y el 100-i % restante
son mayores.
Aparecen citados en la literatura científica por primera vez por Francis Galton en
1885.
P25 = Q1.
P50 = Q2 = mediana.
P75 = Q3.
Cálculo del percentil
Fórmulas Datos No Agrupados
Si se tienen una serie de valores X1, X2, X3, ..., Xn, se localiza mediante las
siguientes fórmulas:
Para los percentiles, cuando n es par:
A* n = _P_
100
Cuando n es impar:
P/100(n + 1)
Siendo P, el número del percentil.
Es fácil ver que el primer cuartil coincide con el percentil 25; el segundo cuartil
con el percentil 50 y el tercer cuartil con el percentil 75.
Los percentiles son, tal vez, las medidas más utilizadas para propósitos de
ubicación o clasificación de las personas cuando atienden características tales
como peso, estatura, etc.
Los percentiles son ciertos números que dividen la sucesión de datos ordenados
en cien partes porcentualmente iguales. Estos son los 99 valores que dividen en
cien partes iguales el conjunto de datos ordenados. Los percentiles
(P1, P2,... P99), leídos primer percentil,..., percentil 99.
Datos Agrupados
P = Lim inf. + P/100(n) – F- A * i
fi
P= 1, 2,3,... 99
Donde:
Lim inf = Límite real inferior de la clase del decil k
n = Número de datos
32
F -A = Frecuencia acumulada de la clase que antecede a la clase del percentil P.
fi = Frecuencia de la clase del percentil P.
i = Longitud del intervalo de la clase del percentil P.
Veamos un ejemplo para datos simples:
.Ej..Se tiene el nivel de triglicéridos en sangre MG/ml par un grupo de 10
pacientes:
100 120 135 140 160 180 190 200 250 260
Determinar la medida de triglicéridos del 70% o menos de los pacientes.
P70 ≤ P(n) = 70/100(10) = 7 lugar
Hay que ordenar los datos.
P70 ≤190 MG/mL
Ejemplo 10.
En caso de que la variable sea impar:
Se tiene el nivel de triglicéridos en sangre MG/ml par un grupo de 11 pacientes:
100 120 135 140 160 180 190 200 250 260 280
Determinar la medida de triglicéridos del 70% o menos de los pacientes
P70 ≤ P(n+1) = 0.7 (11) = 8.47 se redondea a 9no. lugar
P70 ≤ 250 MG/mL
Ejemplo 11 : Ahora supongamos que estos datos están agrupados en una tabla
de frecuencias:
Triglicéridos No. de
en sangre pacientes
Fi
MG/mL
100 5 5
120 4 9
135 8 17
180 3
190 6
200 3
250 1
Total 30
Determinar la medida de triglicéridos del 40% o menos de los pacientes.
33
P40 = 0.4 (30) = 12 lugar
P40 ≤ 135 MG/mL
El 40% de los pacientes tiene los triglicéridos menor o igual a 135 MG/mL
Supongamos que los datos anteriores están agrupados y clasificados:
Ejemplo 12 :
Triglicéridos No. de
en sangre pacientes
Fi
MG/mL
100-20 9 9
120-135 4 13
135-180 8 21
180-190 5 25
190-200 3
200-250 6
Total 35
Cuando los datos están agrupados y ordenado esn clases se interpolan los datos
con la ayuda de la siguiente formula
Los cuartiles son los tres valores que dividen al conjunto de datos ordenados
en cuatro partes porcentualmente iguales.
Hay tres cuartiles denotados usualmente Q 1, Q2, Q3. El segundo cuartil es
precisamente la mediana. El primer cuartil, es el valor en el cual o por debajo del
cual queda un cuarto (25%) de todos los valores de la sucesión (ordenada); el
tercer cuartil, es el valor en el cual o por debajo del cual quedan las tres cuartas
partes (75%) de los datos.
34
Si se tienen una serie de valores X1, X2, X3 ... Xn, se localiza mediante las
siguientes fórmulas:
- El primer cuartil:
Cuando n es par:
Q1= 1n
4
Cuando n es impar:
Q1 = 1(n + 1)
4
Para datos agrupados y clasificados:
3( n ) – F-A
Q3 = Lim inf + 4_____ *i
f
Para el tercer cuartil
Cuando n es par:
Q3= 3(n )
4
Cuando n es impar:
Q3 = 3(n + 1)
4
3( n ) – F- A
Q3 = Lim inf + 4_____ *i
fi
Donde:
35
Li inf = Límite real inferior de la clase del cuartil k
n = Número de datos
Fi = Frecuencia acumulada de la clase que antecede a la clase del cuartil k.
fi = Frecuencia de la clase del cuartil k
i = Longitud del intervalo de la clase del cuartil k
Si se desea calcular cada cuartil individualmente, mediante otra fórmula se tiene
lo siguiente:
El primer cuartil Q1, es el menor valor que es mayor que una cuarta parte de los
datos; es decir, aquel valor de la variable que supera 25% de las observaciones
y es superado por el 75% de las observaciones.
Del ejemplo 13. Se tiene el nivel de triglicéridos en sangre MG/ml par un grupo
de 10 pacientes:
100 120 135 140 160 180 190 200 250 260
Calcular el cuartil 1.
Triglicéridos No. de
en sangre pacientes Fi
MG/mL
100 5 5
120 4 9
135 8
180 3
190 6
200 3
250 1
Total 30
36
3( n +1 ) – F- A
Q3 = Lim inf + 4_____ *i
fi
Triglicéridos No. de
en sangre pacientes Fi
MG/mL
100-20 9 9
120-135 4 13
135-180 8 21
180-190 5 25
190-200 6 32
200-250 7
Total 39
3( 40 ) – 25
Q3 = 190 + 4_____ * 10 = 120+ 8.33 = 128.33 MG/ml
6
37
La variación es, con mucho, la característica más importante de una distribución:
puede ser la base para la toma de decisiones o una medida para seguir
desarrollando la teoría y el método estadístico. Aunque la asimetría es una
importante característica para definir el modelo preciso de una distribución,
raramente se calcula en los negocios y la economía.
-El rango
-La desviación seimi-intercuatilica
-La variación estándar o típica la varianza
-El Coeficiente de variación
Rango.
El rango se suele definir como la diferencia entre los dos valores extremos que
toma la variable. Es la medida de dispersión más sencilla y también, por tanto,
la que proporciona menos información. Además, esta información puede ser
errónea, pues el hecho de que no influyan más de dos valores del total de la
serie puede provocar una deformación de la realidad.
Recorrido o rango: R = Xmax xi -- Xmin xi
Comparemos, por ejemplo, estas dos series:
El uso de esta medida de dispersión, será pues, bastante restringido.
Variación estándar o típica y varianza
38
Varianza: Si hemos empleado la media como medida de posición, parece
razonable tomar como medida de dispersión algún criterio de discrepancia de los
puntos respecto a la media. Según hemos visto, la simple diferencia de los
puntos y la media, al ponderarla, da cero. Por tanto, elevamos esas diferencias
al cuadrado para que no se cancelen los sumandos positivos con los negativos.
El resultado es la varianza, cuya definición se da a continuación.
Sean x1 ,x2, , , , xn un conjunto de n observaciones de la variable X. Se define
la varianza muestral como:
Una medida de variabilidad más lógica sería
2. S2bX = b2.S2X
La desviación típica
Para conocer con detalle un conjunto de datos, no basta con conocer las
medidas de tendencia central, sino que necesitamos conocer también la
desviación que presentan los datos en su distribución respecto de la media
aritmética de dicha distribución, con objeto de tener una visión de los mismos
más acorde con la realidad al momento de describirlos e interpretarlos para la
toma de decisiones. La variación estándar o típica es, con mucho, la estadística
más importante entre todas las medidas de variación. Mide la variación de los
datos en términos absolutos.
La desviación típica es una medida del grado de dispersión de los datos con
respecto al valor promedio. Dicho de otra manera, la desviación estándar es
simplemente el "promedio" o variación esperada con respecto a la media
aritmética.
39
Forma de calcular la variación estándar
La desviación estándar o típica matemáticamente se calcula extrayendo la raíz
cuadrada de la media aritmética de las desviaciones al cuadrado de los datos
con respecto a la media.
Dependiendo de si los datos son muestrales o poblacionales y de si los mismos
están agrupados o no, la fórmula para calcular la desviación estándar varía.
La desviación estándar de una muestra a partir de datos sin agrupar:
S es la variación estándar
n es el tamaño de la muestra
40
La variación estándar o típica simple
Donde
N es el tamaño de la población y
μ es la media aritmética de la población
es la media aritmética de la muestra
n es el tamaño de la muestra
Para usar estas fórmulas, es necesario llevar x a un número suficiente de
lugares decimales con el objeto de obtener mayor precisión.
La desviación estándar de una muestra a partir de datos agrupados
A menudo, la desviación estándar se calcula junto a l media, y una forma carta
de calcular la media puede usarse para el cálculo de la desviación estándar.
La fórmula utilizada para el cálculo de la desviación estándar para datos
agrupados para una muestra es:
41
Para una población la variación estándar es:
Ejemplo 17. Se ha desarrollado una nueva vacuna contra la difteria para aplicarla
a niños. El nivel de protección estándar obtenido por antiguas vacunas es de 10
µg/ml un mes después de la inmunización. Se han obtenido estos datos del nivel
de protección de la nueva vacuna al transcurrir un mes:
Protección Cantidad
mg/ml de niños
11.5 8
12.5 6
13.5 5
14.5 4
Total 24
Fórmulas:
Recorrido o rango: R = Xmax xi -- Xmin xi
42
Procedimiento
Desviación
X = 12.19 mg/mm
Por supuesto, para que se pueda definir esta medida es preciso que la media no
sea cero. Es más, el coeficiente de variación sólo tiene sentido para variables
que sólo tomen valores positivos y que no sean susceptibles de cambios de
localización.
43
Ejercicio. La siguiente tabla muestra el diámetro biparietal de los fetos de 38
semanas de edad gestacional, medido por ecografía en un hospital
Diámetro Fetos
(Cent) fi
85 8
90 5
95 7
100 4
105 3
110 2
Total 29
∑ ( X – X )3
ASF = ____________
3
ns
La interpretación de este coeficiente es la siguiente: Si su valor es prácticamente
cero se dice que los datos son simétricos. Si toma valores significativamente
mayores que cero diremos que los datos son asimétricos a la derecha y si toma
valores significativamente menores que cero diremos que son asimétricos a la
izquierda.
∑ ( X – X )4
AF = ____________
4
ns
Puesto que en Estadística el modelo de distribución habitual de referencia es el
gaussiano o normal y este presenta teóricamente un coeficiente de apuntamiento
de 3, se suele tomar este valor como referencia. Así, si este coeficiente es menor
que 3 diremos que los datos presentan una forma platicurtica, si es mayor que 3
diremos que son leptocúrticos y si son aproximadamente 3 diremos que son
mesocúrticos.
44
Ejemplo 18. Con los datos del ejercicio 17 determinar la forma de la distribución.
Calculamos el coeficiente de asimetría:
Desviación
xi xi-x (xi-x)3
11.5 -1.4 -2.744
12.5 0.13 0.00212
13.5 1.31 2.248
14.5 2.31 12.33
Total - -- -- 11.84
∑ ( X – X )3
ASF = ____________ = 11.84 = 2.95 Los diámetros biparietales son de
3
ns 4 asimetrías positiva
45
Construcción del diagrama de caja
Calcular los tres cuartiles (Q1, Q2 y Q3). Después, dibujamos el rectángulo (caja)
delimitado por el primer y tercer cuartil, dibujando entre los dos cuartiles una
línea para indicar dónde está la mediana (segundo cuartil).
Se calculan los límites admisibles inferior y superior (LI y LS) para identificar los
valores extremos.
Los límites marcarán los datos atípicos de la variable. Todos aquellos puntos que
sean menores que LI (x < LI) o mayores que LS (x > LS) son valores extremos.
Es decir, son todos aquellos valores que no están en el intervalo [LI, LS].
46
El mínimo es el menor valor del conjunto que sea mayor o igual que LI.
El máximo es el mayor valor del conjunto que es menor o igual que LS.
Dibujamos los dos brazos. El primero va desde el primer cuartil hasta el mínimo.
El segundo, desde el tercer cuartil hasta el máximo.
Ejemplo
Un muy buen método para ver sus variabilidades y comprobar si existen valores
extremos es el diagrama de caja. Mediante esta representación gráfica podemos
ver si hay resultados mas alterados que otros.
Nivel de tiroides(nm/dl)
7.13 5.35 10.14 4.15 5.85 4.69 6.84 0.94 3.45 8.79
5.64 4.92 5.32 6.56 6.17 4.33 6.18 6.50 3.74 2.98
0.94 2.98 3.45 3.74 4.15 4.33 4.69 4.92 5.32 5.35
5.64 5.79 5.85 6.17 6.18 6.50 6.56 6.84 7.13 10.14
Se calculan los límites admisibles inferior y superior (LI y LS) para determinar los
valores extremos.
47
El rango intercuartílico es:
(nm/dl)
(nm/dl)
(nm/dl)
Los valores extremos serán todos los los resultados que midan menos de
0,96(nm/dl) o más de 9,59(nm/dl). Tenemos dos resultaados, uno de 0,94(nm/dl)
y otro de 10,14(nm/dl) que serán valores extremos. Estos valores los
representamos con puntos en el diagrama de caja.
El mínimo es el menor elemento del conjunto que sea mayor o igual al límite
inferior. El máximo es el mayor elemento que sea menor o igual al límite superior.
En este caso, el mínimo es 2,98 y el máximo 7,13.
Se dibujan los brazos del diagrama de caja. El brazo inferior irá desde el primer
cuartil hasta el mínimo (desde el 4,20 a 2,98). El brazo superior abarcará desde
el tercer cuartil hasta el máximo (desde el 6,42 hasta el 7,13).
El diagrama de caja del conjunto de los resultados del nivel de tiroides es:
48
resultados más altos que la mediana cuya media está más separada de
la mediana que los que tienen unas nm/dl inferior a ella, que estan más
agrupados. También se puede apreciar la existencia de valores extremos.
Esta cja se ubica en escala sobre un segmento que tiene como extremos los
valores minimo y máximo de la variable. Las lineas que sobresalen de la caja se
llaman bigotes. Estos bigotes tienen un limite de prolongacion, de mo do que
cualquiera dao caso que no se encuentre dentro de esta rango es marcado
individualmente.
49
CAPITULO 2 INDICADORES DEMOGRÁFICOS Y EPIDEMIOLÓGICOS
1. Intdroduccion
Existen varios tipos como la tasa de mortalidad materna, infantil, especifica por
edad, perinatal…
dz = Dz ___ * 1000
N30VIZ
50
Donde: dz es la Tasa Bruta de Mortalidad(a mitad de periodo)
Así, se puede afirmar que en 1999, por cada Mil fallecieron un poco más de 6
personas.
Mortalidad infantil
51
Se observa que los componentes para calcular la TMI, son diferentes a la tasa
de mortalidad por edad. En el denominador se registra el número de nacimientos
ocurridos en el año, cuyo equivalente es “personas con edad exacta 0 años“. En
tanto, las tasas de mortalidad por edad tienen como denominador la población
media de menores de un año, es decir, personas con edades cumplidas. En
consecuencia, estas dos medidas son de naturaleza diferente, por el
denominador que se utiliza en cada caso. También se puede afirmar que la tasa
de mortalidad infantil es menor que la tasa central de mortalidad de los menores
de un año, debido a que el número de nacimientos en un año es mayor que la
población media de cero años. Esto representa al total de sobrevivientes de los
nacimientos ocurridos en los 12 meses que empieza el 30 de junio del año
anterior.
Ejemplo 2
Para determinar con precisión el riesgo de muerte debido a esta causa, se debe
aclarar que el denominador debería contener al número de embarazos que hubo
en el año considerado. En la práctica, es imposible obtener esta información, por
lo que se toma como aproximación, el número de embarazos que culmina con
un nacido vivo. Es decir, los nacimientos ocurridos en el año Z.
Morbilidad
Se entiende por morbilidad la cantidad de individuos considerados enfermos o
que son víctimas de una enfermedad en un espacio y tiempo determinado. La
morbilidad es un dato estadístico importante para comprender la evolución o
retroceso de alguna enfermedad, las razones de su surgimiento y las posibles
soluciones.
En el sentido de la epidemiología se puede ampliar al estudio y cuantificación de
la presencia y efectos de alguna enfermedad en una población.
52
Tasa de morbilidad
La frecuencia de la enfermedad en proporción a una población se especifique: el
período, el lugar y la hora por minuto.
Las tasas de morbilidad más frecuentemente usadas son las siguientes:
Prevalencia: Frecuencia de todos los casos (antiguos y nuevos) de una
enfermedad patológica en un momento dado del tiempo (prevalencia de punto)
o durante un período definido (prevalencia de período).
Ejemplo 4.
En una población de 10000 personas, se informa de que 500 personas sufren
determinada enfermedad. ¿Cuál sería en ese caso la prevalencia de la
enfermedad en esa población?
Tasa prev. = 500 / 10000 = 0.005 * 1000 = 5 de cada mil habitantes
Es decir, el 5% sufren la determinada enfermedad.
53
CAPITULO 3. PROBABILIDAD: CONCEPTOS BASICOS
1. Introducción histórica
Probabilidad, como Bernouilli, Bayes, Euler, Gauss,... en los siglos XVIII y XIX.
Será a _nales del siglo XIX y principios del XX cuando la Probabilidad adquiera
una mayor formalización matemática,debida en gran medida a la llamada
Escuela de San Petesburgo en la que cabe destacar los estudiosde chebychev,
Markov y Liapunov.
54
2. Conceptos básicos:
Por ello definiremos experimento aleatorio como aquel que verifique ciertas
condiciones que nos permitan un estudio riguroso del mismo.
Espacio muestral: Es el conjunto formado por todos los resultados posibles del
experimento aleatorio.
Lo denotamos por S
55
Ejemplo 24: Si lanzamos una moneda, S =( C, E)
B = El resultado es un = 2
...,
F = El resultado es un = 6.
56
Suceso contenido en otro: Diremos que A está contenido en B, y lo denotamos
por A ⊂ B, si siempre que ocurra A también sucede B.
Ejemplo 5: Estudiamos el experimento aleatorio consistente en el lanzamiento
de un dado, y consideramos los sucesos:
A U B = (2; 4; 6) \ (3; 6) = 6.
Propiedades
Asociativa A U (B U C) = (A U B) U C A U (B ∩ C) = (A B) ∩ C
Conmutativa A UB = B U A A∩B=B∩A
Distributiv A U (B ∩ C) = (A U B) ∩ (A UC) A ∩ (B U C) = (A U B) U (A ∩ C)
A = El resultado es par.
3. Definiciones de probabilidad
57
sucesos se obtendrán sumando las de los sucesos ele mentales que lo
componen (suma finita).
Sin duda el caso más fácil es aquél en el que no tenemos razones para suponer
que unos sucesos sean más probables que otros.
Cuando, siendo el espacio muestral finito, todos los sucesos elementales tienen
la misma probabilidad, diremos que son equiprobables y podremos utilizar la
conocida Regla de Laplace
4. Probabilidad condicionada
58
Además, analizando las respuestas se concluye que el 5% de los encuestados
lee ambos periódicos. Si se selecciona al azar un lector de El Correo, ¾cuál es
la probabilidad de que lea también La Voz?
5. Independencia de sucesos
Comentarios:
6. Teoremas clásicos
En esta sección veremos tres teoremas muy importantes, tanto a nivel teórico
como para la resolución de ejercicios. Los enunciaremos en su forma más
general, aunque después veremos por medio de ejemplos que su aplicación no
es complicada.
59
6.1 Regla del producto
Si tenemos los sucesos A1, A2;,,,,,,,An tales que P(A1∩ A2 ∩….∩ An) 6 = ø,
entonces se cumple
P(A1 ∩ A2 ∩….∩ An) = P(A1) * P(A2 /A1) *P(A3 / A1 ∩ A2) … P(An / A1 ∩ \A2∩….∩ An-1)
Denotamos:
A1= El parásito sobrevive a la primera aplicación de la vacuna.
A2= El parásito sobrevive a la segunda aplicación de la vacuna.
A3= El parásito sobrevive a la tercera aplicación de la vacuna,...
60
6.2 Ley de las probabilidades totales
Sistema completo de sucesos. Es una partición del espacio muestral, esto es, es
una colección de sucesos A1, A2,,,,,,,An (subconjuntos del espacio muestral)
verificando A1 ∩ A2 ∩……. .… ∩ An = ø (son exhaustivos, cubren todo el espacio
muestral) y además son incompatibles dos a dos (si se verifica uno de ellos, no
puede a la vez ocurrir ninguno de los otros).
61
nombre de probabilidades a posteriori, pues se calculan después de haber
observado el suceso B.
62
CAPITULO 4. VARIABLES ALEATORIAS DISCRETAS Y DISTRIBUCIONES
DE PROBABILIDAD DISCRETAS
1. Introducción
Por tanto, haremos uso de los conceptos del tema anterior (Probabilidad),
mientras que algunos desarrollos serán análogos a los del tema de Estadística
Descriptiva.
2. Variable aleatoria
63
que pueden tomar. Así, una variable aleatoria será discreta si dichos valores se
encuentran separados entre sí. Por tanto será representable por conjuntos
discretos. Una variable aleatoria será continua cuando el conjunto de valores que
puede tomar es un intervalo.
Una variable aleatoria es discreta cuando toma una cantidad numerable (que se
pueden contar) de valores. Por ejemplo, el número de caras al lanzar dos veces
una moneda o el número de pacientes con enfermedades articulares en centros
de salud.
Si X es una variable discreta, su distribución viene dada por los valores que
puede tomar y las probabilidades de que aparezcan. Si x1 < x2 < :: < xn son los
posibles valores de la variable X,
Ejercicio 1: Se lanza dos veces una moneda equilibrada. Sea X la variable que
expresa el número de caras en los dos lanzamientos. Halla y representa la
función de probabilidad de X.
Xi 0 2 3 4 5 6 7
64
Calcularemos para variables aleatorias discretas su función de masa y su función
de distribución.
El diagrama de barras de frecuencias acumuladas para variables discretas del
tema 1 se puede reinterpretar en términos de probabilidades y da lugar a lo que
recibe el nombre de función de distribución, F (x) ; definida para cada punto x0
como la probabilidad de que la variable aleatoria tome un valor menor o igual
que x0;
F (x0) = P (X _ x0) :
La función de distribución es siempre no decreciente y verifica que,
F ( -∞) = 0
F (+∞1) = 1:
Suponiendo que la variable X toma los valores x1 < x2 < ……..< xn, los puntos
de salto de la función de distribución vienen determinados por:
65
3.1 Media o esperanza.
3.2 Varianza.
σ2 = Var(X) =Σ (x - µ )2pxi
66
o negativo...). Se pueden modelizar estas situaciones mediante la variable
aleatoria
1 si Éxito
X=
0 si fracaso
Lo único que hay que conocer es la probabilidad de éxito, p, ya que los valores
de X son siempre los mismos y la probabilidad de fracaso es q = 1 - p.
La distribución binomial sirve para modelizar situaciones en las que nos interesa
contar el número de éxitos en n repeticiones de una prueba de Bernoulli con
probabilidad de éxito p.
67
Definición 5. La variable aleatoria X que representa el número de éxitos en n
intentos independientes, siendo la probabilidad de éxito en cada intento p,
diremos que tiene distribución binomial de parámetros n y p.Lo denotamos
X ∈ Binomial (n; p) o X ∈ Bin(n; p). La distribución binomial es discreta y toma
los valores 0; 1; 2; 3; : : : ; n con probabilidades
Ejemplo 33. En una población hay un 40% de fumadores. La variable 𝑋 que mide el número
de fumadores en una muestra aleatoria con reemplazamiento de 3 personas sigue un modelo
de distribución binomial, la probabilidad de que ninguno sea fumador es:
𝑓 (0) = (3c0 ) 0.40 (1 − 0.4)3−0 = 0.63
68
4.3 Distribución de Poisson
P(X = k) = e -ʎ ʎk
k Si k ∈ (0, 1, 2, 3 ,…, n)
La media y la varianza de la Poisson de parámetro ʎ son:
µ= ʎ
σ2 = ʎ
Como ejemplo, la Figura 3 muestra las funciones de masa de una variable con
distribución de Poisson de parámetro λ = 2 y una variable con distribución de
Poisson de parámetro λ = 15.
Figura 3 Figura 4
69
Ejemplo 34: La probabilidad de que una persona se desmaye en un concierto es
p = 0:005. Cuál es la probabilidad de que en un concierto al que asisten 3000
personas se desmayen 18?
Estos valores están fuera de las tablas de la binomial y son difíciles de calcular,
por eso es preferible aproximar por una Poisson de parámetro
µ = np = 3000 * 0:005 = 15.
Entonces:
P(X = 18) = P(Poisson(15) x = 18) = e-15 1518 = 0:07061
18!
Ejercicio 35: Se sabe que la probabilidad de que un individuo reaccione
desfavorablemente tras la inyección de una vacuna es de 0.002. Determina la
probabilidad de que en un grupo de 2000 personas vacunadas haya como mucho
tres que reaccionen desfavorablemente.
70
CAPITULO 5. VARIABLES ALEATORIAS CONTINUAS Y DISTRIBBUCIONES
DE PROBABILIDAD CONTINUAS
1. Introducción
En el capítulo anterior hemos estudiado variables aleatorias discretas. Recuerda
que una variable aleatoria es un valor numérico que corresponde al resultado de
un experimento aleatorio. Podemos clasificar las variables aleatorias en
discretas y continuas en función del conjunto de valores que pueden tomar.
Estudiaremos en este tema variables aleatorias continuas y nos centraremos en
un modelo de distribución continua (la distribución normal) que ha adquirido una
especial relevancia por ser adecuada para modelizar una gran cantidad de
situaciones prácticas.
71
3.2 Varianza
Se define la varianza de una variable aleatoria como
σ2= VarX = Σ pxi(X - X)2
Edjemplo 38
Probabilidades de vida de pacientes terminales de cancer
Nivel de cancer Pacientes xi Probabilidades de vida %
Nivel 1 3 25
Nivel 2 2 35
Nivel 3 1 40
Total 6 100%
Calcular el valor esperado o miedia y la varianza de pacientes con canser
terminal
72
sencilla, empezaremos estudiando la denominada normal estándar para luego
denir la familia completa.
5.1 La distribución normal estándar N(0,1)
La distribución de una variable normal está completamente determinada por dos
parámetros, su media (µ) y su desviación estándar σ . Con esta notación, la densidad
de la normal viene dada por la ecuación llamada
Funcion de densidad de probabilidad normal :
Esta gráfica muestra tres formas diferentes de medir el área bajo la curva normal. Sin
embargo, muy pocas de las aplicaciones que haremos de la distribución normal de
probabilidad implican intervalos de exactamente (más o menos) 1, 2 ó 3 desviaciones
estándar a partir de la media. Para estos casos existen tablas estadísticas que indican
porciones del área bajo la curva normal que están contenidas dentro de cualquier
número de desviaciones estándar (más o menos) a partir de la media.
73
*Aproximadamente el 99.7% de todos los valores de una población normalmente
distribuida se encuentra dentro de ± 3 desviaciones estándar de la media.
Para cualquier distribución normal de probabilidad, todos los intervalos que contienen el
mismo número de desviaciones estándar a partir de la media contendrán la misma
fracción del área total bajo la curva para cualquier distribución de probabilidad normal.
Esto hace que sea posible usar solamente una tabla (Apéndice Tabla 1) de la
distribución de probabilidad normal estándar.
El valor de z en la tabla es absoluto, es decir, z en la tabla no tiene signo; las areas que
se muestran en la tabla son las areas bajo la curva de probabilidad normal estandar
entre la media y los valores posiditivos de z, y como la distrilbucion es simetrica esta
area le corresponde a ambos lados de la curva.
74
El estadistilco de la Disribucion Normal
En la que:
x = valor de la variable aleatoria que nos preocupa.
µ = media de la distribución de la variable aleatoria.
σ =desviación estándar de la distribución.
z = número de desviaciones estándar que hay desde x a la media de la distribución.
(eluso de z es solamente un cambio de escala de medición del eje horizontal).
Ejemplo:
z = 120-106 = 1.75
8
El valor tipificado tiene la siguiente propiedad:
P(X≤ 120) = P(Z ≤1,75)
Z= +1.75
75
Donde P(X≤ 120) = P(Z ≤1,75) = 0.4599 +0.5 = 0.9599
La proporción de diabéticos con una glucemia basal menor de 120 mg por 100 ml es
0,9599. También se podría decir que la probabilidad de que un diabético
seleccionado al azar en esta población tenga una glucemia basal inferior a 120 mg
por 100 ml es 0,9599.
b) La proporción de diabéticos con una glucemia basal comprendida entre 106 y 120
mg por 100 ml
X1=103.5 X2=108.5
c) La proporción de diabéticos con una glucemia basal mayor de 120 mg por 100 ml.
X2=10.5
76
P(Z2)? Z2 = 110.5-106 = 0.56 P(Z2)= 0.2123
8
P(x>110) = 0.5 – P(Z2) = 0.5 - 0.2123 =0.2877
La proporción de diabéticos con una glucemia basal mayor de 120 mg por 100 ml. Es
de 28.77
d) El nivel de glucemia basal tal que por debajo de él están el 25% de los diabéticos, es
decir, el primer cuartil
z = x-µ
σ
Sustituyendo en la fórmula
0.67 = x-106
8
X= z σ + µ
Por lo tanto X= 0.67*8 +106 mg por 100 ml.
e) La proporción de diabéticos con una glucemia basal mayor de 100 mg por 100 ml.
-z1
Z1 = 100-106 = -0.75 P(X1) = 0.2734
8
Ejercicio. En una ciudad se estima que la temperatura máxima en el mes de junio sigue
una distribución normal, con media 23° y desviación típica 5°. Calcular el número de
días del mes en los que se espera alcanzar máximas entre 21° y 27°
77
78
LITERATURA CONSULTADA.
Thomson Learning
2. BIOESTADISTICA
3. Introduccion a la BIOESATADIATICA
Sokal/rohlf, agapea.com
79