ESTADÍSTICA
TEMA 1: INTRODUCCIÓN Y ANÁLISIS GRÁFICO DE DATOS
¿QUÉ ES LA ESTADÍSTICA?
Es el conjunto de procedimientos que ayudan a extraer conclusiones o tomar decisiones en
situaciones de incertidumbre, basándose en datos.
La estadística se divide en 3:
-Estadística Descriptiva: técnicas para resumir o describir la información contenida en un
conjunto de datos.
-Probabilidad: estudio de leyes al azar.
-Inferencia Estadística: procedimientos para extraer conclusiones o sugerir qué decisión
tomar en situaciones de incertidumbre.
Conceptos básicos:
-Población: el “todo” que nos gustaría estudiar.
-Muestra: el nº de personas/elementos que utilizamos y observamos sus características. (n)
-Parámetro: Medida numérica de una característica de la población que nos interesa
estudiar.
-Estadístico: Medida numérica de la característica de interés obtenida en nuestra muestra.
2. CLASIFICACIÓN DE VARIABLES
·CATEGÓRICA: se responde con “letras” (Color favorito; azul)
-Nominal: da igual el orden (masculino, femenino)
-Ordinal: se espera que se siga un orden (grado de satisfacción)
·NUMÉRICA: se responde con números (¿Cuántos hermanos tienes? 2)
-Continua: tiene infinitos decimales aunque no se vean (peso, altura)
-Discreta: números naturales (nº de hijos), aunque a veces pueden tener decimales
(Nota en un examen tipo test que tiene 5 posibles resultados: 0, 2.5 ,5 ,7.5, 10)
Una variable categórica nominal puede transformarse en numérica discreta asignando
nºs a las categorías (Muy satisfecho=2, medianamente satisfecho=1, nada satisfecho=0).
3. GRÁFICOS PARA DESCRIBIR VARIABLES CATEGÓRICAS
Ej 3: En una encuesta se ha preguntado a 112 estudiantes universitarios en qué medida
consideraban saludable su estilo de vida.
Las respuestas posibles son: Muy saludable/ Bastante saludable/ Poco saludable/ Nada
saludable.
28 contestaron Muy, 55 bastante, 20 poco y 9 nada.
1
Tabla de frecuencias:
Con Excel se hace el gráfico del “Quesito”
(diagrama de sectores), que es repartir los
360º entre las categorías: (ni/n)x360.
Otro método de visualizar las frecuencias
es con un Diagrama de barras.
Diagrama de Pareto, es un diagrama de
barras que ordena las categorías de más
frecuente a menos.
4. GRÁFICOS PARA DESCRIBIR DATOS DE SERIES TEMPORALES
Para apreciar la evolución temporal de una variable numérica con periodos de tiempo, se
utiliza un gráfico bidimensional en el que se considera el tiempo en el eje horizontal y la
variable en el eje vertical.
Ej 5: La tabla siguiente muestra el tipo de cambio Euro-Dólar el último día laborable de cada
mes en 2010:
Es una variable numérica continua, y hay una
ordenación temporal:
2
5. GRÁFICOS PARA DESCRIBIR VARIABLES NUMÉRICAS
Dado un conjunto de n observaciones de una variable numérica, queremos obtener gráficos
que ayuden a visualizar cómo se distribuyen esas observaciones. Para realizar los gráficos
es necesario agruparlas.
Reglas para agrupar una variable continua:
1. Determinar cuántos grupos se van a considerar ( nº de clases/intervalos= k)
2. Determinar la longitud de cada una de las clases (todas tienen que tener la misma)
3. Una vez determinados k y l, hay que definir las clases. NO pueden solaparse.
Una vez agrupadas las n observaciones, se obtiene la tabla de distribución de frecuencias
que tiene 5 columnas:
● Clase (Xi)
● Frecuencia (ni): nº de observaciones de la clase
● Frecuencia relativa (fi): proporción de observaciones de la clase fi= ni/n (su total
siempre es 1)
● Frecuencia acumulada (Ni): nº de observaciones en esa clase o anteriores N1=n1 y
Ni=ni + Ni…
● Frecuencia acumulada relativa (Fi): proporción de observaciones en esa clase o
anteriores Fi= Ni/n (su total siempre es 1)
Propiedades de las frecuencias:
1. n1 + … + nk = n
2. f1 + … + fk = 1
3. Fi = f1 + … + fi, porque : Fi = Ni/n
4. N1 <= N2 <= … <= Nk, y también F1 <= F2 <= … <=Fk
3
HISTOGRAMA: obtención e interpretación
El histograma se obtiene simplemente representando barras verticales sobre los intervalos
considerados como clases, siendo la altura de cada barra la frecuencia.
El histograma sirve para visualizar cómo se distribuyen las observaciones en el intervalo de
variación de la variable. Hay 2 casos:
-Distribución uniforme: frecuencias similares y horizontales.
-Distribución normal: una mayor proporción de observaciones en el centro y un
decrecimiento rápido y simétrico a derecha e izquierda del centro. Distribución simétrica.
-NO hay simetría
-NO hay distribución horizontal
En ocasiones el histograma se realiza utilizando como altura cada de barra la frecuencia
relativa, entonces se le llama histograma de densidad.
Inconveniente del histograma: no hay un método universal para seleccionar las clases, y el
modo como éstas se seleccionan puede condicionar los resultados obtenidos.
OJIVA: Polígono de frecuencias acumuladas relativas
Al representar este polígono debemos considerar en el eje vertical los valores de 0 a 1.
SIEMPRE se empieza por el 0.
Nos permite saber para un x dado, cuál es aproximadamente la proporción de
observaciones de la muestra que son iguales o inferiores a ese x.
Nos permite ver donde hay una mayor proporción de observaciones (mayor pendiente).
4
Cuando la variable que se quiere analizar es discreta, entonces:
· Si el nº de posibles resultados es muy elevado se le suele tratar como si fuera continua.
· Si el nº no es muy elevado, se obtiene la tabla de distribución de frecuencias considerando
cada posible resultado como una clase, y después obtener un diagrama de barras.
6. GRÁFICOS PARA DESCRIBIR RELACIONES ENTRE VARIABLES
DIAGRAMA DE PUNTOS:
Es un gráfico bidimensional donde se representan las observaciones, poniendo cada
variable en un eje, y así analizar intuitivamente el tipo de relación que hay entre las
variables:
● Relación lineal directa: Si los puntos se sitúan alrededor de una recta con
pendiente + ( cuanto mayor es una variable, mayor tiende a ser la otra).
● Relación lineal inversa (decreciente o negativa): Si los puntos se sitúan alrededor
de una recta con pendiente - ( cuanto mayor es una pendiente, menor tiende a ser la
otra).
● No hay relación lineal: Si no se observa que los puntos se sitúen alrededor de una
recta, o se sitúan alrededor de una recta horizontal.
● Otra relación (no lineal): si los puntos se sitúan alrededor de una parábola, por
ejemplo, entonces es una relación cuadrática.
Características:
-Cuando una de las 2 variables se determina después que la otra, o cabe esperar que
dependa de la otra, se representará esa variable en el eje vertical.
-Es importante escoger adecuadamente las escalas de los ejes para percibir la posible
relación.
-También permite analizar si hay alguna observación en la que alguna de las 2 variables
tome un valor muy distinto a lo que vale el resto de las observaciones. Si las hay, se llaman
atípicas y pueden tener consecuencias.
-El hecho de que haya relación entre las variables no implica necesariamente que haya
relación de causalidad entre ellas (que una sea la causa de la otra).
5
TABLA DE CONTINGENCIA Y DIAGRAMAS DE BARRAS CONJUNTOS:
Se les llama frecuencias conjuntas a los valores sobre las observaciones que hay en cada
uno de los k1, k2 grupos que se forman al combinar las 2 variables.
Las frecuencias conjuntas suelen presentarse en una tabla de contingencia que se obtiene
poniendo en la 1ª fila las posibles categorías de una de las 2 variables, en la 1ª columna las
posibles categorías de la otra variable, y dentro de la tabla cada una de las frecuencias
conjuntas en el lugar que corresponda.
Ej: una variable es el estilo de vida, la otra el sexo.
A esta tabla se le añade una columna adicional en la que se van indicando las sumas
correspondientes a cada fila. Y lo que obtenemos en esta última columna casualmente son
las frecuencias de la variable que aparece en la primera columna.
También se le añade una fila adicional en la que se indica las sumas correspondientes a
cada columna. Lo que obtenemos en esta última fila son las frecuencias de la variable que
aparece en la 1ª fila, sin tener en cuenta a la otra variable.
Las frecuencias de una tabla de contingencia pueden representarse utilizando diagramas de
barras conjuntos.
6
TEMA 2: MEDIDAS NUMÉRICAS PARA LA DESCRIPCIÓN DE DATOS
Este tema trata sobre cómo resumir la información de un conjunto de datos usando medidas
numéricas.
1. Medidas de tendencia central y de localización
Medidas de tendencia local: Estas medidas nos dicen cuál es el valor típico o central de
los datos.
•Media: Se calcula sumando todos los valores y dividiéndolos entre la cantidad total de
datos.
•Mediana: Es el valor que está en el centro cuando los datos están ordenados (menor a
mayor). Si hay un número impar de datos, es el del medio. Si hay un número par, es el
promedio de los dos valores centrales (x3 + x4/ 2), suele ir con decimal acabado en 5.
La mediana muestral en impar:
X(n+1 /2)
La mediana muestral en par:
(X(n/2) + X(n/2 + 1)) /2
La mediana poblacional se define igual que la mediana muestral, pero como se observa
toda la población habrá que cambiar n por N.
•Moda: Es el valor que más se repite. Si no hay valores repetidos, no hay moda.
La moda muestral es la observación de la muestra que más se repite.
La moda poblacional es igual que la moda muestral pero observando a toda la población.
7
También hay medidas de localización no central como:
•Primer cuartil (Q1): Es el valor que deja el 25% de los datos por debajo y el 75% por
encima.
La posición del primer cuartil cambiará de ½ a ¼.
•Tercer cuartil (Q3): Es el valor que deja el 75% de los datos por debajo y el 25% por
encima.
La posición del tercer cuartil muestral es ¾ (n+1).
Ejemplo: Si tenemos las horas de estudio de 13 estudiantes, podemos calcular su media,
mediana y moda para ver cuál es el valor más representativo.
8
2. Medidas de variabilidad (medidas del grado de dispersión)
Nos dicen cuánto se dispersan los datos.
-MEDIDAS DE VARIABILIDAD BASADAS EN LA MUESTRA ORDENADA:
•Rango (Muestral o poblacional): Diferencia entre el mayor y el menor valor. Por tanto, es
la longitud del menor intervalo.
•Rango intercuartílico: Diferencia entre Q3 y Q1, mide la variabilidad central de los datos.
RIQ(X)= Q3(X) - Q1(X)
Por tanto, indica la longitud del intervalo que contiene aprozimadamente al 50% de
observaciones centrales.
-MEDIDAS DE VARIABILIDAD BASADAS EN LAS DIFERENCIAS ENTRE
OBSERVACIONES Y LA MEDIA ELEVADAS AL CUADRADO:
•Varianza: Mide la dispersión de los datos respecto a la media, elevando al cuadrado las
diferencias individuales.Para calcular la varianza lo primero que tengo que hacer es calcular
la media.
Cuanto mayor es la varianza tiene mayor dispersión, y lo tendrá quien tenga mayor
variabilidad.
La varianza no puede ser negativa, porque es la suma de cuadrados, pero sí que puede ser
cero si el numerador es 0.
•Desviación típica: Es la raíz cuadrada de la varianza, y nos da una idea de cuánto se
alejan los datos de la media.
9
•Coeficiente de variación: Se usa para comparar la variabilidad de diferentes conjuntos de
datos, ya que se expresa como un porcentaje de la media.
Ejemplo: Si las horas de estudio tienen una media de 22 horas y una desviación típica de 6
horas, significa que la mayoría de los valores están entre 16 y 28 horas.
3. Media ponderada y datos agrupados
En ocasiones, no todas las observaciones tienen la misma importancia, o los datos están
agrupados en intervalos. En estos casos, se utilizan métodos específicos para calcular la
media y otras medidas estadísticas.
3.1 Media ponderada
En la media aritmética simple, todas las observaciones tienen el mismo peso. Sin embargo,
hay situaciones en las que unas tienen más importancia que otras. En esos casos usamos
la media ponderada, que se calcula con la fórmula:
Ejemplo: Si en una asignatura la nota final se calcula con un 10% de asistencia, 45% del
primer examen y 45% del segundo, la fórmula sería:
10
3.2 Medidas para observaciones de una variable discreta
Cuando una variable toma solo ciertos valores (por ejemplo, el número de hijos por familia),
los datos pueden presentarse en una tabla de frecuencias.
Para calcular la media de estos datos, se usa la fórmula:
Ejemplo: Si encuestamos a 250 familias sobre cuántos hijos tienen, obtenemos:
3.3 Medidas para observaciones de una variable continua agrupadas
Si los datos están agrupados en intervalos (por ejemplo, ingresos de familias en rangos de
1000 a 2000, 2000 a 3000, etc.), usamos las marcas de clase (el punto medio de cada
intervalo) para hacer cálculos aproximados.
Ejemplo: Si analizamos el gasto trimestral en alimentación de 50 familias:
11
4. Cambios en las unidades de medida
Si los datos se miden en una unidad diferente, las medidas estadísticas cambian según
reglas específicas:
1. Media y mediana: Se multiplican por el factor de conversión.
2. Varianza: Se multiplica por el cuadrado del factor de conversión.
3. Desviación típica: Se multiplica por el factor de conversión.
4. Coeficiente de variación: No cambia, porque es una relación entre desviación
típica y media.
5. Medidas de relaciones entre variables
Si tenemos dos variables, podemos medir cuánto se relacionan entre sí.
5.1 Covarianza
Indica si dos variables cambian juntas.
Se calcula como:
12
Ejemplo: Si analizamos la relación entre años de experiencia (X) y salario (Y), una
covarianza positiva indicaría que más experiencia tiende a significar un salario más alto.
5.2 Coeficiente de correlación de Pearson (r)
Mide la fuerza y dirección de la relación entre dos variables:
13
TEMA 3: CONCEPTOS BÁSICO SOBRE PROBABILIDAD
1. Experimentos aleatorios, resultados y sucesos
•¿Por qué estudiar probabilidad?
La probabilidad nos ayuda a entender si los resultados en una muestra se deben al azar o
reflejan algo real en la población.
•Definiciones clave:
•Experimento aleatorio: No podemos predecir el resultado exacto (ejemplo: lanzar un
dado).
•Espacio muestral (Ω): Todos los resultados posibles.
•Suceso: Cualquier conjunto de resultados posibles (también se considera como suceso al
conjunto vacío ø.
Ejemplo:
• En un dado, el espacio muestral es {1, 2, 3, 4, 5, 6}.
• Un suceso puede ser “sacar un número par”: {2, 4, 6}.
•Operaciones con sucesos:
• Complementario: Lo que no está en un suceso (ejemplo: si A = {2, 4, 6}, su
complementario es {1, 3, 5}).
• Unión: Lo que está en uno u otro suceso.
• Intersección: Lo que está en ambos sucesos.
2. La probabilidad y sus postulados
•Función de probabilidad: Asigna un número entre 0 y 1 a cada suceso. Debe cumplir:
1. La probabilidad siempre está entre 0 y 1.
2. La probabilidad del espacio muestral completo es 1.
14
3. Si dos sucesos no tienen elementos en común, la probabilidad de su unión
es la suma de sus probabilidades.
Ejemplo con una moneda:
P(cara) = 0.5, P(cruz) = 0.5.
• Regla de Laplace:
Si todos los resultados tienen la misma probabilidad:
Ejemplo: ¿Probabilidad de sacar un 2 en un dado?
Para aplicar esta regla, muchas veces necesitamos contar correctamente los casos
favorables y posibles. Ahí es donde entran las técnicas de recuento:
1. Combinaciones (C ₓ)
Se usa cuando elegimos elementos sin importar el orden.
Fórmula:
Ejemplo: En una clase de 40 alumnos, queremos elegir 3 al azar. ¿Cuántas combinaciones
hay?
2. Permutaciones (P ₓ)
Se usa cuando el orden sí importa.
Fórmula:
Ejemplo: En esa misma clase de 40 alumnos, queremos elegir delegado, subdelegado y
secretario (el orden es importante). ¿Cuántas formas hay?
15
3. Estrategia del producto
Si en una primera elección hay n₁ opciones, en una segunda n₂, y así sucesivamente, el
número total de formas de elegir es:
Ejemplo: En una clase hay 20 chicos y 30 chicas, y queremos elegir un chico y una chica.
20x30= 600 formas posibles
Ejemplo práctico con la regla de Laplace
Ejemplo 1: Comité electoral
16
Ejemplo 2: Lotería primitiva
3. Reglas para calcular probabilidades
3.1. Propiedades útiles
• Probabilidad del complementario:
Ejemplo: Si la probabilidad de que llueva es 0.3, la probabilidad de que NO llueva es 0.7.
• Probabilidad de la unión de dos sucesos:
Ejemplo: Si P(A) = 0.3, P(B) = 0.5 y P(A ∩ B) = 0.1, entonces P(A U B)=0.3+0.5-0.1= 0.7
3.2. Probabilidad condicionada y regla del producto
• Probabilidad de A dado B (condicionada):
Ejemplo: Si el 40% de los empleados estudian informática y el 65% inglés, y un 45%
estudia ambos,
• Regla del producto:
17
3.3. Independencia de sucesos
Dos sucesos son independientes si el hecho de que ocurra uno no afecta la probabilidad
del otro:
Ejemplo: Si el 50% de la población es hombre y el 55% es aficionada al fútbol, pero solo el
40% son hombres aficionados,
• Como 0.50+0.55= 0.275 ≠ 0.40 , NO son independientes.
4. Probabilidades bivariantes
Se estudian combinaciones de dos variables y cómo interactúan sus probabilidades.
Ejemplo: En un periódico, el 21% de los jóvenes leen deportes frecuentemente y el 9% de
los mayores también.
•Se pueden calcular probabilidades condicionadas, como:
A veces se usa el diagrama de árbol:
18
5. Teorema de Bayes
Relaciona probabilidades condicionadas en sentido inverso:
Ejemplo: Si el 10% de los clientes de un seguro tienen un accidente y el 25% son jóvenes,
pero solo el 5% de los jóvenes tiene un accidente,
19
TEMA 4: DISTRIBUCIONES DE PROBABILIDAD DISCRETAS
1. Variables Aleatorias (v.a.): Definición y Tipos
Una variable aleatoria (v.a.) es un experimento aleatorio donde los posibles resultados son
números reales. Se clasifican en:
•Variables aleatorias discretas: Si el conjunto de valores posibles es finito o infinito
numerable.
•Variables aleatorias continuas: Si el conjunto de valores posibles es infinito no
numerable.
Ejemplos:
•Si X representa el número de caras al lanzar una moneda dos veces, es discreta ( toma
valores 0, 1 o 2).
•Si X indica el tiempo en segundos que tarda una persona en completar una tarea, es
continua (puede tomar cualquier valor en un intervalo).
2. Distribuciones de Probabilidad para Variables Aleatorias Discretas
La función de probabilidad de una v.a. discreta indica la probabilidad de cada resultado
posible. Se representa como :
20
Función de distribución de una variable aleatoria discreta
Propiedades de la función de distribución de una v.a. discreta
21
EJEMPLO:
22
3. Esperanza y Varianza de una Variable Aleatoria Discreta
3.1. Esperanza (Valor Esperado)
3.2. Esperanza de una Función de una v.a.
23
3.3. Varianza y Desviación Típica
4. Distribución Binomial
24
TEMA 5: DISTRIBUCIONES DE PROBABILIDAD CONTINUAS
1. Variables Aleatorias Continuas: Función de Densidad y Función de Distribución
1.1. Introducción
Las variables aleatorias continuas toman valores en un conjunto infinito no numerable, como
intervalos de R. En este caso, la probabilidad no se asigna a puntos concretos, sino a
intervalos mediante una función de densidad.
Diferencias clave entre v.a. discretas y continuas:
• En el caso discreto, se reparte la probabilidad total (1) entre valores individuales.
• En el caso continuo, se reparte la probabilidad en zonas, asignando valores según
una función de densidad.
Para definir la función de densidad, se utilizan integrales definidas.
25
26
1.2. Función de Densidad de una Variable Aleatoria Continua
Ejemplo: Si el peso de un niño al nacer sigue una distribución con f(x) dada, la probabilidad
de que pese entre 1.5 kg y 2 kg se calcula como el área bajo la función de densidad en ese
intervalo.
1.3. Función de Distribución de una Variable Aleatoria Continua
Se pueden calcular probabilidades sin necesidad de integrar la función de densidad, usando
la función de distribución.
27
2. Esperanza y Varianza de una Variable Aleatoria Continua
2.1. Esperanza (Valor Esperado)
Es el valor medio esperado si repitiéramos el experimento infinitas veces.
Ejemplo: Si el precio de un producto sigue una distribución continua, E(x) es el precio
medio esperado.
2.2. Esperanza de una Función de una Variable Aleatoria
2.3. Varianza y Desviación Típica
28
2.4. Tipificación
Para comparar dos variables X e Y con diferentes unidades o escalas, se usa la variable
tipificada:
Tiene media 0 y varianza 1, lo que permite comparaciones justas.
Ejemplo: Dos estudiantes sacan notas en distintas asignaturas con medias y varianzas
diferentes. La tipificación permite saber en qué materia sobresalen más respecto a sus
compañeros.
3. Distribución Uniforme
29
4. Distribución Normal
30
31
32
TEMA 6: DISTRIBUCIONES CONJUNTAS DE VARIABLES ALEATORIAS
1. Distribución conjunta de variables aleatorias discretas
Este apartado analiza cómo se comportan dos variables aleatorias discretas cuando se
consideran juntas en lugar de por separado.
1.1. Definición de variable aleatoria bidimensional discreta
Una variable aleatoria bidimensional discreta es un experimento donde hay dos variables X
e Y , y los resultados posibles forman un conjunto finito o infinito numerable.
Ejemplo:
• Lanzar dos dados y considerar la suma y la diferencia de los valores obtenidos.
• Seleccionar un hogar y contar el número de adultos y el número de menores que
viven en él.
Las variables X e Y son discretas por separado, pero al estudiarlas juntas se pueden
analizar nuevas propiedades.
1.2. Función de probabilidad conjunta
Es una función que asigna probabilidades a cada posible par de valores . Se representa
como:
Se presenta en tablas donde:
• Las filas representan los valores de X .
• Las columnas representan los valores de Y.
• En cada celda está la probabilidad de que ocurra ese par (x, y).
Propiedades:
1. Todas las probabilidades deben ser mayores o iguales a 0.
2. La suma de todas las probabilidades en la tabla debe ser 1.
33
1.3. Funciones de probabilidad marginales
1.4. Funciones de probabilidad condicionales
Si sabemos el valor de una de las variables, podemos calcular la probabilidad de la otra
usando la probabilidad condicional:
Esto nos dice cómo cambia la probabilidad de una variable al conocer el valor de la otra.
1.5. Esperanza y varianza marginal y condicional
La esperanza de una variable es su valor medio ponderado por la probabilidad:
34
1.6. Esperanza de una función de una v.a. bidimensional
1.7. Variables de dimensión superior a 2
Cuando hay más de dos variables, se generalizan las ideas anteriores:
• Función de probabilidad conjunta:
• Funciones marginales y condicionales se obtienen igual que en el caso
bidimensional.
2. Distribución conjunta de variables aleatorias continuas
Ahora analizamos el caso continuo, donde las variables pueden tomar infinitos valores.
2.1. Definición de variable aleatoria bidimensional continua
Aquí X e Y pueden tomar cualquier valor en un intervalo. Ejemplos:
• Altura y peso de una persona.
• Tiempo dedicado a tareas del hogar por una pareja.
Cada variable sigue una distribución continua, pero al estudiarlas juntas obtenemos más
información.
35
2.2. Función de densidad conjunta
3. Independencia, covarianza y correlación
36
4. Combinaciones lineales de variables aleatorias
37