ESTADISTICA Es la ciencia que se encarga de obtener, describir e interpretar los datos.
La misma se clasifica en Descriptiva e Inferencial.
A la hora de extraer datos nos enfocaremos en la población, la cual es la colección, o conjunto, de individuos, objetos o eventos
cuyas propiedades serán analizadas. Algunos ejemplos podrían ser; conjuntos de habitantes, estudiantes de la universidad, etc.
Muestra: subconjunto de la población, la cual consiste en analizar un fragmento de esa población y con dichos resultados
poder inferir en la cantidad total. La misma debe ser representativa y en algunos casos, la muestra es igual a la sociedad,
debido que la cantidad de elementos son ínfimas.
Variable: es una característica de interés relacionada con cada elemento individual de una población o muestra. En otras
palabras son datos cuantificables y sirve para determinar la recopilación de los mismos.
Dato: es el valor de una variable asociada a un elemento de una población o muestra. Este valor puede ser un número, una
palabra o un símbolo. Se la puede reconocer como el resultado de un determinado individuo.
o Datos: son conjuntos de valores que se obtienen de la variable a partir de cada uno de los elementos que
pertenecen a la muestra.
Experimento: es una actividad planteada cuyos resultados producen un conjunto de datos. Un ejemplo podría ser las
encuestas, debido que la misma genera la recopilación de datos empíricos.
Estadística: es un valor numérico que resume los datos de la muestra, el mismo puede ser un determinado promedio,
varianza, moda, entre otras.
VARIABLES Tipos de variables
- Cualitativa, de atributos o categórica: es una variable que clasifica o describe un elemento de la población. Las mismas no
arrojan un resultado numérico. Por ejemplo categorizar por un determinado sexo, signo, entre otras.
1) Variable nominal: se caracteriza (describe o identifica) a un elemento de una población. Para los datos resultantes
de una variable nominal, las operaciones aritméticas no solo carecen de sentido sino que tampoco se pueden
asignar un orden a las categorías. Ejemplo; sexo (hombre o mujer)
2) Variable ordinal: representa una posición, o clasificación ordenada. Por ejemplo el nivel de satisfacción de un
cliente, el cual determinara si se encuentra insatisfecho, satisfecho o muy satisfecho.
- Cuantitativa, o numérica: es aquella que cuantifica numéricamente un elemento de una población. Por ejemplo hijo, edad,
entre otras.
1) Variables discretas: la misma puede asumir un numero contable (o finito) de valores. Intuitivamente, la variable
discreta puede asumir los valores correspondientes a puntos aislados a lo largo de un intervalo de la recta. Las
posibles respuestas deben ser concretas, un ejemplo podría ser la cantidad de hijos nacidos, que pueden ser 1, 2,
3, 4,… o más.
2) Variables continuas: puede ser una cantidad incontable de valores. Puede asumir cualquier valor a lo largo de un
intervalo, incluyendo cualquier valor posible entre dos variable. El ejemplo típico es el tiempo, debido que la
posibilidad de respuestas es indeterminada. Ejemplo; 13:43:08 (no son números enteros.
ESTADISTICA DESCRIPTIVA
Una vez determinada la muestra y realizado el experimento, dicha estadística se encarga de procesar los datos recibidos.
Frecuencia: número de veces que se repite un dato en la muestra. Ej. hombre 100 / mujeres 200
Frecuencia total: sumatoria de las frecuencias. Ej. 300
Frecuencia relativa: cantidad de frecuencias de una categoría dividido la cantidad total de frecuencias.
Ej. Hombre: 0,333333 / Mujeres: 0,666667
Porcentual: frecuencia relativa multiplicado por cien. Ej. hombre 33% / mujeres 67%
Gráficos para datos cualitativos
Grafica de círculos: también conocida como diagrama de pastel, donde muestra la
cantidad de datos que pertenecen a cada una de las categorías como parte
proporcional de un círculo.
Frecuencia Porcentual
Graficas de barras: muestra la cantidad de datos que pertenecen a cada una de las
categorías como un área rectangular de tamaño proporcional.
Frecuencia Porcentual
Diagrama de Pareto: es una gráfica especial de barras. En esta, las barras se presentan de la categoría más numerosa a la menos
numerosa. Incluye una gráfica de líneas que muestra los porcentajes acumulativos y las cantidades para las barras. La misma e s
utilizada para atacar lo más urgente, es decir que el de mayor frecuencia predominara en el gráfico. Nuestro grafico va a estar
formado por dos series, una es la frecuencia y otro el porcentaje acumulado. Trata de reducir la pendiente para asi llegar a la
nulidad de los problemas.
Frecuencia Porcentual Porcentaje acumulado
Para construir un diagrama de Pareto en Libre http://misapuntes.info/MisDocumentosOpenOffice/Diagrama_de_
pareto_en_OpenOffice_calc.pdf.
Gráficos para datos cuantitativos
Pasos previos:
o Ordenar datos determinado un criterio: (menor a mayor)
o Frecuencia= Total, relativa, porcentual
o Frecuencia acumulada; total, relativa, porcentual
o Distribución: es el patrón de variabilidad que presentan los datos de una variable. La distribución exhibe lo más
frecuente de cada valor de la variable.
Grafica de puntos: presenta los datos de una muestra al representar cada dato con un
punto ubicado a lo largo de una escala que puede ser horizontal o vertical. La
frecuencia de los valores se representa a lo largo de la otra escala. El objetivo es
representar donde está el peso de la distribución de los resultados encontrados.
Diagrama de tallo y hoja: presenta los datos de una muestra usando los dígitos reales que
conforman el dato. Cada valor numérico se divide en dos partes: El digito o dígitos principales
son el tallo, y los dígitos que la siguen son la hoja. Los tallos están situados a lo largo del eje
principal, y una hoja por cada dato está dispuesta de modo que muestra la distribución de los
datos. En el siguiente ejemplo podremos ver que la gran mayoría se sacara un promedio de 7.
Gráfico de barras para frecuencias no agrupadas:
Datos no agrupados: un número pequeño de variables a elegir. Un ejemplo seria ante un
millón de habitantes, las posibles respuestas sobre la cantidad de hijos. Como se puede
detectar, habrán pocas posibles respuestas.
Frecuencia Frecuencia acumulada Frecuencia relativa Frecuencia relativa acumulada
Grafico para frecuencias agrupadas:
Histograma: consiste en rectángulos consecutivos cuya base es igual a la amplitud de cada intervalo y la altura es
proporcional a la frecuencia (absoluta o relativa) del mismo.
o Estrategia: agrupar lo más parejo posible, es decir que por clases o intervalos.
Clases: no hay una forma óptima para la determinación de la misma, pero la recomendación es la siguiente.
Sea n= número de datos (tamaño de muestra).
Sea c= el primer número que cumple lo siguiente
C = número de clases.
Rango = valor más grande (dato) – valor más pequeño (dato)
Amplitud = rango / n° de clases ©
Marca de clases: valor de la mitad de cada clase. Ej. 32+36 = 68 /2 = 34
Polígono de frecuencia: es aquella función demostrada mediante una línea la cual se complementa
con la marca de clases, debido que pasa por el medio de la misma. Es utilizada para visualizar las
frecuencias no acumuladas, sino las frecuencias simples impuestas en cada clase.
Ojiva: es aquella función lineal demostrada mediante una línea, la cual utiliza los extremos
derechos y visualiza en uno de sus ejes, la frecuencia acumulada mediante avanza por las distintas
clases.
Para construir un histograma en Libre Office: https://www.youtube.com/watch?v=tOy4sd1OKUc
(Parte 1 y 2)
PROBLEMAS EN LA PRESENTACIÓN DE GRÁFICOS ESTADÍSTICOS
- Mala elección de las unidades de medida.
- Las frecuencias porcentuales no coinciden.
- Error en la ubicación de los datos.
- Dos conjuntos de datos comparados con escalas de medición diferentes.
- Mala elección de unidades en los ejes coordenadas.
- Mala elección de ejes coordenados para mostrar información sesgada.
- Datos unidimensionales representados como áreas.
- Gráficos en 3D.
MEDIDAS DE TENDENCIA CENTRAL
Son valores numéricos que localizan, en algún sentido, el centro de un conjunto de datos.
Media aritmética: También denominada promedio o únicamente media. El medida mas conocida y utilizada de tendencia central.
- Denotación:
- Función: La suma de los valores de todos los datos de la muestra.
Tamaño de la muestra.
Media poblacional: denotada por µ, es la media de todos los valores de x para toda la población. Es un valor complejo de
conseguir debido a la imposibilidad de experimentar con toda la población, debido a lo mismo se generaron técnicas que
aproximen dicho valor.
- Ventajas
1) Es el estadístico mas comúnmente usado.
2) Es fácil de calcular.
3) Emplea en su calculo toda la información disponible
4) Se expresa en las mismas unidades que la variable en estudio.
5) En la grafica de frecuencia representa el centro de gravedad.
- Desventajas
1) Es sensible a los valores extremos.
2) No es recomendable emplearla en distribuciones muy asimétricas.
3) Si se emplean variables discretas, la media aritmética puede no pertenecer a conjunto de valores de la variable.
4) No se puede calcular para datos cualitativos.
Media ponderada: A los datos se le asigna en peso determinado con relación a los resultados finales, es decir dependiendo de la
importancia de la variable. Se define la media ponderada mediante la siguiente formula:
Mediana: es el valor de los datos que ocupa la posición media cuando los datos están clasificados en orden de acuerdo con su
tamaño. El valor obtenido puede o no ser un valor del conjunto de datos de la muestra. Se puede interpretar la mediana como
separador de dos conjuntos de datos en porciones iguales
- Denotación:
- Función:
1) Clasifique el orden de los datos. (menor a mayor)
2) Determine la profundidad de la mediana: , donde n es el tamaño de la muestra.
3) Valor de la mediana:
Si n es impar: la mediana es el dato ubicado en el en la posición que
indica la profundidad.
Si n es par: la posición que indica la profundidad no es un número
natural, por lo tanto se tomaran los datos de antes y después de la
profundidad, para así determinar la media de ambos datos para
establecer la mediana.
Mediana poblacional: denotada por .
De los resultados expuestos por la mediana se pueden llegar a importantes
conclusiones, como por ejemplo; en el caso siguiente demuestra las expectativas con
relación a la inflación de Argentina, donde dicha muestra de la población son sus
economistas. Las medidas a comparar son la mediana y la media.
Moda: es el valor de la variable que se presenta con mayor frecuencia. La misma se puede utilizar para datos cuantitativos y
cualitativos. Si dos o mas valores de las muestras empatan por la frecuencia más alta, determinamos que no hay moda.
SI NO
MEDIDAS DE POSICION O LOCALIZACION
Medidas de posición: se utilizan para describir la posición que un dato específico posee en relación con el resto de los datos
cuando están en orden por categoría.
Cuartiles: son valores de la variable que dividen los datos ordenados en cuatro; cada conjunto de datos tiene tres cuartiles.
o 1° Cuartil; Q1: determina el 25% de un conjunto de datos.
o 2° Cuartil; Q2; Mediana; es un valor tal que el 50% de los datos son valores menores a el mismo.
o 3° Cuartil; Q3; es el valor que determina el 75%.
Percentiles: El k-ésimo percentil, Pk, es un valor tal que a lo sumo k% de los datos son menores en valor que Pk.
o 1° Cuartil = Percentil 25 (P25)
o 2° Cuartil = Percentil 50 (P50)
o 3° Cuartil = Percentil 75 (P75)
Procedimiento de cálculo:
1) Ordenar los n datos de menor a mayor
2) Calcular
3) Lectura de resultado:
a. Numero entero (A): Sea d(Pk) = A + 0,5. El Pk será el promedio entre el valor de la posición anterior y el posterior.
b. Numero decimal (B): Sea d(Pk) = B. B es la posición del dato, su única condición es que se redondea para arriba.
Rango intercuartil: es la diferencia entre el cuartil 1° y el 3°. Es decir que es el rango del 50% central de los datos.
Q3 – Q1
Resumen de cinco números: son los datos fundamentales expuestos de la medida de posición. Está compuesto por los siguientes
datos:
- L, el valor más pequeño del conjunto de datos.
- Q1, primer cuartil (también llamado P25, el percentil 25)
- Mediana, también conocida como Q2 o P50.
- Q3, el tercer cuartil (también llamado P75, el percentil 75)
- H, el valor mas grande del conjunto de datos.
Diagrama de caja y bigotes: es una representación gráfica del resumen de cinco números.
La caja se utiliza para describir el rango intercuartil y sus bigotes son segmentos de recta
que se usan para describir la otra mitad de los datos.
Media recortada: es una media recortada al k%, es una media que busca eliminar los
valores extremos que puedan influir en el valor de la media muestral.
- Procedimiento:
1) Se fija el porcentaje k a recortar de la muestra.
2) Se calcula los percentiles. Ej. P10 y P90.
3) Se eliminan los datos de la muestra menores a P10 y mayores a P90.
4) Se calcula la media con los datos resultantes.
MEDIDAS DE VARIABILIDAD O DISPERSION
La medida de variabilidad busca poder diferencias conjuntos de datos los cuales se pueden obtener la misma media y mediana,
pero con el objetivo de diferenciarlas por su dispersión.
Rango: El rango es una medida de “amplitud” de los datos. Es la diferencia entre el dato del valor más alto “H” y el dato de valor
más bajo “L”. Rango = Valor más alto - Valor más bajo
Varianza: Es la dispersión de los datos con respecto a la media. La varianza muestral de una muestra se denota se la siguiente
manera:
Función:
o Consiste en una serie de pasos:
1- Ordenar los datos
2- Buscar la media
3- Restar el dato con la media
4- Elevarla al cuadrado
5- Dividirla por la cantidad de datos, menos uno.
Desviación muestral estándar: Es la raíz cuadrada positiva de la varianza y la misma se denomina .
Función:
- Teorema de Chebyshev
Es la proporción de cualquier distribución que se encuentre dentro de k desviaciones estándar
de la media es al menos donde k es cualquier número positivo mayor que 1. Este
teorema indica que dentro de 2 desviaciones estándar de la media (k =2) siempre se encontrara
al menos el 75% (es decir, 75% o más) de los datos.
INTRODUCCION A LA PROBABILIDAD
El mismo parte del experimento, exponiendo los resultados para iniciar su análisis.
Espacio muestral
El espacio muestral de un experimento, se denota por S, es el conjunto de todos los posibles
resultados de dicho experimento.
Evento: es cualquier recopilación (subconjunto) de resultados contenidos en el espacio muestral S.
Simple: consiste en exactamente un resultado.
Compuesto: consiste en más de un resultado.
Vacío:
Operaciones sobre Eventos
- Complemento de un evento: El complemento de un evento A, denotado Á, es el
conjunto de todos los resultados en el espacio muestral S que no están contenidos en
A.
- Unión de eventos: La unión de dos eventos A y B, denotados por AUB y leído “A o B”,
es el evento que consiste en todos los resultados que están en A o B o en ambos
eventos
- Intersección de eventos: La intersección de dos eventos A y B, denotada por A B y
leída “A y B”, el evento que consiste en todos los resultados que están tanto en A
como en B.
1) Cuando A B = se dice que A y B son eventos mutuamente excluyentes o
disjuntos.
La probabilidad debe satisfacer las siguientes condiciones:
1) Para cualquier evento A, 0 ≤ P(A) ≤ 1
2) P(S) = 1
3) Si A1, A2, A3 … son eventos mutuamente disjuntos entonces: P(A1 [ A2 [ A3 [ · · · ) = P P(A1) + P(A2) + P(A3) + · · ·
Asignación de probabilidades a los eventos
Empírica: consideramos un experimento, el cual repetiremos cierto número de veces (denotado por n)
La probabilidad empírica de un evento A, denotada por P´(A) se define de la siguiente manera:
- Propiedades:
1) La probabilidad empírica no hace uso del espacio muestral. En general solo se conocen el número de ocurrencias
de algunos eventos.
2) Se calcula después de que haya ocurrido el experimento cierto número de veces.
3) Tiene alto riesgo de dar información errónea si se repiten pocas veces el experimento.
4) Dos personas pueden repetir la misma cantidad de veces el experimento y obtener diferentes probabilidades.
Teórica: conocida como probabilidad a priori, debido a que se calcula antes de que se produzca cualquier acontecimiento. Para su
utilización es necesario conocer el espacio muestral finito del experimento. La probabilidad teórica asume que todos los resultados
son igualmente factibles de ocurrir. Dicha condición es fundamental para su análisis.
Para un evento A, definimos la probabilidad teórica de A, denotada por P(A), de la siguiente forma:
Relación entre probabilidad empírica y probabilidad teórica
Dicha relación se establece a medida que vamos repitiendo más veces el experimento, ya que vemos que las probabilidades
empíricas se acercan más a la probabilidad teórica. Esto se conoce como la ley de los grandes números.
Cuando aumenta el número de veces n que se repite un experimento, la probabilidad empírica P´(A), será más cercana a la
probabilidad teórica, P(A).
Subjetiva: una probabilidad subjetiva es una que resulta de un juicio personal. La previsión del mismo depende de la capacidad del
individuo para evaluar correctamente una situación.
HERRAMIENTAS COMBINATORIAS
1) Permutaciones
2) Combinaciones
3) Principio fundamental del conteo
1) Permutaciones: es el experimento que cumple las siguientes condiciones:
- n (numero de posibilidades o cantidad inicial)
- m (cantidad de elementos seleccionados o cantidad seleccionada)
- p o permutación (cantidad de elementos
a. hay un conjunto de n elementos de donde se realiza la elección. Ej. n=5
b. de ese conjunto se eligen m elementos, donde m<n
c. elección sin remplazar. Ej. A no se remplazara con A.
d. Importa el orden de la elección.
Partimos del experimento en el cual 5 personas pasaran por un filtro para ocupar 2 cargos; presidente y vicepresidente.
Función: Ejemplo:
2) Combinaciones: es el experimento que cumple las siguientes condiciones:
- Cumple las propiedades a, b y c de permutación pero se le adiciona la siguiente condición: no importa el orden de elección.
Partimos del experimento en el cual 5 personas pasaran por un filtro y serán seleccionadas 2.
Función: Ejemplo:
3) Principio fundamental del conteo: será explicado a partir del siguiente ejemplo.
3 posibilidades de ruta de la ciudad A B
4 posibilidades de ruta de la ciudad B C
¿Cuál es el número de posibilidades para ir de A a C?
ALGUNAS PROPIEDADES DE LA PROBABILIDAD
Probabilidad del complemento de un evento
Sea A un evento, entonces: P(A´) = 1 – P(A)
Probabilidad de la unión de dos eventos
Si dos eventos A y B son disjuntos (o excluyentes) es fácil ver que P(A U B) = P(A) + P(B)
Probabilidad de la unión, cuando los eventos no son excluyentes.
Es decir que hay una Intersección.
Sean A y B eventos, entonces.
- P(AUB) = P(A) + P(B) – P(A B)
El uso de esta fórmula implica conocer tres de los cuatro valores que aparecen.
Probabilidad condicional o independiente
Partimos de la posibilidad de asignarle eventos adicionales a un determinado promedio, para que a partir de dicha acción
analicemos como varía la misma. Esto sucede porque al ocurrir B, el espacio muestral del experimento condicional ya no es el
espacio muestral Su objetivo es examinar cómo afecta la información de que “un evento B ha ocurrido” a la probabilidad asignada
a A.
A la hora de realizar el análisis debemos seguir los siguientes pasos:
1) Definimos el evento A y su respectiva probabilidad P(A)
2) Definimos un evento B (asociado a este evento existe P(B)) y
suponemos que el mismo es mayor a 0.
3) Con la información de que ocurrió el evento B la probabilidad de A
debe cambiar.
A la nueva probabilidad la denotaremos como P(A|B), denominada probabilidad del evento A dado que ocurrió el evento B
o probabilidad condicional de A dado que ocurrió B.
Función:
Importante: P(A|B) no es igual a P(B|A)
Conceptualmente, son situaciones diferentes. En la primera queremos calcular la probabilidad del evento A dado que
sabemos el evento B. En la segunda situación queremos calcular la probabilidad del evento B dado que sabemos que
ocurrió el evento A.
Regla de la multiplicación para P(A B)
- P(A B) = P(A|B).P(B)
Teorema de Bayes
P(B) = P(B|A1) . P(A1) + P(B|A2) . P(A2) + P(B|A3) . P(A3) = 0.125 + 0.060 + 0.020 = 0.205
Eventos independientes: Es decir que la ocurrencia o no ocurrencia de un evento no afecta la probabilidad de que el otro ocurra.
- Los eventos A y B son independientes si P(A|B) = P(A)
Si dos eventos A y B son considerados independientes porque no están relacionados físicamente, y si P(A) y P(B) son conocidas,
entonces podemos usar la fórmula de la multiplicación para calcular P(A \ B). P(A) . P(B)
Complementos de eventos independientes:
A´ y B´ son independientes.
A y B´ son independientes.
A´ y B son independientes.