ESTADISTICA
UNIDAD N° 1: ESTADISTICA DESCRIPTIVA
NATURALEZA Y OBJETO DE LA ESTADISTICA
ESTADISTICA: es una ciencia que estudia la aplicación del método científico en el análisis
de datos, numéricos o no, con el fin de contribuir a tomar decisiones racionales en
situaciones de incertidumbre.
Comprende los métodos que implican la recolección, tabulación u organización, análisis,
presentación e interpretación de un conjunto de datos, a fin de describir en forma apropiada
las diversas características de ese conjunto de datos.
Es usada para la toma decisiones en áreas de negocios e instituciones gubernamentales.
POBLACION: es el conjunto de elementos de referencia sobre el que se realizan las
observaciones. Puede estar constituida por personas, animales, plantas, artículos o cosas.
Es un conjunto generalmente inaccesible, que reúne unas características determinadas.
Puede clasificarse en:
1) Finita: es aquella que tiene un número limitado de elementos, donde podemos
contarlos sin ningún problema. Por ejemplo, los estudiantes de una escuela.
2) Infinita: es aquella que tiene un número ilimitado de elementos.
MUESTRA: es el grupo de elementos sobre el cual se recogen los datos y se realizan las
observaciones, siendo realmente un subconjunto representativo de la población. Es
accesible y limitado.
PARAMETROS: es un valor representativo de la población. Es una medida descriptiva de
alguna característica de una población. Se puede dar en porcentaje o en promedio. Se
simbolizan con letras griegas. Por ejemplo, la edad promedio de los alumnos de un colegio.
Por ejemplo, los que más se utilizan, pueden ser: la media poblacional; la proporción
poblacional, etc.
ESTADISTICO: es una medida descriptiva que resume una característica de una muestra
extraída de la población. Por ejemplo, la estatura promedio de los alumnos de una escuela.
VARIABLES: es una característica que varía de un elemento a otro de la población o de la
muestra, que se pueden medir o contar.
Características de una variable:
1) ¿Cuál es la característica que se puede medir o contar?
2) ¿Cómo varia de un elemento a otro?
3) ¿Esas familias provienen de una población o de una muestra?
Si no hay variación de un elemento a otro, estamos en presencia de lo que denominamos
variables constantes. Ello podemos observarlo, a través, de un ejemplo: “exportaciones de
carne de argentina en el año 2005”.
Clasificación de las variables:
1) Variables cualitativas: son aquellas que no son susceptibles de medición numérica.
Representan cualidades y atributos que se expresan en categorías.
Dentro de este tipo de variables, se encuentran, aquellas que asumen solo dos
categorías, las que se denominan variables dicotómicas o binaria. Por ejemplo, el
sexo.
Página 1 de 15
ESTADISTICA
UNIDAD N° 1: ESTADISTICA DESCRIPTIVA
Las categorías que componen una variable cualitativa deben cumplir con las
siguientes condiciones:
a) Mutuamente excluyentes: debe ser incluida en una sola categoría, ya sea, la
persona o el objeto. Por ejemplo, el sexo.
b) Exhaustivas: la persona o el objeto deben aparecer en una categoría.
2) Variables cuantitativas: son aquellas susceptibles de medición numérica. Según que
se generen contando o midiendo, estas variables se clasificaran en:
a) Discretas: son aquellas que provienen de contar. Sus valores asumen números
enteros.
b) Continuas: son las que provienen de efectuar mediciones. Se caracterizan porque
entre dos valores cualesquiera de la variable, existen infinitos otros valores. Sus
valores pueden asumir números con cifras decimales.
ESCALAS DE MEDICION: es el proceso de asignar el valor a una variable de un elemento
en observación.
1) Variables cualitativas:
a) Escala nominal: se utiliza cuando las categorías de una variable cualitativa no
tienen naturalmente un orden establecido. Por ejemplo, la nacionalidad.
b) Escala ordinal: es cuando tienen naturalmente un orden establecido. Por ejemplo,
los profesores.
2) Variables cuantitativas:
a) Escala de intervalo: hace que tenga sentido calcular diferencias entre las
mediciones.
b) Escala de razón: permite comparar mediciones mediante un cociente.
Las escalas de intervalo y de razón se diferencian fundamentalmente por dos razones:
1) Por la existencia del cero natural, que significa “ausencia de” (razón); y el cero
convencional que no significa “ausencia de” (intervalo).
2) Porque la escala de razón permite establecer proporciones entre los valores de las
variables, mientras que la escala de intervalo no lo permite.
SIMBOLOGIA DE LAS VARIABLES: el símbolo para una variable cualquiera será una letra
mayúscula (X), y los valores individuales que puede asumir se simbolizan con la misma letra,
pero en minúscula, con un subíndice (Xi).
RAMAS DE LA ESTADISTICA:
1) Estadística descriptiva: se dedica a los métodos de recolección, tabulación u
organización, análisis, presentación e interpretación de los datos originados a partir
de los fenómenos en estudio, a fin de describir en forma apropiada sus principales y
diversas características. Los datos pueden ser resumidos de manera numérica o
gráficamente.
2) Inferencia estadística: se dedica a la generación de los modelos y predicciones
asociados a los fenómenos en cuestión, teniendo en cuenta, la aleatoriedad de las
observaciones muéstrales. Se usa para modelar patrones en los datos y extraer
conclusiones acerca de la población bajo estudio, analizando solo una muestra de
esa población.
Página 2 de 15
ESTADISTICA
UNIDAD N° 1: ESTADISTICA DESCRIPTIVA
ORGANIZACIÓN Y PRESENTACION DE DATOS UNIVARIABLES
RELEVAMIENTO DE DATOS: existen dos formas de recolectar datos:
1) Censo: se denomina censo, en estadística descriptiva, al recuento de individuos que
conforman una población estadística, definida como un conjunto de elementos de
referencia sobre el que se realizan las observaciones.
El censo es una de las operaciones estadísticas que no trabaja sobre una muestra,
sino que lo hace sobre la población total.
2) Muestras: la muestra es el grupo de sujetos (personas, animales, etc.) que se utilizan
como objeto de estudio en una investigación. Será a ellos a quienes se les aplique el
procedimiento experimental.
Existen dos formas de extraer una muestra:
a) Muestreo probabilístico: se extra en forma aleatoria o al azar, que es lo mismo.
Cada elemento seleccionado de la muestra, tiene la misma probabilidad de ser
seleccionado, es un método científico. Pueden ser: aleatoria simple, sistemática,
estratificada y de conglomerados.
b) Muestreo no probabilístico: se extraer con una clara influencia del juicio del
investigador. Los elementos que conforman la muestra no tienen la misma
probabilidad de ser seleccionados. Es un método que carece de considerarse
método científico. En este ejemplo, se obtienen conclusiones erróneas y
subjetivas. Pueden ser: de juicio, de cuota o de bola de nieve.
TABULACION DE DATOS:
1) Serie simple: es un conjunto de pocos datos (menores a 30). Una forma adecuada
de representar y ordenar una serie simple, es mediante el diagrama de tallos y
hojas.
Objetivos:
a) Representar visualmente la información.
b) Descubrir un patrón de comportamiento de los datos, que distribución pueden
seguir los datos.
c) Identificar si hay valores extremos o datos anormales en la muestra.
Es aplicable para valores formados por al menos dos cifras.
Cada número se divide en dos partes, una que llamaremos tallo y la otra denominada
ramas u hojas.
El “tallo” está formado por uno o más dígitos principales (cifras significativas), mientras
que las “ramas u hojas”, son el resto de los números (cifras secundarias) ubicadas a
la derecha.
2) Distribuciones de frecuencias: es una tabla de resumen en la que los datos se
agrupan o arreglan en clases o categorías, ordenadas en forma numérica,
establecidas de manera conveniente. También llamados datos agrupados.
a) Datos agrupados sin intervalos: se utiliza cuando la variable, sea discreta o
continua, presenta pocos valores diferentes entre sí, pero repetidos muchas veces
cada uno.
Donde fi se llama frecuencia absoluta e indica la cantidad de veces que se repite
cada valor de la variable.
Página 3 de 15
ESTADISTICA
UNIDAD N° 1: ESTADISTICA DESCRIPTIVA
b) Datos agrupados en intervalos: se utiliza cuando la variable, sea discreta o
continua, presenta muchos valores diferentes entre sí, pero repetidos muchas
veces cada uno.
El objetivo es distribuir los datos en intervalos de clase, preferiblemente del mismo
tamaño, y verificar cuantas observaciones (fi) se presentan en cada intervalo.
El procedimiento es el siguiente:
Encontrar el rango de variación de los datos:
Rango (R) = XMAX – XMIN
Definir el número de intervalos de clase (K): se recomienda que el número
de intervalos de clase este entre 5 y15, dependiendo del tamaño de la
muestra disponible. Si se usa un número muy bajo, los valores quedan muy
concentrados y se pierde mucha precisión, mientras que si se usa un
número muy alto y la muestra es muy pequeña, los datos quedan muy
dispersos y realmente no se obtiene mucha información.
K = 1+3,33log n
Amplitud de clase (a): se calcula la relación entre el rango de los datos y el
número de intervalos. Se tomará como tamaño del intervalo a un valor
ligeramente superior a esta relación, es decir:
a = XMAX – XMIN / k
Construir los intervalos: cada intervalo de clase, está definido mediante un
límite inferior y superior. Para el primer intervalo, el límite inferior
corresponde al valor más pequeño de la muestra, mientras que, para el
límite superior de cada intervalo, siempre será igual al límite inferior más la
amplitud de clase. Para los demás intervalos diferentes al primero, el límite
inferior será igual al límite superior del intervalo inmediatamente anterior.
La marca de clase es el punto medio del intervalo de clase, es el valor
utilizado para representar todos los datos resumidos en el intervalo.
Xc = Lsup+Linf /2
Se toman los valores de la muestra, y se definen a que intervalo
corresponde: si un valor es igual al límite superior de un intervalo, entonces,
la observación corresponde al intervalo siguiente.
3) Representación gráfica:
Página 4 de 15
ESTADISTICA
UNIDAD N° 1: ESTADISTICA DESCRIPTIVA
a) Para variables cualitativas: el gráfico adecuado para representar este tipo de
variables es el de barras horizontales.
b) Para variables cuantitativas:
Serie simple: no tiene representación gráfica.
Distribución de frecuencias:
Para datos agrupados sin intervalos:
Para datos agrupados con intervalos:
OTRAS DISTRIBUCIONES DE FRECUENCIAS:
1) Distribuciones de frecuencias relativas: se simbolizan (ri), y se obtiene de la
siguiente manera:
r = fi / n
Se utilizan para saber qué proporción o porcentaje de observaciones tiene un
determinado valor o están comprendidas en un intervalo determinado. Su
representación gráfica es igual a la de las frecuencias absolutas, solo cambia la
escala del eje de ordenadas.
Página 5 de 15
ESTADISTICA
UNIDAD N° 1: ESTADISTICA DESCRIPTIVA
La importancia de la frecuencia relativa radica en que indica la proporción de
observaciones referidas al total de observaciones realizadas, y esta es una
interpretación más completa y más precisa que la de las frecuencias absolutas.
2) Distribuciones de frecuencias acumulativas: se simbolizan Fi↓ o Fi↑.
3) Distribuciones de frecuencias acumulativas relativas: se obtienen acumulando
las frecuencias relativas, o bien, relativizando las frecuencias acumuladas. Se
simbolizan con Ri↓↑.
MEDIDAS DE TENDENCIA CENTRAL
Indican los valores centrales de la variable hacia los cuales tienden a agruparse las
observaciones. Comúnmente llamados promedios. Un promedio es una característica de
grupo, no individual.
MEDIA ARITMETICA: es el valor obtenido sumando las observaciones y dividiendo esta
suma por el número de observaciones que hay en el grupo. Es el promedio más conocido y
de mayor uso.
Actúa como punto de equilibrio, de modo que las observaciones que son mayores que la
media equilibran a las que son menores.
1) Propiedades:
a) Puede ser calculada en distribuciones con escala relativa e intervalar.
b) Todos los valores son incluidos en el cálculo.
c) Una serie de datos solo tiene una media.
d) Es una medida muy útil para comparar dos o más poblaciones.
e) Es la única medida de tendencia central donde la suma de las observaciones de
cada valor respecto a la media es igual a cero. Por lo tanto, se la considera como
punto de balance de una serie de datos.
f) La suma de los cuadrados de las desviaciones de los valores de la variable con
respecto a la media aritmética, es un mínimo.
g) Si a todos los valores de la variable se les suma una constante, la media
aritmética queda aumentada en dicho número.
h) Si todos los valores de la variable se multiplican por una constante, la media
aritmética queda multiplicada por dicho número.
i) Propiedad de linealidad de la media (resultante de las dos propiedades
anteriores).
j) Una transformación a la variable con una constante afecta a la media.
2) Ventajas:
a) Calculo sencillo.
b) Fácil interpretación.
c) Intervienen todos los valores de la variable.
d) Tienen manipulación algebraica (se puede calcular media de medias).
3) Inconvenientes:
a) Fuertemente afectada por valores extremos.
b) No se puede calcular cuando la distribución de frecuencias tiene intervalos
abiertos.
4) Calculo: hoja de fórmulas al final.
Página 6 de 15
ESTADISTICA
UNIDAD N° 1: ESTADISTICA DESCRIPTIVA
MEDIA ARITMETICA PONDERADA: se denomina media aritmética ponderada de un
conjunto de números al resultado de multiplicar cada uno de los números por un valor
particular para cada uno de ellos, llamados su peso, obteniendo a continuación la suma de
estos productos, y dividiendo el resultado de esta suma de productos entre la suma de los
pesos más la masa según la característica de cada número inicial.
O dicho de otro modo es un promedio en el que cada valor de observación se pondera con
algún índice de su importancia.
MEDIANA: es un valor de la variable que divide a un conjunto de datos en dos partes iguales,
tal que en una de esas partes se encuentran aquellos valores menores o iguales a la
mediana, y en la otra parte están aquellos valores mayores o iguales que la mediana. Su
aplicación se ve limitada ya que solo considera el orden jerárquico de los datos y no alguna
propiedad propia de los datos, como en el caso de la media.
1) Propiedades:
a) Es única y simple.
b) Los valores extremos no tienen efectos importantes sobre la mediana.
c) Es de cálculo rápido e interpretación sencilla.
d) Si una población está formada por dos subpoblaciones de medianas, solo se
puede afirmar que la mediana de la población está comprendida entre ambas
medianas.
e) Puede ser calculada, aunque el intervalo inferior o superior no tengan límites.
f) La suma de las diferencias de los valores absolutos de “n” puntuaciones respecto
a su mediana es menor o igual que cualquier otro valor.
g) El mayor defecto de la mediana es que tiene unas propiedades matemáticas
complicadas, lo que hace que sea muy difícil de utilizar en inferencia estadística.
2) Determinación gráfica: en el grafico escalonado de frecuencias absolutas o relativas
acumuladas de la forma “menor que”: se traza una línea paralela al eje de abscisas
hasta cortar el grafico escalonado, por esa intersección se baja una línea
perpendicular al mismo eje, y allí se encuentra la mediana (1° gráfico). SIN
INTERVALOS.
En el gráfico escalonado de frecuencias absolutas o relativas acumuladas de la forma
“menor que”: se traza una línea paralela al eje de abscisas hasta cortar el polígono
Página 7 de 15
ESTADISTICA
UNIDAD N° 1: ESTADISTICA DESCRIPTIVA
de frecuencias acumuladas, por esa intersección se baja una línea perpendicular al
mismo eje, y allí se encuentra la mediana (2° gráfico). CON INTERVALOS.
3) Calculo: hoja de fórmulas al final.
CUANTILES:
1) Cuartiles (Q): son los valores que resultan de dividir a la población en cuatro partes
iguales.
El primer cuartil es el valor de la variable situado de tal modo en la serie que una
cuarta parte de los datos (25%), es menor o igual que él, y las tres cuartas partes
(75%) restantes son mayores o igual.
El segundo cuartil, coincide con la mediana y su interpretación es la misma.
El tercer cuartil, es el valor de la variable, situado de tal modo que los tres cuartos
partes (75%) de los datos son menores o igual que él, y ¼ parte (25%) es mayor o
igual.
a) Calculo: hoja de fórmulas al final.
2) Quintiles (U): son los valores que resultan de dividir a la población en cinco partes
iguales (20%).
3) Deciles (D): son los valores que resultan de dividir a la población en diez partes
iguales (10%).
4) Percentiles (P): son los valores que resultan de dividir a la población en cien partes
iguales (1%).
LA MODA O MODO: es el valor de la variable que se presenta o se repite mayor cantidad
de veces, por lo tanto, en una distribución de frecuencias, la moda es el valor de la variable
al cual le corresponde la máxima frecuencia absoluta.
1) Propiedades:
a) No siempre existe: en algunos conjuntos de datos, especialmente en aquellos
donde todos los valores son únicos, no hay moda.
b) No es única: un conjunto de datos puede tener más de una moda (bimodal,
multimodal).
c) No se ve afectada por valores extremos: a diferencia de la media, la moda no se
ve influenciada por valores extremadamente altos o bajos.
d) Puede ser no representativa: en algunas distribuciones, especialmente en
aquellas con muchos valores únicos o pocos valores repetidos, la moda puede no
ser una buena representación de la tendencia central.
2) Determinación gráfica: el primer gráfico es el de bastones (sin intervalos) y el segundo
el histograma de frecuencias absolutas o relativas (con intervalos).
Página 8 de 15
ESTADISTICA
UNIDAD N° 1: ESTADISTICA DESCRIPTIVA
MEDIA GEOMETRICA: la media geométrica, de un conjunto de “n” números positivos, se
define como la raíz enésima del producto de los “n” números.
1) Propiedades: el logaritmo de la media geométrica es igual a la media aritmética de
los logaritmos de los valores de la variable.
2) Aplicaciones:
a) Para promediar porcentajes, índices y cifras relativas.
b) Para determinar el incremento porcentual promedio en ventas, producción u
otras actividades o series económicas de un periodo a otro.
3) Ventajas:
a) Considera todos los valores de la distribución.
b) Es menos sensible que la media aritmética a los valores extremos.
4) Inconvenientes:
a) Es de significado estadístico menos intuitivo que la media aritmética.
b) Su cálculo es más difícil.
c) En ocasiones no queda determinada. Es nula.
5) Calculo: hojas de fórmulas al final.
MEDIA ARMONICA: simbolizada con H, de una cantidad finita de números, es igual al
reciproco, o inverso, de la media aritmética de los recíprocos de dichos valores. La media
armónica resulta poco influida por la existencia de determinados valores muchos más
grandes que el conjunto de los otros, siendo en cambio, sensible a valores mucho más
pequeños que el conjunto.
No está definida en el caso de la existencia en el conjunto de valores nulos.
1) Propiedades:
a) La inversa de la media armónica, es la media aritmética de los inverso de los
valores de la variable.
b) Siempre se puede pasar de una media armónica a una media aritmética,
transformando adecuadamente los datos.
2) Aplicaciones: se utiliza para promediar velocidades, tiempos, rendimientos, en
general promedios por unidad.
3) Ventajas:
a) Considera todos los valores de la distribución y
b) En ciertos casos, es más representativa que la media aritmética.
4) Desventajas:
a) La influencia de los valores pequeños y
b) El hecho que no se pueda determinar en las distribuciones con algunos valores
iguales a cero; por eso no es aconsejable su empleo en distribuciones donde
existan valores muy pequeños.
5) Calculo: hojas de fórmulas al final.
Página 9 de 15
ESTADISTICA
UNIDAD N° 1: ESTADISTICA DESCRIPTIVA
MEDIDAS DE DISPERSION O VARIABILIDAD
Muestra la variabilidad de una distribución, indicando por medio de un número, si las
diferentes puntuaciones de una variable están muy alejadas de la media. Cuanto mayor sea
ese valor, mayor será la variabilidad, cuanto menor sea, más homogénea será.
RANGO (R): es la diferencia entre el valor mínimo y el valor máximo en un grupo de números
aleatorios.
1) Ventajas:
a) El rango es muy fácil de calcular y entender.
b) Proporciona una visión rápida de la variabilidad de los datos. Un rango amplio
indica una mayor dispersión, mientras que un rango estrecho indica menor
dispersión.
c) Puede ser útil para realizar comparaciones iniciales entre diferentes conjuntos de
datos o para tener una idea general de la variabilidad antes de aplicar medidas
más complejas.
2) Desventajas:
a) El rango se ve altamente influenciado por valores extremos. Un solo valor
extremadamente alto o bajo puede inflar el rango y dar una impresión errónea de
la variabilidad de los datos.
b) El rango no proporciona información sobre cómo están distribuidos los valores
dentro del conjunto de datos. No refleja la dispersión interna ni la concentración
de los datos.
c) Es una medida muy básica que no ofrece una visión completa de la variabilidad.
No considera la frecuencia o la distribución de los valores intermedios.
d) En conjuntos de datos grandes, el rango puede ser menos útil porque la
probabilidad de tener valores extremos aumenta, lo que puede distorsionar la
percepción de la dispersión real de los datos.
3) Calculo: hoja de formula al final.
RANGO INTERCUARTILICO (RI): es, sencillamente, la diferencia entre el tercer y primer
cuartil. Esto dice en cuantas unidades de los valores que toma la variable se concentra el
50% central de los casos. Mide la variabilidad de la mitad central de los datos.
DESVIACION MEDIA (DM): es la media aritmética de las desviaciones absolutas de los
valores de la variable con respecto a la media.
1) Propiedades:
a) Es una medida de dispersión que refleja la magnitud promedio de las desviaciones
de los datos respecto a la media, sin considerar la dirección de esas desviaciones.
b) Al utilizar valores absolutos, se evita que las desviaciones positivas y negativas se
cancelen entre sí, proporcionando una visión más clara de la dispersión general.
c) Es generalmente más fácil de entender y calcular que la desviación estándar, ya
que no requiere elevar las desviaciones al cuadrado ni calcular la raíz cuadrada.
d) Si todos los valores del conjunto de datos se incrementan o decrementan en una
constante, la desviación media permanece inalterada. Esto es porque la media se
basa en las diferencias relativas respecto de la media.
Página 10 de 15
ESTADISTICA
UNIDAD N° 1: ESTADISTICA DESCRIPTIVA
e) Aunque es más robusta que la varianza o la desviación estándar, la desviación
media aún puede ser afectada por valores extremos, pero en menor medida
debido a la ausencia de la potenciación de las diferencias.
2) Ventajas:
a) Es una medida fácil de entender y calcular, lo que la hace accesible para análisis
rápidos y básicos.
b) Al usar valores absolutos, proporciona una medida efectiva de la dispersión sin el
problema de cancelación de desviaciones positivas y negativas.
c) Es útil en situaciones donde se necesita una medida de dispersión que no
amplifique las diferencias extremas como lo hace la varianza.
3) Inconvenientes:
a) Comparada con la desviación estándar, la desviación media es menos sensible a
la variabilidad dentro del conjunto de datos.
b) En muchas aplicaciones estadísticas y análisis más complejos, la desviación
estándar es preferida debido a su relación con la distribución normal y otras
propiedades matemáticas.
4) Calculo: hoja de formula final.
DESVIACION MEDIANA (DMe): es la media aritmética de las deviaciones absolutas de los
valores de la variable con respecto a la mediana.
1) Propiedades:
a) La desviación mediana es una medida robusta de dispersión porque no se ve
influenciada por valores atípicos en el conjunto de datos. Esto lo hace más
adecuada para distribuciones no normales o cuando hay valores extremos
presentes.
b) Utiliza el valor absoluto de las diferencias, lo que elimina la cancelación de las
desviaciones positivas y negativas.
c) La desviación mediana proporciona una medida más representativa de la
dispersión central en presencia de valores atípicos. Es más robusta que la
desviación media, ya que es menos afectada por valores extremos que la media.
d) Indica la magnitud típica de las desviaciones absolutas respecto a la mediana del
conjunto de datos.
2) Ventajas:
a) Es una medida robusta y no se ve influenciada por valores extremos o atípicos, lo
que la hace adecuada para distribuciones no normales.
b) Es fácil de calcular y entender, proporcionando una medida clara de la dispersión
central de los datos.
c) Es útil para situaciones donde los datos pueden contener valores extremos o estar
distribuidos de manera no normal.
3) Inconvenientes:
a) Aunque es robusta, la desviación mediana es menos utilizada en análisis
estadísticos avanzados en comparación con la desviación estándar y la varianza.
b) En distribuciones normales, puede no proporcionar tanta información como la
desviación estándar, que está diseñada para esas distribuciones.
Página 11 de 15
ESTADISTICA
UNIDAD N° 1: ESTADISTICA DESCRIPTIVA
c) La desviación mediana no tiene propiedades matemáticas tan convenientes como
la varianza o la desviación estándar, que se benefician de propiedades aditivas y
cuadráticas.
4) Calculo: hoja de formula al final.
VARIANZA Y DESVIACION ESTANDAR: es una medida estadística que mide la dispersión
de los valores respecto a un valor central (media), es decir, la media de las diferencias
cuadráticas de las puntuaciones respecto a su media aritmética. Suele ser representada con
la letra griega σ o una V en mayúscula.
1) Propiedades:
a) Es siempre positiva.
b) Para su cálculo se utilizan todos los datos de la distribución; cualquier cambio de
valor será detectado.
c) Son índices que describen la variabilidad o dispersión y por tanto cuando los datos
están muy alejados de la media, el numerador de sus fórmulas será grande y la
varianza y la desviación típica lo serán.
d) Al aumentar el tamaño de la muestra, disminuye la varianza y la desviación típica.
Para reducir al a mitad la desviación típica, la muestra se tiene que multiplicar por
4.
e) Si a los datos de la distribución les sumamos una cantidad constante la varianza
no se modifica.
f) Si a los datos de la distribución les multiplicamos una constante, la varianza queda
multiplicada por el cuadrado de esa constante.
g) Propiedad distributiva.
2) Ventajas:
a) Varianza:
Considera todas las observaciones en el conjunto de datos, proporcionando
una medida completa de la dispersión.
Es fundamental en muchas técnicas estadísticas, incluyendo la regresión,
el análisis de varianza y otros modelos lineales.
Tiene propiedades matemáticas convenientes, como la aditividad en
distribuciones independientes, lo que la hace útil en teoría de la
probabilidad y estadística inferencial.
Al elevar al cuadrado las desviaciones, la varianza amplifica las diferencias
grandes, haciendo que las dispersiones significativas sean más evidentes.
b) Desviación estándar:
Se expresa en las mismas unidades que los datos originales, lo que facilita
su interpretación directa y comparación con los datos.
Se relación directamente con la media de los datos y es coherente en su
uso con medidas de tendencia central.
Es ampliamente utilizada en diversas disciplinas y estudios estadísticos
debido a su capacidad para describir la dispersión de manera clara y
accesible.
Como la varianza, la desviación estándar tiene propiedades matemáticas
útiles, como la capacidad de descomponer la varianza total en
componentes dentro y entre grupos en análisis de varianza.
Página 12 de 15
ESTADISTICA
UNIDAD N° 1: ESTADISTICA DESCRIPTIVA
Se utiliza para estandarizar datos, facilitando la comparación entre
diferentes conjuntos de datos y la identificación de valores atípicos.
3) Inconvenientes:
a) Varianza:
La varianza se expresa en unidades al cuadrado de los datos originales, lo
que puede dificultar su interpretación directa.
La varianza es muy sensible a los valores extremos o atípicos. Un solo valor
extremadamente alto o bajo puede inflar significativamente la varianza,
dando una impresión exagerada de la dispersión de los datos.
La interpretación de la varianza no es tan intuitiva como la de otras medidas
de dispersión, como el rango o la desviación estándar.
b) Desviación estándar:
Al igual que la varianza, la desviación estándar es sensible a los valores
extremos. Estos valores pueden influir desproporcionadamente en el
resultado, especialmente en conjuntos de datos pequeños.
La desviación estándar se interpreta mejor cuando los datos siguen una
distribución normal o cercana a normal. En distribuciones altamente
asimétricas o no normales, la desviación estándar puede no ser la mejor
medida de dispersión.
Aunque no es extremadamente difícil de calcular, la desviación estándar
requiere más pasos que medidas más simples como el rango. Esto puede
ser una desventaja en situaciones donde se necesita una medida rápida y
fácil de dispersión.
4) Calculo: hoja de formula al final.
La varianza a veces no se interpreta claramente, ya que se mide en unidades cuadráticas.
Para evitar ese problema se define otra medida de dispersión, que es la desviación típica
o desviación estándar, que se halla como la raíz cuadrada positiva de la varianza. La
desviación estándar informa sobre la dispersión de los datos respecto al valor de la media;
cuanto mayor sea su valor, más dispersos estarán los datos. Esta medida viene
representada por la letra S.
COEFICIENTE DE VARIACION (CV): es una medida de dispersión relativa de los datos y
se calcula dividiendo la desviación típica muestral por la media y multiplicando el cociente
por 100. Su utilidad estriba en que permite comparar la dispersión o variabilidad de dos o
más grupos.
1) Calculo: hoja de formula al final.
MEDIDAS DE DISTRIBUCION
Permiten identificar la forma en que se separan o aglomeran los valores de acuerdo a su
representación gráfica. Su utilidad radica en la posibilidad de identificar las características
de la distribución sin necesidad de generar el grafico.
ASIMETRIA: esta medida permite identificar si los datos se distribuyen de forma uniforme
alrededor del punto central (media aritmética).
La asimetría presenta tres estados diferentes, cada uno de los cuales define de forma
concisa como están distribuidos los datos respecto al eje de asimetría.
Página 13 de 15
ESTADISTICA
UNIDAD N° 1: ESTADISTICA DESCRIPTIVA
Se dice que la asimetría es positiva cuando la mayoría de los datos se encuentran por
encima del valor central, la curva es simétrica cuando se distribuyen aproximadamente la
misma cantidad de valores en ambos lados de la media, y se conoce como asimetría
negativa cuando la mayor cantidad de datos se aglomeran en los valores menores que la
media.
(As = 0): es simétrica. Este valor es difícil de conseguir por lo que se tiende a tomar los
valores que son cercanos, ya sea + o – (+, - 0,5).
(As > 0): es asimétrica positiva, por lo que los valores tienden a reunirse más en la parte
izquierda de la media.
(As < 0): es asimétrica negativa, por lo que los valores tienden a reunirse más en la parte
derecha de la media.
CURTOSIS: esta medida determina el grado de concentración que presentan los valores
en la región central de la distribución. Por medio del coeficiente de curtosis, se puede
identificar si existe una gran concentración de valores (leptocurtica), una concentración
normal (mesocurtica) o una baja concentración (platicurtica).
(K —› 0): la distribución es Platicurtica.
(K —› 0,5): la distribución es Leptocurtica.
(K —› 0,25): la distribución es Mesocurtica.
UN GRAFICO MUY DESCRIPTIVO: DIAGRAMAS DE CAJA O BOXPLOTS
Un diagrama de caja es un gráfico, basado en cuartiles, mediante el cual se visualiza un
conjunto de datos. Es un gráfico que suministra información sobre la mediana, el cuartil uno
y tres, sobre la existencia de valores atípicos y la simetría de la distribución.
Este diagrama se usa cuando se necesita la mayor información acerca de la distribución de
los datos, la ventaja que posee con respecto a los demás diagramas es que este gráfico
posee características como centro y dispersión de los datos, y la principal desventaja que
posee es que no presenta ninguna información acerca de las frecuencias que presentan los
datos.
Página 14 de 15
ESTADISTICA
UNIDAD N° 1: ESTADISTICA DESCRIPTIVA
Este diagrama brinda información sobre las medidas de posición, de dispersión, de asimetría
y curtosis. También sobre diferentes categorías de alguna variable cualitativa, sobre la
cantidad de individuos en cada grupo, y sobre los valores atípicos.
En síntesis, el boxplot proporciona una visión general de la distribución de la variable en
estudio.
Como dibujar:
1) Ordenar los datos y obtener el valor mínimo, el máximo y los cuartiles uno, dos y tres.
2) Dibujar un rectángulo con Q1 y Q3 como extremos e indicar la posición de la mediana
(Q2) mediante una línea.
3) Calcular los limites superior e inferior, que identifiquen a los valores atípicos.
Li = Q1 – 1,5 (Q3 – Q1) y Ls = Q3 + 1,5 (Q3 – Q1)
4) Considerar como atípicos los puntos localizados fuera del intervalo (Li, Ls).
5) Dibujar las líneas que van desde cada extremo del rectángulo central hasta el valor
más alejado no atípico.
6) Marcar como atípicos todos los datos que están fuera del intervalo (Li, Ls).
Página 15 de 15