01 - Mentz
01 - Mentz
VERSION PRELIMINAR
Contenido
1.Introducción
2.Variables
3.Variables Cualitativas
3.1.Presentación Tabular
3.2.Presentación Gráfica
4.Variables Cuantitativas
4.1.Presentación Tabular
4.2.Presentación Gráfica
4.3.Variables Cuantitativas Continuas
4.4.Análisis Exploratorio de Datos: Diagrama de Tallo y Hojas.
5.Notación
5.1.Variables Cualitativas
5.2.Variables Cuantitativas Discretas
5.3.Variables Cuantitativas Continuas
5.4.Notación para las Sumas
6.Introducción
7.Medidas de Posición
7.1.Modo
7.2.Mediana
7.3.Percentiles
7.4.Media Aritmética
7.5.Media Geométrica
7.6.Media Armónica
8.Análisis Exploratorio de Datos: Posición, Variabilidad y Asimetría
9.Momentos
10.Medidas de Variabilidad
11.Medidas de Asimetría y Otras Medidas
12.Análisis Exploratorio de Datos: Gráficos de Caja
13. Introducción
13.1 Conceptos Generales
13.2 Gráficos de Series Cronológicas
13.3 Gráfico Semilogarítmico o de Razones
14. Introducción
14.1 Variables Cualitativas: Dos Variables
14.2 Variables Cualitativas: Dos Variables, Casos General
3
15.1 Introducción
15.2 Indices de Precios
4
MOTIVACIÓN
En la tabla que se acompaña hay 70 casos que se utilizan como ejemplo. De ellos
figura lo siguiente: (1) Número de Orden de 1 a 70; (2) Lugar de Residencia, 16
Departamentos Provinciales; (3) Sexo, H (hombres), M (mujeres); (4) Edad al
Fallecer. (5) Causa de Muerte.
1. INTRODUCCIÓN
La estadística se define a menudo como la ciencia de los datos. Entendemos por datos
la información numérica que proviene de diversas fuentes. Algunos ejemplos son:
Cualquiera sea su origen, los datos tienen una forma común: existe un individuo o
entidad (persona, empresa, inmueble, por ejemplo) con el que se identifican los datos, y
para cada uno de ellos una colección de números correspondientes a cada concepto de
interés.
Ejemplo. En un estudio demográfico sobre mortalidad, los casos considerados son las
personas fallecidas. Para cada una se dispone información sobre sexo, edad al fallecer,
causa de muerte, características personales, ocupación, lugar de residencia, experiencia
médica y otros.
Existe una manera interesante de apreciar el uso de la estadística. Esto se muestra con
el siguiente diagrama (Anderson y Sclove, 1978)
6
Datos
Organización
y Resumen
Interpretación
Población
Conclusiones
Cuando los datos forman el total a considerar, decimos que disponemos de toda la
población, o sea que las mediciones disponibles son la totalidad a considerar. Esto se
opone al caso en que sólo se dispone de una muestra, o sea una parte de una población.
En tal caso para llegar a emitir conclusiones sobre la población (o universo) es necesaria
una etapa previa, la Inferencia Estadística. En esta disciplina la distinción entre
población y muestra es fundamental; en el caso de la Estadística Descriptiva que es
nuestra objetivo, no hacemos tal distinción, y a menudo utilizamos la palabra lote para
aludir a un grupo de datos numéricos sin aclarar su naturaleza.
2. VARIABLES
En el ejemplo escolar, las variables son sexo, edad, calificaciones obtenidas, opiniones
y otras. En el ejemplo demográfico, las variables son sexo, edad, características
personales y las variables de diagnóstico y tratamiento médico. En el ejemplo de la
odontología tenemos el mismo tipo de variable y en adición, los resultados del
experimento con los tratamientos cotejados.
Las variables que se usan en estadística se clasifican en dos grandes grupos: las
variables cualitativas y las cuantitativas.
Son variables cualitativas las definidas por clases o categorías. Algunos ejemplos son:
Variables Nominales. Son las que tienen categorías (dos o más) que no reconocen un
orden. Ejemplos son las carreras escolares, las profesiones, las preferencias políticas o
religiosas, y otras.
Variables Ordinales. Son aquellas en que las categorías (dos o más) reconocen un
orden. Ejemplos son las clases sociales, categorías de ingreso, categorías de
calificaciones escolares, etc.
Recuentos. Los valores observados son 0 o enteros positivos. Ejemplos son los años
(enteros) de vida, la cantidad de habitaciones en una casa, la cantidad de empleados en
una empresa, la cantidad de hijos en una familia, y otros. Las variables que se originan
en recuentos se llaman discretas.
Mediciones. Los valores observados son, desde el punto de vista teórico, números
reales. En virtud de las limitaciones prácticas, se dispone de aproximaciones decimales.
Por ejemplo, en la estatura de las personas de un grupo, son concebibles todos los
números reales menores que, digamos, 3 metros. Sin embargo, las mediciones
realizadas sólo pueden lograrse con una precisión dada, por ejemplo de 1 milímetro. A
pesar de esta observación, para el análisis de los datos es conveniente mantener como
8
esquema conceptual, que son posibles todos los valores en un intervalo dado. Las
variables que se originan en mediciones se llaman continuas.
De Razón. Son las que admiten comparaciones por diferencias y por cocientes
(siempre que el denominador no se anule): 1.000 pesos es 100 pesos mayor que 900, y
es el doble de 500.
Toda variable disponible en una escala refinada, puede expresarse en términos de otra
menos refinada. Por ejemplo, el ingreso monetario de una persona, que es una variable
cuantitativa de razón, puede expresarse o difundirse en categorías como variable
cualitativa (categórica) ordinal.
En el archivo de los datos (por ejemplo en una base de datos de la computadora) los
individuos generalmente están identificados con un código, por ejemplo un número de
orden. Este número tiene entonces la apariencia de una variable cualitativa ordinal o de
una variable cuantitativa discreta. Sin embargo sus valores son arbitrarios y no pueden
confundirse con las verdaderas variables del problema. A veces se ilustra esta idea con
los números que usan los jugadores de algunos deportes para ser identificados: la
identificación es válida pero (en general) no representa un atributo de interés.
Nominales
Cualitativas →
Ordinales
Variables →
Cuantitativas → De Intervalo
De Razón
9
3. VARIABLES CUALITATIVAS
Tabla 1
Sentencias Judiciales Condenatorias Dictadas en 1979
2. Con respecto a b), interesa saber si las categorías primaria, secundaria y universitaria
corresponden a programas o carreras completos o incompletos.
Tabla 2
Sentencias Judiciales Condenatorias Dictadas en 1979
Distribución Porcentual por Jurisdicción
Justicia Porcentaje
Ordinaria Nacional 14,07
Provincial 75,25
Federal 10,01
Militar 0,67
Total 100,00
Fuente. Tabla 1.
Los porcentajes se obtienen al dividir cada frecuencia en el total y multiplicar por 100:
14,07 = (3.498/24.856)100.
De la Tabla 1 se obtiene la 2, pero no vale la recíproca. Una manera útil de tratar este
asunto constituye la Tabla 3.
Tabla 3
Sentencias Judiciales Condenatorias Dictadas en 1979
Distribución Porcentual por Jurisdicción
Justicia Porcentajes
Ordinaria Nacional 14,07
Provincial 75,25
Federal 10,01
Militar 0,67
Suma de Porcentajes 100,00
Total de Casos (24.856)
Fuente. Tabla 1.
11
El uso de 100 como base es arbitrario, si bien muy conocido y difundido. En términos
matemáticos a menudo se prefiere utilizar a 1 como base o total. La Tabla 4 tiene esta
información:
Tabla 4
Sentencias Judiciales Condenatorias Dictadas en 1979
Distribución Relativa por Jurisdicción
Fuente. Tabla 3
Tabla 5
Sentencias Judiciales Condenatorias Dictadas en 1960 y 1979
Clasificación por Nivel de Instrucción del Condenado
Nivel de Instrucción Cantidades de Sentencias Porcentajes
1960 1979 1960 1979
Analfabeto 1.696 1.511 13,8 6,1
Escasa 238 1.658 1,9 6,7
Primaria 8.009 19.079 65,3 76,8
Secundaria 184 1.329 1,5 5,3
Universitaria 24 424 0,2 1,7
No se conoce 2.127 855 17,3 3,4
Sumas 12.278 24.856 100,0 100,0
Fuente. Anuarios Estadísticos, INDEC.
12
Otra manera útil de apreciar en grandes rasgos las características de los datos
disponibles, es a través de los gráficos. Dos representaciones posibles de la Tabla 1,
parte a) forman el Gráfico 1.
Gráfico 1
Sentencias Condenatorias Dictadas en 1979
Clasificación por Jurisdicción
a) Gráfico de Barras Verticales
20000
Número de sentencias
18000
16000
14000
12000
10000
8000
6000
4000
2000
0
Ordinaria Provincial Federal Militar
Nacional
Jurisdicción
P rovinc ial
Federal
M ilitar
Fuente. Tabla 1
13
Gráfico 2
Sentencias Condenatorias Dictadas en 1979
Clasificación por Jurisdicción
20000
18000
16000
Número de sentencias
14000
12000
10000
8000
6000
4000
2000
0
Provincial Ordinaria Nacional Federal Militar
Jurisdicción
Fuente. Tabla 1
Gráfico 3
Sentencias Judiciales Condenatorias Dictadas en 1960 y 1979
Clasificación por Nivel de Instrucción del Condenado
Comparación de las Distribuciones Porcentuales
Año
1960 1979
No se conoce No se conoce
Universitaria Universitaria
Nivel de Instrucción
Nivel de Instrucción
Secundaria Secundaria
Primaria Primaria
Escasa Escasa
Analfabeto Analfabeto
80 60 40 20 0 20 40 60 80
% %
Fuente. Tabla 5.
4. VARIABLES CUANTITATIVAS
Presentación Tabular
1. Las columnas (1) y (2) contienen la información básica. La variable cantidad de hijos
es cuantitativa de razón y corresponde a recuentos, es decir que es una variable discreta.
Cero es un valor posible con significado claro, pues corresponde a familias que no
tienen hijos.
2. Las columnas (3) y (4) tienen las distribuciones relativas, expresadas con base 1 en
(3) y con base 100 en (4).
3. La columna (5) tiene una manera distinta de ver la información. El primer número, 4,
es la frecuencia de familias que tienen “hasta 0 hijos”, o dicho de otra manera, que
tienen una cantidad de hijos “menor que 0 o igual a él”. El segundo número es 12, y es
la frecuencia (acumulada) de familias que tienen “hasta 1 hijo” (es decir que tienen 0 ó
1 hijo), o que tienen una cantidad de hijos “menor que 1 o igual a él.”
6. En un caso práctico está claro que no se presentan todas las variantes consideradas,
pues todas las cantidades provienen de las primeras dos columnas. Sin embargo es
importante haber introducido en este ejemplo el concepto de frecuencia acumulada y
dos formas de definirla.
Gráfico 4
Clasificación de 20 Familias Según
La Cantidad de Hijos que Tienen
frecuencia
5
0
0 1 2 3 4 5
Fuente. Tabla 6
Gráfico 5
Clasificación de 20 Familias Según
La Cantidad de Hijos que Tienen
6
5
4
3
2
1
0
0 1 2 3 4
Número de hijos
17
frecu en cia
5
4
3
2
1
0
0 1 2 3 4
Número de hijos
Fuente. Tabla 6.
Vemos que estos recursos no responden en forma estricta a la forma matemática. Las
líneas verticales no corresponden al concepto de función, pues para cada valor de la
variable hay muchos valores en el gráfico, y sólo la convención nos hace leer el mayor
valor de cada línea. Lo mismo ocurre con las barras consecutivas. A pesar de estas
observaciones, los diagramas como el Gráfico 5 son los más usados en la práctica y son
los que se consideran más útiles para facilitar la interpretación.
La parte b) del Gráfico 5 es similar a la parte a) del Gráfico 1, excepto que en este
último las barras (verticales) están separadas. Sin embargo la apariencia es sólo
superficial pues lo importante es distinguir entre la variable cualitativa nominal del
Gráfico 1 (que puede ordenarse de otra manera como en el Gráfico 2) y las barras
consecutivas del Gráfico 5, donde el orden es fundamental. Mas adelante (al tratar las
variables cuantitativas continuas) consideraremos otro uso para gráficos similares al de
barras consecutivas.
16
14
12
10
8
6
4
2
0
0 1 2 3 4 5
Número de hijos
Fuente. Tabla 6
18
Gráfico 7
Frecuencias Acumuladas “Hasta” de 20 Familias
Según la Cantidad de Hijos que Tienen
20
15
10
0
0 0,5 1 1,5 2 2,5 3 3,5 4 4,5
Número de hijos
25
20
frecuencia acumulada
15
10
0
0 1 2 3 4 5
Número de hijos
Fuente. Gráfico 6.
La parte a) no requiere mayores comentarios: los 5 puntos (pares) del Gráfico 1 están
unidos por rectas para dar una idea visual. Mas interesante es el esquema de b). Los
puntos remarcados son los mismos del Gráfico 6. Resta analizar las rectas (horizontales)
trazadas. En un valor observado, por ejemplo 3 hijos, se lee 18, que es la cantidad de
familias que tienen “hasta 3 hijos”, o sea, tiene 0, 1, 2 ó 3 hijos. ¿Qué pasa en los otros
valores? Tomemos por ejemplo a 3,5: la lectura es “la cantidad de familias que tienen
hasta 3,5 hijos es 18”. La frase es extraña pero cierta. Otros ejemplos: para –1, “la
cantidad de familias que tienen hasta –1 hijo es 0”; 7, “la cantidad de familias que
tienen hasta 7 hijos es 20”. Todas son aseveraciones ciertas! El esquema de saltos es por
lo tanto un gráfico que es matemáticamente correcto, está bien definido para todos los
números (los observados y otros no observados y no observables), y tiene una forma útil
para facilitar la interpretación de los datos.
19
La Tabla 6 es típica de las variables discretas. Pero una tabla similar no es apropiada
(en general) para las variables continuas. En efecto, es posible que si la escala de
medición es suficientemente precisa, haya pocas o ninguna coincidencia entre los
valores observados. Para construir una tabla es preciso recurrir a un proceso previo, que
es la definición de categorías a las que llamaremos clases. Las clases se definen al
subdividir el conjunto de valores observados en una cantidad (a la que designaremos por
k) de grupos; estos grupos son contiguos, mutuamente excluyentes y completos, es decir
que cubren a todos los valores observados. Un ejemplo es el siguiente:
Tabla 7
Clasificación de 70 Números en 6 Clases
Clases Frecuencias
Observadas
93 a menos de 97 8
97 a menos de 101 40
101 a menos de 105 12
105 a menos de 109 3
109 a menos de 113 5
113 a menos de 117 2
Total 70
Gráfico 8
Histograma de la Tabla 7
45
40
35
30
25
20
15
10
0
93 a menos 97 a menos 101 a menos 105 a menos 109 a menos 114 a menos
de 97 de 101 de 105 de 109 de 114 de 117
Gráfico 9
Gráfico de Frecuencias Acumuladas de la Tabla 7
80
70
frecuencia acumulada
60
50
40
30
20
10
0
89 93 97 101 105 109 113 117
Número de hijos
Vemos que el trazo es similar al del Gráfico 7 b), pero mientras aquel es exacto, el
presente incluye la aproximación consistente en usar clases.
Los temas tratados hasta ahora sirvieron para ilustrar algunas técnicas básicas de la
estadística descriptiva y para introducir algunos conceptos y definiciones. En esta
sección iniciamos la presentación de un conjunto de técnicas que se difundieron en
forma sistemática en la década de 1970, y alcanzaron rápida aceptación entre los
usuarios de la estadística. Al conjunto de técnicas se lo identifica como el Análisis
Exploratorio de Datos (Tukey, 1977).
Partimos de un ejemplo simple. Los siguientes son 20 números con valores entre 0 y
100, valores de una variable continua, redondeados a décimos:
1,0 13,9 93,8 40,6 54,8 62,0 39,5 28,3 51,3 96,4
38,4 79,8 6,3 93,9 82,5 46,8 20,7 73,3 26,3 93,7
1,0 6,3 13,9 20,7 26,3 28,3 38,4 39,5 40,6 46,8
51,3 54,8 62,0 73,3 79,8 82,5 93,7 93,8 93,9 96,4
1 6 13 20 26 28 38 39 40 46
51 54 62 73 79 82 93 93 93 96
1 6 14 21 26 28 38 39 41 47
51 55 62 73 80 82 94 94 94 96
0 1 6
1 3
2 0 6 8
3 8 9
4 0 6
5 1 4
6 2
7 3 9
8 2
9 3 3 3 6
6. 0 1 2 3 4
* 5 6 7 8 9
y subdividiendo en 5
6. 0 1
t 2 3
f 4 5
s6 7
*8 9
23
Las letras elegidas en este último caso provienen: t de two, three, f de four, five y s de
six, seven. Los otros identificadores son un punto y un asterisco. La barra que separa los
tallos de las hojas debe ser de trazo continuo.
3. El diagrama se presta para comparar lotes. Por ejemplo, para dos lotes, tenemos:
(tallos)
2 0 1 3
6 5 1 1 2 5 5 7
7 2 2 2 3 4
4 3 3 9
5 4 9
Volviendo al diagrama de tallo y hojas para los N=20 datos, agregamos una
información para uso futuro. Consiste en incorporar frecuencias acumuladas de la
siguiente manera: como (N+1)/2 = 10,5, calculamos lo siguiente:
2 0 1 6
3 1 3
6 2 0 6 8
8 3 8 9
10 4 0 6
10 5 1 4
8 6 2
7 7 3 9
5 8 2
4 9 3 3 3 6
Clase Frecuencia
Acumulada
Mayor que o igual a 90 4
Mayor que o igual a 80 6
Mayor que o igual a 70 7
Mayor que o igual a 60 8
Mayor que o igual a 50 10
5. NOTACION
Variables Cualitativas
Consideremos una variable cualitativa con categorías identificadas como A1, A2,...,
Ak. Por ejemplo, en la Tabla 1, parte a), k=4 y en la parte b) k=6. Designemos a las
frecuencias correspondientes como f1 ,f2 ,..., fk , de manera que se cumple que
f1+f2+...+fk = N, el total de datos en el lote. Entonces un formato general para la tabla es
el siguiente:
25
Para las variables cuantitativas utilizamos las letras finales del alfabeto, X, Y, Z, etc.,
(ó x, y, z) para identificar a las variables. Sea por ejemplo la variable de la Tabla 6
identificada como X = cantidad de hijos por familia. Entonces un formato posible es el
siguiente:
Para este tipo de variable ya dijimos que en general es preciso agrupar a los valores
contiguos en clases, que pueden tener intervalos comunes o distintos. Consideremos el
caso en que los valores de la variable están distribuidos en k clases de longitud h, de
manera que si X1, X2,...,Xk son ahora los puntos medios de las clases , la tabla general
tiene la siguiente forma (entre otras posibles):
26
Nótese que, por ejemplo, X1+h/2 =X2 –h/2, etc., pues las clases son contiguas.
Con estas frecuencias podemos calculas las frecuencias relativas (f /N, por ejemplo) y
las frecuencias relativas porcentuales (100f1/N, por ejemplo). También podemos utilizar
frecuencias acumuladas, como sigue:
Definimos
n
x + x + ... + x = ∑ x ;
1 2 n i =1 i
Algunas de las principales propiedades de esta operación abreviada son las propias de
la suma de números (reales).
n
1. ∑ a = na donde a es una constante.
i =1
n n n
2. ∑ ( x + y ) = ∑ x + ∑ y , donde y1, y2,...,yn es otro conjunto de números.
i =1 i i i =1 i i =1 i
n n
3. ∑ ( cx + a ) = c ∑ x + na , donde a y c son constantes.
i =1 i i =1 i
pues todas corresponden a la misma suma. Otros resultados que encontraremos útiles
mas adelante son:
n 2
5 ∑ x = 0 si y sólo si x = x = ... = x = 0.
i =1 i 1 2 n
n
6. ∑ x = 0 si y sólo si x = x = ... = x = 0.
i =1 i 1 2 n
n n 1 n 2 1
7. ∑ 1 = n , ∑ i = n ( n + 1), ∑ i = n ( n + 1)( 2 n + 1).
i =1 i =1 i =1
2 6
28
6. Introducción
Como resumen del contenido de la Primera Parte tenemos el concepto de una variable
y su distribución de frecuencias. Cuando decimos, por ejemplo, que X es la cantidad de
hijos en una familia (Tabla 6), pensamos en un conjunto de valores posibles (0, 1, 2,
...,k), y sus correspondientes frecuencias (f1, f2,...,fk). Algo similar ocurre con las
variables cualitativas nominales u ordinales y con las variables cuantitativas continuas.
Es decir que se trata de una información compleja, que analizamos a través de tablas y
gráficos en la forma en que vimos a través de ejemplos simplificados.
7. Medidas de Posición
Modo
En una distribución unimodal existe una sola categoría con la frecuencia máxima,
pero las distribuciones pueden ser bimodales, o, en general, multi-modales. Para las
variables categóricas nominales el orden de las categorías es irrelevante (ver los gráficos
1 y 2); en cambio en las ordinales deberá respetarse el orden de la variable.
f − f
s s −1
M = X −h/2+h ,
o s
2f − f − f
s s−1 s+1
Mediana
La mediana es, intuitivamente, el valor de la variable que separa a los datos en dos
partes. Esta idea intuitiva debe refinarse. Una definición operativa es la siguiente.
Mediana de un lote de datos de una variable cuantitativa. Sean X1, X2 ,...,XN los
valores observados de la variable y
Supongamos que están ordenados de menor a mayor X ≤ X ≤ ... ≤ X . Si N es
1 2 N
impar, la mediana es el valor Xs para r=(N+1)/2; si N es par, la mediana Me =(Xs +Xt)/2
para s=(N/2)-1, t=(N/2)+1.
Ejemplos. (1) Sean los valores observados 59, 54, 55, 57 y 52. Los valores ordenados
son 52, 54, 55, 57 y 59 y por lo tanto Me =55. La mediana define dos grupos, el de
valores menores que 55 o iguales a él (52, 54 y 55) y el de valores iguales a 55 o
mayores que él (55, 57 y 59).
(2) Si los valores observados (ordenados) son 52, 54, 55, 57, 59 y 60, la mediana es
56 y los grupos que se forman son (52, 54 y 55), (57, 59 y 60).
(3) Si los valores observados (ordenados) son 52, 54, 54 y 57, la mediana es 54 y los
grupos son (52 y 54), (54 y 57).
Se deduce que la suma de las cantidades de datos en los dos grupos definidos por la
mediana puede ser igual o mayor que el total de datos y que por lo tanto es incorrecto
30
definir a la mediana por la propiedad de formar dos grupos con la mitad de los datos
disponibles.
Tampoco se puede definir a la mediana por la propiedad de separar a los datos en dos
grupos de igual tamaño. En efecto, cuando existen datos repetidos (como en el ejemplo
(3)), es fácil construir ejemplos en que los grupos definidos por la mediana tienen
cantidades diferentes de datos.
N r −1
− ∑ f
h i =1 i
2
Me = Xr − +h ,
2 f
r
Percentiles
La mediana es uno de los valores que pueden calcularse partiendo del criterio de que
la posición de una variable (o de su distribución) la miden los valores que separan
porciones de la cantidad total de datos. Los percentiles dividen al total de datos según lo
que se especifica. Por ejemplo, en sentido intuitivo, el percentil del l0% es precedido
por el 90% de los datos y seguido del 10%; esto requiere ser precisado operativamente.
Dos medidas muy utilizadas son las cuartilas. Podemos derivar una definición
operativa considerando valores de N (cantidad total de datos) de la forma N = 3k+s,
donde s=0, 1, 2 ó 3.
31
N + 1 + 1
2
2
y el tercer cuarto se determina por simetría con el primero. Los corchetes indican “parte
entera”, es decir, si N es par, (N+1)/2 es un entero mas ½ y su parte entera es el entero;
si N es impar, (N+1)/2 es un entero.
Media Aritmética
Existen otros criterios para definir la posición de una variable, que implican realizar
operaciones con los números y que, por lo tanto, están limitadas a variable cuantitativas.
Las mas importantes son las medias (o promedios) aritmética, geométrica y armónica.
1 N
X = ∑ X .
i =1 i
N
1.La operación que define a la media aritmética es la suma de los datos. Por lo tanto no
tiene relevancia si están ordenados o no lo están. Puede interpretarse que la media
aritmética es una suma estandarizada, pues se divide el total en la cantidad de datos.
Nótese que si hay valores positivos y negativos entre los datos, se producen
compensaciones; en particular, la media aritmética puede ser 0 sin que todos los datos lo
sean.
N
2.Podemos escribir que la media aritmética es X = ∑i =1 X / N , o sea que cada dato
i
influye en la media aritmética con la misma ponderación 1/N. Decimos entonces que la
media aritmética es un tanto por unidad. Por ejemplo, si los datos fueran los pesos de
estudiantes, la media aritmética es el promedio de peso por estudiante
N N
X = ∑w X , donde ∑ w = 1.
P i =1 i i i =1 i
4.La media aritmética tiene las propiedades que provienen de las que mostramos para la
operación de suma. Por ejemplo, si se transforma a los datos definiendo Y = aX+b,
donde a y b son constantes, la media aritmética registra el mismo cambio.
N
∑ ( X − X ) = 0.
i =1 i
6.Menos evidente es que la suma de los cuadrados de las diferencias entre los datos y la
media aritmética es el mínimo valor que puede obtenerse de esta suma. Demostramos
esta propiedad como sigue: Sea a una constante a determinar,
N
i =1 i
2 N
[
∑ ( X − a) = ∑ ( X − X ) + ( X − a)
i =1 i
2
]
N
[
i =1 i
2 2 N
= ∑ ( X − X ) + N ( X − a ) + 2( X − a ) ∑ ( X − X )
i =1 i
]
N 2
≥ ∑ (X − X ) .
i =1 i
7.En el punto 6 se trata de encontrar un valor (de a) que haga mínima la suma de
cuadrados de las diferencias. La expresión
2
∑iN=1 ( X − a ) es una función de a que es diferenciable y por lo tanto podemos
i
encontrar el valor que la hace mínima usando derivadas.
de las distancias (en valor absoluto) de él a los dos datos: el valor puede ser menor que
X1, estar entre X1 y XN o ser mayor que XN; el valor deseado debe estar entre los dos
datos, pues entonces la suma de las distancias es XN-X1 que es el mínimo posible.
Introduzcamos ahora el segundo par; el valor buscado no puede ser inferior a X1 ni
superior a XN pues estos valores fueron descartados al considerar el primer par; por lo
tanto hay tres posibilidades: que esté entre X1 y X2 , entre X2 y XN-1 o entre XN-1 y XN:
razonando como en el caso anterior, concluimos que la segunda opción es adecuada y
que la contribución a la suma de distancias es XN-1-X2 . Siguiendo de esta manera,
llegamos a que el valor buscado está entre XN/2 y X(N/2)+1 y que la suma de las distancias
es (XN-X1)+(XN-1-X2)+...+(XN/2-X(N/2)+1). Notamos que la solución no es única, a menos
que los dos valores centrales sean iguales; de allí la convención de definir como
mediana en este caso, el promedio de los dos valores centrales. El mismo argumento
vale para el caso de N impar, excepto que allí se encuentra como valor único a X(N+1)/2.
10. Media aritmética aproximada. Si no se dispone de los datos sino de una distribución
de frecuencias con intervalo de clase (histograma), puede calcularse una media
aritmética aproximada utilizando los puntos medios de las clases. Tenemos
1 k
X = ∑ X f
APRX i =1 i i
N
donde los Xi son los puntos medios de las clases y las fi son las frecuencias.
Media Geométrica
G = N X X ... X .
1 2 N
1 N
log G = ∑ log X ,
i =1 i
N
La media geométrica es adecuada para utilizar cuando lo datos son razones, o sea
cocientes entre dos cantidades. Este es el caso de las tasas económicas o financieras. En
efecto, si Xi = Yi+1/Yi , tenemos
Y Y Y Y
2 3 N N
X X ... X = ... = ,
1 2 N
Y Y Y Y
1 2 N −1 1
o sea que el producto de las tasas reproduce el cociente entre el último y el primero de
los datos.
Para valores positivos de las variables se cumple que la media aritmética es mayor o
igual a la media geométrica, y que la igualdad ocurre si y sólo si todos los valores de la
variable son iguales.
Media Armónica
Cuando se necesita promedias magnitudes que tienen efectos inversos, los dos
promedios considerados son inadecuados. El caso típico es el de promediar los tiempos
recorridos con relación a las velocidades empleadas, pues claramente allí la relación es
inversa: a mayor velocidad menor tiempo empleado. La media armónica de un lote de
datos positivos (no pueden ser 0) es
1
H =
1 N 1
∑
i =1
N X
i
N + 1 + 1
N +1 2
= 21 / 2 = 10 , 5 y = (10 + 1) / 2 = 5 , 5
2 2
de manera que la mediana tiene profundidad 10,5 y los cuartos profundidades 5,5. Con
ello se tiene que el primer cuarto C1=(26+28)/2=27, la mediana Me =(46+51)/2, y el
tercer cuarto C3 =(79+82)/2=80,5. Agregando el valor mínimo (min=1), y el valor
máximo (max=96), la información puede resumirse como sigue:
Los cinco números aludidos en el título de la tabla son la mediana, los cuartos, el
mínimo y el máximo de los datos. Estos tienen, respectivamente, profundidades 10,5,
5,5, 5,5, 1 y 1.
extremos observados. Ellos podrían estar alejados del resto de los valores, como
veremos mas adelante.
Asimetría. Si la distribución de los datos es simétrica con respecto al valor central, los
promedios calculados coinciden. Se propone considerar a (C1+C3)/2-Me como base de
una medida de asimetría, que es 0 si la distribución es simétrica. Un coeficiente de
asimetría se obtiene estandarizando esta medida, como sigue:
C +C
1 3
−M
e C + C − 2M (C − M ) − (M − C )
2 1 3 2 3 e e 1
As = = = .
C −C C −C (C − M ) + (M − C )
3 1 3 1 3 e e 1
2
9. Momentos
Un conjunto interesante de ideas estadísticas provienen de computar con los datos X1,
X2 ,...,XN de una variable cuantitativa, un momento de orden r con respecto a una
constante a. Este se define por la formula
1 N r
m (a) = ∑ ( X − a) ,
r i =1 i
N
donde r puede ser 0, 1, 2, etc. Algunos ejemplos ya fueron considerados. En efecto,
1 N 2
Var ( X ) = ∑ (X − X ) .
i =1 i
N
De acuerdo con lo que vimos en la Sección 5.4, Var(X) = 0 si y sólo si todos los
valores son iguales (y por lo tanto iguales a su media aritmética), pues se trata de una
suma de cuadrados.
2
1 N 2 1 N∑ X 2
Var ( X ) = ∑ X −
i =1 i i=1 i = m (0) − X .
N N 2
Dijimos que frente a una transformación lineal de los datos, Y=a+bX, la media
2
1 N 2
Var (Y ) = Var (a + bX ) = ∑ (a + bX i ) − (a + bX ) = b Var ( X ).
N i =1
DE ( X ) = Var ( X ).
Nótese que DE(a+bX) = bDE(X), pues la desviación estándar (igual que las otras
medidas de variabilidad) no puede ser negativa.
1 N
DM ( X ) = ∑ X − X ,
i =1 i
N
38
y la desviación mediana
1 N
DM ( X ) = ∑ X − M ;
e i =1 i e
N
recordamos que esta última es la mínima suma de valores absolutos de las diferencias
entre los datos y una constante.
[ m (X)
3
]2
[ ]
γ = 3.
m (X)
2
Los restantes momentos con respecto al origen y con respecto a la media aritmética
también se usan como herramientas descriptivas.
Se definen como valores alejados (outliers en inglés) a los valores inferiores al punto de
la izquierda o superiores al punto de corte de la derecha.
Para dibujar un gráfico de caja (box plot en inglés) se dibuja un rectángulo cuyos
extremos corresponden a los cuartos y que posee una línea transversal en la mediana.
Luego se dibuja una recta desde cada extremo de la caja hasta el punto ubicado a mayor
distancia y que no sea un valor alejado. La figura representanta entonces al lote de
datos, excepto por los valores distantes, que se agregan representados en forma
individual por cruces.
C1 – 3 DIC y C3 + 3 DIC,
y llamamos valores muy alejados (far-out-values en inglés) a los que exceden estos
puntos. En el ejemplo anterior los valores numéricos son –144,5 y +303,5, de manera
que 403, 510 y 734 son valores muy alejados.
800,00
600,00
400,00
200,00
0,00
Internación
Los diagramas de cajas son útiles para comparar lotes de datos. Se construye un
gráfico para cada lote y se los ubica paralelamente en forma horizontal o vertical. Los
gráficos pueden ordenarse de acuerdo con el valor de la mediana de cada lote, o un
orden particular de interés si existe. De esta manera se comparan posiciones,
variabilidades, simetrías y valores alejados de los lotes.
13. Introducción
Con respecto al punto (3), a menudo se expresa que si hay muy pocos datos es
recomendable una descripción verbalizada o textual: es el caso de enunciar una o unas
pocas cifras; si hay una mayor cantidad de datos, se recomienda preparar una tabla, y si
hay muchos datos un gráfico. En la publicación Social Indicators III mencionada
previamente, se utilizan las tres formas, como sigue: (a) Una primera versión de un tema
es un texto resumido, que describe los principales problemas y los principales
resultados; está redactado de manera que se puede citar directa y textualmente, evitando
distorsiones en la interpretación; (b) Esta exposición viene seguida de una selección de
gráficos, presentados a todo color, sobre los mismos temas; esto será de utilidad para
quien deba realizar una exposición ilustrada, para publicaciones periodísticas, etc.; (c)
Finalmente, cada capítulo tiene una sección tabular, en la que se presentan en detalle
una selección de los datos disponibles; ésta sección será de utilidad para quien desee
profundizar el estudio o realizar análisis estadísticos complementarios.
Algunos comentarios son los siguientes. Con respecto a (2), si el gráfico no se inicia
en 0, debe señalarse claramente la relación entre el inicio y el origen. Con respecto a
42
(5), se asevera que “un gráfico equivale a 1000 palabras”, pero también que “pueden
hacer falta 100 palabras para especificar su definición y significado”; es un error incluir
en el gráfico explicaciones demasiado sintéticas, que hagan difícil al lector el
entendimiento del significado estadístico.
Clasificación. Fienberg (1979, op. cit.) propone la siguiente clasificaciön. (a) Por una
parte los gráficos que no contienen datos estadísticos: (1) Los que representan
relaciones teóricas, como son los gráficos de la matemática; (2) Para realizar cómputos
o cálculos, que es el caso de nomogramas; (3) Para organizar la información, como es el
caso de mapas, diagramas de flujos y otros; (b) Gráficos que contienen información
basada en datos estadísticos: (4) Los destinados a presentar los datos y los resultados del
análisis (barras, histogramas, gráficos de cajas, etc.); (5) Mixtos, en los que se hace
simultáneamente presentación y análisis, como en algunos ejemplos antiguos; (6)
Analíticos, utilizados con relación a técnicas estadísticas, por ejemplo, análisis
inferencial.
Con respecto a los nomogramas, fueron muy populares antes de la aparición de las
modernas computadoras; sin embargo aún en este momento hay oportunidades para
utilizar algunos nomogramas con sentido estadístico; daremos un ejemplo en una
sección mas abajo.
Ejemplos. (1) Datos anuales sobre inscripción de nuevos alumnos en una carrera
universitaria o de egresados de ella; aquí los instantes son los años y los datos son las
cantidades de alumnos o de egresados; (2) Datos diarios sobre lluvia caída en una
localidad; aquí los instantes son los días y los datos los milímetros de lluvia caída; (3)
Datos mensuales sobre producción de un artículo; aquí los instantes son los meses y los
datos las producciones.
Un gráfico simple de una serie cronológica se forma con el tiempo como abscisas y
los valores como ordenadas. El resultado es un conjunto de puntos que se pueden
presentar de varias maneras: (a) Simplemente como puntos, lo que, sin embargo, no
facilita la comprensión; (b) Conectando los puntos con rectas, que ayuden al lector a
interpretar los movimientos de la serie a través del tiempo; (c) Conectando cada punto
con su proyección en el eje de las abscisas, de manera que el gráfico es una sucesión de
barras verticales; éste resulta útil en algunos casos.
El gráfico de los pares (t, yt) enfatiza los valores absolutos de la variable y. En muchas
aplicaciones, interesa mas analizar los cambios ocurridos en estos valores a través del
tiempo. Tal es el caso de las series económicas, donde interesa menos el nivel (valor
absoluto) de la variable que los cambios. Por ejemplo, a menudo no disponemos de
datos sobre el valor del índice de precios al consumidor, pero si conocemos su tasa
mensual de cambio; algo similar pasa con el ingreso, donde tiene mucha importancia el
cambio mensual, trimestral o anual.
Esto proviene del siguiente argumento: Si logey1 - logey2 = logey3 - logey4 , entonces,
por propiedades de los logaritmos, loge(y1/y2) = log(y3/y4). Pero el logaritmo es una
función monótona, de manera que la igualdad de los logaritmos implica la igualdad de
los argumentos, y1/y2 = y3/y4. Esto explica el nombre de gráfico de razones.
14. Introducción
Un ejemplo simple es el siguiente: Un dato sobre el peso de una persona, por ejemplo
70 kg., contiene poca información. Nótese el énfasis en distinguir entre dato e
información. Es importante saber si los 70 kg. corresponden a una mujer o a un varón,
pues las estructuras físicas son diferentes, o pueden serlo. Además deberíamos conocer
la edad: 70 kg. es un peso considerable para un niño o un joven, pero no lo es tanto para
un adulto. Si seguimos pensando encontraremos que de la persona que tiene 70 kg. de
peso nos convendría conocer su sexo, edad, estatura, raza, hábitos de trabajo, hábitos
deportivos y varias otras cosas mas. De esta manera podremos apreciar el significado
del dato observado de 70 kg. Son las relaciones entre variables las que explican el
sentido de los datos y orientan a descubrir relaciones causales, o, por lo menos,
relaciones de dirección entre variables.
Tabla 8
Muertes Causadas por Cáncer en los Estados Unidos, Clasificadas por Raza
Las primeras observaciones son: (1) Hay mas blancos que negros, lo que está de
acuerdo con la composición (aproximada) de la población norteamericana; (2) Hay mas
muertes por otras causas que por cáncer, lo que se explica pues la categoría otras
incluye muchas causas de muerte.
46
Para continuar con el estudio de estos datos, conviene reducirlos a porcentajes. Dos
primeras opciones son:
Los porcentajes verticales se obtienen dividiendo cada valor en el total que figura en
la última fila de cada columna; los porcentajes horizontales se obtienen dividiendo cada
valor en el total que figura en la última columna de cada fila de la Tabla 8.
Todavía existe una tercera posibilidad, calculas los porcentajes conjuntos como sigue.
Debemos razonar para descubrir cuales de las tres tablas de porcentajes disponibles
son útiles para el análisis de la información. Para ello debemos pensar en la dirección de
la relación posible, lo que en general llamaremos la causa posible. Pensando de esta
manera resulta claro que entre raza y causa de muerte hay una sola relación posible y es
la que corresponde a las preguntas: ¿Es la raza un posible determinante de que se
produzca la muerte por cáncer? ¿Hay una incidencia diferencial de la muerte por cáncer
entre blancos y negros? Es decir que la posible relación causal es que la raza puede ser
un factor diferencial en la incidencia de la muerte por cáncer.
Puesto de esta manera se aprecia la limitación del estudio basado en sólo dos
variables. Existen otros factores que pueden contribuir a explicar la diferencia
observada. En una discusión en clase sobre este tema, se sugirió la posibilidad de que
los datos incluyeron un período próximo al fin de la Segunda Guerra Mundial; en tal
caso, es posible que la distribución por edades de los muertos pueda explicar (en parte al
menos) la diferencia observada.
Ejemplo. (Anderson and Sclove, op. cit.) La siguiente es una tabla que muestra la
relación entre la intención de votar en una elección y la afiliación a un partido político.
Tabla 9
Clasificación de 350 Votantes Según su Afiliación Política y su Intención de Votar.
Categorías B1 B2 Total
A1 f11 f12 f1+
A2 f21 f22 f2+
Total f+1 f+2 N=f++
Una notación posible es la de tipo matemático, por ejemplo, f(1,1), f(1,+), etc. Para el
caso de la tabla de dos por dos hay otra notación tradicional y simplificada, utilizada
con mucha frecuencia. Es la siguiente:
Categorías B1 B2 Total
A1 a b a+b
A2 c d c+d
Total a+c b+d N=a+b+c+d
a c
=
a +b c +d
o bien
a b
= .
a +c b+d
a c a b
ad > bc , ó > , ó > ;
a +b c +d a +c b+d
La asociación es positiva si las desigualdades se invierten (ad < bc, por ejemplo). Los
atributos son independientes si en las expresiones vale la igualdad.
Observación. Si los atributos son cualitativos ordinales, existe un orden para las
categorías. En cambio, si los atributos son cualitativos nominales el orden es arbitrario.
De manera que en este último caso en particular, debe tratarse con cuidado la asignación
del signo a la asociación existente. Una manera de expresarla es diciendo “el nivel A1
del atributo A, tiene una asociación positiva con el nivel B1 del atributo B”, lo que
equivale a decir que “el nivel A2 del atributo A, tiene una asociación negativa con el
nivel B2 del atributo B”.
ad − bc
Q = .
ad + bc
ad − bc
Y = .
ad + bc
ad − bc
φ = .
( a + b )( c + d )( a + c )( b + d )
Nótese que el denominador es la raíz cuadrada del producto de los cuatro totales
marginales de la tabla de 2x2.
2
4 ( O − E )
2 i i
χ = ∑ .
i =1
E
i
51
Notamos que
O − E = a − ( a + b )( a + c ) / N , b − ( a + b )( b + d ) / N , c − ( c + d )( a + c ) / N , d − ( c + d )(
i i
Es interesante notar que reemplazado a los Oi por sus valores (a, b, c, d) y a los Ei en la
forma indicada, resulta que
2
2 ( ad − bc ) N 2
χ = = Nφ ,
( a + b )( a + c )( b + d )( c + d )
Medida del Grado de Asociación. Las medidas propuestas para el caso de dos filas y
dos columnas, basada en la relación entre los productos de frecuencias ad y bc, no
extienden directamente al caso general. Sin embargo la idea que genera la medida “ji
cuadrado” generaliza sin dificultades, una vez que definimos las frecuencias esperadas
bajo el supuesto de independencia. Como en el caso particular de 2x2, éstas frecuencias
esperadas se obtienen de las frecuencias marginales observadas, de manera que la tabla
de valores observados Oij y la de frecuencias esperadas Eij tienen las mismas sumas
marginales. La frecuencia esperada en la categoría conjunta Eij = fi+ f+j /N, de manera
que tenemos
2 r c
( f − f f
ij i+ + j
/ N )
2
χ = ∑ ∑ .
i=1 j =1
f f / N
i+ + j
Suponemos que se analizó la relación entre dos variables cualitativas y que se llegó a
la conclusión de que no son independientes, sino que existe algún grado de asociación,
positiva o negativa. La próxima pregunta a formularse es si ésto implica que una de las
variables es causante del comportamiento de la otra. La respuesta debe ser cuidadosa,
pues existen otras variables relacionadas con las dos variables estudiadas, que pueden
tener importancia en el análisis.
Consideremos por ejemplo el caso de la posible relación entre raza (blanca y negra)
sobre la incidencia del cáncer como causa de muerte. Encontramos que las frecuencias
conjuntas observadas señalan una posible relación, en el sentido de que existen
porcentajes diferentes de muertes por cáncer entre blancos y negros. Sin embargo, antes
de concluir sobre el posible efecto de la raza, debemos considerar otras variables que
pueden intervenir y explicar, al menos parcialmente, la relación observadas. Ya dimos
el ejemplo de la edad, pero también deberíamos pensar en el sexo, la ocupación, la zona
donde viven, los hábitos alimenticios y de cuidado de la salud y varios otros. Sólo un
estudio cuidadoso de los factores (variables) intervinientes, puede llevarnos a una
conclusión segura.
categorías C1 y C2. La tabla originaria tiene frecuencias observadas f11, f12, f21 y f22.
Cuando a cada individuo clasificado por A y B se lo considera además clasificado por
C, se generan dos tablas, como sigue:
Categorías B1 B2 Totales
A1 f111 f121 f1+1
A2 f211 f221 f2+1
Totales f+11 f+21 f++1
Categorías B1 B2 Totales
A1 f112 f122 f1+2
A2 f212 f222 f2+2
Totales f+12 f+22 f++2
Cada tabla puede analizarse por separado en términos de las técnicas conocidas:
porcentajes, medidas de posición, independencia, signo y grado de la asociación. Las
conclusiones de este análisis pueden ser: (1) La incorporación de la tercera variable
puede refinar las observaciones basadas en las dos primeras, (2) Puede revelar el efecto
independiente del tercer factor, o (3) Puede explicar los resultados de la clasificación
originaria de dos maneras: (i) Confirmándolos, o bien (ii) Mostrando que la relación de
origen era espúrea. Se dice que una asociación entre dos variables es espúrea, si aparece
en la clasificación conjunta de estas dos variables, pero desaparece en las
subclasificaciones.
Una manera general de ordenar la información cuando existen mas de dos variables,
es agruparlas por tipos, tratando que este agrupamiento y ordenación haga resultar las
posibles relaciones de causa y efecto. Por ejemplo, si existen variables A, B y C, un
ordenamiento posible es, partiendo de la relación inicial A → B,
A → C → B
Otro esquema posible es que la tercera variable explique a las dos iniciales, es
decir,
→ A
→ B
→ A
C ⋱
→ B
Este tipo de análisis puede generalizarse a mas de tres variables cualitativa. Cox y
Wermuth (1996) proponen que partiendo de que cada individuo proporciona
información (conjunta) sobre una cierta cantidad de variables, éstas se agrupen según su
significado e posible interpretación. En un extremo están las llamadas variables de
identificación, como casos típicos el sexo y la edad; en el otro extremo están las
variables que son objeto del estudio, a las que se llaman variables de respuesta. En el
caso de análisis de las causas de muerte el sexo y la edad de los individuos son variables
de identificación, la causa de muerte es la principal variable de respuesta, y todas las
otras variables que se consideren serán intervinientes, con distintos tipos de
interpretación y distintos grado de importancia. Una representación gráfica de estas
ideas es la siguiente:
Algunas observaciones son las siguientes: (1) En cada grupo puede haber una o mas
variables; lo corriente es que exista una sola variable de respuesta. (2) Estamos
considerando el caso de variables cualitativas, pero en general pueden ser de interés
también las cuantitativas de distintos tipos. (3) Las flechas que comunican a los grupos
pueden adquirir formas complejas; por ejemplo, variables de identificación pueden tener
55
efecto sobre algunas de las variables intervinientes, pero también efectos directos sobre
las de respuesta.
15.1 Introducción
Los promedios se calculan con los valores observados de una variable. Por ejemplo la
media aritmética de un lote de datos de una variable cuantitativa, x1 , x2 ,..., xN se
obtiene aplicando la fórmula x = Σi xi/N. Un tema relacionado se presenta cuando se
consideran valores de distintas variables y se desea combinarlas. Aparece el problema
de las unidades de medición: una suma de valores de variables con unidades diferentes
carece de sentido práctico. Una manera simple pero efectiva de combinar valores de
variables diferentes, es mediante la construcción de un índice.
(1) 1 k p jt k
p
jt 1
I = ∑ = ∑ ( ).
t /0 j =1 j =1
k p p k
j0 j0
p
(S ) k jt k
I = ∑ w , con ∑ w = 1.
t /0 j =1 j j =1 j
p
j0
Un caso muy importante es cuando se dispone de las cantidades asociadas con los
precios. Estas pueden ser las cantidades consumidas por las familias (índice de precios
minoristas o al consumidor), las cantidades negociadas (índice de precios mayoristas),
etc. En el caso de índice de precios al consumidor, en general se dispone de las
cantidades consumidas en el período base, q10, q20,...,qk0 .Entonces se propone utilizar
las ponderaciones
p q
j0 j0
w = k .
j
∑ p q
s =1 s 0 s 0
k
p p j0 j0 p q ∑ p q
(2)
= ∑
k jt
w = ∑
k jt
k j =1 jt j 0
= k
I
t /0 j =1 j j =1 :
j 0 s =1 s 0 s 0
p p ∑ p q ∑ p q
j0 j =1 j 0 j 0
Por el contrario, es muy importante mantener al día la información sobre los precios.
La presencia o ausencia de descuentos y promociones, por ejemplo, pueden introducir
perturbaciones en el sentido del índice.
El índice de precios de Laspeyres tiene la ventaja de que sólo deben actualizarse los
precios. Cuando se realizan estudios retrospectivos, existe la posibilidad de usar otros
tipos de índices. El índice de precios de Paasche se define como sigue:
k
∑ p q
( 3) j =1 jt jt
I = K .
t /0
∑ p q
j =1 j 0 jt
k
∑ p (q + q )
(4) ( 2) ( 3) j =1 jt j0 jt
I = I + I = k .
t /0 t /0 t /0
∑ p (q + q )
j =1 j 0 j0 jt
(5) (2) ( 3)
I = I + I .
t /0 t /0 t /0
59
p 1 p
= anti log .
(6) k jt k jt
= k ∏ ∑ log
k
I
t /0 j =1 j =1
p
j0 p
j0
Es decir que el índice de precios por media geométrica de los precios relativos, es el
antilogaritmo de la media aritmética del logaritmo de los precios relativos. Como en el
caso general ya tratado, la media geométrica de los precios relativos es menor que la
correspondientes media aritmética, o igual a ella, y la igualdad se obtiene si y sólo si
todos los precios relativos son iguales.
Bibliografía
Anderson, T. W. and J : D. Finn (1996) The New Statistical Analysis of Data. New
York: Springer
Goodman and Kruskal (1954) Measures of association for cross classifications. J. of the
Am. Stat. Association, 732-764.
Haber, A., R.P. Runyon and P. Badia (1970) Readings in Statistics. Reading, Mass,
Addison-W
Zeisel, H. (1990) Dígalo con Números, Tercera Edición. México: Fondo de Cultura
Económica.
62