[go: up one dir, main page]

0% encontró este documento útil (0 votos)
22 vistas62 páginas

01 - Mentz

El documento presenta notas sobre estadística descriptiva, abarcando variables, distribuciones, medidas de posición, análisis gráfico y datos multivariados. Se enfatiza la importancia de la variabilidad en los datos y se clasifican las variables en cualitativas y cuantitativas, además de detallar sus características y presentaciones. Se incluye un enfoque en la aplicación de técnicas estadísticas en estudios demográficos, específicamente en el análisis de defunciones.

Cargado por

Santiago Costa
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
22 vistas62 páginas

01 - Mentz

El documento presenta notas sobre estadística descriptiva, abarcando variables, distribuciones, medidas de posición, análisis gráfico y datos multivariados. Se enfatiza la importancia de la variabilidad en los datos y se clasifican las variables en cualitativas y cuantitativas, además de detallar sus características y presentaciones. Se incluye un enfoque en la aplicación de técnicas estadísticas en estudios demográficos, específicamente en el análisis de defunciones.

Cargado por

Santiago Costa
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
Está en la página 1/ 62

NOTAS SOBRE ESTADÍSTICA DESCRIPTIVA

Raúl Pedro Mentz

Facultad de Ciencias Económicas


Universidad Nacional de Tucumán
2002/2003

VERSION PRELIMINAR

En esta revisión participaron


la Dra Viviana Lencina y en
los aspectos computacionales
el Ing. Carlos Martinez y
el Sr. Rubén Di Risio
2

Contenido

PRIMERA PARTE – Variables y Distribuciones

1.Introducción
2.Variables
3.Variables Cualitativas
3.1.Presentación Tabular
3.2.Presentación Gráfica
4.Variables Cuantitativas
4.1.Presentación Tabular
4.2.Presentación Gráfica
4.3.Variables Cuantitativas Continuas
4.4.Análisis Exploratorio de Datos: Diagrama de Tallo y Hojas.
5.Notación
5.1.Variables Cualitativas
5.2.Variables Cuantitativas Discretas
5.3.Variables Cuantitativas Continuas
5.4.Notación para las Sumas

SEGUNDA PARTE – Medidas de Posición

6.Introducción
7.Medidas de Posición
7.1.Modo
7.2.Mediana
7.3.Percentiles
7.4.Media Aritmética
7.5.Media Geométrica
7.6.Media Armónica
8.Análisis Exploratorio de Datos: Posición, Variabilidad y Asimetría
9.Momentos
10.Medidas de Variabilidad
11.Medidas de Asimetría y Otras Medidas
12.Análisis Exploratorio de Datos: Gráficos de Caja

TERCERA PARTE- Análisis Gráfico

13. Introducción
13.1 Conceptos Generales
13.2 Gráficos de Series Cronológicas
13.3 Gráfico Semilogarítmico o de Razones

CUARTA PARTE – Datos Multivariados

14. Introducción
14.1 Variables Cualitativas: Dos Variables
14.2 Variables Cualitativas: Dos Variables, Casos General
3

14.3 Variables Cualitativas: Tres Variables


14.4 Variables Cualitativas: Caso General
14.5 Variables Cuantitativas

QUINTA PARTE – Indices

15.1 Introducción
15.2 Indices de Precios
4

MOTIVACIÓN

Un área interesante de aplicación de la estadística es en los estudios demográficos. La


Demografía se ocupa de ciertos fenómenos vitales, nacimientos, matrimonios,
defunciones, migraciones y otros. Estos fenómenos demográficos se relacionan con
características personales como sexo y edad, y con información sobre lugar de
nacimiento, nivel de educación, categoría de ingreso y otras.

Un área importante es el estudio de las defunciones. En el ejemplo que consideramos


la información sobre las defunciones proviene de un formulario que debe ser llenado
obligatoriamente por el médico o la autoridad médica a cargo del acontecimiento. Se
acompaña una copia del Certificado de Defunción. Se observa una parte especial para
los fallecidos menores de un año. En los formularios consta una selección de datos
relacionados con el fallecimiento.

En la Provincia de Tucumán se producen alrededor de 8.000 defunciones por año, es


decir que existen otros tantos formularios. Ellos se encuentran en la Dirección
Provincial de Estadística y en el Registro Civil de la Provincia.

En la tabla que se acompaña hay 70 casos que se utilizan como ejemplo. De ellos
figura lo siguiente: (1) Número de Orden de 1 a 70; (2) Lugar de Residencia, 16
Departamentos Provinciales; (3) Sexo, H (hombres), M (mujeres); (4) Edad al
Fallecer. (5) Causa de Muerte.

Este es un caso frecuente de tema en que es relevante pensar en el uso de técnicas


estadísticas. La fuente de la información la constituye el archivo de formularios. Los
temas que se pueden estudiar partiendo de esta fuente son diversos y de mucha
importancia práctica.
5

PRIMERA PARTE – Variables y Distribuciones

1. INTRODUCCIÓN

La estadística se define a menudo como la ciencia de los datos. Entendemos por datos
la información numérica que proviene de diversas fuentes. Algunos ejemplos son:

1. Información recogida por oficinas gubernamentales al brindar servicios a los


usuarios, contribuyentes, propietarios y otros. Para esta finalidad se utilizan formularios
adecuados en los que se registran los datos.

2. Información recogida por oficinas gubernamentales o agencias privadas, mediante


encuestas. Estas pueden ser sobre hechos concretos (encuestas educativas o económicas,
por ejemplo), o sobre opiniones (encuestas políticas, comerciales, culturales, etc.).
Pueden efectuarse mediante entrevistas personales, telefónicas, por correo u otras
formas.

3. Datos provenientes de experimentos médicos, educativos, industriales y otros.

Cualquiera sea su origen, los datos tienen una forma común: existe un individuo o
entidad (persona, empresa, inmueble, por ejemplo) con el que se identifican los datos, y
para cada uno de ellos una colección de números correspondientes a cada concepto de
interés.

Ejemplo. En las instituciones educativas, cada alumno tiene un archivo o “legajo


personal”, que se inicia al inscribirse por primera vez y en el que se va acumulando
información: sexo, edad, antecedentes escolares previos, características familiares
(ocupación, ingreso, nivel educativo) y otras. A medida que el estudiante progresa, se
van acumulando datos sobre su desempeño escolar. En cualquier momento el legajo
contiene la acumulación de datos sobre el alumno. Es oportuno mencionar que ese
caudal de información se maneja habitualmente mediante el uso de computadoras: la
información constituye una base de datos.

Ejemplo. En un estudio demográfico sobre mortalidad, los casos considerados son las
personas fallecidas. Para cada una se dispone información sobre sexo, edad al fallecer,
causa de muerte, características personales, ocupación, lugar de residencia, experiencia
médica y otros.

Ejemplo. En odontología se realizan experimentos para analizar en forma


comparativa, los efectos de tratamientos alternativos. Se forman grupos homogéneos de
personas con ciertas afecciones, se las trata con una variedad de procedimientos y se
registran las respuestas. Estos datos se relacionan con información personal como sexo,
edad, hábitos alimenticios, conducta de fumar o no hacerlo y otras.

Existe una manera interesante de apreciar el uso de la estadística. Esto se muestra con
el siguiente diagrama (Anderson y Sclove, 1978)
6

Datos

Organización
y Resumen

Tablas, Razones, Porcentajes,


Gráficos y otros Elementos de
La Estadística Descriptiva

Interpretación

¿Los Datos son una Población


O una Muestra? Muestra Inferencia Estadística

Población

Conclusiones

El contenido de este trabajo es la Estadística Descriptiva. Esta aparece en forma


directa al considerar un conjunto de datos, por la necesidad de organizarlos y resumirlos
para facilitar su interpretación y análisis.

Cuando los datos forman el total a considerar, decimos que disponemos de toda la
población, o sea que las mediciones disponibles son la totalidad a considerar. Esto se
opone al caso en que sólo se dispone de una muestra, o sea una parte de una población.
En tal caso para llegar a emitir conclusiones sobre la población (o universo) es necesaria
una etapa previa, la Inferencia Estadística. En esta disciplina la distinción entre
población y muestra es fundamental; en el caso de la Estadística Descriptiva que es
nuestra objetivo, no hacemos tal distinción, y a menudo utilizamos la palabra lote para
aludir a un grupo de datos numéricos sin aclarar su naturaleza.

2. VARIABLES

La característica básica de los temas en que estamos interesados es su variabilidad. Si


todos los individuos tienen un mismo atributo, éste no es objeto de un estudio
estadístico. Si todos los alumnos son varones, con sus datos no se puede analizar el
efecto de las diferencias entre sexos sobre el rendimiento escolar. Tan importante es esta
idea de variabilidad que a veces se la utiliza como definición de la disciplina estadística.
Además designamos como variable a cada concepto disponible o medido.
7

En el ejemplo escolar, las variables son sexo, edad, calificaciones obtenidas, opiniones
y otras. En el ejemplo demográfico, las variables son sexo, edad, características
personales y las variables de diagnóstico y tratamiento médico. En el ejemplo de la
odontología tenemos el mismo tipo de variable y en adición, los resultados del
experimento con los tratamientos cotejados.

Las variables que se usan en estadística se clasifican en dos grandes grupos: las
variables cualitativas y las cuantitativas.

Son variables cualitativas las definidas por clases o categorías. Algunos ejemplos son:

Variables Dicotómicas. Un atributo está definido de manera precisa, tal que su


opuesto queda igualmente bien especificado. Esto aparece como simple, pero en
muchos casos no lo es. Definir un atributo con precisión puede resultar complejo. El
ejemplo corriente es el caso del sexo, pensando en varones y mujeres; pero en la
naturaleza (incluyendo a plantas y animales) existen casos bisexuales, asexuados, y
otros.

Clasificación Múltiple. El caso dicotómico generaliza en el de más de dos categorías.


Estas deben ser mutualmente excluyentes y completas, es decir que todo individuo
pertenece a una y sólo una de las categorías. Ejemplos son las carreras escolares, las
profesiones y ocupaciones, las categorías sociales, las preferencias políticas y otras. En
caso de ocurrencias múltiples (por ejemplo alumnos inscriptos en dos carreras) conviene
tener un criterio adicional para la unicidad.

Las variables cualitativas pueden ser nominales u ordinales.

Variables Nominales. Son las que tienen categorías (dos o más) que no reconocen un
orden. Ejemplos son las carreras escolares, las profesiones, las preferencias políticas o
religiosas, y otras.

Variables Ordinales. Son aquellas en que las categorías (dos o más) reconocen un
orden. Ejemplos son las clases sociales, categorías de ingreso, categorías de
calificaciones escolares, etc.

Son variables cuantitativas las que corresponden a recuentos o mediciones.

Recuentos. Los valores observados son 0 o enteros positivos. Ejemplos son los años
(enteros) de vida, la cantidad de habitaciones en una casa, la cantidad de empleados en
una empresa, la cantidad de hijos en una familia, y otros. Las variables que se originan
en recuentos se llaman discretas.

Mediciones. Los valores observados son, desde el punto de vista teórico, números
reales. En virtud de las limitaciones prácticas, se dispone de aproximaciones decimales.
Por ejemplo, en la estatura de las personas de un grupo, son concebibles todos los
números reales menores que, digamos, 3 metros. Sin embargo, las mediciones
realizadas sólo pueden lograrse con una precisión dada, por ejemplo de 1 milímetro. A
pesar de esta observación, para el análisis de los datos es conveniente mantener como
8

esquema conceptual, que son posibles todos los valores en un intervalo dado. Las
variables que se originan en mediciones se llaman continuas.

Las variables cuantitativas pueden ser de intervalo o de razón.

De Intervalo. Son aquellas en que se admiten comparaciones por diferencias, pero no


por cocientes. Tiene sentido decir que 30 grados de temperatura es 5 grados superior a
25, pero no que 30 es el doble de temperatura que 15 grados. Una manera de describir a
estas variables es que el valor cero de la escala es arbitrario: cero grados no significa
ausencia de temperatura.

De Razón. Son las que admiten comparaciones por diferencias y por cocientes
(siempre que el denominador no se anule): 1.000 pesos es 100 pesos mayor que 900, y
es el doble de 500.

Algunas observaciones son las siguientes.

Toda variable disponible en una escala refinada, puede expresarse en términos de otra
menos refinada. Por ejemplo, el ingreso monetario de una persona, que es una variable
cuantitativa de razón, puede expresarse o difundirse en categorías como variable
cualitativa (categórica) ordinal.

En el archivo de los datos (por ejemplo en una base de datos de la computadora) los
individuos generalmente están identificados con un código, por ejemplo un número de
orden. Este número tiene entonces la apariencia de una variable cualitativa ordinal o de
una variable cuantitativa discreta. Sin embargo sus valores son arbitrarios y no pueden
confundirse con las verdaderas variables del problema. A veces se ilustra esta idea con
los números que usan los jugadores de algunos deportes para ser identificados: la
identificación es válida pero (en general) no representa un atributo de interés.

Otro ejemplo lo constituyen los listados alfabéticos de personas o empresas: el


ordenamiento resultante es, también en general, irrelevante.

En forma esquemática, la clasificación de variables tiene el siguiente aspecto:

  Nominales
Cualitativas → 
 Ordinales
Variables → 
Cuantitativas →  De Intervalo
 
  De Razón
9

3. VARIABLES CUALITATIVAS

En esta sección presentaremos los elementos de la descripción estadística de las


variables discretas. Lo hacemos primero en forma de tablas y después de gráficos.

3.1 Presentación Tabular

Consideremos como primer ejemplo numérico la siguiente tabla:

Tabla 1
Sentencias Judiciales Condenatorias Dictadas en 1979

a) Clasificación por Jurisdicción

Justicia Cantidad de Sentencias


Ordinaria Nacional 3.498
Provincial 18.703
Federal 2.488
Militar 167
Total 24.856

b) Clasificación por Nivel de Instrucción del Condenado

Nivel de Instrucción Cantidad de Sentencias


Analfabeto 1.511
Escasa 1.658
Primaria 19.079
Secundaria 1.329
Universitaria 424
No se conoce 855
Total 24.856

Fuente. Anuario Estadístico, INDEC, 1979-1980.

Algunas observaciones son las siguientes:

1. La clasificación a) en cuatro categorías corresponde a una variable cualitativa


nominal. La clasificación b) en las primeras cinco categorías corresponde a una variable
cualitativa ordinal.

2. Con respecto a b), interesa saber si las categorías primaria, secundaria y universitaria
corresponden a programas o carreras completos o incompletos.

3. La categoría “no se conoce” es frecuente en los estudios estadísticos. En este caso


significa que en el origen de los datos no se registró el nivel de instrucción, o que la
información no pudo ser utilizada.

4. Las tablas tienen título y subtítulos claros y la información está completa.


10

5. El uso de líneas no es indispensable y algunas de ellas pueden omitirse sin pérdida en


la percepción.

6. Las cantidades de sentencias en cada categorías son las frecuencias correspondientes.


La palabra es adecuada pues cada cantidad marca cuan frecuente ha resultado la
categoría en el total de casos observados.

7. Este es un caso en que se dispone de toda la población: 24.856 es el total de


sentencias dictadas (y registradas).

Volviendo a la parte a) se observan diferencias entre las cantidades de las


jurisdicciones. Una manera de enfatizar este aspecto es reduciendo los datos a
porcentajes.

Tabla 2
Sentencias Judiciales Condenatorias Dictadas en 1979
Distribución Porcentual por Jurisdicción

Justicia Porcentaje
Ordinaria Nacional 14,07
Provincial 75,25
Federal 10,01
Militar 0,67
Total 100,00

Fuente. Tabla 1.

Los porcentajes se obtienen al dividir cada frecuencia en el total y multiplicar por 100:
14,07 = (3.498/24.856)100.

Comparando la Tabla 2 con la parte a) de la Tabla 1 se descubre la diferencia entre


ellas: la Tabla 1 contiene los valores observados, la Tabla 2 muestra las relaciones de
magnitud entre las frecuencias observadas.

De la Tabla 1 se obtiene la 2, pero no vale la recíproca. Una manera útil de tratar este
asunto constituye la Tabla 3.
Tabla 3
Sentencias Judiciales Condenatorias Dictadas en 1979
Distribución Porcentual por Jurisdicción

Justicia Porcentajes
Ordinaria Nacional 14,07
Provincial 75,25
Federal 10,01
Militar 0,67
Suma de Porcentajes 100,00
Total de Casos (24.856)

Fuente. Tabla 1.
11

El recurso tipográfico de poner a 24.856 entre paréntesis se debe a que está en la


columna de porcentajes y es el total de los casos disponibles.

El uso de 100 como base es arbitrario, si bien muy conocido y difundido. En términos
matemáticos a menudo se prefiere utilizar a 1 como base o total. La Tabla 4 tiene esta
información:

Tabla 4
Sentencias Judiciales Condenatorias Dictadas en 1979
Distribución Relativa por Jurisdicción

Justifica Frecuencias Relativas


Ordinaria Nacional 0,14
Provincial 0,75
Federal 0,10
Militar 0,01
Suma 1,00

Fuente. Tabla 3

En las tablas 2, 3 y 4 usamos redondeos. Una pregunta relevante es con cuántos


enteros y decimales se presenta la información. Una corriente de opinión basada en
experimentos, señala que en general sólo se perciben con claridad las relaciones entre
números con dos dígitos. Desde este punto de vista nuestras tablas 1, 2 y 3 tiene
cantidades excesivas de dígitos. Por ejemplo, las frecuencias de la Tabla 1 podrían
escribirse como 35, 187, 25 y 2, con un total (aproximado) de 249 cientos de sentencias.

Debe distinguirse entre la información archivada (por ejemplo en un computador) y la


presentada para su interpretación. Los valores de la Tabla 1 son los verdaderos y
deberán guardarse sin modificaciones. Al diseñar una tabla (o un gráfico) es importante
el grado de detalle que se dará a la información. Tablas con dos (o a lo sumo tres)
dígitos son suficientes para informar sobre el problema al público en general. Como
tales serán útiles para la información pública. Pero un investigador deberá recurrir a la
verdadera y completa información en la fuente, sin aproximaciones.

Tabla 5
Sentencias Judiciales Condenatorias Dictadas en 1960 y 1979
Clasificación por Nivel de Instrucción del Condenado
Nivel de Instrucción Cantidades de Sentencias Porcentajes
1960 1979 1960 1979
Analfabeto 1.696 1.511 13,8 6,1
Escasa 238 1.658 1,9 6,7
Primaria 8.009 19.079 65,3 76,8
Secundaria 184 1.329 1,5 5,3
Universitaria 24 424 0,2 1,7
No se conoce 2.127 855 17,3 3,4
Sumas 12.278 24.856 100,0 100,0
Fuente. Anuarios Estadísticos, INDEC.
12

Comparación Temporal. Un aspecto interesante de un tema bajo estudio, es la


comparación temporal. Consideremos la Tabla 5, en ella se presenta el nivel de
instrucción del condenado en sentencias dictadas en 1960 y 1979.

Algunas observaciones son:

1. El aumento de la cantidad de sentencias (duplicación) entre 1960 y 1979 se explica,


en parte, por el crecimiento de la población argentina, que de 20 millones en 1960 pasó
a 28 millones en 1980. También debe tenerse en cuenta el posible cambio en los
sistemas de registro, por ejemplo, una mejora en la captación de los datos.

2. La comparación entre los porcentajes muestra: a) Disminución de la importancia de la


categoría analfabetos; b) Aumento en las categorías primaria, secundaria y universitaria;
c) Gran disminución en la categoría no se conoce.

3. El ejemplo de la Tabla 5 muestra con claridad la contribución de los porcentajes a la


interpretación de los datos.

3.2 Variables Cualitativas. Presentación Gráfica.

Otra manera útil de apreciar en grandes rasgos las características de los datos
disponibles, es a través de los gráficos. Dos representaciones posibles de la Tabla 1,
parte a) forman el Gráfico 1.

Gráfico 1
Sentencias Condenatorias Dictadas en 1979
Clasificación por Jurisdicción
a) Gráfico de Barras Verticales
20000
Número de sentencias

18000
16000
14000
12000
10000
8000
6000
4000
2000
0
Ordinaria Provincial Federal Militar
Nacional
Jurisdicción

b) Gráfico de Barras Horizontales


Ordinaria Nacional
Jurisdicción

P rovinc ial

Federal

M ilitar

0 5000 10000 15000 20000


Núm e ro de se nte ncia s

Fuente. Tabla 1
13

El orden de las categorías utilizado hasta ahora en las tablas y en el Gráfico 1 es


arbitrario. Una manera interesante de construir el gráfico de una variable cualitativa o
categórica nominal, es ordenando las categorías según la magnitud de las frecuencias
correspondientes. De esa manera se construye el Gráfico 2.

Gráfico 2
Sentencias Condenatorias Dictadas en 1979
Clasificación por Jurisdicción

20000
18000
16000
Número de sentencias

14000
12000
10000
8000
6000
4000
2000
0
Provincial Ordinaria Nacional Federal Militar

Jurisdicción

Fuente. Tabla 1

Este tipo de argumento conduce a lo que se conoce como la forma de Pareto de


presentar la distribución, en homenaje a Wilfredo Pareto. Existen otras maneras de
presentar gráficamente la información. Un diagrama utilizado con frecuencia es el de un
disco dividido en sectores con superficies proporcionales a las frecuencias. En general,
las gráficas curvilíneas son mas difíciles de interpretar que las formadas por trazos
rectos. Tampoco son recomendables los gráficos que utilizan volúmenes. Volveremos
sobre el tema de las representaciones gráficas mas adelante.

Comparaciones. Los gráficos son útiles para facilitar las comparaciones.


Consideremos lo siguiente:
14

Gráfico 3
Sentencias Judiciales Condenatorias Dictadas en 1960 y 1979
Clasificación por Nivel de Instrucción del Condenado
Comparación de las Distribuciones Porcentuales

Año
1960 1979

No se conoce No se conoce

Universitaria Universitaria

Nivel de Instrucción
Nivel de Instrucción

Secundaria Secundaria

Primaria Primaria

Escasa Escasa

Analfabeto Analfabeto

80 60 40 20 0 20 40 60 80
% %

Fuente. Tabla 5.

4. VARIABLES CUANTITATIVAS

En esta sección se tratan los elementos de la descripción estadística de datos


correspondientes a variables cuantitativas. Se analizan las variables discretas producto
de recuentos y las continuas producto de mediciones. En cada caso se estudian primero
las tablas y después los gráficos simples.
Tabla 6
Clasificación de 20 Familias Según la Cantidad de Hijos que Tienen

(1) (2) (3) (4) (5) (6) (7)


Cantidad Cantidad de Frecuencias Frecuencias Frecuencias Frecuencias Frecuencias
de Familias Relativas Relativas Acumuladas Relativas Acumuladas
Hijos (Frecuencia) Porcentuales “Hasta” Acumuladas “Menos
(Variable) que”
0 4 0,2 20 4 0,2 0
1 8 0,4 40 12 0,6 4
2 4 0,2 20 16 0,8 12
3 2 0,1 10 18 0,9 16
4 2 0,1 10 20 1,0 18
Sumas 20 1,0 100 - - -
15

Presentación Tabular

Consideremos el ejemplo simple presentado en la Tabla 6.

1. Las columnas (1) y (2) contienen la información básica. La variable cantidad de hijos
es cuantitativa de razón y corresponde a recuentos, es decir que es una variable discreta.
Cero es un valor posible con significado claro, pues corresponde a familias que no
tienen hijos.

2. Las columnas (3) y (4) tienen las distribuciones relativas, expresadas con base 1 en
(3) y con base 100 en (4).

3. La columna (5) tiene una manera distinta de ver la información. El primer número, 4,
es la frecuencia de familias que tienen “hasta 0 hijos”, o dicho de otra manera, que
tienen una cantidad de hijos “menor que 0 o igual a él”. El segundo número es 12, y es
la frecuencia (acumulada) de familias que tienen “hasta 1 hijo” (es decir que tienen 0 ó
1 hijo), o que tienen una cantidad de hijos “menor que 1 o igual a él.”

4. Las frecuencias acumuladas “hasta” de la columna (5) se presentan en forma relativa


en la columna (6).

5. Una manera distinta de acumular está en la columna (7). El número 16 corresponde a


la frecuencia de familias que tienen “menos que 3 hijos”, es decir, que tienen 0 (4
familias), 1 (8 familias) ó 2 hijos (4 familias).

6. En un caso práctico está claro que no se presentan todas las variantes consideradas,
pues todas las cantidades provienen de las primeras dos columnas. Sin embargo es
importante haber introducido en este ejemplo el concepto de frecuencia acumulada y
dos formas de definirla.

4.2 Presentación Gráfica

Consideramos nuevamente las columnas (1) y (2) de la Tabla 7. Ellas contienen 5


pares de valores (0, 4), (1, 8), (2, 4), (3, 2) y (4, 2), que corresponden a los pares (valor
de la variable, frecuencia observada). Esto sugiere representarlos como en los gráficos
matemáticos de puntos bidimensionales. El resultados puede expresarse como en el
Gráfico 4:
16

Gráfico 4
Clasificación de 20 Familias Según
La Cantidad de Hijos que Tienen

frecuencia
5

0
0 1 2 3 4 5

Núm ero de hijos

Fuente. Tabla 6

En la práctica este gráfico resulta poco atractivo. La tradición estadística es utilizar


diagramas que se apartan de lo estrictamente matemático, para facilitar la lectura y la
comprensión. Dos formas posibles aparecen a continuación.

Gráfico 5
Clasificación de 20 Familias Según
La Cantidad de Hijos que Tienen

a) Gráfico de Puntos Conectados


9
8
7
frecuencia

6
5
4
3
2
1
0
0 1 2 3 4

Número de hijos
17

b) Gráfico de Barras Consecutivas


9
8
7
6

frecu en cia
5
4
3
2
1
0
0 1 2 3 4
Número de hijos

Fuente. Tabla 6.

Vemos que estos recursos no responden en forma estricta a la forma matemática. Las
líneas verticales no corresponden al concepto de función, pues para cada valor de la
variable hay muchos valores en el gráfico, y sólo la convención nos hace leer el mayor
valor de cada línea. Lo mismo ocurre con las barras consecutivas. A pesar de estas
observaciones, los diagramas como el Gráfico 5 son los más usados en la práctica y son
los que se consideran más útiles para facilitar la interpretación.

La parte b) del Gráfico 5 es similar a la parte a) del Gráfico 1, excepto que en este
último las barras (verticales) están separadas. Sin embargo la apariencia es sólo
superficial pues lo importante es distinguir entre la variable cualitativa nominal del
Gráfico 1 (que puede ordenarse de otra manera como en el Gráfico 2) y las barras
consecutivas del Gráfico 5, donde el orden es fundamental. Mas adelante (al tratar las
variables cuantitativas continuas) consideraremos otro uso para gráficos similares al de
barras consecutivas.

De la misma manera como analizamos la situación en los gráficos 4 y 5, podemos


considerar la representación gráfica de las frecuencias acumuladas. Analizaremos las
columnas (1) y (5) de la Tabla 6, es decir las clases “hasta tantos hijos” y sus
frecuencias acumuladas. La representación correspondiente a la del Gráfico 4 es la
siguiente:
Gráfico 6
Frecuencias Acumuladas “Hasta” de 20 Familias
Según la Cantidad de Hijos que Tienen
22
20
18
frecuencia acumulada

16
14
12
10
8
6
4
2
0
0 1 2 3 4 5
Número de hijos

Fuente. Tabla 6
18

Nuevamente observamos que el gráfico es poco ilustrativo. Tenemos dos maneras de


convertirlo en gráfico estadístico: una es uniendo los puntos con rectas y formar el
polígono de frecuencias acumuladas y otra es definir un esquema de saltos, al que
llamaremos la función de distribución empírica (entre 0 y N).

Gráfico 7
Frecuencias Acumuladas “Hasta” de 20 Familias
Según la Cantidad de Hijos que Tienen

a) Polígono de Frecuencias (Acumuladas)


25
Frecuencia acumulada

20

15

10

0
0 0,5 1 1,5 2 2,5 3 3,5 4 4,5
Número de hijos

b) Función de Distribución Empírica

25

20
frecuencia acumulada

15

10

0
0 1 2 3 4 5

Número de hijos

Fuente. Gráfico 6.

La parte a) no requiere mayores comentarios: los 5 puntos (pares) del Gráfico 1 están
unidos por rectas para dar una idea visual. Mas interesante es el esquema de b). Los
puntos remarcados son los mismos del Gráfico 6. Resta analizar las rectas (horizontales)
trazadas. En un valor observado, por ejemplo 3 hijos, se lee 18, que es la cantidad de
familias que tienen “hasta 3 hijos”, o sea, tiene 0, 1, 2 ó 3 hijos. ¿Qué pasa en los otros
valores? Tomemos por ejemplo a 3,5: la lectura es “la cantidad de familias que tienen
hasta 3,5 hijos es 18”. La frase es extraña pero cierta. Otros ejemplos: para –1, “la
cantidad de familias que tienen hasta –1 hijo es 0”; 7, “la cantidad de familias que
tienen hasta 7 hijos es 20”. Todas son aseveraciones ciertas! El esquema de saltos es por
lo tanto un gráfico que es matemáticamente correcto, está bien definido para todos los
números (los observados y otros no observados y no observables), y tiene una forma útil
para facilitar la interpretación de los datos.
19

4.3 Variables Cuantitativas Continuas

En la Sección 2 consideramos brevemente a las variables que provienen de


mediciones. Ejemplos abundan: tenemos las medidas antropométricas (estatura, peso,
longitud de los brazos, etc.), los precios y costos en dinero, las medidas de tiempos y de
velocidades y muchos otros. Ya dijimos que en estos casos los datos disponibles vienen
con las precisiones propias de los instrumentos de medición utilizados, pero en teoría
consideramos como factibles a todos los números (reales) de un cierto intervalo, y a
veces a todos los números reales. Un ejemplo típico de variable cuantitativa continua es
el tiempo: todos los valores en un intervalo pueden considerarse como valores factibles
de esta variable.

Los registros de estos datos no plantean nuevos problemas: existen identificadores y


valores observados de la variable. Las dificultades se plantean al considerar a las tablas
y gráficos posibles.

La Tabla 6 es típica de las variables discretas. Pero una tabla similar no es apropiada
(en general) para las variables continuas. En efecto, es posible que si la escala de
medición es suficientemente precisa, haya pocas o ninguna coincidencia entre los
valores observados. Para construir una tabla es preciso recurrir a un proceso previo, que
es la definición de categorías a las que llamaremos clases. Las clases se definen al
subdividir el conjunto de valores observados en una cantidad (a la que designaremos por
k) de grupos; estos grupos son contiguos, mutuamente excluyentes y completos, es decir
que cubren a todos los valores observados. Un ejemplo es el siguiente:

Tabla 7
Clasificación de 70 Números en 6 Clases

Clases Frecuencias
Observadas
93 a menos de 97 8
97 a menos de 101 40
101 a menos de 105 12
105 a menos de 109 3
109 a menos de 113 5
113 a menos de 117 2
Total 70

Fuente. Datos generados con la computadora.

Llamamos al contenido de la Tabla 7 una distribución de frecuencias , en el sentido de


que el total de casos disponibles (70) se distribuye entre k=6 intervalos contiguos de
igual longitud (4 unidades). Obsérvese que se definieron las clases de manera
inequívoca: cada medición puede estar en una y sólo en una de las clases. Otra
posibilidad igualmente satisfactoria es definir las clases de manera que la primera sea
“de mas de 93 a 97” y así sucesivamente: en este caso 93 está excluido, mientras que en
el caso de la Tabla 7 es 117 el que está excluido.
20

En esta aproximación se introdujo un elemento adicional, la cantidad de clases, a la


que designamos por k. Su elección tiene importancia pues la forma de la distribución de
frecuencias cambia (o puede cambiar) según la cantidad de clases que se utilice. Una
regla práctica de naturaleza empírica es definir a k mediante la relación 2k-1 ≈ N, donde
N es la cantidad total de datos. Para datos que no tengan estructura demasiado compleja,
esta aproximación da buenos resultados.

Asociado con la distribución de frecuencias es tradición utilizar como representación


gráfica un histograma, que es un gráfico de barras verticales consecutivas, similar al del
Gráfico 5 b). En nuestro caso tenemos lo siguiente:

Gráfico 8
Histograma de la Tabla 7
45

40

35

30

25

20

15

10

0
93 a menos 97 a menos 101 a menos 105 a menos 109 a menos 114 a menos
de 97 de 101 de 105 de 109 de 114 de 117

Este gráfico se presta para convertirse en un gráfico acumulado, similar al Gráfico 7


b):

Gráfico 9
Gráfico de Frecuencias Acumuladas de la Tabla 7
80

70
frecuencia acumulada

60

50

40

30

20

10

0
89 93 97 101 105 109 113 117

Número de hijos

Vemos que el trazo es similar al del Gráfico 7 b), pero mientras aquel es exacto, el
presente incluye la aproximación consistente en usar clases.

La idea de acumulación de ocurrencias permite considerar un gráfico de los datos de


un lote de valores de una variable cuantitativa continua, sin usar intervalos de clase. Si
21

N es la cantidad de datos y no hay repeticiones entre los valores observados, el gráfico


tiene un salto de tamaño 1/N en cada valor observado. El nombre técnico de este
gráfico, como dijimos antes, es función de distribución (acumulada) empírica u
observada. Si hay repeticiones, el salto es 1/N por la cantidad de valores repetidos.

4.4 ANALISIS EXPLORATORIO DE DATOS

Los temas tratados hasta ahora sirvieron para ilustrar algunas técnicas básicas de la
estadística descriptiva y para introducir algunos conceptos y definiciones. En esta
sección iniciamos la presentación de un conjunto de técnicas que se difundieron en
forma sistemática en la década de 1970, y alcanzaron rápida aceptación entre los
usuarios de la estadística. Al conjunto de técnicas se lo identifica como el Análisis
Exploratorio de Datos (Tukey, 1977).

Partimos de un ejemplo simple. Los siguientes son 20 números con valores entre 0 y
100, valores de una variable continua, redondeados a décimos:

1,0 13,9 93,8 40,6 54,8 62,0 39,5 28,3 51,3 96,4
38,4 79,8 6,3 93,9 82,5 46,8 20,7 73,3 26,3 93,7

Llamamos a esto un lote de datos en el sentido de que no aclaramos si se trata de una


población o de una muestra (Ver Sección 1). El lote se vuelve más sugerente si
ordenamos los valores, por ejemplo de menor a mayor:

1,0 6,3 13,9 20,7 26,3 28,3 38,4 39,5 40,6 46,8
51,3 54,8 62,0 73,3 79,8 82,5 93,7 93,8 93,9 96,4

El próximo paso posible es omitir la fracción decimal, truncando el número; el


argumento es que para apreciar la estructura de los datos es suficiente la distinción que
se produce entre los enteros, omitiendo las fracciones decimales. El resultado es el
siguiente:

1 6 13 20 26 28 38 39 40 46
51 54 62 73 79 82 93 93 93 96

Otra posibilidad es redondear,

1 6 14 21 26 28 38 39 41 47
51 55 62 73 80 82 94 94 94 96

A menudo se recomienda (con fines descriptivos) truncar y no redondear: los números


truncados conservan la verdadera parte del número originario.

Se propone representar gráficamente a cualquiera de estos dos últimos lotes, por


ejemplo el de valores truncados, como sigue:
22

0 1 6
1 3
2 0 6 8
3 8 9
4 0 6
5 1 4
6 2
7 3 9
8 2
9 3 3 3 6

La técnica es la siguiente: el número 13,9 se convierte al truncar sin decimales en 13.


A éste lo pensamos como 13 = 10 + 3, una decena y tres unidades. En el gráfico
colocamos al 3 junto con los números que tienen una decena, o sea 10, 11, ..., 19.
Llamamos tallo al 10 y hoja al 3. Esquemáticamente

13,9 → 13 → 10 (tallo) 3 (hoja)

El gráfico resultante se llama por lo tanto diagrama de tallo y hojas (“stem-and-leaf” en


inglés).

El diagrama se asemeja a un histograma, formado por lo propios números del lote.


Permite apreciar visualmente sus principales características, como veremos mas
adelante.

Algunas observaciones son:

1. El número de tallo a utilizar puede aproximarse con la relación 2k-1≈N, donde N es la


cantidad de datos y k el número de tallos. Esta es la misma aproximación sugerida para
la cantidad de clases en la clasificación de una variable cuantitativa continua.

2. Si hay muchas observaciones (N grande), los tallos pueden subdividirse, utilizando


que 10 tiene factores primos 2 y 5. Subdividiendo en 2 escribimos, por ejemplo,

6. 0 1 2 3 4
* 5 6 7 8 9

y subdividiendo en 5

6.  0 1
t 2 3
f 4 5
s6 7
*8 9
23

Las letras elegidas en este último caso provienen: t de two, three, f de four, five y s de
six, seven. Los otros identificadores son un punto y un asterisco. La barra que separa los
tallos de las hojas debe ser de trazo continuo.

3. El diagrama se presta para comparar lotes. Por ejemplo, para dos lotes, tenemos:

(tallos)
2  0 1 3
6 5 1  1 2 5 5 7
7 2 2  2 3 4
4 3  3 9
5  4 9

Volviendo al diagrama de tallo y hojas para los N=20 datos, agregamos una
información para uso futuro. Consiste en incorporar frecuencias acumuladas de la
siguiente manera: como (N+1)/2 = 10,5, calculamos lo siguiente:
2 0 1 6
3 1 3
6 2 0 6 8
8 3 8 9
10 4 0 6
10 5 1 4
8 6 2
7 7 3 9
5 8 2
4 9 3 3 3 6

La nueva columna tiene las frecuencias acumuladas como sigue:

Clase Frecuencia Acumulada


Menor que 10 2
Menor que 20 3
Menos que 30 6
Menor que 40 8
Menor que 50 10
24

Clase Frecuencia
Acumulada
Mayor que o igual a 90 4
Mayor que o igual a 80 6
Mayor que o igual a 70 7
Mayor que o igual a 60 8
Mayor que o igual a 50 10

Computadas de esta manera, las frecuencias acumuladas se designan profundidades


pues marcan cuántos elementos deben contarse desde el extremo más próximo para
encontrar el valor de la variable. Por ejemplo, 38 y 39 tienen profundidad 8 pues desde
el extremo superior deben contarse 1, 6, 13, 20, 26 y 28 para llegar a ellos; 82 tiene
profundidad 5 pues desde el extremo inferior deben contarse 93, 93, 93 y 96 para llegar
a él.

Con estos elementos, el formato completo es el siguiente:

Diagrama de Tallos y Hojas de 20 Números


N=20. Unidades Truncadas

Profundidades Tallos Hojas


2 0  1 6
3 1  3
6 2  0 6 8
8 3  8 9
10 4  0 6
10 5  1 4
8 6  2
7 7  3 9
5 8  2
4 9  3 3 3 6

5. NOTACION

Para avanzar en el tratamiento descriptivo de un lote de datos, es conveniente


introducir una notación general.

Variables Cualitativas

Consideremos una variable cualitativa con categorías identificadas como A1, A2,...,
Ak. Por ejemplo, en la Tabla 1, parte a), k=4 y en la parte b) k=6. Designemos a las
frecuencias correspondientes como f1 ,f2 ,..., fk , de manera que se cumple que
f1+f2+...+fk = N, el total de datos en el lote. Entonces un formato general para la tabla es
el siguiente:
25

Número de Orden Categorías Frecuencias Porcentajes


1 A1 f1 100f1/N
2 A2 f2 100f2/N
. . . .
. . . .
. . . .
k Ak fk 100fk/N
Total - N 100

En la última columna incorporamos los porcentajes que no son imprescindibles, pero si


muy útiles.

El uso de subíndices es muy frecuente en la estadística. Una alternativa mucho menos


frecuente, es utilizar la notación matemática; en ese caso, las categorías se denotan con
A(1), A(2), ..., A(k) y las frecuencias con f(1), f(2), ..., f(k). Sin embargo utilizaremos
consistentemente la notación con subíndices.

Variables Cuantitativas Discretas

Para las variables cuantitativas utilizamos las letras finales del alfabeto, X, Y, Z, etc.,
(ó x, y, z) para identificar a las variables. Sea por ejemplo la variable de la Tabla 6
identificada como X = cantidad de hijos por familia. Entonces un formato posible es el
siguiente:

Número de Valores de la Frecuencias Frecuencias Frecuencias Relativas


Orden Variable Relativas Porcentuales
1 X1 f1 f1/N 100f1/N
2 X2 f2 f2/N 100f2/N
. . . . .
. . . . .
. . . . .
k Xk fk fk/N 100fk/N
- - N 1 100

La información en esta tabla se puede presentar gráficamente como en la Sección 4.2

Si k es grande, se pueden definir clases, agrupando valores contiguos de la variable;


este tipo de técnica será descripto en la subsección siguiente.

Variables Cuantitativas Continuas

Para este tipo de variable ya dijimos que en general es preciso agrupar a los valores
contiguos en clases, que pueden tener intervalos comunes o distintos. Consideremos el
caso en que los valores de la variable están distribuidos en k clases de longitud h, de
manera que si X1, X2,...,Xk son ahora los puntos medios de las clases , la tabla general
tiene la siguiente forma (entre otras posibles):
26

Número Clase Punto Medio Frecuencia


de Orden de la Clase
1 De X1-h/2 a menos de X1 f1
2 X1+h/2 X2 f2
. De X2-h/2 a menos de . .
. X2+h/2 . .
. . . .
k . Xk fk
.
De Xk-h/2 a menos de
Xk+h/2
- Total - N

Nótese que, por ejemplo, X1+h/2 =X2 –h/2, etc., pues las clases son contiguas.

Con estas frecuencias podemos calculas las frecuencias relativas (f /N, por ejemplo) y
las frecuencias relativas porcentuales (100f1/N, por ejemplo). También podemos utilizar
frecuencias acumuladas, como sigue:

Número Clase Frecuencias Acumuladas


de
Orden
1 Menos de X1+h/2 f1
2 Menos de X2+h/2 f1+f2
. . .
. . .
. . .
k Menos de Xk+h/2 f1+f2+…+fk = N

Las frecuencias pueden representarse gráficamente en un histograma y las frecuencias


acumuladas en un diagrama similar a los de los gráficos 7 b) y 9.

Notación para las Sumas

La operación aritmética mas frecuente a que se someten los datos observados es la


suma. Conviene introducir el uso de un símbolo que abrevie la escritura y facilite la
comprensión. La letra Σ (sigma) es la S mayúscula del alfabeto griego y significa suma,
lo llamamos el signo de suma o de sumar.

Consideremos datos (números) identificados como x1 , x2 ,..., xn ; usamos letras


minúsculas para enfatizar que estos son números. Reservamos las mayúsculas para los
usos que vimos en las secciones anteriores: como nombres de las variables, valores
observados en las distribuciones de variables discretas o puntos medios de las clases de
las distribuciones de variables continuas.
27

Definimos
n
x + x + ... + x = ∑ x ;
1 2 n i =1 i

en la expresión de la izquierda la elipsis (omisión, puntos suspensivos) está usada para


indicar que entre 1 y n pueden existir otros elementos: en realidad, n puede valer desde
1 hasta cantidades grandes (pero finitas). En la expresión de la izquierda leemos “la
suma de los valores de x desde x1 hasta xn , en forma consecutiva, sin omisiones
intermedias”.

Algunas de las principales propiedades de esta operación abreviada son las propias de
la suma de números (reales).

n
1. ∑ a = na donde a es una constante.
i =1

n n n
2. ∑ ( x + y ) = ∑ x + ∑ y , donde y1, y2,...,yn es otro conjunto de números.
i =1 i i i =1 i i =1 i

n n
3. ∑ ( cx + a ) = c ∑ x + na , donde a y c son constantes.
i =1 i i =1 i

Omitiremos las demostraciones, pues ellas consisten en aplicaciones simples de las


propiedades de la suma de números.

Es importante advertir que el subíndice i utilizado en estas definiciones y propiedades,


es arbitrario. En efecto,
n n n
4. ∑ x = ∑ x = ∑ x = ...
i =1 i j =1 j s =1 s

pues todas corresponden a la misma suma. Otros resultados que encontraremos útiles
mas adelante son:

n 2
5 ∑ x = 0 si y sólo si x = x = ... = x = 0.
i =1 i 1 2 n

n
6. ∑ x = 0 si y sólo si x = x = ... = x = 0.
i =1 i 1 2 n

El significado de las propiedades 5 y 6 es que la suma de los cuadrados o los valores


absolutos de los números sólo puede ser igual a 0 si todos los valores lo son; esto se
debe a que en estas sumas no hay compensaciones, pues todos los valores son positivos
o iguales a 0.

n n 1 n 2 1
7. ∑ 1 = n , ∑ i = n ( n + 1), ∑ i = n ( n + 1)( 2 n + 1).
i =1 i =1 i =1
2 6
28

SEGUNDA PARTE –Medidas de Resumen

6. Introducción

Como resumen del contenido de la Primera Parte tenemos el concepto de una variable
y su distribución de frecuencias. Cuando decimos, por ejemplo, que X es la cantidad de
hijos en una familia (Tabla 6), pensamos en un conjunto de valores posibles (0, 1, 2,
...,k), y sus correspondientes frecuencias (f1, f2,...,fk). Algo similar ocurre con las
variables cualitativas nominales u ordinales y con las variables cuantitativas continuas.
Es decir que se trata de una información compleja, que analizamos a través de tablas y
gráficos en la forma en que vimos a través de ejemplos simplificados.

Resulta importante tratar de resumir la información de una distribución de


frecuencias. Buscamos que en vez de considerar en cada caso toda la tabla,
dispongamos de un número, o unos pocos números, que extraigan la mayor cantidad de
información contenida en la tabla completa o en el gráfico completo. Para lograr este
objetivo introducimos los conceptos de medidas de posición, de variabilidad, de
simetría y otras.

7. Medidas de Posición

Una medida de posición de una variable permite identificar la tendencia central de la


distribución de frecuencias. Debemos definir el criterio con el que se define la tendencia
central.

Modo

Un criterio es definir como posición de la variable (o de su distribución) donde ocurre


la mayor concentración de datos. En el caso de una variable cualitativa o categórica, el
modo (o categoría modal) es la categoría con mayor frecuencia, si existe. Esta salvedad
es necesaria pues es posible que todas las frecuencias sean iguales, en cuyo caso la
identificación del modo es arbitraria.

En una distribución unimodal existe una sola categoría con la frecuencia máxima,
pero las distribuciones pueden ser bimodales, o, en general, multi-modales. Para las
variables categóricas nominales el orden de las categorías es irrelevante (ver los gráficos
1 y 2); en cambio en las ordinales deberá respetarse el orden de la variable.

Las observaciones precedentes se aplican también a las variables cuantitativas


discretas. En cambio debemos tener mas cuidado con las variables cuantitativas
continuas. En efecto, si hay pocas o ninguna repetición de los valores, el modo no está
bien definido con los datos aislados. Es necesario considerar el modelo de la
distribución de frecuencias con intervalo de clase. En este caso podemos utilizar algunas
de las siguientes opciones: (1) Declarar como clase modal a la que tiene la mayor
frecuencia, con las salvedades ya enunciadas; (2) Declarar como modo el punto medio
de la clase modal; (3) Encontrar un valor interpolado dentro de la clase modal; su
expresión es
29

f − f
s s −1
M = X −h/2+h ,
o s
2f − f − f
s s−1 s+1

donde la clase modal tiene intervalo de longitud h, Xs es el punto medio de la clase


modal, fs su frecuencia, etc. (Croxton y Cowden, 1948).

Observamos lo siguiente: (1) En este último caso de agrupamiento en clases, la


ubicación del modo en cualquiera de las opciones para su cómputo, depende de la
elección de la longitud del intervalo; (2) En todos los casos hemos pensado en intervalos
de clase iguales para todo el recorrido de los datos; sin embargo en algunos casos es
recomendable utilizar intervalos de longitud variable; un ejemplo lo proporcionan las
edades, en que se distinguen a los niños por meses, a los adultos por años o por grupos
quinquenales, etc. Cuando se usan intervalos de longitud variable, conviene pensar en
frecuencias por unidad de intervalo: de esta manera se hace homogéneo el tratamiento
de la distribución de frecuencias.

Mediana

Otro criterio para medir la posición de una variable o de su distribución cuando se


trata de variables cuantitativas, es considerando los valores que separan porciones de la
cantidad total de datos.

La mediana es, intuitivamente, el valor de la variable que separa a los datos en dos
partes. Esta idea intuitiva debe refinarse. Una definición operativa es la siguiente.

Mediana de un lote de datos de una variable cuantitativa. Sean X1, X2 ,...,XN los
valores observados de la variable y
Supongamos que están ordenados de menor a mayor X ≤ X ≤ ... ≤ X . Si N es
1 2 N
impar, la mediana es el valor Xs para r=(N+1)/2; si N es par, la mediana Me =(Xs +Xt)/2
para s=(N/2)-1, t=(N/2)+1.

Ejemplos. (1) Sean los valores observados 59, 54, 55, 57 y 52. Los valores ordenados
son 52, 54, 55, 57 y 59 y por lo tanto Me =55. La mediana define dos grupos, el de
valores menores que 55 o iguales a él (52, 54 y 55) y el de valores iguales a 55 o
mayores que él (55, 57 y 59).

(2) Si los valores observados (ordenados) son 52, 54, 55, 57, 59 y 60, la mediana es
56 y los grupos que se forman son (52, 54 y 55), (57, 59 y 60).

(3) Si los valores observados (ordenados) son 52, 54, 54 y 57, la mediana es 54 y los
grupos son (52 y 54), (54 y 57).

Se deduce que la suma de las cantidades de datos en los dos grupos definidos por la
mediana puede ser igual o mayor que el total de datos y que por lo tanto es incorrecto
30

definir a la mediana por la propiedad de formar dos grupos con la mitad de los datos
disponibles.

Tampoco se puede definir a la mediana por la propiedad de separar a los datos en dos
grupos de igual tamaño. En efecto, cuando existen datos repetidos (como en el ejemplo
(3)), es fácil construir ejemplos en que los grupos definidos por la mediana tienen
cantidades diferentes de datos.

Cuando la cantidad de datos es impar la mediana queda unívocamente determinada.


En cambio cuando la cantidad de datos es par recurrimos al arbitrio de definir a la
mediana como el promedio de los dos datos centrales. En realidad, cualquier valor
comprendido entre estos datos puede servir de mediana, pues define los mismos grupos
de datos.

En las variables cualitativas ordinales se puede extender el concepto de mediana al de


categoría mediana, entendiendo por tal la categoría (si existe) donde se alcanza la mitad
de los datos disponibles.

En las variables cuantitativas continuas la mediana se calcula según la definición


dada. Una aproximación consiste en interpolar en el histograma. La fórmula de
interpolación (lineal), similar a la del modo es

N r −1
− ∑ f
h i =1 i
2
Me = Xr − +h ,
2 f
r

donde Xr es el punto medio de la clase que contiene a la mediana, h es el ancho del


intervalo, N la cantidad total de datos y la suma es la frecuencia acumulada hasta antes
de la clase que contiene a la mediana.

El diagrama de tallo y hojas se presta muy bien para determinar la ubicación de la


mediana, utilizando las profundidades (frecuencias acumuladas) que se definieron
oportunamente.

Percentiles

La mediana es uno de los valores que pueden calcularse partiendo del criterio de que
la posición de una variable (o de su distribución) la miden los valores que separan
porciones de la cantidad total de datos. Los percentiles dividen al total de datos según lo
que se especifica. Por ejemplo, en sentido intuitivo, el percentil del l0% es precedido
por el 90% de los datos y seguido del 10%; esto requiere ser precisado operativamente.

Dos medidas muy utilizadas son las cuartilas. Podemos derivar una definición
operativa considerando valores de N (cantidad total de datos) de la forma N = 3k+s,
donde s=0, 1, 2 ó 3.
31

Una simplificación importante fue introducida en el análisis exploratorio de datos.


Para distinguir de las cuartilas, llamaremos a éstos cuartos. La definición operativa de la
mediana y los cuartos es la siguiente:

Mediana y Cuartos. Dada una serie ordenada de N números, la mediana se encuentra


en la profundidad (N+1)/2; el primer cuarto se encuentra en la profundidad

 N + 1 + 1
 2 
2
y el tercer cuarto se determina por simetría con el primero. Los corchetes indican “parte
entera”, es decir, si N es par, (N+1)/2 es un entero mas ½ y su parte entera es el entero;
si N es impar, (N+1)/2 es un entero.

Media Aritmética

Existen otros criterios para definir la posición de una variable, que implican realizar
operaciones con los números y que, por lo tanto, están limitadas a variable cuantitativas.
Las mas importantes son las medias (o promedios) aritmética, geométrica y armónica.

Media Aritmética. La media aritmética de un lote de datos de una variable


cuantitativa es la suma de los datos dividida en la cantidad de ellos. Es decir, si
designamos a la media aritmética de X1, X2 ,..., XN como X tenemos que

1 N
X = ∑ X .
i =1 i
N

Algunas observaciones son las siguientes:

1.La operación que define a la media aritmética es la suma de los datos. Por lo tanto no
tiene relevancia si están ordenados o no lo están. Puede interpretarse que la media
aritmética es una suma estandarizada, pues se divide el total en la cantidad de datos.
Nótese que si hay valores positivos y negativos entre los datos, se producen
compensaciones; en particular, la media aritmética puede ser 0 sin que todos los datos lo
sean.

N
2.Podemos escribir que la media aritmética es X = ∑i =1 X / N , o sea que cada dato
i
influye en la media aritmética con la misma ponderación 1/N. Decimos entonces que la
media aritmética es un tanto por unidad. Por ejemplo, si los datos fueran los pesos de
estudiantes, la media aritmética es el promedio de peso por estudiante

3. Un caso mas general es considerar una media aritmética general o ponderada,


32

N N
X = ∑w X , donde ∑ w = 1.
P i =1 i i i =1 i

4.La media aritmética tiene las propiedades que provienen de las que mostramos para la
operación de suma. Por ejemplo, si se transforma a los datos definiendo Y = aX+b,
donde a y b son constantes, la media aritmética registra el mismo cambio.

5.Una propiedad importante de la media aritmética es que la suma de las diferencias


entre los datos y la media aritmética es igual a 0:

N
∑ ( X − X ) = 0.
i =1 i

6.Menos evidente es que la suma de los cuadrados de las diferencias entre los datos y la
media aritmética es el mínimo valor que puede obtenerse de esta suma. Demostramos
esta propiedad como sigue: Sea a una constante a determinar,

N
i =1 i
2 N
[
∑ ( X − a) = ∑ ( X − X ) + ( X − a)
i =1 i
2
]
N
[
i =1 i
2 2 N
= ∑ ( X − X ) + N ( X − a ) + 2( X − a ) ∑ ( X − X )
i =1 i
]
N 2
≥ ∑ (X − X ) .
i =1 i

En la primera igualdad sumamos y restamos la media aritmética; en la segunda


elevamos al cuadrado lo que produce tres términos, de los cuales el tercero es nulo por
la propiedad 5; finalmente la desigualdad proviene de que el segundo sumando es
positivo o nulo. La conclusión es que de todas las sumas que pueden obtenerse
haciendo variar la constante a, la de menor valor ocurre cuando se elige como constante
a la media aritmética de los datos.

7.En el punto 6 se trata de encontrar un valor (de a) que haga mínima la suma de
cuadrados de las diferencias. La expresión
2
∑iN=1 ( X − a ) es una función de a que es diferenciable y por lo tanto podemos
i
encontrar el valor que la hace mínima usando derivadas.

8.Para comparar lo expresado en los puntos 6 y 7 consideremos el siguiente problema:


N
Encontrar la constante c que haga mínima la expresión ∑i =1 X − c , o sea, que haga
i
mínima la suma de las diferencias en valor absoluto entre los datos y la constante. Para
demostrarlo, tratamos primero un lote de N datos con N par: X1 ,X2 ,...,XN que tomamos
como ordenados de menor a mayor. Consideramos los pares (X1, XN), (X2 ,XN-
1),...,(XN/2, X(N/2)+1). Para el primer par, busquemos un valor que haga mínima la suma
33

de las distancias (en valor absoluto) de él a los dos datos: el valor puede ser menor que
X1, estar entre X1 y XN o ser mayor que XN; el valor deseado debe estar entre los dos
datos, pues entonces la suma de las distancias es XN-X1 que es el mínimo posible.
Introduzcamos ahora el segundo par; el valor buscado no puede ser inferior a X1 ni
superior a XN pues estos valores fueron descartados al considerar el primer par; por lo
tanto hay tres posibilidades: que esté entre X1 y X2 , entre X2 y XN-1 o entre XN-1 y XN:
razonando como en el caso anterior, concluimos que la segunda opción es adecuada y
que la contribución a la suma de distancias es XN-1-X2 . Siguiendo de esta manera,
llegamos a que el valor buscado está entre XN/2 y X(N/2)+1 y que la suma de las distancias
es (XN-X1)+(XN-1-X2)+...+(XN/2-X(N/2)+1). Notamos que la solución no es única, a menos
que los dos valores centrales sean iguales; de allí la convención de definir como
mediana en este caso, el promedio de los dos valores centrales. El mismo argumento
vale para el caso de N impar, excepto que allí se encuentra como valor único a X(N+1)/2.

9.Relaciones entre media aritmética, mediana y modo. Si la distribución de frecuencias


es simétrica la media aritmética y la mediana coinciden. La relación con el modo es mas
complicada, pues la distribución puede ser, por ejemplo, simétrica pero bimodal, en
forma de U. Analizaremos nuevamente entre tema mas adelante.

10. Media aritmética aproximada. Si no se dispone de los datos sino de una distribución
de frecuencias con intervalo de clase (histograma), puede calcularse una media
aritmética aproximada utilizando los puntos medios de las clases. Tenemos

1 k
X = ∑ X f
APRX i =1 i i
N

donde los Xi son los puntos medios de las clases y las fi son las frecuencias.

Media Geométrica

Mientras la media aritmética se define utilizando la suma de los datos, la media


geométrica se define utilizando el producto. Para datos positivos la definición es la
siguiente:

G = N X X ... X .
1 2 N

Tomando logaritmos obtenemos lo siguiente:

1 N
log G = ∑ log X ,
i =1 i
N

o sea que el logaritmo de la media geométrica es la media aritmética de los logaritmos


de los valores de la variable.
34

La media geométrica es adecuada para utilizar cuando lo datos son razones, o sea
cocientes entre dos cantidades. Este es el caso de las tasas económicas o financieras. En
efecto, si Xi = Yi+1/Yi , tenemos

Y Y Y Y
2 3 N N
X X ... X = ... = ,
1 2 N
Y Y Y Y
1 2 N −1 1

o sea que el producto de las tasas reproduce el cociente entre el último y el primero de
los datos.

Para valores positivos de las variables se cumple que la media aritmética es mayor o
igual a la media geométrica, y que la igualdad ocurre si y sólo si todos los valores de la
variable son iguales.

Media Armónica

Cuando se necesita promedias magnitudes que tienen efectos inversos, los dos
promedios considerados son inadecuados. El caso típico es el de promediar los tiempos
recorridos con relación a las velocidades empleadas, pues claramente allí la relación es
inversa: a mayor velocidad menor tiempo empleado. La media armónica de un lote de
datos positivos (no pueden ser 0) es

1
H =
1 N 1

i =1
N X
i

o sea el recíproco de la media aritmética de los valores recíprocos de la variable.

Para valores positivos de la variable se cumple que la media armónica es menor o


igual a la media geométrica, y que la igualdad ocurre si y sólo si todos los valores de la
variable son iguales.

8. Análisis Exploratorio de Datos: Posición, Variabilidad y Asimetría

En la Sección 4.4 vimos como se define el diagrama de tallo y hojas y en la Sección


7.2 mencionamos que la mediana se presta para ser identificada en él. El ejemplo
numérico de la Sección 4.4 considera 20 números entre 1 y 96.
35

Posición. Tenemos que

 N + 1 + 1
N +1  2 
= 21 / 2 = 10 , 5 y = (10 + 1) / 2 = 5 , 5
2 2

de manera que la mediana tiene profundidad 10,5 y los cuartos profundidades 5,5. Con
ello se tiene que el primer cuarto C1=(26+28)/2=27, la mediana Me =(46+51)/2, y el
tercer cuarto C3 =(79+82)/2=80,5. Agregando el valor mínimo (min=1), y el valor
máximo (max=96), la información puede resumirse como sigue:

Tabla de Resumen de Cinco Números


(N=20) Unidades Truncadas

Profundidades Valores Promedios


Diferencia

10,5 48,5 48,5


53,5 5,5 27 80,5 53,75
95 1 1 96 48,50

Fuente. Diagrama de Tallo y Hojas, Sección 4.4

Los cinco números aludidos en el título de la tabla son la mediana, los cuartos, el
mínimo y el máximo de los datos. Estos tienen, respectivamente, profundidades 10,5,
5,5, 5,5, 1 y 1.

En la columna “promedios” aparecen la mediana, el promedio de los cuartos,


(C1+C3)/2, y el promedio (min+max)/2. Tenemos por lo tanto 6 medidas de posición: la
mediana, los cuartos, el min, el max, el promedio de los cuartos y el promedio del
mínimo y el máximo. Observamos que los tres valores en la columna de promedios son
próximos, lo que indica que la distribución es poco complicada.

Nota. La media aritmética de los datos truncados es 1033/20=51,65, un valor próximo


a los promedios calculados en la tabla.

Variabilidad. Las diferencias C3-C1=53,5 y max-min=95 pueden utilizarse para medir


la variabilidad de los datos. En efecto, sabemos que entre los cuartos se encuentra,
aproximadamente, el 50% de los datos, y desde el min hasta el max el 100%
(exactamente). Por lo tanto estos valores son comparables con los de otras
distribuciones semejantes, al estar unificados los porcentajes cubiertos. Decimos
entonces que max-min es la oscilación o recorrido de la variable, que C3-C1 es el
recorrido inter-cuartosy también usamos a (C3-C1)/2 el semi-recorrido inter-cuartos.
La oscilación debe ser interpretada con cuidado, pues está basada en los valores
36

extremos observados. Ellos podrían estar alejados del resto de los valores, como
veremos mas adelante.
Asimetría. Si la distribución de los datos es simétrica con respecto al valor central, los
promedios calculados coinciden. Se propone considerar a (C1+C3)/2-Me como base de
una medida de asimetría, que es 0 si la distribución es simétrica. Un coeficiente de
asimetría se obtiene estandarizando esta medida, como sigue:

C +C
1 3
−M
e C + C − 2M (C − M ) − (M − C )
2 1 3 2 3 e e 1
As = = = .
C −C C −C (C − M ) + (M − C )
3 1 3 1 3 e e 1
2

Este coeficiente tiene valores posibles desde –1 (asimetría negativa) hasta +1


(asimetría positiva), pasando por 0 que corresponde al caso de simetría.

9. Momentos

Un conjunto interesante de ideas estadísticas provienen de computar con los datos X1,
X2 ,...,XN de una variable cuantitativa, un momento de orden r con respecto a una
constante a. Este se define por la formula

1 N r
m (a) = ∑ ( X − a) ,
r i =1 i
N
donde r puede ser 0, 1, 2, etc. Algunos ejemplos ya fueron considerados. En efecto,

m ( a ) = 1, m ( X ) = 0, m (a) ≥ m ( X ) para todo a .


0 1 2 2

La primera igualdad proviene de que la potencia 0 de un número es igual a 1, las


restantes aparecieron como propiedades de la media aritmética.

10. Medidas de Variabilidad

En la Sección 8 vimos como medidas de variabilidad el recorrido max-min, el


recorrido inter-cuartos C3-C1 y el semi-recorrido inter-cuartos, (C3-C1)/2. La varianza de
una variable cuantitativa (o de su distribución de frecuencias) es el momento segundo
con respecto a la media aritmética,
37

1 N 2
Var ( X ) = ∑ (X − X ) .
i =1 i
N
De acuerdo con lo que vimos en la Sección 5.4, Var(X) = 0 si y sólo si todos los
valores son iguales (y por lo tanto iguales a su media aritmética), pues se trata de una
suma de cuadrados.

Es fácil demostrar lo siguiente:

2
1 N 2  1 N∑ X  2
Var ( X ) = ∑ X −
i =1 i  i=1 i  = m (0) − X .
N N  2

Dijimos que frente a una transformación lineal de los datos, Y=a+bX, la media

aritmética registra la misma transformación, Y = a + bX . No ocurre lo mismo con


la varianza:

2
1 N 2
Var (Y ) = Var (a + bX ) = ∑  (a + bX i ) − (a + bX )  = b Var ( X ).
N i =1

Una desventaja de la varianza como medida de variabilidad es que está expresada en


el cuadrado de los valores de la variable. Para muchos análisis es preferible utilizar la
desviación estándar,

DE ( X ) = Var ( X ).

Nótese que DE(a+bX) = bDE(X), pues la desviación estándar (igual que las otras
medidas de variabilidad) no puede ser negativa.

Con la suma de los valores absolutos también pueden definirse medidas de


variabilidad. La desviación media es

1 N
DM ( X ) = ∑ X − X ,
i =1 i
N
38

y la desviación mediana

1 N
DM ( X ) = ∑ X − M ;
e i =1 i e
N

recordamos que esta última es la mínima suma de valores absolutos de las diferencias
entre los datos y una constante.

11. Medidas de Asimetría y Otras Medidas

Además del coeficiente de asimetría basado en la mediana y los cuartos, se utiliza


como medida de asimetría el momento tercero con respecto a la media aritmética, que
tiene valores próximos a 0 cuando la distribución es aproximadamente simétrica y
positivo o negativo según sea el signo de la asimetría. Una medida estandarizada basada
en este momento es

[ m (X)
3
]2

[ ]
γ = 3.
m (X)
2

Otras medidas de asimetría propuestas en la literatura son

( X − M o ) / DE ( X ) y / 3 ( X − M e ) / DE ( X ) , la segunda basada en la relación

empírica y aproximada de que X − M o ≈ 3 ( X − M e ) / DE ( X ) en distribuciones


de frecuencias “moderadamente” asimétricas.

Los restantes momentos con respecto al origen y con respecto a la media aritmética
también se usan como herramientas descriptivas.

12. Análisis Exploratorio de Datos: Gráficos de Cajas y Valores Alejados

Un Gráfico de Caja es otra manera de presentar gráficamente y en forma reducida, la


estructura de un lote de datos. Mediante él se facilita la visión de propiedades de un lote
de datos, como su posición, variabilidad, asimetría y existencia de valores alejados, que
serán definidos mas abajo.

Partimos de la información en un resumen de cinco números que vimos en la Sección


8 y que contiene la mediana, los cuartos y los valores min y max. Se calcula la distancia
inter-cuartos, DIC = C3-C1 , que se usará para definir a los valores alejados. Estos datos
pueden provenir de errores de medición, registro o copiado de los datos: en estos casos
se desea detectarlos y, si es aconsejable, corregirlos; una alternativa es excluirlos. No
todos los valores alejados son erróneos, pues algunos pueden provenir de individuos
atípicos que merecen estudios especiales.
39

Se definen los puntos de corte (para los valores alejados) como

C1 – 1,5 DIC y C3+1,5 DIC,

Se definen como valores alejados (outliers en inglés) a los valores inferiores al punto de
la izquierda o superiores al punto de corte de la derecha.

Para dibujar un gráfico de caja (box plot en inglés) se dibuja un rectángulo cuyos
extremos corresponden a los cuartos y que posee una línea transversal en la mediana.
Luego se dibuja una recta desde cada extremo de la caja hasta el punto ubicado a mayor
distancia y que no sea un valor alejado. La figura representanta entonces al lote de
datos, excepto por los valores distantes, que se agregan representados en forma
individual por cruces.

Consideremos el siguiente ejemplo:

Estadística Hospitalaria: Establecimientos con Internación, 1980


Tabla de Resumen de Cinco Números

N=24 Establecimientos Hospitalarios

Mediana 12,5 68,5


Cuartos 6,5 47,5 111,5
Extremos 1 5,0 784,0

Fuente. Anuario Estadístico de la República Argentina, 1981-1982, INDEC.

En la distribución por jurisdicciones, Buenos Aires (784 establecimientos), Córdoba


(510) y Santa Fe (403) son valores alejados “legítimos”, es decir que no provienen de
errores de registro. El gráfico de caja es el siguiente:

Además de los puntos de corte ya definidos, podemos considerar los siguientes,

C1 – 3 DIC y C3 + 3 DIC,

y llamamos valores muy alejados (far-out-values en inglés) a los que exceden estos
puntos. En el ejemplo anterior los valores numéricos son –144,5 y +303,5, de manera
que 403, 510 y 734 son valores muy alejados.

En el gráfico se pueden distinguir a los valores muy alejados de los alejados


(representados por cruces) utilizando círculos.
40

Estadística Hospitalaria: Establecimientos con Internación, 1980


Diagrama de Caja

800,00

600,00

400,00

200,00

0,00

Internación

En la construcción de un gráfico de caja intervienen la mediana y los cuartos del lote


de datos. Estos valores se califican como resistentes en el sentido de que, en general,
sólo se ven afectados ligeramente por cambios arbitrarios en una parte pequeña del lote.
Mas específicamente, lotes que difieren en los valores de un 25% (y de hasta un 50%)
de los datos, pueden tener iguales las partes centrales de sus gráficos de caja. Esto
ocurrirá, por ejemplo, cuando los cambios afecten solamente a valores grandes o
pequeños, que son frecuentemente los cambios que mas tienden a afectar a otras
medidas de posición y de variabilidad, como la media aritmética y la desviación
estándar, respectivamente.

Debido a la resistencia del gráfico de caja, se lo considera muy útil en el Análisis


Exploratorio de Datos. Mediante la media aritmética y la desviación estándar se podría
construir un diagrama análogo, pero tendría la desventaja de no ser resistente.

Los diagramas de cajas son útiles para comparar lotes de datos. Se construye un
gráfico para cada lote y se los ubica paralelamente en forma horizontal o vertical. Los
gráficos pueden ordenarse de acuerdo con el valor de la mediana de cada lote, o un
orden particular de interés si existe. De esta manera se comparan posiciones,
variabilidades, simetrías y valores alejados de los lotes.

Se puede tener en cuenta el tamaño de los lotes si son diferentes, construyendo


gráficos donde las cajas tengan anchos diferentes, siendo éstos proporcionales a la raíz
cuadrada del tamaño del lote. De esta manera se logra un mayor impacto visual.
41

TERCERA PARTE – Análisis Gráfico

13. Introducción

El tema de la presentación gráfica de los datos y de los resultados estadísticos, fue


tratado en varias partes de las secciones precedentes. En esta Tercera Parte damos mas
detalles sobre este importante tema. No damos referencias específicas en todos los
casos, sino referencias generales. Tienen importancia las siguientes fuentes: S. E.
Fienberg, (1979) Graphical Methods in Statistics, The American Statistician, Vol. 33,
No. 4; D. Huff (1965), Como Mentir con Estadísticas , Barcelona,; Sagitario, S.A.; C.
F. Schmid, (1983) Statistical Graphics, New York: John Wiley; E. R. Tufte (1983) The
Visual Display of Quantitative Information, Cheshise, Connecticut, Graphic Press;
Social Indicators III, U. S. Department of Commerce, Washington, D. C.

13.1 Conceptos Generales

Objetivos y Ventajas de los Gráficos. Un resumen de este tema consta de los


siguientes puntos: (1) Los gráficos crean interés y concitan la atención del lector; (2)
Las relaciones se advierten con mayor claridad y se recuerdan con mayor facilidad; (3)
Los gráficos ahorran tiempo al resumir grandes cantidades de datos; (4) Proporcionan
una visión global del problema tratado; (5) Pueden hacer resaltar relaciones ocultas y
motivar el estudio.

Con respecto al punto (3), a menudo se expresa que si hay muy pocos datos es
recomendable una descripción verbalizada o textual: es el caso de enunciar una o unas
pocas cifras; si hay una mayor cantidad de datos, se recomienda preparar una tabla, y si
hay muchos datos un gráfico. En la publicación Social Indicators III mencionada
previamente, se utilizan las tres formas, como sigue: (a) Una primera versión de un tema
es un texto resumido, que describe los principales problemas y los principales
resultados; está redactado de manera que se puede citar directa y textualmente, evitando
distorsiones en la interpretación; (b) Esta exposición viene seguida de una selección de
gráficos, presentados a todo color, sobre los mismos temas; esto será de utilidad para
quien deba realizar una exposición ilustrada, para publicaciones periodísticas, etc.; (c)
Finalmente, cada capítulo tiene una sección tabular, en la que se presentan en detalle
una selección de los datos disponibles; ésta sección será de utilidad para quien desee
profundizar el estudio o realizar análisis estadísticos complementarios.

Algunas Normas o Estándares. En la literatura estadística aparecen bajo distintas


formas, recomendaciones sobre la construcción de gráficos adecuados. La que sigue es
una lista seleccionada: (1) Los ejes deben estar claramente identificados; (2) Deben
cortarse las escalas para representar “falsos orígenes”; (3) Al comparar gráficos, debe
facilitarse la comparación utilizando escalas idénticas, colocando los gráficos en forma
paralela, etc.; (4) Se deben elegir las escalas de manera que las relaciones lineales
correspondan, aproximadamente, a la línea de 45 grados; (5) Las leyendas deben hacer
que los gráficos sean tan auto-explicativos como sea posible; (6) La interpretación no
debe verse perjudicada por la técnica de dibujo utilizada.

Algunos comentarios son los siguientes. Con respecto a (2), si el gráfico no se inicia
en 0, debe señalarse claramente la relación entre el inicio y el origen. Con respecto a
42

(5), se asevera que “un gráfico equivale a 1000 palabras”, pero también que “pueden
hacer falta 100 palabras para especificar su definición y significado”; es un error incluir
en el gráfico explicaciones demasiado sintéticas, que hagan difícil al lector el
entendimiento del significado estadístico.

Clasificación. Fienberg (1979, op. cit.) propone la siguiente clasificaciön. (a) Por una
parte los gráficos que no contienen datos estadísticos: (1) Los que representan
relaciones teóricas, como son los gráficos de la matemática; (2) Para realizar cómputos
o cálculos, que es el caso de nomogramas; (3) Para organizar la información, como es el
caso de mapas, diagramas de flujos y otros; (b) Gráficos que contienen información
basada en datos estadísticos: (4) Los destinados a presentar los datos y los resultados del
análisis (barras, histogramas, gráficos de cajas, etc.); (5) Mixtos, en los que se hace
simultáneamente presentación y análisis, como en algunos ejemplos antiguos; (6)
Analíticos, utilizados con relación a técnicas estadísticas, por ejemplo, análisis
inferencial.

Con respecto a los nomogramas, fueron muy populares antes de la aparición de las
modernas computadoras; sin embargo aún en este momento hay oportunidades para
utilizar algunos nomogramas con sentido estadístico; daremos un ejemplo en una
sección mas abajo.

13.2 Gráficos de Series Cronológicas

Una fuente importante de información estadística es la que adopta la forma de una


serie cronológica o de tiempo. Por definición es un conjunto de pares de valores, el
primer valor de cada par es un instante (año, mes, día, hora, etc.) y el segundo valor es
un dato estadístico asociado con ese instante.

Ejemplos. (1) Datos anuales sobre inscripción de nuevos alumnos en una carrera
universitaria o de egresados de ella; aquí los instantes son los años y los datos son las
cantidades de alumnos o de egresados; (2) Datos diarios sobre lluvia caída en una
localidad; aquí los instantes son los días y los datos los milímetros de lluvia caída; (3)
Datos mensuales sobre producción de un artículo; aquí los instantes son los meses y los
datos las producciones.

Un gráfico simple de una serie cronológica se forma con el tiempo como abscisas y
los valores como ordenadas. El resultado es un conjunto de puntos que se pueden
presentar de varias maneras: (a) Simplemente como puntos, lo que, sin embargo, no
facilita la comprensión; (b) Conectando los puntos con rectas, que ayuden al lector a
interpretar los movimientos de la serie a través del tiempo; (c) Conectando cada punto
con su proyección en el eje de las abscisas, de manera que el gráfico es una sucesión de
barras verticales; éste resulta útil en algunos casos.

La notación que utilizamos es designar al tiempo con t y a la variable medida con yt o


y(t). Por lo tanto el gráfico propuesto corresponde a los pares (t, yt), t=1,2,...,T, donde T
es el último período observado. Consideramos que tenemos la serie completa, es decir
un valor para cada tiempo t desde 1 hasta T; el caso de datos faltantes es importante y
frecuente en la práctica, pero sólo será mencionado en esta presentación.
43

13.3 Gráfico Semilogarítmico o de Razones

El gráfico de los pares (t, yt) enfatiza los valores absolutos de la variable y. En muchas
aplicaciones, interesa mas analizar los cambios ocurridos en estos valores a través del
tiempo. Tal es el caso de las series económicas, donde interesa menos el nivel (valor
absoluto) de la variable que los cambios. Por ejemplo, a menudo no disponemos de
datos sobre el valor del índice de precios al consumidor, pero si conocemos su tasa
mensual de cambio; algo similar pasa con el ingreso, donde tiene mucha importancia el
cambio mensual, trimestral o anual.

Para enfatizar el estudio de los cambios, tratándose de series de datos positivos, se


propone representar gráficamente los pares (t, logeyt). Esto se designa gráfico de razones
por lo que veremos a continuación, o semilogarítmico pues solamente se trasforma a la
variable. El gráfico logarítmico corresponde a los pares (loget, logeyt) y se usa en
algunas aplicaciones.

Las dos principales propiedades de los logaritmos (naturales) que utilizamos en el


análisis de este gráfico son las siguientes:

Propiedad 1. La función y = AeBt aparece como una recta en la escala


semilogarítmica.

Esto proviene de que logey = loge(AeBt) = logeA + Bt pues logee = 1.

Propiedad 2. En la escala semilogarítmica, a distancias iguales entre los valores de


logey corresponden razones iguales en los valores de y.

Esto proviene del siguiente argumento: Si logey1 - logey2 = logey3 - logey4 , entonces,
por propiedades de los logaritmos, loge(y1/y2) = log(y3/y4). Pero el logaritmo es una
función monótona, de manera que la igualdad de los logaritmos implica la igualdad de
los argumentos, y1/y2 = y3/y4. Esto explica el nombre de gráfico de razones.

Existe un nomograma llamado papel semilogarítmico, en el que se representan


directamente los valores de t y de y con el resultado de que la gráfica resultante está en
escala semilogarítmica. Por supuesto que utilizando una computadora es fácil hacer una
represetación gráfica en la escala de razones.

La transformación de los datos y en su logaritmo es sólo una de las transformaciones


posibles. En la literatura aplicada existe mucho interés en considerar transformaciones
de los datos que revelen la naturaleza de las relaciones existentes. Algunas de las
transformaciones utilizadas son las siguientes: (1) Potencias: elevar al cuadrado, por
ejemplo; si hay valores positivos y negativos, esta operación hace desaparecer los
signos; (2) Raíces: tomar la raíz cuadrada, siempre que los valores sean no-negativos;
(3) Recíprocos, o recíprocos de potencias o de raíces; (4) Otras transformaciones.

El uso de transformaciones está muy difundido en la práctica. Algunos autores las


llamas re-expresiones en el sentido de que no se trata de una mera operación
matemática, sino que hay un argumento estadístico o práctico en elegir una forma u otra
de presentación y análisis. Algunos ejemplos son: (1) Cuando se analizan velocidades,
44

debe elegirse entre velocidades, tiempos o distancias recorridas; (2) En economía y en


otras disciplinas, debe elegirse entre niveles y tasas de cambio (razones); (3) Ya vimos
que en las distribuciones de frecuencias podemos usar frecuencias, frecuencias relativas
o porcentajes.
45

CUARTA PARTE – Datos Multivariados

14. Introducción

En las secciones precedentes vimos la estadística descriptiva y en análisis


exploratorio de datos de una variable, cualitativa o cuantitativa. Esta limitación tiene
mucha importancia pues, en general, estamos mas interesados en relacionar variables
que en estudiar a cada una por separado.

Un ejemplo simple es el siguiente: Un dato sobre el peso de una persona, por ejemplo
70 kg., contiene poca información. Nótese el énfasis en distinguir entre dato e
información. Es importante saber si los 70 kg. corresponden a una mujer o a un varón,
pues las estructuras físicas son diferentes, o pueden serlo. Además deberíamos conocer
la edad: 70 kg. es un peso considerable para un niño o un joven, pero no lo es tanto para
un adulto. Si seguimos pensando encontraremos que de la persona que tiene 70 kg. de
peso nos convendría conocer su sexo, edad, estatura, raza, hábitos de trabajo, hábitos
deportivos y varias otras cosas mas. De esta manera podremos apreciar el significado
del dato observado de 70 kg. Son las relaciones entre variables las que explican el
sentido de los datos y orientan a descubrir relaciones causales, o, por lo menos,
relaciones de dirección entre variables.

Nuevamente resulta importante distinguir entre el tratamiento de las variables


cualitativas de las cuantitativas. Iniciaremos la exposición con las variables cualitativas,
en el siguiente orden: (1) Dos variables; (2) Introducción de una tercera variable; (3)
casos generales.

14.1 Variables Cualitativas: Dos Variables

Un ejemplo tomado de Zeisel (1957) es el siguiente. De un conjunto de 1.374.004


muertes se conoce, simultáneamente, la raza del fallecido (blanca o negra) y la causa de
la muerte (cáncer u otra). La presentación de las frecuencias conjuntas puede hacerse en
una tabla a doble entrada como sigue:

Tabla 8
Muertes Causadas por Cáncer en los Estados Unidos, Clasificadas por Raza

Raza Causa de Muerte


Cáncer Otras Total
Blanca 139.627 1.055.804 1.195.431
Negra 9.182 169.391 178.573
Total 148.809 1.225.195 1.374.004

Fuente. Zeisel, op. cit.

Las primeras observaciones son: (1) Hay mas blancos que negros, lo que está de
acuerdo con la composición (aproximada) de la población norteamericana; (2) Hay mas
muertes por otras causas que por cáncer, lo que se explica pues la categoría otras
incluye muchas causas de muerte.
46

Para continuar con el estudio de estos datos, conviene reducirlos a porcentajes. Dos
primeras opciones son:

Raza Porcentajes Verticales Porcentajes Horizontales


Cáncer Otras Total Cáncer Otras Total
Blanca 93,8 86,2 87,0 11,7 88,3 100,0
Negra 6,2 13,8 13,0 5,1 94,9 100,0
Total 100,0 100,0 100,0 10,7 94,9 100,0

Los porcentajes verticales se obtienen dividiendo cada valor en el total que figura en
la última fila de cada columna; los porcentajes horizontales se obtienen dividiendo cada
valor en el total que figura en la última columna de cada fila de la Tabla 8.

Todavía existe una tercera posibilidad, calculas los porcentajes conjuntos como sigue.

Raza Porcentajes Conjuntos


Cáncer Otras Total
Blanca 10,2 76,8 87,0
Negra 0,7 12,3 13,0
Total 10,9 89,1 100,0

Aquí cada valor se divide en el total general.

Debemos razonar para descubrir cuales de las tres tablas de porcentajes disponibles
son útiles para el análisis de la información. Para ello debemos pensar en la dirección de
la relación posible, lo que en general llamaremos la causa posible. Pensando de esta
manera resulta claro que entre raza y causa de muerte hay una sola relación posible y es
la que corresponde a las preguntas: ¿Es la raza un posible determinante de que se
produzca la muerte por cáncer? ¿Hay una incidencia diferencial de la muerte por cáncer
entre blancos y negros? Es decir que la posible relación causal es que la raza puede ser
un factor diferencial en la incidencia de la muerte por cáncer.

Planteado de esta manera resulta que de las tres tablas la aconsejable es la de


porcentajes horizontales: tomando a cada raza por separado, analizar si la diferencia
entre los porcentajes de muertes por cáncer (11,7% contra 5,1%) es suficientemente
importante para justificar una aseveración causal.

Puesto de esta manera se aprecia la limitación del estudio basado en sólo dos
variables. Existen otros factores que pueden contribuir a explicar la diferencia
observada. En una discusión en clase sobre este tema, se sugirió la posibilidad de que
los datos incluyeron un período próximo al fin de la Segunda Guerra Mundial; en tal
caso, es posible que la distribución por edades de los muertos pueda explicar (en parte al
menos) la diferencia observada.

La conclusión de este ejemplo es que para el análisis conjunto de dos variables


cualitativas, partiendo de la tabla de la distribución de frecuencias conjunta, calcular los
porcentajes en la dirección de la relación causal posible. Esta puede ser clara como en el
caso ilustrado, pero también puede ser compleja su determinación. En algunos casos la
relación entre las dos variables puede ser tal que sea difícil una elección.
47

Asociación e Independencia. Para tratar estos temas utilizaremos los siguiente


conceptos. En la tabla de doble entrada (también llamada tabla de dos por dos)
aparecen la distribución de frecuencias conjuntas (Tabla 8), las distribuciones de
frecuencias marginales (que en el ejemplo son los totales por raza y por causa de
muerte) y las distribuciones de frecuencias condicionales que se obtienen al fijar uno
de los atributos: por lo tanto hay una distribución de frecuencias conjuntas, dos
distribuciones de frecuencias marginales (la de raza y la de causas) y cuatro
distribuciones condicionales (una de blancos por causa de muerte, una de negros por
causa de muerte, una de cáncer por raza y una de otras causas de muerte por raza).

Junto a ellas están las distribuciones porcentuales, conjunta, marginales y


condicionales.

Independencia. Una tabla de doble entrada exhibe independencia si las distribuciones


de frecuencias condicionales son proporcionales, o las distribuciones condicionales
porcentuales son iguales. La tabla exhibe asociación si y sólo si no exhibe
independencia.

Ejemplo. (Anderson and Sclove, op. cit.) La siguiente es una tabla que muestra la
relación entre la intención de votar en una elección y la afiliación a un partido político.

Tabla 9
Clasificación de 350 Votantes Según su Afiliación Política y su Intención de Votar.

¿Se propone votar en las próximas elecciones? Afiliación Política


Demócrata Republicano Total
Si 160 120 280
No 40 30 70
Total 200 150 350

Observamos la proporcionalidad de las distribuciones de frecuencias condicionales: en


efecto, las frecuencias de la primera fila son 4 veces la de la segunda, y las frecuencias
de la primera columna son 1 1/3 veces la de la segunda. También encontramos que las
distribuciones condicionales porcentuales son iguales, tanto en sentido vertical como
horizontal.

Notación. Las categorías de las variables se pueden denotar como antes, A1 y A2 , B1 y


B2 . Para las frecuencias conjuntas, designadas nuevamente por f, necesitamos señalar la
fila y la columna, es decir, dos índices. Podemos utilizar las notaciones de las
siguientes tablas:
48

Frecuencias conjuntas en forma de subíndice

Categorías B1 B2 Total
A1 f11 f12 f1+
A2 f21 f22 f2+
Total f+1 f+2 N=f++

Una notación posible es la de tipo matemático, por ejemplo, f(1,1), f(1,+), etc. Para el
caso de la tabla de dos por dos hay otra notación tradicional y simplificada, utilizada
con mucha frecuencia. Es la siguiente:

Frecuencias conjuntas en la tabla de dos por dos

Categorías B1 B2 Total
A1 a b a+b
A2 c d c+d
Total a+c b+d N=a+b+c+d

Utilizando esta notación simplificada, enunciaremos un conjunto de proposiciones


sobre independencia y asociación.

Proposición. Los atributos A y B son independientes si y sólo si ad =bc.

Demostración. La proporcionalidad entre columnas de la definición de independencia


implica que a/b = c/d, lo que implica directamente que ad = bc como se propuso.

Proposición. Los atributos A y B son independientes si y sólo si

a c
=
a +b c +d

o bien

a b
= .
a +c b+d

Demostración. Si en la primera igualdad multiplicamos, a(c+d) = ac + ad = c(a+b) =


ac + bc, de manera que simplificando ac se obtiene que ad = bc. De la misma manera
operamos con la segunda igualdad.

Asociación. Ya dijimos que si los atributos no son independientes entonces están


asociados. La asociación entre atributos cualitativos tiene signo y grado. La asociación
es positiva si se cumple cualquiera de los siguientes,
49

a c a b
ad > bc , ó > , ó > ;
a +b c +d a +c b+d

La asociación es positiva si las desigualdades se invierten (ad < bc, por ejemplo). Los
atributos son independientes si en las expresiones vale la igualdad.

Observación. Si los atributos son cualitativos ordinales, existe un orden para las
categorías. En cambio, si los atributos son cualitativos nominales el orden es arbitrario.
De manera que en este último caso en particular, debe tratarse con cuidado la asignación
del signo a la asociación existente. Una manera de expresarla es diciendo “el nivel A1
del atributo A, tiene una asociación positiva con el nivel B1 del atributo B”, lo que
equivale a decir que “el nivel A2 del atributo A, tiene una asociación negativa con el
nivel B2 del atributo B”.

Observación: Frecuencias 0. Las frecuencias conjuntas pueden ser iguales a 0, si bien


no pueden ser negativas. En una tabla de 2x2 pueden aparecer uno o dos ceros. Si
aparece un solo valor igual a 0, los atributos tienen asociación, que será positiva o
negativa según el lugar que ocupe el 0 en la tabla. Si hay dos frecuencias conjuntas
iguales a cero, deben aparecer en una diagonal, y entonces la situación es similar al caso
de una sola frecuencia 0. Dos frecuencias nulas no pueden aparecer en una mima fila o
columna, pues entonces una de las categorías de uno de los atributos no tiene casos
observados, lo que es inadmisible. Por lo tanto también es inadmisible la existencia de 3
o 4 frecuencias conjuntas iguales a 0. Reiteramos que, en general, para el análisis de
una tabla de doble entrada, todas las categorías de las dos variables deben tener
frecuencias (marginales) positivas; en el caso contrario, las categorías con frecuencias
marginales nulas deben ser eliminadas.

Signo y Grado de la Asociación. Ya dijimos que la asociación tiene signo, positivo o


negativo. Ahora consideraremos la medición del grado de la asociación en una tabla de
2x2. Con la notación a, b, c y d para las frecuencias conjuntas, una fuente de medidas
del grado de la asociación es la relación entre ad y bc. Sabemos que los atributos son
independientes si y sólo si ad = bc, y que esto incluye el caso de una o dos frecuencias
(conjuntas) iguales a 0.

Una manera de definir el grado de la asociación es considerando la diferencias ad –


bc. Esta medida tiene indicado el signo de la asociación, pero también puede utilizarse
para medir su grado. Un inconveniente es que se trata de una medida absoluta, cuyos
valores dependen de la magnitud de las frecuencias conjuntas. En la literatura se
proponen diversas medidas basadas en esta diferencias, ajustándola para que se
convierta en un verdadero índice.
50

Indice de Asociación Q de Yule. Esta medida estandariza a la diferencia con la suma,

ad − bc
Q = .
ad + bc

Q = 0 si y sólo si las variables son independientes. Es igual a 1 cuando bc = 0 y es igual


a –1 cuando ad = 0. En los otros casos toma valores entre –1 y +1.

Indice de Asociación Y de Yule. Se define como sigue:

ad − bc
Y = .
ad + bc

Los valores se interpretan de la misma manera que los de Q.

Otra Definición. La diferencia ad – bc puede estandarizarse de otra manera. El


coeficiente φ ,ver, por ejemplo, Goodman y Kruskal (19..), se define de la siguiente
manera y como tiene el mismo numerador que Q se interpreta de la misma manera:

ad − bc
φ = .
( a + b )( c + d )( a + c )( b + d )

Nótese que el denominador es la raíz cuadrada del producto de los cuatro totales
marginales de la tabla de 2x2.

Estas tres medidas se originan en el análisis de la diferencia ad – bc. Existe otra


posibilidad que es comparar a las frecuencias conjuntas observadas, con las que se
obtendrían con las mismas frecuencias marginales, si en realidad los atributos fuesen
independientes. Por ejemplo, la frecuencia conjunta a se compara con (a+b)(a+c)/N. Si
llamamos a a la frecuencia (conjunta) observada, y llamamos a (a+b)(a+c)/N la
frecuencia (conjunta) esperada, las podemos representar, respectivamente, por Oi y Ei.
Se propone entonces como medida del alejamiento de la independencia en una tabla de
2
2x2, lo que llamamos el coeficiente χ (léase “ji cuadrado”) de Pearson:

2
4 ( O − E )
2 i i
χ = ∑ .
i =1
E
i
51

Notamos que

O − E = a − ( a + b )( a + c ) / N , b − ( a + b )( b + d ) / N , c − ( c + d )( a + c ) / N , d − ( c + d )(
i i

Es interesante notar que reemplazado a los Oi por sus valores (a, b, c, d) y a los Ei en la
forma indicada, resulta que

2
2 ( ad − bc ) N 2
χ = = Nφ ,
( a + b )( a + c )( b + d )( c + d )

o sea que partiendo de dos ideas diferentes llegamos a resultados comparables.

14.2. Variables Cualitativas, Dos Variables, Caso General.

El caso general de dos variables o atributos cualitativos, nominales u ordinales, es


aquel en que tenemos un atributo A con categorías A1, A2,...,Ar y un atributo B con
categorías B1, B2, ..., Bc , donde la elección de letras es r para las filas (“row” en inglés)
y c para columnas, pues reservamos la letra f para las frecuencias. La categoría conjunta
Ai ∩Bj tiene frecuencia (conjunta) observada fij . Sumando las columnas obtenemos las
frecuencias marginales de las filas, fi+ , y sumando las filas obtenemos las frecuencias
marginales de las columnas, f+j . Fijando una fila o una columna, las correspondientes
son las frecuencias condicionales.

A continuación analizamos cuales de los elementos presentados en el caso de la tabla


de 2x2, pueden generalizarse al caso de una tabla a doble entrada de r filas y c
columnas, a la que llamaremos tabla de rxc.

Modo. Como medida de posición podemos utilizar el modo, que es el valor de la


categoría conjunta en la que ocurre la frecuencia máxima, con las salvedades que
hicimos notar oportunamente.

Porcentajes. Podemos calcular porcentajes verticales, horizontales o conjuntos. De


ellos los mas útiles son aquellos calculados en una dirección que responda mejor a la
idea de relación direccional o causal.

Independencia. Los atributos son independientes si las distribuciones de frecuencias


condicionales son proporcionales, o las distribuciones porcentuales condicionales son
iguales.

Asociación. Si los atributos no son independientes, entonces tienen asociación entre


ellos.

Signo de la Asociación. El caso general de rxc categorías conjuntas no se presta


automáticamente para definir el signo de la asociación. Pueden darse casos especiales
en los que sea fácil asignar un signo. Por ejemplo, en una tabla de dos filas y tres
52

columnas, con frecuencias a>b>c en la primera fila, y frecuencias d<e<f en la segunda


fila puede calificarse como de asociación positiva.

Medida del Grado de Asociación. Las medidas propuestas para el caso de dos filas y
dos columnas, basada en la relación entre los productos de frecuencias ad y bc, no
extienden directamente al caso general. Sin embargo la idea que genera la medida “ji
cuadrado” generaliza sin dificultades, una vez que definimos las frecuencias esperadas
bajo el supuesto de independencia. Como en el caso particular de 2x2, éstas frecuencias
esperadas se obtienen de las frecuencias marginales observadas, de manera que la tabla
de valores observados Oij y la de frecuencias esperadas Eij tienen las mismas sumas
marginales. La frecuencia esperada en la categoría conjunta Eij = fi+ f+j /N, de manera
que tenemos

2 r c
( f − f f
ij i+ + j
/ N )
2

χ = ∑ ∑ .
i=1 j =1
f f / N
i+ + j

Esta es una medida descriptiva y de resumen de la diferencia entre las frecuencias


conjuntas observadas y las esperadas bajo el supuesto de que los dos atributos son
independientes. Tiene el inconveniente de que no está estandarizada, por ejemplo, puede
ser mayor de 1. El tema de analizar el valor observado puede encarase desde el punto de
vista de la inferencia estadística, lo que no está en nuestro objetivo presente.

Existen otras medidas de asociación, pero no las consideraremos en esta presentación.

14.3 Variables Cualitativas: Tres Variables

Suponemos que se analizó la relación entre dos variables cualitativas y que se llegó a
la conclusión de que no son independientes, sino que existe algún grado de asociación,
positiva o negativa. La próxima pregunta a formularse es si ésto implica que una de las
variables es causante del comportamiento de la otra. La respuesta debe ser cuidadosa,
pues existen otras variables relacionadas con las dos variables estudiadas, que pueden
tener importancia en el análisis.

Consideremos por ejemplo el caso de la posible relación entre raza (blanca y negra)
sobre la incidencia del cáncer como causa de muerte. Encontramos que las frecuencias
conjuntas observadas señalan una posible relación, en el sentido de que existen
porcentajes diferentes de muertes por cáncer entre blancos y negros. Sin embargo, antes
de concluir sobre el posible efecto de la raza, debemos considerar otras variables que
pueden intervenir y explicar, al menos parcialmente, la relación observadas. Ya dimos
el ejemplo de la edad, pero también deberíamos pensar en el sexo, la ocupación, la zona
donde viven, los hábitos alimenticios y de cuidado de la salud y varios otros. Sólo un
estudio cuidadoso de los factores (variables) intervinientes, puede llevarnos a una
conclusión segura.

En el caso mas simple en que se observaron dos variables, A con categorías A1 y A2 ,


y B con categorías B1 y B2 , se considera el posible efecto de la variable C con
53

categorías C1 y C2. La tabla originaria tiene frecuencias observadas f11, f12, f21 y f22.
Cuando a cada individuo clasificado por A y B se lo considera además clasificado por
C, se generan dos tablas, como sigue:

Frecuencias Conjuntas de A y B en Presencia de C1

Categorías B1 B2 Totales
A1 f111 f121 f1+1
A2 f211 f221 f2+1
Totales f+11 f+21 f++1

Frecuencias Conjuntas de A y B en Presencia de C2

Categorías B1 B2 Totales
A1 f112 f122 f1+2
A2 f212 f222 f2+2
Totales f+12 f+22 f++2

Cada tabla puede analizarse por separado en términos de las técnicas conocidas:
porcentajes, medidas de posición, independencia, signo y grado de la asociación. Las
conclusiones de este análisis pueden ser: (1) La incorporación de la tercera variable
puede refinar las observaciones basadas en las dos primeras, (2) Puede revelar el efecto
independiente del tercer factor, o (3) Puede explicar los resultados de la clasificación
originaria de dos maneras: (i) Confirmándolos, o bien (ii) Mostrando que la relación de
origen era espúrea. Se dice que una asociación entre dos variables es espúrea, si aparece
en la clasificación conjunta de estas dos variables, pero desaparece en las
subclasificaciones.

Una manera general de ordenar la información cuando existen mas de dos variables,
es agruparlas por tipos, tratando que este agrupamiento y ordenación haga resultar las
posibles relaciones de causa y efecto. Por ejemplo, si existen variables A, B y C, un
ordenamiento posible es, partiendo de la relación inicial A → B,

A → C → B

y en este caso decimos que C es una variable interviniente , en el sentido de que el


efecto de A se transmite a B a través de C. En el ejemplo de la relación entre raza (A) y
causa de muerte (B), la tercera variable C es un indicador de la participación en la
guerra: la raza determina la mayor o menor participación porcentual en la guerra, lo que
genera diferencias en la distribución por edades que a su vez tiene (o al menos puede
tener) influencia en la causa de muerte.
54

Otro esquema posible es que la tercera variable explique a las dos iniciales, es
decir,

→ A

→ B

Un ejemplo (Neter y Wasserman) es el siguiente: Se analiza la relación entre la posición


de un automóvil (A) y el ingreso de un estudiante universitario (B). Pero ambas
variables se explican con el ingreso del grupo familiar (C).

Otro ejemplo lo constituye el esquema siguiente:

→ A

C ⋱
→ B

En este esquema la tercera variable C, antecede cronológicamente a las otras dos. Se


diferencia del caso precedentes en que A puede tener efecto (independiente) sobre B.

14.4 Variables Cualitativas: Caso General

Este tipo de análisis puede generalizarse a mas de tres variables cualitativa. Cox y
Wermuth (1996) proponen que partiendo de que cada individuo proporciona
información (conjunta) sobre una cierta cantidad de variables, éstas se agrupen según su
significado e posible interpretación. En un extremo están las llamadas variables de
identificación, como casos típicos el sexo y la edad; en el otro extremo están las
variables que son objeto del estudio, a las que se llaman variables de respuesta. En el
caso de análisis de las causas de muerte el sexo y la edad de los individuos son variables
de identificación, la causa de muerte es la principal variable de respuesta, y todas las
otras variables que se consideren serán intervinientes, con distintos tipos de
interpretación y distintos grado de importancia. Una representación gráfica de estas
ideas es la siguiente:

 Variables   Variables   Variables 


de  ←  Intermedias e  ← de  .
     
 Respuesta   Intervinientes   Identificación 

Algunas observaciones son las siguientes: (1) En cada grupo puede haber una o mas
variables; lo corriente es que exista una sola variable de respuesta. (2) Estamos
considerando el caso de variables cualitativas, pero en general pueden ser de interés
también las cuantitativas de distintos tipos. (3) Las flechas que comunican a los grupos
pueden adquirir formas complejas; por ejemplo, variables de identificación pueden tener
55

efecto sobre algunas de las variables intervinientes, pero también efectos directos sobre
las de respuesta.

Ejemplo. El siguiente ejemplo proviene de Cox y Wermuth (op. cit.), y es bastante


mas complejo que los ejemplos que consideramos hasta este punto. Las 10 variables
consideradas son las siguientes:

Grupo a: A Tasa de deserción en la universidad

Grupo b: X Motivación (Universidad)


Y Desempeño esperado (Universidad)
Z Grado de integración (Universidad)

Grupo c: U Calificación promedio en los últimos 3 años (Secundario)

Grupo d: B Cambio de escuela (Secundario)

Grupo e: C Grado de integración (Secundario)


D Cantidad de cursos repetidos (Secundario)

Grupo f: E Cambio de escuela (Primario)


F Educación del padre

La pregunta formulada es si las nueve variables de los grupos b a f, explican el


comportamiento de la tasa de deserción en la universidad. Las variables de los grupos b
a f pueden estar relacionadas de distintas maneras, entre ellas y con la respuesta (A). El
objeto del estudio es descubrir la forma en que ocurren estas relaciones, detectando
cuales son importantes y cuales pueden omitirse sin pérdida de información relevante.
Los autores encontraron que las principales relaciones eran las de A con Y, Z y U y de
Y con X, Z y U. Nótese que entre las variables hay de tipo cualitativo o categórico, X,
Y, Z, B, C, E y F, y de tipo cuantitativo, A, U y D.

14.5 Variables Cuantitativas

(Correlación, Variabilidad y Simetría)


56

QUINTA PARTE: Indices

15.1 Introducción

Los promedios se calculan con los valores observados de una variable. Por ejemplo la
media aritmética de un lote de datos de una variable cuantitativa, x1 , x2 ,..., xN se
obtiene aplicando la fórmula x = Σi xi/N. Un tema relacionado se presenta cuando se
consideran valores de distintas variables y se desea combinarlas. Aparece el problema
de las unidades de medición: una suma de valores de variables con unidades diferentes
carece de sentido práctico. Una manera simple pero efectiva de combinar valores de
variables diferentes, es mediante la construcción de un índice.

En general, un índice es un promedio ponderado de los valores de un conjunto de


variables, construido de tal manera que el resultado sea homogéneo. Algunos ejemplos
son los siguientes: (1) Indices de Precios. Estos son utilizados para el análisis del
movimiento que tienen los precios de un conjunto de bienes; son muy utilizados los
índices de precios minoristas, mayoristas, de bienes agrícolas, de bienes importados o
exportados, de insumos de un sector económico, por ejemplo de la construcción, índices
financieros, y otros. (2) Calificaciones. En el área de la educación, hay muchas maneras
propuestas de combinar la información sobre el desempeño escolar, para construir
medidas adecuadas para los fines que se proponen. (3) Indices Sociales. Con conjuntos
de variables relacionadas con el plano social, se construyen diversos índices. (4)
Administrativos y Contables. Estas son área con mucha experiencia en la construcción
de diversas medidas, porcentajes, razones y también índices que combinan diversas
variables.

Ilustraremos algunos conceptos con los índices de precios.

15.2 Indices de Precios

Consideremos el problema de definir un índice basado en los precios de k productos.


Se desea relacionar los precios observados en el período t, p1t, p2t, ..., pkt con los precios
de los mismos productos observados en un período inicial o período base, t = 0, p10, p20,
..., pk0 . Si se tratara de un solo producto, digamos el producto j, podríamos considerar el
precio relativo, pjt/pj0 . Como los precios relativos no tienen unidades, pueden
combinarse, de manera que podemos definir un primer índice de precios como el
promedio de los precios relativos,

(1) 1 k p jt k
p
jt 1
I = ∑ = ∑ ( ).
t /0 j =1 j =1
k p p k
j0 j0

Este es el indice de precios computado como la media aritmética de los precios


relativos. Se lo designa como imponderado,
pero en realidad es equi-ponderado (o igualmente ponderado): cada precio relativo tiene
la misma ponderación, 1/k, lo que se ve en la última expresión escrita.
57

Si se dispone de información adicional, pueden construirse otros índices de precios.


Entonces tendremos índices de precios relativos con la siguiente estructura:

p
(S ) k jt k
I = ∑ w , con ∑ w = 1.
t /0 j =1 j j =1 j
p
j0

Un caso muy importante es cuando se dispone de las cantidades asociadas con los
precios. Estas pueden ser las cantidades consumidas por las familias (índice de precios
minoristas o al consumidor), las cantidades negociadas (índice de precios mayoristas),
etc. En el caso de índice de precios al consumidor, en general se dispone de las
cantidades consumidas en el período base, q10, q20,...,qk0 .Entonces se propone utilizar
las ponderaciones

p q
j0 j0
w = k .
j
∑ p q
s =1 s 0 s 0

Estas ponderaciones son el valor de la cantidad consumida en el período base a los


precios de ese mismo período, como proporción de la suma de los valores de todos los
bienes incluidos en el índice. Operando tenemos lo siguiente:

k
p p  j0 j0 p q ∑ p q
(2)
= ∑
k jt
w = ∑
k jt
k  j =1 jt j 0
= k
I
t /0 j =1 j j =1   :

j 0  s =1 s 0 s 0 
p p ∑ p q ∑ p q
j0 j =1 j 0 j 0

Este es el llamado Indice de Laspeyres: se compara mediante un cociente, la suma de


los valores de las cantidades consumidas en el período base valuadas a los precios del
período considerado (t), con la suma de los valores de las cantidades consumidas en el
período base valuadas a los precios del período base (t = 0).

El índice de precios de Laspeyres es utilizado por las oficinas estadísticas


gubernamentales pues su naturaleza facilita la aplicación. En un período determinado (t
= 0) se realizan estudios para establecer las ponderaciones. En el caso del índice de
precios al consumidor, se toman muestras de familias que informan sobre sus consumos
y gastos en un período, por ejemplo, durante un año. Con esta información se
seleccionan los bienes y servicios a incorporar y se determinan sus importancias
relativas. De estos bienes seleccionados se inicia la captación periódica de los precios y
el cálculo del índice, por ejemplo, en forma mensual. En nuestros días el cambio
tecnológico afecta rápidamente la validez de las ponderaciones, y a menudo es
58

necesario incorporar correcciones, las llamadas correcciones por cambios en la calidad


de los bienes y servicios.

Una pregunta que se formula a menudo es cuán importante es mantener actualizada la


colección de bienes y servicios, lo que se denomina la canasta de bienes y servicios.
Una aproximación a la respuesta es que la importancia depende del grado de correlación
que existe entre precios y ponderaciones: Si esta correlación es baja, la diferencia entre
el índice ponderado y el equi-ponderado (o imponderado) es pequeña.

Por el contrario, es muy importante mantener al día la información sobre los precios.
La presencia o ausencia de descuentos y promociones, por ejemplo, pueden introducir
perturbaciones en el sentido del índice.

Con la mejora progresiva en los sistemas estadísticos gubernamentales, en muchos


países los estudios de ponderaciones y de precios se realizan con mucha frecuencia. De
la tradición de una revisión cada 10 años, se pasó a la de una cada 5 años, con revisiones
menores en los años intermedios.

El índice de precios de Laspeyres tiene la ventaja de que sólo deben actualizarse los
precios. Cuando se realizan estudios retrospectivos, existe la posibilidad de usar otros
tipos de índices. El índice de precios de Paasche se define como sigue:

k
∑ p q
( 3) j =1 jt jt
I = K .
t /0
∑ p q
j =1 j 0 jt

El numerador es el valor de los productos y servicios consumidos en el período t


valuados a los precios del mismo período, y el denominador es el valor de los productos
y servicios consumidos en el período base (t = 0) valuados a los precios del período t.

Combinando los índices de Laspeyres y de Paasche se forma el índice Marshall-


Edgeworth:

k
∑ p (q + q )
(4) ( 2) ( 3) j =1 jt j0 jt
I = I + I = k .
t /0 t /0 t /0
∑ p (q + q )
j =1 j 0 j0 jt

El llamado Indice Ideal de Fisher se obtiene combinando los de Laspeyres y Paasche


de otra manera,

(5) (2) ( 3)
I = I + I .
t /0 t /0 t /0
59

El último tema que trataremos es el siguiente: en los índices precedentes se consideró


como operación básica en la definición de un índice, el promedio obtenido utilizando
sumas. Al analizar la media geométrica hicimos notar que es adecuada para tratar a las
razones, de manera que también es oportuno considerar su uso en la construcción de
índices de precios. Aplicando media geométrica tenemos lo siguiente:

p 1 p 
= anti log  .
(6) k jt k jt
= k ∏ ∑ log
k 
I
t /0 j =1 j =1
p
j0  p
j0 

Es decir que el índice de precios por media geométrica de los precios relativos, es el
antilogaritmo de la media aritmética del logaritmo de los precios relativos. Como en el
caso general ya tratado, la media geométrica de los precios relativos es menor que la
correspondientes media aritmética, o igual a ella, y la igualdad se obtiene si y sólo si
todos los precios relativos son iguales.

Enfoque Estadístico. La determinación de las ponderaciones de un índice provienen,


en general, de la disciplina que se considere. Así en el caso de la economía, las
ponderaciones de un índice de precios provienen de un estudio económico previo.
Existen maneras de obtener ponderaciones que sigan criterios puramente estadísticos.
Una de las mas populares es la determinación de combinaciones lineales de las variables
(por ejemplo de los precios) que satisfagan criterios estadísticos. Uno de los mas útiles
es el de minimizar la variabilidad, definida de manera adecuada.
60

Bibliografía

Anderson, T. W. and J : D. Finn (1996) The New Statistical Analysis of Data. New
York: Springer

Anderson, T. W. and S. L. Sclove (1978) An Introduction to the Statistical Analysis of


Data. Boston: Houghton Mifflin.

Berenson, M. L. y D. M. Levine (1996) Estadística Básica en Administración, Sexta


Edición. México: Prentice Hall.

Bureau of the Census (1980) Social Indicators III. Washington.

Croxton, F. E. y D. J. Cowden (1959) Estadística General Aplicada. México: Fondo de


Cultura Económica.

Fienberg, S. E. (1979) Graphical Methods in Statistics. Journal of the American


Statistical Association.

Goodman and Kruskal (1954) Measures of association for cross classifications. J. of the
Am. Stat. Association, 732-764.

Haber, A., R.P. Runyon and P. Badia (1970) Readings in Statistics. Reading, Mass,
Addison-W

Huff, D. (1954) How to Lie with Statistics. New York: W. W. Norton.

La Profesión de Estadístico (1974) Universidad Nacional de Tucumán (Traducción)

McLeod and Henderson (1984) Teaching Statistics

Neter, J. and W. Wasserman (1961) Fundamental Statistics for Business and


Economics, 2nd Edition. Boston: Allyn and Bacon.

Schmid, C. F. (1983) Statistical Graphics. New York: Wiley.

Stevens, S. S. (1946) On the theory of scales of measurement. Science, 677-680.

Tanur, Mosteller, Kruskal et al (19 ) Statistics, A Guide to the Unknown. San


Francisco: Holden-Day.

Tufte, E. R. (1983) The Visual Display of Quantitative Information. Cheshire,


Connecticut: Graphics Press.

Tukey, J. W. (1971) Exploratory Data Analysis. Reading, Massachusetts: Addison


Wesley.

Velleman, P. F. And D. C. Hoaglin (1981) Applications, Basics and Computing of


Exploratory Data Analysis. Boston: Duxbury Press
61

Yule, G. U. y M. G. Kendall (1954) Introducción a la Estadística Matemática. Madrid:


Aguilar.

Zeisel, H. (1990) Dígalo con Números, Tercera Edición. México: Fondo de Cultura
Económica.
62

También podría gustarte