Tema 59.
Técnicas de obtención y representación de datos
TEMA 59. Técnicas de Obtención y Representación de
datos
1. Introducción
     La representación de datos o “estadísticas” sobre pertenencias o características de
cualquier comunidad (estado, pablado, etc) fue una de las primeras inmersiones del hombre
en el campo científico. Desde los primeros recuentos de ganado o las modernas “estadísticas
oficiales” realizadas por ordenador hay una avance notable, pero el fin sigue siendo el mismo,
el de administrar y controlar de forma eficiente los recursos disponibles.
    Estas técnicas estadísticas en la actualidad son realizadas por estados, empresas, bancos,
sociólogos…y los podemos encontrar en los medios de comunicación. Responden a estudios
relaticos al crecimiento económico, el crecimiento en precio, población activa, crecimiento
demográfico, etc.
    En este tema abordaremos las formas de obtener y representar los datos, así como
posibles errores y tendenciosidades más comunes.
2. Obtención de datos.
    Los errores más comunes en las estadísticas suelen provenir de la obtención de los datos ,
es por esto que esta etapa es esencial y debe ser preparada con meticulosidad.
Estableceremos los siguientes pasos a la hora de recopilar la información:
    - Fijar la población de estudio
    - Característica de estudio.
    - Delimitación del conjunto a realizar la encuesta.
    - El cuestionario y la recogida de datos
    - Elaboración de resultados
    - Distribución de resultados.
1. Fijar la población de estudio: el primer paso será fijar el conjunto de elementos o
   individuos que nos interesa estudiar y sobre los cuales vamos a realizar la estadística. El
   conjunto de todos los individuos o elementos sobre los que vamos a hacer el estudio se
   denomina población o universo. Cada uno de los elementos que lo forman se suelen
   denominar individuos o unidades estadísticas. La población pueden ser personas de una
   localidad, piezas de una producción, llamadas a un operador, etc. El número total de
   elementos que forman parte de la población se denota por lo general con la letra N
2. Característica de estudio: una vez fijada la población tendremos que ver que característica
   o características de la misma son objeto del estudio. Debemos establecer la forma de
   medir esta característica con el objetivo de que esta sea homogénea para todas aquellas
   unidades estadísticas en las que hagamos la medida. Es importante fijar perfectamente lo
   que entendemos como característica. Por ejemplo si estudiamos el número de
   habitaciones de las casas de un país tendremos que explicar previamente que entendemos
   como habitación.
   En las estadísticas oficiales es muy importante que se sigan las mismas reglas en los
   diversos lugares donde se realizan las encuestas. Por ejemplo en las estadísticas de
   sanidad se estudia el número de bebes fallecidos durante el parto. Es necesario fijar
   claramente hasta que tiempo se considera que el bebe fallecido es por el parto.
Jose Luis Lorente (preparador oposiciones secundaria www.joseluislorente.es)                1
                  Tema 59. Técnicas de obtención y representación de datos
    Las características pueden clasificarse en:
    a) Cuantitativas: son aquellas que son numerables y se describen por tanto mediante
         valores numéricos. A su vez pueden ser de dos tipos:
        a.1 Discretas: se describen mediante un conjunto finito y numerable de elementos que
        son cuantificables. Ejemplos: número de hijos de una madre.
        a.2. Continua: pueden tomar cualquier valor dentro de un intervalo, por ejemplo los
        metros cuadrados de una casa.
    b) Cualitativas: describen la característica de forma no numérica, por ejemplo el color, la
        forma, la opinión (favorable, no favorable…), idioma. A veces se establece un código
        que representa una opción cualitativa.
3. Delimitación del conjunto a realizar la encuesta: aunque lo deseable es que en la
   encuesta participen todos los N individuos que forman parte de la población (censo) esto
   no siempre es posible por cuestiones económicas, temporales, imposibilidad de llegar a
   todos los individuos, etc. Para estos casos lo que se hace es tomar una parte de la
   población, muestra (consideraremos que tiene n elementos), donde todos los individuos
   de la muestra han sido elegidos por procedimientos basados en la aleatoriedad o el
   conocimiento de la característica de estudio. La elección de la muestra no debe generar
   sesgo, es decir todos ningún conjunto de individuos no estar marginadas en la encuesta.
   Siempre hay que darse cuenta que aun sin sesgo el azar puede hacer que la muestra no
   sea del todo representativa de la población de estudio.
4. El cuestionario: es el documento donde se anotan las características observadas para
   cada unidad estadística. Puede presentarse de dos diferentes formas:
       a. Cuestionario individual: a cada individuo encuestado se le entrega un documento
            individual donde contestar las características estudiadas.
       b. Cuestionario en lista: se presenta en forma de tabla de manera que en la fila o
            columna se encuentran las características y en la fila (columna) los individuos
            encuestados.
    Las características fundamentales de un buen cuestionario son: a) comodidad para las
    personas encuestadas, b) precisión para las preguntas formuladas, c) poca iniciativa a los
    encuestados (preguntas cerradas), d) incluir lo esencial. Para asegurar la veracidad de los
    datos es importante si el cuestionario se hace a personas que se les asegure el anonimato.
    Existe en este sentido cada vez más legislación para la protección de datos.
    Siempre se tiene que tener en cuenta las siguientes consideraciones: 1) las respuestas no
    siempre tienen que ser sinceras, 2) la respuesta no indica lo que el individuo piensa sino lo
    que quiere hacer ver al encuestador que piensa.
5. Elaboración de los resultados: una vez recogida la información se comprueban los
   cuestionarios se organizan y se obtienen los resultados deseados. Estos resultados pueden
   venir en forma de tablas o gráficos estadísticos como veremos en apartados siguientes.
6. Distribución de los resultados: una vez obtenidos y elaborados los resultados es
   interesante hacer estos públicos a una parte de la sociedad o a toda según se estime. Por
   ejemplo los resultados de una empresa de la productividad de sus empleados no se hará
   pública, en cambio las estadísticas oficiales (como el paro) son generalmente públicas.Para
   científicos las estadísticas realizadas se publicarán en revistas o congresos especializados.
Jose Luis Lorente (preparador oposiciones secundaria www.joseluislorente.es)                   2
                     Tema 59. Técnicas de obtención y representación de datos
3. Tablas estadísticas.
    Una vez obtenida la información (datos) sobre los individuos de nuestra población (bien
por censo o por muestreo) se deben ordenar y resumir. Para ello, y en especial las
características cuantitativas discretas y cualitativas, el primer paso es el recuento de
respuestas idénticas.
   3.1. Variables discretas y cualitativas
    Estas dos variables se trabajan en las tablas de la misma forma ya la característica de
estudio tiene un número limitado de posibles valores (numéricos o cualitativos). Veamos
algunas magnitudes que nos permiten resumir la información de la estadística:
   1. Frecuencia absoluta: es el número de veces que se repite cada dato. Generalmente los
      datos se representan como x1, x2, …, xk y a sus frecuencias absolutas se denotan con
                                                                                k
       f(xi) o fi. Se cumple que si interviene n individuos en la encuesta    ∑f
                                                                               i =1
                                                                                      i    = n.
   2. Frecuencia relativa: es el cociente entre la frecuencia absoluta y n, número de
                                                                                          k
                                                                               fi
       individuos de la muestra. Se denota como hi o fri. Así fri = hi =          (nota ∑ hi = 1 ).
                                                                               n        i =1
   3. El porcentaje: que representa la proporción en tanto por cien de cada una de los
                                                                                           k
       datos. Se representa como pi, y se calcula como pi=fri·100 (se cumple              ∑p
                                                                                          i =1
                                                                                                 i   = 100 ).
   4. Frecuencia relativa acumulada (solo variables cuantitativas): es el número de
      elementos con valor de x menor o igual que xi. Se denota como Fi, y se calcula como
               i
        Fi = ∑ f i = Fi −1 + f i . Se cumple que Fk=n.
              j =1
   5. Frecuencia relativa acumulada (sólo variables cuantitativas): es cociente de la
      frecuencia absoluta acumulada entre n. Se denota como Hi y se cumple que su valor se
                               i
                                             Fi
       calcula como H i =     ∑h
                              j =1
                                     j   =
                                             n
                                                . Lógicamente se cumple que Hk=1.
   6. Porcentaje acumulado (sólo variables cuantitativas): es la suma de todos los valores
      porcentuales hasta esa categoría. Se denota como Pi y se calcula de diferentes maneras
              i
        Pi = ∑ p j = H i ·100 .
             j =i
       Ejemplo: números de hijos={1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 3, 3, 3, 3, 4, 4, 5}
           xi         fi           hi              pi              Fi              Hi           Pi
            1         5           0.25           25%                5            0.25         25%
            2         8           0.4            40%               13            0.65         65%
            3         4           0.2            20%               17            0.85         85%
            4         2           0.1            10%               19            0.95         95%
            5         1           0.05            5%               20              1          100%
          Total      20            1             100%
Jose Luis Lorente (preparador oposiciones secundaria www.joseluislorente.es)                                    3
                   Tema 59. Técnicas de obtención y representación de datos
    3.2. Variable continuas
    Cuando la variable toma valores en un intervalo o toma datos muy diversos donde se
repiten muy poco los resultados, no tiene lógica hacer la tabla de frecuencias de los mismos
pues todos tendrían frecuencia unidad. La forma de proceder para estos valores es agruparlo
en intervalos o clases y calcular las frecuencias para dichos intervalos. Las variables a utilizar
son las mismas que en las variables discretas.
    La dificultad surge de cómo agrupar los datos, antes veremos una serie de definiciones:
    1. Amplitud del intervalo: es la diferencia entre la cota superior, Mi, y la inferior, mi:
       Ai=Mi -mi . Se pueden trabajar con intervalos de diferente amplitud, aunque lo normal
       es que sean iguales.
    2. Marca de clase: es el punto medio del intervalo.Se calcula como la semisuma de los
                             M i + mi
        dos extremos xi =             . Suele utilizarse de forma aproximada, y por sencillez de
                                 2
       cálculos, como el valor representativo de todas las magnitudes que están en el
       intervalo.
    3. Rango: es la diferencia entre el valor máximo de la variable y el mínimo, se denota
       como R, siendo R=Xmax-Xmin
     Cuando tengamos una serie de datos y queremos construir los intervalos se nos plantean
cuantos intervalos deberíamos construir y como debes ser. Aunque los intervalos pueden ser
utilizar como se deseen, la información será productiva si se realizad de forma adecuada
siguiendo las siguientes pautas, con un compromiso entre: un único intervalo (perdemos
información de los datos) y tantos intervalos como datos (variable discretas).
    Para determinar el número de intervalos, k, hay varias leyes:
    1. Ley de Sturgues: k ≈ 1 + log 2 (n) (con k entero)
    2. Ley de la raíz: k ≈   n
                                                                                               R
    Si son intervalos de la misma amplitud esta amplitud, a, se calculará como a =               ,
                                                                                               k
construyendo los intervalos a partir del valor mínimo y sumando la amplitud: I1=[xmin,xmin+a),
I2=[xmin+a, xmin+2ª), , Ik=[xmax-a, xmax]. A veces con el fin de que los extremos de los intervalos
sean exactos se modifica el intervalo disminuyendo la cota inferior y/o aumentado la superior.
   Ejemplo: metros cuadrados de 20 viviendas: 30, 38, 45, 50, 62, 75, 76, 78, 82, 95, 100, 110,
115, 120, 125, 128, 130, 160, 177.
                                                                177 − 30
    k ≈ 1 + log 2 (20) = 5,32.. o k ≈ 20 = 4,47  k=5  a =               = 29.4 . Podemos
                                                                    5
                                                                           180 − 30
aumentar el rango 3 unidades (hasta 180 por ejemplo) y así tenemos que a =           = 30
                                                                              5
Jose Luis Lorente (preparador oposiciones secundaria www.joseluislorente.es)                     4
                  Tema 59. Técnicas de obtención y representación de datos
               Ii            xi          fi            hi      pi          Fi         Hi               Pi
           [30, 60)         45          4             0.2     20%           4        0.2              20
           [60, 90)         75          5            0.25     25%           9        0.45             45
           [90,120)         105         4             0.2     20%          13        0.65             65
          [120, 150)        135         5            0.25     25%          18        0.9              90
          [150, 180]        165         2             0.1     10%          20         1               100
        Total [30,180]                  20             1      100
    Cuando tenemos variables discretas pero con muchos valores diversos de la característica
X se suele trabajar también con intervalos.
4. Gráficas estadísticas
     Los gráficos son una forma de presentar la información estadística de forma que sea muy
intuitiva de valorar. En este punto veremos diferentes tipos de gráficas diferenciando entre sí
los cuantitativos discretos y cualitativos de los cuantitativos continuos.
    4.1. Gráficos para características cualitativas y cuantitativas discreta
    La representaciones más usadas para este tipo de datos son los conocidos diagramas de
barras y los gráficos por sectores. Veamos cada uno de ellos por separado
    1. Diagrama de barras: se representa en el eje de coordenadas los distintos valores que
       toman los datos (si son numéricos separados de forma proporcional a su valor y si son
       cualitativos equiespaciados) siendo la altura de la barra igual al valor de la frecuencia
       absoluta, relativa o el tanto por ciento (da igual cual porque son proporcionales). Por
       ejemplo para la estadística del ejemplo la gráfica será:
                                              Hijos
         9
         8
         7
         6
         5
         4
         3
         2
         1
         0
                   1              2              3              4               5
    A veces los diagramas de barras se ponen en columnas (cambiar eje OX y OY).
    Alguna vez en características cuantitativas se añaden a la gráfica las frecuencias
acumuladas, obteniendo una línea escalonada. Para características cualitativas aunque la
ordenación puede ser aleatoria se puede optar por los diagramas de Pareto donde se ordena
los datos de más a menos frecuencia absoluta, incluyéndose además la gráfica de frecuencias
acumuladas.
Jose Luis Lorente (preparador oposiciones secundaria www.joseluislorente.es)                      5
                   Tema 59. Técnicas de obtención y representación de datos
    2. Diagrama de sectores: cuando el número de valores de la característica x no es muy
       grande uno de los gráficos más usados es el del diagrama de sectores. Es muy utilizado
       en las votaciones. Se trata de un círculo dividió en sectores circulares donde el ángulo
       del sector se relaciona de forma directamente proporcional al porcentaje de la
       característica.
       Los gráficos suelen venir acompañados de las frecuencias relativas o por los
       porcentajes. En ocasiones las clases con menos porcentaje se unen en un mismo
       sector circular (partidos minoritarios). Veamos un ejemplo.
    4.2. Gráficas para características continuas.
     Cuando tenemos variables continuas con las variables agrupadas en intervalos la gráfica
más utilizada es el denominado histograma. En el histograma se representan los intervalos o
clases en el eje de abscisas, siendo el ancho de la barra proporcional al rango de cada
intervalo. La altura de la barra se calcula de forma proporcional al porcentaje o a la frecuencia
relativa de la característica en este intervalo. A diferencia de los diagramas de barras las barras
en este caso se encuentran pegadas unas con otras.
   En ocasiones los histogramas suelen incluir los polígonos de frecuencia absoluta,
construidos uniendo los puntos medios del lado de la barra de los rectángulos. Veamos en el
ejemplo realizado anteriormente.
Jose Luis Lorente (preparador oposiciones secundaria www.joseluislorente.es)                     6
                     Tema 59. Técnicas de obtención y representación de datos
       6
                                 5                           5
       5
                 4                             4
       4
       3
                                                                           2
       2
       0
              [30, 60)        [60, 90)      [90,120)     [120, 150)    [150, 180]
   4.3. Otras representaciones gráficas.
   Existen numerosas técnicas para representar de forma atractiva la información estadística.
Veamos alguno de ellos:
   1. Pictograma:: utiliza dibujos alusivos a los temas que estamos estudiando haciendo que
      las dimensiones del dibujo sea proporcional a la correspondiente frecuencia o
      repitiendo varios de ellos. Veamos un ejemplo:
   2. Pirámides de población: gráfico de barras dispuestas horizontalmente cuya longitud es
      proporcional a la cantidad de personas que representa la edad y sexo de la población
      en cada una de dichas barras. Gráficamente se trata de un doble histograma de
      frecuencias.
              cias. Las barras del doble histograma se disponen en forma horizontal, es decir,
      sobre la línea de las abscisas, y convencionalmente se indican los grupos de edad de la
      población masculina a la izquierda y los que representan la población femenina a la
      derecha.
          echa. A su vez, en el eje de las ordenadas se disponen e identifican los grupos de
      edad, por lo general, de cinco en cinco años o llamados quinquenales: (0 a 4, 5 a 9, 10
Jose Luis Lorente (preparador oposiciones secundaria www.joseluislorente.es)                7
                  Tema 59. Técnicas de obtención y representación de datos
       a 14, etc.), colocando las barras de menor edad en la parte inferior del gráfico y
       aumentando
         mentando progresivamente hacia la cúspide las edades de cada intervalo.
Jose Luis Lorente (preparador oposiciones secundaria www.joseluislorente.es)           8
                  Tema 59. Técnicas de obtención y representación de datos
       Según la forma de la pirámide nos indica si la población es joven (pirámide con mucha
       base y cada vez más estrecha) típica de los países en vías de desarrollo, o envejecida
       (pirámide
            mide con barras de edades entre 30 y 60 años muy grande) típica de países
       desarrollados. A veces hay pirámides desequilibradas en un sexo por posibles
       migraciones de un sexo
                         sexo, guerras u otros motivos.
   3. Diagrama de series temporales
                           temporales: en muchas ocasiones las clases corresponden a
      diferentes periodos temporales, ordenando las clases según un orden cronológico o
      uniendo los puntos que relacionan el instante temporal y su frecuencia. Un caso
      particular y uno de los más importantes son los climogramas:
                                                               climogramas donde las
      precipitaciones se representan por diagramas de barras y las temperaturas por
      diagrama de series temporales.
Jose Luis Lorente (preparador oposiciones secundaria www.joseluislorente.es)                    9
                  Tema 59. Técnicas de obtención y representación de datos
5. Tendenciosidad y errores más comunes
   Los errores en una estadística pueden ser de dos tipos: involuntarios o voluntarios,
también llamados tendenciosidades.
   Los errores involuntarios suelen surgir en la recogida de la información, intentando que
todos los individuos de la población sean igualmente probables de participar en la muestra
que representa la población.
    Tendenciosidades más comunes: Existen varios tipos de errores estadísticos que muchas
veces uno comete de manera consciente para manipular la opinión de la gente. Algunas veces,
los datos son tantos que se debe “seleccionar” con el objetivo de hacerlos más fáciles de
entender; sin embargo, parte de la historia también desaparece:
   1) La media no nos da toda la información que se desea. Por ejemplo si los sueldos de los
      españoles que sube es la de los que más dinero ganan el promedio de los sueldos en
      España aumenta, pero la información será sesgada si solo damos la información de la
      media. Mucha información se pierde si sólo calculamos promedios. Es importante que
      los resúmenes estadísticos nos informen de otros datos importantes, como el rango, la
      mediana o los cuartiles y percentiles.
   2) En la visualización de datos, el tamaño generalmente sí importa. Dale un vistazo a los
      dos diagramas a continuación.
       Imagina el encabezado de ambas gráficas. El de la izquierda se podría llamar “El gasto
       en Salud Pública en Finlandia incrementa“, pero la gráfica de la derecha se podría
       llamar “El gasto en salud pública en Finlandia se mantiene estable”…pero ambas
       gráficas son las mismas en diferente escala.
   3) Las líneas del tiempo también son elementales para los mostrar datos. Mira el
      esquema a continuación.
Jose Luis Lorente (preparador oposiciones secundaria www.joseluislorente.es)               10
                  Tema 59. Técnicas de obtención y representación de datos
        ¿Existe un claro incremento de los gastos en salud pública desde el 2002? No. Date
        cuenta de que, antes de 2004, la gráfica se representa de forma anual. Pero existe un
        salto de 3 años del 2004 al 2007, y de dos años del 2007 al 2009. Esta gráfica nos hace
        creer que, desde 2002, los gastos en salud pública crecieron a partir de ese año, pero
        no es así. Si tienes que trabajar con líneas de tiempo, asegúrate que las escala o lapso
        de tiempo sean iguales. Solo así podrás entender las tendencias.
    4) Por ciento vs porcentaje : Éste es un error muy común para la mayoría de nosotros. Si
       una valor cambia de 5% a 10%, ¿cuánto por ciento cambió?
       ¡Si tu respuesta es 5%, es un error! La respuesta es 100% (Imagina que tienes 5
       manzanas y te dan 10; tienes ahora tienes 100% más).
6. Conclusiones.
    Las tablas y gráficas estadísticas se imparten desde el 3er curso de secundaria, los alumnos
deben ser capaces de realizarlas así como de interpretarlas. Las tablas son también una
herramienta que nos permite calcular los parámetros estadísticos más importantes como la
media, la mediana o la varianza.
Jose Luis Lorente (preparador oposiciones secundaria www.joseluislorente.es)                  11