[go: up one dir, main page]

0% encontró este documento útil (0 votos)
104 vistas9 páginas

Proceso ETL

El documento presenta las instrucciones para el trabajo final del curso Master en Big Data. Se pide desarrollar un proceso ETL para unificar y ordenar las bases de datos de clientes de una empresa familiar dedicada a la ferretería. El proceso permitiría disponer de una única fuente de datos estructurada y validada para tomar mejores decisiones estratégicas. Se deben describir las actividades de limpieza, extracción, transformación y carga de datos usando la herramienta Pentaho.

Cargado por

kamil
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOCX, PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
104 vistas9 páginas

Proceso ETL

El documento presenta las instrucciones para el trabajo final del curso Master en Big Data. Se pide desarrollar un proceso ETL para unificar y ordenar las bases de datos de clientes de una empresa familiar dedicada a la ferretería. El proceso permitiría disponer de una única fuente de datos estructurada y validada para tomar mejores decisiones estratégicas. Se deben describir las actividades de limpieza, extracción, transformación y carga de datos usando la herramienta Pentaho.

Cargado por

kamil
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOCX, PDF, TXT o lee en línea desde Scribd
Está en la página 1/ 9

TRABAJO FINAL

Programa formativo:
Master Big Data
Bloque: El proceso ETL

Fecha: 06/05/2020

Escuela de Negocios Europea de Barcelona


Página 6
Instrucciones del Trabajo Final

A continuación, se adjunta el trabajo final que debes realizar correctamente


para la obtención del título acreditativo del curso que estás realizando.
Recuerda que el equipo de tutores está a tu completa disposición para
cualquier duda que tengas a lo largo de su desarrollo. Recuerda que no se
realizan correcciones parciales del trabajo, solo se admite la versión
finalizada. Dicho envío se realizará en esta plantilla y las respuestas deberán ir
redactadas a continuación del enunciado.
La presentación de los casos prácticos deberá cumplir los siguientes requisitos:

 Letra Arial 12
 Márgenes de 2,5
 Interlineado de 1,5
 Todos los campos de la portada deben estar cumplimentados
 Tener una correcta paginación

Los casos entregados deben ser originales e individuales. Cualquier


similitud entre ejercicios de distintos alumnos, ejemplos y/o extractos de la Red
u otros documentos, conllevará la devolución inmediata de los ejercicios y la no
obtención de la titulación en el caso de reiteración. Recuerda que solo podrás
enviar hasta dos veces por asignatura el trabajo final, en caso de no superarse
en esos intentos, el alumno/a deberá abonar el precio correspondiente a los
créditos de la asignatura para poder volver a ser evaluado.

Los trabajos solo serán aceptados en formato de procesador de texto (Word,


docx, odt, etc.) o en pdf. En caso de presentar otro formato deberá ser
consultado con el asesor y si es necesario, proporcionar el software necesario
para su lectura.

Página 6
El archivo que se enviará con el trabajo deberá llevar el siguiente formato:

ddmmaa_Nombre del Bloque_Apellidos y Nombres.pdf


Ejemplo:
11052018_Estrategia Empresarial_Garcia Pinto Marina.pdf

La extensión del trabajo no podrá sobrepasar las 18 páginas, sin contar la


portada, bibliografía y anexos.

Criterios de Evaluación

El trabajo final se evaluará en función de las siguientes variables:

 Conocimientos adquiridos (25%): Se evaluarán los conocimientos


adquiridos a lo largo de la asignatura mediante el análisis de los
datos teóricos presentes a lo largo del trabajo presentado por el
alumno/a.

 Desarrollo del enunciado (25 %): Se evaluará la interpretación del


enunciado por parte del alumno/a y su desarrollo de manera
coherente y analítica.

 Resultado final (25%): Se evaluará el resultado final del enunciado,


si el total del redactado aporta una solución correcta a lo planteado
inicialmente y si el formato y presentación se enmarca dentro de los
parámetros establecidos.

 Valor añadido y bibliografía complementaria (25%): Se evaluarán


los aportes complementarios por parte del alumno/a para la
presentación y conclusión del trabajo final que den un valor añadido a
la presentación del enunciado: bibliografía complementaria, gráficos,
estudios independientes realizados por el alumno/a, fuentes
académicas externas, artículos de opinión, etc. Todas las fuentes,
tanto impresas como el material en línea, deberán ir anexadas al
trabajo siguiendo la normativa APA.

Página 6
ENUNCIADO

Hierros S.A. es una empresa familiar dedicada a la venta de productos de


ferretería y maquinaria ubicada en el barrio del Eixample en Barcelona.
La empresa lleva más de cien años en activo y dispone de una importante
cartera de clientes, tanto a nivel personal como profesional, cuyos datos
conforman una enorme base de datos con información realmente valiosa pero
a la que no se le da un uso correcto. En relación a esta información, comentar
que disponemos de datos de hace unos ochenta años, aproximadamente. Por
supuesto los datos de los primeros años se registraron en formato papel, pero
poco a poco fueron informatizándose.

El principal problema con todos los datos e informaciones de los clientes reside
en el hecho de que dichos datos no se encuentran unificados, es decir, cada
departamento cuenta con su propia base de datos y los valores utilizados no
coinciden, además de encontrarse datos registrados en castellano y otros en
catalán, y en términos económicos, algunos de ellos están expresados en
pesetas y otros en euros.
Comentar que todas las bases de datos están informatizadas en archivos
Excel, en los que nos encontramos con las siguientes categorías:
- Nombre y apellidos.
- Nombre de la empresa.
- DNI o CIF.
- Teléfono.
- Dirección.
- Email.
- Histórico de compras.
- Ticket medio.
- Tipos de productos que compra con más frecuencia y cantidades.

En breve Miguel, el hijo del actual propietario, heredará el negocio y consciente


de la importancia que tiene para el desarrollo del negocio disponer de una
buena base de datos que le permita conocer de primera mano cómo son sus

Página 6
clientes así como poder tomar decisiones estratégicas acertadas, acude a ti
para que le ayudes a ordenar y unificar los datos, así como a comprobar que
los datos de que dispone son válidos y a eliminar aquellos que han perdido
validez, como pueden ser registros duplicados o disponer de informaciones de
clientes que ya han fallecido.

Página 6
SE PIDE

Teniendo en cuenta lo aprendido durante el curso y el enunciado


presentado:

1. Valorando la situación de la actual base de datos de Hierros S.A.,


¿consideras bueno que se lleve a cabo un proceso de ETL? Justifica tu
respuesta considerando los beneficios que ello reportaría a la empresa
de Miguel. Además, será importante establecer los objetivos de la
puesta en marcha de este proceso.

Hierros S.A. posee una base de datos estructurada, legible para


maquinas con datos separadas en columnas y filas. Todos ellos en el
mismo formado de documento Excel ( sin contar los más antiguos en
papel).
Un proceso ETL se encarga de extraer, transformar y cargar datos,
teniendo en cuenta su integridad y coherencia, eso quiere decir que los
datos extraídos serán procesados de una manera que, en la última
parte, en la carga, estén agrupados debidamente y no haya datos en
filas que no debería. También le otorgara un repositorio central
estandarizado con todos los datos de los distintos departamentos.

Al tener los datos a mejor disposición, la empresa podrá tomar


decisiones estratégicas basadas en análisis de los datos cargados,
otorgando una visión global.

Este proceso ETL se realizará con la herramienta Pentaho. Nos permite


cargar datos de distintas fuentes de origen en un dará WareHouse,
como es el caso de los ficheros Excel de distintos departamentos con
distintas bases de datos de Hierros. Incluye conectores a ficheros Excel.

Página 6
2. Teniendo en cuenta la información que se tiene de la empresa
recogida en las bases de datos, ¿crees que sería interesante recoger
otro tipo de información?, ¿qué información añadirías? Justifica tu
respuesta.

Una vez hecha la infraestructura de herramientas Pentaho. A


pesar seguir usando Pentaho aunque con otra de sus herramienta, la
forma de desarrollo es diferente a las otras, tienen diferentes
metodologías para hacer las mismas o parecidas acciones pero con
distintas herramientas.

Ofreceremos a Miguel de usar Pentaho Dashboard para proporcionar


información sobre sus datos. Con gráficos y informes.
Por lo tanto, Miguel está en la opción de añadir más matrices a los datos,
de esta manera los gráficos estarán más completos.

3. Describe las actividades que llevarías a cabo en cada fase del proceso
de ETL (limpieza, extracción, transformación y carga).

Limpieza: Al tener archivos tan antiguos y algunos de ellos en papel, es


muy probable que nos encontremos con datos erróneos o equívocos, en un
lugar donde no deberían estar y están por error. En tal caso mayormente
son errores humanos. Por lo tanto llevaremos una auditoria de datos para
proceder a revisarlos(se detectan, se limpian normalizan, deduplican para
no generar datos copiados y por ultimo de integran en la base), una vez
encontrados implantaremos un Data Cleaning para que restaure los mimos
errores en el resto de datos.
Con estas acciones se provee de tener datos no válidos, y una vez
conseguido pasamos a la siguiente fase.

Extracción: Una vez marcadas las pautas que debemos buscar en la base
de datos del cliente, en este caso nombre, correero, teléfono, dirección,etc.

Página 6
Todos esos campos son extraídos en tipo de extracción total de las bases
de los departamentos ( como hay varias bases de datos, hay que realizar el
proceso varias veces).
Una vez en posesión de los datos procedemos a analizaremos sí coinciden
con lo establecido, un chequeo para verificar y tomar medidas de corrección
si algunas pautas son rechazadas.
Por última parte esos datos ya verificados se preparan para la siguiente
fase.

Transformación: Aplicaremos una serie de medidas para normalizar datos


del mismo gremio que han sufrido distorsión por el tiempo o ubicación.
En el apartado del historial de compra y tiques induciremos la acción de
conversión de unidades para normalizar las divisas euro y pesetas de los
datos antiguos.
Por otro lado, dividiremos las columnas del apartado de identificación, de
esta manera tendremos separados el nombre de los apellidos.

Carga: En esta última fase de importación de los datos transformados.


Desarrollaremos en formato Bolling, almacenando la información en
distintos niveles jerárquicos. Agrupando las ventas anuales, clientes
anuales y tiques impresos anuales.

4. Tal y como se ha comentado en el enunciado, Hierros S.A. lleva más de


cien años en activo, hecho que implica que se disponga de una gran
cantidad de datos de la mayoría de sus clientes. Ello provoca que pueda
haber datos con valores erróneos, datos mal introducidos, datos
duplicados, valores que no coinciden, etc. Ello provocará que sea
necesario llevar a cabo un proceso para establecer la calidad de los
datos y detectar los errores. Señala aquí los errores con los que
puedes toparte en este proceso, teniendo en cuenta lo que hemos
expuesto en el enunciado. Propón también de qué manera podemos
solucionar dicho error. Es importante que justifiques tu elección.

Página 6
Los errores más comunes en estos tipos de datos son:
Error al introducir los datos por fallo del usuario al teclear dígitos.
Otro error suele aparecer en el almacenamiento de los datos. Las
casillas para introducir los datos tienen una serie requisitos a cumplir, y
puede que los datos las excedan (bastante probable teniendo en cuneta
la diferencia de años entre datos)

Estos errores comunes tienen como solución una auditoria de datos.


Una vez identificados con la auditoria podremos eliminar los no válidos y
los duplicados para una mayor integridad en la base de datos

Página 6

También podría gustarte