BIG DATA & ANALYTICS
Introducción
2
La 4ta Revolución
1st Revolution
2nd Revolution
3rd Revolution
4th Revolution
Maquina de vapor y el
desarrollo del
ferrocarril.
Electricidad y la cadena
de montaje, fabricas.
Semiconductores,
ordenadores personales,
internet.
Información y tecnologia
Digitales
1784
1870
1969
Tiempo Historia de la Humanidad
Ahora
La Revolución de los Datos
La Revolución de los Datos
La Revolución de los Datos
¿Que es Big Data?
¿Que es Big Data?
Opiniones de empresarios acerca Big Data
Fuente: IBM® Institute for Business Value
¿Que es Big Data?
"Big Data comprende altos Volumenes, Velocidad y
Variedad de información, los cuales demandan
formas innovadoras de procesamiento para
mejorar la comprensión y la toma de decisiones»
¿Que es Big Data?
Dimensiones del Big Data (3V)
¿Que es Big Data?
La actividad socio-económica deja una huella digital que puede ser
RASTREADA, CAPTURADA Y INTERPRETADA
Big Data & Analytics - Casos de uso
Es una multinacional de telecomunicaciones con presencia en Europa y
Estados Unidos
Objetivo : Reducir sustancialmente el numero de portabilidad a otros competidores en EEUU
Análisis :
▪ Cantidad de llamadas que realizan y las horas en las que tienen lugar
▪ Números favoritos
▪ Número de llamadas que se cortan por problemas de cobertura
▪ Interacciones de sus clientes en medios sociales.
Expectativas de portabilidad :
✓ Facturas
✓ Llamadas que se cortan debido a mala cobertura
✓ Conversaciones de los clientes: positivas, negativas o neutrales (Modelo de reputación )
Resultado :
‘Customer Lifetime Value‘, optimo el cual era transmitida en tiempo real a cada agente de la compañía para
presentar a los clientes ofertas personalizadas.
Logró reducir en un 50% la portabilidad de sus clientes
Big Data & Analytics - Casos de uso
Netflix es un servicio de video streaming a través de internet por suscripción con una
cuota mensual , cuenta con más de 80 millones de suscriptores a nivel mundial
Objetivo : Predecir los gustos de sus suscriptores
Análisis :
▪
▪
▪
▪
▪
▪
▪
Cuándo haces pausa, rebobinas o avanzas rápidamente.
Qué día ves contenido
En qué fecha/s y horario/s lo has visto y en que lugar
Qué dispositivo utilizas para ver
Valoraciones/puntuaciones otorgadas (alrededor de 4 millones por día)
Búsquedas (alrededor de 3 millones por día)
Navegación y comportamiento de desplazamiento
Resultado :
Personalizar las recomendaciones, Generación de contenido. (House of Cards : Éxito Mundial)
Big Data & Analytics - Casos de uso
Walmart es uno de las tiendas retail más importantes del mundo que cuenta
con más de 245 millones de clientes que visitan 10.900 tiendas y con
presencia en 10 países.
Objetivo : Identificar las pautas de compra de sus clientes cuando se acercaba un huracán.
Análisis :
▪
▪
▪
Datos de los sistemas transaccionales
Redes sociales
Alerta telediarios acerca los huracanes
Resultado :
Supermercado fue capaz de predecir con una exactitud desconocida hasta el momento el volumen de
aprovisionamiento que requería para poder hacer frente a la demanda de sus clientes por el huracán
Una anécdota es que este supermercado fue capaz de predecir el impacto del huracán y aprovisionarse
mejor que el propio gobierno estadounidense.
Big Data & Analytics - Casos de uso
jetBlue Airways es una aerolínea estadounidense de bajo coste perteneciente a
la JetBlue Airways Corporation, se convirtió en una de las líneas aéreas más
populares del país, y actualmente tiene aproximadamente dos mil millones de
dólares en la capitalización de mercado
Objetivo : Mejorar el servicio al cliente con la finalidad de fidelizarlo y evitar que se vaya a al competencia
Análisis :
▪
▪
▪
Datos de los sistemas transaccionales
Datos de los clientes
Redes sociales
Resultado :
La calidad de servicio al cliente se elevo significativamente, por ejemplo cuando sus clientes se quejaban a
través de un red social con twitter acerca de un vuelo atrasado, la empresa tenia la capacidad de
responder en forma rápida debido a que se generaba en forma automática y en tiempo real alertas al área
del servicio al cliente para que puedan atender personalmente a cada cliente, esto generaba en cada
cliente confianza de que eran escuchados y atendidos.
Big Data & Analytics - Casos de uso
Holanda
Objetivo : El objetivo principal que se trazo Holanda es organizar y agilizar el tráfico para reducir el tiempo
de espera para generar mejor calidad de vida a sus habitantes a través de Semáforos Inteligentes
Análisis :
▪
▪
Videos/Imágenes de la circulación de los autos
Georreferenciación de semáforos
Resultado :
Los semáforos inteligentes eran capaz de autogestionarse en tiempo real y conectarse con otros semáforos
para poder controlar el tiempo adecuado para ceder el paso en las diversas vías logrando optimizar los
tiempos de los vehículos detenidos agilizando el transporte generando bienestar a su población
Equipos, Roles y Fases
17
Equipos / Roles
1
Sponsor
Expert
Consultant
2
Project
Manager
Data Engineer
Technical Lead
3
Data Engineers
Data Visualizations
Data
Architect
Data Scientist
Technical Lead
Data Scientists
Fases
Functional
requirements
•En esta fase se realiza el levantamiento de los
requerimientos y como estos generan valor al
negocios así como también si se encuentra
alineado a la estrategia corporativa.
Design
Architecture
•En esta fase se realiza la revisión de las fuentes de
información y de la infraestructura tecnológica para
realizar el diseño lógico y físico del ecosistema
analítico que va a soportar el proyecto de Big Data.
Development
•En esta fase se realiza el desarrollo de los procesos de
ingesta de información al Datalake a través de procesos
de carga automáticos siguiendo los lineamientos
arquitectónicas y de las mejores practicas de desarrollo.
Analytics
•En esta fase se realiza el análisis de información
en sus diversas tipos y formas (Reportes,
Dashboard, Data Mining, Machine Learning, etc)
Fases y Roles
Functional
requirements
Design
Architecture
Expert
Consultant
Sponsor
Data Architect
Development
Data Engineer
Technical Lead
Data Engineers
Analytics
Data Scientist
Technical Lead
Data Scientists
Data Visualization
HADOOP
21
Conceptos e Historia de Hadoop
¿Cuáles fueron las primeras empresas que se
enfrentaron a problemas de Big data?
Conceptos e Historia de Hadoop
Conceptos e Historia de Hadoop
2003 - 2004
Conceptos e Historia de Hadoop
Doug Cutting : create an
open source project
called “Hadoop” - 2006
Conceptos e Historia de Hadoop
Conceptos e Historia de Hadoop
Otras compañias se unieron a la iniciativa
(Yahoo, Facebook, Linkedin, twitter, etc )
¿Que es Hadoop?
Hadoop es una tecnología de código
abierto que permite almacenar y
procesar datos con diversos formatos,
La tecnología Hadoop tiene la
capacidad de escalar para analizar y
explorar información que se
caracteriza por su alto volumen,
variedad y velocidad.
Al utilizar Hadoop las organizaciones
pueden lidiar sin problemas con datos
multi-estructurados y ser base de
información para los sistemas analíticos.
¿Por qué usar Hadoop?
Cluster de Hadoop
Administra YARN y HDFS (files,
directories) así como también la
metadata de los bloques de datos
Servidor cliente que se
conecta al Cluster, no forma
parte del cluster hadoop
Encargados de procesar
y almacenar los datos
Componentes de Hadoop
Características de Hadoop
Framework
Genérico
Almacenamiento
Distribuido
Cluster
Commodity
Procesamiento
Distribuido
Tolerante a Fallos
Automáticamente
Características de Hadoop
Framework
Genérico
Características de Hadoop
Almacenamiento
Distribuido
Características de Hadoop
Procesamiento
Distribuido
Características de Hadoop
Cluster
Commodity
Características de Hadoop
Tolerante a Fallos
Automáticamente
Distribuciones Hadoop
Hadoop on-Premise y on-Cloud
On-Cloud
On-Premise
Apache Hive
Apache Hive ™ , desarrollado inicialmente por Facebook, facilita la
lectura, escritura y administración de grandes conjuntos de datos que
residen en el almacenamiento distribuido mediante SQL.
Apache Impala
Apache Impala es la base de datos analítica nativa de código abierto
desarrollado inicialmente por Cloudera para ejecutarse sobre la plataforma de
Apache Hadoop.
Apache Hbase & Phoenix
Apache HBase, desarrollada inicialmente por Powerset, es usado cuando se
necesite acceso a tablas muy grandes (miles de millones de filas X millones de
columnas). Apache HBase fue modelada a partir de Bigtable de Google
proporcionando capacidades similares pero sobre Hadoop y HDFS.
Apache Phoenix permite utilizar sintaxis SQL para poder ejecutarse sobre Hbase
utilizando el API proporcionado por Hbase de tal manera que facilita el acceso a
las grandes tablas de HBase
Apache Sqoop
Apache Sqoop es una herramienta diseñada para transferir eficientemente
datos en forma masiva entre Apache Hadoop y almacenes de datos
estructurados, como las bases de datos relacionales.
Apache Flume
Apache Flume es un servicio distribuido, confiable y disponible para recopilar,
agregar y mover de manera eficiente grandes cantidades de datos de registro
en tiempo real. Tiene una arquitectura simple y flexible basada en flujos de
datos de transmisión. Es robusto y tolerante a fallas con mecanismos de
recuperación de fallas.
Apache Kafka
Apache Kafka es un proyecto de intermediación de mensajes. El proyecto tiene
como objetivo proporcionar una plataforma de alto rendimiento y de baja latencia
para la manipulación en tiempo real de fuentes de datos. Puede verse como una
cola de mensajes, bajo el patrón publicación-suscripción, masivamente escalable.
Apache Storm
Apache Storm es un sistema de computación en tiempo real distribuido de
código abierto y gratuito. Storm facilita el procesamiento confiable de flujos de
datos ilimitados, haciendo para el procesamiento en tiempo real lo que Hadoop
hizo para el procesamiento batch.
Apache Spark
Apache Spark es un motor de procesamiento en memoria, contiene
varios módulos los cuales se ejecutan en modo multicluster
GRACIAS
ADVANCED ANALYTICS TECHNOLOGY
Lince - Lima, Perú
Correo: capacitacion@atc.pe
Teléfono: 960725975
Página web: https://atc.pe/
Linkedin: https://bit.ly/2xrdcom
Facebook: https://bit.ly/2MMxC0K