[go: up one dir, main page]

Academia.eduAcademia.edu
BIG DATA & ANALYTICS Introducción 2 La 4ta Revolución 1st Revolution 2nd Revolution 3rd Revolution 4th Revolution Maquina de vapor y el desarrollo del ferrocarril. Electricidad y la cadena de montaje, fabricas. Semiconductores, ordenadores personales, internet. Información y tecnologia Digitales 1784 1870 1969 Tiempo Historia de la Humanidad Ahora La Revolución de los Datos La Revolución de los Datos La Revolución de los Datos ¿Que es Big Data? ¿Que es Big Data? Opiniones de empresarios acerca Big Data Fuente: IBM® Institute for Business Value ¿Que es Big Data? "Big Data comprende altos Volumenes, Velocidad y Variedad de información, los cuales demandan formas innovadoras de procesamiento para mejorar la comprensión y la toma de decisiones» ¿Que es Big Data? Dimensiones del Big Data (3V) ¿Que es Big Data? La actividad socio-económica deja una huella digital que puede ser RASTREADA, CAPTURADA Y INTERPRETADA Big Data & Analytics - Casos de uso Es una multinacional de telecomunicaciones con presencia en Europa y Estados Unidos Objetivo : Reducir sustancialmente el numero de portabilidad a otros competidores en EEUU Análisis : ▪ Cantidad de llamadas que realizan y las horas en las que tienen lugar ▪ Números favoritos ▪ Número de llamadas que se cortan por problemas de cobertura ▪ Interacciones de sus clientes en medios sociales. Expectativas de portabilidad : ✓ Facturas ✓ Llamadas que se cortan debido a mala cobertura ✓ Conversaciones de los clientes: positivas, negativas o neutrales (Modelo de reputación ) Resultado : ‘Customer Lifetime Value‘, optimo el cual era transmitida en tiempo real a cada agente de la compañía para presentar a los clientes ofertas personalizadas. Logró reducir en un 50% la portabilidad de sus clientes Big Data & Analytics - Casos de uso Netflix es un servicio de video streaming a través de internet por suscripción con una cuota mensual , cuenta con más de 80 millones de suscriptores a nivel mundial Objetivo : Predecir los gustos de sus suscriptores Análisis : ▪ ▪ ▪ ▪ ▪ ▪ ▪ Cuándo haces pausa, rebobinas o avanzas rápidamente. Qué día ves contenido En qué fecha/s y horario/s lo has visto y en que lugar Qué dispositivo utilizas para ver Valoraciones/puntuaciones otorgadas (alrededor de 4 millones por día) Búsquedas (alrededor de 3 millones por día) Navegación y comportamiento de desplazamiento Resultado : Personalizar las recomendaciones, Generación de contenido. (House of Cards : Éxito Mundial) Big Data & Analytics - Casos de uso Walmart es uno de las tiendas retail más importantes del mundo que cuenta con más de 245 millones de clientes que visitan 10.900 tiendas y con presencia en 10 países. Objetivo : Identificar las pautas de compra de sus clientes cuando se acercaba un huracán. Análisis : ▪ ▪ ▪ Datos de los sistemas transaccionales Redes sociales Alerta telediarios acerca los huracanes Resultado : Supermercado fue capaz de predecir con una exactitud desconocida hasta el momento el volumen de aprovisionamiento que requería para poder hacer frente a la demanda de sus clientes por el huracán Una anécdota es que este supermercado fue capaz de predecir el impacto del huracán y aprovisionarse mejor que el propio gobierno estadounidense. Big Data & Analytics - Casos de uso jetBlue Airways es una aerolínea estadounidense de bajo coste perteneciente a la JetBlue Airways Corporation, se convirtió en una de las líneas aéreas más populares del país, y actualmente tiene aproximadamente dos mil millones de dólares en la capitalización de mercado Objetivo : Mejorar el servicio al cliente con la finalidad de fidelizarlo y evitar que se vaya a al competencia Análisis : ▪ ▪ ▪ Datos de los sistemas transaccionales Datos de los clientes Redes sociales Resultado : La calidad de servicio al cliente se elevo significativamente, por ejemplo cuando sus clientes se quejaban a través de un red social con twitter acerca de un vuelo atrasado, la empresa tenia la capacidad de responder en forma rápida debido a que se generaba en forma automática y en tiempo real alertas al área del servicio al cliente para que puedan atender personalmente a cada cliente, esto generaba en cada cliente confianza de que eran escuchados y atendidos. Big Data & Analytics - Casos de uso Holanda Objetivo : El objetivo principal que se trazo Holanda es organizar y agilizar el tráfico para reducir el tiempo de espera para generar mejor calidad de vida a sus habitantes a través de Semáforos Inteligentes Análisis : ▪ ▪ Videos/Imágenes de la circulación de los autos Georreferenciación de semáforos Resultado : Los semáforos inteligentes eran capaz de autogestionarse en tiempo real y conectarse con otros semáforos para poder controlar el tiempo adecuado para ceder el paso en las diversas vías logrando optimizar los tiempos de los vehículos detenidos agilizando el transporte generando bienestar a su población Equipos, Roles y Fases 17 Equipos / Roles 1 Sponsor Expert Consultant 2 Project Manager Data Engineer Technical Lead 3 Data Engineers Data Visualizations Data Architect Data Scientist Technical Lead Data Scientists Fases Functional requirements •En esta fase se realiza el levantamiento de los requerimientos y como estos generan valor al negocios así como también si se encuentra alineado a la estrategia corporativa. Design Architecture •En esta fase se realiza la revisión de las fuentes de información y de la infraestructura tecnológica para realizar el diseño lógico y físico del ecosistema analítico que va a soportar el proyecto de Big Data. Development •En esta fase se realiza el desarrollo de los procesos de ingesta de información al Datalake a través de procesos de carga automáticos siguiendo los lineamientos arquitectónicas y de las mejores practicas de desarrollo. Analytics •En esta fase se realiza el análisis de información en sus diversas tipos y formas (Reportes, Dashboard, Data Mining, Machine Learning, etc) Fases y Roles Functional requirements Design Architecture Expert Consultant Sponsor Data Architect Development Data Engineer Technical Lead Data Engineers Analytics Data Scientist Technical Lead Data Scientists Data Visualization HADOOP 21 Conceptos e Historia de Hadoop ¿Cuáles fueron las primeras empresas que se enfrentaron a problemas de Big data? Conceptos e Historia de Hadoop Conceptos e Historia de Hadoop 2003 - 2004 Conceptos e Historia de Hadoop Doug Cutting : create an open source project called “Hadoop” - 2006 Conceptos e Historia de Hadoop Conceptos e Historia de Hadoop Otras compañias se unieron a la iniciativa (Yahoo, Facebook, Linkedin, twitter, etc ) ¿Que es Hadoop? Hadoop es una tecnología de código abierto que permite almacenar y procesar datos con diversos formatos, La tecnología Hadoop tiene la capacidad de escalar para analizar y explorar información que se caracteriza por su alto volumen, variedad y velocidad. Al utilizar Hadoop las organizaciones pueden lidiar sin problemas con datos multi-estructurados y ser base de información para los sistemas analíticos. ¿Por qué usar Hadoop? Cluster de Hadoop Administra YARN y HDFS (files, directories) así como también la metadata de los bloques de datos Servidor cliente que se conecta al Cluster, no forma parte del cluster hadoop Encargados de procesar y almacenar los datos Componentes de Hadoop Características de Hadoop Framework Genérico Almacenamiento Distribuido Cluster Commodity Procesamiento Distribuido Tolerante a Fallos Automáticamente Características de Hadoop Framework Genérico Características de Hadoop Almacenamiento Distribuido Características de Hadoop Procesamiento Distribuido Características de Hadoop Cluster Commodity Características de Hadoop Tolerante a Fallos Automáticamente Distribuciones Hadoop Hadoop on-Premise y on-Cloud On-Cloud On-Premise Apache Hive Apache Hive ™ , desarrollado inicialmente por Facebook, facilita la lectura, escritura y administración de grandes conjuntos de datos que residen en el almacenamiento distribuido mediante SQL. Apache Impala Apache Impala es la base de datos analítica nativa de código abierto desarrollado inicialmente por Cloudera para ejecutarse sobre la plataforma de Apache Hadoop. Apache Hbase & Phoenix Apache HBase, desarrollada inicialmente por Powerset, es usado cuando se necesite acceso a tablas muy grandes (miles de millones de filas X millones de columnas). Apache HBase fue modelada a partir de Bigtable de Google proporcionando capacidades similares pero sobre Hadoop y HDFS. Apache Phoenix permite utilizar sintaxis SQL para poder ejecutarse sobre Hbase utilizando el API proporcionado por Hbase de tal manera que facilita el acceso a las grandes tablas de HBase Apache Sqoop Apache Sqoop es una herramienta diseñada para transferir eficientemente datos en forma masiva entre Apache Hadoop y almacenes de datos estructurados, como las bases de datos relacionales. Apache Flume Apache Flume es un servicio distribuido, confiable y disponible para recopilar, agregar y mover de manera eficiente grandes cantidades de datos de registro en tiempo real. Tiene una arquitectura simple y flexible basada en flujos de datos de transmisión. Es robusto y tolerante a fallas con mecanismos de recuperación de fallas. Apache Kafka Apache Kafka es un proyecto de intermediación de mensajes. El proyecto tiene como objetivo proporcionar una plataforma de alto rendimiento y de baja latencia para la manipulación en tiempo real de fuentes de datos. Puede verse como una cola de mensajes, bajo el patrón publicación-suscripción, masivamente escalable. Apache Storm Apache Storm es un sistema de computación en tiempo real distribuido de código abierto y gratuito. Storm facilita el procesamiento confiable de flujos de datos ilimitados, haciendo para el procesamiento en tiempo real lo que Hadoop hizo para el procesamiento batch. Apache Spark Apache Spark es un motor de procesamiento en memoria, contiene varios módulos los cuales se ejecutan en modo multicluster GRACIAS ADVANCED ANALYTICS TECHNOLOGY Lince - Lima, Perú Correo: capacitacion@atc.pe Teléfono: 960725975 Página web: https://atc.pe/ Linkedin: https://bit.ly/2xrdcom Facebook: https://bit.ly/2MMxC0K