0% encontró este documento útil (0 votos)

69 vistas16 páginas

Optimización de Datos Caso Berka

El Banco Berka busca mejorar sus servicios y comprender mejor a sus clientes. Para lograrlo, desean identificar qué clientes son buenos candidatos para una tarjeta de crédito utilizando un modelo de aprendizaje supervisado con datos de 5300 clientes y 1 millón de transacciones.

Cargado por

Maria Vargas

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

0% encontró este documento útil (0 votos)

69 vistas16 páginas

Optimización de Datos Caso Berka

Cargado por

Maria Vargas

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

Está en la página 1/ 16

Prac ca Nro 3 Caso Berka

TRABAJO REALIZADO POR:

• Angela Claudia Caquegua Callahuara
• Maria Cecilia Vargas Cazon
• Elio Martin Arias Delgadillo
• Alvaro Montesinos

1. Leer el caso BERKA y crear un resumen de lo solicitado

El Banco Berka busca mejorar sus servicios y comprender mejor a sus clientes. Para
lograrlo, desean identificar qué clientes son buenos candidatos para una tarjeta de
crédito. La base de datos proporcionada contiene información sobre 5300 clientes y 1
millón de transacciones. Se requiere desnormalizar la base de datos para crear una
tabla minable con una granularidad de cliente. El Banco ha contratado especialistas en
ingeniería de datos para construir esta estructura en un tiempo de desarrollo corto
debido a un cronograma de gestión del producto inmediato desde la vicepresidencia de
Marketing.

2. ¿Es un problema de aprendizaje supervisado o no supervisado?

Basándonos en la información proporcionada, este problema parece ser DE

APRENDIZAJE SUPERVISADO. El objetivo es identificar qué clientes son buenos
candidatos para una tarjeta de crédito, lo cual implica tener datos etiquetados que
indiquen si un cliente es considerado "bueno" o "malo". Esto sugiere que se necesita un
conjunto de datos con características (como transacciones, cuentas, préstamos, etc.) y
las respectivas etiquetas que indiquen si el cliente es un buen candidato para una
tarjeta de crédito.

3. Crear un ETL que permita importar los archivos desde su máquina

local al servidor Hive. Cada archivo debe ser una tabla. Puede
ingresarlos manualmente o puede usar alguna herramienta ETL

Se hizo la conexión por la maquina Virtual y se importo los archivos asc del
Caso Berka
Se creo una Tabla_Ext donde se creo cada una de las tablas que se usaría para
la importación.

Se direcciono con los archivos con la extensión asc a cada una de las carpetas creadas para importar
cada tabla

Esta tabla externa debe apuntar al directorio donde se encuentran los datos en el HDFS.
-Se uso DBeaver para crear las tablas por medio código SQL. Conectandose con Hive y llamando a la
ruta anteriormente mencionada
Se conto el nro de Datos que con ene cada Tabla
4. Crear una conexión ODBC/JDBC para poder visualizar los datos
desde Excel u otra herramienta de visualización. Combine 3 tablas
y realice una gráfica de barras y un histograma.
Con DataBricks:
Una combinación interesante podría ser entre las tablas trans (transacciones), loan
(préstamos) y account (cuentas), para analizar las transacciones en relación con los
préstamos y las cuentas.

Combinar las tablas trans, loan y account.

Gráfico de Barras: Muestra la cantidad total de ingresos y gastos por cuenta,

diferenciando entre cuentas con préstamos y cuentas sin préstamos.
Histograma: Muestra la distribución de transacciones (ingresos o gastos).
5. ¿Qué componentes del framework de arquitectura de datos utilizó?
Pinte los componentes usados.

6. Realizar la misma operación en Databricks, subir los archivos y crear

tablas para cada uno.

Nos conectamos a Databricks e importamos los archivos usando DBFS

Creamos una nueva carpeta “casoBerka” en el workspace integrado con git

Ahora creamos un cuaderno para poder crear las tablas

Creando el Script para crear las tablas

DROP TABLE IF EXISTS BERKA_ACCOUNT;

DROP TABLE IF EXISTS BERKA_CARD;
DROP TABLE IF EXISTS BERKA_CLIENT;
DROP TABLE IF EXISTS BERKA_DISP;
DROP TABLE IF EXISTS BERKA_DISTRICT;
DROP TABLE IF EXISTS BERKA_LOAN;
DROP TABLE IF EXISTS BERKA_ORDER;
DROP TABLE IF EXISTS BERKA_TRANS;

CREATE TABLE BERKA_ACCOUNT

USING csv
OPTIONS (path "/FileStore/account.asc", header "true", delimiter ";");

CREATE TABLE BERKA_CARD

USING csv
OPTIONS (path "/FileStore/card.asc", header "true", delimiter ";");

CREATE TABLE BERKA_CLIENT

USING csv
OPTIONS (path "/FileStore/client.asc", header "true", delimiter ";");

CREATE TABLE BERKA_DISP

USING csv
OPTIONS (path "/FileStore/disp.asc", header "true", delimiter ";");

CREATE TABLE BERKA_DISTRICT

USING csv
OPTIONS (path "/FileStore/district.asc", header "true", delimiter ";");

CREATE TABLE BERKA_LOAN

USING csv
OPTIONS (path "/FileStore/loan.asc", header "true", delimiter ";");

CREATE TABLE BERKA_ORDER

USING csv
OPTIONS (path "/FileStore/order.asc", header "true", delimiter ";");

CREATE TABLE BERKA_TRANS

USING csv
OPTIONS (path "/FileStore/trans.asc", header "true", delimiter ";");
7. Utilizando SQL cree una tabla minable que permita resolver un problema
de ciencia de datos en el entorno de Databricks, proponga uno en base al
caso de estudio (esto solo en Databricks).

Análisis de Riesgo de Crédito: U lizar la información de préstamos y transacciones para evaluar el

riesgo de crédito de los clientes.

Tablas involucradas: loan, trans, account

También podría gustarte

Informe Final - Tesis Balanza Electronica - 09!07!2013
Aún no hay calificaciones
Informe Final - Tesis Balanza Electronica - 09!07!2013
204 páginas
Horarios Comercio Internacional UPEA 2022
100% (1)
Horarios Comercio Internacional UPEA 2022
21 páginas
Emi Examen Segundo Parcial I
Aún no hay calificaciones
Emi Examen Segundo Parcial I
7 páginas
Optimización de Sistemas de Inventario
Aún no hay calificaciones
Optimización de Sistemas de Inventario
3 páginas
El Budin Bueno para Expo PDF
Aún no hay calificaciones
El Budin Bueno para Expo PDF
46 páginas
Laboratorio No.2 - Diagramas
Aún no hay calificaciones
Laboratorio No.2 - Diagramas
2 páginas
Practicas Excel Avanzado PDF
Aún no hay calificaciones
Practicas Excel Avanzado PDF
9 páginas
Lista de Carreras Umss
Aún no hay calificaciones
Lista de Carreras Umss
2 páginas
Practica Variable Bidimensional
Aún no hay calificaciones
Practica Variable Bidimensional
7 páginas
GUÍA DE PRÁCTICA CAPÍTULO 1 - Juan Javier Mariscal Zeballos
0% (1)
GUÍA DE PRÁCTICA CAPÍTULO 1 - Juan Javier Mariscal Zeballos
7 páginas
Potencial de Ionización
Aún no hay calificaciones
Potencial de Ionización
3 páginas
Ultimo
Aún no hay calificaciones
Ultimo
39 páginas
Ensayo Quimica Computacional
100% (1)
Ensayo Quimica Computacional
2 páginas
Biogás: Solución Sostenible
Aún no hay calificaciones
Biogás: Solución Sostenible
24 páginas
Examen Diseño de Planta-Gas 1 Uagrm
Aún no hay calificaciones
Examen Diseño de Planta-Gas 1 Uagrm
3 páginas
Horarios Primer Año 2022
Aún no hay calificaciones
Horarios Primer Año 2022
8 páginas
Daza Tapia Tesis
Aún no hay calificaciones
Daza Tapia Tesis
49 páginas
Proceso de Venta y Exportaciã N de Vinos
Aún no hay calificaciones
Proceso de Venta y Exportaciã N de Vinos
5 páginas
Caso Aplicadoparque Zoologico
Aún no hay calificaciones
Caso Aplicadoparque Zoologico
21 páginas
Lista Postulantes Evaluados - 17 - Abril - 2025 Ciencias Economicas
Aún no hay calificaciones
Lista Postulantes Evaluados - 17 - Abril - 2025 Ciencias Economicas
129 páginas
Cuestionario de Fisicoquímica: Gases
100% (1)
Cuestionario de Fisicoquímica: Gases
1 página
Syllabus Del Curso Técnicas de Investigación
Aún no hay calificaciones
Syllabus Del Curso Técnicas de Investigación
7 páginas
Práctica Laboral en Don Porquito
100% (1)
Práctica Laboral en Don Porquito
8 páginas
Caratula PDF
Aún no hay calificaciones
Caratula PDF
1 página
Inventos de Hardware y Software - Unidad 1
Aún no hay calificaciones
Inventos de Hardware y Software - Unidad 1
8 páginas
1.1.3 Consultas Sobre Una Tabla
Aún no hay calificaciones
1.1.3 Consultas Sobre Una Tabla
6 páginas
Guia Quimica
Aún no hay calificaciones
Guia Quimica
95 páginas
Guia de Qco-100 Lab D.S
Aún no hay calificaciones
Guia de Qco-100 Lab D.S
4 páginas
Empresas Resicladoras de Bolivia
Aún no hay calificaciones
Empresas Resicladoras de Bolivia
3 páginas
Programación en C++ para Docentes
Aún no hay calificaciones
Programación en C++ para Docentes
39 páginas
Carta de Casos Especiales
Aún no hay calificaciones
Carta de Casos Especiales
1 página
Conceptos Básicos y Fundamentales
100% (1)
Conceptos Básicos y Fundamentales
41 páginas
Resumen Ejecutivo Municipio Vinto PDF
Aún no hay calificaciones
Resumen Ejecutivo Municipio Vinto PDF
40 páginas
Teoría Cinética de Gases Ideales y Reales
Aún no hay calificaciones
Teoría Cinética de Gases Ideales y Reales
85 páginas
Guía de Prácticas: Estructuras Repetitivas
Aún no hay calificaciones
Guía de Prácticas: Estructuras Repetitivas
4 páginas
253b Casos Practicos
100% (1)
253b Casos Practicos
15 páginas
Informe de Milenio Sobre La Economia de Bolivia 2024 #46
Aún no hay calificaciones
Informe de Milenio Sobre La Economia de Bolivia 2024 #46
122 páginas
Manual Cajero Bancario 2do Modulo
Aún no hay calificaciones
Manual Cajero Bancario 2do Modulo
27 páginas
Ejercicios Modelo de Cocientes Notables
Aún no hay calificaciones
Ejercicios Modelo de Cocientes Notables
2 páginas
Propiedades y Ejercicios de Vectores
Aún no hay calificaciones
Propiedades y Ejercicios de Vectores
3 páginas
Seminario MB T1 2017
Aún no hay calificaciones
Seminario MB T1 2017
2 páginas
Marco Teórico Grafeno
100% (1)
Marco Teórico Grafeno
7 páginas
Bolivia - Procesamiento de Carne
Aún no hay calificaciones
Bolivia - Procesamiento de Carne
5 páginas
Taller 1 Ingenieria en Control Quimica de Procesos Factores e Introduccion A Quimica
100% (1)
Taller 1 Ingenieria en Control Quimica de Procesos Factores e Introduccion A Quimica
5 páginas
Caso Práctico CP - 1 - M7T1 - Batería de Condensadores
Aún no hay calificaciones
Caso Práctico CP - 1 - M7T1 - Batería de Condensadores
8 páginas
Proyecto Formativo Chuquiñapi
Aún no hay calificaciones
Proyecto Formativo Chuquiñapi
39 páginas
Modelo EMI
Aún no hay calificaciones
Modelo EMI
1 página
Quispe H Ronny Ivan PDF
Aún no hay calificaciones
Quispe H Ronny Ivan PDF
60 páginas
Ejemplo Completo: Empleado Departamento
Aún no hay calificaciones
Ejemplo Completo: Empleado Departamento
6 páginas
QM-1121 - Problemario de Barriola
Aún no hay calificaciones
QM-1121 - Problemario de Barriola
91 páginas
1 ESTUDIO DE PROYECTOS-fusionado
Aún no hay calificaciones
1 ESTUDIO DE PROYECTOS-fusionado
198 páginas
Evaluación Ambiental Tren Cochabamba
Aún no hay calificaciones
Evaluación Ambiental Tren Cochabamba
16 páginas
Tarea 5 TQ
Aún no hay calificaciones
Tarea 5 TQ
15 páginas
Universidad de Aquino Bolivia (UDABOL) Facultad de Ciencias y Tecnología Carrera de Ingeniería Sistemas
Aún no hay calificaciones
Universidad de Aquino Bolivia (UDABOL) Facultad de Ciencias y Tecnología Carrera de Ingeniería Sistemas
18 páginas
Apuntes Preparación y Evaluación de Proyectos 2 UMSA
100% (1)
Apuntes Preparación y Evaluación de Proyectos 2 UMSA
9 páginas
Diseño de Bases de Datos Relacionales
Aún no hay calificaciones
Diseño de Bases de Datos Relacionales
10 páginas
Examen Business Intelligence
Aún no hay calificaciones
Examen Business Intelligence
3 páginas
DSBase Datos 2005
Aún no hay calificaciones
DSBase Datos 2005
3 páginas
Evaluador de Procesos
Aún no hay calificaciones
Evaluador de Procesos
17 páginas
Control 3
0% (1)
Control 3
5 páginas
Lab2 IAM
Aún no hay calificaciones
Lab2 IAM
34 páginas
Configuración S3: Sitio Web y Ciclo de Vida
Aún no hay calificaciones
Configuración S3: Sitio Web y Ciclo de Vida
7 páginas
Clase 2 MD5 Gestion de Proyectos Curso Duir Autoridades 11.10.23
Aún no hay calificaciones
Clase 2 MD5 Gestion de Proyectos Curso Duir Autoridades 11.10.23
54 páginas
Maestría en Cloud y Big Data
Aún no hay calificaciones
Maestría en Cloud y Big Data
24 páginas
Ingeneria Catastral
Aún no hay calificaciones
Ingeneria Catastral
82 páginas
Análisis del Mercado Inmobiliario en Villa Leyva
Aún no hay calificaciones
Análisis del Mercado Inmobiliario en Villa Leyva
60 páginas
Guía de Instalación de Netdot en Ubuntu
Aún no hay calificaciones
Guía de Instalación de Netdot en Ubuntu
4 páginas
Quiz - Escenario 3 - Orjuela Infante Liliana Andrea
Aún no hay calificaciones
Quiz - Escenario 3 - Orjuela Infante Liliana Andrea
9 páginas
MYSQL V PostgreSQL
Aún no hay calificaciones
MYSQL V PostgreSQL
8 páginas
Capitulo 13 Administrar SQL Server 2005
Aún no hay calificaciones
Capitulo 13 Administrar SQL Server 2005
27 páginas
Modelos de Administracion de Datos
Aún no hay calificaciones
Modelos de Administracion de Datos
10 páginas
Curso VFP 2
100% (2)
Curso VFP 2
11 páginas
5 3 Apertura EntradaSalida de Datos y Cierre de Archivos
Aún no hay calificaciones
5 3 Apertura EntradaSalida de Datos y Cierre de Archivos
1 página
Unidad 1 - Ejercicios de Normalizacion
Aún no hay calificaciones
Unidad 1 - Ejercicios de Normalizacion
8 páginas
Taller No.1 Conceptos Basicos de Bases de Datos
Aún no hay calificaciones
Taller No.1 Conceptos Basicos de Bases de Datos
23 páginas
Modelos Conceptual y Lógico para El Proyecto Desarrollo de Software GA4-220501095-AA1-EV02
Aún no hay calificaciones
Modelos Conceptual y Lógico para El Proyecto Desarrollo de Software GA4-220501095-AA1-EV02
8 páginas
Informe Base de Datos
Aún no hay calificaciones
Informe Base de Datos
11 páginas
SQL 04 Transacciones
Aún no hay calificaciones
SQL 04 Transacciones
14 páginas
Guía de Consultas en MS Access
Aún no hay calificaciones
Guía de Consultas en MS Access
46 páginas
Examen ABAP: Preguntas y Respuestas
Aún no hay calificaciones
Examen ABAP: Preguntas y Respuestas
6 páginas
Instalando CakePHP en XAMP
Aún no hay calificaciones
Instalando CakePHP en XAMP
7 páginas
Informe Técnico GA3-220501113-AA3-EV01
Aún no hay calificaciones
Informe Técnico GA3-220501113-AA3-EV01
21 páginas
Cuestionario de Unidad 5 Seguridad
Aún no hay calificaciones
Cuestionario de Unidad 5 Seguridad
3 páginas
Sqlite Lab
Aún no hay calificaciones
Sqlite Lab
11 páginas
Clase 140 Excel BASICO - INTERMEDIO - AVANZADO - Importar y Exportar Datos - de Excel A Access
Aún no hay calificaciones
Clase 140 Excel BASICO - INTERMEDIO - AVANZADO - Importar y Exportar Datos - de Excel A Access
6 páginas
A3 Dba
Aún no hay calificaciones
A3 Dba
9 páginas
A) Evaluación Formativa
Aún no hay calificaciones
A) Evaluación Formativa
3 páginas
Instalación de SGBD en Windows y Ubuntu
Aún no hay calificaciones
Instalación de SGBD en Windows y Ubuntu
23 páginas
Brochure Power Bi-1
Aún no hay calificaciones
Brochure Power Bi-1
12 páginas
Llave Primaria y Foranea
Aún no hay calificaciones
Llave Primaria y Foranea
2 páginas
Tablas Dinámicas con Datos Externos
Aún no hay calificaciones
Tablas Dinámicas con Datos Externos
15 páginas
Base de Datos Practica #2
Aún no hay calificaciones
Base de Datos Practica #2
13 páginas
Modelo Relacional VS Entidad-Relacion
Aún no hay calificaciones
Modelo Relacional VS Entidad-Relacion
9 páginas
Trabajo Final Momento Evaluativo 3 Gestion Base de Datos
Aún no hay calificaciones
Trabajo Final Momento Evaluativo 3 Gestion Base de Datos
16 páginas
Ejercicios Basicos HTML
Aún no hay calificaciones
Ejercicios Basicos HTML
13 páginas
Adquisición de Datos Con Python
Aún no hay calificaciones
Adquisición de Datos Con Python
2 páginas