[go: up one dir, main page]

0% encontró este documento útil (0 votos)
69 vistas16 páginas

Optimización de Datos Caso Berka

El Banco Berka busca mejorar sus servicios y comprender mejor a sus clientes. Para lograrlo, desean identificar qué clientes son buenos candidatos para una tarjeta de crédito utilizando un modelo de aprendizaje supervisado con datos de 5300 clientes y 1 millón de transacciones.

Cargado por

Maria Vargas
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
69 vistas16 páginas

Optimización de Datos Caso Berka

El Banco Berka busca mejorar sus servicios y comprender mejor a sus clientes. Para lograrlo, desean identificar qué clientes son buenos candidatos para una tarjeta de crédito utilizando un modelo de aprendizaje supervisado con datos de 5300 clientes y 1 millón de transacciones.

Cargado por

Maria Vargas
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
Está en la página 1/ 16

Prac ca Nro 3 Caso Berka

TRABAJO REALIZADO POR:


• Angela Claudia Caquegua Callahuara
• Maria Cecilia Vargas Cazon
• Elio Martin Arias Delgadillo
• Alvaro Montesinos

1. Leer el caso BERKA y crear un resumen de lo solicitado


El Banco Berka busca mejorar sus servicios y comprender mejor a sus clientes. Para
lograrlo, desean identificar qué clientes son buenos candidatos para una tarjeta de
crédito. La base de datos proporcionada contiene información sobre 5300 clientes y 1
millón de transacciones. Se requiere desnormalizar la base de datos para crear una
tabla minable con una granularidad de cliente. El Banco ha contratado especialistas en
ingeniería de datos para construir esta estructura en un tiempo de desarrollo corto
debido a un cronograma de gestión del producto inmediato desde la vicepresidencia de
Marketing.

2. ¿Es un problema de aprendizaje supervisado o no supervisado?

Basándonos en la información proporcionada, este problema parece ser DE


APRENDIZAJE SUPERVISADO. El objetivo es identificar qué clientes son buenos
candidatos para una tarjeta de crédito, lo cual implica tener datos etiquetados que
indiquen si un cliente es considerado "bueno" o "malo". Esto sugiere que se necesita un
conjunto de datos con características (como transacciones, cuentas, préstamos, etc.) y
las respectivas etiquetas que indiquen si el cliente es un buen candidato para una
tarjeta de crédito.

3. Crear un ETL que permita importar los archivos desde su máquina


local al servidor Hive. Cada archivo debe ser una tabla. Puede
ingresarlos manualmente o puede usar alguna herramienta ETL

Se hizo la conexión por la maquina Virtual y se importo los archivos asc del
Caso Berka
Se creo una Tabla_Ext donde se creo cada una de las tablas que se usaría para
la importación.

Se direcciono con los archivos con la extensión asc a cada una de las carpetas creadas para importar
cada tabla

Esta tabla externa debe apuntar al directorio donde se encuentran los datos en el HDFS.
-Se uso DBeaver para crear las tablas por medio código SQL. Conectandose con Hive y llamando a la
ruta anteriormente mencionada
Se conto el nro de Datos que con ene cada Tabla
4. Crear una conexión ODBC/JDBC para poder visualizar los datos
desde Excel u otra herramienta de visualización. Combine 3 tablas
y realice una gráfica de barras y un histograma.
Con DataBricks:
Una combinación interesante podría ser entre las tablas trans (transacciones), loan
(préstamos) y account (cuentas), para analizar las transacciones en relación con los
préstamos y las cuentas.

Combinar las tablas trans, loan y account.

Gráfico de Barras: Muestra la cantidad total de ingresos y gastos por cuenta,


diferenciando entre cuentas con préstamos y cuentas sin préstamos.
Histograma: Muestra la distribución de transacciones (ingresos o gastos).
5. ¿Qué componentes del framework de arquitectura de datos utilizó?
Pinte los componentes usados.

6. Realizar la misma operación en Databricks, subir los archivos y crear


tablas para cada uno.

Nos conectamos a Databricks e importamos los archivos usando DBFS


Creamos una nueva carpeta “casoBerka” en el workspace integrado con git

Ahora creamos un cuaderno para poder crear las tablas

Creando el Script para crear las tablas

DROP TABLE IF EXISTS BERKA_ACCOUNT;


DROP TABLE IF EXISTS BERKA_CARD;
DROP TABLE IF EXISTS BERKA_CLIENT;
DROP TABLE IF EXISTS BERKA_DISP;
DROP TABLE IF EXISTS BERKA_DISTRICT;
DROP TABLE IF EXISTS BERKA_LOAN;
DROP TABLE IF EXISTS BERKA_ORDER;
DROP TABLE IF EXISTS BERKA_TRANS;

CREATE TABLE BERKA_ACCOUNT


USING csv
OPTIONS (path "/FileStore/account.asc", header "true", delimiter ";");

CREATE TABLE BERKA_CARD


USING csv
OPTIONS (path "/FileStore/card.asc", header "true", delimiter ";");

CREATE TABLE BERKA_CLIENT


USING csv
OPTIONS (path "/FileStore/client.asc", header "true", delimiter ";");

CREATE TABLE BERKA_DISP


USING csv
OPTIONS (path "/FileStore/disp.asc", header "true", delimiter ";");

CREATE TABLE BERKA_DISTRICT


USING csv
OPTIONS (path "/FileStore/district.asc", header "true", delimiter ";");

CREATE TABLE BERKA_LOAN


USING csv
OPTIONS (path "/FileStore/loan.asc", header "true", delimiter ";");

CREATE TABLE BERKA_ORDER


USING csv
OPTIONS (path "/FileStore/order.asc", header "true", delimiter ";");

CREATE TABLE BERKA_TRANS


USING csv
OPTIONS (path "/FileStore/trans.asc", header "true", delimiter ";");
7. Utilizando SQL cree una tabla minable que permita resolver un problema
de ciencia de datos en el entorno de Databricks, proponga uno en base al
caso de estudio (esto solo en Databricks).

Análisis de Riesgo de Crédito: U lizar la información de préstamos y transacciones para evaluar el


riesgo de crédito de los clientes.

Tablas involucradas: loan, trans, account

También podría gustarte