Prac ca Nro 3 Caso Berka
TRABAJO REALIZADO POR:
• Angela Claudia Caquegua Callahuara
• Maria Cecilia Vargas Cazon
• Elio Martin Arias Delgadillo
• Alvaro Montesinos
   1. Leer el caso BERKA y crear un resumen de lo solicitado
      El Banco Berka busca mejorar sus servicios y comprender mejor a sus clientes. Para
      lograrlo, desean identificar qué clientes son buenos candidatos para una tarjeta de
      crédito. La base de datos proporcionada contiene información sobre 5300 clientes y 1
      millón de transacciones. Se requiere desnormalizar la base de datos para crear una
      tabla minable con una granularidad de cliente. El Banco ha contratado especialistas en
      ingeniería de datos para construir esta estructura en un tiempo de desarrollo corto
      debido a un cronograma de gestión del producto inmediato desde la vicepresidencia de
      Marketing.
   2. ¿Es un problema de aprendizaje supervisado o no supervisado?
      Basándonos en la información proporcionada, este problema parece ser DE
      APRENDIZAJE SUPERVISADO. El objetivo es identificar qué clientes son buenos
      candidatos para una tarjeta de crédito, lo cual implica tener datos etiquetados que
      indiquen si un cliente es considerado "bueno" o "malo". Esto sugiere que se necesita un
      conjunto de datos con características (como transacciones, cuentas, préstamos, etc.) y
      las respectivas etiquetas que indiquen si el cliente es un buen candidato para una
      tarjeta de crédito.
   3. Crear un ETL que permita importar los archivos desde su máquina
      local al servidor Hive. Cada archivo debe ser una tabla. Puede
      ingresarlos manualmente o puede usar alguna herramienta ETL
      Se hizo la conexión por la maquina Virtual y se importo los archivos asc del
      Caso Berka
        Se creo una Tabla_Ext donde se creo cada una de las tablas que se usaría para
        la importación.
Se direcciono con los archivos con la extensión asc a cada una de las carpetas creadas para importar
cada tabla
Esta tabla externa debe apuntar al directorio donde se encuentran los datos en el HDFS.
-Se uso DBeaver para crear las tablas por medio código SQL. Conectandose con Hive y llamando a la
ruta anteriormente mencionada
Se conto el nro de Datos que con ene cada Tabla
4. Crear una conexión ODBC/JDBC para poder visualizar los datos
   desde Excel u otra herramienta de visualización. Combine 3 tablas
   y realice una gráfica de barras y un histograma.
Con DataBricks:
Una combinación interesante podría ser entre las tablas trans (transacciones), loan
(préstamos) y account (cuentas), para analizar las transacciones en relación con los
préstamos y las cuentas.
Combinar las tablas trans, loan y account.
Gráfico de Barras: Muestra la cantidad total de ingresos y gastos por cuenta,
diferenciando entre cuentas con préstamos y cuentas sin préstamos.
Histograma: Muestra la distribución de transacciones (ingresos o gastos).
5. ¿Qué componentes del framework de arquitectura de datos utilizó?
   Pinte los componentes usados.
6. Realizar la misma operación en Databricks, subir los archivos y crear
   tablas para cada uno.
   Nos conectamos a Databricks e importamos los archivos usando DBFS
      Creamos una nueva carpeta “casoBerka” en el workspace integrado con git
      Ahora creamos un cuaderno para poder crear las tablas
      Creando el Script para crear las tablas
DROP TABLE IF EXISTS BERKA_ACCOUNT;
DROP TABLE IF EXISTS BERKA_CARD;
DROP TABLE IF EXISTS BERKA_CLIENT;
DROP TABLE IF EXISTS BERKA_DISP;
DROP TABLE IF EXISTS BERKA_DISTRICT;
DROP TABLE IF EXISTS BERKA_LOAN;
DROP TABLE IF EXISTS BERKA_ORDER;
DROP TABLE IF EXISTS BERKA_TRANS;
CREATE TABLE BERKA_ACCOUNT
USING csv
OPTIONS (path "/FileStore/account.asc", header "true", delimiter ";");
CREATE TABLE BERKA_CARD
USING csv
OPTIONS (path "/FileStore/card.asc", header "true", delimiter ";");
CREATE TABLE BERKA_CLIENT
USING csv
OPTIONS (path "/FileStore/client.asc", header "true", delimiter ";");
CREATE TABLE BERKA_DISP
USING csv
OPTIONS (path "/FileStore/disp.asc", header "true", delimiter ";");
CREATE TABLE BERKA_DISTRICT
USING csv
OPTIONS (path "/FileStore/district.asc", header "true", delimiter ";");
CREATE TABLE BERKA_LOAN
USING csv
OPTIONS (path "/FileStore/loan.asc", header "true", delimiter ";");
CREATE TABLE BERKA_ORDER
USING csv
OPTIONS (path "/FileStore/order.asc", header "true", delimiter ";");
CREATE TABLE BERKA_TRANS
USING csv
OPTIONS (path "/FileStore/trans.asc", header "true", delimiter ";");
    7. Utilizando SQL cree una tabla minable que permita resolver un problema
        de ciencia de datos en el entorno de Databricks, proponga uno en base al
        caso de estudio (esto solo en Databricks).
Análisis de Riesgo de Crédito: U lizar la información de préstamos y transacciones para evaluar el
riesgo de crédito de los clientes.
Tablas involucradas: loan, trans, account