BD Guia de Estudio v6
BD Guia de Estudio v6
Datos
Guía de Estudio
Primer Parcial
Introducción a las Bases de Datos y el Modelo
Relacional
Introducción
Conceptos Generales
Conceptos Generales
Conceptos:
• Bases de Datos
• Datos
Actores •
•
•
Administrador de la base de datos
Programador de Aplicaciones (connvencionales o en línea)
Usuarios finales
Conceptos Generales: Entorno de un
Sistema de Base de Datos
Usuarios Programas de Aplicación/ Programadores
Consultas
Definición de
base de datos Base de Datos
almacenados almacenada
(metadatos)
Conceptos Generales: Sistema
Gestor de Bases de Datos
Ejemplos de Sistemas
Definiciones Gestores de Bases de Datos
Es una colección de programas
que permiten a los usuarios
crear y mantener una base de ORACLE
datos. Microsoft SQL Server
Otra definición: “Es un sistema DB2
de software de propósito general
que facilita los procesos de Sybase
definición, construcción y MySQL
manipulación de bases de datos
para distintas aplicaciones”. Microsoft ACCESS
Conceptos Generales: Sistema
Gestor de Bases de Datos
Abstracción de Datos
900 119 C
700 85 A
SECCIONES Código Código Semestre Año Profesor
700 92 A
Sección Curso
700 102 B 85 CD2110 2 98 King
700 135 A 92 IC1310 2 98 Anderson
102 IC3320 1 99 Stone
CARRERAS Código Nombre Carrera 112 CD2110 2 99 Kendall
IC Ingeniería Computación 119 IC1310 2 99 Chang
IE Ingeniería Electrónica
Conceptos Generales: Ejemplo
de una Vista de una Base de
Datos
EXPEDIENTES Nombre Alumno Expediente del Alumno
IE2110 B 1 99 112
Fúnez IE2110 A 1 98 85
IC1310 A 1 98 92
IC3320 B 2 99 102
IC3380 A 1 99 135
Conceptos Generales: Actores
en una Base de Datos
Administrador de bases de datos
• Es el encargado de autorizar acceso a la base de datos,
coordinar y vigilar su utilización, y adquirir (u orientar la
adquisición) de los recursos de hardware y software que
sean necesarios. Es el responsable cuando se
presentan violaciones a la seguridad o cuando el tiempo
de respuesta es muy lento.
• En resumen sus funciones son las siguientes:
• Definición del esquema
• Definición de la estructura y del método de acceso.
• Modificación del esquema y de la organización física.
• Concesión de autorización para el acceso a los datos.
• Mantenimiento rutinario.
Usuarios Finales
Breve y vagamente
un modelo
relacional es aquel
en que:
• Los datos son
percibidos por el usuario
como tablas.
• Los operadores
disponibles para el
usuario (por ejemplo
para recuperación) son
operadores que
generan nuevas tablas
a partir de las
anteriores.
Modelado de Datos:
El Diagrama Entidad/Relación
Tipos de Entidades
Entidades
Conjuntos de Entidades
Relaciones
Propiedades
Conceptos:
Cardinalidad
Dominio
Conjuntos de entidades
Conjuntos de relaciones
Atributos
Modelado de Datos: Definiciones
del Modelo Relacional
Entidad: Es una «cosa» u «objeto» en el mundo real que es distinguible de todos
los demás objetos.
Valor: Cada entidad tiene un valor para cada uno de sus atributos.
Valores nulos: En algunos casos, una cierta entidad podría no tener ningún valor
aplicable para un atributo.
Modelado de Datos: Definiciones
del Modelo Relacional
Atributo clave de un tipo de entidad:Es aquel atributo que por tener valores distintos para cada entidad
individual del conjunto de entidades es elegido como identificador único del conjunto.
Clave compuesta: Es cuando un solo atributo no es suficiente para garantizar la unicidad de una entidad en el
conjunto de entidades. En esos casos la clave principal se conforma con más de un atributo.
Atributos simples y compuestos: Los atributos compuestos son aquellos que son divisibles en elementos
más pequeños (por ejemplo, una dirección que puede dividirse en calle, avenida, etc.). Los simples son
aquellos que no son divisibles.
Atributos monovalorados y multivalorados: Los monovalorados son aquellos que almacenan un único valor
para cada entidad (por ejemplo, el nombre de una persona). Los multivalorados son aquellos que pueden tener
más de un valor para cada entidad (por ejemplo, pasatiempos de una persona.
Atributos almacenados y derivados: Si para una persona se está almacenando el atributo Fecha de
Nacimiento, no se necesita almacenar la edad. La edad se puede derivar de la Fecha de Nacimiento restando
esa fecha de la fecha actual.
Modelado de Datos: Definiciones
del Modelo Relacional
Relación: Es una asociación entre diferentes entidades.
Uno a uno
Uno a varios
Varios a uno
Varios a varios
Modelado de Datos: Vínculos, roles y
restricciones estructurales en el Modelo
Relacional
Empleado Trabaja_Para Departamento
E1 R1
E2 R2
D1
E3 R3
D2
E4 R4
D3
E5 R5
E6 R6
E7 R7
Departamento S4 PY3
D1 S5
D2 S6
D3 S7
E1 Supervisa
Supervisado Supervisa R1
Supervisado
E2
R2
Supervisado
E3
R3
Supervisa
E4
E1
R1
E2
D1
E3
R2 D2
E4
D3
E5
R3
E6
E7
E1 R1
E2 R2
P1
E3 R3
P2
E4 R4
P3
E5 R5
E6 R6
E7 R7
Concepto
CliNombre
• La estructura de la clave CliDireccion (O)
primaria para el conjunto de CliTel (O)
relaciones depende de la CliCel (O)
CliFax (O)
correspondencia de
cardinalidades asociada al
conjunto de relaciones:
• Si el conjunto de relaciones es ServiciosXCliente
varios a varios, la clave primaria CliCodigo (FK)
consiste en la unión de las ServCodigo (FK)
claves primarias de la entidad A
y B de la relación.
• Si la entidad A solo puede tener
un valor de la entidad B, pero la
entidad B puede estar Servicios
representada en más de una ServCodigo
entidad A, entonces la clave
primaria de la relación es ServDescripcion
ServCostoMensual
simplemente la clave primaria
de A.
Ejemplo de relación de varios a varios
Modelo Relacional:¿Conjuntos
de Entidades o Atributos?
Empleados
Como distinguir Conjuntos de EmpID Profesiones
Entidades de Atributos ProfCodigo
EmpNombre
• Considérese el conjunto de entidades ProfNombre
empleado con los atributos nombre-
empleado y Código-Profesión. ProfesionesXEmpleado
• Opciones: EmpID (FK)
• El conjunto de entidades empleado ProfCodigo (FK)
Tip de Modelado
(precaución)
Empleados1
• Un error común es usar la clave Profesiones1
primaria de un conjunto de EmpID
ProfCodigo
entidades como un atributo de otro EmpNombre
conjunto de entidades, en lugar de ProfCodigo (O)
ProfNombre
usar una relación.
• Surgen dos problemas como
resultado de esto:
• Los datos se almacenan varias
veces, desperdiciando espacio
de almacenamiento;
• Las actualizaciones dejan
potencialmente los datos en un
estado inconsistente, en el que
los valores difieren en dos
relaciones para atributos que se
supone tienen el mismo valor.
Modelo Relacional: Entidades
Fuertes y Entidades Débiles
Ciudades
Conceptos
CiuCodigo
• Un conjunto de entidades CiuNombre
puede no tener suficientes
atributos para formar una
clave primaria. Tal
conjunto de entidades se
Zonas
denomina conjunto de
entidades débiles. CiuCodigo (FK)
ZonaCodigo
• Un conjunto de entidades
que tiene una clave ZonaNombre
primaria se denomina
conjunto de entidades
fuertes.
Modelo Relacional: Entidades
Fuertes y Entidades Débiles
Concepto de Prestamos
discriminante PreNumero
PreFecha
PreValor
• El discriminante de un conjunto de
PrePlazo (O)
entidades débiles es un conjunto de
atributos que permite que se haga la
distinción entre fuerte y débil. Por ejemplo,
el discriminante del conjunto de entidades
débiles plan de pago es el atributo número
de cuota, ya que, para cada préstamo, un Cuotas
número de cuota identifica de forma única
cada pago para ese préstamo. PreNumero (FK)
• El discriminante de un conjunto de CuoNumero
entidades débiles se denomina la clave
parcial del conjunto de entidades. CuoFechaVence
• La clave primaria de un conjunto de CuoAporteCapital
entidades débiles se forma con: CuoIntereses (O)
• <Clave primaria del conjunto de entidades CuoTotal
identificadoras> + <Discriminante del
conjunto de entidades débiles>.
Modelo Relacional: Diagrama
Entidad/Relación Extendido
Especialización
Agregación. Generalización
Conceptos
Conjuntos de
Herencia de entidades de
atributos y nivel más alto y
más bajo
Modelo Relacional:
Especialización y Generalización
Conceptos Socios
SocID
• Un conjunto de entidades puede
incluir subgrupos de entidades SocNombre
que se diferencian de alguna SocRTN (O)
forma de las otras entidades del SocTelefono
conjunto. SocDireccion
• La relación que se genera se
puede llamar relación
superclase-subclase.
• Para todos los propósitos Avales
prácticos, la generalización es
una inversión simple de la SocID (FK)
especialización.
AvalCantidadPrestamos
• En términos del propio diagrama
E-R no se distingue entre
especialización y
generalización.
Modelo Relacional: Herencia
SocID
• Una propiedad crucial de las
entidades de nivel más alto y más SocNombre
bajo creadas mediante SocRTN (O)
especialización y generalización es SocTelefono
la herencia de atributos. SocDireccion
• Los atributos de los conjuntos de
entidades de nivel más alto se dice
que son heredados por los
conjuntos de entidades de nivel Avales
más bajo.
SocID (FK)
• En el ejemplo de socios Avales,
observe que no se especifica AvalCantidadPrestamos
nombre, RTN y otros datos sobre el
aval, porque los hereda de Socios
Modelo Relacional: Restricciones
sobre Generalización
Los conjuntos de entidades de Socios
nivel más bajo pueden ser uno de
SocID
los siguientes:
SocNombre
• Disjunto: Una restricción SocRTN (O)
sobre el carácter disjunto SocTelefono
SocDireccion
requiere que una entidad no
pertenezca a más de un Referencia
conjunto de entidades de SocID (FK)
nivel más bajo. Avales
RefTipo
• Solapado. En las SocID (FK)
generalizaciones solapadas, AvalCantidadPrestamos
la misma entidad puede
pertenecer a más de un Ejemplo de tipo
conjunto de entidades de solapado
nivel más bajo en una
generalización simple.
Modelo Relacional: Agregación
Concepto
• Una limitación del modelo E-R es que no resulta
posible expresar relaciones entre relaciones.
• Supóngase ahora que se desean registrar los
directores para las tareas realizadas por un
empleado en una sucursal; es decir, se desean
registrar directores por combinaciones (empleado,
sucursal, trabajo). Asúmase que existe una entidad
director.
• La mejor forma de modelar una situación como ésta es
usar la agregación. La agregación es una abstracción
a través de la cual las relaciones se tratan como
entidades de nivel más alto.
Normalización de bases de datos
Conceptos y Ejemplos
Normalización
• La normalización es el proceso de
organizar los datos de una base de
datos.
• Incluye la creación de tablas y el
establecimiento de relaciones entre
Concepto ellas según reglas diseñadas tanto
para proteger los datos como para
hacer que la base de datos sea más
flexible al eliminar la redundancia y
eliminar las dependencias
incoherentes.
¿Porqué eliminar la
redundancia?
1015 II-102 82
1015 ES-101 73
Ejemplo de Normalización:
Tercera Forma Normal
Cuenta Alumno Código Carrera Cuenta Asignatura Nota Asignatura Asignatura
Carrera Código Código Nombre
1011 Andrés
IC Ing. 1011 BD-101 90 BD-101 Bases de
1012 Daniel Computación Datos
1011 IS-101 88
IE Ing. IS-101 Ing. De
1013 Santiago Electrónica Software
1012 BD-101 87
CA-103 Cálculo I
1014 Diana
1012 IS-101 89
II-101 Informática
1015 Ángel
I
1013 CA-103 80
CA-104 Cálculo II
1013 II-101 95
II-102 Informática
1014 CA-104 91 II
ES-101 Español I
1014 II-102 84
1015 II-102 82
1015 ES-101 73
SQL
Operadores Lógicos
<> : Distinto de
= : Igual que
• Por ejemplo:
• Si se va mover dinero de una cuenta bancaria a otra …
¿Cuál operación se realiza primero? ¿se quita a una
cuenta primero o se agrega a la otra?
Una transacción • La respuesta es: Cualquiera de las dos, siempre y cuando
es un conjunto de estemos seguros que se van a completar las dos.
• Toda transacción debe estar delimitada por un Inicio y un
operaciones que Fin de Transacción.
van a ser • Un SGBD es transaccional si es capaz de mantener la
integridad de los datos, haciendo que las transacciones no
tratadas como puedan finalizar en un estado intermedio.
• Cuando por alguna causa el sistema debe cancelar la
una única unidad. transacción, empieza a deshacer las ordenes ejecutadas
hasta dejar la base de datos en su estado inicial (llamado
punto de integridad), como si la orden de la transacción
nunca se hubiese realizado.
Transacciones: Propiedades de las
Transacciones
Atomicidad Consistencia
•Se ejecuta toda la •Antes y después de la
transacción o nada. Por lo transacción la base de
tanto, ante un fallo del datos está consistente. Se
sistema, no puede quedar ejecutan aquellas
a medias. operaciones que no van a
romper la reglas y
directrices de integridad
de la base de datos.
Isolation Durabilidad
(aislamiento) •Una vez hecha la
•Cada transacción debe transacción ésta es
aparecer como algo durable. Esta propiedad
separado de otras asegura que una vez
transacciones. Es la realizada la operación,
propiedad que asegura ésta persistirá y no se
que una operación no podrá deshacer aunque
puede afectar a otras. falle el sistema.
Transacciones: Requisitos de un
SGDB compatible con Transacciones
Un fallo del
• Durante la ejecución de una transacción se produce un error de
computador (caída hardware, software o de red.
del sistema)
Errores locales o • Por ejemplo, puede ser que no se encuentren los datos para la
condiciones de transacción. Un saldo insuficiente en una base de datos bancaria,
por ejemplo, puede hacer que se cancele una transacción de retiro.
excepción detectadas Si esta excepción se programa en la transacción no constituiría un
fallo.
por la transacción
Transacciones: Tipos de Fallos en
Procesamiento (2/2)
ABORT
READ,
WRITE
ABORT
Fallida Terminada
Transacciones: Estados de transacciones
y operaciones adicionales
Conceptos
¿Qué es Transact-SQL?
SQL = Lenguaje
de Consulta
Elementos de programación con
Transact SQL
Con
• Procedimientos almacenados
Transact- • Triggers
SQL pueden • Funciones
programarse
• Scripts
Procedimientos
almacenados
Conceptos y Ejemplos
Procedimientos almacenados:
Concepto
Aplicación
Los resultados de cada orden SQL
Llamadas de SQL
son devueltos por medio de la red.
envía al cliente.
CLIENTE/SERVIDOR CON SERVIDORES DE BASES DE DATOS
Aplicación
Estos procedimientos remotos del servidor
Transacciones
ejecutan un grupo de instrucciones SQL.
DBMS
El intercambio por la red consiste en un Monitor de TP
También se utilizan
para encapsular un
proceso grande y
complejo. Este
Al incluir la lógica de Se facilita la
proceso se ejecutará
la aplicación en la validación de datos
más rápido como un
base de datos que se integran a la
Los procedimientos procedimiento
utilizando Esto puede estructura de base de
pueden ser almacenado que de
procedimientos simplificar la creación datos (los
ventajosos cuando haber sido
almacenados, la y, particularmente, el procedimientos
una base de datos es implementado como,
necesidad de mantenimiento de los almacenados
manipulada desde por ejemplo, un
embeber la misma programas utilizados para este
muchos programas programa corriendo
lógica en todos los involucrados. propósito a menudo
externos. en el sistema cliente
programas que son llamados
y comunicándose con
acceden a los datos detonadores o
la base de datos
es reducida. triggers).
mediante el envío de
consultas SQL y
recibiendo sus
resultados.
Disparadores o
Triggers
Conceptos y Ejemplos
Triggers: Concepto
Concepto de trigger
Solo se pueden aplicar a una tabla especifica, es decir, un trigger no sirve para dos
o más tablas
El trigger se crea en la base de datos que de trabajo pero desde un trigger puedes
hacer referencia a otras bases de datos.
Conceptos y Técnicas
Control de Concurrencia:
Conceptos
El control de concurrencia en bases de datos se requiere para
garantizar la no interferencia o la propiedad de aislamiento de
transacciones que se ejecutan de manera concurrente.
Conceptos y Ejemplos
Recuperación de Bases de
Datos: Conceptos
Actualización diferida
Actualización inmediata
Consideraciones
En este caso:
• T2 y T3 se ignoran porque no llegaron a su punto de confirmación
• T4 se rehace porque su punto de confirmación fue después del último punto de control del sistema
Mantenimiento de una
base de datos
Conceptos
Full
Bulk-
Simple
Logged
Tres
modelos de
recuperación
Mantenimiento de una base de datos:
Modelo de Recuperación Simple
Ventajas
• Aunque no se tenga un respaldo del archivo log, siempre que la base de datos falle y no
el dispositivo donde estén los logs, todavía se puede recuperar la base de datos al
estado del último respaldo y luego aplicarle los logs.
• Si la base de datos es significativamente grande, no será posible hacer un respaldo
completo varias veces al día, pues no se tendría tiempo suficiente y se afectaría a los
usuarios.
• Pueden utilizarse las transacciones para restaurar la base de datos a un momento en
particular.
• Dado que el archivo log contiene solo nuevas entradas, los respaldos son más
pequeños y más rápidos afectando mínimamente a los usuarios
Desventajas
• Elimina las limitaciones del modelo simple pero requiere un poco más de trabajo de
mantenimiento.
Consideraciones
• Debido a la seguridad que provee, la brevedad para crear el respaldo y la habilidad para
poder restaurar desde un momento específico este es el modelo de recuperación más
adecuado para bases de datos en producción
Mantenimiento de una base de datos:
Modelo de Recuperación Bulk-Logged
Como funciona
• Este modelo de recuperación es similar al modelo completo, con la excepción de que no
toda operación es enviada al archivo log de transacciones.
• Este modelo permite obviar la siguientes transacciones para que no sean grabadas en
el log:
• Operaciones de select.
• Operaciones que involucran loos tipos Text, ntext, y image, si se está utilizando los
WRITETEXT y UPDATETEXT statements.
• Operaciones que utilizan el comando T-SQL SELECT INTO.
• Operaciones que utilizan instrucciones CREATE INDEX T-SQL.
Ventajas y consideraciones
• La ventaja de este modelo es que los respaldos son más pequeños, y que las
operaciones obviadas corren más rápido.
• Cuando se importan con frecuencia datos a una base de datos, es conveniente este
modelo.
• En estos casos se recomienda: Primero hacer un respaldo del log, luego establecer la
base de datos con el modelo de recuperación bulk-logged, y luego hacer la importación.
Luego hacer respaldo de la base de datos y volver a establecer el modelo en Full.
Mantenimiento de una base de datos:
Selección de Modelo de Recuperación
Mantenimiento de una base de datos:
Estrategia de Respaldo
Concepto
Consideraciones
Diferencial
Respaldo del
Full Log de
Transacciones
Tres tipos
de respaldo
en SQL
Server 2005
Mantenimiento de una base de datos:
Respaldo de tipo full (Completo)
Un respaldo de tipo
full o completo
copia todos el
contenido de la
base de datos y los
archivos log.
¿Cómo
funciona?
Si la base de datos está
en modelo de Si la base de datos está
recuperación full o bulk- en modelo de
logged el respaldo copia recuperación simple, no
todos los datos y libera tiene ningún efecto más
borra las entradas que el copiado del
confirmadas en el archivo contenido.
log para ser borradas.
Mantenimiento de una base de datos:
Respaldo de tipo full (Completo)
Consideraciones
¿Cómo ya que se incrementa a partir del último respaldo completo, cada vez
que se realiza este respaldo (y no se realiza uno completo) la
cantidad de datos aumenta, sin importar cuantos respaldos
diferenciales se hayan realizado.
Particionadas
Base de
cada procesador
CPU Host
remoto tenga los
datos necesarios CPU remoto CPU remoto
para abastecer
sus propias
necesidades Partición A de
La Base de Datos
Partición B de
La Base de Datos
locales remota remota
Bases de datos distribuidas
Duplicadas
Base de
Datos
remotas.
Almacenes de datos y
extracción de datos
Datos de
Directorio de
Operaciones
Almacén de Datos y información
Extracción de datos Fuente Datos históricos
interna
• Un almacén es una base de
de
datos que almacena datos Datos de
Datos operaciones
actuales e históricos
extraídos de varios sistemas
operacionales y Datos históricos Almacén de
Extraer y
consolidados, y que se Datos
transformar
complementa con
herramientas para consulta y
elaboración de informes
• La extracción de datos se Fuente
externa Datos Externos
refiere al análisis de grandes
concentraciones de datos de Acceso y
para encontrar patrones y Datos Datos Externos análisis de
reglas que se puedan datos
emplear para guiar la toma •Consultas e informes
de decisiones y predecir el
•OLAP
comportamiento futuro.
•Extracción de Datos
Almacenes de datos y
extracción de datos
Clasificación de los sistemas de información que trabajan con Bases de
Datos
Tipo de Entradas de Procesamiento Salidas de Usuarios
Sistema información información
Sistemas de Datos acumulados; Gráficas, Proyecciones, Directores
Apoyo a externos e internos simulaciones, respuestas a
Ejecutivos (ESS) interactivo consultas
Sistemas de Datos de bajo volumen Interactivo, Informes Profesionale
Apoyo a Toma de o bases de datos simulaciones, especiales, s, gerentes
Decisiones (DSS) masivas, optimizadas análisis análisis de de personal
para análisis de datos, decisiones,
modelos analíticos y respuestas a
herramientas de consultas
análisis de datos
Sistemas de Datos resumidos de Informes de Informes Gerentes de
Información transacciones, datos de rutina, modelos resumidos o nivel medio
Gerencial (MIS) alto volumen, modelos simples, análisis excepciones
simples de bajo nivel
Sistemas de Especificaciones de Modelado, Modelos, gráficos Profesionale
Trabajo de diseño, base del simulaciones s, personal
Conocimiento conocimiento técnico
(KWS)
Sistemas de Transacciones, eventos Clasificación, Informes Personal
Procesamiento listado, fusión, detallados, listas, operativo,
de Transacciones actualización resúmenes supervisore
(TPS) s
Almacenes de datos y
Extracción de datos
Datawarehouse
• Repositorio completo de datos de la empresa, donde se almacenan datos
estratégicos, tácticos y operativos, al objeto de obtener información
estratégica y táctica.
• Es un expediente de una empresa más allá de la información transaccional y
operacional, almacenado en una base de datos diseñada para favorecer
análisis y la divulgación eficientes de datos (especialmente OLAP).
Data-Mart
• Los almacenes de los datos contienen a menudo grandes cantidades de
información que se subdividen a veces en unidades lógicas más pequeñas,
llamadas los centros de datos. Los data-mart son, por tanto, repositorios
parciales de datos de la empresa, donde se almacenan datos tácticos y
operativos, al objeto de obtener información táctica.
Data-Mining
• Técnicas de análisis de datos encaminadas a obtener información oculta en
un Datawarehouse.
Almacenes de datos y
Extracción de datos
OLTP (On-Line Transaction Processing)
• Define el comportamiento habitual de un entorno operacional de gestión:
• Altas/Bajas/Modificaciones/Consultas
• Consultas rápidas y escuetas
• Poco volumen de información
• Transacciones rápidas
• Gran nivel de concurrencia
OLAP: On-Line Analytical Process
• Define el comportamiento de un sistema de análisis de datos y elaboración
de información:
• Sólo Consulta
• Consultas pesadas y no predecibles
• Gran volumen de información histórica
• Operaciones lentas
Almacenes de datos y
extracción de datos
Comparativo de OLAP/OLTP
Característica OLTP OLAP
Tamaño de la Base Se mide en GigaBytes Se mide en GigaBytes,
de Datos pero tiende a crecer a
TeraBytes
Origen de los Datos Interno Interno y Externo
Actualización En línea Por lotes (Batch)
Períodicidad de la Actual Histórica
información
Consultas Predecibles AD-HOC (Específicas para
la ocasión, Impredecibles)
Actividad Operacional Analítica
Tipos de sistema Sistemas de Sistemas de Apoyo a
que soporta Procesamiento de Ejecutivos (ESS)
Transacciones (TPS) Sistemas de Apoyo a Toma
Sistemas de Información de Decisiones (DSS)
Gerencial (MIS)
Almacenes de Datos y
extracción de datos
Dos ideas básicas
dirigen la creación
de un almacén de
los datos
Integración
De los datos de bases de datos distribuidas y diferentemente
estructuradas, que facilita una descripción global y un análisis
comprensivo en el almacén de los datos.
Separación
De los datos usados en operaciones diarias de los datos
usados en el almacén de los datos para los propósitos de la
divulgación, de la ayuda en la toma de decisiones, para el
análisis y para controlar.
Almacenes de Datos y
extracción de datos
Razones Pérdida de rendimiento del entorno OLTP
por las que
OLTP y Falta de integración entre distintos
OLAP no aplicaciones OLTP
pueden Tecnologías de BBDD sin capacidad para
convivir en soportar aplicaciones OLAP
una misma Incorporación de datos externos difícilmente
base de aplicable a la BBDD OLTP
datos Distribución de los datos no adecuada para
análisis OLTP
Almacenes de Datos y
extracción de datos
Arquitectura de un Datawarehouse
Base de
Datos 1
Gestor de Gestor de
Carga Almacenamiento
Base de
Datos 2
Gestor de
Consultas
Almacenes de datos y
extracción de datos
Arquitectura de un Datawarehouse
Módulo Descripción Características/Problemas
Gestor de Este módulo se encarga Problemas inherentes a la carga:
Carga de realizar la carga del –Integración de los datos: Ya que una situación normal en
Data Warehouse estos entornos es que cada una de las bases de datos esté
extrayendo los datos de soportada por gestores de diferentes fabricantes.
las bases de datos –Momento en que debe hacerse la carga: Lo importante
operacionales en este tema se centra en que la extracción se debe realizar
en un momento en que todas las bases de datos estén en un
estado “estable” de tal forma que se minimicen las posibles
incoherencias,
–Operativa diaria: para realizar la carga no se puede parar
la operativa diaria de la institución ya que, normalmente, es
fundamental para su buen funcionamiento. Hay que diseñar
y preparar los procedimientos necesarios para minimizar el
tiempo destinado a ello.
–Diccionario de datos o “metadatos”: Es absolutamente
necesario conocer, de la estructura final del almacén de
datos, todos los detalles posibles. Esto quiere decir que un
diccionario de datos de estas características no puede ser un
mero registro de las características principales de los
atributos, sino que debe contemplar todos los detalles tales
como el atributo del que proviene, de qué base de datos, qué
transformación ha sufrido, por qué es necesario para el
almacén de datos, etc.
Almacenes de datos y
extracción de datos
Arquitectura de un Datawarehouse
Módulo Descripción Características/Problemas
Gestor de Es el encargado de Características:
Almacenamiento proceder al –Utiliza un modelo diferente al relacional dado que
almacenamiento y este último surge en base a una serie de
organización de los necesidades de gestión muy concretas y responde
datos. aceptablemente a dichos problemas.
–En un almacén de datos no tienen mucho sentido
dos de las grandes preocupaciones en el modelo
relacional: la normalización (que se ocupa, sobre
todo, de garantizar que no se van a producir
anomalías en las actualizaciones y en este modelo
no existen) y la integridad referencial (que se
supone garantizada por los procesos de integración
realizados durante la carga).
–Tiene la necesidad, no solamente de almacenar
los datos al detalle sino que, dado el tipo de
consultas que se van a realizar, de almacenar un
“resumen” de dichos datos por diferentes conceptos
(comúnmente denominados datos agregados o
globalizados).
–La necesidad de almacenar tal volumen de datos
hace que el diseño tenga en cuenta que los datos
detallados más actuales aparezcan almacenados en
dispositivos rápidos mientras que los menos
recientes, normalmente, se trasladen a dispositivos
más baratos y lentos, dejando los agregados en los
primeros.
Almacenes de datos y
extracción de datos
Arquitectura de un Datawarehouse
Módulo Descripción Características/Problemas
Gestor de Este gestor no optimiza las Características:
Consultas consultas en su ejecución, –Es de importancia vital la existencia de
capturando diferentes perfiles de un diccionario de datos activo y
consultas que presentan los avanzado, que permita a este gestor la
usuarios, de tal forma que pueda obtención de información acerca de
capturar y dirigir las consultas a los dichos agregados.
agregados ya existentes y que –Debe ser capaz de determinar la
reflejen la información solicitada. utilización que se está haciendo de los
agregados, de tal forma que fuera capaz
de crear nuevos o, ante la falta de
utilización de alguno en concreto, darlo
de baja.
–Debe estar preparado para trabajar
con “datamarts” orientadoa a atender
consultas de, por ejemplo, responsables
de zona a quienes le interesarán los
datos globalizados de todas las
sucursales de su zona, etc.
–Los "datamarts" son conjuntos de
datos que se corresponden con un
determinado perfil de consulta y que
podrían ser considerados como
"pequeños Data Warehouse" de cada
uno de los grupos.
Extracción (Minería) de Datos
Concepto
Consideraciones
realiza un
sistema Es el descubrimiento de relaciones de asociación o
de Asociación correlación en un conjunto de datos. Las asociaciones
se expresan como condiciones atributo-valor y deben
estar presentes varias veces en los datos.
Minería
de Datos
Analiza un conjunto de datos de entrenamiento cuya
Clasificación clasificación de clase se conoce y construye un modelo
de objetos para cada clase. Dicho modelo puede
representarse con árboles de decisión o con reglas de
clasificación, que muestran las características de los
datos. El modelo puede ser utilizado para la mayor
comprensión de los datos existentes y para la
clasificación de los datos futuros.
Extracción (Minería) de Datos
Muchas
organizaciones
Servidor
están Web
implementando Programas
soluciones de
Aplicación
informáticas que
les permiten
tener acceso Servidor de
desde Internet a bases de
datos
sus bases de
datos.
Bases de
datos