Data Warehousing and Data Mining

The document discusses the three-tier architecture of data warehousing, detailing the bottom tier (data source layer), middle tier (data warehouse layer), and top tier (presentation layer). It also outlines common transformations in ETL processes, including data cleaning, filtering, and merging, which ensure data is structured for analysis. Additionally, it differentiates between data warehouse, database, data marts, and data repositories, highlighting their purposes, data types, usage, scope, and examples.

Uploaded by

Tanya Maheshwari

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

29 views2 pages

Data Warehousing and Data Mining

Uploaded by

Tanya Maheshwari

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

You are on page 1/ 2

Data Warehousing and Data Mining Assignment 1

Name: Tanya Maheshwari

Enrollment No. 02613702022
Submitted to: Ms. Ruchika
1. Explain the three-tier architecture of data warehousing.
Answer:
The three-tier architecture in data warehousing organizes the system into layers for better
performance, scalability, and maintenance. The tiers are:
 Bottom Tier (Data Source Layer):
This layer consists of relational databases, flat files, and external data sources. It uses
ETL (Extract, Transform, Load) processes to gather data from different sources, clean it,
and load it into the warehouse.
 Middle Tier (Data Warehouse Layer):
This is the core layer, where the actual data warehouse resides. It stores integrated,
historical, and subject-oriented data in a structured format, often using OLAP (Online
Analytical Processing) servers. It enables fast query processing and multidimensional
analysis.
 Top Tier (Presentation Layer):
This layer interacts with end-users via reporting tools, dashboards, data mining, and
business intelligence applications. It allows users to perform queries, generate reports, and
visualize data insights.
2. What are the most common transformations in ETL processes?
Answer:
In ETL (Extract, Transform, Load) processes, transformation is the critical phase where raw data is
converted into a structured and usable format. Common transformations include:
 Data Cleaning: Handling missing values, correcting errors, and removing duplicates.
 Data Filtering: Selecting only relevant records based on specific conditions.
 Data Aggregation: Summarizing data, e.g., calculating averages or totals.
 Data Mapping: Converting source data to the target schema by applying mapping rules.
 Data Encoding: Converting categorical data into numerical formats (e.g., one-hot encoding).
 Data Splitting: Breaking one column into multiple columns (e.g., splitting full name into first
and last names).
 Data Merging: Combining data from multiple sources or tables into a single dataset.
 Normalization/Standardization: Scaling numerical data for consistency across datasets.
These transformations ensure that data is clean, consistent, and correctly structured before loading
into the data warehouse, improving the accuracy of analysis and decision-making.
3. What are the various components of data warehouse? Explain their functionality in detail.
Answer:
A data warehouse consists of several components, each with specific roles to support storage,
processing, and analysis of data:
 Data Sources: These are external or internal databases, flat files, APIs, etc., from which data
is extracted.
 ETL Tools (Extract, Transform, Load): These tools extract data from sources, clean and
transform it, and load it into the warehouse. Tools include Informatica, Talend, and SSIS.
 Data Staging Area: A temporary storage location where data is cleansed and transformed
before loading. It ensures that only high-quality data is loaded.
 Data Warehouse Database: The central repository where processed, structured, and
historical data is stored. It supports multidimensional analysis and querying.
 Metadata Repository: Stores data about the data (i.e., metadata) including source
information, schema definitions, data lineage, and transformation rules.
 OLAP Engine: Enables complex analytical queries and multidimensional views of data, such
as slicing, dicing, roll-up, and drill-down.
 Front-End Tools: These are used for reporting, querying, visualization, and dashboard
creation. They help users extract insights and make informed decisions.
Together, these components ensure seamless data flow, storage, management, and analysis.
4. Differentiate between Data Warehouse, Database, Data Marts, and Data Repository.
Answer:

Aspect Database Data Warehouse Data Mart Data Repository

Manages real-
Stores integrated,
time Department-level General term for centralized
Purpose historical analytical
transactional analytical data data storage
data
data

Current, Subset of data Any type

Data Type Historical, analytical
operational warehouse (structured/unstructured)

Daily operations
Business intelligence Focused reporting Storing and managing
Usage (CRUD
and decision-making for specific teams diverse data
operations)

Narrow,
Wide, organization- Narrow, subject- Broad, not limited to
Scope application-
wide specific structured data
specific

MySQL for e-
Enterprise data Marketing data Big data repository like
Example commerce
warehouse (EDW) mart Hadoop
orders

Data Mining - 1.
No ratings yet
Data Mining - 1.
34 pages
Ex 1
No ratings yet
Ex 1
14 pages
DW 2marks 1&2
No ratings yet
DW 2marks 1&2
8 pages
Solve These Questions
No ratings yet
Solve These Questions
11 pages
Data Warehousing Answer Key
No ratings yet
Data Warehousing Answer Key
4 pages
Unit 1
No ratings yet
Unit 1
18 pages
UNIT 1 Data Warehouseing
No ratings yet
UNIT 1 Data Warehouseing
26 pages
MCS-221 2024-25 em
No ratings yet
MCS-221 2024-25 em
34 pages
Answer Key Model Data Warehousing
No ratings yet
Answer Key Model Data Warehousing
48 pages
Report On Principles of Fragmentation in Computer Science
No ratings yet
Report On Principles of Fragmentation in Computer Science
26 pages
Data Warehouse Components
No ratings yet
Data Warehouse Components
8 pages
BD&CC Unit2
No ratings yet
BD&CC Unit2
14 pages
Ccs341 DW Qa (Final)
No ratings yet
Ccs341 DW Qa (Final)
77 pages
Gita Autonomous College, Bhubaneswar Question Bank Subject
No ratings yet
Gita Autonomous College, Bhubaneswar Question Bank Subject
27 pages
12 20 - 2 Mark Questions With Answers
No ratings yet
12 20 - 2 Mark Questions With Answers
6 pages
Datastage Anwers
No ratings yet
Datastage Anwers
75 pages
Data Warehouse Essentials Guide
No ratings yet
Data Warehouse Essentials Guide
3 pages
PT1 QuestionBank
No ratings yet
PT1 QuestionBank
17 pages
DWDM202
No ratings yet
DWDM202
6 pages
DW Unit I Notes
No ratings yet
DW Unit I Notes
28 pages
100 Important Questions With Solutions For Data Warehousing & Data Mining (BCS058)
No ratings yet
100 Important Questions With Solutions For Data Warehousing & Data Mining (BCS058)
119 pages
Cat Data Mining
No ratings yet
Cat Data Mining
4 pages
DWM Question Bank Solution
No ratings yet
DWM Question Bank Solution
20 pages
Data Warehouse
No ratings yet
Data Warehouse
63 pages
DWDM Unit 1 (R23)
No ratings yet
DWDM Unit 1 (R23)
85 pages
DWDM QB
No ratings yet
DWDM QB
29 pages
Introduction To Data Warehouse
No ratings yet
Introduction To Data Warehouse
22 pages
DWDM
No ratings yet
DWDM
9 pages
DBMS - Unit 4 - Part2
No ratings yet
DBMS - Unit 4 - Part2
4 pages
Document 29
No ratings yet
Document 29
50 pages
Unit 1
No ratings yet
Unit 1
39 pages
FSFVB
No ratings yet
FSFVB
35 pages
Data Warehourse
No ratings yet
Data Warehourse
7 pages
DW Part A Part B Notes
No ratings yet
DW Part A Part B Notes
69 pages
DW QB With Answers
No ratings yet
DW QB With Answers
11 pages
Data Warehousing Study Guide
No ratings yet
Data Warehousing Study Guide
10 pages
Data Warehouse Fundamentals
No ratings yet
Data Warehouse Fundamentals
30 pages
Data Warehousing Information
No ratings yet
Data Warehousing Information
20 pages
Data Mining & BI Exam Guide 2023
No ratings yet
Data Mining & BI Exam Guide 2023
45 pages
Unit-2 DM
No ratings yet
Unit-2 DM
21 pages
DW Micro
No ratings yet
DW Micro
2 pages
Data Warehouse Components
No ratings yet
Data Warehouse Components
26 pages
Unit2 Data Science
No ratings yet
Unit2 Data Science
9 pages
DW Part A
No ratings yet
DW Part A
84 pages
DMDW Important Answers
No ratings yet
DMDW Important Answers
53 pages
Data Warehouse
No ratings yet
Data Warehouse
143 pages
Selected Topics of Recent Trends in Information Technology
No ratings yet
Selected Topics of Recent Trends in Information Technology
21 pages
Data Notes
No ratings yet
Data Notes
37 pages
Data Warehouse
No ratings yet
Data Warehouse
71 pages
Data Warehouse Architechture-Layers
No ratings yet
Data Warehouse Architechture-Layers
21 pages
Unit 1
No ratings yet
Unit 1
33 pages
Business Analytics Unit 2 Notes
No ratings yet
Business Analytics Unit 2 Notes
30 pages
DWM Unit-1 Notes
No ratings yet
DWM Unit-1 Notes
10 pages
DWM Exp1
No ratings yet
DWM Exp1
16 pages
DW DM Notes
No ratings yet
DW DM Notes
107 pages
Lecture 3
No ratings yet
Lecture 3
60 pages
Unit1 (DW&DM)
No ratings yet
Unit1 (DW&DM)
30 pages
Case Study Simsree 2021
No ratings yet
Case Study Simsree 2021
551 pages
Skjuve 2018 - Measuring User Experience in Chatbots - An Approach To Interpersonal Communication Competence
No ratings yet
Skjuve 2018 - Measuring User Experience in Chatbots - An Approach To Interpersonal Communication Competence
9 pages
Data Strategy
No ratings yet
Data Strategy
9 pages
Danelec - DM800 User Manual Software
No ratings yet
Danelec - DM800 User Manual Software
305 pages
Business Data Systems Explained
No ratings yet
Business Data Systems Explained
7 pages
Chapter 1
No ratings yet
Chapter 1
30 pages
AABO - The Role and Value of Public Libraries in The Age of Digital Technologies 2005
No ratings yet
AABO - The Role and Value of Public Libraries in The Age of Digital Technologies 2005
7 pages
Voucher Bintang - Hotspot 12 JAM Up 170 11.24.22
No ratings yet
Voucher Bintang - Hotspot 12 JAM Up 170 11.24.22
10 pages
ABPL - Search Strategy Form
No ratings yet
ABPL - Search Strategy Form
4 pages
EI Concept Map
No ratings yet
EI Concept Map
1 page
Understand The Fundamentals of Enterprise Systems and Issues Associated With Their Implementation
No ratings yet
Understand The Fundamentals of Enterprise Systems and Issues Associated With Their Implementation
5 pages
Sales Lead Tracking Template by Layer
No ratings yet
Sales Lead Tracking Template by Layer
22 pages
Drug Information Course Overview
No ratings yet
Drug Information Course Overview
16 pages
Oracle Data Guard - Fast Start Failover Understood!: Dr. Martin Wunderli
No ratings yet
Oracle Data Guard - Fast Start Failover Understood!: Dr. Martin Wunderli
31 pages
Lecture 1 Introduction
No ratings yet
Lecture 1 Introduction
29 pages
Nextgen Healthcare Data Sheet Ehr Connect Ds 00042
No ratings yet
Nextgen Healthcare Data Sheet Ehr Connect Ds 00042
4 pages
ST Peter's Hospital Management Documentation BY WILBER SITHOLE Final
No ratings yet
ST Peter's Hospital Management Documentation BY WILBER SITHOLE Final
45 pages
Hybrid Recommender Systems: A Systematic Literature Review: Erion Çano and Maurizio Morisio
No ratings yet
Hybrid Recommender Systems: A Systematic Literature Review: Erion Çano and Maurizio Morisio
38 pages
Retrieving Data From Multiple Tables
No ratings yet
Retrieving Data From Multiple Tables
15 pages
Time Stamp Protocols
No ratings yet
Time Stamp Protocols
15 pages
Advanced Java Programming With Database Application
100% (1)
Advanced Java Programming With Database Application
390 pages
UNIT-8 Full Nots Final
No ratings yet
UNIT-8 Full Nots Final
35 pages
ADMIRALTY Chart Service Guide
No ratings yet
ADMIRALTY Chart Service Guide
15 pages
استخدامات البيانات الضخمة في نظم المعلومات التسويقية
No ratings yet
استخدامات البيانات الضخمة في نظم المعلومات التسويقية
18 pages
DocuTracks Brochure 2019 EN Print
No ratings yet
DocuTracks Brochure 2019 EN Print
4 pages
Epicor ERP10 Advanced Dashboards Management
No ratings yet
Epicor ERP10 Advanced Dashboards Management
64 pages
Natural Language Processing For Social Media 2015
No ratings yet
Natural Language Processing For Social Media 2015
168 pages
Stinta
No ratings yet
Stinta
1 page
Oracle Discoverer Guide
No ratings yet
Oracle Discoverer Guide
19 pages
Oose Ex-2 Library Management System
No ratings yet
Oose Ex-2 Library Management System
8 pages

Data Warehousing and Data Mining

Uploaded by

Data Warehousing and Data Mining

Uploaded by

Data Warehousing and Data Mining Assignment 1

Name: Tanya Maheshwari

Aspect Database Data Warehouse Data Mart Data Repository

Current, Subset of data Any type

You might also like