0% found this document useful (0 votes)

11 views6 pages

Data Wrangling & Data Manipulation With Pandas

Uploaded by

Muhammad Abdullah

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

11 views6 pages

Data Wrangling & Data Manipulation With Pandas

Uploaded by

Muhammad Abdullah

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 6

PUNJAB COLLEGE FAISALABAD

(A CONSTITUENT COLLEGE FAISALABAD)

Assignment # 1
Course Title:
Programing of Big Data
Assignment Title:
Data Wrangling & Data Manipulation
with Pandas
Submitted to:
Prof. Muhammad Ali
Submitted by:
Muhammad Abdullah (082)
Class:
BSCS(6A)

Date of Submission: 13-May-2024

Data Wrangling & Data Manipulation with Pandas

Data Wrangling:
Data wrangling, also known as data munging, is the process of cleaning, structuring, and enriching
raw data into a desired format for better decision-making in less time. It involves transforming and
mapping data from its raw form into another format with the intent of making it more appropriate
and valuable for a variety of downstream purposes such as analytics. Data wrangling often
includes dealing with missing or inconsistent data, handling outliers, and converting data types.

Data Wrangling:

1. Data Loading:
o This entails extracting data from varied sources like CSV files, Excel spreadsheets,
SQL databases, JSON, HTML, etc., and importing them into Pandas DataFrame
objects.

import pandas as pd
# Load data from a JSON file into a DataFrame
df = pd.read_json('file_path.json')

2. Data Cleaning:
o Handling Missing Values: Identifying and dealing with missing data using methods
like dropping missing values (dropna()), filling missing values (fillna()), or
imputation techniques.
o Removing Duplicates: Detecting and removing duplicate rows from the dataset
using drop_duplicates().
o Correcting Errors: Identifying and correcting errors in data entries, such as typos or
inconsistencies.
o Dealing with Inconsistencies: Ensuring consistency in data format, units, and
conventions throughout the dataset.

df.dropna(inplace=True) # Drop rows with missing values

df.fillna(value, inplace=True) # Fill missing values with a specified value

df.drop_duplicates(inplace=True) # Remove duplicate rows

df['column'] = df['column'].apply(lambda x: correct_error(x)) # Apply a function to correct errors

df['column'] = df['column'].str.lower() # Convert text to lowercase

3. Data Transformation:
o Converting Data Types: Changing the data type of columns to the appropriate
format using astype() or specific parsing functions.
o Normalizing Data: Scaling numerical data to a common scale to facilitate
comparison.
o Creating Derived Variables: Generating new features or variables from existing
ones through mathematical operations, transformations, or feature engineering.
o Handling Text Data: Processing and cleaning text data by removing punctuation,
stop words, or performing stemming/lemmatization.
o Handling Categorical Data: Encoding categorical variables into numerical
representations using techniques like one-hot encoding or label encoding.

# Converting Data Types

df['column'] = df['column'].astype('float64') # Convert data type of a column

# Normalizing Data
from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()
df['normalized_column'] = scaler.fit_transform(df[['column']])

# Creating Derived Variables

df['new_column'] = df['column1'] * df['column2'] # Create a new column based on existing columns

4. Data Integration:
o Combining Datasets: Merging or concatenating multiple datasets with similar
structures but different observations or variables using merge() or concat().
o Resolving Schema Differences: Handling schema differences between datasets,
such as mismatched column names or data types, through renaming or type
conversion.
o Handling Data Redundancy: Identifying and removing redundant or irrelevant data
to streamline the dataset.

# Combining Datasets
merged_df = pd.merge(df1, df2, on='key_column', how='inner') # Merge two DataFrames on a common
column

5. Data Reduction:
o Aggregating Data: Summarizing data by grouping it based on certain attributes and
calculating aggregate statistics using groupby() and aggregation functions like
sum(), mean(), count(), etc.
o Sampling Data: Selecting a representative subset of data for analysis using
techniques like random sampling or stratified sampling.
o Dimensionality Reduction: Reducing the number of features or variables in the
dataset through techniques like principal component analysis (PCA) or feature
selection.

# Aggregating Data
aggregated_df = df.groupby('category')['value'].sum() # Aggregate data by category

# Sampling Data
sample_df = df.sample(n=100, random_state=42) # Sample 100 random rows

//****************************************************//

Data Manipulation:
Data manipulation refers to the process of transforming and reshaping data to extract insights or
prepare it for further analysis. This involves various operations such as filtering, sorting,
aggregating, merging, and pivoting data to derive meaningful conclusions. Data manipulation aims
to organize and structure data in a way that facilitates analysis and decision-making.

Data Manipulation:

1. Filtering Data:

o Selecting Rows: Filtering rows based on specific conditions using boolean indexing
or the query() method.
o Selecting Columns: Extracting specific columns from the dataset based on their
names or indices.

# Selecting Rows
filtered_df = df[df['column'] > 10] # Filter rows based on a condition

# Selecting Columns
selected_columns_df = df[['column1', 'column2']] # Select specific columns
2. Sorting Data:

o Sorting Rows: Arranging rows of the dataset in ascending or descending order

based on one or more columns using sort_values().

# Sorting Rows
sorted_df = df.sort_values(by='column', ascending=False) # Sort DataFrame by
a column in descending order

3. Grouping and Aggregating:

o Grouping Data: Grouping data based on one or more categorical variables using
groupby().
o Aggregating Data: Computing summary statistics (e.g., sum, mean, count) within
each group using aggregation functions.

# Grouping Data
grouped_df = df.groupby('category')

# Aggregating Data
aggregated_df = grouped_df['value'].mean() # Compute mean value per category

4. Merging and Joining:

o Combining DataFrames: Merging or joining multiple DataFrames based on

common columns or indices using merge() or join().
o Handling Join Types: Specifying the type of join (e.g., inner join, outer join, left join,
right join) to control how rows are combined.

# Combining DataFrames
merged_df = pd.merge(df1, df2, on='key_column', how='inner') # Merge two
DataFrames based on a common column

5. Reshaping Data:

o Pivoting Data: Restructuring data from long to wide format or vice versa using
pivot_table(), melt(), stack(), and unstack().

# Pivoting Data
pivoted_df = df.pivot_table(index='date', columns='category', values='value',
aggfunc='sum') # Pivot DataFrame

# Melting Data
melted_df = pd.melt(df, id_vars=['id'], value_vars=['variable1',
'variable2']) # Melt DataFrame from wide to long format
6. Applying Functions:

o Element-wise Operations: Applying functions or operations to individual elements

or rows/columns of the dataset using apply() or vectorized operations.
o Group-wise Operations: Applying functions to groups of data within each group
using apply() or transform().

# Element-wise Operations
df['new_column'] = df['column'].apply(lambda x: custom_function(x)) # Apply
a custom function to each element in a column

# Group-wise Operations
grouped_df = df.groupby('category')
aggregated_df = grouped_df['value'].apply(lambda x:
custom_aggregation_function(x)) # Apply a custom aggregation function to
each group

Data Wrangling vs. Data Manipulation with Pandas

Data Manipulation in Python Using Pandas
No ratings yet
Data Manipulation in Python Using Pandas
12 pages
Unit 4 - Working With Graphs - Python
No ratings yet
Unit 4 - Working With Graphs - Python
49 pages
Data Prep & EDA for Python Users
No ratings yet
Data Prep & EDA for Python Users
12 pages
Data Cleaning - Cheatsheet
100% (2)
Data Cleaning - Cheatsheet
8 pages
Pandas Data Manipulation Extended CheatSheet 1731972219
No ratings yet
Pandas Data Manipulation Extended CheatSheet 1731972219
9 pages
Pandas Trampas
No ratings yet
Pandas Trampas
9 pages
Data Wrangling
No ratings yet
Data Wrangling
15 pages
DSBDAL
No ratings yet
DSBDAL
87 pages
Data Cleaning
No ratings yet
Data Cleaning
40 pages
Unit-2 Bda
No ratings yet
Unit-2 Bda
11 pages
Introduction To Pandas Programming 2
No ratings yet
Introduction To Pandas Programming 2
3 pages
Pandas Dataframe Cheat Sheet
No ratings yet
Pandas Dataframe Cheat Sheet
3 pages
Pandas
No ratings yet
Pandas
2 pages
Data Wrangling With Pandas F
No ratings yet
Data Wrangling With Pandas F
5 pages
Cheat Sheet - Pandas
No ratings yet
Cheat Sheet - Pandas
6 pages
Test 1 Datasheet
No ratings yet
Test 1 Datasheet
3 pages
Pandas For Python Pro Level Cheat Sheet
No ratings yet
Pandas For Python Pro Level Cheat Sheet
14 pages
Pandas Fuction Notes
No ratings yet
Pandas Fuction Notes
3 pages
Pandas Library: Data Manipulation & Analysis Guide
No ratings yet
Pandas Library: Data Manipulation & Analysis Guide
9 pages
Content Pandas Cheat Sheet
No ratings yet
Content Pandas Cheat Sheet
9 pages
Data Handling Module
No ratings yet
Data Handling Module
10 pages
1data Cleansing Cheklist
No ratings yet
1data Cleansing Cheklist
2 pages
Data Analysis
No ratings yet
Data Analysis
20 pages
Python Interviews
No ratings yet
Python Interviews
154 pages
Pandas Roadmap
No ratings yet
Pandas Roadmap
6 pages
Datascience
No ratings yet
Datascience
26 pages
Informatics Practices Practical File
No ratings yet
Informatics Practices Practical File
8 pages
# (Data Preprocessing) : (Cheatsheet)
No ratings yet
# (Data Preprocessing) : (Cheatsheet)
10 pages
NumPy and Pandas Step
No ratings yet
NumPy and Pandas Step
9 pages
Universal Data Analytics Algorithm
No ratings yet
Universal Data Analytics Algorithm
51 pages
Learninng Plan
No ratings yet
Learninng Plan
6 pages
EDA Cheat Sheet
No ratings yet
EDA Cheat Sheet
7 pages
Pandas Guide for Beginners
No ratings yet
Pandas Guide for Beginners
18 pages
Pandas Operations Guide
No ratings yet
Pandas Operations Guide
6 pages
Pandas
No ratings yet
Pandas
13 pages
DAP Writeups - Merged
No ratings yet
DAP Writeups - Merged
33 pages
EDA With Pandas
No ratings yet
EDA With Pandas
8 pages
Pandas Notes
No ratings yet
Pandas Notes
3 pages
Exploratory Data Analysis (Eda) With Pandas: (Cheatsheet)
No ratings yet
Exploratory Data Analysis (Eda) With Pandas: (Cheatsheet)
7 pages
Data Manipulation Topics List
No ratings yet
Data Manipulation Topics List
6 pages
Pandas Basic Functions
No ratings yet
Pandas Basic Functions
2 pages
Lecture Material 3
No ratings yet
Lecture Material 3
7 pages
Interactive Data Analysis With Jupyter Cheatsheet 1731972443
No ratings yet
Interactive Data Analysis With Jupyter Cheatsheet 1731972443
10 pages
NumPy and Pandas
No ratings yet
NumPy and Pandas
12 pages
Python For DS Unit4
No ratings yet
Python For DS Unit4
11 pages
DAP 3 Module
No ratings yet
DAP 3 Module
62 pages
Pandas Research
No ratings yet
Pandas Research
14 pages
Pandas Tutorial
No ratings yet
Pandas Tutorial
9 pages
Dataframe in Pandas - Cheatsheet
No ratings yet
Dataframe in Pandas - Cheatsheet
8 pages
Data Wrangling: Clean, Transform, Merge
No ratings yet
Data Wrangling: Clean, Transform, Merge
60 pages
Core of ML - Part 1 Handling Data
No ratings yet
Core of ML - Part 1 Handling Data
3 pages
Excel To Pandas Advanced Data Techniques For BI Devs 1729266352
No ratings yet
Excel To Pandas Advanced Data Techniques For BI Devs 1729266352
9 pages
Data Science Cheat Sheet: KEY Imports
100% (1)
Data Science Cheat Sheet: KEY Imports
1 page
Statistical Transform Data Cleaning
No ratings yet
Statistical Transform Data Cleaning
30 pages
DMV U4 RK
No ratings yet
DMV U4 RK
16 pages
III Unit
No ratings yet
III Unit
4 pages
Rahul Tailor - SIP Report PDF
No ratings yet
Rahul Tailor - SIP Report PDF
41 pages
Addis Ababa University
100% (1)
Addis Ababa University
111 pages
Mean Median Mode Range 5
No ratings yet
Mean Median Mode Range 5
2 pages
Course Outline
No ratings yet
Course Outline
1 page
Serrano La Oroya 2006
No ratings yet
Serrano La Oroya 2006
27 pages
Guideline For Data Acquisition
No ratings yet
Guideline For Data Acquisition
8 pages
02-Sample Q & A For Job Interview by SQS
No ratings yet
02-Sample Q & A For Job Interview by SQS
44 pages
Sample Size - Article-1
No ratings yet
Sample Size - Article-1
9 pages
Chapter 4 Measures of Central Tendency
No ratings yet
Chapter 4 Measures of Central Tendency
8 pages
Introduction To Statistical Thinking For Decision Making
100% (1)
Introduction To Statistical Thinking For Decision Making
13 pages
4th New Zealand Pipe Inspection Manual
No ratings yet
4th New Zealand Pipe Inspection Manual
232 pages
Research (Final Defense)
No ratings yet
Research (Final Defense)
16 pages
Certainly Uncertain: A Benchmark and Metric For Multimodal Epistemic and Aleatoric Awareness
No ratings yet
Certainly Uncertain: A Benchmark and Metric For Multimodal Epistemic and Aleatoric Awareness
26 pages
BBA Report: Online Shopping Trends
0% (2)
BBA Report: Online Shopping Trends
78 pages
Curran PG (2016) Preprint
No ratings yet
Curran PG (2016) Preprint
65 pages
11th Sociology Chapter Wise Question Answer
50% (2)
11th Sociology Chapter Wise Question Answer
49 pages
Base Camp Facility Layout: February 2001
No ratings yet
Base Camp Facility Layout: February 2001
8 pages
The Effects of Accounting in Financial Literacy of 11 ABM Students of Commonwealth High School
100% (2)
The Effects of Accounting in Financial Literacy of 11 ABM Students of Commonwealth High School
30 pages
Final Thesis Abdi Majid Mohamed Hassan
100% (1)
Final Thesis Abdi Majid Mohamed Hassan
26 pages
(8 17) Stats Midterms
No ratings yet
(8 17) Stats Midterms
10 pages
Borosil Non-Stick Tava Project
No ratings yet
Borosil Non-Stick Tava Project
51 pages
Lesson 1
No ratings yet
Lesson 1
38 pages
Chandrashekhar Shelar PDF
0% (1)
Chandrashekhar Shelar PDF
81 pages
Rol Et Al
No ratings yet
Rol Et Al
67 pages
REviewer
No ratings yet
REviewer
2 pages
Develop Abstract SCPP As of 1 14 2024
No ratings yet
Develop Abstract SCPP As of 1 14 2024
12 pages
Group 3 Ga
No ratings yet
Group 3 Ga
39 pages
Neelgagan Project
No ratings yet
Neelgagan Project
107 pages
Economic Impact of Plantain Ripening A Case Study
No ratings yet
Economic Impact of Plantain Ripening A Case Study
12 pages
Group 7 Final Research Paper Engtech6
No ratings yet
Group 7 Final Research Paper Engtech6
35 pages

Data Wrangling & Data Manipulation With Pandas

Uploaded by

Data Wrangling & Data Manipulation With Pandas

Uploaded by

PUNJAB COLLEGE FAISALABAD

(A CONSTITUENT COLLEGE FAISALABAD)

Date of Submission: 13-May-2024

df.dropna(inplace=True) # Drop rows with missing values

df.drop_duplicates(inplace=True) # Remove duplicate rows

df['column'] = df['column'].apply(lambda x: correct_error(x)) # Apply a function to correct errors

df['column'] = df['column'].str.lower() # Convert text to lowercase

# Converting Data Types

# Creating Derived Variables

o Sorting Rows: Arranging rows of the dataset in ascending or descending order

3. Grouping and Aggregating:

4. Merging and Joining:

o Combining DataFrames: Merging or joining multiple DataFrames based on

o Element-wise Operations: Applying functions or operations to individual elements

Data Wrangling vs. Data Manipulation with Pandas

You might also like