0% found this document useful (0 votes)

80 views58 pages

Comparing Strings: Adel Nehme

This document discusses record linkage using Python. It begins by introducing the recordlinkage package for comparing and linking records across different datasets. It then shows how to generate pairs of records from two sample census DataFrames by blocking on the "state" field. Various string comparison methods are demonstrated for comparing fields like name, address, and date of birth. Finally, it filters the potential matches to find the pairs that match on two or more fields, indicating a likely linked record.

Uploaded by

manish wadhwani

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

80 views58 pages

Comparing Strings: Adel Nehme

Uploaded by

manish wadhwani

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 58

Comparing strings

D ATA C L E A N I N G I N P Y T H O N

Adel Nehme
Content Developer @ DataCamp
In this chapter

Chapter 4 - Record linkage

DATA CLEANING IN PYTHON

Minimum edit distance

Least possible amount of steps needed to transition from one string to another

DATA CLEANING IN PYTHON

Minimum edit distance

Least possible amount of steps needed to transition from one string to another

DATA CLEANING IN PYTHON

Minimum edit distance

DATA CLEANING IN PYTHON

Minimum edit distance

Minimum edit distance so far: 2

DATA CLEANING IN PYTHON

Minimum edit distance

Minimum edit distance: 5

DATA CLEANING IN PYTHON

Minimum edit distance

DATA CLEANING IN PYTHON

Minimum edit distance algorithms
Algorithm Operations

Damerau-Levenshtein insertion, substitution, deletion, transposition

Levenshtein insertion, substitution, deletion

Hamming substitution only

Jaro distance transposition only

... ...

Possible packages: nltk , fuzzywuzzy , textdistance ..

DATA CLEANING IN PYTHON

Minimum edit distance algorithms
Algorithm Operations

Damerau-Levenshtein insertion, substitution, deletion, transposition

Levenshtein insertion, substitution, deletion

Hamming substitution only

Jaro distance transposition only

... ...

Possible packages: fuzzywuzzy

DATA CLEANING IN PYTHON

Simple string comparison
# Lets us compare between two strings
from fuzzywuzzy import fuzz

# Compare reeding vs reading

fuzz.WRatio('Reeding', 'Reading')

DATA CLEANING IN PYTHON

Partial strings and different orderings
# Partial string comparison
fuzz.WRatio('Houston Rockets', 'Rockets')

# Partial string comparison with different order

fuzz.WRatio('Houston Rockets vs Los Angeles Lakers', 'Lakers vs Rockets')

DATA CLEANING IN PYTHON

Comparison with arrays
# Import process
from fuzzywuzzy import process

# Define string and array of possible matches

string = "Houston Rockets vs Los Angeles Lakers"
choices = pd.Series(['Rockets vs Lakers', 'Lakers vs Rockets',
'Houson vs Los Angeles', 'Heat vs Bulls'])

process.extract(string, choices, limit = 2)

[('Rockets vs Lakers', 86, 0), ('Lakers vs Rockets', 86, 1)]

DATA CLEANING IN PYTHON

Collapsing categories with string similarity
Chapter 2

Use .replace() to collapse "eur" into "Europe"

What if there are too many variations?

"EU" , "eur" , "Europ" , "Europa" , "Erope" , "Evropa" ...

String similarity!

DATA CLEANING IN PYTHON

Collapsing categories with string matching
print(survey) categories

id state move_scores state

0 California 1 0 California
1 Cali 1 1 New York
2 Calefornia 1
3 Calefornie 3
4 Californie 0
5 Calfornia 2
6 Calefernia 0
7 New York 2
8 New York City 2
...

DATA CLEANING IN PYTHON

Collapsing all of the state
# For each correct category
for state in categories['state']:

# Find potential matches in states with typoes

matches = process.extract(state, survey['state'], limit = survey.shape[0])

# For each potential match match

for potential_match in matches:
# If high similarity score
if potential_match[1] >= 80:

# Replace typo with correct category

survey.loc[survey['state'] == potential_match[0], 'state'] = state

DATA CLEANING IN PYTHON

Record linkage

DATA CLEANING IN PYTHON

Let's practice!
D ATA C L E A N I N G I N P Y T H O N
Generating pairs
D ATA C L E A N I N G I N P Y T H O N

Adel Nehme
Content Developer @ DataCamp
Motivation

DATA CLEANING IN PYTHON

When joins won't work

DATA CLEANING IN PYTHON

Record linkage

The recordlinkage package

DATA CLEANING IN PYTHON

Our DataFrames
census_A

given_name surname date_of_birth suburb state address_1

rec_id
rec-1070-org michaela neumann 19151111 winston hills cal stanley street
rec-1016-org courtney painter 19161214 richlands txs pinkerton circuit
...

census_B

given_name surname date_of_birth suburb state address_1

rec_id
rec-561-dup-0 elton NaN 19651013 windermere ny light setreet
rec-2642-dup-0 mitchell maxon 19390212 north ryde cal edkins street
...

DATA CLEANING IN PYTHON

Generating pairs

DATA CLEANING IN PYTHON

Generating pairs

DATA CLEANING IN PYTHON

Blocking

DATA CLEANING IN PYTHON

Generating pairs
# Import recordlinkage
import recordlinkage

# Create indexing object

indexer = recordlinkage.Index()

# Generate pairs blocked on state

indexer.block('state')
pairs = indexer.index(census_A, census_B)

DATA CLEANING IN PYTHON

Generating pairs
print(pairs)

MultiIndex(levels=[['rec-1007-org', 'rec-1016-org', 'rec-1054-org', 'rec-1066-org',

'rec-1070-org', 'rec-1075-org', 'rec-1080-org', 'rec-110-org', 'rec-1146-org',
'rec-1157-org', 'rec-1165-org', 'rec-1185-org', 'rec-1234-org', 'rec-1271-org',
'rec-1280-org',...........
66, 14, 13, 18, 34, 39, 0, 16, 80, 50, 20, 69, 28, 25, 49, 77, 51, 85, 52, 63, 74, 61,
83, 91, 22, 26, 55, 84, 11, 81, 97, 56, 27, 48, 2, 64, 5, 17, 29, 60, 72, 47, 92, 12,
95, 15, 19, 57, 37, 70, 94]], names=['rec_id_1', 'rec_id_2'])

DATA CLEANING IN PYTHON

Comparing the DataFrames
# Generate the pairs
pairs = indexer.index(census_A, census_B)
# Create a Compare object
compare_cl = recordlinkage.Compare()

# Find exact matches for pairs of date_of_birth and state

compare_cl.exact('date_of_birth', 'date_of_birth', label='date_of_birth')
compare_cl.exact('state', 'state', label='state')
# Find similar matches for pairs of surname and address_1 using string similarity
compare_cl.string('surname', 'surname', threshold=0.85, label='surname')
compare_cl.string('address_1', 'address_1', threshold=0.85, label='address_1')

# Find matches
potential_matches = compare_cl.compute(pairs, census_A, census_B)

DATA CLEANING IN PYTHON

Finding matching pairs
print(potential_matches)

date_of_birth state surname address_1

rec_id_1 rec_id_2
rec-1070-org rec-561-dup-0 0 1 0.0 0.0
rec-2642-dup-0 0 1 0.0 0.0
rec-608-dup-0 0 1 0.0 0.0
...
rec-1631-org rec-4070-dup-0 0 1 0.0 0.0
rec-4862-dup-0 0 1 0.0 0.0
rec-629-dup-0 0 1 0.0 0.0
...

DATA CLEANING IN PYTHON

Finding the only pairs we want
potential_matches[potential_matches.sum(axis = 1) => 2]

date_of_birth state surname address_1

rec_id_1 rec_id_2
rec-4878-org rec-4878-dup-0 1 1 1.0 0.0
rec-417-org rec-2867-dup-0 0 1 0.0 1.0
rec-3964-org rec-394-dup-0 0 1 1.0 0.0
rec-1373-org rec-4051-dup-0 0 1 1.0 0.0
rec-802-dup-0 0 1 1.0 0.0
rec-3540-org rec-470-dup-0 0 1 1.0 0.0

DATA CLEANING IN PYTHON

Let's practice!
D ATA C L E A N I N G I N P Y T H O N
Linking DataFrames
D ATA C L E A N I N G I N P Y T H O N

Adel Nehme
Content Developer @ DataCamp
Record linkage

DATA CLEANING IN PYTHON

Record linkage

DATA CLEANING IN PYTHON

Our DataFrames
census_A

given_name surname date_of_birth suburb state address_1

rec_id
rec-1070-org michaela neumann 19151111 winston hills nsw stanley street
rec-1016-org courtney painter 19161214 richlands vic pinkerton circuit
...
census_B

given_name surname date_of_birth suburb state address_1

rec_id
rec-561-dup-0 elton NaN 19651013 windermere vic light setreet
rec-2642-dup-0 mitchell maxon 19390212 north ryde nsw edkins street
...

DATA CLEANING IN PYTHON

What we've already done
# Import recordlinkage and generate full pairs
import recordlinkage
indexer = recordlinkage.Index()
indexer.block('state')
full_pairs = indexer.index(census_A, census_B)

# Comparison step
compare_cl = recordlinkage.Compare()
compare_cl.exact('date_of_birth', 'date_of_birth', label='date_of_birth')
compare_cl.exact('state', 'state', label='state')
compare_cl.string('surname', 'surname', threshold=0.85, label='surname')
compare_cl.string('address_1', 'address_1', threshold=0.85, label='address_1')

potential_matches = compare_cl.compute(full_pairs, census_A, census_B)

DATA CLEANING IN PYTHON

What we're doing now

DATA CLEANING IN PYTHON

Our potential matches
potential_matches

DATA CLEANING IN PYTHON

Our potential matches
potential_matches

DATA CLEANING IN PYTHON

Our potential matches
potential_matches

DATA CLEANING IN PYTHON

Our potential matches
potential_matches

DATA CLEANING IN PYTHON

Probable matches
matches = potential_matches[potential_matches.sum(axis = 1) >= 3]
print(matches)

DATA CLEANING IN PYTHON

Probable matches
matches = potential_matches[potential_matches.sum(axis = 1) >= 3]
print(matches)

DATA CLEANING IN PYTHON

Get the indices
matches.index

MultiIndex(levels=[['rec-1007-org', 'rec-1016-org', 'rec-1054-org', 'rec-1066-org',

'rec-1070-org', 'rec-1075-org', 'rec-1080-org', 'rec-110-org', ...

# Get indices from census_B only

duplicate_rows = matches.index.get_level_values(1)
print(census_B_index)

Index(['rec-2404-dup-0', 'rec-4178-dup-0', 'rec-1054-dup-0', 'rec-4663-dup-0',

'rec-485-dup-0', 'rec-2950-dup-0', 'rec-1234-dup-0', ... , 'rec-299-dup-0'])

DATA CLEANING IN PYTHON

Linking DataFrames
# Finding duplicates in census_B
census_B_duplicates = census_B[census_B.index.isin(duplicate_rows)]

# Finding new rows in census_B

census_B_new = census_B[~census_B.index.isin(duplicate_rows)]

# Link the DataFrames!

full_census = census_A.append(census_B_new)

DATA CLEANING IN PYTHON

# Import recordlinkage and generate pairs and compare across columns
...
# Generate potential matches
potential_matches = compare_cl.compute(full_pairs, census_A, census_B)

# Isolate matches with matching values for 3 or more columns

matches = potential_matches[potential_matches.sum(axis = 1) >= 3]

# Get index for matching census_B rows only

duplicate_rows = matches.index.get_level_values(1)

# Finding new rows in census_B

census_B_new = census_B[~census_B.index.isin(duplicate_rows)]

# Link the DataFrames!

full_census = census_A.append(census_B_new)

DATA CLEANING IN PYTHON

Let's practice!
D ATA C L E A N I N G I N P Y T H O N
Congratulations!
D ATA C L E A N I N G I N P Y T H O N

Adel Nehme
Content Developer @ DataCamp
What we've learned

DATA CLEANING IN PYTHON

What we've learned

Chapter 1 - Common data problems

DATA CLEANING IN PYTHON

What we've learned

Chapter 2 - Text and categorical data problems

DATA CLEANING IN PYTHON

What we've learned

Chapter 3 - Advanced data problems

DATA CLEANING IN PYTHON

What we've learned

Chapter 4 - Record linkage

DATA CLEANING IN PYTHON

More to learn!

DATA CLEANING IN PYTHON

More to learn!

DATA CLEANING IN PYTHON

More to learn!

DATA CLEANING IN PYTHON

Thank you!
D ATA C L E A N I N G I N P Y T H O N

Chapter 4
No ratings yet
Chapter 4
58 pages
Chapter1 PDF
No ratings yet
Chapter1 PDF
46 pages
Cleaning Data in Python
No ratings yet
Cleaning Data in Python
47 pages
Python Data Cleaning Techniques
No ratings yet
Python Data Cleaning Techniques
36 pages
Chapter 2
No ratings yet
Chapter 2
36 pages
Chapter 3
No ratings yet
Chapter 3
47 pages
ch4 Slides PDF
No ratings yet
ch4 Slides PDF
44 pages
Cleaning Data in Python
No ratings yet
Cleaning Data in Python
26 pages
Pythonic Data Cleaning With Numpy and Pandas
No ratings yet
Pythonic Data Cleaning With Numpy and Pandas
11 pages
Advanced Python Lab
No ratings yet
Advanced Python Lab
17 pages
Data Wrangling & Analysis Guide
100% (1)
Data Wrangling & Analysis Guide
36 pages
5 - Text Processing With Transformers
No ratings yet
5 - Text Processing With Transformers
76 pages
Week 1 To Week 9
No ratings yet
Week 1 To Week 9
30 pages
PDS Exp 7 To 9
No ratings yet
PDS Exp 7 To 9
10 pages
Cleaning Data in Python
No ratings yet
Cleaning Data in Python
24 pages
10 Python Built-In Functions That Will Simplify Your Code
No ratings yet
10 Python Built-In Functions That Will Simplify Your Code
8 pages
Python Data Analysis for Students
No ratings yet
Python Data Analysis for Students
22 pages
Data Cleaningin ML
No ratings yet
Data Cleaningin ML
15 pages
Ge - Computer Science Data Analysis
No ratings yet
Ge - Computer Science Data Analysis
16 pages
DW Lab File
No ratings yet
DW Lab File
18 pages
Unit 4 Fod
100% (1)
Unit 4 Fod
21 pages
Overview of Data Cleaning
No ratings yet
Overview of Data Cleaning
17 pages
Part A Assignment - No - 1
No ratings yet
Part A Assignment - No - 1
7 pages
III Unit
No ratings yet
III Unit
4 pages
Data Science
No ratings yet
Data Science
9 pages
DSBDAL
No ratings yet
DSBDAL
87 pages
Day 10 Pandasdatacleaning
No ratings yet
Day 10 Pandasdatacleaning
6 pages
6.data Cleaning
No ratings yet
6.data Cleaning
20 pages
Tidy Data with Pandas: A Comprehensive Guide
No ratings yet
Tidy Data with Pandas: A Comprehensive Guide
25 pages
03 Numpy and Pandas
No ratings yet
03 Numpy and Pandas
68 pages
1-Introduction To Data Cleaning
No ratings yet
1-Introduction To Data Cleaning
22 pages
Python & Data Science Cheat Sheet
100% (4)
Python & Data Science Cheat Sheet
11 pages
Python (Unit - 2)
No ratings yet
Python (Unit - 2)
22 pages
Data Wrangling & Pandas Guide
No ratings yet
Data Wrangling & Pandas Guide
48 pages
Experiment 8
No ratings yet
Experiment 8
9 pages
Unit2 Part2 Da
No ratings yet
Unit2 Part2 Da
45 pages
Statistical Transform Data Cleaning
No ratings yet
Statistical Transform Data Cleaning
30 pages
Data Cleaning Guide for Python Users
No ratings yet
Data Cleaning Guide for Python Users
14 pages
NumPy and Pandas
No ratings yet
NumPy and Pandas
12 pages
CH 3 2
No ratings yet
CH 3 2
17 pages
DS Final
No ratings yet
DS Final
46 pages
Data Cleaning
No ratings yet
Data Cleaning
13 pages
11 20241108 DataAnalysis AppliExamples
No ratings yet
11 20241108 DataAnalysis AppliExamples
36 pages
Pandas & PyNumS Essentials
No ratings yet
Pandas & PyNumS Essentials
10 pages
Dataset Cleaning Cheat Sheet
No ratings yet
Dataset Cleaning Cheat Sheet
1 page
Data Cleaning with Pandas
No ratings yet
Data Cleaning with Pandas
81 pages
01-Numpy & Pandas
No ratings yet
01-Numpy & Pandas
69 pages
E-Book Data Cleaning Techniques in Python
100% (2)
E-Book Data Cleaning Techniques in Python
50 pages
Python Map Lambda
No ratings yet
Python Map Lambda
9 pages
Report
No ratings yet
Report
18 pages
Data Analysis and Visualization LAB
No ratings yet
Data Analysis and Visualization LAB
2 pages
String (Pandas) - Removing $ After Int Sales ( Revenue') Sales ( Revenue') .STR - Strip ( $') #Convert String To Int
No ratings yet
String (Pandas) - Removing $ After Int Sales ( Revenue') Sales ( Revenue') .STR - Strip ( $') #Convert String To Int
12 pages
Data Mining Journal 1 Kashan
No ratings yet
Data Mining Journal 1 Kashan
13 pages
Data Wrangling
No ratings yet
Data Wrangling
5 pages
Unit 4 - Working With Graphs - Python
No ratings yet
Unit 4 - Working With Graphs - Python
49 pages
Data Science Papers
No ratings yet
Data Science Papers
109 pages
Pandas Library
No ratings yet
Pandas Library
6 pages
01 Introduction To Python
No ratings yet
01 Introduction To Python
36 pages
Case Study - Bakery House App
No ratings yet
Case Study - Bakery House App
4 pages
Benefits of Laughter for Health
No ratings yet
Benefits of Laughter for Health
2 pages
Tm-t81 Users Manual
No ratings yet
Tm-t81 Users Manual
12 pages
in Physical Science
No ratings yet
in Physical Science
16 pages
Edexcel C3 Core Math Exam
No ratings yet
Edexcel C3 Core Math Exam
16 pages
Acidity or Alkalinity of Water: Standard Test Methods For
No ratings yet
Acidity or Alkalinity of Water: Standard Test Methods For
9 pages
Civil Engineering Curriculum Update
No ratings yet
Civil Engineering Curriculum Update
78 pages
Phu Gia The He Moi Cho Xi Mang
100% (1)
Phu Gia The He Moi Cho Xi Mang
109 pages
Sluice Gate NRS 4 To 8 IN DRAWING
No ratings yet
Sluice Gate NRS 4 To 8 IN DRAWING
1 page
MRF454 80W 30MHz RF Transistor Data
No ratings yet
MRF454 80W 30MHz RF Transistor Data
5 pages
List of Hospital
No ratings yet
List of Hospital
61 pages
Module 4 - Controllers
No ratings yet
Module 4 - Controllers
37 pages
Fusional Language
No ratings yet
Fusional Language
3 pages
HR Strategy Guide 1692701757
100% (1)
HR Strategy Guide 1692701757
7 pages
Aircraft Icing: Impact & Safety Measures
No ratings yet
Aircraft Icing: Impact & Safety Measures
11 pages
Screenshot 2025-02-06 at 5.49.34 PM
No ratings yet
Screenshot 2025-02-06 at 5.49.34 PM
1 page
Microsoft PowerPoint Guide
No ratings yet
Microsoft PowerPoint Guide
30 pages
Ammonium Chloride - Full Guide (IGCSE Chemistry, Grade 10-11)
No ratings yet
Ammonium Chloride - Full Guide (IGCSE Chemistry, Grade 10-11)
6 pages
Quezon Memorial Circle Phase 1 Revision
No ratings yet
Quezon Memorial Circle Phase 1 Revision
39 pages
2021 Jce Home Economics
No ratings yet
2021 Jce Home Economics
5 pages
Gujarat Polytechnic Intake 2023
No ratings yet
Gujarat Polytechnic Intake 2023
16 pages
As-202 Press Kit
No ratings yet
As-202 Press Kit
33 pages
GP Guidelines (JAN-MAY 2025)
No ratings yet
GP Guidelines (JAN-MAY 2025)
26 pages
Materials Complete 2nd Grade - Science
No ratings yet
Materials Complete 2nd Grade - Science
19 pages
Silicon Contribution Via Nutrient Soluti
No ratings yet
Silicon Contribution Via Nutrient Soluti
17 pages
How To Select A Due Diligence Consultant
No ratings yet
How To Select A Due Diligence Consultant
4 pages
Chemistry An Atoms First Approach 2nd Edition Steven S Zumdahl Susan A Zumdahl Digital Access
100% (1)
Chemistry An Atoms First Approach 2nd Edition Steven S Zumdahl Susan A Zumdahl Digital Access
405 pages
C1 Advanced 4, Test 4, Question 3 - Proposal
No ratings yet
C1 Advanced 4, Test 4, Question 3 - Proposal
2 pages
EM 5.7 Parts Manual 2013
No ratings yet
EM 5.7 Parts Manual 2013
37 pages
3 Top 100
No ratings yet
3 Top 100
10 pages