0% found this document useful (0 votes)

96 views5 pages

Split Data

This document shows code for analyzing grocery transaction data using association rule mining. It preprocesses the transaction data, calculates item frequencies, and generates frequent itemsets and association rules. It visualizes the top 10 frequent items and itemsets. Additionally, it removes redundant rules and displays the top 10 rules by lift. The code also shows how to generate and visualize association rules for movie recommendation data.

Uploaded by

nehal gundrapally

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

96 views5 pages

Split Data

Uploaded by

nehal gundrapally

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

You are on page 1/ 5

# splitting the data into separate transactions using separator as "\n"

groceries = groceries.split("\n")

groceries_list = []
for i in groceries:
groceries_list.append(i.split(","))

all_groceries_list = [i for item in groceries_list for i in item]

from collections import Counter # ,OrderedDict

item_frequencies = Counter(all_groceries_list)

# after sorting
item_frequencies = sorted(item_frequencies.items(), key = lambda x:x[1])

# Storing frequencies and items in separate variables

frequencies = list(reversed([i[1] for i in item_frequencies]))
items = list(reversed([i[0] for i in item_frequencies]))

# barplot of top 10
import matplotlib.pyplot as plt

plt.bar(height = frequencies[0:11], x = list(range(0, 11)), color = 'rgbkymc')

plt.xticks(list(range(0, 11), ), items[0:11])
plt.xlabel("items")
plt.ylabel("Count")
plt.show()

# Creating Data Frame for the transactions data

groceries_series = pd.DataFrame(pd.Series(groceries_list))
groceries_series = groceries_series.iloc[:9835, :] # removing the last empty transaction

groceries_series.columns = ["transactions"]

# creating a dummy columns for the each item in each transactions ... Using column names as
item name
X = groceries_series['transactions'].str.join(sep = '*').str.get_dummies(sep = '*')

frequent_itemsets = apriori(X, min_support = 0.0075, max_len = 4, use_colnames = True)

# Most Frequent item sets based on support

frequent_itemsets.sort_values('support', ascending = False, inplace = True)

plt.bar(x = list(range(0, 11)), height = frequent_itemsets.support[0:11], color ='rgmyk')

plt.xticks(list(range(0, 11)), frequent_itemsets.itemsets[0:11])
plt.xlabel('item-sets')
plt.ylabel('support')
plt.show()

rules = association_rules(frequent_itemsets, metric = "lift", min_threshold = 1)

rules.head(20)
rules.sort_values('lift', ascending = False).head(10)

################################# Extra part ###################################

def to_list(i):
return (sorted(list(i)))

ma_X = rules.antecedents.apply(to_list) + rules.consequents.apply(to_list)

ma_X = ma_X.apply(sorted)

rules_sets = list(ma_X)

unique_rules_sets = [list(m) for m in set(tuple(i) for i in rules_sets)]

index_rules = []

for i in unique_rules_sets:
index_rules.append(rules_sets.index(i))

# getting rules without any redudancy

rules_no_redudancy = rules.iloc[index_rules, :]

# Sorting them with respect to list and getting top 10 rules

rules_no_redudancy.sort_values('lift', ascending = False).head(10)

print(text.split())
install.packages("arules")

library("arules") # Used for building association rules i.e. apriori algorithm

movie<-read.csv(file.choose())

inspect(movie[1:10])
class(movie)

summary(movie)
# making rules using apriori algorithm

# Building rules using apriori algorithm

arules<-apriori(movie,parameter = list(support = 0.004, confidence = 0.70, minlen = 1))

arules

inspect(head(sort(arules, by = "lift"))) # to view the inspect

head(quality(arules))

library("arulesViz") # for visualizing rules

plot(arules)

windows()
plot(arules, method = "grouped")
plot(arules[1:10], method = "graph") # for good visualization try plotting only few rules
write(arules, file = "a_rules.csv", sep = ",")

getwd()

Python Codes Arules
100% (1)
Python Codes Arules
17 pages
Association Rules Ans
No ratings yet
Association Rules Ans
28 pages
Abc
No ratings yet
Abc
5 pages
Data Science for Bookstore Revival
100% (1)
Data Science for Bookstore Revival
29 pages
DWM Exp8
No ratings yet
DWM Exp8
8 pages
Chota Bheem
No ratings yet
Chota Bheem
6 pages
Apriori Algorithm for Groceries
No ratings yet
Apriori Algorithm for Groceries
3 pages
Da 11
No ratings yet
Da 11
3 pages
DVT Exp - 7
No ratings yet
DVT Exp - 7
11 pages
Interesting Python
No ratings yet
Interesting Python
5 pages
Data MINING Acitivity 2-1
No ratings yet
Data MINING Acitivity 2-1
4 pages
Da Exp 9
No ratings yet
Da Exp 9
5 pages
Apriori Algorithm
No ratings yet
Apriori Algorithm
7 pages
Ds 2
No ratings yet
Ds 2
3 pages
Fa22-Bcs-025 MOAZ Assignment 1
No ratings yet
Fa22-Bcs-025 MOAZ Assignment 1
9 pages
Ex 1
No ratings yet
Ex 1
8 pages
Big Data Prcatical
No ratings yet
Big Data Prcatical
3 pages
Program
No ratings yet
Program
2 pages
DMT Cia2
No ratings yet
DMT Cia2
11 pages
4.4-Apriori-Algorithm - (CourseMega - Com)
No ratings yet
4.4-Apriori-Algorithm - (CourseMega - Com)
8 pages
Document 1116
No ratings yet
Document 1116
6 pages
Association Rule Mining Activity
No ratings yet
Association Rule Mining Activity
4 pages
Equent Itemsets & Clustering
No ratings yet
Equent Itemsets & Clustering
27 pages
Apriori Algorithm
No ratings yet
Apriori Algorithm
5 pages
Algorithm
No ratings yet
Algorithm
8 pages
Association Rules
No ratings yet
Association Rules
29 pages
Weantuday: T Deuhh Anytha
No ratings yet
Weantuday: T Deuhh Anytha
23 pages
Apriori Algorithm
No ratings yet
Apriori Algorithm
7 pages
Task-4: Algorithm
No ratings yet
Task-4: Algorithm
4 pages
Day 24: Market Basket Analysis: Data Loading and Cleaning
No ratings yet
Day 24: Market Basket Analysis: Data Loading and Cleaning
6 pages
Big Data Analytics Unit3
No ratings yet
Big Data Analytics Unit3
27 pages
Python
No ratings yet
Python
1 page
De Exp 3
No ratings yet
De Exp 3
6 pages
Mining Frequent Patterns, Associations and Correlations: Basic Concepts and Methods
No ratings yet
Mining Frequent Patterns, Associations and Correlations: Basic Concepts and Methods
20 pages
Apriori
No ratings yet
Apriori
5 pages
Data Mining Ex1
No ratings yet
Data Mining Ex1
10 pages
FP Growth Algorithm Guide
No ratings yet
FP Growth Algorithm Guide
6 pages
Ass 2
No ratings yet
Ass 2
3 pages
Pract4 63
No ratings yet
Pract4 63
3 pages
Apriori Algorithm
No ratings yet
Apriori Algorithm
6 pages
MBA RETAIL - Ipynb - Colab
No ratings yet
MBA RETAIL - Ipynb - Colab
3 pages
Data Mining Solve
No ratings yet
Data Mining Solve
5 pages
PG DM
No ratings yet
PG DM
4 pages
Mod 5
No ratings yet
Mod 5
56 pages
Da Exp9,10
No ratings yet
Da Exp9,10
9 pages
What Is A Frequent Itemset?
No ratings yet
What Is A Frequent Itemset?
7 pages
Unit 4
No ratings yet
Unit 4
72 pages
Data Mining Unit 2 Assignment
No ratings yet
Data Mining Unit 2 Assignment
15 pages
Apriori Algorithm Explained
No ratings yet
Apriori Algorithm Explained
4 pages
Inbound 5400902715551305870
No ratings yet
Inbound 5400902715551305870
4 pages
Apriori Algorithm Example PDF
No ratings yet
Apriori Algorithm Example PDF
7 pages
Market Basket Analysis
No ratings yet
Market Basket Analysis
7 pages
Data Mining: Frequent Patterns
No ratings yet
Data Mining: Frequent Patterns
40 pages
Data Mining Frequent Patterns
No ratings yet
Data Mining Frequent Patterns
22 pages
Apriori Algorithm Examples
No ratings yet
Apriori Algorithm Examples
45 pages
DataAnalytics Practical3
No ratings yet
DataAnalytics Practical3
3 pages
Equent Patterns
No ratings yet
Equent Patterns
74 pages
Report Digital - Last Mile Delivery Challenge1
100% (1)
Report Digital - Last Mile Delivery Challenge1
40 pages
Project Status & Next Steps
No ratings yet
Project Status & Next Steps
2 pages
Final Project Charter
No ratings yet
Final Project Charter
3 pages
Books
No ratings yet
Books
6 pages
Project Objective
No ratings yet
Project Objective
2 pages
Basic Statistics (Module - 3)
100% (2)
Basic Statistics (Module - 3)
12 pages
Data Clustering for Analysts
No ratings yet
Data Clustering for Analysts
8 pages
Clustering Documentation R Code
100% (1)
Clustering Documentation R Code
9 pages
Perform Principal Component Analysis R
No ratings yet
Perform Principal Component Analysis R
6 pages
Assignment Module02
100% (1)
Assignment Module02
5 pages
Books
No ratings yet
Books
6 pages
Apriori Algorithm for Book, Phone, and Movie Data
No ratings yet
Apriori Algorithm for Book, Phone, and Movie Data
23 pages
Amazon Sentimental Analysis
No ratings yet
Amazon Sentimental Analysis
8 pages
Assignment Datatypes PDF
No ratings yet
Assignment Datatypes PDF
3 pages
Basic Statistics (Module - 3)
No ratings yet
Basic Statistics (Module - 3)
7 pages
Assignment Datatypes PDF
No ratings yet
Assignment Datatypes PDF
3 pages
Q1) Identify The Data Type For The Following
75% (8)
Q1) Identify The Data Type For The Following
3 pages
Q1) Identify The Data Type For The Following
75% (8)
Q1) Identify The Data Type For The Following
3 pages
Basic Statistics (Module - 3)
No ratings yet
Basic Statistics (Module - 3)
7 pages
Translation and Proverb For NTRCA Exam
No ratings yet
Translation and Proverb For NTRCA Exam
12 pages
Classifying Affective States Using Thermal Infrared Imaging of The Human Face
No ratings yet
Classifying Affective States Using Thermal Infrared Imaging of The Human Face
9 pages
Bautze-Picron Jewels For A King II Offprint
No ratings yet
Bautze-Picron Jewels For A King II Offprint
18 pages
An Overview On Mycotoxin Contamination of Foods in Africa: REVIEW Toxicology
No ratings yet
An Overview On Mycotoxin Contamination of Foods in Africa: REVIEW Toxicology
9 pages
Tonga Agriculture Sector Plan
No ratings yet
Tonga Agriculture Sector Plan
16 pages
OCR A - Data - Sheet
No ratings yet
OCR A - Data - Sheet
7 pages
Medical Exam Prep Questions
No ratings yet
Medical Exam Prep Questions
8 pages
Cover Letter-Pawan Kumar-Icelandkkk
No ratings yet
Cover Letter-Pawan Kumar-Icelandkkk
2 pages
Waterborne Nitrocellulose Lacquer Emulsion
No ratings yet
Waterborne Nitrocellulose Lacquer Emulsion
8 pages
Planetary Weather Pioneer
100% (3)
Planetary Weather Pioneer
120 pages
Section W Alarms Messages Modular 10 40kVA Maxi 100 120kVA v5 7 TEXT
No ratings yet
Section W Alarms Messages Modular 10 40kVA Maxi 100 120kVA v5 7 TEXT
20 pages
2019 GKS-G Application Guidelines (English)
100% (2)
2019 GKS-G Application Guidelines (English)
45 pages
01 Amaravati Project Report Edition No1 Status March 2016
No ratings yet
01 Amaravati Project Report Edition No1 Status March 2016
64 pages
Assignment 45
0% (1)
Assignment 45
2 pages
IATA Codes
0% (1)
IATA Codes
2 pages
Investor-Focused Restaurant Plan
100% (2)
Investor-Focused Restaurant Plan
28 pages
L2 Customer Specialist Analysis
No ratings yet
L2 Customer Specialist Analysis
9 pages
Sui Northern Gas Bill Specimen
No ratings yet
Sui Northern Gas Bill Specimen
1 page
Loop Checking Instruments Commissioning of Instrumentation Control System - PAKTECHPOINT
No ratings yet
Loop Checking Instruments Commissioning of Instrumentation Control System - PAKTECHPOINT
2 pages
Hydraulic Gradien
No ratings yet
Hydraulic Gradien
10 pages
Admission, Discharge, Transfer & Referrals
No ratings yet
Admission, Discharge, Transfer & Referrals
31 pages
Tancet Mechanical Engineering Question Paper 2016
No ratings yet
Tancet Mechanical Engineering Question Paper 2016
19 pages
Primavera P6 Training Guide
100% (4)
Primavera P6 Training Guide
375 pages
Application Form - Convocation 2025 (28!12!2024)
No ratings yet
Application Form - Convocation 2025 (28!12!2024)
2 pages
L1 - Introduction To Digital Image Processing
No ratings yet
L1 - Introduction To Digital Image Processing
54 pages
Procedure To Check Correct Pinion To Circle Adjustment For 16H and M Motor Graders PDF
No ratings yet
Procedure To Check Correct Pinion To Circle Adjustment For 16H and M Motor Graders PDF
2 pages
Netter's Internal Medicine 2nd Ed 11
No ratings yet
Netter's Internal Medicine 2nd Ed 11
6 pages
Lung Biology in Health Disease Volume 213 Practical Pulmonary and Critical Care Medicine Respiratory Failure 1st Edition Zab Mohsenifar Download
100% (5)
Lung Biology in Health Disease Volume 213 Practical Pulmonary and Critical Care Medicine Respiratory Failure 1st Edition Zab Mohsenifar Download
71 pages
Solar Inverter App Guide
No ratings yet
Solar Inverter App Guide
6 pages
Rounding Decimal Places PDF
No ratings yet
Rounding Decimal Places PDF
2 pages

Split Data

Uploaded by

Split Data

Uploaded by

# splitting the data into separate transactions using separator as "\n"

all_groceries_list = [i for item in groceries_list for i in item]

from collections import Counter # ,OrderedDict

# Storing frequencies and items in separate variables

plt.bar(height = frequencies[0:11], x = list(range(0, 11)), color = 'rgbkymc')

# Creating Data Frame for the transactions data

frequent_itemsets = apriori(X, min_support = 0.0075, max_len = 4, use_colnames = True)

# Most Frequent item sets based on support

plt.bar(x = list(range(0, 11)), height = frequent_itemsets.support[0:11], color ='rgmyk')

rules = association_rules(frequent_itemsets, metric = "lift", min_threshold = 1)

################################# Extra part ###################################

ma_X = rules.antecedents.apply(to_list) + rules.consequents.apply(to_list)

unique_rules_sets = [list(m) for m in set(tuple(i) for i in rules_sets)]

# getting rules without any redudancy

# Sorting them with respect to list and getting top 10 rules

library("arules") # Used for building association rules i.e. apriori algorithm

# Building rules using apriori algorithm

arules<-apriori(movie,parameter = list(support = 0.004, confidence = 0.70, minlen = 1))

inspect(head(sort(arules, by = "lift"))) # to view the inspect

library("arulesViz") # for visualizing rules

You might also like