Data Formats and Machine Learning Methods

The document provides an overview of data formats, categorizing them into text, binary, structured, and unstructured types, with examples and pros/cons for each. It also discusses the Naive Bayes algorithm in healthcare, detailing its applications, advantages, limitations, and best practices for implementation. Additionally, it compares criterion tables with regression models, highlighting their clinical advantages and when to use each approach.

Uploaded by

Jyotsna Siva

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

66 views29 pages

Data Formats and Machine Learning Methods

Uploaded by

Jyotsna Siva

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

You are on page 1/ 29

Slide 2: Introduction to Data Formats Content

Definition: Structured ways to store

and transmit data.
Why they matter:
Enable interoperability.
Optimize storage/processing.
Analogy: Like different languages for
data.
• Slide 3: Categories of Data Formats
• Visual: Venn diagram (Text vs. Binary vs.
Structured vs. Unstructured)
Examples:
• Text: CSV, JSON, XML
• Binary: Protobuf, Parquet
• Structured: SQL tables
• Unstructured: Images, videos
• Slide 4: Text-Based Formats
• Content:
• Human-readable, lightweight.
• Examples:
– CSV (simple tables)
– JSON (APIs, configs)
– XML (legacy systems)
Pros/Cons Table:
| Format | Pros | Cons |
|--------|------|------|
| CSV | Simple | No schema |
| JSON | Flexible | No comments |
• Slide 5: Binary Formats
• Content:
• Machine-optimized, compact.
• Examples:
– Protocol Buffers (Google’s high-speed format)
– Parquet (columnar storage for analytics)
Use Case:
• Protobuf in microservices.
Slide 6: Structured vs. Unstructured

Structured
Comparison Table: Unstructured
Image: Example of a database table vs. a social media post.

SQL, CSV Emails, videos

Easy to query Requires AI/ML
• Slide 7: Popular Data Formats
• Visual: Icons of CSV, JSON, XML, Parquet,
Protobuf
Key Points:
• CSV: Spreadsheets, small datasets.
• JSON: Web APIs, NoSQL.
• Parquet: Big Data analytics.
• Slide 8: JSON Deep Dive
• Syntax Example:
• json
• Download
• { "name": "John", "age": 30 }
• Pros:
• Lightweight, easy to parse.
Cons:
• No schema enforcement.
• Slide 9: XML Deep Dive
• Syntax Example:
• xml
• Download
• Run
• <person> <name>John</name> <age>30</age> </person>
• Pros:
• Extensible, supports metadata.
Cons:
• Verbose.
• Slide 10: Protocol Buffers (Protobuf)
• How It Works:
• Define schema in .proto file.
• Compile to binary.
Use Case: gRPC APIs.
• Slide 11: Columnar vs. Row-Based
• Visual: Parquet (columnar) vs. CSV (row-
based)
Why Columnar?
• Faster queries for analytics.
• Slide 12: Choosing the Right Format
• Decision Flowchart:
• Need human-readable? → JSON/XML.
• Need speed? → Protobuf.
• Big Data? → Parquet.
• Slide 13: Future Trends
• Arrow: In-memory columnar format.
• Edge Computing: Compact binary formats.
• Slide 14: Case Study
• Example:
• Netflix uses Avro for data pipelines.
Naive Bayes algorithm
• Overview of Naive Bayes in Healthcare
• Naive Bayes is a classification algorithm based on
Bayes' Theorem with an assumption of independence
among predictors. In healthcare applications, it can:
• Predict disease likelihood based on symptoms and
patient history
• Assist in diagnosis
• Identify high-risk patients
• Classify medical images
• Predict treatment outcomes
• How It Works in Healthcare Context
• Bayes' Theorem Foundation:
P(A|B) = [P(B|A) * P(A)] / P(B)
• Where:
– A = Disease/condition
– B = Symptoms/test results
• "Naive" Assumption: All features (symptoms,
test results) are conditionally independent
given the class (diagnosis)
• Common Healthcare Applications
• 1. Disease Prediction
• Diabetes risk assessment based on BMI, age, family history, etc.
• Cardiovascular disease prediction
• 2. Diagnostic Support
• Differentiating between similar conditions (e.g., types of cancer)
• Interpreting lab results
• 3. Medical Text Analysis
• Classifying clinical notes
• Extracting information from EHRs
• 4. Hospital Operations
• Predicting readmission risk
• Length of stay estimation
• # Example Python implementation using scikit-learn
• from sklearn.naive_bayes import GaussianNB
• from sklearn.model_selection import train_test_split
• from sklearn.metrics import accuracy_score, confusion_matrix

• # Load healthcare dataset (e.g., patient features and diagnosis)

• X = healthcare_data.drop('diagnosis', axis=1) # Features: symptoms, tests, demographics
• y = healthcare_data['diagnosis'] # Target: disease classification

• # Split data
• X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

• # Initialize and train Naive Bayes classifier

• nb_classifier = GaussianNB()
• nb_classifier.fit(X_train, y_train)

• # Make predictions
• predictions = nb_classifier.predict(X_test)

• # Evaluate performance
• print("Accuracy:", accuracy_score(y_test, predictions))
• print("Confusion Matrix:\n", confusion_matrix(y_test, predictions))
• Advantages for Healthcare Analytics
• Handles Missing Data: Works well with incomplete
medical records
• Computationally Efficient: Important for large-scale
medical data
• Interpretable Results: Provides probabilistic outputs
clinicians can understand
• Works with Small Datasets: Valuable for rare diseases
• Handles Both Continuous and Categorical Data: Fits
diverse medical data types
• Limitations and Considerations
• Feature Independence Assumption: Medical
symptoms often correlate
• Zero Frequency Problem: Rare
symptoms/diseases may need smoothing
• Feature Importance: All features treated
equally unless weighted
• Data Quality Dependency: Requires clean,
representative medical data
• Best Practices for Healthcare Implementation
• Feature Selection: Choose clinically relevant predictors
• Data Preprocessing:
– Handle missing values appropriately
– Normalize continuous variables (for Gaussian Naive Bayes)
– Discretize continuous variables when needed
• Model Evaluation:
– Use medical-specific metrics beyond accuracy (sensitivity, specificity)
– Validate with clinical experts
• Explainability:
– Provide probability estimates to clinicians
– Highlight contributing factors to predictions
• Real-World Healthcare Examples
• Cancer Classification: Differentiating tumor
types based on genomic data
• COVID-19 Risk Prediction: Assessing
hospitalization risk from early symptoms
• Mental Health Screening: Identifying
depression risk from patient questionnaires
• Adverse Drug Reaction Prediction: Flagging
potential medication issues
• The Criterion Table Approach
• A criterion table (or decision table) is a
structured framework that:
• Lists relevant clinical factors (predictors)
• Assigns weights or scores to each factor
• Provides decision thresholds based on
accumulated scores
• Outputs diagnostic or prognostic classifications
• Example: Pneumonia Severity Index (PSI)
• Age >50 years: +1 point
• Male sex: +10 points
• Cancer history: +30 points
• Altered mental status: +20 points
• ...
• Total Score → Risk Class I-V
• Similarities to Regression Models
• Shared Characteristics with Linear Regression
• Additive Structure: Both combine weighted predictors
linearly
– Criterion table: Sum(scores)
– Linear regression: β₀ + β₁X₁ + β₂X₂ + ... + βₙXₙ
• Continuous Output Potential: Some criterion tables
produce continuous risk scores similar to linear regression
outputs
• Feature Weighting: Both methods assign different
importance to predictors
• Shared Characteristics with Logistic Regression
• Classification Focus: Both often used for
binary/multiclass outcomes (disease/no disease)
• Threshold-Based Decisions:
– Logistic regression uses probability thresholds (typically
0.5)
– Criterion tables use predefined score cutoffs
• Probabilistic Interpretation: Advanced criterion
tables may provide risk probabilities like logistic
regression
Characteristic Criterion Table Regression Models
Development Often expert-driven Data-driven
Flexibility Fixed structure Adapts to data patterns
Interactions Rarely accounts for them Can model interactions
Simple paper/electronic
Implementation Requires software
form
Updates Manual revision needed Retrain with new data
Interpretability Highly transparent Requires statistical literacy
• Clinical Advantages of Criterion Tables
• Practical Implementation: Can be used at
bedside without computers
• Cognitive Fit: Matches physicians' heuristic
reasoning
• Transparency: Clear scoring system builds
clinician trust
• Regulatory Acceptance: Many are guideline-
endorsed (e.g., CHA₂DS₂-VASc for stroke risk)
• When to Use Each Approach
• Use Criterion Tables When:
• Decision rules need to be implementable in resource-limited
settings
• Clinical expertise is more reliable than available data
• Speed and simplicity are prioritized over optimal accuracy
• Use Regression Models When:
• Large, high-quality datasets are available
• Complex predictor interactions exist
• Continuous probability estimates are needed
• The clinical environment supports digital decision tools
• Hybrid Approaches in Modern Medicine
• Many contemporary clinical decision tools combine
strengths of both:
• Data-derived criterion tables: Using regression
coefficients to inform point assignments
• Electronic implementations: Embedding regression
models behind user-friendly interfaces
• Machine learning hybrids: Using criterion tables as
interpretable components of more complex models

Healthcare Analysis
No ratings yet
Healthcare Analysis
30 pages
HCI - Notes-Ch3
100% (1)
HCI - Notes-Ch3
44 pages
Hca Unit - 3 Answers
No ratings yet
Hca Unit - 3 Answers
19 pages
1 - Introduction To Health Care Data Analytics (Bagian 2)
No ratings yet
1 - Introduction To Health Care Data Analytics (Bagian 2)
31 pages
Case Study Unit-1 and 2 Big Data
No ratings yet
Case Study Unit-1 and 2 Big Data
9 pages
Text Recognition Past, Present and Future
No ratings yet
Text Recognition Past, Present and Future
7 pages
Clinical Data
0% (1)
Clinical Data
22 pages
Slides Lecture 12 Health XAI
No ratings yet
Slides Lecture 12 Health XAI
105 pages
For Minor Project Review
No ratings yet
For Minor Project Review
24 pages
AIN Module 3
No ratings yet
AIN Module 3
37 pages
Previewpdf
No ratings yet
Previewpdf
288 pages
Preview-9781482232127 A25892874
No ratings yet
Preview-9781482232127 A25892874
76 pages
Intelligent Heart Disease Prediction System Using Data Mining Techniques
No ratings yet
Intelligent Heart Disease Prediction System Using Data Mining Techniques
7 pages
2 - Clinical Data
No ratings yet
2 - Clinical Data
12 pages
Big Data and Data Science in Critical Care
No ratings yet
Big Data and Data Science in Critical Care
10 pages
Summary 2
No ratings yet
Summary 2
75 pages
1 s2.0 S2666521220300090 Main
No ratings yet
1 s2.0 S2666521220300090 Main
5 pages
Lec 2
No ratings yet
Lec 2
23 pages
Presentation 32672 Content Document 20250311041135PM
No ratings yet
Presentation 32672 Content Document 20250311041135PM
124 pages
Discernibility and Rough Sets
No ratings yet
Discernibility and Rough Sets
239 pages
Rubric 2 (10020,10033,10216)
No ratings yet
Rubric 2 (10020,10033,10216)
10 pages
Application of Data Science and Bioinformatics in Healthcare Technologies
No ratings yet
Application of Data Science and Bioinformatics in Healthcare Technologies
12 pages
Big Dataand MLMethodsfor Health Pretoria WBENGLISH
No ratings yet
Big Dataand MLMethodsfor Health Pretoria WBENGLISH
29 pages
Health Monitoring and Diagnosis: University College of Engineering, Bit Campus
No ratings yet
Health Monitoring and Diagnosis: University College of Engineering, Bit Campus
21 pages
BusinessIntelligence CIA1
No ratings yet
BusinessIntelligence CIA1
3 pages
10 1109@iccubea 2018 8697439
No ratings yet
10 1109@iccubea 2018 8697439
6 pages
Mini Project Report
No ratings yet
Mini Project Report
21 pages
Clinical Decision Support Systems
100% (1)
Clinical Decision Support Systems
34 pages
IoT in Hospital Management
No ratings yet
IoT in Hospital Management
7 pages
Chapter 7 Healthcare Data Analytics
No ratings yet
Chapter 7 Healthcare Data Analytics
31 pages
Second Progres Report
No ratings yet
Second Progres Report
10 pages
Fundamentals of Clinical Data Science., 978-3319997124
100% (21)
Fundamentals of Clinical Data Science., 978-3319997124
23 pages
Ad3002 - Question Bank Health Care
100% (1)
Ad3002 - Question Bank Health Care
16 pages
Diagnostics 15 01170
No ratings yet
Diagnostics 15 01170
5 pages
C. Karthik Chandran, M. Rajalakshmi, Sachi Nandan Mohanty, Subrata Chowdhury - Machine Learning For Healthcare Systems - Foundations and Applications-River Publishers (2023)
No ratings yet
C. Karthik Chandran, M. Rajalakshmi, Sachi Nandan Mohanty, Subrata Chowdhury - Machine Learning For Healthcare Systems - Foundations and Applications-River Publishers (2023)
251 pages
Predicting Disease With Machine Learning
No ratings yet
Predicting Disease With Machine Learning
20 pages
3-Artificial Intelligence in Healthcare
No ratings yet
3-Artificial Intelligence in Healthcare
74 pages
Healthcare Data Analytics Guide
No ratings yet
Healthcare Data Analytics Guide
16 pages
Big Data and Machine Learning in Health Care - Clinical Decision Support - JAMA - JAMA Network
No ratings yet
Big Data and Machine Learning in Health Care - Clinical Decision Support - JAMA - JAMA Network
6 pages
Ibm PROJECT 1 1 Output
No ratings yet
Ibm PROJECT 1 1 Output
10 pages
Predictive Analytics in Healthcare Big Data Better Decisions
No ratings yet
Predictive Analytics in Healthcare Big Data Better Decisions
21 pages
HealthCare Analytics - Day 1-5
No ratings yet
HealthCare Analytics - Day 1-5
196 pages
Big Data in Healthcare.8191743
No ratings yet
Big Data in Healthcare.8191743
22 pages
Healthcare Data & Cognitive Systems
No ratings yet
Healthcare Data & Cognitive Systems
34 pages
Bhavan Phase3 Prj.
No ratings yet
Bhavan Phase3 Prj.
24 pages
Demystifying Big Data, Machine Learning, and Deep Learning For Healthcare Analytics Pradeep N Sandeep Kautish Sheng-Lung Peng PDF Download
No ratings yet
Demystifying Big Data, Machine Learning, and Deep Learning For Healthcare Analytics Pradeep N Sandeep Kautish Sheng-Lung Peng PDF Download
80 pages
Phase 2
No ratings yet
Phase 2
6 pages
Clinical Data Quality - A Data Life Cycle Perspective
No ratings yet
Clinical Data Quality - A Data Life Cycle Perspective
10 pages
ICU Management Based On Big Data: Review
No ratings yet
ICU Management Based On Big Data: Review
8 pages
Unit 5 Healthcare Analytics GPT O4 Reasoning
No ratings yet
Unit 5 Healthcare Analytics GPT O4 Reasoning
29 pages
Shreya Bera BHM
No ratings yet
Shreya Bera BHM
5 pages
Hca 2 Mark
No ratings yet
Hca 2 Mark
5 pages
Big Data Analytics: Data Prep
No ratings yet
Big Data Analytics: Data Prep
58 pages
Mits6002 Business Analytic 42
No ratings yet
Mits6002 Business Analytic 42
8 pages
Big Data Analytics For Healthcare Industry: Impact, Applications, and Tools
No ratings yet
Big Data Analytics For Healthcare Industry: Impact, Applications, and Tools
10 pages
Comparacion Algoritmos
No ratings yet
Comparacion Algoritmos
17 pages
A Survey On Machine Learning Assisted Big Data Analysis For Health Care Domain
No ratings yet
A Survey On Machine Learning Assisted Big Data Analysis For Health Care Domain
5 pages
DWDM Unit 1 Notes
No ratings yet
DWDM Unit 1 Notes
41 pages
Snowflake
No ratings yet
Snowflake
6 pages
Assignement 2 CD
No ratings yet
Assignement 2 CD
3 pages
Ai Sample Capstone Project, Sample Log Book, Vava Questions
No ratings yet
Ai Sample Capstone Project, Sample Log Book, Vava Questions
32 pages
COVID-19 in India: Securing Public Transport' During The Pandemic and After
No ratings yet
COVID-19 in India: Securing Public Transport' During The Pandemic and After
10 pages
Secondary School Study Guides Final Biology
No ratings yet
Secondary School Study Guides Final Biology
42 pages
Bacterial Impact On Wound Healing: From Contamination To Infection
No ratings yet
Bacterial Impact On Wound Healing: From Contamination To Infection
17 pages
6th Grade Science Notes
No ratings yet
6th Grade Science Notes
32 pages
Rectal Examination OSCE Guide
No ratings yet
Rectal Examination OSCE Guide
8 pages
National NCD Management Protocol 2021
No ratings yet
National NCD Management Protocol 2021
124 pages
Disease Detectives Notes
No ratings yet
Disease Detectives Notes
4 pages
Kode BPJS
No ratings yet
Kode BPJS
40 pages
MIDTERMS
No ratings yet
MIDTERMS
4 pages
Haemorrhagic Shock, Resuscitation and Haemodynamics
100% (1)
Haemorrhagic Shock, Resuscitation and Haemodynamics
31 pages
DCH Syllabus Latest
No ratings yet
DCH Syllabus Latest
19 pages
300 câu Tiếng anh tủ
No ratings yet
300 câu Tiếng anh tủ
56 pages
Guia Ada 2023 Ingles
No ratings yet
Guia Ada 2023 Ingles
273 pages
Understanding Stool
No ratings yet
Understanding Stool
6 pages
Apasmara - KC
No ratings yet
Apasmara - KC
39 pages
BRAIN FOG CELIAC DISEASE Gluten-Induced Cognitive Impairment - Brain Fog - Celiac Disease
No ratings yet
BRAIN FOG CELIAC DISEASE Gluten-Induced Cognitive Impairment - Brain Fog - Celiac Disease
4 pages
Nursing Pulse Assessment Guide
No ratings yet
Nursing Pulse Assessment Guide
3 pages
Optimal Treatment of T2DM in JKN DR Waluyo
No ratings yet
Optimal Treatment of T2DM in JKN DR Waluyo
42 pages
Artery and Venus Supply of Adrenal Gland Along Wit
No ratings yet
Artery and Venus Supply of Adrenal Gland Along Wit
2 pages
Architect Test Menu
100% (2)
Architect Test Menu
4 pages
PERSEN 2 - Personal Enhancement 2 Module 5
No ratings yet
PERSEN 2 - Personal Enhancement 2 Module 5
5 pages
Kaltenborn Mobilisation
No ratings yet
Kaltenborn Mobilisation
50 pages
Klacid Antibiotic
No ratings yet
Klacid Antibiotic
4 pages
Acid Base Balanece
No ratings yet
Acid Base Balanece
11 pages
Nursing Care Plan On: "Fracture Open III A, Complete Comminuted Displaced Femur Left"
No ratings yet
Nursing Care Plan On: "Fracture Open III A, Complete Comminuted Displaced Femur Left"
10 pages
Patanjali Project Report
No ratings yet
Patanjali Project Report
56 pages
INCLEN Diagnostic Tool For Neuro Motor Impairment INDT NMI For Primary Care Physician
No ratings yet
INCLEN Diagnostic Tool For Neuro Motor Impairment INDT NMI For Primary Care Physician
5 pages
Civil War Medicine
No ratings yet
Civil War Medicine
4 pages
Awv Visit
No ratings yet
Awv Visit
6 pages
Brain Death
100% (1)
Brain Death
43 pages

Data Formats and Machine Learning Methods

Uploaded by

Data Formats and Machine Learning Methods

Uploaded by

Slide 2: Introduction to Data Formats Content

Definition: Structured ways to store

SQL, CSV Emails, videos

• # Load healthcare dataset (e.g., patient features and diagnosis)

• # Initialize and train Naive Bayes classifier

You might also like