0% found this document useful (0 votes)

53 views39 pages

SMCQL: Privacy-Preserving Querying For Federated Databases

SMCQL is a system for privacy-preserving querying of distributed databases. It uses secure multiparty computation (SMC) techniques like garbled circuits to execute SQL queries over private data from multiple untrusted data owners, without revealing any raw data. SMCQL aims to provide privacy, efficient query execution, and usability. It uses attribute-level security policies and query optimization techniques like sliced evaluation to minimize the use of expensive secure computation and improve performance.

Uploaded by

chaoslawful

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

53 views39 pages

SMCQL: Privacy-Preserving Querying For Federated Databases

Uploaded by

chaoslawful

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 39

SMCQL:

Privacy-Preserving
Querying for Federated
Databases
Johes Bater
With Greg Elliot, Craig Eggen, Satyender Goel, Abel Kho, and
Jennie Rogers
Data Solutions… and Issues
• The rise of cheap computing and storage allows
people to store and process enormous amounts of
data
• This data however, is often fragmented among
many different owners
• These users are hesitant to share information
with each other, often due to privacy concerns
Motivating Problem
● Data owners want to combine their data with
data from untrusted collaborators for analytics,
without revealing their raw tuples
● Each party requires a solution that provides:
○ Privacy from each other
○ Efficient execution for queries
○ Usability for their clients
(Some) Existing Solutions
● Single Database
○ Store data from all users in one location
○ Problem: Cannot effectively restrict data access
● Encrypted Query Processing
○ Execute queries over encrypted data
○ Problem: Vulnerable to side-channel attacks, limited
support for complex analytics
● Differential Privacy
○ Insert statistical noise into query results
○ Problem: No exact answers, privacy budget
Our Solution: SMCQL
A privacy-preserving, federated database where:
● All computation is carried out in-situ using semi-honest secure
multiparty computation (SMC)
● A public, unified schema specifies attribute-level privacy
guarantees
● Users can submit SQL queries that are run on all participating
database parties
● Heuristics-based optimizations automatically generate hybrid
secure/plaintext execution plans
Running Example: Medical Data
Running Example: Medical Data

patientID sex diag …..

00001 M blues …..

00002 F cdiff …..

00003 M X …..
Running Example: Electronic Health Records

public private private

patientID sex diag …..

00001 M blues …..

00002 F cdiff …..

00003 M X …..
Research Consortium

A Clinical Data Research

Network (CDRN) is a consortium
of healthcare sites that agree to
share their data for research.

For this project, we partnered

with HealthLNK, a
Chicago-based CDRN
Research Consortium (CDRN)
Sharing data among mutually distrustful
parties
Research Consortium (CDRN)
Sharing data among mutually distrustful
parties

Client
Research Consortium (CDRN)
“How many
patients are
there?”

SELECT
COUNT(DISTINCT
PATIENT ID)
FROM diagnosis;

Client
Research Consortium (CDRN)
“How many
patients are
there?”

SELECT
COUNT(DISTINCT Honest
PATIENT ID) Broker
FROM diagnosis;

Client
Research Consortium (CDRN)
“How many
patients are
there?”

SELECT
COUNT(DISTINCT Honest
PATIENT ID) Broker
FROM diagnosis;

Client
Research Consortium (CDRN)
“How many
patients have
rare disease X?”

Honest
Broker

Client
Research Consortium (CDRN)
“How many
patients have
rare disease X?”
SELECT
COUNT(DISTINCT Honest
patient id) Broker
FROM diagnosis
WHERE diag=X;

Client
Research Consortium (CDRN)
“How many I’m not telling
patients have anyone private
rare disease X?” data!

SELECT
I’m not telling
COUNT(DISTINCT Honest
anyone private
patient id) Broker
data!
FROM diagnosis
WHERE diag=X;

I’m not telling

Client anyone private
data!
Research Consortium (CDRN)
“How many Securely
compute
patients have query
CT…
rare disease X?” SEL E

SELECT
COUNT(DISTINCT Honest SELECT…
patient id) Broker
FROM diagnosis
WHERE diag=X; SE
LE
CT
…
Client
Research Consortium (CDRN)
secret
“How many shares
patients have
rare disease X?”
SELECT
COUNT(DISTINCT Honest
patient id) Broker
FROM diagnosis
WHERE diag=X;
ry
que lt
u
Client res
Distrustful Data Federation (DDF)
● Privacy-preserving
○ Must not leak data to other participating nodes
○ Protects from outside attackers
● Usable
○ Accepts SQL queries
○ Automatic translation into SMC
● Efficient
○ Runs in a reasonable amount of time
○ Highly optimized to minimize SMC
SMC Building Blocks
● Garbled circuits
○ Cryptographic protocol used to securely compute a function
across two parties
○ Protects a query’s program traces from snooping
● Oblivious RAM (ORAM)
○ Data structure that shuffles all data on any read/write
○ Protects memory traces from leaking information
○ Up to O(log2n) cost per I/O
● ObliVM
○ Code generator that translates C-style code into garbled
circuits and ORAM
○ Translates DB operators into garbled circuits
ObliVM Code Generator
int$dSize[m*n] join(int$lSize[m] lhs, int$rSize[n] rhs) {
int$dSize[m*n] dst;
• Convert a plaintext function into int dstIdx = 0;
an oblivious version
for(int i = 0; i < m; i=i+1) {
int$lSize l = lhs[i];
• ObliVM library
for(int j = 0; j < n; j=j+1) {
int$rSize r = rhs[j];
• C-style syntax
if($filter(l, r) == 1) {
dst[dstIdx] = $project;
• We use templates for generating dstIdx = dstIdx + 1;
secure operators }
}
}
return dst;
}

blue = constant inserted at compile time red = function generated at compile time green = constant populated at runtime
DDF Architecture
Garbled
Circuit
ObliVM Evaluation
4 Translation

This work is a 2-party prototype

Honest Broker: Query Planning
HealthLNK Reference Queries
COMORBIDITY RECURRENT C. DIFF
SELECT diag, COUNT(*) cnt WITH rcd AS (
FROM diagnoses SELECT pid, time, row_no() OVER
WHERE patient_id IN cdiff_cohort (PARTITION BY pid ORDER BY time)
GROUP BY diag FROM diagnosis
ORDER BY cnt WHERE diag=cdiff)
LIMIT 10;
SELECT DISTINCT pid
FROM rcd r1 JOIN rcd r2 ON r1.pid =
ASPIRIN COUNT
r2.pid
SELECT COUNT(DISTINCT pid)
WHERE r2.time - r1.time >= 15 DAYS
FROM diagnosis d
AND r2.time - r1.time <= 56 DAYS
JOIN medication m ON d.pid = m.pid
AND r2.row_no = r1.row_no + 1;
WHERE d.diag = hd AND m.med = aspirin
AND d.time <= m.time;
Hand-Coded SMC Performance

Test (50 tuples) Plaintext (ms) Secure (ms) Slowdown

Comorbidity 148 253,894 1,609X
Recurrent C. Diff 165 159,145 967X
Aspirin Count 193 8,195,317 43,337X

Pure SMC: TOO SLOW!

Attribute-Level Security Model
Unified schema with security annotations:
● Public attributes
○ Readable by all parties
○ E.g., Lab results, anonymized IDs
● Protected attributes
○ Conditionally available to other parties (k-anonymous)
○ E.g., Age, gender, diagnosis codes
● Private attributes
○ Only available to originating party
○ E.g., Timestamps, zip codes
Reducing Use of Secure Computation
• Trace the flow of sensitive
attributes through the operator
tree Oblivious

• Identify minimal subtree that

must be computed securely to
uphold security policy

Plaintext
COMORBIDITY
SELECT diag, COUNT(*) cnt
FROM diagnoses
WHERE patient_id IN cdiff_cohort
GROUP BY diag
ORDER BY cnt
LIMIT 10;
Optimizing Queries: Sliced Evaluation
Horizontally partition data on public attributes for oblivious evaluation

S
1 1 1 2 2
1
1
Unsliced Output
R 1
R Join S 2
2
1 1
1 1
1 ⋈pid 1
2 2 S1
2 2
1 1 1 S2
Sliced Output 1 2 2
R1 1 2
1
R2 2
Optimizing Queries: Split Operators
Precompute part of the operator locally

Partial count(*) #1

Oblivious
Plaintext

Partial count(*) #2
Optimizing Queries: Semi-Join
Find single-party slices to eliminate unnecessary SMC

Honest Broker
Encrypted Output
Encrypted Output

Local Local
Evaluation
Oblivious Evaluation Evaluation

Tuple ID ∈ Tuple ID ∈
IDA - (IDA ∩ IDB) IDB - (IDA ∩ IDB)
Tuple ID ∈ IDA ∩
IDB

Alice Bob
Optimized Plans
Experimental Setup
• HealthLNK data repository
⚫ One year of data
⚫ 500,000 patients
⚫ 42 million diagnoses
⚫ 23 million medication records
⚫ 15 GB

• Experimental Setup
⚫ 2-party prototype
⚫ 3 pairs of servers
Performance on Reference Queries

Minimizing SMC use by

reducing secure subtrees
greatly improves
performance
Full Optimization using
slicing often provides
further benefits
Operator Level Performance for
Recurrent C. Diff

Optimization is
dependent on both the
query and the input
data
System Scale Up

Minimizing the secure

subtree enables us to
scale to larger inputs.
SMCQL vs Plaintext

Secure computation
has substantial
overhead, but there is
fertile ground for
optimization in future
work.
Contributions
● Generalization of federated DBMSs for
mutually distrustful parties in a semi-honest
setting
● SQL-to-SMC translator
● Heuristics-based optimizer for managing use of
SMC that leverages fine-grained privacy
annotations for schemas

1 Introduction
No ratings yet
1 Introduction
43 pages
01 Relationalmodel
No ratings yet
01 Relationalmodel
70 pages
05 Storage3
No ratings yet
05 Storage3
76 pages
15 Optimization
No ratings yet
15 Optimization
98 pages
CPP v1.2 Modern CPP OOP Slides Margit Antal 2021
100% (1)
CPP v1.2 Modern CPP OOP Slides Margit Antal 2021
486 pages
WorkPlace Tech Tool 4.0 Engineering Guide (F-27254-4)
No ratings yet
WorkPlace Tech Tool 4.0 Engineering Guide (F-27254-4)
732 pages
Lec01 Introduction-414
No ratings yet
Lec01 Introduction-414
55 pages
Jameel - 1995 - 3521 - 1 - ITB-Lecture 9 Database-24
No ratings yet
Jameel - 1995 - 3521 - 1 - ITB-Lecture 9 Database-24
69 pages
Epsolute: Efficiently Querying Databases While Providing Differential Privacy
No ratings yet
Epsolute: Efficiently Querying Databases While Providing Differential Privacy
15 pages
Mysql Notesdsfsdf2
No ratings yet
Mysql Notesdsfsdf2
34 pages
Mysql Notesdsfsdf3
No ratings yet
Mysql Notesdsfsdf3
33 pages
Mysql Notesdsfsdf4
No ratings yet
Mysql Notesdsfsdf4
32 pages
Public Theatre and The Enslaved People of Colonial Saint-Domingue Julia Prest - Own The Ebook Now With All Fully Detailed Chapters
No ratings yet
Public Theatre and The Enslaved People of Colonial Saint-Domingue Julia Prest - Own The Ebook Now With All Fully Detailed Chapters
48 pages
Niraj KR Mahapatra
No ratings yet
Niraj KR Mahapatra
111 pages
Mysql Notesdsfsdf
No ratings yet
Mysql Notesdsfsdf
36 pages
Mysql Notesdsfsdf1
No ratings yet
Mysql Notesdsfsdf1
35 pages
Data Structure and Privacy Protection Analysis in - 2024 - International Journal
No ratings yet
Data Structure and Privacy Protection Analysis in - 2024 - International Journal
13 pages
15 QueryOptimization
No ratings yet
15 QueryOptimization
24 pages
Healthcare Management
No ratings yet
Healthcare Management
17 pages
SMCQL
No ratings yet
SMCQL
12 pages
1.3 Data Models - Abhishek
No ratings yet
1.3 Data Models - Abhishek
28 pages
Lecture 2-Data Science
No ratings yet
Lecture 2-Data Science
25 pages
15 Optimization
No ratings yet
15 Optimization
8 pages
Privacy Preserving Query Processing Using Third Parties
No ratings yet
Privacy Preserving Query Processing Using Third Parties
10 pages
Introduction To Bioinformatics and Clinical Scientific Computing 1st Edition Instant DOCX Download
100% (13)
Introduction To Bioinformatics and Clinical Scientific Computing 1st Edition Instant DOCX Download
17 pages
Dbms Architecture: Chengxiang Zhai
No ratings yet
Dbms Architecture: Chengxiang Zhai
33 pages
Dca2102 & Database Management System
No ratings yet
Dca2102 & Database Management System
13 pages
Data Management and Information Processing
No ratings yet
Data Management and Information Processing
14 pages
Time Zones 4
No ratings yet
Time Zones 4
18 pages
Aaemw 2
No ratings yet
Aaemw 2
13 pages
Handouts PDF
No ratings yet
Handouts PDF
293 pages
3rd Lecture Notes Refined
No ratings yet
3rd Lecture Notes Refined
6 pages
Bioinformatics Presentation 2024 (Object Oriented Databases)
No ratings yet
Bioinformatics Presentation 2024 (Object Oriented Databases)
21 pages
Lecture - Meghana - Insights Into Graph Databases - Cloud Providers - Cloud Observability Features - and Challenges in Cloud Infrastructure
No ratings yet
Lecture - Meghana - Insights Into Graph Databases - Cloud Providers - Cloud Observability Features - and Challenges in Cloud Infrastructure
4 pages
Database Management
No ratings yet
Database Management
7 pages
CPE 313 Database Management Systems: Fall 2021/2022
No ratings yet
CPE 313 Database Management Systems: Fall 2021/2022
24 pages
Dca2102 & Database Management System
No ratings yet
Dca2102 & Database Management System
10 pages
Review
No ratings yet
Review
18 pages
w7 Encrypted Search
No ratings yet
w7 Encrypted Search
46 pages
Review
No ratings yet
Review
18 pages
English Unit 2 Lesson 17
No ratings yet
English Unit 2 Lesson 17
29 pages
Review On Health Care Database Mining in Outsourced Database
No ratings yet
Review On Health Care Database Mining in Outsourced Database
4 pages
Implementation On Health Care Database Mining in Outsourced Database
No ratings yet
Implementation On Health Care Database Mining in Outsourced Database
5 pages
ICETIS 2022 Paper 96
No ratings yet
ICETIS 2022 Paper 96
6 pages
06 Data and Data Processing TRANSES
No ratings yet
06 Data and Data Processing TRANSES
6 pages
QueryOptimization Siao
No ratings yet
QueryOptimization Siao
24 pages
Lecture1 Intro To DBMS
No ratings yet
Lecture1 Intro To DBMS
32 pages
Medisc
No ratings yet
Medisc
20 pages
Executing SQL Over Encrypted Data in The Database Service Provider Model Chuong 6
No ratings yet
Executing SQL Over Encrypted Data in The Database Service Provider Model Chuong 6
12 pages
DBMS 1
No ratings yet
DBMS 1
4 pages
IMAR English Series 1 WB - Facebook comLibraryofHIL 00
No ratings yet
IMAR English Series 1 WB - Facebook comLibraryofHIL 00
97 pages
Cloud-Based Assured Information Sharing and Identity Management
No ratings yet
Cloud-Based Assured Information Sharing and Identity Management
20 pages
04 Socratic Seminar
No ratings yet
04 Socratic Seminar
15 pages
A Privacy Preserving Distributed Filtering Framework For NLP 30r6g0qti3
No ratings yet
A Privacy Preserving Distributed Filtering Framework For NLP 30r6g0qti3
10 pages
Database Session-I
No ratings yet
Database Session-I
55 pages
Re&s 1
No ratings yet
Re&s 1
35 pages
1 Intro 2 Up
No ratings yet
1 Intro 2 Up
16 pages
Comparing The Different Types of Database Management Systems (DBMS
No ratings yet
Comparing The Different Types of Database Management Systems (DBMS
16 pages
Introducing The First Three Periods of Western Music History: Medieval Era, Renaissance & Baroque Period
100% (2)
Introducing The First Three Periods of Western Music History: Medieval Era, Renaissance & Baroque Period
12 pages
Quico Calsin Antony Yoel Unidad 3
No ratings yet
Quico Calsin Antony Yoel Unidad 3
24 pages
Matrices - Short Notes
100% (1)
Matrices - Short Notes
3 pages
50+SQL - Interview Questions and Answers
No ratings yet
50+SQL - Interview Questions and Answers
8 pages
Database: An Example of Output From An SQL Database Query
No ratings yet
Database: An Example of Output From An SQL Database Query
18 pages
CAM Cloud-Assisted Privacy Preserving Mobile Health Monitoring
No ratings yet
CAM Cloud-Assisted Privacy Preserving Mobile Health Monitoring
4 pages
PDF Document BIDA 2
No ratings yet
PDF Document BIDA 2
21 pages
Final Project Presentation
No ratings yet
Final Project Presentation
22 pages
SinSR - Diffusion-Based Image Super-Resolution in A Single Step
No ratings yet
SinSR - Diffusion-Based Image Super-Resolution in A Single Step
10 pages
Unit 1
No ratings yet
Unit 1
12 pages
Inserttt
No ratings yet
Inserttt
25 pages
Aws Cloud Deploy
No ratings yet
Aws Cloud Deploy
21 pages
Database Security
No ratings yet
Database Security
24 pages
Successful Strategies For Social Studies Teaching and Learning
No ratings yet
Successful Strategies For Social Studies Teaching and Learning
41 pages
CAM Cloud-Assisted Privacy Preserving Mobile Health Monitoring
No ratings yet
CAM Cloud-Assisted Privacy Preserving Mobile Health Monitoring
4 pages
PGDCA Syllabus
No ratings yet
PGDCA Syllabus
8 pages
Faq Sap
No ratings yet
Faq Sap
14 pages
ÔN GI A KÌ 1 - Ilearn Smart 6
No ratings yet
ÔN GI A KÌ 1 - Ilearn Smart 6
20 pages
Wallace and Wray 2006
No ratings yet
Wallace and Wray 2006
4 pages
Frequency Distribution Module
No ratings yet
Frequency Distribution Module
4 pages
Life of Rizal
No ratings yet
Life of Rizal
6 pages
2022 First Semester Scheme Syllabus CV Stream Physics Cycle
No ratings yet
2022 First Semester Scheme Syllabus CV Stream Physics Cycle
17 pages
Verb Affixation in The Selected Tagalog and Binisaya Songs: A Research Paper
No ratings yet
Verb Affixation in The Selected Tagalog and Binisaya Songs: A Research Paper
19 pages
Speaking Question 1&2 (15s, 45 S) : Q: Using The Example of The Lecture, Explain The Answer Format
No ratings yet
Speaking Question 1&2 (15s, 45 S) : Q: Using The Example of The Lecture, Explain The Answer Format
2 pages
CHEM F213 Handout 2016
No ratings yet
CHEM F213 Handout 2016
3 pages
Pde Part I
No ratings yet
Pde Part I
8 pages
Members Name Reg No. Presentation Topic
No ratings yet
Members Name Reg No. Presentation Topic
8 pages
Modal Verbs
No ratings yet
Modal Verbs
2 pages
Basics of Programming, Basics of Probability Theory: Reasoning in Uncertain Situations
No ratings yet
Basics of Programming, Basics of Probability Theory: Reasoning in Uncertain Situations
3 pages

SMCQL: Privacy-Preserving Querying For Federated Databases

Uploaded by

SMCQL: Privacy-Preserving Querying For Federated Databases

Uploaded by

SMCQL:

patientID sex diag …..

00001 M blues …..

00002 F cdiff …..

public private private

00001 M blues …..

00002 F cdiff …..

A Clinical Data Research

For this project, we partnered

I’m not telling

This work is a 2-party prototype

Test (50 tuples) Plaintext (ms) Secure (ms) Slowdown

Pure SMC: TOO SLOW!

• Identify minimal subtree that

Minimizing SMC use by

Minimizing the secure

You might also like