[go: up one dir, main page]

CN111242196A - 可解释性深度学习的差分隐私保护方法 - Google Patents

可解释性深度学习的差分隐私保护方法 Download PDF

Info

Publication number
CN111242196A
CN111242196A CN202010011049.2A CN202010011049A CN111242196A CN 111242196 A CN111242196 A CN 111242196A CN 202010011049 A CN202010011049 A CN 202010011049A CN 111242196 A CN111242196 A CN 111242196A
Authority
CN
China
Prior art keywords
deep learning
interpretable
data set
learning model
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010011049.2A
Other languages
English (en)
Other versions
CN111242196B (zh
Inventor
王金艳
李德
胡宇航
李先贤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangxi Normal University
Original Assignee
Guangxi Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangxi Normal University filed Critical Guangxi Normal University
Priority to CN202010011049.2A priority Critical patent/CN111242196B/zh
Publication of CN111242196A publication Critical patent/CN111242196A/zh
Application granted granted Critical
Publication of CN111242196B publication Critical patent/CN111242196B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种可解释性深度学习的差分隐私保护方法,通过在FF‑CNN的第一层卷积层加入差分隐私保护以及在模型的输出层的损失函数中加入差分隐私,保证了模型的输入与输出端的安全,从而保护了模型数据提供者的个人隐私,并且通过在第二次采样层得到的数据特征利用k‑means++算法进行聚类后,进行mixup插值法进行数据增强,提升整个模型的鲁棒性。本发明基于可解释性深度学习模型的隐私保护策略,使得模型使用者可以利用深度学习模型得到具有可解释性的结果并且不泄露个人的隐私信息。

Description

可解释性深度学习的差分隐私保护方法
技术领域
本发明涉及深度学习与隐私保护技术领域,具体涉及一种可解释性深度学习的差分隐私保护方法。
背景技术
近年来,深度学习是机器学习研究的一个新领域。它就像人类大脑一样,有能力学习和处理复杂的数据,并尝试解决负责的任务。由于这种能力,它被用于各种领域内,例如文本提取,声音识别,图像分类与识别等。卷积神经网络(CNN)作为深度学习的一种具有代表性的网络结构,广泛被应用于各类图像识别,语义分割的场景,卷积神经网络从宏观的概念上来讲,可以分为特征提取和特征识别两大部分,通过卷积(convolution)操作与采样(pooling)操作对原始图像进行有效的特征提取,然后通过全连接层(full connection)的变换对提取出来的有效特征进行精准识别。然而,卷积神经网络的训练需要大量的数据,这些数据中包含着用户个人的敏感信息,如果卷积神经网络模型不加以保护直接发布出来的话,将会对数据提供者的隐私造成一定的泄露,那么数据提供者的利益也将受到损害,导致不愿再提供数据的结果,从而影响模型的训练。
对于深度学习的模型来说,就是一个黑盒子,数据拥有者看不到模型是通过什么动作或者原因得出这样一个判断结果,这样对于深度神经网络模型做出的决策,使用者常常会持有怀疑的态度。即使,模型的预测精度已经达到很高的程度。所以,可解释性的深度神经网络对于深度学习的发展具有很大的促进作用,然而可解释性的深度神经网络仍然存在隐私泄露的问题,需要采取一定的隐私保护手段来保证数据提供者的隐私。
目前,在机器学习隐私保护方面,差分隐私已经成为最有发展潜力的隐私保护技术之一。差分隐私是保证相邻数据集相差一条记录对于两个数据集的输出几乎没有影响,其保护方式是通过在查询函数的返回值中加入适量的噪声来实现的,攻击者无法通过设计的攻击模型来窃取模型的原始数据。然而,现有满足差分隐私的卷积神经网络模型都是对于普通的卷积神经网络结构的,对于可解释性卷积神经网络模型的隐私保护手段几乎没有,可解释性卷积神经网络对于模型的参数更加依赖,这样对于白盒或者黑盒的攻击手段,更加容易泄露数据提供者的隐私。可解释性卷积神经网络的隐私保护更加具有意义和挑战性,主要体现在以下几个方面:
(1)可解释性与隐私性的结合,既可以给数据提供者带来对模型决策结果的解释,又可以在不失去解释性的前提下对提供者的隐私足够的保障,使用数据提供者实用性和安全性上都有足够的保障。
(2)在保证卷积神经网络模型的精度不降低以及可解释性的清晰度不减弱的前提下,如何精准加噪,减少噪声对于模型的影响十分关键。
发明内容
本发明针对可解释性卷积神经网络模型在训练以及推理过程中产生的隐私泄露问题,提供一种可解释性深度学习的差分隐私保护方法。
为解决上述问题,本发明是通过以下技术方案实现的:
可解释性深度学习的差分隐私保护方法,包括步骤如下:
步骤1、初始化可解释性深度学习模型,该可解释性深度学习模型基于前向传播的可解释性卷积神经网络,并依次包括输入层、第一卷积层、第一采样层、第二卷积层、第二采样层、第一全连接层、第二全连接层和输出层;
步骤2、将给定的数据集进行归一化处理后,作为可解释性深度学习模型的训练数据集;
步骤3、利用步骤2的训练数据集对步骤1所得的可解释性深度学习模型的第一卷积层进行训练,以更新可解释性深度学习模型;即:
步骤3.1、对训练数据集进行主成分分析,得到各个主成分的特征值和特征向量;
步骤3.2、对各个主成分的特征值进行降序排序,并选出特征值排在前6位的主成分所对应的特征向量;
步骤3.3、基于所分配的第一隐私预算ε1对步骤3.2所选出的特征向量即初始特征向量进行拉普拉斯加噪,得到满足差分隐私的特征向量;
步骤3.4、对步骤3.3所得的满足差分隐私的特征向量进行截断操作,得到最终特征向量,并将最终特征向量作为可解释性深度学习模型的第一卷积层的6个卷积核,以更新可解释性深度学习模型;
步骤4、将步骤2的训练数据集从步骤3所得的可解释性深度学习模型的第一卷积层的输入输入,第二采样层的输出输出,得到第一特征数据集;
步骤5、先采用k-menas++算法对步骤4所得的第一特征数据集中的样本数据进行聚类,得到第一带标签的特征数据集;再利用Mixup算法对第一带标签的特征数据集进行增强操作,得到第一增强数据集;
步骤6、对第一增强数据集进行最小二乘回归计算,并将计算所得的映射系数向量作为可解释性深度学习模型的第二采样层与第一全连接层的连接参数,以更新可解释性深度学习模型;
步骤7、将步骤5所得的第一增强数据集从步骤6所得的可解释性深度学习模型的第一全连接层的输入输入,第一全连接层的输出输出,得到第二特征数据集;
步骤8、先采用k-menas++算法对步骤7所得的第二特征数据集中的样本数据进行聚类,得到第二带标签的特征数据集;再利用Mixup算法对第二带标签的特征数据集进行增强操作,得到第二增强数据集;
步骤9、对第二增强数据集进行最小二乘回归计算,并将计算所得的映射系数向量作为可解释性深度学习模型的第一全连接层与第二全连接层的连接参数,以更新可解释性深度学习模型;
步骤10、基于所分配的第二隐私预算ε2对步骤9所得的可解释性深度学习模型的输出层的平方误差损失函数的展开式的系数进行拉普拉斯加噪,得到加噪后的平方误差损失函数,并将加噪后的平方误差损失函数作为可解释性深度学习模型的的输出层的平方误差损失函数,以更新可解释性深度学习模型;
步骤11、将步骤8所得的第二增强数据集从步骤10所得的可解释性深度学习模型的第二全连接层的输入输入,第二全连接层的输出输出,得到第三特征数据集;
步骤12、将步骤12所得的第三特征数据集输入到步骤10所得的加噪后的平方误差损失函数中,通过最小化加噪后的平方误差损失函数求得第二全连接层和输出层的连接参数,以更新可解释性深度学习模型;
步骤13、将当前可解释性深度学习模型作为最终的可解释性深度学习模型;
步骤14、将待保护的数据输入到步骤13所得到的最终的可解释性深度学习模型中,最终的可解释性深度学习模型的输出即为隐私保护后的数据。
上述步骤3.3中,第j个初始特征向量的隐私预算εj为:
Figure BDA0002357174680000031
其中,ε1为给定的第一隐私预算,λj为第j个初始特征向量所对应的特征值,j=1,2,...,6。
上述步骤3.3中,在进行拉普拉斯加噪时,其第j个初始特征向量的全局敏感度Δfj为:
Figure BDA0002357174680000032
其中,
Figure BDA0002357174680000033
为第j个初始特征向量的所有元素中的数值最大值,
Figure BDA0002357174680000034
为第j个初始特征向量的所有元素中的数值最小值,||·||1为L-1范数,j=1,2,...,6。
上述步骤3.4中,对满足差分隐私的特征向量进行截断操作的过程如下:遍历第j个满足差分隐私的特征向量中的各个元素:若该元素大于第j个初始特征向量的所有元素中的数值最大值
Figure BDA0002357174680000035
则令该该元素值为
Figure BDA0002357174680000036
若该元素小于第j个初始特征向量的所有元素中的数值最大值
Figure BDA0002357174680000037
则令该该元素值为
Figure BDA0002357174680000038
否则,保持该元素值不变。其中,j=1,2,...,6。
上述根据权利要求1所述的可解释性深度学习的差分隐私保护方法,其特征是,步骤10中,在进行拉普拉斯加噪时,其平方误差损失函数的展开式的系数的全局敏感度Δf为:
Δf=||λmaxmin||1
其中,λmax表示平方误差损失函数展开式的系数的最大值,λmin表示平方误差损失函数展开式的系数的最小值,||·||1表示L-1范数。
与现有技术相比,本发明具有如下特点:
1、对于模型第一层的卷积层,其中卷积核的权重值本发明采用动态加噪的方式,对于模型输出相关性的大的权重值本发明加入较少的拉普拉斯噪声,反之亦然,这样既保证攻击者不能通过破坏第一层卷积层反推出原始数据集,又可以精准加噪,提高后续训练数据的可用性。
2、通过第二次下采样的数据,利用k-means++算法进行聚类,然后在利用mixup插值法进行数据增强,进而提升模型的鲁棒性。
3、在模型的输出层,我们采用对模型的输出损失函数进行近似的泰勒展开,通过对展开式中的系数加入相应的拉普拉斯噪声,保证模型在输出端的安全,防止攻击者通过成员推理攻击来成功攻击到我们的模型。
附图说明
图1为可解释性卷积神经网络结构图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实例,对本发明进一步详细说明。
一种可解释性深度学习的差分隐私保护方法,其具体步骤如下:
(一)可解释性深度学习模型的训练过程:
步骤1、初始化可解释性深度学习模型,该可解释性深度学习模型基于前向传播的可解释性卷积神经网络FF-CNN(Interpretable Convolutional Neural Networks viaFeedforward Design),并依次包括输入层、第一卷积层、第一采样层、第二卷积层、第二采样层、第一全连接层、第二全连接层和输出层。
步骤2、将给定的数据集进行归一化处理后,作为可解释性深度学习模型的训练数据集。
在本发明中,给定的数据集为Minst&ciafr-10数据集,我们采用image=image/255.0的归一化操作,将数据集中的所有图像的像素值缩小到0~1的范围内,由此得到模型构建所需的训练数据集。
步骤3、利用步骤2的训练数据集对步骤1所得的可解释性深度学习模型的第一卷积层进行训练,以更新可解释性深度学习模型。即:
利用主成分分析(PCA)对步骤1的训练数据进行计算,构建具有6个卷积核WCONV-1大小为[5*5]的卷积层,利用差分隐私技术对卷积核WCONV-1添加噪声,构建加入拉普拉斯噪声的卷积层替换掉FF-CNN模型的第一个卷积层。
步骤3.1、对训练数据集进行主成分分析,得到各个主成分的特征值λi和特征向量ui
步骤3.2、对各个主成分的特征值λi进行降序排序,并选出特征值λi排在前6位的主成分所对应的特征向量ui。这6个选出的特征向量的大小与模型的第一卷积层的6个卷积核大小一致,均为[5*5]。
步骤3.3、基于所分配的第一隐私预算ε1对步骤3.2所选出的特征向量即初始特征向量进行拉普拉斯加噪,得到满足差分隐私的特征向量。
先为这6个选出的特征向量(即初始卷积核)WCONV-1分配不同的隐私预算εj,再分别计算这6个选出的特征向量的全局敏感度Δfj,后基于隐私预算全局敏感度,对这6个选出的特征向量进行加噪,得到满足差分隐私的特征向量(即加噪卷积核)W′CONV-1
在本发明中,给6个选出的特征向量所分配的隐私预算εj可以是相同的,但为了能够提高匿名效果,在本发明中,给6个选出的特征向量所分配的隐私预算εj是不均等的。对特征值大的特征向量分配更大的隐私预算ε(加的噪声更少),反之亦然。
第j个初始特征向量的隐私预算εj为:
Figure BDA0002357174680000051
其中,ε1为给定的第一隐私预算,λj为第j个初始特征向量所对应的特征值,j=1,2,...,6。
第j个初始特征向量的全局敏感度Δfj为:
Figure BDA0002357174680000052
其中,
Figure BDA0002357174680000053
为第j个初始特征向量的所有元素中的数值最大值,
Figure BDA0002357174680000054
为第j个初始特征向量的所有元素中的数值最小值,||·||1为L-1范数,j=1,2,...,6。
利用差分隐私(Differential Privacy)保护技术对6个特征向量分配不同的隐私预算,进行不均等的噪声添加,即
Figure BDA0002357174680000055
其中,WCONV-1为未加噪的特征向量即初始特征向量(即初始卷积核),W′CONV-1为加噪后的特征向量即满足差分隐私的特征向量(即加噪卷积核)。
步骤3.4、对步骤3.3所得的满足差分隐私的特征向量进行截断操作,得到最终特征向量,并将最终特征向量作为可解释性深度学习模型的第一卷积层的6个卷积核,以更新可解释性深度学习模型。
采用截断法对6个加噪后的特征向量(即加噪卷积核)W′CONV-1的元素进行调整,并将调整后所得到的6个特征向量,作为模型的第一卷积层最终的6个卷积核。其中对满足差分隐私的特征向量进行截断操作的过程如下:遍历第j个满足差分隐私的特征向量中的各个元素wpq
①若该元素wpq大于第j个初始特征向量的所有元素中的数值最大值
Figure BDA0002357174680000061
Figure BDA0002357174680000062
则令
Figure BDA0002357174680000063
即该该元素值为
Figure BDA0002357174680000064
②若该元素wpq小于第j个初始特征向量的所有元素中的数值最大值
Figure BDA0002357174680000065
Figure BDA0002357174680000066
则令
Figure BDA0002357174680000067
即该该元素值为
Figure BDA0002357174680000068
③若该元素wpq介于第j个初始特征向量的所有元素中的数值最大值
Figure BDA0002357174680000069
和第j个初始特征向量的所有元素中的数值最大值
Figure BDA00023571746800000610
之间,即
Figure BDA00023571746800000611
则wpq=wpq即保持该元素wpq值不变。
步骤4、将步骤2的训练数据集从步骤3所得的可解释性深度学习模型的第一卷积层的输入输入,第二采样层的输出输出,得到第一特征数据集。
步骤4.1、将步骤1的数据输入到FF-CNN模型的第一个具有6个卷积核W′CONV-1大小为[5*5]的卷积层进行卷积运算提取数据的卷积特征,输出的卷积特征大小[28*28*6]。
步骤4.2、利用步骤4.1得到的卷积特征,继续输入到FF-CNN模型的第一个采样层(pooling)进行降维和特征提取操作,输出的特征大小为[14*14*6]。
步骤4.3、将步骤4.2得到的特征输入到FF-CNN的第二个具有16个卷积核大小为[5*5*6]的卷积层和第二个采样层进行特征提取,输出的特征大小为[5*5*15]。
步骤5、先采用k-menas++算法对步骤4所得的第一特征数据集中的样本数据进行聚类,得到第一带标签的特征数据集。再利用Mixup算法对第一带标签的特征数据集进行增强操作,得到第一增强数据集。
对步骤4提取出来的特征数据进行增强操作,为后续全连接层的分类决策过程提供更多的数据样本,并且提高模型训练的鲁棒性。
步骤5.1、对步骤4提取出来的特征数据x利用k-menas++(增强随机性k均值聚类)算法对其进行聚类操作,将特征数据x的聚类的中心作为该特征数据x的标签y,由此得到带标签的特征数据。其中标签y的取值为0-9。
步骤5.2、利用Mixup(数据增强插值)算法对步骤5.1处理所得的带标签的特征数据进行数据增强操作,以扩展得到更多的带标签的特征数据,由此得到增强数据集。
增强操作生成特征数据的方法如下:
xn=λxi+(1-λ)xj
增强操作生成标签的方法如下:
yn=λyi+(1-λ)yj
其中,λ为增强因子,范围在(0,1)之间;(xi,yi)、(xj,yj)为步骤4.1得到的数据,(xn,yn)为新生成的数据。xi、xj和xn分别表示特征数据本身,yi、yj和yn分别表示特征数据xi、xj和xn的标签。
步骤6、对第一增强数据集进行最小二乘回归计算,并将计算所得的映射系数向量作为可解释性深度学习模型的第二采样层与第一全连接层的连接参数Wfull-1,以更新可解释性深度学习模型。
对步骤5得到的数据,利用最小二乘回归法(LSR)计算得到FF-CNN模型的第二采样层与第一全连接层的连接参数Wfull-1
最小二乘回归方法为:
Figure BDA0002357174680000071
(n为输出层的维度)
其中,
Figure BDA0002357174680000072
为特征数据向量,
Figure BDA0002357174680000073
为特征数据的标签向量,
Figure BDA0002357174680000074
为映射系数向量即连接参数。
通过建立120个线性方程组解出第二采样层与第一全连接层之间的模型权重(参数)Wfull-1
步骤7、将步骤5所得的第一增强数据集从步骤6所得的可解释性深度学习模型的第一全连接层的输入输入,第一全连接层的输出输出,得到第二特征数据集。
步骤8、先采用k-menas++算法对步骤7所得的第二特征数据集中的样本数据进行聚类,得到第二带标签的特征数据集。再利用Mixup算法对第二带标签的特征数据集进行增强操作,得到第二增强数据集。
步骤9、对第二增强数据集进行最小二乘回归计算,并将计算所得的映射系数向量作为可解释性深度学习模型的第一全连接层与第二全连接层的连接参数Wfull-2,以更新可解释性深度学习模型。
最小二乘回归方法为:
Figure BDA0002357174680000075
(n为输出层的维度)
其中,
Figure BDA0002357174680000081
为特征数据向量,
Figure BDA0002357174680000082
为特征数据的标签向量,
Figure BDA0002357174680000083
为映射系数向量即连接参数。
通过建立84个线性方程组解出第一全连接层与第二全连接层之间的模型权重(参数)Wfull-2
步骤10、基于所分配的第二隐私预算ε2对步骤9所得的可解释性深度学习模型的输出层的平方误差损失函数的展开式的系数进行拉普拉斯加噪,得到加噪后的平方误差损失函数,并将加噪后的平方误差损失函数作为可解释性深度学习模型的的输出层的平方误差损失函数,以更新可解释性深度学习模型。
对模型输出层的平方误差损失函数(loss function)进行近似展开,对其中的系数加入隐私预算为ε22=ε-ε1)的拉普拉斯噪声,从而实现对模型输出端的隐私保护。其中ε2=ε-ε1,ε为给定的总的隐私预算。
输出层的损失函数,采取的是平方误差函数,目的是衡量真实标签与计算出来的预测标签之间的差距,也就是衡量模型训练的好坏的评价指标。输出层的平方误差损失函数及其近似展开如下:
f(X,Wfull-3)=(y-XWfull-3)2=yTy-2XyWfull-3+XTXWfull-3
其中,X表示输入到输出层的特征数据,Wfull-3表示第二全连接层与输出层之间的连接参数,y表示特征数据X所对应的真实标签,f(X,w)表示输出层的损失函数。
全局敏感度Δf:
Δf=||λmaxmin||1=2(d2+2d+1)
其中,d表示输出层的数据特征的维度大小,λmax表示损失函数展开式的系数的最大值,λmin表示损失函数展开式的系数的最小值,||·||1表示L-1范数。
对于平方误差损失函数的展开式中的系数λ0=1,λ1=-2Xy,λ2=XTX,加入拉普拉斯噪声,即:
Figure BDA0002357174680000084
其中,λ表示未加噪的展开式系数,
Figure BDA0002357174680000085
表示加噪后的展开式系数。
步骤11、将步骤8所得的第二增强数据集从步骤10所得的可解释性深度学习模型的第二全连接层的输入输入,第二全连接层的输出输出,得到第三特征数据集。
步骤12、将步骤12所得的第三特征数据集输入到步骤10所得的加噪后的平方误差损失函数中,通过最小化加噪后的平方误差损失函数求得第二全连接层和输出层的连接参数Wfull-3,以更新可解释性深度学习模型。
通过最小化损失函数来求得FF-CNN模型的最后一个全连接层的参数Wfull-3,即:
Figure BDA0002357174680000091
其中,X表示输入到输出层的特征数据,Wfull-3表示第二个全连接层与输出层之间的连接参数,y表示特征数据X所对应的真实标签,
Figure BDA0002357174680000092
表示最小化f(·)函数时Wfull-3的取值。
步骤13、将当前可解释性深度学习模型作为最终的可解释性深度学习模型。如图1所示。
(二)利用训练好的可解释性深度学习模型进行差分隐私保护的过程:
步骤14、将待保护的数据输入到步骤13所得到的最终的可解释性深度学习模型中,最终的可解释性深度学习模型的输出即为隐私保护后的数据。
本发明提出了一种基于FF-CNN(可解释性深度学习模型)的差分隐私保护方法,通过在FF-CNN的第一层卷积层加入差分隐私保护以及在模型的输出层的损失函数中加入差分隐私,保证了模型的输入与输出端的安全,从而保护了模型数据提供者的个人隐私,并且通过在第二次采样层得到的数据特征利用k-means++算法进行聚类后,进行mixup插值法进行数据增强,提升整个模型的鲁棒性。本发明基于可解释性深度学习模型的隐私保护策略,使得模型使用者可以利用深度学习模型得到具有可解释性的结果并且不泄露个人的隐私信息。
需要说明的是,尽管以上本发明所述的实施例是说明性的,但这并非是对本发明的限制,因此本发明并不局限于上述具体实施方式中。在不脱离本发明原理的情况下,凡是本领域技术人员在本发明的启示下获得的其它实施方式,均视为在本发明的保护之内。

Claims (5)

1.可解释性深度学习的差分隐私保护方法,其特征是,包括步骤如下:
步骤1、初始化可解释性深度学习模型,该可解释性深度学习模型基于前向传播的可解释性卷积神经网络,并依次包括输入层、第一卷积层、第一采样层、第二卷积层、第二采样层、第一全连接层、第二全连接层和输出层;
步骤2、将给定的数据集进行归一化处理后,作为可解释性深度学习模型的训练数据集;
步骤3、利用步骤2的训练数据集对步骤1所得的可解释性深度学习模型的第一卷积层进行训练,以更新可解释性深度学习模型;即:
步骤3.1、对训练数据集进行主成分分析,得到各个主成分的特征值和特征向量;
步骤3.2、对各个主成分的特征值进行降序排序,并选出特征值排在前6位的主成分所对应的特征向量;
步骤3.3、基于所分配的第一隐私预算ε1对步骤3.2所选出的特征向量即初始特征向量进行拉普拉斯加噪,得到满足差分隐私的特征向量;
步骤3.4、对步骤3.3所得的满足差分隐私的特征向量进行截断操作,得到最终特征向量,并将最终特征向量作为可解释性深度学习模型的第一卷积层的6个卷积核,以更新可解释性深度学习模型;
步骤4、将步骤2的训练数据集从步骤3所得的可解释性深度学习模型的第一卷积层的输入输入,第二采样层的输出输出,得到第一特征数据集;
步骤5、先采用k-menas++算法对步骤4所得的第一特征数据集中的样本数据进行聚类,得到第一带标签的特征数据集;再利用Mixup算法对第一带标签的特征数据集进行增强操作,得到第一增强数据集;
步骤6、对第一增强数据集进行最小二乘回归计算,并将计算所得的映射系数向量作为可解释性深度学习模型的第二采样层与第一全连接层的连接参数,以更新可解释性深度学习模型;
步骤7、将步骤5所得的第一增强数据集从步骤6所得的可解释性深度学习模型的第一全连接层的输入输入,第一全连接层的输出输出,得到第二特征数据集;
步骤8、先采用k-menas++算法对步骤7所得的第二特征数据集中的样本数据进行聚类,得到第二带标签的特征数据集;再利用Mixup算法对第二带标签的特征数据集进行增强操作,得到第二增强数据集;
步骤9、对第二增强数据集进行最小二乘回归计算,并将计算所得的映射系数向量作为可解释性深度学习模型的第一全连接层与第二全连接层的连接参数,以更新可解释性深度学习模型;
步骤10、基于所分配的第二隐私预算ε2对步骤9所得的可解释性深度学习模型的输出层的平方误差损失函数的展开式的系数进行拉普拉斯加噪,得到加噪后的平方误差损失函数,并将加噪后的平方误差损失函数作为可解释性深度学习模型的的输出层的平方误差损失函数,以更新可解释性深度学习模型;
步骤11、将步骤8所得的第二增强数据集从步骤10所得的可解释性深度学习模型的第二全连接层的输入输入,第二全连接层的输出输出,得到第三特征数据集;
步骤12、将步骤12所得的第三特征数据集输入到步骤10所得的加噪后的平方误差损失函数中,通过最小化加噪后的平方误差损失函数求得第二全连接层和输出层的连接参数,以更新可解释性深度学习模型;
步骤13、将当前可解释性深度学习模型作为最终的可解释性深度学习模型;
步骤14、将待保护的数据输入到步骤13所得到的最终的可解释性深度学习模型中,最终的可解释性深度学习模型的输出即为隐私保护后的数据。
2.根据权利要求1所述的可解释性深度学习的差分隐私保护方法,其特征是,步骤3.3中,第j个初始特征向量的隐私预算εj为:
Figure FDA0002357174670000021
其中,ε1为给定的第一隐私预算,λj为第j个初始特征向量所对应的特征值,j=1,2,...,6。
3.根据权利要求1所述的可解释性深度学习的差分隐私保护方法,其特征是,步骤3.3中,在进行拉普拉斯加噪时,其第j个初始特征向量的全局敏感度Δfj为:
Figure FDA0002357174670000022
其中,
Figure FDA0002357174670000023
为第j个初始特征向量的所有元素中的数值最大值,
Figure FDA0002357174670000024
为第j个初始特征向量的所有元素中的数值最小值,||·||1为L-1范数,j=1,2,...,6。
4.根据权利要求1所述的可解释性深度学习的差分隐私保护方法,其特征是,步骤3.4中,对满足差分隐私的特征向量进行截断操作的过程如下:
遍历第j个满足差分隐私的特征向量中的各个元素:
若该元素大于第j个初始特征向量的所有元素中的数值最大值
Figure FDA0002357174670000025
则令该该元素值为
Figure FDA0002357174670000026
若该元素小于第j个初始特征向量的所有元素中的数值最大值
Figure FDA0002357174670000027
则令该该元素值为
Figure FDA0002357174670000028
否则,保持该元素值不变;
其中,j=1,2,...,6。
5.根据权利要求1所述的可解释性深度学习的差分隐私保护方法,其特征是,步骤10中,在进行拉普拉斯加噪时,其平方误差损失函数的展开式的系数的全局敏感度Δf为:
Δf=||λmaxmin||1
其中,λmax表示平方误差损失函数展开式的系数的最大值,λmin表示平方误差损失函数展开式的系数的最小值,||·||1表示L-1范数。
CN202010011049.2A 2020-01-06 2020-01-06 可解释性深度学习的差分隐私保护方法 Active CN111242196B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010011049.2A CN111242196B (zh) 2020-01-06 2020-01-06 可解释性深度学习的差分隐私保护方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010011049.2A CN111242196B (zh) 2020-01-06 2020-01-06 可解释性深度学习的差分隐私保护方法

Publications (2)

Publication Number Publication Date
CN111242196A true CN111242196A (zh) 2020-06-05
CN111242196B CN111242196B (zh) 2022-06-21

Family

ID=70864848

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010011049.2A Active CN111242196B (zh) 2020-01-06 2020-01-06 可解释性深度学习的差分隐私保护方法

Country Status (1)

Country Link
CN (1) CN111242196B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112232349A (zh) * 2020-09-23 2021-01-15 成都佳华物链云科技有限公司 模型训练方法、图像分割方法及装置
CN112487482A (zh) * 2020-12-11 2021-03-12 广西师范大学 自适应切割阈值的深度学习差分隐私保护方法
CN112765662A (zh) * 2021-01-22 2021-05-07 电子科技大学 一种在深度学习下支持训练集成员隐私保护的方法
CN113378859A (zh) * 2021-06-29 2021-09-10 中国科学技术大学 一种具有可解释性的图像隐私检测方法
CN114118407A (zh) * 2021-10-29 2022-03-01 华北电力大学 一种面向深度学习的差分隐私可用性度量方法
CN114755558A (zh) * 2022-04-08 2022-07-15 广东利扬芯片测试股份有限公司 射频芯片的数据补偿方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106557812A (zh) * 2016-11-21 2017-04-05 北京大学 基于dct变换的深度卷积神经网络压缩与加速方案
CN107766740A (zh) * 2017-10-20 2018-03-06 辽宁工业大学 一种Spark 框架下的基于差分隐私保护的数据发布方法
US20180189281A1 (en) * 2016-12-30 2018-07-05 Facebook, Inc. Systems and methods for providing content
CN108427891A (zh) * 2018-03-12 2018-08-21 南京理工大学 基于差分隐私保护的邻域推荐方法
CN109102157A (zh) * 2018-07-11 2018-12-28 交通银行股份有限公司 一种基于深度学习的银行工单派单方法及系统
WO2019122854A1 (en) * 2017-12-18 2019-06-27 Privitar Limited Data product release method or system
CN110334757A (zh) * 2019-06-27 2019-10-15 南京邮电大学 面向大数据分析的隐私保护聚类方法及计算机存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106557812A (zh) * 2016-11-21 2017-04-05 北京大学 基于dct变换的深度卷积神经网络压缩与加速方案
US20180189281A1 (en) * 2016-12-30 2018-07-05 Facebook, Inc. Systems and methods for providing content
CN107766740A (zh) * 2017-10-20 2018-03-06 辽宁工业大学 一种Spark 框架下的基于差分隐私保护的数据发布方法
WO2019122854A1 (en) * 2017-12-18 2019-06-27 Privitar Limited Data product release method or system
CN111971675A (zh) * 2017-12-18 2020-11-20 普威达有限公司 数据产品发布方法或系统
CN108427891A (zh) * 2018-03-12 2018-08-21 南京理工大学 基于差分隐私保护的邻域推荐方法
CN109102157A (zh) * 2018-07-11 2018-12-28 交通银行股份有限公司 一种基于深度学习的银行工单派单方法及系统
CN110334757A (zh) * 2019-06-27 2019-10-15 南京邮电大学 面向大数据分析的隐私保护聚类方法及计算机存储介质

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112232349A (zh) * 2020-09-23 2021-01-15 成都佳华物链云科技有限公司 模型训练方法、图像分割方法及装置
CN112232349B (zh) * 2020-09-23 2023-11-03 成都佳华物链云科技有限公司 模型训练方法、图像分割方法及装置
CN112487482A (zh) * 2020-12-11 2021-03-12 广西师范大学 自适应切割阈值的深度学习差分隐私保护方法
CN112487482B (zh) * 2020-12-11 2022-04-08 广西师范大学 自适应切割阈值的深度学习差分隐私保护方法
CN112765662A (zh) * 2021-01-22 2021-05-07 电子科技大学 一种在深度学习下支持训练集成员隐私保护的方法
CN112765662B (zh) * 2021-01-22 2022-06-03 电子科技大学 一种在深度学习下支持训练集成员隐私保护的方法
CN113378859A (zh) * 2021-06-29 2021-09-10 中国科学技术大学 一种具有可解释性的图像隐私检测方法
CN114118407A (zh) * 2021-10-29 2022-03-01 华北电力大学 一种面向深度学习的差分隐私可用性度量方法
CN114118407B (zh) * 2021-10-29 2023-10-24 华北电力大学 一种面向深度学习的差分隐私可用性度量方法
CN114755558A (zh) * 2022-04-08 2022-07-15 广东利扬芯片测试股份有限公司 射频芯片的数据补偿方法
CN114755558B (zh) * 2022-04-08 2024-06-21 广东利扬芯片测试股份有限公司 射频芯片的数据补偿方法

Also Published As

Publication number Publication date
CN111242196B (zh) 2022-06-21

Similar Documents

Publication Publication Date Title
CN111242196B (zh) 可解释性深度学习的差分隐私保护方法
CN110827213A (zh) 一种基于生成式对抗网络的超分辨率图像修复方法
CN113554089A (zh) 一种图像分类对抗样本防御方法、系统及数据处理终端
CN109766858A (zh) 结合双边滤波的三维卷积神经网络高光谱影像分类方法
Lu et al. Low-rank 2-D neighborhood preserving projection for enhanced robust image representation
CN110458084B (zh) 一种基于倒置残差网络的人脸年龄估计方法
Zhang et al. Learning upper patch attention using dual-branch training strategy for masked face recognition
CN110020599A (zh) 一种稀疏强化型低秩约束的人脸图像聚类方法
CN112101467A (zh) 一种基于深度学习的高光谱图像分类方法
CN114626042B (zh) 一种人脸验证攻击方法和装置
CN104009886A (zh) 基于支持向量机的入侵检测方法
Cui et al. Low-rank graph completion-based incomplete multiview clustering
CN104281835B (zh) 基于局部敏感的核稀疏表示的人脸识别方法
CN111046868B (zh) 基于矩阵低秩稀疏分解的目标显著性检测方法
Yang et al. Graph evolution-based vertex extraction for hyperspectral anomaly detection
CN106169073A (zh) 一种表情识别方法及系统
CN104462818B (zh) 一种基于Fisher准则的嵌入流形回归模型
Song et al. Multi-focus image fusion with PCA filters of PCANet
Zou et al. [Retracted] Image Classification Model Based on Deep Learning in Internet of Things
Zhang et al. Kernel relative-prototype spectral filtering for few-shot learning
CN114743022A (zh) 一种基于Transformer神经网络的图像分类方法
CN109344720B (zh) 一种基于自适应特征选择的情感状态检测方法
CN112507804A (zh) 一种基于手部图像的身份识别方法
Gao et al. Research on Real‐Time Face Key Point Detection Algorithm Based on Attention Mechanism
Li et al. Application of Dual‐Channel Convolutional Neural Network Algorithm in Semantic Feature Analysis of English Text Big Data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant