CN110795703B - 数据防窃取方法和相关产品 - Google Patents
数据防窃取方法和相关产品 Download PDFInfo
- Publication number
- CN110795703B CN110795703B CN201910897929.1A CN201910897929A CN110795703B CN 110795703 B CN110795703 B CN 110795703B CN 201910897929 A CN201910897929 A CN 201910897929A CN 110795703 B CN110795703 B CN 110795703B
- Authority
- CN
- China
- Prior art keywords
- feature vector
- tag
- label
- target
- processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 122
- 230000002265 prevention Effects 0.000 title abstract description 17
- 239000013598 vector Substances 0.000 claims abstract description 494
- 238000012545 processing Methods 0.000 claims abstract description 249
- 238000000605 extraction Methods 0.000 claims abstract description 23
- 238000004422 calculation algorithm Methods 0.000 claims description 44
- 230000003247 decreasing effect Effects 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 6
- 238000013473 artificial intelligence Methods 0.000 abstract description 5
- 238000001514 detection method Methods 0.000 description 32
- 238000010586 diagram Methods 0.000 description 16
- 238000010801 machine learning Methods 0.000 description 13
- 238000012549 training Methods 0.000 description 13
- 230000006870 function Effects 0.000 description 8
- 241000282326 Felis catus Species 0.000 description 7
- 239000010410 layer Substances 0.000 description 6
- 230000007423 decrease Effects 0.000 description 5
- 238000012544 monitoring process Methods 0.000 description 5
- 238000013519 translation Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 241001465754 Metazoa Species 0.000 description 2
- 230000003190 augmentative effect Effects 0.000 description 2
- 238000013145 classification model Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 239000011241 protective layer Substances 0.000 description 2
- HCUOEKSZWPGJIM-YBRHCDHNSA-N (e,2e)-2-hydroxyimino-6-methoxy-4-methyl-5-nitrohex-3-enamide Chemical compound COCC([N+]([O-])=O)\C(C)=C\C(=N/O)\C(N)=O HCUOEKSZWPGJIM-YBRHCDHNSA-N 0.000 description 1
- 102100024290 BTB/POZ domain-containing protein 6 Human genes 0.000 description 1
- 101000761882 Homo sapiens BTB/POZ domain-containing protein 6 Proteins 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000003094 perturbing effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/10—Protecting distributed programs or content, e.g. vending or licensing of copyrighted material ; Digital rights management [DRM]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/10—Protecting distributed programs or content, e.g. vending or licensing of copyrighted material ; Digital rights management [DRM]
- G06F21/12—Protecting executable software
- G06F21/14—Protecting executable software against software analysis or reverse engineering, e.g. by obfuscation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/50—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
- G06F21/52—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems during program execution, e.g. stack integrity ; Preventing unwanted data erasure; Buffer overflow
- G06F21/54—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems during program execution, e.g. stack integrity ; Preventing unwanted data erasure; Buffer overflow by adding security routines or objects to programs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/50—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
- G06F21/55—Detecting local intrusion or implementing counter-measures
- G06F21/552—Detecting local intrusion or implementing counter-measures involving long-term monitoring or reporting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/04—Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks
- H04L63/0407—Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks wherein the identity of one or more communicating identities is hidden
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1441—Countermeasures against malicious traffic
- H04L63/1466—Active attacks involving interception, injection, modification, spoofing of data unit addresses, e.g. hijacking, packet injection or TCP sequence number attacks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Hardware Design (AREA)
- Multimedia (AREA)
- Bioethics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Technology Law (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Medical Informatics (AREA)
- Evolutionary Biology (AREA)
- Mathematical Physics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例公开了人工智能领域中的一种数据防窃取方法和相关产品,该方法可包括:获取目标数据;将所述目标数据输入至识别模型进行识别处理,得到第一标签;所述第一标签为所述目标数据所属的标签,所述识别处理包括:所述识别模型对所述目标数据进行特征提取处理以得到第一特征向量;所述识别模型根据所述第一特征向量,预测得到所述第一标签;在确定存在第二特征向量的情况下,输出目标标签;所述第二特征向量为与所述第一特征向量之间的距离小于第一阈值的特征向量,且其经由所述识别模型预测得到的第二标签与所述第一标签不同;所述目标标签为对所述第一标签进行扰动处理得到的标签;可以有效防止识别模型(一种AI模型)的参数被获取。
Description
技术领域
本申请涉及人工智能领域,尤其涉及一种数据防窃取方法和相关产品。
背景技术
随着人工智能(Artificial Intelligence,AI)的快速发展,机器学习系统逐渐开始在语音识别、图像处理、医疗决策、系统安全等领域发挥重大作用。目前,许多机器学习服务提供商通过收集大量的标注数据来训练一个高效的AI模型,并将AI模型预测服务封装成特定接口供外部调用。例如阿里云图像识别,腾讯云文字识别,百度AI语音识别等等。AI模型本身的安全问题引起了很多研究人员的注意,例如模型窃取攻击。
模型窃取攻击是指攻击者通过分析机器学习系统(即AI模型)的输入(即查询内容)、输出(即输出的标签或者分数)和其他外部信息(例如网络类型、网络结构等),推测出该机器学习系统的网络参数。模型窃取攻击会造成一些安全问题,例如知识产权的窃取、数据泄露等。样本收集和训练AI模型需要耗费大量的计算资源和人力调参,训练出来的AI模型是重要的知识产权。模型窃取攻击会使得AI模型持有者遭受财产损失。另外,攻击者根据被窃取的AI模型,进行推理攻击会造成训练样本中的个人数据泄露。例如通过推断特定人员是否存在于训练某种疾病网络的训练样本中,从而可以判断受害人是否患有该疾病。因此,一套行之有效的AI模型防窃取技术对机器学习服务商来说尤为重要。
为防止AI模型的参数被窃取,Kesarwani等人提出了一种基于监测用户查询记录的窃取风险系统。该窃取风险系统实现的一种监控方法是通过监测用户的查询在特征空间的覆盖率来发出高窃取风险预警。在该监控方法中,该窃取风险系统根据用户发起的查询历史,计算出整体的特征覆盖区域;当个体的覆盖率或者多个共同的覆盖率达到预设上限,系统就会发出高窃取风险预警。然而,在该监控方法至少存在以下缺点:1)需要假设用户合谋的情况,因此要同时考虑多个用户查询分布且要并发处理,复杂度高;2)主要通过提前中断了可疑用户的服务达到保护,容易产生大量的误报,并且每一个已经返回的查询结果是没有得到保护的。因此,需要研究新的AI模型防窃取方法。
发明内容
本申请实施例公开了一种数据防窃取方法和相关产品,可以有效防止识别模型(一种AI模型)的参数被获取。
第一方面,本申请实施例提供了一种数据防窃取方法,该方法可包括:获取目标数据,该目标数据包括一个或多个计算机可处理的信号;将该目标数据输入至识别模型进行识别处理,得到第一标签;该第一标签为该目标数据所属的标签,该识别处理包括:该识别模型对该目标数据进行特征提取处理以得到第一特征向量;该识别模型根据该第一特征向量,预测得到该第一标签;在确定存在第二特征向量的情况下,输出目标标签;该第二特征向量为与该第一特征向量之间的距离小于第一阈值的特征向量,且其经由该识别模型预测得到的第二标签与该第一标签不同;该目标标签为对该第一标签进行扰动处理得到的标签。
本申请的执行主体可以是数据处理装置,例如服务器、终端设备等。由于目前的很多AI模型攻击都是通过比较AI模型的决策边界上的输出标签来确定AI模型的精确参数。因此数据处理装置可通过扰动这部分的输出标签(即决策边界上的输出标签)达到保护AI模型的目的。对于大部分监督学习下训练的识别模型而言,决策边界是特征空间上的一个临界位置,该临界位置两边的特征具有不同的标签。在高维空间中,AI模型的决策边界以超平面或者超曲面的形式呈现。下面借助边界敏感区(Boundary-Sensitive Zone)来说明数据处理装置需要对哪一部分输出标签进行扰动。边界敏感区的定义可以如下:
ZΔ={x∈Rd|dist(x,f)<Δ};
其中,ZΔ表示边界敏感区,x表示一个特征向量,dist(x,f)表示特征向量x与决策边界之间的距离,Δ表示第一阈值。可以看出,如果任一特征向量x与决策边界之间的距离小于该第一阈值,就会落入到边界敏感区。特征向量x与决策边界之间距离可以是欧几里得距离、曼哈顿距离等,本申请实施例不作限定。由于实际生活中,往往无法预知决策边界的具体位置,也就无法通过上述公式判断一个特征向量是否位于边界敏感区。可以理解,对于上述第一特征向量来说,若存在上述第二特征向量,则该第一特征向量必定位于边界敏感区内。可见,数据处理装置通过确定是否存在上述第二特征向量,可以快速、准确地确定是否需要对该第一标签进行扰动处理,并且无需知道决策边界。
本申请,数据处理装置在确定存在第二特征向量时,输出目标标签,可以有效避免识别模型的参数被窃取。
在一个可选的实现方式中,该确定存在第二特征向量的情况包括:获得与该第一特征向量之间的距离小于该第一阈值的特征向量,得到第三特征向量;利用该识别模型根据该第三特征向量,预测得到第三标签;在该第一标签和该第三标签不同的情况下,确定该第三特征向量为该第二特征向量。
在该实现方式中,先获得与该第一特征向量之间的距离小于第一阈值的特征向量,得到第三特征向量,再通过比较识别模型根据该第三特征向量预测得到的第三标签与该第一标签,来确定该第三特征向量是否为第二特征向量;可以准确、快速地确定是否存在第二特征向量。
在一个可选的实现方式中,该第一特征向量包括N个特征值,每个特征值对应一个维度,N为大于1的整数;该获得与该第一特征向量之间的距离小于该第一阈值的特征向量,得到第三特征向量包括:将该第一特征向量包括的任一维度的特征值增加或减少第二阈值以得到该第三特征向量;该第二阈值小于该第一阈值。
该第一特征向量可以是包括N个特征值的特征向量。鉴于大部分机器学习任务使用的都是连续的特征值,因此与该第一特征向量之间的距离小于该第一阈值的特征有无数个。也就是说,以第一特征向量为中心半径小于该第一阈值的球空间内有无限数量的特征。为了高效地判断是否存在第二特征向量(即该第一特征向量是否落入边界敏感区),数据处理装置只需要比较该球空间上各个维度的端点特征向量具有的标签与该第一特征向量具有的标签;若至少一个端点特征向量具有的标签与该第一特征向量具有的标签不同,则推断存在第二特征向量(即该第一特征向量位于边界敏感区)。一个特征向量具有的标签是指识别模型根据该特征向量,预测得到的标签。该球空间上某个维度的端点特征向量是指在该球空间内该维度上的特征值最大的特征向量。因此,对于一个维度为d的特征向量,数据处理装置只需要检测2d个端点特征向量即可确定是否存在第二特征向量,数学表达公式如下:
其中,xq表示第一特征向量,(xq±Δi)表示该第一特征向量的端点特征向量,f(xq)表示第一特征向量xq具有的标签,f(xq±Δi)表示该第一特征向量的端点特征向量具有的标签。
在该实现方式中,将第一特征向量包括的任一维度的特征值增加或减少第二阈值以得到第三特征向量,可以快速地得到该第一特征向量的端点特征向量,进而通过有限数量的端点特征向量来确定第一特征向量是否位于边界敏感区,计算效率高。
在一个可选的实现方式中,该输出目标标签包括:采用随机算法以第一概率输出该第一标签,以第二概率输出第四标签;该第四标签与该第一标签不同,该第一概率和该第二概率之和为1。
可选的,该第一标签和第四标签中的一个可以是负标签0,另一个可以是正标签1。该第一概率可以是该第二概率可以/>∈为隐私预算。在该实现方式中,若存在第二特征向量,对于由该第一特征向量得到的标签yq,数据处理装置采用随机算法以/>的概率输出真实的yq,以/>的概率输出对yq进行扰动处理得到的标签。数据处理装置可采用如下公式输出目标标签:
其中,A(yq)表示该目标标签,即对第一标签进行扰动处理得到的标签;yq表示第一标签,(1-yq)表示该第一标签翻转的标签。若yq为1,则(1-yq)为0;若yq为0,则(1-yq)为1。其中,1表示正标签,0表示负标签。
在该实现方式中,以一定的概率输出一个错误的标签,使得攻击者无法通过该标签来推断识别模型的参数。
在一个可选的实现方式中,该随机算法提供ε-差分隐私保护;其中,参数ε称为隐私保护预算。
差分隐私:设有随机算法M,PM为M所有可能的输出构成的集合。对于任意两个邻近数据集D和D’以及PM的任何子集SM,若算法M满足:Pr[M(D)∈SM]<=exp(ε)*Pr[M(D’)∈SM],则称算法M提供ε-差分隐私保护,其中参数ε称为隐私保护预算。其中,Pr[]表示发生某一事件的概率。算法M通过对输出结果的随机化来提供隐私保护,同时通过参数ε来保证在数据集中删除任一记录时,算法输出统一结果的概率不发生显著变化。
为了衡量噪声的程度,在基于差分隐私的表示方法上,该实现方式中提出了边界差分隐私(Boundary Differential Privacy,BDP)的标准,如下定义:
其中,参数ε为隐私保护预算,A(y1)为对标签y1进行扰动处理得到的标签,A(y2)为对标签y2进行扰动处理得到的标签。该不等式保证了攻击者无法有高度信心确定两个扰动后的结果A(y1),A(y2)是否跟真实的结果y1,y2一致,因此不能够直接根据标签翻转的方法来搜寻决策边界。另外,数据处理装置可根据隐私保护预算ε来相应的设置上述第一概率和上述第二概率,灵活性高。
边界差分隐私是指一种用于保护AI模型(也称机器学习模型)的决策边界的隐私标准。若一个隐私预算为ε的随机算法满足上述BDP的定义,则称该算法满足ε-BDP。该实现方式中采用的随机算法满足公式BDP的定义,即该随机算法满足ε-BDP。
在该实现方式中,采用满足严格的差分隐私定义的随机算法对标签进行扰动处理,使得攻击者不能够直接根据标签翻转的方法来搜寻边界,安全性高、灵活性高。
在一个可选的实现方式中,该将目标数据输入至识别模型进行识别处理,得到第一标签之后,该方法还包括:在确定未存在该第二特征向量的情况下,输出该第一标签。
未存在第二特征向量,表明攻击者利用该第一标签不能窃取识别网络的参数,即表明目标数据是一个安全的数据。在该实现方式中,在未存在第二特征向量时,数据处理装置输出正确的标签,以便满足用户(非攻击者)的需求。
在一个可选的实现方式中,该将目标数据输入至识别模型进行识别处理,得到第一标签之前,该方法还包括:查询历史记录数据库中是否存在该目标数据的历史处理记录,该历史处理记录包括该目标数据所属的标签;若否,执行该将目标数据输入至识别模型进行识别处理,得到第一标签的操作。
当历史记录数据库中存在目标数据的历史处理记录时,直接给用户返回缓存的历史结果以防止攻击者通过多次询问同一个数据来确定扰动处理方式,并且不需要对该目标数据进行识别处理。当该历史记录数据库中不存在目标数据的历史处理记录时,利用识别模型对该目标数据进行识别处理,并输出相应的标签。
在该实现方式中,通过查询历史记录数据库中是否存在目标数据的历史处理记录,可以防止攻击者通过多次询问同一个数据来确定扰动处理方式,并且不需要对该目标数据进行识别处理。
在一个可选的实现方式中,该一个或多个计算机可处理的信号包括:语音信号、文本信号或图像信号中的至少一项。
第二方面,本申请实施例提供了另一种数据防窃取方法,该方法可包括:将目标图像输入至识别模型进行识别处理,得到第一标签;该第一标签为该目标图像所属的标签,该识别处理包括:该识别模型对该目标图像进行特征提取处理以得到第一特征向量;该识别模型根据该第一特征向量,预测得到该第一标签;在确定存在第二特征向量的情况下,输出目标标签;该第二特征向量为与该第一特征向量之间的距离小于第一阈值的特征向量,且其经由该识别模型预测得到的第二标签与该第一标签不同;该目标标签为对该第一标签进行扰动处理得到的标签。
本申请,数据处理装置在确定存在第二特征向量时,输出目标标签,可以有效避免识别模型的参数被窃取。
在一个可选的实现方式中,该将目标图像输入至识别模型进行识别处理,得到第一标签之前,该方法还包括:接收来自终端设备的该目标图像;该输出目标标签包括:向该终端设备发送该目标标签。
在一个可选的实现方式中,该确定存在第二特征向量的情况包括:获得与该第一特征向量之间的距离小于该第一阈值的特征向量,得到第三特征向量;利用该识别模型根据该第三特征向量,预测得到第三标签;在该第一标签和该第三标签不同的情况下,确定该第三特征向量为该第二特征向量。
在该实现方式中,先获得与该第一特征向量之间的距离小于第一阈值的特征向量,得到第三特征向量,再通过比较识别模型根据该第三特征向量预测得到的第三标签与该第一标签,来确定该第三特征向量是否为第二特征向量;可以准确、快速地确定是否存在第二特征向量。
在一个可选的实现方式中,该第一特征向量包括N个特征值,每个特征值对应一个维度,N为大于1的整数;该获得与该第一特征向量之间的距离小于该第一阈值的特征向量,得到第三特征向量包括:将该第一特征向量包括的任一维度的特征值增加或减少第二阈值以得到该第三特征向量;该第二阈值小于该第一阈值。
在该实现方式中,将第一特征向量包括的任一维度的特征值增加或减少第二阈值以得到第三特征向量,可以快速地得到该第一特征向量的端点特征向量,进而通过有限数量的端点特征向量来确定第一特征向量是否位于边界敏感区,计算效率高。
在一个可选的实现方式中,该输出目标标签包括:采用随机算法以第一概率向该终端设备发送该第一标签,以第二概率向该终端设备发送第四标签;该第四标签与该第一标签不同,该第一概率和该第二概率之和为1。
在该实现方式中,以一定的概率输出一个错误的标签,使得攻击者无法通过该标签来推断识别模型的参数。
在一个可选的实现方式中,该随机算法提供ε-差分隐私保护;其中,参数ε称为隐私保护预算。
在该实现方式中,采用满足严格的差分隐私定义的随机算法对标签进行扰动处理,使得攻击者不能够直接根据标签翻转的方法来搜寻边界,安全性高、灵活性高。
在一个可选的实现方式中,该将目标图像输入至识别模型进行识别处理,得到第一标签之后,该方法还包括:在确定未存在该第二特征向量的情况下,输出该第一标签。
在该实现方式中,在未存在第二特征向量时,数据处理装置输出正确的标签,以便满足用户(非攻击者)的需求。
在一个可选的实现方式中,该将目标图像输入至识别模型进行识别处理,得到第一标签之前,该方法还包括:查询历史记录数据库中是否存在该目标图像的历史处理记录,该历史处理记录包括该目标图像所属的标签;若否,执行该将目标图像输入至识别模型进行识别处理,得到第一标签的操作。
在该实现方式中,通过查询历史记录数据库中是否存在目标图像的历史处理记录,可以防止攻击者通过多次询问同一个图像来确定扰动处理方式,并且不需要对该目标图像进行识别处理。
第三方面,本申请实施例提供了一种数据处理装置,该装置包括:获取单元,用于获取目标数据,所述目标数据包括一个或多个计算机可处理的信号;输入单元,用于将目标图像输入至识别处理单元;所述识别处理单元,用于采用识别模型对所述目标数据进行识别处理,得到第一标签;所述第一标签为所述目标数据所属的标签,所述识别处理包括:所述识别模型对所述目标数据进行特征提取处理以得到第一特征向量;所述识别模型根据所述第一特征向量,预测得到所述第一标签;输出单元,用于在确定单元确定存在第二特征向量的情况下,输出目标标签;所述第二特征向量为与所述第一特征向量之间的距离小于第一阈值的特征向量,且其经由所述识别模型预测得到的第二标签与所述第一标签不同;所述目标标签为对所述第一标签进行扰动处理得到的标签。
在一个可选的实现方式中,所述确定单元,具体用于获得与所述第一特征向量之间的距离小于所述第一阈值的特征向量,得到第三特征向量;所述识别处理单元,还用于根据所述第三特征向量,预测得到第三标签;所述确定单元,具体用于在所述第一标签和所述第三标签不同的情况下,确定所述第三特征向量为所述第二特征向量。
在一个可选的实现方式中,所述第一特征向量包括N个特征值,每个特征值对应一个维度,N为大于1的整数;所述确定单元,具体用于将所述第一特征向量包括的任一维度的特征值增加或减少第二阈值以得到所述第三特征向量;所述第二阈值小于所述第一阈值。
在一个可选的实现方式中,所述输出单元,具体用于采用随机算法以第一概率输出所述第一标签,以第二概率输出第四标签;所述第四标签与所述第一标签不同,所述第一概率和所述第二概率之和为1。
在一个可选的实现方式中,所述随机算法提供ε-差分隐私保护;其中,参数ε称为隐私保护预算。
在一个可选的实现方式中,所述输出单元,还用于在所述确定单元确定未存在所述第二特征向量的情况下,输出所述第一标签。
在一个可选的实现方式中,所述装置还包括:查询单元,用于查询历史记录数据库中是否存在所述目标数据的历史处理记录,所述历史处理记录包括所述目标数据所属的标签;所述识别处理单元,具体用于在所述查询单元未查询到所述目标数据的历史处理记录的情况下,对所述目标数据进行识别处理,得到所述第一标签。
在一个可选的实现方式中,所述一个或多个计算机可处理的信号包括:语音信号、文本信号或图像信号中的至少一项。
第四方面,本申请实施例提供了另一种数据处理装置,该装置包括:输入单元,用于将目标图像输入至识别处理单元;所述识别处理单元,用于采用识别模型对所述目标图像进行识别处理,得到第一标签;所述第一标签为所述目标图像所属的标签,所述识别处理包括:所述识别模型对所述目标图像进行特征提取处理以得到第一特征向量;所述识别模型根据所述第一特征向量,预测得到所述第一标签;输出单元,用于在确定单元在存在第二特征向量的情况下,输出目标标签;所述第二特征向量为与所述第一特征向量之间的距离小于第一阈值的特征向量,且其经由所述识别模型预测得到的第二标签与所述第一标签不同;所述目标标签为对所述第一标签进行扰动处理得到的标签。
在一个可选的实现方式中,所述装置还包括:接收单元,用于接收来自终端设备的所述目标图像;所述输出单元,具体用于向所述终端设备发送所述目标标签。
在一个可选的实现方式中,所述确定单元,具体用于获得与所述第一特征向量之间的距离小于所述第一阈值的特征向量,得到第三特征向量;所述识别处理单元,还用于利用所述识别模型根据所述第三特征向量,预测得到第三标签;所述确定单元,具体用于在所述第一标签和所述第三标签不同的情况下,确定所述第三特征向量为所述第二特征向量。
在一个可选的实现方式中,所述输出单元,具体用于采用随机算法以第一概率向所述终端设备发送所述第一标签,以第二概率向所述终端设备发送第四标签;所述第四标签与所述第一标签不同,所述第一概率和所述第二概率之和为1。
在一个可选的实现方式中,该随机算法提供ε-差分隐私保护;其中,参数ε称为隐私保护预算。
在一个可选的实现方式中,所述输出单元,还用于在所述确定单元确定未存在该第二特征向量的情况下,输出该第一标签。
在一个可选的实现方式中,所述装置还包括:查询单元,用于查询历史记录数据库中是否存在该目标图像的历史处理记录,该历史处理记录包括该目标图像所属的标签;所述识别处理单元,具体用于在所述查询单元未查询到所述目标图像的历史处理记录的情况下,对所述目标图像进行识别处理,得到所述第一标签。
第五方面,本申请实施例提供了一种数据处理装置,该装置包括:存储器以及处理器;该存储器用于存储代码;该处理器通过读取该存储器中存储的该代码以用于执行如下操作:获取目标数据,该目标数据包括一个或多个计算机可处理的信号;将该目标数据输入至识别模型进行识别处理,得到第一标签;该第一标签为该目标数据所属的标签,该识别处理包括:该识别模型对该目标数据进行特征提取处理以得到第一特征向量;该识别模型根据该第一特征向量,预测得到该第一标签;在确定存在第二特征向量的情况下,输出目标标签;该第二特征向量为与该第一特征向量之间的距离小于第一阈值的特征向量,且其经由该识别模型预测得到的第二标签与该第一标签不同;该目标标签为对该第一标签进行扰动处理得到的标签。
在一个可选的实现方式中,该处理器,用于获得与该第一特征向量之间的距离小于该第一阈值的特征向量,得到第三特征向量;利用该识别模型根据该第三特征向量,预测得到第三标签;在该第一标签和该第三标签不同的情况下,确定该第三特征向量为该第二特征向量。
在一个可选的实现方式中,该第一特征向量包括N个特征值,每个特征值对应一个维度,N为大于1的整数;该处理器,用于将该第一特征向量包括的任一维度的特征值增加或减少第二阈值以得到该第三特征向量;该第二阈值小于该第一阈值。
在一个可选的实现方式中,该处理器,用于采用随机算法以第一概率输出该第一标签,以第二概率输出第四标签;该第四标签与该第一标签不同,该第一概率和该第二概率之和为1。
在一个可选的实现方式中,该随机算法提供ε-差分隐私保护;其中,参数ε称为隐私保护预算。
在一个可选的实现方式中,该处理器,还用于在确定未存在该第二特征向量的情况下,输出该第一标签。
在一个可选的实现方式中,该处理器,还用于查询历史记录数据库中是否存在该目标数据的历史处理记录,该历史处理记录包括该目标数据所属的标签;若否,执行该将目标数据输入至识别模型进行识别处理,得到第一标签的操作。
在一个可选的实现方式中,该一个或多个计算机可处理的信号包括:语音信号、文本信号或图像信号中的至少一项。
第六方面,本申请实施例提供了另一种数据处理装置,该装置包括:存储器以及处理器;该存储器用于存储代码;该处理器通过读取该存储器中存储的该代码以用于执行如下操作:将目标图像输入至识别模型进行识别处理,得到第一标签;该第一标签为该目标图像所属的标签,该识别处理包括:该识别模型对该目标图像进行特征提取处理以得到第一特征向量;该识别模型根据该第一特征向量,预测得到该第一标签;在确定存在第二特征向量的情况下,输出目标标签;该第二特征向量为与该第一特征向量之间的距离小于第一阈值的特征向量,且其经由该识别模型预测得到的第二标签与该第一标签不同;该目标标签为对该第一标签进行扰动处理得到的标签。
在一个可选的实现方式中,该装置还包括:接收器,用于接收来自终端设备的该目标图像;发送器,用于在该处理器的控制下向该终端设备发送该目标标签。
在一个可选的实现方式中,该处理器,用于获得与该第一特征向量之间的距离小于该第一阈值的特征向量,得到第三特征向量;利用该识别模型根据该第三特征向量,预测得到第三标签;在该第一标签和该第三标签不同的情况下,确定该第三特征向量为该第二特征向量。
在一个可选的实现方式中,该第一特征向量包括N个特征值,每个特征值对应一个维度,N为大于1的整数;该处理器,用于将该第一特征向量包括的任一维度的特征值增加或减少第二阈值以得到该第三特征向量;该第二阈值小于该第一阈值。
在一个可选的实现方式中,该发送器,用于在该处理器的控制下采用随机算法以第一概率向该终端设备发送该第一标签,以第二概率向该终端设备发送第四标签;该第四标签与该第一标签不同,该第一概率和该第二概率之和为1。
在一个可选的实现方式中,该随机算法提供ε-差分隐私保护;其中,参数ε称为隐私保护预算。
在一个可选的实现方式中,处理器,还用于在确定未存在该第二特征向量的情况下,输出该第一标签。
在一个可选的实现方式中,处理器,还用于查询历史记录数据库中是否存在该目标图像的历史处理记录,该历史处理记录包括该目标图像所属的标签;若否,执行该将目标图像输入至识别模型进行识别处理,得到第一标签的操作。
第七方面,本申请实施例提供了一种计算机可读存储介质,该计算机存储介质存储有计算机程序,该计算机程序包括程序指令,该程序指令当被处理器执行时使该处理器执行上述第一方面至第二方面以及可选的实现方式的方法。
第八方面,本申请实施例提供了一种芯片,该芯片包括处理器与数据接口,该处理器通过该数据接口读取存储器上存储的指令,执行如上述第一方面至第二方面以及任一种可选的实现方式的方法。
第九方面,本申请实施例提供了一种计算机程序产品,该计算机程序产品包括程序指令,该程序指令当被处理器执行时使该处理器执行上述第一方面至第二方面以及任一种可选的实现方式的方法。
附图说明
为了更清楚地说明本申请实施例或背景技术中的技术方案,下面将对本申请实施例或背景技术中所需要使用的附图进行说明。
图1为本申请实施例提供的一种训练AI模型和模型窃取攻击的示意图;
图2为本申请实施例提供的一种系统架构示意图;
图3为本申请实施例提供的一种数据防窃取方法流程图;
图4为一种二维空间下识别模型的决策边界示意图;
图5为本申请实施例提供保护层执行的代码的示意图;
图6为本申请实施例提供的另一种数据防窃取方法流程图;
图7为本申请实施例提供的又一种数据防窃取方法流程图;
图8为本申请实施例提供的一种数据处理装置的结构示意图;
图9为本申请实施例提供的另一种数据处理装置的结构示意图;
图10为本申请实施例提供的又一种数据处理装置的结构示意图;
图11为本申请实施例提供的又一种数据处理装置的结构示意图。
具体实施方式
本申请的说明书实施例和权利要求书及上述附图中的术语“第一”、“第二”、和“第三”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元。方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。“和/或”用于表示在其所连接的两个对象之间选择一个或全部。例如“A和/或B”表示A、B或A+B。
随着人工智能的快速发展,机器学习系统逐渐开始在语音识别、图像处理、医疗决策、系统安全等领域发挥重大作用。目前,许多机器学习服务提供商通过收集大量的标注数据来训练一个高效的AI模型,并将AI模型的预测服务封装成特定接口供外部调用。例如阿里云图像识别,腾讯云文字识别,百度AI语音识别等等。然而,AI模型在提供高效的预测服务(例如图像识别)的同时,也存在一些安全问题,例如模型窃取攻击。模型窃取攻击是指攻击者通过分析机器学习系统(即AI模型)的输入(即查询内容)、输出(即输出的标签或者分数)和其他外部信息(例如网络类型、网络结构等),推测出该机器学习系统的网络参数,即AI模型的参数。
图1为本申请实施例提供的一种训练AI模型和模型窃取攻击的示意图。图1中,101部分为服务端利用训练样本集训练得到AI模型以及将该AI模型的预测服务封装成特定接口供外部调用的过程。如图1所示,服务端利用训练样本集训练得到AI模型以及将该AI模型的预测服务封装成特定接口供外部调用的过程如下:数据拥有者将训练数据上传至服务端以便该服务器得到包括多个训练样本的训练样本集;该服务器利用该训练样本集训练初始化的AI模型以得到训练好的目标AI模型;将该目标AI模型的预测服务封装成特定接口供外部调用。服务端可以是服务器、终端设备等。训练样本可以是图像数据、文本数据以及语音数据等,该目标AI模型的预测服务可以是图像识别、语音识别、文本识别、文本翻译等。应理解,服务端利用不同的训练样本训练初始化的AI模型,可得到提供不同预测服务的目标AI模型。图1中,102部分为攻击端实现模型窃取攻击的过程。如图1所示,攻击端实现模型窃取攻击的过程如下:1)构造随机样本(即输入数据Xadv)并通过预测接口进行查询,以及根据该预测接口的查询结果(即输出数据Yadv)修改随机样本中单个特征值(Feature),并重新查询;2)攻击端通过对比查询结果来分析AI模型的决策边界,并在该决策边界附近的随机样本中继续修改并重新查询;3)在积累大量包含了边界信息的查询(即输入数据)以及对应的查询结果后,通过解数学方程或者重新训练的方法,精确地提取AI模型的参数。其中,1)和2)为图1中收集输入数据和输出数据的过程,通过收集输入数据和输出数据可得到包含了边界信息的查询以及对应的查询结果;3)为图1中提取AI模型的参数的过程。这里查询是指输入数据,查询结果是指输出数据,查询的操作是将输入数据输入至服务端。攻击端在窃取到AI模型的参数之后,可实现模型窃取攻击,模型闪避攻击,模型推理攻击等攻击行为。这些攻击行为很可能会造成一些严重后果,例如致使AI模型持有者遭受财产损失、隐私数据泄露等。因此,需要研究数据防窃取方法,即防止AI模型的参数被窃取的方法。
本申请实施例提供的数据防窃取方法可应用到任何包括分类器或分类模型的识别模型(一种AI模型)。本申请实施例提供的数据防窃取方法能够应用在图像识别、语音识别、文本识别、文本翻译等场景。下面分别对本申请实施例提供的数据防窃取方法在图像识别场景和语音识别场景中的应用进行简单的介绍。
图像识别场景;服务器识别出待识别图像中包括的各对象的标签。举例来说,服务器利用一个动物图像识别网络来识别每个图像中包括的动物。
语音识别场景:终端设备(例如手机)识别用户输入的语音数据。举例来说,用户通过手机输入语音数据,该手机将该语音数据转换为文字并发送给相应的设备。
上述应用场景中,服务器和终端设备在利用识别模型提供图像识别、语音识别等预测服务的同时,可以实施本申请实施例提供的数据防窃取方法,以防止识别模型的参数被窃取。下面首先介绍本申请实施例提供的一种系统架构示意图,本申请实施例提供的数据防窃取方法可应用于该系统架构。
图2为本申请实施例提供的一种系统架构示意图。如图2所示,该系统架构可包括:识别模型201、边界检测模块202以及扰动模块203。图2中的系统架构是在识别模型201(对应于现有的机器学习模型接口)的基础上增加了边界检测模块202以及扰动模块203。识别模型201,用于对输入数据进行识别处理,得到原始输出。举例来说,识别模型201是一种图像识别模型,则该识别模型201用于对输入图像(对应于输入数据)进行图像识别,得到图像识别结果(对应于原始输出)。边界检测模块202,用于检测输入数据是否为敏感数据或敏感查询。可选的,边界检测模块202通过对该输入数据进行特征提取处理得到的特征来确定该输入数据是否为敏感数据或敏感查询。后续再详述边界检测模块202执行的具体操作。扰动模块203,用于在边界检测结果指示输入数据为敏感数据的情况下,对原始输出进行扰动处理,并输出最终输出(即对该原始输出进行扰动处理得到的输出);在边界检测结果指示输入数据不为敏感数据的情况下,直接输出该原始输出。举例来说,识别模块对某个图像进行识别处理,得到原始标签;扰动模块203,用于在边界检测结果指示输入数据为敏感数据的情况下,对该原始标签进行扰动处理,并输出扰动处理后的标签。后续再详述扰动模块203对该原始输出进行扰动处理的实现方式。图2中的识别模型架构可应用于服务器以保护服务器中的识别模型的参数不被窃取,也可以应用于终端设备以终端设备中的识别模型的参数不被窃取。边界检测模块202和扰动模块203均与识别模型201的种类和提供的预测服务无关。也就是说,边界检测模块202和扰动模块203均为插件式模块,可直接应用于任何机器学习系统,无需根据识别模型的种类或者提供的预测服务进行重新设计。接下来结合附图来描述本申请实施例提供的一种数据防窃取方法。
图3为本申请实施例提供的一种数据防窃取方法流程图。如图3所示,该方法可包括:
301、数据处理装置获取目标数据。
该目标数据包括一个或多个计算机可处理的信号。数据处理装置可以是服务器;也可以是终端设备,例如手机,平板电脑,笔记本电脑,增强现实设备(augmented reality,AR),虚拟现实设备(virtual reality,VR),车载终端等;还可以是其他采用AI网络提供预测服务的计算机设备。在一些实施例中,数据处理装置为服务器,数据处理装置获取目标数据可以是该数据处理装置接收到来自终端设备的该目标数据,也可以是从其他设备(例如某个服务器)获取该目标数据。该目标数据可以是图像数据、文本数据、语音数据等。在一些实施例中,数据处理装置为终端设备,例如手机,数据处理装置获取目标数据可以是该数据处理装置通过输入输出接口接收用户输入的该目标数据,例如用户输入的语音数据、图像数据等。在一些实施例中,数据处理装置为计算机设备,数据处理装置获取目标数据可以是该数据处理装置接收通过可移动磁盘或数据线导入的该目标数据,也可以是通过输入设备(例如键盘和音频设备等)接收的该目标数据。
302、将目标数据输入至识别模型进行识别处理,得到第一标签。
该第一标签为该目标数据所属的标签,该识别处理包括:该识别模型对该目标数据进行特征提取处理以得到第一特征向量;该识别模型根据该第一特征向量,预测得到该第一标签。该识别模型根据该第一特征向量,预测该第一标签可以是该识别模型中的分类器(例如全连接层)对该第一特征向量进行分类,得到该第一标签。在图像识别、物体检测等场景下,数据处理装置的输入数据(即目标数据)可以为图像宽乘以高个3维数组,该数组代表图像的RGB颜色值,即一维对应R值、一维对应G值、一维对应B值。数据处理装置可以重新调整图像的比例(rescale image),使其输入的数组变成m*n*3的数组,其中m,n是该识别模型的固定输入数据大小。数据处理装置的输出可以为图像的标签、或待检测物体的坐标与分类。在语义分析、机器翻译的场景下,数据处理装置的输入数据(即目标数据)可以为一段文字,而输入到识别模型的数据可以是每个单词(英文等单词基语言)对应的多维数组(每个单词通过word to vec等现有算法,计算出对应的数组),输出可以为语义标签(如这句话的心情、正负面情绪)或者对应的翻译。也就是说,数据处理装置可以先对输入的目标数据进行预处理(例如调整图像的比例),再将预处理后的数据输入至识别模型进行识别处理,输出标签。
可选的,数据处理装置可以将该目标数据输入至识别模型201进行识别处理,得到该第一标签。一个典型的二分类模型可以表示成:
当数据处理装置获取到输入数据x时,根据已预先训练好的识别模型对该输入数据x进行识别处理,给出输出结果y是1(正标签)还是0(负标签)。识别模型中可以配置有不同种类的分类器,本申请实施例不对该第一标签的类型作限定。举例来说,目标数据为待识别图像,识别模型用于图像识别,第一标签为该待识别图像包括的对象的标签。又举例来说,目标数据为文本图像,识别模型用于文本识别,第一标签为该文本图像中某个文字的标签。可以理解,该第一标签可以是正标签,也可以是负标签,还可以是其他类型的标签。
303、在确定存在第二特征向量的情况下,输出目标标签。
该第二特征向量为与该第一特征向量之间的距离小于第一阈值的特征向量,且其经由该识别模型预测得到的第二标签与该第一标签不同;该目标标签为对该第一标签进行扰动处理得到的标签。本申请实施例的核心思想是重点保护靠近决策边界的输出结果。下面借助边界敏感区(Boundary-Sensitive Zone)来说明数据处理装置在确定存在第二特征向量的情况下,输出目标标签,可以防止识别模型的参数被窃取的原理。边界敏感区的定义可以如下:
ZΔ={x∈Rd|dist(x,f)<Δ}(2);
其中,ZΔ表示边界敏感区,x表示一个特征向量,dist(x,f)表示特征向量x与决策边界之间的距离,Δ表示第一阈值。可以看出,如果任一特征向量x与决策边界之间的距离小于该第一阈值,就会落入到边界敏感区。特征向量x与决策边界之间距离可以是欧几里得距离、曼哈顿距离等,本申请实施例不作限定。图4为一种二维空间下识别模型的决策边界示意图。在高维空间中,识别模型的决策边界以超平面或者超曲面的形式呈现。如图4所示,401表示决策边界,决策边界401为一个超平面,超平面402和超平面403分别为与决策平面401相距第一阈值的超平面,404指示的距离为该第一阈值,超平面402和超平面403之间的区域为边界敏感区,该边界敏感区不包括超平面402和超平面403。如图4所示,超曲面405表示决策边界,超曲面406和超曲面407分别为与决策边界405相距该第一阈值的超曲面,408指示的距离为该第一阈值,超曲面406和超曲面407之间的区域为边界敏感区,该边界敏感区不包括超曲面406和超曲面407。
由于实际应用中,往往无法预知决策边界的具体位置,也就无法通过上述公式(2)判断一个特征向量是否位于边界敏感区。可以理解,若一个特征向量位于边界敏感区,则必定存在至少一个与该特征向量之间的距离小于该第一阈值,且其经由该识别模型预测得到的标签与该特征向量经由该识别模型预测得到的标签不同。因此,对于上述第一特征向量来说,若存在上述第二特征向量,则该第一特征向量必定位于边界敏感区内。该数据处理装置在确定存在第二特征向量时,输出对该第一标签进行扰动处理得到的目标标签,就可以防止识别模型的参数被窃取。通过这种方式就可以准确地的任一特征向量是否位于边界敏感区。可选的,数据处理装置在确定边界敏感区的情况下,可以采用公式(2)来判断该第一特征向量是否位于边界敏感区。
可选的,步骤303可替换为:在确定未存在第二特征向量的情况下,输出第一标签。可以理解,数据处理装置不对由未位于边界敏感区的特征得到的标签进行扰动处理,而是直接输出该标签,可以快速地输出一个准确的标签。也就是说,数据处理装置仅对由位于边界敏感区的特征得到的标签进行扰动处理,由未位于该边界敏感区的特征得到的标签保持不变,数据处理装置输出的标签大部分都是正确的,因此对识别模型输出标签的影响较小,从而保证服务质量。
本申请实施例中,通过对由位于边界敏感区的特征得到的标签进行扰动处理,可以有效防止识别模型的参数被获取,并且对该识别模型输出的标签影响小、服务质量高。
在实际应用中,由于数据处理装置往往无法预知决策边界的具体位置,该数据处理装置也就无法利用公式(2)来判断各特征向量是否位于边界敏感区。对于上述第一特征向量来说,数据处理装置可以通过判断是否存在第二特征向量,来确定该第一特征向量是否位于边界敏感区。下面介绍确定是否存在第二特征向量的实现方式。
数据处理装置在无法预知决策边界的具体位置时,可采用如下方式来确定第一特征向量位于边界敏感区的情况:边界检测模块202获得与该第一特征向量之间的距离小于第一阈值的第三特征向量,并将该第三特征向量发送给识别模型201;识别模型201根据该第三特征向量,预测得到第三标签,并将该第一标签和第三标签发送给边界检测模块202;边界检测模块202在该第一标签和该第三标签不同的情况下,确定存在第二特征向量,即确定该第一特征向量位于边界敏感区。应理解,边界检测模块202和识别模型201共同来确定是否存在第二特征向量。
与第一特征向量之间的距离小于第一阈值的特征向量均位于以该第一特征向量xq为中心建立的球空间内。因此,确定是否存在第二特征向量的方式可以是判断该球空间内是否存在至少一个经由识别模型预测处理得到的标签与第一标签不同的特征向量。这种方式的数学表达式如下:
特征向量x′表示与第一特征向量xq之间的距离小于第一阈值Δ的一个特征向量,B(xq,Δ)表示与特征向量x′之间的距离小于该第一阈值的特征向量的集合,f(x′)表示特征向量x′具有的标签,f(xq)表示特征向量xq具有的标签。任一个满足公式(3)的特征向量均为第二特征向量。利用该识别模型根据该第三特征向量,预测得到第三标签的方式可以与该识别模型根据该第一特征向量,预测得到该第一标签的方式相同。应理解,数据处理装置可采用多种方式来可判断是否存在与该第一特征向量距离小于第一阈值且具有的标签与该第一特征向量具有的标签不同的第二特征向量,本申请实施例不作限定。
在该实现方式中,先获得与该第一特征向量之间的距离小于第一阈值的特征向量,得到第三特征向量,再通过比较识别模型根据该第三特征向量预测得到的第三标签与该第一标签,来确定该第三特征向量是否为第二特征向量;可以准确、快速地确定是否存在第二特征向量。
鉴于大部分机器学习任务使用的都是连续的特征值,因此与该第一特征向量之间的距离小于第一阈值的特征向量有无数个。也就是说,以该第一特征向量为中心半径小于该第一阈值的球空间内有无限数量的特征向量。由于与该第一特征向量之间的距离小于第一阈值的特征向量有无数个,导致难以快速判断是否存在第二特征向量。在实际应用中,数据处理装置可以通过有限数量的特征向量来确定是否存在第二特征向量,以达到快速判断是否存在第二特征向量的目的。举例来说,数据处理装置可以随机生成F个与该第一特征向量之间的距离小于该第一阈值的特征向量;若该F个特征向量中不存在第二特征向量,则确定不存在第二特征向量。F可以为6、8、10、100、1000等。应理解,数据处理装置还可以采用其他方式来通过有限数量的特征向量来确定是否存在第二特征向量,本申请实施例不作限定。本申请实施例提供了一种通过有限个端点特征向量来判断是否存在第二特征向量的方式。
可选的,数据装置可采用如下方式确定是否存在第二特征向量:边界检测模块202获得该第一特征向量的2d个端点特征向量,并将该2d个端点特征向量发送给识别模型201;识别模型201分别对各端点特征向量进行预测处理以得到2d个标签,并将该2d个标签发送给边界检测模块202;边界检测模块202在该2d个标签均与第一标签相同的情况下,确定不存在第二特征向量,即该第一特征向量未位于边界敏感区;边界检测模块202在该2d个标签不均与该第一标签相同的情况下,确定存在第二特征向量,即该第一特征向量位于该边界敏感区。边界检测模块202输出的边界检测结果,用于指示目标数据为敏感数据或不为敏感数据,即用于指示存在第二特征向量或不存在第二特征向量。其中,该第一特征向量的维度为d,该2d个标签与该2d个端点特征向量一一对应,d为大于1的整数。该第一特征向量的维度为d表明该第一特征向量包括d个特征值,每个特征值对应一个维度。可选的,数据处理装置依次采用识别模型对第一特征向量的各端点特征向量进行预测处理,并比较每次得到的标签和第一标签。若识别模型对某个端点特征向量进行预测处理得到的标签与该第一标签不同,则停止对其他的端点特征进行预测处理,并确定存在第二特征向量。若识别模型对各端点特征向量进行预测处理得到的标签均与该第一标签相同,则确定不存在第二特征向量。
上述第二特征向量可以是该第一特征向量的一个端点特征向量。该获得与该第一特征向量之间的距离小于第一阈值的第三特征向量可以是:边界检测模块202将该第一特征向量包括的任一维度的特征值增加或减少第二阈值以得到该第三特征向量;该第二阈值小于该第一阈值。可以理解,该第一特征向量在每个维度对应两个端点特征向量,将该第一特征向量在某个维度上的特征值增加或减少该第二阈值可以得到该第一特征向量在该维度对应的一个端点特征向量。因此,维度为d的第一特征向量的端点特征有2d个。举例来说,第一特征向量为一个三维向量(A,B,C),A、B、C分别为该第一特征向量在3个维度上的特征值,该第一特征向量的6个特征端点向量分别为(A-Δi,B,C)、(A+Δi,B,C)、(A,B-Δi,C)、(A,B+Δi,C)、(A,B,C-Δi)以及(A,B,C+Δi)。
可选的,确定是否存在第二特征向量的数学表达公式如下:
其中,xq表示第一特征向量,(xq±Δi)表示该第一特征向量的端点特征向量,f(xq)表示第一特征向量xq具有的标签,f(xq±Δi)表示该第一特征向量的端点特征向量具有的标签,d为大于1的整数。若该第一特征向量的某个端点特征向量满足公式(4),则存在第二特征向量。
在该实现方式中,将第一特征向量包括的任一维度的特征值增加或减少第二阈值以得到该第一特征向量的端点特征向量,进而通过有限数量的端点特征向量来判断是否存在第二特征向量,计算效率高。
前述实施例未描述如何输出目标标签的实现方式。下面介绍本申请实施例提供的一种输出目标标签的实现方式。
数据处理装置输出目标标签可以是:扰动模块203采用随机算法以第一概率输出该第一标签,以第二概率输出第四标签。该第四标签和该第一标签不同,该第一概率和该第二概率之和为1。可选的,扰动模块203在接收到指示存在第二特征向量的边界检测结果之后,采用随机算法以第一概率输出该第一标签,以第二概率输出第四标签。在一些实施例中,数据处理装置为服务器,该数据处理装置可以以第一概率向终端设备发送第一标签,以第二概率向该终端设备发送该第四标签。在一些实施例中,数据处理装置为终端设备,例如手机等,该数据处理装置可以以该第一概率显示该第一标签,以该第二概率显示该第四标签。
可选的,该第一标签和第四标签中的一个可以是负标签0,另一个可以是正标签1。可选的,该第四标签为该第一特征向量的某个端点特征向量具有的标签且与该第一标签不同。举例来说,数据处理装置利用识别模型对该第一特征向量的某个端点特征向量进行预测处理得到该第四标签,则以第一概率输出该第一标签,以第二概率输出该第四标签。该第一概率可以是该第二概率可以是/>∈为隐私预算。在该实现方式中,以第二概率输出一个错误的标签,使得攻击者无法通过该标签来推断识别模型的参数。在一些实施例中,若存在第二特征向量,数据处理装置采用该随机算法以/>的概率输出真实的标签yq,以/>的概率输出对标签yq进行扰动处理得到的标签。数据处理装置中的扰动模块203可采用如下公式输出目标标签:
其中,A(yq)表示该目标标签,即对第一标签进行扰动处理得到的标签;yq表示第一标签,(1-yq)表示该第一标签翻转的标签。若yq为1,则(1-yq)为0;若yq为0,则(1-yq)为1。其中,1表示正标签,0表示负标签。
数据处理装置中的扰动模块203还可采用如下公式输出目标标签:
其中,A(yq)表示该目标标签,即对第一标签进行扰动处理得到的标签;yq表示第一标签,y′q表示任一个与yq不同的标签,yq不为1,也不为1。例如y′q为该第一特征向量的某个端点特征向量具有的标签且与该第一标签不同。
可选的,该随机算法提供ε-差分隐私保护;其中,参数ε称为隐私保护预算。
为了衡量噪声的程度,在基于差分隐私的表示方法上,该实现方式中提出了边界差分隐私的标准,如下定义:
其中,参数ε为隐私保护预算,A(y1)为采用公式(5)或(6)对标签y1进行扰动处理得到的标签,A(y2)为采用公式(5)或(6)对标签y2进行扰动处理得到的标签。该不等式保证了攻击者无法有高度信心确定两个扰动后的结果A(y1),A(y2)是否跟真实的结果y1,y2一致,因此不能够直接根据标签翻转的方法来搜寻决策边界。另外,数据处理装置可根据隐私保护预算ε来相应的设置上述第一概率和上述第二概率,灵活性高。数据处理装置采用满足严格的差分隐私定义的随机算法对标签进行扰动处理,使得攻击者不能够直接根据标签翻转的方法来搜寻边界,安全性高、灵活性高。
为防止攻击者通过多次询问同一个数据来确定扰动处理方式,数据处理装置可以存储其每次识别处理的数据以及识别处理该数据的输出结果,并在对其输入数据进行识别处理之前,查询历史记录数据库中是否存在该输入数据,进而根据查询结果直接输出存储的输出结果或对该输入数据进行识别处理。一种可选的实现方式如下:数据处理装置在将目标数据输入至识别模型进行识别处理,得到第一标签之前,查询历史记录数据库中是否存在该目标数据的历史处理记录,该历史处理记录包括该目标数据所属的标签;若否,执行该将目标数据输入至识别模型进行识别处理,得到第一标签的操作;若是,输出该目标数据的历史处理记录中的输出结果(即之前输出的结构)。当历史记录数据库中存在目标数据的历史处理记录时,直接给用户返回缓存的历史结果以防止攻击者通过多次询问同一个数据来确定扰动处理方式,并且不需要对该目标数据进行识别处理。当该历史记录数据库中不存在目标数据的历史处理记录时,利用识别模型对该目标数据进行识别处理,并输出相应的标签。
在一些实施例中,识别模型中具有边界差分隐私约束的保护层(BoundaryDifferentially Private Layer,BDPL)。其中,边界检测模块202以及扰动模块203即为识别模型中的保护层。数据处理装置在接收到一个来自用户的新查询(即输入数据)后,如果该查询在该用户的历史记录(对应于历史处理记录)中出现过,该保护层会直接给用户返回缓存的历史结果以防止攻击者通过多次询问同一个查询来确定扰动处理方式。如果该查询没有出现在历史记录里,保护层会进一步利用端点特征向量检测标签翻转,以决定其是否敏感查询问。若出现翻转,保护层就会对原本的查询结果在给定的隐私预算ε下进行扰动,并且在返回给用户的同时缓存到历史记录里。若没有出现翻转,那么真实的查询结果就会被直接返回。对应第一特征向量来说,利用端点特征向量检测标签翻转,以决定其是否敏感查询就是确定是否存在第二特征向量;若存在,则决定其是敏感查询;若不存在,则决定其不是敏感查询。保护层的核心代码参阅图5。图5中,xq表示特征向量,Δ表示边界敏感区参数(即第一阈值),ε为隐私预算,yq是查询结果(即识别处理得到的标签),f()表示识别模型执行的识别处理,端点特征是指端点特征向量,步骤6调用边界随机响应BRR对查询结果yq(即一个标签)扰动成yq′可以是采用公式(5)或公式(6)对yq进行扰动处理。
在该实现方式中,通过查询历史记录数据库中是否存在目标数据的历史处理记录,可以防止攻击者通过多次询问同一个数据来确定扰动处理方式,并且不需要对该目标数据进行识别处理。
下面介绍另一种比图3中的数据防窃取方法更加细化和完善的数据防窃取方法。图6为本申请实施例提供的一种数据防窃取方法流程图。如图6所示,该方法可包括:
601、服务器接收来自终端设备的目标数据。
该服务器可以是上述数据处理装置。该终端设备可以是手机、平板电脑,笔记本电脑等。该目标数据可以是图像数据、语音数据、文本数据等。该终端设备可调用服务器提供的预测接口获取图像识别、语音识别、文字识别等服务。可选的,终端设备在向服务器发送目标数据之前,可接收用户输入的该目标数据。该服务器可通过收发器接收来自该终端设备的该目标数据,并调用预测接口向该终端设备提供图像识别、语音识别、文字识别等服务。该服务器可包括图2所示的系统架构。也就是说,服务器包括识别模型201、边界检测模块202以及扰动模块203。
602、服务器利用识别模型对目标数据进行特征提取处理,得到第一特征向量。
603、服务器利用识别模型根据第一特征向量,预测得到第一标签。
该识别模型可以是图2中的识别模型201。识别模型201可先对输入的该目标数据进行特征提取以得到该第一特征向量,再根据该第一特征向量,预测得到该第一标签。
604、服务器获得第一特征向量的各端点特征向量,并分别确定各端点特征向量具有的标签。
该第一特征向量的维度为d。服务器获得第一特征向量的各端点特征向量可以是:边界检测模块202获得该第一特征向量的2d个端点特征向量。上述分别确定各端点特征向量具有的标签可以是:边界检测模块202将该2d个端点特征向量发送给识别模型201;识别模型201根据该2d个端点特征向量,确定2d个标签。其中,该2d个标签与该2d个端点特征向量一一对应,即每个标签为识别模型201根据该标签对应的端点特征向量确定的。上述分别确定各端点特征向量具有的标签还可以是:边界检测模块202将该2d个端点特征向量发送给识别模型201;识别模型201依次根据该2d个端点特征向量中的每个端点特征向量,确定一个标签,直到得到一个与该第一标签不同的标签。举例来说,第一特征向量的6个端点特征向量分别为端点特征向量1至端点特征向量6;识别模型201可先根据端点特征向量1,预测目标数据所属的标签1;在第一标签和标签1相同时,根据端点特征向量2,预测目标数据所属的标签2;在该第一标签和该标签2不同时,将该标签2发送给边界检测模块202。这样识别模型201在多数情况下仅需要确定一部分端点特征向量具有的特征,而不用确定各端点特征向量具有的特征,可以节省处理时间。
605、服务器判断各端点特征向量具有的标签是否均与第一标签相同。
若是,执行606;若否,执行607。
606、服务器向终端设备输出第一标签。
607、服务器获取一个与第一标签不同的第四标签。
可选的,服务器获取各端点特征向量具有的标签中任一个与该第一标签不同标签,得到第四标签。可选的,该第四标签与各端点特征向量具有的标签均不同。
608、服务器以第一概率向终端设备发送第一标签,以第二概率向终端设备发送第四标签。
服务器以第一概率向终端设备发送第一标签,以第二概率向终端设备发送第四标签可以理解为该服务器对该第一标签进行扰动处理,以避免该终端设备直接通过标签翻转的方法来搜寻边界。
在一些实施例中,目标数据可以是一个待识别图像,第一标签可以是服务器对该待识别图像进行图像识别得到的标签,第四标签为一个与该第一标签不同的标签。举例来说,服务器接收到来自终端设备的一个图像,该服务器利用识别模型对该图像进行识别得到的标签为“猫”(对应于第一标签);该服务器在由该图像得到的特征向量位于边界敏感区时,向该终端设备发送一个错误标签(对应于第四标签);该服务器在由该图像得到的特征向量未位于该边界敏感区时,向该终端设备标签“猫”。错误标签可以是除标签“猫”之外的任意标签。由该图像得到的特征向量可以是服务器利用识别模型对该图像进行特征提取处理得到的特征向量。应理解,假定由该图像得到的特征向量为上述第一特征向量,若在存在第二特征向量时,则向该终端设备发送一个错误标签;若否,向该终端设备标签“猫”。
在一些实施例中,目标数据可以是终端设备向服务器发送的全部数据中的一部分,且该服务器需要确定该目标数据的标签。举例来说,终端设备向服务器发送一个图像,该图像中包括多个字符,目标数据可以是该图像中的一个字符。图6中的方法流程可以是识别图像中的一个字符,并输出该字符的过程。在实际应用中,用户可以通过终端设备将包括多个字符的图像发送给服务器,服务器可利用识别模型对该图像进行文字识别,并向该终端设备发送文字识别结果。文字识别结果包括多个识别出的字符,每个字符为一个标签。也就是说,文字识别结果可以理解为一系列的标签。因此,服务器识别出一个文字以及向终端设备发送该文字的过程可以是图6中方法的一个应用。又举例来说,终端设备向服务器发送一个语音数据,服务器可利识别模型对该语音数据进行语音识别,并向该终端设备发送语音识别结果。该语音识别结果包括多个文字,每个文字可以为一个标签。也就是说,文字识别结果可以理解为一系列的标签。图6中的方法流程可以是服务器对语音数据中的一部分数据进行语音识别得到一个文字,以及输出该文字的过程。可以理解,图6中的方法可以是一个大任务中的一个子任务,该子任务可以是分类任务。例如在文字识别任务中,服务器需要识别出图像中包括的多个字符,图6中的方法流程用于确定每个字符;其中,每个字符为一个标签。又例如在语音识别任务中,语音数据被分为多个部分,图6中的方法可用于确定每个部分的标签。
本申请实施例中,服务器在确定存在第二特征向量时,输出目标标签,可以有效防止识别模型的参数被获取。
下面介绍又一种比图3中的数据防窃取方法更加细化和完善的数据防窃取方法。图7为本申请实施例提供的一种数据防窃取方法流程图。如图7所示,该方法可包括:
701、终端设备接收用户输入的目标数据。
该终端设备可以为上述数据处理装置,该终端设备可以是手机、平板电脑,笔记本电脑等。该目标数据可以是图像数据、语音数据、文本数据等。举例来说,终端设备接收用户输入的语音数据。该终端设备可包括图2所示的系统架构,并可提供图像识别、语音识别、文本识别等预测服务。也就是说,该终端设备包括识别模型201、边界检测模块202以及扰动模块203。
702、终端设备利用识别模型对目标数据进行特征提取处理,得到第一特征向量。
703、终端设备利用识别模型根据第一特征向量,预测得到第一标签。
该识别模型可以是图2中的识别模型201。识别模型201可先对输入的该目标数据进行特征提取以得到该第一特征向量,再根据该第一特征向量预测得到该第一标签。
704、终端设备获得第一特征向量的各端点特征向量,并分别确定各端点特征向量具有的标签。
步骤704的实现方式与步骤604的实现方式类似,这里不再详述。
705、终端设备判断各端点特征向量具有的标签是否均与第一标签相同。
若是,执行706;若否,执行707。步骤705的实现方式与步骤605的实现方式类似。
706、终端设备输出第一标签。
707、终端设备获取一个与第一标签不同的第四标签。
可选的,终端设备获取各端点特征向量具有的标签中任一个与该第一标签不同的标签,得到该第四标签。可选的,该第四标签与各端点特征向量具有的标签均不同。
708、终端设备以第一概率输出第一标签,以第二概率输出第四标签。
在一些实施例中,目标数据可以是一个待识别图像,第一标签可以是终端设备对该待识别图像进行图像识别得到的标签,第四标签为一个与该第一标签不同的标签。举例来说,终端设备接收用户输入的一个图像,利用识别模型对该图像进行识别得到的标签为“猫”(对应于第一标签);该终端设备在由该图像得到的特征向量位于边界敏感区时,输出一个错误标签(对应于参考标签);该终端设备在由该图像得到的特征向量未位于该边界敏感区时,输出标签“猫”。错误标签可以是除标签“猫”之外的任意标签。由该图像得到的特征向量可以是终端设备对该图像进行特征提取处理得到的特征向量。
在一些实施例中,目标数据可以是终端设备接收到的用户输入的全部数据中的一部分,且该终端设备需要确定该目标数据的标签。举例来说,终端设备接收到用户输入的一个图像,该图像中包括多个字符,目标数据可以是该图像中的一个字符。图7中的方法流程可以是识别图像中的一个字符,并输出该字符的过程。在实际应用中,用户可以向终端设备输入一个包括多个字符的图像,终端设备可利用识别模型对该图像进行文字识别,并输出文字识别结果。文字识别结果包括多个识别出的字符,每个字符为一个标签。也就是说,文字识别结果可以理解为一系列的标签。因此,终端设备识别出一个文字以及输出该文字的过程可以是图7中方法的一个应用。又举例来说,终端设备接收用户输入的一个语音数据,该终端设备可利用识别模型对该语音数据进行语音识别,并输出语音识别结果。该语音识别结果包括多个文字,每个文字可以为一个标签。也就是说,文字识别结果可以理解为一系列的标签。图7中的方法流程可以是终端设备对语音数据中的一部分数据进行语音识别得到一个文字,以及输出该文字的过程。可以理解,图7中的方法可以是一个大任务中的一个子任务,该子任务可以是分类任务。例如在文字识别任务中,终端设备需要识别出图像中包括的多个字符,图7中的方法流程可用于确定每个字符;其中,每个字符为一个标签。又例如在语音识别任务中,语音数据被分为多个部分,图7中的方法可用于确定每个部分的标签。
本申请实施例中,终端设备通过对由位于边界敏感区的特征得到的标签进行扰动处理,可以有效防止识别模型的参数被获取。
图8为本申请实施例提供的一种数据处理装置的结构示意图。如图8所示,该装置包括:
获取单元801,用于获取目标数据,所述目标数据包括一个或多个计算机可处理的信号;
输入单元802,用于将目标图像输入至识别处理单元803;
识别处理单元803,用于采用识别模型对所述目标数据进行识别处理,得到第一标签;所述第一标签为所述目标数据所属的标签,所述识别处理包括:所述识别模型对所述目标数据进行特征提取处理以得到第一特征向量;所述识别模型根据所述第一特征向量,预测得到所述第一标签;
输出单元805,用于在确定单元804确定存在第二特征向量的情况下,输出目标标签;所述第二特征向量为与所述第一特征向量之间的距离小于第一阈值的特征向量,且其经由所述识别模型预测得到的第二标签与所述第一标签不同;所述目标标签为对所述第一标签进行扰动处理得到的标签。
在一个可选的实现方式中,确定单元804,具体用于获得与所述第一特征向量之间的距离小于所述第一阈值的特征向量,得到第三特征向量;
识别处理单元803,还用于根据所述第三特征向量,预测得到第三标签;
确定单元804,具体用于在所述第一标签和所述第三标签不同的情况下,确定所述第三特征向量为所述第二特征向量。
在一个可选的实现方式中,所述第一特征向量包括N个特征值,每个特征值对应一个维度,N为大于1的整数;
确定单元804,具体用于将所述第一特征向量包括的任一维度的特征值增加或减少第二阈值以得到所述第三特征向量;所述第二阈值小于所述第一阈值。
在一个可选的实现方式中,输出单元805,具体用于采用随机算法以第一概率输出所述第一标签,以第二概率输出第四标签;所述第四标签与所述第一标签不同,所述第一概率和所述第二概率之和为1。
在一个可选的实现方式中,所述随机算法提供ε-差分隐私保护;其中,参数ε称为隐私保护预算。
在一个可选的实现方式中,输出单元805,还用于在所述确定单元确定未存在所述第二特征向量的情况下,输出所述第一标签。
在一个可选的实现方式中,所述装置还包括:查询单元806,用于查询历史记录数据库中是否存在所述目标数据的历史处理记录,所述历史处理记录包括所述目标数据所属的标签;所述识别处理单元,具体用于在所述查询单元未查询到所述目标数据的历史处理记录的情况下,对所述目标数据进行识别处理,得到所述第一标签。
在一个可选的实现方式中,所述一个或多个计算机可处理的信号包括:语音信号、文本信号或图像信号中的至少一项。
图9为本申请实施例提供的一种数据处理装置的结构示意图。如图9所示,该装置包括:
输入单元901,用于将目标图像输入至识别处理单元902;
识别处理单元902,用于采用识别模型对所述目标图像进行识别处理,得到第一标签;所述第一标签为所述目标图像所属的标签,所述识别处理包括:所述识别模型对所述目标图像进行特征提取处理以得到第一特征向量;所述识别模型根据所述第一特征向量,预测得到所述第一标签;
输出单元903,用于在确定单元904在存在第二特征向量的情况下,输出目标标签;所述第二特征向量为与所述第一特征向量之间的距离小于第一阈值的特征向量,且其经由所述识别模型预测得到的第二标签与所述第一标签不同;所述目标标签为对所述第一标签进行扰动处理得到的标签。
在一个可选的实现方式中,所述装置还包括:接收单元905,用于接收来自终端设备的所述目标图像;输出单元903,具体用于向所述终端设备发送所述目标标签。
在一个可选的实现方式中,确定单元904,具体用于获得与所述第一特征向量之间的距离小于所述第一阈值的特征向量,得到第三特征向量;
识别处理单元902,还用于利用所述识别模型根据所述第三特征向量,预测得到第三标签;
确定单元904,具体用于在所述第一标签和所述第三标签不同的情况下,确定所述第三特征向量为所述第二特征向量。
在一个可选的实现方式中,输出单元903,具体用于采用随机算法以第一概率向所述终端设备发送所述第一标签,以第二概率向所述终端设备发送第四标签;所述第四标签与所述第一标签不同,所述第一概率和所述第二概率之和为1。
在一个可选的实现方式中,该随机算法提供ε-差分隐私保护;其中,参数ε称为隐私保护预算。
在一个可选的实现方式中,输出单元903,还用于在所述确定单元确定未存在该第二特征向量的情况下,输出该第一标签。
在一个可选的实现方式中,所述装置还包括:查询单元906,用于查询历史记录数据库中是否存在该目标图像的历史处理记录,该历史处理记录包括该目标图像所属的标签;所述识别处理单元,具体用于在所述查询单元未查询到所述目标图像的历史处理记录的情况下,对所述目标图像进行识别处理,得到所述第一标签。
图10为本申请实施例提供的一种数据处理装置的结构示意图。如图10所示,该装置包括:存储器1001以及处理器1002;该存储器1001用于存储代码;该处理器1002通过读取该存储器中存储的该代码以用于执行如下操作:获取目标数据,该目标数据包括一个或多个计算机可处理的信号;将该目标数据输入至识别模型进行识别处理,得到第一标签;该第一标签为该目标数据所属的标签,该识别处理包括:该识别模型对该目标数据进行特征提取处理以得到第一特征向量;该识别模型根据该第一特征向量,预测得到该第一标签;在确定存在第二特征向量的情况下,输出目标标签;该第二特征向量为与该第一特征向量之间的距离小于第一阈值的特征向量,且其经由该识别模型预测得到的第二标签与该第一标签不同;该目标标签为对该第一标签进行扰动处理得到的标签。
处理器1002,用于实现图2中识别模型201、边界检测模块202以及扰动模块203的功能。处理器1002可实现图8中各单元的功能。
在一个可选的实现方式中,处理器1002,用于获得与该第一特征向量之间的距离小于该第一阈值的特征向量,得到第三特征向量;利用该识别模型根据该第三特征向量,预测得到第三标签;在该第一标签和该第三标签不同的情况下,确定该第三特征向量为该第二特征向量。
在一个可选的实现方式中,该第一特征向量包括N个特征值,每个特征值对应一个维度,N为大于1的整数;处理器1002,用于将该第一特征向量包括的任一维度的特征值增加或减少第二阈值以得到该第三特征向量;该第二阈值小于该第一阈值。
在一个可选的实现方式中,处理器1002,用于采用随机算法以第一概率输出该第一标签,以第二概率输出第四标签;该第四标签与该第一标签不同,该第一概率和该第二概率之和为1。
在一个可选的实现方式中,该随机算法提供ε-差分隐私保护;其中,参数ε称为隐私保护预算。
在一个可选的实现方式中,处理器1002,还用于在确定未存在该第二特征向量的情况下,输出该第一标签。
在一个可选的实现方式中,处理器1002,还用于查询历史记录数据库中是否存在该目标数据的历史处理记录,该历史处理记录包括该目标数据所属的标签;若否,执行该将目标数据输入至识别模型进行识别处理,得到第一标签的操作。
在一个可选的实现方式中,该一个或多个计算机可处理的信号包括:语音信号、文本信号或图像信号中的至少一项。
图11为本申请实施例提供的一种数据处理装置的结构示意图。如图11所示,该装置包括:存储器1101以及处理器1102;该存储器1101用于存储代码;该处理器1102通过读取该存储器中存储的该代码以用于执行如下操作:将目标图像输入至识别模型进行识别处理,得到第一标签;该第一标签为该目标图像所属的标签,该识别处理包括:该识别模型对该目标图像进行特征提取处理以得到第一特征向量;该识别模型根据该第一特征向量,预测得到该第一标签;在确定存在第二特征向量的情况下,输出目标标签;该第二特征向量为与该第一特征向量之间的距离小于第一阈值的特征向量,且其经由该识别模型预测得到的第二标签与该第一标签不同;该目标标签为对该第一标签进行扰动处理得到的标签。
处理器1102,用于实现图2中识别模型201、边界检测模块202以及扰动模块203的功能。处理器1102,可实现图9中输入单元901、识别处理单元902、确定单元904以及查询单元906的功能。
在一个可选的实现方式中,该装置还包括:接收器1103,用于接收来自终端设备的该目标图像;发送器1104,用于在该处理器的控制下向该终端设备发送该目标标签。接收器1103可实现图9中接收单元905的功能。
在一个可选的实现方式中,处理器1102,用于获得与该第一特征向量之间的距离小于该第一阈值的特征向量,得到第三特征向量;利用该识别模型根据该第三特征向量,预测得到第三标签;在该第一标签和该第三标签不同的情况下,确定该第三特征向量为该第二特征向量。
在一个可选的实现方式中,该第一特征向量包括N个特征值,每个特征值对应一个维度,N为大于1的整数;处理器1102,用于将该第一特征向量包括的任一维度的特征值增加或减少第二阈值以得到该第三特征向量;该第二阈值小于该第一阈值。
在一个可选的实现方式中,发送器1104,用于在该处理器的控制下采用随机算法以第一概率向该终端设备发送该第一标签,以第二概率向该终端设备发送第四标签;该第四标签与该第一标签不同,该第一概率和该第二概率之和为1。发送器1104可实现图9中输出单元903的功能。
在一个可选的实现方式中,该随机算法提供ε-差分隐私保护;其中,参数ε称为隐私保护预算。
在一个可选的实现方式中,处理器1102,还用于在确定未存在该第二特征向量的情况下,输出该第一标签。
在一个可选的实现方式中,处理器1102,还用于查询历史记录数据库中是否存在该目标图像的历史处理记录,该历史处理记录包括该目标图像所属的标签;若否,执行该将目标图像输入至识别模型进行识别处理,得到第一标签的操作。
本申请实施例中,存储器1001和存储器1101可以是只读存储器(Read OnlyMemory,ROM),静态存储设备,动态存储设备或者随机存取存储器(Random Access Memory,RAM)。存储器可以存储操作系统、以及其他应用程序。处理器1002和处理器1102可以采用通用的中央处理器(Central Processing Unit,CPU),微处理器,应用专用集成电路(Application Specific Integrated Circuit,ASIC),GPU或者一个或多个集成电路,用于执行相关程序,以实现本申请实施例的数据处理装置中的单元所需执行的功能,或者执行本申请方法实施例的所提供的数据防窃取方法。处理器还可以是一种集成电路芯片,具有信号的处理能力。在实现过程中,本申请的所提供的方法的各个步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器还可以是通用处理器、神经网络处理器、数字信号处理器(Digital Signal Processing,DSP)、专用集成电路(ASIC)、现成可编程门阵列(Field Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。
本申请实施例提供了一种计算机可读存储介质,上述计算机可读存储介质存储有计算机程序,上述计算机程序包括软件程序指令,上述程序指令被数据处理设备中的处理器执行时实现前述实施例中的数据防窃取方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机程序指令时,全部或部分地产生按照本申请实施例该的流程或功能。该计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。该计算机指令可以存储在计算机可读存储介质中,或者通过该计算机可读存储介质进行传输。该计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如,固态硬盘(solid state disk,SSD))等。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (25)
1.一种数据防窃取方法,其特征在于,包括:
获取目标数据,所述目标数据包括一个或多个计算机可处理的信号;
将所述目标数据输入至识别模型进行识别处理,得到第一标签;所述第一标签为所述目标数据所属的标签,所述识别处理包括:所述识别模型对所述目标数据进行特征提取处理以得到第一特征向量;所述识别模型根据所述第一特征向量,预测得到所述第一标签;
在确定存在第二特征向量的情况下,输出目标标签;所述第二特征向量为与所述第一特征向量之间的距离小于第一阈值的特征向量,且其经由所述识别模型预测得到的第二标签与所述第一标签不同;所述目标标签为对所述第一标签进行扰动处理得到的标签。
2.根据权利要求1所述的方法,其特征在于,所述确定存在第二特征向量的情况包括:
获得与所述第一特征向量之间的距离小于所述第一阈值的特征向量,得到第三特征向量;
利用所述识别模型根据所述第三特征向量,预测得到第三标签;
在所述第一标签和所述第三标签不同的情况下,确定所述第三特征向量为所述第二特征向量。
3.根据权利要求2所述的方法,其特征在于,所述第一特征向量包括N个特征值,每个特征值对应一个维度,N为大于1的整数;所述获得与所述第一特征向量之间的距离小于所述第一阈值的特征向量,得到第三特征向量包括:
将所述第一特征向量包括的任一维度的特征值增加或减少第二阈值以得到所述第三特征向量;所述第二阈值小于所述第一阈值。
4.根据权利要求1至3任一项所述的方法,其特征在于,所述输出目标标签包括:
采用随机算法以第一概率输出所述第一标签,以第二概率输出第四标签;所述第四标签与所述第一标签不同,所述第一概率和所述第二概率之和为1。
5.根据权利要求4所述的方法,其特征在于,所述随机算法提供ε-差分隐私保护;其中,参数ε称为隐私保护预算。
6.根据权利要求1至3任一项所述的方法,其特征在于,所述将所述目标数据输入至识别模型进行识别处理,得到第一标签之后,所述方法还包括:
在确定未存在所述第二特征向量的情况下,输出所述第一标签。
7.根据权利要求1至3任一项所述的方法,其特征在于,所述将所述目标数据输入至识别模型进行识别处理,得到第一标签之前,所述方法还包括:
查询历史记录数据库中是否存在所述目标数据的历史处理记录,所述历史处理记录包括所述目标数据所属的标签;
若否,执行所述将所述目标数据输入至识别模型进行识别处理,得到第一标签的操作。
8.根据权利要求1至3任一项所述的方法,其特征在于,所述一个或多个计算机可处理的信号包括:语音信号、文本信号或图像信号中的至少一项。
9.一种数据防窃取方法,其特征在于,包括:
将目标图像输入至识别模型进行识别处理,得到第一标签;所述第一标签为所述目标图像所属的标签,所述识别处理包括:所述识别模型对所述目标图像进行特征提取处理以得到第一特征向量;所述识别模型根据所述第一特征向量,预测得到所述第一标签;
在确定存在第二特征向量的情况下,输出目标标签;所述第二特征向量为与所述第一特征向量之间的距离小于第一阈值的特征向量,且其经由所述识别模型预测得到的第二标签与所述第一标签不同;所述目标标签为对所述第一标签进行扰动处理得到的标签。
10.根据权利要求9所述的方法,其特征在于,所述将目标图像输入至识别模型进行识别处理,得到第一标签之前,所述方法还包括:
接收来自终端设备的所述目标图像;
所述输出目标标签包括:
向所述终端设备发送所述目标标签。
11.根据权利要求9或10所述的方法,其特征在于,所述确定存在第二特征向量的情况包括:
获得与所述第一特征向量之间的距离小于所述第一阈值的特征向量,得到第三特征向量;
利用所述识别模型根据所述第三特征向量,预测得到第三标签;
在所述第一标签和所述第三标签不同的情况下,确定所述第三特征向量为所述第二特征向量。
12.根据权利要求10所述的方法,其特征在于,所述输出目标标签包括:
采用随机算法以第一概率向所述终端设备发送所述第一标签,以第二概率向所述终端设备发送第四标签;所述第四标签与所述第一标签不同,所述第一概率和所述第二概率之和为1。
13.一种数据处理装置,其特征在于,包括:存储器以及处理器;所述存储器用于存储代码;所述处理器通过读取所述存储器中存储的所述代码以用于执行如下操作:
获取目标数据,所述目标数据包括一个或多个计算机可处理的信号;
将所述目标数据输入至识别模型进行识别处理,得到第一标签;所述第一标签为所述目标数据所属的标签,所述识别处理包括:所述识别模型对所述目标数据进行特征提取处理以得到第一特征向量;所述识别模型根据所述第一特征向量,预测得到所述第一标签;
在确定存在第二特征向量的情况下,输出目标标签;所述第二特征向量为与所述第一特征向量之间的距离小于第一阈值的特征向量,且其经由所述识别模型预测得到的第二标签与所述第一标签不同;所述目标标签为对所述第一标签进行扰动处理得到的标签。
14.根据权利要求13所述装置,其特征在于,
所述处理器,用于获得与所述第一特征向量之间的距离小于所述第一阈值的特征向量,得到第三特征向量;
利用所述识别模型根据所述第三特征向量,预测得到第三标签;
在所述第一标签和所述第三标签不同的情况下,确定所述第三特征向量为所述第二特征向量。
15.根据权利要求14所述装置,其特征在于,所述第一特征向量包括N个特征值,每个特征值对应一个维度,N为大于1的整数;
所述处理器,用于将所述第一特征向量包括的任一维度的特征值增加或减少第二阈值以得到所述第三特征向量;所述第二阈值小于所述第一阈值。
16.根据权利要求13至15任一项所述装置,其特征在于,
所述处理器,用于采用随机算法以第一概率输出所述第一标签,以第二概率输出第四标签;所述第四标签与所述第一标签不同,所述第一概率和所述第二概率之和为1。
17.根据权利要求16所述装置,其特征在于,所述随机算法提供ε-差分隐私保护;其中,参数ε称为隐私保护预算。
18.根据权利要求13至15任一项所述装置,其特征在于,
所述处理器,还用于在确定未存在所述第二特征向量的情况下,输出所述第一标签。
19.根据权利要求13至15任一项所述装置,其特征在于,
所述处理器,还用于查询历史记录数据库中是否存在所述目标数据的历史处理记录,所述历史处理记录包括所述目标数据所属的标签;
若否,执行所述将所述目标数据输入至识别模型进行识别处理,得到第一标签的操作。
20.根据权利要求13至15任一项所述装置,其特征在于,所述一个或多个计算机可处理的信号包括:语音信号、文本信号或图像信号中的至少一项。
21.一种数据处理装置,其特征在于,包括:存储器以及处理器;所述存储器用于存储代码;所述处理器通过读取所述存储器中存储的所述代码以用于执行如下操作:
将目标图像输入至识别模型进行识别处理,得到第一标签;所述第一标签为所述目标图像所属的标签,所述识别处理包括:所述识别模型对所述目标图像进行特征提取处理以得到第一特征向量;所述识别模型根据所述第一特征向量,预测得到所述第一标签;
在确定存在第二特征向量的情况下,输出目标标签;所述第二特征向量为与所述第一特征向量之间的距离小于第一阈值的特征向量,且其经由所述识别模型预测得到的第二标签与所述第一标签不同;所述目标标签为对所述第一标签进行扰动处理得到的标签。
22.根据权利要求21所述装置,其特征在于,所述装置还包括:
接收器,用于接收来自终端设备的所述目标图像;
发送器,用于在所述处理器的控制下向所述终端设备发送所述目标标签。
23.根据权利要求21或22所述装置,其特征在于,
所述处理器,用于获得与所述第一特征向量之间的距离小于所述第一阈值的特征向量,得到第三特征向量;
利用所述识别模型根据所述第三特征向量,预测得到第三标签;
在所述第一标签和所述第三标签不同的情况下,确定所述第三特征向量为所述第二特征向量。
24.根据权利要求22所述装置,其特征在于,
所述发送器,用于在所述处理器的控制下采用随机算法以第一概率向所述终端设备发送所述第一标签,以第二概率向所述终端设备发送第四标签;所述第四标签与所述第一标签不同,所述第一概率和所述第二概率之和为1。
25.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被移动设备的处理器执行时,使所述处理器执行权利要求1至12任意一项所述的方法。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910897929.1A CN110795703B (zh) | 2019-09-20 | 2019-09-20 | 数据防窃取方法和相关产品 |
PCT/CN2020/113631 WO2021052201A1 (zh) | 2019-09-20 | 2020-09-04 | 数据防窃取方法和相关产品 |
EP20865722.1A EP4024240A4 (en) | 2019-09-20 | 2020-09-04 | DATA THEFT PREVENTION PROCEDURES AND RELATED PRODUCT |
US17/698,619 US12164605B2 (en) | 2019-09-20 | 2022-03-18 | Data theft prevention method and related product |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910897929.1A CN110795703B (zh) | 2019-09-20 | 2019-09-20 | 数据防窃取方法和相关产品 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110795703A CN110795703A (zh) | 2020-02-14 |
CN110795703B true CN110795703B (zh) | 2024-04-16 |
Family
ID=69439679
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910897929.1A Active CN110795703B (zh) | 2019-09-20 | 2019-09-20 | 数据防窃取方法和相关产品 |
Country Status (4)
Country | Link |
---|---|
US (1) | US12164605B2 (zh) |
EP (1) | EP4024240A4 (zh) |
CN (1) | CN110795703B (zh) |
WO (1) | WO2021052201A1 (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110795703B (zh) | 2019-09-20 | 2024-04-16 | 华为技术有限公司 | 数据防窃取方法和相关产品 |
CN111783996B (zh) * | 2020-06-18 | 2023-08-25 | 杭州海康威视数字技术股份有限公司 | 一种数据处理方法、装置及设备 |
DE102020212023A1 (de) | 2020-09-24 | 2022-03-24 | Zf Friedrichshafen Ag | Computerimplementiertes Verfahren, Computerprogramm, computerlesbarer Datenträger, Datenträgersignal und System zur Verhinderung eines Modell-Diebstahl-Angriffes auf ein Softwaresystem und Steuerungssystem für ein Fahrsystem |
CN112200234B (zh) * | 2020-09-30 | 2022-04-12 | 支付宝(杭州)信息技术有限公司 | 模型分类的过程中防止模型窃取的方法及装置 |
CN112200465B (zh) * | 2020-10-14 | 2024-04-19 | 安徽继远软件有限公司 | 基于多媒体信息智能分析的电力ai方法及系统 |
JP7549240B2 (ja) * | 2021-06-03 | 2024-09-11 | 富士通株式会社 | 情報処理プログラム、情報処理方法、および情報処理装置 |
CN113691506B (zh) * | 2021-08-05 | 2023-03-28 | 成都安美勤信息技术股份有限公司 | 基于大数据和互联网的智慧医疗平台入侵检测系统 |
CN118377602A (zh) * | 2024-06-20 | 2024-07-23 | 浙江网商银行股份有限公司 | 任务处理方法及装置、任务处理模型训练方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101492338B1 (ko) * | 2013-10-10 | 2015-02-11 | 재단법인대구경북과학기술원 | Rf 태그와 영상센서를 이용한 스마트 물품 관리 방법 및 스마트 물품 관리 장치 |
CN105653981A (zh) * | 2015-12-31 | 2016-06-08 | 中国电子科技网络信息安全有限公司 | 大数据平台的数据流通与交易的敏感数据保护系统及方法 |
CN108446649A (zh) * | 2018-03-27 | 2018-08-24 | 百度在线网络技术(北京)有限公司 | 用于告警的方法及装置 |
CN109214327A (zh) * | 2018-08-29 | 2019-01-15 | 浙江工业大学 | 一种基于pso的反人脸识别方法 |
CN110163301A (zh) * | 2019-05-31 | 2019-08-23 | 北京金山云网络技术有限公司 | 一种图像的分类方法及装置 |
Family Cites Families (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7010167B1 (en) * | 2002-04-30 | 2006-03-07 | The United States Of America As Represented By The National Security Agency | Method of geometric linear discriminant analysis pattern recognition |
US20150242760A1 (en) * | 2014-02-21 | 2015-08-27 | Microsoft Corporation | Personalized Machine Learning System |
WO2016181468A1 (ja) * | 2015-05-11 | 2016-11-17 | 株式会社東芝 | パターン認識装置、パターン認識方法およびプログラム |
US10552762B2 (en) * | 2015-07-16 | 2020-02-04 | Falkonry Inc. | Machine learning of physical conditions based on abstract relations and sparse labels |
CN106960219B (zh) * | 2017-03-10 | 2021-04-16 | 百度在线网络技术(北京)有限公司 | 图片识别方法及装置、计算机设备及计算机可读介质 |
CN108510071B (zh) | 2017-05-10 | 2020-01-10 | 腾讯科技(深圳)有限公司 | 数据的特征提取方法、装置及计算机可读存储介质 |
US11526601B2 (en) | 2017-07-12 | 2022-12-13 | The Regents Of The University Of California | Detection and prevention of adversarial deep learning |
CN107368752B (zh) | 2017-07-25 | 2019-06-28 | 北京工商大学 | 一种基于生成式对抗网络的深度差分隐私保护方法 |
CN107729762A (zh) * | 2017-08-31 | 2018-02-23 | 徐州医科大学 | 一种基于差分隐私保护模型的dna闭频繁模体识别方法 |
CN107491557A (zh) | 2017-09-06 | 2017-12-19 | 徐州医科大学 | 一种基于差分隐私的TopN协同过滤推荐方法 |
US11023593B2 (en) | 2017-09-25 | 2021-06-01 | International Business Machines Corporation | Protecting cognitive systems from model stealing attacks |
US10944767B2 (en) | 2018-02-01 | 2021-03-09 | International Business Machines Corporation | Identifying artificial artifacts in input data to detect adversarial attacks |
US11526745B2 (en) | 2018-02-08 | 2022-12-13 | Intel Corporation | Methods and apparatus for federated training of a neural network using trusted edge devices |
US11733780B2 (en) * | 2018-03-16 | 2023-08-22 | Veridium Ip Limited | System and method for user recognition using motion sensor data |
CN108388560B (zh) * | 2018-03-17 | 2021-08-20 | 北京工业大学 | 基于语言模型的gru-crf会议名称识别方法 |
US10811000B2 (en) * | 2018-04-13 | 2020-10-20 | Mitsubishi Electric Research Laboratories, Inc. | Methods and systems for recognizing simultaneous speech by multiple speakers |
CN108875327A (zh) * | 2018-05-28 | 2018-11-23 | 阿里巴巴集团控股有限公司 | 一种核身方法和装置 |
US11250347B2 (en) * | 2018-06-27 | 2022-02-15 | Microsoft Technology Licensing, Llc | Personalization enhanced recommendation models |
CN109255364B (zh) * | 2018-07-12 | 2021-06-08 | 杭州电子科技大学 | 一种基于深度卷积生成对抗网络的场景识别方法 |
JP7131195B2 (ja) * | 2018-08-14 | 2022-09-06 | 日本電信電話株式会社 | 物体認識装置、物体認識学習装置、方法、及びプログラム |
CN111435595B (zh) * | 2019-01-10 | 2024-11-12 | 北京搜狗科技发展有限公司 | 文本规整方法及装置 |
CN110097119A (zh) | 2019-04-30 | 2019-08-06 | 西安理工大学 | 基于对偶变量扰动的差分隐私保护支持向量机分类器算法 |
CN110795703B (zh) * | 2019-09-20 | 2024-04-16 | 华为技术有限公司 | 数据防窃取方法和相关产品 |
US11715461B2 (en) * | 2020-10-21 | 2023-08-01 | Huawei Technologies Co., Ltd. | Transformer-based automatic speech recognition system incorporating time-reduction layer |
CN114519935B (zh) * | 2020-11-20 | 2023-06-06 | 华为技术有限公司 | 道路识别方法以及装置 |
CN113505193A (zh) * | 2021-06-01 | 2021-10-15 | 华为技术有限公司 | 一种数据处理方法及相关设备 |
-
2019
- 2019-09-20 CN CN201910897929.1A patent/CN110795703B/zh active Active
-
2020
- 2020-09-04 EP EP20865722.1A patent/EP4024240A4/en active Pending
- 2020-09-04 WO PCT/CN2020/113631 patent/WO2021052201A1/zh unknown
-
2022
- 2022-03-18 US US17/698,619 patent/US12164605B2/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101492338B1 (ko) * | 2013-10-10 | 2015-02-11 | 재단법인대구경북과학기술원 | Rf 태그와 영상센서를 이용한 스마트 물품 관리 방법 및 스마트 물품 관리 장치 |
CN105653981A (zh) * | 2015-12-31 | 2016-06-08 | 中国电子科技网络信息安全有限公司 | 大数据平台的数据流通与交易的敏感数据保护系统及方法 |
CN108446649A (zh) * | 2018-03-27 | 2018-08-24 | 百度在线网络技术(北京)有限公司 | 用于告警的方法及装置 |
CN109214327A (zh) * | 2018-08-29 | 2019-01-15 | 浙江工业大学 | 一种基于pso的反人脸识别方法 |
CN110163301A (zh) * | 2019-05-31 | 2019-08-23 | 北京金山云网络技术有限公司 | 一种图像的分类方法及装置 |
Non-Patent Citations (3)
Title |
---|
Huadi Zheng.BDPL: A Boundary Differentially Private Layer Against Machine Learning Model Extraction Attacks.《ADVANCES IN DATABASES AND INFORMATION SYSTEMS》.2019,第68-74页. * |
Model Extraction Warning in MLaaS Paradigm;Manish Kesarwani;《https://doi.org/10.1145/3274694.3274740》;全文 * |
PRADA: Protecting Against DNN Model Stealing Attacks;Mika Juuti;《2019 IEEE European Symposium on Security and Privacy》;全文 * |
Also Published As
Publication number | Publication date |
---|---|
EP4024240A1 (en) | 2022-07-06 |
US12164605B2 (en) | 2024-12-10 |
WO2021052201A1 (zh) | 2021-03-25 |
US20220207117A1 (en) | 2022-06-30 |
CN110795703A (zh) | 2020-02-14 |
EP4024240A4 (en) | 2022-10-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110795703B (zh) | 数据防窃取方法和相关产品 | |
US11893111B2 (en) | Defending machine learning systems from adversarial attacks | |
US10580272B1 (en) | Techniques to provide and process video data of automatic teller machine video streams to perform suspicious activity detection | |
US20230306107A1 (en) | A Method of Training a Submodule and Preventing Capture of an AI Module | |
Ripan et al. | An isolation forest learning based outlier detection approach for effectively classifying cyber anomalies | |
KR102756879B1 (ko) | 생체 정보의 위조 검증 장치 및 방법 | |
CN116756578B (zh) | 车辆信息安全威胁聚合分析预警方法及系统 | |
Luo et al. | A novel intrusion detection method based on threshold modification using receiver operating characteristic curve | |
Arshad et al. | Anomalous situations recognition in surveillance images using deep learning | |
Ranka et al. | Computer vision-based cybersecurity threat detection system with GAN-enhanced data augmentation | |
Al-Eidi et al. | Convolutional neural network structure to detect and localize ctc using image processing | |
CN116824127A (zh) | 开放世界目标检测方法、计算机设备及存储介质 | |
Vartouni et al. | Auto-threshold deep SVDD for anomaly-based web application firewall | |
Zhou et al. | Multimodal fraudulent website identification method based on heterogeneous model ensemble | |
CN115575992A (zh) | 一种基于深度学习的ads-b欺骗式干扰检测方法、介质及装置 | |
US20210264153A1 (en) | Machine learning method and apparatus for detection and continuous feature comparison | |
Besrour et al. | Incremental subclass support vector machine | |
Meena et al. | Hybrid neural network architecture for multi-label object recognition using feature fusion | |
Prathiba et al. | A Blockchain-Powered Malicious Node Detection in Internet of Autonomous Vehicles | |
US20240232431A1 (en) | Systems and methods for image encryption | |
KR102619522B1 (ko) | 인공지능 기반의 기밀정보 유출 탐지 방법 및 장치 | |
Attia et al. | Comparative study of hybrid machine learning algorithms for network intrusion detection | |
Nandurdikar et al. | A Survey on Intelligent and Effective Intrusion Detection system using Machine Learning Algorithm | |
Zhu et al. | A novel approach for fire recognition using hybrid features and manifold learning-based classifier | |
Sharma et al. | Prediction of Criminal Activities Forecasting System and Analysis Using Machine Learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |