[go: up one dir, main page]

CN116150774A - 数据保护模型训练及数据保护方法、装置以及存储介质 - Google Patents

数据保护模型训练及数据保护方法、装置以及存储介质 Download PDF

Info

Publication number
CN116150774A
CN116150774A CN202211089109.8A CN202211089109A CN116150774A CN 116150774 A CN116150774 A CN 116150774A CN 202211089109 A CN202211089109 A CN 202211089109A CN 116150774 A CN116150774 A CN 116150774A
Authority
CN
China
Prior art keywords
data
loss
output data
sample
correlation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211089109.8A
Other languages
English (en)
Inventor
曹佳炯
丁菁汀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN202211089109.8A priority Critical patent/CN116150774A/zh
Publication of CN116150774A publication Critical patent/CN116150774A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/602Providing cryptographic facilities or services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Computational Linguistics (AREA)
  • Bioethics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computer Hardware Design (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本说明书实施例公开了一种数据保护模型训练及数据保护方法、装置、存储介质以及终端,首先将各样本原始数据输入基于预设保护函数构建的初始网络模型,得到各样本输出数据;然后基于预设保护函数对各样本原始数据处理后的各标准输出数据与各样本输出数据得到第一蒸馏损失;基于各标准输出数据之间的第一相关性以及各样本输出数据之间的第二相关性,得到第二蒸馏损失;最终根据第一蒸馏损失和第二蒸馏损失对初始网络模型进行第一训练,得到第一数据保护模型。由于在第一相关性中能够体现预设保护函数处理数据时的计算特征,因此使用各标准输出数据之间的第一相关性以及各样本输出数据之间的第二相关性,来构建训练数据保护模型的损失计算。

Description

数据保护模型训练及数据保护方法、装置以及存储介质
技术领域
本说明书实施例涉及计算机信息安全技术领域,尤其涉及一种数据保护模型训练及数据保护方法、装置以及存储介质。
背景技术
人工智能技术近年来发展迅速,并逐渐应用到各种日常场景中,例如自助支付场景、自动身份验证场景以及信息采集场景等,而通过各类端侧设备自动进行用户服务时,需要采集、传输、处理和存储用户的信息,用户信息中包含大量隐私数据信息,因此为了避免用户个人隐私信息泄露,需要对用户信息进行高效的管理和保护。
发明内容
本说明书实施例提供一种数据保护模型训练及数据保护方法、装置以及存储介质,可以解决相关技术中数据保护模型的性能较差的技术问题。
第一方面,本说明书实施例提供一种数据保护模型训练方法,该方法包括:
获取至少两个样本原始数据,将各样本原始数据输入至初始网络模型,得到各样本原始数据对应的样本输出数据,其中,所述初始网络模型基于预设保护函数构建;
获取所述预设保护函数对各样本原始数据处理后的各标准输出数据,基于各标准输出数据与各样本输出数据得到第一蒸馏损失;
计算各标准输出数据之间的第一相关性以及各样本输出数据之间的第二相关性,基于所述第一相关性和所述第二相关性得到第二蒸馏损失;
根据所述第一蒸馏损失和所述第二蒸馏损失构建第一损失函数,基于所述第一损失函数对所述初始网络模型进行第一训练,得到第一数据保护模型。
第二方面,本说明书实施例提供一种数据保护方法,该方法包括:
响应数据加密请求,基于数据加密模型对目标原始数据进行加密处理,得到所述目标原始数据对应的目标加密数据;
响应数据解密请求,基于数据解密模型对所述目标加密数据进行解密处理,得到所述目标原始数据对应的目标解密数据;
其中,所述数据加密模型或所述数据解密模型为权利要求1至9任意一项所述的数据保护模型训练方法训练得到的数据保护模型。
第三方面,本说明书实施例提供一种数据保护模型训练装置,该装置包括:
数据获取模块,用于获取至少两个样本原始数据,将各样本原始数据输入至初始网络模型,得到各样本原始数据对应的样本输出数据,其中,所述初始网络模型基于预设保护函数构建;
第一损失计算模块,用于获取所述预设保护函数对各样本原始数据处理后的各标准输出数据,基于各标准输出数据与各样本输出数据得到第一蒸馏损失;
第二损失计算模块,用于计算各标准输出数据之间的第一相关性以及各样本输出数据之间的第二相关性,基于所述第一相关性和所述第二相关性得到第二蒸馏损失;
第一模型训练模块,用于根据所述第一蒸馏损失和所述第二蒸馏损失构建第一损失函数,基于所述第一损失函数对所述初始网络模型进行第一训练,得到第一数据保护模型。
第四方面,本说明书实施例提供一种数据保护装置,该装置包括:
加密模块,用于响应数据加密请求,基于数据加密模型对目标原始数据进行加密处理,得到所述目标原始数据对应的目标加密数据;
解密模块,用于响应数据解密请求,基于数据解密模型对所述目标加密数据进行解密处理,得到所述目标原始数据对应的目标解密数据;
其中,所述数据加密模型或所述数据解密模型为权利要求1至9任意一项所述的数据保护模型训练方法训练得到的数据保护模型。
第五方面,本说明书实施例提供一种包含指令的计算机程序产品,当所述计算机程序产品在计算机或处理器上运行时,使得所述计算机或所述处理器执行上述的方法的步骤。
第六方面,本说明书实施例提供一种计算机存储介质,所述计算机存储介质存储有多条指令,所述指令适于由处理器加载并执行上述的方法的步骤。
第七方面,本说明书实施例提供一种终端,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述计算机程序适于由处理器加载并执行上述的方法的步骤。
本说明书一些实施例提供的技术方案带来的有益效果至少包括:
本说明书实施例提供一种数据保护模型训练方法,首先基于预设保护函数构建初始网络模型,将各样本原始数据输入初始网络模型,得到各样本输出数据;然后基于预设保护函数对各样本原始数据处理后的各标准输出数据与各样本输出数据得到第一蒸馏损失;基于各标准输出数据之间的第一相关性以及各样本输出数据之间的第二相关性,得到第二蒸馏损失;最终根据第一蒸馏损失和第二蒸馏损失对初始网络模型进行第一训练,得到第一数据保护模型。由于样本原始数据经过预设保护函数的处理后,在标准输出数据之间的第一相关性中能够体现预设保护函数处理数据时的计算特征,因此使用各标准输出数据之间的第一相关性以及各样本输出数据之间的第二相关性,来构建训练数据保护模型的损失计算,可以使得数据保护模型从输出数据之间相关性的角度,更准确的拟合预设保护函数处理数据时的计算特征和计算能力,得到更加准确的数据保护模型。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本说明书实施例提供的一种数据保护模型训练方法的示例性系统架构图;
图2为本说明书实施例提供的一种数据保护模型训练方法的流程示意图;
图3为本说明书实施例提供的一种数据保护模型训练方法的流程示意图;
图4为本说明书实施例提供的一种数据保护模型训练方法的流程示意图;
图5为本说明书实施例提供的一种数据保护方法的流程示意图;
图6为本说明书实施例提供的一种数据保护模型训练装置的结构框图;
图7为本说明书实施例提供的一种数据保护装置的结构框图;
图8为本说明书实施例提供的一种终端的结构示意图。
具体实施方式
为使得本说明书实施例的特征和优点能够更加的明显和易懂,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而非全部实施例。基于本说明书中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本说明书实施例保护的范围。
下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书实施例相一致的所有实施方式。相反,它们仅是如所附权利要求书中所详述的、本说明书实施例的一些方面相一致的装置和方法的例子。
近年来,人工智能技术发展迅速,各类相关应用也开始规模化发展并逐渐与人们的日常生活产生联系,例如自助支付场景、智能推荐场景、自动辅助驾驶场景等。但由于人工智能算法通常需要基于大量数据来进行分析,服务用户的过程中常涉及到对用户隐私数据的采集、传输、处理和存储,此时用户的个人隐私信息会存在泄露的安全风险,因此需要对用户信息数据进行保护处理,以保证用户信息安全。
通常在对数据进行保护时,是通过数据保护函数对数据进行加密计算处理以及解密计算处理。目前在数据保护领域中,从计算数据类型的角度可以将数据保护策略分为两类,第一类策略,是在原始数据基础上进行计算的数据保护策略,这类方法的特征是在传输、存储等阶段对原始数据进行加密处理,而在对需要进行分析和计算时,首先会对加密数据进行解密还原,得到原始数据后基于原始数据进行计算,这类方法可以保证计算结果的准确性,但在计算过程中依旧面临信息泄露的安全风险;而第二类策略,是在加密数据上进行计算的数据保护策略,这类方法的特征是首先对数据进行加密处理,后续在传输、存储、计算等数据处理过程均在加密数据的基础上进行,此类策略更能够保障信息数据安全。
对于用户的隐私数据,通常采用加密性能更好的第二类数据保护策略来确保数据安全,例如,使用同态加密策略,同态加密可以对数据进行加密并且使得对加密数据进行计算后的结果与对原始数据进行相同计算后的结果相同,但由于同态加密算法的计算量大、计算效率低,对运行设备的计算能力要求较高,而在日常生活场景中,通常会存在一些涉及到用户隐私数据的算力较小的端侧设备,例如自助收银机等只具备基础的入网能力,无法进行大体量计算的设备,此时就导致这类设备中无法规模化具备同态加密的性能,使得用户数据安全受到威胁。
因此本说明书实施例提供一种数据保护模型训练方法,首先将各样本原始数据输入基于预设保护函数构建的初始网络模型,得到各样本输出数据;然后基于预设保护函数对各样本原始数据处理后的各标准输出数据与各样本输出数据得到第一蒸馏损失;基于各标准输出数据之间的第一相关性以及各样本输出数据之间的第二相关性,得到第二蒸馏损失;最终根据第一蒸馏损失和第二蒸馏损失对初始网络模型进行第一训练,得到第一数据保护模型,以解决上述数据保护模型的性能较差的技术问题。
请参阅图1,图1为本说明书实施例提供的一种数据保护模型训练方法的示例性系统架构图。
如图1所示,系统架构可以包括终端101、网络102和服务器103。网络102用于在终端101和服务器103之间提供通信链路的介质。网络102可以包括各种类型的有线通信链路或无线通信链路,例如:有线通信链路包括光纤、双绞线或同轴电缆的,无线通信链路包括蓝牙通信链路、无线保真(Wireless-Fidelity,Wi-Fi)通信链路或微波通信链路等。
终端101可以通过网络102与服务器103交互,以接收来自服务器103的消息或向服务器103发送消息,或者终端101可以通过网络102与服务器103交互,进而接收其他用户向服务器103发送的消息或者数据。终端101可以是硬件,也可以是软件。当终端101为硬件时,可以是各种电子设备,包括但不限于智能手表、智能手机、平板电脑、膝上型便携式计算机和台式计算机等。当终端101为软件时,可以是安装在上述所列举的电子设备中,其可以实现呈多个软件或软件模块(例如:用来提供分布式服务),也可以实现成单个软件或软件模块,在此不作具体限定。
在本说明书实施例中,终端101可以首先基于预设保护函数构建初始网络模型,将各样本原始数据输入初始网络模型,得到各样本输出数据;然后终端101基于预设保护函数对各样本原始数据处理后的各标准输出数据与各样本输出数据得到第一蒸馏损失;进一步,终端101基于各标准输出数据之间的第一相关性以及各样本输出数据之间的第二相关性,得到第二蒸馏损失;最终根据第一蒸馏损失和第二蒸馏损失对初始网络模型进行第一训练,得到第一数据保护模型。
服务器103可以是提供各种服务的集成服务器。需要说明的是,服务器103可以是硬件,也可以是软件。当服务器103为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。当服务器103为软件时,可以实现成多个软件或软件模块(例如用来提供分布式服务),也可以实现成单个软件或软件模块,在此不做具体限定。
或者,该系统架构还可以不包括服务器103,换言之,服务器103可以为本说明书实施例中可选的设备,即本说明书实施例提供的方法可以应用于仅包括终端101的系统结构中,本说明书实施例对此不做限定。
应理解,图1中的终端、网络以及服务器的数目仅是示意性的,根据实现需要,可以是任意数量的终端、网络以及服务器。
请参阅图2,图2为本说明书实施例提供的一种数据保护模型训练方法的流程示意图。本说明书实施例的执行主体可以是执行数据保护模型训练的终端,也可以是执行数据保护模型训练方法的终端中的处理器,还可以是执行数据保护模型训练方法的终端中的数据保护模型训练服务。为方便描述,下面以执行主体是终端中的处理器为例,介绍数据保护模型训练方法的具体执行过程。
如图2所示,数据保护模型训练方法至少可以包括:
S201、获取至少两个样本原始数据,将各样本原始数据输入至初始网络模型,得到各样本原始数据对应的样本输出数据,其中,初始网络模型基于预设保护函数构建。
可选地,为了在满足用户需求的同时,保护用户的信息数据安全,需要对用户数据进行保护处理,例如数据加密、数据脱敏等数据保护手段,而在此过程中加密效果好的数据保护策略所采用算法中的数据保护函数通常计算量大、计算效率低下,那么一些为用户提供数据服务的端侧设备,由于算力较低,无法实现较好的数据加密效果。因此若要在一些低算力的基础电子设备中部署数据保护功能,需要降低进行数据保护处理时所需要的计算量,提高计算效率。
进一步地,由于神经网络模型能够基于预设任务自主学习解决预设任务的方法,进而对于一些数学问题,相较于传统、繁琐的公式计算,神经网络模型能够基于初始数据和结果数据,在不断地迭代训练中自学习数据处理过程中的计算特征,以拟合公式的计算效果,并且由于神经网络直接基于计算结果进行学习,那么实现相同计算效果时神经网络所需计算量相比于公式所需要计算量会大幅度减少,也即训练完成的神经网络模型能够部署在小算力设备中以使得设备通过较低的计算条件具备高效的计算效果。具体地,网络结构的类型可以选择适合在端侧设备中运算的神经网络,例如MobileNetV2等轻量型网络。
基于此,为了在设备中部署高效数据保护策略,例如同态加密策略,可以通过神经网络模型拟合高效数据保护策略对应的预设保护函数,以获得能够拟合预设保护函数的计算特征的数据保护模型。在训练初始网络模型之前,首先需要根据具体的预设保护函数构建初始网络模型,便于后续基于样本数据训练初始网络模型。需要注意的是,预设保护函数可以是预设加密函数或者预设解密函数,其中预设加密函数可以是同态加密函数、预设解密函数可以是同态解密函数,预设保护函数类型的选择不对本说明书实施例造成限定,可以基于实际需求进行选择。
可选地,训练初始网络模型之前,首先需要获取输入数据,也即获取样本原始数据,再将各样本原始数据输入至初始网络模型,得到初始网络模型基于样本原始数据输出的样本输出数据。选择样本原始数据的样本数量时,考虑到初始网络模型的训练效果,样本原始数据的数量一般不为一个,并且考虑到样本输出数据需要与预设保护函数针对同样的样本原始数据所输出的标准输出数据进行拟合,而预设保护函数的计算特征通过标准输出数据可以具有多种体现,例如,单个输出数据的取值特征、多个输出数据之间的相关性特征、固定原始数据区间内输出数据的取值特征等,因此可以获取至少两个样本原始数据,以使的初始网络模型输出至少两个样本输出数据,便于基于多个样本输出数据对初始网络模型进行训练。
S202、获取预设保护函数对各样本原始数据处理后的各标准输出数据,基于各标准输出数据与各样本输出数据得到第一蒸馏损失。
可选地,经过上述实施例介绍可以知道,样本输出数据为初始网络模型针对样本原始数据输出的,那么样本输出数据的拟合目标即为预设保护函数对相同样本原始数据进行处理后的各标准输出数据,得到样本输出数据之后,需要获取预设保护函数对各样本原始数据处理后的各标准输出数据,进而各标准输出数据与各样本输出数据可以进行比较,根据数据比较结果来训练初始网络模型,以使得初始网络模型基于数据比较结果学习预设保护函数的计算特征。
可选地,训练初始网络模型时,通常会根据训练需求构建损失函数,损失函数可以评价网络模型输出的预测值和真实值不一样的程度,基于损失函数可以指导网络模型的优化方向,以使得网络模型的输出与标准值靠近,直至达到预设拟合效果。在本说明书实施例中,在构建损失函数时,可以基于各标准输出数据与各样本输出数据作为构建损失函数的一部分,由于预设保护函数与初始网络模型的输入都为样本原始数据,那么在知识蒸馏框架中,将预设保护函数作为教师网络,初始网络模型作为学生网络,初始网络模型能够学习到预设保护函数的计算特征,也即基于各标准输出数据与各样本输出数据,可以得到训练初始网络模型的第一蒸馏损失。
S203、计算各标准输出数据之间的第一相关性以及各样本输出数据之间的第二相关性,基于第一相关性和第二相关性得到第二蒸馏损失。
可选地,各样本输出数据与各标准输出数据得到的第一蒸馏损失,为初始网络模型与预设保护函数的输出数据之间的损失值,而考虑到预设保护函数的计算特征不仅可以体现在单个输出数据的取值特征中,还可以体现在多个输出数据之间的相关性特征中,多个输出数据之间的相关性为输出数据所对应向量之间的相对距离,多个输出数据之间的相关性也就能够表示输出数据的向量布局、各输出数据之间的位置信息,那么进一步地,也就说明多个标准输出数据之间的第一相关性可以表达预设保护函数的计算特征、多个样本输出数据之间的第二相关性可以表达初始网络模型的计算特征,也即计算各标准输出数据之间的第一相关性以及各样本输出数据之间的第二相关性之后,可以基于第一相关性和第二相关性得到第二蒸馏损失。
可选地,计算第一相关性时,标准输出数据的数量可以有多种情况,使得第一相关性能够具有一定特征用以表达预设保护函数的计算特征即可,例如,第一相关性可以表达标准输出数据之间的距离,也可以表达标准输出数据之间的位置分布等,那么此时第一相关性可以是两个标准输出数据之间的相关性,还可以是三个标准输出数据之间的相关性,或者任意数量标准输出数据之间的相关性,本说明书实施例对此不作限定。需要注意的是,第二相关性的计算方法与第一相关性相同,保证第二蒸馏损失用于训练初始网络模型的合理性。
S203、根据第一蒸馏损失和第二蒸馏损失构建第一损失函数,基于第一损失函数对初始网络模型进行第一训练,得到第一数据保护模型。
可选地,得到第一蒸馏损失以及第二蒸馏损失之后,可以基于第一蒸馏损失以及第二蒸馏损失训练初始网络模型,具体地,根据第一蒸馏损失和第二蒸馏损失构建第一损失函数,进而基于第一损失函数对初始网络模型进行第一训练,得到计算量较预设保护函数小且数据保护性能高效的第一数据保护模型第一数据保护模型。
可选地,构建第一损失函数时,可以将第一蒸馏损失和第二蒸馏损失之和作为第一损失函数,可以基于实际训练任务目标,预设第一蒸馏损失以及第二蒸馏损失的不同权重值,控制初始网络模型的训练重心,本说明书实施例不对权重值的设置进行具体限定。
在本说明书实施例中,提供一种数据保护模型训练方法,首先基于预设保护函数构建初始网络模型,将各样本原始数据输入初始网络模型,得到各样本输出数据;然后基于预设保护函数对各样本原始数据处理后的各标准输出数据与各样本输出数据得到第一蒸馏损失;基于各标准输出数据之间的第一相关性以及各样本输出数据之间的第二相关性,得到第二蒸馏损失;最终根据第一蒸馏损失和第二蒸馏损失对初始网络模型进行第一训练,得到第一数据保护模型。由于样本原始数据经过预设保护函数的处理后,在标准输出数据之间的第一相关性中能够体现预设保护函数处理数据时的计算特征,因此使用各标准输出数据之间的第一相关性以及各样本输出数据之间的第二相关性,来构建训练数据保护模型的损失计算,可以使得数据保护模型从输出数据之间相关性的角度,更准确的拟合预设保护函数处理数据时的计算特征和计算能力,得到更加准确的数据保护模型。
请参阅图3,图3为本说明书实施例提供的一种数据保护模型训练方法的流程示意图。
如图3所示,数据保护模型训练方法至少可以包括:
S301、获取至少两个样本原始数据,将各样本原始数据输入至初始网络模型,得到各样本原始数据对应的样本输出数据,其中,初始网络模型基于预设保护函数构建。
关于步骤S301,请参阅步骤S201中的详细记载,此处不再赘述。
S302、获取预设保护函数对各样本原始数据处理后的各标准输出数据。
可选地,样本输出数据为初始网络模型针对样本原始数据输出的,那么样本输出数据的拟合目标即为预设保护函数对相同样本原始数据进行处理后的各标准输出数据,得到样本输出数据之后,需要获取预设保护函数对各样本原始数据处理后的各标准输出数据,以便于后续初始网络模型基于各标准输出数据以及各样本输出数据进行训练。
S303、计算各标准输出数据与各标准输出数据对应的样本输出数据之间的第一子蒸馏损失,将各第一子蒸馏损失之和作为第一蒸馏损失。
可选地,得到各标准输出数据以及各样本输出数据之后,基于各标准输出数据以及各样本输出数据可以计算预设保护函数的输出与初始网络模型的输出之间的第一蒸馏损失,具体地,在计算第一蒸馏损失时,应该遵循标准输出数据与样本输出数据之间的对应关系,而标准输出数据与样本输出数据均为对同样的样本原始数据进行处理后得到的,进而同一样本原始数据在预设保护函数中对应的标准输出数据与在初始网络模型中的样本输出数据之间具有对应关系。
容易理解的,为了初始网络模型的拟合,需要将初始网络模型针对某一样本原始数据输出的样本输出数据与预设保护函数针对同一样本原始数据输出的标准输出数据进行比较计算,才能够实现训练效果,也即需要计算各标准输出数据与各标准输出数据对应的样本输出数据之间的第一子蒸馏损失,最终将各第一子蒸馏损失之和作为第一蒸馏损失。
例如,当样本原始数据有x1、x2、x3、x4,那么预设保护函数针对各样本原始数据进行处理后得到标准输出数据为f(x1)、f(x2)、f(x3)、f(x4),初始网络模型针对各样本原始数据进行处理后得到样本输出数据为F(x1)、F(x2)、F(x3)、F(x4),其中数据下标相同的样本原始数据、标准输出数据以及样本输出数据之间具有对应关系,此时,计算各标准输出数据与各标准输出数据对应的样本输出数据之间的欧式距离绝对值,得到第一子蒸馏损失,并将各第一子蒸馏损失之和作为第一蒸馏损失,也即,
Figure BDA0003836432880000111
S304、基于同一预设规则对各标准输出数据以及各样本输出数据进行分组,得到至少一组标准输出数据组以及各标准输出数据组对应的样本输出数据组。
可选地,从上述实施例的介绍可以知道,预设保护函数的计算特征不仅可以体现在单个输出数据的取值特征中,还可以体现在多个输出数据之间的相关性特征中,多个输出数据之间的相关性为输出数据所对应向量之间的相对距离,能够表示输出数据的向量布局、各输出数据之间的位置信息,那么进一步地,可以基于各标准输出数据之间的第一相关性以及各样本输出数据之间的第二相关性得到第二蒸馏损失,以使得初始网络模型的损失函数能够从更多角度拟合预设保护函数的计算特征,可以更快拟合出与预设保护函数相同的数据保护性能。
可选地,第一相关性以及第二相关性是多个数据之间的相关关系,因此第一相关性的计算与至少两个标准输出数据有关,以及第二相关性的计算至少两个样本输出数据有关,那么为了计算第一相关性和第二相关性,就需要对各标准输出数据以及各样本输出数据进行分组,得到至少一组标准输出数据组以及至少一组样本输出数据组,以使得后续根据各数据组进行相关性计算。
进一步地,由于预设保护函数和初始网络模型的输出数据是相同的样本原始数据,那么对应与同一样本原始数据的标准输出数据与样本输出数据之间具有对应关系,在基于第一相关性以及第二相关性计算第二蒸馏损失时,第一相关性与第二相关性之间的损失计算也需要遵循标准输出数据与样本输出数据之间的对应关系,因此为了保证第一相关性与第二相关性之间的对应关系,可以基于同一预设规则对各标准输出数据与各样本输出数据进行分组,也就保证各标准输出数据组与各样本输出数据组中依旧基于样本原始数据存在对应关系。
例如,样本原始数据有x1、x2、x3、x4,那么标准输出数据为f(x1)、f(x2)、f(x3)、f(x4),样本输出数据为F(x1)、F(x2)、F(x3)、F(x4),此时基于预设规则将标准输出数据分为两个标准输出数据组(f(x1),f(x2))、(f(x3),f(x4))、那么基于同一预设规则可以将样本输出数据分为两个样本输出数据组(F(x1),F(x2))、(F(x3),F(x4)),容易理解到,标准输出数据组(f(x1),f(x2))与样本输出数据组(F(x1),F(x2))具有对应关系,标准输出数据组(f(x3),f(x4))与样本输出数据组(F(x3),F(x4))具有对应关系。
可选地,对于具体的用于分组的预设规则,一种可行的实施方式是设置一个具有预设尺寸的数据选取区域,将处于同一数据选取区域内的数据分为同一组,在实际设置中,为了减少计算量,数据选取区域的预设尺寸可以较小,此时数据选取区域中包括的数据也就较少,可以保证较少的数据分在同一组,以减少数据量。
S305、分别计算每一组标准输出数据组中各标准输出数据之间的第一相关性,以及分别计算每一组样本输出数据组中各样本输出数据之间的第二相关性。
可选地,两个数据所对应向量之间的余弦距离为局部相关性,数据之间的局部相关性可以表示出数据之间的相对距离位置信息,那么计算各标准输出数据组的第一相关性与各样本输出数据组的第二相关性时,可以分别计算每一组标准输出数据组中各标准输出数据之间的局部相关性作为第一相关性,以及分别计算每一组样本输出数据组中各样本输出数据之间的局部相关性作为第二相关性。
例如,当样本原始数据有x1、x2、x3、x4,那么标准输出数据为f(x1)、f(x2)、f(x3)、f(x4),样本输出数据为F(x1)、F(x2)、F(x3)、F(x4),基于同一预设规则进行分组后,得到标准输出数据组(f(x1),f(x2))、(f(x3),f(x4)),以及样本输出数据组(F(x1),F(x2))、(F(x3),F(x4)),此时分别计算得到各标准输出数据组的局部相关性,也即第一相关性为R(f(x1),f(x2))、R(f(x3),f(x4)),以及分别计算得到各样本输出数据组的局部相关性,也即第二相关性为R(F(x1),F(x2))、R(F(x3),F(x4)),其中,第一相关性R(f(x1),f(x2))与第二相关性R(F(x1),F(x2))对应,第一相关性R(f(x3),f(x4))与第二相关性R(F(x3),F(x4))对应。
S306、计算各第一相关性与各第一相关性对应的第二相关性之间的第二子蒸馏损失,将各第二子蒸馏损失之和作为第二蒸馏损失。
可选地,得到每一组标准输出数据组中标准输出数据的第一相关性以及每一组样本输出数据组中样本输出数据的第二相关性之后,可以将各第一相关性与各第二相关性进行比较计算,在具体的计算过程中,由于各标准输出数据与各样本输出数据之间基于样本原始数据而具有对应关系,并且基于同一预设规则分组后,各标准输出数据组与各样本输出数据组之间依旧具有对应关系,那么可以计算各第一相关性与各第一相关性对应的第二相关性之间的第二子蒸馏损失,最终将各第二子蒸馏损失之和作为第二蒸馏损失。
例如,当样本原始数据有x1、x2、x3、x4,那么标准输出数据为f(x1)、f(x2)、f(x3)、f(x4),样本输出数据为F(x1)、F(x2)、F(x3)、F(x4),经过分组得到标准输出数据组(f(x1),f(x2))、(f(x3),f(x4)),以及样本输出数据组(F(x1),F(x2))、(F(x3),F(x4)),并且计算第一相似度得到R(f(x1),f(x2))、R(f(x3),f(x4)),第二相关性为R(F(x1),F(x2))、R(F(x3),F(x4)),那么基于对应关系可以计算各第一相关性与各第一相关性对应的第二相关性之间的第二子蒸馏损失,并且将各第二子蒸馏损失之和作为第二蒸馏损失,也即,
Figure BDA0003836432880000131
S307、根据第一蒸馏损失和第二蒸馏损失构建第一损失函数,基于第一损失函数对初始网络模型进行第一训练,得到第一数据保护模型。
可选地,得到第一蒸馏损失以及第二蒸馏损失之后,可以基于第一蒸馏损失以及第二蒸馏损失训练初始网络模型,也即根据第一蒸馏损失和第二蒸馏损失构建第一损失函数,进而基于第一损失函数对初始网络模型进行第一训练,将初始网络模型训练至收敛,得到计算量较预设保护函数小且数据保护性能高效的第一数据保护模型。具体地,构建第一损失函数时,可以将第一蒸馏损失和第二蒸馏损失之和作为第一损失函数。
例如,当样本原始数据有x1、x2、x3、x4,那么基于第一蒸馏损失loss1以及第二蒸馏损失loss2,可以构建得到第一损失函数为,
Figure BDA0003836432880000141
在本说明书实施例中,提供一种数据保护模型训练方法,将各标准输出数据与各标准输出数据对应的样本输出数据之间的第一子蒸馏损失之和作为第一蒸馏损失;基于同一预设规则对各标准输出数据以及各样本输出数据进行分组,保证标准输出数据组与样本输出数据组之间的对应关系,基于对应关系计算各第一相关性与各第一相关性对应的第二相关性之间的第二子蒸馏损失,将各第二子蒸馏损失之和作为第二蒸馏损失。初始网络模型不仅基于单个输出数据的取值特征进行训练,还基于多个数据之间的相关性进行训练,可以从多种数据角度去拟合预设保护函数的计算特征的,最终可以得到比预设保护函数的计算量小且数据保护性能同样高效的第一数据保护模型。
请参阅图4,图4为本说明书实施例提供的一种数据保护模型训练方法的流程示意图。
如图4所示,用户软件需求处理方法至少可以包括:
S401、获取至少两个样本原始数据,将各样本原始数据输入至初始网络模型,得到各样本原始数据对应的样本输出数据,其中,初始网络模型基于预设保护函数构建。
S402、获取预设保护函数对各样本原始数据处理后的各标准输出数据,基于各标准输出数据与各样本输出数据得到第一蒸馏损失。
S403、计算各标准输出数据之间的第一相关性以及各样本输出数据之间的第二相关性,基于第一相关性和第二相关性得到第二蒸馏损失。
S404、根据第一蒸馏损失和第二蒸馏损失构建第一损失函数,基于第一损失函数对初始网络模型进行第一训练,得到第一数据保护模型。
关于步骤S401-S404,请参阅步骤S201-S204中的详细记载,此处不再赘述。
S405、获取样本原始数据,将各样本原始数据输入至第一数据保护模型,以及基于第一损失函数得到第一损失结果。
可选地,对于第一训练得到的第一数据保护模型,考虑到预设保护函数的复杂性以及样本原始数据的多样化,在多次迭代训练中,第一数据保护模型的精度可能越来越高,也会在此过程中优化出大量网络参数,而对样本原始数据的计算精度过高可能导致在实际场景中出现过拟合现象,并且大量网络参数中也存在对计算重要程度较低而可以忽略的参数,那么为了进一步优化第一数据保护模型,可以对第一数据保护模型进行第二训练,对第一数据保护模型进行网络裁剪,去除第一数据保护模型中的部分可忽略网络参数,进一步减小数据保护模型的计算量,提高模型的计算效率以及增强模型在实际场景中的适用能力。
可选地,为了对第一数据保护模型进行第二训练时,为了保证训练得到的模型在性能方面不会与已训练好的性能出现太大偏差,可以使用第一训练中相同的样本原始数据,可以将第一训练中的第一损失函数作为第二训练中损失函数的一部分,用来约束第二训练中数据保护模型的优化方向,在保证模型的数据保护性能的前提下进行计算量和计算效率优化。那么就可以获取第一训练中使用的样本原始数据,将各样本原始数据输入至第一数据保护模型,以及基于第一损失函数得到第一损失结果,后续可以将第一损失结果作为用于第二训练的损失函数的一部分,保证模型的数据保护性能。
S406、基于第一数据保护模型中的网络参数计算第一数据保护模型的稀疏损失。
可选地,为了对第一数据保护模型进行网络裁剪,去除其中多余的网络参数,缩小第一数据保护模型的体量,那么首先需要基于第一数据保护模型中的网络参数进行计算,判断第一数据保护模型的稀疏性,网络越稀疏,代表可裁剪的网络参数越多,那么经过裁剪之后的网络就可以越小,计算效率就越高,根据网络稀疏性训练第一数据保护模型,实现调整模型中网络参数的稀疏程度,直至模型的稀疏性达到预设目标。
进一步地,计算第一数据保护模型的稀疏约束时可以基于L1范式进行计算,L1范数是指向量中各个元素绝对值之和,也即“稀疏规则算子”(Lasso regularization,LeastAbsolute Shrinkage and SelectionOperator(LASSO)),又称线性回归的L1正则,因为网络模型的L1范数就是各个网络参数的绝对值相加得到的,参数值大小和模型复杂度是成正比的,因此越复杂的模型,其L1范数就越大,最终导致与L1范数相关的损失函数就大,也就说明此时该模型的还需要进行网络裁剪优化。
在本说明书实施例中,可以基于第一数据保护模型中的网络参数计算第一数据保护模型的稀疏损失,当第一数据保护模型的网络参数用θ表示,那么第一数据保护模型的稀疏损失,可以通过L1范式计算表示为
S=||θ||1
S407、根据第一损失结果以及稀疏损失构建第二损失函数,基于第二损失函数对第一数据保护模型进行第二训练,得到第二数据保护模型。
可选地,得到第一损失结果以及稀疏损失之后,可以根据第一损失结果以及稀疏损失构建第二损失函数,进而基于第二损失函数对第一数据保护模型进行第二训练,得到计算体量更小、计算效率更高的第二数据保护模型。
具体地,由于第一损失结果是靠近预设保护函数的方向进行拟合,而稀疏损失则是靠近裁剪网络参数的方向进行拟合,那么为了最终得到的第二数据保护模型可以在数据保护性能与计算效率之间达到平衡状态,可以设置预设第一损失结果以及稀疏损失具有不同权重值,以调整二者在第二损失函数中的比重,进而控制第一数据保护模型的训练方向,也即构建构建第二损失函数时,首先获取第一损失结果的第一损失权重以及稀疏损失的第二损失权重,根据第一损失权重与第一损失结果的乘积以及第二损失权重与稀疏损失的乘积,构建第二损失函数。
为方便理解,将第一损失权重表示为α,将第二损失权重表示为β,第一数据保护模型的第一损失函数对应的第一损失结果为Loss,第一数据保护模型的稀疏损失为S,那么第二损失函数表示为,
Losstotal=α*Loss+β*S。
可选地,在通过第二损失函数训练第一数据保护模型时,由于第一数据保护模型在训练过程中不断调整参数以及网络结构,那么相应的第一损失权重以及第二损失权重都需要基于每次网络调整而进行修改,此时可以人工进行修改,也可以进入一个用于学习损失权重的元网络,作为预设权重网络模型,元网络可以进行无监督学习,基于第一数据保护模型的每一次第二损失函数对应的第二损失结果进行训练,并继续输出更新的第一损失函数的第一损失权重以及稀疏损失的第二损失权重,也即根据上一次训练过程得到的第二损失结果以及预设权重网络模型,基于第二损失结果训练预设权重网络模型,得到第一损失函数的第一损失权重以及稀疏损失的第二损失权重。
可选地,那么当第一数据保护模型连接了预设权重网络模型之后,基于第二损失函数对第一数据保护模型进行第二训练的同时,还可以基于第二损失函数对预设权重网络模型进行第三训练。其中,第一数据保护模型与预设权重网络模型进行交替训练。
在本说明书实施例中,提供一种数据保护模型训练方法,对第一数据保护模型进行第二训练,基于第一数据保护模型的稀疏损失,判断第一数据保护模型的网络参数稀疏程度,在保证第一数据保护模型的数据保护性能的同时根据稀疏损失裁剪不必要的网络参数,缩小第一数据保护模型的网络体量,经过训练得到数据保护性能优秀、计算效率高且网络规模更小的第二数据保护模型,也就增强了第二数据保护模型在实际场景中的部署能力以及适应性。
请参阅图5,图5为本说明书实施例提供的一种数据保护方法的流程示意图。
如图5所示,数据保护方法至少可以包括:
S501、响应数据加密请求,基于数据加密模型对目标原始数据进行加密处理,得到目标原始数据对应的目标加密数据。
可选地,在实际应用场景中,为了实现用户隐私数据的保护,可以在设备中部署数据保护模型,此时设备基于数据保护模型可以获取对相关数据进行保护处理。当需要对数据进行加密时,设备中部署有数据加密模型,此时可以首先响应数据加密请求,基于已部署的数据加密模型对获取到的目标原始数据进行加密处理,得到目标原始数据对应的目标加密数据,其中,使用的数据保护模型为本说明书任一实施例中的数据保护模型。
在本说明书实施例中,当预设保护函数为同态加密函数时,数据保护模型能够实现与同态加密函数等效的数据保护性能,在实际场景中,设备响应数据加密请求后,基于数据加密模型对目标原始数据进行加密处理得到目标加密数据之后,可以直接将目标加密数据上传至服务器以使得服务器对目标加密数据进行计算,而由于数据加密模型的加密效果,使得服务器对目标加密数据的计算结果与服务器对目标原始数据的计算结果等效,也就使得服务器在不知道目标原始数据的情况下,直接在目标加密数据的基础上计算来满足响应的用户需求,这就避免了目标原始数据暴露在数据传输、存储、计算过程中,此时数据加密模型在减少设备计算压力的同时,以较小计算量实现了类同态的高效安全的加密效果,极大提高了小算力设备的加密性能,更严密的保护了用户信息安全。
S502、响应数据解密请求,基于数据解密模型对目标加密数据进行解密处理,得到目标原始数据对应的目标解密数据。
同样的,当需要对数据进行解密时,设备中部署有数据解密模型,此时可以首先响应数据解密请求,基于已部署的数据解密模型对获取到的目标解密数据进行解密处理,得到对应的目标解密数据,其中,使用的数据保护模型为本说明书任一实施例中的数据保护模型。
在本说明书实施例中,提供一种数据保护方法,在实际应用场景中部署使用前述任一实施例中的数据保护模型,响应数据加密请求,基于数据加密模型对目标原始数据进行加密处理,得到目标原始数据对应的目标加密数据;响应数据解密请求,基于数据解密模型对目标加密数据进行解密处理,得到目标原始数据对应的目标解密数据,以使得减少设备进行数据保护处理时的计算量,提高计算效率,实现数据安全保障。
请参阅图6,图6为本说明书实施例提供的一种数据保护模型训练装置的结构框图。如图6所示,数据保护模型训练装置600包括:
数据获取模块610,用于获取至少两个样本原始数据,将各样本原始数据输入至初始网络模型,得各样本原始数据对应的样本输出数据,其中,初始网络模型基于预设保护函数构建;
第一损失计算模块620,用于获取预设保护函数对各样本原始数据处理后的各标准输出数据,基于各标准输出数据与各样本输出数据得到第一蒸馏损失;
第二损失计算模块630,用于计算各标准输出数据之间的第一相关性以及各样本输出数据之间的第二相关性,基于第一相关性和第二相关性得到第二蒸馏损失;
第一模型训练模块630,用于根据第一蒸馏损失和第二蒸馏损失构建第一损失函数,基于第一损失函数对初始网络模型进行第一训练,得到第一数据保护模型。
可选地,第一损失计算模块620,还用于计算各标准输出数据与各标准输出数据对应的样本输出数据之间的第一子蒸馏损失,将各第一子蒸馏损失之和作为第一蒸馏损失。
可选地,第二损失计算模块630,还用于基于同一预设规则对各标准输出数据以及各样本输出数据进行分组,得到至少一组标准输出数据组以及各标准输出数据组对应的样本输出数据组;分别计算每一组标准输出数据组中各标准输出数据之间的第一相关性,以及分别计算每一组样本输出数据组中各样本输出数据之间的第二相关性。
可选地,第二损失计算模块630,还用于计算各第一相关性与各第一相关性对应的第二相关性之间的第二子蒸馏损失,将各第二子蒸馏损失之和作为第二蒸馏损失。
可选地,数据保护模型训练装置600还包括:第二模型训练模块,用于获取样本原始数据,将各样本原始数据输入至第一数据保护模型,以及基于第一损失函数得到第一损失结果;基于第一数据保护模型中的网络参数计算第一数据保护模型的稀疏损失;根据第一损失结果以及稀疏损失构建第二损失函数,基于第二损失函数对第一数据保护模型进行第二训练,得到第二数据保护模型。
可选地,第二模型训练模块,还用于获取第一损失结果的第一损失权重以及稀疏损失的第二损失权重;根据第一损失权重与第一损失结果的乘积以及第二损失权重与稀疏损失的乘积,构建第二损失函数。
可选地,第二模型训练模块,还用于根据上一次训练过程得到的第二损失结果以及预设权重网络模型,得到第一损失函数的第一损失权重以及稀疏损失的第二损失权重。
可选地,第二模型训练模块,还用于基于第二损失函数对第一数据保护模型进行第二训练以及对预设权重网络模型进行第三训练。
可选地,预设保护函数为预设加密函数或者预设解密函数。
在本说明书实施例中,提供一种数据保护模型训练装置,其中,数据获取模块,用于基于预设保护函数构建初始网络模型,将各样本原始数据输入初始网络模型,得到各样本输出数据;第一损失计算模块,用于基于预设保护函数对各样本原始数据处理后的各标准输出数据与各样本输出数据得到第一蒸馏损失;第二损失计算模块,用于基于各标准输出数据之间的第一相关性以及各样本输出数据之间的第二相关性,得到第二蒸馏损失;第一模型训练模块,用于根据第一蒸馏损失和第二蒸馏损失对初始网络模型进行第一训练,得到第一数据保护模型。由于样本原始数据经过预设保护函数的处理后,在标准输出数据之间的第一相关性中能够体现预设保护函数处理数据时的计算特征,因此使用各标准输出数据之间的第一相关性以及各样本输出数据之间的第二相关性,来构建训练数据保护模型的损失计算,可以使得数据保护模型从输出数据之间相关性的角度,更准确的拟合预设保护函数处理数据时的计算特征和计算能力,得到更加准确的数据保护模型。
请参阅图7,图7为本说明书实施例提供的一种数据保护装置的结构框图。如图7所示,数据保护装置700包括:
加密模块710,用于响应数据加密请求,基于数据加密模型对目标原始数据进行加密处理,得到目标原始数据对应的目标加密数据;
解密模块720,用于响应数据解密请求,基于数据解密模型对目标加密数据进行解密处理,得到目标原始数据对应的目标解密数据;
其中,数据加密模型或数据解密模型为本说明书任一实施例中的数据保护模型训练方法训练得到的数据保护模型。
在本说明书实施例中,提供一种数据保护装置,其中,在实际应用场景中部署使用前述任一实施例中的数据保护模型,加密模块,用于响应数据加密请求,基于数据加密模型对目标原始数据进行加密处理,得到目标原始数据对应的目标加密数据;解密模块,用于响应数据解密请求,基于数据解密模型对目标加密数据进行解密处理,得到目标原始数据对应的目标解密数据,以使得减少设备进行数据保护处理时的计算量,提高计算效率,实现数据安全保障。
本说明书实施例提供一种包含指令的计算机程序产品,当所述计算机程序产品在计算机或处理器上运行时,使得所述计算机或所述处理器执行上述实施例中任一项的方法的步骤。
本说明书实施例还提供了一种计算机存储介质,计算机存储介质可以存储有多条指令,指令适于由处理器加载并执行如上述实施例中的任一项的方法的步骤。
请参见图8,图8为本说明书实施例提供的一种终端的结构示意图。如图8所示,终端800可以包括:至少一个终端处理器801,至少一个网络接口803,用户接口803,存储器805,至少一个通信总线802。
其中,通信总线802用于实现这些组件之间的连接通信。
其中,用户接口803可以包括显示屏(Display)、摄像头(Camera),可选用户接口803还可以包括标准的有线接口、无线接口。
其中,网络接口803可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。
其中,终端处理器801可以包括一个或者多个处理核心。终端处理器801利用各种接口和线路连接整个终端800内的各个部分,通过运行或执行存储在存储器805内的指令、程序、代码集或指令集,以及调用存储在存储器805内的数据,执行终端800的各种功能和处理数据。可选的,终端处理器801可以采用数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(Programmable Logic Array,PLA)中的至少一种硬件形式来实现。终端处理器801可集成中心处理器(Central Processing Unit,CPU)、图像处理器(Graphics Processing Unit,GPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作系统、用户界面和应用程序等;GPU用于负责显示屏所需要显示的内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到终端处理器801中,单独通过一块芯片进行实现。
其中,存储器805可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory,ROM)。可选的,该存储器805包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器805可用于存储指令、程序、代码、代码集或指令集。存储器805可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现上述各个方法实施例的指令等;存储数据区可存储上面各个方法实施例中涉及到的数据等。存储器805可选的还可以是至少一个位于远离前述终端处理器801的存储装置。如图8所示,作为一种计算机存储介质的存储器805中可以包括操作系统、网络通信模块、用户接口模块以及数据保护模型训练程序。
在图8所示的终端800中,用户接口803主要用于为用户提供输入的接口,获取用户输入的数据;而终端处理器801可以用于调用存储器805中存储的数据保护模型训练程序,并具体执行以下操作:
获取至少两个样本原始数据,将各样本原始数据输入至初始网络模型,得到各样本原始数据对应的样本输出数据,其中,初始网络模型基于预设保护函数构建;
获取预设保护函数对各样本原始数据处理后的各标准输出数据,基于各标准输出数据与各样本输出数据得到第一蒸馏损失;
计算各标准输出数据之间的第一相关性以及各样本输出数据之间的第二相关性,基于第一相关性和第二相关性得到第二蒸馏损失;
根据第一蒸馏损失和第二蒸馏损失构建第一损失函数,基于第一损失函数对初始网络模型进行第一训练,得到第一数据保护模型。
在一些实施例中,终端处理器801在执行基于各标准输出数据与各样本输出数据得到第一蒸馏损失时,具体执行以下步骤:计算各标准输出数据与各标准输出数据对应的样本输出数据之间的第一子蒸馏损失,将各第一子蒸馏损失之和作为第一蒸馏损失。
在一些实施例中,终端处理器801在执行计算各标准输出数据之间的第一相关性以及各样本输出数据之间的第二相关性时,具体执行以下步骤:基于同一预设规则对各标准输出数据以及各样本输出数据进行分组,得到至少一组标准输出数据组以及各标准输出数据组对应的样本输出数据组;分别计算每一组标准输出数据组中各标准输出数据之间的第一相关性,以及分别计算每一组样本输出数据组中各样本输出数据之间的第二相关性。
在一些实施例中,终端处理器801在执行基于第一相关性和第二相关性得到第二蒸馏损失时,具体执行以下步骤:计算各第一相关性与各第一相关性对应的第二相关性之间的第二子蒸馏损失,将各第二子蒸馏损失之和作为第二蒸馏损失。
在一些实施例中,终端处理器801在执行得到第一数据保护模型之后,还具体执行以下步骤:获取样本原始数据,将各样本原始数据输入至第一数据保护模型,以及基于第一损失函数得到第一损失结果;基于第一数据保护模型中的网络参数计算第一数据保护模型的稀疏损失;根据第一损失结果以及稀疏损失构建第二损失函数,基于第二损失函数对第一数据保护模型进行第二训练,得到第二数据保护模型。
在一些实施例中,终端处理器801在执行根据第一损失结果以及稀疏损失构建第二损失函数时,具体执行以下步骤:获取第一损失结果的第一损失权重以及稀疏损失的第二损失权重;根据第一损失权重与第一损失结果的乘积以及第二损失权重与稀疏损失的乘积,构建第二损失函数。
在一些实施例中,终端处理器801在执行获取第一损失函数的第一损失权重以及稀疏损失的第二损失权重时,具体执行以下步骤:根据上一次训练过程得到的第二损失结果以及预设权重网络模型,得到第一损失函数的第一损失权重以及稀疏损失的第二损失权重。
在一些实施例中,终端处理器801在执行基于第二损失函数对第一数据保护模型进行第二训练时,具体执行以下步骤:基于第二损失函数对第一数据保护模型进行第二训练以及对预设权重网络模型进行第三训练。
在一些实施例中,预设保护函数为预设加密函数或者预设解密函数。
可选地,在图8所示的终端800中,用户接口803主要用于为用户提供输入的接口,获取用户输入的数据;而终端处理器801还可以用于调用存储器805中存储的数据保护程序,并具体执行以下操作:
响应数据加密请求,基于数据加密模型对目标原始数据进行加密处理,得到目标原始数据对应的目标加密数据;
响应数据解密请求,基于数据解密模型对目标加密数据进行解密处理,得到目标原始数据对应的目标解密数据;
其中,数据加密模型或数据解密模型为上述实施例中任一项包括的数据保护模型训练方法训练得到的数据保护模型。
在本说明书所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。上述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行上述计算机程序指令时,全部或部分地产生按照本说明书实施例上述的流程或功能。上述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。上述计算机指令可以存储在计算机可读存储介质中,或者通过上述计算机可读存储介质进行传输。上述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DigitalSubscriberLine,DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。上述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。上述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,数字多功能光盘(DigitalVersatileDisc,DVD))、或者半导体介质(例如,固态硬盘(SolidStateDisk,SSD))等。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本说明书并不受所描述的动作顺序的限制,因为依据本说明书,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本说明书所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上为对本说明书所提供的一种数据保护模型训练及数据保护方法、装置以及存储介质的描述,对于本领域的技术人员,依据本说明书实施例的思想,在具体实施方式及应用范围上均会有改变之处,综上,本说明书内容不应理解为对本说明书的限制。

Claims (15)

1.一种数据保护模型训练方法,所述方法包括:
获取至少两个样本原始数据,将各样本原始数据输入至初始网络模型,得到各样本原始数据对应的样本输出数据,其中,所述初始网络模型基于预设保护函数构建;
获取所述预设保护函数对各样本原始数据处理后的各标准输出数据,基于各标准输出数据与各样本输出数据得到第一蒸馏损失;
计算各标准输出数据之间的第一相关性以及各样本输出数据之间的第二相关性,基于所述第一相关性和所述第二相关性得到第二蒸馏损失;
根据所述第一蒸馏损失和所述第二蒸馏损失构建第一损失函数,基于所述第一损失函数对所述初始网络模型进行第一训练,得到第一数据保护模型。
2.根据权利要求1所述的方法,所述基于各标准输出数据与各样本输出数据得到第一蒸馏损失,包括:
计算各标准输出数据与各标准输出数据对应的样本输出数据之间的第一子蒸馏损失,将各第一子蒸馏损失之和作为第一蒸馏损失。
3.根据权利要求1所述的方法,所述计算各标准输出数据之间的第一相关性以及各样本输出数据之间的第二相关性,包括:
基于同一预设规则对各标准输出数据以及各样本输出数据进行分组,得到至少一组标准输出数据组以及各标准输出数据组对应的样本输出数据组;
分别计算每一组标准输出数据组中各标准输出数据之间的第一相关性,以及分别计算每一组样本输出数据组中各样本输出数据之间的第二相关性。
4.根据权利要求3所述的方法,所述基于所述第一相关性和所述第二相关性得到第二蒸馏损失,包括:
计算各第一相关性与各第一相关性对应的第二相关性之间的第二子蒸馏损失,将各第二子蒸馏损失之和作为第二蒸馏损失。
5.根据权利要求1至3任一项所述的方法,所述得到第一数据保护模型之后,还包括:
获取所述样本原始数据,将各样本原始数据输入至所述第一数据保护模型,以及基于所述第一损失函数得到第一损失结果;
基于所述第一数据保护模型中的网络参数计算所述第一数据保护模型的稀疏损失;
根据所述第一损失结果以及所述稀疏损失构建第二损失函数,基于所述第二损失函数对所述第一数据保护模型进行第二训练,得到第二数据保护模型。
6.根据权利要求5所述的方法,所述根据所述第一损失结果以及所述稀疏损失构建第二损失函数,包括:
获取所述第一损失结果的第一损失权重以及所述稀疏损失的第二损失权重;
根据所述第一损失权重与所述第一损失结果的乘积以及所述第二损失权重与所述稀疏损失的乘积,构建第二损失函数。
7.根据权利要求6所述的方法,所述获取所述第一损失函数的第一损失权重以及所述稀疏损失的第二损失权重,包括:
根据上一次训练过程得到的第二损失结果以及预设权重网络模型,得到所述第一损失函数的第一损失权重以及所述稀疏损失的第二损失权重。
8.根据权利要求7所述的方法,所述基于所述第二损失函数对所述第一数据保护模型进行第二训练,包括:
基于所述第二损失函数对所述第一数据保护模型进行第二训练以及对所述预设权重网络模型进行第三训练。
9.根据权利要求1所述的方法,所述预设保护函数为预设加密函数或者预设解密函数。
10.一种数据保护方法,所述方法包括:
响应数据加密请求,基于数据加密模型对目标原始数据进行加密处理,得到所述目标原始数据对应的目标加密数据;
响应数据解密请求,基于数据解密模型对所述目标加密数据进行解密处理,得到所述目标原始数据对应的目标解密数据;
其中,所述数据加密模型或所述数据解密模型为权利要求1至9任意一项所述的数据保护模型训练方法训练得到的数据保护模型。
11.一种数据保护模型训练装置,所述装置包括:
数据获取模块,用于获取至少两个样本原始数据,将各样本原始数据输入至初始网络模型,得各样本原始数据对应的样本输出数据,其中,所述初始网络模型基于预设保护函数构建;
第一损失计算模块,用于获取所述预设保护函数对各样本原始数据处理后的各标准输出数据,基于各标准输出数据与各样本输出数据得到第一蒸馏损失;
第二损失计算模块,用于计算各标准输出数据之间的第一相关性以及各样本输出数据之间的第二相关性,基于所述第一相关性和所述第二相关性得到第二蒸馏损失;
第一模型训练模块,用于根据所述第一蒸馏损失和所述第二蒸馏损失构建第一损失函数,基于所述第一损失函数对所述初始网络模型进行第一训练,得到第一数据保护模型。
12.一种数据保护装置,所述装置包括:
加密模块,用于响应数据加密请求,基于数据加密模型对目标原始数据进行加密处理,得到所述目标原始数据对应的目标加密数据;
解密模块,用于响应数据解密请求,基于数据解密模型对所述目标加密数据进行解密处理,得到所述目标原始数据对应的目标解密数据;
其中,所述数据加密模型或所述数据解密模型为权利要求1至9任意一项所述的数据保护模型训练方法训练得到的数据保护模型。
13.一种包含指令的计算机程序产品,当所述计算机程序产品在计算机或处理器上运行时,使得所述计算机或所述处理器执行如权利要求1至9或者10任意一项所述方法的步骤。
14.一种计算机存储介质,所述计算机存储介质存储有多条指令,所述指令适于由处理器加载并执行如权利要求1至9或者10任意一项的所述方法的步骤。
15.一种终端,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如权利要求1至9或者10任一项所述方法的步骤。
CN202211089109.8A 2022-09-07 2022-09-07 数据保护模型训练及数据保护方法、装置以及存储介质 Pending CN116150774A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211089109.8A CN116150774A (zh) 2022-09-07 2022-09-07 数据保护模型训练及数据保护方法、装置以及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211089109.8A CN116150774A (zh) 2022-09-07 2022-09-07 数据保护模型训练及数据保护方法、装置以及存储介质

Publications (1)

Publication Number Publication Date
CN116150774A true CN116150774A (zh) 2023-05-23

Family

ID=86358818

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211089109.8A Pending CN116150774A (zh) 2022-09-07 2022-09-07 数据保护模型训练及数据保护方法、装置以及存储介质

Country Status (1)

Country Link
CN (1) CN116150774A (zh)

Similar Documents

Publication Publication Date Title
CN111814985B (zh) 联邦学习网络下的模型训练方法及其相关设备
WO2020199693A1 (zh) 一种大姿态下的人脸识别方法、装置及设备
US20200394253A1 (en) Systems and Methods of Distributed Optimization
WO2021120677A1 (zh) 一种仓储模型训练方法、装置、计算机设备及存储介质
WO2022105117A1 (zh) 一种图像质量评价的方法、装置、计算机设备及存储介质
EP4202768A1 (en) Machine learning model training method and related device
US11106809B2 (en) Privacy-preserving transformation of continuous data
US20240289636A1 (en) Method, electronic device and storage medium for training federated learning model
CA3058498A1 (en) Method and apparatus for encrypting data, method and apparatus for training machine learning model, and electronic device
CN112818374A (zh) 一种模型的联合训练方法、设备、存储介质及程序产品
CN112989399A (zh) 数据处理系统及方法
CN116432040B (zh) 基于联邦学习的模型训练方法、装置、介质以及电子设备
CN113935050A (zh) 基于联邦学习的特征提取方法和装置、电子设备、介质
CN114338090A (zh) 数据安全性检测方法、装置及电子设备
CN113191504B (zh) 一种面向计算资源异构的联邦学习训练加速方法
CN114841361A (zh) 一种模型训练方法及其相关设备
CN112149834B (zh) 模型训练方法、装置、设备和介质
CN116150774A (zh) 数据保护模型训练及数据保护方法、装置以及存储介质
US12088565B2 (en) Systems and methods for privacy preserving training and inference of decentralized recommendation systems from decentralized data
CN111709784B (zh) 用于生成用户留存时间的方法、装置、设备和介质
CN116150775A (zh) 数据保护模型训练及数据保护方法、装置以及存储介质
CN115329888A (zh) 一种信息融合方法和装置
CN113537493A (zh) 人工智能模型训练方法、装置、远端平台和可读存储介质
CN114004265A (zh) 一种模型训练方法及节点设备
CN114726506A (zh) 数据加密方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination