CN118153666B

CN118153666B - 一种个性化联邦知识蒸馏模型构建方法

Info

Publication number: CN118153666B
Application number: CN202410578439.6A
Authority: CN
Inventors: 咸琳涛; 王拓; 刘建明; 刘晓兰; 肖�琳
Original assignee: Shandong Second Medical University
Current assignee: Shandong Second Medical University
Priority date: 2024-05-11
Filing date: 2024-05-11
Publication date: 2024-07-12
Anticipated expiration: 2044-05-11
Also published as: CN118153666A

Abstract

本申请公开了一种个性化联邦知识蒸馏模型构建方法，涉及联邦学习技术领域，包括：构建个性化联邦学习模型，根据神经网络的特性将训练神经网络分为云联合中心的基础层和客户端本地的个性化层，不同客户端的个性化层不同，所述基础层和个性化层组成客户端模型，提高模型准确率并且减少模型聚合过程中网络通信数据量。结合所述基础层、个性化层和每个客户端的本地私有数据集进行联合训练获得全局基础层模型，所述全局基础层模型用于客户端的下一轮迭代训练。通过二范式的权重聚合算法，提高高质量样本数据的权重，使模型训练更快的趋向于最优解，加快联合模型的收敛速度。设计联邦知识蒸馏策略，通过各客户端中模型知识相互转移，提高模型的泛化性。

Description

一种个性化联邦知识蒸馏模型构建方法

技术领域

本申请涉及联邦学习技术领域，具体涉及一种个性化联邦知识蒸馏模型构建方法。

背景技术

物联网已广泛应用到现代生活的各个方面，越来越多物联网智能服务和应用正在涌现。为了进一步提高物联网智能服务的质量，跨机构、跨企业的协同人工智能成为未来应用的趋势，但是跨机构或企业数据的集成会带来数据隐私安全的问题。联邦学习的架构致力于协调多个客户端实现神经网络模型的训练，而数据保留在本地客户端不需要原始数据的集成，达到了数据联合应用的效果。

联邦学习将模型训练与直接访问训练数据解耦，因此能够在数据不共享的情况下实现模型的训练。McMahan等人提出了经典的联邦平均算法FedAvg，客户端用本地数据训练模型，然后将模型参数传输到中央服务器，中央服务器将所有客户端模型参数加和平均，得到新的全局模型，并再传回到客户端。然而，物联网环境中的客户端、数据和模型具有异构性，如计算性能和带宽不同，数据分散在各个客户端，每个客户端样本数据的种类和数量不同，数据非独立同分布。并且不同的客户端需要按照自身的需求和应用环境设计模型。

传统的联邦学习侧重于学习所有客户端的公共知识，训练的全局模型需要有普适性，因此忽略了每个客户端的个性化细粒度信息，导致准确率下降。并且联邦学习需要客户端与中央服务器频繁的上传和下载模型参数，带来了严重的通信负担，而且通信负荷会随着模型大小和客户端数量增大而增加。

发明内容

本申请为了解决上述技术问题，提出了如下技术方案：

第一方面，本申请实施例提供了一种个性化联邦知识蒸馏模型构建方法，包括：

构建个性化联邦学习模型，所述个性化联邦学习模型包括云联合中心和与所述云联合中心交互的多个客户端；

根据神经网络的特性将训练神经网络分为云联合中心的基础层和客户端本地的个性化层，不同客户端的个性化层不同，所述基础层和个性化层组成客户端模型；

结合所述基础层、个性化层和每个客户端的本地私有数据集进行联合训练获得全局基础层模型，所述全局基础层模型用于客户端的下一轮迭代训练；

设计联邦知识蒸馏策略，通过各客户端中模型知识相互转移，提高模型的泛化性。

在一种可能的实现方式中，所述根据神经网络的特性将训练神经网络分为云联合中心的基础层和客户端本地的个性化层，包括：

根据神经网络不同层学习内容的不同，划分为基础层和个性化层；

按照客户端自身的物联网应用环境设计个性化层，

其中，所有客户端的基础层相同，即：，客户端模型表示为（，）。

在一种可能的实现方式中，所述结合所述基础层、个性化层和每个客户端的本地私有数据集进行联合训练获得全局基础层模型，包括：

云联合中心随机初始化基础层，将基础层和迭代次数发送到所有客户端；

客户端接收到所述基础层后与本地的个性化层组合成客户端模型；

客户端利用本地私有数据集按照迭代次数对所述客户端模型进行模型训练，并计算客户端基础层的聚合权重；

客户端保存模型，并将训练后的基础层和基础层的聚合权重发送到云联合中心；

云联合中心将所有客户端的基础层乘以聚合权重后进行聚合获得全局基础层模型。

在一种可能的实现方式中，所述客户端利用本地私有数据集按照迭代次数对所述客户端模型进行模型训练，并计算客户端基础层的聚合权重，包括：

设计了基于二范式的聚合权重计算方法，将客户端私有数据集对全局模型改变的大小作为客户端的贡献程度，即聚合权重；

在第i次迭代时客户端n使用本地私有数据对模型训练更新后，基础层与前一次迭代的全局基础层进行二范式求解，得到客户端n的聚合权重，计算方式如下所示：

其中，表示第n个客户端在第i次迭代使用本地私有数据集模型训练更新后的基础层，表示客户端本地训练更新前的全局基础层。

在一种可能的实现方式中，所述云联合中心将所有客户端的基础层乘以聚合权重后进行聚合获得全局基础层模型，包括：

在联合训练的过程中客户端使用本地的私有数据集进行训练，训练完成第i次迭代后，只上传基础层到云联合中心；

云联合中心收集所有客户端的基础层，并进行聚合，聚合方式如下：

式中表示第n个客户端在第i次迭代的聚合权重。

在一种可能的实现方式中，所述设计联邦知识蒸馏策略，通过各客户端中模型知识相互转移，提高模型的泛化性，包括：

所述云联合中心设置公共数据集，所述能够被所有客户端访问，所述由每个客户端贡献的少量数据组成；

云联合中心将所述分发到每个客户端；

客户端接收到所述后，输入到客户端模型，进行前向传播，计算得到本地预测标签，并发送到云联合中心；

云联合中心收到所有客户端的本地预测标签后，聚合求全局标签，每个客户端的全局标签是除自身客户端之外的其它客户端本地预测标签进行累加平均聚合获得；

云联合中心将全局标签发送到对应客户端；

客户端收到全局标签后，计算知识蒸馏损失，利用知识蒸馏损失反向传播，求得梯度并更新模型。

在一种可能的实现方式中，所述客户端收到全局标签后，计算知识蒸馏损失，包括：

其中，为第n个客户端在第i次迭代的本地预测标签，为公共数据集的真实标签，为第n个客户端在第i次迭代聚合的全局标签，为调节知识蒸馏影响程度的超参数，为损失函数。

在一种可能的实现方式中，所述每个客户端的全局标签是除自身客户端之外的其它客户端本地预测标签进行累加平均聚合获得，包括：

云联合中心接收客户端n发来的本地预测标签；

将本地预测标签累加，存储到临时变量；

累加的本地预测标签减去客户端n自身的本地预测标签；

累加的标签进行平均，得到对应客户端的全局标签;

发送全局标签到设备n。

在本申请实施例中，根据神经网络的特性将训练神经网络分为基础层和个性化层，提高模型准确率并且减少模型聚合过程中网络通信数据量。通过二范式的权重聚合算法，提高高质量样本数据的权重，使模型训练更快的趋向于最优解，加快联合模型的收敛速度。设计了联邦知识蒸馏策略，通过学习其它客户端的知识，提高模型的泛化性。

附图说明

图1为本申请实施例提供的一种个性化联邦知识蒸馏模型构建方法的流程示意图；

图2为本申请实施例提供的局部聚合个性化联邦学习模型示意图；

图3为本申请实施例提供的非独立同分布数据模型差异举例示意图；

图4为本申请实施例提供的全局标签隐含知识举例示意图；

图5为本申请实施例提供的联邦知识蒸馏示意图

图6为本申请实施例提供的方法准确率比较示意图；

图7为本申请实施例提供的方法准确率比较示意图；

图8为本申请实施例提供的模型的聚合次数分析示意图。

具体实施方式

下面结合附图与具体实施方式对本方案进行阐述。

参见图1，本实施例提供的一种个性化联邦知识蒸馏模型构建方法，包括：

S101，构建个性化联邦学习模型，所述个性化联邦学习模型包括云联合中心和与所述云联合中心交互的多个客户端。

参见图2，本实施例中构建的个性化联邦学习模型包括云联合中心和与所述云联合中心交互的多个客户端。在联邦学习的过程中参与训练的节点、机构或企业，统称为客户端，用集合表示，其中表示参与客户端数量。每个客户端拥有自身的私有数据集，且不能访问其它客户端的数据集。

S102，根据神经网络的特性将训练神经网络分为云联合中心的基础层和客户端本地的个性化层，不同客户端的个性化层不同，所述基础层和个性化层组成客户端模型。

联邦学习解决了数据孤岛问题，它能够联合所有客户端数据训练模型。但传统的联邦学习忽略了每个客户端的个性化因素。即联合训练的全局模型，在一些特定的物联网应用场景性能较差，甚至低于本地训练的模型。这是由于物联网客户端数据分布与整体数据分布存在差异造成的，该差异越大，模型的性能越差。全局模型注重学习所有客户端的粗粒度特征，从而忽略了每个客户端中细粒度信息的学习，相比与全局模型，每个客户端主要针对特定场景的应用。

众所周知，在深度神经网络中，较浅的神经网络层专注于普通和底层特征的学习，较深的神经网络层侧重学习事务的具体和高级的特征。例如卷积神经网络中，卷积层和池化层提取的是图像的边缘、纹理等低级特征，全连接层主要是进行分类特征的提取。

本实施例中，根据神经网络不同层学习内容的不同，划分为基础层和个性化层。按照客户端自身的物联网应用环境设计个性化层，其中，所有客户端的基础层相同，即：，客户端模型表示为（，）。

S103，结合所述基础层、个性化层和每个客户端的本地私有数据集进行联合训练获得全局基础层模型，所述全局基础层模型用于客户端的下一轮迭代训练。

在联合训练的过程中客户端使用本地的私有数据进行训练，训练完成第i次迭代后，只上传基础层到云联合中心，云联合中心收集所有客户端的基础层，并进行聚合，聚合后的基础层又和个性化层组成完整的神经网络进行下一轮迭代训练。

具体地，本实施例中云联合中心随机初始化基础层，将基础层和迭代次数发送到所有客户端；客户端接收到所述基础层后与本地的个性化层组合成客户端模型；客户端利用本地私有数据集按照迭代次数对所述客户端模型进行模型训练，并计算客户端基础层的聚合权重；客户端保存模型，并将训练后的基础层和基础层的聚合权重发送到云联合中心；云联合中心将所有客户端的基础层乘以聚合权重后进行聚合获得全局基础层模型。

由于传统联邦学习方法进行模型聚合时，聚合权重只与每个客户端数据集的大小成正比，因此模型聚合时较大数据集的客户端模型所占的权重较大，对全局模型的影响较大，较小数据集的客户端对全局模型的贡献可能变得微不足道。但在异构物联网环境中，客户端间的数据非独立同分布，每个客户端的样本类别不尽相同，那么较小数据集客户端的知识会被大数据集客户端所淹没。如图3示，聚合的全局模型更加靠近大数据集客户端的模型，与小数据集客户端的模型差异较大。

为缓解客户端数据集大小差异给模型聚合带来的影响，设计了基于二范式的聚合权重计算方法。将客户端私有数据集对全局模型改变的大小作为客户端的贡献程度，即聚合权重。在第i次迭代时客户端n使用本地私有数据对模型训练更新后，基础层与前一次迭代的全局基础层进行二范式求解，得到客户端n的聚合权重，计算方式如下所示：

获得聚合权重后，云联合中心收集所有客户端的基础层，并进行聚合，聚合方式如下：

式中表示第n个客户端在第i次迭代的聚合权重。

本实施例中联合训练算法过程参见表1和表2：

表1 联合训练算法客户端侧

表2联合训练算法云联合中心侧

S104，设计联邦知识蒸馏策略，通过各客户端中模型知识相互转移，提高模型的泛化性。

物联网应用环境的数据具有非独立同分布的特点，数据的类别不全面或某些类别数据较少是其中表现之一。为了让每个客户端具有识别本客户端数据之外的类别数据，提高模型的泛化能力，设计了联邦知识蒸馏。知识蒸馏方法能够将知识从一个模型（教师模型）转移到另一个模型（学生模型），最初用在模型压缩方面，一个复杂且知识丰富的教师模型，指导另一个学生模型训练，实现知识从教师模型到学生模型转移。例如在手写体数字识别任务MNIST中，不同类别的数据样本之间也可能会有相似之处，如图4所示，子图（a1）数据样本“2”有点像3，子图（b1）数据样本“2”有点像7，教师模型输出的全局标签会有0.14的概率为3或0.12的概率为7，会将识别“3”、“7”的知识和区别“2”、“3”、“7”的知识转移到学生模型，而真实标签中2的概率为1，包含的知识较少。

采用知识蒸馏概念，将本客户端的模型作为学生模型，其它客户端的模型作为教师模型，实现各个客户端模型知识的相互转移。联邦知识蒸馏的流程如图5所示。

所述云联合中心设置公共数据集，所述能够被所有客户端访问，所述由每个客户端贡献的少量数据组成。云联合中心将所述分发到每个客户端，客户端接收到所述后，输入到客户端模型，进行前向传播，计算得到本地预测标签，并发送到云联合中心。云联合中心收到所有客户端的本地预测标签后，聚合求全局标签，每个客户端的全局标签是对除自身客户端之外的其它客户端本地预测标签进行累加平均聚合获得；云联合中心将全局标签发送到对应客户端；客户端收到全局标签后，计算知识蒸馏损失，利用知识蒸馏损失反向传播，求得梯度并更新模型。

传统的神经网络训练损失是本地预测标签与真实标签的距离，在联邦知识蒸馏中，加入了全局标签，变为本地预测标签与真实标签距离加上本地预测标签与全局标签距离。客户端收到全局标签后，计算知识蒸馏损失，包括：

本实施例中，每个客户端的全局标签是对除自身客户端之外的其它客户端本地预测标签进行累加平均聚合获得，具体过程为：云联合中心接收客户端n发来的本地预测标签；将本地预测标签累加，存储到临时变量；累加的本地预测标签减去客户端n自身的本地预测标签；累加的标签进行平均，得到对应客户端的全局标签;发送全局标签到设备n。

本实施例中，联邦知识蒸馏算法实现参见表3和表4。

表3联邦知识蒸馏算法客户端侧

表4联邦知识蒸馏算法云联合中心侧

为评估个性化联邦知识蒸馏模型在异构物联网数据环境中的性能。使用了MNIST、CIFAR-10数据集和ResNet34、MPL神经网络模型进行实验，并与FedAvg进行了对比。

ResNet34是残差神经网络系列中的一种，它在图像分类任务上实现了很好的性能。它包括16个基本块，每个基本块由2个卷积层和1个残差层组成。设置ResNet34模型的个性化层包括全连接层和K个基本块，以基本块为单位，通过增加或减少靠近全连接层的基本块数量，进行个性化层的调整。

MLP（Muti-Layer Perception）是一个基本的多层神经网络，包括两个卷积层、两个池化层和两个全连接层。将两个全连接层作为MLP的个性化层。

利用11台电脑进行实验，使用第1台电脑作为云联合中心，第2~11台电脑作为10个客户端。云联合中心配置内存16GB，8-core Intel Xeon 2.40 GHz E5-2620 v3 CPUs，网络带宽64Mbps，硬盘500GB。每个客户端配置内存8GB，6-core Intel Xeon 2.40 GHz E5-2620v3 CPUs，网络带宽32Mbps，硬盘256GB。

实验使用了MNIST和CIFAR-10数据集，并进行了非独立同分布数据的设置。

1．MNIST数据集

MNIST是一个手写体数字识别数据集，分为“0-9”共10个标记类，有60000个训练样本和10000个测试样本图像，每个图像都有唯一的标签。将MNIST数据集分配到客户端，并进行数据的异构性模拟设置，如表5所示，阐述了每个客户端所包含的MNSIT数据集类别和样本数量。

表5 MNIST客户端间的数据异构性设置

2．CIFAR10数据集

CIFAR10是一个由飞机（airplane）、汽车（automobile）、鸟类（bird）、猫（cat）、鹿（deer）、狗（dog）、蛙类（frog）、马（horse）、船（ship）和卡车（truck）10个类别组成的图像数据集。数据集一共有50000张训练图片和10000张测试图片。将CIFAR10数据集分配到客户端，并进行数据的异构性模拟设置，如表6所示，阐述了每个客户端所包含的CIFAR10数据集类别和样本数量。

表6 CIFAR10客户端间的数据异构性设置

3．公共数据集

联邦知识蒸馏算法实验需要一个公共数据集，分别从MNIST和CIFAR10数据集的每个类别随机选取500张样本图片，10类总计5000样本数据，分别作为它们的公共数据集。

通过与联邦平均学习（FedAvg）比较评估Fed-PKD，其中Fed-PKD包括三种方法，为了深入理解和分析每种方法的有效性，将Fed-PKD进行了分解，其不同的组合如表7所示。每次实验，对每种方法执行10次实验，实验的统计数据是10次实验的平均结果，可以避免偶然事件的发生。每次实验进行100次迭代，使用SGD算法进行神经网络训练，学习率为0.01，batch_size为64。分别从异构数据性能分析、类别外数据样本识别、个性化层分析、聚合次数与平均通信时间四个方面进行了比较分析。

表7 三种方法组合说明

我们使用表5和表6中的数据集进行实验，对Fed-PKD在异构环境中的性能进行分析。每种方法的准确率如图6所示。图6（a）使用MLP模型对MNIST训练的结果。6（b）使用ResNet34模型对CIFAR10训练的结果，ResNet34模型将全连接层和最后一个基本块作为个性化层（K=1）。从图6（a）和（b）中可以看出，Fed-PKD的三种方法都优于FedAvg，受益于个性化联邦学习，每个客户端专注于自己场景下数据的分类，Fed-PKD的准确率（所有客户端准确率的平均值）与FedAvg相比在两种实验场景下分别提高了57.3%和95.4%，并且Fed-PKD训练过程中准确率比较平稳。FedAvg需要兼顾所有客户端的数据特征，准确率低，而且训练过程中准确率波动大。Fed-Nor对基础层进行了二范式权重聚合，其收敛速度快于Fed-Per。

每个客户端拥有的数据样本类别不全面，在表5和表6设置的异构数据环境中，每个客户端包含三类或四类数据样本。我们进一步评估了每种方法对客户端类别外数据样本的识别准确率，使用MLP模型训练MNIST，使用ResNet34（K=1）模型训练CIFAR10，实验结果如图7所示，local表示客户端本地训练。

从图7（a）和（b）中可以清晰的看出，增加了联邦知识蒸馏算法的Fed-PKD准确率高于其它方法，客户端不仅能够识别自己包含类别的样本数据，而且能够识别其它类别的样本数据，表明了客户端能够通过联邦知识蒸馏算法学习到其它客户端的知识。只进行本地训练的local方法准确率最低，只有本地类别样本的知识，因此几乎识别不出客户端类别外的样本数据。Fed-Per和Fed-Nor对客户端类别外数据样本准确率低于FedAvg，Fed-Per和Fed-Nor只聚合模型基本层，对其它类别样本的识别知识较少。FedAvg聚合模型的所有层，兼顾了其它客户端样本的知识，因此具有较高的准确率。实验结果表明，Fed-PKD的联邦知识蒸馏算法加强了客户端之间知识的学习。

本申请实施例对模型的聚合次数进行了分析，从图8可以得到使用个性化联邦学习后加快了收敛速度。此外，Fed-Nor的聚合次数少于Fed-Per，说明二范式的权重聚合算法能够使模型更快的趋向于最优解。

由上述实施例可知，本申请实施例提出个性化联邦知识蒸馏模型Fed-PKD，提高联邦学习在物联网异构环境中的性能。首先，根据神经网络的特性将训练神经网络分为基础层和个性化层，提高模型准确率并且减少模型聚合过程中网络通信数据量。通过二范式的权重聚合算法，提高高质量样本数据的权重，使模型训练更快的趋向于最优解，加快联合模型的收敛速度。设计了联邦知识蒸馏策略，通过学习其它客户端的知识，提高模型的泛化性。最后，通过公开数据集在异构环境中进行实验，证明了Fed-PKD在异构物联网应用环境中的有效性。

本申请实施例中，“至少一个”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示单独存在A、同时存在A和B、单独存在B的情况。其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项”及其类似表达，是指的这些项中的任意组合，包括单项或复数项的任意组合。例如，a，b和c中的至少一项可以表示：a, b, c, a-b,a-c, b-c,或a-b-c，其中a, b, c可以是单个，也可以是多个。

以上所述，仅为本申请的具体实施方式，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种个性化联邦知识蒸馏模型构建方法，其特征在于，包括：

所述根据神经网络的特性将训练神经网络分为云联合中心的基础层和客户端本地的个性化层，包括：

根据神经网络不同层学习特性的不同，划分为基础层和个性化层；

按照客户端自身物联网应用环境设计个性化层，其中，所有客户端的基础层相同，即：，客户端模型表示为（，）；

所述结合所述基础层、个性化层和每个客户端的本地私有数据集进行联合训练获得全局基础层模型，包括：

云联合中心将所有客户端的基础层乘以聚合权重后进行聚合获得全局基础层模型；

所述客户端利用本地私有数据集按照迭代次数对所述客户端模型进行模型训练，并计算客户端基础层的聚合权重，包括：

设计基于二范式的聚合权重计算方法，将客户端私有数据集对全局模型改变的大小作为聚合权重；

其中，表示第n个客户端在第i次迭代使用本地私有数据集模型训练更新后的基础层，表示客户端本地训练更新前的全局基础层；

所述云联合中心将所有客户端的基础层乘以聚合权重后进行聚合获得全局基础层模型，包括：

式中表示第n个客户端在第i次迭代的聚合权重；

设计联邦知识蒸馏策略，通过各客户端中模型知识相互转移，提高模型的泛化性，包括：