CN114510983A

CN114510983A - 设备识别方法、装置及系统

Info

Publication number: CN114510983A
Application number: CN202110221855.7A
Authority: CN
Inventors: 徐威旺; 薛莉; 叶浩楠; 程剑; 张亮
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2020-10-23
Filing date: 2021-02-27
Publication date: 2022-05-17

Abstract

本申请公开了一种设备识别方法、装置及系统。管理设备或采集设备首先根据第一数据集确定待识别设备的网络流量特征，第一数据集包括多个第一数据，每个第一数据包括在一个第一周期内采集到的待识别设备的数据包的数据量。然后，管理设备或采集设备基于设备识别模型和待识别设备的网络流量特征确定待识别设备的设备类型。由于在设备识别过程中，无需待识别设备上报用来识别该待识别设备的信息，因此不会中断该待识别设备上运行的业务，使得待识别设备运行业务的可靠性较高。

Description

设备识别方法、装置及系统

本申请要求于2020年10月23日提交的申请号为202011145036.0、发明名称为“确定设备类型的方法、装置和系统”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及通信技术领域，特别涉及一种设备识别方法、装置及系统。

背景技术

在智慧园区、教育、制造、金融和医疗等各大行业存在大量的物联网(internet ofthing，IoT)设备，这些IoT设备及服务暴露在互联网上，容易成为攻击者发动大规模分布式拒绝服务攻击(distributed denial-of-service attack，DDoS)的目标，也存在被恶意仿冒以实现非法目的的风险。通过对网络中的IoT设备进行设备识别，以确定IoT设备的设备类型，从而针对不同设备类型的IoT设备分别寻找安全漏洞，有助于提升网络中IoT设备的安全性。

相关技术中，对网络中的IoT设备进行设备识别的实现过程包括：首先，管理设备向待识别IoT设备发送指定协议探测包，以获取该待识别IoT设备的标语(banner)，该标语中包括可用来识别IoT设备的信息。然后，管理设备将从IoT设备厂商官网或电商网站中搜索到的各个类型的IoT设备的产品相关信息与该待识别IoT设备的标语进行正则匹配。若存在目标类型的IoT设备的产品相关信息与该待识别IoT设备的标语匹配成功，则确定该待识别IoT设备对应的设备类型为该目标类型。其中，从IoT设备厂商官网或电商网站中搜索到的IoT设备的产品相关信息包括厂商、设备类型、型号和/或版本等，IoT设备的标语通常包括这些信息中的一种或多种。

由于需要根据设备上报标语进行设备识别，所以设备存在业务中断风险，会导致设备运行业务的可靠性较低。

发明内容

本申请提供了一种设备识别方法、装置及系统，可以解决由于对设备进行设备识别导致该设备运行业务的可靠性较低的问题。

第一方面，提供了一种设备识别方法。该方法包括：管理设备根据第一数据集确定待识别设备的网络流量特征，第一数据集包括多个第一数据，每个第一数据包括在一个第一周期内采集到的待识别设备的数据包的数据量。管理设备基于设备识别模型和待识别设备的网络流量特征确定待识别设备的设备类型。

本申请中，管理设备根据在多个周期内采集到的待识别设备的数据包的数据量确定该待识别设备的网络流量特征，进而基于设备识别模型和该待识别设备的网络流量特征确定该待识别设备的设备类型。由于在对设备进行设备识别的过程中，无需待识别设备上报用来识别该待识别设备的信息，因此不会中断该待识别设备上运行的业务，使得待识别设备运行业务的可靠性较高。

可选地，管理设备根据第一数据集确定待识别设备的网络流量特征的实现过程，包括：管理设备根据第一数据集生成待识别设备对应的第一数据量时间序列(T_n,S_n)，其中，T_n表示第n个第一周期，S_n表示在第n个第一周期内采集到的待识别设备的数据包的数据量，n为正整数。管理设备基于第一数据量时间序列(T_n,S_n)，确定待识别设备的网络流量特征。

可选地，管理设备基于第一数据量时间序列(T_n,S_n)，确定待识别设备的网络流量特征的实现过程，包括：管理设备基于第一数据量时间序列(T_n,S_n)，确定待识别设备对应的数据量分布特征；和/或，管理设备对第一数据量时间序列(T_n,S_n)进行频域变化，得到待识别设备对应的数据量频域特征，数据量频域特征包括第一数据量时间序列(T_n,S_n)的频率和/或振幅。也即是，网络流量特征包括数据量分布特征和/或数据量频域特征。

由于不同设备类型的设备的心跳流的特征不同，例如不同设备类型的设备的心跳包的数据量不同，心跳包的发送频率也不同，因此通过统计待识别设备对应的数据量分布特征和/或数据量频域特征，可以较好地提取到能够将待识别设备区别于其它设备类型的设备的本质特征，进而使得设备识别准确度较高。

可选地，管理设备根据第一数据集生成待识别设备对应的第一数据量时间序列(T_n,S_n)的实现过程，包括：响应于多个第一数据包括在多个第一周期内采集到的待识别设备的上行数据包的数据量，管理设备根据第一数据集生成待识别设备对应的上行数据量时间序列；和/或，响应于多个第一数据包括在多个第一周期内采集到的待识别设备的下行数据包的数据量，管理设备根据第一数据集生成待识别设备对应的下行数据量时间序列。也即是，待识别设备对应的第一数据量时间序列包括待识别设备对应的上行数据量时间序列和/或下行数据量时间序列。

在第一种实现方式中，管理设备还获取第一网络中的采集设备采集到的多个数据包的报头以及采集设备对多个数据包的采集时刻，报头包括源IP地址、目的IP地址和包长度，第一网络为待识别设备接入的网络。管理设备根据多个数据包的报头以及采集设备对多个数据包的采集时刻，生成第一数据集。

可选地，管理设备根据多个数据包的报头以及采集设备对多个数据包的采集时刻，生成第一数据集的实现过程，包括：管理设备根据多个数据包的报头中，源IP地址为待识别设备的IP地址的第一报头中的包长度，以及采集设备对第一报头所在数据包的采集时刻，统计多个第一周期内待识别设备的上行数据包的数据量。和/或，管理设备根据多个数据包的报头中，目的IP地址为待识别设备的IP地址的第二报头中的包长度，以及采集设备对第二报头所在数据包的采集时刻，统计多个第一周期内待识别设备的下行数据包的数据量。

本申请中，管理设备只需获取并解析采集设备采集到的数据包的报头以及采集设备对数据包的采集时刻，即可统计每个第一周期内待识别设备的数据包的数据量，在对待识别设备进行设备识别的过程中，无需解析数据包的数据内容，使得数据包中的数据安全性较高。

可选地，管理设备在获取第一网络中的采集设备采集到的多个数据包的报头之后，筛选出多个数据包的报头中包长度小于目标阈值的数据包的报头。相应地，管理设备根据多个数据包的报头以及采集设备对多个数据包的采集时刻，生成第一数据集的实现过程，包括：管理设备根据筛选出的多个报头以及采集设备对筛选出的多个报头所在数据包的采集时刻，生成第一数据集。

由于心跳包和业务包的包长度一般较小，更新包的包长度一般较大。本申请通过设置目标长度阈值筛选掉包长度较大的数据包，即剔除采集设备采集的数据包中的更新包，可以更好反映心跳包的特征，进而提高设备识别的准确性。

可选地，在上述第一种实现方式中，管理设备向第一网络中的采集设备发送流量采集指令，该流量采集指令用于指示采集设备采集第一网络中的数据包的报头。管理设备获取第一网络中的采集设备采集到的多个数据包的报头以及采集设备对多个数据包的采集时刻的实现过程，包括：管理设备接收第一网络中的采集设备发送的多个数据包的报头以及采集设备对多个数据包的采集时刻。

可选地，流量采集指令包括待识别设备的标识，该流量采集指令用于指示采集设备采集待识别设备的数据包的报头。

本申请中，管理设备通过在流量采集指令中携带待识别设备的标识，可以实现对单个设备的流量采集，进而指向性地实现对单个设备的设备识别。

在第二种实现方式中，管理设备向第一网络中的采集设备发送统计信息采集指令。响应于统计信息采集指令指示采集设备统计在多个第一周期内采集到的待识别设备的数据包的数据量，管理设备接收第一网络中的采集设备发送的多个第一数据，以得到第一数据集。或者，响应于统计信息采集指令指示采集设备统计在多个采集时刻采集到的待识别设备的数据包的数据量，管理设备接收第一网络中的采集设备发送的多个第二数据，并根据多个第二数据生成第一数据集，每个第二数据包括一个采集时刻以及在采集时刻采集到的待识别设备的数据包的数据量。

本申请中，采集设备可以仅采集数据包的报头发送给管理设备；或者，采集设备采集到数据包的报头后，可以统计各个采集时刻待识别设备的数据包的数据量并将其发送给管理设备；又或者，采集设备采集到数据包的报头后，可以统计多个周期内待识别设备的数据包的数据量并将其发送给管理设备。本申请对采集设备和管理设备的功能分布方式不做限定。

可选地，待识别设备为物联网设备。

可选地，管理设备还根据第二数据集确定已知设备的网络流量特征，第二数据集包括多个第三数据，每个第三数据包括在一个第二周期内采集到的已知设备的数据包的数据量。管理设备根据多个已知设备的网络流量特征以及多个已知设备的设备类型，生成设备识别模型。

可选地，管理设备还获取第二网络中的采集设备采集到的多个数据包的报头以及采集设备对多个数据包的采集时刻，报头包括源IP地址、目的IP地址和包长度，第二网络为已知设备接入的网络。其次，管理设备基于先验信息从多个数据包的报头中获取已知设备的数据包的报头，先验信息包括多个设备类型以及每个设备类型对应的多个已知设备的标识。然后，管理设备根据已知设备的数据包的报头中的包长度以及采集设备对已知设备的数据包的采集时刻，生成第二数据集。

本申请中，先验信息包括的多个设备类型可以包括接入第二网络的设备的所有设备类型，先验信息可以包括待识别设备可能对应的所有设备类型。另外，先验信息可以包括每个设备类型对应的尽可能多的已知设备的标识，从而为模型训练提供充足的样本，使得训练得到的模型的推理准确性较高。

可选地，管理设备根据第二数据集确定已知设备的网络流量特征的实现过程，包括：管理设备根据第二数据集生成已知设备对应的第二数据量时间序列(T_m,S_m)，其中，T_m表示第m个第二周期，S_m表示在第m个第二周期内采集到的已知设备的数据包的数据量，m为正整数。管理设备基于第二数据量时间序列(T_m,S_m)，确定已知设备的网络流量特征。

可选地，管理设备基于第二数据量时间序列(T_m,S_m)，确定已知设备的网络流量特征的实现过程，包括：管理设备基于第二数据量时间序列(T_m,S_m)，确定已知设备对应的数据量分布特征；和/或，管理设备对第二数据量时间序列(T_m,S_m)进行频域变化，得到已知设备对应的数据量频域特征，数据量频域特征包括第二数据量时间序列(T_m,S_m)的频率和/或振幅。

或者，管理设备接收来自其它设备或平台的设备识别模型。也即是，设备识别模型可以来自其它设备或平台。

第二方面，提供了一种设备识别方法。该方法包括：采集设备根据第一数据集确定待识别设备的网络流量特征，第一数据集包括多个第一数据，每个第一数据包括在一个第一周期内采集到的待识别设备的数据包的数据量。采集设备基于设备识别模型和待识别设备的网络流量特征确定待识别设备的设备类型。

本申请中，采集设备根据在多个周期内采集到的待识别设备的数据包的数据量确定该待识别设备的网络流量特征，进而基于设备识别模型和该待识别设备的网络流量特征确定该待识别设备的设备类型。由于在对设备进行设备识别的过程中，无需待识别设备上报用来识别该待识别设备的信息，因此不会中断该待识别设备上运行的业务，使得待识别设备运行业务的可靠性较高。

可选地，采集设备根据第一数据集确定待识别设备的网络流量特征的实现过程，包括：采集设备根据第一数据集生成待识别设备对应的第一数据量时间序列(T_n,S_n)，其中，T_n表示第n个第一周期，S_n表示在第n个第一周期内采集到的待识别设备的数据包的数据量，n为正整数。采集设备基于第一数据量时间序列(T_n,S_n)，确定待识别设备的网络流量特征。

可选地，采集设备基于第一数据量时间序列(T_n,S_n)，确定待识别设备的网络流量特征的实现过程，包括：采集设备基于第一数据量时间序列(T_n,S_n)，确定待识别设备对应的数据量分布特征；和/或，采集设备对第一数据量时间序列(T_n,S_n)进行频域变化，得到待识别设备对应的数据量频域特征，数据量频域特征包括第一数据量时间序列(T_n,S_n)的频率和/或振幅。也即是，网络流量特征包括数据量分布特征和/或数据量频域特征。

可选地，采集设备根据第一数据集生成待识别设备对应的第一数据量时间序列(T_n,S_n)的实现过程，包括：响应于多个第一数据包括在多个第一周期内采集到的待识别设备的上行数据包的数据量，采集设备根据第一数据集生成待识别设备对应的上行数据量时间序列；和/或，响应于多个第一数据包括在多个第一周期内采集到的待识别设备的下行数据包的数据量，采集设备根据第一数据集生成待识别设备对应的下行数据量时间序列。也即是，待识别设备对应的第一数据量时间序列包括待识别设备对应的上行数据量时间序列和/或下行数据量时间序列。

可选地，采集设备还获取第一网络中的采集设备采集到的多个数据包的报头以及采集设备对多个数据包的采集时刻，报头包括源IP地址、目的IP地址和包长度，第一网络为待识别设备接入的网络。采集设备根据多个数据包的报头以及采集设备对多个数据包的采集时刻，生成第一数据集。

可选地，采集设备根据多个数据包的报头以及采集设备对多个数据包的采集时刻，生成第一数据集的实现过程，包括：采集设备根据多个数据包的报头中，源IP地址为待识别设备的IP地址的第一报头中的包长度，以及采集设备对第一报头所在数据包的采集时刻，统计多个第一周期内待识别设备的上行数据包的数据量。和/或，采集设备根据多个数据包的报头中，目的IP地址为待识别设备的IP地址的第二报头中的包长度，以及采集设备对第二报头所在数据包的采集时刻，统计多个第一周期内待识别设备的下行数据包的数据量。

本申请中，采集设备只需获取并解析采集设备采集到的数据包的报头以及采集设备对数据包的采集时刻，即可统计每个第一周期内待识别设备的数据包的数据量，在对待识别设备进行设备识别的过程中，无需解析数据包的数据内容，使得数据包中的数据安全性较高。

可选地，采集设备在获取第一网络中的采集设备采集到的多个数据包的报头之后，筛选出多个数据包的报头中包长度小于目标阈值的数据包的报头。相应地，采集设备根据多个数据包的报头以及采集设备对多个数据包的采集时刻，生成第一数据集的实现过程，包括：采集设备根据筛选出的多个报头以及采集设备对筛选出的多个报头所在数据包的采集时刻，生成第一数据集。

可选地，待识别设备为物联网设备。

可选地，采集设备还根据第二数据集确定已知设备的网络流量特征，第二数据集包括多个第三数据，每个第三数据包括在一个第二周期内采集到的已知设备的数据包的数据量。采集设备根据多个已知设备的网络流量特征以及多个已知设备的设备类型，生成设备识别模型。

可选地，采集设备还获取第二网络中的采集设备采集到的多个数据包的报头以及采集设备对多个数据包的采集时刻，报头包括源IP地址、目的IP地址和包长度，第二网络为已知设备接入的网络。其次，采集设备基于先验信息从多个数据包的报头中获取已知设备的数据包的报头，先验信息包括多个设备类型以及每个设备类型对应的多个已知设备的标识。然后，采集设备根据已知设备的数据包的报头中的包长度以及采集设备对已知设备的数据包的采集时刻，生成第二数据集。

可选地，采集设备根据第二数据集确定已知设备的网络流量特征的实现过程，包括：采集设备根据第二数据集生成已知设备对应的第二数据量时间序列(T_m,S_m)，其中，T_m表示第m个第二周期，S_m表示在第m个第二周期内采集到的已知设备的数据包的数据量，m为正整数。采集设备基于第二数据量时间序列(T_m,S_m)，确定已知设备的网络流量特征。

可选地，采集设备基于第二数据量时间序列(T_m,S_m)，确定已知设备的网络流量特征的实现过程，包括：采集设备基于第二数据量时间序列(T_m,S_m)，确定已知设备对应的数据量分布特征；和/或，采集设备对第二数据量时间序列(T_m,S_m)进行频域变化，得到已知设备对应的数据量频域特征，数据量频域特征包括第二数据量时间序列(T_m,S_m)的频率和/或振幅。

或者，采集设备接收来自其它设备或平台的设备识别模型。也即是，设备识别模型可以来自其它设备或平台。

第三方面，提供了一种设备识别装置。该装置可以是管理设备。所述装置包括多个功能模块，所述多个功能模块相互作用，实现上述第一方面及其各实施方式中的方法。所述多个功能模块可以基于软件、硬件或软件和硬件的结合实现，且所述多个功能模块可以基于具体实现进行任意组合或分割。

第四方面，提供了一种设备识别装置。该装置可以是采集设备。所述装置包括多个功能模块，所述多个功能模块相互作用，实现上述第二方面及其各实施方式中的方法。所述多个功能模块可以基于软件、硬件或软件和硬件的结合实现，且所述多个功能模块可以基于具体实现进行任意组合或分割。

第五方面，提供了一种管理设备，包括：处理器和存储器；

所述存储器，用于存储计算机程序，所述计算机程序包括程序指令；

所述处理器，用于调用所述计算机程序，实现上述第一方面及其各实施方式中的方法。

第六方面，提供了一种采集设备，包括：处理器和存储器；

所述处理器，用于调用所述计算机程序，实现上述第二方面及其各实施方式中的方法。

第七方面，提供了一种设备识别系统，包括：采集模块、统计模块和识别模块。所述采集模块用于采集网络中的数据包的报头，并向所述统计模块发送采集到的多个数据包的报头以及所述采集模块对所述多个数据包的采集时刻，所述报头包括源互联网协议IP地址、目的IP地址和包长度。所述统计模块用于根据所述多个数据包的报头以及所述采集模块对所述多个数据包的采集时刻，生成第一数据集，并向所述识别模块发送所述第一数据集，所述第一数据集包括多个第一数据，每个所述第一数据包括在一个第一周期内采集到的所述待识别设备的数据包的数据量。所述识别模块用于根据所述第一数据集确定待识别设备的网络流量特征，并基于设备识别模型和所述待识别设备的网络流量特征确定所述待识别设备的设备类型。

可选地，所述系统还包括：管理模块。所述管理模块用于向所述采集模块发送流量采集指令，所述流量采集指令用于指示所述采集模块采集所述网络中的数据包的报头。所述采集模块用于基于所述流量采集指令采集所述网络中的数据包的报头。

可选地，所述采集模块在采集设备中，所述管理模块、所述统计模块和所述识别模块在管理设备中；或者，所述采集模块和所述统计模块在采集设备中，所述管理模块和所述识别模块在管理设备中。

可选地，所述流量采集指令包括所述待识别设备的标识，所述流量采集指令用于指示所述采集设备采集所述待识别设备的数据包的报头。所述采集模块用于基于所述流量采集指令采集所述网络中的所述待识别设备的数据包的报头。

可选地，所述系统还包括：训练模块。所述采集模块还用于向所述训练模块发送采集到的多个数据包的报头以及所述采集模块对所述多个数据包的采集时刻。所述训练模块用于根据先验信息、所述多个数据包的报头以及所述采集模块对所述多个数据包的采集时刻，生成第二数据集，并根据所述第二数据集确定多个已知设备的网络流量特征，然后根据所述多个已知设备的网络流量特征以及所述多个已知设备的设备类型，生成所述设备识别模型，并向所述识别模块发送所述设备识别模型。其中，所述先验信息包括多个设备类型以及每个所述设备类型对应的多个已知设备的标识，所述第二数据集包括多个第二数据，每个所述第二数据包括在一个第二周期内采集到的所述已知设备的数据包的数据量。

可选地，所述采集模块、所述统计模块和所述识别模块在采集设备中，所述训练模块在管理设备中；或者，所述采集模块在采集设备中，所述统计模块、所述识别模块和所述训练模块在管理设备中；又或者，所述采集模块和所述统计模块在采集设备中，所述识别模块和所述训练模块在管理设备中。

第八方面，提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，当所述指令被管理设备的处理器执行时，实现上述第一方面及其各实施方式中的方法；或者，当所述指令被采集设备的处理器执行时，实现上述第二方面及其各实施方式中的方法。

第九方面，提供了一种计算机程序产品，所述计算机程序产品包括计算机指令，所述计算机指令存储在计算机可读存储介质中，管理设备的处理器从所述计算机可读存储介质读取并执行所述计算机指令，实现上述第一方面及其各实施方式中的方法；或者，采集设备的处理器从所述计算机可读存储介质读取并执行所述计算机指令，实现上述第二方面及其各实施方式中的方法。

第十方面，提供了一种芯片，芯片包括可编程逻辑电路和/或程序指令，当芯片运行时，实现上述第一方面及其各实施方式中的方法或者实现上述第二方面及其各实施方式中的方法。

本申请提供的技术方案带来的有益效果至少包括：

本申请中，根据采集设备在多个周期内采集到的待识别设备的数据包的数据量确定该待识别设备的网络流量特征，进而调用设备识别模型基于该待识别设备的网络流量特征确定该待识别设备的设备类型。由于在对设备进行设备识别的过程中，无需待识别设备上报用来识别该待识别设备的信息，因此不会中断该待识别设备上运行的业务，使得待识别设备运行业务的可靠性较高。另外，只需获取并解析采集设备采集到的数据包的报头以及采集设备对数据包的采集时刻，即可统计每个第一周期内待识别设备的数据包的数据量，在对待识别设备进行设备识别的过程中，无需解析数据包的数据内容，使得数据包中的数据安全性较高。本申请实施例采用小样本半监督的方式，用户只需要给定网络中设备的所有设备类型以及每个设备类型对应的一部分IP地址即可盘点出网络中所有设备类型所对应的全量IP地址(即全量设备)，方案的可实现性较高。

附图说明

图1是本申请实施例提供的一种设备识别方法所涉及的应用场景示意图；

图2是本申请实施例提供的另一种设备识别方法所涉及的应用场景示意图；

图3是本申请实施例提供的一种设备识别方法的流程示意图；

图4是本申请实施例提供的ATM的两小时内的流量画像；

图5是本申请实施例提供的ATM对应的数据量时间序列和数据量分布特征；

图6是本申请实施例提供的发卡机对应的数据量时间序列和数据量分布特征；

图7是本申请实施例提供的一种设备识别装置的结构示意图；

图8是本申请实施例提供的另一种设备识别装置的结构示意图；

图9是本申请实施例提供的又一种设备识别装置的结构示意图；

图10是本申请实施例提供的再一种设备识别装置的结构示意图；

图11是本申请实施例提供的还一种设备识别装置的结构示意图；

图12是本申请另一实施例提供的一种设备识别装置的结构示意图；

图13是本申请另一实施例提供的另一种设备识别装置的结构示意图；

图14是本申请另一实施例提供的又一种设备识别装置的结构示意图；

图15是本申请实施例提供的一种管理设备的框图；

图16是本申请实施例提供的一种采集设备的框图；

图17是本申请实施例提供的一种设备识别系统的结构示意图；

图18是本申请实施例提供的另一种设备识别系统的结构示意图；

图19是本申请实施例提供的又一种设备识别系统的结构示意图；

图20是本申请实施例提供的再一种设备识别系统的结构示意图；

图21是本申请实施例提供的还一种设备识别系统的结构示意图；

图22是本申请实施例提供的还一种设备识别系统的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

图1和图2分别是本申请实施例提供的一种设备识别方法所涉及的应用场景示意图。如图1或图2所示，该应用场景中包括：管理设备101、转发设备102A-102B(统称为转发设备102)和设备103A-103C(统称为设备103)。图1中转发设备和设备的数量以及连接方式仅用作示例性说明，并不用作对本申请实施例提供的应用场景的限制。

管理设备101也可称为安全监控平台或资产管理平台，管理设备101具体可以是一台服务器，或者是由若干台服务器组成的服务器集群，又或者是一个云计算中心(即管理设备101提供的服务部署在云上)。

转发设备102用于将设备101接入网络，该网络可以是无线局域网(wirelesslocal area network，WLAN)或移动蜂窝网。转发设备102具体可以是网关、路由器、无线热点(Access Point，AP)、基站或交换机等。例如，转发设备102A为AP，转发设备102A用于将设备103A接入WLAN。又例如，转发设备102B为基站(例如4G基站或5G基站)，转发设备102B用于将设备103B和设备103C接入移动蜂窝网。

可选地，设备103为IoT设备。设备103可以是各种类型的终端，例如在金融系统中，设备103可以是自动柜员机(automated teller machine，ATM)、自助查询终端、发卡机、智能柜台或监控摄像头等。设备103与转发设备102之间通过有线网络或无线网络连接。设备103通过转发设备102与业务服务器104进行通信，也即是，转发设备102用于转发设备103与业务服务器104之间的数据包。例如，在如图1所示的应用场景中，设备103A通过转发设备102A接入WLAN，进而实现与业务服务器104之间的通信，也即是，转发设备102A用于转发设备103A与业务服务器104之间的数据包。设备103B和设备103C通过转发设备102B接入移动蜂窝网，进而实现与业务服务器104之间的通信，也即是，转发设备102B用于转发设备103B、设备103C与业务服务器104之间的数据包。

可选地，请继续参见图1和图2，该应用场景中还包括：显示设备105。显示设备105与管理设备101之间通过有线网络或无线网络连接。显示设备105用于提供能够与管理设备101交互的可视化界面，该可视化界面也可称为用户界面。该显示设备105支持用户在用户界面上输入信息以向管理设备101发送信息以及支持用户在用户界面上查看管理设备101上送的信息。该显示设备105可以是运维支撑系统(operations support system，OSS)或其它具有显示功能的设备。可选地，管理设备101与显示设备105也可以集成在一台设备中，本申请实施例对此不做限定。

可选地，请继续参见图1，该应用场景中还包括：采集设备106。采集设备106与管理设备101之间通过有线网络或无线网络连接。该采集设备106用于采集网络中的数据包的报头。该采集设备106可以是独立的设备，例如可以是网络探针等。或者，请参见图2，转发设备102可以用作采集设备，也即是，转发设备102集成有采集功能，用于采集该转发设备102上转发的数据包的报头，这种场景下，转发设备102与管理设备101之间通过有线网络或无线网络连接。

在一些实施例中，设备103的网络流量一般由三部分组成，包括：心跳流、业务流和更新流。

心跳流包括状态流和保活流。状态流用于定期上传设备的包括版本信息和病毒库信息等状态。保活流用于定期通知业务服务器该设备处于开机运行状态。保活流会随着业务流的出现而中断周期。由于心跳流能够反映设备的本质特征，而不同设备类型的设备的本质特征往往不同，因此不同设备类型的设备的心跳流的特征(尤其是状态流)往往也不同。

业务流是设备出现一些业务操作后产生的流。以金融系统中的ATM举例，业务流一般出现在客户存取钱或业务查询的时候，出现时间没有规律可循。业务流的上行流量较小，而下行流量更小且下行流量中的数据包大小固定，下行流量中的数据包一般用于携带“同意”或者“不同意”的指令。由于设备的业务流的出现时间没有规律可循，因此可以将其视为反映设备的本质特征的背景噪声。

更新流通常在设备的版本较低时产生。业务服务器会将设备上送的状态流中的信息与业务服务器中的最新版本信息和/或最新病毒库信息进行比较，一旦发现设备的版本较低，则业务服务器会向设备发送最新版本信息和/或最新病毒库信息，从而产生更新流。更新流的流量通常较大，更新流的数据包一般远大于心跳流的数据包和业务流的数据包。

基于设备的心跳流能够反映设备的本质特征这个特性，本申请实施例提供了一种设备识别方法。该方法通过调用设备识别模型，基于待识别设备的网络流量特征确定待识别设备的设备类型，具体过程可以是：向设备识别模型输入待识别设备的网络流量特征，得到该设备识别模型输出的该待识别设备对应的设备类型。其中，设备识别模型基于已知设备类型的多个已知设备的网络流量特征训练得到。本申请实施例中的待识别设备和已知设备均可以是IoT设备。设备的网络流量特征可以根据在多个周期内采集到的该设备的数据包的数据量确定。

本申请实施例中，根据在多个周期内采集到的待识别设备的数据包的数据量确定该待识别设备的网络流量特征，进而基于设备识别模型和该待识别设备的网络流量特征确定该待识别设备的设备类型。由于在对设备进行设备识别的过程中，无需待识别设备上报用来识别该待识别设备的信息(标语)，因此不会中断该待识别设备上运行的业务，使得待识别设备运行业务的可靠性较高。

图3是本申请实施例提供的一种设备识别方法的流程示意图。该方法可以应用于如图1所示的应用场景中的管理设备101或采集设备106，或者可以应用于如图2所示的应用场景中的管理设备101或集成有采集功能的转发设备102。如图3所示，该方法包括：

步骤301、获取第一数据集。

该第一数据集包括多个第一数据，每个第一数据包括在一个第一周期内采集到的待识别设备的数据包的数据量，也即是，第一数据集包括在多个第一周期内采集到的待识别设备的数据包的数据量。一个第一周期也就是一个单位时长。可选地，多个第一数据(即第一数据集)包括在多个第一周期内采集到的待识别设备的上行数据包的数据量和/或在多个第一周期内采集到的待识别设备的下行数据包的数据量。例如，第一周期的时长取值为1分钟，采集设备在1分钟内采集到待识别设备的2个上行数据包，其中一个上行数据包的大小为1000字节(byte，B)，另一个上行数据包的大小为1200B，则在这1分钟内待识别设备的上行数据包的数据量为2200B。

例如，图4是本申请实施例提供的ATM的两小时内的流量画像。该流量画像基于多个周期内ATM的数据包的数据量生成，图4中的每个点表示一个周期内ATM的数据包的数据量。其中，横坐标表示时间，纵坐标表示数据量，单位为B。如图4所示，ATM的上行流主要聚集在300B和1800B这两个层次上，下行流主要聚集在200B这个层次上。基于ATM的网络流量的特点可知，流量大小稳定且具有周期性的网络流量为心跳流，出现时间没有规律可循的流量为业务流。而更新流的流量通常较大，图4中并未示出。

在本申请的第一个可选实施例中，步骤301由管理设备执行，以下提供了管理设备获取第一数据集的三种实现方式。

第一种实现方式包括以下步骤3011A至步骤3012A：

在步骤3011A中，管理设备获取第一网络中的采集设备采集到的多个数据包的报头以及该采集设备对该多个数据包的采集时刻。

第一网络为待识别设备接入的网络。数据包由报头和数据两部分组成。数据包的报头通常包括五元组信息和包长度。其中，五元组信息包括源互联网协议(InternetProtocol，IP)地址、目的IP地址、源端口、目的端口和传输层协议。也即是，数据包的报头可以包括源IP地址、目的IP地址和包长度。本申请实施例涉及的数据包的报头并不特指完整的报头，该报头至少包括源IP地址、目的IP地址和包长度即可。若采集设备为网络探针，采集设备对数据包的采集时刻可以是采集设备抓取到该数据包的时刻。若采集设备为转发设备，采集设备对数据包的采集时刻可以是转发设备接收到该数据包的时刻，或者也可以是转发设备向其它转发设备或业务服务器转发该数据包的时刻。

可选地，管理设备可以向第一网络中的采集设备发送流量采集指令，该流量采集指令用于指示采集设备采集第一网络中的数据包的报头。则步骤3011A的实现过程包括：管理设备接收第一网络中的采集设备发送的多个数据包的报头以及采集设备对多个数据包的采集时刻。其中，流量采集指令可以包括抓包指令和上送指令，抓包指令用于指示采集设备抓取指定时长内的数据包的报头，例如，抓包指令用于指示采集设备抓取半个月内转发的数据包的前100字节的内容，该100字节的内容包括报头中的源IP地址、目的IP地址和包长度。上送指令用于指示采集设备在业务空闲时段(例如夜间)或存储空间不足时将抓取的数据包的报头上送给管理设备。当转发设备集成采集功能时，转发设备在业务空闲时段向管理设备上送抓取的数据包的报头，不会影响数据包的正常转发，可以保证业务运行的可靠性。

可选地，流量采集指令包括待识别设备的标识，该流量采集指令用于指示采集设备采集待识别设备的数据包的报头。待识别设备的标识可以是待识别设备的IP地址。其中，待识别设备的数据包的报头包括待识别设备的IP地址。待识别设备的数据包可以包括待识别设备的上行数据包和/或待识别设备的下行数据包。待识别设备的上行数据包的报头中的源IP地址为该待识别设备的IP地址。待识别设备的下行数据包的报头中的目的IP地址为该待识别设备的IP地址。若流量采集指令包括待识别设备的标识，接收到流量采集指令的采集设备可以仅抓取待识别设备的数据包的报头并上送给管理设备；若流量采集指令不包括待识别设备的标识，接收到流量采集指令的采集设备可以抓取所有数据包的报头并上送给管理设备。

本申请实施例中，管理设备通过在流量采集指令中携带待识别设备的标识，可以实现对单个设备的流量采集，进而指向性地实现对单个设备的设备识别。

可选地，当转发设备集成采集功能时，管理设备可以先确定第一网络中用于转发待识别设备的数据包的转发设备，再向该转发设备发送流量采集指令，以获取该转发设备上转发的数据包的报头。或者，管理设备也可以向第一网络中的各个转发设备分别发送流量采集指令，以获取各个转发设备上转发的数据包的报头。

本申请实施例中，当管理设备需要对接入第一网络的设备进行资产盘点，即需要对接入第一网络的各个设备分别进行设备识别时，管理设备可以向第一网络中的各个转发设备分别发送流量采集指令，以获取各个转发设备上转发的数据包的报头，再根据数据包的报头中的源IP地址和目的IP地址分别识别各个设备的数据包。

在步骤3012A中，管理设备根据多个数据包的报头以及采集设备对该多个数据包的采集时刻，生成第一数据集。

可选地，步骤3012A的实现过程包括：管理设备根据多个数据包的报头中，源IP地址为待识别设备的IP地址的第一报头中的包长度，以及采集设备对第一报头所在数据包的采集时刻，统计多个第一周期内待识别设备的上行数据包的数据量。和/或，管理设备根据多个数据包的报头中目的IP地址为待识别设备的IP地址的第二报头中的包长度，以及采集设备对第二报头所在数据包的采集时刻，统计多个第一周期内待识别设备对应的下行数据包的数据量。

本申请实施例中，管理设备只需获取并解析采集设备采集到的数据包的报头以及采集设备对数据包的采集时刻，即可统计每个第一周期内待识别设备的数据包的数据量，在对待识别设备进行设备识别的过程中，无需解析数据包的数据内容，使得数据包中的数据安全性较高。对于例如银行等金融系统对数据隐私要求极高的场景，数据包的数据部分可能包含了用户的金融账号和密码等信息，由于本申请实施例中无需解析数据包的数据部分，因此可以很好地满足数据的隐私性和安全性的要求。

可选地，管理设备在获取第一网络中的采集设备采集到的多个数据包的报头之后，可以筛选出多个数据包的报头中包长度小于目标长度阈值的数据包的报头。则步骤3012A的实现方式为：根据筛选出的多个报头以及采集设备对该筛选出的多个报头所在数据包的采集时刻，生成第一数据集。

基于前述内容可知，设备的网络流量包括心跳流、业务流和更新流，相应地，设备的数据包的类型为心跳包、业务包或更新包。其中，心跳包能够反映设备的本质特征，更新包和业务包可视为反映设备的本质特征的噪声。由于心跳包和业务包的包长度一般较小，更新包的包长度一般较大。本申请实施例中，通过设置目标长度阈值筛选掉包长度较大的数据包，即剔除采集设备采集的数据包中的更新包，可以更好反映心跳包的特征，进而提高设备识别的准确性。

第二种实现方式包括以下步骤3011B至步骤3012B：

在步骤3011B中，管理设备向第一网络中的采集设备发送统计信息采集指令，该统计信息采集指令用于指示采集设备统计在多个第一周期内采集到的待识别设备的数据包的数据量。

可选地，统计信息采集指令包括待识别设备的标识，则该统计信息采集指令用于指示采集设备仅统计在多个第一周期内采集到的待识别设备的数据包的数据量。或者，统计信息采集指令不包括待识别设备的标识，则该统计信息采集指令用于指示采集设备分别统计在多个第一周期内采集到的各个设备的数据包的数据量。该统计信息采集指令还包括第一周期的时长。

在步骤3012B中，管理设备接收第一网络中的采集设备发送的多个第一数据，以得到第一数据集。

可选地，采集设备在接收到统计信息采集指令后，响应于该统计信息采集指令指示统计在多个第一周期内采集到的待识别设备的数据包的数据量，根据采集到的待识别设备的多个数据包的报头以及对该多个数据包的采集时刻，统计多个第一周期内待识别设备的数据包的数据量以得到多个第一数据，并向管理设备发送该多个第一数据。

例如，第一周期的时长取值为1分钟，采集设备在8:00至8:01这一分钟内(一个第一周期)采集到待识别设备的2个上行数据包，其中一个上行数据包的大小为1000B，另一个上行数据包的大小为1200B，采集设备统计在该第一周期内待识别设备的上行数据包的数据量为2200B。则采集设备向管理设备发送的一个第一数据可以表示为{8:00-8:01；2200B}。

第三种实现方式包括以下步骤3011C至步骤3013C：

在步骤3011C中，管理设备向第一网络中的采集设备发送统计信息采集指令，该统计信息采集指令用于指示采集设备统计在多个采集时刻采集到的待识别设备的数据包的数据量。

可选地，统计信息采集指令包括待识别设备的标识，则该统计信息采集指令用于指示采集设备仅统计在多个采集时刻内采集到的待识别设备的数据包的数据量。或者，统计信息采集指令不包括待识别设备的标识，则该统计信息采集指令用于指示采集设备分别统计在多个采集时刻采集到的各个设备的数据包的数据量。

在步骤3012C中，管理设备接收第一网络中的采集设备发送的多个第二数据，每个第二数据包括一个采集时刻以及在该采集时刻采集到的待识别设备的数据包的数据量。

可选地，采集设备在接收到统计信息采集指令后，响应于该统计信息采集指令指示统计在多个采集时刻采集到的待识别设备的数据包的数据量，根据采集到的待识别设备的多个数据包的报头以及对该多个数据包的采集时刻，统计多个采集时刻待识别设备的数据包的数据量以得到多个第二数据，并向管理设备发送该多个第二数据。

例如，采集设备在8:00采集到待识别设备的2个上行数据包，其中一个上行数据包的大小为100B，另一个上行数据包的大小为1200B；采集设备在8:01采集到待识别设备的另外2个上行数据包，2个上行数据包的大小均为1000B。采集设备统计在两个采集时刻采集到的数据包的数据量分别为1300B和2000B。则采集设备向管理设备发送的两个第二数据可以表示为{8:00→1300B；8:01→2000B}。

在步骤3013C中，管理设备根据该多个第二数据生成第一数据集。

例如，第一周期的时长取值为1分钟，参考步骤3012C中的例子，管理设备根据采集设备发送的多个第二数据，统计得到在8:00至8:01这一分钟内(一个第一周期)待识别设备的上行数据包的数据量为3300B，即统计得到一个第一数据为{8:00-8:01；3300B}。

在上述第二种实现方式和第三种实现方式中，管理设备可以通过在统计信息采集指令中携带不同的指示来区别该统计信息采集指令是用来指示采集设备统计在多个第一周期内采集到的待识别设备的数据包的数据量，还是用来指示采集设备统计在多个采集时刻采集到的待识别设备的数据包的数据量。例如，统计信息采集指令的指示位设置为0，表示该统计信息采集指令用于指示采集设备统计在多个第一周期内采集到的待识别设备的数据包的数据量；统计信息采集指令的指示位设置为1，表示该统计信息采集指令用于指示采集设备统计在多个采集时刻采集到的待识别设备的数据包的数据量。

在本申请的第二个可选实施例中，步骤301由采集设备执行，采集设备获取第一数据集的实现方式可参考上述管理设备获取第一数据集的第一种实现方式(步骤3011A至步骤3012A)，本申请实施例在此不再赘述。

步骤302、根据第一数据集确定待识别设备的网络流量特征。

待识别设备的网络流量特征能够反映待识别设备的本质特征。待识别设备的网络流量特征包括待识别设备对应的数据量分布特征，和/或，待识别设备对应的数据量频域特征，数据量频域特征包括数据量时间序列的频率和/或振幅。可选地，步骤302的实现过程包括以下步骤3021至步骤3022：

在步骤3021中，根据第一数据集生成待识别设备对应的第一数据量时间序列(T_n,S_n)。

其中，T_n表示第n个第一周期，S_n表示在第n个第一周期内采集到的待识别设备的数据包的数据量，n为正整数。例如，如图4所示的ATM的流量画像体现了ATM的数据量时间序列，坐标系中的每个点表示一个周期内采集到的ATM的数据包的数据量，坐标系中的所有点组成了ATM在两小时内对应的数据量时间序列。

可选地，待识别设备对应的第一数据量时间序列包括待识别设备对应的上行数据量时间序列和/或下行数据量时间序列。步骤3021的实现过程包括：响应于多个第一数据包括在多个第一周期内采集到的待识别设备的上行数据包的数据量，根据第一数据集生成待识别设备对应的上行数据量时间序列。和/或，响应于多个第一数据包括在多个第一周期内采集到的待识别设备的下行数据包的数据量，根据第一数据集生成待识别设备对应的下行数据量时间序列。例如，在如图4所示的ATM的流量画像中，分别示出了ATM在两小时内的上行流对应的数据量时间序列(即上行数据量时间序列)和下行流对应的数据量时间序列(即下行数据量时间序列)。

在步骤3022中，基于第一数据量时间序列(T_n,S_n)，确定待识别设备的网络流量特征。

可选地，步骤3022的实现过程包括：基于第一数据量时间序列(T_n,S_n)，确定待识别设备对应的数据量分布特征。和/或，对第一数据量时间序列(T_n,S_n)进行频域变化，得到待识别设备对应的数据量频域特征，该数据量频域特征包括第一数据量时间序列(T_n,S_n)的频率和/或振幅。可选地，可以采用傅里叶变换对第一数据量时间序列(T_n,S_n)进行频域变化，得到待识别设备对应的数据量频域特征，也可以采用其它频域变换方式对第一数据量时间序列(T_n,S_n)进行频域变化，本申请实施例对此不做限定。

例如，图5是本申请实施例提供的ATM在两小时内对应的数据量时间序列和数据量分布特征，其中左图是ATM在两小时内对应的数据量时间序列，右图是ATM在两小时内对应的数据量分布特征，右图的横坐标为根据左图中的数据量统计得到的周期数量。基于图5可知，ATM对应的上行数据量时间序列的周期(简称：上行周期)为5分钟，对应的上行数据量时间序列的振幅(简称：上行振幅)为1800B。ATM对应的下行数据量时间序列的周期(简称：下行周期)为4分钟，对应的下行数据量时间序列的振幅(简称：下行振幅)为200B。

又例如，图6是本申请实施例提供的发卡机在两小时内对应的数据量时间序列和数据量分布特征，其中左图是发卡机在两小时内对应的数据量时间序列，右图是发卡机在两小时内对应的数据量分布特征。基于图6可知，发卡机对应的上行周期为10分钟，上行振幅为2800B。发卡机对应的下行周期为4分钟，下行振幅为200B。

基于图5和图6可知，不同设备类型的设备对应的数据量分布特征以及数据量时间序列的周期和振幅通常不同，即不同设备类型的设备的网络流量特征不同。

可选地，待识别设备的网络流量特征可以采用一维向量表示，具体可以表示为[上行数据量分布特征；上行周期；上行振幅；下行数据量分布特征；下行周期；下行振幅]。例如，管理设备或采集设备的统计周期内的数据量范围为0至5000B，将这5000B等比例划分为500个维数，每个维数对应10B大小范围，上行数据量分布特征和下行数据量分布特征分别采用500个维数表示，每个维数的值表示对应的数据量处于该维数对应的10B大小范围内的周期数量。其中，上行数据量分布特征对应的第一个维数的值，表示对应的数据量处于0至10B范围内的周期数量。假设待识别设备对应的上行周期为5分钟，上行振幅为1800B，下行周期为4分钟，下行振幅为200B，则该待识别设备的网络流量特征可以表示为具有1004个维数的一维向量，其中第1-500个维数表示上行数据量分布特征，第501个维数表示上行周期，第502个维数表示上行振幅：

[0,0,0,0,0,0,6,0,0,0,0,0,0,1,0,0,0,0,0,4,0,0,0,0,1,0,19,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,5,0,0,0,0,0,4,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0；5；1800；0,0,0,0,0,0,4,0,0,0,0,0,3,0,0,0,0,0,0,29,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0；4；200]。

步骤303、获取设备识别模型。

该设备识别模型基于已知设备类型的多个已知设备的网络流量特征训练得到。

在本申请的第一个可选实施例中，训练设备识别模型的设备与使用设备识别模型的设备为同一台设备，则步骤303的实现过程包括以下步骤3031至步骤3032：

在步骤3031中，根据第二数据集确定已知设备的网络流量特征，第二数据集包括多个第三数据，每个第三数据包括在一个第二周期内采集到的已知设备的数据包的数据量。

可选地，步骤3031的实现过程包括：根据第二数据集生成已知设备对应的第二数据量时间序列(T_m,S_m)，其中，T_m表示第m个第二周期，S_m表示在第m个第二周期内采集到的已知设备的数据包的数据量，m为正整数。基于第二数据量时间序列(T_m,S_m)，确定已知设备的网络流量特征。其中，基于第二数据量时间序列(T_m,S_m)，确定已知设备的网络流量特征的实现过程，可以包括：基于第二数据量时间序列(T_m,S_m)，确定已知设备对应的数据量分布特征。和/或，对第二数据量时间序列(T_m,S_m)进行频域变化，得到已知设备对应的数据量频域特征，所述数据量频域特征包括所述第二数据量时间序列(T_m,S_m)的频率和/或振幅。步骤3031的具体实现过程可参考上述步骤302中确定待识别设备的网络流量特征的实现方式，本申请实施例在此不再赘述。

可选地，在步骤3031执行之前，先获取第二网络中的采集设备采集到的多个数据包的报头以及采集设备对该多个数据包的采集时刻。然后基于先验信息从多个数据包的报头中获取该已知设备的数据包的报头。最后根据已知设备的数据包的报头中的包长度以及采集设备对已知设备的数据包的采集时刻，生成第二数据集。其中，获取第二网络中的采集设备采集到的多个数据包的报头以及采集设备对该多个数据包的采集时刻的实现过程可参考上述步骤3011A中的相关描述。根据已知设备的数据包的报头中的包长度以及采集设备对已知设备的数据包的采集时刻，生成第二数据集的实现过程可参考上述步骤3012A中的相关描述，本申请实施例在此不再赘述。

第二网络为已知设备接入的网络。可选地，第二网络所服务设备的设备类型包括上述第一网络(待识别设备接入的网络)所服务设备的所有设备类型，也即是，接入第二网络的设备的设备类型包括接入第一网络的设备的所有设备类型。例如，第二网络和第一网络均服务于金融系统中的银行，第二网络所服务设备的设备类型与上述第一网络所服务设备的设备类型均包括ATM、自助查询终端、发卡机、智能柜台和监控摄像头等。第二网络与上述第一网络可以是同一网络，或者也可以是不同网络。

先验信息包括多个设备类型以及每个设备类型对应的多个已知设备的标识。已知设备的标识可以是已知设备的IP地址。先验信息包括的多个设备类型可以包括接入第二网络的设备的所有设备类型，先验信息可以包括待识别设备可能对应的所有设备类型。另外，先验信息可以包括每个设备类型对应的尽可能多的已知设备的标识，从而为模型训练提供充足的样本，使得训练得到的模型的推理准确性较高。先验信息可以是外部输入的信息，例如用户可以通过显示设备上的用户界面输入先验信息，然后由显示设备向管理设备发送该先验信息，最后管理设备基于该先验信息训练设备识别模型。

本申请实施例中，设备识别模型可以由管理设备训练得到，当然也不排除采集设备或其它设备训练得到设备识别模型的可能性。可选地，当第二网络与第一网络为同一网络时，管理设备可以同时采集待识别设备的数据包的报头以及已知设备的数据包的报头，并根据先验信息筛选出其中已知设备的数据包的报头。接入网络的未知设备均可视为待识别设备。

在步骤3032中，根据多个已知设备的网络流量特征以及多个已知设备的设备类型，生成设备识别模型。

可选地，采用有监督学习算法基于多个已知设备的网络流量特征以及多个已知设备的设备类型，训练得到设备识别模型。该设备识别模型为机器学习模型，例如可以是深度神经网络或决策树等，本申请实施例对设备识别模型的类型不做限定。

在本申请的第二个可选实施例中，训练设备识别模型的设备与使用设备识别模型的设备为不同设备，则步骤303的实现过程包括：接收来自其它设备或平台的设备识别模型。也即是，设备识别模型可以来自其它设备或平台，即由其它设备或平台生成后发送给管理设备或采集设备。其它设备或平台生成设备识别模型的过程可参考上述第一个可选实施例中生成设备识别模型的相关描述，本申请实施例在此不再赘述。

步骤304、基于设备识别模型和待识别设备的网络流量特征确定待识别设备的设备类型。

该步骤304的实现过程包括：向设备识别模型输入待识别设备的网络流量特征，得到设备识别模型输出的待识别设备的设备类型。

本申请实施例中，通过调用设备识别模型基于待识别设备的网络流量特征即可确定该待识别设备的设备类型。由于在对设备进行设备识别的过程中，无需待识别设备上报用来识别该待识别设备的信息，因此不会中断该待识别设备上运行的业务，使得待识别设备运行业务的可靠性较高。

可选地，在确定待识别设备的设备类型之后，还可以执行下述步骤305。

步骤305、输出待识别设备的设备类型。

可选地，当上述步骤304由管理设备执行时，管理设备输出待识别设备的设备类型，可以是管理设备向显示设备发送待识别设备对应的设备类型，以供显示设备显示该待识别设备的设备类型，便于用户查看。当上述步骤304由采集设备执行时，采集设备输出待识别设备对应的设备类型，可以是采集设备向管理设备发送待识别设备对应的设备类型，然后由管理设备向显示设备发送待识别设备的设备类型，以供显示设备显示该待识别设备对应的设备类型，便于用户查看。

进一步地，用户还可以对待识别设备的设备识别结果进行校验，如果确定待识别设备对应的设备类型正确，则通过用户界面向管理设备发送确认指令；如果确定待识别设备对应的设备类型错误，则通过用户界面向管理设备发送识别错误指令并输入正确的分类结果。

可选地，在确定待识别设备的设备类型后，模型训练设备还可以基于待识别设备的设备类型以及待识别设备的网络流量特征对设备识别模型进行重训练来实现对设备识别模型的更新和优化，以提高设备识别模型的可靠性和鲁棒性。例如，用户可以在对待识别设备的设备识别结果校验完成后，触发模型训练设备基于校验后的待识别设备的设备类型以及待识别设备的网络流量特征对设备识别模型进行更新和优化。

本申请实施例提供的设备识别方法还可以用于实现对网络中的所有设备的资产盘点。例如，在如图1所示的应用场景中，用户通过显示设备105的用户界面操控管理设备101向网络中的转发设备102发送流量采集指令。转发设备102将其上转发的数据包的报头上送给管理设备101。管理设备101根据数据包的报头中的源IP地址、目的IP地址和包长度，提取每个设备(一个设备对应一个IP地址)的网络流量特征。用户通过显示设备105的用户界面输入先验信息并向管理设备101发送该先验信息，该先验信息中包括需要盘点的所有设备的设备类型，以及每个设备类型对应的尽可能多的IP地址。管理设备101基于先验信息，筛选出所有设备中的已知设备，并采用已知设备的网络流量特征以及已知设备对应的设备类型进行有监督学习的模型训练，得到设备识别模型。然后，管理设备101分别向设备识别模型输入未知设备的网络流量特征，以得到设备识别模型输出的该未知设备对应的设备类型，从而完成对整个网络中的设备的资产盘点。

为了增加模型鲁棒性，在管理设备101将资产盘点清单发送给显示设备并在用户界面上呈现之后，用户可以随机选取一些资产进行校验，管理设备101可以根据资产校验结果进行模型重训练和推理，以得到更加可靠的资产盘点结果。

本申请实施例中，采用了小样本半监督的方式，用户只需要给定网络中设备的所有设备类型以及每个设备类型对应的一部分IP地址即可盘点出网络中所有设备类型所对应的全量IP地址(即全量设备)，方案的可实现性较高。

本申请实施例提供的设备识别方法的步骤先后顺序可以进行适当调整，步骤也可以根据情况进行相应增减。任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化的方法，都应涵盖在本申请的保护范围之内，因此不再赘述。

综上所述，在本申请实施例提供的设备识别方法中，根据采集设备在多个周期内采集到的待识别设备的数据包的数据量确定该待识别设备的网络流量特征，进而调用设备识别模型基于该待识别设备的网络流量特征确定该待识别设备的设备类型。由于在对设备进行设备识别的过程中，无需待识别设备上报用来识别该待识别设备的信息，因此不会中断该待识别设备上运行的业务，使得待识别设备运行业务的可靠性较高。另外，只需获取并解析采集设备采集到的数据包的报头以及采集设备对数据包的采集时刻，即可统计每个第一周期内待识别设备的数据包的数据量，在对待识别设备进行设备识别的过程中，无需解析数据包的数据内容，使得数据包中的数据安全性较高。本申请实施例采用小样本半监督的方式，用户只需要给定网络中设备的所有设备类型以及每个设备类型对应的一部分IP地址即可盘点出网络中所有设备类型所对应的全量IP地址(即全量设备)，方案的可实现性较高。

图7是本申请实施例提供的一种设备识别装置的结构示意图。该设备识别装置可以是如图1所示的应用场景中的管理设备101或采集设备106，或者可以是如图2所示的应用场景中的管理设备101或集成有采集功能的转发设备102。如图7所示，该装置70包括：

第一确定模块701，用于根据第一数据集确定待识别设备的网络流量特征，第一数据集包括多个第一数据，每个第一数据包括在一个第一周期内采集到的待识别设备的数据包的数据量。具体实现过程请参考上述图3所示实施例中的步骤302的详细描述，这里不再赘述。

第二确定模块702，用于基于设备识别模型和待识别设备的网络流量特征确定待识别设备的设备类型。具体实现过程请参考上述图3所示实施例中的步骤303的详细描述，这里不再赘述。

可选地，第一确定模块701，用于：根据第一数据集生成待识别设备对应的第一数据量时间序列(T_n,S_n)，其中，T_n表示第n个第一周期，S_n表示在第n个第一周期内采集到的待识别设备的数据包的数据量，n为正整数。基于第一数据量时间序列(T_n,S_n)，确定待识别设备的网络流量特征。具体实现过程请参考上述实施例中的步骤3021至步骤3022的详细描述，这里不再赘述。

可选地，第一确定模块701，用于：基于第一数据量时间序列(T_n,S_n)，确定待识别设备对应的数据量分布特征；和/或，对第一数据量时间序列(T_n,S_n)进行频域变化，得到待识别设备对应的数据量频域特征，数据量频域特征包括第一数据量时间序列(T_n,S_n)的频率和/或振幅。具体实现过程请参考上述实施例中的步骤3022的详细描述，这里不再赘述。

可选地，第一确定模块701，用于：响应于多个第一数据包括在多个第一周期内采集到的待识别设备的上行数据包的数据量，根据第一数据集生成待识别设备对应的上行数据量时间序列；和/或，响应于多个第一数据包括在多个第一周期内采集到的待识别设备的下行数据包的数据量，根据第一数据集生成待识别设备对应的下行数据量时间序列。具体实现过程请参考上述实施例中的步骤3021的详细描述，这里不再赘述。

可选地，如图8所示，装置70还包括：第一获取模块703，用于获取第一网络中的采集设备采集到的多个数据包的报头以及采集设备对多个数据包的采集时刻，报头包括源IP地址、目的IP地址和包长度，第一网络为待识别设备接入的网络。具体实现过程请参考上述实施例中的步骤3011A的详细描述，这里不再赘述。第一生成模块704，用于根据多个数据包的报头以及采集设备对多个数据包的采集时刻，生成第一数据集。具体实现过程请参考上述实施例中的步骤3012A的详细描述，这里不再赘述。

可选地，第一生成模块704，用于：根据多个数据包的报头中，源IP地址为待识别设备的IP地址的第一报头中的包长度，以及采集设备对第一报头所在数据包的采集时刻，统计多个第一周期内待识别设备的上行数据包的数据量。和/或，根据多个数据包的报头中，目的IP地址为待识别设备的IP地址的第二报头中的包长度，以及采集设备对第二报头所在数据包的采集时刻，统计多个第一周期内待识别设备的下行数据包的数据量。具体实现过程请参考上述实施例中的步骤3012A的详细描述，这里不再赘述。

可选地，如图9所示，装置70还包括：筛选模块705，用于筛选出多个数据包的报头中包长度小于目标阈值的数据包的报头。第一生成模块704，用于根据筛选出的多个报头以及采集设备对筛选出的多个报头所在数据包的采集时刻，生成第一数据集。具体实现过程请参考上述实施例中的步骤3012A的详细描述，这里不再赘述。

可选地，当装置70为管理设备时，如图10所示，装置70还包括：发送模块706，用于向第一网络中的采集设备发送流量采集指令，流量采集指令用于指示采集设备采集第一网络中的数据包的报头。第一获取模块703，用于接收第一网络中的采集设备发送的多个数据包的报头以及采集设备对多个数据包的采集时刻。具体实现过程请参考上述实施例中的步骤3011A的详细描述，这里不再赘述。

可选地，流量采集指令包括待识别设备的标识，流量采集指令用于指示采集设备采集待识别设备的数据包的报头。具体实现过程请参考上述实施例中的步骤3011A的详细描述，这里不再赘述。

可选地，当装置70为管理设备时，如图11所示，装置70还包括：发送模块706，用于向第一网络中的采集设备发送统计信息采集指令。接收模块707，用于响应于统计信息采集指令指示采集设备统计在多个第一周期内采集到的待识别设备的数据包的数据量，接收第一网络中的采集设备发送的多个第一数据，以得到第一数据集。具体实现过程请参考上述实施例中的步骤3011B至步骤3012B的详细描述，这里不再赘述。或者，接收模块707，用于响应于统计信息采集指令指示采集设备统计在多个采集时刻采集到的待识别设备的数据包的数据量，接收第一网络中的采集设备发送的多个第二数据，并根据多个第二数据生成第一数据集，每个第二数据包括一个采集时刻以及在采集时刻采集到的待识别设备的数据包的数据量。具体实现过程请参考上述实施例中的步骤3011C至步骤3013C的详细描述，这里不再赘述。

可选地，待识别设备为IoT设备。

可选地，如图12所示，装置70还包括：第三确定模块708，用于根据第二数据集确定已知设备的网络流量特征，第二数据集包括多个第三数据，每个第三数据包括在一个第二周期内采集到的已知设备的数据包的数据量。具体实现过程请参考上述实施例中的步骤3031的详细描述，这里不再赘述。第二生成模块709，用于根据多个已知设备的网络流量特征以及多个已知设备的设备类型，生成设备识别模型。具体实现过程请参考上述实施例中的步骤3032的详细描述，这里不再赘述。

可选地，如图13所示，装置70还包括：第二获取模块710，用于获取第二网络中的采集设备采集到的多个数据包的报头以及采集设备对多个数据包的采集时刻，报头包括源IP地址、目的IP地址和包长度，第二网络为已知设备接入的网络。第三获取模块711，用于基于先验信息从多个数据包的报头中获取已知设备的数据包的报头，先验信息包括多个设备类型以及每个设备类型对应的多个已知设备的标识。第三生成模块712，用于根据已知设备的数据包的报头中的包长度以及采集设备对已知设备的数据包的采集时刻，生成第二数据集。具体实现过程请参考上述实施例中的步骤3031的详细描述，这里不再赘述。

可选地，第三确定模块708，用于：根据第二数据集生成已知设备对应的第二数据量时间序列(T_m,S_m)，其中，T_m表示第m个第二周期，S_m表示在第m个第二周期内采集到的已知设备的数据包的数据量，m为正整数。基于第二数据量时间序列(T_m,S_m)，确定已知设备的网络流量特征。具体实现过程请参考上述实施例中的步骤3031的详细描述，这里不再赘述。

可选地，第三确定模块708，用于：基于第二数据量时间序列(T_m,S_m)，确定已知设备对应的数据量分布特征。和/或，对第二数据量时间序列(T_m,S_m)进行频域变化，得到已知设备对应的数据量频域特征，数据量频域特征包括第二数据量时间序列(T_m,S_m)的频率和/或振幅。具体实现过程请参考上述实施例中的步骤3031的详细描述，这里不再赘述。

可选地，如图14所示，装置70还包括：接收模块707，用于接收来自其它设备或平台的设备识别模型。也即是，设备识别模型可以来自其它设备或平台。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

综上所述，在本申请实施例提供的设备识别方法中，通过第一确定模块根据采集设备在多个周期内采集到的待识别设备的数据包的数据量确定该待识别设备的网络流量特征，进而通过第二确定模块调用设备识别模型基于该待识别设备的网络流量特征确定该待识别设备的设备类型。由于在对设备进行设备识别的过程中，无需待识别设备上报用来识别该待识别设备的信息，因此不会中断该待识别设备上运行的业务，使得待识别设备运行业务的可靠性较高。另外，只需获取并解析采集设备采集到的数据包的报头以及采集设备对数据包的采集时刻，即可统计每个第一周期内待识别设备的数据包的数据量，在对待识别设备进行设备识别的过程中，无需解析数据包的数据内容，使得数据包中的数据安全性较高。本申请实施例采用小样本半监督的方式，用户只需要给定网络中设备的所有设备类型以及每个设备类型对应的一部分IP地址即可盘点出网络中所有设备类型所对应的全量IP地址(即全量设备)，方案的可实现性较高。

本申请实施例还提供了一种管理设备。如图15所示，该管理设备150包括：处理器1501和存储器1502。

存储器1502，用于存储计算机程序，该计算机程序包括程序指令。

处理器1501，用于调用计算机程序，实现如上述方法实施例涉及的管理设备执行的步骤。

具体的，处理器1501用于根据第一数据集确定待识别设备的网络流量特征，第一数据集包括多个第一数据，每个第一数据包括在一个第一周期内采集到的待识别设备的数据包的数据量；基于设备识别模型和待识别设备的网络流量特征确定待识别设备的设备类型。具体实现过程请参考上述图3所示实施例中的步骤301至步骤305的详细描述，这里不再赘述。

此外，在上述图7至图14中的各模块以软件实现的情况下，上述各程序模块可以存储在存储器1502中，该处理器1501执行存储器1502中的各软件模块以执行如上述方法实施例涉及的管理设备的处理步骤和功能。

可选地，该装置1500还包括通信接口1503和通信总线1504。

其中，处理器1501包括一个或者一个以上处理核心，处理器1501通过运行计算机程序执行各种功能应用以及数据处理。

存储器1502可用于存储计算机程序。可选地，存储器1502可存储操作系统。该操作系统可以是实时操作系统(Real Time eXecutive，RTX)、LINUX、UNIX、WINDOWS或OS X之类的操作系统。

通信接口1503可以为多个，通信接口1503用于与其它设备进行通信，例如与网络中的采集设备进行通信。

存储器1502与通信接口1503分别通过总线1504与处理器1501连接。

本申请实施例还提供了一种采集设备。如图16所示，该采集设备160包括：处理器1601和存储器1602。

存储器1602，用于存储计算机程序，该计算机程序包括程序指令。

处理器1601，用于调用计算机程序，实现如上述方法实施例涉及的采集设备执行的步骤。

具体的，处理器1601用于根据第一数据集确定待识别设备的网络流量特征，第一数据集包括多个第一数据，每个第一数据包括在一个第一周期内采集到的待识别设备的数据包的数据量；基于设备识别模型和待识别设备的网络流量特征确定待识别设备的设备类型。具体实现过程请参考上述图3所示实施例中的步骤301至步骤305的详细描述，这里不再赘述。

此外，在上述图7至图9以及图12至图14中的各模块以软件实现的情况下，上述各程序模块可以存储在存储器1602中，该处理器1601执行存储器1602中的各软件模块以执行如上述方法实施例涉及的采集设备的处理步骤和功能。

可选地，该装置1600还包括通信接口1603和通信总线1604。

其中，处理器1601包括一个或者一个以上处理核心，处理器1601通过运行计算机程序执行各种功能应用以及数据处理。

存储器1602可用于存储计算机程序。可选地，存储器1602可存储操作系统。该操作系统可以是实时操作系统(Real Time eXecutive，RTX)、LINUX、UNIX、WINDOWS或OS X之类的操作系统。

通信接口1603可以为多个，通信接口1603用于与其它设备进行通信，例如与网络中的管理设备进行通信。

存储器1602与通信接口1603分别通过总线1604与处理器1601连接。

本申请实施例还提供了一种设备识别系统，如图17所示，该系统170包括：采集模块1701、统计模块1702和识别模块1703。

采集模块1701用于采集网络中的数据包的报头，并向统计模块1702发送采集到的多个数据包的报头以及采集模块1701对多个数据包的采集时刻，报头包括源互联网协议IP地址、目的IP地址和包长度。

统计模块1702用于根据多个数据包的报头以及采集模块对多个数据包的采集时刻，生成第一数据集，并向识别模块1703发送第一数据集，第一数据集包括多个第一数据，每个第一数据包括在一个第一周期内采集到的待识别设备的数据包的数据量。

识别模块1703用于根据第一数据集确定待识别设备的网络流量特征，并基于设备识别模型和待识别设备的网络流量特征确定待识别设备的设备类型。

可选地，如图18或图19所示，该系统170还包括：管理模块1704。

管理模块1704用于向采集模块1701发送流量采集指令，流量采集指令用于指示采集模块采集网络中的数据包的报头。采集模块1701用于基于流量采集指令采集网络中的数据包的报头。

可选地，参见图18，采集模块1701在采集设备中，管理模块1704、统计模块1702和识别模块1703在管理设备中；或者，参见图19，采集模块1701和统计模块1702在采集设备中，管理模块1704和识别模块1703在管理设备中。

可选地，流量采集指令包括待识别设备的标识，流量采集指令用于指示采集设备1701采集待识别设备的数据包的报头。采集模块1701用于基于流量采集指令采集网络中的待识别设备的数据包的报头。

可选地，如图20至图22任一所示，该系统170还包括：训练模块1705。

采集模块1701还用于向训练模块1705发送采集到的多个数据包的报头以及采集模块1701对多个数据包的采集时刻。训练模块1705用于根据先验信息、多个数据包的报头以及采集模块对多个数据包的采集时刻，生成第二数据集，并根据第二数据集确定多个已知设备的网络流量特征，然后根据多个已知设备的网络流量特征以及多个已知设备的设备类型，生成设备识别模型，并向识别模块1703发送设备识别模型。其中，先验信息包括多个设备类型以及每个设备类型对应的多个已知设备的标识，第二数据集包括多个第二数据，每个第二数据包括在一个第二周期内采集到的已知设备的数据包的数据量。

可选地，识别模块1703还用于向训练模块1705发送待识别设备的网络流量特征和待识别设备的设备类型。训练模块1705还用于基于待识别设备的网络流量特征和待识别设备的设备类型更新设备识别模型，并向识别模块1703发送更新后的设备识别模型。或者，识别模块1703还用于向训练模块1705发送待识别设备的网络流量特征。训练模块1705还用于基于待识别设备的网络流量特征以及外部输入的待识别设备的设备类型更新设备识别模型，并向识别模块1703发送更新后的设备识别模型。从而实现对设备识别模型的更新和优化。

可选地，参见图20，采集模块1701、统计模块1702和识别模块1703在采集设备中，训练模块1705在管理设备中；或者，参见图21，采集模块1701在采集设备中，统计模块1702、识别模块1703和训练模块1705在管理设备中；又或者，参见图22，采集模块1701和统计模块1702在采集设备中，识别模块1703和训练模块1705在管理设备中。

在一些实施例中，设备识别系统170中的各个模块可以部署在同一个物理设备中；在另一些实施例中，设备识别系统170中的各个模块可以部署在多台不同的物理设备中。设备识别系统170中的各个模块可以是硬件模块或者软件和硬件相结合的模块。

本申请实施例还提供了一种计算机可读存储介质，计算机可读存储介质上存储有指令，当指令被管理设备的处理器执行时，实现如上述方法实施例的设备识别方法；或者，当指令被采集设备的处理器执行时，实现如上述方法实施例的设备识别方法。

本申请实施例还提供了一种计算机程序产品，计算机程序产品包括计算机指令，计算机指令存储在计算机可读存储介质中，管理设备的处理器从计算机可读存储介质读取并执行计算机指令，实现如上述方法实施例的设备识别方法；或者，采集设备的处理器从计算机可读存储介质读取并执行计算机指令，实现如上述方法实施例的设备识别方法。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本申请实施例中，术语“第一”、“第二”和“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

本申请中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的构思和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种设备识别方法，其特征在于，所述方法包括：

根据第一数据集确定待识别设备的网络流量特征，所述第一数据集包括多个第一数据，每个所述第一数据包括在一个第一周期内采集到的所述待识别设备的数据包的数据量；

基于设备识别模型和所述待识别设备的网络流量特征确定所述待识别设备的设备类型。

2.根据权利要求1所述的方法，其特征在于，所述根据第一数据集确定待识别设备的网络流量特征，包括：

根据所述第一数据集生成所述待识别设备对应的第一数据量时间序列(T_n,S_n)，其中，T_n表示第n个所述第一周期，S_n表示在第n个所述第一周期内采集到的所述待识别设备的数据包的数据量，n为正整数；

基于所述第一数据量时间序列(T_n,S_n)，确定所述待识别设备的网络流量特征。

3.根据权利要求2所述的方法，其特征在于，所述基于所述第一数据量时间序列(T_n,S_n)，确定所述待识别设备的网络流量特征，包括：

基于所述第一数据量时间序列(T_n,S_n)，确定所述待识别设备对应的数据量分布特征；

和/或，对所述第一数据量时间序列(T_n,S_n)进行频域变化，得到所述待识别设备对应的数据量频域特征，所述数据量频域特征包括所述第一数据量时间序列(T_n,S_n)的频率和/或振幅。

4.根据权利要求2或3所述的方法，其特征在于，所述根据所述第一数据集生成所述待识别设备对应的第一数据量时间序列(T_n,S_n)，包括：

响应于所述多个第一数据包括在多个所述第一周期内采集到的所述待识别设备的上行数据包的数据量，根据所述第一数据集生成所述待识别设备对应的上行数据量时间序列；

和/或，响应于所述多个第一数据包括在多个所述第一周期内采集到的所述待识别设备的下行数据包的数据量，根据所述第一数据集生成所述待识别设备对应的下行数据量时间序列。

5.根据权利要求1至4任一所述的方法，其特征在于，所述方法还包括：

获取第一网络中的采集设备采集到的多个数据包的报头以及所述采集设备对所述多个数据包的采集时刻，所述报头包括源互联网协议IP地址、目的IP地址和包长度，所述第一网络为所述待识别设备接入的网络；

根据所述多个数据包的报头以及所述采集设备对所述多个数据包的采集时刻，生成所述第一数据集。

6.根据权利要求5所述的方法，其特征在于，所述根据所述多个数据包的报头以及所述采集设备对所述多个数据包的采集时刻，生成所述第一数据集，包括：

根据所述多个数据包的报头中，源IP地址为所述待识别设备的IP地址的第一报头中的包长度，以及所述采集设备对所述第一报头所在数据包的采集时刻，统计多个所述第一周期内所述待识别设备的上行数据包的数据量；

和/或，根据所述多个数据包的报头中，目的IP地址为所述待识别设备的IP地址的第二报头中的包长度，以及所述采集设备对所述第二报头所在数据包的采集时刻，统计多个所述第一周期内所述待识别设备的下行数据包的数据量。

7.根据权利要求5或6所述的方法，其特征在于，在所述获取第一网络中的采集设备采集到的多个数据包的报头之后，所述方法还包括：

筛选出所述多个数据包的报头中包长度小于目标阈值的数据包的报头；

所述根据所述多个数据包的报头以及所述采集设备对所述多个数据包的采集时刻，生成所述第一数据集，包括：

根据筛选出的多个报头以及所述采集设备对所述筛选出的多个报头所在数据包的采集时刻，生成所述第一数据集。

8.根据权利要求5至7任一所述的方法，其特征在于，所述方法还包括：

向所述第一网络中的采集设备发送流量采集指令，所述流量采集指令用于指示所述采集设备采集所述第一网络中的数据包的报头；

所述获取第一网络中的采集设备采集到的多个数据包的报头以及所述采集设备对所述多个数据包的采集时刻，包括：

接收所述第一网络中的采集设备发送的所述多个数据包的报头以及所述采集设备对所述多个数据包的采集时刻。

9.根据权利要求8所述的方法，其特征在于，所述流量采集指令包括所述待识别设备的标识，所述流量采集指令用于指示所述采集设备采集所述待识别设备的数据包的报头。

10.根据权利要求1至4任一所述的方法，其特征在于，所述方法还包括：

向所述第一网络中的采集设备发送统计信息采集指令；

响应于所述统计信息采集指令指示所述采集设备统计在多个所述第一周期内采集到的所述待识别设备的数据包的数据量，接收所述第一网络中的采集设备发送的多个所述第一数据，以得到所述第一数据集；

或者，响应于所述统计信息采集指令指示所述采集设备统计在多个采集时刻采集到的所述待识别设备的数据包的数据量，接收所述第一网络中的采集设备发送的多个第二数据，并根据所述多个第二数据生成所述第一数据集，每个所述第二数据包括一个采集时刻以及在所述采集时刻采集到的所述待识别设备的数据包的数据量。

11.根据权利要求1至10任一所述的方法，其特征在于，所述待识别设备为物联网设备。

12.根据权利要求1至11任一所述的方法，其特征在于，所述方法还包括：

根据第二数据集确定已知设备的网络流量特征，所述第二数据集包括多个第三数据，每个所述第三数据包括在一个第二周期内采集到的所述已知设备的数据包的数据量；

根据多个所述已知设备的网络流量特征以及多个所述已知设备的设备类型，生成所述设备识别模型。

13.根据权利要求12所述的方法，其特征在于，所述方法还包括：

获取第二网络中的采集设备采集到的多个数据包的报头以及所述采集设备对所述多个数据包的采集时刻，所述报头包括源IP地址、目的IP地址和包长度，所述第二网络为所述已知设备接入的网络；

基于先验信息从所述多个数据包的报头中获取所述已知设备的数据包的报头，所述先验信息包括多个设备类型以及每个所述设备类型对应的多个已知设备的标识；

根据所述已知设备的数据包的报头中的包长度以及所述采集设备对所述已知设备的数据包的采集时刻，生成所述第二数据集。

14.根据权利要求12或13所述的方法，其特征在于，所述根据第二数据集确定已知设备的网络流量特征，包括：

根据所述第二数据集生成所述已知设备对应的第二数据量时间序列(T_m,S_m)，其中，T_m表示第m个所述第二周期，S_m表示在第m个所述第二周期内采集到的所述已知设备的数据包的数据量，m为正整数；

基于所述第二数据量时间序列(T_m,S_m)，确定所述已知设备的网络流量特征。

15.根据权利要求14所述的方法，其特征在于，所述基于所述第二数据量时间序列(T_m,S_m)，确定所述已知设备的网络流量特征，包括：

基于所述第二数据量时间序列(T_m,S_m)，确定所述已知设备对应的数据量分布特征；

和/或，对所述第二数据量时间序列(T_m,S_m)进行频域变化，得到所述已知设备对应的数据量频域特征，所述数据量频域特征包括所述第二数据量时间序列(T_m,S_m)的频率和/或振幅。

16.根据权利要求1至11任一所述的方法，其特征在于，所述设备识别模型来自其它设备或平台。

17.一种设备识别装置，其特征在于，所述装置包括：

第一确定模块，用于根据第一数据集确定待识别设备的网络流量特征，所述第一数据集包括多个第一数据，每个所述第一数据包括在一个第一周期内采集到的所述待识别设备的数据包的数据量；

第二确定模块，用于基于设备识别模型和所述待识别设备的网络流量特征确定所述待识别设备的设备类型。

18.根据权利要求17所述的装置，其特征在于，所述第一确定模块，用于：

19.根据权利要求18所述的装置，其特征在于，所述第一确定模块，用于：

20.根据权利要求18或19所述的装置，其特征在于，所述第一确定模块，用于：

21.根据权利要求17至20任一所述的装置，其特征在于，所述装置还包括：

第一获取模块，用于获取第一网络中的采集设备采集到的多个数据包的报头以及所述采集设备对所述多个数据包的采集时刻，所述报头包括源互联网协议IP地址、目的IP地址和包长度，所述第一网络为所述待识别设备接入的网络；

第一生成模块，用于根据所述多个数据包的报头以及所述采集设备对所述多个数据包的采集时刻，生成所述第一数据集。

22.根据权利要求21所述的装置，其特征在于，所述第一生成模块，用于：

23.根据权利要求21或22所述的装置，其特征在于，所述装置还包括：

筛选模块，用于筛选出所述多个数据包的报头中包长度小于目标阈值的数据包的报头；

所述第一生成模块，用于根据筛选出的多个报头以及所述采集设备对所述筛选出的多个报头所在数据包的采集时刻，生成所述第一数据集。

24.根据权利要求21至23任一所述的装置，其特征在于，所述装置还包括：

发送模块，用于向所述第一网络中的采集设备发送流量采集指令，所述流量采集指令用于指示所述采集设备采集所述第一网络中的数据包的报头；

所述第一获取模块，用于接收所述第一网络中的采集设备发送的所述多个数据包的报头以及所述采集设备对所述多个数据包的采集时刻。

25.根据权利要求24所述的装置，其特征在于，所述流量采集指令包括所述待识别设备的标识，所述流量采集指令用于指示所述采集设备采集所述待识别设备的数据包的报头。

26.根据权利要求17至20任一所述的装置，其特征在于，所述装置还包括：

发送模块，用于向所述第一网络中的采集设备发送统计信息采集指令；

接收模块，用于响应于所述统计信息采集指令指示所述采集设备统计在多个所述第一周期内采集到的所述待识别设备的数据包的数据量，接收所述第一网络中的采集设备发送的多个所述第一数据，以得到所述第一数据集；或者，响应于所述统计信息采集指令指示所述采集设备统计在多个采集时刻采集到的所述待识别设备的数据包的数据量，接收所述第一网络中的采集设备发送的多个第二数据，并根据所述多个第二数据生成所述第一数据集，每个所述第二数据包括一个采集时刻以及在所述采集时刻采集到的所述待识别设备的数据包的数据量。

27.根据权利要求17至26任一所述的装置，其特征在于，所述待识别设备为物联网设备。

28.根据权利要求17至27任一所述的装置，其特征在于，所述装置还包括：

第三确定模块，用于根据第二数据集确定已知设备的网络流量特征，所述第二数据集包括多个第三数据，每个所述第三数据包括在一个第二周期内采集到的所述已知设备的数据包的数据量；

第二生成模块，用于根据多个所述已知设备的网络流量特征以及多个所述已知设备的设备类型，生成所述设备识别模型。

29.根据权利要求28所述的装置，其特征在于，所述装置还包括：

第二获取模块，用于获取第二网络中的采集设备采集到的多个数据包的报头以及所述采集设备对所述多个数据包的采集时刻，所述报头包括源IP地址、目的IP地址和包长度，所述第二网络为所述已知设备接入的网络；

第三获取模块，用于基于先验信息从所述多个数据包的报头中获取所述已知设备的数据包的报头，所述先验信息包括多个设备类型以及每个所述设备类型对应的多个已知设备的标识；

第三生成模块，用于根据所述已知设备的数据包的报头中的包长度以及所述采集设备对所述已知设备的数据包的采集时刻，生成所述第二数据集。

30.根据权利要求28或29所述的装置，其特征在于，所述第三确定模块，用于：

31.根据权利要求30所述的装置，其特征在于，所述第三确定模块，用于：

32.根据权利要求17至27任一所述的装置，其特征在于，所述设备识别模型来自其它设备或平台。

33.一种管理设备，其特征在于，包括：处理器和存储器；

所述处理器，用于调用所述计算机程序，实现如权利要求1至16任一所述的设备识别方法。

34.一种采集设备，其特征在于，包括：处理器和存储器；

所述处理器，用于调用所述计算机程序，实现如权利要求1至7以及11至16任一所述的设备识别方法。

35.一种设备识别系统，其特征在于，包括：采集模块、统计模块和识别模块；

所述采集模块用于采集网络中的数据包的报头，并向所述统计模块发送采集到的多个数据包的报头以及所述采集模块对所述多个数据包的采集时刻，所述报头包括源互联网协议IP地址、目的IP地址和包长度；

所述统计模块用于根据所述多个数据包的报头以及所述采集模块对所述多个数据包的采集时刻，生成第一数据集，并向所述识别模块发送所述第一数据集，所述第一数据集包括多个第一数据，每个所述第一数据包括在一个第一周期内采集到的所述待识别设备的数据包的数据量；

所述识别模块用于根据所述第一数据集确定待识别设备的网络流量特征，并基于设备识别模型和所述待识别设备的网络流量特征确定所述待识别设备的设备类型。

36.根据权利要求35所述的系统，其特征在于，所述系统还包括：管理模块；

所述管理模块用于向所述采集模块发送流量采集指令，所述流量采集指令用于指示所述采集模块采集所述网络中的数据包的报头；

所述采集模块用于基于所述流量采集指令采集所述网络中的数据包的报头。

37.根据权利要求36所述的系统，其特征在于，所述采集模块在采集设备中，所述管理模块、所述统计模块和所述识别模块在管理设备中；或者，所述采集模块和所述统计模块在采集设备中，所述管理模块和所述识别模块在管理设备中。

38.根据权利要求36或37所述的系统，其特征在于，所述流量采集指令包括所述待识别设备的标识，所述流量采集指令用于指示所述采集设备采集所述待识别设备的数据包的报头；

所述采集模块用于基于所述流量采集指令采集所述网络中的所述待识别设备的数据包的报头。

39.根据权利要求35至37任一所述的系统，其特征在于，所述系统还包括：训练模块；

所述采集模块还用于向所述训练模块发送采集到的多个数据包的报头以及所述采集模块对所述多个数据包的采集时刻；

所述训练模块用于根据先验信息、所述多个数据包的报头以及所述采集模块对所述多个数据包的采集时刻，生成第二数据集，并根据所述第二数据集确定多个已知设备的网络流量特征，然后根据所述多个已知设备的网络流量特征以及所述多个已知设备的设备类型，生成所述设备识别模型，并向所述识别模块发送所述设备识别模型；

其中，所述先验信息包括多个设备类型以及每个所述设备类型对应的多个已知设备的标识，所述第二数据集包括多个第二数据，每个所述第二数据包括在一个第二周期内采集到的所述已知设备的数据包的数据量。

40.根据权利要求39所述的系统，其特征在于，所述采集模块、所述统计模块和所述识别模块在采集设备中，所述训练模块在管理设备中；或者，所述采集模块在采集设备中，所述统计模块、所述识别模块和所述训练模块在管理设备中；又或者，所述采集模块和所述统计模块在采集设备中，所述识别模块和所述训练模块在管理设备中。

41.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有指令，当所述指令被管理设备的处理器执行时，实现如权利要求1至16任一所述的设备识别方法；或者，当所述指令被采集设备的处理器执行时，实现如权利要求1至7以及11至16任一所述的设备识别方法。

42.一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机指令，所述计算机指令存储在计算机可读存储介质中，管理设备的处理器从所述计算机可读存储介质读取并执行所述计算机指令，实现如权利要求1至16任一所述的设备识别方法；或者，采集设备的处理器从所述计算机可读存储介质读取并执行所述计算机指令，实现如权利要求1至7以及11至16任一所述的设备识别方法。