CN117332090B - 一种敏感信息识别方法、装置、设备和存储介质 - Google Patents
一种敏感信息识别方法、装置、设备和存储介质 Download PDFInfo
- Publication number
- CN117332090B CN117332090B CN202311608959.9A CN202311608959A CN117332090B CN 117332090 B CN117332090 B CN 117332090B CN 202311608959 A CN202311608959 A CN 202311608959A CN 117332090 B CN117332090 B CN 117332090B
- Authority
- CN
- China
- Prior art keywords
- initial
- classification model
- sensitive information
- data
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/151—Transformation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及数据安全技术领域,公开了一种敏感信息识别方法、装置、设备和存储介质,获取初始数据集;按照设定的单次训练量,从初始数据集选择出初始训练样本;基于不同类别对应的权重、初始训练样本对应的真实标签向量、初始训练样本输入初始分类模型所得到的预测向量,确定出交叉熵损失函数;根据预测向量、增强后的初始训练样本输入初始分类模型所得到的新的预测向量,确定出一致性损失函数;基于交叉熵损失函数和一致性损失函数对初始分类模型的参数进行调整,以得到训练后的分类模型;利用训练后的分类模型识别待分析数据的敏感信息结果。通过设置权重、添加一致性损失函数,提升了分类模型的识别精度,实现了敏感信息的准确识别。
Description
技术领域
本发明涉及数据安全技术领域,特别是涉及一种敏感信息识别方法、装置、设备和存储介质。
背景技术
聊天机器人程序(Chat Generative Pre-trained Transformer,ChatGPT)作为爆火的科技概念,掀起了科技浪潮,互联网企业也陆续发布相关大模型。由于大模型的输入是海量序列数据,因此存在一些固有的安全风险。风险可能来自于输入数据的完整性、正确性、敏感性和隐私等问题。不良人员可以通过大模型产出诱导性敏感信息,这些带有敏感信息的内容严重影响用户体验,也可能造成不良引导。
确定有限状态自动机(Deterministic Finite Automaton,DFA)是一种用于字符串匹配的算法,其实现方式包括构建敏感词字典树,从根节点开始,按照每个字符的转移情况,构建状态转换表。从文本的开头开始,逐个字符地读取文本,并根据状态转换表找到对应的下一个状态。如果找不到对应的状态,表示当前位置不是敏感词的开头,需要从下一个字符重新开始匹配。如果当前状态为敏感词的终止状态,说明匹配到一个敏感词,可以记录下来或进行相应的处理。DFA是一种字符串匹配算法,其审核性能依赖于敏感词字典树,因此误杀性很大。
可见,如何提升敏感信息识别的准确性,是本领域技术人员需要解决的问题。
发明内容
本发明实施例的目的是提供一种敏感信息识别方法、装置、设备和存储介质,可以解决敏感信息识别准确性差的问题。
为解决上述技术问题,本发明实施例提供一种敏感信息识别方法,包括:
获取初始数据集;
按照设定的单次训练量,从所述初始数据集选择出初始训练样本;
基于不同类别对应的权重、所述初始训练样本对应的真实标签向量、所述初始训练样本输入初始分类模型所得到的预测向量,确定出交叉熵损失函数;
根据所述预测向量、增强后的初始训练样本输入所述初始分类模型所得到的新的预测向量,确定出一致性损失函数;
基于所述交叉熵损失函数和所述一致性损失函数对所述初始分类模型的参数进行调整,以得到训练后的分类模型;
利用所述训练后的分类模型识别待分析数据的敏感信息结果。
一方面,所述基于不同类别对应的权重、所述初始训练样本对应的真实标签向量、所述初始训练样本输入初始分类模型所得到的预测向量,确定出交叉熵损失函数包括:
将所述初始训练样本输入所述初始分类模型,以得到预测向量;其中,所述预测向量包括所述初始训练样本属于不同类别的预测值;
调用交叉熵损失函数计算公式,对所述预测向量、所述初始训练样本对应的真实标签向量以及不同类别对应的权重进行处理,以得到交叉熵损失函数;所述交叉熵损失函数计算公式为:
;
其中,,/>,N表示所有初始训练样本的样本数目,K表示类别总数,i表示第i个初始训练样本,c表示第c个类别,y ic 表示第i个初始训练样本的标签值、第i个初始训练样本的真实标签为c时y ic 取值为1、第i个初始训练样本的真实标签不为c时y ic 取值为0,p ic 表示第i个初始训练样本属于类别c的预测概率,w ic 表示第i个初始训练样本属于类别c的权重值,z ic 表示第i个初始训练样本属于类别c的预测值,第i个初始训练样本属于不同类别的预测值的组合作为所述预测向量,N C 表示所有初始训练样本中类别为c的样本数目。
一方面,所述根据所述预测向量、增强后的初始训练样本输入所述初始分类模型所得到的新的预测向量,确定出一致性损失函数包括:
对所述初始训练样本进行同义词替换、回译和/或句法变换,以得到所述增强后的初始训练样本;
将所述增强后的初始训练样本输入所述初始分类模型,以得到新的预测向量;
调用一致性损失函数计算公式,对所述新的预测向量以及所述预测向量进行处理,以得到一致性损失函数;所述一致性损失函数计算公式为:
;
其中,α表示超参数,z i 表示第i个初始训练样本对应的预测向量,表示第i个增强后的初始训练样本对应的新的预测向量。
一方面,所述初始数据集包括初始标记训练集和初始标记验证集;
在所述基于所述交叉熵损失函数和所述一致性损失函数对所述初始分类模型的参数进行调整,以得到训练后的分类模型之后,还包括:
利用所述初始标记训练集以及从未标注数据中筛选出的敏感信息候选集,对所述训练后的分类模型进行参数调整,以得到微调分类模型;
基于所述微调分类模型在所述初始标记验证集上的识别精度,从所述敏感信息候选集中筛选出伪标签数据集;
依据所述初始数据集以及所述伪标签数据集,从不同结构的待微调模型中筛选出识别精度最大的敏感信息分类模型;
利用所述敏感信息分类模型识别所述待分析数据的敏感信息结果。
一方面,所述利用所述初始标记训练集以及从未标注数据中筛选出的敏感信息候选集,对所述训练后的分类模型进行参数调整,以得到微调分类模型包括:
对所述未标注数据进行字词匹配和语义识别,以筛选出所述敏感信息候选集;
按照所述单次训练量,分别从所述敏感信息候选集以及所述初始标记训练集中选择出训练样本;
利用所述训练样本对所述训练后的分类模型进行训练,以得到损失函数;
基于所述损失函数对所述训练后的分类模型的参数进行调整,以得到微调分类模型。
一方面,所述对所述未标注数据进行字词匹配和语义识别,以筛选出所述敏感信息候选集包括:
根据字词匹配算法对所述未标注数据进行分类,将属于敏感信息类别的第一未标注数据添加至所述敏感信息候选集;
利用所述训练后的分类模型对不属于敏感信息类别的第二未标注数据进行语义分析,以确定出各所述第二未标注数据所对应的预测标签;
根据各所述第二未标注数据所对应的预测标签,将预测标签属于敏感信息类别的第二未标注数据添加至所述敏感信息候选集。
一方面,所述训练样本包括敏感数据和非敏感数据;
所述按照所述单次训练量,分别从所述敏感信息候选集以及所述初始标记训练集中选择出训练样本包括:
从所述敏感信息候选集中选择出与样本量匹配的敏感数据;其中,所述样本量为所述单次训练量取值的一半;
从所述初始标记训练集中选择出与所述样本量匹配的非敏感数据。
一方面,所述损失函数包括微调阶段的交叉熵损失函数和微调阶段的一致性损失函数;
所述利用所述训练样本对所述训练后的分类模型进行训练,以得到损失函数包括:
将所述训练样本输入所述训练后的分类模型,以得到第一预测向量;
基于所述第一预测向量、所述训练样本对应的真实标签向量以及不同类别对应的权重,确定出所述微调阶段的交叉熵损失函数;
对所述训练样本进行增强处理,以得到新的训练样本;
将所述新的训练样本输入所述训练后分类模型,以得到第二预测向量;
根据所述第二预测向量与所述第一预测向量,确定出所述微调阶段的一致性损失函数。
一方面,所述基于所述微调分类模型在所述初始标记验证集上的识别精度,从所述敏感信息候选集中筛选出伪标签数据集包括:
利用所述微调分类模型对所述初始标记验证集进行分析,以输出所述初始标记验证集对应的预测向量;
基于所述初始标记验证集对应的预测向量以及所述初始标记验证集的真实标签向量,确定出所述微调分类模型的识别精度;
在所述识别精度满足设定的精度要求的情况下,将所述敏感数据及其对应的预测标签作为所述伪标签数据集。
一方面,所述在所述识别精度满足设定的精度要求的情况下,将所述敏感数据及其对应的预测标签作为所述伪标签数据集包括:
在所述识别精度大于或等于所述初始分类模型对应的初始识别精度的情况下,将所述敏感数据及其对应的预测标签作为所述伪标签数据集。
一方面,在所述将所述敏感数据及其对应的预测标签作为所述伪标签数据集之后,还包括:
根据用户输入的标签调整指令中携带的真实标签,对所述伪标签数据集中所述敏感数据对应的预测标签进行调整。
一方面,在所述基于所述损失函数对所述训练后的分类模型的参数进行调整,以得到微调分类模型之后,还包括:
将选择出的与样本量匹配的敏感数据从所述敏感信息候选集中删除;
判断当前最新的敏感信息候选集中是否存在剩余数据;
在所述当前最新的敏感信息候选集中存在剩余数据的情况下,返回所述从所述敏感信息候选集中选择出与样本量匹配的敏感数据的步骤。
一方面,所述依据所述初始数据集以及所述伪标签数据集,从不同结构的待微调模型中筛选出识别精度最大的敏感信息分类模型包括:
将所述初始数据集以及所述伪标签数据集作为扩充数据集;
按照设定的比例,将所述扩充数据集划分为扩充训练集、扩充验证集和扩充测试集;
利用所述扩充训练集分别对不同结构的待微调模型进行训练,以得到不同结构的微调模型;
基于所述不同结构的微调模型在所述扩充验证集上的识别精度,筛选出不同结构的最佳微调模型;
基于所述不同结构的最佳微调模型在所述扩充测试集上的识别精度,筛选出识别精度最大的敏感信息分类模型。
一方面,每种结构的待微调模型包含多个二分类模型;针对于每种结构的待微调模型的构建,所述方法还包括:
将不同类别各自对应的敏感数据分别与非敏感数据进行组合,以得到不同类别对应的微调样本;
利用不同类别对应的微调样本分别对目标结构的初始待微调模型进行训练,以得到所述目标结构对应的多个二分类模型;其中,所述目标结构为所有所述结构中的任意一种。
一方面,所述利用所述敏感信息分类模型识别所述待分析数据的敏感信息结果包括:
在所述待分析数据为用户问题的情况下,将所述用户问题输入至所述敏感信息分类模型,以得到所述用户问题对应的预测标签;
在所述用户问题对应的预测标签属于敏感信息类别的情况下,输出存在敏感信息的提示信息。
一方面,所述敏感信息分类模型包括多个敏感信息二分类模型;
所述将所述用户问题输入至所述敏感信息分类模型,以得到所述用户问题对应的预测标签包括:
将所述用户问题分别输入至多个所述敏感信息二分类模型,以得到所述用户问题对应的多个预测标签;
所述在所述用户问题对应的预测标签属于敏感信息类别的情况下,输出存在敏感信息的提示信息包括:
在所述用户问题对应的多个预测标签的取值不均小于各自对应的阈值的情况下,输出存在敏感信息的提示信息;其中,各所述敏感信息二分类模型有其各自对应的阈值。
一方面,还包括:
根据当前所属的应用场景,调整各所述敏感信息二分类模型各自对应的阈值。
一方面,还包括:
在所述用户问题对应的预测标签不属于敏感信息类别的情况下,将所述用户问题输入至大模型中,以获取所述用户问题对应的答案;
将所述答案输入至所述敏感信息分类模型,以得到所述答案对应的预测标签;
在所述答案对应的预测标签不属于敏感信息类别的情况下,展示所述答案;
在所述答案对应的预测标签属于敏感信息类别的情况下,输出存在敏感信息的提示信息。
一方面,所述按照设定的单次训练量,从所述初始数据集选择出初始训练样本包括:按照所述单次训练量,从所述初始数据集包括的初始标记训练集中选择出本次迭代对应的初始训练样本;
所述基于所述交叉熵损失函数和所述一致性损失函数对所述初始分类模型的参数进行调整,以得到训练后的分类模型包括:
基于所述交叉熵损失函数和所述一致性损失函数,构建初始损失函数;
基于所述初始损失函数对所述初始分类模型的参数进行调整,以得到本次迭代的初始分类模型;
根据所述本次迭代的初始分类模型对应的初始识别精度与上一次迭代保留的最优初始分类模型的初始识别精度,确定出本次迭代的最优初始分类模型;
判断当前迭代次数是否达到迭代上限值;
在所述当前迭代次数未达到所述迭代上限值的情况下,则返回所述按照所述单次训练量,从所述初始数据集包括的初始标记训练集中选择出本次迭代对应的初始训练样本的步骤;
在所述当前迭代次数达到所述迭代上限值的情况下,则将当前的最优初始分类模型作为训练后的分类模型。
一方面,所述根据所述本次迭代的初始分类模型对应的初始识别精度与上一次迭代保留的最优初始分类模型的初始识别精度,确定出本次迭代的最优初始分类模型包括:
利用所述本次迭代的初始分类模型对所述初始数据集包括的初始标记验证集进行分析,以输出所述初始标记验证集对应的初始预测向量;
基于所述初始标记验证集对应的初始预测向量以及所述初始标记验证集的真实标签向量,确定出所述本次迭代的初始分类模型的初始识别精度;
在所述本次迭代的初始分类模型对应的初始识别精度大于上一次迭代保留的最优初始分类模型的初始识别精度的情况下,将所述本次迭代的初始分类模型作为本次迭代的最优初始分类模型;
在所述本次迭代的初始分类模型对应的初始识别精度小于或等于上一次迭代保留的最优初始分类模型的初始识别精度的情况下,将所述上一次迭代保留的最优初始分类模型作为本次迭代的最优初始分类模型。
本发明实施例还提供了一种敏感信息识别方法,包括:
获取初始数据集;其中,所述初始数据集包括初始标记训练集和初始标记验证集;
按照设定的单次训练量,从所述初始数据集选择出初始训练样本;
基于不同类别对应的权重、所述初始训练样本对应的真实标签向量、所述初始训练样本输入初始分类模型所得到的预测向量,确定出交叉熵损失函数;
根据所述预测向量、增强后的初始训练样本输入所述初始分类模型所得到的新的预测向量,确定出一致性损失函数;
基于所述交叉熵损失函数和所述一致性损失函数对所述初始分类模型的参数进行调整,以得到训练后的分类模型;
利用所述初始标记训练集以及从未标注数据中筛选出的敏感信息候选集,对所述训练后的分类模型进行参数调整,以得到微调分类模型;
基于所述微调分类模型在所述初始标记验证集上的识别精度,从所述敏感信息候选集中筛选出伪标签数据集;
依据所述初始数据集以及所述伪标签数据集,从不同结构的待微调模型中筛选出识别精度最大的敏感信息分类模型;
利用所述敏感信息分类模型识别待分析数据的敏感信息结果。
本发明实施例还提供了一种敏感信息识别装置,包括获取单元、选择单元、第一损失确定单元、第二损失确定单元、调整单元和识别单元;
所述获取单元,用于获取初始数据集;
所述选择单元,用于按照设定的单次训练量,从所述初始数据集选择出初始训练样本;
所述第一损失确定单元,用于基于不同类别对应的权重、所述初始训练样本对应的真实标签向量、所述初始训练样本输入初始分类模型所得到的预测向量,确定出交叉熵损失函数;
所述第二损失确定单元,用于根据所述预测向量、增强后的初始训练样本输入所述初始分类模型所得到的新的预测向量,确定出一致性损失函数;
所述调整单元,用于基于所述交叉熵损失函数和所述一致性损失函数对所述初始分类模型的参数进行调整,以得到训练后的分类模型;
所述识别单元,用于利用所述训练后的分类模型识别待分析数据的敏感信息结果。
一方面,所述第一损失确定单元用于将所述初始训练样本输入所述初始分类模型,以得到预测向量;其中,所述预测向量包括所述初始训练样本属于不同类别的预测值;
调用交叉熵损失函数计算公式,对所述预测向量、所述初始训练样本对应的真实标签向量以及不同类别对应的权重进行处理,以得到交叉熵损失函数;所述交叉熵损失函数计算公式为:
;
其中,,/>,N表示所有初始训练样本的样本数目,K表示类别总数,i表示第i个初始训练样本,c表示第c个类别,y ic 表示第i个初始训练样本的标签值、第i个初始训练样本的真实标签为c时y ic 取值为1、第i个初始训练样本的真实标签不为c时y ic 取值为0,p ic 表示第i个初始训练样本属于类别c的预测概率,w ic 表示第i个初始训练样本属于类别c的权重值,z ic 表示第i个初始训练样本属于类别c的预测值,第i个初始训练样本属于不同类别的预测值的组合作为所述预测向量,N C 表示所有初始训练样本中类别为c的样本数目。
一方面,所述第二损失确定单元用于对所述初始训练样本进行同义词替换、回译和/或句法变换,以得到所述增强后的初始训练样本;
将所述增强后的初始训练样本输入所述初始分类模型,以得到新的预测向量;
调用一致性损失函数计算公式,对所述新的预测向量以及所述预测向量进行处理,以得到一致性损失函数;所述一致性损失函数计算公式为:
;
其中,α表示超参数,z i 表示第i个初始训练样本对应的预测向量,表示第i个增强后的初始训练样本对应的新的预测向量。
一方面,所述初始数据集包括初始标记训练集和初始标记验证集;还包括参数调整单元、数据筛选单元、模型筛选单元、结果识别单元;
所述参数调整单元,用于利用所述初始标记训练集以及从未标注数据中筛选出的敏感信息候选集,对所述训练后的分类模型进行参数调整,以得到微调分类模型;
所述数据筛选单元,用于基于所述微调分类模型在所述初始标记验证集上的识别精度,从所述敏感信息候选集中筛选出伪标签数据集;
所述模型筛选单元,用于依据所述初始数据集以及所述伪标签数据集,从不同结构的待微调模型中筛选出识别精度最大的敏感信息分类模型;
所述结果识别单元,用于利用所述敏感信息分类模型识别所述待分析数据的敏感信息结果。
一方面,所述参数调整单元包括匹配子单元、选择子单元、训练子单元、调整子单元;
所述匹配子单元,用于对所述未标注数据进行字词匹配和语义识别,以筛选出所述敏感信息候选集;
所述选择子单元,用于按照所述单次训练量,分别从所述敏感信息候选集以及所述初始标记训练集中选择出训练样本;
所述训练子单元,用于利用所述训练样本对所述训练后的分类模型进行训练,以得到损失函数;
所述调整子单元,用于基于所述损失函数对所述训练后的分类模型的参数进行调整,以得到微调分类模型。
一方面,所述匹配子单元用于根据字词匹配算法对所述未标注数据进行分类,将属于敏感信息类别的第一未标注数据添加至所述敏感信息候选集;利用所述训练后的分类模型对不属于敏感信息类别的第二未标注数据进行语义分析,以确定出各所述第二未标注数据所对应的预测标签;根据各所述第二未标注数据所对应的预测标签,将预测标签属于敏感信息类别的第二未标注数据添加至所述敏感信息候选集。
一方面,所述训练样本包括敏感数据和非敏感数据;
所述选择子单元用于从所述敏感信息候选集中选择出与样本量匹配的敏感数据;其中,所述样本量为所述单次训练量取值的一半;从所述初始标记训练集中选择出与所述样本量匹配的非敏感数据。
一方面,所述损失函数包括微调阶段的交叉熵损失函数和微调阶段的一致性损失函数;
所述训练子单元用于将所述训练样本输入所述训练后的分类模型,以得到第一预测向量;基于所述第一预测向量、所述训练样本对应的真实标签向量以及不同类别对应的权重,确定出所述微调阶段的交叉熵损失函数;对所述训练样本进行增强处理,以得到新的训练样本;将所述新的训练样本输入所述训练后的分类模型,以得到第二预测向量;根据所述第二预测向量与所述第一预测向量,确定出所述微调阶段的一致性损失函数。
一方面,所述数据筛选单元包括分析子单元、精度确定子单元、作为子单元;
所述分析子单元,用于利用所述微调分类模型对所述初始标记验证集进行分析,以输出所述初始标记验证集对应的预测向量;
所述精度确定子单元,用于基于所述初始标记验证集对应的预测向量以及所述初始标记验证集的真实标签向量,确定出所述微调分类模型的识别精度;
所述作为子单元,用于在所述识别精度满足设定的精度要求的情况下,将所述敏感数据及其对应的预测标签作为所述伪标签数据集。
一方面,所述作为子单元用于在所述识别精度大于或等于所述初始分类模型对应的初始识别精度的情况下,将所述敏感数据及其对应的预测标签作为所述伪标签数据集。
一方面,还包括标签调整单元;
所述标签调整单元,用于根据用户输入的标签调整指令中携带的真实标签,对所述伪标签数据集中所述敏感数据对应的预测标签进行调整。
一方面,还包括删除单元和判断单元;
所述删除单元,用于将选择出的与样本量匹配的敏感数据从所述敏感信息候选集中删除;
所述判断单元,用于判断当前最新的敏感信息候选集中是否存在剩余数据;在所述当前最新的敏感信息候选集中存在剩余数据的情况下,触发所述选择子单元执行所述从所述敏感信息候选集中选择出与样本量匹配的敏感数据的步骤。
一方面,所述模型筛选单元包括扩充子单元、划分子单元、微调模型训练子单元、第一筛选子单元和第二筛选子单元;
所述扩充子单元,用于将所述初始数据集以及所述伪标签数据集作为扩充数据集;
所述划分子单元,用于按照设定的比例,将所述扩充数据集划分为扩充训练集、扩充验证集和扩充测试集;
所述微调模型训练子单元,用于利用所述扩充训练集分别对不同结构的待微调模型进行训练,以得到不同结构的微调模型;
所述第一筛选子单元,用于基于所述不同结构的微调模型在所述扩充验证集上的识别精度,筛选出不同结构的最佳微调模型;
所述第二筛选子单元,用于基于所述不同结构的最佳微调模型在所述扩充测试集上的识别精度,筛选出识别精度最大的敏感信息分类模型。
一方面,每种结构的待微调模型包含多个二分类模型;针对于每种结构的待微调模型的构建,所述装置还包括组合单元和二分类模型训练单元。
所述组合单元,用于将不同类别各自对应的敏感数据分别与非敏感数据进行组合,以得到不同类别对应的微调样本;
所述二分类模型训练单元,用于利用不同类别对应的微调样本分别对目标结构的初始待微调模型进行训练,以得到所述目标结构对应的多个二分类模型;其中,所述目标结构为所有所述结构中的任意一种。
一方面,所述识别单元包括预测子单元和输出子单元;
所述预测子单元,用于在所述待分析数据为用户问题的情况下,将所述用户问题输入至所述敏感信息分类模型,以得到所述用户问题对应的预测标签;
所述输出子单元,用于在所述用户问题对应的预测标签属于敏感信息类别的情况下,输出存在敏感信息的提示信息。
一方面,所述敏感信息分类模型包括多个敏感信息二分类模型;
所述预测子单元用于将所述用户问题分别输入至多个所述敏感信息二分类模型,以得到所述用户问题对应的多个预测标签;
所述输出子单元用于在所述用户问题对应的多个预测标签的取值不均小于各自对应的阈值的情况下,输出存在敏感信息的提示信息;其中,各所述敏感信息二分类模型有其各自对应的阈值。
一方面,还包括阈值调整单元;
所述阈值调整单元,用于根据当前所属的应用场景,调整各所述敏感信息二分类模型各自对应的阈值。
一方面,还包括答案获取单元、得到单元、展示单元和提示单元;
所述答案获取单元,用于在所述用户问题对应的预测标签不属于敏感信息类别的情况下,将所述用户问题输入至大模型中,以获取所述用户问题对应的答案;
所述得到单元,用于将所述答案输入至所述敏感信息分类模型,以得到所述答案对应的预测标签;
所述展示单元,用于在所述答案对应的预测标签不属于敏感信息类别的情况下,展示所述答案;
所述提示单元,用于在所述答案对应的预测标签属于敏感信息类别的情况下,输出存在敏感信息的提示信息。
一方面,所述获取单元,用于按照所述单次训练量,从所述初始数据集包括的初始标记训练集中选择出本次迭代对应的初始训练样本;
所述调整单元,用于基于所述交叉熵损失函数和所述一致性损失函数,构建初始损失函数;基于所述初始损失函数对所述初始分类模型的参数进行调整,以得到本次迭代的初始分类模型;根据所述本次迭代的初始分类模型对应的初始识别精度与上一次迭代保留的最优初始分类模型的初始识别精度,确定出本次迭代的最优初始分类模型;判断当前迭代次数是否达到迭代上限值;在所述当前迭代次数未达到所述迭代上限值的情况下,则触发所述获取单元执行所述按照所述单次训练量,从所述初始数据集包括的初始标记训练集中选择出本次迭代对应的初始训练样本的步骤;在所述当前迭代次数达到所述迭代上限值的情况下,则将当前的最优初始分类模型作为训练后的分类模型。
一方面,所述模型确定单元用于利用所述本次迭代的初始分类模型对所述初始数据集包括的初始标记验证集进行分析,以输出所述初始标记验证集对应的初始预测向量;基于所述初始标记验证集对应的初始预测向量以及所述初始标记验证集的真实标签向量,确定出所述本次迭代的初始分类模型的初始识别精度;在所述本次迭代的初始分类模型对应的初始识别精度大于上一次迭代保留的最优初始分类模型的初始识别精度的情况下,将所述本次迭代的初始分类模型作为本次迭代的最优初始分类模型;在所述本次迭代的初始分类模型对应的初始识别精度小于或等于上一次迭代保留的最优初始分类模型的初始识别精度的情况下,将所述上一次迭代保留的最优初始分类模型作为本次迭代的最优初始分类模型。
本发明实施例还提供了一种敏感信息识别设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序以实现如上述敏感信息识别方法的步骤。
本发明实施例还提供了一种存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述敏感信息识别方法的步骤。
由上述技术方案可以看出,获取初始数据集;按照设定的单次训练量,从初始数据集选择出初始训练样本;基于不同类别对应的权重、初始训练样本对应的真实标签向量、初始训练样本输入初始分类模型所得到的预测向量,确定出交叉熵损失函数;根据预测向量、增强后的初始训练样本输入初始分类模型所得到的新的预测向量,确定出一致性损失函数;基于交叉熵损失函数和一致性损失函数对初始分类模型的参数进行调整,以得到训练后的分类模型;利用训练后的分类模型识别待分析数据的敏感信息结果。本发明的有益效果在于,通过设置不同类别对应的权重,可以有效的解决初始数据集中各类别对应的数据不均衡的问题。通过添加一致性损失函数,提升了分类模型在不同扰动下的一致性。通过设置权重以及添加一致性损失函数的方式对损失函数进行优化,保证了分类模型的识别精度,提升了敏感信息识别的准确性。
附图说明
为了更清楚地说明本发明实施例,下面将对实施例中所需要使用的附图做简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种敏感信息识别方法的流程图;
图2为本发明实施例提供的一种敏感信息分类模型的推理流程图;
图3为本发明实施例提供的一种对训练后的分类模型进行参数调整的方法的流程图;
图4为本发明实施例提供的一种损失函数的确定方法的流程图;
图5为本发明实施例提供的一种基于优化后的损失函数对训练样本进行处理的流程示意图;
图6为本发明实施例提供的一种roberta模型应用于数据分类任务的原理图;
图7为本发明实施例提供的一种筛选敏感信息分类模型的方法的流程图;
图8为本发明实施例提供的一种训练初始分类模型的方法的流程图;
图9为本发明实施例提供的另一种敏感信息识别方法的流程图;
图10为本发明实施例提供的一种敏感信息识别装置的结构示意图;
图11为本发明实施例提供的一种敏感信息识别设备的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下,所获得的所有其他实施例,都属于本发明保护范围。
本发明的说明书和权利要求书及上述附图中的术语“包括”和“具有”,以及与“包括”和“具有”相关的任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可包括没有列出的步骤或单元。
为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。
接下来,详细介绍本发明实施例所提供的一种敏感信息识别方法。图1为本发明实施例提供的一种敏感信息识别方法的流程图,该方法包括:
S101:获取初始数据集。
其中,初始数据集包括初始标记训练集和初始标记验证集。
利用初始标记训练集可以实现对初始分类模型的训练,以调整初始分类模型的参数。为了便于区分,可以将参数调整后的初始分类模型称作训练后的分类模型。
在本发明实施例中,可以根据敏感信息所涉及的常见类别,设计初始数据集。敏感信息的类别可以有多种。考虑到初始数据集中除了包含敏感信息外,也需要包含非敏感信息。在本发明实施例中,可以将非敏感信息称作正常信息。
在实际应用中,可以采用数字或符号或者两者组合的方式,针对每个类别设置其对应的标签。
需要说明的是,在数据采集过程中,如果采集的各类敏感数据不足5000条,可以对已采集的敏感数据进行同义词替换、回译和/或句法变换,以扩充敏感数据的数量。
通过获取多种类别下的敏感数据,以使得收集的初始数据集尽量涵盖安全问题的所有视角。
S102:按照设定的单次训练量,从初始数据集选择出初始训练样本。
单次训练量指的是对模型进行一次训练所使用的样本数量。在实际应用中,可以按照设定的单次训练量,每次从初始数据集中选择出本轮训练所使用的初始训练样本。
S103:基于不同类别对应的权重、初始训练样本对应的真实标签向量、初始训练样本输入初始分类模型所得到的预测向量,确定出交叉熵损失函数。
在本发明实施例中,采用损失函数对初始分类模型的参数进行调整,为了提升初始分类模型的性能,对损失函数进行了优化,优化可以包括两方面。一方面是针对不同类别分配不同的权重,从而解决数据集类别不平衡的问题。在实际应用中,可以采用每个类别的逆样本频率并进行归一化来控制权重。另一方面可以添加一致性损失,从而提升初始分类模型在不同扰动下一致性。
在具体实现中,可以将初始训练样本输入初始分类模型,以得到预测向量;其中,预测向量可以包括初始训练样本属于不同类别的预测值。
调用交叉熵损失函数计算公式,对预测向量、初始训练样本对应的真实标签向量以及不同类别对应的权重进行处理,以得到交叉熵损失函数;交叉熵损失函数计算公式为:
;
其中,,/>,N表示所有初始训练样本的样本数目,K表示类别总数,i表示第i个初始训练样本,c表示第c个类别,y ic 表示第i个初始训练样本的标签值、第i个初始训练样本的真实标签为c时y ic 取值为1、第i个初始训练样本的真实标签不为c时y ic 取值为0,p ic 表示第i个初始训练样本属于类别c的预测概率,w ic 表示第i个初始训练样本属于类别c的权重值,z ic 表示第i个初始训练样本属于类别c的预测值,第i个初始训练样本属于不同类别的预测值的组合作为预测向量,N C 表示所有初始训练样本中类别为c的样本数目。
S104:根据预测向量、增强后的初始训练样本输入初始分类模型所得到的新的预测向量,确定出一致性损失函数。
在本发明实施例中,可以通过数据增强的方式得到新的初始训练样本。数据增强的方式可以包括同义词替换、回译和/或句法变换等。
在实际应用中,可以对初始训练样本进行同义词替换、回译和/或句法变换,以得到增强后的初始训练样本。将增强后的初始训练样本输入初始分类模型,以得到新的预测向量。
在本发明实施例中,可以使用均方差的方式计算预测向量和新的预测向量之间的差异,从而确定出一致性损失。在具体实现中,可以调用一致性损失函数计算公式,对新的预测向量以及预测向量进行处理,以得到一致性损失函数;一致性损失函数计算公式为:
;
其中,α表示超参数,z i 表示第i个初始训练样本对应的预测向量,表示第i个增强后的初始训练样本对应的新的预测向量。
S105:基于交叉熵损失函数和一致性损失函数对初始分类模型的参数进行调整,以得到训练后的分类模型。
将上述得到的交叉熵损失函数和一致性性损失函数进行相加可以得到优化后的损失函数,优化后的损失函数公式如下:
。
其中,loss表示优化后的损失函数,loss l 表示交叉熵损失函数,loss u 表示一致性性损失函数。
利用优化后的损失函数对初始分类模型的参数进行调整的过程属于较为成熟的技术,在此不再赘述。
S106:利用训练后的分类模型识别待分析数据的敏感信息结果。
在获取到待分析数据后,将待分析数据输入至训练后的分类模型可以得到敏感信息结果。
由上述技术方案可以看出,获取初始数据集;按照设定的单次训练量,从初始数据集选择出初始训练样本;基于不同类别对应的权重、初始训练样本对应的真实标签向量、初始训练样本输入初始分类模型所得到的预测向量,确定出交叉熵损失函数;根据预测向量、增强后的初始训练样本输入初始分类模型所得到的新的预测向量,确定出一致性损失函数;基于交叉熵损失函数和一致性损失函数对初始分类模型的参数进行调整,以得到训练后的分类模型;利用训练后的分类模型识别待分析数据的敏感信息结果。本发明的有益效果在于,通过设置不同类别对应的权重,可以有效的解决初始数据集中各类别对应的数据不均衡的问题。通过添加一致性损失函数,提升了分类模型在不同扰动下的一致性。通过设置权重以及添加一致性损失函数的方式对损失函数进行优化,保证了分类模型的识别精度,提升了敏感信息识别的准确性。
数据集的数据质量会影响模型训练的精度,为了提升模型训练的精度,可以在获取到初始数据集后,基于未标注数据实现数据集的扩充。
初始数据集可以包括初始标记训练集和初始标记验证集。在本发明实施例中,在基于交叉熵损失函数和一致性损失函数对初始分类模型的参数进行调整,以得到训练后的分类模型之后,可以利用初始标记训练集以及从未标注数据中筛选出的敏感信息候选集,对训练后的分类模型进行参数调整,以得到微调分类模型。基于微调分类模型在初始标记验证集上的识别精度,从敏感信息候选集中筛选出伪标签数据集。依据初始数据集以及伪标签数据集,从不同结构的待微调模型中筛选出识别精度最大的敏感信息分类模型,从而利用敏感信息分类模型识别待分析数据的敏感信息结果。
数据质量包括数据所涵盖的类别以及每个类别下对应的数据量。通过开源数据集获取的每种类别的敏感数据只有5000条左右,想要微调好模型,每种类别对应的敏感数据至少1万条。
为了解决人工直接标注过于耗时的问题,在本发明实施例中,可以采用半监督学习的方式,从大量未标注数据中筛选出敏感信息候选集,结合敏感信息候选集中每次单次训练样本所对应的识别精度,可以从敏感信息候选集中筛选出伪标签数据,以实现对初始数据集的增强。
敏感信息候选集中包含的是未标注数据中可能属于敏感信息的数据。
在本发明实施例中,可以通过字词匹配和语义识别的方式筛选出的敏感信息候选集,其具体实现方式可以参见S301的介绍,在此不再赘述。
在实际应用中,可以按照设定的单次训练量分别从初始标记训练集和敏感信息候选集中选取训练样本,利用训练样本对训练后的分类模型进行训练,利用训练过程生成的损失函数实现对模型参数的调整。为了便于区分,可以将训练后的分类模型进行参数调整后的模型称作微调分类模型。
为了实现对数据集的扩充,可以基于微调分类模型在初始标记验证集上的识别精度,从敏感信息候选集中筛选出伪标签数据集。
微调分类模型是基于敏感信息候选集中的数据作为部分训练样本训练后得到的模型,因此微调分类模型的识别精度受敏感信息候选集中作为部分训练样本的数据的影响。
故此在本发明实施例中,可以基于微调分类模型在初始标记验证集上的识别精度,从敏感信息候选集中筛选出伪标签数据集。
伪标签数据集中包含的是对微调分类模型的识别精度有提升效果的数据。
在实际应用中,可以利用微调分类模型对初始标记验证集进行分析,以输出初始标记验证集对应的预测向量。
利用微调分类模型对初始标记验证集进行分析的过程,可以包括按照设定的单次训练量从初始标记验证集中选取出用于本次分析的敏感数据。利用微调分类模型对每次选取的敏感数据进行分析,以输出敏感数据对应的预测向量。
预测向量中包括微调分类模型针对于敏感数据进行分析所输出的该敏感数据属于不同类别的预测值。
基于初始标记验证集对应的预测向量以及初始标记验证集的真实标签向量,可以确定出微调分类模型的识别精度;在识别精度满足设定的精度要求的情况下,将敏感数据及其对应的预测标签作为伪标签数据集。
精度要求可以是将微调分类模型的识别精度与训练后的分类模型对应的初始识别精度进行比较。判断微调分类模型的识别精度是否大于或等于训练后的分类模型对应的初始识别精度。
在识别精度大于或等于初始识别精度的情况下,可以将敏感数据及其对应的预测标签作为伪标签数据集。
在初始状态下,可以构建一个空的伪标签数据集,通过对敏感信息候选集中包含的数据进行分析,从而将敏感信息候选集中对模型的识别精度有提升的数据加入到伪标签数据集中。
在本发明实施例中,可以将初始数据集与伪标签数据集进行合并作为扩充数据集。
为了能够选取出识别精度最优的敏感信息分类模型,可以选取不同结构的模型作为待微调模型。模型结构可以包括基于变换器的双向编码器(bert)、基于变换器的优化双向编码器(roberta)、第二代预训练结构(ernie)等。针对于每个结构,可以构建其对应的待微调模型。
在实际应用中,可以利用扩充数据集对每个待微调模型进行训练、验证和测试,从而确定出每个待微调模型的识别精度。
每个待微调模型的处理方式类似,下面将以任意一个待微调模型为例,对其处理过程展开介绍。
待微调模型的训练过程会涉及对待微调模型参数的调整。为了便于区分可以将参数调整后的待微调模型称作微调模型。完成参数调整后,在验证阶段可以选取出最佳微调模型。最佳微调模型指的是通过调整模型的参数能够得到的识别精度最高的微调模型。
在测试阶段可以将每种结构各自对应的最佳微调模型进行识别精度的比较,选择识别精度最大的最佳微调模型作为敏感信息分类模型。
在获取到待分析数据时,可以将待分析数据输入至敏感信息分类模型,敏感信息分类模型可以输出待分析数据在不同类别下的预测值。每个类别下的预测值可以看作为一个预测标签。
待分析数据的类型可以多种多样,以用户问题为例,在本发明实施例中,可以在待分析数据为用户问题的情况下,将用户问题输入至敏感信息分类模型,以得到用户问题对应的预测标签;在用户问题对应的预测标签属于敏感信息类别的情况下,输出存在敏感信息的提示信息。
图2为本发明实施例提供的一种敏感信息分类模型的推理流程图,敏感信息分类模型可以包括双向编码器(Transformer)和分类器两部分,分类器可以依赖于前向神经网络和激活函数(softmax)构建。在实际应用中,可以将待分析数据进行分词处理,将拆分得到的多个分词输入至双向编码器进行处理,每个待分析数据拆分得到的多个分词都会设置开始符(CLS)和结束符(SEP)。然后处理结果经由分类器的分析可以输出待分析数据所对应的预测值。
以“类别1”、“类别2”、 “类别3”、“类别4”和“类别5”这五个类别为例,假设分类器输出的每个类别下的预测值依次为60%,10%,13%,7%和10%。最大预测值对应的类别为“类别1”,说明待分析数据中包含的敏感信息主要是“类别1”的敏感信息。
由上述技术方案可以看出,利用初始标记训练集以及从未标注数据中筛选出的敏感信息候选集,对训练后的分类模型进行参数调整,以得到微调分类模型,可以提升模型的性能。为了实现对数据集的扩充,可以基于微调分类模型在初始标记验证集上的识别精度,从敏感信息候选集中筛选出伪标签数据集。依据初始数据集以及伪标签数据集,从不同结构的待微调模型中筛选出识别精度最大的敏感信息分类模型;利用敏感信息分类模型识别待分析数据的敏感信息结果。本发明的有益效果在于,通过基于识别精度筛选伪标签数据集,可以实现对初始数据集的增强,解决了敏感数据收集难的问题,并且解决了初始数据集中各类别对应的数据不均衡的问题。利用增强后的数据集从多个不同结构的待微调模型中筛选出敏感信息分类模型,保证了筛选出的敏感信息分类模型的识别精度,提升了敏感信息识别的准确性。
图3为本发明实施例提供的一种对训练后的分类模型进行参数调整的方法的流程图,该方法包括:
S301:对未标注数据进行字词匹配和语义识别,以筛选出敏感信息候选集。
在本发明实施例中,可以采用字词匹配算法进行字词匹配操作。利用训练后的分类模型对未标注数据进行语义识别。
在实际应用中,可以根据字词匹配算法对未标注数据进行分类,将属于敏感信息类别的第一未标注数据添加至敏感信息候选集。
为了便于区分,可以将不属于敏感信息类别的未标注数据称作第二未标注数据。对于第二未标注数据,可以利用训练后的分类模型对不属于敏感信息类别的第二未标注数据进行语义分析,以确定出各第二未标注数据所对应的预测标签;根据各第二未标注数据所对应的预测标签,将预测标签属于敏感信息类别的第二未标注数据添加至敏感信息候选集。
S302:按照单次训练量,分别从敏感信息候选集以及初始标记训练集中选择出训练样本。
为了保证模型训练过程能够充分学习不同类别的信息,训练样本可以包括敏感数据和非敏感数据。
单次训练量指的是对模型进行一次训练所使用的训练样本的样本数量。
在本发明实施例中,可以从敏感信息候选集中选择出与样本量匹配的敏感数据;其中,样本量为单次训练量取值的一半。从初始标记训练集中选择出与样本量匹配的非敏感数据。
为了保证训练样本的质量,训练样本包括的敏感数据和非敏感数据的占比最好趋于平衡。因此,在实际应用中,敏感数据可以从敏感信息候选集中选取。非敏感数据可以从初始标记训练集中包含的标签为“正常”的数据中选取。
在具体实现中,可以将单次训练量取值的一半作为样本量,按照样本量分别从初始标记训练集和敏感信息候选集中选取数据,将选取出的数据合并作为训练样本。
在得到微调分类模型之后,可以将选择出的与样本量匹配的敏感数据从敏感信息候选集中删除;判断当前最新的敏感信息候选集中是否存在剩余数据;在当前最新的敏感信息候选集中存在剩余数据的情况下,返回从敏感信息候选集中选择出与样本量匹配的敏感数据的步骤。
假设,单次训练量为batch,可以从敏感信息候选集中选择1/2batch的敏感数据,从初始标记训练集中标签为“正常”的数据中选择1/2batch的非敏感数据。将1/2batch的敏感数据和1/2batch的非敏感数据进行合并可以作为本次训练的训练样本。
S303:利用训练样本对训练后的分类模型进行训练,以得到损失函数。
在本发明实施例中,为了解决数据集类别不平衡的问题,可以针对不同类别分配不同的权重。为了提升模型在不同扰动下的一致性,可以在原本的交叉熵损失的基础上添加一致性损失。因此损失函数可以包括交叉熵损失和一致性损失两部分。
在实际应用中,对交叉熵中不同类别分配不同权重可以包括,采用每个类别的逆样本频率并进行归一化来控制权重。损失函数的确定方式可以参见图4的介绍,在此不再赘述。
S304:基于损失函数对训练后的分类模型的参数进行调整,以得到微调分类模型。
利用损失函数对模型参数进行调整属于较为目前成熟的实现手段,在此不再展开介绍。
在本发明实施例中,通过对未标注数据进行字词匹配和语义识别,来筛选出敏感信息候选集,实现了对各类敏感信息的扩充。从敏感信息候选集和初始标记训练集中选择训练样本,保证了训练样本中敏感信息和正常信息数量的均衡,提升了模型训练的效果。
图4为本发明实施例提供的一种损失函数的确定方法的流程图,该方法包括:
S401:将训练样本输入训练后的分类模型,以得到第一预测向量。
将训练样本输入训练后的分类模型后,经过训练后的分类模型的分析,可以输出第一预测向量。其中,第一预测向量包括训练样本属于不同类别的预测值。
S402:基于第一预测向量、训练样本对应的真实标签向量以及不同类别对应的权重,确定出微调阶段的交叉熵损失函数。
在实际应用中,可以调用交叉熵损失函数计算公式,对第一预测向量、训练样本对应的真实标签向量以及不同类别对应的权重进行处理,以得到微调阶段的交叉熵损失函数;交叉熵损失函数计算公式可以参数上述S103的介绍,在此不再赘述。
S403:对训练样本进行增强处理,以得到新的训练样本。
对训练样本的增强可以包括对训练样本进行同义词替换、回译和/或句法变换。
通过对训练样本进行增强处理,可以实现对训练样本的扩充。将原本的训练样本和扩充得到的数据合并作为新的训练样本。
S404:将新的训练样本输入训练后的分类模型,以得到第二预测向量。
将新的训练样本输入到训练后的分类模型后,训练后的分类模型会输出新的训练样本在不同类别下的第二预测值,将所有第二预测值汇总作为第二预测向量。
S405:根据第二预测向量与第一预测向量,确定出微调阶段的一致性损失函数。
在实际应用中,可以调用一致性损失函数计算公式,对第二预测向量以及第一预测向量进行处理,以得到微调阶段的一致性损失函数;一致性损失函数计算公式可以参数上述S104的介绍,在此不再赘述。
图5为本发明实施例提供的一种基于优化后的损失函数对训练样本进行处理的流程示意图,优化后的损失函数包括两部分,分别为一致性损失和带权重交叉熵损失。每个训练样本的处理方式类似,以第i个训练样本为例,通过对训练样本x i 进行数据增强处理,可以得到新的训练样本。训练样本对应的预测向量为z i ,新的训练样本对应的预测向量为。初始分类模型可以采用基于变换器的优化双向编码器即roberta模型。y i 表示训练样本对应的真实标签向量。利用带权重交叉熵损失对y i 和z i 进行处理可以得到交叉熵损失函数。利用一致性损失对z i 和/>进行处理可以得到一致性损失函数。根据模型对应的超参数,将一致性损失函数和交叉熵损失函数进行求和,可以得到优化后的损失函数:loss=loss l +loss u ,N表示训练样本的数量,α表示超参数。
图6为本发明实施例提供的一种roberta模型应用于数据分类任务的原理图,roberta模型包括模型结构层和输出层。训练样本可以拆分为多个分词作为输入序列传输至roberta模型的模型结构层。为了区分不同的训练样本,每个训练样本拆分得到的多个分词都会设置开始符(CLS)和结束符(SEP),模型结构层包括多个编解码层(encoder)。输出层可以包括前向神经网络和激活函数(softmax)两部分。经由前向神经网络和损失函数的处理可以输出该训练样本对应的预测向量,预测向量可以包括该训练样本中数据属于不同类别的预测值,预测值的取值越高,说明属于该类别的概率越高。将预测向量与训练样本对应的真实标签向量进行比较,可以计算出损失函数。基于该损失函数可以实现对roberta模型中参数的调整,从而提升roberta模型的类别识别的准确性。
在本发明实施例中,为了提升伪标签数据集中包含的预测标签的准确性,可以人为对预测标签进行调整。在将敏感数据及其对应的预测标签作为伪标签数据集之后,可以根据用户输入的标签调整指令中携带的真实标签,对伪标签数据集中敏感数据对应的预测标签进行调整。
图7为本发明实施例提供的一种筛选敏感信息分类模型的方法的流程图,该方法包括:
S701:将初始数据集以及伪标签数据集作为扩充数据集。
相比于初始数据集,伪标签数据集中包含了新的敏感数据及其所属的类别。为了实现对样本的扩充,可以将初始数据集和伪标签数据集合并作为扩充数据集。
S702:按照设定的比例,将扩充数据集划分为扩充训练集、扩充验证集和扩充测试集。
在实际应用中,扩充训练集、扩充验证集和扩充测试集可以按照8:1:1的比例划分。
S703:利用扩充训练集分别对不同结构的待微调模型进行训练,以得到不同结构的微调模型。
模型结构可以包括bert、roberta、ernie等。针对于每个结构,可以构建其对应的待微调模型。
利用扩充训练集对待微调模型进行训练时,会涉及到待微调模型的参数的调整,因此可以将训练后的模型称作微调模型。
为了提升待微调模型对不同类别识别的准确性,针对于每种结构的待微调模型可以设置多个二分类模型。
在本发明实施例中,可以将不同类别各自对应的敏感数据分别与非敏感数据进行组合,以得到不同类别对应的微调样本;利用不同类别对应的微调样本分别对目标结构的初始待微调模型进行训练,以得到目标结构对应的多个二分类模型;其中,目标结构为所有结构中的任意一种。
以“类别1”、“类别2”、 “类别3”、“类别4”和“类别5”这五个类别为例,假设“类别1”为正常信息,在实际应用中,可以基于“类别1”与“类别2”对应的数据训练一个二分类模型M 1,“类别1”与“类别3”对应的数据训练一个二分类模型M 2,“类别1”与“类别4”对应的数据训练一个二分类模型M 3,“类别1”与“类别5”对应的数据训练一个二分类模型M 4。
S704:基于不同结构的微调模型在扩充验证集上的识别精度,筛选出不同结构的最佳微调模型。
考虑到模型训练阶段会设置迭代次数,每次迭代过程都可以基于扩充验证集确定出模型的识别精度。在实际应用中,可以将当前迭代对应的识别精度与上一次迭代记录的识别精度进行比较。若当前迭代对应的识别精度大于上一次迭代记录的识别精度,则保留当前迭代对应的微调模型;若当前迭代对应的识别精度小于或等于上一次迭代记录的识别精度,则保留上一次迭代对应的微调模型。直至达到设定的迭代次数,最终保留的微调模型即为最优微调模型。
需要说明的是,每种结构的微调模型可以有多个,以上述介绍的M 1至M 4,这4个二分类模型为例,对于每个二分类模型都可以基于其在扩充验证集上的识别精度,筛选出每个二分类模型对应的最佳微调模型。
S705:基于不同结构的最佳微调模型在扩充测试集上的识别精度,筛选出识别精度最大的敏感信息分类模型。
以bert、roberta、ernie这三种模型结构为例,通过比较这三种模型结构各自的最佳微调模型在扩充测试集上的识别精度,可以筛选出识别精度最大的最佳微调模型作为敏感信息分类模型。
在本发明实施例中,通过分别计算不同结构的微调模型在扩充验证集上的识别精度,可以筛选出不同结构的最佳微调模型。通过分别计算不同模型结构下各自对应的最佳微调模型在扩充测试集上的识别精度,可以选择出最终的敏感信息分类模型。
在本发明实施例中,每个最佳微调模型可以对应多个二分类模型,因此最终筛选出的敏感信息分类模型也会包括多个二分类模型。为了便于区分,可以将敏感信息分类模型包括的二分类模型称作敏感信息二分类模型。
在实际应用中,待分析数据可以为用户问题,在获取到用户问题后,可以将用户问题分别输入至多个敏感信息二分类模型,以得到用户问题对应的多个预测标签。
在用户问题对应的多个预测标签的取值不均小于各自对应的阈值的情况下,输出存在敏感信息的提示信息;其中,各敏感信息二分类模型有其各自对应的阈值。
在用户问题对应的预测标签不属于敏感信息类别的情况下,可以将用户问题输入至大模型中,以获取用户问题对应的答案。
为了检测答案是否可用,可以将答案输入至敏感信息分类模型,以得到答案对应的预测标签。在答案对应的预测标签不属于敏感信息类别的情况下,可以直接展示答案。在答案对应的预测标签属于敏感信息类别的情况下,输出存在敏感信息的提示信息,避免了直接输出包含敏感信息的答案对用户带来错误的引导。
不同二分类模型所能识别的敏感数据类别有所不同,因此针对不同的二分类模型可以设置不同的阈值。考虑到应用场景的变化对不同类别的敏感信息识别的准确性要求会存在差异,因此在实际应用中,可以根据当前所属的应用场景,调整各敏感信息二分类模型各自对应的阈值。
以上述介绍的四种二分类模型为例,在不同应用场景,M 1,M 2,M 3,M 4可以设置不同的阈值,从而控制每个类别的审核力度,合适的阈值将有效提升内容审核的召回率和精确率。如社区论坛场景对于低俗辱骂违规内容要求严格,M 4的阈值可以设置低一些。如私聊社交场景对于低俗辱骂违规内容要求较宽松,M 4的阈值设置高一些。
在本发明实施例中,通过基于实际应用场景的变化,动态调整各二分类模型的阈值,可以使得各阈值的设置更加合理化,从而可以精确的控制每种类别的审核力度,提升内容审核的精确率。
图8为本发明实施例提供的一种训练初始分类模型的方法的流程图,该方法包括:
S801:按照单次训练量,从初始数据集包括的初始标记训练集中选择出本次迭代对应的初始训练样本。
初始标记训练集种包含大量的数据。以单次训练量为batch,可以每次从初始标记训练集中选择出batch的数据作为本次迭代对应的初始训练样本。
S802:基于交叉熵损失函数和一致性损失函数,构建初始损失函数。
初始损失函数可以包括交叉熵损失和一致性损失两部分。初始损失函数的具体形式可以参见图4的介绍,在此不再赘述。
S803:基于初始损失函数对初始分类模型的参数进行调整,以得到本次迭代的初始分类模型。
利用损失函数对分类模型的参数进行调整的方式属于较为成熟的技术,在此不再赘述。每获取到一次初始损失函数,便可以完成对初始分类模型参数的一次调整。
S804:根据本次迭代的初始分类模型对应的初始识别精度与上一次迭代保留的最优初始分类模型的初始识别精度,确定出本次迭代的最优初始分类模型。
在实际应用中,可以利用本次迭代的初始分类模型对初始标记验证集进行分析,以输出初始标记验证集对应的初始预测向量;基于初始标记验证集对应的初始预测向量以及初始标记验证集的真实标签向量,确定出本次迭代的初始分类模型的初始识别精度。
初始识别精度的计算方式可以有多种。以初始训练样本中的一个样本为例,一种可行的方式可以从该样本对应的初始预测向量中选取出取值最大的一个初始预测值,然后计算该初始预测值和该样本对应的真实预测值的绝对差值,将该绝对差值的倒数作为初始识别精度。初始识别精度的取值越大,说明初始预测值与真实预测值越接近,本次迭代得出的初始分类模型的识别效果越好。
在本次迭代的初始分类模型对应的初始识别精度大于上一次迭代保留的最优初始分类模型的初始识别精度的情况下,将本次迭代的初始分类模型作为本次迭代的最优初始分类模型;在本次迭代的初始分类模型对应的初始识别精度小于或等于上一次迭代保留的最优初始分类模型的初始识别精度的情况下,将上一次迭代保留的最优初始分类模型作为本次迭代的最优初始分类模型。
S805:判断当前迭代次数是否达到迭代上限值。
在当前迭代次数未达到迭代上限值的情况下,则返回S801按照单次训练量,从初始数据集包括的初始标记训练集中选择出本次迭代对应的初始训练样本的步骤。
在当前迭代次数达到迭代上限值的情况下,则执行S806。
S806:将当前的最优初始分类模型作为训练后的分类模型。
在本发明实施例中,通过利用初始标记训练集对模型进行训练,可以提升初始分类模型对敏感信息的识别精度,为后续微调分类模型的训练提供了良好的模型基础。
图9为本发明实施例提供的另一种敏感信息识别方法的流程图,该方法包括:
S901:获取初始数据集。
其中,初始数据集包括初始标记训练集和初始标记验证集。
S902:按照设定的单次训练量,从初始数据集选择出初始训练样本。
S903:基于不同类别对应的权重、初始训练样本对应的真实标签向量、初始训练样本输入初始分类模型所得到的预测向量,确定出交叉熵损失函数。
S904:根据预测向量、增强后的初始训练样本输入初始分类模型所得到的新的预测向量,确定出一致性损失函数。
S905:基于交叉熵损失函数和一致性损失函数对初始分类模型的参数进行调整,以得到训练后的分类模型。
S901至S905的实现方式可以参见S101至S105的介绍,在此不再赘述。
S906:利用初始标记训练集以及从未标注数据中筛选出的敏感信息候选集,对训练后的分类模型进行参数调整,以得到微调分类模型。
在实际应用中,可以按照设定的单次训练量分别从初始标记训练集和敏感信息候选集中选取训练样本,利用训练样本对训练后的分类模型进行训练,利用训练过程生成的损失函数实现对模型参数的调整。为了便于区分,可以将训练后的分类模型进行参数调整后的模型称作微调分类模型。
S907:基于微调分类模型在初始标记验证集上的识别精度,从敏感信息候选集中筛选出伪标签数据集。
伪标签数据集中包含的是对微调分类模型的识别精度有提升效果的数据。
在实际应用中,可以利用微调分类模型对初始标记验证集进行分析,以输出初始标记验证集对应的预测向量。基于初始标记验证集对应的预测向量以及初始标记验证集的真实标签向量,可以确定出微调分类模型的识别精度;在识别精度满足设定的精度要求的情况下,将敏感数据及其对应的预测标签作为伪标签数据集。
S908:依据初始数据集以及伪标签数据集,从不同结构的待微调模型中筛选出识别精度最大的敏感信息分类模型。
为了能够选取出识别精度最优的敏感信息分类模型,可以选取不同结构的模型作为待微调模型。在实际应用中,可以利用扩充数据集对每个待微调模型进行训练、验证和测试,从而确定出每个待微调模型的识别精度。
待微调模型的训练过程会涉及对待微调模型参数的调整。完成参数调整后,在验证阶段可以选取出最佳微调模型。最佳微调模型指的是通过调整模型的参数能够得到的识别精度最高的微调模型。在测试阶段可以将每种结构各自对应的最佳微调模型进行识别精度的比较,选择识别精度最大的最佳微调模型作为敏感信息分类模型。
S909:利用敏感信息分类模型识别待分析数据的敏感信息结果。
将待分析数据输入值敏感信息分类模型,可以输出敏感信息结果。
图9所对应实施例中特征的说明可以参见图1至图8所对应实施例的相关说明,这里不再一一赘述。
由上述技术方案可以看出,获取初始数据集;按照设定的单次训练量,从初始数据集选择出初始训练样本;基于不同类别对应的权重、初始训练样本对应的真实标签向量、初始训练样本输入初始分类模型所得到的预测向量,确定出交叉熵损失函数;根据预测向量、增强后的初始训练样本输入初始分类模型所得到的新的预测向量,确定出一致性损失函数;基于交叉熵损失函数和一致性损失函数对初始分类模型的参数进行调整,以得到训练后的分类模型;利用初始标记训练集以及从未标注数据中筛选出的敏感信息候选集,对训练后的分类模型进行参数调整,以得到微调分类模型,可以提升模型的性能。为了实现对数据集的扩充,可以基于微调分类模型在初始标记验证集上的识别精度,从敏感信息候选集中筛选出伪标签数据集。依据初始数据集以及伪标签数据集,从不同结构的待微调模型中筛选出识别精度最大的敏感信息分类模型;利用敏感信息分类模型识别待分析数据的敏感信息结果。本发明的有益效果在于,通过设置不同类别对应的权重,可以有效的解决初始数据集中各类别对应的数据不均衡的问题。通过添加一致性损失函数,提升了分类模型在不同扰动下的一致性。通过基于识别精度筛选伪标签数据集,可以实现对初始数据集的增强,解决了敏感数据收集难的问题,并且解决了初始数据集中各类别对应的数据不均衡的问题。利用增强后的数据集从多个不同结构的待微调模型中筛选出敏感信息分类模型,保证了筛选出的敏感信息分类模型的识别精度,提升了敏感信息识别的准确性。
图10为本发明实施例提供的一种敏感信息识别装置的结构示意图,包括获取单元1001、选择单元1002、第一损失确定单元1003、第二损失确定单元1004、调整单元1005和识别单元1006;
获取单元1001,用于获取初始数据集;
选择单元1002,用于按照设定的单次训练量,从初始数据集选择出初始训练样本;
第一损失确定单元1003,用于基于不同类别对应的权重、初始训练样本对应的真实标签向量、初始训练样本输入初始分类模型所得到的预测向量,确定出交叉熵损失函数;
第二损失确定单元1004,用于根据预测向量、增强后的初始训练样本输入初始分类模型所得到的新的预测向量,确定出一致性损失函数;
调整单元1005,用于基于交叉熵损失函数和一致性损失函数对初始分类模型的参数进行调整,以得到训练后的分类模型;
识别单元1006,用于利用训练后的分类模型识别待分析数据的敏感信息结果。
在一些实施例中,第一损失确定单元用于将初始训练样本输入初始分类模型,以得到预测向量;其中,预测向量包括初始训练样本属于不同类别的预测值;
调用交叉熵损失函数计算公式,对预测向量、初始训练样本对应的真实标签向量以及不同类别对应的权重进行处理,以得到交叉熵损失函数;交叉熵损失函数计算公式为:
;
其中,,/>,N表示所有初始训练样本的样本数目,K表示类别总数,i表示第i个初始训练样本,c表示第c个类别,y ic 表示第i个初始训练样本的标签值、第i个初始训练样本的真实标签为c时y ic 取值为1、第i个初始训练样本的真实标签不为c时y ic 取值为0,p ic 表示第i个初始训练样本属于类别c的预测概率,w ic 表示第i个初始训练样本属于类别c的权重值,z ic 表示第i个初始训练样本属于类别c的预测值,第i个初始训练样本属于不同类别的预测值的组合作为预测向量,N C 表示所有初始训练样本中类别为c的样本数目。
在一些实施例中,第二损失确定单元用于对初始训练样本进行同义词替换、回译和/或句法变换,以得到增强后的初始训练样本;
将增强后的初始训练样本输入初始分类模型,以得到新的预测向量;
调用一致性损失函数计算公式,对新的预测向量以及预测向量进行处理,以得到一致性损失函数;一致性损失函数计算公式为:
;
其中,α表示超参数,z i 表示第i个初始训练样本对应的预测向量,表示第i个增强后的初始训练样本对应的新的预测向量。
在一些实施例中,初始数据集包括初始标记训练集和初始标记验证集;还包括参数调整单元、数据筛选单元、模型筛选单元、结果识别单元;
参数调整单元,用于利用初始标记训练集以及从未标注数据中筛选出的敏感信息候选集,对训练后的分类模型进行参数调整,以得到微调分类模型;
数据筛选单元,用于基于微调分类模型在初始标记验证集上的识别精度,从敏感信息候选集中筛选出伪标签数据集;
模型筛选单元,用于依据初始数据集以及伪标签数据集,从不同结构的待微调模型中筛选出识别精度最大的敏感信息分类模型;
结果识别单元,用于利用敏感信息分类模型识别待分析数据的敏感信息结果。
在一些实施例中,参数调整单元包括匹配子单元、选择子单元、训练子单元、调整子单元;
匹配子单元,用于对未标注数据进行字词匹配和语义识别,以筛选出敏感信息候选集;
选择子单元,用于按照单次训练量,分别从敏感信息候选集以及初始标记训练集中选择出训练样本;
训练子单元,用于利用训练样本对训练后的分类模型进行训练,以得到损失函数;
调整子单元,用于基于损失函数对训练后的分类模型的参数进行调整,以得到微调分类模型。
在一些实施例中,匹配子单元用于根据字词匹配算法对未标注数据进行分类,将属于敏感信息类别的第一未标注数据添加至敏感信息候选集;利用训练后的分类模型对不属于敏感信息类别的第二未标注数据进行语义分析,以确定出各第二未标注数据所对应的预测标签;根据各第二未标注数据所对应的预测标签,将预测标签属于敏感信息类别的第二未标注数据添加至敏感信息候选集。
在一些实施例中,训练样本包括敏感数据和非敏感数据;
选择子单元用于从敏感信息候选集中选择出与样本量匹配的敏感数据;其中,样本量为单次训练量取值的一半;从初始标记训练集中选择出与样本量匹配的非敏感数据。
在一些实施例中,损失函数包括微调阶段的交叉熵损失函数和微调阶段的一致性损失函数;
训练子单元用于将训练样本输入训练后的分类模型,以得到第一预测向量;基于第一预测向量、训练样本对应的真实标签向量以及不同类别对应的权重,确定出微调阶段的交叉熵损失函数;对训练样本进行增强处理,以得到新的训练样本;将新的训练样本输入训练后的分类模型,以得到第二预测向量;根据第二预测向量与第一预测向量,确定出微调阶段的一致性损失函数。
在一些实施例中,数据筛选单元包括分析子单元、精度确定子单元、作为子单元;
分析子单元,用于利用微调分类模型对初始标记验证集进行分析,以输出初始标记验证集对应的预测向量;
精度确定子单元,用于基于初始标记验证集对应的预测向量以及初始标记验证集的真实标签向量,确定出微调分类模型的识别精度;
作为子单元,用于在识别精度满足设定的精度要求的情况下,将敏感数据及其对应的预测标签作为伪标签数据集。
在一些实施例中,作为子单元用于在识别精度大于或等于初始分类模型对应的初始识别精度的情况下,将敏感数据及其对应的预测标签作为伪标签数据集。
在一些实施例中,还包括标签调整单元;
标签调整单元,用于根据用户输入的标签调整指令中携带的真实标签,对伪标签数据集中敏感数据对应的预测标签进行调整。
在一些实施例中,还包括删除单元和判断单元;
删除单元,用于将选择出的与样本量匹配的敏感数据从敏感信息候选集中删除;
判断单元,用于判断当前最新的敏感信息候选集中是否存在剩余数据;在当前最新的敏感信息候选集中存在剩余数据的情况下,触发选择子单元执行从敏感信息候选集中选择出与样本量匹配的敏感数据的步骤。
在一些实施例中,模型筛选单元包括扩充子单元、划分子单元、微调模型训练子单元、第一筛选子单元和第二筛选子单元;
扩充子单元,用于将初始数据集以及伪标签数据集作为扩充数据集;
划分子单元,用于按照设定的比例,将扩充数据集划分为扩充训练集、扩充验证集和扩充测试集;
微调模型训练子单元,用于利用扩充训练集分别对不同结构的待微调模型进行训练,以得到不同结构的微调模型;
第一筛选子单元,用于基于不同结构的微调模型在扩充验证集上的识别精度,筛选出不同结构的最佳微调模型;
第二筛选子单元,用于基于不同结构的最佳微调模型在扩充测试集上的识别精度,筛选出识别精度最大的敏感信息分类模型。
在一些实施例中,每种结构的待微调模型包含多个二分类模型;针对于每种结构的待微调模型的构建,装置还包括组合单元和二分类模型训练单元。
组合单元,用于将不同类别各自对应的敏感数据分别与非敏感数据进行组合,以得到不同类别对应的微调样本;
二分类模型训练单元,用于利用不同类别对应的微调样本分别对目标结构的初始待微调模型进行训练,以得到目标结构对应的多个二分类模型;其中,目标结构为所有结构中的任意一种。
在一些实施例中,识别单元包括预测子单元和输出子单元;
预测子单元,用于在待分析数据为用户问题的情况下,将用户问题输入至敏感信息分类模型,以得到用户问题对应的预测标签;
输出子单元,用于在用户问题对应的预测标签属于敏感信息类别的情况下,输出存在敏感信息的提示信息。
在一些实施例中,敏感信息分类模型包括多个敏感信息二分类模型;
预测子单元用于将用户问题分别输入至多个敏感信息二分类模型,以得到用户问题对应的多个预测标签;
输出子单元用于在用户问题对应的多个预测标签的取值不均小于各自对应的阈值的情况下,输出存在敏感信息的提示信息;其中,各敏感信息二分类模型有其各自对应的阈值。
在一些实施例中,还包括阈值调整单元;
阈值调整单元,用于根据当前所属的应用场景,调整各敏感信息二分类模型各自对应的阈值。
在一些实施例中,还包括答案获取单元、得到单元、展示单元和提示单元;
答案获取单元,用于在用户问题对应的预测标签不属于敏感信息类别的情况下,将用户问题输入至大模型中,以获取用户问题对应的答案;
得到单元,用于将答案输入至敏感信息分类模型,以得到答案对应的预测标签;
展示单元,用于在答案对应的预测标签不属于敏感信息类别的情况下,展示答案;
提示单元,用于在答案对应的预测标签属于敏感信息类别的情况下,输出存在敏感信息的提示信息。
在一些实施例中,获取单元,用于按照单次训练量,从初始数据集包括的初始标记训练集中选择出本次迭代对应的初始训练样本;
调整单元,用于基于所述交叉熵损失函数和所述一致性损失函数,构建初始损失函数;基于初始损失函数对初始分类模型的参数进行调整,以得到本次迭代的初始分类模型;根据本次迭代的初始分类模型对应的初始识别精度与上一次迭代保留的最优初始分类模型的初始识别精度,确定出本次迭代的最优初始分类模型;判断当前迭代次数是否达到迭代上限值;在当前迭代次数未达到迭代上限值的情况下,则触发获取单元执行按照单次训练量,从初始数据集包括的初始标记训练集中选择出本次迭代对应的初始训练样本的步骤;在当前迭代次数达到迭代上限值的情况下,则将当前的最优初始分类模型作为训练后的分类模型。
在一些实施例中,获取初始数据集;按照设定的单次训练量,从初始数据集选择出初始训练样本;基于不同类别对应的权重、初始训练样本对应的真实标签向量、初始训练样本输入初始分类模型所得到的预测向量,确定出交叉熵损失函数;根据预测向量、增强后的初始训练样本输入初始分类模型所得到的新的预测向量,确定出一致性损失函数;基于交叉熵损失函数和一致性损失函数对初始分类模型的参数进行调整,以得到训练后的分类模型;利用训练后的分类模型识别待分析数据的敏感信息结果。本发明的有益效果在于,通过设置不同类别对应的权重,可以有效的解决初始数据集中各类别对应的数据不均衡的问题。通过添加一致性损失函数,提升了分类模型在不同扰动下的一致性。通过设置权重以及添加一致性损失函数的方式对损失函数进行优化,保证了分类模型的识别精度,提升了敏感信息识别的准确性。
图10所对应实施例中特征的说明可以参见图1至图9所对应实施例的相关说明,这里不再一一赘述。
由上述技术方案可以看出,获取初始数据集;其中,初始数据集包括初始标记训练集和初始标记验证集;为了提升模型的性能,可以利用初始标记训练集以及从未标注数据中筛选出的敏感信息候选集,对训练后的分类模型进行参数调整,以得到微调分类模型。为了实现对数据集的扩充,可以基于微调分类模型在初始标记验证集上的识别精度,从敏感信息候选集中筛选出伪标签数据集。依据初始数据集以及伪标签数据集,从不同结构的待微调模型中筛选出识别精度最大的敏感信息分类模型;利用敏感信息分类模型识别待分析数据的敏感信息结果。本发明的有益效果在于,通过基于识别精度筛选伪标签数据集,可以实现对初始数据集的增强,解决了敏感数据收集难的问题,并且解决了初始数据集中各类别对应的数据不均衡的问题。利用增强后的数据集从多个不同结构的待微调模型中筛选出敏感信息分类模型,保证了筛选出的敏感信息分类模型的识别精度,提升了敏感信息识别的准确性。
图11为本发明实施例提供的一种敏感信息识别设备的结构图,如图11所示,敏感信息识别设备包括:存储器110,用于存储计算机程序;
处理器111,用于执行计算机程序时实现如上述实施例敏感信息识别方法的步骤。
本实施例提供的敏感信息识别设备可以包括但不限于智能手机、平板电脑、笔记本电脑或台式电脑等。
其中,处理器111可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器111可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器111也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器111可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器111还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器110可以包括一个或多个存储介质,该存储介质可以是非暂态的。存储器110还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。本实施例中,存储器110至少用于存储以下计算机程序1101,其中,该计算机程序被处理器111加载并执行之后,能够实现前述任一实施例公开的敏感信息识别方法的相关步骤。另外,存储器110所存储的资源还可以包括操作系统1102和数据1103等,存储方式可以是短暂存储或者永久存储。其中,操作系统1102可以包括Windows、Unix、Linux等。数据1103可以包括但不限于初始数据集、未标注数据、敏感信息候选集、伪标签数据集等。
在一些实施例中,敏感信息识别设备还可包括有显示屏112、输入输出接口113、通信接口114、电源115以及通信总线116。
本领域技术人员可以理解,图11中示出的结构并不构成对敏感信息识别设备的限定,可以包括比图示更多或更少的组件。
可以理解的是,如果上述实施例中的敏感信息识别方法以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对目前技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、磁碟或者光盘等各种可以存储程序代码的介质。
基于此,本发明实施例还提供了一种存储介质,存储介质上存储有计算机程序,计算机程序被处理器执行时实现如上述敏感信息识别方法的步骤。
以上对本发明实施例所提供的一种敏感信息识别方法、装置、设备和存储介质进行了详细介绍。说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
以上对本发明所提供的一种敏感信息识别方法、装置、设备和存储介质进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。
Claims (22)
1.一种敏感信息识别方法,其特征在于,包括:
获取初始数据集;
按照设定的单次训练量,从所述初始数据集选择出初始训练样本;
基于不同类别对应的权重、所述初始训练样本对应的真实标签向量、所述初始训练样本输入初始分类模型所得到的预测向量,确定出交叉熵损失函数;
根据所述预测向量、增强后的初始训练样本输入所述初始分类模型所得到的新的预测向量,确定出一致性损失函数;
基于所述交叉熵损失函数和所述一致性损失函数对所述初始分类模型的参数进行调整,以得到训练后的分类模型;
利用所述训练后的分类模型识别待分析数据的敏感信息结果;
所述初始数据集包括初始标记训练集和初始标记验证集;
在所述基于所述交叉熵损失函数和所述一致性损失函数对所述初始分类模型的参数进行调整,以得到训练后的分类模型之后,还包括:
利用所述初始标记训练集以及从未标注数据中筛选出的敏感信息候选集,对所述训练后的分类模型进行参数调整,以得到微调分类模型;
基于所述微调分类模型在所述初始标记验证集上的识别精度,从所述敏感信息候选集中筛选出伪标签数据集;
依据所述初始数据集以及所述伪标签数据集,从不同结构的待微调模型中筛选出识别精度最大的敏感信息分类模型;
利用所述敏感信息分类模型识别所述待分析数据的敏感信息结果。
2.根据权利要求1所述的敏感信息识别方法,其特征在于,所述基于不同类别对应的权重、所述初始训练样本对应的真实标签向量、所述初始训练样本输入初始分类模型所得到的预测向量,确定出交叉熵损失函数包括:
将所述初始训练样本输入所述初始分类模型,以得到预测向量;其中,所述预测向量包括所述初始训练样本属于不同类别的预测值;
调用交叉熵损失函数计算公式,对所述预测向量、所述初始训练样本对应的真实标签向量以及不同类别对应的权重进行处理,以得到交叉熵损失函数;所述交叉熵损失函数计算公式为:
;
其中,,/>,N表示所有初始训练样本的样本数目,K表示类别总数,i表示第i个初始训练样本,c表示第c个类别,y ic 表示第i个初始训练样本的标签值、第i个初始训练样本的真实标签为c时y ic 取值为1、第i个初始训练样本的真实标签不为c时y ic 取值为0,p ic 表示第i个初始训练样本属于类别c的预测概率,w ic 表示第i个初始训练样本属于类别c的权重值,z ic 表示第i个初始训练样本属于类别c的预测值,第i个初始训练样本属于不同类别的预测值的组合作为所述预测向量,N C 表示所有初始训练样本中类别为c的样本数目。
3.根据权利要求2所述的敏感信息识别方法,其特征在于,所述根据所述预测向量、增强后的初始训练样本输入所述初始分类模型所得到的新的预测向量,确定出一致性损失函数包括:
对所述初始训练样本进行同义词替换、回译和/或句法变换,以得到所述增强后的初始训练样本;
将所述增强后的初始训练样本输入所述初始分类模型,以得到新的预测向量;
调用一致性损失函数计算公式,对所述新的预测向量以及所述预测向量进行处理,以得到一致性损失函数;所述一致性损失函数计算公式为:
;
其中,α表示超参数,z i 表示第i个初始训练样本对应的所述预测向量,表示第i个增强后的初始训练样本对应的所述新的预测向量。
4.根据权利要求1所述的敏感信息识别方法,其特征在于,所述利用所述初始标记训练集以及从未标注数据中筛选出的敏感信息候选集,对所述训练后的分类模型进行参数调整,以得到微调分类模型包括:
对所述未标注数据进行字词匹配和语义识别,以筛选出所述敏感信息候选集;
按照所述单次训练量,分别从所述敏感信息候选集以及所述初始标记训练集中选择出训练样本;
利用所述训练样本对所述训练后的分类模型进行训练,以得到损失函数;
基于所述损失函数对所述训练后的分类模型的参数进行调整,以得到微调分类模型。
5.根据权利要求4所述的敏感信息识别方法,其特征在于,所述对所述未标注数据进行字词匹配和语义识别,以筛选出所述敏感信息候选集包括:
根据字词匹配算法对所述未标注数据进行分类,将属于敏感信息类别的第一未标注数据添加至所述敏感信息候选集;
利用所述训练后的分类模型对不属于敏感信息类别的第二未标注数据进行语义分析,以确定出各所述第二未标注数据所对应的预测标签;
根据各所述第二未标注数据所对应的预测标签,将预测标签属于敏感信息类别的第二未标注数据添加至所述敏感信息候选集。
6.根据权利要求4所述的敏感信息识别方法,其特征在于,所述训练样本包括敏感数据和非敏感数据;
所述按照所述单次训练量,分别从所述敏感信息候选集以及所述初始标记训练集中选择出训练样本包括:
从所述敏感信息候选集中选择出与样本量匹配的敏感数据;其中,所述样本量为所述单次训练量取值的一半;
从所述初始标记训练集中选择出与所述样本量匹配的非敏感数据。
7.根据权利要求4所述的敏感信息识别方法,其特征在于,所述损失函数包括微调阶段的交叉熵损失函数和微调阶段的一致性损失函数;
所述利用所述训练样本对所述训练后的分类模型进行训练,以得到损失函数包括:
将所述训练样本输入所述训练后的分类模型,以得到第一预测向量;
基于所述第一预测向量、所述训练样本对应的真实标签向量以及不同类别对应的权重,确定出所述微调阶段的交叉熵损失函数;
对所述训练样本进行增强处理,以得到新的训练样本;
将所述新的训练样本输入所述训练后的分类模型,以得到第二预测向量;
根据所述第二预测向量与所述第一预测向量,确定出所述微调阶段的一致性损失函数。
8.根据权利要求6所述的敏感信息识别方法,其特征在于,所述基于所述微调分类模型在所述初始标记验证集上的识别精度,从所述敏感信息候选集中筛选出伪标签数据集包括:
利用所述微调分类模型对所述初始标记验证集进行分析,以输出所述初始标记验证集对应的预测向量;
基于所述初始标记验证集对应的预测向量以及所述初始标记验证集的真实标签向量,确定出所述微调分类模型的识别精度;
在所述识别精度满足设定的精度要求的情况下,将所述敏感数据及其对应的预测标签作为所述伪标签数据集。
9.根据权利要求8所述的敏感信息识别方法,其特征在于,所述在所述识别精度满足设定的精度要求的情况下,将所述敏感数据及其对应的预测标签作为所述伪标签数据集包括:
在所述识别精度大于或等于所述初始分类模型对应的初始识别精度的情况下,将所述敏感数据及其对应的预测标签作为所述伪标签数据集。
10.根据权利要求9所述的敏感信息识别方法,其特征在于,在所述将所述敏感数据及其对应的预测标签作为所述伪标签数据集之后,还包括:
根据用户输入的标签调整指令中携带的真实标签,对所述伪标签数据集中所述敏感数据对应的预测标签进行调整。
11.根据权利要求6所述的敏感信息识别方法,其特征在于,在所述基于所述损失函数对所述训练后的分类模型的参数进行调整,以得到微调分类模型之后,还包括:
将选择出的与样本量匹配的敏感数据从所述敏感信息候选集中删除;
判断当前最新的敏感信息候选集中是否存在剩余数据;
在所述当前最新的敏感信息候选集中存在剩余数据的情况下,返回所述从所述敏感信息候选集中选择出与样本量匹配的敏感数据的步骤。
12.根据权利要求1所述的敏感信息识别方法,其特征在于,所述依据所述初始数据集以及所述伪标签数据集,从不同结构的待微调模型中筛选出识别精度最大的敏感信息分类模型包括:
将所述初始数据集以及所述伪标签数据集作为扩充数据集;
按照设定的比例,将所述扩充数据集划分为扩充训练集、扩充验证集和扩充测试集;
利用所述扩充训练集分别对不同结构的待微调模型进行训练,以得到不同结构的微调模型;
基于所述不同结构的微调模型在所述扩充验证集上的识别精度,筛选出不同结构的最佳微调模型;
基于所述不同结构的最佳微调模型在所述扩充测试集上的识别精度,筛选出识别精度最大的敏感信息分类模型。
13.根据权利要求12所述的敏感信息识别方法,其特征在于,每种结构的待微调模型包含多个二分类模型;针对于每种结构的待微调模型的构建,所述方法还包括:
将不同类别各自对应的敏感数据分别与非敏感数据进行组合,以得到不同类别对应的微调样本;
利用不同类别对应的微调样本分别对目标结构的初始待微调模型进行训练,以得到所述目标结构对应的多个二分类模型;其中,所述目标结构为所有所述结构中的任意一种。
14.根据权利要求1所述的敏感信息识别方法,其特征在于,所述利用所述敏感信息分类模型识别所述待分析数据的敏感信息结果包括:
在所述待分析数据为用户问题的情况下,将所述用户问题输入至所述敏感信息分类模型,以得到所述用户问题对应的预测标签;
在所述用户问题对应的预测标签属于敏感信息类别的情况下,输出存在敏感信息的提示信息。
15.根据权利要求14所述的敏感信息识别方法,其特征在于,所述敏感信息分类模型包括多个敏感信息二分类模型;
所述将所述用户问题输入至所述敏感信息分类模型,以得到所述用户问题对应的预测标签包括:
将所述用户问题分别输入至多个所述敏感信息二分类模型,以得到所述用户问题对应的多个预测标签;
所述在所述用户问题对应的预测标签属于敏感信息类别的情况下,输出存在敏感信息的提示信息包括:
在所述用户问题对应的多个预测标签的取值不均小于各自对应的阈值的情况下,输出存在敏感信息的提示信息;其中,各所述敏感信息二分类模型有其各自对应的阈值。
16.根据权利要求15所述的敏感信息识别方法,其特征在于,还包括:
根据当前所属的应用场景,调整各所述敏感信息二分类模型各自对应的阈值。
17.根据权利要求14所述的敏感信息识别方法,其特征在于,还包括:
在所述用户问题对应的预测标签不属于敏感信息类别的情况下,将所述用户问题输入至大模型中,以获取所述用户问题对应的答案;
将所述答案输入至所述敏感信息分类模型,以得到所述答案对应的预测标签;
在所述答案对应的预测标签不属于敏感信息类别的情况下,展示所述答案;
在所述答案对应的预测标签属于敏感信息类别的情况下,输出存在敏感信息的提示信息。
18.根据权利要求1至17任意一项所述的敏感信息识别方法,其特征在于,所述按照设定的单次训练量,从所述初始数据集选择出初始训练样本包括:
按照所述单次训练量,从所述初始数据集包括的初始标记训练集中选择出本次迭代对应的初始训练样本;
所述基于所述交叉熵损失函数和所述一致性损失函数对所述初始分类模型的参数进行调整,以得到训练后的分类模型包括:
基于所述交叉熵损失函数和所述一致性损失函数,构建初始损失函数;
基于所述初始损失函数对所述初始分类模型的参数进行调整,以得到本次迭代的初始分类模型;
根据所述本次迭代的初始分类模型对应的初始识别精度与上一次迭代保留的最优初始分类模型的初始识别精度,确定出本次迭代的最优初始分类模型;
判断当前迭代次数是否达到迭代上限值;
在所述当前迭代次数未达到所述迭代上限值的情况下,则返回所述按照所述单次训练量,从所述初始数据集包括的初始标记训练集中选择出本次迭代对应的初始训练样本的步骤;
在所述当前迭代次数达到所述迭代上限值的情况下,则将当前的最优初始分类模型作为训练后的分类模型。
19.根据权利要求18所述的敏感信息识别方法,其特征在于,所述根据所述本次迭代的初始分类模型对应的初始识别精度与上一次迭代保留的最优初始分类模型的初始识别精度,确定出本次迭代的最优初始分类模型包括:
利用所述本次迭代的初始分类模型对所述初始数据集包括的初始标记验证集进行分析,以输出所述初始标记验证集对应的初始预测向量;
基于所述初始标记验证集对应的初始预测向量以及所述初始标记验证集的真实标签向量,确定出所述本次迭代的初始分类模型的初始识别精度;
在所述本次迭代的初始分类模型对应的初始识别精度大于上一次迭代保留的最优初始分类模型的初始识别精度的情况下,将所述本次迭代的初始分类模型作为所述本次迭代的最优初始分类模型;
在所述本次迭代的初始分类模型对应的初始识别精度小于或等于上一次迭代保留的最优初始分类模型的初始识别精度的情况下,将所述上一次迭代保留的最优初始分类模型作为所述本次迭代的最优初始分类模型。
20.一种敏感信息识别装置,其特征在于,包括获取单元、选择单元、第一损失确定单元、第二损失确定单元、调整单元和识别单元;所述获取单元,用于获取初始数据集;
所述选择单元,用于按照设定的单次训练量,从所述初始数据集选择出初始训练样本;
所述第一损失确定单元,用于基于不同类别对应的权重、所述初始训练样本对应的真实标签向量、所述初始训练样本输入初始分类模型所得到的预测向量,确定出交叉熵损失函数;
所述第二损失确定单元,用于根据所述预测向量、增强后的初始训练样本输入所述初始分类模型所得到的新的预测向量,确定出一致性损失函数;
所述调整单元,用于基于所述交叉熵损失函数和所述一致性损失函数对所述初始分类模型的参数进行调整,以得到训练后的分类模型;
所述识别单元,用于利用所述训练后的分类模型识别待分析数据的敏感信息结果;
所述初始数据集包括初始标记训练集和初始标记验证集;还包括参数调整单元、数据筛选单元、模型筛选单元、结果识别单元;所述参数调整单元,用于利用所述初始标记训练集以及从未标注数据中筛选出的敏感信息候选集,对所述训练后的分类模型进行参数调整,以得到微调分类模型;所述数据筛选单元,用于基于所述微调分类模型在所述初始标记验证集上的识别精度,从所述敏感信息候选集中筛选出伪标签数据集;所述模型筛选单元,用于依据所述初始数据集以及所述伪标签数据集,从不同结构的待微调模型中筛选出识别精度最大的敏感信息分类模型;所述结果识别单元,用于利用所述敏感信息分类模型识别所述待分析数据的敏感信息结果。
21.一种敏感信息识别设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序以实现如权利要求1至19任意一项所述敏感信息识别方法的步骤。
22.一种存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至19任意一项所述敏感信息识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311608959.9A CN117332090B (zh) | 2023-11-29 | 2023-11-29 | 一种敏感信息识别方法、装置、设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311608959.9A CN117332090B (zh) | 2023-11-29 | 2023-11-29 | 一种敏感信息识别方法、装置、设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117332090A CN117332090A (zh) | 2024-01-02 |
CN117332090B true CN117332090B (zh) | 2024-02-23 |
Family
ID=89277709
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311608959.9A Active CN117332090B (zh) | 2023-11-29 | 2023-11-29 | 一种敏感信息识别方法、装置、设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117332090B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117874754B (zh) * | 2024-01-12 | 2024-08-06 | 中电云计算技术有限公司 | 一种敏感信息泄露监控并联动大模型分析的方法 |
CN118509845B (zh) * | 2024-07-17 | 2024-09-17 | 四川法加加数字科技有限公司 | 一种基于5g网络的数据加密传输方法及系统 |
CN119150997B (zh) * | 2024-11-19 | 2025-03-28 | 杭州海康威视数字技术股份有限公司 | 多模态大模型的训练方法、装置、存储介质和电子设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111046959A (zh) * | 2019-12-12 | 2020-04-21 | 上海眼控科技股份有限公司 | 模型训练方法、装置、设备和存储介质 |
CN111222648A (zh) * | 2020-01-15 | 2020-06-02 | 深圳前海微众银行股份有限公司 | 半监督机器学习优化方法、装置、设备及存储介质 |
CN115310443A (zh) * | 2022-09-06 | 2022-11-08 | 上海浦东发展银行股份有限公司 | 模型训练方法、信息分类方法、装置、设备及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114595333B (zh) * | 2022-04-27 | 2022-08-09 | 之江实验室 | 一种用于舆情文本分析的半监督方法和装置 |
-
2023
- 2023-11-29 CN CN202311608959.9A patent/CN117332090B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111046959A (zh) * | 2019-12-12 | 2020-04-21 | 上海眼控科技股份有限公司 | 模型训练方法、装置、设备和存储介质 |
CN111222648A (zh) * | 2020-01-15 | 2020-06-02 | 深圳前海微众银行股份有限公司 | 半监督机器学习优化方法、装置、设备及存储介质 |
CN115310443A (zh) * | 2022-09-06 | 2022-11-08 | 上海浦东发展银行股份有限公司 | 模型训练方法、信息分类方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN117332090A (zh) | 2024-01-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN117332090B (zh) | 一种敏感信息识别方法、装置、设备和存储介质 | |
CN110366734B (zh) | 优化神经网络架构 | |
CN110276066B (zh) | 实体关联关系的分析方法及相关装置 | |
CN112528637B (zh) | 文本处理模型训练方法、装置、计算机设备和存储介质 | |
CN110188331A (zh) | 模型训练方法、对话系统评价方法、装置、设备及存储介质 | |
CN108228576B (zh) | 文本翻译方法及装置 | |
CN111309887B (zh) | 一种训练文本关键内容提取模型的方法和系统 | |
CN112905795A (zh) | 文本意图分类的方法、装置和可读介质 | |
CN111651996A (zh) | 摘要生成方法、装置、电子设备及存储介质 | |
CN112487139A (zh) | 基于文本的自动出题方法、装置及计算机设备 | |
CN113837910B (zh) | 试题推荐方法、装置、电子设备和存储介质 | |
CN108304376B (zh) | 文本向量的确定方法、装置、存储介质及电子装置 | |
CN113961765B (zh) | 基于神经网络模型的搜索方法、装置、设备和介质 | |
CN110929532A (zh) | 数据处理方法、装置、设备及存储介质 | |
CN110968664A (zh) | 一种文书检索方法、装置、设备及介质 | |
WO2021257160A1 (en) | Model selection learning for knowledge distillation | |
CN112837669A (zh) | 语音合成方法、装置及服务器 | |
CN111368066B (zh) | 获取对话摘要的方法、装置和计算机可读存储介质 | |
CN110046279A (zh) | 视频文件特征的预测方法、介质、装置和计算设备 | |
CN112749557B (zh) | 文本处理模型的构建方法和文本处理方法 | |
CN113849634A (zh) | 用于提升深度模型推荐方案可解释性的方法 | |
CN116956915A (zh) | 实体识别模型训练方法、装置、设备、存储介质及产品 | |
CN113705254B (zh) | 数据处理方法、装置、电子设备及介质 | |
US11983240B2 (en) | Meta few-shot class incremental learning | |
CN112818688B (zh) | 文本处理方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |