CN119540958A

CN119540958A - 基于梯度下降方法比对学习的语料知识库自学习方法及装置

Info

Publication number: CN119540958A
Application number: CN202510081954.8A
Authority: CN
Inventors: 赵伟东; 赵卫明; 苏镇涛
Original assignee: Beijing Starshine Digital System Co ltd
Current assignee: Beijing Starshine Digital System Co ltd
Priority date: 2025-01-20
Filing date: 2025-01-20
Publication date: 2025-02-28

Abstract

本申请实施例提供一种基于梯度下降方法比对学习的语料知识库自学习方法及装置，涉及档案数字化技术领域，所述方法包括：获取扫描的档案图像数据以及对应的著录语音数据；对所述档案图像数据进行字体识别并转换成第一文本信息，并增加至著录项字段中，得到著录项字段；对著录语音进行语音识别并转换成第二文本信息，形成人工目录；对著录项字段进行智能识别，得到机器目录；对人工目录与机器目录进行比对分析，形成学习结果；对学习结果进行语义检索分析；利用大数据处理和智能学习等手段，将人工智能技术应用于档案数字化操作流程，有效提高档案数字化方法效率和产出质量，加快档案数字化的发展进程。

Description

基于梯度下降方法比对学习的语料知识库自学习方法及装置

技术领域

本申请涉及档案数字化技术领域，具体而言，涉及一种基于梯度下降方法比对学习的语料知识库自学习方法及装置。

背景技术

随着技术的进步，档案数字化进程明显加快。但是，档案数字化工作也存在一定的问题，成为制约档案数字化工作发展的瓶颈。目前档案数字化工作流程中，包括扫描、著录、校检等各环节工作大多依赖工作人员手工操作完成，这使得档案数字化工作中容易产生偶然误差，同时工作效率较低。不同承担者完成的档案数字化资源存在一定的差异，档案数字化质量很大程度依赖于操作者的经验，档案数字化从业人员素质存在差异，档案数字化产出质量不统一。很多档案工作既具有专业性、多样性的特点，又具备程式化、重复性等特征，培养一名合格的档案专业人才需要较长周期，同时档案数字化专业性人才不足，导致行业整体数字化发展进度缓慢。

发明内容

本申请实施例的目的在于提供一种基于梯度下降方法比对学习的语料知识库自学习方法及装置，用以解决目前的档案数字化方法效率低、产出质量不统一、发展进度缓慢的问题。

第一方面，本申请实施例提供了一种基于梯度下降方法比对学习的语料知识库自学习方法，包括：

获取扫描的档案图像数据以及对应的著录语音数据；

基于设定的字体识别规则对所述档案图像数据进行字体识别并转换成第一文本信息，并将该第一文本信息增加至著录项字段中，得到著录项字段；

基于设定的语音识别规则对著录语音进行语音识别并转换成第二文本信息，结合著录项字段形成人工目录，或通过对著录项字段的框选区域识别结果，形成人工目录；

基于设定的著录识别规则对著录项字段进行智能识别，得到机器目录；

对人工目录与机器目录进行比对分析，形成学习结果；

对学习结果进行语义检索分析。

在上述实现过程中，获取扫描的档案图像数据以及对应的著录语音数据；基于设定的字体识别规则对所述档案图像数据进行字体识别并转换成第一文本信息，并将该第一文本信息增加至著录项字段中，得到著录项字段；基于设定的语音识别规则对著录语音进行语音识别并转换成第二文本信息，结合著录项字段形成人工目录，或通过对著录项字段的框选区域识别结果，形成人工目录；基于设定的著录识别规则对著录项字段进行智能识别，得到机器目录；对人工目录与机器目录进行比对分析，形成学习结果；对学习结果进行语义检索分析；利用大数据处理和智能学习等手段，将人工智能技术应用于档案数字化操作流程，有效提高档案数字化方法效率和产出质量，加快档案数字化的发展进程。

进一步的，所述获取扫描的档案图像数据以及对应的著录语音数据，包括：

使用扫描仪对档案页面进行扫描，获取包含繁体字的档案图像；

利用图像处理库对档案图像进行灰度化处理，将彩色图像转换为单通道的灰度图像；

采用中值滤波算法去除档案图像中的椒盐噪声，通过直方图均衡化方法增强档案图像的对比度，得到最终的档案图像数据；

使用麦克风阵列采集著录语音信号；其中，麦克风阵列采用波束形成技术，将多个麦克风采集到的著录语音信号进行加权求和；

采集到的著录语音信号经过模数转换后，通过数字信号处理算法进行高通滤波，去除低频噪声，再进行自动增益控制，得到最终的著录语音数据。

在上述实现过程中，获取档案图像并进行预处理，为后续的识别工作提供良好的图像基础；获取著录语音信号并进行预处理，得到高质量的语音数据，为后续的语音识别提供良好的基础。

进一步的，所述基于设定的字体识别规则对所述档案图像数据进行字体识别并转换成第一文本信息，并将该第一文本信息增加至著录项字段中，得到著录项字段，包括：

基于深度学习的卷积神经网络模型，对档案图像数据的繁体字的结构和笔画特征进行提取和识别；其中，在识别过程中，根据图像特征，自动调整神经网络的参数；

将识别出的第一文本信息增加至自定义的数据库字段中，结合全文识别结果，得到著录项字段；

利用预训练的基于循环神经网络的语言模型，结合包含大量繁体字的语料库，对著录项字段进行错误检测和修正；

对著录项字段和修正结果进行逐字比对，提取出差异特征和错误模式，并反馈给深度学习模型进行重新训练。

在上述实现过程中，基于深度学习的卷积神经网络模型，能够对繁体字的结构和笔画特征进行准确提取和识别；进行修正确保数据的准确性，将比对结果进行模型优化，对繁体字的识别准确率将不断提高，实现自我学习和持续改进。

进一步的，所述基于设定的语音识别规则对著录语音数据进行语音识别并转换成第二文本信息，结合著录项字段形成人工目录，或通过对著录项字段的框选区域识别结果，形成人工目录，包括：

基于深度学习的语音识别模型，对著录语音数据进行识别；其中，在识别过程中，根据预先训练的语言模型和声学模型，对语音数据进行逐帧分析和识别，将其转换为第二文本信息；

利用自然语言处理中的词性标注和句法分析技术，对识别出的第二文本信息进行初步的语法和语义检查；

根据预先设定的著录规则，确定语音识别结果对应的指定著录项字段，并记录至日志文件中，其中，指定著录项字段包括著录时间、操作人员ID和档号；

利用语音识别技术将更新的语音指令转换为文本指令，对文本指令进行分析，在著录项字段的数据库中找到对应的字段，将新的内容添加到该字段中，并更新著录日志，记录此次编辑操作的详细信息，其中，详细信息包括编辑时间、操作人员、修改前内容和修改后内容；

结合著录项字段形成人工目录；

或，通过对著录项字段的框选区域识别结果，形成人工目录。

在上述实现过程中，对语音信号中的声学特征和语言特征进行有效提取和识别，对识别的信息进行初步的语法和语义检查，提高文本信息的准确性和逻辑性；将著录操作记录到详细的日志文件中，以便后续的数据管理和审计；将新的内容添加到该字段中，并更新著录日志，记录此次编辑操作的详细信息，实现著录内容的实时、准确编辑和数据的可追溯性。

进一步的，所述基于设定的著录识别规则对著录项字段著录项字段进行智能识别，得到机器目录，包括：

获取输入的人工著录项信息并进行校验和存储，获取第一文本信息；

利用深度学习算法对第一文本信息和人工著录项信息进行详细的比对分析，提取差异特征和错误模式，并自动调整光学字符识别OCR模型的参数；

将经过优化后的OCR模型的识别结果与人工著录信息进行整合，去除冗余和错误信息，生成档案信息并进行记录；

将整合后的档案信息存储到数据库中，按照档案管理的标准进行分类、索引和归档；

基于自然语言处理技术的预训练语义分析模型对档案信息进行语义理解；

通过句法分析构建句子的语法结构树，确定各成分之间的句法关系，利用语义角色标注技术，确定每个词汇在句子中的语义角色，以提取档案要素信息；其中，档案要素信息包括关键要素及其对应的语义关系；

根据提取出的档案要素信息，自动匹配预先设定的著录项字段；

利用基于规则和机器学习相结合的语义归纳算法对档案要素信息进行自动归纳和整理，将归纳和整理后的信息准确录入到相应的著录项中，完成档案的自动著录，得到机械目录。

在上述实现过程中，将经过优化后的OCR模型的识别结果与人工著录信息进行整合，去除冗余和错误信息，生成档案信息，进行分类、索引和归档，以便后续的机器自学习；利用语义理解技术，对档案内容的要素进行提取，对档案内容进行自动语义归纳，完成档案的自动著录，实现高效、准确的智能著录。

进一步的，所述对人工目录与机器目录进行比对分析，形成学习结果，包括：

利用计算损失函数梯度下降方法寻求权重系数；

利用损失函数来表达机器目录和人工目录之间的误差，在梯度下降法中，权重参数的计算：

；

式中，lr表示学习率，是一个超参数，学习率较大时，权重系数的更新幅度较快，学习率较小时权重系数更新幅度较小；Floss表示损失函数；

通过若干次选代，得到一个使输出损失函数为最小值的权重系数；

损失函数采用均方误差：

；

其中，H表示高度方向上的数据量，W表示宽度方向上的数据量，Y是输出值，I是真实值，MSE计算Y和I之间每个数据点之间的差之和并最后求平均；

其中，在反向传播的过程中，算法从前向后一层一层通过损失函数计算每层参数的偏导数，并根据结果更新每层的所有参数，形成学习结果。

在上述实现过程中，实现最优的学习结果。

进一步的，所述对学习结果进行语义检索分析，包括：

对学习结果构建语法向量、设定权重参数、设定特殊情况处理规则和设定相似度计算规则。

在上述实现过程中，可实现与检索词组相关的所有档案资源，以提高明清档案题名的著录质量。

第二方面，本申请实施例提供一种基于梯度下降方法比对学习的语料知识库自学习装置，包括：

数据获取模块，用于获取扫描的档案图像数据以及对应的著录语音数据；

字体识别模块，用于基于设定的字体识别规则对所述档案图像数据进行字体识别并转换成第一文本信息，并将该第一文本信息增加至著录项字段中，得到著录项字段；

语音识别模块，用于基于设定的语音识别规则对著录语音进行语音识别并转换成第二文本信息，结合著录项字段形成人工目录，或通过对著录项字段的框选区域识别结果，形成人工目录；

目录识别模块，用于基于设定的著录识别规则对著录项字段进行智能识别，得到机器目录；

比对分析模块，用于对人工目录与机器目录进行比对分析，形成学习结果；

语义分析模块，用于对学习结果进行语义检索分析。

第三方面，本申请实施例提供一种电子设备，包括：

处理器、存储器和总线，所述处理器通过所述总线与所述存储器相连，所述存储器存储有计算机可读取指令，当所述计算机可读取指令由所述处理器执行时，用于实现如上所述的基于梯度下降方法比对学习的语料知识库自学习方法。

第四方面，本申请实施例提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被服务器执行时实现如上所述的基于梯度下降方法比对学习的语料知识库自学习方法。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的一种基于梯度下降方法比对学习的语料知识库自学习方法的流程示意图；

图2是本申请实施例提供的一种基于梯度下降方法比对学习的语料知识库自学习装置的结构示意图；

图3是本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本申请的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

请参看图1，图1为本申请实施例提供的一种基于梯度下降方法比对学习的语料知识库自学习方法的流程示意图。该基于梯度下降方法比对学习的语料知识库自学习方法，包括：

100、获取扫描的档案图像数据以及对应的著录语音数据。

可以理解的，本申请实施例采用语料知识库自学习系统进行数据采集和各种识别分析。

110、用扫描仪对档案页面进行扫描，获取包含繁体字的档案图像。

120、利用图像处理库对档案图像进行灰度化处理，将彩色图像转换为单通道的灰度图像。

130、采用中值滤波算法去除档案图像中的椒盐噪声，通过直方图均衡化方法增强档案图像的对比度，得到最终的档案图像数据。

具体的，使用高精度的扫描仪对古籍或档案页面等进行扫描，获取包含繁体字的档案图像。然后，利用图像处理库（如OpenCV）对档案图像进行灰度化处理，将彩色图像转换为单通道的灰度图像，减少数据量和计算复杂度。接着，采用中值滤波算法去除档案图像中的椒盐噪声，再通过直方图均衡化方法增强图像的对比度，使繁体字的笔画更加清晰突出，为后续的识别工作提供良好的图像基础。

140、使用麦克风阵列采集著录语音信号；其中，麦克风阵列采用波束形成技术，将多个麦克风采集到的著录语音信号进行加权求和。

150、采集到的著录语音信号经过模数转换后，通过数字信号处理算法进行高通滤波，去除低频噪声，再进行自动增益控制，得到最终的著录语音数据。

具体的，使用麦克风阵列对著录加工员的语音进行采集，麦克风阵列采用波束形成技术，将多个麦克风采集到的信号进行加权求和，增强目标语音信号，同时抑制来自其他方向的噪声干扰。采集到的语音信号经过模数转换后，通过数字信号处理算法进行高通滤波，去除低频噪声，再进行自动增益控制，确保语音信号的幅度稳定，得到高质量的语音数据，为后续的语音识别提供良好的基础。

200、基于设定的字体识别规则对所述档案图像数据进行字体识别并转换成第一文本信息，并将该第一文本信息增加至著录项字段中，得到著录项字段。

210、基于深度学习的卷积神经网络模型，对档案图像数据的繁体字的结构和笔画特征进行提取和识别；其中，在识别过程中，根据图像特征，自动调整神经网络的参数。

示例性的，将预处理后的档案图像数据输入到集成了专业繁字体识别SDK包的识别模块。该SDK包中的识别接口基于深度学习的卷积神经网络模型，对繁体字的结构和笔画特征进行准确提取和识别。其中，在识别过程中，根据档案图像的分辨率、文字大小、字体风格等特征，自动调整神经网络的参数，如卷积核大小、层数、激活函数等，以适应不同的繁体字识别需求。例如，对于字体较大、笔画较粗的繁体字，采用较大的卷积核进行特征提取，以捕捉更宏观的文字结构信息；对于笔画细腻、字体风格独特的繁体字，增加神经网络的层数，提高模型的特征表达能力，从而提高识别准确率。

需要说明的是，SDK包，即软件开发工具包（Software Development Kit）包，是一套由软件提供商或其他组织提供的开发工具集合。

220、将识别出的第一文本信息增加至自定义的数据库字段中，结合全文识别结果，得到著录项字段。

具体的，系统将识别出的繁体字文本信息著录到自定义的数据库字段中，该字段专门用于存储从档案图像中提取的文字信息；另外结合对档案图像的完整区域识别结果，得到著录项字段，可以理解的，本申请实施例的全文文本识别结果包括对简体字的识别。

230、利用预训练的基于循环神经网络的语言模型，结合包含大量繁体字的语料库，对著录项字段进行错误检测和修正。

示例性的，系统将识别出的繁体字文本信息著录到自定义的数据库字段中，该字段专门用于存储从图像中提取的文字信息。同时，启动修正模块，该模块利用预训练的基于循环神经网络的语言模型和包含大量繁体字的语料库进行错误检测和修正。例如，当识别结果中出现“發”被误识别为“髪”时，修正模块通过对语料库中“發”字的常见语境和用法进行分析，结合语言模型对上下文语义的理解，判断出此处应为“發”，并将其修正，修正后的文本信息将替换原来的错误识别结果，确保数据的准确性。

240、对著录项字段和修正结果进行逐字比对，提取出差异特征和错误模式，并反馈给深度学习模型进行重新训练。

示例性的，自学习模块获取识别结果（即著录项字段）和修正结果，将两者进行逐字比对，提取出其中的差异特征和错误模式。例如，如果发现多次出现“車”字被误识别为繁体车字的一种错误写法，则将这些错误案例作为训练样本，反馈给深度学习模型进行重新训练；通过反向传播算法，调整模型的权重和参数，使模型能够学习到正确识别“車”字的特征和规律，避免再次出现类似的错误。随着不断地对大量识别结果和修正结果进行比对学习，OCR引擎的识别模型将逐渐优化，对繁体字的识别准确率将不断提高，实现系统的自我学习和持续改进。

需要说明的是，OCR（Optical Character Recognition，光学字符识别）是一种技术，它可以将图像中的文字转换成可编辑和可搜索的数字文本。OCR技术通过识别图像中的字符形状和模式，将其转化为计算机可读的格式，如TXT、DOC、PDF等。

300、基于设定的语音识别规则对著录语音进行语音识别并转换成第二文本信息，结合著录项字段形成人工目录，或通过对著录项字段的框选区域识别结果，形成人工目录。

可选的，系统调用语音识别SDK包中的语音识别接口，自动将著录加工员的语音信息转换成第二文本信息；获取语音识别接口返回的第二文本信息，将该信息著录到指定的著录项字段中，并支持通过语音识别技术实时对著录内容进行增加、修改、删除。另外，结合对著录项字段的预设框选区域识别结果，形成人工目录，其中，预设框选区域可以为繁体字文本区域或根据需求进行设定的区域。

310、基于深度学习的语音识别模型，对著录语音数据进行识别；其中，在识别过程中，根据预先训练的语言模型和声学模型，对语音数据进行逐帧分析和识别，将其转换为第二文本信息。

320、利用自然语言处理中的词性标注和句法分析技术，对识别出的第二文本信息进行初步的语法和语义检查。

示例性的，将预处理后的语音数据输入到语音识别模块，该模块中的语音识别SDK包基于深度学习的语音识别模型，如长短时记忆网络（LSTM）和卷积神经网络（CNN）相结合的架构，对语音信号中的声学特征和语言特征进行有效提取和识别。在识别过程中，模型根据预先训练的语言模型和声学模型，对语音数据进行逐帧分析和识别，将其转换为第二文本信息。同时，利用自然语言处理中的词性标注、句法分析等技术，对识别出的文本进行初步的语法和语义检查，纠正一些常见的错误，如词序颠倒、词性误用等，提高文本信息的准确性和逻辑性。

330、根据预先设定的著录规则，确定语音识别结果对应的指定著录项字段，并记录至日志文件中，其中，指定著录项字段包括著录时间、操作人员ID和档号。

示例性的，信息著录模块根据元数据和预先设定的著录规则，确定语音识别结果对应的指定著录项字段。例如，对于一份人事档案，当语音识别出的文本信息为“张三，男，1985年5月出生”时，根据人事档案的著录规范，将“张三”著录到“姓名”字段，“男”著录到“性别”字段，“1985年5月出生”著录到“出生日期”字段，并将这些著录操作记录到详细的日志文件中，包括著录时间、操作人员ID、档号等信息，以便后续的数据管理和审计。

340、利用语音识别技术将更新的语音指令转换为文本指令，对文本指令进行分析，在著录项字段的数据库中找到对应的字段，将新的内容添加到该字段中，并更新著录日志，记录此次编辑操作的详细信息，其中，详细信息包括编辑时间、操作人员、修改前内容和修改后内容。

示例性的，当著录加工员说出“在工作经历中添加2010-2015年在XX 公司担任XX职位”的语音指令时，实时编辑模块首先利用语音识别技术将其转换为文本指令，然后通过语义解析模块对文本指令进行分析，确定操作类型为“添加”，目标著录项为“工作经历”，具体内容为“2010-2015 年在XX公司担任XX职位”。接着，实时编辑模块与信息著录模块进行交互，在数据库中找到对应的档案记录和“工作经历”字段，将新的内容添加到该字段中，并更新著录日志，记录此次编辑操作的详细信息，包括编辑时间、操作人员、修改前内容、修改后内容等，实现著录内容的实时、准确编辑和数据的可追溯性。

350、结合著录项字段形成人工目录。

360、或，通过对著录项字段的框选区域识别结果，形成人工目录。

400、基于设定的著录识别规则对著录项字段进行智能识别，得到机器目录。

具体的，系统调用智能著录SDK包中的选定著录项接口，确定需要智能著录的所有著录项，再调用智能著录SDK包中的智能著录接口，系统向接口传送需识别的档案图像目录路径参数，将接口自动识别且语义分析后的著录信息自动著录到选定的各个著录项中，需包含档号信息及各著录项的著录信息，最终形成机器目录。

410、获取输入的人工著录项信息并进行校验和存储，获取第一文本信息。

具体的，训练阶段：调用繁体字OCR识别接口识别扫描图像，OCR引擎自动将识别结果与人工著录题名、时间、责任者等著录项结果进行比对学习。

其中，人工著录信息输入：档案管理人员通过人工著录信息输入模块，按照规定的格式和要求输入档案的题名、时间、责任者等关键著录项信息，系统对输入的信息进行校验和存储。

420、利用深度学习算法对第一文本信息和人工著录项信息进行详细的比对分析，提取差异特征和错误模式，并自动调整光学字符识别OCR模型的参数。

其中，比对学习：比对学习模块获取OCR识别结果和人工著录信息，利用深度学习算法进行详细的比对分析，提取差异特征和错误模式，根据这些信息自动调整 OCR 识别模型的参数，实现模型的优化和自我学习。

430、将经过优化后的OCR模型的识别结果与人工著录信息进行整合，去除冗余和错误信息，生成档案信息并进行记录。

440、将整合后的档案信息存储到数据库中，按照档案管理的标准进行分类、索引和归档。

其中，信息整合与存储：将经过优化后的OCR识别结果与人工著录信息进行整合，去除冗余和错误信息，生成完整、准确的档案信息记录；将整合后的档案信息存储到数据库中，按照档案管理的标准进行分类、索引和归档，以便后续的机器自学习。

450、基于自然语言处理技术的预训练语义分析模型对档案信息进行语义理解。

具体的，比对学习效果达到标准后，利用语义理解技术，对档案内容的要素进行提取，对档案内容的责任者、题名进行自动语义归纳，匹配著录项，自动完成著录。

示例性的，基于自然语言处理技术中的预训练语义分析模型（如基于Transformer架构的语言模型）对经过比对学习达到标准后的档案内容进行语义理解。首先，利用词法分析工具对文本进行分词和词性标注，例如将 “张三在1980年撰写的《XX研究报告》”标注为“张三/人名在/介词 1980 年/时间撰写/动词的/助词《XX研究报告》/书名”。然后，通过句法分析构建句子的语法结构树，确定各成分之间的句法关系。最后，利用语义角色标注技术，确定每个词汇在句子中的语义角色，如“张三”是“撰写” 这一动作的执行者，即责任者，“《XX研究报告》”是“撰写”的对象，即题名；通过这些技术手段，提取档案内容中的关键要素及其语义关系。

460、通过句法分析构建句子的语法结构树，确定各成分之间的句法关系，利用语义角色标注技术，确定每个词汇在句子中的语义角色，以提取档案要素信息；其中，档案要素信息包括关键要素及其对应的语义关系。

470、根据提取出的档案要素信息，自动匹配预先设定的著录项字段。

480、利用基于规则和机器学习相结合的语义归纳算法对档案要素信息进行自动归纳和整理，将归纳和整理后的信息准确录入到相应的著录项中，完成档案的自动著录，得到机械目录。

示例性的，根据提取出的档案要素信息，自动匹配预先设定的著录项字段。例如，对于提取出的责任者“张三”，匹配到著录项中的“作者”字段；对于题名“XX 研究报告”，匹配到“文档名称”字段。同时，利用基于规则和机器学习相结合的语义归纳算法对责任者、题名等关键要素进行自动归纳和整理。例如，对于多个责任者“张三、李四、王五”，通过聚类分析和命名实体识别技术，归纳为“张三等”，使其符合档案著录的规范格式。然后，将归纳整理后的信息准确录入到相应的著录项中，完成档案的自动著录，实现高效、准确的智能著录，得到机械目录。

500、对人工目录与机器目录进行比对分析，形成学习结果。

具体的，系统通过对人工目录与机器目录之间的比对，分析智能著录与人工著录之间的差异，形成学习结果。

510、利用计算损失函数梯度下降方法寻求权重系数。

其中，比对学习的方法是利用计算损失函数梯度下降方法来找到合适的权重系数W，使得损失函数的输出值最小，从而达到最优的学习结果。

520、利用损失函数来表达机器目录和人工目录之间的误差，在梯度下降法中，权重参数的计算：

；

通过损失函数量化了输出误差的计算，使得系统能够自动进行反向矫正。

530、通过若干次选代，得到一个使输出损失函数为最小值的权重系数，损失函数采用均方误差：

；

600、对学习结果进行语义检索分析。

具体的，对学习结果构建语法向量、设定权重参数、设定特殊情况处理规则和设定相似度计算规则；可实现与检索词组相关的所有档案资源，以提高明清档案题名的著录质量。

示例性的，语法向量构建：例如对于语句“美丽的花朵在花园里绽放”，首先对其中的词语进行消歧处理。“美丽”一词在同义词林中经过消歧后确定其对应的五级编码，同样地，“花朵”“花园”“绽放”等词也获取各自对应的五级编码，将这些五级编码按照词语在语句中的顺序依次排列，构建出该语句的语法向量表示形式，如[“美丽”的五级编码，“的”的五级编码，“花朵”的五级编码，“在”的五级编码，“花园”的五级编码，“里”的五级编码，“绽放”的五级编码]。通过这样的方式，将语句以更具语义精准性的语法向量形式呈现，避免了词语多义性可能带来的干扰。

示例性的，权重参数设定：针对不同词性和语法成分进行分析。比如，对于名词成分，根据其在语句中通常承载关键语义信息的特点，结合大量文本试验分析，赋予相对较高的权重参数（如1.2）；而对于助词等语法功能词，由于其主要起辅助语句结构构建的作用，赋予较低的权重参数（如0.1）。同时，设定相应的门限参数用于区分不同重要程度的维度，例如当某一维度的权重参数与其他维度权重参数比值低于某一门限参数时，在相似度计算中可适当降低其影响力，以此通过合理的参数设定，使相似度计算更符合语言的实际语义和语法结构逻辑。

示例性的，特殊情况处理：假设在比较语句“他在跑步”和“她在跳舞”时，若采用基于某种特征提取方式构建语法向量后，出现第二个语句中对应“跑步”位置维度为空（Null）的情况，此时按照本发明的规则，给该空词语赋予编号“Ma01A01”。在后续计算两个语句对应维度相似度时，“Ma01A01”与“跑步”对应的五级编码按照规定的相似度值（0.1）进行计算，而两个“Ma01A01”编号在各自语句中出现时，它们之间的相似度值为零，通过这样的统一处理，保证了在存在空词语这种复杂情况下，整个句子相似度计算能够顺利、合理地进行，不会因空词语的出现而导致计算逻辑混乱或结果偏差过大。

示例性的，相似度计算：以语句“阳光照耀着大地”和“阳光洒满了大地”为例，先将语句划分句干和句叶部分，比如把“阳光”“大地”等核心成分视为句干，“照耀着”“洒满了”等视为句叶。根据设定的句干相似度（3）、句叶相似度（0.05）以及权重参数和（3.5）、筛选参数（1）等参数，代入公式（句子相似度=（3+0.05）／3.51×1）进行计算，得出这两个语句之间的相似度数值，该数值能够较为准确地反映出这两个语句在语义和语法层面的相似程度，为后续诸如文本分类、信息检索等应用提供可靠的相似度衡量依据。

上述，本申请实施例获取扫描的档案图像数据以及对应的著录语音数据；基于设定的字体识别规则对所述档案图像数据进行字体识别并转换成第一文本信息，并将该第一文本信息增加至著录项字段中，得到著录项字段；基于设定的语音识别规则对著录语音进行语音识别并转换成第二文本信息，结合著录项字段形成人工目录，或通过对著录项字段的框选区域识别结果，形成人工目录；基于设定的著录识别规则对著录项字段进行智能识别，得到机器目录；对人工目录与机器目录进行比对分析，形成学习结果；对学习结果进行语义检索分析；利用大数据处理和智能学习等手段，将人工智能技术应用于档案数字化操作流程，有效提高档案数字化方法效率和产出质量，加快档案数字化的发展进程。

以上步骤并不是严格按照编号描述的顺序依次执行，其应作为一个整体方案进行理解。

第二方面，在上述实施例的基础上，图2为本申请实施例提供的一种基于梯度下降方法比对学习的语料知识库自学习装置的结构示意图。参考图2，本实施例提供的基于梯度下降方法比对学习的语料知识库自学习装置具体包括：数据获取模块201、字体识别模块202、语音识别模块203、目录识别模块204、比对分析模块205和语义分析模块206。

其中，数据获取模块201用于获取扫描的档案图像数据以及对应的著录语音数据；字体识别模块202用于基于设定的字体识别规则对所述档案图像数据进行字体识别并转换成第一文本信息，并将该第一文本信息增加至著录项字段中，得到著录项字段；语音识别模块203用于基于设定的语音识别规则对著录语音进行语音识别并转换成第二文本信息，结合著录项字段形成人工目录，或通过对著录项字段的框选区域识别结果，形成人工目录；目录识别模块204用于基于设定的著录识别规则对著录项字段进行智能识别，得到机器目录；比对分析模块205用于对人工目录与机器目录进行比对分析，形成学习结果；语义分析模块206用于对学习结果进行语义检索分析。

本申请实施例提供的基于梯度下降方法比对学习的语料知识库自学习装置可以用于执行上述实施例提供的基于梯度下降方法比对学习的语料知识库自学习方法，具备相应的功能和有益效果。

第三方面，本申请实施例还提供了一种电子设备，该电子设备可集成本申请实施例提供的基于梯度下降方法比对学习的语料知识库自学习装置。图3是本申请实施例提供的一种电子设备的结构示意图。参考图3，该电子设备包括：输入装置33、输出装置34、存储器32以及一个或多个处理器31；所述存储器32，用于存储一个或多个程序；当所述一个或多个程序被所述一个或多个处理器31执行，使得所述一个或多个处理器31实现如上述实施例提供的基于梯度下降方法比对学习的语料知识库自学习方法。其中输入装置33、输出装置34、存储器32和处理器31可以通过总线或者其他方式连接，图3中以通过总线连接为例。

处理器31通过运行存储在存储器32中的软件程序、指令以及模块，从而执行设备的各种功能应用以及数据处理，即实现上述的基于梯度下降方法比对学习的语料知识库自学习方法。

上述提供的电子设备可用于执行上述实施例提供的基于梯度下降方法比对学习的语料知识库自学习方法，具备相应的功能和有益效果。

第四方面，本申请实施例还提供一种计算机可读存储介质，计算机可读存储介质包括存储的计算机程序；其中，在计算机程序运行时控制计算机可读存储介质所在设备执行如上所述的基于梯度下降方法比对学习的语料知识库自学习方法，且能达到与之相同的有益效果。

当然，本申请实施例所提供的一种包含计算机可执行指令的存储介质，其计算机可执行指令不限于如上所述的基于梯度下降方法比对学习的语料知识库自学习方法，还可以执行本申请任意实施例所提供的基于梯度下降方法比对学习的语料知识库自学习方法中的相关操作。

第五方面，本申请实施例还提供一种计算机程序产品，本申请各个实施例所述的方法可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机程序或指令。在计算机上加载和执行所述计算机程序或指令时，全部或部分地执行本申请各个实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、网络设备、用户设备、核心网设备、OAM（Open Application Model，开放应用模型）或者其它可编程装置。

所述计算机程序或指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机程序或指令可以从一个网站站点、计算机、服务器或数据中心通过有线或无线方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是集成一个或多个可用介质的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，例如，软盘、硬盘、磁带；也可以是光介质，例如，数字视频光盘；还可以是半导体介质，例如，固态硬盘。该计算机可读存储介质可以是易失性或非易失性存储介质，或可包括易失性和非易失性两种类型的存储介质。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台电子设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本申请的实施例而已，并不用于限制本申请的保护范围，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种基于梯度下降方法比对学习的语料知识库自学习方法，其特征在于，所述方法包括：

获取扫描的档案图像数据以及对应的著录语音数据；

对人工目录与机器目录进行比对分析，形成学习结果；

对学习结果进行语义检索分析。

2.根据权利要求1所述的基于梯度下降方法比对学习的语料知识库自学习方法，其特征在于，所述获取扫描的档案图像数据以及对应的著录语音数据，包括：

3.根据权利要求1所述的基于梯度下降方法比对学习的语料知识库自学习方法，其特征在于，所述基于设定的字体识别规则对所述档案图像数据进行字体识别并转换成第一文本信息，并将该第一文本信息增加至著录项字段中，得到著录项字段，包括：

4.根据权利要求1所述的基于梯度下降方法比对学习的语料知识库自学习方法，其特征在于，所述基于设定的语音识别规则对著录语音进行语音识别并转换成第二文本信息，结合著录项字段形成人工目录，或通过对著录项字段的框选区域识别结果，形成人工目录，包括：

结合著录项字段形成人工目录；

5.根据权利要求3所述的基于梯度下降方法比对学习的语料知识库自学习方法，其特征在于，所述基于设定的著录识别规则对著录项字段著录项字段进行智能识别，得到机器目录，包括：

6.根据权利要求1所述的基于梯度下降方法比对学习的语料知识库自学习方法，其特征在于，所述对人工目录与机器目录进行比对分析，形成学习结果，包括：

利用计算损失函数梯度下降方法寻求权重系数；

；

损失函数采用均方误差：

；

7.根据权利要求1所述的基于梯度下降方法比对学习的语料知识库自学习方法，其特征在于，所述对学习结果进行语义检索分析，包括：

8.一种基于梯度下降方法比对学习的语料知识库自学习装置，其特征在于，包括：

语义分析模块，用于对学习结果进行语义检索分析。

9.一种电子设备，其特征在于，包括：

处理器、存储器和总线，所述处理器通过所述总线与所述存储器相连，所述存储器存储有计算机可读取指令，当所述计算机可读取指令由所述处理器执行时，用于实现如权利要求1-7中任一项所述的基于梯度下降方法比对学习的语料知识库自学习方法。

10.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有计算机程序，该计算机程序被服务器执行时实现如权利要求1-7任一所述的基于梯度下降方法比对学习的语料知识库自学习方法。