[go: up one dir, main page]

CN115906817A - 一种跨语言环境的关键字匹配方法、装置及电子设备 - Google Patents

一种跨语言环境的关键字匹配方法、装置及电子设备 Download PDF

Info

Publication number
CN115906817A
CN115906817A CN202211694398.4A CN202211694398A CN115906817A CN 115906817 A CN115906817 A CN 115906817A CN 202211694398 A CN202211694398 A CN 202211694398A CN 115906817 A CN115906817 A CN 115906817A
Authority
CN
China
Prior art keywords
target language
keywords
matching
language
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211694398.4A
Other languages
English (en)
Inventor
朱永强
郑童瀚
彭永彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Wangan Technology Development Co ltd
Original Assignee
Chengdu Wangan Technology Development Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Wangan Technology Development Co ltd filed Critical Chengdu Wangan Technology Development Co ltd
Priority to CN202211694398.4A priority Critical patent/CN115906817A/zh
Publication of CN115906817A publication Critical patent/CN115906817A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Machine Translation (AREA)

Abstract

本申请实施例提供的跨语言环境的关键字匹配方法、装置及电子设备,涉及信息检索技术领域。首先,获取用于匹配目标语言文本的源语言关键字;接着,对源语言关键字进行分词处理,将源语言关键字分类为短关键字串或长关键字串;然后,在源语言关键字为短关键字串时,通过词义扩展进行关键字跨语言匹配以优化源语言关键字精确匹配的漏报问题;在语言关键字为长关键字串时,基于语义级模糊匹配技术进行源语言关键字跨语言匹配,结合语义匹配值与匹配段的目标文本整体相关性计算关键字的整体匹配度,以综合考虑源语言关键字的整体匹配度与局部匹配度。上述方案可以基于源语言关键字分类采用不同的匹配策略,确保匹配结果的准确性。

Description

一种跨语言环境的关键字匹配方法、装置及电子设备
技术领域
本申请涉及信息检索技术领域,具体而言,涉及一种跨语言环境的关键字匹配方法、装置及电子设备。
背景技术
在信息检索过程中,用户不可避免的会涉及到非母语文本信息的检索,这对不精通其它非母语的用户而言是一个极大的挑战,用户在输入母语关键字后检索到的非母语文本信息可能和用户期望的内容信息相差甚远或者存在漏检过多的情况,如何提高该类跨语言环境的信息检索准确率是本领域技术人员急需要解决的技术问题。
发明内容
为了解决上述技术问题,本申请提供一种跨语言环境的关键字匹配方法、装置及电子设备。
第一方面,本申请实施例提供一种跨语言环境的关键字匹配方法,所述方法包括:
获取用于匹配目标语言文本的源语言关键字,其中,目标语言和源语言为不同的语言;
对所述源语言关键字进行分词处理,基于分词结果将所述源语言关键字划分为短关键字串或长关键字串;
在所述源语言关键字为所述短关键字串时,基于所述源语言关键字得到与所述源语言关键字对应的目标语言同义关键字组,采用所述目标语言同义关键字组对所述目标语言文本进行匹配,将包括所述目标语言同义关键字组中关键字的目标语言文本作为目标语言匹配文本;
在所述源语言关键字为所述长关键字串时,将所述目标语言文本进行分段处理得到所述目标语言文本的分段集,采用所述源语言关键字对应的目标语言关键字与所述分段集中的分段进行匹配,将包括与所述目标语言关键字匹配的分段所对应的目标语言文本作为目标语言匹配文本。
在一种可能的实现方式中,所述对所述源语言关键字进行分词处理,得到短关键字串和长关键字串的步骤,包括:
对所述源语言关键字采用最长分词策略进行分词,得到源语言关键字词序列;
基于所述源语言关键字词序列中包含的词数,将所述源语言关键字分类为短关键字串或长关键字串。
在一种可能的实现方式中,所述在所述源语言关键字为所述短关键字串时,基于所述源语言关键字得到与所述源语言关键字对应的目标语言同义关键字组,采用所述目标语言同义关键字组对所述目标语言文本进行匹配,将包括所述目标语言同义关键字组中关键字的目标语言文本作为目标语言匹配文本的步骤,包括:
在所述源语言关键字为所述短关键字串时,采用同义词词典对所述源语言关键字进行词义扩展,得到所述源语言关键字的同义关键字组;
采用所述目标语言对所述同义关键字组中的关键字进行翻译,得到所述同义关键字组对应的目标语言同义关键字组;
将所述目标语言同义关键字组中的关键字依次输入不同的目标语言文本中进行模式匹配,得到不同所述目标语言文本与所述目标语言同义关键字组中的关键字的匹配信息,其中,所述匹配信息包括所述目标语言文本命中所述目标语言同义关键字组中的关键字、命中关键字的次数、命中关键字在所述目标语言文本中的位置及所述目标语言文本命中不同关键字的个数;
将存在所述匹配信息的目标语言文本作为所述源语言关键字的目标语言匹配文本。
在一种可能的实现方式中,所述在所述源语言关键字为所述长关键字串时,将所述目标语言文本进行分段处理得到所述目标语言文本的分段集,采用所述源语言关键字对应的目标语言关键字与所述分段集中的分段进行匹配,将包括与所述目标语言关键字匹配的分段所对应的目标语言文本作为目标语言匹配文本的步骤,包括:
在所述源语言关键字为所述长关键字串时,将所述目标语言文本进行分段处理得到所述目标语言文本的分段集;
采用所述目标语言对所述源语言关键字进行翻译得到目标语言关键字;
计算所述目标语言关键字与所述分段集中各分段的语义匹配参数;
计算所述目标语言关键字与所述目标语言文本之间的整体相关性参数;
基于所述语义匹配参数和所述整体相关性参数计算得到所述目标语言关键字与所述目标语言文本之间整体匹配的匹配度参数;
将所述匹配度参数与预设的匹配度阈值进行比较,在所述匹配度参数大于所述预设的匹配度阈值时,将所述目标语言文本作为与所述源语言关键字匹配的目标语言匹配文本。
在一种可能的实现方式中,所述将所述目标语言文本进行分段处理得到所述目标语言文本的分段集的步骤,包括:
对所述目标语言文本进行去噪处理;
采用预设的标点符号对去噪处理后的目标语言文本进行分段处理,得到所述目标语言文本的分段集,其中,在所述目标语言为英语或中文时,所述预设的标点符号包括句号、感叹号、问号、制表符、换行符、分号、逗号中的一种或者多种组合。
在一种可能的实现方式中,所述计算所述目标语言关键字与所述分段集中各分段的语义匹配参数的步骤,包括:
采用同一所述目标语言关键字对所述目标语言文本的分段集逐段进行语义匹配,计算得到所述分段集中各分段与所述同一目标语言关键字之间的语义相似度值,并将所述分段集中各分段与所述同一目标语言关键字之间的语义相似度值中的最大值作为所述分段集中分段与所述同一目标语言关键字之间的最大语义相似度值;
将所述分段集中分段与所述目标语言关键字之间的最大语义相似度值进行归一化处理,得到归一化语义相似度值,其中,所述最大归一化语义相似度值等于所述最大语义相似度值与相似度理论的最小值之差与相似度理论最大值与相似度理论的最小值之差的比值;
将所述最大归一化语义相似度值与预先设定的归一化语义相似度域值进行比较,在所述最大归一化语义相似度值小于所述预先设定的归一化语义相似度域值时,判定所述目标语言文本的分段集中不存在与所述目标语言关键字匹配的分段;在所述最大归一化语义相似度值大于或等于所述预先设定的归一化语义相似度域值时,判定所述目标语言文本的分段集中存在与所述目标语言关键字匹配的分段,并将所述最大归一化语义相似度值作为所述目标语言关键字与所述分段集中各分段的语义匹配参数。
在一种可能的实现方式中,所述计算所述目标语言关键字与所述目标语言文本之间的整体相关性参数的步骤,包括:
在向量空间模型中,以词的词频-逆文本频率指数作为权重,计算所述目标语言关键字与所述目标语言文本之间的余弦相似度,采用所述余弦相似度作为所述目标语言关键字与所述目标语言文本之间的整体相关性参数;其中,向量空间模型基于目标语言库中的语料集构建而成。
在一种可能的实现方式中,所述基于所述语义匹配参数和所述整体相关性参数计算得到所述目标语言关键字与所述目标语言文本之间整体匹配的匹配度参数的步骤,包括:
对所述语义匹配参数和所述整体相关性参数进行加权求和得到所述目标语言关键字与所述目标语言文本之间整体匹配的匹配度参数;
所述匹配度参数M的计算公式如下:
M=α*L+β*N
其中,α和β为经验参数,α和β根据所述目标语言关键字对所述目标语言文本的分段集逐段进行语义匹配时所使用的算法进行调整,L为所述语义匹配参数,N为所述整体相关性参数。
第二方面,本申请实施例还提供一种跨语言环境的关键字匹配装置,所述装置包括:
获取模块,用于获取用于匹配目标语言文本的源语言关键字,其中,目标语言与源语言为不同的语言;
分词与划分模块,用于对所述源语言关键字进行分词处理,基于分词结果将所述源语言关键字划分为短关键字串或长关键字串;
匹配模块,用于在所述源语言关键字为所述短关键字串时,基于所述源语言关键字得到与所述源语言关键字对应的目标语言同义关键字组,采用所述目标语言同义关键字组对所述目标语言文本进行匹配,将包括所述目标语言同义关键字组中关键字的目标语言文本作为目标语言匹配文本;
所述匹配模块,用于在所述源语言关键字为所述长关键字串时,将所述目标语言文本进行分段处理得到所述目标语言文本的分段集,采用所述源语言关键字对应的目标语言关键字与所述分段集中的分段进行匹配,将包括与所述目标语言关键字匹配的分段所对应的目标语言文本作为目标语言匹配文本。
第三方面,本申请实施例还提供一种电子设备,所述电子设备包括处理器、通信单元及计算机可读存储介质,所述处理器及所述计算机可读存储介质之间通过总线系统连接,所述通信单元用于与其他电子设备连接以实现相互之间的数据交互,所述计算机可读存储介质用于存储程序、指令或代码,所述处理器用于执行所述计算机可读存储介质中的程序、指令或代码,以实现第一方面中任意一个可能的实现方式中的跨语言环境的关键字匹配方法。
第四方面,本申请实施例提供一种计算机可读存储介质,计算机可读存储介质中存储有指令,当其被执行时,使得电子设备执行上述第一方面或者第一方面中任意一个可能的实现方式中的跨语言环境的关键字匹配方法。
基于上述任意一个方面,本申请实施例提供的一种跨语言环境的关键字匹配方法、装置及电子设备,首先,获取用于匹配目标语言文本的源语言关键字;接着,对源语言关键字进行分词处理,将源语言关键字分类为短关键字串或长关键字串;然后,在源语言关键字为短关键字串时,通过词义扩展进行关键字跨语言匹配以优化源语言关键字精确匹配的漏报问题;在语言关键字为长关键字串时,基于语义级模糊匹配技术进行源语言关键字跨语言匹配,优化源语言关键字精确匹配的局限性及漏报问题,结合语义匹配值与匹配段的目标文本整体相关性计算关键字的整体匹配度,以综合考虑源语言关键字的整体匹配度与局部匹配度。上述方案可以基于源语言关键字分类采用不同的匹配策略,确保匹配结果的准确性。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要调用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它相关的附图。
图1为本申请实施例提供的跨语言环境的关键字匹配方法的流程示意图;
图2为图1中步骤S13的子步骤流程示意图;
图3为图1中步骤S14的子步骤流程示意图;
图4为本申请实施例提供的跨语言环境的关键字匹配装置的功能模块示意图;
图5为本申请实施例提供的电子设备的可能结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,应当理解,本申请中附图仅起到说明和描述的目的,并不用于限定本申请的保护范围。另外,应当理解,示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请实施例的一些实施例实现的操作。应该理解,流程图的操作可以不按顺序实现,没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外,本领域技术人员在本申请内容的指引下,可以向流程图添加一个或多个其它操作,也可以从流程图中移除一个或多个操作。
另外,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其它实施例,都属于本申请保护的范围。
为了解决背景技术中提及的技术问题,现有技术提供以下两种可能的解决方案。
第一种方案是将目标语言文本原文翻译为源语言的译文,再使用源语言关键字匹配方法进行匹配。第二种方案是将目标语言文本和源语言关键字均采用中间语言进行翻译,再将翻译后的源语言关键字与翻译后的目标语言文本进行匹配。
发明人研究发现,在第一种方案中,因一般应用环境下,目标语言文本的内容往往较大,因此第一种方案需要完成的工作量较大,但该方案能最大限度的保留目标语言文本中的文本信息及上下文信息,有助于翻译消歧,提升翻译的准确性。这种方案的好处包括:第一、检索结果的语种与匹配使用的语种一致,便于用户在后续能够方便的选择自己需要进行匹配的信息;第二,目标语言文本翻译保留了更加宽泛的上下文语境,有利于翻译消歧。这种方案的缺点包括:第一,需要翻译的目标语言文本很多,造成了一定的工作量,翻译成本很高;第二,在翻译过程中需要用到机器翻译技术,然而现有的机器翻译技术还无法保证大量翻译的准确度,可能会造成大量的翻译错误,尤其是翻译的内容越多时,可能的翻译错误也越多,尤其可能因为翻译错误导致无法被源语言关键字匹配;第三,由于翻译的工作量太大,也会减慢系统的运行速度。
在第二种方案中,中间语言会选择一种最常使用的语言,比如被广泛使用的英语。第二种方案中可以用于源语言关键字和目标语言文本之间不能相互转换的情况,换句话说,用于源语言关键字的语种和目标语言文本的语种之间没有对应关系的翻译资源。此时,需要借助另外一种中间语言,将这两种语言都转换成这种中间语言,然后再检索相关信息。或者将查询的源语言借助这种中间语言翻译成目标语言文本对应的语言,然后再在目标语言文本上检索相关信息,第二种方案也存在第一种方案中存在的问题,且效率会更低。
为了解决上述方案中翻译工作量大,翻译成本高以及匹配效率低的技术问题,本申请实施例提供一种跨语言环境的关键字匹配方法用于解决上述技术问题,请参照图1,图1示例了本申请实施例提供的跨语言环境的关键字匹配方法的流程示意图,该跨语言环境的关键字匹配方法由电子设备执行,该方法中的部分步骤的顺序可以根据实际需要相互交换,或者其中的部分步骤也可以省略或删除,跨语言环境的关键字匹配方法的详细步骤介绍如下。
步骤S11,获取用于匹配目标语言文本的源语言关键字。
在本申请实施例中,电子设备可以通过用户在显示界面上输入源语言关键字的方式获得源语言关键字,也可以通过导入包括源语言关键字的表获得源语言关键字。
目标语言和源语言为不同的语言,例如,目标语言可以为英语,源语言可以为中文。
步骤S12,对源语言关键字进行分词处理,基于分词结果将源语言关键字划分为短关键字串或长关键字串。
在本步骤中,首先,在分词处理前,可以对源语言关键字中非检索用词(比如停用词)进行去除;接着,对源语言关键字采用最长分词策略进行分词,得到源语言关键字词序列;然后,基于源语言关键字词序列中包含的词数,将源语言关键字分类为短关键字串或长关键字串。
在本申请实施例中,可以采用通用的分词工具或方法进行分词,以源语言为中文为例,可以采用基于双数组Trie树法进行分词。短关键字串是包括的基本词的数量为一个的关键字串,长关键字串是包括的基本词的数量为至少两个的关键字串。
步骤S13,在源语言关键字为短关键字串时,基于源语言关键字得到与源语言关键字对应的目标语言同义关键字组,采用目标语言同义关键字组对目标语言文本进行匹配,将包括目标语言同义关键字组中关键字的目标语言文本作为目标语言匹配文本。
步骤S14,在源语言关键字为长关键字串时,将目标语言文本进行分段处理得到目标语言文本的分段集,采用源语言关键字对应的目标语言关键字与分段集中的分段进行匹配,将包括与目标语言关键字匹配的分段所对应的目标语言文本作为目标语言匹配文本。
上述提供的方案,将源语言关键字翻译成目标语言进行匹配,源语言关键字的文字较少翻译耗时短。另外,在源语言关键字为短关键字串时,通过词义扩展进行关键字跨语言匹配以优化源语言关键字精确匹配的漏报问题;在语言关键字为长关键字串时,基于语义级模糊匹配技术进行源语言关键字跨语言匹配,优化源语言关键字精确匹配的局限性及漏报问题,结合语义匹配值与匹配段的目标文本整体相关性计算关键字的整体匹配度,以综合考虑源语言关键字的整体匹配度与局部匹配度。上述方案可以基于源语言关键字分类采用不同的匹配策略,确保匹配结果的准确性。
进一步地,请参照图2,在本申请实施例中,步骤S13可以通过以下子步骤实现。
子步骤S131,在源语言关键字为短关键字串时,采用同义词词典对源语言关键字进行词义扩展,得到源语言关键字的同义关键字组。
同义词词典可以是成熟的自然语言处理(Natural Language Processing,NLP)辅助工具,比如,在源语言为中文时,同义词词典可以是诸如《同义词词林》之类的辅助工具,可以理解的是,在本申请实施例中,同义关键字组可以包括源语言关键字和源语言关键字的同义词,也可以只包括源语言关键字本身。
子步骤S132,采用目标语言对同义关键字组中的关键字进行翻译,得到同义关键字组对应的目标语言同义关键字组。
在本申请实施例中,可以采用机器翻译工具对同义关键字组中的关键字进行翻译,并对翻译后目标语言同义关键字组中重复的结果进行去重处理,其中机器翻译工具可以采用现有成熟的翻译工具实现,在此就不再对其进行具体介绍。
子步骤S133,将目标语言同义关键字组中的关键字依次输入不同的目标语言文本中进行模式匹配,得到不同目标语言文本与目标语言同义关键字组中的关键字的匹配信息。
在该步骤中,采用精确匹配的方式进行模式匹配,示例性地,匹配方法可以采用AC算法、BM算法等精确单模式或多模式匹配算法。匹配信息包括目标语言文本命中目标语言同义关键字组中的关键字、命中关键字的次数、命中关键字在目标语言文本中的位置及目标语言文本命中不同关键字的个数等。
子步骤S134,将存在匹配信息的目标语言文本作为源语言关键字的目标语言匹配文本。
进一步地,请参照图3,在本申请实施例中,步骤S14可以通过以下子步骤实现。
子步骤S141,在源语言关键字为所述长关键字串时,将目标语言文本进行分段处理得到目标语言文本的分段集。
子步骤S142,采用目标语言对源语言关键字进行翻译得到目标语言关键字。
在本子步骤中,可以先对目标语言文本进行去噪处理,然后再采用预设的标点符号对去噪处理后的目标语言文本进行分段处理,得到目标语言文本的分段集,分段集中各分段的长度位于一长度区间内。示例性地,在本申请实施例中,在目标语言为英语或中文时,所述预设的标点符号包括句号、感叹号、问号、制表符、换行符、分号、逗号中的一种或者多种组合。
子步骤S143,计算目标语言关键字与分段集中各分段的语义匹配参数。
在本申请实施例中,子步骤S143可以通过以下方式实现。
首先,采用所述同一目标语言关键字对所述目标语言文本的分段集逐段进行语义匹配,计算得到所述分段集中各分段与所述同一目标语言关键字之间的语义相似度值。并将所述分段集中各分段与所述同一目标语言关键字之间的语义相似度值中的最大值作为所述分段集中分段与所述同一目标语言关键字之间的最大语义相似度值。
接着,将所述分段集中分段与所述同一目标语言关键字之间的最大语义相似度值K进行归一化处理,得到最大归一化语义相似度值L,其中,所述最大归一化语义相似度值L等于所述最大语义相似度值K与相似度理论的最小值之差与相似度理论最大值与相似度理论的最小值之差的比值。
最后,将所述最大归一化语义相似度值L与预先设定的归一化语义相似度域值P进行比较,在所述最大归一化语义相似度值L小于所述预先设定的归一化语义相似度域值P时,判定所述目标语言文本的分段集中不存在与所述目标语言关键字匹配的分段;在所述最大归一化语义相似度值L大于或等于所述预先设定的归一化语义相似度域值P时,判定所述目标语言文本的分段集中存在与所述目标语言关键字匹配的分段,并将所述最大归一化语义相似度值L作为所述目标语言关键字与所述分段集中各分段的语义匹配参数。
子步骤S144,计算目标语言关键字与目标语言文本之间的整体相关性参数。
在本申请实施例中,在向量空间模型(VSM)中,以词的词频-逆文本频率指数(TF-IDF值)作为权重,计算目标语言关键字与目标语言文本之间的余弦相似度N,采用所述余弦相似度作为所述目标语言关键字与所述目标语言文本之间的整体相关性参数;其中,向量空间模型基于目标语言库中的语料集构建而成,示例性地,在目标语言为英语时,向量空间模型基于英文语料库选用Newsgroups语料集进行构建,向量空间模型的空间维度可以设定,比如设置为5000维。
子步骤S145,基于语义匹配参数和整体相关性参数计算得到目标语言关键字与目标语言文本之间整体匹配的匹配度参数。
在本申请实施例中,对所述语义匹配参数和所述整体相关性参数进行加权求和得到所述目标语言关键字与所述目标语言文本之间整体匹配的匹配度参数;
所述匹配度参数M的计算公式如下:
M=α*L+β*N
其中,α和β为经验参数,α和β根据所述目标语言关键字对所述目标语言文本的分段集逐段进行语义匹配时所使用的算法进行调整,L为所述语义匹配参数,N为所述整体相关性参数。上述公式中α*L表示源语言关键字对目标语言文本局部的最高语义匹配程度,β*N表示源语言关键字在目标语言文本中发生匹配的合理性及整体相关性。
子步骤S146,将匹配度参数与预设的匹配度阈值进行比较,在匹配度参数大于预设的匹配度阈值时,将目标语言文本作为与源语言关键字匹配的目标语言匹配文本。
例如,匹配度参数M与预设的匹配度阈值Q进行比较,如果匹配度参数M大于预设的匹配度阈值Q,则判定目标语言文本与源语言关键字匹配,并将目标语言文本作为与源语言关键字匹配的目标语言匹配文本;如果匹配度参数M小于或等于预设的匹配度阈值Q,则判定目标语言文本与源语言关键字不匹配。其中,预设的匹配度阈值Q为一经验值,预设的匹配度阈值Q可以根据α、β以及语义相似度计算所使用的具体算法进行调整。
请参照图4,图4为本申请实施例提供的跨语言环境的关键字匹配装置200的一种功能模块示意图,本申请实施例可以根据服务器执行的方法实施例对跨语言环境的关键字匹配装置200进行功能模块的划分,也即该跨语言环境的关键字匹配装置200所对应的以下各个功能模块可以用于执行上述各个方法实施例。其中,该跨语言环境的关键字匹配装置200可以包括获取模块210、分词与划分模块220及匹配模块230。下面分别对该跨语言环境的关键字匹配装置200的各个功能模块的功能进行详细阐述。
获取模块210,用于获取用于匹配目标语言文本的源语言关键字。
在本申请实施例中,获取模块210可以通过用户在显示界面上输入源语言关键字的方式获得源语言关键字,也可以通过导入包括源语言关键字的表获得源语言关键字。
目标语言和源语言为不同的语言,例如,目标语言可以为英语,源语言可以为中文。
本申请实施例中,获取模块210可以用于执行上述的步骤S11,关于获取模块210的详细实现方式可以参照上述针对步骤S11的详细描述。
分词与划分模块220,用于对源语言关键字进行分词处理,基于分词结果将源语言关键字划分为短关键字串或长关键字串。
在本申请实施例中,分词与划分模块220通过以下过程实现。
首先,在分词处理前,可以对源语言关键字中非检索用词(比如停用词)进行去除;接着,对源语言关键字采用最长分词策略进行分词,得到源语言关键字词序列;然后,基于源语言关键字词序列中包含的词数,将源语言关键字分类为短关键字串或长关键字串。
在本申请实施例中,可以采用通用的分词工具或方法进行分词,以源语言为中文为例,可以采用基于双数组Trie树法进行分词。短关键字串是包括的基本词的数量为一个的关键字串,长关键字串是包括的基本词的数量为至少两个的关键字串。
本申请实施例中,分词与划分模块220可以用于执行上述的步骤S12,关于分词与划分模块220的详细实现方式可以参照上述针对步骤S12的详细描述。
匹配模块230,用于在源语言关键字为短关键字串时,基于源语言关键字得到与源语言关键字对应的目标语言同义关键字组,采用目标语言同义关键字组对目标语言文本进行匹配,将包括目标语言同义关键字组中关键字的目标语言文本作为目标语言匹配文本。
匹配模块230,用于在源语言关键字为长关键字串时,将目标语言文本进行分段处理得到目标语言文本的分段集,采用源语言关键字对应的目标语言关键字与分段集中的分段进行匹配,将包括与目标语言关键字匹配的分段所对应的目标语言文本作为目标语言匹配文本。
本申请实施例中,匹配模块230在不同情况下可以用于执行上述的步骤S13或步骤S14,关于匹配模块230在不同情况下实现的功能可以对应参照上述针对步骤S13和步骤S14的详细描述。
需要说明的是,应理解以上装置或系统中的各个模块的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以在物理上分开。且这些模块可以全部以软件(比如,开源软件)可以通过处理器调用的形式实现;也可以全部以硬件的形式实现;还可以部分模块通过处理器调用软件的形式实现,部分模块通过硬件的形式实现。作为一种示例,匹配模块230可以由单独处理器运行实现,可以以程序代码的形式存储于上述装置或系统的存储器中,由上述装置或系统的某一个处理器调用并执行以上匹配模块230的功能,其它模块的实现与之类似,在此就不再赘述。
请参照图5,图5示出了本公开实施例提供的用于实现上述的跨语言环境的关键字匹配方法的电子设备100的硬件结构示意图。如图5所示,电子设备100可包括处理器110、计算机可读存储介质120、总线130及通信单元140。
在具体实现过程中,处理器110执行计算机可读存储介质120存储的计算机执行指令(例如图4中所示的跨语言环境的关键字匹配装置200中的各个模块),使得处理器110可以执行如上方法实施例的跨语言环境的关键字匹配方法,其中,处理器110和计算机可读存储介质120可以通过总线130连接。
处理器110的具体实现过程可参见上述电子设备100执行的各个方法实施例,其实现原理和技术效果类似,本申请实施例此处不再赘述。
计算机可读存储介质120可以是,但不限于,随机存取存储器(Random AccessMemory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(ProgrammableRead-Only Memory,PROM),可擦除只读存储器(Erasable Programmable Read-OnlyMemory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-OnlyMemory,EEPROM)等。其中,存储器110用于存储程序或者数据。
总线130可以分为地址总线、数据总线、控制总线等。为便于表示,本申请附图中的总线并不限定仅有一根总线或一种类型的总线。
在本申请实施例提供的交互场景中,通信单元140可用于与电子设备100及其他电子设备之间的通信,以实现电子设备100与其他电子设备之间的数据交互,比如,电子设备100通过通信单元140从其他电子设备中获取匹配的目标语言文本。
此外,本申请实施例还提供一种可读存储介质,所述可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如上所述的跨语言环境的关键字匹配方法。
综上所述,本申请实施例提供的跨语言环境的关键字匹配方法、装置及电子设备,首先,获取用于匹配目标语言文本的源语言关键字;接着,对源语言关键字进行分词处理,将源语言关键字分类为短关键字串或长关键字串;然后,在源语言关键字为短关键字串时,通过词义扩展进行关键字跨语言匹配以优化源语言关键字精确匹配的漏报问题;在语言关键字为长关键字串时,基于语义级模糊匹配技术进行源语言关键字跨语言匹配,优化源语言关键字精确匹配的局限性及漏报问题,结合语义匹配值与匹配段的目标文本整体相关性计算关键字的整体匹配度,以综合考虑源语言关键字的整体匹配度与局部匹配度。上述方案可以基于源语言关键字分类采用不同的匹配策略,确保匹配结果的准确性。
以上所描述的实施例仅仅是本申请的一部分实施例,而不是全部的实施例。通常在附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,在附图中提供的本申请的实施例的详细描述并非旨在限制本申请的保护范围,而仅仅是表示本申请的选定实施例。基于此,本申请的保护范围应以权利要求的保护范围为准。此外,基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下可获得的所有其它实施例,都应属于本申请保护的范围。

Claims (10)

1.一种跨语言环境的关键字匹配方法,其特征在于,所述方法包括:
获取用于匹配目标语言文本的源语言关键字,其中,目标语言和源语言为不同的语言;
对所述源语言关键字进行分词处理,基于分词结果将所述源语言关键字划分为短关键字串或长关键字串;
在所述源语言关键字为所述短关键字串时,基于所述源语言关键字得到与所述源语言关键字对应的目标语言同义关键字组,采用所述目标语言同义关键字组对所述目标语言文本进行匹配,将包括所述目标语言同义关键字组中关键字的目标语言文本作为目标语言匹配文本;
在所述源语言关键字为所述长关键字串时,将所述目标语言文本进行分段处理得到所述目标语言文本的分段集,采用所述源语言关键字对应的目标语言关键字与所述分段集中的分段进行匹配,将包括与所述目标语言关键字匹配的分段所对应的目标语言文本作为目标语言匹配文本。
2.如权利要求1所述的跨语言环境的关键字匹配方法,其特征在于,所述对所述源语言关键字进行分词处理,得到短关键字串和长关键字串的步骤,包括:
对所述源语言关键字采用最长分词策略进行分词,得到源语言关键字词序列;
基于所述源语言关键字词序列中包含的词数,将所述源语言关键字分类为短关键字串或长关键字串。
3.如权利要求1所述的跨语言环境的关键字匹配方法,其特征在于,所述在所述源语言关键字为所述短关键字串时,基于所述源语言关键字得到与所述源语言关键字对应的目标语言同义关键字组,采用所述目标语言同义关键字组对所述目标语言文本进行匹配,将包括所述目标语言同义关键字组中关键字的目标语言文本作为目标语言匹配文本的步骤,包括:
在所述源语言关键字为所述短关键字串时,采用同义词词典对所述源语言关键字进行词义扩展,得到所述源语言关键字的同义关键字组;
采用所述目标语言对所述同义关键字组中的关键字进行翻译,得到所述同义关键字组对应的目标语言同义关键字组;
将所述目标语言同义关键字组中的关键字依次输入不同的目标语言文本中进行模式匹配,得到不同所述目标语言文本与所述目标语言同义关键字组中的关键字的匹配信息,其中,所述匹配信息包括所述目标语言文本命中所述目标语言同义关键字组中的关键字、命中关键字的次数、命中关键字在所述目标语言文本中的位置及所述目标语言文本命中不同关键字的个数;
将存在所述匹配信息的目标语言文本作为所述源语言关键字的目标语言匹配文本。
4.如权利要求1所述的跨语言环境的关键字匹配方法,其特征在于,所述在所述源语言关键字为所述长关键字串时,将所述目标语言文本进行分段处理得到所述目标语言文本的分段集,采用所述源语言关键字对应的目标语言关键字与所述分段集中的分段进行匹配,将包括与所述目标语言关键字匹配的分段所对应的目标语言文本作为目标语言匹配文本的步骤,包括:
在所述源语言关键字为所述长关键字串时,将所述目标语言文本进行分段处理得到所述目标语言文本的分段集;
采用所述目标语言对所述源语言关键字进行翻译得到目标语言关键字;
计算所述目标语言关键字与所述分段集中各分段的语义匹配参数;
计算所述目标语言关键字与所述目标语言文本之间的整体相关性参数;
基于所述语义匹配参数和所述整体相关性参数计算得到所述目标语言关键字与所述目标语言文本之间整体匹配的匹配度参数;
将所述匹配度参数与预设的匹配度阈值进行比较,在所述匹配度参数大于所述预设的匹配度阈值时,将所述目标语言文本作为与所述源语言关键字匹配的目标语言匹配文本。
5.如权利要求4所述的跨语言环境的关键字匹配方法,其特征在于,所述将所述目标语言文本进行分段处理得到所述目标语言文本的分段集的步骤,包括:
对所述目标语言文本进行去噪处理;
采用预设的标点符号对去噪处理后的目标语言文本进行分段处理,得到所述目标语言文本的分段集,其中,在所述目标语言为英语或中文时,所述预设的标点符号包括句号、感叹号、问号、制表符、换行符、分号、逗号中的一种或者多种组合。
6.如权利要求5所述的跨语言环境的关键字匹配方法,其特征在于,所述计算所述目标语言关键字与所述分段集中各分段的语义匹配参数的步骤,包括:
采用同一所述目标语言关键字对所述目标语言文本的分段集逐段进行语义匹配,计算得到所述分段集中各分段与所述同一目标语言关键字之间的语义相似度值,并将所述分段集中各分段与所述同一目标语言关键字之间的语义相似度值中的最大值作为所述分段集中分段与所述同一目标语言关键字之间的最大语义相似度值;
将所述分段集中分段与所述同一目标语言关键字之间的最大语义相似度值进行归一化处理,得到最大归一化语义相似度值,其中,所述最大归一化语义相似度值等于所述最大语义相似度值与相似度理论的最小值之差与相似度理论最大值与相似度理论的最小值之差的比值;
将所述最大归一化语义相似度值与预先设定的归一化语义相似度域值进行比较,在所述最大归一化语义相似度值小于所述预先设定的归一化语义相似度域值时,判定所述目标语言文本的分段集中不存在与所述目标语言关键字匹配的分段;在所述最大归一化语义相似度值大于或等于所述预先设定的归一化语义相似度域值时,判定所述目标语言文本的分段集中存在与所述目标语言关键字匹配的分段,并将所述最大归一化语义相似度值作为所述目标语言关键字与所述分段集中各分段的语义匹配参数。
7.如权利要求6所述的跨语言环境的关键字匹配方法,其特征在于,所述计算所述目标语言关键字与所述目标语言文本之间的整体相关性参数的步骤,包括:
在向量空间模型中,以词的词频-逆文本频率指数作为权重,计算所述目标语言关键字与所述目标语言文本之间的余弦相似度,采用所述余弦相似度作为所述目标语言关键字与所述目标语言文本之间的整体相关性参数;其中,向量空间模型基于目标语言库中的语料集构建而成。
8.如权利要求7所述的跨语言环境的关键字匹配方法,其特征在于,所述基于所述语义匹配参数和所述整体相关性参数计算得到所述目标语言关键字与所述目标语言文本之间整体匹配的匹配度参数的步骤,包括:
对所述语义匹配参数和所述整体相关性参数进行加权求和得到所述目标语言关键字与所述目标语言文本之间整体匹配的匹配度参数;
所述匹配度参数M的计算公式如下:
M=α*L+β*N
其中,α和β为经验参数,α和β根据所述目标语言关键字对所述目标语言文本的分段集逐段进行语义匹配时所使用的算法进行调整,L为所述语义匹配参数,N为所述整体相关性参数。
9.一种跨语言环境的关键字匹配装置,其特征在于,所述装置包括:
获取模块,用于获取用于匹配目标语言文本的源语言关键字,其中,目标语言与源语言为不同的语言;
分词与划分模块,用于对所述源语言关键字进行分词处理,基于分词结果将所述源语言关键字划分为短关键字串或长关键字串;
匹配模块,用于在所述源语言关键字为所述短关键字串时,基于所述源语言关键字得到与所述源语言关键字对应的目标语言同义关键字组,采用所述目标语言同义关键字组对所述目标语言文本进行匹配,将包括所述目标语言同义关键字组中关键字的目标语言文本作为目标语言匹配文本;
所述匹配模块,用于在所述源语言关键字为所述长关键字串时,将所述目标语言文本进行分段处理得到所述目标语言文本的分段集,采用所述源语言关键字对应的目标语言关键字与所述分段集中的分段进行匹配,将包括与所述目标语言关键字匹配的分段所对应的目标语言文本作为目标语言匹配文本。
10.一种电子设备,其特征在于,所述电子设备包括处理器、通信单元及计算机可读存储介质,所述处理器及所述计算机可读存储介质之间通过总线系统连接,所述通信单元用于与其他电子设备连接以实现相互之间的数据交互,所述计算机可读存储介质用于存储程序、指令或代码,所述处理器用于执行所述计算机可读存储介质中的程序、指令或代码,以实现权利要求1-8中任意一项所述的跨语言环境的关键字匹配方法。
CN202211694398.4A 2022-12-28 2022-12-28 一种跨语言环境的关键字匹配方法、装置及电子设备 Pending CN115906817A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211694398.4A CN115906817A (zh) 2022-12-28 2022-12-28 一种跨语言环境的关键字匹配方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211694398.4A CN115906817A (zh) 2022-12-28 2022-12-28 一种跨语言环境的关键字匹配方法、装置及电子设备

Publications (1)

Publication Number Publication Date
CN115906817A true CN115906817A (zh) 2023-04-04

Family

ID=86472938

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211694398.4A Pending CN115906817A (zh) 2022-12-28 2022-12-28 一种跨语言环境的关键字匹配方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN115906817A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116187307A (zh) * 2023-04-27 2023-05-30 吉奥时空信息技术股份有限公司 一种政务文章标题关键字提取方法、设备及存储设备

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116187307A (zh) * 2023-04-27 2023-05-30 吉奥时空信息技术股份有限公司 一种政务文章标题关键字提取方法、设备及存储设备

Similar Documents

Publication Publication Date Title
CN108304378B (zh) 文本相似度计算方法、装置、计算机设备和存储介质
EP3819785A1 (en) Feature word determining method, apparatus, and server
CN111177532A (zh) 一种垂直搜索方法、装置、计算机系统及可读存储介质
CN111046142A (zh) 文本审查方法、装置、电子设备及计算机存储介质
De Amorim et al. Effective spell checking methods using clustering algorithms
CN112633000B (zh) 一种文本中实体的关联方法、装置、电子设备及存储介质
CN113434636A (zh) 基于语义的近似文本搜索方法、装置、计算机设备及介质
WO2018056423A1 (ja) シナリオパッセージ分類器、シナリオ分類器、及びそのためのコンピュータプログラム
CN114330335B (zh) 关键词抽取方法、装置、设备及存储介质
CN112035480A (zh) 数据表管理方法、装置、设备及存储介质
Zhou et al. Augmenting bug localization with part-of-speech and invocation
US11630824B2 (en) Document search method and document search system
CN113988157A (zh) 语义检索网络训练方法、装置、电子设备及存储介质
CN116108230A (zh) 长关键字串匹配方法、装置及计算机可读存储介质
CN110705285B (zh) 一种政务文本主题词库构建方法、装置、服务器及可读存储介质
CN113609847A (zh) 信息抽取方法、装置、电子设备及存储介质
CN112926297A (zh) 处理信息的方法、装置、设备和存储介质
CN115906817A (zh) 一种跨语言环境的关键字匹配方法、装置及电子设备
CN112395866B (zh) 报关单数据匹配方法及装置
CN114969385B (zh) 基于文档属性赋值实体权重的知识图谱优化方法及装置
CN109344385B (zh) 自然语言处理方法、装置、计算机设备和存储介质
CN110633471A (zh) 一种基于PubMed数据库的英文分词处理系统及方法
CN115859954A (zh) 一种跨语言环境的检索结果排序方法、装置及电子设备
CN112434515B (zh) 语句压缩方法、装置、电子设备及可读存储介质
US20220318503A1 (en) Method and apparatus for identifying instruction, and screen for voice interaction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination