[go: up one dir, main page]

CN102184169B - 用于确定字符串信息间相似度信息的方法、装置和设备 - Google Patents

用于确定字符串信息间相似度信息的方法、装置和设备 Download PDF

Info

Publication number
CN102184169B
CN102184169B CN 201110099437 CN201110099437A CN102184169B CN 102184169 B CN102184169 B CN 102184169B CN 201110099437 CN201110099437 CN 201110099437 CN 201110099437 A CN201110099437 A CN 201110099437A CN 102184169 B CN102184169 B CN 102184169B
Authority
CN
China
Prior art keywords
information
similarity
character string
substring
type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN 201110099437
Other languages
English (en)
Other versions
CN102184169A (zh
Inventor
何径舟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN 201110099437 priority Critical patent/CN102184169B/zh
Publication of CN102184169A publication Critical patent/CN102184169A/zh
Application granted granted Critical
Publication of CN102184169B publication Critical patent/CN102184169B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种用于基于多种类型来确定字符串信息间相似度信息的方法、装置和设备。根据本发明的方案通过获取待处理的两个字符串信息,并根据基于所述两个字符串信息来获得的至少两种类型的相似度信息,确定所述两个字符串信息间的最终相似度信息。与现有技术相比,本发明具有以下优点:能够根据多种类型的相似度信息来综合确定两个字符串信息间的最终相似度信息,从而更为全面地反映两个字符串信息在字音、字形和/或字义等方面的相似度,所得的相似度判断结果更为准确。

Description

用于确定字符串信息间相似度信息的方法、装置和设备
技术领域
本发明涉及计算机技术领域,尤其涉及用于确定字符串信息间相似度信息的方法、装置和设备。
背景技术
确定字符串信息间的相似度一直是自然语言处理中重要的一部分。现有技术中,往往仅基于一个方面来确定字符串信息间的相似度,例如,仅基于编辑距离来确定两个字符串信息间的字形相似度,又例如,往往仅基于同义词词典来判断两个字符串信息间的语义相似度等,该等确定字符串信息间相似度的方法往往难以全面地反映两个字符串间的相似度。
发明内容
本发明的目的是提供一种用于确定字符串信息间相似度信息的方法、装置和设备。
根据本发明的一个方面,提供一种计算机实现的用于基于多种类型来确定字符串信息间相似度信息的方法,其中,该方法包括以下步骤:
a获取待处理的两个字符串信息;
b根据基于所述两个字符串信息来获得的至少两种类型的相似度信息,确定所述两个字符串信息间的最终相似度信息。
根据本发明的另一个方面,还提供了一种用于确定字符串信息间相似度信息的相似度确定装置,其中,该相似度确定装置包括:
第一获取装置、用于获取待处理的两个字符串信息;
第一确定装置、用于根据基于所述两个字符串信息来获得的至少两种类型的相似度信息,确定所述两个字符串信息间的最终相似度信息。
根据本发明的再一个方面,还提供了一种计算机设备,其中,该计算机设备包括前述相似度确定装置。
与现有技术相比,本发明具有以下优点:1)能够根据多种类型的相似度信息来综合确定两个字符串信息间的最终相似度信息,从而更为全面地反映两个字符串信息在字音、字形和/或字义等方面的相似度,所得的相似度判断结果更为准确;2)通过结合各个类型对应的权重信息,使得所获得的最终相似度信息更符合应用场合的需求;进一步地,能够根据应用环境信息自动调整各个类型对应的权重信息;更近一步地,能够根据应用环境来选择所需处理的类型,以使本实施例的方案能够自适应地适用于多种场合;3)能够通过划分子串信息来提高获取所述最终相似度信息的速度,减少系统资源消耗;进一步地,能够根据子串信息间的匹配组合方式,提高获取所述最终相似度信息的速度,减少系统资源消耗,或者,能够根据历史子串组合对的相似度信息,进一步提高获取所述最终相似度信息的速度,减少系统资源消耗;4)能够通过综合考虑整体相似度信息和分串相似度信息来获得最终相似度信息,提高了获取待处理的两个字符串信息间的最终相似度信息的准确度;5)能够适用于各种需要进行相似度判断的场合;例如,在搜索场合中用于来自用户的输入序列与文本候选项所包含的关键词间的相似度判断;又例如,在纠错场合中用于来自用户的输入序列与纠错词库中所包含的关键词间的相似度判断;再例如,在同义词挖掘过程中,用于两个待判断的字符串间的相似度判断等。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明一个方面用于获取字符串信息间相似度信息的方法流程图;
图2为本发明一个优选实施例的用于获取字符串信息间相似度信息的方法流程图;
图3为本发明另一个优选实施例的用于获取字符串信息间相似度信息的方法流程图;
图4为本发明一个方面用于获取字符串信息间相似度信息的相似度确定装置的结构示意图;
图5为本发明一个优选实施例的用于获取字符串信息间相似度信息的相似度确定装置的结构示意图;
图6为本发明另一个优选实施例的用于获取字符串信息间相似度信息的相似度确定装置的结构示意图;
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
下面结合附图对本发明作进一步详细描述。
图1为本发明一个方面用于获取字符串信息间相似度信息的方法流程图。其中,根据本发明的方法可通过计算机设备中的操作系统或处理控制器来完成,为简明起见,以下将所述操作系统或处理控制器统称为相似度确定装置。其中,该计算机设备包括但不限于:1)用户设备;2)网络设备。其中,所述用户设备包括但不限于:个人电脑、智能手机、PDA等;所述网络设备包括但不限于:单个网络服务器、多个网络服务器组成的服务器组或基于云计算(Cloud Computing)的由大量计算机或网络服务器构成的云,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。
在步骤S1中,相似度确定装置获取待处理的两个字符串信息。
其中,相似度确定装置获取所述待处理的两个字符串信息的方式包括但不限于:
1)获取预存储的需要进行相似度判断的两个字符串信息;
2)获取相似度确定装置所属计算机设备或其他计算机设备当前需要进行相似度判断处理的两个字符串信息。
例如,两个字符串信息中的一个字符串信息来自用户当前输入的输入序列,另一个字符串信息来自计算机设备根据前述一个字符串信息来进行检索的文本信息,相似度确定装置所属计算机设备或其他计算机设备当前需要判断该两个字符串信息间的相似度以确定是否将该文本信息所属资源提供给用户,则相似度确定装置获取其所属计算机设备或其他计算机设备提供的两个字符串信息。
又例如,两个字符串信息中的一个字符串信息来自用户在应用程序中输入的输入序列,另一个字符串信息来自该应用程序所属计算机设备的纠错词库,该应用程序所属计算机设备当前需要判断该两个字符串信息间的相似度以确定是否将前述另一个字符串信息作为纠错提示信息提供给用户,则相似度确定装置获取该应用程序所属计算机设备提供的两个字符串信息。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何获取待处理的两个字符串信息的实现方式,均应包含在本发明的范围内。
接着,在步骤S2中,相似度确定装置根据基于所述两个字符串信息来获得的至少两种类型的相似度信息,确定所述两个字符串信息间的最终相似度信息。其中,所述相似度信息包括以下两项中的至少一项:1)所述两个字符串信息间的相似度信息;2)所述两个字符串信息所包含的部分字符间的相似度信息。所述相似度信息包括但不限于:1)相似度等级;2)相似度值。其中,所述至少两种类型的相似度信息包括基于至少两种字符串相似度处理方式来获得的至少两种相似度信息。
具体地,相似度确定装置分别根据各种类型的相似度处理方式来获得所述至少两种类型的相似度信息,并直接根据所获得的各个类型的相似度信息来获得所述最终相似度信息;例如,将各个相似度信息的平均值、乘积、平方和、倒数和、对数和等作为所述最终相似度信息;或者,相似度确定装置先对各个相似度信息进行归一化处理,再根据归一化所得的各项值来来获得所述最终相似度信息;或者,相似度确定装置由所获得的各个相似度信息中选择部分相似度信息,并根据所选择的该部分相似度信息来获得所述最终相似度信息等。
例如,相似度确定装置通过对字符串信息A和字符串信息B进行Metaphone注音,来获得两者的注音信息分别为“KRM”和“KRL”,则相似度确定装置通过获取两个注音信息中同一字符位置的两个字符相同的次数与两个注音信息包含的总字符数之比,来确定字符串信息A和B间的读音相似度信息=2/(3+4)=2/7,并且,相似度确定装置通过查询预定的同义词词典获得两者为同义词;则相似度确定装置根据预定的当待处理的两个字符串信息为同义词时,将两者的读音相似度信息乘以2所得的值作为所述最终相似度信息的规则,将2*2/7=4/7作为字符串信息A和B间的最终相似度信息。
又例如,字符串信息A包括子串信息A1和A2,相似度确定装置通过将子串信息A1转换为字符串信息B来获得子串信息A1和字符串信息B间的编辑距离为2,并通过将子串信息A2转换为字符串信息B来获得子串信息A2和字符串信息B间的编辑距离为1;并且,相似度确定装置获取与存储的子串信息A1、子串信息A2和字符串信息B的短文本扩展向量,并获得子串信息A1和字符串信息B的短文本扩展向量间的向量距离为1.755,子串信息A2和字符串信息B的短文本扩展向量间的向量距离为1.025,则相似度确定装置将所得的各项值之和的倒数=1/(2+1+1.755+1.025)=0.173作为字符串信息A和B间的最终相似度信息。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何根据基于所述两个字符串信息来获得的至少两种类型的相似度信息,确定所述两个字符串信息间的最终相似度信息的实现方式,均应包含在本发明的范围内。
优选地,所述至少两种类型包括以下各项中的至少两种:
1)编辑距离类型;
具体地,编辑距离类型的相似度信息通过获取两个字符串信息间的编辑距离来获得。
更优选地,该编辑距离类型的相似度信息根据将所述两个字符串信息中的一个字符串信息转换至另一个字符串信息的转换处理中所执行编辑操作相关的字符变化信息来获得。
例如,两个字符串信息分别为“bai”和“bei”,将“bai”转换为“bei”的过程中所执行的编辑操作分别为“复制字符b”、“将字符a替换为字符e”和“复制字符i”,则所获得的字符变化信息为“a→e”,且查询预定代价库获得“a→e”的变化代价为0.2,则确定“bai”和“bei”间的编辑距离类型的相似度为1-0.2=0.8。
2)读音类型;
具体地,读音类型的相似度信息通过获取两个字符串信息的注音或拼音,并通过确定所述注音或拼音的相似度来获得。例如,获得待处理的两个字符串信息的拼音分别为“baidu”和“paidu”,则根据同一排序位置下相同的辅音和元音数量占总辅音和元音数量的比例来确定该待处理的两个字符串信息的读音类型的相似度信息为0.75。
3)同义词匹配类型;
具体地,同义词匹配类型的相似度信息通过判断两个字符串信息是否为同义词,或者,判断两个字符串信息的同义词可能性来获得。
4)短文本扩展类型;
具体地,短文本扩展类型的相似度信息通过获取两个字符串信息的短文本扩展信息间的相似度来获得。
5)字符串特征向量类型;
具体地,字符串特征向量类型的相似度信息根据分别基于所述两个字符串信息的检索结果所得的两个字符串特征向量来获得。
例如,基于字符串信息A进行检索来获得多个网页,并对该多个网页中的文本信息进行切词、去除无效关键词以及统计重复出现的关键词数量等处理后,获得字符串信息A的字符串特征向量;接着,对于字符串信息B,重复上述处理以获得字符串信息B的字符串特征向量;接着,通过获取字符串信息A和B的字符串特征向量间的向量距离来获得字符串信息A和B间的字符串特征向量类型的相似度信息。
6)主题分布类型;
具体地,主题分布类型的相似度信息根据分别与所述两个字符串信息相关的多个资源信息的主题来获得。
例如,基于字符串信息A进行检索来获得三个网页,并获得该三个网页的预定主题分别为“新闻”、“娱乐”、“新闻”,则确定字符串信息A的主题分布包括“新闻:2/3,娱乐:1/3”;对于字符串信息B,重复上述操作获得其主题分布包括“新闻:1/2,娱乐:1/4,游戏:1/4”;接着,将字符串信息A和B相同主题的平均值之和=(2/3+1/2)/2+(1/3+1/4)/2=7/8作为字符串信息A和B间的主题分布类型的相似度信息。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何基于至少两种字符串相似度处理方式来获得的至少两种相似度信息,均应包含在本发明所述至少两种类型的相似度信息的范围内。
根据本发明的方法能够根据多种类型的相似度信息来综合确定两个字符串信息间的最终相似度信息,从而更为全面地反映两个字符串信息在字音、字形和/或字义等方面的相似度,所得的相似度判断结果更为准确。
图2为本发明一个优选实施例的用于获取字符串信息间相似度信息的方法流程图。根据本实施例的方法包括步骤S1、步骤S3和步骤S2’。
步骤S1已在参照图1所示实施例中予以详述,并以引用的方式包含于此,不再赘述。
在步骤S3中,相似度确定装置获取所述至少两种类型中每种类型所对应的权重信息。其中,该权重信息包括但不限于:1)权重等级;2)权重值。
具体地,相似度确定装置获取所述权重信息的方式包括但不限于:
1)相似度确定装置根据预定的权重信息和类型间的对应关系,来获取所述至少两种类型中每种类型对应的权重信息;
2)相似度确定装置获取所述最终相似度信息的应用环境信息,并根据所述应用环境信息,确定所述每种类型对应的权重信息。
其中,相似度确定装置获取所述最终相似度信息的应用环境信息的方式包括但不限于:
a)相似度确定装置获取由其他设备或其他装置提供的应用环境信息;例如,所述计算机设备中的另一个装置请求相似度确定装置确定两个字符串信息间的最终相似度信息,并向相似度确定装置提供其API(Application Programming Interface),则相似度确定装置将该另一个装置提供的API作为所述应用环境信息;
b)相似度确定装置检测与所获得的待处理的两个字符串信息相关的应用程序,以获得所述应用环境信息;例如,当检测到所获得的待处理的两个字符串信息中的一个由word中获取,则确定所述应用环境信息包括word程序的标识信息等。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何获取所述最终相似度信息的应用环境信息的实现方式,均应包含在本发明的范围内。
其中,相似度确定装置根据所述应用环境信息,确定所述每种类型所对应的权重信息的方式包括但不限于:
a)当所述至少两种类型包括相似度确定装置所能够采用的所有类型时,相似度确定装置根据所述应用环境信息,确定所有类型分别对应的权重信息。
具体地,相似度确定装置根据预定的应用环境信息与各个类型的权重信息间的对应关系,来确定所有类型分别对应的权重信息。
例如,当所述所有类型包括编辑距离类型和主题分布类型,且所述应用环境信息包括word程序的标识信息时,相似度确定装置根据所述对应关系确定当应用环境信息包括word程序的标识信息时,编辑距离类型对应的权重等级为第一等级,主题分布类型对应的权重等级为第三等级等。
b)相似度确定装置根据所述应用环境信息,由所有类型中选择所述至少两种类型,并根据所述应用环境信息,获取所选择的所述至少两种类型中每种类型所对应的权重信息。
具体地,相似度确定装置根据预定的各应用环境下需要采用的类型,来由所有类型中选择所述至少两种类型;接着,相似度确定装置根据所述应用环境信息,获取所选择的所述至少两种类型中每种类型对应的权重信息。
例如,相似度确定装置所能够采用的所有类型包括读音类型、同义词匹配类型、短文本扩展类型、字符串特征向量类型和主题分布类型,且相似度确定装置根据所获得的应用环境信息中包含的API判断当前的应用环境为搜索环境,则相似度确定装置根据预定的搜索环境下需要采用短文本扩展类型、字符串特征向量类型和主题分布类型的规则,由读音类型、同义词匹配类型、短文本扩展类型、字符串特征向量类型和主题分布类型中选择短文本扩展类型、字符串特征向量类型和主题分布类型;接着,相似度确定装置根据预定的搜索环境下各个类型分别对应的权重信息,获取所选择的短文本扩展类型、字符串特征向量类型和主题分布类型分别所对应的权重信息。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何根据所述应用环境信息,确定所述每种类型所对应的权重信息的实现方式,均应包含在本发明的范围内。
需要说明的是,当无需根据待处理的两个字符串信息来获取权重信息时,步骤S1与步骤S3之间并无先后顺序。
接着,在步骤S2’中,相似度确定装置根据所述基于两个字符串信息来获得的至少两种类型的相似度信息,并结合所述每种类型所对应的权重信息,确定所述两个字符串信息间的最终相似度信息。其中,相似度确定装置获得所述至少两种类型的相似度信息的方式已在前述步骤S2中予以详述,并以引用的方式包含于此,不再赘述。
具体地,相似度确定装置根据所述权重信息来对所获得的所述至少两种类型的相似度信息进行加权,以根据加权后的相似度信息来获得最终相似度信息。
例如,相似度确定装置获得字符串信息A和B间的读音相似度信息为0.45,同义词匹配类型的相似度信息为0.26,且相似度确定装置在前述步骤S3中获得读音相似度类型对应的权重值为0.4,同义词匹配类型对应的权重值为0.5;则相似度确定装置将各个类型对应的权重值乘以该类型的相似度信息,并将所获得的各个乘积相加,以获得所述最终相似度信息=0.4*0.45+0.5*0.26=0.31。
又例如,字符串信息A包括子串信息A1和A2,相似度确定装置获得子串信息A1和字符串信息B间的编辑距离为2,子串信息A2和字符串信息B间的编辑距离为1,子串信息A1和字符串信息B的短文本扩展向量间的向量距离为1.755,子串信息A2和字符串信息B的短文本扩展向量间的向量距离为1.025,并且,相似度确定装置在步骤S3中获得编辑距离类型对应的权重值为0.8,短文本扩展向量类型对应的权重值为0.5;则相似度确定装置将各项相似度信息的加权和的倒数=1/(0.8*2+0.8*1+0.5*1.755+0.5*1.025)=0.2639作为字符串信息A和B间的最终相似度信息。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何根据所述基于两个字符串信息来获得的至少两种类型的相似度信息,并结合所述每种类型所对应的权重信息,确定所述两个字符串信息间的最终相似度信息的实现方式,例如,将各项相似度信息加权后的对数和、平方和、乘积等作为最终相似度信息,又例如,先对各项相似度信息进行归一化处理,再对归一化处理所得的值求取加权和以获得最终相似度信息等,均应包含在本发明的范围内。
根据本实施例的方法,通过结合各个类型对应的权重信息,使得所获得的最终相似度信息更符合应用场合的需求;例如,当根据本实施例的方法应用于纠错系统时,赋予编辑距离类型和读音类型较高的权重信息,当根据本实施例的方法应用于搜索系统时,赋予短文本扩展类型、字符串特征向量类型和主体分部类型较高的权重信息等。进一步地,根据本实施例的方法还能根据应用环境信息自动调整各个类型对应的权重信息,并能够根据应用环境来选择所需处理的类型,以使本实施例的方法能够自适应地适用于多种场合。
图3为本发明另一个优选实施例的用于获取字符串信息间相似度信息的方法流程图。根据本实施例的方法包括步骤S1及步骤S2,其中,步骤S2进一步包括步骤S21和步骤S22。
步骤S1已在参照图1所示实施例中予以详述,并以引用的方式包含于此,不再赘述。
在步骤S21中,相似度确定装置对所述两个字符串信息中的至少一个字符串信息进行划分,以获得该至少一个字符串信息包含的多个子串信息。
具体地,相似度确定装置根据诸如音节、字符编码类型、字符所属语言和/或词典中包含的关键词等一种或多种因素,来对所述两个字符串信息中的至少一者进行划分,以获得该至少一个字符串信息包含的多个子串信息。
例如,对于字符串信息“二次えろりんく”,相似度确定装置根据字符串“二次”和字符串“えろりんく”的字符编码类型不同,并根据“えろ”和“りんく”分别为词典中的两个词汇,来将字符串信息“二次えろりんく”划分为子串信息“二次”、“えろ”和“りんく”。为简洁起见,下述内容中将采用标识符号来表示子串信息,例如,对于字符串信息“二次えろりんく”,以字符串信息A来表示;对于子串信息“二次”,以子串信息A1来表示;对于子串信息“えろ”,以子串信息A2来表示;对于子串信息“りんく”,以子串信息A3来表示等。需要说明的是,前述举例仅为例示,而非对标志符号“A”、“A1”、“A2”、“A3”等所代表的具体字符串进行限定。
接着,在步骤S22中,相似度确定装置根据包含于其中一个字符串信息中的一个或多个子串信息与包含于另一个字符串信息中的一个或多个子串信息间至少两种类型的相似度信息,确定所述两个字符串信息间的最终相似度信息。其中,相似度确定装置获得两个子串信息间的相似度信息的方式与前述步骤S2中相似度确定装置获得两个字符串信息间的相似度信息的方式相同或相似,在此不再赘述。
具体地,相似度确定装置对所获得的各个相似度信息进行处理,以确定所述两个字符串信息间的最终相似度信息。
例如,在步骤S21中,相似度确定装置获得字符串信息A包括子串信息A1和A2,字符串信息B包括子串信息B1和B2;在本步骤中,相似度确定装置获得子串信息A1和B1间的读音类型的相似度信息为0.6,子串信息A1和B2间的读音类型的相似度信息为0.1,子串信息A2和B1间的编辑距离类型的相似度信息为0.2,子串信息A2和B1间的编辑距离类型的相似度信息为0.8;则相似度确定装置将各个相似度信息的平均值作为所述最终相似度信息,以获得所述最终相似度信息=(0.6+0.1+0.2+0.8)/4=0.425。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何根据包含于其中一个字符串信息中的一个或多个子串信息与包含于另一个字符串信息中的一个或多个子串信息间至少两种类型的相似度信息,确定所述两个字符串信息间的最终相似度信息的实现方式,例如,选择由高至低排序后位于前2位的相似度信息来获得最终相似度信息等,均应包含在本发明的范围内。
根据本实施例的方法,能够通过划分子串信息来提高获取所述最终相似度信息的速度,减少系统资源消耗。
作为本实施例的优选方案之一,所述步骤S22进一步包括步骤S2211(图未示)、步骤S2212(图未示)及步骤S2213(图未示)。
在步骤S2211中,相似度确定装置获取所述包含于一个字符串信息中的所有子串信息与包含于另一个字符串信息中的所有子串信息间所有的匹配组合方式。
例如,在步骤S21中,相似度确定装置获得相似度确定装置获得字符串信息A包括子串信息A1、A2和A3,字符串信息B包括子串信息B 1和B2,则相似度确定装置获得字符串信息A包含的所有子串信息和字符串信息B包含的所有子串信息间的所有匹配组合方式如下所示:
Figure BSA00000477888800131
接着,在步骤S2212中,相似度确定装置根据所述所有匹配组合方式,获取所述两个字符串信息间的至少两种类型的相似度信息。
具体地,相似度确定装置获取各个匹配组合方式中相匹配的子串信息或子串组合间的至少两种类型的相似度信息,以获得该匹配组合方式下该两个字符串信息间的至少两种类型的相似度信息。其中,相似度确定装置获得两个子串信息间、两个子串组合间或一个子串信息和一个子串组合间至少两种类型的相似度信息的方式与前述步骤S2中相似度确定装置获得两个字符串信息间至少两种类型的相似度信息的方式相同或相似,在此不再赘述。
例如,以前述步骤S2211中所示匹配组合方式一和匹配组合方式二为例,相似度确定装置获得匹配组合方式一中相匹配的子串信息A1和B1间的编辑距离类型的相似度信息为0.8,读音类型的相似度信息为0.3,子串组合A2A3与子串信息B2间的编辑距离类型的相似度信息为0.05,读音类型的相似度信息为0.88,匹配组合方式二中相匹配的子串组合A1A2与B1间的编辑距离类型的相似度信息为0.3,读音类型的相似度信息为0.2,子串信息A3与子串信息B2间的编辑距离类型的相似度信息为0.07,读音类型的相似度信息为0.25;则相似度确定装置通过求取各个类型的相似度信息的平均值,来获得字符串信息A和B间的编辑距离类型的相似度信息=(0.8+0.05+0.3+0.07)/4=0.305,读音类型的相似度信息=(0.3+0.88+0.2+0.25)/4=0.4075。
又例如,匹配组合方式一和匹配组合方式二中各个子串信息或子串组合间的编辑距离类型和读音类型的相似度信息如前述举例所示,则相似度确定装置根据子串信息A1和B1间的编辑距离的相似度信息0.8高于预定编辑距离阈值0.7,子串组合A2A3与子串信息B2间的读音类型的相似度信息0.88高于预定读音阈值0.75,确定根据匹配组合方式一来获得字符串信息A和B间的编辑距离类型和读音类型的相似度信息,则相似度确定装置获得字符串信息A和B间的编辑距离类型的相似度信息=(0.8+0.05)/2=0.425,读音类型的相似度信息=(0.3+0.88)/2=0.59。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何根据所述所有匹配组合方式,获取所述两个字符串信息间的至少两种类型的相似度信息的实现方式,均应包含在本发明的范围内。
接着,在步骤S2213中,相似度确定装置根据所述两个字符串信息间的至少两种类型的相似度信息,确定所述两个字符串信息间的最终相似度信息。其中,相似度确定装置根据所述两个字符串信息间的至少两种类型的相似度信息来确定所述两个字符串信息间的最终相似度信息的方式,与前述步骤S2中相似度确定装置根据基于两个字符串信息来获得的至少两种类型的相似度信息确定所述两个字符串信息间的最终相似度信息的方式相同或相似,在此不再赘述。
根据本优选方案的方法,能够根据子串信息间的匹配组合方式,进一步提高获取所述最终相似度信息的速度,减少系统资源消耗。
作为本实施例的优选方案之一,所述步骤S22进一步包括步骤S2221(图未示)、步骤S2222(图未示)、步骤S2223(图未示)及步骤S2224(图未示)。
在步骤S221中,相似度确定装置由所述两个字符串信息中获取当前子串组合对信息。其中,所述当前子串组合对信息中包括分别属于两个字符串信息的子串信息和/或子串组合。
具体地,相似度确定装置根据两个字符串信息所包含的子串信息在各自所属的字符串信息中的排序位置,并结合已执行的获取所述当前子串组合对信息的操作记录,来获取所述当前子串组合对信息。
其中,所述操作记录包括但不限于以下至少一项:
1)已执行的获取操作次数;
2)前一次获取的当前子串组合对信息;
3)前一次获取的当前子串组合对信息中包含的属于一个字符串信息的子串信息数量以及属于另一个字符串信息的子串信息数量。
例如,在步骤S21中,相似度确定装置获得相似度确定装置获得字符串信息A包括子串信息A1、A2和A3,字符串信息B包括子串信息B 1和B2,并由所述操作记录中获得前一次获取的当前子串组合对信息中包括子串组合A1A2以及子串信息B1。则相似度确定装置随机选择子串组合A1A2A3以及子串信息B1,或者,子串组合A1A2以及子串组合B1B2作为当前子串组合对信息。
需要说明的是,相似度确定装置可根据多种次序获取当前子串组合对信息及包含于该当前子串组合对信息中的两个待处理子串信息;例如,当待处理的字符串信息A包括子串信息A1、A2和A3,其中,子串信息A1、A2和A3在字符串信息A中由左至右排列,字符串信息B包括子串信息B1和B2,其中,子串信息B1和B2在字符串信息B中由左至右排列,则相似度确定装置以如下任一次序来获取当前子串组合对信息:
1)A1_B1、A1A2_B1、A1A2A3_B1、A1_B1B2、A1A2_B1B2、A1A2A3_B1B2;
2)A1_B1、A1_B1B2、A1A2_B1、A1A2_B1B2、A1A2A3_B1、A1A2A3_B1B2;
3)A3_B2、A2A3_B2、A1A2A3_B2、A3_B1B2、A2A3_B1B2、A1A2A3_B1B2;
4)A3_B2、A3_B1B2、A2A3_B2、A2A3_B1B2、A1A2A3_B2、A1A2A3_B1B2;
5)A1_B1、A1A2_B1、A1_B1B2、A1A2A3_B1、A1A2_B1B2、A1A2A3_B1B2;
6)A3_B2、A2A3_B2、A3_B1B2、A1A2A3_B2、A2A3_B1B2、A1A2A3_B1B2;
需要进一步说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何由所述两个字符串信息中获取当前子串组合对信息及包含于该当前子串组合对信息中的两个待处理子串信息的实现方式,均应包含在本发明的范围内。
接着,在步骤S2222中,相似度确定装置获取包含于所述当前子串组合对信息中的各个待处理子串信息对的至少两种类型的相似度信息。其中,每个待处理子串信息对包括分别属于两个字符串信息的子串信息和/或子串组合,该待处理子串信息对的相似度信息即为其包含的子串信息和/或子串组合间的相似度信息。其中,相似度确定装置获取待处理子串信息对的至少两种类型的相似度信息的方式与步骤S2中相似度确定装置获取待处理的两个字符串信息间至少两种类型的相似度信息方式相同或相似,在此不再赘述。
例如,字符串信息A包括由左至右排列的子串信息A1、A2和A3,字符串信息B包括由左至右排列的子串信息子串信息B1和B2;在步骤S2221中,相似度确定装置所获得的当前子串组合对信息为“A1A2A3B_1B2”;则相似度确定装置根据当前子串组合对信息中的两个子串组合“A1A2A3”和“B1B2”间所有可能的子串信息的匹配组合方式,获得两个待处理子串信息对“A2A3_B2”和“A3_B2”,并获得“A2A3_B2”的编辑距离类型和读音类型的相似度信息分别为0.45和0.576,“A3_B2”的编辑距离类型和读音类型的相似度信息分别为0.61和0.5。
接着,在步骤S2223中,相似度确定装置根据所述各个待处理子串信息对的至少两种类型的相似度信息及历史相似度信息,确定所述当前子串组合对信息间的相似度信息。
例如,所述各个待处理子串信息对的至少两种类型的相似度信息如前述步骤S2222中的举例所示,且相似度确定装置已获得的历史相似度记录如下所示:
子串组合对信息相似度信息
Figure BSA00000477888800171
相似度确定装置确定待处理子串信息对“A2A3_B2”的相似度信息=(0.45+0.576)/2=0.513,待处理子串信息对“A3_B2”的相似度信息=(0.61+0.5)/2=0.555;则相似度确定装置根据子串组合对信息“A1_B1”的相似度信息为0.6,确定在匹配组合方式“A1匹配B1,A2和A3匹配B2”下当前子串组合对信息“A1A2A3_B1B2”的相似度信息=0.6*0.513=0.3078,在匹配组合方式“A1和A2匹配B1,A3匹配B2”下当前子串组合对信息“A1A2A3_B1B2”的相似度信息=0.3*0.555=0.1665;则相似度确定装置选择较大的值0.3078作为当前子串组合对信息“A1A2A3_B1B2”的相似度信息。
接着,在步骤S2224中,相似度确定装置将所述当前子串组合对信息间的相似度信息作为历史相似度信息之一,重复步骤S2221至步骤S2223以及前述将所述当前子串组合对信息间的相似度信息作为历史相似度信息之一的步骤,直至所述当前子串组合对信息包含所述两个字符串信息,并将所述当前子串组合对信息间的相似度信息作为所述两个字符串信息间的最终相似度信息。
根据本优选方案的方法,能够根据历史子串组合对的相似度信息,进一步提高获取所述最终相似度信息的速度,减少系统资源消耗。
作为本实施例的优选方案之一,根据本实施例的方法还包括步骤S4,前述步骤S2包括步骤S22’。
在步骤S4中,相似度确定装置获取所述两个字符串信息间至少一种类型的整体相似度信息。其中,所述整体相似度信息为根据两个未划分的字符串信息直接获得的相似度信息。相似度确定装置获取一种类型的整体相似度信息的方式与步骤S2中相似度确定装置获取待处理的两个字符串信息间的一种类型的相似度信息的方式相同或相似,在此不再赘述。
在步骤S22’中,相似度确定装置根据包含于其中一个字符串信息中的一个或多个子串信息与包含于另一个字符串信息中的一个或多个子串信息间至少两种类型的相似度信息,并结合所述至少一种类型的整体相似度信息,确定所述两个字符串信息间的最终相似度信息。其中,相似度确定装置获取所述包含于其中一个字符串信息中的一个或多个子串信息与包含于另一个字符串信息中的一个或多个子串信息间至少两种类型的相似度信息的方式已在前述步骤S22中予以详述,并以引用的方式包含于此,不再赘述。
具体地,相似度确定装置根据所述整体相似度信息和所述包含于其中一个字符串信息中的一个或多个子串信息与包含于另一个字符串信息中的一个或多个子串信息间至少两种类型的相似度信息,来确定所述最终相似度信息的方式包括但不限于:
1)根据所述包含于其中一个字符串信息中的一个或多个子串信息与包含于另一个字符串信息中的一个或多个子串信息,获得待处理的两个字符串信息间的分串相似度信息,并选择该分串相似度信息和所述整体相似度信息中相似度值或相似度等级较高的一者作为所述最终相似度信息;其中,相似度确定装置获得所述分串相似度信息的方式,与前述步骤S22中相似度确定装置获得所述最终相似度信息的方式相同或相似,在此不再赘述。
例如,在前述步骤S4中,相似度确定装置获得字符串信息A和B间一种类型的整体相似度信息为0.6,且相似度确定装置采用前述步骤S22中所述的方式,获得字符串信息A和B间的分串相似度信息为0.83,则相似度确定装置选择相似度值较高的分串相似度信息作为所述最终相似度信息。
2)对所述分串相似度信息以及所述至少一种类型整体相似度信息进行处理,以获得所述最终相似度信息。
例如,在前述步骤S4中,相似度确定装置获得字符串信息A和B间字符串特征向量类型的整体相似度信息为0.6,主题分布类型的整体相似度信息为0.4,且相似度确定装置采用前述步骤S22中所述的方式,获得字符串信息A和B间的分串相似度信息为0.83,则相似度确定装置根据预定的字符串特征向量类型的整体相似度信息的权重值为0.45,主题分布类型的整体相似度信息的权重值为0.47,分串相似度信息的权重值为0.86,来对所述两种类型的整体相似度信息以及分串相似度信息求取加权和,以获得最终相似度信息=0.45*0.6+0.47*0.4+0.86*0.83=1.1718。
需要进一步说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何根据所述整体相似度信息和所述包含于其中一个字符串信息中的一个或多个子串信息与包含于另一个字符串信息中的一个或多个子串信息间至少两种类型的相似度信息来确定所述最终相似度信息的实现方式,均应包含在本发明的范围内。
根据本优选方案的方法,能够通过综合考虑整体相似度信息和分串相似度信息来获得最终相似度信息,提高了获取待处理的两个字符串信息间的最终相似度信息的准确度。
图4为本发明一个方面用于获取字符串信息间相似度信息的相似度确定装置的结构示意图。根据本发明的相似度确定装置包括第一获取装置1和第一确定装置2。
第一获取装置1获取待处理的两个字符串信息。
其中,第一获取装置1获取所述待处理的两个字符串信息的方式包括但不限于:
1)获取预存储的需要进行相似度判断的两个字符串信息;
2)获取相似度确定装置所属计算机设备或其他计算机设备当前需要进行相似度判断处理的两个字符串信息。
例如,两个字符串信息中的一个字符串信息来自用户当前输入的输入序列,另一个字符串信息来自计算机设备根据前述一个字符串信息来进行检索的文本信息,第一获取装置1所属计算机设备或其他计算机设备当前需要判断该两个字符串信息间的相似度以确定是否将该文本信息所属资源提供给用户,则第一获取装置1获取其所属计算机设备或其他计算机设备提供的两个字符串信息。
又例如,两个字符串信息中的一个字符串信息来自用户在应用程序中输入的输入序列,另一个字符串信息来自该应用程序所属计算机设备的纠错词库,该应用程序所属计算机设备当前需要判断该两个字符串信息间的相似度以确定是否将前述另一个字符串信息作为纠错提示信息提供给用户,则第一获取装置1获取该应用程序所属计算机设备提供的两个字符串信息。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何获取待处理的两个字符串信息的实现方式,均应包含在本发明的范围内。
接着,第一确定装置2根据基于所述两个字符串信息来获得的至少两种类型的相似度信息,确定所述两个字符串信息间的最终相似度信息。其中,所述相似度信息包括以下两项中的至少一项:1)所述两个字符串信息间的相似度信息;2)所述两个字符串信息所包含的部分字符间的相似度信息。所述相似度信息包括但不限于:1)相似度等级;2)相似度值。其中,所述至少两种类型的相似度信息包括基于至少两种字符串相似度处理方式来获得的至少两种相似度信息。
具体地,第一确定装置2分别根据各种类型的相似度处理方式来获得所述至少两种类型的相似度信息,并直接根据所获得的各个类型的相似度信息来获得所述最终相似度信息;例如,将各个相似度信息的平均值、乘积、平方和、倒数和、对数和等作为所述最终相似度信息;或者,第一确定装置2先对各个相似度信息进行归一化处理,再根据归一化所得的各项值来来获得所述最终相似度信息;或者,第一确定装置2由所获得的各个相似度信息中选择部分相似度信息,并根据所选择的该部分相似度信息来获得所述最终相似度信息等。
例如,第一确定装置2通过对字符串信息A和字符串信息B进行Metaphone注音,来获得两者的注音信息分别为“KRM”和“KRL”,第一确定装置2通过获取两个注音信息中同一字符位置的两个字符相同的次数与两个注音信息包含的总字符数之比,来确定字符串信息A和B间的读音相似度信息=2/(3+4)=2/7,并且,第一确定装置2通过查询预定的同义词词典获得两者为同义词;则第一确定装置2根据预定的当待处理的两个字符串信息为同义词时,将两者的读音相似度信息乘以2所得的值作为所述最终相似度信息的规则,将2*2/7=4/7作为字符串信息A和B间的最终相似度信息。
又例如,字符串信息A包括子串信息A1和A2,第一确定装置2通过将子串信息A1转换为字符串信息B来获得子串信息A1和字符串信息B间的编辑距离为2,并通过将子串信息A2转换为字符串信息B来获得子串信息A2和字符串信息B间的编辑距离为1;并且,第一确定装置2获取与存储的子串信息A1、子串信息A2和字符串信息B的短文本扩展向量,并获得子串信息A1和字符串信息B的短文本扩展向量间的向量距离为1.755,子串信息A2和字符串信息B的短文本扩展向量间的向量距离为1.025,则第一确定装置2将所得的各项值之和的倒数=1/(2+1+1.755+1.025)=0.173作为字符串信息A和B间的最终相似度信息。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何根据基于所述两个字符串信息来获得的至少两种类型的相似度信息,确定所述两个字符串信息间的最终相似度信息的实现方式,均应包含在本发明的范围内。
优选地,所述至少两种类型包括以下各项中的至少两种:
1)编辑距离类型;
具体地,编辑距离类型的相似度信息通过获取两个字符串信息间的编辑距离来获得。
更优选地,包含于相似度确定装置中的第一类型相似度确定装置(图未示)根据将所述两个字符串信息中的一个字符串信息转换至另一个字符串信息的转换处理中所执行编辑操作相关的字符变化信息来获得该编辑距离类型的相似度信息。
例如,两个字符串信息分别为“bai”和“bei”,第一类型相似度确定装置将“bai”转换为“bei”的过程中所执行的编辑操作分别为“复制字符b”、“将字符a替换为字符e”和“复制字符i”,则第一类型相似度确定装置所获得的字符变化信息为“a→e”,且查询预定代价库获得“a→e”的变化代价为0.2,则确定“bai”和“bei”间的编辑距离类型的相似度为1-0.2=0.8。
2)读音类型;
具体地,读音类型的相似度信息通过获取两个字符串信息的注音或拼音,并通过确定所述注音或拼音的相似度来获得。例如,获得待处理的两个字符串信息的拼音分别为“baidu”和“paidu”,则根据同一排序位置下相同的辅音和元音数量占总辅音和元音数量的比例来确定该待处理的两个字符串信息的读音类型的相似度信息为0.75。
3)同义词匹配类型;
具体地,同义词匹配类型的相似度信息通过判断两个字符串信息是否为同义词,或者,判断两个字符串信息的同义词可能性来获得。
4)短文本扩展类型;
具体地,包含于相似度确定装置中的短文本扩展类型的相似度信息通过获取两个字符串信息的短文本扩展信息间的相似度来获得。
5)字符串特征向量类型;
具体地,包含于相似度确定装置中的第二类型相似度确定装置(图未示)根据分别基于所述两个字符串信息的检索结果所得的两个字符串特征向量来获得字符串特征向量类型的相似度信息。
例如,第二类型相似度确定装置基于字符串信息A进行检索来获得多个网页,并对该多个网页中的文本信息进行切词、去除无效关键词以及统计重复出现的关键词数量等处理后,获得字符串信息A的字符串特征向量;接着,对于字符串信息B,第二类型相似度确定装置重复上述处理以获得字符串信息B的字符串特征向量;接着,第二类型相似度确定装置通过获取字符串信息A和B的字符串特征向量间的向量距离来获得字符串信息A和B间的字符串特征向量类型的相似度信息。
6)主题分布类型;
具体地,包含于相似度确定装置中的第三类型相似度确定装置(图未示)根据分别与所述两个字符串信息相关的多个资源信息的主题来获得主题分布类型的相似度信息。
例如,第三类型相似度确定装置基于字符串信息A进行检索来获得三个网页,并获得该三个网页的预定主题分别为“新闻”、“娱乐”、“新闻”,则第三类型相似度确定装置确定字符串信息A的主题分布包括“新闻:2/3,娱乐:1/3”;对于字符串信息B,第三类型相似度确定装置重复上述操作获得其主题分布包括“新闻:1/2,娱乐:1/4,游戏:1/4”;接着,第三类型相似度确定装置将字符串信息A和B相同主题的平均值之和=(2/3+1/2)/2+(1/3+1/4)/2=7/8作为字符串信息A和B间的主题分布类型的相似度信息。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何基于至少两种字符串相似度处理方式来获得的至少两种相似度信息,均应包含在本发明所述至少两种类型的相似度信息的范围内。
根据本发明的相似度确定装置能够根据多种类型的相似度信息来综合确定两个字符串信息间的最终相似度信息,从而更为全面地反映两个字符串信息在字音、字形和/或字义等方面的相似度,所得的相似度判断结果更为准确。
图5为本发明一个优选实施例的用于获取字符串信息间相似度信息的相似度确定装置的结构示意图。根据本实施例的相似度确定装置包括第一获取装置1、权重获取装置3以及包含于第一确定装置中的第一子确定装置23。
第一获取装置1已在参照图4所示实施例中予以详述,并以引用的方式包含于此,不再赘述。
权重获取装置3获取所述至少两种类型中每种类型所对应的权重信息。其中,该权重信息包括但不限于:1)权重等级;2)权重值。
具体地,权重获取装置3获取所述权重信息的方式包括但不限于:
1)权重获取装置3根据预定的权重信息和类型间的对应关系,来获取所述至少两种类型中每种类型对应的权重信息;
2)权重获取装置3通过其所包含的第一子获取装置(图未示)以及权重确定装置(图未示)来获得所述至少两种类型中每种类型对应的权重信息。其中,第一子获取装置获取所述最终相似度信息的应用环境信息;权重确定装置根据第一子获取装置所获得的所述应用环境信息,确定所述每种类型对应的权重信息。
其中,第一子获取装置获取所述最终相似度信息的应用环境信息的方式包括但不限于:
a)第一子获取装置获取由其他设备或其他装置提供的应用环境信息;例如,所述计算机设备中的另一个装置请求相似度确定装置确定两个字符串信息间的最终相似度信息,并向相似度确定装置提供其API(Application Programming Interface),则第一子获取装置获取该另一个装置提供给相似度确定装置的API,并将该API作为所述应用环境信息;
b)第一子获取装置检测与所获得的待处理的两个字符串信息相关的应用程序,以获得所述应用环境信息;例如,当检测到所获得的待处理的两个字符串信息中的一个由word中获取,则第一子获取装置3确定所述应用环境信息包括word程序的标识信息等。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何获取所述最终相似度信息的应用环境信息的实现方式,均应包含在本发明的范围内。
其中,权重确定装置根据第一子获取装置所获得的所述应用环境信息,确定所述每种类型所对应的权重信息的方式包括但不限于;
a)当所述至少两种类型包括相似度确定装置所能够采用的所有类型时,权重确定装置根据所述应用环境信息,确定所有类型分别对应的权重信息。
具体地,权重确定装置根据预定的应用环境信息与各个类型的权重信息间的对应关系,来确定所有类型分别对应的权重信息。
例如,当所述所有类型包括编辑距离类型和主题分布类型,且所述应用环境信息包括word程序的标识信息时,权重确定装置根据所述对应关系确定当应用环境信息包括word程序的标识信息时,编辑距离类型对应的权重等级为第一等级,主题分布类型对应的权重等级为第三等级等。
b)权重确定装置根据其所包含的选择装置(图未示)和子权重确定装置(图未示)来获得所述至少两种类型中每种类型所对应的权重信息。其中,选择装置根据所述应用环境信息,由所有类型中选择所述至少两种类型;子权重确定装置根据所述应用环境信息,获取选择装置所选择的所述至少两种类型中每种类型所对应的权重信息。
具体地,选择装置根据预定的各应用环境下需要采用的类型,来由所有类型中选择所述至少两种类型;接着,子权重确定装置根据所述应用环境信息,获取选择装置所选择的所述至少两种类型中每种类型对应的权重信息。
例如,相似度确定装置所能够采用的所有类型包括读音类型、同义词匹配类型、短文本扩展类型、字符串特征向量类型和主题分布类型,子权重确定装置根据选择装置所获得的应用环境信息中包含的API判断当前的应用环境为搜索环境,则子权重确定装置根据预定的搜索环境下需要采用短文本扩展类型、字符串特征向量类型和主题分布类型的规则,由读音类型、同义词匹配类型、短文本扩展类型、字符串特征向量类型和主题分布类型中选择短文本扩展类型、字符串特征向量类型和主题分布类型;接着,子权重确定装置根据预定的搜索环境下各个类型分别对应的权重信息,获取所选择的短文本扩展类型、字符串特征向量类型和主题分布类型分别所对应的权重信息。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何根据所述应用环境信息,确定所述每种类型所对应的权重信息的实现方式,均应包含在本发明的范围内。
需要说明的是,当无需根据待处理的两个字符串信息来获取权重信息时,第一获取装置1与权重获取装置3所执行的操作并无先后顺序。
第一字确定装置23根据所述基于两个字符串信息来获得的至少两种类型的相似度信息,并结合所述每种类型所对应的权重信息,确定所述两个字符串信息间的最终相似度信息。其中,第一子确定装置23获得所述至少两种类型的相似度信息的方式与第一确定装置获得所述至少两种类型的相似度信息的方式相同或相似,并以引用的方式包含于此,不再赘述。
具体地,第一字确定装置23根据所述权重信息来对所获得的所述至少两种类型的相似度信息进行加权,以根据加权后的相似度信息来获得最终相似度信息。
例如,第一字确定装置23获得字符串信息A和B间的读音相似度信息为0.45,同义词匹配类型的相似度信息为0.26,且权重获取装置3获得读音相似度类型对应的权重值为0.4,同义词匹配类型对应的权重值为0.5;则第一字确定装置23将各个类型对应的权重值乘以该类型的相似度信息,并将所获得的各个乘积相加,以获得所述最终相似度信息=0.4*0.45+0.5*0.26=0.31。
又例如,字符串信息A包括子串信息A1和A2,第一字确定装置23获得子串信息A1和字符串信息B间的编辑距离为2,子串信息A2和字符串信息B间的编辑距离为1,子串信息A1和字符串信息B的短文本扩展向量间的向量距离为1.755,子串信息A2和字符串信息B的短文本扩展向量间的向量距离为1.025,并且,权重获取装置3获得编辑距离类型对应的权重值为0.8,短文本扩展向量类型对应的权重值为0.5;则第一字确定装置23将各项相似度信息的加权和的倒数=1/(0.8*2+0.8*1+0.5*1.755+0.5*1.025)=0.2639作为字符串信息A和B间的最终相似度信息。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何根据所述基于两个字符串信息来获得的至少两种类型的相似度信息,并结合所述每种类型所对应的权重信息,确定所述两个字符串信息间的最终相似度信息的实现方式,例如,将各项相似度信息加权后的对数和、平方和、乘积等作为最终相似度信息,又例如,先对各项相似度信息进行归一化处理,再对归一化处理所得的值求取加权和以获得最终相似度信息等,均应包含在本发明的范围内。
根据本实施例的相似度确定装置,通过结合各个类型对应的权重信息,使得所获得的最终相似度信息更符合应用场合的需求;例如,当根据本实施例的相似度确定装置应用于纠错系统时,赋予编辑距离类型和读音类型较高的权重信息,当根据本实施例的相似度确定装置应用于搜索系统时,赋予短文本扩展类型、字符串特征向量类型和主体分部类型较高的权重信息等。进一步地,根据本实施例的相似度确定装置还能根据应用环境信息自动调整各个类型对应的权重信息,并能够根据应用环境来选择所需处理的类型,以使本实施例的相似度确定装置能够自适应地适用于多种场合。
图6为本发明另一个优选实施例的用于获取字符串信息间相似度信息的相似度确定装置的结构示意图。根据本实施例的相似度确定装置包括第一获取装置1、包含于第一确定装置中的划分装置21及第二子确定装置22。
第一获取装置1已在参照图4所示实施例中予以详述,并以引用的方式包含于此,不再赘述。
划分装置21对所述两个字符串信息中的至少一个字符串信息进行划分,以获得该至少一个字符串信息包含的多个子串信息。
具体地,划分装置21根据诸如音节、字符编码类型、字符所属语言和/或词典中包含的关键词等一种或多种因素,来对所述两个字符串信息中的至少一者进行划分,以获得该至少一个字符串信息包含的多个子串信息。
例如,对于字符串信息“二次えろりんく”,划分装置21根据字符串“二次”和字符串“えろりんく”的字符编码类型不同,并根据“えろ”和“りんく”分别为词典中的两个词汇,来将字符串信息“二次えろりんく”划分为子串信息“二次”、“えろ”和“りんく”。为简洁起见,下述内容中将采用标识符号来表示子串信息,例如,对于字符串信息“二次えろりんく”,以字符串信息A来表示;对于子串信息“二次”,以子串信息A1来表示;对于子串信息“えろ”,以子串信息A2来表示;对于子串信息“りんく”,以子串信息A3来表示等。需要说明的是,前述举例仅为例示,而非对标志符号“A”、“A1”、“A2”、“A3”等所代表的具体字符串进行限定。
第二子确定装置22根据包含于其中一个字符串信息中的一个或多个子串信息与包含于另一个字符串信息中的一个或多个子串信息间至少两种类型的相似度信息,确定所述两个字符串信息间的最终相似度信息。其中,第二子确定装置22获得两个子串信息间的相似度信息的方式与第一确定装置获得两个字符串信息间的相似度信息的方式相同或相似,在此不再赘述。
具体地,第二子确定装置22对所获得的各个相似度信息进行处理,以确定所述两个字符串信息间的最终相似度信息。
例如,划分装置21获得字符串信息A包括子串信息A1和A2,字符串信息B包括子串信息B1和B2;第二子确定装置22获得子串信息A1和B1间的读音类型的相似度信息为0.6,子串信息A1和B2间的读音类型的相似度信息为0.1,子串信息A2和B1间的编辑距离类型的相似度信息为0.2,子串信息A2和B1间的编辑距离类型的相似度信息为0.8;则第二子确定装置22将各个相似度信息的平均值作为所述最终相似度信息,以获得所述最终相似度信息=(0.6+0.1+0.2+0.8)/4=0.425。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何根据包含于其中一个字符串信息中的一个或多个子串信息与包含于另一个字符串信息中的一个或多个子串信息间至少两种类型的相似度信息,确定所述两个字符串信息间的最终相似度信息的实现方式,例如,选择由高至低排序后位于前2位的相似度信息来获得最终相似度信息等,均应包含在本发明的范围内。
根据本实施例的相似度确定装置,能够通过划分子串信息来提高获取所述最终相似度信息的速度,减少系统资源消耗。
作为本实施例的优选方案之一,第二子确定装置22进一步包括匹配获取装置(图未示)、第二获取装置(图未示)及第三子确定装置(图未示)。
匹配获取装置获取所述包含于一个字符串信息中的所有子串信息与包含于另一个字符串信息中的所有子串信息间所有的匹配组合方式。
例如,划分装置21获得相似度确定装置获得字符串信息A包括子串信息A1、A2和A3,字符串信息B包括子串信息B1和B2,则匹配获取装置获得字符串信息A包含的所有子串信息和字符串信息B包含的所有子串信息间的所有匹配组合方式如下所示:
Figure BSA00000477888800291
接着,第二获取装置根据所述所有匹配组合方式,获取所述两个字符串信息间的至少两种类型的相似度信息。
具体地,第二获取装置获取各个匹配组合方式中相匹配的子串信息或子串组合间的至少两种类型的相似度信息,以获得该匹配组合方式下该两个字符串信息间的至少两种类型的相似度信息。其中,第二获取装置获得两个子串信息间、两个子串组合间或一个子串信息和一个子串组合间至少两种类型的相似度信息的方式与前述第一确定装置获得两个字符串信息间至少两种类型的相似度信息的方式相同或相似,在此不再赘述。
例如,以前述匹配获取装置所获得的匹配组合方式一和匹配组合方式二为例,第二获取装置获得匹配组合方式一中相匹配的子串信息A1和B1间的编辑距离类型的相似度信息为0.8,读音类型的相似度信息为0.3,子串组合A2A3与子串信息B2间的编辑距离类型的相似度信息为0.05,读音类型的相似度信息为0.88,匹配组合方式二中相匹配的子串组合A1A2与B1间的编辑距离类型的相似度信息为0.3,读音类型的相似度信息为0.2,子串信息A3与子串信息B2间的编辑距离类型的相似度信息为0.07,读音类型的相似度信息为0.25;则第二获取装置通过求取各个类型的相似度信息的平均值,来获得字符串信息A和B间的编辑距离类型的相似度信息=(0.8+0.05+0.3+0.07)/4=0.305,读音类型的相似度信息=(0.3+0.88+0.2+0.25)/4=0.4075。
又例如,匹配组合方式一和匹配组合方式二中各个子串信息或子串组合间的编辑距离类型和读音类型的相似度信息如前述举例所示,则第二获取装置根据子串信息A1和B1间的编辑距离的相似度信息0.8高于预定编辑距离阈值0.7,子串组合A2A3与子串信息B2间的读音类型的相似度信息0.88高于预定读音阈值0.75,来确定根据匹配组合方式一来获得字符串信息A和B间的编辑距离类型和读音类型的相似度信息,则第二获取装置获得字符串信息A和B间的编辑距离类型的相似度信息=(0.8+0.05)/2=0.425,读音类型的相似度信息=(0.3+0.88)/2=0.59。
需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何根据所述所有匹配组合方式,获取所述两个字符串信息间的至少两种类型的相似度信息的实现方式,均应包含在本发明的范围内。
接着,第三子确定装置根据所述两个字符串信息间的至少两种类型的相似度信息,确定所述两个字符串信息间的最终相似度信息。其中,第三子确定装置根据所述两个字符串信息间的至少两种类型的相似度信息来确定所述两个字符串信息间的最终相似度信息的方式,与前述第一确定装置根据基于两个字符串信息来获得的至少两种类型的相似度信息确定所述两个字符串信息间的最终相似度信息的方式相同或相似,在此不再赘述。
根据本优选方案的相似度确定装置,能够根据子串信息间的匹配组合方式,进一步提高获取所述最终相似度信息的速度,减少系统资源消耗。
作为本实施例的优选方案之一,所述第三子确定装置22进一步包括子串获取装置(图未示)、第三获取装置(图未示)、第四子确定装置(图未示)及迭代装置(图未示)。
子串获取装置由所述两个字符串信息中获取当前子串组合对信息。其中,所述当前子串组合对信息中包括分别属于两个字符串信息的子串信息和/或子串组合。
具体地,子串获取装置根据两个字符串信息所包含的子串信息在各自所属的字符串信息中的排序位置,并结合已执行的获取所述当前子串组合对信息的操作记录,来获取所述当前子串组合对信息。
其中,所述操作记录包括但不限于以下至少一项:
1)已执行的获取操作次数;
2)前一次获取的当前子串组合对信息;
3)前一次获取的当前子串组合对信息中包含的属于一个字符串信息的子串信息数量以及属于另一个字符串信息的子串信息数量。
例如,划分装置21获得相似度确定装置获得字符串信息A包括子串信息A1、A2和A3,字符串信息B包括子串信息B 1和B2,子串获取装置由所述操作记录中获得前一次获取的当前子串组合对信息中包括子串组合A1A2以及子串信息B1。则子串获取装置随机选择子串组合A1A2A3以及子串信息B1,或者,子串组合A1A2以及子串组合B1B2作为当前子串组合对信息。
需要说明的是,子串获取装置可根据多种次序获取当前子串组合对信息及包含于该当前子串组合对信息中的两个待处理子串信息;例如,当待处理的字符串信息A包括子串信息A1、A2和A3,其中,子串信息A1、A2和A3在字符串信息A中由左至右排列,字符串信息B包括子串信息B1和B2,其中,子串信息B1和B2在字符串信息B中由左至右排列,则子串获取装置以如下任一次序来获取当前子串组合对信息:
1)A1_B1、A1A2_B1、A1A2A3_B1、A1_B1B2、A1A2_B1B2、A1A2A3_B1B2;
2)A1_B1、A1_B1B2、A1A2_B1、A1A2_B1B2、A1A2A3_B1、A1A2A3_B1B2;
3)A3_B2、A2A3_B2、A1A2A3_B2、A3_B1B2、A2A3_B1B2、A1A2A3_B1B2;
4)A3_B2、A3_B1B2、A2A3_B2、A2A3_B1B2、A1A2A3_B2、A1A2A3_B1B2;
5)A1_B1、A1A2_B1、A1_B1B2、A1A2A3_B1、A1A2_B1B2、A1A2A3_B1B2;
6)A3_B2、A2A3_B2、A3_B1B2、A1A2A3_B2、A2A3_B1B2、A1A2A3_B1B2;
需要进一步说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何由所述两个字符串信息中获取当前子串组合对信息及包含于该当前子串组合对信息中的两个待处理子串信息的实现方式,均应包含在本发明的范围内。
接着,第三获取装置获取包含于所述当前子串组合对信息中的各个待处理子串信息对的至少两种类型的相似度信息。其中,每个待处理子串信息对包括分别属于两个字符串信息的子串信息和/或子串组合,该待处理子串信息对的相似度信息即为其包含的子串信息和/或子串组合间的相似度信息。其中,第三获取装置获取待处理子串信息对的至少两种类型的相似度信息的方式与第一确定装置获取待处理的两个字符串信息间至少两种类型的相似度信息方式相同或相似,在此不再赘述。
例如,字符串信息A包括由左至右排列的子串信息A1、A2和A3,字符串信息B包括由左至右排列的子串信息子串信息B1和B2;子串获取装置所获得的当前子串组合对信息为“A1A2A3_B1B2”;则第三获取装置根据当前子串组合对信息中的两个子串组合“A1A2A3”和“B1B2”间所有可能的子串信息的匹配组合方式,获得两个待处理子串信息对“A2A3_B2”和“A3_B2”,并获得“A2A3_B2”的编辑距离类型和读音类型的相似度信息分别为0.45和0.576,“A3_B2”的编辑距离类型和读音类型的相似度信息分别为0.61和0.5。
接着,第四子确定装置根据所述各个待处理子串信息对的至少两种类型的相似度信息及历史相似度信息,确定所述当前子串组合对信息间的相似度信息。
例如,所述各个待处理子串信息对的至少两种类型的相似度信息如前述第三获取装置对应的举例所示,且相似度确定装置已获得的历史相似度记录如下所示:
子串组合对信息相似度信息
Figure BSA00000477888800331
第四子确定装置确定待处理子串信息对“A2A3_B2”的相似度信息=(0.45+0.576)/2=0.513,待处理子串信息对“A3_B2”的相似度信息=(0.61+0.5)/2=0.555;则第四子确定装置根据子串组合对信息“A1_B1”的相似度信息为0.6,确定在匹配组合方式“A1匹配B1,A2和A3匹配B2”下当前子串组合对信息“A1A2A3_B1B2”的相似度信息=0.6*0.513=0.3078,在匹配组合方式“A1和A2匹配B1,A3匹配B2”下当前子串组合对信息“A1A2A3_B1B2”的相似度信息=0.3*0.555=0.1665;则第四子确定装置选择较大的值0.3078作为当前子串组合对信息“A1A2A3_B1B2”的相似度信息。
接着,迭代装置将所述当前子串组合对信息间的相似度信息作为历史相似度信息之一,以使所述子串获取装置、所述第三获取装置及所述第四子确定装置重复执行相应操作直至所述当前子串组合对信息包含所述两个字符串信息,并将所述当前子串组合对信息间的相似度信息作为所述两个字符串信息间的最终相似度信息。
根据本优选方案的相似度确定装置,能够根据历史子串组合对的相似度信息,进一步提高获取所述最终相似度信息的速度,减少系统资源消耗。
作为本实施例的优选方案之一,根据本实施例的相似度确定装置还包括第四获取装置(图未示),第二子确定装置22还包括第五子确定装置(图未示)。
第四获取装置获取所述两个字符串信息间至少一种类型的整体相似度信息。其中,所述整体相似度信息为根据两个未划分的字符串信息直接获得的相似度信息。第四获取装置获取一种类型的整体相似度信息的方式与第一确定装置获取待处理的两个字符串信息间的一种类型的相似度信息的方式相同或相似,在此不再赘述。
第五子确定装置根据包含于其中一个字符串信息中的一个或多个子串信息与包含于另一个字符串信息中的一个或多个子串信息间至少两种类型的相似度信息,并结合所述至少一种类型的整体相似度信息,确定所述两个字符串信息间的最终相似度信息。其中,第五子确定装置获取所述包含于其中一个字符串信息中的一个或多个子串信息与包含于另一个字符串信息中的一个或多个子串信息间至少两种类型的相似度信息的方式已在说明第二子确定装置22时予以详述,并以引用的方式包含于此,不再赘述。
具体地,第五子确定装置根据所述整体相似度信息和所述包含于其中一个字符串信息中的一个或多个子串信息与包含于另一个字符串信息中的一个或多个子串信息间至少两种类型的相似度信息,来确定所述最终相似度信息的方式包括但不限于:
1)根据所述包含于其中一个字符串信息中的一个或多个子串信息与包含于另一个字符串信息中的一个或多个子串信息,获得待处理的两个字符串信息间的分串相似度信息,并选择该分串相似度信息和所述整体相似度信息中相似度值或相似度等级较高的一者作为所述最终相似度信息;其中,第五子确定装置获得所述分串相似度信息的方式,与第二子确定装置22获得所述最终相似度信息的方式相同或相似,在此不再赘述。
例如,第四获取装置获得字符串信息A和B间一种类型的整体相似度信息为0.6,且第五子确定装置获得字符串信息A和B间的分串相似度信息为0.83,则第五子确定装置选择相似度值较高的分串相似度信息作为所述最终相似度信息。
2)对所述分串相似度信息以及所述至少一种类型整体相似度信息进行处理,以获得所述最终相似度信息。
例如,第四获取装置获得字符串信息A和B间字符串特征向量类型的整体相似度信息为0.6,主题分布类型的整体相似度信息为0.4,且第五子确定装置获得字符串信息A和B间的分串相似度信息为0.83,则第五子确定装置根据预定的字符串特征向量类型的整体相似度信息的权重值为0.45,主题分布类型的整体相似度信息的权重值为0.47,分串相似度信息的权重值为0.86,来对所述两种类型的整体相似度信息以及分串相似度信息求取加权和,以获得最终相似度信息=0.45*0.6+0.47*0.4+0.86*0.83=1.1718。
需要进一步说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何根据所述整体相似度信息和所述包含于其中一个字符串信息中的一个或多个子串信息与包含于另一个字符串信息中的一个或多个子串信息间至少两种类型的相似度信息来确定所述最终相似度信息的实现方式,均应包含在本发明的范围内。
根据本优选方案的相似度确定装置,能够通过综合考虑整体相似度信息和分串相似度信息来获得最终相似度信息,提高了获取待处理的两个字符串信息间的最终相似度信息的准确度。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。

Claims (13)

1.一种计算机实现的用于基于多种类型来确定字符串信息间相似度信息的方法,其中,该方法包括以下步骤:
a获取待处理的两个字符串信息;
b1对所述两个字符串信息中的至少一个字符串信息进行划分,以获得该至少一个字符串信息包含的多个子串信息;
b21由所述两个字符串信息中获取当前子串组合对信息;
b22获取包含于所述当前子串组合对信息中的各个待处理子串信息对的至少两种类型的相似度信息;
b23根据所述待处理子串信息对的至少两种类型的相似度信息及历史相似度信息,确定所述当前子串组合对信息间的相似度信息;
b24将所述当前子串组合对信息间的相似度信息作为历史相似度信息之一,重复步骤b21至步骤b23以及前述将所述当前子串组合对信息间的相似度信息作为历史相似度信息之一的步骤直至所述当前子串组合对信息包含所述两个字符串信息,并将所述当前子串组合对信息间的相似度信息作为所述两个字符串信息间的最终相似度信息。
2.根据权利要求1所述的方法,其中,该方法还包括以下步骤:
-获取所述两个字符串信息间至少一种类型的整体相似度信息;
其中,所述步骤b24替换为以下步骤:
-将所述当前子串组合对信息间的相似度信息作为历史相似度信息之一,重复步骤b21至步骤b23以及前述将所述当前子串组合对信息间的相似度信息作为历史相似度信息之一的步骤直至所述当前子串组合对信息包含所述两个字符串信息,并将所述当前子串组合对信息间的相似度信息作为所述两个字符串信息间的分串相似度信息;
其中,该方法还包括以下步骤:
-选择该分串相似度信息和所述整体相似度信息中相似度值或相似度等级较高的一者作为所述最终相似度信息;或者
-对所述分串相似度信息以及所述至少一种类型整体相似度信息进行处理,获得所述最终相似度信息。
3.根据权利要求1或2所述的方法,其中,所述至少两种类型包括以下各项中的任意至少两种:
-编辑距离类型;
-读音类型;
-同义词匹配类型;
-短文本扩展类型;
-字符串特征向量类型;
-主题分布类型。
4.根据权利要求3所述的方法,其中,所述至少两种类型包括编辑距离类型,其中,该方法还包括以下步骤:
-根据将所述两个字符串信息中的一个字符串信息转换至另一个字符串信息的转换处理中所执行编辑操作相关的字符变化信息,来确定所述两个字符串信息间编辑距离类型的相似度信息。
5.根据权利要求3所述的方法,其中,所述至少两种类型包括字符串特征向量类型,其中,该方法还包括以下步骤:
-根据分别基于所述两个字符串信息的检索结果来获得的两个字符串特征向量,确定所述两个字符串信息间的字符串特征向量类型的相似度信息。
6.根据权利要求3所述的方法,其中,所述至少两种类型包括主题分布类型,该方法还包括以下步骤:
-根据分别与所述两个字符串信息相关的多个资源信息的主题,确定所述两个字符串信息间的主题分布类型的相似度信息。
7.一种用于确定字符串信息间相似度信息的相似度确定装置,其中,该相似度确定装置包括:
第一获取装置,用于获取待处理的两个字符串信息;
划分装置,用于对所述两个字符串信息中的至少一个字符串信息进行划分,以获得该至少一个字符串信息包含的多个子串信息;
子串获取装置,用于由所述两个字符串信息中获取当前子串组合对信息;
第三获取装置,用于获取包含于所述当前子串组合对信息中的各个待处理子串信息对的至少两种类型的相似度信息;
第四子确定装置,用于根据所述待处理子串信息对的至少两种类型的相似度信息及历史相似度信息,确定所述当前子串组合对信息间的相似度信息;
迭代装置,用于将所述当前子串组合对信息间的相似度信息作为历史相似度信息之一,且重复执行所述子串获取装置、所述第三获取装置及所述第四子确定装置的相应操作以及将所述当前子串组合对信息间的相似度信息作为历史相似度信息之一的操作,直至所述当前子串组合对信息包含所述两个字符串信息,并将所述当前子串组合对信息间的相似度信息作为所述两个字符串信息间的最终相似度信息。
8.根据权利要求7所述的相似度确定装置,其中,该相似度确定装置还包括:
第四获取装置,用于获取所述两个字符串信息间至少一种类型的整体相似度信息;
其中,所述迭代装置替换为:
第五子确定装置,用于将所述当前子串组合对信息间的相似度信息作为历史相似度信息之一,且重复执行所述子串获取装置、所述第三获取装置及所述第四子确定装置的相应操作以及将所述当前子串组合对信息间的相似度信息作为历史相似度信息之一的操作,直至所述当前子串组合对信息包含所述两个字符串信息,并将所述当前子串组合对信息间的相似度信息作为所述两个字符串信息间的分串相似度信息;
其中,所述第五子确定装置还用于:
选择该分串相似度信息和所述整体相似度信息中相似度值或相似度等级较高的一者作为所述最终相似度信息;或者
对所述分串相似度信息以及所述至少一种类型整体相似度信息进行处理,获得所述最终相似度信息。
9.根据权利要求7或8所述的相似度确定装置,其中,所述至少两种类型包括以下各项中的任意至少两种:
-编辑距离类型;
-读音类型;
-同义词匹配类型;
-短文本扩展类型;
-字符串特征向量类型;
-主题分布类型。
10.根据权利要求9所述的相似度确定装置,其中,所述至少两种类型包括编辑距离类型,其中,该相似度确定装置还包括:
第一类型相似度确定装置,用于根据将所述两个字符串信息中的一个字符串信息转换至另一个字符串信息的转换处理中所执行编辑操作相关的字符变化信息,来确定所述两个字符串信息间编辑距离类型的相似度信息。
11.根据权利要求9所述的相似度确定装置,其中,所述至少两种类型包括字符串特征向量类型,其中,该相似度确定装置还包括:
第二类型相似度确定装置,用于根据分别基于所述两个字符串信息的检索结果来获得的两个字符串特征向量,确定所述两个字符串信息间的字符串特征向量类型的相似度信息。
12.根据权利要求9所述的相似度确定装置,其中,所述至少两种类型包括主题分布类型,该相似度确定装置还包括:
第三类型相似度确定装置,用于根据分别与所述两个字符串信息相关的多个资源信息的主题,确定所述两个字符串信息间的主题分布类型的相似度信息。
13.一种计算机设备,其中,该计算机设备包括如权利要求7至12中至少一项所述的相似度确定装置。
CN 201110099437 2011-04-20 2011-04-20 用于确定字符串信息间相似度信息的方法、装置和设备 Active CN102184169B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201110099437 CN102184169B (zh) 2011-04-20 2011-04-20 用于确定字符串信息间相似度信息的方法、装置和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201110099437 CN102184169B (zh) 2011-04-20 2011-04-20 用于确定字符串信息间相似度信息的方法、装置和设备

Publications (2)

Publication Number Publication Date
CN102184169A CN102184169A (zh) 2011-09-14
CN102184169B true CN102184169B (zh) 2013-06-19

Family

ID=44570346

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201110099437 Active CN102184169B (zh) 2011-04-20 2011-04-20 用于确定字符串信息间相似度信息的方法、装置和设备

Country Status (1)

Country Link
CN (1) CN102184169B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106650803A (zh) * 2016-12-09 2017-05-10 北京锐安科技有限公司 一种计算字符串间相似度的方法及装置

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102622338B (zh) * 2012-02-24 2014-02-26 北京工业大学 一种短文本间语义距离的计算机辅助计算方法
CN102955774A (zh) * 2012-05-30 2013-03-06 华东师范大学 一种计算中文词语语义相似度的控制方法以及装置
CN103678272B (zh) * 2012-09-17 2016-04-06 北京信息科技大学 汉语依存树库中未登录词的处理方法
CN104424279B (zh) * 2013-08-30 2018-11-20 腾讯科技(深圳)有限公司 一种文本的相关性计算方法和装置
CN103678655B (zh) * 2013-12-23 2017-02-08 国网浙江省电力公司 一种信息校核方法和装置
CN105095203B (zh) * 2014-04-17 2018-10-23 阿里巴巴集团控股有限公司 同义词的确定、搜索方法及服务器
CN104462060B (zh) * 2014-12-03 2017-08-01 百度在线网络技术(北京)有限公司 通过计算机实现的计算文本相似度和搜索处理方法及装置
CN106033416B (zh) * 2015-03-09 2019-12-24 阿里巴巴集团控股有限公司 一种字符串处理方法及装置
CN104866985B (zh) * 2015-05-04 2019-03-08 小米科技有限责任公司 快递单号识别方法、装置及系统
CN106598986B (zh) * 2015-10-16 2020-11-27 北京国双科技有限公司 相似度计算的方法及装置
CN106127222B (zh) * 2016-06-13 2019-06-04 中国科学院信息工程研究所 一种基于视觉的字符串相似度计算方法及相似性判断方法
CN107688563B (zh) * 2016-08-05 2021-03-19 中国移动通信有限公司研究院 一种同义词的识别方法及识别装置
CN106484678A (zh) * 2016-10-13 2017-03-08 北京智能管家科技有限公司 一种短文本相似度计算方法及装置
CN106446717A (zh) * 2016-10-14 2017-02-22 深圳天珑无线科技有限公司 一种信息处理方法、装置及终端
CN107895251A (zh) * 2016-12-24 2018-04-10 上海壹账通金融科技有限公司 数据纠错方法及装置
CN106649749B (zh) * 2016-12-26 2019-07-16 浙江传媒学院 一种基于汉语音位特征的文本查重方法
CN108255836B (zh) * 2016-12-28 2020-12-25 普天信息技术有限公司 一种字符串匹配方法及装置
CN108664957B (zh) * 2017-03-31 2021-08-24 杭州海康威视数字技术股份有限公司 车牌号码匹配方法及装置、字符信息匹配方法及装置
CN107564528B (zh) * 2017-09-20 2020-12-15 广东惠禾科技发展有限公司 一种语音识别文本与命令词文本匹配的方法及设备
CN108399192B (zh) * 2018-01-25 2020-07-24 贝壳找房(北京)科技有限公司 一种小区信息匹配方法及装置
CN109189809B (zh) * 2018-10-17 2020-01-03 北京金堤科技有限公司 一种股东名称关联匹配的方法和装置
CN111444450A (zh) * 2019-01-16 2020-07-24 北大方正集团有限公司 转载数据确定方法及设备
CN111488497B (zh) * 2019-01-25 2023-05-12 北京沃东天骏信息技术有限公司 字符串集合的相似度确定方法、装置、终端及可读介质
CN110348539B (zh) * 2019-07-19 2021-05-07 知者信息技术服务成都有限公司 短文本相关性判别方法
CN110390015B (zh) * 2019-07-23 2022-03-22 中国工商银行股份有限公司 一种数据信息处理方法、装置及系统
CN111459789B (zh) * 2019-08-28 2023-11-03 南京意博软件科技有限公司 一种应用程序编程接口的检测方法及装置
CN111460215B (zh) * 2020-03-30 2021-08-24 腾讯科技(深圳)有限公司 音频数据处理方法、装置、计算机设备以及存储介质
CN111539197B (zh) * 2020-04-15 2023-08-15 北京百度网讯科技有限公司 文本匹配方法和装置以及计算机系统和可读存储介质
CN113094559B (zh) * 2021-04-25 2024-05-31 百度在线网络技术(北京)有限公司 信息匹配方法、装置、电子设备和存储介质
CN114022660B (zh) * 2021-10-27 2025-02-28 国家能源集团广西电力有限公司 一种标签处理方法、装置及计算机可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1434400A (zh) * 2002-01-22 2003-08-06 住友电气工业株式会社 字符串相似度计算方法、装置、程序和存储媒体
CN101561813A (zh) * 2009-05-27 2009-10-21 东北大学 一种Web环境下的字符串相似度的分析方法
CN101702171A (zh) * 2009-11-19 2010-05-05 新蛋信息技术(西安)有限公司 一种大量字符串的近似匹配方法
CN102122298A (zh) * 2011-03-07 2011-07-13 清华大学 一种中文相似性匹配方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1434400A (zh) * 2002-01-22 2003-08-06 住友电气工业株式会社 字符串相似度计算方法、装置、程序和存储媒体
CN101561813A (zh) * 2009-05-27 2009-10-21 东北大学 一种Web环境下的字符串相似度的分析方法
CN101702171A (zh) * 2009-11-19 2010-05-05 新蛋信息技术(西安)有限公司 一种大量字符串的近似匹配方法
CN102122298A (zh) * 2011-03-07 2011-07-13 清华大学 一种中文相似性匹配方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
章成志.基于多层特征的字符串相似度计算模型.《情报学报》.2005,第24卷(第06期), *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106650803A (zh) * 2016-12-09 2017-05-10 北京锐安科技有限公司 一种计算字符串间相似度的方法及装置

Also Published As

Publication number Publication date
CN102184169A (zh) 2011-09-14

Similar Documents

Publication Publication Date Title
CN102184169B (zh) 用于确定字符串信息间相似度信息的方法、装置和设备
CN108804641B (zh) 一种文本相似度的计算方法、装置、设备和存储介质
CN103914533B (zh) 推广搜索结果的展现方法和装置
CN102081602B (zh) 确定未登录词的类别的方法和设备
CN106415537A (zh) 本地应用的触发和排名
WO2008103961A1 (en) Diverse topic phrase extraction
CN102110126A (zh) 信息检索方法及装置
CN103927177B (zh) 基于LDA模型和PageRank算法建立特征接口有向图的方法
CN105653701A (zh) 模型生成方法及装置、词语赋权方法及装置
CN108681564A (zh) 关键词和答案的确定方法、装置和计算机可读存储介质
CN113204642A (zh) 文本聚类方法、装置、存储介质和电子设备
CN103942198A (zh) 用于挖掘意图的方法和设备
CN106202224B (zh) 搜索处理方法及装置
CN103678513B (zh) 一种交互式的检索式生成方法及系统
CN105224624A (zh) 一种实现倒排链快速归并的方法和装置
KR20240135812A (ko) 신경망을 사용하여 태스크 설명으로부터 컴퓨터 코드 생성
CN102184195B (zh) 用于获取字符串间相似度的方法、装置和设备
CN113139558A (zh) 确定物品的多级分类标签的方法和装置
CN115495636A (zh) 网页搜索方法、装置及存储介质
CN111339287B (zh) 摘要生成方法及装置
CN102760127A (zh) 基于扩展文本信息来确定资源类型的方法、装置及设备
CN113918807A (zh) 数据推荐方法、装置、计算设备及计算机可读存储介质
CN102999520B (zh) 一种搜索需求识别的方法和装置
CN113378015A (zh) 搜索方法、装置、电子设备、存储介质和程序产品
CN104077320A (zh) 一种用于生成待发布信息的方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant