CN104850554B - 一种搜索方法和系统 - Google Patents
一种搜索方法和系统 Download PDFInfo
- Publication number
- CN104850554B CN104850554B CN201410051875.4A CN201410051875A CN104850554B CN 104850554 B CN104850554 B CN 104850554B CN 201410051875 A CN201410051875 A CN 201410051875A CN 104850554 B CN104850554 B CN 104850554B
- Authority
- CN
- China
- Prior art keywords
- semantic
- words
- entity
- word string
- query word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 230000014509 gene expression Effects 0.000 claims abstract description 113
- 238000004458 analytical method Methods 0.000 claims abstract description 54
- 239000003607 modifier Substances 0.000 claims description 36
- 238000000605 extraction Methods 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 13
- 238000013519 translation Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 6
- 244000042038 Tropaeolum tuberosum Species 0.000 description 5
- 238000004590 computer program Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000005065 mining Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 239000012634 fragment Substances 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 241000723343 Cichorium Species 0.000 description 1
- 235000005206 Hibiscus Nutrition 0.000 description 1
- 235000007185 Hibiscus lunariifolius Nutrition 0.000 description 1
- 244000284380 Hibiscus rosa sinensis Species 0.000 description 1
- 241000519999 Stachys Species 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- QSHDDOUJBYECFT-UHFFFAOYSA-N mercury Chemical compound [Hg] QSHDDOUJBYECFT-UHFFFAOYSA-N 0.000 description 1
- 229910052753 mercury Inorganic materials 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 108010047303 von Willebrand Factor Proteins 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供了一种搜索方法和系统,所述方法包括:当接收到查询词串时,对所述查询词串进行语义分析,得到所述查询词串对应的语义表达式;结合所述语义表达式进行匹配分析,确定当前所述查询词串中各词所属的语义标签;根据所述语义标签对所述查询词串进行改写;以改写后的查询词串进行搜索,得到匹配的网络信息。本申请通过对查询词串进行语义分析,得到语义表达式,进而确定符合当前语境的语义表达式中各词所属的语义标签,基于该语义标签进行查询词串的改写,更为符合用户意图,使得在搜索时信息匹配的成功率高,提高了搜索的质量和搜索的效率。
Description
技术领域
本申请涉及计算机技术领域,特别是涉及一种搜索方法和一种搜索系统。
背景技术
查询改写是在搜索引擎查询过程中,对用户输入的原始查询词进行改写,以返回更好的搜索结果。现有技术中,查询改写主要是纠正用户输入错误。如:用户输入“走结论”、“zoujielun”或者“zhoujielun”,搜索引擎很难给用户找到正确的网页。对查询进行纠错后,即根据“zoujielun”在纠错模型中进行分析,分析得到的结果中,“周杰伦”对应的文本匹配的结果的比例较大,则修改成符合用户原本意图的查询词“周杰伦”,在用户不干预的情况下,搜索引擎就可以返回符合用户意图的网页,提升用户体验。
现有网页搜索技术主要是基于关键词进行查询。当用户输入查询词查找信息时,搜索引擎对查询词进行中文分词,将查询词转换成几个关键词,然后去网页的倒排索引库中进行查找,将命中关键字的网页返回,再采用一定的排序算法,从相关度、时效性、用户意图等几个方面对命中的网页进行排序,按顺序将这些网页链接返回给用户。
现有的基于关键词的搜索技术,即“查询词->关键字->查找”的这种依赖字符串匹配的检索方式,简单地将查询词进行切分,容易损失一部分信息,偏离用户的意图,从而无法通过关键字获得有效的结果。
例如,如图1所示,搜索引擎检索查询词“谢霆锋是谁的儿子”时,分词后得到的关键字为“谢霆锋”、“谁”、“儿子”,使用这三个关键字进行检索,由于网络中“lucas”的出现频率远比“谢贤”出现的频率要高,则以单纯依靠文本匹配返回的网页大多是描述“谢霆锋的儿子”,即lucas相关的网页,这样单纯依靠匹配得到的搜索结果对应的匹配成功率往往较低,难以满足用户需求。
发明内容
本申请所要解决的技术问题是提供一种搜索方法和系统,解决现有技术中对于问题的解答搜索过程中出现的搜索结果匹配成功率低,难以满足用户需求问题。
为了解决上述问题,本申请公开了一种搜索方法,包括:
当接收到查询词串时,对所述查询词串进行语义分析,得到所述查询词串对应的语义表达式;
结合所述语义表达式进行匹配分析,确定当前所述查询词串中各词所属的语义标签;
根据所述语义标签对所述查询词串进行改写;
以改写后的查询词串进行搜索,得到匹配的网络信息。
优选地,所述当接收到查询词串时,对所述查询词串进行语义分析,得到所述查询词串对应的语义表达式的步骤包括:
在知识库预置的实体词列表中查找所述查询词串对应的实体词;
在知识库预置的属性词列表中查找所述查询词串对应的属性词。
优选地,所述确定当前所述查询词串中各词所属的语义标签的步骤包括:
提取所述属性词的预置的语义标签;
对所述实体词标记一个或多个原始语义标签;
分别判断被标记原始语义标签的所述实体词,与被标记语义标签的所述属性词是否存在预定义的关联关系;若是,则确定存在所述预定义关联关系的原始语义标签为当前所述实体词所属的语义标签。
优选地,所述根据所述语义标签对所述查询词串进行改写的步骤包括:
采用所述语义标签查找预置的标识实体词;
将所述实体词替换为预置的标识实体词;
和/或,
将所述属性词替换为预置的标识属性词;
和/或,
判断所述查询词串是否符合逆向表达的句法规则;若是,则获取对应的在服务器存储的符合正向表达的句法规则对应的预置表达式;所述预置表达式具有使用频次;
当所述预置表达式的使用频次高于预设阈值时,将所述查询词串按照正向表达的句法规则进行改写。
优选地,所述标识实体词为与所述实体词具有相同的语义标签,且使用频次最多的实体词;
所述标识属性词为与所述属性词描述同一类实体词,且使用频次最多的属性词。
优选地,所述判断所述查询词串是否符合逆向表达的句法规则的步骤包括:
对所述查询词串进行句法分析,获得主语和修饰语,以及,所述主语和所述修饰语之间的依赖关系;所述依赖关系包括所述主语依赖所述修饰词的依赖关系;
当所述主语为所述实体词、所述修饰词为所述属性词,并且,所述依赖关系为所述主语依赖所述修饰词的依赖关系时,则所述查询词串符合逆向表达的句法规则。
本申请还公开了一种搜索系统,包括:
词性解析模块,用于在接收到查询词串时,对所述查询词串进行语义分析,得到所述查询词串对应的语义表达式;
语义标签确定模块,用于结合所述语义表达式进行匹配分析,确定当前所述查询词串中各词所属的语义标签;
改写模块,用于根据所述语义标签对所述查询词串进行改写;
查询模块,用于以改写后的查询词串进行搜索,得到匹配的网络信息。
优选地,所述词性解析模块包括:
实体词查找模块,用于在知识库预置的实体词列表中查找所述查询词串对应的实体词;
属性词查找模块,用于在知识库预置的属性词列表中查找所述查询词串对应的属性词。
优选地,所述语义标签确定模块包括:
提取子模块,用于提取所述属性词的预置的语义标签;
标记子模块,用于对所述实体词标记一个或多个原始语义标签;
关联关系判断模块,用于分别判被标记原始语义标签的所述实体词,与被标记语义标签的所述属性词是否存在预定义的关联关系;若是,则调用确定子模块;
确定子模块,用于确定存在所述预定义关联关系的原始语义标签为当前所述实体词所属的语义标签。
优选地,所述改写模块包括:
标识实体词查找子模块,用于采用所述语义标签查找预置的标识实体词;
标识实体词替换子模块,用于将所述实体词替换为预置的标识实体词;
和/或,
标识属性词替换子模块,用于将所述属性词替换为预置的标识属性词;
和/或,
逆向表达判断子模块,用于判断所述查询词串是否符合逆向表达句法规则;若是,则调用预置表达式获取子模块;
预置表达式获取子模块,用于获取对应的在服务器存储的符合正向表达句法规则的预置表达式;所述预置表达式具有使用频次;
正向表达改写子模块,用于在所述预置表达式的使用频次高于预设阈值时,将所述查询词串按照正向表达句法规则进行改写。
优选地,所述标识实体词为与所述实体词具有相同的语义标签,且使用频次最多的实体词;
所述标识属性词为与所述属性词描述同一类实体词,且使用频次最多的属性词。
优选地,所述逆向表达判断子模块包括:
句法分析子模块,用于对所述查询词串进行句法分析,获得主语和修饰语,以及,所述主语和所述修饰语之间的依赖关系;所述依赖关系包括所述主语依赖所述修饰词的依赖关系;
判定子模块,用于在所述主语为所述实体词、所述修饰词为所述属性词,并且,所述依赖关系为所述主语依赖所述修饰词的依赖关系时,则所述查询词串符合逆向表达的句法规则。
与现有技术相比,本申请包括以下优点:
本申请通过对查询词串进行语义分析,得到语义表达式,进而确定符合当前语境的语义表达式中各词所属的语义标签,基于该语义标签进行查询词串的改写,更为符合用户意图,使得在搜索时信息匹配的成功率高,提高了搜索的质量和搜索的效率。
本申请将实体词、属性词改写为与搜索引擎友好的标识实体词、标识属性词,将不常用的逆向表达的查询词串改写为常用的正向表达的查询词串,提高了搜索引擎搜索信息的覆盖率,进一步提高了信息匹配的成功率。
附图说明
图1是一种现有技术的一种搜索结果示例图;
图2是本申请的一种搜索方法实施例的步骤流程图;
图3是本申请的一种正向表达改写的示例图;
图4是本申请的一种搜索结果示例图;
图5是本申请的一种搜索系统实施例的结构框图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
知识库是知识工程中结构化、易操作、易利用、全面有组织的知识集群,是针对某一(或某些)领域问题求解的需要,采用某种(或若干)知识表示方式在计算机存储器中存储、组织、管理和使用的互相联系的知识片集合。这些知识片包括与领域相关的理论知识、事实数据,由专家经验得到的启发式知识,如某领域内有关的定义、定理和运算法则以及常识性知识等。
本申请的核心思想之一在于,基于知识库对查询词串进行符合语法规范的改写,以获取更加全面的符合用户意图的搜索结果。
参照图2,示出了本申请的一种搜索方法实施例的步骤流程图。
步骤201,当接收到查询词串时,对所述查询词串进行语义分析,得到所述查询词串对应的语义表达式;
查询词串可以为用户在客户端(例如搜索引擎的网页、浏览器的搜索插件等等)输入的词组或句子,用于请求搜索与之相关的信息。
对于查询词串,需要进行语义分析,具体可以包括判断查询词串是否超过预设的长度、对查询词串进行分词等等,然后标识出查询词串中的实体词和属性词。
在本申请的一种优选实施例中,所述步骤201具体可以包括如下子步骤:
子步骤S11,在知识库预置的属性词列表中查找所述查询词串对应的属性词;
子步骤S12,在知识库预置的实体词列表中查找所述查询词串对应的实体词。
应用本申请实施例,可以预先根据全网中抓取的数据进行分析构建知识库。具体地,知识库中可以存储有实体词列表和属性词列表。
在实体词列表中,可以记载有预先采集的实体词;在属性词列表中,可以记载有预先采集的属性词。
基于资源描述框架(Resource Description Framework,RDF),即网络资源对象和其间关系的数据模型,可以将采用形如“实体-属性-值”的三元组来描述各种资源和它们之间的关系。
1、实体:对应的一个具体的个体,在明星类别中,比如刘德华,张柏芝,林青霞等,也包含一些宽泛的代表类别的个体,比如人,电影明星,歌手等。
2、属性:就是实体所包含的特性,除了包含属性名称外,每个属性还有一个反应属性值类型的类型变量,比如[身高:长度],[年龄:整数],[出生日期:日期]等。
3、属性值:与属性对应的值,比如168cm(身高),87kg(体重)等,这部分也就是知识库中的知识。属性值还会记录知识的来源,用于帮助用户判断知识的可靠性。
其中,属性词可以通过通过挖掘网页和搜索日志获得。
基于RDF的三元组“实体-属性-值”,假如实体是“刘德华”,属性“妻子关系”,值是“朱丽倩”,可以通过如下方式查找出描述“夫妻关系”的属性词:
1、通过挖掘网页和搜索日志,得到实体和值之间的文本片断。比如,“刘德华的老婆朱丽倩”,“刘德华的太太朱丽倩”,“冯小刚的老婆徐帆”。
2、统计单个“实体-值”之间文本片断的使用频次。比如,“刘德华的老婆朱丽倩”的使用频次为2,“刘德华的太太朱丽倩”的使用频次为3,
“冯小刚的老婆徐帆”的使用频次为2。
3、统计同类“实体-值”之间文本片断的使用频次。比如,“<实体>的老婆<值>”的使用频次为4,“<实体>的太太<值>”的使用频次为3。
4、从文本片断中提取出超过预设的次数阈值的属性词。比如,次数阈值为2,提取使用频次超过2的文本片断作为属性词,就能找到“妻子关系”对应的属性词是“老婆”和“太太”。
步骤202,结合所述语义表达式进行匹配分析,确定当前所述查询词串中各词所属的语义标签;
对标识出实体词和属性词的查询词串,基于知识库可以使用上下文无关的方法进行句法分析,得到实体词及属性词的关联关系,进而识别出符合当前语境的实体词的语义标签。
上下文无关的方法,又称2型文法,是形式语言理论中一种变换文法,用来描述上下文无关语言。具体是通过定义的一套文法规则,可以用来进行句法分析,得到句子结构及各句子成分之间的关联关系。具体地,文法规则可以存储在知识库中。
在本申请的一种优选实施例中,所述步骤202具体可以包括如下子步骤:
子步骤S21,提取所述属性词的预置的语义标签;
属性词可以具有确定含义的语义标签,存储在知识库中。
子步骤S22,对所述实体词标记一个或多个原始语义标签;
原始语义标签可以为表达实体词含义的信息。
例如,对于查询词串“笑傲江湖哪天上映”,“笑傲江湖”为实体词,其可以有很多的原始语义标签,比如电影、电视剧、小说、剧本、游戏等。
子步骤S23,分别判断被标记原始语义标签的所述实体词,与被标记语义标签的所述属性词是否存在预定义的关联关系;若是,则执行子步骤S24;
比如定义一个文法规则<实体_人><属性_妻子关系>为具有关联关系,那么对于查询词串“刘德华的老婆”,其对应的语义表达式可以为“刘德华<实体_人>的老婆<属性_妻子关系>”,通过检查<实体_人><属性_妻子关系>是满足文法规则要求,是合法的,即具有预定义的关联关系,所以可以得到<属性_妻子关系>老婆依赖于<实体_人>刘德华。
此外,假设没有预定义<实体_人><属性_身高>,那么对于查询词串“刘德华的身高”标识出的“刘德华<实体_人>的身高<属性_身高>”,就不合法,没有预定义的关联关系。
子步骤S24,确定存在所述预定义关联关系的原始语义标签为当前所述实体词所属的语义标签。
对于上述查询词串“笑傲江湖哪天上映”,通过句法分析得到,“哪天上映”修饰“笑傲江湖”,通过文法规则可以分析出“上映”为“电影”类别实体的属性,因此可以确定此处“笑傲江湖”是电影,而非电视剧、小说、游戏等。
步骤203,采用所述语义标签对所述查询词串进行改写;
本申请实施例中,可以对确定语义标签后的带实体属性标记的查询词串进行改写,将用户输入的自然语言(查询词串)改写成对搜索引擎友好的关键字,使搜索结果与查询词串对应的自然语言的语义更加匹配,提高了搜索的覆盖率,也提高了搜索的效率和质量。
改写可以分为二类:一类是实体词、属性词替换改写,一类是句式替换改写。
在本申请的一种优选实施例中,所述步骤203具体可以包括如下子步骤:
子步骤S31,采用所述语义标签查找预置的标识实体词;
子步骤S32,将所述实体词替换为预置的标识实体词;
本申请实施例中,对于知识库中的实体词和属性词,事先建立自然语言查询和搜索引擎语言的对应关系,预先记载在翻译字典中,改写时就可以通过查翻译字典替换得到对搜索引擎友好的标识实体词。具体地,翻译字典可以存储在知识库中。
由于知识库是基于互联网抽取的知识,所以可以统计出每个实体词和属性词的网页标准描述。通过对网页进行网页标准描述识别、正文抽取、中文分词、实体词识别、属性词识别等步骤,统计出每个实体词和属性词在互联网中出现的次数,从而将同一实体不同表达中,在互联网出现频率最高的定义为对搜索引擎友好的实体词和属性词作为标识实体词和标识属性词,以提高实体词和属性词的覆盖度。比如,实体词“史恒侠”、“火冰可儿”、“芙蓉姐姐”是同一个实体,都是代表芙蓉姐姐这个人,结合上下文统计这些实体词在互联网文本中出现的次数,可以得到“芙蓉姐姐”的使用频次远大于“史恒侠”和“火冰可儿”的使用频次。那么这时候就可以认为,“芙蓉姐姐”这个词对应的搜索引擎的友好的实体词是“芙蓉姐姐”,用户自然语言查询中的实体词“史恒侠”“、火冰可儿”进行替换,可以翻译成标识实体词“芙蓉姐姐”。
即对于本申请实施例,所述标识实体词可以为与所述实体词具有相同的语义标签,且使用频次最多的实体词;
和/或,
子步骤S33,将所述属性词替换为预置的标识属性词;
本申请实施例中,对于对属性词可以采用与实体词同样的处理方法建立自然语言查询和搜索引擎语言的对应关系。
通过互联网中同一类实体对应的同一属性的不同描述(即属性词)的使用频次,得到对应的对搜索引擎友好关键字作为标识属性词。
即对于本申请实施例,所述标识属性词可以为与所述属性词描述同一类实体词,且使用频次最多的属性词。
改写的过程就是一个查翻译字典的过程,比如查询词串为“史恒侠哪儿出生的”,在确定当前实体词的语义标签后,语义表达式可以为“史恒侠<实体_人>哪儿出生的<属性_出生地>”,通过查询翻译字典,可以得到实体词“史恒侠”对应的标识实体词为“芙蓉姐姐”,属性词“哪儿出生的”对应的标识属性词为“出生地”。
和/或,
子步骤S34,判断所述查询词串是否符合逆向表达的句法规则;若是,则执行子步骤S35;
逆向表达可以与正向表达相对,这两者同一语义、为对同一事物的两个相反角度的描述。
在本申请的一种优选实施例中,所述子步骤S34进一步可以包括如下子步骤:
子步骤S341,对所述查询词串进行句法分析,获得主语和修饰语,以及,所述主语和所述修饰语之间的依赖关系;所述依赖关系包括所述主语依赖所述修饰词的依赖关系;
句法分析,可以为根据给定的语法提示,推导出句子的语法结构,分析句子所包含的句法单位和这些句法单位之间的关系。
具体实现中,可以通过统计来得到句法分析结果,主要分析为三步:
1、采用人工标注的方法,对采集的语料库中的每个句子进行句法分析标注,进而汇集成句库;
2、在句库的基础上上,学习得到PCFG(Probabilistic Context-free Grammar,概率上下文无关文法)模型;
3、采用PCFG模型对句子分析,得到相应句子成分(主语、谓语、宾语、修饰成分等等)和各个成分之间的依赖关系。此依赖关系可以包括主语依赖修饰词的依赖关系,或者,修饰词依赖主语的依赖关系。
子步骤S342,当所述主语为所述实体词、所述修饰词为所述属性词,并且,所述依赖关系为所述主语依赖所述修饰词的依赖关系时,则所述查询词串符合逆向表达的句法规则。
此时,主语依赖修饰词的依赖关系即为实体词依赖于属性词的依赖关系。
此外,当所述主语为所述实体词、所述修饰词为所述属性词,并且,所述依赖关系为所述修饰词依赖所述主语的依赖关系时,则所述查询词串符合正向表达的句法规则。
此时,修饰词依赖主语的依赖关系即为属性词依赖于实体词的依赖关系。例如,查询词串“谢霆锋的父亲是谁”中属性词“父亲”依赖于实体词“谢霆锋”,因此“谢贤的父亲是谁”符合正向表达的句法规则;而对于查询词串“谢霆锋是谁的儿子”,实体词“谢霆锋”依赖于属性词“儿子”,因此,“谢霆锋是谁的儿子”符合逆向表达的句法规则。所谓依赖,为PCFG模型中当前事物不能离开某个事物而独立存在。例如,在查询词串“谢霆锋的父亲是谁”中,“父亲”不能离开“谢霆锋”独立存在,则“父亲”依赖于“谢霆锋”,反之,“谢霆锋”可以离开“父亲”而独立存在。
子步骤S35,获取在服务器存储的符合正向表达的句法规则对应的预置表达式;所述预置表达式具有使用频次;
在具体实现中,正向表达和逆向表达的对应关系可以基于知识库通过互联网网页挖掘得到。基于知识库实体和属性值的文本对,通过机器翻译模型在互联网中挖掘出实体属性的所有的正向表达的表达式和逆向表达的表达式。
子步骤S36,当所述预置表达式的使用频次高于预设阈值时,将所述查询词串按照正向表达的句法规则进行改写。
本申请实施例中,可以统计出各种正向表达的表达式的使用频次,将使用频次高于预示阈值的正向表达的表达式作为搜索引擎友好的句式。
在具体实现中,可以将查询词串中实体词依赖于属性词的依赖关系改写为属性词依赖于实体词的依赖关系,进而将查询词串改写为符合正向表达的句法规则的查询词串
例如,如图3所示,对于查询词串“谢霆锋是谁的儿子”,实体词“谢霆锋”依赖于属性词“儿子”,通过句法树分析可以看出实体词和属性词之间是逆向表达的关系,在知识库中预先制作的逆向表达和正向表达对应关系表中,查找到对应的正向表达,及对应的使用频次。此示例的逆向表达的句法规范为“<实体_人>是谁的<属性_人_儿子>”,对应的正向表达的句法规范为“<实体_人>的<属性_人_父亲>是谁”。进一步地,可以通过查找翻译字典中得到实体词“谢霆锋”对应的搜索引擎的标识实体词为“谢霆锋”,查找翻译翻译字典得到属性词“<属性_人_父亲>”对应的搜索引擎友好词为“父亲”(即标识属性词),采用标识实体词和标识属性词按照正向表达的句法规则进行改写,得到最终的改写的查询词串为“谢霆锋的父亲是谁”,以改写后的查询词串“谢霆锋的父亲是谁”代替原有的“谢霆锋是谁的儿子”进行搜索,得到与谢贤相关的网页。
需要说明的是,对于实体词的改写(对应为子步骤S31和子步骤S32)、属性词的改写(对应为子步骤S33)和句式的改写(对应为子步骤S34、子步骤S35和子步骤S36)可以单个使用,也可以两个或三个的组合使用,本申请实施例对此不加以限制。
步骤204,以改写后的查询词串进行搜索,得到匹配的网络信息。
在查询词串改写结束之后,便可以进行网络信息的检索匹配。
如图4所示,应用本申请实施例,可以对用户输入的查询词串“谢霆锋是谁的儿子”改写为“谢霆锋的父亲是谁”,进而基于“谢霆锋的父亲是谁”进行搜索,相比于图2所示的搜索结果,本申请实施例返回的信息更为符合用户的需求。
本申请通过对查询词串中的自然语言进行语义分析,得到语义表达式,进而确定符合当前语境的语义表达式中各词所属的语义标签,基于该语义标签进行查询词串的改写,更为符合用户意图,使得在搜索时信息匹配的成功率高,提高了搜索的质量,并且搜索效率高,满足了用户需求,提高了用户体验。
本申请可以将实体词、属性词改写为与搜索引擎友好的标识实体词、标识属性词,可以将不常用的逆向表达的查询词串改写为常用的正向表达的查询词串,提高了搜索引擎搜索信息的覆盖率,进一步提高了信息匹配的成功率高。
为使本领域技术人员更好地理解本申请,以下提供一个例子来说明本申请实施例应用于查询词串“任丘在什么地方”的具体实现过程。
1、结合知识库对所述查询词串“任丘在什么地方”进行语义分析,其中包括:
实体词分析:通过查询知识库中的实体词列表,识别出“任丘”为实体词,类型(原始语义标签)为“人”、“地名”,语义表达式为“任丘<实体_人><实体_地点>”;
属性词分析:通过查询知识库中的属性词列表,识别出“在什么地方”为属性词,类型为地点,标记语义标签后,表示为“在什么地方<属性_地点_位置>”,
则查询词串对应的语义表达式为“任丘<实体_人><实体_地点>在什么地方<属性_地点_位置>”。
3、结合所述语义表达式进行匹配分析:首先进行句法分析,获得属性词“在什么地方”依赖于实体词“任丘”,“任丘”有二个类型:“人”和“地名”。通过检查实体词和属性词的类型一致性,属性词“在什么地方”和实体词“任丘”共有类型为<地点>,从而确定当前实体词“任丘”的语义标签为“地点”。这样可以得到语义标签分析后的结果,为“任丘<实体_地点>在什么地方<属性_地点_位置>”;
4、根据所述语义标签对所述查询词串进行改写:
a)查询实体词和属性词对应的搜索引擎友好的标识实体词和标识属性词。通过查找翻译字典,得到实体词“任丘”对应的标识实体词“任丘市”,属性词“在什么地方”对应的标识属性词“地理位置”;
b)将查询词串中的实体和属性替换为搜索引擎的友好词(即标识实体词和标识属性词),得到改写后的查询词串“任丘市地理位置”;
5、使用“任丘市地理位置”作为改写后的查询词串进行搜索,并返回结果给用户。
可以理解,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请实施例并不受所描述的动作顺序的限制,因为依据本申请实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请实施例所必须的。
参照图5,其示出了本申请的一种搜索系统实施例的结构框图,具体可以包括如下模块:
词性解析模块501,用于在接收到查询词串时,对所述查询词串进行语义分析,得到所述查询词串对应的语义表达式;
语义标签确定模块502,用于结合所述语义表达式进行匹配分析,确定当前查询词串中各词所属的语义标签;
改写模块503,用于根据所述语义标签对所述查询词串进行改写;
查询模块504,用于以改写后的查询词串进行搜索,得到匹配的网络信息。
在本申请的一种优选实施例中,所述词性解析模块501可以包括如下子模块:
实体词查找模块,用于在知识库预置的实体词列表中查找所述查询词串对应的实体词;
属性词查找模块,用于在知识库预置的属性词列表中查找所述查询词串对应的属性词。
在本申请的一种优选实施例中,所述语义标签确定模块502可以包括如下子模块:
提取子模块,用于提取所述属性词的预置的语义标签;
标记子模块,用于对所述实体词标记一个或多个原始语义标签;
关联关系判断模块,用于分别判断被标记原始语义标签的所述实体词,与被标记语义标签的所述属性词是否存在预定义的关联关系;若是,则调用确定子模块;
确定子模块,用于确定存在所述预定义关联关系的原始语义标签为当前所述实体词所属的语义标签。
在本申请的一种优选实施例中,所述改写模块503可以包括如下子模块:
标识实体词查找子模块,用于采用所述语义标签查找预置的标识实体词;
标识实体词替换子模块,用于将所述实体词替换为预置的标识实体词;
和/或,
标识属性词替换子模块,用于将所述属性词替换为预置的标识属性词;
和/或,
逆向表达判断子模块,用于判断所述查询词串是否符合逆向表达句法规则;若是,则调用预置表达式获取子模块;
预置表达式获取子模块,用于获取对应的在服务器存储的符合正向表达句法规则的预置表达式;所述预置表达式具有使用频次;
正向表达改写子模块,用于在所述预置表达式的使用频次高于预设阈值时,将所述查询词串按照正向表达句法规则进行改写。
在本申请的一种优选实施例中,所述标识实体词可以为与所述实体词具有相同的语义标签,且使用频次最多的实体词;
所述标识属性词可以为与所述属性词描述同一类实体词,且使用频次最多的属性词。
在本申请的一种优选实施例中,所述逆向表达判断子模块进一步可以包括如下子模块:
句法分析子模块,用于对所述查询词串进行句法分析,获得主语和修饰语,以及,所述主语和所述修饰语之间的依赖关系;所述依赖关系包括所述主语依赖所述修饰词的依赖关系;
判定子模块,用于在所述主语为所述实体词、所述修饰词为所述属性词,并且,所述依赖关系为所述主语依赖所述修饰词的依赖关系时,则所述查询词串符合逆向表达的句法规则。
对于系统实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本申请可用于众多通用或专用的计算系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本申请优选应用于嵌入式系统中。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
以上对本申请所提供的一种搜索方法和一种搜索系统,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (12)
1.一种搜索方法,其特征在于,包括:
当接收到查询词串时,对所述查询词串进行语义分析,得到所述查询词串对应的语义表达式;其中,对所述查询词串进行语义分析,标识出所述查询词串中的实体词和属性词;
结合所述语义表达式进行匹配分析,确定当前所述查询词串中各词所属的语义标签;其中,对标识出实体词和属性词的查询词串,基于知识库进行句法分析,得到实体词及属性词的关联关系,识别出符合当前语境的实体词的语义标签;
根据所述语义标签对所述查询词串进行改写;
以改写后的查询词串进行搜索,得到匹配的网络信息;
其中,所述对标识出实体词和属性词的查询词串,基于知识库进行句法分析,得到实体词及属性词的关联关系的步骤包括:
定义文法规则;
使用所述文法规则对所述语义表达式进行句法分析,得到所述语义表达式中实体词和属性词的关联关系;
其中,所述根据所述语义标签对所述查询词串进行改写的步骤包括:
判断所述查询词串是否符合逆向表达的句法规则;若是,则获取对应的在服务器存储的符合正向表达的句法规则对应的预置表达式;所述预置表达式具有使用频次;
当所述预置表达式的使用频次高于预设阈值时,将所述查询词串按照正向表达的句法规则进行改写。
2.根据权利要求1所述的方法,其特征在于,所述当接收到查询词串时,对所述查询词串进行语义分析,得到所述查询词串对应的语义表达式的步骤包括:
在知识库预置的实体词列表中查找所述查询词串对应的实体词;
在知识库预置的属性词列表中查找所述查询词串对应的属性词。
3.根据权利要求2所述的方法,其特征在于,所述确定当前所述查询词串中各词所属的语义标签的步骤包括:
提取所述属性词的预置的语义标签;
对所述实体词标记一个或多个原始语义标签;
分别判断被标记原始语义标签的所述实体词,与被标记语义标签的所述属性词是否存在预定义的关联关系;若是,则确定存在所述预定义的关联关系的原始语义标签为当前所述实体词所属的语义标签。
4.根据权利要求1或2或3所述的方法,其特征在于,所述根据所述语义标签对所述查询词串进行改写的步骤还包括:
采用所述语义标签查找预置的标识实体词;
将所述实体词替换为预置的标识实体词;
和/或,
将所述属性词替换为预置的标识属性词。
5.根据权利要求4所述的方法,其特征在于,所述标识实体词为与所述实体词具有相同的语义标签,且使用频次最多的实体词;
所述标识属性词为与所述属性词描述同一类实体词,且使用频次最多的属性词。
6.根据权利要求4所述的方法,其特征在于,所述判断所述查询词串是否符合逆向表达的句法规则的步骤包括:
对所述查询词串进行句法分析,获得主语和修饰语,以及,所述主语和所述修饰语之间的依赖关系;所述依赖关系包括所述主语依赖所述修饰语的依赖关系;
当所述主语为所述实体词、所述修饰语为所述属性词,并且,所述依赖关系为所述主语依赖所述修饰语的依赖关系时,则所述查询词串符合逆向表达的句法规则。
7.一种搜索系统,其特征在于,包括:
词性解析模块,用于在接收到查询词串时,对所述查询词串进行语义分析,得到所述查询词串对应的语义表达式;其中,对所述查询词串进行语义分析,标识出所述查询词串中的实体词和属性词;
语义标签确定模块,用于结合所述语义表达式进行匹配分析,确定当前所述查询词串中各词所属的语义标签;其中,对标识出实体词和属性词的查询词串,基于知识库进行句法分析,得到实体词及属性词的关联关系,识别出符合当前语境的实体词的语义标签;
改写模块,用于根据所述语义标签对所述查询词串进行改写;
查询模块,用于以改写后的查询词串进行搜索,得到匹配的网络信息;
其中,所述语义标签确定模块还用于:
定义文法规则;
使用所述文法规则对所述语义表达式进行句法分析,得到所述语义表达式中实体词和属性词的关联关系;
其中,所述改写模块包括:
逆向表达判断子模块,用于判断所述查询词串是否符合逆向表达句法规则;若是,则调用预置表达式获取子模块;
预置表达式获取子模块,用于获取对应的在服务器存储的符合正向表达句法规则的预置表达式;所述预置表达式具有使用频次;
正向表达改写子模块,用于在所述预置表达式的使用频次高于预设阈值时,将所述查询词串按照正向表达句法规则进行改写。
8.根据权利要求7所述的系统,其特征在于,所述词性解析模块包括:
实体词查找模块,用于在知识库预置的实体词列表中查找所述查询词串对应的实体词;
属性词查找模块,用于在知识库预置的属性词列表中查找所述查询词串对应的属性词。
9.根据权利要求8所述的系统,其特征在于,所述语义标签确定模块包括:
提取子模块,用于提取所述属性词的预置的语义标签;
标记子模块,用于对所述实体词标记一个或多个原始语义标签;
关联关系判断模块,用于分别判被标记原始语义标签的所述实体词,与被标记语义标签的所述属性词是否存在预定义的关联关系;若是,则调用确定子模块;
确定子模块,用于确定存在所述预定义的关联关系的原始语义标签为当前所述实体词所属的语义标签。
10.根据权利要求7或8或9所述的系统,其特征在于,所述改写模块还包括:
标识实体词查找子模块,用于采用所述语义标签查找预置的标识实体词;
标识实体词替换子模块,用于将所述实体词替换为预置的标识实体词;
和/或,
标识属性词替换子模块,用于将所述属性词替换为预置的标识属性词。
11.根据权利要求10所述的系统,其特征在于,所述标识实体词为与所述实体词具有相同的语义标签,且使用频次最多的实体词;
所述标识属性词为与所述属性词描述同一类实体词,且使用频次最多的属性词。
12.根据权利要求10所述的系统,其特征在于,所述逆向表达判断子模块包括:
句法分析子模块,用于对所述查询词串进行句法分析,获得主语和修饰语,以及,所述主语和所述修饰语之间的依赖关系;所述依赖关系包括所述主语依赖所述修饰语的依赖关系;
判定子模块,用于在所述主语为所述实体词、所述修饰语为所述属性词,并且,所述依赖关系为所述主语依赖所述修饰语的依赖关系时,则所述查询词串符合逆向表达的句法规则。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410051875.4A CN104850554B (zh) | 2014-02-14 | 2014-02-14 | 一种搜索方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410051875.4A CN104850554B (zh) | 2014-02-14 | 2014-02-14 | 一种搜索方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104850554A CN104850554A (zh) | 2015-08-19 |
CN104850554B true CN104850554B (zh) | 2020-05-19 |
Family
ID=53850201
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410051875.4A Active CN104850554B (zh) | 2014-02-14 | 2014-02-14 | 一种搜索方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104850554B (zh) |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105138631B (zh) | 2015-08-20 | 2019-10-11 | 小米科技有限责任公司 | 知识库的构建方法及装置 |
CN107203548A (zh) * | 2016-03-17 | 2017-09-26 | 阿里巴巴集团控股有限公司 | 属性获取方法和装置 |
CN106294638B (zh) * | 2016-08-02 | 2020-01-14 | 百度在线网络技术(北京)有限公司 | 一种辅助决策方法和装置 |
CN106227876B (zh) * | 2016-08-02 | 2020-03-10 | 百度在线网络技术(北京)有限公司 | 一种活动安排辅助决策方法和装置 |
CN106528676B (zh) * | 2016-10-31 | 2019-09-03 | 北京百度网讯科技有限公司 | 基于人工智能的实体语义检索处理方法及装置 |
JP6351890B1 (ja) * | 2017-05-18 | 2018-07-04 | 三菱電機株式会社 | 検索装置、秘匿検索システム及び検索プログラム |
US11132408B2 (en) * | 2018-01-08 | 2021-09-28 | International Business Machines Corporation | Knowledge-graph based question correction |
CN108256070B (zh) * | 2018-01-17 | 2022-07-15 | 北京百度网讯科技有限公司 | 用于生成信息的方法和装置 |
CN108388650B (zh) * | 2018-02-28 | 2022-11-04 | 百度在线网络技术(北京)有限公司 | 基于需求的搜索处理方法、装置和智能设备 |
CN108959257B (zh) * | 2018-06-29 | 2022-11-22 | 北京百度网讯科技有限公司 | 一种自然语言解析方法、装置、服务器及存储介质 |
CN109558479B (zh) * | 2018-11-29 | 2022-12-02 | 出门问问创新科技有限公司 | 一种规则匹配方法、装置、设备及存储介质 |
CN109684448B (zh) * | 2018-12-17 | 2021-01-12 | 北京北大软件工程股份有限公司 | 一种智能问答方法 |
CN109684357B (zh) * | 2018-12-21 | 2021-03-19 | 上海智臻智能网络科技股份有限公司 | 信息处理方法及装置、存储介质、终端 |
CN109857853B (zh) * | 2019-01-28 | 2021-09-14 | 掌阅科技股份有限公司 | 基于电子书的搜索方法、电子设备及计算机存储介质 |
CN111666479A (zh) * | 2019-03-06 | 2020-09-15 | 富士通株式会社 | 搜索网页的方法和计算机可读存储介质 |
CN113919360A (zh) * | 2020-07-09 | 2022-01-11 | 阿里巴巴集团控股有限公司 | 语义理解方法、语音交互方法、装置、设备及存储介质 |
CN113807102B (zh) * | 2021-08-20 | 2022-11-01 | 北京百度网讯科技有限公司 | 建立语义表示模型的方法、装置、设备和计算机存储介质 |
CN113868312A (zh) * | 2021-10-13 | 2021-12-31 | 上海市研发公共服务平台管理中心 | 多方法融合的机构匹配方法、装置、设备和存储介质 |
CN115576435B (zh) * | 2022-12-12 | 2023-04-04 | 深圳市人马互动科技有限公司 | 意图处理方法及相关装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1628298A (zh) * | 2002-05-28 | 2005-06-15 | 弗拉迪米尔·叶夫根尼耶维奇·涅博利辛 | 综合从搜索系统中使用的文档中抽取知识的自学习系统的方法 |
US7840547B1 (en) * | 2004-03-31 | 2010-11-23 | Google Inc. | Methods and systems for efficient query rewriting |
CN102117285A (zh) * | 2009-12-30 | 2011-07-06 | 安世亚太科技(北京)有限公司 | 一种基于语义索引的检索方法 |
CN102236664A (zh) * | 2010-04-28 | 2011-11-09 | 百度在线网络技术(北京)有限公司 | 基于语义归一化的检索系统、检索方法以及信息处理方法 |
CN102622342A (zh) * | 2011-01-28 | 2012-08-01 | 上海肇通信息技术有限公司 | 中间语系统、中间语引擎、中间语翻译系统和相应方法 |
CN103425714A (zh) * | 2012-05-25 | 2013-12-04 | 北京搜狗信息服务有限公司 | 一种搜索方法和系统 |
-
2014
- 2014-02-14 CN CN201410051875.4A patent/CN104850554B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1628298A (zh) * | 2002-05-28 | 2005-06-15 | 弗拉迪米尔·叶夫根尼耶维奇·涅博利辛 | 综合从搜索系统中使用的文档中抽取知识的自学习系统的方法 |
US7840547B1 (en) * | 2004-03-31 | 2010-11-23 | Google Inc. | Methods and systems for efficient query rewriting |
CN102117285A (zh) * | 2009-12-30 | 2011-07-06 | 安世亚太科技(北京)有限公司 | 一种基于语义索引的检索方法 |
CN102236664A (zh) * | 2010-04-28 | 2011-11-09 | 百度在线网络技术(北京)有限公司 | 基于语义归一化的检索系统、检索方法以及信息处理方法 |
CN102622342A (zh) * | 2011-01-28 | 2012-08-01 | 上海肇通信息技术有限公司 | 中间语系统、中间语引擎、中间语翻译系统和相应方法 |
CN103425714A (zh) * | 2012-05-25 | 2013-12-04 | 北京搜狗信息服务有限公司 | 一种搜索方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN104850554A (zh) | 2015-08-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104850554B (zh) | 一种搜索方法和系统 | |
WO2019227710A1 (zh) | 网络舆情的分析方法、装置及计算机可读存储介质 | |
US8972413B2 (en) | System and method for matching comment data to text data | |
KR101508260B1 (ko) | 문서 특징을 반영하는 요약문 생성 장치 및 방법 | |
US10496756B2 (en) | Sentence creation system | |
CN109947952B (zh) | 基于英语知识图谱的检索方法、装置、设备及存储介质 | |
CN109145216A (zh) | 网络舆情监控方法、装置及存储介质 | |
CN106844640B (zh) | 一种网页数据分析处理方法 | |
US9569525B2 (en) | Techniques for entity-level technology recommendation | |
CN107102993B (zh) | 一种用户诉求分析方法和装置 | |
CN103064956A (zh) | 用于搜索电子内容的方法、计算系统和计算机可读介质 | |
US11017002B2 (en) | Description matching for application program interface mashup generation | |
CN110765761A (zh) | 基于人工智能的合同敏感词校验方法、装置及存储介质 | |
CN111444713B (zh) | 新闻事件内实体关系抽取方法及装置 | |
CN111857688A (zh) | Sql代码自动补全方法、系统及存储介质 | |
Wang et al. | Automatic tagging of cyber threat intelligence unstructured data using semantics extraction | |
CN105786971B (zh) | 一种面向国际汉语教学的语法点识别方法 | |
WO2019163642A1 (ja) | 要約評価装置、方法、プログラム、及び記憶媒体 | |
Barkschat | Semantic information extraction on domain specific data sheets | |
CN112597768B (zh) | 文本审核方法、装置、电子设备、存储介质及程序产品 | |
KR20110045927A (ko) | 전자도서컨텐츠 검색 서비스 시스템 및 전자도서컨텐츠 검색 서비스 방법 | |
KR102298397B1 (ko) | 인용 유형 기반의 인용 관계 분석 방법 및 시스템 | |
CN116629241A (zh) | 一种文档质量评价方法及计算设备 | |
CN111368036B (zh) | 用于搜索信息的方法和装置 | |
CN114491215A (zh) | 基于搜索的近义词库更新方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |