WO2015149533A1

WO2015149533A1 - 一种基于网页内容分类进行分词处理的方法和装置

Info

Publication number: WO2015149533A1
Application number: PCT/CN2014/093396
Authority: WO
Inventors: 项碧波
Original assignee: 北京奇虎科技有限公司; 奇智软件（北京）有限公司
Priority date: 2014-03-31
Filing date: 2014-12-09
Publication date: 2015-10-08
Also published as: CN104008126A

Abstract

本发明公开了一种基于网页内容分类进行分词处理的方法和装置，所述的方法包括：提取搜索资源中网页内容的文本信息；依据所述网页内容类别划分所述文本信息所属类别；按照所述文本信息所属类别对应的分词词典，对所述文本信息进行分词处理。本发明实施例对搜索资源中网页内容的文本信息划分类别，基于该类别的分词词典对本文信息进行分词，更好地适应不同类别的的语言特性，同时也提高了不同类别的分词准确度，实现了局部分词的最优处理；并且，分词准确度的提高，更加贴近用户的意图，提升了用户体验，继而减少了用户重新输入、搜索等操作，提高了操作的简便性，同时也减少了设备对用户操作的响应，减少了设备系统资源的耗费。

Description

一种基于网页内容分类进行分词处理的方法和装置

技术领域

本发明涉及搜索的技术领域，尤其涉及一种基于网页内容类别进行分词处理的方法和一种基于网页内容类别进行分词处理的装置。

背景技术

随着互联网的高速发展，网络应用趋向多元化，网上的信息量急剧增加。

在各种场合下，用户经常需要输入关键信息进行关联信息的获取。例如，在搜索引擎中输入关键词搜索网页信息、在论坛中输入关键词搜索帖子等等。

分词是进行信息处理、信息检索的基础，所有的信息处理、信息检索工作都是在分词之后进行的。所以分词的错误会被叠加到后续的处理过程中，而且很难被消除。正因为这样所以对分词的准确率的追求是个持续的过程，同时由于中文语言的固有的特性：没有明确的词的定义、词和词之间没有分隔符、新词、专有名词不断涌现等这些因素导致分词很难做到100％的准确。

当前分词系统使用的主要方法是基于统计的分词。从形式上看，词是稳定的字的组合，因此在上下文中，相邻的字同时出现的次数越多，就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统计，计算它们的互现信息。定义两个字的互现信息，计算两个汉字X、Y的相邻共现概率。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时，便可认为此字组可能构成了一个词。这种方法只需对语料中的字组频度进行统计，但这种方法也有一定的局限性，会经常抽出一些共现频度高、但并不是词的常用字组，例如“这一”、“之一”、“有的”、“我的”、“许多的”等，并且对常用词的识别精度差，时空开销大。

一方面，分词的结果错误致使后期获取的关联信息与当初的预期有很大差别，用户体验十分差，浪费了设备系统资源。另一方面，用户需要获取关联信息，会再次输入关键信息进行搜索，设备要再次进行海量信息的搜索、对比、筛选等获取与搜索关键词相关的信息，不仅用户操作更加繁琐，耗费用户的时间，而且将大大增加设备的负担，耗费更多的设备资源。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决或者减缓上述问题的一种基于网页内容类别进行分词处理的方法和相应的一种基于网页内容类别进行分词处理的装置。

根据本发明的一个方面，提供了一种基于网页内容类别进行分词处理的方法，包括：

提取搜索资源中网页内容的文本信息；

依据所述网页内容类别划分所述文本信息所属类别；

按照所述文本信息所属类别对应的分词词典，对所述文本信息进行分词处理。

根据本发明的另一个方面，提供了一种基于网页内容类别进行分词处理的装置，包括：

提取模块，适于提取搜索资源中网页内容的文本信息；

划分模块，适于依据所述网页内容类别划分所述文本信息所属类别；

分词模块，适于按照所述文本信息所属类别对应的分词词典，对所述文本信息进行分词处理。

根据本发明的又一个方面，提供了一种计算机程序，其包括计算机可读代码，当所述计算机可读代码在计算设备上运行时，导致所述计算设备执行上述的基于网页内容类别进行分词处理的方法。

根据本发明的再一个方面，提供了一种计算机可读介质，其中存储了上述的计算机程序。

本发明的有益效果为：

本发明实施例对搜索资源中网页内容的文本信息划分类别，基于该类别的分词词典对本文信息进行分词，更好地适应不同类别的的语言特性，同时也提高了不同类别的分词准确度，实现了局部分词的最优处理；并且，分词准确度的提高，更加贴近用户的意图，提升了用户体验，继而减少了用户重新输入、搜索等操作，提高了操作的简便性，同时也减少了设备对用户操作的响应，减少了设备系统资源的耗费。

本发明实施例对搜索资源中网页内容的文本信息划分类别，基于该类别的分词词典对本文信息进行分词，再采用分词处理获得的第一分词建立倒排索引，避免了基于全局文本信息的倒排索引的单一性和片面性，提升了在各个类别中倒排索引的准确率，继而提升了倒排索引的索引运行效率，减少索引的时间；并且，搜索资源中网页的文本信息包括新、奇、特等各种符合该类别语言特性的文本信息，利用搜索资源中搜集的他人和集体的智慧，弥补了自身定义、自己人工的不足，大大减少了人工运营成本。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示意性示出了根据本发明一个实施例的一种基于网页内容类别进行分词处理的方法实施例的步骤流程图；

图2示意性示出了根据本发明一个实施例的一种基于网页内容类别进行分词处理的装置实施例的结构框图；

图3示意性地示出了用于执行根据本发明的方法的计算设备的框图；以及

图4示意性地示出了用于保持或者携带实现根据本发明的方法的程序代码的存储单元。

具体实施例

下面结合附图和具体的实施方式对本发明作进一步的描述。

参照图1，示出了根据本发明一个实施例的一种基于网页内容类别进行分词处理的方法实施例的步骤流程图，可以包括如下步骤：

步骤101，提取搜索资源中网页内容的文本信息；

搜索引擎的处理流程一般可以分为二个部分，第一部分是前端用户请求，第二部分是后端制作数据。

一、前端用户请求处理过程可以包括：

1.用户输入关键字；

2.查询词分析，搜索引擎对关键字分词；

3.检索，根据分词结果，从事先制作的索引中，找出相关的网页集合；

4.排序，对候选的网页集合，根据内容相关性、时效性等维度进行排序；

5.展现：将排序后的网页进行展现。

二、后端制作数据过程可以包括：

1.网页抓取，爬虫通过网页间的链接关系，抓取互联网的网页并保存；

2.索引制作，对已抓取保存的网页进行分析，对网页标题和页面文本分词，根据分词结果制作倒排索引，供前端检索使用。

爬虫抓取的网页可以保存在网页数据库中形成大量的搜索资源，而网页内容中可以包括大量的文本信息。则在本发明实施例中，可以从网页数据库中提取搜索资源中网页内容的文本信息。

步骤102，依据所述网页内容类别划分所述文本信息所属类别；

在一种情形中，可以基于网页的网址获得网页类别，再依据网页类别划分文本信息所属类别。例如，动漫领域的网页网址一般带有“comic”标识的域名，体育领域的网页网址一般带有“sports”标识的域名，如comic.XXX.com，sports.XXX.com，在网页网址中检测出“comic”或“sports”标识的域名时，则可以识别出该网页类别为动漫领域或体育领域，继而可以将文本信息划分为动漫领域或体育领域。

在又一种情形中，访问的网页通常带有标签(tag)信息，可以基于标签信息获得网页类别，再依据网页类别划分文本信息所属类别。例如，某网页带有视频、电影、喜剧电影等标签信息，则可以识别出该网页类别为电影领域，继而将文本信息划分为电影领域。

再一种情况中，可以分析网页内容标题(topic)中特定词获知网页类别，比如标题中含有篮球、足球、NBA或世界杯等特定词可知是体育领域。

在又一种情形中，可以在网页导航(比如面包屑导航Breadcrumb Trail)中获知网页类别，再依据网页类别划分文本信息所属类别。面包屑导航通常在页面顶部水平出现，一般会位于标题或页头的下方。面包屑导航提供给用户返回之前任何一个页面的链接(这些链接也是能到达当前页面的路径)，在层级架构中通常是这个页面的父级页面。面包屑导航提供给用户回溯到网站首页或入口页面的一条路径，通常是以大于号(＞)出现，还有一些设计是其他的符号(如＞＞)。例如，“首页＞分类页＞次级分类页”或者“首页＞＞分类页＞＞次级分类页”。从面包屑导航中分类即可获知网页的自定义分类，例如网页的面包屑导航为“XX门户网站＞体育＞中国足球＞中超”，其对应的网页分类为体育、中国足球、中超，选取与本发明实施例实际应用中匹配的分类即可。

需要说明的是，本发明实施例可以根据实际需要，划分类别的等级，例如，对于体育领域，除了可以划分针对整个体育领域的类别外，也可以划分篮球、足球等下一级的类别，还可以划分NBA(National Basketball Association，国家篮球协会)、CBA(Chinese Basketball Association，中国篮球协会)、西甲(西班牙足球甲级联赛)、中超(中国足球超级联赛)等更下一级的类别，本发明实施例对此不加以限制。

而随着类别的等级划分精度越高，其所收集的文本信息重叠的概率也就越低，反之精确就越高，则本发明实施例中分词的精确度也会越高。

步骤103，按照所述文本信息所属类别对应的分词词典，对所述文本信息进行分词处理。

在具体实现中，每一个类别都可以对应有一个特定的分词词典，以对文本信息进行合乎该类别语言特点的分词。

在本发明的一种优选实施例中，所述分词词典可以通过以下方式生成：

子步骤S11，获取第一训练文档；

在本发明实施中，第一训练文档可以为搜索资源中网页的文本信息。

子步骤S12，划分所述第一训练文档所属类别；

在具体实现中，当第一训练文档可以为搜索资源中网页的文本信息时，可以依据该网页类别划分第一训练文档所属类别。

需要说明的是，由于子步骤S11、子步骤S12与步骤101、步骤102的应用基本相似，所以描述的比较简单，相关之处参见步骤101、步骤102的部分说明即可，本发明实施例在此不加以详述。

子步骤S13，对所述类别对应的所述第一训练文档进行分词处理，获得第二分词；

应用本发明实施例，可以采用通用的分词词典第一训练文档进行分词处理。通用的分词词典可以是通用领域的分词词典，没有特定的具体领域中的技术术语划分，比如中草药领域的当归、草乌等，其主要包含通用的、出现频率高于预设阈值的词条。具体地，通用的分词词典中可以包括通用词和确定意义词。通用词可以包括形容词、连词和一些通用意义的动词，例如高兴、但是、参加等。确定意义词可以为能够表达一定意义范围的词，通常是一些名词和动词。

子步骤S14，统计所述类别对应的所述第二分词的词频数和第一同现率；

在本发明实施例的一种优选示例中，可以基于第二分词训练N-Gram模型。

则在此示例中，第一同现率可以为两个或两个以上第二分词同时出现的概率。具体地，所述第一同现率可以包括第一词频数与第二词频数的比值；

其中，所述第一词频数包括当前第二分词出现在目标第二分词之后的词频数；所述目标第二分词包括出现在当前环境分词之前的一个或多个第二分词；

所述第二词频数包括所述目标第二分词总的词频数。

N-Gram模型为大词汇连续语音识别中常用的一种语言模型，基于马尔科夫假设，即一个词的出现仅仅依赖于它前面出现的有限的一个或者几个词。对于一个句子T，可以假设T是由词序列W₁，W₂，W₃，…，W_n组成，那么这个句子T由W₁，W₂，W₃，…，W_n连接组成的连接概率为P(T)＝p(W₁W₂W₃…W_n)＝p(W₁)P(W₂|W₁)P(W₃|W₁W₂)…P(W_n|W₁W₂…W_n-1)。

如果一个词的出现仅依赖于它前面出现的一个词，则称之为bigram。即P(T)＝P(W₁W₂W₃…W_n)＝p(W₁)P(W_2|W₁)P(W₃|W₁W₂)…P(W_n|W₁W₂…W_n-1)≈P(W₁)P(W₂|W₁)P(W₃|W₂)…P(W_n|W_n-1)。

如果一个词的出现仅依赖于它前面出现的两个词，则称之为trigram。在N-Gram模型的实际应用中以bigram和trigram为主，而高于四元的N-Gram模型应用较少，因为训练四元的N-Gram模型需要更庞大的语料，而且数据稀疏严重，时间复杂度高，精度却提高的不多。

以下以文本信息“I want to eat Chinese food lunch”为例进行说明：

对某个环境类型中的第二文本信息“I want eat Chinese food lunch”进行分词，得到第二分词“I”、“want”、“to”、“eat”、“Chinese”、“food”、“lunch”，该第二分词及其词频数表1和表2所示。

表1第二分词的总词频数统计表

第二分词	总词频数
第二分词	总词频数	I	3437
want	1215	I	3437
want	1215	to	3256
eat	938	to	3256
eat	938	Chinese	213
food	1506	Chinese	213
food	1506	lunch	459

表2当前第二分词出现在目标第二分词前的词频数统计表

	I	want	to	eat	Chinese	food	lunch
	I	want	to	eat	Chinese	food	lunch	I	8	1087	0	13	0	0	0
want	3	0	786	0	6	8	6	I	8	1087	0	13	0	0	0

to	3	10	860	3	0	12
to	3	10	860	3	0	12	eat	0	0	2	0	19	2	52
Chinese	2	0	0	0	120	1	eat	0	0	2	0	19	2	52
Chinese	2	0	0	0	120	1	food	19	0	17	0	0	0	0
lunch	4	0	0	0	1	0	food	19	0	17	0	0	0	0

例如，第二行第三列中的1087表示当前第二分词“want”出现在目标第二分词“I”后面的词频数为1087。

子步骤S15，采用所述第二分词及其第一同现率生成所述类别对应的分词词典。

在基于分词词典的分词过程中，一般用到的查询方式可以包括：哈希查询、TRIE树(又称单词查找树或键树)查询、二分查询和顺序查询等等。而在实际的分词过程中可以用到多种查询方式，例如在哈希机制的分词词典中，可以采用哈希查询和二分查询相结合的方式，在TRIE机制的分词词典中采用了TRIE树查询和二分查询相结合的方式，将多种查询方式相结合进行查询，可以提高查询效率。

则在本发明实施例中，可以按照哈希查询、TRIE树查询、二分查询和顺序查询等等查询方式中的一种或多种形成的查询机制，生成分词词典，以实现哈希查询、TRIE树查询、二分查询和顺序查询等等查询方式中的一种或多种形成的查询机制。

在本发明的一种优选实施例中，所述分词词典可以通过以下方式更新：

子步骤S21，获取第二训练文档；

在本发明实施中，第二训练文档可以为搜索资源中网页的文本信息。

子步骤S22，划分所述第二训练文档所属的类别；

在具体实现中，当第二训练文档可以为搜索资源中网页的文本信息时，可以依据该网页类别划分第二训练文档所属类别。

需要说明的是，由于子步骤S21、子步骤S22与步骤101、步骤102的应用基本相似，所以描述的比较简单，相关之处参见步骤101、步骤102的部分说明即可，本发明实施例在此不加以详述。

子步骤S23，按照所述类别对应的分词词典，对所述文本信息进行分词处理，获得第三分词；

应用本发明实施例，可以采用第二训练文档所属的类别对应的分词词典第二训练文档进行分词处理。对给定第二训练文档中待分词的字符串，按照某种确定的原则，例如正向最大匹配法(MM)、反向最大匹配法(RMM)或双向扫描法等等，切取字符串的子串，若该子串与分词词典中某词条相匹配，则认为该子串为第三分词，插入切分标志，继续分割剩余的部分，知道剩余部分为空；否则该子串不是第三分词，重新切取字符串的子串进行下一次匹配。

子步骤S24，统计所述类别对应的所述第三分词的词频数和第二同现率；

在本发明实施例的一种优选示例中，可以基于第三分词训练N-Gram模型。

则在此示例中，第二同现率可以为两个或两个以上第三分词同时出现的概率。具体地，所述第二同现率可以包括第三词频数与第四词频数的比值；

其中，所述第三词频数包括当前第三分词出现在目标第三分词之后的词频数；所述目标第三分词包括出现在当前环境分词之前的一个或多个第三分词；

所述第四词频数包括所述目标第三分词总的词频数。

子步骤S25，采用所述第三分词及其第二同现率更新所述类别对应的分词词典。

在本发明实施例中，可以按照哈希查询、TRIE树查询、二分查询和顺序查询等等查询方式中的一种或多种形成的查询机制，更新分词词典。

在本发明的一种优选实施例中，可以直接采用该文本信息所属类别对应的分词词典，对文本信息进行分词处理。

在本发明的一种优选实施例中，步骤103可以包括如下子步骤：

子步骤S31，按照所述文本信息所属类别对应的分词词典，以及通用词典，对所述文本信息进行分词处理；

子步骤S32，将分词处理后获得的词频数最高的分词，作为分词处理获得的第一分词。

在本发明实施例中，可以同时使用文本信息所属类别对应的分词词典，以及通用词典(通用的分词词典)对文本信息进行分词处理。

例如，对于文本信息“人参与当归”，由于在整体语料中必然是“人”、“参与”的词频大于“人参”、“与”的词频，所以基于通用词典分词，这个文本信息会被切分成“人”、“参与”、“当归”，但显然这样切分其实是错误的。“人参与当归”这个文本信息经常出现在医疗保健类的文档中，如果基于其所属的医疗保健类的分词词典进行分词，这个信息会被切分成“人参”、“与”、“当归”。比较词频数之后，会发现“人参”的相对词频数会显著高于整体语料中的相对词频数，因此，最终会选取“人参”、“与”、“当归”作为“人参与当归”的分词结果。

在本发明的又一种优选实施例中，步骤103可以包括如下子步骤：

子步骤S41，当所述文本信息所属的类别为多个时，分别按照所述类别对应的分词词典，对所述文本信息进行分词处理；

子步骤S42，将分词处理后获得的词频数最高的分词，作为分词处理获得的第一分词。

在本发明实施例中，文本信息可以划分为多个类别，属于交叉领域。例如，关于飞机的文本信息的分类可以为机械领域，也可以为航空领域。

在此种交叉领域的情况中，可以分别基于所属分类对应的分词词典对本文信息进行分词处理，最终以词频最高的作为分词结果。

当前分词系统使用的主要方法是基于统计的分词，简单的说就是在决定词的切分点的时候主要依靠候选词之间的词频、转移概率等信息。既然是统计，必然是满足大多数牺牲小部分，也就是说追求的是全局的统计意义上的最优，而非每个局部的最优，使得在局部的分词处理准确度很低。

在本发明的一种优选实施例中，还可以包括如下步骤：

步骤104，针对所述类别，采用分词处理获得的第一分词建立倒排索引。

倒排索引源于实际应用中需要根据属性的值来查找记录。这种索引表中的每一项都包括一个属性值和具有该属性值的各记录的地址。由于不是由记录来确定属性值，而是由属性值来确定记录的位置，因而称为倒排索引(inverted index)。带有倒排索引的文件称为倒排索引文件，简称倒排文件(inverted file)。

倒排文件(倒排索引)，索引对象是文档或者文档集合(例如网页)中的单词等，用来存储这些单词在一个文档或者一组文档中的存储位置，是对文档或者文档集合的一种常用的索引机制。

在本发明的一种优选实施例中，步骤104可以包括如下子步骤：

子步骤S51，针对所述类别，记录出现的所述类别对应的第一分词的出现位置；

子步骤S52，将所述第一分词及其对应的出现位置记录在倒排索引中。

在具体实现中，第一分词的出现位置可以包括出现的网页，或者，出现的网页及其在该网页中的位置。

以英文为例，以下为要被索引的网页中的文本信息：

T1＝″it is what it is″；

T2＝″what is it″；

T3＝″it is a banana″；

以下为倒排索引：

其中，″banana″：{(2，3)}为″banana″在第三个网页(T3)的文本信息里，而且在第三个网页的位置是第四个单词(地址为3)。

对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

参照图2，示出了根据本发明一个实施例的示出了根据本发明一个实施例的一种基于网页内容类别进行分词处理的装置实施例的结构框图，可以包括如下模块：

提取模块201，适于提取搜索资源中网页内容的文本信息；

划分模块202，适于依据所述网页内容类别划分所述文本信息所属类别；

分词模块203，适于按照所述文本信息所属类别对应的分词词典，对所述文本信息进行分词处理。

在本发明的一种优选实施例中，还可以包括如下模块：

建立模块，适于针对所述类别，采用分词处理获得的第一分词建立倒排索引。

在本发明的一种优选实施例中，所述建立模块还可以适于：

针对所述类别，记录出现的所述类别对应的第一分词的出现位置；

将所述第一分词及其对应的出现位置记录在倒排索引中。

获取第一训练文档；

划分所述第一训练文档所属类别；

对所述类别对应的所述第一训练文档进行分词处理，获得第二分词；

统计所述类别对应的所述第二分词的词频数和第一同现率；

采用所述第二分词及其第一同现率生成所述类别对应的分词词典。

在本发明的一种优选实施例中，所述第一同现率可以包括第一词频数与第二词频数的比值；

所述第二词频数包括所述目标第二分词总的词频数。

获取第二训练文档；

划分所述第二训练文档所属的类别；

按照所述类别对应的分词词典，对所述文本信息进行分词处理，获得第三分词

统计所述类别对应的所述第三分词的词频数和第二同现率；

采用所述第三分词及其第二同现率更新所述类别对应的分词词典。

在本发明的一种优选实施例中，所述第二同现率可以包括第三词频数与第四词频数的比值；

所述第四词频数包括所述目标第三分词总的词频数。

在本发明的一种优选实施例中，所述分词模块203还可以适于：

按照所述文本信息所属类别对应的分词词典，以及通用词典，对所述文本信息进行分词处理；

将分词处理后获得的词频数最高的分词，作为分词处理获得的第一分词。

当所述文本信息所属的类别为多个时，分别按照所述类别对应的分词词典，对所述文本信息进行分词处理；

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的基于网页内容分类进行分词处理的设备中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

例如，图3示出了可以实现根据本发明的基于网页内容分类进行分词处理的计算设备，例如检索服务器。该计算设备传统上包括处理器310和以存储器320形式的计算机程序产品或者计算机可读介质。存储器320可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。存储器320具有用于执行上述方法中的任何方法步骤的程序代码331的存储空间330。例如，用于程序代码的存储空间330可以包括分别用于实现上面的方法中的各种步骤的各个程序代码331。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。这些计算机程序产品包括诸如硬盘，紧致盘(CD)、存储卡或者软盘之类的程序代码载体。这样的计算机程序产品通常为如参考图4所述的便携式或者固定存储单元。该存储单元可以具有与图3的计算设备中的存储器320类似布置的存储段、存储空间等。程序代码可以例如以适当形式进行压缩。通常，存储单元包括计算机可读代码331’，即可以由例如诸如310之类的处理器读取的代码，这些代码当由计算设备运行时，导致该计算设备执行上面所描述的方法中的各个步骤。

本文中所称的“一个实施例”、“实施例”或者“一个或者多个实施例”意味着，结合实施例描述的特定特征、结构或者特性包括在本发明的至少一个实施例中。此外，请注意，这里“在一个实施例中”的词语例子不一定全指同一个实施例。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下被实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

此外，还应当注意，本说明书中使用的语言主要是为了可读性和教导的目的而选择的，而不是为了解释或者限定本发明的主题而选择的。因此，在不偏离所附权利要求书的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围，对本发明所做的公开是说明性的，而非限制性的，本发明的范围由所附权利要求书限定。

Claims

一种基于网页内容类别进行分词处理的方法，包括步骤：

提取搜索资源中网页内容的文本信息；

依据所述网页内容类别划分所述文本信息所属类别；

按照所述文本信息所属类别对应的分词词典，对所述文本信息进行分词处理。
如权利要求1所述的方法，其特征在于，还包括步骤：

针对所述类别，采用分词处理获得的第一分词建立倒排索引。
如权利要求1至2任一项所述的方法，其特征在于，所述针对所述类别，采用分词处理获得的第一分词建立倒排索引的步骤包括：

针对所述类别，记录出现的所述类别对应的第一分词的出现位置；

将所述第一分词及其对应的出现位置记录在倒排索引中。
如权利要求1所述的方法，其特征在于，所述分词词典通过以下方式生成：

获取第一训练文档；

划分所述第一训练文档所属类别；

对所述类别对应的所述第一训练文档进行分词处理，获得第二分词；

统计所述类别对应的所述第二分词的词频数和第一同现率；

采用所述第二分词及其第一同现率生成所述类别对应的分词词典。
如权利要求4所述的方法，其特征在于，所述第一同现率包括第一词频数与第二词频数的比值；

其中，所述第一词频数包括当前第二分词出现在目标第二分词之后的词频数；所述目标第二分词包括出现在当前环境分词之前的一个或多个第二分词；

所述第二词频数包括所述目标第二分词总的词频数。
如权利要求1或4所述的方法，其特征在于，所述分词词典通过以下方式更新：

获取第二训练文档；

划分所述第二训练文档所属的类别；

按照所述类别对应的分词词典，对所述文本信息进行分词处理，获得第三分词

统计所述类别对应的所述第三分词的词频数和第二同现率；

采用所述第三分词及其第二同现率更新所述类别对应的分词词典。
如权利要求6所述的方法，其特征在于，所述第二同现率包括第三词频数与第四词频数的比值；

其中，所述第三词频数包括当前第三分词出现在目标第三分词之后的词频数；所述目标第三分词包括出现在当前环境分词之前的一个或多个第三分词；

所述第四词频数包括所述目标第三分词总的词频数。
如权利要求1所述的方法，其特征在于，所述按照所述文本信息所属类别对应的分词词典，对所述文本信息进行分词处理的步骤包括：

按照所述文本信息所属类别对应的分词词典，以及通用词典，对所述文本信息进行分词处理；

将分词处理后获得的词频数最高的分词，作为分词处理获得的第一分词。
如权利要求1所述的方法，其特征在于，所述按照所述文本信息所属的类别对应的分词词典，对所述文本信息进行分词处理的步骤包括：

当所述文本信息所属的类别为多个时，分别按照所述类别对应的分词词典，对所述文本信息进行分词处理；

将分词处理后获得的词频数最高的分词，作为分词处理获得的第一分词。
一种基于网页内容类别进行分词处理的装置，包括：

提取模块，适于提取搜索资源中网页内容的文本信息；

划分模块，适于依据所述网页内容类别划分所述文本信息所属类别；

分词模块，适于按照所述文本信息所属类别对应的分词词典，对所述文本信息进行分词处理。
如权利要求10所述的装置，其特征在于，还包括：

建立模块，适于针对所述类别，采用分词处理获得的第一分词建立倒排索引。
如权利要求10至11任一项所述的装置，其特征在于，所述建立模块还适于：

针对所述类别，记录出现的所述类别对应的第一分词的出现位置；

将所述第一分词及其对应的出现位置记录在倒排索引中。
如权利要求10所述的装置，其特征在于，所述分词词典通过以下方式生成：

获取第一训练文档；

划分所述第一训练文档所属类别；

对所述类别对应的所述第一训练文档进行分词处理，获得第二分词；

统计所述类别对应的所述第二分词的词频数和第一同现率；

采用所述第二分词及其第一同现率生成所述类别对应的分词词典。
如权利要求13所述的装置，其特征在于，所述第一同现率包括第一词频数与第二词频数的比值；

其中，所述第一词频数包括当前第二分词出现在目标第二分词之后的词频数；所述目标第二分词包括出现在当前环境分词之前的一个或多个第二分词；

所述第二词频数包括所述目标第二分词总的词频数。
如权利要求10或13所述的装置，其特征在于，所述分词词典通过以下方式更新：

获取第二训练文档；

划分所述第二训练文档所属的类别；

按照所述类别对应的分词词典，对所述文本信息进行分词处理，获得第三分词

统计所述类别对应的所述第三分词的词频数和第二同现率；

采用所述第三分词及其第二同现率更新所述类别对应的分词词典。
如权利要求15所述的装置，其特征在于，所述第二同现率包括第三词频数与第四词频数的比值；

其中，所述第三词频数包括当前第三分词出现在目标第三分词之后的词频数；所述目标第三分词包括出现在当前环境分词之前的一个或多个第三分词；

所述第四词频数包括所述目标第三分词总的词频数。
如权利要求10所述的装置，其特征在于，所述分词模块还适于：

按照所述文本信息所属类别对应的分词词典，以及通用词典，对所述文本信息进行分词处理；

将分词处理后获得的词频数最高的分词，作为分词处理获得的第一分词。
如权利要求10所述的装置，其特征在于，所述分词模块还适于：

当所述文本信息所属的类别为多个时，分别按照所述类别对应的分词词典，对所述文本信息进行分词处理；

将分词处理后获得的词频数最高的分词，作为分词处理获得的第一分词。
一种计算机程序，包括计算机可读代码，当所述计算机可读代码在计算设备上运行时，导致所述计算设备执行根据权利要求1-9中的任一个所述的基于网页内容类别进行分词处理的方法。
一种计算机可读介质，其中存储了如权利要求19所述的计算机程序。