CN105068989A

CN105068989A - 地名地址提取方法及装置

Info

Publication number: CN105068989A
Application number: CN201510437893.0A
Authority: CN
Inventors: 刘纪平; 罗安; 王勇; 王克永
Original assignee: Chinese Academy of Surveying and Mapping
Current assignee: Chinese Academy of Surveying and Mapping
Priority date: 2015-07-23
Filing date: 2015-07-23
Publication date: 2015-11-18
Anticipated expiration: 2035-07-23
Also published as: CN105068989B

Abstract

本发明涉及信息技术领域，尤其涉及地名地址提取方法及装置。一种地名地址提取方法，包括：对目标文本分词，得到待匹配词组；利用前后缀识别窗口中的前缀特征词及后缀特征词分别对所述待匹配词组的前缀及后缀进行文字匹配，并根据所述文字匹配的结果获取候选地名地址；提取所述候选地名地址中的筛选特征词，依据所述筛选特征词对所述候选地名地址进行过滤筛选。本发明的地名地址提取方法及装置，能够改善从海量网页文本中获取地名地址难度较大的问题。

Description

地名地址提取方法及装置

技术领域

本发明涉及信息技术领域，具体而言，涉及地名地址提取方法及装置。

背景技术

随着互联网技术与计算机技术的发展，海量互联网信息已经涉及到用户的方方面面，用户可以从互联网中获取发生的新闻、报道、军事、生活等信息，并且可以从网页文本中发现这些信息发生的时间、地点。随着互联网信息内容的增加，越来越多的地名地址通过网络新闻等信息表现出来，这些互联网新闻信息更新及时、数据量大、信息丰富，成为地名地址表达的重要方式。同时，地理信息产业对地理信息数据的现势性要求越来越高，海量网页文本中提取出的地名地址不仅可以丰富地理信息的内容，还可以为政府关注各类事件的分析、研究和决策提供支撑，逐步成为一种地理信息数据获取的重要数据源。因此，如何从网络文本中获取准确的地名地址数据提取成为了地理信息数据获取与更新的重要且亟待解决的问题。目前，传统的地名地址提取方法主要是基于字典、统计、规则以及机器学习等方法展开，这些方法对传统地名地址库的要求高，对于模糊地名地址或者未登录的地名地址识别难度大。

发明内容

本发明的目的在于提供地名地址提取方法及装置，以改善从海量网页文本中获取地名地址难度较大的问题。

第一方面，本发明实施例提供了一种地名地址提取方法，包括：对目标文本分词，得到待匹配词组；利用前后缀识别窗口中的前缀特征词及后缀特征词分别对所述待匹配词组的前缀及后缀进行文字匹配，并根据所述文字匹配的结果获取候选地名地址；提取所述候选地名地址中的筛选特征词，依据所述筛选特征词对所述候选地名地址进行过滤筛选。

结合第一方面，本发明实施例提供了第一方面的第一种可能的实施方式，其中，所述对目标文本分词前还包括：采用网络爬虫技术，抓取目标网页中的网页文本，并将抓取的所述网页文本作为目标文本。

结合第一方面，本发明实施例提供了第一方面的第二种可能的实施方式，其中，所述方法还包括：对含有地名地址的语料文本库中的地名地址文本数据分别进行前缀特征词及后缀特征词的提取；利用提取的所述前缀特征词及所述后缀特征词组成所述前后缀识别窗口。

结合第一方面，本发明实施例提供了第一方面的第三种可能的实施方式，其中，所述利用提取的所述前缀特征词及所述后缀特征词组成所述前后缀识别窗口，包括：对从所述语料文本库中提取的所述前缀特征词及所述后缀特征词进行频率统计，并根据所述频率统计的结果对所述前后缀识别窗口中的前缀特征词及后缀特征词赋予权重；按照所述前缀特征词及所述后缀特征词的权重大小，确定所述前后缀识别窗口中前缀特征词及后缀特征词的匹配顺序。

结合第一方面，本发明实施例提供了第一方面的第四种可能的实施方式，其中，所述利用前后缀识别窗口中的前缀特征词及后缀特征词分别对所述待匹配词组的前缀及后缀进行文字匹配，包括：按照所述前后缀识别窗口中确定出的前缀特征词及后缀特征词的匹配顺序对所述待匹配词组的前缀及后缀进行文字匹配。

结合第一方面，本发明实施例提供了第一方面的第五种可能的实施方式，其中，所述利用前后缀识别窗口中的前缀特征词及后缀特征词分别对所述待匹配词组的前缀及后缀进行文字匹配，包括：利用前后缀识别窗口中的前缀特征词对所述待匹配词组的前缀进行匹配；当所述前缀匹配一致后，利用所述前后缀识别窗口中的后缀特征词对所述待匹配词组的后缀进行匹配。

结合第一方面，本发明实施例提供了第一方面的第六种可能的实施方式，其中，所述提取所述候选地名地址中的筛选特征词，依据所述筛选特征词对所述候选地名地址进行过滤筛选，包括：当从所述候选地名地址中提取的所述筛选特征词中至少包括行政区划要素、专有地名名词、经纬度信息及企事业单位特征词中的一项时，确定所述候选地名地址为符合地名地址规则的地名地址；当从所述候选地名地址中提取的所述筛选特征词中同时包括姓氏及人物描述时，或，同时包括人物代词及人物描述时，剔除所述候选地名地址。

第二方面，本发明实施例还提供了一种地名地址提取装置，包括：分词模块，用于对目标文本分词，得到待匹配词组；前后缀匹配模块，用于利用前后缀识别窗口中的前缀特征词及后缀特征词分别对所述待匹配词组的前缀及后缀进行文字匹配，并根据所述文字匹配的结果获取候选地名地址；过滤筛选模块，用于提取所述候选地名地址中的筛选特征词，依据所述筛选特征词对所述候选地名地址进行过滤筛选。

结合第二方面，本发明实施例提供了第二方面的第一种可能的实施方式，其中，上述装置还包括：文本抓取模块，用于对目标文本分词前，采用网络爬虫技术，抓取目标网页中的网页文本，并将抓取的所述网页文本作为目标文本。

结合第二方面，本发明实施例提供了第二方面的第二种可能的实施方式，其中，上述装置还包括：特征词提取模块，用于对含有地名地址的语料文本库中的地名地址文本数据分别进行前缀特征词及后缀特征词的提取；识别窗口组成模块，用于利用提取的所述前缀特征词及所述后缀特征词组成所述前后缀识别窗口。

本发明实施例的地名地址提取方法及装置中，对网页中的目标文本进行分词，将目标文本划分成独立的词语或者单词，之后利用前后缀识别窗口对切分后的文本数据以此匹配，得到候选地名地址，最后根据候选地名地址中的特征词对候选地名地址进行过滤筛选得到最终的地名地址，利用该方法能够较为简便地从海量网页文本中提取地名地址，从而改善现有技术中从海量网页文本中提取地名地址较为困难的问题。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本发明实施例中地名地址提取方法的一种流程图；

图2示出了本发明实施例中前后缀识别窗口的一种结构示意图；

图3示出了本发明实施例中地名地址提取方法的另一种流程图；

图4示出了本发明实施例中前后缀识别窗口的另一种结构示意图；

图5示出了本发明实施例中地名地址提取装置的一种结构示意图。

具体实施方式

下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了实现对网页中地名地址的提取，本发明实施例提供了一种地名地址提取方法，如图1所示，主要处理步骤包括：

步骤S11：对目标文本分词，得到待匹配词组。

本发明中，对目标文本分词主要是对中文文本分词，中文分词是利用分词算法对中文网页文本数据切分成独立的词语或者汉字，比英文分词方法相对要复杂。本步骤在对目标文本分词时，采用比较成熟与流行的中文分词算法，并对分词的结果进行分析验证，减少中文分词中出现的错误。

步骤S12：利用前后缀识别窗口中的前缀特征词及后缀特征词分别对待匹配词组的前缀及后缀进行文字匹配，并根据文字匹配的结果获取候选地名地址。

网页文本中，地名地址一般是伴随着相应的前后缀词语共同出现，如位于某地的一个图书馆，其中“位于”可以作为“某地”的前缀词，“的”可以作为“某地”的后缀词，位于前缀次及后缀词之间的即为地名地址，本发明实施例中在识别网页文本中的地名地址时，正是利用了地名地址的该种语法结构，采用前后缀识别窗口来提取网页文本中的地名地址。

如图2示出了前后缀识别窗口的一种结构图，从图中可以看出，前后缀识别窗口包括前缀特征词(例如位于)及后缀特征词(例如的)，其中前缀特征词及后缀特征词的数量不定，当利用前后缀识别窗口对待匹配词组进行匹配时，可以先利用前缀特征词依次进行匹配，当前缀特征词匹配成功后，再利用后缀特征词依次进行匹配，当前后缀均匹配成功时，提取位于前后缀之间的词语作为候选地名地址。

步骤S13：提取候选地名地址中的筛选特征词，依据筛选特征词对候选地名地址进行过滤筛选。

本发明中，建立地名地址提取规则库，该规则库中定义了地名地址的提取规则。从候选地名地址中提取筛选特征词，并判断提取出的筛选特征词是否符合预先设定的地名地址提取规则，若不符合剔除该候选地名地址，若符合，则将该地名地址作为提取出来的一个结果。

上述地名地址提取方法能够对海量网页文本中的地名地址进行自动筛选提取。

本发明实施例中还提供了一种地名地址提取方法的具体实施方式，如图3所示，主要处理步骤包括：

步骤S31：网络爬虫，抓取目标文本。

采用网络爬虫技术，抓取目标网页中的网页文本，并将抓取的网页文本作为目标文本。

网络爬虫也称为网络蜘蛛或者网络机器人，是一种按照一定的规则，自动地将互联网上面的信息进行抓取的程序或者脚本。网络爬虫根据网站的构成形式对网页上的文本内容进行抓取并存入数据库。

由于网页上的HTML文档使用超链接连接起来，网络爬虫可以顺着这张网爬行，每到一个网页就利用抓取程序将网页文本抓取下来，并将其中的超链接抽取出来，作为进一步爬行的线索。

具体地，网络爬虫可以从一组要访问的网址链接开始，访问这些链接，并辨认出这些页面中的所有超链接，之后将这些超链接添加到一个网址列表中，并可以按照一定的策略反复访问这些列表中的地址进而从相应的网页中抓取网页文本。

步骤S32：对目标文本进行中文分词。

中文分词是利用分词算法将网络爬虫获取的目标文本(本发明中一般指中文文本)切分成独立的词语或者汉字，比英文分词方法要复杂很多，目前国内外开源分词算法已经达到了很高的准确率，本发明采用比较成熟与流行的中文分词算法，并对分词的结果进行分析验证，剔除非地名地址的冗余词，减少中文分词中出现的错误。

对目标文本分词后得到待匹配词组队列。

步骤S33：形成前后缀识别窗口。

本步骤中，对含有地名地址的语料文本库中的地名地址文本数据进行统计分析，并提取语料文本数据库中地名地址的前缀特征词及后缀特征词；并利用提取的前缀特征词及后缀特征词组成前后缀识别窗口。

其中在利用提取的前缀特征词及后缀特征词组成前后缀识别窗口时，对从语料文本库中提取的前缀特征词及后缀特征词进行频率统计，并根据频率统计的结果对前后缀识别窗口中的前缀特征词及后缀特征词赋予权重；按照前缀特征词及后缀特征词的权重大小，确定前后缀识别窗口中前缀特征词及后缀特征词的匹配顺序。

本发明实施例中还提供了一种对前后缀特征词进行赋权重组成前后缀识别窗口的示例，具体如下：

如表1中，按照前缀词的词性，给出了前缀词的类型列表，如动词“位于”、“包括”，介词“随着”“于”等，此处不再一一列举。

表1前缀词列表

如表2中，按照后缀词的词性，给出了后缀词的类型列表，如动词“举行”、“进行”，助词“的”“等”等，此处不再一一列举。

表2后缀词列表

根据表及表2中示出的前缀特征词及后缀特征词，统计地名地址语料文本库中，地名地址的前缀特征词及后缀特征词出现的频率，并利用公式weight＝frequency(pos)+frequency(word)确定前后缀特征词的权重，其中：

frequency(pos)表示前缀词词性确定的情况下，后缀词词性的频率；

frequency(word)：后缀词词性确定的情况下，当前后缀词在该词性下出现的频率。

根据计算出的各个前后缀词的权重大小，确定前后缀识别窗口中前缀特征词及后缀特征词的匹配顺序，如图4所示，组成的前后缀识别窗口包括前缀词及后缀词，其中前缀词中包括前缀词1、前缀词2……前缀词n，按照计算出的权重大小排列；后缀词中包括后缀词1、后缀词2……后缀词n，按照计算出的权重大小以及与前缀词的对应关系确定排列顺序，具体匹配时，排列的先后顺序与进行匹配的先后顺序基本一致。

步骤S34：候选地名地址提取

利用上述步骤中组成的前后缀识别窗口对待匹配词组的前缀及后缀分别进行文字匹配，提取候选地名地址。其中，在对待匹配词组进行匹配时，按照前后缀特征词的频率特征，对待匹配词组的前缀特征词及后缀特征词依次进行队列匹配，即权重较大的特征词首先通过地名前缀特征词的匹配，然后根据与该前缀特征词所对应后缀词的权重进行地名地址后缀词的匹配，只有当前后缀词语完全匹配成功后，则将中间的文本信息提取出来，作为候选地名地址，其中提取出的候选地名地址可以加入到候选地名地址库中。

步骤S35：规则验证，地名地址提取

根据地名地址的构成规则，构建地名地址规则库，对形成的候选地名地址库中地名地址逐一进行匹配，剔除未包含地名地址要素及不符合地名地址构词规则的噪音信息，提取包含地址元素特征词的地名地址，确保地名地址识别与提取的正确性与效率，主要包括特征词提取与特征词过滤。

特征词提取：

(1)候选地名地址中包含行政区划要素则作为地名地址信息，具体公式为：AdminLib：行政区划库(精确到村级)，如：“北京、济南、海淀…”，i：集合中的一个元素；Loc(y)：确定为地名地址集合。

(2)提取包含专有地名名词的候选地名地址作为地名地址：其中Loclist:专有地名名词集合，如：“河流、湖泊、道路…”。

(3)候选地名地址中含有经纬度信息的作为地名地址：其中Lonlat[i]为经纬度词，如：“东经、北纬、西经、南纬”。

(4)含有企事业单位特征词的候选地名地址作为地名地址：Unit[i]为企事单位词，“如：公司、学校、客运站、展览馆、银行…”。

特征词过滤：

(5)含有姓氏并且含有人物描述词的候选地名地址判断为非地名地址：其中Familyname：人名姓氏集合，如：“赵、钱、孙…”；Figurelist：人物描述后缀词，如：“女士、先生、叔叔、阿姨…”；Loc(n)：代表非地名地址集合。

(6)候选地名地址中既含有人物代词也含有人物描述后缀词的被判断为非地名地址： Pronlist：人物代词集合，如：“你们、我们、他…”。

对应上述地名地址提取方法，本发明实施例还提供了一种地名地址提取装置，如图5所示包括：分词模块41、前后缀匹配模块42及过滤筛选模块43；其中，分词模块41，用于对目标文本分词，得到待匹配词组；前后缀匹配模块42，用于利用前后缀识别窗口中的前缀特征词及后缀特征词分别对待匹配词组的前缀及后缀进行文字匹配，并根据文字匹配的结果获取候选地名地址；过滤筛选模块43，用于提取候选地名地址中的筛选特征词，依据筛选特征词对候选地名地址进行过滤筛选。

在对目标文本分词之前，首先获取目标文本，获取的方法为通过网络爬虫技术抓取网页文本，为了实现网页上述装置还包括：文本抓取模块，用于对目标文本分词前，采用网络爬虫技术，抓取目标网页中的网页文本，并将抓取的网页文本作为目标文本。

上述装置，还包括：特征词提取模块，用于对含有地名地址的语料文本库中的地名地址文本数据分别进行前缀特征词及后缀特征词的提取；识别窗口组成模块，用于利用提取的前缀特征词及后缀特征词组成前后缀识别窗口。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，RandomAccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种地名地址提取方法，其特征在于，包括：

对目标文本分词，得到待匹配词组；

利用前后缀识别窗口中的前缀特征词及后缀特征词分别对所述待匹配词组的前缀及后缀进行文字匹配，并根据所述文字匹配的结果获取候选地名地址；

提取所述候选地名地址中的筛选特征词，依据所述筛选特征词对所述候选地名地址进行过滤筛选。

2.根据权利要求1所述的方法，其特征在于，所述对目标文本分词前还包括：采用网络爬虫技术，抓取目标网页中的网页文本，并将抓取的所述网页文本作为目标文本。

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：对含有地名地址的语料文本库中的地名地址文本数据分别进行前缀特征词及后缀特征词的提取；

利用提取的所述前缀特征词及所述后缀特征词组成所述前后缀识别窗口。

4.根据权利要求3所述的方法，其特征在于，所述利用提取的所述前缀特征词及所述后缀特征词组成所述前后缀识别窗口，包括：

对从所述语料文本库中提取的所述前缀特征词及所述后缀特征词进行频率统计，并根据所述频率统计的结果对所述前后缀识别窗口中的前缀特征词及后缀特征词赋予权重；

按照所述前缀特征词及所述后缀特征词的权重大小，确定所述前后缀识别窗口中前缀特征词及后缀特征词的匹配顺序。

5.根据权利要求4所述的方法，其特征在于，所述利用前后缀识别窗口中的前缀特征词及后缀特征词分别对所述待匹配词组的前缀及后缀进行文字匹配，包括：

按照所述前后缀识别窗口中确定出的前缀特征词及后缀特征词的匹配顺序对所述待匹配词组的前缀及后缀进行文字匹配。

6.根据权利要求5所述的方法，其特征在于，所述利用前后缀识别窗口中的前缀特征词及后缀特征词分别对所述待匹配词组的前缀及后缀进行文字匹配，包括：

利用前后缀识别窗口中的前缀特征词对所述待匹配词组的前缀进行匹配；

当所述前缀匹配一致后，利用所述前后缀识别窗口中的后缀特征词对所述待匹配词组的后缀进行匹配。

7.根据权利要求1所述的方法，其特征在于，所述提取所述候选地名地址中的筛选特征词，依据所述筛选特征词对所述候选地名地址进行过滤筛选，包括：

当从所述候选地名地址中提取的所述筛选特征词中至少包括行政区划要素、专有地名名词、经纬度信息及企事业单位特征词中的一项时，确定所述候选地名地址为符合地名地址规则的地名地址；

当从所述候选地名地址中提取的所述筛选特征词中同时包括姓氏及人物描述时，或，同时包括人物代词及人物描述时，剔除所述候选地名地址。

8.一种地名地址提取装置，其特征在于，包括：

分词模块，用于对目标文本分词，得到待匹配词组；

前后缀匹配模块，用于利用前后缀识别窗口中的前缀特征词及后缀特征词分别对所述待匹配词组的前缀及后缀进行文字匹配，并根据所述文字匹配的结果获取候选地名地址；

过滤筛选模块，用于提取所述候选地名地址中的筛选特征词，依据所述筛选特征词对所述候选地名地址进行过滤筛选。

9.根据权利要求8所述的装置，其特征在于，还包括：文本抓取模块，用于对目标文本分词前，采用网络爬虫技术，抓取目标网页中的网页文本，并将抓取的所述网页文本作为目标文本。

10.根据权利要求8所述的装置，其特征在于，还包括：

特征词提取模块，用于对含有地名地址的语料文本库中的地名地址文本数据分别进行前缀特征词及后缀特征词的提取；

识别窗口组成模块，用于利用提取的所述前缀特征词及所述后缀特征词组成所述前后缀识别窗口。