CN105138708A - 一种兴趣点名称的识别方法和装置 - Google Patents
一种兴趣点名称的识别方法和装置 Download PDFInfo
- Publication number
- CN105138708A CN105138708A CN201510643119.5A CN201510643119A CN105138708A CN 105138708 A CN105138708 A CN 105138708A CN 201510643119 A CN201510643119 A CN 201510643119A CN 105138708 A CN105138708 A CN 105138708A
- Authority
- CN
- China
- Prior art keywords
- interest
- point
- poi
- name
- names
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Remote Sensing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例提供了一种兴趣点名称的识别方法和装置,该方法包括:在网页中提取兴趣点数据;所述兴趣点数据包括兴趣点名称;将标识同一对象的兴趣点名称设置为兴趣点名称集合;从所述兴趣点名称集合中识别正确的第二目标兴趣点名称,从而在后续的操作中应用这些正确的POI数据,降低了操作的错误率,减少了资源浪费。
Description
技术领域
本发明涉及计算机处理的技术领域,特别是涉及一种兴趣点名称的识别方法和一种兴趣点名称的识别装置。
背景技术
兴趣点(PointofInterest,POI),又可以翻译成“信息点”,其包含多方面的信息,如名称、类别、经度纬度等等。
在地理信息系统中,一个POI可以是一栋房子、一个商铺、一个邮筒、一个公交站等。
传统的地理信息采集方法需要地图测绘人员采用精密的测绘仪器去获取一个兴趣点的经纬度,然后再标记下来。
正因为POI数据的采集是一个非常费时费事的工作,对一个地理信息系统来说,POI的数量在一定程度代表着整个系统的价值。
为了丰富地理信息系统的POI数据的数量,目前从网页中挖掘POI数据,大多是根据网页的结构配置合适的模板,通过模板来提取。
但是,用户并不一定会按照网页的规定去发布信息,使得这些包含POI的网站中充斥着大量的脏数据,是错误的POI数据。
例如,某个网站约定网页的一个区域是发布公司名称,但是,有的用户可能发布诸如“世界五百强企业”等数据,并非是一个真正的POI名称。
若后续应用这些错误的POI数据进行导航等操作,操作的错误率高,造成资源浪费。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种兴趣点名称的识别方法和相应的一种兴趣点名称的识别装置。
依据本发明的一个方面,提供了一种兴趣点名称的识别方法,包括:
在网页中提取兴趣点数据;所述兴趣点数据包括兴趣点名称;
将标识同一对象的兴趣点名称设置为兴趣点名称集合;
从所述兴趣点名称集合中识别正确的第二目标兴趣点名称。
可选地,所述在网页中提取兴趣点数据的步骤包括:
查找针对网页配置的模板;
在所述网页中,依据所述模板指示的位置提取兴趣点数据。
可选地,所述兴趣点数据还包括兴趣点地址;
所述将标识同一对象的兴趣点名称设置为兴趣点名称集合的步骤包括:
判断所述兴趣点地址是否相同或相似;若是,则将所述兴趣点地址关联的兴趣点名称设置为兴趣点名称集合。
可选地,所述从所述兴趣点名称集合中识别正确的第二目标兴趣点名称的步骤包括:
在所述兴趣点名称集合中的兴趣点名称选取关键词;
依据所述关键词从所述兴趣点名称中识别正确的第二目标兴趣点名称。
可选地,所述在所述兴趣点名称集合中的兴趣点名称选取关键词的步骤包括:
对所述兴趣点名称集合中的兴趣点名称进行分词处理,获得一个或多个分词;
查找所述分词在预设的兴趣点集合中的第一词频;
将同一个兴趣点名称中第一词频最低的X个分词,作为所述兴趣点名称的关键词,其中,X为正整数。
可选地,所述在所述兴趣点名称集合中的兴趣点名称选取关键词的步骤还包括:
当所述分词与预设的地址数据匹配时,移除所述分词。
可选地,可选地,所述依据所述关键词从所述兴趣点名称中识别正确的第二目标兴趣点名称的步骤包括:
计算所述关键词在所述兴趣点名称集合中的第二词频;
将所述第二词频最高的Z个关键词所属的兴趣点名称作确定为正确的目标兴趣点名称,其中,Z为正整数。
根据本发明的另一方面,提供了一种兴趣点名称的识别装置,包括:
兴趣点数据提取模块,适于在网页中提取兴趣点数据;所述兴趣点数据包括兴趣点名称;
兴趣点名称集合设置模块,适于将标识同一对象的兴趣点名称设置为兴趣点名称集合;
正确兴趣点名称识别模块,适于从所述兴趣点名称集合中识别正确的第二目标兴趣点名称。
可选地,所述兴趣点数据提取模块还适于:
查找针对网页配置的模板;
在所述网页中,依据所述模板指示的位置提取兴趣点数据。
可选地,所述兴趣点数据还包括兴趣点地址;
所述兴趣点名称集合设置模块还适于:
判断所述兴趣点地址是否相同或相似;若是,则将所述兴趣点地址关联的兴趣点名称设置为兴趣点名称集合。
可选地,所述正确兴趣点名称识别模块还适于:
在所述兴趣点名称集合中的兴趣点名称选取关键词;
依据所述关键词从所述兴趣点名称中识别正确的第二目标兴趣点名称。
可选地,所述正确兴趣点名称识别模块还适于:
对所述兴趣点名称集合中的兴趣点名称进行分词处理,获得一个或多个分词;
查找所述分词在预设的兴趣点集合中的第一词频;
将同一个兴趣点名称中第一词频最低的X个分词,作为所述兴趣点名称的关键词,其中,X为正整数。
可选地,所述正确兴趣点名称识别模块还适于:
当所述分词与预设的地址数据匹配时,移除所述分词。
可选地,所述正确兴趣点名称识别模块还适于:
计算所述关键词在所述兴趣点名称集合中的第二词频;
将所述第二词频最高的Z个关键词所属的兴趣点名称作确定为正确的目标兴趣点名称,其中,Z为正整数。
本发明实施例从网页提取到兴趣点数据中识别标识同一对象的兴趣点名称,从而识别正确的第二目标兴趣点名称,从而在后续的操作中应用这些正确的POI数据,降低了操作的错误率,减少了资源浪费。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本发明一个实施例的一种兴趣点名称的识别方法实施例1的步骤流程图;
图2示出了根据本发明一个实施例的一种兴趣点名称的识别方法实施例2的步骤流程图;
图3示出了根据本发明一个实施例的一种兴趣点名称的识别方法实施例3的步骤流程图;
图4示出了根据本发明一个实施例的一种兴趣点名称的识别装置实施例1的结构框图;
图5示出了根据本发明一个实施例的一种兴趣点名称的识别装置实施例2的结构框图;以及
图6示出了根据本发明一个实施例的一种兴趣点名称的识别装置实施例3的结构框图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
参照图1,示出了根据本发明一个实施例的一种兴趣点名称的识别方法实施例1的步骤流程图,具体可以包括如下步骤:
步骤101,在网页中提取兴趣点数据;
在本发明实施例中,爬虫可以预先通过网页间的链接关系,抓取互联网的网页并保存,爬虫抓取的网页保存在网页数据库中形成大量的搜索资源。
对于存在较多的POI数据、且POI数据分布具有规律的网页,如用户进行餐饮、旅游进行点评的网站中的网页,地图网站中的网页等等,可以查找针对网页配置的模板,在网页中,依据模板指示的位置提取兴趣点数据,从而获取到大量的POI数据,其中包括关联的兴趣点名称、兴趣点地址、URL(UniformResourceLocator,统一资源定位符)等等。
例如,某个网站的部分网页结构如下:
其中,“***”为域名。
在这个网站的模板中,在第一行可以提取到兴趣点名称,在最后一行可以提取到兴趣点地址。
通过模板,在不同网站的网页提取了如下兴趣点数据:
其中,“***A”和“***B”为不同的域名。
步骤102,将标识同一对象的兴趣点名称设置为兴趣点名称集合;
POI数据一般都会标识一个对象,如一栋房子、一个商铺、一个邮筒、一个公交站等。
由于该对象的地址信息的准确性一般比较高,因此,在本发明实施例中,可以通过将兴趣点地址进行归一化,判断兴趣点地址是否相同或相似;若是,则将兴趣点地址关联的兴趣点名称设置为兴趣点名称集合。
例如,“榆林榆阳肤施路今日潮大酒店隔壁东恒百货三楼”、“榆林榆阳区肤施路今日潮隔壁东恒百货三楼第一营业部”、“榆林榆阳南门口东恒百货大楼3楼”和“陕西榆林南门口东恒百货批发三楼”这4个兴趣点地址虽然形式上不完全相同,但是通过归一化可以确定它们的地址都为“榆林市榆阳区东恒百货大楼三楼”。
即其关联的“世界500强企业”、“中国平安保险公司”、“中国平安榆林分公司”和“中国平安保险股份有限公司榆林分公司”为兴趣点名称集合。
步骤103,从所述兴趣点名称集合中识别错误的第一目标兴趣点名称。
在本发明实施例中,可以通过挖掘兴趣点名称的关键词来筛选错误的POI名称,即第一目标兴趣点名称。
在本发明的一个可选实施例中,步骤103可以包括如下子步骤:
子步骤S11,在所述兴趣点名称集合中的兴趣点名称选取关键词;
在本发明实施例中,关键词可以为包含的信息量最大,体现兴趣点名称特征的词。
在具体实现中,可以对兴趣点名称集合中的兴趣点名称进行分词处理,获得一个或多个分词;
本发明实施例中,可以采用如下的一种或多种分词处理:
1、基于字符串匹配的分词:是指按照一定的策略将待分析的汉字串与一个预置的机器词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。
2、基于特征扫描或标志切分的分词:是指优先在待分析字符串中识别和切分出一些带有明显特征的词,以这些词作为断点,可将原字符串分为较小的串再来进机械分词,从而减少匹配的错误率;或者将分词和词类标注结合起来,利用丰富的词类信息对分词决策提供帮助,并且在标注过程中又反过来对分词结果进行检验、调整,从而提高切分的准确率。
3、基于理解的分词:是指通过让计算机模拟人对句子的理解,达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。它通常包括三个部分:分词子系统、句法语义子系统、总控部分。在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断,即它模拟了人对句子的理解过程。这种分词方法需要使用大量的语言知识和信息。
4、基于统计的分词方法:是指,中文信息中由于字与字相邻共现的频率或概率能够较好的反映成词的可信度,所以可以对语料中相邻共现的各个字的组合的频度进行统计,计算它们的互现信息,以及计算两个汉字X、Y的相邻共现概率。互现信息可以体现汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时,便可认为此字组可能构成了一个词。
例如,对于上述兴趣点名称,可以切分如下分词:
查找分词在预设的兴趣点集合中的第一词频,该兴趣点集合为抓取到的网页中的POI数据的集合,该POI数据的数量可以多达数千万,该第一词频是根据该数千万的POI数据的名称统计。
当第一词频最少时,其包含的信息量一般最大,则可以将同一个兴趣点名称中第一词频最低的X个分词,作为兴趣点名称的关键词,其中,X为正整数。
例如,对于上述兴趣点名称,可以提取如下关键词:
兴趣点名称 | 关键词 |
世界500强企业 | 世界 |
中国平安保险公司 | 平安 |
中国平安榆林分公司 | 平安 |
中国平安保险股份有限公司榆林分公司 | 平安 |
其中,“企业”、“公司”、“分公司”等词的第一词频较高,包含的信息量较少,仅表示企业/公司身份,指向性不明确,不适宜作为关键词,“平安”等词的第一词频较较低,包含的信息量较多,即常用的企业缩写名称,适宜作为关键词。
需要说明的是,可以预先获取全国的省、市、县(区)、乡镇、道路等地址数据,创建一个地址数据库。
当分词与预设的地址数据匹配时,例如“中国”、“榆林”等等,为无效的关键词,可以移除该分词。
子步骤S12,依据所述关键词从所述兴趣点名称中识别错误第一的目标兴趣点名称。
在具体实现中,可以计算关键词在兴趣点名称集合中的第二词频,将第二词频最低的Y个关键词所属的兴趣点名称确定为错误的第一目标兴趣点名称,其中,Y为正整数。
例如,对于上述兴趣点名称的关键词,“世界”的第二词频为1,“平安”的第二词频为3,“世界”的第二词频较低,可以确认其所属的“世界500强企业”为错误的第一目标兴趣点名称。
本发明实施例从网页提取到兴趣点数据中识别标识同一对象的兴趣点名称,从而识别错误的第一目标兴趣点名称,从而后续的操作中剔除这些错误的POI数据,降低了操作的错误率,减少了资源浪费。
参照图2,示出了根据本发明一个实施例的一种兴趣点名称的识别方法实施例2的步骤流程图,具体可以包括如下步骤:
步骤201,在网页中提取兴趣点数据;
在本发明实施例中,爬虫可以预先通过网页间的链接关系,抓取互联网的网页并保存,爬虫抓取的网页保存在网页数据库中形成大量的搜索资源。
对于存在较多的POI数据、且POI数据分布具有规律的网页,如用户进行餐饮、旅游进行点评的网站中的网页,地图网站中的网页等等,可以查找针对网页配置的模板,在网页中,依据模板指示的位置提取兴趣点数据,从而获取到大量的POI数据,其中包括关联的兴趣点名称、兴趣点地址、URL(UniformResourceLocator,统一资源定位符)等等。
例如,某个网站的部分网页结构如下:
其中,“***”为域名。
在这个网站的模板中,在第一行可以提取到兴趣点名称,在最后一行可以提取到兴趣点地址。
通过模板,在不同网站的网页提取了如下兴趣点数据:
其中,“***A”和“***B”为不同的域名。
步骤202,将标识同一对象的兴趣点名称设置为兴趣点名称集合;
POI数据一般都会标识一个对象,如一栋房子、一个商铺、一个邮筒、一个公交站等。
由于该对象的地址信息的准确性一般比较高,因此,在本发明实施例中,可以通过将兴趣点地址进行归一化,判断兴趣点地址是否相同或相似;若是,则将兴趣点地址关联的兴趣点名称设置为兴趣点名称集合。
例如,“榆林榆阳肤施路今日潮大酒店隔壁东恒百货三楼”、“榆林榆阳区肤施路今日潮隔壁东恒百货三楼第一营业部”、“榆林榆阳南门口东恒百货大楼3楼”和“陕西榆林南门口东恒百货批发三楼”这4个兴趣点地址虽然形式上不完全相同,但是通过归一化可以确定它们的地址都为“榆林市榆阳区东恒百货大楼三楼”。
即其关联的“世界500强企业”、“中国平安保险公司”、“中国平安榆林分公司”和“中国平安保险股份有限公司榆林分公司”为兴趣点名称集合。
步骤203,从所述兴趣点名称集合中识别正确的第二目标兴趣点名称。
在本发明实施例中,可以通过挖掘兴趣点名称的关键词来筛选正确的POI名称,即第二目标兴趣点名称。
在本发明的一个可选实施例中,步骤203可以包括如下子步骤:
子步骤S21,在所述兴趣点名称集合中的兴趣点名称选取关键词;
在本发明实施例中,关键词可以为包含的信息量最大,体现兴趣点名称特征的词。
在具体实现中,可以对兴趣点名称集合中的兴趣点名称进行分词处理,获得一个或多个分词;
本发明实施例中,可以采用如下的一种或多种分词处理:
1、基于字符串匹配的分词:是指按照一定的策略将待分析的汉字串与一个预置的机器词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。
2、基于特征扫描或标志切分的分词:是指优先在待分析字符串中识别和切分出一些带有明显特征的词,以这些词作为断点,可将原字符串分为较小的串再来进机械分词,从而减少匹配的错误率;或者将分词和词类标注结合起来,利用丰富的词类信息对分词决策提供帮助,并且在标注过程中又反过来对分词结果进行检验、调整,从而提高切分的准确率。
3、基于理解的分词:是指通过让计算机模拟人对句子的理解,达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。它通常包括三个部分:分词子系统、句法语义子系统、总控部分。在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断,即它模拟了人对句子的理解过程。这种分词方法需要使用大量的语言知识和信息。
4、基于统计的分词方法:是指,中文信息中由于字与字相邻共现的频率或概率能够较好的反映成词的可信度,所以可以对语料中相邻共现的各个字的组合的频度进行统计,计算它们的互现信息,以及计算两个汉字X、Y的相邻共现概率。互现信息可以体现汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时,便可认为此字组可能构成了一个词。
例如,对于上述兴趣点名称,可以切分如下分词:
查找分词在预设的兴趣点集合中的第一词频,该兴趣点集合为抓取到的网页中的POI数据的集合,该POI数据的数量可以多达数千万,该第一词频是根据该数千万的POI数据的名称统计。
当第一词频最少时,其包含的信息量一般最大,则可以将同一个兴趣点名称中第一词频最低的X个分词,作为兴趣点名称的关键词,其中,X为正整数。
例如,对于上述兴趣点名称,可以提取如下关键词:
兴趣点名称 | 关键词 |
世界500强企业 | 世界 |
中国平安保险公司 | 平安 |
中国平安榆林分公司 | 平安 |
中国平安保险股份有限公司榆林分公司 | 平安 |
其中,“企业”、“公司”、“分公司”等词的第一词频较高,包含的信息量较少,仅表示企业/公司身份,指向性不明确,不适宜作为关键词,“平安”等词的第一词频较较低,包含的信息量较多,即常用的企业缩写名称,适宜作为关键词。
需要说明的是,可以预先获取全国的省、市、县(区)、乡镇、道路等地址数据,创建一个地址数据库。
当分词与预设的地址数据匹配时,例如“中国”、“榆林”等等,为无效的关键词,可以移除该分词。
子步骤S22,依据所述关键词从所述兴趣点名称中识别正确的第二目标兴趣点名称。
在具体实现中,可以计算关键词在兴趣点名称集合中的第二词频,将第二词频最高的Z个关键词所属的兴趣点名称作确定为正确的目标兴趣点名称,其中,Z为正整数。
例如,对于上述兴趣点名称的关键词,“世界”的第二词频为1,“平安”的第二词频为3,“平安”的第二词频较高,可以确认其所属的“中国平安保险公司”、“中国平安榆林分公司”和“中国平安保险股份有限公司榆林分公司”为正确的第二目标兴趣点名称。
本发明实施例从网页提取到兴趣点数据中识别标识同一对象的兴趣点名称,从而识别正确的第二目标兴趣点名称,从而在后续的操作中应用这些正确的POI数据,降低了操作的错误率,减少了资源浪费。
参照图3,示出了根据本发明一个实施例的一种兴趣点名称的识别方法实施例3的步骤流程图,具体可以包括如下步骤:
步骤301,在网页中提取兴趣点数据;所述兴趣点数据包括兴趣点名称;
步骤302,将标识同一对象的兴趣点名称设置为兴趣点名称集合;
步骤303,从所述兴趣点名称集合中识别错误的第一目标兴趣点名称和正确的第二目标兴趣点名称。
在本发明的一个可选实施例中,步骤301可以包括如下子步骤:
子步骤S31,查找针对网页配置的模板;
子步骤S32,在所述网页中,依据所述模板指示的位置提取兴趣点数据。
在本发明的一个实施例中,所述兴趣点数据还包括兴趣点地址;则在本发明实施例中,步骤302可以包括如下子步骤:
子步骤S41,判断所述兴趣点地址是否相同或相似;若是,则执行子步骤S42;
子步骤S42,将所述兴趣点地址关联的兴趣点名称设置为兴趣点名称集合。
在本发明的一个可选实施例中,步骤303可以包括如下子步骤:
子步骤S51,在所述兴趣点名称集合中的兴趣点名称选取关键词;
子步骤S52,依据所述关键词从所述兴趣点名称中识别错误第一的目标兴趣点名称和正确的第二目标兴趣点名称。
在本发明的一个可选实施例中,子步骤S51进一步可以包括如下子步骤:
子步骤S511,对所述兴趣点名称集合中的兴趣点名称进行分词处理,获得一个或多个分词;
子步骤S512,查找所述分词在预设的兴趣点集合中的第一词频;
子步骤S513,将同一个兴趣点名称中第一词频最低的X个分词,作为所述兴趣点名称的关键词,其中,X为正整数。
在本发明的一个实施例中,子步骤S51还可以包括如下子步骤:
子步骤S514,当所述分词与预设的地址数据匹配时,移除所述分词。
在本发明的一个可选实施例中,子步骤S52进一步可以包括如下子步骤:
子步骤S521,计算所述关键词在所述兴趣点名称集合中的第二词频;
子步骤S522,将所述第二词频最低的Y个关键词所属的兴趣点名称确定为错误的第一目标兴趣点名称;
子步骤S523,将所述第二词频最高的Z个关键词所属的兴趣点名称确定为正确的目标兴趣点名称,其中,Y、Z为正整数。
本发明实施例从网页提取到兴趣点数据中识别标识同一对象的兴趣点名称,从而识别错误的第一目标兴趣点名称和正确的第二目标兴趣点名称,从在后续操作中剔除这些错误的POI数据、应用这些正确的POI数据,降低了操作的错误率,减少了资源浪费。
在本发明实施例中,由于与方法实施例1、2的应用基本相似,所以描述的比较简单,相关之处参见方法实施例1、2的部分说明即可,本发明实施例在此不加以详述。
对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
参照图4,示出了根据本发明一个实施例的一种兴趣点名称的识别装置实施例1的结构框图,具体可以包括如下模块:
兴趣点数据提取模块401,适于在网页中提取兴趣点数据;所述兴趣点数据包括兴趣点名称;
兴趣点名称集合设置模块402,适于将标识同一对象的兴趣点名称设置为兴趣点名称集合;
错误兴趣点名称识别模块403,适于从所述兴趣点名称集合中识别错误的第一目标兴趣点名称。
在本发明的一个可选实施例中,所述兴趣点数据提取模块401还可以适于:
查找针对网页配置的模板;
在所述网页中,依据所述模板指示的位置提取兴趣点数据。
在本发明的一个可选实施例中,所述兴趣点数据还包括兴趣点地址;
所述兴趣点名称集合设置模块402还可以适于:
判断所述兴趣点地址是否相同或相似;若是,则将所述兴趣点地址关联的兴趣点名称设置为兴趣点名称集合。
在本发明的一个可选实施例中,所述错误兴趣点名称识别模块403还可以适于:
在所述兴趣点名称集合中的兴趣点名称选取关键词;
依据所述关键词从所述兴趣点名称中识别错误第一的目标兴趣点名称。
在本发明的一个可选实施例中,所述错误兴趣点名称识别模块403还可以适于:
对所述兴趣点名称集合中的兴趣点名称进行分词处理,获得一个或多个分词;
查找所述分词在预设的兴趣点集合中的第一词频;
将同一个兴趣点名称中第一词频最低的X个分词,作为所述兴趣点名称的关键词,其中,X为正整数。
在本发明的一个可选实施例中,所述错误兴趣点名称识别模块403还可以适于:
当所述分词与预设的地址数据匹配时,移除所述分词。
在本发明的一个可选实施例中,所述错误兴趣点名称识别模块403还可以适于:
计算所述关键词在所述兴趣点名称集合中的第二词频;
将所述第二词频最低的Y个关键词所属的兴趣点名称确定为错误的第一目标兴趣点名称,其中,Y为正整数。
参照图5,示出了根据本发明一个实施例的一种兴趣点名称的识别装置实施例2的结构框图,具体可以包括如下模块:
兴趣点数据提取模块501,适于在网页中提取兴趣点数据;所述兴趣点数据包括兴趣点名称;
兴趣点名称集合设置模块502,适于将标识同一对象的兴趣点名称设置为兴趣点名称集合;
正确兴趣点名称识别模块503,适于从所述兴趣点名称集合中识别正确的第二目标兴趣点名称。
在本发明的一个可选实施例中,所述兴趣点数据提取模块501还可以适于:
查找针对网页配置的模板;
在所述网页中,依据所述模板指示的位置提取兴趣点数据。
在本发明的一个可选实施例中,所述兴趣点数据还包括兴趣点地址;
所述兴趣点名称集合设置模块502还可以适于:
判断所述兴趣点地址是否相同或相似;若是,则将所述兴趣点地址关联的兴趣点名称设置为兴趣点名称集合。
在本发明的一个可选实施例中,所述正确兴趣点名称识别模块503还可以适于:
在所述兴趣点名称集合中的兴趣点名称选取关键词;
依据所述关键词从所述兴趣点名称中识别正确的第二目标兴趣点名称。
在本发明的一个可选实施例中,所述正确兴趣点名称识别模块503还可以适于:
对所述兴趣点名称集合中的兴趣点名称进行分词处理,获得一个或多个分词;
查找所述分词在预设的兴趣点集合中的第一词频;
将同一个兴趣点名称中第一词频最低的X个分词,作为所述兴趣点名称的关键词,其中,X为正整数。
在本发明的一个可选实施例中,所述正确兴趣点名称识别模块503还可以适于:
当所述分词与预设的地址数据匹配时,移除所述分词。
在本发明的一个可选实施例中,所述正确兴趣点名称识别模块503还可以适于:
计算所述关键词在所述兴趣点名称集合中的第二词频;
将所述第二词频最高的Z个关键词所属的兴趣点名称作确定为正确的目标兴趣点名称,其中,Z为正整数。
参照图6,示出了根据本发明一个实施例的一种兴趣点名称的识别装置实施例3的结构框图,具体可以包括如下模块:
兴趣点数据提取模块601,适于在网页中提取兴趣点数据;所述兴趣点数据包括兴趣点名称;
兴趣点名称集合设置模块602,适于将标识同一对象的兴趣点名称设置为兴趣点名称集合;
兴趣点名称识别模块603,适于从所述兴趣点名称集合中识别错误的第一目标兴趣点名称和正确的第二目标兴趣点名称。
在本发明的一个可选实施例中,所述兴趣点数据提取模块601还可以适于:
查找针对网页配置的模板;
在所述网页中,依据所述模板指示的位置提取兴趣点数据。
在本发明的一个可选实施例中,所述兴趣点数据还包括兴趣点地址;
所述兴趣点名称集合设置模块602还可以适于:
判断所述兴趣点地址是否相同或相似;若是,则将所述兴趣点地址关联的兴趣点名称设置为兴趣点名称集合。
在本发明的一个可选实施例中,所述兴趣点名称识别模块603还可以适于:
在所述兴趣点名称集合中的兴趣点名称选取关键词;
依据所述关键词从所述兴趣点名称中识别错误第一的目标兴趣点名称和正确的第二目标兴趣点名称。
在本发明的一个可选实施例中,所述兴趣点名称识别模块403还可以适于:
对所述兴趣点名称集合中的兴趣点名称进行分词处理,获得一个或多个分词;
查找所述分词在预设的兴趣点集合中的第一词频;
将同一个兴趣点名称中第一词频最低的X个分词,作为所述兴趣点名称的关键词,其中,X为正整数。
在本发明的一个可选实施例中,所述错误兴趣点名称识别模块603还可以适于:
当所述分词与预设的地址数据匹配时,移除所述分词。
在本发明的一个可选实施例中,所述错误兴趣点名称识别模块603还可以适于:
计算所述关键词在所述兴趣点名称集合中的第二词频;
将所述第二词频最低的Y个关键词所属的兴趣点名称确定为错误的第一目标兴趣点名称;
将所述第二词频最高的Z个关键词所属的兴趣点名称确定为正确的目标兴趣点名称,其中,Y、Z为正整数。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的兴趣点名称的识别设备中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
Claims (10)
1.一种兴趣点名称的识别方法,包括:
在网页中提取兴趣点数据;所述兴趣点数据包括兴趣点名称;
将标识同一对象的兴趣点名称设置为兴趣点名称集合;
从所述兴趣点名称集合中识别正确的第二目标兴趣点名称。
2.如权利要求1所述的方法,其特征在于,所述在网页中提取兴趣点数据的步骤包括:
查找针对网页配置的模板;
在所述网页中,依据所述模板指示的位置提取兴趣点数据。
3.如权利要求1或2所述的方法,其特征在于,所述兴趣点数据还包括兴趣点地址;
所述将标识同一对象的兴趣点名称设置为兴趣点名称集合的步骤包括:
判断所述兴趣点地址是否相同或相似;若是,则将所述兴趣点地址关联的兴趣点名称设置为兴趣点名称集合。
4.如权利要求1或2或3所述的方法,其特征在于,所述从所述兴趣点名称集合中识别正确的第二目标兴趣点名称的步骤包括:
在所述兴趣点名称集合中的兴趣点名称选取关键词;
依据所述关键词从所述兴趣点名称中识别正确的第二目标兴趣点名称。
5.如权利要求1或2或3或4所述的方法,其特征在于,所述在所述兴趣点名称集合中的兴趣点名称选取关键词的步骤包括:
对所述兴趣点名称集合中的兴趣点名称进行分词处理,获得一个或多个分词;
查找所述分词在预设的兴趣点集合中的第一词频;
将同一个兴趣点名称中第一词频最低的X个分词,作为所述兴趣点名称的关键词,其中,X为正整数。
6.如权利要求1或2或3或4或5所述的方法,其特征在于,所述在所述兴趣点名称集合中的兴趣点名称选取关键词的步骤还包括:
当所述分词与预设的地址数据匹配时,移除所述分词。
7.如权利要求1或2或3或4或5或6所述的方法,其特征在于,所述依据所述关键词从所述兴趣点名称中识别正确的第二目标兴趣点名称的步骤包括:
计算所述关键词在所述兴趣点名称集合中的第二词频;
将所述第二词频最高的Z个关键词所属的兴趣点名称作确定为正确的目标兴趣点名称,其中,Z为正整数。
8.一种兴趣点名称的识别装置,包括:
兴趣点数据提取模块,适于在网页中提取兴趣点数据;所述兴趣点数据包括兴趣点名称;
兴趣点名称集合设置模块,适于将标识同一对象的兴趣点名称设置为兴趣点名称集合;
正确兴趣点名称识别模块,适于从所述兴趣点名称集合中识别正确的第二目标兴趣点名称。
9.如权利要求8所述的装置,其特征在于,所述兴趣点数据提取模块还适于:
查找针对网页配置的模板;
在所述网页中,依据所述模板指示的位置提取兴趣点数据。
10.如权利要求8或9所述的装置,其特征在于,所述兴趣点数据还包括兴趣点地址;
所述兴趣点名称集合设置模块还适于:
判断所述兴趣点地址是否相同或相似;若是,则将所述兴趣点地址关联的兴趣点名称设置为兴趣点名称集合。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510643119.5A CN105138708A (zh) | 2015-09-30 | 2015-09-30 | 一种兴趣点名称的识别方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510643119.5A CN105138708A (zh) | 2015-09-30 | 2015-09-30 | 一种兴趣点名称的识别方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105138708A true CN105138708A (zh) | 2015-12-09 |
Family
ID=54724055
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510643119.5A Pending CN105138708A (zh) | 2015-09-30 | 2015-09-30 | 一种兴趣点名称的识别方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105138708A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105550169A (zh) * | 2015-12-11 | 2016-05-04 | 北京奇虎科技有限公司 | 一种基于字符长度识别兴趣点名称的方法和装置 |
CN110334349A (zh) * | 2019-06-28 | 2019-10-15 | 腾讯科技(深圳)有限公司 | 商圈自动命名的方法、装置、计算机设备及存储介质 |
CN110457706A (zh) * | 2019-08-15 | 2019-11-15 | 腾讯科技(深圳)有限公司 | 兴趣点名称选择模型训练方法、使用方法、装置及存储介质 |
CN111881225A (zh) * | 2020-04-01 | 2020-11-03 | 北京嘀嘀无限科技发展有限公司 | 一种修正上车点名称的方法和系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030097429A1 (en) * | 2001-11-20 | 2003-05-22 | Wen-Che Wu | Method of forming a website server cluster and structure thereof |
CN102340536A (zh) * | 2011-07-13 | 2012-02-01 | 北京世纪高通科技有限公司 | 一种实现兴趣点搜索的方法及装置 |
CN104572957A (zh) * | 2014-12-29 | 2015-04-29 | 北京奇虎科技有限公司 | 一种基于聚类的poi名称确定系统及方法 |
CN104699835A (zh) * | 2015-03-31 | 2015-06-10 | 北京奇虎科技有限公司 | 用于确定网页页面中包括兴趣点poi数据的方法及装置 |
-
2015
- 2015-09-30 CN CN201510643119.5A patent/CN105138708A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030097429A1 (en) * | 2001-11-20 | 2003-05-22 | Wen-Che Wu | Method of forming a website server cluster and structure thereof |
CN102340536A (zh) * | 2011-07-13 | 2012-02-01 | 北京世纪高通科技有限公司 | 一种实现兴趣点搜索的方法及装置 |
CN104572957A (zh) * | 2014-12-29 | 2015-04-29 | 北京奇虎科技有限公司 | 一种基于聚类的poi名称确定系统及方法 |
CN104699835A (zh) * | 2015-03-31 | 2015-06-10 | 北京奇虎科技有限公司 | 用于确定网页页面中包括兴趣点poi数据的方法及装置 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105550169A (zh) * | 2015-12-11 | 2016-05-04 | 北京奇虎科技有限公司 | 一种基于字符长度识别兴趣点名称的方法和装置 |
CN110334349A (zh) * | 2019-06-28 | 2019-10-15 | 腾讯科技(深圳)有限公司 | 商圈自动命名的方法、装置、计算机设备及存储介质 |
CN110457706A (zh) * | 2019-08-15 | 2019-11-15 | 腾讯科技(深圳)有限公司 | 兴趣点名称选择模型训练方法、使用方法、装置及存储介质 |
CN110457706B (zh) * | 2019-08-15 | 2023-08-22 | 腾讯科技(深圳)有限公司 | 兴趣点名称选择模型训练方法、使用方法、装置及存储介质 |
CN111881225A (zh) * | 2020-04-01 | 2020-11-03 | 北京嘀嘀无限科技发展有限公司 | 一种修正上车点名称的方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2016155386A1 (zh) | 用于确定网页页面中包括兴趣点poi数据的方法及装置 | |
CN104462126B (zh) | 一种实体链接方法及装置 | |
US10824628B2 (en) | Method, terminal device and storage medium for mining entity description tag | |
CN103294781B (zh) | 一种用于处理页面数据的方法与设备 | |
CN103853834B (zh) | 基于文本结构分析的Web文档摘要的生成方法 | |
CN105224660A (zh) | 一种地图兴趣点poi数据的处理方法和装置 | |
CN111488468B (zh) | 地理信息知识点抽取方法、装置、存储介质及计算机设备 | |
CN105160031A (zh) | 一种地图兴趣点poi数据的挖掘方法和装置 | |
CN111522901B (zh) | 文本中地址信息的处理方法及装置 | |
CN105159885A (zh) | 一种兴趣点名称的识别方法和装置 | |
WO2019227581A1 (zh) | 兴趣点识别方法、装置、终端设备及存储介质 | |
CN102841920A (zh) | 一种页面信息提取方法及装置 | |
CN110457579B (zh) | 基于模板和分类器协同工作的网页去噪方法及系统 | |
CN105069076A (zh) | 确定官网首页中的地址信息的方法及装置 | |
CN104331438B (zh) | 对小说网页内容选择性抽取方法和装置 | |
CN105550169A (zh) | 一种基于字符长度识别兴趣点名称的方法和装置 | |
CN105138708A (zh) | 一种兴趣点名称的识别方法和装置 | |
CN108984640A (zh) | 一种基于web数据挖掘的地理信息获取方法 | |
CN112818200A (zh) | 基于静态网站的数据爬取及事件分析方法及系统 | |
CN105279249A (zh) | 一种网站中兴趣点数据的置信度的判定方法和装置 | |
CN106681994A (zh) | 查询词分类样本自动挖掘以及游戏项目推荐的方法和装置 | |
CN105069079B (zh) | 筛选兴趣点poi数据的方法及装置 | |
CN104123319A (zh) | 对具有地图需求的搜索项进行解析的方法和装置 | |
CN105160032A (zh) | 一种网站中兴趣点数据的置信度的判定方法和装置 | |
CN104317903B (zh) | 章节式文本的章节完整性的识别方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20151209 |