CN103377199B - 信息处理装置和信息处理方法 - Google Patents
信息处理装置和信息处理方法 Download PDFInfo
- Publication number
- CN103377199B CN103377199B CN201210112493.9A CN201210112493A CN103377199B CN 103377199 B CN103377199 B CN 103377199B CN 201210112493 A CN201210112493 A CN 201210112493A CN 103377199 B CN103377199 B CN 103377199B
- Authority
- CN
- China
- Prior art keywords
- category
- search term
- webpage
- unit
- character string
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
提供一种信息处理装置和方法。信息处理方法包括:从图片中识别字符串作为备选;响应于得到备选字符串,根据其获取检索词;响应于检索词的获取,使用检索词来检索网页;响应于检索到的网页,对检索到的网页进行聚类;当作为聚类结果的网页类别与检索词的相关性大于等于第一预定程度但小于第二预定程度时,将该网页类别选择为第一网页类别;当网页类别与检索词的相关性大于等于第二预定程度时,将该网页类别选择为第二网页类别;响应于第一网页类别的选择,对照第一网页类别对检索词进行校验,并将校验后的检索词作为备选字符串以用于进一步获取检索词;以及基于与第二网页类别对应的检索词和预先建立的图片分类体系对图片内容主题类型进行识别。
Description
技术领域
本发明涉及信息处理领域,尤其涉及一种用于识别图片内容主题类型以及基于主题类型进行信息查询的信息处理装置和信息处理方法。
背景技术
非在线的信息发布载体(比如纸质的、灯箱、招牌)由于篇幅限制,往往不能提供详尽的信息。用户如果想了解更多信息,比如:活动细则、产品详细信息、公司的相关信息等,往往需要进一步的搜索。另外,针对用户的比较相关产品(技术指标、价格等)、查看口碑信息等需求,则需要多次的搜索。如何在海量的互联网信息中定位这些信息对普通用户来讲是比较困难的。
目前的方法中,有将特定的图片放到数据库中,在用户上传图片时,通过图像匹配的方法,将最相似的内容检索出来,并将该内容的详细信息呈现给用户。比如,信息发布者在发布非在线信息时,同时将相应图片保存在数据库中,当用户看到非在线信息,并对其感兴趣时,可以通过拍照、并将图片上传到信息发布者的服务器端。信息发布者在得到检索请求时,使用图像匹配的方法将数据库中最匹配的广告信息返回给用户。还有的方法是在广告中加入条形码或二维码等方法,用户只需将条形码或二维码图片上传给服务器即可。服务器在进行图片匹配的时候,由于条形码和二维码的易识别等特点,可以大大提高图片匹配的精度。可以部分弥补用户的照相设备分辨率不高(智能终端,如手机)、光线不好、反光等缺陷。
发明内容
上述系统的本质是通过图像匹配的方法,在信息图片数据库中找到和用户上传的信息图片最匹配的内容,并已各种形式提供给用户。
这些现有方法的主要问题是:通过这种方式提供的对信息发布增值服务,只能针对部分信息。对于没有出现在信息图片数据库中的信息则无法提供服务;另外,由于没有统一的存放信息图片的和相关信息的数据库或网站,导致用户不知将信息图片发给谁。这些问题限制了现有的对信息广告的增值服务。
针对这样的问题,提出了一种无需建立图片数据库的针对图片的主题识别的信息处理装置和方法。这种装置和方法不限于应用于信息增值服务场景。
根据本发明的一个实施例,提供一种信息处理装置,包括:字符识别单元,用于从图片中识别至少一个字符串,并将其作为备选字符串输入到检索词获取单元;检索词获取单元,用于响应于备选字符串的输入,根据备选字符串获取用于进行检索的检索词;检索单元,用于响应于检索词的获取,使用所获取的检索词来检索网页;网页选择单元,用于响应于检索到的网页,对检索到的网页进行聚类;并且,当作为聚类结果获得的网页类别与检索词的相关性大于等于第一预定程度但小于第二预定程度时,将该网页类别作为第一网页类别输入到校验单元;当作为聚类结果获得的网页类别与检索词的相关性大于等于第二预定程度时,将该网页类别作为第二网页类别输入到类型识别单元;校验单元,用于响应于第一网页类别的输入,对照第一网页类别对由检索词获取单元获取的检索词进行校验,并将校验后的检索词作为备选字符串输入到检索词获取单元;以及类型识别单元,用于基于与第二网页类别对应的检索词和预先建立的图片分类体系对图片内容主题类型进行识别。
根据本发明的另一个实施例,提供一种信息处理装置,包括:字符识别单元,用于从图片中识别至少一个字符串,并将其作为备选字符串输入到检索词获取单元;检索词获取单元,用于响应于备选字符串的输入,根据备选字符串获取用于进行检索的检索词;检索单元,用于响应于检索词的获取,使用所获取的检索词来检索网页;网页选择单元,用于响应于检索到的网页,对检索到的网页进行聚类;并且,当作为聚类结果获得的网页类别与检索词的相关性大于等于第一预定程度但小于第二预定程度时,将该网页类别作为第一网页类别输入到校验单元;当作为聚类结果获得的网页类别与检索词的相关性大于等于第二预定程度时,将该网页类别作为第二网页类别输入到类型识别单元;校验单元,用于响应于第一网页类别的输入,对照第一网页类别对由检索词获取单元获取的检索词进行校验,并将校验后的检索词作为备选字符串输入到检索词获取单元;以及类型识别单元,用于基于与第二网页类别对应的检索词和预先建立的图片分类体系对图片内容主题类型进行识别;以及查询单元,用于基于识别出的图片内容主题类型进行数据查询。
根据本发明的另一个实施例,提供一种信息处理方法,包括:从图片中识别至少一个字符串作为备选字符串;响应于得到的备选字符串,根据备选字符串获取用于进行检索的检索词;响应于检索词的获取,使用所获取的检索词来检索网页;响应于检索到的网页,对检索到的网页进行聚类;并且,当作为聚类结果获得的网页类别与检索词的相关性大于等于第一预定程度但小于第二预定程度时,将该网页类别选择为第一网页类别;当作为聚类结果获得的网页类别与检索词的相关性大于等于第二预定程度时,将该网页类别选择为第二网页类别;响应于第一网页类别的选择,对照第一网页类别对检索词进行校验,并将校验后的检索词作为备选字符串以用于进一步获取检索词;以及基于与第二网页类别对应的检索词和预先建立的图片分类体系对图片内容主题类型进行识别。
根据本发明的另一个实施例,提供一种信息处理方法,包括:从图片中识别至少一个字符串作为备选字符串;响应于得到的备选字符串,根据备选字符串获取用于进行检索的检索词;响应于检索词的获取,使用所获取的检索词来检索网页;响应于检索到的网页,对检索到的网页进行聚类;并且,当作为聚类结果获得的网页类别与检索词的相关性大于等于第一预定程度但小于第二预定程度时,将该网页类别选择为第一网页类别;当作为聚类结果获得的网页类别与检索词的相关性大于等于第二预定程度时,将该网页类别选择为第二网页类别;响应于第一网页类别的选择,对照第一网页类别对检索词进行校验,并将校验后的检索词作为备选字符串以用于进一步获取检索词;基于与第二网页类别对应的检索词和预先建立的图片分类体系对图片内容主题类型进行识别;以及基于识别出的图片内容主题类型进行数据查询。
附图说明
参照下面结合附图对本发明实施例的说明,会更加容易地理解本发明的以上和其它目的、特点和优点。在附图中,相同的或对应的技术特征或部件将采用相同或对应的附图标记来表示。在附图中不必依照比例绘制出单元的尺寸和相对位置。
图1是示出根据本发明实施例的图片内容主题类型识别装置的结构的框图。
图2是示出根据本发明实施例的检索词获取单元的结构的框图。
图3是示出根据本发明实施例的网页选择单元的结构的框图。
图4是示出根据本发明实施例的基于图片内容主题类型的信息查询装置的结构的框图。
图5是示出根据本发明实施例的图片内容主题类型识别方法的流程图。
图6是示出根据本发明实施例的基于图片内容主题类型的信息查询方法的流程图。
图7是示出实现本发明的计算机的示例性结构的框图。
图8是示出用户使用例如便携设备上配置的照相装置拍摄的信息图片的例子。
具体实施方式
下面参照附图来说明本发明的实施例。应当注意,为了清楚的目的,附图和说明中省略了与本发明无关的、本领域技术人员已知的部件和处理的表示和描述。
图1是示出根据本发明实施例的图片内容主题类型识别装置100的结构的框图。图片内容主题类型识别装置100包括:字符识别单元101、检索词获取单元102、检索单元103、网页选择单元104、校验单元105和类型识别单元106。
字符识别单元101从输入到图片内容主题类型识别装置100的图片中识别至少一个字符串,并将其作为备选字符串输入到检索词获取单元102中。
可以通过各种光学仪器,诸如影像扫描仪、传真机或任何摄影器材将图片输入图片内容主题类型识别装置100。摄影器材可以包括照相机或者是诸如手机的便携设备上所配置的摄像头。图8是示出用户使用例如便携设备上配置的照相装置拍摄的信息图片的例子。为了方便说明,下文中就使用该图片例子对本发明的各实施例进行描述。但应该理解的是本发明可以应用于需要对图片内容主题类型进行识别的各种应用,而不限于对信息图片内容的主题类型的识别。
字符识别单元101可以采用当前广泛使用的各种光学字符识别(OCR)技术来识别图片中的字符。在一个实施例中,字符识别单元101首先进行文字定位,识别出图片的文字区域。然后,对图片文字进行识别。以图8中示出的信息图片为例,字符识别单元101可以识别出例如如下的字符串:
全国通w1F1手机李
全国通w1F1智能机套餐
联合巨献
XZY公司
二fa.1.hy
尼烬事手讥无浅』巩乐通
毗伍话
值得注意的是,由于图片质量、艺术字等变形文字的原因,字符识别单元101的识别结果可能无法提供令人满意的关键词来构成用于检索网页的检索词。于是,字符识别单元101将识别出的字符串(可以是识别出的所有或者部分字符串)作为备选字符串输入到检索词获取单元102中。
检索词获取单元102响应于备选字符串的输入,根据所输入的备选字符串获取用于进行检索的检索词。
具体地,检索词获取单元102按照预先确定的规则从备选字符串中选择关键词,并将关键词或关键词的组合确定为用于检索的检索词。
预先确定的规则例如是:从备选字符串中排除预先设定的不可接受的词(即停用词)、排除进行分词处理后的结果未记录在预先准备的词表中的字符串、排除采用基于语料的转移概率计算方法计算出的出现概率小于预定阈值的字符串,和/或根据该字符串的词频、识别置信度、位置、字体、命名实体识别结果以及词性中的至少之一对字符串进行排序,从中选出重要性较高的字符串作为关键词。可以理解的是:预先确定的选择关键词的规则不限于此,还可以根据需要采用其它规则。
可以将关键词、或者关键词的不同组合作为检索词。诸如“全国通”、“全国通XYZ公司”、“全国通智能机”等可以作为检索词送给检索单元103进行检索。
下文中,将参考图2描述检索词获取单元102的一个实施例。图2示出根据本发明一个实施例的检索词获取单元的结构的框图。在该实施例中,检索词获取单元102包括过滤单元201和排序单元202。
过滤单元201的作用是去掉备选字符串中的噪声,如“尼烬事手讥无浅』巩乐通”和“毗伍话”,还有一些停用词也会被过滤掉。
具体来说,过滤单元201可以基于预先建立的停用词词典从备选字符串中滤除停用词。停用词诸如是“的”、“了”的助词,或者是诸如“在”、“于”的介词等,也可以是其它任何不打算用作检索词的字符串。
无论是否滤除停用词,过滤单元201可以对备选字符串进行分词处理,并在词表中查找分词后的结果,如果不能在词表中查找到该结果,则将该分词结果所属的字符串滤除。
例如,过滤单元201对字符串“尼烬事手讥无浅』巩乐通”进行分词处理。例如,将“尼烬事手讥无浅』巩乐通”分为“尼烬事”、“手讥无浅”、“』”和“巩乐通”。然后,在预先准备的词表中分别查找这几个分词。由于无法在词表中找到类似“尼烬事”等这样的词,因而过滤单元201滤除字符串“尼烬事手讥无浅』巩乐通”。在这个例子中,所有的分词结果都不能在词表中找到,因而滤除了相应字符串。但应该理解:在一些实施例中,当多个分词结果中只有一个不能在词表中找到时,也可以滤除相应的字符串。
可选择地,过滤单元201可以采用基于语料的转移概率计算方法滤除出现概率小于预定阈值的备选字符串。
例如,在大规模语料统计的基础上,对字符串“尼烬事手讥无浅』巩乐通”,过滤单元201可以得出单字“手”的右侧单字出现的概率统计,“机”(手机)、“术”(手术)等出现的概率较大,而“讥”出现的概率非常小,而“手讥无浅』巩乐通”出现的概率为零。这样,过滤单元201可以将“手讥无浅』巩乐通”等噪声过滤掉。
过滤单元201将过滤掉噪声信息以后的备选字符串输出到排序单元202。排序单元202可以根据备选字符串的词频、识别置信度、位置、字体、命名实体识别结果以及词性中的至少之一对关键词进行排序。
这里,排序的主要目的是希望从大量备选字符串中挑选出重要的、更有助于查找与图片主题相关的信息的关键词。过滤单元201进行排序的依据可以有每个备选字符串的词频、识别置信度、位置、字体、命名实体识别结果、词性等。例如,命名实体(在图8的例子中例如商标名)的重要性就要比普通的词要高。备选字符串的词频、识别置信度、位置、字体等信息可以通过光学字符识别技术直接得到。
在排序单元202排序的基础上,可以将关键词、或者关键词的不同组合作为检索词。诸如上面所提到的“全国通”、“全国通XYZ公司”、“全国通智能机”等可以作为检索词送给检索单元103进行检索。
回到图1。检索单元103响应于检索词的获取,使用所获取的检索词来检索网页。检索单元103可以将所获取的检索词送入搜索引擎进行检索。
检索单元103进行检索的结果中可能包含和图片主题相关的信息。也可能由于检索词不准确的原因,导致检索的结果没有和图片主题相关的信息。这就需要后续的处理过程来对检索结果网页进行数据挖掘。
网页选择单元104响应于由检索单元103检索到的网页,对检索到的网页进行聚类。并且,当作为聚类结果获得的网页类别与检索词的相关性大于等于第一预定程度但小于第二预定程度时,将该网页类别作为第一网页类别输入到校验单元;当作为聚类结果获得的网页类别与检索词的相关性大于等于上述第二预定程度时,将该网页类别作为第二网页类别输入到类型识别单元。下面将举例详细说明。
图3是示出根据本发明一个实施例的网页选择单元104的结构的框图。在该实施例中,网页选择单元104包括:网页过滤单元301、聚类单元302以及相关性判断单元303。
其中,网页过滤单元301是可选择的单元。其可以采用对网页进行内容抽取等方式,过滤网页上与网页内容无关的信息。无关信息诸如是网页上的信息和链接等。然后,网页过滤单元301将过滤掉无关信息的网页输入到聚类单元302。
聚类单元302对输入的网页进行聚类。聚类的作用是将特定关键词得到的检索结果进行细分,分成内容更相似的若干类。例如,以“全国通”为检索词得到的网页集合中,可以分成以全国通自身品牌说明为主要内容的类,也可以分成以全国通和某手机厂商合作为主要内容的类。这样分类的结果有助于进一步的信息挖掘。
聚类单元302可以采用当前普遍采用的各种聚类算法对检索到的网页进行聚类。然后,聚类单元302将获得的网页类别输入到相关性判断单元303。
相关性判断单元303在得到若干网页类别之后,对这些类别进行主题相关性判断,以判断各个网页类别与检索词的相关性。
这种相关性整体上反映了网页类别中包含的网页中有多少与检索词相关联。例如,相关性越低,则网页类别中与检索词相关联的网页就越少,相关性越高,则网页类别中与检索词相关联的网页就越多。可以通过各种方法来衡量这种相关性。在一个例子中,相关性判断单元303可以采用相关性判断的方法来判断作为聚类后的结果的网页类别与检索词之间的相关性。例如,可以采用KL距离来判断作为聚类结果的网页类别与检索词之间的相关性。如等式(1)所示:
其中,Q表示所有检索词的集合,wi表示其中的某一个检索词,而C表示网页经聚类以后得到的某一个网页类别。等式(1)示出Q和C之间的KL距离DIS(Q,C)。KL距离越大说明作为聚类结果的网页类别与检索词之间的相关性R越小;反之,KL距离越小说明作为聚类结果的网页类别与检索词之间的相关性R越大。
在本实施例中,相关性判断单元303在得到Q和C之间的KL距离后,与预先设定的两个阈值KL1和KL2进行比较。其中KL1>KL2。
例如,首先将KL距离与阈值KL1进行比较。当KL距离大于KL1时,说明作为聚类结果的网页类别与检索词之间的相关性很小。因而,所得到的网页类别以及相对应的用于检索的检索词不能满足诸如准确性的要求。
当KL距离小于等于KL1但大于KL2时(对应于作为聚类结果获得的网页类别与检索词的相关性大于等于第一预定程度但小于第二预定程度的情况),说明作为聚类结果的网页类别与检索词之间的相关性较好。因而,相关性判断单元303将该网页类别作为第一网页类别输入到校验单元,以对所获取的检索词进行校验。
当KL距离小于等于KL2时(对应于作为聚类结果获得的网页类别与检索词的相关性大于等于较大的第二预定程度的情况),说明作为聚类结果的网页类别与检索词之间的相关性已经基本满足对图片内容主题类型进行识别的要求。因此,相关性判断单元303将该网页类别作为第二网页类别输入到类型识别单元,以进行图片内容主题类型的识别。
下面再次回到图1,详细说明在校验单元105和类型识别单元106中进行的处理。
校验单元105响应于第一网页类别的输入,对照第一网页类别对由检索词获取单元102获取的检索词进行校验,并将校验后的检索词作为备选字符串再次输入到检索词获取单元102,以重复在检索词获取单元102、检索单元103、网页选择单元104中进行的处理。
校验单元105对照第一网页类别,即与检索词的相关性较好的网页类别,对由检索词获取单元102获取的检索词(具体地说,构成检索词的关键词)进行校验,以帮助得到更准确的检索词。
结合图8中信息图片的例子来说,由于互联网的传播特性以及信息发布地的多样性,一个图片信息会对应于多个相似、相同的网页(转载等原因)。而这些网页在对检索结果聚类的过程中会聚成一个类别。
在检索词错误的情况下,例如信息中的词为“全国通”,而经处理以后得到的检索词是“全流通”,则使用“全流通”送入搜索引擎,其得到的结果也会收敛(有部分网页能以较大概率聚成一类)。这时就需要对“全流通”得来的检索聚类结果和在检索词获取单元102中获取的关键词进行校验。如果发现只有关键词“全流通”出现在检索结果中,而其它的关键词“智能机”、“XYZ公司”等不出现或出现较少,可以据此判断关键词“全流通”有问题,因而其构成的检索词也有问题。
在正确的检索词处理后的聚类结果中,校验单元105还可以对其它的检索词进行校验。例如使用关键词“智能机”或“XYZ公司”得到的检索结果中,使用字符系列匹配的方法,发现检索词获取单元102获取的检索词在聚类结果中出现的情况。比如我们可以发现“全流通”中的“全*通”在聚类的结果中大量出现,且最相近的字符系列为“全国通”。这时就可以将“全流通”纠正为“全国通”。而纠正以后的检索词,同样也能给检索结果带来提高。
上面所说的校验单元105进行校验的具体方式只是示例性的,当然还可以采用其它校验方式,只要能够纠正检索词即可。
值得注意的是,检索词获取单元102、检索单元103、网页选择单元104和校验单元105中的过滤、排序、检索、聚类、主题相关性判断、交叉校验等处理是不断重复优化的迭代过程,直至最终得到一个具有令人满意的主题相关性的聚类结果。在上面的实施例中,该具有令人满意的主题相关性的聚类结果对应于KL距离小于较小阈值KL2的情况。
当KL距离小于(等于)较小阈值KL2,即作为聚类结果获得的网页类别与检索词的相关性大于某一预定程度,即相关程度充分高的情况下,网页选择单元104将该网页类别输入到类型识别单元106。
类型识别单元106基于与作为聚类结果获得的网页类别与检索词的相关性大于等于较大的第二预定程度的第二网页类别相对应的检索词、以及预先建立的图片分类体系对图片内容主题类型进行识别。
可以采用多种方式建立图片分类体系。以用于图8所示的信息图片的信息分类体体系的建立为例。例如,可以对信息进行“活动”、“产品”、“公司推广”等分类,也可以对信息进行“公益信息”、“非公益信息”这样的分类。
不同的分类对应不同的处理方式,比如对“活动”类信息,在进行主题识别的时候,要抽取出“活动名称”、“时间”、“地点”等要素。而对于“产品”类的信息,
在类型识别单元106中,根据对应于与检索词的相关程度充分高的网页类别的检索词和已经建立的图片分类体系进行识别。在一个实施例中,以信息图片为例,类型识别单元106进行识别的依据是检索词集合Q和某个信息主题类别的距离。在一个例子中,可以用下面的等式(2)进行计算该距离DIS(Q,T):
其中,T是某个信息主题的可扩充的语义词汇集合。比如,“产品”可以扩充成“商品”“,”“品牌”,“型号”等。Ps(Wi|T)是某个词属于某种语义类别的概率,例如Ps(诺奇|产品)就是“诺奇”属于“产品”类别的概率。
需要注意的是:上面只是实现类型识别单元106的一个例子,还可以采用其它各种方式、各种计算方式来基于特定检索词和预先建立的图片分类体系对图片内容主题类型进行识别。
上面结合图1至图3说明了根据本发明实施例的图片内容主题类型识别装置100。下面参考图4说明根据本发明实施例的另一种信息处理装置。
图4是示出根据本发明实施例的基于图片内容主题类型的信息查询装置400的结构的框图。信息查询装置400包括:字符识别单元401、检索词获取单元402、检索单元403、网页选择单元404、校验单元405、类型识别单元406,以及查询单元407。
字符识别单元401从图片中识别至少一个字符串,并将其作为备选字符串输入到检索词获取单元402。检索词获取单元402响应于备选字符串的输入,根据备选字符串获取用于进行检索的检索词。检索单元403响应于检索词的获取,使用所获取的检索词来检索网页。网页选择单元404响应于检索到的网页,对检索到的网页进行聚类。并且,当作为聚类结果获得的网页类别与检索词的相关性大于等于第一预定程度但小于第二预定程度时,网页选择单元404将该网页类别作为第一网页类别输入到校验单元405。当作为聚类结果获得的网页类别与检索词的相关性大于等于第二预定程度时,网页选择单元404将该网页类别作为第二网页类别输入到类型识别单元406。校验单元405响应于第一网页类别的输入,对照第一网页类别对由检索词获取单元402获取的检索词进行校验,并将校验后的检索词作为备选字符串输入到检索词获取单元402。类型识别单元406基于与第二网页类别对应的检索词和预先建立的图片分类体系对图片内容主题类型进行识别。
字符识别单元401、检索词获取单元402、检索单元403、网页选择单元404、校验单元405和类型识别单元406与参考图1说明的字符识别单元101、检索词获取单元102、检索单元103、网页选择单元104、校验单元105和类型识别单元106具有相同的结构和功能,因而,省略对字符识别单元401、检索词获取单元402、检索单元403、网页选择单元404、校验单元405和类型识别单元406的详细描述。
查询单元407基于由类型识别单元406识别出的图片内容主题类型进行数据查询。
在一个实施例中,查询单元407可以包括抽取单元(未示出)。该抽取单元从第二网页类别中抽取与所识别的图片内容主题类型相关的信息。
仍然以信息发布为例,但不限于此应用,信息的主题是使用作为聚类结果的网页类别中的词、词组、连续的字符等来表达的。这些信息可以作为后续的关键词为提供增值服务提供信息。
在这里主要是在与该信息最相关的网页集合(聚类)中进行主题挖掘。具体的方法是先对网页的内容进行抽取,将抽取的结果中进行主题的识别,主要是抽取出其中和信息主题类别相关的信息,比如,对于“活动”类信息,在进行主题识别的时候,要抽取出“活动名称”、“时间”、“地点”等要素。这里主要进行的是命名实体识别,将其中的分属个类别的命名实体抽出出来。
在进行主题识别的时候,需要抽取出“产品名”、“型号”等要素。不同的信息类型可提供的增值服务也不尽相同,比如对“产品”类信息,可以提供产品的详细信息、比价信息、口碑信息等。而对于“演出”类的信息,可以提供相关背景介绍、比价信息等。
为了后续的增值服务,还可以采用对结果文档集中的词进行排序、扩展的方法来获得更多的与信息相关的词汇,并根据拟提供服务的类别,进行深度的挖掘。
图5是示出根据本发明实施例的图片内容主题类型识别方法的流程图。
在步骤S501中,从待处理的图片中识别至少一个字符串作为要从中获取用于检索的检索词的备选字符串。该识别步骤可以采用光学字符识别技术进行。
在步骤S502中,响应于识别出的备选字符串,根据该备选字符串获取用于进行检索的检索词。具体地说,在步骤S502中按照预定规则从备选字符串中选择关键词,并将关键词或关键词的组合确定为用于检索的检索词。
在一个实施例中,在步骤S502中对备选字符串进行过滤。例如,基于预先建立的停用词词典从备选字符串中滤除停用词。进一步地,还可以对备选字符串进行分词处理,并将分此后的结果在词表中进行查找,并滤除不能在词表中查找到的分词所述的字符串。
可选择地,可以采用基于语料的转移概率计算方法滤除出现概率小于预定阈值的备选字符串。
另外,当对备选字符串进行过滤后,可以根据剩余备选字符串的词频、识别置信度、位置、字体、命名实体识别结果以及词性中的至少之一对关键词进行排序。并选取最重要的字符串作为关键词。
然后,使用关键词或它们的不同组合构成检索词。
在步骤S503中,响应于检索词的获取,使用获取的检索词来检索网页。
在步骤S504中,响应于检索到的网页,对检索到的网页进行聚类。可以使用当前常用的各种聚类算法执行该聚类处理。
在步骤S505中,求取作为聚类处理结果获得的网页类别与检索词的相关程度R。该相关程度可以采用如上面提到的等式(1)进行求取。当式(1)所求取的KL距离大时,相关程度R小。反之,当式(1)所求取的KL距离小时,相关程度R大。
在步骤S506中,判断相关程度R是否大于等于第一预定程度R1。当判断为否时,在步骤S507中确定作为聚类处理结果获得的网页类别与检索词的相关程度R较小,该网页类别以及其对应的检索词不适用于识别图片的主题类型。则对该网页类别的处理结束。系统重新获取其它检索词并进行后续的处理。
当判断为R≥R1时,在步骤S508中判断相关程度R是否大于等于第二预定程度R2。当判断为否时,即相关程度R小于第二预定程度R2时,将该网页类别选择为第一网页类别,并在步骤S509中对照该第一网页类别对检索词进行校验。然后,将校验后的检索词作为备选字符串以用于进一步获取检索词,即步骤返回S502。
当在步骤S508中判断为是时,即当相关程度R大于等于第二预定程度R2时,将该网页类别选择为第二网页类别。在步骤S510中基于与第二网页类别对应的检索词和预先建立的图片分类体系对图片内容主题类型进行识别。在识别出图片的内容主题类型后,根据本发明实施例的图片内容主题类型识别方法完成。
图片分类体系的预先建立参见上面结合图1的说明。
图6是示出根据本发明实施例的基于图片内容主题类型的信息查询方法的流程图。由于图6中的步骤S601至S610与图5中的步骤S501至S510进行的处理相同,因而省略对步骤S601至S610的详细说明。
在图6的步骤S611中,基于在步骤S610中识别的图片内容主题类型进行数据查询。
在一个实施例中,在步骤S611中从与检索词具有良好相关性的网页类别中抽取与所识别的图片内容主题类型相关的信息。将抽取的结果中进行主题的识别。以信息图片为例,主要是抽取出其中和信息主题类别相关的信息,比如,对于“活动”类信息,在进行主题识别的时候,要抽取出“活动名称”、“时间”、“地点”等要素。这里主要进行的是命名实体识别,将其中的分属个类别的命名实体抽出出来。
在进行主题识别的时候,需要抽取出“产品名”、“型号”等要素。不同的信息类型可提供的增值服务也不尽相同,比如对“产品”类信息,可以提供产品的详细信息、比价信息、口碑信息等。而对于“演出”类的信息,可以提供相关背景介绍、比价信息等。
为了后续的增值服务,还可以采用对结果文档集中的词进行排序、扩展的方法来获得更多的与信息相关的词汇,并根据拟提供服务的类别,进行深度的挖掘。
本发明的实施例与传统的方法相比,有这样的优点:本发明的实施例不需要将图片预先存放在数据库中,不需要事先收集整理信息图片。其应用范围广,提供的增值服务也更灵活。
另外,在诸如信息增值服务的应用场景种,都可以通过拍照、上传图片的方法来获得该信息的进一步信息。在提供增值服务方面,作为第三方的信息服务机构,会更客观,有更多的灵活性。
下文中,参考图7描述实现本发明的数据处理设备的计算机的示例性结构。图7是示出实现本发明的计算机的示例性结构的框图。
在图7中,中央处理单元(CPU)701根据只读存储器(ROM)702中存储的程序或从存储部分708加载到随机存取存储器(RAM)703的程序执行各种处理。在RAM703中,也根据需要存储当CPU701执行各种处理时所需的数据。
CPU701、ROM702和RAM703经由总线704彼此连接。输入/输出接口705也连接到总线704。
下述部件连接到输入/输出接口705:输入部分706,包括键盘、鼠标等;输出部分707,包括显示器,诸如阴极射线管(CRT)、液晶显示器(LCD)等,以及扬声器等;存储部分708,包括硬盘等;以及通信部分709,包括网络接口卡诸如LAN卡、调制解调器等。通信部分709经由网络诸如因特网执行通信处理。
根据需要,驱动器710也连接到输入/输出接口705。可拆卸介质711诸如磁盘、光盘、磁光盘、半导体存储器等根据需要被安装在驱动器710上,使得从中读出的计算机程序根据需要被安装到存储部分708中。
在通过软件实现上述步骤和处理的情况下,从网络诸如因特网或存储介质诸如可拆卸介质711安装构成软件的程序。
本领域的技术人员应当理解,这种存储介质不局限于图7所示的其中存储有程序、与方法相分离地分发以向用户提供程序的可拆卸介质711。可拆卸介质711的例子包含磁盘、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD))和半导体存储器。或者,存储介质可以是ROM702、存储部分708中包含的硬盘等,其中存有程序,并且与包含它们的方法一起被分发给用户。
在上面对本发明具体实施例的描述中,针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用,与其它实施方式中的特征相组合,或替代其它实施方式中的特征。
应该强调,术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在,但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。涉及序数的术语“第一”,“第二”等并不表示这些术语所限定的特征、要素、步骤或组件的实施顺序或者重要性程度,而仅仅是为了描述清楚起见而被配置用于在这些特征、要素、步骤或组件之间进行标识。
此外,本发明的各实施例的方法不限于按照说明书中描述的或者附图中示出的时间顺序来执行,也可以按照其他的时间顺序、并行地或独立地执行。因此,本说明书中描述的方法的执行顺序不对本发明的技术范围构成限制。
综上,在根据本发明的实施例中,本发明提供了如下方案:
附记1.一种信息处理装置,包括:
字符识别单元,用于从图片中识别至少一个字符串,并将其作为备选字符串输入到检索词获取单元;
检索词获取单元,用于响应于备选字符串的输入,根据所述备选字符串获取用于进行检索的检索词;
检索单元,用于响应于检索词的获取,使用所获取的检索词来检索网页;
网页选择单元,用于响应于检索到的网页,对检索到的网页进行聚类;并且,当作为聚类结果获得的网页类别与检索词的相关性大于等于第一预定程度但小于第二预定程度时,将该网页类别作为第一网页类别输入到校验单元;当作为聚类结果获得的网页类别与检索词的相关性大于等于第二预定程度时,将该网页类别作为第二网页类别输入到类型识别单元;
所述校验单元,用于响应于第一网页类别的输入,对照所述第一网页类别对由所述检索词获取单元获取的检索词进行校验,并将校验后的检索词作为备选字符串输入到所述检索词获取单元;以及
所述类型识别单元,用于基于与所述第二网页类别对应的检索词和预先建立的图片分类体系对图片内容主题类型进行识别。
附记2.根据附记1所述的信息处理装置,其中,所述检索词获取单元按照预定规则从所述备选字符串中选择关键词,并将关键词或关键词的组合确定为用于检索的检索词。
附记3.根据附记2所述的信息处理装置,其中,所述检索词获取单元包括过滤单元,所述过滤单元用于基于预先建立的停用词词典从所述备选字符串中滤除停用词。
附记4.根据附记2或3所述的信息处理装置,其中,所述过滤单元用于对所述备选字符串进行分词处理,并将分词后的结果在词表中进行查找,并滤除不能在词表中查找到的分词结果所属的字符串。
附记5.根据附记2或3所述的信息处理装置,其中,所述过滤单元用于采用基于语料的转移概率计算方法滤除出现概率小于预定阈值的备选字符串。
附记6.根据附记3至5中任一个所述的信息处理装置,其中,所述检索词获取单元包括排序单元,所述排序单元用于根据所述备选字符串的词频、识别置信度、位置、字体、命名实体识别结果以及词性中的至少之一对字符串进行排序。
附记7.根据附记1至6中任一个所述的信息处理装置,其中,所述网页选择单元包括网页过滤单元,所述网页过滤单元用于过滤网页上与网页内容无关的信息。
附记8.根据附记1至7中任一个所述的信息处理装置,其中,所述类型识别单元基于输入的检索词的集合与预先建立的图片分类体系中定义的特定图片类别的距离来识别图片内容主题类型。
附记9.根据附记1至8中任一个所述的信息处理装置,其中,所述图片是信息图片,所述信息处理装置是信息内容主题类型识别装置。
附记10.一种信息处理装置,包括:
字符识别单元,用于从图片中识别至少一个字符串,并将其作为备选字符串输入到检索词获取单元;
检索词获取单元,用于响应于备选字符串的输入,根据所述备选字符串获取用于进行检索的检索词;
检索单元,用于响应于检索词的获取,使用所获取的检索词来检索网页;
网页选择单元,用于响应于检索到的网页,对检索到的网页进行聚类;并且,当作为聚类结果获得的网页类别与检索词的相关性大于等于第一预定程度但小于第二预定程度时,将该网页类别作为第一网页类别输入到校验单元;当作为聚类结果获得的网页类别与检索词的相关性大于等于第二预定程度时,将该网页类别作为第二网页类别输入到类型识别单元;
所述校验单元,用于响应于第一网页类别的输入,对照所述第一网页类别对由所述检索词获取单元获取的检索词进行校验,并将校验后的检索词作为备选字符串输入到所述检索词获取单元;以及
所述类型识别单元,用于基于与所述第二网页类别对应的检索词和预先建立的图片分类体系对图片内容主题类型进行识别;以及
查询单元,用于基于识别出的图片内容主题类型进行数据查询。
附记11.根据附记10所述的信息处理装置,其中,所述查询单元包括抽取单元,所述抽取单元用于从所述第二网页类别中抽取与所识别的图片内容主题类型相关的信息。
附记12.根据附记10或11所述的信息处理装置,其中,所述图片是信息图片,所述信息处理装置是基于信息内容主题类型的信息查询装置。
附记13.一种信息处理方法,包括:
从图片中识别至少一个字符串作为备选字符串;
响应于得到的备选字符串,根据所述备选字符串获取用于进行检索的检索词;
响应于检索词的获取,使用所获取的检索词来检索网页;
响应于检索到的网页,对检索到的网页进行聚类;并且,当作为聚类结果获得的网页类别与检索词的相关性大于等于第一预定程度但小于第二预定程度时,将该网页类别选择为第一网页类别;当作为聚类结果获得的网页类别与检索词的相关性大于等于第二预定程度时,将该网页类别选择为第二网页类别;
响应于第一网页类别的选择,对照所述第一网页类别对检索词进行校验,并将校验后的检索词作为备选字符串以用于进一步获取检索词;以及
基于与所述第二网页类别对应的检索词和预先建立的图片分类体系对图片内容主题类型进行识别。
附记14.一种信息处理方法,包括:
从图片中识别至少一个字符串作为备选字符串;
响应于得到的备选字符串,根据所述备选字符串获取用于进行检索的检索词;
响应于检索词的获取,使用所获取的检索词来检索网页;
响应于检索到的网页,对检索到的网页进行聚类;并且,当作为聚类结果获得的网页类别与检索词的相关性大于等于第一预定程度但小于第二预定程度时,将该网页类别选择为第一网页类别;当作为聚类结果获得的网页类别与检索词的相关性大于等于第二预定程度时,将该网页类别选择为第二网页类别;
响应于第一网页类别的选择,对照所述第一网页类别对检索词进行校验,并将校验后的检索词作为备选字符串以用于进一步获取检索词;
基于与所述第二网页类别对应的检索词和预先建立的图片分类体系对图片内容主题类型进行识别;以及
基于识别出的图片内容主题类型进行数据查询。
Claims (10)
1.一种信息处理装置,包括:
字符识别单元,用于从图片中识别至少一个字符串,并将其作为备选字符串输入到检索词获取单元;
检索词获取单元,用于响应于备选字符串的输入,根据所述备选字符串获取用于进行检索的检索词;
检索单元,用于响应于检索词的获取,使用所获取的检索词来检索网页;
网页选择单元,用于响应于检索到的网页,对检索到的网页进行聚类;并且,当作为聚类结果获得的网页类别与检索词的相关性大于等于第一预定程度但小于第二预定程度时,将该网页类别作为第一网页类别输入到校验单元;当作为聚类结果获得的网页类别与检索词的相关性大于等于第二预定程度时,将该网页类别作为第二网页类别输入到类型识别单元;
所述校验单元,用于响应于第一网页类别的输入,对照所述第一网页类别对由所述检索词获取单元获取的检索词进行校验,并将校验后的检索词作为备选字符串输入到所述检索词获取单元;以及
所述类型识别单元,用于基于与所述第二网页类别对应的检索词和预先建立的图片分类体系对图片内容主题类型进行识别。
2.根据权利要求1所述的信息处理装置,其中,所述检索词获取单元包括过滤单元,所述过滤单元用于基于预先建立的停用词词典从所述备选字符串中滤除停用词。
3.根据权利要求2所述的信息处理装置,其中,所述过滤单元用于对所述备选字符串进行分词处理,并将分词后的结果在词表中进行查找,并滤除不能在词表中查找到的分词结果所属的字符串。
4.根据权利要求2所述的信息处理装置,其中,所述过滤单元用于采用基于语料的转移概率计算方法滤除出现概率小于预定阈值的备选字符串。
5.根据权利要求2至4中任一个所述的信息处理装置,其中,所述检索词获取单元包括排序单元,所述排序单元用于根据所述备选字符串的词频、识别置信度、位置、字体、命名实体识别结果以及词性中的至少之一对字符串进行排序。
6.根据权利要求1至4中任一个所述的信息处理装置,其中,所述类型识别单元基于输入的检索词的集合与预先建立的图片分类体系中定义的特定图片类别的距离来识别图片内容主题类型。
7.一种信息处理装置,包括:
字符识别单元,用于从图片中识别至少一个字符串,并将其作为备选字符串输入到检索词获取单元;
检索词获取单元,用于响应于备选字符串的输入,根据所述备选字符串获取用于进行检索的检索词;
检索单元,用于响应于检索词的获取,使用所获取的检索词来检索网页;
网页选择单元,用于响应于检索到的网页,对检索到的网页进行聚类;并且,当作为聚类结果获得的网页类别与检索词的相关性大于等于第一预定程度但小于第二预定程度时,将该网页类别作为第一网页类别输入到校验单元;当作为聚类结果获得的网页类别与检索词的相关性大于等于第二预定程度时,将该网页类别作为第二网页类别输入到类型识别单元;
所述校验单元,用于响应于第一网页类别的输入,对照所述第一网页类别对由所述检索词获取单元获取的检索词进行校验,并将校验后的检索词作为备选字符串输入到所述检索词获取单元;以及
所述类型识别单元,用于基于与所述第二网页类别对应的检索词和预先建立的图片分类体系对图片内容主题类型进行识别;以及
查询单元,用于基于识别出的图片内容主题类型进行数据查询。
8.根据权利要求7所述的信息处理装置,其中,所述查询单元包括抽取单元,所述抽取单元用于从所述第二网页类别中抽取与所识别的图片内容主题类型相关的信息。
9.一种信息处理方法,包括:
从图片中识别至少一个字符串作为备选字符串;
响应于得到的备选字符串,根据所述备选字符串获取用于进行检索的检索词;
响应于检索词的获取,使用所获取的检索词来检索网页;
响应于检索到的网页,对检索到的网页进行聚类;并且,当作为聚类结果获得的网页类别与检索词的相关性大于等于第一预定程度但小于第二预定程度时,将该网页类别选择为第一网页类别;当作为聚类结果获得的网页类别与检索词的相关性大于等于第二预定程度时,将该网页类别选择为第二网页类别;
响应于第一网页类别的选择,对照所述第一网页类别对检索词进行校验,并将校验后的检索词作为备选字符串以用于进一步获取检索词;以及
基于与所述第二网页类别对应的检索词和预先建立的图片分类体系对图片内容主题类型进行识别。
10.一种信息处理方法,包括:
从图片中识别至少一个字符串作为备选字符串;
响应于得到的备选字符串,根据所述备选字符串获取用于进行检索的检索词;
响应于检索词的获取,使用所获取的检索词来检索网页;
响应于检索到的网页,对检索到的网页进行聚类;并且,当作为聚类结果获得的网页类别与检索词的相关性大于等于第一预定程度但小于第二预定程度时,将该网页类别选择为第一网页类别;当作为聚类结果获得的网页类别与检索词的相关性大于等于第二预定程度时,将该网页类别选择为第二网页类别;
响应于第一网页类别的选择,对照所述第一网页类别对检索词进行校验,并将校验后的检索词作为备选字符串以用于进一步获取检索词;
基于与所述第二网页类别对应的检索词和预先建立的图片分类体系对图片内容主题类型进行识别;以及
基于识别出的图片内容主题类型进行数据查询。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210112493.9A CN103377199B (zh) | 2012-04-16 | 2012-04-16 | 信息处理装置和信息处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210112493.9A CN103377199B (zh) | 2012-04-16 | 2012-04-16 | 信息处理装置和信息处理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103377199A CN103377199A (zh) | 2013-10-30 |
CN103377199B true CN103377199B (zh) | 2016-06-29 |
Family
ID=49462329
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210112493.9A Expired - Fee Related CN103377199B (zh) | 2012-04-16 | 2012-04-16 | 信息处理装置和信息处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103377199B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108234347B (zh) | 2017-12-29 | 2020-04-07 | 北京神州绿盟信息安全科技股份有限公司 | 一种提取特征串的方法、装置、网络设备及存储介质 |
CN110889028A (zh) * | 2018-08-15 | 2020-03-17 | 北京嘀嘀无限科技发展有限公司 | 一种语料处理以及模型训练的方法及系统 |
CN111726336B (zh) * | 2020-05-14 | 2021-10-29 | 北京邮电大学 | 一种联网智能设备识别信息提取方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0752673A1 (en) * | 1995-07-03 | 1997-01-08 | Canon Kabushiki Kaisha | Information processing method and apparatus for searching image or text information |
CN101419673A (zh) * | 2004-04-12 | 2009-04-29 | 富士施乐株式会社 | 图像词典生成装置及方法 |
CN101556584A (zh) * | 2008-04-10 | 2009-10-14 | 深圳市万水千山网络发展有限公司 | 一种实现图片交易的计算机系统及方法 |
-
2012
- 2012-04-16 CN CN201210112493.9A patent/CN103377199B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0752673A1 (en) * | 1995-07-03 | 1997-01-08 | Canon Kabushiki Kaisha | Information processing method and apparatus for searching image or text information |
US6310971B1 (en) * | 1995-07-03 | 2001-10-30 | Canon Kabushiki Kaisha | Information processing method and apparatus, and storage medium storing medium storing program for practicing this method |
CN101419673A (zh) * | 2004-04-12 | 2009-04-29 | 富士施乐株式会社 | 图像词典生成装置及方法 |
CN101556584A (zh) * | 2008-04-10 | 2009-10-14 | 深圳市万水千山网络发展有限公司 | 一种实现图片交易的计算机系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN103377199A (zh) | 2013-10-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10146862B2 (en) | Context-based metadata generation and automatic annotation of electronic media in a computer network | |
US9589208B2 (en) | Retrieval of similar images to a query image | |
US9146987B2 (en) | Clustering based question set generation for training and testing of a question and answer system | |
US8073877B2 (en) | Scalable semi-structured named entity detection | |
US9230009B2 (en) | Routing of questions to appropriately trained question and answer system pipelines using clustering | |
CN102163187B (zh) | 文档标记方法和装置 | |
CN106708940B (zh) | 用于处理图片的方法和装置 | |
US20110112995A1 (en) | Systems and methods for organizing collective social intelligence information using an organic object data model | |
US20120288203A1 (en) | Method and device for acquiring keywords | |
CN109145110B (zh) | 标签查询方法和装置 | |
CN109815318A (zh) | 问答系统中的问题答案查询方法、系统及计算机设备 | |
US10152540B2 (en) | Linking thumbnail of image to web page | |
CN107679070B (zh) | 一种智能阅读推荐方法与装置、电子设备 | |
CN101853297A (zh) | 一种在电子设备中快速获得期望图像的方法 | |
US20150206101A1 (en) | System for determining infringement of copyright based on the text reference point and method thereof | |
CN111160007B (zh) | 基于bert语言模型的搜索方法、装置、计算机设备及存储介质 | |
CN111291168A (zh) | 图书检索方法、装置及可读存储介质 | |
US10216989B1 (en) | Providing additional information for text in an image | |
CN103377199B (zh) | 信息处理装置和信息处理方法 | |
Wang et al. | Constructing a comprehensive events database from the web | |
CN118331502A (zh) | 一种云资源管理方法、装置及电子设备 | |
CN112308453A (zh) | 风险识别模型训练方法、用户风险识别方法及相关装置 | |
CN115659969B (zh) | 文档标注方法、装置、电子设备及存储介质 | |
CN111782762A (zh) | 问答应用中相似问题确定方法、装置、电子设备 | |
CN113743118B (zh) | 基于融合关系信息编码的法律文书中的实体关系抽取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20160629 |