CN101069177A - 关键字抽取装置 - Google Patents
关键字抽取装置 Download PDFInfo
- Publication number
- CN101069177A CN101069177A CNA2005800372605A CN200580037260A CN101069177A CN 101069177 A CN101069177 A CN 101069177A CN A2005800372605 A CNA2005800372605 A CN A2005800372605A CN 200580037260 A CN200580037260 A CN 200580037260A CN 101069177 A CN101069177 A CN 101069177A
- Authority
- CN
- China
- Prior art keywords
- mentioned
- file
- group
- calculate
- index terms
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种关键字抽取装置,具备:抽取把由多个文件(D)组成的文件群(E)中包含的索引词(w)中的在上述文件群(E)中的出现频度的高低程度包含在评价中的权重大的索引词即高频度词的高频度词抽取部(30);使上述高频度词基于以与在上述文件群(E)中的索引词(w)的各个的在文件单位中的同现的有无为基础的同现度(C)而成簇的成簇单元(50);对于各个索引词(w)算出对与上述索引词(w)中的属于较多的上述簇(g)的高频度词发生同现,且在较多的文件(D)中与上述高频度词发生同现的东西较高地进行评价所得的得分key(w)的得分算出单元(70);以及基于上述得分来抽取关键字的关键字抽取部(90)。据此,就能自动抽取表示由多个文件组成的文件群的特征的关键字。
Description
技术领域
本发明涉及由计算机从由多个文件组成的文件群中自动抽取表现该文件群的主题的关键字的技术,特别是涉及关键字的抽取装置、抽取方法及抽取程序。
背景技术
以专利文件为首的技术性文件和其他文件每天都有新的出现,数目庞大。为了进行这些文件的检索、分析而自动抽取表示文件的特征的关键字的技术是公知的。
例如,在大泽幸生们著「KeyGraph:語の共起グラフの分割·統合によるキ一ワ一ド抽出」電子情報通信学会論文誌Vol.J82-D-I,No.2,391-400页(1999年2月)(非专利文献1)中,披露了抽取表示文件的主张的关键字的方法。此方法首先抽取该文件中的出现次数的高位词(HighFreq)。然后,基于HighFreq们在句子单位中的同现(共起)的有无,算出在该文件中的同现度,把同现度高的HighFreq们的组合作为「基台」。同现度不高的HighFreq们就会属于各自的基台。然后,基于跟各基台中的词在句子单位中的同现的有无,算出跟基台中的词的同现度,基于跟此基台中的词的同现度,抽取这些基台们所支撑而统一文章的词(屋顶)。
非专利文献1:大泽幸生们著「KeyGraph:語の共起グラフの分割·統合にょるキ一ワ一ド抽出」電子情報通信学会論文誌Vol.J82-D-I,No.2,391-400页(1999年2月)
发明内容
发明要解决的课题
但是,上述非专利文献1记载的技术不是抽取表示由多个文件组成的文件群的特征的关键字的东西。特别是,就上述非专利文献1记载的技术而言,因为1个文件是为了主张作者独自的考虑而写的,立于以该主张为目标而形成一个流程这样的前提,所以不可能适用于由多个独立文件组成的文件群。
本发明的课题是提供一种能自动抽取表示由多个文件组成的文件群的特征的关键字的关键字抽取装置、抽取方法及抽取程序。
还有,本发明另外的课题是从多个观点自动抽取表示由多个文件组成的文件群的特征的关键字,使得能立体地理解文件群的特性。
用于解决课题的方案
(1)本发明的关键字抽取装置是从由多个文件组成的文件群中抽取关键字的装置,具备以下各单元。即,
从上述文件群的数据中抽取索引词的索引词抽取单元;
算出把对于上述索引词的各个在上述文件群中的出现频度的高低程度包含在评价中的权重,抽取该权重大的索引词即高频度词的高频度词抽取单元;
基于上述高频度词的各个和上述索引词的各个在文件单位中的同现的有无,算出上述高频度词的各个和上述索引词的各个在上述文件群中的同现度的高频度词—索引词同现度算出单元;
基于上述算出的同现度,对上述高频度词进行分类,生成簇的成簇单元;
对于各个索引词算出对与上述索引词中的属于较多的上述簇的高频度词发生同现,且在较多的文件中与上述高频度词发生同现的东西较高地进行评价所得的得分的得分算出单元;以及
基于上述算出的得分来抽取关键字的关键字抽取单元。
据此,就能自动抽取表示由多个文件组成的文件群的特征的关键字。特别是,把高频度词基于以跟上述文件群中的上述索引词的各个在文件单位中的同现的有无为基础的同现度进行分类,生成簇,高地评价与属于较多的簇的高频度词发生同现,且在较多的文件中发生同现的索引词,抽取关键字,从而能抽取正确表示文件群的特征的关键字。
这里说的高频度词的抽取是通过对于从上述文件群的数据中抽取到的索引词的各个算出把在上述文件群中的出现频度的高低程度包含在评价中的权重,按给定数抽取该权重大的索引词来进行的。作为这样的权重,可以是表示在上述文件群中的出现频度的高低程度本身的GF(E)(后述),也可以是把GF(E)作为来变量来包含的函数值。
还有,为基于高频度词和上述索引词的各个的同现度对上述高频度词进行分类,例如,对于各高频度词,作成把跟p个索引词的各个的同现度作为成分的p维矢量。并且,借助于成簇单元,进行以与各高频度词有关的上述p维矢量的类似程度(类似度或非类似度)为基础的簇分析。
还有,作为高地评价与属于较多的上述簇的高频度词发生同现的索引词的方法,例如,可以考虑把与所有簇(后述的基台)有关的、由包含各索引词和簇内高频度词的同现度(索引词—基台同现度(后述))的积的多项式导出的值作为各索引词的得分。还有,作为高地评价在较多的文件中与上述高频度词发生同现的索引词的方法,例如,可以考虑把以在与属于文件群的所有文件有关的、各索引词和高频度词在文件单位中的同现的有无(1或0或者对其付以给定的权重所得的东西)的和(用于算出索引词—基台同现度Co(w,g)(后述)的同现度C(w,w′)(后述),或者,索引词—基台同现度Co′(w,g)(后述))作为变量来包含的函数值作为各索引词的得分。这样,作为对与属于较多的上述簇的高频度词发生同现且在较多的文件中与上述高频度词发生同现的东西较高地进行评价所得的得分,可以考虑后述的key(w)、Skey(w)。
(2)优选的是,在上述各关键字抽取装置中,上述得分算出单元对于各个索引词算出的得分是对在包含上述文件群以外的文件在内的文件集团中的出现频度较低的索引词较高地进行评价所得的得分。
据此,就能高地评价分析对象的文件群中特有的索引词而抽取关键字。
作为这里说的在文件集团中的出现频度,例如可以举出后述的DF(P)。具体而言,例如可以考虑把DF(P)的倒数,或者DF(P)的倒数×文件集团的文件数,或者其中任意一个的对数,加上或者乘上对与上述属于较多的上述簇的高频度词发生同现,且在较多的文件中发生同现的东西高地进行评价所得的得分。作为对DF(P)低的索引词高地进行评价所得的得分,可以举出后述的Skey(w)。
(3)优选的是,在上述关键字抽取装置中,上述得分算出单元对于各个索引词算出的得分是对在上述文件群中的出现频度较高索引词较高地进行评价所得的得分。
据此,就能抽取更正确地表示了文件群的内容的关键字。
作为这里说的在文件群中的出现频度,例如可以举出后述的GF(E)。具体而言,例如可以考虑把GF(E)乘上或者加上对与上述属于较多的上述簇的高频度词发生同现,且在较多的文件中发生同现的东西高地进行评价所得的得分。作为对GF(E)高的索引词高地进行评价所得的得分,可以举出后述的Skey(w)。
(4)在上述各关键字抽取装置中,上述关键字抽取单元也可以基于在上述得分算出单元中被高地评价了的索引词在上述文件群中的出现频度,决定关键字抽取数。
据此,就能按照文件群的内容统一性的程度,抽取表示文件群的特征的适当个数的关键字。
作为这里说的在文件群中的出现频度,例如可以举出后述的DF(E)。
(5)优选的是,在上述关键字抽取装置中,上述关键字抽取单元基于在属于上述文件群的各文件的标题中的词的出现率,抽取上述决定了的抽取数的关键字。
据此,就能正确抽取表示了文件群的内容的关键字。
(6)优选的是,在上述关键字抽取装置中,还具备:
对于具备作为分析对象的上述文件群和其他文件群的文件群集团,分别算出与各索引词有关的在各文件群中的评价值的评价值算出单元;以及
算出以下集中度的集中度算出单元,该集中度是对于各索引词,算出在各文件群中的评价值的、在属于上述文件群集团的所有文件群中的和,对于各文件群算出在各文件群中的评价值对该和的比,分别算出该比的平方,算出该比的平方在属于上述文件群集团的所有文件群中的和,从而获得的在上述文件群集团中的各索引词的分布的集中度,
上述关键字抽取单元单元对评价加上由上述得分算出单元对于上述分析对象的文件群算出的得分以及由上述集中度算出单元算出的集中度而抽取关键字。
得分算出单元所涉及的得分高且集中度算出单元所涉及的集中度低的词是分散在整个文件群集团中的词,所以能作为很广地捕捉到分析对象的文件群属于的技术领域的东西来定位。
此场合的各个文件群例如可以作为使文件群集团成簇而获得的东西。
(7)优选的是,在上述关键字抽取装置中,还具备:
对于具备作为分析对象的上述文件群和其他文件群的文件群集团,分别算出与各索引词有关的在各文件群中的评价值的评价值算出单元;以及
算出以下份额的份额算出单元,该份额是算出在上述分析对象的文件群中的各索引词的评价值的、与从属于上述文件群集团的各文件群中抽取到的所有索引词有关的和,对于各索引词算出各索引词的评价值对该和的比,从而获得的在上述分析对象的文件群中的各索引词的份额,
上述关键字抽取单元单元对评价加上由上述得分算出单元对于上述分析对象的文件群算出的得分以及由上述份额算出单元对于上述分析对象的文件群算出的份额而抽取关键字。
得分算出单元所涉及的得分高且份额算出单元所涉及的份额高的词在分析对象的文件群中的份额比其他词高,因而能作为能很好地说明分析对象的文件群的东西(主要词)来定位。
(8)优选的是,在上述关键字抽取装置中,还具备:
对于各索引词,算出在具备作为分析对象的上述文件群和其他文件群的文件群集团中的出现频度的倒数的函数值的第1倒数算出单元;
对于各索引词,算出在包含上述文件群集团的大文件集团中的出现频度的倒数的函数值的第2倒数算出单元;以及
根据从上述第1倒数算出单元的算出结果中减去上述第2倒数算出单元的算出结果所得的东西的函数值,算出在上述文件群集团中的各索引词的独创度的独创度算出单元,
上述关键字抽取单元单元对评价加上由上述得分算出单元对于上述分析对象的文件群算出的得分以及由上述独创度算出单元算出的独创度而抽取关键字。
在文件群集团中的出现频度的倒数的值大,意味着在此文件群集团中是新奇的词。这种在文件群集团中新奇的词中的在包含文件群集团的大文件集团中的出现频度的倒数的值小的词即使在其他领域中用得多,在该文件群集团所涉及的领域中使用这一点也可以说具有独创性。
得分算出单元所涉及的得分高且独创度算出单元所涉及的独创度高的词在该领域中可以作为表示独创性观点的词来定位。
在这里,作为出现频度的倒数的函数值,例如,可以采用以该文件群内的全索引词进行归一化所得的IDF(逆文件频度)。
(9)本发明以外的关键字抽取装置是从由多个文件组成的文件群中抽取关键字的装置,具备以下各单元。即具备:
从具备作为分析对象的上述文件群和其他文件群的文件群集团的数据中抽取索引词的索引词抽取单元;
对于上述文件群集团,分别算出与各索引词有关的在各文件群中的评价值的评价值算出单元;
算出以下集中度的集中度算出单元,该集中度是对于各索引词,算出在各文件群中的评价值的、在属于上述文件群集团的所有文件群中的和,对于各文件群算出在各文件群中的评价值对该和的比,分别算出该比的平方,算出该比的平方在属于上述文件群集团的所有文件群中的和,从而获得的在上述文件群集团中的各索引词的分布的集中度;
算出以下份额的份额算出单元,该份额是算出在上述分析对象的文件群中的各索引词的评价值的、与从属于上述文件群集团的各文件群中抽取到的所有索引词有关的和,对于各索引词算出各索引词的评价值对该和的比,从而获得的在上述分析对象的文件群中的各索引词的份额;以及
基于由上述集中度算出单元算出的集中度和由上述份额算出单元对于上述分析对象的文件群算出的份额的组合来抽取关键字的关键字抽取单元。
据此,就能自动抽取表示由多个文件组成的文件群的特征的关键字,立体地理解文件群的特性。特别是,由集中度算出单元算出的平方和低的词是分散在多个文件群全体中的词,所以能作为很广地捕捉到分析对象的文件群属于的技术领域的东西来定位。另一方面,由份额算出单元算出的比高的词是在分析对象的文件群中的份额高的词,所以能作为能很好地说明分析对象的文件群的东西(主要词)来定位。把这些算出单元所涉及的算出结果组合起来,就能从2个观点对关键字进行分类,就能立体地理解文件群的特性。
(10)优选的是,在上述关键字抽取装置中,还具备:
对于各索引词,算出在上述文件群集团中的出现频度的倒数的函数值的第1倒数算出单元;
对于各索引词,算出在包含上述文件群集团的大文件集团中的出现频度的倒数的函数值的第2倒数算出单元;以及
根据从上述第1倒数算出单元的算出结果中减去上述第2倒数算出单元的算出结果所得的东西的函数值,算出独创度的独创度算出单元,
上述关键字抽取单元进一步基于与由上述独创度算出单元算出的独创度的组合来抽取关键字。
除了上述集中度及份额之外,再组合由独创度算出单元算出的独创度,就能从3个观点对关键字进行分类,就能立体地理解文件群的特性。
(11)还有,本发明的关键字抽取装置是从由多个文件组成的文件群中抽取关键字的装置,具备以下各单元。即具备:
从具备作为分析对象的上述文件群和其他文件群的文件群集团的数据中抽取索引词的索引词抽取单元;
(a)对于各索引词,算出在上述分析对象的文件群中的出现频度的函数值的出现频度算出单元,
(b)算出以下集中度的集中度算出单元,该集中度是分别算出与各索引词有关的在各文件群中的评价值,对于各索引词,算出在各文件群中的评价值的、在属于上述文件群集团的所有文件群中的和,对于各文件群算出在各文件群中的评价值对该和的比,分别算出该比的平方,算出该比的平方在属于上述文件群集团的所有文件群中的和,从而获得的在上述文件群集团中的各索引词的分布的集中度,
(c)算出以下份额的份额算出单元,该份额是分别算出与各索引词有关的在各文件群中的评价值,算出在上述分析对象的文件群中的各索引词的评价值的、与从属于上述文件群集团的各文件群中抽取到的所有索引词有关的和,对于各索引词算出各索引词的评价值对该和的比,从而获得的在上述分析对象的文件群中的各索引词的份额,以及
(d)对于各索引词,根据从在上述文件群集团中的出现频度的倒数的函数值中减去在包含上述文件群集团的大文件集团中的出现频度的倒数的函数值所得的东西的函数值,算出独创度的独创度算出单元中的任意2个以上的单元;以及
基于由上述任意2个以上的单元算出的、在上述分析对象的文件群中的出现频度的函数值、上述集中度、在上述分析对象的文件群中的份额以及上述独创度中的任意2个以上的组合,分类抽取关键字的关键字抽取单元。
据此,就能自动抽取表示由多个文件组成的文件群的特征的关键字,立体地理解文件群的特性。特别是,基于由集中度算出单元算出的集中度、由份额算出单元算出的份额、由独创度算出单元算出的独创度以及由出现频度算出单元算出的出现频度的函数值中的至少2个的组合,分类抽取关键字,因而能立体地理解文件群的特性。
(12)优选的是,在上述关键字抽取装置中,
上述关键字抽取单元
把在上述分析对象的文件群中的出现频度的函数值为给定的阈值以上的索引词判定为在上述分析对象的文件群中的重要词,
把在上述分析对象的文件群中的上述重要词中的、上述集中度为给定的阈值以下的索引词判定为在上述分析对象的文件群中的技术领域词,
把在上述分析对象的文件群中的上述技术领域词以外的上述重要词中的、在上述分析对象的文件群中的份额为给定的阈值以上的索引词判定为在上述分析对象的文件群中的主要词,
把在上述分析对象的文件群中的上述技术领域词及上述主要词以外的上述重要词中的、上述独创度为给定的阈值以上的索引词判定为在上述分析对象的文件群中的独创词,
分类抽取上述关键字。
据此,关键字的具体定位变得明了,容易理解文件群的特征。
(13)优选的是,在上述关键字抽取装置中,
在上述文件群集团中的出现频度的倒数的函数值是用作为分析对象的上述文件群的全索引词把在上述文件群集团中的逆文件频度(IDF)进行归一化所得的东西,
在包含上述文件群集团的大文件集团中的出现频度的倒数的函数值是用作为上述分析对象的上述文件群的全索引词把在上述大文件集团中的逆文件频度(IDF)进行归一化所得的东西。
据此,就能正确评价文件群中出现的索引词的独创度。
(14)本发明是具备与由上述各装置执行的方法相同的工序的关键字抽取方法,并且是能使计算机执行与由上述各装置执行的处理相同的处理的关键字抽取程序。此程序可以是记录在FD、CDROM、DVD等记录介质中的东西,也可以是通过网络来发送接收的东西。
发明效果
根据本发明,能提供能自动抽取表示由多个文件组成的文件群的特征的关键字的关键字抽取装置、抽取方法及抽取程序。
附图说明
图1是表示本发明的第1实施方式所涉及的关键字抽取装置的硬件构成的图。
图2是详细说明第1实施方式的关键字抽取装置中的构成和功能的图。
图3是表示第1实施方式的关键字抽取装置中的处理装置1的动作次序的流程图。
图4是详细说明本发明的第2实施方式所涉及的关键字抽取装置的构成和功能的图。
图5是表示第2实施方式的关键字抽取装置中的处理装置1的动作次序的流程图。
图6是表示在表示文件相互的关系的文件相关图中记入了由本发明的关键字抽取装置抽取到的关键字的例子的参考图。
图7是详细说明本发明的第3实施方式所涉及的关键字抽取装置的构成和功能的图。
图8是表示第3实施方式的关键字抽取装置中的处理装置1的动作次序的流程图。
附图标记说明
1:处理装置,2:输入装置,3:记录装置,4:输出装置,20:索引词抽取部(索引词抽取单元),30:高频度词抽取部(高频度词抽取单元),40:高频度词—索引词同现度算出部(高频度词—索引词同现度算出单元),50:成簇部(成簇单元),70:key(w)算出部(得分算出单元),80:Skey(w)算出部(得分算出单元),90:关键字抽取部(关键字抽取单元),140:标签抽取部(关键字抽取单元)
具体实施方式
以下参照附图,详细说明本发明的实施方式。
<1.词汇的说明等>
说明本说明书中使用的词汇。
类似程度:被比较的对象间的类似度或非类似度。有对被比较的对象分别以矢量表现,用矢量间的余弦乃至Tanimoto相关(类似度的一个例子)等矢量成分间的积的函数来表现的方法,用矢量间的距离(非类似度的一个例子)等矢量成分间的差的函数来表现的方法。
索引词:从文件的全部或一部分中切出的单词。单词的切出方法没有特别的制约,可以是以前公知的方法,或者,例如如果是日语文件,也可以是运用市售的词素解析软件,除了助词、连词,抽取有意义的实词的方法,还可以是事前保持索引语的辞书(辞典)的数据库而利用能从该数据库获得的索引语的方法。
高频度词:索引词中的把在成为分析对象的文件群中的出现频度的高低程度包含在评价中的权重大的给定个数的词。例如,作为索引词的权重,算出包含GF(E)(后述)或GF(E)作为变量的函数值,按给定数抽取该值大的词,从而进行抽取。
为了简化以后的说明,给出简略记号。
E:分析对象的文件群。作为文件群E,例如,采用使多数文件基于类似度而成簇的场合的构成各个簇的文件群。在表示具备多个文件群E的文件群集团S中的各文件群时表示为Eu(u=1,2,…,n。n是文件群的数)。
S:具备多个文件群E的文件群集团。例如,由与某专利文件或专利文件群类似的300件专利文件构成。
P:包含文件群E且包含文件群集团S的文件集团(大文件集团)即全文件。作为全文件P,如果是对于专利文献的分析,则采用例如在日本国内过去10年间发行的所有公开专利公报及登记实用新型公报约500万件。
N(E)或N(P):文件群E或文件集团P中包含的文件的数。
D,Dk或D1~DN(E):文件群E中包含的各个文件。
W:文件群E中包含的索引词的总数。
w,wi,wj:文件群E中包含的各个索引词(i=1,…,W,j=1,…,W)。
∑{条件H}:意味着在满足条件H的范围取和。
∏{条件H}:意味着在满足条件H的范围取积。
β(w,D):在文件D中的索引词w的权重
C(wi,wj):基于索引词在文件单位中的同现的有无而算出的文件群中的同现度。把索引词wi和索引词wj在1个文件D中的同现的有无(1或0),(由β(wi,D)和β(wj,D)加权之后)对于属于文件群E的所有文件D进行合计所得的东西。
g或gh:由高频度词中的跟各索引词的同现度类似的东西们构成的「基台」。基台数=b(h=1,2,…,b)。
Co(w,g):索引词—基台同现度。把索引词w和属于基台g的高频度词w′的同现度C(w,w′)对于属于基台g的所有w′(但除去w)进行合计所得的东西。
ak:文件Dk的标题(题名)。
s:标题ak(k=1,…,N(E))的字符串联结。
xk:题名出现率。是在题名和s中各题名ak(相对于文件数N(E))的出现率。
mk:在各题名ak中出现了的索引词wv(题名用词)的种数。
fk:与题名用词有关的在题名和s中(相对于文件数N(E))的出现率。
yk:题名用词出现率平均。是题名用词出现率fk除以在各题名ak中出现了的索引词wv(题名用词)的种数mk所得的东西。
τk:标题得分。为了决定标签(后述)的抽取名次,按每个属于文件群E的各文件的标题来算出。
T1,T2,…:按标题得分τk降序所抽取的标题(题名)。
κ:关键字适合度。是为了决定标签(后述)的抽取个数而算出的东西,表示相对于文件群E的关键字的占有度。
TF(D)或TF(w,D):索引词w所涉及的在文件D中的出现频度(索引词频度;Term Frequency)。
DF(P)或DF(w,P):索引词w所涉及的在作为母集团的全文件P中的文件频度(Document Frequency)。文件频度是指用某索引语从多个文件检索了时找到的文件数。
DF(E)或DF(w,E):索引词w所涉及的在文件群E中的文件频度。
DF(w,D):索引词w所涉及的在文件D中的文件频度,即,如果文件D中包含索引词w则为1,如果没包含则为0。
IDF(P)或IDF(w,P):″DF(P)的倒数×全文件的总文件数N(P)″的对数。例如,ln(N(P)/DF(P))。
GF(E)或GF(w,E):索引词w所涉及的在文件群E中的出现频度(全局的频度;Global Frequency)。
TF*IDF(P):TF(D)和IDF(P)的积。按每个文件的索引词来运算。
GF(E)*IDF(P):GF(E)和IDF(P)的积。按每个文件的索引词来运算。
<2.第1实施方式的构成>
图1是表示本发明的第1实施方式所涉及的关键字抽取装置的硬件构成的图。如同图所示,本实施方式的关键字抽取装置包括:由CPU(中央运算器)及存储器(记录装置)等构成的处理装置1;作为键盘(手输入器具)等输入单元的输入装置2;作为存放文件数据、条件、处理装置1所涉及的作业结果等的记录单元的记录装置3;以及作为显示或印刷抽取到的关键字的输出单元的输出装置4。
图2是详细说明第1实施方式的关键字抽取装置中的构成和功能的图。
处理装置1具备文件读出部10、索引词抽取部20、高频度词抽取部30、高频度词—索引词同现度算出部40、成簇部50、索引词—基台同现度算出部60、key(w)算出部70、Skey(w)算出部80、关键字抽取部90。
记录装置3由条件记录部310、作业结果存放部320、文件存放部330等构成。文件存放部330包括外部数据库、内部数据库。外部数据库是指例如日本专利局提供服务的专利电子图书馆的IPDL、株式会社PATOLIS提供服务的PATOLIS等文件数据库。还有,内部数据库包括从销售的例如专利JP-ROM等自身存放了数据的数据库、存放了文件的FD(flexible disk)、CD(compact disc)ROM、MO(磁光盘)、DVD(数字视盘)等介质读出的装置、读入向纸等输出了的或手写了的文件的OCR(光学信息读取装置)等装置及把读入了的数据变换为文本等电子数据的装置等。
在图1及图2中,作为在处理装置1、输入装置2、记录装置3及输出装置4之间交接信号、数据的通信单元,可以采用USB(通用系统总线)电缆等直接连接,也可以通过LAN(局域网)等网络来发送接收,也可以通过存放了文件的FD、CDROM、MO、DVD等介质。或者也可以是组合了它们的一部分或数个的东西。
<2-1.输入装置2的详细情况>
其次,根据图2详细地说明上述关键字抽取装置中的构成和功能。
输入装置2接受文件的读出条件、高频度词抽取条件、成簇条件、树状图作成条件、树状图切断条件、得分算出条件、关键字输出条件等输入。这些输入了的条件被送到记录装置3的条件记录部310中存放。
<2-2.处理装置1的详细情况>
文件读出部10按照记录装置3的条件记录部310中存放的读出条件,从记录装置3的文件存放部330读出由成为分析对象的多个文件D1~DN(E)组成的文件群E。读出了的文件群的数据被直接送到索引词抽取部20,用于那里的处理,或者被送到记录装置3的作业结果存放部320中存放。
另外,从文件读出部10被送到索引词抽取部20或作业结果存放部320的数据可以是包含读出了的文件群E的文件数据的所有数据。还有,也可以只是指明属于这些文件群E的各个文件D的书志数据(例如如果是专利文献,则是申请号码或公开号码等)。在后者的场合,在以后的处理中必要时基于该书志数据再次从文件存放部330读出各文件D的数据即可。
索引词抽取部20从由文件读出部10读出了的文件群中提取各文件的索引词。各文件的索引词被直接送到高频度词抽取部30,用于那里的处理,或者被送到记录装置3的作业结果存放部320中存放。
高频度词抽取部30基于由索引词抽取部20抽取到的各文件的索引词,按照记录装置3的条件记录部310中存放的高频度词抽取条件,按给定个数来抽取把文件群E中的出现频度的高低程度包含在评价中的权重大的索引词。
具体而言,首先,对于各索引词,算出作为文件群E中的出现次数的GF(E)。并且再算出各索引词的IDF(P),算出作为跟GF(E)的积的GF(E)*IDF(P),这是优选的。其次,抽取算出的作为各索引词的权重的GF(E)或者GF(E)*IDF(P)的高位给定个数的索引词作为高频度词。
抽取到的高频度词的数据被直接送到高频度词—索引词同现度算出部40,用于那里的处理,或者被送到记录装置3的作业结果存放部320中存放。还有,对于上述算出的各索引词的GF(E)及以算出为优选的各索引词的IDF(P),优选的也是送到记录装置3的作业结果存放部320中存放。
高频度词—索引词同现度算出部40基于由高频度词抽取部30抽取到的各高频度词和由上述索引词抽取部20抽取的在作业结果存放部320中存放的各索引词在文件单位中的同现的有无,算出在文件群E中的同现度。如果抽取索引词p个,其中高频度词q个,则成为p行q列的矩阵数据。
由高频度词—索引词同现度算出部40算出的同现度的数据被直接送到成簇部50,用于那里的处理,或者被送到记录装置3的作业结果存放部320中存放。
成簇部50基于由高频度词—索引词同现度算出部40算出的同现度数据,按照记录装置3的条件记录部310中存放的成簇条件,对q个高频度词进行簇分析。
为了进行簇分析,首先,对于q个高频度词的各个,运算跟各索引词的同现度的类似程度(类似度或非类似度)。此类似程度的运算是基于从输入装置2输入了的条件,从条件记录部310调出用于类似度算出的类似度算出模块来执行的。还有,类似程度的运算,例如就上述p行q列的同现度数据的例子来说,可以基于与成为比较对象的高频度词的各个有关的p维列矢量间的余弦或距离来进行(矢量空间法)。另外,矢量间的余弦(类似度)意味着值越大类似程度越高,矢量间的距离(非类似度)意味着值越小类似程度越高。还有,不限于矢量空间法,也可以采用其他方法来定义类似度。
其次,基于类似程度的运算结果,按照记录装置3的条件记录部310中存放的树状图作成条件,作成把高频度词按树状进行连线所得的树状图。作为树状图,优选的是作成把高频度词间的非类似度反映在结合位置的高低程度(结合距离)上的系统树图。
其次,按照记录装置3的条件记录部310中记录的树状图切断条件,切断上述作成了的树状图。切断的结果,使q个高频度词基于跟各索引词的同现度的类似程度而成簇。把通过成簇而生成的各个簇称为「基台」gh(h=1,2,…,b)。
由成簇部50形成了的基台的数据被直接送到索引词—基台同现度算出部60,用于那里的处理,或者被送到记录装置3的作业结果存放部320中存放。
索引词—基台同现度算出部60,对于由索引词抽取部20抽取而存放在记录装置3的作业结果存放部320中的各索引词,算出跟由成簇部50形成了的各基台的同现度。对于各索引词算出的同现度的数据被直接送到key(w)算出部70,用于那里的处理,或者被送到记录装置3的作业结果存放部320中存放。
key(w)算出部70基于由索引词—基台同现度算出部60算出的各索引词跟基台的同现度,算出作为各索引词的评价得分的key(w)。算出的key(w)的数据被直接送到Skey(w)算出部80,用于那里的处理,或者被送到记录装置3的作业结果存放部320中存放。
Skey(w)算出部80基于由key(w)算出部70算出的各索引词的key(w)得分、由高频度词抽取部30算出的在记录装置3的作业结果存放部320中存放的各索引词的GF(E)及各索引词的IDF(P),算出Skey(w)得分。算出的Skey(w)的数据被直接送到关键字抽取部90,用于那里的处理,或者被送到记录装置3的作业结果存放部320中存放。
关键字抽取部90抽取由Skey(w)算出部80算出的各索引词的Skey(w)得分的高位给定个数的索引词作为分析对象文件群的关键字。抽取到的关键字的数据被送到记录装置3的作业结果存放部320中存放,根据需要被输出到输出装置4。
<2-3.记录装置3的详细情况>
在图2的记录装置3中,条件记录部310记录从输入装置2获得的条件等信息,基于处理装置1的要求,送出必要的数据。作业结果存放部320存放处理装置1中的各构成元素的作业结果,基于处理装置1的要求,送出必要的数据。文件存放部330基于输入装置2或处理装置1的要求,存放、提供从外部数据库或内部数据库获得的必要的文件数据。
<2-4.输出装置4的详细情况>
图2的输出装置4输出由处理装置1的关键字抽取部90抽取而存放在记录装置3的作业结果存放部320中的文件群的关键字。作为输出的形态,例如可以列举在显示装置上的显示、在纸等印刷介质上的印刷或者通过通信单元向网络上的计算机装置的发送等。
<3.第1实施方式的作用>
图3是表示第1实施方式的关键字抽取装置中的处理装置1的动作次序的流程图。
<3-1.读出文件>
首先,在文件读出部10中,从记录装置3的文件存放部330读出由成为分析对象的多个文件D1~DN(E)组成的文件群E(步骤S10)。
<3-2.抽取索引词>
其次,在索引词抽取部20中,从由文件读出步骤S10读出了的文件群中抽取各文件的索引词(步骤S20)。各文件的索引词数据,例如,可以以把文件群E中包含的索引词在各文件D内的出现次数(索引词频度TF(D))的函数值作为成分的矢量来表现。
<3-3.抽取高频度词>
其次,在高频度词抽取部30中,基于由索引词抽取步骤S20抽取到的各文件的索引词数据,按给定个数来抽取把文件群E中的出现频度的高低程度包含在评价中的权重大的索引词。
具体而言,首先,对于各索引词,算出作为在文件群E中的出现次数的GF(E)(步骤S30)。为算出各索引词的GF(E),只要把在上述索引词抽取步骤S20中算出的各索引词在各文件中的索引词频度TF(D)对于属于文件群E的文件D1~DN(E)进行合计即可。
为了使说明容易明白,下表中表示由6个文件D1~D6组成的文件群E中包含合计14个索引词w1~w14的场合的TF(D)及GF(E)的假想事例。在以下的说明中,适宜地参照此假想事例。
[表1]
各索引词的TF(D)及GF(E)
文件 | GF(E) | |||||||
D1 | D2 | D3 | D4 | D5 | D6 | |||
索引词 | w1 | 3 | 3 | 3 | 0 | 0 | 0 | 9 |
w2 | 3 | 0 | 3 | 3 | 0 | 0 | 9 | |
w3 | 3 | 3 | 3 | 3 | 0 | 0 | 12 | |
w4 | 3 | 3 | 3 | 3 | 3 | 0 | 15 | |
w5 | 0 | 0 | 3 | 3 | 3 | 3 | 12 | |
w6 | 0 | 3 | 0 | 3 | 3 | 3 | 12 | |
w7 | 0 | 0 | 0 | 3 | 3 | 3 | 9 | |
w8 | 1 | 1 | 1 | 1 | 1 | 1 | 6 | |
w9 | 1 | 0 | 0 | 0 | 0 | 0 | 1 | |
w10 | 0 | 1 | 0 | 0 | 0 | 0 | 1 | |
w11 | 0 | 0 | 1 | 0 | 0 | 0 | 1 | |
w12 | 0 | 0 | 0 | 1 | 0 | 0 | 1 | |
w13 | 0 | 0 | 0 | 0 | 1 | 0 | 1 | |
w14 | 0 | 0 | 0 | 0 | 0 | 1 | 1 |
其次,基于算出的各索引词的GF(E),按给定个数来抽取出现频度高位的索引词(步骤S31)。高频度词的抽取数设为例如10词。在此场合,如果例如第10词和第11词是同名次,则也抽取第11字作为高频度词。
在高频度词的抽取时,优选的是再算出各索引词的IDF(P),抽取GF(E)*IDF(P)的高位给定个数的索引词。此处,在上述假想事例所涉及的以下的说明中,为简单起见假定把GF(E)高位7字作为高频度词。即,把索引词w1~索引词w7作为高频度词来抽取。
另外,在从索引词中抽取高频度词时,优选的是预先从全索引词中除取不要词,从其剩余中抽取高频度词。此处,例如如果是日语文件,则随词素分析软件的不同,索引词的切出会是各式各样的,作成必要充分的不要词清单是不可能的。因此优选的是使不要词的排除为最小限度。作为不要词清单,例如在专利文件中可以考虑以下例子。
〔作为关键字没有意义的东西〕
前記、上記、該、下記、記載、請求、項、特許、数、式、一般、以上、以下、手段、特徵(前述,上述,该,下列,记载,请求,项,专利,数,式,普通,以上,以下,单元,特征)
〔作为关键字重要性低的词·单位记号·罗马数字〕
全体、範囲、種、類、系、用、%、mm、ml、nm、μm(全体,范围,种,类,系,事情,%,mm,ml,nm,μm)等
这里涉及到泛化能力的问题,因而要进行上述那样的不要词选择,当然,可以与使用的词素分析软件、文件群的领域配合而自由给出必要清单。
<3-4.算出高频度词—索引词同现度>
其次,在高频度词—索引词同现度算出部40中,算出由上述高频度词抽取步骤S31抽取到的各高频度词和由上述索引词抽取步骤S20抽取到的各索引词的同现度(步骤S40)。
索引词wi和索引词wj在文件群E中的同现度C(wi,wj),例如根据下面的式算出。
[数1]
C(wi,wj)=∑{D∈E}[β(wi,D)×β(wj,D)×DF(wi,D)×DF(wj,D)]
在这里β(wi,D)是在文件D中的索引词wi的权重,可以认为
β(wi,D)=1
β(wi,D)=TF(wi,D)
β(wi,D)=TF(wi,D)×IDF(wi,P)
等。
对于DF(wi,D),如果文件D中包含索引词wi则为1,如果没包含则为0,对于DF(wi,D)×DF(wj,D),如果索引词wi和索引词wj在1个文件D中同现则为1,不同现则为0。将其(用β(wi,D)及β(wj,D)加权之后)对于属于文件群E的所有文件D进行合计所得的东西就是索引词wi和索引词wj的同现度C(wi,wj)。
另外,作为上述[数1]的类似例,也可以采用基于索引词wi和索引词wj在句子内的同现的有无而算出的在文件D中的同现度c(wi,wj)来代替[β(wi,D)×β(wj,D)]。在文件D中的同现度c(wi,wj)例如根据下式算出。
[数2]
c(wi,wj)=∑{sen∈D}[TF(wi,sen)×TF(wj,sen)]
在这里sen是指文件D中的各句子。对于[TF(wi,sen)×TF(wj,sen)],如果在某句子内索引词wi和wj同现则返1以上的值,如果不同现则返0。将其对于文件D中的所有句子sen进行合计所得的东西就是在文件D中的同现度c(wi,wj)。
基于上述假想事例,根据上述[数1],作为权重β(wi,D)=1而算出同现度的话则如下。首先,作为相同索引词的索引词w1和索引词w1,可以说在文件D1~文件D3计3文件中发生同现,同现度是C(w1,w1)=3。还有,索引词w2和索引词w1在文件D1及文件D3计2文件中发生同现,同现度是C(w2,w1)=2。以下同样,对于索引词w1~w14中的任意一个和高频度词w1~w7中的任意一个的组都算出同现度C(wi,wj)的话,则获得下表那样的14行7列的矩阵数据。
[表2]
各高频度词与各索引词的同现度
<3-5.成簇>
其次,在成簇部50中,基于由高频度词—索引词同现度算出步骤S40算出的同现度数据,对上述高频度词进行簇分析。
为了进行簇分析,首先,对于上述高频度词的各个,运算跟各索引词的同现度的类似程度(类似度或非类似度)(步骤S50)。
在上述假想事例中,作为类似程度,表示采用了与高频度词w1~w7的各个有关的14维列矢量间的相关系数的运算结果的话,则如下表。
[表3]
同现度的类似程度(相关系数)
表的左下半部因与右上半部重复而省略。根据此表,例如高频度词w1~高频度词w4在其任意一个组合中相关系数都超过了0.8。还有,高频度词w5~高频度词w7在其任意一个组合中相关系数都超过了0.8。反过来,在高频度词w1~高频度词w4中的任意一个和高频度词w5~高频度词w7中的任意一个的组合中,相关系数都不到0.8。
其次,基于类似程度的运算结果,作成把高频度词按树状进行连线所得的树状图(步骤S51)。
作为树状图,优选的是作成把高频度词间的非类似度反映在结合位置的高低程度(结合距离)上的系统树图。简单地说明系统树图的作成原理,首先,基于高频度词间的非类似度,使非类似度最小(类似度最大)的高频度词们结合而生成结合体。再反复进行使结合体和其他高频度词,或者结合体和结合体按其非类似度小的顺序来结合而生成新的结合体的作业。这样就能作为阶层构造来表现。结合体和其他高频度词的非类似度,或者结合体和结合体的非类似度基于各高频度词间的非类似度来更新。作为更新方法,例如采用公知的Ward法等。
其次,在成簇部50中,切断上述作成了的树状图(步骤S52)。在例如把系统树图中的结合距离设为d时的<d>+δσd的位置进行切断。在这里<d>是d的平均值,σd是d的标准差。在-3≤δ≤3的范围给出δ,优选的是设δ=0。
切断的结果,高频度词基于跟各索引词的同现度的类似程度而成簇,形成由属于各簇的高频度词群组成的「基台」gh(h=1,2,…,b)。属于相同基台gh的高频度词跟索引词的同现度的类似度高,属于不同基台gh的高频度词跟索引词的同现度的类似度低。
对于树状图及其切断过程省略上述假想事例所涉及的说明,不过,假定形成由高频度词w1~高频度词w4组成的基台g1和由高频度词w5~高频度词w7组成的基台g2这样2个基台(基台数b=2)。
<3-6.算出索引词—基台同现度>
其次,在索引词—基台同现度算出部60中,对于由上述索引词抽取步骤S20抽取到的各索引词,算出跟由成簇步骤S53形成了的各基台的同现度(索引词—基台同现度)Co(w,g)(步骤S60)。
索引词—基台同现度Co(w,g),例如根据下式算出。
[数3]
Co(w,g)=∑{w’∈g,w’≠w}C(w,w’)
在这里w′是属于某基台g的高频度词,并且是指作为同现度Co(w,g)的测量对象的索引词w以外的东西。索引词w和基台g的同现度Co(w,g)是与所有w′有关的跟w的同现度C(w,w′)的合计。
例如在上述假想事例中,索引词w1和基台g1的同现度Co(w1,g1)为,
Co(w1,g1)=C(w1,w2)+C(w1,w3)+C(w1,w4),
根据上表2,此值为2+3+3=8。
还有,索引词w1和基台g2的同现度Co(w1,g2)为,
Co(w1,g2)=C(w1,w5)+C(w1,w6)+C(w1,w7)=1+1+0=2。
同样,对于所有索引词w算出跟基台g1,g2的同现度的话,就成为下表。
[表4]
索引词w和基台g的同现度(w,g)
g1 | g2 | |
W1 | Co(w1,g1)=2+3+3=8 | Co(w1,g2)=1+1+0=2 |
W2 | Co(w2,g1)=2+3+3=8 | Co(w2,g2)=2+1+1=4 |
W3 | Co(w3,g1)=3+3+4=10 | Co(w3,g2)=2+2+1=5 |
W4 | Co(w4,g1)=3+3+4=10 | Co(w4,g2)=3+3+2=8 |
W5 | Co(w5,g1)=1+2+2+3=8 | Co(w6,g2)=3+3=6 |
W6 | Co=(w6,g1)=1+1+2+3=7 | Co(w6,g2)=3+3=6 |
W7 | Co(w7,g1)=0+1+1+2=4 | Co(w7,g2)=3+3=6 |
W8 | Co(w8,g1)=3+3+4+5=15 | Co(w8,g2)=4+4+3=11 |
W9 | Co(w9,g1)=1+1+1+1=4 | Co(w9,g2)=0+0+0=0 |
W10 | Co(w10,g1)=1+0+1+1=3 | Co(w10,g2)=0+1+0=1 |
W11 | Co(w11,g1)=1+1+1+1=4 | Co(w11,g2)=1+0+0=1 |
W12 | Co(w12,g1)=0+1+1+1=3 | Co(w12,g2)=1+1+1=3 |
W13 | Co(w13,g1)=0+0+0+1=1 | Co(w13,g2)=1+1+1=3 |
W14 | Co(w14,g1)=0+0+0+0=0 | Co(w14,g2)=1+1+1=3 |
另外,索引词—基台同现度不限于上述Co(w,g),也可以根据下式算出。
[数4]
Co′(w,g)=∑{D∈E}[β(w,D)×DF(w,D)×θ(∑{w′∈g,w′≠w}DF(w′,D))]
在这里Θ(X)是若X>0则返1,若X≤0则返0的函数。Θ(∑{w′∈g,w′≠w}DF(w′,D))是属于基台g中的任意一个高频度词并且是同现度的测量对象索引词w以外的词w′即使在文件D中包含1个也返1,如果完全不包含则返0。DF(w,D)是同现度的测量对象索引词w即使在文件D中包含1个也返1,如果完全不包含则返0。对DF(w,D)乘以Θ(X),从而如果w和属于基台g的任意一个w′在文件D中发生同现则返1,不发生同现则返0。对其乘以上面定义的权重β(w,D),再对于属于文件群E的所有文件D进行合计所得的东西就是Co′(w,g)。
上述[数3]的索引词—基台同现度Co(w,g)是把w和w′在D内的同现的有无(1或0)对于所有E付以权重β(w,D)×β(w′,D)进行合计(C(w,w′)),将其对于g内的w′进行了合计。相比之下,上述[数4]的索引词—基台同现度Co′(w,g)是把在w和g内的任意一个w′在D内的同现的有无(1或0)对于所有E付以权重β(w,D)进行了合计。
因此,哪种场合都是,在较多的文件D中跟高频度词发生了同现的一方获得较大的索引词—基台同现度。还有,[数3]的索引词—基台同现度Co(w,g)是随跟索引词w发生同现的基台g内的w′的数的多寡而增减的东西,相比之下,[数4]的索引词—基台同现度Co′(w,g)是随跟索引词w发生同现的基台g内的w′的存在与否而增减的东西,因而与发生同现的w′的多寡没有关系。在采用[数3]的索引词—基台同现度Co(w,g)的场合优选的是设权重β(w,D)=1,在采用[数4]的索引词—基台同现度Co′(w,g)的场合优选的是设权重β(w,D)=TF(w,D)。
<3-7.算出key(w)>
其次,在key(w)算出部70中,基于由上述索引词—基台同现度算出步骤S60算出的各索引词跟基台的同现度,算出作为各索引词的评价得分的key(w)(步骤S70)。
key(w)例如根据下式算出。
[数5]
key(w)=1-∏{1≤h≤b}[1-Co(w,gh)/F(gh)]
在这里,定义为F(gh)=∑{w∈E}Co(w,gh)。它是索引词w和基台gh的同现度Co(w,gh)的与全索引词w有关的合计。把F(gh)除以Co(w,gh),取其跟1的差,将其对于所有基台gh(h=1,2,…,b)相乘,取其跟1的差所得的东西就是key(w)。
另外,作为索引词—基台同现度,在这里采用了上述[数3]的Co(w,g),不过,如上所述,也可以采用上述[数4]的Co′(w,g)。
例如在上述假想事例中,算出F(gh)的话,根据上述[表4],就成为
F(g1)=Co(w1,g1)+Co(w2,g1)+…+Co(w14,g1)=85
F(g2)=Co(w1,g2)+Co(w2,g2)+…+Co(w14,g2)=59。
因而,key(w)成为,
key(w1)=1-(1-Co(w1,g1)/85)(1-Co(w1,g2)/59)
=1-(1-8/85)(1-2/59)
=0.125
key(w2)=1-(1-Co(w2,g1)/85)(1-Co(w2,g2)/59)
=1-(1-8/85)(1-4/59)
=0.156
以下同样,对于所有索引词算出key(w)的话,如下表。
[表5]
索引词 | key(w) | 名次 |
w1 | 1-(1-8/85)(1-2/59)=0.125 | 8 |
w2 | 1-(1-8/85)(1-4/59)=0.156 | 6 |
w3 | 1-(1-10/85)(1-5/59)=0.192 | 3 |
w4 | 1-(1-10/85)(1-8/59)=0.237 | 2 |
w5 | 1-(1-8/85)(1-6/59)=0.186 | 4 |
w6 | 1-(1-7/85)(1-6/59)=0.176 | 5 |
w7 | 1-(1-4/85)(1-6/59)=0.144 | 7 |
w8 | 1-(1-15/85)(1-11/59)=0.330 | 1 |
w9 | 1-(1-4/85)(1-0/59)=0.047 | 14 |
w10 | 1-(1-3/85)(1-1/59)=0.052 | 12 |
w11 | 1-(1-4/85)(1-1/59)=0.063 | 10 |
w12 | 1-(1-3/85)(1-3/59)=0.084 | 9 |
w13 | 1-(1-1/85)(1-3/59)=0.062 | 11 |
w14 | 1-(1-0/85)(1-3/59)=0.051 | 13 |
此表的右端的栏表示按key(w)大的顺序排列的场合的名次。
为了说明key(w)的特性,对与[表1]相同的东西附记各索引词的文件频度DF(E)和上述key(w)名次而表示如下。
[表6]
各索引词的TF(D)及GF(E)等
文件 | GF(E) | DF(E) | Key(w)名次 | |||||||
D1 | D2 | D3 | D4 | D5 | D6 | |||||
索引词 | w1 | 3 | 3 | 3 | 0 | 0 | 0 | 9 | 3 | 8 |
w2 | 3 | 0 | 3 | 3 | 0 | 0 | 9 | 3 | 6 | |
w3 | 3 | 3 | 3 | 3 | 0 | 0 | 12 | 4 | 3 | |
w4 | 3 | 3 | 3 | 3 | 3 | 0 | 15 | 5 | 2 | |
w5 | 0 | 0 | 3 | 3 | 3 | 3 | 12 | 4 | 4 | |
w6 | 0 | 3 | 0 | 3 | 3 | 3 | 12 | 4 | 5 | |
w7 | 0 | 0 | 0 | 3 | 3 | 9 | 3 | 7 | ||
w8 | 1 | 1 | 1 | 1 | 1 | 1 | 6 | 6 | 1 | |
w9 | 1 | 0 | 0 | 0 | 0 | 0 | 1 | 1 | 14 | |
w10 | 0 | 1 | 0 | 0 | 0 | 0 | 1 | 1 | 12 | |
w11 | 0 | 0 | 1 | 0 | 0 | 0 | 1 | 1 | 10 | |
w12 | 0 | 0 | 0 | 1 | 0 | 0 | 1 | 1 | 9 | |
w13 | 0 | 0 | 0 | 0 | 1 | 0 | 1 | 1 | 11 | |
w14 | 0 | 0 | 0 | 0 | 0 | 1 | 1 | 1 | 13 |
从此表可知,对于key(w)的名次,在文件群E中的文件频度DF(E)的名次的影响大。例如,对于DF(E)最多的索引词w8,key(w)是第1位,对于DF(E)居第二位的索引词w4,key(w)是第2位,以下索引词w3、w5、w6等继之。
若是在文件群E中的文件频度DF(E)大的索引词,则能在较多的文件中跟高频度词发生同现。因此,能获得较大的索引词—基台同现度Co(w,g)或Co′(w,g)。可以认为DF(E)的名次对于key(w)的名次的影响大的原因正在于此。
另外,可以认为,在把同现度的算出中使用的权重β(w,D)取为TF(w,D)的场合,对于key(w)的名次,在文件群E中的全局的频度GF(E)的名次的影响会变大。
还有,在[表2]及[表6]中比较索引词w9~w14可知,发生同现的高频度词跨着较多的基台的一方,key(w)大。例如,跟索引词w10~w13发生同现的高频度词跨着2个基台,相比之下,跟索引词w9、w14发生同现的高频度词,偏于1个基台。并且,索引词w10~w13的一方比起索引词w9、w14来,key(w)变大了。
还有,在[表2]及[表6]中比较索引词w10~w13可知,与较多的高频度词发生同现的一方,有key(w)大的倾向。例如,w10~w13中的与最多的高频度词发生同现的w12在它们之中key(w)最大,与其次多的高频度词发生同现的w11,key(w)次大。
另外,作为各索引词的评价得分,也可以采用下式来代替上述key(w)。
[数6]
在这里Φ是适当的归一化常数,例如设为Φ=∑h=1 bF(gh)。F(gh)是按上述[数5]定义的。
key′(w)是把索引词w和基台gh的同现度Co(w,gh)在全基台gh(h=1,…,b)上的平均值乘以常数(1/Φ)所得的东西。
还有,作为各索引词的评价得分,也可以采用下式来代替上述key(w)。
[数7]
key″(w)是把F(gh)除以索引词w和基台gh的同现度Co(w,gh),取全基台gh(h=1,…,b)上的平均值所得的东西。
在[数5]的key(w)中展开积部分,忽略高次微小项O[(Co(w,gh)/F(gh))2]的话,就成为key(w)
=1-[1-Co(w,g1)/F(g1)]×[1-Co(w,g2)/F(g2)]×…
1-1+Co(w,g1)/F(g1)+Co(w,g2)/F(g2)+…,
因而可得key″(w)(1/b)key(w)。
<3-8.算出Skey(w)>
其次在Skey(w)算出部80中,基于由上述key(w)算出步骤S70算出的各索引词的key(w)得分、由高频度词抽取步骤S31算出的各索引词的GF(E)及各索引词的IDF(P),算出Skey(w)得分(步骤S80)。
Skey(w)得分根据下式算出。
[数8]
skey(w)=GF(w,E)×ln[key(w)÷(DF(w,P)/N(P))]
=GF(w,E)×[IDF(P)+lnkey(w)]
GF(w,E)是对在文件群E中出现得多的词给予大的值的东西,IDF(P)是在全文件P中对新奇文件群E特有的词给予大的值的东西,key(w)是如上所述受到DF(E)的影响,对跟较多的基台发生同现的词给予大的值的得分。这些GF(w,E)、IDF(P)及key(w)的值越大Skey(w)越大。
作为对索引词的加权而用得多的TF*IDF是索引词频度TF和在文件集团中的索引词的出现概率DF(P)/N(P)的倒数的对数即IDF的积。IDF具有减小在文件集团中以高概率出现的索引词的贡献的效果,能把高的权重给予只偏于特定的文件而出现的索引词。可是,也存在有时只要文件频度小则值就跳起这样的缺点。如其次说明的,Skey(w)得分具有改善这样的缺点的效果。
在分析对象的文件群E中,把包含索引词w的文件出现的概率设为P(A),把包含基台(属于它的索引词)的文件出现的概率设为P(B),把一同包含索引词w和基台的文件出现的概率(=在文件内发生同现的概率)设为P(A∩B)的话,则可表示为
P(A)=DF(w,E)/N(E)
P(A∩B)=key(w)
据此,在文件群E中,包含索引词w的文件被选出了时与基台发生同现的概率(有条件概率)成为,
[数9]
P(B|A)=P(A∩B)/P(A)
=key(w)×N(E)/DF(w,E)
再考虑一致性的假定(IDF(E)=IDF(P)),并且取上述有条件概率的对数的话,则成为
[数10]
lnP(B|A)=ln[key(w)×N(P)/DF(w,P)]
=lnkey(w)+IDF(P)
如果key(w)=1,则此值与IDF(P)相等。并且,对于DF→0的极限,N(P)/DF(w,P)→∞且key(w)→0,因而取N(P)/DF(w,P)和key(w)的积,就能改善DF值小时IDF值特异地跳起这样的上述缺点。[数8]的Skey(w)得分是取GF(w,E)和上述[数10]的lnkey(w)+IDF(P)的积所得的东西,所以能得到根据同现度补正了的GF(E)*IDF(P)。
另外,如上所述,在[数8]所涉及的Skey(w)的算出中,也可以采用[数6]的key′(w)、[数7]的key″(w)来代替[数5]的key(w)。
把采用了[数7]的key″(w)的场合的Skey(w)得分记作Skey(key″),把采用了[数5]的key(w)的场合的Skey(w)得分记作Skey(key),比较两者的话,则
Skey(key)-Skey(key″)
=GF(w,E)×[lnkey(w)-lnkey″(w)]
GF(w,E)×lnb
因而,采用了[数7]的key″(w)所得的Skey(w)和采用了[数5]的key(w)的场合的Skey(w)的特性,除了基台数b的差异以外,本质上是相合的,只要基台数b不大,就不会对Skey(w)得分的名次带来大的影响。
<3-9.抽取关键字>
其次,在关键字抽取部90中,抽取由上述Skey(w)算出步骤S80算出的各索引词的Skey(w)得分的高位给定个数的索引词,将其作为分析对象文件群的关键字(步骤S90)。
<3-10.第1实施方式的效果>
根据本实施方式,高地评价与属于较多的基台的高频度词发生同现,且在较多的文件中与高频度词发生同现的索引词,抽取关键字。属于不同的基台的高频度词是跟各索引词的同现度不相似的东西们,所以与多的基台发生同现的索引词可以说是对文件群E的话题、主张的偏差进行架桥的词。还有,在多的文件中与高频度词发生同现的索引词本来在文件群E中的文件频度DF(E)就高,可以说是表示文件群中共同的话题、主张的词。高地评价这样的索引词,就能自动抽取正确表示了由多个文件D组成的文件群E的特征的关键字。
还有,设权重β(w,D)=1,DF(E)名次对key(w)得分的影响就会变大,就能高地评价在文件群E内的多数文件中出现的词,抽取关键字。
还有,对在文件群E中的出现频度GF(E)添加在全文件P中的文件频度的倒数的对数即IDF(P),就能高地评价在文件群E中频繁出现的索引词、文件群E所特有的索引词,抽取关键字。
<4.第2实施方式的构成>
图4是详细说明本发明的第2实施方式所涉及的关键字抽取装置的构成和功能的图。对于与第1实施方式所涉及的图2同样的部分付以相同的符号,省略其说明。
第2实施方式的关键字抽取装置,除了第1实施方式的构成要素之外,在处理装置1内还具备标题抽取部100、标题得分算出部110、Skey(w)高位词读入部120、标签个数决定部130、标签抽取部140。还有,可以不设置第1实施方式的构成要素中的关键字抽取部90,把Skey(w)算出部80的算出结果原样存放在作业结果存放部320中。
标题抽取部100从由文件读出部10读出而存放在作业结果存放部320中的文件数据中抽取各文件的标题(题名)。例如如果是专利文件就抽取「发明名称」的记载内容。抽取到的标题的数据被直接送到标题得分算出部110,用于那里的处理,或者被送到记录装置3的作业结果存放部320中存放。
标题得分算出部110基于由标题抽取部100抽取到的各文件的标题的数据和由上述索引词抽取部20抽取到的文件群E的索引词数据,对于各文件的标题算出标题得分τk。此标题得分τk是表示作为表示文件群E的特征的标签的价值的得分。对于标题得分τk的算出方法后述。算出的标题得分τk的数据被直接送到标签抽取部140,用于那里的处理,或者被送到记录装置3的作业结果存放部320中存放。
Skey(w)高位词读入部120基于由上述Skey(w)算出部80算出而存放在作业结果存放部320中的各索引词w的Skey(w),抽取Skey(w)得分的高位给定个数的索引词。抽取个数例如设为10个。抽取到的Skey(w)高位词的数据被直接送到标签个数决定部130,用于那里的处理,或者被送到记录装置3的作业结果存放部320中存放。
标签个数决定部130基于由Skey(w)高位词读入部120抽取到的Skey(w)高位词的数据,对于该文件群E算出作为表示其内容统一性的指标的关键字适合度κ。并且,基于此关键字适合度κ,决定应该抽取的标签个数。对于关键字适合度κ的算出方法及基于此的标签个数的决定后述。决定了的标签个数的数据被直接送到标签抽取部140,用于那里的处理,或者被送到记录装置3的作业结果存放部320中存放。
标签抽取部140基于由标题得分算出部110算出的各标题的标题得分τk,抽取由标签个数决定部130决定了的个数的标题作为该文件群E的标签。具体是按标题得分τk的降序对标题进行排序,抽取上述决定了的个数的标题。
在本第2实施方式中,此标签相当于本发明的关键字。
<5.第2实施方式的作用>
图5是表示第2实施方式的关键字抽取装置中的处理装置1的动作次序的流程图。本第2实施方式所涉及的关键字抽取装置经过与上述第1实施方式相同的处理,算出Skey(w)(到步骤S80)。对于算出Skey(w)为止的处理因为与图3相同而省略其说明。
<5-1.抽取标题>
第2实施方式的关键字抽取装置是在算出Skey(w)之后,在标题抽取部100中,从属于由上述文件读出步骤S10读出了的文件群E的各文件Dk(k=1,2,…,N(E))的文件数据中,抽取各文件的标题(题名)ak(步骤S100)。因为是从1个文件Dk中抽取1个标题,所以抽取与文件数N(E)相同的数的标题ak。
再有,标题抽取部100根据各文件的标题ak,作成文件群E中的题名的字符串联结(题名和)s。题名和s可由下式表示。
[数11]
在这里,str∏意味着字符串和。对题名和s,优选的是按照分写(分かち書き)软件的规范,预先进行符号的统一处理。例如,在通过分写处理而删除了记号的场合,作为前处理,预先把「-」(全角减)、「-」(全角杠)「—」统一为「一」(长音符号)。
并且,把分写题名和s所获得的题名用词作为索引词辞典。
另外,作为索引词辞典,也可以把根据文件群E的文件内容而分写所获得的索引词作为索引词辞典,代替根据题名和s获得的索引词。还有,也可以只把其中的关键字得分Skey(w)的高位给定个数(例如30词)的索引词作为索引词辞典。
获得索引词辞典的方法如上所述可以考虑几个,以下一般以wv(v=1,2,…,W′)来表示这样获得的文件群E的索引词。
<5-2.算出标题得分>
其次,在标题得分算出部110中,对于各文件的标题,算出标题得分τk(步骤S110)。标题得分τk的算出采用以下说明的题名出现率xk和题名用词出现率平均yk来进行。
题名出现率xk
对于各题名ak,求得在题名和s中的(对于文件数N(E))出现率xk。题名出现率xk由下式给出。
[数12]
xk=(1/N(E))TF(ak,s)
题名用词出现率平均yk
为了算出题名用词出现率平均yk,首先,求得在各题名ak中出现了的索引词wv(题名用词)的种数mk。
[数13]
在这里,Θ(X)是若X>0则返1,若X≤0则返0的函数。由Θ(TF(wv,ak))求得在题名ak中的索引词wv的有无(1或0)。将其对于全索引词wv(v=1,2,…,W′)合计所得的东西就是题名用词的种数mk。
其次,对于各文件的题名ak中出现了的题名用词,求得在题名和s中的(对于文件数N(E))出现率fk。
[数14]
在这里,在题名和s中的索引词wv的出现次数由TF(wv,s)给出。出现率fk是只把索引词wv中的在题名ak中出现的东西(Θ(TF(wv,ak)=1的索引词wv)的TF(wv,s)付以权重(IDF(wv,P))进行合计,除以文件数N(E)所得的东西。
再有,为了防止长的题名变得容易高点化,把题名用词出现率fk除以在各题名ak中出现了的索引词wv(题名用词)的种数mk所得的东西,就是题名用词出现率的种数平均yk。
数15
yk=fk/mk
标题得分τk
标题得分τk由上述题名出现率xk和题名用词出现率平均yk的增函数来求得。例如,优选的是由下式的几何平均来求得。
[数16]
还有,标题得分τk也可以由下式求得。
[数17]
τk’=(xk+yk)/2
如果对于各标题ak求得标题得分τk,则给予相同题名(如果相同题名有多个则进行删除而留1个)。并且,按上述求得了的标题得分τk的降序对标题进行排序,把各标题从τk高位起设为T1,T2,…。
<5-3.读入Skey高位词>
其次,在Skey(w)高位词读入部120中,抽取Skey(w)得分的高位给定个数(设为t个)的索引词(步骤S120)。
<5-4.决定标签个数>
其次,在标签个数决定部130中,算出表示该文件群E的内容统一性的关键字适合度κ,决定应该抽取的标签个数(步骤S130)。
关键字适合度κ是把Skey(w)得分的高位给定个数(t个)的索引词设为wr(r=1,2,…,t),由下式算出。
[数18]
即,对于Skey(w)得分的高位t个索引词wr,求得在文件群E中的文件频度DF(E)的平均(1/t)∑r=1 tDF(wr,E),将其除以文件群E的文件数N(E)所得的东西,就是关键字适合度κ。
κ表示由Skey(w)评价为关键字的词在文件群E中的占有度。如果文件群E由1个领域构成,则关键字只有相互的关联性深的东西,不会是多种多样的,因而占有度高。相比之下,如果文件群E由多个领域构成,则每一领域的文件数少而关键字也是多种多样的,因而占有度变低。因此可以判定为,如果κ的值高,文件群E的内容的统一性就高,如果κ的值低,则文件群E由多个领域构成。
按照所要求的关键字适合度κ的值,决定作为在本第2实施方式中抽取的关键字的标签的个数及输出形态。例如,
(1)若0.55≤κ则把τk最高位的「T1」原样作为标签,
(2)若0.35≤κ0.55则用τk最高位的T1作为对「T1关联」的标签,
(3)若0.2<κ<0.35则用τk第二位的T2为止作为对「T1,T2等」的标签,
(4)若κ≤0.2则作为对「其他」的标签。
另外,κ的阈值不限于此[0.55,0.35,0.2]的设定,也可以选其他值。例如,在代替上述[数5]的key(w)而采用[数6]的key′(w)算出Skey(w)得分的场合,优选的是代替上述κ阈值设定而采用κ阈值设定[0.3,0.2,0.02]。
<5-5.抽取标签>
其次,在标签抽取部140中,基于由上述标题得分算出步骤S110算出的各标题的标题得分τk和由上述标签个数决定步骤S130决定了的标签个数及输出形态,抽取标签(步骤S140)。
<5-6.第2实施方式的效果>
根据本实施方式,利用由第1实施方式算出的Skey(w)得分,基于Skey(w)得分高位的高频度词在各文件中的出现频度来决定关键字(标签)抽取个数。据此,就能按照由多个文件D组成的文件群E的内容统一性的程度,自动抽取表示文件群的特征的适当个数的关键字。
还有,基于在各文件的标题中的词的出现率,对该出现率高的词高地进行评价而抽取关键字(标签),因而能抽取正确表示了文件群的内容的关键字。
<6.具体例>
作为第1实施方式及第2实施方式所涉及的关键字抽取的具体例,对于对以某家用化学品制造厂为申请人的过去10年的专利公报(申请公告公报或专利刊载公报)约850件进行簇分析而获得的27组的文件群,分别抽取了关键字,对该例子进行说明。
簇分析是把上述约850件的文件分别通过以各文件内包含的索引词的TF*IDF(P)为成分的矢量来表现,基于这些文件矢量相互的类似度作成系统树图,在把该系统树图中的结合距离设为d时的<d>+σd的位置切断系统树图。在这里<d>是d的平均值,σd是d的标准差。
对于这样获得的27组文件群,分别把Skey(w)高位3词作为第1实施方式所涉及的关键字。还有,算出关键字适合度κ,基于此而生成了第2实施方式所涉及的标签。另外,用于抽取第2实施方式所涉及的标签的索引词辞典采用了上述那样分写题名和s而获得的题名用词。此处,对于采用了根据文件群E的文件内容分写而获得的索引词的场合也进行标签的生成,在获得了与采用了题名和s的场合不同的结果的场合付以「※」符号一并记载。
文件群的刊载顺序取关键字适合度κ的降序,使得一看就能理解标签的表现形态的差异。
还有,不同于第1实施方式及第2实施方式所涉及的关键字抽取,由人读入上述27组文件群,对各文件群付以认为最适合的标题。由人给出的标题和文件数N(E)及关键字适合度κ显示于各文件群的起首。
(1)0.55≤κ
(1-1)う蝕予防剤(防腐剂)(N(E)=4,κ=1.0)
标签「う蝕予防剤(防腐剂)」
关键字[蝕·ミユ一タンス·ストレプトコツカス(链球菌属)]
(1-2)皮膚外用剤(皮肤外用剂)(N(E)=6,κ=0.983)
标签「皮膚外用剤(皮肤外用剂)」
关键字[エラグ·ポリオキシプロピ レン(聚氧丙烯)·ポリオキシエチレン(聚氧乙烯)]
(1-3)柔軟剤(柔软剂)(N(E)=10,κ=0.97)
标签「柔軟剤組成物(柔软剂组成物)」
关键字[分断(分断)·アルケニル(烯基)·ヒドロキシアルキル(羟基)]
(1-4)炭素微粉体の水スラリ一用添加剤(碳细粉末体的水浆用加添剂)(N(E)=7,κ=0.8857)
标签「炭素微粉体の水スラリ一用添加剤(碳细粉末体的水浆用加添剂)」
关键字[モノマ一(单体)·スルホン(磺)·必須(必需)]
(1-5)高嵩密度粒状洗剤(高蓬松度粒状洗涤剂)(N(E)=21,κ=0.876)
标签「高嵩密度粒状洗剤組成物(高蓬松度粒状洗涤剂组成物)」※粒状洗剤組成物(粒状洗涤剂组成物)
关键字[脂肪酸(脂肪酸)·洗剤(洗涤剂)·嵩(蓬松)]
(1-6)水難溶性シ一ト(水难溶性片)(N(E)=6,κ=0.8)
标签「水解性(水解性)·吸水性シ一ト状体(吸水性片状体)」
关键字[水難(水难)·カルボキシエチルセルロ一ス(羟乙基纤维素)·カルボキシメチルセルロ一ス(羟甲基纤维素)]
(1-7)水硬性無機質材料(水硬性无机质材料)(N(E)=9,κ=0.73)
标签「水硬性無機質材料用配合剤(水硬性无机质材料用配合剂)」
关键字[エマルジヨン(乳液)·転移(转移)·架橋(架桥)]
(1-8)脱墨剤(脱墨剂)(N(E)=12,κ=0.6583)
标签「フロ一テ一シヨン用脱墨剤(浮选用脱墨剂)」
关键字[EO·PO·XO]
(1-9)高嵩密度粒状洗剤(高蓬松度粒状洗涤剂)(N(E)=21,κ=0.65)
标签「高嵩密度洗剤組成物の製造方法(高蓬松度粒状洗涤剂组成物的制造方法)」
关键字[洗剤(洗涤剂)·嵩(蓬松)·捏(捏)]
(1-10)導電性樹脂(导电性树脂)(N(E)=13,κ=0.6384)
标签「導電性樹脂組成物(导电性树脂组成物)」
关键字[ブラツク(黑)·カ一ボン(碳)·練(练)]
(1-11)セメント/セラミツクス成形(水泥/陶瓷成形)(N(E)=26,κ=0.6346)
标签「セラミツクス成形用バインダ一(陶瓷成形用黏合剂)」
关键字[メタ·アクリル(丙稀)·クリル]
(1-12)高嵩密度粒状洗剤(高蓬松度粒状洗涤剂)(N(E)=23,κ=0.626)
标签「高嵩密度粒状洗剤組成物(高蓬松度粒状洗涤剂组成物)」
关键字[ニオ·界面(界面)·洗剤(洗涤剂)]
(1-13)スルホン化(磺化)(N(E)=11,κ=0.5909)
标签「低分子量のスチレン系重合体の製造方法(低分子量的苯乙烯系聚合体的制造方法)」
关键字[スルホン(磺)·溶媒(溶剂)·スチレン(苯乙烯)]
(1-14)歯ブラシ(牙刷)(N(E)=11,κ=0.5636)
标签「歯刷子(牙刷)」
关键字[植毛(植毛)·刷(刷)·刷毛(刷毛)]
(2)0.35≤κ<0.55
(2-1)漂白剤(漂白剂)(N(E)=10,κ=0.49)
标签「漂白剤組成物関連(漂白剂组成物关联)」
关键字[漂白(漂白)·洗剤(洗涤剂)·剤(剂)]
(2-2)義歯安定剤·義歯洗浄剤(假牙稳定剂·假牙洗净剂)(N(E)=11,κ=0.41)
标签「義歯洗浄剤関連(假牙洗净剂关联)」
关键字[義歯(假牙)·ポリプロピレンオキサイド(聚丙烯氧化物)·配合(配合)]
(2-3)口腔用組成物(口腔用组成物)(N(E)=62,κ=0.395)
标签「口腔用組成物関連(口腔用组成物关联)」
关键字[口腔(口腔)·組成(组成)·配合(配合)]
(2-4)キチン·キトサン(甲质·壳聚糖)(N(E)=13,κ=0.3769)
标签「キチン又はキトサン類の精製法関連(甲质或壳聚糖类的精制法关联)」
关键字[キト·サン·キチン(甲质)]
(2-5)カロチン(胡萝卜素)(N(E)=9,κ=0.3666)
标签「カロチンの精製方法関連(胡萝卜素的精制方法关联)」※天然油脂の処理方法(天然油脂的处理方法)
关键字[カロチン(胡萝卜素)·濃縮(浓缩)·パ一ムカロチン(棕榈胡萝卜素)]
(3)0.2<κ<0.35
(3-1)毛髪化粧料/エアゾ一ル化粧(毛发化妆料/浮质化妆)(N(E)=15,κ=0.3466)
标签「化粧料·毛髪化粧料等(化妆料·毛发化妆料等)」
关键字[料(料)·化粧(化妆)·シリカビ一ズ(硅石微球)]
(3-2)歯磨組成物(齿磨组成物)(N(E)=56,κ=0.3071)
标签「歯磨組成物·洗浄剤組成物等(齿磨组成物·洗净剂组成物等)」
关键字[歯磨(齿磨)·組成(组成)·重量(重量)]
(3-3)脂肪酸エステル·石鹸(脂肪酸酯·肥皂)(N(E)=33,κ=0.2696)
标签「石けん組成物·エステルの製造方法等(肥皂组成物·酯的制造方法等)」
关键字[脂肪酸(脂肪酸)·エステル(酯)·石けん(肥皂)]
(3-4)毛髪化粧料関連(毛发化妆料关联)(N(E)=108,κ=0.438)
标签「洗浄剤組成物·液体洗浄剤組成物等(洗净剂组成物·液体洗净剂组成物等)」
关键字[炭素(碳)·アルキル(烷基)·アルケニル(烯基)]
(3-5)柔軟剤·液晶パネル洗浄剤 他(柔软剂·液晶面板洗净剂其他)(N(E)=38,κ=0.381)
标签「柔軟剤組成物·スプレ一型撥水撥油剤組成物等(柔软剂组成物·喷雾型拨水拨油剂组成物等)」
关键字[アルキレンオキシド(环氧化物)·炭素(碳)·脂肪(脂肪)]
(3-6)洗浄剤一般(普通洗净剂)(N(E)=41,κ=0.3292)
标签「洗浄剤組成物·液体洗浄剤組成物等(洗净剂组成物·液体洗净剂组成物等)」
关键字[界面(界面)·エアゾ一ル(浮质)·アニオン(阴离子)]
(3-7)口腔用組成物その他(口腔用组成物及其他)(N(E)=67,κ=0.3194)
标签「口腔用組成物·分散剤等(口腔用组成物·分散剂等)」※口腔用組成物·消臭剤組成物(口腔用组成物·消臭剂组成物)
关键字[酸(酸)·塩(盐)·口腔(口腔)]
(4)κ≤0.2
(4-1)その他(其他)(N(E)=229,κ=0.011)
标签「その他(其他)」
关键字[文書(文件)·荷積(装货)·ムタン(突变)]
如上所述,可以看出第2实施方式所涉及的各文件群的标签与人对各文件群给出的标题大体上一致的倾向。
还有,第1实施方式所涉及的各文件群的关键字不止于与发明对象有关的一般名称,而是选了更具体地表示技术内容的用词。
另外,也有对于不同文件群抽取到相同标签的例子(对于(1-5)和(1-12)是「高嵩密度粒状洗剤組成物(高蓬松度粒状洗涤剂组成物)」,对于(3-4)和(3-6)是「洗浄剤組成物·液体洗浄剤組成物等(洗净剂组成物·液体洗净剂组成物等)」)、对于不同文件群抽取到一部分相同标签的例子((1-3)是「柔軟剤組成物(柔软剂组成物)」而(3-5)是「柔軟剤組成物·スプレ一型撥水撥油剤組成物等(柔软剂组成物·喷雾型拨水拨油剂组成物等)」,(2-3)是「口腔用組成物関連(口腔用组成物关联)」而(3-7)是「口腔用組成物·分散剤等(口腔用组成物·分散剂等)」)。可是,如果参照到第1实施方式所涉及的关键字信息,就可以明确区别技术内容。
还有,根据使用了的词素分析软件的情况,也有乍一看无意义的词作为第1实施方式所涉及的关键字被抽取到的例子(对于(1-11)是「メタ」「クリル」,对于(1-12)是「ニオ」,对于(2-4)是「キト」「サン」)。可是,应该关注这些词作为应该抽取的正确关键字的一部分出现的情况。为了正确抽取这些词,只要在Skey(w)算出后,在关键字抽取部90中使用统一词辞典过滤器,按与过滤器匹配的顺序从Skey(w)高位抽取即可。在这里举出的例子中,是对于(1-11)抽取「メタクリル(异丁烯)」,对于(1-12)抽取「ノニオン」,对于(2-4)抽取「キトサン(壳聚糖)」。
图6是表示把由本发明的关键字抽取装置抽取到的关键字记入表示文件的相互关系的文件相关图中的例子的参考图。此文件相关图表示上述具体例所示的27组文件群相互的内容性关系及时间性关系。
只概略说明作成方法,首先,对于这27组文件群分别算出属于各组的文件具有的申请日数据的平均值作为各组的时间数据。其次,把27组中的时间数据最早的文件群(这里是「(1-1)う蝕予防剤(防腐剂)」)除外,分别以矢量表现剩余26组的各文件群。为以矢量表现各组的文件群E,对于各索引词算出在各组中的GF(E)*IDF(P),将其作为以这些GF(E)*IDF(P)为成分的多维矢量。
基于这样作成的26个矢量相互间的类似度而作成系统树图,在把该系统树图中的结合距离设为d时的<d>+σd的位置切断系统树图而抽取到簇。在这里<d>是d的平均值,σd是d的标准差。按抽取到的簇的数(这里是4个),从最早文件群「(1-1)う蝕予防剤(防腐剂)」中引出了枝线。
接着对于各簇,与上述同样,在最早文件群(这里对于各簇,选了「(1-4)炭素微粉体の水スラリ一用添加剤(碳细粉末体的水浆用加添剂)」、「(2-4)キチン又はキトサン類の精製法関連(甲质或壳聚糖类的精制法关联)」、「(2-5)カロチンの精製方法関連(胡萝卜素的精制方法关联)」、「(4-1)その他(其他)」)之外,进行了系统树图的作成及簇的抽取。反复进行了同样的操作,直到簇内的文件群成为3组以下。对于文件群成为3组以下的簇,按文件群的时间数据早的顺序,按一列配置了这些文件群。
这样作成的文件相关图是进行以文件的内容为基础的分类并且按时间按顺序配置所得的东西,对于分析在成为调查对象的家用化学品制造厂中的开发倾向的推移是有用的。在图6的参考例中,把对于各组文件群根据本发明的第2实施方式的方法抽取到的标签(也可以是第1实施方式的关键字)记入文件相关图,因而能一看就把握开发倾向的推移。
<7.第3实施方式的构成>
本发明的第3实施方式是采用由多个文件群Eu(u=1,2,…,n。n是文件群的数)组成的文件群集团S的数据,从各分析对象的文件群Eu中抽取关键字的东西。多个文件群Eu优选的是设为使文件群集团S成簇而获得的各个簇,不过,也可以反过来集聚多个文件群Eu而构成文件群集团S。
图7是详细说明本发明的第3实施方式所涉及的关键字抽取装置的构成和功能的图。对于与第1实施方式所涉及的图2同样的部分付以相同的符号,省略其说明。
第3实施方式的关键字抽取装置,除了第1实施方式的构成要素之外,在处理装置1内具备评价值算出部200、集中度算出部210、份额算出部220、第1倒数算出部230、第2倒数算出部240、独创度算出部250、关键字抽取部260。还有,可以不设置第1实施方式的构成要素中的关键字抽取部90,把Skey(w)算出部80的算出结果原样存放在作业结果存放部320中。
评价值算出部200对于具有多个文件群Eu的文件群集团S,从作业结果存放部320读出在索引词抽取部20中抽取到的各文件的索引词wi。或者评价值算出部200从作业结果存放部320读出在Skey(w)算出部80中对于各文件群Eu分别算出的索引词的Skey(w)。根据需要,评价值算出部200也可以从作业结果存放部320读出由文件读出部10读出了的各文件群Eu的数据,对其文件数N(Eu)进行计数。还有,也可以从作业结果存放部320读出在高频度词抽取部30中的高频度词抽取的过程中算出的GF(Eu)、IDF(P)。
并且,评价值算出部200基于读出了的信息,分别算出以各索引词wi在各文件群Eu中的出现频度为基础的评价值A(wi,Eu)。算出的评价值被送到作业结果存放部320中存放,或者被直接送到集中度算出部210及份额算出部220,用于那里的处理。
集中度算出部210从作业结果存放部320读出,或从评价值算出部200直接接收由评价值算出部200算出的各索引词wi在各文件群Eu中的评价值A(wi,Eu)。
并且,集中度算出部210基于获得的评价值A(wi,Eu),对于各索引词wi,算出在文件群集团S中的各索引词wi的分布的集中度。此集中度是对于各索引词wi算出在各文件群Eu中的评价值A(wi,Eu)在属于上述文件群集团S的所有文件群Eu中的和,对于各文件群Eu算出在各文件群Eu中的评价值A(wi,Eu)对该和的比,分别算出该比的平方,算出该比的平方在属于上述文件群集团S的所有文件群Eu中的和,从而获得的东西。算出的集中度被送到作业结果存放部320中存放。
份额算出部220从作业结果存放部320读出,或从评价值算出部200直接接收由评价值算出部200算出的各索引词wi在各文件群Eu中的评价值A(wi,Eu)。
并且,份额算出部220基于所获得的评价值A(wi,Eu),对于各索引词wi算出在各文件群Eu中的份额。此份额是算出在分析对象的文件群Eu中的各索引词wi的评价值A(wi,Eu)的与从属于上述文件群集团S的各文件群Eu抽取到的所有索引词wi有关的和,对于各索引词wi算出各索引词wi的评价值A(wi,Eu)对该和的比,从而获得的东西。算出的集中度被送到作业结果存放部320中存放。
第1倒数算出部230把涉及具有多个文件群Eu的文件群集团S,在索引词抽取部20中抽取到的各文件的索引词wi从作业结果存放部320读出。
并且,第1倒数算出部230基于读出了的文件群集团S的各文件的索引词wi的数据,算出与各索引词wi有关的在文件群集团S中的出现频度的倒数的函数值(例如后述的归一化IDF(S))。在算出的文件群集团S中的出现频度的倒数的函数值被送到作业结果存放部320中存放,或者被直接送到独创度算出部250,用于那里的处理。
第2倒数算出部240算出在包含文件群集团S的大文件集团中的出现频度的倒数的函数值。作为大文件集团,采用全文件P。在此场合,从作业结果存放部320读出在高频度词抽取部30中的高频度词抽取的过程中算出的IDF(P),算出其函数值(例如后述的归一化IDF(P))。在算出的大文件集团P中的出现频度的倒数的函数值被送到作业结果存放部320中存放,或者被直接送到独创度算出部250,用于那里的处理。
独创度算出部250从作业结果存放部320读出,或从第1倒数算出部230及第2倒数算出部240直接接收在第1倒数算出部230及第2倒数算出部240中算出的各出现频度的倒数的函数值。还有,从作业结果存放部320读出在高频度词抽取部30中的高频度词抽取的过程中算出的GF(E)。
并且,独创度算出部250把从第1倒数算出部230的算出结果中减去第2倒数算出部240的算出结果所得的东西的函数值作为独创度来算出。此函数值是从上述第1倒数算出部230的算出结果中减去第2倒数算出部240的算出结果所得的东西,相比之下,也可以是除以第1倒数算出部230的算出结果和第2倒数算出部240的算出结果的和所得的东西,也可以是乘以在各文件群Eu中的GF(Eu)所得的东西。算出的独创度被送到作业结果存放部320中存放。
关键字抽取部260从作业结果存放部320读出由Skey(w)算出部80算出的Skey(w)、由集中度算出部210算出的集中度、由份额算出部220算出的份额及在独创度算出部250中算出的独创度的各数据。
并且,关键字抽取部260基于根据上述读出了的Skey(w)、集中度、份额、独创度这4指标而选择的2个以上的指标,抽取关键字。关键字的抽取方法,例如可以根据所选择的多个指标的合计值是不是给定的阈值以上或给定的名次以内,也可以基于所选择的多个指标的组合,分类抽取关键字。
抽取到的关键字的数据被送到记录装置3的作业结果存放部320中存放,根据需要由输出装置4输出。
<8.第3实施方式的作用>
图8是表示第3实施方式的关键字抽取装置中的处理装置1的动作次序的流程图。本第3实施方式所涉及的关键字抽取装置采用由多个文件群Eu(u=1,2,…,n。n是文件群的数)组成的文件群集团S的数据,从各分析对象的文件群Eu抽取关键字。多个文件群Eu例如设为使某文件群集团S成簇而获得的各个簇。
首先,根据与上述第1实施方式同样的处理,对于属于文件群集团S的各文件群Eu,分别执行从步骤S10到步骤S80的处理,算出在各文件群Eu中的各索引词的Skey(w)。对于到算出Skey(w)为止的处理因与图3同样而省略其说明。
<8-1.算出评价值>
第3实施方式的关键字抽取装置是算出Skey(w)之后,在评价值算出部200中,对于各文件群Eu及各索引词wi算出以在各文件群Eu中的上述索引词wi的出现频度的函数值为基础的评价值A(wi,Eu)(步骤S200)。
作为评价值A(wi,Eu),例如原样采用上述Skey(w),或者采用Skey(w)/N(Eu)或GF(E)*IDF(P)。例如,对于各文件群Eu及各索引词wi,获得以下数据。另外,为便于说明,设索引词的种数W=5,文件群数n=3。
[表7]
文件群Eu | 索引词wi的评价值A(wi,Eu) | ||||
W1 | W2 | W3 | W4 | W5 | |
E1 | 4 | 2 | 10 | 0 | 4 |
E2 | 12 | 2 | 3 | 0 | 8 |
E3 | 4 | 4 | 5 | 2 | 0 |
<8-2.算出集中度>
其次在集中度算出部210中,对于各索引词wi按下述方式算出集中度(步骤S210)。
首先,对于各索引词wi,算出在各文件群Eu中的评价值A(wi,Eu)的与属于上述文件群集团S的所有文件群Eu有关的和∑u=1 nA(wi,Eu),对于各文件群Eu及各索引词wi算出在各文件群Eu中的评价值A(wi,Eu)对该和的比
A(wi,Eu)/∑u=1 nA(wi,Eu)。
并且,对于各索引词wi,该比在属于上述文件群集团S的所有文件群Eu中的平方和
∑u=1 n{A(wi,Eu)/∑u=1 nA(wi,Eu)}2
成为索引词wi在文件群集团S中的集中度。将其表示在上表的例子中则如下,对于各索引词wi算出集中度。
[表8]
对索引词wi的评价值的和的比A(wi,Eu)/∑u=1 3A(wi,Eu) | ||||||
W1 | W2 | W3 | W4 | W5 | ||
文件群Eu | E1 | 4/20 | 2/8 | 10/18 | 0/2 | 4/12 |
E2 | 12/20 | 2/8 | 3/18 | 0/2 | 8/12 | |
E3 | 4/20 | 4/8 | 5/18 | 2/2 | 0/12 | |
集中度 | (16+144+16)/400=0.44 | (4+4+16)/64=0.38 | (100+9+25)/324=0.41 | (0+0+4)/4=1.00 | (16+64+0)/144=0.56 |
<8-3.算出份额>
其次在份额算出部220中,对于各索引词wi按下述方式算出在各文件群Eu中的份额(步骤S220)。
首先,在各文件群Eu中,算出各索引词wi的评价值A(wi,Eu)的对于从上述文件群集团S抽取到的所有索引词wi的和∑i=1 wA(wi,Eu)。并且,算出各索引词wi的评价值A(wi,Eu)对该和的比即份额
A(wi,Eu)/∑i=1 wA(wi,Eu)。
将其表示在上表的例子中则如下,对于各索引词wi决定在各文件群Eu中的份额。
[表9]
索引词wi的份额A(wi,Eu)/∑u=1 5A(wi,Eu) | ||||||
W1 | W2 | W3 | W4 | W5 | ||
文件群Eu | E1 | 4/20 | 2/20 | 10/18 | 0/20 | 4/20 |
E2 | 12/25 | 2/25 | 3/25 | 0/25 | 8/25 | |
E3 | 4/15 | 4/15 | 5/15 | 2/15 | 5 |
<8-4.算出独创度>
其次,对于各索引词wi按下述方式算出独创度的值。
首先,在第1倒数算出部230中,对于各索引词wi算出在上述文件群集团S中的出现频度的倒数的函数值(步骤S230)。
作为在文件群集团S中的出现频度,例如采用文件频度DF(S)。作为出现频度的倒数的函数值,采用在文件群集团S中的逆文件频度IDF(S),或者作为特别优选的例子,采用把IDF(S)以从分析对象的文件群Eu抽取到的全索引词进行归一化所得的值(归一化IDF(S))。在这里IDF(S)是″DF(S)的倒数×文件群集团S的文件数N(S)″的对数。作为归一化的例子,例如采用偏差值。归一化的原因是为了通过弄齐分布而使得跟后述的IDF(P)的组合所涉及的独创度的算出容易进行。
其次,在第2倒数算出部240中,对于各索引词wi算出在包含上述文件群集团S的大文件集团P中的出现频度的倒数的函数值(步骤S240)。
作为出现频度的倒数的函数值,采用IDF(P),或者作为特别优选的例子,采用把IDF(P)以从分析对象的文件群Eu抽取到的全索引词进行归一化所得的值(归一化IDF(P))。作为归一化的例子,例如采用偏差值。归一化的原因是为了通过弄齐分布而使得跟后述的IDF(S)的组合所涉及的独创度的算出容易进行。
其次,在独创度算出部250中,对于各索引词wi把{IDF(S)的函数值-IDF(P)的函数值}的函数值作为独创度来算出(步骤S250)。在独创度的算出中只采用DF(S)及IDF(P)的场合,独创度是对于各索引词wi算出1个值。在采用以文件群Eu进行归一化所得的归一化IDF(S)、归一化IDF(P)的场合、在另外以GF(Eu)等进行加权的场合,独创度是对于各文件群Eu,并且对于各索引词wi分别来算出。
独创度特别优选的是以下式的DEV给出。
[数19]
作为DEV的第一因子的归一化GF(Eu)是把在分析对象的文件群Eu中的各索引词wi的全局的频度GF(Eu)以从分析对象文件群Eu抽取到的全索引词进行归一化所得的东西。
在进行了成为归一化IDF(S)>0且归一化IDF(P)>0这样的归一化的场合,如果在文件群集团S中的IDF的归一化值比在大文件集团P中的IDF的归一化值大则DEV的第二因子为正,如果小则DEV的第二因子为负。在文件群集团S中的IDF大,意味着在此文件群集团S中是新奇的词。这种在文件群集团S中新奇的词中的在包含文件群集团S的大文件集团P中的IDF小的词即使在其他领域中用得多,在该文件群集团S所涉及的领域中使用这一点也可以说具有独创性。还有,因为除以了{归一化IDF(S)+归一化IDF(P)},所以DEV的第二因子处于-1以上+1以下的范围,在不同文件群Eu间的比较变得容易。
还有,DEV与归一化GF(Eu)成比例,因而在对象文件群中的频度越高的词,也越是高的数值。
特别是,在文件群集团S由多个文件群Eu(u=1,2,…)组成的场合,如果把这些文件群Eu的各个作为分析对象文件群而分别作成独创度的级别,在该文件群集团S中共同的索引词会落于下位,各文件群Eu中特征性的词会到达各文件群Eu中的高位,因而有益于把握每个文件群Eu的特征。
<8-5.关键字的抽取>
其次,在关键字抽取部260中,基于根据在以上步骤中获得的Skey(w)、集中度、份额、独创度这4指标而选择的2个以上的指标,抽取关键字(步骤S260)。
优选的是,全部采用以上的Skey(w)、集中度、份额、独创度这4指标,把对象文件群Eu的索引词wi按「非重要词」、重要词中的「技术领域词」、「主要词」、「独创词」、「其他重要词」中的任意一种进行分类而抽取重要词。特别优选的分类方法如下。
首先,第一判定采用Skey(w)。在各文件群Eu中,作成Skey(w)降序级别,把比给定的名次靠下位的关键字设为「非重要词」,从关键字的抽取对象中挪走。该给定的名次以内的关键字是各文件群Eu中重要的词,因而设为「重要词」,再将其按以下判定进行分类。
第二判定采用集中度。集中度低的词是分散在整个文件群集团中的词,所以可以作为很广地捕捉分析对象的文件群属于的技术领域的东西来定位。由此作成在文件群集团S中的集中度的升序级别,把给定的名次由内的东西设为「技术领域词」。根据各文件群Eu的重要词,把与上述技术领域词一致的关键字作为该文件群Eu的「技术领域词」来进行分类。
第三判定采用份额。份额高的词在分析对象的文件群中的份额比其他词高,因而可以作为能很好地说明分析对象的文件群的东西(主要词)来定位。由此在各文件群Eu中,作成对未由第二判定分类的重要词的份额降序级别,把给定的名次以内的东西作为「主要词」。
第四判定采用独创度。在各文件群Eu中,作成对未由第三判定分类的重要词的独创度降序级别,把给定的名次以内的东西作为「独创词」。把剩余的重要词作为「其他重要词」。
把以上的判定制成表则如下。
[表10]
类型属性 | Skey(w) | 集中度 | 说明度 | 独创度 |
非重要词 | 低 | |||
技术领域词 | 高 | 低 | ||
主要词 | 高 | 高 | ||
独创词 | 低 | 高 | ||
其他重要词 | 低 |
在以上的判定中采用了Skey(w)作为第一判定所用的重要度的指标,不过,不限于此,也可以采用表示在文件群中的重要度的其他指标。例如,也可以是GF(E)*IDF(P)。
还有,在以上的判定中采用重要度、集中度、份额及独创度这4指标进行了分类,不过,也可以采用其中任意2个以上的指标进行索引词的分类。
Claims (19)
1.一种关键字抽取装置,是从由多个文件组成的文件群中抽取关键字的装置,具备:
从上述文件群的数据中抽取索引词的索引词抽取单元;
算出把对于上述索引词的各个在上述文件群中的出现频度的高低程度包含在评价中的权重,抽取该权重大的索引词即高频度词的高频度词抽取单元;
基于上述高频度词的各个和上述索引词的各个在文件单位中的同现的有无,算出上述高频度词的各个和上述索引词的各个在上述文件群中的同现度的高频度词-索引词同现度算出单元;
基于上述算出的同现度,对上述高频度词进行分类,生成簇的成簇单元;
对于各个索引词算出对与上述索引词中的属于较多的上述簇的高频度词发生同现,且在较多的文件中与上述高频度词发生同现的东西较高地进行评价所得的得分的得分算出单元;以及
基于上述算出的得分来抽取关键字的关键字抽取单元。
2.根据权利要求1所述的关键字抽取装置,其中,上述得分算出单元对于各个索引词算出的得分是对在包含上述文件群以外的文件在内的文件集团中的出现频度较低的索引词较高地进行评价所得的得分。
3.根据权利要求1或权利要求2所述的关键字抽取装置,其中,上述得分算出单元对于各个索引词算出的得分是对在上述文件群中的出现频度较高索引词较高地进行评价所得的得分。
4.根据权利要求1至权利要求3中任意一项所述的关键字抽取装置,其中,上述关键字抽取单元基于在上述得分算出单元中被高地评价了的索引词在上述文件群中的出现频度,决定关键字抽取数。
5.根据权利要求4所述的关键字抽取装置,其中,上述关键字抽取单元基于在属于上述文件群的各文件的标题中的词的出现率,抽取上述决定了的抽取数的关键字。
6.根据权利要求1至权利要求3中任意一项所述的关键字抽取装置,其中,还具备:
对于具备作为分析对象的上述文件群和其他文件群的文件群集团,分别算出与各索引词有关的在各文件群中的评价值的评价值算出单元;以及
算出以下集中度的集中度算出单元,该集中度是对于各索引词,算出在各文件群中的评价值的、在属于上述文件群集团的所有文件群中的和,对于各文件群算出在各文件群中的评价值对该和的比,分别算出该比的平方,算出该比的平方在属于上述文件群集团的所有文件群中的和,从而获得的在上述文件群集团中的各索引词的分布的集中度,
上述关键字抽取单元单元对评价加上由上述得分算出单元对于上述分析对象的文件群算出的得分以及由上述集中度算出单元算出的集中度而抽取关键字。
7.根据权利要求1至权利要求3中任意一项所述的关键字抽取装置,其中,还具备:
对于具备作为分析对象的上述文件群和其他文件群的文件群集团,分别算出与各索引词有关的在各文件群中的评价值的评价值算出单元;以及
算出以下份额的份额算出单元,该份额是算出在上述分析对象的文件群中的各索引词的评价值的、与从属于上述文件群集团的各文件群中抽取到的所有索引词有关的和,对于各索引词算出各索引词的评价值对该和的比,从而获得的在上述分析对象的文件群中的各索引词的份额,
上述关键字抽取单元单元对评价加上由上述得分算出单元对于上述分析对象的文件群算出的得分以及由上述份额算出单元对于上述分析对象的文件群算出的份额而抽取关键字。
8.根据权利要求1至权利要求3中任意一项所述的关键字抽取装置,其中,还具备:
对于各索引词,算出在具备作为分析对象的上述文件群和其他文件群的文件群集团中的出现频度的倒数的函数值的第1倒数算出单元;
对于各索引词,算出在包含上述文件群集团的大文件集团中的出现频度的倒数的函数值的第2倒数算出单元;以及
根据从上述第1倒数算出单元的算出结果中减去上述第2倒数算出单元的算出结果所得的东西的函数值,算出在上述文件群集团中的各索引词的独创度的独创度算出单元,
上述关键字抽取单元单元对评价加上由上述得分算出单元对于上述分析对象的文件群算出的得分以及由上述独创度算出单元算出的独创度而抽取关键字。
9.一种关键字抽取装置,是从由多个文件组成的文件群中抽取关键字的装置,具备:
从具备作为分析对象的上述文件群和其他文件群的文件群集团的数据中抽取索引词的索引词抽取单元;
对于上述文件群集团,分别算出与各索引词有关的在各文件群中的评价值的评价值算出单元;
算出以下集中度的集中度算出单元,该集中度是对于各索引词,算出在各文件群中的评价值的、在属于上述文件群集团的所有文件群中的和,对于各文件群算出在各文件群中的评价值对该和的比,分别算出该比的平方,算出该比的平方在属于上述文件群集团的所有文件群中的和,从而获得的在上述文件群集团中的各索引词的分布的集中度;
算出以下份额的份额算出单元,该份额是算出在上述分析对象的文件群中的各索引词的评价值的、与从属于上述文件群集团的各文件群中抽取到的所有索引词有关的和,对于各索引词算出各索引词的评价值对该和的比,从而获得的在上述分析对象的文件群中的各索引词的份额;以及
基于由上述集中度算出单元算出的集中度和由上述份额算出单元对于上述分析对象的文件群算出的份额的组合来抽取关键字的关键字抽取单元。
10.根据权利要求9所述的关键字抽取装置,其中,还具备:
对于各索引词,算出在上述文件群集团中的出现频度的倒数的函数值的第1倒数算出单元;
对于各索引词,算出在包含上述文件群集团的大文件集团中的出现频度的倒数的函数值的第2倒数算出单元;以及
根据从上述第1倒数算出单元的算出结果中减去上述第2倒数算出单元的算出结果所得的东西的函数值,算出独创度的独创度算出单元,
上述关键字抽取单元进一步基于与由上述独创度算出单元算出的独创度的组合来抽取关键字。
11.一种关键字抽取装置,是从由多个文件组成的文件群中抽取关键字的装置,具备:
从具备作为分析对象的上述文件群和其他文件群的文件群集团的数据中抽取索引词的索引词抽取单元;
(a)对于各索引词,算出在上述分析对象的文件群中的出现频度的函数值的出现频度算出单元,
(b)算出以下集中度的集中度算出单元,该集中度是分别算出与各索引词有关的在各文件群中的评价值,对于各索引词,算出在各文件群中的评价值的、在属于上述文件群集团的所有文件群中的和,对于各文件群算出在各文件群中的评价值对该和的比,分别算出该比的平方,算出该比的平方在属于上述文件群集团的所有文件群中的和,从而获得的在上述文件群集团中的各索引词的分布的集中度,
(c)算出以下份额的份额算出单元,该份额是分别算出与各索引词有关的在各文件群中的评价值,算出在上述分析对象的文件群中的各索引词的评价值的、与从属于上述文件群集团的各文件群中抽取到的所有索引词有关的和,对于各索引词算出各索引词的评价值对该和的比,从而获得的在上述分析对象的文件群中的各索引词的份额,以及
(d)对于各索引词,根据从在上述文件群集团中的出现频度的倒数的函数值中减去在包含上述文件群集团的大文件集团中的出现频度的倒数的函数值所得的东西的函数值,算出独创度的独创度算出单元中的任意2个以上的单元;以及
基于由上述任意2个以上的单元算出的、在上述分析对象的文件群中的出现频度的函数值、上述集中度、在上述分析对象的文件群中的份额以及上述独创度中的任意2个以上的组合,分类抽取关键字的关键字抽取单元。
12.根据权利要求11所述的关键字抽取装置,其中,上述关键字抽取单元
把在上述分析对象的文件群中的出现频度的函数值为给定的阈值以上的索引词判定为在上述分析对象的文件群中的重要词,
把在上述分析对象的文件群中的上述重要词中的、上述集中度为给定的阈值以下的索引词判定为在上述分析对象的文件群中的技术领域词,
把在上述分析对象的文件群中的上述技术领域词以外的上述重要词中的、在上述分析对象的文件群中的份额为给定的阈值以上的索引词判定为在上述分析对象的文件群中的主要词,
把在上述分析对象的文件群中的上述技术领域词及上述主要词以外的上述重要词中的、上述独创度为给定的阈值以上的索引词判定为在上述分析对象的文件群中的独创词,
分类抽取上述关键字。
13.根据权利要求8、10、11及12中任意一项所述的关键字抽取装置,其中,
在上述文件群集团中的出现频度的倒数的函数值是用作为分析对象的上述文件群的全索引词把在上述文件群集团中的逆文件频度(IDF)进行归一化所得的东西,
在包含上述文件群集团的大文件集团中的出现频度的倒数的函数值是用作为上述分析对象的上述文件群的全索引词把在上述大文件集团中的逆文件频度(IDF)进行归一化所得的东西。
14.一种关键字抽取方法,是从由多个文件组成的文件群中抽取关键字的方法,具备:
从上述文件群的数据中抽取索引词的索引词抽取步骤;
算出把对于上述索引词的各个在上述文件群中的出现频度的高低程度包含在评价中的权重,抽取该权重大的索引词即高频度词的高频度词抽取步骤;
基于上述高频度词的各个和上述索引词的各个在文件单位中的同现的有无,算出上述高频度词的各个和上述索引词的各个在上述文件群中的同现度的高频度词-索引词同现度算出步骤;
基于上述算出的同现度,对上述高频度词进行分类,生成簇的成簇步骤;
对于各个索引词算出对与上述索引词中的属于较多的上述簇的高频度词发生同现,且在较多的文件中与上述高频度词发生同现的东西较高地进行评价所得的得分的得分算出步骤;以及
基于上述算出的得分来抽取关键字的关键字抽取步骤。
15.一种关键字抽取方法,是从由多个文件组成的文件群中抽取关键字的方法,具备:
从具备作为分析对象的上述文件群和其他文件群的文件群集团的数据中抽取索引词的索引词抽取步骤;
对于上述文件群集团,分别算出与各索引词有关的在各文件群中的评价值的评价值算出步骤;
算出以下集中度的集中度算出步骤,该集中度是对于各索引词,算出在各文件群中的评价值的、在属于上述文件群集团的所有文件群中的和,对于各文件群算出在各文件群中的评价值对该和的比,分别算出该比的平方,算出该比的平方在属于上述文件群集团的所有文件群中的和,从而获得的在上述文件群集团中的各索引词的分布的集中度;
算出以下份额的份额算出步骤,该份额是算出在上述分析对象的文件群中的各索引词的评价值的、与从属于上述文件群集团的各文件群中抽取到的所有索引词有关的和,对于各索引词算出各索引词的评价值对该和的比,从而获得的在上述分析对象的文件群中的各索引词的份额;以及
基于由上述集中度算出步骤算出的集中度和由上述份额算出步骤对于上述分析对象的文件群算出的份额的组合来抽取关键字的关键字抽取步骤。
16.一种关键字抽取方法,是从由多个文件组成的文件群中抽取关键字的方法,具备:
从具备作为分析对象的上述文件群和其他文件群的文件群集团的数据中抽取索引词的索引词抽取步骤;
(a)对于各索引词,算出在上述分析对象的文件群中的出现频度的函数值的出现频度算出步骤,
(b)算出以下集中度的集中度算出步骤,该集中度是分别算出与各索引词有关的在各文件群中的评价值,对于各索引词,算出在各文件群中的评价值的、在属于上述文件群集团的所有文件群中的和,对于各文件群算出在各文件群中的评价值对该和的比,分别算出该比的平方,算出该比的平方在属于上述文件群集团的所有文件群中的和,从而获得的在上述文件群集团中的各索引词的分布的集中度,
(c)算出以下份额的份额算出步骤,该份额是分别算出与各索引词有关的在各文件群中的评价值,算出在上述分析对象的文件群中的各索引词的评价值的、与从属于上述文件群集团的各文件群中抽取到的所有索引词有关的和,对于各索引词算出各索引词的评价值对该和的比,从而获得的在上述分析对象的文件群中的各索引词的份额,以及
(d)对于各索引词,根据从在上述文件群集团中的出现频度的倒数的函数值中减去在包含上述文件群集团的大文件集团中的出现频度的倒数的函数值所得的东西的函数值,算出独创度的独创度算出步骤中的任意2个以上的步骤;以及
基于由上述任意2个以上的步骤算出的、在上述分析对象的文件群中的出现频度的函数值、上述集中度、在上述分析对象的文件群中的份额以及上述独创度中的任意2个以上的组合,分类抽取关键字的关键字抽取步骤。
17.一种关键字抽取程序,是从由多个文件组成的文件群中抽取关键字的程序,使计算机执行:
从上述文件群的数据中抽取索引词的索引词抽取步骤;
算出把对于上述索引词的各个在上述文件群中的出现频度的高低程度包含在评价中的权重,抽取该权重大的索引词即高频度词的高频度词抽取步骤;
基于上述高频度词的各个和上述索引词的各个在文件单位中的同现的有无,算出上述高频度词的各个和上述索引词的各个在上述文件群中的同现度的高频度词-索引词同现度算出步骤;
基于上述算出的同现度,对上述高频度词进行分类,生成簇的成簇步骤;
对于各个索引词算出对与上述索引词中的属于较多的上述簇的高频度词发生同现,且在较多的文件中与上述高频度词发生同现的东西较高地进行评价所得的得分的得分算出步骤;以及
基于上述算出的得分来抽取关键字的关键字抽取步骤。
18.一种关键字抽取程序,是从由多个文件组成的文件群中抽取关键字的程序,使计算机执行:
从具备作为分析对象的上述文件群和其他文件群的文件群集团的数据中抽取索引词的索引词抽取步骤;
对于上述文件群集团,分别算出与各索引词有关的在各文件群中的评价值的评价值算出步骤;
算出以下集中度的集中度算出步骤,该集中度是对于各索引词,算出在各文件群中的评价值的、在属于上述文件群集团的所有文件群中的和,对于各文件群算出在各文件群中的评价值对该和的比,分别算出该比的平方,算出该比的平方在属于上述文件群集团的所有文件群中的和,从而获得的在上述文件群集团中的各索引词的分布的集中度;
算出以下份额的份额算出步骤,该份额是算出在上述分析对象的文件群中的各索引词的评价值的、与从属于上述文件群集团的各文件群中抽取到的所有索引词有关的和,对于各索引词算出各索引词的评价值对该和的比,从而获得的在上述分析对象的文件群中的各索引词的份额;以及
基于由上述集中度算出步骤算出的集中度和由上述份额算出步骤对于上述分析对象的文件群算出的份额的组合来抽取关键字的关键字抽取步骤。
19.一种关键字抽取程序,是从由多个文件组成的文件群中抽取关键字的程序,使计算机执行:
从具备作为分析对象的上述文件群和其他文件群的文件群集团的数据中抽取索引词的索引词抽取步骤;
(a)对于各索引词,算出在上述分析对象的文件群中的出现频度的函数值的出现频度算出步骤,
(b)算出以下集中度的集中度算出步骤,该集中度是分别算出与各索引词有关的在各文件群中的评价值,对于各索引词,算出在各文件群中的评价值的、在属于上述文件群集团的所有文件群中的和,对于各文件群算出在各文件群中的评价值对该和的比,分别算出该比的平方,算出该比的平方在属于上述文件群集团的所有文件群中的和,从而获得的在上述文件群集团中的各索引词的分布的集中度,
(c)算出以下份额的份额算出步骤,该份额是分别算出与各索引词有关的在各文件群中的评价值,算出在上述分析对象的文件群中的各索引词的评价值的、与从属于上述文件群集团的各文件群中抽取到的所有索引词有关的和,对于各索引词算出各索引词的评价值对该和的比,从而获得的在上述分析对象的文件群中的各索引词的份额,以及
(d)对于各索引词,根据从在上述文件群集团中的出现频度的倒数的函数值中减去在包含上述文件群集团的大文件集团中的出现频度的倒数的函数值所得的东西的函数值,算出独创度的独创度算出步骤中的任意2个以上的步骤;以及
基于由上述任意2个以上的步骤算出的、在上述分析对象的文件群中的出现频度的函数值、上述集中度、在上述分析对象的文件群中的份额以及上述独创度中的任意2个以上的组合,分类抽取关键字的关键字抽取步骤。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004322924 | 2004-11-05 | ||
JP322924/2004 | 2004-11-05 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN101069177A true CN101069177A (zh) | 2007-11-07 |
Family
ID=36319012
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNA2005800372605A Pending CN101069177A (zh) | 2004-11-05 | 2005-10-11 | 关键字抽取装置 |
Country Status (6)
Country | Link |
---|---|
US (1) | US20080195595A1 (zh) |
EP (1) | EP1830281A1 (zh) |
JP (1) | JPWO2006048998A1 (zh) |
KR (1) | KR20070084004A (zh) |
CN (1) | CN101069177A (zh) |
WO (1) | WO2006048998A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107430752A (zh) * | 2015-04-09 | 2017-12-01 | 正林真之 | 信息处理装置和方法以及程序 |
CN114065731A (zh) * | 2020-08-03 | 2022-02-18 | 华为技术有限公司 | 关键词提取方法和装置 |
Families Citing this family (64)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8572069B2 (en) * | 1999-03-31 | 2013-10-29 | Apple Inc. | Semi-automatic index term augmentation in document retrieval |
WO2000058863A1 (en) | 1999-03-31 | 2000-10-05 | Verizon Laboratories Inc. | Techniques for performing a data query in a computer system |
US8275661B1 (en) | 1999-03-31 | 2012-09-25 | Verizon Corporate Services Group Inc. | Targeted banner advertisements |
US6718363B1 (en) | 1999-07-30 | 2004-04-06 | Verizon Laboratories, Inc. | Page aggregation for web sites |
US6912525B1 (en) | 2000-05-08 | 2005-06-28 | Verizon Laboratories, Inc. | Techniques for web site integration |
US7657506B2 (en) * | 2006-01-03 | 2010-02-02 | Microsoft International Holdings B.V. | Methods and apparatus for automated matching and classification of data |
US8219900B2 (en) | 2006-07-07 | 2012-07-10 | International Business Machines Corporation | Programmatically hiding and displaying Wiki page layout sections |
US20080010338A1 (en) * | 2006-07-07 | 2008-01-10 | Bryce Allen Curtis | Method and apparatus for client and server interaction |
US8196039B2 (en) * | 2006-07-07 | 2012-06-05 | International Business Machines Corporation | Relevant term extraction and classification for Wiki content |
US8560956B2 (en) | 2006-07-07 | 2013-10-15 | International Business Machines Corporation | Processing model of an application wiki |
US20080010387A1 (en) * | 2006-07-07 | 2008-01-10 | Bryce Allen Curtis | Method for defining a Wiki page layout using a Wiki page |
US7954052B2 (en) * | 2006-07-07 | 2011-05-31 | International Business Machines Corporation | Method for processing a web page for display in a wiki environment |
US20080010386A1 (en) * | 2006-07-07 | 2008-01-10 | Bryce Allen Curtis | Method and apparatus for client wiring model |
US20080010388A1 (en) * | 2006-07-07 | 2008-01-10 | Bryce Allen Curtis | Method and apparatus for server wiring model |
US20080010345A1 (en) * | 2006-07-07 | 2008-01-10 | Bryce Allen Curtis | Method and apparatus for data hub objects |
US8775930B2 (en) * | 2006-07-07 | 2014-07-08 | International Business Machines Corporation | Generic frequency weighted visualization component |
US7996393B1 (en) * | 2006-09-29 | 2011-08-09 | Google Inc. | Keywords associated with document categories |
US8131722B2 (en) * | 2006-11-20 | 2012-03-06 | Ebay Inc. | Search clustering |
JP2008165303A (ja) * | 2006-12-27 | 2008-07-17 | Fujifilm Corp | コンテンツ登録装置、及びコンテンツ登録方法、及びコンテンツ登録プログラム |
CA2572116A1 (en) * | 2006-12-27 | 2008-06-27 | Ibm Canada Limited - Ibm Canada Limitee | System and method for processing multi-modal communication within a workgroup |
US7873640B2 (en) * | 2007-03-27 | 2011-01-18 | Adobe Systems Incorporated | Semantic analysis documents to rank terms |
CN100462979C (zh) * | 2007-06-26 | 2009-02-18 | 腾讯科技(深圳)有限公司 | 分布式索引文件的检索方法、检索系统及检索服务器 |
US8990225B2 (en) * | 2007-12-17 | 2015-03-24 | Palo Alto Research Center Incorporated | Outbound content filtering via automated inference detection |
US8290946B2 (en) * | 2008-06-24 | 2012-10-16 | Microsoft Corporation | Consistent phrase relevance measures |
US8161036B2 (en) * | 2008-06-27 | 2012-04-17 | Microsoft Corporation | Index optimization for ranking using a linear model |
US8171031B2 (en) | 2008-06-27 | 2012-05-01 | Microsoft Corporation | Index optimization for ranking using a linear model |
JP4656202B2 (ja) * | 2008-07-22 | 2011-03-23 | ソニー株式会社 | 情報処理装置および方法、プログラム、並びに記録媒体 |
US20100131513A1 (en) | 2008-10-23 | 2010-05-27 | Lundberg Steven W | Patent mapping |
US8849649B2 (en) * | 2009-12-24 | 2014-09-30 | Metavana, Inc. | System and method for determining sentiment expressed in documents |
US9201863B2 (en) * | 2009-12-24 | 2015-12-01 | Woodwire, Inc. | Sentiment analysis from social media content |
JP5411802B2 (ja) * | 2010-05-18 | 2014-02-12 | 日本電信電話株式会社 | 代表語抽出装置、代表語抽出方法および代表語抽出プログラム |
US8463786B2 (en) | 2010-06-10 | 2013-06-11 | Microsoft Corporation | Extracting topically related keywords from related documents |
CN102314448B (zh) * | 2010-07-06 | 2013-12-04 | 株式会社理光 | 一种在文档中获得一个或多个关键元素的设备和方法 |
JP5085708B2 (ja) * | 2010-09-28 | 2012-11-28 | 株式会社東芝 | キーワード提示装置、方法及びプログラム |
WO2012050247A1 (ko) * | 2010-10-13 | 2012-04-19 | 정보통신산업진흥원 | 인적 자원 역량 평가 시스템 및 방법 |
JP5545876B2 (ja) * | 2011-01-17 | 2014-07-09 | 日本電信電話株式会社 | クエリ提供装置、クエリ提供方法及びクエリ提供プログラム |
US9904726B2 (en) | 2011-05-04 | 2018-02-27 | Black Hills IP Holdings, LLC. | Apparatus and method for automated and assisted patent claim mapping and expense planning |
US8645381B2 (en) * | 2011-06-27 | 2014-02-04 | International Business Machines Corporation | Document taxonomy generation from tag data using user groupings of tags |
US20130086033A1 (en) | 2011-10-03 | 2013-04-04 | Black Hills Ip Holdings, Llc | Systems, methods and user interfaces in a patent management system |
CN103890763B (zh) * | 2011-10-26 | 2017-09-12 | 国际商业机器公司 | 信息处理装置、数据存取方法以及计算机可读存储介质 |
TWI477996B (zh) * | 2011-11-29 | 2015-03-21 | Iq Technology Inc | 自動分析個人化輸入之方法 |
CN103198057B (zh) * | 2012-01-05 | 2017-11-07 | 深圳市世纪光速信息技术有限公司 | 一种自动给文档添加标签的方法和装置 |
JP5530476B2 (ja) * | 2012-03-30 | 2014-06-25 | 株式会社Ubic | 文書分別システム及び文書分別方法並びに文書分別プログラム |
JP5526209B2 (ja) * | 2012-10-09 | 2014-06-18 | 株式会社Ubic | フォレンジックシステムおよびフォレンジック方法並びにフォレンジックプログラム |
JP5631956B2 (ja) * | 2012-11-12 | 2014-11-26 | 日本電信電話株式会社 | バーストワード抽出装置、方法、及びプログラム |
US20140280178A1 (en) * | 2013-03-15 | 2014-09-18 | Citizennet Inc. | Systems and Methods for Labeling Sets of Objects |
US20140379713A1 (en) * | 2013-06-21 | 2014-12-25 | Hewlett-Packard Development Company, L.P. | Computing a moment for categorizing a document |
KR101374197B1 (ko) * | 2013-10-02 | 2014-03-12 | 한국과학기술정보연구원 | 다종 리소스들의 의미기반 시차 조정 방법, 다종 리소스들의 의미기반 시차 조정 장치 및 다종 리소스들의 의미기반 시차를 조정하는 프로그램을 저장하는 저장 매체 |
JP5792871B1 (ja) * | 2014-05-23 | 2015-10-14 | 日本電信電話株式会社 | 代表スポット出力方法、代表スポット出力装置および代表スポット出力プログラム |
WO2016081749A1 (en) | 2014-11-19 | 2016-05-26 | Google Inc. | Methods, systems, and media for presenting related media content items |
JP6600939B2 (ja) * | 2014-11-28 | 2019-11-06 | 富士通株式会社 | データ分類装置、データ分類プログラム、および、データ分類方法 |
US9529860B2 (en) * | 2014-12-01 | 2016-12-27 | Bank Of America Corporation | Keyword frequency analysis system |
US10409910B2 (en) * | 2014-12-12 | 2019-09-10 | Omni Ai, Inc. | Perceptual associative memory for a neuro-linguistic behavior recognition system |
US10409909B2 (en) | 2014-12-12 | 2019-09-10 | Omni Ai, Inc. | Lexical analyzer for a neuro-linguistic behavior recognition system |
JP6507657B2 (ja) | 2015-01-15 | 2019-05-08 | 富士通株式会社 | 類似性判定装置、類似性判定方法および類似性判定プログラム |
JP6524790B2 (ja) * | 2015-05-14 | 2019-06-05 | 富士ゼロックス株式会社 | 情報処理装置及び情報処理プログラム |
US10628431B2 (en) | 2017-04-06 | 2020-04-21 | Salesforce.Com, Inc. | Predicting a type of a record searched for by a user |
US10614061B2 (en) * | 2017-06-28 | 2020-04-07 | Salesforce.Com, Inc. | Predicting user intent based on entity-type search indexes |
CN108334533B (zh) * | 2017-10-20 | 2021-12-24 | 腾讯科技(深圳)有限公司 | 关键词提取方法和装置、存储介质及电子装置 |
JP6847812B2 (ja) * | 2017-10-25 | 2021-03-24 | 株式会社東芝 | 文書理解支援装置、文書理解支援方法、およびプログラム |
US10498898B2 (en) * | 2017-12-13 | 2019-12-03 | Genesys Telecommunications Laboratories, Inc. | Systems and methods for chatbot generation |
KR102018906B1 (ko) * | 2018-01-10 | 2019-09-05 | 주식회사 메디씨앤씨 | 키워드에 대한 타겟 사용자 그룹 선정 방법 및 이를 수행하는 컴퓨팅 시스템 |
KR102515655B1 (ko) | 2018-01-30 | 2023-03-30 | (주)광개토연구소 | 미래 연구 가능성 높은 기술 키워드 추천 장치 및 방법 |
CN110362673B (zh) * | 2019-07-17 | 2022-07-08 | 福州大学 | 基于摘要语义分析的计算机视觉类论文内容判别方法及系统 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6185592B1 (en) * | 1997-11-18 | 2001-02-06 | Apple Computer, Inc. | Summarizing text documents by resolving co-referentiality among actors or objects around which a story unfolds |
JP2000276487A (ja) * | 1999-03-26 | 2000-10-06 | Mitsubishi Electric Corp | 事例蓄積・検索装置、並びに事例蓄積方法および事例検索方法、並びに事例蓄積プログラムを記録したコンピュータで読取可能な記録媒体および事例検索プログラムを記録したコンピュータで読取可能な記録媒体 |
SE520533C2 (sv) * | 2001-03-13 | 2003-07-22 | Picsearch Ab | Metod, datorprogram och system för indexering av digitaliserade enheter |
US20040133560A1 (en) * | 2003-01-07 | 2004-07-08 | Simske Steven J. | Methods and systems for organizing electronic documents |
-
2005
- 2005-10-11 KR KR1020077010276A patent/KR20070084004A/ko not_active Application Discontinuation
- 2005-10-11 US US11/667,097 patent/US20080195595A1/en not_active Abandoned
- 2005-10-11 WO PCT/JP2005/018712 patent/WO2006048998A1/ja active Application Filing
- 2005-10-11 EP EP05793129A patent/EP1830281A1/en not_active Withdrawn
- 2005-10-11 CN CNA2005800372605A patent/CN101069177A/zh active Pending
- 2005-10-11 JP JP2006542917A patent/JPWO2006048998A1/ja not_active Withdrawn
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107430752A (zh) * | 2015-04-09 | 2017-12-01 | 正林真之 | 信息处理装置和方法以及程序 |
CN114065731A (zh) * | 2020-08-03 | 2022-02-18 | 华为技术有限公司 | 关键词提取方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
WO2006048998A1 (ja) | 2006-05-11 |
JPWO2006048998A1 (ja) | 2008-05-22 |
US20080195595A1 (en) | 2008-08-14 |
KR20070084004A (ko) | 2007-08-24 |
EP1830281A1 (en) | 2007-09-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101069177A (zh) | 关键字抽取装置 | |
CN1279477C (zh) | 检索关键字分析系统和方法 | |
CN1750003A (zh) | 信息处理装置,信息处理方法,和程序 | |
CN1624696A (zh) | 信息处理设备、方法及其程序、信息处理系统及其方法 | |
CN1178164C (zh) | 信息提取方法和设备,加权方法和图文电视广播接收设备 | |
CN1170240C (zh) | 结构化文档检索显示方法和装置 | |
CN1856788A (zh) | 类似率算出装置和类似率算出程序 | |
CN1237502C (zh) | 生成声音模型的方法、装置和生成声音模型的计算机程序 | |
CN101079026A (zh) | 文本相似度、词义相似度计算方法和系统及应用系统 | |
CN1969292A (zh) | 用户轮廓管理系统 | |
CN1447261A (zh) | 特定要素、字符串向量生成及相似性计算的装置、方法 | |
CN1324045A (zh) | 信息推荐装置和信息推荐系统 | |
CN1126053C (zh) | 文件检索方法、文件检索发送方法及装置 | |
CN1734445A (zh) | 用于对话的方法、装置和程序及其中存储程序的存储介质 | |
CN1797399A (zh) | 用于文本挖掘和搜索的应用程序编程接口 | |
CN1875345A (zh) | 在编译过程中表示和检查程序组件的一致性的可扩展类型系统 | |
CN1227645A (zh) | 迭代问题求解技术 | |
CN1501285A (zh) | 排版系统、排版程序和排版方法 | |
CN1581156A (zh) | 信息处理系统、方法、程序和记录介质 | |
CN1774712A (zh) | 在数据表中管理递归可缩放模板实例中的插入操作的系统和方法 | |
CN1530856A (zh) | 布局系统和布局程序以及布局方法 | |
CN1453687A (zh) | 通信装置及系统、插入模块控制方法及记录媒体 | |
CN1862529A (zh) | 语言分析系统及方法 | |
CN1744036A (zh) | 报告软件中支持定制图形表示的系统和方法 | |
CN100347723C (zh) | 基于几何代价与语义-识别代价结合的脱机手写汉字字符的切分方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
AD01 | Patent right deemed abandoned | ||
C20 | Patent right or utility model deemed to be abandoned or is abandoned |