CN1855103A - 特定元素、字符串向量生成及相似性计算的装置、方法 - Google Patents
特定元素、字符串向量生成及相似性计算的装置、方法 Download PDFInfo
- Publication number
- CN1855103A CN1855103A CNA2006100899662A CN200610089966A CN1855103A CN 1855103 A CN1855103 A CN 1855103A CN A2006100899662 A CNA2006100899662 A CN A2006100899662A CN 200610089966 A CN200610089966 A CN 200610089966A CN 1855103 A CN1855103 A CN 1855103A
- Authority
- CN
- China
- Prior art keywords
- character string
- mentioned
- vector
- text data
- frequency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 239000013598 vector Substances 0.000 title claims abstract description 878
- 238000000034 method Methods 0.000 title claims description 58
- 238000004364 calculation method Methods 0.000 claims abstract description 137
- 239000011159 matrix material Substances 0.000 claims abstract description 34
- 238000004458 analytical method Methods 0.000 claims description 22
- 241001269238 Data Species 0.000 claims 36
- 230000017105 transposition Effects 0.000 abstract description 3
- 230000000694 effects Effects 0.000 description 29
- 239000013067 intermediate product Substances 0.000 description 15
- 238000013500 data storage Methods 0.000 description 13
- 230000006870 function Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 4
- 230000000877 morphologic effect Effects 0.000 description 4
- 238000007726 management method Methods 0.000 description 3
- 230000007423 decrease Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000000047 product Substances 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
首先,基于多个文本数据生成文件向量。文件向量具有与各词素对应的元素,计算各元素使之成为与对应词素的出现频率对应的值。接着,基于对集合了所生成的文件向量的文件单词矩阵的转置矩阵生成单词向量。因此单词向量具有与各文本数据对应的元素,各元素成为与多个文本数据中对应的文本数据中的词素的出现频率成正比例并与多个文本数据中的词素的出现频率成反比例的值。然后基于单词向量计算单词的相似性。由此可提供一种适用于根据其出现频率使单词在相似性计算中无偏颇地反映,进而有效地计算单词相似性的相似性计算装置。
Description
本申请是下述申请的分案申请:
发明名称:“特定元素、字符串向量生成及相似性计算的装置、方法”
申请日:2003年3月26日
申请号:03108544.X
技术领域
本发明涉及计算单词相似性的装置和程序及方法,尤其涉及适用于根据其出现频率使单词在相似性计算中得到无偏颇的反映,由此有效地计算单词的相似性的特定元素向量生成装置、字符串向量生成装置、相似性计算装置、特定元素向量生成程序、字符串向量生成程序及相似性计算程序、特定元素向量生成方法、字符串向量生成方法及相似性计算方法。
背景技术
单词的相关性词汇、词典或同义语辞典的编撰方式有人工和自动二种。
前者虽然在成为对象的领域方面具有可靠的质量,但其存在相似性随时间而趋于陈旧的问题、耗费人工成本的问题以及编撰中难以涵盖各种领域的问题。
后者已有各种方法被提出,如能建立成为对象的领域的文件集合便可进行编撰,但与前者相比,目前在精度(质量)方面相形见绌。然而在最近,在因特网上的检索服务中,只要一次性输入检索关键字进行检索,接下来便可显示出用于缩小查找范围的最佳候选关键字等,可实现自动化的效果不可限量。此外一般地说,在知识管理、文件管理系统中也同样,从知识管理的观点出发,除了检索文件的功能之外,从某单词和文章中发掘(开采)相关单词作为支持智力创造活动的功能是非常有效的。
传统上,作为通过自动化计算单词的相似性的技术,比如有以下几种:特开平7-114572号公报中介绍的文件分类装置(以下称第1现有例)、特开平9-134360号公报中介绍的对「词」的概念定量化的方法(以下称第2现有例)、「Qiu,Y.&H.P.Frei(1993).“ConceptBased Query Expansion:基于查询扩展的概念”,Proc.of the 16thAnnual Int.ACM SIGIR Conf.on R&D Information Retrieval,pp.160-169,」论文中介绍的检索方法(以下称第3现有例)。
第1现有例具备存储文本数据的存储部、解析文本数据的文件解析部、利用文件中单词间的共发生关系自动生成表现各单词特征的特征向量的单词向量生成部、存储该特征向量的单词向量存储部、从文件内包含的单词的特征向量生成文件的特征向量的文件向量生成部、存储该特征向量的文件向量存储部、利用文件的特征向量间的相似性对文件分类的分类部、存储该分类结果的结果存储部、登录在特征向量生成时使用的单词的特征向量生成用辞典。
这样,通过从文件中自动抽出单词的特征向量,并基于该特征向量对文件分类,可进行采用了语义差异的自动分类。
第2现有例是用于对文件中使用的「词」的概念定量的方法,包含通过解析被提供的文件,抽出具有与「词」形成文法上的组的关系的1或2以上的「关系词语」的步骤、求出「词」分别相对1或2以上的「关系词语」所具有的「结合性」的步骤,以分别针对具有与词语形成文法上的组的关系的1或2以上的「关系词语」的「结合性」形式对「词」的概念进行定量。
这样,可适用于词语互相间的相似性生成,对词语的概念进行定量。
在第3现有例中,对多个文本数据进行词素解析,按所解析的各词素通过DFITF(Document Frequency & Inverse Term frequency)生成单词向量,基于所生成的单词向量计算相似性。单词向量具有与各文本数据对应的元素,各元素是对该单词向量涉及的单词通过DFITF计算出的值。DFITF通过在文本数据全体中该单词被使用的文本数据数的频率(DF:Document Frequency)与在单一文本数据内单词出现频率的倒数(ITF:Inverse Term Frequency)的积求出。
然而,在第1现有例中,由于由基于文件集合中单词的共发生次数的统计信息生成单词向量,因而与单词向量元素中出现频率高的单词(以下称高出现频率单词)对应的元素与其它元素相比突出并具有大的值。因此对于出现频率低的单词(以下称低出现频率单词),对应的元素成为误差程度相对较小的值,因而在把这种单词向量用于相似性计算的场合下,存在低出现频率的单词难以在检索结果中被反映出来的问题。此外,在第1现有例中,为防止与高出现频率的单词对应的元素突出并成为大的值,采用成为登录对象的单词辞典对对象进行限制。一般情况下,采用辞典是一种耗费维护成本的方法,在未特定成为对象的文件集合的通用系统中难以实用。
此外在第2现有例中,由于由基于文件集合中单词的共发生次数的统计信息生成单词向量,因而与第1现有例同样,在把这种单词向量用于相似性计算的场合下,存在低出现频率的单词难以在检索结果中被反映出来的问题。
此外虽然在第3现有例中,通过DFITF生成单词向量,但该论文中不记载在该指标下能否有效地计算出单词的相似性,效果不明确。
发明内容
因此本发明着眼于这种现有技术中未解决的课题,其目的是提供适用于根据其出现频率使单词在相似性计算中得到无偏颇的反映,由此有效地计算单词的相似性的特定元素向量生成装置、字符串向量生成装置、相似性计算装置、特定元素向量生成程序、字符串向量生成程序及相似性计算程序、特定元素向量生成方法、字符串向量生成方法及相似性计算方法。
为达到上述目的,本发明的特定元素向量生成装置
是一种基于多个数据生成表示特定元素的特征的特定元素向量的装置,其特征在于:
具备基于上述多个数据生成上述特定元素向量的特定元素向量生成单元,
上述特定元素向量具有与上述各数据对应的元素,上述各元素是与上述多个数据中对应数据中的上述特定元素的出现频率成正比例并与上述多个数据中的上述特定元素的出现频率成反比例的值。
在该构成下,通过特定要求向量生成单元,基于多个数据生成特定要求向量。特定要求向量具有与各数据对应的元素,各元素按照成为与多个数据中对应数据中的特定元素的出现频率成正比例并与多个数据中的特定元素的出现频率成反比例的值的原则被生成。
这里,特定元素是数据中含有的元素,比如如果数据是文本数据,则词素或从文本数据按照规定规则切出的字符串便相当于此。后者的场合可适用于比如生成通过n-gram方式切出的字符串的特定元素向量的场合。此外即使数据是文本数据,也不局限于词素或按照规定规则切出的字符串。以下在本发明的相似性计算装置、本发明的特定元素向量生成程序、本发明的相似性计算程序、本发明的特定元素向量生成方法、本发明的相似性计算方法中也同样。
此外在数据中除了文本数据以外,还包含图像数据、音乐数据或其它类别的数据。以下在本发明的相似性计算装置、本发明的特定元素向量生成程序、本发明的相似性计算程序、本发明的特定元素向量生成方法、本发明的相似性计算方法中也同样。
此外只要能基于多个数据生成特定元素向量,特定元素向量生成单元可以是任意构成,比如,可以从多个数据直接生成特定元素向量,也可以从多个数据生成中间生成物(比如其它向量),再从所生成的中间生成物生成特定元素向量。以下在本发明的特定元素向量生成程序、本发明的特定元素向量生成方法中同样。
另一方面,为达到上述目的,本发明的字符串向量生成装置是一种基于多个文本数据生成表示特定字符串的特征的字符串向量的装置,其特征在于:
具备基于上述多个文本数据生成上述字符串向量的字符串向量生成单元,
上述字符串向量具有与上述各文本数据对应的元素,上述各元素是与上述多个文本数据中对应的文本数据中的上述特定字符串的出现频率成正比例并与上述多个文本数据中的上述特定字符串的出现频率成反比例的值。
在这种构成下,通过字符串向量生成单元,基于多个文本数据生成字符串向量。字符串向量具有与各文本数据对应的元素,各元素按照成为与多个文本数据中对应的文本数据中的特定字符串的出现频率成正比例并与多个文本数据中的特定字符串的出现频率成反比例的值的原则被生成。
这里,只要能基于多个文本数据生成字符串向量,字符串向量生成单元可以是任意构成,比如,可以从多个文本数据直接生成字符串向量,也可以从多个文本数据生成中间生成物(比如其它向量),再从所生成的中间生成物生成字符串向量。以下在本发明的字符串向量生成程序、本发明的字符串向量生成方法中同样。
此外本发明的字符串向量生成装置的特征在于,在本发明的字符串向量生成装置中,上述特定字符串是由词素解析得到的词素与根据规定规则切出的字符串的任意一个。
在这种构成下,通过字符串向量生成单元,基于多个文本数据生成字符串向量。字符串向量具有与各文本数据对应的元素,各元素按照成为与多个文本数据中对应的文本数据中的特定词素或切出字符串的出现频率成正比例并与多个文本数据中的特定词素或切出字符串的出现频率成反比例的值的原则被生成。
此外本发明的字符串向量生成装置的特征在于,在本发明中的字符串向量生成装置中,还具备基于上述各文本数据的每一个生成文件向量的文件向量生成单元,
上述文件向量至少具有1个与上述特定字符串对应的元素,上述元素是与该文本数据中的上述特定字符串的出现频率成正比例并与上述多个文本数据中的上述特定字符串的出现频率成反比例的值,
上述字符串向量生成单元基于由上述文件向量生成单元生成的文件向量生成上述字符串向量。
在这种构成下,通过文件向量生成单元,按各文本数据的每一个生成文件向量。文件向量至少具有1个与特定字符串对应的元素,该元素按照成为与该文本数据中的特定字符串的出现频率成正比例并与多个文本数据中的特定字符串的出现频率成反比例的值的原则被生成。这样,通过字符串向量生成单元,基于所生成的文件向量生成字符串向量。
此外本发明的字符串向量生成装置的特征在于:在本发明的字符串向量生成装置中,还具备用于存储上述多个文本数据的文本数据存储单元和对上述文本数据存储单元的文本数据进行字符串解析的字符串解析单元,
上述文件向量生成单元按由上述字符串解析单元解析的各字符串计算上述文本数据中的该字符串的第1出现频率及上述多个文本数据中的该字符串的第2出现频率,把具有与计算出的第1出现频率成正比例并与第2出现频率成反比例的值的元素的向量作为上述文件向量予以生成,对上述文本数据存储单元的所有文本数据实施该文件向量的生成。
在这种构成下,通过字符串解析单元,文本数据存储单元的文本数据被进行字符串解析,通过文件向量生成单元,按被进行字符串解析的各字符串,计算文本数据中的该字符串的第1出现频率及多个文本数据中的该字符串的第2出现频率,具有与计算出的第1出现频率成正比例并与第2出现频率成反比例的值的元素的向量被作为文件向量生成。对文本数据存储单元的所有文本数据实施该文件向量的生成。
这里,文本数据存储单元利用所有手段并在任何时期对文本数据进行存储,可以预先存储文本数据,也可以不预先存储文本数据,而在本装置动作时通过来自外部的输入等存储文本数据。以下在本发明的字符串向量生成装置中同样。
此外本发明的字符串向量生成装置的特征在于:在本发明的字符串向量生成装置中,
还具备用于存储上述多个文本数据的文本数据存储单元,
上述文本数据包含该文本数据中包含的字符串的解析结果或由单一的字符串组成,
上述文件向量生成单元按上述文本数据中包含的各字符串计算该文本数据中其字符串的第1出现频率及上述多个文本数据中其字符串的第2出现频率,把具有与计算出的第1出现频率成正比例并与第2出现频率成反比例的值的元素的向量作为上述文件向量予以生成,对上述文本数据存储单元的所有文本数据实施该文件向量的生成。
在这种构成下,通过文件向量生成单元,按文本数据中包含的各字符串计算该文本数据中其字符串的第1出现频率及多个文本数据中其字符串的第2出现频率,具有与计算出的第1出现频率成正比例并与第2出现频率成反比例的值的元素的向量被作为文件向量生成。对文本数据存储单元的所有文本数据实施该文件向量的生成。
此外本发明的字符串向量生成装置的特征在于:在本发明的字符串向量生成装置中,上述字符串向量生成单元构成对由上述文件向量生成单元生成的文件向量予以集合,把上述文件向量成分作为了行及列中的一方的文件单词矩阵,把上述文件单词矩阵的行及列中的另一方成分从上述文件单词矩阵抽出,把所抽出的成分的向量作为上述字符串向量生成。
在这种构成下,通过字符串向量生成单元,构成对生成的文件向量进行集合,把文件向量成分作为行及列中的一方的文件单词矩阵,文件单词矩阵的行及列中的另一方成分被从文件单词矩阵抽出,所抽出的成分的向量被作为字符串向量生成。
此外本发明的字符串向量生成装置的特征在于:在本发明的字符串向量生成装置中,
还具备用于存储上述字符串向量的字符串向量存储单元,
上述字符串向量生成单元把所生成的字符串向量存储到上述字符串向量存储单元。
在这种构成下,通过字符串向量生成单元,所生成的字符串向量被存储到字符串向量存储单元。
这里,字符串向量存储单元利用所有手段并在任何时期对字符串向量进行存储,可以预先存储字符串向量,也可以不预先存储字符串向量,而在本装置动作时根据来自外部的输入等存储字符串向量。以下在本发明的相似性计算装置、相似性计算程序、相似性计算方法中同样。
另一方面,为达到上述目的,本发明的相似性计算装置是一种基于表示特定元素的特征的特定元素向量计算针对该特定元素的相似性的装置,其特征在于:具备
用于存储上述特定元素向量的特定元素向量存储单元;输入包含成为相似判定对象的特定元素的判定对象数据的判定对象数据输入单元;基于由上述判定对象数据输入单元输入的判定对象数据生成上述特定元素向量的特定元素向量生成单元;基于由上述特定元素向量生成单元生成的特定元素向量及上述特定元素向量存储单元的特定元素向量计算上述相似性的相似性计算单元,
上述特定元素向量具有与多个数据分别对应的元素,上述各元素是与上述多个数据中对应数据中的上述特定元素的出现频率成正比例并与上述多个数据中的上述特定元素的出现频率成反比例的值。
在这种构成下,从判定对象数据输入单元输入判定对象数据后,通过特定元素向量生成单元,基于所输入的判定对象数据生成特定元素向量。特定元素向量具有与各数据对应的元素,各元素按照成为与多个数据中对应数据中的特定元素的出现频率成正比例并与多个数据中的特定元素的出现频率成反比例的值的原则被生成。这样,通过相似性计算单元,基于所生成的特定元素向量及特定元素向量存储单元的特定元素向量计算相似性。
这里,只要能基于判定对象数据生成特定元素向量,特定元素向量生成单元可以是任意构成,比如,可以从判定对象数据直接生成特定元素向量,也可以从判定对象数据生成中间生成物(比如其它向量),再从所生成的中间生成物生成特定元素向量。以下在本发明的相似性计算程序、相似性计算方法中同样。
此外,特定元素向量存储单元利用所有手段并在任何时期对特定元素向量进行存储,可以预先存储特定元素向量,也可以不预先存储特定元素向量,而在本装置动作时根据来自外部的输入等存储特定元素向量。以下在本发明的相似性计算装置、相似性计算程序、相似性计算方法中同样。
此外本发明的相似性计算装置是一种基于表示特定字符串的特征的字符串向量计算针对该特定字符串的相似性的装置,其特征在于:具备
用于存储上述字符串向量的字符串向量存储单元;输入包含成为相似判定对象的特定字符串的判定对象数据的判定对象数据输入单元;基于由上述判定对象数据输入单元输入的判定对象数据生成上述字符串向量的字符串向量生成单元;基于由上述字符串向量生成单元生成的字符串向量及上述字符串向量存储单元的字符串向量计算上述相似性的相似性计算单元,
上述字符串向量具有与多个文本数据分别对应的元素,上述各元素是与上述多个文本数据中对应的文本数据中的上述特定字符串的出现频率成正比例并与上述多个文本数据中的上述特定字符串的出现频率成反比例的值。
在这种构成下,从判定对象数据输入单元输入判定对象数据后,通过字符串向量生成单元,基于所输入的判定对象数据生成字符串向量。字符串向量具有与各文本数据对应的元素,各元素按照成为与多个文本数据中对应的文本数据中的特定字符串的出现频率成正比例并与多个文本数据中的特定字符串的出现频率成反比例的值的原则被生成。这样,通过相似性计算单元,基于所生成的字符串向量及字符串向量存储单元的字符串向量计算相似性。
这里,只要能基于判定对象数据生成字符串向量,字符串向量生成单元可以是任意构成,比如,可以从判定对象数据直接生成字符串向量,也可以从判定对象数据生成中间生成物(比如其它向量),再从所生成的中间生成物生成字符串向量。以下在本发明的相似性计算程序、相似性计算方法中同样。
此外本发明的相似性计算装置的特征在于,在本发明的相似性计算装置中,上述特定字符串是由词素解析得到的词素与根据规定规则切出的字符串的任意一个。
在这种构成下,从判定对象数据输入单元输入判定对象数据后,通过字符串向量生成单元,基于所输入的判定对象数据生成字符串向量。字符串向量具有与各文本数据对应的元素,各元素按照成为与对应的文本数据中的特定词素或切出字符串的出现频率成正比例并与多个文本数据中的特定词素或切出字符串的出现频率成反比例的值的原则被生成。这样,通过相似性计算单元,基于所生成的字符串向量及字符串向量存储单元的字符串向量计算相似性。
此外本发明的相似性计算装置的特征在于:在本发明的相似性计算装置中,上述字符串向量生成单元把有关与上述判定对象数据中包含的特定字符串相同的字符串的字符串向量从上述字符串向量存储单元读出。
在这种构成下,通过字符串向量生成单元,有关与判定对象数据中包含的特定字符串相同的字符串的字符串向量被从字符串向量存储单元读出。由此生成字符串向量。
此外本发明的相似性计算装置的特征在于:在本发明的相似性计算装置中,上述字符串向量生成单元在有关与上述判定对象数据中包含的特定字符串相同的字符串的字符串向量在上述字符串向量存储单元中存在多个时,把这些字符串向量从上述字符串向量存储单元读出,基于所读出的这些字符串向量生成单一的上述字符串向量。
在这种构成下,在有关与判定对象数据中包含的特定字符串相同的字符串的字符串向量在字符串向量存储单元中存在多个时,通过字符串向量生成单元,这些字符串向量被从字符串向量存储单元读出,基于所读出的这些字符串向量生成单一的字符串向量。
此外本发明的相似性计算装置的特征在于:在本发明的相似性计算装置中,上述字符串向量生成单元把有关与上述判定对象数据中包含的特定字符串相同的字符串的字符串向量从上述字符串向量存储单元读出,对所读出的这些字符串向量计算同一维数的元素的平均值,生成把计算出的平均值分别作为元素值而拥有的字符串向量。
在这种构成下,通过字符串向量生成单元,有关与判定对象数据中包含的特定字符串相同的字符串的字符串向量被从字符串向量存储单元读出,对所读出的这些字符串向量计算同一维数的元素的平均值,生成把计算出的平均值分别作为元素值而拥有的字符串向量。
此外本发明的相似性计算装置的特征在于:在本发明的相似性计算装置中,上述字符串向量存储单元把上述字符串向量与其单词的分类属性相关联进行存储,
上述判定对象数据输入单元输入上述判定对象数据及分类属性,
上述字符串向量生成单元把有关与上述判定对象数据中包含的特定字符串相同的字符串的字符串向量从上述字符串向量存储单元读出,
上述相似性计算单元把与由上述判定对象数据输入单元输入的分类属性对应的字符串向量从上述字符串向量存储单元读出,基于所读出的字符串向量及由上述字符串向量生成单元生成的字符串向量计算上述相似性。
在这种构成下,在输入判定对象数据及分类属性后,通过字符串向量生成单元,有关与判定对象数据中包含的特定字符串相同的字符串的字符串向量被从字符串向量存储单元读出,它被作为字符串向量生成。这样,通过相似性计算单元,与所输入的分类属性对应的字符串向量被从字符串向量存储单元读出,基于所读出的字符串向量及所生成的字符串向量计算相似性。
这里,在分类属性中,除了词类之外,如果是由比如XML(eXtensible Markup Language)之类的标记语言予以标记的新闻记事,可包含名称、本文、作者等若干字段。以下在本发明的相似性计算装置中同样。
此外本发明的相似性计算装置的特征在于:在本发明的相似性计算装置中,上述分类属性是词类。
在这种构成下,在输入判定对象数据及词类后,通过字符串向量生成单元,有关与判定对象数据中包含的特定字符串相同的字符串的字符串向量被从字符串向量存储单元读出,它被作为字符串向量生成。这样,通过相似性计算单元,与所输入的词类对应的字符串向量被从字符串向量存储单元读出,基于所读出的字符串向量及所生成的字符串向量计算相似性。
此外本发明的相似性计算装置是一种基于多个数据生成表示特定元素的特征的特定元素向量,基于上述特定元素向量计算针对上述特定元素的相似性的装置,其特征在于:具备
基于上述多个数据生成上述特定元素向量的第1特定元素向量生成单元;用于存储由上述第1特定元素向量生成单元生成的特定元素向量的特定元素向量存储单元;输入包含成为相似判定对象的特定元素的判定对象数据的判定对象数据输入单元;基于由上述判定对象数据输入单元输入的判定对象数据生成上述特定元素向量的第2特定元素向量生成单元;基于由上述第2特定元素向量生成单元生成的特定元素向量及上述特定元素向量存储单元的特定元素向量计算上述相似性的相似性计算单元,
上述特定元素向量具有与上述各数据对应的元素,上述各元素是与上述多个数据中对应的数据中的上述特定元素的出现频率成正比例并与上述多个数据中的上述特定元素的出现频率成反比例的值。
在这种构成下,通过第1特定要求向量生成单元,基于多个数据生成特定要求向量,所生成的特定元素向量被存储到特定元素向量存储单元。特定元素向量具有与各数据对应的元素,各元素按照成为与多个数据中对应的数据中的特定元素的出现频率成正比例并与多个数据中的特定元素的出现频率成反比例的值的原则被生成。
此外从判定对象数据输入单元输入判定对象数据后,通过第2特定元素向量生成单元,基于所输入的判定对象数据生成特定元素向量。特定元素向量具有与各数据对应的元素,各元素按照成为与多个数据中对应的数据中的特定元素的出现频率成正比例并与多个数据中的特定元素的出现频率成反比例的值的原则被生成。这样,通过相似性计算单元,基于所生成的特定元素向量及特定元素向量存储单元的特定元素向量计算相似性。
这里,只要能基于多个数据生成特定元素向量,第1特定元素向量生成单元可以是任意构成,比如,可以从多个数据直接生成特定元素向量,也可以从多个数据生成中间生成物(比如其它向量),再从所生成的中间生成物生成特定元素向量。以下在本发明的相似性计算程序、相似性计算方法中同样。
此外,只要能基于判定对象数据生成特定元素向量,第2特定元素向量生成单元可以是任意构成,比如,可以从判定对象数据直接生成特定元素向量,也可以从判定对象数据生成中间生成物(比如其它向量),再从所生成的中间生成物生成特定元素向量。以下在本发明的相似性计算程序、相似性计算方法中同样。
此外本发明的相似性计算装置是一种基于多个文本数据生成表示特定字符串的特征的字符串向量,基于上述字符串向量计算针对上述特定字符串的相似性的装置,其特征在于:具备
基于上述多个文本数据生成上述字符串向量的第1字符串向量生成单元;用于存储由上述第1字符串向量生成单元生成的字符串向量的字符串向量存储单元;输入包含成为相似判定对象的特定字符串的判定对象数据的判定对象数据输入单元;基于由上述判定对象数据输入单元输入的判定对象数据生成上述字符串向量的第2字符串向量生成单元;基于由上述第2字符串向量生成单元生成的字符串向量及上述字符串向量存储单元的字符串向量计算上述相似性的相似性计算单元,
上述字符串向量具有与上述各文本数据对应的元素,上述各元素是与上述多个文本数据中对应的文本数据中的上述特定字符串的出现频率成正比例并与上述多个文本数据中的上述特定字符串的出现频率成反比例的值。
在这种构成下,通过第1字符串向量生成单元,基于多个文本数据生成字符串向量,所生成的字符串向量被存储到字符串向量存储单元。字符串向量具有与各文本数据对应的元素,各元素按照成为与多个文本数据中对应的文本数据中的特定字符串的出现频率成正比例并与多个文本数据中的特定字符串的出现频率成反比例的值的原则被生成。
此外从判定对象数据输入单元输入判定对象数据后,通过第2字符串向量生成单元,基于所输入的判定对象数据生成字符串向量。字符串向量具有与各文本数据对应的元素,各元素按照成为与多个文本数据中对应的文本数据中的特定字符串的出现频率成正比例并与多个文本数据中的特定字符串的出现频率成反比例的值的原则被生成。这样,通过相似性计算单元,基于所生成的字符串向量及字符串向量存储单元的字符串向量计算相似性。
这里,只要能基于多个文本数据生成字符串向量,第1字符串向量生成单元可以是任意构成,比如,可以从多个文本数据直接生成字符串向量,也可以从多个文本数据生成中间生成物(比如其它向量),再从所生成的中间生成物生成字符串向量。以下在本发明的相似性计算程序、相似性计算方法中同样。
此外,只要能基于判定对象数据生成字符串向量,第2字符串向量生成单元可以是任意构成,比如,可以从判定对象数据直接生成字符串向量,也可以从判定对象数据生成中间生成物(比如其它向量),再从所生成的中间生成物生成字符串向量。以下在本发明的相似性计算程序、相似性计算方法中同样。
此外本发明的相似性计算装置的特征在于:在本发明的相似性计算装置中,上述特定字符串是由词素解析得到的词素与根据规定规则切出的字符串的任意一个。
在这种构成下,通过第1字符串向量生成单元,基于多个文本数据生成字符串向量,所生成的字符串向量被存储到字符串向量存储单元。字符串向量具有与各文本数据对应的元素,各元素按照成为与多个文本数据中对应的文本数据中的特定词素或切出字符串的出现频率成正比例并与多个文本数据中的特定词素或切出字符串的出现频率成反比例的值的原则被生成。
此外从判定对象数据输入单元输入判定对象数据后,通过第2字符串向量生成单元,基于所输入的判定对象数据生成字符串向量。字符串向量具有与各文本数据对应的元素,各元素按照成为与多个文本数据中对应的文本数据中的特定词素或切出字符串的出现频率成正比例并与多个文本数据中的特定词素或切出字符串的出现频率成反比例的值的原则被生成。这样,通过相似性计算单元,基于所生成的字符串向量及字符串向量存储单元的字符串向量计算相似性。
此外,本发明的相似性计算装置的特征在于:在本发明的相似性计算装置中,上述第2字符串向量生成单元把有关与上述判定对象数据中包含的特定字符串相同的字符串的字符串向量从上述字符串向量存储单元读出。
在这种构成下,通过第2字符串向量生成单元,有关与判定对象数据中包含的特定字符串相同的字符串的字符串向量被从字符串向量存储单元读出。由此生成字符串向量。
此外本发明的相似性计算装置的特征在于:在本发明的相似性计算装置中,上述第2字符串向量生成单元在有关与上述判定对象数据中包含的特定字符串相同的字符串的字符串向量在上述字符串向量存储单元中存在多个时,把这些字符串向量从上述字符串向量存储单元读出,基于所读出的这些字符串向量生成单一的上述字符串向量。
在这种构成下,在有关与判定对象数据中包含的特定字符串相同的字符串的字符串向量在字符串向量存储单元中存在多个时,通过第2字符串向量生成单元,这些字符串向量被从字符串向量存储单元读出,基于所读出的这些字符串向量生成单一的字符串向量。
此外本发明的相似性计算装置的特征在于:在本发明的相似性计算装置中,上述第2字符串向量生成单元把有关与上述判定对象数据中包含的特定字符串相同的字符串的字符串向量从上述字符串向量存储单元读出,对所读出的这些字符串向量计算同一维数之间的元素的平均值,生成把计算出的平均值分别作为元素值而拥有的字符串向量。
在这种构成下,通过第2字符串向量生成单元,有关与判定对象数据中包含的特定字符串相同的字符串的字符串向量被从字符串向量存储单元读出,对所读出的这些字符串向量计算同一维数之间的元素的平均值,生成把计算出的平均值分别作为元素值而拥有的字符串向量。
此外本发明的相似性计算装置的特征在于:在本发明的相似性计算装置中,
上述字符串向量存储单元把上述字符串向量与其单词的分类属性相关联进行存储,
上述判定对象数据输入单元输入上述判定对象数据及分类属性,
上述第2字符串向量生成单元把有关与上述判定对象数据中包含的特定字符串相同的字符串的字符串向量从上述字符串向量存储单元读出,
上述相似性计算单元把与由上述判定对象数据输入单元输入的分类属性对应的字符串向量从上述字符串向量存储单元读出,基于所读出的字符串向量及由上述字符串向量生成单元生成的字符串向量计算上述相似性。
在这种构成下,在输入判定对象数据及分类属性后,通过第2字符串向量生成单元,有关与判定对象数据中包含的特定字符串相同的字符串的字符串向量被从字符串向量存储单元读出,它被作为字符串向量生成。这样,通过相似性计算单元,与所输入的分类属性对应的字符串向量被从字符串向量存储单元读出,基于所读出的字符串向量及所生成的字符串向量计算相似性。
此外本发明的相似性计算装置的特征在于:在本发明的相似性计算装置中,上述分类属性是词类。
在这种构成下,在输入判定对象数据及词类后,通过第2字符串向量生成单元,有关与判定对象数据中包含的特定字符串相同的字符串的字符串向量被从字符串向量存储单元读出,它被作为字符串向量生成。这样,通过相似性计算单元,与所输入的词类对应的字符串向量被从字符串向量存储单元读出,基于所读出的字符串向量及所生成的字符串向量计算相似性。
另一方面,为达到上述目的,本发明的特定元素向量生成程序
是一种基于多个数据生成表示特定元素的特征的特定元素向量的程序,其特征在于:
该程序用于使计算机执行作为基于上述多个数据生成上述特定元素向量的特定元素向量生成单元实现的处理,
上述特定元素向量具有与上述各数据对应的元素,上述各元素是与上述多个数据中对应的数据中的上述特定元素的出现频率成正比例并与上述多个数据中的上述特定元素的出现频率成反比例的值。
在这种构成下,当由计算机读取了程序,并根据所读取的程序由计算机执行处理时,可得到与本发明的特定元素向量生成装置相同的作用。
另一方面,为达到上述目的,本发明的字符串向量生成程序是一种基于多个文本数据生成表示特定字符串的特征的字符串向量的程序,其特征在于:
该程序用于使计算机执行作为基于上述多个文本数据生成上述字符串向量的字符串向量生成单元实现的处理,
上述字符串向量具有与上述各文本数据对应的元素,上述各元素是与上述多个文本数据中对应的文本数据中的上述特定字符串的出现频率成正比例并与上述多个文本数据中的上述特定字符串的出现频率成反比例的值。
在这种构成下,当由计算机读取了程序,并根据所读取的程序由计算机执行处理时,可得到与本发明的字符串向量生成装置相同的作用。
另一方面,为达到上述目的,本发明的相似性计算程序是一种基于表示特定元素的特征的特定元素向量,计算针对该特定元素的相似性的程序,其特征在于:
该程序使可利用用于存储上述特定元素向量的特定元素向量存储单元、输入包含成为相似判定对象的特定元素的判定对象数据的判定对象数据输入单元的计算机执行
作为基于由上述判定对象数据输入单元输入的判定对象数据生成上述特定元素向量的特定元素向量生成单元、基于由上述特定元素向量生成单元生成的特定元素向量及上述特定元素向量存储单元的特定元素向量计算上述相似性的相似性计算单元实现的处理,
上述特定元素向量具有与多个数据分别对应的元素,上述各元素是与上述多个数据中对应的数据中的上述特定元素的出现频率成正比例并与上述多个数据中的上述特定元素的出现频率成反比例的值。
在这种构成下,当由计算机读取了程序,并根据所读取的程序由计算机执行处理时,可得到与本发明的相似性计算装置相同的作用。
此外本发明的相似性计算程序是一种基于表示特定字符串的特征的字符串向量,计算针对该特定字符串的相似性的程序,其特征在于:
该程序使可利用用于存储上述字符串向量的字符串向量存储单元、输入包含成为相似判定对象的特定字符串的判定对象数据的判定对象数据输入单元的计算机执行
作为基于由上述判定对象数据输入单元输入的判定对象数据生成上述字符串向量的字符串向量生成单元、基于由上述字符串向量生成单元生成的字符串向量及上述字符串向量存储单元的字符串向量计算上述相似性的相似性计算单元实现的处理,
上述字符串向量具有与多个文本数据分别对应的元素,上述各元素是与上述多个文本数据中对应的文本数据中的上述特定字符串的出现频率成正比例并与上述多个文本数据中的上述特定字符串的出现频率成反比例的值。
在这种构成下,当由计算机读取了程序,并根据所读取的程序由计算机执行处理时,可得到与本发明的相似性计算装置相同的作用。
此外本发明的相似性计算程序是一种基于多个数据生成表示特定元素的特征的特定元素向量,基于上述特定元素向量计算针对上述特定元素的相似性的程序,其特征在于:
该程序使可利用用于存储上述特定元素向量的特定元素向量存储单元、输入包含成为相似判定对象的特定元素的判定对象数据的判定对象数据输入单元的计算机实施:
作为基于上述多个数据生成上述特定元素向量并存储到上述特定元素向量存储单元的第1特定元素向量生成单元、基于由上述判定对象数据输入单元输入的判定对象数据生成上述特定元素向量的第2特定元素向量生成单元、基于由上述第2特定元素向量生成单元生成的特定元素向量及上述特定元素向量存储单元的特定元素向量计算上述相似性的相似性计算单元实现的处理,
上述特定元素向量具有与上述各数据对应的元素,上述各元素是与上述多个数据中对应的数据中的上述特定元素的出现频率成正比例并与上述多个数据中的上述特定元素的出现频率成反比例的值。
在这种构成下,当由计算机读取了程序,并根据所读取的程序由计算机执行处理时,可得到与本发明的特定元素向量生成程序相同的作用。
此外本发明的相似性计算程序是一种基于多个文本数据生成表示特定字符串的特征的字符串向量,基于上述字符串向量计算针对上述特定字符串的相似性的程序,其特征在于:
该程序使可利用用于存储上述字符串向量的字符串向量存储单元、输入包含成为类似判定对象的特定字符串的判定对象数据的判定对象数据输入单元的计算机实施:
作为基于上述多个文本数据生成上述字符串向量并存储到上述字符串向量存储单元的第1字符串向量生成单元、基于由上述判定对象数据输入单元输入的判定对象数据生成上述字符串向量的第2字符串向量生成单元、基于由上述第2字符串向量生成单元生成的字符串向量及上述字符串向量存储单元的字符串向量计算上述相似性的相似性计算单元实现的处理,
上述字符串向量具有与上述各文本数据对应的元素,上述各元素是与上述多个文本数据中对应的文本数据中的上述特定字符串的出现频率成正比例并与上述多个文本数据中的上述特定字符串的出现频率成反比例的值。
在这种构成下,当由计算机读取了程序,并根据所读取的程序由计算机执行处理时,可得到与本发明的字符串向量生成程序相同的作用。
另一方面,为达到上述目的,本发明的特定元素向量生成方法是一种基于多个数据生成表示特定元素的特征的特定元素向量的方法,其特征在于:
包含基于上述多个数据生成上述特定元素向量的特定元素向量生成步骤,
上述特定元素向量具有与上述各数据对应的元素,上述各元素是与上述多个数据中对应的数据中的上述特定元素的出现频率成正比例并与上述多个数据中的上述特定元素的出现频率成反比例的值。
另一方面,为达到上述目的,本发明的字符串向量生成方法是一种基于多个文本数据生成表示特定字符串的特征的字符串向量的方法,其特征在于:
包含基于上述多个文本数据生成上述字符串向量的字符串向量生成步骤,
上述字符串向量具有与上述各文本数据对应的元素,上述各元素是与上述多个文本数据中对应的文本数据中的上述特定字符串的出现频率成正比例并与上述多个文本数据中的上述特定字符串的出现频率成反比例的值。
另一方面,为达到上述目的,本发明的相似性计算方法是一种基于表示特定元素的特征的特定元素向量,计算针对该特定元素的相似性的方法,其特征在于:包含
把上述特定元素向量存储到特定元素向量存储单元的特定元素向量存储步骤;输入包含成为相似判定对象的特定元素的判定对象数据的判定对象数据输入步骤;基于在上述判定对象数据输入步骤输入的判定对象数据生成上述特定元素向量的特定元素向量生成步骤;基于在上述特定元素向量生成步骤生成的特定元素向量及上述特定元素向量存储单元的特定元素向量计算上述相似性的相似性计算步骤,
上述特定元素向量具有与多个数据分别对应的元素,上述各元素是与上述多个数据中对应的数据中的上述特定元素的出现频率成正比例并与上述多个数据中的上述特定元素的出现频率成反比例的值。
此外本发明的相似性计算方法是一种基于表示特定字符串的特征的字符串向量,计算针对该特定字符串的相似性的方法,其特征在于:包含
把上述字符串向量存储到字符串向量存储单元的字符串向量存储步骤;输入包含成为相似判定对象的特定字符串的判定对象数据的判定对象数据输入步骤;基于在上述判定对象数据输入步骤输入的判定对象数据生成上述字符串向量的字符串向量生成步骤;基于在上述字符串向量生成步骤生成的字符串向量及上述字符串向量存储单元的字符串向量计算上述相似性的相似性计算步骤,
上述字符串向量具有与多个文本数据分别对应的元素,上述各元素是与上述多个文本数据中对应的文本数据中的上述特定字符串的出现频率成正比例并与上述多个文本数据中的上述特定字符串的出现频率成反比例的值。
此外本发明的相似性计算方法是一种基于多个数据生成表示特定元素的特征的特定元素向量,基于上述特定元素向量计算针对上述特定元素的相似性的方法,其特征在于:包含
基于上述多个数据生成上述特定元素向量的第1特定元素向量生成步骤;把在上述第1特定元素向量生成步骤生成的特定元素向量存储到特定元素向量存储单元的特定元素向量存储步骤;输入包含成为相似判定对象的特定元素的判定对象数据的判定对象数据输入步骤;基于在上述判定对象数据输入步骤输入的判定对象数据生成上述特定元素向量的第2特定元素向量生成步骤;基于在上述第2特定元素向量生成步骤生成的特定元素向量及上述特定元素向量存储单元的特定元素向量计算上述相似性的相似性计算步骤,
上述特定元素向量具有与上述各数据对应的元素,上述各元素是与上述多个数据中对应的数据中的上述特定元素的出现频率成正比例并与上述多个数据中的上述特定元素的出现频率成反比例的值。
此外本发明的相似性计算方法是一种基于多个文本数据生成表示特定字符串的特征的字符串向量,基于上述字符串向量计算针对上述特定字符串的相似性的方法,其特征在于:包含
基于上述多个文本数据生成上述字符串向量的第1字符串向量生成步骤;把在上述第1字符串向量生成步骤生成的字符串向量存储到字符串向量存储单元的字符串向量存储步骤;输入包含成为相似判定对象的特定字符串的判定对象数据的判定对象数据输入步骤;基于在上述判定对象数据输入步骤输入的判定对象数据生成上述字符串向量的第2字符串向量生成步骤;基于在上述第2字符串向量生成步骤生成的字符串向量及上述字符串向量存储单元的字符串向量计算上述相似性的相似性计算步骤,
上述字符串向量具有与上述各文本数据对应的元素,上述各元素是与上述多个文本数据中对应的文本数据中的上述特定字符串的出现频率成正比例并与上述多个文本数据中的上述特定字符串的出现频率成反比例的值。
附图说明
图1是表示采用本发明的计算机100构成的方框图。
图2是表示单词向量生成处理的流程图。
图3是表示文件向量构成的附图。
图4是表示相似性计算处理的流程图。
图5是文本数据的样本。
图6是与所谓「指纹」的检索关键字相似性高的单词一览。
图7是与所谓「指纹」的检索关键字相似性高的英文单词一览。
图8是与所谓「指纹」的检索关键字相似性高的单词一览。
具体实施方式
以下参照附图对本发明的实施方式作以说明。图1至图8是表示本发明涉及的特定元素向量生成装置、字符串向量生成装置、相似性计算装置、特定元素向量生成程序、字符串向量生成程序及相似性计算程序、特定元素向量生成方法、字符串向量生成方法及相似性计算方法的实施方式的附图。
在本实施方式下,本发明涉及的特定元素向量生成装置、字符串向量生成装置、相似性计算装置、特定元素向量生成程序、字符串向量生成程序及相似性计算程序、特定元素向量生成方法、字符串向量生成方法及相似性计算方法用于如图1所示,由计算机100对由用户输入的检索关键字分别计算与多个文本数据中包含的所有种类的单词的相似性的场合。
首先,参照图1对采用本发明的计算机100的构成作以说明。图1是表示采用本发明的计算机100构成的方框图。
计算机100如图1所示,由基于控制程序控制运算及系统整体的CPU30、在规定区域内预先存储CPU30的控制程序等的ROM32、用于存储从ROM32等读出的数据及CPU30的运算过程中必需的运算结果的RAM34、起着对外部装置输入输出数据的中介作用的I/F38构成,它们通过作为用于转送数据的信号线的总线39被互相而且可收发数据地连接。
在I/F38上,作为外部装置,由可作为人机界面输入数据的键盘及鼠标等组成的输入装置40、基于图像信号显示图像的显示装置42、存储多个文本数据的文本数据登录数据库(以下把数据库简称为DB)44被连接。
CPU30由微处理单元MPU等组成,使存储在ROM32的规定区域内的规定程序启动,根据该程序,按时间分割分别执行图2及图4的流程图所示的单词向量生成处理及相似性计算处理。
首先,参照图2对单词向量生成处理作以详细说明。图2是表示单词向量生成处理的流程图。
单词向量生成处理是生成相似性计算所必需的单词向量的处理,在CPU30中被执行后,如图2所示,首先转入步骤S100。
在步骤S100,对文本数据登录DB44的所有文本数据进行词素解析,获得在任何文本数据中出现的所有种类的词素,然后转入步骤S102,把开头的文本数据从文本数据登录DB44读出,转入步骤S104。
在步骤S104中,按在步骤S100中获得的各词素,计算在所读出的文本数据中其词素的出现频率,转入步骤S106,基于计算出的出现频率生成文件向量。文件向量具有与各词素对应的元素,各元素按照成为与对应的词素的出现频率对应的值的原则生成。这里,参照图3,对生成文件向量的方法作以说明。图3是表示文件向量构成的附图。
首先,如图3所示,文件向量可以由下式(1)作为n维数向量表示。一般情况下,n是在对所有的文本数据进行词素解析时所得到的非重复单词数(词素数)。这样,通过TFIDF(Term Frequency &Inverse Document frequency(术语频率与文件频率倒数))求出各单词的权重W。
(算式1)
TFIDF根据下式(2),通过在单一文本数据中的单词出现频率(TF:Term Frequency)与在文本数据整体中使用该单词的文本数据数的频率倒数(IDF:Inverse Document Frequency)的积求出,数值越大,表示该单词越重要。TF是一个表示频繁出现的单词是重要的指标,如下式(3)所示,具有随着某文本数据中单词出现频率的增加而增大的性质。IDF是表示在较多的文本数据中出现的单词不重要,即在特定文本数据中出现的单词是重要的指标,如下式(4)~(6)所示,具有随着采用某单词的文本数据数的减少而增大的性质。因而TFIDF的值具有以下性质:即对在频繁出现的文本数据中出现的单词(接续词、助词等)及虽只在特定的文本数据中出现但即使在该文本数据中频率也较小的单词将减小,反之,对在特定文本数据中高频率出现的单词将增大。通过TFIDF,文本数据内的单词可被数值化,以该数值为元素,文本数据实现向量化。
(算式2)
W(t,d)=TF(t,d)×IDF(t) …(2)
(算式3)
TF(t,d)=在文本数据d中单词t出现的频率 …(3)
(算式4)
(算式5)
DF(t)=在文本数据整体中单词t出现的文本数据数的频率 …(5)
(算式6)
D=全部文本数据数 …(6)
接下来,转入步骤S108,把所生成的文件向量存储到文本数据登录DB44,转入步骤S110,判定对于所有的文本数据,其步骤S104~S108的处理是否结束,当判定出对所有文本数据的处理都结束时(Yes:是),转入步骤S112。
在步骤S112中,基于文本数据登录DB44的文件向量生成单词向量。单词向量具有与各文本数据对应的元素,各元素按照成为与对应文本数据中的单词的出现频率对应的值的原则生成。具体地说,如图3所示,构成对所生成的所有文件向量予以集合,把文件向量成分设为行方向的文件单词矩阵,把文件单词矩阵的列方向成分从文件单词矩阵抽出,把所抽出成分的向量作为单词向量生成。
接下来转入步骤S114,把所生成的单词向量存储到文本数据登录DB44,结束一系列的处理,返回原来的处理。
另一方面,在步骤S110中,当判定出对于所有的文本数据,其步骤S104~S108的处理尚未结束时(No:否),转入步骤S116,把下一个文本数据从文本数据登录DB44读出,转入步骤S104。
接下来,参照图4对相似性计算处理作详细说明。图4是表示相似性计算处理的流程图。
相似性计算处理是一种基于文本数据登录DB44的单词向量,对用户输入的检索关键字分别计算与多个文本数据中包含的所有种类单词的相似性的处理,在CPU30中被执行后,如图4所示,首先转入步骤S200。
在步骤S200中,判定是否输入了来自用户的检索请求,当判定出输入了检索请求时(Yes:是),转入步骤S202,当判定出未输入时(No:否),在步骤S200待机,直至输入检索请求。
在步骤S202中,从输入装置40输入检索关键字,转入步骤S214,基于所输入的检索关键字生成检索关键字的单词向量(以下把检索关键字的单词向量称为检索关键单词向量)。具体地说,在步骤S214中,把在步骤S112中生成的单词向量中有关与检索关键字相同的单词的单词向量从文本数据登录DB44读出。这里,当有关与检索关键字相同的单词的单词向量在文本数据登录DB44中存在多个时,把这些单词向量从文本数据登录DB44读出,对所读出的这些单词向量计算具有同一维数的元素的平均值,生成把所计算出的平均值作为各元素的值而拥有的单词向量。
接下来,转入步骤S216,把在步骤S112中生成的单词向量中的开头部分从文本数据登录DB44读出,转入步骤S218,利用所读出的单词向量及检索关键单词向量进行向量运算,由此计算出它们所涉及的单词的相似性。基于向量运算的相似性计算被称为向量检索技术,由反映单词的重要性并数值化的TFIDF和计算由此被向量化了的单词相似性的向量空间模型组成。比如,在把所读出的单词向量设为单词向量T1,把检索关键单词向量设为单词向量T2的场合下,根据下式(7),相似性可作为单词向量T1,T2之间组成的夹角的余弦值(0~1)计算出来。
(算式7)
接下来,转入步骤S220,判定对于所有的单词向量,其步骤S218的处理是否结束,当判定出对所有单词向量的处理都结束时(Yes:是),转入步骤S222。
在步骤S222中,将在步骤S218中计算出的相似性按照从高到低的顺序重新排列,生成相似性一览,转入步骤S224,在显示装置42上显示出所生成的相似性一览,结束一系列处理,返回原来的处理。
另一方面,在步骤S220,当判定出对于所有的单词向量,其步骤S218的处理尚未结束时(No:否),转入步骤S226,把在步骤S112生成的单词向量中的下一个从文本数据登录DB44读出,转入步骤S218。
以下对本实施方式的动作作以说明。
首先,对从文本数据登录DB44的文本数据生成单词向量的场合作以说明。
首先通过步骤S100、S102,文本数据登录DB44的所有文本数据被词素分析,获得任何文本数据中出现的所有种类的词素,开头的文本数据被从文本数据登录DB44读出。接下来,通过步骤S104、S106,按所取得的各词素的每一个,计算所读出的文本数据中的该词素的出现频率,基于所计算出的出现频率,文件向量被生成。文件向量具有与各词素对应的元素,各元素按照成为与对应的词素的出现频率对应的值的原则被生成。然后,文件向量通过步骤S108,被存储到文本数据登录DB44。通过重复步骤S104~S110,S116,对文本数据登录DB44的所有文本数据实施该文件向量的生成。
对所有的文本数据生成文件向量后,经过步骤S112,基于文本数据登录DB44的文件向量生成单词向量。单词向量具有与各文本数据对应的元素,各元素按照成为与对应的文本数据中的单词的出现频率对应的值的原则被生成。具体地说,构成对所生成的所有的文件向量集合,并把文件向量成分作为了行方向的文件单词矩阵,文件单词矩阵的列方向成分被从文件单词矩阵抽出,所抽出成分的向量被作为单词向量生成。然后,单词向量通过步骤S114,被存储到文本数据登录DB44。
接下来,对计算用户输入的检索关键字的相似性的场合作以说明。
在计算检索关键字的相似性的场合下,用户首先在输入检索请求的同时,输入成为相似判定对象的检索关键字。
检索关键字被输入后,经过步骤S214、S216,基于被输入的检索关键字生成检索关键单词向量,在步骤S112中生成的单词向量中的开头部分被从文本数据登录DB44读出。接下来通过步骤S218,利用所读出的单词向量及检索关键单词向量进行向量运算,由此计算出它们所涉及的单词的相似性。通过重复步骤S218、S220、S226,对在步骤S112中生成的所有单词向量实施该相似性的计算。
对所有单词向量计算出相似性后,经过步骤S222、S224,将计算出的相似性按照从高到低的顺序重新排列,生成相似性一览,所生成的相似性一览在显示装置42上显示。
接下来,参照图5至图8对本发明的实施例作以说明。
假设在文本数据登录DB44中,登录图5所示内容的文本数据。在本实施例中,以只登录1个文本数据的最简单的场合为例进行说明。图5是文本数据的样本。
第1,在用户输入「指纹」作为检索关键字,指定了名词作为词类的场合下,如图6所示,与所谓「指纹」的检索关键字的相似性高的单词一览被显示出来。在该一览中,按相似性由高至低的顺序显示单词。图6是与所谓「指纹」的检索关键字的相似性高的单词一览。
在图6的示例中,在第1段登录有「11.000000noun指纹」,它表示针对所谓「指纹」的单词的检索关键字的相似性是「1.000000」,相似性最高。此外在第2段登录有「20.848339noun口令」,它表示针对所谓「口令」的单词的检索关键字的相似性是「0.848339」,相似性第二高。此外「noun」表示词类是名词。
第2,在用户输入「指纹」作为检索关键字,指定了英文作为单词类别的场合下,如图7所示,与所谓「指纹」的检索关键字的相似性高的英文单词一览被显示出来。在该一览中,按相似性由高至低的顺序显示英文单词。图7是与所谓「指纹」的检索关键字的相似性高的英文单词一览。
在图7的示例中,在第1段登录有「10.460238alnm Card」,它表示针对所谓「Card」的单词的检索关键字的相似性是「0.460238」,相似性最高。此外在第4段登录有「40.458003alnmTechnology」,它表示针对所谓「Technology」的单词的检索关键字的相似性是「0.458003」,相似性第二高。此外「alnm」表示单词类别是英文。
第3,在用户输入「指纹」作为检索关键字,指定了动词作为词类的场合下,如图8所示,与所谓「指纹」的检索关键字的相似性高的单词一览被显示出来。在该一览中,按相似性由高至低的顺序显示单词。图8是与所谓「指纹」的检索关键字的相似性高的单词一览。
在图8的示例中,在第1段登录有「10.528856verb代替」,它表示针对所谓「代替」的单词的检索关键字的相似性是「0.528856」,相似性最高。此外在第2段登录有「20.468106verb对比」,它表示针对所谓「对比」的单词的检索关键字的相似性是「0.468106」,相似性第二高。此外「verb」表示词类是动词。
这样,在本实施方式下,基于多个文本数据生成单词向量,单词向量具有与各文本数据对应的元素,按照成为与多个文本数据中对应的文本数据中的词素的出现频率成正比例并与多个文本数据中的词素的出现频率成反比例的值的原则计算各元素。
这样,由于按照单词向量的各元素基于对应文本数据中的词素出现频率成为与重要性对应的值的原则生成单词向量,因而不论是高出现频率的词素还是低出现率的词素,都可使其重要性在相似性的计算中反映出来。因而与传统相比,可有效地计算相似性。
此外在本实施方式下,按各文本数据生成文件向量,基于所生成的文件向量生成单词向量,文件向量具有与各词素对应的元素,按照成为与对应词素的出现频率对应的值的原则计算各元素。
这样,由于是一种从文件向量生成单词向量的构成,因而可以通用传统的文件向量生成装置。因此单词向量的生成比较容易,从而可较容易地进行相似性的计算。
此外在本实施方式下,对文本数据登录DB44的所有文本数据进行词素解析,按词素解析后的各词素计算在文本数据中其词素的出现频率,把具有与计算出的出现频率对应的值的元素的向量作为文件向量予以生成,对文本数据登录DB44的所有文本数据实施该文件向量的生成。
这样,由于只需在文本数据登录DB44中存储文本数据,便可生成单词向量,因而单词向量的生成更加容易,从而可更容易地进行相似性的计算。
此外在本实施方式下,构成对所生成的所有的文件向量集合,并把文件向量成分作为了行方向的文件单词矩阵,把文件单词矩阵的列方向成分从文件单词矩阵抽出,把所抽出成分的向量作为单词向量生成。
这样,由于可以由文件单词矩阵的转置矩阵生成单词向量,因而单词向量的生成更加容易,从而可更容易地进行相似性的计算。
此外在本实施方式下,把有关与检索关键字相同的词素的单词向量从文本数据登录DB44读出,将其作为检索关键单词向量生成。
这样,可从检索关键字比较容易地生成单词向量。
此外在本实施方式下,把有关与检索关键字相同的词素的单词向量从文本数据登录DB44读出,将其作为检索关键单词向量生成,把与所输入的词类对应的单词向量从文本数据登录DB44读出,基于所读出的单词向量及所生成的检索关键单词向量计算相似性。
这样,由于可以通过词类缩小对象范围,因而可较高速而且有效地进行相似性的计算。
在上述实施方式中,单词向量与本发明的特定元素向量或字符串向量对应,文本数据登录DB44与本发明的文本数据存储单元或本发明的字符串向量存储单元对应。此外步骤S100与本发明的字符串解析单元对应,步骤S106与本发明的文件向量生成单元对应,步骤S112与本发明的特定元素向量生成单元、本发明的字符串向量生成单元、本发明的特定元素向量生成步骤或本发明的字符串向量生成步骤对应。
在上述实施方式中,单词向量与本发明的特定元素向量或字符串向量对应,检索关键字与判定对象数据对应。此外文本数据登录DB44与特定元素向量存储单元或字符串向量存储单元对应,步骤S114与特定元素向量存储步骤或字符串向量存储步骤对应。
此外在上述实施方式中,步骤S202与判定对象数据输入单元或判定对象数据输入步骤对应,步骤S214与特定元素向量生成单元、字符串向量生成单元、特定元素向量生成步骤或字符串向量生成步骤对应。此外步骤S218与相似性计算单元或相似性计算步骤对应。
在上述实施方式中,单词向量与特定元素向量或字符串向量对应,检索关键字与判定对象数据对应。此外文本数据登录DB44与特定元素向量存储单元或字符串向量存储单元对应,步骤S112与第1特定元素向量生成单元、第1字符串向量生成单元、第1特定元素向量生成步骤或第1字符串向量生成步骤对应。
此外在上述实施方式中,步骤S114与本发明的特定元素向量存储步骤或字符串向量存储步骤对应,步骤S202与判定对象数据输入单元或判定对象数据输入步骤对应。此外步骤S214与第2特定元素向量生成单元、第2字符串向量生成单元、第2特定元素向量生成步骤或第2字符串向量生成步骤对应。
此外在上述实施方式中,步骤S218与相似性计算单元或相似性计算步骤对应。
此外在上述实施方式中,虽然按照对所有的文本数据进行词素解析,按词素解析后的各词素计算在所读出的文本数据中该词素的出现频率,并基于计算出的出现频率生成文件向量的原则构成,但并不局限于此,如果按照包含在该文本数据中包含的词素的解析结果或由单一词素组成的原则构成文本数据,则也可不进行词素解析而构成。在该场合下,也可以按照按文本数据中包含的各词素,计算在所读出的文本数据中该词素的出现频率,并基于计算出的出现频率生成文件向量的原则构成。
这样,由于只需在文本数据登录DB44中存储文本数据,便可生成单词向量,而且可以不对文本数据进行词素解析,因而可更容易地进行单词向量的生成。
在该场合下,文本数据登录DB44与本发明的文本数据存储单元对应,步骤S106与本发明的文件向量生成单元对应。
此外在上述实施方式中,虽然按照输入检索关键字,基于所输入的检索关键字生成单词向量的原则构成,但并不局限于此,也可以按照输入由多个单词组成的检索关键字的原则构成。在该场合下,输入由多个单词组成的检索关键字,对所输入的检索关键字进行词素解析,基于词素解析后的各词素生成单词向量。单词向量的生成可以按照与在上述实施方式下的步骤S214中,该单词向量在文本数据登录DB44中存在多个的场合相同的要点进行。
此外在上述实施方式中,虽然对在执行图2及图4的流程图所示处理的任何一种情况下执行在ROM32中预先存储的控制程序的场合作了说明,但并不局限于此,也可以从存储了表示这些顺序的程序的存储媒体把这些程序读入RAM34后执行。
这里,所谓存储媒体是RAM、ROM等半导体存储媒体;FD、HD等磁存储型存储媒体;CD、CDV、LD、DVD等光学读取方式存储媒体;MO等磁存储型/光学读取方式存储媒体,不论是电子、磁力、光学等读取方法中的哪一种,只要是计算机可读取的存储媒体,可包含所有的存储媒体。
此外在上述实施方式中,虽然在如图1所示,由计算机100对用户输入的检索关键字分别计算与多个文本数据中包含的所有种类的单词的相似性的场合下采用了本发明涉及的特定元素向量生成装置、字符串向量生成装置、相似性计算装置、特定元素向量生成程序、字符串向量生成程序及相似性计算程序、特定元素向量生成方法、字符串向量生成方法及相似性计算方法,但并不局限于此,在不脱离本发明主旨的范围内也可适用其它场合。比如,也可以作为在因特网或其它网络中,对用户输入的检索关键字,分别计算与多个文本数据中包含的所有种类的单词的相似性并进行检索的检索服务的一部分应用。
发明效果
如上所述,根据本发明涉及的特定元素向量生成装置,由于按照特定元素向量的各元素成为与对应数据中的特定元素的出现频率成正比例并与多个数据中的特定元素的出现频率成反比例的值的原则生成特定元素向量,因而即使存在高出现频率的特定元素,也可以使低出现频率的特定元素根据其出现频率在相似性计算中反映出来。因而在把特定元素向量用于了相似性计算的场合下,与传统相比,具有可有效计算特定元素的相似性的效果。
另一方面,根据本发明涉及的字符串向量生成装置,由于按照字符串向量的各元素成为与对应文本数据中的特定字符串的出现频率成正比例并与多个文本数据中的特定字符串的出现频率成反比例的值的原则生成字符串向量,因而即使存在高出现频率的特定字符串,也可以使低出现频率的特定字符串根据其出现频率在相似性计算中反映出来。因而在把字符串向量用于了相似性计算的场合下,与传统相比,具有可有效计算特定字符串的相似性的效果。
此外,根据本发明涉及的字符串向量生成装置,由于是一种从文件向量生成字符串向量的构成,因而可以通用传统的文件向量生成装置。因此还具有可较容易地进行字符串向量的生成的效果。
此外根据本发明涉及的字符串向量生成装置,由于只需在文本数据存储单元中存储文本数据,便可生成字符串向量,因而还具有可更容易地进行字符串向量的生成的效果。
此外根据本发明涉及的字符串向量生成装置,由于只需在文本数据存储单元中存储文本数据,便可生成字符串向量,而且不对文本数据进行字符串解析也可以,因而还具有可更容易地进行字符串向量的生成的效果。
此外根据本发明涉及的字符串向量生成装置,由于可以由文件单词矩阵的转置矩阵生成字符串向量,因而还具有可更容易地进行字符串向量生成的效果。
另一方面,根据本发明涉及的相似性计算装置,由于按照特定元素向量的各元素成为与对应数据中的特定元素的出现频率成正比例并与多个数据中的特定元素的出现频率成反比例的值的原则生成特定元素向量,因而即使存在高出现频率的特定元素,也可以使低出现频率的特定元素根据其出现频率在相似性计算中反映出来。因而与传统相比,具有可有效计算特定元素的相似性的效果。
此外根据本发明涉及的相似性计算装置,由于按照字符串向量的各元素成为与对应文本数据中的特定字符串的出现频率成正比例并与多个文本数据中的特定字符串的出现频率成反比例的值的原则生成字符串向量,因而即使存在高出现频率的特定字符串,也可以使低出现频率的特定字符串根据其出现频率在相似性计算中反映出来。因而与传统相比,具有可有效计算特定字符串的相似性的效果。
此外根据本发明涉及的相似性计算装置,还具有可从判定对象数据较容易地生成字符串向量的效果。
此外根据本发明涉及的相似性计算装置,由于可以由分类属性缩小对象范围,因而还具有可较高速而且有效地进行相似性计算的效果。
此外根据本发明涉及的相似性计算装置,由于可以由词类缩小对象范围,因而还具有可较高速而且有效地进行相似性计算的效果。
另一方面,根据本发明涉及的特定元素向量生成程序,可得到与特定元素向量生成装置同等的效果。
另一方面,根据本发明涉及的字符串向量生成程序,可得到与的字符串向量生成装置同等的效果。
另一方面,根据本发明涉及的相似性计算程序,可得到与相似性计算装置同等的效果。
此外根据本发明涉及的相似性计算程序,可得到与相似性计算装置同等的效果。
此外,根据本发明涉及的相似性计算程序,可得到与特定元素向量生成程序同等的效果。
此外,根据本发明涉及的相似性计算程序,可得到与字符串向量生成程序同等的效果。
另一方面,根据本发明涉及的特定元素向量生成方法,可得到与特定元素向量生成装置同等的效果。
另一方面,根据本发明涉及的字符串向量生成方法,可得到与字符串向量生成装置同等的效果。
另一方面,根据本发明涉及的相似性计算方法,可得到与相似性计算装置同等的效果。
此外根据本发明涉及的相似性计算方法,可得到与相似性计算装置同等的效果。
此外,根据本发明涉及的相似性计算方法,可得到与特定元素向量生成程序同等的效果。
此外,根据本发明涉及的相似性计算方法,可得到与字符串向量生成程序同等的效果。
Claims (14)
1.一种字符串向量生成装置,是基于多个文本数据生成表示特定字符串特征的字符串向量的装置,其特征在于:
具备基于上述多个文本数据生成上述字符串向量的字符串向量生成单元,
上述字符串向量具有与上述各文本数据对应的元素,上述各元素是与上述多个文本数据中出现上述各元素的数据中的上述特定字符串的出现频率成正比例并与上述多个文本数据中的上述特定字符串的出现频率成反比例的值,
上述特定字符串是由词素解析得到的词素及根据规定规则切出的字符串的任意一个,
还具备按上述各文本数据的每一个生成文件向量的文件向量生成单元,
上述文件向量至少具有1个与上述特定字符串对应的元素,上述元素是与该文本数据中的上述特定字符串的出现频率成正比例并与上述多个文本数据中的上述特定字符串的出现频率成反比例的值,
上述字符串向量生成单元基于由上述文件向量生成单元生成的文件向量来生成上述字符串向量,
还具备用于存储上述多个文本数据的文本数据存储单元;对上述文本数据存储单元的文本数据进行字符串解析的字符串解析单元,
上述文件向量生成单元按由上述字符串解析单元解析的各字符串计算上述文本数据中的其字符串的第1出现频率及上述多个文本数据中的其字符串的第2出现频率,把具有与计算出的第1出现频率成正比例并与第2出现频率成反比例的值的元素的向量作为上述文件向量予以生成,对上述文本数据存储单元的所有文本数据实施该文件向量的生成,
上述字符串向量生成单元构成集合由上述文件向量生成单元生成的文件向量并把上述文件向量成分作为了行及列中的一方的文件单词矩阵,把上述文件单词矩阵的行及列中的另一方成分从上述文件单词矩阵抽出,把所抽出的成分的向量作为上述字符串向量生成。
2.一种字符串向量生成装置,是基于多个文本数据生成表示特定字符串特征的字符串向量的装置,其特征在于:
具备基于上述多个文本数据生成上述字符串向量的字符串向量生成单元,
上述字符串向量具有与上述各文本数据对应的元素,上述各元素是与上述多个文本数据中出现上述各元素的数据中的上述特定字符串的出现频率成正比例并与上述多个文本数据中的上述特定字符串的出现频率成反比例的值,
上述特定字符串是由词素解析得到的词素及根据规定规则切出的字符串的任意一个,
还具备按上述各文本数据的每一个生成文件向量的文件向量生成单元,
上述文件向量至少具有1个与上述特定字符串对应的元素,上述元素是与该文本数据中的上述特定字符串的出现频率成正比例并与上述多个文本数据中的上述特定字符串的出现频率成反比例的值,
上述字符串向量生成单元基于由上述文件向量生成单元生成的文件向量来生成上述字符串向量,
还具备用于存储上述多个文本数据的文本数据存储单元,
上述文本数据包含该文本数据中包含的字符串的解析结果或由单一的字符串组成,
上述文件向量生成单元按上述文本数据中包含的各字符串计算该文本数据中其字符串的第1出现频率及上述多个文本数据中其字符串的第2出现频率,把具有与计算出的第1出现频率成正比例并与第2出现频率成反比例的值的元素的向量作为上述文件向量予以生成,对上述文本数据存储单元的所有文本数据实施该文件向量的生成,
上述字符串向量生成单元构成集合由上述文件向量生成单元生成的文件向量并把上述文件向量成分作为了行及列中的一方的文件单词矩阵,把上述文件单词矩阵的行及列中的另一方成分从上述文件单词矩阵抽出,把所抽出的成分的向量作为上述字符串向量生成。
3.权利要求1或2中的字符串向量生成装置,其特征在于:
还具备用于存储上述字符串向量的字符串向量存储单元,
上述字符串向量生成单元把所生成的字符串向量存储到上述字符串向量存储单元。
4.一种相似性计算装置,是基于多个文本数据生成表示特定字符串特征的字符串向量,基于上述字符串向量计算针对上述特定字符串的相似性的装置,其特征在于:具备
基于上述多个文本数据生成上述字符串向量的第1字符串向量生成单元;用于存储由上述第1字符串向量生成单元生成的字符串向量的字符串向量存储单元;输入包含成为相似判定对象的特定字符串的判定对象数据的判定对象数据输入单元;基于由上述判定对象数据输入单元输入的判定对象数据生成上述字符串向量的第2字符串向量生成单元;基于由上述第2字符串向量生成单元生成的字符串向量及上述字符串向量存储单元的字符串向量计算上述相似性的相似性计算单元,
上述字符串向量具有与上述各文本数据对应的元素,上述各元素是与上述多个文本数据中出现上述各元素的数据中的上述特定字符串的出现频率成正比例并与上述多个文本数据中的上述特定字符串的出现频率成反比例的值。
5.权利要求4中的相似性计算装置,其特征在于:
上述特定字符串是由词素解析得到的词素及根据规定规则切出的字符串的任意一个。
6.权利要求4中的相似性计算装置,其特征在于:
上述第2字符串向量生成单元把有关与上述判定对象数据中包含的特定字符串相同的字符串的字符串向量从上述字符串向量存储单元读出。
7.权利要求5中的相似性计算装置,其特征在于:
上述第2字符串向量生成单元把有关与上述判定对象数据中包含的特定字符串相同的字符串的字符串向量从上述字符串向量存储单元读出。
8.权利要求7中的相似性计算装置,其特征在于:
上述第2字符串向量生成单元当有关与上述判定对象数据中包含的特定字符串相同的字符串的字符串向量在上述字符串向量存储单元中存在多个时,把这些字符串向量从上述字符串向量存储单元读出,基于所读出的这些字符串向量生成单一的上述字符串向量。
9.权利要求8中的相似性计算装置,其特征在于:
上述第2字符串向量生成单元把有关与上述判定对象数据中包含的特定字符串相同的字符串的字符串向量从上述字符串向量存储单元读出,对所读出的这些字符串向量计算同一维数的元素的平均值,生成把计算出的平均值分别作为元素值而拥有的字符串向量。
10.权利要求4至9任一中的相似性计算装置,其特征在于:
上述字符串向量存储单元把上述字符串向量与其单词的分类属性相关联进行存储,
上述判定对象数据输入单元输入上述判定对象数据及分类属性,
上述第2字符串向量生成单元把有关与上述判定对象数据中包含的特定字符串相同的字符串的字符串向量从上述字符串向量存储单元读出,
上述相似性计算单元把与由上述判定对象数据输入单元输入的分类属性对应的字符串向量从上述字符串向量存储单元读出,基于所读出的字符串向量及由上述字符串向量生成单元生成的字符串向量计算上述相似性。
11.权利要求10中的相似性计算装置,其特征在于:
上述分类属性是词类。
12.一种字符串向量生成方法,是基于多个文本数据生成表示特定字符串特征的字符串向量的方法,其特征在于:
包含基于上述多个文本数据生成上述字符串向量的字符串向量生成步骤,
上述字符串向量具有与上述各文本数据对应的元素,上述各元素是与上述多个文本数据中出现上述各元素的数据中的上述特定字符串的出现频率成正比例并与上述多个文本数据中的上述特定字符串的出现频率成反比例的值,
上述特定字符串是由词素解析得到的词素及根据规定规则切出的字符串的任意一个,
还具备按上述各文本数据的每一个生成文件向量的文件向量生成步骤,
上述文件向量至少具有1个与上述特定字符串对应的元素,上述元素是与该文本数据中的上述特定字符串的出现频率成正比例并与上述多个文本数据中的上述特定字符串的出现频率成反比例的值,
上述字符串向量生成步骤基于由上述文件向量生成步骤生成的文件向量来生成上述字符串向量,
还具备用于存储上述多个文本数据的文本数据存储步骤;对上述文本数据存储步骤的文本数据进行字符串解析的字符串解析步骤,
上述文件向量生成步骤按由上述字符串解析步骤解析的各字符串计算上述文本数据中的其字符串的第1出现频率及上述多个文本数据中的其字符串的第2出现频率,把具有与计算出的第1出现频率成正比例并与第2出现频率成反比例的值的元素的向量作为上述文件向量予以生成,对上述文本数据存储步骤的所有文本数据实施该文件向量的生成,
上述字符串向量生成步骤构成集合由上述文件向量生成步骤生成的文件向量并把上述文件向量成分作为了行及列中的一方的文件单词矩阵,把上述文件单词矩阵的行及列中的另一方成分从上述文件单词矩阵抽出,把所抽出的成分的向量作为上述字符串向量生成。
13.一种字符串向量生成方法,是基于多个文本数据生成表示特定字符串特征的字符串向量的方法,其特征在于:
包含基于上述多个文本数据生成上述字符串向量的字符串向量生成步骤,
上述字符串向量具有与上述各文本数据对应的元素,上述各元素是与上述多个文本数据中出现上述各元素的数据中的上述特定字符串的出现频率成正比例并与上述多个文本数据中的上述特定字符串的出现频率成反比例的值,
上述特定字符串是由词素解析得到的词素及根据规定规则切出的字符串的任意一个,
还具备按上述各文本数据的每一个生成文件向量的文件向量生成步骤,
上述文件向量至少具有1个与上述特定字符串对应的元素,上述元素是与该文本数据中的上述特定字符串的出现频率成正比例并与上述多个文本数据中的上述特定字符串的出现频率成反比例的值,
上述字符串向量生成步骤基于由上述文件向量生成步骤生成的文件向量来生成上述字符串向量,
还具备用于存储上述多个文本数据的文本数据存储步骤,
上述文本数据包含该文本数据中包含的字符串的解析结果或由单一的字符串组成,
上述文件向量生成步骤按上述文本数据中包含的各字符串计算该文本数据中其字符串的第1出现频率及上述多个文本数据中其字符串的第2出现频率,把具有与计算出的第1出现频率成正比例并与第2出现频率成反比例的值的元素的向量作为上述文件向量予以生成,对上述文本数据存储步骤的所有文本数据实施该文件向量的生成,
上述字符串向量生成步骤构成集合由上述文件向量生成步骤生成的文件向量并把上述文件向量成分作为了行及列中的一方的文件单词矩阵,把上述文件单词矩阵的行及列中的另一方成分从上述文件单词矩阵抽出,把所抽出的成分的向量作为上述字符串向量生成。
14.一种相似性计算方法,是基于多个文本数据生成表示特定字符串特征的字符串向量,基于上述字符串向量计算针对上述特定字符串的相似性的方法,其特征在于:包含
基于上述多个文本数据生成上述字符串向量的第1字符串向量生成步骤;把在上述第1字符串向量生成步骤生成的字符串向量存储到字符串向量存储单元的字符串向量存储步骤;输入包含成为相似判定对象的特定字符串的判定对象数据的判定对象数据输入步骤;基于在上述判定对象数据输入步骤输入的判定对象数据生成上述字符串向量的第2字符串向量生成步骤;基于在上述第2字符串向量生成步骤生成的字符串向量及上述字符串向量存储单元的字符串向量计算上述相似性的相似性计算步骤,
上述字符串向量具有与上述各文本数据对应的元素,上述各元素是与上述多个文本数据中出现上述各元素的数据中的上述特定字符串的出现频率成正比例并与上述多个文本数据中的上述特定字符串的出现频率成反比例的值。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002089812A JP2003288362A (ja) | 2002-03-27 | 2002-03-27 | 特定要素ベクトル生成装置、文字列ベクトル生成装置、類似度算出装置、特定要素ベクトル生成プログラム、文字列ベクトル生成プログラム及び類似度算出プログラム、並びに特定要素ベクトル生成方法、文字列ベクトル生成方法及び類似度算出方法 |
JP89812/2002 | 2002-03-27 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN03108544A Division CN1447261A (zh) | 2002-03-27 | 2003-03-26 | 特定要素、字符串向量生成及相似性计算的装置、方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1855103A true CN1855103A (zh) | 2006-11-01 |
CN100511233C CN100511233C (zh) | 2009-07-08 |
Family
ID=28449542
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN03108544A Pending CN1447261A (zh) | 2002-03-27 | 2003-03-26 | 特定要素、字符串向量生成及相似性计算的装置、方法 |
CNB2006100899662A Expired - Fee Related CN100511233C (zh) | 2002-03-27 | 2003-03-26 | 特定元素、字符串向量生成及相似性计算的装置、方法 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN03108544A Pending CN1447261A (zh) | 2002-03-27 | 2003-03-26 | 特定要素、字符串向量生成及相似性计算的装置、方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20030217066A1 (zh) |
JP (1) | JP2003288362A (zh) |
CN (2) | CN1447261A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101079026B (zh) * | 2007-07-02 | 2011-01-26 | 蒙圣光 | 文本相似度、词义相似度计算方法和系统及应用系统 |
Families Citing this family (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4428036B2 (ja) * | 2003-12-02 | 2010-03-10 | ソニー株式会社 | 情報処理装置および方法、プログラム、並びに、情報処理システムおよび方法 |
US7809695B2 (en) * | 2004-08-23 | 2010-10-05 | Thomson Reuters Global Resources | Information retrieval systems with duplicate document detection and presentation functions |
US8249871B2 (en) * | 2005-11-18 | 2012-08-21 | Microsoft Corporation | Word clustering for input data |
WO2008078670A1 (ja) * | 2006-12-22 | 2008-07-03 | Nec Corporation | 文言い換え方法、プログラムおよびシステム |
US8290946B2 (en) * | 2008-06-24 | 2012-10-16 | Microsoft Corporation | Consistent phrase relevance measures |
US20120166414A1 (en) * | 2008-08-11 | 2012-06-28 | Ultra Unilimited Corporation (dba Publish) | Systems and methods for relevance scoring |
JP5206296B2 (ja) * | 2008-10-03 | 2013-06-12 | 富士通株式会社 | 類似文章抽出プログラム、方法、装置 |
KR20100113423A (ko) * | 2009-04-13 | 2010-10-21 | (주)미디어레 | 역 벡터 공간 모델을 이용한 키워드 추천방법 및 그 장치 |
US20110106836A1 (en) * | 2009-10-30 | 2011-05-05 | International Business Machines Corporation | Semantic Link Discovery |
WO2012027262A1 (en) * | 2010-08-23 | 2012-03-01 | Google Inc. | Parallel document mining |
US9460390B1 (en) * | 2011-12-21 | 2016-10-04 | Emc Corporation | Analyzing device similarity |
JP5869948B2 (ja) * | 2012-04-19 | 2016-02-24 | 株式会社日立製作所 | パッセージ分割方法、装置、及びプログラム |
DE102012025349B4 (de) * | 2012-12-21 | 2024-05-23 | Docuware Gmbh | Bestimmung eines Ähnlichkeitsmaßes und Verarbeitung von Dokumenten |
DE102012025351B4 (de) * | 2012-12-21 | 2020-12-24 | Docuware Gmbh | Verarbeitung eines elektronischen Dokuments |
CN106155342B (zh) * | 2015-04-03 | 2019-07-05 | 阿里巴巴集团控股有限公司 | 预测用户待输入字的方法及装置 |
CN106598986B (zh) * | 2015-10-16 | 2020-11-27 | 北京国双科技有限公司 | 相似度计算的方法及装置 |
US9792534B2 (en) * | 2016-01-13 | 2017-10-17 | Adobe Systems Incorporated | Semantic natural language vector space |
US9811765B2 (en) * | 2016-01-13 | 2017-11-07 | Adobe Systems Incorporated | Image captioning with weak supervision |
US20180189307A1 (en) * | 2016-12-30 | 2018-07-05 | Futurewei Technologies, Inc. | Topic based intelligent electronic file searching |
EP3683694A4 (en) * | 2017-10-26 | 2020-08-12 | Mitsubishi Electric Corporation | DEVICE AND METHOD FOR DEDUCTING A SEMANTIC RELATIONSHIP BETWEEN WORDS |
JP6346367B1 (ja) * | 2017-11-07 | 2018-06-20 | 株式会社Fronteoヘルスケア | 類似性指標値算出装置、類似検索装置および類似性指標値算出用プログラム |
JP6509391B1 (ja) | 2018-01-31 | 2019-05-08 | 株式会社Fronteo | 計算機システム |
CN108595426B (zh) * | 2018-04-23 | 2021-07-20 | 北京交通大学 | 基于汉字字形结构性信息的词向量优化方法 |
US11687717B2 (en) * | 2019-12-03 | 2023-06-27 | Morgan State University | System and method for monitoring and routing of computer traffic for cyber threat risk embedded in electronic documents |
JP6915818B1 (ja) * | 2020-07-02 | 2021-08-04 | 株式会社Fronteo | パスウェイ生成装置、パスウェイ生成方法およびパスウェイ生成用プログラム |
JP6976537B1 (ja) * | 2020-10-08 | 2021-12-08 | 株式会社Fronteo | 情報検索装置、情報検索方法および情報検索用プログラム |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01314373A (ja) * | 1988-06-15 | 1989-12-19 | Hitachi Ltd | 機械翻訳システムにおける訳語選択方式 |
US5619709A (en) * | 1993-09-20 | 1997-04-08 | Hnc, Inc. | System and method of context vector generation and retrieval |
US5675819A (en) * | 1994-06-16 | 1997-10-07 | Xerox Corporation | Document information retrieval using global word co-occurrence patterns |
US5778362A (en) * | 1996-06-21 | 1998-07-07 | Kdl Technologies Limted | Method and system for revealing information structures in collections of data items |
US6295533B2 (en) * | 1997-02-25 | 2001-09-25 | At&T Corp. | System and method for accessing heterogeneous databases |
US5819258A (en) * | 1997-03-07 | 1998-10-06 | Digital Equipment Corporation | Method and apparatus for automatically generating hierarchical categories from large document collections |
JP3488063B2 (ja) * | 1997-12-04 | 2004-01-19 | 株式会社エヌ・ティ・ティ・データ | 情報分類方法、装置及びシステム |
JP3595184B2 (ja) * | 1998-03-12 | 2004-12-02 | Kddi株式会社 | 文書検索方法及び文書検索装置 |
JP2000112974A (ja) * | 1998-10-02 | 2000-04-21 | Nippon Telegr & Teleph Corp <Ntt> | テキスト情報の特徴情報作成方法及び特徴情報作成プログラムを記録した記録媒体 |
JP2000207404A (ja) * | 1999-01-11 | 2000-07-28 | Sumitomo Metal Ind Ltd | 文書検索方法及び装置並びに記録媒体 |
JP3848014B2 (ja) * | 1999-05-31 | 2006-11-22 | 株式会社東芝 | 文書検索方法および文書検索装置 |
JP2001043236A (ja) * | 1999-07-30 | 2001-02-16 | Matsushita Electric Ind Co Ltd | 類似語抽出方法、文書検索方法及びこれらに用いる装置 |
JP4045728B2 (ja) * | 2000-08-28 | 2008-02-13 | 株式会社日立製作所 | 類似文書検索方法および装置および、類似文書検索方法のためのプログラムが記録された記憶媒体 |
-
2002
- 2002-03-27 JP JP2002089812A patent/JP2003288362A/ja not_active Withdrawn
-
2003
- 2003-03-26 CN CN03108544A patent/CN1447261A/zh active Pending
- 2003-03-26 CN CNB2006100899662A patent/CN100511233C/zh not_active Expired - Fee Related
- 2003-03-27 US US10/397,163 patent/US20030217066A1/en not_active Abandoned
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101079026B (zh) * | 2007-07-02 | 2011-01-26 | 蒙圣光 | 文本相似度、词义相似度计算方法和系统及应用系统 |
Also Published As
Publication number | Publication date |
---|---|
CN100511233C (zh) | 2009-07-08 |
CN1447261A (zh) | 2003-10-08 |
JP2003288362A (ja) | 2003-10-10 |
US20030217066A1 (en) | 2003-11-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1855103A (zh) | 特定元素、字符串向量生成及相似性计算的装置、方法 | |
CN1109994C (zh) | 文件处理装置与记录媒体 | |
CN1110757C (zh) | 处理两种文字对照的数据库的方法与装置 | |
CN1101032C (zh) | 相关词抽取设备和方法 | |
CN1155906C (zh) | 数据处理方法、系统、处理程序及记录媒体 | |
CN1151456C (zh) | 特征文字序列抽取及相似文书检索方法和装置 | |
CN1728140A (zh) | 信息检索系统中基于短语的索引编制 | |
CN1728143A (zh) | 基于短语产生文献说明 | |
CN101079026A (zh) | 文本相似度、词义相似度计算方法和系统及应用系统 | |
CN1171162C (zh) | 基于字符分类检索字符串的装置和方法 | |
CN1728142A (zh) | 信息检索系统中的短语识别 | |
CN1728141A (zh) | 信息检索系统中基于短语的搜索 | |
CN1315020A (zh) | 自由格式数据处理的方法和设备 | |
CN1281191A (zh) | 信息检索方法和信息检索装置 | |
CN1628298A (zh) | 综合从搜索系统中使用的文档中抽取知识的自学习系统的方法 | |
CN1578954A (zh) | 机器翻译 | |
CN1608259A (zh) | 机器翻译 | |
CN1495639A (zh) | 文本语句比较装置 | |
CN1894688A (zh) | 对译判断装置、方法及程序 | |
CN1535433A (zh) | 基于分类的可扩展交互式文档检索系统 | |
CN101034414A (zh) | 信息处理设备和方法以及程序 | |
CN1670729A (zh) | 使用隐含谓词的改善的查询优化器 | |
CN1319836A (zh) | 转换表达方式的方法和装置 | |
CN1536483A (zh) | 网络信息抽取及处理的方法及系统 | |
CN1904896A (zh) | 结构化文档处理装置、搜索装置及结构化文档系统和方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C17 | Cessation of patent right | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20090708 Termination date: 20120326 |