CN1101032C - 相关词抽取设备和方法 - Google Patents
相关词抽取设备和方法 Download PDFInfo
- Publication number
- CN1101032C CN1101032C CN98120857A CN98120857A CN1101032C CN 1101032 C CN1101032 C CN 1101032C CN 98120857 A CN98120857 A CN 98120857A CN 98120857 A CN98120857 A CN 98120857A CN 1101032 C CN1101032 C CN 1101032C
- Authority
- CN
- China
- Prior art keywords
- word
- speech
- probability
- words
- postposition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 195
- 238000004364 calculation method Methods 0.000 claims abstract description 375
- 238000000034 method Methods 0.000 claims abstract description 39
- 239000000284 extract Substances 0.000 claims description 74
- 238000000926 separation method Methods 0.000 claims description 30
- 238000009933 burial Methods 0.000 claims 1
- 230000005055 memory storage Effects 0.000 claims 1
- 238000004458 analytical method Methods 0.000 abstract description 19
- 230000006870 function Effects 0.000 description 264
- 238000012545 processing Methods 0.000 description 18
- 238000010586 diagram Methods 0.000 description 17
- 239000000463 material Substances 0.000 description 17
- 238000012986 modification Methods 0.000 description 17
- 230000004048 modification Effects 0.000 description 17
- 239000013598 vector Substances 0.000 description 6
- 238000004891 communication Methods 0.000 description 4
- 230000006698 induction Effects 0.000 description 4
- 230000002776 aggregation Effects 0.000 description 3
- 238000004220 aggregation Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 230000004931 aggregating effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99932—Access augmentation or optimizing
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
- Y10S707/99935—Query augmenting and refining, e.g. inexact access
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
- Y10S707/99936—Pattern matching access
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99939—Privileged access
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明旨在通过使用互感信息,在不需要进行词法分析或句法分析的情况下,使用户容易地和准确地抽取相关词,其方法是由下述的装置组成一个相关词抽取设备:前置和后置词抽取装置(21);频率计算装置(22);出现概率计算装置(23);并发概率计算装置(24);组合次序相关度计算装置(25);组合次序无关度计装置(26);和词组抽取装置(27)。
Description
本发明涉及一种相关词抽取设备,一种相关词抽取方法,和记录相关词抽取程序的计算机可读记录媒体;它们都适用于从大容量存储资料数据中抽取相关词。
目前从资料数据中抽取相关词的最常用的作法是人工抽取和形成一个由这样抽取的词构成的表,或者可利用人工制备的主题词表去制备一个相关词表。
业已提出一些准备相关词表的技术(稍后将描述),作为通过使用计算机自动地抽取相关词而不需要人工抽取操作的方法。
其中一种技术涉及根据两个相关词的出现频率,即资料数据中彼此在一起出现的两个词的频率,制备一个相关词表。把其中两个词被判定为彼此在一起出现的范围设置成各种值,例如不超出几个字的范围,不超出几十个字的范围,不超出一分钟的持续时间,或不超一个段落的范围。
除了简单地聚合那些彼此在一起出现的两个词的频率和确定那些具有并发频率的词为相关词的技术以外,还使用下述的技术。
具体地说,在一种已提出的技术中,事先确定一组关键字(或一组词),并且聚合每个随其它词出现的关键字的频率。通过这种聚合操作,制备一个相关词表。
在已提出的另一种技术中,使一个用于制备相关词表的资料(或一个书写项目)经受词法分析,以确定每个词的词类。然后,从资料中去除功能词,或者只聚合那些随其它词一起出现的每个实义词的频率。通过这种聚合操作,制备一个相关词表。
在已提出的又一种技术中,根据随资料中一个指定词一起出现的诸词的频率,在相关词表制备过程中去除那些具有随指定词一起出现的高频的词,和那些具有随指定词一起出现的低频的词,借此制备一个相关词表。
在已提出的另一种技术中,通过句法分析确定那些有特殊关系的词,并且聚合那些这样确定的互相在一起出现的词的频率。通过聚合操作,制备一个相关词表。
在现行的格式中,除了用互相一起出现的两个词的频率作为确定这些词是否互相相关的准则的技术之外,已提出另外一种使用一个叫作互感信息的值的技术(此后被称作“技术A”)。
在此,互感信息(或传递信息)代表,在由于确定出现事件“X”而传送的信息,与在另一事件“Y”已出现的条件下由于确定出现事件“X”而传送的条件信息之间的差异。在数学上,互感信息代表一对事件Xi,Yi,在此Xi标志一个输入信息,且Yi标志一个输出信息。若令P(Xi,Yi)为出现事件Xi和Yi的联合概率;P(Xi|Yi)为在事件Yi已出现的条件下出现事件Xi的概率;P(Yi|Xi)为在事件Xi已出现的条件下出现事件Yi的概率;P(Xi)为出现事件Xi的概率;且P(Yi)为出现事件Yi的概率;则可用下述方程1给出涉及这对事件Xi,Yi的互感信息(或传递信息)T(Xi|Yi)。 ..........(Eq.1)
还可以想象到,通过方程1所定义的表达式计算互感信息T(Xi|Yi),能够从互感信息计算一个指定词Xi和一个相应词Yi的相关程度,并且从计算所得的值,能够制备一个相关词表。
人工制备相关词表是麻烦的,并且增加制备成本。此外,为了使相关词表涉及新词,要求这种人工抽取技术,每当出现新词时,都制备新的相关词表。
甚至那种利用计算机的且事先确定关键词的方法,也需要事先确定关键词。
那种删除功能词或只抽取实义词的方法需要通过使用一种词法分析之类的技术,去收集关于每个词的词类信息。
那种消去高和低出现频率的相关词的方法,在识别一个其出现频率高于调查水平或低于某个其它水平的词时,由于词被消去而遇到困难。
那种需要语法分析的技术会带来一定程度的麻烦,因为需要作语法分析工作。
在需要词法分析或语法分析的技术中,还要求分析具有充分的性能;而且为了保证充分的性能,必须不断更新词典或语法数据库。
对于利用关于方程1所示互感信息T(Xi|Yi)的表达式制备相关词表的技术A,不一定需要它在事先确定一些根据相关词检索操作的项目,或者通过词法分析处理一个资料。然而,因为技术A依赖于诸词出现的顺序,故只依靠诸词出现的顺序来制备一个相关词表,从而造成一个问题:用户在理解从互感信息制备的相关词表时遇到相当大的困难。
本发明旨在解决上述问题,本发明之目的在于提供一种相关词抽取设备,一种相关词抽取方法,和一种记录相关词抽取程序的计算机可读记录媒体,它们都使用户可以通过使用互感信息,容易地和精确地抽取相关词,而不需要词法分析或语法分析。
一种用于解决上述问题的相关词抽取设备包括:一个前置和后置词抽取部分,它在正文数据中抽取一个在指定词前面出现的前置词或者一个在指定词后面出现的后置词;一个频率计算部分,它能够计算正文数据中指定词的出现频率,正文数据中前置或后置词的出现频率,和由前置和后置词抽取部分在正文数据中抽取的前置和后置词的出现频率;一个出现概率计算部分,它能够根据关于正文数据中指定词出现频率的信息和关于正文数据中前置和后置词出现频率的信息,计算前置和后置词的出现概率以及指定词的出现概率,这两种信息都是从频率计算部分接收的;一个并发概率计算部分,它根据从频率计算部分接收的关于由前置和后置词抽取部分抽取的前置词的出现频率的信息,和根据从频率计算部分接收的关于由前置和后置词抽取部分抽取的后置词的出现频率的信息,计算随指定词一起出现的前置词的频率和随指定词一起出现的后置词的概率;一个组合次序相关度计算部分,它根据从出现概率计算部分接收的指定词的出现概率、前置词的出现概率和后置词的出现概率,和根据从并发概率计算部分接收的关于随指定词一起出现的前置词概率的信息和关于随指定词一起出现的后置词概率的信息,计算前置词和指定词的组合的次序相关度以及后置词和指定词的组合的次序相关度;一个组合次序无关度计算部分,它根据从组合次序相关度计算部分接收的关于组合度的信息,计算前置词和指定词的组合的次序无关度以及后置词和指定词的组合的次序无关度;和一个词组抽取部分,它根据由组合次序无关度计算部分计算的组合度信息,从正文数据中抽取一组涉及指定词的词。
因此,根据本发明的相关词抽取设备,由于词组抽取部分使用由组合次序无关度计算部分计算的信息,而具有能够在不需要词法分析或语法分析的情况下,准确地抽取用户容易理解的相关词的优点。
一种用于解决上述问题的相关词抽取方法包括:一个关键字指定步骤,用于指定一个借以从正文数据中抽取诸相关词的关键字;一个前置和后置词抽取步骤,用于抽取一个在正文数据中指定词前面出现的前置词和一个在正文数据中指定词后面出现的后置词;一个并发概率计算步骤,用于计算那些随关键字指定步骤所指定词一起出现的,前置和后置词抽取步骤所抽取的前置和后置词的概率;一个出现概率计算步骤,用于计算关键字指定步骤所指定的词的出现概率,和前置和后置词抽取步骤所抽取的前置和后置词的出现概率;一个组合次序相关度计算步骤,用于根据在出现概率计算步骤计算的关于指定词出现概率的信息、关于前置词出现概率的信息和关于后置词出现概率的信息,和根据在并发概率计算步骤计算的关于随指定词一起出现的前置词的概率信息和关于随指定词一起出现的后置词的概率信息,计算一个前置词和指定词的组合次序相关度和一个后置词和指定词的组合次序相关度;一个组合次序无关度计算步骤,用于根据在组合次序相关度计算步骤计算的关于组合度的信息,计算一个前置词和指定词的组合次序无关度和一个后置词和指定词的组合次序无关度;和一个词组抽取步骤,用于根据在组合次序无关度计算步骤计算的组合度信息,从正文数据中抽取一组与指定词有关的词。
因此,根据本发明的相关词抽取方法,由于执行关键字指定步骤、前置和后置词抽取步骤、并发概率计算步骤、出现概率计算步骤、组合次序相关度计算步骤、组合次序无关度计算步骤、和词组抽取步骤,以及由于把在组合次序无关度计算步骤计算的信息用于在词组抽取步骤中进行处理,而具有在不需要词法分析或语法分析情况下准确地抽取那些用户容易理解的相关词的优点。
一种记录相关词抽取程序的计算机可读记录媒体,用于根据本发明解决上述的问题,它为了从正文数据中抽取一组与某一词相关的词,包括要由计算机执行的下述功能:一种关键字指定功能,旨在指定一个用来从正文数据中抽取相关词的关键字;一种前置和后置词抽取功能,旨在抽取在正文数据中指定词前面出现的前置词和在正文数据中指定词后面出现的后置词;一种并发概率计算功能,旨在计算前置和后置词的概率,这些词是借助前置和后置词抽取功能抽取的,并且和借助关键字指定功能指定的词一起出现的;一种出现概率计算功能,旨在计算那种借助关键字指定功能指定的词的出现概率和那些借助前置和后置词抽取功能抽取的前置和后置词的出现概率;一种组合次序相关度计算功能,旨在根据借助出现概率计算功能计算的关于指定词出现概率的信息、关于前置词出现概率的信息和关于后置词出现概率的信息,和根据借助并发概率计算功能计算的关于随指定词一起出现的前置词的概率的信息和关于随指定词一起出现的后置词的概率的信息,计算一个前置词和指定词的组合次序相关度和一个后置词和指定词的组合次序相关度;一种组合次序无关度计算功能,旨在根据借助组合次序相关度计算功能计算的关于组合度的信息,计算前置词和指定词的组合次序无关度和后置词和指定词的组合次序无关度;和一种词组抽取功能,旨在根据借助组合次序无关度计算功能计算的组合度信息,从正文数据中抽取一组涉及指定词的词。
因此,根据本发明的在其上具有所记录相关词抽取程序的计算可读记录媒体,由于计算机执行关键字指定功能、前置和后置词抽取功能、并发概率计算功能、出现概率计算功能、组合次序相关度计算功能、组合次序无关度计算功能和词组抽取功能,而在不需要词法分析或语法分析的情况下具有准确地抽取那些用户容易理解的相关词的优点。
图1是一个示意图,说明一个在其上安装有一个根据本发明一个实施例的相关词抽取设备的系统;
图2是一个框图,说明在其上安装有一个根据本发明一个实施例的相关词抽取设备的系统的主要部件;
图3是一个框图,说明在其上装有一个根据本发明一个实施例的相关词抽取设备的系统的主要部件;
图4是一个示意图,说明一个根据本发明一个实施例的正文数据集;
图5是一个示意图,说明根据本发明一个实施例的逐个词或逐个词素地分段的一个正文数据集;
图6(a)和6(b)是示意图,说明根据本发明一个实施例的由前置和后置词抽取部件抽取的词的一个实例;
图7和8是图表,说明根据本发明一个实施例的由频率计算部件计算的出现频率信息的一个实例;
图9和10是图表,说明根据本发明一个实施例的由组合次序相关度计算部件计算的组合度信息的一个实例;
图11是图表,说明根据本发明一个实施例的由组合次序无关度计算部件计算的组合度信息的一个实例;
图12是一个流程图,根据本发明一个实施例说明在计算机中一个CPU执行相关词抽取程序时所需处理操作流程;
图13是一个流程图,根据本发明一个实施例描述在计算机中一个执行并发概率计算功能的CPU执行相关词抽取程序时的处理流程;
图14是一个流程图,根据本发明一个实施例描述在计算机中一个用作前置和后置部件的CPU执行相关词抽取程序时的处理流程;
图15是一个流程图,根据本发明一个实施例描述在计算机中一个用作频率计算部件的CPU执行相关词抽取程序时的处理流程;
图16是一个框图,根据本发明实施例的一个第一修改例说明一个其中装有相关词抽取设备的通用计算机;
图17根据涉及“汽车”一词的本发明实施例的第一修正例,说明一个由词组抽取部件抽取的词的表;
图18根据涉及“车”一词的本发明实施例的第一修改例,说明一个由词组抽取部件抽取的词的表;
图19根据涉及“飞机”一词的本发明实施例的第一修改例,说明一个由词组抽取部件抽取的词的表;
图20根据本发明实施例的第一修改例,说明由相似度计算部件计算的一个在词“汽车”与词“车”之间的相似度,和一个在词“汽车”与词“飞机”之间的相似度;
图21是一个框图,根据本发明实施例的一个第二修正例说明一个其中装有相关词抽取设备的通用计算机;
图22根据涉及“埃及”一词的本发明实施例的第二修正例,说明一个由词组抽取部件抽取的词的表;
图23根据涉及“总统”一词的本发明实施例的第二修正例,说明一个由词组抽取部件抽取的词的表;
图24根据涉及“埃及”和“总统”两词的本发明实施例的第二修正例,说明一个由词组抽取部件抽取的词的表;
图25是一个框图,根据本发明实施例的一个第三修正例,说明一个其中装有相关词抽取设备的通用计算机;
图26根据涉及“北朝鲜”一词的本发明实施例的第三修正例,说明一个由词组抽取部件抽取的词的表;
图27根据涉及“朝鲜民主主义人民共和国”一词的本发明实施例的第三修正例,说明一个由词组抽取部件抽取的词的表;
图28根据涉及“北朝鲜”和“朝鲜民主主义人民共和国”二词的本发明实施例的第三修正例,说明一个由词组抽取部件抽取的词的表;
图29是一个框图,根据本发明的另一个实施例,说明一个其中装有相关词抽取设备的通用计算机;和
图30是一个流程图,根据本发明的又一个实施例,描述在计算机中一个用作频率计算部件的CPU执行相关词抽取程序时的处理流程。
参照这些图,描述本发明的优选实施例。
(1)一个优选实施例的描述
(a)硬件配置的说明
图1描述一个系统配置,用来实现一个根据本发明一个实施例的相关词抽取设备。如图1所示,系统1包括一个装有一个CPU或一些所需存储部件的主要部件1a,一个显示器1b,和一个键盘1c。
主要部件1a从一个其上有所记录相关词抽取程序的媒体1f,例如CD-ROM、光盘(下面简写成“MO”)、软盘(下文简写成“FD”)、或类似媒体,把一个相关词抽取程序装入一个硬盘(未示出)或类似盘。在执行相关词抽取程序时,相关词抽取程序就被扩展到存储器(未示出)中,并且CPU(未示出)根据这个程序去控制那些连接于主要部件1a的电子设备,例如显示器1b和键盘1c。
图2是一个框图,根据本发明说明通用计算机系统的主要元件,用此系统实现相关词抽取设备,并且在此系统中装有相关词抽取程序。这个通用计算机系统(下面可把它简称为“通用计算机”或“计算机”)1包括用作主要部件的一个CPU11,一个存储器12,一个硬盘13,一个输入设备14和一个输出设备15。
硬盘13保持相关词抽取程序,它通过一个CD-ROM驱动器1d或一个FD驱动器1e而记录于记录媒体上。
输入设备14用于把数据或程序之类的信息输入到CPU11中。输入设备14相当于键盘1c,鼠标器(未示出),CD-ROM驱动器1d,或FD驱动器1e。
输出设备15把从CPU11输出的图象显示信息或检索信息输出到计算机的外面。显示器1b相当于输出设备15。
(b)实施例的描述
图3示出根据本发明实施例的相关词抽取设备的框图。如图3所示,相关词抽取设备1包括一个前置和后置词抽取部件(前置和后置词抽取装置)21,一个频率计算部件22,一个并发概率计算部件24,一个出现概率计算部件23,一个词组合次序相关度计算部件25,一个词组合次序无关度计算部件26,一个词组抽取部件27,一个词分隔部件28,和一个存储部件(未示出)。
前置和后置词抽取部件21抽取一个正文数据中出现的在指定词前面或后面的词。指定词是正文数据中一个关键字,根据这个指定词从文件信息中抽取一个相关词。
为了便于说明,令正文数据中出现的词集为W;正文数据中包含的词的总数为N;正文数据中出现的各个词为ωi(ωi∈W,1≤i≤w);和正文数据中出现的词型总数为“w”。
在下文中,有时可把一个出现于关键字前面的词(或者简称为“前置词”)写成ωfi,并且有时可把一个出现于关键字后面的词(或者简称为“后置词”)写成ωbi。
频率计算部件(频率计算装置)22能够计算正文数据中指定词(下文叫作“关键字”)的出现频率,正文数据中前置或后置词的出现频率,和正文数据中由前置和后置词抽取部件21抽取的前置和后置词的出现频率。此中所用词语“频率”是一个用于表示给定数量的正文信息中包含的关键字的数目的示量。例如,如果在一个包含1000个字的英文正文中包含M(M是一个自然数)个英文词X,则数值M是一个表示整个正文中出现的词X的次数的示量。由系统保持者或者根据设计者准备的设计,确定在其内计算词出现频率的范围。
用一个关系式,例如由方程2表示的关系式,表示正文数据中出现的词ωi的频率f(ωi)
根据从频率计算部件22接收的关于指定词出现频率的信息和关于正文数据中前置和后置词出现频率的信息,出现概率计算部件(出现概率计算装置)23能够计算前置和后置词的出现概率以及指定词的出现概率。
用一个关系式,例如方程(3)所表示的关系式,表示正文数据中词ωi的出现概率P(ωi)。
根据从频率计算部件22接收的关于由前置和后置词抽取部件21抽取的前置词的出现频率的信息,和关于由前置和后置词抽取部件21抽取的后置词的出现频率的信息,并发概率计算部件(并发概率计算装置)24计算随指定词一起出现的前置词的概率和随指定词一起出现的后置词的概率(在下文中把这样一种概率简称为“并发概率”)。
用P(ωi,ωj)表示正文数据中按ij排序的词ωi和ωj的出现概率。
为了计算并发概率,可计算由前置和后置词抽取部件21抽取的各个前置词和后置词的出现频率。如果关于所抽取前置词的出现频率的信息是f(ωfi)=f(ωi,ωk)和关于所抽取后置词的出现频率的信息是f(ωbi)=f(ωi,ωk),则前置词的并发概率可被定义为P(ωi,ωk)=f(ωi,ωk)/N,且后置词的并发概率可被定义为P(ωi,ωk)=f(ωi,ωk)/N。
在这个实施例中,作为一个实例,按照词表中包含的前置词抽取的词的出现频率是f(ωfi),换句话说,f(ωi,ωk)表示正文数据中按此次序出现的词ωi,ωk的频率。
根据从出现概率计算部件23接收的关于指定词出现概率的信息、关于前置词的出现概率信息和关于后置词的出现概率信息,以及根据从并发概率计算部件24接收的关于随指定词一起出现的前置词的概率的信息和关于随指定词一起出现的后置词的概率的信息,组合次序相关度计算部件(组合次序相关度装置)25计算一个前置词和指定词组合次序相关度和一个后置词和指定词组合次序相关度。
由下述的方程(4)定义一个词的组合次序相关度,还把词ωi和词ωi的出现比率定义为:
P(ωi,ωj)表示在一个语言资料库(大量数据)中出现的词ωi和词ωj的概率。词ωi和ωj的组合次序相关度,即A(ωi,ωj),常可简写成“Aij”。
根据从组合次序相关度计算部件25接收的关于组合度的信息,组合次序无关度计算部件(组合次序无关度计算装置)26计算一个前置词和指定词组合次序无关度和一个后置词和指定词组合次序无关度。
词ωi和词ωj的组合度,即r(ωi,ωj),由下述方程(5)定义。
根据组合次序无关度计算部件26所计算的组合度信息,词组抽取部件(词组抽取装置)27从正文数据中抽取一组涉及指定词的词。词组抽取部件27在减少高频排序时抽取那些高度有序的相关词。
词分隔部件(词分隔装置)28逐个词或逐个词或逐个词素地分隔正文数据。存储部件(未示出)存储至少一个涉及指定词的计算结果或抽取结果。
存储部件存储由频率计算部件22计算的频率信息,由前置和后置词抽取部件21抽取的相关词信息,由并发概率计算部件24计算的关于并发概率的信息,由出现概率计算部件23计算的出现频率信息,由组合次序无关度计算部件26计算的组合度信息,和由词分隔部件28分隔成词或词素的关于正文数据的信息。
现在把上述部件、CPU11、主存储器12、硬盘13、和其它元件互相结合起来加以说明。
用作词分隔部件28的CPU11逐个词或逐个词素地分隔正文数据中所含资料信息。
虽然在本实施例中,正文数据存储于一个媒体,例如FD、CD-ROM、或硬盘13中,但正文数据也可以从一个扫描仪1g中读出。在此,图1还示出一种情况:借助扫描仪1g从书中抽取的资料作为正文数据而存储于一个FD1h中,并且FD1h用于相关词抽取设备1。虽然下面的描述基于正文数据存储于硬盘13中的假设,但甚至在正文数据存储于一个象FD或CD-ROM之类媒体中的情况下,也一样。
在进行正文数据词法分析时,CPU11使关于正文数据的资料信息脱离档案而进入存储器12中,从而逐个词或逐个词素地分隔资料信息。关于已经通过词法分析而逐个词或逐个词素地分隔的正文数据的资料信息,被存入一个存储部件中,即,硬盘13或存储器12中。
例如,用作词分隔部件28的CPU11分隔具有例如图4所示内容的正文数据,这是按照图5所示逐个词或逐个词素地分隔的。根据具有例如图4所示报纸文章的内容的正文数据,提供说明。在图4和5中,按照罗马字母拼法来拼写日文句子。
在通过用户的键盘1c的操作收到关于一个关键字ωk(下文常把它叫作“ωk”)的信息时,用作前置和后置词抽取部件21的CPU11抽取在关键字ωk前面出现的词ωfi或在关键字ωk后面出现的词ωbi。
在抽取出现于关键字ωk前面的词ωfi和出现于关键字ωk后面的词ωbi时,CPU11使硬盘13中所存储的资料信息(或正文数据)脱离档案而进入存储器12中,从而抽取前置词ωfi和后置词ωbi。把这样抽取的结果存入存储器12或硬盘13中。
图6(a)和6(b)示出关于所抽取词ωfi和ωbi的信息,这些词出现于选自正文数据的关键字ωk“日光”的前面和后面,该正文数据具有逐个词或逐个词素地分隔的资料信息,例如图5所示的信息。图6(a)示出关于出现于关键字ωk“日光”前面的诸词的信息,且图6(b)示出关于出现于关键字ωk“日光”后面的诸词的信息。用日文字符所写的关键字ωk被表达成按罗马字母拼法写出的“NIKKO”。在下文中,在日文字符的后面用括号写出其相应的罗马字母拼写。在图4、5、6(a)、6(b)、7、8、9、10、11、17、18、19、20、22、23、24、26、27、28中,日文词皆按其相应的罗马字母拼法示出。
用作前置和后置词抽取部件21的CPU11把所抽取的词或词素,例如图6(a)和6(b)所示的词或词素,存入一个形成于存储器12中的表中。
用作频率计算部件22的CPU11计算一个出现于正文数据中的关键字的频率f(ωk),一个出现于关于正文数据的资料信息中的前置或后置词的频率f(ωi),一个由前置和后置词抽取部件抽取的前置词的出现频率f(ωfi),和一个由相同部件抽取的后置词的出现频率f(ωbi)。例如,用作频率计算部件22的CPU11根据那些按照前置词抽取的、例如图6(a)所示的、和出现于词表中的词的数目,计算前置词ωfi的出现频率f(ωfi)。
用作频率计算部件22的CPU11通过把例如图6(a)和6(b)中所示的那些数据项编排入存储器12中形成的表中,计算诸词的出现频率。
图7示出一个正文数据中出现的诸词的频率的实例,该数据具有被分隔成词或词素,例如图5所示的词或词素的资料信息。
图8示出正文数据中出现的全部词的频率,该数据具有例如图5所示的被分隔成词或词素的资料信息。根据例如图8所示的频率的值,从和所表达的炊具一词一起出现的诸词的比率来考虑,那些不直接涉及相关词的字,例如后置虚词或标点符号,象“NO”、“HA”或“。(标点符号)”之类,是以高频率出现的。
CPU11这样控制存储器12或硬盘13,以致于可保持计算过的关于频率f(ωk)、f(ωfi)、f(ωbi)和f(ωi)的数据。
根据从频率计算部件22接收的关于指定词的出现频率的信息f(ωk)和关于正文数据中前置和后置词的出现频率的信息f(ωi),用作出现概率计算部件23的CPU11能够计算前置词的出现概率,后置词的出现概率和关键字的出现概率。
在计算词的出现概率时,CPU11利用频率计算部件22计算的数据。更准确地说,CPU11和存储器共同处理相应于该数据的信息。
在存储器12或硬盘13中,CPU11保存这样计算的关于出现概率的信息。
根据从频率计算部件22接收的关于由前置和后置词抽取部件抽取的前置和后置词的出现频率的信息,用作并发概率计算部件24的CPU11计算随关键字ωk一起出现的前置词的概率,即P(ωi,ωk),和随相同关键字一起出现的后置词的概率,即P(ωk,ωi)。
根据从出现概率计算部件23接收的关于指定词出现概率P(ωk)的信息和关于前置和后置词出现概率P(ωi)的信息,和从并发概率计算部件24接收的并发概率P(ωi,ωk)和并发概率P(ωk,ωi),用作组合次序相关度计算部件25的CPU11计算在关键字ωk前面的词的组合次序相关度,即A(ωi,ωk)和在该关键字后面的词的组合次序相关度,即A(ωk,ωi)。
在计算组合次序相关度信息项A(ωi,ωk)和A(ωk,ωi)时,CPU11从硬盘13或存储器12中读出计算要用的信息项P(ωi),P(ωk),P(ωi,ωk)和P(ωk,ωi)。
在硬盘13或存储器12中,CPU11存储这样计算的组合次序相关度信息项A(ωi,ωk)和A(ωk,ωi)。
图9是一个表,说明关键字“日光(NIKKO)”和在该关键字前面出现的诸词ωfi的组合度,即A(ωi,ωk)。图10是一个表,说明关键字“日光(NIKKO)”和在该关键字后面出现的诸词的组合度,即A(ωk,ωi)。如图9和图10所示,例如图9和10所示的关于词和关键字的组合度的信息,是如此存于存储器12的表中的,以致于词与值相关。
根据从组合次序相关度计算部件25接收的组合次序相关度信息项A(ωi,ωk)和A(ωk,ωi),用作组合次序无关度计算部件26的CPU11计算一个前置和后置词与关键字ωk的组合次序无关度,即r(ωi,ωk)。
CPU11通过从存储器12或硬盘13中读出那些要用于计算的信息项A(ωi,ωk)和A(ωk,ωi),计算组合度信息r(ωi,ωk)。
图11示出由CPU11根据图9和10所示数据计算的组合度信息r(ωi,ωk),该CPU11用作组合次序无关度计算部件26。
CPU11把图11所示的组合度信息r(ωi,ωk)如此存入存储器12的表中,以致于词与值相关。
用作词抽取部件27的CPU11,根据由组合次序无关度计算部件26计算的组合度信息r(ωi,ωk),抽取一组涉及关键字ωk的词。
在从正文数据中抽取一组涉及关键字ωk的词时,CPU11利用由组合次序无关度计算部件26计算的结果。
例如,在抽取一组具有高出现度的词时,CPU11参照表示组合度的值,按数值的降序输出诸词;通过使用由组合次序无关度计算部件26计算的组合度信息r(ωi,ωk)来确定诸值。
更准确地说,CPU11输出组合次序无关度信息项中的前5项,例如图11所示的那些项。由CPU11输出的词数目可由设计者或维护者确定。下面的说明基于假设:用作词组抽取部件27的CPU11从组合次序无关度信息项r(ωi,ωk)中,抽取和以降序输出前面10个词或词素。
用作词组抽取部件27的CPU11还能如此控制存储器12或类似媒体,以致于可保持一组所抽取的词。下面的说明还基于假设:在存储器12或类似媒体中保持一个所抽取词表。
在收到一个用于从系统用户中查找一组涉及“日光(NIKKO)”一词的词的信号时,CPU11确定在存储器12表中是否存有关于所抽取词的表。如果上述信息存在,则能通过使用上述信息而输出一个相关词表。
此外,CPU11能够进行控制操作,以便在显示屏上显示一组所抽取词或打印它们。
用作存储部件的存储器12或硬盘13存储各种计算结果,例如P(ωk)、P(ωi,ωk)、和r(ωi,ωk),或抽取结果,例如出现频率信息项f(ωk)和f(ωi)。在某些情况下,一个存储数据的设备,例如存储器12或硬盘13,可以看成是一个“存储设备”。
在上述配置的情况下,根据本发明实施例在其中装有相关词抽取设备的通用计算机1变成工作状态,因为已从一个象CD-ROM之类的计算机可读记录媒体把相关词抽取程序装到计算机的主部件1a中。
相关词抽取程序用于从正文数据中抽取一组涉及关键字ωk的词,并且包括一系列适合计算机1执行下述功能的编号命令:指定一个关键字的功能(可在下文简写成“关键字指定功能”);计算指定词的出现频率和在指定词前面或后面出现的词的频率的功能(可在下文中简写成“频率计算功能”);抽取在指定词前面和后面出现的诸词的功能(可在下文中简写成“前置和后置词抽取功能”);计算随指定词一起出现的前置和后置词的概率的功能(可在下文中简写成“并发概率计算功能”);计算前置和后置词出现概率和指定词出现概率的功能(可在下文中简写成“出现概率计算功能”);计算前置和后置词和指定词组合次序相关度的功能(可在下文中简写成“词组合次序相关度计算功能”);计算前置和后置词和指定词的组合次序无关度的功能(可在下文中简写成“组合次序无关度计算功能”);抽取一组相关词的功能(可在下文中简写成“词组抽取功能”);和分隔词的功能(可在下文中简写成“词分隔功能”)。
关键字指定功能使计算机1指定一个关键字,用于从正文数据中抽取相关词。词分隔功能使计算机1逐个词或逐个词素地分隔正文数据中所含的资料信息。前置和后置词抽取功能使计算机1抽取正文数据中出现于关键字ωk前面的词ωfi和出现于关键字ωk后面的词ωbi。频率计算功能使计算机1计算出现频率f(ωi)和f(ωk)。
出现概率计算功能使计算机1计算关键字ωk的出现概率,即P(ωk),和借助前置和后置词抽取功能抽取的前置词ωfi和后置词ωbi的出现概率,即P(ωfi)和P(ωbi)。并发概率计算功能使计算机1计算随指定词一起出现的借助前置和后置词抽取功能抽取的前置词ωfi的概率,即P(ωfi,ωk);和随指定词一起出现的借助前置和后置词抽取功能抽取的后置词ωbi的概率,即P(ωk,ωbi)。词组合次序相关度计算功能使计算机1根据借助并发概率计算功能计算的并发概率P(ωi,ωk)和并发概率P(ωk,ωi),和根据借助出现概率计算功能计算的出现概率信息项P(ωk),P(ωfi)和P(ωbi),计算前置词ωfi和指定字ωk的组合次序相关度,即A(ωfi,ωk);和后置词ωbi和关键字ωk的组合次序相关度,即A(ωk,ωbi)。
组合次序无关度计算功能使计算机1根据借助组合次序相关度计算功能计算的组合度信息项A(ωfi,ωk)和A(ωk,ωbi),计算前置词ωfi和后置词ωbi与关键字的出现次序无关度,即r(ωi,ωk)。
词组抽取功能使计算机1根据借助组合次序相关度计算功能计算的组合度信息r(ωi,ωk),从正文数据中抽取和输出一组涉及关键字ωk的词。
下面根据图12至15提供的流程图,结合CPU11的操作和上述的功能,描述特定操作过程。
图12是一个流程图,说明根据本实施例在通用计算机1中由CPU11执行相关词抽取程序时所需的处理操作流程。如图12所示,进行关键字指定功能的CPU11执行一个脱离档案而进入存储器12中的相关词抽取程序,从而指定一个用于查找相关词的词(即关键字ωk)(步骤S1)。
由于计算机1的用户在指定关键字时操作键盘1c,故CPU11接收一个涉及关键字ωk的信息信号,从而确定关键字ωk。例如,在从图5所示数据之类的具有分隔成词或词素内容的正文数据中,由用户抽取与“日光(NIKKO)”一词相关的诸词的情况下,当系统的用户通过操作键盘1c把关于“日光(NIKKO)”一词的信息发送到CPU11时,CPU11就把关键字指定为“日光(NIKKO)”一词。简单地说,作为一个关键字指定步骤,CPU11指定一个用于抽取相关词的关键字。
在CPU11已经事先抽取与词“日光(NIKKO)”相关的诸词的情况下,因为关于相关词的数据业已存入存储设备中,故CPU11确定关于与词“日光(NIKKO)”相关的诸词的数据是否存储在存储设备中(步骤S2)。
更准确地说,为了对关于涉及词“日光(NIKKO)”的词的数据是否是在存储器12或硬盘13中作出判定,即查找该词的相关词,CPU11通过使存储器12的表中所存储数据脱离档案,进行数据处理,借此对是否存在相应的数据作出判定。
在关于与词“日光(NIKKO)”相关的词的数据存储在存储设备中的情况下,CPU11就输出这些相关词(步骤S9)。
CPU11按降序组合度r(ωi,ωk)输出诸词。例如,CPU11能够向显示器1b发送一个图象显示信号,以便在显示器1b上显示一个相关词表或者控制一个打印机去打印一个相关词表(步骤S9)。
CPU11输出那些与组合次序无关度相关的词,例如图11所示的情况,这是前面描述过的。
相反,如果在存储设备中没有存储关于与关键字ωk相关的词的数据,则CPU11确定在存储设备中是否存储随词“日光(NIKKO)”一起出现的词的出现率(即,组合度信息A(ωi,ωk))(步骤S3)。
如果随词“日光(NIKKO)”一起出现的词的出现率没有存储在存储设备中,则CPU11从那个用作并发概率计算部件24的CPU11中,接收一个随关键字一起出现的诸词的表,以及随关键字一起出现的各个词的概率,即P(ωfi,ωk)和P(ωk,ωbi)(步骤S4)。根据随关键字一起出现的诸词的表,CPU11从出现概率计算部件23中接收各个词的出现概率,即P(ωfi)和P(ωbi)(步骤S5)。
根据随指定词一起出现的诸词的表,执行词组合次序相关度计算功能的CPU11计算伴随指定词的各词的出现率(即,组合度信息项A(ωi,ωk)和A(ωk,ωi)(步骤S6)。
因此,CPU11计算组合度信息项A(ωi,ωk)和A(ωk,ωi),例如图9和10所示的信息项;并且控制存储器12,以便通过下述方式在其表中保存计算结果:组合度与一个词或词素相关。
换句话说,CPU11在一个词组合次序相关度计算步骤中,根据并发概率信息和出现概率信息,计算前置词和指定词的组合次序相关度以及后置词和指定词的组合次序相关度。
执行词组合次序无关度计算功能的CPU11,根据随关键字一起出现的诸词的表和根据关于各个信息项的组合度信息项A(ωi,ωk),和A(ωk,ωi),计算组合度,即r(ωi,ωk)(步骤S7)。
甚至在存储设备中没有存储关于与词“日光(NIKKO)”相关的诸词的数据的情况下,执行词组合次序相关度计算功能的CPU11,也根据组合度信息项A(ωi,ωk)和A(ωk,ωi),例如图10和11所示的信息项,计算组合度r(ωi,ωk),例如图11所示的情况。
换句话说,在词组合次序相关度计算步骤中,CPU11根据在组合次序相关度计算步骤中计算的组合度信息项A(ωi,ωk)和A(ωk,ωi),计算随关键字出现的前置和后置词的次序无关度。
执行词组抽取功能的CPU11,根据组合度r(ωi,ωk),选择和输出相关词(步骤S8)。在此,CPU11输出组合次序无关度r(ωi,ωk)中的前面10个词或词素,例如图11所示的情况。
换句话说,在词组抽取步骤中,CPU11根据在词组合次序无关度计算步骤中计算的组合度,从正文数据中抽取一个与关键字相关的词组,并且输出这样抽取的词。
图13示出一个流程图,描述在执行并发概率计算功能的CPU11执行一个程序时的处理流程。如图13所示,在计算词“日光(NIKKO)”的并发概率P(ωi,ωk)和P(ωk,ωi)时,执行并发概率计算功能的CPU11初始地确定,要查找的并发概率P(ωi,ωk)和P(ωk,ωi)是否存储在存储设备中(步骤S10)。
在存储设备中存有并发概率P(ωi,ωk)和P(ωk,ωi)的情况下,执行并发概率计算功能的CPU11以下述方式输出并发概率P(ωi,ωk)和P(ωk,ωi)以及涉及这些概率的词的表:执行词组合次序相关度计算功能的CPU11能够计算这些概率(步骤S11)。
执行并发概率计算功能的CPU11,使用在计算组合度信息项A(ωi,ωk)和A(ωk,ωi)时(步骤S6),从执行并发概率计算功能(步骤S11)的CPU11输出的并发概率P(ωi,ωk)和P(ωk,ωi)。
与此对比,在存储设备中没有存储(或不存在)并发概率P(ωi,ωk)和P(ωk,ωi)的情况下,执行并发概率计算功能的CPU11从前置和后置词抽取部件21中,接收关于随词“日光(NIKKO)”一起出现的前置和后置词ωfi和ωbi的表的数据,例如图6所示的数据,和接收关于关键字和前置与后置词出现频率f(ωk)、f(ωfi)和f(ωbi)的数据(步骤S12)。
根据关于由前置和后置词抽取部件21作为相关词抽取的前置和后置词ωfi和ωbi的出现频率信息项f(ωfi)和f(ωbi),CPU11计算和输出并发概率P(ωi,ωk)和P(ωk,ωi)(步骤S13和S4)。
换句话说,在一个并发概率计算功能步骤,CPU11计算伴随关键字指定步骤中所指定关键字一起出现的前置和后置词的概率。
执行词组合次序相关度计算功能的CPU11,使用在计算组合次序相关度信息项A(ωi,ωk)和A(ωk,ωi)(步骤S6)时,从执行并发概率计算功能(步骤S13)的CPU11输出的并发概率P(ωi,ωk)和P(ωk,ωi)。
图14是一个流程图,说明当用作前置和后置词抽取部件21的CPU11执行相关词抽取程序时的处理流程。如图14所示,用作前置和后置词抽取部件21的CPU11从正文数据中抽取在词“日光(NIKKO)”的前面和后面出现的词ωfi和ωbi,例如图6(a)和6(b)所示的词(步骤S20)。
换句话说,在前置和后置词抽取步骤中,CPU11抽取一个在正文数据中关键字前面出现的词和一个在相同正文数据中关键字后面出现的词。
CPU11从频率计算部件22中,接收关于从正文数据中作为相关词而抽取的前置和后置词ωfi和ωbi的出现频率信息项f(ωfi)和f(ωbi)(步骤S21)。然后CPU11输出在关键字ωk前面和后面出现的词的表,例如图6(a)和6(b)所示的情况,和输出从频率计算部件22接收的出现频率信息项f(ωfi)和f(ωbi)(步骤S22)。
执行并发概率计算功能的CPU11,根据从频率计算部件22输出(在步骤S22中)的词ωfi和ωbi的表和出现频率信息项f(ωfi)和f(ωbi),计算并发概率P(ωi,ωk)和P(ωk,ωi)(步骤S13)。
图15是一个流程图,说明当用作频率计算部件22的CPU11执行相关词抽取程序时的处理流程。如图15所示,执行频率计算功能的CPU11确定,是否从出现概率计算部件23输出所接收的指令(步骤S30)。如果从出现概率计算部件23接收指令,则CPU11确定在存储设备中是否存储关于关键字ωk的出现频率信息项f(ωk)(步骤S31)。
如果关键字ωk没有存储到存储设备中,则执行频率计算功能的CPU11接收被逐个词或逐个词素地分隔的信息(步骤S32),并且计算正文数据中出现的关键字ωk的频率(或者正文数据中出现关键字的次数)(步骤S33),然后输出计算的结果(步骤S34)。
执行词分隔功能的CPU11按照图5所示的方式逐个词或逐个词素地分隔那种例如图4所示的其内容未分隔成词或词素的正文数据。换句话说,在词分隔步骤中,CPU11先逐个词或逐个词素地分隔正文数据,然后在前置和后置词抽取步骤中抽取前置和后置词。
虽然未在图15中示出,但执行词分隔功能的CPU11还计算那些在正文数据中出现前置和后置词ωfi和ωbi的次数,由执行前置和后置词抽取功能的CPU11抽取这些词。
换句话说,在出现概率计算步骤中,CPU11计算在关键字指定步骤中指定的关键字的出现概率,以及在前置和后置词抽取步骤中抽取的前置词的出现概率和在同一步骤中抽取的后置词的出现概率。
在出现概率的计算中,CPU11根据出现频率信息项f(ωk)和f(ωi),计算出现概率P(ωk)和P(ωi)。
如果没有从出现概率计算部件23接收指令,则用作频率计算部件22的CPU11确定,是否从前置和后置词抽取部件21接收指令(步骤S35)。
如果从前置和后置词抽取部件21收到指令,则用作频率计算部件22的CPU11接收数据-这些数据由执行词分隔功能的CPU11分隔成词,借此分隔那些从前置和后置词抽取部件21接收的正文数据-和计数在正文数据中包含的词的频率(步骤S36)。把已经被分隔的词的频率输出到出现概率计算部件23(步骤S37)。
如果用作频率计算部件22的CPU11确定,还没有从前置和后置词抽取部件21收到指令,则指令信号按错误处理。
用作出现概率计算部件23的CPU11的处理流程(未示出)描述如下。更准确地说,由于执行相关词抽取程序的结果,CPU11确定,关于要查找的出现概率P(ωi)的信息是否存储在存储设备中。如果该信息没有存储在存储设备中,则CPU从频率计算部件22中,接收关于词出现频率的信息项f(ωfi)和f(ωbi),并且计算出现概率P(ωk)和P(ωbi)。输出计算结果P(ωbi)和P(ωk)。
相反,如果在存储设备中存有要查找的出现概率P(ωi),例如P(ωbi)和P(ωk),则用作出现概率计算部件23的CPU11把该出现概率输出到并发概率计算部件24中。
换句话说,通过执行关键字指定步骤、前置和后置词抽取步骤、并发概率计算步骤、出现概率计算步骤、组合次序相关度计算步骤、组合次序无关度计算步骤、词组抽取步骤和词分隔步骤,通用计算机1从正文数据中抽取相关词。
如上所述,在根据本发明实施例的用作相关词抽取设备的通用计算机1中,CPU11计算出前置词和关键字的组合次序相关度A(ωi,ωk)的平方和后置词和关键字的组合次序相关度A(ωk,ωi)的平方之和,并且算出和值的平方根。通过这样得出的平方根值,计算机能够以很准确的方式抽取那些用户容易理解的相关词。
此外,在根据本发明实施例的用作相关词抽取设备的通用计算机1中,因为通用计算机包括词分隔部件28,故该计算机能够对一个虽然在词组抽取步骤中已分隔成词或词素但尚未逐个词分隔的正文(例如用日文或中文写成的资料)进行处理。因此,即使正文未事先提供关于词类的信息,也能容易地从日文或类似文写成的资料中抽取相关词。
此外,在根据本发明实施例的用作相关词抽取设备的通用计算机1中,因为通用计算机1装备有硬盘13之类的存储设备,故在存储设备中存有通过频率计算部件22、组合次序相关度计算部件25或类似部件执行的处理而计算的信息。因此,能提高涉及相关词抽取的处理速度,并且能够制备一个相关词表,而不依赖于词出现的顺序。
另外,在根据本发明实施例的用作相关词抽取设备的通用计算机1中,甚至在计算机1执行关键字指定功能、前置和后置词抽取功能、并发概率计算功能、出现概率计算功能、组合次序相关度计算功能、组合次序无关度计算功能、词组抽取功能、和词分隔功能的情况下,CPU11计算前置词和关键字组合次序相关度A(ωi,ωk)的平方与后置词和关键字组合次序相关度A(ωk,ωi)的平方之和,并且计算该和值的平方根。通过使用这样得到的平方根,该计算机能够以很准确的方式抽取那些用户容易理解的相关词。
另外,在根据本发明实施例的用作相关词抽取设备的通用计算机1中,甚至当计算机1按照相关词抽取程序执行词分隔功能时,该计算机也能够对一个虽然已被分隔成词或词素但尚未逐个词地分隔的正文(例如用日文或中文写成的资料)进行处理。因此,即使未事先提供关于词类的信息,也能够容易地从甚至一个用日文或类似文写成的资料中抽取相关词。
(b1)实施例的第一修正例的描述
图16是一个框图,根据本发明实施例的第一修正例说明一个其中装有一个相关词抽取设备的通用计算机1。如图16所示,计算机1x包括一个频率计算部件22,一个前置和后置词抽取部件21,一个并发概率计算部件24,一个出现概率计算部件23,一个组合次序相关度计算部件25,一个组合次序无关度计算部件27,一个词分隔部件(未示出),一个存储部件(未示出),和一个相似度计算部件29。
计算机1x具有与上述的图1和2所示计算机1相同的硬件结构。
因为诸元件都被赋予和实施例说明部件(b)的元件相同的标号,且以相同的方式操作,故在此省略其说明。
相似度计算部件(相似度计算装置)29,通过利用与各个词相关的由词组抽取部件27抽取的诸组词,计算在至少两个词或关键字之间的相似度。
下面的说明基于假设:计算两个词之间的相似度。然而,相同的假设也适用于计算在三个词以上的诸词之间的相似度。
前置和后置词抽取部件21抽取一个在正文数据中出现于指定词前面的前置词或一个在正文数据出现于指定词后面的后置词。根据从频率计算部件22中接收的关于在正文数据中指定词出现频率的信息和关于在正文数据中前置和后置词出现频率的信息,出现概率计算部件23能够计算前置词的出现概率和后置词的出现概率以及指定词的出现概率。
根据从频率计算部件22接收的关于由前置和后置词抽取部件21抽取的前置词的出现频率的信息,和关于由前置和后置词抽取部件21抽取的后置词的出现频率的信息,并发概率计算部件24计算随指定词出现的前置和后置词的概率。根据从出现概率计算部件23接收的关于指定词的出现概率的信息、关于前置词出现概率信息和关于后置词出现概率信息,以及根据从并发概率计算部件24接收的关于随指定词一起出现的前置词的概率的信息和关于随指定词一起出现的后置词的概率的信息,组合次序相关度部件25计算前置和后置词和指定词的出现次序相关度。
根据从组合次序相关度计算部件25接收的关于组合度的信息,组合次序无关度计算部件26计算随指定词出现的前置和后置词的次序无关度。
根据由组合次序无关度计算部件26计算的组合度信息,词组抽取部件27从正文数据中抽取一组与指定词相关的词。存储部件(未示出)存储涉及指定词的至少一个计算结果或抽取结果。词分隔部件(未示出)逐个词或逐个词组地分隔正文数据。
现在互相结合地说明上述部件,CPU11,主存储器12,硬盘13和其它元件。
用作相似度计算部件29的CPU11,通过利用由词组抽取部件27抽取的涉及各个关键字的诸组词,计算两个关键字之间的相似度。
在此,下面的说明基于假设:用作相似度计算部件29的CPU11能够在三个词“汽车(JIDOSHA)”、“车(KURUMA)”和“飞机(KOKUKI)”之间,计算和确定其相似度。
如对部件(b)所述,使CPU11作成得可用作频率计算部件22,前置和后置词抽取部件21,并发概率计算部件24,出现概率计算部件23,组合次序相关度计算部件25,组合次序无关度计算部件26,词组抽取部件27,和词分隔部件。存储器12和硬盘13被形成得可用作存储部件。
图17至19示出一些相关词表,这些词是根据组合次序无关度r(ωi,ωk)由词组抽取部件27从正文数据中抽取的。图17示出涉及词“汽车(JIDOSHA)”的词的表,图18示出涉及词“车(KURUMA)”的词的表,和图19示出涉及词“飞机(KOKUKI)”的词的表。
用作相似度计算部件29的CPU11,通过使用例如图17至19所示的相关词表,计算在词“汽车(JIDOSHA)”、“车(KURUMA)”与“飞机(KOKUKI)”之间的相似度。
更准确地说,用作相似度计算部件29的CPU11以图17至19所示的那种方式计算诸相关词的标量积之和。
例如,在计算词“汽车(JIDOSHA)”与“车(KURUMA)”之间相似度时,用作相似度计算部件29的CPU11,在一个图17所示的涉及词“汽车(JIDOSHA)”的词表中的词“MOSS(MOSU)”与一个图18所示的涉及词“车(KURUMA)”的词表中的词“框架(HASHIGO)”之间,计算其标量积。
具体地说,用作相似度计算部件29的CPU11把每个相关词定义为一个具有组合度信息项r(ωi,ωk)量值的向量,并且计算诸相关词的标量积之和。一个表示标量积之和的数值标志一个诸词之间的相似度。
在计算相关词的标量积时,CPU11把诸向量定义为指向相同的方向(θ=0°)。相反,在计算不同相关词的标量积时,CPU11把诸向量定义为以直角(θ=90°)取向。因为在涉及词“汽车(JIDOSHA)”的词表中的词“MOSS(MOSU)”和在涉及词“车(KURUMA)”的词表中的词“框架(HASHIGO)”是彼此不同的,故CPU11把这些词的标量积算作零。
因此,用作相似度计算部件29的CPU11,通过使用一个在图17所示的涉及词“汽车(JIDOSHA)”的词表与图18所示的涉及词“车(KURUMA)”的词表之间共用的词的组合度,计算在词“汽车(JIDOSHA)”与词“车(KURUMA)”之间的相似度。例如,CPU11使用一个在这两个表之间共用的相关词“BMW(BIEMUDABRYU)”的出现度,即“12.4”的组合度和“12.0”的组合度,计算这两个出现度之积,即“148.8”的标量积。根据148.8的标量积和另一个在两个词之间共用的相关词的出现度的标量积之和,计算上述两个词之间的相似度。
图20示出在词“汽车(JIDOSHA)”与词“车(KURUMA)”之间的相似度,和在词“汽车(JIDOSHA)”与词“飞机(KOKUKI)”之间的相似度。如图20所示,在词“汽车(JIDOSHA)”与词“车(KURUMA)”之间的相似度是2839.4,在词“汽车(JIDOSHA)”与词“飞机(KOKUKI)”之间的相似度814.4。从这些值可知,词“汽车(JIDOSHA)”不是与词“飞机(KOKUK8I)”相似,而是与词“车(KURUMA)”相似。
在上述的结构情况下,由于把相关词抽取程序从计算机可读记录媒体,例如一个CD-ROM,装入计算机的主部件1a中,故根据本发明实施例第一修正例的通用计算机1x变成可操作的。
相关词抽取程序用于使通用计算机1x从正文数据中抽取一组与关键字相关的词,并且包括一个适合于计算机1x执行下列功能的编号命令序列:关键字指定功能,频率计算功能,前置和后置词抽取功能,并发概率计算功能,出现概率计算功能,词组合次序相关度计算功能,组合次序无关度计算功能,词组抽取功能,词分隔功能,和计算相似度的功能(可在下文中简写成“相似度计算功能”)。
相似度计算功能,通过利用借助词组抽取功能抽取的涉及两个词的诸组词,计算在这两个词或关键字之间的相似度。
关键字指定功能使计算机1x指定一个用于从正文数据中抽取相关词的关键字。词分隔功能使计算机1x逐个词或逐个词素地分隔正文数据中包含的资料信息。前置和后置词抽取功能使计算机1x抽取在正文数据中关键字ωk前面出现的词ωfi或在正文数据中关键字ωk后而出现的词ωbi。频率计算功能使计算机1x计算出现频率f(ωi)和f(ωk)。
出现概率计算功能使计算机1x计算关键字ωk的出现概率,即P(ωk);和借助前置和后置词抽取功能抽取的前置词ωfi和后置词ωbi的出现概率,即P(ωfi)和P(ωbi)。并发概率计算功能使计算机1x计算借助前置和后置词抽取功能抽取的随指定词一起出现的前置词ωfi的出现概率,即P(ωfi,ωk);和借助前置和后置词抽取功能抽取的随指定词一起出现的后置词ωbi的出现概率,即P(ωk,ωbi)。词组合次序相关度计算功能使计算机1x,根据并发概率P(ωi,ωk),和根据借助出现概率计算功能计算的并发概率P(ωk,ωi)和借助出现概率计算功能计算的出现概率信息项P(ωk)、P(ωfi)和P(ωbi),计算前置词ωfi和关键字ωk的组合次序相关度,即A(ωfi,ωk),和后置词ωbi和关键字ωk的组合次序相关度,即A(ωk,ωbi)。
组合次序无关度计算功能使计算机1x,根据借助组合次序相关度计算功能计算的组合度信息项A(ωfi,ωk)和A(ωk,ωbi),计算随关键字出现的前置和后置词的次序无关度,即r(ωi,ωk)。
词组抽取功能使计算机1x,根据借助组合次序相关度计算功能计算的组合度信息r(ωi,ωk),从正文数据中抽取和输出一组与关键字ωk相关的词。
下面结合CPU11的操作和上述的功能,描述特定操作过程。执行相似度计算功能的CPU11,根据关于借助组合次序无关度计算功能计算的词“汽车(JIDOSHA)”、“车(KURUMA)”和“飞机(KOKUKI)”的组合度r(ωi,ωk),计算相似度,例如图17至19所示的情况。
更准确地说,执行相似度计算功能的CPU11,以图17至19所示的这种方式,计算诸相关词的标量积之和。
具体地说,用作相似度计算部件29的CPU11把每个相关词定义为一个具有组合度信息项r(ωi,ωk)量值的向量,并且计算诸相关词的标量积之和。一个表示标量积之和的数值标志一个在诸词之间的相似度。
在计算相关词的标量积时,CPU11把诸向量定义为在相同的方向取向(θ=0°)。与此对照,在计算诸不同相关词的标量积时,CPU11把诸向量定义为以直角取向(θ=90°)。例如,在涉及词“汽车(JIDOSHA)”的词表中的词“MOSS(MOSU)”和在涉及“车(KURUMA)”的词表中的词“框架(ladder)”是彼此不同的,故CPU11把这些词的标量积计算成零。
因此,执行相似度计算功能的CPU11,通过使用一个在图17中所示的涉及词“汽车(JIDOSHA)”的词表与图18中所示的涉及词“车(KURUMA)”的词表之间共用的词的组合度,计算在词“汽车(JIDOSHA)”与词“车(KURUMA)”之间的相似度。例如,CPU使用一个在这些表之间共用的相关词“BMW(BIEMUDABRYU)”的出现度:即“12.4”的组合度和“12.0”的组合度;并且计算这样两个出现度的积:即“148.8”的标量积。根据一个148.8的标量积与另一个在这两个词之间共用的相关词的出现度的标量积之和,计算上述两个词之间的相似度。如图20所示,在“汽车(JIDOSHA)”与“车(KORUMA)”之间的相似度是2839.4,且在“汽车(JIDOSHA)”与“飞机(KOKUKI)”之间的相似度是814.4。
换句话说,在用于计算诸词之间相似度的步骤(可在下文中简写成“相似度计算步骤”)中,在已对在词组抽取步骤中指定为相应三个词“汽车(JIDOSHA)”、“车(KURUMA)”和“飞机(KOKUKI)”的相关词组进行抽取以后,CPU11计算在两个词“汽车(JIDOSHA)”和“车(KURUMA)”之间的相似度,以及在涉及词“汽车(JIDOSHA)”和词“飞机(KOKUKI)”的诸词组之中的“汽车(JIDOSHA)”与“飞机(KOKUKI)”之间的相似度。
CPU11按照下述功能执行象图12至15所示的那些操作:关键字指定功能,频率计算功能,前置和后置词抽取功能,并发概率计算功能,出现概率计算功能,组合次序相关度计算功能,组合次序无关度计算功能,词组抽取功能,和词分隔功能。
换句话说,通用计算机1x通过执行下述步骤从正文数据中抽取相关词:关键字指定步骤,前置和后置词抽取步骤,并发概率计算步骤,出现概率计算步骤,组合次序相关度计算步骤,组合次无关度计算步骤,词组抽取步骤,词分隔步骤,和相似度计算步骤。
如上所述,在其中装有根据本发明实施例第一修改例的相关词抽取设备的通用计算机1x中,CPU11除了抽取用于部件(b)的上述相关词之外,还能够根据前置词和关键字组合次序相关度A(ωi,ωk)的平方和后置词和关键字组合次序相关度A(ωk,ωi)的平方之和的平方根,在不利用主题词表或其它知识基础的情况下,确定词“汽车(JIDOSHA)”是类似于词“车(KURUMA)”,而不是类似于词“飞机(KOKUKI)”。此外,CPU还能够计算一个在新用的诸词之间的相似度(相似度计算步骤)。
(b2)实施例的第二修正例的描述
图21是一个框图,说明一个其中装有根据本发明实施例第二修正例的相关词抽取设备的通用计算机1y。如图21所示,计算机1y包括:频率计算部件22,前置和后置词抽取部件21,并发概率计算部件24,出现概率计算部件23,组合次序相关度计算部件25,组合次序无关度计算部件26,词组抽取部件27,词分隔部件(未示出),存储部件(未示出),和相关词组抽取部件30。
计算机1y具有同前面所述图1和2所示计算机1相同的硬件结构。
因为诸元件被赋予同实施例说明部件(b)中所用元件相同的标号,并且以相同的方式操作,故在此省略其说明。
相关词组抽取部件(相关词组抽取装置)30,通过使用一些由词组抽取部件27抽取的涉及至少两个相应词的词组,抽取一组涉及全部至少两个词的词。
下面的说明基于假设:相关词组抽取部件30抽取一组涉及两个词的词。然而,相同的假设也适用于抽取涉及三个词或三个以上词的一组词。
前置和后置词抽取部件21抽取正文数据中一个在指定词前面出现的前置词,或一个在指定词后面出现的后置词。根据从频率计算部件22接收的关于指定词出现频率的信息,和关于正文数据中前置和后置词出现频率的信息,出现概率计算部件23能够计算前置词的出现概率、后置词的出现概率以及指定词的出现概率。
根据从频率计算部件22接收的关于由前置和后置词抽取部件21抽取的前置词的出现频率的信息,和关于由前置和后置词抽取部件21抽取的后置词的出现频率的信息,并发概率计算部件24计算一些随指定词一起出现的前置和后置词的概率。根据从出现概率计算部件23接收的关于指定词出现概率的信息、关于前置词出现概率的信息和关于后置词出现概率的信息,以及根据从并发概率计算部件24接收的关于随指定词一起出现的前置词的概率的信息和关于随指定词一起出现的后置词的概率的信息,组合次序相关度部件25计算随指定词出现的前置和后置词的次序相关度。
根据从组合次序相关度计算部件25接收的关于组合度的信息,组合次序无关度计算部件26计算随指定词出现的前置和后置词次序无关度。
根据由组合次序无关度计算部件26计算的组合度信息,词组抽取部件27从正文数据中抽取一组与指定词相关的词。存储部件(未示出)存储至少一个与指定词相关的计算结果或抽取结果。词分隔部件(未示出)逐个词或逐个词素地分隔正文数据。
现在互相结合地说明上述部件,CPU11,主存储器12,硬盘13,和其它元件。
用作相关词组抽取部件30的CPU11,通过使用一些由词组抽取部件27抽取的涉及至少两个相应词的诸组词,抽取一个涉及全部至少两个词的诸组词。
在此,下面的说明基于假设:用作相关词组抽取部件30的CPU11抽取一组涉及词“埃及(EJIPUTO)”和词“总统(DAITORYO)”的词。
如对部件(b)所述,如此形成CPU11,以致于可用作频率计算部件22,前置和后置词抽取部件21,并发概率计算部件24,出现概率计算部件23,组合次序相关度计算部件25,组合次序无关度计算部件26,词组抽取部件27,和词分隔部件。如此形成存储器12和硬盘13,以致于可用作一个存储部件。
图22和23示出相关词表,它们是由词组抽取部件27根据组合次序无关度r(ωi,ωk)从正文数据中抽取的。图22示出一个与词“埃及(EJIPUTO)”相关的词的表,且图23示出一个与词“总统(DAITORYO)”相关的词的表。
用作相关词组抽取部件30的CPU11,通过使用例如图22和23所示的涉及相应词“埃及(EJIPUTO)”和“总统(DAITORYO)”的词表,抽取一个涉及两个词“埃及(EJIPUTO)”和“总统(DAITORYO)”的词的组。
更准确地说,用作相关词组抽取部件30的CPU11,通过从例如图22和23所示的涉及相应词“埃及(EJIPUTO)”和“总统(DAITORYO)”的词表中抽取一个共用词或词素,抽取一组涉及两个词“埃及(DJIPUTO)”和“总统(DAITORYO)”的词。
图24示出一个涉及两个词“埃及(EJIPUTO)”和“总统(DAITORYO)”的词表。在涉及图22所示的词“埃及(EJIPUTO)”的词表与涉及图23所示的词“总统(DAITORYO)”的词表之间共用的一个词,例如一个相关词“孟巴拉克(MUBARAKU)”,被抽取;并且一个涉及如此抽取的词的词表被制备。
在上述结构的情况下,由于把相关词抽取程序从CD-ROM之类的计算机可读记录媒体中装到计算机1y的主部件1a中,故根据本发明实施例的通用计算机1y变成可操作的。
相关词抽取程序用于使通用计算机1y从正文数据中抽取一组涉及关键字的词,并且包括一个适合于计算机1y执行下述功能的编号命令序列:关键字指定功能,频率计算功能,前置和后置词抽取功能,并发概率计算功能,出现概率计算功能,词组合次序相关度计算功能,组合次序无关度计算功能,词组抽取功能,词分隔功能,和相关词组抽取功能。
相关词组抽取功能使计算机1y,通过使用一些由词组抽取部件27抽取的涉及两个相应词“埃及(EJIPUTO)”和“总统(DAITORYO)”的诸组词,抽取一组涉及两个词“埃及(EJIPUTO)”和“总统(DAITORYO)”的词。
关键字指定功能使计算机1y指定一个用于从正文数据中抽取相关词的关键字。词分隔功能使计算机1y逐个词或逐个词素地分隔正文数据中包含的资料信息。前置和后置词抽取功能使计算机1y抽取在正文数据中关键字ωk前面出现的词ωfi,或者在正文数据中关键字ωk后面出现的词ωbi。频率计算功能使计算机1y计算出现频率f(ωi)和f(ωk)。
出现概率计算功能使计算机1y计算关键字ωk的出现概率,即P(ωk),和借助前置和后置词抽取功能抽取的前置词ωfi和后置词ωbi的出现概率,即P(ωfi)和P(ωbi)。并发概率计算功能使计算机1y计算,借助前置和后置词抽取功能抽取的随指定词一起出现的前置词ωfi的出现概率,即P(ωfi,ωk),和借助前置和后置词抽取功能抽取的随指定词一起出现的后置词ωbi的出现概率,即P(ωk,ωbi)。词组合次序相关度计算功能使计算机1y,根据借助出现概率计算功能计算的并发概率P(ωi,ωk)和并发概率P(ωk,ωi)和根据借助出现概率计算功能计算的出现概率信息项P(ωk)、P(ωfi)和P(ωbi),计算前置词ωfi和关键字ωk组合次序相关度,即A(ωfi,ωk),和后置词ωbi和关键字ωk组合次序相关度,即A(ωk,ωbi)。
组合次序无关度计算功能使计算机1y,根据借助组合次序相关度计算功能计算的组合度信息项A(ωfi,ωk)和A(ωk,ωbi),计算随一个关键字出现的前置和后置词的次序无关度,即r(ωi,ωk)。
词组抽取功能使计算机1y,根据借助组合次序无关度计算功能计算的组合度信息r(ωi,ωk),从正文数据中抽取和输出一组与关键字ωk相关的词。
下面结合CPU11的操作和上述的功能,描述特定操作过程。执行相关词组抽取功能的CPU11,通过使用涉及两个词“埃及(EJIPUTO)”和“总统(DAITORYO)”的例如图22和23所示的词表,抽取一组涉及这两个相应词“埃及(EJIPUTO)”和“总统(DAITORYO)”的词。
更准确地说,用作相关词组抽取部件30的CPU11,通过从例如图22和23所示的涉及两个词“埃及(EJIPUTO)”和“总统(DAITORYO)”的词表中抽取一个公用词或词表,抽取一组涉及这两个相应词“埃及(EJIPUTO)”和“总统(DAITORYO)”的词,例如其中有一组相关词“孟巴拉克(MUBARAKU)”的词,从而制备一个例如图24所示的涉及两个词“埃及(EJIPUTO)”和“总统(DAITORYO)”的词组表。
在一个相关词组抽取步骤中,CPU11从一些已在词组抽取步骤中抽取的涉及两个词“埃及(EJIPUTO)”和“总统(DAITORYO)”的词组中,抽取一个涉及这两个相应词“埃及(EJIPUTO)”和“总统(DAITORYO)”的词组。
CPU11按照下述的功能进行例如图12至15所示的操作:关键字指定功能,频率计算功能,前置和后置词抽取功能,并发概率计算功能,出现概率计算功能,组合次序相关度计算功能,组合次序无关度计算功能,词组抽取功能,和词分隔功能。
换句话说,通用计算机1y通过执行下述步骤从正文数据中抽取诸相关词:关键字指定步骤,前置和后置词抽取步骤,并发概率计算步骤,出现概率计算步骤,组合次序相关度计算步骤,组合次序无关度计算步骤,词组抽取步骤,词分隔步骤,和相关词组抽取步骤。
如上所述,在其中装有根据本发明实施例第二修正例的相关词抽取设备的通用计算机1y中,CPU11除了抽取上面对部件(b)所叙述的相关词以外,还能够根据前置词和关键字组合次序相关度A(ωi,ωk)的平方和后置词和关键字组合次序相关度A(ωk,ωi)的平方之和的平方根,制备一些涉及两个相应词“埃及(EJIPUTO)”和“总统(DAITORYO)”的词组表。此外,有可能在不看资料的具体内容的情况下,得到关于埃及总统的信息,以及寻找一些同时涉及两个词“埃及(EJIPUTO)”和“总统(DAITORYO)”的词。此外,它变成更容易获得一种在两个词“埃及(EJIPUTO)”与“总统(DAITORYO)”之间的关系,以及它们的附带信息。
(b3)实施例的第三修正例的描述
图25是一个框图,说明一个其中装有根据本发明实施例第三修正例的相关词抽取设备的通用计算机1z。如图25所示,根据本发明实施例第三修正例的计算机1z包括:频率计算部件22,前置和后置词抽取部件21,并发概率计算部件24,出现概率计算部件23,组合次序相关度计算部件25,组合次序无关度计算部件26,词组抽取部件27,词分隔部件(未示出),存储部件(未示出),和同义词字典部件31。
计算机1z具有同上述图1和2所示计算机1相同的硬件结构。
因为诸元件被赋予同实施例说明部件(b)所用相同的标号,和以相同的方式操作,故在此省略其说明。
同义词字典部件(同义词字典装置)31确定一个用关键字ωk同义地确定的词ωks(可在下文中用符号ωks指定一个同义词)。
虽然下面针对用关键字同义地确定一个其它词的情况进行说明,但该说明也同样适用于用关键字同义地确定两个或多个词的情况。下面还对下述情况进行说明:通过用组合次序相关度计算部件25计算随关键字ωk出现的词的组合度,即A(ωi,ωk)和A(ωk,ωi),和随关键字ωk出现的同义词的组合度,即A(ωks,ωi)和A(ωi,ωks),词组抽取部件27制备一个涉及关键字ωk的词的表和一个涉及与关键字ωk同义的词ωks的词的表。
前置和后置词抽取部件21抽取一个在正文数据中指定词前面出现的前置词和一个在正文数据中同一指定词后面出现的后置词。根据从频率计算部件22接收的关于正文数据中指定词出现频率的信息和关于正文数据中前置和后置词出现频率的信息,出现概率计算部件23能够计算前置词出现概率、后置词出现概率和指定词出现概率。
根据从频率计算部件22接收的关于由前置和后置词抽取部件21抽取的前置词的出现频率的信息,和关于由前置和后置词抽取部件21抽取的后置词的出现频率的信息,并发概率计算部件24计算随指定词一起出现的前置和后置词的概率。根据从出现概率计算部件23接收的关于指定词的出现概率、前置词的出现概率和后置词的出现概率的信息,和从并发概率计算部件24接收的关于随指定词一起出现的前置词的概率和随指定词一起出现的后置词的概率的信息,组合次序相关度部件25计算一些随指定词出现的前置和后置词的次序相关度。
根据从组合次序相关度计算部件25接收的关于组合度的信息,组合次序无关度计算部件26计算随指定词出现的前置和后置词的次序无关度。
根据由组合次序无关度计算部件26计算的组合度信息,词组抽取部件(未示出)从正文数据中抽取一组与指定词相关的词。存储部件(未示出)存储至少一个涉及指定词的计算结果或抽取结果。词分隔部件(未示出)逐个词或逐个词素地分隔正文数据。
上述的各个部件能够按照和它们处理指定词(或关键字)相同的方式,处理和指定词(或关键字ωk)同义的词。例如,组合次序相关度计算部件25计算随关键字ωk出现的同义词的组合度,即A(ωks,ωi)和A(ωi,ωks)。频率计算部件22计算同义词ωks的出现频率,即f(ωks)。前置和后置词抽取部件21从正文数据中,抽取一个在同义词ωks前面出现的词和一个在同一同义词后面出现的词。词组抽取部件27根据由组合次序无关度计算部件26计算的组合度信息r(ωi,ωks),从正文数据中抽取一些与同义词ωks相关的词。
现在互相结合地说明上述诸部件,CPU11,主存储器12,硬盘13,和其它元件。
用作同义词字典部件31的CPU11确定一个与关键字ωk同义的词ωks。在确定一个与关键字ωk同义的词ωks时,CPU11参照在一个存储设备,例如硬盘13中,或一个记录媒体,例如FD中存储的同义词字典数据,检测一个词。
在此,下面的说明基于假设:用作同义词字典部件31的CPU11确定一个与关键字“北朝鲜(KITACHOSEN)”同义的词“朝鲜民主主义人民共和国(CHOSEN-MINSYUSHUGI-JINMIN-KYOWA-KOKU)”。
如对部件(b)所述,如此形成CPU11,以致它可用作频率计算部件22,前置和后置词抽取部件21,并发概率计算部件24,出现概率计算部件23,组合次序相关度计算部件25,组合次序无关度计算部件26,词组抽取部件27,和词分隔部件。如此形成存储器12和硬盘13,以致可用作存储部件。
图26和27示出一些相关词表,它们是词组抽取部件27根据组合次序无关度r(ωi,ωk)从正文数据中抽取的。图26示出一个与词“北朝鲜(KITACHOSEN)”相关的词表,和图27示出一个与词“朝鲜民主主义人民共和国(CHOSEN-MINSYUSHUGI-JINMIN-KYOWA-KOKU)”相关的词表。
根据图26所示的与词“北朝鲜(KITACHOSEN)”相关的词表和图27所示的与词“朝鲜民主主义人民共和国(CHOSEN-MINSYUSHUGI-JINMIN-KYOWA-KOKU)”相关的词表,用作词组抽取部件27的CPU11按照组合次序无关度计算部件26的计算,抽取一些具有高相关度的词,借此输出一个例如图28所示的与关键字“北朝鲜(KITACHOSEN)”相关的词表。
更准确地说,如果一个词不在与关键字“北朝鲜(KITACHOSEN)”相关的词表中,而含在与同义词“朝鲜民主主义人民共和国(CHOSEN-MINSYUSHOGI-JINMIN-KYOWA-KOKU)”相关的词表中,则用作词组抽取部件27的CPU11通过使用图26和27所示的相关词表信息项,输出一些在同义词的相关词表中包含的相关词,用作与关键字“北朝鲜(KITACHOSEN)”相关的词。例如,因为词“国旗(KOKKI)”在图26所示相关词表中没有高的排序,而在图27所示相关词表中有高的排序,所以用作词组抽取部件27的CPU11就输出词“国旗(KOKKI)”,用作与关键字“北朝鲜(KITACHOSEN)”相关的词。
在上述结构的情况下,其中装有根据本发明实施例第三修正例的相关词抽取设备的通用计算机1z变成可操作的,因为已从一个CD-ROM之类的计算机可读记录媒体中把相关词抽取程序装入到计算机1z的主部件1a中。
相关词抽取程序用于使通用计算机1z从正文数据中抽取一个与关键字相关的词组,并且包括一个适合于计算机1z执行下列功能的编号命令序列:关键字指定功能,频率计算功能,前置和后置词抽取功能,并发概率计算功能,出现概率计算功能,词组合次序相关度计算功能,组合次序无关度计算功能,词组抽取功能,词分隔功能,相关词组抽取功能,和同义词字典功能。
同义词字典功能使计算机1z确定一个与关键字“北朝鲜(KITACHOSEN)”同义的词。
关键字指定功能使计算机1z指定一个用来从正文数据中抽取相关词的关键字。词分隔功能使计算机1z逐个词或逐个词素地分隔正文数据中所含的资料信息。前置和后置词抽取功能使计算机1z抽取在正文数据中关键字ωk前面出现的词ωfi,和在正文数据中关键字后面出现的词ωbi。频率计算功能使计算机1z计算出现频率f(ωi)和f(ωk)。
出现概率计算功能使计算机1z计算关键字ωk的出现概率,即P(ωk),和借助前置和后置词抽取功能抽取的前置词ωfi和后置词ωbi的出现概率,即P(ωfi)和P(ωbi)。并发概率计算功能使计算机1z计算借助前置和后置调整抽取功能抽取的随指定词一起出现的前置词ωfi的出现概率,即P(ωfi,ωk),和借助前置和后置词抽取功能抽取的随指定词一起出现的后置词ωbi的出现概率,即P(ωk,ωbi)。词组合次序相关度计算功能使计算机1z,根据借助出现概率计算功能计算的并发概率P(ωi,ωk)和并发概率P(ωk,ωi),和根据借助出现概率计算功能计算的出现概率信息项P(ωk)、P(ωfi)和P(ωbi),计算前置词ωfi和关键字ωk的组合次序相关度,即A(ωfi,ωk),和后置词ωbi和关键字ωk的组合次序相关度,即A(ωk,ωbi)。
组合次序无关度计算功能使计算机1z,根据借助组合次序相关度计算功能计算的组合度信息项A(ωfi,ωk)和A(ωk,ωbi),计算随关键字出现的前置和后置词的次序无关度,即r(ωi,ωk)。
词组抽取功能使计算机1z,根据借助组合次序无关度计算功能计算的组合度信息r(ωi,ωk),从正文数据中抽取和输出一组与关键字ωk相关的词。
下面结合CPU11的操作和上述的功能,描述特定的操作过程。执行同义词字典功能的CPU11,从图26和27所示的涉及关键字“北朝鲜(KITACHOSEN)”的词表中,和从涉及同义词“朝鲜民主主义人民共和国(CHOSEN-MINSYUSHUGI-JINMIN-KYOWA-KOKU)”的词表中,按照组合次序无关度计算部件26的计算,抽取一些具有高的相关度的词,借此输出一个例如图28所示的涉及关键字“北朝鲜(KITACHOSEN)”的词表。
更准确地说,如果一个词不在涉及关键字“北朝鲜(KITACHOSEN)”的词表中,而在涉及同义词“朝鲜民主主义人民共和国(CHOSEN-MINSYUSHUGI-JINMIN-KYOWA-KOKU)”的词表中,则执行词组抽取功能的CPU11通过使用图26和27所示的相关词表信息项,输出一些在同义词的相关词表中包含的相关词,用作与关键字“北朝鲜(KITACHOSEN)”相关的词。
例如,因为词“国旗(KOKKI)”在图26所示的相关词表中不呈现高的排序,而在图27所示的相关词表中呈现高的排序,所以执行词组抽取功能的CPU11就输出词“国旗(KOKKI)”,用作与关键字“北朝鲜(KITACHOSEN)”相关的一个词,如图28所示。
换句话说,在关键字指定步骤中,CPU11判定词“朝鲜民主主义人民共和国(CHOSEN-MINSYUSHUGI-JINMIN-KYOWA-KOKU)”是与关键字“北朝鲜(KITACHOSEN)”同义的。在词组抽取步骤中,CPU用一组词的形式输出涉及同义词“朝鲜民主主义人民共和国(CHOSEN-MINSYUSHUGI-JINMIN-KYOWA-KOKU)”的词,和涉及关键字“北朝鲜(KITACHOSEN)”的词。
对于涉及关键字“北朝鲜(KITACHOSEN)”的诸词和涉及同义词“朝鲜民主主义人民共和国(CHOSEN-MINSYUSHUGI-JINMIN-KYOWA-KOKU)”的诸词,CPU11按照下述功能而执行例如图12至15所示的操作:关键字指定功能,频率计算功能,前置和后置词抽取功能,并发概率计算功能,出现概率计算功能,组合次序相关度计算功能,组合次序无关度计算功能,词组抽取功能,和词分隔功能。
换句话说,通用计算机1z通过执行下述步骤而从正文数据中抽取相关词:关键字指定步骤,前置和后置词抽取步骤,并发概率计算步骤,出现概率计算步骤,组合次序相关度计算步骤,组合次序无关度计算步骤和词组抽取步骤,词分隔步骤,并且输出一组涉及同义词的词,和一组涉及一组词中关键字的词。
如上所述,在其中装有根据本发明实施例第三修正例的相关词抽取设备的通用计算机1z中,CPU11除了抽取在上文针对部件(b)叙述的相关词之外,还能够根据前置词和关键字组合次序相关度A(ωi,ωk)的平方与后置词和关键字组合次序相关度A(ωk,ωi)的平方之和的平方根,制备一个涉及词“北朝鲜(KITACHOSEN)”的词表和一个涉及词“朝鲜民主主义人民共和国(CHOSEN-MINSYUSHUGI-JINMIN-KYOWA-KOKU)”的词表,并且制备一个把涉及关键字“北朝鲜(KITACHOSEN)”的诸词分组的词表。对一些在表示上能够书写和在自动抽取相关词上发生问题的同义词,也能够进行处理。
(c)其它
(c1)另一个实施例的描述
图29是一个框图,说明一个其中装有一个根据本发明另一个实施例的相关词抽取设备的通用计算机1-1。如图29所示,计算机1-1包括前置和后置词抽取部件21,频率计算部件22,并发概率计算部件24,出现概率计算部件23,组合次序相关度计算部件25,组合次序无关度计算部件26,词抽取部件27,和存储部件(未示出)。
计算机1-1具有和上述的图1和2所示计算机1相同的硬件结构。
在此,其中装有一个根据本发明另一个实施例的相关词抽取设备的计算机1-1,同根据对部件(b)所叙述实施例的通用计算机1之区别在于,计算机1-1没有安装一个词分隔部件。
前置和后置词抽取部件21抽取一个在正文数据中指定词前面出现的前置词,和一个在正文数据中指定词后面出现的后置词。根据从频率计算部件22接收的关于正文数据中指定词出现频率的信息,和关于正文数据中前置和后置词出现频率的信息,出现概率计算部件23能够计算前置词出现概率、后置词出现概率和指定词出现概率。
根据从频率计算部件22接收的关于由前置和后置词抽取部件21抽取的前置词的出现频率的信息,和关于由前置和后置词抽取部件21抽取的后置词的出现频率的信息,并发概率计算部件24计算同指定词在一起出现的前置和后置词的概率。根据从出现概率计算部件23接收的关于指定词出现概率的信息,关于前置词出现概率的信息和关于后置词出现概率的信息,和根据从并发概率计算部件24接收的关于随指定词一起出现的前置词概率的信息,和关于随指定词一起出现的后置词概率的信息,组合次序相关度计算部件25计算随指定词出现的前置和后置词的次序相关度。
根据从组合次序相关度计算部件25接收的关于组合度的信息,组合次序无关度计算部件26计算随指定词出现的前置和后置词的次序无关度。
根据由组合次序无关度计算部件26计算的组合度信息,词组抽取部件27从正文数据中抽取一组同指定词相关的词。存储部件(未示出)存储同一个指定词相关的至少一个计算结果或抽取结果。
现在互相结合地说明上述各部件,CPU11,主存储器12,硬盘13和其它元件。CPU11包括频率计算部件22,前置和后置词抽取部件21,并发概率计算部件24,出现概率计算部件23,组合次序相关度计算部件25,组合次序无关度计算部件26,和词组抽取部件27。存储器12和硬盘13被组成得用作存储部件。
在上述结构的情况下,其中装有根据本发明另一实施例的相关词抽取设备的通用计算机1-1变成可操作的,因为已把相关词抽取程序从一个象CD-ROM之类的计算机可读记录媒体装到计算机主部件1a中。
相关词抽取程序用于使通用计算机1-1从正文数据中抽取一组同关键字相关的词,并且包括一个适合于计算机1-1执行下述功能的编号命令序列:关键字指定功能,频率计算功能,前置和后置词抽取功能,并发概率计算功能,出现概率计算功能,词组合次序相关度计算功能,组合次序无关度计算功能,词组抽取功能,和相似度计算功能。
关键字指定功能使计算机1-1指定一个用于从正文数据中抽取相关词的关键字。前置和后置词抽取功能使计算机1-1抽取一个在正文数据中关键字ωk前面出现的前置词ωfi,和一个在正文数据中关键字ωk后面出现的后置词ωbi。频率计算功能使计算机1-1计算出现频率f(ωi)和f(ωk)。
出现概率计算功能使计算机1-1计算关键字ωk的出现概率,即P(ωk),和借助前置和后置词抽取功能抽取的前置词ωfi和后置词ωbi的出现概率P(ωfi)和P(ωbi)。并发概率计算功能使计算机1-1计算一种借助前置和后置词抽取功能抽取的随指定词一起出现的前置词ωfi的出现概率,即P(ωfi,ωk);和一种借助前置和后置词抽取功能抽取的随指定词一起出现的后置词ωbi的出现概率,即P(ωk,ωbi)。词组合次序相关度计算功能使计算机1-1,根据借助出现概率计算功能计算的并发概率P(ωi,ωk)和并发概率P(ωk,ωi),和根据借助出现概率计算功能计算的出现概率信息项P(ωk)、P(ωfi)和P(ωbi),计算一个前置词ωfi和关键字ωk组合次序相关度,即A(ωfi,ωk),和一个后置词ωbi和关键字ωk组合次序相关度,即A(ωk,ωbi)。
组合次序无关度计算功能使计算机1-1,根据借助组合次序相关度计算功能计算的组合度信息项A(ωfi,ωk)和A(ωk,ωbi),计算随关键字出现的前置和后置词的次序无关度。
词组抽取功能使计算机1-1,根据借助组合次序无关度计算功能计算的组合度信息r(ωi,ωk),从正文数据中抽取一组同关键字ωk相关的词,并输出它。
CPU11按照下述的功能进行例如在图12至14和图30中所示的操作:关键字指定功能,频率计算功能,前置和后置词抽取功能,并发概率计算功能,出现概率计算功能,组合次序相关度计算功能,组合次序无关度计算功能,和词组抽取功能。
图30是一个流程图,说明在用作频率计算部件22的CPU11执行相关词抽取程序时所需的处理操作流程。如图30所示,执行频率计算功能的CPU11确定,是否一个所接收的信号是一个来自出现概率计算部件23的指令(步骤S40)。如果该信号是一个来自出现概率计算部件23的指令,则CPU对存储设备中是否存有关于关键字ωk的出现频率f(ωk),作出判定(步骤S41)。
如果在存储设备中没有存储出现频率信息f(ωk),则执行频率计算功能的CPU11计算正文数据中关键字ωk的出现频率(或次数)(步骤S42),并且输出这样的计算结果(步骤S43)。
虽然在图30中未示出,但执行频率计算功能的CPU11还对由执行前置和后置词抽取功能的CPU11抽取的前置和后置词ωfi和ωbi的出现频率(或次数),进行计算。
在此,执行频率计算功能的CPU11,根据出现频率信息项f(ωk)和f(ωi),计算出现概率信息项P(ωk)和P(ωi)。
可是,如果所接收的信号不是一个来自出现概率计算部件23的指令,则用作频率计算部件22的CPU11确定,是否该信号是一个来自前置和后置词抽取部件21的指令(步骤S44)。
如果该信号是一个来自前置和后置词抽取部件21的指令,用作频率计算部件22的CPU11,对从前置和后置词抽取部件21接收的在正文数据中包含的词的出现频率,进行计数(步骤S45)。把词的全部出现频率都输出到出现概率计算部件23中(步骤S46)。
如果用作频率计算部件22的CPU11确定,所接收的不是一个来自前置和后置词抽取部件21的指令,则该信号按差错处理。
用作出现概率计算部件23的CPU11的处理流程(未示出)如下。更准确地说,由于执行相关词抽取程序的结果,CPU确定在存储设备中是否存储关于要查找的出现概率P(ωi)的信息。如果该信息没有存储在存储设备中,则CPU从频率计算部件22中接收关于词出现频率的信息项f(ωfi)、f(ωbi)和f(ωk),并且计算出现概率P(ωbi)和P(ωk)。输出其计算结果P(ωbi)和P(ωk)。相反,如果在存储设备中存有要查找的出现概率P(ωi),例如P(ωbi)和P(ωk),则用作出现概率计算部件23的CPU11把出现概率输出到并发概率计算部件24。
换句话说,通用计算机1通过执行下述的步骤而从正文数据中抽取相关词:关键字指定步骤,前置和后置词抽取步骤,并发概率计算步骤,出现概率计算步骤,组合次序相关度计算步骤,组合次序无关度计算步骤,和词组抽取步骤。
如上所述,在用作根据本发明另一个实施例的相关词抽取设备的通用计算机1-1中,CPU11计算前置词和关键字组合次序相关度A(ωi,ωk)的平方和后置词和关键字组合次序相关度A(ωk,ωi)的平方之和,并且计算该和值的平方根。通过使用如此得到的平方根,该计算机能够对用英文、德文、法文等写出的和被分隔成词类的资料信息,以很准确的方式抽取那些用户容易理解的词。
此外,在用作根据本发明另一个实施例的相关词抽取设备的通用计算机1-1中,因为通用计算机1-1装有例如硬盘13之类的存储设备,故在存储设备中存有通过处理而计算的信息项;由频率计算部件22、组合次序相关度计算部件25或类似部件执行这种处理。因此,能够提高涉及相关词抽取的处理速度,还能够在不依靠词出现序列的情况下制备一个相关词表。
此外,在用作根据本发明另一个实施例的相关词抽取设备的通用计算机1-1中,即使计算机1在执行关键字指定功能、前置和后置词抽取功能、并发概率计算功能、出现概率计算功能、组合次序相关度计算功能、组合次序无关度计算功能、词组抽取功能、和词分隔功能,CPU11也能够计算前置词和关键字组合次序相关度A(ωi,ωk)的平方和后置词和关键字组合次序相关度A(ωk,ωi)的平方之和,并且计算该和值之平方根。通过使用如此得到的平方根,该计算机能够对用英文、德文、法文等写出的分隔词形式的资料信息,以很准确的方式抽取那些用户容易了解的相关词。
(c2)另一种硬件结构的描述
虽然在(b)到(c1)中给出的上述说明基于假设:以通用计算机1、1x、1y、1z和1-1之类的单独部件的形式构成相关词抽取设备,但也能够通过两个或多个系统从大量的资料数据中抽取相关词。
例如,一个关键字可从一个由用户通信终端提供的通用或非通用计算机中,通过通信网络(例如互连网络、个人计算机通信网络、或类似网络),传送到一个大型主计算机中。主计算机从数据库之类的海量存储资料数据中抽取相关词,并且把这样抽取的相关词发送到那种已经通过通信网络发送关键字的通用或非通用计算机中,结果是在操作和效果上都相同于部件(b)至(c1)。
虽然对部件(b3)所作的说明已经描述情况:组合次序相关度计算部件25利用同义词字典部件31,但是甚至在频率计算部件22或前置和后置词抽取部件21查阅同义词字典部件31时,也能够用和部件(b3)情况相同的方式按一个组的形式输出诸相关词。换句话说,除了同义词字典部件31之外,通过使用一个主题词表或一个并行翻译字典,也能够实现类似的操作或效果。
虽然相似度计算部件29、相关词组抽取部件30或类似部件,根据由词组抽取部件27抽取的相关词的一个表,计算涉及两个以上词的词相似度或词表;但是相似度计算部件29、相关词组抽取部件30或类似部件,也可根据由组合次序无关度计算部件26计算的组合度信息r(ωi,ωk),计算涉及两个以上词的词相似度或词表。甚至在上述情况下,也能够用类似于上述方式的方式确定诸新词之间的相似度。此外,参考涉及两个词的诸词,更容易获取两个词之间的关系及其伴随信息。
除了上述的实施例和修正例以外,还能够在其中根据方程(5)计算组合次序无关度r(ωi,ωk)而抽取相关词的本发明的范围内,实施各种其它的修正例。
(d)相关词组合次序相关度计算部件
对照部件(b)至(c2),如果词组抽取部件27根据由组合次序相关度计算部件25计算的组合度信息A(ωi,ωk)或A(ωk,ωi),从正文数据中抽取相关词,则相关词抽取设备能够制备一个涉及一个关键字的词的表,而这个关键字取决于其中呈现相关词的序列。
甚至在上述情况下,相关词抽取设备的各个部件也可用相同于部件(b)至(c2)中所述的方式进行操作。
Claims (11)
1.一种相关词抽取设备,包括:
前置和后置词抽取装置(21),用于抽取一个在正文数据中指定词前面出现的前置词,和一个在正文数据中指定词后面出现的后置词;
频率计算装置(22),用于计算在正文数据中的指定词的出现频率,在正文数据中的前置词或后置词的出现频率,和在正文数据中由前置和后置词抽取装置(21)抽取的前置词和后置词的出现频率;
出现概率计算装置(23),用于根据从频率计算装置(22)接收的关于正文数据中指定词出现频率的信息,和关于正文数据中前置和后置词出现频率的信息,计算前置和后置词出现概率以及指定词出现概率;
并发概率计算装置(24),用于根据从频率计算装置(22)接收的关于由前置和后置词抽取装置(21)抽取的前置词的出现频率的信息,和关于由前置和后置词抽取装置抽取的后置词的出现频率的信息,计算随指定词一起出现的前置词的概率和随指定词一起出现的后置词的概率;
组合次序相关度计算装置(25),用于根据从出现概率计算装置(23)接收的关于指定词出现概率、前置词出现概率和后置词出现概率的信息,和根据从并发概率计算装置(24)接收的关于随指定词一起出现的前置词的概率和随指定词一起出现的后置词的概率的信息,计算前置词和指定词组合次序相关度与后置词和指定词组合次序相关度;
组合次序无关度计算装置(26),用于根据从组合次序相关度计算装置(25)接收的关于组合度的信息,计算前置词和指定词组合次序无关度与后置词和指定词组合次序无关度;和
词组抽取装置(27),用于根据由组合次序无关度计算装置(26)计算的组合度信息,从正文数据中抽取一组和指定词相关的词。
2.根据权利要求1所述的相关词抽取设备,还包括存储装置,用于存储至少一个涉及指定词的计算结果或抽取结果。
3.根据权利要求1所述的相关词抽取设备,还包括词分隔装置(28),用于逐个词或逐个词素地分隔正文数据,其中,前置和后置词抽取装置(21)和出现概率计算装置(22)通过使用由词分隔装置(28)分隔的正文数据而进行操作。
4.根据权利要求1所述的相关词抽取设备,还包括相似度计算装置(29),用于通过使用一些由词组抽取装置(27)抽取的涉及至少两个相应指定词的诸组词,计算这至少两个指定词之间的相似度。
5.根据权利要求1所述的相关词抽取设备,还包括相关词组抽取装置(30),用于通过使用一些由词组抽取装置(27)抽取的涉及至少两个相应词的诸组词,抽取一组涉及全部至少两个词的词。
6.根据权利要求1所述的相关词抽取设备,还包括同义词字典装置(31),其中,一个根据从同义词字典装置(31)接收的信息而和指定词同义地确定的词,是和指定词一起分组到同一个组中的。
7.一种从正文数据中抽取一组涉及某一词的词的方法,包括:
关键字指定步骤,用于指定一个用来从正文数据中抽取相关词的关键字;
前置和后置词抽取步骤,用于抽取一个在正文数据中指定词前面出现的前置词,和一个在正文数据中指定词后面出现的后置词;
并发概率计算步骤,用于计算前置和后置词的概率,这些词是在前置和后置词抽取步骤抽取的,随着在关键字指定步骤中指定的词一起出现;
出现概率计算步骤,用于计算一个在关键字指定步骤指定的词的出现概率,和一些在前置和后置词抽取步骤抽取的前置和后置词的出现概率;
组合次序相关度计算步骤,用于根据在出现概率计算步骤计算的关于指定词出现概率、前置词出现概率和后置词出现概率的信息,和根据在并发概率计算步骤计算的关于随指定词一起出现的前置词的概率和关于随指定词一起出现的后置词的概率的信息,计算前置词和指定词组合次序相关度与后置词和指定词组合次序相关度;
组合次序无关度计算步骤,用于根据在组合次序相关度计算步骤计算的关于组合度的信息,计算前置词和指定词组合次序无关度与后置词和指定词组合次序无关度;和
词组抽取步骤,用于根据在组合次序无关度计算步骤计算的组合度信息,从正文数据中抽取一组与指定词相关的词。
8.根据权利要求7所述的相关词抽取方法,还包括一个词分隔步骤,用于在用来抽取前置和后置词的前置和后置词抽取步骤之前或之后,逐个词或逐个词素地分隔正文数据。
9.根据权利要求7所述的相关词抽取方法,还包括一个相似度计算步骤,用于在来自各组词的至少两个指定词之间计算其相似度,所述诸组词是已经在词组抽取步骤中由于涉及这两个相应词而抽取的。
10.根据权利要求7所述的相关词抽取方法,还包括一个相关词组抽取步骤,用于从各组已经在词组抽取步骤由于涉及至少两个相应词而抽取的词中,抽取一组涉及全部至少两个词的词。
11.根据权利要求7所述的相关词抽取方法,其中,如果存在一个被定义为与一个在关键字指定步骤中指定的词同义的词,则在词组抽取步骤中以成组的形式输出一组涉及一个被定义为同义的词的词,和一组涉及一个指定词的词。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP005200/1998 | 1998-01-13 | ||
JP005200/98 | 1998-01-13 | ||
JP520098A JP3598211B2 (ja) | 1998-01-13 | 1998-01-13 | 関連語抽出装置および関連語抽出方法および関連語抽出プログラムが記録されたコンピュータ読取可能な記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1223410A CN1223410A (zh) | 1999-07-21 |
CN1101032C true CN1101032C (zh) | 2003-02-05 |
Family
ID=11604567
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN98120857A Expired - Fee Related CN1101032C (zh) | 1998-01-13 | 1998-09-30 | 相关词抽取设备和方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US6178420B1 (zh) |
JP (1) | JP3598211B2 (zh) |
CN (1) | CN1101032C (zh) |
Families Citing this family (94)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6594634B1 (en) * | 1998-09-14 | 2003-07-15 | Medtronic Physio-Control Corp. | Method and apparatus for reporting emergency incidents |
US7966234B1 (en) | 1999-05-17 | 2011-06-21 | Jpmorgan Chase Bank. N.A. | Structured finance performance analytics system |
US7392210B1 (en) | 2000-04-07 | 2008-06-24 | Jpmorgan Chase Bank, N.A. | Workflow management system and method |
US7249095B2 (en) | 2000-06-07 | 2007-07-24 | The Chase Manhattan Bank, N.A. | System and method for executing deposit transactions over the internet |
US7392212B2 (en) * | 2000-09-28 | 2008-06-24 | Jpmorgan Chase Bank, N.A. | User-interactive financial vehicle performance prediction, trading and training system and methods |
US7313541B2 (en) | 2000-11-03 | 2007-12-25 | Jpmorgan Chase Bank, N.A. | System and method for estimating conduit liquidity requirements in asset backed commercial paper |
US7596526B2 (en) * | 2001-04-16 | 2009-09-29 | Jpmorgan Chase Bank, N.A. | System and method for managing a series of overnight financing trades |
US7269546B2 (en) * | 2001-05-09 | 2007-09-11 | International Business Machines Corporation | System and method of finding documents related to other documents and of finding related words in response to a query to refine a search |
JP3553543B2 (ja) * | 2001-11-30 | 2004-08-11 | 三菱スペース・ソフトウエア株式会社 | 関連語自動抽出装置、複数重要語抽出プログラムおよび重要語の上下階層関係抽出プログラム |
JP2003208444A (ja) * | 2002-01-15 | 2003-07-25 | Minolta Co Ltd | ファイル検索プログラムおよび該プログラムを記録する記録媒体 |
US7107261B2 (en) * | 2002-05-22 | 2006-09-12 | International Business Machines Corporation | Search engine providing match and alternative answer |
US9710852B1 (en) | 2002-05-30 | 2017-07-18 | Consumerinfo.Com, Inc. | Credit report timeline user interface |
US9400589B1 (en) | 2002-05-30 | 2016-07-26 | Consumerinfo.Com, Inc. | Circular rotational interface for display of consumer credit information |
US8224723B2 (en) | 2002-05-31 | 2012-07-17 | Jpmorgan Chase Bank, N.A. | Account opening system, method and computer program product |
JP4452012B2 (ja) * | 2002-07-04 | 2010-04-21 | ヒューレット・パッカード・カンパニー | 文書の特有性評価方法 |
US20040044961A1 (en) * | 2002-08-28 | 2004-03-04 | Leonid Pesenson | Method and system for transformation of an extensible markup language document |
US20050044033A1 (en) * | 2003-01-10 | 2005-02-24 | Gelson Andrew F. | Like-kind exchange method |
US7634435B2 (en) * | 2003-05-13 | 2009-12-15 | Jp Morgan Chase Bank | Diversified fixed income product and method for creating and marketing same |
JP2004348241A (ja) * | 2003-05-20 | 2004-12-09 | Hitachi Ltd | 情報提供方法、サーバ及びプログラム |
US7770184B2 (en) * | 2003-06-06 | 2010-08-03 | Jp Morgan Chase Bank | Integrated trading platform architecture |
US20050027666A1 (en) * | 2003-07-15 | 2005-02-03 | Vente, Inc | Interactive online research system and method |
US20050015324A1 (en) * | 2003-07-15 | 2005-01-20 | Jacob Mathews | Systems and methods for trading financial instruments across different types of trading platforms |
US7970688B2 (en) * | 2003-07-29 | 2011-06-28 | Jp Morgan Chase Bank | Method for pricing a trade |
US20050060256A1 (en) * | 2003-09-12 | 2005-03-17 | Andrew Peterson | Foreign exchange trading interface |
US7593876B2 (en) * | 2003-10-15 | 2009-09-22 | Jp Morgan Chase Bank | System and method for processing partially unstructured data |
US7725487B2 (en) * | 2003-12-01 | 2010-05-25 | National Institute Of Information And Communications Technology | Content synchronization system and method of similar web pages |
US8423447B2 (en) * | 2004-03-31 | 2013-04-16 | Jp Morgan Chase Bank | System and method for allocating nominal and cash amounts to trades in a netted trade |
US20050222937A1 (en) * | 2004-03-31 | 2005-10-06 | Coad Edward J | Automated customer exchange |
US20050251478A1 (en) * | 2004-05-04 | 2005-11-10 | Aura Yanavi | Investment and method for hedging operational risk associated with business events of another |
WO2006012487A1 (en) * | 2004-07-22 | 2006-02-02 | Genometric Systems Llc | Method and apparatus for informational processing based on creation of term-proximity graphs and their embeddings into informational units |
US7693770B2 (en) * | 2004-08-06 | 2010-04-06 | Jp Morgan Chase & Co. | Method and system for creating and marketing employee stock option mirror image warrants |
US20090132428A1 (en) * | 2004-11-15 | 2009-05-21 | Stephen Jeffrey Wolf | Method for creating and marketing a modifiable debt product |
US20090164384A1 (en) * | 2005-02-09 | 2009-06-25 | Hellen Patrick J | Investment structure and method for reducing risk associated with withdrawals from an investment |
US8688569B1 (en) | 2005-03-23 | 2014-04-01 | Jpmorgan Chase Bank, N.A. | System and method for post closing and custody services |
JP4524640B2 (ja) * | 2005-03-31 | 2010-08-18 | ソニー株式会社 | 情報処理装置および方法、並びにプログラム |
US20090187512A1 (en) * | 2005-05-31 | 2009-07-23 | Jp Morgan Chase Bank | Asset-backed investment instrument and related methods |
US7822682B2 (en) * | 2005-06-08 | 2010-10-26 | Jpmorgan Chase Bank, N.A. | System and method for enhancing supply chain transactions |
US20110035306A1 (en) * | 2005-06-20 | 2011-02-10 | Jpmorgan Chase Bank, N.A. | System and method for buying and selling securities |
JP2007072646A (ja) * | 2005-09-06 | 2007-03-22 | Internatl Business Mach Corp <Ibm> | 検索装置、検索方法およびプログラム |
US7567928B1 (en) | 2005-09-12 | 2009-07-28 | Jpmorgan Chase Bank, N.A. | Total fair value swap |
US7818238B1 (en) | 2005-10-11 | 2010-10-19 | Jpmorgan Chase Bank, N.A. | Upside forward with early funding provision |
US8280794B1 (en) | 2006-02-03 | 2012-10-02 | Jpmorgan Chase Bank, National Association | Price earnings derivative financial product |
US7620578B1 (en) | 2006-05-01 | 2009-11-17 | Jpmorgan Chase Bank, N.A. | Volatility derivative financial product |
US7647268B1 (en) | 2006-05-04 | 2010-01-12 | Jpmorgan Chase Bank, N.A. | System and method for implementing a recurrent bidding process |
US9811868B1 (en) | 2006-08-29 | 2017-11-07 | Jpmorgan Chase Bank, N.A. | Systems and methods for integrating a deal process |
US7827096B1 (en) | 2006-11-03 | 2010-11-02 | Jp Morgan Chase Bank, N.A. | Special maturity ASR recalculated timing |
JP4367495B2 (ja) * | 2007-02-15 | 2009-11-18 | ブラザー工業株式会社 | 画像形成装置 |
JP5057516B2 (ja) * | 2007-11-14 | 2012-10-24 | 日本電信電話株式会社 | 文書間距離計算装置およびプログラム |
US8127986B1 (en) | 2007-12-14 | 2012-03-06 | Consumerinfo.Com, Inc. | Card registry systems and methods |
US9990674B1 (en) | 2007-12-14 | 2018-06-05 | Consumerinfo.Com, Inc. | Card registry systems and methods |
JP5103603B2 (ja) * | 2008-02-06 | 2012-12-19 | 国立大学法人群馬大学 | 情報検索システム及び情報検索装置 |
US8280886B2 (en) * | 2008-02-13 | 2012-10-02 | Fujitsu Limited | Determining candidate terms related to terms of a query |
US20090241165A1 (en) * | 2008-03-19 | 2009-09-24 | Verizon Business Network Service, Inc. | Compliance policy management systems and methods |
JP2009265736A (ja) * | 2008-04-22 | 2009-11-12 | Sharp Corp | 電子機器、その制御方法およびコンピュータプログラム |
US8312033B1 (en) | 2008-06-26 | 2012-11-13 | Experian Marketing Solutions, Inc. | Systems and methods for providing an integrated identifier |
JP5009874B2 (ja) * | 2008-07-31 | 2012-08-22 | 日本電信電話株式会社 | 重要度取得装置および方法、ならびに、枠情報作成装置および方法 |
US9256904B1 (en) | 2008-08-14 | 2016-02-09 | Experian Information Solutions, Inc. | Multi-bureau credit file freeze and unfreeze |
US8060424B2 (en) | 2008-11-05 | 2011-11-15 | Consumerinfo.Com, Inc. | On-line method and system for monitoring and reporting unused available credit |
US20110055113A1 (en) * | 2009-08-28 | 2011-03-03 | Conor Cunningham | Method and system for managing spread orders |
US8738514B2 (en) * | 2010-02-18 | 2014-05-27 | Jpmorgan Chase Bank, N.A. | System and method for providing borrow coverage services to short sell securities |
US20110208670A1 (en) * | 2010-02-19 | 2011-08-25 | Jpmorgan Chase Bank, N.A. | Execution Optimizer |
US8352354B2 (en) * | 2010-02-23 | 2013-01-08 | Jpmorgan Chase Bank, N.A. | System and method for optimizing order execution |
US8161073B2 (en) | 2010-05-05 | 2012-04-17 | Holovisions, LLC | Context-driven search |
US9665854B1 (en) | 2011-06-16 | 2017-05-30 | Consumerinfo.Com, Inc. | Authentication alerts |
US9483606B1 (en) | 2011-07-08 | 2016-11-01 | Consumerinfo.Com, Inc. | Lifescore |
US9106691B1 (en) | 2011-09-16 | 2015-08-11 | Consumerinfo.Com, Inc. | Systems and methods of identity protection and management |
US8738516B1 (en) | 2011-10-13 | 2014-05-27 | Consumerinfo.Com, Inc. | Debt services candidate locator |
US9853959B1 (en) | 2012-05-07 | 2017-12-26 | Consumerinfo.Com, Inc. | Storage and maintenance of personal data |
JP5727415B2 (ja) * | 2012-05-17 | 2015-06-03 | 日本電信電話株式会社 | 文書検索用関連語発見装置及び方法及びプログラム |
US9654541B1 (en) | 2012-11-12 | 2017-05-16 | Consumerinfo.Com, Inc. | Aggregating user web browsing data |
US9916621B1 (en) | 2012-11-30 | 2018-03-13 | Consumerinfo.Com, Inc. | Presentation of credit score factors |
US10255598B1 (en) | 2012-12-06 | 2019-04-09 | Consumerinfo.Com, Inc. | Credit card account data extraction |
US9870589B1 (en) | 2013-03-14 | 2018-01-16 | Consumerinfo.Com, Inc. | Credit utilization tracking and reporting |
US9406085B1 (en) | 2013-03-14 | 2016-08-02 | Consumerinfo.Com, Inc. | System and methods for credit dispute processing, resolution, and reporting |
US10102570B1 (en) | 2013-03-14 | 2018-10-16 | Consumerinfo.Com, Inc. | Account vulnerability alerts |
US10685398B1 (en) | 2013-04-23 | 2020-06-16 | Consumerinfo.Com, Inc. | Presenting credit score information |
BR112016002281A2 (pt) * | 2013-08-09 | 2017-08-01 | Behavioral Recognition Sys Inc | segurança de informação cognitiva usando um sistema de reconhecimento de comportamento |
US9443268B1 (en) | 2013-08-16 | 2016-09-13 | Consumerinfo.Com, Inc. | Bill payment and reporting |
JP6407516B2 (ja) * | 2013-10-31 | 2018-10-17 | Kddi株式会社 | マイニング分析装置、方法及びプログラム |
US10325314B1 (en) | 2013-11-15 | 2019-06-18 | Consumerinfo.Com, Inc. | Payment reporting systems |
US9477737B1 (en) | 2013-11-20 | 2016-10-25 | Consumerinfo.Com, Inc. | Systems and user interfaces for dynamic access of multiple remote databases and synchronization of data based on user rules |
USD759690S1 (en) | 2014-03-25 | 2016-06-21 | Consumerinfo.Com, Inc. | Display screen or portion thereof with graphical user interface |
USD759689S1 (en) | 2014-03-25 | 2016-06-21 | Consumerinfo.Com, Inc. | Display screen or portion thereof with graphical user interface |
USD760256S1 (en) | 2014-03-25 | 2016-06-28 | Consumerinfo.Com, Inc. | Display screen or portion thereof with graphical user interface |
US9892457B1 (en) | 2014-04-16 | 2018-02-13 | Consumerinfo.Com, Inc. | Providing credit data in search results |
US11188864B2 (en) * | 2016-06-27 | 2021-11-30 | International Business Machines Corporation | Calculating an expertise score from aggregated employee data |
CN106339369B (zh) * | 2016-08-30 | 2019-06-04 | 广东医科大学 | 一种资料集的同义词识别方法及系统 |
US10460035B1 (en) * | 2016-12-26 | 2019-10-29 | Cerner Innovation, Inc. | Determining adequacy of documentation using perplexity and probabilistic coherence |
US10880313B2 (en) | 2018-09-05 | 2020-12-29 | Consumerinfo.Com, Inc. | Database platform for realtime updating of user data from third party sources |
US11315179B1 (en) | 2018-11-16 | 2022-04-26 | Consumerinfo.Com, Inc. | Methods and apparatuses for customized card recommendations |
US11238656B1 (en) | 2019-02-22 | 2022-02-01 | Consumerinfo.Com, Inc. | System and method for an augmented reality experience via an artificial intelligence bot |
US11941065B1 (en) | 2019-09-13 | 2024-03-26 | Experian Information Solutions, Inc. | Single identifier platform for storing entity data |
CN113139106B (zh) * | 2021-05-07 | 2022-03-15 | 杭州世平信息科技有限公司 | 一种保密检查的事件审核方法和装置 |
US20240037126A1 (en) * | 2022-07-27 | 2024-02-01 | Gong.Io Ltd. | System and method for rapid initialization and transfer of topic models by a multi-stage approach |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5245337A (en) * | 1991-05-29 | 1993-09-14 | Triada, Ltd. | Data compression with pipeline processors having separate memories |
JP2538736B2 (ja) * | 1992-03-30 | 1996-10-02 | 日本電信電話株式会社 | 関連キ―ワ―ド自動生成装置 |
JPH06274541A (ja) * | 1993-03-17 | 1994-09-30 | Nippon Steel Corp | 文献検索システム |
US5586219A (en) * | 1994-09-30 | 1996-12-17 | Yufik; Yan M. | Probabilistic resource allocation system with self-adaptive capability |
JP3687118B2 (ja) * | 1994-12-01 | 2005-08-24 | 富士ゼロックス株式会社 | 関連語辞書作成装置および関連語辞書作成方法 |
JPH0944523A (ja) * | 1995-07-27 | 1997-02-14 | Fuji Xerox Co Ltd | 関連語提示装置 |
US6044351A (en) * | 1997-12-18 | 2000-03-28 | Jones; Annie M. W. | Minimum income probability distribution predictor for health care facilities |
-
1998
- 1998-01-13 JP JP520098A patent/JP3598211B2/ja not_active Expired - Fee Related
- 1998-08-10 US US09/132,140 patent/US6178420B1/en not_active Expired - Lifetime
- 1998-09-30 CN CN98120857A patent/CN1101032C/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
US6178420B1 (en) | 2001-01-23 |
JPH11203311A (ja) | 1999-07-30 |
JP3598211B2 (ja) | 2004-12-08 |
CN1223410A (zh) | 1999-07-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1101032C (zh) | 相关词抽取设备和方法 | |
CN1151456C (zh) | 特征文字序列抽取及相似文书检索方法和装置 | |
CN1178164C (zh) | 信息提取方法和设备,加权方法和图文电视广播接收设备 | |
CN1110757C (zh) | 处理两种文字对照的数据库的方法与装置 | |
CN1109994C (zh) | 文件处理装置与记录媒体 | |
CN1447261A (zh) | 特定要素、字符串向量生成及相似性计算的装置、方法 | |
CN1097795C (zh) | 结构式文件处理方法和装置 | |
CN1168031C (zh) | 基于文本内容特征相似度和主题相关程度比较的内容过滤器 | |
CN1608259A (zh) | 机器翻译 | |
CN1350250A (zh) | 文件写作与翻译综合系统 | |
CN1628298A (zh) | 综合从搜索系统中使用的文档中抽取知识的自学习系统的方法 | |
CN1728143A (zh) | 基于短语产生文献说明 | |
CN1728141A (zh) | 信息检索系统中基于短语的搜索 | |
CN1046625A (zh) | 在结构式文件中制作、扩展及收缩组元标记的技术 | |
CN1728140A (zh) | 信息检索系统中基于短语的索引编制 | |
CN1053852A (zh) | 目录数据库中的名字判定 | |
CN1728142A (zh) | 信息检索系统中的短语识别 | |
CN1331449A (zh) | 用于将粘着法构成的文本或文档分段成词的字符串划分或区分的方法及相关系统 | |
CN1281191A (zh) | 信息检索方法和信息检索装置 | |
CN1328321A (zh) | 通过语音提供信息的装置和方法 | |
CN1535433A (zh) | 基于分类的可扩展交互式文档检索系统 | |
CN1495639A (zh) | 文本语句比较装置 | |
CN1577229A (zh) | 输入音符串进入计算机及文句生产方法及其计算机与媒体 | |
CN1151558A (zh) | 信息检索方法和系统 | |
CN1577332A (zh) | 信息显示控制装置、服务器和记录了程序的记录媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C06 | Publication | ||
PB01 | Publication | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20030205 Termination date: 20140930 |
|
EXPY | Termination of patent right or utility model |