[go: up one dir, main page]

CN1402153A - 数据分析系统和方法 - Google Patents

数据分析系统和方法 Download PDF

Info

Publication number
CN1402153A
CN1402153A CN02127761A CN02127761A CN1402153A CN 1402153 A CN1402153 A CN 1402153A CN 02127761 A CN02127761 A CN 02127761A CN 02127761 A CN02127761 A CN 02127761A CN 1402153 A CN1402153 A CN 1402153A
Authority
CN
China
Prior art keywords
data
mentioned
information
data elements
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN02127761A
Other languages
English (en)
Inventor
矶尾佳代子
牧野恭子
岩田诚司
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Publication of CN1402153A publication Critical patent/CN1402153A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明数据分析系统和方法,使数据分析中利用的数据要素成为很容易变更。进行判断分析对象数据中是否包含规定数据要素处理,包括:把上述数据要素和表示该数据要素所属的至少一个分类的分类信息相关联的词典信息,记录到词典数据库内的记录单元;接收分类指定的分类指定单元;以及参照上述词典数据库,提取与表示指定分类的分类信息相关联的数据要素,设定提取的数据要素作为用于上述处理中判断的上述规定数据要素的提取单元。

Description

数据分析系统和方法
技术领域
本发明是关于一种利用于数据挖掘等这样的数据分析的系统和方法。
背景技术
作为文本挖掘技术的具体例子,有按照正文数据,理解前后关系,进行正文数据的要点提取、正文数据的分类、正文数据的检索等的技术,从正文数据提取知识的技术,或从文本中记述的信息(定性信息)取得数量化的信息(定量信息)的技术等。文本挖掘技术,有时也包括通过对正文数据的数据挖掘分析所得结果的技术。
文本挖掘系统(挖掘引擎)利用概念定义词典进行分析处理。
图8是表示现有文本挖掘系统构成一例的框图。
该文本挖掘系统1主要具备输入单元2、信息提取单元3、输出单元4、和概念定义词典5。
概念定义词典5内,记录各种数据。概念定义词典5里,记录正文以文本方式构成记述信息要素的各种文本要素和与该文本要素对应的属性信息(例如属性ID)。
记录到概念定义词典上的文本要素和属性ID,正文分析处理的判断基准而加以利用。例如,对单词、句、节、文等都作为文本要素进行记录。
图8的例子中,属性ID「G0O1」对应记入叫做「一步超前」的文本要素。并且,属性ID「G009」对应记入叫做「POS结果良好」的文本要素。各属性ID表示各文本要素的性质,并用于分析处理。
输入单元2输入作为分析对象数据的每天报表数据61~6n。
信息提取单元3从输入的每天报表数据61~6n中,提取包含记录在概念定义词典5里的文本要素的每天报表数据。而且,信息提取单元3,根据所提取的每天报表数据和该提取的每天报表数据中包含的文本要素属性ID,进行文本挖掘。例如,包含表示属性ID是意思的每天报表数据,由信息提取单元3判断为「良好每天报表数据」,并将其抽出来。
输出单元4显示由信息提取单元3产生的文本挖掘结果。
因此,能够从每天报表数据61~6n中,显示判定为「良好每天报表数据」的每天报表数据。
在上述的这种文本挖掘系统1中,想要改变文本挖掘系统的内容时,需要变更(例如修正、补充、删除、编辑)概念定义词典5的记录内容。
例如,有时用户希望只利用概念定义词典5内记录的文本要素中几个文本要素进行文本挖掘。
这时,需要变更词典的指定,用户只从希望利用的文本要素和有关该文本要素的属性ID等的信息编成新的词典信息,以便信息提取单元3对新编成的词典进行存取。
用户变更概念定义词典5时,需要例如利用文本编辑程序编辑概念定义词典程序。或者需要输入指示词典变更的命令。
不熟悉文本挖掘系统1构造的用户变更概念定义词典的内容、或变更信息提取单元进行存取的词典的设定就很困难。
所以,用文本程序变更概念定义词典程序的工作、用输入命令变更概念定义词典5的工作、和利用词典的指定工作都需要熟悉文本卡系统构造的技术人员进行。
并且,熟悉文本挖掘系统1构造的用户即使用文本程序等进行编辑工作时,往往因编码错误等而发生返工。
发明内容
本发明的目的是提供一种使作为数据分析判定基准,分析对象数据内是否包含判断数据要素能够很容易变更的数据分析系统和方法。
第1发明是在实行判断分析对象数据中是否包含规定数据要素的处理的数据分析系统中,具备:
把上述数据要素和表示该数据要素所属的至少一个分类的分类信息相关联的词典信息记录到词典数据库的记录单元;
接收分类指定的分类指定单元;以及
参照上述词典数据库,提取与表示指定分类的分类信息相关联的数据要素,设定提取的数据要素作为用于上述处理中判断的上述规定数据要素的提取单元。
第2发明是在用计算机系统实行判断分析对象数据中是否包含规定数据要素的处理的数据分析方法中,具备:
把上述数据要素和表示该数据要素所属的至少一个分类的分类信息相关联的词典信息记录到词典数据库内;
接收分类的指定;以及
参照上述词典数据库,提取与表示指定分类的分类信息相关联的数据要素,设定提取的数据要素作为用于上述处理中判断的上述规定数据要素。
本发明的其他目的和优点通过下面的描述将显示出来,而部分地从描述或通过本发明的实施将会清楚。通过下面特别指出的手段和组合能够实现并达到本发明的目的和优点。
附图说明
结合并构成说明书一部分的附图表示本发明的实施例,与上述作出的普遍性描述和下述实施例的详细描述一起,用于说明本发明的原理,其中:
图1表示本发明第1实施例数据要素指定系统的构成一例框图;
图2表示使用分类指定单元表示的画面一例图;
图3是有关本发明第1实施例数据要素指定系统和使用文本挖掘系统实行的数据分析方法的流程图;
图4表示本发明第2实施例数据要素指定系统的构成一例框图;
图5是有关本发明第2实施例数据要素指定系统和使用文本挖掘系统和分析结果统计系统实行的数据分析方法的流程图;
图6表示使用本发明第4实施例的分类指定单元表示的画面一例图;
图7表示本发明第5实施例数据要素指定系统的利用方式一例框图。
图8表示现有文本挖掘系统的构成一例框图。
具体实施方式
以下,边参照附图边说明本发明的实施例。
(第1实施例)
本实施例中,即使没有详细了解文本挖掘系统构造的用户,使用GUI(Graphical User Interface:图形用户接口),说明有关很容易指定利用于文本挖掘的文本要素的数据要素指定系统。
以下的各个实施例中,说明有关分析对象数据为正文数据的情况。但是,分析对象数据也可以是例如,图象数据、声音数据等那种正文数据以外的数据、各种各样类别的数据组合。
以下的各个实施例中,为了说明有关分析对象数据为正文数据的情况,在词典内记录文本要素及其属性ID。然而,例如,分析对象的数据为图象数据、声音数据等的情况下,则在词典内记录作为图象数据、声音数据的数据要素及其属性ID。这样,只要词典内记录的数据要素的类别与分析对象数据类别统一就行。
图1是表示本实施例数据要素指定系统的构成一例框图。
计算机系统10读出记录媒体9内记录的数据要素指定程序9a并执行。
由计算机系统10读出的数据要素指定程序9a,使计算机系统10起数据要素指定系统8作用。
数据要素指定系统8具备记录单元11、分类指定单元12、和提取单元13。
记录单元11对于文本要素,将其文本要素的属性ID及表示该文本要素所属分类的分类信息相关联的信息,记录到概念定义词典14内。记录单元11,例如从用户15或其它单元,接收并记录与文本要素、属性ID和分类信息相关联的信息。
用户15利用记录单元11GUI功能进行输入。例如,记录单元11显示用于输入与文本要素、属性ID和分类信息相关联的信息表。用户将各种信息记述于该表上。记录单元11读出表上记述的内容,记录到概念定义词典14内。
在概念定义词典14中,以表格形式管理例如与文本要素、属性ID、分类信息相关联的信息。本实施例中,假设概念定义词典14内包含多个词典信息G1、G2。
表1表示概念定义词典14内包含词典信息G1的例子。
[表1]
表1中所示的词典信息G1是重要性分类词典。词典信息G1中,各种文本要素按重要性「高」、「中」、「低」分组。分类信息表示重要性的类别。
例如,对于文本要素「一步超前」(一步リ-ド),与表示「良好信息」的属性ID「G001」和分类信息「低」相关联。至于其它的文本要素、属性ID、分类信息也有同样的关系。
表2是表示概念定义词典14内包含的词典信息G2例子。
[表2]
表2中所示的词典信息G2是品名分类词典。词典信息G2中,各种文本要素按品名「杂志」、「饮料」进行分组。分类信息表示品种类别。
分类指定单元12显示用于由用户指定文本挖掘中利用的文本要素分类信息的画面,并且接收用户给出的指定。
图2是表示利用分类指定单元12显示的画面一例图。
分类指定画面16上,配置有用于指定作为分析对象的每天报表数据日期的区域16a、指定概念定义词典14内包含的多个词典信息G1、G2中利用哪个词典信息的区域16b、而且用于指定分类信息的检测盒16c~16e。图2例中,指定日期「1月22日」、词典信息「G1」、分类信息「高」、「中」。
分类指定单元12把在分类指定画面16上有关指定的日期「1月22日」的每天报表数据的输入命令输出给输入单元2a。
分类指定单元12将表示在分类指定画面16上指定词典信息「G1」和分类信息「高」、「中」的通知供给提取单元13。
提取单元13访问概念定义词典14,从用户指定的词典信息G1,提取与用户所指定的分类信息「高」、「中」相关联的文本要素及其属性ID,并提供给信息提取单元3a。
每天报表数据库17记录每天报表数据。
表3表示存入每天报表数据库17的每天报表数据例。
[表3]
在该表3例子中,每天报表序号「N001」~「N005」表示日期「1月22日」。
文本挖掘系统1a具备输入单元2a、信息提取单元3a和输出单元4a。
输入单元2a按照分类指定单元12来的命令,从每天报表数据库17输入与指定的日期「1月22日」有关的每天报表数据。
信息提取单元3a从输入单元2a取得每天报表数据,并根据所取得的每天报表数据、由上述提取单元13提供的文本要素、属性ID,执行与前面图8说明的分析同样的文本挖掘,编成分析结果文件。
表4表示借助于信息提取单元3a而编成的分析结果文件例。
该分析结果文件中,连带有每天报表序号、每天报表数据、和分析结果信息。具体点说,分析结果文件是具有「每天报表序号」、「每天报表数据」、「分析结果信息」等项目的报表。
[表4]
分析结果信息是有关按用户指定的日期「1月22日」的每天报表数据上包含而且与按用户指定的分类信息「高」、「中」相关联的文本要素、及其属性ID。虽然是按用户指定日期的每天报表数据,但是没有包含与用户指定的分类信息「高」、「中」相关联的文本要素的每天报表数据及其分析结果信息则变成「NULL」。
输出单元4a从信息提取单元3a输入分析结果文件,显示分析结果信息不是「NULL」的每天报表数据,即只显示分析结果信息里插入属性ID的每天报表数据。
表5表示指定日期「1月22日」、词典信息「G1」和分类信息「高」、「中」场合的分析结果。
[表5]
该表5中,从有关日期「1月22日」的每天报表数据中,仅仅提取包含与分类信息「高」、「中」相关联文本要素的每天报表数据。
表6表示用户指定日期「1月22日」、词典信息「G1」和反抗信息「中」场合的分析结果。
[表6]
该表6中,从日期「1月22日」的每天报表数据中,提取包含与分类信息「中」相关联文本要素的每天报表数据。
图3是有关利用上述数据要素指定系统8和文本挖掘系统1a实行的数据分析方法的流程图一例。
在步骤S1,记录单元11按照用户15的操作,把对于文本要素,与其文本要素的属性ID和分类信息相关联的信息,存入计算机系统10的概念定义词典14内。
在步骤S2,按照用户15指示数据分析开始,分类指定单元12显示分类指定画面16。
用户15,在分类指定画面16上指定自己期望分析中利用的各种信息。
在步骤S3,分类指定单元12接收用户15所指定的内容。
在步骤S4,提取单元13从指定与所指定的分类信息相关联的文本要素和属性ID的词典信息提取出来并供给信息提取单元3a。
在步骤S5,输入单元2a从每天报表数据库17输入指定日期的每天报表数据。
在步骤S6,信息提取单元3a根据由输入单元2a输入的规定日期的每天报表数据和从提取单元13提供的文本要素和属性ID,执行数据分析。
在步骤S7,输出单元4a输出分析结果。
另外,步骤S4和步骤S5也可以按相反顺序执行,也可以并行执行。
如以上说明的那样,本实施例中,使预定分类信息与文本要素和其属性ID相关联。用户15在进行分析处理时,指定用于该分析处理的文本要素分类信息。
因此,用户15不需要使用文本编辑并变更概念定义词典14的内容,可以通过指定分类信息,很容易转换分析中利用的文本要素。
所以,能容易地实行用户期望的分析。
并且,即使把词典信息集中为一种,也能够实行多种分析处理。
并且,即使不详细了解文本挖掘系统1a构造的用户,也能利用记录单元11GUI,根据分析内容,很容易变更构成概念定义词典14的各种词典信息的内容。
并且,用户15利用记录单元11就能很容易地变更概念定义词典14,并能防止由编码错误等而发生返工。
(第2实施例)
本实施例中,说明上述第1实施例的变形例。
图4是表示本实施例的数据要素指定系统构成一例的框图。另外,该图4中,对于与图1同一的部分,附加同一的符号并省略其说明,在这里,仅对不同的部分进行详细说明。
计算机系统101读出并执行记录于记录媒体91内的数据要素指定程序9a和分析结果统计程序21。
为计算机系统101所读出的分析结果统计程序9b,把计算机系统101功能作为分析结果统计系统21。
本实施例的数据要素指定系统8不是由用户15而是从分析结果统计系统21输入指定分类信息或变更概念定义词典14的内容。
分析结果统计系统21具备结果系统单元22和指定内容决定单元23。
结果系统单元22输入过去的文本挖掘结果,提取该文本挖掘结果中包含的文本要素。
根据结果系统单元22提取的文本要素,采用从文本挖掘结果中提取概念定义词典14内记录的文本要素的方法来实行也行。除此外,也可以根据结果系统单元22提取的文本要素,采用按照规定的规则分成文本要素单位提取文本挖掘结果中包含的每天报表数据的方法来实行也行。例如就规定的规则而言,利用用于分出单词的规则等。
并且,结果系统单元22统计,表示所提取的文本要素包含于文本挖掘结果中的频度的出现频度和提取的文本要素出现时间等的信息。
例如,每天报表数据中附带的时间信息或表示文本挖掘的实行时间的信息,作为表示提取的文本要素出现时间的信息加以利用。
指定内容决定单元23根据统计的信息,使过去的文本挖掘结果中包含的文本要素与分类信息相关联。例如,对于过去的文本挖掘结果中包含的某文本要素,按照其出现频度,使其与分类信息「出现频度多」、「出现频度中」、「出现频度少」中之一相关联。并且,对于过去的文本挖掘结果中包含的某文本要素,按照出现时刻,使其与分类信息「规定期间内」、「规定期间外」中之一相关联。
而且,指定内容决定单元23把该相关联的信息(文本要素和分类信息)通知记录单元11或分类指定单元12。
图5是有关利用上述数据要素指定系统8、文本挖掘系统1a和分析结果统计系统21实行数据分析方法的流程图一例。
在步骤T1,记录单元11对于文本要素将与其文本要素的属性ID和分类信息相关联的信息,记录到计算机系统101的概念定义词典14内。
在步骤T2,文本挖掘系统1a实行数据分析。
在步骤T3,分析结果统计系统21输入文本挖掘系统1a的分析结果。
在步骤T4分析结果统计系统21的结果系统单元22实行对分析结果的统计处理。
在步骤T5,结果系统单元22对分析结果中包含的文本要素,求出与分类信息相关联的信息。
在步骤T6,指定内容决定单元23把相关联的信息通知记录单元11。数据要素指定系统8的记录单元11,将对于文本要素与分类信息相关联的信息,记录到计算机系统101的概念定义词典14内。
在步骤T7,指定内容决定单元23,对于数据要素指定系统8的分类指定单元12,指定在结果系统单元22的统计处理中使用的规定分类信息。
在步骤T8,提取单元13从词典信息提取与指定的分类信息相关联的文本要素的属性ID,供给信息提取单元3a。
在步骤T9,输入单元2a从每天报表数据库17输入每天报表数据。
在步骤T10,信息提取单元3a按照由输入单元2a输入的每天报表数据、从提取单元13提取的文本要素、属性ID,实行数据分析。
在步骤T11,输出单元4a输出分析结果。
另外,在步骤T6和步骤T7按相反顺序实行也行,并行实行也行。
并且,在步骤T8和步骤T9按相反顺序实行也行,并行实行也行。
并且,结果系统单元22,以表格或曲线形式给用户15提示统计结果等,用户15按照提示的内容对指定内容决定单元23,作为输入分类信息等的各种决定事项也可。
本实施例中,借助于分析结果统计系统21,自动地使文本要素成组,仅利用属于规定分类的文本要素,就能够进行文本挖掘。
例如,前面分析中只是利用一定等级以上使用的文本要素进行文本挖掘,此外,可以排除使用次数不足一定等级的文本要素,进行文本挖掘。
(第3实施例)
本实施例中,说明有关上述第1或第2实施例的数据要素指定系统8变形例。
表7中,示出用本实施例数据要素指定系统的记录单元记录的词典信息例。
[表7]
本实施例中,在文本要素方面添加一种以上分类信息的词典信息写入概念定义词典内。
至于分类信息,例如,利用有关重要性分类的「高」、「中」、「低」,有关好不好分类的「好」、「坏」,有关品名分类的「饮料」、「杂志」。
由于一种词典信息内包含各种分类(通过使上述第1实施例的多个词典信息组合),利用一种词典信息也能进行各式各样的类别的数据分析。
并且,以往,准备多种词典信息,根据分析内容,转换用于文本挖掘的词典信息,但是本实施例中,利用一种词典信息也能进行各式各样的文本挖掘。所以,不需要用户指定分析处理利用的词典信息,能够简化用户的操作。
(第4实施例)
本实施例中,说明上述第3实施例的数据要素指定系统变形例。本实施例的构成上,也能应用与上述图1或图4同样的构成。
本实施例中,分层地组合分类构成分类信息。
表8中,表示出利用本实施例数据要素指定系统的记录单元记录的词典信息例子。
[表8]
本实施例中,把具有层次构造的分类信息添加到文本要素里的词典信息写入概念定义词典内。
例如,文本要素,第1层次按有关好不好分类的2种分类「好」、「坏」来区分。第2层次,将属于分类「好」的文本要素分成有关重要性分类的3种分类「高」、「中」、「低」,再进行细分。
即使表示好的意思的文本要素中,还有重要性高的文本要素、低的文本要素等。
本实施例中,通过应用上述表8里示出的词典信息,用户就能够只使用例如从表示好的意思的文本要素中重要性高的文本要素进行数据分析。
上述表8中的属性序号表示文本要素所属的分类层次状态。属性序号与分类信息同样跟文本要素有关系。
例如,把序号「G」分配给分类「好」。把序号「H」分配给分类「高」。把序号「M」分配给分类「做」。把序号「L」分配给分类「低」。上层的分类序号和下层的分类信号,以「-」结合。
文本要素也可以与一个以上的分类信息相关联,并记录到词典信息内。
例如,对文本要素「交角的销售」,也可以添加分类信息「好-低」和「坏」。
并且,本实施例中,也可以把具有层次构造的分类信息和不具有层次构造的分类信息记录到相同词典信息内。
表9中,表示具有层次构造的分类信息和不具有层次构造的分类信息混合的词典信息内容。
[表9]
在该表9例子中,文本要素的第1层次按分类「饮料」、「杂志」、「好」、「坏」来区分。将第2层次中属于分类「饮料」的文本要素分成分类「全般」、「茶」、「水果」,将属于分类「好」的文本要素分成分类「高」、「中」、「低」。
即,对于表9,表示分类「饮料」「好」的分类信息具有层次构造,表示分类「杂志」「坏」的分类信息不具有层次构造。
分别把属性序号「D」、「G」、「MA」、「B」分配给上层的分类「饮料」、「好」、「杂志」、「坏」。
并且,分别把属性序号「A」、「T」、「F」、「H」、「M」、「L」分配给下层的分类「全般」、「茶」、「水果」、「高」、「中」、「低」。没有下层分类时,分配属性序号「NULL」。
另外,分类信息的层次不限于2个层次,如「好-高」,也可以3个层次以上,如「好-高-继续」、「好-高-短期」之类。
图6是表示利用本实施例的词典信息进行分析时,接收用户分类指定的画面一例图。
用户按照分类指定画面24,指定分析对象的每天报表数据、指定用于分析的词典信息、指定至少一种上层的分类。所指定的上层分类具有下层分类的情况下,本实施例的分类指定单元表示用于指定下层分类的选择分支24a、24b。
在选择分支24a、24b上,用户指定下层的分类。
本实施例的提取单元,提取该分类指定画面24上属于指定分类的文本要素。提取的文本要素用于每天报表数据分析。
以上说明的本实施例中,与概念定义词典内记录的文本要素相关联的分类信息具有层次构造。
因此,用户可以仅指定例如上层分类进行分析,进而根据其分析结果指定下层的分类再进行分析,因而能够归纳分析结果。而且,用户可以沿着自己的思路进行分析。
另外,上述各个实施例数据要素指定系统的各单元只要能够实现同样的作用,变更配置也行,并且也可以自由组合各单元。
并且,上述本实施例中,计算机系统由多台计算机构成,各程序分散配置在多台计算机里,一面互相采取联系一面实行处理也可以。
上述各实施例的程序也可以是写入例如磁盘(软盘、硬盘等)、光盘(CD-ROM、DVD等)、半导体存储器等待记录媒体内应用于计算机。程序也可以是通过通信媒体输送应用于计算机。实现作为上述各种单元功能的计算机,采用读出记录媒体上记录的程序、用程序控制工作的办法,实现作为上述单元的功能。
(第5实施例)
本实施例中,说明有关上述各实施例数据要素指定系统的利用方式。
图7是表示上述各实施例的数据要素指定系统利用方式例的框图。该图7中,对与图1同一的部分给予同一的符号。
通过ASP(Application·Service·Provider:应用服务供应商)18,向用户15提供利用图7的文本挖掘系统1a实施的服务。
并且,也通过ASP18提供利用数据要素指定系统8实施的服务。
用户15从自己的客户19经由例如因特网等这种的网络20,利用ASP18管理的文本挖掘系统1a。因此,用户15很容易实施每天报表数据的分析。
并且,用户15希望变更用于分析的文本要素的场合或希望变更词典信息内容的场合,由于利用ASP18管理的数据要素指定系统8,就能够容易变更文本要素或词典信息。
而且,由于接受ASP18提供的服务,比用户15自己运用文本挖掘系统1a和数据要素指定系统8时在维护、运用方面还能更有效地利用分析服务。
另外的优点和改进,对本领域普通技术人员将是显而易见。因此,本发明概括起来说并不限于这里表示和描述的具体细节和表现的各实施例。所以,应该能够作各种各样的修改而不脱离本发明总构思的精神或范围。
[表1]
               表1.词典信息G1
    属性ID     文本要素     分类信息
    G001     一步超前     低
    G002     点名购买     中
    G003     按月销售     低
    G004     销售数为常数     中
    G005     风迷     中
    G006     评判良好     中
    G007     经常发货     中
    G008     运转快     中
    G009     POS的结果顺利     高
    G010     POS的结果上升     高
    G011     扩大销售     中
    G012     极顺利     高
[表2]
               表2.词典信息G2
    属性ID     文本要素     分类信息
    G013     饮料     饮料
    G014     杂志     杂志
    G015     书籍定购     杂志
    G016     橙汁     饮料
    G017     绿茶     饮料
    G018     月刊○○     杂志
    G019     周刊杂志     杂志
[表3]
                   表3.每天报表数据
每天报表序号     每天报表数据
    N001     1月22日报表:前月POS结果顺利。
    N002     预测一步超前。
    N003     对扩大销售方法,打算进行商量。
    N004     据说周末不管雨雪,商品经常发货。
    N005     进入今年以后,极顺利继续下去。
[表4]
                     表4.分析结果文件内容
每天报表序号   每天报表数据   分析结果信息
    N001   1月22日报表:前月POS结果顺利。   G009
    N003   预测一步超前。   NULL
    N004   对扩大销售方法,打算进行商量。   G011
    N005   据说周末不管雨雪,商品经常发货。   G007
    N005   进入今年以后,极顺利继续下去。   G012
[表5]
        表5.分析结果(指定分类信息「高」、「中」)
每天报表序号     每天报表数据
    N001     1月22日报表:前月POS结果顺利。
    N003     对扩大销售方法,打算进行商量。
    N004     据说周末不管雨雪,商品经常发货。
    N005     进入今年以后,极顺利继续下去。
[表6]
         表6.分析结果(指定分类信息「中」)
每天报表序号     每天报表数据
    N003     对扩大销售方法,打算进行商量。
    N004     据说周末不管雨雪,商品也经常发货。
[表7]
                   表7.词典信息
    属性ID     文本要素     分类信息
    G001     饮料     饮料
    G002     经常发货     好、中
    G003     按月销售顺利     好、中
    G004     杂志     杂志
    G005     POS的结果下降     坏
    G006     书籍定购     杂志
    G007     橙汁     饮料
    G008     绿茶     饮料
    G009     POS的结果顺利     好、高
    G010     月刊○○     杂志
    G011     不顺利     坏
    G012     周刊杂志     杂志
[表8]
                   表8.词典信息
属性ID     文本要素     属性序号     分类信息
G002     经常发化     G-M     好-中
G003     按月销售顺利     G-M     好-中
G009     POS的结果顺利     G-H     好-高
G013     交角的销路     G-L     好-低
    B     坏
[表9]
表9.词典信息
  属性ID     文本要素     属性序号     分类信息
  G001     饮料     D-A     饮料-一般
  G002     经常发货     G-M     好-中
  G003     月销售顺利     G-M     好-中
  G004     杂志     MA-NULL     杂志
  G005     POS的结果下降     B-NULL     坏
  G006     书籍定购     MA-NULL     杂志
  G007     橙汁     D-F     饮料-果物
  G008     绿茶     D-T     饮料-茶
  G009     POS的结果顺利     G-M     好-高
  G010     月刊○○     MA-NULL     杂志
  G011     不顺利     B-NULL     坏
  G012     周刊杂志     MA-NULL     杂志
  G013     交角的销路     G-L     好-低
  G013     交角的销路     B-NULL     坏

Claims (8)

1.一种数据分析系统,进行处理,判断分析对象数据中是否包含有规定数据要素,包括:
把上述数据要素和表示该数据要素所属的至少一个分类的分类信息相关联的词典信息,记录到词典数据库内的记录单元;
接收分类指定的分类指定单元;以及
参照上述词典数据库,提取与表示所指定分类的分类信息相关联的数据要素,设定所提取的数据要素作为用于上述处理中判断的上述规定数据要素的提取单元。
2.根据权利要求1的数据分析系统,包括:
通过上述处理,判断为上述分析对象数据中包含上述规定的数据要素时,按照规定的规则,提取上述分析对象数据中包含的数据要素,统计所提取的数据要素的提取频度,并把与提取的数据要素和表示该数据要素提取频度的分类信息相关联的词典信息,记录到上述数据库内的统计单元。
3.根据权利要求1的数据分析系统,包括:
通过上述处理,判断为上述分析对象数据中包含上述规定的数据要素时,按照规定的规则,提取上述分析对象数据中包含的数据要素,同时提取附加于上述分析对象数据的时间信息,并把与所提取的数据要素和表示提取的时间信息相关联的词典信息,记录到上述数据库内的统计单元。
4.根据权利要求1的数据分析系统,包括:
上述分类信息具有层次性组合多种分类的构造,上述分类的指定表示多种分类的层次性组合。
5.一种分析方法,用计算机系统实行处理,判断分析对象数据中是否包含规定数据要素的数据,包括:
把上述数据要素和表示该数据要素所属的至少一种分类的分类信息相关联的词典信息记录到词典数据库内;
接收分类的指定;以及
参照上述词典数据库,提取与表示指定分类的分类信息相关联的数据要素,设定提取的数据要素作为用于上述处理中判断的上述规定数据要素。
6.根据权利要求5的数据分析方法,包括:
通过上述处理,判断为上述分析对象数据中包含上述规定的数据要素时,按照规定的规则,提取上述分析对象数据中包含的数据要素,统计所提取的数据要素的提取频度,并把与提取的数据要素和表示该数据要素提取频度的分类信息相关联的词典信息,记录到上述数据库内。
7.根据权利要求5的数据分析方法,包括:
通过上述处理,判断为上述分析对象数据中包含上述规定的数据要素时,按照规定的规则,提取上述分析对象数据中包含的数据要素,同时提取附加于上述分析对象数据的时间信息,并把与所提取的数据要素和表示提取的时间信息相关联的词典信息,记录到上述数据库内。
8.根据权利要求5的数据分析方法,包括:
上述分类信息具有层次性组合多种分类的构造,上述分类的指定表示多种分类的层次性组合。
CN02127761A 2001-08-08 2002-08-08 数据分析系统和方法 Pending CN1402153A (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2001241131 2001-08-08
JP241131/2001 2001-08-08
JP2002214324A JP4303921B2 (ja) 2001-08-08 2002-07-23 テキストマイニングシステム及び方法並びにプログラム
JP214324/2002 2002-07-23

Publications (1)

Publication Number Publication Date
CN1402153A true CN1402153A (zh) 2003-03-12

Family

ID=26620212

Family Applications (1)

Application Number Title Priority Date Filing Date
CN02127761A Pending CN1402153A (zh) 2001-08-08 2002-08-08 数据分析系统和方法

Country Status (3)

Country Link
US (1) US20030041062A1 (zh)
JP (1) JP4303921B2 (zh)
CN (1) CN1402153A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101833549A (zh) * 2009-03-11 2010-09-15 索尼公司 文本分析设备、方法和程序
CN103460206A (zh) * 2011-06-07 2013-12-18 株式会社东芝 注目评价对象提取装置及程序
CN104662564A (zh) * 2012-09-27 2015-05-27 株式会社东芝 数据分析装置以及程序

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5392428A (en) * 1991-06-28 1995-02-21 Robins; Stanford K. Text analysis system
US5758257A (en) * 1994-11-29 1998-05-26 Herz; Frederick System and method for scheduling broadcast of and access to video programs and other data using customer profiles
US5642502A (en) * 1994-12-06 1997-06-24 University Of Central Florida Method and system for searching for relevant documents from a text database collection, using statistical ranking, relevancy feedback and small pieces of text
JP3597697B2 (ja) * 1998-03-20 2004-12-08 富士通株式会社 文書要約装置およびその方法
US6510406B1 (en) * 1999-03-23 2003-01-21 Mathsoft, Inc. Inverse inference engine for high performance web search
WO2001055862A1 (en) * 2000-01-28 2001-08-02 Ibeam Broadcasting Corporation Method and system for real-time distributed data mining and analysis for networks

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101833549A (zh) * 2009-03-11 2010-09-15 索尼公司 文本分析设备、方法和程序
CN101833549B (zh) * 2009-03-11 2013-10-09 索尼公司 文本分析设备、方法和程序
CN103460206A (zh) * 2011-06-07 2013-12-18 株式会社东芝 注目评价对象提取装置及程序
CN103460206B (zh) * 2011-06-07 2016-10-12 株式会社东芝 注目评价对象提取装置及方法
US10769534B2 (en) 2011-06-07 2020-09-08 Kabushiki Kaisha Toshiba Evaluation target of interest extraction apparatus and program
CN104662564A (zh) * 2012-09-27 2015-05-27 株式会社东芝 数据分析装置以及程序
CN104662564B (zh) * 2012-09-27 2017-03-29 株式会社东芝 数据分析装置以及程序
US10025789B2 (en) 2012-09-27 2018-07-17 Kabushiki Kaisha Toshiba Data analyzing apparatus and program

Also Published As

Publication number Publication date
JP4303921B2 (ja) 2009-07-29
JP2003122775A (ja) 2003-04-25
US20030041062A1 (en) 2003-02-27

Similar Documents

Publication Publication Date Title
CN1194319C (zh) 对表格式数据进行查找、列表及分类的方法和装置
CN1158627C (zh) 用于字符识别的方法和装置
CN1171162C (zh) 基于字符分类检索字符串的装置和方法
CN1293465C (zh) Gui显示装置及光标或gui组件动画显示处理方法
CN1648849A (zh) 布局调整方法和装置
CN101069184A (zh) 信息处理装置和方法、及程序
CN1439979A (zh) 解决方案数据编辑处理及自动概括处理装置和方法
CN1217512A (zh) 文件图象处理设备及其方法
CN1363899A (zh) 文本分类参数生成器和使用所生成参数的文本分类器
CN1476613A (zh) 信息处理设备和方法
CN101044484A (zh) 信息处理装置、方法以及程序
CN1815435A (zh) 文档处理装置和文档处理方法
CN101034349A (zh) 基于功能设计的数据库应用系统开发平台
CN1920825A (zh) 在流设计工具中显示性能约束的方法和系统
CN1828517A (zh) 文档处理装置和文档处理方法
CN1740934A (zh) 生产管理系统
CN1265207A (zh) 生成2000年测试例的系统和方法
CN1839401A (zh) 信息处理装置及信息处理方法
CN1854946A (zh) 制造条件设定系统及制造条件设定方法
CN101034414A (zh) 信息处理设备和方法以及程序
CN1773407A (zh) 信息处理装置、运行状况管理装置、信息处理方法
CN1871563A (zh) 加工信息产生装置、程序和加工信息产生方法
CN1940913A (zh) 一种表格的可变数据排版的方法
CN1650327A (zh) 可训练可扩充的自动数据-知识转换器
CN101064028A (zh) 基于qfd、triz的产品创新设计系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Open date: 20030312