CN104662564B - 数据分析装置以及程序 - Google Patents
数据分析装置以及程序 Download PDFInfo
- Publication number
- CN104662564B CN104662564B CN201380050317.XA CN201380050317A CN104662564B CN 104662564 B CN104662564 B CN 104662564B CN 201380050317 A CN201380050317 A CN 201380050317A CN 104662564 B CN104662564 B CN 104662564B
- Authority
- CN
- China
- Prior art keywords
- analysis
- knowledge model
- precision
- unit
- format change
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000007405 data analysis Methods 0.000 title claims abstract description 53
- 238000004458 analytical method Methods 0.000 claims abstract description 332
- 230000008859 change Effects 0.000 claims abstract description 134
- 230000009467 reduction Effects 0.000 claims abstract description 13
- 238000000034 method Methods 0.000 claims description 128
- 230000008569 process Effects 0.000 claims description 120
- 238000012545 processing Methods 0.000 claims description 60
- 238000011156 evaluation Methods 0.000 claims description 53
- 238000003860 storage Methods 0.000 claims description 44
- 238000003754 machining Methods 0.000 claims description 9
- 238000004891 communication Methods 0.000 claims description 7
- 230000033228 biological regulation Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 241000208340 Araliaceae Species 0.000 claims 2
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 claims 2
- 235000003140 Panax quinquefolius Nutrition 0.000 claims 2
- 238000012854 evaluation process Methods 0.000 claims 2
- 235000008434 ginseng Nutrition 0.000 claims 2
- 238000007726 management method Methods 0.000 description 91
- 230000006870 function Effects 0.000 description 80
- 239000000203 mixture Substances 0.000 description 13
- 239000013589 supplement Substances 0.000 description 10
- 230000009471 action Effects 0.000 description 8
- 238000013500 data storage Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 235000013399 edible fruits Nutrition 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 230000001174 ascending effect Effects 0.000 description 2
- 238000012098 association analyses Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 206010054949 Metaplasia Diseases 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000015689 metaplastic ossification Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000026676 system process Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/11—File system administration, e.g. details of archiving or snapshots
- G06F16/116—Details of conversion of file system types or formats
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Human Resources & Organizations (AREA)
- Operations Research (AREA)
- General Business, Economics & Management (AREA)
- Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Tourism & Hospitality (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Quality & Reliability (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Debugging And Monitoring (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供数据分析装置以及程序。实施方式的数据分析装置生成未存储于上述第一存储单元(T1、2)的格式变化、分析算法名以及分析参数,并执行分析。上述数据分析装置判定运用精度与知识模型精度相比是否降低。上述数据分析装置在该判定的结果为不是上述降低的情况下,重新启动上述格式变化生成单元以及上述分析参数生成单元。上述数据分析装置在上述判定的结果为上述降低的情况下,读出上述第一存储单元内与最高的优先顺序建立关联的格式变化以及知识模型名,并执行分析。
Description
技术领域
本发明的实施方式涉及数据分析装置以及程序。
背景技术
以往,在数据分析装置中,对于大数据的分析,存在三个课题[1]~[3]。第一课题[1]为无法利用分析参数与输入数据格式的最佳组合。第二课题[2]为随着输入数据的倾向变化而精度降低。第三课题[3]为无法同时解决第一以及第二课题[1]、[2]。以下,详细说明这些课题[1]~[3]。
[1]已知在进行数据分析(例如机械学习)的情况下,与作为所使用的输入数据而仅使用了原始数据的分析相比,在使用了原始数据的加工数据(例如,周平均)的情况下,对分析结果的精度带来更强的影响。
但是,能够准备的加工数据的种类的数量,尤其是在大数据中能够半无限地取得。因此,例如,在专利文献1、2记载的技术中,无法从半无限的变化中利用最佳的变化,而使用能够通过除尽来取得的变化。
此外,同样,机械学习等的分析所使用的分析参数与上述输入数据格式的变化组合(分析方式)能够半无限地取得。
因而,在专利文献1、2记载的技术中,无法从半无限的分析方式的组合中利用最佳的组合,而使用能够通过除尽来取得的变化。
[2]在输入数据的倾向(趋势)变化的情况下,当运用所提取的知识模型时,精度会下降。
使用与以前相同的参数而通过最近的输入数据来进行机械学习并提取知识模型,无法应对新的输入属性开始产生影响的情况。
[3]难以同时自动地解决课题[1]和课题[2]。
例如,专利文献1与课题[1]相关,并未公开来自用户的需求时的推荐生成处理的处理时间、负载的对应考虑等。
而且,专利文献1与课题[1]、[2]相关,是不存储基于精度结果的分析方式的方式,难以维持增进性。
而且,在专利文献1中,在实施方式中仅记载了“可以使用记录来预先制作需要的数据,也可以在推荐模式决定的定时生成数据”,并没有与实现方法、可能产生的课题相关的记载。
另一方面,专利文献2所记载的技术将课题[1]、[2]的输入数据限定为流数据,无法应对其他的输入数据格式。
现有技术文献
专利文献
专利文献1:日本特开2012-14659号公报
专利文献2:日本特开2009-87190号公报
发明内容
发明要解决的课题
如以上说明的那样,现有的数据分析装置存在三个课题[1]~[3]。因而,在数据分析装置中,期望在能够利用分析参数与输入数据格式的最佳组合的同时,即便输入数据的倾向变化也能够维持精度。
本发明要解决的课题在于,提供数据分析装置以及程序,在能够利用分析参数与输入数据格式的最佳组合的同时,即便输入数据的倾向变化也能够维持精度。
用于解决课题的手段
实施方式的数据分析装置具备第一存储单元、格式变化生成单元、输入数据加工单元、分析参数生成单元、第一写入单元、第一分析执行单元、分析结果评价单元、第二写入单元、运用执行单元、运用结果评价单元、第一判定单元、重新启动单元、指定单元以及第二分析执行单元。
上述第一存储单元将格式变化、分析算法名、分析参数、知识模型名以及知识模型精度相互建立关联地存储。
上述格式变化生成单元基于规定的多个格式变化候补,生成未存储于上述第一存储单元的组合的格式变化。
上述输入数据加工单元基于上述生成的格式变化,对输入数据的格式进行加工而生成分析对象数据。
上述分析参数生成单元基于规定的分析算法名候补以及分析参数的范围,生成未存储于上述第一存储单元的组合的分析算法名以及分析参数。
上述第一写入单元将上述生成的格式变化、上述生成的分析算法名以及分析参数写入上述第一存储单元。
上述第一分析执行单元基于上述生成的格式变化、上述生成的分析算法名以及分析参数,执行上述分析对象数据的分析。
上述分析结果评价单元对上述分析的执行结果即知识模型进行评价而计算知识模型精度。
上述第二写入单元将上述评价的知识模型的知识模型精度以及知识模型名,与上述写入的上述格式变化、上述分析算法名以及上述分析参数建立关联地写入上述第一存储单元。
上述运用执行单元在该写入之后,基于上述第一存储单元内与最高的知识模型精度建立关联的知识模型名的知识模型,执行上述运用。
上述运用结果评价单元对上述运用的执行结果进行评价而计算运用精度。
上述第一判定单元判定上述计算出的运用精度与上述最高的知识模型精度相比是否降低。
上述重新启动单元在该判定的结果为不是上述降低的情况下,重新启动上述格式变化生成单元以及上述分析参数生成单元。
上述指定单元,在上述判定的结果为上述降低的情况下,通过将与上述最高的知识模型精度建立关联的格式变化指定于上述输入数据加工单元,由此从上述输入数据加工单元得到新的分析对象数据。
上述第二分析执行单元基于上述新的分析对象数据以及上述运用时的知识模型名来执行分析,并将该分析的执行结果即知识模型向上述分析结果评价单元送出。
附图说明
图1是表示第一实施方式的数据分析装置的构成的模式图。
图2是该实施方式的分析方式列表表格的构成的模式图。
图3是表示该实施方式的格式变化候补设定列表的构成的模式图。
图4是表示该实施方式的分析参数方式设定列表的构成的模式图。
图5是用于对该实施方式的动作进行说明的流程图。
图6是表示第二实施方式的数据分析系统的构成的模式图。
图7是表示该实施方式的用户设定阈值表格的构成的模式图。
图8是表示该实施方式的并列执行关联信息表格的构成的模式图。
图9是用于对该实施方式的动作进行说明的流程图。
具体实施方式
以下,使用附图对各实施方式进行说明,但在此之前对各实施方式的概要进行叙述。
第一实施方式涉及能够执行处理C系统、处理B系统、处理S系统的数据分析装置。
在处理C系统中,在使用所生成的新的输入数据格式变化以及分析参数的同时,根据评价结果提取更适当的组合的分析方式。此外,在由数据库对该分析方式进行管理而进行更新管理的同时,发现运用所需要的最低限度的分析方式,并且发现其他的更适当的分析方式并将结果登记于数据库,提取更适当的知识模型。
在处理B系统中,在根据精度评价结果开始确认到输入数据趋势的变更的情况下,从登记数据库重新选择分析方式而提取适当的知识模型,并使其反映到知识模型的运用中。
在处理S系统中,根据精度评价结果来切换处理C系统和处理B系统。
第二实施方式涉及具有能够执行处理C系统、处理B系统以及处理S系统的平行离散环境的数据分析系统。该数据分析系统具有能够选择性地执行处理B系统以及处理C系统的多个计算机,上述的数据分析装置对各计算机进行控制。即,第二实施方式的数据分析装置为,基于精度评价结果,以动态地变更处理C系统与处理B系统的执行比率的方式对各计算机进行控制,实现更高精度的分析运用。
以上是各实施方式的概要。接着,对各实施方式进行具体说明。另外,以下的数据分析装置能够通过硬件构成或者硬件资源与软件的组合构成的任一种构成来实施。作为组合构成的软件,例如图1或者图6所示,使用如下的程序:用于预先从网络或者非临时性的计算机能够读取的存储介质(non-transitory computer-readable storage medium)M安装到计算机,通过由该计算机的处理器执行,由此使该计算机实现数据分析装置的功能的程序。
<第一实施方式>
图1是表示第一实施方式的数据分析装置的构成的模式图。该数据分析装置为如下装置:用于对具有目标变量和作为对于目标变量的说明变量的候补的各变量的输入数据的格式进行加工而生成分析对象数据,对分析对象数据进行分析而生成基于各变量来表示目标变量的知识模型,将知识模型运用于新的输入数据的各变量而得到新的目标变量的装置。
具体而言,数据分析装置具备输入数据存储部1、方式列表存储部2、格式变化生成部3、分析参数方式生成部4、输入数据加工部5、分析方式以及知识模型管理部6、分析执行管理部7、分析执行部8、分析结果评价部9、运用执行管理部10、运用执行部11以及运用结果评价部12。
此处,输入数据存储部1暂时存储分析对象数据。分析对象数据例如不依存于CSV(comma-separated value:逗号分隔值)格式、关键字值(Key Value)格式等特定格式。
方式列表存储部2存储与分析方式相关的信息。如图2至图4所示,与分析方式相关的信息,例如存在分析方式列表表格T1、格式变化候补设定列表L1以及分析参数方式设定列表L2。但是,各设定列表L1、L2并不是必须的,也可以省略。例如,通过由各生成部3、4预先确定各列表L1、L2的设定内容的变形例,能够省略各设定列表L1、L2。
如图2所示,分析方式列表表格T1将优先顺序、分析方式ID、输入数据的格式变化、输入数据期间、分析算法名、分析参数、知识模型名、知识模型精度、知识模型精度取得日期和时间、运用精度以及运用精度取得日期和时间相互建立关联地记载。但是,例如,优先顺序、分析方式ID、输入数据期间、知识模型精度取得日期和时间、运用精度以及运用精度取得日并不是必须的,也可以省略。详细来说,分析方式ID、输入数据期间、知识模型精度取得日期和时间以及运用精度取得日,不会直接用于基于分析执行的知识模型的生成、基于分析结果评价的知识模型精度的计算、基于运用执行的运用执行结果的生成、基于运用结果评价的运用精度的计算,因此能够省略。通过利用知识模型精度的顺序来代替优先顺序的变形例,能够省略优先顺序。通过不记载于分析方式列表表格T1而使用计算出的运用精度来执行处理S4、Y2的变形例,能够从分析方式列表表格T1省略运用精度。
优先顺序表示在运用执行部11中利用的分析方式的优先顺序,基于知识模型精度来进行更新。作为补充,优先顺序表示知识模型的生成时的精度的顺序。
输入数据的格式变化表示分析用的输入数据的组合要素。组合要素除了从外部输入的数据之外,还包含新准备的要素(例如,周平均)。作为补充,输入数据的格式变化表示由输入数据加工部5加工后的格式。
输入数据期间表示在分析执行部8中利用于分析的数据的生成期间。
分析算法名(分析参数组)表示在分析执行部8中进行分析执行时所使用的分析算法的名称。
分析参数(分析参数组)表示在分析执行部8中使用分析算法来进行分析时所使用的参数。作为分析参数,例如能够适当使用关联分析中的深度以及阈值等。
知识模型名表示对由分析执行部8生成的知识模型进行识别的名称。
知识模型精度表示知识模型的生成时的精度,通过分析结果评价部9来得到。
知识模型精度取得日期和时间表示取得(生成)知识模型精度的日期和时间。
运用精度表示将在运用执行部11中运用了由分析执行部8生成的知识模型的结果,在运用结果评价部12中进行评价而得到的结果。作为补充,运用精度表示知识模型的运用时的精度。
运用精度取得日期和时间表示取得运用精度的日期和时间。
如图3所示,格式变化候补设定列表L1将对输入数据的格式变化的候补进行表示的项目与值相互建立关联地设定。在该例子中,按照每个表示项目的组的列来设定变化的方式。在该例子中,表示时间、场所这2组项目的情况。用于组合的方式,基本上是对于各列的每组取一个。例如,“时间”组的“3天平均”与“场所”组的“国平均”可以用于组合。与此相对,“时间”组的“3天平均”和“周平均”基本上不用于组合。作为补充,格式变化候补设定列表L1记载有格式变化的候补即多个格式变化候补。
如图4所示,分析参数方式设定列表L2将分析算法名、项目以及值相互建立关联地记载。
分析算法名表示用户设定的分析算法的名称。作为补充,分析参数方式设定列表L2内的分析算法名是(分析方式列表表格T1内的分析算法名的候补)分析算法名候补。
项目表示所设定的分析算法名的分析算法所使用的参数项目的名称。
值表示所设定的参数项目的参数的振幅(范围)。作为补充,该值(范围)是(分析方式列表表格T1内的分析参数的候补)分析参数的范围。
格式变化生成部3基于格式变化候补设定列表L1,生成在方式列表存储部2的分析方式列表表格T1中不存在的组合的输入数据格式变化。在生成时,为了加工处理用而参照方式列表存储部2的格式变化候补设定列表L1。详细来说,格式变化生成部3将输入数据存储部1内的原始数据、与基于格式变化候补设定列表L1而加工生成的数据组合来生成。例如,包括加工处理在内进行升序的初始设定,在来自外部的基本的输入数据的项目、与加工格式的项目的数量合计存在m个而组合数的限制为n个的情况下,生成m个以下的项目中、n个以下的组合。
分析参数方式生成部4基于分析参数方式设定列表L2,来生成在方式列表存储部2的分析方式列表表格T1中不存在的组合的新的分析参数和分析算法名。
分析参数方式生成部4例如被升序地初始设定,并且在按照关联分析算法而到深度1、2、3的情况为止存在于分析方式列表表格T1的情况下,以提取下一个深度4的方式生成。
输入数据加工部5基于从分析方式以及知识模型管理部6指定的输入数据变化生成信息,对输入数据进行加工,并从输入数据生成(所指定的格式变化的)分析对象数据。作为格式变化的分析对象数据的例子,存在将输入数据加工成一周平均的格式的分析对象数据、加工成一个月平均的格式的分析对象数据。
分析方式以及知识模型管理部6是本系统的中央管理功能部。分析方式以及知识模型管理部6取得从输入数据加工部5输出的分析对象数据、以及从方式列表管理输出的优先顺序较高的分析方式,并发送至分析执行管理部7。然后,分析方式以及知识模型管理部6取得从分析结果评价部9、运用结果评价部12输出的评价结果,并存储于方式列表存储部2。
此外,分析方式以及知识模型管理部6为了提取新分析方式,而使用格式变化生成部3和分析参数方式生成部4提取在方式列表存储部2的分析方式列表表格T1中不存在的方式,将结果存储于方式列表存储部2,并且发送至输入数据加工部5。另外,对格式变化生成部3的提取内容以及分析参数方式生成部4的提取内容的哪一方优先进行处理,通过系统的初始设定来指定即可。
具体而言,这种分析方式以及知识模型管理部6具有以下的各功能(f6-1)~(f6-12)。
(f6-1)第一指定功能,将由格式变化生成部3生成的格式变化指定于输入数据加工部5。但是,第一指定功能并不是必须的,也可以省略。例如,通过格式变化生成部3将格式变化不经由分析方式以及知识模型管理部6地指定于输入数据加工部5的变形例,能够省略第一指定功能。
(f6-2)第一写入功能,将由格式变化生成部3生成的格式变化、和由分析参数方式生成部4生成的分析算法名以及分析参数写入分析方式列表表格T1。
(f6-3)第一通知功能,将包含通过第一写入功能写入的格式变化、分析算法名以及分析参数的第一分析执行信息通知给分析执行管理部7。另外,第一通知功能并不是必须的,也可以省略。例如,通过第一写入功能不使用第一分析执行信息地将格式变化、分析算法名以及分析参数向分析执行管理部7或者分析执行部8送出的变形例,能够省略第一通知功能。
(f6-4)第二写入功能,与通过第一写入功能写入的格式变化、分析算法名以及分析参数建立关联,将由分析结果评价部9评价的知识模型的知识模型精度以及知识模型名写入分析方式列表表格T1。
(f6-5)优先顺序更新功能,基于通过第二写入功能写入的知识模型精度,对分析方式列表表格T1内的优先顺序的值进行更新。但是,与上述相同,由于能够省略优先顺序,所以能够省略优先顺序更新功能。
(f6-6)第一读出功能,在更新之后,读出在分析方式列表表格T1内与最高的优先顺序建立关联的知识模型名,将包含该知识模型名的运用执行信息通知给运用执行管理部10。通过省略了最高的优先顺序、运用执行信息的变形例,能够省略第一读出功能。
(f6-7)第三写入功能,将由运用结果评价部12计算出的运用精度与运用时的知识模型的知识模型名建立关联地写入分析方式列表表格T1。与上述相同,通过在分析方式列表表格T1中不记载运用精度的变形例,能够省略第三写入功能。
(f6-8)第一判定功能,判定通过第三写入功能写入的运用精度与在分析方式列表表格T1内与该运用精度建立关联的知识模型精度相比是否降低。在分析方式列表表格T1中未记载优先顺序和运用精度的变形例的情况下,第一判定功能能够变形为“判定由运用结果评价部12计算出的运用精度与最高的知识模型精度相比是否降低的功能”。
(f6-9)重新启动功能,在该判定的结果为未降低的情况下,重新启动格式变化生成部3以及分析参数方式生成部4,以重新执行格式变化生成部3、第一指定功能(f6-1)、输入数据加工部5、分析参数方式生成部4、第一写入功能(f6-2)、第一通知功能(f6-3)、第一分析执行单元、分析结果评价部9、第二写入功能(f6-4)以及优先顺序更新功能(f6-5)。重新启动功能使格式变化生成部3以及分析参数方式生成部4重新启动即可,因此也可以省略“以重新执行格式变化生成部3、第一指定功能(f6-1)、输入数据加工部5、分析参数方式生成部4、第一写入功能(f6-2)、第一通知功能(f6-3)、第一分析执行单元、分析结果评价部9、第二写入功能(f6-4)以及优先顺序更新功能(f6-5)”。
(f6-10)第二读出功能,在判定的结果为降低的情况下,读出在分析方式列表表格T1内与最高的优先顺序建立关联的格式变化以及知识模型名。在分析方式列表表格T1中未记载优先顺序的变形例的情况下,第一判定功能能够变形为“读出与最高的知识模型精度建立关联的格式变化的功能”。另外,知识模型名并不一定需要从分析列表表格T1读出。
(f6-11)第二指定功能,将通过第二读出功能读出的格式变化指定于输入数据加工部5,由此从输入数据加工部5得到新的分析对象数据。伴随着省略第一指定功能的变形例,第二指定功能也可以改称为指定功能。
(f6-12)第二通知功能,将包含该新的分析对象数据以及通过第二读出功能读出的知识模型名的第二分析执行信息通知给分析执行管理部7。另外,第二通知功能并不是必须的,也可以省略。例如,通过第二读出功能不读出知识模型名、而第二指定功能不使用第二通知功能地将新的分析对象数据向分析执行管理部7或者分析执行部8送出的变形例,能够省略第二通知功能。
分析执行管理部7基于从分析方式以及知识模型管理部6输出的分析对象数据、以及分析方式,管理对于分析执行部8的分析执行。另外,在对于分析执行部8不进行错误时的重试等的管理的情况下,能够省略分析执行管理部7。
分析执行部8基于从分析执行管理部7输出的数据进行分析处理。作为补充,分析执行管理部7以及分析执行部8构成第一分析执行单元,该第一分析执行单元基于包含分析对象数据、格式变化、分析算法名以及分析参数的第一分析执行信息,执行该分析对象数据的分析。此外,分析执行管理部7以及分析执行部8构成第二分析执行单元,该第二分析执行单元基于包含新的分析对象数据以及知识模型名的第二分析执行信息来执行分析,并将该分析的执行结果即知识模型向分析结果评价部9送出。在第二读出功能不读出知识模型名、并且省略了第二分析执行信息的变形例的情况下,第二分析执行单元能够变形为“基于新的分析对象数据以及运用时的知识模型名来执行分析,并将该分析的执行结果即知识模型向分析结果评价部9送出的第二分析执行单元”。
分析结果评价部9对从分析执行部8输出的分析结果进行评价。作为补充,分析结果评价部9对分析的执行结果即知识模型进行评价,并计算表示该知识模型的精度的知识模型精度。
运用执行管理部10基于从分析方式以及知识模型管理部6输出的信息来管理运用执行部11的执行。另外,在对于运用执行部11不进行错误时的重试等的管理的情况下,能够省略运用执行管理部10。
运用执行部11使用从运用执行管理部10指定的知识模型进行知识处理。作为运用执行部11,例如相当于CEP(Complex Event Processing:复合事件处理)的功能部等。作为补充,运用执行管理部10以及运用执行部11构成运用执行单元,该运用执行单元基于从分析方式以及知识模型管理部6通知的运用执行信息内的知识模型名的知识模型来执行运用。在省略了优先顺序、运用执行信息的变形例的情况下,运用执行单元能够变形为“运用执行单元,该运用执行单元在基于第二写入功能的写入之后,基于在分析方式列表表格T1内与最高的知识模型精度建立关联的知识模型名的知识模型,执行新的输入数据的运用”。
运用结果评价部12基于从运用执行部11输出的结果对运用结果进行评价。作为补充,运用结果评价部12对运用的执行结果即目标变量进行评价,并计算表示该运用时的知识模型的精度的运用精度。
接着,使用图5的流程图对如以上那样构成的数据分析装置的动作进行说明。该数据分析装置依次执行处理A系统(输入受理处理)、处理C系统(新方式生成处理)以及处理S系统(切换处理)。之后,数据分析装置反复执行与处理S系统的结果相应的处理C系统或者处理B系统(现有方式改良处理)、以及处理S系统。
首先,数据分析装置执行由处理A1~A2构成的处理A系统。
在处理A1中,例如,未图示的通信接口从外部的数据收集装置接收输入数据,并将该输入数据写入输入数据存储部1。
在处理A2中,输入数据加工部5读出输入数据存储部1内的输入数据。
由此,数据分析装置结束处理A系统的执行。
接着,数据分析装置执行由处理C1~C5构成的处理C系统。
在处理C1中,分析方式以及知识模型管理部6使格式变化生成部3启动。格式变化生成部3根据格式变化候补设定列表L1来生成在方式列表存储部2内的分析方式列表表格T1中不存在的输入数据格式变化,并将生成结果向分析方式以及知识模型管理部6送出。
同样地,分析方式以及知识模型管理部6使分析参数方式生成部4启动。分析参数方式生成部4根据分析参数方式设定列表L2来生成在方式列表存储部2内的分析方式列表表格T1中不存在的组合的分析算法名以及分析参数,并将生成结果向分析方式以及知识模型管理部6送出。
分析方式以及知识模型管理部6将所生成的输入数据格式变化、分析算法名以及分析参数写入方式列表存储部2内的分析方式列表表格T1,并且将表示该输入数据格式变化的变化生成信息向输入数据加工部5送出。
在处理C2中,输入数据加工部5基于该变化生成信息对分析对象数据进行加工,并将该加工后的分析对象数据向分析方式以及知识模型管理部6送出。
在处理C3中,分析方式以及知识模型管理部6将包含通过处理C2加工的分析对象数据、通过处理C1写入的分析方式列表表格T1内的分析算法名以及分析参数的分析执行信息通知给分析执行管理部7。
在处理C4中,分析执行管理部7将该分析执行信息向分析执行部8送出,并对分析执行部8的分析执行进行管理。分析执行部8基于所送出的分析执行信息来执行分析对象数据的分析,并将通过分析得到的知识模型向分析结果评价部9送出。
在处理C5中,分析结果评价部9对该知识模型的精度进行评价,并将所得到的知识模型精度以及知识模型精度取得日期和时间向分析方式以及知识模型管理部6送出。分析方式以及知识模型管理部6将该知识模型精度以及知识模型精度取得日期和时间写入方式列表部2的分析方式列表表格T1。此处,作为知识模型精度,例如能够使用拟合率或者再现率。
由此,数据分析装置结束处理C系统的执行。
接着,数据分析装置执行由处理S1~S4构成的处理S系统。
在处理S1中,分析方式以及知识模型管理部6从方式列表存储部2内的分析方式列表表格T1读出与表示第一位的优先顺序建立关联的知识模型名,并将包含该知识模型名的运用执行信息通知给运用执行管理部10。
在处理S2中,运用执行管理部10将该运用执行信息向运用执行部11送出,并对运用执行部11的运用执行进行管理。运用执行部11基于所送出的运用执行信息来执行输入数据的运用,并将运用执行结果向分析结果评价部9送出。
在处理S3中,运用结果评价部12对该运用执行结果的精度进行评价,并将所得到的运用精度以及运用精度取得日期和时间向分析方式以及知识模型管理部6送出。分析方式以及知识模型管理部6将从运用结果评价部12接受的运用精度以及运用精度取得日期和时间写入方式列表部2的分析方式列表表格T1。此处,作为运用精度,例如能够使用拟合率或者再现率。
在处理S4中,分析方式以及知识模型管理部6判定通过处理S3写入的运用精度与分析方式列表表格T1内的知识模型精度相比是否降低。
在该判定的结果为运用精度比知识模型精度降低的情况下,例如是由于输入数据的倾向从知识模型取得时起变化,因此对基于以前的知识模型的运用产生障碍的状况。在该状况下,需要尽快将当前运用中的知识模型切换成精度更高的知识模型。因而,选择用于尽快提高现有方式的精度的处理B系统。
另一方面,在处理S4的判定的结果为运用精度与知识模型精度相比未降低的情况下(包括相同值的情况),例如是对基于以前的知识模型的运用无障碍的状况。在该状况下,不需要尽快的应对,因此存在用于新生成更高精度的知识模型的时间余量。因而,选择与处理B系统相比需要时间但精度更高的用于新方式生成的处理C系统。
由此,数据分析装置结束处理S系统的执行。
以下,数据分析装置反复执行与处理S系统的结果相应的处理C系统或者处理B系统、以及处理S系统。
另外,以上说明了执行处理C系统的情况下的动作,因此以下说明执行处理B系统的情况下的动作。
数据分析装置执行由处理B1~B3构成的处理B系统。
在处理B1中,分析方式以及知识模型管理部6从方式列表存储部2内的分析方式列表表格T1读出与表示第一位的优先顺序建立关联的输入数据格式变化以及知识模型名。
分析方式以及知识模型管理部6将表示该输入数据格式变化的变化生成信息向输入数据加工部5送出。
输入数据加工部5基于该变化生成信息对分析对象数据进行加工,并将该加工后的分析对象数据向分析方式以及知识模型管理部6送出。此处,加工后的分析对象数据是对新取得的输入数据进行了加工而得到的分析对象数据,反映出输入数据的倾向的变化。
分析方式以及知识模型管理部6将该加工后的分析对象数据与该读出的知识模型名通知给分析执行管理部7。该通知是用于对于倾向发生了变化的分析对象数据、对现有的知识模型名所表示的知识模型进行修正的通知。
分析执行管理部7将该分析对象数据以及知识模型名向分析执行部8送出,并对分析执行部8的分析执行进行管理。分析执行部8基于所送出的分析对象数据以及知识模型名来执行分析对象数据的分析,并将通过分析而得到的知识模型向分析结果评价部9送出。
在处理B2中,分析结果评价部9对该知识模型的精度进行评价,并将所得到的知识模型精度以及知识模型精度取得日期和时间向分析方式以及知识模型管理部6送出。此处,作为知识模型精度,例如能够使用拟合率或者再现率。
在处理B3中,分析方式以及知识模型管理部6将该知识模型精度以及知识模型精度取得日期和时间写入方式列表部2的分析方式列表表格T1。
由此,数据分析装置结束处理B系统的执行。
接着,数据分析装置执行处理S系统。然后,数据分析装置反复执行与处理S系统的结果相应的处理C系统或者处理B系统、以及处理S系统。
如上所述,根据本实施方式,运用基于将分析参数与输入数据格式组合的方式的知识模型,在运用精度较低的情况下,基于输入数据和现有的方式重新生成知识模型,在运用精度不低的情况下,基于输入数据和新的方式生成知识模型。由此,在能够利用分析参数与输入数据格式的最佳组合的同时,即便输入数据的倾向变化也能够维持精度。
即,能够同时解决以往的三个课题,使对现有方式进行改良的处理B系统和生成新方式的处理C系统相互作用而提高精度,能够提取考虑了各种组合的高精度的知识模型。
此外,能够尽快开始利用了分析结果的运用,并且能够持续地、自动地提高运用结果的精度。
另外,本实施方式也能够如上述那样成为省略各设定列表L1、L2,省略表格T1内的优先顺序、运用精度等,省略分析方式以及知识模型管理部6内的第一指定功能、各通知功能和各读出功能、分析执行管理部7、以及运用执行管理部10的变形例。这种变形例如以下那样动作。
方式列表存储部2存储分析方式列表表格T1。分析方式列表表格T1将格式变化、分析算法名、分析参数、知识模型名以及知识模型精度相互建立关联地记载。
格式变化生成部3基于规定的多个格式变化候补,来生成未存储于分析方式列表表格T1的组合的格式变化。
输入数据加工部5基于所生成的格式变化,对输入数据的格式进行加工而生成分析对象数据。
分析参数方式生成部4基于规定的分析算法名候补以及分析参数的范围,生成未存储于分析方式列表表格T1的组合的分析算法名以及分析参数。
分析方式以及知识模型管理部6将所生成的格式变化和所生成的分析算法名以及分析参数写入分析方式列表表格T1。
分析执行部8基于所写入的格式变化、分析算法名以及分析参数,来执行分析对象数据的分析。
分析结果评价部9对分析的执行结果即知识模型进行评价并计算知识模型精度。
分析方式以及知识模型管理部6将所评价的知识模型的知识模型精度以及知识模型名,与所写入的格式变化、分析算法名以及分析参数建立关联地写入分析方式列表表格T1。
运用执行部11在该写入之后,基于分析方式列表表格T1内与最高的知识模型精度建立关联的知识模型名的知识模型,执行新的输入数据的运用。
运用结果评价部12对运用的执行结果进行评价并计算运用精度。
分析方式以及知识模型管理部6判定计算出的运用精度与最高的知识模型精度相比是否降低。
在该判定的结果为未降低的情况下,分析方式以及知识模型管理部6使格式变化生成部3以及分析参数方式生成部4重新启动。
另一方面,在判定的结果为降低的情况下,分析方式以及知识模型管理部6将与最高的知识模型精度建立关联的格式变化指定于输入数据加工部5,由此从输入数据加工部5得到新的分析对象数据。
分析执行部8基于新的分析对象数据以及运用时的知识模型名来执行分析,并将该分析的执行结果即知识模型向分析结果评价部9送出。
作为这种变形例,也能够得到与第一实施方式相同的效果。此外,该变形例也同样能够应用于以下的第二实施方式。
<第二实施方式>
图6是表示具备第二实施方式的数据分析装置的数据分析系统的构成的模式图,对与图1大致相同的部分赋予相同标号而省略重复的说明,此处主要对不同的部分进行说明。
第二实施方式是第一实施方式的变形例,其构成为,根据运用精度对处理B系统与处理C系统的执行比率进行调整,并且并列地执行处理B系统和处理C系统。
具体而言,数据分析装置为,相对于图1所示的构成,进一步具备用于对处理B系统与处理C系统的执行比率进行调整的并列执行关联信息存储部13以及并列执行管理部14。数据分析系统进一步具备图6所示的数据分析装置以及多个计算机,该多个计算机具有图6的虚线p1、p2表示的输入数据加工部5、分析执行管理部7、分析执行部8、运用执行管理部10以及运用执行部11。各计算机由并列执行管理部14管理,能够选择地执行与处理B系统或者处理C系统相关的各部5、7、8、以及与处理S1、S2相关的各部10、11。
与此相伴,方式列表存储部2还存储用户设定阈值表格T2。
用户设定阈值表格T2将知识模型精度下限值以及运用精度下限值相互建立关联地记载。
知识模型精度下限值表示用户设定的知识模型精度的下限值。
运用精度下限值表示用户设定的运用精度的下限值。
并列执行关联信息存储部13存储有用于在对并列执行比率进行调整的同时进行知识模型生成、运用的信息。在该例子中,并列执行关联信息存储部13内的信息为并列执行关联信息表格T3。
并列执行关联信息表格T3将机器名、利用状况、利用方式类别、分析方式ID以及知识模型名相互建立关联地记载。
机器名表示对执行并列处理的计算机(机器)进行识别的名称。
利用状况表示计算机当前的利用状况。利用状况为,在投入工作的情况下成为“利用中”、在未投入工作的情况下成为“空闲”。
利用方法类别表示“使用了现有方式的知识模型生成”(处理B系统)或者“使用了新方式的知识模型生成”(处理C系统)这种各计算机的利用方式的类别。
分析方式ID表示在该计算机的工作中所利用的分析方式ID。
知识模型名表示在该计算机的工作中所利用的知识模型名。
与此相伴,分析方式以及知识模型管理部6除了上述的功能(f6-1)~(f6-12)以外,还具备以下的各功能(f6-13)~(f6-15)。
(f6-13)第三读出功能,从分析方式列表表格T1读出与通过第三写入功能(f6-7)写入的运用精度建立关联的知识模型精度。
(f6-14)第二判定功能,判定通过第三写入功能(f6-7)写入的运用精度是否比运用精度下限值低。
(f6-15)第三判定功能,判定通过第三读出功能读出的知识模型精度是否比知识模型精度下限值低。
另一方面,并列执行管理部14参照并列执行关联信息存储部13内的并列执行关联信息表格T3,对各计算机的并列处理进行管理。
作为补充,并列执行管理部14具有以下的各功能(f14-1)~(f14-6)。
(f14-1)通信功能,能够与具备与各部5、7、8、10、11相同的各部5、7、8、10、11的多个计算机进行通信。
(f14-2)第一更新功能,在第二判定功能(f6-14)的判定结果为低的情况下,在第三判定功能(f6-15)的判定结果为否的情况下,以使各计算机的利用方式类别中、与输入数据加工部5、第二分析执行单元以及运用执行单元相关的现有方式类别的设定尽量增加的方式进行更新。
(f14-3)第二更新功能,在第二判定功能(f6-14)的判定结果为低的情况下,在第三判定功能(f6-15)的判定结果为低的情况下,以使各计算机的利用方式类别中、与输入数据加工部5、第一分析执行单元以及运用执行单元相关的新方式类别的设定增加的方式进行更新。
(f14-4)第三更新功能,在第二判定功能(f6-14)的判定结果为否的情况下,在第三判定功能(f6-15)的判定结果为否的情况下,以使各计算机的利用方式类别中、现有方式类别的设定增加的方式进行更新。
(f14-5)第四更新功能,在第二判定功能(f6-14)的判定结果为否的情况下,在第三判定功能(f6-15)的判定结果为低的情况下,以使各计算机的利用方式类别中、新方式类别的设定增加的方式进行更新。
(f14-6)执行指示功能,在设定的更新后,通过通信功能(f14-1)将与并列执行关联信息表格T3内的利用方式类别相关的各单元的执行指示,向各计算机送出。
接着,使用图9的流程图对如以上那样构成的数据分析系统的动作进行说明。另外,对于在第一实施方式中说明了的动作省略说明。
现在假设数据分析装置与上述同样地执行处理A系统、处理C系统、处理S1、S2。
在图9所示的处理S3’中,运用结果评价部12对通过处理S2送出的运用执行结果的精度进行评价,并将所得到的运用精度以及运用精度取得日期和时间向分析方式以及知识模型管理部6送出。分析方式以及知识模型管理部6将从运用结果评价部12接受的运用精度以及运用精度取得日期和时间写入方式列表部2的分析方式列表表格T1。
在处理Y1中,分析方式以及知识模型管理部6从方式列表存储部2内的用户设定阈值表格T2读出运用精度下限值以及知识模型精度下限值。此外,分析方式以及知识模型管理部6从方式列表存储部2内的分析方式列表表格T1读出知识模型精度。
在处理Y2中,分析方式以及知识模型管理部6判定通过处理S3’接受的运用精度是否比运用精度下限值低。
在处理Y3中,在Y2的判定的结果为低的情况下,分析方式以及知识模型管理部6判定知识模型精度是否比知识模型精度下限值低。
在处理Y4中,在Y3的判定的结果为否的情况(高或者相同值的情况)下,分析方式以及知识模型管理部6将利用类别“使用了现有方式的知识模型生成”以及执行比率“增加到最大”向并列执行管理部14送出。并列执行管理部14基于该利用类别以及执行比率,例如以使利用状况“利用中”、利用方式类别“使用了现有方式的知识模型生成”、分析方式ID“M008”以及知识模型名“B_20110301”的设定“增加到最大”的方式,对并列执行关联信息表格T3的设定进行更新。另外,利用方式类别“使用了现有…”的执行比率由利用方式类别“使用了现有…”的行数(机器台数)/(利用方式类别“使用了现有…”的行数+利用方式类别“使用了新…”的行数)表示。
在处理Y5中,在Y3的判定的结果为低的情况下,分析方式以及知识模型管理部6将利用类别“使用了新方式的知识模型生成”以及执行比率“增加”向并列执行管理部14送出。并列执行管理部14基于该利用类别以及执行比率,例如以使利用状况“利用中”、利用方式类别“使用了新方式的知识模型生成”、分析方式ID“空栏”以及知识模型名“空栏”的设定“增加”的方式,对并列执行关联信息表格T3的设定进行更新。另外,利用方式类别“使用了新…”的执行比率由利用方式类别“使用了新…”的行数(机器台数)/(利用方式类别“使用了现有…”的行数+利用方式类别“使用了新…”的行数)表示。
另一方面,在处理Y6中,在Y2的判定的结果为否的情况(高或者相同值的情况)下,分析方式以及知识模型管理部6判定知识模型精度是否比知识模型精度下限值低。
在处理Y7中,在Y6的判定的结果为否的情况(高或者相同值的情况)下,执行与处理Y4相同的处理。但是,执行比率为“增加”,以使并列执行关联信息表格T3的设定也“增加”的方式进行更新。
在处理Y8中,在Y3的判定的结果为低的情况下,执行与处理Y5相同的处理。
在处理Y9中,并列执行管理部14基于更新后的并列执行关联信息表格T3,将处理B系统或者处理C系统的并列执行指示于各计算机。
然后,在处理S1’中,分析方式以及知识模型管理部6从方式列表存储部2内的分析方式列表表格T1读出与表示第一位的优先顺序建立关联的知识模型名,并将包含该知识模型名的运用执行信息通知给运用执行管理部10。
在处理S2’中,运用执行管理部10将该运用执行信息向运用执行部11送出,并对运用执行部11的运用执行进行管理。运用执行部11基于所送出的运用执行信息来执行输入数据的运用,并将运用执行结果向分析结果评价部9送出。
接着,数据分析装置朝图5所示的处理S3转移。在处理S3之后,数据分析装置执行与图5所示的处理S1的结果相应的处理C系统或者处理B系统、以及处理S1、S2系统。在图5所示的处理S2之后,返回到本实施方式的处理S3’,并与上述相同地执行处理。即,在第二实施方式中,交替地反复执行图5所示的处理和图9所示的处理。
如上所述,根据本实施方式,判定运用精度是否比运用精度下限值低,并判定知识模型精度是否比知识模型精度下限值低,基于这些判定的结果,使各计算机的利用方式类别中、新方式类别或者现有方式类别的设定增加。由此,除了第一实施方式的效果以外,还能够在并列计算机环境下自动地变更新方式类别以及现有方式类别的执行比率,并且能够在更短时间内、以更高精度提取高精度的知识模型,能够提高运用结果的精度。
根据以上说明的至少一个实施方式,运用基于将分析参数与输入数据格式组合了的方式的知识模型,在运用精度较低的情况下,基于输入数据和现有的方式来重新生成知识模型,在运用精度不低的情况下,基于输入数据和新的方式来生成知识模型。由此,在能够利用分析参数与输入数据格式的最佳组合的同时,即便输入数据的倾向变化也能够维持精度。
另外,上述各实施方式所记载的方法,还能够作为能够使计算机执行的程序,存放于磁盘(软盘(注册商标)、硬盘等)、光盘(CD-ROM、DVD等)、光磁盘(MO)、半导体存储器等存储介质而进行发布。
此外,作为该存储介质,只要是能够存储程序且计算机能够读取的存储介质,则其存储形式可以是任意方式。
此外,基于从存储介质安装到计算机的程序的指示在计算机上运行的OS(操作系统)、数据库管理软件、网络软件等MW(中间软件)等,也可以执行用于实现上述实施方式的各处理的一部分。
并且,各实施方式的存储介质并不限定于相对于计算机独立的介质,也包含对通过LAN、互联网等传送的程序进行下载而存储或者暂时存储的存储介质。
此外,存储介质并不限定于一个,从多个介质执行上述各实施方式的处理的情况也包含于本发明的存储介质,介质构成可以是任意的构成。
另外,各实施方式的计算机基于存储于存储介质的程序来执行上述各实施方式的各处理,可以是由一个个人计算机等构成的装置、多个装置被网络连接的系统等的任意构成。
此外,各实施方式的计算机并不限定于个人计算机,也包含信息处理设备所包括的运算处理装置、微计算机等,统称为能够通过程序来实现本发明的功能的设备、装置。
另外,对本发明的几个实施方式进行了说明,但这些实施方式是作为例子而提示的,并不意图对发明的范围进行限定。这些新的实施方式能够以其他各种方式加以实施,在不脱离发明的主旨的范围内能够进行各种省略、置换、变更。这些实施方式及其变形包含于发明的范围及主旨中,并且包含于专利请求范围所记载的发明和与其等同的范围中。
Claims (5)
1.一种数据分析装置,其特征在于,具备:
第一存储单元(2),将格式变化、分析算法名、分析参数、知识模型名以及知识模型精度相互建立关联地存储;
格式变化生成单元(3),基于规定的多个格式变化候补,生成未存储于所述第一存储单元的组合的格式变化;
输入数据加工单元(5),基于生成的所述格式变化,对输入数据的格式进行加工而生成分析对象数据;
分析参数生成单元(4),基于规定的分析算法名候补以及分析参数的范围,生成未存储于所述第一存储单元的组合的分析算法名以及分析参数;
第一写入单元,将生成的所述格式变化、生成的所述分析算法名以及分析参数写入所述第一存储单元;
第一分析执行单元,基于写入的所述格式变化、所述分析算法名以及所述分析参数,执行所述分析对象数据的分析;
分析结果评价单元(9),对所述分析的执行结果即知识模型进行评价并计算知识模型精度;
第二写入单元,将评价的所述知识模型的知识模型精度以及知识模型名,与所述写入的所述格式变化、所述分析算法名以及所述分析参数建立关联地写入所述第一存储单元;
运用执行单元(11),在该写入之后,基于所述第一存储单元内与最高的知识模型精度建立关联的知识模型名的知识模型,执行新的输入数据的运用;
运用结果评价单元(12),对所述运用的执行结果进行评价并计算运用精度;
第一判定单元,判定计算出的所述运用精度与所述最高的知识模型精度相比是否降低;
重新启动单元,在该判定的结果为没有所述降低的情况下,重新启动所述格式变化生成单元以及所述分析参数生成单元;
指定单元,在所述判定的结果为有所述降低的情况下,通过将与所述最高的知识模型精度建立关联的格式变化指定于所述输入数据加工单元,由此从所述输入数据加工单元得到新的分析对象数据;以及
第二分析执行单元,基于所述新的分析对象数据以及所述运用时的知识模型名来执行分析,并将该分析的执行结果即知识模型向所述分析结果评价单元送出。
2.一种数据分析装置,用于对具有目标变量和作为对于所述目标变量的说明变量的候补的各变量的输入数据的格式进行加工而生成分析对象数据,对所述分析对象数据进行分析而生成基于各变量来表示所述目标变量的知识模型,将所述知识模型运用于新的输入数据的各变量而得到新的目标变量,其特征在于,具备:
第一存储单元,将对所述知识模型的生成时的精度的顺序进行表示的优先顺序、表示加工后的所述格式的格式变化、所述分析所使用的分析算法名、所述分析所使用的分析参数、识别所述知识模型的知识模型名、表示所述知识模型的生成时的精度的知识模型精度、以及表示所述知识模型的运用时的精度的运用精度,相互建立关联地存储;
第二存储单元,存储作为所述格式变化的候补的多个格式变化候补;
格式变化生成单元(3),基于所述各格式变化候补,生成未存储于所述第一存储单元的组合的格式变化;
第一指定单元,指定生成的所述格式变化;
输入数据加工单元(5),基于指定的所述格式变化来执行所述加工,由此根据所述输入数据生成所述分析对象数据;
第三存储单元,将作为所述分析算法名的候补的分析算法名候补以及作为所述分析参数的候补的分析参数的范围相互建立关联地存储;
分析参数生成单元(4),基于所述分析算法名候补以及所述分析参数的范围,生成未存储于所述第一存储单元的组合的分析算法名以及分析参数;
第一写入单元,将生成的所述格式变化、生成的所述分析算法名以及分析参数写入所述第一存储单元;
第一通知单元,通知第一分析执行信息,该第一分析执行信息包含生成的所述分析对象数据、由所述第一写入单元写入的格式变化、所述分析算法名以及所述分析参数;
第一分析执行单元,基于所述第一分析执行信息来执行所述分析;
分析结果评价单元(9),对所述分析的执行结果即知识模型进行评价,并计算表示该知识模型的精度的知识模型精度;
第二写入单元,将评价的所述知识模型的知识模型精度以及知识模型名,与由所述第一写入单元写入的所述格式变化、所述分析算法名以及所述分析参数建立关联地写入所述第一存储单元;
优先顺序更新单元,基于由所述第二写入单元写入的知识模型精度,对所述第一存储单元内的优先顺序的值进行更新;
第一读出单元,在所述更新之后,读出所述第一存储单元内与最高的优先顺序建立关联的知识模型名,并通知包含该知识模型名的运用执行信息;
运用执行单元(11),基于所述运用执行信息内的知识模型名的知识模型,执行所述运用;
运用结果评价单元(12),对所述运用的执行结果即目标变量进行评价,并计算表示该运用时的知识模型的精度的运用精度;
第三写入单元,将计算出的所述运用精度与运用时的所述知识模型的知识模型名建立关联地写入所述第一存储单元;
第一判定单元,判定由所述第三写入单元写入的运用精度,与所述第一存储单元内与该运用精度建立关联的知识模型精度相比是否降低;
重新启动单元,在该判定的结果为没有所述降低的情况下,重新启动所述格式变化生成单元以及所述分析参数生成单元,以便重新执行所述格式变化生成单元、所述第一指定单元、输入数据加工单元、所述分析参数生成单元、所述第一写入单元、所述第一通知单元、所述第一分析执行单元、所述分析结果评价单元、所述第二写入单元以及所述优先顺序更新单元;
第二读出单元,在所述判定的结果为有所述降低的情况下,读出所述第一存储单元内与最高的优先顺序建立关联的格式变化以及知识模型名;
第二指定单元,通过将由所述第二读出单元读出的格式变化指定于所述输入数据加工单元,由此从所述输入数据加工单元得到新的分析对象数据;
第二通知单元,通知包含所述新的分析对象数据以及由所述第二读出单元读出的知识模型名的第二分析执行信息;以及
第二分析执行单元,基于所述第二分析执行信息来执行分析,并将该分析的执行结果即知识模型向所述分析结果评价单元送出。
3.如权利要求2所述的数据分析装置,其特征在于,具备:
通信单元,能够与多个计算机进行通信,该多个计算机具备与所述输入数据加工单元、所述第一分析执行单元、所述运用执行单元以及所述第二分析执行单元相同的输入数据加工单元、第一分析执行单元、所述运用执行单元以及所述第二分析执行单元;
第四存储单元,存储表示所述知识模型精度的下限值的知识模型精度下限值、以及表示所述运用精度的下限值的运用精度下限值;
第五存储单元(13),将识别所述各计算机的机器名、所述各计算机的利用状况、所述各计算机的利用方式类别、以及所述各计算机所利用的知识模型名相互建立关联地存储;
第三读出单元,从所述第一存储单元读出与由所述第三写入单元写入的运用精度建立关联的知识模型精度;
第二判定单元,判定由所述第三写入单元写入的运用精度是否比所述运用精度下限值低;
第三判定单元,判定由所述第三读出单元读出的知识模型精度是否比所述知识模型精度下限值低;
第一更新单元,在所述第二判定单元的判定结果为低的情况下,在所述第三判定单元的判定结果为否的情况下,以使所述各计算机的所述利用方式类别中、与所述输入数据加工单元、所述第二分析执行单元以及所述运用执行单元相关的现有方式类别的设定尽量增加的方式进行更新;
第二更新单元,在所述第二判定单元的判定结果为低的情况下,在所述第三判定单元的判定结果为低的情况下,以使所述各计算机的所述利用方式类别中、与所述输入数据加工单元、所述第一分析执行单元以及所述运用执行单元相关的新方式类别的设定增加的方式进行更新;
第三更新单元,在所述第二判定单元的判定结果为否的情况下,在所述第三判定单元的判定结果为否的情况下,以使所述各计算机的所述利用方式类别中、所述现有方式类别的设定增加的方式进行更新;
第四更新单元,在所述第二判定单元的判定结果为否的情况下,在所述第三判定单元的判定结果为低的情况下,以使所述各计算机的所述利用方式类别中、所述新方式类别的设定增加的方式进行更新;以及
执行指示单元,在所述设定的更新后,通过所述通信单元将所述第五存储单元内的与利用方式类别相关的各单元的执行指示向所述各计算机送出。
4.一种数据分析方法,在数据分析装置中执行,用于对具有目标变量和作为对于所述目标变量的说明变量的候补的各变量的输入数据的格式进行加工而生成分析对象数据,对所述分析对象数据进行分析而生成基于各变量来表示所述目标变量的知识模型,将所述知识模型运用于新的输入数据的各变量而得到新的目标变量,所述数据分析装置具备第一存储单元、第二存储单元以及第三存储单元,所述数据分析方法的特征在于,包括:
第一步骤,将对所述知识模型的生成时的精度的顺序进行表示的优先顺序、对加工后的所述格式进行表示的格式变化、所述分析所使用的分析算法名、所述分析所使用的分析参数、识别所述知识模型的知识模型名、表示所述知识模型的生成时的精度的知识模型精度、以及表示所述知识模型的运用时的精度的运用精度,相互建立关联地写入所述第一存储单元;
第二步骤,将作为所述格式变化的候补的多个格式变化候补写入所述第二存储单元;
第三步骤,执行基于所述各格式变化候补来生成未存储于所述第一存储单元的格式变化的格式变化生成处理(3);
第四步骤,执行指定生成的所述格式变化的第一指定处理;
第五步骤,执行通过基于指定的所述格式变化来执行所述加工,由此根据所述输入数据生成所述分析对象数据的输入数据加工处理(5);
第六步骤,将作为所述分析算法名的候补的分析算法名候补、以及作为所述分析参数的候补的分析参数的范围,相互建立关联地写入所述第三存储单元;
第七步骤,执行基于所述分析算法名候补以及所述分析参数的范围来生成未存储于所述第一存储单元的组合的分析算法名以及分析参数的分析参数生成处理(4);
第八步骤,执行将生成的所述格式变化与生成的所述分析算法名以及分析参数写入所述第一存储单元的第一写入处理;
第九步骤,执行通知包含通过所述第一写入处理写入的格式变化、所述分析算法名以及所述分析参数的第一分析执行信息的第一通知处理;
第十步骤,执行基于所述第一分析执行信息来执行所述分析的第一分析执行处理;
第十一步骤,执行对所述分析的执行结果即知识模型进行评价并计算表示该知识模型的精度的知识模型精度的分析结果评价处理(9);
第十二步骤,执行将所述评价的知识模型的知识模型精度以及知识模型名与通过所述第一写入处理写入的所述格式变化、所述分析算法名以及所述分析参数建立关联地写入所述第一存储单元的第二写入处理;
第十三步骤,执行基于通过所述第二写入处理写入的知识模型精度、对所述第一存储单元内的优先顺序的值进行更新的优先顺序更新处理;
第十四步骤,执行在所述更新后、读出所述第一存储单元内与最高的优先顺序建立关联的知识模型名、并通知包含该知识模型名的运用执行信息的第一读出处理;
第十五步骤,执行基于所述运用执行信息内的知识模型名的知识模型来执行所述运用的运用执行处理(11);
第十六步骤,执行对作为所述运用的执行结果的目标变量进行评价并计算表示该运用时的知识模型的精度的运用精度的运用结果评价处理(12);
第十七步骤,执行将计算出的所述运用精度与所述运用时的知识模型的知识模型名建立关联地写入所述第一存储单元的第三写入处理;
第十八步骤,执行判定通过所述第三写入处理写入的运用精度与所述第一存储单元内与该运用精度建立关联的知识模型精度相比是否降低的第一判定处理;
第十九步骤,执行在该判定的结果为没有所述降低的情况下,重新启动所述格式变化生成处理以及所述分析参数生成处理,以重新执行所述格式变化生成处理、所述第一指定处理、输入数据加工处理、所述分析参数生成处理、所述第一写入处理、所述第一通知处理、所述第一分析执行处理、所述分析结果评价处理、所述第二写入处理以及所述优先顺序更新处理的重新启动处理;
第二十步骤,执行在所述判定的结果为有所述降低的情况下、读出所述第一存储单元内与最高的优先顺序建立关联的格式变化以及知识模型名的第二读出处理;
第二十一步骤,执行通过将所述第二读出处理读出的格式变化指定于所述格式变化生成处理、由此从所述格式变化生成处理得到新的分析对象数据的第二指定处理;
第二十二步骤,执行通知包含所述新的分析对象数据、以及通过所述第二读出处理读出的知识模型名的第二分析执行信息的第二通知处理;以及
第二十三步骤,执行基于所述第二分析执行信息来执行分析、并将该分析的执行结果即知识模型向所述分析结果评价处理送出的第二分析执行处理。
5.如权利要求4所述的数据分析方法,其特征在于,
所述数据分析装置还具备:
通信单元,能够与多个计算机进行通信,该多个计算机执行与所述输入数据加工处理、所述第一分析执行处理、所述运用执行处理以及所述第二分析执行处理相同的输入数据加工处理、第一分析执行处理、所述运用执行处理以及所述第二分析执行处理;
第四存储单元,存储表示所述知识模型精度的下限值的知识模型精度下限值、以及表示所述运用精度的下限值的运用精度下限值;以及
第五存储单元(13),将识别所述各计算机的机器名、所述各计算机的利用状况、所述各计算机的利用方式类别、以及所述各计算机所利用的知识模型名相互建立关联地存储,
所述数据分析方法包括:
第二十四步骤,执行从所述第一存储单元读出与通过所述第三写入处理写入的运用精度建立关联的知识模型精度的第三读出处理;
第二十五步骤,执行判定通过所述第三写入处理写入的运用精度是否比所述运用精度下限值低的第二判定处理;
第二十六步骤,执行判定通过所述第三读出处理读出的知识模型精度是否比所述知识模型精度下限值低的第三判定处理;
第二十七步骤,执行在所述第二判定处理的判定结果为低的情况下,在所述第三判定处理的判定结果为否的情况下,以使所述各计算机的所述利用方式类别中、与所述输入数据加工处理、所述第二分析执行处理以及所述运用执行处理相关的现有方式类别的设定尽量增加的方式进行更新的第一更新处理;
第二十八步骤,执行在所述第二判定处理的判定结果为低的情况下,在所述第三判定处理的判定结果为低的情况下,以使所述各计算机的所述利用方式类别中、与所述输入数据加工处理、所述第一分析执行处理以及所述运用执行处理相关的新方式类别的设定增加的方式进行更新的第二更新处理;
第二十九步骤,执行在所述第二判定处理的判定结果为否的情况下,在所述第三判定处理的判定结果为否的情况下,以使所述各计算机的所述利用方式类别中、所述现有方式类别的设定增加的方式进行更新的第三更新处理;
第三十步骤,执行在所述第二判定处理的判定结果为否的情况下,在所述第三判定处理的判定结果为低的情况下,以使所述各计算机的所述利用方式类别中、所述新方式类别的设定增加的方式进行更新的第四更新处理;以及
第三十一步骤,执行在所述设定的更新后、通过所述通信单元将所述第五存储单元内的与利用方式类别相关的各单元的执行指示向所述各计算机送出的执行指示处理。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012-214885 | 2012-09-27 | ||
JP2012214885A JP5656946B2 (ja) | 2012-09-27 | 2012-09-27 | データ分析装置及びプログラム |
PCT/JP2013/073843 WO2014050475A1 (ja) | 2012-09-27 | 2013-09-04 | データ分析装置及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104662564A CN104662564A (zh) | 2015-05-27 |
CN104662564B true CN104662564B (zh) | 2017-03-29 |
Family
ID=50387883
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201380050317.XA Active CN104662564B (zh) | 2012-09-27 | 2013-09-04 | 数据分析装置以及程序 |
Country Status (5)
Country | Link |
---|---|
US (1) | US10025789B2 (zh) |
EP (1) | EP2902948A4 (zh) |
JP (1) | JP5656946B2 (zh) |
CN (1) | CN104662564B (zh) |
WO (1) | WO2014050475A1 (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10977571B2 (en) * | 2015-03-02 | 2021-04-13 | Bluvector, Inc. | System and method for training machine learning applications |
KR101765292B1 (ko) | 2016-06-21 | 2017-08-04 | 어니컴 주식회사 | 목적 기반의 데이터 분석도구 제공 장치 및 방법 |
JP6697159B2 (ja) | 2016-07-13 | 2020-05-20 | 富士通株式会社 | 機械学習管理プログラム、機械学習管理装置および機械学習管理方法 |
JP6842111B2 (ja) * | 2017-04-06 | 2021-03-17 | テンソル・コンサルティング株式会社 | モデル変数候補生成装置および方法 |
US11423326B2 (en) * | 2018-09-14 | 2022-08-23 | Microsoft Technology Licensing, Llc | Using machine-learning methods to facilitate experimental evaluation of modifications to a computational environment within a distributed system |
JP6890632B2 (ja) * | 2019-06-27 | 2021-06-18 | 東京エレクトロン株式会社 | データ処理装置、データ処理方法及びプログラム |
KR102254178B1 (ko) * | 2020-10-30 | 2021-05-20 | 주식회사 애자일소다 | 인공지능 모델 서비스를 위한 사용자 인터페이스를 이용한 테스트 장치 및 방법 |
CN112235326B (zh) * | 2020-12-15 | 2021-03-16 | 长沙树根互联技术有限公司 | 物联网设备数据的解析方法、装置和电子设备 |
WO2025033190A1 (ja) * | 2023-08-09 | 2025-02-13 | 株式会社日立ハイテク | 自動分析システム及び自動分析装置の不具合対処方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1402153A (zh) * | 2001-08-08 | 2003-03-12 | 株式会社东芝 | 数据分析系统和方法 |
CN101221636A (zh) * | 2006-12-27 | 2008-07-16 | 株式会社东芝 | 定期检查数据的分析方法和装置 |
JP2010152751A (ja) * | 2008-12-25 | 2010-07-08 | Nec Corp | 統計モデル学習装置、統計モデル学習方法、およびプログラム |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7543056B2 (en) * | 2002-01-15 | 2009-06-02 | Mcafee, Inc. | System and method for network vulnerability detection and reporting |
JP2007219955A (ja) | 2006-02-17 | 2007-08-30 | Fuji Xerox Co Ltd | 質問応答システム、質問応答処理方法及び質問応答プログラム |
JP2008003920A (ja) * | 2006-06-23 | 2008-01-10 | Toshiba Corp | 時系列データの予測・診断装置およびそのプログラム |
WO2008117339A1 (ja) * | 2007-03-27 | 2008-10-02 | Fujitsu Limited | 計算ジョブ情報管理装置、端末、および、計算ジョブ情報管理システム |
US20080255760A1 (en) * | 2007-04-16 | 2008-10-16 | Honeywell International, Inc. | Forecasting system |
JP2009087190A (ja) | 2007-10-02 | 2009-04-23 | Nec Corp | ストリームデータ解析高速化装置、方法およびプログラム |
JP5119022B2 (ja) * | 2008-03-26 | 2013-01-16 | 東京瓦斯株式会社 | 可変的予測モデル構築方法、及び、可変的予測モデル構築システム |
US8385971B2 (en) * | 2008-08-19 | 2013-02-26 | Digimarc Corporation | Methods and systems for content processing |
US8280829B2 (en) * | 2009-07-16 | 2012-10-02 | Yahoo! Inc. | Efficient algorithm for pairwise preference learning |
JP5600501B2 (ja) | 2010-07-05 | 2014-10-01 | エヌ・ティ・ティ・コミュニケーションズ株式会社 | レコメンド装置、レコメンド方法、及びプログラム |
-
2012
- 2012-09-27 JP JP2012214885A patent/JP5656946B2/ja active Active
-
2013
- 2013-09-04 CN CN201380050317.XA patent/CN104662564B/zh active Active
- 2013-09-04 EP EP13841837.1A patent/EP2902948A4/en not_active Ceased
- 2013-09-04 WO PCT/JP2013/073843 patent/WO2014050475A1/ja active Application Filing
-
2015
- 2015-03-27 US US14/671,040 patent/US10025789B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1402153A (zh) * | 2001-08-08 | 2003-03-12 | 株式会社东芝 | 数据分析系统和方法 |
CN101221636A (zh) * | 2006-12-27 | 2008-07-16 | 株式会社东芝 | 定期检查数据的分析方法和装置 |
JP2010152751A (ja) * | 2008-12-25 | 2010-07-08 | Nec Corp | 統計モデル学習装置、統計モデル学習方法、およびプログラム |
Also Published As
Publication number | Publication date |
---|---|
EP2902948A4 (en) | 2016-03-09 |
US10025789B2 (en) | 2018-07-17 |
CN104662564A (zh) | 2015-05-27 |
JP2014071493A (ja) | 2014-04-21 |
WO2014050475A1 (ja) | 2014-04-03 |
EP2902948A1 (en) | 2015-08-05 |
JP5656946B2 (ja) | 2015-01-21 |
US20150199364A1 (en) | 2015-07-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104662564B (zh) | 数据分析装置以及程序 | |
CN110046810B (zh) | 一种基于赋时Petri网的车间制造系统多目标调度方法 | |
van der Aalst | Distributed process discovery and conformance checking | |
CN111142845B (zh) | 一种基于模型的任务系统需求开发方法 | |
JP2017224184A (ja) | 機械学習装置 | |
JP2012243222A (ja) | ソフトウェアの動作をテストする装置及び方法 | |
CN107609217A (zh) | 碰撞校核数据的处理方法及装置 | |
CN112329816A (zh) | 数据分类方法、装置、电子设备和可读存储介质 | |
CN110457033A (zh) | 用于在gpu上生成动态踪迹数据的装置和方法 | |
JP5773493B2 (ja) | 情報処理装置 | |
US9984184B2 (en) | Biological network analysis device and method therefor | |
JP6244274B2 (ja) | 相関ルール分析装置および相関ルール分析方法 | |
JP2013077124A (ja) | ソフトウェアテストケース生成装置 | |
US7904856B2 (en) | Arrangement handling commands as control system behaviors and data system behaviors | |
CN102629245A (zh) | 逻辑设计图检索装置 | |
JP2008305268A (ja) | 文書分類装置及び分類方法 | |
CN109800887A (zh) | 预测流程模型的生成方法、装置、存储介质和电子设备 | |
CN109615232A (zh) | 一种信用积分预测的方法、系统及相关装置 | |
US20100005469A1 (en) | Method and System for Defining One Flow Models with Varied Abstractions for Scalable lean Implementations | |
US20130031048A1 (en) | Data partitioning apparatus and data partitioning method | |
CN114780368B (zh) | 表数据同步方法与装置 | |
CN108280054A (zh) | 任务执行控制装置、任务执行控制方法以及记录介质 | |
WO2017103996A1 (ja) | 生産計画立案装置、及び生産計画立案方法 | |
CN112988403B (zh) | 具有保密功能的集成电路仿真多线程管理并行方法及装置 | |
CN106569731A (zh) | 极限存储方法、装置及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |