JPH07244668A - Data analysis system - Google Patents
Data analysis systemInfo
- Publication number
- JPH07244668A JPH07244668A JP6034409A JP3440994A JPH07244668A JP H07244668 A JPH07244668 A JP H07244668A JP 6034409 A JP6034409 A JP 6034409A JP 3440994 A JP3440994 A JP 3440994A JP H07244668 A JPH07244668 A JP H07244668A
- Authority
- JP
- Japan
- Prior art keywords
- record
- records
- database
- data analysis
- analysis system
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
(57)【要約】
【構成】 データベースを特徴を保存したまま圧縮する
特徴保存圧縮手段(1)と、レコードを任意の3次元空
間上の点として表示する3次元プロット表示手段(2)
と、該空間上の特定の2つ以上の点で決められる所定の
3次元形状を該空間上に表示する3次元形状表示手段
(3)と、該3次元形状に含まれるレコードを検出する
レコード検出手段(4)と、検出されたレコードを区別
して表示する区別表示手段(5)を具備するデータ解析
システム。
【効果】 大量のレコードからなるデータベースから、
レコードの分布状況などの特徴を保存したまま、判別可
能な規模の部分データベースを生成し、レコード全体の
傾向を把握しながら、特徴のあるレコード群を効率よく
抽出できる。
(57) [Summary] [Structure] Feature storing and compressing means (1) for compressing a database while retaining features, and three-dimensional plot displaying means (2) for displaying records as points on an arbitrary three-dimensional space.
A three-dimensional shape display means (3) for displaying a predetermined three-dimensional shape determined by two or more specific points on the space on the space; and a record for detecting a record included in the three-dimensional shape. A data analysis system comprising a detection means (4) and a distinction display means (5) for distinguishing and displaying the detected records. [Effect] From a database consisting of a large number of records,
It is possible to generate a partial database of a discriminable scale while preserving characteristics such as the distribution status of records, and to efficiently extract characteristic record groups while grasping the tendency of all records.
Description
【0001】[0001]
【産業上の利用分野】本発明は、物理実験あるいはビジ
ネスなどの分野において、大量のレコードからなるデー
タベースから、その中に含まれるレコードの属性間の関
係を導き、あるいは導いた関係を用いて任意の入力に対
する出力を予測するデータ解析システムに関する。BACKGROUND OF THE INVENTION 1. Field of the Invention In the field of physical experiments or business, the present invention derives a relation between attributes of records contained in a database consisting of a large number of records, or uses a relation derived from the relation. The present invention relates to a data analysis system that predicts an output with respect to an input of.
【0002】[0002]
【従来の技術】本発明に係る第一の従来技術として、
「ビジュアルデータ統計解析」(SAS)(SASイン
スティチュートジャパンSASシステムパンフレットMJ
UX6P1 92NOV)に記載されているように、レコード群を
3次元プロット表示し、特徴のあるレコード群を抽出す
る場合には、画面上の所定の平面図形をマウスで操作す
ることにより実現できる。2. Description of the Related Art As the first conventional technology according to the present invention,
"Visual Data Statistical Analysis" (SAS) (SAS Institute Japan SAS System Brochure MJ
UX6P1 92NOV), when a record group is three-dimensionally plotted and a characteristic record group is extracted, it can be realized by operating a predetermined plane figure on the screen with a mouse.
【0003】本発明に係る第二の従来技術として、「L
BGアルゴリズム」(Y.Linde, A.Buzo and R.M.Gray :
"An Algorithm for Vector Quantization",IEEE Tran
s.Commun.,COM-28,1,pp.84-95(Jan.1980))に記載され
ているように、特徴を保存したままデータベースを圧縮
する場合には、レコードを多次元ベクトルと考え、多次
元空間を所定の領域に分割し、領域ごとの量子化代表ベ
クトルの初期値を定め、LBGアルゴリズムを用いて収
束させれば実現できる。As a second conventional technique according to the present invention, "L
BG algorithm "(Y. Linde, A. Buzo and RMGray:
"An Algorithm for Vector Quantization", IEEE Tran
s.Commun., COM-28,1, pp.84-95 (Jan.1980)), when compressing a database while preserving features, consider records as multidimensional vectors. , The multidimensional space is divided into predetermined regions, the initial value of the quantized representative vector for each region is determined, and the LBG algorithm is used for convergence.
【0004】本発明に係る第三の従来技術として、「三
次元座標入力装置」(特開昭63−124173)に記
載されているように、3次元図形を入力する場合には、
XY,YZ,ZXの座標平面から一つを選択し、3次元
図形の選択座標平面への2次元投影図を入力し、さら
に、他の座標平面においてもそれぞれの平面への2次元
投影図を入力することにより実現できる。As a third conventional technique according to the present invention, when a three-dimensional figure is input as described in "Three-dimensional coordinate input device" (Japanese Patent Laid-Open No. 63-124173),
Select one from the XY, YZ, and ZX coordinate planes, input the two-dimensional projection diagram of the three-dimensional figure onto the selected coordinate plane, and then, in the other coordinate planes, also obtain the two-dimensional projection diagram of each plane. It can be realized by inputting.
【0005】[0005]
【発明が解決しようとする課題】上記第一の従来技術に
おいて、大量のレコードを3次元プロット表示し、特徴
のある領域のレコード群を抽出する場合には、表示され
たプロットが幾重にも重なってしまい充分にレコードの
分布を把握できず、所望のレコード群の抽出が困難であ
るという問題があった。In the first prior art described above, when a large number of records are displayed in a three-dimensional plot and a record group of a characteristic region is extracted, the displayed plots overlap each other. However, there is a problem that the distribution of records cannot be grasped sufficiently and it is difficult to extract a desired record group.
【0006】また、上記第二の従来技術において、大量
のレコードを圧縮する場合には、収束条件によっては非
常に処理に時間がかかり、また例外的なレコードが抽出
されない可能性があるという問題があった。In the second prior art, when compressing a large number of records, it takes a very long time to process depending on the convergence condition, and there is a possibility that exceptional records may not be extracted. there were.
【0007】また、上記第三の従来技術において、3次
元プロット表示したレコード群から特徴のあるレコード
を抽出するための3次元図形を指定する場合には、X
Y,YZ,ZXの座標平面から一つを選択し、3次元図
形の選択座標平面への2次元投影図を入力し、さらに、
他の座標平面においてもそれぞれの平面への2次元投影
図を入力する必要があり、所望のレコード群を含んだ図
形の指定が困難であるという問題があった。Further, in the third prior art, when a three-dimensional figure for extracting a characteristic record from a record group displayed in a three-dimensional plot is designated, X
Select one from the Y, YZ, and ZX coordinate planes, enter the two-dimensional projection drawing of the three-dimensional figure onto the selected coordinate plane, and
There is a problem that it is difficult to specify a figure including a desired record group because it is necessary to input a two-dimensional projection diagram on each of the other coordinate planes.
【0008】本発明の第一の目的は、大量のレコードか
らなるデータベースから、特徴のあるレコード群を効率
良く抽出することができるデータ解析システムを提供す
ることにある。本発明の第二の目的は、大量のレコード
からなるデータベースから、レコードの分布状況などの
性質をできるだけ忠実に反映した部分データベースを作
成することができるデータ解析システムを提供すること
にある。A first object of the present invention is to provide a data analysis system which can efficiently extract a characteristic record group from a database consisting of a large number of records. A second object of the present invention is to provide a data analysis system capable of creating a partial database that reflects the characteristics such as the distribution status of records as faithfully as possible from a database consisting of a large number of records.
【0009】本発明の第三の目的は、3次元プロット表
示したレコード群から特徴のあるレコードを抽出するこ
とができるデータ解析システムを提供することにある。
本発明の第四の目的は、大量のレコードからなるデータ
ベースから、特徴のあるレコード群を抽出して保存する
ことができるデータ解析システムを提供することにあ
る。A third object of the present invention is to provide a data analysis system capable of extracting characteristic records from a record group displayed in a three-dimensional plot.
A fourth object of the present invention is to provide a data analysis system capable of extracting and storing characteristic record groups from a database consisting of a large number of records.
【0010】本発明の第五の目的は、大量のレコードか
らなるデータベースから、例外的なレコード群を取り除
くことができるデータ解析システムを提供することにあ
る。A fifth object of the present invention is to provide a data analysis system capable of removing exceptional record groups from a database consisting of a large number of records.
【0011】[0011]
【課題を解決するための手段】上記目的は、次のような
構成によって達成される。本発明の望ましい第一の実施
形態において、データ解析システムは、(1)特徴保存
圧縮手段、(2)3次元プロット表示手段、(3)3次
元形状表示手段、(4)レコード検出手段、(5)区別
表示手段から構成される。この構成のデータ解析システ
ムを便宜上第一のデータ解析システムと称する。The above object can be achieved by the following constitution. In the first preferred embodiment of the present invention, the data analysis system includes (1) feature storage / compression means, (2) three-dimensional plot display means, (3) three-dimensional shape display means, (4) record detection means, ( 5) Consists of a distinction display means. The data analysis system having this configuration is referred to as a first data analysis system for convenience.
【0012】本発明の望ましい第二の実施形態において
は、第一のデータ解析システムの特徴保存圧縮手段が、
データベースからランダムにレコードを抽出し、このレ
コードとそれ以外のレコードとの距離を算出し、距離が
予め定められたしきい値よりも小さなレコードを抽出さ
れたレコードで代表して表現し、以後のレコード抽出候
補から除き、抽出されたレコードを部分データベースに
追加する。この構成のデータ解析システムを便宜上第二
のデータ解析システムと称する。In a second preferred embodiment of the present invention, the feature storing and compressing means of the first data analysis system comprises:
A record is randomly extracted from the database, the distance between this record and other records is calculated, and the record whose distance is smaller than a predetermined threshold is represented by the extracted record. Remove the records from the record extraction candidates and add the extracted records to the partial database. The data analysis system having this configuration is referred to as a second data analysis system for convenience.
【0013】本発明の望ましい第三の実施形態におい
て、第一のデータ解析システムの3次元形状表示手段
が、3次元領域として、特定の2点を対角線の両端の点
とし各辺がX,Y,Z軸のいずれかに平行である直方体
と、特定の1点を中心とし他の1点を球面上の点とする
球を、表示する。この構成のデータ解析システムを便宜
上第三のデータ解析システムと称する。In the third preferred embodiment of the present invention, the three-dimensional shape display means of the first data analysis system defines a three-dimensional area with two specific two points at both ends of the diagonal line and each side of X and Y. , A cuboid parallel to any of the Z axes, and a sphere having a specific one point as the center and the other one as a point on the spherical surface are displayed. The data analysis system having this configuration is referred to as a third data analysis system for convenience.
【0014】本発明の望ましい第四の実施形態におい
て、第一のデータ解析システムのレコード検出手段が、
3次元形状に含まれるレコードを新たな部分データベー
スとして保存する。この構成のデータ解析システムを便
宜上第四のデータ解析システムと称する。In a preferred fourth embodiment of the present invention, the record detection means of the first data analysis system is
The records included in the three-dimensional shape are saved as a new partial database. The data analysis system having this configuration is referred to as a fourth data analysis system for convenience.
【0015】本発明の望ましい第五の実施形態におい
て、第一のデータ解析システムのレコード検出手段が、
3次元形状に含まれるレコードをデータベースから削除
したものを、新たな部分データベースとして保存する。
この構成のデータ解析システムを便宜上第五のデータ解
析システムと称する。In a fifth preferred embodiment of the present invention, the record detection means of the first data analysis system is
The record included in the three-dimensional shape is deleted from the database and saved as a new partial database.
The data analysis system having this configuration is referred to as a fifth data analysis system for convenience.
【0016】[0016]
【作用】本発明の第一のデータ解析システムでは、特徴
保存圧縮手段によって、大量のデータベースから、その
特徴を保存したまま圧縮された部分データベースを生成
できる。すると、3次元プロット表示手段によって、部
分データベースの中のレコード群を任意の3次元空間上
の点として表示できる。すると、3次元形状表示手段に
よって、ユーザが特定した2つ以上の3次元空間上の点
で決められる所定の3次元形状を3次元空間上に表示で
きる。すると、レコード検出手段によって、この3次元
形状に含まれるレコードを検出できる。すると、区別表
示手段によって、検出されたレコードを区別して表示で
きる。従って、本発明の第一の目的である、大量のレコ
ードからなるデータベースから、特徴のあるレコード群
を効率良く抽出可能なデータ解析システムを提供するこ
とができる。In the first data analysis system of the present invention, the feature storing / compressing means can generate a partial database compressed from a large amount of databases while retaining the features. Then, the record group in the partial database can be displayed as a point in an arbitrary three-dimensional space by the three-dimensional plot display means. Then, the three-dimensional shape display means can display a predetermined three-dimensional shape determined by two or more points on the three-dimensional space specified by the user on the three-dimensional space. Then, the record detection means can detect the record included in the three-dimensional shape. Then, the distinguishing display means can distinguish and display the detected records. Therefore, the first object of the present invention is to provide a data analysis system capable of efficiently extracting a characteristic record group from a database composed of a large number of records.
【0017】本発明の第二のデータ解析システムでは、
特徴保存圧縮手段が、ランダムにレコードを抽出し、抽
出されたレコードとそれ以外のレコードとの距離を算出
し、この距離が予め定められたしきい値よりも小さなレ
コードは、抽出されたレコードで代表して表現し、以後
のレコード抽出候補から除き、抽出されたレコードを部
分データベースに追加する。従って、本発明の第二の目
的である、大量のレコードからなるデータベースから、
レコードの分布状況などの性質をできるだけ忠実に反映
した部分データベースを作成可能なデータ解析システム
を提供することができる。In the second data analysis system of the present invention,
The feature storing / compressing means randomly extracts the records, calculates the distance between the extracted record and the other records, and the record whose distance is smaller than a predetermined threshold is the extracted record. It is represented as a representative, removed from the subsequent record extraction candidates, and the extracted record is added to the partial database. Therefore, from the database of a large number of records, which is the second object of the present invention,
It is possible to provide a data analysis system capable of creating a partial database that reflects the characteristics such as the distribution status of records as faithfully as possible.
【0018】本発明の第三のデータ解析システムでは、
3次元形状表示手段が、3次元領域として、ユーザが特
定する2点を対角線の両端の点とし各辺がX,Y,Z軸
のいずれかに平行である直方体か、あるいは、ユーザの
特定する1点を中心とし、さらに他の1点を球面上の点
とする球を表示できる。従って、本発明の第三の目的で
ある、3次元プロット表示したレコード群から特徴のあ
るレコードを抽出可能なデータ解析システムを提供する
ことができる。In the third data analysis system of the present invention,
The three-dimensional shape display means, as a three-dimensional area, is a rectangular parallelepiped in which two points specified by the user are points at both ends of a diagonal line and each side is parallel to any of the X, Y, and Z axes, or the user specifies. It is possible to display a sphere with one point as the center and another point as a point on the sphere. Therefore, the third object of the present invention is to provide a data analysis system capable of extracting characteristic records from a record group displayed in a three-dimensional plot.
【0019】本発明の第四のデータ解析システムでは、
レコード検出手段が、3次元形状に含まれるレコードを
検出し、これを新たな部分データベースとして保存す
る。従って、本発明の第四の目的である、大量のレコー
ドからなるデータベースから、特徴のあるレコード群を
抽出して保存することが可能なデータ解析システムを提
供することができる。In the fourth data analysis system of the present invention,
The record detection means detects a record included in the three-dimensional shape and saves it as a new partial database. Therefore, a fourth object of the present invention is to provide a data analysis system capable of extracting and storing characteristic record groups from a database consisting of a large number of records.
【0020】本発明の第五のデータ解析システムでは、
レコード検出手段が、3次元形状に含まれるレコードを
検出し、これをデータベースから削除したものを新たな
部分データベースとして保存する。従って、本発明の第
五の目的である、大量のレコードからなるデータベース
から、例外的なレコード群を取り除くことが可能なデー
タ解析システムを提供することができる。In the fifth data analysis system of the present invention,
The record detection means detects a record included in the three-dimensional shape, deletes it from the database, and saves it as a new partial database. Therefore, a fifth object of the present invention is to provide a data analysis system capable of removing exceptional record groups from a database consisting of a large number of records.
【0021】[0021]
【実施例】以下、本発明の実施例を図面を用いて詳細に
説明する。Embodiments of the present invention will now be described in detail with reference to the drawings.
【0022】図1は、本発明の第一の実施例を示すデー
タ解析システムの概念図であり、特徴保存圧縮処理1、
3次元プロット表示処理2、3次元形状表示処理3、レ
コード検出処理4、区別表示処理5からなる。FIG. 1 is a conceptual diagram of a data analysis system showing a first embodiment of the present invention.
It includes three-dimensional plot display processing 2, three-dimensional shape display processing 3, record detection processing 4, and distinctive display processing 5.
【0023】特徴保存圧縮処理1において、大量のデー
タベースから、その特徴を保存したまま圧縮された部分
データベースが生成される。3次元プロット表示処理2
において、部分データベース中のレコード群が、ユーザ
によって指定された任意の3次元空間上の点として画面
に表示される。3次元形状表示処理3において、ユーザ
によって、画面上に3次元表示された点がマウスなどの
入力装置で2つ以上指定され、これらの点で特定される
所定の3次元形状が表示される。レコード検出処理4に
おいて、3次元形状の内部に含まれる点で表されたレコ
ードが検出される。区別表示処理5において、検出され
たレコードを表す点が他の点と区別して表示される。以
上の一連の処理は、それぞれ繰返し行うことができ、前
の処理に容易に戻ることができる。In the feature preservation / compression process 1, a large number of databases are used to generate a partial database which is compressed while retaining its features. 3D plot display processing 2
In, the records in the partial database are displayed on the screen as points in the arbitrary three-dimensional space designated by the user. In the three-dimensional shape display process 3, the user designates two or more points three-dimensionally displayed on the screen with an input device such as a mouse, and a predetermined three-dimensional shape specified by these points is displayed. In the record detection processing 4, a record represented by a point included inside the three-dimensional shape is detected. In the distinctive display processing 5, the points representing the detected record are displayed separately from other points. The series of processes described above can be repeatedly performed, and the process can be easily returned to the previous process.
【0024】図2は、図1のデータ解析システムのハー
ドウェア構成図で、入力装置21、中央処理装置22、
表示装置23、外部記憶装置24からなる。FIG. 2 is a hardware configuration diagram of the data analysis system of FIG. 1, which includes an input device 21, a central processing unit 22,
It comprises a display device 23 and an external storage device 24.
【0025】図2において、外部記憶装置24中のデー
タベースからレコードが中央処理装置22に読み込ま
れ、中央処理装置22では、上述した特徴保存圧縮処理
1、3次元プロット表示処理2、3次元形状表示処理
3、レコード検出処理4、区別表示処理5が行われ、入
力装置21からユーザによって3次元表示軸の指定、3
次元形状を特定する点の指定などが行われ、表示装置2
3にはレコードの3次元プロット、3次元形状などが表
示される。In FIG. 2, a record is read from the database in the external storage device 24 into the central processing unit 22, and in the central processing unit 22, the above-mentioned feature preservation compression processing 1, three-dimensional plot display processing 2, three-dimensional shape display. Processing 3, record detection processing 4, and distinctive display processing 5 are performed, and the user specifies the three-dimensional display axis from the input device 21.
The points for specifying the three-dimensional shape are designated, and the display device 2
In 3, a three-dimensional plot of the record, a three-dimensional shape, etc. are displayed.
【0026】表1は、データベースの例である。銀行の
顧客情報に関するデータベースで、属性は、顧客名、年
齢、定期残高、普通残高、積立残高、定期口数、・・
・、取引年数、取引回数、定期性残高変化からなってい
る。下波線部11は、顧客コードが「オ31」、年齢が
41才、定期預金残高が4010K¥、普通預金残高が
2660K¥、積立預金残高が6975K¥、・・・、
取引回数が133、定期性残高変化が1.238%であ
ることを示している。以下、このデータベースを用い
て、「定期性残高変化の多い顧客の特徴は何か」を分析
するためのアプローチを例として、説明する。Table 1 is an example of a database. A database of bank customer information, with attributes such as customer name, age, term balance, ordinary balance, reserve balance, number of term accounts, ...
・ Transaction years, number of transactions, periodicity balance changes. The lower wavy line portion 11 has a customer code of “o31”, an age of 41, a time deposit balance of 4010K ¥, an ordinary deposit balance of 2660K ¥, a savings deposit balance of 6975K ¥, ...
It shows that the number of transactions is 133 and the change in periodicity balance is 1.238%. Hereinafter, using this database, an approach for analyzing "what is the characteristic of the customer whose periodicity balance changes frequently" will be described as an example.
【0027】[0027]
【表1】 [Table 1]
【0028】図3は、図1に示すデータ解析システムの
動作フローチャートである。まず、外部記憶装置24か
ら中法処理装置22にデータベースを読み込み(ステッ
プ101)、特徴保存圧縮の度合いを決める圧縮パラメ
ータがユーザによって入力され(ステップ102)、圧
縮パラメータに応じてデータベースを特徴保存圧縮1し
て部分データベースを作成する(ステップ103)。デ
ータベースの圧縮度合いを変更する場合にはステップ1
02に戻り、変更しない場合には、ステップ105に進
む(ステップ104)。FIG. 3 is an operation flowchart of the data analysis system shown in FIG. First, the database is read from the external storage device 24 into the intermediate processing device 22 (step 101), the compression parameter for determining the degree of feature preservation compression is input by the user (step 102), and the database is preserved and compressed according to the compression parameter. 1 to create a partial database (step 103). Step 1 when changing the degree of database compression
If no change is made, the process proceeds to step 105 (step 104).
【0029】さらに、ユーザによって3次元表示する座
標軸が入力され(ステップ105)、圧縮された部分デ
ータベース中のレコードを入力された座標軸の3次元空
間上の点として3次元プロット表示する(ステップ10
6)。表示座標軸を変更する場合にはステップ105に
戻り、変更しない場合には、ステップ108に進む(ス
テップ107)。Further, the user inputs the coordinate axes to be displayed three-dimensionally (step 105), and the records in the compressed partial database are three-dimensionally plotted and displayed as points on the three-dimensional space of the input coordinate axes (step 10).
6). If the display coordinate axis is changed, the process returns to step 105, and if not changed, the process proceeds to step 108 (step 107).
【0030】さらに、ユーザによって、画面上に3次元
表示された点がマウスなどの入力装置で2つ以上指定さ
れ、これらの点で特定される所定の3次元形状を表示す
る(ステップ108)。部分データベース中のレコード
で、3次元形状の内部に含まれるレコードを検出する
(ステップ109)。検出したレコードを表す点を他の
レコードを表す点と区別して表示し(ステップ11
0)、3次元形状を変更する場合にはステップ108に
戻り、変更しない場合には、終了する(ステップ11
1)。Further, the user designates two or more points three-dimensionally displayed on the screen with an input device such as a mouse, and displays a predetermined three-dimensional shape specified by these points (step 108). A record included in the three-dimensional shape is detected from the records in the partial database (step 109). The points representing the detected record are displayed separately from the points representing the other records (step 11).
0) If the three-dimensional shape is changed, the process returns to step 108, and if not changed, the process ends (step 11).
1).
【0031】ただし、図1に示すデータ解析システムの
動作は、ステップ101からステップ111までの一連
の動作以外にも、(1)データベースの規模が小さく、
圧縮する必要がない場合(ステップ101からステップ
105に進む)、(2)ユーザが3次元プロット表示を
見た段階で、表示レコード数の変更を決定し、再び圧縮
する場合(ステップ107からステップ102に戻
る)、(3)ユーザが3次元空間上に区別表示されたレ
コード群を見た段階で、表示レコード数の変更を決定
し、再び圧縮する場合(ステップ111からステップ1
02に戻る)、(4)ユーザが3次元空間上に区別表示
されたレコード群を見た段階で、表示座標軸の変更を決
定し、再び表示座標軸を入力する場合(ステップ111
からステップ105に戻る)、等のバリエーションが考
えられる。However, in the operation of the data analysis system shown in FIG. 1, in addition to the series of operations from step 101 to step 111, (1) the scale of the database is small,
When there is no need for compression (proceeding from step 101 to step 105), (2) when the user sees the three-dimensional plot display, decides to change the number of display records and compresses again (step 107 to step 102). (3), (3) When the user decides to change the number of displayed records and compresses again at the stage when the user sees the record groups displayed in distinction in the three-dimensional space (step 111 to step 1).
(Return to 02), (4) When the user decides to change the display coordinate axis and inputs the display coordinate axis again at the stage when the user sees the record groups displayed in distinction in the three-dimensional space (step 111).
To step 105)) and so on.
【0032】図4は特徴保存圧縮処理1を表すフローチ
ャートである。特徴保存圧縮処理1の概念図である図5
を用いて、説明する。属性1と属性2に関して、12個
のレコードが図5のように分布しているものとする。FIG. 4 is a flowchart showing the feature preservation compression processing 1. FIG. 5 is a conceptual diagram of the feature storage compression processing 1.
Will be explained. For the attributes 1 and 2, 12 records are assumed to be distributed as shown in FIG.
【0033】特徴保存圧縮処理1では、まず全てのレコ
ードを非選択状態に初期化する(ステップ201)。非
選択状態のレコードから任意に1件(xとする)を選択
し(ステップ202)、xと、x以外の非選択状態のレ
コードyとの距離D(x,y)を算出する(ステップ2
03)。すなわち、例えばレコード301が最初に選択
された場合、レコード301とそれ以外のレコードとの
距離を算出する。In the characteristic preservation compression processing 1, first, all records are initialized to the non-selected state (step 201). One (x) is arbitrarily selected from the records in the non-selected state (step 202), and the distance D (x, y) between x and the record y in the non-selected state other than x is calculated (step 2).
03). That is, for example, when the record 301 is first selected, the distance between the record 301 and the other records is calculated.
【0034】さらに、距離がしきい値よりも小さなレコ
ードyの個数Nを算出し(ステップ204)、xにyの
番号と個数を付加したものを、部分データベースに出力
し(ステップ205)、xと距離がしきい値よりも小さ
なレコードyを選択状態にセットする(ステップ20
6)。すなわち、レコード301との距離が予め定めら
れたしきい値よりも小さなレコード(図5では、30
6、307、309、311、312)は、レコード3
01で代表して表現するものとし、以後のレコード選択
候補からは除いておく。レコード301には、代表する
レコードの番号と個数(図5では、番号として、30
6、307、309、311、312、個数として、6
件)を付加した上で部分データベースに追加する。ただ
し、部分データベースに付加される代表する(圧縮され
た)レコードの番号の代わりにに、顧客コードなど、レ
コードを識別できるものを利用してもよい。Furthermore, the number N of records y whose distance is smaller than the threshold value is calculated (step 204), and the number of y and the number of records y are added to the partial database and output (step 205). And the record y whose distance is smaller than the threshold is set to the selected state (step 20).
6). That is, a record whose distance from the record 301 is smaller than a predetermined threshold value (30 in FIG. 5).
6, 307, 309, 311, 312) is the record 3
It is represented by 01 and is excluded from the subsequent record selection candidates. In the record 301, the number and the number of representative records (in FIG. 5, the number is 30
6, 307, 309, 311, 312, the number is 6
Items) and then add to the partial database. However, instead of the representative (compressed) record number added to the partial database, a customer code or other record identifying record may be used.
【0035】さらに、全てのレコードが選択状態になっ
ていない場合には、ステップ202に戻り、全て選択状
態になっている場合には終了する(ステップ207)。
すなわち、以下同様の処理を繰返し、レコード308が
レコード数2、レコード304がレコード数3、レコー
ド305がレコード数1として選択され、部分データベ
ースの選択が完了する。Furthermore, if all the records are not in the selected state, the process returns to step 202, and if all the records are in the selected state, the process ends (step 207).
That is, the same process is repeated thereafter, the record 308 is selected as the record number 2, the record 304 is selected as the record number 3 and the record 305 is selected as the record number 1, and the selection of the partial database is completed.
【0036】なお、距離は、例えば D(x,y)=ΣWi(xi−yi)2 (数1) で定義しておくものとする。iは属性を表す添字、xi
はレコードxの属性iの値、Wiは属性iに対する重み
である。The distance is defined by, for example, D (x, y) = ΣW i (x i −y i ) 2 (Equation 1). i is a subscript indicating an attribute, x i
Is the value of the attribute i of the record x, and W i is the weight for the attribute i.
【0037】図6は、本発明の特徴保存圧縮処理時に利
用するしきい値を決定する処理を表すフローチャートで
ある。元のデータベースと、圧縮後の部分データベース
の圧縮比率(圧縮後部分データベースのレコード数/元
のデータベースのレコード数)を決定する要因は、しき
い値であり、所望の圧縮率を達成するためには、しきい
値を決定する必要がある。以下、このしきい値を決定す
る処理方法を示す。FIG. 6 is a flow chart showing the process of determining the threshold value used in the feature preservation compression process of the present invention. The factor that determines the compression ratio of the original database and the partial database after compression (the number of records of the partial database after compression / the number of records of the original database) is the threshold value, and in order to achieve the desired compression ratio. Needs to determine the threshold. The processing method for determining this threshold will be described below.
【0038】まず、全てのレコードからランダムに少数
(N個)サンプリングする(ステップ401)。サンプ
リングされたN個のレコードから任意のレコードxを選
択し(ステップ402)、サンプリングされなかった全
てのレコードyとの距離を算出する(ステップ40
3)。なお距離は、上記式(数1)を用いるものとす
る。First, a small number (N) of all records are randomly sampled (step 401). An arbitrary record x is selected from N sampled records (step 402), and the distances to all unsampled records y are calculated (step 40).
3). Note that the above equation (Equation 1) is used for the distance.
【0039】さらに、距離の小さいレコードから順番に
並べ、圧縮度合いに応じた数M((元のデータベースの
レコード数/圧縮後の部分データベースのレコード数)
を整数化した値)番目のレコードとの距離MDを算出す
る(ステップ404)。サンプリングされたN個のレコ
ード全てについてMDを算出していない場合にはステッ
プ402に戻り、全てのレコードについて算出されてい
ればステップ406に進む(ステップ405)。サンプ
リングされたN個のレコードに関するMDの平均値をし
きい値として出力し終了する(ステップ406)。Further, the records are arranged in order from the one with the smallest distance, and the number M ((the number of records of the original database / the number of records of the partial database after compression) is determined according to the degree of compression.
Is converted to an integer) and the distance MD to the (third) record is calculated (step 404). If the MD has not been calculated for all the N records sampled, the process returns to step 402, and if the MD has been calculated for all records, the process proceeds to step 406 (step 405). The average value of MDs of N sampled records is output as a threshold value, and the process ends (step 406).
【0040】表2は、特徴保存圧縮後の部分データベー
スの例である。属性として、代表数と代表顧客コードが
付加されている。例えば、顧客コード「オ31」のレコ
ードは、「タ29」、「コ55」、・・・、「ス93」
を代表している。Table 2 is an example of the partial database after the feature storage compression. The number of representatives and the representative customer code are added as attributes. For example, the record of the customer code “o31” is “ta29”, “ko55”, ...
On behalf of.
【0041】[0041]
【表2】 [Table 2]
【0042】図7は、3次元プロット表示の例である。
各レコードを表す点は、代表レコード数に応じて、模様
を変えて表示されている。代表レコード数を表すもの
は、模様の他、色、点の大きさ、形でも良い。FIG. 7 shows an example of three-dimensional plot display.
The points representing each record are displayed in different patterns according to the number of representative records. In addition to the pattern, the number of representative records may be color, dot size, or shape.
【0043】図8〜図10は、ユーザが、3次元形状表
示処理3、レコード検出処理4、区別表示処理5を用い
て、特徴のあるレコード群を抽出した場合の表示例であ
る。ユーザは、レコードの3次元プロット表示を見なが
らレコードAを指定し(図8)、さらに、レコードBを
追加指定した(図9)。このとき、3次元形状として、
2点A、Bを対角線上の両端の点とし、各辺がX、Y、
Z軸のいずれかに平行である直方体が表示されている。
さらに、幾つかの点を追加指定し、レコードCを指定し
た段階での表示例が図10である。このとき、レコード
検出処理4によって3次元形状(直方体)の内部に含ま
れるレコードが検出され、区別表示処理5によってそれ
以外のレコードと区別して×が付加されて表示されてい
る。8 to 10 show display examples when the user extracts a characteristic record group by using the three-dimensional shape display processing 3, the record detection processing 4, and the distinctive display processing 5. The user designated record A while viewing the three-dimensional plot display of the record (FIG. 8), and further designated record B (FIG. 9). At this time, as a three-dimensional shape,
Two points A and B are points on both ends of the diagonal line, and each side is X, Y,
A rectangular parallelepiped that is parallel to any of the Z axes is displayed.
Further, FIG. 10 shows a display example at the stage where the record C is designated by additionally designating some points. At this time, the record detection process 4 detects a record included in the inside of the three-dimensional shape (rectangular solid), and the distinction display process 5 distinguishes it from the other records and displays it by adding a cross.
【0044】図11は、3次元形状が球である場合の表
示例であり、レコードAを中心とし、レコードBを球面
上の点とする球が表示され、内部に含まれるレコードは
区別して表示されている。FIG. 11 is a display example when the three-dimensional shape is a sphere, and a sphere having the record A as the center and the record B as a point on the sphere is displayed, and the records contained inside are displayed separately. Has been done.
【0045】以上の第1の実施例により、ユーザは、ビ
ジネス分野における大規模で、属性が多いデータベース
から、データベース全体の特性を損なうこと無く、3次
元プロット表示で判別可能な規模(数)の部分データベ
ースを作成し、3次元プロット表示できるので、視覚的
な判断で、容易にデータベース全体の特徴を捕らえるこ
とができる。また、統計解析などの手法と併用すること
により、それらの手法で得られたデータベースの属性の
傾向など数値的な結果を、ユーザが実際に目で確認・評
価することができる。According to the first embodiment described above, the user can determine the size (number) that can be discriminated by the three-dimensional plot display from the large-scale database with many attributes in the business field without impairing the characteristics of the entire database. Since a partial database can be created and displayed in a three-dimensional plot, the features of the entire database can be easily captured by visual judgment. In addition, when used in combination with a method such as statistical analysis, the user can actually visually check and evaluate the numerical result such as the tendency of the attribute of the database obtained by those methods.
【0046】以下に、第一の実施例の変形である第二の
実施例について説明する。データ検出処理で検出された
レコードを、新たな部分データベースとして保存するの
である。図12は、第二の実施例を示すデータ解析シス
テムの動作フローチャートである。A second embodiment, which is a modification of the first embodiment, will be described below. The record detected by the data detection process is saved as a new partial database. FIG. 12 is an operation flowchart of the data analysis system showing the second embodiment.
【0047】まず、外部記憶装置24から中法処理装置
22にデータベースを読み込み(ステップ501)、特
徴保存圧縮の度合いを決める圧縮パラメータがユーザに
よって入力され(ステップ502)、圧縮パラメータに
応じてデータベースを特徴保存圧縮1して部分データベ
ースを作成する(ステップ503)。データベースの圧
縮度合いを変更する場合にはステップ502に戻り、変
更しない場合には、ステップ505に進む(ステップ5
04)。First, the database is read from the external storage device 24 into the intermediate processing device 22 (step 501), the compression parameter for determining the degree of feature preservation compression is input by the user (step 502), and the database is loaded according to the compression parameter. Feature storage compression 1 is performed to create a partial database (step 503). If the degree of compression of the database is changed, the process returns to step 502, and if not, the process proceeds to step 505 (step 5).
04).
【0048】ユーザによって3次元表示する座標軸が入
力され(ステップ505)、圧縮された部分データベー
ス中のレコードを入力された座標軸の3次元空間上の点
として3次元プロット表示する(ステップ506)。表
示座標軸を変更する場合にはステップ505に戻り、変
更しない場合には、ステップ508に進む(ステップ5
07)。ユーザによって、画面上に3次元表示された点
がマウスなどの入力装置で2つ以上指定され、これらの
点で特定される所定の3次元形状を表示する(ステップ
508)。A coordinate axis for three-dimensional display is input by the user (step 505), and the record in the compressed partial database is three-dimensionally plotted and displayed as a point on the three-dimensional space of the input coordinate axis (step 506). When the display coordinate axis is changed, the process returns to step 505, and when it is not changed, the process proceeds to step 508 (step 5
07). The user designates two or more points three-dimensionally displayed on the screen with an input device such as a mouse, and displays a predetermined three-dimensional shape specified by these points (step 508).
【0049】さらに、部分データベース中のレコード
で、3次元形状の内部に含まれるレコードを検出する
(ステップ509)。検出したレコードを表す点を他の
レコードを表す点と区別して表示し(ステップ51
0)、3次元形状を変更する場合にはステップ508に
戻り、変更しない場合には、ステップ512に進む(ス
テップ511)。検出したレコードを新たな部分データ
ベースとして保存して終了する(ステップ512)。Further, records included in the three-dimensional shape are detected from the records in the partial database (step 509). The points representing the detected record are displayed separately from the points representing other records (step 51).
0) If the three-dimensional shape is changed, the process returns to step 508, and if not changed, the process proceeds to step 512 (step 511). The detected record is saved as a new partial database and the process ends (step 512).
【0050】ただし、図12に示すデータ解析システム
の動作は、ステップ501からステップ511までの一
連の動作以外にも、(1)データベースの規模が小さ
く、圧縮する必要がない場合(ステップ501からステ
ップ505に進む)、(2)ユーザが3次元プロット表
示を見た段階で、表示レコード数の変更を決定し、再び
圧縮する場合(ステップ507からステップ502に戻
る)、(3)ユーザが3次元空間上に区別表示されたレ
コード群を見た段階で、表示レコード数の変更を決定
し、再び圧縮する場合(ステップ511からステップ5
02に戻る)、(4)ユーザが3次元空間上に区別表示
されたレコード群を見た段階で、表示座標軸の変更を決
定し、再び表示座標軸を入力する場合(ステップ511
からステップ505に戻る)、等のバリエーションが考
えられる。However, the operation of the data analysis system shown in FIG. 12 is, in addition to the series of operations from step 501 to step 511, (1) when the scale of the database is small and compression is not necessary (step 501 to step (Step 505), (2) When the user views the three-dimensional plot display and decides to change the number of display records and compresses again (returning from step 507 to step 502), (3) user is three-dimensional When it is decided to change the number of displayed records at the stage of seeing the record groups displayed separately in the space and compressing again (steps 511 to 5)
(Return to 02), (4) when the user decides to change the display coordinate axis and inputs the display coordinate axis again at the stage when the user sees the record groups displayed in distinction in the three-dimensional space (step 511).
To step 505)) and the like.
【0051】また、検出したレコードを保存した新たな
部分データベースを改めて読み込み一連の処理(ステッ
プ501からステップ512)を行うことも考えられ
る。It is also conceivable to newly read a new partial database storing the detected record and perform a series of processes (step 501 to step 512).
【0052】以上の第二の実施例により、ユーザは、ビ
ジネス分野における大規模で、属性が多いデータベース
から、レコードの分布の偏りなどの非線形的な特性を分
析して、特徴のあるレコード群を抽出し、保存すること
ができる。According to the second embodiment described above, the user analyzes a non-linear characteristic such as the bias of the distribution of records from a large-scale database with many attributes in the business field and selects a characteristic record group. It can be extracted and saved.
【0053】また、圧縮後の部分データベースには、代
表レコード番号が付加されているので、保存されたレコ
ード群に付加された代表レコード番号を利用して、元の
データベース全体から、特徴あるレコード群全てを検索
することができる。さらに、3次元形状表示処理を用い
た分析で、特徴のあるレコード群として検出され保存さ
れた部分データベースを、新たなデータベースとして3
次元プロット表示することにより、局所的な拡大表示が
実現できる。また、物理シミュレーション分野におけ
る、3次元表示された流体を表すデータに対して、同様
の処理を行うことにより、局所的な拡大表示がされ、部
分的に詳細にわたる分析ができる。Since the representative record number is added to the compressed partial database, the representative record number added to the saved record group is used to extract the characteristic record group from the entire original database. You can search all. Furthermore, in the analysis using the three-dimensional shape display processing, the partial database detected and stored as a characteristic record group is used as a new database.
Local enlarged display can be realized by displaying a three-dimensional plot. Further, in the field of physical simulation, the same processing is performed on the three-dimensionally displayed data representing the fluid, so that a locally enlarged display is performed and a partial detailed analysis can be performed.
【0054】さらに、3次元表示では同時に3つの属性
に関する分析しか行えないが、3次元形状表示処理を用
いた分析で、特徴のあるレコード群として検出され保存
された部分データベースを、新たなデータベースとして
3次元プロット表示し、いろいろな軸で分析し、さらに
特徴のあるレコード群を検出し保存することを繰り返す
ことにより、多次元的な属性に関する分析が実現でき
る。さらに、特徴保存圧縮処理をして、規模を小さくし
た部分データベースを使って、統計手法、ニューロモデ
リング、ルールインダクション手法などを適用すること
により、データベース全体の特性を保存したまま、処理
時間を短縮した分析ができる。Further, in the three-dimensional display, only the analysis on three attributes can be performed at the same time, but the partial database detected and saved as a characteristic record group by the analysis using the three-dimensional shape display processing is used as a new database. By displaying a three-dimensional plot, analyzing on various axes, and further detecting and storing characteristic record groups, it is possible to realize multidimensional analysis of attributes. Furthermore, by applying feature saving and compression processing and using a reduced partial database, statistical methods, neuromodeling, rule induction methods, etc. were applied to reduce the processing time while preserving the characteristics of the entire database. Can analyze.
【0055】以下に、第一の実施例の変形である第三の
実施例について説明する。データ検出処理で検出された
レコードを、新たな部分データベースとして保存するの
である。図13は、第三の実施例を示すデータ解析シス
テムの動作フローチャートである。A third embodiment, which is a modification of the first embodiment, will be described below. The record detected by the data detection process is saved as a new partial database. FIG. 13 is an operation flowchart of the data analysis system showing the third embodiment.
【0056】まず、外部記憶装置24から中法処理装置
22にデータベースを読み込み(ステップ601)、特
徴保存圧縮の度合いを決める圧縮パラメータがユーザに
よって入力され(ステップ602)、圧縮パラメータに
応じてデータベースを特徴保存圧縮1して部分データベ
ースを作成する(ステップ603)。データベースの圧
縮度合いを変更する場合にはステップ602に戻り、変
更しない場合には、ステップ605に進む(ステップ6
04)。First, the database is read from the external storage device 24 into the intermediate processing device 22 (step 601), the compression parameter for determining the degree of feature preservation compression is input by the user (step 602), and the database is stored according to the compression parameter. Feature storage compression 1 is performed to create a partial database (step 603). If the degree of compression of the database is changed, the process returns to step 602, and if not, the process proceeds to step 605 (step 6).
04).
【0057】さらに、ユーザによって3次元表示する座
標軸が入力され(ステップ605)、圧縮された部分デ
ータベース中のレコードを入力された座標軸の3次元空
間上の点として3次元プロット表示する(ステップ60
6)。表示座標軸を変更する場合にはステップ605に
戻り、変更しない場合には、ステップ608に進む(ス
テップ607)。ユーザによって、画面上に3次元表示
された点がマウスなどの入力装置で2つ以上指定され、
これらの点で特定される所定の3次元形状を表示する
(ステップ608)。Further, the coordinate axis for three-dimensional display is input by the user (step 605), and the record in the compressed partial database is three-dimensionally plotted and displayed as a point on the three-dimensional space of the input coordinate axis (step 60).
6). When the display coordinate axis is changed, the process returns to step 605, and when it is not changed, the process proceeds to step 608 (step 607). The user specifies two or more points that are three-dimensionally displayed on the screen with an input device such as a mouse.
A predetermined three-dimensional shape specified by these points is displayed (step 608).
【0058】さらに、部分データベース中のレコード
で、3次元形状の内部に含まれるレコードを検出する
(ステップ609)。検出したレコードを表す点を他の
レコードを表す点と区別して表示し(ステップ61
0)、3次元形状を変更する場合にはステップ608に
戻り、変更しない場合には、ステップ612に進む(ス
テップ611)。検出したレコードをデータベースから
除去したものを新たな部分データベースとして保存して
終了する(ステップ612)。Further, records included in the three-dimensional shape are detected from the records in the partial database (step 609). The points representing the detected record are displayed separately from the points representing other records (step 61).
0) If the three-dimensional shape is changed, the process returns to step 608, and if not changed, the process proceeds to step 612 (step 611). The detected record removed from the database is saved as a new partial database and the process ends (step 612).
【0059】ただし、図13に示すデータ解析システム
の動作は、ステップ601からステップ611までの一
連の動作以外にも、(1)データベースの規模が小さ
く、圧縮する必要がない場合(ステップ601からステ
ップ605に進む)、(2)ユーザが3次元プロット表
示を見た段階で、表示レコード数の変更を決定し、再び
圧縮する場合(ステップ607からステップ602に戻
る)、(3)ユーザが3次元空間上に区別表示されたレ
コード群を見た段階で、表示レコード数の変更を決定
し、再び圧縮する場合(ステップ611からステップ6
02に戻る)、(4)ユーザが3次元空間上に区別表示
されたレコード群を見た段階で、表示座標軸の変更を決
定し、再び表示座標軸を入力する場合(ステップ611
からステップ605に戻る)、等のバリエーションが考
えられる。However, the operation of the data analysis system shown in FIG. 13 is, in addition to the series of operations from step 601 to step 611, (1) when the database is small and compression is not necessary (step 601 to step 601). (Step 605), (2) When the user decides to change the number of displayed records at the stage of viewing the three-dimensional plot display and compresses again (returning from step 607 to step 602), (3) user three-dimensional When it is decided to change the number of displayed records at the stage of seeing the record groups displayed separately in the space and compressing again (steps 611 to 6)
(Return to 02), (4) when the user decides to change the display coordinate axis and inputs the display coordinate axis again at the stage when the user sees the record groups displayed separately in the three-dimensional space (step 611).
From step S605 to step 605).
【0060】また、検出したレコードをデータベースか
ら除去したものを保存した新たな部分データベースを改
めて読み込み一連の処理(ステップ601からステップ
612)を行うことも考えられる。It is also conceivable to newly read a new partial database in which the detected record is removed from the database and perform a series of processes (steps 601 to 612).
【0061】以上の第三の実施例により、ユーザは、ビ
ジネス分野における大規模で、属性が多いデータベース
から、レコードの分布の偏りなどの非線形的な特性を分
析して、データベースから例外的なレコード群を除去し
て、保存することができる。According to the third embodiment described above, the user analyzes a non-linear characteristic such as a bias in the distribution of records from a large-scale database with many attributes in the business field and records exceptional records from the database. The group can be removed and saved.
【0062】また、圧縮後の部分データベースには、代
表レコード番号が付加されているので、保存されたレコ
ード群に付加された代表レコード番号を利用して、元の
データベース全体から、例外的なレコードを除いたレコ
ード群全てを検索することができる。3次元形状表示処
理を用いた分析で、データベースから例外的なレコード
群が除去されて保存された部分データベースを、新たな
データベースとして3次元プロット表示し、いろいろな
軸で分析し、さらに例外的なレコード群を検出し除去す
ることを繰り返すことにより、多次元的な属性に関する
例外的レコード除去が実現できる。特徴保存圧縮処理1
に関しては、3次元表示だけでなく、2次元表示関して
も同様の効果が期待できる。Since the representative record number is added to the compressed partial database, the representative record number added to the saved record group is used to make an exceptional record from the entire original database. You can search all record groups except. In the analysis using the three-dimensional shape display processing, the partial database saved by removing the exceptional record group from the database is displayed as a new database in three-dimensional plot display, analyzed in various axes, and further analyzed. By repeatedly detecting and removing a record group, exceptional record removal related to multidimensional attributes can be realized. Feature preservation compression processing 1
With regard to (2), the same effect can be expected not only for three-dimensional display but also for two-dimensional display.
【0063】[0063]
【発明の効果】本発明のデータ解析システムにおいて、 (1)特徴保存圧縮手段と3次元プロット表示手段と3
次元形状表示手段とレコード検出手段と区別表示手段を
有するので、大量のレコードからなるデータベースか
ら、レコードの分布状況などの特徴を保存したまま、判
別可能な規模の部分データベースを生成し、3次元プロ
ット表示によって全体の傾向を把握しながら、特徴のあ
るレコード群を効率よく抽出できる。According to the data analysis system of the present invention, (1) feature storing / compressing means, three-dimensional plot displaying means, and 3
Since it has a three-dimensional shape display means, a record detection means, and a distinction display means, a partial database of a discriminable scale is generated from a database consisting of a large number of records while the characteristics such as the distribution state of the records are stored, and three-dimensional plotting is performed. It is possible to efficiently extract characteristic record groups while grasping the overall tendency by the display.
【0064】(2)特徴保存圧縮手段によって、ランダ
ムにレコードを抽出し、抽出されたレコードとそれ以外
のレコードとの距離を算出し、この距離が予め定められ
たしきい値よりも小さなレコードは、抽出されたレコー
ドで代表して表現し、以後のレコード抽出候補から除
き、抽出されたレコードを部分データベースに追加する
ので、大量のレコードからなるデータベースから、レコ
ードの分布状況などの性質をできるだけ忠実に反映した
部分データベースを作成できる。(2) The feature storing / compressing means randomly extracts records, calculates the distance between the extracted record and the other records, and records the distance of which is smaller than a predetermined threshold value. Since it is represented by the extracted records, it is excluded from the subsequent record extraction candidates and the extracted records are added to the partial database, so the characteristics such as the distribution status of the records are faithfully reproduced from the database consisting of a large number of records. You can create a partial database that is reflected in.
【0065】(3)3次元形状表示手段によって、3次
元範囲として特定の2点で決められる直方体・球を指定
できるので、所望のレコードを逃すことなく、3次元プ
ロット表示したレコード群から特徴のあるレコードを抽
出できる。(3) Since the three-dimensional shape display means can specify a rectangular parallelepiped or a sphere determined by two specific two-dimensional points as the three-dimensional range, the desired record is not missed, and the characteristic is selected from the record group displayed in the three-dimensional plot. You can extract a record.
【0066】(4)レコード検出手段によって、指定さ
れた3次元形状の示す範囲内のレコードを検出し、保存
できるので、大量のレコードからなるデータベースから
特徴のあるレコード群を抽出して保存することができ
る。(4) Since the record detection means can detect and store the records within the range indicated by the specified three-dimensional shape, it is necessary to extract and store the characteristic record group from the database of a large number of records. You can
【0067】(5)レコード検出手段によって、指定さ
れた3次元形状の示す範囲内のレコードを検出し、削除
できるので、大量のレコードからなるデータベースから
例外的なレコード群を取り除くことができる。(5) Since the record detecting means can detect and delete the records within the range indicated by the specified three-dimensional shape, it is possible to remove the exceptional record group from the database consisting of a large number of records.
【図1】本発明の第一の実施例を示す情報処理システム
の概念図である。FIG. 1 is a conceptual diagram of an information processing system showing a first embodiment of the present invention.
【図2】図1のデータ解析システムのハードウェア構成
図である。FIG. 2 is a hardware configuration diagram of the data analysis system of FIG.
【図3】図1に示すデータ解析システムの動作フローチ
ャートである。FIG. 3 is an operation flowchart of the data analysis system shown in FIG.
【図4】特徴保存圧縮処理1を表すフローチャートであ
る。FIG. 4 is a flowchart showing a feature preservation compression process 1.
【図5】特徴保存圧縮処理1の概念図であるFIG. 5 is a conceptual diagram of a feature preservation compression process 1.
【図6】特徴保存圧縮処理1のしきい値を決定する処理
を表すフローチャートである。FIG. 6 is a flowchart showing a process of determining a threshold value of the feature preservation compression process 1.
【図7】3次元プロット表示の例である。FIG. 7 is an example of a three-dimensional plot display.
【図8】3次元形状表示処理で、レコードAを指定した
場合の表示例である。FIG. 8 is a display example when a record A is designated in the three-dimensional shape display processing.
【図9】3次元形状表示処理で、レコードBを追加指定
した場合の表示例である。FIG. 9 is a display example when a record B is additionally designated in the three-dimensional shape display processing.
【図10】3次元形状表示処理で、レコードCを追加指
定した場合の表示例がである。FIG. 10 shows a display example when a record C is additionally specified in the three-dimensional shape display process.
【図11】3次元形状表示処理で、3次元形状が球であ
る場合の表示例である。FIG. 11 is a display example when the three-dimensional shape is a sphere in the three-dimensional shape display processing.
【図12】第二の実施例を示すデータ解析システムの動
作フローチャートである。FIG. 12 is an operation flowchart of the data analysis system showing the second embodiment.
【図13】第三の実施例を示すデータ解析システムの動
作フローチャートである。FIG. 13 is an operation flowchart of the data analysis system showing the third embodiment.
1:特徴保存圧縮、2:3次元プロット表示、3:3次
元形状表示、4:レコ−ド検出、5:区別表示、21:
入力装置、22:中央処理装置、23:表示装置、2
4:外部記憶装置。1: Feature preservation compression, 2: Three-dimensional plot display, 3: Three-dimensional shape display, 4: Record detection, 5: Discrimination display, 21:
Input device, 22: central processing unit, 23: display device, 2
4: External storage device.
───────────────────────────────────────────────────── フロントページの続き (72)発明者 伊藤 幸康 神奈川県横浜市戸塚区戸塚町5030番地 株 式会社日立製作所ソフトウェア開発本部研 究所内 (72)発明者 広瀬 正 神奈川県川崎市麻生区王禅寺1099番地 株 式会社日立製作所システム開発研究所内 ─────────────────────────────────────────────────── ─── Continuation of the front page (72) Inventor Yukiyasu Ito 5030 Totsuka-cho, Totsuka-ku, Yokohama-shi, Kanagawa, Ltd., Ltd., Software Development Division, Hitachi, Ltd. Bachi Co., Ltd. Hitachi, Ltd. System Development Laboratory
Claims (6)
その中に含まれるレコードの属性間の関係を導く、ある
いは該関係を用いて任意の入力に対する出力を予測する
データ解析システムにおいて、 特徴を保存したままデータベースを圧縮する特徴保存圧
縮手段と、レコードを任意の3次元空間上の点として表
示する3次元プロット表示手段と、該空間上の特定の2
つ以上の点で決められる所定の3次元形状を該空間上に
表示する3次元形状表示手段と、該3次元形状に含まれ
るレコードを検出するレコード検出手段と、検出された
レコードを区別して表示する区別表示手段を具備するこ
とを特徴とするデータ解析システム。1. A data analysis system for deriving a relationship between attributes of records contained in a database consisting of a set of records, or predicting an output for an arbitrary input using the relationship, while preserving features. Feature storing / compressing means for compressing the database, three-dimensional plot displaying means for displaying the records as points on an arbitrary three-dimensional space, and a specific 2 on the space.
Three-dimensional shape display means for displaying a predetermined three-dimensional shape determined by one or more points in the space, record detection means for detecting records included in the three-dimensional shape, and the detected records are displayed separately. A data analysis system, comprising: a distinctive display means.
ードとそれ以外のレコードとの距離を算出し、該距離が
予め定められたしきい値よりも小さなレコードは、前記
抽出されたレコードで代表して表現し、以後のレコード
抽出候補から除き、抽出されたレコードを部分データベ
ースに追加することを特徴とする請求項1記載のデータ
解析システム。2. The feature storing / compressing means randomly extracts a record from a database, calculates a distance between the record and another record, and records a record whose distance is smaller than a predetermined threshold value. The data analysis system according to claim 1, wherein the extracted record is represented as a representative, and the extracted record is removed from subsequent record extraction candidates, and the extracted record is added to the partial database.
軸のいずれかに平行である直方体であることを特徴とす
る請求項1記載のデータ解析システム。3. The predetermined three-dimensional shape is such that two specific points are points at both ends of a diagonal line, and each side is X, Y, Z.
The data analysis system according to claim 1, wherein the data analysis system is a rectangular parallelepiped parallel to any of the axes.
であることを特徴とする請求項1記載のデータ解析シス
テム。4. The data analysis system according to claim 1, wherein the predetermined three-dimensional shape is a sphere having a specific one point as a center and another point as a point on a spherical surface.
することを特徴とする請求項1記載のデータ解析システ
ム。5. The data analysis system according to claim 1, wherein the record detection means stores the detected record as a new partial database.
たな部分データベースとして保存することを特徴とする
請求項1記載のデータ解析システム。6. The data analysis system according to claim 1, wherein the record detection means stores the detected record deleted from the database as a new partial database.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP6034409A JPH07244668A (en) | 1994-03-04 | 1994-03-04 | Data analysis system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP6034409A JPH07244668A (en) | 1994-03-04 | 1994-03-04 | Data analysis system |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH07244668A true JPH07244668A (en) | 1995-09-19 |
Family
ID=12413398
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP6034409A Pending JPH07244668A (en) | 1994-03-04 | 1994-03-04 | Data analysis system |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH07244668A (en) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07319905A (en) * | 1994-05-25 | 1995-12-08 | Fujitsu Ltd | Information retrieval device |
JP2001273302A (en) * | 2000-03-23 | 2001-10-05 | Toshiba Corp | System and method for retrieving picture |
JP2002132830A (en) * | 2000-10-27 | 2002-05-10 | Nippon Telegr & Teleph Corp <Ntt> | Method and system for displaying web site information |
JP2004133684A (en) * | 2002-10-10 | 2004-04-30 | Ntt Data Corp | Information retrieval system and information retrieval program |
-
1994
- 1994-03-04 JP JP6034409A patent/JPH07244668A/en active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07319905A (en) * | 1994-05-25 | 1995-12-08 | Fujitsu Ltd | Information retrieval device |
JP2001273302A (en) * | 2000-03-23 | 2001-10-05 | Toshiba Corp | System and method for retrieving picture |
JP2002132830A (en) * | 2000-10-27 | 2002-05-10 | Nippon Telegr & Teleph Corp <Ntt> | Method and system for displaying web site information |
JP2004133684A (en) * | 2002-10-10 | 2004-04-30 | Ntt Data Corp | Information retrieval system and information retrieval program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP1073272B1 (en) | Signal processing method and video/audio processing device | |
EP0183347B1 (en) | Video image recognition system | |
JP4236116B2 (en) | Image feature extraction method and apparatus | |
JP5466812B2 (en) | A process for selecting an object in the PLM database and a device that implements this process | |
US6829608B2 (en) | Systems and methods for discovering mutual dependence patterns | |
US20030214504A1 (en) | Method for visualizing graphical data sets having a non-uniform graphical density for display | |
KR20040023679A (en) | Image texture retrieving method, and computer readable recording medium having program to perform the method | |
WO2002025494A1 (en) | Database query system and method | |
JP2004334594A (en) | Image searching device, image searching method, image searching program, and recording medium with the program recorded thereon | |
JPH08272825A (en) | Data analysis method | |
US20050114831A1 (en) | Volume body renderer | |
JP3006338B2 (en) | Motion area contour detection device | |
Keim et al. | Visualization | |
JPH01161481A (en) | Display | |
KR19980070101A (en) | Method and apparatus for deriving a coupling rule between data, and method and apparatus for extracting orthogonal convex region | |
JPH07244668A (en) | Data analysis system | |
US7584187B2 (en) | System, detecting method and program | |
JPH05204991A (en) | Time-series data search method and search system using the same | |
US6424963B1 (en) | Document retrieval having retrieval conditions that shuffles documents in a sequence of occurrence | |
CN117150138B (en) | Scientific and technological resource organization method and system based on high-dimensional space mapping | |
CN118312755A (en) | A method and device for reordering industrial control data features | |
Rushmeier et al. | Case study: Visualizing customer segmentations produced by self organizing maps | |
Antini et al. | Retrieval of 3d objects using curvature correlograms | |
JPH08287086A (en) | Method and device for emphasizing and displaying image in order of adaptability | |
JP2001155020A (en) | Device and method for retrieving similar document and recording medium |