JP7439913B2 - データカラムの分類方法および分類システム - Google Patents
データカラムの分類方法および分類システム Download PDFInfo
- Publication number
- JP7439913B2 JP7439913B2 JP2022515146A JP2022515146A JP7439913B2 JP 7439913 B2 JP7439913 B2 JP 7439913B2 JP 2022515146 A JP2022515146 A JP 2022515146A JP 2022515146 A JP2022515146 A JP 2022515146A JP 7439913 B2 JP7439913 B2 JP 7439913B2
- Authority
- JP
- Japan
- Prior art keywords
- column
- input
- pattern
- mixed
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 19
- 238000011156 evaluation Methods 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 5
- 239000000470 constituent Substances 0.000 description 3
- 101150090973 STR2 gene Proteins 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 101150035983 str1 gene Proteins 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Quality & Reliability (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
表1にあるDBと表2にあるDBとを統合する場合、住所がトリガとなる共通項目であるが、表1には住所に該当するカラムがない上に、一部のデータは電話番号が入力されているために、表1の学校名や電話番号と表2の建物情報とを紐付けることができない。
まず本実施形態の概要について説明する。
備考欄の入力値を情報の種類毎にグループ化する。以降、本書では、表1の備考欄のように情報の種類が複数あるカラムを混合カラムと称するものとする。本書で利用するDBは、混合カラムの各入力値が、別の特定の欄に入力された情報との間に規則的な文字列上の重複がある。混合カラムの入力値と文字列上の重複がある欄との組み合わせをパターンと称する。重複を許可すると、パターンは混合カラムの入力値の個数分だけ得られる。
各パターンについて、入力規則の候補の中で最も類似しているものを選ぶ。同じ規則を選んだパターンを1つのグループとすることで、混合カラムの各入力がグループ化できる。グループ化によって、DB統合の際に、DB間で共通している項目の発見が容易になる。
以下、データカラムの分類方法の詳細な手順について説明する。
例えば、表1のDBでは、di=[「1」「い」「東京都」「港区」「1-11-1」「03」「123」「5678」]が得られる。
このとき、集合Dの要素であるデータdjに対応する混合カラムをajとする。
以下、文字列str1、str2について、共通する文字の集合をstr1 ∩ str2 で表記する。
混合カラム以外に入力された情報の中で、ajと共通する文字列を含むもののインデックスをすべて抽出する。すなわち、aj∩dj[x]≠φ(x≠y)となるようなインデックスxを見つける。ここでφは空集合を表す。
i) 共通している文字列の長さが文字列dj[x]の長さの半分以上であること。ただし、数字または記号(:;-+@等)が共通している場合、共通文字列の長さは2以上またはdj[x]に数字と記号以外の文字が含まれている必要があるものとする。
ii) 共通している文字列は文字列dj[x]の先頭の文字を削除したもの、あるいは末尾の文字を削除したものと一致すること。例えば、dj[x]=「福島郡山」であった場合、ajと共通している文字列が「福島」や「郡山」であれば条件ii)を満たすが、「福山」は条件ii)を満たさない。
piに属するデータの集合をDiと表記し、Diの各データをdiとする。
iv) piに格納されている各インデックスIij∈pi(j∈{1,2,…,|pi|})の値から欄のばらつき値biを下式
bi:=(max(pi)-min(pi))/(|pi|)
で計算する。
Ii1=13/5=2.6、
Ii2=17/5=3.4、
ei=18/5=3.6、
vi=3.2/5=0.64
である。
ri:=(Σjlij)/(ei+Σjlij)
に従って計算する。
si:=vi
が小さいほどalが各パターンの欄以外に含む文字列がlに関わらずに固定化されていると考えられるので、入力規則として確立している。
ばらつき値bi、割合ri、確実さsiを、各パターンpiについて計算する。ここで3項目は、それぞれ単位が異なるので、ベクトル化したデータ
各パターンpiの評価値fiを、次式
fi:=bi+si
により計算する。ステップ2での定義により、評価値fiは値が小さいほど良いパターンであることとなる。
ステップ4で得られたパターンの評価値を用いてパターンの絞り込みを行う。ただし、パターンpiとpjで、次の条件vi)とvii)が成り立つとき、パターンをPから除外する。
vi) パターンpiとpjに格納されている要素について、次式
(|pi∩pj|/|pi∪pj|)≧α、0≦α≦1
(ただし、αは定数で、分子はpiとpjに共通する要素の総数を、分母はpiとpjのいずれかに含まれている要素の総数。)
vii) 次のいずれかが成立していること。すなわち、
(1)fi≦fj、且つrj≦ri、
(2)fi-fj≦ri-rj(fi≦fjの場合)、且つ、
rj-ri≦fj-fi(rj≦riの場合)。
Pの要素パターンを入力規則の候補として出力する。ステップ5でPから除外したパターンからなる集合をSとする。
各集合Sの要素について、入力規則候補の集合Pの中で最も類似している候補を、集合類似度を用いて選ぶ。同じ候補を選んだパターンの集合を1つのグループとする。
以下、前述したデータカラムの分類方法の手順に基づいた具体的な実施例について説明する。
備考欄と共通する文字列を含むような欄の組み合わせを抽出すると、次の表5のようになる。
p1=[都道府県、市町村、番地]
p2=[市外局、番号1、番号2]
p3=[学校名、番号2]
となる。
iv) piに格納されている各インデックスIij∈pi(j∈{1,2,3})の値から欄のばらつき値biを計算する。
p1:都道府県(左から3番目)、市町村(4番目)、番地(5番目)より、
b1=(5-3)/3=2/3
p2:市外局(左から6番目)、番号1(7番目)、番号2(8番目)より、
b2=(8-6)/3=2/3
p3:学校名(左から2番目)、番号2(8番目)より、
b3=(8-2)/2=3
となる。
各パターンの欄と混合カラムに共通している文字列の長さを求めると、e1は以下の表6のように、
r1=(3+2.75+5.2)/(0.2+3+2.75+5.2)=10.95/11.15≒0.982
となる。
r2=(2.75+3+3.75)/(2.25+2.75+3+3.75)=9.5/11.25≒0.844
となる。
r3=(1+4.5)/(6.5+1+4.5)=5.5/12≒0.4583
となる。
ばらつき値bi、割合ri、確実さsiを、各パターンpiについて計算し、ベクトル化したデータを、それぞれ平均が0、分散が1となるように正規化する。すなわち、
bi:=[2/3,2/3,3]→[-0.777,-0.77,1.55]
ri:=[10.95/11.15,9.5/11.25,5.5/12]→[0.99,0.37,-1.37]
si:=[4/25,3/16,1/4]→[-1.04,-0.31,1.35]
となる。
正規化したばらつき値bi、割合ri、確実さsiによる各パターンpiの評価値fiを、
f1=-1.818,f2=-1.088,f3=2.905
として算出する。
本実施例では定数α=1/5とした。このときにパターンp2、p3は、
|pi∩pj|/|pi∪pj|
=(|{番号2}|)/(|{学校名、市外局、番号1、番号2}|)
=1/4≧1/5、且つ
f2≦f3、且つr3≦r2、
が成立するために、パターンp3を除去する。
集合Pの要素パターンで、残ったパターンp1、p2を入力規則の候補として出力する。またステップ5でPから除外したパターンp3を集合Sの要素とする。
ステップ5で集合Pから除外した、集合Sのパターンp3について、入力規則の候補のパターンp1、p2との集合類似度を、Jaccard関数を用いて計算する。すなわち、
p1とp3:|p1∩p3|/|p1∪p3|=0
p2とp3:|p2∩p3|/|p2∪p3|=1/4
となり、類似度が最大となったパターンp2を選出する。
以上に詳述した如く本実施形態によれば、複数のデータベースの統合時にデータベース間で共通する情報を持つカラムの発見を容易にすることが可能となる。
Claims (3)
- 情報の種類が複数存在する混合カラムの各入力値が、別の特定の欄に入力された情報との間に規則的な文字列上の重複があるデータベースを対象としたデータカラムの分類システムにより実行される方法であって、
前記データカラムの分類システムの抽出手段により、前記混合カラムの入力値と文字列上の重複がある欄をパターンと称して、前記混合カラムが存在しているデータベースにおいて、前記パターンの中から、前記混合カラムの入力値の表を表すのに最も適したパターンを抽出することと、
前記データカラムの分類システムの分類手段により、前記抽出手段が抽出した前記パターンを入力規則と称して、各パターンを予め特定した評価軸により定量的に評価することで、入力規則の候補を決定し、前記混合カラムの各入力値を、入力規則を用いてグループ分けすることと、
を備えるデータカラムの分類方法。 - 前記分類手段は、
前記予め特定した評価軸として、前記パターン中のカラムのばらつき、前記入力規則としての確実さ、および前記混合カラムに入力されている文字列中での占有率、の少なくとも1つを用いる、
請求項1に記載のデータカラムの分類方法。 - 情報の種類が複数存在する混合カラムの各入力値が、別の特定の欄に入力された情報との間に規則的な文字列上の重複があるデータベースを対象としたデータカラムの分類システムであって、
前記混合カラムの入力値と文字列上の重複がある欄をパターンと称して、前記混合カラムが存在しているデータベースにおいて、前記パターンの中から、前記混合カラムの入力値の表を表すのに最も適したパターンを抽出する抽出手段と、
抽出した前記パターンを入力規則と称して、各パターンを予め特定した評価軸により定量的に評価することで、入力規則の候補を決定し、前記混合カラムの各入力値を、入力規則を用いてグループ分けする分類手段と、
を備えるデータカラムの分類システム。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2020/016768 WO2021210140A1 (ja) | 2020-04-16 | 2020-04-16 | データカラムの分類方法および分類システム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2021210140A1 JPWO2021210140A1 (ja) | 2021-10-21 |
JP7439913B2 true JP7439913B2 (ja) | 2024-02-28 |
Family
ID=78084161
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022515146A Active JP7439913B2 (ja) | 2020-04-16 | 2020-04-16 | データカラムの分類方法および分類システム |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP7439913B2 (ja) |
WO (1) | WO2021210140A1 (ja) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001056810A (ja) | 1999-06-07 | 2001-02-27 | Kawasaki Steel Systems R & D Corp | データベースアクセスシステム |
JP2018124828A (ja) | 2017-02-01 | 2018-08-09 | 日本電信電話株式会社 | 表データ分析プログラム |
US20190129959A1 (en) | 2017-10-30 | 2019-05-02 | Bank Of America Corporation | Performing database file management using statistics maintenance and column similarity |
US20190147100A1 (en) | 2017-11-10 | 2019-05-16 | Shanghai Xiaoi Robot Technology Co., Ltd. | Method and apparatus for establishing intelligent question answering repository, and intelligent question answering method |
-
2020
- 2020-04-16 JP JP2022515146A patent/JP7439913B2/ja active Active
- 2020-04-16 WO PCT/JP2020/016768 patent/WO2021210140A1/ja active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001056810A (ja) | 1999-06-07 | 2001-02-27 | Kawasaki Steel Systems R & D Corp | データベースアクセスシステム |
JP2018124828A (ja) | 2017-02-01 | 2018-08-09 | 日本電信電話株式会社 | 表データ分析プログラム |
US20190129959A1 (en) | 2017-10-30 | 2019-05-02 | Bank Of America Corporation | Performing database file management using statistics maintenance and column similarity |
US20190147100A1 (en) | 2017-11-10 | 2019-05-16 | Shanghai Xiaoi Robot Technology Co., Ltd. | Method and apparatus for establishing intelligent question answering repository, and intelligent question answering method |
Non-Patent Citations (1)
Title |
---|
神 明夫、外5名,ストアデータからルールを自動推定する技術の検討,電子情報通信学会技術研究報告,日本,一般社団法人電子情報通信学会,2018年02月22日,第117巻,第465号,p.97-102 |
Also Published As
Publication number | Publication date |
---|---|
JPWO2021210140A1 (ja) | 2021-10-21 |
WO2021210140A1 (ja) | 2021-10-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108509481B (zh) | 基于文献共引聚类的研究前沿可视分析方法 | |
Billari | Sequence analysis in demographic research | |
CN110597870A (zh) | 一种企业关系挖掘方法 | |
CN107423279B (zh) | 一种金融信贷短信的信息抽取和分析方法 | |
WO2021164382A1 (zh) | 针对用户分类模型进行特征处理的方法及装置 | |
CN111754345B (zh) | 一种基于改进随机森林的比特币地址分类方法 | |
US20040122841A1 (en) | Method and system for evaluating intellectual property | |
TWI709927B (zh) | 目標用戶群體的確定方法及裝置 | |
CN108415953A (zh) | 一种基于自然语言处理技术的不良资产经营知识管理方法 | |
CN107018062A (zh) | 用于使用主题信息识别垃圾消息的系统和方法 | |
CA2750609A1 (en) | Methods and systems for matching records and normalizing names | |
EP1043666A2 (en) | A system for identification of selectively related database records | |
CN114386100A (zh) | 一种公有云用户敏感数据管理方法 | |
CN112417165B (zh) | 一种生涯规划知识图谱构建及查询方法和系统 | |
CN113362071A (zh) | 一种针对以太坊平台的庞氏骗局识别方法及系统 | |
CN114817557A (zh) | 基于企业征信大数据知识图谱的企业风险检测方法和装置 | |
US11880394B2 (en) | System and method for machine learning architecture for interdependence detection | |
JP3812818B2 (ja) | データベース生成装置、データベース生成方法及びデータベース生成処理プログラム | |
JP7439913B2 (ja) | データカラムの分類方法および分類システム | |
JP7029865B2 (ja) | 標準項目名設定装置、標準項目名設定方法及び標準項目名設定プログラム | |
CN110941703A (zh) | 一种基于机器学习和模糊规则的集成简历信息抽取方法 | |
Schild et al. | Linking survey data with administrative social security data-the project'interactions between capabilities in work and private life' | |
CN113609353A (zh) | 一种企业关联关系识别方法、装置以及电子设备 | |
CN110019829A (zh) | 数据属性确定方法、装置 | |
CN116484019A (zh) | 中文异体字字典库构建与输出利用方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220902 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20230104 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20230208 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20231024 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20231225 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240116 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240129 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7439913 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |