JP2021157667A - 更新支援装置、更新支援方法及び更新支援プログラム - Google Patents
更新支援装置、更新支援方法及び更新支援プログラム Download PDFInfo
- Publication number
- JP2021157667A JP2021157667A JP2020059169A JP2020059169A JP2021157667A JP 2021157667 A JP2021157667 A JP 2021157667A JP 2020059169 A JP2020059169 A JP 2020059169A JP 2020059169 A JP2020059169 A JP 2020059169A JP 2021157667 A JP2021157667 A JP 2021157667A
- Authority
- JP
- Japan
- Prior art keywords
- category
- pattern
- dictionary
- weight
- correct answer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 68
- 238000012545 processing Methods 0.000 claims description 42
- 239000000284 extract Substances 0.000 claims description 11
- 238000010586 diagram Methods 0.000 abstract description 27
- 238000012795 verification Methods 0.000 description 100
- 239000010931 gold Substances 0.000 description 37
- 229910052737 gold Inorganic materials 0.000 description 37
- 230000000694 effects Effects 0.000 description 27
- 230000006870 function Effects 0.000 description 25
- 239000013585 weight reducing agent Substances 0.000 description 17
- 238000004891 communication Methods 0.000 description 8
- 238000007596 consolidation process Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 4
- 238000003491 array Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 231100000957 no side effect Toxicity 0.000 description 2
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000004580 weight loss Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】カテゴライズ規則の更新作業を効率化する更新支援装置、更新支援方法及び更新支援プログラムを提供する。
【解決手段】更新支援装置(分類装置)は、所定のキーワードと照合されるパターンと、パターンが属するカテゴリと、カテゴリに付与された重みと、を含むレコードを有する辞書を参照して、算出されるスコアが最高であるカテゴリに検証対象のキーワードを分類する分類部と、分類結果が不正解であるキーワードの少なくとも一部と一致するパターンを含むレコードのうち、正解カテゴリを含む第1のレコードに含まれるパターンと、正解カテゴリよりもスコアが上位である上位カテゴリを含む第2のレコードに含まれるパターンとを連結して連結パターンを生成する連結部と、連結パターンと、正解カテゴリ及び上位カテゴリの何れかカテゴリと、何れかのカテゴリに付与された重みとを含むレコードを辞書に追加するレコメンドを出力する出力部と、を有する。
【選択図】図8
【解決手段】更新支援装置(分類装置)は、所定のキーワードと照合されるパターンと、パターンが属するカテゴリと、カテゴリに付与された重みと、を含むレコードを有する辞書を参照して、算出されるスコアが最高であるカテゴリに検証対象のキーワードを分類する分類部と、分類結果が不正解であるキーワードの少なくとも一部と一致するパターンを含むレコードのうち、正解カテゴリを含む第1のレコードに含まれるパターンと、正解カテゴリよりもスコアが上位である上位カテゴリを含む第2のレコードに含まれるパターンとを連結して連結パターンを生成する連結部と、連結パターンと、正解カテゴリ及び上位カテゴリの何れかカテゴリと、何れかのカテゴリに付与された重みとを含むレコードを辞書に追加するレコメンドを出力する出力部と、を有する。
【選択図】図8
Description
本発明は、更新支援装置、更新支援方法及び更新支援プログラムに関する。
パーソナルデータの利用や活用には、機微情報の秘匿化等の安全管理措置が求められる。このような安全管理措置を講じる側面から、データベースの列名を当該列名が属するカテゴリに分類するカテゴライズ処理が行われる場合がある。例えば、カテゴライズ処理の結果、機微情報に該当するカテゴリに分類された列名のデータを暗号化することにより、パーソナルデータをプライバシに配慮した形式に加工できる。
上記のカテゴライズ処理には、カテゴライズ規則が記述された辞書が用いられることがある。例えば、カテゴライズ規則として、データベースの列名等に対応するキーワードと照合される文字や文字列等のパターン、パターンが属するカテゴリ、さらには、カテゴリに付与された重みなどが辞書に登録され得る。このように辞書に記述されたパターンのうちキーワードの少なくとも一部と一致するパターンの重みに基づいてスコア、例えば重みの総和をカテゴリごとに算出することで、スコアが最大であるカテゴリがカテゴライズ処理の結果として出力される。
しかしながら、上記のカテゴライズ規則には、その更新作業が煩雑であるという側面がある。
例えば、業種特有のキーワードや新語などへ対応する側面から、上記のカテゴライズ規則の更新が求められる場合がある。この場合、辞書の重みを調整したり、あるいは新規のパターンを辞書に追加したりといった更新作業が煩雑になる。例えば、辞書の重みが変更された場合、重みの変更前には正解のカテゴリに分類できていたキーワードが重みの変更後に正解のカテゴリに分類できなくなるといった副作用が生じる場合がある。また、辞書の重みを変更したとしても、依然として、新語に対応するキーワードを正解のカテゴリに分類できない場合がある。さらに、重みの調整による対応が困難である場合、新規のパターンが辞書に追加される場合もある。ところが、辞書に新規のパターンを追加するには、パターン、カテゴリおよび重みの各々の要素を新規に作成する必要がある上、副作用が生じない値に各々の要素を調整するには多大な労力が生じる。
1つの側面では、本発明は、カテゴライズ規則の更新作業を効率化できる更新支援装置、更新支援方法及び更新支援プログラムを提供することを目的とする。
一態様では、更新支援装置は、所定のキーワードと照合されるパターンと、前記パターンが属するカテゴリと、前記カテゴリに付与された重みとを含むレコードを有する辞書を参照して、検証対象のキーワードの少なくとも一部と一致するパターンが属するカテゴリに付与された重みからカテゴリごとに算出されるスコアが最高であるカテゴリに前記検証対象のキーワードを分類する分類部と、分類結果が不正解であるキーワードの少なくとも一部と一致するパターンを含むレコードのうち、正解カテゴリを含む第1のレコードに含まれるパターンと、前記正解カテゴリよりもスコアが上位である上位カテゴリを含む第2のレコードに含まれるパターンとを連結して連結パターンを生成する連結部と、前記連結パターンと、前記正解カテゴリ及び前記上位カテゴリのいずれかのカテゴリと、前記いずれかのカテゴリに付与された重みとを含むレコードを前記辞書に追加するレコメンドを出力する出力部と、を有する。
カテゴライズ規則の更新作業を効率化できる。
以下に添付図面を参照して本願に係る更新支援装置、更新支援方法及び更新支援プログラムについて説明する。なお、この実施例は開示の技術を限定するものではない。そして、各実施例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。
[システム構成]
図1は、実施例1に係る分類装置の機能的構成の一例を示すブロック図である。図1に示す分類装置10は、データベースの列名などに対応するキーワードを当該キーワードが属するカテゴリに分類する「カテゴライズ機能」を提供するものである。
図1は、実施例1に係る分類装置の機能的構成の一例を示すブロック図である。図1に示す分類装置10は、データベースの列名などに対応するキーワードを当該キーワードが属するカテゴリに分類する「カテゴライズ機能」を提供するものである。
このようなカテゴライズ機能は、ユースケースのあくまで一例として、パーソナルデータの利用時および活用時に講じる安全管理措置の一環として用いられる。例えば、機微情報に該当するカテゴリに分類された列名のデータを暗号化することにより、パーソナルデータがプライバシに配慮した形式に加工される。
例えば、上記のカテゴライズ機能には、カテゴライズ規則が記述された辞書データ13Bが使用されうる。例えば、辞書データ13Bには、カテゴライズ規則として、データベースの列名等に対応するキーワードと照合される文字や文字列等の「パターン」、パターンが属する「カテゴリ」、さらには、カテゴリに付与された「重み」などが記述され得る。このように辞書データ13Bに記述されたパターンのうちキーワードの少なくとも一部と一致するパターンの重みに基づいてスコア、例えば重みの総和をカテゴリごとに算出することで、スコアが最大であるカテゴリが分類結果として出力される。
このようなカテゴライズ規則は、必ずしも不変のものとは限らない。あくまで1つの側面として、業種特有のキーワードや新語などへ対応する側面から上記のカテゴライズ規則に更新が求められる場面が生じ得る。このことから、上記のカテゴライズ機能には、カテゴライズ規則が記述された辞書データ13Bの更新を支援する「更新支援機能」がアドオンされ得る。
一実施形態として、分類装置10は、パッケージソフトウェア又はオンラインソフトウェアとして、上記のカテゴライズ機能を実現する分類プログラムを任意のコンピュータにインストールさせることによって実装できる。例えば、分類装置10は、SaaS(Software as a Service)型のアプリケーションとして実装することで、上記のカテゴライズ機能をクラウドサービスとして提供することとしてもかまわない。これに限定されず、分類装置10は、上記のカテゴライズ機能をオンプレミスに提供するサーバとして実装することができる。
さらに、分類装置10には、図1に示すように、作成者端末30が接続され得る。これら分類装置10及び作成者端末30の間は、任意のネットワークNWを介して通信可能に接続され得る。例えば、ネットワークNWは、有線または無線を問わず、インターネットやLAN(Local Area Network)などの任意の種類の通信網であってかまわない。なお、図1には、説明の便宜上、1つの分類装置10につき1つの作成者端末30が接続される例を挙げたが、1つの分類装置10につき複数の作成者端末30が接続されることを妨げない。
作成者端末30は、上記の更新支援機能の提供を受けるコンピュータの一例に対応する。作成者端末30には、デスクトップ型またはラップトップ型のパーソナルコンピュータなどが対応し得る。これらはあくまで例示に過ぎず、作成者端末30は、携帯端末装置やウェアラブル端末などの任意のコンピュータであってかまわない。
あくまで一例として、作成者端末30は、上記のカテゴライズ規則の作成を担当する作成者によって使用され得る。1つの側面として、作成者端末30は、データベースの列名などに対応するキーワードと、当該キーワードが属する正解カテゴリとが対応付けられた検証データ13Aの作成に用いられる。このように作成された検証データ13Aは、分類装置10にアップロードされた上で分類装置10に保存され得る。
このような検証データ13Aには、上記のカテゴライズ規則が更新される以前に作成された旧検証データ13A1と、上記のカテゴライズ規則の更新時に業種特有のキーワードや新語などの対応する側面から作成される新検証データ13A2とが含まれ得る。これら旧検証データ13A1のキーワードおよび新検証データ13A2のキーワードの両方を正解カテゴリに分類できる更新が上記のカテゴライズ規則に行われる。
[課題の一側面]
上記の背景技術の欄で説明した通り、上記のカテゴライズ規則には、その更新作業が煩雑であるという側面がある。
上記の背景技術の欄で説明した通り、上記のカテゴライズ規則には、その更新作業が煩雑であるという側面がある。
すなわち、辞書データ13Bの重みを調整したり、あるいは新規のパターンを辞書データ13Bに追加したりといった更新作業が煩雑になる。例えば、辞書データ13Bの重みが変更された場合、重みの変更前には正解カテゴリに分類できていた旧検証データ13A1のキーワードが重みの変更後に正解カテゴリに分類できなくなるといった副作用が生じる場合がある。また、辞書データ13Bの重みを変更したとしても、依然として、新検証データ13A2のキーワードを正解カテゴリに分類できない場合がある。さらに、重みの調整による対応が困難である場合、新規のパターンが辞書データ13Bに追加される場合もある。ところが、辞書データ13Bに新規のパターンを追加するには、パターン、カテゴリおよび重みの各々の要素を新規に作成する必要がある上、副作用が生じない値に各々の要素を調整するには多大な労力が生じる。
[課題解決のアプローチの一側面]
そこで、本実施例に係る更新支援機能は、辞書データ13Bの重みを調整する「第1レコメンド」、あるいは辞書データ13Bに新規の辞書レコードを追加する「第2レコメンド」を出力する機能を有する。
そこで、本実施例に係る更新支援機能は、辞書データ13Bの重みを調整する「第1レコメンド」、あるいは辞書データ13Bに新規の辞書レコードを追加する「第2レコメンド」を出力する機能を有する。
[第1レコメンド]
「第1レコメンド」には、正解カテゴリを重み付けするパターンの重みを増加させる「重み増加レコメンド」や正解カテゴリよりもスコアが上位である上位カテゴリを重み付けるパターンの重みを減少させる「重み減少レコメンド」が含まれ得る。
「第1レコメンド」には、正解カテゴリを重み付けするパターンの重みを増加させる「重み増加レコメンド」や正解カテゴリよりもスコアが上位である上位カテゴリを重み付けるパターンの重みを減少させる「重み減少レコメンド」が含まれ得る。
例えば、「重み増加レコメンド」は、分類不正解のキーワードの少なくとも一部と一致するパターンのうち正解カテゴリを重み付けするパターンの重みをスコアが最高である第1カテゴリの重みと正解カテゴリの重みとの差に基づいて増加させるレコメンドである。このような「重み増加レコメンド」は、上記のキーワードに関する分類不正解を解消するレコメンドとなり得る。
また、「重み減少レコメンド」は、分類不正解のキーワードの少なくとも一部と一致するパターンのうち正解カテゴリよりもスコアが上位である上位カテゴリを重み付けするパターンの重みを上位カテゴリの重みと正解カテゴリの重みとの差に基づいて減少させるレコメンドである。このような「重み減少レコメンド」も、上記のキーワードに関する分類不正解を解消するレコメンドとなり得る。
これら「重み増加レコメンド」または「重み減少レコメンド」を第1レコメンドとして出力することで、辞書データ13Bの重みを調整する更新作業の効率化を実現できる。
[重み調整による副作用]
図2〜図5を用いて、第1レコメンドに基づく重み調整で生じる副作用の一例について説明する。図2Aは、旧検証データ13A1の一例を示す図である。図2Bは、新検証データ13A2の一例を示す図である。図2Cは、辞書データ13Bの一例を示す図である。図3A及び図3Bは、分類結果の一例を示す図である。図3Cは、分類不正解データの一例を示す図である。図4及び図5は、第1レコメンド及び副作用の一例を示す図である。なお、以下では、スコアのあくまで一例として、重みの総和が算出される例を挙げる。
図2〜図5を用いて、第1レコメンドに基づく重み調整で生じる副作用の一例について説明する。図2Aは、旧検証データ13A1の一例を示す図である。図2Bは、新検証データ13A2の一例を示す図である。図2Cは、辞書データ13Bの一例を示す図である。図3A及び図3Bは、分類結果の一例を示す図である。図3Cは、分類不正解データの一例を示す図である。図4及び図5は、第1レコメンド及び副作用の一例を示す図である。なお、以下では、スコアのあくまで一例として、重みの総和が算出される例を挙げる。
図2Aに示す旧検証データ13A1のキーワードが図2C示す辞書データ13Bを用いて分類される場合、旧検証データ13A1のキーワードの分類結果は、図3Aに示す通りになる。
例えば、旧検証データ13A1のキーワード「金融機関」の少なくとも一部と一致するパターンが辞書データ13Bから検索される場合、パターン「金融」が前方一致すると共に、パターン「金」が前方一致する。このため、辞書データ13Bが有する辞書レコードのうちパターン「金融」を含む辞書レコードおよびパターン「金」を含む辞書レコードがヒットする。以下、辞書データに含まれる辞書レコードの中でもキーワードがヒットする辞書レコードのことを「関連辞書レコード」と記載する場合がある。この場合、カテゴリ「BANK」のスコアは、パターン「金融」の関連辞書レコードの重み「5」がそのまま重みの総和となる結果、「5」と算出される。また、カテゴリ「ASSET」のスコアは、パターン「金」の関連辞書レコードの重み「4」がそのまま重みの総和となる結果、「4」と算出される。これらカテゴリ「BANK」およびカテゴリ「ASSET」以外のカテゴリの関連辞書レコードは存在しないので、カテゴリ「BANK」およびカテゴリ「ASSET」以外のカテゴリのスコアは「0」と算出される。この結果、スコアが最高である第1カテゴリ、すなわち分類結果は「BANK」となる。
また、旧検証データ13A1のキーワード「年金番号」の少なくとも一部と一致するパターンが辞書データ13Bから検索される場合、パターン「番号」が後方一致し、パターン「年」が前方一致すると共に、パターン「金」が中間一致する。このため、辞書データ13Bが有する辞書レコードのうちパターン「番号」を含む辞書レコード、パターン「年」を含む辞書レコードおよびパターン「金」を含む辞書レコードがヒットする。この場合、カテゴリ「ID」のスコアは、パターン「番号」の関連辞書レコードの重み「6」がそのまま重みの総和となる結果、「6」と算出される。また、カテゴリ「AGE」のスコアは、パターン「年」の関連辞書レコードの重み「5」がそのまま重みの総和となる結果、「5」と算出される。また、カテゴリ「ASSET」のスコアは、パターン「金」の関連辞書レコードの重み「4」がそのまま重みの総和となる結果、「4」と算出される。これらカテゴリ「ID」、「AGE」および「ASSET」以外のカテゴリの関連辞書レコードは存在しないので、スコアは「0」と算出される。この結果、スコアが最高である第1カテゴリ、すなわち分類結果は「ID」となる。
さらに、旧検証データ13A1のキーワード「生年月日」の少なくとも一部と一致するパターンが辞書データ13Bから検索される場合、パターン「年」が中間一致すると共に、パターン「年月」が中間一致する。このため、辞書データ13Bが有する辞書レコードのうちパターン「年」を含む辞書レコードおよびパターン「年月」を含む辞書レコードがヒットする。この場合、カテゴリ「AGE」のスコアは、パターン「年」の関連辞書レコードの重み「5」がそのまま重みの総和となる結果、「5」と算出される。また、カテゴリ「DATE」のスコアは、パターン「年月」の関連辞書レコードの重み「3」がそのまま重みの総和となる結果、「3」と算出される。これらカテゴリ「AGE」およびカテゴリ「DATE」以外のカテゴリの関連辞書レコードは存在しないので、スコアは「0」と算出される。この結果、スコアが最高である第1カテゴリ、すなわち分類結果は「AGE」となる。
一方、図2Bに示す新検証データ13A2のキーワードが図2C示す辞書データ13Bを用いて分類される場合、新検証データ13A2のキーワードの分類結果は、図3Bに示す通りになる。
例えば、新検証データ13A2のキーワード「年金」の少なくとも一部と一致するパターンが辞書データ13Bから検索される場合、パターン「年」が前方一致すると共に、パターン「金」が後方一致する。このため、辞書データ13Bが有する辞書レコードのうちパターン「年」を含む辞書レコードおよびパターン「金」を含む辞書レコードがヒットする。この場合、カテゴリ「AGE」のスコアは、パターン「年」の関連辞書レコードの重み「5」がそのまま重みの総和となる結果、「5」と算出される。また、カテゴリ「ASSET」のスコアは、パターン「金」の関連辞書レコードの重み「4」がそのまま重みの総和となる結果、「4」と算出される。これらカテゴリ「AGE」およびカテゴリ「ASSET」以外のカテゴリの関連辞書レコードは存在しないので、スコアは「0」と算出される。この結果、スコアが最高である第1カテゴリ、すなわち分類結果は「AGE」となる。
このように、更新前の辞書データ13Bは、旧検証データ13A1の全てのキーワードを正解カテゴリに分類できる能力を有する一方で、新検証データ13A2の全てのキーワードを正解カテゴリに分類できる能力を必ずしも有するとは限らない。例えば、図3Aに示す分類結果および図3Bに示す分類結果が得られた場合、図3Cに示すように、第1カテゴリと正解カテゴリとが一致しない新検証データ13A2のキーワード「年金」のレコードが分類不正解データ14Aとして抽出される。以下、分類不正解データに含まれるレコードのことを「分類不正解レコード」と記載する場合がある。
[重み増加による副作用]
ここで、「第1レコメンド」の一例として、図4に示すように、正解カテゴリ「ASSET」に対応するパターン「金」の重みを増加させる「重み増加レコメンド」に従って辞書データ13Bを辞書データ13B1へ更新する場合について説明する。
ここで、「第1レコメンド」の一例として、図4に示すように、正解カテゴリ「ASSET」に対応するパターン「金」の重みを増加させる「重み増加レコメンド」に従って辞書データ13Bを辞書データ13B1へ更新する場合について説明する。
この場合、分類不正解データ14Aのキーワード「年金」の少なくとも一部と一致するパターンのうち、正解カテゴリ「ASSET」に対応するパターン「金」の重み「4」と、スコアが最高である第1カテゴリ「AGE」の重み「5」との差「1」に基づいて重みが増加される。すなわち、正解カテゴリのスコアが第1カテゴリのスコアを超えるように、正解カテゴリおよび第1カテゴリ間の重みの差「1」にマージン「1」が付加された値「2」が正解カテゴリを重み付けするパターン「金」の重み「4」へ加算される。このような重み増加によって、正解カテゴリのスコアが最高となるので、上記のキーワード「年金」に関する分類不正解を解消できる結果、新検証データ13A2の分類不正解が解消される。なお、ここで付加するマージンはあくまで一例であり、ゼロを超える任意の数であってかまわない。
このように、重み増加後の辞書データ13B1を用いて分類が行われる場合、新検証データ13A2の全てのキーワードの分類不正解が解消される一方で、旧検証データ13A1のキーワードの一部が正解カテゴリに分類できなくなる副作用が生じる。
図4の符号14Bには、重み増加後の辞書データ13B1を用いて分類が行われる場合の分類不正解データが示されている。図4の分類不正解データ14Bに示す通り、重み増加前の辞書データ13Bを用いる分類時には正解カテゴリに分類できていたキーワード「年金番号」が重み増加後の辞書データ13B1を用いる場合に正解カテゴリに分類できなくなる。
具体的には、旧検証データ13A1のキーワード「年金番号」の少なくとも一部と一致するパターンが辞書データ13B1から検索される場合、パターン「番号」が後方一致し、パターン「年」が前方一致すると共に、パターン「金」が中間一致する。このため、辞書データ13B1が有する辞書レコードのうちパターン「番号」を含む辞書レコード、パターン「年」を含む辞書レコードおよびパターン「金」を含む辞書レコードがヒットする。この場合、カテゴリ「ID」のスコアは、パターン「番号」の関連辞書レコードの重み「6」がそのまま重みの総和となる結果、「6」と算出される。また、カテゴリ「AGE」のスコアは、パターン「年」の関連辞書レコードの重み「5」がそのまま重みの総和となる結果、「5」と算出される。また、カテゴリ「ASSET」のスコアは、パターン「金」の関連辞書レコードの重み「6」がそのまま重みの総和となる結果、「6」と算出される。これらカテゴリ「ID」、「AGE」および「ASSET」以外のカテゴリの関連辞書レコードは存在しないので、スコアは「0」と算出される。この結果、スコアが最高である第1カテゴリ、すなわち分類結果は「ID」および「ASSET」となる。
このように、重み増加後の辞書データ13B1を用いて分類が行われる場合、旧検証データ13A1のキーワード「年金番号」の分類結果を正解カテゴリ「ID」の1つに絞り込むことはできないので、分類不正解となる。
[重み減少による副作用]
次に、「第1レコメンド」の他の一例として、図5に示すように、上位カテゴリ「AGE」に対応するパターン「年」の重みを減少させる「重み減少レコメンド」に従って辞書データ13Bを辞書データ13B2へ更新する場合について説明する。
次に、「第1レコメンド」の他の一例として、図5に示すように、上位カテゴリ「AGE」に対応するパターン「年」の重みを減少させる「重み減少レコメンド」に従って辞書データ13Bを辞書データ13B2へ更新する場合について説明する。
この場合、分類不正解データ14Aのキーワード「年金」の少なくとも一部と一致するパターンのうち、正解カテゴリ「ASSET」に対応するパターン「金」の重み「4」と、正解カテゴリよりもスコアが上位である上位カテゴリ「AGE」の重み「5」との差「1」に基づいて重みが減少される。すなわち、上位カテゴリのスコアが正解カテゴリのスコアを下回るように、正解カテゴリおよび上位カテゴリ間の重みの差「1」にマージン「1」が付加された値「2」が上位カテゴリを重み付けするパターン「年」の重み「5」から減算される。このような重み減少によって、正解カテゴリのスコアが最高となるので、上記のキーワード「年金」に関する分類不正解を解消できる結果、新検証データ13A2の分類不正解が解消される。
このように、重み減少後の辞書データ13B2を用いて分類が行われる場合も、新検証データ13A2の全てのキーワードの分類不正解が解消される一方で、旧検証データ13A1のキーワードの一部が正解カテゴリに分類できなくなる副作用が生じる。
図5の符号14Cには、重み減少後の辞書データ13B2を用いて分類が行われる場合の分類不正解データが示されている。図5の分類不正解データ14Cに示す通り、重み減少前の辞書データ13Bを用いる分類時には正解カテゴリに分類できていたキーワード「年月日」が重み減少後の辞書データ13B2を用いる場合に正解カテゴリに分類できなくなる。
具体的には、旧検証データ13A1のキーワード「年月日」の少なくとも一部と一致するパターンが辞書データ13B2から検索される場合、パターン「年」が前方一致すると共に、パターン「年月」が前方一致する。このため、辞書データ13B2が有する辞書レコードのうちパターン「年」を含む辞書レコードおよびパターン「年月」を含む辞書レコードがヒットする。この場合、カテゴリ「AGE」のスコアは、パターン「年」の関連辞書レコードの重み「3」がそのまま重みの総和となる結果、「3」と算出される。また、カテゴリ「DATE」のスコアは、パターン「年月」の関連辞書レコードの重み「3」がそのまま重みの総和となる結果、「3」と算出される。これらカテゴリ「AGE」および「DATE」以外のカテゴリの関連辞書レコードは存在しないので、スコアは「0」と算出される。この結果、スコアが最高である第1カテゴリ、すなわち分類結果は「AGE」および「DATE」となる。
このように、重み減少後の辞書データ13B2を用いて分類が行われる場合、旧検証データ13A1のキーワード「年月日」の分類結果を正解カテゴリ「DATE」の1つに絞り込むことはできないので、分類不正解となる。
[第2レコメンド]
あくまで1つの側面として、「第2レコメンド」は、重みの調整による対応が困難である場合、例えば「重み増加レコメンド」及び「重み減少レコメンド」のいずれに基づく重み調整でも副作用が発生する場合に絞って出力することができる。
あくまで1つの側面として、「第2レコメンド」は、重みの調整による対応が困難である場合、例えば「重み増加レコメンド」及び「重み減少レコメンド」のいずれに基づく重み調整でも副作用が発生する場合に絞って出力することができる。
「第2レコメンド」の一例として、辞書データ13Bのパターン同士が連結された連結パターンに正解カテゴリの正の重みが付与された第1新規レコードを辞書に追加する「第1追加レコメンド」が含まれ得る。例えば、辞書データ13Bにない新規のパターンとして、分類不正解のキーワードの少なくとも一部と一致するパターンのうち正解カテゴリを重み付けするパターンおよび第1カテゴリを重み付けするパターンが連結された連結パターンが追加され得る。ここで、連結パターンには、2以上のパターンを1列に並べる配列の組合せが全て含まれてもよいが、スコアの計算に含まれ得る連結パターンを抽出する側面から、分類不正解のキーワードに対する検索にヒットする連結パターンに絞って追加することもできる。さらに、連結パターンには、第1カテゴリの重みと正解カテゴリの重みとの差に基づいて正解カテゴリの正の重みが付与される。これら「連結パターン」、「正解カテゴリ」及び「正の重み」を含む辞書レコードを第1新規レコードとして追加する「第1追加レコメンド」が出力される。このような「第1追加レコメンド」は、上記のキーワードに関する分類不正解を解消するレコメンドとなり得る。
「第2レコメンド」の他の一例として、辞書データ13Bのパターン同士が連結された連結パターンに正解カテゴリよりもスコアが上位である上位カテゴリの負の重みが付与された第2新規レコードを辞書に追加する「第2追加レコメンド」が含まれ得る。例えば、辞書データ13Bにない新規のパターンとして、分類不正解のキーワードの少なくとも一部と一致するパターンのうち正解カテゴリを重み付けするパターンおよび上位カテゴリを重み付けするパターンが連結された連結パターンが追加され得る。ここで、連結パターンには、2以上のパターンを1列に並べる配列の組合せが全て含まれてもよいが、スコアの計算に含まれ得る連結パターンを抽出する側面から、分類不正解のキーワードに対する検索にヒットする連結パターンに絞って追加することもできる。連結パターンには、上位カテゴリの重みと正解カテゴリの重みとの差に基づいて上位カテゴリの負の重みが付与される。これら「連結パターン」、「上位カテゴリ」及び「負の重み」を含む辞書レコードを第2新規レコードとして追加する「第2追加レコメンド」が出力される。このような「第2追加レコメンド」も、上記のキーワードに関する分類不正解を解消するレコメンドとなり得る。
[新規レコード追加による成功事例]
図6は、第2レコメンドと成功事例の一例を示す図である。図6には、あくまで一例として、上記の第2新規レコードを追加する第2追加レコメンドに従って辞書データ13Bを辞書データ13B4へ更新する場合の成功事例が挙げられている。
図6は、第2レコメンドと成功事例の一例を示す図である。図6には、あくまで一例として、上記の第2新規レコードを追加する第2追加レコメンドに従って辞書データ13Bを辞書データ13B4へ更新する場合の成功事例が挙げられている。
図6に示すように、分類不正解データ14Aのキーワード「年金」の少なくとも一部と一致するパターンのうち、正解カテゴリ「ASSET」を重み付けするパターン「金」および上位カテゴリ「AGE」を重み付けするパターン「年」が連結される。この場合、パターン「金」およびパターン「年」を1列に並べる配列の全ての組合せ「金年」および「年金」を連結パターンとして生成できる。さらに、第2新規レコードの生成に必須ではないが、全ての連結パターン「金年」および「年金」から分類不正解のキーワード「年金」の検索にヒットする連結パターン「年金」を抽出することもできる。さらに、連結パターン「年金」には、上位カテゴリ「AGE」の重み「5」と正解カテゴリ「ASSET」の重み「4」との差「1」にマージン「1」が付加された値「2」の符号が反転された負の重み「−2」が上位カテゴリ「AGE」の重みとして付与される。これら連結パターン「年金」、カテゴリ「AGE」及び「−2」を含む辞書レコードを第2新規レコードとして追加する「第2追加レコメンド」が出力される。
このような第2新規レコードが追加された辞書データ13B4によれば、検証データ13Aのキーワードに文字「年」が含まれる場合にパターン「年」に付与された重みによりカテゴリ「AGE」のスコアが加算される。さらに、検証データ13Aのキーワードに文字「年金」が含まれる場合にパターン「年金」に付与された負の重みによりカテゴリ「AGE」のスコアが減算される。このように、「年」はAGEを連想させるが、「年金」はAGEをほとんど連想させない、という直感を自動でカテゴライズ規則として組み込むことができる。この結果、第2新規レコードの追加に伴って発生しうる副作用の可能性を低減できる。
図6の符号13A22には、第2新規レコードの追加後の辞書データ13B4を用いて新検証データ13A2のキーワードの分類が行われる場合の分類結果が示されている。図6の分類結果13A22に示す通り、新検証データ13A2のキーワード「年金」には、パターン「年」が前方一致し、パターン「金」が後方一致すると共に、パターン「年金」が完全一致する。このため、辞書データ13B4が有する辞書レコードのうちパターン「年」を含む辞書レコード、パターン「金」を含む辞書レコードおよびパターン「年金」を含む辞書レコードがヒットする。この場合、カテゴリ「ASSET」のスコアは、パターン「金」の関連辞書レコードの重み「4」がそのまま重みの総和となる結果、「4」と算出される。また、カテゴリ「AGE」のスコアは、パターン「年」の関連辞書レコードの重み「5」と、パターン「年金」の関連辞書レコードの負の重み「−2」との総和となる結果、「3」と算出される。これらカテゴリ「ASSET」および「AGE」以外のカテゴリの関連辞書レコードは存在しないので、スコアは「0」と算出される。この結果、スコアが最高である第1カテゴリ、すなわち分類結果は「ASSET」となる。
さらに、第2新規レコードの追加によって、旧検証データ13A1のキーワードが正解カテゴリに分類できなくなる副作用も発生しない。
図6の符号13A12には、第2新規レコードの追加後の辞書データ13B4を用いて旧検証データ13A1の分類が行われる場合の分類結果が示されている。ここでは、辞書データ13B4を用いる旧検証データ13A1のキーワードの分類結果のうち、第2新規レコードとして追加される連結パターン「年金」がヒットするキーワード「年金番号」の分類結果が抜粋して示されている。
図6の分類結果13A12に示す通り、旧検証データ13A1のキーワード「年金番号」には、パターン「番号」が後方一致し、パターン「年」が前方一致し、パターン「金」が中間一致すると共に、パターン「年金」が前方一致する。このため、辞書データ13B4が有する辞書レコードのうちパターン「番号」を含む辞書レコード、パターン「年」を含む辞書レコード、パターン「金」を含む辞書レコードおよびパターン「年金」を含む関連辞書レコードがヒットする。この場合、カテゴリ「ID」のスコアは、パターン「番号」の関連辞書レコードの重み「6」がそのまま重みの総和となる結果、「6」と算出される。また、カテゴリ「AGE」のスコアは、パターン「年」の関連辞書レコードの重み「5」と、パターン「年金」の関連辞書レコードの負の重み「−2」との重みの総和となる結果、「3」と算出される。また、カテゴリ「ASSET」のスコアは、パターン「金」の関連辞書レコードの重み「4」がそのまま重みの総和となる結果、「4」と算出される。これらカテゴリ「ID」、「AGE」および「ASSET」以外のカテゴリの関連辞書レコードは存在しないので、スコアは「0」と算出される。この結果、スコアが最高である第1カテゴリ、すなわち分類結果は「ID」となる。
このように、第2新規レコードの追加後の辞書データ13B4を用いて分類が行われる場合、新検証データ13A2の全てのキーワードの分類不正解が解消される一方で、旧検証データ13A1のキーワードが正解カテゴリに分類できなくなる副作用も発生しない。
したがって、本実施例に係る更新支援機能によれば、辞書データ13Bに新規の辞書レコードを追加する更新作業の効率化を実現できる。
[分類装置10の機能的構成]
次に、本実施例に係る分類装置10の機能的構成の一例について説明する。図1に示すように、分類装置10は、通信インタフェイス部11と、記憶部13と、制御部15とを有する。なお、図1には、データの授受の関係を表す実線が示されているが、説明の便宜上、最小限の部分について示されているに過ぎない。すなわち、各処理部に関するデータの入出力は、図示の例に限定されず、図示以外のデータの入出力、例えば処理部及び処理部の間、処理部及びデータの間、並びに、処理部及び外部装置の間のデータの入出力が行われることとしてもかまわない。
次に、本実施例に係る分類装置10の機能的構成の一例について説明する。図1に示すように、分類装置10は、通信インタフェイス部11と、記憶部13と、制御部15とを有する。なお、図1には、データの授受の関係を表す実線が示されているが、説明の便宜上、最小限の部分について示されているに過ぎない。すなわち、各処理部に関するデータの入出力は、図示の例に限定されず、図示以外のデータの入出力、例えば処理部及び処理部の間、処理部及びデータの間、並びに、処理部及び外部装置の間のデータの入出力が行われることとしてもかまわない。
通信インタフェイス部11は、他の装置、例えば作成者端末30との間で通信制御を行うインタフェイスの一例に対応する。
あくまで一例として、通信インタフェイス部11には、LANカードなどのネットワークインタフェイスカードを採用することができる。例えば、通信インタフェイス部11は、作成者端末30から新検証データの登録やカテゴライズ規則の更新リクエストなどを受け付けたり、カテゴライズ規則の更新に関する第1レコメンドや第2レコメンドなどを作成者端末30へ出力したりする。
記憶部13は、制御部15で実行されるOS(Operating System)を始め、各種プログラムに用いられるデータを記憶する機能部である。このように記憶部13に記憶されるプログラムの一例として、上記のカテゴライズ機能を実現するパッケージソフトウェアに対応する分類プログラム、あるいは上記のカテゴライズ機能にアドオンされるモジュールに対応する更新支援プログラムが挙げられる。
一実施形態として、記憶部13は、分類装置10における補助記憶装置に対応し得る。例えば、HDD(Hard Disk Drive)、光ディスクやSSD(Solid State Drive)などが補助記憶装置に対応する。この他、EPROM(Erasable Programmable Read Only Memory)などのフラッシュメモリも補助記憶装置に対応する。
記憶部13は、制御部15で実行されるプログラムに用いられるデータの一例として、検証データ13Aと、辞書データ13Bとを記憶する。これらのデータ以外にも、上記の分類プログラム、あるいは上記の更新支援プログラムにより参照または生成が行われるデータ、例えば上記のカテゴライズ機能を適用するデータベースや上記の作成者のアカウントなどが記憶部13に記憶されることとしてもよい。
検証データ13Aは、上記のカテゴライズ規則が記述された辞書データ13Bの作成時または更新時に分類結果の検証に用いるデータである。あくまで一例として、検証データ13Aには、データベースの列名などに対応するキーワードと、当該キーワードが属する正解カテゴリとが対応付けられたデータを採用できる。上述の通り、検証データ13Aには、上記のカテゴライズ規則が更新される以前に作成された旧検証データ13A1と、上記のカテゴライズ規則の更新時に業種特有のキーワードや新語などの対応する側面から作成される新検証データ13A2とが含まれ得る。
辞書データ13Bは、上記のカテゴライズ規則が記述されたデータである。あくまで一例として、辞書データ13Bには、図2Cに示すように、データベースの列名等に対応するキーワードと照合される文字や文字列等の「パターン」、パターンが属する「カテゴリ」及びカテゴリに付与された「重み」が対応付けられたデータを採用できる。
制御部15は、分類装置10の全体制御を行う処理部である。
一実施形態として、制御部15は、CPU(Central Processing Unit)やMPU(Micro Processing Unit)などのハードウェアプロセッサにより実装することができる。ここでは、プロセッサの一例として、CPUやMPUを例示したが、汎用型および特化型を問わず、任意のプロセッサにより実装することができる。この他、制御部15は、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)などのハードワイヤードロジックによって実現されることとしてもかまわない。
制御部15は、上記の更新支援プログラムを実行することにより、図示しない主記憶装置として実装されるRAM(Random Access Memory)等のワークエリア上に図1に示す処理部を仮想的に実現する。なお、図1には、あくまで一例として、上記の更新支援プログラムが実行されることにより実現される処理部を抜粋して例に挙げるが、これに限定されない。例えば、上記の分類プログラムが実行されることによりパッケージソフトウェアに対応する処理部が実装されることとしてもかまわない。
制御部15は、図1に示すように、受付部16と、分類部17と、第1レコメンド部18と、第2レコメンド部19とを有する。
受付部16は、上記のカテゴライズ規則の更新リクエストを受け付ける処理部である。
一実施形態として、受付部16は、上記のカテゴライズ規則の更新に用いるデータセット、例えば旧検証データ13A1、新検証データ13A2および辞書データ13Bの指定を受け付けることができる。このようにカテゴライズ規則の更新に用いるデータセットの一部または全部は、必ずしも記憶部13に記憶されたデータでなくともかまわない。例えば、受付部16は、作成者端末30または図示しない外部装置、例えばファイルサーバ等に保存されたデータセットの一部または全部を受け付けることができる。そして、受付部16は、作成者端末30から指定を受け付けたデータセット、例えば旧検証データ13A1、新検証データ13A2および辞書データ13Bを記憶部13から所定の記憶領域、例えば制御部15が参照可能なワークエリアへ読み出す。
分類部17は、辞書データ13Bを用いて検証データ13Aのキーワードを分類する処理部である。
一実施形態として、分類部17は、検証データ13Aに含まれるキーワードごとに次のような処理を実行する。例えば、分類部17は、検証データ13Aに含まれるキーワードを1つ選択する。そして、分類部17は、選択中のキーワードの少なくとも一部と一致するパターンを辞書データ13Bから検索する。続いて、分類部17は、カテゴリごとにキーワードがヒットするパターンが属するカテゴリに付与された重みを集計することにより計算される重みの総和をスコアの一例として算出する。その上で、分類部17は、選択中のキーワードをスコアが最高である第1カテゴリに分類する。その後、分類部17は、検証データ13Aに未選択のキーワードがなくなるまで上記のキーワードの第1カテゴリへの分類を繰り返す。なお、ここでは、あくまで一例として、キーワードが1つずつ順番に分類される例を挙げたが、各キーワードの分類は並列して行われることしてもかまわない。
あくまで一例を挙げれば、図2Aに示す旧検証データ13A1のキーワードが図2C示す辞書データ13Bを用いて分類される場合、旧検証データ13A1のキーワードの分類結果は、図3Aに示す通りになる。また、図2Bに示す新検証データ13A2のキーワードが図2C示す辞書データ13Bを用いて分類される場合、新検証データ13A2のキーワードの分類結果は、図3Bに示す通りになる。
第1レコメンド部18は、辞書データ13Bの重みを調整する第1レコメンドを行う処理部である。
図7は、第1レコメンド部18の機能的構成の一例を示す図である。図7には、図1に示す第1レコメンド部18が有する機能に対応するブロックが実線で模式化されると共に、各部が入出力するデータに対応するブロックが破線で模式化されている。
図7に示すように、第1レコメンド部18は、増加部181と、減少部182と、出力部183とを有する。なお、第1レコメンド部18のブロック内に示された分類部17は、検証データ17Aのキーワードの分類時に参照される辞書データが異なれどもアルゴリズムは同様でかまわない。
増加部181は、正解カテゴリを重み付けするパターンの重みを増加させる処理部である。
一実施形態として、増加部181は、分類不正解データ14Aに含まれる分類不正解レコードごとに次のような処理を実行する。すなわち、増加部181は、分類不正解レコードのキーワードの少なくとも一部と一致するパターンのうち正解カテゴリを重み付けするパターンの重みwを第1カテゴリの重みと正解カテゴリの重みとの差gに基づいて増加させる。例えば、増加部181は、正解カテゴリのスコアが第1カテゴリのスコアを超えるように、正解カテゴリおよび第1カテゴリ間の重みの差gにマージンαが付加された値g+αを正解カテゴリを重み付けするパターンの重みwへ加算する。このようなマージンαは、あくまで一例として、ゼロよりも大きい任意の数であってかまわない。
あくまで一例を挙げれば、辞書データ13Bを用いる分類結果に図3Cに示す分類不正解データ14Aが含まれる場合、図4に示された通りの重み増加が行われる。すなわち、分類不正解データ14Aのキーワード「年金」の少なくとも一部と一致するパターンのうち、正解カテゴリ「ASSET」に対応するパターン「金」の重み「4」と、スコアが最高である第1カテゴリ「AGE」の重み「5」との差「1」に基づいて重みwが増加される。すなわち、正解カテゴリのスコアが第1カテゴリのスコアを超えるように、正解カテゴリおよび第1カテゴリ間の重みの差「1」にマージン「1」が付加された値「2」が正解カテゴリを重み付けするパターン「金」の重み「4」へ加算される。
このような重み増加によって、分類不正解レコードのキーワードの少なくとも一部と一致する辞書データ13Bのパターンのうち正解カテゴリを重み付けするパターンの重みが「w」から「w+g+α」へ加算された辞書データ13B1が得られる。このように重み増加後の辞書データ13B1が得られた場合、重み増加後の辞書データ13B1を用いて検証データ13Aのキーワードが改めて分類される。
減少部182は、正解カテゴリよりもスコアが上位である上位カテゴリを重み付けるパターンの重みを減少させる処理部である。
一実施形態として、減少部182は、重み増加後の辞書データ13B1を用いる分類結果に第1カテゴリと正解カテゴリが一致しない分類不正解データ14Bが含まれる場合、処理を起動することができる。すなわち、減少部182は、分類不正解データ14Aに含まれる分類不正解レコードごと、並びに、正解カテゴリよりもスコアが上位である上位カテゴリごとに次のような処理を実行する。例えば、減少部182は、分類不正解レコードのキーワードの少なくとも一部と一致するパターンのうち上位カテゴリを重み付けするパターンの重みmを上位カテゴリの重みと正解カテゴリの重みとの差gに基づいて減少させる。具体的には、減少部182は、上位カテゴリのスコアが正解カテゴリのスコアを下回るように、上位カテゴリを重み付けするパターンの重みmから、正解カテゴリおよび上位カテゴリ間の重みの差gにマージンαが付加された値g+αを減算する。
あくまで一例を挙げれば、辞書データ13B1を用いる分類結果に図4に示す分類不正解データ14Bが含まれる場合、図5に示された通りの重み減少が行われる。すなわち、分類不正解データ14Aのキーワード「年金」の少なくとも一部と一致するパターンのうち、正解カテゴリ「ASSET」に対応するパターン「金」の重み「4」と、上位カテゴリ「AGE」の重み「5」との差「1」に基づいて重みmが減少される。すなわち、上位カテゴリのスコアが正解カテゴリのスコアを下回るように、正解カテゴリおよび上位カテゴリ間の重みの差「1」にマージン「1」が付加された値「2」が上位カテゴリを重み付けするパターン「年」の重み「5」から減算される。
このような重み減少によって、分類不正解レコードのキーワードの少なくとも一部と一致する辞書データ13Bのパターンのうち上位カテゴリを重み付けするパターンの重みが「m」から「m−(g+α)」へ減算された辞書データ13B2が得られる。このように重み減少後の辞書データ13B2が得られた場合、重み減少後の辞書データ13B2を用いて検証データ13Aのキーワードが改めて分類される。
出力部183は、第1レコメンドの出力を制御する処理部である。
1つの側面として、重み増加後の辞書データ13B1を用いる分類結果に第1カテゴリと正解カテゴリが一致しない分類不正解データ14Bが含まれない場合、次のような事例に該当しうる。すなわち、重み増加後の辞書データ13B1は、新検証データ13A2の全てのキーワードを正解カテゴリに分類できる能力を有し、かつ旧検証データ13A1のキーワードの一部が正解カテゴリに分類できなくなる副作用を発生させない可能性が高い。この場合、出力部183は、正解カテゴリを重み付けするパターンの重みを増加させる「重み増加レコメンド」を第1レコメンドとして出力する。
他の側面として、重み減少後の辞書データ13B2を用いる分類結果に第1カテゴリと正解カテゴリが一致しない分類不正解データ14Cが含まれない場合、次のような事例に該当しうる。すなわち、重み減少後の辞書データ13B2は、新検証データ13A2の全てのキーワードを正解カテゴリに分類できる能力を有し、かつ旧検証データ13A1のキーワードの一部が正解カテゴリに分類できなくなる副作用を発生させない可能性が高い。この場合、出力部183は、正解カテゴリよりもスコアが上位である上位カテゴリを重み付けるパターンの重みを減少させる「重み減少レコメンド」を第1レコメンドとして出力する。
第2レコメンド部19は、辞書データ13Bに新規の辞書レコードを追加する第2レコメンドを行う処理部である。
図8は、第2レコメンド部19の機能的構成の一例を示す図である。図8には、図1に示す第2レコメンド部19が有する機能に対応するブロックが実線で模式化されると共に、各部が入出力するデータに対応するブロックが破線で模式化されている。
図8に示すように、第2レコメンド部19は、連結部191と、第1重み付与部192と、第2重み付与部193と、出力部194とを有する。なお、第2レコメンド部19のブロック内に示された分類部17は、検証データ17Aのキーワードの分類時に参照される辞書データが異なれどもアルゴリズムは同様でかまわない。
連結部191は、辞書データ13Bのパターン同士を連結して連結パターンを生成する処理部である。
一実施形態として、連結部191は、重み減少後の辞書データ13B2を用いる分類結果に第1カテゴリと正解カテゴリが一致しない分類不正解データ14Cが含まれる場合、分類不正解データ14Aに含まれる分類不正解レコードの数ごとに下記の処理を実行する。すなわち、連結部191は、分類不正解データ14Aのキーワードの少なくとも一部と一致するパターンのうち正解カテゴリを重み付けするパターンおよび第1カテゴリを重み付けするパターンを連結する。より詳細には、連結部191は、分類不正解データ14Aのキーワードがヒットする関連辞書レコードのうち正解カテゴリを重み付けする関連辞書レコードCを抽出する。また、連結部191は、分類不正解データ14Aのキーワードがヒットする関連辞書レコードのうち第1カテゴリを重み付けする関連辞書レコードDを抽出する。
さらに、連結部191は、1つの分類不正解レコードにつき、関連辞書レコードCの数に対応する回数分、下記の処理を繰り返す。すなわち、連結部191は、関連辞書レコードCからパターンC_iを取得する。さらに、連結部191は、1つの関連辞書レコードCにつき、関連辞書レコードDの数に対応する回数分、下記の処理を繰り返す。すなわち、連結部191は、関連辞書レコードDのパターンD_jを取得する。続いて、連結部191は、パターンC_iおよびパターンD_jを連結する。これによって、連結パターンP_kが生成される。ここで言う「連結」とは、パターンC_iおよびパターンD_jを1列に並べる配列の全ての組合せを指す。それ故、パターンC_iおよびパターンD_jが連結される場合、連結パターンP_kには、「パターンC_i+パターンD_j」および「パターンD_j+パターンC_i」が含まれ得る。このようにして得られた連結パターンP_kのうち、連結部191は、分類不正解レコードのキーワードにヒットする連結パターンP_kを抽出する。その後、連結部191は、全ての関連辞書レコードDから取得されるパターンD_jがそれまでに抽出された連結パターンP_kをパターンC_iとしてさらに連結されるまで、パターンC_iおよびパターンD_jの連結を繰り返す。
これによって、1個のパターンC_iにつき、最大で関連辞書レコードDの数に対応する回数分の連結が行われた連結パターンP_kが得られる。例えば、関連辞書レコードDの数がNであるとしたとき、1個のC_i及び1個のD_jを含む2連結のパターン、1個のC_i及び2個のD_jを含む3連結のパターン、・・・、1個のC_i及びN個のD_jを含むN+1連結のパターンが連結パターンP_kとして抽出され得る。さらに、関連辞書レコードCの数の分の連結パターンP_kの抽出が行われる。なお、ここでは、関連辞書レコードDの数に対応する回数分の連結が行われる例を挙げたが、連結の回数に上限を設定したり、分類不正解のキーワードの検索がヒットしなかった連結パターンのそれ以上の連結を禁止したり、分類不正解のキーワードの文字数以内であることを連結の条件に設定したりすることができる。
第1重み付与部192は、正解カテゴリに正の重みを付与する処理部である。
一実施形態として、第1重み付与部192は、連結部191により連結された連結パターンP_kごとに次のような処理を実行する。すなわち、第1重み付与部192は、連結パターンP_kが属するカテゴリを正解カテゴリとし、第1カテゴリの重みと正解カテゴリの重みとの差に基づいて正解カテゴリに正の重みを付与する。例えば、第1重み付与部192は、正解カテゴリのスコアが第1カテゴリのスコアを超えるように、第1カテゴリの重みと正解カテゴリの重みとの差gにマージンαが付加された正の重みg+αを連結パターンP_kが属する正解カテゴリに付与する。
このように連結パターンが属する正解カテゴリに正の重みが付与されることによって、連結パターンP_k、正解カテゴリ及び正の重みg+αを含む辞書レコードが第1新規レコードとして追加された辞書データ13B3が得られる。そして、第1新規レコードが追加された辞書データ13B3が得られた場合、当該辞書データ13B3を用いて検証データ13Aのキーワードが改めて分類される。
図9は、第2レコメンド及び副作用の一例を示す図である。図9には、上記の第1新規レコードを追加する第1追加レコメンドに従って辞書データ13Bを辞書データ13B3へ更新する場合に発生する副作用の一例が挙げられている。
図9に示すように、分類不正解データ14Aのキーワード「年金」がヒットする関連辞書レコードのうち、正解カテゴリ「ASSET」を重み付けする関連辞書レコードCのパターン「金」および第1カテゴリ「AGE」を重み付けする関連辞書レコードDのパターン「年」が連結される。この場合、パターンC_i「金」およびパターンD_j「年」を1列に並べる配列の全ての組合せ「金年」および「年金」を連結パターンP_kとして生成できる。さらに、全ての連結パターン「金年」および「年金」から分類不正解のキーワード「年金」の検索にヒットする連結パターン「年金」が連結パターンP_kとして抽出される。さらに、連結パターンP_k「年金」には、第1カテゴリ「AGE」の重み「5」と正解カテゴリ「ASSET」の重み「4」との差「1」にマージン「1」が付加された正の重み「2」が正解カテゴリ「ASSET」の重みとして付与される。これら連結パターンP_k「年金」、カテゴリ「ASSET」及び正の重み「2」を含む辞書レコードが第1新規レコードとして辞書データ13Bに追加される。
このような第1新規レコード追加後の辞書データ13B3を用いて分類が行われる場合、新検証データ13A2の全てのキーワードの分類不正解が解消される一方で、旧検証データ13A1のキーワードの一部が正解カテゴリに分類できなくなる副作用が生じる。
すなわち、図9に示すように、第1新規レコード追加前の辞書データ13Bを用いる分類時には正解カテゴリに分類できていたキーワード「年金番号」が第1新規レコード追加後の辞書データ13B3を用いる場合に正解カテゴリに分類できなくなる。
具体的には、旧検証データ13A1のキーワード「年金番号」の少なくとも一部と一致するパターンが辞書データ13B3から検索される場合、パターン「番号」が後方一致し、パターン「年」が前方一致し、パターン「金」が中間一致すると共に、パターン「年金」が前方一致する。このため、辞書データ13B1が有する辞書レコードのうちパターン「番号」を含む辞書レコード、パターン「年」を含む辞書レコード、パターン「金」を含む辞書レコードおよびパターン「年金」を含む辞書レコードがヒットする。この場合、カテゴリ「ID」のスコアは、パターン「番号」の関連辞書レコードの重み「6」がそのまま重みの総和となる結果、「6」と算出される。また、カテゴリ「AGE」のスコアは、パターン「年」の関連辞書レコードの重み「5」がそのまま重みの総和となる結果、「5」と算出される。また、カテゴリ「ASSET」のスコアは、パターン「金」の関連辞書レコードの重み「4」と、パターン「年金」の関連辞書レコードの重み「2」との重みの総和「6」となる結果、「6」と算出される。これらカテゴリ「ID」、「AGE」および「ASSET」以外のカテゴリの関連辞書レコードは存在しないので、スコアは「0」と算出される。この結果、スコアが最高である第1カテゴリ、すなわち分類結果は「ID」および「ASSET」となる。
このように、第1新規レコード追加後の辞書データ13B3を用いて分類が行われる場合、旧検証データ13A1のキーワード「年金番号」の分類結果を正解カテゴリ「ID」の1つに絞り込むことはできない。このため、第1カテゴリと正解カテゴリとが一致しない旧検証データ13A1のキーワード「年金番号」のレコードが分類不正解データ14Dとなる。
なお、図9には、あくまで一例として、第1新規レコード追加後の辞書データ13B3を用いて分類が行われる場合に副作用が発生する事例を挙げたが、当然のことながら、辞書データ13Bに上記の第1新規レコードを追加することにより辞書データ13B4へ更新する場合に副作用が発生しない成功事例が存在することは言うまでもない。
また、ここでは、正解カテゴリを重み付けするパターンに第1カテゴリを重み付けするパターンを連結する例を挙げたが、正解カテゴリを重み付けするパターンに上位カテゴリを重み付けするパターンを連結することとしてもかまわない。
第2重み付与部193は、正解カテゴリよりもスコアが上位である上位カテゴリに負の重みを付与する処理部である。
一実施形態として、第2重み付与部193は、第1新規レコード追加後の辞書データ13B3を用いる分類結果に第1カテゴリと正解カテゴリが一致しない分類不正解データ14Dが含まれる場合、処理を起動することができる。すなわち、第2重み付与部193は、連結パターンP_kが属するカテゴリを上位カテゴリとし、上位カテゴリの重みと正解カテゴリの重みとの差に基づいて上位カテゴリに負の重みを付与する。例えば、第2重み付与部193は、上位カテゴリのスコアが正解カテゴリのスコアを下回るように、上位カテゴリの重みと正解カテゴリの重みとの差gにマージンαが付加された値g+αの符号が反転された負の重み−(g+α)を連結パターンP_kが属する上位カテゴリに付与する。
ここで言う「連結パターンP_k」は、第1新規レコードの追加時に生成される連結パターンと必ずしも同一のものとは限らない。なぜなら、第1新規レコードの追加時には、正解カテゴリを重み付けするパターンおよび第1カテゴリを重み付けするパターンから連結パターンの生成および抽出が行われるが、第2新規レコード追加時には、正解カテゴリを重み付けするパターンおよび上位カテゴリを重み付けするパターンから連結パターンの生成および抽出が行われるからである。すなわち、上位カテゴリは、分類不正解レコードにおいて必ずしも1つであるとは限らず、上位カテゴリが複数である事例を発生しうるからである。
このように連結パターンが属する上位カテゴリに負の重みが付与されることによって、連結パターンP_k、上位カテゴリ及び負の重み−(g+α)を含む辞書レコードが第2新規レコードとして追加された辞書データ13B4が得られる。このように第2新規レコードが追加された辞書データ13B4が得られた場合、当該辞書データ13B4を用いて検証データ13Aのキーワードが改めて分類される。
出力部194は、第2レコメンドの出力を制御する処理部である。
1つの側面として、第1新規レコード追加後の辞書データ13B3を用いる分類結果に第1カテゴリと正解カテゴリが一致しない分類不正解データ14Dが含まれない場合、次のような事例に該当しうる。すなわち、第1新規レコード追加後の辞書データ13B3は、新検証データ13A2の全てのキーワードを正解カテゴリに分類できる能力を有し、かつ旧検証データ13A1のキーワードの一部が正解カテゴリに分類できなくなる副作用を発生させない可能性が高い。この場合、出力部194は、辞書データ13Bのパターン同士が連結された連結パターンに正解カテゴリの正の重みが付与された第1新規レコードを辞書に追加する「第1追加レコメンド」を第2レコメンドとして出力する。
他の側面として、第2新規レコード追加後の辞書データ13B4を用いる分類結果に第1カテゴリと正解カテゴリが一致しない分類不正解データ14Eが含まれない場合、次のような事例に該当しうる。すなわち、第2新規レコード追加後の辞書データ13B4は、新検証データ13A2の全てのキーワードを正解カテゴリに分類できる能力を有し、かつ旧検証データ13A1のキーワードの一部が正解カテゴリに分類できなくなる副作用を発生させない可能性が高い。この場合、出力部194は、辞書データ13Bのパターン同士が連結された連結パターンに上位カテゴリの負の重みが付与された第2新規レコードを辞書に追加する「第2追加レコメンド」を第2レコメンドとして出力する。
これら「第1追加レコメンド」や「第2追加レコメンド」などの第2レコメンドの出力によって、辞書データ13Bに新規の辞書レコードを追加する更新作業の効率化を実現できる。
[処理の流れ]
図10は、実施例1に係る更新支援処理の手順を示すフローチャートである。この処理は、あくまで一例として、作成者端末30等から上記のカテゴライズ規則の更新リクエストを受け付けた場合に開始される。
図10は、実施例1に係る更新支援処理の手順を示すフローチャートである。この処理は、あくまで一例として、作成者端末30等から上記のカテゴライズ規則の更新リクエストを受け付けた場合に開始される。
図10に示すように、上記のカテゴライズ規則の更新リクエストを受け付けると(ステップS101)、受付部16は、次のような処理を実行する。すなわち、受付部16は、上記の更新リクエスト時に指定を受け付けたデータセット、例えば旧検証データ13A1、新検証データ13A2および辞書データ13Bを記憶部13から取得する(ステップS102)。続いて、分類部17は、辞書データ13Bを用いて検証データ13Aのキーワードを分類する(ステップS103)。
このとき、辞書データ13Bを用いる分類結果に第1カテゴリと正解カテゴリが一致しない分類不正解データ14Aが含まれる場合(ステップS104Yes)、第1レコメンド部18は、辞書データ13Bの重みを調整する第1レコメンドの是非を検証する「第1レコメンド検証処理」を実行する(ステップS105)。
ここで、図11を用いて、図10に示すステップS105の処理手順の詳細を説明する。図11は、実施例1に係る第1レコメンド検証処理の手順を示すフローチャートである。この処理は、あくまで一例として、図10に示すフローチャートにおいてステップS104Yesの分岐に進む場合に実行される。
図11に示すように、増加部181は、分類不正解データ14Aに含まれる分類不正解レコードごとに下記のステップS301および下記のステップS302の処理を実行する。
すなわち、増加部181は、分類不正解レコードにおいてスコアが最高である第1カテゴリの重みと、分類不正解レコードにおける正解カテゴリの重みとの差gを算出する(ステップS301)。そして、増加部181は、分類不正解レコードのキーワードの少なくとも一部と一致するパターンのうち正解カテゴリを重み付けするパターンの重みwに、正解カテゴリおよび第1カテゴリ間の重みの差gにマージンαが付加された値g+αを加算する(ステップS302)。
このようにして得られた重み増加後の辞書データ13B1を用いて、分類部17は、検証データ13Aのキーワードを改めて分類する(ステップS303)。なお、重み増加後の辞書データ13B1を用いる分類結果に第1カテゴリと正解カテゴリが一致しない分類不正解データ14Bが含まれない場合(ステップS304No)、このまま処理を終了する。
このとき、重み増加後の辞書データ13B1を用いる分類結果に第1カテゴリと正解カテゴリが一致しない分類不正解データ14Bが含まれる場合(ステップS304Yes)、減少部182は、分類不正解データ14Aに含まれる分類不正解レコードごと、並びに、正解カテゴリよりもスコアが上位である上位カテゴリごとに、下記のステップS305および下記のステップS306の処理を実行する。
すなわち、減少部182は、分類不正解レコードにおいて正解カテゴリのスコアよりもスコアが上位である上位である第1カテゴリの重みと、分類不正解レコードにおける正解カテゴリの重みとの差gを算出する(ステップS305)。そして、分類不正解レコードのキーワードの少なくとも一部と一致するパターンのうち上位カテゴリを重み付けするパターンの重みmから、正解カテゴリおよび上位カテゴリ間の重みの差gにマージンαが付加された値g+αを減算する(ステップS306)。
このようにして得られた重み減少後の辞書データ13B2を用いて、分類部17は、検証データ13Aのキーワードを改めて分類し(ステップS307)、処理を終了する。
図10の説明に戻り、重み増加後の辞書データ13B1を用いる分類結果に分類不正解データ14Bが含まれない場合、あるいは重み減少後の辞書データ13B2を用いる分類結果に分類不正解データ14Cが含まれない場合(ステップS106No)、出力部183は、辞書データ13Bの重みを調整する「第1レコメンド」を作成者端末30等に出力し(ステップS107)、処理を終了する。
一方、重み増加後の辞書データ13B1を用いる分類結果に分類不正解データ14Bが含まれ、かつ重み減少後の辞書データ13B2を用いる分類結果に分類不正解データ14Cが含まれる場合(ステップS106Yes)、第2レコメンド部19は、辞書データ13Bに新規の辞書レコードを追加する第2レコメンドの是非を検証する「第2レコメンド検証処理」を実行する(ステップS108)。
ここで、図12及び図13を用いて、図10に示すステップS108の処理手順の詳細を説明する。図12及び図13は、実施例1に係る第2レコメンド検証処理の手順を示すフローチャート(1)及び(2)である。この処理は、あくまで一例として、図10に示すフローチャートにおいてステップS106Yesの分岐に進む場合に実行される。
図12に示すように、連結部191は、分類不正解データ14Aに含まれる分類不正解レコードの数ごとに、下記のステップS501から下記のステップS508までの処理を実行する。
すなわち、連結部191は、分類不正解データ14Aのキーワードがヒットする関連辞書レコードのうち正解カテゴリを重み付けする関連辞書レコードCを抽出する(ステップS501)。また、連結部191は、分類不正解データ14Aのキーワードがヒットする関連辞書レコードのうち第1カテゴリを重み付けする関連辞書レコードDを抽出する(ステップS502)。
続いて、連結部191は、1つの分類不正解レコードにつき、関連辞書レコードCの数に対応する回数分、下記のステップS503から下記のステップS506までの処理を繰り返す。すなわち、連結部191は、関連辞書レコードCからパターンC_iを取得する(ステップS503)。
さらに、連結部191は、1つの関連辞書レコードCにつき、関連辞書レコードDの数に対応する回数分、下記のステップS504から下記のステップS506までの処理を繰り返す。
すなわち、連結部191は、関連辞書レコードDのパターンD_jを取得する(ステップS504)。続いて、連結部191は、パターンC_iおよびパターンD_jを連結する(ステップS505)。これによって、連結パターンP_kが生成される。このようにして得られた連結パターンP_kのうち、連結部191は、分類不正解レコードのキーワードにヒットする連結パターンP_kを抽出する(ステップS506)。
その後、第1重み付与部192は、分類不正解レコードにおける第1カテゴリの重みと、分類不正解レコードにおける正解カテゴリの重みとの差gを算出する(ステップS507)。続いて、第1重み付与部192は、第1カテゴリの重みと正解カテゴリの重みとの差gにマージンαが付加された正の重みg+αを正解カテゴリの重みとして連結パターンP_kに付与する(ステップS508)。
このように連結パターンが属する正解カテゴリに正の重みが付与されることによって、連結パターンP_k、正解カテゴリ及び正の重みg+αを含む辞書レコードが第1新規レコードとして追加された辞書データ13B3が得られる。
そして、第1新規レコードが追加された辞書データ13B3を用いて、分類部17は、検証データ13Aのキーワードを改めて分類する(ステップS509)。
ここで、第1新規レコード追加後の辞書データ13B3を用いる分類結果に第1カテゴリと正解カテゴリが一致しない分類不正解データ14Dが含まれる場合(ステップS510Yes)、連結部191は、図13に示すように、分類不正解データ14Aに含まれる分類不正解レコードごと、並びに、正解カテゴリよりもスコアが上位である上位カテゴリごとに、下記のステップS511から下記のステップS518までの処理を実行する。
すなわち、連結部191は、分類不正解データ14Aのキーワードがヒットする関連辞書レコードのうち正解カテゴリを重み付けする関連辞書レコードCを抽出する(ステップS511)。また、連結部191は、分類不正解データ14Aのキーワードがヒットする関連辞書レコードのうち上位カテゴリを重み付けする関連辞書レコードDを抽出する(ステップS512)。
続いて、連結部191は、1つの分類不正解レコードにつき、関連辞書レコードCの数に対応する回数分、下記のステップS513から下記のステップS516までの処理を繰り返す。すなわち、連結部191は、関連辞書レコードCからパターンC_iを取得する(ステップS513)。
さらに、連結部191は、1つの関連辞書レコードCにつき、関連辞書レコードDの数に対応する回数分、下記のステップS514から下記のステップS516までの処理を繰り返す。
すなわち、連結部191は、関連辞書レコードDのパターンD_jを取得する(ステップS514)。続いて、連結部191は、パターンC_iおよびパターンD_jを連結する(ステップS515)。これによって、連結パターンP_kが生成される。このようにして得られた連結パターンP_kのうち、連結部191は、分類不正解レコードのキーワードにヒットする連結パターンP_kを抽出する(ステップS516)。
その後、第2重み付与部193は、分類不正解レコードにおける上位カテゴリの重みと、分類不正解レコードにおける正解カテゴリの重みとの差gを算出する(ステップS517)。続いて、第2重み付与部193は、上位カテゴリの重みと正解カテゴリの重みとの差gにマージンαが付加された値g+αの符号が反転された負の重み−(g+α)を上位カテゴリの重みとして連結パターンP_kに付与する(ステップS518)。
そして、第2新規レコードが追加された辞書データ13B4を用いて、分類部17は、検証データ13Aのキーワードを改めて分類する(ステップS519)。
なお、第1新規レコード追加後の辞書データ13B3を用いる分類結果に第1カテゴリと正解カテゴリが一致しない分類不正解データ14Dが含まれない場合(ステップS510No)、ステップS511〜ステップS519の処理をスキップして処理を終了する。
図10の説明に戻り、第1新規レコード追加後の辞書データ13B3を用いる分類結果に分類不正解データ14Dが含まれない場合、あるいは第2新規レコード追加後の辞書データ13B4を用いる分類結果に分類不正解データ14Eが含まれない場合(ステップS109No)、出力部194は、辞書データ13Bに新規の辞書レコードを追加する「第2レコメンド」を作成者端末30等に出力し(ステップS110)、処理を終了する。
なお、第1新規レコード追加後の辞書データ13B3を用いる分類結果に分類不正解データ14Dが含まれ、かつ第2新規レコード追加後の辞書データ13B4を用いる分類結果に分類不正解データ14Eが含まれる場合(ステップS109Yes)、第1レコメンド及び第2レコメンドのいずれもが出力されず、そのまま処理を終了する。
[効果の一側面]
上述してきたように、本実施例に係る更新支援機能は、分類不正解キーワードと一致する辞書のパターンのうち正解カテゴリ及び上位カテゴリを重み付けするパターン同士を連結して両者の重みの差を基に重みを定めた辞書レコードの追加をレコメンドする。
上述してきたように、本実施例に係る更新支援機能は、分類不正解キーワードと一致する辞書のパターンのうち正解カテゴリ及び上位カテゴリを重み付けするパターン同士を連結して両者の重みの差を基に重みを定めた辞書レコードの追加をレコメンドする。
あくまで1つの側面として、本実施例に係る更新支援機能は、連結パターンに正解カテゴリの正の重みが付与された第1新規レコードを辞書に追加する「第1追加レコメンド」を出力する。他の側面として、本実施例に係る更新支援機能は、連結パターンに上位カテゴリの負の重みが付与された第2新規レコードを辞書に追加する「第2追加レコメンド」を出力する。
したがって、本実施例に係る更新支援機能によれば、カテゴライズ規則の更新作業を効率化できる。
さて、これまで開示の装置に関する実施例について説明したが、本発明は上述した実施例以外にも、種々の異なる形態にて実施されてよいものである。そこで、以下では、本発明に含まれる他の実施例を説明する。
[重みが付与される対象]
上記の実施例1では、上記の「重み」は、上記の「カテゴリ」に付与される例を挙げたがこれに限定されず、上記の「重み」は、「パターン」及び「カテゴリ」の組みに応じて設定されてよい。例えば、パターンが「金」の場合、カテゴリが「ASSET」である重みは「5」となるが、パターンが「土地」の場合、カテゴリが「ASSET」である重みは「7」となる、といった設定が可能である。
上記の実施例1では、上記の「重み」は、上記の「カテゴリ」に付与される例を挙げたがこれに限定されず、上記の「重み」は、「パターン」及び「カテゴリ」の組みに応じて設定されてよい。例えば、パターンが「金」の場合、カテゴリが「ASSET」である重みは「5」となるが、パターンが「土地」の場合、カテゴリが「ASSET」である重みは「7」となる、といった設定が可能である。
[重みの値の決定方法]
上記の実施例1では、分類結果が不正解であるキーワードの分類において正解カテゴリのスコア算出に用いられる重みと上位カテゴリのスコア算出に用いられる重みとの差に基づいて重みの値を設定する例を挙げたが、これに限定さない。例えば、旧検出データの副作用や新検証データの不正解がなくなるまで定量加算、例えば「+1」または定量減算、例えば「−1」を繰り返すことにより、正解カテゴリに付与する正の重みの値や上位カテゴリに付与する負の重みの値を収束させることとしてよい。
上記の実施例1では、分類結果が不正解であるキーワードの分類において正解カテゴリのスコア算出に用いられる重みと上位カテゴリのスコア算出に用いられる重みとの差に基づいて重みの値を設定する例を挙げたが、これに限定さない。例えば、旧検出データの副作用や新検証データの不正解がなくなるまで定量加算、例えば「+1」または定量減算、例えば「−1」を繰り返すことにより、正解カテゴリに付与する正の重みの値や上位カテゴリに付与する負の重みの値を収束させることとしてよい。
[分散および統合]
また、図示した各装置の各構成要素は、必ずしも物理的に図示の如く構成されておらずともよい。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。例えば、受付部16、分類部17、第1レコメンド部18または第2レコメンド部19を分類装置10の外部装置としてネットワーク経由で接続するようにしてもよい。また、受付部16、分類部17、第1レコメンド部18または第2レコメンド部19を別の装置がそれぞれ有し、ネットワーク接続されて協働することで、上記の分類装置10の機能を実現するようにしてもよい。
また、図示した各装置の各構成要素は、必ずしも物理的に図示の如く構成されておらずともよい。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。例えば、受付部16、分類部17、第1レコメンド部18または第2レコメンド部19を分類装置10の外部装置としてネットワーク経由で接続するようにしてもよい。また、受付部16、分類部17、第1レコメンド部18または第2レコメンド部19を別の装置がそれぞれ有し、ネットワーク接続されて協働することで、上記の分類装置10の機能を実現するようにしてもよい。
[更新支援プログラム]
また、上記の実施例で説明した各種の処理は、予め用意されたプログラムをパーソナルコンピュータやワークステーションなどのコンピュータで実行することによって実現することができる。そこで、以下では、図14を用いて、上記の実施例1および上記の実施例2と同様の機能を有する更新支援プログラムを実行するコンピュータの一例について説明する。
また、上記の実施例で説明した各種の処理は、予め用意されたプログラムをパーソナルコンピュータやワークステーションなどのコンピュータで実行することによって実現することができる。そこで、以下では、図14を用いて、上記の実施例1および上記の実施例2と同様の機能を有する更新支援プログラムを実行するコンピュータの一例について説明する。
図14は、コンピュータのハードウェア構成例を示す図である。図14に示すように、コンピュータ100は、操作部110aと、スピーカ110bと、カメラ110cと、ディスプレイ120と、通信部130とを有する。さらに、このコンピュータ100は、CPU150と、ROM160と、HDD170と、RAM180とを有する。これら110〜180の各部はバス140を介して接続される。
HDD170には、図14に示すように、上記の実施例1で示した受付部16、分類部17、第1レコメンド部18及び第2レコメンド部19と同様の機能を発揮する更新支援プログラム170aが記憶される。この更新支援プログラム170aは、図1に示した受付部16、分類部17、第1レコメンド部18及び第2レコメンド部19の各構成要素と同様、統合又は分離してもかまわない。すなわち、HDD170には、必ずしも上記の実施例1で示した全てのデータが格納されずともよく、処理に用いるデータがHDD170に格納されればよい。
このような環境の下、CPU150は、HDD170から更新支援プログラム170aを読み出した上でRAM180へ展開する。この結果、更新支援プログラム170aは、図14に示すように、更新支援プロセス180aとして機能する。この更新支援プロセス180aは、RAM180が有する記憶領域のうち更新支援プロセス180aに割り当てられた領域にHDD170から読み出した各種データを展開し、この展開した各種データを用いて各種の処理を実行する。例えば、更新支援プロセス180aが実行する処理の一例として、図10〜図13に示す処理などが含まれる。なお、CPU150では、必ずしも上記の実施例1で示した全ての処理部が動作せずともよく、実行対象とする処理に対応する処理部が仮想的に実現されればよい。
なお、上記の更新支援プログラム170aは、必ずしも最初からHDD170やROM160に記憶されておらずともかまわない。例えば、コンピュータ100に挿入されるフレキシブルディスク、いわゆるFD、CD−ROM、DVDディスク、光磁気ディスク、ICカードなどの「可搬用の物理媒体」に更新支援プログラム170aを記憶させる。そして、コンピュータ100がこれらの可搬用の物理媒体から更新支援プログラム170aを取得して実行するようにしてもよい。また、公衆回線、インターネット、LAN、WANなどを介してコンピュータ100に接続される他のコンピュータまたはサーバ装置などに更新支援プログラム170aを記憶させておき、コンピュータ100がこれらから更新支援プログラム170aを取得して実行するようにしてもよい。
以上の実施例を含む実施形態に関し、さらに以下の付記を開示する。
(付記1)所定のキーワードと照合されるパターンと、前記パターンが属するカテゴリと、前記カテゴリに付与された重みとを含むレコードを有する辞書を参照して、検証対象のキーワードの少なくとも一部と一致するパターンが属するカテゴリに付与された重みからカテゴリごとに算出されるスコアが最高であるカテゴリに前記検証対象のキーワードを分類する分類部と、
分類結果が不正解であるキーワードの少なくとも一部と一致するパターンを含むレコードのうち、正解カテゴリを含む第1のレコードに含まれるパターンと、前記正解カテゴリよりもスコアが上位である上位カテゴリを含む第2のレコードに含まれるパターンとを連結して連結パターンを生成する連結部と、
前記連結パターンと、前記正解カテゴリ及び前記上位カテゴリのいずれかのカテゴリと、前記いずれかのカテゴリに付与された重みとを含むレコードを前記辞書に追加するレコメンドを出力する出力部と、
を有する更新支援装置。
分類結果が不正解であるキーワードの少なくとも一部と一致するパターンを含むレコードのうち、正解カテゴリを含む第1のレコードに含まれるパターンと、前記正解カテゴリよりもスコアが上位である上位カテゴリを含む第2のレコードに含まれるパターンとを連結して連結パターンを生成する連結部と、
前記連結パターンと、前記正解カテゴリ及び前記上位カテゴリのいずれかのカテゴリと、前記いずれかのカテゴリに付与された重みとを含むレコードを前記辞書に追加するレコメンドを出力する出力部と、
を有する更新支援装置。
(付記2)前記連結部は、前記連結パターンのうち、前記分類結果が不正解であるキーワードの少なくとも一部と一致する連結パターンを抽出し、
前記出力部は、抽出された連結パターンと、前記正解カテゴリ及び前記上位カテゴリのいずれかのカテゴリと、前記いずれかのカテゴリに付与された重みとを含む前記レコードを前記辞書に追加する付記1に記載の更新支援装置。
前記出力部は、抽出された連結パターンと、前記正解カテゴリ及び前記上位カテゴリのいずれかのカテゴリと、前記いずれかのカテゴリに付与された重みとを含む前記レコードを前記辞書に追加する付記1に記載の更新支援装置。
(付記3)前記出力部は、前記連結パターンと、前記正解カテゴリと、前記正解カテゴリに付与された正の重みとを含むレコードを前記辞書に追加するレコメンドを出力する付記2に記載の更新支援装置。
(付記4)前記上位カテゴリは、スコアが最高である第1カテゴリである付記3に記載の更新支援装置。
(付記5)前記出力部は、前記連結パターンと、前記上位カテゴリと、前記上位カテゴリに付与された負の重みとを含むレコードを前記辞書に追加するレコメンドを出力する付記2に記載の更新支援装置。
(付記6)所定のキーワードと照合されるパターンと、前記パターンが属するカテゴリと、前記カテゴリに付与された重みとを含むレコードを有する辞書を参照して、検証対象のキーワードの少なくとも一部と一致するパターンが属するカテゴリに付与された重みからカテゴリごとに算出されるスコアが最高であるカテゴリに前記検証対象のキーワードを分類し、
分類結果が不正解であるキーワードの少なくとも一部と一致するパターンを含むレコードのうち、正解カテゴリを含む第1のレコードに含まれるパターンと、前記正解カテゴリよりもスコアが上位である上位カテゴリを含む第2のレコードに含まれるパターンとを連結して連結パターンを生成し、
前記連結パターンと、前記正解カテゴリ及び前記上位カテゴリのいずれかのカテゴリと、前記いずれかのカテゴリに付与された重みとを含むレコードを前記辞書に追加するレコメンドを出力する、
処理をコンピュータが実行する更新支援方法。
分類結果が不正解であるキーワードの少なくとも一部と一致するパターンを含むレコードのうち、正解カテゴリを含む第1のレコードに含まれるパターンと、前記正解カテゴリよりもスコアが上位である上位カテゴリを含む第2のレコードに含まれるパターンとを連結して連結パターンを生成し、
前記連結パターンと、前記正解カテゴリ及び前記上位カテゴリのいずれかのカテゴリと、前記いずれかのカテゴリに付与された重みとを含むレコードを前記辞書に追加するレコメンドを出力する、
処理をコンピュータが実行する更新支援方法。
(付記7)前記生成する処理は、前記連結パターンのうち、前記分類結果が不正解であるキーワードの少なくとも一部と一致する連結パターンを抽出することを含み、
前記出力する処理は、抽出された連結パターンと、前記正解カテゴリ及び前記上位カテゴリのいずれかのカテゴリと、前記いずれかのカテゴリに付与された重みとを含む前記レコードを前記辞書に追加することを含む付記6に記載の更新支援方法。
前記出力する処理は、抽出された連結パターンと、前記正解カテゴリ及び前記上位カテゴリのいずれかのカテゴリと、前記いずれかのカテゴリに付与された重みとを含む前記レコードを前記辞書に追加することを含む付記6に記載の更新支援方法。
(付記8)前記出力する処理は、前記連結パターンと、前記正解カテゴリと、前記正解カテゴリに付与された正の重みとを含むレコードを前記辞書に追加するレコメンドを出力することを含む付記7に記載の更新支援方法。
(付記9)前記上位カテゴリは、スコアが最高である第1カテゴリである付記8に記載の更新支援方法。
(付記10)前記出力する処理は、前記連結パターンと、前記上位カテゴリと、前記上位カテゴリに付与された負の重みとを含むレコードを前記辞書に追加するレコメンドを出力することを含む付記7に記載の更新支援方法。
(付記11)所定のキーワードと照合されるパターンと、前記パターンが属するカテゴリと、前記カテゴリに付与された重みとを含むレコードを有する辞書を参照して、検証対象のキーワードの少なくとも一部と一致するパターンが属するカテゴリに付与された重みからカテゴリごとに算出されるスコアが最高であるカテゴリに前記検証対象のキーワードを分類し、
分類結果が不正解であるキーワードの少なくとも一部と一致するパターンを含むレコードのうち、正解カテゴリを含む第1のレコードに含まれるパターンと、前記正解カテゴリよりもスコアが上位である上位カテゴリを含む第2のレコードに含まれるパターンとを連結して連結パターンを生成し、
前記連結パターンと、前記正解カテゴリ及び前記上位カテゴリのいずれかのカテゴリと、前記いずれかのカテゴリに付与された重みとを含むレコードを前記辞書に追加するレコメンドを出力する、
処理をコンピュータに実行させる更新支援プログラム。
分類結果が不正解であるキーワードの少なくとも一部と一致するパターンを含むレコードのうち、正解カテゴリを含む第1のレコードに含まれるパターンと、前記正解カテゴリよりもスコアが上位である上位カテゴリを含む第2のレコードに含まれるパターンとを連結して連結パターンを生成し、
前記連結パターンと、前記正解カテゴリ及び前記上位カテゴリのいずれかのカテゴリと、前記いずれかのカテゴリに付与された重みとを含むレコードを前記辞書に追加するレコメンドを出力する、
処理をコンピュータに実行させる更新支援プログラム。
(付記12)前記生成する処理は、前記連結パターンのうち、前記分類結果が不正解であるキーワードの少なくとも一部と一致する連結パターンを抽出することを含み、
前記出力する処理は、抽出された連結パターンと、前記正解カテゴリ及び前記上位カテゴリのいずれかのカテゴリと、前記いずれかのカテゴリに付与された重みとを含む前記レコードを前記辞書に追加することを含む付記11に記載の更新支援プログラム。
前記出力する処理は、抽出された連結パターンと、前記正解カテゴリ及び前記上位カテゴリのいずれかのカテゴリと、前記いずれかのカテゴリに付与された重みとを含む前記レコードを前記辞書に追加することを含む付記11に記載の更新支援プログラム。
(付記13)前記出力する処理は、前記連結パターンと、前記正解カテゴリと、前記正解カテゴリに付与された正の重みとを含むレコードを前記辞書に追加するレコメンドを出力することを含む付記12に記載の更新支援プログラム。
(付記14)前記上位カテゴリは、スコアが最高である第1カテゴリである付記13に記載の更新支援プログラム。
(付記15)前記出力する処理は、前記連結パターンと、前記上位カテゴリと、前記上位カテゴリに付与された負の重みとを含むレコードを前記辞書に追加するレコメンドを出力することを含む付記12に記載の更新支援プログラム。
1 システム
10 分類装置
11 通信インタフェイス部
13 記憶部
13A 検証データ
13A1 旧検証データ
13A2 新検証データ
13B 辞書データ
15 制御部
16 受付部
17 分類部
18 第1レコメンド部
19 第2レコメンド部
30 作成者端末
10 分類装置
11 通信インタフェイス部
13 記憶部
13A 検証データ
13A1 旧検証データ
13A2 新検証データ
13B 辞書データ
15 制御部
16 受付部
17 分類部
18 第1レコメンド部
19 第2レコメンド部
30 作成者端末
Claims (7)
- 所定のキーワードと照合されるパターンと、前記パターンが属するカテゴリと、前記カテゴリに付与された重みとを含むレコードを有する辞書を参照して、検証対象のキーワードの少なくとも一部と一致するパターンが属するカテゴリに付与された重みからカテゴリごとに算出されるスコアが最高であるカテゴリに前記検証対象のキーワードを分類する分類部と、
分類結果が不正解であるキーワードの少なくとも一部と一致するパターンを含むレコードのうち、正解カテゴリを含む第1のレコードに含まれるパターンと、前記正解カテゴリよりもスコアが上位である上位カテゴリを含む第2のレコードに含まれるパターンとを連結して連結パターンを生成する連結部と、
前記連結パターンと、前記正解カテゴリ及び前記上位カテゴリのいずれかのカテゴリと、前記いずれかのカテゴリに付与された重みとを含むレコードを前記辞書に追加するレコメンドを出力する出力部と、
を有する更新支援装置。 - 前記連結部は、前記連結パターンのうち、前記分類結果が不正解であるキーワードの少なくとも一部と一致する連結パターンを抽出し、
前記出力部は、抽出された連結パターンと、前記正解カテゴリ及び前記上位カテゴリのいずれかのカテゴリと、前記いずれかのカテゴリに付与された重みとを含む前記レコードを前記辞書に追加する請求項1に記載の更新支援装置。 - 前記出力部は、前記連結パターンと、前記正解カテゴリと、前記正解カテゴリに付与された正の重みとを含むレコードを前記辞書に追加するレコメンドを出力する請求項2に記載の更新支援装置。
- 前記上位カテゴリは、スコアが最高である第1カテゴリである請求項3に記載の更新支援装置。
- 前記出力部は、前記連結パターンと、前記上位カテゴリと、前記上位カテゴリに付与された負の重みとを含むレコードを前記辞書に追加するレコメンドを出力する請求項2に記載の更新支援装置。
- 所定のキーワードと照合されるパターンと、前記パターンが属するカテゴリと、前記カテゴリに付与された重みとを含むレコードを有する辞書を参照して、検証対象のキーワードの少なくとも一部と一致するパターンが属するカテゴリに付与された重みからカテゴリごとに算出されるスコアが最高であるカテゴリに前記検証対象のキーワードを分類し、
分類結果が不正解であるキーワードの少なくとも一部と一致するパターンを含むレコードのうち、正解カテゴリを含む第1のレコードに含まれるパターンと、前記正解カテゴリよりもスコアが上位である上位カテゴリを含む第2のレコードに含まれるパターンとを連結して連結パターンを生成し、
前記連結パターンと、前記正解カテゴリ及び前記上位カテゴリのいずれかのカテゴリと、前記いずれかのカテゴリに付与された重みとを含むレコードを前記辞書に追加するレコメンドを出力する、
処理をコンピュータが実行する更新支援方法。 - 所定のキーワードと照合されるパターンと、前記パターンが属するカテゴリと、前記カテゴリに付与された重みとを含むレコードを有する辞書を参照して、検証対象のキーワードの少なくとも一部と一致するパターンが属するカテゴリに付与された重みからカテゴリごとに算出されるスコアが最高であるカテゴリに前記検証対象のキーワードを分類し、
分類結果が不正解であるキーワードの少なくとも一部と一致するパターンを含むレコードのうち、正解カテゴリを含む第1のレコードに含まれるパターンと、前記正解カテゴリよりもスコアが上位である上位カテゴリを含む第2のレコードに含まれるパターンとを連結して連結パターンを生成し、
前記連結パターンと、前記正解カテゴリ及び前記上位カテゴリのいずれかのカテゴリと、前記いずれかのカテゴリに付与された重みとを含むレコードを前記辞書に追加するレコメンドを出力する、
処理をコンピュータに実行させる更新支援プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020059169A JP2021157667A (ja) | 2020-03-27 | 2020-03-27 | 更新支援装置、更新支援方法及び更新支援プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020059169A JP2021157667A (ja) | 2020-03-27 | 2020-03-27 | 更新支援装置、更新支援方法及び更新支援プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2021157667A true JP2021157667A (ja) | 2021-10-07 |
Family
ID=77918579
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020059169A Pending JP2021157667A (ja) | 2020-03-27 | 2020-03-27 | 更新支援装置、更新支援方法及び更新支援プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2021157667A (ja) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0816597A (ja) * | 1994-06-24 | 1996-01-19 | Oki Electric Ind Co Ltd | 単語辞書登録装置及び文書認識装置 |
JP2009295052A (ja) * | 2008-06-06 | 2009-12-17 | Yahoo Japan Corp | 複合語の区切り位置を推定する複合語区切り推定装置、方法、およびプログラム |
JP2010191710A (ja) * | 2009-02-18 | 2010-09-02 | Yahoo Japan Corp | ジャンル判定辞書作成装置、ジャンル判定装置及び方法 |
-
2020
- 2020-03-27 JP JP2020059169A patent/JP2021157667A/ja active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0816597A (ja) * | 1994-06-24 | 1996-01-19 | Oki Electric Ind Co Ltd | 単語辞書登録装置及び文書認識装置 |
JP2009295052A (ja) * | 2008-06-06 | 2009-12-17 | Yahoo Japan Corp | 複合語の区切り位置を推定する複合語区切り推定装置、方法、およびプログラム |
JP2010191710A (ja) * | 2009-02-18 | 2010-09-02 | Yahoo Japan Corp | ジャンル判定辞書作成装置、ジャンル判定装置及び方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11907274B2 (en) | Hyper-graph learner for natural language comprehension | |
WO2021073271A1 (zh) | 舆情分析方法、装置、计算机装置及存储介质 | |
CN109543516A (zh) | 签约意向判断方法、装置、计算机设备和存储介质 | |
KR102046748B1 (ko) | 트리 부스팅 기반 애플리케이션의 위험도 평가 방법, 이를 수행하기 위한 기록 매체 및 장치 | |
JP2023553121A (ja) | 分野特有の自然言語処理モデルを使用した文書の分類 | |
CN111710383A (zh) | 病历质控方法、装置、计算机设备和存储介质 | |
WO2022048363A1 (zh) | 网站分类方法、装置、计算机设备及存储介质 | |
TW201734893A (zh) | 信用分的獲取、特徵向量值的輸出方法及其裝置 | |
US10762438B1 (en) | Extracting questions and answers | |
US20220414766A1 (en) | Computing system and method for creating a data science model having reduced bias | |
WO2021189975A1 (zh) | 机器行为识别方法、装置、设备及计算机可读存储介质 | |
WO2019085332A1 (zh) | 金融数据分析方法、应用服务器及计算机可读存储介质 | |
KR102280490B1 (ko) | 상담 의도 분류용 인공지능 모델을 위한 훈련 데이터를 자동으로 생성하는 훈련 데이터 구축 방법 | |
KR20230155336A (ko) | 본인 및 상대방의 선호 조건에 기반하여 매칭을 주선하는 ai 기반의 만남 매칭 서비스 제공 방법 및 장치 | |
CN114676307B (zh) | 基于用户检索的排序模型训练方法、装置、设备及介质 | |
KR20220065353A (ko) | 빅데이터 기반 전문가 매칭 시스템 및 방법 | |
WO2021012958A1 (zh) | 原创文本甄别方法、装置、设备与计算机可读存储介质 | |
CN115099339A (zh) | 欺诈行为识别方法、装置、电子设备及存储介质 | |
KR20230053322A (ko) | 외국인 근로자와 기업체 간 매칭 플랫폼을 제공하는 서버의 제어 방법, 및 전자 장치 | |
CN114741384A (zh) | 一种患者信息处理方法及其装置、计算机可读存储介质 | |
CN114064893A (zh) | 一种异常数据审核方法、装置、设备及存储介质 | |
JP2021157667A (ja) | 更新支援装置、更新支援方法及び更新支援プログラム | |
Eom et al. | Time-weighted cumulative lstm method using log data for predicting credit card customer turnover | |
US20140324524A1 (en) | Evolving a capped customer linkage model using genetic models | |
US11042520B2 (en) | Computer system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20221208 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230914 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230926 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20240319 |