JP7237878B2 - ドメイン知識活用支援装置、プログラムおよびドメイン知識活用支援方法 - Google Patents
ドメイン知識活用支援装置、プログラムおよびドメイン知識活用支援方法 Download PDFInfo
- Publication number
- JP7237878B2 JP7237878B2 JP2020049826A JP2020049826A JP7237878B2 JP 7237878 B2 JP7237878 B2 JP 7237878B2 JP 2020049826 A JP2020049826 A JP 2020049826A JP 2020049826 A JP2020049826 A JP 2020049826A JP 7237878 B2 JP7237878 B2 JP 7237878B2
- Authority
- JP
- Japan
- Prior art keywords
- sentence
- domain
- words
- information database
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 9
- 238000000605 extraction Methods 0.000 claims description 41
- 238000006243 chemical reaction Methods 0.000 claims description 26
- 239000000284 extract Substances 0.000 claims description 15
- 238000003384 imaging method Methods 0.000 claims description 13
- 239000003086 colorant Substances 0.000 claims description 5
- 238000010586 diagram Methods 0.000 description 13
- 238000004519 manufacturing process Methods 0.000 description 10
- 238000012545 processing Methods 0.000 description 7
- 238000012986 modification Methods 0.000 description 6
- 230000004048 modification Effects 0.000 description 6
- 238000013519 translation Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000000547 structure data Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 229910052751 metal Inorganic materials 0.000 description 1
- 239000002184 metal Substances 0.000 description 1
- 150000002739 metals Chemical class 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 229920000642 polymer Polymers 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000002023 wood Substances 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
Description
図1は、本実施形態に係るドメイン知識活用支援装置100の機能ブロック図である。ドメイン知識活用支援装置100は、制御部110、記憶部120、および入出力部180を含んで構成される。入出力部180は、ディスプレイやキーボード、マウスなどのユーザインタフェースの他、他の装置との通信インタフェースを備える。
図2は、本実施形態に係る含意情報データベース130のデータ構成を示す図である。含意とは、文が含む意味であり、文の述語の意味である。含意情報データベース130は、例えば表形式のデータであって、1つの行(レコード)は含意を示し、含意131、ドメイン132、および語133を含む。
レコード139は、「製造業」に係る文の述語が「原因となる」である場合には、当該文の含意は「要因」であることを示している。
図3は、本実施形態に係るドメイン別カテゴリ情報データベース140のデータ構成を示す図である。図3に示した例は、「製造業」ドメインのドメイン別カテゴリ情報データベース140である。
ドメイン別カテゴリ情報データベース140は、ドメイン(業種)ごとに語のカテゴリ(語の意味の種類)が記憶される。ドメイン別カテゴリ情報データベース140は、例えば表形式のデータであって、1つの行(レコード)は語を示し、語141、カテゴリ142、および関連語143を含む。
図4は、本実施形態に係る一般情報データベース150のデータ構成を示す図である。一般情報データベースには、ドメイン固有ではない語が含まれる。一般情報データベース150は、例えば表形式のデータであって、1つの行(レコード)は語を示し、語151、および品詞152を含む。
図5は、本実施形態に係る含意のイメージ変換情報データベース161のデータ構成図である。図6は、本実施形態に係るカテゴリのイメージ変換情報データベース166のデータ構成図である。図7は、本実施形態に係る品詞のイメージ変換情報データベース171のデータ構成図である。イメージ変換情報データベース160(図1参照)には、含意のイメージ変換情報データベース161、カテゴリのイメージ変換情報データベース166、および品詞のイメージ変換情報データベース171が備わる。
カテゴリのイメージ変換情報データベース166は、例えば表形式のデータであって、ドメイン別カテゴリ情報データベース140(図3参照)のカテゴリ142に対応するカテゴリ167に割り当てられた色168が記憶される。
品詞のイメージ変換情報データベース171は、例えば表形式のデータであって、一般情報データベース150(図4参照)の品詞152に対応する品詞172に割り当てられた色173が記憶される。
図1に戻って、制御部110はCPU(Central Processing Unit)から構成され、テキスト分割部111、ドメイン判定部112、含意抽出部113、ドメイン情報抽出部114、一般情報抽出部115、構造化部116、およびイメージ化部117を備える。
テキスト分割部111は、入出力部180から入力されたテキストを段落や文に分割する。例えば、テキスト分割部111は、入力されたテキスト210を2つの文に分割する。
含意抽出部113は、文から含意を抽出する。詳しくは、含意抽出部113は、含意情報データベース130(図2参照)のレコードであって、文の述語を語133に含み、ドメイン判定部112が判定した文のドメインをドメイン132とするレコードを特定して、当該レコードの含意131を抽出する。
文220の破線の下線が施された語は、含意抽出部113が抽出した語である。文220の実線の下線が施された語は、ドメイン情報抽出部114が抽出した語である。また、文220の点線の下線が施された語は、一般情報抽出部115が抽出した語である。
破線の下線の下に、含意抽出部113が抽出した文の含意を記載している。実線の下線の下に、ドメイン情報抽出部114が抽出した語のカテゴリを記載している。
図10は、本実施形態に係る構造化部116が生成した木300である。木300の根(ルートとなるノード301)はテキスト210を示す。根の葉(下位ノード)は文であり、木300では含意抽出部113が抽出した文の含意をラベルとするノード311,312である。テキスト210の第1の文220がノード311に対応し、第2の文がノード312に対応する。第1の文220の述語は「提供しています」であり、その含意は「影響」となる(図2参照)。以下では、第1の文220に対応するノード311を根とする木について説明する。
図11は、本実施形態に係るイメージ化部117が生成した画像400である。画像400には、テキスト200の第1の文に対応する領域410と、第2の文に対応する領域450とが含まれる。また、画像400には、テキストに含まれる文の含意に対応する矩形420,460、各文の含まれる語のカテゴリに対応する矩形430,470、および各文に含まれる一般語の品詞に対応する矩形440,480が含まれる。文の含意、語のカテゴリ、および一般語の品詞は、矩形の色で表現される。
図12は、本実施形態に係るドメイン知識活用支援装置100が実行する情報抽出処理のフローチャートである。
ステップS11においてテキスト分割部111は、入出力部180から入力されたテキストを文に分割する。
ステップS13において含意抽出部113は、文の述語を抽出し、含意情報データベース130(図2参照)を参照して、文の含意を抽出する。次に、ドメイン情報抽出部114は、ステップS12で判定されたドメインに対応するドメイン別カテゴリ情報データベース140を参照して、文に含まれる語のカテゴリを抽出する。続いて、一般情報抽出部115は、一般情報データベース150を参照して、文に含まれる語の品詞を抽出する。
ステップS15においてイメージ化部117は、テキストを画像(図11参照)に変換する。出力先は入出力部180に備わるディスプレイであってもよいし、他の装置に送信してもよい。
ドメイン知識活用支援装置100は、テキストに含まれる文について、ドメインを取得して、含意、語のカテゴリ、および語(一般語)の品詞を抽出する。抽出された情報は、木300(図10参照)および画像400(図11参照)の形式で出力される。
出力された木や画像には、テキストに含まれる語の情報だけではなく、文のドメインによって決まる文の含意や語のカテゴリ、語の属性(肯定的か否か)が含まれている。同じ述語や語であっても、ドメインによって含意やカテゴリが異なり、木や画像には単に含意やカテゴリ、属性の他に、ドメインによる曖昧性も含まれることになる。これらの情報(テキストの特徴)を利用することで、従来技術に見られる語や語の関係性(語の並び、係り受け)を利用したテキスト検索やテキスト分類、翻訳などに比べて、精度や品質の向上が見込まれる。
木300(図10参照)において、文に対応する含意のノード311の下位ノードは、ドメインのノード321、および一般のノード322である。これに替えて、含意のノード311の下位ノードをカテゴリのノード331としてもよい。
また、文に含まれる語のノード341,332をなくした木としてもよい。語をなくすことで、含まれる情報量は減少するが、木が単純化され見やすくなる。
イメージ化部117が生成する画像400(図11参照)は、矩形から構成されているが、楕円や多角形など他の図形であってもよい。また、画像400に含まれる矩形は、含意やカテゴリ、品詞に対応していて、矩形の数と文や語(含意とカテゴリと品詞)は一致しているが、食い違ってもよい。例えば、同じカテゴリや品詞が多数あれば、他より大きい1つの矩形にまとめてもよい。また、含意とカテゴリと品詞(属性が付与された品詞)とは、色で表現しているが、図11に示すように模様(パターン)で示してもよいし、色と模様の組み合わせ、その他の形式で示してもよい。
画像において、語に対応する矩形をなくしてもよい。語をなくすことで、含まれる情報量は減少するが、画像が単純化され見やすくなる。
上記した実施形態では、ドメインに応じた文の含意を抽出している。これに加えて、例えば接続詞に注目して、接続関係抽出部が、文と文との関係(順接、逆接、転換などの接続関係)を抽出して、構造化部116やイメージ化部117が、接続関係を木や画像に含めるようにしてもよい。例えば、木において、テキストに対応するルートのノードとその下位の文に対応するノードとの間に、文と前の文との接続関係を示すノードを設けるようにしてもよい。イメージ変換情報データベース160は、接続関係と接続関係に割り当てられた色との関連を記憶する接続関係のイメージ変換情報データベースを備え、画像400(図11参照)において、文に対応する矩形に隣接して、文と前の文との関係を示す矩形を配置してもよい。
テキストに含まれる文の情報だけではなく、木や画像には文と文との関係まで含まれており、テキスト検索や分類、翻訳おいてさらなる精度や品質の向上が見込める。
本実施形態で例示するドメイン知識活用支援装置100の構成は、上記した形態に限られず、同様の効果や機能を奏し得る範囲において、任意の単位で機能的または物理的に分散・統合して構成することができる。例えば、含意情報データベース130やドメイン別カテゴリ情報データベース140、一般情報データベース150などは、別の装置に記憶され、ドメイン知識活用支援装置100は、この別の装置にアクセスして情報抽出処理を実行してもよい。
111 テキスト分割部
112 ドメイン判定部
113 含意抽出部
114 ドメイン情報抽出部
115 一般情報抽出部
116 構造化部
117 イメージ化部
120 記憶部
121 プログラム
130 含意情報データベース
140 ドメイン別カテゴリ情報データベース
150 一般情報データベース
160 イメージ変換情報データベース
300 木(木構造データ)
400 画像
Claims (9)
- テキストを文に分割するテキスト分割部と、
前記文が係るドメインを判定するドメイン判定部と、
語と前記ドメインと当該語の含意とを関連付けて記憶する含意情報データベースを参照して、前記文の述語となる語の含意を抽出する含意抽出部と、
ドメイン別に語と当該語のカテゴリとを関連付けて記憶するドメイン別カテゴリ情報データベースを参照して、前記文から語と当該語のカテゴリとを抽出するドメイン情報抽出部と、
前記テキストを木に変換する構造化部とを備え、
前記木は、
根が、前記テキストに対応し、
当該根の下位ノードは、当該テキストに含まれる文に対応するとともに、前記含意抽出部が抽出した当該文の含意を示すノードであり、
当該文の含意を示すノードの下位ノードは、ドメインのノードであり、
当該ドメインのノードの下位ノードは、前記ドメイン情報抽出部が抽出した当該文に含まれる語のカテゴリを示すノードを含む
ことを特徴とするドメイン知識活用支援装置。 - 前記文に含まれる接続詞を参照して、当該文と当該文の前の文との接続関係を抽出する接続関係抽出部をさらに備え、
前記構造化部は、
前記木の根と当該根の下位ノードである前記文の含意を示すノードと間に、当該文と当該文の前の文との接続関係を示すノードを加える
ことを特徴とする請求項1に記載のドメイン知識活用支援装置。 - 語と当該語の品詞とを関連付けて記憶する一般情報データベースを参照して、前記文から前記一般情報データベースに記憶される語を抽出する一般情報抽出部を備え、
前記木は、
前記文の含意を示すノードの下位ノードが、前記ドメインのノードに加えて、一般のノードであり、
当該一般のノードの下位ノードは、前記一般情報抽出部が抽出した語を示すノードを含む
ことを特徴とする請求項1に記載のドメイン知識活用支援装置。 - 前記カテゴリと前記含意との配色を記憶するイメージ変換情報データベースを参照して、前記テキストに含まれる文それぞれについて、前記文の含意を示す色の矩形と、当該矩形の下に横に並んだ、当該文に含まれる語のカテゴリを示す色の矩形とを含む図形を生成し、
前記テキストに含まれる文それぞれについて生成された前記図形が縦に並んだ画像を生成するイメージ化部を備える
ことを特徴とする請求項1に記載のドメイン知識活用支援装置。 - 前記文に含まれる接続詞を参照して、当該文と当該文の前の文との接続関係を抽出する接続関係抽出部をさらに備え、
前記イメージ変換情報データベースには、前記接続関係の配色が記憶され、
前記イメージ化部は、
前記画像のなかに、前記文の含意を示す色の矩形に隣接して、当該文と当該文の前の文との接続関係を示す色の矩形を配置する
ことを特徴とする請求項4に記載のドメイン知識活用支援装置。 - 語と当該語の品詞とを関連付けて記憶する一般情報データベースを参照して、前記文から前記一般情報データベースに記憶される語を抽出する一般情報抽出部を備え、
前記イメージ変換情報データベースには、前記品詞の配色が記憶され、
前記イメージ化部は、
前記文それぞれについて生成された図形のなかに、前記文に含まれる語のカテゴリを示す色の矩形の下に横に並んだ、前記一般情報抽出部が抽出した当該文に含まれる語の品詞を示す色の矩形を配置する
ことを特徴とする請求項4に記載のドメイン知識活用支援装置。 - 前記一般情報データベースに記憶される品詞にはプラスとマイナスとを含む属性が付与され、
前記イメージ変換情報データベースには、前記属性が付与された品詞の配色が記憶され、
前記一般情報抽出部が抽出した前記文に含まれる語の品詞を示す色は、前記属性が付与された品詞の配色の色である
ことを特徴とする請求項6に記載のドメイン知識活用支援装置。 - コンピュータを、請求項1~7の何れか1項に記載のドメイン知識活用支援装置として
機能させるためのプログラム。 - ドメイン知識活用支援装置のドメイン知識活用支援方法であって、
前記ドメイン知識活用支援装置は、
語とドメインと当該語の含意とを関連付けて記憶する含意情報データベース、および、
ドメイン別に語と当該語のカテゴリとを関連付けて記憶するドメイン別カテゴリ情報データベースが記憶される記憶部を備え、
テキストを文に分割するステップと、
前記文が係るドメインを判定するステップと、
前記文の述語となる語の含意を抽出するステップと、
前記文から語と当該語のカテゴリとを抽出するステップと、
前記テキストを木に変換するステップとを実行し、
前記木は、
根が、前記テキストに対応し、
当該根の下位ノードは、当該テキストに含まれる文に対応するとともに、抽出された当該文の含意を示すノードであり、
当該文の含意を示すノードの下位ノードは、ドメインのノードであり、
当該ドメインのノードの下位ノードは、抽出された当該文に含まれる語のカテゴリを示すノードを含む
ことを特徴とするドメイン知識活用支援方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020049826A JP7237878B2 (ja) | 2020-03-19 | 2020-03-19 | ドメイン知識活用支援装置、プログラムおよびドメイン知識活用支援方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020049826A JP7237878B2 (ja) | 2020-03-19 | 2020-03-19 | ドメイン知識活用支援装置、プログラムおよびドメイン知識活用支援方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021149637A JP2021149637A (ja) | 2021-09-27 |
JP7237878B2 true JP7237878B2 (ja) | 2023-03-13 |
Family
ID=77849258
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020049826A Active JP7237878B2 (ja) | 2020-03-19 | 2020-03-19 | ドメイン知識活用支援装置、プログラムおよびドメイン知識活用支援方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7237878B2 (ja) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008146150A (ja) | 2006-12-06 | 2008-06-26 | Honda Motor Co Ltd | 言語理解装置、言語理解方法、及び、コンピュータプログラム |
US20190385611A1 (en) | 2018-06-18 | 2019-12-19 | Sas Institute Inc. | System for determining user intent from text |
-
2020
- 2020-03-19 JP JP2020049826A patent/JP7237878B2/ja active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008146150A (ja) | 2006-12-06 | 2008-06-26 | Honda Motor Co Ltd | 言語理解装置、言語理解方法、及び、コンピュータプログラム |
US20190385611A1 (en) | 2018-06-18 | 2019-12-19 | Sas Institute Inc. | System for determining user intent from text |
Also Published As
Publication number | Publication date |
---|---|
JP2021149637A (ja) | 2021-09-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2018207723A1 (ja) | 要約生成装置、要約生成方法及びコンピュータプログラム | |
Dellert et al. | NorthEuraLex: A wide-coverage lexical database of Northern Eurasia | |
US7840891B1 (en) | Method and system for content extraction from forms | |
US7885807B2 (en) | Text analysis, transliteration and translation method and apparatus for hieroglypic, hieratic, and demotic texts from ancient Egyptian | |
US20140351228A1 (en) | Dialog system, redundant message removal method and redundant message removal program | |
List et al. | Using phylogenetic networks to model Chinese dialect history | |
Beermann et al. | TypeCraft collaborative databasing and resource sharing for linguists | |
KR20100038378A (ko) | 지능적인 텍스트 주석을 위한 방법, 시스템 및 컴퓨터 프로그램 | |
JP2021064143A (ja) | 文作成装置、文作成方法および文作成プログラム | |
JP2013250925A (ja) | 回答タイプ推定装置、方法、及びプログラム | |
Medrano | Khipu transcription typologies: A corpus-based study of the Textos Andinos | |
Villa et al. | Conversational agent development through large language models: Approach with gpt | |
CN112182204A (zh) | 构建中文命名实体标注的语料库的方法、装置 | |
Gillis-Webber et al. | The shortcomings of language tags for linked data when modeling lesser-known languages | |
JPWO2016067396A1 (ja) | 文の並び替え方法および計算機 | |
JP7237878B2 (ja) | ドメイン知識活用支援装置、プログラムおよびドメイン知識活用支援方法 | |
Léon et al. | SILKNOW. Designing a thesaurus about historical silk for small and medium-sized textile museums | |
WO2010103916A1 (ja) | 文書の特徴語提示装置及び特徴語の優先度付与プログラム | |
JP5877775B2 (ja) | コンテンツ管理装置、コンテンツ管理システム、コンテンツ管理方法、プログラム、及び記憶媒体 | |
JP5085584B2 (ja) | 記事特徴語抽出装置、記事特徴語抽出方法及びプログラム | |
Chatzipanagiotou et al. | Automated recognition of geographical named entities in titles of Ukiyo-e prints | |
Mahato et al. | Heuristic algorithm for resolving pronominal anaphora in Hindi dialects | |
Cappelle et al. | Taking a look at the support verb construction V a look: A demonstration of methodology | |
CN114722827B (zh) | 任务处理模型的模型训练方法、装置、设备及存储介质 | |
Melinamath | Handling of Auxiliaries in Kannada Morphology |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220114 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20221012 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20221108 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221216 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230214 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230301 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7237878 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |