JP7139271B2 - 情報処理装置、情報処理方法、及びプログラム - Google Patents
情報処理装置、情報処理方法、及びプログラム Download PDFInfo
- Publication number
- JP7139271B2 JP7139271B2 JP2019053170A JP2019053170A JP7139271B2 JP 7139271 B2 JP7139271 B2 JP 7139271B2 JP 2019053170 A JP2019053170 A JP 2019053170A JP 2019053170 A JP2019053170 A JP 2019053170A JP 7139271 B2 JP7139271 B2 JP 7139271B2
- Authority
- JP
- Japan
- Prior art keywords
- character string
- score
- pattern
- character
- phrase
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000010365 information processing Effects 0.000 title claims description 32
- 238000003672 processing method Methods 0.000 title claims description 5
- 238000000034 method Methods 0.000 claims description 32
- 238000004364 calculation method Methods 0.000 claims description 22
- 230000008569 process Effects 0.000 claims description 10
- 238000000605 extraction Methods 0.000 claims description 9
- 238000010586 diagram Methods 0.000 description 24
- 238000004891 communication Methods 0.000 description 12
- PCTMTFRHKVHKIS-BMFZQQSSSA-N (1s,3r,4e,6e,8e,10e,12e,14e,16e,18s,19r,20r,21s,25r,27r,30r,31r,33s,35r,37s,38r)-3-[(2r,3s,4s,5s,6r)-4-amino-3,5-dihydroxy-6-methyloxan-2-yl]oxy-19,25,27,30,31,33,35,37-octahydroxy-18,20,21-trimethyl-23-oxo-22,39-dioxabicyclo[33.3.1]nonatriaconta-4,6,8,10 Chemical compound C1C=C2C[C@@H](OS(O)(=O)=O)CC[C@]2(C)[C@@H]2[C@@H]1[C@@H]1CC[C@H]([C@H](C)CCCC(C)C)[C@@]1(C)CC2.O[C@H]1[C@@H](N)[C@H](O)[C@@H](C)O[C@H]1O[C@H]1/C=C/C=C/C=C/C=C/C=C/C=C/C=C/[C@H](C)[C@@H](O)[C@@H](C)[C@H](C)OC(=O)C[C@H](O)C[C@H](O)CC[C@@H](O)[C@H](O)C[C@H](O)C[C@](O)(C[C@H](O)[C@H]2C(O)=O)O[C@H]2C1 PCTMTFRHKVHKIS-BMFZQQSSSA-N 0.000 description 11
- 239000000284 extract Substances 0.000 description 11
- 239000002245 particle Substances 0.000 description 8
- 238000012545 processing Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 206010028916 Neologism Diseases 0.000 description 1
- 241000277269 Oncorhynchus masou Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 235000014510 cooky Nutrition 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
情報処理装置は、一以上のプロセッサにより実現される。情報処理装置は、文章を、少なくとも一文字以上を含む文字列に分割し、ユーザによって入力された複数のクエリの履歴である検索ログに基づいて、文字列ごとにスコアを算出する。そして、情報処理装置は、算出したスコアに基づいて、文章から固有表現を抽出する。これによって、文書から精度よく固有表現を抽出することができる。この結果、例えば、文章の内容を的確に表した分散表現を得ることができる。
[全体構成]
図1は、第1実施形態における情報処理装置100を含む情報処理システム1の一例を示す図である。第1実施形態における情報処理システム1は、例えば、一つ以上の端末装置10と、サービス提供装置20と、情報処理装置100とを備える。これらの装置のうち一部または全部は、ネットワークNWを介して互いに接続される。なお、これらの装置のうち一部は、仮想的な装置として他の装置に包含されてもよく、例えば、サービス提供装置20の機能の一部または全部が、情報処理装置100の機能によって実現される仮想マシンであってもよいし、これとは反対に、情報処理装置100の機能の一部または全部が、サービス提供装置20の機能によって実現される仮想マシンであってもよい。
図2は、第1実施形態における情報処理装置100の構成の一例を示す図である。図示のように、情報処理装置100は、例えば、通信部102と、制御部110と、記憶部130とを備える。
以下、第1実施形態における制御部110の一連の処理の流れをフローチャートを用いて説明する。図4は、第1実施形態における制御部110の一連の処理の流れを示すフローチャートである。本フローチャートの処理は、例えば、所定の周期で繰り返し行われてよい。
以下、第2実施形態について説明する。上述した第1実施形態では、フレーズの組み合わせである全パターンについてフレーズスコアの和を算出し、その和が最大となるパターンのフレーズを固有表現として抽出するものとして説明した。これに対して、第2実施形態では、全パターンについてフレーズスコアの和を算出するのではなく、検証すべきパターンを合理的に決定した上でフレーズスコアの和を算出する点で上述した第1実施形態と相違する。以下、第1実施形態との相違点を中心に説明し、第1実施形態と共通する点については説明を省略する。なお、第2実施形態の説明において、第1実施形態と同じ部分については同一符号を付して説明する。
上述した実施形態の情報処理装置100は、例えば、図19に示すようなハードウェア構成により実現される。図19は、実施形態の情報処理装置100のハードウェア構成の一例を示す図である。
Claims (5)
- 文章に含まれる文字数に応じた数のパターンで、前記文章を少なくとも一文字以上を含む文字列に分割する分割部と、
ユーザによって入力された複数のクエリに基づいて、前記パターンごとに、前記分割部により前記文章から分割された各文字列のスコアを算出し、前記パターンごとに前記文字列の全てのスコアの和を算出する算出部と、
前記文字数に応じた数のパターンの中から、前記算出部によって算出された前記スコアの和が最大となるパターンを選択し、前記スコアの和が最大となるパターンにおける前記文字列を固有表現として抽出する抽出部と、を備え、
前記算出部は、入力回数が少ない前記クエリと一致する前記文字列であっても、前記文字列の長さが大きければ前記スコアを大きくし、前記入力回数が多い前記クエリと一致する前記文字列であっても、前記文字列の長さが小さければ前記スコアを小さくする、
情報処理装置。 - 前記算出部は、前記文字列と一致する前記クエリの入力回数と、前記文字列の長さとに基づいて、前記スコアを算出する、
請求項1に記載の情報処理装置。 - 前記分割部は、前記文章を第1位置で分割し、
前記算出部は、前記第1位置の直前に出現する、少なくとも一文字以上を含む第1文字列のスコアと、前記第1位置の直後に出現する、少なくとも一文字以上を含む第2文字列のスコアと、前記第1文字列および前記第2文字列を組み合わせた第3文字列のスコアとを算出し、
前記抽出部は、前記第1文字列のスコアと前記第2文字列のスコアとの和と、前記第3文字列のスコアとを比較し、よりスコアが小さい方の文字列を、前記固有表現の抽出対象から除外する、
請求項1又は2に記載の情報処理装置。 - コンピュータが、
文章に含まれる文字数に応じた数のパターンで、前記文章を少なくとも一文字以上を含む文字列に分割し、
ユーザによって入力された複数のクエリに基づいて、前記パターンごとに、前記文章から分割した各文字列のスコアを算出し、
前記パターンごとに前記文字列の全てのスコアの和を算出し、
前記文字数に応じた数のパターンの中から、前記算出したスコアの和が最大となるパターンを選択し、
前記スコアの和が最大となるパターンにおける前記文字列を固有表現として抽出し、
入力回数が少ない前記クエリと一致する前記文字列であっても、前記文字列の長さが大きければ前記スコアを大きくし、
前記入力回数が多い前記クエリと一致する前記文字列であっても、前記文字列の長さが小さければ前記スコアを小さくする、
情報処理方法。 - コンピュータに、
文章に含まれる文字数に応じた数のパターンで、前記文章を少なくとも一文字以上を含む文字列に分割する処理と、
ユーザによって入力された複数のクエリに基づいて、前記パターンごとに、前記文章から分割した各文字列のスコアを算出する処理と、
前記パターンごとに前記文字列の全てのスコアの和を算出する処理と、
前記文字数に応じた数のパターンの中から、前記算出したスコアの和が最大となるパターンを選択する処理と、
前記スコアの和が最大となるパターンにおける前記文字列を固有表現として抽出する処理と、
入力回数が少ない前記クエリと一致する前記文字列であっても、前記文字列の長さが大きければ前記スコアを大きくする処理と、
前記入力回数が多い前記クエリと一致する前記文字列であっても、前記文字列の長さが小さければ前記スコアを小さくする処理と、
を実行させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019053170A JP7139271B2 (ja) | 2019-03-20 | 2019-03-20 | 情報処理装置、情報処理方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019053170A JP7139271B2 (ja) | 2019-03-20 | 2019-03-20 | 情報処理装置、情報処理方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020154790A JP2020154790A (ja) | 2020-09-24 |
JP7139271B2 true JP7139271B2 (ja) | 2022-09-20 |
Family
ID=72559218
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019053170A Active JP7139271B2 (ja) | 2019-03-20 | 2019-03-20 | 情報処理装置、情報処理方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7139271B2 (ja) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3880087B2 (ja) | 1995-11-28 | 2007-02-14 | 富士通株式会社 | 形態素解析装置 |
US20100180199A1 (en) | 2007-06-01 | 2010-07-15 | Google Inc. | Detecting name entities and new words |
JP2013134625A (ja) | 2011-12-26 | 2013-07-08 | Fujitsu Ltd | 抽出装置、抽出プログラム、および抽出方法 |
JP2016110441A (ja) | 2014-12-08 | 2016-06-20 | 日本電信電話株式会社 | 用語抽出装置、方法、及びプログラム |
-
2019
- 2019-03-20 JP JP2019053170A patent/JP7139271B2/ja active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3880087B2 (ja) | 1995-11-28 | 2007-02-14 | 富士通株式会社 | 形態素解析装置 |
US20100180199A1 (en) | 2007-06-01 | 2010-07-15 | Google Inc. | Detecting name entities and new words |
JP2013134625A (ja) | 2011-12-26 | 2013-07-08 | Fujitsu Ltd | 抽出装置、抽出プログラム、および抽出方法 |
JP2016110441A (ja) | 2014-12-08 | 2016-06-20 | 日本電信電話株式会社 | 用語抽出装置、方法、及びプログラム |
Non-Patent Citations (1)
Title |
---|
沢井 康孝,Web検索を用いた複合名詞同定,言語処理学会第14回年次大会発表論文集,言語処理学会,2008年03月17日,pp.205~208 |
Also Published As
Publication number | Publication date |
---|---|
JP2020154790A (ja) | 2020-09-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101465770B1 (ko) | 단어 확률 결정 | |
US8386240B2 (en) | Domain dictionary creation by detection of new topic words using divergence value comparison | |
CN104899322B (zh) | 搜索引擎及其实现方法 | |
US7917355B2 (en) | Word detection | |
US8612206B2 (en) | Transliterating semitic languages including diacritics | |
JP3820242B2 (ja) | 質問応答型文書検索システム及び質問応答型文書検索プログラム | |
JP5379138B2 (ja) | 領域辞書の作成 | |
US8412517B2 (en) | Dictionary word and phrase determination | |
US20170185581A1 (en) | Systems and methods for suggesting emoji | |
US9767183B2 (en) | Method and system for enhanced query term suggestion | |
US20110040769A1 (en) | Query-URL N-Gram Features in Web Ranking | |
JP5710581B2 (ja) | 質問応答装置、方法、及びプログラム | |
CN107885717B (zh) | 一种关键词提取方法及装置 | |
CN104484380A (zh) | 个性化搜索方法及装置 | |
WO2011111038A2 (en) | Method and system of providing completion suggestion to a partial linguistic element | |
Ghosh et al. | A rule based extractive text summarization technique for Bangla news documents | |
Wiegand et al. | Non-syntactic word prediction for AAC | |
CN101308512A (zh) | 一种基于网页的互译翻译对抽取方法及装置 | |
JP2019109654A (ja) | 類似テキスト抽出装置、自動応答システム、類似テキスト抽出方法、およびプログラム | |
JP2018081394A (ja) | 情報処理装置、情報処理方法、およびプログラム | |
CN114255067A (zh) | 数据定价方法和装置、电子设备、存储介质 | |
JP7139271B2 (ja) | 情報処理装置、情報処理方法、及びプログラム | |
JP6235386B2 (ja) | 情報提示装置、情報提示方法およびプログラム | |
WO2016181475A1 (ja) | 情報提示装置、情報提示方法およびプログラム | |
JP7326637B2 (ja) | チャンキング実行システム、チャンキング実行方法、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20191101 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20191108 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20201211 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20211126 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220111 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220314 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220809 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220907 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7139271 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |