JP6275354B1 - 意図推定装置及び意図推定方法 - Google Patents
意図推定装置及び意図推定方法 Download PDFInfo
- Publication number
- JP6275354B1 JP6275354B1 JP2017548072A JP2017548072A JP6275354B1 JP 6275354 B1 JP6275354 B1 JP 6275354B1 JP 2017548072 A JP2017548072 A JP 2017548072A JP 2017548072 A JP2017548072 A JP 2017548072A JP 6275354 B1 JP6275354 B1 JP 6275354B1
- Authority
- JP
- Japan
- Prior art keywords
- intention
- intention estimation
- estimation
- unit
- supplementary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/268—Morphological analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/228—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
このような問題に対し、従来、例えば特許文献1では、複数の意図を含む発話に対し、入力テキストの適切な分割点の位置を意図推定及び複文分割の確率により推定する手法が提案されている。
実施の形態1.
図1は、本実施の形態による意図推定装置の構成図である。
図示のように、実施の形態1による意図推定装置は、音声入力部101と、音声認識部102と、形態素解析部103と、構文解析部104と、意図推定モデル記憶部105と、意図推定部106と、補足情報推定モデル記憶部107と、補足情報推定部108と、意図補足部109と、コマンド実行部110と、応答生成部111と、通知部112とを備える。
図4は実施の形態1に係る意図推定装置のハードウェア構成例を示す図である。意図推定装置は、CPU(Central Processing Unit)等の処理装置(Processor)150と、ROM(Read Only Memory)やハードディスク装置等の記憶装置(Memory)160と、キーボードやマイク等の入力装置170と、スピーカやディスプレイ等の出力装置180とがバス接続された構成となっている。なお、CPUは、自身にメモリを備えていてもよい。
意図推定モデル記憶部105、補足情報推定モデル記憶部107、後述する学習用データ記憶部113に記憶されるデータ等はそれぞれ記憶装置160に記憶される。また、音声認識部102、形態素解析部103、構文解析部104、意図推定部106、補足情報推定部108、意図補足部109、コマンド実行部110、応答生成部111等の「〜部」についても、プログラムとして記憶装置160に記憶される。
図8は実施の形態1に係る対話例を示す図である。図9は実施の形態1に係る意図補足処理を説明するためのフローチャートである。
図9において、ユーザが「U2」に示すように発話すると、音声認識部102がユーザ入力に対して音声認識処理を行ってテキストデータに変換し、形態素解析部103がテキストデータに対して形態素解析処理を行う(ステップST101、ST102)。次に、構文解析部104がテキストデータに対して構文解析処理を行う(ステップST103)。ここで、ユーザ入力に関するテキストデータは、単文1の「お腹が空いた」と、単文2の「ルート周辺の店を探して」のように、複数の単文に分割される。従って、ステップST104の判断結果は「YES」であり、ステップST106以降の処理に移る。
実施の形態2は、装置で記録した状態の履歴、正しく推定された意図及び意図推定失敗した単文の形態素を用いて、意図推定失敗した意図に対する補足意図推定を行う例である。
図19は実施の形態2に係る対話例を示す図である。図19に示すように、状態履歴記憶部115では「経由地設定あり」という情報を記録しているものとする。以下、図20のフローチャートを用いて、補足意図推定処理を説明する。
補足意図推定部117は、意図推定部106により推定された単文の意図「目的地設定[施設=家]」、形態素解析部103から得た意図推定できなかった単文の形態素「お腹」「が」「空く」「た」と、状態履歴記憶部115で記憶した状態履歴「経由地あり」とを特徴量として用い、補足意図推定モデルと照らし合わせて、各補足意図に対する特徴量のスコアを求める(ステップST209)。そして、補足意図推定部117は、図11に示す計算式を用いて、各補足意図における特徴量のスコアの積を求める。つまり、補足意図推定部117は、複数の特徴量のスコアにより得られた最終スコアに基づき、適切な補足意図を推定する。
Claims (11)
- 複数の意図が含まれる複文に対して形態素解析を行う形態素解析部と、
前記形態素解析部による形態素解析された前記複文を構文解析して複数の単文に分割する構文解析部と、
前記複数の単文のそれぞれに含まれる意図を推定する意図推定部と、
前記意図推定部における推定対象の単文で意図推定を失敗した単文があった場合、当該意図推定を失敗した単文から補足情報を推定する補足情報推定部と、
前記意図推定部における推定対象の単文で不完全意図推定結果の単文があった場合、前記推定された補足情報を用いて当該不完全意図推定結果を補足する意図補足部とを備えたことを特徴とする意図推定装置。 - 単文と補足情報との関係を示す補足情報推定モデルを保持する補足情報推定モデル記憶部を備え、
前記補足情報推定部は前記補足情報推定モデルを用いて前記補足情報の推定を行うことを特徴とする請求項1記載の意図推定装置。 - 前記補足情報推定モデルは、単文の形態素を特徴量として補足情報のスコアが対応付けられて構成され、
前記補足情報推定部は、前記意図推定を失敗した単文の形態素毎の補足情報のスコアを求め、当該スコアの積により得られた最終スコアに基づき前記補足情報の推定を行うことを特徴とする請求項2記載の意図推定装置。 - 前記不完全意図推定結果はスロット名とスロット値の組合せで前記スロット値が無い状態で表すと共に、前記補足情報はスロット名とスロット値で表し、
前記意図補足部は、前記推定された補足情報のスロット名が前記不完全意図推定結果のスロット名と一致した場合、前記推定された補足情報のスロット値を前記不完全意図推定結果のスロット値とすることを特徴とする請求項2に記載の意図推定装置。 - 複数の意図が含まれる複文に対して形態素解析を行う形態素解析部と、
前記形態素解析部による形態素解析された前記複文を構文解析して複数の単文に分割する構文解析部と、
前記複数の単文のそれぞれに含まれる意図を推定する意図推定部と、
前記意図推定部における推定対象の単文で意図推定を失敗した単文があった場合、前記意図推定部で意図推定できた単文の意図推定結果と、前記意図推定を失敗した単文の形態素と、現在までの意図の履歴に基づく意図推定装置の現在の状態を示す状態履歴とを特徴量として、前記意図推定を失敗した単文の補足意図推定を行う補足意図推定部とを備えたことを特徴とする意図推定装置。 - 前記状態履歴を記録する状態履歴記憶部を備え、
前記補足意図推定部は、前記状態履歴記憶部に記憶された状態履歴を用いて前記補足意図推定を行うことを特徴とする請求項5記載の意図推定装置。 - 前記意図推定を失敗した単文の形態素と、前記意図推定できた単文の意図推定結果と、前記状態履歴とを特徴量として、補足意図とのスコアが対応付けられた補足意図推定モデルを記憶する補足意図推定モデル記憶部を備え、
前記補足意図推定部は、前記補足意図推定モデルを用いて前記補足意図推定を行うことを特徴とする請求項5記載の意図推定装置。 - 前記補足意図推定部は、前記意図推定を失敗した単文に対応した前記特徴量のスコアを求め、これらスコアの積により得られた最終スコアに基づき前記意図推定を失敗した単文の補足意図推定を行うことを特徴とする請求項7記載の意図推定装置。
- 複数の意図が含まれる音声の入力を受け付ける音声入力部と、
前記音声入力部に入力された前記音声に対応する音声データを認識し、前記複数の意図が含まれる複文のテキストデータに変換する音声認識部を備え、
前記形態素解析部は、前記音声認識部から出力されたテキストデータに対して形態素解析を行うことを特徴とする請求項1記載の意図推定装置。 - 請求項1の意図推定装置を用い、
複数の意図が含まれる複文に対して形態素解析を行う形態素解析ステップと、
前記形態素解析された前記複文を構文解析して複数の単文に分割する構文解析ステップと、
前記複数の単文のそれぞれに含まれる意図を推定する意図推定ステップと、
前記意図推定ステップにおける推定対象の単文で意図推定を失敗した単文があった場合、当該意図推定を失敗した単文から補足情報を推定する補足情報推定ステップと、
前記意図推定ステップにおける推定対象の単文で不完全意図推定結果の単文があった場合、前記推定された補足情報を用いて当該不完全意図推定結果を補足する意図補足ステップとを実行することを特徴とする意図推定方法。 - 請求項5に記載の意図推定装置を用い、
複数の意図が含まれる複文に対して形態素解析を行う形態素解析ステップと、
前記形態素解析された前記複文を構文解析して複数の単文に分割する構文解析ステップと、
前記複数の単文のそれぞれに含まれる意図を推定する意図推定ステップと、
前記意図推定ステップにおける推定対象の単文で意図推定を失敗した単文があった場合、前記意図推定ステップで意図推定できた単文の意図推定結果と、前記意図推定を失敗した単文の形態素と、現在までの意図の履歴に基づく前記意図推定装置の現在の状態を示す状態履歴とを特徴量として、前記意図推定を失敗した単文の補足意図の推定を行う補足意図推定ステップとを実行することを特徴とする意図推定方法。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2016/060413 WO2017168637A1 (ja) | 2016-03-30 | 2016-03-30 | 意図推定装置及び意図推定方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP6275354B1 true JP6275354B1 (ja) | 2018-02-07 |
JPWO2017168637A1 JPWO2017168637A1 (ja) | 2018-04-05 |
Family
ID=59962749
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017548072A Expired - Fee Related JP6275354B1 (ja) | 2016-03-30 | 2016-03-30 | 意図推定装置及び意図推定方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20190005950A1 (ja) |
JP (1) | JP6275354B1 (ja) |
CN (1) | CN108885618A (ja) |
DE (1) | DE112016006512T5 (ja) |
WO (1) | WO2017168637A1 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108881466B (zh) * | 2018-07-04 | 2020-06-26 | 百度在线网络技术(北京)有限公司 | 交互方法和装置 |
JP2020186951A (ja) * | 2019-05-10 | 2020-11-19 | トヨタ自動車株式会社 | 情報提供装置及び情報提供プログラム |
US11230262B2 (en) * | 2019-10-11 | 2022-01-25 | Augmented Radar Imaging, Inc. | Preventive action based on estimated intent |
US10703336B1 (en) * | 2019-10-11 | 2020-07-07 | Augmented Radar Imaging, Inc. | Preventive action based on estimated intent |
JP2022045835A (ja) * | 2020-09-09 | 2022-03-22 | 富士フイルムビジネスイノベーション株式会社 | 情報処理装置、及び情報処理プログラム |
JP7231171B1 (ja) | 2022-07-21 | 2023-03-01 | ソプラ株式会社 | 処理動作支援装置及びプログラム |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002108614A (ja) * | 2000-09-26 | 2002-04-12 | Toshiba Corp | 入力解釈装置、方法及び対話システム |
JP2004240225A (ja) * | 2003-02-06 | 2004-08-26 | Nippon Telegr & Teleph Corp <Ntt> | 音声対話装置、音声対話システム、音声対話方法、プログラム及び記録媒体 |
JP2015148910A (ja) * | 2014-02-05 | 2015-08-20 | 株式会社東芝 | 発話文収集装置、方法、及びプログラム |
WO2016120904A1 (ja) * | 2015-01-28 | 2016-08-04 | 三菱電機株式会社 | 意図推定装置及び意図推定方法 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000200273A (ja) | 1998-11-04 | 2000-07-18 | Atr Interpreting Telecommunications Res Lab | 発話意図認識装置 |
US8145473B2 (en) * | 2006-10-10 | 2012-03-27 | Abbyy Software Ltd. | Deep model statistics method for machine translation |
JP2010224194A (ja) * | 2009-03-23 | 2010-10-07 | Sony Corp | 音声認識装置及び音声認識方法、言語モデル生成装置及び言語モデル生成方法、並びにコンピューター・プログラム |
JP2011043716A (ja) * | 2009-08-21 | 2011-03-03 | Sharp Corp | 情報処理装置、会議システム、情報処理方法及びコンピュータプログラム |
CN104756100B (zh) * | 2012-11-30 | 2017-07-28 | 三菱电机株式会社 | 意图估计装置以及意图估计方法 |
US9448992B2 (en) * | 2013-06-04 | 2016-09-20 | Google Inc. | Natural language search results for intent queries |
US9721570B1 (en) * | 2013-12-17 | 2017-08-01 | Amazon Technologies, Inc. | Outcome-oriented dialogs on a speech recognition platform |
JPWO2015151157A1 (ja) * | 2014-03-31 | 2017-04-13 | 三菱電機株式会社 | 意図理解装置および方法 |
-
2016
- 2016-03-30 CN CN201680084170.XA patent/CN108885618A/zh active Pending
- 2016-03-30 WO PCT/JP2016/060413 patent/WO2017168637A1/ja active Application Filing
- 2016-03-30 DE DE112016006512.4T patent/DE112016006512T5/de not_active Ceased
- 2016-03-30 US US16/063,914 patent/US20190005950A1/en not_active Abandoned
- 2016-03-30 JP JP2017548072A patent/JP6275354B1/ja not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002108614A (ja) * | 2000-09-26 | 2002-04-12 | Toshiba Corp | 入力解釈装置、方法及び対話システム |
JP2004240225A (ja) * | 2003-02-06 | 2004-08-26 | Nippon Telegr & Teleph Corp <Ntt> | 音声対話装置、音声対話システム、音声対話方法、プログラム及び記録媒体 |
JP2015148910A (ja) * | 2014-02-05 | 2015-08-20 | 株式会社東芝 | 発話文収集装置、方法、及びプログラム |
WO2016120904A1 (ja) * | 2015-01-28 | 2016-08-04 | 三菱電機株式会社 | 意図推定装置及び意図推定方法 |
Non-Patent Citations (1)
Title |
---|
藤本 拓 外2名: "自然な発話により操作可能なカーナビゲーションシステムの開発", 電子情報通信学会論文誌 (J96−D), vol. 第J96-D巻第11号, JPN6017047094, 1 November 2013 (2013-11-01), JP, pages 2815 - 2824, ISSN: 0003698298 * |
Also Published As
Publication number | Publication date |
---|---|
DE112016006512T5 (de) | 2018-11-22 |
CN108885618A (zh) | 2018-11-23 |
WO2017168637A1 (ja) | 2017-10-05 |
US20190005950A1 (en) | 2019-01-03 |
JPWO2017168637A1 (ja) | 2018-04-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11887590B2 (en) | Voice enablement and disablement of speech processing functionality | |
JP6275354B1 (ja) | 意図推定装置及び意図推定方法 | |
US9905228B2 (en) | System and method of performing automatic speech recognition using local private data | |
US12249332B2 (en) | Proactive command framework | |
EP2862164B1 (en) | Multiple pass automatic speech recognition | |
US10037758B2 (en) | Device and method for understanding user intent | |
CN111710333B (zh) | 用于生成语音转录的方法和系统 | |
US10917758B1 (en) | Voice-based messaging | |
EP2572355B1 (en) | Voice stream augmented note taking | |
US9589563B2 (en) | Speech recognition of partial proper names by natural language processing | |
KR20090111825A (ko) | 언어 독립적인 음성 인덱싱 및 검색 방법 및 장치 | |
US10366690B1 (en) | Speech recognition entity resolution | |
KR20090130028A (ko) | 분산 음성 검색을 위한 방법 및 장치 | |
JP2011232619A (ja) | 音声認識装置および音声認識方法 | |
JP2019185737A (ja) | 検索方法及びそれを用いた電子機器 | |
KR102536944B1 (ko) | 음성 신호 처리 방법 및 장치 | |
US10600405B2 (en) | Speech signal processing method and speech signal processing apparatus | |
US20230143110A1 (en) | System and metohd of performing data training on morpheme processing rules | |
US11308936B2 (en) | Speech signal processing method and speech signal processing apparatus | |
US11450325B1 (en) | Natural language processing | |
JPWO2005076259A1 (ja) | 音声入力システム、音声入力方法、および、音声入力用プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20171122 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20171212 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180109 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6275354 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |