JP2007219190A - 音声認識装置と認識方法及びそのプログラム - Google Patents
音声認識装置と認識方法及びそのプログラム Download PDFInfo
- Publication number
- JP2007219190A JP2007219190A JP2006040208A JP2006040208A JP2007219190A JP 2007219190 A JP2007219190 A JP 2007219190A JP 2006040208 A JP2006040208 A JP 2006040208A JP 2006040208 A JP2006040208 A JP 2006040208A JP 2007219190 A JP2007219190 A JP 2007219190A
- Authority
- JP
- Japan
- Prior art keywords
- subject
- keyword
- extracted
- data
- negative
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 20
- 238000000605 extraction Methods 0.000 claims description 28
- 238000001514 detection method Methods 0.000 claims description 10
- 239000000284 extract Substances 0.000 claims description 5
- 238000013500 data storage Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
【課題】 ルールや辞書を複雑にせずに、解釈し得る入力音声の範囲を拡げる。
【解決手段】 入力音声からキーワードを抽出し、サブジェクトとなるオブジェクト毎に設けたビットをセットすると共に、肯定/否定に関するビットをセットする。オブジェクト毎にセットされたビットを連結した範囲を対象と解釈し、肯定/否定のビットで対象に対する入力を解釈する。
【選択図】 図1
【解決手段】 入力音声からキーワードを抽出し、サブジェクトとなるオブジェクト毎に設けたビットをセットすると共に、肯定/否定に関するビットをセットする。オブジェクト毎にセットされたビットを連結した範囲を対象と解釈し、肯定/否定のビットで対象に対する入力を解釈する。
【選択図】 図1
Description
この発明は音声認識に関し、特に音声ガイダンスなどのために比較的小規模な辞書を用いる音声認識に関する。
音声認識では話者の音声からキーワードを抽出し、抽出したキーワードを組み合わせて、話者の意図を抽出する。特許文献1は文書処理装置に関し、キーワード「文章」には「文章印刷」,「文章作成」,「文章編集」の3つのコマンドを用意し、キーワード「出力」にはコマンド「文章印刷」を対応させて、「文章を出力したい」との入力をコマンド「文章印刷」に変換することを開示している。この手法を一般化すると、「文章」、「書類」等を同義語と見なせる辞書と、辞書で抽出したキーワードの組み合わせに対して単語レベルよりも上位の意味を対応させるルールを設けることが考えられる。
しかしながらこれを音声や画面、身振りなどでの質問に対する答えを解釈する小形の音声認識装置に適用すると、
・ 質問文に対して可能なキーワードの辞書を作成する、
・ 辞書で抽出したキーワードの組み合わせを解釈するための、辞書やルールを作成する、
の2段階で音声認識が可能になる。この内、キーワードの組み合わせに対して単語レベルよりも上位の意味を対応させる辞書やルールを設けると、辞書等の作成自体が大きな負担となり、また処理も複雑になる。
・ 質問文に対して可能なキーワードの辞書を作成する、
・ 辞書で抽出したキーワードの組み合わせを解釈するための、辞書やルールを作成する、
の2段階で音声認識が可能になる。この内、キーワードの組み合わせに対して単語レベルよりも上位の意味を対応させる辞書やルールを設けると、辞書等の作成自体が大きな負担となり、また処理も複雑になる。
例えば電話で大学の各研究科の案内と入試要項の案内とを行うシステムで、「研究科と入試要項の、どちらを説明しましょうか?」との質問に対し、キーワード「研究科」「入試要項」「要項」「両方」「どちらも」などを用意したとする。すると「研究科について教えて下さい」「両方知りたいです」などの、システムの設計者が意図した通りの応答は簡単に認識できる。しかし上記のキーワードでは、「どちらも知りたくない」には「どちらも」を認識して、研究科と入試要項のガイダンスを行ってしまう。そこで「知りたくない」「要らない」などのキーワードを追加する必要がある。また「研究科と要項の両方」などの入力には、「両方」が入力されると「研究科」や「要項」は無視して良いなどのルールを追加する。さらに「研究科と要項をお願いします」のように、「研究科」と「要項」の双方を検出すると「両方」と同義語となる、とのルールを追加する。以上のようにして辞書やルールを追加すると、より正確に入力音声を認識できるが、辞書やルールの用意が面倒になり、かつ処理も複雑化する。特に音声ガイダンス装置などからの質問への回答を認識する場合、辞書やルールは質問文に対してその都度作成するため、大きな辞書や多数のルールを設けることは大変である。
特開平5−204518号公報
この発明の課題は、単純なルールでかつ小さな辞書で、認識可能な入力音声の表現の幅を拡げることにある。
請求項2の発明での追加の課題は、簡単なシステムで上記の課題を達成することにある。 請求項3の発明での追加の課題は、同じサブジェクトが入力音声中で重複している場合にも、音声認識ができるようにすることにある。
請求項4の発明での追加の課題は、サブジェクトが入力されずに否定のみが入力された場合にも、入力音声の解釈を行えるようにすることにある。
請求項2の発明での追加の課題は、簡単なシステムで上記の課題を達成することにある。 請求項3の発明での追加の課題は、同じサブジェクトが入力音声中で重複している場合にも、音声認識ができるようにすることにある。
請求項4の発明での追加の課題は、サブジェクトが入力されずに否定のみが入力された場合にも、入力音声の解釈を行えるようにすることにある。
この発明の音声認識装置は、入力音声からキーワードを抽出することにより音声認識を行う装置において、入力音声からキーワードを抽出するための手段と、抽出したキーワード中の対象に関するキーワードに対して、その対象となるサブジェクトを抽出するためのサブジェクト抽出手段と、抽出したキーワードから否定に関するキーワードを検出するための否定検出手段とを設けて、否定検出手段が否定に関するキーワードを検出しなかった際に、サブジェクト抽出手段で抽出したサブジェクトを認識結果として出力し、否定に関するキーワードを検出した際に、少なくともサブジェクト抽出手段で抽出したサブジェクトが否定されたものとして認識結果を出力するようにしたことを特徴とする。
好ましくは、少なくともサブジェクト毎のデータと否定に関するデータとを備えた記憶部を設けて、前記サブジェクト抽出手段は抽出したキーワードに対応するサブジェクトのデータをセットし、前記否定検出手段は否定に関するキーワードを検出した際に否定に関するデータをセットすることにより、サブジェクト毎のデータと否定に関するデータの値とで、入力音声の意味を認識する。
特に好ましくは、前記サブジェクト抽出手段は、既にセット済みのデータに対応するサブジェクトを再度抽出した際に、そのデータをセットしたままにする。例えば各データが1ビットデータで、データの書き込みをOR論理で行う。
特に好ましくは、前記サブジェクト抽出手段は、既にセット済みのデータに対応するサブジェクトを再度抽出した際に、そのデータをセットしたままにする。例えば各データが1ビットデータで、データの書き込みをOR論理で行う。
また好ましくは、音声認識装置は音声ガイダンスでの前記サブジェクトに言及した質問に対する音声入力を認識し、サブジェクトに対するデータがセットされずに、否定に関するデータのみがセットされている際に、質問で言及した全てのサブジェクトが否定されたものとする。
この発明の音声認識方法は、入力音声からキーワードを抽出することにより音声認識を行う方法において、入力音声からキーワードを抽出し、抽出したキーワード中の対象に関するキーワードに対して、その対象となるサブジェクトを抽出し、抽出したキーワードから否定に関するキーワードを検出し、否定に関するキーワードを検出しなかった際に、前記抽出したサブジェクトを認識結果として出力し、否定に関するキーワードを検出した際に、少なくとも前記サブジェクトが否定されたものとして認識結果を出力することを特徴とする。
またこの発明の音声認識プログラムは、入力音声からキーワードを抽出することにより音声認識を行う装置のためのプログラムにおいて、入力音声からキーワードを抽出するための命令と、抽出したキーワード中の対象に関するキーワードに対して、その対象となるサブジェクトを抽出するためのサブジェクト抽出命令と、抽出したキーワードから否定に関するキーワードを検出するための否定検出命令と、否定検出命令が否定に関するキーワードを検出しなかった際に、サブジェクト抽出命令で抽出したサブジェクトを認識結果として出力し、否定に関するキーワードを検出した際に、少なくともサブジェクト抽出命令で抽出したサブジェクトが否定されたものとして認識結果を出力するための命令、とを設けたことを特徴とする。
この発明の音声認識装置や音声認識方法、音声認識プログラムでは、否定に関するキーワードを検出しなければ、抽出した1〜複数のサブジェクトの集まりを認識結果として出力し、否定に関するキーワードを検出すると、これらのサブジェクトが否定されたものとする。このためキーワードよりも上位レベルの解釈ルールや単語の組み合わせに関する辞書は不要〜極く簡単で、サブジェクトが否定されている場合もされていない場合も、正確に入力音声を認識できる。
ここで各サブジェクトにデータを割り当て、肯定/否定にもデータを割り当てて、これらのデータの全体を音声認識の結果とすると、サブジェクトを抽出する毎に該当するデータをセットし、肯定/否定のデータを検出すると対応するデータをセットことにより、認識結果のデータを作成できる。そしてこのデータは、対象となるサブジェクトを列記し、それを否定するか肯定するかを示したデータとして、一意に解釈できる。またこのデータの作成に、複雑な辞書やルールは不要である。
例えば「AとB、両方下さい」の入力音声で、「A」、「B」、「両方」が全てキーワードで、「両方」はA及びBを意味すると、この入力音声ではサブジェクト「A」、「B」が重複して入力されている。そこでセット済みのデータは同じサブジェクトを再度検出した場合でもそのままにしておくと、重複した入力も解釈できる。
さらに否定を表すキーワードのみが入力されて対象となるサブジェクトが入力されない場合、質問での全てのサブジェクトが否定されたものとすると、サブジェクトが無い入力音声での否定も解釈できる。
さらに否定を表すキーワードのみが入力されて対象となるサブジェクトが入力されない場合、質問での全てのサブジェクトが否定されたものとすると、サブジェクトが無い入力音声での否定も解釈できる。
なおこの明細書で、音声認識装置に関する記載は特に断らない限り音声認識方法やプログラムにもそのまま当てはまり、音声認識方法に関する記載は特に断らない限り音声認識装置やプログラムにもそのまま当てはまる。
以下に本発明を実施するための最適実施例を示す。
図1〜図6に、実施例の音声認識装置8や音声認識方法、音声認識プログラム60を示す。図において、4はマイクロフォンで、6はそのアンプで設けなくても良く、8は音声認識装置である。音声認識装置8にはアンプ6からの入力音声に対し、キーワードを抽出するためのキーワード抽出部と、抽出するキーワードの辞書12とがある。辞書12はシナリオデータ記憶部20で作成される質問文毎に変更され、抽出したキーワードに対応するオブジェクトに対して、レジスタ14のビットをセットする。16は解釈部でレジスタ14のデータを解釈して音声認識結果を出力する。ただしレジスタ14のデータは簡単に解釈できるので、処理システム18で認識しても良い。
この明細書において、オブジェクトは入力音声から抽出される客体を意味し、「入試要項」と「要項」などのような同義語は同じオブジェクトに対応する。オブジェクトには入力音声での話題や対象を表すサブジェクトと、否定/肯定に関するデータとが含まれる。処理システム18は、音声認識結果を参照しながら音声によるガイダンスを行い、シナリオデータ記憶部20には個々の質問文やガイダンス文などの出力音声が用意され、質問文に対する入力音声の認識結果から、次にどの質問文やガイダンスに移るかのシナリオが記憶されている。そして辞書12や解釈部16は、質問文毎に処理システム18により切り替えられる。22は音声データ発生部、24はアンプで設けなくても良く、26はスピーカである。
実施例の音声認識装置8はガイダンスを行うロボットなどが音声認識を行うためや、テレフォンセンタやサポートセンタなどが電話で自動的に音声サービスを行う際などに用い、例えば銀行の残高証明や各種の予約、案内などに用いる。また実施例の音声ガイダンス装置は、ファクシミリ装置やコピー機能とプリンタ機能とを備えた複合機などの事務機器でのガイダンスに用いることができ、例えばユーザに対して操作方法を音声ガイダンスし、ユーザの質問を音声認識してガイダンス内容を切り替える。質問文やガイダンスの提示には音声以外に画面やロボットの身振りなどを加えても良く、音声認識を補助するためにユーザの表情や身振りを画像認識しても良い。
図2に、キーワード抽出部10から解釈部16までの処理を示す。レジスタ14には質問のIDと肯定/否定に関するビット、並びに質問文で言及した各サブジェクトに対するビットが用意されるいる。なおこれらの各オブジェクトに対し1ビットずつ割り当てる代わりに、より多数のビットずつ割り当てても良い。キーワード抽出部10は入力音声からキーワードを抽出し、辞書12を参照して肯定もしくは否定に関するデータ並びに各サブジェクトに対するデータに変換する。この過程で同義語は同じオブジェクトに対応するものとして処理される。
レジスタ14は、各ビットがセットされていない場合を0で,セットされている場合をFで表すものとする。キーワード抽出部10で抽出した肯定/否定の結果と、言及されたサブジェクトに応じて、レジスタ14の質問ID以外の各ビットをセットする。肯定に関するデータは省略可能なので、否定に関するデータのみを抽出し、肯定に関するデータの抽出を行わなくても良い。次にサブジェクト毎のデータの集まりは全体としてそれらの和、言い換えると和集合を意味する。否定ビットのデータはサブジェクト集合の各要素が否定されたものとし、サブジェクトが特定されていない場合、質問文で提示した全ての選択肢が否定されたものとする。解釈部16はレジスタ14のデータを用いて以上の解釈を行い、音声認識結果を処理システム18へ入力する。なお前記のように解釈部16を設けず、レジスタ14のデータを処理システム18で直接処理しても良い。さらにレジスタ14は記憶部の例であり、記憶部の形態やサブジェクト等に対するデータの記憶形態は任意である。
図2の処理を、研究科と入試要項のガイダンスを例に図3,図4に詳細に示す。例えば質問文は「研究科と入試要項の、どちらについて説明しましょうか?」であるとし、辞書12では、この場合の質問文に対する認識すべきオブジェクトとして、「研究科」や「入試要項」並びにその同義語である「要項」、「両方」とその同義語である「どちら」、肯定の述語及び否定の述語に対し、IDが付与されている。この質問文に対する入力音声の認識結果は、辞書12のデータの下位3ビットで表すことができ、上位2ビットは省略可能である。さらに「両方」や「どちら」は、「研究科」と「入試要項」とに対するビット和「0FF」で表現できる。また否定の述語は、対象を表す下位2ビットのデータ全体に対する否定として作用する。
そこで入力された音声が、「研究科について教えてください」の場合、キーワード「研究科」から「0x00F」が抽出され、「教えてください」が肯定の述語であることから、「0x000」が抽出される。そしてこれらのデータのビット和から「0x00F」が抽出され、「研究科」についてガイダンスを行うとの処理が指定される。「入試要項について知りたいです」の場合、「入試要項」から「0x0F0」がセットされ、「知りたいです」が肯定の述語なので「0x000」がセットされ、これらのビット和により「0x0F0」がセットされる。「両方、お願いします」の場合、「0x0FF」がセットされ、「どちらも知りたくない」場合、「どちら」に対応するデータが「0x0FF」で、「知りたくない」が「0xF00」なので、ビット和の「0xFFF」がセットされる。「研究科」などのように肯定の術語も否定の述語も無しにサブジェクトを表すキーワードのみが入力された場合、レジスタには「0x00F」がセットされ、これは「研究科をお願いします」などの入力と同じものと見なされる。
「研究科と要項、両方知りたい」の場合、「研究科」と「要項」とに対して、「0x00F」と「0x0F0」がセットされ、「両方」に対して「0x0FF」がセットされ、「知りたい」に対して「0x000」がセットされる。OR加算によるこれらのビット和として、「0x0FF」がセットされ、「研究科」と「要項」が意味として「両方」と重複するが問題は生じない。「研究科と要項についてお願い」の場合、「研究科」と「要項」に対し、「0x00F」と「0x0F0」がセットされ、「お願い」に対し「0x000」がセットされ、これらのビット和として「0x0FF」がセットされる。
これらの結果、レジスタ14でのデータで意味のある下位3ビットは、合計8通りの値をとることが可能である。例えばビット和が「0x00F」の場合、「研究科」について説明し、「0x0F0」の場合「入試要項」について説明し、「0x0FF」では「研究科」と「入試要項」の両方について説明する。これらの3通りの場合、最上位の0のビットは肯定命題を表し、解釈上用いられていない。また「0x000」の場合肯定する対象がなく、さらにデータが入力されなかったのと同じなので、質問文に対する有効な答えが無かったものとし再質問するか、他の質問に切り替えるかなどを行う。回答のビット和が「0xF00」や「0xFFF」で「研究科」も「入試要項」も共に否定されたものとし、「0xF0F」や「0xFF0」の場合、「研究科」や「入試要項」のみが否定されたものと見なして他方の「入試要項について説明しましょうか」や「研究科について説明しましょうか」などのガイダンスを行うか、「0xF00」と同様に否定のみが入力されたものとして扱うかは任意である。
図3の処理では、「研究科」や肯定の述語などの認識オブジェクトに対してIDが付与され、それらのビット和をレジスタ14で求めることにより、音声認識を行う。これには「研究科と要項、両方知りたい」などのように、回答が重複する場合にも認識できるようにする作用がある。また各オブジェクトに対して5ビットあるいは3ビットなどの全ビットをセットするように説明したが、「研究科」の場合最下位のビットのみをセットし、「入試要項」の場合最下位の次のビットをセットするなどのように、1ビット毎の書き込みであると見なしても良い。
図3の処理を質問文に対する入力音声と認識結果としてまとめて示すと、図4のようになる。ここでは質問文での各サブジェクトに対して少なくとも1ビット割り当て、「知りたくない」あるいは「お願いします」などの、否定/肯定に関するデータに対し1ビット割り当て、「両方」や「どちら」などの広い範囲に渡るキーワードに対しては、これに含まれる各サブジェクトのビットをセットする。そして「どちらも知りたくない」などの入力に対しては、「どちら」が意味を成すかなどのルールを設けず、単純に「どちら」に対して下位2ビットをセットし、「知りたくない」に対してその上位の1ビットをセットする。また「研究科と要項、両方知りたい」などの重複した入力文に対して、該当する各サブジェクトに対してビット和を求める。これだけの単純な処理で、矛盾無く音声認識を行うことができる。
図5に実施例の音声認識方法を示し、図1〜図4に関する説明は、図5の音声認識方法にもそのまま当てはまる。ステップ1で質問文を出力し、ステップ2で音声入力を受け付け、ステップ3でキーワードを抽出する。そしてレジスタに対し、抽出したキーワードを同義語変換などを経て、サブジェクト毎のビットをセットし、肯定/否定の述語あるいは単に「いいえ」「はい」などの肯定/否定の語を探し、肯定/否定に関するビットをセットする(ステップ4)。入力音声の処理が終了すると、ステップ5でデータがセットされているかどうか、即ちレジスタに意味のあるデータが存在するかどうかをチェックし、存在しない場合質問文を再出力する。データがセットされていると、対象をサブジェクトの和で特定し、肯定/否定のビットでサブジェクトの和が否定されたか肯定されたかを解釈する(ステップ6)。なお対象無しに否定のビットのみがセットされている場合、全ての選択肢が否定された、もしくは質問文に対して全てが否定されたものと解釈する。そしてステップ7で回答に応じた処理を行う。
図6に実施例の音声認識プログラム60の構造を示す。このプログラムは適宜のパーソナルコンピュータなどに実装され、図1の音声認識装置8を構成する。辞書記憶命令61は質問文毎の辞書を記憶し、解釈データ記憶命令62は図1のレジスタ14のデータを解釈し、この命令は設けなくても良い。辞書/解釈データ切り替え命令63は、図1の辞書12及び解釈部16を設ける場合には解釈部16も質問文毎に切り替え、キーワード抽出命令64は入力音声からキーワードを抽出する。そして抽出したキーワードに対し、サブジェクト抽出命令65は対応するサブジェクトを特定し、肯定/否定抽出命令66は肯定/否定に関するキーワードを抽出する。書き込み命令68はサブジェクト抽出命令65や肯定/否定抽出命令66で抽出したデータを図1のレジスタ14に書き込み、解釈命令69は、質問文毎の解釈データを用いて図1のレジスタ14のデータを解釈する。なお解釈命令69は設けなくても良い。
2 音声ガイダンス装置
4 マイクロフォン
6 アンプ
8 音声認識装置
10 キーワード抽出部
12 辞書
14 レジスタ
16 解釈部
18 処理システム
20 シナリオデータ記憶部
22 音声データ発生部
24 アンプ
26 スピーカ
60 音声認識プログラム
61 辞書記憶命令
62 解釈データ記憶命令
63 辞書/解釈データ切り替え命令
64 キーワード抽出命令
65 サブジェクト抽出命令
66 肯定/否定抽出命令
68 書き込み命令
69 解釈命令
4 マイクロフォン
6 アンプ
8 音声認識装置
10 キーワード抽出部
12 辞書
14 レジスタ
16 解釈部
18 処理システム
20 シナリオデータ記憶部
22 音声データ発生部
24 アンプ
26 スピーカ
60 音声認識プログラム
61 辞書記憶命令
62 解釈データ記憶命令
63 辞書/解釈データ切り替え命令
64 キーワード抽出命令
65 サブジェクト抽出命令
66 肯定/否定抽出命令
68 書き込み命令
69 解釈命令
Claims (6)
- 入力音声からキーワードを抽出することにより音声認識を行う装置において、
入力音声からキーワードを抽出するための手段と、
抽出したキーワード中の対象に関するキーワードに対して、その対象となるサブジェクトを抽出するためのサブジェクト抽出手段と、
抽出したキーワードから否定に関するキーワードを検出するための否定検出手段とを設けて、
否定検出手段が否定に関するキーワードを検出しなかった際に、サブジェクト抽出手段で抽出したサブジェクトを認識結果として出力し、否定に関するキーワードを検出した際に、少なくともサブジェクト抽出手段で抽出したサブジェクトが否定されたものとして認識結果を出力するようにしたことを特徴とする、音声認識装置。 - 少なくともサブジェクト毎のデータと否定に関するデータとを備えた記憶部を設けて、前記サブジェクト抽出手段は抽出したキーワードに対応するサブジェクトのデータをセットし、前記否定検出手段は否定に関するキーワードを検出した際に否定に関するデータをセットすることにより、サブジェクト毎のデータのと否定に関するデータとで、入力音声の意味を認識するようにしたことを特徴とする、請求項1の音声認識装置。
- 前記サブジェクト抽出手段は、既にセット済みのデータに対応するサブジェクトを再度抽出した際に、そのデータをセットしたままにすることを特徴とする、請求項2の音声認識装置。
- 音声認識装置は音声ガイダンスでの前記サブジェクトに言及した質問に対する音声入力を認識し、
サブジェクトに対するデータがセットされずに、否定に関するデータのみがセットされている際に、質問で言及した全てのサブジェクトが否定されたものとすることを特徴とする、請求項2の音声認識装置。 - 入力音声からキーワードを抽出することにより音声認識を行う方法において、
入力音声からキーワードを抽出し、
抽出したキーワード中の対象に関するキーワードに対して、その対象となるサブジェクトを抽出し、
抽出したキーワードから否定に関するキーワードを検出し、
否定に関するキーワードを検出しなかった際に、前記抽出したサブジェクトを認識結果として出力し、否定に関するキーワードを検出した際に、少なくとも前記サブジェクトが否定されたものとして認識結果を出力することを特徴とする、音声認識方法。 - 入力音声からキーワードを抽出することにより音声認識を行う装置のためのプログラムにおいて、
入力音声からキーワードを抽出するための命令と、
抽出したキーワード中の対象に関するキーワードに対して、その対象となるサブジェクトを抽出するためのサブジェクト抽出命令と、
抽出したキーワードから否定に関するキーワードを検出するための否定検出命令と、
否定検出命令が否定に関するキーワードを検出しなかった際に、サブジェクト抽出命令で抽出したサブジェクトを認識結果として出力し、否定に関するキーワードを検出した際に、少なくともサブジェクト抽出命令で抽出したサブジェクトが否定されたものとして認識結果を出力するための命令、とを設けたことを特徴とする、音声認識プログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006040208A JP2007219190A (ja) | 2006-02-17 | 2006-02-17 | 音声認識装置と認識方法及びそのプログラム |
US11/527,493 US20070198248A1 (en) | 2006-02-17 | 2006-09-27 | Voice recognition apparatus, voice recognition method, and voice recognition program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006040208A JP2007219190A (ja) | 2006-02-17 | 2006-02-17 | 音声認識装置と認識方法及びそのプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2007219190A true JP2007219190A (ja) | 2007-08-30 |
Family
ID=38429408
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006040208A Pending JP2007219190A (ja) | 2006-02-17 | 2006-02-17 | 音声認識装置と認識方法及びそのプログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US20070198248A1 (ja) |
JP (1) | JP2007219190A (ja) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8577671B1 (en) | 2012-07-20 | 2013-11-05 | Veveo, Inc. | Method of and system for using conversation state information in a conversational interaction system |
US9465833B2 (en) | 2012-07-31 | 2016-10-11 | Veveo, Inc. | Disambiguating user intent in conversational interaction system for large corpus information retrieval |
HUE068918T2 (hu) | 2013-05-07 | 2025-02-28 | Adeia Guides Inc | Inkrementális beszédbemeneti felület valós idejû visszajelzéssel |
JP6390264B2 (ja) * | 2014-08-21 | 2018-09-19 | トヨタ自動車株式会社 | 応答生成方法、応答生成装置及び応答生成プログラム |
US9852136B2 (en) | 2014-12-23 | 2017-12-26 | Rovi Guides, Inc. | Systems and methods for determining whether a negation statement applies to a current or past query |
US9854049B2 (en) | 2015-01-30 | 2017-12-26 | Rovi Guides, Inc. | Systems and methods for resolving ambiguous terms in social chatter based on a user profile |
KR101934280B1 (ko) * | 2016-10-05 | 2019-01-03 | 현대자동차주식회사 | 발화내용 분석 장치 및 방법 |
KR102429498B1 (ko) | 2017-11-01 | 2022-08-05 | 현대자동차주식회사 | 차량의 음성인식 장치 및 방법 |
CN107808145B (zh) * | 2017-11-13 | 2021-03-30 | 河南大学 | 基于多模态智能机器人的交互身份鉴别与跟踪方法及系统 |
CN110765255A (zh) * | 2019-11-04 | 2020-02-07 | 苏州思必驰信息科技有限公司 | 分布式语音服务系统及方法 |
US20240169979A1 (en) * | 2022-11-23 | 2024-05-23 | Bank Of America Corporation | Action topic ontology |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05204518A (ja) * | 1992-01-29 | 1993-08-13 | Matsushita Electric Ind Co Ltd | キーワード処理型ガイド装置 |
JPH08234789A (ja) * | 1995-02-27 | 1996-09-13 | Sharp Corp | 統合認識対話装置 |
JPH09212779A (ja) * | 1996-01-31 | 1997-08-15 | Hitachi Zosen Corp | セキュリティ装置 |
JPH11306195A (ja) * | 1998-04-24 | 1999-11-05 | Mitsubishi Electric Corp | 情報検索システムおよび情報検索方法 |
JP2005509205A (ja) * | 2001-04-17 | 2005-04-07 | ハミルトン ハービー、ジョージ | 機械で読み取り可能な熟語を使用してデータを記憶するためのシステムと方法 |
JP2005142752A (ja) * | 2003-11-05 | 2005-06-02 | Toshiba Corp | 番組情報の処理装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6999932B1 (en) * | 2000-10-10 | 2006-02-14 | Intel Corporation | Language independent voice-based search system |
-
2006
- 2006-02-17 JP JP2006040208A patent/JP2007219190A/ja active Pending
- 2006-09-27 US US11/527,493 patent/US20070198248A1/en not_active Abandoned
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05204518A (ja) * | 1992-01-29 | 1993-08-13 | Matsushita Electric Ind Co Ltd | キーワード処理型ガイド装置 |
JPH08234789A (ja) * | 1995-02-27 | 1996-09-13 | Sharp Corp | 統合認識対話装置 |
JPH09212779A (ja) * | 1996-01-31 | 1997-08-15 | Hitachi Zosen Corp | セキュリティ装置 |
JPH11306195A (ja) * | 1998-04-24 | 1999-11-05 | Mitsubishi Electric Corp | 情報検索システムおよび情報検索方法 |
JP2005509205A (ja) * | 2001-04-17 | 2005-04-07 | ハミルトン ハービー、ジョージ | 機械で読み取り可能な熟語を使用してデータを記憶するためのシステムと方法 |
JP2005142752A (ja) * | 2003-11-05 | 2005-06-02 | Toshiba Corp | 番組情報の処理装置 |
Also Published As
Publication number | Publication date |
---|---|
US20070198248A1 (en) | 2007-08-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2007219190A (ja) | 音声認識装置と認識方法及びそのプログラム | |
US9805718B2 (en) | Clarifying natural language input using targeted questions | |
US7860705B2 (en) | Methods and apparatus for context adaptation of speech-to-speech translation systems | |
WO2021000497A1 (zh) | 检索方法、装置、计算机设备和存储介质 | |
CN104573099B (zh) | 题目的搜索方法及装置 | |
Vinnarasu et al. | Speech to text conversion and summarization for effective understanding and documentation | |
JP5703491B2 (ja) | 言語モデル・音声認識辞書作成装置及びそれらにより作成された言語モデル・音声認識辞書を用いた情報処理装置 | |
JP2007232829A (ja) | 音声対話装置とその方法及びプログラム | |
KR101709693B1 (ko) | 크라우드 소싱을 이용한 웹툰 언어 자동 번역 방법 | |
JP2009140466A (ja) | 使用者製作問答データに基づいた会話辞書サービスの提供方法及びシステム | |
JP4383328B2 (ja) | 意味的速記のためのシステム及び方法 | |
Amoli et al. | Chromium Navigator Extension: Voice-Activated Assist for Disabled | |
JP5722375B2 (ja) | 文末表現変換装置、方法、及びプログラム | |
JP2007265131A (ja) | 対話情報抽出装置,対話情報抽出方法およびプログラム | |
JP6985311B2 (ja) | 相槌判定によって応答発話生成を制御する対話実施プログラム、装置及び方法 | |
Pisat et al. | Synonym Suggestion System using Word Embeddings | |
JP2010197709A (ja) | 音声認識応答方法、音声認識応答システム、及びそのプログラム | |
JP2004118720A (ja) | 翻訳装置、翻訳方法及び翻訳プログラム | |
JP4643183B2 (ja) | 翻訳装置および翻訳プログラム | |
JP6843689B2 (ja) | コンテキストに応じた対話シナリオを生成する装置、プログラム及び方法 | |
JP2021135839A (ja) | 情報処理システム、文生成方法およびプログラム | |
KR102476497B1 (ko) | 언어 대응 화상 출력 장치, 방법 및 시스템 | |
JP4437778B2 (ja) | 上下関係判定方法、上下関係判定装置、上下関係判定プログラムおよび記録媒体 | |
KR102345818B1 (ko) | 텍스트 데이터로부터 타겟팅 된 품사의 단어를 통해 사고구조 마인드맵을 생성하는 방법 및 시스템 | |
Jasim et al. | PhraseOut: A code mixed data augmentation method for MultilingualNeural machine tranlsation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20091228 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100107 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20100506 |