JP4812029B2 - 音声認識システム、および、音声認識プログラム - Google Patents
音声認識システム、および、音声認識プログラム Download PDFInfo
- Publication number
- JP4812029B2 JP4812029B2 JP2007069123A JP2007069123A JP4812029B2 JP 4812029 B2 JP4812029 B2 JP 4812029B2 JP 2007069123 A JP2007069123 A JP 2007069123A JP 2007069123 A JP2007069123 A JP 2007069123A JP 4812029 B2 JP4812029 B2 JP 4812029B2
- Authority
- JP
- Japan
- Prior art keywords
- best solution
- utterance
- solution
- backward
- recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/228—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Machine Translation (AREA)
Description
(1)前記先方Nベスト解中のいずれかの解が、前記後方Nベスト解における後方ベスト解と一致する。
(2)前記後方ベスト解と一致する前記先方Nベスト解中の解の認識スコアが所定の認識スコア以上、あるいは、前記後方ベスト解と一致する前記先方Nベスト解中の解における、前記先方ベスト解からの順位が所定の順位以上である。
(1)前記先方Nベスト解中のそれぞれの解と前記後方Nベスト解中のそれぞれの解とが一致する個数
(2)前記先方Nベスト解中のそれぞれの解と前記後方Nベスト解中のそれぞれの解とが一致する解における、前記先方Nベスト解中の認識スコアに基づく順位と前記後方Nベスト解中の認識スコアに基づく順位との差
(3)前記先方Nベスト解が出力された時刻と前記後方Nベスト解が出力された時刻との時間差
(4)発話と複数の認識語彙とを照合することにより複数の先方Nベスト解が得られ、かつ、当該発話とは異なる話者による発話と複数の認識語彙とを照合することにより複数の後方Nベスト解が得られた場合、複数の先方Nベスト解の時系列上の出現順と、複数の後方Nベスト解の時系列上の出現順との差
上記構成によれば、関連度算出部は、上記の(1)〜(4)の少なくとも1つに基づいて関連度を算出することができる。
本実施形態に係る音声認識システム1は、音声入力部11、入力識別部12、音響処理部13、音響モデル記憶部14、言語モデル記憶部15、照合部16、時刻情報管理部17、認識結果記憶部18、認識結果抽出部19、同義語情報記憶部20、関連度算出部21、応答発話判定部22、繰り返し発話判定部23、一致判定部24、認識結果修正部25、出力生成部26、出力提示部27、照合処理変更部28、共起情報記憶部29、および、意味属性記憶部30を備えている。
(式1)
関連度=X/(|CDの順位差|)+Y/(|PCの順位差|)+Z/(|GCCの順位差|)
本実施形態においては、関連度は、上記の(式1)により、X+Y+Z/2となる。すなわち、上記の(式1)は、上記個数が多く、かつ、上記順位の差が小さい程、関連度が大きくなる式である。一方、これとは逆に、上記の(式1)は、上記個数が少なく、かつ、上記順位の差が大きい程、関連度が小さくなる式である。なお、上記の(式1)において、Nベスト解A1中のそれぞれの解と、Nベスト解B1中のそれぞれの解とが一致する個数が0である場合は、関連度は0となる。関連度算出部21は、算出した関連度を応答発話判定部22に出力する。
(式1−a)
関連度=(X/ACDノ順位差)+(Y/APCノ順位差)+(Z/AGCCノ順位差)
応答発話判定部22は、関連度算出部21により算出された関連度が閾値以上である場合、Nベスト解B1が、Nベスト解A1に対する発話Aへの応答発話Bによって得られたNベスト解であると判定する。なお、閾値は、応答発話判定部22内に設けられたメモリに予め記録されている。閾値は、音声認識システム1のシステム管理者により設定される。本実施形態においては、関連度算出部21により算出された関連度は閾値以上であるものとする。これにより、応答発話判定部22は、Nベスト解B1が、Nベスト解A1に対する発話Aへの応答発話Bによって得られたNベスト解であると判定する。
(1)Nベスト解A1中のいずれかの解が、Nベスト解B1におけるベスト解B1と一致する。
(2)上記ベスト解B1と一致するNベスト解A1中の解の認識スコアが所定の認識スコア以上、あるいは、上記ベスト解B1と一致するNベスト解A1中の解における、ベスト解A1からの順位が所定の順位以上である。
次に、上記の構成に係る音声認識システム1の処理について、図5を参照しながら説明する。
一例として、図5に示した工程Op7において、関連度算出部21による関連度の算出処理の第1の変形例を説明する。すなわち、関連度算出部21は、Nベスト解AとNベスト解Bとの時間差に基づいて関連度を算出する。第1の変形例においては、関連度算出部21は、Nベスト解A1に付加された時刻情報が表す現在時刻「10:00:00」と、Nベスト解B1に付加された時刻情報が表す現在時刻「10:00:05」との時間差「5」に基づいて関連度を算出する。すなわち、第1の変形例においては、関連度算出部21は、下記の(式2)により、関連度を算出する。下記の(式2)において、Xは、任意の正の定数を表す。また、||は、絶対値を表す。
(式2)
関連度=X/|Nベスト解A1に付加された時刻情報が表す現在時刻と、Nベスト解B1に付加された時刻情報が表す現在時刻との時間差|
第1の変形例においては、関連度は、上記の(式2)により、X/5となる。すなわち、上記の(式2)は、上記時間差が小さい程、関連度が大きくなる式である。一方、これとは逆に、上記の(式2)は、上記時間差が大きい程、関連度が小さくなる式である。
他の例として、図5に示した工程Op7において、関連度算出部21による関連度の算出処理の第2の変形例を説明する。すなわち、関連度算出部21は、P個の発話区間にそれぞれ対応するNベスト解Aの中から時系列上はじめのNベスト解Aを1番目のNベスト解Aとし、Q個の発話区間にそれぞれ対応するNベスト解Bの中から時系列上はじめのNベスト解Bを1番目のNベスト解Bとする。ここでは、1番目のNベスト解Aは、Nベスト解A1である。また、1番目のNベスト解Bは、Nベスト解B1である。関連度算出部21は、Q個の発話区間にそれぞれ対応するNベスト解Bの中から1のNベスト解Bにおける、1番目のNベスト解Bからの出現順と、この1のNベスト解Bに対応するNベスト解Aにおける、1番目のNベスト解Aからの出現順との差に基づいて関連度を算出する。なお、Nベスト解AがNベスト解Bに対応するか否かは、関連度算出部21による上記の(式1)あるいは(式2)を用いることにより、判定する。第2の変形例においては、関連度算出部21は、1番目のNベスト解B1と、この1番目のNベスト解B1に対応する1番目のNベスト解A1との出現順の差「0」に基づいて関連度を算出する。すなわち、第2の変形例においては、関連度算出部21は、下記の(式3)により、関連度を算出する。下記の(式3)において、X、Yは、任意の正の定数を表す。また、||は、絶対値を表す。
(式3)
関連度=X−Y×(|Nベスト解B1の出現順とNベスト解A1の出現順との差|)
第2の変形例においては、関連度は、上記の(式3)により、Xとなる。すなわち、上記の(式3)は、上記出現順の差が小さい程、関連度が大きくなる式である。一方、これとは逆に、上記の(式3)は、上記出現順の差が大きい程、関連度が小さくなる式である。
また、他の例として、図5に示した工程Op7において、関連度算出部21による関連度の算出処理の第3の変形例を説明する。図6は、第3の変形例に係る音声認識システム1aの概略構成を示すブロック図である。すなわち、第3の変形例に係る音声認識システム1aは、図1に示す音声認識システム1に加えて、機能語辞書51を備えている。また、第3の変形例に係る音声認識システム1aは、図1に示す出力生成部26に加えて、機能語抽出部52を備えている。なお、図6において、図1と同様の機能を有する構成については、同じ参照符号を付記し、その詳細な説明を省略する。
さらに、他の例として、図5に示した工程Op7において、関連度算出部21による関連度の算出処理の第4の変形例を説明する。まず、本実施形態で説明した関連度算出部21により算出された関連度を第1の関連度とし、第1の変形例で説明した関連度算出部21により算出された関連度を第2の関連度とし、第2の変形例で説明した関連度算出部21により算出された関連度を第3の関連度とし、第3の変形例で説明した関連度算出部21により算出された関連度を第4の関連度とする。この場合、関連度算出部21は、第1〜第4の関連度の全て、あるいは、第1〜第4の関連度のいずれかの組み合わせに基づいて関連度を算出する。例えば、関連度算出部21は、第1〜第4の関連度の和あるいは積をとることにより、関連度を算出する。複数の組み合わせに基づいて関連度を算出するので、上述した実施形態、および、第1〜第3の変形例と比較して、より正確な関連度を算出することができる。
発話を発声した話者を識別する入力識別部と、
発話と複数の認識語彙とを照合することにより算出された認識スコアの中から最も認識スコアの高い認識語彙をベスト解とするとき、当該ベスト解から認識スコアの高い上位N個(Nは1以上の整数)の認識語彙をNベスト解として格納する認識結果記憶部と、
前記認識結果記憶部から抽出したNベスト解を先方Nベスト解とするとき、当該先方Nベスト解に対する発話よりも時系列上後方の発話であって、かつ、当該先方Nベスト解に対する発話とは異なる話者による発話によって得られたNベスト解を後方Nベスト解として前記認識結果記憶部から抽出する認識結果抽出部と、
前記後方Nベスト解が、前記先方Nベスト解に対する発話への応答発話によって得られたNベスト解であるか否かの度合を表す関連度を算出する関連度算出部と、
前記関連度が閾値以上である場合、前記後方Nベスト解が、前記先方Nベスト解に対する発話への応答発話によって得られたNベスト解であると判定する応答発話判定部と、
前記応答発話判定部により前記後方Nベスト解が前記先方Nベスト解に対する発話への応答発話によって得られたNベスト解であると判定された場合、前記後方Nベスト解が、前記先方Nベスト解に対する発話の繰り返し発話によって得られたNベスト解であるか否かを判定する繰り返し発話判定部と、
前記繰り返し発話判定部により前記後方Nベスト解が前記先方Nベスト解に対する発話の繰り返し発話によって得られたNベスト解であると判定された場合、前記先方Nベスト解におけるベスト解を先方ベスト解、および、前記後方Nベスト解におけるベスト解を後方ベスト解とするとき、前記先方ベスト解と前記後方ベスト解とが一致するか否かを判定し、一致しない場合、前記先方Nベスト解の一部または全部を、前記後方Nベスト解の一部または全部で置き換えが可能であると判定する一致判定部とを備えることを特徴とする音声認識システム。
前記一致判定部により前記先方ベスト解と前記後方ベスト解とが一致しないと判定された場合、前記先方Nベスト解が格納されている前記認識結果記憶部の先方ベスト解を、前記後方ベスト解に更新する認識結果修正部と、
前記認識結果修正部により更新された後方ベスト解を出力する結果出力部とをさらに備える、付記1に記載の音声認識システム。
前記認識結果修正部により更新された履歴を示す履歴データを生成する修正履歴生成部と、
前記修正履歴生成部により生成された履歴データを提示する出力提示部とをさらに備える、付記2に記載の音声認識システム。
前記繰り返し発話判定部は、前記応答発話判定部により前記後方Nベスト解が前記先方Nベスト解に対する発話への応答発話によって得られたNベスト解であると判定された場合、前記後方Nベスト解における後方ベスト解の認識スコアが所定の認識スコア以上であって、かつ、下記の(1)および(2)のいずれも満たす場合に、前記後方Nベスト解が、前記先方Nベスト解に対する発話の繰り返し発話によって得られたNベスト解であると判定する、付記1〜3のいずれか一項に記載の音声認識システム。
(1)前記先方Nベスト解中のいずれかの解が、前記後方Nベスト解における後方ベスト解と一致する。
(2)前記後方ベスト解と一致する前記先方Nベスト解中の解の認識スコアが所定の認識スコア以上、あるいは、前記後方ベスト解と一致する前記先方Nベスト解中の解における、前記先方ベスト解からの順位が所定の順位以上である。
認識語彙間の共起関係を表す共起情報を格納した共起情報記憶部、および、認識語彙の意味を表す意味属性を格納した意味属性記憶部の少なくとも1つと、
前記一致判定部により前記先方ベスト解と前記後方ベスト解とが一致すると判定された場合、前記共起情報および前記意味属性の少なくとも1つに基づいて、発話と複数の認識語彙との照合方法を変更させる照合処理変更部とをさらに備える、付記1〜4のいずれか一項に記載の音声認識システム。
前記関連度算出部は、下記の(1)〜(4)の少なくとも1つに基づいて関連度を算出する、請求項1〜4のいずれか一項に記載の音声認識システム。
(1)前記先方Nベスト解中のそれぞれの解と前記後方Nベスト解中のそれぞれの解とが一致する個数
(2)前記先方Nベスト解中のそれぞれの解と前記後方Nベスト解中のそれぞれの解とが一致する解における、前記先方Nベスト解中の認識スコアに基づく順位と前記後方Nベスト解中の認識スコアに基づく順位との差
(3)前記先方Nベスト解が出力された時刻と前記後方Nベスト解が出力された時刻との時間差
(4)発話と複数の認識語彙とを照合することにより複数の先方Nベスト解が得られ、かつ、当該発話とは異なる話者による発話と複数の認識語彙とを照合することにより複数の後方Nベスト解が得られた場合、複数の先方Nベスト解の時系列上の出現順と、複数の後方Nベスト解の時系列上の出現順との差
(付記7)
前記関連度算出部は、前記先方Nベスト解中のそれぞれの解と前記後方Nベスト解中のそれぞれの解とが一致する個数が多く、かつ、前記先方Nベスト解中のそれぞれの解と前記後方Nベスト解中のそれぞれの解とが一致する解における、前記先方Nベスト解中の認識スコアに基づく順位と前記後方Nベスト解中の認識スコアに基づく順位との差が小さい程、大きい関連度を算出する、付記6に記載の音声認識システム。
前記Nベスト解に現在時刻を表す時刻情報を付加し、当該時刻情報を付加したNベスト解を前記認識結果記憶部に書き込む時刻情報管理部をさらに備え、
前記関連度算出部は、前記先方Nベスト解に付加された時刻情報が表す現在時刻と、前記後方Nベスト解に付加された時刻情報が表す現在時刻との時間差が小さい程、大きい関連度を算出する、付記6に記載の音声認識システム。
前記関連度算出部は、発話と複数の認識語彙とを照合することにより複数の先方Nベスト解が得られ、かつ、当該発話とは異なる話者による発話と複数の認識語彙とを照合することにより複数の後方Nベスト解が得られた場合、複数の先方Nベスト解の時系列上の出現順と、複数の後方Nベスト解の時系列上の出現順との差が小さい程、大きい関連度を算出する、付記6に記載の音声認識システム。
発話の出現順を表す機能語と、当該出現順とを関連付けて格納した機能語辞書をさらに備え、
前記関連度算出部は、複数の後方Nベスト解中のいずれかの後方Nベスト解における後方ベスト解と、前記機能語とが一致する場合、前記機能語と一致する後方ベスト解を含む後方Nベスト解から時系列上次の後方Nベスト解の出現順を、当該機能語が表す出現順とする、付記9に記載の音声認識システム。
複数の先方Nベスト解における時系列上それぞれの出現順に対応する機能語を機能語辞書から抽出する機能語抽出部をさらに備え、
前記出力提示部は、前記機能語抽出部により抽出された機能語を、複数の先方Nベスト解におけるそれぞれの先方ベスト解と対応させて提示する、付記10に記載の音声認識システム。
発話と複数の認識語彙とを照合することにより算出された認識スコアの中から最も認識スコアの高い認識語彙をベスト解とするとき、当該ベスト解から認識スコアの高い上位N個(Nは1以上の整数)の認識語彙をNベスト解として格納する認識結果記憶部を備えたコンピュータに、
発話を発声した話者を識別する入力識別処理と、
前記認識結果記憶部から抽出したNベスト解を先方Nベスト解とするとき、当該先方Nベスト解に対する発話よりも時系列上後方の発話であって、かつ、当該先方Nベスト解に対する発話とは異なる話者による発話によって得られたNベスト解を後方Nベスト解として前記認識結果記憶部から抽出する認識結果抽出処理と、
前記後方Nベスト解が、前記先方Nベスト解に対する発話への応答発話によって得られたNベスト解であるか否かの度合を表す関連度を算出する関連度算出処理と、
前記関連度が閾値以上である場合、前記後方Nベスト解が、前記先方Nベスト解に対する発話への応答発話によって得られたNベスト解であると判定する応答発話判定処理と、
前記応答発話判定処理により前記後方Nベスト解が前記先方Nベスト解に対する発話への応答発話によって得られたNベスト解であると判定された場合、前記後方Nベスト解が、前記先方Nベスト解に対する発話の繰り返し発話によって得られたNベスト解であるか否かを判定する繰り返し発話判定処理と、
前記繰り返し発話判定処理により前記後方Nベスト解が前記先方Nベスト解に対する発話の繰り返し発話によって得られたNベスト解であると判定された場合、前記先方Nベスト解におけるベスト解を先方ベスト解、および、前記後方Nベスト解におけるベスト解を後方ベスト解とするとき、前記先方ベスト解と前記後方ベスト解とが一致するか否かを判定し、一致しない場合、前記先方ベスト解の一部または全部を、前記後方Nベスト解の一部または全部で置き換えが可能であると判定する一致判定処理とを実行させることを特徴とする音声認識プログラム。
12 入力識別部
17 時刻情報管理部
18 認識結果記憶部
19 認識結果抽出部
20 同義語情報記憶部
21 関連度算出部
22 応答発話判定部
23 繰り返し発話判定部
24 一致判定部
25 認識結果修正部
26a 結果出力部
26b 修正履歴生成部
27 出力提示部
28 照合処理変更部
29 共起情報記憶部
30 意味属性記憶部
51 機能語辞書
52 機能語抽出部
Claims (6)
- 発話を発声した話者を識別する入力識別部と、
発話と複数の認識語彙とを照合することにより算出された認識スコアの中から最も認識スコアの高い認識語彙をベスト解とするとき、当該ベスト解から認識スコアの高い上位N個(Nは1以上の整数)の認識語彙をNベスト解として格納する認識結果記憶部と、
前記認識結果記憶部から抽出したNベスト解を先方Nベスト解とするとき、当該先方Nベスト解に対する発話よりも時系列上後方の発話であって、かつ、当該先方Nベスト解に対する発話とは異なる話者による発話によって得られたNベスト解を後方Nベスト解として前記認識結果記憶部から抽出する認識結果抽出部と、
前記後方Nベスト解が、前記先方Nベスト解に対する発話への応答発話によって得られたNベスト解であるか否かの度合を表す関連度を算出する関連度算出部と、
前記関連度が閾値以上である場合、前記後方Nベスト解が、前記先方Nベスト解に対する発話への応答発話によって得られたNベスト解であると判定する応答発話判定部と、
前記応答発話判定部により前記後方Nベスト解が前記先方Nベスト解に対する発話への応答発話によって得られたNベスト解であると判定された場合、前記後方Nベスト解が、前記先方Nベスト解に対する発話の繰り返し発話によって得られたNベスト解であるか否かを判定する繰り返し発話判定部と、
前記繰り返し発話判定部により前記後方Nベスト解が前記先方Nベスト解に対する発話の繰り返し発話によって得られたNベスト解であると判定された場合、前記先方Nベスト解におけるベスト解を先方ベスト解、および、前記後方Nベスト解におけるベスト解を後方ベスト解とするとき、前記先方ベスト解と前記後方ベスト解とが一致するか否かを判定する一致判定部と、
前記一致判定部により前記先方ベスト解と前記後方ベスト解とが一致しないと判定された場合、前記先方ベスト解を前記後方ベスト解に置き換える認識結果修正部とを備えることを特徴とする音声認識システム。 - 前記認識結果修正部は、前記一致判定部により前記先方ベスト解と前記後方ベスト解とが一致しないと判定された場合、前記先方Nベスト解が格納されている前記認識結果記憶部の先方ベスト解を、前記後方ベスト解に更新するものであり、
前記認識結果修正部において前記後方ベスト解に更新された先方ベスト解を出力する結果出力部をさらに備える、請求項1に記載の音声認識システム。 - 前記繰り返し発話判定部は、前記応答発話判定部により前記後方Nベスト解が前記先方Nベスト解に対する発話への応答発話によって得られたNベスト解であると判定された場合、前記後方Nベスト解における後方ベスト解の認識スコアが所定の認識スコア以上であって、かつ、下記の(1)および(2)のいずれも満たす場合に、前記後方Nベスト解が、前記先方Nベスト解に対する発話の繰り返し発話によって得られたNベスト解であると判定する、請求項1または2に記載の音声認識システム。
(1)前記先方Nベスト解中のいずれかの解が、前記後方Nベスト解における後方ベスト解と一致する。
(2)前記後方ベスト解と一致する前記先方Nベスト解中の解の認識スコアが所定の認識スコア以上、あるいは、前記後方ベスト解と一致する前記先方Nベスト解中の解における、前記先方ベスト解からの順位が所定の順位以上である。 - 認識語彙間の共起関係を表す共起情報を格納した共起情報記憶部、および、認識語彙の意味を表す意味属性を格納した意味属性記憶部の少なくとも1つと、
前記一致判定部により前記先方ベスト解と前記後方ベスト解とが一致すると判定された場合、前記共起情報および前記意味属性の少なくとも1つに基づいて、発話と複数の認識語彙との照合方法を変更させる照合処理変更部とをさらに備える、請求項1〜3のいずれか一項に記載の音声認識システム。 - 前記関連度算出部は、下記の(1)〜(4)の少なくとも1つに基づいて関連度を算出する、請求項1〜4のいずれか一項に記載の音声認識システム。
(1)前記先方Nベスト解中のそれぞれの解と前記後方Nベスト解中のそれぞれの解とが一致する個数
(2)前記先方Nベスト解中のそれぞれの解と前記後方Nベスト解中のそれぞれの解とが一致する解における、前記先方Nベスト解中の認識スコアに基づく順位と前記後方Nベスト解中の認識スコアに基づく順位との差
(3)前記先方Nベスト解が出力された時刻と前記後方Nベスト解が出力された時刻との時間差
(4)発話と複数の認識語彙とを照合することにより複数の先方Nベスト解が得られ、かつ、当該発話とは異なる話者による発話と複数の認識語彙とを照合することにより複数の後方Nベスト解が得られた場合、複数の先方Nベスト解の時系列上の出現順と、複数の後方Nベスト解の時系列上の出現順との差 - 発話と複数の認識語彙とを照合することにより算出された認識スコアの中から最も認識スコアの高い認識語彙をベスト解とするとき、当該ベスト解から認識スコアの高い上位N個(Nは1以上の整数)の認識語彙をNベスト解として格納する認識結果記憶部を備えたコンピュータに、
発話を発声した話者を識別する入力識別処理と、
前記認識結果記憶部から抽出したNベスト解を先方Nベスト解とするとき、当該先方Nベスト解に対する発話よりも時系列上後方の発話であって、かつ、当該先方Nベスト解に対する発話とは異なる話者による発話によって得られたNベスト解を後方Nベスト解として前記認識結果記憶部から抽出する認識結果抽出処理と、
前記後方Nベスト解が、前記先方Nベスト解に対する発話への応答発話によって得られたNベスト解であるか否かの度合を表す関連度を算出する関連度算出処理と、
前記関連度が閾値以上である場合、前記後方Nベスト解が、前記先方Nベスト解に対する発話への応答発話によって得られたNベスト解であると判定する応答発話判定処理と、
前記応答発話判定処理により前記後方Nベスト解が前記先方Nベスト解に対する発話への応答発話によって得られたNベスト解であると判定された場合、前記後方Nベスト解が、前記先方Nベスト解に対する発話の繰り返し発話によって得られたNベスト解であるか否かを判定する繰り返し発話判定処理と、
前記繰り返し発話判定処理により前記後方Nベスト解が前記先方Nベスト解に対する発話の繰り返し発話によって得られたNベスト解であると判定された場合、前記先方Nベスト解におけるベスト解を先方ベスト解、および、前記後方Nベスト解におけるベスト解を後方ベスト解とするとき、前記先方ベスト解と前記後方ベスト解とが一致するか否かを判定する一致判定処理と、
前記一致判定部により前記先方ベスト解と前記後方ベスト解とが一致しないと判定された場合、前記先方ベスト解を前記後方ベスト解に置き換える認識結果修正処理とを実行させることを特徴とする音声認識プログラム。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007069123A JP4812029B2 (ja) | 2007-03-16 | 2007-03-16 | 音声認識システム、および、音声認識プログラム |
US12/034,978 US8346553B2 (en) | 2007-03-16 | 2008-02-21 | Speech recognition system and method for speech recognition |
EP08004158A EP1970898A1 (en) | 2007-03-16 | 2008-03-06 | Speech recognition system and method for speech recognition |
CN2008100860661A CN101266792B (zh) | 2007-03-16 | 2008-03-14 | 语音识别系统和语音识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007069123A JP4812029B2 (ja) | 2007-03-16 | 2007-03-16 | 音声認識システム、および、音声認識プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008233229A JP2008233229A (ja) | 2008-10-02 |
JP4812029B2 true JP4812029B2 (ja) | 2011-11-09 |
Family
ID=39327071
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007069123A Expired - Fee Related JP4812029B2 (ja) | 2007-03-16 | 2007-03-16 | 音声認識システム、および、音声認識プログラム |
Country Status (4)
Country | Link |
---|---|
US (1) | US8346553B2 (ja) |
EP (1) | EP1970898A1 (ja) |
JP (1) | JP4812029B2 (ja) |
CN (1) | CN101266792B (ja) |
Families Citing this family (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110004473A1 (en) * | 2009-07-06 | 2011-01-06 | Nice Systems Ltd. | Apparatus and method for enhanced speech recognition |
WO2011064938A1 (ja) * | 2009-11-25 | 2011-06-03 | 日本電気株式会社 | 音声データ解析装置、音声データ解析方法及び音声データ解析用プログラム |
US8494852B2 (en) * | 2010-01-05 | 2013-07-23 | Google Inc. | Word-level correction of speech input |
US8407242B2 (en) * | 2010-12-16 | 2013-03-26 | Microsoft Corporation | Temporal binding for semantic queries |
US20140067401A1 (en) * | 2011-06-29 | 2014-03-06 | Manvi Sanjeeva | Provide services using unified communication content |
US8768707B2 (en) * | 2011-09-27 | 2014-07-01 | Sensory Incorporated | Background speech recognition assistant using speaker verification |
MX352472B (es) * | 2011-10-20 | 2017-11-27 | Koninklijke Philips Nv | Un sistema y metodo para caracterizar una via respiratoria superior utilizando caracteristicas del habla. |
AU2012325715A1 (en) | 2011-10-20 | 2014-06-12 | Albert VANGURA | A hand-held tool for cutting laminated glass |
CN102496366B (zh) * | 2011-12-20 | 2014-04-09 | 上海理工大学 | 一种与文本无关的说话人识别方法 |
CN103426428B (zh) * | 2012-05-18 | 2016-05-25 | 华硕电脑股份有限公司 | 语音识别方法及系统 |
CN102760434A (zh) | 2012-07-09 | 2012-10-31 | 华为终端有限公司 | 一种声纹特征模型更新方法及终端 |
KR101404246B1 (ko) * | 2012-10-29 | 2014-06-05 | 포항공과대학교 산학협력단 | 발화 인식 성능 향상 시스템 및 방법 |
CN103020047A (zh) * | 2012-12-31 | 2013-04-03 | 威盛电子股份有限公司 | 修正语音应答的方法及自然语言对话系统 |
US9858038B2 (en) * | 2013-02-01 | 2018-01-02 | Nuance Communications, Inc. | Correction menu enrichment with alternate choices and generation of choice lists in multi-pass recognition systems |
CN105027198B (zh) * | 2013-02-25 | 2018-11-20 | 三菱电机株式会社 | 语音识别系统以及语音识别装置 |
JP5877823B2 (ja) * | 2013-08-27 | 2016-03-08 | ヤフー株式会社 | 音声認識装置、音声認識方法、およびプログラム |
CN103578467B (zh) * | 2013-10-18 | 2017-01-18 | 威盛电子股份有限公司 | 声学模型的建立方法、语音辨识方法及其电子装置 |
CN104978971B (zh) * | 2014-04-08 | 2019-04-05 | 科大讯飞股份有限公司 | 一种口语评测方法及系统 |
DE112014006795B4 (de) * | 2014-07-08 | 2018-09-20 | Mitsubishi Electric Corporation | Spracherkennungssystem und Spracherkennungsverfahren |
CN105469789A (zh) * | 2014-08-15 | 2016-04-06 | 中兴通讯股份有限公司 | 一种语音信息的处理方法及终端 |
KR102371697B1 (ko) * | 2015-02-11 | 2022-03-08 | 삼성전자주식회사 | 음성 기능 운용 방법 및 이를 지원하는 전자 장치 |
KR101595090B1 (ko) * | 2015-04-30 | 2016-02-17 | 주식회사 아마다스 | 음성 인식을 이용한 정보 검색 방법 및 장치 |
CN105869642B (zh) * | 2016-03-25 | 2019-09-20 | 海信集团有限公司 | 一种语音文本的纠错方法及装置 |
CN109145145A (zh) | 2017-06-16 | 2019-01-04 | 阿里巴巴集团控股有限公司 | 一种数据更新方法、客户端及电子设备 |
CN107993653A (zh) * | 2017-11-30 | 2018-05-04 | 南京云游智能科技有限公司 | 语音识别设备的错误发音自动纠正更新方法和更新系统 |
JP6718182B1 (ja) * | 2019-05-08 | 2020-07-08 | 株式会社インタラクティブソリューションズ | 誤変換辞書作成システム |
JP7463690B2 (ja) * | 2019-10-31 | 2024-04-09 | 株式会社リコー | サーバ装置、通信システム、情報処理方法、プログラムおよび記録媒体 |
US11829720B2 (en) * | 2020-09-01 | 2023-11-28 | Apple Inc. | Analysis and validation of language models |
Family Cites Families (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3284832B2 (ja) * | 1995-06-22 | 2002-05-20 | セイコーエプソン株式会社 | 音声認識対話処理方法および音声認識対話装置 |
JP3810551B2 (ja) * | 1997-03-18 | 2006-08-16 | 株式会社エヌ・ティ・ティ・データ | 音声認識システム、コールセンタシステム、音声認識方法及び記録媒体 |
JPH11149294A (ja) | 1997-11-17 | 1999-06-02 | Toyota Motor Corp | 音声認識装置および音声認識方法 |
JP3886024B2 (ja) * | 1997-11-19 | 2007-02-28 | 富士通株式会社 | 音声認識装置及びそれを用いた情報処理装置 |
JP2000137496A (ja) * | 1998-11-02 | 2000-05-16 | Fujitsu I-Network Systems Ltd | 音声認識による電話番号検索方式およびシステム |
JP2000250590A (ja) * | 1999-03-04 | 2000-09-14 | Kdd Corp | 音声認識システム及び音声認識方法 |
US7280964B2 (en) * | 2000-04-21 | 2007-10-09 | Lessac Technologies, Inc. | Method of recognizing spoken language with recognition of language color |
US20020052913A1 (en) * | 2000-09-06 | 2002-05-02 | Teruhiro Yamada | User support apparatus and system using agents |
JP2002175316A (ja) * | 2000-12-07 | 2002-06-21 | Sanyo Electric Co Ltd | ユーザ支援装置およびシステム |
EP1376999A1 (en) * | 2002-06-21 | 2004-01-02 | BRITISH TELECOMMUNICATIONS public limited company | Spoken alpha-numeric sequence entry system with repair mode |
JP2004037721A (ja) * | 2002-07-02 | 2004-02-05 | Pioneer Electronic Corp | 音声応答システム、音声応答プログラム及びそのための記憶媒体 |
CA2493640C (en) | 2002-07-29 | 2012-06-12 | Francis James Scahill | Improvements in or relating to information provision for call centres |
JP2005123869A (ja) | 2003-10-16 | 2005-05-12 | Advanced Media Inc | 通話内容書き起こしシステムおよび通話内容書き起こし方法 |
GB0411377D0 (en) * | 2004-05-21 | 2004-06-23 | Univ Belfast | Dialogue manager |
US7672845B2 (en) | 2004-06-22 | 2010-03-02 | International Business Machines Corporation | Method and system for keyword detection using voice-recognition |
JP4324089B2 (ja) * | 2004-12-17 | 2009-09-02 | 富士通株式会社 | 音声再生プログラムおよびその記録媒体、音声再生装置ならびに音声再生方法 |
JP4804019B2 (ja) | 2005-03-17 | 2011-10-26 | 日本ゴア株式会社 | ガスケット及びその製造方法 |
US8041570B2 (en) * | 2005-05-31 | 2011-10-18 | Robert Bosch Corporation | Dialogue management using scripts |
JP4680691B2 (ja) * | 2005-06-15 | 2011-05-11 | 富士通株式会社 | 対話システム |
JP2007057844A (ja) * | 2005-08-24 | 2007-03-08 | Fujitsu Ltd | 音声認識システムおよび音声処理システム |
JP4567606B2 (ja) * | 2006-01-05 | 2010-10-20 | 富士通株式会社 | 音声データの聞き出し部分特定処理プログラムおよび処理装置 |
JP4272658B2 (ja) * | 2006-02-14 | 2009-06-03 | 三菱電機インフォメーションシステムズ株式会社 | オペレータ業務支援システムとしてコンピュータを機能させるためのプログラム |
-
2007
- 2007-03-16 JP JP2007069123A patent/JP4812029B2/ja not_active Expired - Fee Related
-
2008
- 2008-02-21 US US12/034,978 patent/US8346553B2/en not_active Expired - Fee Related
- 2008-03-06 EP EP08004158A patent/EP1970898A1/en not_active Withdrawn
- 2008-03-14 CN CN2008100860661A patent/CN101266792B/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
US20080228482A1 (en) | 2008-09-18 |
EP1970898A1 (en) | 2008-09-17 |
CN101266792B (zh) | 2012-11-14 |
US8346553B2 (en) | 2013-01-01 |
JP2008233229A (ja) | 2008-10-02 |
CN101266792A (zh) | 2008-09-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4812029B2 (ja) | 音声認識システム、および、音声認識プログラム | |
US6910012B2 (en) | Method and system for speech recognition using phonetically similar word alternatives | |
JP4657736B2 (ja) | ユーザ訂正を用いた自動音声認識学習のためのシステムおよび方法 | |
EP1346343B1 (en) | Speech recognition using word-in-phrase command | |
EP0965978B9 (en) | Non-interactive enrollment in speech recognition | |
US6839667B2 (en) | Method of speech recognition by presenting N-best word candidates | |
EP2838085B1 (en) | Voice recognition server integration device and voice recognition server integration method | |
US10170107B1 (en) | Extendable label recognition of linguistic input | |
US20090220926A1 (en) | System and Method for Correcting Speech | |
KR20010096490A (ko) | 이동통신을 위한 철자 음성인식장치 및 방법 | |
US20080154591A1 (en) | Audio Recognition System For Generating Response Audio by Using Audio Data Extracted | |
US20070038453A1 (en) | Speech recognition system | |
JP4680714B2 (ja) | 音声認識装置および音声認識方法 | |
US6963834B2 (en) | Method of speech recognition using empirically determined word candidates | |
WO2006093092A1 (ja) | 会話システムおよび会話ソフトウェア | |
US20040006469A1 (en) | Apparatus and method for updating lexicon | |
JPH10274996A (ja) | 音声認識装置 | |
US7752045B2 (en) | Systems and methods for comparing speech elements | |
US11043212B2 (en) | Speech signal processing and evaluation | |
JP4986301B2 (ja) | 音声認識処理機能を用いたコンテンツ検索装置、プログラム及び方法 | |
JP4661239B2 (ja) | 音声対話装置及び音声対話方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20091106 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110524 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110531 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110728 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110818 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110819 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140902 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |