JP4259100B2 - 音声認識用未知発話検出装置及び音声認識装置 - Google Patents
音声認識用未知発話検出装置及び音声認識装置 Download PDFInfo
- Publication number
- JP4259100B2 JP4259100B2 JP2002342011A JP2002342011A JP4259100B2 JP 4259100 B2 JP4259100 B2 JP 4259100B2 JP 2002342011 A JP2002342011 A JP 2002342011A JP 2002342011 A JP2002342011 A JP 2002342011A JP 4259100 B2 JP4259100 B2 JP 4259100B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- word
- unknown
- unknown utterance
- subword
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
【発明の属する技術分野】
この発明は、音声認識装置における音声認識方法に関するものである。
【0002】
【従来の技術】
従来、音声認識装置においては、受理可能な音声認識語彙を規定して、入力音声と最も類似した認識語彙を探索することによって、これを認識結果として出力する。したがって、かりに利用者が音声認識語彙外の発話を行なった場合でも、音声認識語彙から最も類似した語彙を選択するため、認識結果は誤ったものとなる。このため利用者の発話が音声認識語彙に含まれる単語であるのか、それ以外の単語あるいは言い淀み等であるのかを判定し、これら未知発話を棄却する機能が必要となる。
【0003】
このような未知発話を棄却する方法は、サブワードと呼ばれる単語より短かい単位のHMM(音声パタンを表現するモデルの1つ)を連結して、認識語彙の各単語のモデルを構成し、入力音声に対して最大のゆう度を与える単語の探索を行ない、このゆう度を認識ゆう度とする(例えば非特許文献1参照)。また、任意カナ系列に対応する任意のサブワードHMMの連接によるモデルの中から、入力音声に対する最大のゆう度を求めて、これを参照ゆう度とする。このようにして得られた認識ゆう度と参照ゆう度の比較を行なうことで、未知発話を検出し棄却する。
【0004】
しかしこのような方法においては、参照ゆう度の算出において、任意のサブワードHMMの連接における制約がなく、非日本語的な系列に対するゆう度が最大ゆう度として選択される場合も多く、結果としてこのような参照ゆう度と認識ゆう度の比較では充分な未知発声の棄却効果が得られなかった。また、あらゆるサブワードHMMの連接を比較するため、処理計算量の面でも大きなリソースを必要とした。このような問題に対して、たとえば、音声認識法では、サブワードHMM間の連接の親和性を遷移確率として導入することによって、未知発声の棄却精度と処理量の両面の向上を図っている(例えば特許文献1参照)。
【0005】
【特許文献1】
特開平10-171489号公報
【非特許文献1】
渡辺他, "音節認識を用いたゆう度補正による未知発話のリジェクション", 電子情報通信学会論文誌, Vol. J75-D-II, No.12 (1992)
【0006】
【発明が解決しようとする課題】
しかしながら、以上に述べたような従来法では、次に述べるような問題がある。
【0007】
すなわち、サブワードHMMの連接によるモデルは、入力音声をかな系列として認識するモデルと見なすことができるが、仮りにサブワードHMM間の連接の制約として遷移確率を導入したとしても、このモデルが生成するかな系列は、依然、入力音声のそれとは充分一致しているとは言い難い。すなわち、このようなモデルによって得られる参照ゆう度は充分な精度とは言えず、未知発話の棄却効果も充分ではない。
【0008】
【課題を解決するための手段】
上記目的を達成するため、上記第1の発明の音声認識用未知発話検出装置は、入力された音声を分析して特徴パラメータの系列に変換する音声分析手段と、認識対象語彙を規定する認識辞書格納手段と、
音声の標準的パタンをモデル化した音声モデル格納手段と、認識辞書に規定された語彙のモデルを、上記音声モデル格納手段によって格納されたモデルを用いて構築し、入力音声との照合を行なう単語レベルマッチング手段と、サブワード間の遷移確率を規定するサブワード遷移確率格納手段と、上記音声モデル格納手段によって格納された音声モデルを、上記サブワード遷移確率格納手段によって格納されたサブワード遷移確率を勘案して連結し、入力音声との照合を行なうサブワードレベルマッチング手段と、
上記単語レベルマッチング部および上記サブワードレベルマッチング部から、複数個の未知発話尺度を計算する未知発話尺度計算部手段と、上記未知発話尺度計算部で計算された複数の尺度を元に、未知発話の判定を行なう未知発話判定手段とを備えたことを特徴とする。
【0009】
上記構成によれば、未知発話の判定において、複数の観点から入力音声が未知発話である可能性を判断することが可能となり、高い未知発話の検出性能を示すことが可能となる。
【0010】
また、上記第1の発明の未知発話検出装置は、上記未知発話尺度計算手段において、上記単語レベルマッチング手段により得られた単語のゆう度と、上記サブワードレベルマッチング手段により得られたサブワード連鎖ゆう度の差に基づいて計算された値を含むことが望ましい。
【0011】
上記構成によれば、上記サブワード連鎖ゆう度による上記単語ゆう度の補正効果が得られ、高い未知発話検出性能が得られる。
【0012】
また、上記第1の発明の未知発話検出装置は、上記未知発話尺度計算手段において、上記単語レベルマッチング手段により得られた1位候補の単語モデルの音響的特徴と、上記サブワードレベルマッチング手段により得られたサブワード連鎖モデルの音響的特徴の、両者の類似性に基づいて計算された値を含むことが望ましい。
【0013】
上記構成によれば、2つのモデルの音響的特徴の類似性に着目した未知発話の判定が可能となり、高い未知発話検出性能が得られる。
【0014】
また、上記第1の発明の未知発話検出装置は、上記未知発話尺度計算手段において、上記単語レベルマッチング手段により得られた1位候補の単語のゆう度と、下位候補の単語のゆう度の差に基づいて計算された値を含むことが望ましい。
【0015】
上記構成によれば、未知発話の認識時には単語レベルマッチング部では、誤った候補が類似した、ゆう度で得られるという特徴をモデル化することが可能となり、高い未知発話検出性能が得られる。
【0016】
また、上記第1の発明の未知発話検出装置は、上記未知発話尺度計算手段において、上記単語レベルマッチング手段により得られた1位候補の単語の音響的特徴と、下位候補の単語の音響的特徴の、両者の類似性に基づいて計算された値を含むことが望ましい。
【0017】
上記構成によれば、候補単語のモデル間の音響的類似性に着目した未知発話の判定が可能となり、高い未知発話検出性能が得られる。
【0018】
また、上記第2の発明の音声認識装置は、入力された音声を、認識辞書に登録されている語彙に対応するモデルによって照合を行なって認識する音声認識装置であって、上記未知発話検出装置を塔載し、上記未知発話検出装置の出力結果を勘案して認識結果の出力を行なうことを特徴とする。
【0019】
上記構成によれば、音声認識装置は、どのような入力音声に対しても常に認識辞書内の語彙のいずれか1つを出力するのではなく、発話内容が認識辞書に含まれないものであれば、これを利用者に伝えることが可能となり、音声認識装置を塔載した様々な音声認識インタフェースにおいて、利用者にとってより判り易いインタフェースを提供することを可能とする。
【0020】
【発明の実施の形態】
以下、本発明の実施の形態について、図を参照して説明する。
【0021】
(実施の形態1)
図1は、本実施の形態における未知発話検出装置のブロック図を示したものである。図1において、1は入力音声をA/D変換し特徴パラメータの時系列に変換する音響分析部である。2は入力音声の特徴パラメータとのマッチングに用いられる、標準的な音声の音声片を格納した音声片パタン格納部である。
【0022】
ここで音声片とは、音声の母音区間の後半部分とこれに後続する子音区間の前半部分を連接したVCパタン、および子音区間の後半部分とこれに後続する母音区間の前半部分を連接したCVパタンの集合を意味している。ただし音声片は、この他に日本語をローマ字標記した場合のアルファベット1文字1文字にほぼ相当する音素の集合、日本語をひらかな標記した時のひらかな1文字1文字にほぼ相当するモーラの集合、複数のモーラの連鎖を意味するサブワードの集合、さらにこれらの集合の混合集合であってもよい。
【0023】
図1における3は、上記音声片を連結して音声認識語彙の単語パタンを合成するための規則が格納された、単語辞書格納部である。4は特徴パラメータの時系列で表現された入力音声と、上記合成された単語パタンを比較し、その類似性に対応する、ゆう度を各単語ごとに求める単語マッチング部である。
【0024】
5は音声片どうしを任意に結合する場合における、結合の自然さを連続値で表現する遷移確率が格納された遷移確率格納部である。本実施の形態では、遷移確率として音素の2gram確率を用いる。音素の2gram確率とは、先行する音素 x の後に、音素 y が接続する確率 P(y|x) を意味するもので、多数の日本語テキストデータなどを用いて事前に求めておく。ただし遷移確率は、これ以外にモーラの2gram確率、サブワードの2gram確率、あるいはこれらの混合の2gram確率であってもよく、また2gram確率以外にも、3gram確率などであってもよい。
【0025】
図1における6は、上記音声片パタンを任意に結合してできるパタンと、特徴パラメータの時系列として表現された入力音声とのゆう度を、上記遷移確率を考慮して計算し、得られた最大ゆう度を参照ゆう度とする音声系列タマッチング部である。
【0026】
7は上記単語マッチング部で計算された各単語ごとのゆう度のうち、最も高い値を得た単語(1位候補)と次に高い値を得た単語(2位候補)のゆう度の差を単語の長さで正規化して計算する候補間スコア差計算部である。
【0027】
8は1位候補と2位候補の音響的な類似性を求めるため、1位候補の音素系列と2位候補の音素系列の系列間の距離を計算する、候補音素系列間類似度計算部である。
【0028】
9は1位候補のゆう度と、上記音声系列マッチング部で計算された参照尤度との差を単語の長さで正規化して計算する、候補・音声系列スコア差計算部である。
【0029】
10は、1位候補と、上記音声系列マッチング部によって最適系列とされた系列の音響的な類似性を、各音素系列間の距離として計算する候補・音声系列・音素系列間類似度計算部である。
【0030】
11は、上記、候補間スコア差計算部、候補・音素系列間類似度計算部、候補・音声系列スコア差計算部、候補・音声系列・音素系列間類似度計算部で求められた各値を総合して、入力音声が未知発話であるか否かを判定する未知発話判定部である。
【0031】
なお、本実施の形態においては、未知発話判定部で用いる尺度として、上記4つの尺度を挙げたが、これ以外にも、各単語候補のゆう度そのものやその分布、また単語区間内での局所スコアの変動量、単語を構成する音素の持続時間情報などの尺度も併用することも可能である。また、複数の尺度を元に未知発話を判定する方法として、本実施の形態では事前に多数の認識結果の事例を用いて求めた線型判別式を利用する。しかしこれ以外にも、ニューラルネットワーク、決定木、SVM(サポート・ベクトル・マシン)などいわゆる学習機械の利用も有効である。
【0032】
次に、本実施の形態における未知発話検出の処理動作を説明する。入力された音声は、まず音声分析部において、A/D変換された後に分析され、10m秒ごとに LPCベクトルに変換される。LPCベクトルは、音声の短時間スペクトルのスペクトル包絡を意味するパラメータであり、音声の音韻的特徴をよく表わすパラメータとして利用されるものである。通常の音声認識法においては、入力音声から一定時間ごとに得られた LPCベクトルの時系列を入力音声の特徴ベクトルとして、あらかじめ求めておいた単語モデルとマッチングさせて、単語ごとのゆう度と呼ばれるスコアを求める。
【0033】
本実施の形態においては、単語モデルを音声片パタンと単語辞書を用いて作成する。すなわち、単語辞書格納部に格納された単語パタンを合成するための音声片の連接規則に基づいて、音声片パタン格納部に格納された音声片パタンを連接して単語パタンを構築する。図2には、本実施の形態で用いるCV・VCパタンと呼ばれる音声片パタンを連接して、単語パタン「はちのへ」を合成するイメージを図示する。
【0034】
なお、音声片パタンには、各音声片のLPCベクトルの標準的な分布(正規分布を仮定)を示すパラメータが時系列で格納されている。また、近年はHMM(隠れマルコフモデル)と呼ばれる遷移ネットワークが、音声認識のためのモデルとしてしばしば用いられている。HMMモデルを用いる場合においても、音声片パタン格納部2には音声片パタンを表現するHMMモデルを格納し、単語辞書格納部3においてHMMモデルどうしの遷移に関する規則を定義することによって、単語のHMMモデルを構築することが可能である。
【0035】
入力音声の特徴パラメータ時系列は、単語マッチング部4において単語パタンと比較され、単語辞書格納部3に定義された全単語、あるいは一定のゆう度のビームの中に残った上位候補単語に対するゆう度が計算され、ゆう度の高いものから順にソートされる。図3において、ゆう度順でソートされた単語の出力例を示す。
【0036】
またこれと並行して、音声系列マッチング部6において、音声片の任意系列のマッチングも行なわれる。これは、音声片を一定の制約の下で自由に連接して、最も入力音声に近い音声片系列とそのゆう度を計算する。この時音声片どうしの連接において何らの制約も加えないと、計算結果はおよそ非日本語的な系列となり、そのゆう度も充分意味のある値とは言えなくなる。そこで最適音声片系列の探索過程において、音声片の選択と接続のコストとして遷移確率格納部3に格納された音素2gram確率を用いる。音素2gram確率については、認識タスクと同タスクの大量の日本語テキストを音素系列に変換し、これを元に計算しておいたものを用いる。
【0037】
図4において、音素2gram確率の一例として、先行音素 /k/ の後に5つの母音 /a/,/i/,/u/,/e/,/o/ がそれぞれ後続する確率を例示する。この例の場合では、子音/k/の後に後続しやすい母音は /a/、次に /i/であることが示されている。音声系列マッチング部6では、連接された音声片パタンによるゆう度と、上記音素2gram確率の対数和によって得られる遷移ゆう度を重み付けで加算した値を求め、これが最も高い値となる系列採用する。
【0038】
図5に 音素2gram確率から 系列 /kobajasi/に対する遷移ゆう度を求める例を示す。また図6において、遷移ゆう度を導入することによる効果を示す一例として、「コバヤシ」という入力音声に対する、音声系列マッチンング部の出力する音声系列とゆう度を示す。この図にあるように、遷移ゆう度を用いない場合は /pobaeasii/という「コバヤシ」とは大きくかけ離れた系列の方が、より類似する /obajasi/より高いパタンゆう度を得ているが、遷移ゆう度を考慮した合計ゆう度を用いることにより、「コバヤシ」により近い /obajasi/の方が選択される。
【0039】
以上により、単語辞書格納部に定義された単語ごとの認識ゆう度と、参照ゆう度およびその時の音声系列が得られるが、次にこれを元に未知発話判定のための種々の尺度の計算を行なう。
【0040】
まず候補間スコア差計算部7では、単語マッチング部で得られたゆう度のうち、最も高いゆう度(1位候補のゆう度)とその次に高いゆう度(2位候補のゆう度)のゆう度差を単語の時間長で割った値を計算する。例えば図3に示した結果の場合、「コバヤシ」と「ハヤシ」のゆう度の差を単語長で正規化して、6.9を得る。
【0041】
候補音素系列間類似度計算部8では、1位候補の音素系列と2位候補の音素系列についてその類似度を計算する。ここで系列間の類似度は、編集距離を2つの系列の系列長の和で正規化した値を用いる。編集距離とは、一方の系列を編集して他方の系列に変換する際に、1要素置き換え(置換)、1要素削除(脱落)、1要素追加(挿入)に要するコストをそれぞれ1として、最小のコストで編集した場合のコストの総和を意味する。図7では、2つの音素系列 /uenoeki/と /jenokii/ に対する編集距離の求め方を例示する。このような方法に従って候補音素系列間類似度計算部は、例えば図3のような結果の場合、「コバヤシ(/kobajasi/)」と「ハヤシ(/hajasi/)」の編集距離3を各音素系列長の和14で割った 0.21という値を出力する。なお、系列間類似度として本実施の形態では上記編集距離に基づく値を用いるものとしたが、これ以外にも音素間の音響的類似性を考慮した系列間距離などを利用することも有効である。
【0042】
候補・音声系列スコア差計算部では、単語マッチング部で得た1位候補のゆう度と、音声系列マッチング部で得た参照ゆう度の差を、単語の時間長で正規化した値を計算する。例えば図3および図6に示した例では、1位候補の認識ゆう度 2055と参照ゆう度 2014の差を、単語時間長で正規化した 0.87を得る。
【0043】
また候補・音声系列・音素系列類似度計算部では、単語マッチング部で得られた1位候補の音素系列と、音声系列マッチング部で得られた最適な音素系列の、系列間の正規化した編集距離を計算する。例えば、図3および図6に示した例では、音素系列 /kobajasi/と/obajasi/の編集距離を系列長の和で正規化して 0.07を得る。
【0044】
以上のようにして得られた 4つの尺度に対して、未登録語判定部ではこれらの尺度を適切に重み付けした和を求め、その大小を閾値で判定して未登録語発声か否かの判定を行なう。すなわち、図8に示した式に従って判定を行なう。図8において CM1 〜 CM4 は、それぞれ候補間スコア差、候補音素系列間類似度、候補・音声系列スコア差、候補・音声系列・音素系列間類似度を意味しており、また、w1〜w2は各尺度に対する重み付け、θは閾値を意味している。
【0045】
また、ここで用いる各尺度に対する重み付けは、統計的手法によって事前に求めておく。すなわち、登録語発声および未登録語発声の多数の事例に対して、上記4つの尺度をそれぞれ求め、4つの尺度と登録語発声、未登録語発声の関係を線型判別法によって分析し、各尺度に対する重みを求めている。
【0046】
(効果)
次に、本実施の形態に基づく未知発話の検出法の効果を、従来手法と比較して実験的に示す。
【0047】
一般に、このような検出問題には2種類のエラーが存在する。すなわち、検出漏れエラーと、検出されてはならないものが検出される湧き出しエラーである。この両者のエラーはトレードオフの関係にあり、一方のエラーを減らそうとすれば、他方が増えることが知られている。そのためこのような問題に対しては、図9に示したような2つの尺度による比較を行なう。ここにおいて 未知発話再現率が高いということは検出漏れエラーが少ないことを意味し、未知発話適合率が高いということは湧き出しエラーが少ないことを意味する。この両者は共に高いことが望ましい。
【0048】
以下に示す実験では、100語の未知人名がある場合において判定閾値を増減させた場合に、各手法による未知発話再現率と未知発話適合率の変化を調べる。比較する手法は次の3つである。
【0049】
(1) 認識ゆう度と参照ゆう度の差のみで未知発話判定する
(音声片の連接について制約なし)
(2) 認識ゆう度と参照ゆう度の差のみで未知発話判定する
(音声片の連接について 遷移確率を導入する)
(3) 上記実施の形態に述べた 4つの尺度を併用して未知発話判定する
図10にこの結果を示す。図10では、横軸に未知発話適合率を、縦軸に未知発話再現率を取っている。この両者は高いほど良いので、図中の曲線は右上に行くほど良い検出性能であると言うことができる。この結果から、従来技術のように認識ゆう度と参照ゆう度のみを用いて未知発話の判定を行なうより、4つの尺度を併用して未知発話の判定を行なう法が高い検出性能となることが示される。
【0050】
(実施の形態2)
本実施の形態は、上記第1の実施の形態における未知発話検出部を塔載した音声認識装置に関するものである。本実施の形態では、従来の音声認識結果と共に未知発話の検出結果を同時に用いることで最適な応答結果を返しことにより、利用者にとってより使い易い音声認識インタフェース機能を提供する機能を有するものである。
【0051】
図11は、上記図1に示す未知発話検出装置を塔載した音声認識装置のブロック図である。未知発話検出装置を構成する、音声分析部20、音声片パタン格納部21、単語辞書格納部22、単語マッチング部23、遷移確率格納部24、音声系列マッチング部25、候補スコア差計算部26、候補・音素系列間類似度計算部27、候補・音声系列スコア差計算部28、候補・音声系列・音素系列類似度計算部29、および未知発話判定部30は、上記第1の実施の形態における音声分析部1、音声片パタン格納部2、単語辞書格納部3、単語マッチング部4、遷移確率格納部5、音声系列マッチング部6、候補スコア差計算部7、候補・音素系列間類似度計算部8、候補・音声系列スコア差計算部9、候補・音声系列・音素系列類似度計算部10、および未知発話判定部11と同じ構成をしている。
【0052】
ただし未知発話検出部30は、単に未知発話判定結果を 正否で出力するのではなく、未知発話らしさを示す連続値を出力する。さらに本実施の形態では、上記単語マッチング部23と上記未知発話検出部30の双方の結果を勘案して認識結果を出力する認識結果出力部31が含まれる。なお、音声分析部20、音声片パタン格納部21、単語辞書格納部22、単語マッチング部23による認識結果出力部31による構成は、通常の音声認識装置と同様の構成をなす。
【0053】
本実施の形態においては、入力音声は上記第1の実施の形態と同様のステップによって、未知発話検出部30から、発話内容についての既知語らしさあるいは未知発話らしさに関する結果を得る。これと同時に、単語マッチング部23から得られる単語ごとにゆう度が付与され、さらにゆう度の大きさでソートされた結果から、認識結果候補が得られる。
【0054】
認識結果出力部31では、上記認識結果候補と未知発話検出部で得られた未知発話らしさに関する結果とを勘案して、最適な応答を出力する。
【0055】
すなわち認識結果出力部では、未知発話らしさが高い場合には、認識結果候補として得られた結果を全て棄却し、棄却されたことを意味する結果を出力する。また未知発話らしさが中程度に高い場合には、認識結果候補のうち上位から1つ以上の候補を出力するとともに、その結果が充分信頼できないものであることを意味する信号も付与する。さらに未知発話らしさが充分低い場合には、認識結果候補のうちから上位1個以上の候補を出力する。
【0056】
以上のような構成により、例えばテレビ受像機において本実施の形態の音声認識装置を塔載して、番組選択を音声入力インタフェースによって行なうようにした場合次のような効果が得られる。すなわち従来であれば、放映されていない番組名や受信不可能な放送局名など、音声認識のための認識辞書に登録されていない単語を利用者が発声した場合、従来であれば単に認識誤りを起こし、利用者に何と発声すればよいか判らないといった不信感を与えていた。
【0057】
しかし、本実施の形態の音声認識装置により、このような未知の単語を利用者が発声した場合には、そのような番組名あるいは放送局名が存在しないことを利用者に知らせることが可能となる。また、認識結果が曖昧である場合も、従来であれば曖昧なまま処理を続行し、利用者の望まない番組に映像を切り替えるといったことが起こり得たが、本実施の形態により認識結果が曖昧である旨利用者に通達し、確認手段を提示してから、番組を切り替えるといった処理が可能となり、音声認識に起こりがちな認識誤りによる問題を効率的に回避することが可能となる。
【0058】
同様の効果は、テレビ受像機における音声認識装置のみならず、例えばカーナビゲーションシステムにおける目的地検索機能や、音声による自動電話番号案内システムなどでの応用が可能である。
【0059】
【発明の効果】
以上のように本発明の第1の発明は、音声認識装置における未知発話の検出手法として、
単一の判定尺度のみではなく、複数の判定尺度を併用することにより、高い確度で未知発話を検出するという効果を有する。
【0060】
また上記第2の発明は、認識結果の出力を、上記第1の発明による未知発話検出装置による結果を勘案して出力することにより、より利用者に使いよい音声認識インタフェースを提供するという効果を有する。
【図面の簡単な説明】
【図1】本発明の第1の実施の形態における未知発話検出装置のブロック図
【図2】同実施形態における、音声片から単語パタンを構築する例を示す図
【図3】同実施形態における、単語マッチング部の出力する単語とゆう度のリストの出力例を示す図
【図4】同実施形態における、音素2gram確率の例を示す図
【図5】同実施形態における、音素2gram確率を元に計算される単語内の音素遷移ゆう度の例を示す図
【図6】同実施形態における、参照ゆう度の計算において遷移ゆう度を導入する効果を示す図
【図7】同実施形態における、系列間の編集距離を求める方法を示す図
【図8】同実施形態における、4つの未知発話に関する尺度から未知発話の判定を行うルールを示す式の図
【図9】同実施形態における、従来手法と比較した効果を示すための評価尺度を示す式の図
【図10】同実施形態における、従来手法と比較した効果を示す実験結果を示す図
【図11】本発明の第2の実施の形態における音声認識装置のブロック図
【符号の説明】
1,20 音声分析部
2,21 音声片パタン格納部
3,22 単語辞書格納部
4,23 単語マッチング部
5,24 遷移確率格納部
6,25 音声系列マッチング部
7,26 候補スコア差計算部
8,27 候補・音素系列類似度計算部
9,28 候補・音声系列スコア差計算部
10,29 候補・音声系列・音素系列類似度計算部
11,30 未知発話判定部
31 認識結果出力部
Claims (3)
- 入力された音声を分析して特徴パラメータの系列に変換する音声分析手段と、
認識対象語彙を規定する認識辞書格納手段と、
音声の標準的パタンをモデル化した音声モデル格納手段と、
認識辞書に規定された語彙のモデルを、前記音声モデル格納手段によって格納されたモデルを用いて構築し、入力音声との照合を行なう単語レベルマッチング手段と、
サブワード間の遷移確率を規定するサブワード遷移確率格納手段と、
前記音声モデル格納手段によって格納された音声モデルを、前記サブワード遷移確率格納手段によって格納されたサブワード遷移確率を勘案して連結し、入力音声との照合を行なうサブワードレベルマッチング手段と、
(1) 前記単語レベルマッチング手段により得られた単語のゆう度と、前記サブワードレベルマッチング手段により得られたサブワード連鎖ゆう度の差に基づいて計算された値である第1の未知発話尺度と、
(2) 前記単語レベルマッチング手段により得られた 1 位候補の単語の音響的特徴と、前記サブワードレベルマッチング手段により得られたサブワード連鎖の音響的特徴の、両者の類似性に基づいて計算された値である第2の未知発話尺度と、
(3) 前記単語レベルマッチング手段により得られた 1 位候補の単語のゆう度と、下位候補の単語のゆう度の差に基づいて計算された値である第3の未知発話尺度と、
(4) 前記単語レベルマッチング手段により得られた 1 位候補の単語の音響的特徴と、下位候補の単語の音響的特徴の、両者の類似性に基づいて計算された値である第4の未知発話尺度と、
を計算する未知発話尺度計算部手段と、
前記未知発話尺度計算部で計算された前記4つの未知発話尺度それぞれに対して、統計手法により求めた重みを掛けたものを加算した値が、所定閾値を満たしているかどうかに基づき、未知発話の判定を行なう未知発話判定手段とを備えたことを特徴とする音声認識用未知発話検出装置。 - 入力された音声を分析して特徴パラメータの系列に変換する音声分析手段と、
認識対象語彙を規定する認識辞書格納手段と、
音声の標準的パタンをモデル化した音声モデル格納手段と、
認識辞書に規定された語彙のモデルを、前記音声モデル格納手段によって格納されたモデルを用いて構築し、入力音声との照合を行なう単語レベルマッチング手段と、
サブワード間の遷移確率を規定するサブワード遷移確率格納手段と、
前記音声モデル格納手段によって格納された音声モデルを、前記サブワード遷移確率格納手段によって格納されたサブワード遷移確率を勘案して連結し、入力音声との照合を行なうサブワードレベルマッチング手段と、
(1) 前記単語レベルマッチング手段により得られた単語のゆう度と、前記サブワードレベルマッチング手段により得られたサブワード連鎖ゆう度の差に基づいて計算された値である第1の未知発話尺度と、
(2) 前記単語レベルマッチング手段により得られた 1 位候補の単語の音響的特徴と、前記サブワードレベルマッチング手段により得られたサブワード連鎖の音響的特徴の、両者の類似性に基づいて計算された値である第2の未知発話尺度と、
(3) 前記単語レベルマッチング手段により得られた 1 位候補の単語のゆう度と、下位候補の単語のゆう度の差に基づいて計算された値である第3の未知発話尺度と、
(4) 前記単語レベルマッチング手段により得られた 1 位候補の単語の音響的特徴と、下位候補の単語の音響的特徴の、両者の類似性に基づいて計算された値である第4の未知発話尺度と、
を計算する未知発話尺度計算部手段と、
前記未知発話尺度計算部で計算された前記4つの未知発話尺度それぞれに対して、統計 手法により求めた重みを掛けたものを加算した値が、所定閾値を満たしているかどうかに基づき、未知発話らしさを示す連続値を出力する未知発話判定手段と、
前記未知発話判定手段の出力結果に基づき、
前記未知発話らしさが高いときは、認識結果候補として得られた結果を棄却し、棄却されたことを意味する結果を出力し、
前記未知発話らしさが中程度のときは、認識結果候補のうち少なくとも上位1つの候補を出力するとともに、前記少なくとも上位 1 つの候補の出力が充分信頼できないものを意味する結果を出力し、
前記未知発話らしさが低いときは、認識結果候補のうち少なくとも上位1つの候補を出力する認識結果出力部と、を備えたことを特徴とする音声認識用未知発話検出装置。 - 入力された音声を分析して特徴パラメータの系列に変換する音声分析手段と、
認識対象語彙を規定する認識辞書格納手段と、
音声の標準的パタンをモデル化した音声モデル格納手段と、
認識辞書に規定された語彙のモデルを、前記音声モデル格納手段によって格納されたモデルを用いて構築し、入力音声との照合を行なう単語レベルマッチング手段と、
サブワード間の遷移確率を規定するサブワード遷移確率格納手段と、
前記音声モデル格納手段によって格納された音声モデルを、前記サブワード遷移確率格納手段によって格納されたサブワード遷移確率を勘案して連結し、入力音声との照合を行なうサブワードレベルマッチング手段と、
(1) 前記単語レベルマッチング手段により得られた単語のゆう度と、前記サブワードレベルマッチング手段により得られたサブワード連鎖ゆう度の差に基づいて計算された値である第1の未知発話尺度と、
(2) 前記単語レベルマッチング手段により得られた 1 位候補の単語の音響的特徴と、前記サブワードレベルマッチング手段により得られたサブワード連鎖の音響的特徴の、両者の類似性に基づいて計算された値である第2の未知発話尺度と、
(3) 前記単語レベルマッチング手段により得られた 1 位候補の単語のゆう度と、下位候補の単語のゆう度の差に基づいて計算された値である第3の未知発話尺度と、
(4) 前記単語レベルマッチング手段により得られた 1 位候補の単語の音響的特徴と、下位候補の単語の音響的特徴の、両者の類似性に基づいて計算された値である第4の未知発話尺度と、のうち、前記第1の未知発話尺度と、前記第2の未知発話尺度から前記第4の未知発話尺度までの少なくともいずれか1つの未知発話尺度と、を計算する未知発話尺度計算部手段と、
前記未知発話尺度計算部で計算された前記未知発話尺度それぞれに対して、統計手法により求めた重みを掛けたものを加算した値が、所定閾値を満たしているかどうかに基づき、未知発話の判定を行なう未知発話判定手段とを備えたことを特徴とする音声認識用未知発話検出装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002342011A JP4259100B2 (ja) | 2002-11-26 | 2002-11-26 | 音声認識用未知発話検出装置及び音声認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002342011A JP4259100B2 (ja) | 2002-11-26 | 2002-11-26 | 音声認識用未知発話検出装置及び音声認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004177551A JP2004177551A (ja) | 2004-06-24 |
JP4259100B2 true JP4259100B2 (ja) | 2009-04-30 |
Family
ID=32704189
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002342011A Expired - Fee Related JP4259100B2 (ja) | 2002-11-26 | 2002-11-26 | 音声認識用未知発話検出装置及び音声認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4259100B2 (ja) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4511274B2 (ja) * | 2004-07-29 | 2010-07-28 | 三菱電機株式会社 | 音声データ検索装置 |
JP4610451B2 (ja) * | 2005-09-09 | 2011-01-12 | 株式会社エヌ・ティ・ティ・データ | 音声認識装置及びプログラム |
JP5467043B2 (ja) * | 2008-06-06 | 2014-04-09 | 株式会社レイトロン | 音声認識装置、音声認識方法および電子機器 |
JP5068225B2 (ja) * | 2008-06-30 | 2012-11-07 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 音声ファイルの検索システム、方法及びプログラム |
JP5590549B2 (ja) * | 2010-02-23 | 2014-09-17 | 国立大学法人豊橋技術科学大学 | 音声検索装置および音声検索方法 |
JP6724511B2 (ja) * | 2016-04-12 | 2020-07-15 | 富士通株式会社 | 音声認識装置、音声認識方法および音声認識プログラム |
JP7040449B2 (ja) | 2016-09-09 | 2022-03-23 | ソニーグループ株式会社 | 音声処理装置、情報処理装置、音声処理方法および情報処理方法 |
JP7102710B2 (ja) * | 2017-11-22 | 2022-07-20 | 富士通株式会社 | 情報生成プログラム、単語抽出プログラム、情報処理装置、情報生成方法及び単語抽出方法 |
KR20210132855A (ko) | 2020-04-28 | 2021-11-05 | 삼성전자주식회사 | 음성 처리 방법 및 장치 |
-
2002
- 2002-11-26 JP JP2002342011A patent/JP4259100B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2004177551A (ja) | 2004-06-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6188831B2 (ja) | 音声検索装置および音声検索方法 | |
Zissman et al. | Automatic language identification | |
JP5282737B2 (ja) | 音声認識装置および音声認識方法 | |
US9646605B2 (en) | False alarm reduction in speech recognition systems using contextual information | |
JP4301102B2 (ja) | 音声処理装置および音声処理方法、プログラム、並びに記録媒体 | |
KR100679044B1 (ko) | 사용자 적응형 음성 인식 방법 및 장치 | |
US6910012B2 (en) | Method and system for speech recognition using phonetically similar word alternatives | |
US20180137109A1 (en) | Methodology for automatic multilingual speech recognition | |
EP2048655B1 (en) | Context sensitive multi-stage speech recognition | |
US20020052742A1 (en) | Method and apparatus for generating and displaying N-best alternatives in a speech recognition system | |
US20130289987A1 (en) | Negative Example (Anti-Word) Based Performance Improvement For Speech Recognition | |
Itoh et al. | N-best entropy based data selection for acoustic modeling | |
JP4769098B2 (ja) | 音声認識信頼度推定装置、その方法、およびプログラム | |
JP4259100B2 (ja) | 音声認識用未知発話検出装置及び音声認識装置 | |
Kou et al. | Fix it where it fails: Pronunciation learning by mining error corrections from speech logs | |
Navrátil | Automatic language identification | |
JP2001312293A (ja) | 音声認識方法およびその装置、並びにコンピュータ読み取り可能な記憶媒体 | |
JPH08241096A (ja) | 音声認識方法 | |
EP2948943B1 (en) | False alarm reduction in speech recognition systems using contextual information | |
JP2001013988A (ja) | 音声認識方法及び装置 | |
Pandey et al. | Fusion of spectral and prosodic information using combined error optimization for keyword spotting | |
JP2001147698A (ja) | 音声認識用疑似単語生成方法及び音声認識装置 | |
JP3917880B2 (ja) | 音声認識装置、音声認識方法及び音声認識プログラム | |
Heracleous et al. | A novel approach for modeling non-keyword intervals in a keyword spotter exploiting acoustic similarities of languages | |
JPH04233599A (ja) | 音声認識方法及び装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050825 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20050913 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20071116 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20071127 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080121 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090120 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090202 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120220 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120220 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |