JP2999726B2

JP2999726B2 - 連続音声認識装置

Info

Publication number: JP2999726B2
Application number: JP8246012A
Authority: JP
Inventors: 徹清水; 博史山本; 芳典匂坂
Original assignee: 株式会社エイ・ティ・アール音声翻訳通信研究所
Priority date: 1996-09-18
Filing date: 1996-09-18
Publication date: 2000-01-17
Anticipated expiration: 2016-09-18
Also published as: JPH1091185A

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、入力される発声音
声文の音声信号に基づいて連続的に音声認識する連続音
声認識装置に関する。

【０００２】

【従来の技術】従来から、本特許出願人は、自然発話の
音声認識を目的として、連続音声認識系（以下、第１の
従来例という。）の開発を進めている（例えば、従来技
術文献１「Nagai,Takami,Sagayama,“The SSS-LR Conti
nuous Speech Recognition System: Integrating SSS-D
erivrd Allopohne Models and a Phoneme-Context-Depe
ndent LR Parser",Proc.of ICSLP92,pp.1511-1514,1992
年」及び従来技術文献２「Shimizu,Monzen,Singer,Mats
unaga,“Time-Synchronous Continuous Speech Recogni
zer Driven by a Context-Free Grammar",Proc.of ICAS
SP95,pp.584-587,1995年」参照。）。この第１の従来例
では、入力される発声音声文の音声信号に基づいて、音
素隠れマルコフモデル（以下、隠れマルコフモデルをＨ
ＭＭという。）と単語辞書を用いて、発声開始からの単
語の履歴及び文法状態を管理しながら、音声認識を行っ
ている。

【０００３】一方、単語グラフを用いた音声認識方法
（以下、第２の従来例という。）が、従来技術文献３
「Ney,Aubert,“A Word Graph Algorithm for Large Vo
cabulary, Continuous Speech Recognition",Proc.of I
CSLP94,pp.1355-1358,1994年」及び従来技術文献４「Wo
odland,Leggetter,Odell,Valtchev,Young,“The 1994 H
TKLarge Vocabulary Speech Recognition System",Pro
c. of ICASSP95,pp.73-76,1995年」において提案されて
いる。

【０００４】この第２の従来例の単語グラフの主たるア
イデアは、音声認識におけるあいまいさが比較的高い音
声信号の領域において単語仮説の候補を処理するという
ことである。この利点は、純粋の音声認識は言語モデル
のアプリケーションとは切り離されていることと、複雑
な言語モデルは、現在認識中の単語に続く公知のステッ
プに適用することができることである。単語仮説の候補
の数は音声認識におけるあいまいさのレベルに対応して
変化する必要がある。良い単語グラフを効率的に構築す
るときの困難さは次の通りである。単語の開始時刻は、
一般的に、先行する単語に依存している。第１の近似に
おいては、この依存性を直前の先行単語に対して制限を
加えることにより、以下に示すようないわゆる単語ペア
近似法を得ている。すなわち、単語のペアとその終了時
刻が与えられたときに、２つの単語の間の単語境界は別
の先行する単語に独立であるということである。この単
語ペア近似法は、本来、複数の文又はｎ個のベスト（最
良）である文を効率的に計算するために導入されてき
た。この単語グラフは、ｎ個のベストを得るアプローチ
の方法（以下、ｎベスト法という。）よりも効率的であ
ると期待されている。この単語グラフを用いた方法で
は、複数の単語仮説を局所的にのみ発生する必要がある
一方、ｎベスト法においては、各局所的な単語仮説の候
補は、ｎ個のベストである文のリストに対して加えるべ
き全体の文を必要としている。

【０００５】しかしながら、第１の従来例においては、
発声開始からの単語の履歴及び文法状態を管理する必要
があるため、間投詞の挿入や、言い淀み、言い直しが頻
繁に生じる自然発話の認識に用いた場合、単語仮説の併
合又は分割に要する計算コストが極めて大きいという問
題点があった。すなわち、音声認識のために必要な処理
量が大きくなって比較的大きな記憶容量を有する記憶装
置が必要となる一方、処理量が大きくなるので処理時間
が長くなるという問題点があった。

【０００６】また、上記第２の従来例の単語ペア近似法
においては、先行単語毎に１つの仮説で代表させるが、
いまだ近似効果は比較的小さい。このため、上記第１の
従来例と同様の問題点が生じる。

【０００７】以上の問題点を解決するために、本出願人
は、特願平７−２３４０４３号の特許出願において、
「入力される発声音声文の音声信号に基づいて上記発声
音声文の単語仮説を検出し尤度を計算することにより、
連続的に音声認識する音声認識手段を備えた連続音声認
識装置において、上記音声認識手段は、終了時刻が等し
く開始時刻が異なる同一の単語の単語仮説に対して、当
該単語の先頭音素環境毎に、発声開始時刻から当該単語
の終了時刻に至る計算された総尤度のうちの最も高い尤
度を有する１つの単語仮説で代表させるように単語仮説
の絞り込みを行うことを特徴とする連続音声認識装
置。」（以下、第３の従来例という。）を提案してい
る。

【０００８】しかしながら、第３の従来例のような連続
音声認識装置における時間同期ビーム探索において、最
尤候補から一定の尤度幅をしきい値として採用する場
合、音響尤度や言語尤度の時間に対する局所的変動に弱
い問題点があった。時間に対する局所的変動を吸収する
ためには、ビーム幅を広くするもしくは尤度の先読みを
する必要がある。しかしながら、広いビーム幅は探索に
要する計算量の増加に直結し、尤度の先読みはアルゴリ
ズムが複雑になったり場合によっては先読みにおける計
算量が多くなったりする可能性があるという問題点があ
った。以下、この問題点について詳述する。

【０００９】例えば第３の従来例における時間同期ビー
ム探索では、以下に示す問題点がある。（ａ）未探索部分の尤度がわからない：ある時刻ｔまで
の尤度が高いことは、文全体の尤度が高いことを保証し
ていない。（ｂ）音素の中間状態でも音素の終端と同様な枝刈りを
行っている：音響モデルのトレーニングは、一音素もし
くは音素列の尤度が最大になるように学習される。従っ
て、音素の中間状態で尤度が最大になるかどうかが保証
されていない。しかし、一定の幅のビームを使用した場
合、音素の中間状態と終端は同じ条件で枝刈りされる。（ｃ）継続時間長の短い音素（単語）の挿入：滞在時間
が短く尤度の低い音素は累積尤度への寄与が少ない。累
積尤度は、滞在時間が長く尤度の高い音素により支配さ
れる。この結果、累積尤度への寄与が少ない「滞在時間
の短く尤度の低い音素」の挿入が頻繁に発生する。

【００１０】これらの問題点を解決する手段として、従
来技術文献５「Ney et al.,“An overview of the phil
ips research system for large vocabulary continuou
s speech recognition",International Jurnal of Patt
ern Recognition and Artificial Intelligence,Vol.8,
No.1,pp.58-59,1994年」において、尤度を先読みする方
法（phoneme look-ahead）（以下、第４の従来例とい
う。）が提案されている。この第４の従来例において
は、１音素分の未探索部分の尤度を考慮し、音素境界で
音素の中間状態より厳しい枝刈りを行う。すなわち、あ
らかじめ１音素分の音響尤度を別に計算しておき、音素
の終端に達した時点で後続する１音素分の尤度を考慮し
第２のビーム探索を行う。

【００１１】しかしながら、第４の従来例においては、
先読みの長さと言語制約が制限される。すなわち、先読
みにおける計算量をあまり大きくすると、先読みに基づ
く枝刈り効果と相殺してしまう。このため、先読みの時
間幅は数フレームに、言語制約は非常に簡単な制約に限
定されるという問題点があった。

【００１２】本発明の目的は以上の問題点を解決し、従
来例に比較して狭いビーム幅で単語仮説の絞り込みを行
うことができ、より小さい計算コストで自然発話の連続
音声認識を行うことができる連続音声認識装置を提供す
ることにある。

【００１３】

【課題を解決するための手段】本発明に係る請求項１記
載の連続音声認識装置は、入力される発声音声文の音声
信号に基づいて上記発声音声文の単語仮説を検出し音響
尤度を計算することにより、連続的に音声認識する音声
認識手段を備えた連続音声認識装置において、上記音声
認識手段は、単語の各音素の時間方向の中央部の音響尤
度を、当該中央部よりも遅延された時刻に移動するよう
に遅延させて、単語仮説の音響尤度を補正することを特
徴とする。

【００１４】また、請求項２記載の連続音声認識装置
は、請求項１記載の連続音声認識装置において、上記音
声認識手段は、終了時刻が等しく開始時刻が異なる同一
の単語の単語仮説に対して、当該単語の先頭音素環境毎
に、発声開始時刻から当該単語の終了時刻に至る計算さ
れた、音響尤度を含む総合尤度のうちの最も高い総合尤
度を有する１つの単語仮説で代表させるように単語仮説
の絞り込みを行うことを特徴とする。

【００１５】

【発明の実施の形態】以下、図面を参照して本発明に係
る実施形態について説明する。図１に本発明に係る一実
施形態の連続音声認識装置のブロック図を示す。本実施
形態の連続音声認識装置は、公知のワン−パス・ビタビ
復号化法を用いて、入力される発声音声文の音声信号の
特徴パラメータに基づいて上記発声音声文の単語仮説を
検出し音響尤度を計算して出力する単語照合部４を備え
た連続音声認識装置において、単語照合部４からバッフ
ァメモリ５を介して出力される、単語仮説に対して、当
該単語の各音素の時間方向の中央部の音響尤度のピーク
を、当該中央部よりも遅延された時刻に移動するように
遅延させて、当該単語仮説の音響尤度を補正する尤度補
正部７と、尤度補正部７から出力される音響尤度を含む
総合尤度を有する単語仮説に基づいて、当該単語の先頭
音素環境毎に、発声開始時刻から当該単語の終了時刻に
至る計算された総合尤度のうちの最も高い尤度を有する
１つの単語仮説で代表させるように単語仮説の絞り込み
を行う単語仮説絞込部６を備えたことを特徴とする。

【００１６】本発明に係る実施形態において用いる尤度
補正部７の尤度補正は、遅延決定（Delayed decision）
のビーム探索と呼ぶことができる。この遅延決定のビー
ム探索は、第４の従来例のような尤度の先読みや、非線
形関数による尤度のマッピングによらずに、すでに探索
を終えた経路の尤度の評価を遅らせることによって、尤
度の局所的変動に対処する。なお、以下の計算におい
て、尤度とは対数尤度を指すものとする。本実施形態に
おいて、各符号を以下のように定義する。（ａ）ｔ：時刻；（ｂ）Ｓ：ビーム探索の経路；（ｃ）ｑ_A（Ｓ，ｔ）：経路Ｓ，時刻ｔにおける音響尤
度；（ｄ）Ｑ_A（Ｓ，ｔ）：経路Ｓ，時刻ｔにおける文頭か
ら累積音響尤度；（ｅ）Ｑ_L（Ｓ，ｔ）：経路Ｓ，時刻ｔにおける文頭か
らの累積言語尤度。

【００１７】ここで、音響尤度は、単語照合部４におい
て音素ＨＭＭメモリ１１内の音素ＨＭＭを参照して計算
される尤度であり、言語尤度は、単語照合部４において
統計的言語モデルメモリ１３内の言語モデルを参照して
計算される尤度である。以上のように定義したとき、一
般に、累積音響尤度は１フレーム毎の音響尤度を足し合
わせることによって次式で求められる。

【００１８】

【数１】Ｑ_A（Ｓ，ｔ）＝Ｑ_A（Ｓ，ｔ−１）＋ｑ
_A（Ｓ，ｔ）

【００１９】そして、ビーム探索に使用する文頭からの
累積総合尤度Ｑ_all（Ｓ，ｔ）は、音響尤度Ｑ_A（Ｓ，
ｔ）と言語尤度Ｑ_L（Ｓ，ｔ）を用いて次式で計算され
る。

【００２０】

【数２】Ｑ_all（Ｓ，ｔ）＝Ｑ_A（Ｓ，ｔ）＋α・Ｑ
_L（Ｓ，ｔ）

【００２１】ここで、定数αは言語尤度の音響尤度に対
する重み係数であり、好ましい実施形態においては、α
＝４．５である。本実施形態における、遅延決定のビー
ム探索では、次式に示すように、上記数２において、Ｑ
_A（Ｓ，ｔ）の代わりにＱ_A（Ｓ，ｔ）から遅延音響尤度
Ｑ_Ad（Ｓ，ｔ）を差し引いた尤度Ｑ_A’（Ｓ，ｔ）を使
用する。すなわち、時刻ｔ−１では、図３及び次の数３
に示すように、Ｑ_A（Ｓ，ｔ−１）の代わりにＱ_A（Ｓ，
ｔ−１）から遅延音響尤度Ｑ_Ad（Ｓ，ｔ−１）を差し引
いた尤度Ｑ_A’（Ｓ，ｔ−１）を使用する。

【００２２】

【数３】Ｑ_A’（Ｓ，ｔ）＝Ｑ_A（Ｓ，ｔ）−Ｑ_Ad（Ｓ，
ｔ）

【００２３】ここで、上記数３の右辺の第２項の尤度Ｑ
_Ad（Ｓ，ｔ）は次式で計算される。

【００２４】

【数４】Ｄ＝Ｑ_Ad（Ｓ，ｔ−１）＋ｑ_A（Ｓ，ｔ）

【数５】Ｑ_Ad（Ｓ，ｔ）＝Ｆ（Ｄ）・Ｄ

【００２５】上記数３を書き換えると、上記数１を参照
して書き換えると、次式を得る。

【００２６】

【数６】Ｑ_A’（Ｓ，ｔ）＝Ｑ_A’（Ｓ，ｔ−１）＋
ｑ_A’（Ｓ，ｔ）

【００２７】ここで、尤度ｑ_A’（Ｓ，ｔ）を次式によ
り決定する。

【００２８】

【数７】ｑ_A’（Ｓ，ｔ）＝ｆ（ｘ）＝ｆ（ｑ_A（Ｓ，ｔ）＋Ｑ_A（Ｓ，ｔ−１）−Ｑ_A’
（Ｓ，ｔ−１）

【００２９】ここで、上記数７における｛Ｑ_A(Ｓ，ｔ−
１)−Ｑ_A’(Ｓ，ｔ−１)｝は、Ｑ_Ad（Ｓ，ｔ−１）であ
り、第３の従来例と比較して１時刻前の過小評価分であ
り、このデータは、尤度補正部７に接続される過小評価
尤度メモリ１４に順次記憶されて、次の時刻ｔにおける
音響尤度を補正して総合尤度を計算するために用いられ
る。従って、本実施形態においては、尤度補正部７は、
時刻（ｔ−１）において、各単語仮説に対して、１時刻
前の過小評価分データである上記数７における｛Ｑ
_A(Ｓ，ｔ−１)−Ｑ_A’(Ｓ，ｔ−１)｝を計算して、過小
評価尤度メモリ１４に記憶し、次いで、時刻ｔにおい
て、上記数６と上記数７とを用いて、過小評価するよう
に補正された音響尤度Ｑ_A’（Ｓ，ｔ）を計算し、次い
で、上記数２を書き換えた次の数８とを用いて、累積尤
度である総合尤度Ｑ’_all（Ｓ，ｔ）を計算し、当該計
算された総合尤度Ｑ’_all（Ｓ，ｔ）を有する単語仮説
をバッファメモリ５を介して単語仮説絞込部６に出力す
る。

【００３０】

【数８】Ｑ’_all（Ｓ，ｔ）＝Ｑ_A’（Ｓ，ｔ）＋α・Ｑ
_L（Ｓ，ｔ）

【００３１】なお、上記数７において、関数ｆ（ｘ）
は、上記尤度ｘに対する遅延割合を求める第１の関数で
あり、その一例を図５で図示した。図５から明らかなよ
うに、関数ｘは、ｘが増加するにつれて、概ね、関数ｆ
（ｘ）の傾斜を小さくするように変化する関数となって
いる。また、上記数５における関数Ｆ（Ｄ）は上記第１
の関数に関連し、尤度Ｄに対する遅延割合を求める第２
の関数であって、その一例を図６に図示した。

【００３２】音響モデルとして音素ＨＭＭを使用した場
合、図４に示すように、一般に音素境界では尤度が低く
なり音素中心では尤度が高くなる傾向がある。従って、
図５及び図６の関数を使用することにより、図４に示す
ように、音素中心では遅延が大きく、音素境界では遅延
がほぼなくなるように音響尤度を補正する。言い換えれ
ば、単語の各音素の時間方向の中央部の音響尤度のピー
クを、当該中央部よりも遅延された時刻に移動するよう
に遅延（群遅延）させて、単語仮説の音響尤度を補正す
る。この結果、音素中心における音響尤度の全部又は一
部分は音素境界に近い時刻で評価されることになり、第
４の従来例と同様の効果を期待できる。

【００３３】次いで、図１の連続音声認識装置の構成及
び動作について説明する。図１において、音素ＨＭＭメ
モリ１１は、単語照合部４に接続され、音素ＨＭＭを予
め記憶し、当該音素ＨＭＭは、各状態を含んで表され、
各状態はそれぞれ以下の情報を有する。（ａ）状態番号（ｂ）受理可能なコンテキストクラス（ｃ）先行状態、及び後続状態のリスト（ｄ）出力確率密度分布のパラメータ（ｅ）自己遷移確率及び後続状態への遷移確率なお、本実施例において用いる音素ＨＭＭは、各分布が
どの話者に由来するかを特定する必要があるため、所定
の話者混合ＨＭＭを変換して作成する。ここで、出力確
率密度関数は３４次元の対角共分散行列をもつ混合ガウ
ス分布である。

【００３４】また、単語辞書メモリ１２は、単語照合部
４に接続され、単語辞書を予め記憶し、当該単語辞書
は、音素ＨＭＭメモリ１１内の音素ＨＭＭの各単語毎に
シンボルで表した読みを示すシンボル列を格納する。さ
らに、統計的言語モデルメモリ１３は、単語照合部４に
接続され、所定の統計的言語モデルを予め記憶する。こ
こで、統計的言語モデルは、例えば、従来技術文献６
「政瀧浩和ほか，“連続音声認識のための可変長連鎖統
計言語モデル”，電子通信情報学会技術報告，ＳＰ９５
−７３，１９９５年１１月」において開示されている、
時間方向の長さが可変である可変長Ｎ−ｇｒａｍと呼ば
れる言語モデルを使用することができる。当該統計的言
語モデルは、品詞クラスと単語との可変長Ｎ−ｇｒａｍ
であり、次の３種類のクラス間のバイグラムとして表現
する。（ａ）品詞クラス、（ｂ）品詞クラスから分離した単語のクラス、及び、（ｃ）連接単語が結合してできたクラス。

【００３５】図１の連続音声認識装置において、特徴抽
出部２と、単語照合部４と、尤度補正部７と、単語仮説
絞込部６とは、例えば、ＣＰＵを備えたデジタル計算機
で構成される。また、バッファメモリ３，５と、音素Ｈ
ＭＭメモリ１１と、単語辞書メモリ１２と、統計的言語
モデルメモリ１３と、過小評価尤度メモリ１４とは、例
えば、ハードディスクメモリで構成される。

【００３６】図１において、話者の発声音声はマイクロ
ホン１に入力されて音声信号に変換された後、特徴抽出
部２に入力される。特徴抽出部２は、入力された音声信
号をＡ／Ｄ変換した後、例えばＬＰＣ分析を実行し、対
数パワー、１６次ケプストラム係数、Δ対数パワー及び
１６次Δケプストラム係数を含む３４次元の特徴パラメ
ータを抽出する。抽出された特徴パラメータの時系列は
バッファメモリ３を介して単語照合部４に入力される。

【００３７】単語照合部４は、ワン−パス・ビタビ復号
化法を用いて、バッファメモリ３を介して入力される特
徴パラメータのデータに基づいて、音素ＨＭＭメモリ１
１内の音素ＨＭＭと、単語辞書メモリ１２内の単語辞書
と、統計的言語モデルメモリ１３内の統計的言語モデル
とを用いて単語仮説を検出し、音素ＨＭＭに基づいた音
響尤度と、統計的言語モデルに基づいた言語尤度とを計
算して、単語仮説とともに尤度補正部７に出力する。こ
こで、単語照合部４は、各時刻の各ＨＭＭの状態毎に、
単語内の尤度と発声開始からの音響尤度を計算する。音
響尤度及び言語尤度を含む尤度は、単語の識別番号、単
語の開始時刻、先行単語の違い毎に個別にもつ。また、
計算処理量の削減のために、音素ＨＭＭ、単語辞書及び
統計的言語モデルとに基づいて計算される総合尤度のう
ちの低い総合尤度のグリッド仮説を削減する。単語照合
部４は、その結果の単語仮説と総合尤度の情報を発声開
始時刻からの時間情報（具体的には、例えばフレーム番
号）とともに尤度補正部７に出力する。

【００３８】これに応答して、尤度補正部７は、時刻
（ｔ−１）において、各単語仮説に対して、１時刻前の
過小評価分データである上記数７における｛Ｑ_A(Ｓ，ｔ
−１)−Ｑ_A’(Ｓ，ｔ−１)｝を計算して、過小評価尤度
メモリ１４に記憶し、次いで、時刻ｔにおいて、上記数
６と上記数７とを用いて、過小評価するように補正され
た音響尤度Ｑ_A’（Ｓ，ｔ）を計算し、次いで、上記数
８とを用いて、総合尤度Ｑ’_all（Ｓ，ｔ）を計算し、
当該計算された総合尤度Ｑ’_all（Ｓ，ｔ）を有する単
語仮説をバッファメモリ５を介して単語仮説絞込部６に
出力する。

【００３９】単語仮説絞込部６は、尤度補正部７からバ
ッファメモリ５を介して出力される総合尤度を有する単
語仮説に基づいて、終了時刻が等しく開始時刻が異なる
同一の単語の単語仮説に対して、当該単語の先頭音素環
境毎に、発声開始時刻から当該単語の終了時刻に至る計
算された総合尤度のうちの最も高い尤度を有する１つの
単語仮説で代表させるように単語仮説の絞り込みを行っ
た後、絞り込み後のすべての単語仮説の単語列のうち、
最大の総合尤度を有する仮説の単語列を認識結果として
出力する。本実施形態においては、好ましくは、処理す
べき当該単語の先頭音素環境とは、当該単語より先行す
る単語仮説の最終音素と、当該単語の単語仮説の最初の
２つの音素とを含む３つの音素並びをいう。

【００４０】例えば、図２に示すように、（ｉ−１）番
目の単語Ｗ_i-1の次に、音素列ａ₁，ａ₂，…，ａ_nからな
るｉ番目の単語Ｗ_iがくるときに、単語Ｗ_i-1の単語仮説
として６つの仮説Ｗａ，Ｗｂ，Ｗｃ，Ｗｄ，Ｗｅ，Ｗｆ
が存在している。ここで、前者３つの単語仮説Ｗａ，Ｗ
ｂ，Ｗｃの最終音素は／ｘ／であるとし、後者３つの単
語仮説Ｗｄ，Ｗｅ，Ｗｆの最終音素は／ｙ／であるとす
る。終了時刻ｔ_eと先頭音素環境が等しい仮説（図２で
は先頭音素環境が“ｘ／ａ₁／ａ₂”である上から３つの
単語仮説）のうち総合尤度が最も高い仮説（例えば、図
２において１番上の仮説）以外を削除する。なお、上か
ら４番めの仮説は先頭音素環境が違うため、すなわち、
先行する単語仮説の最終音素がｘではなくｙであるの
で、上から４番めの仮説を削除しない。すなわち、先行
する単語仮説の最終音素毎に１つのみ仮説を残す。図２
の例では、最終音素／ｘ／に対して１つの仮説を残し、
最終音素／ｙ／に対して１つの仮説を残す。

【００４１】以上の実施形態においては、当該単語の先
頭音素環境とは、当該単語より先行する単語仮説の最終
音素と、当該単語の単語仮説の最初の２つの音素とを含
む３つの音素並びとして定義されているが、本発明はこ
れに限らず、先行する単語仮説の最終音素と、最終音素
と連続する先行する単語仮説の少なくとも１つの音素と
を含む先行単語仮説の音素列と、当該単語の単語仮説の
最初の音素を含む音素列とを含む音素並びとしてもよ
い。

【００４２】

【実施例】本発明者は、図１の連続音声認識装置の有効
性を確認するために、自然発話データベースを用いて単
語グラフ生成実験を行なった。“トラベル・プランニン
グ”をタスクとした本出願人が所有する音声言語データ
ベース（例えば、従来技術文献７「Morimoto et al.,
“A Speech and Language Database for Speech Transl
ation Research",Proc.of ICSLP94,pp.1791-1794,1994
年」参照。）の「ホテル予約」に関する７対話（対話の
申込者側発声、男性３名及び女性４名、１００発声、９
８３語）を用いた。音響分析は、標本化周波数１２ｋＨ
ｚ、フレーム間隔１０ｍｓｅｃ、ハミング窓２０ｍｓｅ
ｃを用いて行い、ここで、特徴パラメータとして、１〜
１６次ＬＰＣケプストラム、１〜１６次ΔＬＰＣケプス
トラム、ｌｏｇパワー、Δｌｏｇパワーを用いた。４０
１状態で５混合されたＨＭｎｅｔである音響モデルは、
１５０文の朗読音声を用いて学習したモデルを自然発話
約２０発声で話者適応した。また、言語モデルは、延べ
３３０，５１３語を含む８２８対話から７１３クラスの
クラスバイグラムを作成した。テストセットの単語パー
プレキシティは、４９．６である。語彙数は６，６３５
語で、評価データの語彙を全て含んでおり未知語はない
ものとした。さらに、上記数２における言語尤度の音響
尤度に対する重みαは４．５と設定した。

【００４３】当該装置の認識性能を、ビーム幅に対する
単語認識率（word accuracy）とＣＰＵ時間（時間）で
評価した。尤度幅一定のビームで探索を行った場合、ビ
ーム幅を広げるに従って単語認識率は向上するが、ある
程度以上広げると逆に単語認識率が低下する現象が見ら
れる。この現象は、単語仮説の探索のためのビーム幅の
拡大がビームの下限を下げるのではなく上限を押し上げ
るように働いたものと説明できる。従って、本実施例で
は、単語認識率がピークになる付近で比較を行う。

【００４４】図７は、図１の連続音声認識装置の実験結
果であって、ビーム幅に対する単語認識率を示すグラフ
であり、図８は、図１の連続音声認識装置の実験結果で
あって、ビーム幅に対するＣＰＵ計算時間（時間）を示
すグラフである。

【００４５】図７において、ビーム幅が６０から７０ま
でにおける単語認識率を比較すると、尤度補正ありの場
合は尤度補正なしの場合に比較してより狭いビーム幅で
ピークを迎えることがわかる。また、尤度補正なしの特
性曲線を、ビーム幅方向に−２程度シフトすると両者の
特性曲線がほぼ重なることから、当該尤度補正はビーム
幅を２程度狭くするのと同じ効果がある。なお、図８か
ら明らかなように、ビーム幅が同じならば認識時間は尤
度補正のあり／なしに影響を受けないので、尤度補正あ
りは、尤度補正なしに比較して計算時間が少なくて済
み、ここで、計算時間の削減率は約１０％である。

【００４６】以上説明したように、本実施形態によれ
ば、単語仮説に対して、当該単語の各音素の時間方向の
中央部の音響尤度のピークを、当該中央部よりも遅延さ
れた時刻に移動するように遅延させて、当該単語仮説の
音響尤度を補正したので、第３の従来例に比較してより
狭いビーム幅で単語仮説の絞り込みを行うことができ、
より小さい計算コストでかつより高い認識率で自然発話
の連続音声認識を行うことができる。

【００４７】また、本実施形態によれば、終了時刻が等
しく開始時刻が異なる同一の単語の単語仮説に対して、
当該単語の先頭音素環境毎に、発声開始時刻から当該単
語の終了時刻に至る計算された総合尤度のうちの最も高
い総合尤度を有する１つの単語仮説で代表させるように
単語仮説の絞り込みを行う。すなわち、先行単語毎に１
つの単語仮説で代表させる第２の従来例の単語ペア近似
法に比較して、単語の先頭音素の先行音素（つまり、先
行単語の最終音素）が等しいものをひとまとめに扱うた
めに、単語仮説数を削減することができ、近似効果は大
きい。特に、語彙数が増加した場合において削減効果が
大きい。従って、当該連続音声認識装置を、間投詞の挿
入や、言い淀み、言い直しが頻繁に生じる自然発話の認
識に用いた場合であっても、単語仮説の併合又は分割に
要する計算コストは従来例に比較して小さくなる。すな
わち、音声認識のために必要な処理量が小さくなり、そ
れ故、単語照合部４のワーキングメモリ（図示せ
ず。）、バッファメモリ５及び単語仮説絞込部６のワー
キングメモリ（図示せず。）などの音声認識のための記
憶装置において必要な記憶容量は小さくなる一方、処理
量が小さくなるので音声認識のための処理時間を短縮す
ることができる。

【００４８】

【発明の効果】以上詳述したように本発明に係る請求項
１記載の連続音声認識装置によれば、入力される発声音
声文の音声信号に基づいて上記発声音声文の単語仮説を
検出し音響尤度を計算することにより、連続的に音声認
識する音声認識手段を備えた連続音声認識装置におい
て、上記音声認識手段は、単語の各音素の時間方向の中
央部の音響尤度を、当該中央部よりも遅延された時刻に
移動するように遅延させて、単語仮説の音響尤度を補正
する。従って、第３の従来例に比較してより狭いビーム
幅で単語仮説の絞り込みを行うことができ、より小さい
計算コストで、すなわち音声認識のための処理時間を短
縮して、かつより高い認識率で自然発話の連続音声認識
を行うことができる。

【００４９】また、請求項２記載の連続音声認識装置に
おいては、請求項１記載の連続音声認識装置において、
上記音声認識手段は、終了時刻が等しく開始時刻が異な
る同一の単語の単語仮説に対して、当該単語の先頭音素
環境毎に、発声開始時刻から当該単語の終了時刻に至る
計算された、音響尤度を含む総合尤度のうちの最も高い
総合尤度を有する１つの単語仮説で代表させるように単
語仮説の絞り込みを行う。従って、当該連続音声認識装
置を、間投詞の挿入や、言い淀み、言い直しが頻繁に生
じる自然発話の認識に用いた場合であっても、単語仮説
の併合又は分割に要する計算コストは従来例に比較して
小さくなる。すなわち、音声認識のために必要な処理量
が小さくなり、それ故、音声認識のための記憶装置にお
いて必要な記憶容量は小さくなる一方、処理量が小さく
なるので音声認識のための処理時間を短縮することがで
きる。

【図面の簡単な説明】

【図１】本発明に係る一実施形態である連続音声認識
装置のブロック図である。

【図２】図１の連続音声認識装置における単語仮説絞
込部６の処理を示すタイミングチャートである。

【図３】第３の従来例の連続音声認識装置と、図１の
本実施形態の連続音声認識装置とにおける音響尤度の関
係を示す図である。

【図４】図１の連続音声認識装置において、音素／ａ
／に対する尤度補正部７による補正前と補正後の音響尤
度の関係の一例であって、音響尤度の時間変化を示すグ
ラフである。

【図５】図１の尤度補正部７において用いる、尤度に
対する遅延割合を求める第１の関数ｆ（ｘ）を示すグラ
フである。

【図６】図１の尤度補正部７において用いる、尤度に
対する遅延割合を求める第２の関数Ｆ（Ｄ）を示すグラ
フである。

【図７】図１の連続音声認識装置の実験結果であっ
て、ビーム幅に対する単語認識率を示すグラフである。

【図８】図１の連続音声認識装置の実験結果であっ
て、ビーム幅に対するＣＰＵ計算時間（時間）を示すグ
ラフである。

【符号の説明】１…マイクロホン、２…特徴抽出部、３，５…バッファメモリ、４…単語照合部、６…単語仮説絞込部、７…尤度補正部、１１…音素ＨＭＭメモリ、１２…単語辞書メモリ、１３…統計的言語モデル、１４…過小評価尤度メモリ。

───────────────────────────────────────────────────── フロントページの続き (72)発明者匂坂芳典京都府相楽郡精華町大字乾谷小字三平谷５番地株式会社エイ・ティ・アール音声翻訳通信研究所内 (56)参考文献特開平８−241094（ＪＰ，Ａ) 特開平５−341797（ＪＰ，Ａ) 特開平８−6588（ＪＰ，Ａ) 特開平８−123472（ＪＰ，Ａ) 特許2731133（ＪＰ，Ｂ２) 日本音響学会平成８年度秋季研究発表会講演論文集▲Ｉ▼ ３−３−６「Ｄｅｌａｙｅｄｄｅｃｉｓｉｏｎビーム探索の検討」ｐ．97−98（平成８年９月 25日発行) 日本音響学会平成７年度秋季研究発表会講演論文集▲Ｉ▼ ２−２−12「単語グラフを用いた連続音声認識法」ｐ．61 −62（平成７年９月28日国立国会図書館受入) 電子情報通信学会論文誌Ｖｏｌ．Ｊ 79−Ｄ−▲ＩＩ▼ Ｎｏ．12，Ｄｅｃｅｍｂｅｒ 1996，「大語い連続音声認識のための単語仮説数削減」，ｐ．2117− 2124，（平成８年12月25日発行) (58)調査した分野(Int.Cl.⁷，ＤＢ名) G10L 3/00 561 G10L 3/00 531 G10L 3/00 537 ＪＩＣＳＴファイル（ＪＯＩＳ)

Claims

(57)【特許請求の範囲】

【請求項１】入力される発声音声文の音声信号に基づ
いて上記発声音声文の単語仮説を検出し音響尤度を計算
することにより、連続的に音声認識する音声認識手段を
備えた連続音声認識装置において、上記音声認識手段は、単語の各音素の時間方向の中央部
の音響尤度を、当該中央部よりも遅延された時刻に移動
するように遅延させて、単語仮説の音響尤度を補正する
ことを特徴とする音声認識装置。
【請求項２】上記音声認識手段は、終了時刻が等しく
開始時刻が異なる同一の単語の単語仮説に対して、当該
単語の先頭音素環境毎に、発声開始時刻から当該単語の
終了時刻に至る計算された、音響尤度を含む総合尤度の
うちの最も高い総合尤度を有する１つの単語仮説で代表
させるように単語仮説の絞り込みを行うことを特徴とす
る請求項１記載の連続音声認識装置。