[go: up one dir, main page]

JP2999726B2 - 連続音声認識装置 - Google Patents

連続音声認識装置

Info

Publication number
JP2999726B2
JP2999726B2 JP8246012A JP24601296A JP2999726B2 JP 2999726 B2 JP2999726 B2 JP 2999726B2 JP 8246012 A JP8246012 A JP 8246012A JP 24601296 A JP24601296 A JP 24601296A JP 2999726 B2 JP2999726 B2 JP 2999726B2
Authority
JP
Japan
Prior art keywords
word
likelihood
speech recognition
phoneme
hypothesis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP8246012A
Other languages
English (en)
Other versions
JPH1091185A (ja
Inventor
徹 清水
博史 山本
芳典 匂坂
Original Assignee
株式会社エイ・ティ・アール音声翻訳通信研究所
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社エイ・ティ・アール音声翻訳通信研究所 filed Critical 株式会社エイ・ティ・アール音声翻訳通信研究所
Priority to JP8246012A priority Critical patent/JP2999726B2/ja
Publication of JPH1091185A publication Critical patent/JPH1091185A/ja
Application granted granted Critical
Publication of JP2999726B2 publication Critical patent/JP2999726B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、入力される発声音
声文の音声信号に基づいて連続的に音声認識する連続音
声認識装置に関する。
【0002】
【従来の技術】従来から、本特許出願人は、自然発話の
音声認識を目的として、連続音声認識系(以下、第1の
従来例という。)の開発を進めている(例えば、従来技
術文献1「Nagai,Takami,Sagayama,“The SSS-LR Conti
nuous Speech Recognition System: Integrating SSS-D
erivrd Allopohne Models and a Phoneme-Context-Depe
ndent LR Parser",Proc.of ICSLP92,pp.1511-1514,1992
年」及び従来技術文献2「Shimizu,Monzen,Singer,Mats
unaga,“Time-Synchronous Continuous Speech Recogni
zer Driven by a Context-Free Grammar",Proc.of ICAS
SP95,pp.584-587,1995年」参照。)。この第1の従来例
では、入力される発声音声文の音声信号に基づいて、音
素隠れマルコフモデル(以下、隠れマルコフモデルをH
MMという。)と単語辞書を用いて、発声開始からの単
語の履歴及び文法状態を管理しながら、音声認識を行っ
ている。
【0003】一方、単語グラフを用いた音声認識方法
(以下、第2の従来例という。)が、従来技術文献3
「Ney,Aubert,“A Word Graph Algorithm for Large Vo
cabulary, Continuous Speech Recognition",Proc.of I
CSLP94,pp.1355-1358,1994年」及び従来技術文献4「Wo
odland,Leggetter,Odell,Valtchev,Young,“The 1994 H
TKLarge Vocabulary Speech Recognition System",Pro
c. of ICASSP95,pp.73-76,1995年」において提案されて
いる。
【0004】この第2の従来例の単語グラフの主たるア
イデアは、音声認識におけるあいまいさが比較的高い音
声信号の領域において単語仮説の候補を処理するという
ことである。この利点は、純粋の音声認識は言語モデル
のアプリケーションとは切り離されていることと、複雑
な言語モデルは、現在認識中の単語に続く公知のステッ
プに適用することができることである。単語仮説の候補
の数は音声認識におけるあいまいさのレベルに対応して
変化する必要がある。良い単語グラフを効率的に構築す
るときの困難さは次の通りである。単語の開始時刻は、
一般的に、先行する単語に依存している。第1の近似に
おいては、この依存性を直前の先行単語に対して制限を
加えることにより、以下に示すようないわゆる単語ペア
近似法を得ている。すなわち、単語のペアとその終了時
刻が与えられたときに、2つの単語の間の単語境界は別
の先行する単語に独立であるということである。この単
語ペア近似法は、本来、複数の文又はn個のベスト(最
良)である文を効率的に計算するために導入されてき
た。この単語グラフは、n個のベストを得るアプローチ
の方法(以下、nベスト法という。)よりも効率的であ
ると期待されている。この単語グラフを用いた方法で
は、複数の単語仮説を局所的にのみ発生する必要がある
一方、nベスト法においては、各局所的な単語仮説の候
補は、n個のベストである文のリストに対して加えるべ
き全体の文を必要としている。
【0005】しかしながら、第1の従来例においては、
発声開始からの単語の履歴及び文法状態を管理する必要
があるため、間投詞の挿入や、言い淀み、言い直しが頻
繁に生じる自然発話の認識に用いた場合、単語仮説の併
合又は分割に要する計算コストが極めて大きいという問
題点があった。すなわち、音声認識のために必要な処理
量が大きくなって比較的大きな記憶容量を有する記憶装
置が必要となる一方、処理量が大きくなるので処理時間
が長くなるという問題点があった。
【0006】また、上記第2の従来例の単語ペア近似法
においては、先行単語毎に1つの仮説で代表させるが、
いまだ近似効果は比較的小さい。このため、上記第1の
従来例と同様の問題点が生じる。
【0007】以上の問題点を解決するために、本出願人
は、特願平7−234043号の特許出願において、
「入力される発声音声文の音声信号に基づいて上記発声
音声文の単語仮説を検出し尤度を計算することにより、
連続的に音声認識する音声認識手段を備えた連続音声認
識装置において、上記音声認識手段は、終了時刻が等し
く開始時刻が異なる同一の単語の単語仮説に対して、当
該単語の先頭音素環境毎に、発声開始時刻から当該単語
の終了時刻に至る計算された総尤度のうちの最も高い尤
度を有する1つの単語仮説で代表させるように単語仮説
の絞り込みを行うことを特徴とする連続音声認識装
置。」(以下、第3の従来例という。)を提案してい
る。
【0008】しかしながら、第3の従来例のような連続
音声認識装置における時間同期ビーム探索において、最
尤候補から一定の尤度幅をしきい値として採用する場
合、音響尤度や言語尤度の時間に対する局所的変動に弱
い問題点があった。時間に対する局所的変動を吸収する
ためには、ビーム幅を広くするもしくは尤度の先読みを
する必要がある。しかしながら、広いビーム幅は探索に
要する計算量の増加に直結し、尤度の先読みはアルゴリ
ズムが複雑になったり場合によっては先読みにおける計
算量が多くなったりする可能性があるという問題点があ
った。以下、この問題点について詳述する。
【0009】例えば第3の従来例における時間同期ビー
ム探索では、以下に示す問題点がある。 (a)未探索部分の尤度がわからない:ある時刻tまで
の尤度が高いことは、文全体の尤度が高いことを保証し
ていない。 (b)音素の中間状態でも音素の終端と同様な枝刈りを
行っている:音響モデルのトレーニングは、一音素もし
くは音素列の尤度が最大になるように学習される。従っ
て、音素の中間状態で尤度が最大になるかどうかが保証
されていない。しかし、一定の幅のビームを使用した場
合、音素の中間状態と終端は同じ条件で枝刈りされる。 (c)継続時間長の短い音素(単語)の挿入:滞在時間
が短く尤度の低い音素は累積尤度への寄与が少ない。累
積尤度は、滞在時間が長く尤度の高い音素により支配さ
れる。この結果、累積尤度への寄与が少ない「滞在時間
の短く尤度の低い音素」の挿入が頻繁に発生する。
【0010】これらの問題点を解決する手段として、従
来技術文献5「Ney et al.,“An overview of the phil
ips research system for large vocabulary continuou
s speech recognition",International Jurnal of Patt
ern Recognition and Artificial Intelligence,Vol.8,
No.1,pp.58-59,1994年」において、尤度を先読みする方
法(phoneme look-ahead)(以下、第4の従来例とい
う。)が提案されている。この第4の従来例において
は、1音素分の未探索部分の尤度を考慮し、音素境界で
音素の中間状態より厳しい枝刈りを行う。すなわち、あ
らかじめ1音素分の音響尤度を別に計算しておき、音素
の終端に達した時点で後続する1音素分の尤度を考慮し
第2のビーム探索を行う。
【0011】しかしながら、第4の従来例においては、
先読みの長さと言語制約が制限される。すなわち、先読
みにおける計算量をあまり大きくすると、先読みに基づ
く枝刈り効果と相殺してしまう。このため、先読みの時
間幅は数フレームに、言語制約は非常に簡単な制約に限
定されるという問題点があった。
【0012】本発明の目的は以上の問題点を解決し、従
来例に比較して狭いビーム幅で単語仮説の絞り込みを行
うことができ、より小さい計算コストで自然発話の連続
音声認識を行うことができる連続音声認識装置を提供す
ることにある。
【0013】
【課題を解決するための手段】本発明に係る請求項1記
載の連続音声認識装置は、入力される発声音声文の音声
信号に基づいて上記発声音声文の単語仮説を検出し音響
尤度を計算することにより、連続的に音声認識する音声
認識手段を備えた連続音声認識装置において、上記音声
認識手段は、単語の各音素の時間方向の中央部の音響尤
度を、当該中央部よりも遅延された時刻に移動するよう
に遅延させて、単語仮説の音響尤度を補正することを特
徴とする。
【0014】また、請求項2記載の連続音声認識装置
は、請求項1記載の連続音声認識装置において、上記音
声認識手段は、終了時刻が等しく開始時刻が異なる同一
の単語の単語仮説に対して、当該単語の先頭音素環境毎
に、発声開始時刻から当該単語の終了時刻に至る計算さ
れた、音響尤度を含む総合尤度のうちの最も高い総合尤
度を有する1つの単語仮説で代表させるように単語仮説
の絞り込みを行うことを特徴とする。
【0015】
【発明の実施の形態】以下、図面を参照して本発明に係
る実施形態について説明する。図1に本発明に係る一実
施形態の連続音声認識装置のブロック図を示す。本実施
形態の連続音声認識装置は、公知のワン−パス・ビタビ
復号化法を用いて、入力される発声音声文の音声信号の
特徴パラメータに基づいて上記発声音声文の単語仮説を
検出し音響尤度を計算して出力する単語照合部4を備え
た連続音声認識装置において、単語照合部4からバッフ
ァメモリ5を介して出力される、単語仮説に対して、当
該単語の各音素の時間方向の中央部の音響尤度のピーク
を、当該中央部よりも遅延された時刻に移動するように
遅延させて、当該単語仮説の音響尤度を補正する尤度補
正部7と、尤度補正部7から出力される音響尤度を含む
総合尤度を有する単語仮説に基づいて、当該単語の先頭
音素環境毎に、発声開始時刻から当該単語の終了時刻に
至る計算された総合尤度のうちの最も高い尤度を有する
1つの単語仮説で代表させるように単語仮説の絞り込み
を行う単語仮説絞込部6を備えたことを特徴とする。
【0016】本発明に係る実施形態において用いる尤度
補正部7の尤度補正は、遅延決定(Delayed decision)
のビーム探索と呼ぶことができる。この遅延決定のビー
ム探索は、第4の従来例のような尤度の先読みや、非線
形関数による尤度のマッピングによらずに、すでに探索
を終えた経路の尤度の評価を遅らせることによって、尤
度の局所的変動に対処する。なお、以下の計算におい
て、尤度とは対数尤度を指すものとする。本実施形態に
おいて、各符号を以下のように定義する。 (a)t:時刻; (b)S:ビーム探索の経路; (c)qA(S,t):経路S,時刻tにおける音響尤
度; (d)QA(S,t):経路S,時刻tにおける文頭か
ら累積音響尤度; (e)QL(S,t):経路S,時刻tにおける文頭か
らの累積言語尤度。
【0017】ここで、音響尤度は、単語照合部4におい
て音素HMMメモリ11内の音素HMMを参照して計算
される尤度であり、言語尤度は、単語照合部4において
統計的言語モデルメモリ13内の言語モデルを参照して
計算される尤度である。以上のように定義したとき、一
般に、累積音響尤度は1フレーム毎の音響尤度を足し合
わせることによって次式で求められる。
【0018】
【数1】QA(S,t)=QA(S,t−1)+q
A(S,t)
【0019】そして、ビーム探索に使用する文頭からの
累積総合尤度Qall(S,t)は、音響尤度QA(S,
t)と言語尤度QL(S,t)を用いて次式で計算され
る。
【0020】
【数2】Qall(S,t)=QA(S,t)+α・Q
L(S,t)
【0021】ここで、定数αは言語尤度の音響尤度に対
する重み係数であり、好ましい実施形態においては、α
=4.5である。本実施形態における、遅延決定のビー
ム探索では、次式に示すように、上記数2において、Q
A(S,t)の代わりにQA(S,t)から遅延音響尤度
Ad(S,t)を差し引いた尤度QA’(S,t)を使
用する。すなわち、時刻t−1では、図3及び次の数3
に示すように、QA(S,t−1)の代わりにQA(S,
t−1)から遅延音響尤度QAd(S,t−1)を差し引
いた尤度QA’(S,t−1)を使用する。
【0022】
【数3】QA’(S,t)=QA(S,t)−QAd(S,
t)
【0023】ここで、上記数3の右辺の第2項の尤度Q
Ad(S,t)は次式で計算される。
【0024】
【数4】D=QAd(S,t−1)+qA(S,t)
【数5】QAd(S,t)=F(D)・D
【0025】上記数3を書き換えると、上記数1を参照
して書き換えると、次式を得る。
【0026】
【数6】QA’(S,t)=QA’(S,t−1)+
A’(S,t)
【0027】ここで、尤度qA’(S,t)を次式によ
り決定する。
【0028】
【数7】 qA’(S,t) =f(x) =f(qA(S,t)+QA(S,t−1)−QA
(S,t−1)
【0029】ここで、上記数7における{QA(S,t−
1)−QA’(S,t−1)}は、QAd(S,t−1)であ
り、第3の従来例と比較して1時刻前の過小評価分であ
り、このデータは、尤度補正部7に接続される過小評価
尤度メモリ14に順次記憶されて、次の時刻tにおける
音響尤度を補正して総合尤度を計算するために用いられ
る。従って、本実施形態においては、尤度補正部7は、
時刻(t−1)において、各単語仮説に対して、1時刻
前の過小評価分データである上記数7における{Q
A(S,t−1)−QA’(S,t−1)}を計算して、過小
評価尤度メモリ14に記憶し、次いで、時刻tにおい
て、上記数6と上記数7とを用いて、過小評価するよう
に補正された音響尤度QA’(S,t)を計算し、次い
で、上記数2を書き換えた次の数8とを用いて、累積尤
度である総合尤度Q’all(S,t)を計算し、当該計
算された総合尤度Q’all(S,t)を有する単語仮説
をバッファメモリ5を介して単語仮説絞込部6に出力す
る。
【0030】
【数8】Q’all(S,t)=QA’(S,t)+α・Q
L(S,t)
【0031】なお、上記数7において、関数f(x)
は、上記尤度xに対する遅延割合を求める第1の関数で
あり、その一例を図5で図示した。図5から明らかなよ
うに、関数xは、xが増加するにつれて、概ね、関数f
(x)の傾斜を小さくするように変化する関数となって
いる。また、上記数5における関数F(D)は上記第1
の関数に関連し、尤度Dに対する遅延割合を求める第2
の関数であって、その一例を図6に図示した。
【0032】音響モデルとして音素HMMを使用した場
合、図4に示すように、一般に音素境界では尤度が低く
なり音素中心では尤度が高くなる傾向がある。従って、
図5及び図6の関数を使用することにより、図4に示す
ように、音素中心では遅延が大きく、音素境界では遅延
がほぼなくなるように音響尤度を補正する。言い換えれ
ば、単語の各音素の時間方向の中央部の音響尤度のピー
クを、当該中央部よりも遅延された時刻に移動するよう
に遅延(群遅延)させて、単語仮説の音響尤度を補正す
る。この結果、音素中心における音響尤度の全部又は一
部分は音素境界に近い時刻で評価されることになり、第
4の従来例と同様の効果を期待できる。
【0033】次いで、図1の連続音声認識装置の構成及
び動作について説明する。図1において、音素HMMメ
モリ11は、単語照合部4に接続され、音素HMMを予
め記憶し、当該音素HMMは、各状態を含んで表され、
各状態はそれぞれ以下の情報を有する。 (a)状態番号 (b)受理可能なコンテキストクラス (c)先行状態、及び後続状態のリスト (d)出力確率密度分布のパラメータ (e)自己遷移確率及び後続状態への遷移確率 なお、本実施例において用いる音素HMMは、各分布が
どの話者に由来するかを特定する必要があるため、所定
の話者混合HMMを変換して作成する。ここで、出力確
率密度関数は34次元の対角共分散行列をもつ混合ガウ
ス分布である。
【0034】また、単語辞書メモリ12は、単語照合部
4に接続され、単語辞書を予め記憶し、当該単語辞書
は、音素HMMメモリ11内の音素HMMの各単語毎に
シンボルで表した読みを示すシンボル列を格納する。さ
らに、統計的言語モデルメモリ13は、単語照合部4に
接続され、所定の統計的言語モデルを予め記憶する。こ
こで、統計的言語モデルは、例えば、従来技術文献6
「政瀧浩和ほか,“連続音声認識のための可変長連鎖統
計言語モデル”,電子通信情報学会技術報告,SP95
−73,1995年11月」において開示されている、
時間方向の長さが可変である可変長N−gramと呼ば
れる言語モデルを使用することができる。当該統計的言
語モデルは、品詞クラスと単語との可変長N−gram
であり、次の3種類のクラス間のバイグラムとして表現
する。 (a)品詞クラス、 (b)品詞クラスから分離した単語のクラス、及び、 (c)連接単語が結合してできたクラス。
【0035】図1の連続音声認識装置において、特徴抽
出部2と、単語照合部4と、尤度補正部7と、単語仮説
絞込部6とは、例えば、CPUを備えたデジタル計算機
で構成される。また、バッファメモリ3,5と、音素H
MMメモリ11と、単語辞書メモリ12と、統計的言語
モデルメモリ13と、過小評価尤度メモリ14とは、例
えば、ハードディスクメモリで構成される。
【0036】図1において、話者の発声音声はマイクロ
ホン1に入力されて音声信号に変換された後、特徴抽出
部2に入力される。特徴抽出部2は、入力された音声信
号をA/D変換した後、例えばLPC分析を実行し、対
数パワー、16次ケプストラム係数、Δ対数パワー及び
16次Δケプストラム係数を含む34次元の特徴パラメ
ータを抽出する。抽出された特徴パラメータの時系列は
バッファメモリ3を介して単語照合部4に入力される。
【0037】単語照合部4は、ワン−パス・ビタビ復号
化法を用いて、バッファメモリ3を介して入力される特
徴パラメータのデータに基づいて、音素HMMメモリ1
1内の音素HMMと、単語辞書メモリ12内の単語辞書
と、統計的言語モデルメモリ13内の統計的言語モデル
とを用いて単語仮説を検出し、音素HMMに基づいた音
響尤度と、統計的言語モデルに基づいた言語尤度とを計
算して、単語仮説とともに尤度補正部7に出力する。こ
こで、単語照合部4は、各時刻の各HMMの状態毎に、
単語内の尤度と発声開始からの音響尤度を計算する。音
響尤度及び言語尤度を含む尤度は、単語の識別番号、単
語の開始時刻、先行単語の違い毎に個別にもつ。また、
計算処理量の削減のために、音素HMM、単語辞書及び
統計的言語モデルとに基づいて計算される総合尤度のう
ちの低い総合尤度のグリッド仮説を削減する。単語照合
部4は、その結果の単語仮説と総合尤度の情報を発声開
始時刻からの時間情報(具体的には、例えばフレーム番
号)とともに尤度補正部7に出力する。
【0038】これに応答して、尤度補正部7は、時刻
(t−1)において、各単語仮説に対して、1時刻前の
過小評価分データである上記数7における{QA(S,t
−1)−QA’(S,t−1)}を計算して、過小評価尤度
メモリ14に記憶し、次いで、時刻tにおいて、上記数
6と上記数7とを用いて、過小評価するように補正され
た音響尤度QA’(S,t)を計算し、次いで、上記数
8とを用いて、総合尤度Q’all(S,t)を計算し、
当該計算された総合尤度Q’all(S,t)を有する単
語仮説をバッファメモリ5を介して単語仮説絞込部6に
出力する。
【0039】単語仮説絞込部6は、尤度補正部7からバ
ッファメモリ5を介して出力される総合尤度を有する単
語仮説に基づいて、終了時刻が等しく開始時刻が異なる
同一の単語の単語仮説に対して、当該単語の先頭音素環
境毎に、発声開始時刻から当該単語の終了時刻に至る計
算された総合尤度のうちの最も高い尤度を有する1つの
単語仮説で代表させるように単語仮説の絞り込みを行っ
た後、絞り込み後のすべての単語仮説の単語列のうち、
最大の総合尤度を有する仮説の単語列を認識結果として
出力する。本実施形態においては、好ましくは、処理す
べき当該単語の先頭音素環境とは、当該単語より先行す
る単語仮説の最終音素と、当該単語の単語仮説の最初の
2つの音素とを含む3つの音素並びをいう。
【0040】例えば、図2に示すように、(i−1)番
目の単語Wi-1の次に、音素列a1,a2,…,anからな
るi番目の単語Wiがくるときに、単語Wi-1の単語仮説
として6つの仮説Wa,Wb,Wc,Wd,We,Wf
が存在している。ここで、前者3つの単語仮説Wa,W
b,Wcの最終音素は/x/であるとし、後者3つの単
語仮説Wd,We,Wfの最終音素は/y/であるとす
る。終了時刻teと先頭音素環境が等しい仮説(図2で
は先頭音素環境が“x/a1/a2”である上から3つの
単語仮説)のうち総合尤度が最も高い仮説(例えば、図
2において1番上の仮説)以外を削除する。なお、上か
ら4番めの仮説は先頭音素環境が違うため、すなわち、
先行する単語仮説の最終音素がxではなくyであるの
で、上から4番めの仮説を削除しない。すなわち、先行
する単語仮説の最終音素毎に1つのみ仮説を残す。図2
の例では、最終音素/x/に対して1つの仮説を残し、
最終音素/y/に対して1つの仮説を残す。
【0041】以上の実施形態においては、当該単語の先
頭音素環境とは、当該単語より先行する単語仮説の最終
音素と、当該単語の単語仮説の最初の2つの音素とを含
む3つの音素並びとして定義されているが、本発明はこ
れに限らず、先行する単語仮説の最終音素と、最終音素
と連続する先行する単語仮説の少なくとも1つの音素と
を含む先行単語仮説の音素列と、当該単語の単語仮説の
最初の音素を含む音素列とを含む音素並びとしてもよ
い。
【0042】
【実施例】本発明者は、図1の連続音声認識装置の有効
性を確認するために、自然発話データベースを用いて単
語グラフ生成実験を行なった。“トラベル・プランニン
グ”をタスクとした本出願人が所有する音声言語データ
ベース(例えば、従来技術文献7「Morimoto et al.,
“A Speech and Language Database for Speech Transl
ation Research",Proc.of ICSLP94,pp.1791-1794,1994
年」参照。)の「ホテル予約」に関する7対話(対話の
申込者側発声、男性3名及び女性4名、100発声、9
83語)を用いた。音響分析は、標本化周波数12kH
z、フレーム間隔10msec、ハミング窓20mse
cを用いて行い、ここで、特徴パラメータとして、1〜
16次LPCケプストラム、1〜16次ΔLPCケプス
トラム、logパワー、Δlogパワーを用いた。40
1状態で5混合されたHMnetである音響モデルは、
150文の朗読音声を用いて学習したモデルを自然発話
約20発声で話者適応した。また、言語モデルは、延べ
330,513語を含む828対話から713クラスの
クラスバイグラムを作成した。テストセットの単語パー
プレキシティは、49.6である。語彙数は6,635
語で、評価データの語彙を全て含んでおり未知語はない
ものとした。さらに、上記数2における言語尤度の音響
尤度に対する重みαは4.5と設定した。
【0043】当該装置の認識性能を、ビーム幅に対する
単語認識率(word accuracy)とCPU時間(時間)で
評価した。尤度幅一定のビームで探索を行った場合、ビ
ーム幅を広げるに従って単語認識率は向上するが、ある
程度以上広げると逆に単語認識率が低下する現象が見ら
れる。この現象は、単語仮説の探索のためのビーム幅の
拡大がビームの下限を下げるのではなく上限を押し上げ
るように働いたものと説明できる。従って、本実施例で
は、単語認識率がピークになる付近で比較を行う。
【0044】図7は、図1の連続音声認識装置の実験結
果であって、ビーム幅に対する単語認識率を示すグラフ
であり、図8は、図1の連続音声認識装置の実験結果で
あって、ビーム幅に対するCPU計算時間(時間)を示
すグラフである。
【0045】図7において、ビーム幅が60から70ま
でにおける単語認識率を比較すると、尤度補正ありの場
合は尤度補正なしの場合に比較してより狭いビーム幅で
ピークを迎えることがわかる。また、尤度補正なしの特
性曲線を、ビーム幅方向に−2程度シフトすると両者の
特性曲線がほぼ重なることから、当該尤度補正はビーム
幅を2程度狭くするのと同じ効果がある。なお、図8か
ら明らかなように、ビーム幅が同じならば認識時間は尤
度補正のあり/なしに影響を受けないので、尤度補正あ
りは、尤度補正なしに比較して計算時間が少なくて済
み、ここで、計算時間の削減率は約10%である。
【0046】以上説明したように、本実施形態によれ
ば、単語仮説に対して、当該単語の各音素の時間方向の
中央部の音響尤度のピークを、当該中央部よりも遅延さ
れた時刻に移動するように遅延させて、当該単語仮説の
音響尤度を補正したので、第3の従来例に比較してより
狭いビーム幅で単語仮説の絞り込みを行うことができ、
より小さい計算コストでかつより高い認識率で自然発話
の連続音声認識を行うことができる。
【0047】また、本実施形態によれば、終了時刻が等
しく開始時刻が異なる同一の単語の単語仮説に対して、
当該単語の先頭音素環境毎に、発声開始時刻から当該単
語の終了時刻に至る計算された総合尤度のうちの最も高
い総合尤度を有する1つの単語仮説で代表させるように
単語仮説の絞り込みを行う。すなわち、先行単語毎に1
つの単語仮説で代表させる第2の従来例の単語ペア近似
法に比較して、単語の先頭音素の先行音素(つまり、先
行単語の最終音素)が等しいものをひとまとめに扱うた
めに、単語仮説数を削減することができ、近似効果は大
きい。特に、語彙数が増加した場合において削減効果が
大きい。従って、当該連続音声認識装置を、間投詞の挿
入や、言い淀み、言い直しが頻繁に生じる自然発話の認
識に用いた場合であっても、単語仮説の併合又は分割に
要する計算コストは従来例に比較して小さくなる。すな
わち、音声認識のために必要な処理量が小さくなり、そ
れ故、単語照合部4のワーキングメモリ(図示せ
ず。)、バッファメモリ5及び単語仮説絞込部6のワー
キングメモリ(図示せず。)などの音声認識のための記
憶装置において必要な記憶容量は小さくなる一方、処理
量が小さくなるので音声認識のための処理時間を短縮す
ることができる。
【0048】
【発明の効果】以上詳述したように本発明に係る請求項
1記載の連続音声認識装置によれば、入力される発声音
声文の音声信号に基づいて上記発声音声文の単語仮説を
検出し音響尤度を計算することにより、連続的に音声認
識する音声認識手段を備えた連続音声認識装置におい
て、上記音声認識手段は、単語の各音素の時間方向の中
央部の音響尤度を、当該中央部よりも遅延された時刻に
移動するように遅延させて、単語仮説の音響尤度を補正
する。従って、第3の従来例に比較してより狭いビーム
幅で単語仮説の絞り込みを行うことができ、より小さい
計算コストで、すなわち音声認識のための処理時間を短
縮して、かつより高い認識率で自然発話の連続音声認識
を行うことができる。
【0049】また、請求項2記載の連続音声認識装置に
おいては、請求項1記載の連続音声認識装置において、
上記音声認識手段は、終了時刻が等しく開始時刻が異な
る同一の単語の単語仮説に対して、当該単語の先頭音素
環境毎に、発声開始時刻から当該単語の終了時刻に至る
計算された、音響尤度を含む総合尤度のうちの最も高い
総合尤度を有する1つの単語仮説で代表させるように単
語仮説の絞り込みを行う。従って、当該連続音声認識装
置を、間投詞の挿入や、言い淀み、言い直しが頻繁に生
じる自然発話の認識に用いた場合であっても、単語仮説
の併合又は分割に要する計算コストは従来例に比較して
小さくなる。すなわち、音声認識のために必要な処理量
が小さくなり、それ故、音声認識のための記憶装置にお
いて必要な記憶容量は小さくなる一方、処理量が小さく
なるので音声認識のための処理時間を短縮することがで
きる。
【図面の簡単な説明】
【図1】 本発明に係る一実施形態である連続音声認識
装置のブロック図である。
【図2】 図1の連続音声認識装置における単語仮説絞
込部6の処理を示すタイミングチャートである。
【図3】 第3の従来例の連続音声認識装置と、図1の
本実施形態の連続音声認識装置とにおける音響尤度の関
係を示す図である。
【図4】 図1の連続音声認識装置において、音素/a
/に対する尤度補正部7による補正前と補正後の音響尤
度の関係の一例であって、音響尤度の時間変化を示すグ
ラフである。
【図5】 図1の尤度補正部7において用いる、尤度に
対する遅延割合を求める第1の関数f(x)を示すグラ
フである。
【図6】 図1の尤度補正部7において用いる、尤度に
対する遅延割合を求める第2の関数F(D)を示すグラ
フである。
【図7】 図1の連続音声認識装置の実験結果であっ
て、ビーム幅に対する単語認識率を示すグラフである。
【図8】 図1の連続音声認識装置の実験結果であっ
て、ビーム幅に対するCPU計算時間(時間)を示すグ
ラフである。
【符号の説明】 1…マイクロホン、 2…特徴抽出部、 3,5…バッファメモリ、 4…単語照合部、 6…単語仮説絞込部、 7…尤度補正部、 11…音素HMMメモリ、 12…単語辞書メモリ、 13…統計的言語モデル、 14…過小評価尤度メモリ。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 匂坂 芳典 京都府相楽郡精華町大字乾谷小字三平谷 5番地 株式会社エイ・ティ・アール音 声翻訳通信研究所内 (56)参考文献 特開 平8−241094(JP,A) 特開 平5−341797(JP,A) 特開 平8−6588(JP,A) 特開 平8−123472(JP,A) 特許2731133(JP,B2) 日本音響学会平成8年度秋季研究発表 会講演論文集▲I▼ 3−3−6「De layed decision ビーム 探索の検討」p.97−98(平成8年9月 25日発行) 日本音響学会平成7年度秋季研究発表 会講演論文集▲I▼ 2−2−12「単語 グラフを用いた連続音声認識法」p.61 −62(平成7年9月28日国立国会図書館 受入) 電子情報通信学会論文誌 Vol.J 79−D−▲II▼ No.12,Dece mber 1996,「大語い連続音声認識 のための単語仮説数削減」,p.2117− 2124,(平成8年12月25日発行) (58)調査した分野(Int.Cl.7,DB名) G10L 3/00 561 G10L 3/00 531 G10L 3/00 537 JICSTファイル(JOIS)

Claims (2)

    (57)【特許請求の範囲】
  1. 【請求項1】 入力される発声音声文の音声信号に基づ
    いて上記発声音声文の単語仮説を検出し音響尤度を計算
    することにより、連続的に音声認識する音声認識手段を
    備えた連続音声認識装置において、 上記音声認識手段は、単語の各音素の時間方向の中央部
    の音響尤度を、当該中央部よりも遅延された時刻に移動
    するように遅延させて、単語仮説の音響尤度を補正する
    ことを特徴とする音声認識装置。
  2. 【請求項2】 上記音声認識手段は、終了時刻が等しく
    開始時刻が異なる同一の単語の単語仮説に対して、当該
    単語の先頭音素環境毎に、発声開始時刻から当該単語の
    終了時刻に至る計算された、音響尤度を含む総合尤度の
    うちの最も高い総合尤度を有する1つの単語仮説で代表
    させるように単語仮説の絞り込みを行うことを特徴とす
    る請求項1記載の連続音声認識装置。
JP8246012A 1996-09-18 1996-09-18 連続音声認識装置 Expired - Fee Related JP2999726B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8246012A JP2999726B2 (ja) 1996-09-18 1996-09-18 連続音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8246012A JP2999726B2 (ja) 1996-09-18 1996-09-18 連続音声認識装置

Publications (2)

Publication Number Publication Date
JPH1091185A JPH1091185A (ja) 1998-04-10
JP2999726B2 true JP2999726B2 (ja) 2000-01-17

Family

ID=17142153

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8246012A Expired - Fee Related JP2999726B2 (ja) 1996-09-18 1996-09-18 連続音声認識装置

Country Status (1)

Country Link
JP (1) JP2999726B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4072718B2 (ja) 2002-11-21 2008-04-09 ソニー株式会社 音声処理装置および方法、記録媒体並びにプログラム

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2731133B2 (ja) 1995-09-12 1998-03-25 株式会社エイ・ティ・アール音声翻訳通信研究所 連続音声認識装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2731133B2 (ja) 1995-09-12 1998-03-25 株式会社エイ・ティ・アール音声翻訳通信研究所 連続音声認識装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
日本音響学会平成7年度秋季研究発表会講演論文集▲I▼ 2−2−12「単語グラフを用いた連続音声認識法」p.61−62(平成7年9月28日国立国会図書館受入)
日本音響学会平成8年度秋季研究発表会講演論文集▲I▼ 3−3−6「Delayed decision ビーム探索の検討」p.97−98(平成8年9月25日発行)
電子情報通信学会論文誌 Vol.J79−D−▲II▼ No.12,December 1996,「大語い連続音声認識のための単語仮説数削減」,p.2117−2124,(平成8年12月25日発行)

Also Published As

Publication number Publication date
JPH1091185A (ja) 1998-04-10

Similar Documents

Publication Publication Date Title
EP1128361B1 (en) Language models for speech recognition
US6961701B2 (en) Voice recognition apparatus and method, and recording medium
US6397179B2 (en) Search optimization system and method for continuous speech recognition
US6963837B1 (en) Attribute-based word modeling
US6385579B1 (en) Methods and apparatus for forming compound words for use in a continuous speech recognition system
US20040167779A1 (en) Speech recognition apparatus, speech recognition method, and recording medium
EP1321926A1 (en) Speech recognition correction
JP4757936B2 (ja) パターン認識方法および装置ならびにパターン認識プログラムおよびその記録媒体
US7072835B2 (en) Method and apparatus for speech recognition
Hwang et al. Investigation on Mandarin broadcast news speech recognition.
JP3535292B2 (ja) 音声認識システム
US20040158468A1 (en) Speech recognition with soft pruning
JPH1185188A (ja) 音声認識方法及びそのプログラム記録媒体
JP2999726B2 (ja) 連続音声認識装置
WO2001026092A2 (en) Attribute-based word modeling
JPH09134192A (ja) 統計的言語モデル生成装置及び音声認識装置
JP2938865B1 (ja) 音声認識装置
JP3104900B2 (ja) 音声認識方法
US20040148163A1 (en) System and method for utilizing an anchor to reduce memory requirements for speech recognition
JP3494338B2 (ja) 音声認識方法
US20040267529A1 (en) N-gram spotting followed by matching continuation tree forward and backward from a spotted n-gram
JP2731133B2 (ja) 連続音声認識装置
JP2905686B2 (ja) 音声認識装置
JP3368989B2 (ja) 音声認識方法
Jelinek et al. 25 Continuous speech recognition: Statistical methods

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091105

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101105

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111105

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111105

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121105

Year of fee payment: 13

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131105

Year of fee payment: 14

LAPS Cancellation because of no payment of annual fees