JP4801107B2 - 音声認識装置、方法、プログラム及びその記録媒体 - Google Patents
音声認識装置、方法、プログラム及びその記録媒体 Download PDFInfo
- Publication number
- JP4801107B2 JP4801107B2 JP2008055977A JP2008055977A JP4801107B2 JP 4801107 B2 JP4801107 B2 JP 4801107B2 JP 2008055977 A JP2008055977 A JP 2008055977A JP 2008055977 A JP2008055977 A JP 2008055977A JP 4801107 B2 JP4801107 B2 JP 4801107B2
- Authority
- JP
- Japan
- Prior art keywords
- state
- storage unit
- likelihood
- max
- self
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
入力音声が、音響分析部10に入力される。音響分析部10は、入力音声から、一定時間長のフレームごとに特徴量ベクトルを計算し、特徴量ベクトルの時系列を生成する。生成された特徴量ベクトルの時系列は、探索部30’に送られる。
探索部30’は、音響モデル記憶部40から読み込んだ音響モデルを用いて、文法記憶部50から読み出した文法で表現される単語又は単語列と特徴量ベクトルの時系列との照合を行い、すなわち探索処理を行い、最も尤度が高い単語又は単語列を認識結果として出力する。
音響モデル記憶部40に記憶された音響モデルは、MFCC等の音声の特徴量を適切なカテゴリで標準パターンとして保持したものであり、入力音声のある区間の特徴量ベクトルに対して、各標準パターンとの音響的な近さを尤度として計算し、それがどのカテゴリに属するのかを推定するために用いられる。
音素HMMとしては、monophone−HMM,biphone−HMM及びtriphone−HMMがよく用いられる。
biphone−HMMには、中心音素に先行する音素のみを音素環境として考慮する先行音素環境依存型の音素HMM、中心音素に後続する音素のみを音素環境として考慮する後続音素環境依存型の音素HMMがある。例えば、先行音素がpである音素aの先行音素環境依存型biphone−HMMは、p−a−*と表すことができる。また、後続音素がtである音素aの後続音素環境依存型biphone−HMMは、*−a−tと表すことができる。
monophone−HMMよりもbiphone−HMMの方が、また、biphone−HMMよりもtriphone−HMMの方が音素環境を詳細に表現したモデルである。
音素HMMで表現される音素カテゴリの種類の数は、音響モデルの学習データに依存するが、t−t−t等の日本語の音素連鎖としてあり得ないものは除かれるため、一般的には数千から数万程度になる。
状態Sは、図8に例示するように、混合確率分布として表現される。混合確率分布の各要素分布には、離散確率分布と連続確率分布があるが、現在最もよく用いられているのは、連続確率分布の1つである多次元正規分布(多次元ガウス分布ともいう。)である。その内でも次元間の相関がない、すなわち共分散行列の対角成分が0である多次元無相関正規分布が最もよく用いられている。多次元正規分布の各次元は、特徴量ベクトルの各次元に対応する。
図8に例示するような状態Sの数個から十数個程度の確率連鎖によって、音素HMMが構成される。音素HMMが、いくつの状態のどのような確率連鎖によって構成されるかには、様々なバリエーションがある。また、音素HMMごとに異なる構造を取ることもある。
以下、非特許文献4に記載された状態尤度bj(Xt)を求める処理の高速化の手法について説明する。非特許文献4の手法は、以下の2つの実験的事実に基づいて状態尤度bj(Xt)を求める処理の高速化を実現している。
鹿野清宏,外4名,「IT Text 音声認識システム」,オーム社,2001年5月,p.1−51 安藤彰男,「リアルタイム音声認識」,(社)電子情報通信学会,2003年9月,p.1−58,p.125−170 嵯峨山茂樹,外4名,「音声認識における新しい高速化」,日本音響学会講演論文集,1−5−12,平成8年3月,p.25−28 M.Saraclar,外3名,「Towards automatic closed captioning: low latency real time broadcast news transcription」,Proc.ICSLP’02,2002年9月,p.1741−1744
非特許文献4の手法においては、Kの値は諸事情を考慮せずに固定されていたため、状態尤度の無駄な計算が行われていた可能性がある。このため、音声認識処理を十分に高速化できていない可能性があった。
以下、図面を参照してこの発明の実施形態の例を説明する。背景技術と同様な部分については、同じ符号をつけて重複説明を略する。
第一実施形態は、音声認識処理の対象となる目的音声と音響的に近い性質を有する音声(以下、適応先データ、開発用データともいう。)が得られない場合の実施形態である。
このように、ついでに状態尤度が計算されるフレーム数Kを状態ごとに適宜異ならせることにより、状態尤度の無駄な計算処理の量を少なくすることができる。したがって、従来よりも音響尤度の計算を高速化することができ、音声認識処理を高速化することができる。
入力音声が、音響分析部10に入力される。音響分析部10は、入力音声から、一定時間長のフレームごとに特徴量ベクトルXtを計算し、特徴量ベクトルXtの時系列を生成する。生成された特徴量ベクトルXtの時系列は、特徴量ベクトル記憶部20に送られる。
特徴量ベクトル記憶部20は、例えば一時的に特徴量ベクトルXtを記憶するバッファである。
フェッチ部60は、状態尤度計算部31が状態jのフレームtについての状態尤度bj(Xt)を計算する前に、状態jの状態パラメータを、音響モデルが記憶された音響モデル記憶部40から読み込み、状態パラメータ記憶部70に格納する。
状態パラメータ記憶部70は、音響モデル記憶部40よりも読み書きが高速な記憶媒体であり、例えばCPU1のキャッシュ1a(図5参照)である。
フレーム数決定部90の自己遷移確率フレーム数決定部91は、音響モデル記憶部40から読み込まれた状態jの自己遷移確率ajjを用いて、その自己遷移確率ajjが高いほど、大きい整数KA(j)をフレーム数Kとして決定する。フレーム数Kについての情報は、状態尤度計算部31に送られる。
このようにして、自己遷移確率ajjが高いほど、大きな整数を出力する関数KA(j)を定めて、この関数に従い、状態ごとに個別のフレーム数Kを決定する。
状態尤度計算部31は、状態パラメータ記憶部70から読み込んだ状態jのパラメータと、特徴量ベクトル記憶部20から読み込んだフレームtの特徴量ベクトルXtとを用いて、状態jのフレームtについての状態尤度bj(Xt)を計算する。また、これと共に、状態パラメータ記憶部70から読み込んだ状態jのパラメータと、特徴量ベクトル記憶部20から読み込んだフレームt+1,…,t+Kの特徴量ベクトルXt+1,…,Xt+Kとを用いて、状態jのフレームt+1,…,t+Kについての状態尤度bj(Xt+1),…,bj(Xt+K)を更に計算する。
探索部30が音響尤度を計算するために状態尤度bj(Xt+1),…,bj(Xt+K)の何れかが必要になったときに、状態尤度参照部32は状態尤度記憶部80を参照してその状態尤度を求める。
探索部30は、状態尤度参照部32が求めた状態尤度を用いて、背景技術と同様に、音響尤度を計算して、音声認識結果を出力する。
第一実施形態は、適応先データ、開発用データが得られる場合の実施形態である。
開発用データに対して、バッチ状態尤度計算を行わない通常の状態尤度計算により音声認識処理を行い、例えば状態尤度テーブルを得ることにより、全フレームにおける状態尤度の計算が行われたフレームの割合(以下、尤度計算率qjという。)を状態jごとに求める。この尤度計算率qjが高い状態jほど、あるフレームtについての状態尤度bj(Xt)が計算された場合に、次のフレームt+1についての状態尤度bj(Xt+1)が計算される可能性が高いと考えることができる。
すなわち、第二実施形態においては、自己遷移確率ajjと尤度計算率qjの両方を考慮して、フレーム数Kを決定する。
第二実施形態の音声認識装置のフレーム数決定部90は、自己遷移確率フレーム数決定部91に加えて、図1において破線で示す、尤度計算率計算部92、尤度計算率フレーム数決定部93及び統合フレーム数決定部94を例えば含む。
自己遷移確率フレーム数決定部91は、第一実施形態と同様に自己遷移確率ajjが高いほど大きい整数KA(j)を決定する。KA(j)は、統合フレーム数決定部94に送られる。第一実施形態とは異なり、KA(j)がKとしてそのまま状態尤度計算部31には送られない。すなわち、第二実施形態においては、一律にK=KA(j)とはならず、後述するステップS8の処理によりKは定められる。
尤度計算率計算部92は、開発用データに対して、バッチ状態尤度計算を行わない通常の状態尤度計算により音声認識処理を行い、尤度計算率qjを状態jごとに求める。尤度計算率qjは、尤度計算率フレーム数決定部93に送られる。
尤度計算率フレーム数決定部93は、尤度計算率qjが高い状態jほど大きい整数KB(j)を決定する。KB(j)は、統合フレーム数決定部94に送られる。
統合フレーム数決定部94は、KA(j)とKB(j)との両方を考慮して、フレーム数Kを決定する。決定されたフレーム数Kは、状態尤度計算部31に送られる。例えば、f(・)を・の小数点以下を切り捨てして整数を出力する関数、重み係数λを0以上1以下の予め定められた数として、下記の、KA(j)とKB(j)の線形補間式に基づいて、Kを求めてもよい。
λは、KB(j)にどの程度信頼をおくかを調整する重み係数である。手に入る開発データの量が多い等の理由によりKB(j)に信頼がおけると考えられる場合には、重み係数λに1に近い値を与え、逆の場合には、重み係数λには0に近い値を与える。
上記の例では、f(・)を・の小数点以下を切り捨てして整数を出力する関数としたが、f(・)を、・の小数点以下を切り上げして整数を出力する関数、又は、・の小数点以下を四捨五入して整数を出力する関数としてもよい。
上記式(5)において、ajj=alのときに、KA(j)=f((Kmax−Kmin)ajj/(ah−al))+((Kminah−Kmaxal)/(ah−al)))としたが、ajj=alのときに、KA(j)=Kminとしてもよい。また、ajj=ahのときに、KA=Kmaxとしたが、ajj=ahのときに、KA(j)=f((Kmax−Kmin)ajj/(ah−al))+((Kminah−Kmaxal)/(ah−al)))としてもよい。
上述の構成をコンピュータによって実現する場合、音声認識装置の各部が有する機能の処理内容はプログラムによって記述される。そして、このプログラムを図5に例示するコンピュータで実行することにより、上記各部の機能がコンピュータ上で実現される。
−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
20 特徴量ベクトル記憶部
30 探索部
31 状態尤度計算部
32 状態尤度参照部
40 音響モデル記憶部
50 文法記憶部
60 フェッチ部
70 状態パラメータ記憶部
80 状態尤度記憶部
90 フレーム数決定部
91 自己遷移確率フレーム数決定部
92 尤度計算率計算部
93 尤度計算率フレーム数決定部
94 統合フレーム数決定部
Claims (6)
- 状態パラメータ、自己遷移確率を含む音響モデルを記憶する音響モデル記憶部と、
上記音響モデル記憶部よりも高速な状態パラメータ記憶部と、
入力された音声から一定時間長のフレームごとに特徴量ベクトルを求め、特徴量ベクトルの時系列を求める音響分析部と、
上記求まった特徴量ベクトルの時系列を記憶する特徴量ベクトル記憶部と、
j,tをそれぞれ任意の整数、ある状態jがフレームtの特徴量ベクトルXtを出力する確率を状態尤度bj(Xt)として、状態尤度bj(Xt)が計算される前に、状態jの状態パラメータを上記音響モデル記憶部から上記状態パラメータ記憶部に読み込むフェッチ部と、
上記音響モデル記憶部から読み込んだ上記状態jの自己遷移確率ajjが高いほど、大きい整数KA(j)をフレーム数Kとして決定する自己遷移確率フレーム数決定部と、
上記状態パラメータ記憶部から読み込んだ状態jの状態パラメータと、上記特徴量ベクトル記憶部から読み込んだ特徴量ベクトルXtとを用いて状態尤度bj(Xt)を計算すると共に、上記状態パラメータ記憶部から読み込んだ状態jの状態パラメータと、上記特徴量ベクトル記憶部から読み込んだ特徴量ベクトルXt+1,…,Xt+Kとを用いて、状態尤度bj(Xt+1),…,bj(Xt+K)を更に計算する状態尤度計算部と、
上記更に計算された状態尤度bj(Xt+1),…,bj(Xt+K)を格納する状態尤度記憶部と、
状態尤度bj(Xt+1),…,bj(Xt+K)の何れかが必要になったときに、上記状態尤度記憶部を参照して、その状態尤度を求める状態尤度参照部と、
を有する音声認識装置。 - 請求項1に記載の音声認識装置において、
alを予め定められた0以上1以下の数、ahを予め定められたal以上1以下の数、Kminを予め定められた0以上の整数、KmaxをKmin+1以上の予め定められた整数、f(・)を・の小数点以下を切り捨て、切り上げ、四捨五入の何れかをして整数を出力する関数として、
上記自己遷移確率フレーム数決定部は、
自己遷移確率ajjがalより下であれば、KA(j)=Kminとし、
自己遷移確率ajjがalより上ahより下であれば、KA(j)=f((Kmax−Kmin)ajj/(ah−al))+((Kminah−Kmaxal)/(ah−al)))とし、
自己遷移確率ajjがahより上であれば、KA=Kmaxとし、
自己遷移確率ajj=alであれば、KA(j)=Kmin又はKA(j)=f((Kmax−Kmin)ajj/(ah−al))+((Kminah−Kmaxal)/(ah−al)))とし、
自己遷移確率ajj=ahであれば、KA(j)=Kmax又はKA(j)=f((Kmax−Kmin)ajj/(ah−al))+((Kminah−Kmaxal)/(ah−al)))
とする部である、
ことを特徴とする音声認識装置。 - 音響モデル記憶部を、状態パラメータ、自己遷移確率を含む音響モデルを記憶する記憶部とし、
状態パラメータ記憶部を、上記音響モデル記憶部よりも高速な記憶部とし、
音響分析部が、入力された音声から一定時間長のフレームごとに特徴量ベクトルを求め、特徴量ベクトルの時系列を特徴量ベクトル記憶部に格納する音響分析ステップと、
フェッチ部が、j,tをそれぞれ任意の整数、ある状態jがフレームtの特徴量ベクトルXtを出力する確率を状態尤度bj(Xt)として、状態尤度bj(Xt)が計算される前に、状態jの状態パラメータを上記音響モデル記憶部から上記状態パラメータ記憶部に読み込むフェッチステップと、
自己遷移確率フレーム数決定部が、上記音響モデル記憶部から読み込んだ上記状態jの自己遷移確率ajjが高いほど、大きい整数KA(j)をフレーム数Kとして決定する自己遷移確率フレーム数決定ステップと、
状態尤度計算部が、上記状態パラメータ記憶部から読み込んだ状態jの状態パラメータと、上記特徴量ベクトル記憶部から読み込んだ特徴量ベクトルXtとを用いて状態尤度bj(Xt)を計算すると共に、上記状態パラメータ記憶部から読み込んだ状態jの状態パラメータと、上記特徴量ベクトル記憶部から読み込んだ特徴量ベクトルXt+1,…,Xt+Kとを用いて、状態尤度bj(Xt+1),…,bj(Xt+K)を更に計算して、それらの更に計算された状態尤度bj(Xt+1),…,bj(Xt+K)を状態尤度記憶部に格納する状態尤度計算ステップと、
状態尤度参照部が、状態尤度bj(Xt+1),…,bj(Xt+K)の何れかが必要になったときに、上記状態尤度記憶部を参照して、その状態尤度を求める状態尤度参照ステップと、
を有する音声認識方法。 - 請求項3に記載の音声認識方法において、
alを予め定められた0以上1以下の数、ahを予め定められたal以上1以下の数、Kminを予め定められた0以上の整数、KmaxをKmin+1以上の予め定められた整数、f(・)を・の小数点以下を切り捨て、切り上げ、四捨五入の何れかをして整数を出力する関数として、
上記自己遷移確率フレーム数決定ステップは、
自己遷移確率ajjがalより下であれば、KA(j)=Kminとし、
自己遷移確率ajjがalより上ahより下であれば、KA(j)=f((Kmax−Kmin)ajj/(ah−al))+((Kminah−Kmaxal)/(ah−al)))とし、
自己遷移確率ajjがahより上であれば、KA=Kmaxとし、
自己遷移確率ajj=alであれば、KA(j)=Kmin又はKA(j)=f((Kmax−Kmin)ajj/(ah−al))+((Kminah−Kmaxal)/(ah−al)))とし、
自己遷移確率ajj=ahであれば、KA(j)=Kmax又はKA(j)=f((Kmax−Kmin)ajj/(ah−al))+((Kminah−Kmaxal)/(ah−al)))
とするステップである、
ことを特徴とする音声認識方法。 - 請求項1又は2に記載の音声認識装置の各部としてコンピュータを機能させるための音声認識プログラム。
- 請求項5に記載の音声認識プログラムが記録されたコンピュータ読み取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008055977A JP4801107B2 (ja) | 2008-03-06 | 2008-03-06 | 音声認識装置、方法、プログラム及びその記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008055977A JP4801107B2 (ja) | 2008-03-06 | 2008-03-06 | 音声認識装置、方法、プログラム及びその記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009210975A JP2009210975A (ja) | 2009-09-17 |
JP4801107B2 true JP4801107B2 (ja) | 2011-10-26 |
Family
ID=41184167
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008055977A Expired - Fee Related JP4801107B2 (ja) | 2008-03-06 | 2008-03-06 | 音声認識装置、方法、プログラム及びその記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4801107B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102637733B1 (ko) | 2018-10-31 | 2024-02-19 | 삼성전자주식회사 | 뉴럴 네트워크 프로세서 및 그것의 컨볼루션 연산 방법 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000242295A (ja) * | 1999-02-24 | 2000-09-08 | Mitsubishi Electric Corp | 音声認識装置および音声対話装置 |
US7529671B2 (en) * | 2003-03-04 | 2009-05-05 | Microsoft Corporation | Block synchronous decoding |
-
2008
- 2008-03-06 JP JP2008055977A patent/JP4801107B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2009210975A (ja) | 2009-09-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6686154B2 (ja) | 発話認識方法及び装置 | |
JP4427530B2 (ja) | 音声認識装置、プログラムおよび音声認識方法 | |
JP2006510933A (ja) | センサ・ベース音声認識装置の選択、適応、および組合せ | |
JP5752060B2 (ja) | 情報処理装置、大語彙連続音声認識方法及びプログラム | |
US7689419B2 (en) | Updating hidden conditional random field model parameters after processing individual training samples | |
JP2018060047A (ja) | 音響モデルの学習装置及びそのためのコンピュータプログラム | |
JP6552999B2 (ja) | テキスト補正装置、テキスト補正方法、およびプログラム | |
JP5180800B2 (ja) | 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム | |
JP2005208648A (ja) | スイッチング状態空間モデルによるマルチモーダル的変分推論を使用して音声を認識する方法 | |
JP4829871B2 (ja) | 学習データ選択装置、学習データ選択方法、プログラムおよび記録媒体、音響モデル作成装置、音響モデル作成方法、プログラムおよび記録媒体 | |
WO2019107170A1 (ja) | 緊急度推定装置、緊急度推定方法、プログラム | |
JP4881357B2 (ja) | 音響モデル作成装置、その装置を用いた音声認識装置、これらの方法、これらのプログラム、およびこれらの記録媒体 | |
JP4950600B2 (ja) | 音響モデル作成装置、その装置を用いた音声認識装置、これらの方法、これらのプログラム、およびこれらの記録媒体 | |
JP5288378B2 (ja) | 音響モデルの話者適応装置及びそのためのコンピュータプログラム | |
JP4801107B2 (ja) | 音声認識装置、方法、プログラム及びその記録媒体 | |
JP4801108B2 (ja) | 音声認識装置、方法、プログラム及びその記録媒体 | |
JP4729078B2 (ja) | 音声認識装置とその方法と、プログラムとその記録媒体 | |
JP4537970B2 (ja) | 言語モデル作成装置、言語モデル作成方法、そのプログラムおよびその記録媒体 | |
JP4298672B2 (ja) | 混合分布hmmの状態の出力確率計算方法および装置 | |
JP2005156593A (ja) | 音響モデル作成方法、音響モデル作成装置、音響モデル作成プログラムおよび音声認識装置 | |
JP5369079B2 (ja) | 音響モデル作成方法とその装置とプログラム | |
WO2021044606A1 (ja) | 学習装置、推定装置、それらの方法、およびプログラム | |
JP5166195B2 (ja) | 音響分析パラメータ生成方法とその装置と、プログラムと記録媒体 | |
JP4843646B2 (ja) | 音声認識装置とその方法と、プログラムと記録媒体 | |
JP4909318B2 (ja) | 音響モデル作成方法、音響モデル作成装置、そのプログラム、その記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100114 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110624 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110726 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110804 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140812 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |