JP2013164572A

JP2013164572A - 音声特徴量抽出装置、音声特徴量抽出方法及び音声特徴量抽出プログラム

Info

Publication number: JP2013164572A
Application number: JP2012053506A
Authority: JP
Inventors: Masanobu Nakamura; 匡伸中村; Takashi Masuko; 貴史益子
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2012-01-10
Filing date: 2012-03-09
Publication date: 2013-08-22
Also published as: US20130179158A1; US9754603B2

Abstract

【課題】音声認識の耐雑音性能を向上させることのできる音声特徴量を抽出する。
【解決手段】実施形態によれば、音声特徴量抽出装置は、切り出し部１０１と、算出部１０６とを含む。切り出し部１０１は、入力音声信号１０及び入力音声信号１０から複数の周波数帯域の信号成分を抽出することによって得られる複数のサブバンド入力音声信号のうちいずれか一方から単位時間毎に所定の時間長に亘る音声波形を切り出すことによって、単位音声信号１１及び複数のサブバンド単位音声信号のうちいずれか一方を生成する。算出部１０６は、複数の周波数帯域の各々における単位音声信号１１の平均時間及び複数のサブバンド単位音声信号の各々の平均時間のうちいずれか一方を算出することによって、音声特徴量１６を得る。
【選択図】図１

Description

実施形態は、音声特徴量の抽出技術に関する。

雑音環境下で実用可能な音声認識技術の重要性が高まっている。雑音環境下では、雑音による音声認識精度の劣化が問題となる。音声認識は、入力音声信号から抽出された音声特徴量を使用して行われる。音声特徴量の一種としてメル周波数ケプストラム係数（ＭＦＣＣ；Ｍｅｌ−ＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒｕｍＣｏｅｆｆｉｃｉｅｎｔ）が知られている。しかしながら、ＭＦＣＣのみを使用する音声認識はその耐雑音性能が十分に高いとは言い難い。故に、音声認識の耐雑音性能を向上させることのできる音声特徴量が望まれる。

山本ら，「長時間位相特徴と振幅スペクトル特徴の併用による音声認識の検討」（２０１１年秋季日本音響学会論文集２−Ｑ−１３）Ｌ．コーエン，「時間―周波数解析」（朝倉書店），１９９８年１０月１日，第４−５頁山本ら，「長時間分析に基づく位相情報を用いた音声認識の検討」（音声信号処理技術報告ＳＰ２０１０−４０）

実施形態は、音声認識の耐雑音性能を向上させることのできる音声特徴量を抽出することを目的とする。

実施形態によれば、音声特徴量抽出装置は、切り出し部と、第１の算出部とを含む。切り出し部は、入力音声信号及び前記入力音声信号から複数の周波数帯域の信号成分を抽出することによって得られる複数のサブバンド入力音声信号のうちいずれか一方から単位時間毎に所定の時間長に亘る音声波形を切り出すことによって、単位音声信号及び複数のサブバンド単位音声信号のうちいずれか一方を生成する。第１の算出部は、複数の周波数帯域の各々における前記単位音声信号の平均時間及び前記複数のサブバンド単位音声信号の各々の平均時間のうちいずれか一方を算出することによって、音声特徴量を得る。

第１の実施形態に係る音声特徴量抽出装置を例示するブロック図。図１の音声特徴量抽出装置の動作を例示するフローチャート。第２の実施形態に係る音声特徴量抽出装置を例示するブロック図。図３の音声特徴量抽出装置の動作を例示するフローチャート。第２の実施形態の比較例に係る音声特徴量抽出装置の動作を例示するフローチャート。第２の実施形態の効果の説明図。第３の実施形態に係る音声認識装置を例示するブロック図。第４の実施形態に係る音声特徴量抽出装置を例示するブロック図。図８の音声特徴量抽出装置の動作を例示するフローチャート。第４の実施形態において算出される帯域別平均時間の説明図。第１の実施形態及び第４の実施形態において算出される帯域別平均時間を夫々示すグラフ。第１の実施形態及び第４の実施形態において算出される帯域別平均時間を夫々示すグラフ。第５の実施形態に係る音声特徴量抽出装置を例示するブロック図。図１３の音声特徴量抽出装置の動作を例示するフローチャート。第１の実施形態及び第４の実施形態において算出される帯域別平均時間を夫々示すグラフ。

以下、図面を参照しながら実施形態の説明が述べられる。尚、以降、説明済みの要素と同一または類似の要素には同一または類似の符号が付され、重複する説明は基本的に省略される。

（第１の実施形態）
図１に例示されるように、第１の実施形態に係る音声特徴量抽出装置は、波形切り出し部１０１と、パワースペクトル算出部１０２と、第３のスペクトル算出部１０３と、フィルタバンク適用部１０４，１０５と、帯域別平均時間算出部１０６と、軸変換部１０７とを備える。図１の音声特徴量抽出装置は、入力音声信号１０から音声特徴量１７を抽出する。

波形切り出し部１０１は、外部から入力音声信号１０を取得する。波形切り出し部１０１は、入力音声信号１０から単位時間毎に時間長Ｔ（例えば、Ｔ＝５６ミリ秒）の音声波形を切り出すことによって時刻（ｎ）での単位音声信号１１（ｘ_ｎ（ｔ））を生成する。尚、以降の説明において、時間長Ｔは分析窓幅とも呼ばれる。波形切り出し部１０１は、時間長Ｔの音声波形を切り出す処理に加えて、切り出した音声波形の直流成分を除去する処理、切り出した音声波形の高周波成分を強調する処理、切り出した音声波形に窓関数（例えば、ハミング窓）を乗算する処理などを行うことによって、単位音声信号１１を生成してもよい。波形切り出し部１０１は、単位音声信号１１をパワースペクトル算出部１０２及び第３のスペクトル算出部１０３へと出力する。

パワースペクトル算出部１０２は、波形切り出し部１０１から単位音声信号１１を入力する。パワースペクトル算出部１０２は、単位音声信号１１のパワースペクトル１２を算出する。具体的には、単位音声信号１１に複素フーリエ変換を施すことによって下記数式（１）に示されるように、周波数（ω）毎の第１のスペクトル（Ｘ（ω））が導出できる。

ここで、Ｘ_Ｒ（ω）は第１のスペクトル（Ｘ（ω））の実部を表し、Ｘ_Ｉ（ω）は第１のスペクトル（Ｘ（ω））の虚部を表し、ｊは虚数単位を表す。更に、パワースペクトル算出部１０２は、下記数式（２）に示されるように、第１のスペクトルのパワーを算出することによってパワースペクトル１２を得る。

パワースペクトル算出部１０２は、パワースペクトル１２をフィルタバンク適用部１０４へと出力する。

第３のスペクトル算出部１０３は、波形切り出し部１０１から単位音声信号１１を入力する。第３のスペクトル算出部１０３は、前述の第１のスペクトル（Ｘ（ω））と、単位音声信号１１（ｘ_ｎ（ｔ））及び時刻（ｔ）の積の第２のスペクトルとを利用して第３のスペクトル１３を算出する。例えば、下記数式（３）に示されるように、単位音声信号１１（ｘ_ｎ（ｔ））及び時刻（ｔ）の積に複素フーリエ変換を施すことによって周波数（ω）毎の第２のスペクトルが導出できる。

ここで、Ｙ_Ｒ（ω）は第２のスペクトル（Ｙ（ω））の実部を表し、Ｙ_Ｉ（ω）は第２のスペクトル（Ｙ（ω））の虚部を表す。そして、第３のスペクトル算出部１０３は、第１のスペクトルの実部（Ｘ_Ｒ（ω））と第２のスペクトルの実部（Ｙ_Ｒ（ω））との第１の積を算出し、第１のスペクトルの虚部（Ｘ_Ｉ（ω））と第２のスペクトルの虚部（Ｙ_Ｉ（ω））との第２の積を算出し、第１の積及び第２の積を加算することによって、第３のスペクトル１３を得る。即ち、第３のスペクトル算出部１０３は、下記数式（４）に示されるように、周波数（ω）毎の第３のスペクトル１３（ＸＹ（ω））を算出できる。

第３のスペクトル算出部１０３は、第３のスペクトル１３をフィルタバンク適用部１０５へと出力する。

フィルタバンク適用部１０４は、パワースペクトル算出部１０２からパワースペクトル１２を入力する。フィルタバンク適用部１０４は、パワースペクトル１２にフィルタバンクを適用し、フィルタ処理されたパワースペクトル１４を得る。フィルタバンク適用部１０４は、フィルタ処理されたパワースペクトル１４を帯域別平均時間算出部１０６へと出力する。フィルタバンク適用部１０４によって適用されるフィルタバンクは、１または複数（例えば、１６個）の周波数フィルタを備える。各周波数フィルタは、三角フィルタ、矩形フィルタなどであってよい。また、このフィルタバンクは、メルフィルタバンク、線形フィルタバンクなどであってよい。

フィルタバンク適用部１０５は、第３のスペクトル算出部１０３から第３のスペクトル１３を入力する。フィルタバンク適用部１０５は、第３のスペクトル１３にフィルタバンクを適用し、フィルタ処理された第３のスペクトル１５を得る。フィルタバンク適用部１０５は、フィルタ処理された第３のスペクトル１５を帯域別平均時間算出部１０６へと出力する。フィルタバンク適用部１０５によって適用されるフィルタバンクは、フィルタバンク適用部１０４によって適用されるフィルタバンクと同数の周波数フィルタを備える必要がある。好ましくは、フィルタバンク適用部１０５は、フィルタバンク適用部１０４と同一のフィルタバンクを適用する。以降の説明において、フィルタバンク適用部１０５は、フィルタバンク適用部１０４と同一のフィルタバンクを適用すると仮定される。

帯域別平均時間算出部１０６は、フィルタバンク適用部１０４からフィルタ処理されたパワースペクトル１４を入力し、フィルタバンク適用部１０５からフィルタ処理された第３のスペクトル１５を入力する。帯域別平均時間算出部１０６は、フィルタ処理されたパワースペクトル１４及びフィルタ処理された第３のスペクトル１５に基づいて、１以上の周波数帯域（サブバンドと呼ばれてもよい）の各々における単位音声信号１１の平均時間（以降の説明において、帯域別平均時間１６とも称される）を算出する。帯域別平均時間算出部１０６は、帯域別平均時間１６を軸変換部１０７へと出力する。尚、帯域別平均時間算出部１０６の処理の詳細は後述される。

軸変換部１０７は、帯域別平均時間算出部１０６から帯域別平均時間１６を入力する。軸変換部１０７は、帯域別平均時間１６に軸変換処理を施し、音声特徴量１７を生成する。以降の説明において、音声特徴量１７は、帯域別平均時間ケプストラム（Ｓｕｂ−ｂａｎｄＡｖｅｒａｇｅＴｉｍｅＣｅｐｓｔｒｕｍ：ＳＡＴＣ）とも呼ばれる。軸変換部１０７は、例えば、離散コサイン変換（ＤｉｓｃｒｅｔｅＣｏｓｉｎｅＴｒａｎｓｆｏｒｍ：ＤＣＴ）を用いることができる。軸変換部１０７は、音声特徴量１７を外部へと出力する。尚、軸変換部１０７は省略されてもよい。係る場合には、帯域別平均時間１６が、音声特徴量１７として外部へと出力される。例えば、フィルタバンク適用部１０４，１０５によって適用されるフィルタバンクが備える周波数フィルタの総数が１である場合には、軸変換部１０７は不要である。

ここで、帯域別平均時間１６は、１以上の周波数帯域の各々における単位音声信号１１のエネルギー重心までの時間を意味する。尚、一般的な信号の平均時間について、非特許文献２は下記数式（５）に示す定義を開示する。

ここで、ｓ（ｔ）は分析窓中で信号のパワーを正規化することによって得られるパワー正規化信号を表し、Ｓ（ω）はパワー正規化信号（ｓ（ｔ））を複素フーリエ変換することによって得られる周波数（ω）毎のスペクトルを表し、τ_ｇ（ω）は周波数（ω）毎の群遅延スペクトルを表す。数式（５）は、全周波数帯域に亘る信号の平均時間を定義している。具体的には、数式（５）において、右辺の分子は群遅延スペクトル及びパワースペクトルの積の全周波数帯域に亘る総和を表し、右辺の分母はパワースペクトルの全周波数帯域に亘る総和を表す。他方、帯域別平均時間１６は、前述の通り、１以上の周波数帯域の各々における単位音声信号１１の平均時間を意味する。そして、第ｍ番目の周波数帯域（Ω_ｍ）における単位音声信号１１の平均時間（＜ｔ＞_（ｍ））は、例えば下記数式（６）に従って算出できる。ここで、ｍは１以上の周波数帯域の各々を識別するためのインデックスであり、１以上Ｍ以下の整数となる。Ｍは、周波数帯域の総数を表しており、周波数（ω）のｂｉｎ数よりも小さいとする。

ここで、ｈ_ｍ（ω）は、フィルタバンク適用部１０４，１０５によって適用されるフィルタバンクのうち第ｍ番目の周波数帯域（Ω_ｍ）に対応する周波数フィルタを表す。数式（６）のうち群遅延スペクトル（τ_ｇ（ω））は、下記数式（７）に示されるように、表すこともできる。

上記数式（２），（４），（７）によれば、上記数式（６）における群遅延スペクトル及びパワースペクトルの積（τ_ｇ（ω）｜Ｘ（ω）｜^２）は、第３のスペクトル（ＸＹ（ω））に等しい。故に、数式（７）に基づいて、上記数式（６）は下記数式（８）のように書き換えることができる。

数式（８）において、ｈ_ｍ（ω）｜Ｘ（ω）｜^２は、フィルタ処理されたパワースペクトル１４に相当し、ｈ_ｍ（ω）ＸＹ（ω）はフィルタ処理された第３のスペクトル１５に相当する。即ち、帯域別平均時間算出部１０６は、フィルタ処理された第３のスペクトル１５の第ｍ番目の周波数帯域（Ω_ｍ）における総和をフィルタ処理されたパワースペクトル１４の第ｍ番目の周波数帯域（Ω_ｍ）における総和によって除算することによって、第ｍ番目の周波数帯域（Ω_ｍ）の帯域別平均時間１６を得る。

図１の音声特徴量抽出装置は、図２に例示されるように動作できる。波形切り出し部１０１は、外部から取得した入力音声信号１０から単位時間毎に時間長Ｔの音声波形を切り出すことによって単位音声信号１１を生成する（ステップＳ１０１）。

パワースペクトル算出部１０２は、ステップＳ１０１において生成された単位音声信号１１のパワースペクトル１２を算出する（ステップＳ１０２）。具体的には、パワースペクトル算出部１０２は、前述の第１のスペクトル（Ｘ（ω））のパワーを算出することによって、パワースペクトル１２を得る。フィルタ適用部１０４は、ステップＳ１０２において算出されたパワースペクトル１２にフィルタバンクを適用し、フィルタ処理されたパワースペクトル１４を得る（ステップＳ１０４）。

第３のスペクトル算出部１０３は、ステップＳ１０１において生成された単位音声信号１１のパワースペクトル１２を算出する（ステップＳ１０３）。具体的には、第３のスペクトル算出部１０３は、第１のスペクトルの実部（Ｘ_Ｒ（ω））と第２のスペクトルの実部（Ｙ_Ｒ（ω））との第１の積を算出し、第１のスペクトルの虚部（Ｘ_Ｉ（ω））と第２のスペクトルの虚部（Ｙ_Ｉ（ω））との第２の積を算出し、第１の積及び第２の積を加算することによって、第３のスペクトル１３を得る。フィルタ適用部１０５は、ステップＳ１０３において算出された第３のスペクトル１３にフィルタバンクを適用し、フィルタ処理された第３のスペクトル１５を得る（ステップＳ１０５）。

ここで、ステップＳ１０２，Ｓ１０４の一連の処理と、ステップＳ１０３，Ｓ１０５の一連の処理との間には依存関係が存在しないので、ステップＳ１０１の完了後に、両者が並列的に実行されてもよいし、直列的に実行されてもよい。

帯域別平均時間算出部１０６は、ステップＳ１０４において得られたフィルタ処理されたパワースペクトル１４及びステップＳ１０５において得られたフィルタ処理された第３のスペクトル１５に基づいて帯域別平均時間１６を算出する（ステップＳ１０６）。具体的には、帯域別平均時間算出部１０６は、フィルタ処理された第３のスペクトル１５の第ｍ番目の周波数帯域（Ω_ｍ）における総和をフィルタ処理されたパワースペクトル１４の第ｍ番目の周波数帯域（Ω_ｍ）における総和によって除算することによって、第ｍ番目の周波数帯域（Ω_ｍ）の帯域別平均時間１６を得る。軸変換部１０７は、ステップＳ１０６において算出された帯域別平均時間１６に対して軸変換処理を施し、音声特徴量１７を生成する。

以上説明したように、第１の実施形態に係る音声特徴量抽出装置は、ＳＡＴＣを音声特徴量として抽出する。この音声特徴量抽出装置によれば、例えば、ＳＡＴＣをＭＦＣＣなどの従来の音声特徴量に結合（追加）して使用することによって、音声認識の耐雑音性能を向上させることができる。

尚、本実施形態において、フィルタバンク適用部１０４，１０５は、省略されてもよい。係る場合には、帯域別平均時間算出部１０６は、パワースペクトル１２及び第３のスペクトル１３に基づいて、帯域別平均時間１６を算出する。具体的には、帯域別平均時間算出部１０６は、下記数式（９）を利用できる。

数式（９）において、｜Ｘ（ω）｜^２は、パワースペクトル１２に相当し、ＸＹ（ω）は第３のスペクトル１３に相当する。即ち、帯域別平均時間算出部１０６は、第３のスペクトル１３の第ｍ番目の周波数帯域（Ω_ｍ）における総和をパワースペクトル１２の第ｍ番目の周波数帯域（Ω_ｍ）における総和によって除算し、第ｍ番目の周波数帯域（Ω_ｍ）の帯域別平均時間１６を得る。

（第２の実施形態）
前述の第１の実施形態において、例えば上記数式（８）に従って、パワースペクトル及び第３のスペクトルに基づいて帯域別平均時間が算出される。他方、上記数式（６）によれば、群遅延スペクトル及びパワースペクトルに基づいて帯域別平均時間を算出することもできる。

図３に例示されるように、第２の実施形態に係る音声特徴量抽出装置は、波形切り出し部１０１と、パワースペクトル算出部１０２と、フィルタバンク適用部１０４と、軸変換部１０７と、群遅延スペクトル算出部２０８と、スペクトル乗算部２０９と、フィルタバンク適用部２１０と、帯域別平均時間算出部２１１とを備える。図３の音声特徴量抽出装置は、入力音声信号１０から音声特徴量２２を抽出する。

群遅延スペクトル算出部２０８は、波形切り出し部１０１から単位音声信号１１を入力する。群遅延スペクトル算出部２０８は、単位音声信号１１の群遅延スペクトル１８を算出する。群遅延スペクトル算出部２０８は、群遅延スペクトル１８をスペクトル乗算部２０９へと出力する。

例えば、群遅延スペクトル算出部２０８は、上記数式（７）に第１のスペクトルの実部（Ｘ_Ｒ（ω））及び虚部（Ｘ_Ｉ（ω））と、第２のスペクトルの実部（Ｙ_Ｒ（ω））及び虚部（Ｙ_Ｉ（ω））とを代入することによって、群遅延スペクトル１８を算出してもよい。

或いは、群遅延スペクトル算出部２０８は、上記数式（７）とは異なる技法で群遅延スペクトル１８を算出してもよい。具体的には、群遅延スペクトル１８（τ_ｇ（ω））は、下記数式（１０）に示されるように、第１のスペクトル（Ｘ（ω））の位相項（θ（ω））を周波数（ω）について微分し、その符号を反転することによって得られる値として定義される。

ここで、位相項（θ（ω））は下記数式（１１）によって定義される。

従って、群遅延スペクトル算出部２０８は、非特許文献３に記載されているように、数式（１１）に示される位相項（θ（ω））の周波数（ω）軸方向の差分値を用いて群遅延スペクトル１８を算出してもよい。尚、本技法によって群遅延スペクトル１８を算出する場合には、位相項（θ（ω））の値域を−πからπまでの範囲に収めるために位相アンラッピング処理を行う必要がある。

スペクトル乗算部２０９は、パワースペクトル算出部１０２からパワースペクトル１２を入力し、群遅延スペクトル算出部２０８から群遅延スペクトル１８を入力する。スペクトル乗算部２０９は、群遅延スペクトル１８をパワースペクトル１２に乗算し、乗算スペクトル１９を得る。スペクトル乗算部２０９は、乗算スペクトル１９をフィルタバンク適用部２１０へと出力する。尚、乗算スペクトル１９は、前述の第３のスペクトル１３に相当する。

フィルタバンク適用部２１０は、乗算スペクトル算出部２０９から乗算スペクトル１９を入力する。フィルタバンク適用部２１０は、乗算スペクトル１９にフィルタバンクを適用し、フィルタ処理された乗算スペクトル２０を得る。フィルタバンク適用部２１０は、フィルタ処理された乗算スペクトル２０を帯域別平均時間算出部２１１へと出力する。フィルタバンク適用部２１０によって適用されるフィルタバンクは、フィルタバンク適用部１０４によって適用されるフィルタバンクと同数の周波数フィルタを備える必要がある。好ましくは、フィルタバンク適用部２１０は、フィルタバンク適用部１０４と同一のフィルタバンクを適用する。以降の説明において、フィルタバンク適用部２１０は、フィルタバンク適用部１０４と同一のフィルタバンクを適用すると仮定される。

帯域別平均時間算出部２１１は、フィルタバンク適用部１０４からフィルタ処理されたパワースペクトル１４を入力し、フィルタバンク適用部２１０からフィルタ処理された乗算スペクトル２０を入力する。帯域別平均時間算出部２１１は、フィルタ処理されたパワースペクトル１４及びフィルタ処理された乗算スペクトル２０に基づいて、１以上の周波数帯域の各々における単位音声信号１１の平均時間（以降の説明において、帯域別平均時間２１とも称される）を算出する。

具体的には、帯域別平均時間算出部２１１は、上記数式（６）を利用できる。尚、数式（６）において、ｈ_ｍ（ω）τ_ｇ（ω）｜Ｘ（ω）｜^２はフィルタ処理された乗算スペクトル２０に相当し、ｈ_ｍ（ω）｜Ｘ（ω）｜^２はフィルタ処理されたパワースペクトル１４に相当する。即ち、帯域別平均時間算出部２１１は、フィルタ処理された乗算スペクトル２０の第ｍ番目の周波数帯域（Ω_ｍ）における総和をフィルタ処理されたパワースペクトル１４の第ｍ番目の周波数帯域（Ω_ｍ）における総和によって除算し、第ｍ番目の周波数帯域（Ω_ｍ）の帯域別平均時間２１を得る。帯域別平均時間算出部２１１は、帯域別平均時間２１を軸変換部１０７へと出力する。

軸変換部１０７は、帯域別平均時間算出部２１１から帯域別平均時間２１を入力する。軸変換部１０７は、帯域別平均時間２１に第１の実施形態と同一または類似の軸変換処理を施し、音声特徴量２２を生成する。音声特徴量２２は、前述の音声特徴量１７に相当し、ＳＡＴＣとも呼ばれる。軸変換部１０７は、音声特徴量２２を外部へと出力する。尚、軸変換部１０７は省略されてもよい。係る場合には、帯域別平均時間２１が、音声特徴量２２として外部へと出力される。例えば、フィルタバンク適用部１０４，２１０によって適用されるフィルタバンクが備える周波数フィルタの総数が１である場合には、軸変換部１０７は不要である。

図３の音声特徴量抽出装置は、図４に例示されるように動作できる。群遅延スペクトル算出部２０８は、ステップＳ１０１において生成された単位音声信号１１の群遅延スペクトル１８を算出する（ステップＳ２０８）。具体的には、群遅延スペクトル算出部２０８は、上記数式（７）を利用して群遅延スペクトル１８を算出してもよいし、上記数式（１１）に示される位相項（θ（ω））の周波数（ω）軸方向の差分値を用いて群遅延スペクトル１８を算出してもよい。

ここで、ステップＳ１０２の処理と、ステップＳ２０８の処理との間には依存関係が存在しないので、ステップＳ１０２の完了後に両者が並列的に実行されてもよいし、直列的に実行されてもよい。

スペクトル乗算部２０９は、ステップＳ２０８において算出された群遅延スペクトル１８をステップＳ１０２において算出されたパワースペクトル１２に乗算し、乗算スペクトル１９を得る（ステップＳ２０９）。フィルタ適用部２１０は、ステップＳ２０９において算出された乗算スペクトル１９にフィルタバンクを適用し、フィルタ処理された乗算スペクトル２０を得る（ステップＳ２１０）。

ここで、ステップＳ２０９，Ｓ２１０の一連の処理と、ステップＳ１０４の処理との間には依存関係が存在しないので、ステップＳ１０２の完了後に、両者が並列的に実行されてもよいし、直列的に実行されてもよい。但し、ステップＳ２０９の処理は、ステップＳ１０２だけでなくステップＳ２０８の完了後に実行される必要がある。

帯域別平均時間算出部２１１は、ステップＳ１０４において得られたフィルタ処理されたパワースペクトル１４及びステップＳ２１０において得られたフィルタ処理された乗算スペクトル２０に基づいて帯域別平均時間２１を算出する（ステップＳ２１１）。具体的には、帯域別平均時間算出部２１１は、フィルタ処理された第３のスペクトル２０の第ｍ番目の周波数帯域（Ω_ｍ）における総和をフィルタ処理されたパワースペクトル１４の第ｍ番目の周波数帯域（Ω_ｍ）における総和によって除算することによって、第ｍ番目の周波数帯域（Ω_ｍ）の帯域別平均時間２１を得る。軸変換部１０７は、ステップＳ２１１において算出された帯域別平均時間２１に対して軸変換処理を施し、音声特徴量２２を生成する。

以上説明したように、第２の実施形態に係る音声特徴量抽出装置は、前述のＳＡＴＣを音声特徴量として抽出する。従って、この音声特徴量抽出装置によれば、第１の実施形態と同一または類似の効果を得ることができる。

以下、２つの比較例と本実施形態との対比を通じて本実施形態の効果が説明される。以降の説明において、比較例１は、ＭＦＣＣのみを使用する従来の音声認識に対応する。比較例２は、非特許文献１に開示される長時間群遅延ケプストラムをＭＦＣＣに結合して得られる音声特徴量を使用する音声認識に対応する。具体的には、比較例２における長時間群遅延ケプストラムは、図５に例示されるように動作する音声特徴量抽出装置によって抽出される。

比較例２に係る音声特徴量抽出装置は、入力音声信号から単位時間毎に音声波形を切り出すことによって単位音声信号を生成する（ステップＳ１０１）。この音声特徴量抽出装置は、ステップＳ１０１において生成された単位音声信号の群遅延スペクトルを算出する（ステップＳ２０８）。この音声特徴量抽出装置は、ステップＳ２０８において算出された群遅延スペクトルに基づいて帯域別群遅延スペクトルを算出する（ステップＳ３１２）。この音声特徴量抽出装置は、ステップＳ３１２において算出された帯域別群遅延スペクトルに対して軸変換処理を施し、長時間群遅延ケプストラムを生成する（ステップＳ１０７）。

図６は、本実施形態に係る音声特徴量抽出装置によって抽出されたＳＡＴＣをＭＦＣＣに結合して得られる音声特徴量を使用する音声認識の結果と、比較例１に係る音声認識の結果と、比較例２に係る音声認識の結果とを示す。具体的には、図６は、駅構内などの雑音環境下において、上記３種類の特徴量を用いて約１０万語彙の孤立単語認識を行った場合の単語認識性能（％）を示す。本評価実験は雑音環境における単語認識性能を確認するために、２０，１５，１０，５，０（ｄＢ）の５段階の信号耐雑音比（ＳＮＲ）の下で単語認識性能を夫々評価した。図６には、５段階のＳＮＲの下で夫々評価された単語認識性能の平均値が示されている。また、本評価実験は、長時間群遅延ケプストラム及びＳＡＴＣについて、複数段階の分析窓幅（ミリ秒）の下で単語認識性能を夫々評価した。

比較例１は、分析窓幅を２５ミリ秒に固定して抽出したＭＦＣＣのみを用いているため、分析窓幅に依存せず一定の単語認識性能を達成する。また、比較例２は、分析窓幅に依存してその単語認識性能が変動するものの大部分の分析窓幅（＝５６〜１５２ミリ秒）の下で比較例１よりも高い単語認識性能を達成する。但し、その性能改善率は、例えば分析窓幅＝１５２ミリ秒の場合に最大で約３．６％に留まる。他方、本実施形態は、全ての分析窓幅（＝２５〜２１６ミリ秒）の下で比較例１，２よりも高い単語認識性能を達成する。具体的には、分析窓幅＝５６ミリ秒の場合の性能改善率が最大で約９．５％となる。以上の通り、本評価実験によれば、例えばＭＦＣＣなどの従来の音声特徴量にＳＡＴＣを結合して得られる音声特徴量を使用することによって音声認識の耐雑音性能が向上することが定量的に理解できる。

尚、本実施形態において、フィルタバンク適用部１０４，２１０は、省略されてもよい。係る場合には、帯域別平均時間算出部２１１は、パワースペクトル１２及び乗算スペクトル１９に基づいて、帯域別平均時間２１を算出する。具体的には、帯域別平均時間算出部２１１は、下記数式（１２）を利用できる。

数式（１２）において、｜Ｘ（ω）｜^２は、パワースペクトル１２に相当し、τ_ｇ（ω）｜Ｘ（ω）｜^２は乗算スペクトル１９に相当する。即ち、帯域別平均時間算出部２１１は、乗算スペクトル１９の第ｍ番目の周波数帯域（Ω_ｍ）における総和をパワースペクトル１２の第ｍ番目の周波数帯域（Ω_ｍ）における総和によって除算し、第ｍ番目の周波数帯域（Ω_ｍ）の帯域別平均時間２１を得る。

（第３の実施形態）
図７に例示されるように、第３の実施形態に係る音声認識装置は、特徴量抽出部４００と、デコーダ４０１と、音響モデル記憶部４０２と、言語モデル記憶部４０３とを備える。図７の音声認識装置は、入力音声信号１０に対して音声認識処理を行って、当該入力音声信号１０の内容を示す言語テキストを音声認識結果として出力する。

特徴量抽出部４００は、前述の第１乃至第２の実施形態または後述される第４乃至第５の実施形態に係る音声特徴量抽出装置が組み込まれてもよい。特徴量抽出部４００は、外部から入力音声信号１０を取得する。特徴量抽出部４００は、入力音声信号１０から少なくともＳＡＴＣを含む音声特徴量１７を抽出する。特徴量抽出部４００は、デコーダ４０１へと出力する。

デコーダ４０１は、特徴量抽出部４００から音声特徴量１７を入力する。デコーダ４０１は、音響モデル記憶部４０２に記憶された音響モデルと、言語モデル記憶部４０３に記憶された言語モデルとを参照し、音声特徴量１７を用いて音声認識処理を行う。デコーダ４０１は、音響的類似度及び言語的信頼度に基づき、入力音声信号１０を図示されない認識辞書記憶部に記憶されている認識辞書の登録単語に順次置き換えることによって音声認識結果を生成する。ここで、音響的類似度とは、認識対象となる音声（即ち、音声特徴量１７）と、認識候補となる単語の音響モデルとの間の音響的な類似度を意味する。また、言語的信頼度は、認識候補となる単語を含む系列の言語的（文法的、構文的）な信頼度を意味し、例えば、ｎ−ｇｒａｍモデルなどの言語モデルに基づいて評価される。デコーダ４０１は、音声認識結果を外部へと出力する。ここで、外部とは、テキストを表示するための表示装置であってもよいし、テキストを印刷するための印刷装置であってもよいし、テキストを別の言語に翻訳するなどの任意の言語処理を行うための言語処理装置であってもよい。

音響モデル記憶部４０２には、音響モデルが記憶されている。音響モデルは、デコーダ４０１によって必要に応じて参照される。言語モデル記憶部４０３には、言語モデルが記憶されている。言語モデルは、デコーダ４０１によって必要に応じて参照される。

以上説明したように、第３の実施形態に係る音声認識装置は、少なくともＳＡＴＣを含む音声特徴量に基づいて音声認識処理を行う。従って、この音声認識装置によれば、雑音環境下でも高い認識精度を達成できる。

（第４の実施形態）
図８に例示されるように、第４の実施形態に係る音声特徴量抽出装置は、波形切り出し部１０１と、パワースペクトル算出部１０２と、フィルタバンク適用部１０４と、帯域別平均時間算出部５１３と、軸変換部１０７とを備える。図８の音声特徴量抽出装置は、入力音声信号１０から音声特徴量３２を抽出する。

波形切り出し部１０１は、外部から入力音声信号１０を取得する。波形切り出し部１０１は、入力音声信号１０から単位時間毎に時間長Ｔ_０（例えば、Ｔ_０＝２５ミリ秒）の音声波形を切り出すことによって時刻（ｎ）での単位音声信号１１（ｘ_ｎ（ｔ））を生成する。即ち、本実施形態において波形切り出し部１０１は、第１の実施形態または第２の実施形態と同一または類似の波形切り出し処理を行う。波形切り出し部１０１は、単位音声信号１１をパワースペクトル算出部１０２へと出力する。

尚、本実施形態において波形切り出し部１０１が使用する時間長Ｔ_０は、第１の実施形態または第２の実施形態において波形切り出し部１０１が使用する時間長Ｔ（即ち、分析窓幅）に比べて短くなるように設定されてよい。例えば、Ｔ＝５６ミリ秒と設定され、Ｔ_０＝２５ミリ秒と設定されてよい。

帯域別平均時間算出部５１３は、フィルタバンク適用部１０４からフィルタ処理されたパワースペクトル１４を入力する。帯域別平均時間算出部５１３は、フィルタ処理されたパワースペクトル１４に基づいて、１以上の周波数帯域の各々における単位音声信号１１の平均時間（以降の説明において、帯域別平均時間３１とも称される）を算出する。帯域別平均時間算出部５１３は、帯域別平均時間３１を軸変換部１０７へと出力する。尚、帯域別平均時間算出部５１３の処理の詳細は後述される。

軸変換部１０７は、帯域別平均時間算出部５１３から帯域別平均時間３１を入力する。軸変換部１０７は、帯域別平均時間３１に第１の実施形態または第２の実施形態と同一または類似の軸変換処理を施し、音声特徴量３２を生成する。音声特徴量３２は、前述の音声特徴量１７または音声特徴量２２に相当し、ＳＡＴＣとも呼ばれる。軸変換部１０７は、音声特徴量３２を外部へと出力する。尚、軸変換部１０７は省略されてもよい。係る場合には、帯域別平均時間３１が、音声特徴量３２として外部へと出力される。例えば、フィルタバンク適用部１０４によって適用されるフィルタバンクが備える周波数フィルタの総数が１である場合には、軸変換部１０７は不要である。

ここで、帯域別平均時間３１は、１以上の周波数帯域の各々における単位音声信号１１のエネルギー重心までの時間を意味する。故に、帯域別平均時間算出部５１３は、例えば下記数式（１３）に従って、帯域別平均時間３１を算出できる。

数式（１３）において、τは時刻ｎからのずれを表し、ｗ（τ）はτに対応する重みを表す。｜Ｘ（ｎ＋τ，ω）｜^２は、時刻ｎ＋τにおける周波数ωでのパワースペクトル１２を表し、ｈ_ｍ（ω）｜Ｘ（ｎ＋τ，ω）｜^２は、時刻ｎ＋τにおける周波数ωでのフィルタ処理されたパワースペクトル１４を表す。

尚、重みｗ（τ）は、τ＝０において最大となり、τの絶対値が大きくなるにつれて線形または非線形に小さくなるように決定されてもよい。或いは、重みｗ（τ）は、τの値に関わらず一定値（例えば、１）となるように決定されてもよい。或いは、重みｗ（τ）は、いくつかのτについて０となるように決定されてもよい。

数式（１３）におけるＴは、分析窓幅とも呼ばれる。Ｔは、前述の単位時間以上の値（例えば５６ミリ秒）に設定される。数式（１３）によれば、第ｍ番目の周波数帯域（Ω_ｍ）の帯域別平均時間３１が得られる。

即ち、帯域別平均時間算出部５１３は、図１０に例示されるように、所与の時刻のフィルタ処理されたパワースペクトル１４の第ｍ番目の周波数帯域（Ω_ｍ）における総和を算出する。そして、帯域別平均時間算出部５１３は、この総和について時刻ｎ−Ｔ／２から時刻ｎ＋Ｔ／２までの区間内のエネルギー重心位置を算出することにより、第ｍ番目の周波数帯域（Ω_ｍ）の帯域別平均時間３１を得る。

図８の音声特徴量抽出装置は、図９に例示されるように動作できる。波形切り出し部１０１は、外部から取得した入力音声信号１０から単位時間毎に時間長Ｔ_０の音声波形を切り出すことによって単位音声信号１１を生成する（ステップＳ１０１）。

帯域別平均時間算出部５１３は、ステップＳ１０４において得られたフィルタ処理されたパワースペクトル１４に基づいて帯域別平均時間３１を算出する（ステップＳ５１３）。軸変換部１０７は、ステップＳ５１３において算出された帯域別平均時間３１に対して軸変換処理を施し、音声特徴量３２を生成する（ステップＳ１０７）。

前述の通り、本実施形態における帯域別平均時間３１は、第１の実施形態における算出される帯域別平均時間１６とも第２の実施形態における帯域別平均時間２１とも算出手法において異なる。しかしながら、図１１、図１２及び図１５を用いて説明されるように、帯域別平均時間３１は、第１の実施形態において算出される帯域別平均時間１６と同一または類似の音声特徴を表現する。

図１５（ａ）のグラフは帯域別平均時間１６を例示し、図１５（ｂ）のグラフは帯域別平均時間３１を例示している。図１５の３次元グラフから切り出された２次元グラフが図１１及び図１２に示されている。

図１１（ａ）のグラフは、図１５（ａ）のグラフのうち第１の注目周波数における時刻と帯域別平均時間１６との関係を示している。第１の注目周波数は、図１５における低周波数帯域側から選択された。図１１（ｂ）のグラフは、図１５（ｂ）のグラフのうち上記第１の注目周波数における時刻と帯域別平均時間３１との関係を示している。図１１によれば、低周波数帯域側において帯域別平均時間１６及び帯域別平均時間３１は概ね同じ特性を持つことが確認できる。

図１２（ａ）のグラフは、図１５（ａ）のグラフのうち第２の注目周波数における時刻と帯域別平均時間１６との関係を示している。第２の注目周波数は、図１５における高周波数帯域側から選択された。図１２（ｂ）のグラフは、図１５（ｂ）のグラフのうち上記第２の注目周波数における時刻と帯域別平均時間３１との関係を示している。図１２によれば、高周波数帯域側においても帯域別平均時間１６及び帯域別平均時間３１が概ね同じ特性を持つことが確認できる。

以上説明したように、第４の実施形態に係る音声特徴量抽出装置は、前述のＳＡＴＣを音声特徴量として抽出する。従って、この音声特徴量抽出装置によれば、第１の実施形態または第２の実施形態と同一または類似の効果を得ることができる。

尚、本実施形態において、フィルタバンク適用部１０４は、省略されてもよい。係る場合には、帯域別平均時間算出部５１３は、パワースペクトル１２に基づいて、帯域別平均時間３１を算出する。具体的には、帯域別平均時間算出部５１３は、下記数式（１４）を利用できる。

即ち、帯域別平均時間算出部５１３は、所与の時刻のパワースペクトル１２の第ｍ番目の周波数帯域（Ω_ｍ）における総和を算出する。そして、帯域別平均時間算出部５１３は、この総和について時刻ｎ−Ｔ／２から時刻ｎ＋Ｔ／２までの区間内のエネルギー重心位置を算出することにより、第ｍ番目の周波数帯域（Ω_ｍ）の帯域別平均時間３１を得る。

（第５の実施形態）
図１３に例示されるように、第５の実施形態に係る音声特徴量抽出装置は、バンドパスフィルタ適用部６１４と、波形切り出し部６１５と、帯域別平均時間算出部６１６と、軸変換部１０７とを備える。図１３の音声特徴量抽出装置は、入力音声信号１０から音声特徴量４４を抽出する。

バンドパスフィルタ適用部６１４は、外部から入力音声信号１０を取得する。バンドパスフィルタ適用部６１４は、入力音声信号１０に対して１以上のバンドパスフィルタを適用する。即ち、バンドパスフィルタ適用部６１４は、入力音声信号１０から１以上（例えば、１６個）の周波数帯域の信号成分を抽出することにより、１以上のサブバンド入力音声信号４１を得る。バンドパスフィルタ適用部６１４は、１以上のサブバンド入力音声信号４１を波形切り出し部６１５へと出力する。バンドパスフィルタの数が１である場合にはバンドパスフィルタ適用部６１４が省略されてもよい。係る場合には、第４の実施形態のフィルタバンク適応部１０４によって適用されるフィルタバンクが備える周波数フィルタの総数が１である場合と同一もしくは類似の値が得られる。

波形切り出し部６１５は、バンドパスフィルタ適用部６１４から１以上のサブバンド入力音声信号４１を入力する。波形切り出し部６１５は、１以上のサブバンド入力音声信号４１から単位時間毎に時間長Ｔ（例えば、Ｔ＝５６ミリ秒）の音声波形を切り出すことによって、１以上のサブバンド単位音声信号４２を生成する。より具体的には、波形切り出し部６１５は、第ｍ番目のサブバンド入力音声信号４１から単位時間毎に時間長Ｔの音声波形を切り出すことによって時刻（ｎ）での第ｍ番目のサブバンド単位音声信号４２（ｘ_ｎｍ（ｔ））を生成する。波形切り出し部６１５は、１以上のサブバンド単位音声信号４２を帯域別平均時間算出部６１６へと出力する。

波形切り出し部６１５は、単位時間毎に時間長Ｔの音声波形を切り出す処理に加えて、切り出した音声波形の直流成分を除去する処理、切り出した音声波形の高周波成分を強調する処理、切り出した音声波形に窓関数（例えば、ハミング窓）を乗算する処理などを行うことによって、１以上のサブバンド単位音声信号４２を生成してもよい。

帯域別平均時間算出部６１６は、波形切り出し部６１５から１以上のサブバンド単位音声信号４２を入力する。帯域別平均時間算出部６１６は、１以上のサブバンド単位音声信号４２の各々の平均時間（以降の説明において、帯域別平均時間４３とも称される）を算出する。帯域別平均時間算出部６１６は、帯域別平均時間４３を軸変換部１０７へと出力する。尚、帯域別平均時間算出部６１６の処理の詳細は後述される。

軸変換部１０７は、帯域別平均時間算出部６１６から帯域別平均時間４３を入力する。軸変換部１０７は、帯域別平均時間４３に第１の実施形態、第２の実施形態または第４の実施形態と同一または類似の軸変換処理を施し、音声特徴量４４を生成する。音声特徴量４４は、前述の音声特徴量１７、音声特徴量２２または音声特徴量３２に相当し、ＳＡＴＣとも呼ばれる。軸変換部１０７は、音声特徴量４４を外部へと出力する。尚、軸変換部１０７は省略されてもよい。係る場合には、帯域別平均時間４３が、音声特徴量４４として外部へと出力される。例えば、バンドパスフィルタ適用部６１４によって適用されるバンドパスフィルタの総数が１である場合、バンドパスフィルタ適用部６１４が省略される場合などには軸変換部１０７は不要である。

ここで、帯域別平均時間４３は、１以上のサブバンド単位音声信号４２の各々の平均時間である。故に、帯域別平均時間算出部６１６は、例えば下記数式（１５）に従って、帯域別平均時間４３を算出できる。

数式（１５）において、ｘ_ｎｍ（ｔ）は時刻ｎにおける第ｍ番目のサブバンド単位音声信号４２を表す。数式（１５）におけるＴは、分析窓幅とも呼ばれる。数式（１５）によれば、第ｍ番目の周波数帯域（Ω_ｍ）の帯域別平均時間４３が得られる。

即ち、帯域別平均時間算出部６１６は、時刻ｎ−Ｔ／２から時刻ｎ＋Ｔ／２までの区間内の第ｍ番目のサブバンド単位音声信号４２のパワー（｜ｘ_ｍ（ｎ＋τ）｜^２）のエネルギー重心位置を算出することにより、第ｍ番目の周波数帯域（Ω_ｍ）の帯域別平均時間４３を得る。

尚、数式（１５）において、時刻τ＝０は、サブバンド単位音声信号４２の中心に設定されているものとしているが、必ずしも単位音声信号４２の中心に設定する必要はない。τ＝０の位置に応じて、数式（１５）右辺の分母および分子の総和を求める範囲も適宜変更されてよい。

図１３の音声特徴量抽出装置は、図１４に例示されるように動作できる。バンドパスフィルタ適用部６１４は、外部から取得した入力音声信号１０に１以上のバンドパスフィルタを適用することによって１以上のサブバンド入力音声信号４１を得る（ステップＳ６１４）。

波形切り出し部６１５は、ステップＳ６１４において得られた１以上のサブバンド入力音声信号４１から単位時間毎に時間長Ｔの音声波形を切り出すことによって１以上のサブバンド単位音声信号４２を生成する（ステップＳ６１５）。

帯域別平均時間算出部６１６は、ステップＳ６１５において生成された１以上のサブバンド単位音声信号４２の各々の平均時間を算出することによって帯域別平均時間４３を得る（ステップＳ６１６）。軸変換部１０７は、ステップＳ６１６において算出された帯域別平均時間４３に対して軸変換処理を施し、音声特徴量４４を生成する（ステップＳ１０７）。

以上説明したように、第５の実施形態に係る音声特徴量抽出装置は、前述のＳＡＴＣを音声特徴量として抽出する。従って、この音声特徴量抽出装置によれば、第１の実施形態、第２の実施形態または第４の実施形態と同一または類似の効果を得ることができる。

上記各実施形態の処理は、汎用のコンピュータを基本ハードウェアとして用いることで実現可能である。上記各実施形態の処理を実現するプログラムは、コンピュータで読み取り可能な記憶媒体に格納して提供されてもよい。プログラムは、インストール可能な形式のファイルまたは実行可能な形式のファイルとして記憶媒体に記憶される。記憶媒体としては、磁気ディスク、光ディスク（ＣＤ−ＲＯＭ、ＣＤ−Ｒ、ＤＶＤ等）、光磁気ディスク（ＭＯ等）、半導体メモリなどである。記憶媒体は、プログラムを記憶でき、かつ、コンピュータが読み取り可能であれば、何れであってもよい。また、上記各実施形態の処理を実現するプログラムを、インターネットなどのネットワークに接続されたコンピュータ（サーバ）上に格納し、ネットワーク経由でコンピュータ（クライアント）にダウンロードさせてもよい。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１０・・・入力音声信号
１１・・・単位音声信号
１２・・・パワースペクトル
１３・・・第３のスペクトル
１４・・・フィルタ処理されたパワースペクトル
１５・・・フィルタ処理された第３のスペクトル
１６，２１，３１，４３・・・帯域別平均時間
１７，２２，３２，４４・・・音声特徴量
１８・・・群遅延スペクトル
１９・・・乗算スペクトル
２０・・・フィルタ処理された乗算スペクトル
４１・・・サブバンド入力音声信号
４２・・・サブバンド単位音声信号
１０１，６１５・・・波形切り出し部
１０２・・・パワースペクトル算出部
１０３・・・第３のスペクトル算出部
１０４，１０５，２１０・・・フィルタバンク適用部
１０６，２１１，５１３，６１６・・・帯域別平均時間算出部
１０７・・・軸変換部
２０８・・・群遅延スペクトル
２０９・・・スペクトル乗算部
４００・・・特徴量抽出部
４０１・・・デコーダ
４０２・・・音響モデル記憶部
４０３・・・言語モデル記憶部
６１４・・・バンドパスフィルタ適用部

Claims

入力音声信号及び前記入力音声信号から複数の周波数帯域の信号成分を抽出することによって得られる複数のサブバンド入力音声信号のうちいずれか一方から単位時間毎に所定の時間長に亘る音声波形を切り出すことによって、単位音声信号及び複数のサブバンド単位音声信号のうちいずれか一方を生成する切り出し部と、
複数の周波数帯域の各々における前記単位音声信号の平均時間及び前記複数のサブバンド単位音声信号の各々の平均時間のうちいずれか一方を算出することによって、音声特徴量を得る第１の算出部と
を具備する、音声特徴量抽出装置。
前記単位音声信号のパワースペクトルを算出する第２の算出部を更に具備し、
前記切り出し部は、前記入力音声信号から前記単位時間毎に前記所定の時間長に亘る音声波形を切り出すことによって、前記単位音声信号を生成し、
前記第１の算出部は、前記パワースペクトルに基づいて前記複数の周波数帯域の各々における前記単位音声信号の平均時間を算出することによって、前記音声特徴量を得る、
請求項１の音声特徴量抽出装置。
前記単位音声信号の第１のスペクトルの実部と前記単位音声信号及び時刻の積の第２のスペクトルの実部との第１の積を算出し、前記第１のスペクトルの虚部と前記第２のスペクトルの虚部との第２の積を算出し、前記第１の積及び前記第２の積を加算することによって、第３のスペクトルを得る第３の算出部を更に具備し、
前記第１の算出部は、前記パワースペクトル及び前記第３のスペクトルに基づいて前記複数の周波数帯域の各々における前記単位音声信号の平均時間を算出することによって、前記音声特徴量を得る、
請求項２の音声特徴量抽出装置。
前記パワースペクトルに第１のフィルタバンクを適用することによって、フィルタ処理されたパワースペクトルを得る第１の適用部と、
前記第３のスペクトルに第２のフィルタバンクを適用することによって、フィルタ処理された第３のスペクトルを得る第２の適用部と
を更に具備し、
前記第１の算出部は、前記フィルタ処理されたパワースペクトル及び前記フィルタ処理された第３のスペクトルに基づいて前記複数の周波数帯域の各々における前記単位音声信号の平均時間を算出することによって、前記音声特徴量を得る、
請求項３の音声特徴量抽出装置。
前記単位音声信号の群遅延スペクトルを算出する第３の算出部と、
前記群遅延スペクトルを前記パワースペクトルに乗算することによって、乗算スペクトルを得る乗算部と
を更に具備し、
前記第１の算出部は、前記パワースペクトル及び前記乗算スペクトルに基づいて前記複数の周波数帯域の各々における前記単位音声信号の平均時間を算出することによって、前記音声特徴量を得る、
請求項２の音声特徴量抽出装置。
前記パワースペクトルに第１のフィルタバンクを適用することによって、フィルタ処理されたパワースペクトルを得る第１の適用部と、
前記乗算スペクトルに第２のフィルタバンクを適用することによって、フィルタ処理された乗算スペクトルを得る第２の適用部と
を更に具備し、
前記第１の算出部は、前記フィルタ処理されたパワースペクトル及び前記フィルタ処理された乗算スペクトルに基づいて前記複数の周波数帯域の各々における前記単位音声信号の平均時間を算出することによって、前記音声特徴量を得る、
請求項５の音声特徴量抽出装置。
前記パワースペクトルにフィルタバンクを適用することによって、フィルタ処理されたパワースペクトルを得る適用部を更に具備し、
前記第１の算出部は、前記フィルタ処理されたパワースペクトルに基づいて前記複数の周波数帯域の各々における前記単位音声信号の平均時間を算出することによって、前記音声特徴量を得る、
請求項２の音声特徴量抽出装置。
前記入力音声信号に複数のバンドパスフィルタを適用することによって、前記複数のサブバンド入力音声信号を得る適用部を更に具備し、
前記切り出し部は、前記複数のサブバンド入力音声信号から前記単位時間毎に前記所定の時間長に亘る音声波形を切り出すことによって、前記複数のサブバンド単位音声信号を生成し、
前記第１の算出部は、前記複数のサブバンド単位音声信号の各々の平均時間を算出することによって、前記音声特徴量を得る、
請求項１の音声特徴量抽出装置。
入力音声信号及び前記入力音声信号から複数の周波数帯域の信号成分を抽出することによって得られる複数のサブバンド入力音声信号のうちいずれか一方から単位時間毎に所定の時間長に亘る音声波形を切り出すことによって、単位音声信号及び複数のサブバンド単位音声信号のうちいずれか一方を生成することと、
複数の周波数帯域の各々における前記単位音声信号の平均時間及び前記複数のサブバンド単位音声信号の各々の平均時間のうちいずれか一方を算出することによって、音声特徴量を得ることと
を具備する、音声特徴量抽出方法。
コンピュータを、
入力音声信号及び前記入力音声信号から複数の周波数帯域の信号成分を抽出することによって得られる複数のサブバンド入力音声信号のうちいずれか一方から単位時間毎に所定の時間長に亘る音声波形を切り出すことによって、単位音声信号及び複数のサブバンド単位音声信号のうちいずれか一方を生成する切り出し手段、
複数の周波数帯域の各々における前記単位音声信号の平均時間及び前記複数のサブバンド単位音声信号の各々の平均時間のうちいずれか一方を算出することによって、音声特徴量を得る第１の算出手段
として機能させるための音声特徴量抽出プログラム。