[go: up one dir, main page]

JP2013164572A - 音声特徴量抽出装置、音声特徴量抽出方法及び音声特徴量抽出プログラム - Google Patents

音声特徴量抽出装置、音声特徴量抽出方法及び音声特徴量抽出プログラム Download PDF

Info

Publication number
JP2013164572A
JP2013164572A JP2012053506A JP2012053506A JP2013164572A JP 2013164572 A JP2013164572 A JP 2013164572A JP 2012053506 A JP2012053506 A JP 2012053506A JP 2012053506 A JP2012053506 A JP 2012053506A JP 2013164572 A JP2013164572 A JP 2013164572A
Authority
JP
Japan
Prior art keywords
unit
spectrum
average time
audio
band
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2012053506A
Other languages
English (en)
Inventor
Masanobu Nakamura
匡伸 中村
Takashi Masuko
貴史 益子
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2012053506A priority Critical patent/JP2013164572A/ja
Priority to US13/728,287 priority patent/US9754603B2/en
Publication of JP2013164572A publication Critical patent/JP2013164572A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Telephone Function (AREA)

Abstract

【課題】音声認識の耐雑音性能を向上させることのできる音声特徴量を抽出する。
【解決手段】実施形態によれば、音声特徴量抽出装置は、切り出し部101と、算出部106とを含む。切り出し部101は、入力音声信号10及び入力音声信号10から複数の周波数帯域の信号成分を抽出することによって得られる複数のサブバンド入力音声信号のうちいずれか一方から単位時間毎に所定の時間長に亘る音声波形を切り出すことによって、単位音声信号11及び複数のサブバンド単位音声信号のうちいずれか一方を生成する。算出部106は、複数の周波数帯域の各々における単位音声信号11の平均時間及び複数のサブバンド単位音声信号の各々の平均時間のうちいずれか一方を算出することによって、音声特徴量16を得る。
【選択図】図1

Description

実施形態は、音声特徴量の抽出技術に関する。
雑音環境下で実用可能な音声認識技術の重要性が高まっている。雑音環境下では、雑音による音声認識精度の劣化が問題となる。音声認識は、入力音声信号から抽出された音声特徴量を使用して行われる。音声特徴量の一種としてメル周波数ケプストラム係数(MFCC;Mel−Frequency Cepstrum Coefficient)が知られている。しかしながら、MFCCのみを使用する音声認識はその耐雑音性能が十分に高いとは言い難い。故に、音声認識の耐雑音性能を向上させることのできる音声特徴量が望まれる。
山本ら,「長時間位相特徴と振幅スペクトル特徴の併用による音声認識の検討」(2011年秋季日本音響学会論文集2−Q−13) L.コーエン,「時間―周波数解析」(朝倉書店),1998年10月1日,第4−5頁 山本ら,「長時間分析に基づく位相情報を用いた音声認識の検討」(音声信号処理技術報告SP2010−40)
実施形態は、音声認識の耐雑音性能を向上させることのできる音声特徴量を抽出することを目的とする。
実施形態によれば、音声特徴量抽出装置は、切り出し部と、第1の算出部とを含む。切り出し部は、入力音声信号及び前記入力音声信号から複数の周波数帯域の信号成分を抽出することによって得られる複数のサブバンド入力音声信号のうちいずれか一方から単位時間毎に所定の時間長に亘る音声波形を切り出すことによって、単位音声信号及び複数のサブバンド単位音声信号のうちいずれか一方を生成する。第1の算出部は、複数の周波数帯域の各々における前記単位音声信号の平均時間及び前記複数のサブバンド単位音声信号の各々の平均時間のうちいずれか一方を算出することによって、音声特徴量を得る。
第1の実施形態に係る音声特徴量抽出装置を例示するブロック図。 図1の音声特徴量抽出装置の動作を例示するフローチャート。 第2の実施形態に係る音声特徴量抽出装置を例示するブロック図。 図3の音声特徴量抽出装置の動作を例示するフローチャート。 第2の実施形態の比較例に係る音声特徴量抽出装置の動作を例示するフローチャート。 第2の実施形態の効果の説明図。 第3の実施形態に係る音声認識装置を例示するブロック図。 第4の実施形態に係る音声特徴量抽出装置を例示するブロック図。 図8の音声特徴量抽出装置の動作を例示するフローチャート。 第4の実施形態において算出される帯域別平均時間の説明図。 第1の実施形態及び第4の実施形態において算出される帯域別平均時間を夫々示すグラフ。 第1の実施形態及び第4の実施形態において算出される帯域別平均時間を夫々示すグラフ。 第5の実施形態に係る音声特徴量抽出装置を例示するブロック図。 図13の音声特徴量抽出装置の動作を例示するフローチャート。 第1の実施形態及び第4の実施形態において算出される帯域別平均時間を夫々示すグラフ。
以下、図面を参照しながら実施形態の説明が述べられる。尚、以降、説明済みの要素と同一または類似の要素には同一または類似の符号が付され、重複する説明は基本的に省略される。
(第1の実施形態)
図1に例示されるように、第1の実施形態に係る音声特徴量抽出装置は、波形切り出し部101と、パワースペクトル算出部102と、第3のスペクトル算出部103と、フィルタバンク適用部104,105と、帯域別平均時間算出部106と、軸変換部107とを備える。図1の音声特徴量抽出装置は、入力音声信号10から音声特徴量17を抽出する。
波形切り出し部101は、外部から入力音声信号10を取得する。波形切り出し部101は、入力音声信号10から単位時間毎に時間長T(例えば、T=56ミリ秒)の音声波形を切り出すことによって時刻(n)での単位音声信号11(x(t))を生成する。尚、以降の説明において、時間長Tは分析窓幅とも呼ばれる。波形切り出し部101は、時間長Tの音声波形を切り出す処理に加えて、切り出した音声波形の直流成分を除去する処理、切り出した音声波形の高周波成分を強調する処理、切り出した音声波形に窓関数(例えば、ハミング窓)を乗算する処理などを行うことによって、単位音声信号11を生成してもよい。波形切り出し部101は、単位音声信号11をパワースペクトル算出部102及び第3のスペクトル算出部103へと出力する。
パワースペクトル算出部102は、波形切り出し部101から単位音声信号11を入力する。パワースペクトル算出部102は、単位音声信号11のパワースペクトル12を算出する。具体的には、単位音声信号11に複素フーリエ変換を施すことによって下記数式(1)に示されるように、周波数(ω)毎の第1のスペクトル(X(ω))が導出できる。
Figure 2013164572
ここで、X(ω)は第1のスペクトル(X(ω))の実部を表し、X(ω)は第1のスペクトル(X(ω))の虚部を表し、jは虚数単位を表す。更に、パワースペクトル算出部102は、下記数式(2)に示されるように、第1のスペクトルのパワーを算出することによってパワースペクトル12を得る。
Figure 2013164572
パワースペクトル算出部102は、パワースペクトル12をフィルタバンク適用部104へと出力する。
第3のスペクトル算出部103は、波形切り出し部101から単位音声信号11を入力する。第3のスペクトル算出部103は、前述の第1のスペクトル(X(ω))と、単位音声信号11(x(t))及び時刻(t)の積の第2のスペクトルとを利用して第3のスペクトル13を算出する。例えば、下記数式(3)に示されるように、単位音声信号11(x(t))及び時刻(t)の積に複素フーリエ変換を施すことによって周波数(ω)毎の第2のスペクトルが導出できる。
Figure 2013164572
ここで、Y(ω)は第2のスペクトル(Y(ω))の実部を表し、Y(ω)は第2のスペクトル(Y(ω))の虚部を表す。そして、第3のスペクトル算出部103は、第1のスペクトルの実部(X(ω))と第2のスペクトルの実部(Y(ω))との第1の積を算出し、第1のスペクトルの虚部(X(ω))と第2のスペクトルの虚部(Y(ω))との第2の積を算出し、第1の積及び第2の積を加算することによって、第3のスペクトル13を得る。即ち、第3のスペクトル算出部103は、下記数式(4)に示されるように、周波数(ω)毎の第3のスペクトル13(XY(ω))を算出できる。
Figure 2013164572
第3のスペクトル算出部103は、第3のスペクトル13をフィルタバンク適用部105へと出力する。
フィルタバンク適用部104は、パワースペクトル算出部102からパワースペクトル12を入力する。フィルタバンク適用部104は、パワースペクトル12にフィルタバンクを適用し、フィルタ処理されたパワースペクトル14を得る。フィルタバンク適用部104は、フィルタ処理されたパワースペクトル14を帯域別平均時間算出部106へと出力する。フィルタバンク適用部104によって適用されるフィルタバンクは、1または複数(例えば、16個)の周波数フィルタを備える。各周波数フィルタは、三角フィルタ、矩形フィルタなどであってよい。また、このフィルタバンクは、メルフィルタバンク、線形フィルタバンクなどであってよい。
フィルタバンク適用部105は、第3のスペクトル算出部103から第3のスペクトル13を入力する。フィルタバンク適用部105は、第3のスペクトル13にフィルタバンクを適用し、フィルタ処理された第3のスペクトル15を得る。フィルタバンク適用部105は、フィルタ処理された第3のスペクトル15を帯域別平均時間算出部106へと出力する。フィルタバンク適用部105によって適用されるフィルタバンクは、フィルタバンク適用部104によって適用されるフィルタバンクと同数の周波数フィルタを備える必要がある。好ましくは、フィルタバンク適用部105は、フィルタバンク適用部104と同一のフィルタバンクを適用する。以降の説明において、フィルタバンク適用部105は、フィルタバンク適用部104と同一のフィルタバンクを適用すると仮定される。
帯域別平均時間算出部106は、フィルタバンク適用部104からフィルタ処理されたパワースペクトル14を入力し、フィルタバンク適用部105からフィルタ処理された第3のスペクトル15を入力する。帯域別平均時間算出部106は、フィルタ処理されたパワースペクトル14及びフィルタ処理された第3のスペクトル15に基づいて、1以上の周波数帯域(サブバンドと呼ばれてもよい)の各々における単位音声信号11の平均時間(以降の説明において、帯域別平均時間16とも称される)を算出する。帯域別平均時間算出部106は、帯域別平均時間16を軸変換部107へと出力する。尚、帯域別平均時間算出部106の処理の詳細は後述される。
軸変換部107は、帯域別平均時間算出部106から帯域別平均時間16を入力する。軸変換部107は、帯域別平均時間16に軸変換処理を施し、音声特徴量17を生成する。以降の説明において、音声特徴量17は、帯域別平均時間ケプストラム(Sub−band Average Time Cepstrum:SATC)とも呼ばれる。軸変換部107は、例えば、離散コサイン変換(Discrete Cosine Transform:DCT)を用いることができる。軸変換部107は、音声特徴量17を外部へと出力する。尚、軸変換部107は省略されてもよい。係る場合には、帯域別平均時間16が、音声特徴量17として外部へと出力される。例えば、フィルタバンク適用部104,105によって適用されるフィルタバンクが備える周波数フィルタの総数が1である場合には、軸変換部107は不要である。
ここで、帯域別平均時間16は、1以上の周波数帯域の各々における単位音声信号11のエネルギー重心までの時間を意味する。尚、一般的な信号の平均時間について、非特許文献2は下記数式(5)に示す定義を開示する。
Figure 2013164572
ここで、s(t)は分析窓中で信号のパワーを正規化することによって得られるパワー正規化信号を表し、S(ω)はパワー正規化信号(s(t))を複素フーリエ変換することによって得られる周波数(ω)毎のスペクトルを表し、τ(ω)は周波数(ω)毎の群遅延スペクトルを表す。数式(5)は、全周波数帯域に亘る信号の平均時間を定義している。具体的には、数式(5)において、右辺の分子は群遅延スペクトル及びパワースペクトルの積の全周波数帯域に亘る総和を表し、右辺の分母はパワースペクトルの全周波数帯域に亘る総和を表す。他方、帯域別平均時間16は、前述の通り、1以上の周波数帯域の各々における単位音声信号11の平均時間を意味する。そして、第m番目の周波数帯域(Ω)における単位音声信号11の平均時間(<t>(m))は、例えば下記数式(6)に従って算出できる。ここで、mは1以上の周波数帯域の各々を識別するためのインデックスであり、1以上M以下の整数となる。Mは、周波数帯域の総数を表しており、周波数(ω)のbin数よりも小さいとする。
Figure 2013164572
ここで、h(ω)は、フィルタバンク適用部104,105によって適用されるフィルタバンクのうち第m番目の周波数帯域(Ω)に対応する周波数フィルタを表す。数式(6)のうち群遅延スペクトル(τ(ω))は、下記数式(7)に示されるように、表すこともできる。
Figure 2013164572
上記数式(2),(4),(7)によれば、上記数式(6)における群遅延スペクトル及びパワースペクトルの積(τ(ω)|X(ω)|)は、第3のスペクトル(XY(ω))に等しい。故に、数式(7)に基づいて、上記数式(6)は下記数式(8)のように書き換えることができる。
Figure 2013164572
数式(8)において、h(ω)|X(ω)|は、フィルタ処理されたパワースペクトル14に相当し、h(ω)XY(ω)はフィルタ処理された第3のスペクトル15に相当する。即ち、帯域別平均時間算出部106は、フィルタ処理された第3のスペクトル15の第m番目の周波数帯域(Ω)における総和をフィルタ処理されたパワースペクトル14の第m番目の周波数帯域(Ω)における総和によって除算することによって、第m番目の周波数帯域(Ω)の帯域別平均時間16を得る。
図1の音声特徴量抽出装置は、図2に例示されるように動作できる。波形切り出し部101は、外部から取得した入力音声信号10から単位時間毎に時間長Tの音声波形を切り出すことによって単位音声信号11を生成する(ステップS101)。
パワースペクトル算出部102は、ステップS101において生成された単位音声信号11のパワースペクトル12を算出する(ステップS102)。具体的には、パワースペクトル算出部102は、前述の第1のスペクトル(X(ω))のパワーを算出することによって、パワースペクトル12を得る。フィルタ適用部104は、ステップS102において算出されたパワースペクトル12にフィルタバンクを適用し、フィルタ処理されたパワースペクトル14を得る(ステップS104)。
第3のスペクトル算出部103は、ステップS101において生成された単位音声信号11のパワースペクトル12を算出する(ステップS103)。具体的には、第3のスペクトル算出部103は、第1のスペクトルの実部(X(ω))と第2のスペクトルの実部(Y(ω))との第1の積を算出し、第1のスペクトルの虚部(X(ω))と第2のスペクトルの虚部(Y(ω))との第2の積を算出し、第1の積及び第2の積を加算することによって、第3のスペクトル13を得る。フィルタ適用部105は、ステップS103において算出された第3のスペクトル13にフィルタバンクを適用し、フィルタ処理された第3のスペクトル15を得る(ステップS105)。
ここで、ステップS102,S104の一連の処理と、ステップS103,S105の一連の処理との間には依存関係が存在しないので、ステップS101の完了後に、両者が並列的に実行されてもよいし、直列的に実行されてもよい。
帯域別平均時間算出部106は、ステップS104において得られたフィルタ処理されたパワースペクトル14及びステップS105において得られたフィルタ処理された第3のスペクトル15に基づいて帯域別平均時間16を算出する(ステップS106)。具体的には、帯域別平均時間算出部106は、フィルタ処理された第3のスペクトル15の第m番目の周波数帯域(Ω)における総和をフィルタ処理されたパワースペクトル14の第m番目の周波数帯域(Ω)における総和によって除算することによって、第m番目の周波数帯域(Ω)の帯域別平均時間16を得る。軸変換部107は、ステップS106において算出された帯域別平均時間16に対して軸変換処理を施し、音声特徴量17を生成する。
以上説明したように、第1の実施形態に係る音声特徴量抽出装置は、SATCを音声特徴量として抽出する。この音声特徴量抽出装置によれば、例えば、SATCをMFCCなどの従来の音声特徴量に結合(追加)して使用することによって、音声認識の耐雑音性能を向上させることができる。
尚、本実施形態において、フィルタバンク適用部104,105は、省略されてもよい。係る場合には、帯域別平均時間算出部106は、パワースペクトル12及び第3のスペクトル13に基づいて、帯域別平均時間16を算出する。具体的には、帯域別平均時間算出部106は、下記数式(9)を利用できる。
Figure 2013164572
数式(9)において、|X(ω)|は、パワースペクトル12に相当し、XY(ω)は第3のスペクトル13に相当する。即ち、帯域別平均時間算出部106は、第3のスペクトル13の第m番目の周波数帯域(Ω)における総和をパワースペクトル12の第m番目の周波数帯域(Ω)における総和によって除算し、第m番目の周波数帯域(Ω)の帯域別平均時間16を得る。
(第2の実施形態)
前述の第1の実施形態において、例えば上記数式(8)に従って、パワースペクトル及び第3のスペクトルに基づいて帯域別平均時間が算出される。他方、上記数式(6)によれば、群遅延スペクトル及びパワースペクトルに基づいて帯域別平均時間を算出することもできる。
図3に例示されるように、第2の実施形態に係る音声特徴量抽出装置は、波形切り出し部101と、パワースペクトル算出部102と、フィルタバンク適用部104と、軸変換部107と、群遅延スペクトル算出部208と、スペクトル乗算部209と、フィルタバンク適用部210と、帯域別平均時間算出部211とを備える。図3の音声特徴量抽出装置は、入力音声信号10から音声特徴量22を抽出する。
群遅延スペクトル算出部208は、波形切り出し部101から単位音声信号11を入力する。群遅延スペクトル算出部208は、単位音声信号11の群遅延スペクトル18を算出する。群遅延スペクトル算出部208は、群遅延スペクトル18をスペクトル乗算部209へと出力する。
例えば、群遅延スペクトル算出部208は、上記数式(7)に第1のスペクトルの実部(X(ω))及び虚部(X(ω))と、第2のスペクトルの実部(Y(ω))及び虚部(Y(ω))とを代入することによって、群遅延スペクトル18を算出してもよい。
或いは、群遅延スペクトル算出部208は、上記数式(7)とは異なる技法で群遅延スペクトル18を算出してもよい。具体的には、群遅延スペクトル18(τ(ω))は、下記数式(10)に示されるように、第1のスペクトル(X(ω))の位相項(θ(ω))を周波数(ω)について微分し、その符号を反転することによって得られる値として定義される。
Figure 2013164572
ここで、位相項(θ(ω))は下記数式(11)によって定義される。
Figure 2013164572
従って、群遅延スペクトル算出部208は、非特許文献3に記載されているように、数式(11)に示される位相項(θ(ω))の周波数(ω)軸方向の差分値を用いて群遅延スペクトル18を算出してもよい。尚、本技法によって群遅延スペクトル18を算出する場合には、位相項(θ(ω))の値域を−πからπまでの範囲に収めるために位相アンラッピング処理を行う必要がある。
スペクトル乗算部209は、パワースペクトル算出部102からパワースペクトル12を入力し、群遅延スペクトル算出部208から群遅延スペクトル18を入力する。スペクトル乗算部209は、群遅延スペクトル18をパワースペクトル12に乗算し、乗算スペクトル19を得る。スペクトル乗算部209は、乗算スペクトル19をフィルタバンク適用部210へと出力する。尚、乗算スペクトル19は、前述の第3のスペクトル13に相当する。
フィルタバンク適用部210は、乗算スペクトル算出部209から乗算スペクトル19を入力する。フィルタバンク適用部210は、乗算スペクトル19にフィルタバンクを適用し、フィルタ処理された乗算スペクトル20を得る。フィルタバンク適用部210は、フィルタ処理された乗算スペクトル20を帯域別平均時間算出部211へと出力する。フィルタバンク適用部210によって適用されるフィルタバンクは、フィルタバンク適用部104によって適用されるフィルタバンクと同数の周波数フィルタを備える必要がある。好ましくは、フィルタバンク適用部210は、フィルタバンク適用部104と同一のフィルタバンクを適用する。以降の説明において、フィルタバンク適用部210は、フィルタバンク適用部104と同一のフィルタバンクを適用すると仮定される。
帯域別平均時間算出部211は、フィルタバンク適用部104からフィルタ処理されたパワースペクトル14を入力し、フィルタバンク適用部210からフィルタ処理された乗算スペクトル20を入力する。帯域別平均時間算出部211は、フィルタ処理されたパワースペクトル14及びフィルタ処理された乗算スペクトル20に基づいて、1以上の周波数帯域の各々における単位音声信号11の平均時間(以降の説明において、帯域別平均時間21とも称される)を算出する。
具体的には、帯域別平均時間算出部211は、上記数式(6)を利用できる。尚、数式(6)において、h(ω)τ(ω)|X(ω)|はフィルタ処理された乗算スペクトル20に相当し、h(ω)|X(ω)|はフィルタ処理されたパワースペクトル14に相当する。即ち、帯域別平均時間算出部211は、フィルタ処理された乗算スペクトル20の第m番目の周波数帯域(Ω)における総和をフィルタ処理されたパワースペクトル14の第m番目の周波数帯域(Ω)における総和によって除算し、第m番目の周波数帯域(Ω)の帯域別平均時間21を得る。帯域別平均時間算出部211は、帯域別平均時間21を軸変換部107へと出力する。
軸変換部107は、帯域別平均時間算出部211から帯域別平均時間21を入力する。軸変換部107は、帯域別平均時間21に第1の実施形態と同一または類似の軸変換処理を施し、音声特徴量22を生成する。音声特徴量22は、前述の音声特徴量17に相当し、SATCとも呼ばれる。軸変換部107は、音声特徴量22を外部へと出力する。尚、軸変換部107は省略されてもよい。係る場合には、帯域別平均時間21が、音声特徴量22として外部へと出力される。例えば、フィルタバンク適用部104,210によって適用されるフィルタバンクが備える周波数フィルタの総数が1である場合には、軸変換部107は不要である。
図3の音声特徴量抽出装置は、図4に例示されるように動作できる。群遅延スペクトル算出部208は、ステップS101において生成された単位音声信号11の群遅延スペクトル18を算出する(ステップS208)。具体的には、群遅延スペクトル算出部208は、上記数式(7)を利用して群遅延スペクトル18を算出してもよいし、上記数式(11)に示される位相項(θ(ω))の周波数(ω)軸方向の差分値を用いて群遅延スペクトル18を算出してもよい。
ここで、ステップS102の処理と、ステップS208の処理との間には依存関係が存在しないので、ステップS102の完了後に両者が並列的に実行されてもよいし、直列的に実行されてもよい。
スペクトル乗算部209は、ステップS208において算出された群遅延スペクトル18をステップS102において算出されたパワースペクトル12に乗算し、乗算スペクトル19を得る(ステップS209)。フィルタ適用部210は、ステップS209において算出された乗算スペクトル19にフィルタバンクを適用し、フィルタ処理された乗算スペクトル20を得る(ステップS210)。
ここで、ステップS209,S210の一連の処理と、ステップS104の処理との間には依存関係が存在しないので、ステップS102の完了後に、両者が並列的に実行されてもよいし、直列的に実行されてもよい。但し、ステップS209の処理は、ステップS102だけでなくステップS208の完了後に実行される必要がある。
帯域別平均時間算出部211は、ステップS104において得られたフィルタ処理されたパワースペクトル14及びステップS210において得られたフィルタ処理された乗算スペクトル20に基づいて帯域別平均時間21を算出する(ステップS211)。具体的には、帯域別平均時間算出部211は、フィルタ処理された第3のスペクトル20の第m番目の周波数帯域(Ω)における総和をフィルタ処理されたパワースペクトル14の第m番目の周波数帯域(Ω)における総和によって除算することによって、第m番目の周波数帯域(Ω)の帯域別平均時間21を得る。軸変換部107は、ステップS211において算出された帯域別平均時間21に対して軸変換処理を施し、音声特徴量22を生成する。
以上説明したように、第2の実施形態に係る音声特徴量抽出装置は、前述のSATCを音声特徴量として抽出する。従って、この音声特徴量抽出装置によれば、第1の実施形態と同一または類似の効果を得ることができる。
以下、2つの比較例と本実施形態との対比を通じて本実施形態の効果が説明される。以降の説明において、比較例1は、MFCCのみを使用する従来の音声認識に対応する。比較例2は、非特許文献1に開示される長時間群遅延ケプストラムをMFCCに結合して得られる音声特徴量を使用する音声認識に対応する。具体的には、比較例2における長時間群遅延ケプストラムは、図5に例示されるように動作する音声特徴量抽出装置によって抽出される。
比較例2に係る音声特徴量抽出装置は、入力音声信号から単位時間毎に音声波形を切り出すことによって単位音声信号を生成する(ステップS101)。この音声特徴量抽出装置は、ステップS101において生成された単位音声信号の群遅延スペクトルを算出する(ステップS208)。この音声特徴量抽出装置は、ステップS208において算出された群遅延スペクトルに基づいて帯域別群遅延スペクトルを算出する(ステップS312)。この音声特徴量抽出装置は、ステップS312において算出された帯域別群遅延スペクトルに対して軸変換処理を施し、長時間群遅延ケプストラムを生成する(ステップS107)。
図6は、本実施形態に係る音声特徴量抽出装置によって抽出されたSATCをMFCCに結合して得られる音声特徴量を使用する音声認識の結果と、比較例1に係る音声認識の結果と、比較例2に係る音声認識の結果とを示す。具体的には、図6は、駅構内などの雑音環境下において、上記3種類の特徴量を用いて約10万語彙の孤立単語認識を行った場合の単語認識性能(%)を示す。本評価実験は雑音環境における単語認識性能を確認するために、20,15,10,5,0(dB)の5段階の信号耐雑音比(SNR)の下で単語認識性能を夫々評価した。図6には、5段階のSNRの下で夫々評価された単語認識性能の平均値が示されている。また、本評価実験は、長時間群遅延ケプストラム及びSATCについて、複数段階の分析窓幅(ミリ秒)の下で単語認識性能を夫々評価した。
比較例1は、分析窓幅を25ミリ秒に固定して抽出したMFCCのみを用いているため、分析窓幅に依存せず一定の単語認識性能を達成する。また、比較例2は、分析窓幅に依存してその単語認識性能が変動するものの大部分の分析窓幅(=56〜152ミリ秒)の下で比較例1よりも高い単語認識性能を達成する。但し、その性能改善率は、例えば分析窓幅=152ミリ秒の場合に最大で約3.6%に留まる。他方、本実施形態は、全ての分析窓幅(=25〜216ミリ秒)の下で比較例1,2よりも高い単語認識性能を達成する。具体的には、分析窓幅=56ミリ秒の場合の性能改善率が最大で約9.5%となる。以上の通り、本評価実験によれば、例えばMFCCなどの従来の音声特徴量にSATCを結合して得られる音声特徴量を使用することによって音声認識の耐雑音性能が向上することが定量的に理解できる。
尚、本実施形態において、フィルタバンク適用部104,210は、省略されてもよい。係る場合には、帯域別平均時間算出部211は、パワースペクトル12及び乗算スペクトル19に基づいて、帯域別平均時間21を算出する。具体的には、帯域別平均時間算出部211は、下記数式(12)を利用できる。
Figure 2013164572
数式(12)において、|X(ω)|は、パワースペクトル12に相当し、τ(ω)|X(ω)|は乗算スペクトル19に相当する。即ち、帯域別平均時間算出部211は、乗算スペクトル19の第m番目の周波数帯域(Ω)における総和をパワースペクトル12の第m番目の周波数帯域(Ω)における総和によって除算し、第m番目の周波数帯域(Ω)の帯域別平均時間21を得る。
(第3の実施形態)
図7に例示されるように、第3の実施形態に係る音声認識装置は、特徴量抽出部400と、デコーダ401と、音響モデル記憶部402と、言語モデル記憶部403とを備える。図7の音声認識装置は、入力音声信号10に対して音声認識処理を行って、当該入力音声信号10の内容を示す言語テキストを音声認識結果として出力する。
特徴量抽出部400は、前述の第1乃至第2の実施形態または後述される第4乃至第5の実施形態に係る音声特徴量抽出装置が組み込まれてもよい。特徴量抽出部400は、外部から入力音声信号10を取得する。特徴量抽出部400は、入力音声信号10から少なくともSATCを含む音声特徴量17を抽出する。特徴量抽出部400は、デコーダ401へと出力する。
デコーダ401は、特徴量抽出部400から音声特徴量17を入力する。デコーダ401は、音響モデル記憶部402に記憶された音響モデルと、言語モデル記憶部403に記憶された言語モデルとを参照し、音声特徴量17を用いて音声認識処理を行う。デコーダ401は、音響的類似度及び言語的信頼度に基づき、入力音声信号10を図示されない認識辞書記憶部に記憶されている認識辞書の登録単語に順次置き換えることによって音声認識結果を生成する。ここで、音響的類似度とは、認識対象となる音声(即ち、音声特徴量17)と、認識候補となる単語の音響モデルとの間の音響的な類似度を意味する。また、言語的信頼度は、認識候補となる単語を含む系列の言語的(文法的、構文的)な信頼度を意味し、例えば、n−gramモデルなどの言語モデルに基づいて評価される。デコーダ401は、音声認識結果を外部へと出力する。ここで、外部とは、テキストを表示するための表示装置であってもよいし、テキストを印刷するための印刷装置であってもよいし、テキストを別の言語に翻訳するなどの任意の言語処理を行うための言語処理装置であってもよい。
音響モデル記憶部402には、音響モデルが記憶されている。音響モデルは、デコーダ401によって必要に応じて参照される。言語モデル記憶部403には、言語モデルが記憶されている。言語モデルは、デコーダ401によって必要に応じて参照される。
以上説明したように、第3の実施形態に係る音声認識装置は、少なくともSATCを含む音声特徴量に基づいて音声認識処理を行う。従って、この音声認識装置によれば、雑音環境下でも高い認識精度を達成できる。
(第4の実施形態)
図8に例示されるように、第4の実施形態に係る音声特徴量抽出装置は、波形切り出し部101と、パワースペクトル算出部102と、フィルタバンク適用部104と、帯域別平均時間算出部513と、軸変換部107とを備える。図8の音声特徴量抽出装置は、入力音声信号10から音声特徴量32を抽出する。
波形切り出し部101は、外部から入力音声信号10を取得する。波形切り出し部101は、入力音声信号10から単位時間毎に時間長T(例えば、T=25ミリ秒)の音声波形を切り出すことによって時刻(n)での単位音声信号11(x(t))を生成する。即ち、本実施形態において波形切り出し部101は、第1の実施形態または第2の実施形態と同一または類似の波形切り出し処理を行う。波形切り出し部101は、単位音声信号11をパワースペクトル算出部102へと出力する。
尚、本実施形態において波形切り出し部101が使用する時間長Tは、第1の実施形態または第2の実施形態において波形切り出し部101が使用する時間長T(即ち、分析窓幅)に比べて短くなるように設定されてよい。例えば、T=56ミリ秒と設定され、T=25ミリ秒と設定されてよい。
帯域別平均時間算出部513は、フィルタバンク適用部104からフィルタ処理されたパワースペクトル14を入力する。帯域別平均時間算出部513は、フィルタ処理されたパワースペクトル14に基づいて、1以上の周波数帯域の各々における単位音声信号11の平均時間(以降の説明において、帯域別平均時間31とも称される)を算出する。帯域別平均時間算出部513は、帯域別平均時間31を軸変換部107へと出力する。尚、帯域別平均時間算出部513の処理の詳細は後述される。
軸変換部107は、帯域別平均時間算出部513から帯域別平均時間31を入力する。軸変換部107は、帯域別平均時間31に第1の実施形態または第2の実施形態と同一または類似の軸変換処理を施し、音声特徴量32を生成する。音声特徴量32は、前述の音声特徴量17または音声特徴量22に相当し、SATCとも呼ばれる。軸変換部107は、音声特徴量32を外部へと出力する。尚、軸変換部107は省略されてもよい。係る場合には、帯域別平均時間31が、音声特徴量32として外部へと出力される。例えば、フィルタバンク適用部104によって適用されるフィルタバンクが備える周波数フィルタの総数が1である場合には、軸変換部107は不要である。
ここで、帯域別平均時間31は、1以上の周波数帯域の各々における単位音声信号11のエネルギー重心までの時間を意味する。故に、帯域別平均時間算出部513は、例えば下記数式(13)に従って、帯域別平均時間31を算出できる。
Figure 2013164572
数式(13)において、τは時刻nからのずれを表し、w(τ)はτに対応する重みを表す。|X(n+τ,ω)|は、時刻n+τにおける周波数ωでのパワースペクトル12を表し、h(ω)|X(n+τ,ω)|は、時刻n+τにおける周波数ωでのフィルタ処理されたパワースペクトル14を表す。
尚、重みw(τ)は、τ=0において最大となり、τの絶対値が大きくなるにつれて線形または非線形に小さくなるように決定されてもよい。或いは、重みw(τ)は、τの値に関わらず一定値(例えば、1)となるように決定されてもよい。或いは、重みw(τ)は、いくつかのτについて0となるように決定されてもよい。
数式(13)におけるTは、分析窓幅とも呼ばれる。Tは、前述の単位時間以上の値(例えば56ミリ秒)に設定される。数式(13)によれば、第m番目の周波数帯域(Ω)の帯域別平均時間31が得られる。
即ち、帯域別平均時間算出部513は、図10に例示されるように、所与の時刻のフィルタ処理されたパワースペクトル14の第m番目の周波数帯域(Ω)における総和を算出する。そして、帯域別平均時間算出部513は、この総和について時刻n−T/2から時刻n+T/2までの区間内のエネルギー重心位置を算出することにより、第m番目の周波数帯域(Ω)の帯域別平均時間31を得る。
図8の音声特徴量抽出装置は、図9に例示されるように動作できる。波形切り出し部101は、外部から取得した入力音声信号10から単位時間毎に時間長Tの音声波形を切り出すことによって単位音声信号11を生成する(ステップS101)。
帯域別平均時間算出部513は、ステップS104において得られたフィルタ処理されたパワースペクトル14に基づいて帯域別平均時間31を算出する(ステップS513)。軸変換部107は、ステップS513において算出された帯域別平均時間31に対して軸変換処理を施し、音声特徴量32を生成する(ステップS107)。
前述の通り、本実施形態における帯域別平均時間31は、第1の実施形態における算出される帯域別平均時間16とも第2の実施形態における帯域別平均時間21とも算出手法において異なる。しかしながら、図11、図12及び図15を用いて説明されるように、帯域別平均時間31は、第1の実施形態において算出される帯域別平均時間16と同一または類似の音声特徴を表現する。
図15(a)のグラフは帯域別平均時間16を例示し、図15(b)のグラフは帯域別平均時間31を例示している。図15の3次元グラフから切り出された2次元グラフが図11及び図12に示されている。
図11(a)のグラフは、図15(a)のグラフのうち第1の注目周波数における時刻と帯域別平均時間16との関係を示している。第1の注目周波数は、図15における低周波数帯域側から選択された。図11(b)のグラフは、図15(b)のグラフのうち上記第1の注目周波数における時刻と帯域別平均時間31との関係を示している。図11によれば、低周波数帯域側において帯域別平均時間16及び帯域別平均時間31は概ね同じ特性を持つことが確認できる。
図12(a)のグラフは、図15(a)のグラフのうち第2の注目周波数における時刻と帯域別平均時間16との関係を示している。第2の注目周波数は、図15における高周波数帯域側から選択された。図12(b)のグラフは、図15(b)のグラフのうち上記第2の注目周波数における時刻と帯域別平均時間31との関係を示している。図12によれば、高周波数帯域側においても帯域別平均時間16及び帯域別平均時間31が概ね同じ特性を持つことが確認できる。
以上説明したように、第4の実施形態に係る音声特徴量抽出装置は、前述のSATCを音声特徴量として抽出する。従って、この音声特徴量抽出装置によれば、第1の実施形態または第2の実施形態と同一または類似の効果を得ることができる。
尚、本実施形態において、フィルタバンク適用部104は、省略されてもよい。係る場合には、帯域別平均時間算出部513は、パワースペクトル12に基づいて、帯域別平均時間31を算出する。具体的には、帯域別平均時間算出部513は、下記数式(14)を利用できる。
Figure 2013164572
即ち、帯域別平均時間算出部513は、所与の時刻のパワースペクトル12の第m番目の周波数帯域(Ω)における総和を算出する。そして、帯域別平均時間算出部513は、この総和について時刻n−T/2から時刻n+T/2までの区間内のエネルギー重心位置を算出することにより、第m番目の周波数帯域(Ω)の帯域別平均時間31を得る。
(第5の実施形態)
図13に例示されるように、第5の実施形態に係る音声特徴量抽出装置は、バンドパスフィルタ適用部614と、波形切り出し部615と、帯域別平均時間算出部616と、軸変換部107とを備える。図13の音声特徴量抽出装置は、入力音声信号10から音声特徴量44を抽出する。
バンドパスフィルタ適用部614は、外部から入力音声信号10を取得する。バンドパスフィルタ適用部614は、入力音声信号10に対して1以上のバンドパスフィルタを適用する。即ち、バンドパスフィルタ適用部614は、入力音声信号10から1以上(例えば、16個)の周波数帯域の信号成分を抽出することにより、1以上のサブバンド入力音声信号41を得る。バンドパスフィルタ適用部614は、1以上のサブバンド入力音声信号41を波形切り出し部615へと出力する。バンドパスフィルタの数が1である場合にはバンドパスフィルタ適用部614が省略されてもよい。係る場合には、第4の実施形態のフィルタバンク適応部104によって適用されるフィルタバンクが備える周波数フィルタの総数が1である場合と同一もしくは類似の値が得られる。
波形切り出し部615は、バンドパスフィルタ適用部614から1以上のサブバンド入力音声信号41を入力する。波形切り出し部615は、1以上のサブバンド入力音声信号41から単位時間毎に時間長T(例えば、T=56ミリ秒)の音声波形を切り出すことによって、1以上のサブバンド単位音声信号42を生成する。より具体的には、波形切り出し部615は、第m番目のサブバンド入力音声信号41から単位時間毎に時間長Tの音声波形を切り出すことによって時刻(n)での第m番目のサブバンド単位音声信号42(xnm(t))を生成する。波形切り出し部615は、1以上のサブバンド単位音声信号42を帯域別平均時間算出部616へと出力する。
波形切り出し部615は、単位時間毎に時間長Tの音声波形を切り出す処理に加えて、切り出した音声波形の直流成分を除去する処理、切り出した音声波形の高周波成分を強調する処理、切り出した音声波形に窓関数(例えば、ハミング窓)を乗算する処理などを行うことによって、1以上のサブバンド単位音声信号42を生成してもよい。
帯域別平均時間算出部616は、波形切り出し部615から1以上のサブバンド単位音声信号42を入力する。帯域別平均時間算出部616は、1以上のサブバンド単位音声信号42の各々の平均時間(以降の説明において、帯域別平均時間43とも称される)を算出する。帯域別平均時間算出部616は、帯域別平均時間43を軸変換部107へと出力する。尚、帯域別平均時間算出部616の処理の詳細は後述される。
軸変換部107は、帯域別平均時間算出部616から帯域別平均時間43を入力する。軸変換部107は、帯域別平均時間43に第1の実施形態、第2の実施形態または第4の実施形態と同一または類似の軸変換処理を施し、音声特徴量44を生成する。音声特徴量44は、前述の音声特徴量17、音声特徴量22または音声特徴量32に相当し、SATCとも呼ばれる。軸変換部107は、音声特徴量44を外部へと出力する。尚、軸変換部107は省略されてもよい。係る場合には、帯域別平均時間43が、音声特徴量44として外部へと出力される。例えば、バンドパスフィルタ適用部614によって適用されるバンドパスフィルタの総数が1である場合、バンドパスフィルタ適用部614が省略される場合などには軸変換部107は不要である。
ここで、帯域別平均時間43は、1以上のサブバンド単位音声信号42の各々の平均時間である。故に、帯域別平均時間算出部616は、例えば下記数式(15)に従って、帯域別平均時間43を算出できる。
Figure 2013164572
数式(15)において、xnm(t)は時刻nにおける第m番目のサブバンド単位音声信号42を表す。数式(15)におけるTは、分析窓幅とも呼ばれる。数式(15)によれば、第m番目の周波数帯域(Ω)の帯域別平均時間43が得られる。
即ち、帯域別平均時間算出部616は、時刻n−T/2から時刻n+T/2までの区間内の第m番目のサブバンド単位音声信号42のパワー(|x(n+τ)|)のエネルギー重心位置を算出することにより、第m番目の周波数帯域(Ω)の帯域別平均時間43を得る。
尚、数式(15)において、時刻τ=0は、サブバンド単位音声信号42の中心に設定されているものとしているが、必ずしも単位音声信号42の中心に設定する必要はない。τ=0の位置に応じて、数式(15)右辺の分母および分子の総和を求める範囲も適宜変更されてよい。
図13の音声特徴量抽出装置は、図14に例示されるように動作できる。バンドパスフィルタ適用部614は、外部から取得した入力音声信号10に1以上のバンドパスフィルタを適用することによって1以上のサブバンド入力音声信号41を得る(ステップS614)。
波形切り出し部615は、ステップS614において得られた1以上のサブバンド入力音声信号41から単位時間毎に時間長Tの音声波形を切り出すことによって1以上のサブバンド単位音声信号42を生成する(ステップS615)。
帯域別平均時間算出部616は、ステップS615において生成された1以上のサブバンド単位音声信号42の各々の平均時間を算出することによって帯域別平均時間43を得る(ステップS616)。軸変換部107は、ステップS616において算出された帯域別平均時間43に対して軸変換処理を施し、音声特徴量44を生成する(ステップS107)。
以上説明したように、第5の実施形態に係る音声特徴量抽出装置は、前述のSATCを音声特徴量として抽出する。従って、この音声特徴量抽出装置によれば、第1の実施形態、第2の実施形態または第4の実施形態と同一または類似の効果を得ることができる。
上記各実施形態の処理は、汎用のコンピュータを基本ハードウェアとして用いることで実現可能である。上記各実施形態の処理を実現するプログラムは、コンピュータで読み取り可能な記憶媒体に格納して提供されてもよい。プログラムは、インストール可能な形式のファイルまたは実行可能な形式のファイルとして記憶媒体に記憶される。記憶媒体としては、磁気ディスク、光ディスク(CD−ROM、CD−R、DVD等)、光磁気ディスク(MO等)、半導体メモリなどである。記憶媒体は、プログラムを記憶でき、かつ、コンピュータが読み取り可能であれば、何れであってもよい。また、上記各実施形態の処理を実現するプログラムを、インターネットなどのネットワークに接続されたコンピュータ(サーバ)上に格納し、ネットワーク経由でコンピュータ(クライアント)にダウンロードさせてもよい。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
10・・・入力音声信号
11・・・単位音声信号
12・・・パワースペクトル
13・・・第3のスペクトル
14・・・フィルタ処理されたパワースペクトル
15・・・フィルタ処理された第3のスペクトル
16,21,31,43・・・帯域別平均時間
17,22,32,44・・・音声特徴量
18・・・群遅延スペクトル
19・・・乗算スペクトル
20・・・フィルタ処理された乗算スペクトル
41・・・サブバンド入力音声信号
42・・・サブバンド単位音声信号
101,615・・・波形切り出し部
102・・・パワースペクトル算出部
103・・・第3のスペクトル算出部
104,105,210・・・フィルタバンク適用部
106,211,513,616・・・帯域別平均時間算出部
107・・・軸変換部
208・・・群遅延スペクトル
209・・・スペクトル乗算部
400・・・特徴量抽出部
401・・・デコーダ
402・・・音響モデル記憶部
403・・・言語モデル記憶部
614・・・バンドパスフィルタ適用部

Claims (10)

  1. 入力音声信号及び前記入力音声信号から複数の周波数帯域の信号成分を抽出することによって得られる複数のサブバンド入力音声信号のうちいずれか一方から単位時間毎に所定の時間長に亘る音声波形を切り出すことによって、単位音声信号及び複数のサブバンド単位音声信号のうちいずれか一方を生成する切り出し部と、
    複数の周波数帯域の各々における前記単位音声信号の平均時間及び前記複数のサブバンド単位音声信号の各々の平均時間のうちいずれか一方を算出することによって、音声特徴量を得る第1の算出部と
    を具備する、音声特徴量抽出装置。
  2. 前記単位音声信号のパワースペクトルを算出する第2の算出部を更に具備し、
    前記切り出し部は、前記入力音声信号から前記単位時間毎に前記所定の時間長に亘る音声波形を切り出すことによって、前記単位音声信号を生成し、
    前記第1の算出部は、前記パワースペクトルに基づいて前記複数の周波数帯域の各々における前記単位音声信号の平均時間を算出することによって、前記音声特徴量を得る、
    請求項1の音声特徴量抽出装置。
  3. 前記単位音声信号の第1のスペクトルの実部と前記単位音声信号及び時刻の積の第2のスペクトルの実部との第1の積を算出し、前記第1のスペクトルの虚部と前記第2のスペクトルの虚部との第2の積を算出し、前記第1の積及び前記第2の積を加算することによって、第3のスペクトルを得る第3の算出部を更に具備し、
    前記第1の算出部は、前記パワースペクトル及び前記第3のスペクトルに基づいて前記複数の周波数帯域の各々における前記単位音声信号の平均時間を算出することによって、前記音声特徴量を得る、
    請求項2の音声特徴量抽出装置。
  4. 前記パワースペクトルに第1のフィルタバンクを適用することによって、フィルタ処理されたパワースペクトルを得る第1の適用部と、
    前記第3のスペクトルに第2のフィルタバンクを適用することによって、フィルタ処理された第3のスペクトルを得る第2の適用部と
    を更に具備し、
    前記第1の算出部は、前記フィルタ処理されたパワースペクトル及び前記フィルタ処理された第3のスペクトルに基づいて前記複数の周波数帯域の各々における前記単位音声信号の平均時間を算出することによって、前記音声特徴量を得る、
    請求項3の音声特徴量抽出装置。
  5. 前記単位音声信号の群遅延スペクトルを算出する第3の算出部と、
    前記群遅延スペクトルを前記パワースペクトルに乗算することによって、乗算スペクトルを得る乗算部と
    を更に具備し、
    前記第1の算出部は、前記パワースペクトル及び前記乗算スペクトルに基づいて前記複数の周波数帯域の各々における前記単位音声信号の平均時間を算出することによって、前記音声特徴量を得る、
    請求項2の音声特徴量抽出装置。
  6. 前記パワースペクトルに第1のフィルタバンクを適用することによって、フィルタ処理されたパワースペクトルを得る第1の適用部と、
    前記乗算スペクトルに第2のフィルタバンクを適用することによって、フィルタ処理された乗算スペクトルを得る第2の適用部と
    を更に具備し、
    前記第1の算出部は、前記フィルタ処理されたパワースペクトル及び前記フィルタ処理された乗算スペクトルに基づいて前記複数の周波数帯域の各々における前記単位音声信号の平均時間を算出することによって、前記音声特徴量を得る、
    請求項5の音声特徴量抽出装置。
  7. 前記パワースペクトルにフィルタバンクを適用することによって、フィルタ処理されたパワースペクトルを得る適用部を更に具備し、
    前記第1の算出部は、前記フィルタ処理されたパワースペクトルに基づいて前記複数の周波数帯域の各々における前記単位音声信号の平均時間を算出することによって、前記音声特徴量を得る、
    請求項2の音声特徴量抽出装置。
  8. 前記入力音声信号に複数のバンドパスフィルタを適用することによって、前記複数のサブバンド入力音声信号を得る適用部を更に具備し、
    前記切り出し部は、前記複数のサブバンド入力音声信号から前記単位時間毎に前記所定の時間長に亘る音声波形を切り出すことによって、前記複数のサブバンド単位音声信号を生成し、
    前記第1の算出部は、前記複数のサブバンド単位音声信号の各々の平均時間を算出することによって、前記音声特徴量を得る、
    請求項1の音声特徴量抽出装置。
  9. 入力音声信号及び前記入力音声信号から複数の周波数帯域の信号成分を抽出することによって得られる複数のサブバンド入力音声信号のうちいずれか一方から単位時間毎に所定の時間長に亘る音声波形を切り出すことによって、単位音声信号及び複数のサブバンド単位音声信号のうちいずれか一方を生成することと、
    複数の周波数帯域の各々における前記単位音声信号の平均時間及び前記複数のサブバンド単位音声信号の各々の平均時間のうちいずれか一方を算出することによって、音声特徴量を得ることと
    を具備する、音声特徴量抽出方法。
  10. コンピュータを、
    入力音声信号及び前記入力音声信号から複数の周波数帯域の信号成分を抽出することによって得られる複数のサブバンド入力音声信号のうちいずれか一方から単位時間毎に所定の時間長に亘る音声波形を切り出すことによって、単位音声信号及び複数のサブバンド単位音声信号のうちいずれか一方を生成する切り出し手段、
    複数の周波数帯域の各々における前記単位音声信号の平均時間及び前記複数のサブバンド単位音声信号の各々の平均時間のうちいずれか一方を算出することによって、音声特徴量を得る第1の算出手段
    として機能させるための音声特徴量抽出プログラム。
JP2012053506A 2012-01-10 2012-03-09 音声特徴量抽出装置、音声特徴量抽出方法及び音声特徴量抽出プログラム Pending JP2013164572A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2012053506A JP2013164572A (ja) 2012-01-10 2012-03-09 音声特徴量抽出装置、音声特徴量抽出方法及び音声特徴量抽出プログラム
US13/728,287 US9754603B2 (en) 2012-01-10 2012-12-27 Speech feature extraction apparatus and speech feature extraction method

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2012002133 2012-01-10
JP2012002133 2012-01-10
JP2012053506A JP2013164572A (ja) 2012-01-10 2012-03-09 音声特徴量抽出装置、音声特徴量抽出方法及び音声特徴量抽出プログラム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2015216661A Division JP6092345B2 (ja) 2012-01-10 2015-11-04 音声特徴量抽出装置、音声特徴量抽出方法及び音声特徴量抽出プログラム

Publications (1)

Publication Number Publication Date
JP2013164572A true JP2013164572A (ja) 2013-08-22

Family

ID=48744521

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012053506A Pending JP2013164572A (ja) 2012-01-10 2012-03-09 音声特徴量抽出装置、音声特徴量抽出方法及び音声特徴量抽出プログラム

Country Status (2)

Country Link
US (1) US9754603B2 (ja)
JP (1) JP2013164572A (ja)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9786272B2 (en) 2013-12-24 2017-10-10 Kabushiki Kaisha Toshiba Decoder for searching a digraph and generating a lattice, decoding method, and computer program product
US10008200B2 (en) 2013-12-24 2018-06-26 Kabushiki Kaisha Toshiba Decoder for searching a path according to a signal sequence, decoding method, and computer program product
US10042345B2 (en) 2014-01-31 2018-08-07 Kabushiki Kaisha Toshiba Conversion device, pattern recognition system, conversion method, and computer program product
US10055511B2 (en) 2013-12-24 2018-08-21 Kabushiki Kaisha Toshiba Search device, search method, and computer program product
US10109274B2 (en) 2014-11-28 2018-10-23 Kabushiki Kaisha Toshiba Generation device, recognition device, generation method, and computer program product
US10452355B2 (en) 2014-09-18 2019-10-22 Kabushiki Kaisha Toshiba Automaton deforming device, automaton deforming method, and computer program product
US10572538B2 (en) 2015-04-28 2020-02-25 Kabushiki Kaisha Toshiba Lattice finalization device, pattern recognition device, lattice finalization method, and computer program product
US10600407B2 (en) 2016-07-20 2020-03-24 Kabushiki Kaisha Toshiba Generation device, recognition system, and generation method for generating finite state transducer
US10650800B2 (en) 2015-09-16 2020-05-12 Kabushiki Kaisha Toshiba Speech processing device, speech processing method, and computer program product
US10878801B2 (en) 2015-09-16 2020-12-29 Kabushiki Kaisha Toshiba Statistical speech synthesis device, method, and computer program product using pitch-cycle counts based on state durations
EP3783911A4 (en) * 2018-04-19 2021-09-29 The University of Electro-Communications INFORMATION PROCESSING DEVICE, USER MIXING DEVICE, AND LATENCY REDUCTION PROCESS
US11222649B2 (en) 2018-04-19 2022-01-11 The University Of Electro-Communications Mixing apparatus, mixing method, and non-transitory computer-readable recording medium
US11308975B2 (en) 2018-04-17 2022-04-19 The University Of Electro-Communications Mixing device, mixing method, and non-transitory computer-readable recording medium
CN118335089A (zh) * 2024-06-14 2024-07-12 武汉攀升鼎承科技有限公司 一种基于人工智能的语音互动方法

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8970420B2 (en) * 2013-03-15 2015-03-03 Intel Mobile Communications GmbH Bipolar time-to-digital converter
EP2984649B1 (en) 2013-04-11 2020-07-29 Cetin CETINTURK Extraction of acoustic relative excitation features
KR102051966B1 (ko) * 2014-03-27 2019-12-04 한국전자통신연구원 음성 인식 향상 장치 및 방법
EP3624113A1 (en) 2018-09-13 2020-03-18 Nxp B.V. Apparatus for processing a signal
CN113409756B (zh) * 2020-03-16 2022-05-03 阿里巴巴集团控股有限公司 语音合成方法、系统、设备及存储介质
CN113160797B (zh) * 2021-04-25 2023-06-02 北京华捷艾米科技有限公司 音频特征处理方法及装置、存储介质及电子设备
CN113178199B (zh) * 2021-06-29 2021-08-31 中国科学院自动化研究所 基于相位偏移检测的数字音频篡改取证方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001249674A (ja) * 2000-03-06 2001-09-14 Japan Science & Technology Corp 駆動信号分析装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58145998A (ja) * 1982-02-25 1983-08-31 ソニー株式会社 音声過渡点検出方法
US4852175A (en) * 1988-02-03 1989-07-25 Siemens Hearing Instr Inc Hearing aid signal-processing system
JP2000066691A (ja) 1998-08-21 2000-03-03 Kdd Corp オーディオ情報分類装置
JP4464797B2 (ja) 2004-11-17 2010-05-19 日本電信電話株式会社 音声認識方法、この方法を実施する装置、プログラムおよびその記録媒体
JP5315904B2 (ja) 2008-10-02 2013-10-16 ヤマハ株式会社 音場支援装置、音場支援方法およびプログラム
EP2249333B1 (en) * 2009-05-06 2014-08-27 Nuance Communications, Inc. Method and apparatus for estimating a fundamental frequency of a speech signal

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001249674A (ja) * 2000-03-06 2001-09-14 Japan Science & Technology Corp 駆動信号分析装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
JPN6014052599; Donglai Zhu, et al.: 'Product of Power Spectrum and Group Delay Function for Speech Recognition' Proc. ICASSP 2004 Vol.1, 20040517, pp.125-128, ISCA *
JPN6014052600; 山本一公,外2名: '長時間分析に基づく位相情報を用いた音声認識の検討' 電子情報通信学会技術研究報告 Vol.110, No.143, 20100715, pp.31-36, 社団法人電子情報通信学会 *
JPN6014052601; 森勢将雅,外3名: '帯域毎の持続時間に基づく音響イベント検出と位置推定への応用' 電子情報通信学会技術研究報告 Vol.106, No.371, 20061116, pp.19-24, 社団法人電子情報通信学会 *

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9786272B2 (en) 2013-12-24 2017-10-10 Kabushiki Kaisha Toshiba Decoder for searching a digraph and generating a lattice, decoding method, and computer program product
US10008200B2 (en) 2013-12-24 2018-06-26 Kabushiki Kaisha Toshiba Decoder for searching a path according to a signal sequence, decoding method, and computer program product
US10055511B2 (en) 2013-12-24 2018-08-21 Kabushiki Kaisha Toshiba Search device, search method, and computer program product
US10042345B2 (en) 2014-01-31 2018-08-07 Kabushiki Kaisha Toshiba Conversion device, pattern recognition system, conversion method, and computer program product
US10452355B2 (en) 2014-09-18 2019-10-22 Kabushiki Kaisha Toshiba Automaton deforming device, automaton deforming method, and computer program product
US10109274B2 (en) 2014-11-28 2018-10-23 Kabushiki Kaisha Toshiba Generation device, recognition device, generation method, and computer program product
US10572538B2 (en) 2015-04-28 2020-02-25 Kabushiki Kaisha Toshiba Lattice finalization device, pattern recognition device, lattice finalization method, and computer program product
US10650800B2 (en) 2015-09-16 2020-05-12 Kabushiki Kaisha Toshiba Speech processing device, speech processing method, and computer program product
US10878801B2 (en) 2015-09-16 2020-12-29 Kabushiki Kaisha Toshiba Statistical speech synthesis device, method, and computer program product using pitch-cycle counts based on state durations
US11170756B2 (en) 2015-09-16 2021-11-09 Kabushiki Kaisha Toshiba Speech processing device, speech processing method, and computer program product
US11348569B2 (en) 2015-09-16 2022-05-31 Kabushiki Kaisha Toshiba Speech processing device, speech processing method, and computer program product using compensation parameters
US11423874B2 (en) 2015-09-16 2022-08-23 Kabushiki Kaisha Toshiba Speech synthesis statistical model training device, speech synthesis statistical model training method, and computer program product
US10600407B2 (en) 2016-07-20 2020-03-24 Kabushiki Kaisha Toshiba Generation device, recognition system, and generation method for generating finite state transducer
US11308975B2 (en) 2018-04-17 2022-04-19 The University Of Electro-Communications Mixing device, mixing method, and non-transitory computer-readable recording medium
EP3783911A4 (en) * 2018-04-19 2021-09-29 The University of Electro-Communications INFORMATION PROCESSING DEVICE, USER MIXING DEVICE, AND LATENCY REDUCTION PROCESS
US11222649B2 (en) 2018-04-19 2022-01-11 The University Of Electro-Communications Mixing apparatus, mixing method, and non-transitory computer-readable recording medium
US11516581B2 (en) 2018-04-19 2022-11-29 The University Of Electro-Communications Information processing device, mixing device using the same, and latency reduction method
CN118335089A (zh) * 2024-06-14 2024-07-12 武汉攀升鼎承科技有限公司 一种基于人工智能的语音互动方法

Also Published As

Publication number Publication date
US20130179158A1 (en) 2013-07-11
US9754603B2 (en) 2017-09-05

Similar Documents

Publication Publication Date Title
JP2013164572A (ja) 音声特徴量抽出装置、音声特徴量抽出方法及び音声特徴量抽出プログラム
Singh et al. Multimedia analysis for disguised voice and classification efficiency
KR101266894B1 (ko) 특성 추출을 사용하여 음성 향상을 위한 오디오 신호를 프로세싱하기 위한 장치 및 방법
US20150081287A1 (en) Adaptive noise reduction for high noise environments
Rajan et al. Using group delay functions from all-pole models for speaker recognition
Dişken et al. A review on feature extraction for speaker recognition under degraded conditions
JP5530812B2 (ja) 音声特徴量を出力するための音声信号処理システム、音声信号処理方法、及び音声信号処理プログラム
Ganapathy et al. Feature extraction using 2-d autoregressive models for speaker recognition.
Hoang et al. Blind phone segmentation based on spectral change detection using Legendre polynomial approximation
Bharath et al. New replay attack detection using iterative adaptive inverse filtering and high frequency band
Loweimi et al. Source-filter separation of speech signal in the phase domain
Kumar Spectral subtraction using modified cascaded median based noise estimation for speech enhancement
Lyubimov et al. Non-negative matrix factorization with linear constraints for single-channel speech enhancement
Close et al. The effect of spoken language on speech enhancement using self-supervised speech representation loss functions
Zhang et al. A hierarchical framework approach for voice activity detection and speech enhancement
Oh et al. Improvement of speech detection using ERB feature extraction
Ganapathy et al. Temporal envelope compensation for robust phoneme recognition using modulation spectrum
Sripriya et al. Pitch estimation using harmonic product spectrum derived from DCT
Abd El-Moneim et al. Hybrid speech enhancement with empirical mode decomposition and spectral subtraction for efficient speaker identification
Khonglah et al. Speech enhancement using source information for phoneme recognition of speech with background music
JP5325130B2 (ja) Lpc分析装置、lpc分析方法、音声分析合成装置、音声分析合成方法及びプログラム
JP6092345B2 (ja) 音声特徴量抽出装置、音声特徴量抽出方法及び音声特徴量抽出プログラム
JP4571871B2 (ja) 音声信号分析方法およびこの分析方法を実施する装置、この音声信号分析装置を用いた音声認識装置、この分析方法を実行するプログラムおよびその記憶媒体
Mallidi et al. Robust speaker recognition using spectro-temporal autoregressive models.
Zeremdini et al. Multi-pitch estimation based on multi-scale product analysis, improved comb filter and dynamic programming

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20131205

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20131212

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20131219

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20131226

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20140109

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140325

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20141125

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20141216

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150216

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20150804