JP6000094B2 - Speaker adaptation device, speaker adaptation method, and program - Google Patents
Speaker adaptation device, speaker adaptation method, and program Download PDFInfo
- Publication number
- JP6000094B2 JP6000094B2 JP2012264067A JP2012264067A JP6000094B2 JP 6000094 B2 JP6000094 B2 JP 6000094B2 JP 2012264067 A JP2012264067 A JP 2012264067A JP 2012264067 A JP2012264067 A JP 2012264067A JP 6000094 B2 JP6000094 B2 JP 6000094B2
- Authority
- JP
- Japan
- Prior art keywords
- adaptation
- feature
- speaker
- deterioration
- parameter values
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Circuit For Audible Band Transducer (AREA)
Description
本発明は雑音や残響、通信路等の影響によって歪んだ音声信号を入力とする音声認識装置のための話者適応化装置、話者適応化方法、プログラムに関する。 The present invention relates to a speaker adaptation device, a speaker adaptation method, and a program for a speech recognition device that receives a speech signal distorted by the influence of noise, reverberation, a communication path, or the like.
以下、図1に示す音声認識装置を参照して、従来の特徴量補正技術について簡潔に説明する。図1は特徴量補正処理過程を含む従来の音声認識装置の構成を示すブロック図である。 Hereinafter, a conventional feature correction technique will be briefly described with reference to the speech recognition apparatus shown in FIG. FIG. 1 is a block diagram showing a configuration of a conventional speech recognition apparatus including a feature amount correction process.
図1に示すように従来の音声認識装置9は、特徴量抽出部91と、特徴量補正部92と、補正用音響モデル記憶部93と、特徴量変換部94と、音声認識デコーダ部95と、認識用音響モデル記憶部96と、言語モデル記憶部97と、発音辞書記憶部98とを含む。補正用音響モデル記憶部93には、音響特徴量補正専用の音響モデルが記憶されている。認識用音響モデル記憶部96には、音声認識専用の音響モデルが記憶されている。言語モデル記憶部97には言語モデルが記憶されている。発音辞書記憶部98には発音辞書が記憶されている。音声認識装置9は、雑音や残響、通信路等の影響によって歪んだ音声信号を入力として受け取り、発話内容を表す単語または単語系列、すなわち音声認識結果を出力する。以下では、歪んだ音声を劣化音声と呼び、劣化音声の信号を劣化信号、劣化音声の音響特徴量を劣化特徴量と呼ぶ。劣化信号は、特徴量抽出部91に入力される。特徴量抽出部91は、劣化信号を短時間フレームに分割し、各短時間フレームの劣化信号を音響特徴量に変換し、当該音響特徴量の時系列を出力する。以後、音響特徴量の時系列を音響特徴量系列、または特徴量系列と呼ぶ。音響特徴量としては、対数メル周波数スペクトル係数やメル周波数ケプストラム係数(MFCC)等が用いられる。以下、劣化音声の特徴量系列を劣化特徴量系列と呼ぶ。劣化特徴量系列は、特徴量補正部92に入力される。特徴量補正部92は、補正用音響モデル記憶部93に記憶された音響モデルを用いて、各短時間フレームの劣化特徴量に重畳された歪みの影響を補正し、補正された音響特徴量の時系列を出力する。特徴量補正部92は、VTS(Vector Taylor Series)強調(非特許文献1)やAlgonquin(非特許文献2)等の特徴量強調手段によって構築される。以後、歪みの影響が補正された音響特徴量を補正後特徴量と呼び、補正後特徴量の時系列を補正後特徴量系列と呼ぶ。特徴量補正部92から出力された補正後特徴量系列は、特徴量変換部94に入力される。特徴量変換部94は、補正後特徴量系列を、音声認識デコーダ部95が用いる特徴量表現の時系列に変換し、これを出力する。以後、音声認識デコーダ部95が用いる特徴量表現を認識用特徴量と呼び、認識用特徴量の時系列を認識用特徴量系列と呼ぶ。認識用特徴量としては、MFCCにデルタケプストラムを連結したもの等が用いられる。特徴量変換部94から出力された認識用特徴量系列は、音声認識デコーダ部95に入力される。音声認識デコーダ部95は、音声認識専用の音響モデル、言語モデル、発音辞書等を参照しながら、入力された認識用特徴量系列に最もよく適合する単語または単語系列を算出し、これを音声認識結果として出力する。図中、円筒シンボルで示された構成要素(93、96、97、98)は、当該構成要素が表すモデルを規定するパラメータを格納した記憶部であり、これらのパラメータが当該モデルを参照する処理部によって読み出される。
As shown in FIG. 1, the conventional
なお、以上の記述では、音声認識装置への応用を想定して特徴量補正技術を説明したが、特徴量補正技術は、音声認識装置に限らず、音声認識プログラム、雑音抑圧装置、雑音抑圧プログラム等にも応用できる。 In the above description, the feature amount correction technology has been described assuming application to a speech recognition device. However, the feature amount correction technology is not limited to a speech recognition device, but a speech recognition program, a noise suppression device, and a noise suppression program. Etc.
前述したように、特徴量補正部92では、音声認識デコーダ部95が用いるものとは別の、歪みの影響を補正するために用いられる音響モデルが用いられる。以後、この音響モデルを補正用音響モデルと呼ぶ。また、音声認識デコーダ部95が参照する音声認識専用の音響モデルを認識用音響モデルと呼び、補正用音響モデルと区別する。補正用音響モデルは混合正規分布を用いて表現され、隠れマルコフモデルに基づく認識用音響モデルよりも単純な構造をもつ。補正用音響モデルは、歪みを含まないクリーンな音声の短時間フレームにおける音響特徴量の分布を表現したものであり、音声のコーパスを用いて事前に学習される。
As described above, the feature
音声認識装置の信頼性を高めるためには、予め録音された使用者の音声を大量に用いて補正用音響モデルを学習するのが望ましい。このような補正用音響モデルは特定話者モデルと呼ばれる。しかしながら、使用者の音声を事前に大量に収集しておくのは実際には困難であるため、多くの場合、一名以上の不特定話者の音声を用いて補正用音響モデルを学習する。このような補正用音響モデルは不特定話者モデルと呼ばれる。不特定話者モデルも一定の特徴量補正効果をもつが、不特定話者モデルを用いて特徴量補正して得られる音声認識精度は、特定話者モデルによって得られる認識精度に劣る。 In order to increase the reliability of the speech recognition apparatus, it is desirable to learn the correction acoustic model using a large amount of user's voices recorded in advance. Such a correction acoustic model is called a specific speaker model. However, since it is actually difficult to collect a large amount of user's voice in advance, in many cases, the correction acoustic model is learned using the voice of one or more unspecified speakers. Such a correction acoustic model is called an unspecified speaker model. The unspecified speaker model also has a certain feature amount correction effect, but the speech recognition accuracy obtained by correcting the feature amount using the unspecified speaker model is inferior to the recognition accuracy obtained by the specific speaker model.
一方、音声認識装置の使用者から得られた少量の発話データを用いて、不特定話者の「認識用」音響モデルを、当該使用者の音声の特性に適合するように修正する話者適応化技術が知られている。具体的には、話者適応化技術は、上記少量の発話データから抽出された音響特徴量の集合と不特定話者モデルを規定する認識用音響モデルのパラメータの値の集合を入力として受け取り、当該使用者の音響的特性に適合するようにパラメータの値を修正し、修正されたパラメータの値の集合を出力する。話者適応化前の補正用音響モデル、すなわち不特定話者モデルを規定するパラメータの値を適応前パラメータ値、話者適応化されたパラメータの値を適応後パラメータ値と呼ぶ。 On the other hand, speaker adaptation that modifies the “recognition” acoustic model of an unspecified speaker to match the characteristics of the user's speech using a small amount of speech data obtained from the user of the speech recognition device Technology is known. Specifically, the speaker adaptation technology receives as input a set of acoustic feature values extracted from the small amount of utterance data and a set of parameter values of a recognition acoustic model that defines an unspecified speaker model, The parameter values are modified to match the acoustic characteristics of the user, and a set of modified parameter values is output. A parameter value that defines a correction acoustic model before speaker adaptation, that is, an unspecified speaker model, is referred to as a pre-adaptation parameter value, and a parameter value after speaker adaptation is referred to as a post-adaptation parameter value.
しかしながら、従来の「認識用」音響モデルのための話者適応化技術は、そのままでは「補正用」音響モデルの話者適応化に用いることができない。例えば、使用者の音声を事前に収集する方策として、その使用者が過去に音声認識装置を用いた際に記録された音声を用いることが考えられる。ところが、実際にはこれらの音声は歪みを含むので、話者適応化に用いられる音響特徴量は劣化した特徴量である。クリーンな音響特徴量を表現する補正用音響モデルの話者適応化に、これら劣化特徴量を用いても音声認識精度は改善されない。そこで、本発明では、音声認識精度を効果的に改善できるよう適切に話者適応化された補正用音響モデルを得ることを目的とした話者適応化装置を提供することを目的とする。 However, the conventional speaker adaptation technology for the “recognition” acoustic model cannot be used as it is for speaker adaptation of the “correction” acoustic model. For example, as a measure for collecting user's voice in advance, it is conceivable to use voice recorded when the user has used a voice recognition device in the past. However, since these voices actually contain distortion, the acoustic feature quantity used for speaker adaptation is a deteriorated feature quantity. Even if these deteriorated feature quantities are used for speaker adaptation of a correction acoustic model that expresses clean acoustic feature quantities, the speech recognition accuracy is not improved. Accordingly, an object of the present invention is to provide a speaker adaptation device for obtaining a correction acoustic model that is appropriately adapted to a speaker so that speech recognition accuracy can be effectively improved.
本発明の話者適応化装置は、フレーム選択部と、パラメータ修正部とを含む。歪んだ音声の音響特徴量を劣化特徴量と呼ぶ。歪みの影響を補正するために用いられる音響モデルを補正用音響モデルと呼ぶ。不特定話者の音声を用いて学習された補正用音響モデルを不特定話者モデルと呼ぶ。フレーム選択部は、事前に記録された劣化特徴量の集合を入力とし、劣化特徴量の集合から劣化の度合いが小さい劣化特徴量を抽出し、抽出した劣化特徴量の集合を適応用特徴量の集合として出力する。パラメータ修正部は、適応用特徴量の集合と不特定話者モデルを規定するパラメータ値である適応前パラメータ値の集合とを入力とし、適応前パラメータ値の集合を適応用特徴量に適合するように修正(話者適応化)し、話者適応化されたパラメータの値である適応後パラメータ値の集合を出力する。 The speaker adaptation apparatus of the present invention includes a frame selection unit and a parameter correction unit. The acoustic feature quantity of distorted speech is called a deterioration feature quantity. An acoustic model used for correcting the influence of distortion is referred to as a correcting acoustic model. A correction acoustic model learned using the voice of an unspecified speaker is called an unspecified speaker model. The frame selection unit receives a set of pre-recorded deterioration feature values, extracts a deterioration feature value with a low degree of deterioration from the set of deterioration feature values, and uses the extracted set of deterioration feature values as adaptation feature values. Output as a set. The parameter correction unit receives a set of feature values for adaptation and a set of pre-adaptation parameter values that are parameter values that define an unspecified speaker model, and adjusts the set of pre-adaptation parameter values to the feature values for adaptation. And a set of post-adaptation parameter values that are speaker-adapted parameter values are output.
本発明の話者適応化装置によれば、適切に話者適応化された補正用音響モデルを得ることができる。 According to the speaker adaptation apparatus of the present invention, it is possible to obtain a correction acoustic model that is appropriately adapted to a speaker.
以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。なお、以下に登場するI,Ni,K,Nはいずれも1以上の整数とし、i,k,nはいずれも整数とする。 Hereinafter, embodiments of the present invention will be described in detail. In addition, the same number is attached | subjected to the component which has the same function, and duplication description is abbreviate | omitted. Note that I, N i , K, and N appearing below are all integers of 1 or more, and i, k, and n are all integers.
以下、図2、3を参照して本発明の実施例1に係る話者適応化装置について説明する。図2は本発明の実施例1に係る話者適応化装置の構成を示すブロック図である。図3は本発明の実施例1に係る話者適応化装置の動作を示すフローチャートである。
A speaker adaptation apparatus according to
話者適応化装置1への入力は、事前に録音された使用者の劣化音声信号の短時間フレームから得られた音響特徴量(音響特徴量はD次元のベクトル)、すなわち劣化特徴量の集合Y={yi(n);1<i<I,1<n<Ni}、及び不特定話者モデルを規定する適応前パラメータ値の集合Λである。ただし、IはYに含まれる発話の個数、各Niはi番目の発話に含まれる短時間フレームの個数である。本発明では、補正用音響モデルは混合正規分布の形式で表現されているものと仮定する。すなわち、Λは、各正規分布に対する重み係数ωk(1<k<K)、平均ベクトルmk(1<k<K)、精度行列Rk(1<k<K)からなり、Λ={ωk,mk,Rk;1<k<K}と書ける。ただし、Kは混合正規分布に含まれる正規分布の個数である。話者適応化装置からの出力は、話者適応化処理後の修正された補正用音響モデルを規定する適応後パラメータ値の集合Θである。Θは、修正された重み係数~ωk(1<k<K)、修正された平均ベクトル~mk(1<k<K)、修正された精度行列~Rk(1<k<K)からなり、Θ={~ωk,~mk,~Rk;1<k<K}と書ける。
The input to the
図2に示すように本実施例の話者適応化装置1は、フレーム選択部11と、パラメータ修正部12とを含む。話者適応化装置1に入力された劣化特徴量の集合Yは、フレーム選択部11に入力される。フレーム選択部11は、Yの中から、SN比が高く、話者適応化に使用できる音響特徴量の集合X={xn;1<n<N}を選択し、これを出力する(S11、フレーム選択ステップ)。XはYの部分集合であるため、X⊆Y、N<N1+...+NIが成り立つ。具体的には、フレーム選択部11は、各yi(n)(1<i<I,1<n<Ni)のSN比の値あるいはSN比に相関のある指標の値を算出する。そして、その算出された値が所定の閾値より大きい場合に限り、yi(n)を劣化の度合いが小さいために補正用音響モデルの話者適応化に使用できると判定して、yi(n)をXに含める。Xに含まれる音響特徴量を適応用特徴量と呼ぶ。
As shown in FIG. 2, the
フレーム選択部11から出力された適応用特徴量の集合Xは、適応前パラメータ値の集合Λとともにパラメータ修正部12に入力される。パラメータ修正部12は、認識用音響モデルを対象とした任意の話者適応化手段の一つを用いて、集合Xに基づいてΛに含まれるパラメータの値の集合を適応用特徴量に適合するように話者適応化して適応後パラメータ値の集合Θを算出する(S12、パラメータ修正ステップ)。こうして求められたΘは、話者適応化装置1から出力される。フレーム選択部12で用いることのできる話者適応化手段として、例えば最大事後確率適応法(参考非特許文献1)や最尤線形回帰法(参考非特許文献2)が知られている。
(参考非特許文献1)J. Gauvain and C.-H. Lee, “Maximum a posteriori estimation for multivariate Gaussian mixture observation of Markov chains,” IEEE Trans. Speech Audio Process., vol. 2, no. 2, pp. 291-298, 1994.
(参考非特許文献2)C. Legetter and P. Woodland, “Maximum likelihood linear regression for speaker adaptation of continuous density hidden Markov models,” Comput. Speech Language, vol. 9, no. 2, pp. 171-185, 1995.
The adaptation feature amount set X output from the
(Non-patent document 1) J. Gauvain and C.-H. Lee, “Maximum a posteriori estimation for multivariate Gaussian mixture observation of Markov chains,” IEEE Trans. Speech Audio Process., Vol. 2, no. 2, pp 291-298, 1994.
(Reference Non-Patent Document 2) C. Legetter and P. Woodland, “Maximum likelihood linear regression for speaker adaptation of continuous density hidden Markov models,” Comput. Speech Language, vol. 9, no. 2, pp. 171-185, 1995.
<フレーム選択部11:加法性雑音環境を想定した構成例>
以下、図4、図5を参照してフレーム選択部11の構成例を説明する。図4は本実施例のフレーム選択部11の構成例を示すブロック図である。図5は本実施例のフレーム選択部11の動作例を示すフローチャートである。図4に示すように、本実施例のフレーム選択部11は例えば、雑音推定手段111と、SN比推定手段112と、第一閾値処理手段113とを含む。図4に示すフレーム選択部11の構成例は、加法性雑音環境での使用を想定したものであり、適応前パラメータ値の集合Λを用いず、劣化特徴量の集合Yのみを入力として受け取る。
<Frame selection unit 11: configuration example assuming additive noise environment>
Hereinafter, a configuration example of the
雑音推定手段111は、劣化特徴量の集合Yを入力として受け取り、公知の雑音推定方法を用いて、Yに含まれる雑音の音響特徴量である雑音特徴量di(n)を推定し、算出された雑音特徴量の集合{di(n);1<i<I,1<n<Ni}を出力する。(SS111、雑音推定サブステップ)。雑音推定方法としては、音声区間検出を用いる方法(参考非特許文献3)、劣化音声の各発話の冒頭の数フレームは雑音だけからなると仮定する方法(参考非特許文献4)、IMCRA法(参考非特許文献5)等が知られている。
(参考非特許文献3)S. F. Boll, “Suppression of acoustic noise in speech using spectral subtraction,” IEEE Trans. Acoust., Speech, Signal Process., vol. 27, no. 2, pp. 113-120, 1978.
(参考非特許文献4)Y. Ephraim, “Speech enhancement using a minimum mean square error short-time spectral amplitude estimator,”IEEE Trans. Acoust., Speech, Signal Process., vol. 32, no. 6, pp. 1109-1121, 1984.
(参考非特許文献5)I. Cohen, “Noise spectrum estimation in adverse environments: improved minima controlled recursive averaging,”IEEE Trans. SAP, vol. 11, no. 5, pp. 466-475, 2003.
The
(Reference Non-Patent Document 3) SF Boll, “Suppression of acoustic noise in speech using spectral subtraction,” IEEE Trans. Acoust., Speech, Signal Process., Vol. 27, no. 2, pp. 113-120, 1978.
(Non-patent document 4) Y. Ephraim, “Speech enhancement using a minimum mean square error short-time spectral amplitude estimator,” IEEE Trans. Acoust., Speech, Signal Process., Vol. 32, no. 6, pp. 1109-1121, 1984.
(Non-patent document 5) I. Cohen, “Noise spectrum estimation in adverse environments: improved minima controlled recursive averaging,” IEEE Trans. SAP, vol. 11, no. 5, pp. 466-475, 2003.
例えば、2つめに挙げた方法では、次式にしたがってdi(n)を算出する。 For example, in the second method, di (n) is calculated according to the following equation.
ただし、各Diは雑音だけからなると想定される発話冒頭のフレーム数である。SN比推定手段112は、劣化特徴量の集合Yと雑音特徴量の集合{di(n);1<i<I,1<n<Ni}を入力として受け取り、各音響特徴量yi(n)について、次式で定義されるスカラ値ri(n)を算出し、算出されたSN比の集合{ri(n);1<i<I,1<n<Ni}を出力する(SS112、SN比推定サブステップ)。
However, each D i is the number of frames at the beginning of the utterance that is assumed to consist only of noise. The SN
ただし、exp(・)と|・|は、それぞれ指数関数とベクトルのノルムを表す。この値はSN比の推定値であり、以後単にSN比と呼ぶ。第一閾値処理部113は、劣化特徴量の集合YとSN比の集合{ri(n);1<i<I,1<n<Ni}を入力として受け取り、対応するSN比ri(n)が予め定めた閾値Hより大きい音響特徴量yi(n)の集合X={yi(n);ri(n)>H,1<i<I,1<n<Ni}を求め、当該適応用特徴量の集合Xを出力する(SS113、第一閾値処理サブステップ)。
Here, exp (·) and | · | represent the norm of the exponential function and the vector, respectively. This value is an estimated value of the SN ratio, and is simply referred to as an SN ratio hereinafter. The first threshold
<パラメータ修正部12:最大事後確率適応法を利用する構成例>
以下、図6、図7を参照してパラメータ修正部12の構成例について説明する。図6は本実施例のパラメータ修正部12の構成例を示すブロック図である。図7は本実施例のパラメータ修正部12の動作例を示すフローチャートである。図6に示すように、本実施例のパラメータ修正部12は、例えばパラメータ初期化手段121と、超母数設定手段122と、カウント初期化手段123と、分配率計算手段124と、パラメータ更新手段125と、カウント増加手段126と、収束判定手段127とを含む。
<Parameter Correction Unit 12: Configuration Example Using Maximum A posteriori Probability Adaptation Method>
Hereinafter, a configuration example of the
図6、7に示したパラメータ修正部12の構成例は最大事後確率適応法を利用する構成例である。図6、7に示したパラメータ修正部12の処理の詳細については、背景となる考え方を含めて参考非特許文献1において説明されているので、本明細書では処理の流れのみ記述する。なお、最大事後確率適応法は、話者適応化技術の一つの具体例として取り上げて説明しているにすぎず、最尤線形回帰法等の他の話者適応化技術を用いてパラメータ修正部12を実現することもできる。
The configuration example of the
パラメータ初期化手段121は、修正後のパラメータ~ωk(1<k<K)、~mk(1<k<K)、~Rk(1<k<K)を初期化する(SS121、パラメータ初期化サブステップ)。初期化の方法として例えば、次式のように不特定話者モデルのパラメータを用いることができる。 The parameter initialization means 121 initializes the corrected parameters ~ ω k (1 < k < K), ~ m k (1 < k < K), ~ R k (1 < k < K) (SS121, Parameter initialization sub-step). As an initialization method, for example, parameters of an unspecified speaker model can be used as in the following equation.
ただし、初期化の方法は上式に限定されるものではなく、他の任意の方法を用いて修正後のパラメータを初期化してよい。次に、超母数設定手段122は、最大事後確率適応に用いる事前分布の超母数(ハイパーパラメータ)の値を設定する(SS122、超母数設定サブステップ)。重み係数の事前分布としてディリクレ分布、平均ベクトルと精度行列の結合事前分布として正規-ウィシャート分布を用いる。すなわち、重み係数の事前分布g(ω1,・・・,ωK)と平均ベクトルと精度行列の結合事前分布g(mk,Rk)は、それぞれ次式で与えられる。
However, the initialization method is not limited to the above equation, and the corrected parameters may be initialized using any other method. Next, the super parameter setting means 122 sets the value of the super parameter (hyper parameter) of the prior distribution used for the maximum posterior probability adaptation (
tr(・)は、行列のトレースを表す。また、(vk,τk,μk,αk,Uk;1<k<K)が事前分布を規定する超母数である。これらの値は、例えば次のように設定される。 tr (·) represents a matrix trace. Further, (v k , τ k , μ k , α k , U k ; 1 < k < K) is a super parameter that defines the prior distribution. These values are set as follows, for example.
ただし、超母数の値はこれらに限定されるものではなく、自由に設定してよい。最大事後確率適応法はEMアルゴリズムに基づいており、繰り返し処理を含む。次に、カウント初期化手段123は、繰り返し処理を開始する前に繰り返しカウントCを1に設定する(SS123、カウント初期化サブステップ)。次に、分配率計算手段124は、1<k<K、1<n<Nについて、次式で定義される分配率cknを計算する(SS124、分配率計算サブステップ)。
However, the value of the super parameter is not limited to these and may be set freely. The maximum posterior probability adaptation method is based on the EM algorithm and includes iterative processing. Next, the
次に、パラメータ更新手段125は、修正されたパラメータを次式にしたがって更新する(SS125、パラメータ更新サブステップ)。
Next, the
ただし、パラメータ更新サブステップでは、必ずしもすべての修正されたパラメータを更新しなくてもよい。例えば、式(15)によって修正された平均ベクトルだけを更新する構成にしてもよい。カウント増加手段126は、C=C+1を計算して繰り返しカウントを1だけ増やす(SS126、カウント増加サブステップ)。収束判定手段127は、EMアルゴリズムが収束しているかどうかを判定し、収束していなければ(SS127NO)分配率計算サブステップ(SS124)に戻る。収束していれば(SS127YES)フローを終了する。収束判定は、例えば繰り返しカウントが閾値Cmaxを超えているか否かに基づいて判定することができる。ただし、収束条件はこれに限定されるものではなく、繰り返しで変化したパラメータの変化量等に基づいて収束したか否かを判定してもよい。
However, in the parameter update substep, it is not always necessary to update all modified parameters. For example, only the average vector corrected by equation (15) may be updated. The count increment means 126 calculates C = C + 1 and increments the repeat count by 1 (SS126, count increment substep). The
以下、図8から図11を参照して、実施例2に係る話者適応装置について説明する。図8は本発明の実施例2に係る話者適応化装置2の構成を示すブロック図である。図9は本発明の実施例2に係る話者適応化装置2の動作を示すフローチャートである。図10は本実施例のフレーム選択部21の構成例を示すブロック図である。図11は本実施例のフレーム選択部21の動作例を示すフローチャートである。
Hereinafter, the speaker adaptation apparatus according to the second embodiment will be described with reference to FIGS. 8 to 11. FIG. 8 is a block diagram showing the configuration of the
図8に示すように、本実施例の話者適応装置2はフレーム選択部21とパラメータ修正部12とを含む。パラメータ修正部12は実施例1のパラメータ修正部12と同一であるから説明を略する。以下、実施例1との相違点であるフレーム選択部21について説明する。
As shown in FIG. 8, the
<フレーム選択部21:残響環境を想定した構成例>
本実施例のフレーム選択部21は、残響環境での使用を想定したものであり、適応前パラメータ値の集合Λと劣化特徴量の集合Yを入力として受け取る。フレーム選択部21は、Yの中から、残響時間が短く、話者適応化に使用できる音響特徴量の集合X={xn;1<n<N}を選択し、これを出力する(S21、フレーム選択ステップ)。具体的には、フレーム選択部21は入力された劣化特徴量の集合Yと適応前パラメータ値の集合Λとを用いて、各発話i (1<i<I)の残響時間を推定する。そして推定された残響時間が所定の閾値より小さい場合に限り、yi(n)は劣化の度合いが小さい劣化特徴量であり、補正用音響モデルの話者適応化に使用できると判定して、yi(n)をXに含める。
<Frame selection unit 21: configuration example assuming reverberation environment>
The
より詳細には、図10に示すように、フレーム選択部21は、残響時間推定手段211と、第二閾値処理手段212とを含む。残響時間推定手段211は、適応前パラメータ値の集合Λと劣化特徴量の集合Yを入力として受け取り、公知の残響時間推定方法を用いて、各発話の劣化特徴量{yi(1),・・・,yi(Ni)}から残響時間T60(i)を推定し、推定された残響時間の集合{T60(i);1<i<I}を出力する(SS211、残響時間推定サブステップ)。残響時間推定は、例えば参考非特許文献6に記載の残響時間推定方法を用いる、または参考非特許文献7に記載の残響補正方法を援用する、等によって実施できる。
(参考非特許文献6)R. Ratnam, D. L. Jones, B. C. Wheeler, W. D. O’Brien Jr., C. R. Lansing, and A. S. Feng, “Blind estimation of reverberation time,” J. Acoustical Society of America, vol. 114, no. 5, pp. 2877-2892, 2003.
(参考非特許文献7)吉岡拓也, 中谷智広, “高即応・高精度な歪み特徴量モデルの推定のための動的静的アプローチ,” vol. 2011-SLP-89, no. 22, 2011.
More specifically, as shown in FIG. 10, the
(Reference Non-Patent Document 6) R. Ratnam, DL Jones, BC Wheeler, WD O'Brien Jr., CR Lansing, and AS Feng, “Blind estimation of reverberation time,” J. Acoustical Society of America, vol. 114, no. 5, pp. 2877-2892, 2003.
(Reference Non-Patent Document 7) Takuya Yoshioka, Tomohiro Nakatani, “Dynamic Static Approach for Estimating Highly Responsive and Accurate Strain Feature Models,” vol. 2011-SLP-89, no. 22, 2011.
あるいは、自動的に残響時間を推定する代わりに、人間に当該音声を聞かせて残響の程度を判断させてもよい。残響時間が長くなるにつれて音声に重畳される歪みが大きくなるので、残響時間はSN比に逆相関のある指標と見做せる。従って、第二閾値処理手段212は、劣化特徴量の集合Yと残響時間の集合{T60(i);1<i<I}を入力として受け取り、対応する残響時間T60(i)が予め定めた閾値Rより小さい音響特徴量yi(n)の集合X={yi(n);T60(i)<R,1<i<I,1<n<Ni}を求め、算出された適応用特徴量の集合Xを出力する(SS212、第二閾値処理サブステップ)。 Alternatively, instead of automatically estimating the reverberation time, a person may be allowed to hear the sound and determine the degree of reverberation. As the reverberation time becomes longer, the distortion superimposed on the voice increases, so the reverberation time can be regarded as an index having an inverse correlation with the SN ratio. Therefore, the second threshold processing means 212 receives the degradation feature quantity set Y and the reverberation time set {T 60 (i); 1 < i < I} as inputs, and the corresponding reverberation time T 60 (i) set of predetermined threshold R is smaller than acoustic features y i (n) X =; seek {y i (n) T 60 (i) <R, 1 <i <I, 1 <n <n i}, computed The set X of feature values for adaptation is output (SS212, second threshold value processing sub-step).
<残響時間推定手段211:参考非特許文献7の残響補正方法を援用する構成例>
以下、図12、図13を参照して残響時間推定手段211の構成例について説明する。図12は本実施例の残響時間推定手段211の構成例を示すブロック図である。図13は本実施例の残響時間推定手段211の動作例を示すフローチャートである。
<Reverberation time estimation means 211: configuration example using the reverberation correction method of Reference Non-Patent Document 7>
Hereinafter, a configuration example of the reverberation
残響時間推定手段211は、参考非特許文献7の残響補正方法を援用して残響時間T60(i)を推定する構成例である。残響補正方法(参考非特許文献7)は減衰率bi、歪み分散σi、シフトhiと呼ぶ3種類のパラメータを推定するが、減衰率は残響時間と密接な関連をもつ。ただし、これらのパラメータは音響特徴量yi(n)と同じ次元をもつ。そこで、参考非特許文献7の方法を用いて求められた減衰率biを通じて、残響時間T60(i)を計算する。ここでは、表記を簡潔にするために、発話を表すインデクスiを省略する。なお、インデクスiは1以上の整数である。また、音響特徴量として対数メルフィルタバンクを用い、補正用音響モデルの精度行列は対角行列、すなわちRk=diag(rk)(1<k<K)であると想定する。各rkは精度行列の対角成分からなるベクトル、diag(・)はベクトルを対角行列に変換する演算を表す。
The reverberation
図12に示すように、残響時間推定手段211は例えば、変数初期化部2110と、カウント初期化部2111と、合成部2112と、係数計算部2113と、処理分岐部2114と、第一更新部2115と、第二更新部2116と、カウント増加部2117と、収束判定部2118と、減衰率変換部2119とを含む。
As shown in FIG. 12, the reverberation
変数初期化部2110は、減衰率b、歪み分散σ、シフトhの各未知変数を初期化する(SS2110、変数初期化サブステップ)。これらの変数の初期値には任意の値を用いることができる。例えば、次の初期値を用いることができる。
The
本方法はEMアルゴリズムに基づいており、繰り返し処理を含む。カウント初期化部2111は、繰り返し処理を開始する前に繰り返しカウントCを1に設定する(SS2111、カウント初期化サブステップ)。合成部2112は、すべての1<k<Kと1<n<Nについて、次式で定義される第1係数ψk,nと、第2係数υk,nとを計算する(SS2112、合成サブステップ)。
The method is based on the EM algorithm and includes iterative processing. The
ただし、Δは所与の正の整数、f(・)とg(・)はそれぞれ次式で定義される関数である。 Where Δ is a given positive integer, and f (•) and g (•) are functions defined by the following equations, respectively.
なお、乗算、除算、冪乗演算、関数演算はベクトルの要素毎に適用される。係数計算部2113は、すべての1<k<Kと1<n<Nについて、次式で定義される第3係数ωk,n、第4係数lk,n、第5係数ek,nを計算する(SS2113、係数計算サブステップ)。
Note that multiplication, division, power calculation, and function calculation are applied to each vector element. The
処理分岐部2114は、繰り返しカウントCが奇数であれば(SS2114YES)第一更新サブステップ(SS2115)へ、偶数であれば(SS2114NO)第二更新サブステップ(SS2116)へ処理を分岐させる。
The
第一更新部2115は、次式にしたがって減衰率bと歪み分散σを更新する(SS2115、第一更新サブステップ)。
The
第二更新部2116は次式にしたがってシフトhを更新する(SS2116、第二更新サブステップ)。
The
カウント増加部2117は、C=C+1を計算して繰り返しカウントを1だけ増やす(SS2117、カウント増加サブステップ)。収束判定部2118は、EMアルゴリズムが収束しているかどうかを判定し、収束していなければ(SS2118NO)合成サブステップ(SS2112)に戻り、収束していれば(SS2118YES)、減衰率変換サブステップ(SS2119)に進む(SS2118、収束判定サブステップ)。収束判定は、例えば繰り返しカウントが予め定めた閾値Cmaxを超えているか否かに基づいて判定することができる。ただし、収束条件はこれに限定されるものではなく、繰り返しで変化した減衰率の変化量等に基づいて収束したか否かを判定してもよい。減衰率変換部2119は、上記算出された減衰率biに基づいて、残響時間T60(i)を求める(これより以下、明確を期するため、発話インデクスiを明記する)。具体的には、Qを事前に定められた定数、avg(・)をベクトル要素の平均を求める演算として、次式によってT60(i)を計算する(SS2119、減衰率変換サブステップ)。
The
<本発明の話者適応化装置に含まれるフレーム選択部について>
上述のように、本発明の話者適応化装置に含まれるフレーム選択部の具体的な構成例として、実施例1ではフレーム選択部11を、実施例2ではフレーム選択部21を開示した。実施例1のフレーム選択部11は、劣化特徴量の集合Yを入力とし、劣化特徴量の集合YからSN比が高い劣化特徴量を適応用特徴量の集合Xとして出力することを特徴とした。また実施例2のフレーム選択部21は、劣化特徴量の集合Yを入力とし、劣化特徴量の集合Yから残響時間が短い劣化特徴量を適応用特徴量の集合Xとして出力することを特徴とした。しかしながら、本発明の話者適応化装置に含まれるフレーム選択部は実施例1、実施例2に開示した構成に限定されない。本発明の話者適応化装置は、音声信号が非定常であることや音声に歪みを生じさせる環境が多様であることにより、SN 比は短時間フレームによって大きく異なるため、SN 比が高い、すなわちほとんどクリーンな短時間フレームが存在するという事実に着目し、歪みを含む劣化特徴量のうち、歪み、つまり劣化が少ない短時間フレームを取り出して、不特定話者モデルとして事前に用意された補正用音響モデルを話者適応化することを着想の基礎としている。従って、本発明のフレーム選択部は、劣化特徴量の集合Yから劣化の度合いが小さい劣化特徴量を抽出し、抽出した劣化特徴量の集合を適応用特徴量の集合として出力するように構成されていればよく、SN比、残響時間以外の任意の劣化度合いを示すパラメータを利用することができる。
<Frame Selection Unit Included in Speaker Adaptation Apparatus of Present Invention>
As described above, as a specific configuration example of the frame selection unit included in the speaker adaptation apparatus of the present invention, the
<音声認識実験>
以下、本発明の実施例2の話者適応化装置2を、図1で示した従来の音声認識装置9と組み合わせ、残響のある環境で録音された音声について音声認識実験を行った結果について説明する。図14は話者適応化装置2を音声認識装置9と組み合わせた構成を示すブロック図である。図14に示すように、音声認識装置9の補正用音響モデル記憶部93に記憶されたパラメータは外部から読み書き可能になっている。これにより、話者適応化装置2は、補正用音響モデル記憶部93に初めに記憶されている適応前パラメータ値の集合を読み込む。そして、話者適応化装置2は生成した適応後パラメータ値の集合を補正用音響モデル記憶部93に上書きする。話者適応化装置のフレーム選択部21は、実施例2で説明した通りの構成である。音声認識装置9と話者適応化装置2はそれぞれ、これらの装置が実行する処理の手順を記述した音声認識プログラム、話者適応化プログラムをコンピュータに実行させることで実現した。
<Voice recognition experiment>
Hereinafter, the results of performing a speech recognition experiment on speech recorded in a reverberant environment by combining the
図14の装置を用いて音声認識実験を行った。実験には20000語のWall Street Journalデータベースの学習、評価、適応の各データセットを用いた。学習データセットは、認識用音響モデルと話者適応化を行う前の補正用音響モデルを学習するのに用いた。評価データセットは、残響音声を模擬するために、このデータセットに含まれる各発話と予め計測したインパルス応答を畳み込んでから使用した。評価データセットは8名の話者で構成され、各話者について、適応データセットに50発話分の個人適応データが含まれている。適応データセットに含まれる発話についても、いくつかの異なる残響環境で収録されたインパルス応答を畳み込むことで、残響を含む話者適応データを模擬的に作成して使用した。 Speech recognition experiments were performed using the apparatus of FIG. The experiment used the learning, evaluation, and adaptation data sets from the 20,000-word Wall Street Journal database. The learning data set was used to learn the acoustic model for recognition and the acoustic model for correction before speaker adaptation. In order to simulate reverberant speech, the evaluation data set was used after convolution of each utterance included in the data set and an impulse response measured in advance. The evaluation data set consists of 8 speakers, and for each speaker, the adaptation data set includes personal adaptation data for 50 utterances. For the speech included in the adaptation data set, speaker adaptation data including reverberation was simulated and used by convolving impulse responses recorded in several different reverberation environments.
実験の結果、特徴量補正をまったく実施しない場合の単語誤り率は92.14%であった。話者適応化を実施しない、すなわち適応前パラメータ値を用いて特徴量補正をした場合、単語誤り率は54.93%に改善した。話者適応化を実施し、適応後パラメータ値を用いて特徴量補正をした場合、単語誤り率は更に51.83%まで改善した。この結果は、本発明で提案した補正用音響モデルの話者適応化の有効性を示す。 As a result of the experiment, the word error rate without any feature correction was 92.14%. When speaker adaptation was not performed, that is, when feature value correction was performed using pre-adaptation parameter values, the word error rate improved to 54.93%. When speaker adaptation was performed and feature values were corrected using post-adaptation parameter values, the word error rate was further improved to 51.83%. This result shows the effectiveness of speaker adaptation of the correction acoustic model proposed in the present invention.
以上、具体的な実施の形態を挙げて本発明を説明したが、本発明は必ずしも上記の実施形態や実施例に限定されるものではない。本発明は、既に述べた技術的思想の範囲内において様々な形態で実施することが出来る。また、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。 Although the present invention has been described with reference to specific embodiments, the present invention is not necessarily limited to the above-described embodiments and examples. The present invention can be implemented in various forms within the scope of the technical idea already described. In addition, the various processes described above are not only executed in time series according to the description, but may be executed in parallel or individually according to the processing capability of the apparatus that executes the processes or as necessary. Needless to say, other modifications are possible without departing from the spirit of the present invention.
また、上述した本発明の話者適応化装置は、例えば図15に示すコンピュータ8の記録部に、各装置が有すべき機能の処理内容を記述したプログラムを読み込ませ、演算処理装置81、出力装置82、入力装置83、記憶装置84、等を動作させることで上記処理機能がコンピュータ上で実現される。
Further, the speaker adaptation apparatus of the present invention described above, for example, causes the recording unit of the
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。 The program describing the processing contents can be recorded on a computer-readable recording medium. As the computer-readable recording medium, for example, any recording medium such as a magnetic recording device, an optical disk, a magneto-optical recording medium, and a semiconductor memory may be used.
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。 The program is distributed by selling, transferring, or lending a portable recording medium such as a DVD or CD-ROM in which the program is recorded. Furthermore, the program may be distributed by storing the program in a storage device of the server computer and transferring the program from the server computer to another computer via a network.
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。 A computer that executes such a program first stores, for example, a program recorded on a portable recording medium or a program transferred from a server computer in its own storage device. When executing the process, the computer reads a program stored in its own recording medium and executes a process according to the read program. As another execution form of the program, the computer may directly read the program from a portable recording medium and execute processing according to the program, and the program is transferred from the server computer to the computer. Each time, the processing according to the received program may be executed sequentially. Also, the program is not transferred from the server computer to the computer, and the above-described processing is executed by a so-called ASP (Application Service Provider) type service that realizes the processing function only by the execution instruction and result acquisition. It is good.
なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。 Note that the program in this embodiment includes information that is used for processing by an electronic computer and that conforms to the program (data that is not a direct command to the computer but has a property that defines the processing of the computer). In this embodiment, the present apparatus is configured by executing a predetermined program on a computer. However, at least a part of these processing contents may be realized by hardware.
Claims (3)
歪みの影響を補正するために用いられる音響モデルを補正用音響モデルとし、
不特定話者の音声を用いて学習された補正用音響モデルを不特定話者モデルとしたとき、
事前に記録された劣化特徴量の集合を入力とし、前記劣化特徴量の集合から劣化の度合いが小さい劣化特徴量を抽出し、前記抽出した劣化特徴量の集合を適応用特徴量の集合として出力するフレーム選択部と、
前記適応用特徴量の集合と不特定話者モデルを規定するパラメータ値である適応前パラメータ値の集合とを入力とし、前記適応前パラメータ値の集合を前記適応用特徴量に適合するように話者適応化し、前記話者適応化されたパラメータの値である適応後パラメータ値の集合を出力するパラメータ修正部とを含み、
avg(・)をベクトル要素の平均を求める演算を表すものとし、iを前記歪んだ音声に含まれる発話のインデクスを表す自然数、i番目の発話の減衰率をb i 、事前に定めた定数をQと表現するものとし、
前記フレーム選択部は、
入力された前記劣化特徴量の集合と前記適応前パラメータ値の集合とを用いて、i番目の発話の劣化特徴量の残響時間T 60 (i)を、
と推定し、前記推定した残響時間が所定の閾値より小さい劣化特徴量を前記劣化の度合いが小さい劣化特徴量として抽出する
話者適応化装置。 The acoustic feature quantity of the distorted speech including at least one utterance is defined as the degradation feature quantity.
The acoustic model used for correcting the influence of distortion is the acoustic model for correction,
When the acoustic model for correction learned using the voice of an unspecified speaker is an unspecified speaker model,
A set of degradation features recorded in advance is input, a degradation feature having a low degree of degradation is extracted from the degradation feature, and the extracted degradation feature is output as a set of adaptation features A frame selection unit to perform,
The set of feature values for adaptation and the set of pre-adaptation parameter values that are parameter values that define an unspecified speaker model are input, and the set of pre-adaptation parameter values is spoken to match the feature values for adaptation. And a parameter modification unit that outputs a set of post-adaptation parameter values that are speaker-adapted parameter values,
avg (·) represents an operation for obtaining an average of vector elements, i represents a natural number representing an index of an utterance included in the distorted speech, b i represents an attenuation rate of the i-th utterance , and a predetermined constant is defined. It shall be expressed as Q,
The frame selection unit
Using a set of the inputted deterioration characteristic quantity and the set of the adaptive pre-parameter values, i-th speech degradation characteristic of the reverberation time T 60 the (i),
And estimated constant, the estimated reverberation time is extracted as the deterioration characteristic quantity degree is smaller the deterioration less than a predetermined threshold value deterioration characteristic quantity speaker adaptation apparatus.
少なくとも一つの発話を含む歪んだ音声の音響特徴量を劣化特徴量とし、
歪みの影響を補正するために用いられる音響モデルを補正用音響モデルとし、
不特定話者の音声を用いて学習された補正用音響モデルを不特定話者モデルとしたとき、
事前に記録された劣化特徴量の集合を入力とし、前記劣化特徴量の集合から劣化の度合いが小さい前記劣化特徴量を抽出し、前記抽出した劣化特徴量の集合を適応用特徴量の集合として出力するフレーム選択ステップと、
前記適応用特徴量の集合と不特定話者モデルを規定するパラメータ値である適応前パラメータ値の集合とを入力とし、前記適応前パラメータ値の集合を前記適応用特徴量に適合するように話者適応化し、前記話者適応化されたパラメータの値である適応後パラメータ値の集合を出力するパラメータ修正ステップとを含み、
avg(・)をベクトル要素の平均を求める演算を表すものとし、iを前記歪んだ音声に含まれる発話のインデクスを表す自然数、i番目の発話の減衰率をb i 、事前に定めた定数をQと表現するものとし、
前記フレーム選択ステップは、
入力された前記劣化特徴量の集合と前記適応前パラメータ値の集合とを用いて、i番目の発話の劣化特徴量の残響時間T 60 (i)を、
と推定し、前記推定した残響時間が所定の閾値より小さい劣化特徴量を前記劣化の度合いが小さい劣化特徴量として抽出する
話者適応化方法。 A speaker adaptation method performed by a speaker adaptation device, comprising:
The acoustic feature quantity of the distorted speech including at least one utterance is defined as the degradation feature quantity.
The acoustic model used for correcting the influence of distortion is the acoustic model for correction,
When the acoustic model for correction learned using the voice of an unspecified speaker is an unspecified speaker model,
A set of deterioration feature values recorded in advance is input, the deterioration feature amount having a small degree of deterioration is extracted from the set of deterioration feature values, and the set of extracted deterioration feature values is set as a set of feature values for adaptation. A frame selection step to output;
The set of feature values for adaptation and the set of pre-adaptation parameter values that are parameter values that define an unspecified speaker model are input, and the set of pre-adaptation parameter values is spoken to match the feature values for adaptation. A parameter modification step for outputting a set of post-adaptation parameter values that are speaker-adapted parameter values,
avg (·) represents an operation for obtaining an average of vector elements, i represents a natural number representing an index of an utterance included in the distorted speech, b i represents an attenuation rate of the i-th utterance , and a predetermined constant is defined. It shall be expressed as Q,
The frame selection step includes:
Using a set of the inputted deterioration characteristic quantity and the set of the adaptive pre-parameter values, i-th speech degradation characteristic of the reverberation time T 60 the (i),
And estimated constant, speaker adaptation method of reverberation time the estimated extracts as the deterioration characteristic quantity degree is smaller the deterioration less than a predetermined threshold value deterioration characteristic quantity.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2012264067A JP6000094B2 (en) | 2012-12-03 | 2012-12-03 | Speaker adaptation device, speaker adaptation method, and program |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2012264067A JP6000094B2 (en) | 2012-12-03 | 2012-12-03 | Speaker adaptation device, speaker adaptation method, and program |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2014109698A JP2014109698A (en) | 2014-06-12 |
| JP6000094B2 true JP6000094B2 (en) | 2016-09-28 |
Family
ID=51030359
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2012264067A Active JP6000094B2 (en) | 2012-12-03 | 2012-12-03 | Speaker adaptation device, speaker adaptation method, and program |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP6000094B2 (en) |
Families Citing this family (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US8078349B1 (en) * | 2011-05-11 | 2011-12-13 | Google Inc. | Transitioning a mixed-mode vehicle to autonomous mode |
| US10418030B2 (en) * | 2016-05-20 | 2019-09-17 | Mitsubishi Electric Corporation | Acoustic model training device, acoustic model training method, voice recognition device, and voice recognition method |
Family Cites Families (8)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH09258783A (en) * | 1996-03-26 | 1997-10-03 | Mitsubishi Electric Corp | Voice recognition device |
| JP3525082B2 (en) * | 1999-09-16 | 2004-05-10 | 日本電信電話株式会社 | Statistical model creation method |
| US6915259B2 (en) * | 2001-05-24 | 2005-07-05 | Matsushita Electric Industrial Co., Ltd. | Speaker and environment adaptation based on linear separation of variability sources |
| JP3756879B2 (en) * | 2001-12-20 | 2006-03-15 | 松下電器産業株式会社 | Method for creating acoustic model, apparatus for creating acoustic model, computer program for creating acoustic model |
| JP2005091568A (en) * | 2003-09-16 | 2005-04-07 | Sony Corp | Voice recognition apparatus and method, recording medium, and program |
| JP4654452B2 (en) * | 2005-09-02 | 2011-03-23 | 株式会社国際電気通信基礎技術研究所 | Acoustic model generation apparatus and program |
| JP2008241970A (en) * | 2007-03-27 | 2008-10-09 | Kddi Corp | Speaker adaptation device, speaker adaptation method, and speaker adaptation program |
| JP5150542B2 (en) * | 2009-03-26 | 2013-02-20 | 株式会社東芝 | Pattern recognition apparatus, pattern recognition method, and program |
-
2012
- 2012-12-03 JP JP2012264067A patent/JP6000094B2/en active Active
Also Published As
| Publication number | Publication date |
|---|---|
| JP2014109698A (en) | 2014-06-12 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| KR101266894B1 (en) | Apparatus and method for processing an audio signal for speech emhancement using a feature extraxtion | |
| JP5634959B2 (en) | Noise / dereverberation apparatus, method and program thereof | |
| CN104392718B (en) | A kind of robust speech recognition methods based on acoustic model array | |
| Valentini-Botinhao et al. | Speech enhancement of noisy and reverberant speech for text-to-speech | |
| JP5242782B2 (en) | Speech recognition method | |
| WO2019163849A1 (en) | Audio conversion learning device, audio conversion device, method, and program | |
| JP6748304B2 (en) | Signal processing device using neural network, signal processing method using neural network, and signal processing program | |
| US10373604B2 (en) | Noise compensation in speaker-adaptive systems | |
| WO2013132926A1 (en) | Noise estimation device, noise estimation method, noise estimation program, and recording medium | |
| JP4586577B2 (en) | Disturbance component suppression device, computer program, and speech recognition system | |
| Tran et al. | Nonparametric uncertainty estimation and propagation for noise robust ASR | |
| JP5670298B2 (en) | Noise suppression device, method and program | |
| US20240013775A1 (en) | Patched multi-condition training for robust speech recognition | |
| JP6827908B2 (en) | Speech enhancement device, speech enhancement learning device, speech enhancement method, program | |
| JP6000094B2 (en) | Speaker adaptation device, speaker adaptation method, and program | |
| JP2019035862A (en) | Input sound mask processing learning device, input data processing function learning device, input sound mask processing learning method, input data processing function learning method, program | |
| JP4705414B2 (en) | Speech recognition apparatus, speech recognition method, speech recognition program, and recording medium | |
| CN113393852B (en) | Method and system for constructing voice enhancement model and method and system for voice enhancement | |
| Han et al. | Reverberation and noise robust feature compensation based on IMM | |
| Katkov et al. | Asr systems under acoustic challenges: A multilingual study | |
| Kim et al. | Advanced parallel combined Gaussian mixture model based feature compensation integrated with iterative channel estimation | |
| Wang et al. | Speech enhancement using a joint MAP estimation of LP parameters | |
| CN112820267B (en) | Waveform generation method, training method of related model, related equipment and device | |
| JP5683446B2 (en) | Spectral distortion parameter estimated value correction apparatus, method and program thereof | |
| JP5885686B2 (en) | Acoustic model adaptation apparatus, acoustic model adaptation method, and program |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150114 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20151225 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160126 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160317 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160823 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160830 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 6000094 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
