JP2017037222A - 特徴量ベクトル算出装置、音声認識装置、特徴量ベクトル算出方法及び特徴量ベクトル算出プログラム - Google Patents
特徴量ベクトル算出装置、音声認識装置、特徴量ベクトル算出方法及び特徴量ベクトル算出プログラム Download PDFInfo
- Publication number
- JP2017037222A JP2017037222A JP2015158861A JP2015158861A JP2017037222A JP 2017037222 A JP2017037222 A JP 2017037222A JP 2015158861 A JP2015158861 A JP 2015158861A JP 2015158861 A JP2015158861 A JP 2015158861A JP 2017037222 A JP2017037222 A JP 2017037222A
- Authority
- JP
- Japan
- Prior art keywords
- vector
- feature
- speech
- feature amount
- noise
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Telephonic Communication Services (AREA)
Abstract
【解決手段】入力音声から第1の特徴量ベクトルを抽出する。入力音声に対して雑音又はチャネル歪みの低減処理が施された音声から第2の特徴量ベクトルを抽出する。そして、雑音又は歪みを含む音声に対して低減処理が施された音声を学習した混合分布モデルのパラメータをもとに、第2の特徴量ベクトルが混合分布モデルの各分布に該当する確率を示す事後確率を計算する。そして、雑音又は歪みを含む音声及び事後確率から、混合分布モデルにおける各分布の平均ベクトルを算出する。そして、第1の特徴量ベクトルと、事後確率と、平均ベクトルとから、入力音声に対する0次のBaum-Welch統計量及び1次のBaum-Welch統計量を計算する。そして、0次のBaum-Welch統計量及び1次のBaum-Welch統計量から特徴量ベクトルを計算する。
【選択図】図4
Description
図1は、従来技術に係るDNN−HMM音響モデルへの基本特徴量ベクトルの入力の概要の一例を示す図である。図1に示すように、一般的に、音声認識において、入力音声データは、フレーム長30msec程度、フレームシフト10msec程度の単位で音響分析され、40次元程度のMFCC(Mel-Frequency Cepstral Coefficient)やFBANK(log-mel Filter BANK)等の基本特徴量ベクトルがフレーム毎に抽出される。
図2は、従来技術に係るDNN−HMM音響モデルへの基本特徴量ベクトル及びi-vectorの入力の概要の一例を示す図である。図2に示すように、MFCCやFBANK等の基本特徴量ベクトルとは別に、入力音声データに含まれる話者の特徴を数十〜数百次元程度のベクトルで表現したi-vectorと呼ばれる特徴量ベクトルが入力音声データから抽出される。そして、基本特徴量ベクトル及びi-vectorを連結した拡張特徴量ベクトルをDNN−HMM音響モデルに与えて、主に話者変動に対して適応化した音声認識に用いる。この方法の有効性は、例えば非特許文献4及び5で詳細に説明されている。
図3は、従来技術に係るi-vectorの抽出手順の概要の一例を示す図である。以下、i-vectorの抽出手順について説明する。以下、i-vector抽出手順のうち、開示技術に関わる部分のみについて説明する。i-vectorが登場した経緯や抽出手順については、例えば非特許文献7で詳細に説明されている。
以上から、実施形態は、i-vectorの抽出手順において、(第1の要件)i-vector抽出の<一つ目の手順>で、入力音声データuに含まれる雑音やチャネル歪みを低減して事後確率γt(c)を精度良く計算し、(第2の要件)i-vector抽出の<二つ目の手順>では、話者の特徴に加えて雑音やチャネル歪みの情報も含んだ形で、つまり、雑音やチャネル歪みが含まれる入力音声データuを使ってi-vectorを計算する。
図5は、実施形態に係るi-vector抽出処理の一例を示すフローチャートである。先ず、i-vector算出装置10の第1の基本特徴量抽出部11Aは、上記の(15)式により、入力音声データuから特徴量ベクトル系列Xu(第1の基本特徴量)を抽出する(ステップS11)。次に、第2の基本特徴量抽出部11Bは、上記の(16)式により、入力音声データuから特徴量ベクトル系列^Xu(第2の基本特徴量)を抽出する(ステップS12)。なお、ステップS11及びステップS12の実行順序は、前後しても、同時であってもよい。
実施形態と比較する従来技術は、非特許文献4及び5に記載の従来技術とした。下記の(表1)及び(表2)は、実施形態のi-vector算出装置10により算出されたi-vectorをDNNの音響モデルへ投入した場合の評価実験結果を示す表である。各表における百分率は、単語誤り率(Word Error Rate:WER)である。
図6は、プログラムが実行されることにより、実施形態に係るi-vector算出装置及びi-vector算出装置を含む音声認識装置が実現されるコンピュータの一例を示す図である。コンピュータ1000は、例えば、メモリ1010、CPU1020を有する。また、コンピュータ1000は、ハードディスクドライブインタフェース1030、ディスクドライブインタフェース1040、シリアルポートインタフェース1050、ビデオアダプタ1060、ネットワークインタフェース1070を有する。コンピュータ1000において、これらの各部はバス1080によって接続される。
11A 第1の基本特徴量抽出部
11B 第2の基本特徴量抽出部
12 ^γt(c)計算部
13 −mc計算部
14 ^Nu,c,^Fu,c計算部
15 i-vector計算部
1000 コンピュータ
1010 メモリ
1020 CPU
Claims (6)
- 入力音声から第1の特徴量ベクトルを抽出する第1の特徴量抽出部と、
前記入力音声に対して雑音又はチャネル歪みの低減処理が施された音声から第2の特徴量ベクトルを抽出する第2の特徴量抽出部と、
雑音又は歪みを含む音声に対して雑音又はチャネル歪みの低減処理が施された音声を学習した混合分布モデルのパラメータをもとに、前記第2の特徴量ベクトルが前記混合分布モデルの各分布に該当する確率を示す事後確率を計算する事後確率計算部と、
前記雑音又は歪みを含む音声及び前記事後確率から、前記混合分布モデルにおける各分布の平均ベクトルを算出する平均ベクトル算出部と、
前記第1の特徴量ベクトルと、前記事後確率と、前記平均ベクトルとから、前記入力音声に対する0次のBaum-Welch統計量及び1次のBaum-Welch統計量を計算する統計量計算部と、
前記0次のBaum-Welch統計量及び前記1次のBaum-Welch統計量から特徴量ベクトルを計算する特徴量ベクトル計算部と
を備えることを特徴とする特徴量ベクトル算出装置。 - 前記低減処理は、音声強調処理である
ことを特徴とする請求項1に記載の特徴量ベクトル算出装置。 - 前記低減処理は、ボトルネック特徴量を用いる処理である
ことを特徴とする請求項1に記載の特徴量ベクトル算出装置。 - 前記第1の特徴量ベクトルと、請求項1、2又は3に記載の特徴量ベクトル算出装置により算出された前記特徴量ベクトルとを連結した拡張特徴量ベクトルを所定の音響モデルへの入力として、前記入力音声を音声認識処理する
ことを特徴とする音声認識装置。 - 特徴量ベクトル算出装置が実行する特徴量ベクトル算出方法であって、
入力音声から第1の特徴量ベクトルを抽出する第1の特徴量抽出ステップと、
前記入力音声に対して雑音又はチャネル歪みの低減処理が施された音声から第2の特徴量ベクトルを抽出する第2の特徴量抽出ステップと、
雑音又は歪みを含む音声に対して前記低減処理が施された音声を学習した混合分布モデルのパラメータをもとに、前記第2の特徴量ベクトルが前記混合分布モデルの各分布に該当する確率を示す事後確率を計算する事後確率計算ステップと、
前記雑音又は歪みを含む音声及び前記事後確率から、前記混合分布モデルにおける各分布の平均ベクトルを算出する平均ベクトル算出ステップと、
前記第1の特徴量ベクトルと、前記事後確率と、前記平均ベクトルとから、前記入力音声に対する0次のBaum-Welch統計量及び1次のBaum-Welch統計量を計算する統計量計算ステップと、
前記0次のBaum-Welch統計量及び前記1次のBaum-Welch統計量から特徴量ベクトルを計算する特徴量ベクトル計算ステップと
を含んだことを特徴とする特徴量ベクトル算出方法。 - 請求項1、2又は3に記載の特徴量ベクトル算出装置としてコンピュータを機能させるための特徴量ベクトル算出プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015158861A JP6401126B2 (ja) | 2015-08-11 | 2015-08-11 | 特徴量ベクトル算出装置、特徴量ベクトル算出方法及び特徴量ベクトル算出プログラム。 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015158861A JP6401126B2 (ja) | 2015-08-11 | 2015-08-11 | 特徴量ベクトル算出装置、特徴量ベクトル算出方法及び特徴量ベクトル算出プログラム。 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017037222A true JP2017037222A (ja) | 2017-02-16 |
JP6401126B2 JP6401126B2 (ja) | 2018-10-03 |
Family
ID=58048199
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015158861A Active JP6401126B2 (ja) | 2015-08-11 | 2015-08-11 | 特徴量ベクトル算出装置、特徴量ベクトル算出方法及び特徴量ベクトル算出プログラム。 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6401126B2 (ja) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109473119A (zh) * | 2017-09-07 | 2019-03-15 | 中国科学院声学研究所 | 一种声学目标事件监控方法 |
JP2019057273A (ja) * | 2017-09-19 | 2019-04-11 | バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド | 情報をプッシュする方法及び装置 |
CN111739508A (zh) * | 2020-08-07 | 2020-10-02 | 浙江大学 | 一种基于dnn-hmm双模态对齐网络的端到端语音合成方法及系统 |
JP2021033048A (ja) * | 2019-08-23 | 2021-03-01 | サウンドハウンド,インコーポレイテッド | 車載装置、発声を処理する方法およびプログラム |
JP2021105684A (ja) * | 2019-12-26 | 2021-07-26 | トヨタ自動車九州株式会社 | 騒音内音声認識装置及び騒音内音声認識システム |
WO2021152838A1 (en) * | 2020-01-31 | 2021-08-05 | Nec Corporation | Speech embedding apparatus, and method |
CN113393847A (zh) * | 2021-05-27 | 2021-09-14 | 杭州电子科技大学 | 基于Fbank特征和MFCC特征融合的声纹识别方法 |
WO2023273610A1 (zh) * | 2021-06-30 | 2023-01-05 | 北京有竹居网络技术有限公司 | 语音识别方法、装置、介质及电子设备 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150149165A1 (en) * | 2013-11-27 | 2015-05-28 | International Business Machines Corporation | Speaker Adaptation of Neural Network Acoustic Models Using I-Vectors |
JP2016122110A (ja) * | 2014-12-25 | 2016-07-07 | 日本電信電話株式会社 | 音響スコア算出装置、その方法及びプログラム |
-
2015
- 2015-08-11 JP JP2015158861A patent/JP6401126B2/ja active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150149165A1 (en) * | 2013-11-27 | 2015-05-28 | International Business Machines Corporation | Speaker Adaptation of Neural Network Acoustic Models Using I-Vectors |
JP2016122110A (ja) * | 2014-12-25 | 2016-07-07 | 日本電信電話株式会社 | 音響スコア算出装置、その方法及びプログラム |
Non-Patent Citations (1)
Title |
---|
SAON, GEORGE, ET AL.: "Spearker Adaptation of Neural Network Acoustic Models Using I-Vectors", PROC. ASRU 2013, JPN6018024950, 8 December 2013 (2013-12-08), CZ, pages 55 - 59, XP032544445, ISSN: 0003830720, DOI: 10.1109/ASRU.2013.6707705 * |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109473119A (zh) * | 2017-09-07 | 2019-03-15 | 中国科学院声学研究所 | 一种声学目标事件监控方法 |
JP2019057273A (ja) * | 2017-09-19 | 2019-04-11 | バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド | 情報をプッシュする方法及び装置 |
US10832686B2 (en) | 2017-09-19 | 2020-11-10 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method and apparatus for pushing information |
JP2021033048A (ja) * | 2019-08-23 | 2021-03-01 | サウンドハウンド,インコーポレイテッド | 車載装置、発声を処理する方法およびプログラム |
JP2021105684A (ja) * | 2019-12-26 | 2021-07-26 | トヨタ自動車九州株式会社 | 騒音内音声認識装置及び騒音内音声認識システム |
WO2021152838A1 (en) * | 2020-01-31 | 2021-08-05 | Nec Corporation | Speech embedding apparatus, and method |
JP2023509502A (ja) * | 2020-01-31 | 2023-03-08 | 日本電気株式会社 | 音声埋込装置および方法 |
JP7355248B2 (ja) | 2020-01-31 | 2023-10-03 | 日本電気株式会社 | 音声埋込装置および方法 |
CN111739508A (zh) * | 2020-08-07 | 2020-10-02 | 浙江大学 | 一种基于dnn-hmm双模态对齐网络的端到端语音合成方法及系统 |
CN113393847A (zh) * | 2021-05-27 | 2021-09-14 | 杭州电子科技大学 | 基于Fbank特征和MFCC特征融合的声纹识别方法 |
CN113393847B (zh) * | 2021-05-27 | 2022-11-15 | 杭州电子科技大学 | 基于Fbank特征和MFCC特征融合的声纹识别方法 |
WO2023273610A1 (zh) * | 2021-06-30 | 2023-01-05 | 北京有竹居网络技术有限公司 | 语音识别方法、装置、介质及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
JP6401126B2 (ja) | 2018-10-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6401126B2 (ja) | 特徴量ベクトル算出装置、特徴量ベクトル算出方法及び特徴量ベクトル算出プログラム。 | |
Singer et al. | The MITLL NIST LRE 2011 language recognition system. | |
JP6556575B2 (ja) | 音声処理装置、音声処理方法及び音声処理プログラム | |
JP5752060B2 (ja) | 情報処理装置、大語彙連続音声認識方法及びプログラム | |
US10535339B2 (en) | Recognition result output device, recognition result output method, and computer program product | |
Huang et al. | An investigation of augmenting speaker representations to improve speaker normalisation for dnn-based speech recognition | |
US11837236B2 (en) | Speaker recognition based on signal segments weighted by quality | |
JP2017032839A (ja) | 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム | |
US20100076759A1 (en) | Apparatus and method for recognizing a speech | |
US8078462B2 (en) | Apparatus for creating speaker model, and computer program product | |
JP2017003622A (ja) | 声質変換方法および声質変換装置 | |
JP6499095B2 (ja) | 信号処理方法、信号処理装置及び信号処理プログラム | |
Madikeri et al. | Implementation of the standard i-vector system for the kaldi speech recognition toolkit | |
JP5994639B2 (ja) | 有音区間検出装置、有音区間検出方法、及び有音区間検出プログラム | |
Gholamdokht Firooz et al. | Spoken language recognition using a new conditional cascade method to combine acoustic and phonetic results | |
JP6631883B2 (ja) | クロスリンガル音声合成用モデル学習装置、クロスリンガル音声合成用モデル学習方法、プログラム | |
Gales et al. | Canonical state models for automatic speech recognition. | |
JP6728083B2 (ja) | 中間特徴量計算装置、音響モデル学習装置、音声認識装置、中間特徴量計算方法、音響モデル学習方法、音声認識方法、プログラム | |
JP6367773B2 (ja) | 音声強調装置、音声強調方法及び音声強調プログラム | |
JP4571921B2 (ja) | 音響モデル適応化装置、音響モデル適応化方法、音響モデル適応化プログラム及びその記録媒体 | |
Liu et al. | An iterative framework for unsupervised learning in the plda based speaker verification | |
Gao et al. | Open-set speaker identification in broadcast news | |
JP5369079B2 (ja) | 音響モデル作成方法とその装置とプログラム | |
JP5457999B2 (ja) | 雑音抑圧装置とその方法とプログラム | |
Bharathi et al. | GMM and i-vector based speaker verification using speaker-specific-text for short utterances |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170825 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180607 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180703 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180814 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180904 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180906 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6401126 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |