JP6401126B2 - 特徴量ベクトル算出装置、特徴量ベクトル算出方法及び特徴量ベクトル算出プログラム。 - Google Patents
特徴量ベクトル算出装置、特徴量ベクトル算出方法及び特徴量ベクトル算出プログラム。 Download PDFInfo
- Publication number
- JP6401126B2 JP6401126B2 JP2015158861A JP2015158861A JP6401126B2 JP 6401126 B2 JP6401126 B2 JP 6401126B2 JP 2015158861 A JP2015158861 A JP 2015158861A JP 2015158861 A JP2015158861 A JP 2015158861A JP 6401126 B2 JP6401126 B2 JP 6401126B2
- Authority
- JP
- Japan
- Prior art keywords
- vector
- feature
- speech
- noise
- posterior probability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 239000013598 vector Substances 0.000 title claims description 201
- 238000004364 calculation method Methods 0.000 title claims description 46
- 238000000034 method Methods 0.000 claims description 54
- 238000009826 distribution Methods 0.000 claims description 38
- 238000000605 extraction Methods 0.000 claims description 34
- 238000012545 processing Methods 0.000 claims description 27
- 239000000284 extract Substances 0.000 claims description 5
- 239000000203 mixture Substances 0.000 claims description 5
- 238000011946 reduction process Methods 0.000 claims 2
- 230000006870 function Effects 0.000 claims 1
- 239000011159 matrix material Substances 0.000 description 20
- 230000006978 adaptation Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 10
- 238000013528 artificial neural network Methods 0.000 description 9
- 230000000694 effects Effects 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 101100412093 Schizosaccharomyces pombe (strain 972 / ATCC 24843) rec16 gene Proteins 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
Images
Landscapes
- Telephonic Communication Services (AREA)
Description
図1は、従来技術に係るDNN−HMM音響モデルへの基本特徴量ベクトルの入力の概要の一例を示す図である。図1に示すように、一般的に、音声認識において、入力音声データは、フレーム長30msec程度、フレームシフト10msec程度の単位で音響分析され、40次元程度のMFCC(Mel-Frequency Cepstral Coefficient)やFBANK(log-mel Filter BANK)等の基本特徴量ベクトルがフレーム毎に抽出される。
図2は、従来技術に係るDNN−HMM音響モデルへの基本特徴量ベクトル及びi-vectorの入力の概要の一例を示す図である。図2に示すように、MFCCやFBANK等の基本特徴量ベクトルとは別に、入力音声データに含まれる話者の特徴を数十〜数百次元程度のベクトルで表現したi-vectorと呼ばれる特徴量ベクトルが入力音声データから抽出される。そして、基本特徴量ベクトル及びi-vectorを連結した拡張特徴量ベクトルをDNN−HMM音響モデルに与えて、主に話者変動に対して適応化した音声認識に用いる。この方法の有効性は、例えば非特許文献4及び5で詳細に説明されている。
図3は、従来技術に係るi-vectorの抽出手順の概要の一例を示す図である。以下、i-vectorの抽出手順について説明する。以下、i-vector抽出手順のうち、開示技術に関わる部分のみについて説明する。i-vectorが登場した経緯や抽出手順については、例えば非特許文献7で詳細に説明されている。
以上から、実施形態は、i-vectorの抽出手順において、(第1の要件)i-vector抽出の<一つ目の手順>で、入力音声データuに含まれる雑音やチャネル歪みを低減して事後確率γt(c)を精度良く計算し、(第2の要件)i-vector抽出の<二つ目の手順>では、話者の特徴に加えて雑音やチャネル歪みの情報も含んだ形で、つまり、雑音やチャネル歪みが含まれる入力音声データuを使ってi-vectorを計算する。
図5は、実施形態に係るi-vector抽出処理の一例を示すフローチャートである。先ず、i-vector算出装置10の第1の基本特徴量抽出部11Aは、上記の(15)式により、入力音声データuから特徴量ベクトル系列Xu(第1の基本特徴量)を抽出する(ステップS11)。次に、第2の基本特徴量抽出部11Bは、上記の(16)式により、入力音声データuから特徴量ベクトル系列^Xu(第2の基本特徴量)を抽出する(ステップS12)。なお、ステップS11及びステップS12の実行順序は、前後しても、同時であってもよい。
実施形態と比較する従来技術は、非特許文献4及び5に記載の従来技術とした。下記の(表1)及び(表2)は、実施形態のi-vector算出装置10により算出されたi-vectorをDNNの音響モデルへ投入した場合の評価実験結果を示す表である。各表における百分率は、単語誤り率(Word Error Rate:WER)である。
図6は、プログラムが実行されることにより、実施形態に係るi-vector算出装置及びi-vector算出装置を含む音声認識装置が実現されるコンピュータの一例を示す図である。コンピュータ1000は、例えば、メモリ1010、CPU1020を有する。また、コンピュータ1000は、ハードディスクドライブインタフェース1030、ディスクドライブインタフェース1040、シリアルポートインタフェース1050、ビデオアダプタ1060、ネットワークインタフェース1070を有する。コンピュータ1000において、これらの各部はバス1080によって接続される。
11A 第1の基本特徴量抽出部
11B 第2の基本特徴量抽出部
12 ^γt(c)計算部
13 −mc計算部
14 ^Nu,c,^Fu,c計算部
15 i-vector計算部
1000 コンピュータ
1010 メモリ
1020 CPU
Claims (6)
- 入力音声から第1の特徴量ベクトルを抽出する第1の特徴量抽出部と、
前記入力音声に対して雑音又はチャネル歪みの低減処理が施された音声から第2の特徴量ベクトルを抽出する第2の特徴量抽出部と、
雑音又は歪みを含む音声に対して雑音又はチャネル歪みの低減処理が施された音声を学習した混合分布モデルのパラメータをもとに、前記第2の特徴量ベクトルが前記混合分布モデルの各分布に該当する確率を示す事後確率を計算する事後確率計算部と、
前記雑音又は歪みを含む音声及び前記事後確率から、前記混合分布モデルにおける各分布の平均ベクトルを算出する平均ベクトル算出部と、
前記第1の特徴量ベクトルと、前記事後確率と、前記平均ベクトルとから、前記入力音声に対する0次のBaum-Welch統計量及び1次のBaum-Welch統計量を計算する統計量計算部と、
前記0次のBaum-Welch統計量及び前記1次のBaum-Welch統計量から特徴量ベクトルを計算する特徴量ベクトル計算部と
を備えることを特徴とする特徴量ベクトル算出装置。 - 前記低減処理は、音声強調処理である
ことを特徴とする請求項1に記載の特徴量ベクトル算出装置。 - 前記低減処理は、ボトルネック特徴量を用いる処理である
ことを特徴とする請求項1に記載の特徴量ベクトル算出装置。 - 前記第1の特徴量ベクトルと、前記特徴量ベクトル計算部により算出された前記特徴量ベクトルとを連結した拡張特徴量ベクトルを所定の音響モデルへの入力として、前記入力音声を音声認識処理する音声認識処理部をさらに有することを特徴とする請求項1〜3のいずれか一つに記載の特徴量ベクトル算出装置。
- 特徴量ベクトル算出装置が実行する特徴量ベクトル算出方法であって、
入力音声から第1の特徴量ベクトルを抽出する第1の特徴量抽出ステップと、
前記入力音声に対して雑音又はチャネル歪みの低減処理が施された音声から第2の特徴量ベクトルを抽出する第2の特徴量抽出ステップと、
雑音又は歪みを含む音声に対して前記低減処理が施された音声を学習した混合分布モデルのパラメータをもとに、前記第2の特徴量ベクトルが前記混合分布モデルの各分布に該当する確率を示す事後確率を計算する事後確率計算ステップと、
前記雑音又は歪みを含む音声及び前記事後確率から、前記混合分布モデルにおける各分布の平均ベクトルを算出する平均ベクトル算出ステップと、
前記第1の特徴量ベクトルと、前記事後確率と、前記平均ベクトルとから、前記入力音声に対する0次のBaum-Welch統計量及び1次のBaum-Welch統計量を計算する統計量計算ステップと、
前記0次のBaum-Welch統計量及び前記1次のBaum-Welch統計量から特徴量ベクトルを計算する特徴量ベクトル計算ステップと
を含んだことを特徴とする特徴量ベクトル算出方法。 - 請求項1、2、3又は4に記載の特徴量ベクトル算出装置としてコンピュータを機能させるための特徴量ベクトル算出プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015158861A JP6401126B2 (ja) | 2015-08-11 | 2015-08-11 | 特徴量ベクトル算出装置、特徴量ベクトル算出方法及び特徴量ベクトル算出プログラム。 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015158861A JP6401126B2 (ja) | 2015-08-11 | 2015-08-11 | 特徴量ベクトル算出装置、特徴量ベクトル算出方法及び特徴量ベクトル算出プログラム。 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017037222A JP2017037222A (ja) | 2017-02-16 |
JP6401126B2 true JP6401126B2 (ja) | 2018-10-03 |
Family
ID=58048199
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015158861A Active JP6401126B2 (ja) | 2015-08-11 | 2015-08-11 | 特徴量ベクトル算出装置、特徴量ベクトル算出方法及び特徴量ベクトル算出プログラム。 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6401126B2 (ja) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109473119B (zh) * | 2017-09-07 | 2023-04-07 | 中国科学院声学研究所 | 一种声学目标事件监控方法 |
CN107623614B (zh) * | 2017-09-19 | 2020-12-08 | 百度在线网络技术(北京)有限公司 | 用于推送信息的方法和装置 |
JP6977004B2 (ja) * | 2019-08-23 | 2021-12-08 | サウンドハウンド,インコーポレイテッド | 車載装置、発声を処理する方法およびプログラム |
JP2021105684A (ja) * | 2019-12-26 | 2021-07-26 | トヨタ自動車九州株式会社 | 騒音内音声認識装置及び騒音内音声認識システム |
WO2021152838A1 (en) * | 2020-01-31 | 2021-08-05 | Nec Corporation | Speech embedding apparatus, and method |
CN111739508B (zh) * | 2020-08-07 | 2020-12-01 | 浙江大学 | 一种基于dnn-hmm双模态对齐网络的端到端语音合成方法及系统 |
CN113393847B (zh) * | 2021-05-27 | 2022-11-15 | 杭州电子科技大学 | 基于Fbank特征和MFCC特征融合的声纹识别方法 |
CN113327599B (zh) * | 2021-06-30 | 2023-06-02 | 北京有竹居网络技术有限公司 | 语音识别方法、装置、介质及电子设备 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9858919B2 (en) * | 2013-11-27 | 2018-01-02 | International Business Machines Corporation | Speaker adaptation of neural network acoustic models using I-vectors |
JP6244297B2 (ja) * | 2014-12-25 | 2017-12-06 | 日本電信電話株式会社 | 音響スコア算出装置、その方法及びプログラム |
-
2015
- 2015-08-11 JP JP2015158861A patent/JP6401126B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2017037222A (ja) | 2017-02-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6401126B2 (ja) | 特徴量ベクトル算出装置、特徴量ベクトル算出方法及び特徴量ベクトル算出プログラム。 | |
Singer et al. | The MITLL NIST LRE 2011 language recognition system. | |
JP6556575B2 (ja) | 音声処理装置、音声処理方法及び音声処理プログラム | |
JP5752060B2 (ja) | 情報処理装置、大語彙連続音声認識方法及びプログラム | |
US10535339B2 (en) | Recognition result output device, recognition result output method, and computer program product | |
US11837236B2 (en) | Speaker recognition based on signal segments weighted by quality | |
US20100076759A1 (en) | Apparatus and method for recognizing a speech | |
US8078462B2 (en) | Apparatus for creating speaker model, and computer program product | |
Madikeri et al. | Implementation of the standard i-vector system for the kaldi speech recognition toolkit | |
JP6499095B2 (ja) | 信号処理方法、信号処理装置及び信号処理プログラム | |
JP2017097188A (ja) | 話者らしさ評価装置、話者識別装置、話者照合装置、話者らしさ評価方法、プログラム | |
JP5994639B2 (ja) | 有音区間検出装置、有音区間検出方法、及び有音区間検出プログラム | |
JP6631883B2 (ja) | クロスリンガル音声合成用モデル学習装置、クロスリンガル音声合成用モデル学習方法、プログラム | |
Gales et al. | Canonical state models for automatic speech recognition. | |
JP6728083B2 (ja) | 中間特徴量計算装置、音響モデル学習装置、音声認識装置、中間特徴量計算方法、音響モデル学習方法、音声認識方法、プログラム | |
JP6367773B2 (ja) | 音声強調装置、音声強調方法及び音声強調プログラム | |
JP4571921B2 (ja) | 音響モデル適応化装置、音響モデル適応化方法、音響モデル適応化プログラム及びその記録媒体 | |
Gao et al. | Open-set speaker identification in broadcast news | |
Liu et al. | An iterative framework for unsupervised learning in the plda based speaker verification | |
JP5369079B2 (ja) | 音響モデル作成方法とその装置とプログラム | |
JP5457999B2 (ja) | 雑音抑圧装置とその方法とプログラム | |
Bharathi et al. | GMM and i-vector based speaker verification using speaker-specific-text for short utterances | |
JP4801108B2 (ja) | 音声認識装置、方法、プログラム及びその記録媒体 | |
JP4801107B2 (ja) | 音声認識装置、方法、プログラム及びその記録媒体 | |
JP4909318B2 (ja) | 音響モデル作成方法、音響モデル作成装置、そのプログラム、その記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170825 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180607 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180703 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180814 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180904 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180906 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6401126 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |