JP6385936B2 - 音声符号化装置およびその方法 - Google Patents
音声符号化装置およびその方法 Download PDFInfo
- Publication number
- JP6385936B2 JP6385936B2 JP2015532686A JP2015532686A JP6385936B2 JP 6385936 B2 JP6385936 B2 JP 6385936B2 JP 2015532686 A JP2015532686 A JP 2015532686A JP 2015532686 A JP2015532686 A JP 2015532686A JP 6385936 B2 JP6385936 B2 JP 6385936B2
- Authority
- JP
- Japan
- Prior art keywords
- vector
- fixed codebook
- search
- adaptive codebook
- adaptive
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/005—Correction of errors induced by the transmission channel, if related to the coding algorithm
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
- G10L19/038—Vector quantisation, e.g. TwinVQ audio
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
- G10L19/125—Pitch excitation, e.g. pitch synchronous innovation CELP [PSI-CELP]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L2019/0001—Codebooks
- G10L2019/0002—Codebook adaptations
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L2019/0001—Codebooks
- G10L2019/0007—Codebook element generation
- G10L2019/001—Interpolation of codebook vectors
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L2019/0001—Codebooks
- G10L2019/0013—Codebook search algorithms
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L2019/0001—Codebooks
- G10L2019/0016—Codebook for LPC parameters
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
従来のCELP型音声符号化装置における固定符号帳の直交化探索技術としては、探索に用いる符号化歪の評価式Eortとして(1)式を用いるものがあった(例えば、特許文献1の数2および数7参照)。
H :重み付き合成フィルタのインパルス応答を畳み込む行列
x :適応符号帳探索用ターゲットベクトル
(重み付き入力音声信号から重み付き合成フィルタのゼロ入力応答
を除去した信号)
c :固定符号帳化から生成される固定符号帳ベクトル
t :行列ないしベクトルの転置
なお、Hは重み付き合成フィルタのインパルス応答を畳み込む行列であるが、本実施形態では聴覚重み付けフィルタ109を有しているので、このインパルス応答も畳み込んだもの、すなわち、合成フィルタ106と聴覚重み付けフィルタ109を縦続接続したフィルタのインパルス応答である。
通常、適応符号帳利得には上限(例えばITU-T勧告G.729では1.2)と下限(通常は0)が設定されるが、適応符号帳利得の理想値がこれらの範囲内に必ず入るわけではない。直交化探索では固定符号帳ベクトルの「適応符号帳ベクトルに直交する成分」のみに着目して最適なものを選択する。これは、固定符号帳ベクトルの「適応符号帳ベクトルに直交しない(つまり適応符号帳ベクトルと同じ)成分」が適応符号帳ベクトルの利得を調整することで相殺できるためである。しかし、適応符号帳利得の理想値がこれらの範囲外になってしまう場合、この「調整」ができなくなってしまう。したがって、適応符号帳利得の理想値がこれらの範囲外になる場合には、直交化探索は適当でない。
以下本開示の実施の形態について、図面を参照しながら説明する。なお、本開示の音声符号化装置の全体構成については、図7を適宜援用しながら説明する。また、図1において図8の従来の音声符号化装置と同じ名称の構成部については、図8と同じ符号を用いる。
gp :適応符号帳探索時に決定される適応符号帳利得
なお、適応符号帳利得gpは以下のように表される。gp_Minは適応符号帳利得の下限値、gp_Maxは適応符号帳利得の上限値である。
図3は、本開示の実施形態2の固定符号帳探索装置400のブロック図である。図3において、図1および図8と同じ構成要素については同じ符号を用い、説明を省略する。
HpptHt(i,i):正方行列HpptHtの対角要素
なお、上記の例では距離dとして、対角要素からなる2つのベクトル間の距離を用いたが、これ以外の式を用いてもよい。例えば、2つの行列の差を求め、ここから行列式を計算して求めたものを距離として用いてもよい。
図5は、本開示の実施形態2のその他の例の固定符号帳探索装置500のブロック図である。本実施形態は、二段階の直交化/非直交化判定を行うものであり、実施形態2の固定符号帳探索装置400の特徴である第2の直交化/非直交化判定部411を前段階に、実施形態1の固定符号帳探索装置300の特徴である直交化/非直交化判定部310を後段階に構成する。
101 適応符号帳
102,104 増幅器
103 固定符号帳
105 加算器
106 合成フィルタ
107 誤差算出器
108 パラメータ量子化部
109 聴覚重み付けフィルタ
110 適応符号帳探索部
111 固定符号帳探索部
112 ゲイン符号帳探索部
300,400,500 固定符号帳探索装置
301,401 相関算出部
309 固定符号帳探索用ターゲットベクトル算出部
310 直交化/非直交化判定部
411 第2の直交化/非直交化判定部
Claims (5)
- 周期性成分を表現する適応符号帳ベクトルを出力する適応符号帳と、
非周期性成分を表現する固定符号帳ベクトルを出力する固定符号帳と、
前記適応符号帳ベクトルと前記固定符号帳ベクトルとから励振信号を生成する加算器と、
入力音声信号を線形予測分析・量子化して得られる線形予測係数を用いて構成されるとともに、前記励振信号により駆動されて合成音声信号を生成する合成フィルタと、
前記合成音声信号と前記入力音声信号との誤差を最小化する前記適応符号帳ベクトルと前記固定符号帳ベクトルとを選択するパラメータ量子化部と、を備え、
前記パラメータ量子化部は、固定符号帳探索用ターゲットベクトルと前記合成フィルタ処理後の適応符号帳ベクトルとの相関値に基づいて、直交化固定符号帳探索と非直交化固定符号帳探索とを切り替える固定符号帳探索部を備える、
音声符号化装置。 - 周期性成分を表現する適応符号帳ベクトルを出力する適応符号帳と、
非周期性成分を表現する固定符号帳ベクトルを出力する固定符号帳と、
前記適応符号帳ベクトルと前記固定符号帳ベクトルとから励振信号を生成する加算器と、
入力音声信号を線形予測分析・量子化して得られる線形予測係数を用いて構成されるとともに、前記励振信号により駆動されて合成音声信号を生成する合成フィルタと、
前記合成音声信号と前記入力音声信号との誤差を最小化する前記適応符号帳ベクトルと前記固定符号帳ベクトルとを選択するパラメータ量子化部と、を備え、
前記パラメータ量子化部は、適応符号帳探索用ターゲットベクトルと前記合成フィルタ処理後の適応符号帳ベクトルとのベクトル積行列と、前記合成フィルタ処理後の適応符号帳ベクトルのベクトル積行列と、の距離に基づいて、直交化固定符号帳探索と非直交化固定符号帳探索とを切り替える固定符号帳探索部を備える、
音声符号化装置。 - 前記固定符号帳探索部は、さらに、適応符号帳探索用ターゲットベクトルと前記合成フィルタ処理後の適応符号帳ベクトルとのベクトル積行列と、前記合成フィルタ処理後の適応符号帳ベクトルのベクトル積行列と、の距離に基づいて、前記直交化固定符号帳探索と前記非直交化固定符号帳探索とを切り替える、
請求項1記載の音声符号化装置。 - 周期性成分を表現する適応符号帳ベクトルを出力し、
非周期性成分を表現する固定符号帳ベクトルを出力し、
前記適応符号帳ベクトルと前記固定符号帳ベクトルとから励振信号を生成し、
入力音声信号を線形予測分析・量子化して得られる線形予測係数を用いて構成される合成フィルタを前記励振信号により駆動して合成音声信号を生成し、
前記合成音声信号と前記入力音声信号との誤差を最小化する前記適応符号帳ベクトルと前記固定符号帳ベクトルとを選択する音声符号化方法であり、
固定符号帳の選択は、固定符号帳探索用ターゲットベクトルと前記合成フィルタ処理後の適応符号帳ベクトルとの相関値に基づいて、直交化固定符号帳探索と非直交化固定符号帳探索とを切り替えて行う、
音声符号化方法。 - 周期性成分を表現する適応符号帳ベクトルを出力し、
非周期性成分を表現する固定符号帳ベクトルを出力し、
前記適応符号帳ベクトルと前記固定符号帳ベクトルとから励振信号を生成し、
入力音声信号を線形予測分析・量子化して得られる線形予測係数を用いて構成される合成フィルタを前記励振信号により駆動して合成音声信号を生成し、
前記合成音声信号と前記入力音声信号との誤差を最小化する前記適応符号帳ベクトルと前記固定符号帳ベクトルとを選択する音声符号化方法であり、
固定符号帳の選択は、適応符号帳探索用ターゲットベクトルと前記合成フィルタ処理後の適応符号帳ベクトルとのベクトル積行列と、前記合成フィルタ処理後の適応符号帳ベクトルのベクトル積行列と、の距離に基づいて、直交化固定符号帳探索と非直交化固定符号帳探索とを切り替えて行う、
音声符号化方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013172310 | 2013-08-22 | ||
JP2013172310 | 2013-08-22 | ||
PCT/JP2014/003581 WO2015025454A1 (ja) | 2013-08-22 | 2014-07-07 | 音声符号化装置およびその方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2015025454A1 JPWO2015025454A1 (ja) | 2017-03-02 |
JP6385936B2 true JP6385936B2 (ja) | 2018-09-05 |
Family
ID=52483254
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015532686A Active JP6385936B2 (ja) | 2013-08-22 | 2014-07-07 | 音声符号化装置およびその方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US9747916B2 (ja) |
EP (1) | EP3038104B1 (ja) |
JP (1) | JP6385936B2 (ja) |
WO (1) | WO2015025454A1 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107251610B (zh) * | 2015-05-20 | 2020-09-25 | 松下电器(美国)知识产权公司 | 通信节点、终端及通信控制方法 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3293709B2 (ja) * | 1994-03-15 | 2002-06-17 | 日本電信電話株式会社 | 励振信号直交化音声符号化法 |
JP3224955B2 (ja) * | 1994-05-27 | 2001-11-05 | 株式会社東芝 | ベクトル量子化装置およびベクトル量子化方法 |
US5970444A (en) | 1997-03-13 | 1999-10-19 | Nippon Telegraph And Telephone Corporation | Speech coding method |
JP3582693B2 (ja) | 1997-03-13 | 2004-10-27 | 日本電信電話株式会社 | 音声符号化方法 |
JP3235543B2 (ja) * | 1997-10-22 | 2001-12-04 | 松下電器産業株式会社 | 音声符号化/復号化装置 |
US6507814B1 (en) * | 1998-08-24 | 2003-01-14 | Conexant Systems, Inc. | Pitch determination using speech classification and prior pitch estimation |
US6782360B1 (en) * | 1999-09-22 | 2004-08-24 | Mindspeed Technologies, Inc. | Gain quantization for a CELP speech coder |
JP2002073097A (ja) * | 2000-08-31 | 2002-03-12 | Matsushita Electric Ind Co Ltd | Celp型音声符号化装置とcelp型音声復号化装置及び音声符号化方法と音声復号化方法 |
JP3426207B2 (ja) * | 2000-10-26 | 2003-07-14 | 三菱電機株式会社 | 音声符号化方法および装置 |
US7054807B2 (en) * | 2002-11-08 | 2006-05-30 | Motorola, Inc. | Optimizing encoder for efficiently determining analysis-by-synthesis codebook-related parameters |
US7752039B2 (en) * | 2004-11-03 | 2010-07-06 | Nokia Corporation | Method and device for low bit rate speech coding |
EP1979901B1 (de) * | 2006-01-31 | 2015-10-14 | Unify GmbH & Co. KG | Verfahren und anordnungen zur audiosignalkodierung |
CA2821577C (en) * | 2011-02-15 | 2020-03-24 | Voiceage Corporation | Device and method for quantizing the gains of the adaptive and fixed contributions of the excitation in a celp codec |
-
2014
- 2014-07-07 JP JP2015532686A patent/JP6385936B2/ja active Active
- 2014-07-07 EP EP14837528.0A patent/EP3038104B1/en active Active
- 2014-07-07 WO PCT/JP2014/003581 patent/WO2015025454A1/ja active Application Filing
-
2016
- 2016-01-20 US US15/002,328 patent/US9747916B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US20160140976A1 (en) | 2016-05-19 |
EP3038104A4 (en) | 2016-08-10 |
EP3038104A1 (en) | 2016-06-29 |
US9747916B2 (en) | 2017-08-29 |
WO2015025454A1 (ja) | 2015-02-26 |
JPWO2015025454A1 (ja) | 2017-03-02 |
EP3038104B1 (en) | 2018-12-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2458412C1 (ru) | Устройство поиска фиксированных таблиц кодирования и способ поиска фиксированных таблиц кодирования | |
US20220223163A1 (en) | Apparatus for encoding a speech signal employing acelp in the autocorrelation domain | |
JP6650540B2 (ja) | 周波数領域パラメータ列生成方法、周波数領域パラメータ列生成装置、及びプログラム | |
JP6385936B2 (ja) | 音声符号化装置およびその方法 | |
JP2011164126A (ja) | 雑音抑圧フィルタ算出方法と、その装置と、プログラム | |
Vali et al. | End-to-end optimized multi-stage vector quantization of spectral envelopes for speech and audio coding | |
CN103636129A (zh) | 多尺度码本搜索 | |
CN103119650B (zh) | 编码装置和编码方法 | |
JP6053145B2 (ja) | 符号化装置、復号装置、これらの方法、プログラム、および記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20170419 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20170419 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170605 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180710 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180808 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6385936 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |