[go: up one dir, main page]

JP6385936B2 - 音声符号化装置およびその方法 - Google Patents

音声符号化装置およびその方法 Download PDF

Info

Publication number
JP6385936B2
JP6385936B2 JP2015532686A JP2015532686A JP6385936B2 JP 6385936 B2 JP6385936 B2 JP 6385936B2 JP 2015532686 A JP2015532686 A JP 2015532686A JP 2015532686 A JP2015532686 A JP 2015532686A JP 6385936 B2 JP6385936 B2 JP 6385936B2
Authority
JP
Japan
Prior art keywords
vector
fixed codebook
search
adaptive codebook
adaptive
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015532686A
Other languages
English (en)
Other versions
JPWO2015025454A1 (ja
Inventor
江原 宏幸
宏幸 江原
貴子 堀
貴子 堀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Intellectual Property Corp of America
Original Assignee
Panasonic Intellectual Property Corp of America
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Intellectual Property Corp of America filed Critical Panasonic Intellectual Property Corp of America
Publication of JPWO2015025454A1 publication Critical patent/JPWO2015025454A1/ja
Application granted granted Critical
Publication of JP6385936B2 publication Critical patent/JP6385936B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/038Vector quantisation, e.g. TwinVQ audio
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • G10L19/125Pitch excitation, e.g. pitch synchronous innovation CELP [PSI-CELP]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0002Codebook adaptations
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0007Codebook element generation
    • G10L2019/001Interpolation of codebook vectors
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0013Codebook search algorithms
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0016Codebook for LPC parameters

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

本開示は音声情報の効率的な圧縮符号化装置およびその方法に関し、より詳細には符号励振線形予測(CELP)型の音声符号化装置およびその方法に関するものである。
図7は、CELP型音声符号化装置を示すブロック図である。CELP型音声符号化装置100は、適応符号帳101から出力される周期性成分を表す適応符号帳ベクトルpに増幅器102で適応符号帳利得gを乗じて得られるベクトルと、固定符号帳103から出力される非周期成分を表す固定符号帳ベクトルcに増幅器104で固定符号帳利得gを乗じて得られるベクトルと、を加算器105にて加算して駆動ベクトルである励振信号Eを生成する。そして、生成された励振信号Eで、入力音声信号を線形予測分析、および量子化して得られた線形予測係数で構成された合成フィルタ106を駆動して音声信号ベクトルである合成音声信号を生成する。
CELP型音声符号化装置100では、生成される合成音声信号と入力音声信号との誤差を誤差算出器107で算出し、かかる誤差を最小とする適応符号帳ベクトル、適応符号帳利得、固定符号帳ベクトル、固定符号帳利得をパラメータ量子化部108で特定することによって符号化が行われる(合成による分析)。生成される合成音声信号と前記入力音声信号との誤差の最小化は、聴感上の歪を最小化するため、聴覚重み付けフィルタ109で聴覚重み付けを行ったうえで行われる。
通常、パラメータ量子化部108で行われる誤差の最小化は、まず適応符号帳探索部110で適応符号帳ベクトルを特定してから、固定符号帳探索部111で固定符号帳ベクトルを特定する、というように逐次的に行われる。また、ゲイン符号帳探索部112で適応符号帳利得と固定符号帳利得を特定する。ここで、一般的に、適応符号帳ベクトルを特定する処理は適応符号帳探索(adaptive codebook search)と呼ばれ、固定符号帳ベクトルを特定する処理は固定符号帳探索と呼ばれている。この場合、固定符号帳ベクトルとの組み合わせを考慮せずに先ず適応符号帳ベクトルを特定してしまうため、得られた適応符号帳ベクトルと固定符号帳ベクトルとの組み合わせは必ずしも最適解ではない。
固定符号帳の探索には、非直交化探索と直交化探索の2種類が知られている。非直交化探索では適応符号帳ベクトルと適応符号帳利得を固定して固定符号帳の探索が行われるのに対して、直交化探索では適応符号帳ベクトルのみを固定して固定符号帳の探索が行われる。したがって、直交化探索では、適応符号帳利得と固定符号帳利得に自由度を持たせて適応符号帳ベクトルと固定符号帳ベクトルとの最適な組み合わせを決定するため、一般的には非直交化探索よりも最適解に近い固定符号帳探索の結果を得ることができる。ただし、必要な演算量は大きくなる(例えば、特許文献1)。
ところで、固定符号帳の直交化探索は、適応符号帳利得と固定符号帳利得が選択される適応符号帳ベクトルと固定符号帳ベクトルに対して理想値(最適値)であることを前提として行われる。つまり、最終的に量子化された適応符号帳利得と固定符号帳利得に対して最適な適応符号帳ベクトルと固定符号帳ベクトルが選択されるわけではない。したがって、実際のCELP符号化において常に直交化探索が非直交化探索より良い結果を与えるとは限らない。
そこで、適応符号帳利得の理想値(最適値)が閾値を超える場合のみ直交化探索を使用し、それ以外の場合は非直交化探索を使用する技術もあった(特許文献2)。
特開平11−126096号公報 特開平10−312198号公報
本開示の一態様は、固定符号帳ベクトルの直交化探索の有効性をより正確に判断して、固定符号帳の直交化探索と非直交化探索を使い分ける音声符号化装置及び方法を提供する。
本開示の一態様に係る音声符号化装置は、周期性成分を表現する適応符号帳ベクトルを出力する適応符号帳と、非周期性成分を表現する固定符号帳ベクトルを出力する固定符号帳と、前記適応符号帳ベクトルと前記固定符号帳ベクトルとから励振信号を生成する加算器と、入力音声信号を線形予測分析・量子化して得られる線形予測係数を用いて構成されるとともに、前記励振信号により駆動されて合成音声信号を生成する合成フィルタと、前記合成音声信号と前記入力音声信号との誤差を最小化する前記適応符号帳ベクトルと前記固定符号帳ベクトルとを選択するパラメータ量子化部と、を備え、前記パラメータ量子化部は、固定符号帳探索用ターゲットベクトルと前記合成フィルタ処理後の適応符号帳ベクトルとの相関値に基づいて直交化固定符号帳探索と非直交化固定符号帳探索とを切り替える固定符号帳探索部を備える。
「周期性成分」とは、例えばピッチ周期に代表されるような何らかの周期性を有していればよい。
「適応符号帳」とは、過去の励振信号を蓄積したものの他、周期性成分を有する信号を蓄積するものであればよい。
「非周期性成分」とは、白色ガウス信号の他、周期性成分に対して周期性が少ないものであればよい。
「固定符号帳」とは、狭義の固定符号帳の他、非周期成分をパルスで表現した代数符号帳など、非周期性成分を有する信号を蓄積するものであればよい。
「励振信号」は、少なくとも適応符号帳ベクトルおよび固定符号帳ベクトルとから生成されていればよく、他のパラメータ、例えば、適応符号帳利得や固定符号帳利得をさらに用いて生成されたものも当然含まれる。
「直交化固定符号帳探索」とは、事前に特定された適応符号帳ベクトルに対して候補となる複数の固定符号帳ベクトルをそれぞれ直交化し、直交化した複数の固定符号帳ベクトルから歪みを最小にするものを1つ特定する探索方法をいう。
「非直交化固定符号帳探索」とは、直交化固定符号帳探索以外の探索をいう。
「固定符号帳探索用ターゲットベクトル」とは、適応符号帳探索用ターゲットベクトルから適応符号帳成分を取り除いたターゲットベクトルをいう。
「合成フィルタ処理後の適応符号帳ベクトル」とは、適応符号帳ベクトルに合成フィルタのインパルス応答を畳み込んだものであるが、聴覚重み付けフィルタを有する場合はこのインパルス応答も畳み込んだものも含まれる。
「相関値」とは、2つのベクトル間の類似度を示すものであり、例えば少なくとも2つの信号の内積を含む式で表される。
また、本開示の一態様に係る音声符号化装置は、周期性成分を表現する適応符号帳ベクトルを出力する適応符号帳と、非周期性成分を表現する固定符号帳ベクトルを出力する固定符号帳と、前記適応符号帳ベクトルと前記固定符号帳ベクトルとから励振信号を生成する加算器と、入力音声信号を線形予測分析・量子化して得られる線形予測係数を用いて構成されるとともに、前記励振信号により駆動されて合成音声信号を生成する合成フィルタと、前記合成音声信号と前記入力音声信号との誤差を最小化する前記適応符号帳ベクトルと前記固定符号帳ベクトルとを選択する機能を有するパラメータ量子化部と、を備え、前記パラメータ量子化部は、適応符号帳探索用ターゲットベクトルと前記合成フィルタ処理後の適応符号帳ベクトルとのベクトル積行列と、前記合成フィルタ処理後の適応符号帳ベクトルのベクトル積行列と、の距離に基づいて、直交化固定符号帳探索と非直交化固定符号帳探索とを切り替える固定符号帳探索部を備える。
「ベクトル積行列」とは、ベクトルとベクトルの積で表される行列であるが、距離を求めるための演算を行う際、行列要素の全てを用いる必要はない。
「距離」とは、行列間の相違の程度をいう。例えば、行列間の差をとる演算を含んでいれば距離を表すことが可能である。
なお、これらの包括的または具体的な態様は、システム、方法、集積回路、コンピュータプログラム、または、記録媒体で実現されてもよく、システム、装置、方法、集積回路、コンピュータプログラムおよび記録媒体の任意な組み合わせで実現されてもよい。
本開示の音声符号化装置によれば、固定符号帳の直交化探索と非直交化探索を適切に切り替えて高能率な音声符号化を実現することができる。
本開示の実施形態1における固定符号帳探索部のブロック図 本開示の実施形態1における固定符号帳探索の処理フロー図 本開示の実施形態2における固定符号帳探索部のブロック図 本開示の実施形態2における固定符号帳探索の処理フロー図 本開示の実施形態2のその他の例における固定符号帳探索部のブロック図 本開示の実施形態2のその他の例における固定符号帳探索の処理フロー図 従来のCELP型音声符号化装置のブロック図 従来の固定符号帳探索部のブロック図 従来の固定符号帳探索の処理フロー図
(本開示の実施形態の基礎となった知見)
従来のCELP型音声符号化装置における固定符号帳の直交化探索技術としては、探索に用いる符号化歪の評価式Eortとして(1)式を用いるものがあった(例えば、特許文献1の数2および数7参照)。
Figure 0006385936
p :適応符号帳から選択された適応符号帳ベクトル
H :重み付き合成フィルタのインパルス応答を畳み込む行列
x :適応符号帳探索用ターゲットベクトル
(重み付き入力音声信号から重み付き合成フィルタのゼロ入力応答
を除去した信号)
c :固定符号帳化から生成される固定符号帳ベクトル
t :行列ないしベクトルの転置
なお、Hは重み付き合成フィルタのインパルス応答を畳み込む行列であるが、本実施形態では聴覚重み付けフィルタ109を有しているので、このインパルス応答も畳み込んだもの、すなわち、合成フィルタ106と聴覚重み付けフィルタ109を縦続接続したフィルタのインパルス応答である。
そして、Eortは、符号化歪みの相対的な大小を評価するものであり、すでに適応符号帳ベクトルpが選択されている場合、pHpは定数となっているから、Eortは(1)式から分母項にかかるpHpを省略した(2)式を用いても良い。
Figure 0006385936
(2)式において、ベクトルDおよび行列Φを以下のように定義すれば(2)式は(3)式のように変形できる。ベクトルDおよび行列Φは、固定符号帳の直交化探索において事前に算出可能な成分である。
Figure 0006385936
この固定符号帳探索部111をブロック図で示すと図8のようになる。
図8において、相関算出部201は、適応符号帳探索用ターゲットベクトルxと聴覚重み付け合成フィルタ(合成フィルタ106と聴覚重み付けフィルタ109の縦続接続フィルタ)を通した後の適応符号帳ベクトルHpとの相互相関Qを(4)式により算出して、算出結果を評価式分子ベクトル算出部202に出力する。
Figure 0006385936
なお、適応符号帳探索用ターゲットベクトルxは、入力音声信号に聴覚重み付けフィルタ109をかけたものから、聴覚重み付け合成フィルタのゼロ入力応答を差し引いたものである。適応符号帳探索用ターゲットベクトルxの求め方はこの方法に限らず、これと等価な別の求め方であってもよい。
評価式分子ベクトル算出部202は、Q、x、およびhを用いて(3)式におけるベクトルDを算出して評価式分子項算出部203へ出力する。
なお、hは、聴覚重み付け合成フィルタのインパルス応答であり、行列Hはhを畳み込む行列(下三角行列)である。評価式分子ベクトル算出部202、および以下で説明するベクトル積行列算出部204および相関行列算出部206の演算において、行列Hの乗算はインパルス応答hの畳みこみ演算として行うことができる。
ベクトル積行列算出部204は、(3)式における行列Φのうち、第2項の分子であるベクトル積行列HHppHを算出して評価式分母行列算出部205へ出力する。
相関行列算出部206は、(3)式における行列Φのうち、第1項である相関行列HHを算出して評価式分母行列算出部205へ出力する。
評価式分母行列算出部205は、ベクトル積行列算出部204の出力および相関行列算出部206の出力に加えて、相互相関Qを求めるにあたり相関算出部201で算出したpHpを用いて(3)式における行列Φを算出し、評価式分母項算出部207へ出力する。
評価式分子項算出部203は、固定符号帳ベクトルインデックスiで指定される固定符号帳ベクトルcに対して(3)式の分子項Nortを算出して評価式最大化部208へ出力する。
評価式分母項算出部207は、固定符号帳ベクトルインデックスiで指定される固定符号帳ベクトルcに対して(3)式の分母項Dortを算出して評価式最大化部208へ出力する。
評価式最大化部208は、(3)式のEortを最大とするcを選択して最適固定符号帳ベクトルc(およびそのインデックスi)として出力する。
図9は、以上の処理を示す、従来の固定符号帳探索の処理フロー図である。
なお、非直交化探索では、固定符号帳探索時に適応符号帳ベクトルと適応符号帳利得を固定するため、固定符号帳探索に用いられる符号化歪の評価式は(5)式のようになる。
Figure 0006385936
:適応符号帳探索時に決定される適応符号帳利得
通常、適応符号帳利得には上限(例えばITU-T勧告G.729では1.2)と下限(通常は0)が設定されるが、適応符号帳利得の理想値がこれらの範囲内に必ず入るわけではない。直交化探索では固定符号帳ベクトルの「適応符号帳ベクトルに直交する成分」のみに着目して最適なものを選択する。これは、固定符号帳ベクトルの「適応符号帳ベクトルに直交しない(つまり適応符号帳ベクトルと同じ)成分」が適応符号帳ベクトルの利得を調整することで相殺できるためである。しかし、適応符号帳利得の理想値がこれらの範囲外になってしまう場合、この「調整」ができなくなってしまう。したがって、適応符号帳利得の理想値がこれらの範囲外になる場合には、直交化探索は適当でない。
また、特許文献2では、直交化/非直交化の切り替えにおいて、適応符号帳利得の理想値が閾値より大きいときに直交化探索を行うようにしている。そのため、音声の立ち上がり部のように信号エネルギーが急上昇するような場合、適応符号帳利得が閾値よりも高いと判断されて直交化探索の対象となる。しかしながら、このような場合は適応符号帳ベクトルの形状が適応符号帳探索用ターゲットベクトルの形状と一致していないことも多く、適応符号帳ベクトルの寄与度が低くなる。そのため、適応符号帳探索用ターゲットベクトルと適応符号帳ベクトルとは直交状態に近くなり、適応符号帳ベクトルに直交化する意味がなくなる。よって、このような場合、直交化探索をしない方が良いと考えられる。
一方、適応符号帳ベクトルの形状が一致していても、信号エネルギーが低下するような部分では適応符号帳利得が小さくなり、適応符号帳利得が閾値よりも低いと判断されて直交化探索の対象とならない。しかしながら、このような場合は適応符号帳ベクトルの寄与度が高くなるため、直交化探索をした方が良いと考えられる。
(実施形態1)
以下本開示の実施の形態について、図面を参照しながら説明する。なお、本開示の音声符号化装置の全体構成については、図7を適宜援用しながら説明する。また、図1において図8の従来の音声符号化装置と同じ名称の構成部については、図8と同じ符号を用いる。
図1は、本開示の実施形態1における固定符号帳探索装置300のブロック図である。固定符号帳探索装置300は、図7のパラメータ量子化部108に含まれる固定符号帳探索部111に相当する。
図1において、固定符号帳探索用ターゲットベクトル算出部309は、適応符号帳探索用ターゲットベクトルxから適応符号帳探索によって決定された適応符号帳成分を取り除いて固定符号帳探索用ターゲットベクトルxを以下のように算出する。そして、xは従来法におけるxの代わりに用いられる。
Figure 0006385936
:固定符号帳探索用ターゲットベクトル
:適応符号帳探索時に決定される適応符号帳利得
なお、適応符号帳利得gは以下のように表される。gp_Minは適応符号帳利得の下限値、gp_Maxは適応符号帳利得の上限値である。
Figure 0006385936
(2)式の分子項、すなわち(3)のベクトルDに、(6)式を変形した
Figure 0006385936
および(7)式で表されるgを代入すると、gHpの項は相殺されて、
Figure 0006385936
となることから、(1)式および(2)式において、適応符号帳探索時の適応符号帳探索用ターゲットベクトルxを固定符号帳探索用ターゲットベクトルxに置き換えても、置き換える前の式と等価であることが分かる。
相関算出部301は、xおよびHpから、(10)式に基づき相互相関Qを求める。相互相関Qは、ターゲットベクトルxと適応符号帳ベクトルHpとの直交性を表す指標であり、相互相関Qが小さいと直交性が高く、相互相関Qが大きいと直交性が低い。
Figure 0006385936
なお、相関値として本実施形態では相互相関Qを用いたが、少なくとも固定符号帳探索用ターゲットベクトルと合成フィルタ処理後の適応符号帳ベクトルの内積(相互相関Qの分子に相当)を含んでいればよい。
また、(11)式のような、正規化相互相関を用いてもよい。
Figure 0006385936
そして、直交化/非直交化判定部310は、相関算出部301から入力された相互相関Qの値に応じて直交化探索か非直交化探索かのいずれかを選択し、判定結果、すなわち選択した探索方法の情報を評価式分子ベクトル算出部302とベクトル積行列算出部304に出力する。
評価式分子ベクトル算出部302は、直交化探索が選択された場合は、x、Q、およびhを用いて評価式分子ベクトルDを算出する。また、評価式分子ベクトル算出部302は、非直交化探索が選択された場合は、相関算出部301から入力するQをゼロとして評価式分子ベクトルDを算出する。
ベクトル積行列算出部304は、直交化検索が選択された場合は、ベクトル積行列HHppHを算出する。また、ベクトル積行列算出部304は、非直交化探索が選択された場合は、ベクトル積行列をゼロ行列として出力する。
以下、図8と同じ処理が行われる。
図2は、本開示の実施の形態1における固定符号帳探索装置300の固定符号帳探索の処理フロー図である。
まず、固定符号帳探索装置300は、固定符号帳探索用ターゲットベクトルxを算出する(S11)。次に、固定符号帳探索装置300は、xと適応符号帳ベクトルHpの相互相関Qを算出する(S12)。そして、固定符号帳探索装置300は、算出した相互相関Qが所定の閾値以下(または閾値未満)かどうかを調べ(S13)、閾値以下(または閾値未満)の場合は直交化探索用の誤差評価関数における事前算出可能な成分の計算を行い(S14)、閾値を超える(または閾値以上)の場合は非直交化探索用の誤差評価関数における事前算出可能な成分の計算を行う(S15)。最後に、固定符号帳探索装置300は、DとΦを用いて固定符号帳の全てのベクトルcに対して誤差評価関数を算出して、評価関数を最大とする固定符号帳ベクトルcを選択する(S16)。
なお、相互相関Qの閾値は、実験により最適な値を求めて設定すればよい。そもそも決定される適応符号帳利得が適応符号帳利得の上限値と下限値との間に入っていれば正規化相関Qはゼロになる。そこで、例えば、0.0001など、0に近い値を設定することが望ましい。
このように、本実施形態では、仮に決定した適応符号帳成分を取り除いた固定符号帳探索用ターゲットベクトルと適応符号帳ベクトルとの相関値に基づいて固定符号帳の直交化/非直交化を使い分ける。そのため、固定符号帳探索でターゲットとするべきベクトルと適応符号帳ベクトルとの直交性が低いときは非直交化探索を選択的に使用することができる。したがって、固定符号帳探索の直交化探索と非直交化探索を適切に使い分ける方法を提供することができる。
なお、固定符号帳探索用ターゲットベクトルxの算出において、gが(7)式で表されるとき、すなわち、gが適応符号帳利得の理想値を取る場合、相関算出部301において算出される相互相関値Qはゼロとなる。よって、適応符号帳利得gが理想値にならないケースは、算出された理想適応符号帳利得gがあらかじめ設定されている適応符号帳利得の下限値と上限値の間に入らない場合である。そして、上限値を超えた度合い、あるいは下限値を下回った度合いに応じて相互相関値Qの値は大きく(負の場合は小さく)なる。
以上の性質を利用して、固定符号帳探索用ターゲットベクトルxの算出時に用いられるgが、理想値なのか、それとも下限値や上限値を超えるものなのか、という情報に基づいて固定符号帳の直交化/非直交化探索を行うようにしても同様の効果を得ることが可能である。
また、直交化探索をする場合としない場合とで、固定符号帳を切り替えて使用したり、パルス拡散を行う場合に拡散ベクトルを切り替えて使用したりすることもできる。このような場合は、復号化装置に切り替え情報を伝送しておけば、復号化装置側でも符号化装置側と同様の合成音声信号を生成することが可能となる。
(実施形態2)
図3は、本開示の実施形態2の固定符号帳探索装置400のブロック図である。図3において、図1および図8と同じ構成要素については同じ符号を用い、説明を省略する。
図3において、第2の直交化/非直交化判定部411は、適応符号帳探索用ターゲットベクトルxと合成フィルタ処理後の適応符号帳ベクトルHpとが入力される。そして、両者の内積で正規化したベクトル積行列の対角要素からなるベクトルV1および、適応符号帳ベクトルをエネルギーで正規化したベクトル積行列の対角要素からなるベクトルV2との距離dを次の(12)式にて算出する。
Figure 0006385936
xp(i,i):正方行列xpの対角要素
Hpp(i,i):正方行列Hppの対角要素
なお、上記の例では距離dとして、対角要素からなる2つのベクトル間の距離を用いたが、これ以外の式を用いてもよい。例えば、2つの行列の差を求め、ここから行列式を計算して求めたものを距離として用いてもよい。
第2の直交化/非直交化判定部411は、算出したdが所定の閾値(例えば0.1〜0.3)を超えた場合は直交化探索を行わずに非直交化探索を行うと判定する。第2の直交化/非直交化判定部411は、判定結果を相関算出部401、評価式分子ベクトル算出部302、およびベクトル積行列算出部304に出力する。また、第2の直交化/非直交化判定部411は、(12)式の過程で得られたpHpを相関算出部401へ出力する。pHpは、相関算出部401で相互相関Qを求めるために利用される。
なお、dの閾値も、実験により最適な値を求めて設定すればよい。発明者らの実験によれば、0.1から0.3の間の値が望ましく、0.125付近がさらに望ましい。
相関算出部401は、pHpをそのまま評価式分母行列算出部205に出力する。そして、相関算出部401は、第2の直交化/非直交化判定部411の判定結果が直交化探索である場合は、相互相関Qを求めて評価式分子ベクトル算出部302に出力する。また、相関算出部401は、第2の直交化/非直交化判定部411の判定結果が非直交化探索である場合は、相互相関Qを求める必要なはいので、何も処理を行なわない。相関算出部401は、もちろん実施形態1のように判定結果にかかわらず相互相関Qを求めて評価式分子ベクトル算出部302に出力し、評価式分子ベクトル算出部302の側で相互相関Qをゼロとして処理してもよい。
図4は、本開示の実施形態2における固定符号帳探索装置400の固定符号帳探索の処理フロー図である。まず、固定符号帳探索装置400は、固定符号帳探索用ターゲットベクトルxを算出する(S21)。次に、固定符号帳探索装置400は、距離dを算出する(S22)。そして、固定符号帳探索装置400は、dが閾値以下(または閾値未満)かどうかを判定し(S23)、閾値以下(または閾値未満)の場合は直交化探索用の誤差評価関数における事前算出可能な成分の計算を行い(S24)、閾値を超える(または閾値以上)の場合は非直交化探索用の誤差評価関数における事前算出可能な成分の計算を行う(S25)。最後に、固定符号帳探索装置400は、DとΦを用いて固定符号帳の全てのベクトルcに対して誤差評価関数を算出して、評価関数を最大とする固定符号帳ベクトルcを選択する(S26)。
ここで、距離dによって、直交化/非直交化を判定する原理を以下に説明する。
直交化探索においては、適応符号帳利得gは次式にて表される。
Figure 0006385936
適応符号帳探索において得られる理想適応符号帳利得gは(7)式(上限値と下限値の間の場合)の通りであるから、(13)式において、U1とU2の値が近いようであれば、(13)式の第2項は1に近くなるので、固定符号帳の直交化探索を行った場合の適応符号帳利得と適応符号帳探索時の適応符号帳利得とは近い値となる。
一方、U1とU2の値が大きく異なると、(13)式の第2項は1から離れた値となるので、選ばれる固定符号帳ベクトルにも依るが、(7)式の理想適応符号帳利得gから大きく離れた値になる可能性が高い。U1とU2はそれぞれ(14)式のように表せる。
Figure 0006385936
Figure 0006385936
そして、(15)式で表されるベクトル積行列に、合成フィルタ処理後の固定符号帳ベクトルHcを前後から乗じたものとして変形することができる。よって、この2つのベクトル積行列U1’およびU2’の距離が大きいほどU1およびU2の値も異なる可能性が高いといえる。
そして、U1’とU2’のいずれにせよ対角成分が最も大きくなり支配的な要素となるため、式(12)のようにU1’とU2’の対角成分であるV1とV2の間のユークリッド距離を指標とすることとした。
なお、(7)式で表されるgは非直交化探索を行った場合の適応符号帳利得、(13)式で表されるgは直交化探索を行った場合の適応符号帳利得となるが、両者の差が大きくなるということは、固定符号帳ベクトルに適応符号帳ベクトルと同じ成分が多く含まれるということになる。この場合、固定符号帳ベクトルと適応符号帳ベクトルとで相殺する(あるいは分配する)成分が多くなるので、相殺(あるいは分配)がうまくいかないと直交化の効果が得られない。(13)式より,行列U1’とU2’との違いが大きいと、その可能性が高くなると言える。
なお、固定符号帳探索の演算量増加を問題としないのであれば、固定符号帳探索装置400は、(13)式を固定符号帳探索時に逐次計算し、求められる適応符号帳利得が量子化適応符号帳利得の範囲内に入っているかどうかで判断しても良い。
さらに、以下、距離dの技術的意義について説明する。なお、適応符号帳合成ベクトルHpは式表記の簡素化のため、以下yと表記する。
式(12)をターゲットベクトルxと適応符号帳合成ベクトルyとで表現すると以下のようになる。
Figure 0006385936
ここで、ターゲットベクトルxを適応符号帳合成ベクトルyと相関のある成分(yをa倍したものとして表現)と無相関成分zとの和ベクトルとして表現すると(17)式となる。
Figure 0006385936
これを用いると、(16)式は以下のように展開できる。
Figure 0006385936
よって、dは、xとyの相関成分のパワーに対する無相関成分のパワーの比となっていることがわかる。
つまり、xとyの無相関成分が大きいほど(また、相関成分が小さいほど)dは大きな値となる。逆に、xとyの無相関成分が小さいほど(また、相関成分が大きいほど)dは小さな値となり0に近づく。
以上から、距離dは、適応符号帳合成ベクトルyの形状が、どれだけターゲットベクトルxの形状に一致するか、その一致の度合を示すパラメータとなっているといえる。
以上、本実施形態によれば、固定符号帳の直交化探索後に決定される適応符号帳利得が、適応符号帳探索時に得られる適応符号帳利得から大きく変化する可能性が高いかどうかを判定することができる。固定符号帳探索の直交化探索と非直交化探索を適切に使い分けることができる。
(実施形態2のその他の例)
図5は、本開示の実施形態2のその他の例の固定符号帳探索装置500のブロック図である。本実施形態は、二段階の直交化/非直交化判定を行うものであり、実施形態2の固定符号帳探索装置400の特徴である第2の直交化/非直交化判定部411を前段階に、実施形態1の固定符号帳探索装置300の特徴である直交化/非直交化判定部310を後段階に構成する。
そして、第2の実施形態との違いは以下のとおりである。第2の実施形態では相関算出部401は、第2の直交化/非直交化判定部411の判定結果を直接評価式分子ベクトル算出部302およびベクトル積行列式算出部304に出力していた。これに対して、本実施形態では実施形態1と同様、相関算出部401は直交化/非直交化判定部310に対して相互相関Qを出力し、直交化/非直交化判定部310の判定結果を評価式分子ベクトル算出部302とベクトル積行列算出部304に出力する。
図5において、第2の直交化/非直交化判定部411は、判定結果が非直交化探索である場合は、判定結果を相関算出部401、評価式分子ベクトル算出部302、およびベクトル積行列算出部304に出力する。また、第2の直交化/非直交化判定部411は、判定結果が直交化探索である場合は、判定結果を出力しない。
相関算出部401の処理は実施形態1と同じである。そして、評価式分子ベクトル算出部302、およびベクトル積行列算出部304の処理は、第2の直交化/非直交化判定部411および直交化/非直交化判定部310の判定結果に基づき、実施形態1および実施形態2と同様の処理を行なう。
図6は、本実施形態における固定符号帳探索装置500の固定符号帳探索の処理フロー図である。まず、固定符号帳探索装置500は、固定符号帳探索用ターゲットベクトルxを算出する(S31)。次に、固定符号帳探索装置500は、距離dを算出する(S32)。そして、固定符号帳探索装置500は、dが閾値以下(または閾値未満)かどうかを判定し(S33)、閾値以下(または閾値未満)の場合は実施形態1と同様、正規化相関の算出に進み(S34)、算出した正規化相関Qが所定の閾値以下(または閾値未満)かどうかを調べる(S35)。閾値以下(または閾値未満)の場合は直交化探索用の誤差評価関数における事前算出可能な成分の計算を行い(S36)、閾値を超える(または閾値以上)の場合は非直交化探索用の誤差評価関数における事前算出可能な成分の計算を行う(S37)。固定符号帳探索装置500は、dが閾値を超える(または閾値以上)の場合は非直交化探索用の誤差評価関数における事前算出可能な成分の計算を行う(S37)。最後に、固定符号帳探索装置500は、DとΦを用いて固定符号帳の全てのベクトルcに対して誤差評価関数を算出して、評価関数を最大とする固定符号帳ベクトルcを選択する(S38)。
以上のように、本実施形態では、実施形態1と実施形態2の二つの基準を用いることにより、より精度の高い固定符号帳探索の直交化探索と非直交化探索の使い分けをすることができる。
なお、図2、図4、図6のフローは、専用に設計されたハードウェアの動作を表すとともに、汎用のハードウェアに本フローの固定帳探索方法を有する音声符号化方法を実行するプログラムをインストールすることにより実現することも可能である。汎用のハードウェアたる電子計算機として、例えばパーソナルコンピュータ、スマートホンなどの各種携帯情報端末、および携帯電話などが挙げられる。
また、専用に設計されたハードウェアは、携帯電話や固定電話などのいわゆる完成品(コンシューマエレクトロニクス)に限らず、システムボードや半導体素子など、半完成品や部品レベルをも含むものである。
本開示にかかる音声符号化装置は、直交化/非直交化を切り替え可能な固定符号帳探索部を有し、携帯端末や音声ゲートウェイなどに搭載される音声コーデック処理チップ等として有用である。また、IC録音装置やVoIP(Voice over IP)アプリ等の用途にも応用できる。
100 音声符号化装置
101 適応符号帳
102,104 増幅器
103 固定符号帳
105 加算器
106 合成フィルタ
107 誤差算出器
108 パラメータ量子化部
109 聴覚重み付けフィルタ
110 適応符号帳探索部
111 固定符号帳探索部
112 ゲイン符号帳探索部
300,400,500 固定符号帳探索装置
301,401 相関算出部
309 固定符号帳探索用ターゲットベクトル算出部
310 直交化/非直交化判定部
411 第2の直交化/非直交化判定部

Claims (5)

  1. 周期性成分を表現する適応符号帳ベクトルを出力する適応符号帳と、
    非周期性成分を表現する固定符号帳ベクトルを出力する固定符号帳と、
    前記適応符号帳ベクトルと前記固定符号帳ベクトルとから励振信号を生成する加算器と、
    入力音声信号を線形予測分析・量子化して得られる線形予測係数を用いて構成されるとともに、前記励振信号により駆動されて合成音声信号を生成する合成フィルタと、
    前記合成音声信号と前記入力音声信号との誤差を最小化する前記適応符号帳ベクトルと前記固定符号帳ベクトルとを選択するパラメータ量子化部と、を備え、
    前記パラメータ量子化部は、固定符号帳探索用ターゲットベクトルと前記合成フィルタ処理後の適応符号帳ベクトルとの相関値に基づいて、直交化固定符号帳探索と非直交化固定符号帳探索とを切り替える固定符号帳探索部を備える、
    音声符号化装置。
  2. 周期性成分を表現する適応符号帳ベクトルを出力する適応符号帳と、
    非周期性成分を表現する固定符号帳ベクトルを出力する固定符号帳と、
    前記適応符号帳ベクトルと前記固定符号帳ベクトルとから励振信号を生成する加算器と、
    入力音声信号を線形予測分析・量子化して得られる線形予測係数を用いて構成されるとともに、前記励振信号により駆動されて合成音声信号を生成する合成フィルタと、
    前記合成音声信号と前記入力音声信号との誤差を最小化する前記適応符号帳ベクトルと前記固定符号帳ベクトルとを選択するパラメータ量子化部と、を備え、
    前記パラメータ量子化部は、適応符号帳探索用ターゲットベクトルと前記合成フィルタ処理後の適応符号帳ベクトルとのベクトル積行列と、前記合成フィルタ処理後の適応符号帳ベクトルのベクトル積行列と、の距離に基づいて、直交化固定符号帳探索と非直交化固定符号帳探索とを切り替える固定符号帳探索部を備える、
    音声符号化装置。
  3. 前記固定符号帳探索部は、さらに、適応符号帳探索用ターゲットベクトルと前記合成フィルタ処理後の適応符号帳ベクトルとのベクトル積行列と、前記合成フィルタ処理後の適応符号帳ベクトルのベクトル積行列と、の距離に基づいて、前記直交化固定符号帳探索と前記非直交化固定符号帳探索とを切り替える、
    請求項1記載の音声符号化装置。
  4. 周期性成分を表現する適応符号帳ベクトルを出力し、
    非周期性成分を表現する固定符号帳ベクトルを出力し、
    前記適応符号帳ベクトルと前記固定符号帳ベクトルとから励振信号を生成し、
    入力音声信号を線形予測分析・量子化して得られる線形予測係数を用いて構成される合成フィルタを前記励振信号により駆動して合成音声信号を生成し、
    前記合成音声信号と前記入力音声信号との誤差を最小化する前記適応符号帳ベクトルと前記固定符号帳ベクトルとを選択する音声符号化方法であり、
    固定符号帳の選択は、固定符号帳探索用ターゲットベクトルと前記合成フィルタ処理後の適応符号帳ベクトルとの相関値に基づいて、直交化固定符号帳探索と非直交化固定符号帳探索とを切り替えて行う、
    音声符号化方法。
  5. 周期性成分を表現する適応符号帳ベクトルを出力し、
    非周期性成分を表現する固定符号帳ベクトルを出力し、
    前記適応符号帳ベクトルと前記固定符号帳ベクトルとから励振信号を生成し、
    入力音声信号を線形予測分析・量子化して得られる線形予測係数を用いて構成される合成フィルタを前記励振信号により駆動して合成音声信号を生成し、
    前記合成音声信号と前記入力音声信号との誤差を最小化する前記適応符号帳ベクトルと前記固定符号帳ベクトルとを選択する音声符号化方法であり、
    固定符号帳の選択は、適応符号帳探索用ターゲットベクトルと前記合成フィルタ処理後の適応符号帳ベクトルとのベクトル積行列と、前記合成フィルタ処理後の適応符号帳ベクトルのベクトル積行列と、の距離に基づいて、直交化固定符号帳探索と非直交化固定符号帳探索とを切り替えて行う、
    音声符号化方法。
JP2015532686A 2013-08-22 2014-07-07 音声符号化装置およびその方法 Active JP6385936B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2013172310 2013-08-22
JP2013172310 2013-08-22
PCT/JP2014/003581 WO2015025454A1 (ja) 2013-08-22 2014-07-07 音声符号化装置およびその方法

Publications (2)

Publication Number Publication Date
JPWO2015025454A1 JPWO2015025454A1 (ja) 2017-03-02
JP6385936B2 true JP6385936B2 (ja) 2018-09-05

Family

ID=52483254

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015532686A Active JP6385936B2 (ja) 2013-08-22 2014-07-07 音声符号化装置およびその方法

Country Status (4)

Country Link
US (1) US9747916B2 (ja)
EP (1) EP3038104B1 (ja)
JP (1) JP6385936B2 (ja)
WO (1) WO2015025454A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107251610B (zh) * 2015-05-20 2020-09-25 松下电器(美国)知识产权公司 通信节点、终端及通信控制方法

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3293709B2 (ja) * 1994-03-15 2002-06-17 日本電信電話株式会社 励振信号直交化音声符号化法
JP3224955B2 (ja) * 1994-05-27 2001-11-05 株式会社東芝 ベクトル量子化装置およびベクトル量子化方法
US5970444A (en) 1997-03-13 1999-10-19 Nippon Telegraph And Telephone Corporation Speech coding method
JP3582693B2 (ja) 1997-03-13 2004-10-27 日本電信電話株式会社 音声符号化方法
JP3235543B2 (ja) * 1997-10-22 2001-12-04 松下電器産業株式会社 音声符号化/復号化装置
US6507814B1 (en) * 1998-08-24 2003-01-14 Conexant Systems, Inc. Pitch determination using speech classification and prior pitch estimation
US6782360B1 (en) * 1999-09-22 2004-08-24 Mindspeed Technologies, Inc. Gain quantization for a CELP speech coder
JP2002073097A (ja) * 2000-08-31 2002-03-12 Matsushita Electric Ind Co Ltd Celp型音声符号化装置とcelp型音声復号化装置及び音声符号化方法と音声復号化方法
JP3426207B2 (ja) * 2000-10-26 2003-07-14 三菱電機株式会社 音声符号化方法および装置
US7054807B2 (en) * 2002-11-08 2006-05-30 Motorola, Inc. Optimizing encoder for efficiently determining analysis-by-synthesis codebook-related parameters
US7752039B2 (en) * 2004-11-03 2010-07-06 Nokia Corporation Method and device for low bit rate speech coding
EP1979901B1 (de) * 2006-01-31 2015-10-14 Unify GmbH & Co. KG Verfahren und anordnungen zur audiosignalkodierung
CA2821577C (en) * 2011-02-15 2020-03-24 Voiceage Corporation Device and method for quantizing the gains of the adaptive and fixed contributions of the excitation in a celp codec

Also Published As

Publication number Publication date
US20160140976A1 (en) 2016-05-19
EP3038104A4 (en) 2016-08-10
EP3038104A1 (en) 2016-06-29
US9747916B2 (en) 2017-08-29
WO2015025454A1 (ja) 2015-02-26
JPWO2015025454A1 (ja) 2017-03-02
EP3038104B1 (en) 2018-12-19

Similar Documents

Publication Publication Date Title
RU2458412C1 (ru) Устройство поиска фиксированных таблиц кодирования и способ поиска фиксированных таблиц кодирования
US20220223163A1 (en) Apparatus for encoding a speech signal employing acelp in the autocorrelation domain
JP6650540B2 (ja) 周波数領域パラメータ列生成方法、周波数領域パラメータ列生成装置、及びプログラム
JP6385936B2 (ja) 音声符号化装置およびその方法
JP2011164126A (ja) 雑音抑圧フィルタ算出方法と、その装置と、プログラム
Vali et al. End-to-end optimized multi-stage vector quantization of spectral envelopes for speech and audio coding
CN103636129A (zh) 多尺度码本搜索
CN103119650B (zh) 编码装置和编码方法
JP6053145B2 (ja) 符号化装置、復号装置、これらの方法、プログラム、および記録媒体

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20170419

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20170419

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170605

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180710

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180808

R150 Certificate of patent or registration of utility model

Ref document number: 6385936

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150