[go: up one dir, main page]

KR100546444B1 - 씨이엘피 음성코더를 위한 이득양자화 - Google Patents

씨이엘피 음성코더를 위한 이득양자화 Download PDF

Info

Publication number
KR100546444B1
KR100546444B1 KR1020027015574A KR20027015574A KR100546444B1 KR 100546444 B1 KR100546444 B1 KR 100546444B1 KR 1020027015574 A KR1020027015574 A KR 1020027015574A KR 20027015574 A KR20027015574 A KR 20027015574A KR 100546444 B1 KR100546444 B1 KR 100546444B1
Authority
KR
South Korea
Prior art keywords
gain
vector
fixed codebook
subframe
unquantized
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
KR1020027015574A
Other languages
English (en)
Other versions
KR20030001523A (ko
Inventor
양 가오
아딜 베니아신
Original Assignee
코넥스안트 시스템스, 인코퍼레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 코넥스안트 시스템스, 인코퍼레이티드 filed Critical 코넥스안트 시스템스, 인코퍼레이티드
Publication of KR20030001523A publication Critical patent/KR20030001523A/ko
Application granted granted Critical
Publication of KR100546444B1 publication Critical patent/KR100546444B1/ko
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/083Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being an excitation gain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/09Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Analogue/Digital Conversion (AREA)

Abstract

본 발명의 음성 인코더는 주기형 음성 또는 비주기형 음성과 같은 음성의 각 프레임을 분석 및 분류하며, 음성이 주기적인지의 비주기적인지에 따라 상이한 이득 양자화 처리를 실행한다. 음성이 주기적이면, 개선된 음성 인코더는 비양자화된 가중 음성신호로부터 피치이득을 얻고 서브프레임 처리가 시작되기 전에 프레임의 각 서브프레임에 대한 적응성 코드북 이득 Gp의 프리벡터 양자화와 고정 코드북 이득 Gc의 폐루프 지연된 결정 벡터 양자화를 실행한다. 음성의 프레임이 비주기적이면 음성인코더는 임의의 공지의 이득 양자화 방법을 이용할 수 있다. 이러한 방식으로 주기음성의 이득을 양자화하는 결과로 양자화된 이득 정보를 나타내기 위해 필요한 비트수가 주기 음성에 대하여 감축되며, 현재의 서브프레임에 대한 고정 코드북 여기벡터에 대한 고정 코드북을 검색하기 위하여 현재의 서브프레임에 대한 양자화된 피치이득을 이용할 수 있게 된다. 이와 달리, 주기신호에 대해서만 사용되는 새로운 이득 양자화 처리가 또한 비주기 신호에 까지 확장될 수 있다. 이 두 번째 방법으로 새로운 이득 양자화 방법을 사용하는 주기신호에 대한 비트레이트보다 약간 높은 비트레이트가 요구되지만 종래기술의 비트레이트보다는 낮다. 다른 실시예는 주기신호와 비주기 신호를 구분하지 않고 모든 음성신호에 대하여 새로운 이득 양자화 처리를 사용하기 위한 것이다.

Description

씨이엘피 음성코더를 위한 이득양자화{GAINS QUANTIZATION FOR A CELP SPEECH CODER}
참고로 포함
다음의 미국특허출원은 그 전체를 참고로 본 명세서에 포함하며 본 출원의 일부로 한다.
Conexant Docket No. 98RSS399로 1998년 9월 18일 출원된 "개폐루프 이득을 결합하는 정규화를 이용하는 음성인코더"란 명칭의 미국특허출원 제09/156,650호
Conexant Docket No. 99RSS485로 1999년 9월 22일 출원된 "4kbits/s 음성코딩"이란 명칭의 미국특허 가출원 제60/155,321호
본 발명은 음성통신 시스템의 음성코딩에 관한 것으로, 특히 보다 소수의 비트로 음성신호의 이득 양자화 파라미터를 코딩하는 방법 및 개선된 코드여기 선형 예측 코딩 시스템(code-excited linear prediction coding system)에 관한 것이다.
기본 음성 음향을 표본화하기 위해서는 음성신호가 시간을 매체로 샘플링되고 디지털적으로 처리될 이산파형(discrete waveform)으로서 프레임에 저장된다. 그러나 음성용 통신대역폭의 효율적인 사용을 증가시키기 위해 제한된 대역폭의 제약하에서 음성이 송신되는 것으로 의도될 때에는 특히 그 음성이 전송되기 전에 코 딩된다. 다양한 종류의 음성코딩을 위해 수많은 알고리즘이 제안되어 왔다. 음성코딩에서, 음성코딩 알고리즘은 보다 작은 대역폭을 요구하는 방식으로 음성신호의 특징을 나타내도록 시도하고 있다. 예컨대, 음성코딩 알고리즘은 음성신호에서 리던던시(redundancy)를 제거하려고 노력한다. 첫 번째 단계는 단기 상관관계(short-term correlation)를 제거하기 위한 것이다. 신호코딩 기법의 한 유형으로 선형예측코딩(Linear Predictive Coding; LPC)이 있다. LPC 방법을 사용시 임의의 특정시간에서 음성신호값은 이전값의 선형함수로서 표본화된다. LPC 방법을 사용함으로써 단기 상관관계가 감축될 수 있으며, 효율적인 음성신호 표시는 그 음성신호를 나타내기 위해 일정한 예측 파라미터를 평가하고(estimate) 적용함으로써 결정될 수 있다. 음성신호에서 단기 상관관계를 제거한 후에는 LPC 잔류신호가 남게 된다. 이 잔류신호는 표본화되는데 필요한 주기성 정보를 포함한다. 음성에서 리던던시를 제거하는 두 번째 단계는 주기성 정보를 표본화하기 위한 것이다. 주기성 정보는 피치예측을 사용함으로써 표본화될 수 있다. 음성의 일정부분은 주기성을 가지나 다른 부분은 주기성을 가지지 않는다. 예컨대, 음향 "아(aah)"는 주기성 정보를 가지나 음향 "쉬(shhh)"는 주기성 정보를 가지지 않는다.
LPC 기술을 적용함에 있어서, 종래의 소스 인코더는 음성신호에 작용하여 통신채널을 통해 종래의 소스디코더와 통신하기 위해 코딩될 표본화 및 파라미터 정보를 추출한다. 표본화 및 파라미터 정보를 보다 작은 양의 정보로 코딩하기 위한 하나의 방식으로 양자화(quantization)를 사용할 수 있다. 파라미터의 양자화는 파라미터를 나타내기 위해 테이블 또는 코드북에 가장 가까운 엔트리를 선택하는 것 을 포함한다. 따라서 예를들면, 코드북이 0, 0.1, 0.2, 0.3 등을 포함하면 0.125의 파라미터는 0.1로 표현될 수 있다. 양자화는 스칼라 양자화와 벡터 양자화를 포함한다. 스칼라 양자화에서는 상술한 바와 같이 파라미터에 가장 가까운 근사값인 테이블 또는 코드북의 엔트리를 선택한다. 이와 대조적으로 벡터 양자화는 2이상의 파라미터를 결합하여 결합된 파라미터에 가장 근접한 테이블 또는 코드북의 엔트리를 선택한다. 예컨대, 벡터양자화는 파라미터들 간의 차에 가장 가까운 코드북의 엔트리를 선택할 수 있다. 한번에 2개의 파라미터를 벡터양자화하기 위해 사용되는 코드북은 2차원 코드북이라 칭해진다. n-차원 코드북은 한번에 n개의 파라미터를 양자화한다.
코드여기 선형예측(Code Excited Linear Prediction: CELP)에 2종류의 이득(gain)이 있다. 첫 번째 유형의 이득은 적응성 코드북 이득(adaptive codebook gain)으로도 알려져 있는 피치이득(Gp)이다. 적응성 코드북 이득은 때때로 첨자 "p"대신 첨자 "a"로 표시하기도 한다. 두 번째 유형의 이득은 고정 코드북 이득 Gc이다. 음성코딩 알고리즘은 적응성 코드북 이득과 고정 코드북 이득을 포함하는 파라미터를 양자화한다. 일단 코딩된, 입력 음성신호를 나타내는 파라미터는 송수신기(transceiver)로 전송된다.
송수신기에서 디코더는 코딩된 정보를 수신한다. 디코더는 음성신호가 인코드되는 방식을 알려주도록 구성되기 때문에 디코더는 코딩된 정보를 디코드하여 원래의 음처럼 인간의 귀에 들려주는 재생신호를 복원한다.
그러므로, 코딩된 표본화 및 파라미터 정보를 디코더에 전송하는 것은 일정 량의 유용한 통신채널 대역폭을 필요로 한다. 대역폭의 효율적인 사용을 증가시키기 위해서는 표본화 및 파라미터 정보가 코딩되는 방식에 대한 개선이 필요하다. 통신채널을 통해 전송되어야만 하는 비트 정보의 양을 감축시키기 위해서는 코딩 알고리즘이 필요하다. 그러나 통신채널을 통해 전송되어야만 할 비트 정보의 양을 감축시킬 뿐 아니라 재생된 음성의 고품질 레벨을 유지하는 코딩 알고리즘에 대한 보완의 필요성이 존재하였다.
본 발명의 다양한 특징은 음성신호에 대한 합성에 의한 분석 코딩방법(analysis-by-synthesis coding approach)을 사용하는 음성인코딩 시스템 및 방법에서 찾아볼 수 있다. 음성 인코딩 시스템은 여기벡터(excitation vector)를 발생시키는 복수의 코드북과 인코더 프로세서를 구비한다. 음성 인코더는 음성의 각 프레임을 주기형 음성과 비주기형 음성으로 분석 및 분류한다. 본 명세서와 청구의 범위에서는 단순화를 위해 주기형 신호(periodic-like signal)와 주기신호(periodic signal)를 "주기(periodic)" 신호라 하고, 비주기 음성을 "비주기(non-periodic)" 신호 또는 "주기가 아닌(not periodic)" 신호라 한다.
이하에서는 적어도 3개의 다른 주된 실시예를 설명하기로 한다. 제 1 실시예는 주기음성에 대해서는 새로운 이득 양자화 방법을 이용하고, 비주기 음성에 대해서는 공지의 이득 양자화 방법을 이용한다. 제 2 실시예는 비주기 음성에 대한 비트레이트(초당 비트수)가 주기 음성에 대한 비트레이트보다 큰 주기음성 및 비주기 음성 모두에 대하여 새로운 이득 양자화 방법을 이용한다. 제 3 실시예는 제 2 실 시예에서 비주기 음성에 대한 비트레이트와 동일한 비트레이트의 모든 음성에 대하여 새로운 이득 양자화 방법을 이용한다.
먼저 제 1 실시예를 설명하고 이어서 제 2 및 제 3 실시예에 대하여 설명하기로 한다. 만약 음성이 주기적이면 피치이득은 폐루프 서브프레임 처리가 시작되기 전에 원래의 비양자화된 가중음성신호로부터 유도된다. 이것은 피치이득이 폐루프 서브프레임 처리로부터 유도되는 종래의 방식과는 다르다. "폐루프(closed loop)" 처리는 원래의 입력음성과 지각적으로 가장 근접한 합성음성을 발생시키는 코드북 내의 벡터를 찾는다. 대조적으로 "개루프(open loop)" 처리는 이득벡터(또는 이득벡터의 로그와 같은 변형된 이득벡터)에 가장 가까운 코드북의 벡터를 찾는다. 개루프 처리에서 두 벡터의 밀접도는 합성음성이 원래의 음성과 지각적으로 얼마나 가까우냐에 따라 달라지지 않는다. 음성 인코더는 음성이 주기적인지 그렇지 않은지에 따라 상이한 이득 양자화 처리를 실행한다. 만약 음성이 주기적이면 개선된 음성 인코더는 다음의 두가지 이득 양자화를 실행한다. (1) 원래의 비양자화 가중음성에 기초한 프레임의 각 서브프레임에 대하여 적응성 코드북 이득 Gp의 프리벡터(pre-vector) 양자화 실행. 이 양자화는 폐루프 서브프레임 처리가 시작하기 전에 발생함. (2) 서브프레임 처리의 마지막에 고정 코드북 이득 Gc의 폐루프 지연된 결정 벡터 양자화(closed-loop delayed decision vector)를 실행.
본 발명의 제 1 특징은 음성을 주기형 음성과 비주기형 음성으로 분류하여 비주기형 음성의 이득 양자화와 달리 주기형 음성의 이득 양자화를 처리하는 음성 인코더에 있다.
본 발명의 제 2 특징은 프레임의 각 서브프레임에 대한 Gp의 프리벡터 양자화를 각각의 주기음성 프레임에 대하여 실행하고, Gc의 폐루프 지연된 결정 벡터 양자화를 실행하는 음성 인코더에 있다.
본 발명의 제 3 특징은 주기음성에 대한 Gc의 폐루프 지연된 결정 벡터 양자화를 실행하는 음성 인코더에 있다.
본 발명의 제 4 특징은 주기음성의 이득정보를 벡터 양자화하기 위해 필요한 비트의 수를 감축시키는 음성 인코더에 있다.
본 발명의 제 5 특징은 음성신호에 대한 프레임 기반 처리와 모드 종속 서브프레임 처리를 실행하는 음성 인코더에 있다.
본 발명의 제 6 특징은 현재의 서브프레임에 대한 양자화된 피치이득이 현재의 서브프레임에 대한 고정 코드북 여기벡터에 대한 고정코드북을 검색하기 위해 사용될 수 있도록 폐루프 서브프레임 처리에 선행하는 프리벡터 양자화 처리로부터 현재의 서브프레임에 대한 양자화된 피치 이득을 취득하는 음성 인코더에 있다.
본 발명의 제 7 특징은 음성이 주기적이면, 폐루프 서브프레임 처리가 시작되기 전에 원래의 비양자화된 가중 음성신호로부터 피치이득을 구하는 음성 인코더에 있다.
본 발명의 제 8 특징은 비주기 신호에 대한 종래의 이득 양자화 처리와 주기신호에 대한 새로운 이득 양자화 처리를 이용하는 음성 인코더에 있다.
본 발명의 제 9 특징은 주기신호와 비주기 신호를 구분하고, 주기신호보다 비주기 신호에 보다 많은 이득 양자화 비트가 할당되는 경우에는 이들 주기신호와 비주기 신호에 대해 새로운 이득 양자화 처리를 이용하는 음성 인코더에 있다.
본 발명의 제 10 특징은 주기신호와 비주기 신호를 구분하지 않고 모든 신호에 대하여 새로운 이득 양자화 처리를 이용하는 음성 인코더에 있다.
본 발명의 제 11 특징은 주기신호와 비주기 신호를 구분하고 주기신호보다 비주기 신호에 보다 많은 이득 양자화 비트가 할당되는 경우에는 이들 주기신호와 비주기 신호에 대하여 새로운 이득 양자화를 처리를 이용하는 음성 인코더에 적합한 상술한 특징 중의 어느 하나에 있다.
본 발명의 제 12 특징은 주기신호와 비주기 신호를 구분하지 않고 모든 신호에 대하여 새로운 이득 양자화 처리를 이용하는 음성 인코더에 적합한 상술한 특징 중의 어느 하나에 있다.
또한 본 발명의 추가의 특징은 소수의 비트로 음성신호의 이득 양자화 파라미터를 코딩하기 위해 사용되는 방법에서 찾아볼 수 있다.
본 발명의 제 13 특징은 음성을 주기형 음성과 비주기형 음성으로 분류하여 비주기형 음성의 이득 양자화와 달리 주기형 음성의 이득 양자화를 처리하는, 음성신호의 이득정보를 양자화하는 방법에 있다.
본 발명의 제 14 특징은 프레임의 각 서브프레임에 대한 Gp의 프리벡터 양자화를 각각의 주기음성 프레임에 대하여 실행하고, Gc의 폐루프 지연된 결정 벡터 양자화를 실행하는, 음성신호의 이득정보를 양자화하는 방법에 있다.
본 발명의 제 15 특징은 서브프레임 처리후에 주기음성에 대한 Gc의 폐루프 지연된 결정 벡터 양자화를 실행하는, 음성신호의 이득정보를 양자화하는 방법에 있다.
본 발명의 제 16 특징은 이득정보를 주기음성으로 벡터 양자화하기 위해 필요한 비트의 수를 감축시키는, 음성신호의 이득정보를 양자화하는 방법에 있다.
본 발명의 제 17 특징은 음성신호에 대한 프레임 기반 처리와 모드 종속 서브프레임 처리를 실행하는, 음성신호의 이득정보를 양자화하는 방법에 있다.
본 발명의 제 18 특징은 현재의 서브프레임에 대한 양자화된 피치이득이 현재의 서브프레임에 대한 고정 코드북 여기벡터에 대한 고정코드북을 검색하기 위해 사용될 수 있도록 폐루프 서브프레임 처리에 선행하는 프리벡터 양자화 처리로부터 현재의 서브프레임에 대한 양자화된 피치 이득을 취득하는, 음성신호의 이득정보를 양자화하는 방법에 있다.
본 발명의 제 19 특징은 음성이 주기적이면 폐루프 서브프레임 처리가 시작되기 전에 원래의 비양자화된 가중 음성신호로부터 피치이득을 구하는, 음성신호의 이득정보를 양자화하는 방법에 있다.
본 발명의 제 20 특징은 주기신호와 비주기 신호를 구분하고, 주기신호보다 비주기 신호에 보다 많은 이득 양자화 비트가 할당되는 경우에 이들 주기신호와 비주기 신호에 대해 새로운 이득 양자화 처리를 이용하는, 음성신호의 이득정보를 양자화하는 방법에 있다.
본 발명의 제 21 특징은 주기신호와 비주기 신호를 구분하지 않고 모든 신호에 대하여 새로운 이득 양자화 처리를 이용하는, 음성신호의 이득정보를 양자화하는 방법에 있다.
본 발명의 제 22 특징은 주기신호와 비주기 신호를 구분하고, 주기신호보다 비주기 신호에 보다 많은 이득 양자화 비트가 할당되는 경우에 이들 주기신호와 비주기 신호에 대하여 새로운 이득 양자화를 처리를 이용하는, 음성신호의 이득정보를 양자화하는 방법에 적합한 상술한 특징 중 어느 하나에 있다.
본 발명의 제 23 특징은 주기신호와 비주기 신호를 구분하지 않고 모든 신호에 대하여 새로운 이득 양자화 처리를 이용하는, 음성신호의 이득정보를 양자화하는 방법에 적합한 상술한 특징 중 어느 하나에 있다.
본 발명의 제 24 특징은 상술한 특징들을 개별적으로 또는 일부를 조합한 것에 있다.
본 발명의 다른 특징과 이점 및 신규한 점은 첨부도면과 관련하여 고려해 보았을 때 다음의 바람직한 실시예의 상세한 설명을 통해 보다 분명해 질 것이다.
도 1은 소스 인코더와 소스 디코더를 구비한 음성통신 시스템의 기능블록도
도 2는 도 1의 음성통신 시스템을 보다 상세히 도시한 기능블록도
도 3은 도 1의 음성통신 시스템의 일실시예에 의해 사용되는 소스 인코더의 전형적인 제 1 단인 음성 프리프로세서를 도시한 기능블록도
도 4는 도 1의 음성통신 시스템의 일실시예에 의해 사용되는 소스 인코더의 전형적인 제 2 단을 도시한 기능 블록도
도 5는 도 1의 음성 통신시스템의 일실시예에 의해 사용된 소스 인코더의 전형적인 제 3 단을 도시한 기능블록도
도 6은 비주기 음성을 처리하기 위한 도 1의 음성통신 시스템의 일실시예에 의해 사용되는 소스 인코더의 전형적인 제 4 단을 도시한 기능블록도(모드 0)
도 7은 주기음성을 처리하기 위한 도 1의 음성통신 시스템의 일실시예에 의해 사용되는 소스 인코더의 전형적인 제 4 단을 도시한 기능블록도(모드 1)
도 8은 프레임과 서브프레임을 도시한 블록도
도 9는 적응성 코드북 이득과 고정 코드북 이득을 위한 2차원 코드북의 실시예를 도시한 도면
도 10은 본 발명에 따라 내장된 음성코딩 알고리즘의 실시예의 일례를 비트에 의해 파라미터 할당하는 것을 나타낸 테이블
도 11은 본 발명에 따라 내장된 음성 인코더로부터 코딩된 정보를 처리하는 음성 디코더의 일실시예를 도시한 블록도
도 12a 내지 도 12c는 본 발명에 따라 내장된 음성 인코더의 3개의 다른 실시예를 도시한 도면
우선, 전반적인 음성코딩과 디코딩 알고리즘에 대한 일반적인 설명을 하고 본 발명의 실시예에 대한 상세한 설명을 하기로 한다.
도 1은 통신 시스템의 음성 인코더와 디코더의 일반적인 사용을 설명하는 음성 통신 시스템의 개략 블록도이다. 음성통신 시스템(100)은 통신채널(103)을 가로질러 음성을 송신 및 재생한다. 비록 음성통신 시스템(100)이 예를들면, 와이어, 섬유, 또는 광링크를 포함할 수 있지만, 통신채널(103)은 통상적으로 적어도 부분 적으로는 셀룰러 폰에서 찾아볼 수 있는 바와 같은 공유 대역폭 자원을 필요로 하는 다중 동시 음성교환을 지원해야만 하는 무선주파수 링크를 포함한다.
저장장치는 통신채널(103)에 결합되어 예를들면 자동응답기능, 음성 이메일 등을 실행하기 위해 지연된 재생 또는 녹음재생을 위하여 일시적으로 음성정보를 저장할 수 있다. 이와 유사하게 음성채널(103)은 예를들면 단순히 후속 음성재생을 위한 음성을 기록하거나 저장하는 통신 시스템(100)의 단일 장치에 있는 이러한 저장장치에 의해 대체될 수 있다.
특히, 마이크로폰(111)은 실시간으로 음성신호를 생성한다. 마이크로폰(111)은 음성신호를 A/D(아날로그/디지털) 변환기(115)로 보낸다. A/D 변환기(115)는 아날로그 음성신호를 디지털 형태로 변환하여 디지털화된 음성신호를 음성 인코더(117)에 보낸다.
음성인코더(117)는 복수의 인코딩 모드 중 하나를 이용하여 디지털화된 음성을 인코딩한다. 복수의 인코딩 모드의 각각은 최종 재생된 음성의 품질을 최적화하도록 시도하는 특정기술을 사용한다. 복수의 모드중 어느 하나의 모드에서 동작하는 동안 음성 인코더(117)는 일련의 표본화 및 파라미터 정보(예, "음성 파라미터")를 생성하여 그 음성 파라미터를 선택적 채널 인코더(119)로 보낸다.
선택적 채널 인코더(119)는 채널 디코더(131)와 동일하며 통신채널(103)을 통과하여 음성 파라미터를 보낸다. 채널 디코더(131)는 음성 파라미터를 음성 디코더(133)에 보낸다. 음성 인코더(17)의 모드에 대응하는 모드로 동작하면서 음성 디코더(133)는 가능하면 정확하게 음성 파라미터로부터 원래의 음성을 재생성한다. 음성 디코더(133)는 재생된 음성을 D/A(디지털/아날로그) 변환기(135)로 보내므로 재생된 음성을 스피커(137)를 통해 들을 수 있다.
도 2는 도 1의 전형적인 통신장치를 도시한 기능블록도이다. 통신장치(151)는 음성의 동시 포착과 재생을 위한 음성 인코더와 디코더를 모두 포함한다. 통상적으로 통신장치(151)는 단일 하우징 내에 예를들면, 셀룰러 폰, 휴대폰, 컴퓨터 장치, 또는 다른 통신장치를 포함할 수 있다. 이와 달리, 만약 메모리 소자가 인코딩된 음성정보를 저장하기 위해 구비된다면 통신장치(151)는 응답기, 레코더, 음성메일 시스템, 또는 다른 통신 메모리 장치를 포함할 수 있다.
마이크로폰(155) 및 A/D 변환기(157)는 디지털 음성신호를 인코딩 시스템(159)으로 보낸다. 인코딩 시스템(159)은 음성 인코딩을 실행하여 결과의 음성 파라미터 정보를 통신채널로 보낸다. 전달된 음성 파라미터 정보는 원격지에 있는 다른 통신장치(도시생략)로 향할 수 있다.
음성 파라미터 정보가 수신됨에 따라 디코딩 시스템(165)은 음성 디코딩을 실행한다. 디코딩 시스템은 음성 파라미터 정보를, 아날로그 음성출력이 스피커(169)에서 재생될 수 있게 하는 D/A 변환기(167)로 보낸다. 최종결과는 원래 포착된 음성과 거의 동일한 재생음이다.
인코딩 시스템(159)은 음성 인코딩을 실행하는 음성 처리회로(185)와 선택적 채널 인코딩을 실행하는 선택적 채널처리회로(187)를 포함한다. 유사하게 디코딩 시스템(165)은 음성 디코딩을 실행하는 음성처리회로(189)와 채널 디코딩을 실행하는 선택적 채널처리회로(191)를 포함한다.
비록 음성처리회로(185)와 선택적 채널처리회로(187)를 분리하여 설명하였지만 이들은 부분적으로 또는 전체로서 결합되어 하나의 장치로 될 수 있다. 예컨대, 음성처리회로(185)와 채널처리회로(87)는 단일 DSP(Digital Signal Processor) 및/또는 다른 처리회로를 공유할 수 있다. 유사하게 음성처리회로(189)와 선택적 채널처리회로(191)는 완전히 분리되거나 부분적으로 또는 전체로서 조합될 수 있다. 더욱이, 전체나 부분적으로의 조합은 적절하게 음성처리회로(185, 189), 채널처리회로(187, 191), 처리회로(185, 187, 189, 191) 등으로 적용될 수 있다.
인코딩 시스템(159)과 디코딩 시스템(165)은 모두 메모리(161)를 사용한다. 음성처리회로(185)는 소스 인코딩 처리중에 음성 메모리(177)의 고정 코드북(181)과 적응성 코드북(183)을 사용한다. 유사하게 음성처리 회로(189)는 소스 디코딩 처리 중에 고정 코드북(181)과 적응성 코드북(183)을 이용한다.
예시된 바와 같은 음성메모리(177)가 비록 음성처리회로(185, 189)에 의해 공유되지만, 하나 이상의 음성메모리가 음성처리회로(185, 189)의 각각에 할당될 수 있다. 메모리(161)는 또한 소스 인코딩과 디코딩에 필요한 다양한 기능을 실행하기 위해 처리회로(185, 187, 189, 191)에 의해 사용되는 소프트웨어를 포함한다.
음성코딩의 개선된 실시예를 상세히 설명하기 전에 전반적인 음성 코딩 알고리즘에 대한 개요를 제공하기로 한다. 본 명세서에서 언급되는 개선된 음성 인코딩 알고리즘은 예를들면, CELP 모델에 기초한 eX-CELP(extended CELP) 알고리즘일 수 있다. eX-CELP 알고리즘의 상세는 동일한 양수인인 Conexant Systems, Inc.에 양도되고 참고로 본 명세서에 이미 포함된, Conexant Docket No. 99RSS485로 1999년 9 월 22일 출원된 "4kbits/s 음성코딩"이란 명칭의 미국특허 가출원 제60/155,321호 에 설명되어 있다.
낮은 비트레이트(약 4kbits/s)에서의 톨 품질(toll quality)을 달성하기 위해, 개선된 음성인코딩 알고리즘은 전통적인 CELP 알고리즘의 엄격한 파형정합 기준에서 다소 벗어나 입력신호의 지각적으로 중요한 특징을 포착하도록 노력한다. 그렇게 하기 위해 개선된 음성인코딩 알고리즘은 노이즈형 콘텐트(noise-like content)의 정도, 스파이키형 콘텐트(spiky-like content)의 정도, 유성음 콘텐트의 정도, 무성음 콘텐트의 정도, 크기 스펙트럼의 전개, 에너지 윤곽의 전개, 주기성의 전개 등과 같은 일정한 특징에 따라 입력신호를 분석하고, 이 정보를 이용하여 인코딩 및 양자화 처리 중에 가중을 제어한다. 이 원리는 지각적으로 중요한 특징을 정확하게 나타내고 비교적 큰 에러가 덜 중요한 특징으로 되도록 한다. 결국 개선된 음성 인코딩 알고리즘은 파형정합 대신에 지각적 정합에 초점을 맞춘다. 지각적 정합에 대해 초점을 맞추는 것으로 만족할만한 음성재생을 달성하게 되는데, 이는 4kbit/s에서는 파형정합이 입력신호에 있는 모든 정보를 신뢰성있게 충분히 포착하도록 정확하지 못한다는 가정 때문이다. 결국 개선된 음성 인코더는 개선된 결과를 달성하도록 일부 우선순위의 부여를 실행한다.
하나의 특정 실시예에서, 개선된 음성 인코더는 20밀리초의 프레임 크기 또는 초당 160샘플을 사용하며, 각 프레임은 2 또는 3개의 서브프레임으로 분할된다. 서브프레임의 수는 서브프레임 처리의 모드에 종속된다. 이 특정 실시예에서 음성의 각 프레임에 대하여 모드 0과 모드 1의 두가지 모드중 하나가 선택될 수 있다. 중요하게는 서브프레임이 처리되는 방식이 모드에 종속된다. 이 특정 실시예에서 모드 0은 존속중에 서브프레임 크기가 10밀리초인 프레임당 2개의 서브프레임을 사용하거나 80개의 샘플을 포함한다. 이와 유사하게, 이 실시예에서 모드 1은 존속중에 제 1 및 제 2 서브프레임이 6.625밀리초이거나 53개의 샘플을 포함하고, 제 3 서브프레임이 존속중에 6.75밀리초이거나 54개의 샘플을 포함한다. 양 모드에서 15밀리초의 룩어헤드(look-ahead)가 사용될 수 있다. 모드 0과 모드 1에 있어서 신호의 스펙트럼 엔비로프(spectral envelope)를 나타내도록 10차 선형예측(LP) 모델이 사용될 수 있다. LP 모델은 지연된 결정, 스위칭된 다단 예측벡터 양자화 구조를 이용하여 라인 스펙트럼 주파수(LSF) 도메인으로 코딩될 수 있다.
모드 0은 CELP 알고리즘과 같은 전통적인 음성 인코딩 알고리즘을 동작시킨다. 그러나 모드 0은 모든 음성 프레임에 대하여 사용되지 않는다. 대신에 모드 0은 보다 상세히 후술하는 바와 같이 "주기형(periodic-like)" 음성을 제외한 다른 모든 음성의 프레임을 취급하도록 선택된다. 편의를 위해 "주기형" 음성은 여기에서는 주기음성이라 하며, 모든 다른 음성은 "비주기" 음성이라 한다. 이러한 "비주기" 음성은 피치 상관관계(pitch correlation) 및 피치지연(pitch lag)과 같은 전형적인 파라미터가 급속하게 변화하는 천이프레임(transition frame)과 그 신호가 주로 노이즈형인 프레임을 포함한다. 모드 0은 각 프레임을 2개의 서브프레임으로 나눈다. 모드 0은 피치래그를 서브프레임 당 한번 코딩하고, 피치이득(즉, 적응성 코드북 이득)과 고정 코드북 이득을 서브프레임 당 한번 결합하여 코딩하기 위한 2차원 벡터 양자화기를 구비한다. 이 실시예에서 고정 코드북은 2개의 펄스 서브-코 드북과 하나의 가우시안 서브-코드북을 포함하며, 2개의 펄스 서브-코드북은 각각 2개 및 3개의 펄스를 갖는다.
모드 1은 전통적인 CELP 알고리즘에서 벗어난다. 모드 1은 통상적으로 높은 주기성을 가지며 평활한 피치트랙에 의해 종종 잘 표시되는 주기음성을 포함하는 프레임들을 취급한다. 이 특정 실시예에서 모드 1은 프레임당 3개의 서브프레임을 사용한다. 피치래그는 피치 선처리의 부분으로서 서브프레임 처리에 앞서 프레임당 한번 코딩되며, 보간된 피치구역은 이 래그로부터 유도된다. 서브프레임의 3개의 피치이득은 매우 안정된 작용을 보여주며 폐루프 서브프레임 처리에 앞서 평균 2승 오차기준(mean-squared error criterion)에 기초한 프리벡터 양자화를 이용하여 결합 양자화된다. 비양자화된 3개의 기준피치 이득은 가중음성으로부터 유도되며, 프레임 기반의 피치 선처리의 부산물이다. 미리 양자화된 피치이득을 이용하여 3개의 고정 코드북 이득이 비양자화된 채로 남는 것을 제외하고는 전통적인 CELP 서브프레임 처리가 실행된다. 3개의 고정 코드북 이득은 에너지의 이동평균 예측을 이용하는 지연된 결정방법에 기초한 서브프레임 처리후에 결합 양자화된다. 3개의 서브프레임은 이어서 완전히 양자화된 파라미터와 합성된다.
프레임에 포함된 음성의 분류에 기초하여 음성의 각 프레임에 대한 처리모드가 선택되고 주기음성이 처리되는 방식은 음성의 지각적 품질에 어떠한 심각한 희생을 치루지 않고도 상당히 작은 수의 비트로 이득 양자화를 가능하게 해준다. 이하 이러한 음성처리 방식에 대해 상세히 설명하기로 한다.
도 3 내지 도 7은 도 1 및 도 2에 도시된 음성 인코더의 일실시예에 의해 사 용된 다단 인코딩 방법을 나타낸 기능블록도이다. 특히, 도 3은 다단 인코딩 방법의 제 1단을 포함하는 음성 프리프로세서(193)를 도시한 기능블록도, 도 4는 제 2단을 도시한 기능블록도, 도 5 및 도 6은 제 3단의 모드 0을 도시한 기능블록도, 도 7은 제 3단의 모드 1을 도시한 기능블록도이다. 인코더 처리회로를 포함하는 음성 인코더는 통상적으로 다음의 기능을 실행하는 소프트웨어 명령하에 동작한다.
입력음성은 판독되어 프레임에 버퍼링된다. 도 3의 음성 프리프로세서(193)로 돌아가면, 입력음성(192)의 프레임은 음성의 프레임이 순수한 침묵(silence)인지, 즉 "침묵노이즈(silence noise)"가 존재하는지를 결정하는 침묵 강화기(195)에 제공된다. 음성 강화기(195)는 현재의 프레임이 순수하게 "침묵 노이즈"인지를 프레임 기초로 적절하게 검출한다. 만약 신호(192)가 "침묵 노이즈"이면 음성 강화기(195)는 신호를 신호(192)의 0레벨로 경사지게 한다(ramp). 그렇지 않고 신호(192)가 "침묵 노이즈"가 아니면 음성 강화기(195)는 매우 낮은 레벨의 노이즈에 대하여 깨끗한 음성의 침묵부분을 지우므로 깨끗한 음성의 지각적 품질을 강화한다. 음성 강화기능의 효과는 입력음성이 아로우(A-law) 소스로부터 기원할 때, 즉 입력이 현재의 음성 코딩 알고리즘에 의한 처리 직전에 A-law 인코딩 및 디코딩을 통과하면 특히 현저하게 된다. A-law는 표본값을 약 0(예컨대, -1, 0, +1)에서 -8이나 +8의 샘플값으로 증폭시키므로 A-law에서의 증폭은 들을 수 없는 침묵노이즈를 명확하게 들을 수 있는 노이즈로 변환할 수 있다. 음성 강화기(195)에 의한 처리후에 음성신호는 고역필터(high-pass filter)(197)로 공급된다.
고역필터(197)는 일정한 차단 주파수 이하의 주파수를 제거하여 차단 주파수 보다 높은 주파수만이 노이즈 감쇄기(198)를 통과하게 해준다. 이 특정 실시예에서 고역필터(197)는 ITU-T의 G.729 음성코딩 표준의 입력 고역필터와 동일하다. 즉, 이것은 140Hz의 차단 주파수를 갖는 2차 극제로 필터(pole-zero filter)이다. 물론 고역필터(197)는 이러한 필터를 요구하지는 않으며 당업자에게 알려져 있는 어떠한 적절한 필터로 구성하여도 좋다.
노이즈 감쇄기(199)는 노이즈 억압 알고리즘을 실행한다. 이 특정 실시예에서 노이즈 감쇄기(199)는 음성 인코딩 알고리즘에 의한 파라미터의 평가를 향상시키기 위해 환경 노이즈의 최대 5dB의 약한 노이즈 감쇄를 실행한다. 침묵을 강화하고, 고역필터(197)를 구축하며, 노이즈를 감쇄시키는 특정방법은 당업자에게 알려진 수많은 기술 중 어느 것을 사용해도 좋다. 음성 프리프로세서(193)의 출력은 선처리된 음성(200)이다.
물론 침묵 강화기(195), 고역필터(197) 및 노이즈 감쇄기(198)는 임의의 다른 장치로 대체되거나 당업자에게 알려져 있고 특정한 응용에 적합한 공지의 방식으로 수정될 수도 있다. 도 4를 참조하면, 공통 프레임 기반의 음성신호 처리의 기능블록도가 제공된다. 즉, 도 4는 한 프레임씩을 기초로(frame by frame basis) 음성신호의 처리를 도시하고 있다. 이 프레임 처리는 모드 종속 처리(250)가 실행되기 전에 모드(예를들면, 모드 0 또는 모드 1)에 상관없이 발생한다. 선처리된 음성(200)은 선처리된 음성신호(200)의 계곡영역을 강조하고 피크영역을 강조하지 않도록 작용하는 지각적 가중필터(252)에 의해 수신된다. 지각적 가중필터(252)는 임의의 다른 장치로 대체되거나 또는 당업자에게 공지이며 특정 응용에 적합한 방 식으로 수정될 수 있다.
LPC 분석기(260)는 선처리된 음성신호(200)를 수신하여 음성신호(200)의 단기 스펙트럼 엔비로프를 평가한다. LPC 분석기(260)는 음성신호(200)를 한정하는 특징으로부터 LPC 계수를 추출한다. 하나의 실시예에서 3개의 10차 LPC 분석이 각각의 프레임에 대하여 실행된다. 이들은 프레임의 중간 세 번째, 마지막 세 번째 및 룩어헤드에 집중된다. 룩어헤드에 대한 LPC 분석은 LPC 분석이 프레임의 처음 세 번째 집중될 때 다음 프레임에 대해서도 반복된다. 따라서 각각의 프레임에 대하여 4세트의 LPC 파라미터가 생성된다. LPC 분석기(260)는 또한 LPC 계수의 양자화를 예를들면, 라인 스펙트럼 주파수(LSF) 도메인으로 실행할 수 있다. LPC 계수의 양자화는 스칼라 양자화 또는 벡터 양자화일 수 있으며, 공지방식의 임의의 적절한 방식으로 실행될 수 있다.
분류기(270)는 예를들면 프레임의 절대최대값, 반사계수, 예측에러, LPC 분석기(260)로부터의 LSF 벡터, 10차 자동 상관관계, 최근의 피치래그 및 최근의 피치이득을 조사함으로써 선처리된 음성(200)의 특성에 관한 정보를 취득한다. 이들 파라미터는 당업자에게 공지의 사실이며, 그러한 이유로 더 이상의 설명은 생략한다. 분류기(270)는 신호 대 노이즈 비, 피치 평가, 분류, 스펙트럼 평활화, 에너지 평활 및 이득 정규화의 평가와 같은 인코더의 다른 특징을 제어하기 위해 정보를 사용한다. 이들 특징은 당업자에게 공지의 사실이며 같은 이유로 더 이상의 설명은 생략한다. 이하 분류 알고리즘에 대해 간략히 요약 설명하기로 한다.
피치 프리프로세서(254)로부터의 도움으로 분류기(270)는 프레임의 주된 특 징에 따라 각 프레임을 6개 종류중 하나로 분류한다. 6개 종류는 (1)침묵/배경 노이즈, (2) 노이즈/유사 무성음, (3) 무성음, (4) 천이(온셋(onset)을 포함), (5) 비고정 유성음, (6) 고정 유성음이다. 분류기(270)는 입력신호를 주기신호와 비주기 신호로 분류하기 위한 임의의 방법을 사용할 수 있다. 예컨대, 분류기(270)는 입력 파라미터로서 선처리된 음성신호, 프레임 후반부의 피치래그와 상관관계 및 다른 정보를 취할 수 있다.
음성이 주기적이도록 의도된 것인지를 결정하기 위해 다양한 기준이 사용될 수 있다. 예컨대, 음성은 음성이 고정 유성음 신호이면 주기적인 것으로 간주될 수 있다. 일부 사람은 고정 유성음과 비고정 유성음을 포함하도록 주기음성을 고려할 수 있으나, 본 발명의 목적을 위해 주기음성은 고정 유성음을 포함한다. 더욱이, 주기음성은 평활화 및 고정 유성음이 될 수 있다. 유성음은 음성신호가 프레임 내에서 일정량보다 크게 변화하지 않는다면 고정된 것으로 고려된다. 이러한 음성신호는 보다 유사하게 잘 정의된 에너지 외형을 갖도록 되어 있다. 음성신호는 그 음성의 적응성 코드북 이득 Gp가 임계값보다 크면 음성신호는 평활화된다. 예컨대, 임계값이 0.7이면, 서브프레임의 음성신호는 그 적응성 코드북 이득 Gp가 0.7보다 크면 평활화된 것으로 고려된다. 비주기 음성 또는 무성음은 무성음(예, "쉬(shhh)" 등과 같은 마찰음), 천이(transition)(예, 온셋(onset), 오프셋(offset)), 배경노이즈 및 침묵을 포함한다.
보다 구체적으로 예시의 실시예에서 음성 인코더는 초기에 다음의 파라미터로부터 유도된다.
스펙트럼 틸트(spectral tilt)(프레임 당 제 1 반사계수 4배의 평가)
Figure 112002038017881-pct00001
여기에서 L=80은 반사계수가 계산된 윈도우이며, sk(n)은 다음의 수학식에 의해 주어진 kth 세그먼트이다.
Figure 112005035366440-pct00069
여기에서 wh(n)은 80개 샘플의 해밍윈도우이고 s(0), s(1), ... s(159)는 선처리된 음성신호의 현재 프레임이다.
절대 최대값(절대신호 최대값의 트랙킹, 프레임당 8회 평가)
Figure 112005035366440-pct00070
여기에서, ns(k)와 ne(k)는 프레임의 시간 k·160/8 샘플에서 kth 최대값의 검색에 대한 각각 시작점과 종료점이다. 일반적으로 세그먼트의 길이는 피치주기와 세그먼트 중첩의 1.5배이다. 따라서 크기 엔비로프의 평활한 윤곽이 얻어질 수 있다.
스펙트럼 틸트, 절대최대값, 및 피치 상관 파라미터는 분류를 위한 기초를 형성한다. 그러나 파라미터의 추가적인 처리와 분석은 분류결정에 앞서 실행된다. 파라미터 처리는 초기에는 3개의 파라미터에 가중을 가한다. 어떤 의미에서 가중은 배경노이즈에서 그 기여를 제함으로서 파라미터에서 배경 노이즈 성분을 제거한다. 이것은 어떠한 배경 노이즈로부터도 "독립"인 파라미터 스페이스(parameter space)를 제공하므로, 보다 균일하고 배경노이즈에 대한 분류의 강고함을 향상시킨다.
노이즈의 피치주기 에너지, 노이즈의 스펙트럼 틸트, 노이즈의 절대 최대값, 및 노이즈의 피치 상관관계의 평균을 구하는 것은 다음의 수학식 4 내지 수학식 7에 따라 프레임 당 8회 갱신된다. 수학식 4 내지 수학식 7에 의해 정의된 다음의 파라미터는 프레임당 8회 평가/샘플화되어 파라미터 스페이스의 정밀한 시간 해법을 제공해준다.
노이즈의 피치주기 에너지의 평균은 다음의 수학식 4로 구한다.
Figure 112005035366440-pct00071
여기에서 EN,P(k)는 프레임의 시간 k·160/8 샘플에서 피치주기의 정규화된 에너지이다. 에너지가 계산되는 세그먼트는 피치주기가 통상적으로 20개의 샘플을 초과(160샘플/8)하기 때문에 중첩될 수 있다.
노이즈의 스펙트럼 틸트의 평균은 다음의 수학식 5로 구한다.
Figure 112005035366440-pct00072
노이즈의 절대최대값의 평균은 다음의 수학식 6으로 구한다.
Figure 112005035366440-pct00073
노이즈의 피치 상관관계의 평균은 다음의 수학식 7로 구한다.
Figure 112005035366440-pct00074
여기에서 Rp는 프레임의 후반부에 대한 입력 피치 상관관계이다. 적응상수 α1은 비록 통상적인 값이 α1=0.99이지만 적응성이다.
신호에 대한 배경노이즈의 비는 다음의 수학식 8에 따라 계산된다.
Figure 112002038017881-pct00002
파라미터 노이즈 감쇄는 30dB로 제한된다. 즉 다음의 수학식 9에 의해 정해진다.
Figure 112005035366440-pct00075
파라미터(가중 파라미터)의 노이즈 없는 세트는 다음의 수학식 10 내지 수학식 12에 따라 노이즈 성분을 제거함으로써 구해진다.
가중된 스펙트럼 틸트의 평가는 다음의 수학식 10으로 구한다.
Figure 112005035366440-pct00076
가중된 절대최대값의 평가는 다음의 수학식 11로 구한다.
Figure 112005035366440-pct00077
가중된 피치 상관관계의 평가는 다음의 수학식 12로 구한다.
Figure 112005035366440-pct00078
가중된 틸트 및 가중된 최대값의 전개는 제1차 개산(approximation)의 슬로프(slope)로서 다음의 수학식 13 및 수학식 14에 따라 각각 계산된다.
Figure 112002038017881-pct00003
Figure 112002038017881-pct00004
일단 수학식 4 내지 수학식 14의 파라미터가 프레임의 8개 샘플의 지점에 대하여 갱신되면 다음의 프레임 기반 파라미터가 수학식 4 내지 수학식 14로부터 계산된다.
최대가중 피치상관관계는 다음의 수학식 15로 구한다.
Figure 112002038017881-pct00005
평균가중 피치 상관관계는 다음의 수학식 16으로 구한다.
Figure 112002038017881-pct00006
평균가중 피치 상관관계의 평균은 다음의 수학식 17로 구한다.
Figure 112002038017881-pct00007
여기에서 m은 프레임 수이고, α2=0.75는 적응상수이다.
피치래그의 정규화된 표준편차는 다음의 수학식 18로 구한다.
Figure 112002038017881-pct00008
여기에서 Lp(m)은 입력피치 래그이며, μLp(m) 는 과거의 3개 프레임에 대한 피치래그의 평균이고 다음의 수학식 19로 구한다.
Figure 112002038017881-pct00009
최소 가중 스펙트럼 틸트는 다음의 수학식 20으로 구한다.
Figure 112002038017881-pct00010
최소가중 스펙트럼 틸트의 평균은 다음의 수학식 21로 구한다.
Figure 112002038017881-pct00011
평균 가중 스펙트럼 틸트는 다음의 수학식 22로 구한다.
Figure 112002038017881-pct00012
가중 틸트의 최소 슬로프는 다음의 수학식 23으로 구한다.
Figure 112002038017881-pct00013
가중 스펙트럼 틸트의 누적 슬로프는 다음의 수학식 24로 구한다.
Figure 112002038017881-pct00014
가중 최대값의 최대 슬로프는 다음의 수학식 25로 구한다.
Figure 112002038017881-pct00015
가중 최대값의 누적 슬로프는 다음의 수학식 26으로 구한다.
Figure 112002038017881-pct00016
수학식 23, 25 및 26으로 주어진 파라미터는 프레임이 온셋을 포함하는지의 여부를 표시하기 위해 사용되고, 수학식 16 내지 18 및 수학식 20 내지 22로 주어진 파라미터는 프레임이 유성음에 의해 지배되는지의 여부를 표시하기 위해 사용된다. 초기의 표시, 과거의 표시 및 다른 정보에 기초하여 프레임은 6개 종류중 하나로 분류된다.
분류기(270)가 선처리된 음성(200)을 분류하는 방식에 대한 보다 상세한 설명은 동일한 양수인인 Conexant Systems, Inc.에 양도되고 참고로 본 명세서에 이미 포함된, Conexant Docket No. 99RSS485로 1999년 9월 22일 출원된 "4kbits/s 음성코딩"이란 명칭의 미국특허 가출원 제60/155,321호에 기재되어 있다.
LSF 양자화기(267)는 LPC 분석기(260)로부터 LPC 계수를 수신하여 LPC 계수를 양자화한다. 스칼라 양자화와 벡터 양자화를 포함하는 임의의 공지의 양자화 방법일 수도 있는 LSF 양자화의 목적은 보다 소수의 비트로 계수를 나타내기 위한 것이다. 이 특정 실시예에서, LSF 양자화기(267)는 10차 LPC 모델을 양자화한다. LSF 양자화기(267)는 또한 LPC 합성필터의 스펙트럼 엔비로프에서의 원하지 않는 변동을 감축시키기 위해 LSF 중에서 평활화할 수 있다. LSF 양자화기(267)는 양자화된 계수 Aq(z)(268)를 음성 인코더의 서브프레임 처리부(250)로 보낸다. 음성 인코더 의 서브프레임 처리부는 모드 종속이다. LSF가 바람직하지만 양자화기(267)는 LPC 계수를 LSF 도메인 보다는 다른 도메인으로 양자화할 수 있다
피치 선처리가 선택되면 가중 음성신호(256)는 피치 프리프로세서(254)로 보내진다. 피치 프리프로세서(254)는 가중음성(256)을 수정하기 위해 개루프 피치 평가기(272)와 연동하므로 그 피치정보는 보다 정확하게 양자화될 수 있다. 피치 프리프로세서(254)는 예컨대 음성인코더의 능력을 개선시키기 위해 피치 사이클에 공지의 압축 또는 확장 기술을 사용하여 피치이득을 양자화한다. 즉, 피치 프리프로세서(254)는 보다 잘 평가된 피치트랙을 정합시키기 위해 가중 음성신호(256)를 수정하므로 지각적으로 현저한 재생 음성을 생성하면서 보다 정확하게 코딩 모델을 맞춘다. 인코더 처리회로가 피치 선처리 모드를 선택하면 피치 프리프로세서(254)는 가중 음성신호(256)의 피치 선처리를 실행한다. 피치 프리프로세서(254)는 디코더 처리회로에 의해 생성될 보간된 피치값을 정합시키기 위해 가중 음성신호(256)를 왜곡시킨다(warp). 피치 선처리가 가해지면 왜곡된 음성신호는 수정된 가중 음성신호(258)로서 간주된다. 피치 선처리 모드가 선택되지 않으면 가중 음성신호(256)는 피치 선처리없이 피치 프리프로세서(254)를 통과한다(편의상 "수정된 가중 음성신호"(258)라 함). 피치 프리프로세서(24)는 그 기능과 내용이 당업자에게 알려져 있는 파형 보간기를 포함할 수 있다. 파형 보간기는 음성신호의 규칙성을 강화하고 불규칙성을 억제하기 위해 공지의 전후방 파형 보간기술을 이용하여 일정한 불규칙 천이 세그먼트를 수정할 수 있다. 가중신호(256)에 대한 피치 이득 및 피치 상관관계는 피치 프리프로세서(254)에 의해 평가된다. 개루프 피치 평 가기(272)는 가중음성(256)으로부터 피치특성에 관한 정보를 추출한다. 피치정보는 피치래그와 피치이득 정보를 포함한다.
피치 프리프로세서(254)는 또한 개루프 피치 평가기(272)를 통해 분류기(270)와 상호작용하여 음성신호의 분류기(270)에 의해 분류를 정제한다. 피치 프리프로세서(254)는 음성신호에 관한 추가적인 정보를 취득하기 때문에 음성신호의 분류를 정밀하게 튜닝하기 위해 추가적인 정보가 분류기(270)에 의해 사용될 수 있다. 피치 선처리를 실행한 후, 피치 프리프로세서(254)는 피치 트랙 정보(284)와 비양자화 피치이득(286)을 음성인코더의 모드종속 서브프레임 처리부(250)에 출력한다.
일단 분류기(270)가 선처리된 음성(200)을 복수의 가능한 등급 중 하나로 분류하면, 선처리된 음성신호(200)의 분류 번호는 제어정보(280)로서 모드 선택기(274)와 모드 종속 서브프레임 프로세서(250)에 보내진다. 모드 선택기(274)는 동작모드를 선택하도록 분류번호를 사용한다. 이 특정 실시예에서 분류기(270)는 선처리된 음성신호(200)를 6개의 가능한 종류 중 하나로 분류한다. 선처리된 음성신호(200)가 고정 유성음(예컨대, "주기" 음성이라 함)이면 모드 선택기(274)는 모드(282)를 모드 1로 설정한다. 그렇지 않으면 모드 선택기(274)는 모드(282)를 모드 0으로 선택한다. 모드신호(282)는 음성인코더의 모드종속 서브프레임 처리부(250)로 보내진다. 모드정보(282)는 디코더로 전송된 비트스트림에 부가된다.
음성을 "주기"와 "비주기"로 라벨링하는 것은 이 특정 실시예에서는 어느 정 도 주의를 기울여야 하는 것으로 해석되어야 한다. 예컨대, 모드 1을 이용하여 인코드된 프레임은 프레임 당 7비트 만으로 유도된 피치 트랙(284)에 기초하여 프레임 전부에 높은 피치 상관관계와 높은 피치이득을 유지하는 것들이다. 결국 모드 1보다 모드 0의 선택은 7비트만으로는 피치트랙(284)을 부정확하게 표시하기 때문일 수 있고 필연적으로 주기성의 부재 때문인 것이 아닐 수 있다. 그러므로 모드 0을 이용하여 인코드된 신호는 비록 피치트랙에 대하여 프레임 당 7비트만으로 잘 표시되지 않을 수 있지만 주기성은 매우 잘 포함할 수 있다. 따라서 모드 0은 피치트랙을 보다 적절하게 나타내기 위해 프레임 당 총 14비트에 대하여 프레임 당 7비트로 2회 피치트랙을 인코드한다.
본 명세서에서 도 3 및 도 4와 다른 도면의 각 기능블록은 별개의 구조로 될 필요는 없으며, 필요에 따라 하나 또는 그 이상의 기능블록과 조합될 수 있다.
음성인코더의 모드종속 서브프레임 처리부(250)는 모드 0과 모드 1의 두가지 모드로 동작한다. 도 5 및 도 6은 모드 0 서브프레임 처리의 기능블록도를 제공하고, 도 7은 음성인코더의 제 3단 의 모드 1 서브프레임 처리의 기능블록도를 도시한다.
다시 도 5를 참조하면 적응성 코드북(290)으로부터 선택된 여기벡터(291)는 승산기(294)로 보내지며, 여기에서 여기벡터는 양자화된 피치이득 Gp와 승산되어 이득 스케일된 적응성 코드북 기여(293)를 생성한다. 유사하게, 고정 코드북(292)으로부터 선택된 여기벡터(295)는 승산기(296)로 보내지며, 여기에서 여기벡터는 양자화된 고정 코드북 이득 Gc와 승산되어 이득 스케일된 고정 코드북 기여(297)를 생성한다. 이득 스케일된 적응성 코드북 기여(293)와 이득 스케일된 고정 코드북 기여(297)는 가산기(298)에 의해 가산되어 가산된 신호(299)를 생성한다. 가산된 신호(299)는 양자화된 LPC 분석을 반전하는 기능을 실행하는 합성필터(298)에 의해 처리된다. 유사하게 가중필터(303)는 지각적 가중필터(252)를 반전하는 기능을 실행한다. 즉, 합성필터(301)와 가중필터(303)는 가산된 신호(299)로부터 음성신호(304)를 재합성하도록 작용한다. 양자화 정보로부터 유도된 가산신호9299)를 이용함으로써 합성필터(301)와 가중필터(303)는 음성신호, 즉 재합성된 음성신호(304)의 복제신호를 생성하도록 시도한다. 이상적으로 재합성된 음성신호(304)는 타겟신호(예를들면, 수정된 가중신호(258))와 정확하게 동일하다. 그러나 양자화의 효과 때문에 재합성된 음성신호(304)는 타겟 수정된 가중신호(258)와 정확하게 동일하지는 않다. 적응성 코드북 이득 Gp와 고정 코드북 이득 Gc의 양자화의 에러를 최소화하기 위해 도 5의 모드 0 서브프레임 프로세서는 수정된 가중신호(258)로부터 재합성된 음성신호(304)를 감산함으로써 에러를 결정한다. 본질적으로 감산기(309)는 수정된 가중신호(258)로부터 재합성된 음성신호(304)를 감산하여 에너지 신호(307)를 생성한다. 최소화기(300)는 피치기여의 양자화시 에러를 나타내는 신호(307)를 수신한다. 신호(307)에 기초하여 최소화기(300)는 에러를 줄이기 위해 적응성 코드북(290)과 고정 코드북(292)으로부터 여기벡터의 선택을 제어한다. 이 프로세스는 최소화기(300)가 각각의 서브프레임에 대하여 재합성된 음성신호(304)에서 에러를 최소화하는 적응성 코드북(290) 및 고정 코드북(292)으로부터 최선의 여기벡터를 선택할 때까지 반복된다. 물론, 합성필터(301), 가중필터(303) 및 최소화기(300)는 임의의 다른 장치로 대체되거나 당업자에게 알려지고 특정한 응용에 적합한 공지의 방식으로 수정될 수 있다.
도 5에서 점선으로 표시한 박스(288)에 도시된 바와 같이, 적응성 및 고정 코드북 이득은 결합하여 벡터 양자화된다. 이 특정 실시예에서 적응성 및 고정 코드북 이득은 G.729에 규정된 방법에 따라 서브프레임당 7비트로 결합하여 벡터양자화된다. 적응성 및 고정 코드북 이득을 결합 양자화하기 위해 사용되는 2차원 코드북은 타겟 음성신호(258)와 재구성된 음성신호(304) 사이의 평균 2승 오차를 최소화하는 엔트리에 대하여 철저하게 검색된다. 최소화는 다음의 수학식 27로 구한다.
Figure 112002038017881-pct00017
여기에서 양자화된 적응성 및 고정 코드북 이득은 7비트 코드북으로부터 유도된다. 코드북이 적응성 코드북 이득과 고정 코드북 이득을 포함하게 하는 것 보다 코드북은 적응성 코드북 이득과 예측된 고정코드북 이득(고정 코드북 이득을 나타냄)에 대한 상관계수를 포함할 수 있다. 고정 코드북의 예측은 고정코드북 에너지의 2차 이동평균 예측에 기초한다. 상관계수 γk와 양자화된 고정 코드북 이득 사이의 관계는
Figure 112002038017881-pct00018
이고, 여기에서
Figure 112002038017881-pct00019
는 양자화된 고정 코드북 이득이고,
Figure 112002038017881-pct00020
는 예측된 고정 코드북 이득이다. 예측된 고정 코드북 이득은 다음의 수학식 28로 주어진다.
Figure 112002038017881-pct00021
여기에서
Figure 112002038017881-pct00022
=30dB은 평균에너지이고, Ec와
Figure 112002038017881-pct00023
는 다음의 수학식 29 및 30으로 각각 주어진다.
Figure 112002038017881-pct00024
Figure 112002038017881-pct00025
이동평균 예측의 예측계수는 {b1b2}={0.6, 0.3}이다. 서브프레임을 처리하는 모드 0 방식은 당업자에게 알려져 있으며 공지의 방식으로 적절하게 수정될 수 있다.
도 6은 도 5의 모드 0 서브프레임 프로세서의 보다 상세한 블록도를 도시한다. 도 6에서는 3가지의 분명한 단계가 발생한다. 제 1 단계는 합성에 의한 분석방법에 의해 적응성 코드북(299)으로부터 최선의 여기벡터 Vp를 선택하기 위한 것이다. 피치 프리프로세서(24)로부터의 피치 트랙정보(284)는 적응성 코드북(290)으로부터 초기 여기벡터를 선택하기 위해 사용된다. 승산기(406)는 이득 코드북(460)으로부터 양자화된 적응성 코드북 이득 Gp를 여기벡터(402)에 승산하고, 승산된 신호(404)를 합성필터(408)에 보낸다. 합성필터(408)는 LSF 양자화기(267)로부터 양자화된 LPC 계수 Aq(z)(268)를 수신하여 지각적 가중필터(410)와 함께 재합성된 음성신호(414)를 생성한다. 감산기(412)는 타겟 수정된 가중신호(258)로부터 재합성된 음성신호(414)를 감산하여 신호(416)를 생성한다. 최소화기(420)는 적응성 코드북 이득을 양자화할 때 에러를 나태내는 신호(416)를 수신한다. 최소화기(420)는 에러를 줄이기 위해 적응성 코드북(290)으로부터 여기벡터의 선택을 제어한다. 이 과정은 최소화기(420)가 재합성된 음성신호(414)에서의 에러를 최소화하는 각각의 서브프레임에 대하여 적응성 코드북(290)으로부터 최선의 여기벡터를 선택할 때까지 반복된다. 적응성 코드북(290)으로부터 최선의 피치기여를 선택한 후의 이 잔류신호(416)는 피치기여보다 덜한 수정된 가중 음성신호(258)이다. 이 잔류신호(416)는 재합성된 음성신호(436)에서의 에러를 최소화하는 고정 코드북(292)으로부터 최선의 여기벡터를 선택하는 제 2 단계에 사용된다.
이하, 제 2 단계에 대해 보다 상세히 설명하기로 한다. 여기벡터는 고정 코드북(292)으로부터 선택된다. 승산기(427)는 이득 코드북(460)으로부터 양자화된 고정 코드북 이득 Gc를 여기벡터(425)에 승산하고, 승산된 신호(428)를 합성필터(430)에 보낸다. 합성필터(430)는 LSF 양자화기(267)로부터 양자화된 LPC 계수 Aq(z)(268)를 수신하여 지각적 가중필터(434)와 함께 재합성된 음성신호(436)를 생성한다. 감산기(440)는 타겟 신호(예를들면 신호(416))로부터 재합성된 음성신호(436)를 감산하여 제2 잔류신호(438)를 생성한다. 최소화기(444)는 고정 코드북 이득을 양자화할 때 에러를 나태내는 신호(438)를 수신한다. 최소화기(444)는 에러를 줄이기 위해 고정 코드북(292)으로부터 여기벡터의 선택을 제어한다. 최소화기(444)는 제어정보(280)(음성신호의 분류번호를 포함함)를 수신하고, 그 분류에 따라 고정 코드북(292)으로부터 여기벡터의 선택을 제어하는 방법을 변경한다. 이 과정은 최소화기(424)가 재합성된 음성신호(436)에서의 에러를 최소화하는 각각의 서브프레임에 대하여 고정 코드북(292)으로부터 최선의 여기벡터를 선택할 때까지 반복된다. 여기에서 모드 0 동작을 가정하였기 때문에 모드 0 서브프레임 프로세서는 적응성 코드북(290)과 고정 코드북(292)으로부터 최선의 여기벡터가 구해진다.
이하, 도 6의 모드 0 서브프레임 프로세서에 의해 실행되는 제 3 단계에 대해 설명하기로 한다. 여기에서 적응성 및 고정 코드북에 대한 최선의 여기벡터가 구해진다. 이들 각각의 이득은 결합 벡터 양자화된다. 적응성 코드북 이득과 고정 코드북 이득의 결합 벡터 양자화를 나타내는 이득 코드북 벡터는 2차원 벡터 양자화 이득 코드북(460)으로부터 선택되어 승산기(266, 268)로 보내진다. 승산기(466)는 적응성 코드북으로부터 최선의 여기벡터 Vp(402)를 양자화된 적응성 코드북 이득 Gp(462)에 승산하여 신호(446)를 형성한다. 승산기(468)는 고정 코드북으로부터 최선의 여기벡터 VC(425)를 양자화된 고정 코드북 이득 Gc(424)에 승산하여 신호(448)를 형성한다. 선택된 여기벡터 Vp(402)와 Vc(425)는 모드 0 서브프레임 처리의 제 1 및 제 2 단계 중에 최선의 여기값으로서 구해진 것임에 주목하라. 가산기(480)는 신호(446)와 신호(448)를 가산하여 가산된 신호(450)를 형성한다. 가산된 신호(450)는 합성필터(482)와 지각적 가중필터(486)의 조합에 의해 재합성되어 재합성된 음성신호(454)를 형성한다. 합성필터(408, 430)와 함께 합성필터(482)는 LPC 계수 Aq(z)(268)를 수신한다. 감산기(512)는 타겟 수정된 가중 음성신호(258)로부터 재합성된 음성신호(454)를 감산하여 제 3 잔류신호(456)를 생 성한다. 최소화기(520)는 2차원 벡터 양자화 이득 코드북(460)에 의해 고정 코드북 이득과 적응성 코드북 이득의 결합 양자화로부터 결과되는 에러를 나타내는 제 3 신호를 수신한다. 최소화기(520)는 에러를 줄이기 위해 신호(456)를 이용하여 2차원 벡터 양자화 이득 코드북(460)으로부터 여기벡터의 선택을 제어한다. 이 과정은 최소화기(520)가 재합성된 음성신호(454)에서의 에러를 최소화하는 각각의 서브프레임에 대하여 2차원 벡터 여기 이득 코드북(460)으로부터 최선의 여기벡터를 선택할 때까지 반복된다. 일단 에러가 최소화되면 2차원 벡터여기 이득 코드북(460)으로부터의 양자화된 이득 Gp 및 Gc는 도 5의 승산기(294, 296)에 의해 사용된다.
다시 합성필터(408, 430, 482), 가중필터(410, 434, 486), 최소화기(420, 430, 520), 승산기(406, 427, 468), 가산기(480), 및 감산기(412, 440, 512)(또한, 본 명세서에서 설명하는 임의의 다른 필터, 최소화기, 승산기, 가산기 및 감산기)는 임의의 다른 장치로 대체되거나 당업자에게 알려진 방식으로 또 특정한 응용에 적합한 방식으로 수정될 수 있다.
모드 0 서브프레임 처리에 대해 보다 상세히 설명하였고, 모드 1 서브프레임 처리에 대해 설명하기로 한다. 도 7은 모드 종속 서브프레임 프로세서(250)의 모드 1 서브프레임 프로세서부의 기능블록도이다. 피치트랙(284)은 적응성 코드북(290)으로부터 적응성 코드북 이득 벡터(588)를 선택한다. 적응성 코드북 기여는 과거의 여기와 피치 프리프로세서(254)로부터의 피치트랙(284)에 기초하며, 코드북(290)을 통한 검색을 필요하지 않다. 프리프로세서(254)로부터의 보간된 피치트랙 Lp(N)에 따라 적응성 코드북 여기의 각 샘플값은 21차 해밍 가중된 싱크 윈도우(Sinc window)를 이용하여 과거 여기의 보간에 의해 획득된다.
Figure 112002038017881-pct00026
여기에서 e(n)은 과거 여기이고, i(Lp(n))과 f(Lp(n))은 각각 정수 및 피치래그의 분수부분이며, ws(f,i)는 해밍 가중된 싱크 윈도우이다. 피치이득에서의 선택적 가중 평균 2승 오차는 원래음성과 재구성된 음성 사이의 가중평균 2승 오차를 최소화하기 위해 다음의 수학식 32에 따라 평가된다.
Figure 112002038017881-pct00027
여기에서 g는 0.0≤g≤1.2의 범위로 정해진다. 수학식 32에서 N은 프레임 당 서브프레임의 변수이다. 비양자화된 피치이득은 다음의 수학식 33의 최적의 피치이득의 가중에 따라 계산된다.
Figure 112002038017881-pct00028
여기에서 정규화된 교차 상관관계(cross-correlation)는 다음의 수학식 34로 주어진다.
Figure 112002038017881-pct00029
이 가중은 고정 코드북 검색에 앞서 고정 코드북 검색에 대한 타겟신호의 보다 많은 피치정보를 남겨두면서 적응성 코드북으로부터 피치기여의 중요성을 줄인다.
음성인코더의 프레임 기반 처리부로부터 비양자화된 피치이득(286)은 n차원프리벡터 양자화기(580)에 제공된다. 예를들어, 만약 각각의 프레임이 3개의 서브프레임으로 분할되면 n-차원 벡터양자화기(580)는 벡터 양자화된 피치이득(582)를 승산기(592)에 출력하는 3차원 벡터양자화기이다. 승산기(592)는 적응성 코드북 이득 벡터(588)에 양자화된 피치 이득 벡터(582)를 승산하여 그 결과(584)를 합성필터(600)에 송신한다. 합성필터(600)는 또한 LSF 양자화기(267)로부터 양자화된 LPC 계수 Aq(z)를 수신하여 그 출력(586)을 지각적 가중필터(602)에 보낸다. 합성필터(600)와 지각적 가중필터(602)는 감산기(604)에 의해 수정된 가중 음성신호(258)로부터 감산된 재합성된 음성신호(587)를 생성한다. 그리고 차신호(589)는 다른 감산기(614)로 보내진다.
고정 코드북(292)은 고정 코드북 이득 벡터(590)를 승산기(594)로 송신한다. 승산기(594)는 고정 코드북 이득벡터(590)에 계산된 고정 코드북 이득벡터 gc k를 승산한다. 승산된 신호(595)는 합성필터(610)로 송신된다. 합성필터(610)는 또한 양자화된 LPC 계수 Aq(z)를 수신하여 그 출력(596)을 지각적 가중필터(612)에 보낸 다. 아울러 합성필터(610)와 지각적 가중필터(612)는 감산기(614)에 의해 차신호(589)로부터 감산된 합성된 음성신호(597)를 생성하여 다른 차신호(599)를 생성한다. 차신호(589)는 적응성 코드북 이득을 양자화할 때의 에러를 나타내고, 차신호(599)는 고정 코드북 이득을 양자화할 때의 에러를 나타낸다. 차신호(599)는 에러를 줄이기 위해 고정 코드북(292)으로부터의 여기벡터의 선택을 제어하는 최소화기(620)에 의해 수신된다. 최소화기는 또한 음성 인코더의 프레임 기반 처리부로부터 제어정보(280), 즉 프레임의 분류번호를 수신한다. 보다 구체적으로, 이 실시예에서 고정 코드북(292)은 3개의 서브펄스 코드북, 즉 2펄스 코드북, 3펄스 코드북 및 6펄스 코드북을 갖는다. 고정 코드북(292)에 대한 초기 타겟은 제거된 제로응답, 즉 적응성 코드북(290)에 대한 타겟, 및 최적의 적응성 코드북 여기와 다음의 수학식 35에 따른 이득과 함께 가중된 선처리 음성(258)으로부터 계산된다.
Figure 112005035366440-pct00079
고정 코드북 여기의 선택은 분류(280)에 따라 적절한 가중을 행한 후 고정 코드북(292)의 서브코드북의 각각으로부터 최선의 후보자의 가중평균 2승 오차(599)를 비교하는 것을 포함한다. 최종 고정코드북 여기는
Figure 112002038017881-pct00030
또는 vc(n)으로 표시한다.
고정 코드북 이득 벡터 선택과정은 최소화기(620)가 재합성된 음성신호(597)의 에러를 최소화하는 각각의 서브프레임에 대한 고정 코드북(292)으로부터 최선의 여기벡터를 선택할 때까지 반복된다. 고정 코드북(292)으로부터 최선의 여기벡터를 선택한 후, 선택된 적응성 코드북 이득벡터(588)와 선택된 고정 코드북 이득벡터(590)는 수정된 가중 음성신호(258)와 함께 버퍼(642)로 보내진다.
모드 1에서, 프레임은 n개의 서브프레임으로 분할되고, 이 특정 실시예에서 n은 3이다. 박스 577에서 실행되는 처리는 서브프레임 기반으로 실행되며 인덱스 k는 서브프레임 수를 나타낸다. 박스 외부의 나머지 기능은 프레임 기반으로 실행된다. 서브프레임과 프레임 기반의 처리가 혼합된 결과로서 다른 기능이 종료될 때까지 일정한 기능은 완성될 수 없다. 결국, n개(예, 3개)의 서브프레임에 대한 일정한 파라미터는 서브프레임과 프레임 기반의 처리 사이의 경계에서 버퍼(642)에 저장되어야만 한다. 버퍼링된 파라미터는 예를들면 미리 양자화된 피치이득, 양자화된 적응성 및 고정 코드북 벡터, 타겟 벡터 및 기타 다른 파라미터를 포함할 수 있다. 버퍼링된 정보는 감산기(644)로 보내진다.
n 개의 적응성 코드북 이득벡터(660)는 승산기(664)에 의해 n 개의 피치 이득벡터가 승산되어 승산된 신호(666)를 생성한다. 승산된 신호(666)는 가산기(670)로 보내진다. n 차원 벡터 양자화기 이득 코드북(680)은 승산기(684)에 의해 고정코드북 이득벡터가 승산되는 양자화된 고정 코드북 이득벡터를 제공한다. 승산된 신호(668)는 가산기(670)에 보내진다. 가산기(670)는 가산신호(669)를 합성필터(690)에 보낸다. 합성필터(690)는 양자화된 LPC 계수 Aq(z)(268)를 수신한다. 합성필터(690)와 지각적 가중필터(694)는 재합성된 음성신호(696)를 함께 생성하도록 작용한다. 재합성된 음성신호(696)는 감산기(64)에 의해 수정된 가중 음성 신호(258)로부터 감산된다. 고정 코드북 이득벡터를 양자화할 때 에러를 나타내는 차신호(698)는 최소화기(678)로 보내진다. 최소화기(678)는 에러를 최소화하기 위해 n-차원 벡터양자화기(680)로부터 다른 고정 코드북 이득벡터를 선택한다.
특별히 이 실시예에서는 피치 선처리 도중에 유도된 3개의 피치이득이 다음의 수학식 36에 따라 4비트 3차원 벡터 양자화기와 함께 프리벡터 양자화된다.
피치이득의 이 프리벡터 양자화는 폐루프 서브프레임 처리가 시작되기 전에 발생한다. 모드 1의 서브프레임 처리는 비양자화된 고정 코드북 이득과 함께 실행된다. 여기 이득벡터(588, 590)와 타겟 신호는 서브프레임 처리 중에 버퍼(642)에 버퍼링되며, 8비트 벡터 양자화기(680)로 3개의 고정 코드북 이득의 지연된 결합 양자화를 실행하기 위해 사용된다. 각각의 서브프레임에 대한 최선의 코드북 이득벡터
Figure 112002038017881-pct00032
,
Figure 112002038017881-pct00033
는 버퍼(642)에 저장된다.
음성 인코더와 디코더를 완전히 동기화하고 필터(600, 610)의 필터 메모리를 정확하게 갱신하기 위하여 일단 3개의 고정 코드북 이득의 지연된 벡터 양자화가 완료되면 모든 서브프레임에 대한 합성이 완전히 양자화된 파라미터와 함께 반복된다.
n-차원 코드북(680)(여기에서, n=3)이 최소화를 위해 검색된다.
Figure 112002038017881-pct00034
Figure 112002038017881-pct00035
여기에서 L1, L2 및 L3은 모드 1에서 각 서브프레임의 길이이다. 양자화된 피치이득{
Figure 112005035366440-pct00036
,
Figure 112005035366440-pct00037
,
Figure 112005035366440-pct00038
}은 원래의 프레임 기반 처리로부터 시작하며, {t1(n),t2(n),t3(n)},
Figure 112005035366440-pct00080
은 서브프레임 처리중에 버퍼링된다. 여기에서 첨자는 첫 번째, 두 번째, 세 번째 서브프레임을 나타낸다(지수가 아님).
최선의 고정 코드북 이득 {
Figure 112002038017881-pct00039
,
Figure 112002038017881-pct00040
,
Figure 112002038017881-pct00041
}은 8비트 코드북(680)으로부터 선택되며, 여기에서 코드북 엔트리는 예측된 고정 코드북 이득에 대한 3차원 보정계수를 포함한다. 고정 코드북 이득의 예측은 고정 코드북 에너지의 이동 평균 예측에 기초한다.
보정계수
Figure 112005035366440-pct00081
와 양자화된 고정 코드북 이득 사이의 관계는 다음의 수학식으로 주어진다.
Figure 112005035366440-pct00082
여기에서
Figure 112002038017881-pct00045
는 양자화된 고정 코드북 이득이고,
Figure 112002038017881-pct00046
는 프레임 k의 j번째 서브프레임의 예측된 고정 코드북 이득이다.
예측된 고정 코드북 이득은 다음의 수학식으로 주어진 고정 코드북 에너지의 이동평균 예측에 기초한다.
Figure 112002038017881-pct00047
여기에서
Figure 112002038017881-pct00048
은 평균에너지이다.
Figure 112002038017881-pct00049
Figure 112002038017881-pct00050
이동평균 예측에 대한 예측계수는 {b1,b2,b3}={0.6, 0.3, 0.1}이다. 더 후방으로부터의 에너지의 예측은 예측과 관련된 보다 큰 불확정성을 수용하기 위하여 보다 많은 누설이 있게 된다. 이것은 결합 양자화 때문에 가장 최근의 히스토리가 아직 이용될 수 없는 제 2 및 제 3 서브프레임에 적용된다. 각각의 서브프레임에 대한 상이한 예측계수를 사용할 수 있는 다른 종류의 예측이 가능하다.
고정 코드북 내의 여기 벡터에 대한 검색에 포함된 특징은 선택된 고정 코드북 여기벡터가 적응성 프리필터 P(z)를 통해 필터링된다는 점이다. 이 적응성 프리필터는 고조파 성분을 강화시켜 재구성된 음성의 품질을 향상시킨다. 예컨대, 필터는 다음의 식을 실행한다.
Figure 112005035366440-pct00083
여기에서 T는 현재 서브프레임의 피치지연의 정수성분이고 β는 프레임이 모드 0 또는 모드 1에서 처리되는지에 따르는 피치이득이다. 모드 1에서, β는 현재의 서브프레임에 대한 양자화된 피치이득이 아직 이용가능하지 않아서 이전 서브프레임으로부터 양자화된 피치이득이 현재의 서브프레임에 대한 고정 코드북 여기벡터에 대한 고정 코드북을 검색하기 위해 사용되기 때문에 이전 서브프레임으로부터 양자화된 피치이득이다. 모드 1에서, β는 폐루프 서브프레임 처리에 앞서 프리벡터 양자화로부터 양자화된 피치이득이 이용가능하고, 현재의 서브프레임에 대한 양자화된 피치 이득이 현재의 서브프레임에 대한 고정 코드북 여기벡터에 대한 고정 코드북을 검색하도록 이용되기 때문에 현재의 서브프레임에 대한 양자화된 피치이득이다.
따라서 요약하면, 피치예측을 사용함으로써 음성신호의 일정한 부분의 주기성 정보를 표본화할 때 적응성 코드북이 사용된다. 여기에서 피치이득 Gp가 유도된 다. 피치예측을 사용함으로써 주기성 정보를 표본화한 후에는 제 2 잔류신호가 남게 된다.
제 2 잔류신호는 고정코드북으로 벡터양자화된다. 벡터는 고정 코드북 이득 Gc에 의해 스케일된다. 적응성 코드북 이득 Gp 와 고정 코드북 이득 Gc는 정상적으로는 서브프레임 기반으로 유도된다. 도 8에 도시된 예에서 프레임은 4개의 서브프레임으로 분할된다. 각 서브프레임은 적응성 코드북 이득 Gp 및 그와 관련된 고정 코드북 이득 Gc를 갖는다. 예컨대, 도 8에 도시된 바와 같이 제 1 서브프레임은 적응성 코드북 이득 GP1와 고정코드북 이득 GC1과 상관되며, 제 2 서브프레임은 이득 GP2 및 GC2와 상관되고, 제 3 서브프레임은 GP3 및 GC3과 상관되고, 제 4 서브프레임은 GP4 및 GC4와 상관된다. 이 점에서 제 1 선행기술의 방법은 스칼라 양자화를 이용함으로써 각각의 서브프레임에 대하여 별도로 적응성 코드북 이득 Gp와 고정 코드북 이득 Gc를 양자화할 수 있다. 스칼라 양자화는 벡터 양자화보다는 덜 효율적이기 때문에 보다 양호한 종래기술로 Gp 및 Gc 이득값의 폐루프 벡터 양자화를 이용하기 위한 것이 있다. 두 번째 종래기술의 방법에서 도 9에 도시된 바와 같은 Gp 및 Gc 코드북은 Gp와 Gc의 벡터 양자화를 제공하기 위해 사용된다.
그러나 본 발명에 따라 내장된 음성 인코더는 적응성 코드북 Gp와 고정 코드북 이득 Gc를 양자화하는 제 3 방법을 소개한다. 우선, 두 개의 동작모드, 모드 0과 모드 1을 소개한다. 다음으로 음성의 각 프레임은 분석되어 음성이 주기적인지에 따라 분류된다. 만약 프레임이 주기 음성을 포함하고 있으면 피치이득은 폐루프 서브프레임 처리가 시작되기 전에 원래의 비양자화된 가중 음성신호로부터 유도된다. 개선된 이득양자화 방법은 고정 코드북 이득과 여기벡터를 결정하는 서브프레임 처리를 실행하기 전에 프레임 내의 모든 서브프레임의 적응성 코드북 이득 Gp(예를들면, GP1, GP2, GP3, GP4)의 프리벡터 양자화를 실행한다. 음성이 주기적이면 개선된 이득 양자화방법이 음성품질의 심각한 저하를 가져오지 않으면서 소수의 비트로 이득 파라미터를 벡터양자화할 수 있다. 음성이 주기적이지 않으면 음성은 때때로 당업자에게 알려져 있는 방법에 의해 주기적인 것처럼 작용하도록 수정될 수 있다.
적응성 코드북 이득 Gp의 프리벡터 양자화는 비양자화된 적응성 코드북 이득 Gp 와 코드북 벡터 사이의 가장 밀접한 정합을 구하기 위한 시도이다. 지금까지 적응성 코드북 이득 Gp가 벡터양자화되는 것에 대해 설명하였고 이하 고정 코드북 이득 Gc에 대해 설명하기로 한다.
만약 현재 프레임의 음성신호가 주기적이면, 본 발명을 실시하는 개선된 이득 양자화방법은 폐루프, 고정 코드북 이득 Gc의 지연된 결정벡터 양자화를 실행한다. 이 과정은 서브프레임 처리의 완료후에 발생한다. 이 벡터양자화는 그것이 예측된 Gc, 변형된 Gc, 및 Gc의 다른 변형과 수정으로 실행될 수 있기 때문에 전통적인 고정 코드북 이득 Gc에 대해서는 실행될 필요가 없음을 주목하라. 적응성 코드북 이득 Gp에 대하여 상술한 바와 같이, 음성이 주기적이 아니면, 그 음성은 때때로 그것이 변형된 Gc, Gp를 결과하는 주기적인 것처럼 작용하도록 수정될 수 있다. 유사하게 Gc 및/또는 Gp는 예측된 값일 수 있다. 당업자라면 음성을 주기적이 되도 록 변형하며 Gc 및/Gp를 예측하도록 하는 방법을 알 수 있다. 상세히 전술한 바와 같이, 고정 코드북 이득(Gc)의 벡터 양자화의 "지연된 결정" 특징은 각각의 Gc가 별개로 또는 순차적으로 유도되며, 여기에서 그들은 양자화된 벡터를 형성하도록 사용된다. Gc의 벡터양자화를 행하기 전에 프레임 내의 모든 Gc를 유도하도록 처리가 대기되어야 하기 때문에 이 결정은 지연된다. 따라서 개선된 이득 양자화 방법은 적응성 코드북 이득 Gp의 프리벡터 양자화를 실행하지만 주기음성에 대한 폐루프 형상, 지연된 결정에서 고정 코드북 이득 Gc의 벡터양자화를 실행한다.
Gp와 Gc의 결합 벡터 양자화를 실행하는 종래기술의 제 1 방법은 서브프레임의 각 Gp/Gc쌍(예, 4개의 서브프레임을 갖는 하나의 프레임에 대하여 (GP1,GC1), (GP2,GC2), (GP3,GC3), (GP4,GC4)) 중에서 하나의 벡터를 생성하고, 지연된 결정없이 코드북을 이용하여 각각의 벡터를 양자화하기 위한 것이다. 제 1 종래의 기술은 높은 비트레이트만으로 양호한 품질의 음성을 재생할 수 있다.
종래기술의 제 2 방법은 지연된 결정방법과 함께 프레임의 모든 Gp와 Gc(예를들면, 4개의 프레임을 갖는 프레임에 대한 (GP1, GP2, GP3, GP4 , GC1, GC2, GC3, GC4))를 결합 양자화한다. 종래기술의 제 2 방법은 빈약한 품질 음성재생을 결과한다.
개선된 이득양자화 방법은 다음의 두가지 이득 양자화를 실행한다. (1) 음성이 주기적이면 폐루프 서브프레임 처리가 시작되기 전에 프레임의 각 서브프레임에 대한 Gp의 프리벡터 양자화를 실행, (2) Gc의 폐루프 지연 결정벡터 양자화 실행. 당업자에게 알려져 있는 바와 같이 폐루프 벡터 양자화는 벡터의 코드북에서 최선 의 정합을 찾지 못하지만, 음성의 최선의 정합은 찾아준다. 개선된 이득 양자화 방법에서, 벡터양자호의 지연된 결정특징은 고정 코드북에서만 실행되며, 음성의 품질을 잃지 않고 압축을 증가시킨다. 따라서 개선된 음성 인코더는 낮은 비트레이트에서도 높은 품질의 음성을 재생한다. 적응성 코드북 이득 Gp의 벡터 양자화는 폐루프 형식으로 실행될 것을 필요로 하지 않는다. 개선된 방법은 적응성 코드북 이득 Gp의 프리벡터 양자화를 실행하기 때문에 Gp의 양자화는 보다 안정적이다.
개선된 음성 인코더는 수많은 다른 이점을 제공한다. 예컨대, 개선된 음성인코더는 고정 코드북 이득 Gc(폐루프 서브프레임 처리중에 구해짐)를 구하기 전에 프레임의 모든 서브프레임에 대하여 양자화된 적응성 코드북 이득 Gp을 구할 수 있으나, 상술한 종래기술의 제 2 방법은 인코더가 프레임의 마지막 서브프레임을 처리한 후까지 양자화된 Gp와 Gc를 구하지 못한다. 결국, 개선된 음성인코더는 서브프레임 처리를 시작하기 전에 양자화된 Gp를 구하기 때문에 Gp의 값은 최선의 고정 코드북 이득에 대한 검색에 영향을 미치지 않는다. 종래기술의 제 2 방법에서, Gp의 값에서의 어떤 에러도 고정 코드북 처리에 영향을 미치지 않는다. 더욱이 양자화된 Gp는 적응성 코드북이 사용되기 전에 구해지기 때문에 Gp의 값에 어떠한 에러도 고정 코드북 처리에 의해 정정될 수 있다. 즉, 고정코드북을 통한 검색은 Gp의 선행 양자화와 Gp의 값에 어떠한 에러에 대한 정정에 주의를 기울일 것이다. 종래의 기술은 이것을 할 수 없다.
비록 개선된 음성 인코더가 주기음성에 대해서만 처리하는 모드 1을 실행하지만 주기음성은 약 60-70%의 원음을 포함하고 있다. 그러므로 개선된 음성인코드 의 모드 1은 이득 양자화에 사용된 비트의 감축에 상당한 영향을 줄 것이다. 이론적으로 개선된 음성인코더는 비트감축에 상당한 개선을 제공한다. 예컨대, 4개의 서브프레임을 갖는 80비트의 프레임 크기와 4kbps의 데이터 채널을 가정하면, 종래기술의 방법은 이득 정보를 나타내기 위하여 프레임 당 각각 7비트의 4개의 서브프레임을 필요로 한다. 이와 대조적으로 개선된 음성인코더는 도 10에 도시된 바와 같이 약 14비트, 50%의 개선을 이루는 동일한 정보를 나타낼 수 있다.
이 특정 실시예에서, 프레임 당 80비트는 인코더로부터 디코더로 송신된다. 디코더는 인코더의 파라미터에 80비트를 사상(map)한다. 파라미터로부터 음성의 합성은 직접적이며, G.729와 유사하다. 후필터는 기본적으로 G.729와 동일하며, 장기(피치) 및 단기(LPC) 후처리를 모두 갖는다.
도 11은 개선된 음성 인코더에 대응하는 음성 디코더의 블록도이다. 음성 디코더는 모드 종속 합성에 의해 수반되는 알고리즘 파라미터에 비트스트림의 역사상(inverse mapping)을 실행한다. 적응성 코드북(290)은 피치트랙 정보(284)(디코더는 음성인코더로부터 통신채널을 통해 송신된 정보로부터 이 정보를 재생성함)를 수신한다. 모드(282)에 따라 적응성 코드북(290)은 양자화된 적응성 코드북 벡터
Figure 112002038017881-pct00051
(902)를 승산기(904)에 제공한다. 승산기(904)는 양자화된 적응성 코드북 벡터
Figure 112002038017881-pct00052
(902)에 피치 이득벡터(910)를 승산한다. 피치 이득벡터(910)의 선택은 모드(282)에 종속된다. 만약 모드가 0이면 2차원 벡터 양자화기 코드북(460)은 피치 이득 벡터(910)를 승산기(904)에 제공한다. 코드북(460)은 그것이 피치 이득벡 터(910)를 승산기(904)에 제공하고, 고정 코드북 이득벡터(924)를 승산기(922)에 제공하기 때문에 2차원이다. 모드(282)에 따라 고정 코드북(292)은 양자화된 고정 코드북 벡터
Figure 112002038017881-pct00053
(920)를 승산기(922)에 보낸다. 승산기(922)는 양자화된 고정 코드북 벡터
Figure 112002038017881-pct00054
(920)에 양자화된 고정 코드북 이득벡터(924)를 승산한다. 모드가 1이면 n-차원 벡터 양자화기 이득 코드북(580)(여기에서 n은 프레임 당 서브프레임의 수임)은 피치 이득벡터(910)를 승산기(904)에 제공한다. 이와 유사하게 n-차원 벡터 양자화기 이득 코드북(680)(여기에서 n은 프레임 당 서브프레임의 수임)은 이득벡터(924)를 승산기(922)에 제공한다. 승산기(904)는 그 승산된 신호(906)를 가산기(930)에 보내며, 가산기에서 승산된 신호(906)는 승산기(922)로부터의 승산된 신호(926)에 가산된다. 가산된 신호(932)는 합성필터(940)로 보내지며, 이 합성필터는 또한 양자화된 LPC 계수 Aq(z)(268)(디코더는 음성인코더에 의해 통신채널을 통해 그곳에 보내진 정보로부터 유도함)를 수신한다. 합성필터(940)와 포스트프로세서(944)는 가산된 신호(932)로부터 재구성된 음성신호(950)를 생성한다.
상술한 바와 같이, 피치이득은 원래의 비양자화 가중음성신호로부터 유도될 수 있다. 그러나 피치이득은 또한 폐루프 서브프레임 처리가 시작되기 전에 비양자화 LPC 잔류신호, 원래의 비양자화 음성신호, 또는 비양자화된 수정 음성신호로부터 유도될 수 있다. 도 12a는 신호가 주기적인지 또는 비주기적(또는 주기형 대 비주기형)인지에 따라 2개의 이득 양자화 처리방법을 적용하는 제 1 실시예의 블록도이다. 새로운 이득 양자화 처리는 블록(953)에 도시된 바와 같이 주기신호에 대해 서만 사용되며 종래의 이득 양자화 처리는 도 12a의 블록(953)에 도시된 바와 같이 비주기 신호에 사용된다. 예로서 종래의 이득 양자화 처리는 4개의 서브프레임을 갖는 프레임에 가해지면 28비트는 이득 양자화를 위해 할당될 수 있다. 따라서 이 실시예에서는 새로운 이득 양자화 방법은 주기신호의 프레임에 대하여 12비트를 저장하고, 이 비트는 필요하면 다른 목적을 위해 사용될 수 있다.
이하 상술한 설명을 참조하여 제 2 실시예를 설명하기로 한다. 도 12b를 참조하면 주기신호에 대해서만 사용되는 새로운 이득 양자화처리(블록 951)는 비주기 신호에도 또한 확장될 수 있다. 이 두 번째 방법은 새로운 이득 양자화 방법을 이용하는 주기신호에 대한 비트레이트보다 약간 높은 비트레이트를 초래하지만 아직 종래기술의 비트레이트보다는 낮다. 이것은 두 번째 방법에서 비트레이트를 증가시켜 주기신호와 비교했을 때 비주기 신호의 이득 파라미터에서 보다 큰 가변성을 가지고 보다 잘 처리된다. 제 1 실시예에에 대하여 상술한 동일한 이득 양자화처리(951)는 보다 많은 비트가 비주기 신호의 이득 양자화를 나타내기 위해 할당되는 것을 제외하고는 제 2 실시예에서 비주기 신호에 대하여 사용될 수 있다. 예로서, 각각의 프레임이 4개의 서브프레임을 가지면 주기신호에 대한 새로운 이득 양자화 처리는 단지 16비트만을 필요로 하지만 비주기 신호에 대한 동일한 방법으로 22비트만을 필요로 한다. 따라서 이 예에서는 새로운 이득 양자화 방법이 하나의 프레임에서 주기신호에 대하여는 12비트, 비주기 신호에 대하여는 6비트 절약하게 해준다. 이하 상술한 설명을 참조하여 제 3 실시예를 설명하기로 한다. 도 12c를 참조하면 주기신호 및 비주기 신호의 차이는 이득 양자화 처리가 제거될 수 있 다는 것이다. 여기에서 새로운 이득 양자화 처리는 모든 음성신호에 대하여 사용될 수 있다. 도 12b의 제 2 실시예에서 비주기 신호에 대해 설명한 새로운 이득 양자화처리(951)는 주기신호를 포함하는 모든 신호에 대하여 사용될 수 있다. 그러나 이들 신호의 이득 양자화를 나타내도록 보다 많은 비트가 할당될 수 있다. 예로서 각각의 프레임이 4개의 서브프레임을 갖는다면 새로운 이득 양자화 방법은 프레임 당 12비트를 절약하는 22비트만을 필요로 할 수 있다.
본 발명의 실시예와 실현수단을 도시하고 설명하였지만 보다 많은 실시예와 실현수단이 본 발명의 범위 내에 존재한다는 것이 명백하다. 따라서 본 발명은 청구의 범위와 그 균등물을 고려하는 것 이외에는 제한되지 않는다.

Claims (76)

  1. 음성신호를 수신하는 음성 인코딩 시스템에 있어서,
    (a) 비양자화된 피치이득을 유도하는 피치 이득 발생기와; 상기 비양자화된 피치이득을 수신하여 양자화된 피치이득을 생성하는 제 1 벡터 양자화기를 포함하는, 상기 음성신호의 프레임을 처리하는 프레임 프로세서와;
    (b) 상기 피치 이득 발생기가 상기 비양자화된 피치이득을 유도하고 상기 제 1 벡터 양자화기가 상기 양자화된 피치이득을 생성한 후, 서브프레임 처리를 시작하며, 비양자화된 고정 코드북 이득을 생성하는 폐루프 발생기를 포함하는 서브프레임 프로세서와;
    (c) 상기 비양자화된 고정 코드북 이득을 수신하고, 상기 서브프레임 프로세서에 의해 서브프레임을 처리한 후, 양자화된 고정 코드북 이득을 지연된 결정 폐루프로 생성하는 제 2 벡터 양자화기와;
    (d) 상기 음성신호가 주기적인지의 여부를 결정하는 주기신호 검출기; 및
    상기 음성신호가 주기적이면, 상기 피치이득 발생기가 비양자화된 피치이득을 유도하고, 상기 피치이득 발생기가 상기 비양자화된 피치이득을 유도하고 상기 제 1 벡터 양자화기가 상기 양자화된 피치이득을 생성한 후, 상기 서브프레임 프로세서는 서브프레임 처리를 실행하는 것을 포함하는 것을 특징으로 하는 음성 인코딩 시스템.
  2. 제 1 항에 있어서,
    상기 음성신호가 주기적이건 비주기적이건 상관없이, 상기 피치이득 발생기가 비양자화된 피치이득을 유도하고, 상기 피치이득 발생기가 상기 비양자화된 피치이득을 유도하고 상기 제 1 벡터 양자화기가 상기 양자화된 피치이득을 생성한 후, 상기 서브프레임 프로세서는 서브프레임 처리를 실행하는 것을 특징으로 하는 음성 인코딩 시스템.
  3. 제 1 항에 있어서,
    모든 음성신호에 대하여, 상기 피치이득 발생기가 비양자화된 피치이득을 유도하고, 상기 피치이득 발생기가 상기 비양자화된 피치이득을 유도하고 상기 제 1 벡터 양자화기가 상기 양자화된 피치이득을 생성한 후, 상기 서브프레임 프로세서는 서브프레임 처리를 실행하는 것을 특징으로 하는 음성 인코딩 시스템.
  4. 제 1 항에 있어서,
    상기 음성신호를 비양자화된 가중 음성신호 또는 비양자화된 선형예측 코딩 잔류음성신호로 수정하는 필터를 추가로 포함하는 것을 특징으로 하는 음성 인코딩 시스템.
  5. 제 1 항에 있어서,
    상기 음성신호는 비양자화된 원래의 음성신호인 것을 특징으로 하는 음성 인코딩 시스템.
  6. 제 1 항에 있어서,
    상기 음성신호는 비양자화된 수정 음성신호인 것을 특징으로 하는 음성 인코딩 시스템.
  7. 제 1 항에 있어서,
    적응성 코드북 여기벡터를 생성하는 제 1 코드북과;
    스케일된 적응성 코드북 이득벡터를 생성하도록 상기 적응성 코드북 여기벡터에 상기 양자화된 피치이득을 승산하는 제 1 승산기와;
    고정 코드북 여기벡터를 생성하는 제 2 코드북과;
    스케일된 고정 코드북 이득벡터를 생성하도록 상기 고정 코드북 여기벡터에 상기 고정 코드북 이득을 승산하는 제 2 승산기와;
    상기 스케일된 적응성 코드북 이득벡터에 상기 스케일된 고정 코드북 이득벡터를 가산하는 가산기를 추가로 포함하는 것을 특징으로 하는 음성 인코딩 시스템.
  8. 제 1 항에 있어서,
    상기 제 1 벡터 양자화기는 상기 폐루프 발생기가 상기 비양자화된 고정 코드북 이득을 생성하기 전에, 상기 적응성 코드북 이득의 벡터 양자화를 실행하는 것을 특징으로 하는 음성 인코딩 시스템.
  9. 제 1 항에 있어서,
    상기 제 2 벡터 양자화기는 상기 고정 코드북 이득의 벡터 양자화를 지연된 결정 폐루프로 실행하는 것을 특징으로 하는 음성 인코딩 시스템.
  10. 제 1 항에 있어서,
    상기 적응성 코드북 이득과 상기 고정 코드북 이득의 결합 벡터 양자화를 폐루프로 실행하는 제 3 벡터 양자화기를 추가로 포함하는 것을 특징으로 하는 음성 인코딩 시스템.
  11. 제 7 항에 있어서,
    상기 제 1 벡터 양자화기는 상기 폐루프 발생기가 상기 비양자화된 고정 코드북 이득을 생성하기 전에 상기 적응성 코드북 이득의 벡터양자화를 실행하는 것을 특징으로 하는 음성 인코딩 시스템.
  12. 제 7 항에 있어서,
    상기 제 2 벡터 양자화기는 상기 고정 코드북 이득의 벡터 양자화를 지연된 결정 폐루프로 실행하는 것을 특징으로 하는 음성 인코딩 시스템.
  13. 제 8 항에 있어서,
    상기 적응성 코드북 이득과 상기 고정 코드북 이득의 결합 벡터 양자화를 폐루프로 실행하는 제 3 벡터 양자화기를 추가로 포함하는 것을 특징으로 하는 음성 인코딩 시스템.
  14. 제 7 항에 있어서,
    상기 프레임은 현재의 프레임을 포함하며, 각각의 프레임은 복수의 서브프레임을 포함하고, 이 서브프레임은 현재의 서브프레임과 이전의 서브프레임을 포함하며, 제 2 코드북은 상기 현재의 서브프레임에 대한 상기 고정 코드북 여기벡터를 생성하도록 상기 현재의 서브프레임에 대한 상기 양자화된 피치이득을 사용하는 것을 특징으로 하는 음성 인코딩 시스템.
  15. 제 1 항에 있어서,
    상기 음성신호가 주기적이면, 상기 제 1 벡터 양자화기는 상기 폐루프 발생기가 상기 비양자화된 고정 코드북 이득을 생성하기 전에 상기 적응성 코드북 이득의 벡터 양자화를 실행하는 것을 특징으로 하는 음성 인코딩 시스템.
  16. 제 1 항에 있어서,
    상기 음성신호가 주기적이면, 상기 제 2 벡터 양자화기는 상기 고정 코드북 이득의 벡터양자화를 지연된 결정 폐루프로 실행하는 것을 특징으로 하는 음성 인코딩 시스템.
  17. 제 1 항에 있어서,
    상기 음성신호가 비주기적이면, 상기 적응성 코드북 이득과 상기 고정 코드북 이득의 결합 벡터 양자화를 폐루프로 실행하는 제 3 벡터 양자화기를 추가로 포함하는 것을 특징으로 하는 음성 인코딩 시스템.
  18. 제 7 항에 있어서,
    상기 음성신호가 주기적이면, 상기 제 1 벡터 양자화기는 상기 폐루프 발생기가 상기 비양자화된 고정 코드북 이득을 생성하기 전에 상기 적응성 코드북 이득의 벡터양자화를 실행하는 것을 특징으로 하는 음성 인코딩 시스템.
  19. 제 7 항에 있어서,
    상기 음성신호가 주기적이면, 상기 제 2 벡터 양자화기는 상기 고정 코드북 이득의 벡터 양자화를 지연된 결정 폐루프로 실행하는 것을 특징으로 하는 음성 인코딩 시스템.
  20. 제 15 항에 있어서,
    상기 음성신호가 비주기적이면, 상기 적응성 코드북 이득과 상기 고정 코드북 이득의 결합 벡터 양자화를 폐루프로 실행하는 제 3 벡터 양자화기를 추가로 포함하는 것을 특징으로 하는 음성 인코딩 시스템.
  21. 제 7 항에 있어서,
    상기 프레임은 현재의 프레임을 포함하며, 각각의 프레임은 복수의 서브프레임을 포함하고, 이 서브프레임은 현재의 서브프레임과 이전의 서브프레임을 포함하며, 제 2 코드북은 상기 현재의 서브프레임에 대한 상기 고정 코드북 여기벡터를 생성하도록 상기 현재의 서브프레임에 대한 상기 양자화된 피치이득을 사용하는 것을 특징으로 하는 음성 인코딩 시스템.
  22. 제 2 항에 있어서,
    상기 음성신호를 비양자화된 가중 음성신호 또는 비양자화된 선형예측 코딩 잔류음성신호로 수정하는 필터를 추가로 포함하는 것을 특징으로 하는 음성 인코딩 시스템.
  23. 제 2 항에 있어서,
    상기 음성신호는 비양자화된 원래의 음성신호인 것을 특징으로 하는 음성 인코딩 시스템.
  24. 제 2 항에 있어서,
    상기 음성신호는 비양자화된 수정 음성신호인 것을 특징으로 하는 음성 인코딩 시스템.
  25. 제 2 항에 있어서,
    적응성 코드북 여기벡터를 생성하는 제 1 코드북과;
    스케일된 적응성 코드북 이득벡터를 생성하도록 상기 적응성 코드북 여기벡터에 상기 양자화된 피치이득을 승산하는 제 1 승산기와;
    고정 코드북 여기벡터를 생성하는 제 2 코드북과;
    스케일된 고정 코드북 이득벡터를 생성하도록 상기 고정 코드북 여기벡터에 상기 고정 코드북 이득을 승산하는 제 2 승산기와;
    상기 스케일된 적응성 코드북 이득벡터에 상기 스케일된 고정 코드북 이득벡터를 가산하는 가산기를 추가로 포함하는 것을 특징으로 하는 음성 인코딩 시스템.
  26. 제 2 항에 있어서,
    상기 제 1 벡터 양자화기는 상기 폐루프 발생기가 상기 비양자화된 고정 코드북 이득을 생성하기 전에, 상기 적응성 코드북 이득의 벡터 양자화를 실행하는 것을 특징으로 하는 음성 인코딩 시스템.
  27. 제 2 항에 있어서,
    상기 제 2 벡터 양자화기는 상기 고정 코드북 이득의 벡터 양자화를 지연된 결정 폐루프로 실행하는 것을 특징으로 하는 음성 인코딩 시스템.
  28. 제 26 항에 있어서,
    상기 음성신호는 주기신호 또는 비주기 신호인 것을 특징으로 하는 음성 인코딩 시스템.
  29. 제 27 항에 있어서,
    상기 음성신호는 주기신호 또는 비주기 신호인 것을 특징으로 하는 음성 인코딩 시스템.
  30. 제 25 항에 있어서,
    상기 제 1 벡터 양자화기는 상기 폐루프 발생기가 상기 비양자화된 고정 코드북 이득을 생성하기 전에, 상기 적응성 코드북 이득의 벡터 양자화를 실행하는 것을 특징으로 하는 음성 인코딩 시스템.
  31. 제 25 항에 있어서,
    상기 제 2 벡터 양자화기는 상기 고정 코드북 이득의 벡터 양자화를 지연된 결정 폐루프로 실행하는 것을 특징으로 하는 음성 인코딩 시스템.
  32. 제 25 항에 있어서,
    상기 프레임은 현재의 프레임을 포함하며, 각각의 프레임은 복수의 서브프레임을 포함하고, 이 서브프레임은 현재의 서브프레임과 이전의 서브프레임을 포함하며, 제 2 코드북은 상기 현재의 서브프레임에 대한 상기 고정 코드북 여기벡터를 생성하도록 상기 현재의 서브프레임에 대한 상기 양자화된 피치이득을 사용하는 것을 특징으로 하는 음성 인코딩 시스템.
  33. 제 3 항에 있어서,
    상기 음성신호를 비양자화된 가중 음성신호 또는 비양자화된 선형예측 코딩 잔류음성신호로 수정하는 필터를 추가로 포함하는 것을 특징으로 하는 음성 인코딩 시스템.
  34. 제 3 항에 있어서,
    상기 음성신호는 비양자화된 원래의 음성신호인 것을 특징으로 하는 음성 인코딩 시스템.
  35. 제 3 항에 있어서,
    상기 음성신호는 비양자화된 수정 음성신호인 것을 특징으로 하는 음성 인코딩 시스템.
  36. 제 3 항에 있어서,
    적응성 코드북 여기벡터를 생성하는 제 1 코드북과;
    스케일된 적응성 코드북 이득벡터를 생성하도록 상기 적응성 코드북 여기벡터에 상기 양자화된 피치이득을 승산하는 제 1 승산기와;
    고정 코드북 여기벡터를 생성하는 제 2 코드북과;
    스케일된 고정 코드북 이득벡터를 생성하도록 상기 고정 코드북 여기벡터에 상기 고정 코드북 이득을 승산하는 제 2 승산기와;
    상기 스케일된 적응성 코드북 이득벡터에 상기 스케일된 고정 코드북 이득벡터를 가산하는 가산기를 추가로 포함하는 것을 특징으로 하는 음성 인코딩 시스템.
  37. 제 3 항에 있어서,
    상기 제 1 벡터 양자화기는 상기 폐루프 발생기가 상기 비양자화된 고정 코드북 이득을 생성하기 전에, 상기 적응성 코드북 이득의 벡터 양자화를 실행하는 것을 특징으로 하는 음성 인코딩 시스템.
  38. 제 3 항에 있어서,
    상기 제 2 벡터 양자화기는 상기 고정 코드북 이득의 벡터 양자화를 지연된 결정 폐루프로 실행하는 것을 특징으로 하는 음성 인코딩 시스템.
  39. 제 37 항에 있어서,
    상기 음성신호는 주기신호 또는 비주기 신호인 것을 특징으로 하는 음성 인코딩 시스템.
  40. 제 38 항에 있어서,
    상기 음성신호는 주기신호 또는 비주기 신호인 것을 특징으로 하는 음성 인코딩 시스템.
  41. 제 36 항에 있어서,
    상기 제 1 벡터 양자화기는 상기 폐루프 발생기가 상기 비양자화된 고정 코드북 이득을 생성하기 전에, 상기 적응성 코드북 이득의 벡터 양자화를 실행하는 것을 특징으로 하는 음성 인코딩 시스템.
  42. 제 36 항에 있어서,
    상기 제 2 벡터 양자화기는 상기 고정 코드북 이득의 벡터 양자화를 지연된 결정 폐루프로 실행하는 것을 특징으로 하는 음성 인코딩 시스템.
  43. 제 36 항에 있어서,
    상기 프레임은 현재의 프레임을 포함하며, 각각의 프레임은 복수의 서브프레임을 포함하고, 이 서브프레임은 현재의 서브프레임과 이전의 서브프레임을 포함하며, 제 2 코드북은 상기 현재의 서브프레임에 대한 상기 고정 코드북 여기벡터를 생성하도록 상기 현재의 서브프레임에 대한 상기 양자화된 피치이득을 사용하는 것을 특징으로 하는 음성 인코딩 시스템.
  44. 통신시스템에서 음성을 코딩하는 방법에 있어서,
    (a) 음성신호를 한 프레임씩 공급하는 단계와; -상기 프레임들은 현재의 프레임을 포함하며, 각각의 프레임은 복수의 서브프레임을 포함하고, 서브프레임은 현재의 서브프레임과 이전 서브프레임을 포함하며-
    (b) 상기 음성신호의 현재의 프레임이 주기적인지를 결정하는 단계와;
    (c) 비양자화된 피치이득을 유도하는 단계와;
    (d) 양자화된 피치이득을 생성하도록 비양자화된 피치이득을 벡터양자화하는 단계와;
    (e) 상기 음성신호의 현재의 프레임이 주기적이면 단계 (c) 및 (d)가 완료된 후 서브프레임 처리를 실행하는 단계를 포함하고,
    상기 서브프레임 처리단계는,
    (1) 비양자화된 고정 코드북 이득을 폐루프로 생성하는 단계와;
    (2) 양자화된 고정 코드북 이득을 생성하도록 상기 비양자화된 고정 코드북 이득을 상기 서브프레임 처리의 마지막에 지연된 결정 폐루프로 벡터양자화하는 단계를 포함하는 것을 특징으로 하는 방법.
  45. 제 44 항에 있어서,
    적응성 코드북 여기벡터를 생성하는 단계와;
    스케일된 적응성 코드북 이득벡터를 생성하도록 상기 적응성 코드북 여기벡터에 상기 양자화된 피치이득을 승산하는 단계와;
    고정 코드북 여기벡터를 생성하는 단계와;
    스케일된 고정 코드북 이득벡터를 생성하도록 상기 고정 코드북 여기벡터에 상기 고정 코드북 이득을 승산하는 단계와;
    상기 스케일된 적응성 코드북 이득벡터에 상기 스케일된 고정 코드북 이득벡터를 가산하는 단계를 추가로 포함하는 것을 특징으로 하는 방법.
  46. 제 45 항에 있어서,
    고정 코드북 여기벡터를 생성하는 단계는 현재의 서브프레임에 대한 고정 코드북 여기벡터를 취득하도록 상기 현재의 서브프레임에 대한 상기 양자화된 피치이득을 이용하는 단계를 포함하는 것을 특징으로 하는 방법.
  47. 제 45 항에 있어서,
    상기 음성신호가 비주기 신호이면, 단계 (c) 및 (d)가 완료된 후 서브프레임 처리를 실행하는 단계는,
    (1) 비양자화된 고정 코드북 이득을 폐루프로 생성하는 단계와;
    (2) 양자화된 고정 코드북 이득을 생성하도록 상기 비양자화된 고정 코드북 이득을 상기 서브프레임 처리의 마지막에 지연된 결정 폐루프로 벡터양자화하는 단계를 포함하는 것을 특징으로 하는 방법.
  48. 통신시스템에서 음성을 코딩하는 방법에 있어서,
    (a) 음성신호를 한 프레임씩 공급하는 단계와; -상기 프레임들은 현재의 프레임을 포함하며, 각각의 프레임은 복수의 서브프레임을 포함하고, 서브프레임은 현재의 서브프레임과 이전 서브프레임을 포함하며-
    (b) 비양자화된 피치이득을 유도하는 단계와;
    (c) 양자화된 피치이득을 생성하도록 비양자화된 피치이득을 벡터 양자화하는 단계와;
    (d) 단계 (c) 및 (d)가 완료된 후 서브프레임 처리를 실행하는 단계를 포함하고,
    상기 서브프레임 처리단계는,
    (1) 비양자화된 고정 코드북 이득을 폐루프로 생성하는 단계와;
    (2) 양자화된 고정 코드북 이득을 생성하도록 상기 비양자화된 고정 코드북 이득을 상기 서브프레임 처리의 마지막에 지연된 결정 폐루프로 벡터 양자화하는 단계를 포함하는 것을 특징으로 하는 방법.
  49. 제 48 항에 있어서,
    적응성 코드북 여기벡터를 생성하는 단계와;
    스케일된 적응성 코드북 이득벡터를 생성하도록 상기 적응성 코드북 여기벡터에 상기 양자화된 피치이득을 승산하는 단계와;
    고정 코드북 여기벡터를 생성하는 단계와;
    스케일된 고정 코드북 이득벡터를 생성하도록 상기 고정 코드북 여기벡터에 상기 고정 코드북 이득을 승산하는 단계와;
    상기 스케일된 적응성 코드북 이득벡터에 상기 스케일된 고정 코드북 이득벡터를 가산하는 단계를 추가로 포함하는 것을 특징으로 하는 방법.
  50. 제 49 항에 있어서,
    고정 코드북 여기벡터를 생성하는 단계는 현재의 서브프레임에 대한 고정 코드북 여기벡터를 취득하도록 상기 현재의 서브프레임에 대한 상기 양자화된 피치이득을 이용하는 단계를 포함하는 것을 특징으로 하는 방법.
  51. 제 48 항에 있어서,
    상기 음성신호는 주기신호인 것을 특징으로 하는 방법.
  52. 제 48 항에 있어서,
    상기 음성신호는 비주기 신호인 것을 특징으로 하는 방법.
  53. 복수의 서브프레임을 가지는 프레임을 포함한 음성신호를 수신하는 음성 인코딩 시스템에 있어서,
    상기 프레임의 복수의 서브프레임 각각에 대한 비양자화된 피치이득을 유도하는 피치이득 발생기와;
    상기 비양자화된 피치이득을 수신하여 양자화된 피치이득을 생성하는 제 1 벡터 양자화기와;
    상기 피치이득 발생기가 상기 비양자화된 피치이득을 유도하고 상기 제 1 벡터 양자화기가 상기 양자화된 피치이득을 생성한 후 서브프레임 처리를 실행하며, 비양자화된 고정 코드북 이득을 생성하는 폐루프 발생기를 포함하는 서브프레임 프로세서; 및
    상기 비양자화된 고정 코드북 이득을 수신하여 양자화된 고정 코드북 이득을 생성하는 제 2 벡터 양자화기를 포함하는 것을 특징으로 하는 음성 인코딩 시스템.
  54. 제 53 항에 있어서,
    상기 음성신호가 주기적인지의 여부를 결정하는 주기신호 검출기를 추가로 포함하는 것을 특징으로 하는 음성 인코딩 시스템.
  55. 제 54 항에 있어서,
    상기 음성신호가 주기적이면, 상기 피치이득 발생기가 비양자화된 피치이득을 유도하고, 상기 피치이득 발생기가 상기 비양자화된 피치이득을 유도하고 상기 제 1 벡터 양자화기가 상기 양자화된 피치이득을 생성한 후, 상기 서브프레임 프로세서는 서브프레임 처리를 실행하는 것을 특징으로 하는 음성 인코딩 시스템.
  56. 제 53 항에 있어서,
    상기 피치이득 발생기가 비양자화된 피치이득을 유도하고, 상기 피치이득 발생기가 상기 비양자화된 피치이득을 유도하고 상기 제 1 벡터 양자화기가 상기 양자화된 피치이득을 생성한 후, 상기 서브프레임 프로세서는 서브프레임 처리를 실행하는 것을 특징으로 하는 음성 인코딩 시스템.
  57. 제 53 항에 있어서,
    상기 제 2 벡터 양자화기는 상기 서브프레임 프로세서에 의한 서브프레임 처리 후, 상기 양자화된 고정 코드북 이득을 지연된 결정 폐루프로 생성하는 것을 특징으로 하는 음성 인코딩 시스템.
  58. 음성신호를 수신하는 음성 인코딩 시스템에 있어서,
    (a) 비양자화된 피치이득을 유도하는 피치 이득 발생기와; 상기 비양자화된 피치이득을 수신하여 양자화된 피치이득을 생성하는 제 1 벡터 양자화기를 포함하는, 상기 음성신호의 프레임을 처리하는 프레임 프로세서와;
    (b) 상기 피치 이득 발생기가 상기 비양자화된 피치이득을 유도하고 상기 제 1 벡터 양자화기가 상기 양자화된 피치이득을 생성한 후, 서브프레임 처리를 시작하며, 비양자화된 고정 코드북 이득을 생성하는 폐루프 발생기를 포함하는 서브프레임 프로세서와;
    (c) 상기 비양자화된 고정 코드북 이득을 수신하고, 상기 서브프레임 프로세서에 의해 서브프레임을 처리한 후, 양자화된 고정 코드북 이득을 지연된 결정 폐루프로 생성하는 제 2 벡터 양자화기; 및
    모든 음성신호에 대하여, 상기 피치이득 발생기가 비양자화된 피치이득을 유도하고, 상기 피치이득 발생기가 상기 비양자화된 피치이득을 유도하고 상기 제 1 벡터 양자화기가 상기 양자화된 피치이득을 생성한 후, 상기 서브프레임 프로세서는 서브프레임 처리를 실행하는 것을 포함하는 것을 특징으로 하는 음성 인코딩 시스템.
  59. 제 58 항에 있어서,
    상기 음성신호를 비양자화된 가중 음성신호 또는 비양자화된 선형예측 코딩 잔류음성신호로 수정하는 필터를 추가로 포함하는 것을 특징으로 하는 음성 인코딩 시스템.
  60. 제 58 항에 있어서,
    상기 음성신호는 비양자화된 원래의 음성신호인 것을 특징으로 하는 음성 인코딩 시스템.
  61. 제 58 항에 있어서,
    상기 음성신호는 비양자화된 수정 음성신호인 것을 특징으로 하는 음성 인코딩 시스템.
  62. 제 58 항에 있어서,
    적응성 코드북 여기벡터를 생성하는 제 1 코드북과;
    스케일된 적응성 코드북 이득벡터를 생성하도록 상기 적응성 코드북 여기벡터에 상기 양자화된 피치이득을 승산하는 제 1 승산기와;
    고정 코드북 여기벡터를 생성하는 제 2 코드북과;
    스케일된 고정 코드북 이득벡터를 생성하도록 상기 고정 코드북 여기벡터에 상기 고정 코드북 이득을 승산하는 제 2 승산기와;
    상기 스케일된 적응성 코드북 이득벡터에 상기 스케일된 고정 코드북 이득벡터를 가산하는 가산기를 추가로 포함하는 것을 특징으로 하는 음성 인코딩 시스템.
  63. 제 58 항에 있어서,
    상기 제 1 벡터 양자화기는 상기 폐루프 발생기가 상기 비양자화된 고정 코드북 이득을 생성하기 전에, 상기 적응성 코드북 이득의 벡터 양자화를 실행하는 것을 특징으로 하는 음성 인코딩 시스템.
  64. 제 58 항에 있어서,
    상기 제 2 벡터 양자화기는 상기 고정 코드북 이득의 벡터 양자화를 지연된 결정 폐루프로 실행하는 것을 특징으로 하는 음성 인코딩 시스템.
  65. 제 64 항에 있어서,
    상기 음성신호는 주기적인 신호인 것을 특징으로 하는 음성 인코딩 시스템.
  66. 제 64 항에 있어서,
    상기 음성신호는 비주기적인 신호인 것을 특징으로 하는 음성 인코딩 시스템.
  67. 제 62 항에 있어서,
    상기 제 1 벡터 양자화기는 상기 폐루프 발생기가 상기 비양자화된 고정 코드북 이득을 생성하기 전에, 상기 적응성 코드북 이득의 벡터 양자화를 실행하는 것을 특징으로 하는 음성 인코딩 시스템.
  68. 제 62 항에 있어서,
    상기 제 2 벡터 양자화기는 상기 고정 코드북 이득의 벡터 양자화를 지연된 결정 폐루프로 실행하는 것을 특징으로 하는 음성 인코딩 시스템.
  69. 제 62 항에 있어서,
    상기 프레임은 현재의 프레임을 포함하며, 각각의 프레임은 복수의 서브프레임을 포함하고, 이 서브프레임은 현재의 서브프레임과 이전의 서브프레임을 포함하며, 제 2 코드북은 상기 현재의 서브프레임에 대한 상기 고정 코드북 여기벡터를 생성하도록 상기 현재의 서브프레임에 대한 상기 양자화된 피치이득을 사용하는 것을 특징으로 하는 음성 인코딩 시스템.
  70. 음성신호를 수신하는 음성 인코딩 시스템에 있어서,
    (a) 비양자화된 피치이득을 유도하는 피치 이득 발생기와; 상기 비양자화된 피치이득을 수신하여 양자화된 피치이득을 생성하는 제 1 벡터 양자화기를 포함하는, 상기 음성신호의 프레임을 처리하는 프레임 프로세서와;
    (b) 상기 피치 이득 발생기가 상기 비양자화된 피치이득을 유도하고 상기 제 1 벡터 양자화기가 상기 양자화된 피치이득을 생성한 후, 서브프레임 처리를 시작하며, 비양자화된 고정 코드북 이득을 생성하는 폐루프 발생기를 포함하는 서브프레임 프로세서와;
    (c) 상기 비양자화된 고정 코드북 이득을 수신하고, 상기 서브프레임 프로세서에 의해 서브프레임을 처리한 후, 양자화된 고정 코드북 이득을 지연된 결정 폐루프로 생성하는 제 2 벡터 양자화기와;
    (d) 적응성 코드북 여기벡터를 생성하는 제 1 코드북과;
    (e) 스케일된 적응성 코드북 이득벡터를 생성하도록 상기 적응성 코드북 여기벡터에 상기 양자화된 피치이득을 승산하는 제 1 승산기와;
    (f) 고정 코드북 여기벡터를 생성하는 제 2 코드북과;
    (g) 스케일된 고정 코드북 이득벡터를 생성하도록 상기 고정 코드북 여기벡터에 상기 고정 코드북 이득을 승산하는 제 2 승산기와;
    (h) 상기 스케일된 적응성 코드북 이득벡터에 상기 스케일된 고정 코드북 이득벡터를 가산하는 가산기를 포함하는 것을 특징으로 하는 음성 인코딩 시스템.
  71. 제 70 항에 있어서,
    상기 제 1 벡터 양자화기는 상기 폐루프 발생기가 상기 비양자화된 고정 코드북 이득을 생성하기 전에, 상기 적응성 코드북 이득의 벡터 양자화를 실행하는 것을 특징으로 하는 음성 인코딩 시스템.
  72. 제 70 항에 있어서,
    상기 제 2 벡터 양자화기는 상기 고정 코드북 이득의 벡터 양자화를 지연된 결정 폐루프로 실행하는 것을 특징으로 하는 음성 인코딩 시스템.
  73. 제 70 항에 있어서,
    상기 프레임은 현재의 프레임을 포함하며, 각각의 프레임은 복수의 서브프레임을 포함하고, 이 서브프레임은 현재의 서브프레임과 이전의 서브프레임을 포함하며, 제 2 코드북은 상기 현재의 서브프레임에 대한 상기 고정 코드북 여기벡터를 생성하도록 상기 현재의 서브프레임에 대한 상기 양자화된 피치이득을 사용하는 것을 특징으로 하는 음성 인코딩 시스템.
  74. 삭제
  75. 삭제
  76. 삭제
KR1020027015574A 2000-05-19 2001-04-16 씨이엘피 음성코더를 위한 이득양자화 Expired - Fee Related KR100546444B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US09/574,396 US6782360B1 (en) 1999-09-22 2000-05-19 Gain quantization for a CELP speech coder
US09/574,396 2000-05-19
PCT/US2001/012396 WO2001091112A1 (en) 2000-05-19 2001-04-16 Gains quantization for a clep speech coder

Publications (2)

Publication Number Publication Date
KR20030001523A KR20030001523A (ko) 2003-01-06
KR100546444B1 true KR100546444B1 (ko) 2006-01-26

Family

ID=24295936

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020027015574A Expired - Fee Related KR100546444B1 (ko) 2000-05-19 2001-04-16 씨이엘피 음성코더를 위한 이득양자화

Country Status (11)

Country Link
US (4) US6782360B1 (ko)
EP (1) EP1338003B1 (ko)
JP (1) JP2004510174A (ko)
KR (1) KR100546444B1 (ko)
CN (1) CN1252681C (ko)
AT (1) ATE343199T1 (ko)
AU (2) AU5542201A (ko)
BR (1) BR0110831A (ko)
DE (1) DE60123999D1 (ko)
RU (2) RU2262748C2 (ko)
WO (2) WO2001022402A1 (ko)

Families Citing this family (111)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6782360B1 (en) * 1999-09-22 2004-08-24 Mindspeed Technologies, Inc. Gain quantization for a CELP speech coder
JP2001175298A (ja) * 1999-12-13 2001-06-29 Fujitsu Ltd 騒音抑圧装置
US7127390B1 (en) 2000-02-08 2006-10-24 Mindspeed Technologies, Inc. Rate determination coding
DE10124420C1 (de) * 2001-05-18 2002-11-28 Siemens Ag Verfahren zur Codierung und zur Übertragung von Sprachsignalen
US6871176B2 (en) * 2001-07-26 2005-03-22 Freescale Semiconductor, Inc. Phase excited linear prediction encoder
US7302387B2 (en) * 2002-06-04 2007-11-27 Texas Instruments Incorporated Modification of fixed codebook search in G.729 Annex E audio coding
CA2392640A1 (en) 2002-07-05 2004-01-05 Voiceage Corporation A method and device for efficient in-based dim-and-burst signaling and half-rate max operation in variable bit-rate wideband speech coding for cdma wireless systems
US8090577B2 (en) * 2002-08-08 2012-01-03 Qualcomm Incorported Bandwidth-adaptive quantization
AU2003278013A1 (en) * 2002-10-11 2004-05-04 Voiceage Corporation Methods and devices for source controlled variable bit-rate wideband speech coding
US7657427B2 (en) 2002-10-11 2010-02-02 Nokia Corporation Methods and devices for source controlled variable bit-rate wideband speech coding
US20040167772A1 (en) * 2003-02-26 2004-08-26 Engin Erzin Speech coding and decoding in a voice communication system
US7231346B2 (en) * 2003-03-26 2007-06-12 Fujitsu Ten Limited Speech section detection apparatus
KR100546758B1 (ko) * 2003-06-30 2006-01-26 한국전자통신연구원 음성의 상호부호화시 전송률 결정 장치 및 방법
KR100668300B1 (ko) * 2003-07-09 2007-01-12 삼성전자주식회사 비트율 확장 음성 부호화 및 복호화 장치와 그 방법
SE527670C2 (sv) * 2003-12-19 2006-05-09 Ericsson Telefon Ab L M Naturtrogenhetsoptimerad kodning med variabel ramlängd
US7792670B2 (en) 2003-12-19 2010-09-07 Motorola, Inc. Method and apparatus for speech coding
US7668712B2 (en) * 2004-03-31 2010-02-23 Microsoft Corporation Audio encoding and decoding with intra frames and adaptive forward error correction
US7179979B2 (en) * 2004-06-02 2007-02-20 Alan Steven Howarth Frequency spectrum conversion to natural harmonic frequencies process
US7707034B2 (en) * 2005-05-31 2010-04-27 Microsoft Corporation Audio codec post-filter
US7177804B2 (en) * 2005-05-31 2007-02-13 Microsoft Corporation Sub-band voice codec with multi-stage codebooks and redundant coding
US7831421B2 (en) * 2005-05-31 2010-11-09 Microsoft Corporation Robust decoder
US20070011009A1 (en) * 2005-07-08 2007-01-11 Nokia Corporation Supporting a concatenative text-to-speech synthesis
US9058812B2 (en) * 2005-07-27 2015-06-16 Google Technology Holdings LLC Method and system for coding an information signal using pitch delay contour adjustment
US7587314B2 (en) * 2005-08-29 2009-09-08 Nokia Corporation Single-codebook vector quantization for multiple-rate applications
US7720677B2 (en) * 2005-11-03 2010-05-18 Coding Technologies Ab Time warped modified transform coding of audio signals
BRPI0708267A2 (pt) * 2006-02-24 2011-05-24 France Telecom método de codificação binária de ìndices de quantificação de um envelope de sinal, método de decodificação de um envelope de sinal, e módulos de codificação e decodificação correspondentes
US8949120B1 (en) 2006-05-25 2015-02-03 Audience, Inc. Adaptive noise cancelation
WO2008007698A1 (fr) * 2006-07-12 2008-01-17 Panasonic Corporation Procédé de compensation des pertes de blocs, appareil de codage audio et appareil de décodage audio
US9454974B2 (en) * 2006-07-31 2016-09-27 Qualcomm Incorporated Systems, methods, and apparatus for gain factor limiting
CN101517637B (zh) * 2006-09-18 2012-08-15 皇家飞利浦电子股份有限公司 音频编解码器 、编解码方法、 集线器、 发送接收器、 发送接收方法、通信系统、 播放设备
US8401843B2 (en) 2006-10-24 2013-03-19 Voiceage Corporation Method and device for coding transition frames in speech signals
KR100862662B1 (ko) * 2006-11-28 2008-10-10 삼성전자주식회사 프레임 오류 은닉 방법 및 장치, 이를 이용한 오디오 신호복호화 방법 및 장치
CN103383846B (zh) * 2006-12-26 2016-08-10 华为技术有限公司 改进语音丢包修补质量的语音编码方法
US8688437B2 (en) 2006-12-26 2014-04-01 Huawei Technologies Co., Ltd. Packet loss concealment for speech coding
US20080249783A1 (en) * 2007-04-05 2008-10-09 Texas Instruments Incorporated Layered Code-Excited Linear Prediction Speech Encoder and Decoder Having Plural Codebook Contributions in Enhancement Layers Thereof and Methods of Layered CELP Encoding and Decoding
CA2701757C (en) * 2007-10-12 2016-11-22 Panasonic Corporation Vector quantization apparatus, vector dequantization apparatus and the methods
US8527265B2 (en) * 2007-10-22 2013-09-03 Qualcomm Incorporated Low-complexity encoding/decoding of quantized MDCT spectrum in scalable speech and audio codecs
RU2380846C2 (ru) * 2007-10-29 2010-01-27 Закрытое акционерное общество "Научно-производственная фирма "Микран" Способ квантования сигнала с множеством несущих
CN101335004B (zh) * 2007-11-02 2010-04-21 华为技术有限公司 一种多级量化的方法及装置
US8515767B2 (en) * 2007-11-04 2013-08-20 Qualcomm Incorporated Technique for encoding/decoding of codebook indices for quantized MDCT spectrum in scalable speech and audio codecs
WO2009090875A1 (ja) * 2008-01-16 2009-07-23 Panasonic Corporation ベクトル量子化装置、ベクトル逆量子化装置、およびこれらの方法
CN101499281B (zh) * 2008-01-31 2011-04-27 华为技术有限公司 一种语音编码中的增益量化方法及装置
US9245532B2 (en) * 2008-07-10 2016-01-26 Voiceage Corporation Variable bit rate LPC filter quantizing and inverse quantizing device and method
MY154452A (en) * 2008-07-11 2015-06-15 Fraunhofer Ges Forschung An apparatus and a method for decoding an encoded audio signal
CA2836862C (en) 2008-07-11 2016-09-13 Stefan Bayer Time warp activation signal provider, audio signal encoder, method for providing a time warp activation signal, method for encoding an audio signal and computer programs
PL2346030T3 (pl) 2008-07-11 2015-03-31 Fraunhofer Ges Forschung Koder audio, sposób kodowania sygnału audio oraz program komputerowy
MX2011000372A (es) 2008-07-11 2011-05-19 Fraunhofer Ges Forschung Sintetizador de señales de audio y codificador de señales de audio.
ES2539304T3 (es) * 2008-07-11 2015-06-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Un aparato y un método para generar datos de salida por ampliación de ancho de banda
JP2010079275A (ja) * 2008-08-29 2010-04-08 Sony Corp 周波数帯域拡大装置及び方法、符号化装置及び方法、復号化装置及び方法、並びにプログラム
WO2010028297A1 (en) * 2008-09-06 2010-03-11 GH Innovation, Inc. Selective bandwidth extension
WO2010028292A1 (en) * 2008-09-06 2010-03-11 Huawei Technologies Co., Ltd. Adaptive frequency prediction
WO2010028301A1 (en) * 2008-09-06 2010-03-11 GH Innovation, Inc. Spectrum harmonic/noise sharpness control
US8407046B2 (en) * 2008-09-06 2013-03-26 Huawei Technologies Co., Ltd. Noise-feedback for spectral envelope quantization
US8577673B2 (en) * 2008-09-15 2013-11-05 Huawei Technologies Co., Ltd. CELP post-processing for music signals
WO2010031003A1 (en) * 2008-09-15 2010-03-18 Huawei Technologies Co., Ltd. Adding second enhancement layer to celp based core layer
JP2010122617A (ja) 2008-11-21 2010-06-03 Yamaha Corp ノイズゲート、及び収音装置
CN101604525B (zh) * 2008-12-31 2011-04-06 华为技术有限公司 基音增益获取方法、装置及编码器、解码器
GB2466673B (en) 2009-01-06 2012-11-07 Skype Quantization
GB2466671B (en) 2009-01-06 2013-03-27 Skype Speech encoding
GB2466674B (en) 2009-01-06 2013-11-13 Skype Speech coding
GB2466675B (en) 2009-01-06 2013-03-06 Skype Speech coding
GB2466672B (en) * 2009-01-06 2013-03-13 Skype Speech coding
PL2234103T3 (pl) 2009-03-26 2012-02-29 Fraunhofer Ges Forschung Urządzenie i sposób manipulacji sygnałem audio
ES2453098T3 (es) 2009-10-20 2014-04-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Códec multimodo de audio
RU2464651C2 (ru) * 2009-12-22 2012-10-20 Общество с ограниченной ответственностью "Спирит Корп" Способ и устройство многоуровневого масштабируемого устойчивого к информационным потерям кодирования речи для сетей с коммутацией пакетов
RU2435214C2 (ru) * 2010-02-01 2011-11-27 Государственное образовательное учреждение высшего профессионального образования Академия Федеральной службы охраны Российской Федерации (Академия ФСО России) Способ быстрого поиска в кодовой книге при векторном квантовании
CA2789107C (en) 2010-04-14 2017-08-15 Voiceage Corporation Flexible and scalable combined innovation codebook for use in celp coder and decoder
US9558755B1 (en) 2010-05-20 2017-01-31 Knowles Electronics, Llc Noise suppression assisted automatic speech recognition
CA2929090C (en) 2010-07-02 2017-03-14 Dolby International Ab Selective bass post filter
US9047875B2 (en) 2010-07-19 2015-06-02 Futurewei Technologies, Inc. Spectrum flatness control for bandwidth extension
US9236063B2 (en) 2010-07-30 2016-01-12 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for dynamic bit allocation
US9208792B2 (en) 2010-08-17 2015-12-08 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for noise injection
US9082416B2 (en) * 2010-09-16 2015-07-14 Qualcomm Incorporated Estimating a pitch lag
IL317702A (en) 2010-09-16 2025-02-01 Dolby Int Ab Method and system for harmonic, block, subchannel, and enhanced transposition by rhetorical multiplication
WO2012044067A1 (ko) * 2010-09-28 2012-04-05 한국전자통신연구원 적응 코드북 업데이트를 이용한 오디오 신호 디코딩 방법 및 장치
KR20120032444A (ko) 2010-09-28 2012-04-05 한국전자통신연구원 적응 코드북 업데이트를 이용한 오디오 신호 디코딩 방법 및 장치
US9626982B2 (en) 2011-02-15 2017-04-18 Voiceage Corporation Device and method for quantizing the gains of the adaptive and fixed contributions of the excitation in a CELP codec
HRP20201271T1 (hr) * 2011-02-15 2020-11-13 Voiceage Evs Llc Uređaj i metoda za kvantiziranje pojačanja prilagodljivih i nepromjenljivih udjela pobude u celp kodeku
US9117455B2 (en) * 2011-07-29 2015-08-25 Dts Llc Adaptive voice intelligibility processor
WO2013057659A2 (en) * 2011-10-19 2013-04-25 Koninklijke Philips Electronics N.V. Signal noise attenuation
KR102138320B1 (ko) 2011-10-28 2020-08-11 한국전자통신연구원 통신 시스템에서 신호 코덱 장치 및 방법
WO2013062370A1 (ko) * 2011-10-28 2013-05-02 한국전자통신연구원 통신 시스템에서 신호 코덱 장치 및 방법
EP2798631B1 (en) * 2011-12-21 2016-03-23 Huawei Technologies Co., Ltd. Adaptively encoding pitch lag for voiced speech
CN103187065B (zh) * 2011-12-30 2015-12-16 华为技术有限公司 音频数据的处理方法、装置和系统
EP2828854B1 (en) 2012-03-23 2016-03-16 Dolby Laboratories Licensing Corporation Hierarchical active voice detection
EP2831757B1 (en) * 2012-03-29 2019-06-19 Telefonaktiebolaget LM Ericsson (publ) Vector quantizer
EP2682941A1 (de) * 2012-07-02 2014-01-08 Technische Universität Ilmenau Vorrichtung, Verfahren und Computerprogramm für frei wählbare Frequenzverschiebungen in der Subband-Domäne
US9589570B2 (en) * 2012-09-18 2017-03-07 Huawei Technologies Co., Ltd. Audio classification based on perceptual quality for low or medium bit rates
ES2890706T3 (es) * 2012-10-01 2022-01-21 Nippon Telegraph & Telephone Método de codificación, codificador, programa, y medio de grabación
US9640194B1 (en) 2012-10-04 2017-05-02 Knowles Electronics, Llc Noise suppression for speech processing based on machine-learning mask estimation
CN103137135B (zh) * 2013-01-22 2015-05-06 深圳广晟信源技术有限公司 Lpc系数量化方法和装置及多编码核音频编码方法和设备
PT2951819T (pt) 2013-01-29 2017-06-06 Fraunhofer Ges Forschung Aparelho, método e meio computacional para sintetizar um sinal de áudio
CN105210364A (zh) * 2013-02-25 2015-12-30 视听公司 在视频回放期间的动态音频空间感改变
KR102148407B1 (ko) * 2013-02-27 2020-08-27 한국전자통신연구원 소스 필터를 이용한 주파수 스펙트럼 처리 장치 및 방법
US9854377B2 (en) 2013-05-29 2017-12-26 Qualcomm Incorporated Interpolation for decomposed representations of a sound field
EP3540731B1 (en) 2013-06-21 2024-07-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Pitch lag estimation
KR101828186B1 (ko) 2013-06-21 2018-02-09 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 개선된 펄스 재동기화를 사용하여 acelp-형 은폐 내에서 적응적 코드북의 개선된 은폐를 위한 장치 및 방법
US9536540B2 (en) 2013-07-19 2017-01-03 Knowles Electronics, Llc Speech signal separation and synthesis based on auditory scene analysis and speech modeling
WO2015025454A1 (ja) * 2013-08-22 2015-02-26 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 音声符号化装置およびその方法
CN104637486B (zh) * 2013-11-07 2017-12-29 华为技术有限公司 一种数据帧的内插方法及装置
US9489955B2 (en) * 2014-01-30 2016-11-08 Qualcomm Incorporated Indicating frame parameter reusability for coding vectors
US10770087B2 (en) 2014-05-16 2020-09-08 Qualcomm Incorporated Selecting codebooks for coding vectors decomposed from higher-order ambisonic audio signals
US9626983B2 (en) * 2014-06-26 2017-04-18 Qualcomm Incorporated Temporal gain adjustment based on high-band signal characteristic
CN105225670B (zh) * 2014-06-27 2016-12-28 华为技术有限公司 一种音频编码方法和装置
FR3024581A1 (fr) * 2014-07-29 2016-02-05 Orange Determination d'un budget de codage d'une trame de transition lpd/fd
WO2016033364A1 (en) 2014-08-28 2016-03-03 Audience, Inc. Multi-sourced noise suppression
WO2016142002A1 (en) * 2015-03-09 2016-09-15 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder, method for encoding an audio signal and method for decoding an encoded audio signal
US10553228B2 (en) 2015-04-07 2020-02-04 Dolby International Ab Audio coding with range extension
EP3335215B1 (en) 2016-03-21 2020-05-13 Huawei Technologies Co., Ltd. Adaptive quantization of weighted matrix coefficients
KR20250016479A (ko) 2017-09-20 2025-02-03 보이세지 코포레이션 씨이엘피 코덱에 있어서 비트-예산을 효율적으로 분배하는 방법 및 디바이스
CN114650103B (zh) * 2020-12-21 2023-09-08 航天科工惯性技术有限公司 一种泥浆脉冲数据传输方法、装置、设备及存储介质

Family Cites Families (49)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4720861A (en) * 1985-12-24 1988-01-19 Itt Defense Communications A Division Of Itt Corporation Digital speech coding circuit
US4969192A (en) * 1987-04-06 1990-11-06 Voicecraft, Inc. Vector adaptive predictive coder for speech and audio
US5307441A (en) * 1989-11-29 1994-04-26 Comsat Corporation Wear-toll quality 4.8 kbps speech codec
US5293449A (en) * 1990-11-23 1994-03-08 Comsat Corporation Analysis-by-synthesis 2,4 kbps linear predictive speech codec
ES2225321T3 (es) * 1991-06-11 2005-03-16 Qualcomm Incorporated Aparaato y procedimiento para el enmascaramiento de errores en tramas de datos.
US5233660A (en) * 1991-09-10 1993-08-03 At&T Bell Laboratories Method and apparatus for low-delay celp speech coding and decoding
US5765127A (en) * 1992-03-18 1998-06-09 Sony Corp High efficiency encoding method
US5734789A (en) * 1992-06-01 1998-03-31 Hughes Electronics Voiced, unvoiced or noise modes in a CELP vocoder
US5495555A (en) * 1992-06-01 1996-02-27 Hughes Aircraft Company High quality low bit rate celp-based speech codec
US5745523A (en) * 1992-10-27 1998-04-28 Ericsson Inc. Multi-mode signal processing
JPH08505657A (ja) * 1993-01-20 1996-06-18 インペリアル・ケミカル・インダストリーズ・ピーエルシー 冷媒組成物
JP2746039B2 (ja) 1993-01-22 1998-04-28 日本電気株式会社 音声符号化方式
IT1270438B (it) * 1993-06-10 1997-05-05 Sip Procedimento e dispositivo per la determinazione del periodo del tono fondamentale e la classificazione del segnale vocale in codificatori numerici della voce
FI110220B (fi) * 1993-07-13 2002-12-13 Nokia Corp Puhesignaalin kompressio ja rekonstruktio
CA2157024C (en) 1994-02-17 1999-08-10 Kenneth A. Stewart Method and apparatus for group encoding signals
TW271524B (ko) 1994-08-05 1996-03-01 Qualcomm Inc
US5751903A (en) * 1994-12-19 1998-05-12 Hughes Electronics Low rate multi-mode CELP codec that encodes line SPECTRAL frequencies utilizing an offset
US5701390A (en) 1995-02-22 1997-12-23 Digital Voice Systems, Inc. Synthesis of MBE-based coded speech using regenerated phase information
ZA961025B (en) * 1995-02-28 1996-07-16 Qualcomm Inc Method and apparatus for providing variable rate data in a communications system using non-orthogonal overflow channels
MY121893A (en) * 1995-04-28 2006-03-31 Qualcomm Inc Method and apparatus for providing variable rate data in a communications system using statistical multiplexing.
US5664055A (en) * 1995-06-07 1997-09-02 Lucent Technologies Inc. CS-ACELP speech compression system with adaptive pitch prediction filter gain based on a measure of periodicity
US5732389A (en) * 1995-06-07 1998-03-24 Lucent Technologies Inc. Voiced/unvoiced classification of speech for excitation codebook selection in celp speech decoding during frame erasures
US5699485A (en) * 1995-06-07 1997-12-16 Lucent Technologies Inc. Pitch delay modification during frame erasures
JP3616432B2 (ja) * 1995-07-27 2005-02-02 日本電気株式会社 音声符号化装置
US5774837A (en) * 1995-09-13 1998-06-30 Voxware, Inc. Speech coding system and method using voicing probability determination
US6064962A (en) * 1995-09-14 2000-05-16 Kabushiki Kaisha Toshiba Formant emphasis method and formant emphasis filter device
US5864798A (en) * 1995-09-18 1999-01-26 Kabushiki Kaisha Toshiba Method and apparatus for adjusting a spectrum shape of a speech signal
CA2185745C (en) * 1995-09-19 2001-02-13 Juin-Hwey Chen Synthesis of speech signals in the absence of coded parameters
JP3196595B2 (ja) * 1995-09-27 2001-08-06 日本電気株式会社 音声符号化装置
US5822370A (en) * 1996-04-16 1998-10-13 Aura Systems, Inc. Compression/decompression for preservation of high fidelity speech quality at low bandwidth
US6014622A (en) * 1996-09-26 2000-01-11 Rockwell Semiconductor Systems, Inc. Low bit rate speech coder using adaptive open-loop subframe pitch lag estimation and vector quantization
FI113903B (fi) * 1997-05-07 2004-06-30 Nokia Corp Puheen koodaus
DE19729494C2 (de) * 1997-07-10 1999-11-04 Grundig Ag Verfahren und Anordnung zur Codierung und/oder Decodierung von Sprachsignalen, insbesondere für digitale Diktiergeräte
US6029125A (en) * 1997-09-02 2000-02-22 Telefonaktiebolaget L M Ericsson, (Publ) Reducing sparseness in coded speech signals
US6058359A (en) * 1998-03-04 2000-05-02 Telefonaktiebolaget L M Ericsson Speech coding including soft adaptability feature
US6470309B1 (en) * 1998-05-08 2002-10-22 Texas Instruments Incorporated Subframe-based correlation
CA2239294A1 (en) 1998-05-29 1999-11-29 Majid Foodeei Methods and apparatus for efficient quantization of gain parameters in glpas speech coders
US6507814B1 (en) * 1998-08-24 2003-01-14 Conexant Systems, Inc. Pitch determination using speech classification and prior pitch estimation
US6240386B1 (en) 1998-08-24 2001-05-29 Conexant Systems, Inc. Speech codec employing noise classification for noise compensation
JP3343082B2 (ja) * 1998-10-27 2002-11-11 松下電器産業株式会社 Celp型音声符号化装置
US6691084B2 (en) * 1998-12-21 2004-02-10 Qualcomm Incorporated Multiple mode variable rate speech coding
US6775649B1 (en) * 1999-09-01 2004-08-10 Texas Instruments Incorporated Concealment of frame erasures for speech transmission and storage system and method
US6782360B1 (en) * 1999-09-22 2004-08-24 Mindspeed Technologies, Inc. Gain quantization for a CELP speech coder
US6959274B1 (en) * 1999-09-22 2005-10-25 Mindspeed Technologies, Inc. Fixed rate speech compression system and method
US6804218B2 (en) * 2000-12-04 2004-10-12 Qualcomm Incorporated Method and apparatus for improved detection of rate errors in variable rate receivers
US6738739B2 (en) * 2001-02-15 2004-05-18 Mindspeed Technologies, Inc. Voiced speech preprocessing employing waveform interpolation or a harmonic model
US7054807B2 (en) * 2002-11-08 2006-05-30 Motorola, Inc. Optimizing encoder for efficiently determining analysis-by-synthesis codebook-related parameters
US7613606B2 (en) * 2003-10-02 2009-11-03 Nokia Corporation Speech codecs
US20050258983A1 (en) * 2004-05-11 2005-11-24 Dilithium Holdings Pty Ltd. (An Australian Corporation) Method and apparatus for voice trans-rating in multi-rate voice coders for telecommunications

Also Published As

Publication number Publication date
US7660712B2 (en) 2010-02-09
RU2262748C2 (ru) 2005-10-20
DE60123999D1 (de) 2006-11-30
AU5542201A (en) 2001-12-03
US20070255559A1 (en) 2007-11-01
US10181327B2 (en) 2019-01-15
AU2001255422B2 (en) 2004-11-04
BR0110831A (pt) 2004-12-07
US20090177464A1 (en) 2009-07-09
US7260522B2 (en) 2007-08-21
ATE343199T1 (de) 2006-11-15
US6782360B1 (en) 2004-08-24
RU2257556C2 (ru) 2005-07-27
US20040260545A1 (en) 2004-12-23
JP2004510174A (ja) 2004-04-02
CN1468427A (zh) 2004-01-14
EP1338003B1 (en) 2006-10-18
WO2001022402A1 (en) 2001-03-29
WO2001091112A1 (en) 2001-11-29
CN1252681C (zh) 2006-04-19
EP1338003A1 (en) 2003-08-27
KR20030001523A (ko) 2003-01-06

Similar Documents

Publication Publication Date Title
KR100546444B1 (ko) 씨이엘피 음성코더를 위한 이득양자화
US6636829B1 (en) Speech communication system and method for handling lost frames
US6574593B1 (en) Codebook tables for encoding and decoding
US6735567B2 (en) Encoding and decoding speech signals variably based on signal classification
US6581032B1 (en) Bitstream protocol for transmission of encoded voice signals
AU2001255422A1 (en) Gains quantization for a celp speech coder
JP4176349B2 (ja) マルチモードの音声符号器
KR20030046451A (ko) 음성 코딩을 위한 코드북 구조 및 탐색 방법
US7146309B1 (en) Deriving seed values to generate excitation values in a speech coder
JP3490324B2 (ja) 音響信号符号化装置、復号化装置、これらの方法、及びプログラム記録媒体
JPH0786952A (ja) 音声の予測符号化方法

Legal Events

Date Code Title Description
A201 Request for examination
PA0105 International application

Patent event date: 20021118

Patent event code: PA01051R01D

Comment text: International Patent Application

PA0201 Request for examination
PG1501 Laying open of application
E902 Notification of reason for refusal
PE0902 Notice of grounds for rejection

Comment text: Notification of reason for refusal

Patent event date: 20050430

Patent event code: PE09021S01D

E701 Decision to grant or registration of patent right
PE0701 Decision of registration

Patent event code: PE07011S01D

Comment text: Decision to Grant Registration

Patent event date: 20051019

GRNT Written decision to grant
PR0701 Registration of establishment

Comment text: Registration of Establishment

Patent event date: 20060119

Patent event code: PR07011E01D

PR1002 Payment of registration fee

Payment date: 20060120

End annual number: 3

Start annual number: 1

PG1601 Publication of registration
PR1001 Payment of annual fee

Payment date: 20090105

Start annual number: 4

End annual number: 4

PR1001 Payment of annual fee

Payment date: 20100112

Start annual number: 5

End annual number: 5

FPAY Annual fee payment

Payment date: 20110112

Year of fee payment: 6

PR1001 Payment of annual fee

Payment date: 20110112

Start annual number: 6

End annual number: 6

LAPS Lapse due to unpaid annual fee
PC1903 Unpaid annual fee