[go: up one dir, main page]

KR100805983B1 - 가변율 음성 코더에서 프레임 소거를 보상하는 방법 - Google Patents

가변율 음성 코더에서 프레임 소거를 보상하는 방법 Download PDF

Info

Publication number
KR100805983B1
KR100805983B1 KR1020027014221A KR20027014221A KR100805983B1 KR 100805983 B1 KR100805983 B1 KR 100805983B1 KR 1020027014221 A KR1020027014221 A KR 1020027014221A KR 20027014221 A KR20027014221 A KR 20027014221A KR 100805983 B1 KR100805983 B1 KR 100805983B1
Authority
KR
South Korea
Prior art keywords
frame
pitch lag
value
lag value
current frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
KR1020027014221A
Other languages
English (en)
Other versions
KR20020093940A (ko
Inventor
사라스 만주나스
펜정 휴앙
에디에-룬 티크 초이
Original Assignee
콸콤 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 콸콤 인코포레이티드 filed Critical 콸콤 인코포레이티드
Publication of KR20020093940A publication Critical patent/KR20020093940A/ko
Application granted granted Critical
Publication of KR100805983B1 publication Critical patent/KR100805983B1/ko
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/097Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters using prototype waveform decomposition or prototype waveform interpolative [PWI] coders

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Devices For Executing Special Programs (AREA)
  • Analogue/Digital Conversion (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
  • Stereophonic System (AREA)

Abstract

가변율 음성 코더에서 프레임 소거를 보상하는 방법은 제1 인코더로 현재 프레임에 대한 피치 래그 값과 현재 프레임에 대한 피치 래그 값과 이전 프레임에 대한 피치 래그 값 사이의 차이와 동일한 제1 델타 피치 래그 값을 양자화하는 단계를 포함한다. 제2단계로, 예측 인코더는 이전 프레임에 대한 제2 델타 피치 래그 값(이전 프레임에 대한 피치 래그 값과 상기 프레임의 이전 프레임에 대한 피치 래그 값 사이의 차이와 동일함)을 양자화한다. 만약 상기 이전 프레임 이전의 프레임이 프레임 소거로 처리되면, 상기 이전 프레임에 대한 피치 래그 값은 상기 현재 프레임에 대한 피치 래그 값에서 제1 델타 피치 래그 값을 공제함으로써 얻어진다. 상기 소거 프레임에 대한 피치 래그 값은 이전 프레임에 대한 피치 래그 값에서 지2 델타 피치 래그 값을 공제함으로써 얻어진다. 추가적으로, 파형 내삽 방법은 코더 피치 메모리의 변화에 의해 야기된 불연속성을 평활화하는데 사용될 수 있다.

Description

가변율 음성 코더에서 프레임 소거를 보상하는 방법{FRAME ERASURE COMPENSATION METHOD IN A VARIABLE RATE SPEECH CODER}
본 발명은 일반적으로 음성 프로세싱에 관한 것이며, 보다 구체적으로는 가변율 음성 코더에서 프레임 소거를 보상하는 방법 및 장치에 관한 것이다.
디지털 기술들을 이용한 음성의 전송은 널리 사용되고 있으며, 특히 장거리 및 디지털 무선 전화 응용부분에서는 더욱 그러하다. 따라서, 음성 재구성시 인식할 수 있을 정도의 품질을 유지하면서 채널을 통해 전송할 수 있는 최소한의 정보를 결정하는 것에 대한 관심이 증가하고 있다. 만약 음성이 간단한 샘플링과 디지털화(digitizing)를 통해 송신된다면, 초당 64 킬로비트(kbps)의 데이타 속도가 종래의 아나로그 전화의 음성 품질을 유지하는데 요구된다. 그러나, 적절한 코딩, 송신 및 수신기에서의 재합성 후의 음성 분석을 이용하더라도, 데이타 속도에서 상당한 감소가 이루어질 수 있다.
음성 압축 기기는 많은 원격 통신 분야에서 사용되고 있다. 예를 들어, 무선 통신 분야가 있다. 상기 무선 통신 분야는 무선 전화, 호출기, 무선 가입자 회선, 셀룰러폰과 같은 무선 전화 및 PCS 전화 시스템, 이동 인터넷 프로토콜(IP) 전화, 및 위성 통신 시스템을 포함하는 많은 응용기기를 가지고 있다. 특히 중요한 응용기기는 이동 전화 가입자를 위한 무선 전화이다.
주파수 분할 다중접속(FDMA), 시간 분할 다중접속(TDMA), 코드 분할 다중접속(CDMA)을 포함하는 여러 무선 인터페이스들이 무선 통신 시스템을 위해 개발되어 왔다. 그것과 상응하여, 진보된 이동 전화 시스템(AMPS), 이동 통신을 위한 전지구적 시스템(GSM) 및 잠정 규정 95(IS-95)을 포함하는 여러 국내 및 국제 규격들이 만들어져 왔다. 예를 들어, 무선 전화 시스템은 코드 분할 다중접속(CDMA) 시스템이다. 상기 IS-95 규격과 그것의 다음 버전인 IS-95A, ANSI J-STD-008, IS-95B, 제안된 제3 세대 규격인 IS-95C 및 IS-2000 등은(이하 이하에서는 IS-95로 언급됨) 셀룰러폰 또는 PCS 전화 통신 시스템을 위한 CDMA 무선 인터페이스의 사용을 규정하기 위해 전화통신 공업 협회(TIA) 및 다른 저명한 규격 기구에 의해 공표되었다. 본질적으로 상기 IS-95 규격의 사용에 따라 규정된 예시적인 무선 통신 시스템은 미국 특허 제 5,103,459 및 4,901,307에 설명되어 있으며, 상기 발명은 본 발명의 출원인에게 양도되었고, 이하 참조로서 통합되어 있다.
인간 음성 발생 모델(model of human speech generation)에 관련된 파라미터들을 추출함으로써 음성을 압축하는 기술을 사용하는 기기들을 음성 코더라고 부른다. 음성 코더들은 입력되는 음성 신호를 시간 블럭 또는 분석 프레임으로 분할한다. 음성 코더들은 전형적으로 인코더와 디코더를 포함한다. 상기 인코더는 일정한 관련 파라미터들을 추출하여 입력되는 음성 프레임을 분석하고 상기 파라미터들을 예를 들어, 비트들의 세트 또는 이진 데이터 패킷과 같이 이진수로 표현되도록 양자화한다. 상기 데이타 패킷들은 상기 통신 채널을 통해 수신기 및 디코더로 송신된다. 상기 디코더는 상기 데이터 패킷을 처리하고, 그것들을 역양자화(unquantize)하여 상기 파라미터들을 생성하며, 역양자화된 파라미터들을 이용하여 음성 프레임을 재합성한다.
음성 코더의 기능은 음성에 고유한 본질적인 리던던시(redundancy)들을 모두 삭제함으로써 상기 디지털화된 음성 신호를 낮은 비트 속도의 신호로 압축하는 것이다. 상기 디지털 압축은 상기 입력 음성 프레임을 파라미터들의 세트로 표현하고 상기 파라미터들을 양자화하여 비트들의 세트로 표현함으로써 이루어진다. 만약 상기 입력 음성 프레임이 Ni 비트들을 가지고 있으며, 음성 코더에 의해 발생된 데이타 패킷이 N0 비트들을 가지고 있으면, 상기 음성 코더에 의해 이루어진 압축 계수는 Cr=Ni/No이다. 목표 압축 계수를 유지하면서 상기 디코딩된 음성이 높은 품질을 유지하도록 하는 것이 요구된다. 음성 코더의 성능은 (1)상기 설명한 분석 및 합성 처리 또는 음성 모델이 얼마나 잘 수행되는가 (2)상기 양자화 처리가 프레임당 No 비트들의 목표 비트 속도로 잘 수행되는가에 따라 결정된다. 따라서 음성 모델의 목표는 각 프레임 당 작은 프레임 세트를 가지고 목표 음성 품질 또는 음성 신호의 본질을 잡아내는 것이다.
음성 코더의 디자인에서 가장 중요한 것은 음성 신호를 기술하기 위해 좋은 파라미터들(벡터들을 포함하는)의 세트를 찾아내는 것이다. 좋은 파라미터들의 세트는 허용할 수 있는 정확한 음성 신호를 재구성할 수 있는 낮은 시스템 대역폭을 요구한다. 피치, 신호 전력, 스펙트럼 엔벨로프(또는 포르만트), 진폭 스펙트럼 및 위상 스펙트럼은 음성 코딩 파라미터들의 예들이다.
음성 코더들은 한번에 작은 음성 세그먼트들(전형적으로 5 밀리초 서브프레임)을 인코딩하기 위해 높은 시간-분해능 프로세싱(time-resolution processing)을 채택함으로써 시간 도메인 음성 파형을 포착할 수 있는 시간-도메인 코더들에 의해 구현된다. 각 서브프레임에 대해, 코드북 공간으로부터의 고-정밀 표본(high-precision representative)은 당업계에서 알려진 여러 탐색 알고리즘에 의해 발견된다. 선택적으로, 음성 코더들은 파라미터들의 세트를 통해 입력 음성 프레임의 짧은 기간의 음성 스펙트럼을 포착하고 상기 음성 파라미터들로부터 음성 파형을 재생하는 상응하는 합성 처리를 사용하는 주파수-도메인 코더들에 의해 구현된다. 상기 파라미터 양자화기는 A.Gersho&R.M. Gray의 "벡터 양자화 및 신호 압축"(1992)에 기재된 공지의 양자화 기술에 상응하여 저장된 코드 벡터의 표현으로 상기 파라미터들을 표현함으로써 상기 파라미터들을 저장한다.
저명한 시간-도메인 음성 코더는 이하 참조로서 통합되어 있는 L.B. Rabiner &R.W.Schafer "음성 신호들의 디지털 프로세싱 396-453(1978)"에 기재된 CELP(code excited linear predictive) 코더이다. CELP 코더에서, 음성 신호에 있는 상기 짧은 기간의 상관들 또는 리던던시들은 짧은 기간 포르만트 필터의 계수를 찾는 선형 예측(LP) 분석에 의해 제거된다. 짧은 기간 예측 필터를 입력 음성 프레임에 적용함으로써, LP 잔여 신호를 발생하게 되고, 이 신호는 좀 더 모델화되고 긴 기간 예측 필터 파라미터들과 연속된 통계 코드북으로 양자화된다. 따라서, CELP 코딩은 시간 도메인 음성 파형의 인코딩 작업을 LP 짧은 기간 필터 계수들을 인코딩하는 작업과 상기 LP 잔여 신호를 인코딩하는 작업으로 분리한다. 시간-도메인 코딩은 고정된 속도(예를 들어, 각 프레임당 동일한 수의 비트들 No)로 또는 가변율(다른 종류의 프레임 콘텐츠에 대해 다른 속도가 사용된다)로 작동될 수 있다. 가변율 코더들은 코덱 파라미터들을 목표 품질을 얻을 정도의 적당한 레벨로 인코딩하는데 필요한 비트들만을 사용한다. 예를 들어, 가변율 CELP 코더는 본 발명의 출원인에게 양도되고 이하 참조로서 통합되어 있는 미국 특허 제 5,414,796에 설명되어 있다.
CELP와 같은 시간-도메인 코더들은 전형적으로 시간-도메인 음성 파형의 정확성을 유지하기 위해 프레임당 많은 수의 비트들, No을 사용한다. 그러한 코더들은 전형적으로 프레임당 상대적으로 많은 비트 수들(예를 들어, 8kbps 또는 그 이상), No에 의해 제공되는 양질의 음성 품질을 전송한다. 그러나, 낮은 비트 속도(4kbps 및 그 이하)에서, 시간-도메인 코더들은 가용 비트 수가 제한되어 있기 때문에 높은 품질과 강력한 성능을 유지할 수 없다. 낮은 비트 속도에서, 상기 제한된 코드북 공간은 종래의 시간-도메인 코더들의 파형 매칭 능력을 제거하고, 따라서 이것은 더 빠른 속도의 상업용 응용 기기에서 성공적으로 사용되고 있다. 따라서, 시간 상에서의 개선에서 불구하고, 낮은 비트 속도로 작동하는 어떠한 CELP 코딩 시스템도 일반적으로 잡음으로 특정되는 상당한 왜곡을 겪게된다.
매체에서 낮은 비트 속도(2.4에서 4kbps 및 그 이하의 범위)에서 작동하는 높은 품질의 음성 코더의 개발에 대한 연구와 강력한 상업적 필요성이 현재 대두되고 있다. 상기 응용분야는 무선 전화, 위성 통신, 인터넷 전화, 여러 멀티미디어 및 음성-스트림 응용기기, 음성 메일 및 다른 음성 저장 시스템을 포함한다. 패킷 손실 상황에서 높은 용량과 강력한 성능이 요구된다. 여러 최근의 음성 코딩 규격화의 노력은 낮은 비트 속도 음성 코딩 알고리즘의 연구와 개발을 활성화시키는 다른 직접적인 노력이다. 저-레이트(low-rate) 음성 코더는 가용 대역폭 당 더 많은 채널들, 또는 사용자들을 생성하며, 적절한 채널 코딩의 추가적인 계층과 연결된 낮은 속도 코더는 코더 규격의 전체 비트-공급(bit-budget)을 조정하고, 채널 에러 상황에서 강력한 성능을 준다.
낮은 비트 레이트(bit-rate)에서 음성을 효율적으로 인코딩하는 하나의 효율적인 기술은 멀티모드 코딩이다. 멀티모드 코딩 기술의 예는 1998년 12월 21에 출원된 "가변율 음성 코딩"이라는 제하의 미국 특허 출원번호 제 09/217,341에 설명되어 있으며, 상기 발명은 본 발명의 출원인에게 양도되고 이하 참조로서 통합되어 있다. 종래의 멀티모드 코더들은 서로 다른 종류의 입력 음성 프레임에 대해 서로 다른 모드들 또는 인코딩-디코딩 알고리즘을 적용하고 있다. 각 모드 또는 인코딩-디코딩 처리는 가장 효율적인 방법에서 음성 세그먼트를 유성음화된(voiced) 음성, 무성음화된(unvoiced) 음성, 전이(transition) 음성(즉, 유성음과 무성음의 사이) 및 배경 잡음(침묵 또는 비음성)과 같은 일정한 종류로 적절히 표현하도록 제작된다. 외부의 개루프 모드 결정 메커니즘은 입력 음성 프레임을 조사하고 어떠한 모드가 프레임에 적용될 것인지에 대해 결정한다. 상기 개방-루프 모드 결정은 전형적으로 입력 프레임으로부터 수 개의 파라미터들을 추출하고 일시적인 스펙트럼 특성들에 대해 상기 파라미터들을 평가하고 상기 평가를 기초로하여 모드를 결정함으로써 수행된다.
2.4kbps의 속도에서 작동하는 코딩 시스템들은 일반적으로 본질적으로 파라메트릭(parametric)하다. 즉, 그러한 코딩 시스템들은 피치 주기와 음성 신호의 스펙트럼 곡선(또는 포르만트)을 설명하는 파라미터들을 규칙적인 간격으로 송신함으로써 작동한다. 소위, 이러한 파라메트릭 코더들은 LP 보코더 시스템이다.
LP 보코더들은 유성음화된 음성 신호를 피치 주기당 단일 펄스로 모델화한다. 이러한 기본적인 기술은 다른 것들 중에서 스펙트럼 곡선에 대한 송신 정보를 포함하도록 증가될 수 있다. LP 보코더들이 일반적으로 적절한 성능을 제공하더라도, 그들은 전형적으로 버즈(buzz)로 특정되는 상당한 왜곡을 발생할 수 있다.
최근 몇 년 동안, 파형 코더들과 파라메트릭 코더들의 하이브리드 코더들이 출현하고 있다. 소위, 이러한 하이브리드 코더들은 원형-파형 삽입(prototype-waveform interpolation, PWI) 음성 코딩 시스템이다. 상기 PWI 코딩 시스템은 또한 원형 피치 주기(PPP)음성 코더로도 알려져 있다. PWI 코딩 시스템은 유성음화된 음성을 코딩하는 효율적인 방법을 제공한다. 상기 PWI의 기본 개념은 고정된 간격으로 대표적인 피치 사이클(원형 파형)을 추출하고, 그것의 설명을 송신하고 원형 파형 사이에 삽입함으로써 음성 신호를 재구성하도록 한다. 상기 PWI 방법은 상기 LP잔여 신호 또는 음성 신호에서 작동할 수 있다. PWI 또는 PPP 음성 코더의 예는 1998년 12월 21일에 출원된 "주기적 음성 코딩"라는 제하의 미국 특허출원 제 09/217,494에 설명되어 있으며, 상기 발명은 본 발명의 출원인에게 양도되고 이하 참조로서 통합되어 있다. 다른 PWI 또는 PPP 음성 코더들은 W.Bastiaan Kleijn &Wolfgang Granzow의 "디지털 신호 프로세싱(215-230)의 음성 코딩에서 파형을 삽입하는 방법들 215-230(1991)"라는 제하의 저서와 미국 특허 제5,884,253에 설명되어 있다.
대부분의 종래 음성 코더들에서, 주어진 피치 원형 또는 주어진 프레임의 파라미터들은 각각 개별적으로 양자화되어 인코더에 의해 송신된다. 게다가, 각 파라미터에 대한 차이 값이 송신된다. 상기 차이 값은 현재의 프레임 또는 원형에 대한 파라미터 값과 이전 프레임 또는 원형에 대한 파라미터 값 사이의 차이를 나타낸다. 그러나, 상기 파라미터 값들과 차이 값들을 양자화하는 것은 비트들을 사용하는 것이 요구된다(따라서 대역폭을 요구한다). 낮은 비트 속도 음성 코더에서, 만족할 만한 음성 품질을 유지할 수 있는 최소한의 비트 수를 송신하는 것이 유리하다. 이러한 이유로, 종래의 낮은 비트 속도 음성 코더들에서, 절대 파라미터 값들만이 양자화되어 송신된다. 정보 값을 감소시키지 않고 송신되는 비트 수를 감소시키는 것이 바람직하다. 따라서, 이전 프레임에 대한 파라미터 값들의 가중화된 합과 현재 프레임에 대한 파라미터 값들의 가중화된 합과의 차이를 양자화하는 양자화 구조는 "유성음화된 음성을 예측적으로 양자화는 방법 및 장치"라는 제하의 관련 출원 발명에 설명되어 있으며, 상기 발명은 본 발명의 출원인에게 양도되고 이하 참조로서 통합되어 있다.
음성 코더들은 빈약한 채널 환경 때문에 프레임 소거(erasure), 또는 패킷 손실을 경험한다. 종래의 음성 코더들에서 사용되었던 하나의 해결책은 프레임 소거가 수신된 경우에 이전 프레임을 단순히 반복하는 디코더를 구비하는 것이다. 소거된 프레임 바로 다음 프레임을 동적으로 조절하는 적응형 코드북의 사용에서 개선된 점을 찾아볼 수 있다. 또 다른 실시예에서, 진보된 가변율 보코더(EVRC)는 원격통신 공업 협회 잠정 규정 EIA/TIA IS-127에서 규정되었다. 상기 EVRC 코더는 정확하게 수신된, 낮은 예측으로 인코딩된 프레임에 근거하여 상기 코더 메모리에 있는 수신되지 않은 프레임 변경함으로써, 정확하게 수신된 프레임의 품질을 개선한다.
그러나, 상기 EVRC가 가지고 있는 문제는 프레임 소거와 다음의 조정된 양호한 프레임 사이에서 불연속성이 발생한다는 것이다. 예를 들어, 프레임 소거가 발생하지 않을 때에 피치 펄스들의 상대적인 위치에 비해 피치 펄스들은 매우 가깝게 또는 매우 멀리 위치할 수 있다. 그러한 불연속성은 가청 클릭(an audiable click)을 발생하도록 한다.
일반적으로, 낮은 예측가능성을 포함하고 있는 음성 코더들(상기 앞 단락에서 설명되어 있는)은 프레임 소거 상황에서 더 잘 작동한다. 그러나, 논의된 것과 같이, 그러한 음성 코더들은 상대적으로 더 높은 비트 속도를 요구한다. 반대로, 높은 예측 음성 코더는 합성된 양질의 음성 출력을 얻을 수 있지만(특히 유성음화된 음성과 같은 매우 주기적인 음성에 대하여), 프레임 소거 상황에서 더 나쁘게 작동한다. 양쪽 모두의 음성 코더의 품질을 합성하는 것이 바람직하다. 프레임 소거들과 그 다음의 변경된 양질의 프레임 사이의 불연속성을 평활화하는 방법을 제공하는 것이 바람직하다. 따라서, 프레임 소거가 일어나는 경우 예측 코더의 성능을 개선하고 프레임 소거와 그 다음의 양질의 프레임들 사이의 불연속성을 평활화하는 프레임 소거 보상 방법이 요구된다.
본 발명은 프레임 소거가 발생한 경우에 예측 코더 성능을 개선하고 소거된 프레임과 그 다음의 양질의 프레임 사이의 불연속성을 평활화(smooth)하는 프레임 소거 보상 방법에 관한 것이다. 따라서, 본 발명의 한 관점에서, 음성 코더에서 프레임 소거에 대한 보상 방법이 제공된다. 상기 방법은 유리하게는 소거된 프레임이 선언된 후에 현재 처리된 프레임에 대한 피치 래그 값과 델타 값을 양자화하는 단계 - 상기 델타 값은 현재 프레임에 대한 피치 래그 값과 현재 프레임에 바로 앞의 프레임에 대한 피치 래그 값 사이의 차이를 의미한다 - ; 현재의 프레임 이전과 소거된 프레임 이후의 적어도 하나의 프레임에 대한 델타 값을 양자화하는 단계 - 여기서 상기 델타 값은 적어도 하나의 프레임에 대한 피치 래그 값과 적어도 하나의 프레임 바로 앞의 프레임에 대한 피치 래그 값 사이의 차이와 동일하다 - ; 및 상기 소거된 프레임에 대한 피치 래그 값을 발생하기 위해 현재의 프레임에 대한 피치 래그 값으로부터 각 델타 값을 빼는 단계를 포함한다.
본 발명의 다른 관점에서, 프레임 소거를 보상하도록 구성된 음성 코더가 제공된다. 상기 음성 코더는 바람직하게는 소거된 프레임이 선언된 후에 현재 처리된 프레임에 대한 피치 래그 값과 델타 값을 양자화하는 수단 - 상기 델타 값은 현재 프레임에 대한 피치 래그 값과 현재 프레임 바로 앞의 프레임에 대한 피치 래그 값 사이의 차이를 의미한다 - ; 현재의 프레임 이전과 상기 프레임 소거 이후의 적어도 하나의 프레임에 대한 델타 값을 양자화하는 수단 - 여기서 상기 델타 값은 적어도 하나의 프레임에 대한 피치 래그 값과 적어도 하나의 프레임 바로 앞의 프레임에 대한 피치 래그 값 사이의 차이와 동일하다 - ; 및 상기 소거된 프레임에 대한 피치 래그 값을 발생하기 위해 현재의 프레임에 대한 피치 래그 값으로부터 각 델타 값을 빼는 수단을 포함한다.
본 발명의 또 다른 관점에서, 프레임 소거를 보상하도록 구성된 가입자 유닛이 제공된다. 가입자 유닛은 바람직하게는 소거된 프레임이 선언된 후에 현재 처리된 프레임에 대한 피치 래그 값과 델타 값을 양자화하도록 구성된 제1 음성 코더 - 상기 델타 값은 현재 프레임에 대한 피치 래그 값과 현재 프레임 바로 앞의 프레임에 대한 피치 래그 값 사이의 차이를 의미한다 - ; 현재의 프레임 이전과 프레임 소거 이후의 적어도 하나의 프레임에 대한 델타 값을 양자화하도록 구성된 제2 음성 코더 - 여기서 상기 델타 값은 적어도 하나의 프레임에 대한 피치 래그 값과 적어도 하나의 프레임 바로 앞의 프레임에 대한 피치 래그 값 사이의 차이와 동일하다 - ; 및 제1 및 제2 음성 코더에 연결되어 있으며, 상기 소거된 프레임에 대한 피치 래그 값을 발생하기 위해 현재의 프레임에 대한 피치 래그 값으로부터 각 델타 값을 빼도록 구성된 제어 프로세서를 포함한다.
프레임 소거를 보상하도록 구성된 기반구조 구성요소가 제공된다. 기반구조 구성요소는 바람직하게는 프로세서; 및 소거된 프레임이 선언된 후에 현재 처리된 프레임에 대한 피치 래그 값과 델타 값을 양자화하며(여기서 상기 델타 값은 현재 프레임에 대한 피치 래그 값과 현재 프레임 바로 앞의 프레임에 대한 피치 래그 값 사이의 차이를 의미한다), 현재의 프레임 이전과 프레임 소거 이후의 적어도 하나의 프레임에 대한 델타 값을 양자화하며(여기서 상기 델타 값은 적어도 하나의 프레임에 대한 피치 래그 값과 적어도 하나의 프레임 바로 앞의 프레임에 대한 피치 래그 값 사이의 차이와 동일하다), 상기 소거된 프레임에 대한 피치 래그 값을 발생하기 위해 현재의 프레임에 대한 피치 래그 값으로부터 각 델타 값을 빼도록 상기 프로세서에 의해 실행되는 명령들의 세트를 포함하며 상기 프로세서에 연결된 저장 매체를 포함한다.
도1은 무선 전화 시스템의 블록 다이어그램이다.
도2는 음성 코더에 의해 각 단부에서 종료되는 통신 채널의 블록 다이어그램이다.
도3은 음성 인코더의 블록 다이어그램이다.
도4는 음성 디코더의 블록 다이어그램이다.
도5는 인코더/전송기와 디코더/수신기 부분들을 포함하는 음성 코더의 블록 다이어그램이다.
도6은 유성음화된 음성 세그먼트에 대한 시간 대 신호 진폭의 그래프이다.
도7은 도5의 음성 코더의 디코더/수신기에서 사용되는 제1 프레임 소거 프로세싱 방식을 설명하고 있다.
도8은 도5의 음성 코더의 디코더/수신기 부분에 사용될 수 있는, 가변율 음성 코더를 위해 제작된 제2 프레임 소거 프로세싱 방식을 설명하고 있다.
도9는 왜곡된 프레임과 양호한 프레임 사이의 전이를 평활화하는데 사용될 수 있는 프레임 소거 프로세싱 방식을 설명하기 위해 여러 선형 예측(LP) 잔여 파형들에 대한 신호 진폭 대 시간을 도시하고 있다.
도10은 도9에서 도시하고 있는 프레임 소거 프로세싱 방식의 장점을 설명하기 위해 여러 LP잔여 파형에 대한 신호 진폭 대 시간을 도시하고 있다.
도11은 피치 기간 원형 또는 파형 삽입 코딩 기술을 설명하기 위해 여러 파형에 대한 신호 진폭 대 시간을 도시하고 있다.
도12는 저장 매체에 연결된 프로세서의 블록 다이어그램이다.
이하 설명된 실시예는 무선 인터페이스에서 CDMA를 사용하도록 구성된 무선 전화 통신 시스템에 관한 것이다. 그럼에도 불구하고, 본 발명의 특징들을 구현하는 유성음화된 음성을 예측하여 코딩하는 방법 및 장치는 당업자에게 알려진 광범위한 기술을 이용하는 여러 통신 시스템들에도 사용될 수 있다는 것을 이해할 것이다.
도1에서 설명된 것과 같이, CDMA 무선 전화 시스템은 일반적으로 복수의 이동 가입자 유닛들(10), 복수의 기지국들(12), 기지국 제어기들(BSC,14) 및 이동 전화 교환국(MSC, 16)을 포함한다. 상기 MSC(16)은 종래의 공중전화교환국(PSTN, 18)과 인터페이싱하도록 구성되어 있다. 상기 MSC(16)은 또한 BSC(14)와 인터페이싱하도록 구성되어 있다. 상기 BSC(14)는 백홀(backhaul)라인을 통해 기지국(12)와 연결되어 있다. 상기 백홀 라인은 예를 들어, E1/T1,ATM, IP, PPP, 프레임 중계기, HDSL, ADSL 또는 xDSL을 포함하는 여러 알려진 인터페이스들 중에서 어떤 것도 지원할 수 있도록 구성되어 있다. 상기 시스템에서 두 개 이상의 BSC가 존재할 수 있다는 것을 알 수 있다. 각 지기국(12)은 바람직하게 적어도 하나의 섹터(도시되지 않음)를 포함하는데, 상기 섹터는 전방향성 안테나 또는 기지국(12)으로부터 특정 방향을 방사적으로 지시하는 안테나를 포함한다. 선택적으로, 각 섹터는 다이버시티 수신을 위한 두 개의 안테나를 포함할 수 있다. 각 기지국(12)은 바람직하게 복수의 주파수 할당을 지원할 수 있도록 디자인될 수 있다. 섹터와 주파수 할당의 인터섹션(intersection)은 CDMA 채널로 언급된다. 상기 기지국(12)은 또한 기지국 송수신기 서브시스템(BTS,12)으로도 언급된다. 선택적으로, "기지국"은 산업상 BSC(14)와 하나 이상의 BTS(12)의 조합을 언급하는 것으로 사용되기도 한다. 상기 BTS는 또한 "셀 사이트(12)"로도 언급될 수 있다. 선택적으로, 주어진 BTS(12)의 각 섹터는 셀 사이트로 언급될 수 있다. 이동 가입자 유닛(10)은 전형적으로 셀룰러 또는 PCS전화(10)이다. 상기 시스템은 바람직하게 IS-95규격에 상응하도록 구성된다.
셀룰러 전화 시스템의 전형적인 작동 동안에, 상기 기지국(12)은 이동국(10)의 세트들로부터 역방향 링크 신호들의 세트들을 수신한다. 상기 이동국(10)은 전화 통화 또는 다른 통신을 수행한다. 주어진 기지국(12)에서 수신된 각 역방향 링크 신호는 상기 기지국(12)에서 처리된다. 상기 결과 데이터는 BSC(14)로 전송된다. 상기 BSC(14)는 호 자원 할당과 기지국(12)간의 소프트 핸드오프의 조정을 포함하는 이동성 관리 기능을 제공한다. 상기 BSC(14)는 또한 상기 수신된 데이터를 상기 MSC(16)에 제공하며, 상기 MSC는 PSTN(18)과의 인터페이스를 위해 추가적인 라우팅 서비스를 제공한다. 유사하게, 상기 PSTN(18)은 MSC(16)과 인터페이싱하며, 상기 MSC(16)는 BSC(14)와 인터페이싱하며, BSC(14)는 순방향 링크 신호들을 이동국(10)의 세트로 송신하기 위해 기지국(12)을 제어한다. 가입자 유닛(10)은 선택적인 실시예에서는 고정된 유닛일 수 있다는 것을 이해할 것이다.
도2에서, 제1 인코더(100)는 디지털화된 음성 샘플 s(n)을 수신하고 상기 샘플 s(n)을 송신 매체(102) 또는 통신 채널(102)을 통해 제1 디코더(104)로 송신하기 위해 인코딩한다. 상기 디코더(104)는 인코딩된 음성 샘플들을 디코딩하고 출력 음성 신호 sSYNTH(n)를 합성한다. 반대 방향의 송신을 위해, 제2 인코더(106)는 통신 채널(108)을 통해 송신되는 디지털화된 음성 샘플들 s(n)을 인코딩한다. 제2 디코더(110)는 상기 인코딩된 음성 샘플들을 수신하고 디코딩하여 합성된 출력 음성 신호 sSYNTH(n)를 발생한다.
상기 음성 샘플들 s(n)은 예를 들어 펄스 코드 변조(PCM), 압신된(companded) μ-법칙 또는 A-법칙을 포함하는 당업계에서 알려진 여러 방법들 중 어느 하나와 상응하게 디지털화되고 양자화된 음성 신호들을 나타낸다. 당업계에서 알려진 것과 같이, 음성 샘플들 s(n)은 입력 데이터의 프레임으로 만들어지며, 여기서 각 프레임은 소정의 디지털화된 음성 샘플들 s(n)을 포함한다. 실시예에서, 8kbps의 샘플링 속도가 사용되며, 각 20ms 프레임은 160개의 샘플들을 포함한다. 이하 설명된 실시예에서, 데이터 송신 속도는 바람직하게 프레임 대 프레임 방식으로 전체 속도에서 1/2 속도, 1/4속도 및 1/8속도로 변화할 수 있다. 데이터 송신 속도를 변화하는 것은 상대적으로 적은 음성 정보를 포함하고 있는 프레임들에 대해서는 더 느린 비트 레이트를 선택하여 적용할 수 있기 때문이다. 당업자가 이해할 수 있는 것과 같이, 다른 샘플링 속도 및/또는 프레임 사이즈가 사용될 수 있다. 또한, 이하 설명된 실시예에서, 상기 음성 인코딩(코딩) 모드는 프레임 대 프레임 방식에서 음성 정보 또는 프레임 에너지에 상응하여 변화할 수 있다.
제1 인코더(100)와 제2 디코더(110)는 함께 제1 음성 코더(인코더/디코더) 또는 음성 코덱을 포함한다. 상기 음성 코더는 가입자 유닛, BTS, 또는 도1에서 상기 설명한 BSC를 포함하는 음성 신호들을 송신하기 위한 일정한 통신 기기에 사용될 수 있다. 유사하게, 제2 인코더(106)와 제1 디코더(104)는 함께 제2 음성 코더를 포함한다. 당업자는 음성 코더들을 디지털 신호 프로세서(DSP), 주문형 반도체(ASIC), 이산 게이트 논리, 펌웨어 또는 일정한 종래 프로그램할 수 있는 소프트웨어 모듈 및 마이크로프로세서로써 구현할 수 있다. 상기 소프트웨어 모듈은 RAM 메모리, 플래시 메모리, 레지스터 또는 당업계에 알려진 다른 일정한 형태의 저장 매체에 존재할 수 있다. 선택적으로, 일정한 종래 프로세서, 제어기 또는 상태 머신은 마이크로프로세서로 대체될 수 있다. 음성 코딩을 위해 특별히 디자인된 ASIC의 예는 본 발명의 출원인에게 양도되고 이하 참조로서 통합되어 있는 미국 특허 제 5,727,123과 "보코더 ASIC"라는 제하로 1994년 2월 16일에 출원된 미국 특허출원 제 08/197,417에 설명되어 있다.
도3에서, 음성 코더에 사용될 수 있는 인코더(200)는 모드 결정 모듈(202), 피치 평가 모듈(204), LP분석 모듈(206), LP분석 필터(208), LP양자화 모듈(210) 및 잔여 양자화 모듈(residue quantazation module,212)을 포함한다. 입력 음성 프레임 s(n)은 모드 결정 모듈(202), 피치 평가 모듈(204), LP분석 모듈(206), LP분석 필터(208)에 제공된다. 상기 모드 결정 모듈(202)은 다른 특징들 중에서 각 입력 음성 프레임 s(n)의 주기, 에너지, 신호 대 잡음 비(SNR) 또는 제로 교차율(zero crosssing rate)에 근거하여 모드 인덱스 IM과 모드 M을 제공한다. 주기에 따라 음성 프레임들을 분류하는 여러 방법들이 본 발명의 출원인에게 양도되고 이하 참조로서 통합되어 있는 미국 특허 제 5,911,128에 설명되어 있다. 여러 방법들이 또한 미국 통신 협회 잠정 규정 TIA/EIA IS-127과 TIA/EIA IS-733에 통합되어 있다. 모드 결정 구조의 예는 또한 전술한 미국 특허 출원 제09/217,341에 설명되어 있다.
피치 평가 모듈(204)은 각 입력 음성 프레임 s(n)에 근거하여 피치 인덱스 Ip와 래그 값 Po을 발생한다. 상기 LP분석 모듈(206)은 각 입력 음성 프레임 s(n)에 대해 선형 예측 분석을 수행하여 LP파라미터 a를 발생한다. 상기 LP 파라미터 a는 LP 양자화 모듈(210)에 제공된다. 상기 LP양자화 모듈(210)은 또한 모드 M을 수신하여 모드-의존 방식으로 양자화 처리를 수행한다. 상기 LP 양자화 모듈(210)은 LP인덱스 ILP와 양자화된 LP파라미터
Figure 112006026790015-pct00001
를 발생한다. 상기 LP분석 필터(208)는 입력 음성 프레임 s(n)뿐만 아니라 상기 양자화된 LP파라미터
Figure 112006026790015-pct00002
를 수신한다. 상기 LP분석 필터(208)는 LP잔여 신호 R[n]을 발생하는데, 그것은 양자화된 선형 예측 파라미터
Figure 112006026790015-pct00003
에 근거하여 입력 음성 프레임 s(n)과 재구성된 음성 사이의 에러를 나타낸다. 상기 LP잔여 R[n], 모드 M 및 양자화된 LP파라미터
Figure 112006026790015-pct00004
는 잔여 양자화 모듈(212)에 제공된다. 이러한 값들에 근거하여, 상기 잔여 양자화 모듈(212)은 잔여 인덱스 IR과 양자화된 잔여 신호
Figure 112006026790015-pct00005
를 발생한다.
도4에서, 음성 코더에서 사용되는 디코더(300)는 LP파라미터 디코딩 모듈(302), 잔여 디코딩 모듈(304), 모드 디코딩 모듈(306) 및 LP합성 필터(308)를 포함한다. 상기 모드 디코딩 모듈(306)은 모드 인덱스 IM을 수신하고 디코딩하여, 그것으로부터 모드 M을 발생한다. 상기 LP파라미터 디코딩 모듈(302)은 모드 M과 LP인덱스 ILP을 수신한다. 상기 LP파라미터 디코딩 모듈(302)은 수신된 값들을 디코딩하여 양자화된 LP파라미터
Figure 112006026790015-pct00006
를 생성한다. 상기 잔여 디코딩 모듈(304)은 잔여 인덱스 IR, 피치 인덱스 IP 및 모드 인덱스 IM을 수신한다. 상기 잔여 디코딩 모듈(304)은 상기 수신된 값들을 디코딩하여 양자화된 잔여 신호
Figure 112006026790015-pct00007
를 발생한다. 상기 양자화된 잔여신호
Figure 112006026790015-pct00008
및 상기 양자화된 LP 파라미터
Figure 112006026790015-pct00009
는 LP합성기 필터로부터 디코딩된 출력 음성 신호
Figure 112006026790015-pct00010
를 합성하는 LP 합성 필터(308)에 제공된다.
도3의 인코더(200)와 도4의 디코더(300)의 여러 모듈의 작동과 구현은 당업계에 알려져 있으며, 전술한 미국 특허 제 5,414,796과 L.B Rabiner& R.W. Schafer의 "음성 신호들의 디지털 프로세싱 396-453(1978)"에 설명되어 있다.
실시예에서, 멀티모드 음성 인코더(400)는 통신 채널 또는 송신 매체(404)를 통해 멀티모드 음성 디코더(402)와 통신한다. 상기 통신 채널(404)은 바람직하게 IS-95 규격에 따르도록 구성된 RF 인터페이스이다. 당업자는 인코더(400)가 관련된 디코더(미도시)를 가지고 있다는 것을 이해할 것이다. 인코더(400) 및 그것의 관련된 디코더는 함께 제1 음성 코더를 형성한다. 당업자는 디코더(402)가 관련된 인코더(미도시)를 가지고 있다는 것을 이해할 것이다. 상기 디코더(402)와 그것의 관련된 인코더는 함께 제2 음성 코더를 형성한다. 상기 제1 및 제2 음성 코더들은 바람직하게는 제1 및 제2 DSP의 부분으로 구현될 수 있으며, 예를 들어 가입자 유닛 또는 PCS 또는 셀룰러 전화 시스템 또는 위성 시스템의 가입자 유닛과 게이트웨이에 존재할 수 있다.
인코더(400)는 파라미터 계산기(406), 모드 분류 모듈(408), 복수의 인코딩 모드들(410) 및 패킷 포맷팅 모듈(412)을 포함한다. 상기 인코딩 모드(410)의 수는 n으로 나타나 있으며, 그 수는 적당한 인코딩 모드(410)의 수를 의미한다는 것을 당업자는 이해할 것이다. 간략화를 위해, 단지 세 개의 인코딩 모드(410)가 보여지고 있으며, 점선은 다른 인코딩 모드(410)가 존재한다는 것을 의미한다. 상기 디코더(402)는 패킷 디스어셈블러(disassembler)와 패킷 상실 탐지기 모듈(414), 복수의 디코딩 모드(416), 소거 디코더(418) 및 포스트 필터 또는 음성 합성기(420)를 포함한다. 디코딩 모드(416)의 수는 n으로 나타나 있으며, 그 수는 적당한 디코딩 모드(416)의 수를 의미한다는 것을 당업자는 이해할 것이다. 간략화를 위해, 단지 세 개의 디코딩 모드(410)가 보여지고 있으며, 점선은 다른 디코딩 모드(410)가 존재한다는 것을 의미한다.
음성 신호는 파라미터 계산기(406)에 제공된다. 상기 음성 신호는 프레임이라고 불리는 샘플 블록으로 분해된다. 상기 값 n은 프레임의 수를 가리킨다. 선택적인 실시예에서, 선형 예측(LP)잔여 에러 신호는 음성 신호를 대신하여 사용된 다. 상기 LP 잔여는 예를 들어, CELP코더와 같은 음성 코더들에 의해 사용된다. 상기 LP 잔여의 계산은 바람직하게 상기 음성 신호를 역 LP 필터(미도시)에 제공함으로써 수행된다. 상기 역 LP필터의 전달함수, A(z)는 다음의 식에 상응하여 계산된다:
A(z) = 1 -a1z-1 - a2z-2 - ......- apz-p
여기서 계수 a1는 전술한 미국 특허 제 5,414,796과 미국 특허 출원 제 09/217,494에 설명된 여러 방법들에 상응하여 선택된 소정의 값들을 가지고 있는 필터 탭들이다. 상기 수 p는 예측을 위해 상기 역 LP필터가 사용하는 이전 샘플의 수를 나타낸다. 특정 실시예에서, p는 10이다.
파라미터 계산기(406)는 현재 프레임에 근거하여 여러 파라미터들을 유도한다. 한 실시예에서, 이러한 파라미터들은 적어도 다음의 하나를 포함한다: 선형 예측 코딩(LPC) 필터 계수들, 선 스펙트럼 페어(LSP) 계수, 정규화된 자동상관 함수(NACFs), 개방루프 래그, 제로 교차율, 밴드 에너지 및 포르만트 잔여 신호. LPC 계수들, LSP 계수들, 개루프 래그, 밴드 에너지, 및 포르만트 잔여 신호의 계산은 전술한 미국 특허 제 5,414,796에 자세히 설명되어 있다. NACFs과 제로 교차율의 계산은 전술한 미국 특허 제 5,911,128에 자세히 설명되어 있다.
상기 파라미터 계산기(406)는 상기 모드 분류 모듈(408)에 연결되어 있다. 상기 파라미터 계산기(406)는 상기 파라미터들을 모드 분류 모듈(408)에 제공한다. 상기 모드 분류 모듈(408)은 현재 프레임에 대한 가장 적절한 인코딩 모드(410)를 선택하기 위해 프레임 대 프레임 방식으로 인코딩 모드(410)들 사이에서 능동적으로 스위치에 연결된다. 상기 모드 분류 모듈(408)은 상기 파라미터들을 소정의 임계값 및/또는 상한 값에 비교함으로써 현재의 프레임에 대한 특정 인코딩 모드(410)를 선택한다. 프레임의 에너지에 근거하여, 모드 분류 모듈(408)은 상기 프레임을 비음성 또는 비활성 음성 (예를 들어, 침묵, 배경 잡음 또는 말들 사이의 중단) 또는 음성으로 분류한다. 프레임의 주기에 근거하여, 모드 분류 모듈(408)은 음성 프레임들을 예를 들어, 유성음화된, 무성음화된, 전이와 같은 특정 타입의 음성으로 분류한다.
유성음화된 음성은 상대적으로 빠른 주기를 나타낸다. 유성음화된 음성의 세그먼트는 도6의 그래프에 나타나 있다. 설명된 것과 같이, 상기 피치 주기는 프레임을 분석하여 재구성하는데 유리하게 사용될 수 있는 음성 프레임의 구성요소이다. 무성음화된 음성은 전형적으로 자음을 포함한다. 전이 음성 프레임들은 전형적으로 유성음과 무성음 음성 사이의 전이들이다. 유성음과 무성음 모두로 분류되지 않은 프레임은 전이 음성으로 분류된다. 당업자들은 일정 적절한 분류 구조가 사용될 수 있다는 것을 이해할 것이다.
음성 프레임을 분류하는 것은 다른 타입의 음성을 인코딩하기 위해 서로 다른 인코딩 모드(410)가 사용될 수 있고, 따라서 통신 채널(404)과 같은 서로 공유된 대역폭을 보다 효율적으로 사용할 수 있기 때문에 바람직하다. 예를 들어, 유성음화된 음성은 주기적이고 따라서 고도로 예측가능하기 때문에, 저-비트 레이트의, 고도로 예측가능한 인코딩 모드(410)가 유성음화된 음성을 인코딩하기 위해 사용될 수 있다. 분류 모듈(410)과 같은 분류 모듈은 전술한 미국 특허 출원 제 09/217,341과 1999년 2월 26일에 출원된 "폐루프 멀티모드 혼성 도메인 선형 예측(MDLP) 음성 코더"라는 제하의 미국 특허 출원 제 09/259,151에 설명되어 있으며, 양 발명은 본 발명의 출원인에게 양도되었고 이하 참조로서 통합되어 있다.
상기 모드 분류 모듈(408)은 프레임의 분류에 근거하여 현재의 프레임에 대한 인코딩 모드(410)를 선택한다. 여러 인코딩 모드(410)가 병렬로 연결되어 있다. 하나 이상의 인코딩 모드(410)가 일정 주어진 시간에 작동할 수 있다. 그럼에도 불구하고, 단지 하나의 인코딩 모드(410)가 바람직하게 일정 주어진 시간에 작동하며, 현재 프레임의 분류에 상응하여 선택된다.
서로 다른 인코딩 모드(410)는 바람직하게 서로 다른 코딩 비트율, 코딩 구조, 또는 코딩율과 코딩 구조의 조합에 상응하여 작동한다. 사용되는 여러 코딩율은 전체율(full rate), 1/2율, 1/4율, 및/또는 1/8율이 사용될 수 있다. 사용되는 여러 코딩 구조는 CELP 코딩, 원형 피치 주기(PPP) 코딩(또는 파형 삽입(WI) 코딩) 및/또는 잡음 활성 선형 예측(NELP) 코딩이다. 따라서, 예를 들어, 특정 인코딩 모드(410)는 전체율 CELP일 수 있으며, 또 다른 인코딩 모드(410)는 1/2율 CELP일 수 있으며, 또다른 인코딩 모드(410)는 1/4율 PPP일 수 있으며, 또 다른 인코딩 모드(410)는 NELP일 수 있다.
CELP 인코딩 모드(410)에 상응하여, 선형 예측 성도(vocal tract) 모델은 상기 LP잔여 신호의 양자화된 버전에 의해 활성화된다. 전체 이전 프레임에 대한 양자화된 파라미터들은 현재의 프레임을 재구성하는데 사용된다. 상기 CELP인코딩 모드(410)는 상대적으로 고속 코딩 비트율로 비교적 정확한 음성 재구성을 발생한다. 상기 CELP 인코딩 모드(410)는 바람직하게 전이 음성으로 분류된 프레임들을 인코딩하는데 사용된다. 가변율 CELP 음성 코더의 예는 전술한 미국 특허 제 5,414,796에 자세히 설명되어 있다.
NELP 인코딩 모드(410)에 상응하여, 필터링된 의사 난수 잡음 신호는 음성 프레임을 모델화하는데 사용된다. 상기 NELP 인코딩 모드(41)는 낮은 비트율을 성취하는 상대적으로 간단한 기술이다. 상기 NELP 인코딩 모드(412)는 무성음화된 음성으로 분류된 프레임들을 인코딩하는데 사용될 수 있다. NELP 인코딩 모드의 예는 전술한 미국 특허 출원 제 09/217,494에 설명되어 있다.
PPP인코딩 모드(410)에 상응하여, 단지 각 프레임에 있는 피치 주기의 서브세트가 인코딩된다. 음성 신호의 상기 남은 주기들은 이러한 원형 주기들 사이에 삽입함으로써 재구성된다. PPP코딩의 시간-도메인 구현에서, 파라미터들의 제1 세트가 계산되어 어떻게 이전 원형 주기가 현재 원형 주기에 알맞도록 수정되는지를 설명하고 있다. 하나 이상의 코드벡터들은 선택되어 그것들이 합해졌을 때, 현재 원형 주기와 수정된 이전 원형 주기 사이의 차이를 조절한다. 파라미터들의 제2 세트는 이러한 선택된 코드벡터들을 설명한다. 주파수-도메인의 PPP코딩의 구현에서, 파라미터들의 세트는 계산되어 상기 원형의 진폭과 위상 스펙트럼을 설명한다. 이것은 절대적으로 또는 예측적으로 행해진다. 원형의 진폭과 위상(또는 전체 프레임)을 예측적으로 양자화하는 방법은 "유성음화된 음성을 예측적으로 양자화하는 방법 및 장치"라는 제하로 전술한 관련 출원에 설명되어 있다. PPP코딩의 구현과 상응하여, 상기 디코더는 제1 및 제2 파라미터 세트들에 근거하여 현재 원형을 재구성함으로써 출력 음성 신호를 합성한다. 상기 음성 신호는 현재 재구성된 원형 주기와 이전의 재구성된 원형 주기 사이의 지역에 삽입된다. 디코더에서 음성 신호 또는 상기 LP잔여 신호를 재구성하기 위해 프레임 중 유사한 위치에 있던 이전 프레임으로부터의 원형으로 선형 삽입될 현재 프레임 부분이다.(즉, 이전 원형 주기는 현재 원형 주기의 예측자(predictor)로 사용된다) PPP탐지 코더의 예는 전술한 미국 특허 출원 제 09/217,494에 자세히 설명되어 있다.
전체 탐지 프레임 대신에 원형 주기를 코딩하는 것은 요구되는 코딩 비트율을 감소하게 한다. 유성음화된 음성으로 분류된 프레임들은 바람직하게 PPP인코딩 모드(410)로 코드될 수 있다. 도6에서 설명되어 있는 것과 같이, 유성음화된 음성은 PPP인코딩 모드(410)에서 사용되는 느리게 시간에 변화하는, 주기적 컴포넌트들을 포함한다. 상기 유성음화된 음성의 주기를 이용함으로써, 상기 PPP 인코딩 모드(410)는 CELP 인코딩 모드(410) 대신에 더 낮은 비트율을 달성할 수 있다.
상기 선택된 인코딩 코드(410)는 패킷 포맷 모듈(412)에 연결되어 있다. 상기 선택된 인코딩 모드(410)는 현재 프레임을 인코딩하거나 양자화하며 양자화된 프레임 파라미터를 패킷 포맷팅 모듈(412)에 제공한다. 상기 패킷 포맷팅 모듈(412)은 바람직하게 양자화된 정보를 모아 패킷을 만들어 통신 채널(404)을 통해 송신한다. 한 실시예에서, 상기 패킷 포맷 모듈(412)은 에러 수정 코딩을 제공하고 IS-95 규격에 상응하여 상기 패킷을 포맷하도록 구성된다. 상기 패킷은 송신기(미도시)에 제공되고, 아날로그 포맷으로 변화되고 변조되어, 통신 채널(404)을 통해 수신기(미도시)에 송신되는데, 상기 수신기는 상기 패킷을 수신하고 복조하며 디지털화하여 상기 패킷을 디코더(402)에 제공한다.
디코더(402)에서, 상기 패킷 디스어셈블러와 패킷 손실 탐지기 모듈(414)은 수신기로부터 패킷을 수신한다. 상기 패킷 디스어셈블러와 패킷 손실 탐지기 모듈(414)은 패킷 대 패킷 방식으로 상기 디코딩 모드(416)사이에서 능동적으로 스위칭되도록 연결되어 있다. 상기 디코딩 코드(416)의 수는 인코딩 모드(410)의 수와 같으며, 각각 숫자로 표시된 인코딩 모드(410)는 각각 동일한 코딩율과 코딩 구조를 사용하도록 구성된 유사하게 숫자로 계정된 디코딩 모드(416)에 관련되어 있다.
만약 패킷 디스어셈블러와 패킷 상실 탐지기 모듈(414)이 상기 패킷을 탐지하면, 상기 패킷은 디스어셈블링되고 적절한 디코딩 모드(416)에 제공된다. 만약 상기 패킷 디스어셈블러와 패킷 손실 탐지기 모듈(414)이 패킷을 탐지하지 않으면, 패킷 손실이 선언되고 상기 소거 디코더(418)는 바람직하게 이하 자세히 설명된 프레임 소거 프로세싱을 수행한다.
디코딩 모드들(416)과 상기 소거 디코더(418)의 병렬 어레이는 포스트 필터(420)에 접속된다. 상기 적절한 디코딩 모드(416)는 디코딩하거나 비양자화하며, 상기 패킷은 정보를 포스트 필터(420)에 제공한다. 상기 포스트 필터(420)는 음성 프레임을 재구성하고 합성하여 합성된 음성 프레임,
Figure 112007063289953-pct00011
,을 출력한다. 디코딩 모드와 포스트 필터의 예는 전술한 미국 특허 제 5,414,796과 미국 특허 출원 제 09/217,494에 설명되어 있다.
한 실시예에서, 상기 양자화된 파라미터들 자신은 송신되지 않는다. 대신, 디코더(412)의 여러 룩업 테이블(LUTs)(미도시)에 있는 주소를 규정하는 코드북 인덱스들이 송신된다. 상기 디코더(402)는 상기 코드북 인덱스들을 수신하고 적절한 파라미터 값들에 대한 여러 코드북 LUT들을 탐지한다. 따라서, 예를 들어 피치 래그, 적응형 코드북 이득과 같은 파라미터에 대한 코드북 인덱스들과 LSP가 송신될 수 있으며 LUT들에 관련된 이러한 것들은 디코더(402)에 의해 탐지된다.
상기 CELP 인코딩 모드(410)에 상응하여, 피치 래그, 진폭, 위상 및 LSP 파라미터들이 송신된다. 상기 LSP코드북 인덱스들은 상기 LP 잔여 신호가 디코드(402)에서 합성되기 때문에 송신된다. 추가적으로, 현재 프레임에 대한 피치 래그 값과 이전 프레임에 대한 피치 래그 값 사이의 차이가 송신된다.
음성 신호가 디코드에서 합성되는 종래 PPP인코딩 모드에 상응하여, 단지 피치 래그, 진폭 및 위상 파라미터들이 송신된다. 종래 PPP 음성 코딩 기술들에서 사용되는 상기 더 낮은 비트율은 절대 피치 래그 정보와 상대적 피치 래그 차이 값들 모두를 송신하지 않는다.
한 실시예에 상응하여, 유성음화된 음성 프레임과 같이 더 빠른 주기 프레임이 현재 프레임에 대한 상기 피치 래그 값과 이전 프레임에 대한 피치 래그 값 사이의 차이를 송신하기 위해 양자화하며 현재 프레임에 대한 피치 래그 값을 송신하기 위해 양자화하지 않는 낮은 비트율 PPP인코딩 모드에 의해 송신된다. 유성음화된 프레임들은 본질적으로 빠른 주기이기 때문에, 절대적 피치 래그 값에 대신하여 상기 차이를 송신하는 것은 더 낮은 비트율이 달성될 수 있도록 한다. 한 실시예에서, 상기 양자화는 일반화되며, 따라서 이전 프레임들에 대한 가중된 파라미터들의 합이 계산되며, 여기서 상기 가중화된 합은 1이고 상기 가중화된 합은 현재 파라미터에 대한 상기 파라미터로부터 감산된다. 상기 차이는 양자화된다. 이러한 기술들은 "유성음화된 음성을 주기적으로 양자화하는 방법 및 장치"라는 제하의 전술한 관련 출원에 자세히 설명되어 있다.
한 실시예에 상응하여, 가변율 코딩 시스템은 서로 다른 인코더, 제어 프로세서에 의해 제어되는 인코딩 모드 또는 모드 분류기로 제어 프로세서에 의해 결정되는 것과 같이 서로 다른 음성 타입을 인코딩한다. 상기 인코더는 이전 프레임에 대한 피치 래그 값, L-1과 현재 프레임에 대한 피치 래그 값, L에 의해 규정되는 피치 윤곽(contour)에 따라 현재 프레임 잔여 신호(또는 선택적으로 음성 신호)를 수정한다. 상기 디코더에 대한 제어 프로세서는 현재 프레임에 대한 양자화된 잔여 또는 음성을 위한 피치 메모리로부터 적응형 코드북 기여 {P(n)}을 재구성하기 위해 동일한 피치 윤곽을 따라간다.
만약 상기 이전 피치 래그 값, L-1이 상실되면, 상기 디코더는 정확한 피치 윤곽을 재구성할 수 없다. 이것은 상기 적응형 코드북 기여{P(n)}가 왜곡되도록 한다. 반대로, 상기 합성된 음성은 현재의 프레임에 대해 패킷이 상실되지 않더라도, 심한 품질 저하를 경험하게된다. 이를 위해, 종래의 코더들은 L과 L및 L-1사이의 차이를 인코딩하는 구조를 사용하였다. 상기 차이 또는 델타 피치 값은 △로 정의될 수 있으며, 여기서 △=L - L-1은 L-1이 이전 프레임에서 상실되면, L-1을 재구성하는데 사용된다.
현재 설명된 실시예는 가변율 코딩 시스템에서 가장 큰 장점으로 사용될 수 있다. 특히, 제1 인코더(또는 인코딩 모드)는 C에 의해 정의되며, 현재의 피치 래그 값, L과 상기 설명된 델타 피치 래그 값, △을 인코딩한다. 제2 인코더(또는 인코딩 모드)는 Q로 정의되며, 델타 피치 래그 값, △을 인코딩하지만, 필수적으로 피치 래그 값,L,을 인코딩하지는 않는다. 이것은 제2 코더, Q가 추가적인 비트들을 사용하여 다른 파라미터들을 인코딩하거나 비트들을 저장하도록 한다.(즉, 저비트율 코더로 작동한다) 제1 코더, C는 바람직하게 전체율 CELP 코더와 같이 상대적 비주기적 음성을 인코딩하는데 사용된다. 제2 코더, Q는 바람직하게 1/4율 PPP코더와 같이 빠른 주기적 음성(예를 들어, 유성음화된 음성)을 인코딩하는데 사용된다.
도7에서 설명되어 있는 것과 같이, 만약 이전 프레임, 프레임 n-1,의 상기 패킷이 상실되면, 이전 프레임, 즉 프레임 n-2 이전에 수신된 프레임을 디코딩한 후에, 상기 피치 메모리 기여 {P-2(n)}는 코더 메모리(미도시)에 저장된다. 프레임 n-2에 대한 상기 피치 래그 값, L-2는 또한 코더 메모리에 저장된다. 만약 현재 프레임, 즉 프레임 n이 코더 C에 의해 인코딩되면, 프레임 n은 C프레임이라고 불린다. 코더 C는 상기 식 L-1=L-△를 이용하여 상기 델타 피치 값, △으로부터 이전 피치 래그 값, L-1을 재구성할 수 있다. 따라서, 정확한 피치 윤곽이 상기 값들, L-1과 L-2로부터 재구성될 수 있다. 프레임 n-1에 대한 상기 적응형 코드북 기여는 주어진 올바른 피치 윤곽으로 수정되며, 결국 프레임 n에 대한 상기 적응형 코드북 기여를 발생하는데 사용된다. 당업자는 EVRC코더와 같은 일정한 종래 코더들에 그러한 구조가 사용된다는 것을 이해할 것이다.
한 실시예와 상응하여, 상기 설명한 두 가지 타입의 코더(코더 Q와 코더 C)를 사용하는 가변율 음성 코딩 시스템에서 프레임 소거 성능은 이하 설명되는 것과 같이 강화된다. 도8의 예에서 설명되어 있는 것과 같이, 가변율 코딩 시스템은 코더 C와 코더 Q 모두를 사용하도록 디자인될 수 있다. 현재 프레임, 프레임 n은 C프레임이며, 그것의 패킷은 상실되지 않는다. 상기 이전 프레임, 프레임 n-1은 Q프레임이다. 상기 Q프레임에 선행하는 프레임에 대한 패킷(즉, 프레임 n-2에 대한 패킷)은 상실되었다.
프레임 n-2에 대한 프레임 소거 프로세싱에서, 상기 피치 메모리 기여, {P-3(n)}은 프레임 n-3을 디코딩한 후에 코더 메모리(미도시)에 저장된다. 프레임 n-3에 대한 상기 피치 래그 값, L-3은 또한 코더 메모리에 저장된다. 상기 프레임 n-1에 대한 피치 래그 값, L-1은 식 L-1=L-△에 따라 C프레임 패킷에서 델타 피치 래그 값, △,(L-L-1과 동일)을 이용하여 복원될 수 있다. 프레임 n-1은 L-1-L-2와 동일한, 자신의 인코딩된 델타 피치 래그 값, △-1을 가지고 있는 Q프레임이다. 따라서, 상기 소거 프레임, 프레임 n-2에 대한 피치 래그 값, L-2은 식 L-2=L-1-△-1에 따라 재구성될 수 있다. 프레임 n-2와 프레임 n-1에 대한 정확한 피치 래그 값을 가지고, 이러한 프레임들에 대한 피치 윤곽이 바람직하게 재구성될 수 있으며 상기 적응형 코드북 기여는 복원될 수 있다. 따라서, 상기 C프레임은 상기 적응형 코드북 기여의 양자화된 LP잔여 신호(또는 음성 신호)에 대한 적응형 코드북 기여를 계산하기 위해 요구되는 개선된 피치 메모리를 가질 수 있다. 이러한 방법은 소거 프레임과 C프레임 사이의 복수의 Q프레임의 존재를 허용하는데 까지 사용될 수 있다는 것을 당업자가 이해할 것이다.
도9에서 도식적으로 보여지는 것과 같이, 프레임이 소거될 때, 상기 소거 디코더(예를 들어, 도5의 구성요소(418))는 프레임에 대한 정확한 정보 없이도 양자화된 LP잔여(또는 음성 신호)를 재구성한다. 만약 소거된 프레임의 상기 피치 윤곽과 피치 메모리가 현재 프레임의 양자화된 LP잔여(또는 음성 신호)를 재구성하는 상기 설명된 방법에 상응하게 재구성된다면, 상기 결과적인 양자화된 LP잔여(또는 음성 신호)는 왜곡된 피치 메모리가 사용되었던 것과는 다를 것이다. 코더 피치 메모리에서 그러한 변화는 프레임 상에서 양자화된 잔여(또는 음성 신호)의 불연속으로 나타난다. 따라서, 전이 소리 또는 클릭은 EVRC 코더와 같은 종래의 음성 코더들에서 들을 수 있었다.
한 실시예에 상응하여, 피치 주기 원형은 재구성되기 전에 왜곡된 피치 메모리에서 추출된다. 현재 프레임에 대한 상기 LP 잔여(또는 음성 신호)는 또한 평범한 역양자화(dequantization) 처리에 상응하여 추출된다. 현재 프레임에 대한 상기 양자화된 LP잔여(또는 음성 신호)는 파형 삽입(WI) 방법에 상응하여 재구성된다. 특정한 실시예에서, 상기 WI방법은 상기 설명한 PPP인코딩 모드에서 작동한다. 이러한 방법은 바람직하게 상기 설명한 불연속성을 평활화하는데 사용되며, 음성 코더의 프레임 소거 성능을 보다 강화하는데 사용된다. 그러한 WI 방법은 상기 피치 메모리가 상기 복원을 수행하기 위해 사용되는 기술(예를 들어, 이전에 설명된 기술들을 포함하지만 이에 한정되지 않는)에 관계없이 소거 처리에 의하여 복원될 때마다 사용될 수 있다.
도10의 그래프는 가청 클릭을 발생하는, 종래의 기술에 상응하게 적용되는 LP 잔여 신호와 상기 설명한 WI 평활 방법에 상응하게 평활화된 LP잔여 신호 사이의 차이를 보이도록 설명하고 있다. 도11의 그래프는 PPP의 원칙 또는 WI 코딩 기술을 설명하고 있다.
따라서, 가변율 음성 코더에서 새롭고 개선된 프레임 소거 보상 방법이 설명되어 있다. 당업자들은 상기 설명을 통해 참고가 되고 있는 데이터, 지시들, 명령들, 정보, 신호들, 비트들, 심벌들 및 칩들은 바람직하게 전압, 전류, 전자기파, 자기장 또는 입자들, 광학 필드 또는 입자들, 또는 그것들의 일정한 조합으로 표현될 수 있다. 당업자는 여기서 공시된 실시예와 연결되어 설명된 예시적인 논리 블록, 모듈, 회로, 및 알고리즘은 전기 하드웨어, 컴퓨터 소프트웨어 또는 그것들의 조합으로 구현될 수 있다. 상기 여러 예시적인 구성요소들, 블록들, 모듈들, 회로들 및 단계들은 일반적으로 그들의 기능으로 설명되어 있다. 상기 기능들이 하드웨어 또는 소프트웨어로 구현될지는 전체 시스템에 부과된 특정한 응용기기 또는 디자인 제한에 근거하고 있다. 이러한 환경에서 당업자는 상기 하드웨어와 소프트웨어를 상호교환할 수 있다는 것을 인식할 수 있으며, 각 특정 응용기기에서 상기 설명된 기능을 어떻게 하면 최대로 구현할 수 있을지를 인식하고 있다. 예를 들어, 이하 공시된 실시예와 연결되어 설명된 상기 예시적인 여러 논리 블록들, 모듈들, 회로들 및 알고리즘 단계들은 디지털 신호 프로세서(DSP), 주문형 반도체(ASIC), 필드 프로그램할 수 있는 게이트 어레이(FPGA) 또는 다른 프로그램할 수 있는 로직 기기, 이산 게이트 또는 트랜지스터 로직, 예를 들어 레지스터 또는 FIFO과 같은 이산 하드웨어 구성요소들, 펌웨어 지시들의 세트를 수행하는 프로세서, 또는 이하 설명된 상기 기능들을 수행하도록 디자인된 그것들의 일정한 조합에 의해 실현되거나 수행될 수 있다. 상기 프로세서는 바람직하게 마이크로프로세서일 수 있지만, 선택적으로 일정한 종래의 프로세서, 제어기, 마이크로제어기 또는 상태 기계일 수 있다. 상기 소프트웨어 모듈은 RAM 메모리, 플래시 메모리, ROM 메모리, EPROM 메모리, EEPROM 메모리, 레지스터, 하드디스크, 이동할 수 있는 디스크, CD-ROM 또는 당업계에 알려진 일정한 다른 형태의 저장 매체에 존재할 수 있다. 도12에서 설명되어 있는 것과 같이, 프로세서(500)는 바람직하게 저장매체(502)에 연결되어 있으며, 따라서 저장매체(502)에서 정보를 읽거나 쓸 수 있다. 선택적으로, 상기 저장 매체(502)는 상기 프로세서(500)에 필수적인 구성요소일 수 있다. 상기 프로세서(500)와 저장 매체(502)는 ASIC(미도시)에 존재한다. 상기 ASIC는 전화(미도시)에 존재할 수 있다. 선택적으로, 상기 프로세서(500)는 DSP와 마이크로프로세서의 조합 또는 DSP 중심에 연결된 두 개의 마이크로프로세서에 의해 구현될 수 있다.
본 발명의 바람직한 실시예는 따라서 보여지고 설명되었다. 그러나 당업자들은 본 발명의 범위와 정신을 벗어나지 않고서 여기서 공시된 실시예의 않은 수정이 만들어 질 수 있다는 것을 이해할 것이다. 따라서, 본 발명은 이하의 청구항들에 의해 제한된다.

Claims (20)

  1. 입성 코더에서 프레임 소거(erasure)를 보상하는 방법으로서,
    소거된 프레임이 선언된 후에 처리된 현재의 프레임에 대한 피치 래그 값(a pitch lag value)과 델타 값(a delta value) - 상기 델타 값은 상기 현재 프레임에 대한 피치 래그 값과 상기 현재 프레임 바로 앞의 프레임에 대한 피치 래그 값 사이의 차이와 동일함 - 을 양자화하는 제 1 양자화 단계;
    상기 현재 프레임 이전 및 상기 소거된 프레임 이후의 적어도 하나의 프레임에 대한 델타 값 - 상기 델타 값은 상기 적어도 하나의 프레임에 대한 피치 래그 값과 상기 적어도 하나의 프레임 바로 앞의 프레임에 대한 피치 래그 값 사이의 차이와 동일함 - 을 양자화하는 제 2 양자화 단계; 및
    상기 소거된 프레임에 대한 피치 래그 값을 발생하기 위해, 상기 현재의 프레임에 대한 상기 피치 래그 값으로부터 각 델타 값을 빼는 단계를 포함하는 프레임 소거 보상 방법.
  2. 제1항에 있어서, 재구성된 프레임을 발생하기 위해 상기 소거된 프레임을 재구성하는 단계를 더 포함하는 것을 특징으로 하는 프레임 소거 보상 방법.
  3. 제2항에 있어서, 상기
    현재 프레임과 상기 재구성된 프레임 사이에 존재하는 임의의 불연속성을 평활화(smooth)하기 위해 파형 삽입(a waveform interpolation)을 수행하는 단계를 더 포함하는 것을 특징으로 하는 프레임 소거 보상 방법.
  4. 제1항에 있어서, 상기 제 1 양자화 단계는 비예측 코딩 모드(nonpredictive coding mode)에 따라 수행되는 것을 특징으로 하는 프레임 소거 보상 방법.
  5. 제1항에 있어서, 상기 제 2 양자화 단계는 예측 코딩 모드에 따라 수행되는 것을 특징으로 하는 프레임 소거 보상 방법.
  6. 프레임 소거를 보상하도록 구성된 음성 코더로서,
    소거된 프레임이 선언된 후에 처리된 현재의 프레임에 대한 피치 래그 값과 델타 값 - 상기 델타 값은 상기 현재 프레임에 대한 피치 래그 값과 상기 현재 프레임 바로 앞의 프레임에 대한 피치 래그 값 사이의 차이와 동일함 - 을 양자화하는 제 1 양자화 수단;
    상기 현재 프레임 이전 및 상기 소거된 프레임 이후의 적어도 하나의 프레임에 대한 델타 값 - 상기 델타 값은 상기 적어도 하나의 프레임에 대한 피치 래그 값과 상기 적어도 하나의 프레임 바로 앞의 프레임에 대한 피치 래그 값 사이의 차이와 동일함 - 을 양자화하는 제 2 양자화 수단; 및
    상기 소거된 프레임에 대한 피치 래그 값을 발생하기 위해, 상기 현재의 프레임에 대한 상기 피치 래그 값으로부터 각 델타 값을 빼는 수단을 포함하는 프레임 소거 보상용 음성 코더.
  7. 제6항에 있어서, 재구성된 프레임을 발생하기 위해 상기 소거된 프레임을 재구성하는 수단을 더 포함하는 것을 특징으로 하는 프레임 소거 보상용 음성 코더.
  8. 제7항에 있어서, 상기 현재 프레임과 상기 재구성된 프레임 사이에 존재하는 임의의 불연속성을 평활화하기 위해 파형 삽입을 수행하는 수단을 더 포함하는 것을 특징으로 하는 프레임 소거 보상용 음성 코더.
  9. 제6항에 있어서, 상기 제 1 양자화 수단은 비예측 코딩 모드(nonpredictive coding mode)에 따라 양자화하는 수단을 포함하는 것을 특징으로 하는 프레임 소거 보상용 음성 코더.
  10. 제6항에 있어서, 상기 제 2 양자화 수단은 예측 코딩 모드에 따라 양자화하는 수단을 포함하는 것을 특징으로 하는 프레임 소거 보상용 음성 코더.
  11. 프레임 소거를 보상하도록 구성된 가입자 유닛으로서,
    소거된 프레임이 선언된 후에 처리된 현재의 프레임에 대한 피치 래그 값과 델타 값 - 상기 델타 값은 상기 현재 프레임에 대한 피치 래그 값과 상기 현재 프레임 바로 앞의 프레임에 대한 피치 래그 값 사이의 차이와 동일함 - 을 양자화하도록 구성된 제1음성 코더;
    상기 현재 프레임 이전 및 상기 소거된 프레임 이후의 적어도 하나의 프레임에 대한 델타 값 - 상기 델타 값은 상기 적어도 하나의 프레임에 대한 피치 래그 값과 상기 적어도 하나의 프레임 바로 앞의 프레임에 대한 피치 래그 값 사이의 차이와 동일함 - 을 양자화하도록 구성된 제2 음성 코더; 및
    상기 제1 및 제2 음성 코더들에 연결되어 있으며, 상기 소거된 프레임에 대한 피치 래그 값을 발생하기 위해, 상기 현재의 프레임에 대한 상기 피치 래그 값으로부터 각 델타 값을 빼도록 구성된 제어 프로세서를 포함하는 프레임 소거 보상용 가입자 유닛.
  12. 제11항에 있어서, 상기 제어 프로세서는 재구성된 프레임을 발생하기 위해 상기 소거된 프레임을 재구성하도록 더 구성되는 것을 특징으로 하는 프레임 소거 보상용 가입자 유닛.
  13. 제12항에 있어서, 상기 제어 프로세서는 상기 현재 프레임과 상기 재구성된 프레임 사이에 존재하는 임의의 불연속성을 평활화하기 위해 파형 삽입을 수행하도록 더 구성되는 것을 특징으로 하는 프레임 소거 보상용 가입자 유닛.
  14. 제11항에 있어서, 상기 제1 음성 코더는 비예측 코딩 모드에 따라 양자화하도록 구성되는 것을 특징으로 하는 프레임 소거 보상용 가입자 유닛.
  15. 제11항에 있어서, 상기 제2 음성 코더는 예측 코딩 모드에 따라 양자화하도록 구성되는 것을 특징으로 하는 프레임 소거 보상용 가입자 유닛.
  16. 프레임 소거를 보상하도록 구성된 기반구조 구성요소(infrastructure element)로서,
    프로세서;및
    상기 프로세서에 연결되어 있으며, 소거된 프레임이 선언된 후에 처리된 현재의 프레임에 대한 피치 래그 값과 델타 값 - 상기 델타 값은 상기 현재 프레임에 대한 피치 래그 값과 상기 현재 프레임 바로 앞의 프레임에 대한 피치 래그 값 사이의 차이와 동일함 - 을 양자화하며, 상기 현재 프레임 이전 및 상기 소거된 프레임 이후의 적어도 하나의 프레임에 대한 델타 값 - 상기 델타 값은 상기 적어도 하나의 프레임에 대한 피치 래그 값과 상기 적어도 하나의 프레임 바로 앞의 프레임에 대한 피치 래그 값 사이의 차이와 동일함 - 을 양자화하며, 그리고 상기 소거된 프레임에 대한 피치 래그 값을 발생하기 위해 상기 현재의 프레임에 대한 상기 피치 래그 값으로부터 각 델타 값을 빼도록 상기 프로세서에 의해 실행될 수 있는 명령(instruction)들의 세트를 포함하는 저장 매체를 포함하는 프레임 소거 보상용 기반구조 구성요소.
  17. 제16항에 있어서, 상기 명령들의 세트는 재구성된 프레임을 발생하기 위해 상기 소거된 프레임을 재구성하도록 상기 프로세서에 의해 더 실행될 수 있는 것을 특징으로 하는 프레임 소거 보상용 기반구조 구성요소.
  18. 제17항에 있어서, 상기 명령들의 세트는 상기 현재 프레임과 상기 재구성된 프레임 사이에 존재하는 임의의 불연속성을 평활화하기 위해 파형 삽입(interpolation)을 수행하도록 상기 프로세서에 의해 더 실행될 수 있는 것을 특징으로 하는 프레임 소거 보상용 기반구조 구성요소.
  19. 제16항에 있어서, 상기 명령들의 세트는 비예측 코딩 모드에 따라 상기 현재 프레임에 대한 상기 피치 래그 값과 상기 델타 값을 양자화하도록 상기 프로세서에 의해 더 실행될 수 있는 것을 특징으로 하는 프레임 소거 보상용 기반구조 구성요소.
  20. 제16항에 있어서, 상기 명령들의 세트는 예측 코딩 모드에 따라 상기 현재 프레임 이전 및 상기 소거된 프레임 이후의 상기 적어도 하나의 프레임에 대한 델타 값을 양자화하도록 상기 프로세서에 의해 더 실행될 수 있는 것을 특징으로 하는 프레임 소거 보상용 기반구조 구성요소.
KR1020027014221A 2000-04-24 2001-04-18 가변율 음성 코더에서 프레임 소거를 보상하는 방법 Expired - Lifetime KR100805983B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/557,283 2000-04-24
US09/557,283 US6584438B1 (en) 2000-04-24 2000-04-24 Frame erasure compensation method in a variable rate speech coder

Publications (2)

Publication Number Publication Date
KR20020093940A KR20020093940A (ko) 2002-12-16
KR100805983B1 true KR100805983B1 (ko) 2008-02-25

Family

ID=24224779

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020027014221A Expired - Lifetime KR100805983B1 (ko) 2000-04-24 2001-04-18 가변율 음성 코더에서 프레임 소거를 보상하는 방법

Country Status (12)

Country Link
US (1) US6584438B1 (ko)
EP (3) EP2099028B1 (ko)
JP (1) JP4870313B2 (ko)
KR (1) KR100805983B1 (ko)
CN (1) CN1223989C (ko)
AT (2) ATE502379T1 (ko)
AU (1) AU2001257102A1 (ko)
BR (1) BR0110252A (ko)
DE (2) DE60129544T2 (ko)
ES (2) ES2360176T3 (ko)
TW (1) TW519615B (ko)
WO (1) WO2001082289A2 (ko)

Families Citing this family (78)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW376611B (en) * 1998-05-26 1999-12-11 Koninkl Philips Electronics Nv Transmission system with improved speech encoder
DE60137376D1 (de) * 2000-04-24 2009-02-26 Qualcomm Inc Verfahren und Vorrichtung zur prädiktiven Quantisierung von stimmhaften Sprachsignalen
US7080009B2 (en) * 2000-05-01 2006-07-18 Motorola, Inc. Method and apparatus for reducing rate determination errors and their artifacts
US6937979B2 (en) * 2000-09-15 2005-08-30 Mindspeed Technologies, Inc. Coding based on spectral content of a speech signal
US7013267B1 (en) * 2001-07-30 2006-03-14 Cisco Technology, Inc. Method and apparatus for reconstructing voice information
US7353168B2 (en) * 2001-10-03 2008-04-01 Broadcom Corporation Method and apparatus to eliminate discontinuities in adaptively filtered signals
US7096180B2 (en) * 2002-05-15 2006-08-22 Intel Corporation Method and apparatuses for improving quality of digitally encoded speech in the presence of interference
US6789058B2 (en) * 2002-10-15 2004-09-07 Mindspeed Technologies, Inc. Complexity resource manager for multi-channel speech processing
KR100451622B1 (ko) * 2002-11-11 2004-10-08 한국전자통신연구원 통신용 보코더 및 이를 이용한 통신 방법
JP4303687B2 (ja) * 2003-01-30 2009-07-29 富士通株式会社 音声パケット消失隠蔽装置,音声パケット消失隠蔽方法,受信端末および音声通信システム
KR20060011854A (ko) * 2003-05-14 2006-02-03 오끼 덴끼 고오교 가부시끼가이샤 소거된 주기 신호 데이터를 은닉하는 장치 및 방법
US20050049853A1 (en) * 2003-09-01 2005-03-03 Mi-Suk Lee Frame loss concealment method and device for VoIP system
US7433815B2 (en) * 2003-09-10 2008-10-07 Dilithium Networks Pty Ltd. Method and apparatus for voice transcoding between variable rate coders
US7505764B2 (en) * 2003-10-28 2009-03-17 Motorola, Inc. Method for retransmitting a speech packet
US7729267B2 (en) * 2003-11-26 2010-06-01 Cisco Technology, Inc. Method and apparatus for analyzing a media path in a packet switched network
US7602922B2 (en) * 2004-04-05 2009-10-13 Koninklijke Philips Electronics N.V. Multi-channel encoder
JP4445328B2 (ja) * 2004-05-24 2010-04-07 パナソニック株式会社 音声・楽音復号化装置および音声・楽音復号化方法
US8725501B2 (en) * 2004-07-20 2014-05-13 Panasonic Corporation Audio decoding device and compensation frame generation method
US7681104B1 (en) * 2004-08-09 2010-03-16 Bakbone Software, Inc. Method for erasure coding data across a plurality of data stores in a network
US7681105B1 (en) * 2004-08-09 2010-03-16 Bakbone Software, Inc. Method for lock-free clustered erasure coding and recovery of data across a plurality of data stores in a network
EP1787290B1 (en) 2004-08-30 2010-11-17 Qualcomm Incorporated Method and apparatus for an adaptive de-jitter buffer
US7519535B2 (en) * 2005-01-31 2009-04-14 Qualcomm Incorporated Frame erasure concealment in voice communications
BRPI0607247B1 (pt) 2005-01-31 2019-10-29 Skype método para gerar uma seqüência de saída de amostras em resposta a uma primeira e uma segunda subseqüências de amostras, código de programa executável por computador, dispositivo de armazenamento de programa, e, arranjo para receber um sinal de áudio digitalizado
US8355907B2 (en) 2005-03-11 2013-01-15 Qualcomm Incorporated Method and apparatus for phase matching frames in vocoders
US8155965B2 (en) 2005-03-11 2012-04-10 Qualcomm Incorporated Time warping frames inside the vocoder by modifying the residual
CN101167125B (zh) * 2005-03-11 2012-02-29 高通股份有限公司 用于对声码器内的帧进行相位匹配的方法及设备
US9058812B2 (en) * 2005-07-27 2015-06-16 Google Technology Holdings LLC Method and system for coding an information signal using pitch delay contour adjustment
US8259840B2 (en) * 2005-10-24 2012-09-04 General Motors Llc Data communication via a voice channel of a wireless communication network using discontinuities
KR100647336B1 (ko) * 2005-11-08 2006-11-23 삼성전자주식회사 적응적 시간/주파수 기반 오디오 부호화/복호화 장치 및방법
US8032369B2 (en) * 2006-01-20 2011-10-04 Qualcomm Incorporated Arbitrary average data rates for variable rate coders
US8346544B2 (en) * 2006-01-20 2013-01-01 Qualcomm Incorporated Selection of encoding modes and/or encoding rates for speech compression with closed loop re-decision
US8090573B2 (en) * 2006-01-20 2012-01-03 Qualcomm Incorporated Selection of encoding modes and/or encoding rates for speech compression with open loop re-decision
US7457746B2 (en) * 2006-03-20 2008-11-25 Mindspeed Technologies, Inc. Pitch prediction for packet loss concealment
JP5052514B2 (ja) * 2006-07-12 2012-10-17 パナソニック株式会社 音声復号装置
US8135047B2 (en) * 2006-07-31 2012-03-13 Qualcomm Incorporated Systems and methods for including an identifier with a packet associated with a speech signal
FR2907586A1 (fr) * 2006-10-20 2008-04-25 France Telecom Synthese de blocs perdus d'un signal audionumerique,avec correction de periode de pitch.
US7738383B2 (en) * 2006-12-21 2010-06-15 Cisco Technology, Inc. Traceroute using address request messages
US8279889B2 (en) 2007-01-04 2012-10-02 Qualcomm Incorporated Systems and methods for dimming a first packet associated with a first bit rate to a second packet associated with a second bit rate
CN101226744B (zh) * 2007-01-19 2011-04-13 华为技术有限公司 语音解码器中实现语音解码的方法及装置
US7706278B2 (en) * 2007-01-24 2010-04-27 Cisco Technology, Inc. Triggering flow analysis at intermediary devices
US7873064B1 (en) 2007-02-12 2011-01-18 Marvell International Ltd. Adaptive jitter buffer-packet loss concealment
CN101321033B (zh) * 2007-06-10 2011-08-10 华为技术有限公司 帧补偿方法及系统
CN101325631B (zh) * 2007-06-14 2010-10-20 华为技术有限公司 一种估计基音周期的方法和装置
ES2363190T3 (es) * 2007-06-15 2011-07-26 France Telecom Codificación de señales audio-digitales.
ATE456130T1 (de) * 2007-10-29 2010-02-15 Harman Becker Automotive Sys Partielle sprachrekonstruktion
CN101437009B (zh) * 2007-11-15 2011-02-02 华为技术有限公司 丢包隐藏的方法及其系统
KR20090122143A (ko) * 2008-05-23 2009-11-26 엘지전자 주식회사 오디오 신호 처리 방법 및 장치
US8768690B2 (en) * 2008-06-20 2014-07-01 Qualcomm Incorporated Coding scheme selection for low-bit-rate applications
US20090319263A1 (en) * 2008-06-20 2009-12-24 Qualcomm Incorporated Coding of transitional speech frames for low-bit-rate applications
US20090319261A1 (en) * 2008-06-20 2009-12-24 Qualcomm Incorporated Coding of transitional speech frames for low-bit-rate applications
EP2239732A1 (en) * 2009-04-09 2010-10-13 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Apparatus and method for generating a synthesis audio signal and for encoding an audio signal
RU2452044C1 (ru) 2009-04-02 2012-05-27 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. Устройство, способ и носитель с программным кодом для генерирования представления сигнала с расширенным диапазоном частот на основе представления входного сигнала с использованием сочетания гармонического расширения диапазона частот и негармонического расширения диапазона частот
JP5111430B2 (ja) * 2009-04-24 2013-01-09 パナソニック株式会社 音声符号化装置、音声復号化装置、及びこれらの方法
US8670990B2 (en) * 2009-08-03 2014-03-11 Broadcom Corporation Dynamic time scale modification for reduced bit rate audio coding
WO2011065741A2 (ko) * 2009-11-24 2011-06-03 엘지전자 주식회사 오디오 신호 처리 방법 및 장치
GB0920729D0 (en) * 2009-11-26 2010-01-13 Icera Inc Signal fading
US9838784B2 (en) 2009-12-02 2017-12-05 Knowles Electronics, Llc Directional audio capture
US8774010B2 (en) 2010-11-02 2014-07-08 Cisco Technology, Inc. System and method for providing proactive fault monitoring in a network environment
US8559341B2 (en) 2010-11-08 2013-10-15 Cisco Technology, Inc. System and method for providing a loop free topology in a network environment
US8982733B2 (en) 2011-03-04 2015-03-17 Cisco Technology, Inc. System and method for managing topology changes in a network environment
US8670326B1 (en) 2011-03-31 2014-03-11 Cisco Technology, Inc. System and method for probing multiple paths in a network environment
US8990074B2 (en) 2011-05-24 2015-03-24 Qualcomm Incorporated Noise-robust speech coding mode classification
US8724517B1 (en) 2011-06-02 2014-05-13 Cisco Technology, Inc. System and method for managing network traffic disruption
US8830875B1 (en) 2011-06-15 2014-09-09 Cisco Technology, Inc. System and method for providing a loop free topology in a network environment
JP5328883B2 (ja) * 2011-12-02 2013-10-30 パナソニック株式会社 Celp型音声復号化装置およびcelp型音声復号化方法
US9450846B1 (en) 2012-10-17 2016-09-20 Cisco Technology, Inc. System and method for tracking packets in a network environment
PL2922053T3 (pl) * 2012-11-15 2019-11-29 Ntt Docomo Inc Urządzenie do kodowania audio, sposób kodowania audio, program do kodowania audio, urządzenie do dekodowania audio, sposób dekodowania audio, i program do dekodowania audio
US9842598B2 (en) * 2013-02-21 2017-12-12 Qualcomm Incorporated Systems and methods for mitigating potential frame instability
EP3540731B1 (en) 2013-06-21 2024-07-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Pitch lag estimation
CN105378831B (zh) 2013-06-21 2019-05-31 弗朗霍夫应用科学研究促进协会 针对切换式音频编码系统在错误隐藏过程中的改善信号衰落的装置及方法
KR101828186B1 (ko) 2013-06-21 2018-02-09 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 개선된 펄스 재동기화를 사용하여 acelp-형 은폐 내에서 적응적 코드북의 개선된 은폐를 위한 장치 및 방법
US9536540B2 (en) 2013-07-19 2017-01-03 Knowles Electronics, Llc Speech signal separation and synthesis based on auditory scene analysis and speech modeling
US9418671B2 (en) 2013-08-15 2016-08-16 Huawei Technologies Co., Ltd. Adaptive high-pass post-filter
CN110265058B (zh) 2013-12-19 2023-01-17 瑞典爱立信有限公司 估计音频信号中的背景噪声
EP2980796A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method and apparatus for processing an audio signal, audio decoder, and audio encoder
DE112015004185T5 (de) 2014-09-12 2017-06-01 Knowles Electronics, Llc Systeme und Verfahren zur Wiederherstellung von Sprachkomponenten
US9820042B1 (en) 2016-05-02 2017-11-14 Knowles Electronics, Llc Stereo separation and directional suppression with omni-directional microphones
US10447430B2 (en) 2016-08-01 2019-10-15 Sony Interactive Entertainment LLC Forward error correction for streaming data

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4710960A (en) 1983-02-21 1987-12-01 Nec Corporation Speech-adaptive predictive coding system having reflected binary encoder/decoder
EP0731448A2 (en) * 1995-03-10 1996-09-11 AT&T Corp. Frame erasure compensation techniques

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4901307A (en) 1986-10-17 1990-02-13 Qualcomm, Inc. Spread spectrum multiple access communication system using satellite or terrestrial repeaters
JP2707564B2 (ja) * 1987-12-14 1998-01-28 株式会社日立製作所 音声符号化方式
US5103459B1 (en) 1990-06-25 1999-07-06 Qualcomm Inc System and method for generating signal waveforms in a cdma cellular telephone system
ES2225321T3 (es) 1991-06-11 2005-03-16 Qualcomm Incorporated Aparaato y procedimiento para el enmascaramiento de errores en tramas de datos.
US5884253A (en) * 1992-04-09 1999-03-16 Lucent Technologies, Inc. Prototype waveform speech coding with interpolation of pitch, pitch-period waveforms, and synthesis filter
US5784532A (en) 1994-02-16 1998-07-21 Qualcomm Incorporated Application specific integrated circuit (ASIC) for performing rapid speech compression in a mobile telephone system
TW271524B (ko) 1994-08-05 1996-03-01 Qualcomm Inc
US5550543A (en) * 1994-10-14 1996-08-27 Lucent Technologies Inc. Frame erasure or packet loss compensation method
JPH08254993A (ja) * 1995-03-16 1996-10-01 Toshiba Corp 音声合成装置
US5699485A (en) * 1995-06-07 1997-12-16 Lucent Technologies Inc. Pitch delay modification during frame erasures
JP3068002B2 (ja) * 1995-09-18 2000-07-24 沖電気工業株式会社 画像符号化装置、画像復号化装置及び画像伝送システム
US5724401A (en) 1996-01-24 1998-03-03 The Penn State Research Foundation Large angle solid state position sensitive x-ray detector system
JP3157116B2 (ja) * 1996-03-29 2001-04-16 三菱電機株式会社 音声符号化伝送システム
JP3134817B2 (ja) * 1997-07-11 2001-02-13 日本電気株式会社 音声符号化復号装置
FR2774827B1 (fr) * 1998-02-06 2000-04-14 France Telecom Procede de decodage d'un flux binaire representatif d'un signal audio
US6456964B2 (en) 1998-12-21 2002-09-24 Qualcomm, Incorporated Encoding of periodic speech using prototype waveforms
US6691084B2 (en) 1998-12-21 2004-02-10 Qualcomm Incorporated Multiple mode variable rate speech coding
US6640209B1 (en) 1999-02-26 2003-10-28 Qualcomm Incorporated Closed-loop multimode mixed-domain linear prediction (MDLP) speech coder
KR100633720B1 (ko) * 1999-04-19 2006-10-16 에이티 앤드 티 코포레이션 패킷 손실 또는 프레임 삭제 은폐를 수행하는 방법 및 장치
JP2001249691A (ja) * 2000-03-06 2001-09-14 Oki Electric Ind Co Ltd 音声符号化装置及び音声復号装置
DE60137376D1 (de) 2000-04-24 2009-02-26 Qualcomm Inc Verfahren und Vorrichtung zur prädiktiven Quantisierung von stimmhaften Sprachsignalen

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4710960A (en) 1983-02-21 1987-12-01 Nec Corporation Speech-adaptive predictive coding system having reflected binary encoder/decoder
EP0731448A2 (en) * 1995-03-10 1996-09-11 AT&T Corp. Frame erasure compensation techniques

Also Published As

Publication number Publication date
JP2004501391A (ja) 2004-01-15
HK1055174A1 (en) 2003-12-24
ES2360176T3 (es) 2011-06-01
DE60144259D1 (de) 2011-04-28
DE60129544T2 (de) 2008-04-17
EP1276832A2 (en) 2003-01-22
US6584438B1 (en) 2003-06-24
EP2099028B1 (en) 2011-03-16
CN1223989C (zh) 2005-10-19
CN1432175A (zh) 2003-07-23
JP4870313B2 (ja) 2012-02-08
EP1276832B1 (en) 2007-07-25
WO2001082289A3 (en) 2002-01-10
EP2099028A1 (en) 2009-09-09
ES2288950T3 (es) 2008-02-01
AU2001257102A1 (en) 2001-11-07
DE60129544D1 (de) 2007-09-06
ATE368278T1 (de) 2007-08-15
WO2001082289A2 (en) 2001-11-01
KR20020093940A (ko) 2002-12-16
EP1850326A2 (en) 2007-10-31
EP1850326A3 (en) 2007-12-05
BR0110252A (pt) 2004-06-29
ATE502379T1 (de) 2011-04-15
TW519615B (en) 2003-02-01

Similar Documents

Publication Publication Date Title
KR100805983B1 (ko) 가변율 음성 코더에서 프레임 소거를 보상하는 방법
US7426466B2 (en) Method and apparatus for quantizing pitch, amplitude, phase and linear spectrum of voiced speech
JP4511094B2 (ja) 音声コーダにおける線スペクトル情報量子化方法を交錯するための方法および装置
KR20020013962A (ko) 프레임 소거 상태에서 예측 음성 코더의 성능을 개선하기위하여 디코더로부터 인코더로 피드백을 제공하는 방법 및장치
US6678649B2 (en) Method and apparatus for subsampling phase spectrum information
US6434519B1 (en) Method and apparatus for identifying frequency bands to compute linear phase shifts between frame prototypes in a speech coder
HK1114684A (en) Frame erasure compensation method in a variable rate speech coder
HK1055174B (en) Frame erasure compensation method in a variable rate speech coder and apparautus using the same
HK1078979B (en) Method and apparatus for predictively quantizing voiced speech
HK1091583B (en) Method and apparatus for subsampling phase spectrum information

Legal Events

Date Code Title Description
PA0105 International application

Patent event date: 20021023

Patent event code: PA01051R01D

Comment text: International Patent Application

PG1501 Laying open of application
A201 Request for examination
PA0201 Request for examination

Patent event code: PA02012R01D

Patent event date: 20060418

Comment text: Request for Examination of Application

E902 Notification of reason for refusal
PE0902 Notice of grounds for rejection

Comment text: Notification of reason for refusal

Patent event date: 20070531

Patent event code: PE09021S01D

E701 Decision to grant or registration of patent right
PE0701 Decision of registration

Patent event code: PE07011S01D

Comment text: Decision to Grant Registration

Patent event date: 20071130

GRNT Written decision to grant
PR0701 Registration of establishment

Comment text: Registration of Establishment

Patent event date: 20080214

Patent event code: PR07011E01D

PR1002 Payment of registration fee

Payment date: 20080214

End annual number: 3

Start annual number: 1

PG1601 Publication of registration
PR1001 Payment of annual fee

Payment date: 20110201

Start annual number: 4

End annual number: 4

PR1001 Payment of annual fee

Payment date: 20120131

Start annual number: 5

End annual number: 5

FPAY Annual fee payment

Payment date: 20130130

Year of fee payment: 6

PR1001 Payment of annual fee

Payment date: 20130130

Start annual number: 6

End annual number: 6

FPAY Annual fee payment

Payment date: 20140129

Year of fee payment: 7

PR1001 Payment of annual fee

Payment date: 20140129

Start annual number: 7

End annual number: 7

FPAY Annual fee payment

Payment date: 20150129

Year of fee payment: 8

PR1001 Payment of annual fee

Payment date: 20150129

Start annual number: 8

End annual number: 8

FPAY Annual fee payment

Payment date: 20151230

Year of fee payment: 9

PR1001 Payment of annual fee

Payment date: 20151230

Start annual number: 9

End annual number: 9

FPAY Annual fee payment

Payment date: 20161229

Year of fee payment: 10

PR1001 Payment of annual fee

Payment date: 20161229

Start annual number: 10

End annual number: 10

FPAY Annual fee payment

Payment date: 20171228

Year of fee payment: 11

PR1001 Payment of annual fee

Payment date: 20171228

Start annual number: 11

End annual number: 11

FPAY Annual fee payment

Payment date: 20190107

Year of fee payment: 12

PR1001 Payment of annual fee

Payment date: 20190107

Start annual number: 12

End annual number: 12

PC1801 Expiration of term

Termination date: 20211018

Termination category: Expiration of duration