[go: up one dir, main page]

KR100614496B1 - 가변 비트율의 광대역 음성 및 오디오 부호화 장치 및방법 - Google Patents

가변 비트율의 광대역 음성 및 오디오 부호화 장치 및방법 Download PDF

Info

Publication number
KR100614496B1
KR100614496B1 KR1020030080225A KR20030080225A KR100614496B1 KR 100614496 B1 KR100614496 B1 KR 100614496B1 KR 1020030080225 A KR1020030080225 A KR 1020030080225A KR 20030080225 A KR20030080225 A KR 20030080225A KR 100614496 B1 KR100614496 B1 KR 100614496B1
Authority
KR
South Korea
Prior art keywords
encoding
signal
bit rate
audio
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
KR1020030080225A
Other languages
English (en)
Other versions
KR20050046204A (ko
Inventor
이미숙
김도영
김홍국
최승호
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020030080225A priority Critical patent/KR100614496B1/ko
Priority to US10/967,045 priority patent/US7634402B2/en
Publication of KR20050046204A publication Critical patent/KR20050046204A/ko
Application granted granted Critical
Publication of KR100614496B1 publication Critical patent/KR100614496B1/ko
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

본 발명은 가변 비트율(variable bit rate)의 광대역 음성 및 오디오의 부호화에 있어서, 음성과 오디오를 판별하여 효율적인 비트율로 전송하기 위한 광대역 음성 및 오디오 부호화 장치 및 그 방법에 관한 것이다.
본 발명에 따른 가변 비트율의 광대역 음성 및 오디오 부호화(wideband speech and audio coding) 장치는, a) 코덱으로 입력되는 신호를 음성이나 오디오 신호로 각각 분류하는 음성 및 오디오 분류 수단; b) 분류된 입력 신호가 음성 신호인 경우, 협대역 부호화를 수행하는 협대역 부호화 수단; c) 분류된 입력 신호가 오디오 신호인 경우, 저대역과 고대역의 부호화 비트율을 각각 조정하는 비트율 조정 수단; 및 d) 비트율 조정 수단에서 조정된 비트율로 부호화를 수행하는 광대역 부호화 수단을 포함한다.
본 발명에 따른 가변 비트율의 광대역 음성 부호화기는 낮은 비트율에서도 고대역에 부호화 비트를 할당함으로써, 입력 신호에 오디오 신호가 포함된 경우에도 음질의 열화를 방지할 수 있고, 효율적으로 비트율을 변경함으로써 가변 비트율의 광대역 음성 부호화기의 성능을 향상시킬 수 있다.
가변 비트율, 부호화, 광대역, 협대역, 음성, 오디오

Description

가변 비트율의 광대역 음성 및 오디오 부호화 장치 및 방법 {An apparatus for coding of variable bit-rate wideband speech and audio signals, and a method thereof}
도 1a 및 도 1b는 음향신호를 각각 전화 음성(Telephone speech), 광대역 음성(Wideband speech) 및 광대역 오디오(Wideband audio 또는 Music) 신호로 분류하는 것을 설명하기 위한 도면이다.
도 2는 일반적인 ITU-T 광대역 음성 부호화기의 종류를 설명하기 위한 도면이다.
도 3은 본 발명에 따른 가변 비트율의 광대역 음성 및 오디오 부호화 장치의 개략적인 구성도이다.
도 4는 본 발명에 따라 협대역과 광대역의 비트율 할당 방법을 예시하는 도면이다.
도 5는 본 발명에 따른 가변 비트율의 광대역 음성 및 오디오 부호화 방법의 순서도이다.
본 발명은 가변 비트율의 광대역 음성 및 오디오 부호화 장치 및 방법에 관한 것으로, 보다 구체적으로, 가변 비트율(variable bitrate)의 광대역 음성 및 오디오의 부호화에 있어서, 음성과 오디오를 판별하여 효율적인 비트율로 전송하기 위한 광대역 음성 및 오디오 부호화 장치 및 그 방법에 관한 것이다.
먼저, 일반적인 음성 부호화 기술에 대해 설명한다. 사람의 음성 주파수는 50~7000㎐의 대역을 가지지만, 요해도를 해치지 않는 300~3400㎐를 음성 대역으로 하고, 보호 대역을 감안하여 8㎑로 표본화하고 있다.
이러한 음성 신호를 디지털 신호로 부호화하는 방법에는 파형 부호화, 음원 부호화, 혼합 부호화 방식이 있으며, 주요 기술로는 PCM(G.711), ADPCM(G.721), SB-ADPCM(G.722), LD-CELP(G.728), CS-ACELP(G.729), MP-MLQ(G.723.1) 등이 있다.
상기 G.711 표준은 64kbps PCM 기술을 이용한 음성 부호화 방식으로서, 1972년 ITU-T에 의해 권고된 파형 부호화 방식의 하나이다. 상기 PCM은 아날로그 음성신호를 표본화, 양자화, 부호화하여 디지털로 전송하고, 수신측에서 복호화함으로써 아날로그 음성신호를 재생시키는 방식으로서, 양자화 잡음을 줄이기 위해 양자화 전에 압축하고, 복호화 후 신장하는 비선형 양자화 기법을 사용하고 있다.
또한, 상기 G.721 표준은 32kbps ADPCM 기술을 이용한 음성 부호화 및 압축 방식으로서, 1984년 ITU-T에 의해 권고되었으며, 상기 ADPCM은 음성신호의 시간 상관성이 큰 특성을 이용하여 입력 신호와 예측 값과의 차이를 4비트 양자화 함으로써 전송 비트율을 감소시키는 기술이며, 적응 양자화기, 적응 예측기를 사용하여 PCM과 거의 동등한 음질을 얻게 된다.
또한, 상기 G.722 표준은 고품질의 현장감 있는 음성 통신을 위해 50㎐~7㎑ 광대역을 64kbps 이하의 고품질로 부호화하는 기술로서, 1986년 ITU-T에 의해 권고되었다. 이러한 Subband-ADPCM 방식은 디지털 필터에 의해 0~4㎑의 저역과 4~8㎑의 고역으로 분할하여 ADPCM 처리한 후에 다중화시켜 64kbps로 전송하는 방식으로서, 음성회의를 보완하는 멀티미디어 통신회의에 응용되고 있다.
또한, 상기 G.728 표준은 저속의 이동통신을 위해 16kbps로 부호화하면서도 전술한 G.721과 동등 이상의 음질을 얻을 수 있는 음성 부호화 방식으로서, 1992년 ITU-T에 의해 권고되었다. 상기 LD-CELP(Low Delay-Code Excited Linear Prediction) 방식은 인간의 청각 특성을 고려, 음성신호의 5샘플을 1 프레임으로 하는 10 바이트만 전송함으로써 2㎳의 부호화 지연 이내에서 벡터 단위로 처리된 높은 음질을 구현한다.
또한, 상기 G.729 표준은 8kbps로 부호화하며, 전술한 G.721보다 음질이 좋다. 여기서, CS-ACELP는 Conjugate Structure-Algebraic Code Excited Linear Prediction의 약어이다.
또한, 상기 G.723.1 표준은 6.3kbps로 부호화하며, 전술한 G.721보다 음질이 좋으며, 이러한 MP-MLQ(Multi Pulse-Multi Level Quantization) 방식으로는 5.3 kbps ACELP(Algebraic Code Excited Linear Prediction) 방식도 있으나, 음질은 떨어진다.
다음의 표 1은 전술한 여러 방식들을 비교하여 나타내고 있다.
표준 압축 방식 속도 MOS 응용
G.711 PCM 64 Kbps 4.1 전화국간 디지털 전송
G.721 ADPCM 32 Kbps 3.85 가정 또는 기업의 CODEC
G.722 SB-ADPCM 64 Kbps (오디오 신호) 멀티미디어 음성회의. AM 방송 품질
G.728 LD-CELP 16 Kbps 3.61 디지털 이동통신, ISDN, FR망 음성용
G.729 CS-ACELP 8 Kbps 3.92 H.323, H.320 영상회의 단말 이동통신, FR망 음성용
G.723.1 MP-MLQ 6.3 Kbps 3.9 이동통신, H.324 등 영상회의 단말 VOIP 포럼 추천
ACELP 5.3 Kbps 3.65
도 1a 및 도 1b는 각각 음향신호를 전화 음성(Telephone speech), 광대역 음성(Wideband speech) 및 광대역 오디오(Wideband audio 또는 Music) 신호로 분류하는 것을 설명하기 위한 도면으로서, 도 1a 및 도 1b에 도시된 바와 같이, 300~3,400㎐ 협대역 음성은 중요한 고주파 성분을 표현하지 못할 수 있고, 50~7,000㎐의 광대역 음성은 상기 협대역에 비해 양호한 음성 품질을 제공하며, 20~20,000㎐의 광대역 오디오는 CD(Compact Disc) 혹은 DAT (Digital Audio Tape) 품질의 음악을 제공할 수 있다.
도 2는 일반적인 ITU-T 광대역 음성 부호화기의 종류를 설명하기 위한 도면이다. 전술한 G.711 표준, G.723.1 표준, 및 G.729 표준 등은 협대역 음성 코덱(Narrowband Speech CODEC)으로 사용되고 있으며, 도 2에 도시된 바와 같이, G.722, G.722.1 또는 G.722.2 표준은 광대역 음성 코덱으로 사용되고 있다.
한편, NEC Corporation사가 EP에 2002년 2월 5일자로 출원한 출원번호 EP1202252A2호에는 "Apparatus for bandwidth expansion of speech signals"가 개시되어 있는 바, 코덱으로 입력되는 부호화 파라미터를 기반으로 협대역 음성신호로 복호화(decode)할지 또는 광대역 음성신호로 복호화할지를 결정한 후, 그 결과 에 따라 부호화하는 방식의 장치가 개시되어 있다.
보다 구체적으로, 전술한 EP1202252A2호의 발명에 의하면, 입력 신호를 협대역이나 광대역으로 분류하고, 이후 그 결과로부터 각각에 대해 대역폭에 적합한 복호화를 하는 방식으로서, 필요에 따라 광대역으로 음성신호를 복호화하여 복호기(decoder)에서 음질을 향상시키게 된다. 이때, 대역 결정은 LSP(Line Spectral Pairs), 적응형 코드북(adaptive codebook) 및 고정형 코드북(fixed codebook)으로부터 생성된 여기 신호를 이용하여 이루어지게 된다.
한편, Toshiyuki Nomura 등이 1998년 5월에 International Conference on Acoustics, Speech, Signal Processing(Vol. 1, pp 341-344)지에 "A bitrate and bandwidth scalable CELP coder"라는 명칭으로 논문을 게재한 바, 이 논문은 멀티미디어 응용을 위해 비트율과 대역폭을 가변시키는 융통적인 CELP형 음성 코덱에 관한 것으로, 다단계 여기 신호 부호화 방법을 사용하여 비트율을 가변시키는 내용을 개시하고 있다.
보다 구체적으로, 전술한 논문에 의하면, 대역폭 가변은 기존의 부대역(Subband) 구조 방식이 아닌 저대역 CELP 파라미터 정보를 이용하여 고대역 파라미터를 부호화하여 이루어지며, Mean Opinion Score(MOS) 테스트 결과, ITU-T 56 kbit/s G.722와 동등한 음질을 보이는 16 kbit/s 부호화기를 제공한다. 이 논문에 의하면, 비트율 가변 툴로서 다단계 여기 신호를 부호화 하고, 대역폭 가변 툴로서 저대역 파라미터 정보를 이용함으로써, 통신망 환경에 따라 융통적으로 전송률을 조정하게 된다.
한편, 음성 신호를 고능률로 부호화하는 방식으로서, 예를 들면, M. Schroeder and B. Atal에 의한 논문 "Code-excited linear prediction: High quality speech at very low bit rates"(Proc. ICASSP, pp.937-940, 1985년)이나, Kleijn 등에 의한 논문 "Improved speech quality and efficient vector quantization in SELP"(Proc. ICASSP, pp.155-158, 1988년) 등에 기재되어 있는 CELP(Code Excited Linear Predictive Coding)가 알려져 있다.
상기 CELP에서는, 송신측에서, 우선 음성 신호의 각 프레임(예를 들면, 20ms)마다 선형 예측 부호화(Linear Predictive Coding: LPC) 분석을 이용해 음성 신호의 스펙트럼 특성을 나타내는 스펙트럼 파라미터를 추출한다. 다음에, 각 프레임을 서브프레임(예를 들면, 5ms)으로 더 분할한다. 각 서브프레임마다 과거의 음원 신호에 기초하여 적응 코드 북(codebook)에서의 파라미터(피치 주기에 대응하는 지연 파라미터와 이득(gain) 파라미터)를 추출함으로써, 적응 코드북에 의해 서브프레임의 음성 신호를 장구간 예측한다.
다음에, 장구간 예측에 의해 구한 음원 신호에 대해서, 미리 결정된 종류의 잡음 신호로 이루어진 음원 코드 북(벡터 양자화 코드 북)으로부터 최적의 음원 코드 벡터를 선택해서 최적의 이득을 계산함으로써 음원 신호를 양자화 한다. 또한, 음원 코드 벡터의 선택에 있어서는, 선택한 잡음 신호에 의해 합성한 신호와 잔차(殘差) 신호간의 오차 전력을 최소화하도록 하는 음원 코드 벡터를 선택한다.
이후, 선택된 음원 코드 벡터의 종류를 나타내는 인덱스와 이득 및 스펙트럼 파라미터와 적응 코드북의 파라미터를 멀티플렉서에 의해 다중화하여 전송한다.
그런데, 상술한 바와 같은 음성 신호를 부호화하는 종래의 방식에 있어서는, 음원 코드북으로부터 최적인 음원 코드 벡터를 선택하는 경우, 각 코드 벡터 각각에 대해 일단 필터링 또는 컨벌루션(convolution) 연산을 행해야 하므로, 이 연산을 코드북에 저장되어 있는 코드 벡터의 개수만큼 반복해서 행하여야 하므로, 큰 연산 량이 필요하게 되는 문제점이 있다. 예를 들면, 음성 코드북의 비트수가 B비트이고, 차원 수가 N인 경우, 필터링 혹은 컨벌루션 연산 시의 필터 혹은 임펄스 응답 길이를 K로 하면, 1초당 N × K ×2 B×8000/N의 연산 량이 필요하게 된다. 일례로서, B=10, N=40, K=10으로 하면, 1초당 81,920,O00회라고 하는 매우 방대한 연산이 필요하게 된다.
그래서 음원 코드북으로부터 음원 코드 벡터를 탐색할 때에 필요하게 되는 연산 량을 저감하는 방법으로서 각종의 것이 제안되고 있다. 그 중 하나로서, 예를 들면, C. Laflamme 등에 의한 논문 "16 kbps wideband speech coding technique based on algebraic CELP"(Proc. ICASSP, pp.13-16, 1991)에 기재되어 있는 ACELP(Algebraic Code Excited Linear Prediction) 방식이 있다.
이 ACELP 방식에 있어서는, 음원 신호가 복수 개의 펄스로 나타나고, 각 펄스의 위치가 미리 결정된 비트수로 표시되어 전송된다. 각 펄스의 진폭이 +1.0 또는 -1.0으로 한정되어 있기 때문에, 펄스 탐색의 연산 량을 크게 저감할 수 있다.
그렇지만, 상술한 바와 같은 음성 신호를 부호화하는 종래의 방식에서는, 부호화 비트율이 8kbit/s 이상인 음성 신호에 대해서는 양호한 음질을 얻을 수 있지 만, 부호화 비트율이 8kbit/s 미만이 되면, 서브프레임 당의 펄스의 개수가 충분하지 않기 때문에, 음원 신호를 충분한 정밀도로 나타내는 것이 곤란해져서, 부호화된 음성의 음질이 열화하게 되는 문제점이 있었다.
한편, 현재 주로 사용되고 있는 대부분의 가변 비트율 광대역 음성 및 오디오 부호화기는 협대역 내부 또는 광대역 내부 간에 비트율을 변경하거나, 또는 대역폭만을 가변시키는 가변 대역폭(variable bandwidth) 방식을 사용한다.
즉, 종래 기술에 따른 음성 코덱(Speech CODEC)에서, 비트율(bit rate)의 변경은 채널 상황이나 코덱 내부의 제어에 따라 협대역 내부 또는 광대역 내부 사이에서 각 코덱의 파라미터별로 할당되는 비트를 조절하여 비트율을 가변시킴으로써 이루어지거나, 또는 이러한 비트율의 변경은 협대역에서 광대역으로 또는 광대역에서 협대역으로 단순히 대역폭을 변경함으로써 이루어질 수도 있다.
그런데, 입력 신호가 고대역(high-band)에 중요한 정보가 존재하는 오디오 신호(audio signal)일 경우, 저대역(low-band) 또는 협대역만을 부호화하여 전송하게 되면 상기 비트율 변경 방식은 낮은 비트율의 제한에 의해 문제가 발생할 수 있다. 즉, 음악(music) 신호나 자연음 등이 포함되는 오디오 신호를 부호화에서 제외함으로써 음질의 열화를 가져온다는 문제점이 있다.
상기 문제점을 해결하기 위한 본 발명의 목적은, 가변 비트율 광대역 음성 및 오디오 부호화기의 설계에 있어서 낮은 비트율에서도 고대역의 오디오 신호를 포함하도록 비트율을 할당함으로써 음질의 저하를 최소화할 수 있는 가변 비트율의 광대역 음성 및 오디오 부호화 장치 및 방법을 제공하기 위한 것이다.
상기 목적을 달성하기 위한 수단으로서, 본 발명에 따른 가변 비트율 (variable bit rate)의 광대역 음성 및 오디오 부호화(wideband speech and audio coding) 장치는, a) 코덱으로 입력되는 신호를 음성이나 오디오 신호로 각각 분류하는 음성 및 오디오 분류 수단; b) 상기 분류된 입력 신호가 음성 신호인 경우, 협대역 부호화를 수행하는 협대역 부호화 수단; c) 상기 분류된 입력 신호가 오디오 신호인 경우, 저대역과 고대역의 부호화 비트율을 각각 조정하는 비트율 조정 수단; 및 d) 상기 비트율 조정 수단에서 조정된 비트율로 부호화를 수행하는 광대역 부호화 수단을 포함하는 것을 특징으로 한다.
여기서, 상기 비트율 조정 수단은 낮은 비트율의 입력 오디오 신호에 대해 상기 저대역과 고대역의 비트율을 조정하는 것을 특징으로 한다.
여기서, 상기 광대역 부호화 수단은 상기 저대역에 할당되는 부호화 비트를 일부 줄이고, 줄인 만큼 상기 고대역에 부호화 비트를 추가 할당하는 것을 특징으로 한다.
한편, 상기 목적을 달성하기 위한 다른 수단으로서, 본 발명에 따른 가변 비트율의 광대역 음성 및 오디오 부호화 방법은, ⅰ) 코덱으로 입력되는 신호를 판별하여 음성이나 오디오 신호로 각각 분류하는 단계; ⅱ) 상기 분류된 입력 신호가 음성 신호인 경우, 저대역에만 비트를 할당하고 부호화를 수행하는 단계; ⅲ) 상기 분류된 입력 신호가 오디오 신호인 경우, 저대역과 고대역의 부호화 비트율을 각각 조정하는 단계; 및 ⅳ) 상기 조정된 비트율로 저대역 및 고대역에 비트를 할당하고 부호화를 수행하는 단계를 포함하는 것을 특징으로 한다.
여기서, 상기 ⅱ) 단계의 부호화는 음성-기반(speech-oriented) 협대역 부호화인 것을 특징으로 한다.
여기서, 상기 ⅳ) 단계의 부호화는 오디오-기반(audio-oriented) 광대역 부호화인 것을 특징으로 한다.
여기서, 상기 광대역 부호화는 상기 저대역에 할당되는 부호화 비트를 일부 줄이고, 줄인 만큼 상기 고대역에 부호화 비트를 추가 할당하는 것을 특징으로 한다.
한편, 본 발명에 따른 가변 비트율의 광대역 음성 및 오디오 부호화 방법을 구현하는 프로그램이 저장된 기록매체는, ⅰ) 코덱으로 입력되는 신호를 판별하여 음성이나 오디오 신호로 각각 분류하는 기능; ⅱ) 상기 분류된 입력 신호가 음성 신호인 경우, 저대역에만 비트를 할당하고 부호화를 수행하는 기능; ⅲ) 상기 분류된 입력 신호가 오디오 신호인 경우, 저대역과 고대역의 부호화 비트율을 각각 조정하는 기능; 및 ⅳ) 상기 조정된 비트율로 상기 저대역 및 고대역에 비트를 할당하고 부호화를 수행하는 기능을 포함하는 것을 특징으로 한다.
본 발명에 따르면, 가변 비트율 광대역 음성 부호화기의 설계에 있어서, 채널 상황에 따른 가변 비트율 및 가변 대역폭(또는 대역폭 변경)에 관한 것으로, 입력 신호를 음성이나 오디오 신호로 판별하여 분류하고, 이에 따라 저대역과 고대역 부호화에 할당되는 비트율을 조정함으로써, 고대역 성분을 포함하거나 포함하지 않 을 수 있고, 비트율 감축시 오디오 신호 정보를 잃지 않게 되므로, 낮은 전송률에서도 음질을 향상시킬 수 있다.
이하, 첨부된 도면을 참조하여, 본 발명의 실시예에 따른 가변 비트율의 광대역 음성 및 오디오 부호화 장치 및 방법을 상세히 설명한다.
먼저, 본 발명은 차세대 네트워크나 멀티미디어 서비스에서 내장형 구조의 가변 비트율 광대역 음성 부호화기의 비트율 변경을 효율적으로 수행하여 성능을 향상시키기 위한 것이다. 이를 위해, 본 발명은 입력 신호를 음성이나 오디오 신호로 판별하여 분류하고, 이러한 판별 결과에 따라 저대역과 고대역의 부호화 비트를 조정하도록 코덱을 구성함으로써, 오디오 신호의 열화를 줄이게 된다. 이러한 경우, 협대역에 할당되는 부호화 비트를 줄이고, 줄인 만큼 고대역 부호화에 일부 비트를 할당하게 된다.
도 3은 본 발명에 따른 가변 비트율의 광대역 음성 및 오디오 부호화 장치의 개략적인 구성도로서, 본 발명에 따른 광대역 음성 및 오디오 부호화 장치(300)는, 코덱으로 입력되는 신호를 음성이나 오디오 신호로 각각 분류하는 음성 및 오디오 분류부(310); 상기 분류된 입력 신호가 음성 신호인 경우, 협대역 부호화를 수행하는 협대역 부호화부(340); 상기 분류된 입력 신호가 오디오 신호인 경우, 저대역과 고대역의 부호화 비트율을 각각 조정하는 비트율 조정부(320); 및 상기 비트율 조정 수단에서 조정된 비트율로 부호화를 수행하는 광대역 부호화부(330)로 구성된다.
도 3을 참조하면, 본 발명은 입력 신호를 음성이나 오디오 신호로 판별하여 분류하는 음성 및 오디오 분류부(310), 이러한 판별 결과에 따라 저대역과 고대역의 부호화 비트를 조정하는 비트율 조정부(320)로 코덱을 구성하여 오디오 신호를 부호화하게 된다.
즉, 오디오 신호로 판별될 경우에는 상기 광대역 부호화부(330)에서 저대역에 할당되는 비트를 줄이고 고대역에 일부 비트를 할당하는 부호화를 수행하고, 음성으로 판별될 경우에는 음성신호만을 부호화하는 기존의 협대역 부호화부(340)에서 부호화를 수행하게 된다. 다시 말하면, 여기서, 상기 비트율 조정부(320)는 낮은 비트율의 입력 오디오 신호에 대해 상기 저대역과 고대역의 비트율을 조정하고, 상기 광대역 부호화부(330)는 상기 저대역에 할당되는 부호화 비트를 일부 줄이고, 줄인 만큼 상기 고대역에 부호화 비트를 추가 할당하게 된다.
도 4는 본 발명에 따라 협대역과 광대역의 비트율 할당 방법을 예시하는 도면으로서, 도 4를 참조하여, 협대역(410)과 광대역 (420)에서의 비트율을 할당하는 방법, 즉, 낮은 비트율에서 저대역과 고대역에 부분적으로 비트율을 할당하는 방법을 설명한다.
도 3에서 음성으로 판단되는 경우에, LB1부터 시작하여 순차적으로 이를 합한다. 즉, LB1 + LB2 + ㆍㆍㆍ + LBM과 같이 비트율을 조정한다. 반면, 오디오 신호로 판단되는 경우에는 저대역(430)은 LB1 + LB2 + ㆍㆍㆍ + LBk (k < M)만큼 비트율을 할당하고, LBk+1 + ㆍㆍㆍ + LBM과 동일한 비트율로 고대역(440)을 HB 1 + ㆍㆍ ㆍ + HBn (n < N)만큼 할당하게 된다.
도 5는 본 발명에 따른 가변 비트율의 광대역 음성 및 오디오 부호화 방법의 순서도이다.
본 발명에 따른 가변 비트율의 광대역 음성 및 오디오 부호화 방법은, 먼저, 코덱으로 수신되는 신호를 입력하고(S510), 이후, 상기 코덱으로 입력되는 신호를 판별하여 음성이나 오디오 신호로 각각 분류하게 된다(S520). 즉, 고대역에 음질의 영향을 미치는 음악이나 자연음 등의 오디오 신호가 포함되었는가를 판별하여, 이에 따라 음성 및 오디오 신호로 분류하게 된다.
다음으로, 상기 분류된 입력 신호가 음성 신호인 경우(S530), 저대역에만 비트를 할당하고 부호화를 수행하게 된다(S540). 이때, 상기 부호화는 음성-기반 (speech-oriented) 협대역 부호화로서, 기존의 음성 부호화 방식과 동일하다.
다음으로, 상기 분류된 입력 신호가 오디오 신호인 경우(S550), 저대역과 고대역의 부호화 비트율을 각각 조정하고, 상기 조정된 비트율로 저대역 및 고대역에 비트를 할당하고 부호화를 수행하게 된다(S560). 이때, 상기 부호화는 오디오-기반(audio-oriented) 광대역 부호화로서, 상기 광대역 부호화는 상기 저대역에 할당되는 부호화 비트를 일부 줄이고, 줄인 만큼 상기 고대역에 부호화 비트를 추가 할당하게 된다.
위에서 발명을 설명하였지만, 이러한 실시예는 이 발명을 제한하려는 것이 아니라 예시하려는 것이다. 이 발명이 속하는 분야의 숙련자에게는 이 발명의 기 술 사항을 벗어남이 없어 위 실시 예에 대한 다양한 변화나 변경 또는 조절이 가능함이 자명할 것이다. 그러므로 본 발명의 보호 범위는 첨부된 청구 범위에 의해서만 한정될 것이며, 위와 같은 변화예나 변경예 또는 조절예를 모두 포함하는 것으로 해석되어야 할 것이다.
본 발명에 따른 가변 비트율의 광대역 음성 부호화기는 낮은 비트율에서도 고대역에 부호화 비트를 할당함으로써, 입력 신호에 오디오 신호가 포함된 경우에도 음질의 열화를 방지할 수 있다.
또한, 본 발명에 따르면, 효율적으로 비트율을 변경함으로써 가변 비트율의 광대역 음성 부호화기의 성능을 향상시킬 수 있다.

Claims (8)

  1. 가변 비트율(variable bit rate)의 광대역 음성 및 오디오 부호화(wideband speech and audio coding) 장치에 있어서,
    코덱으로 입력되는 신호를 음성이나 오디오 신호로 각각 분류하는 음성 및 오디오 분류 수단;
    상기 분류된 입력 신호가 음성 신호인 경우, 협대역 부호화를 수행하는 협대역 부호화 수단;
    상기 분류된 입력 신호가 오디오 신호인 경우, 저대역 신호 및 고대역 신호의 부호화를 위해 저대역과 고대역에 부호화 비트를 할당하는 비트율 조정 수단;
    상기 저대역에 할당되는 부호화 비트를 일부 줄이고, 줄인 만큼 상기 고대역에 부호화 비트를 추가 할당하여 부호화를 수행하는 광대역 부호화 수단
    을 포함하는 광대역 음성 및 오디오 부호화 장치.
  2. 제1항에 있어서,
    상기 비트율 조정 수단은 낮은 비트율의 입력 오디오 신호에 대해 상기 저대역과 고대역의 비트율을 조정하는 것을 특징으로 하는 광대역 음성 및 오디오 부호화 장치.
  3. 삭제
  4. 가변 비트율의 광대역 음성 및 오디오 부호화 방법에 있어서,
    ⅰ) 코덱으로 입력되는 신호를 판별하여 음성이나 오디오 신호로 각각 분류하는 단계;
    ⅱ) 상기 분류된 입력 신호가 음성 신호인 경우, 저대역에만 비트를 할당하고 부호화를 수행하는 단계;
    iii) 상기 분류된 입력 신호가 오디오 신호인 경우, 저대역 신호 및 고대역 신호의 부호화를 위해 저대역과 고대역에 부호화 비트를 할당하는 단계;
    iv) 상기 저대역에 할당되는 부호화 비트를 일부 줄이고, 줄인 만큼 상기 고대역에 부호화 비트를 추가 할당하여 부호화를 수행하는 단계
    를 포함하는 광대역 음성 및 오디오 부호화 방법.
  5. 제4항에 있어서,
    상기 ⅱ) 단계의 부호화는 음성-기반(speech-oriented) 협대역 부호화인 것을 특징으로 하는 광대역 음성 및 오디오 부호화 방법.
  6. 제4항에 있어서,
    상기 ⅳ) 단계의 부호화는 오디오-기반(audio-oriented) 광대역 부호화인 것을 특징으로 하는 광대역 음성 및 오디오 부호화 방법.
  7. 삭제
  8. 가변 비트율의 광대역 음성 및 오디오 부호화를 수행하는 프로그램이 저장된 기록매체에 있어서,
    ⅰ) 코덱으로 입력되는 신호를 판별하여 음성이나 오디오 신호로 각각 분류하는 기능;
    ⅱ) 상기 분류된 입력 신호가 음성 신호인 경우, 저대역에만 비트를 할당하고 부호화를 수행하는 기능;
    iii) 상기 분류된 입력 신호가 오디오 신호인 경우, 저대역 신호 및 고대역 신호의 부호화를 위해 저대역과 고대역에 부호화 비트를 할당하는 기능;
    iv) 상기 저대역에 할당되는 부호화 비트를 일부 줄이고, 줄인 만큼 상기 고대역에 부호화 비트를 추가 할당하여 부호화를 수행하는 기능
    을 구현하는 프로그램이 저장된 기록매체.
KR1020030080225A 2003-11-13 2003-11-13 가변 비트율의 광대역 음성 및 오디오 부호화 장치 및방법 Expired - Fee Related KR100614496B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020030080225A KR100614496B1 (ko) 2003-11-13 2003-11-13 가변 비트율의 광대역 음성 및 오디오 부호화 장치 및방법
US10/967,045 US7634402B2 (en) 2003-11-13 2004-10-14 Apparatus for coding of variable bitrate wideband speech and audio signals, and a method thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020030080225A KR100614496B1 (ko) 2003-11-13 2003-11-13 가변 비트율의 광대역 음성 및 오디오 부호화 장치 및방법

Publications (2)

Publication Number Publication Date
KR20050046204A KR20050046204A (ko) 2005-05-18
KR100614496B1 true KR100614496B1 (ko) 2006-08-22

Family

ID=34567721

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020030080225A Expired - Fee Related KR100614496B1 (ko) 2003-11-13 2003-11-13 가변 비트율의 광대역 음성 및 오디오 부호화 장치 및방법

Country Status (2)

Country Link
US (1) US7634402B2 (ko)
KR (1) KR100614496B1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8903720B2 (en) 2008-07-14 2014-12-02 Electronics And Telecommunications Research Institute Apparatus for encoding and decoding of integrated speech and audio
US8959015B2 (en) 2008-07-14 2015-02-17 Electronics And Telecommunications Research Institute Apparatus for encoding and decoding of integrated speech and audio
KR101717256B1 (ko) * 2016-08-30 2017-03-27 (주)아이엠피 보이스와 오디오의 적응적 네트워크 밸런싱 기반의 광역 전관방송을 위한 음향 송출 장치

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7619995B1 (en) * 2003-07-18 2009-11-17 Nortel Networks Limited Transcoders and mixers for voice-over-IP conferencing
KR100754389B1 (ko) * 2005-09-29 2007-08-31 삼성전자주식회사 음성 및 오디오 신호 부호화 장치 및 방법
WO2007073260A1 (en) * 2005-12-22 2007-06-28 Infineon Technologies Ag Method and arrangement for narrowband compatible wideband communication in a dect system
US20080300866A1 (en) * 2006-05-31 2008-12-04 Motorola, Inc. Method and system for creation and use of a wideband vocoder database for bandwidth extension of voice
KR100883656B1 (ko) * 2006-12-28 2009-02-18 삼성전자주식회사 오디오 신호의 분류 방법 및 장치와 이를 이용한 오디오신호의 부호화/복호화 방법 및 장치
US20090099851A1 (en) * 2007-10-11 2009-04-16 Broadcom Corporation Adaptive bit pool allocation in sub-band coding
US8566107B2 (en) * 2007-10-15 2013-10-22 Lg Electronics Inc. Multi-mode method and an apparatus for processing a signal
US20090259469A1 (en) * 2008-04-14 2009-10-15 Motorola, Inc. Method and apparatus for speech recognition
US8447617B2 (en) * 2009-12-21 2013-05-21 Mindspeed Technologies, Inc. Method and system for speech bandwidth extension
US20110280398A1 (en) * 2010-05-17 2011-11-17 Anatoly Fradis Secured content distribution system
EP2590164B1 (en) * 2010-07-01 2016-12-21 LG Electronics Inc. Audio signal processing
US8964966B2 (en) * 2010-09-15 2015-02-24 Avaya Inc. Multi-microphone system to support bandpass filtering for analog-to-digital conversions at different data rates
EP2660811B1 (en) 2011-02-16 2017-03-29 Nippon Telegraph And Telephone Corporation Encoding method, decoding method, encoder, decoder, program and recording medium
CN103035248B (zh) 2011-10-08 2015-01-21 华为技术有限公司 音频信号编码方法和装置
US9742780B2 (en) * 2015-02-06 2017-08-22 Microsoft Technology Licensing, Llc Audio based discovery and connection to a service controller
US9660999B2 (en) 2015-02-06 2017-05-23 Microsoft Technology Licensing, Llc Discovery and connection to a service controller

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5109417A (en) * 1989-01-27 1992-04-28 Dolby Laboratories Licensing Corporation Low bit rate transform coder, decoder, and encoder/decoder for high-quality audio
US5752225A (en) * 1989-01-27 1998-05-12 Dolby Laboratories Licensing Corporation Method and apparatus for split-band encoding and split-band decoding of audio information using adaptive bit allocation to adjacent subbands
US5778335A (en) * 1996-02-26 1998-07-07 The Regents Of The University Of California Method and apparatus for efficient multiband celp wideband speech and music coding and decoding
JP2002016925A (ja) 2000-04-27 2002-01-18 Canon Inc 符号化装置及び符号化方法
JP3467469B2 (ja) 2000-10-31 2003-11-17 Necエレクトロニクス株式会社 音声復号装置および音声復号プログラムを記録した記録媒体
CA2430923C (en) 2001-11-14 2012-01-03 Matsushita Electric Industrial Co., Ltd. Encoding device, decoding device, and system thereof
US7333475B2 (en) * 2002-09-27 2008-02-19 Broadcom Corporation Switchboard for multiple data rate communication system

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8903720B2 (en) 2008-07-14 2014-12-02 Electronics And Telecommunications Research Institute Apparatus for encoding and decoding of integrated speech and audio
US8959015B2 (en) 2008-07-14 2015-02-17 Electronics And Telecommunications Research Institute Apparatus for encoding and decoding of integrated speech and audio
US9818411B2 (en) 2008-07-14 2017-11-14 Electronics And Telecommunications Research Institute Apparatus for encoding and decoding of integrated speech and audio
US10403293B2 (en) 2008-07-14 2019-09-03 Electronics And Telecommunications Research Institute Apparatus for encoding and decoding of integrated speech and audio
US10714103B2 (en) 2008-07-14 2020-07-14 Electronics And Telecommunications Research Institute Apparatus for encoding and decoding of integrated speech and audio
US11705137B2 (en) 2008-07-14 2023-07-18 Electronics And Telecommunications Research Institute Apparatus for encoding and decoding of integrated speech and audio
US12205599B2 (en) 2008-07-14 2025-01-21 Electronics And Telecommunications Research Institute Apparatus for encoding and decoding of integrated speech and audio
KR101717256B1 (ko) * 2016-08-30 2017-03-27 (주)아이엠피 보이스와 오디오의 적응적 네트워크 밸런싱 기반의 광역 전관방송을 위한 음향 송출 장치

Also Published As

Publication number Publication date
US20050108009A1 (en) 2005-05-19
KR20050046204A (ko) 2005-05-18
US7634402B2 (en) 2009-12-15

Similar Documents

Publication Publication Date Title
KR100614496B1 (ko) 가변 비트율의 광대역 음성 및 오디오 부호화 장치 및방법
US5778335A (en) Method and apparatus for efficient multiband celp wideband speech and music coding and decoding
JP4444749B2 (ja) 減少レート、可変レートの音声分析合成を実行する方法及び装置
Gersho Advances in speech and audio compression
CN1703737B (zh) 在自适应多速率宽带(amr-wb)和多模式可变比特率宽带(vmr-wb)编解码器之间互操作的方法
KR100732659B1 (ko) 가변 비트 레이트 광대역 스피치 음성 코딩시의 이득양자화를 위한 방법 및 장치
JP5543405B2 (ja) フレームエラーに対する感度を低減する符号化体系パターンを使用する予測音声コーダ
AU2003281378B2 (en) Method and device for efficient in-band dim-and-burst signaling and half-rate max operation in variable bit-rate wideband speech coding for CDMA wireless systems
KR20010093208A (ko) 주기적 음성 코딩
KR20010093210A (ko) 가변 속도 음성 코딩
JP2004517348A (ja) 非音声のスピーチの高性能の低ビット速度コード化方法および装置
JP4874464B2 (ja) 遷移音声フレームのマルチパルス補間的符号化
US6434519B1 (en) Method and apparatus for identifying frequency bands to compute linear phase shifts between frame prototypes in a speech coder
JP3396480B2 (ja) 多重モード音声コーダのためのエラー保護
Vaseghi Finite state CELP for variable rate speech coding
EP1397655A1 (en) Method and device for coding speech in analysis-by-synthesis speech coders
Iao Mixed wideband speech and music coding using a speech/music discriminator
Jbira et al. Multi-layer scalable LPC audio format
Woodard et al. A Range of Low and High Delay CELP Speech Codecs between 8 and 4 kbits/s
Paksoy Variable rate speech coding with phonetic classification
JPH07239699A (ja) 音声符号化方法およびこの方法を用いた音声符号化装置
Farrugia Combined speech and audio coding with bit rate and bandwidth scalability
De Iacovo et al. A Two-Band CELP Audio Coder at 16 kbit/s and Its Evaluation
HK1130558B (en) Method and device for cdma wireless systems
JPS6019520B2 (ja) 音声処理装置

Legal Events

Date Code Title Description
PA0109 Patent application

Patent event code: PA01091R01D

Comment text: Patent Application

Patent event date: 20031113

A201 Request for examination
PA0201 Request for examination

Patent event code: PA02012R01D

Patent event date: 20040615

Comment text: Request for Examination of Application

Patent event code: PA02011R01I

Patent event date: 20031113

Comment text: Patent Application

PG1501 Laying open of application
E902 Notification of reason for refusal
PE0902 Notice of grounds for rejection

Comment text: Notification of reason for refusal

Patent event date: 20060228

Patent event code: PE09021S01D

E701 Decision to grant or registration of patent right
PE0701 Decision of registration

Patent event code: PE07011S01D

Comment text: Decision to Grant Registration

Patent event date: 20060810

GRNT Written decision to grant
PR0701 Registration of establishment

Comment text: Registration of Establishment

Patent event date: 20060814

Patent event code: PR07011E01D

PR1002 Payment of registration fee

Payment date: 20060816

End annual number: 3

Start annual number: 1

PG1601 Publication of registration
PR1001 Payment of annual fee

Payment date: 20090727

Start annual number: 4

End annual number: 4

PR1001 Payment of annual fee

Payment date: 20100802

Start annual number: 5

End annual number: 5

PR1001 Payment of annual fee

Payment date: 20110729

Start annual number: 6

End annual number: 6

FPAY Annual fee payment

Payment date: 20120730

Year of fee payment: 7

PR1001 Payment of annual fee

Payment date: 20120730

Start annual number: 7

End annual number: 7

FPAY Annual fee payment

Payment date: 20130729

Year of fee payment: 8

PR1001 Payment of annual fee

Payment date: 20130729

Start annual number: 8

End annual number: 8

FPAY Annual fee payment

Payment date: 20140728

Year of fee payment: 9

PR1001 Payment of annual fee

Payment date: 20140728

Start annual number: 9

End annual number: 9

LAPS Lapse due to unpaid annual fee
PC1903 Unpaid annual fee

Termination category: Default of registration fee

Termination date: 20160709