[go: up one dir, main page]

KR100513729B1 - 계층적인 대역폭 구조를 갖는 음성 압축 및 복원 장치와그 방법 - Google Patents

계층적인 대역폭 구조를 갖는 음성 압축 및 복원 장치와그 방법 Download PDF

Info

Publication number
KR100513729B1
KR100513729B1 KR10-2003-0044842A KR20030044842A KR100513729B1 KR 100513729 B1 KR100513729 B1 KR 100513729B1 KR 20030044842 A KR20030044842 A KR 20030044842A KR 100513729 B1 KR100513729 B1 KR 100513729B1
Authority
KR
South Korea
Prior art keywords
signal
band
speech
wideband
voice
Prior art date
Application number
KR10-2003-0044842A
Other languages
English (en)
Other versions
KR20050004596A (ko
Inventor
박호종
손창용
이영범
이우석
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR10-2003-0044842A priority Critical patent/KR100513729B1/ko
Priority to DE602004004445T priority patent/DE602004004445T2/de
Priority to EP04253952A priority patent/EP1494211B1/en
Priority to JP2004196279A priority patent/JP4726442B2/ja
Priority to US10/882,339 priority patent/US7624022B2/en
Publication of KR20050004596A publication Critical patent/KR20050004596A/ko
Application granted granted Critical
Publication of KR100513729B1 publication Critical patent/KR100513729B1/ko
Priority to US12/588,357 priority patent/US8571878B2/en
Priority to JP2011043211A priority patent/JP5314720B2/ja

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

본 발명은 계층적인 대역폭 구조를 갖는 음성 신호 부호화기 및 복호화기에 있어서 표준 협대역 압축기와 호환이 가능하고, 협대역 음성 압축에 의한 왜곡을 보상하며, 대역과 부프레임간의 상관관계와 청각적인 특성을 적용하여 음성신호를 압축하고 복원하기 위한 장치 및 방법이다.
본 발명에 따른 음성 압축 장치는 대역 변환 유니트, 협대역 음성 압축기, 복원부, 오차 검출 유니트 및 고역 음성 압축 유니트를 포함한다. 대역 변환 유니트는 광대역 음성신호를 협대역 저역 신호로 변환한다. 협대역 음성 압축기는 협대역 저역 신호를 압축하여 저역 음성 패킷으로 송출한다. 복원부는 압축된 저역 음성 패킷을 광대역 저역 신호로 복원한다. 오차 검출 유니트는 광대역 음성신호와 광대역 저역 복원신호간의 오차 신호를 검출한다. 고역 음성 압축 유니트는 오차 신호와 광대역 음성신호의 고역 음성신호를 압축하여 고역 음성 패킷으로서 송출한다.

Description

계층적인 대역폭 구조를 갖는 음성 압축 및 복원 장치와 그 방법{Speech compression and decompression apparatus having scalable bandwidth and method thereof}
본 발명은 음성 신호 부호화 및 복호화에 관한 것으로서, 특히 음성신호를 계층적인 대역폭(scalable bandwidth) 구조로 압축하고 이를 복원하는 음성 압축 및 복원 장치와 그 방법에 관한 것이다.
통신 기술이 발달함에 따라 음성 품질은 통신사들간에 중요한 경쟁 요소로 대두되고 있다.
기존의 공중전화교환망(Public Switched Telephone Network, PSTN) 기반의 통신은 8kHz로 음성 신호를 샘플링하여 4kHz 대역의 음성 신호를 전달하고 있다. 따라서 기존의 PSTN 기반의 음성 통신은 4kHz 대역을 벗어나는 음성 신호를 전달하지 못하므로 음질이 많이 떨어진다.
이를 개선하기 위하여 입력되는 음성 신호를 16kHz로 샘플링하여 8kHz의 대역폭을 제공하는 패킷(packet)기반의 광대역 음성 부호화기가 개발되고 있다. 그러나 음성 신호의 대역폭이 증가하면 음질이 향상되는 반면에 통신 채널의 데이터 전송량이 증가하게 된다. 따라서 광대역 음성 부호화기를 효율적으로 운영하기 위해서는 항상 광대역의 통신 채널을 확보하여야 한다.
그러나 패킷 기반의 통신 채널은 데이터 전송량이 고정되어 있지 않고 다양한 요인에 따라 데이터 전송량이 변한다. 따라서 광대역 음성 부호화기가 필요로 하는 광대역 통신 채널이 보장되지 않아 음질이 저하될 수 있다. 이는 특정 순간에 통신 채널의 전송량이 필요한 만큼 제공되지 않으면, 전송되는 음성 패킷이 손실되어 통신 음질이 급격하게 저하되기 때문이다.
따라서, 계층적인 대역(scalable bandwidth) 구조로 음성신호를 부호화하는 기술이 제안된 바 있다. ITU(International Telecommunication Union, 이하 ITU라고 약함) 표준 G.722가 그 예이다. ITU 표준 G.722는 저역 통과 필터와 고역 통과 필터를 이용하여 입력되는 음성신호를 두 대역으로 분리하고, 각 대역을 독립적으로 부호화하는 기술을 제안하고 있다. ITU 표준 G.722에서 각 대역 정보는 ADPCM(Adaptive Differential Pulse Code Modulation)방식으로 부호화한다. 그러나, ITU 표준 G.722에서 제안하고 있는 부호화 기술은 기존의 표준 협대역 압축기와 호환이 되지 않고 데이터 전송률이 매우 높은 단점을 갖고 있다.
또 기존에는 광대역 입력 신호를 주파수 영역으로 변환하고 주파수 영역을 몇 개의 부대역(sub-bandwidth)으로 분리하여 각 부대역의 정보를 압축하는 기술이 제안된 바 있다. ITU 표준 G722.1에 의해 제안된 방식이 그 예이다. 그러나 이 ITU 표준 G.722.1은 음성 패킷을 계층적인 대역폭 구조로 부호화하지 않을 뿐 아니라 기존의 표준 협대역 압축기와 호환되지 않는 문제점을 갖고 있다.
기존의 표준 협대역 압축기와의 호환 문제를 고려하여 개발된 기존의 음성 부호화 기술은 광대역 입력 신호에 저역 통과 필터를 적용하여 협대역 신호를 구하고, 이 신호를 표준 협대역 압축기로 부호화한다. 고역 신호는 별도의 방식으로 처리한다. 각 대역의 패킷은 분리하여 전달한다.
고역 신호를 처리하는 기존의 기술로는 고역 신호를 필터 뱅크를 이용하여 다수의 부대역 신호로 분리하고, 각 부대역 정보를 압축하는 기술이 있다. 고역 신호를 처리하는 또 다른 기술로서 고역 신호를 DCT(Discrete Cosine Transform) 또는 DFT(Discrete Fourier Transform)를 통하여 주파수 영역으로 변환하고, 각 주파수 계수를 양자화 하는 기술이 있다.
그러나, 이러한 기존의 음성 부호화 기술들은 입력 신호를 단순히 두 대역으로 분리하여 독립적으로 처리함으로써, 협대역 음성 압축기에 의한 왜곡을 고역 처리부에서 추가로 처리하지 못한다.
또한, 고역 신호의 압축 과정에서 음성 신호의 청각적 특성을 효율적으로 사용하지 않아 양자화 효율이 저하되고, 필터 뱅크에 의하여 구하여진 각 대역의 신호를 양자화 하는 과정에서 각 대역간의 상관 관계를 적절히 활용하지 못하는 문제점들을 갖고 있다.
본 발명이 이루고자 하는 기술적 과제는 계층적인 대역폭 구조를 갖는 음성 신호 부호화기 및 복호화기에 있어서 기존의 표준 협대역 압축기와 호환이 가능한 음성 압축 및 복원장치와 그 방법을 제공하는데 있다.
본 발명이 이루고자 하는 다른 기술적 과제는 계층적인 대역폭 구조를 갖는 음성신호 부호화 및 복호화기에 있어서 음성 신호의 청각적 특성을 적용하여 음성 신호를 압축하고 복원하는 음성 압축 및 복원 장치와 그 방법을 제공하는데 있다.
본 발명이 이루고자 하는 또 다른 기술적 과제는 협대역 음성 압축에 의한 왜곡을 고역 음성 압축시 처리하도록 하여 협대역 음성 압축 왜곡을 보상할 수 있는 음성 압축 및 복원 장치와 그 방법을 제공하는데 있다.
본 발명이 이루고자 하는 또 다른 기술적 과제는 음성신호에 대한 고역 압축시, 대역과 부 프레임에 대한 상관관계를 활용하여 압축하고 이를 복원하는 음성 압축 및 복원 장치와 그 방법을 제공하는데 있다.
본 발명이 이루고자 하는 또 다른 기술적 과제는 고역 음성 압축시 양자화 과정에서 청각적으로 의미 있는 가중치 함수를 적용하여 양자화 효율을 향상시키는 음성 압축 및 복원 장치와 그 방법을 제공하는데 있다.
본 발명이 이루고자 하는 또 다른 기술적 과제는 음성신호를 압축할 때 오차 신호를 계산하여 각 대역별 신호에 대해 청각 모델을 적용하는 과정에서 신호의 왜곡과 정보의 손실을 최소화할 수 있는 음성신호 압축 및 복원 장치와 그 방법을 제공하는데 있다.
상기 기술적 과제들을 달성하기 위하여 본 발명은, 광대역 음성신호를 협대역 저역 음성신호로 변환하는 제 1 대역 변환 유니트; 상기 제 1 대역 변환 유니트로부터 출력되는 협대역 저역 음성신호를 압축하여 상기 광대역 음성신호에 대한 저역 음성 패킷으로서 출력하는 협대역 음성 압축기; 상기 협대역 음성 압축기에서 압축된 협대역 저역 음성신호를 광대역 저역 복원신호로 복원하는 복원부; 상기 광대역 음성신호와 상기 광대역 저역 복원신호간의 오차 신호를 검출하는 오차 검출 유니트; 상기 오차 검출 유니트로부터 검출된 오차 신호와 상기 광대역 음성신호의 고역 음성신호를 압축하여 상기 광대역 음성신호에 대한 고역 음성 패킷으로서 출력하는 고역 음성 압축 유니트를 포함하는 음성 압축 장치를 제공한다.
상기 오차 검출 유니트는 상기 광대역 음성신호 및 상기 광대역 저역 복원신호에 대해 각각 마스킹을 수행한 후, 상기 마스킹된 신호간에 마스킹을 수행하여 상기 오차를 검출할 수 있다.
상기 신호간 마스킹은 상기 광대역 저역 복원신호에 대한 마스킹된 신호를 이용하여 마스킹 곡선을 구하고, 상기 광대역 음성신호에 대한 마스킹된 신호중에서 상기 마스킹 곡선보다 작은 샘플은 제거되도록 수행될 수 있다.
상기 오차 검출 유니트는, 상기 광대역 음성신호에서 정해진 주파수 대역의 신호를 필터링하는 제 1 필터 뱅크; 상기 제 1 필터 뱅크에서 출력되는 신호를 반파 정류하는 제 1 반파 정류기; 상기 제 1 반파 정류기에서 반파 정류된 신호에서 피크값을 검출하는 제 1 피크 검출기; 상기 제 1 피크 검출기에서 검출된 피크 신호로부터 상기 광대역 음성신호에 대한 마스킹된 신호를 출력하는 제 1 마스킹부; 상기 광대역 저역 복원신호에서 정해진 주파수 대역의 신호를 필터링하는 제 2 필터 뱅크; 상기 제 2 필터 뱅크에서 출력되는 신호를 반파 정류하는 제 2 반파 정류기; 상기 제 2 반파 정류기에서 반파 정류된 신호에서 피크값을 검출하는 제 2 피크 검출기; 상기 제 2 피크 검출기에서 검출된 피크 신호로부터 상기 광대역 저역 복원신호에 대한 마스킹된 신호를 출력하는 제 2 마스킹부; 상기 제 1 마스킹부로부터 출력되는 마스킹된 신호와 상기 제 2 마스킹부로부터 출력되는 마스킹된 신호에 대하여 신호간 마스킹을 수행하여 상기 오차를 검출하는 신호간 마스킹부를 포함할 수 있다.
상기 신호간 마스킹부는 상기 제 2 마스킹부로부터 출력되는 마스킹된 신호를 이용하여 마스킹 곡선을 구하고, 상기 제 1 마스킹부로부터 출력되는 마스킹된 신호중에서 상기 마스킹 곡선보다 작은 샘플은 제거되도록 상기 신호간 마스킹을 수행할 수 있다.
상기 제 1 반파 정류기와 상기 제 2 반파 정류기는 각각 상기 반파 정류에 의해 입력된 신호의 에너지 감소를 보상하기 위하여 상기 입력되는 신호의 양(+)의 샘플에 소정의 이득을 곱할 수 있다.
상기 제 1 피크 검출기와 상기 제 2 피크 검출기는 각각 입력되는 신호중에서 피크가 아닌 신호가 제거됨에 따라 상기 입력되는 신호의 에너지가 감소되는 것을 보상하기 위하여, 제거된 신호에 소정의 이득을 곱한 값을 선택된 피크 값에 더하여 상기 피크값을 검출할 수 있다.
상기 제 1 마스킹부와 상기 제 2 마스킹부는 각각 마스킹에 의해 입력되는 신호의 에너지가 감소되는 것을 보상하기 위하여, 상기 마스킹에 의해 제거되는 샘플 값에 소정의 이득을 곱하여 남아 있는 샘플값들에 추가시켜 상기 마스킹된 신호를 얻을 수 있다.
상기 오차 검출 유니트는 복수개의 주파수 대역을 갖는 오차 신호를 상기 고역 음성 압축 유니트로 제공하고, 상기 고역 음성 압축 유니트는 상기 광대역 음성신호를 복수개의 주파수 대역으로 분할하고, 주파수 대역별로 압축을 수행할 수 있다.
상기 고역 음성 압축 유니트는, 상기 복수개의 주파수 대역별로 디에프티(DFT, Discrete Fourier Transform) 계수를 구하고, 상기 주파수 대역별 DFT 계수를 이용하여 주파수 대역별로 알엠에스(RMS, Root-Mean-Square) 값을 구하여 양자화할 수 있다.
상기 RMS 양자화는 주파수대역별로 시간과 대역에 대한 동시 예측과 대역에 대한 예측을 독립적으로 수행할 수 있다.
상기 RMS 양자화는 부프레임별 및 대역별로 RMS 값을 구하고, 과거 부프레임 정보와 이전 대역의 정보를 동시에 활용하여 현재의 RMS값을 예측하여 2차원으로 시간과 대역에 대한 예측을 동시에 수행할 수 있다.
상기 RMS 양자화는 서로 다른 복수개의 예측기를 사용하여 입력되는 신호의 예측 오차를 구하여 각각 양자화하고, 상기 양자화 결과를 비교하여 상기 복수개의 예측기중 하나의 예측기를 선택하고, 선택된 예측기를 이용하여 얻은 양자화 결과를 RMS 양자화 값으로 출력할 수 있다.
상기 고역 음성 압축 유니트에 구비되는 RMS 양자화를 수행하기 위한 RMS 양자화기는, 대역 사이의 예측을 통해 대역 예측 오차를 구하는 대역 예측기; 상기 대역 예측기로부터 출력되는 예측 오차를 양자화하는 제 1 양자화기; 2차원적인 시간-대역 예측 오차를 구하는 시간-대역 예측기; 상기 시간-대역 예측기로부터 출력되는 예측 오차를 양자화하는 제 2 양자화기;상기 제 1 양자화기로부터 출력되는 양자화된 예측 오차와 상기 제 2 양자화기로부터 출력되는 양자화된 예측 오차를 비교하여 상기 대역 예측기와 상기 시간-대역 예측기중 하나를 선택하여 상기 RMS 양자화에 이용하는 에측기 선택기를 포함할 수 있다.
상기 RMS 양자화기는, 상기 제 1 양자화기로부터 출력되는 예측 오차 양자화 인덱스를 역양자화하고, 상기 역양자화된 결과를 상기 대역 예측기와 상기 예측기 선택기로 각각 제공하는 제 1 역양자화기; 상기 제 2 양자화기로부터 출력되는 예측 오차 양자화 인덱스를 역양자화하고, 상기 역양자화된 결과를 상기 시간-대역 예측기와 상기 예측기 선택기로 각각 제공하는 제 2 역양자화기를 더 포함할 수 있다.
상기 제 1 양자화기와 상기 제 2 양자화기는 스칼라 양자화한다.
상기 고역 음성 압축 유니트는, 상기 RMS 양자화 값을 이용하여 DFT계수를 각 주파수 대역별로 정규화된 DFT계수를 구하고, 상기 정규화된 DFT계수를 벡터 양자화하는 기능을 더 포함할 수 있다.
상기 고역 음성 압축 유니트는 상기 DFT계수 벡터 양자화시, 각 주파수 대역별로 청각적으로 의미 있는 벡터 양자화 가중치 함수를 구하여 적용할 수 있다.
상기 벡터 양자화 가중치 함수는 상기 광대역 음성신호에 대한 마스킹된 신호와 상기 오차 신호를 이용하여 구할 수 있다.
상기 벡터 양자화 가중치 함수는 상기 마스킹된 신호로부터 시간영역 가중치 함수를 구하여 사용할 수 있다.
상기 벡터 양자화 가중치 함수는 상기 시간 영역 가중치 함수를 주파수 영역으로 변환하여 상기 주파수 영역에서 상기 DFT계수 벡터 양자화를 수행할 수 있다.
고역 음성 압축 유니트는, 상기 광대역 음성신호를 복수개의 주파수 대역으로 분할하는 필터 뱅크; 상기 필터 뱅크에서 출력되는 신호는 복수개의 주파수 대역별로 마스킹된 신호를 출력하는 마스킹부; 상기 마스킹부로부터 출력되는 각 주파수 대역별 마스킹된 신호와 상기 오차 신호를 이용하여 시간 영역 가중치 함수를 계산하는 가중치 함수 계산기; 상기 오차 검출 유니트로부터 제공되는 복수개의 주파수 대역을 갖는 오차 신호와 상기 필터 뱅크로부터 출력되는 복수개의 주파수 대역 신호에 대한 디에프티(DFT, Discrete Fourier Transform) 계수를 구하는 DFT연산기; DFT연산기에서 얻어진 DFT계수를 이용하여 각 주파수 대역별 알엠에스(RMS)값을 얻어 양자화하는 RMS양자화기; 상기 RMS 양자화기에서 얻은 RMS양자화 값을 이용하여 상기 DFT연산기에서 얻은 DFT계수의 크기를 정규화는 정규화기; 상기 정규화기에서 출력되는 정규화된 DFT계수를 가중치 함수 계산기로부터 제공되는 주파수 영역 가중치 함수를 이용하여 양자화하는 DFT계수 양자화기; 상기 RMS양자화기에서 출력되는 RMS 양자화 인덱스, 선택된 예측기 인덱스 및 양자화된 DFT 계수 인덱스를 패킷화하여 상기 고역 음성 패킷으로 출력하는 패킷화기를 포함할 수 있다.
상기 복원부는, 상기 협대역 압축기로부터 출력되는 저역 음성 패킷을 복원하는 협대역 음성 복원기; 상기 협대역 음성 복원기에서 복원된 음성신호를 광대역 저역 복원신호로 변환하는 제 2 대역 변환 유니트를 포함할 수 있다.
상기 기술적 과제들을 달성하기 위하여 본 발명은, 압축된 저역 음성 패킷이 수신되면, 상기 저역 음성 패킷을 협대역 저역 신호로 복원하는 협대역 음성 복원기; 압축된 고역 음성 패킷이 수신되면, 상기 고역 음성 패킷을 복원하는 고역 음성 복원 유니트; 상기 협대역 음성 복원기에서 복원된 신호와 상기 고역 음성 복원 유니트에서 복원된 신호를 합하여 광대역 복원신호를 출력하는 가산기를 포함하는 음성 복원 장치를 제공한다.
상기 음성 복원 장치는, 상기 협대역 음성 복원기로부터 출력되는 협대역 저역 복원신호를 광대역 저역 복원신호로 변환하는 대역 변환 유니트를 더 포함할 수 있다.
상기 고역 음성 패킷은 RMS 양자화 인덱스, 상기 음성 신호 압축시 이용되는 예측기 타입 인덱스, 및 DFT 계수 양자화 인덱스를 포함하고, 상기 고역 음성 복원 유니트는, 상기 DFT계수 양자화 인덱스에 의해 발생된 DFT 계수 역변환시, 계수의 위상은 자체적으로 계산하여 사용할 수 있다.
상기 계수의 위상은 각 DFT계수별로 구한다.
상기 고역 음성 패킷은 RMS 양자화 인덱스, 상기 음성 신호 압축시 이용되는 예측기 타입 인덱스, 및 DFT 계수 양자화 인덱스를 포함하고, 상기 고역 음성 복원 유니트는, 상기 예측기 타입 인덱스를 이용하여 복수개의 역양자화기중 하나의 역양자화기를 선택하고, 선택된 역양자화기와 상기 RMS 양자화 인덱스를 이용하여 양자화된 예측 오차값을 계산하는 역양자화기; 상기 예측기 타입 인덱스에 의해 복수개의 예측기중에서 하나의 예측기를 선택하고, 상기 역양자화기로부터 출력되는 양자화된 예측 오차값에 대한 양자화된 RMS값을 얻는 예측기; 상기 DFT 계수 양자화 인덱스에 대응되는 정규화된 DFT 계수 크기를 출력하는 코드북; 상기 양자화된 RMS 값에 상기 정규화된 DFT 계수 크기를 승산하는 승산기; DFT 계수 양자화 인텍스에 의해 해당되는 DFT 계수 위상값을 계산하는 DFT 위상 계산기; 상기 승산기로부터 출력되는 DFT계수 크기와 상기 DFT 위상 계산기로부터 출력되는 DFT 계수 위상값을 이용하여 각 대역별 시간 영역 신호를 얻는 DFT 역변환기; 상기 각 대역별 시간 영역 신호를 이용하여 각 대역별 음성신호를 얻는 필터 뱅크; 상기 필터 뱅크에서 출력되는 신호를 가산하여 상기 압축된 고역 음성 패킷에 대한 복원된 고역 음성신호를 출력하는 가산기를 포함할 수 있다.
상기 기술적 과제들을 달성하기 위하여 본 발명은, 광대역 음성신호를 협대역 저역 음성신호로 변환하는 단계; 상기 협대역 저역 음성신호를 압축하여 상기 광대역 음성신호에 대한 저역 음성 패킷으로서 송출하는 단계; 상기 저역 음성 패킷을 광대역 저역 복원신호로 복원하는 단계; 상기 광대역 저역 복원 신호와 상기 광대역 음성신호간의 오차신호를 검출하는 단계; 상기 오차 신호와 상기 광대역 음성신호의 고역 음성신호를 압축하여 상기 광대역 음성신호의 고역 음성 패킷으로서 송출하는 단계를 포함하는 음성 압축 방법을 제공한다.
상기 기술적 과제들을 달성하기 위하여 본 발명은, 압축된 저역 음성 패킷은 협대역 저역 신호로 복원하고, 압축된 고역 음성 패킷은 고역 음성신호로 복원하는 단계; 상기 협대역 저역 신호를 광대역 저역 복원 신호로 변환하는 단계; 상기 광대역 저역 복원 신호와 상기 고역 음성신호를 가산하고, 가산된 결과를 상기 저역 음성 패킷과 상기 고역 음성 패킷에 대한 광대역 복원신호로서 출력하는 단계를 포함하는 음성 복원 방법을 제공한다.
이하 본 발명의 실시 예에 따른 음성 압축 및 복원 장치와 그 방법을 살펴보면 다음과 같다.
도 1은 본 발명에 따른 음성 압축장치의 기능 블록도이다. 도 1을 참조하면, 본 발명에 따른 음성 압축장치는 제 1 대역 변환 유니트(102), 협대역 음성 압축기(106), 협대역 음성 복원기(108), 제 2 대역 변환 유니트(110), 오차 검출 유니트(114), 고역 음성 압축 유니트(116)로 구성된다.
제 1 대역 변환 유니트(102)는 라인(101)을 통해 입력되는 광대역 음성 신호를 협대역 신호로 변환한다. 상기 광대역 음성신호는 아날로그 신호를 16kHz로 샘플링하고, 각 샘플을 16bit 선형 PCM(Pulse Code Modulation)으로 양자화 한 신호이다.
제 1 대역 변환 유니트(102)는 저역 통과 필터(104)와 다운 샘플러(down sampler)(105)로 구성된다.
저역 통과 필터(104)는 차단 주파수에 따라 라인(101)을 통해 입력되는 광대역 음성신호를 저역 필터링한다. 상기 차단 주파수는 계층적인 대역폭 구조에 따라 정의되는 협대역의 대역폭에 의해 결정된다. 저역 통과 필터(104)는 예를 들어 5차 버터월쓰(Butterworth) 필터를 사용하고, 차단 주파수는 3700Hz사용할 수 있다.
다운 샘플러(105)는 1/2 다운 샘플링에 따라 저역 통과 필터(104)로부터 출력되는 신호를 샘플마다 교차적으로 제거하여 협대역 저역 신호를 출력한다. 협대역 저역 신호는 라인(103)을 통해 협대역 음성 압축기(106)로 출력된다.
협대역 음성 압축기(106)는 상기 협대역 저역 신호를 압축하여 저역 음성 패킷을 출력한다. 협대역 저역 신호를 압축하는 방식은 기존의 표준 협대역 압축기에서 이용되는 방식을 사용할 수 있다. 저역 음성 패킷은 라인(107)을 통해 통신 채널(미 도시됨)로 전달되면서 협대역 음성 복원기(108)로 전달된다.
협대역 음성 복원기(108)는 상기 저역 음성 패킷에 대한 저역 복원 신호를 구한다. 협대역 음성 복원기(108)의 동작은 협대역 음성 압축기(106)의 동작에 의하여 정의된다. 만약 기존의 CELP(Code Excited Linear Prediction) 기반 표준 협대역 음성 압축기를 사용할 경우에, 협대역 음성 압축기 내부에 복원 기능이 포함되어 있으므로, 상기 협대역 음성 압축기(106)와 협대역 음성 복원기(108)는 통합된 구조를 갖는다. 협대역 음성 복원기(108)에서 출력되는 저역 복원 신호는 제 2 대역 변환 유니트(110)로 전송된다.
제 2 대역 변환 유니트(110)는 협대역 저역 복원 신호를 광대역 저역 복원 신호로 변환한다. 이와 같이 대역을 변환하는 이유는 입력되는 음성신호가 광대역이기 때문이다. 제 2 대역 변환 유니트(110)는 업 샘플러(112)와 저역 통과 필터(113)로 구성된다.
업 샘플러(112)는 라인(109)을 통해 협대역 저역 복원 신호가 입력되면, 각 샘플 사이에 제로(Zero) 샘플을 삽입하는 과정으로 업 샘플링한다. 업 샘플링된 신호는 저역 통과 필터(113)로 전송된다. 저역 통과 필터(113)는 상기의 저역 통과 필터(104)와 동일하게 동작한다. 저역 통과 필터(113)로부터 출력되는 신호는 광대역 저역 복원신호이다. 광대역 저역 복원신호는 라인(111)을 통해 오차 검출 유니트(114)로 전송된다.
협대역 복원기(108)와 제 2 대역 변환 유니트(110)는 압축된 협대역 저역 신호를 광대역 저역 복원 신호로 복원하는 복원부로 정의될 수 있다.
오차 검출 유니트(114)는 라인(101)을 통해 입력되는 광대역 음성 신호와 라인(111)을 통해 입력되는 광대역 저역 복원신호간의 오차 신호를 검출한다. 오차 검출 유니트(114)는 도 2에 도시된 바와 같이 구성될 수 있다.
도 2를 참조하면, 본 발명에 따른 오차 검출 유니트(114)는 필터 뱅크(201, 201'), 반파 정류기(203, 203'), 피크 선택기(205, 205'), 마스킹부(207, 207'), 신호간 마스킹부(209)로 구성된다.
필터 뱅크(201), 반파 정류기(203), 피크 선택기(205), 마스킹부(207)는 라인(101)을 통해 입력되는 광대역 음성신호에 대하여 대역별로 마스킹된 신호를 얻기 위한 것이다.
필터 뱅크(201)는 라인(101)을 통해 입력되는 광대역 음성신호에서 다수의 정해진 주파수대역 신호만을 통과시킨다. 상기 정해진 주파수 대역은 중심 주파수에 따라 결정된다. 만약 고역(high pass band) 음성 신호를 2600Hz 이상의 신호로 정의하고, 협대역 음성 압축기(106)에서 처리하는 협대역 저역 신호를 3700Hz 이하의 신호로 정의할 경우에, 필터 뱅크(201)는 중심 주파수 2900Hz와 3400Hz를 가지는 두 개의 대역으로 설정될 수 있다. 상기 필터 뱅크(201)는 기존의 감마톤(Gammatone) 필터 뱅크를 사용할 수 있다. 필터 뱅크(201)에서 출력되는 신호는 라인(202)을 통해 반파 정류기(203)로 전송된다.
반파 정류기(203)는 라인(202)을 통해 입력되는 신호에서 음의 값을 가지는 모든 샘플을 0으로 출력한다. 본 발명에서는 반파 정류에 의한 에너지 감소를 보상하기 위하여, 양의 샘플에 일정한 이득을 곱하여 반파 정류된 신호를 구하도록 반파 정류기(203)를 구성할 수 있다. 상기 이득은 예를 들어 2.0으로 설정될 수 있다.
피크 선택기(205)는 라인(204)을 통해 입력되는 반파 정류된 신호에서 피크 값을 가지는 샘플만 선택하여 출력한다. 즉, 피크 선택기(205)는 수학식 1에 정의된 바와 같이 입력되는 신호에서 피크 값을 갖는 샘플을 선택한다.
수학식 1에서 x[n]은 피크 선택기(205)의 입력신호이고, y[n]은 피크 선택기(205)의 출력신호이다. x[n-1]과 x[n+1]은 x[n]의 좌우 양옆의 신호 또는 시간적으로 x[n]의 전후 신호이다.
이 때, 피크가 아닌 신호가 제거됨에 따라 전체 에너지가 감소하는 것을 보상하기 위하여, 피크값 좌우 양옆의 신호를 제거할 때 제거되는 신호의 크기를 수학식 2에서와 같이 선택된 피크값에 더하여 입력되는 신호에 대한 피크 값을 검출할 수 있다.
수학식 2에서 G는 보상 정도를 결정하는 상수로서, 예를 들어 0.5로 설정될 수 있다. x[n-1]와 x[n+1]은 선택된 피크값 x[n]의 좌우측에 위치한 신호 크기 또는 시간적으로 x[n]의 전후 신호의 크기이다.
마스킹부(207)는 기존에 알려진 방식을 사용하여 라인(206)을 통해 입력되는 피크 신호로부터 사후(Post) 마스킹 곡선 q[n]과 사전(Pre) 마스킹 곡선 z[n]을 구하고, 마스킹 곡선 아래의 모든 값들을 0으로 치환한 신호를 라인(208)을 통해 출력한다. 라인(208)을 통해 출력되는 신호는 라인(101)을 통해 입력되는 광대역 음성신호에 대한 마스킹된 신호이다.
상기 사후 마스킹 곡선 q[n]은 수학식 3과 같이 정의될 수 있다.
상기 사전 마스킹 곡선 z[n]은 수학식 4와 같이 정의될 수 있다.
수학식 3에서 x[n]은 마스킹부(207)의 입력 신호이고, 수학식 3과 수학식 4에서 c0와 c1은 마스킹의 강도를 결정하는 상수로서, 본 발명의 실시 예에서는 c 0 =e-0.5와 c1=e-1.5를 사용한다. 수학식 3에서 q[n-1]은 시간적으로 q[n]의 이전 마스킹 곡선의 값이다.
또한, 본 발명에서는 마스킹부(207)에서의 마스킹에 의한 에너지 감소를 자동으로 보상하기 위하여, 마스킹에 의하여 제거되는 샘플 값들을 남아 있는 샘플값들에 소정의 이득을 곱하여 추가시킬 수 있다. 이러한 동작은 수학식 5 및 수학식 6과 같이 정의될 수 있다.
수학식 5는 사후 마스킹에 의한 에너지 감소를 자동으로 보상하기 위한 것이고, 수학식 6은 사전 마스킹에 의한 에너지 감소를 자동으로 보상하기 위한 것이다. 수학식 5 및 수학식 6에서 q[n]과 z[n]은 수학식 3 및 수학식 4에 의하여 정의된 마스킹 곡선이고, N은 프레임 길이이고, G는 보상 정도를 정하는 상수이다. 상기 G는 예를 들어 0.5로 설정될 수 있다.
라인(111)을 통해 입력되는 광대역 저역 복원신호는 필터 뱅크(201'), 반파 정류기(203'). 피크 선택기(205'), 마스킹부(207')를 통해 상술한 라인(101)을 통해 입력되는 광대역 음성 신호와 같이 처리된다. 이에 따라 마스킹부(207')에서는 광대역 저역 복원신호에 대한 마스킹 된 신호가 출력된다.
신호간 마스킹 부(209)는 라인(208')을 통해 마스킹부(207')로부터 출력되는 신호를 x[n]으로 놓고 수학식 3과 수학식 4에 의하여 사후 마스킹 곡선과 사전 마스킹 곡선을 구한다. 그리고, 라인(208)을 통해 입력되는 신호중에서 상기 사후 마스킹 곡선과 사전 마스킹 곡선 아래의 값을 모두 0으로 치환하여, 광대역 음성신호와 광대역 저역 복원신호간의 오차 신호를 검출한다.
검출된 오차 신호는 라인(115)을 통해 고역 음성 압축 유니트(116)로 전송된다. 이 때, 신호간 마스킹부(209)에서는 정보의 차이만큼 에너지가 감소하는 것은 정상이므로, 수학식 5와 수학식 6에서와 같은 마스킹에 의한 에너지 감소 보상 과정은 적용하지 않는다.
상술한 오차 검출 유니트(114)에서의 오차 검출방식은 기존의 두 신호 사이의 차를 계산하여 오차 신호를 구하는 방식에 비해 음성 압축 왜곡을 저하시키는 장점을 갖는다. 이는 도 3(a) 및 도 3(b)에 예시된 도면을 통해 알 수 있다.
즉, 도 3(a)는 기존 방식으로 오차 검출 시, 입력 신호와 복원된 신호간의 스펙트럼 관계 예시도이고, 도 3(b)는 도 2에 도시된 바와 같이 오차 검출 시, 입력 신호와 복원된 신호간의 스펙트럼 관계 예시도이다. 도 3(a)와 도 3(b)의 T 주파수 대역을 보면, 기존의 방식으로 오차 검출시, 복원된 신호가 충분히 보상되지 않는다. 그러나, 본 발명에 따른 오차 검출시, 복원된 신호는 입력 신호와 근접한 레벨을 갖는다.
고역 음성 압축 유니트(116)는 라인(115)을 통해 입력되는 오차 신호와 라인(101)을 통해 입력되는 광대역 음성 신호를 부호화하여 고역 음성 패킷을 얻는다. 이를 위하여 고역 음성 압축 유니트(116)는 도 4에 도시된 바와 같이 구성된다.
도 4를 참조하면, 본 발명에 따른 고역 음성 압축 유니트(116)는 필터 뱅크(401), DFT 연산기(403), RMS(Root-Mean-Square) 연산기(405), RMS 양자화기(407), 계수 크기 계산기(409), 정규화기(411), DFT 계수 양자화기(413), 가중치 함수 계산기(416), 반파 정류기(420), 피크 선택기(421), 마스킹부(422) 및 패킷화기(423)로 구성된다.
필터 뱅크(401)는 라인(101)을 통해 입력되는 광대역 음성 신호의 대역을 분해한다. 예를 들어, 중심 주파수 4000Hz, 4800Hz, 5800Hz, 7000Hz를 이용하여 입력되는 광대역 음성신호를 4개의 대역 신호로 분해한다. 반면에 라인(115)을 통해 입력되는 오차 신호는 이미 2개의 대역으로 분리된 신호이므로 필터 뱅크 동작이 적용되지 않는다. 상기 2개의 대역은 중심 주파수가 2900Hz, 3400Hz인 주파수 대역이다.
이에 따라 고역 음성 압축 유니트(116)에서 처리하는 고역 신호는 라인(115)을 통해 전송되는 2개 대역과 필터 뱅크(401)에서 분해된 4개의 대역으로 총 6개의 대역을 갖는다. 각 대역은 대역 0부터 대역 5로 표기된다. 즉, 라인(115)을 통해 입력되는 오차 신호는 대역 0과 대역 1로 표기되고, 필터 뱅크(401)로부터 출력되는 4개의 대역은 대역 2에서 대역 5로 표기된다.
라인(115)을 통해 입력되는 대역0과 대역1에 해당하는 오차 신호와, 대역2에서 대역5에 해당하는 필터 뱅크(401)의 출력 신호(402)는 DFT 연산기(403)로 입력된다.
DFT 연산기(403)는 각 대역별 신호(402)와 오차신호(115)에 대하여 독립적으로 적용하며, 각 대역별 신호(402)와 오차신호(115)가 각각 해당 대역에 한정된 신호이므로, 각 대역에 해당하는 주파수 영역에서의 DFT 계수만 구한다. 즉, 입력되는 신호를 주파수 대역으로 변환하고 DFT 계수를 구한다. DFT연산은 기존에 알려진 방식을 사용한다. 구해진 DFT계수는 라인(404)을 통해 RMS 연산기(405)와 계수 크기 계산기(409)로 제공된다.
RMS 연산기(405)는 각 대역별로 DFT 계수값의 RMS 값을 구한다. 예를 들어, 필터 뱅크(401)의 출력신호와 라인(115)을 통해 입력되는 오차 신호를 10msec 부프레임 단위로 DFT연산하여 얻은 DFT계수 값에 대한 RMS 값을 구하고, 구해진 RMS 값은 30msec 프레임 단위로 RMS 양자화기(407)로 출력한다. 즉, 라인(406)을 통해 입력되는 RMS 양자화기(407)의 입력 값은 (6개 대역×3개 부프레임) = 18개의 RMS 값으로 구성된다.
RMS 양자화기(407)는 입력되는 RMS값을 양자화 한다. 기존의 기술에서는 각 대역의 RMS 값을 독립적으로 스칼라(Scalar) 양자화 한다. 그러나, 6개 대역과 3개의 부프레임에 대하여 구하여진 18개의 RMS 값(406)간에는 많은 상관 관계가 존재한다. 따라서 상기 상관관계를 활용하기 위하여 RMS 양자화기(407)는 상기 RMS값에 대한 예측 양자화를 수행한다. 즉, 18개의 RMS 값(406)의 특성에 따라 예측기를 선택적으로 정하는 선택적 예측 양자화를 한다.
이를 위하여 RMS 양자화기(407)는 도 5에 도시된 바와 같이 구성된다. 도 5를 참조하면, RMS 양자화기(407)는 대역 예측기(501), 시간-대역 예측기(503), 양자화기(505, 506), 역양자화기(509, 510), 예측기 선택기(513)로 구성된다.
라인(406)을 통해 입력되는 전체 RMS 값을 3×6 크기의 행렬 로 표시한다. t는 부프레임 인덱스로서 0, 1, 2 값을 갖고, b는 대역 인덱스로서 0,1,2,3,4,5 값을 갖는다. 대역 예측기(501)는 대역간의 RMS 상관관계를 이용하여 예측을 실시하여, 대역 예측 오차값(502)을 출력한다. 본 발명에 따른 RMS값에 대한 대역 예측 오차값(502)은 수학식 7과 같이 정의할 수 있다.
수학식 7에서 은 양자화기(505) 및 역양자화기(509)를 통해 양자화 및 역양자화 과정을 거친 양자화된 RMS 값(511)이고, a는 예측기 계수값으로서 본 발명의 실시 예에서는 1.0을 사용한다. 초기값 으로 설정한다. 각 RMS 대역 예측 오차 값이 양자화기(505)에서 독립적으로 스칼라(Scalar) 양자화 되므로 수학식 7과 같이 양자화된 결과로부터 RMS 값을 예측할 수 있다.
시간-대역 예측기(503)는 대역과 시간 사이의 RMS 상관관계를 이용하여 예측을 동시에 실시한다. 본 발명에 따른 RMS 값에 대한 시간-대역 예측 오차값(504)은 수학식 8과 같이 정의할 수 있다.
수학식 8에서 g는 시간-대역 예측기(503)에서의 예측 계수값으로 본 발명에서는 0.5를 사용하고, 초기값 으로 설정한다.
양자화기(505)는 RMS값에 대한 대역 예측 오차(502)를 스칼라 양자화하여 RMS 양자화 인덱스를 구한다. 양자화기(506)는 RMS값에 대한 시간-대역 예측 오차(504)를 스칼라 양자화하여 RMS 양자화 인덱스를 구한다. 역양자화기(509)는 양자화된 RMS값(511)을 수학식 7을 이용하여 수학식 9와 같이 구한다. 또한, 역양자화기(510)는 양자화된 RMS 값(512)을 수학식 8을 이용하여 수학식 10과 같이 구한다.
역양자화기들(509, 510)에서 출력되는 신호들은 각각 대역 예측기(501)와 시간-대역 예측기(503)로 입력되어 수학식 7과 수학식 8의 예측 동작에 이용된다.
양자화기(505, 506)와 역양자화기(509, 510)의 스텝 사이즈(Step Size)는 각 예측 오차 값에 할당된 비트에 따라 결정된다. 본 발명에 따른 실시 예는 도 7에 예시된 바와 같이 비트가 할당된다. 양자화기(505, 506)는 예측 오차를 mu-law 방식으로 양자화할 수 있다. 단, 예측의 효과가 없는 대역 또는 시간, 즉 대역 예측기(501)에서의 와 시간-대역 예측기(503)에서의 는 원 RMS 값에 해당하므로 오차의 성질을 가지지 못하므로, RMS 값 의 분포를 고려하여 일반적인 선형 양자화 한다.
예측기 선택기(513)는 동일한 RMS 입력(406)에 대하여 대역 예측기(501)와 시간-대역 예측기(503)에서 예측된 결과에 대한 양자화기(505, 506)와 역양자화기(509, 510)의 출력을 이용하여 양자화 오차 에너지를 계산하고, 양자화 오차 에너지가 작은 예측기를 선택한다.
만약 대역 예측기(501)의 양자화 오차 에너지가 작으면, 예측기 선택기(513)는 라인(408)을 통해 역양자화기(509)에서 출력되는 양자화된 RMS값을 출력하고, 라인(418)을 통해 선택된 예측기의 RMS 양자화 인덱스를 출력하고, 라인(417)을 통해 선택된 예측기가 대역 예측기(501)임을 표시하는 선택된 예측기 타입 인덱스를 출력한다.
반면에 시간-대역 예측기(503)의 양자화 오차 에너지가 작으면, 예측기 선택기(513)는 역양자화기(510)에서 출력되는 양자화된 RMS값을 출력하고, 라인(418)을 통해 해당되는 RMS 양자화 인덱스를 출력하고, 라인(417)을 통해 선택된 예측기가 시간-대역 예측기(503)임을 표시하는 선택된 예측기 타입 인덱스를 출력한다.
계수 크기 계산기(409)는 각 대역별 DFT 계수의 크기(Magnitude)를 구하여 라인(410)을 통해 출력한다. 계수 크기 계산기(409)는 복소수인 DFT 계수(404)의 절대값을 구하는 방식으로 수행된다.
정규화기(411)는 라인(408)을 통해 전송되는 각 대역별 양자화 된 RMS 값을 이용하여 라인(410)을 통해 전송되는 계수 크기에 대해 정규화 된 계수 크기를 구한다. 정규화기(411)는 신호(410)을 RMS 양자화기(407)에서 제공되는 각 대역별 양자화된 RMS값(408)으로 나누어 상기 정규화된 계수 크기를 구한다. 이 정규화 된 계수 크기를 각 대역별로 DFT 계수 양자화기(413)로 입력한다.
DFT 계수 양자화기(413)는 가중치 함수 계산기(416)에서 제공되는 가중치 함수(414)를 이용하여 각 대역별 DFT 계수를 양자화 하여 DFT 계수 인덱스를 라인(419)를 통해 출력한다. 즉, DFT 계수 양자화기(413)는 정규화된 DFT 계수의 크기(412)를 대역별로 벡터 양자화 한다. 본 발명의 실시 예에서는 각 필터 뱅크에서 사용되는 중심 주파수를 2900, 3400, 4000, 4800, 5800, 7000Hz으로 하고, 매 10msec 마다 DFT 연산을 실시하므로 DFT 계수의 크기는 160이 되고, 각 대역에 해당하는 DFT 계수 인덱스 값은 도 6과 같이 설정될 수 있다.
가중치 함수 계산기(416)는 대역2부터 대역5까지 마스킹 된 신호(415)와 오차 신호(115)를 이용하여 구한다. 즉, 상기 가중치 함수 계산기(416)는 청각적 정보에 의한 가중치 함수를 정의하고, 이를 주파수 영역으로 변환하여 DFT계수 양자화 과정에 적용할 수 있도록 DFT계수 양자화기(413)로 제공한다.
각 대역별 신호(402)와 오차신호(115)에서 청각적으로 의미 있는 정보는 마스킹 된 신호(415)와 오차신호(115)에 모두 포함되어 있다. 양자화 후에 상기 마스킹 된 신호(415)와 오차신호(115)의 모양이 유지된다면 청각적으로 왜곡이 발생되지 않은 것이다.
이 때, 마스킹된 신호(415)와 오차신호(115)에서의 각 펄스의 위치가 중요하고 특히 크기가 큰 펄스의 위치가 더 중요한 정보이다. 따라서, 각 대역별로 양자화 된 시간 영역 신호(즉, 양자화 된 DFT 계수의 DFT 역변환 결과)에서 각 샘플의 중요도는 각 대역별 마스킹 된 신호(415)와 오차신호(115)의 펄스 위치와 크기로 결정되고, 시간 영역에서의 가중치 적용 평균 제곱 오차 값은 수학식 11과 같이 정의할 수 있다.
수학식 11에서 x[n]는 필터 뱅크 출력 신호(402)와 (115)이고, xq [n]은 양자화 된 DFT 계수를 시간 영역으로 변환한 신호이며, DFT 계수의 크기만 양자화 하므로 위상은 원래의 값을 사용하여 DFT 역변환 한다. 또한, w[n]는 각 대역별로 마스킹된 신호(415)와 오차신호(115)를 기반으로 구하여진 시간 영역 가중치 함수로서, 본 발명에서는 수학식 12와 같이 정의한다.
수학식 12에서 y[n]은 각 대역에 대하여 마스킹된 신호(415)와 오차신호(115)이다. 만일 수학식 12에서 이면, w[n] = 1.0이 된다.
이 가중치 함수를 주파수 영역의 벡터 양자화 과정(또는 DFT계수 양자화)에 적용하기 위하여, 기존의 기술에 따라 가중치 함수를 시간 영역에서 주파수 영역으로 변환하면 주파수 영역에서의 가중치 함수(414)가 수학식 13과 같이 행렬 형태의Wf로 구해진다.
수학식 13에서 D는 DFT 역변환에 해당하는 행렬이고, 로 정의되는 행렬이다.
따라서, 가중치 함수 계산기(416)는 각 대역별로 마스킹된 신호(415)와 오차신호(115)를 이용하여 수학식 12에 따라 w[n]을 구하고, 이를 수학식 13에 대입하여 행렬 형태의 대역별 가중치 함수 Wf (414)를 구한다. 대역별 가중치 함수(414)는 DFT 계수 양자화기(413)로 제공된다. 각 대역별로 가중치 적용 평균 제곱 오차값은 수학식 14와 같이 구한다.
수학식 14에서 각 대역에 대하여 이 식을 최소로 하는 코드벡터 i 를 구하면 청각적인 왜곡이 최소가 되는 양자화를 하게 된다. 여기서, 각 대역에서의 E는 코드벡터 i 에 대한 오차 벡터이다. 본 발명에 따른 실시 예에서 각 대역에 할당된 비트 수는 도 7과 같다.
패킷화기(423)는 RMS 양자화 인덱스(418)와 RMS 양자화기(407)에서 선택된 예측기 인덱스(417)와 각 대역별 DFT 계수 양자화 인덱스(419)를 패킷화 하여 고역 음성 패킷을 만든다. 만들어진 고역 음성 패킷은 라인(117)을 통해 통신 채널(미 도시됨)로 전송된다.
필터 뱅크(401)를 통해 출력되는 4개의 대역 신호는 반파 정류기(420), 피크 선택기(421), 마스킹부(422)를 통해 도 2에서와 같이 처리되어 각 대역별 마스킹 된 신호를 얻는다.
도 8은 본 발명에 따른 음성 복원장치의 기능 블록도이다. 도 8을 참조하면, 본 발명에 따른 음성 복원 장치는, 협대역 음성 복원기(802), 제 3 대역 변환 유니트(804), 고역 음성 복원 유니트(809), 및 가산기(811)로 구성된다.
협대역 음성 복원기(802)는 도 1의 협대역 음성 복원기(108)와 동일하게 구성된다. 따라서 라인(801)을 통해 저역 음성 패킷이 입력되면, 협대역 음성 복원기(802)는 협대역 저역 복원신호(803)를 출력한다.
제 3 대역 변환 유니트(804)는 협대역 저역 복원신호(803)를 광대역 저역 복원신호(807)로 변환한다. 제 3 대역 변환 유니트(804)는 업 샘플러(805)와 저역 통과 필터(806)로 구성되어 도 1의 제 2 대역 변환 유니트(110)와 동일하게 동작한다.
고역 음성 복원 유니트(809)는 라인(808)을 통해 고역 음성 패킷이 수신되면, 고역 복원 신호를 구한다. 고역 음성 복원 유니트(809)는 도 1의 고역 음성 압축 유니트(116)에 의하여 정의된다.
따라서, 고역 음성 압축 유니트(116)에 대응되는 고역 음성 복원 유니트(809)는 도 9에 도시된 바와 같이 구성될 수 있다. 도 9를 참조하면, 고역 음성 복원 유니트(809)는 역양자화기(904), 예측기(906), 승산기, 코드북, DFT 계수 위상 계산기, DFT 역 변환기, 필터 뱅크, 가산기로 구성된다.
역양자화기(904)는 도 5에 도시된 바와 같은 대역 예측기(501)과 시간-대역 예측기(503)에 대응되는 역양자화기(미 도시됨)가 각각 구비된다. 따라서, 역양자화기(904)는 라인(902)를 통해 입력되는 예측기 타입 인덱스를 이용하여 상기 복수개의 역양자화기에서 해당되는 역양자화기를 선택하고, 라인(901)을 통해 입력되는 RMS 양자화 인덱스를 이용하여 역양자화된 예측 오차값 또는 을 계산한다. 상기 RMS 양자화 인덱스와 예측기 타입 인덱스는 고역 음성 패킷에 포함되어 전송된다.
역양자화기(904)에서 출력되는 양자화된 예측 오차 값은 라인(905)을 통해 예측기(906)로 전송된다. 예측기(906)는 도 5에 도시된 대역 예측기(501)와 시간-대역 예측기(503)를 포함하도록 구성되어 라인(902)를 통해 입력되는 예측기 타입 인텍스에 의해 해당되는 예측기를 선택한다. 예측기가 선택되면, 라인(905)를 통해 입력되는 양자화된 예측 오차 값을 수학식 9와 수학식 10에 적용하여 양자화된 RMS 값을 얻는다. 양자화된 RMS 값은 라인(907)을 통해 출력된다.
코드북(908)은 라인(903)을 통해 DFT 계수 양자화 인덱스가 입력되면, 입력된 인덱스에 대응되는 정규화된 DFT 계수 크기를 출력한다. 상기 DFT 계수 양자화 인덱스는 고역 음성 패킷에 포함되어 전송된다. 상기 정규화된 DFT 계수 크기는 라인(909)을 통해 승산기(910)로 전송된다.
승산기(910)는 라인 (907)를 통해 입력되는 양자화된 RMS값에 라인 (909)를 통해 입력되는 정규화된 DFT 계수 크기를 승산하여 양자화된 DFT계수 크기를 얻는다. 양자화된 DFT 계수 크기는 라인(911)를 통해 출력된다.
DFT 계수 위상 계산기(912)는 수학식 15에 의하여 자체 순환적으로 DFT 계수 위상값 θi [m]을 구하여 라인(913)을 통해 출력한다.
수학식 15에서 m은 DFT 계수 양자화 인덱스, i 은 대역 인덱스, 는 현재 부프레임과 이전 부프레임의 값을 나타내고, 초기값은 0이다. ωc는 래디얼(Radian) 단위로 표시한 각 대역의 중심 주파수, N은 DFT 크기, psi[m]은 (-pi, ~pi)에 균일하게 분포한 랜덤한 값이며, z 랜덤의 정도를 나타내는 값으로서 10을 사용할 수 있다.
DFT 역변환기(914)는 라인(911)을 통해 입력되는 DFT 계수 크기와 라인(913)을 통해 입력되는 DFT 계수 위상 값 θi [m]을 이용하여 각 대역별로 시간 영역 신호를 얻는다. 각 대역별 시간 영역 신호는 라인(915)를 통해 출력된다.
필터 뱅크(916)는 대역 0과 대역 1에 대해서는 도 2에 도시된 필터 뱅크(201, 201')에 의해 정의되고, 대역 2부터 대역 5까지는 도 4에 도시된 필터 뱅크(401)에 의해 정의된다. 따라서, 필터 뱅크(916)에서 각 대역은 필터 뱅크(201, 201')와 필터 뱅크(401)에 정의된 중심주파수와 동일한 중심주파수에 의해 정의된다. 필터 뱅크(916)는 각 대역별 시간 영역 신호를 이용하여 각 대역별 최종 음성신호를 얻는다. 각 대역별 음성신호와 오차 신호를 라인(917)를 통해 가산기(918)로 전송된다.
가산기(918)는 필터 뱅크(917)를 통해 전송되는 각 대역별 음성 신호를 가산하여 복원된 고역 음성신호를 얻는다. 복원된 고역 음성신호는 라인(810)을 통해 출력된다.
가산기(811)는 라인(810)을 통해 입력되는 복원된 고역 음성신호와 라인(807)을 통해 입력되는 광대역 저역 복원신호를 합하여 광대역 복원 음성 신호(812)를 출력한다.
도 10은 본 발명에 따른 음성 압축 방법의 동작 흐름도이다.
광대역 음성 신호가 입력되면, 제 1001 단계에서 상기 광대역 음성 신호를 협대역 저역 음성 신호로 변환한다. 변환방식은 도 1의 제 1 대역 변환 유니트(102)에서 설명한 바와 같다.
제 1002 단계에서 기존의 표준 협대역 압축방식을 이용하여 상기 협대역 저역 음성신호를 압축하고, 압축된 신호를 통신 채널(미 도시됨)로 송출한다. 상기 압축된 신호는 상기 광대역 음성신호에 대한 저역 음성 패킷이다.
제 1003 단계에서 저역 음성 패킷을 광대역 저역 복원신호로 복원한다. 복원 방식은 도 1에 도시된 협대역 복원기(108)와 제 2 대역 변환 유니트(110)에서 설명한 바와 같다.
제 1004 단계에서 상기 광대역 음성신호와 상기 광대역 저역 복원신호간의 오차 신호를 검출한다. 오차 신호를 검출하는 방식은 도 2에서 설명한 바와 같다.
제 1005 단계에서 상기 오차 신호와 상기 광대역 음성 신호의 고역 음성신호를 압축하고, 압축된 신호를 통신 채널(미 도시됨)으로 송출한다. 상기 압축된 신호는 광대역 음성신호에 대한 고역 음성 패킷이다. 상기 오차 신호와 고역 음성신호를 압축하는 방식은 도 4 및 도 5에서 설명한 바와 같다.
도 11은 본 발명에 따른 음성 복원 방법의 동작 흐름도이다.
통신 채널(미 도시됨)을 통해 저역 음성 패킷과 고역 음성 패킷이 각각 수신되면, 제 1101 단계에서 상기 저역 음성 패킷은 협대역 저역 신호로 복원한다. 협대역 저역 신호로의 변환 방식은 도 8에 도시된 협대역 음성 복원기(802)에서와 같은 방식으로 수행된다. 또한, 고역 음성 패킷은 고역 음성 신호로 복원한다. 상기 고역 음성 신호로의 복원 방식은 도 8 및 도 9에서 설명한 바와 같다.
제 1102 단계에서 상기 협대역 저역 신호를 광대역 저역 복원신호로 변환한다. 광대역 저역 복원신호로의 변환 방식은 도 8의 대역 변환 유니트(804)에서 설명한바와 같다.
제 1103 단계에서 상기 광대역 저역 복원신호와 복원된 고역 음성신호를 가산하고 그 결과를 상기 저역 음성 패킷과 고역 음성 패킷에 대한 광대역 복원신호로서 출력한다.
상술한 본 발명에 따르면, 계층적인 대역폭 구조를 갖는 음성신호 부호화 및 복호화기에 있어서, 기존의 표준 협대역 압축기와 호환이 가능한 음성 압축 및 복원 장치와 그 방법을 제공할 수 있다.
또한, 협대역 음성 압축기에 의한 왜곡을 고역 음성 압축시 추가로 압축하여 협대역 음성 압축기에서 발생되는 왜곡을 보상할 수 있다.
그리고 고역 신호의 압축 과정에서 음성신호의 청각적 특성을 고려한 가중치 함수를 적용하여 양자화 효율을 향상시킬 수 있다. 고역 음성신호 압축 및 복원 시, 대역간 및 시간-대역간 상관관계를 고려하여 압축하고 이를 고려하여 복원할 뿐 아니라 광대역 저역 복원신호와 광대역 음성신호간의 오차 신호를 검출하고, 이를 이용함으로써, 압축 및 복원으로 인한 정보 손실을 최소화할 수 있다.
도 1은 본 발명에 따른 음성 압축장치의 기능 블록도이다.
도 2는 도 1에 도시된 오차 검출 유니트의 상세 기능 블록도이다.
도 3(a)는 기존 방식으로 오차 검출 시, 입력 신호와 출력 신호간의 관계 예시도이고,
도 3(b)는 도 2에 도시된 바와 같이 오차 검출 시, 입력 신호와 출력 신호간의 관계 예시도이다.
도 4는 도 1에 도시된 고역 음성 압축 유니트의 상세 기능 블록도이다.
도 5는 도 4에 도시된 RMS 양자화기의 상세 블록도이다.
도 6은 도 4에서의 DFT 계수 양자화를 위한 대역 범위를 명시한 예이다.
도 7은 본 발명의 일 실시예에 따른 RMS 양자화와 DFT 계수 양자화에 할당된 비트 규격을 명시한 예이다.
도 8은 본 발명에 따른 음성 복원장치의 기능 블록도이다.
도 9는 도 8에 도시된 고역 음성 복원 유니트의 상세 블록도이다.
도 10은 본 발명에 따른 음성 압축 방법의 동작 흐름도이다.
도 11은 본 발명에 따른 음성 복원 방법의 동작 흐름도이다.

Claims (30)

  1. 음성 압축 장치에 있어서,
    광대역 음성신호를 협대역 저역 음성신호로 변환하는 제 1 대역 변환 유니트;
    상기 제 1 대역 변환 유니트로부터 출력되는 협대역 저역 음성신호를 압축하여 상기 광대역 음성신호에 대한 저역 음성 패킷으로서 출력하는 협대역 음성 압축기;
    상기 협대역 음성 압축기에서 압축된 협대역 저역 음성신호를 광대역 저역 복원신호로 복원하는 복원부;
    상기 광대역 음성신호와 상기 광대역 저역 복원신호간의 오차 신호를 검출하는 오차 검출 유니트;
    상기 오차 검출 유니트로부터 검출된 오차 신호와 상기 광대역 음성신호의 고역 음성신호를 압축하여 상기 광대역 음성신호에 대한 고역 음성 패킷으로서 출력하는 고역 음성 압축 유니트를 포함하는 음성 압축 장치.
  2. 제 1 항에 있어서, 상기 오차 검출 유니트는 상기 광대역 음성신호 및 상기 광대역 저역 복원신호에 대해 각각 마스킹을 수행한 후, 상기 마스킹 된 신호간에 마스킹을 수행하여 상기 오차를 검출하는 것을 특징으로 하는 음성 압축 장치.
  3. 제 2 항에 있어서, 상기 신호간 마스킹은 상기 광대역 저역 복원신호에 대한 마스킹된 신호를 이용하여 마스킹 곡선을 구하고, 상기 광대역 음성신호에 대한 마스킹된 신호중에서 상기 마스킹 곡선보다 작은 샘플은 제거되도록 수행되는 것을 특징으로 하는 음성 압축 장치.
  4. 제 1 항에 있어서, 상기 오차 검출 유니트는,
    상기 광대역 음성신호에서 정해진 주파수 대역의 신호를 필터링하는 제 1 필터 뱅크;
    상기 제 1 필터 뱅크에서 출력되는 신호를 반파 정류하는 제 1 반파 정류기;
    상기 제 1 반파 정류기에서 반파 정류된 신호에서 피크값을 검출하는 제 1 피크 검출기;
    상기 제 1 피크 검출기에서 검출된 피크 신호로부터 상기 광대역 음성신호에 대한 마스킹된 신호를 출력하는 제 1 마스킹부;
    상기 광대역 저역 복원신호에서 정해진 주파수 대역의 신호를 필터링하는 제 2 필터 뱅크;
    상기 제 2 필터 뱅크에서 출력되는 신호를 반파 정류하는 제 2 반파 정류기;
    상기 제 2 반파 정류기에서 반파 정류된 신호에서 피크값을 검출하는 제 2 피크 검출기;
    상기 제 2 피크 검출기에서 검출된 피크 신호로부터 상기 광대역 저역 복원신호에 대한 마스킹된 신호를 출력하는 제 2 마스킹부;
    상기 제 1 마스킹부로부터 출력되는 마스킹된 신호와 상기 제 2 마스킹부로부터 출력되는 마스킹된 신호간에 대하여 신호간 마스킹을 수행하여 상기 오차를 검출하는 신호간 마스킹부를 포함하는 음성 압축 장치.
  5. 제 4 항에 있어서, 상기 신호간 마스킹부는 상기 제 2 마스킹부로부터 출력되는 마스킹된 신호를 이용하여 마스킹 곡선을 구하고, 상기 제 1 마스킹부로부터 출력되는 마스킹된 신호중에서 상기 마스킹 곡선보다 작은 샘플은 제거되도록 상기 신호간 마스킹을 수행하는 것을 특징으로 하는 음성 압축 장치.
  6. 제 4 항에 있어서, 상기 제 1 반파 정류기와 상기 제 2 반파 정류기는 각각 상기 반파 정류에 의해 입력된 신호의 에너지 감소를 보상하기 위하여 상기 입력되는 신호의 양(+)의 샘플에 소정의 이득을 곱하는 것을 특징으로 하는 음성 압축 장치.
  7. 제 4 항에 있어서, 상기 제 1 피크 검출기와 상기 제 2 피크 검출기는 각각 입력되는 신호중에서 피크가 아닌 신호가 제거됨에 따라 상기 입력되는 신호의 에너지가 감소되는 것을 보상하기 위하여, 제거된 신호의 크기에 소정의 이득을 곱한 값을 선택된 피크 값에 더하여 상기 피크값을 검출하는 것을 특징으로 하는 음성 압축 장치.
  8. 제 4 항에 있어서, 상기 제 1 마스킹부와 상기 제 2 마스킹부는 각각 마스킹에 의해 입력되는 신호의 에너지가 감소되는 것을 보상하기 위하여, 상기 마스킹에 의해 제거되는 샘플 값들에 소정의 이득을 곱하여 남아 있는 샘플값들에 추가시켜 상기 마스킹된 신호를 얻는 것을 특징으로 하는 음성 압축 장치.
  9. 제 1 항에 있어서, 상기 오차 검출 유니트는 복수개의 주파수 대역을 갖는 오차 신호를 상기 고역 음성 압축 유니트로 제공하고,
    상기 고역 음성 압축 유니트는 상기 광대역 음성신호를 복수개의 주파수 대역으로 분할하고, 주파수 대역별로 압축을 수행하는 것을 특징으로 하는 음성 압축 장치.
  10. 제 9 항에 있어서, 상기 고역 음성 압축 유니트는, 상기 복수개의 주파수 대역별로 디에프티(DFT, Discrete Fourier Transform) 계수를 구하고, 상기 주파수 대역별 DFT 계수를 이용하여 주파수 대역별로 알엠에스(RMS, Root-Mean-Square) 값을 구하여 양자화하는 것을 특징으로 하는 음성 압축 장치.
  11. 제 10 항에 있어서, 상기 RMS 양자화는 주파수대역별로 시간과 대역에 대한 동시 예측과 대역에 대한 예측을 독립적으로 수행하는 것을 특징으로 하는 음성 압축 장치.
  12. 제 10 항에 있어서, 상기 RMS 양자화는 부프레임별 및 대역별로 RMS 값을 구하고, 과거 부프레임 정보와 이전 대역의 정보를 동시에 활용하여 현재의 RMS값을 예측하여 2차원으로 시간과 대역에 대한 예측을 동시에 수행하는 것을 특징으로 하는 음성 압축 장치.
  13. 제 10 항에 있어서, 상기 RMS 양자화는 서로 다른 복수개의 예측기를 사용하여 입력되는 신호의 예측 오차를 구하여 각각 양자화하고, 상기 양자화 결과를 비교하여 상기 복수개의 예측기중 하나의 예측기를 선택하고, 선택된 예측기를 이용하여 얻은 양자화 결과를 RMS 양자화 값으로 출력하는 것을 특징으로 하는 음성 압축 장치.
  14. 제 10 항에 있어서, 상기 고역 음성 압축 유니트에 구비되는 RMS 양자화를 수행하기 위한 RMS 양자화기는,
    대역 사이의 예측을 통해 대역 예측 오차를 구하는 대역 예측기;
    상기 대역 예측기로부터 출력되는 예측 오차를 양자화하는 제 1 양자화기;
    2차원적인 시간-대역 예측 오차를 구하는 시간-대역 예측기;
    상기 시간-대역 예측기로부터 출력되는 예측 오차를 양자화하는 제 2 양자화기;
    상기 제 1 양자화기로부터 출력되는 양자화된 예측 오차와 상기 제 2 양자화기로부터 출력되는 양자화된 예측 오차를 비교하여 상기 대역 예측기와 상기 시간-대역 예측기중 하나를 선택하여 상기 RMS 양자화에 이용하는 에측기 선택기를 포함하는 음성 압축 장치.
  15. 제 14 항에 있어서, 상기 RMS 양자화기는,
    상기 제 1 양자화기로부터 출력되는 예측 오차 양자화 인덱스를 역양자화하고, 상기 역양자화된 결과를 상기 대역 예측기와 상기 예측기 선택기로 각각 제공하는 제 1 역양자화기;
    상기 제 2 양자화기로부터 출력되는 예측 오차 양자화 인덱스를 역양자화하고, 상기 역양자화된 결과를 상기 시간-대역 예측기와 상기 예측기 선택기로 각각 제공하는 제 2 역양자화기를 더 포함하는 음성 압축 장치.
  16. 제 14 항에 있어서, 상기 제 1 양자화기와 상기 제 2 양자화기는 스칼라 양자화하는 것을 특징으로 하는 음성 압축 장치.
  17. 제 10 항에 있어서, 상기 고역 음성 압축 유니트는, 상기 RMS 양자화 값을 이용하여 DFT계수를 각 주파수 대역별로 정규화된 DFT계수를 구하고, 상기 정규화된 DFT계수를 벡터 양자화하는 기능을 더 포함하는 것을 특징으로 하는 음성 압축 장치.
  18. 제 17 항에 있어서, 상기 고역 음성 압축 유니트는 상기 DFT계수 벡터 양자화시, 각 주파수 대역별로 청각적으로 의미 있는 벡터 양자화 가중치 함수를 구하여 적용하는 것을 특징으로 하는 음성 압축 장치.
  19. 제 18 항에 있어서, 상기 벡터 양자화 가중치 함수는 상기 광대역 음성신호에 대한 마스킹된 신호와 상기 오차 신호를 이용하여 구하는 것을 특징으로 하는 음성 압축 장치.
  20. 제 19 항에 있어서, 상기 벡터 양자화 가중치 함수는 상기 마스킹된 신호로부터 하기 식에 의하여 시간영역 가중치 함수를 구하여 사용하는 것을 특징으로 하는 음성 압축 장치.
    (상기 식에서 w[n]은 상기 시간 영역 가중치 함수이고, y[n]은 상기 마스킹된 신호와 상기 오차 신호이다.)
  21. 제 20 항에 있어서, 상기 벡터 양자화 가중치 함수는 상기 시간 영역 가중치 함수를 주파수 영역으로 변환하여 상기 주파수 영역에서 상기 DFT계수 벡터 양자화를 수행하는 것을 특징으로 하는 음성 압축 장치.
  22. 제 1 항에 있어서 고역 음성 압축 유니트는,
    상기 광대역 음성신호를 복수개의 주파수 대역으로 분할하는 필터 뱅크;
    상기 필터 뱅크에서 출력되는 신호는 복수개의 주파수 대역별로 마스킹된 신호를 출력하는 마스킹부;
    상기 마스킹부로부터 출력되는 각 주파수 대역별 마스킹된 신호와 상기 오차 신호를 이용하여 시간 영역 가중치 함수를 계산하는 가중치 함수 계산기;
    상기 오차 검출 유니트로부터 제공되는 복수개의 주파수 대역을 갖는 오차 신호와 상기 필터 뱅크로부터 출력되는 복수개의 주파수 대역 신호에 대한 디에프티(DFT, Discrete Fourier Transform) 계수를 구하는 DFT연산기;
    DFT연산기에서 얻어진 DFT계수를 이용하여 각 주파수 대역별 알엠에스(RMS)값을 얻어 양자화하는 RMS양자화기;
    상기 RMS 양자화기에서 얻은 RMS양자화 값을 이용하여 상기 DFT연산기에서 얻은 DFT계수의 크기를 정규화는 정규화기;
    상기 정규화기에서 출력되는 정규화된 DFT계수를 가중치 함수 계산기로부터 제공되는 주파수 영역 가중치 함수를 이용하여 양자화하는 DFT계수 양자화기;
    상기 RMS양자화기에서 출력되는 RMS 양자화 인덱스, 선택된 예측기 인덱스 및 양자화된 DFT 계수 인덱스를 패킷화하여 상기 고역 음성 패킷으로 출력하는 패킷화기를 포함하는 음성 압축 장치.
  23. 제 1 항에 있어서, 상기 복원부는
    상기 협대역 압축기로부터 출력되는 저역 음성 패킷을 복원하는 협대역 음성 복원기;
    상기 협대역 음성 복원기에서 복원된 음성신호를 광대역 저역 복원신호로 변환하는 제 2 대역 변환 유니트를 포함하는 음성 압축 장치.
  24. 계층적인 대역폭 구조로 압축된 음성신호를 복원하는 장치에 있어서,
    압축된 저역 음성 패킷이 수신되면, 상기 저역 음성 패킷을 협대역 저역 신호로 복원하는 협대역 음성 복원기;
    압축된 고역 음성 패킷이 수신되면, 상기 고역 음성 패킷을 복원하는 고역 음성 복원 유니트;
    상기 협대역 음성 복원기에서 복원된 신호와 상기 고역 음성 복원 유니트에서 복원된 신호를 합하여 광대역 복원신호를 출력하는 가산기를 포함하는 음성 복원 장치.
  25. 제 24 항에 있어서, 상기 음성 복원 장치는,
    상기 협대역 음성 복원기로부터 출력되는 협대역 저역 복원신호를 광대역 저역 복원신호로 변환하는 대역 변환 유니트를 더 포함하는 것을 특징으로 하는 음성 복원 장치.
  26. 제 24 항에 있어서,
    상기 고역 음성 패킷은 RMS 양자화 인덱스, 상기 음성 신호 압축시 이용되는 예측기 타입 인덱스, 및 DFT 계수 양자화 인덱스를 포함하고,
    상기 고역 음성 복원 유니트는, 상기 DFT계수 양자화 인덱스에 의해 발생된 DFT 계수 역변환시, 계수의 위상은 자체적으로 계산하여 사용하는 것을 특징으로 하는 음성 복원 장치.
  27. 제 26 항에 있어서, 상기 계수의 위상은 하기 식에 따라 각 DFT계수별로 구하는 것을 특징으로 하는 음성 복원 장치.
    (상기 식에서 θi [m]은 DFT 계수 위상값이고, m은 DFT계수 양자화 인덱스이고, i는 대역 인덱스이고, 은 현재 부프레임과 이전 부프레임의 값이다.)
  28. 제 24 항에 있어서,
    상기 고역 음성 패킷은 RMS 양자화 인덱스, 상기 음성 신호 압축시 이용되는 예측기 타입 인덱스, 및 DFT 계수 양자화 인덱스를 포함하고,
    상기 고역 음성 복원 유니트는,
    상기 예측기 타입 인덱스를 이용하여 복수개의 역양자화기중 하나의 역양자화기를 선택하고, 선택된 역양자화기와 상기 RMS 양자화 인덱스를 이용하여 양자화된 예측 오차값을 계산하는 역양자화기;
    상기 예측기 타입 인덱스에 의해 복수개의 예측기중에서 하나의 예측기를 선택하고, 상기 역양자화기로부터 출력되는 양자화된 예측 오차값에 대한 양자화된 RMS값을 얻는 예측기;
    상기 DFT 계수 양자화 인덱스에 대응되는 정규화된 DFT 계수 크기를 출력하는 코드북;
    상기 양자화된 RMS 값에 상기 정규화된 DFT 계수 크기를 승산하는 승산기;
    DFT 계수 양자화 인텍스에 의해 해당되는 DFT 계수 위상값을 계산하는 DFT 위상 계산기;
    상기 승산기로부터 출력되는 DFT계수 크기와 상기 DFT 위상 계산기로부터 출력되는 DFT 계수 위상값을 이용하여 각 대역별 시간영역 신호를 얻는 DFT역변환기;
    상기 각 대역별 시간 영역 신호를 이용하여 각 대역별 음성신호를 얻는 필터 뱅크;
    상기 필터 뱅크에서 출력되는 신호를 가산하여 상기 압축된 고역 음성 패킷에 대한 복원된 고역 음성신호를 출력하는 가산기를 포함하는 음성 복원 장치.
  29. 음성 압축 방법에 있어서,
    광대역 음성신호를 협대역 저역 음성신호로 변환하는 단계;
    상기 협대역 저역 음성신호를 압축하여 상기 광대역 음성신호에 대한 저역 음성 패킷으로서 송출하는 단계;
    상기 저역 음성 패킷을 광대역 저역 복원신호로 복원하는 단계;
    상기 광대역 저역 복원 신호와 상기 광대역 음성신호간의 오차신호를 검출하는 단계;
    상기 오차 신호와 상기 광대역 음성신호의 고역 음성신호를 압축하여 상기 광대역 음성신호의 고역 음성 패킷으로서 송출하는 단계를 포함하는 음성 압축 방법.
  30. 계층적인 대역폭 구조로 압축된 음성신호를 복원하는 방법에 있어서,
    압축된 저역 음성 패킷은 협대역 저역 신호로 복원하고, 압축된 고역 음성 패킷은 고역 음성신호로 복원하는 단계;
    상기 협대역 저역 신호를 광대역 저역 복원 신호로 변환하는 단계;
    상기 광대역 저역 복원 신호와 상기 고역 음성신호를 가산하고, 가산된 결과를 상기 저역 음성 패킷과 상기 고역 음성 패킷에 대한 광대역 복원신호로서 출력하는 단계를 포함하는 음성 복원 방법.
KR10-2003-0044842A 2003-07-03 2003-07-03 계층적인 대역폭 구조를 갖는 음성 압축 및 복원 장치와그 방법 KR100513729B1 (ko)

Priority Applications (7)

Application Number Priority Date Filing Date Title
KR10-2003-0044842A KR100513729B1 (ko) 2003-07-03 2003-07-03 계층적인 대역폭 구조를 갖는 음성 압축 및 복원 장치와그 방법
DE602004004445T DE602004004445T2 (de) 2003-07-03 2004-06-30 Vorrichtungen zum Komprimieren und Dekomprimieren von Sprache und Verfahren zum Bereitstellen von skalierbaren Bandbreitestrukturen
EP04253952A EP1494211B1 (en) 2003-07-03 2004-06-30 Speech compression and decompression apparatuses and methods providing scalable bandwidth structure
JP2004196279A JP4726442B2 (ja) 2003-07-03 2004-07-02 階層的な帯域幅構造を有する音声圧縮および復元装置、ならびにその方法
US10/882,339 US7624022B2 (en) 2003-07-03 2004-07-02 Speech compression and decompression apparatuses and methods providing scalable bandwidth structure
US12/588,357 US8571878B2 (en) 2003-07-03 2009-10-13 Speech compression and decompression apparatuses and methods providing scalable bandwidth structure
JP2011043211A JP5314720B2 (ja) 2003-07-03 2011-02-28 階層的な帯域幅構造を有する音声圧縮および復元装置、ならびにその方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR10-2003-0044842A KR100513729B1 (ko) 2003-07-03 2003-07-03 계층적인 대역폭 구조를 갖는 음성 압축 및 복원 장치와그 방법

Publications (2)

Publication Number Publication Date
KR20050004596A KR20050004596A (ko) 2005-01-12
KR100513729B1 true KR100513729B1 (ko) 2005-09-08

Family

ID=33432457

Family Applications (1)

Application Number Title Priority Date Filing Date
KR10-2003-0044842A KR100513729B1 (ko) 2003-07-03 2003-07-03 계층적인 대역폭 구조를 갖는 음성 압축 및 복원 장치와그 방법

Country Status (5)

Country Link
US (2) US7624022B2 (ko)
EP (1) EP1494211B1 (ko)
JP (2) JP4726442B2 (ko)
KR (1) KR100513729B1 (ko)
DE (1) DE602004004445T2 (ko)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100513729B1 (ko) * 2003-07-03 2005-09-08 삼성전자주식회사 계층적인 대역폭 구조를 갖는 음성 압축 및 복원 장치와그 방법
US7599833B2 (en) 2005-05-30 2009-10-06 Electronics And Telecommunications Research Institute Apparatus and method for coding residual signals of audio signals into a frequency domain and apparatus and method for decoding the same
FR2888699A1 (fr) * 2005-07-13 2007-01-19 France Telecom Dispositif de codage/decodage hierachique
KR101171098B1 (ko) * 2005-07-22 2012-08-20 삼성전자주식회사 혼합 구조의 스케일러블 음성 부호화 방법 및 장치
WO2007105586A1 (ja) * 2006-03-10 2007-09-20 Matsushita Electric Industrial Co., Ltd. 符号化装置および符号化方法
KR101393298B1 (ko) * 2006-07-08 2014-05-12 삼성전자주식회사 적응적 부호화/복호화 방법 및 장치
US8041770B1 (en) * 2006-07-13 2011-10-18 Avaya Inc. Method of providing instant messaging functionality within an email session
KR100848324B1 (ko) * 2006-12-08 2008-07-24 한국전자통신연구원 음성 부호화 장치 및 그 방법
US8050934B2 (en) * 2007-11-29 2011-11-01 Texas Instruments Incorporated Local pitch control based on seamless time scale modification and synchronized sampling rate conversion
GB2473267A (en) * 2009-09-07 2011-03-09 Nokia Corp Processing audio signals to reduce noise
EP2490216B1 (en) * 2009-10-14 2019-04-24 III Holdings 12, LLC Layered speech coding
US8351621B2 (en) * 2010-03-26 2013-01-08 Bose Corporation System and method for excursion limiting
US8818797B2 (en) 2010-12-23 2014-08-26 Microsoft Corporation Dual-band speech encoding
US10264116B2 (en) * 2016-11-02 2019-04-16 Nokia Technologies Oy Virtual duplex operation
US11037330B2 (en) * 2017-04-08 2021-06-15 Intel Corporation Low rank matrix compression

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2779886B2 (ja) * 1992-10-05 1998-07-23 日本電信電話株式会社 広帯域音声信号復元方法
JPH06289900A (ja) * 1993-04-01 1994-10-18 Mitsubishi Electric Corp オーディオ符号化装置
KR100289733B1 (ko) * 1994-06-30 2001-05-15 윤종용 디지탈 오디오 부호화 방법 및 장치
JP3139602B2 (ja) * 1995-03-24 2001-03-05 日本電信電話株式会社 音響信号符号化方法及び復号化方法
ATE184140T1 (de) * 1996-03-07 1999-09-15 Fraunhofer Ges Forschung Codierverfahren zur einbringung eines nicht hörbaren datensignals in ein audiosignal, decodierverfahren, codierer und decodierer
JP2891193B2 (ja) * 1996-08-16 1999-05-17 日本電気株式会社 広帯域音声スペクトル係数量子化装置
JPH10233692A (ja) * 1997-01-16 1998-09-02 Sony Corp オーディオ信号符号化装置および符号化方法並びにオーディオ信号復号装置および復号方法
JPH11251917A (ja) * 1998-02-26 1999-09-17 Sony Corp 符号化装置及び方法、復号化装置及び方法、並びに記録媒体
KR100304092B1 (ko) * 1998-03-11 2001-09-26 마츠시타 덴끼 산교 가부시키가이샤 오디오 신호 부호화 장치, 오디오 신호 복호화 장치 및 오디오 신호 부호화/복호화 장치
US7136810B2 (en) * 2000-05-22 2006-11-14 Texas Instruments Incorporated Wideband speech coding system and method
US7330814B2 (en) * 2000-05-22 2008-02-12 Texas Instruments Incorporated Wideband speech coding with modulated noise highband excitation system and method
JP4530567B2 (ja) * 2001-03-30 2010-08-25 三洋電機株式会社 デジタルオーディオ復号装置
EP1423847B1 (en) * 2001-11-29 2005-02-02 Coding Technologies AB Reconstruction of high frequency components
KR100513729B1 (ko) * 2003-07-03 2005-09-08 삼성전자주식회사 계층적인 대역폭 구조를 갖는 음성 압축 및 복원 장치와그 방법

Also Published As

Publication number Publication date
EP1494211A1 (en) 2005-01-05
US20100036658A1 (en) 2010-02-11
DE602004004445T2 (de) 2007-11-08
KR20050004596A (ko) 2005-01-12
JP5314720B2 (ja) 2013-10-16
DE602004004445D1 (de) 2007-03-15
EP1494211B1 (en) 2007-01-24
US8571878B2 (en) 2013-10-29
JP2011154378A (ja) 2011-08-11
US20050004794A1 (en) 2005-01-06
JP4726442B2 (ja) 2011-07-20
JP2005025203A (ja) 2005-01-27
US7624022B2 (en) 2009-11-24

Similar Documents

Publication Publication Date Title
JP5314720B2 (ja) 階層的な帯域幅構造を有する音声圧縮および復元装置、ならびにその方法
JP5539203B2 (ja) 改良された音声及びオーディオ信号の変換符号化
EP1489599B1 (en) Coding device and decoding device
US6681204B2 (en) Apparatus and method for encoding a signal as well as apparatus and method for decoding a signal
KR100921867B1 (ko) 광대역 오디오 신호 부호화 복호화 장치 및 그 방법
CN103258541A (zh) 音频解码方法
CN103366750B (zh) 一种声音编解码装置及其方法
JP2006513457A (ja) 音声を可変レートで符号化および復号する方法
JP2005031683A (ja) ビット率拡張音声符号化及び復号化装置とその方法
JP4859670B2 (ja) 音声符号化装置および音声符号化方法
JP4726445B2 (ja) 広域音声信号の圧縮装置および復元装置ならびに圧縮方法および復元方法
JPH11177434A (ja) 音声符号化復号方式
JP5313967B2 (ja) ビット率拡張音声符号化及び復号化装置とその方法
JP2004302259A (ja) 音響信号の階層符号化方法および階層復号化方法
EP1672619A2 (en) Speech coding apparatus and method therefor
US5231669A (en) Low bit rate voice coding method and device
JP4274614B2 (ja) オーディオ信号復号方法
JP4618823B2 (ja) 信号符号化装置及び方法
Mazor et al. Adaptive subbands excited transform (ASET) coding
Lincoln An experimental high fidelity perceptual audio coder project in mus420 win 97

Legal Events

Date Code Title Description
A201 Request for examination
PA0109 Patent application

Patent event code: PA01091R01D

Comment text: Patent Application

Patent event date: 20030703

PA0201 Request for examination
PG1501 Laying open of application
E701 Decision to grant or registration of patent right
PE0701 Decision of registration

Patent event code: PE07011S01D

Comment text: Decision to Grant Registration

Patent event date: 20050722

GRNT Written decision to grant
PR0701 Registration of establishment

Comment text: Registration of Establishment

Patent event date: 20050901

Patent event code: PR07011E01D

PR1002 Payment of registration fee

Payment date: 20050902

End annual number: 3

Start annual number: 1

PG1601 Publication of registration
PR1001 Payment of annual fee

Payment date: 20080708

Start annual number: 4

End annual number: 4

PR1001 Payment of annual fee

Payment date: 20090701

Start annual number: 5

End annual number: 5

PR1001 Payment of annual fee

Payment date: 20100629

Start annual number: 6

End annual number: 6

PR1001 Payment of annual fee

Payment date: 20110711

Start annual number: 7

End annual number: 7

FPAY Annual fee payment

Payment date: 20120814

Year of fee payment: 8

PR1001 Payment of annual fee

Payment date: 20120814

Start annual number: 8

End annual number: 8

FPAY Annual fee payment

Payment date: 20130822

Year of fee payment: 9

PR1001 Payment of annual fee

Payment date: 20130822

Start annual number: 9

End annual number: 9

FPAY Annual fee payment

Payment date: 20140822

Year of fee payment: 10

PR1001 Payment of annual fee

Payment date: 20140822

Start annual number: 10

End annual number: 10

FPAY Annual fee payment

Payment date: 20150820

Year of fee payment: 11

PR1001 Payment of annual fee

Payment date: 20150820

Start annual number: 11

End annual number: 11

FPAY Annual fee payment

Payment date: 20160819

Year of fee payment: 12

PR1001 Payment of annual fee

Payment date: 20160819

Start annual number: 12

End annual number: 12

FPAY Annual fee payment

Payment date: 20170817

Year of fee payment: 13

PR1001 Payment of annual fee

Payment date: 20170817

Start annual number: 13

End annual number: 13

FPAY Annual fee payment

Payment date: 20180820

Year of fee payment: 14

PR1001 Payment of annual fee

Payment date: 20180820

Start annual number: 14

End annual number: 14

FPAY Annual fee payment

Payment date: 20190814

Year of fee payment: 15

PR1001 Payment of annual fee

Payment date: 20190814

Start annual number: 15

End annual number: 15

PC1903 Unpaid annual fee

Termination category: Default of registration fee

Termination date: 20220612