[go: up one dir, main page]

KR20010021226A - 디지털 음향 신호 부호화 장치, 디지털 음향 신호 부호화방법 및 디지털 음향 신호 부호화 프로그램을 기록한 매체 - Google Patents

디지털 음향 신호 부호화 장치, 디지털 음향 신호 부호화방법 및 디지털 음향 신호 부호화 프로그램을 기록한 매체 Download PDF

Info

Publication number
KR20010021226A
KR20010021226A KR1020000045308A KR20000045308A KR20010021226A KR 20010021226 A KR20010021226 A KR 20010021226A KR 1020000045308 A KR1020000045308 A KR 1020000045308A KR 20000045308 A KR20000045308 A KR 20000045308A KR 20010021226 A KR20010021226 A KR 20010021226A
Authority
KR
South Korea
Prior art keywords
block
short
sound signal
perceptual entropy
frame
Prior art date
Application number
KR1020000045308A
Other languages
English (en)
Other versions
KR100348368B1 (ko
Inventor
아라키타다시
Original Assignee
이토가 미찌야
가부시키가이샤 리코
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 이토가 미찌야, 가부시키가이샤 리코 filed Critical 이토가 미찌야
Publication of KR20010021226A publication Critical patent/KR20010021226A/ko
Application granted granted Critical
Publication of KR100348368B1 publication Critical patent/KR100348368B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • G10L19/0208Subband vocoders

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

본 발명은 입력 음향 신호의 샘플링 주파수 차이에도 대응하여 음성 품질이 악화되지 않도록 적절히 쇼트(short) 블록을 그룹으로 나누고, 동시에 롱/쇼트의 구별을 판별할 수 있는 디지털 음향 신호 부호화 방법을 제공하는 것을 목적으로 한다.
각각의 짧은 변환 블록 별로 산출한 입력 음력 신호의 지각(知覺) 엔트로피를 산출하는 지각 엔트로피 산출 수단과, 지각 엔트로피 산출 수단에 의해 산출된 지각 엔트로피 프레임 내의 총화를 구하는 지각 엔트로피 총화 산출 수단과, 시간적으로 연속하는 2 개 프레임의 지각 엔트로피 프레임 내 각 총화 차의 절대값과 미리 정한 임계값을 비교하는 비교 수단과, 비교 수단에 의한 비교 결과에 근거하여 입력 음향 신호의 블록을 롱 블록 또는 쇼트 블록의 어느 것으로 변환하는가를 판정하는 롱/쇼트 블록 판정 수단을 구비한다.

Description

디지털 음향 신호 부호화 장치, 디지털 음향 신호 부호화 방법 및 디지털 음향 신호 부호화 프로그램을 기록한 매체{A DIGITAL ACOUSTIC SIGNAL CODING APPARATUS, A METHOD OF CODING A DIGITAL ACOUSTIC SIGNAL, AND A RECORDING MEDIUM FOR RECORDING A PROGRAM OF CODING THE DIGITAL ACOUSTIC SIGNAL}
본 발명은 디지털 음향 신호 부호화 장치, 디지털 음향 신호 부호화 방법 및 디지털 음향 신호 부호화 프로그램을 기록한 매체에 관하며, 특히 예컨대 DVD, 디지털 방송 등에 이용하는 디지털 음향 신호의 압축·부호화에 관한 것이다.
최근, 디지털 오디오 분야에서는 MP3이 상당히 보급되고 있다. MP3은 MPEG-1Audio LayerⅢ이라는 음향 압축 부호화 방식의 약칭인데, 이것을 이용하면 CD등 디지털 오디오 데이터를 음질을 거의 손상주지 않고 1/11 정도로 압축할 수 있다. 큰 음향 데이터를 소형으로 압축하여 단시간에 전송할 수 있다는 점으로부터 MP3은 우선 인터넷의 분야에서 유행하기 시작하여 현재는 MP3의 재생 기구가 음악 배신(配信) 비지네스에도 이용되기 시작했다.
한편, 방송 분야에도 디지털화와 함께 음향 압축 기술의 채용이 진척되어 현재 CS방송에서는 MPEG - 2Audio BC라는 방식이 사용되고 있다. 나아가 2000년 이후는 개시 예정인 BS나 지상 파의 디지털 방송에서는 현재 가장 부호화 효율이 좋다고 인정되어 있고 ISO/IEC 13818 - 7에 표준화되어 있는MPEG - 2Audio AAC(Advanced Audio Coding)라는 방식이 사용될 예정이다.
이상은 모두 MPEG Audio라는 음향 압축의 국제 표준에 속하는 기술인데, MPEG Audio이외에도, 예컨대 DVD에는 Dolby Digital(AC-3), MD에는 ATRAC 라는 음향 압축 방식이 각각 사용되어 있다.
이하, 이와 같은 디지털 오디오 압축 부호화 기술에서 주로 MPEG Audio를 중심으로 음향 압축 방식의 기본 기술에 대해 상세히 설명한다.
우선, 음향 압축 부호화에 이용되는 기본적인 기술에 관하여 서술한다. 음향 압축 부호화에서는 대상으로 되는 음향 신호를 크게 [음성]과 [악음]으로 분류한다. 여기서 [음성]은 인간의 소리를 가리키고, [악음]은 인간의 소리 뿐만아니라 음악이나 생활 음, 자연 음 등을 포함한 음향 신호 일반을 가리킨다. 이와 같은 분류 방식을 하는 것은 각각의 부화화 목적이나 사용 기술이 상이하기 때문이다.
[음성] 부호화는 8∼16KHz정도의 저샘플링 비율(rate)인 인간의 음성 신호를 전화 회선과 같이 저비트 비율 용도용으로 압축하는 방식이다. 이것에 대해, [악음] 부호화는 32∼96KHz의 고샘플링 비율의 음향 신호를 될수록 고음질로 압축하는 것이 목적이다. 전자에서는 원음과 비하여 음질의 열화는 피면하지 못하지만, 후자에서는 기본적으로 열화가 없는 압축을 목표로 하고 있다.
상기 MP3, AAC는 어느 것도 후자의 악음 부호화에 포함된다. 여기서 주로 악음 부호화의 기술에 관하여 서술한다.
그런데, 음향 신호에 관계없이, 디지털 정보를 압축하는 방식에는 [가역 압축]과 [비가역 압축]의 두가지 방법이 있다. 전자는 복호할 때, 원 신호가 충실하게 재현되지만, 후자는 일반적으로 신호의 변형이 발생한다. 음향 압축 부호화에서는 이 양자를 적당히 조합시키고 있는데, 우선 가역 압축 방식으로부터 설명한다.
여기서는 대표적인 가역 압축 방식으로 MPEG Audio에도 이용되고 있는 [허프만 부호]를 설명한다.
허프만 부호는 원신호 값의 출현 빈도에 따라 빈도가 큰 값에는 짧은 부호를, 작은 값에는 긴 부호를 각각 할당하여 전체 부호량이 될수록 적어지도록 압축하는 방식이다. 이와 같이 부호의 길이가 일정하지 않는 부호를 가변길이 부호라고 하고, 반대로 어떤 값에 대해서도 길이가 동일한 부호를 고정길이 부호라고 한다. 음향 압축의 원신호는 각 디지털 샘플값을 일정한 비트수(CD의 경우는 16비트)로 나타낸 고정길이 부호라고 할 수 있다.
도 9에 고정길이 부호와 허프만 부호의 예를, 도 10에 이것을 이용하여 실제 수치 열에 부호를 할당한 예를 각각 나타내고 있다.
도 9와 같이 6 종류의 서로 다른 원신호 값을 고정길이 부호로 식별하는 데는 각 값에 최저로 3 비트의 부호를 할당할 필요가 있다.
한편, 도 10(a)의 수치열(전부 20 개 값의 열)을 보면, [2]의 출현 빈도가 가장 커서 7회 등장하고 있지만, [1]이나 [5]는 각각 1회씩 밖에 나타나지 않는다. 그래서 도 10의 허프만 부호에서는 [2]에는 2비트의 부호를, [1]과 [5]에는 4 비트의 부호를 각각 할당하고 있다. 나머지 값에 관해서도 각자의 발생 빈도에 따른 길이의 부호를 할당하고 있다.
허프만 부호의 중요한 성질에 원신호 열을 일의로 복호할 수 있다는 것이 있다. 도 9의 예로부터 [00110]이라는 허프만 부호 열의 원신호 열은 [20]이라는 것을 알 수 있는데, 허프만 부호가 [가역](可逆)인 것은 복호의 일의성이 보증되어 있기 때문이다.
참고로, 일의로 복호가 불가능한 부호의 열도 도 9에 나타내고 있다. 이 예에서는 [000001]이라는 부호 열을 받은 경우, 원신호 열이 [25]인지 [13]인지 [223]인지 구별할 수 없다. 또 일의로 복호 가능한 부호의 구성법은 이미 알려져 있는데 여기서는 생략한다.
그런데, 도 10(a)의 수치 열에 도 9의 고정길이 부호를 할당하면, 도 10(b)와 같은 부호열로 되고, 전체 부호량은 3 × 20 = 60비트로 된다. 한편, 허프만 부호를 할당한 경우는 도 10(c)의 부호 열로 되어 전체 부호량이 46 비트로 된다.
이와 같이, 허프만 부호를 이용하면, 고정길이 부호에 비하여 적은 부호량으로 원신호 값을 충실하게 재현시킬 수 있다. 그러나 그 압축율에는 한계가 있어(상기 예에서는 77%), 1/11이라는 고압축율은 바라볼 수 없다. 그래서 꼭 비가역 압축 기술이 필요하게 되는데, 그 가장 기본으로 되는 [양자화] 기술을 아래에 설명한다.
[양자화]란, 원신호 값을 복수의 구간으로 레벨 분류하고 각 레벨을 대표하는 값을 복원값으로 하여 대응시키는 방법이다. 도 11의 예를 이용하여 설명한다.
여기서는 원신호값이 0 이상 59 이하의 정수(整數)로서 분포하고 있다고 가정한다. 이것을 그 대로 2 진수로 고정길이 부호화를 하면, 각 값을 6 비트로 표현할 필요가 있다. 이 예에서는 원신호 값을 6레벨로 양자화하고 각각에 도면에 나타낸 바와 같은 복원값을 대응시키고 있다.
부호화할 때, 원신호 값을 10으로 나누어 소수 부분을 잘라 버린다(이 10을 [기준화 인수]라고 한다). 그러면 상의 정수 부분은 0으로부터 5까지의 6 종류의 값에 한정된다. 이것을 [양자화]라고 하는데, 도면에 나타낸 바와 같이 이것을 나타내는 데는 3 비트의 고정길이 부호면 충분하고, 이것만으로 50%의 압축율로 된다. 나아가 이 양자화 값을 각각의 출현 빈도에 따라 허프만 부호화 하면, 압축율을 더욱 향상시킬 수 있다. 도 11에서는 일례로서 도 9의 허프만 부호를 할당한 경우를 나타내고 있다.
복호 할 때는 우선, 허프만 부호로부터 양자화 값을 복원하는데, 이것은 상술한 바와 같이 일의로 행할 수 있다. 그 후는 양자화 값에 상기 기준화 인수인 10을 곱하고 10의 절반을 더하여 값을 복원한다. 그러나 일반적으로는 원신호값과 복원값은 일치하지 않고 오차가 생긴다. 이 오차를 [양자화 오차]라고 하는데 그 구체적인 수치 열을 도 12에 나타낸다.
이와 같이, 양자화를 이용하면 원신호 값은 완전히는 복원되지 않아 그 뜻에서는 [비가역]이지만, 그 만큼 압축율을 높일 수 있다, 또 압축 정도는 양자화의 레벨 수에 대응한다. 레벨수가 적을 수록 크게 압축될 수 있지만 평균적인 양자화 오차는 증대한다.
이상 서술한 허프만 부호나 양자화는 음향뿐만 아니라 정지화나 동화의 압축에도 널리 사용되고 있는 가장 기본적인 기술이다.
다음, 음향 압축에 대해 상세히 설명한다.
상술한 [양자화 오차]는 음향 압축에 있어서는 [음질의 열화]를 초래한다. 한편, 악음의 부호화에서는 열화를 느끼지 않을 정도로 음향 데이터를 압축할 것이 요구된다. 따라서 최적한 양자화의 레벨 수를 정하기 위하여 [마스킹 효과]라는 인간의 청각 성질을 잘 이용한다. [마스킹 효과]는 큰 음이 그 주변의 작은 음을 감추는] 현상으로, 조금 더 정확히 말하면, [어떤 주파수의 강한 음이 그 부근의 주파수의 약한 음을 감춘다]는 것으로 된다. 도 13을 이용하여 이것을 설명한다.
도 13에서는 횡 축에 주파수, 종축에 음량을 나타내고 있다. 그리고 굵은 실선은 어떤 입력 음향 데이터의 음량 분포를 나타내고 있다. 여기서는 예컨대, 도 13의 입력 음에서 (b), (c)의 음은 강한 (a)의 음에 감춰져 들리지 않는다. 이것이 마스킹 효과인데, 그 마스킹 효과에 의한 [들림/들리지 않음]의 경계를 나타낸 것이 굵은 점선으로 나타낸 [마스킹 임계값]이다.
또한 인간에게는 도면의 가는 실선으로 나타낸 바와 같은 특성도 있는데 이것을 절대 가청(可聽) 임계값이라고 하며, 정숙한 환경하에서 인간이 소리를 들을 수 있는 최소 한도의 소리를 나타낸다. 도면에 나타낸 바와 같이 인간의 귀에는 2KHz∼ 5KHz 부근, 특히 4KHz의 소리에 대해 가장 감도가 좋고, 그 이하 및 이상의 주파수로 되면 점차 들리기 어렵게 된다.
여기서 마스킹 임계값은 입력 음향 데이터에 의존하여 변화하지만, 절대 임계값은 변화하지 않는다. 결국, 입력 음 중 귀에 들리는 것은 마스킹 임계값과 절대 임계값보다도 강한 부분 뿐이고, 그 이외의 들리지 않는 부분의 정보를 없애도 청각 상에서는 원래 입력 음과 마찬가지로 들리는 것이다.
이것은 음향 신호의 부호화에 있어서는, 도 14의 사선으로 나타낸 부분만에 부호화 비트를 할당하는 것과 같다. 단, 여기서의 비트 할당은 음향 신호의 전체 영역을 복수의 소대역으로 분할하고 그 분할 대역(D)의 단위로 행하고 있다. 각 사선의 영역의 횡폭은 그 분할 대역의 폭에 상당하다.
각 분할 대역에서 사선 영역의 하한 강도 이하의 음은 귀에 들리지 않는다. 따라서 원음과 부호/복화화 음의 강도 오차가 이 하한을 넘지 않으면 양자의 차를 감지할 수 없다. 그 뜻에서 이 하한의 강도를 허용 오차 강도라고 한다. 음향 신호를 양자화하여 압축할 때, 원음에 대한 부호/복호화 음의 양자화 오차 강도가 어용 오차 강도 이하로 되도록 양자화하면, 원음의 음질을 손상주지 않고 음향 신호를 압축시킬 수 있다. 따라서 도 14의 사선 영역에만 부호화 비트를 할당하는 것은 각 분할 대역에서의 양자화 허용 강도가 마침 허용 오차 강도로 되도록 양자화하는 것과 같다.
또, 음향 압축에서는 이 성질을 이용하여 입력 음향 데이터 중에서 양 임계값보다 강한 부분만 부호화함으로써 데이터량을 대폭 삭감하는 것이다. 그리고 실제로 이 양 임계값이 상술한 양자화 오차의 허용 상한에 대응한다. 즉, 입력 음향 데이터를 양자화할 때, 양자화 오차가 양 임계값이 큰 부분을 우회하지 않도록 하면, 청각 상은 음질의 열화를 느끼지 않는다는 것이다. 임계값이 작은 부분에서는 양자화의 레벨 수를 적게 열화를 귀로 느낄 수 있지만, 임계값이 큰 부분에서는 다소 레벨 수를 줄여도 된다.
입력 음향 데이터는 일반적으로 시간 방향의 디지털 샘플 값 열로서 나타나지만, 그 대로는 상기 마스킹 효과를 잘 적용할 수 없다. 그래서 이것을 보다 처리하기 쉬운 형으로 변환할 필요가 있다.
그 중 하나가 시간 영역의 데이터 열을 일정한 샘플수마다 블록화하고 동일 샘플수의 주파수 영역의 데이터 열로 변환하는 방법이다. 도 15a에 시간 영역에서의 1024 샘플의 음향 파형을, 도 15b에 이것을 1024 샘플의 주파수 영역의 파형으로 변환한 열을 각각 나타내고 있다.
일반적으로 음향 신호를 주파수 영역으로 변환하면, 주파수에 의해 음향(에너지)의 편향이 생긴다. 예컨대, 도 15a, 15b에서, 시간 영역에서는 신호값이 균등하게 분포하고 있지만, 주파수 영역에서는 저주파수 측으로 에너지가 치우치고 있다. 부호화할 때는 에너지가 집중하여 있는 부분에 중점적으로 비트를 배분함으로써 압축 효율을 향상시킬 수 있다.
또 시간으로부터 주파수로 변환하는 데는, DFT (Digital Fourier Transform:이산 프리에 변환)이나 DCT (Discrete Cosine Transform:이산 코싸인 변환)등 수법이 있는데, 화상이나 음향의 압축에서는 DCT, 및 그 변형인 MDCT가 통상 사용된다. MDCT에 대해서는 후술한다.
입력 음향 데이터의 변환에는 이 외에 서브 밴드 분할이 있다. 서브 밴드 분할에서는 입력 파형을 복수의 주파수 대역으로 분할하는 데, 분할한 파형 각각은 시간 영역 그대로인 점이 상기 주파수 영역으로 변환하는 것과 상이하다. 또 m개 샘플수로부터 이루어지는 입력 데이터를 n개 서브 밴드로 분할하면, 각 서브 밴드는 m/n개 샘플수로 된다. 도 16에 입력 파형을 2 개의 서브 밴드로 분할한 단순한 예를 나타낸다.
이상 설명한 바와 같이, 음향 부호화에서 이용되는 가장 기본적인 기술을 설명했는데, 여기서 이들을 조합한 음향 압축 부호화의 기본적인 처리의 흐름을 도 17에 나타낸다.
우선, 입력 음향 데이터를 주파수 영역으로 변환, 혹은 서브 밴드로 분할한다. 다음에 변환후의 각 샘플 값을 양자화한다. 이 때, 병행하여 음향 데이터의 마스킹 임계값을 계산하고, 이 마스킹 임계값과 절대 임계값을 조합하여 각 주파수에 있어서의 양자화 오차 상한을 구해 둔다(이것을 행하는 것이 도 17의 [청각 심리 모델부]이다). 양자화는 오차가 그 상한을 넘지 않도록 행해진다. 최후로 각 양자화 값의 출현 빈도에 따라 허프만 부호를 할당하여 최종적인 부호화 데이터를 생성한다.
또, 상술한 것은 음향 압축 부호화의 가장 기본적인 처리를 나타낸 것으로, MP3이나 AAC 등 실제 부호화 방식에서는 이 외의 여러가지 처리를 고안하여 행함으로써 나아가 압축율의 향상을 꾀하고 있다.
다음, MP3에 관해서는 AAC(후술함)와 주로 상이한 점을 설명한다. 여기서도 기본적인 처리의 흐름은 [주파수 영역으로 변환→양자화→허프만 부호]이다.
도 18에 서브 밴드 분할과 MDCT처리를 중심으로 MP3의 부호화 처리의 흐름을 나타낸다. AAC와의 큰 상이점은 MDCT앞에 서브 밴드 분할 처리가 있는 것이다. 서브 밴드 분할은 입력 데이터를 복수의 주파수 영역으로 분할함으로써 각 분할 대역에서 데이터는 시간축 상에 늘어져 있다.
MP3에서는 입력 데이터를 32대역으로 분할하고, 분할 대역마다 MDCT를 행한다. AAC와 마찬가지로 롱/쇼트의 2 종류의 윈도 함수를 구분하여 사용하는데, 롱은 36샘플, 쇼트는 12샘플의 길이이다. 단, AAC와 달리 롱/쇼트를 혼합시킬 수 있다. 도 18에서는 고주파 대역은 쇼트를, 저주파 대역은 롱을 각각 이용한 경우를 나타내고 있다. 물론, 전부 롱이든가 전부 쇼트라도 관계없다.
또, AAC에서는 롱 윈도는 2048샘플이지만, MP3에서는 상기 36샘플을 서브 밴드 분할 전의 길이로 환산하면, 36×32 = 1152샘플로 된다.
도 19는 AAC 부호화의 기본적인 구성을 나타내는 블록도이다. 이 도면에 있어서, 청각 심리 모델부(101)는 시간축에 따라 블록화된 입력 음향 신호의 각 분할 대역 마다 허용 오차 강도를 산출한다. 한편, 마찬가지로 블록화된 입력 신호에 대해 게인 컨트롤(102) 및 필터 뱅크(103)에서는 MDCT (Modified Discrete Cosine Transform)에 의해 주파수 영역으로 변환하고, TNS (Temporal Noise Shaping)(104), 예측기(106)에서는 예측 부호화, 그리고 강도/결합(Intensity/Coupling)(105) 및 스테레오 (Middle Side Stereo) (이하 M/S라고 한다)(107)는 스테레오 상관 부호화 처리를 각각 한다. 그 후, 정규화 계수(108)를 결정하고 양자화 기(109)에서는 그 정규화 계수(108)에 근거하여 음향 신호를 양자화한다. 이 정규화 계수는 도 14의 허용 오차 강도에 대응하는 것으로, 각 분할 대역마다 정해진다. 양자화한 후, 노이즈리스 코딩(Noiseless coding)(110)에서는 미리 정해진 허프만 부호(Huffman code)표에 근거하여 정규화 계수와 양자화값에 각각 허프만 부호를 부여하여 노이즈리스 코딩을 행하고 최후로 멀티플렉서(multiplexer)(111)로 비트 스트림(bit stream)을 형성한다.
그런데, 상술한 필터 뱅크(103)에 있어서의 MDCT란, 도 20에 나타낸 바와 같이 시간축에 따라 변환 영역을 50%씩 중첩(overlap)시키면서 DCT (Discrete Cosine Transform:이산 코싸인 변환)를 행하는 것이다. 또한 생성되는 MDCT 계수의 수는 변환 영역의 샘플 수의 절반이다. AAC에서는 입력 음향 신호 블록에 대해 2048샘플의 긴 변환 영역 (롱 블록), 또는 각 256샘플의 8개의 짧은 변환 영역 (쇼트 블록)의 어느 하나를 적용한다. 따라서 MDCT계수의 수는 긴 경우에는 1024, 짧은 경우에는 128로 된다. 쇼트 블록은 항상 8 블록을 연속하여 적용함으로써 롱 블록을 이용한 경우와 MDCT계수의 수를 합하도록 되어 있다.
일반적으로 도 21과 같이 신호 파형의 변화가 적은 정상적인 부분에는 롱 블록을, 도 22와 같이 변화가 심한 어택(attact)부에는 쇼트 블록을 이용한다. 이 양자를 적절하게 분간하는 것은 중요하므로 만약 도 22와 같은 신호에 롱 블록을 적용하면 본래의 어택 앞에 프리에코(pre-echo)로 불리우는 노이즈가 발생한다. 또한 도 21과 같은 신호에 쇼트 블록을 적용하면, 주파수 영역에서의 해상도 부족으로부터 적절한 비트 할당이 되지 않아 부호화 효율이 저하하여 역시 노이즈가 발생하고 특히 저주파수의 음에 대해서는 현저하다.
쇼트 블록에 관해서는 나아가 그룹을 나누는 문제가 있다. 그룹 나눔이란, 상기 8 개의 쇼트 블록을 정규화 계수의 동일한 연속하는 블록마다 묶어서 그룹화하는 것이다. 그룹 내에서 정규화 계수를 공통화함으로써 정보량의 삭감 효과가 높아진다. 구체적으로는 도 19의 노이즈리스 코딩(110)에서 정규화 계수에 허프만 부호를 할당할 때, 각 쇼트 블록 단위가 아니고 그룹 단위로 할당하는 것이다. 도 23에 그룹 나눔의 일례를 나타낸다. 여기서는 그룹수가 3으로, 각 그룹 내의 블록수는 최초의 제0 그룹에서는 5 개, 다음의 제1 그룹에서는 1 개, 최후의 제2 그룹에서는 2 개로 되어 있다. 그룹 나눔을 적절하게 하지 않으면, 부호량의 증가나 음질의 저하를 초래한다. 그룹의 분할 수가 너무 많으면, 본래 공통화할 수 있는 정규화 계수를 중복하여 부호화함으로써 부호화 효율이 저하한다. 반대로, 그룹수가 너무 적으면, 음향 신호의 변화가 격렬함에도 불구하고 공통의 정규화 계수로 양자화하는 것으로 되므로 음질이 저하한다. 또, ISO/IEC 13818 - 7에서는 그룹 나눔에 관하여 부호의 구문법(syntax) 규정은 있어도 구체적인 그룹 나눔의 기준이나 수법에 관해서는 고려되어 있지 않다.
상술한 바와 같이 부호화에 있어서는 입력 음향 신호 블록에 관하여 적절히 롱 블록과 쇼트 블록을 구별하여 적용하지 않으면 안된다. 이 롱/쇼트의 판정을 하는 것은 도 19의 청각 심리 모델부(101)이다. ISO/IEC 13818 - 7에서는 청각 심리 모델부(101)에 있어서의 각 주목(target) 블록에 대한 롱/쇼트 판정 방법의 일례를 나타내고 있다. 그 판정 처리의 개요를 아래에 설명한다.
스텝 1: 음향 신호의 재구축
롱 블록용으로 1024 샘플(쇼트 블록용으로는 128 샘플)을 새롭게 판독하고 앞 블록에서 이미 판독한 1024 샘플(128 샘플)과 합해서 2048 샘플(256 샘플)의 신호 계렬을 재구축한다.
스텝 2: 핸 윈도(Hann window) 씌움과 FFT
스텝 1에서 구축한 2048 샘플 (256 샘플)의 음향 신호에 핸 윈도를 씌우고, 나아가 FFT(Fast Fourier Transform)를 행하여 1024 개(128 개)의 FFT 계수를 산출한다.
스텝 3: FFT 계수의 예측값의 계산
선행하는 2 그룹의 FFT계수의 실수부와 허수부로부터 현재 주목하고 있는 블록의 FFT계수의 실수부와 허수부를 예측하고, 각각 1024 개(128 개)의 예측값을 산출한다.
스텝 4: 비 예측 가능성값의 계산
스텝 2에서 산출한 각 FFT계수의 실수부와 허수부와, 스텝 3에서 산출한 각 FFT계수의 실수부와 허수부의 예측값으로부터 각각 비 예측 가능성값을 산출한다. 여기서 비 예측 가능성값은 0으로부터 1 사이의 값을 취하고, 0에 가까울 수록 음향 신호의 순음성(純音性)이 높고, 1에 가까울 수록 잡음성이 높은 것을 가리키는데, 바꾸어 말하면 순음성이 낮은 것을 나타낸다.
스텝 5: 각 분할 대역에서의 음향 신호 강도와 비 예측 가능성값의 계산
여기서의 분할 대역은 도 14에서 나타낸 것에 상당하다. 각 분할 대역마다 스텝 2에서 산출한 각 FFT계수에 의해 음향 신호의 강도를 산출한다. 나아가 스텝 4에서 산출한 비 예측 가능성값을 강도로 가중하여 각 분할 대역마다의 비 예측 가능성값을 산출한다.
스텝 6: 전개(spreading) 함수를 이용한 강도와 비 예측 가능성값의 중첩(convolution)
각 분할 대역에 있어서의 다른 분할 대역의 음향 신호 강도 및 비 예측 가능성값의 영향을 전개 함수로 구하고 각각을 중첩하여 정규화한다.
스텝 7: 순음성 지표(index)의 계산
각 분할 대역b에 있어서, 스텝 6에서 산출한 중첩 비 예측 가능성값(cb(b))에 근거하여 순음성 지표 tb(b)(= -0.299-0.43loge(cb(b)))를 산출한다. 나아가 순음성 지표를 0으로부터 1 사이에 제한한다. 여기서 지표가 1에 가까울 수록 음향 신호의 순음성이 높고, 0에 가까울 수록 잡음성이 높다는 것을 나타낸다.
스텝 8: S/N비의 계산
각 분할 대역에 있어서, 스텝 7에서 산출한 순음성 지표에 근거하여 S/N비를 산출한다. 여기서 일반적으로 잡음 성분이 순음 성분보다도 마스킹 효과가 크다는 성질을 이용한다.
스텝 9: 강도 비의 계산
각 분할 대역에 있어서, 스텝 8에서 산출한 S/N비에 근거하여 중첩 음향 신호 강도와 마스킹 임계값의 비를 산출한다.
스텝 10: 허용 오차 강도의 계산
각 분할 대역에 있어서, 스텝 6에서 산출한 중첩 음향 신호 강도와, 스텝 9에서 산출한 음향 신호 강도와 마스킹 임계값의 비에 근거하여 마스킹 임계값을 산출한다.
스텝 11: 프리에코 조절과 절대 가청 임계값의 고려
각 분할 대역에 있어서, 스텝 10에서 산출한 마스킹 임계값을 앞 블록에서의 허용 오차 강도를 이용하여 프리에코 조정을 한다. 나아가 이 조정값과 절대 가청 임계값이 큰 쪽의 값을 현재 블록에서의 허용 오차 강도라고 한다.
스텝 12: 지각 엔트로피의 계산
롱 블록용과 쇼트 블록용 각각에 관하여, 수학식 1에서 정의되는 지각 엔트로피(Perceptual Entropy(PE))를 산출한다.
단, w(b)는 분할 대역 b의 폭, nb(b)는 스텝 11에서 산출한 분할 대역b의 허용 오차 강도, e(b)는 스텝 5에서 산출한 분할 대역b의 음향 신호 강도를 각각 나타내고 있다. 여기서 PE는 도 14에서 있어서 비트 할당 영역(사선 영역)의 면적 총화에 대응한다고 생각할 수 있다.
스텝 13: 롱/쇼트 블록의 판정(도 24에 나타낸 롱/쇼트 블록 판정 동작 흐름을 참조)
스텝 12에서 산출한 롱 블록용의 PE 값(스텝 S10)이 미리 정해진 정수(switch_pe)보다 큰 경우는 주목(target) 블록을 쇼트 블록이라고 판정하고(스텝 S11, S12), 작은 경우는 롱 블록이라고 판정한다(스텝 S11, S13). 여기서 switch_pe는 애플리케이션에 의존하여 정해진 값이다.
이상이 ISO/IEC 13818 - 7에 기재된 롱/쇼트의 판정 방법이다. 그런데 상술한 ISO/IEC 13818 - 7에서 기재된 롱/쇼트 블록의 판정 방법으로는 반드시 적절한 판정이 행해지는 것은 아니다. 즉, 본래 쇼트 블록이라고 판정해야 할 부분을 롱 블록이라고 판정하여(혹은 그 반대로), 음질의 열화를 초래하는 경우가 있다.
한편, 일본 특허 공개 공보 평 9 - 232964호에서는 입력 신호를 소정 구간마다 2승 합계를 각각 구하고 각 구간마다 2승 합계된 신호 중 적어도 2이상의 구간에 걸치는 변화도에 의해 상기 신호의 과도 상태를 검출하도록 과도 상태 검출 회로(2)를 구성하고 직교 변환 처리나 필터 처리를 하지 않고 시간축 상의 입력 신호의 2 승 합계를 계산하는 것만으로 과도 상태 즉, 롱/쇼트가 변화하는 부분을 검출할 수 있도록 하고 있다. 이 방법에서는 입력 신호의 2 승 합계만을 이용하여 지각 엔트로피를 고려하지 않으므로 반드시 청각 상의 특성에 맞는 판정을 할 수 있다고 할 수 없어 음질이 열화하는 우려가 있다.
그래서 동일 그룹 내의 각 쇼트 블록에 관하는 지각 엔트로피의 최대값과 최소값의 차가 미리 정해진 임계값보다 작게 되도록 입력 음향 신호 블록을 그룹으로 나누고 그 결과, 그룹 수가 1인 경우, 또는 이것과 다른 조건을 만족시키는 경우는 입력 음향 신호 블록을 1 개의 롱 블록으로 주파수 영역으로 변환하고 그 외의 경우는 복수의 쇼트 블록으로 변환하는 방법이 있다. 이 방법에 관해서 동작 흐름을 나타낸 도 26의 음향 데이터를 이용하고, 도 26에서는 연속하는 8 개의 각 쇼트 블록에 대응하는 일련의 번호를 부여하고 있다.
우선, 입력된 음향 신호는 연속하는 8개의 쇼트 블록으로 분할된다. 그리고 이 8개의 쇼트 블록의 지각 엔트로피를 각각 계산하고 이들을 순서로 PE(i)(0≤i≤7)로 한다(스텝 S20). 이 계산은 상술한 ISO/IEC13818-7에서 각 주목 블록에 대한 롱/쇼트 블록의 판정 방법의 스텝 1로부터 스텝 12로 설명한 방법을 각 쇼트 블록에 대해 행함으로써 실현한다. 다음에 group_len [0] = 1, group_len [gnum] = 1, (0≤ gnum ≤7)로 초기화한다(스텝 S21). 여기서 gnum은 그룹 분(分)에 있어서 그룹의 일련의 번호, group_len [gnum]은 제 gnum그룹 내에 포함되는 쇼트 블록 수를 각각 나타낸다. 그리고 gnum = 0, min = PE(0), max = PE(0)로 각각 초기화한다(스텝S22). 이 min, max는 PE(i)의 최소값, 최대값을 각각 나타낸다. 도 18에 의해 여기서는 min = 110, max = 110로 된다. 나아가 지표i를 i = 1로 초기화한다(스텝 S23). 이 지표는 쇼트 블록의 일련의 번호에 대응한다.
다음에, PE(i)에 의해 min, 또는 max의 갱신을 한다. 즉, PE(i) < min이면, min = PE(i), PE(i) > max이면 max = PE(i)로 한다(스텝 S24). 도 27의 예에서는 PE(1) = 96이므로 min = 96, max = 110로 된다. 그리고 그룹 나눔의 판단을 한다(스텝 S25). 즉, 구한 max - min를 미리 정해진 임계값th과 비교하여 이 임계값 th 이상의 경우는 쇼트 블록 i-1과 i의 사이에서 그룹을 나누기 위하여 스텝 S26로 진행하고, 임계값 th보다 작은 경우는 쇼트 블록 i-1과 i이 동일 그륩에 포함된다고 판정하여 스텝S27로 진행한다. 이 예에서는 th = 50으로 해 둔다. 즉, 동일 그룹에 포함되는 각 쇼트 블록의 PE(i)의 최대값과 최소값의 차가 50보다 작게 되도록, 그룹을 나누는 것이다. i = 1일 때는 max - min = 110 - 96 = 14 < 50 = th이므로 쇼트 블록 0과 1은 동일 그룹에 포함된다고 판단되어 스텝 S27로 진행한다. 또, 여기서는 gnum = 0이므로 쇼트 블록 0과 1은 제0 그룹에 포함된다. 그리고group_len [gnum]의 값을 1만 증가한다(스텝 S28). 이것은 제 gnum그룹에 포함되는 쇼트 블록의 수를 1 개만 증가한다는 것이다. 이 예에서는 스텝 S21, S22에서 gnum = 0, 동시에 group_len [0] = 1로 초기화되어 있으므로 스텝 S27에서는 group_len [0] = 2로 된다. 이것은 제0 그룹에 포함되는 쇼트 블록으로서 블록0, 1의 2 개 블록이 이미 확정되어 있는 것에 대응한다.
다음에, 지표i를 1만 증가하고(스텝 S28), i가 7보다 작은 경우는 스텝 S24로 복귀한다(스텝 S29). 이 예에서는 i = 2 <7이므로 스텝 S24로 복귀한다.
그후, 상기 설명한 것과 마찬가지 동작이 i = 4까지 계속된다. i = 4일 때는 도 27로부터 도 25a의 스텝 S24으로 min = 96, max = 137로 되므로 스텝 S25에서는 max - min = 41 < 50 = th로 판정되어 역시 스텝 S25로부터 그 채로 스텝 S27로 진행한다. 그리고 스텝 S27에서 group_len [0] = 5로 된다. 이것은 즉, 제0 그룹에 포함되는 쇼트 블록으로서 블록 0, 1, 2, 3, 4의 5 개 블록이 확정된 것에 대응한다. 그리고 스텝 S28에서 i = 5로 된 후, 스텝 S29를 거쳐 재차 스텝S24로 복귀하면 이번은 PE(5) = 152이므로 min = 96, max = 152로 된다. 그러면, 스텝 S25에서는 max - min = 56 > 50 = th로 판정되므로 스텝 S26로 진행한다. 이것은 쇼트 블록 4와 5의 사이에서 그룹을 나누는 것을 의미한다. 스텝 S26에서는 Gnum의 값을 1만 증가하고, 동시에 min, max를 각각 최신 PE(i)로 바꿔놓는다. 여기서는Gnum = 1, min = 152, max = 152로 된다. Gnum = 1은 쇼트 블록 5가 포함되는 그룹이 제1 그룹인 것에 대응한다.
다음에, 스텝 S27에서 group_len [1] 을 1만 증가한다. group_len [1]은 스텝 S21에서 0으로 초기화되었으므로 여기서 새롭게 group_len [1] = 1로 된다. 이것은 제1 그룹에 포함되는 쇼트 블록으로서 블록 5의 1 개 블록이 확정된 것에 대응한다.
이하 마찬가지로, 도 25b의 스텝 S28에서 i = 6으로 되고, 스텝 S29로부터 또 스텝 S24로 복귀하면, 이번은 도27로부터 PE(6) = 269이므로 min = 152, max = 269로 되므로 스텝 S25에서는 max - min = 117 > 50 으로 판정되어 스텝 S26으로 진행한다. 즉, 쇼트 블록 5와 6의 사이에도 그룹이 나누어지는 것이다. 그리고 스텝 S26에서 Gnum = 2, min = 269, max = 269로 되고, 나아가 스텝 S27에서 group_len [2] = 1로 된다. 그리고 스텝 S28에서 i = 7로 한 후 지금까지와 마찬가지로 스텝 S24에서 PE(7) = 231이므로 min = 231, max = 269로 되며, 스텝 S25에서 max - min = 38 < 50 으로 판정되어 스텝 S27로 진행한다. 즉, 쇼트 블록 6과 7은 어느 것도 제2그룹에 포함된다. 이것에 대응하여 스텝 S27에서 group_len [2] = 2로 된다. 그런데, 다음의 스텝 S28에서i = 8로 되면 스텝 S의 판정에 의해 스텝 S30으로 진행한다. 이것으로 8 개의 쇼트 블록 전부에 관한 그룹 나눔이 끝난 것으로 된다.
이 예에서는 결국, Gnum = 2, group_len [0] = 5, group_len [1] = 1, group_len [2] = 2로 된다. 즉, 그룹 수는 3으로, 각 그룹에 포함되는 쇼트 블록 수는 제0 그룹이 5, 제1 그룹이 1, 제2 그룹이 2라는 결과이다. 이것은 도 23에 나타낸 그룹 나눔의 예와 마찬가지인 것이다.
그러나, 이 방법에서는 적절한 롱/쇼트의 판정을 할 수 없는 경우가 존재한다. 그것은 저주파 성분에 순음성이 높은 성분을 포함한 음향 데이터를 부호화하는 경우이다. 쇼트 블록에 의한 변환은 시간 영역에서의 해상도가 증가하는 반면, 주파수 영역에서의 해상도는 저하한다. 한편, 인간의 귀는 저주파수 영역에서 높은 해상도의 마스킹 특성을 구비하고, 특히 순음성이 높은 음향 데이터에 대해서는 아주 좁은 주파수 대역만이 마스킹된다.
그런데, 저주파 성분에 순음성이 높은 성분을 포함하는 음향 데이터를 쇼트 블록으로 변환하면, 쇼트 블록에 기인하는 주파수 영역에서의 해상도 부족에 의해 원래의 음향 데이터 에너지가 주변의 주파수 대역으로 분산하고, 그것이 인간의 귀의 저주파 성분에 있어서의 마스킹 폭을 초과하여 넓어짐으로써 결과적으로 음질의 열화를 느끼게 된다. 이 것은 단순히 쇼트 블록에 관한 지각 엔트로피만에 의거하여 롱/쇼트의 판정을 하는 것은 불충분하며, 나아가 음향 데이터의 순음성과 마스킹 특성의 주파수 의존성을 조합하여 고려할 필요가 있다는 것을 나타낸다.
그래서 본 출원인은 다음에, 입력 음향 신호 프레임을 복수의 쇼트 블록으로 분할하고 각각의 쇼트 블록에 관하여 미리 정한 1 개 또는 복수의 분할 대역에 포함되는 음향 성분의 순음성 지표가 분할 대역마다 미리 정한 임계값보다 큰지 어떤지를 판정하고, 상기 미리 정한 1 개 또는 복수의 분할 대역 전부에 있어서, 순음성 지표가 상기 미리 정한 임계값보다 큰 쇼트 블록이 적어도 1 개 존재하는 경우는 입력 음향 신호 프레임을 1 개의 롱 블록으로 주파수 영역으로 변환한다고 판정하는 방법을 출원했다. 이 방법의 구체적인 실시예를 흐름도로 나타낸 것이 도 28a, 28b이다.
도 28a, 28b는 디지털 음향 신호 부호화 장치의 동작을 나타낸 흐름도이다. 이하, 양 도면을 이용하여 본 실시예의 구체적인 동작을 설명한다. 그 때, 입력 음향 신호의 예로서, 도 26의 음향 데이터를 이용하는데, 도 26에서는 연속하는 8 개의 각 쇼트 블록에 대응하는 일련 번호를 부여하고 있다.
우선, 입력된 음향 신호는 연속하는 8 개의 쇼트 블록i((0≤i≤7)에 관하여 각 분할 대역sfb에서의 순음성 지표를 각각 계산하고, 이들을 tb [i] [sfb]로 한다(스텝 S40). 여기서 sfb는 도 26에 나타낸 바와 같이 각 분할 대역을 식별하기 위한 일련 번호이다. 또, 이 순음성 지표의 계산은 상술한 ISO/IEC13818-7에서의 각 주목 블록에 대한 롱/쇼트의 판정 스텝 중 스텝 7로 설명한 방법에 의한다. 다음에, tonal_flag = 0으로 초기화한다(스텝 S41). 나아가 쇼트 블록의 일련 번호i를 i = 0으로 초기화한다(스텝 S42). 그리고 미리 정한 1 개 또는 복수의 분할 대역에 있어서 각 순음성 지표가 각각의 분할 대역에 관하여 미리 정한 임계값보다 큰지 어떤지를 조사한다(스텝 S43). 도 28a, 28b의 예에서는 sfb = 7, 8, 9인 분할 영역에 관하여 조사하여 있고, 각각 순음성 지표의 임계값을 th7, th8, th9로 하고 있다.
그런데, 이 예에서는 각각의 쇼트 블록i에 관하여 sfb = 7, 8, 9에 있어서 순음성 지표 값이 도 29에 나타낸 바와 같은 것으로 한다. 또한 th7 = 0.6, th8 = 0.9, th9 = 0.8로 정해져 있는 것으로 한다. 그러면, 최초의i = 0일 때는 tb [0] [7] = 0.12 < 0.6 = th7, tb [0] [8] = 0.08 < 0.9 = th8, tb [0] [9] = 0.15 < 0.8 = th9이므로 스텝 S43에서의 판정은 no로 되어 다음의 스텝 S45로 진행한다. 그리고 i 의 값이 1 개만 증가되어 i = 1로 되고 스텝 S46의 판정을 거쳐 재차 스텝 S43로 복귀한다.
그후, 상기 설명한 동작과 마찬가지 동작이 i = 5까지 계속된다. i = 6으로 된 후(스텝 S45), 스텝 S46을 거쳐 재차 스텝 S43으로 복귀한다. 이 후는 tb [6] [7] = 0.67 > 0.6 = th7, tb [6] [8] = 0.95 > 0.9 = th8, tb [6] [9] = 0.89 > 0.8 = th9이므로 스텝 S43에서의 판정은 yes로 되어 다음의 스텝 S44로 진행한다. 그리고, tonal_flag = 1로 된다(스텝 S44). 다음에 i = 7로 되고(스텝 S45), 스텝 S46을 거쳐 또 스텝 S43으로 복귀한다. i = 7에서는 tb [7] [7] = 0.42 < 0.6 = th7, tb [7] [8] = 0.84 < 0.9 = th8, tb [7] [9] = 0.81 > 0.8 = th9이므로 스텝 S43의 판정은 no로 되어 스텝 S45로 진행한다. 한편, tonal_flag = 1인 대로 변하지 않는다. 그리고 i = 8로 된 후(스텝 S45), 스텝 S46의 판정을 거쳐 이번에는 스텝 S47로 진행한다. 그리고 tonal_flag의 값을 조사한다(스텝 S47). 이 예에서는 tonal_flag = 1이므로 판정은 yes로 되어 스텝 S48로 진행한다. 따라서 입력된 음향 블록을 1 개의 롱 블록에 의해 MDCT 변환하는 것으로 판정된다.
그러나 상기 방법으로도 적절한 롱/쇼트의 판정이 되지 않는 경우가 있다. 그것은 본래 쇼트 블록으로 변환하는 것이 보통임에도 불구하고 상기 종래예의 그룹 나눔의 결과가 제1 그룹으로 되기 때문에 롱 블록이라고 판정되는 바와 같은 경우가 있다. 또한, 도 14에 의하면, 4 kHz이상의 영역에서 입력 음향 신호의 샘플링 주파수가 작아질 수록 절대 가청 임계값의 기여도(寄與度)는 저하하므로 비트 할당 영역(도 14에서의 사선 영역)의 면적은 상대적으로 증대한다. 그 결과, 상술한 ISO/IEC 13818-7에서 기재된 롱/쇼트 블록의 판정 방법에 있어서의 스텝 12로 계산한 지각 엔트로피의 합계 값 차에 관한 임계값이 샘플링 주파수에 의하지 않고 공통 값이면, 어떤 샘플링 주파수에서는 적절히 롱/쇼트의 판정을 할 수 있어도 다른 주파수의 경우는 적절히 판정할 수 없다는 문제점이 생긴다.
본 발명은 이와 같은 문제점을 해결하기 위한 것으로, 입력 음향 신호의 샘플링 주파수의 차이에도 대응하고 음질이 열화하지 않도록 적절히 쇼트 블록을 그룹으로 나누고 동시에 롱/쇼트의 구별을 판별할 수 있는 디지털 음향 신호 장치. 디지털 음향 신호 부호화 방법 및 디지털 음향 신호 부호화 프로그램을 기록한 매체를 제공하는 것을 목적으로 한다.
도 1은 본 발명에 따른 디지털 음향 신호 부호화 장치의 구성을 나타낸 블록도.
도 2는 본 발명의 제1 실시예에 따른 디지털 음향 신호 부호화 방법의 동작을 나타낸 흐름도.
도 3은 제1 실시예에 있어 음향 신호 일례의 신호 파형을 나타낸 도면.
도 4는 쇼트 블록 별의 시간적으로 연속한 2 개 프레임 내의 지각 엔트로피 값 관계를 나타낸 도면.
도 5는 본 발명의 제2 실시예에 따른 디지털 음향 신호 부호화 방법의 동작을 나타낸 흐름도.
도 6은 제2 실시예에 있어 그룹 구분의 일례를 나타낸 도면.
도 7은 샘플링 주파수마다의 임계값 일례를 나타낸 도면.
도 8은 본 발명의 시스템 구성을 나타낸 블록도.
도 9는 고정 길이 부호와 허프만 부호의 예를 나타낸 도면.
도 10은 실제 수치열에 부호를 할당한 예를 나타낸 도면.
도 11은 도 9의 허프만 부호를 할당한 경우를 나타낸 도면.
도 12는 양자화 오차의 구체적인 수치 열을 나타낸 도면.
도 13은 마스킹 효과를 이용한 음향 신호의 압축을 나타낸 도면.
도 14는 음향 신호와 마스킹 임계값 및 절대 가청(可聽) 임계값의 강도 분포를 나타낸 도면.
도 15a, 15bB는 시간 영역에서의 파형을 주파수 영역에서의 파형으로 변환한 예를 나타낸 도면.
도 16은 주파수 영역에서의 신호를 2 개 대역으로 분할한 예를 나타낸 도면.
도 17은 음향 신호의 부호화의 기본적인 처리를 나타낸 흐름도.
도 18은 서브 밴드 분할과 MDCT 처리를 중심으로 MP3의 부호화 처리를 나타낸 흐름도.
도 19는 AAC의 부호화의 기본적인 구성을 나타낸 블록.
도 20은 MDCT의 변환 영역을 나타낸 도면.
도 21은 변화가 적은 신호 파형인 경우의 MDCT의 변환 영역을 나타낸 도면.
도 22는 변화가 심한 신호 파형인 경우의 MDCT의 변환 영역을 나타낸 도면.
도23은 그룹 나눔의 일례를 나타낸 도면.
도 24는 ISO/IEC 13818-7에 있어 롱/쇼트 블록 판정 동작을 나타낸 흐름도.
도 25a, 25b는 종래 디지털 음향 신호 부호화 방법의 동작을 나타낸 흐름도.
도 26은 음향 신호의 일례인 신호 파형을 나타낸 도면.
도 27은 쇼트 블록에 대한 지각 엔트로피와의 관계를 나타낸 도면.
도 28a, 28b는 다른 종래 디지털 음향 신호 부호화 방법의 동작을 나타낸 흐름도.
도 29는 각 쇼트 블록에 관하여 순음성 지표의 값을 나타낸 도면.
<도면의 주요 부분에 대한 부호의 설명>
11 : 블록 분할 수단
12 : 지각(知覺) 엔트로피(entropy) 산출 수단
13 : 지각 엔트로피 총화 산출 수단
14 : 비교 수단
15 : 롱/쇼트 블록 판정 수단
81 : I/F
82 : CPU
83 : ROM
84 : RAM
85 : 표시 장치
86 : 하드 디스크
87 : 키보드
88 : CD-ROM드라이브
89 : CD-ROM
본 발명은 상기 문제점을 해결하기 위하여, 각각의 짧은 변환 블록마다 산출한 입력 음향 신호의 지각 엔트로피를 산출하는 지각 엔트로피 산출 수단과, 지각 엔트로피 산출 수단에 의해 산출된 지각 엔트로피의 프레임 내의 총화를 구하는 지각 엔트로피 총화 산출 수단과, 시간적으로 연속하는 2 개 프레임의 지각 엔트로피 프레임 내에서의 각 총화 차의 절대값과 미리 정해진 임계값을 비교하는 비교 수단과, 이 비교 수단에 의한 비교 결과에 근거하여 입력 음향 신호의 블록을 롱 블록 또는 쇼트 블록 중 어느 하나로 변환하는가를 판정하는 롱 블록 또는 쇼트 블록 판정 수단을 구비하는 특징이 있다. 또한 롱/쇼트 블록 판정 수단은 비교 수단에 의한 비교 결과로 절대값이 임계값보다 큰 경우에 시간적으로 연속하는 2 개의 프레임 중 시간적으로 뒤에 있는 프레임을 쇼트 블록으로 변환한다고 판정하고, 작은 경우에 시간적으로 연속하는 2 개의 프레임 중 시간적으로 뒤의 프레임을 롱 블록으로 변환한다고 판정한다. 따라서 입력 음향 신호의 특성에 따라 롱/쇼트 블록의 판정을 할 수 있는 디지털 음향 신호 부호화 장치를 제공할 수 있다.
또한 나아가 각각의 짧은 변환 블록마다 산출한 입력 음향 신호의 지각 엔트로피를 산출하는 지각 엔트로피 산출 수단과, 지각 엔트로피 산출 수단에 의해 산출된 지각 엔트로피 프레임 내의 총화를 구하는 지각 엔트로피 총화 산출 수단과, 시간적으로 연속하는 2 개 프레임의 지각 엔트로피 프레임 내의 각 총화 차의 절대값과 미리 정해진 임계값을 비교하는 비교 수단과, 비교 수단에 의한 비교 결과로 절대값이 임계값보다 큰 경우 시간적으로 연속하는 2 개의 프레임 중 시간적으로 뒤의 프레임을 쇼트 블록으로 변환한다고 판정하고, 작은 경우에 판정 불가능이라고 판정하는 판정 수단을 구비하는 특징이 있다. 따라서 입력 음향 신호의 특성을 보다 가일층 반영한 블록 변환의 판정을 할 수 있는 디지털 음향 신호 부호화 장치를 제공할 수 있다.
또한, 임계값을 입력 음향 신호의 샘플링 주파수마다 정함으로써 입력 음향 신호의 샘플링 주파수의 차이에 따른 적절한 롱/쇼트의 판정을 할 수 있다.
또한, 나아가 디지털 음향 신호 부호화 방법은 각각의 짧은 변환 블록마다 산출한 입력 음향 신호의 지각 엔트로피를 산출하고 산출된 지각 엔트로피 프레임 내의 총화를 구하며 시간적으로 연속하는 2 개 프레임의 지각 엔트로피 프레임 내의 각 총화 차의 절대값과 미리 정해진 임계값을 비교하고 비교 결과에 근거하여 입력 음향 신호의 블록을 롱 블록 또는 쇼트 블록 중 어느 하나로 변환하는가를 판정한다. 또한 입력 음향 신호의 블록을 롱 블록 또는 쇼트 블록 중의 어느 것으로 변환하는가의 판정은 절대값이 임계 값보다 큰 경우에 시간적으로 연속하는 2 개의 프레임 중 시간 적으로 뒤의 프레임을 쇼트 블록으로 변환한다고 판정하고, 작은 경우에 시간적으로 연속하는 2 개의 프레임 중 시간적으로 뒤의 프레임을 롱 블록으로 변환한다고 판정한다. 따라서 입력 음향 신호의 특성에 따른 롱/쇼트의 판정을 할 수 있는 디지털 음향 신호 부호화 방법을 제공할 수 있다.
또한, 다른 디지털 음향 신호 부호화 방법은 각각의 짧은 변환 블록마다 산출한 입력 음향 신호의 지각 엔트로피를 산출하고 산출된 지각 엔트로피 프레임 내의 총화를 구하며 시간적으로 연속하는 2 개 프레임의 지각 엔트로피 프레임 내의 각 총화 차의 절대값과 미리 정해진 임계값을 비교하고, 상기 절대값이 상기 임계값보다 큰 경우 시간적으로 연속하는 2 개의 프레임 중 시간적으로 뒤에 있는 프레임을 쇼트 블록으로 변환한다고 판정하고, 작은 경우에 판정 불가능이라고 판정한다. 따라서 입력 음향 신호의 특성을 보다 가일층 반영한 블록 변환 판정을 할 수 있는 디지털 음향 신호 부호화 방법을 제공할 수 있다.
나아가 본 발명의 디지털 음향 신호 부호화 방법을 실행하는 프로그램이 기록된 매체를 이용함으로써 기존의 시스템을 바꿈이 없이, 또한 부호화 시스템을구축하는 장치를 범용적으로 사용할 수 있다.
이하, 본 발명의 실시예를 도면에 근거하여 설명한다.
본 발명의 실시 형태는 각각의 짧은 변환 블록마다 산출한 입력 음향 신호의 지각 엔트로피를 산출하는 지각 엔트로피 산출 수단과,지각 엔트로피 산출 수단에 의해 산출된 지각 엔트로피의 프레임 내의 총화를 구하는 지각 엔트로피 총화 산출 수단과, 시간적으로 연속하는 2 개 프레임의 지각 엔트로피 프레임 내의 각 총화 차의 절대값과 미리 정해진 임계값을 비교하는 비교 수단과, 비교 수단에 의한 비교 결과에 근거하여 입력 음향 신호의 블록을 롱 블록 또는 쇼트 블록의 어느 것으로 변환하는가를 판정하는 롱/쇼트 블록 판정 수단을 구비한다.
도 1은 본 발명의 일 실시예에 따른 디지털 음향 신호 부호화 장치의 구성을 나타낸 블록이다. 이 도면에 나타낸 본 실시예의 디지털 음향 신호 부호화 장치는 입력된 음향 신호를 소정의 수, 이하 설명에서는 8개의 연속하는 블록으로 분할하는 블록 분할 수단(11), 분할된 각 블록의 지각 엔트로피PE를 상술한 산출식에 따라 계산하는 지각 엔트로피 산출 수단(12)과, 산출된 지각 엔트로피의 프레임 내에서의 총화를 구하는 지각 엔트로피 총화 산출 수단(13)과, 시간적으로 연속하는 2 개 프레임의 지각 엔트로피 프레임 내에서의 각 총화 차의 절대값과 미리 정해진 임계값을 비교하는 비교 수단(14) 및 비교 결과에 따라 롱 블록 또는 쇼트 블록 중 어느 것인가를 판정하는 롱/쇼트 블록 판정 수단(15)을 포함하여 구성되어 있다.
여기서, 도 2는 본 발명의 제1 실시예에 따른 디지털 음향 신호 부호화 장치의 동작을 나타낸 흐름도이다. 이하, 양 도면을 이용하여 본 실시예의 구체적인 동작을 설명한다. 그 때, 입력 음향 신호의 예로서 도 3의 음향 데이터를 이용한다. 여기서는, 시간적으로 연속하는 2프레임에 포함되는 합계 16의 쇼트 블록을 나타내고 있다. 프레임은 시간 순서로 프레임 f-1, 프레임 f로 하고, 현새 주목하고 있는 프레임은 후의 프레임f쪽이다. 나아가 각각의 프레임에 있어서 각 쇼트 블록에 대응하는 일련 번호를 부여하고 있다.
우선, 블록 분할 수단(11)에 의해 프레임f 내의 연속하는 8 개의 쇼트 블록i(0 ≤ i ≤ 7)의 각각에 관하여 지각 엔트로피 산출 수단(12)에 의해 지각 엔트로피PE [f] [i]를 계산한다(스텝S101). 이 지각 엔트로피의 계산은 상술한 ISO/IEC13818-7에서 기재된 롱/쇼트 블록 판정 방법에 있어서 스텝 12로 설명한 방법에 의한다. 다음에 지각 엔트로피 총화 산출 수단(13)에 의해 아래 수학식에서 정의되는 바와 같이 PE [f] [i] 의 0 ≤ i ≤ 7에 관하는 합계 값spe [f]를 구한다(스텝S102).
그리고 비교 수단(14)에 의해 앞 프레임 f-1에서 상기와 마찬가지 방법으로 이미 구한SPE [f-1]과 SPE [f]의 차의 절대값을 구하고, 이 절대값과 미리 정해진 임계값 switch_pe_s의 크기를 비교한다(스텝 S103). 롱/쇼트 블록 판정 수단(15)에서는switch_pe_s보다 큰 경우는 스텝 S104로 진행하고, 프레임 f를 1 개의 롱 블록으로 변환한다고 판정한다.
도 4는 도 3의 각 쇼트 블록에 대응한PE [f] [i] 를 나타낸 도면이다. 이 도면에 나타낸 예에서는 SPE [f-1] = 1390, SPE [f] = 1030이므로 switch_pe_s = 500인 경우는 |SPE [f-1] - SPE [f] | = 360 < switch_pe_s = 500으로 되므로 프레임f에 관해서는 1 개의 롱 블록으로 변환한다고 판정된다.
다음에 본 발명의 제2 실시예에 따른 디지털 음향 신호 부호화 장치의 동작을 도 5에 나타낸 흐름도에 따라 설명한다. 또 스텝 S201으로부터 스텝 S204까지는 도 2의 스텝 S101로부터 스텝 S104까지와 각각 마찬가지 처리를 하는 것으로 하고 상이한 동작에 관해서 설명한다. 스텝 S203으로 앞 프레임f-1에서 상기와 마찬가지 방법으로 이미 구한 SPE [f-1] 와 SPE [f]의 차의 절대값을 구하고, 이 절대값과 미리 정해진 임계값 switch_pe_s의 크기를 비교한다. switch_pe_s보다 큰 경우는 스텝 S204로 진행하고, 프레임 f를 복수의 쇼트 블록으로 변환한다고 판정한다. 한편, switch_pe_s보다 작은 경우는 스텝 S205로 진행하고, 프레임 내 각 쇼트 블록의 지각 엔트로피 합계 값 차의 정보만으로는 판정 불가능으로 하여 다른 수단에 의한 롱/쇼트 블록의 판정을 한다. 그 일례로서 동일 그룹 내 각 쇼트 블록에 관한 지각 엔트로피 최대값과 최소값의 차가 미리 정해진 임계값보다 작게 되도록 프레임f를 그룹으로 나누고 그 결과, 그룹 수가 1인 경우는 스텝 S206으로 나아가 프레임f를 1 개의 롱 블록으로 주파수 영역으로 변환하고 그 이외의 경우는 스텝 S204로 나아가 복수의 쇼트 블록으로 변환한다고 판정한다. 또 그룹으로 나누는 상세한 설명은 도 25a, 25b의 흐름도에 나타낸 바와 같다.
구체예로서, 도 3 및 도 4에 더하여 프레임f의 그룹 나눔의 결과를 나타낸 도 6을 포함한 예를 생각한다고 한다. 여기서도 switch_pe_s = 500으로 한다. 상술한 바와 같이, 도 3 및 도 4에 나타낸 예에서는 |SPE [f-1] - SPE [f] | = 360 < switch_pe_s = 500이므로 최종적으로 그룹 나눔의 결과에 의한 판정에 맡길 수 있다. 도 6에서는 프레임f는 3그룹으로 나뉘어진다(쇼트 블록 i = 0, 1, 2, 3, 4가 제0 그룹, i = 5가 제1 그룹, i = 6, 7가 제2 그룹)이므로 복수의 쇼트 블록으로 변환한다고 판정한다. 또 스텝 S205에서 이용되는 롱/쇼트 블록의 판정 방법은 여기서 이용한 그룹 나눔의 결과에 의거하는 방법에 한하지 않고 다른 판정 방법을 이용해도 관계없다 또한 도 2 및 도 5에 있어서 switch_pe_s 를 1 개 정했지만 샘플링 주파수마다의 switch_pe_s의 값 일례를 나타낸 도 7과 같이 음력 음향 신호의 샘플링 주파수마다 정해두고, 실제로 입력되는 음향 신호의 샘플링 주파수에 따라 도 7을 참조하여 switch_pe_s의 값을 설정해도 좋다.
다음, 도 8은 본 발명의 시스템 구성을 나타낸 블록도이다. 즉, 이 도면은 상기 실시예의 디지털 음향 신호 부호화 방법에 의한 소프트웨어를 실행하는 마이크로프로세서 등으로 구축하는 하드웨어를 나타낸 것이다. 이 도면에서 디지털 음향 신호 부호와 시스템은 인터페이스(이하 I/F라 한다)(81), CPU(82), ROM(83), RAM(84), 표시 장치(85), 하드디스크(86), 키보드(87) 및 CD-ROM 드리이브(88)를 포함하여 구성되어 있다. 또한, 범용의 처리 장치를 이용하고 CD-ROM(89)등 판독 가능한 기록 매체에는 본 발명의 디지털 음향 신호 부호화 방법을 실행하는 프로그램이 기록되어 있다. 나아가, I/F(81)를 통하여 외부 장치로부터 제어 신호가 입력되고 키보드(87)에 의해 조작자에 따른 지령 또는 자동적으로 본 발명의 프로그램이 기동된다. 그리고 CPU(82)는 이 프로그램에 따라 상술한 디지털 음향 신호 부호화 방법에 따른 부호화 제어 처리를 하고, 그 처리 결과를 RAM(84)이나 하드디스크(86)등 기억 장치에 저장하며 필요에 따라 표시 장치(85)등으로 출력한다. 이상과 같이 본 발명의 디지털 음향 신호 부호화 방법을 실행하는 프로그램이 기록된 매페를 이용함으로써 기존의 시스템을 바꿈이 없이, 또한 부호화 시스템을 구축하는 장치를 범용적으로 사용할 수 있다.
또, 본 발명은 상기 실시예에 한정되는 것은 아니고, 특허 청구 범위 내에서 다종의 변형이나 바꿔놓음이 가능하다는 것은 물론이다.
이상 설명한 바와 같이 본 발명에 의하면, 각각의 짧은 변환 블록마다 산출한 입력 음향 신호의 지각 엔트로피를 산출하는 지각 엔트로피 산출 수단과, 지각 엔트로피 산출 수단에 의해 산출된 지각 엔트로피의 프레임 내의 총화를 구하는 지각 엔트로피 총화 산출 수단과, 시간적으로 연속하는 2 개 프레임의 지각 엔트로피 프레임 내에서의 각 총화 차의 절대값과 미리 정해진 임계값을 비교하는 비교 수단과, 이 비교 수단에 의한 비교 결과에 근거하여 입력 음향 신호의 블록을 롱 블록 또는 쇼트 블록 중 어느 하나로 변환하는가를 판정하는 롱 블록 또는 쇼트 블록 판정 수단을 구비하는 특징이 있다. 또한 롱/쇼트 블록 판정 수단은 비교 수단에 의한 비교 결과로 절대값이 임계값보다 큰 경우에 시간적으로 연속하는 2 개의 프레임 중 시간적으로 뒤에 있는 프레임을 쇼트 블록으로 변환한다고 판정하고, 작은 경우에 시간적으로 연속하는 2 개의 프레임 중 시간적으로 뒤의 프레임을 롱 블록으로 변환한다고 판정한다. 따라서 입력 음향 신호의 특성에 따라 롱/쇼트 블록의 판정을 할 수 있는 디지털 음향 신호 부호화 장치를 제공할 수 있다.
또한, 나아가 각각의 짧은 변환 블록마다 산출한 입력 음향 신호의 지각 엔트로피를 산출하는 지각 엔트로피 산출 수단과, 지각 엔트로피 산출 수단에 의해 산출된 지각 엔트로피 프레임 내의 총화를 구하는 지각 엔트로피 총화 산출 수단과, 시간적으로 연속하는 2 개 프레임의 지각 엔트로피 프레임 내의 각 총화 차의 절대값과 미리 정해진 임계값을 비교하는 비교 수단과, 비교 수단에 의한 비교 결과로 절대값이 임계값보다 큰 경우 시간적으로 연속하는 2 개의 프레임 중 시간적으로 뒤의 프레임을 쇼트 블록으로 변환한다고 판정하고, 작은 경우에 판정 불가능이라고 판정하는 판정 수단을 구비하는 특징이 있다. 따라서 입력 음향 신호의 특성을 보다 가일층 반영한 블록 변환의 판정을 할 수 있는 디지털 음향 신호 부호화 장치를 제공할 수 있다.
또한, 임계값을 입력 음향 신호의 샘플링 주파수마다 정함으로써 입력 음향 신호의 샘플링 주파수의 차이에 따른 적절한 롱/쇼트의 판정을 할 수 있다.
또한, 나아가 디지털 음향 신호 부호화 방법은 각각의 짧은 변환 블록마다 산출한 입력 음향 신호의 지각 엔트로피를 산출하고 산출된 지각 엔트로피 프레임 내의 총화를 구하며 시간적으로 연속하는 2 개 프레임의 지각 엔트로피 프레임 내의 각 총화 차의 절대값과 미리 정해진 임계값을 비교하고 비교 결과에 근거하여 입력 음향 신호의 블록을 롱 블록 또는 쇼트 블록 중 어느 하나로 변환하는가를 판정한다. 또한 입력 음향 신호의 블록을 롱 블록 또는 쇼트 블록의 어느 것으로 변환하는가의 판정은 절대값이 임계값보다 큰 경우 시간적으로 연속하는 2 개의 프레임 중 시간적으로 뒤의 프레임을 쇼트 블록으로 변환한다고 판정하고, 작은 경우에 시간적으로 연속하는 2 개의 프레임 중 시간적으로 뒤의 프레임을 롱 블록으로 변환한다고 판정한다. 따라서 입력 음향 신호의 특성에 따른 롱/쇼트의 판정을 할 수 있는 디지털 음향 신호 부호화 방법을 제공할 수 있다.
또한, 다른 디지털 음향 신호 부호화 방법은 각각의 짧은 변환 블록마다 산출한 입력 음향 신호의 지각 엔트로피를 산출하고 산출된 지각 엔트로피 프레임 내의 총화를 구하며 시간적으로 연속하는 2 개 프레임의 지각 엔트로피 프레임 내의 각 총화 차의 절대값과 미리 정해진 임계값을 비교하고, 상기 절대값이 상기 임계값보다 큰 경우 시간적으로 연속하는 2 개의 프레임 중 시간적으로 뒤에 있는 프레임을 쇼트 블록으로 변환한다고 판정하고, 작은 경우에 판정 불가능이라고 판정한다. 따라서 입력 음향 신호의 특성을 보다 가일층 반영한 블록 변환 판정을 할 수 있는 디지털 음향 신호 부호화 방법을 제공할 수 있다.
나아가 본 발명의 디지털 음향 신호 부호화 방법을 실행하는 프로그램이 기록된 매체를 이용함으로써 기존의 시스템을 바꿈이 없이, 또한 부호화 시스템을구축하는 장치를 범용적으로 사용할 수 있다.

Claims (10)

  1. 디지털 음향 신호를 시간 축에 따라 입력하여 블록화하고 각 블록마다 서브 밴드 분할이나 주파수 영역으로의 변환 등 처리를 하고 이 음향 신호를 복수의 대역으로 분할하여 각 대역마다 부호화 비트를 할당하며 할당한 부호화 비트수에 따라 정규화 계수를 구하고 상기 음향 신호를 상기 정규화 계수로 양자화함으로써 압축 부호화하는 디지털 음향 신호 부호화 장치로, 상기 주파수 영역으로 변환을 할 때에 블록화한 상기 음향 신호를 1 개의 긴 변환 블록 또는 복수의 짧은 변환 블록의 어느 하나로 변환하고, 짧은 변환 블록을 이용하는 경우는 이 복수의 짧은 변환 블록을 각각 1 개 또는 복수의 짧은 변환 블록을 포함하는 바와 같은 복수의 블록으로 그룹화하며 동일 그룹 내에 포함되는 1 개 또는 복수의 짧은 변환 블록에는 공통의 정규화 계수를 대응시켜서 음향 신호를 양자화하는 디지털 음향 신호 부호화 장치에 있어서,
    각각의 짧은 변환 블록마다 산출한 입력 음향 신호의 지각 엔트로피를 산출하는 지각 엔트로피 산출 수단과,
    이 지각 엔트로피 산출 수단에 의해 산출된 지각 엔트로피의 프레임 내의 총화를 구하는 지각 엔트로피 총화 산출 수단과,
    시간적으로 연속하는 2 개 프레임의 지각 엔트로피 프레임 내의 각 총화 차의 절대값과 미리 정해진 임계값을 비교하는 비교 수단과,
    이 비교 수단에 의한 비교 결과에 근거하여 입력 음향 신호의 블록을 롱 블록 또는 쇼트 블록 중 어느 것으로 변환하는가를 판정하는 롱/쇼트 블록 판정 수단
    을 구비하는 것을 특징으로 하는 디지털 음향 신호 부호화 장치.
  2. 제1항에 있어서,
    상기 롱/쇼트 블록 판정 수단은 상기 비교 수단에 의한 비교 결과로 상기 절대값이 상기 임계값보다 큰 경우에 시간적으로 연속하는 2 개의 프레임 중 시간적으로 뒤의 프레임을 쇼트 블록으로 변환한다고 판정하고, 작은 경우에 시간적으로 연속하는 2 개의 프레임 중 시간적으로 뒤의 프레임을 롱 블록으로 변환한다고 판정하는 것을 특징으로 하는 디지털 음향 신호 부호화 장치.
  3. 디지털 음향 신호를 시간 축에 따라 입력하여 블록화하여 각 블록마다 서브 밴드 분할이나 주파수 영역으로의 변환 등 처리를 하고, 이 음향 신호를 복수의 대역으로 분할하여 각 대역마다 부호화 비트를 할당하여 할당한 부호화 비트수에 따라 정규화 계수를 구하며, 상기 음향 신호를 상기 정규화 계수로 양자화함으로써 압축 부호화하는 디지털 음향 신호 부호화 장치로, 상기 주파수 영역으로 변환을 할 때에 블록화한 상기 음향 신호를 1 개의 긴 변환 블록 또는 복수의 짧은 변환 블록의 어느 하나로 변환하고, 짧은 변환 블록을 이용하는 경우는 이 복수의 짧은 변환 블록을 각각 1 개 또는 복수의 짧은 변환 블록을 포함하는 바와 같은 복수의 블록으로 그룹화하며 동일 그룹 내에 포함되는 1 개 또는 복수의 짧은 변환 블록에는 공통의 정규화 계수를 대응시켜서 음향 신호를 양자화하는 디지털 음향 신호 부호화 장치에 있어서,
    각각의 짧은 변환 블록마다 산출한 입력 음향 신호의 지각 엔트로피를 산출하는 지각 엔트로피 산출 수단과,
    이 지각 엔트로피 산출 수단에 의해 산출된 지각 엔트로피 프레임 내의 총화를 구하는 지각 엔트로피 총화 산출 수단과,
    시간적으로 연속하는 2 개 프레임의 지각 엔트로피 프레임 내의 각 총화 차의 절대값과 미리 정해진 임계값을 비교하는 비교 수단과,
    이 비교 수단에 의한 비교 결과로 상기 절대값이 상기 임계값보다 큰 경우 시간적으로 연속하는 2 개의 프레임 중 시간적으로 뒤의 프레임을 쇼트 블록으로 변환한다고 판정하고, 작은 경우에 판정 불가능이라고 판정하는 판정수단
    을 구비하는 것을 특징으로 하는 디지털 음향 신호 부호화 장치.
  4. 제1항 내지 제 3항 중 어느 한 항에 있어서,
    상기 임계값은 입력 음향 신호의 샘플링 주파수마다 정한 값인 것을 특징으로 하는 디지털 음향 신호 부호화 장치.
  5. 디지털 음향 신호를 시간 축에 따라 입력하여 블록화하고 각 블록마다 서브 밴드 분할이나 주파수 영역으로의 변환 등 처리를 하고 이 음향 신호를 복수의 대역으로 분할하여 각 대역마다 부호화 비트를 할당하며 할당한 부호화 비트수에 따라 정규화 계수를 구하고 상기 음향 신호를 상기 정규화 계수로 양자화함으로써 압축 부호화하는 디지털 음향 신호 부호화 방법으로, 상기 주파수 영역으로 변환을 할 때에 블록화한 상기 음향 신호를 1 개의 긴 변환 블록 또는 복수의 짧은 변환 블록의 어느 하나로 변환하고, 짧은 변환 블록을 이용하는 경우는 이 복수의 짧은 변환 블록을 각각 1 개 또는 복수의 짧은 변환 블록을 포함하는 바와 같은 복수의 블록으로 그룹화하며 동일 그룹 내에 포함되는 1 개 또는 복수의 짧은 변환 블록에는 공통의 정규화 계수를 대응시켜서 음향 신호를 양자화하는 디지털 음향 신호 부호화 방법에 있어서,
    각각의 짧은 변환 블록마다 산출한 입력 음향 신호의 지각 엔트로피를 산출하고 산출된 지각 엔트로피 프레임 내의 총화를 구하며 시간적으로 연속하는 2 개 프레임의 지각 엔트로피 프레임 내의 각 총화 차의 절대값과 미리 정해진 임계값을 비교하고 비교 결과에 근거하여 입력 음향 신호의 블록을 롱 블록 또는 쇼트 블록의 어느 것으로 변환하는가를 판정함을 특징으로 하는 디지털 음향 신호 부호화 방법.
  6. 제5항에 있어서,
    입력 음향 신호의 블록을 롱 블록 또는 쇼트 블록의 어느 것으로 변환하는가의 판정 은 상기 절대값이 상기 임계값보다 큰 경우 시간적으로 연속하는 2 개의 프레임 중 시간적으로 뒤의 프레임을 쇼트 블록으로 변환한다고 판정하고, 작은 경우 시간적으로 연속하는 2 개의 프레임 중 시간적으로 뒤의 프레임을 롱 블록으로 변환한다고 판정하는 것을 특징으로 하는 디지털 음향 신호 부호화 방법.
  7. 디지털 음향 신호를 시간 축에 따라 입력하여 블록화하고 각 블록마다 서브 밴드 분할이나 주파수 영역으로의 변환 등 처리를 하고 이 음향 신호를 복수의 대역으로 분할하여 각 대역마다 부호화 비트를 할당하며 할당한 부호화 비트수에 따라 정규화 계수를 구하고 상기 음향 신호를 상기 정규화 계수로 양자화함으로써 압축 부호화하는 디지털 음향 신호 부호화 방법으로, 상기 주파수 영역으로 변환을 할 때에 블록화한 상기 음향 신호를 1 개의 긴 변환 블록 또는 복수의 짧은 변환 블록의 어느 하나로 변환하고, 짧은 변환 블록을 이용하는 경우는 이 복수의 짧은 변환 블록을 각각 1 개 또는 복수의 짧은 변환 블록을 포함하는 바와 같은 복수의 블록으로 그룹화하며 동일 그룹 내에 포함되는 1 개 또는 복수의 짧은 변환 블록에는 공통의 정규화 계수를 대응시켜서 음향 신호를 양자화하는 디지털 음향 신호 부호화 방법에 있어서,
    각각의 짧은 변환 블록마다 산출한 입력 음향 신호의 지각 엔트로피를 산출하고 산출된 지각 엔트로피 프레임 내의 총화를 구하며 시간적으로 연속하는 2 개 프레임의 지각 엔트로피 프레임 내의 각 총화 차의 절대값과 미리 정해진 임계값을 비교하고, 상기 절대값이 상기 임계값보다 큰 경우 시간적으로 연속하는 2 개의 프레임 중 시간적으로 뒤에 있는 프레임을 쇼트 블록으로 변환한다고 판정하고, 작은 경우 판정 불가능이라고 판정하는 것을 특징으로 하는 디지털 음향 신호 부호화 방법.
  8. 상기 임계값은 입력 음향 신호의 샘플링 주파수 마다 정해진 값인 제5항 내지 제7항 중 어느 한 항에 기재한 음향 신호 부호화 방법.
  9. 컴퓨터에 의해 디지털 음향 신호를 시간 축에 따라 입력하여 블록화하고 각 블록마다 서브 밴드 분할이나 주파수 영역으로의 변환 등 처리를 하고 이 음향 신호를 복수의 대역으로 분할하여 각 대역마다 부호화 비트를 할당하며 할당한 부호화 비트수에 따라 정규화 계수를 구하고 상기 음향 신호를 상기 정규화 계수로 양자화함으로써 압축 부호화하는 디지털 음향 신호 부호화 방법으로, 상기 주파수 영역으로 변환을 할 때에 블록화한 상기 음향 신호를 1 개의 긴 변환 블록 또는 복수의 짧은 변환 블록의 어느 하나로 변환하고, 짧은 변환 블록을 이용하는 경우는 이 복수의 짧은 변환 블록을 각각 1 개 또는 복수의 짧은 변환 블록을 포함하는 바와 같은 복수의 블록으로 그룹화하며 동일 그룹 내에 포함되는 1 개 또는 복수의 짧은 변환 블록에는 공통의 정규화 계수를 대응시켜서 음향 신호를 양자화하도록 실행하는 디지털 음향 신호 부호화 프로그램을 기록한 매체에 있어서,
    각각의 짧은 변환 블록마다 산출한 입력 음향 신호의 지각 엔트로피를 산출하고 산출된 지각 엔트로피 프레임 내의 총화를 구하며 시간적으로 연속하는 2 개 프레임의 지각 엔트로피 프레임 내의 각 총화 차의 절대값과 미리 정해진 임계값을 비교하고 비교 결과에 근거하여 입력 음향 신호의 블록을 롱 블록 또는 쇼트 블록 중 어느 하나로 변환하는가를 판정하는 기능을 구비하는 디지털 음향 신호 부호화 프로그램을 기록한 매체.
  10. 컴퓨터에 의해 디지털 음향 신호를 시간 축에 따라 입력하여 블록화하고 각 블록마다 서브 밴드 분할이나 주파수 영역으로의 변환 등 처리를 하고 이 음향 신호를 복수의 대역으로 분할하여 각 대역마다 부호화 비트를 할당하며 할당한 부호화 비트수에 따라 정규화 계수를 구하고 상기 음향 신호를 상기 정규화 계수로 양자화함으로써 압축 부호화하는 디지털 음향 신호 부호화 방법으로, 상기 주파수 영역으로 변환을 할 때에 블록화한 상기 음향 신호를 1 개의 긴 변환 블록 또는 복수의 짧은 변환 블록의 어느 하나로 변환하고, 짧은 변환 블록을 이용하는 경우는 이 복수의 짧은 변환 블록을 각각 1 개 또는 복수의 짧은 변환 블록을 포함하는 바와 같은 복수의 블록으로 그룹화하며 동일 그룹 내에 포함되는 1 개 또는 복수의 짧은 변환 블록에는 공통의 정규화 계수를 대응시켜서 음향 신호를 양자화하도록 실행하는 디지털 음향 신호 부호화 프로그램을 기록한 매체에 있어서,
    각각의 짧은 변환 블록마다 산출한 입력 음향 신호의 지각 엔트로피를 산출하고 산출된 지각 엔트로피 프레임 내의 총화를 구하며 시간적으로 연속하는 2 개 프레임의 지각 엔트로피 프레임 내의 각 총화 차의 절대값과 미리 정해진 임계값을 비교하고, 상기 절대값이 상기 임계값보다 큰 경우에 시간적으로 연속하는 2 개의 프레임 중 시간적으로 뒤에 있는 프레임을 쇼트 블록으로 변환한다고 판정하고, 작은 경우에 판정 불가능이라고 판정하는 기능을 구비하는 디지털 음향 신호 부호화 프로그램을 기록한 매체.
KR1020000045308A 1999-08-05 2000-08-04 디지털 음향 신호 부호화 장치, 디지털 음향 신호 부호화방법 및 디지털 음향 신호 부호화 프로그램을 기록한 매체 KR100348368B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP99-222054 1999-08-05
JP22205499A JP3762579B2 (ja) 1999-08-05 1999-08-05 デジタル音響信号符号化装置、デジタル音響信号符号化方法及びデジタル音響信号符号化プログラムを記録した媒体

Publications (2)

Publication Number Publication Date
KR20010021226A true KR20010021226A (ko) 2001-03-15
KR100348368B1 KR100348368B1 (ko) 2002-08-10

Family

ID=16776386

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020000045308A KR100348368B1 (ko) 1999-08-05 2000-08-04 디지털 음향 신호 부호화 장치, 디지털 음향 신호 부호화방법 및 디지털 음향 신호 부호화 프로그램을 기록한 매체

Country Status (6)

Country Link
US (1) US6799164B1 (ko)
EP (1) EP1074976B1 (ko)
JP (1) JP3762579B2 (ko)
KR (1) KR100348368B1 (ko)
DE (1) DE60015030T2 (ko)
ES (1) ES2231090T3 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101247011B1 (ko) * 2005-08-12 2013-03-25 마이크로소프트 코포레이션 넓은 범위 계수의 적응형 코딩 및 디코딩

Families Citing this family (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7006555B1 (en) 1998-07-16 2006-02-28 Nielsen Media Research, Inc. Spectral audio encoding
US7035873B2 (en) 2001-08-20 2006-04-25 Microsoft Corporation System and methods for providing adaptive media property classification
US7065416B2 (en) * 2001-08-29 2006-06-20 Microsoft Corporation System and methods for providing automatic classification of media entities according to melodic movement properties
US7532943B2 (en) * 2001-08-21 2009-05-12 Microsoft Corporation System and methods for providing automatic classification of media entities according to sonic properties
WO2002056297A1 (en) * 2001-01-11 2002-07-18 Sasken Communication Technologies Limited Adaptive-block-length audio coder
JP4141235B2 (ja) * 2002-02-08 2008-08-27 株式会社リコー 画像補正装置及びプログラム
US20030215013A1 (en) * 2002-04-10 2003-11-20 Budnikov Dmitry N. Audio encoder with adaptive short window grouping
US7426462B2 (en) * 2003-09-29 2008-09-16 Sony Corporation Fast codebook selection method in audio encoding
US7283968B2 (en) * 2003-09-29 2007-10-16 Sony Corporation Method for grouping short windows in audio encoding
US7349842B2 (en) * 2003-09-29 2008-03-25 Sony Corporation Rate-distortion control scheme in audio encoding
US7325023B2 (en) 2003-09-29 2008-01-29 Sony Corporation Method of making a window type decision based on MDCT data in audio encoding
US7516064B2 (en) * 2004-02-19 2009-04-07 Dolby Laboratories Licensing Corporation Adaptive hybrid transform for signal analysis and synthesis
DE102004009949B4 (de) * 2004-03-01 2006-03-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Ermitteln eines Schätzwertes
US7436969B2 (en) * 2004-09-02 2008-10-14 Hewlett-Packard Development Company, L.P. Method and system for optimizing denoising parameters using compressibility
US7627481B1 (en) 2005-04-19 2009-12-01 Apple Inc. Adapting masking thresholds for encoding a low frequency transient signal in audio data
JP5118022B2 (ja) 2005-05-26 2013-01-16 エルジー エレクトロニクス インコーポレイティド オーディオ信号の符号化/復号化方法及び符号化/復号化装置
EP1913578B1 (en) 2005-06-30 2012-08-01 LG Electronics Inc. Method and apparatus for decoding an audio signal
US7411528B2 (en) 2005-07-11 2008-08-12 Lg Electronics Co., Ltd. Apparatus and method of processing an audio signal
WO2007055462A1 (en) 2005-08-30 2007-05-18 Lg Electronics Inc. Apparatus for encoding and decoding audio signal and method thereof
WO2007040358A1 (en) 2005-10-05 2007-04-12 Lg Electronics Inc. Method and apparatus for signal processing and encoding and decoding method, and apparatus therefor
US7646319B2 (en) 2005-10-05 2010-01-12 Lg Electronics Inc. Method and apparatus for signal processing and encoding and decoding method, and apparatus therefor
US7672379B2 (en) 2005-10-05 2010-03-02 Lg Electronics Inc. Audio signal processing, encoding, and decoding
US7696907B2 (en) 2005-10-05 2010-04-13 Lg Electronics Inc. Method and apparatus for signal processing and encoding and decoding method, and apparatus therefor
KR100878828B1 (ko) * 2005-10-05 2009-01-14 엘지전자 주식회사 신호 처리 방법 및 이의 장치, 그리고 인코딩 및 디코딩방법 및 이의 장치
US7653533B2 (en) 2005-10-24 2010-01-26 Lg Electronics Inc. Removing time delays in signal paths
JP2007183528A (ja) * 2005-12-06 2007-07-19 Fujitsu Ltd 符号化装置、符号化方法、および符号化プログラム
US7752053B2 (en) 2006-01-13 2010-07-06 Lg Electronics Inc. Audio signal processing using pilot based coding
US20090144054A1 (en) * 2007-11-30 2009-06-04 Kabushiki Kaisha Toshiba Embedded system to perform frame switching
US9313359B1 (en) 2011-04-26 2016-04-12 Gracenote, Inc. Media content identification on mobile devices
US11706481B2 (en) 2012-02-21 2023-07-18 Roku, Inc. Media content identification on mobile devices
EP2830065A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for decoding an encoded audio signal using a cross-over filter around a transition frequency
WO2016142002A1 (en) 2015-03-09 2016-09-15 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder, method for encoding an audio signal and method for decoding an encoded audio signal
US9943253B2 (en) * 2015-03-20 2018-04-17 Innovo IP, LLC System and method for improved audio perception
WO2019007969A1 (en) * 2017-07-03 2019-01-10 Dolby International Ab DETECTION AND CODING OF LOW COMPLEXITY DENSED TRANSIENT EVENTS
JP7257975B2 (ja) * 2017-07-03 2023-04-14 ドルビー・インターナショナル・アーベー 密集性の過渡事象の検出及び符号化の複雑さの低減
US10922139B2 (en) 2018-10-11 2021-02-16 Visa International Service Association System, method, and computer program product for processing large data sets by balancing entropy between distributed data segments

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0559348A3 (en) * 1992-03-02 1993-11-03 AT&T Corp. Rate control loop processor for perceptual encoder/decoder
EP0720316B1 (en) * 1994-12-30 1999-12-08 Daewoo Electronics Co., Ltd Adaptive digital audio encoding apparatus and a bit allocation method thereof
EP0721257B1 (en) * 1995-01-09 2005-03-30 Daewoo Electronics Corporation Bit allocation for multichannel audio coder based on perceptual entropy
US5699479A (en) * 1995-02-06 1997-12-16 Lucent Technologies Inc. Tonality for perceptual audio compression based on loudness uncertainty
GB9819920D0 (en) * 1998-09-11 1998-11-04 Nds Ltd Audio encoding system

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101247011B1 (ko) * 2005-08-12 2013-03-25 마이크로소프트 코포레이션 넓은 범위 계수의 적응형 코딩 및 디코딩

Also Published As

Publication number Publication date
KR100348368B1 (ko) 2002-08-10
US6799164B1 (en) 2004-09-28
EP1074976A3 (en) 2001-06-27
DE60015030D1 (de) 2004-11-25
DE60015030T2 (de) 2005-11-10
JP3762579B2 (ja) 2006-04-05
EP1074976A2 (en) 2001-02-07
EP1074976B1 (en) 2004-10-20
JP2001053617A (ja) 2001-02-23
ES2231090T3 (es) 2005-05-16

Similar Documents

Publication Publication Date Title
KR100348368B1 (ko) 디지털 음향 신호 부호화 장치, 디지털 음향 신호 부호화방법 및 디지털 음향 신호 부호화 프로그램을 기록한 매체
US6456963B1 (en) Block length decision based on tonality index
US7899677B2 (en) Adapting masking thresholds for encoding a low frequency transient signal in audio data
KR100304055B1 (ko) 음성 신호 부호화동안 잡음 대체를 신호로 알리는 방법
US8612215B2 (en) Method and apparatus to extract important frequency component of audio signal and method and apparatus to encode and/or decode audio signal using the same
JP3131542B2 (ja) 符号化復号化装置
EP1734511A2 (en) Entropy coding by adapting coding between level and run-length/level modes
US20070016404A1 (en) Method and apparatus to extract important spectral component from audio signal and low bit-rate audio signal coding and/or decoding method and apparatus using the same
WO1998000837A1 (fr) Procedes de codage et de decodage de signaux audio, et codeur et decodeur de signaux audio
JP2006011456A (ja) 低ビット率符号化/復号化方法及び装置並びにコンピュータ可読媒体
US6772111B2 (en) Digital audio coding apparatus, method and computer readable medium
US8149927B2 (en) Method of and apparatus for encoding/decoding digital signal using linear quantization by sections
KR100695125B1 (ko) 디지털 신호 부호화/복호화 방법 및 장치
US7583804B2 (en) Music information encoding/decoding device and method
KR100750115B1 (ko) 오디오 신호 부호화 및 복호화 방법 및 그 장치
JP3353868B2 (ja) 音響信号変換符号化方法および復号化方法
US6128593A (en) System and method for implementing a refined psycho-acoustic modeler
JP3813025B2 (ja) デジタル音響信号符号化装置、デジタル音響信号符号化方法及びデジタル音響信号符号化プログラムを記録した媒体
JPH0918348A (ja) 音響信号符号化装置及び音響信号復号装置
JP2001109497A (ja) オーディオ信号符号化装置およびオーディオ信号符号化方法
JP3389849B2 (ja) 量子化装置
JPH0746137A (ja) 音声高能率符号化装置
JP2000206990A (ja) デジタル音響信号符号化装置、デジタル音響信号符号化方法及びデジタル音響信号符号化プログラムを記録した媒体
Absar et al. AC-3 Encoder Implementation on the D950 DSP-Core
JP2000276198A (ja) デジタル音響信号符号化装置、デジタル音響信号符号化方法及びデジタル音響信号符号化プログラムを記録した媒体

Legal Events

Date Code Title Description
A201 Request for examination
PA0109 Patent application

Patent event code: PA01091R01D

Comment text: Patent Application

Patent event date: 20000804

PA0201 Request for examination
PG1501 Laying open of application
E701 Decision to grant or registration of patent right
PE0701 Decision of registration

Patent event code: PE07011S01D

Comment text: Decision to Grant Registration

Patent event date: 20020429

GRNT Written decision to grant
PR0701 Registration of establishment

Comment text: Registration of Establishment

Patent event date: 20020729

Patent event code: PR07011E01D

PR1002 Payment of registration fee

Payment date: 20020730

End annual number: 3

Start annual number: 1

PG1601 Publication of registration
PR1001 Payment of annual fee

Payment date: 20050722

Start annual number: 4

End annual number: 4

PR1001 Payment of annual fee

Payment date: 20060725

Start annual number: 5

End annual number: 5

PR1001 Payment of annual fee

Payment date: 20070723

Start annual number: 6

End annual number: 6

PR1001 Payment of annual fee

Payment date: 20080721

Start annual number: 7

End annual number: 7

PR1001 Payment of annual fee

Payment date: 20090724

Start annual number: 8

End annual number: 8

PR1001 Payment of annual fee

Payment date: 20100721

Start annual number: 9

End annual number: 9

FPAY Annual fee payment

Payment date: 20110727

Year of fee payment: 10

PR1001 Payment of annual fee

Payment date: 20110727

Start annual number: 10

End annual number: 10

LAPS Lapse due to unpaid annual fee
PC1903 Unpaid annual fee