다음은 첨부 도면들을 참조하여 본 출원의 기술적 해결책을 설명한다.
본 출원의 실시예들에서 스테레오 신호 인코딩 동안 신호를 재구성하기 위한 방법의 이해를 용이하게 하기 위해, 이하에서는 먼저 도 1 및 도 2를 참조하여 시간 도메인 스테레오 인코딩/디코딩 방법의 전체 인코딩/디코딩 프로세스를 일반적으로 설명한다.
본 출원에서의 스테레오 신호는 원시 스테레오 신호, 다중 채널 신호에 포함된 2개의 신호를 포함하는 스테레오 신호, 또는 다중 채널 신호에 포함된 복수의 신호에 의해 공동으로 생성된 2개의 신호를 포함하는 스테레오 신호일 수 있다는 점이 이해되어야 한다. 스테레오 신호 인코딩 방법은 또한 다중 채널 신호 인코딩 방법에서 사용되는 스테레오 신호 인코딩 방법일 수 있다.
도 1은 시간 도메인 스테레오 인코딩 방법의 개략적인 흐름도이다. 인코딩 방법(100)은 구체적으로 다음의 단계들을 포함한다.
110. 인코더 측은 스테레오 신호의 채널 간 시간차를 추정하여, 스테레오 신호의 채널 간 시간차를 획득한다.
스테레오 신호는 좌측 사운드 채널 신호 및 우측 사운드 채널 신호를 포함한다. 스테레오 신호의 채널 간 시간차는 좌측 사운드 채널 신호와 우측 사운드 채널 신호 사이의 시간 차이이다.
120. 추정을 통해 획득된 채널 간 시간차에 기초하여 좌측 사운드 채널 신호 및 우측 사운드 채널 신호에 대해 지연 정렬 처리를 수행한다.
130. 스테레오 신호의 채널 간 시간차를 인코딩하여 채널 간 시간차의 인코딩 인덱스를 획득하고, 인코딩 인덱스를 스테레오 인코딩된 비트스트림에 기입한다.
140. 사운드 채널 조합 비 인자(sound channel combination ratio factor)를 결정하고, 사운드 채널 조합 비 인자를 인코딩하여 사운드 채널 조합 비 인자의 인코딩 인덱스를 획득하고, 인코딩 인덱스를 스테레오 인코딩된 비트스트림에 기입한다.
150. 사운드 채널 조합 비 인자에 기초하여, 지연 정렬 처리 후에 획득되는 좌측 사운드 채널 신호 및 우측 사운드 채널 신호에 대한 시간 도메인 다운믹싱 처리를 수행된다.
160. 다운믹싱 처리 후에 획득된 주 사운드 채널 신호 및 보조 사운드 채널 신호를 별도로 인코딩하여, 주 사운드 채널 신호 및 보조 사운드 채널 신호를 포함하는 비트스트림을 획득하고, 비트스트림을 스테레오 인코딩된 비트스트림에 기입한다.
도 2는 시간 도메인 스테레오 디코딩 방법의 개략적인 흐름도이다. 디코딩 방법(200)은 구체적으로 다음의 단계들을 포함한다.
210. 수신된 비트스트림에 기초한 디코딩을 통해 주 사운드 채널 신호 및 보조 사운드 채널 신호를 획득한다.
단계(210)에서의 비트스트림은 인코더 측으로부터 디코더 측에 의해 수신될 수 있다. 또한, 단계(210)은 주 사운드 채널 신호 및 보조 사운드 채널 신호를 개별적으로 디코딩하여 주 사운드 채널 신호 및 보조 사운드 채널 신호를 획득하는 것과 동등하다.
220. 수신된 비트스트림에 기초한 디코딩을 통해 사운드 채널 조합 비 인자를 획득한다.
230. 사운드 채널 조합 비 인자에 기초하여 주 사운드 채널 신호 및 보조 사운드 채널 신호에 대해 시간 도메인 업믹싱(upmixing) 처리를 수행하여, 시간 도메인 업믹싱 처리 후에 획득된 재구성된 좌측 사운드 채널 신호 및 재구성된 우측 사운드 채널 신호를 획득한다.
240. 수신된 비트스트림에 기초한 디코딩을 통해 채널 간 시간차를 획득한다.
250. 채널 간 시간차에 기초하여, 시간 도메인 업믹싱 처리 후에 획득된 재구성된 좌측 사운드 채널 신호 및 재구성된 우측 사운드 채널 신호에 대한 지연 조절을 수행하여 디코딩된 스테레오 신호를 획득한다.
지연 정렬 처리 프로세스(예를 들어, 단계 120)에서, 나중의 도착 시간을 갖는 타겟 사운드 채널이 채널 간 시간차에 기초하여 조절되어 참조 사운드 채널과 동일한 지연을 갖는 경우, 타겟 사운드 채널상의 전방향 신호는 지연 정렬 처리 동안 수동으로 재구성될 필요가 있다. 또한, 타겟 사운드 채널상의 실제 신호와 타겟 사운드 채널상의 재구성된 전방향 신호 사이의 전이의 평활도를 개선하기 위해, 현재 프레임에서의 타겟 사운드 채널상의 실제 신호와 수동으로 재구성된 전방향 신호 사이에 전이 세그먼트 신호가 생성된다. 기존 해결책에서, 현재 프레임에서의 전이 세그먼트 신호는 보통은 현재 프레임에서의 채널 간 시간차, 현재 프레임에서의 전이 세그먼트의 초기 길이, 현재 프레임에서의 전이 윈도우 함수, 현재 프레임에서의 이득 수정 인자, 및 현재 프레임에서의 참조 사운드 채널 신호 및 타겟 사운드 채널 신호에 기초하여 결정된다. 그러나, 전이 세그먼트의 초기 길이는 고정되고, 채널 간 시간차의 상이한 값들에 기초하여 유연하게 조절될 수 없다. 따라서, 타겟 사운드 채널상의 실제 신호와 수동으로 재구성된 전방향 신호 사이의 매끄러운 전이는 기존 해결책에 따라 생성되는 전이 세그먼트 신호로 인해 잘 구현될 수 없다(다시 말해서, 타겟 사운드 채널상의 실제 신호와 수동으로 재구성된 전방향 신호 사이의 전이의 평활도는 비교적 불량하다).
본 출원은 스테레오 인코딩 동안 신호를 재구성하기 위한 방법을 제안한다. 이 방법에서, 전이 세그먼트 신호는 전이 세그먼트의 적응 길이를 사용하여 생성되고, 전이 세그먼트의 적응 길이는 현재 프레임의 채널 간 시간차 및 전이 세그먼트의 초기 길이를 고려함으로써 결정된다. 따라서, 본 출원에 따라 생성된 전이 세그먼트 신호는 현재 프레임에서의 타겟 사운드 채널상의 실제 신호와 수동으로 재구성된 전방향 신호 사이의 전이의 평활도를 향상시키기 위해 사용될 수 있다.
도 3은 본 출원의 실시예에 따라 스테레오 신호 인코딩 동안 신호를 재구성하기 위한 방법의 개략적인 흐름도이다. 방법(300)은 인코더 측에 의해 수행될 수 있다. 인코더 측은 스테레오 신호 인코딩 기능을 갖는 인코더 또는 디바이스일 수 있다. 방법(300)은 구체적으로 다음의 단계들을 포함한다.
310. 현재 프레임에서 참조 사운드 채널 및 타겟 사운드 채널을 결정한다.
방법(300)을 이용하여 처리되는 스테레오 신호는 좌측 사운드 채널 신호 및 우측 사운드 채널 신호를 포함한다는 점이 이해되어야 한다.
선택적으로, 현재 프레임에서의 참조 사운드 채널 및 타겟 사운드 채널이 결정될 때, 나중의 도착 시간을 갖는 사운드 채널이 타겟 사운드 채널로서 결정될 수 있고, 더 이른 도착 시간을 갖는 다른 사운드 채널이 참조 사운드 채널로서 결정된다. 예를 들어, 좌측 사운드 채널의 도착 시간이 우측 사운드 채널의 도착 시간보다 늦는 경우, 좌측 사운드 채널은 타겟 사운드 채널로서 결정될 수 있고, 우측 사운드 채널은 참조 사운드 채널로서 결정될 수 있다.
선택적으로, 현재 프레임에서의 참조 사운드 채널 및 타겟 사운드 채널은 현재 프레임에서의 채널 간 시간차에 기초하여 결정될 수 있고, 특정 결정 프로세스는 다음과 같이 설명된다:
먼저, 현재 프레임에서의 추정을 통해 획득된 채널 간 시간차가 현재 프레임에서의 채널 간 시간차 cur_itd로서 사용된다.
그 후, 현재 프레임에서의 타겟 사운드 채널 및 참조 사운드 채널은 현재 프레임에서의 채널 간 시간차와 현재 프레임의 이전 프레임에서의 채널 간 시간차(prev_itd로서 표시됨) 간의 비교의 결과에 의존하여 결정된다. 구체적으로, 이하의 3 가지 사례가 포함될 수 있다.
사례 1:
cur_itd=0인 경우, 현재 프레임에서의 타겟 사운드 채널은 이전 프레임에서의 타겟 사운드 채널과 일치하게 유지되고, 현재 프레임에서의 참조 사운드 채널은 이전 프레임에서의 참조 사운드 채널과 일치하게 유지된다.
예를 들어, 현재 프레임에서의 타겟 사운드 채널의 인덱스가 target_idx로 표시되고, 현재 프레임의 이전 프레임에서의 타겟 사운드 채널의 인덱스가 prev_target_idx로 표시되는 경우, 현재 프레임에서의 타겟 사운드 채널의 인덱스는 이전 프레임에서의 타겟 사운드 채널의 인덱스와 동일한데, 즉 target_idx = prev_target_idx이다.
사례 2:
cur_itd < 0인 경우, 현재 프레임에서의 타겟 사운드 채널은 좌측 사운드 채널이고, 현재 프레임에서의 참조 사운드 채널은 우측 사운드 채널이다.
예를 들어, 현재 프레임에서의 타겟 사운드 채널의 인덱스가 target_idx로 표시되는 경우, target_idx=0이다(0인 인덱스 번호는 타겟 사운드 채널이 좌측 사운드 채널인 것을 나타내고, 1인 인덱스 번호는 타겟 사운드 채널이 우측 사운드 채널인 것을 나타낸다).
사례 3:
cur_itd > 0인 경우, 현재 프레임에서의 타겟 사운드 채널은 우측 사운드 채널이고, 현재 프레임에서의 참조 사운드 채널은 좌측 사운드 채널이다.
예를 들어, 현재 프레임에서의 타겟 사운드 채널의 인덱스가 target_idx로 표시되는 경우, target_idx=1이다(0인 인덱스 번호는 타겟 사운드 채널이 좌측 사운드 채널인 것을 나타내고, 1인 인덱스 번호는 타겟 사운드 채널이 우측 사운드 채널인 것을 나타낸다).
현재 프레임에서의 채널 간 시간차 cur_itd는 좌측 사운드 채널 신호와 우측 사운드 채널 신호 사이의 채널 간 시간차를 추정함으로써 획득될 수 있다는 것을 이해해야 한다. 채널 간 시간차가 추정될 때, 좌측 사운드 채널과 우측 사운드 채널 사이의 교차-상관 계수(cross-correlation coefficient)가 현재 프레임에서의 좌측 사운드 채널 신호 및 우측 사운드 채널 신호에 기초하여 계산될 수 있고, 이어서 교차-상관 계수의 최대값에 대응하는 인덱스 값이 현재 프레임에서의 채널 간 시간차로서 사용된다.
320. 현재 프레임에서의 채널 간 시간차 및 현재 프레임에서의 전이 세그먼트의 초기 길이에 기초하여 현재 프레임에서의 전이 세그먼트의 적응 길이를 결정한다.
선택적으로, 실시예에서, 현재 프레임에서의 채널 간 시간차 및 현재 프레임에서의 전이 세그먼트의 초기 길이에 기초하여 현재 프레임에서의 전이 세그먼트의 적응 길이를 결정하는 단계는: 현재 프레임에서의 채널 간 시간차의 절대값이 현재 프레임에서의 전이 세그먼트의 초기 길이 이상일 때, 현재 프레임에서의 전이 세그먼트의 초기 길이를 현재 프레임에서의 전이 세그먼트의 적응 길이로서 결정하는 단계; 또는 현재 프레임에서의 채널 간 시간차의 절대값이 현재 프레임에서의 전이 세그먼트의 초기 길이보다 작을 때, 현재 프레임에서의 채널 간 시간차의 절대값을 전이 세그먼트의 적응 길이로서 결정하는 단계를 포함한다.
현재 프레임에서의 채널 간 시간차의 절대값이 현재 프레임에서의 전이 세그먼트의 초기 길이보다 작을 때, 현재 프레임에서의 채널 간 시간차와 현재 프레임에서의 전이 세그먼트의 초기 길이 사이의 비교의 결과에 의존하여, 전이 세그먼트의 길이가 적절하게 감소될 수 있고, 현재 프레임에서의 전이 세그먼트의 적응 길이가 적절하게 결정되고, 추가로 적응 길이를 갖는 전이 윈도우가 결정된다. 이러한 방식으로, 현재 프레임에서의 타겟 사운드 채널상의 수동으로 재구성된 전방향 신호와 실제 신호 사이의 전이는 더 평활해진다.
구체적으로, 전이 세그먼트의 적응 길이는 다음의 수학식 1을 만족한다. 따라서, 전이 세그먼트의 적응 길이는 수학식 1에 따라 결정될 수 있다.
cur_itd는 현재 프레임에서의 채널 간 시간차를 나타내고, abs(cur_itd)는 현재 프레임에서의 채널 간 시간차의 절대값을 나타내고, Ts2는 전이 세그먼트의 미리 설정된 초기 길이를 나타내고, 여기서 전이 세그먼트의 초기 길이는 미리 설정된 양의 정수일 수 있다. 예를 들어, 샘플링 레이트가 16kHz일 때, Ts2는 10에 설정된다.
또한, 상이한 샘플링 레이트들과 관련하여, Ts2는 동일한 값 또는 상이한 값들에 설정될 수 있다.
단계(310)에 이어서 설명된 현재 프레임에서의 채널 간 시간차와 단계(320)에서 설명된 현재 프레임에서의 채널 간 시간차는 좌측 사운드 채널 신호와 우측 사운드 채널 신호 사이의 채널 간 시간차를 추정함으로써 획득될 수 있다는 것을 이해해야 한다.
채널 간 시간차가 추정될 때, 좌측 사운드 채널과 우측 사운드 채널 사이의 교차-상관 계수가 현재 프레임에서 좌측 사운드 채널 신호 및 우측 사운드 채널 신호에 기초하여 계산될 수 있고, 이어서 교차 상관 계수의 최대값에 대응하는 인덱스 값이 현재 프레임에서의 채널 간 시간차로서 사용된다.
구체적으로, 채널 간 시간차는 예 1 내지 예 3에서의 방식들로 추정될 수 있다.
예 1:
현재의 샘플링 레이트에서, 채널 간 시간차의 최대값 및 최소값은 제각기
및
이며, 여기서
및
은 미리 설정된 실수들이고,
이다. 따라서, 좌측 사운드 채널과 우측 사운드 채널 간의 교차-상관 계수의 최대값은 채널 간 시간차의 최대값과 최소값 사이에 대해 검색된다. 마지막으로, 좌측 사운드 채널과 우측 사운드 채널 사이의 교차-상관 계수의 발견된 최대값에 대응하는 인덱스 값이 현재 프레임에서의 채널 간 시간차로서 결정된다. 예를 들어,
및
의 값들은 40 및 -40일 수 있다. 따라서, 좌측 사운드 채널과 우측 사운드 채널 사이의 교차 상관 계수의 최대값은 -40≤i≤40의 범위에 대해 검색된다. 그 후, 교차-상관 계수의 최대값에 대응하는 인덱스 값이 현재 프레임에서의 채널 간 시간차로서 사용된다.
예 2:
현재의 샘플링 레이트에서, 채널 간 시간차의 최대값 및 최소값은
및
이고, 여기서
및
은 미리 설정된 실수들이고,
이다. 따라서, 좌측 사운드 채널과 우측 사운드 채널 사이의 교차-상관 함수는 현재 프레임에서의 좌측 사운드 채널 신호 및 우측 사운드 채널 신호에 기초하여 계산될 수 있다. 그 후, 평활도 처리는, 현재 프레임 이전의 L개의 프레임(여기서 L은 1 이상의 정수임)에서의 좌측 사운드 채널과 우측 사운드 채널 사이의 교차-상관 함수에 따라 현재 프레임에서의 좌측 사운드 채널과 우측 사운드 채널 사이의 계산된 교차-상관 함수에 대해 수행되어, 평활도 처리 후에 획득된 좌측 사운드 채널과 우측 사운드 채널 사이의 교차-상관 함수를 획득한다. 다음으로, 평활도 처리 후에 획득된 좌측 사운드 채널과 우측 사운드 채널 사이의 교차-상관 함수의 최대값이
의 범위에 대해 검색되고, 최대값에 대응하는 인덱스 값 i가 현재 프레임에서의 채널 간 시간차로서 사용된다.
예 3:
현재 프레임에서의 채널 간 시간차가 예 1 또는 예 2에 따라 추정된 후에, 프레임 간 평활도 처리가 현재 프레임 이전의 M개의 프레임(여기서 M은 1 이상의 정수)에서의 채널 간 시간차들 및 현재 프레임에서의 추정된 채널 간 시간차에 대해 수행되고, 평활도 처리 후에 획득된 채널 간 시간차가 현재 프레임에서의 최종 채널 간 시간차로서 사용된다.
시간 차가 좌측 사운드 채널 신호와 우측 사운드 채널 신호(여기서의 좌측 사운드 채널 신호 및 우측 사운드 채널 신호는 시간 도메인 신호들임) 사이에서 추정되기 전에, 시간 도메인 전처리가 현재 프레임에서의 좌측 사운드 채널 신호 및 우측 사운드 채널 신호에 대해 수행될 수 있다는 점이 이해되어야 한다.
구체적으로, 현재 프레임에서의 좌측 사운드 채널 신호 및 우측 사운드 채널 신호에 대해 고역 통과 필터링 처리가 수행되어, 현재 프레임에서의 전처리된 좌측 사운드 채널 신호 및 전처리된 좌측 사운드 채널 신호를 획득할 수 있다. 또한, 여기서의 시간 도메인 전처리는 고역 통과 필터링 처리에 더하여 프리 엠퍼시스(pre-emphasis) 처리와 같은 다른 처리일 수 있다.
예를 들어, 스테레오 오디오 신호의 샘플링 레이트가 16kHz이고, 신호의 각각의 프레임이 20ms인 경우, 프레임 길이는 N=320 이고, 즉, 각각의 프레임은 320개의 샘플링 포인트를 포함한다. 현재 프레임에서의 스테레오 신호는 현재 프레임에서의 좌측 채널 시간 도메인 신호
및 현재 프레임에서의 우측 채널 시간 도메인 신호
를 포함하고, 여기서 n은 샘플링 포인트 번호를 나타내고, n = 0,1,..., 및 N-1 이다. 이어서, 현재 프레임에서의 좌측 채널 시간 도메인 신호
및 현재 프레임에서의 우측 채널 시간 도메인 신호
에 대해 시간 도메인 전처리가 수행되어, 현재 프레임에서의 전처리된 좌측 채널 시간 도메인 신호
및 현재 프레임에서의 전처리된 우측 채널 시간 도메인 신호
를 획득한다.
현재 프레임에서의 좌측 채널 시간 도메인 신호 및 우측 채널 시간 도메인 신호에 대해 시간 도메인 전처리를 수행하는 것은 필수적 단계가 아니라는 것을 이해해야 한다. 시간 도메인 전처리를 수행하는 단계가 없는 경우, 채널 간 시간차가 추정되는 좌측 사운드 채널 신호 및 우측 사운드 채널 신호는 원시 스테레오 신호에서의 좌측 사운드 채널 신호 및 우측 사운드 채널 신호이다. 원시 스테레오 신호에서의 좌측 사운드 채널 신호 및 우측 사운드 채널 신호는 아날로그-디지털(A/D) 변환을 통해 획득된 수집된 펄스 코드 변조(Pulse Code Modulation, PCM) 신호들일 수 있다. 또한, 스테레오 오디오 신호의 샘플링 레이트는 8kHz, 16kHz, 32kHz, 44.1kHz, 48kHz 등일 수 있다.
330. 현재 프레임에서의 전이 세그먼트의 적응 길이에 기초하여 현재 프레임에서의 전이 윈도우를 결정하고, 여기서 전이 세그먼트의 적응 길이는 전이 윈도우의 윈도우 길이이다.
선택적으로, 현재 프레임에서의 전이 윈도우는 수학식 2에 따라 결정될 수 있다:
여기서, sin(.)은 사인파 연산을 나타내고, adp_Ts는 전이 세그먼트의 적응 길이를 나타낸다.
전이 윈도우의 윈도우 길이가 전이 세그먼트의 적응 길이라면, 현재 프레임에서의 전이 윈도우의 형상은 본 출원에서 구체적으로 제한되지 않는다는 점이 이해되어야 한다.
수학식 2에 따라 전이 윈도우를 결정하는 것에 더하여, 현재 프레임에서의 전이 윈도우는 대안적으로 다음의 수학식 3 또는 수학식 4에 따라 결정될 수 있다:
수학식 3 및 수학식 4에서, cos(.)는 코사인 연산을 나타내고, adp_Ts는 전이 세그먼트의 적응 길이를 나타낸다.
340. 현재 프레임에서 재구성된 신호의 이득 수정 인자를 결정한다.
현재 프레임에서의 재구성된 신호의 이득 수정 인자는 본 명세서에서 현재 프레임에서의 이득 수정 인자라고 간단히 지칭될 수 있다는 점이 이해되어야 한다.
350. 현재 프레임에서의 채널 간 시간차, 현재 프레임에서의 전이 세그먼트의 적응 길이, 현재 프레임에서의 전이 윈도우, 현재 프레임에서의 이득 수정 인자, 현재 프레임에서의 참조 사운드 채널 신호, 및 현재 프레임에서의 타겟 사운드 채널 신호에 기초하여, 현재 프레임에서의 타겟 사운드 채널에 대해 전이 세그먼트 신호를 결정한다.
선택적으로, 현재 프레임에서의 전이 세그먼트 신호는 다음의 수학식 5를 만족한다. 따라서, 현재 프레임에서의 타겟 사운드 채널에 대한 전이 세그먼트 신호는 수학식 5에 따라 결정될 수 있다:
[수학식 5]
transition_seg(.)는 현재 프레임에서의 타겟 사운드 채널에 대한 전이 세그먼트 신호를 나타내고, adp_Ts는 현재 프레임에서의 전이 세그먼트의 적응 길이를 나타내고, w(.)는 현재 프레임에서의 전이 윈도우를 나타내고,
은 현재 프레임에서의 이득 수정 인자를 나타내고, target(.)은 현재 프레임에서의 타겟 사운드 채널 신호를 나타내고, reference(.)는 현재 프레임에서의 참조 사운드 채널 신호를 나타내고, cur_itd는 현재 프레임에서의 채널 간 시간차를 나타내고, abs(cur_itd)는 현재 프레임에서의 채널 간 시간차의 절대값을 나타내고, N은 현재 프레임의 프레임 길이를 나타낸다.
구체적으로, transition_seg(i)는 샘플링 포인트 i에서의 현재 프레임에서의 타겟 사운드 채널에 대한 전이 세그먼트 신호의 값이고, w(i)는 샘플링 포인트 i에서의 현재 프레임에서의 전이 윈도우의 값이고, target(N - adp_Ts + i)은 샘플링 포인트(N - adp_Ts + i)에서의 현재 프레임에서의 타겟 사운드 채널 신호의 값이고, reference(N - adp_Ts - abs(cur_itd) + i)는 샘플링 포인트 (N - adp_Ts - abs(cur_itd) + i)에서의 현재 프레임에서의 참조 사운드 채널 신호의 값이다.
수학식 5에서, i는 0 내지 adp_Ts - 1의 범위를 갖는다. 따라서, 수학식 5에 따라 현재 프레임에서의 타겟 사운드 채널에 대해 전이 세그먼트 신호를 결정하는 것은, 현재 프레임에서의 이득 수정 인자
, 현재 프레임에서의 전이 윈도우의 포인트 0에서 포인트 (adp_Ts-1)까지의 값들, 현재 프레임에서의 참조 사운드 채널상의 샘플링 포인트 (N - abs(cur_itd) - adp_Ts)에서 샘플링 포인트 (N - abs(cur_itd) - 1)까지의 값들, 및 현재 프레임에서의 타겟 사운드 채널상의 샘플링 포인트 (N-adp_Ts)에서 샘플링 포인트 (N-1)까지의 값들에 기초하여 adp_Ts 포인트들의 길이를 갖는 신호를 수동으로 재구성하는 것과 동등하고, adp_Ts 포인트들의 길이를 갖는 수동으로 재구성된 신호는 현재 프레임에서의 타겟 사운드 채널에 대한 전이 세그먼트 신호의 포인트 0에서 포인트 (adp_Ts - 1)까지의 신호로서 결정된다. 또한, 현재 프레임에서의 전이 세그먼트 신호가 결정된 후에, 현재 프레임에서의 타겟 사운드 채널에 대한 전이 세그먼트 신호의 샘플링 포인트 0의 값에서 샘플링 포인트 (adp_Ts-1)의 값은 지연 정렬 처리 후의 타겟 사운드 채널상의 샘플링 포인트 (N - adp_Ts)의 값에서 샘플링 포인트 (N-1)의 값으로서 사용될 수 있다.
지연 정렬 처리 후의 타겟 사운드 채널상의 포인트 (N-adp_Ts)에서 포인트 (N-1)까지의 신호는 수학식 6에 따라 추가로 직접 결정될 수 있다는 점이 이해되어야 한다:
[수학식 6]
여기서, target_alig(N - adp_Ts + i)는 지연 정렬 처리 후의 타겟 사운드 채널상의 샘플링 포인트 (N - adp_Ts + i)의 값이고, w(i)는 샘플링 포인트 i에서의 현재 프레임에서의 전이 윈도우의 값이고, target(N - adp_Ts + i)은 샘플링 포인트 (N - adp_Ts + i)에서의 현재 프레임에서의 타겟 사운드 채널 신호의 값이고, reference(N - adp_Ts - abs(cur_itd) + i)는 샘플링 포인트 (N - adp_Ts - abs(cur_itd) + i)에서의 현재 프레임에서의 참조 사운드 채널 신호의 값이고,
은 현재 프레임에서의 이득 수정 인자를 나타내고, adp_Ts는 현재 프레임에서의 전이 세그먼트의 적응 길이를 나타내고, cur_itd는 현재 프레임의 채널 간 시간차를 나타내고, abs(cur_itd)는 현재 프레임에서의 채널 간 시간차의 절대값을 나타내고, N은 현재 프레임의 프레임 길이를 나타낸다.
수학식 6에서, adp_Ts 포인트들의 길이를 갖는 신호는, 현재 프레임에서의 이득 수정 인자
, 현재 프레임에서의 전이 윈도우, 현재 프레임에서의 타겟 사운드 채널상의 샘플링 포인트 (N - adp_Ts)의 값에서 샘플링 포인트 (N-1)의 값, 및 현재 프레임에서의 참조 사운드 채널상의 샘플링 포인트 (N - abs(cur_itd) - adp_Ts)의 값에서 샘플링 포인트 (N - abs(cur_itd) - 1)의 값에 기초하여 수동으로 재구성되고, adp_Ts 포인트들의 길이를 갖는 신호는 지연 정렬 처리 후의 현재 프레임에서의 타겟 사운드 채널상의 샘플링 포인트 (N - adp_Ts)의 값에서 샘플링 포인트 (N-1)의 값으로서 직접 사용된다.
본 출원에서, 적응 길이를 갖는 전이 세그먼트가 설정되고, 전이 세그먼트의 적응 길이에 기초하여 전이 윈도우가 결정된다. 고정 길이를 갖는 전이 세그먼트를 사용함으로써 전이 윈도우를 결정하는 종래 기술 방식과 비교하여, 현재 프레임에서의 타겟 사운드 채널상의 실제 신호와 현재 프레임에서의 타겟 사운드 채널상의 수동으로 재구성된 신호 사이에 더 매끄러운 전이를 이룰 수 있는 전이 세그먼트 신호가 획득될 수 있다.
본 출원의 이 실시예에서 스테레오 신호 인코딩 동안 신호를 재구성하기 위한 방법에 따르면, 현재 프레임에서의 타겟 사운드 채널에 대한 전이 세그먼트 신호가 결정될 수 있을 뿐만 아니라, 현재 프레임에서의 타겟 사운드 채널상의 전방향 신호가 결정될 수 있다. 본 출원의 이 실시예에서 스테레오 인코딩 동안 신호를 재구성하기 위한 방법을 사용하여 현재 프레임에서 타겟 사운드 채널상의 전방향 신호를 결정하는 방식을 더 잘 설명하고 이해하기 위해, 이하에서는 기존의 해결책을 사용하여 현재 프레임에서의 타겟 사운드 채널상의 전방향 신호를 결정하는 방식을 먼저 간략하게 설명한다.
기존의 해결책에서, 현재 프레임에서의 타겟 사운드 채널상의 전방향 신호는 보통은 현재 프레임에서의 채널 간 시간차, 현재 프레임에서의 이득 수정 인자, 및 현재 프레임에서의 참조 사운드 채널 신호에 기초하여 결정된다. 이득 수정 인자는 보통은 현재 프레임에서의 채널 간 시간차, 현재 프레임에서의 타겟 사운드 채널 신호, 및 현재 프레임에서의 참조 사운드 채널 신호에 기초하여 결정된다.
기존의 해결책에서, 이득 수정 인자는 현재 프레임에서의 채널 간 시간차, 및 현재 프레임에서의 타겟 사운드 채널 신호 및 참조 사운드 채널 신호에만 기초하여 결정된다. 결과적으로, 현재 프레임에서의 타겟 사운드 채널상의 재구성된 전방향 신호와 현재 프레임에서의 타겟 사운드 채널상의 실제 신호 사이에 비교적 큰 차이가 존재한다. 따라서, 현재 프레임에서의 타겟 사운드 채널상의 재구성된 전방향 신호에 기초하여 획득되는 주 사운드 채널 신호와 현재 프레임에서의 타겟 사운드 채널상의 실제 신호에 기초하여 획득되는 주 사운드 채널 신호 사이에 비교적 큰 차이가 존재한다. 결과적으로, 선형 예측 동안에 획득된 주 사운드 채널 신호의 선형 예측 분석 결과와 실제 선형 예측 분석 결과 사이에 비교적 큰 편차가 존재한다. 유사하게, 현재 프레임에서의 타겟 사운드 채널상의 재구성된 전방향 신호에 기초하여 획득되는 보조 사운드 채널 신호와 현재 프레임에서의 타겟 사운드 채널상의 실제 신호에 기초하여 획득되는 보조 사운드 채널 신호 사이에 비교적 큰 차이가 존재한다. 결과적으로, 선형 예측 동안에 획득된 보조 사운드 채널 신호의 선형 예측 분석 결과와 실제 선형 예측 분석 결과 사이에 비교적 큰 편차가 존재한다.
구체적으로, 도 4에 도시된 바와 같이, 현재 프레임에서의 타겟 사운드 채널상의 종래 기술의 재구성된 전방향 신호에 기초하여 획득되는 주 사운드 채널 신호와 현재 프레임에서의 타겟 사운드 채널상의 실제 전방향 신호에 기초하여 획득되는 주 사운드 채널 신호 사이에 비교적 큰 차이가 존재한다. 예를 들어, 도 4에서, 현재 프레임에서의 타겟 사운드 채널상의 종래 기술의 재구성된 전방향 신호에 기초하여 획득되는 주 사운드 채널 신호는 현재 프레임에서의 타겟 사운드 채널상의 실제 전방향 신호에 기초하여 획득되는 주 사운드 채널 신호보다 일반적으로 더 크다.
선택적으로, 현재 프레임에서의 재구성된 신호의 이득 수정 인자는 다음의 방식 1 내지 방식 3 중 어느 하나에서 결정될 수 있다.
방식 1: 초기 이득 수정 인자는 현재 프레임에서의 전이 윈도우, 현재 프레임에서의 전이 세그먼트의 적응 길이, 현재 프레임에서의 타겟 사운드 채널 신호, 현재 프레임에서의 참조 사운드 채널 신호, 및 현재 프레임에서의 채널 간 시간차에 기초하여 결정되고, 여기서 초기 이득 수정 인자는 현재 프레임에서의 이득 수정 인자이다.
본 출원에서, 이득 수정 인자가 결정될 때, 현재 프레임에서의 채널 간 시간차, 현재 프레임에서의 타겟 사운드 채널 신호 및 참조 사운드 채널 신호에 더하여, 현재 프레임에서의 전이 세그먼트의 적응 길이와 현재 프레임에서의 전이 윈도우가 더 고려된다. 또한, 현재 프레임에서의 전이 윈도우는 적응 길이를 갖는 전이 세그먼트에 기초하여 결정된다. 이득 수정 인자가 현재 프레임에서의 채널 간 시간차, 현재 프레임에서의 타겟 사운드 채널 신호, 및 현재 프레임에서의 참조 사운드 채널 신호에만 기초하여 결정되는 기존 해결책과 비교하여, 현재 프레임에서의 타겟 사운드 채널상의 실제 신호와 현재 프레임에서의 타겟 사운드 채널상의 재구성된 전방향 신호 사이의 에너지 일관성이 고려된다. 따라서, 현재 프레임에서의 타겟 사운드 채널상의 획득된 전방향 신호는 현재 프레임에서의 타겟 사운드 채널상의 실제 전방향 신호에 더 근사적이고, 즉, 본 출원에서의 재구성된 전방향 신호는 기존의 해결책의 것보다 더 정확하다.
선택적으로, 방식 1에서, 타겟 사운드 채널상의 재구성된 신호의 평균 에너지가 타겟 사운드 채널상의 실제 신호의 평균 에너지와 일치할 때, 수학식 7이 만족된다:
수학식 7에서, K는 에너지 감쇠 계수를 나타내고, K는 미리 설정된 실수이고, 0 < K ≤ 1이고, K의 값은 경험에 의해 통상의 기술자에 의해 설정될 수 있으며, 여기서 예를 들어, K는 0.5, 0.75, 1 또는 그와 유사한 것이고;
은 현재 프레임에서의 이득 수정 인자를 나타내고; w(.)는 현재 프레임에서의 전이 윈도우를 나타내고; x(.)는 현재 프레임에서의 타겟 사운드 채널 신호를 나타내고; y(.)는 현재 프레임에서의 참조 사운드 채널 신호를 나타내고; N은 현재 프레임의 프레임 길이를 나타내고;
은 타겟 사운드 채널의 것이고 전이 윈도우의 시작 샘플링 포인트 인덱스에 대응하는 샘플링 포인트 인덱스를 나타내고,
은 타겟 사운드 채널의 것이고 전이 윈도우의 종료 샘플링 포인트 인덱스에 대응하는 샘플링 포인트 인덱스를 나타내고, T
s = N -abs(cur_itd) - adp_T
s, T
d = N - abs(cur_itd)이고,
은 타겟 사운드 채널의 것이고 이득 수정 인자를 계산하기 위해 사용되는 미리 설정된 시작 샘플링 포인트 인덱스를 나타내고, 0≤T
0<T
s이고; cur_itd는 현재 프레임에서의 채널 간 시간차를 나타내고; abs(cur_itd)는 현재 프레임에서의 채널 간 시간차의 절대값을 나타내고; 및 adp_Ts는 현재 프레임에서의 전이 세그먼트의 적응 길이를 나타낸다.
구체적으로, w(i)는 샘플링 포인트 i에서의 현재 프레임에서의 전이 윈도우의 값이고, x(i)는 샘플링 포인트 i에서의 현재 프레임에서의 타겟 사운드 채널 신호의 값이고, y(i)는 샘플링 포인트 i에서의 현재 프레임에서의 참조 사운드 채널 신호의 값이다.
또한, 타겟 사운드 채널상의 재구성된 신호의 평균 에너지가 타겟 사운드 채널상의 실제 신호의 평균 에너지와 일치하게 하기 위해, 즉, 타겟 사운드 채널상에 있는 재구성된 전방향 신호 및 전이 세그먼트 신호의 평균 에너지가, 수학식 7에 표현되는 바와 같이, 타겟 사운드 채널상의 실제 신호의 평균 에너지와 일치한다. 따라서, 초기 이득 수정 인자가 수학식 8을 만족하는 것이 추론될 수 있다:
수학식 8에서의, a, b 및 c는 제각기 다음의 수학식 9 내지 수학식 11을 만족한다:
방식 2: 초기 이득 수정 인자는 현재 프레임에서의 전이 윈도우, 현재 프레임에서의 전이 세그먼트의 적응 길이, 현재 프레임에서의 타겟 사운드 채널 신호, 현재 프레임에서의 참조 사운드 채널 신호, 및 현재 프레임에서의 채널 간 시간차에 기초하여 결정되고; 및 초기 이득 수정 인자는 현재 프레임에서 이득 수정 인자를 획득하기 위해 제1 수정 계수에 기초하여 수정되고, 여기서 제1 수정 계수는 0보다 크고 1보다 작은 미리 설정된 실수이다.
제1 수정 계수는 0보다 크고 1보다 작은 미리 설정된 실수이다.
이득 수정 인자는 제1 수정 계수를 사용하여 수정되고, 따라서 현재 프레임에서의 최종적으로 획득된 전이 세그먼트 신호 및 전방향 신호의 에너지가 적절하게 감소될 수 있고, 타겟 사운드 채널상에서 수동으로 재구성된 전방향 신호와 타겟 사운드 채널상에서의 실제 전방향 신호 사이의 차이에 의해, 스테레오 인코딩 동안 모노 코딩 알고리즘을 사용하여 획득된 선형 예측 분석 결과에 대해 이뤄진 영향은 더 감소될 수 있다.
구체적으로, 이득 수정 인자는 수학식 12에 따라 수정될 수 있다.
은 계산된 이득 수정 인자를 나타내고,
는 수정된 이득 수정 인자를 나타내고, adj_fac는 제1 수정 계수를 나타내고, 여기서 adj_fac는 경험에 의해 통상의 기술자에 의해 미리 설정될 수 있고, adj_fac는 일반적으로 0보다 크고 1보다 작은 양의 수이고, 예를 들어, adj_fac=0.5 및 adj_fac=0.25이다.
방식 3: 초기 이득 수정 인자는 현재 프레임에서의 채널 간 시간차, 현재 프레임에서의 타겟 사운드 채널 신호, 및 현재 프레임에서의 참조 사운드 채널 신호에 기초하여 결정되고; 및 초기 이득 수정 인자는 현재 프레임에서 이득 수정 인자를 획득하기 위해 제2 수정 계수에 기초하여 수정되고, 여기서 제2 수정 계수는 0보다 크고 1보다 작은 미리 설정된 실수이거나 또는 미리 설정된 알고리즘에 따라 결정된다.
제2 수정 계수는 0보다 크고 1보다 작은 미리 설정된 실수이다. 예를 들어, 제2 수정 계수는 0.5, 0.8, 또는 그와 유사한 것이다.
이득 수정 인자는 제2 수정 계수를 사용하여 수정되고, 따라서 현재 프레임에서의 최종적으로 획득된 전이 세그먼트 신호 및 전방향 신호가 더 정확해 질 수 있고, 타겟 사운드 채널상의 수동으로 재구성된 전방향 신호와 타겟 사운드 채널상의 실제 전방향 신호 사이의 차이에 의해, 스테레오 인코딩 동안 모노 코딩 알고리즘을 사용하여 획득된 선형 예측 분석 결과에 대해 이뤄진 영향은 감소될 수 있다.
또한, 제2 수정 계수가 미리 설정된 알고리즘에 따라 결정될 때, 제2 수정 계수는, 현재 프레임에서의 참조 사운드 채널 신호 및 타겟 사운드 채널 신호, 현재 프레임에서의 채널 간 시간차, 현재 프레임에서의 전이 세그먼트의 적응 길이, 현재 프레임에서의 전이 윈도우, 및 현재 프레임에서의 이득 수정 인자에 기초하여 결정될 수 있다.
구체적으로, 제2 수정 계수가 현재 프레임에서의 참조 사운드 채널 신호 및 타겟 사운드 채널 신호, 현재 프레임에서의 채널 간 시간차, 현재 프레임에서의 전이 세그먼트의 적응 길이, 현재 프레임에서의 전이 윈도우, 및 현재 프레임에서의 이득 수정 인자에 기초하여 결정될 때, 제2 수정 계수는 다음의 수학식 13 또는 수학식 14를 만족할 수 있다. 다시 말해서, 제2 수정 계수는 수학식 13 또는 수학식 14에 따라 결정될 수 있다:
adj_fac는 제2 수정 계수를 나타내고; K는 에너지 감쇠 계수를 나타내고, K는 미리 설정된 실수이고,
및 K의 값은 경험에 의해 통상의 기술자에 의해 설정될 수 있고, 예를 들어, K는 0.5, 0.75, 1, 또는 그와 유사한 것이고;
은 현재 프레임에서의 이득 수정 인자를 나타내고; w(.)는 현재 프레임에서의 전이 윈도우를 나타내고; x(.)는 현재 프레임에서의 타겟 사운드 채널 신호를 나타내고; y(.)는 현재 프레임에서의 참조 사운드 채널 신호를 나타내고; N은 현재 프레임의 프레임 길이를 나타내고;
은 전이 윈도우의 시작 샘플링 포인트 인덱스에 대응하는 타겟 사운드 채널의 샘플링 포인트 인덱스를 나타내고,
은 전이 윈도우의 종료 샘플링 포인트 인덱스에 대응하는 타겟 사운드 채널의 샘플링 포인트 인덱스를 나타내고, T
s = N-abs(cur_itd)-adp_Ts, T
d = N-abs(cur_itd)이고,
은 이득 수정 인자를 계산하기 위해 사용되는 타겟 사운드 채널의 미리 설정된 시작 샘플링 포인트 인덱스를 나타내고,
이고; cur_itd는 현재 프레임에서의 채널 간 시간차를 나타내고, abs(cur_itd)는 현재 프레임에서의 채널 간 시간차의 절대값을 나타내고; 및 adp_Ts는 현재 프레임에서의 전이 세그먼트의 적응 길이를 나타낸다.
구체적으로,
은 샘플링 포인트
에서의 현재 프레임에서의 전이 윈도우의 값이고, x(i + abs(cur_itd))는 샘플링 포인트 (i + abs(cur_itd))에서의 현재 프레임에서의 타겟 사운드 채널 신호의 값이고, x(i)는 샘플링 포인트 i에서의 현재 프레임에서의 타겟 사운드 채널 신호의 값이고, 및 y(i)는 샘플링 포인트 i에서의 현재 프레임에서의 참조 사운드 채널 신호의 값이다.
선택적으로, 실시예에서, 방법(300)은: 현재 프레임에서의 채널 간 시간차, 현재 프레임에서의 이득 수정 인자, 및 현재 프레임에서의 참조 사운드 채널 신호에 기초하여 현재 프레임에서의 타겟 사운드 채널상의 전방향 신호를 결정하는 단계를 추가로 포함한다.
현재 프레임에서의 이득 수정 인자는 다음의 방식 1 내지 방식 3 중 어느 하나에서 결정될 수 있다는 점이 이해되어야 한다.
구체적으로, 현재 프레임에서의 타겟 사운드 채널상의 전방향 신호가 현재 프레임에서의 채널 간 시간차, 현재 프레임에서의 이득 수정 인자, 및 현재 프레임에서의 참조 사운드 채널 신호에 기초하여 결정될 때, 현재 프레임에서의 타겟 사운드 채널상의 전방향 신호는 수학식 15를 만족할 수 있다. 따라서, 현재 프레임에서의 타겟 사운드 채널상의 전방향 신호는 수학식 15에 따라 결정될 수 있다:
[수학식 15]
reconstruction_seg(.)는 현재 프레임에서의 타겟 사운드 채널상의 전방향 신호를 나타내고, reference(.)는 현재 프레임에서의 참조 사운드 채널 신호를 나타내고,
은 현재 프레임에서의 이득 수정 인자를 나타내고, cur_itd는 현재 프레임에서의 채널 간 시간차를 나타내고, abs(cur_itd)는 현재 프레임에서의 채널 간 시간차의 절대값을 나타내고, N은 현재 프레임의 프레임 길이를 나타낸다.
구체적으로, reconstruction_seg(i)는 샘플링 포인트 i에서 현재 프레임에서의 타겟 사운드 채널상의 전방향 신호의 값이고, reference(N - abs(cur_itd) + i)는 샘플링 포인트 (N - abs(cur_itd) + i)에서의 현재 프레임에서의 참조 사운드 채널 신호의 값이다.
다시 말해서, 수학식 15에서, 샘플링 포인트 (N - abs(cur_itd))로부터 샘플링 포인트 (N-1)까지의 현재 프레임에서의 참조 사운드 채널 신호의 값과 이득 수정 인자
의 곱이 샘플링 포인트 0으로부터 샘플링 포인트 (abs(cur_itd) - 1)까지의 현재 프레임에서의 타겟 사운드 채널상의 전방향 신호의 신호로서 사용된다. 다음으로, 현재 프레임에서의 타겟 사운드 채널상의 전방향 신호의 샘플링 포인트 0으로부터 샘플링 포인트 (abs(cur_itd) - 1)까지의 신호가 지연 정렬 처리 후의 타겟 사운드 채널상의 포인트 N으로부터 포인트 (N + abs(cur_itd) - 1)로의 신호로서 사용된다.
수학식 15는 수학식 16을 획득하도록 변환될 수 있다는 것을 이해해야 한다.
수학식 16에서, target_alig(N+i)는 지연 정렬 처리 후의 타겟 사운드 채널상의 샘플링 포인트 (N + i)의 값을 나타낸다. 수학식 16에 따르면, 샘플링 포인트 (N - abs(cur_itd))로부터 샘플링 포인트 (N-1)까지의 현재 프레임에서의 참조 사운드 채널 신호의 값과 이득 수정 인자
의 곱이 지연 정렬 처리 후의 타겟 사운드 채널상의 포인트 N으로부터 포인트 (N + abs(cur_itd) - 1)까지의 신호로서 직접 사용될 수 있다.
구체적으로, 현재 프레임에서의 이득 수정 인자가 방식 2 또는 방식 3에서 결정될 때, 현재 프레임에서의 타겟 사운드 채널상의 전방향 신호는 수학식 17을 만족할 수 있다. 다시 말해서, 현재 프레임에서의 타겟 사운드 채널상의 전방향 신호는 수학식 17에 따라 결정될 수 있다.
reconstruction_seg(.)는 현재 프레임에서의 타겟 사운드 채널상의 전방향 신호를 나타내고,
는 제1 수정 계수 또는 제2 수정 계수를 사용하여 초기 이득 수정 인자를 수정함으로써 획득되는 현재 프레임에서의 이득 수정 인자를 나타내고, reference(.)는 현재 프레임에서의 참조 사운드 채널 신호를 나타내고, cur_itd는 현재 프레임에서의 채널 간 시간차를 나타내고, abs(cur_itd)는 현재 프레임에서의 채널 간 시간차의 절대값을 나타내고, N은 현재 프레임의 프레임 길이를 나타내고, i = 0, 1, ..., abs(cur_itd) - 1이다.
구체적으로, reconstruction_seg(i)는 샘플링 포인트 i에서의 현재 프레임에서의 타겟 사운드 채널상의 전방향 신호의 값이고, reference(N - abs(cur_itd) + i)는 샘플링 포인트 (N - abs(cur_itd) + i)에서의 현재 프레임에서의 참조 사운드 채널 신호의 값이다.
다시 말해서, 수학식 17에서, 샘플링 포인트 (N - abs(cur_itd))로부터 샘플링 포인트 (N-1)까지의 현재 프레임에서의 참조 사운드 채널 신호의 값과
의 곱이 샘플링 포인트 0으로부터 샘플링 포인트 (abs(cur_itd) - 1)까지의 현재 프레임에서의 타겟 사운드 채널상의 전방향 신호의 신호로서 사용된다. 다음으로, 현재 프레임에서의 타겟 사운드 채널상의 샘플링 포인트 0으로부터 샘플링 포인트 (abs(cur_itd) - 1)까지의 전방향 신호의 신호는 지연 정렬 처리 후의 타겟 사운드 채널상의 포인트 0으로부터 포인트 (N + abs(cur_itd) - 1)까지의 신호로서 사용된다.
수학식 17은 수학식 18을 획득하기 위해 추가로 변환될 수 있다는 점이 이해되어야 한다.
수학식 18에서, target_alig(N+i)는 지연 정렬 처리 후의 타겟 사운드 채널상의 샘플링 포인트 (N+ i)의 값을 나타낸다. 수학식 18에 따르면, 샘플링 포인트 (N - abs(cur_itd))로부터 샘플링 포인트 (N-1)까지의 현재 프레임에서의 참조 사운드 채널 신호의 값과 수정된 이득 수정 인자
의 곱이 지연 정렬 처리 후의 타겟 사운드 채널상의 포인트 N으로부터 포인트 (N + abs(cur_itd) - 1)까지의 신호로서 직접 사용될 수 있다.
현재 프레임에서의 이득 수정 인자가 방식 2 또는 방식 3에서 결정될 때, 현재 프레임에서의 타겟 사운드 채널에 대한 전이 세그먼트 신호는 수학식 19를 만족할 수 있다. 다시 말해서, 현재 프레임에서의 타겟 사운드 채널에 대한 전이 세그먼트 신호는 수학식 19에 따라 결정될 수 있다.
[수학식 19]
수학식 19에서, transition_seg(i)는 샘플링 포인트 i에서의 현재 프레임에서의 타겟 사운드 채널에 대한 전이 세그먼트 신호의 값이고, w(i)는 샘플링 포인트 i에서의 현재 프레임에서의 전이 윈도우의 값이고, reference(N - abs(cur_itd) + i)는 샘플링 포인트 (N - abs(cur_itd) + i)에서의 현재 프레임에서의 참조 사운드 채널 신호의 값이고, adp_Ts는 현재 프레임에서의 전이 세그먼트의 적응 길이를 나타내고,
는 제1 수정 계수 또는 제2 수정 계수를 사용하여 초기 이득 수정 인자를 수정함으로써 획득되는 현재 프레임에서의 이득 수정 인자를 나타내고, cur_itd는 현재 프레임에서의 채널 간 시간차를 나타내고, abs(cur_itd)는 현재 프레임에서의 채널 간 시간차의 절대값이고, N은 현재 프레임의 프레임 길이를 나타낸다.
다시 말해서, 수학식 19에서, adp_Ts 포인트들의 길이를 갖는 신호는,
, 현재 프레임에서의 전이 윈도우의 포인트 0으로부터 포인트 (adp_Ts - 1)까지의 값들, 현재 프레임에서의 참조 사운드 채널상에서의 샘플링 포인트 (N - abs(cur_itd) - adp_Ts)로부터 샘플링 포인트 (N - abs(cur_itd) - 1)까지의 값들, 및 현재 프레임에서의 타겟 사운드 채널상의 샘플링 포인트 (N - adp_Ts)로부터 샘플링 포인트 (N-1)까지의 값들에 기초하여 수동으로 재구성되고, adp_Ts 포인트들의 길이를 갖는 수동으로 재구성된 신호는 현재 프레임에서의 타겟 사운드 채널에 대한 전이 세그먼트 신호의 포인트 0으로부터 포인트 (adp_Ts - 1)까지의 신호로서 결정된다. 또한, 현재 프레임에서의 전이 세그먼트 신호가 결정된 후에, 현재 프레임에서의 타겟 사운드 채널에 대한 전이 세그먼트 신호의 샘플링 포인트 0의 값에서 샘플링 포인트 (adp_Ts-1)의 값은 지연 정렬 처리 후의 타겟 사운드 채널상의 샘플링 포인트 (N - adp_Ts)의 값에서 샘플링 포인트 (N-1)의 값으로서 사용될 수 있다.
수학식 19가 수학식 20을 획득하기 위해 변환될 수 있다는 것을 이해해야 한다.
[수학식 20]
수학식 20에서, target_alig(N - adp_Ts + i)는 지연 정렬 처리 후의 현재 프레임에서의 타겟 사운드 채널상의 샘플링 포인트 (N - adp_Ts + i)의 값이다. 수학식 20에서, adp_Ts 포인트들의 길이를 갖는 신호는, 수정된 이득 수정 인자, 현재 프레임에서의 전이 윈도우, 현재 프레임에서의 타겟 사운드 채널상의 샘플링 포인트 (N - adp_Ts)의 값에서 샘플링 포인트 (N-1)의 값, 및 현재 프레임에서의 참조 사운드 채널상의 샘플링 포인트 (N - abs(cur_itd) - adp_Ts)의 값에서 샘플링 포인트 (N - abs(cur_itd) - 1)의 값에 기초하여 수동으로 재구성되고, adp_Ts 포인트들의 길이를 갖는 신호는 지연 정렬 처리 후의 현재 프레임에서의 타겟 사운드 채널상의 샘플링 포인트 (N-adp_Ts)의 값에서 샘플링 포인트 (N-1)의 값으로서 직접 사용된다.
전술한 내용은 본 출원의 이 실시예에서 도 3을 참조하여 상세하게 스테레오 신호 인코딩 동안 신호를 재구성하기 위한 방법을 설명한다. 전술한 방법(300)에서, 이득 수정 인자
은 전이 세그먼트 신호를 결정하기 위해 사용된다. 실제로, 일부 경우들에서, 계산 복잡도를 감소시키기 위해, 현재 프레임에서의 타겟 사운드 채널에 대한 전이 세그먼트 신호가 결정될 때 이득 수정 인자
이 0에 직접 설정될 수 있거나, 또는 이득 수정 인자
은 현재 프레임에서의 타겟 사운드 채널의 전이 세그먼트 신호가 결정될 때 사용되지 않거나 사용된다. 도 6을 참조하여, 이하에서 이득 수정 인자를 사용하지 않고 현재 프레임에서의 타겟 사운드 채널에 대한 전이 세그먼트 신호를 결정하기 위한 방법을 설명한다.
도 6은 본 출원의 실시예에 따라 스테레오 신호 인코딩 동안 신호를 재구성하기 위한 방법의 개략적인 흐름도이다. 방법(600)은 인코더 측에 의해 수행될 수 있다. 인코더 측은 스테레오 신호 인코딩 기능을 갖는 인코더 또는 디바이스일 수 있다. 방법(600)은 구체적으로 다음의 단계들을 포함한다.
610. 현재 프레임에서 참조 사운드 채널 및 타겟 사운드 채널을 결정한다.
선택적으로, 현재 프레임에서의 참조 사운드 채널 및 타겟 사운드 채널이 결정될 때, 나중의 도착 시간을 갖는 사운드 채널이 타겟 사운드 채널로서 결정될 수 있고, 더 이른 도착 시간을 갖는 다른 사운드 채널이 참조 사운드 채널로서 결정된다. 예를 들어, 좌측 사운드 채널의 도착 시간이 우측 사운드 채널의 도착 시간보다 늦는 경우, 좌측 사운드 채널은 타겟 사운드 채널로서 결정될 수 있고, 우측 사운드 채널은 참조 사운드 채널로서 결정될 수 있다.
선택적으로, 현재 프레임에서의 참조 사운드 채널 및 타겟 사운드 채널은 현재 프레임에서의 채널 간 시간차에 기초하여 결정될 수 있다. 구체적으로, 현재 프레임에서의 타겟 사운드 채널 및 참조 사운드 채널은 단계 310에 뒤따르는 사례 1 내지 사례 3에서의 방식들로 결정될 수 있다.
620. 현재 프레임에서의 채널 간 시간차 및 현재 프레임에서의 전이 세그먼트의 초기 길이에 기초하여 현재 프레임에서의 전이 세그먼트의 적응 길이를 결정한다.
선택적으로, 현재 프레임에서의 채널 간 시간차의 절대값이 현재 프레임에서의 전이 세그먼트의 초기 길이 이상일 때, 현재 프레임에서의 전이 세그먼트의 초기 길이는 현재 프레임에서의 전이 세그먼트의 적응 길이로서 결정되고; 또는 현재 프레임에서의 채널 간 시간차의 절대값이 현재 프레임에서의 전이 세그먼트의 초기 길이보다 작을 때, 현재 프레임에서의 채널 간 시간차의 절대값이 전이 세그먼트의 적응 길이로서 결정된다.
현재 프레임에서의 채널 간 시간차의 절대값이 현재 프레임에서의 전이 세그먼트의 초기 길이보다 작을 때, 현재 프레임에서의 채널 간 시간차와 현재 프레임에서의 전이 세그먼트의 초기 길이 사이의 비교의 결과에 의존하여, 전이 세그먼트의 길이가 적절하게 감소될 수 있고, 현재 프레임에서의 전이 세그먼트의 적응 길이가 적절하게 결정되고, 추가로 적응 길이를 갖는 전이 윈도우가 결정된다. 이러한 방식으로, 현재 프레임에서의 타겟 사운드 채널상의 수동으로 재구성된 전방향 신호와 실제 신호 사이의 전이는 더 매끄러워진다.
현재 프레임에서의 전이 세그먼트의 적응 길이는 현재 프레임에서의 채널 간 시간차와 현재 프레임에서의 전이 세그먼트의 초기 길이 사이의 비교의 결과에 의존하여 적절하게 결정될 수 있고, 추가로 적응 길이를 갖는 전이 윈도우가 결정된다. 이러한 방식으로, 현재 프레임에서의 타겟 사운드 채널상의 실제 신호와 수동으로 재구성된 전방향 신호 사이의 전이는 더 평활해진다. 구체적으로, 단계 620에서 결정된 전이 세그먼트의 적응 길이는 다음의 수학식 21을 만족한다. 따라서, 전이 세그먼트의 적응 길이는 수학식 21에 따라 결정될 수 있다.
cur_itd는 현재 프레임에서의 채널 간 시간차를 나타내고, abs(cur_itd)는 현재 프레임에서의 채널 간 시간차의 절대값을 나타내고, Ts2는 전이 세그먼트의 미리 설정된 초기 길이를 나타내고, 여기서 전이 세그먼트의 초기 길이는 미리 설정된 양의 정수일 수 있다. 예를 들어, 샘플링 레이트가 16kHz일 때, Ts2는 10에 설정된다.
또한, 상이한 샘플링 레이트들과 관련하여, Ts2는 동일한 값 또는 상이한 값들에 설정될 수 있다.
단계(620)에서의 현재 프레임에서의 채널 간 시간차는 좌측 사운드 채널 신호 및 우측 사운드 채널 신호의 채널 간 시간차를 추정함으로써 획득될 수 있다는 것을 이해해야 한다.
채널 간 시간차가 추정될 때, 좌측 사운드 채널과 우측 사운드 채널 사이의 교차-상관 계수가 현재 프레임에서 좌측 사운드 채널 신호 및 우측 사운드 채널 신호에 기초하여 계산될 수 있고, 이어서 교차-상관 계수의 최대값에 대응하는 인덱스 값이 현재 프레임에서의 채널 간 시간차로서 사용된다.
구체적으로, 채널 간 시간차는 단계(320)을 뒤따르는 예 1 내지 예 3에서의 방식들로 추정될 수 있다.
630. 전이 세그먼트의 적응 길이에 기초하여 현재 프레임에서 전이 윈도우를 결정한다.
선택적으로, 현재 프레임에서의 전이 윈도우는 단계(330)을 뒤따르는 수학식 2, 3, 또는 4에 따라 결정될 수 있다.
640. 전이 세그먼트의 적응 길이, 현재 프레임에서의 전이 윈도우, 및 현재 프레임에서의 타겟 사운드 채널 신호에 기초하여 현재 프레임에서의 전이 세그먼트 신호를 결정한다.
본 출원에서, 적응 길이를 갖는 전이 세그먼트가 설정되고, 전이 세그먼트의 적응 길이에 기초하여 전이 윈도우가 결정된다. 고정 길이를 갖는 전이 세그먼트를 사용함으로써 전이 윈도우를 결정하는 종래 기술 방식과 비교하여, 현재 프레임에서의 타겟 사운드 채널상의 실제 신호와 현재 프레임에서의 타겟 사운드 채널상의 수동으로 재구성된 신호 사이에 더 매끄러운 전이를 이룰 수 있는 전이 세그먼트 신호가 획득될 수 있다.
현재 프레임에서의 타겟 사운드 채널에 대한 전이 세그먼트 신호는 수학식 22를 만족한다:
[수학식 22]
transition_seg(.)는 현재 프레임에서의 타겟 사운드 채널에 대한 전이 세그먼트 신호를 나타내고, adp_Ts는 현재 프레임에서의 전이 세그먼트의 적응 길이를 나타내고, w(.)는 현재 프레임에서의 전이 윈도우를 나타내고, target(.)은 현재 프레임에서의 타겟 사운드 채널 신호를 나타내고, cur_itd는 현재 프레임에서의 채널 간 시간차를 나타내고, abs(cur_itd)는 현재 프레임에서의 채널 간 시간차의 절대값을 나타내고, N은 현재 프레임의 프레임 길이를 나타내고, i = 0, 1, ..., adp_Ts - 1이다.
구체적으로, transition_seg(i)는 샘플링 포인트 i에서의 현재 프레임에서의 타겟 사운드 채널에 대한 전이 세그먼트 신호의 값이고, w(i)는 샘플링 포인트 i에서의 현재 프레임에서의 전이 윈도우의 값이고, target(N - adp_Ts + i)는 샘플링 포인트(N-adp_Ts+ i)에서의 현재 프레임에서의 타겟 사운드 채널 신호의 값이다.
선택적으로, 방법(600)은: 현재 프레임에서의 타겟 사운드 채널상의 전방향 신호를 0에 설정하는 단계를 추가로 포함한다.
구체적으로, 현재 프레임에서의 타겟 사운드 채널상의 전방향 신호는 수학식 23을 만족한다:
수학식 23에서, 현재 프레임에서의 타겟 사운드 채널상의 샘플링 포인트 N으로부터 샘플링 포인트 (N + abs(cur_itd) - 1)까지의 값은 0이다. 현재 프레임에서의 타겟 사운드 채널상의 샘플링 포인트 N으로부터 샘플링 포인트 (N + abs(cur_itd) - 1)까지의 신호는 현재 프레임에서의 타겟 사운드 채널 신호의 전방향 신호인 것을 이해해야 한다.
타겟 사운드 채널상의 전방향 신호는 0에 설정되어, 계산 복잡도가 더 감소될 수 있도록 한다.
이하에서는 도 7 내지 도 12을 참조하여 본 출원의 실시예들에서 스테레오 신호 인코딩 동안 신호를 재구성하기 위한 방법을 상세히 설명한다.
도 7은 본 출원의 실시예에 따라 스테레오 신호 인코딩 동안 신호를 재구성하기 위한 방법의 개략적인 흐름도이다. 방법(700)은 구체적으로 다음의 단계들을 포함한다.
710. 현재 프레임에서의 채널 간 시간차에 기초하여 전이 세그먼트의 적응 길이를 결정한다.
단계(710) 전에, 현재 프레임에서의 타겟 사운드 채널 신호 및 현재 프레임에서의 참조 사운드 채널 신호가 먼저 획득될 필요가 있고, 이어서 현재 프레임에서의 타겟 사운드 채널 신호와 현재 프레임에서의 참조 사운드 채널 신호 사이의 시간 차가 추정되어 현재 프레임에서의 채널 간 시간차를 획득한다.
720. 현재 프레임에서의 전이 세그먼트의 적응 길이에 기초하여 현재 프레임에서의 전이 윈도우 함수를 결정한다.
730. 현재 프레임에서 이득 수정 인자를 결정한다.
단계(730)에서, 이득 수정 인자는 (현재 프레임에서의 채널 간 시간차, 현재 프레임에서의 타겟 사운드 채널 신호, 및 현재 프레임에서의 참조 사운드 채널 신호에 기초하여) 기존 방식으로 결정될 수 있거나, 또는 이득 수정 인자는 (현재 프레임에서의 전이 윈도우, 현재 프레임의 프레임 길이, 현재 프레임에서의 타겟 사운드 채널 신호, 현재 프레임에서의 참조 사운드 채널 신호, 및 현재 프레임에서의 채널 간 시간차에 기초하여) 본 출원에 따른 방식으로 결정될 수 있다.
740. 현재 프레임에서의 이득 수정 인자를 수정하여, 수정된 이득 수정 인자를 획득한다.
이득 수정 인자가 단계(730)에서 기존 방식으로 결정되는 경우, 이득 수정 인자는 전술한 제2 수정 계수를 사용하여 수정될 수 있다. 이득 수정 인자가 단계 730에서 본 출원에 따른 방식으로 결정될 때, 이득 수정 인자는 전술한 제2 수정 계수를 사용하여 수정될 수 있거나, 또는 이득 수정 인자는 전술한 제1 수정 계수를 사용하여 수정될 수 있다.
750. 수정된 이득 수정 인자, 현재 프레임에서의 참조 사운드 채널 신호, 및 현재 프레임에서의 타겟 사운드 채널 신호에 기초하여, 현재 프레임에서의 타겟 사운드 채널에 대한 전이 세그먼트 신호를 생성한다.
760. 현재 프레임에서의 참조 사운드 채널 신호 및 수정된 이득 수정 인자에 기초하여 현재 프레임에서의 타겟 사운드 채널상의 포인트 N으로부터 포인트 (N + abs(cur_itd) - 1)까지의 신호를 수동으로 재구성한다.
단계 760에서, 현재 프레임에서의 타겟 사운드 채널상의 포인트 N으로부터 포인트 (N + abs(cur_itd) - 1)까지의 신호를 수동으로 재구성하는 것은 현재 프레임에서의 타겟 사운드 채널상의 전방향 신호를 재구성하는 것을 의미한다.
이득 수정 인자
가 계산된 후에, 이득 수정 인자는 수정 계수를 사용하여 수정되고, 따라서 수동으로 재구성된 전방향 신호의 에너지가 감소될 수 있고, 수동으로 재구성된 전방향 신호와 실제 전방향 신호 사이의 차이에 의해, 스테레오 인코딩 동안에 모노 코딩 알고리즘을 사용하여 획득된 선형 예측 분석 결과에 대해 이뤄진 영향이 감소될 수 있고, 선형 예측 분석의 정확도가 개선될 수 있다.
선택적으로, 수동으로 재구성된 전방향 신호와 실제 전방향 신호 사이의 차이에 의해, 스테레오 인코딩 동안에 모노 코딩 알고리즘을 사용하여 획득된 선형 예측 분석 결과에 대해 이뤄진 영향을 더 감소시키기 위해, 이득 수정이 또한 적응 수정 계수에 기초하여 수동으로 재구성된 신호의 샘플링 포인트에 대해 수행될 수 있다.
구체적으로, 현재 프레임에서의 타겟 사운드 채널에 대한 전이 세그먼트 신호는 현재 프레임에서의 채널 간 시간차, 현재 프레임에서의 전이 세그먼트의 적응 길이, 현재 프레임에서의 전이 윈도우, 현재 프레임에서의 이득 수정 인자, 현재 프레임에서의 참조 사운드 채널 신호, 및 현재 프레임에서의 타겟 사운드 채널 신호에 기초하여 먼저 결정(생성)된다. 현재 프레임에서의 타겟 사운드 채널상의 전방향 신호는 현재 프레임에서의 채널 간 시간차, 현재 프레임에서의 이득 수정 인자, 및 현재 프레임에서의 참조 사운드 채널 신호에 기초하여 결정(생성)된다. 전방향 신호는 지연 정렬 처리 후에 획득되는 타겟 사운드 채널 신호 target_alig의 포인트(N-adp_Ts)로부터 포인트 (N + abs(cur_itd) - 1)까지의 신호로서 사용된다.
적응 수정 계수는 수학식 24에 따라 결정된다:
[수학식 24]
adp_Ts는 전이 세그먼트의 적응 길이를 나타내고, cur_itd는 현재 프레임에서의 채널 간 시간차를 나타내고, abs (cur_itd)는 현재 프레임에서의 채널 간 시간차의 절대값을 나타낸다.
적응 수정 계수 adj_fac(i)가 획득된 후, 적응 이득 수정은 적응 수정 계수 adj_fac(i)에 기초하여 지연 정렬 처리 후의 타겟 사운드 채널상의 포인트 (N - adp_Ts)로부터 포인트 (N + abs(cur_itd) - 1)까지의 신호에 대해 수행될 수 있어서, 수학식 25에 도시된 바와 같이, 지연 정렬 처리 후에 획득된 수정된 타겟 사운드 채널 신호를 획득한다.
adj_fac(i)는 적응 수정 계수를 나타내고,
는 지연 정렬 처리 후에 획득된 수정된 타겟 사운드 채널 신호를 나타내고, target_alig(i)는 지연 정렬 처리 후에 획득된 타겟 사운드 채널 신호를 나타내고, cur_itd는 현재 프레임에서의 채널 간 시간차를 나타내고, abs(cur_itd)는 현재 프레임에서의 채널 간 시간차의 절대값을 나타내고, N은 현재 프레임의 프레임 길이를 나타내고, adp_Ts는 현재 프레임에서의 전이 세그먼트의 적응 길이를 나타낸다.
이득 수정은 적응 수정 계수를 사용하여 수동으로 재구성된 전방향 신호의 샘플링 포인트 및 전이 세그먼트 신호에 대해 수행되어, 수동으로 재구성된 전방향 신호와 실제 전방향 신호 사이의 차이에 의해 이뤄지는 영향이 감소될 수 있도록 한다.
선택적으로, 적응 수정 계수를 사용하여 수동으로 재구성된 전방향 신호의 샘플링 포인트에 대해 이득 수정이 수행될 때, 현재 프레임에서의 타겟 사운드 채널상의 전방향 신호 및 전이 세그먼트 신호를 생성하는 특정 프로세스가 도 8에 도시될 수 있다.
810. 현재 프레임에서의 채널 간 시간차에 기초하여 전이 세그먼트의 적응 길이를 결정한다.
단계(810) 전에, 현재 프레임에서의 타겟 사운드 채널 신호 및 현재 프레임에서의 참조 사운드 채널 신호가 먼저 획득될 필요가 있고, 이어서 현재 프레임에서의 타겟 사운드 채널 신호와 현재 프레임에서의 참조 사운드 채널 신호 사이의 시간 차가 추정되어 현재 프레임에서의 채널 간 시간차를 획득한다.
820. 현재 프레임에서의 전이 세그먼트의 적응 길이에 기초하여 현재 프레임에서의 전이 윈도우를 결정한다.
830. 현재 프레임에서 이득 수정 인자를 결정한다.
단계(830)에서, 이득 수정 인자는 (현재 프레임에서의 채널 간 시간차, 현재 프레임에서의 타겟 사운드 채널 신호, 및 현재 프레임에서의 참조 사운드 채널 신호에 기초하여) 기존 방식으로 결정될 수 있거나, 또는 이득 수정 인자는 (현재 프레임에서의 전이 윈도우, 현재 프레임의 프레임 길이, 현재 프레임에서의 타겟 사운드 채널 신호, 현재 프레임에서의 참조 사운드 채널 신호, 및 현재 프레임에서의 채널 간 시간차에 기초하여) 본 출원에 따른 방식으로 결정될 수 있다.
840. 현재 프레임에서의 이득 수정 인자, 현재 프레임에서의 참조 사운드 채널 신호, 및 현재 프레임에서의 타겟 사운드 채널 신호에 기초하여 현재 프레임에서의 타겟 사운드 채널 신호에 대한 전이 세그먼트 신호를 생성한다.
850. 현재 프레임에서의 이득 수정 인자 및 현재 프레임에서의 참조 사운드 채널 신호에 기초하여 현재 프레임에서의 타겟 사운드 채널상의 전방향 신호를 수동으로 재구성한다.
860. 적응 수정 계수를 결정한다.
적응 수정 계수는 수학식 24에 따라 결정될 수 있다.
870. 적응 수정 계수에 기초하여 타겟 사운드 채널상의 포인트 (N - adp_Ts)로부터 포인트 (N + abs(cur_itd) - 1)까지의 신호를 수정하여, 타겟 사운드 채널상의 포인트 (N - adp_Ts)로부터 포인트 (N + abs(cur_itd) - 1)까지의 수정된 신호를 획득한다.
단계 870에서 획득되는, 타겟 사운드 채널상의 포인트 (N - adp_Ts)로부터 포인트 (N + abs(cur_itd) - 1)까지의 수정된 신호는 현재 프레임에서의 타겟 사운드 채널상의 수정된 전이 세그먼트 신호 및 현재 프레임에서의 타겟 사운드 채널상의 수정된 전방향 신호이다.
본 출원에서, 스테레오 인코딩 동안 모노 코딩 알고리즘을 사용하여 획득된 선형 예측 분석 결과에 대해 수동으로 재구성된 전방향 신호와 실제 전방향 신호 사이의 차이에 의해 이뤄지는 영향을 추가로 감소시키기 위해, 이득 수정 인자는 이득 수정 인자가 결정된 후에 수정될 수 있거나, 또는 현재 프레임에서의 타겟 사운드 채널상의 전방향 신호 및 전이 세그먼트 신호는 현재 프레임에서의 타겟 사운드 채널상의 전방향 신호 및 전이 세그먼트 신호가 생성된 후에 수정될 수 있다. 이는 둘 모두 최종적으로 획득된 전방향 신호를 더 정확하게 만들고, 스테레오 인코딩에서 모노 코딩 알고리즘을 사용하여 획득된 선형 예측 분석 결과에 대해 수동으로 재구성된 전방향 신호와 실제 전방향 신호 사이의 차이에 의해 이뤄지는 영향을 더 감소시킬 수 있다.
본 출원의 이 실시예에서, 현재 프레임에서의 타겟 사운드 채널상의 전방향 신호 및 전이 세그먼트 신호가 생성된 후에, 스테레오 신호를 인코딩하기 위해, 대응하는 인코딩 단계가 추가로 포함될 수 있다는 것을 이해해야 한다. 스테레오 신호의 전체 인코딩 프로세스를 더 잘 이해하기 위해, 이하에서 도 9를 참조하여 본 출원의 실시예들에서 스테레오 신호 인코딩 동안 신호를 재구성하기 위한 방법을 포함하는 스테레오 신호 인코딩 방법을 상세히 설명한다. 도 9의 스테레오 신호 인코딩 방법은 다음의 단계들을 포함한다.
901. 현재 프레임에서 채널 간 시간차를 결정한다.
구체적으로, 현재 프레임에서의 채널 간 시간차는 현재 프레임에서의 좌측 사운드 채널 신호와 우측 사운드 채널 신호 사이의 시간 차이다.
여기서의 처리된 스테레오 신호는 좌측 사운드 채널 신호 및 우측 사운드 채널 신호를 포함할 수 있고, 현재 프레임에서의 채널 간 시간차는 좌측 사운드 채널 신호와 우측 사운드 채널 신호 사이의 지연을 추정함으로써 획득될 수 있다는 점이 이해되어야 한다. 예를 들어, 좌측 사운드 채널과 우측 사운드 채널 사이의 교차-상관 계수는 현재 프레임에서의 좌측 사운드 채널 신호 및 우측 사운드 채널 신호에 기초하여 계산되고, 이어서 교차-상관 계수의 최대값에 대응하는 인덱스 값이 현재 프레임에서의 채널 간 시간차로서 사용된다.
선택적으로, 채널 간 시간차는 현재 프레임에서의 전처리된 좌측 채널 시간 도메인 신호 및 전처리된 우측 채널 시간 도메인 신호에 기초하여 추정되어, 현재 프레임에서의 채널 간 시간차를 결정할 수 있다. 시간 도메인 처리가 스테레오 신호에 대해 수행될 때, 현재 프레임에서의 좌측 사운드 채널 신호 및 우측 사운드 채널 신호에 대해 고역 통과 필터링 처리가 구체적으로 수행되어, 현재 프레임에서의 전처리된 좌측 사운드 채널 신호 및 전처리된 좌측 사운드 채널 신호를 획득할 수 있다. 또한, 여기서의 시간 도메인 전처리는 고역 통과 필터링 처리에 더하여 프리 엠퍼시스(pre-emphasis) 처리와 같은 다른 처리일 수 있다.
902. 채널 간 시간차에 기초하여 현재 프레임에서의 좌측 사운드 채널 신호 및 우측 사운드 채널 신호에 대해 지연 정렬 처리를 수행한다.
현재 프레임에서 좌측 사운드 채널 신호 및 우측 사운드 채널 신호에 대해 지연 정렬 처리가 수행될 때, 압축 또는 신장 처리는 현재 프레임에서의 채널 간 시간차에 기초하여 좌측 사운드 채널 신호 및 우측 사운드 채널 신호 중 어느 하나 또는 둘 다에 대해 수행될 수 있어서, 지연 정렬 처리 후에 획득되는 좌측 사운드 채널 신호와 우측 사운드 채널 신호 사이에 어떠한 채널 간 시간차도 존재하지 않도록 한다. 현재 프레임에서 좌측 사운드 채널 신호 및 우측 사운드 채널 신호에 대해 지연 정렬 처리가 수행된 후에 획득되는 신호들은 현재 프레임에서의 지연 정렬 처리 후에 획득되는 스테레오 신호들이다.
채널 간 시간차에 기초하여 현재 프레임에서의 좌측 사운드 채널 신호 및 우측 사운드 채널 신호에 대해 지연 정렬 처리가 수행될 때, 현재 프레임에서의 타겟 사운드 채널 및 참조 사운드 채널은 현재 프레임에서의 채널 간 시간차 및 이전 프레임에서의 채널 간 시간차에 기초하여 먼저 선택될 필요가 있다. 그 후, 지연 정렬 처리는 현재 프레임에서의 채널 간 시간차의 절대값 abs(cur_itd)와 현재 프레임의 이전 프레임에서의 채널 간 시간차의 절대값 abs(prev_itd) 사이의 비교의 결과에 의존하여 상이한 방식들로 수행될 수 있다. 지연 정렬 처리는 타겟 사운드 채널 신호에 대해 수행되는 신장 또는 압축 처리 및 신호 재구성 처리를 포함할 수 있다.
구체적으로, 단계 902는 단계 9021 내지 단계 9027을 포함한다.
9021. 현재 프레임에서 참조 사운드 채널 및 타겟 사운드 채널을 결정한다.
현재 프레임에서의 채널 간 시간차는 cur_itd로 표시되고, 이전 프레임에서의 채널 간 시간차는 prev_itd로 표시된다. 구체적으로, 현재 프레임에서의 채널 간 시간차 및 이전 프레임에서의 채널 간 시간차에 기초하여 현재 프레임에서의 타겟 사운드 채널 및 참조 사운드 채널을 선택하는 것이 이하에서 설명될 수 있다. cur_itd = 0인 경우, 현재 프레임에서의 타겟 사운드 채널은 이전 프레임에서의 타겟 사운드 채널과 일치하게 유지되고; cur_itd < 0인 경우, 현재 프레임에서의 타겟 사운드 채널은 좌측 사운드 채널이고; 또는 cur_itd > 0인 경우, 현재 프레임에서의 타겟 사운드 채널은 우측 사운드 채널이다.
9022. 현재 프레임에서의 채널 간 시간차에 기초하여 전이 세그먼트의 적응 길이를 결정한다.
9023. 신장 또는 압축 처리가 타겟 사운드 채널 신호에 대해 수행될 필요가 있는지를 결정하고, 만일 그렇다면, 현재 프레임에서의 채널 간 시간차 및 현재 프레임의 이전 프레임에서의 채널 간 시간차에 기초하여 타겟 사운드 채널 신호에 대해 신장 또는 압축 처리를 수행한다.
구체적으로, 현재 프레임에서의 채널 간 시간차의 절대값 abs(cur_itd)와 현재 프레임의 이전 프레임에서의 채널 간 시간차의 절대값 abs(prev_itd) 간의 비교의 결과에 의존하여 상이한 방식들이 사용될 수 있다. 구체적으로, 이하의 3가지 사례가 포함된다.
사례 1: abs(cur_itd)는 abs(prev_itd)와 동일하다.
현재 프레임에서의 채널 간 시간차의 절대값이 현재 프레임의 이전 프레임에서의 채널 간 시간차의 절대값과 동일할 때, 타겟 사운드 채널 신호에 대해 어떠한 압축 또는 신장 처리도 수행되지 않는다. 도 10에 도시된 바와 같이, 현재 프레임에서의 타겟 사운드 채널 신호의 포인트 0으로부터 포인트 (N - adp_Ts - 1)까지의 신호는 지연 정렬 처리 후의 타겟 사운드 채널상의 포인트 0로부터 포인트 (N - adp_Ts - 1)까지의 신호로서 직접 사용된다.
사례 2: abs(cur_itd)는 abs(prev_itd)보다 작다.
도 11에 도시된 바와 같이, 현재 프레임에서의 채널 간 시간차의 절대값이 현재 프레임의 이전 프레임에서의 채널 간 시간차의 절대값보다 작을 때, 버퍼링된 타겟 사운드 채널 신호는 신장될 필요가 있다. 구체적으로, 현재 프레임에서 버퍼링된 타겟 사운드 채널 신호의 포인트 (-ts + abs(prev_itd) - abs(cur_itd))로부터 포인트 (L - ts - 1)까지의 신호는 L 포인트들의 길이를 갖는 신호로서 신장되고, 신장을 통해 획득된 신호는 지연 정렬 처리 후의 타겟 사운드 채널상의 포인트 -ts로부터 포인트 (L - ts - 1)까지의 신호로서 사용된다. 그 후, 현재 프레임에서의 타겟 사운드 채널 신호의 포인트 (L-ts)로부터 포인트 (N - adp_Ts - 1)까지의 신호는 지연 정렬 처리 후의 타겟 사운드 채널상의 포인트 (L-ts)로부터 포인트 (N - adp_Ts - 1)까지의 신호로서 직접 사용되고, adp_Ts는 전이 세그먼트의 적응 길이를 나타내고, ts는 프레임간 평활도를 증가시키도록 설정되는 프레임간 매끄러운 전이 세그먼트의 길이를 나타내고, L은 지연 정렬 처리를 위한 처리 길이를 나타낸다. L은 현재 레이트에서 프레임 길이 N 이하의 임의의 양의 정수일 수 있다. L은 일반적으로 허용가능한 최대 채널 간 시간차보다 큰 양의 정수에 설정된다. 예를 들어, L=290 또는 L=200이다. 상이한 샘플링 레이트들에 관하여, 지연 정렬 처리를 위한 처리 길이 L은 상이한 값들 또는 동일 값에 설정될 수 있다. 일반적으로, 가장 간단한 방법은 경험에 의해 통상의 기술자에 의해 L의 값을 미리 설정하는 것이고, 예를 들어, 값은 290에 설정된다.
사례 3: abs(cur_itd)는 abs(prev_itd)보다 크다.
도 12에 도시된 바와 같이, 현재 프레임에서의 채널 간 시간차의 절대값이 현재 프레임의 이전 프레임에서의 채널 간 시간차의 절대값보다 클 때, 버퍼링된 타겟 사운드 채널 신호에 대해 압축이 수행될 필요가 있다. 구체적으로, 현재 프레임에서 버퍼링된 타겟 사운드 채널 신호의 포인트 (-ts + abs(prev_itd) - abs(cur_itd))로부터 포인트 (L - ts - 1)까지의 신호는 L 포인트들의 길이를 갖는 신호로서 압축되고, 압축을 통해 획득된 신호는 지연 정렬 처리 후의 타겟 사운드 채널상의 포인트 -ts로부터 포인트 (L - ts - 1)까지의 신호로서 사용된다. 다음으로, 현재 프레임에서의 타겟 사운드 채널 신호의 포인트 (L-ts)로부터 포인트 (N - adp_Ts - 1)까지의 신호가 지연 정렬 처리 후의 타겟 사운드 채널상의 포인트 (L-ts)로부터 포인트 (N - adp_Ts - 1)까지의 신호로서 직접 사용되고, adp_Ts는 전이 세그먼트의 적응 길이를 나타내고, ts는 프레임간 평활도를 증가시키도록 설정되는 프레임간 매끄러운 전이 세그먼트의 길이를 나타내고, L은 여전히 지연 정렬 처리를 위한 처리 길이를 나타낸다.
9024. 전이 세그먼트의 적응 길이에 기초하여 현재 프레임에서의 전이 윈도우를 결정한다.
9025. 이득 수정 인자를 결정한다.
9026. 전이 세그먼트의 적응 길이, 현재 프레임에서의 전이 윈도우, 현재 프레임에서의 이득 수정 인자, 현재 프레임에서의 참조 사운드 채널 신호, 및 현재 프레임에서의 타겟 사운드 채널 신호에 기초하여, 현재 프레임에서의 타겟 사운드 채널 신호에 대한 전이 세그먼트 신호를 결정한다.
adp_Ts 포인트들의 길이를 갖는 신호는 전이 세그먼트의 적응 길이, 현재 프레임에서의 전이 윈도우, 이득 수정 인자, 현재 프레임에서의 참조 사운드 채널 신호, 및 현재 프레임에서의 타겟 사운드 채널 신호에 기초하여 생성된다. 다시 말해서, 현재 프레임에서의 타겟 사운드 채널에 대한 전이 세그먼트 신호는 지연 정렬 처리 후의 타겟 사운드 채널상의 포인트 (N-adp_Ts)로부터 포인트 (N-1)까지의 신호로서 사용된다.
9027. 현재 프레임에서의 참조 사운드 채널 신호 및 이득 수정 인자에 기초하여 현재 프레임에서의 타겟 사운드 채널상의 전방향 신호를 결정한다.
abs(cur_itd) 포인트들의 길이를 갖는 신호는 현재 프레임에서의 참조 사운드 채널 신호 및 이득 수정 인자에 기초하여 생성된다. 다시 말해서, 현재 프레임에서의 타겟 사운드 채널상의 전방향 신호는 지연 정렬 처리 후의 타겟 사운드 채널상의 포인트 N으로부터 포인트 (N + abs(cur_itd) - 1)까지의 신호로서 사용된다.
지연 정렬 처리 후에, 지연 정렬 처리 후의 타겟 사운드 채널상의 포인트 abs(cur_itd)로부터 시작하는 N 포인트들의 길이를 갖는 신호가 지연 정렬 처리 후의 현재 프레임에서의 타겟 사운드 채널 신호로서 최종적으로 사용된다는 점이 이해되어야 한다. 현재 프레임에서의 참조 사운드 채널 신호는 지연 정렬 후에 현재 프레임에서의 참조 사운드 채널 신호로서 직접 사용된다.
903. 현재 프레임에서 추정된 채널 간 시간차를 양자화한다.
채널 간 시간차를 양자화하기 위한 복수의 방법이 존재한다는 것을 이해해야 한다. 구체적으로, 양자화 처리는, 양자화 인덱스를 획득하기 위해, 현재 프레임에서 추정된 채널 간 시간차에 대해 임의의 종래 기술의 양자화 알고리즘을 사용함으로써 수행될 수 있고, 양자화 인덱스는 인코딩되어 인코딩된 비트스트림에 기입된다.
904. 현재 프레임에서 지연 정렬이 수행되는 스테레오 신호에 기초하여, 사운드 채널 조합 비 인자를 계산하고 양자화를 수행한다.
지연 정렬 처리 후에 획득되는 좌측 사운드 채널 신호 및 우측 사운드 채널 신호에 대해 시간 도메인 다운믹싱 처리가 수행될 때, 좌측 사운드 채널 신호 및 우측 사운드 채널 신호에 대해 다운믹싱이 수행되어 중간 채널(Mid channel) 신호 및 사이드 채널(Side channel) 신호를 획득할 수 있다. 중간 채널 신호는 좌측 사운드 채널과 우측 사운드 채널 사이의 관련 정보를 표시할 수 있고, 사이드 채널 신호는 좌측 사운드 채널과 우측 사운드 채널 사이의 차이 정보를 표시할 수 있다.
L이 좌측 사운드 채널 신호를 나타내고 R이 우측 사운드 채널 신호를 나타낸다고 가정하면, 중간 채널 신호는 0.5*(L + R)이고, 사이드 채널 신호는 0.5*(L - R)이다.
또한, 지연 정렬 처리 후에 획득되는 좌측 사운드 채널 신호 및 우측 사운드 채널 신호에 대해 시간 도메인 다운믹싱 처리가 수행될 때, 다운믹싱 처리에서 좌측 사운드 채널 신호 대 우측 사운드 채널 신호의 비율을 제어하기 위해, 사운드 채널 조합 비 인자가 추가로 계산될 수 있다. 그 후, 사운드 채널 조합 비 인자에 기초하여 좌측 사운드 채널 신호 및 우측 사운드 채널 신호에 대해 시간 도메인 다운믹싱 처리가 수행되어, 주 사운드 채널 신호 및 보조 사운드 채널 신호를 획득한다.
사운드 채널 조합 비 인자를 계산하기 위한 복수의 방법이 존재한다. 예를 들어, 현재 프레임에서의 사운드 채널 조합 비 인자는 좌측 사운드 채널 및 우측 사운드 채널상의 프레임 에너지에 기초하여 계산될 수 있다. 특정 프로세스는 다음과 같이 설명된다:
(1) 지연 정렬 후에 획득된 좌측 사운드 채널 신호 및 우측 사운드 채널 신호에 기초하여 현재 프레임에서 좌측 사운드 채널 신호 및 우측 사운드 채널 신호의 프레임 에너지를 계산한다.
현재 프레임에서의 좌측 사운드 채널상의 프레임 에너지
는 다음을 만족한다:
현재 프레임에서의 우측 사운드 채널상의 프레임 에너지
는 다음을 만족한다:
은 지연 정렬 후에 획득되는 현재 프레임에서의 좌측 사운드 채널 신호를 나타내고,
은 지연 정렬 이후 획득되는 현재 프레임에서의 우측 사운드 채널 신호를 나타내고, 여기서 i는 샘플링 포인트 번호를 나타낸다.
(2) 좌측 사운드 채널 및 우측 사운드 채널의 프레임 에너지에 기초하여 현재 프레임에서의 사운드 채널 조합 비 인자를 계산한다.
현재 프레임에서의 사운드 채널 조합 비 인자
는 다음을 만족한다:
따라서, 사운드 채널 조합 비 인자는 좌측 사운드 채널 신호 및 우측 사운드 채널 신호의 프레임 에너지에 기초하여 계산된다.
(3) 사운드 채널 조합 비 인자를 양자화하고, 양자화된 사운드 채널 조합 비 인자를 비트스트림에 기입한다.
구체적으로, 현재 프레임에서의 계산된 사운드 채널 조합 비 인자는 대응하는 양자화 인덱스
및 현재 프레임에서의 양자화된 사운드 채널 조합 비 인자
를 획득하도록 양자화되고, 여기서
및
은 수학식 29를 만족한다:
은 스칼라 양자화된 코드북을 나타낸다. 양자화는 임의의 종래 기술의 스칼라 양자화 방법, 예를 들어, 균일 스칼라 양자화 또는 불균일 스칼라 양자화를 사용하여 사운드 채널 조합 비 인자에 대해 수행될 수 있다. 인코딩된 비트들의 양은 5 비트 또는 그와 유사한 것일 수 있다.
905. 사운드 채널 조합 비 인자에 기초하여, 현재 프레임에서의 지연 정렬 후에 획득된 스테레오 신호에 대한 시간 도메인 다운믹싱 처리를 수행하여, 주 사운드 채널 신호 및 보조 사운드 채널 신호를 획득한다.
단계(905)에서, 임의의 종래 기술의 시간 도메인 다운믹싱 처리 기술을 이용함으로써 다운믹싱 처리가 수행될 수 있다. 그러나, 대응하는 시간 도메인 다운믹싱 처리 방식은, 지연 정렬 후에 획득된 스테레오 신호에 대해 시간 도메인 다운믹싱 처리를 수행하기 위해, 사운드 채널 조합 비 인자를 계산하기 위한 방법에 기초하여 선택될 필요가 있고, 그에 따라 주 사운드 채널 신호 및 보조 사운드 채널 신호를 획득한다는 점에 유의해야 한다.
사운드 채널 조합 비 인자가 획득된 후에, 사운드 채널 조합 비 인자에 기초하여 시간 도메인 다운믹싱 처리가 수행될 수 있다. 예를 들어, 시간 도메인 다운믹싱 처리 후에 획득된 주 사운드 채널 신호 및 보조 사운드 채널 신호는 수학식 30에 따라 결정될 수 있다:
Y(i)는 현재 프레임에서의 주 사운드 채널 신호를 나타내고, X(i)는 현재 프레임에서의 보조 사운드 채널 신호를 나타내고,
은 지연 정렬 후에 획득된 현재 프레임에서의 좌측 사운드 채널 신호를 나타내고,
은 지연 정렬 후에 획득된 현재 프레임에서의 우측 사운드 채널 신호를 나타내고, i는 샘플링 포인트 수를 나타내고, N은 프레임 길이를 나타내고, ratio는 사운드 채널 조합 비 인자를 나타낸다.
906. 주 사운드 채널 신호 및 보조 사운드 채널 신호를 인코딩한다.
인코딩 처리는, 다운믹싱 처리 후에 획득된 주 사운드 채널 신호 및 보조 사운드 채널 신호에 대해 모노 신호 인코딩/디코딩 방법을 이용하여 수행될 수 있다는 것을 이해해야 한다. 구체적으로, 주 사운드 채널 및 보조 사운드 채널상에서 인코딩될 비트들은 이전 프레임에서 주 사운드 채널 신호 및/또는 보조 사운드 채널 신호를 인코딩하는 프로세스에서 획득된 파라미터 정보 및 주 사운드 채널 신호를 인코딩하고 및 보조 사운드 채널 신호 인코딩을 위해 사용될 비트들의 총량에 기초하여 할당될 수 있다. 그 후, 주 사운드 채널 신호 및 보조 사운드 채널 신호는 비트 할당 결과에 기초하여 개별적으로 인코딩되어, 주 사운드 채널 신호가 인코딩된 후에 획득되는 인코딩 인덱스들 및 보조 사운드 채널 신호가 인코딩된 후에 획득되는 인코딩 인덱스들을 획득한다. 또한, 인코딩 방식의 대수 코드 여기 선형 예측(Algebraic Code Excited Linear Prediction, ACELP)이 주 사운드 채널 신호 및 보조 사운드 채널 신호를 인코딩하기 위해 사용될 수 있다.
전술한 내용은 도 1 내지 도 12를 참조하여 본 출원의 실시예들에서 스테레오 신호 인코딩 동안 신호를 재구성하기 위한 방법을 상세하게 설명하였다. 이하에서는 도 13 내지 도 16을 참조하여 본 출원의 실시예들에서 스테레오 신호 인코딩 동안 신호를 재구성하기 위한 장치들을 설명한다. 도 13 내지 도 16의 장치들은 본 출원의 실시예들에서 스테레오 신호 인코딩 동안 신호를 재구성하기 위한 방법들에 대응하는 것임을 이해해야 한다. 또한, 도 13 내지 도 16의 장치들은 본 출원의 실시예들에서 스테레오 신호 인코딩 동안 신호를 재구성하기 위한 방법들을 수행할 수 있다. 간결성을 위해, 반복된 설명은 이하에서 적절히 생략된다.
도 13은 본 출원의 실시예에 따라 스테레오 신호 인코딩 동안 신호를 재구성하기 위한 장치의 개략적 블록도이다. 도 13의 장치(1300)는 다음을 포함한다:
현재 프레임에서 참조 사운드 채널 및 타겟 사운드 채널을 결정하도록 구성된 제1 결정 모듈(1310);
현재 프레임에서의 채널 간 시간차 및 현재 프레임에서의 전이 세그먼트의 초기 길이에 기초하여 현재 프레임에서의 전이 세그먼트의 적응 길이를 결정하도록 구성된 제2 결정 모듈(1320);
현재 프레임에서의 전이 세그먼트의 적응 길이에 기초하여 현재 프레임에서의 전이 윈도우를 결정하도록 구성된 제3 결정 모듈(1330);
현재 프레임에서 재구성된 신호의 이득 수정 인자를 결정하도록 구성된 제4 결정 모듈(1340); 및
현재 프레임에서의 채널 간 시간차, 현재 프레임에서의 전이 세그먼트의 적응 길이, 현재 프레임에서의 전이 윈도우, 현재 프레임에서의 이득 수정 인자, 현재 프레임에서의 참조 사운드 채널 신호, 및 현재 프레임에서의 타겟 사운드 채널 신호에 기초하여, 현재 프레임에서의 타겟 사운드 채널에 대한 전이 세그먼트 신호를 결정하도록 구성된 제5 결정 모듈(1350).
본 출원에서, 적응 길이를 갖는 전이 세그먼트가 설정되고, 전이 세그먼트의 적응 길이에 기초하여 전이 윈도우가 결정된다. 고정 길이를 갖는 전이 세그먼트를 사용함으로써 전이 윈도우를 결정하는 종래 기술 방식과 비교하여, 현재 프레임에서의 타겟 사운드 채널상의 실제 신호와 현재 프레임에서의 타겟 사운드 채널상의 수동으로 재구성된 신호 사이에 더 매끄러운 전이를 이룰 수 있는 전이 세그먼트 신호가 획득될 수 있다.
선택적으로, 실시예에서, 제2 결정 모듈(1320)은: 현재 프레임에서의 채널 간 시간차의 절대값이 현재 프레임에서 전이 세그먼트의 초기 길이 이상일 때, 현재 프레임에서의 전이 세그먼트의 초기 길이를 현재 프레임에서의 전이 세그먼트의 적응 길이로서 결정하고; 또는 현재 프레임에서의 채널 간 시간차의 절대값이 현재 프레임에서의 전이 세그먼트의 초기 길이보다 작을 때, 현재 프레임에서의 채널 간 시간차의 절대값을 전이 세그먼트의 적응 길이로서 결정하도록 구체적으로 구성된다.
선택적으로, 실시예에서, 현재 프레임에서 타겟 사운드 채널에 대한 것이고 제5 결정 모듈(1350)에 의해 결정되는 전이 세그먼트 신호는 다음의 수학식을 만족한다:
transition_seg(.)는 현재 프레임에서의 타겟 사운드 채널에 대한 전이 세그먼트 신호를 나타내고, adp_Ts는 현재 프레임에서의 전이 세그먼트의 적응 길이를 나타내고, w(.)는 현재 프레임에서의 전이 윈도우를 나타내고,
은 현재 프레임에서의 이득 수정 인자를 나타내고, target(.)은 현재 프레임에서의 타겟 사운드 채널 신호를 나타내고, reference(.)는 현재 프레임에서의 참조 사운드 채널 신호를 나타내고, cur_itd는 현재 프레임에서의 채널 간 시간차를 나타내고, abs(cur_itd)는 현재 프레임에서의 채널 간 시간차의 절대값을 나타내고, N은 현재 프레임의 프레임 길이를 나타낸다.
선택적으로, 실시예에서, 제4 결정 모듈(1340)은: 현재 프레임에서의 전이 윈도우, 현재 프레임에서의 전이 세그먼트의 적응 길이, 현재 프레임에서의 타겟 사운드 채널 신호, 현재 프레임에서의 참조 사운드 채널 신호, 및 현재 프레임에서의 채널 간 시간차에 기초하여 초기 이득 수정 인자를 결정하고;
현재 프레임에서의 전이 윈도우, 현재 프레임에서의 전이 세그먼트의 적응 길이, 현재 프레임에서의 타겟 사운드 채널 신호, 현재 프레임에서의 참조 사운드 채널 신호, 및 현재 프레임에서의 채널 간 시간차에 기초하여 초기 이득 수정 인자를 결정하고; 및 제1 수정 계수에 기초하여 초기 이득 수정 인자를 수정하여 현재 프레임에서의 이득 수정 인자를 획득하고 - 제1 수정 계수는 0보다 크고 1보다 작은 미리 설정된 실수임 -; 또는
현재 프레임에서의 채널 간 시간차, 현재 프레임에서의 타겟 사운드 채널 신호, 및 현재 프레임에서의 참조 사운드 채널 신호에 기초하여 초기 이득 수정 인자를 결정하고; 및 제2 수정 계수에 기초하여 초기 이득 수정 인자를 수정하여 현재 프레임에서의 이득 수정 인자를 획득하도록 - 제2 수정 계수는 0보다 크고 1보다 작은 미리 설정된 실수이거나 미리 설정된 알고리즘에 따라 결정됨 - 구체적으로 구성된다.
선택적으로, 실시예에서, 제4 결정 모듈(1340)에 의해 결정되는 초기 이득 수정 인자는 다음의 수학식을 만족한다:
여기서 K는 에너지 감쇠 계수를 나타내고, K는 미리 설정된 실수이고,
이고;
은 현재 프레임에서의 이득 수정 인자를 나타내고; w(.)는 현재 프레임에서의 전이 윈도우를 나타내고; x(.)는 현재 프레임에서의 타겟 사운드 채널 신호를 나타내고; y(.)는 현재 프레임에서의 참조 사운드 채널 신호를 나타내고; N은 현재 프레임의 프레임 길이를 나타내고;
은 타겟 사운드 채널의 것이고 전이 윈도우의 시작 샘플링 포인트 인덱스에 대응하는 샘플링 포인트 인덱스를 나타내고;
은 타겟 사운드 채널의 것이고 전이 윈도우의 종료 샘플링 포인트 인덱스에 대응하는 샘플링 포인트 인덱스를 나타내고,
이고,
은 타겟 사운드 채널의 것이고 이득 수정 인자를 계산하기 위해 사용되는 미리 설정된 시작 샘플링 포인트 인덱스를 나타내고,
이고; cur_itd는 현재 프레임에서의 채널 간 시간차를 나타내고; abs(cur_itd)는 현재 프레임에서의 채널 간 시간차의 절대값을 나타내고; 및 adp_Ts는 현재 프레임에서의 전이 세그먼트의 적응 길이를 나타낸다.
선택적으로, 실시예에서, 장치(1300)는: 현재 프레임에서의 채널 간 시간차, 현재 프레임에서의 이득 수정 인자, 및 현재 프레임에서의 참조 사운드 채널 신호에 기초하여 현재 프레임에서의 타겟 사운드 채널상의 전방향 신호를 결정하도록 구성된 제6 결정 모듈(1360)을 추가로 포함한다.
선택적으로, 실시예에서, 현재 프레임에서의 타겟 사운드 채널상에 있고 제6 결정 모듈(1360)에 의해 결정되는 전방향 신호는 다음의 수학식을 만족한다:
reconstruction_seg(.)는 현재 프레임에서의 타겟 사운드 채널상의 전방향 신호를 나타내고,
은 현재 프레임에서의 이득 수정 인자를 나타내고, reference(.)는 현재 프레임에서의 참조 사운드 채널 신호를 나타내고, cur_itd는 현재 프레임에서의 채널 간 시간차를 나타내고, abs(cur_itd)는 현재 프레임에서의 채널 간 시간차의 절대값을 나타내고, N은 현재 프레임의 프레임 길이를 나타낸다.
선택적으로, 실시예에서, 제2 수정 계수가 미리 설정된 알고리즘에 따라 결정될 때, 제2 수정 계수는, 현재 프레임에서의 참조 사운드 채널 신호 및 타겟 사운드 채널 신호, 현재 프레임에서의 채널 간 시간차, 현재 프레임에서의 전이 세그먼트의 적응 길이, 현재 프레임에서의 전이 윈도우, 및 현재 프레임에서의 이득 수정 인자에 기초하여 결정된다.
선택적으로, 실시예에서, 제2 수정 계수는 다음의 수학식을 만족한다:
여기서 adj_fac는 제2 수정 계수를 나타내고; K는 에너지 감쇠 계수를 나타내고, K는 미리 설정된 실수이고,
이고, K의 값은 경험에 의해 통상의 기술자에 의해 설정될 수 있고;
은 현재 프레임에서의 이득 수정 인자를 나타내고; w(.)는 현재 프레임에서의 전이 윈도우를 나타내고; x(.)는 현재 프레임에서의 타겟 사운드 채널 신호를 나타내고; y(.)는 현재 프레임에서의 참조 사운드 채널 신호를 나타내고; N은 현재 프레임의 프레임 길이를 나타내고;
은 전이 윈도우의 시작 샘플링 포인트 인덱스에 대응하는 타겟 사운드 채널의 샘플링 포인트 인덱스를 나타내고;
은 전이 윈도우의 종료 샘플링 포인트 인덱스에 대응하는 타겟 사운드 채널의 샘플링 포인트 인덱스를 나타내고,
및 T
d = N-abs(cur_itd)이고;
은 타겟 사운드 채널의 것이고 이득 수정 인자를 계산하기 위해 사용되는 미리 설정된 시작 샘플링 포인트 인덱스를 나타내고, 및 0≤T
0<T
s이고; cur_itd는 현재 프레임에서의 채널 간 시간차를 나타내고; abs(cur_itd)는 현재 프레임에서의 채널 간 시간차의 절대값을 나타내고; 및 adp_Ts는 현재 프레임에서의 전이 세그먼트의 적응 길이를 나타낸다.
선택적으로, 실시예에서, 제2 수정 계수는 다음의 수학식을 만족한다:
여기서 adj_fac는 제2 수정 계수를 나타내고; K는 에너지 감쇠 계수를 나타내고, K는 미리 설정된 실수이고,
이고, K의 값은 경험에 의해 통상의 기술자에 의해 설정될 수 있고;
은 현재 프레임에서의 이득 수정 인자를 나타내고; w(.)는 현재 프레임에서의 전이 윈도우를 나타내고; x(.)는 현재 프레임에서의 타겟 사운드 채널 신호를 나타내고; y(.)는 현재 프레임에서의 참조 사운드 채널 신호를 나타내고; N은 현재 프레임의 프레임 길이를 나타내고;
은 전이 윈도우의 시작 샘플링 포인트 인덱스에 대응하는 타겟 사운드 채널의 샘플링 포인트 인덱스를 나타내고;
은 전이 윈도우의 종료 샘플링 포인트 인덱스에 대응하는 타겟 사운드 채널의 샘플링 포인트 인덱스를 나타내고,
및 T
d = N-abs(cur_itd)이고;
은 이득 수정 인자를 계산하기 위해 사용되는 타겟 사운드 채널의 미리 설정된 시작 샘플링 포인트 인덱스를 나타내고, 및
이고; cur_itd는 현재 프레임에서의 채널 간 시간차를 나타내고; abs(cur_itd)는 현재 프레임에서의 채널 간 시간차의 절대값을 나타내고; 및 adp_Ts는 현재 프레임에서의 전이 세그먼트의 적응 길이를 나타낸다.
도 14는 본 출원의 실시예에 따라 스테레오 신호 인코딩 동안 신호를 재구성하기 위한 장치의 개략적 블록도이다. 도 14의 장치(1400)는 다음을 포함한다:
현재 프레임에서 참조 사운드 채널 및 타겟 사운드 채널을 결정하도록 구성된 제1 결정 모듈(1410);
현재 프레임에서의 채널 간 시간차 및 현재 프레임에서의 전이 세그먼트의 초기 길이에 기초하여 현재 프레임에서의 전이 세그먼트의 적응 길이를 결정하도록 구성된 제2 결정 모듈(1420);
현재 프레임에서의 전이 세그먼트의 적응 길이에 기초하여 현재 프레임에서의 전이 윈도우를 결정하도록 구성된 제3 결정 모듈(1430); 및
현재 프레임에서의 전이 세그먼트의 적응 길이, 현재 프레임에서의 전이 윈도우, 및 현재 프레임에서의 타겟 사운드 채널 신호에 기초하여, 현재 프레임에서의 타겟 사운드 채널에 대한 전이 세그먼트 신호를 결정하도록 구성된 제4 결정 모듈(1440).
본 출원에서, 적응 길이를 갖는 전이 세그먼트가 설정되고, 전이 세그먼트의 적응 길이에 기초하여 전이 윈도우가 결정된다. 고정 길이를 갖는 전이 세그먼트를 사용함으로써 전이 윈도우를 결정하는 종래 기술 방식과 비교하여, 현재 프레임에서의 타겟 사운드 채널상의 실제 신호와 현재 프레임에서의 타겟 사운드 채널상의 수동으로 재구성된 신호 사이에 더 매끄러운 전이를 이룰 수 있는 전이 세그먼트 신호가 획득될 수 있다.
선택적으로, 실시예에서, 장치(1400)는:
현재 프레임에서의 타겟 사운드 채널상의 전방향 신호를 0에 설정하도록 구성된 처리 모듈(1450)을 추가로 포함한다.
선택적으로, 실시예에서, 제2 결정 모듈(1420)은: 현재 프레임에서의 채널 간 시간차의 절대값이 현재 프레임에서의 전이 세그먼트의 초기 길이 이상일 때, 현재 프레임에서의 전이 세그먼트의 초기 길이를 현재 프레임에서의 전이 세그먼트의 적응 길이로서 결정하거나; 또는 현재 프레임에서의 채널 간 시간차의 절대값이 현재 프레임에서의 전이 세그먼트의 초기 길이보다 작을 때, 현재 프레임에서의 채널 간 시간차의 절대값을 전이 세그먼트의 적응 길이로서 결정하도록 구체적으로 구성된다.
선택적으로, 실시예에서, 현재 프레임에서 타겟 사운드 채널에 대한 것이고 제4 결정 모듈(1440)에 의해 결정되는 전이 세그먼트 신호는 다음의 수학식을 만족한다:
transition_seg(.)는 현재 프레임에서의 타겟 사운드 채널에 대한 전이 세그먼트 신호를 나타내고, adp_Ts는 현재 프레임에서의 전이 세그먼트의 적응 길이를 나타내고, w(.)는 현재 프레임에서의 전이 윈도우를 나타내고, target(.)은 현재 프레임에서의 타겟 사운드 채널 신호를 나타내고, cur_itd는 현재 프레임에서의 채널 간 시간차를 나타내고, abs(cur_itd)는 현재 프레임에서의 채널 간 시간차의 절대값을 나타내고, N은 현재 프레임의 프레임 길이를 나타낸다.
도 15는 본 출원의 실시예에 따라 스테레오 신호 인코딩 동안 신호를 재구성하기 위한 장치의 개략적 블록도이다. 도 15의 장치(1500)는:
프로그램을 저장하도록 구성된 메모리(1510); 및
메모리(1510)에 저장된 프로그램을 실행하도록 구성된 프로세서(1520)를 포함하고, 및 메모리(1510)에서의 프로그램이 실행될 때, 프로세서(1520)는: 현재 프레임에서 참조 사운드 채널 및 타겟 사운드 채널을 결정하고; 현재 프레임에서의 채널 간 시간차 및 현재 프레임에서의 전이 세그먼트의 초기 길이에 기초하여 현재 프레임에서의 전이 세그먼트의 적응 길이를 결정하고; 현재 프레임에서의 전이 세그먼트의 적응 길이에 기초하여 현재 프레임에서의 전이 윈도우를 결정하고; 현재 프레임에서 재구성된 신호의 이득 수정 인자를 결정하고; 및 현재 프레임에서의 채널 간 시간차, 현재 프레임에서의 전이 세그먼트의 적응 길이, 현재 프레임에서의 전이 윈도우, 현재 프레임에서의 이득 수정 인자, 현재 프레임에서의 참조 사운드 채널 신호, 및 현재 프레임에서의 타겟 사운드 채널 신호에 기초하여 현재 프레임에서의 타겟 사운드 채널 신호에 대한 전이 세그먼트 신호를 결정하도록 구체적으로 구성된다.
선택적으로, 실시예에서, 프로세서(1520)는: 현재 프레임에서의 채널 간 시간차의 절대값이 현재 프레임에서의 전이 세그먼트의 초기 길이 이상일 때, 현재 프레임에서의 전이 세그먼트의 초기 길이를 현재 프레임에서의 전이 세그먼트의 적응 길이로서 결정하거나; 또는 현재 프레임에서의 채널 간 시간차의 절대값이 현재 프레임에서의 전이 세그먼트의 초기 길이보다 작을 때, 현재 프레임에서의 채널 간 시간차의 절대값을 전이 세그먼트의 적응 길이로서 결정하도록 구체적으로 구성된다.
선택적으로, 실시예에서, 현재 프레임에서의 타겟 사운드 채널에 대한 것이고 프로세서(1520)에 의해 결정되는 전이 세그먼트 신호는 다음의 수학식을 만족한다:
transition_seg(.)는 현재 프레임에서의 타겟 사운드 채널에 대한 전이 세그먼트 신호를 나타내고, adp_Ts는 현재 프레임에서의 전이 세그먼트의 적응 길이를 나타내고, w(.)는 현재 프레임에서의 전이 윈도우를 나타내고,
은 현재 프레임에서의 이득 수정 인자를 나타내고, target(.)은 현재 프레임에서의 타겟 사운드 채널 신호를 나타내고, reference(.)는 현재 프레임에서의 참조 사운드 채널 신호를 나타내고, cur_itd는 현재 프레임에서의 채널 간 시간차를 나타내고, abs(cur_itd)는 현재 프레임에서의 채널 간 시간차의 절대값을 나타내고, N은 현재 프레임의 프레임 길이를 나타낸다.
선택적으로, 실시예에서, 프로세서(1520)는:
현재 프레임에서의 전이 윈도우, 현재 프레임에서의 전이 세그먼트의 적응 길이, 현재 프레임에서의 타겟 사운드 채널 신호, 현재 프레임에서의 참조 사운드 채널 신호, 및 현재 프레임에서의 채널 간 시간차에 기초하여 초기 이득 수정 인자를 결정하고;
현재 프레임에서의 전이 윈도우, 현재 프레임에서의 전이 세그먼트의 적응 길이, 현재 프레임에서의 타겟 사운드 채널 신호, 현재 프레임에서의 참조 사운드 채널 신호, 및 현재 프레임에서의 채널 간 시간차에 기초하여 초기 이득 수정 인자를 결정하고; 및 제1 수정 계수에 기초하여 초기 이득 수정 인자를 수정하여 현재 프레임에서의 이득 수정 인자를 획득하고 - 제1 수정 계수는 0보다 크고 1보다 작은 미리 설정된 실수임 -; 또는
현재 프레임에서의 채널 간 시간차, 현재 프레임에서의 타겟 사운드 채널 신호, 및 현재 프레임에서의 참조 사운드 채널 신호에 기초하여 초기 이득 수정 인자를 결정하고; 및 제2 수정 계수에 기초하여 초기 이득 수정 인자를 수정하여 현재 프레임에서의 이득 수정 인자를 획득하도록 - 제2 수정 계수는 0보다 크고 1보다 작은 미리 설정된 실수이거나 미리 설정된 알고리즘에 따라 결정됨 - 구체적으로 구성된다.
선택적으로, 실시예에서, 프로세서(1520)에 의해 결정된 초기 이득 수정 인자는 다음의 수학식을 만족한다:
여기서 K는 에너지 감쇠 계수를 나타내고, K는 미리 설정된 실수이고, 0 <K ≤1이고;
은 현재 프레임에서의 이득 수정 인자를 나타내고; w(.)는 현재 프레임에서의 전이 윈도우를 나타내고; x(.)는 현재 프레임에서의 타겟 사운드 채널 신호를 나타내고; y(.)는 현재 프레임에서의 참조 사운드 채널 신호를 나타내고; N은 현재 프레임의 프레임 길이를 나타내고;
은 타겟 사운드 채널의 것이고 전이 윈도우의 시작 샘플링 포인트 인덱스에 대응하는 샘플링 포인트 인덱스를 나타내고,
은 타겟 사운드 채널의 것이고 전이 윈도우의 종료 샘플링 포인트 인덱스에 대응하는 샘플링 포인트 인덱스를 나타내고,
이고,
은 타겟 사운드 채널의 것이고 이득 수정 인자를 계산하기 위해 사용되는 미리 설정된 시작 샘플링 포인트 인덱스를 나타내고,
이고; cur_itd는 현재 프레임에서의 채널 간 시간차를 나타내고; abs(cur_itd)는 현재 프레임에서의 채널 간 시간차의 절대값을 나타내고; 및 adp_Ts는 현재 프레임에서의 전이 세그먼트의 적응 길이를 나타낸다.
선택적으로, 실시예에서, 프로세서(1520)는 현재 프레임에서의 채널 간 시간차, 현재 프레임에서의 이득 수정 인자, 및 현재 프레임에서의 참조 사운드 채널 신호에 기초하여 현재 프레임에서의 타겟 사운드 채널에 대한 전방향 신호를 결정하도록 추가로 구성된다.
선택적으로, 실시예에서, 현재 프레임에서의 타겟 사운드 채널상에 있고 프로세서(1520)에 의해 결정되는 전방향 신호는 다음의 수학식을 만족한다:
reconstruction_seg(.)는 현재 프레임에서의 타겟 사운드 채널상의 전방향 신호를 나타내고,
은 현재 프레임에서의 이득 수정 인자를 나타내고, reference(.)는 현재 프레임에서의 참조 사운드 채널 신호를 나타내고, cur_itd는 현재 프레임에서의 채널 간 시간차를 나타내고, abs(cur_itd)는 현재 프레임에서의 채널 간 시간차의 절대값을 나타내고, N은 현재 프레임의 프레임 길이를 나타낸다.
선택적으로, 실시예에서, 제2 수정 계수가 미리 설정된 알고리즘에 따라 결정될 때, 제2 수정 계수는, 현재 프레임에서의 참조 사운드 채널 신호 및 타겟 사운드 채널 신호, 현재 프레임에서의 채널 간 시간차, 현재 프레임에서의 전이 세그먼트의 적응 길이, 현재 프레임에서의 전이 윈도우, 및 현재 프레임에서의 이득 수정 인자에 기초하여 결정된다.
선택적으로, 실시예에서, 제2 수정 계수는 다음의 수학식을 만족한다:
여기서 adj_fac는 제2 수정 계수를 나타내고; K는 에너지 감쇠 계수를 나타내고, K는 미리 설정된 실수이고,
이고, K의 값은 경험에 의해 통상의 기술자에 의해 설정될 수 있고;
은 현재 프레임에서의 이득 수정 인자를 나타내고; w(.)는 현재 프레임에서의 전이 윈도우를 나타내고; x(.)는 현재 프레임에서의 타겟 사운드 채널 신호를 나타내고; y(.)는 현재 프레임에서의 참조 사운드 채널 신호를 나타내고; N은 현재 프레임의 프레임 길이를 나타내고;
은 전이 윈도우의 시작 샘플링 포인트 인덱스에 대응하는 타겟 사운드 채널의 샘플링 포인트 인덱스를 나타내고;
은 전이 윈도우의 종료 샘플링 포인트 인덱스에 대응하는 타겟 사운드 채널의 샘플링 포인트 인덱스를 나타내고,
T
d =N - abs(cur_itd)이고;
은 이득 수정 인자를 계산하기 위해 사용되는 타겟 사운드 채널의 미리 설정된 시작 샘플링 포인트 인덱스를 나타내고, 및
이고; cur_itd는 현재 프레임에서의 채널 간 시간차를 나타내고; abs(cur_itd)는 현재 프레임에서의 채널 간 시간차의 절대값을 나타내고; 및 adp_Ts는 현재 프레임에서의 전이 세그먼트의 적응 길이를 나타낸다.
선택적으로, 실시예에서, 제2 수정 계수는 다음의 수학식을 만족한다:
여기서 adj_fac는 제2 수정 계수를 나타내고; K는 에너지 감쇠 계수를 나타내고, K는 미리 설정된 실수이고,
이고, K의 값은 경험에 의해 통상의 기술자에 의해 설정될 수 있고;
은 현재 프레임에서의 이득 수정 인자를 나타내고; w(.)는 현재 프레임에서의 전이 윈도우를 나타내고; x(.)는 현재 프레임에서의 타겟 사운드 채널 신호를 나타내고; y(.)는 현재 프레임에서의 참조 사운드 채널 신호를 나타내고; N은 현재 프레임의 프레임 길이를 나타내고;
은 타겟 사운드 채널의 것이고 전이 윈도우의 시작 샘플링 포인트 인덱스에 대응하는 샘플링 포인트 인덱스를 나타내고,
은 타겟 사운드 채널의 것이고 전이 윈도우의 종료 샘플링 포인트 인덱스에 대응하는 샘플링 포인트 인덱스를 나타내고, T
s = N-abs(cur_itd)-adp_Ts, 및
이고,
은 타겟 사운드 채널의 것이고 이득 수정 인자를 계산하기 위해 사용되는 미리 설정된 시작 샘플링 포인트 인덱스를 나타내고,
이고; cur_itd는 현재 프레임에서의 채널 간 시간차를 나타내고; abs(cur_itd)는 현재 프레임에서의 채널 간 시간차의 절대값을 나타내고; 및 adp_Ts는 현재 프레임에서의 전이 세그먼트의 적응 길이를 나타낸다.
도 16은 본 출원의 실시예에 따라 스테레오 신호 인코딩 동안 신호를 재구성하기 위한 장치의 개략적 블록도이다. 도 16의 장치(1600)는:
프로그램을 저장하도록 구성된 메모리(1610); 및
메모리(1610)에 저장된 프로그램을 실행하도록 구성된 프로세서(1620)를 포함하고, 및 메모리(1610)에서의 프로그램이 실행될 때, 프로세서(1620)는: 현재 프레임에서 참조 사운드 채널 및 타겟 사운드 채널을 결정하고; 현재 프레임에서의 채널 간 시간차 및 현재 프레임에서의 전이 세그먼트의 초기 길이에 기초하여 현재 프레임에서의 전이 세그먼트의 적응 길이를 결정하고; 현재 프레임에서의 전이 세그먼트의 적응 길이에 기초하여 현재 프레임에서의 전이 윈도우를 결정하고; 및 현재 프레임에서의 전이 세그먼트의 적응 길이, 현재 프레임에서의 전이 윈도우, 및 현재 프레임에서의 타겟 사운드 채널 신호에 기초하여 현재 프레임에서의 타겟 사운드 채널에 대한 전이 세그먼트 신호를 결정하도록 구체적으로 구성된다.
선택적으로, 실시예에서, 프로세서(1620)는 현재 프레임에서의 타겟 사운드 채널상의 전방향 신호를 0에 설정하도록 추가로 구성된다.
선택적으로, 실시예에서, 프로세서(1620)는: 현재 프레임에서의 채널 간 시간차의 절대값이 현재 프레임에서의 전이 세그먼트의 초기 길이 이상일 때, 현재 프레임에서의 전이 세그먼트의 초기 길이를 현재 프레임에서의 전이 세그먼트의 적응 길이로서 결정하거나; 또는 현재 프레임에서의 채널 간 시간차의 절대값이 현재 프레임에서의 전이 세그먼트의 초기 길이보다 작을 때, 현재 프레임에서의 채널 간 시간차의 절대값을 전이 세그먼트의 적응 길이로서 결정하도록 구체적으로 구성된다.
선택적으로, 실시예에서, 현재 프레임에서의 타겟 사운드 채널에 대한 것이고 프로세서(1620)에 의해 결정되는 전이 세그먼트 신호는 다음의 수학식을 만족한다:
transition_seg(.)는 현재 프레임에서의 타겟 사운드 채널에 대한 전이 세그먼트 신호를 나타내고, adp_Ts는 현재 프레임에서의 전이 세그먼트의 적응 길이를 나타내고, w(.)는 현재 프레임에서의 전이 윈도우를 나타내고, target(.)은 현재 프레임에서의 타겟 사운드 채널 신호를 나타내고, cur_itd는 현재 프레임에서의 채널 간 시간차를 나타내고, abs(cur_itd)는 현재 프레임에서의 채널 간 시간차의 절대값을 나타내고, N은 현재 프레임의 프레임 길이를 나타낸다.
본 출원의 실시예들에서의 스테레오 신호 인코딩 방법 및 스테레오 신호 디코딩 방법은 도 17 내지 도 19의 단말 디바이스 또는 네트워크 디바이스에 의해 수행될 수 있다는 점이 이해되어야 한다. 또한, 본 출원의 실시예들에서의 인코딩 장치 및 디코딩 장치는 도 17 내지 도 19의 단말 디바이스 또는 네트워크 디바이스에 추가로 배치될 수 있다. 구체적으로, 본 출원의 실시예들에서의 인코딩 장치는 도 17 내지 도 19의 단말 디바이스 또는 네트워크 디바이스에서의 스테레오 인코더일 수 있고, 본 출원의 실시예들에서의 디코딩 장치는 도 17 내지 도 19의 단말 디바이스 또는 네트워크 디바이스에서의 스테레오 디코더일 수 있다.
도 17에 도시된 바와 같이, 오디오 통신에서, 제1 단말 디바이스에서의 스테레오 인코더는 수집된 스테레오 신호에 대해 스테레오 인코딩을 수행하고, 제1 단말 디바이스에서의 채널 인코더는 스테레오 인코더에 의해 획득된 비트스트림에 대해 채널 인코딩을 수행할 수 있다. 다음으로, 제1 단말 디바이스는, 제1 네트워크 디바이스 및 제2 네트워크 디바이스를 사용하여, 채널 인코딩 후에 획득된 데이터를 제2 단말 디바이스에 송신한다. 제2 단말 디바이스가 제2 네트워크 디바이스로부터 데이터를 수신한 후에, 제2 단말 디바이스의 채널 디코더는 채널 디코딩을 수행하여 스테레오 신호의 인코딩된 비트스트림을 획득한다. 제2 단말 디바이스의 스테레오 디코더는 디코딩을 통해 스테레오 신호를 복원하고, 제2 단말 디바이스는 스테레오 신호를 재생한다. 이러한 방식으로, 상이한 단말 디바이스들 사이에서 오디오 통신이 완료된다.
도 17에서, 제2 단말 디바이스는 또한 수집된 스테레오 신호를 인코딩하고, 최종적으로, 제2 네트워크 디바이스 및 제1 네트워크 디바이스를 사용하여, 인코딩 이후에 획득된 데이터를 제1 단말 디바이스에 송신할 수 있다는 것을 이해해야 한다. 제1 단말 디바이스는 데이터에 대해 채널 디코딩 및 스테레오 디코딩을 수행하여 스테레오 신호를 획득한다.
도 17에서, 제1 네트워크 디바이스 및 제2 네트워크 디바이스는 무선 네트워크 통신 디바이스들 또는 유선 네트워크 통신 디바이스들일 수 있다. 제1 네트워크 디바이스 및 제2 네트워크 디바이스는 디지털 채널상에서 서로 통신할 수 있다.
도 17의 제1 단말 디바이스 또는 제2 단말 디바이스는 본 출원의 실시예들에서의 스테레오 신호 인코딩/디코딩 방법을 수행할 수 있다. 본 출원의 실시예들에서의 인코딩 장치 및 디코딩 장치는 제각기 제1 단말 디바이스에서의 스테레오 인코더 및 스테레오 디코더일 수 있거나, 또는 제각기 제2 단말 디바이스에서의 스테레오 인코더 및 스테레오 디코더일 수 있다.
오디오 통신에서, 네트워크 디바이스는 오디오 신호의 코덱 포맷의 트랜스코딩을 구현할 수 있다. 도 18에 도시된 바와 같이, 네트워크 디바이스에 의해 수신된 신호의 코덱 포맷이 또 다른 스테레오 디코더에 대응하는 코덱 포맷인 경우, 네트워크 디바이스에서의 채널 디코더는 수신된 신호에 대해 채널 디코딩을 수행하여 또 다른 스테레오 디코더에 대응하는 인코딩된 비트스트림을 획득한다. 또 다른 스테레오 디코더는 인코딩된 비트스트림을 디코딩하여 스테레오 신호를 획득한다. 스테레오 인코더는 스테레오 신호를 인코딩하여 스테레오 신호의 인코딩된 비트스트림을 획득한다. 마지막으로, 채널 인코더는 스테레오 신호의 인코딩된 비트스트림에 대해 채널 인코딩을 수행하여 최종 신호를 획득한다(여기서, 신호는 단말 디바이스 또는 또 다른 네트워크 디바이스에 송신될 수 있다). 도 18의 스테레오 인코더에 대응하는 코덱 포맷은 또 다른 스테레오 디코더에 대응하는 코덱 포맷과 상이하다는 것을 이해해야 한다. 또 다른 스테레오 디코더에 대응하는 코덱 포맷이 제1 코덱 포맷이고, 스테레오 인코더에 대응하는 코덱 포맷이 제2 코덱 포맷인 것으로 가정하면, 도 18에서, 오디오 신호를 제1 코덱 포맷으로부터 제2 코덱 포맷으로 변환하는 것은 네트워크 디바이스에 의해 구현된다.
유사하게, 도 19에 도시된 바와 같이, 네트워크 디바이스에 의해 수신되는 신호의 코덱 포맷이 스테레오 디코더에 대응하는 코덱 포맷과 동일한 경우, 네트워크 디바이스의 채널 디코더가 스테레오 신호의 인코딩된 비트스트림을 획득하기 위해 채널 디코딩을 수행한 후에, 스테레오 디코더는 스테레오 신호의 인코딩된 비트스트림을 디코딩하여 스테레오 신호를 획득할 수 있다. 다음으로, 또 다른 스테레오 인코더는 또 다른 코덱 포맷에 기초하여 스테레오 신호를 인코딩하여, 또 다른 스테레오 인코더에 대응하는 인코딩된 비트스트림을 획득한다. 최종적으로, 채널 인코더는 또 다른 스테레오 인코더에 대응하는 인코딩된 비트스트림에 대해 채널 인코딩을 수행하여 최종 신호를 획득한다(여기서 신호는 단말 디바이스 또는 또 다른 네트워크 디바이스에 송신될 수 있다). 도 18의 경우와 유사하게, 도 19의 스테레오 디코더에 대응하는 코덱 포맷은 또한 또 다른 스테레오 인코더에 대응하는 코덱 포맷과 상이하다. 또 다른 스테레오 인코더에 대응하는 코덱 포맷이 제1 코덱 포맷이고, 스테레오 디코더에 대응하는 코덱 포맷이 제2 코덱 포맷인 경우, 도 19에서, 오디오 신호를 제2 코덱 포맷으로부터 제1 코덱 포맷으로 변환하는 것은 네트워크 디바이스에 의해 구현된다.
도 18의 또 다른 스테레오 디코더 및 스테레오 인코더는 상이한 코덱 포맷들에 대응하고, 도 19의 스테레오 디코더 및 또 다른 스테레오 인코더는 상이한 코덱 포맷들에 대응한다. 따라서, 스테레오 신호의 코덱 포맷의 트랜스코딩은 또 다른 스테레오 디코더 및 스테레오 인코더에 의해 수행되거나 또는 스테레오 디코더 및 또 다른 스테레오 인코더에 의해 수행되는 처리를 통해 구현된다.
도 18의 스테레오 인코더는 본 출원의 실시예들에서의 스테레오 신호 인코딩 방법을 구현할 수 있고, 도 19의 스테레오 디코더는 본 출원의 실시예들에서의 스테레오 신호 디코딩 방법을 구현할 수 있다는 것을 추가로 이해해야 한다. 본 출원의 실시예들에서의 인코딩 장치는 도 18의 네트워크 디바이스에서의 스테레오 인코더일 수 있다. 본 출원의 실시예들에서의 디코딩 장치는 도 19의 네트워크 디바이스에서의 스테레오 디코더일 수 있다. 또한, 도 18 및 도 19의 네트워크 디바이스들은 구체적으로 무선 네트워크 통신 디바이스들 또는 유선 네트워크 통신 디바이스들일 수 있다.
본 출원의 실시예들에서의 스테레오 신호 인코딩 방법 및 스테레오 신호 디코딩 방법은 도 20 내지 도 22의 단말 디바이스 또는 네트워크 디바이스에 의해 대안적으로 수행될 수 있다는 점이 이해되어야 한다. 또한, 본 출원의 실시예들에서의 인코딩 장치 및 디코딩 장치는 대안적으로 도 20 내지 도 22의 단말 디바이스 또는 네트워크 디바이스에 배치될 수 있다. 구체적으로, 본 출원의 실시예들에서의 인코딩 장치는 도 20 내지 도 22의 단말 디바이스 또는 네트워크 디바이스에서의 다중 채널 인코더에서의 스테레오 인코더일 수 있다. 본 출원의 실시예들에서의 디코딩 장치는 도 20 내지 도 22의 단말 디바이스 또는 네트워크 디바이스에서의 다중 채널 디코더에서의 스테레오 디코더일 수 있다.
도 20에 도시된 바와 같이, 오디오 통신에서, 제1 단말 디바이스에서의 다중 채널 인코더에서의 스테레오 인코더는 수집된 다중 채널 신호로부터 생성된 스테레오 신호에 대해 스테레오 인코딩을 수행하고, 여기서 다중 채널 인코더에 의해 획득된 비트스트림은 스테레오 인코더에 의해 획득된 비트스트림을 포함한다. 제1 단말 디바이스에서의 채널 인코더는 다중 채널 인코더에 의해 획득된 비트스트림에 대해 채널 인코딩을 수행할 수 있다. 다음으로, 제1 단말 디바이스는, 제1 네트워크 디바이스 및 제2 네트워크 디바이스를 사용하여, 채널 인코딩 후에 획득된 데이터를 제2 단말 디바이스에 송신한다. 제2 단말 디바이스가 제2 네트워크 디바이스로부터 데이터를 수신한 후에, 제2 단말 디바이스의 채널 디코더는 채널 디코딩을 수행하여 다중 채널 신호의 인코딩된 비트스트림을 획득하고, 여기서 다중 채널 신호의 인코딩된 비트스트림은 스테레오 신호의 인코딩된 비트스트림을 포함한다. 제2 단말 디바이스의 다중 채널 디코더에서의 스테레오 디코더는 디코딩을 통해 스테레오 신호를 복원한다. 다중 채널 디코더는 복원된 스테레오 신호에 기초하여 디코딩을 통해 다중 채널 신호를 획득하고, 제2 단말 디바이스는 다중 채널 신호를 재생한다. 이러한 방식으로, 상이한 단말 디바이스들 사이에서 오디오 통신이 완료된다.
도 20에서, 제2 단말 디바이스는 또한 수집된 다중 채널 신호를 인코딩할 수 있다는 것을 이해해야 한다(구체적으로, 제2 단말 디바이스에서의 다중 채널 인코더에서의 스테레오 인코더는 수집된 다중 채널 신호로부터 생성된 스테레오 신호에 대해 스테레오 인코딩을 수행한다. 그 후, 제2 단말 디바이스에서의 채널 인코더는 다중 채널 인코더에 의해 획득된 비트스트림에 대해 채널 인코딩을 수행하고), 인코딩된 비트스트림을 제2 네트워크 디바이스 및 제1 네트워크 디바이스를 이용하여 제1 단말 디바이스에 마지막으로 송신한다. 제1 단말 디바이스는 채널 디코딩 및 다중 채널 디코딩을 통해 다중 채널 신호를 획득한다.
도 20에서, 제1 네트워크 디바이스 및 제2 네트워크 디바이스는 무선 네트워크 통신 디바이스들 또는 유선 네트워크 통신 디바이스들일 수 있다. 제1 네트워크 디바이스 및 제2 네트워크 디바이스는 디지털 채널상에서 서로 통신할 수 있다.
도 20의 제1 단말 디바이스 또는 제2 단말 디바이스는 본 출원의 실시예들에서의 스테레오 신호 인코딩/디코딩 방법을 수행할 수 있다. 또한, 본 출원의 실시예들에서의 인코딩 장치는 제1 단말 디바이스 또는 제2 단말 디바이스에서의 스테레오 인코더일 수 있고, 본 출원의 실시예들에서의 디코딩 장치는 제1 단말 디바이스 또는 제2 단말 디바이스에서의 스테레오 디코더일 수 있다.
오디오 통신에서, 네트워크 디바이스는 오디오 신호의 코덱 포맷의 트랜스코딩을 구현할 수 있다. 도 21에 도시된 바와 같이, 네트워크 디바이스에 의해 수신된 신호의 코덱 포맷이 또 다른 다중 채널 디코더에 대응하는 코덱 포맷인 경우, 네트워크 디바이스에서의 채널 디코더는 수신된 신호에 대해 채널 디코딩을 수행하여 또 다른 다중 채널 디코더에 대응하는 인코딩된 비트스트림을 획득한다. 또 다른 다중 채널 디코더는 인코딩된 비트스트림을 디코딩하여 다중 채널 신호를 획득한다. 다중 채널 인코더는 다중 채널 신호를 인코딩하여 다중 채널 신호의 인코딩된 비트스트림을 획득한다. 다중 채널 인코더에서의 스테레오 인코더는 다중 채널 신호로부터 생성된 스테레오 신호에 대해 스테레오 인코딩을 수행하여, 스테레오 신호의 인코딩된 비트스트림을 획득하는데, 여기서 다중 채널 신호의 인코딩된 비트스트림은 스테레오 신호의 인코딩된 비트스트림을 포함한다. 마지막으로, 채널 인코더는 인코딩된 비트스트림에 채널 인코딩을 수행하여 최종 신호를 획득한다(여기서 신호는 단말 디바이스 또는 또 다른 네트워크 디바이스에 송신될 수 있다).
유사하게, 도 22에 도시된 바와 같이, 네트워크 디바이스에 의해 수신되는 신호의 코덱 포맷이 다중 채널 디코더에 대응하는 코덱 포맷과 동일한 경우, 네트워크 디바이스의 채널 디코더가 채널 디코딩을 수행하여 다중 채널 신호의 인코딩된 비트스트림을 획득한 후에, 다중 채널 디코더는 다중 채널 신호의 인코딩된 비트스트림을 디코딩하여 다중 채널 신호를 획득할 수 있다. 다중 채널 디코더에서의 스테레오 디코더는 다중 채널 신호의 인코딩된 비트스트림에서의 스테레오 신호의 인코딩된 비트스트림에 대해 스테레오 디코딩을 수행한다. 다음으로, 또 다른 다중 채널 인코더는 또 다른 코덱 포맷에 기초하여 다중 채널 신호를 인코딩하여 또 다른 다중 채널 인코더에 대응하는 다중 채널 신호의 인코딩된 비트스트림을 획득한다. 마지막으로, 채널 인코더는 또 다른 다중 채널 인코더에 대응하는 인코딩된 비트스트림에 대해 채널 인코딩을 수행하여 최종 신호를 획득한다(여기서 신호는 단말 디바이스 또는 또 다른 네트워크 디바이스에 송신될 수 있다).
도 21의 또 다른 스테레오 디코더 및 다중 채널 인코더는 상이한 코덱 포맷들에 대응하고, 도 22에서의 다중 채널 디코더 및 또 다른 스테레오 인코더는 상이한 코덱 포맷들에 대응함을 이해해야 한다. 예를 들어, 도 21에서, 또 다른 스테레오 디코더에 대응하는 코덱 포맷이 제1 코덱 포맷이고, 다중 채널 인코더에 대응하는 코덱 포맷이 제2 코덱 포맷인 경우, 제1 코덱 포맷으로부터 제2 코덱 포맷으로 오디오 신호를 변환하는 것은 네트워크 디바이스에 의해 구현된다. 유사하게, 도 22에서, 다중 채널 디코더에 대응하는 코덱 포맷이 제2 코덱 포맷이고, 또 다른 스테레오 인코더에 대응하는 코덱 포맷이 제1 코덱 포맷인 것으로 가정하면, 제2 코덱 포맷으로부터 제1 코덱 포맷으로 오디오 신호를 변환하는 것은 네트워크 디바이스에 의해 구현된다. 따라서, 오디오 신호의 코덱 포맷의 트랜스코딩은 또 다른 스테레오 디코더 및 다중 채널 인코더에 의해 수행되거나 또는 다중 채널 디코더 및 또 다른 스테레오 인코더에 의해 수행되는 처리를 통해 구현된다.
도 21에서의 스테레오 인코더는 본 출원의 실시예들에서의 스테레오 신호 인코딩 방법을 구현할 수 있고, 도 22에서의 스테레오 디코더는 본 출원의 실시예들에서의 스테레오 신호 디코딩 방법을 구현할 수 있다는 점이 추가로 이해되어야 한다. 본 출원의 실시예들에서의 인코딩 장치는 도 21의 네트워크 디바이스에서의 스테레오 인코더일 수 있다. 본 출원의 실시예들에서의 디코딩 장치는 도 22의 네트워크 디바이스에서의 스테레오 디코더일 수 있다. 또한, 도 21 및 도 22의 네트워크 디바이스들은 구체적으로 무선 네트워크 통신 디바이스들 또는 유선 네트워크 통신 디바이스들일 수 있다.
본 출원은 칩을 더 제공한다. 칩은 프로세서 및 통신 인터페이스를 포함한다. 통신 인터페이스는 외부 컴포넌트와 통신하도록 구성되고, 프로세서는 본 출원의 실시예들에서 스테레오 신호 코딩 동안 신호를 재구성하기 위한 방법을 수행하도록 구성된다.
선택적으로, 구현에서, 칩은 메모리를 추가로 포함할 수 있다. 메모리는 명령어를 저장하고, 프로세서는 메모리에 저장된 명령어를 실행하도록 구성된다. 명령어가 실행될 때, 프로세서는 본 출원의 실시예들에서의 스테레오 신호 코딩 동안 신호를 재구성하기 위한 방법을 수행하도록 구성된다.
선택적으로, 구현에서, 칩은 단말 디바이스 또는 네트워크 디바이스에 통합된다.
본 출원은 칩을 제공한다. 칩은 프로세서 및 통신 인터페이스를 포함한다. 통신 인터페이스는 외부 컴포넌트와 통신하도록 구성되고, 프로세서는 본 출원의 실시예들에서 스테레오 신호 코딩 동안 신호를 재구성하기 위한 방법을 수행하도록 구성된다.
선택적으로, 구현에서, 칩은 메모리를 추가로 포함할 수 있다. 메모리는 명령어를 저장하고, 프로세서는 메모리에 저장된 명령어를 실행하도록 구성된다. 명령어가 실행될 때, 프로세서는 본 출원의 실시예들에서의 스테레오 신호 코딩 동안 신호를 재구성하기 위한 방법을 수행하도록 구성된다.
선택적으로, 구현에서, 칩은 네트워크 디바이스 또는 단말 디바이스에 통합된다.
본 출원은 컴퓨터 판독가능 저장 매체를 제공한다. 컴퓨터 판독가능 저장 매체는 디바이스에 의해 실행되는 프로그램 코드를 저장하도록 구성되고, 프로그램 코드는 본 출원의 실시예들에서의 스테레오 신호 코딩 동안 신호를 재구성하기 위한 방법을 수행하기 위해 사용되는 명령어를 포함한다.
본 출원은 컴퓨터 판독가능 저장 매체를 제공한다. 컴퓨터 판독가능 저장 매체는 디바이스에 의해 실행되는 프로그램 코드를 저장하도록 구성되고, 프로그램 코드는 본 출원의 실시예들에서의 스테레오 신호 코딩 동안 신호를 재구성하기 위한 방법을 수행하기 위해 사용되는 명령어를 포함한다.
본 기술분야의 통상의 기술자라면, 본 명세서에 개시된 실시예들에서 설명되는 예들과 조합되어, 전자 하드웨어에 의해 또는 컴퓨터 소프트웨어와 전자 하드웨어의 조합에 의해 유닛들 및 알고리즘 단계들이 구현될 수 있다는 것을 인식할 수 있다. 기능들이 하드웨어에 의해 수행되는지 아니면 소프트웨어에 의해 수행되는지는 기술적 해결책들의 특정한 애플리케이션들 및 설계 제약 조건들에 의존한다. 본 기술분야의 통상의 기술자는 각각의 특정한 애플리케이션에 대해 설명되는 기능들을 구현하기 위해 상이한 방법들을 사용할 수 있지만, 이러한 구현이 본 출원의 범위를 벗어나는 것으로 간주해서는 안 된다.
본 기술분야의 통상의 기술자에게는, 편리하고 간단한 설명을 위해, 전술한 시스템, 장치 및 유닛의 상세한 작동 프로세스에 대해서는 전술한 방법 실시예들에서의 대응하는 프로세스를 참조하고, 상세 사항은 본 명세서에서 다시 설명되지 않는다는 것이 명백하게 이해될 수 있다.
본 출원에 제공되는 몇 개의 실시예들에서, 개시된 시스템들, 장치들, 및 방법들이 다른 방식들로 구현될 수 있다는 점이 이해되어야 한다. 예를 들어, 설명된 장치 실시예들은 단지 예들이다. 예를 들어, 유닛 분할은 논리적 기능 분할일 뿐이며, 실제 구현에서는 다른 분할일 수 있다. 예를 들어, 복수의 유닛 또는 컴포넌트가 조합되거나 또 다른 시스템에 통합되거나, 또는 일부 특징들이 무시되거나 수행되지 않을 수 있다. 또한, 표시되거나 논의된 상호 결합 또는 직접 결합 또는 통신 접속은 몇몇 인터페이스를 사용하여 구현될 수 있다. 장치들 또는 유닛들 사이의 간접 결합 또는 통신 접속은 전자적, 기계적 또는 다른 형태로 구현될 수 있다.
별도의 부분들로 설명된 유닛들은 물리적으로 분리될 수도 있고 그렇지 않을 수도 있고, 유닛들로서 표시된 부분들은 물리적 유닛일 수도 있고 아닐 수도 있으며, 한 위치에 위치될 수 있거나 또는 복수의 네트워크 유닛상에 분산될 수 있다. 유닛들의 일부 또는 전부는 실시예들의 해결책들의 목적들을 달성하기 위해 실제 요건들에 기초하여 선택될 수 있다.
또한, 본 출원의 실시예들의 기능 유닛들은 하나의 처리 유닛 내에 통합될 수 있거나, 또는 유닛들 각각은 단독으로 물리적으로 존재할 수 있거나, 또는 2개 이상의 유닛이 하나의 유닛 내에 통합된다.
기능들이 소프트웨어 기능 유닛의 형태로 구현되고 독립적인 제품으로서 판매되거나 이용될 때, 기능들은 컴퓨터 판독가능 저장 매체에 저장될 수 있다. 이러한 이해에 기초하여, 본 출원의 기술적 해결책들은 본질적으로, 또는 종래 기술에 대해 기여하는 부분은, 또는 기술적 해결책들의 일부는 소프트웨어 제품의 형태로 구현될 수 있다. 컴퓨터 소프트웨어 제품은 저장 매체에 저장되고, 컴퓨터 디바이스(이것은 개인용 컴퓨터, 서버, 네트워크 디바이스 등일 수 있음)에게 본 출원의 실시예들에 설명되는 방법들의 단계들의 전부 또는 일부를 수행하라고 지시하는 몇 개의 명령어를 포함한다. 전술한 저장 매체는 USB 플래시 드라이브, 착탈 가능 하드 디스크, 판독 전용 메모리(read-only memory, ROM), 랜덤 액세스 메모리(random access memory, RAM), 자기 디스크, 또는 광 디스크와 같은, 프로그램 코드를 저장할 수 있는 임의의 매체를 포함한다.
전술한 설명들은 본 출원의 특정 구현들일 뿐이고, 본 출원의 보호 범위를 제한하도록 의도되지 않는다. 본 출원에 개시되는 기술적 범위 내에서 본 기술분야의 통상의 기술자에 의해 용이하게 이해되는 임의의 변형 또는 대체는 본 출원의 보호 범위 내에 있어야 한다. 따라서, 본 출원의 보호 범위는 청구항들의 보호 범위에 종속될 것이다.