KR102306565B1

KR102306565B1 - 음성 처리 장치 및 방법, 그리고 프로그램

Info

Publication number: KR102306565B1
Application number: KR1020167018010A
Authority: KR
Inventors: 미노루 츠지; 도루 치넨
Original assignee: 소니그룹주식회사
Priority date: 2014-01-16
Filing date: 2015-01-06
Publication date: 2021-09-30
Anticipated expiration: 2035-01-06
Also published as: US12096201B2; JP7010334B2; KR20160108325A; KR102356246B1; US20190253825A1; BR122022004083B1; EP3096539A1; US20200288261A1; JP7367785B2; AU2024202480A1; JP6721096B2; US11223921B2; US20230254657A1; JP2020017978A; AU2023203570B2; AU2015207271A1; US10694310B2; JP2023165864A; JP6586885B2; EP4340397A2

Abstract

본 기술은, 보다 자유도가 높은 오디오 재생을 실현할 수 있도록 하는 음성 처리 장치 및 방법, 및 프로그램에 관한 것이다. 입력부는, 음원인 오브젝트의 음성의 상정 청취 위치의 입력을 접수하고, 상정 청취 위치를 나타내는 상정 청취 위치 정보를 출력한다. 위치 정보 보정부는, 상정 청취 위치 정보에 기초하여, 각 오브젝트의 위치 정보를 보정하여 보정 위치 정보로 한다. 게인/주파수 특성 보정부는, 위치 정보와 보정 위치 정보에 기초하여, 오브젝트의 파형 신호의 게인 보정과 주파수 특성 보정을 행한다. 또한, 공간 음향 특성 부가부는, 오브젝트의 위치 정보 및 상정 청취 위치 정보에 기초하여, 게인 보정 및 주파수 특성 보정이 실시된 파형 신호에 공간 음향 특성을 부가한다. 본 기술은, 음성 처리 장치에 적용할 수 있다.

Description

음성 처리 장치 및 방법, 그리고 프로그램{SOUND PROCESSING DEVICE AND METHOD, AND PROGRAM}

본 기술은 음성 처리 장치 및 방법, 및 프로그램에 관한 것으로서, 특히, 보다 자유도가 높은 오디오 재생을 실현할 수 있도록 한 음성 처리 장치 및 방법, 그리고 프로그램에 관한 것이다.

일반적으로 CD(Compact Disc)나 DVD(Digital Versatile Disc), 네트워크 배신 오디오 등의 오디오 콘텐츠는, 채널 베이스 오디오로 실현되고 있다.

채널 베이스 오디오의 콘텐츠는, 콘텐츠의 제작자가 노래 소리나 악기의 연주음 등, 복수 있는 음원을 2채널이나 5.1채널(이하, 채널을 ch라고도 기재하는 것으로 한다)로 적절하게 믹스한 것이다. 유저는, 그것을 2ch나 5.1ch의 스피커 시스템으로 재생하거나, 헤드폰으로 재생하거나 하고 있다.

그러나, 유저의 스피커 배치 등은 천차 만별로서, 반드시 콘텐츠 제작자가 의도한 소리의 정위가 재현되고 있다고는 할 수 없다.

한편, 최근 오브젝트 베이스의 오디오 기술이 주목받고 있다. 오브젝트 베이스 오디오에서는, 오브젝트의 음성의 파형 신호와, 기준으로 되는 청취점으로부터의 상대 위치에 따라 나타나는 오브젝트의 정위 정보 등을 나타내는 메타데이터에 기초하여, 재생하는 시스템에 맞춰서 렌더링된 신호가 재생된다. 따라서 오브젝트 베이스 오디오에는, 비교적, 콘텐츠 제작자의 의도대로 소리의 정위가 재현된다고 하는 특징이 있다.

예를 들어 오브젝트 베이스 오디오에서는, VBAP(Vector Base Amplitude Pannning) 등의 기술이 이용되고, 각 오브젝트의 파형 신호로부터, 재생측의 각 스피커에 대응하는 채널의 재생 신호가 생성된다(예를 들어, 비특허문헌 1 참조).

VBAP에서는, 목표가 되는 음상(音像)의 정위 위치가, 그 정위 위치의 주위에 있는 2개 또는 3개의 스피커의 방향을 향하는 벡터의 선형합으로 표현된다. 그리고, 그 선형합에 있어서 각 벡터에 승산되어 있는 계수가, 각 스피커로부터 출력되는 파형 신호의 게인으로서 사용되어서 게인 조정이 행하여져, 목표가 되는 위치에 음상이 정위되게 된다.

Ville Pulkki, "Virtual Sound Source Positioning Using Vector Base Amplitude Panning", Journal of AES, vol.45, no.6, pp.456-466, 1997

그런데, 상술한 채널 베이스 오디오나 오브젝트 베이스 오디오에서는, 어느 경우에 있어서도 소리의 정위는 콘텐츠 제작자에 의해 결정되고 있고, 유저는 제공된 콘텐츠의 음성을 그냥 그대로 듣기만 할 수밖에 없다. 예를 들어, 콘텐츠의 재생측에 있어서는, 라이브 하우스에서 뒷좌석으로부터 앞좌석으로 이동하도록 상정하여 청취점을 변화시킨 경우의 소리의 들리는 방식을 재현하는 것 등을 할 수 없었다.

이와 같이 상술한 기술에서는, 충분히 높은 자유도로 오디오 재생을 실현할 수 있다고는 할 수 없었다.

본 기술은, 이러한 상황을 감안하여 이루어진 것으로서, 보다 자유도가 높은 오디오 재생을 실현할 수 있도록 하는 것이다.

본 기술의 일측면의 음성 처리 장치는, 음원의 위치를 나타내는 위치 정보와, 상기 음원으로부터의 음성을 청취하는 청취 위치를 나타내는 청취 위치 정보에 기초하여, 상기 청취 위치를 기준으로 하는 상기 음원의 위치를 나타내는 보정 위치 정보를 산출하는 위치 정보 보정부와, 상기 음원의 파형 신호와 상기 보정 위치 정보에 기초하여, 상기 청취 위치에 있어서 청취되는 상기 음원으로부터의 음성을 재현하는 재생 신호를 생성하는 생성부를 구비한다.

상기 위치 정보 보정부에는, 상기 음원의 수정 후의 위치를 나타내는 수정 위치 정보와, 상기 청취 위치 정보에 기초하여 상기 보정 위치 정보를 산출시킬 수 있다.

음성 처리 장치에는, 상기 음원으로부터 상기 청취 위치까지의 거리에 따라, 상기 파형 신호에 게인 보정 또는 주파수 특성 보정 중 적어도 어느 하나를 행하는 보정부를 더 설치할 수 있다.

음성 처리 장치에는, 상기 청취 위치 정보와 상기 수정 위치 정보에 기초하여, 상기 파형 신호에 공간 음향 특성을 부가하는 공간 음향 특성 부가부를 더 설치할 수 있다.

상기 공간 음향 특성 부가부에는, 상기 공간 음향 특성으로서, 초기 반사 또는 잔향 특성 중 적어도 어느 하나를 상기 파형 신호에 부가시킬 수 있다.

음성 처리 장치에는, 상기 청취 위치 정보와 상기 위치 정보에 기초하여, 상기 파형 신호에 공간 음향 특성을 부가하는 공간 음향 특성 부가부를 더 설치할 수 있다.

음성 처리 장치에는, 상기 생성부에 의해 생성된 2 이상의 채널의 상기 재생 신호에 컨벌루션 처리를 행하고, 2채널의 상기 재생 신호를 생성하는 컨벌루션 처리부를 더 설치할 수 있다.

본 기술의 일측면의 음성 처리 방법 또는 프로그램은, 음원의 위치를 나타내는 위치 정보와, 상기 음원으로부터의 음성을 청취하는 청취 위치를 나타내는 청취 위치 정보에 기초하여, 상기 청취 위치를 기준으로 하는 상기 음원의 위치를 나타내는 보정 위치 정보를 산출하고, 상기 음원의 파형 신호와 상기 보정 위치 정보에 기초하여, 상기 청취 위치에 있어서 청취되는 상기 음원으로부터의 음성을 재현하는 재생 신호를 생성하는 스텝을 포함한다.

본 기술의 일측면에 있어서는, 음원의 위치를 나타내는 위치 정보와, 상기 음원으로부터의 음성을 청취하는 청취 위치를 나타내는 청취 위치 정보에 기초하여, 상기 청취 위치를 기준으로 하는 상기 음원의 위치를 나타내는 보정 위치 정보가 산출되고, 상기 음원의 파형 신호와 상기 보정 위치 정보에 기초하여, 상기 청취 위치에 있어서 청취되는 상기 음원으로부터의 음성을 재현하는 재생 신호가 생성된다.

본 기술의 일측면에 의하면, 보다 자유도가 높은 오디오 재생을 실현할 수 있다.

또한, 여기에 기재된 효과는 반드시 한정되는 것은 아니며, 본 개시 중에 기재된 어느 하나의 효과여도 된다.

도 1은 음성 처리 장치의 구성을 도시하는 도면이다.
도 2는 상정 청취 위치와 보정 위치 정보에 대하여 설명하는 도면이다.
도 3은 주파수 특성 보정 시의 주파수 특성을 도시하는 도면이다.
도 4는 VBAP에 대하여 설명하는 도면이다.
도 5는 재생 신호 생성 처리를 설명하는 흐름도이다.
도 6은 음성 처리 장치의 구성을 도시하는 도면이다.
도 7은 재생 신호 생성 처리를 설명하는 흐름도이다.
도 8은 컴퓨터의 구성예를 도시하는 도면이다.

이하, 도면을 참조하여, 본 기술을 적용한 실시 형태에 대하여 설명한다.

<제1 실시 형태>

<음성 처리 장치의 구성예>

본 기술은, 재생측에 있어서, 음원인 오브젝트의 음성의 파형 신호로부터, 임의의 청취 위치에서 청취되는 음성을 재현하는 기술에 관한 것이다.

도 1은, 본 기술을 적용한 음성 처리 장치의 일 실시 형태의 구성예를 도시하는 도면이다.

음성 처리 장치(11)는 입력부(21), 위치 정보 보정부(22), 게인/주파수 특성 보정부(23), 공간 음향 특성 부가부(24), 렌더러 처리부(25), 및 컨벌루션 처리부(26)를 갖고 있다.

이 음성 처리 장치(11)에는, 재생 대상을 포함하는 콘텐츠의 오디오 정보로서, 복수의 각 오브젝트의 파형 신호와, 그들 파형 신호의 메타데이터가 공급된다.

여기서, 오브젝트의 파형 신호는, 음원인 오브젝트로부터 발해지는 음성을 재생하기 위한 오디오 신호이다.

또한, 여기에서는 오브젝트의 파형 신호의 메타데이터는, 오브젝트의 위치, 즉 오브젝트의 음성의 정위 위치를 나타내는 위치 정보로 된다. 이 위치 정보는, 소정의 기준점을 표준 청취 위치로 하고, 그 표준 청취 위치로부터의 오브젝트의 상대 위치를 나타내는 정보이다.

오브젝트의 위치 정보는, 예를 들어 구좌표, 즉 표준 청취 위치를 중심으로 한 구면 상의 위치에 대한 방위각, 앙각, 및 반경으로 표현되도록 해도 되고, 표준 청취 위치를 원점으로 하는 직교 좌표계의 좌표로 표현되도록 해도 된다.

이하에서는, 각 오브젝트의 위치 정보가 구좌표로 표현되는 경우를 예로 들어 설명한다. 구체적으로는, n번째(단, n=1, 2, 3, …)의 오브젝트 OB_n의 위치 정보가, 표준 청취 위치를 중심으로 한 구면 상의 오브젝트 OB_n에 대한 방위각 A_n, 앙각 E_n, 및 반경 R_n으로 표현되는 것으로 한다. 또한, 방위각 A_n 및 앙각 E_n의 단위는 예를 들어 도로 되고, 반경 R_n의 단위는 예를 들어 미터로 된다.

또한, 이하에서는 오브젝트 OB_n의 위치 정보를 (A_n, E_n, R_n)라고도 기재하는 것으로 한다. 또한, n번째의 오브젝트 OB_n의 파형 신호를 W_n[t]라고도 기재하는 것으로 한다.

따라서, 예를 들어 1번째의 오브젝트 OB₁의 파형 신호 및 위치 정보는, W₁[t] 및 (A₁, E₁, R₁)로 표현되고, 2번째의 오브젝트 OB₂의 파형 신호 및 위치 정보는, W₂[t] 및 (A₂, E₂, R₂)로 표현된다. 이하에서는, 설명을 간단하게 하기 위해서, 음성 처리 장치(11)에는, 2개의 오브젝트 OB₁ 및 오브젝트 OB₂에 관한 파형 신호와 위치 정보가 공급되는 것으로 하여 설명을 계속한다.

입력부(21)는 마우스나 버튼, 터치 패널 등을 포함하고, 유저에 의해 조작되면, 그 조작에 따른 신호를 출력한다. 예를 들어 입력부(21)는 유저에 의한 상정 청취 위치의 입력을 접수하고, 유저에 의해 입력된 상정 청취 위치를 나타내는 상정 청취 위치 정보를 위치 정보 보정부(22) 및 공간 음향 특성 부가부(24)에 공급한다.

여기서, 상정 청취 위치는, 재현하고자 하는 가상의 음장에 있어서의, 콘텐츠를 구성하는 음성의 청취 위치이다. 따라서, 상정 청취 위치는, 미리 정해진 표준 청취 위치를 변경(보정)했을 때의 변경 후의 위치를 나타내고 있다고 할 수 있다.

위치 정보 보정부(22)는 입력부(21)로부터 공급된 상정 청취 위치 정보에 기초하여, 외부로부터 공급된 각 오브젝트의 위치 정보를 보정하고, 그 결과 얻어진 보정 위치 정보를 게인/주파수 특성 보정부(23) 및 렌더러 처리부(25)에 공급한다. 보정 위치 정보는, 상정 청취 위치로부터 본 오브젝트의 위치, 즉 오브젝트의 음성의 정위 위치를 나타내는 정보이다.

게인/주파수 특성 보정부(23)는 위치 정보 보정부(22)로부터 공급된 보정 위치 정보와, 외부로부터 공급된 위치 정보에 기초하여, 외부로부터 공급된 오브젝트의 파형 신호의 게인 보정 및 주파수 특성 보정을 행하고, 그 결과 얻어진 파형 신호를 공간 음향 특성 부가부(24)에 공급한다.

공간 음향 특성 부가부(24)는 입력부(21)로부터 공급된 상정 청취 위치 정보와, 외부로부터 공급된 오브젝트의 위치 정보에 기초하여, 게인/주파수 특성 보정부(23)로부터 공급된 파형 신호에 공간 음향 특성을 부가하고, 렌더러 처리부(25)에 공급한다.

렌더러 처리부(25)는 위치 정보 보정부(22)로부터 공급된 보정 위치 정보에 기초하여, 공간 음향 특성 부가부(24)로부터 공급된 파형 신호에 대한 맵핑 처리를 행하고, 2 이상인 M개의 채널의 재생 신호를 생성한다. 즉, 각 오브젝트의 파형 신호로부터, M채널의 재생 신호가 생성된다. 렌더러 처리부(25)는 생성된 M채널의 재생 신호를 컨벌루션 처리부(26)에 공급한다.

이와 같이 하여 얻어진 M채널의 재생 신호는, 가상적인 M개의 스피커(M채널의 스피커)로 재생함으로써 재현하고자 하는 가상의 음장의 상정 청취 위치에 있어서 청취되는, 각 오브젝트로부터 출력된 음성을 재현하는 오디오 신호이다.

컨벌루션 처리부(26)는 렌더러 처리부(25)로부터 공급된 M채널의 재생 신호에 대한 컨벌루션 처리를 행하고, 2채널의 재생 신호를 생성하여 출력한다. 즉, 이 예에서는 콘텐츠의 재생측의 스피커는 2개로 되어 있고, 컨벌루션 처리부(26)에서는, 그들 스피커에서 재생되는 재생 신호가 생성되어, 출력된다.

<재생 신호의 생성에 대해서>

이어서, 도 1에 도시한 음성 처리 장치(11)에 의해 생성되는 재생 신호에 대해서, 보다 상세하게 설명한다.

상술한 바와 같이, 여기에서는 음성 처리 장치(11)에 2개의 오브젝트 OB1 및 오브젝트 OB2에 관한 파형 신호와 위치 정보가 공급되는 예에 대하여 설명한다.

콘텐츠를 재생하고자 하는 경우, 유저는 입력부(21)를 조작하고, 렌더링 시에 각 오브젝트의 음성의 정위의 기준점이 되는 상정 청취 위치를 입력한다.

여기에서는 상정 청취 위치로서, 표준 청취 위치로부터의 좌우 방향의 이동 거리 X 및 전후 방향의 이동 거리 Y가 입력되는 것으로 하고, 상정 청취 위치 정보를 (X, Y)로 나타내기로 한다. 또한, 이동 거리 X 및 이동 거리 Y의 단위는 예를 들어 미터 등으로 된다.

구체적으로는 표준 청취 위치를 원점 O으로 하고, 수평 방향을 x축 방향 및 y축 방향으로 하고, 높이 방향을 z축 방향으로 하는 xyz 좌표계에 있어서의, 표준 청취 위치로부터 상정 청취 위치까지의 x축 방향의 거리 X와, 표준 청취 위치로부터 상정 청취 위치까지의 y축 방향의 거리 Y가 유저에 의해 입력된다. 그리고, 입력된 거리 X 및 거리 Y에 의해 나타나는 표준 청취 위치로부터의 상대적인 위치를 나타내는 정보가, 상정 청취 위치 정보 (X, Y)로 된다. 또한, xyz 좌표계는 직교 좌표계이다.

또한, 여기에서는 설명을 간단하게 하기 위해서, 상정 청취 위치가 xy 평면 상에 있는 경우를 예로서 설명하지만, 유저가 상정 청취 위치의 z축 방향의 높이를 지정할 수 있도록 해도 된다. 그러한 경우, 유저에 의해 표준 청취 위치로부터 상정 청취 위치까지의 x축 방향의 거리 X, y축 방향의 거리 Y, 및 z축 방향의 거리 Z가 지정되어, 상정 청취 위치 정보 (X, Y, Z)로 된다. 또한, 이상에 있어서는 유저에 의해 상정 청취 위치가 입력되는 것으로 설명했지만, 상정 청취 위치 정보가 외부로부터 취득되도록 해도 되고, 미리 유저 등에 의해 설정되어 있도록 해도 된다.

이와 같이 하여 상정 청취 위치 정보 (X, Y)가 얻어지면, 다음으로 위치 정보 보정부(22)에 있어서, 상정 청취 위치를 기준으로 하는 각 오브젝트의 위치를 나타내는 보정 위치 정보가 산출된다.

예를 들어 도 2에 도시한 바와 같이, 소정의 오브젝트 OB11에 대하여 파형 신호와 위치 정보가 공급되고, 유저에 의해 상정 청취 위치 LP11이 지정되었다고 하자. 또한, 도 2에 있어서, 도면 중, 가로 방향, 깊이 방향, 및 세로 방향은, 각각 x축 방향, y축 방향, 및 z축 방향을 나타내고 있다.

이 예에서는, xyz 좌표계의 원점 O가 표준 청취 위치로 되어 있다. 여기서, 오브젝트 OB11이 n번째의 오브젝트라고 하면, 표준 청취 위치로부터 본 오브젝트 OB11의 위치를 나타내는 위치 정보는 (A_n, E_n, R_n)으로 된다.

즉, 위치 정보 (A_n, E_n, R_n)의 방위각 A_n은, 원점 O 및 오브젝트 OB11을 연결하는 직선과, y축이 xy 평면 상에 있어서 이루는 각도를 나타내고 있다. 또한, 위치 정보 (A_n, E_n, R_n)의 앙각 E_n은, 원점 O 및 오브젝트 OB11을 연결하는 직선과, xy 평면과의 이루는 각도를 나타내고 있고, 위치 정보 (A_n, E_n, R_n)의 반경 R_n은, 원점 O로부터 오브젝트 OB11까지의 거리를 나타내고 있다.

이제, 상정 청취 위치 LP11을 나타내는 상정 청취 위치 정보로서, 원점 O로부터 상정 청취 위치 LP11까지의 x축 방향의 거리 X와 y축 방향의 거리 Y가 입력되었다고 하자.

그러한 경우, 위치 정보 보정부(22)는 상정 청취 위치 정보 (X, Y)와, 위치 정보 (A_n, E_n, R_n)에 기초하여, 상정 청취 위치 LP11로부터 본 오브젝트 OB11의 위치, 즉 상정 청취 위치 LP11을 기준으로 하는 오브젝트 OB11의 위치를 나타내는 보정 위치 정보 (A_n', E_n', R_n')를 산출한다.

또한, 보정 위치 정보 (A_n', E_n', R_n')에 있어서의 A_n', E_n', 및 R_n'는, 각각 위치 정보 (A_n, E_n, R_n)의 A_n, E_n, 및 R_n에 대응하는 방위각, 앙각, 및 반경을 나타내고 있다.

구체적으로는, 예를 들어 1번째의 오브젝트 OB₁에 대해서는, 위치 정보 보정부(22)는 그 오브젝트 OB₁의 위치 정보 (A₁, E₁, R₁)와, 상정 청취 위치 정보 (X, Y)에 기초하여, 다음 수학식 1 내지 수학식 3을 계산하여 보정 위치 정보 (A₁', E₁', R₁')를 산출한다.

즉, 수학식 1에 의해 방위각 A₁'가 산출되고, 수학식 2에 의해 앙각 E₁'가 산출되고, 수학식 3에 의해 반경 R₁'가 산출된다.

마찬가지로, 위치 정보 보정부(22)는 2번째의 오브젝트 OB₂에 대해서, 그 오브젝트 OB₂의 위치 정보 (A₂, E₂, R₂)와, 상정 청취 위치 정보 (X, Y)에 기초하여, 다음 수학식 4 내지 수학식 6을 계산하여 보정 위치 정보 (A₂', E₂', R₂')를 산출한다.

즉, 수학식 4에 의해 방위각 A₂'가 산출되고, 수학식 5에 의해 앙각 E₂'가 산출되고, 수학식 6에 의해 반경 R₂'가 산출된다.

계속해서, 게인/주파수 특성 보정부(23)에서는, 상정 청취 위치에 대한 각 오브젝트의 위치를 나타내는 보정 위치 정보와, 표준 청취 위치에 대한 각 오브젝트의 위치를 나타내는 위치 정보에 기초하여, 오브젝트의 파형 신호의 게인 보정이나 주파수 특성 보정이 행하여진다.

예를 들어 게인/주파수 특성 보정부(23)는 오브젝트 OB₁과 오브젝트 OB₂에 대해서, 보정 위치 정보의 반경 R₁' 및 반경 R₂' 과, 위치 정보의 반경 R₁ 및 반경 R₂를 사용하여 다음 수학식 7 및 수학식 8을 계산하고, 각 오브젝트의 게인 보정량 G₁ 및 게인 보정량 G₂를 결정한다.

즉, 수학식 7에 의해 오브젝트 OB₁의 파형 신호 W₁[t]의 게인 보정량 G₁이 구해지고, 수학식 8에 의해 오브젝트 OB₂의 파형 신호 W₂[t]의 게인 보정량 G₂가 구해진다. 이 예에서는, 보정 위치 정보에 의해 나타나는 반경과, 위치 정보에 의해 나타나는 반경의 비가 게인 보정량으로 되어 있고, 이 게인 보정량에 의해 오브젝트로부터 상정 청취 위치까지의 거리에 따른 음량 보정이 행하여진다.

또한 게인/주파수 특성 보정부(23)는 다음 수학식 9 및 수학식 10을 계산함으로써, 각 오브젝트의 파형 신호에 대하여 보정 위치 정보에 의해 나타나는 반경에 따른 주파수 특성 보정과, 게인 보정량에 의한 게인 보정을 실시한다.

즉, 수학식 9의 계산에 의해, 오브젝트 OB₁의 파형 신호 W₁[t]에 대한 주파수 특성 보정과 게인 보정이 행하여져, 파형 신호 W₁'[t]이 얻어진다. 마찬가지로, 수학식 10의 계산에 의해, 오브젝트 OB₂의 파형 신호 W₂[t]에 대한 주파수 특성 보정과 게인 보정이 행하여져, 파형 신호 W₂'[t]이 얻어진다. 이 예에서는, 필터 처리에 의해, 파형 신호에 대한 주파수 특성의 보정이 실현되고 있다.

또한, 수학식 9 및 수학식 10에 있어서, h_l(단, l=0, 1, …, L)은 필터 처리를 위하여 각 시각의 파형 신호 W_n[t-l](단, _n=1, 2)에 승산되는 계수를 나타내고 있다.

여기서, 예를 들어 L=2로 하고, 각 계수 h₀, h₁, 및 h₂를 다음 수학식 11 내지 수학식 13에 나타내는 것으로 하면, 오브젝트로부터 상정 청취 위치까지의 거리에 따라, 재현하고자 하는 가상의 음장(가상적인 오디오 재생 공간)의 벽이나 천장에 의해, 오브젝트로부터의 음성의 고역 성분이 감쇠되는 특성을 재현할 수 있다.

또한, 수학식 12에 있어서, R_n은 오브젝트 OB_n(단, _n=1, 2)의 위치 정보 (A_n, E_n, R_n)에 의해 나타나는 반경 R_n을 나타내고 있고, R_n'는 오브젝트 OB_n(단, _n=1, 2)의 보정 위치 정보 (A_n', E_n', R_n')에 의해 나타나는 반경 R_n'를 나타내고 있다.

이와 같이 수학식 11 내지 수학식 13에 나타나는 계수를 사용하여 수학식 9나 수학식 10의 계산을 행함으로써, 도 3에 도시하는 주파수 특성의 필터 처리가 행해지게 된다. 또한, 도 3에 있어서, 횡축은 정규화 주파수를 나타내고 있고, 종축은 진폭, 즉 파형 신호의 감쇠량을 나타내고 있다.

도 3에서는, 직선 C11은 R_n'≤R_n일 경우의 주파수 특성을 나타내고 있다. 이 경우, 오브젝트로부터 상정 청취 위치까지의 거리는, 오브젝트로부터 표준 청취 위치까지의 거리 이하이다. 즉, 표준 청취 위치보다도 상정 청취 위치쪽이 오브젝트에 보다 가까운 위치에 있거나, 또는 표준 청취 위치와 상정 청취 위치가 오브젝트로부터 동일한 거리의 위치에 있다. 따라서, 이러한 경우에는, 파형 신호의 각 주파수 성분은 특별히 감쇠되지 않는다.

또한, 곡선 C12는 R_n'=R_n+5일 경우의 주파수 특성을 나타내고 있다. 이 경우, 표준 청취 위치보다도 상정 청취 위치쪽이, 오브젝트로부터 조금 떨어진 위치에 있으므로, 파형 신호의 고역 성분이 조금 감쇠된다.

또한, 곡선 C13은 R_n'≥R_n+10일 경우의 주파수 특성을 나타내고 있다. 이 경우, 표준 청취 위치와 비교하여 상정 청취 위치쪽이, 오브젝트로부터 크게 떨어진 위치에 있으므로, 파형 신호의 고역 성분이 대폭으로 감쇠된다.

이와 같이 오브젝트로부터 상정 청취 위치까지의 거리에 따라 게인 보정과 주파수 특성 보정을 행하여, 오브젝트의 파형 신호의 고역 성분을 감쇠시킴으로써, 유저의 청취 위치의 변경에 수반하는 주파수 특성이나 음량의 변화를 재현할 수 있다.

게인/주파수 특성 보정부(23)에 있어서 게인 보정과 주파수 특성 보정이 행하여져서, 각 오브젝트의 파형 신호 W_n'[t]이 얻어지면, 또한 공간 음향 특성 부가부(24)에 있어서, 파형 신호 W_n'[t]에 대하여 공간 음향 특성이 부가된다. 예를 들어 공간 음향 특성으로서, 초기 반사나 잔향 특성 등이 파형 신호에 부가된다.

구체적으로는, 파형 신호에 대하여 초기 반사와 잔향 특성을 부가할 경우, 멀티탭 딜레이 처리, 콤 필터 처리, 및 올패스 필터 처리를 조합함으로써, 그들 초기 반사와 잔향 특성의 부가를 실현할 수 있다.

즉, 공간 음향 특성 부가부(24)는 오브젝트의 위치 정보와 상정 청취 위치 정보로부터 정해지는 지연량 및 게인량에 기초하여, 파형 신호에 대한 멀티탭 딜레이 처리를 실시하고, 그 결과 얻어진 신호를 원래의 파형 신호에 가산함으로써, 파형 신호에 초기 반사를 부가한다.

또한, 공간 음향 특성 부가부(24)는 오브젝트의 위치 정보와 상정 청취 위치 정보로부터 정해지는 지연량 및 게인량에 기초하여, 파형 신호에 대한 콤 필터 처리를 실시한다. 그리고, 또한 공간 음향 특성 부가부(24)는 콤 필터 처리된 파형 신호에 대하여 오브젝트의 위치 정보와 상정 청취 위치 정보로부터 정해지는 지연량 및 게인량에 기초하여 올패스 필터 처리를 실시함으로써, 잔향 특성을 부가하기 위한 신호를 얻는다.

마지막으로, 공간 음향 특성 부가부(24)는 초기 반사가 부가된 파형 신호와, 잔향 특성을 부가하기 위한 신호를 가산함으로써, 초기 반사와 잔향 특성이 부가된 파형 신호를 얻고, 렌더러 처리부(25)에 출력한다.

이와 같이, 오브젝트의 위치 정보와 상정 청취 위치 정보에 대하여 정해지는 파라미터를 사용하여, 파형 신호에 공간 음향 특성을 부가함으로써, 유저의 청취 위치의 변경에 수반하는 공간 음향의 변화를 재현할 수 있다.

또한, 이들 멀티탭 딜레이 처리나, 콤 필터 처리, 올패스 필터 처리 등에서 사용되는, 지연량이나 게인량 등의 파라미터는, 미리 오브젝트의 위치 정보와 상정 청취 위치 정보의 조합마다 테이블로 유지되어 있도록 해도 된다.

그러한 경우, 예를 들어 공간 음향 특성 부가부(24)는 각 상정 청취 위치에 대해서, 위치 정보에 의해 나타나는 위치마다 지연량 등의 파라미터 세트가 대응지어져 있는 테이블을 미리 유지하고 있다. 그리고, 공간 음향 특성 부가부(24)는 오브젝트의 위치 정보와 상정 청취 위치 정보로부터 정해지는 파라미터 세트를 테이블로부터 판독하고, 그들 파라미터를 사용하여 파형 신호에 공간 음향 특성을 부가한다.

또한, 공간 음향 특성의 부가에 사용하는 파라미터 세트는, 테이블로서 유지되도록 해도 되고, 함수 등으로 유지되도록 해도 된다. 예를 들어 함수에 의해 파라미터가 요구되는 경우, 공간 음향 특성 부가부(24)는 미리 유지하고 있는 함수에 위치 정보와 상정 청취 위치 정보를 대입하고, 공간 음향 특성의 부가에 사용하는 각 파라미터를 산출한다.

이상과 같이 하여 각 오브젝트에 대해서, 공간 음향 특성이 부가된 파형 신호가 얻어지면, 렌더러 처리부(25)에 있어서, 그들 파형 신호에 대한 M개의 각 채널에의 맵핑 처리가 행하여져, M채널의 재생 신호가 생성된다. 즉 렌더링이 행하여진다.

구체적으로는, 예를 들어 렌더러 처리부(25)는 오브젝트마다, 보정 위치 정보에 기초하여, VBAP에 의해 M개의 각 채널에 대하여 오브젝트의 파형 신호의 게인량을 구한다. 그리고, 렌더러 처리부(25)는 채널마다, VBAP로 구한 게인량이 승산된 각 오브젝트의 파형 신호를 가산하는 처리를 행함으로써, 각 채널의 재생 신호를 생성한다.

여기서, 도 4를 참조하여 VBAP에 대하여 설명한다.

예를 들어 도 4에 도시한 바와 같이, 유저 U11이 3개의 스피커 SP1 내지 스피커 SP3으로부터 출력되는 3채널의 음성을 듣고 있다고 하자. 이 예에서는, 유저 U11의 헤드부 위치가 상정 청취 위치에 상당하는 위치 LP21이 된다.

또한, 스피커 SP1 내지 스피커 SP3에 의해 둘러싸이는 구면 상의 삼각형TR11은 메쉬라고 불리고 있고, VBAP에서는, 이 메쉬 내의 임의의 위치에 음상을 정위시킬 수 있다.

이제, 각 채널의 음성을 출력하는 3개의 스피커 SP1 내지 스피커 SP3의 위치를 나타내는 정보를 사용하여, 음상 위치 VSP1에 음상을 정위시키는 것을 생각한다. 여기서, 음상 위치 VSP1은 1개의 오브젝트 OB_n의 위치, 보다 상세하게는, 보정 위치 정보 (A_n', E_n', R_n')에 의해 나타나는 오브젝트 OB_n의 위치에 대응한다.

예를 들어 유저 U11의 헤드부 위치, 즉 위치 LP21을 원점으로 하는 3차원 좌표계에 있어서, 음상 위치 VSP1을, 위치 LP21(원점)을 시점으로 하는 3차원의 벡터 p에 의해 나타내는 것으로 한다.

또한, 위치 LP21(원점)을 시점으로 하고, 각 스피커 SP1 내지 스피커 SP3의 위치 방향을 향하는 3차원의 벡터를 벡터 l₁ 내지 벡터 l₃으로 하면, 벡터 p는 다음 수학식 14에 나타낸 바와 같이, 벡터 l₁ 내지 벡터 l₃의 선형합에 의해 나타낼 수 있다.

수학식 14에 있어서 벡터 l₁ 내지 벡터 l₃에 승산되어 있는 계수 g₁ 내지 계수 g₃을 산출하고, 이들 계수 g₁ 내지 계수 g₃을, 스피커 SP1 내지 스피커 SP3 각각으로부터 출력하는 음성의 게인량, 즉 파형 신호의 게인량으로 하면, 음상 위치 VSP1에 음상을 정위시킬 수 있다.

구체적으로는, 3개의 스피커 SP1 내지 스피커 SP3을 포함하는 삼각 형상의 메쉬 역행렬 L₁₂₃ ^-1과, 오브젝트 OB_n의 위치를 나타내는 벡터 p에 기초하여, 다음 수학식 15를 계산함으로써, 게인량이 되는 계수 g₁ 내지 계수 g₃을 얻을 수 있다.

또한, 수학식 15에 있어서, 벡터 p의 요소인 R_n'sinA_n' cosE_n', R_n'cosA_n' cosE_n', 및 R_n'sinE_n'는 음상 위치 VSP1, 즉 오브젝트 OB_n의 위치를 나타내는 x'y'z' 좌표계 상의 x' 좌표, y' 좌표, 및 z' 좌표를 나타내고 있다.

이 x'y'z' 좌표계는, 예를 들어 x'축, y'축, 및 z'축이, 도 2에 도시한 xyz 좌표계의 x축, y축, 및 z축과 평행하고, 또한 상정 청취 위치에 상당하는 위치를 원점으로 하는 직교 좌표계로 된다. 또한, 벡터 p의 각 요소는, 오브젝트 OB_n의 위치를 나타내는 보정 위치 정보 (A_n', E_n', R_n')로부터 구할 수 있다.

또한, 수학식 15에 있어서 l₁₁, l₁₂, 및 l₁₃은, 메쉬를 구성하는 첫번째 스피커로 향하는 벡터 l₁을 x'축, y'축, 및 z'축의 성분으로 분해했을 경우에 있어서의 x' 성분, y' 성분, 및 z' 성분의 값이며, 첫번째 스피커의 x' 좌표, y' 좌표, 및 z' 좌표에 상당한다.

마찬가지로 l₂₁, l₂₂, 및 l₂₃은, 메쉬를 구성하는 두번째 스피커로 향하는 벡터 l₂를 x'축, y'축, 및 z'축의 성분으로 분해했을 경우에 있어서의 x' 성분, y' 성분, 및 z' 성분의 값이다. 또한, l₃₁, l₃₂, 및 l₃₃은, 메쉬를 구성하는 세번째 스피커로 향하는 벡터 l₃을 x'축, y'축, 및 z'축의 성분으로 분해했을 경우에 있어서의 x' 성분, y' 성분, 및 z' 성분의 값이다.

이와 같이 하여, 3개의 스피커 SP1 내지 스피커 SP3의 위치 관계를 이용하여 계수 g₁ 내지 계수 g₃을 구하고, 음상의 정위 위치를 제어하는 방법은, 특별히 3차원 VBAP이라고 부르고 있다. 이 경우, 재생 신호의 채널수 M은 3 이상이 된다.

또한, 렌더러 처리부(25)에서는, M채널의 재생 신호가 생성되므로, 각 채널에 대응하는 가상적인 스피커의 개수는 M개가 된다. 이 경우, 각 오브젝트 OB_n에 대해서, M개의 스피커 각각에 대응하는 M개의 채널마다 파형 신호의 게인량이 산출되게 된다.

이 예에서는, 가상의 M개의 스피커를 포함하는 복수의 메쉬가, 가상적인 오디오 재생 공간에 배치되어 있다. 그리고, 오브젝트 OB_n이 포함되는 메쉬를 구성하는 3개의 스피커에 대응하는 3개의 채널의 게인량은, 상술한 수학식 15에 의해 구해지는 값으로 된다. 한편, 나머지의 M-3개의 각 스피커에 대응하는, M-3개의 각 채널의 게인량은 0으로 된다.

이상과 같이 하여 렌더러 처리부(25)는 M채널의 재생 신호를 생성하면, 얻어진 재생 신호를 컨벌루션 처리부(26)에 공급한다.

이와 같이 하여 얻어진 M채널의 재생 신호에 의하면, 원하는 상정 청취 위치에서의 각 오브젝트의 음성의 들리는 방식을 보다 현실적으로 재현할 수 있다. 또한, 여기에서는 VBAP에 의해 M채널의 재생 신호를 생성하는 예에 대하여 설명했지만, M채널의 재생 신호는, 다른 어떤 방법에 의해 생성되도록 해도 된다.

M채널의 재생 신호는, M채널의 스피커 시스템에서 음성을 재생하기 위한 신호이며, 음성 처리 장치(11)에서는, 또한 이 M채널의 재생 신호가, 2채널의 재생 신호로 변환되어서 출력된다. 즉, M채널의 재생 신호가, 2채널의 재생 신호로 다운 믹스된다.

예를 들어 컨벌루션 처리부(26)는 렌더러 처리부(25)로부터 공급된 M채널의 재생 신호에 대한 컨벌루션 처리로서, BRIR(Binaural Room Impulse Response) 처리를 행함으로써, 2채널의 재생 신호를 생성하고, 출력한다.

또한, 재생 신호에 대한 컨벌루션 처리는, BRIR 처리에 한하지 않고, 2채널의 재생 신호를 얻을 수 있는 처리라면, 어떤 처리여도 된다.

또한, 2채널의 재생 신호의 출력처가 헤드폰일 경우, 미리 여러가지 오브젝트의 위치로부터 상정 청취 위치에 대한 임펄스 응답을 테이블에서 갖고 있도록 할 수도 있다. 그러한 경우, 오브젝트의 위치로부터 상정 청취 위치에 대응하는 임펄스 응답을 사용하여, BRIR 처리에 의해 각 오브젝트의 파형 신호를 합성함으로써, 각 오브젝트로부터 출력되는, 원하는 상정 청취 위치에서의 음성의 들리는 방식을 재현할 수 있다.

그러나, 이 방법을 위해서는, 상당히 다수의 포인트(위치)에 대응하는 임펄스 응답을 가져야만 한다. 또한, 오브젝트의 수가 증가하면, 그 수 만큼의 BRIR 처리를 행해야 하여, 처리 부하가 커진다.

따라서, 음성 처리 장치(11)에서는, 렌더러 처리부(25)에 의해 가상의 M채널의 스피커에 맵핑 처리된 재생 신호(파형 신호)가 그 가상의 M채널의 스피커로부터 유저(청취자)의 양쪽귀에 대한 임펄스 응답을 사용한 BRIR 처리에 의해 2채널의 재생 신호로 다운 믹스된다. 이 경우, M채널의 각 스피커로부터 청취자의 양쪽귀에의 임펄스 응답밖에는 가질 필요가 없고, 또한, 다수의 오브젝트가 있을 때에도 BRIR 처리는 M채널 분이 되므로, 처리 부하를 억제할 수 있다.

<재생 신호 생성 처리의 설명>

계속해서, 이상에 있어서 설명한 음성 처리 장치(11)의 처리의 흐름에 대하여 설명한다. 즉, 이하, 도 5의 흐름도를 참조하여, 음성 처리 장치(11)에 의한 재생 신호 생성 처리에 대하여 설명한다.

스텝 S11에 있어서, 입력부(21)는 상정 청취 위치의 입력을 접수한다. 입력부(21)는 유저가 입력부(21)를 조작하여 상정 청취 위치를 입력하면, 그 상정 청취 위치를 나타내는 상정 청취 위치 정보를 위치 정보 보정부(22) 및 공간 음향 특성 부가부(24)에 공급한다.

스텝 S12에 있어서, 위치 정보 보정부(22)는 입력부(21)로부터 공급된 상정 청취 위치 정보와, 외부로부터 공급된 각 오브젝트의 위치 정보에 기초하여 보정 위치 정보 (A_n', E_n', R_n')를 산출하고, 게인/주파수 특성 보정부(23) 및 렌더러 처리부(25)에 공급한다. 예를 들어, 상술한 수학식 1 내지 수학식 3이나 수학식 4 내지 수학식 6이 계산되어서, 각 오브젝트의 보정 위치 정보가 산출된다.

스텝 S13에 있어서, 게인/주파수 특성 보정부(23)는 위치 정보 보정부(22)로부터 공급된 보정 위치 정보와, 외부로부터 공급된 위치 정보에 기초하여, 외부로부터 공급된 오브젝트의 파형 신호의 게인 보정 및 주파수 특성 보정을 행한다.

예를 들어, 상술한 수학식 9나 수학식 10이 계산되어서, 각 오브젝트의 파형 신호 W_n'[t]이 구해진다. 게인/주파수 특성 보정부(23)는 얻어진 각 오브젝트의 파형 신호 W_n'[t]을 공간 음향 특성 부가부(24)에 공급한다.

스텝 S14에 있어서, 공간 음향 특성 부가부(24)는 입력부(21)로부터 공급된 상정 청취 위치 정보와, 외부로부터 공급된 오브젝트의 위치 정보에 기초하여, 게인/주파수 특성 보정부(23)로부터 공급된 파형 신호에 공간 음향 특성을 부가하고, 렌더러 처리부(25)에 공급한다. 예를 들어, 공간 음향 특성으로서 초기 반사나 잔향 특성 등이 파형 신호에 부가된다.

스텝 S15에 있어서, 렌더러 처리부(25)는 위치 정보 보정부(22)로부터 공급된 보정 위치 정보에 기초하여, 공간 음향 특성 부가부(24)로부터 공급된 파형 신호에 대한 맵핑 처리를 행함으로써, M채널의 재생 신호를 생성하고, 컨벌루션 처리부(26)에 공급한다. 예를 들어 스텝 S15의 처리에서는, VBAP에 의해 재생 신호가 생성되지만, 기타, 어떤 방법으로 M채널의 재생 신호가 생성되도록 해도 된다.

스텝 S16에 있어서, 컨벌루션 처리부(26)는 렌더러 처리부(25)로부터 공급된 M채널의 재생 신호에 대한 컨벌루션 처리를 행함으로써, 2채널의 재생 신호를 생성하고, 출력한다. 예를 들어 컨벌루션 처리로서, 상술한 BRIR 처리가 행하여진다.

2채널의 재생 신호가 생성되어서 출력되면, 재생 신호 생성 처리는 종료된다.

이상과 같이 하여 음성 처리 장치(11)는 상정 청취 위치 정보에 기초하여 보정 위치 정보를 산출함과 함께, 얻어진 보정 위치 정보나 상정 청취 위치 정보에 기초하여, 각 오브젝트의 파형 신호의 게인 보정이나 주파수 특성 보정을 행하거나, 공간 음향 특성을 부가하거나 한다.

이에 의해, 각 오브젝트 위치로부터 출력된 음성이 임의의 상정 청취 위치에서의 들리는 방식을 리얼하게 재현할 수 있다. 따라서, 유저는 콘텐츠의 재생 시에 자신의 기호에 맞춰서, 자유롭게 음성의 청취 위치를 지정할 수 있게 되어, 보다 자유도가 높은 오디오 재생을 실현할 수 있다.

<제2 실시 형태>

<음성 처리 장치의 구성예>

또한, 이상에 있어서는, 유저가 임의의 상정 청취 위치를 지정할 수 있는 예에 대하여 설명했지만, 청취 위치뿐만 아니라 각 오브젝트의 위치도 임의의 위치로 변경(수정)할 수 있도록 해도 된다.

그러한 경우, 음성 처리 장치(11)는 예를 들어 도 6에 도시하는 바와 같이 구성된다. 또한, 도 6에 있어서, 도 1에 있어서의 경우와 대응하는 부분에는 동일한 부호를 부여하고 있어, 그 설명은 적절히 생략한다.

도 6에 도시하는 음성 처리 장치(11)는 도 1에 있어서의 경우와 마찬가지로, 입력부(21), 위치 정보 보정부(22), 게인/주파수 특성 보정부(23), 공간 음향 특성 부가부(24), 렌더러 처리부(25), 및 컨벌루션 처리부(26)를 갖고 있다.

단, 도 6에 도시하는 음성 처리 장치(11)에서는, 유저에 의해 입력부(21)가 조작되고, 상정 청취 위치 외에, 또한 각 오브젝트의 수정 후(변경 후)의 위치를 나타내는 수정 위치가 입력된다. 입력부(21)는 유저에 의해 입력된 각 오브젝트의 수정 위치를 나타내는 수정 위치 정보를, 위치 정보 보정부(22) 및 공간 음향 특성 부가부(24)에 공급한다.

예를 들어 수정 위치 정보는, 위치 정보와 마찬가지로, 표준 청취 위치로부터 본 수정 후의 오브젝트 OB_n의 방위각 A_n, 앙각 E_n, 및 반경 R_n을 포함하는 정보로 된다. 또한, 수정 위치 정보는, 수정 전(변경 전)의 오브젝트의 위치에 대한, 수정 후(변경 후)의 오브젝트의 상대적인 위치를 나타내는 정보로 되어도 된다.

또한, 위치 정보 보정부(22)는 입력부(21)로부터 공급된 상정 청취 위치 정보 및 수정 위치 정보에 기초하여 보정 위치 정보를 산출하고, 게인/주파수 특성 보정부(23) 및 렌더러 처리부(25)에 공급한다. 또한, 예를 들어 수정 위치 정보가, 원래의 오브젝트 위치로부터 본 상대적인 위치를 나타내는 정보로 될 경우에는, 상정 청취 위치 정보, 위치 정보, 및 수정 위치 정보에 기초하여, 보정 위치 정보가 산출된다.

공간 음향 특성 부가부(24)는 입력부(21)로부터 공급된 상정 청취 위치 정보 및 수정 위치 정보에 기초하여, 게인/주파수 특성 보정부(23)로부터 공급된 파형 신호에 공간 음향 특성을 부가하고, 렌더러 처리부(25)에 공급한다.

예를 들어, 도 1에 도시한 음성 처리 장치(11)의 공간 음향 특성 부가부(24)에서는, 각 상정 청취 위치 정보에 대해서, 위치 정보에 의해 나타나는 위치마다 파라미터 세트가 대응지어져 있는 테이블을 미리 유지하고 있는 것으로 설명하였다.

이에 비해, 도 6에 도시하는 음성 처리 장치(11)의 공간 음향 특성 부가부(24)는 예를 들어 각 상정 청취 위치 정보에 대해서, 수정 위치 정보에 의해 나타나는 위치마다 파라미터 세트가 대응지어져 있는 테이블을 미리 유지하고 있다. 그리고, 공간 음향 특성 부가부(24)는 각 오브젝트에 대해서, 입력부(21)로부터 공급된 상정 청취 위치 정보와 수정 위치 정보로부터 정해지는 파라미터 세트를 테이블로부터 판독하고, 그들 파라미터를 사용하여 멀티탭 딜레이 처리나, 콤 필터 처리, 올패스 필터 처리 등을 행하고, 파형 신호에 공간 음향 특성을 부가한다.

<재생 신호 생성 처리의 설명>

다음으로 도 7의 흐름도를 참조하여, 도 6에 도시하는 음성 처리 장치(11)에 의한 재생 신호 생성 처리에 대하여 설명한다. 또한, 스텝 S41의 처리는, 도 5의 스텝 S11의 처리와 동일하므로, 그 설명은 생략한다.

스텝 S42에 있어서, 입력부(21)는 각 오브젝트의 수정 위치의 입력을 접수한다. 입력부(21)는 유저가 입력부(21)를 조작하여 오브젝트마다 수정 위치를 입력하면, 그들 수정 위치를 나타내는 수정 위치 정보를, 위치 정보 보정부(22) 및 공간 음향 특성 부가부(24)에 공급한다.

스텝 S43에 있어서, 위치 정보 보정부(22)는 입력부(21)로부터 공급된 상정 청취 위치 정보 및 수정 위치 정보에 기초하여 보정 위치 정보 (A_n', E_n', R_n')를 산출하고, 게인/주파수 특성 보정부(23) 및 렌더러 처리부(25)에 공급한다.

이 경우, 예를 들어 상술한 수학식 1 내지 수학식 3에 있어서, 위치 정보의 방위각, 앙각, 및 반경이, 수정 위치 정보의 방위각, 앙각, 및 반경으로 치환되어서 계산이 행하여져, 보정 위치 정보가 산출된다. 또한, 수학식 4 내지 수학식 6에 있어서도, 위치 정보가 수정 위치 정보로 치환되어서 계산이 행하여진다.

수정 위치 정보가 산출되면, 그 후, 스텝 S44의 처리가 행하여지는데, 스텝 S44의 처리는 도 5의 스텝 S13의 처리와 동일하므로, 그 설명은 생략한다.

스텝 S45에 있어서, 공간 음향 특성 부가부(24)는 입력부(21)로부터 공급된 상정 청취 위치 정보 및 수정 위치 정보에 기초하여, 게인/주파수 특성 보정부(23)로부터 공급된 파형 신호에 공간 음향 특성을 부가하고, 렌더러 처리부(25)에 공급한다.

파형 신호에 공간 음향 특성이 부가되면, 그 후, 스텝 S46 및 스텝 S47의 처리가 행하여져서 재생 신호 생성 처리는 종료하는데, 이들 처리는 도 5의 스텝 S15 및 스텝 S16의 처리와 동일하므로, 그 설명은 생략한다.

이상과 같이 하여 음성 처리 장치(11)는 상정 청취 위치 정보 및 수정 위치 정보에 기초하여 보정 위치 정보를 산출함과 함께, 얻어진 보정 위치 정보나 상정 청취 위치 정보, 수정 위치 정보에 기초하여, 각 오브젝트의 파형 신호의 게인 보정이나 주파수 특성 보정을 행하거나, 공간 음향 특성을 부가하거나 한다.

이에 의해, 임의의 오브젝트 위치로부터 출력된 음성이 임의의 상정 청취 위치에서의 들리는 방식을 리얼하게 재현할 수 있다. 따라서, 유저는 콘텐츠의 재생 시에 자신의 기호에 맞춰서, 자유롭게 음성의 청취 위치를 지정할 수 있을 뿐 아니라, 각 오브젝트의 위치도 자유로 지정할 수 있게 되어, 보다 자유도가 높은 오디오 재생을 실현할 수 있다.

예를 들어 음성 처리 장치(11)에 의하면, 유저가 가성이나 악기의 연주음 등의 구성이나 배치를 변경시켰을 경우의 소리의 들리는 방식을 재현할 수 있다. 따라서, 유저는 오브젝트에 대응하는 악기나 가성 등의 구성이나 배치를 자유롭게 이동시켜서, 자신의 기호에 맞은 음원 배치나 구성으로 한 악곡이나 소리를 즐길 수 있다.

또한, 도 6에 도시하는 음성 처리 장치(11)에 있어서도, 도 1에 도시한 음성 처리 장치(11)의 경우와 마찬가지로, 일단, M채널의 재생 신호를 생성하고, 그 재생 신호를 2채널의 재생 신호로 변환(다운 믹스)함으로써, 처리 부하를 억제할 수 있다.

그런데, 상술한 일련의 처리는, 하드웨어에 의해 실행할 수도 있고, 소프트웨어에 의해 실행할 수도 있다. 일련의 처리를 소프트웨어에 의해 실행하는 경우에는, 그 소프트웨어를 구성하는 프로그램이 컴퓨터에 인스톨된다. 여기서, 컴퓨터에는, 전용의 하드웨어에 내장되어 있는 컴퓨터나, 각종 프로그램을 인스톨함으로써, 각종 기능을 실행하는 것이 가능한, 예를 들어 범용의 컴퓨터 등이 포함된다.

도 8은, 상술한 일련의 처리를 프로그램에 의해 실행하는 컴퓨터의 하드웨어 구성예를 도시하는 블록도이다.

컴퓨터에 있어서, CPU(Central Processing Unit)(501), ROM(Read Only Memory)(502), RAM(Random Access Memory)(503)은, 버스(504)에 의해 서로 접속되어 있다.

버스(504)에는, 또한, 입출력 인터페이스(505)가 접속되어 있다. 입출력 인터페이스(505)에는, 입력부(506), 출력부(507), 기록부(508), 통신부(509), 및 드라이브(510)가 접속되어 있다.

입력부(506)는 키보드, 마우스, 마이크로폰, 촬상 소자 등을 포함한다. 출력부(507)는 디스플레이, 스피커 등을 포함한다. 기록부(508)는 하드 디스크나 불휘발성의 메모리 등을 포함한다. 통신부(509)는 네트워크 인터페이스 등을 포함한다. 드라이브(510)는 자기 디스크, 광 디스크, 광자기 디스크, 또는 반도체 메모리 등의 리무버블 미디어(511)를 구동한다.

이상과 같이 구성되는 컴퓨터에서는, CPU(501)가, 예를 들어, 기록부(508)에 기록되어 있는 프로그램을, 입출력 인터페이스(505) 및 버스(504)를 통하여, RAM(503)에 로드하여 실행함으로써, 상술한 일련의 처리가 행하여진다.

컴퓨터(CPU(501))가 실행하는 프로그램은, 예를 들어, 패키지 미디어 등으로서의 리무버블 미디어(511)에 기록하여 제공할 수 있다. 또한, 프로그램은, 로컬에리어 네트워크, 인터넷, 디지털 위성 방송과 같은, 유선 또는 무선의 전송 매체를 통하여 제공할 수 있다.

컴퓨터에서는, 프로그램은, 리무버블 미디어(511)를 드라이브(510)에 장착함으로써, 입출력 인터페이스(505)를 통하여, 기록부(508)에 인스톨할 수 있다. 또한, 프로그램은, 유선 또는 무선의 전송 매체를 통하여, 통신부(509)에서 수신하고, 기록부(508)에 인스톨할 수 있다. 기타, 프로그램은, ROM(502)이나 기록부(508)에 미리 인스톨해 둘 수 있다.

또한, 컴퓨터가 실행하는 프로그램은, 본 명세서에서 설명하는 순서에 따라서 시계열로 처리가 행하여지는 프로그램이어도 되고, 병렬로, 또는 호출이 행하여졌을 때 등의 필요한 타이밍에 처리가 행하여지는 프로그램이어도 된다.

또한, 본 기술의 실시 형태는, 상술한 실시 형태에 한정되는 것은 아니며, 본 기술의 요지를 일탈하지 않는 범위에서 다양한 변경이 가능하다.

예를 들어, 본 기술은, 하나의 기능을 네트워크를 통하여 복수의 장치에서 분담, 공동으로 처리하는 클라우드 컴퓨팅의 구성을 취할 수 있다.

또한, 상술한 흐름도에서 설명한 각 스텝은, 하나의 장치에서 실행하는 외에, 복수의 장치에서 분담하여 실행할 수 있다.

또한, 하나의 스텝에 복수의 처리가 포함되는 경우에는, 그 하나의 스텝에 포함되는 복수의 처리는, 하나의 장치에서 실행하는 외에, 복수의 장치에서 분담하여 실행할 수 있다.

또한, 본 명세서 중에 기재된 효과는 어디까지나 예시이며 한정되는 것은 아니고, 다른 효과가 있어도 된다.

또한, 본 기술은, 이하의 구성으로 하는 것도 가능하다.

(1)

음원의 위치를 나타내는 위치 정보와, 상기 음원으로부터의 음성을 청취하는 청취 위치를 나타내는 청취 위치 정보에 기초하여, 상기 청취 위치를 기준으로 하는 상기 음원의 위치를 나타내는 보정 위치 정보를 산출하는 위치 정보 보정부와,

상기 음원의 파형 신호와 상기 보정 위치 정보에 기초하여, 상기 청취 위치에 있어서 청취되는 상기 음원으로부터의 음성을 재현하는 재생 신호를 생성하는 생성부

를 구비하는 음성 처리 장치.

(2)

상기 위치 정보 보정부는, 상기 음원의 수정 후의 위치를 나타내는 수정 위치 정보와, 상기 청취 위치 정보에 기초하여 상기 보정 위치 정보를 산출하는

(1)에 기재된 음성 처리 장치.

(3)

상기 음원으로부터 상기 청취 위치까지의 거리에 따라, 상기 파형 신호에 게인 보정 또는 주파수 특성 보정 중 적어도 어느 하나를 행하는 보정부를 더 구비하는

(1) 또는 (2)에 기재된 음성 처리 장치.

(4)

상기 청취 위치 정보와 상기 수정 위치 정보에 기초하여, 상기 파형 신호에 공간 음향 특성을 부가하는 공간 음향 특성 부가부를 더 구비하는

(2)에 기재된 음성 처리 장치.

(5)

상기 공간 음향 특성 부가부는, 상기 공간 음향 특성으로서, 초기 반사 또는 잔향 특성 중 적어도 어느 하나를 상기 파형 신호에 부가하는

(4)에 기재된 음성 처리 장치.

(6)

상기 청취 위치 정보와 상기 위치 정보에 기초하여, 상기 파형 신호에 공간 음향 특성을 부가하는 공간 음향 특성 부가부를 더 구비하는

(1)에 기재된 음성 처리 장치.

(7)

상기 생성부에 의해 생성된 2 이상의 채널의 상기 재생 신호에 컨벌루션 처리를 행하고, 2채널의 상기 재생 신호를 생성하는 컨벌루션 처리부를 더 구비하는

(1) 내지 (6) 중 어느 한 항에 기재된 음성 처리 장치.

(8)

음원의 위치를 나타내는 위치 정보와, 상기 음원으로부터의 음성을 청취하는 청취 위치를 나타내는 청취 위치 정보에 기초하여, 상기 청취 위치를 기준으로 하는 상기 음원의 위치를 나타내는 보정 위치 정보를 산출하고,

상기 음원의 파형 신호와 상기 보정 위치 정보에 기초하여, 상기 청취 위치에 있어서 청취되는 상기 음원으로부터의 음성을 재현하는 재생 신호를 생성하는

스텝을 포함하는 음성 처리 방법.

(9)

스텝을 포함하는 처리를 컴퓨터에 실행시키는 프로그램.

11: 음성 처리 장치
21: 입력부
22: 위치 정보 보정부
23: 게인/주파수 특성 보정부
24: 공간 음향 특성 부가부
25: 렌더러 처리부
26: 컨벌루션 처리부

Claims

음원의 위치를 나타내는 위치 정보와, 상기 음원으로부터의 음성을 청취하는 청취 위치를 나타내는 청취 위치 정보에 기초하여, 상기 청취 위치를 기준으로 하는 상기 음원의 위치를 나타내는 보정 위치 정보를 산출하는 위치 정보 보정부와,
상기 음원의 파형 신호와 상기 보정 위치 정보에 기초하여, VBAP(Vector Base Amplitude Panning)를 이용하여 상기 청취 위치에 있어서 청취되는 상기 음원으로부터의 음성을 재현하는 재생 신호를 생성하는 생성부
를 구비하는 음성 처리 장치.
제1항에 있어서, 상기 위치 정보 보정부는, 상기 음원의 수정 후의 위치를 나타내는 수정 위치 정보와, 상기 청취 위치 정보에 기초하여 상기 보정 위치 정보를 산출하는
음성 처리 장치.
제1항에 있어서, 상기 음원으로부터 상기 청취 위치까지의 거리에 따라, 상기 파형 신호에 게인 보정 또는 주파수 특성 보정 중 적어도 어느 하나를 행하는 보정부를 더 구비하는
음성 처리 장치.
제2항에 있어서, 상기 청취 위치 정보와 상기 수정 위치 정보에 기초하여, 상기 파형 신호에 공간 음향 특성을 부가하는 공간 음향 특성 부가부를 더 구비하는
음성 처리 장치.
제4항에 있어서, 상기 공간 음향 특성 부가부는, 상기 공간 음향 특성으로서, 초기 반사 또는 잔향 특성 중 적어도 어느 하나를 상기 파형 신호에 부가하는
음성 처리 장치.
제1항에 있어서, 상기 청취 위치 정보와 상기 위치 정보에 기초하여, 상기 파형 신호에 공간 음향 특성을 부가하는 공간 음향 특성 부가부를 더 구비하는
음성 처리 장치.
제1항에 있어서, 상기 생성부에 의해 생성된 2 이상의 채널의 상기 재생 신호에 컨벌루션 처리를 행하고, 2채널의 상기 재생 신호를 생성하는 컨벌루션 처리부를 더 구비하는
음성 처리 장치.
음원의 위치를 나타내는 위치 정보와, 상기 음원으로부터의 음성을 청취하는 청취 위치를 나타내는 청취 위치 정보에 기초하여, 상기 청취 위치를 기준으로 하는 상기 음원의 위치를 나타내는 보정 위치 정보를 산출하고,
상기 음원의 파형 신호와 상기 보정 위치 정보에 기초하여, VBAP를 이용하여 상기 청취 위치에 있어서 청취되는 상기 음원으로부터의 음성을 재현하는 재생 신호를 생성하는
스텝을 포함하는 음성 처리 방법.
음원의 위치를 나타내는 위치 정보와, 상기 음원으로부터의 음성을 청취하는 청취 위치를 나타내는 청취 위치 정보에 기초하여, 상기 청취 위치를 기준으로 하는 상기 음원의 위치를 나타내는 보정 위치 정보를 산출하고,
상기 음원의 파형 신호와 상기 보정 위치 정보에 기초하여, VBAP를 이용하여 상기 청취 위치에 있어서 청취되는 상기 음원으로부터의 음성을 재현하는 재생 신호를 생성하는
스텝을 포함하는 처리를 컴퓨터에 실행시키는 프로그램을 기록한 컴퓨터로 판독 가능한 매체에 저장된 컴퓨터 프로그램.