[go: up one dir, main page]

KR102153491B1 - 음원 도래각 추정 장치 및 방법 - Google Patents

음원 도래각 추정 장치 및 방법 Download PDF

Info

Publication number
KR102153491B1
KR102153491B1 KR1020200038931A KR20200038931A KR102153491B1 KR 102153491 B1 KR102153491 B1 KR 102153491B1 KR 1020200038931 A KR1020200038931 A KR 1020200038931A KR 20200038931 A KR20200038931 A KR 20200038931A KR 102153491 B1 KR102153491 B1 KR 102153491B1
Authority
KR
South Korea
Prior art keywords
arrival
intensity difference
sound source
angle
estimating
Prior art date
Application number
KR1020200038931A
Other languages
English (en)
Inventor
전찬준
전광명
Original Assignee
한국건설기술연구원
인트플로우 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국건설기술연구원, 인트플로우 주식회사 filed Critical 한국건설기술연구원
Priority to KR1020200038931A priority Critical patent/KR102153491B1/ko
Application granted granted Critical
Publication of KR102153491B1 publication Critical patent/KR102153491B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S3/00Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
    • G01S3/80Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
    • G01S3/802Systems for determining direction or deviation from predetermined direction
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S3/00Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
    • G01S3/80Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
    • G01S3/801Details
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)

Abstract

음원의 도래각 추정 장치 및 방법이 제공된다. 강도차 산출부는 두 채널에 대한 스테레오 소리 신호를 포함하는 m(m은 1보다 큰 정수)개의 오디오 클립들이 입력되면, 각 오디오 클립 별로 두 채널 간의 강도차를 산출하고, 도래각 추정부는 강도차 산출부에서 산출되는 m개의 강도차들에 대해 K-means 클러스터링 방식을 적용하여 각 오디오 클립의 음원 도래각을 추정한다.

Description

음원 도래각 추정 장치 및 방법{Apparatus and method for estimating the sound source arrival angle}
본 발명은 음원 도래각 추정 장치 및 방법에 관한 것으로서, 보다 상세하게는, 스테레오 마이크로폰 환경에서 음원의 발원 방향을 K-means 클러스터링 기법을 활용하여 추정할 수 있는 비지도 학습 기반의 음원 도래각 추정 장치 및 방법에 관한 것이다.
도 1은 스테레오 마이크로폰에서 발생하는 시간차와 강도차를 보여주는 도면이다.
스테레오 마이크로폰 환경에서 음원의 발원방향에 따라서 채널간 강도차(ILD: Inter-channel Level Difference) 및 시간차(ITD: Inter-channel Time Difference)가 도 1과 같이 발생한다. 따라서, 강도차 또는 시간차를 분석하여 음원 방향을 추정하는 것이 가능하다.
방향에 따른 강도차를 활용할 경우에는 마이크로폰의 사양(스펙)에 따라서 강도차가 다르게 나타나는 특징이 있다.
도 2는 다양한 마이크로폰의 방향별 방향성 패턴(Directivity Pattern, 또는 Polar Pattern)을 보여주는 도면이다.
도 2에 도시된 것처럼, 마이크로폰은 사양에 따라 상이한 패턴을 가지고 있으며, 이에 따라 같은 방향에서 발생한 음원일지라도 어떠한 마이크로폰을 활용했는지에 따라서 강도차는 다르게 나타난다. 이에 따라서, 기존의 마이크로폰 기반의 도래각 추정 기술은 강도차를 활용하기 보다는 시간차를 활용하여 도래각을 추정하는 기술이 대부분이다.
시간차를 이용하여 도래각을 추정하는 기술은 크게 Time Delay Estimation(TDE) 방식과 Steered Response Power(SRP) 기반의 방식으로 나눌 수 있다.
TDE 방식의 경우에는 Generalized Cross Correlation with Phase Transform(GCC-PHAT)이 가장 대표적인 방법이며, [수학식 1]처럼 cross-correlation 기반으로 도래각을 추정한다.
Figure 112020033512695-pat00001
소리 신호의 경우에는 주파수 도메인에서 분석을 하는 경우가 많으며, [수학식 1]을 주파수 도메인 환경에 맞게 변환을 하면 [수학식 2]와 같다.
Figure 112020033512695-pat00002
한편, SRP 방식의 경우에는 Steered Response Power with Phase Transform(SRP-PHAT)이 가장 대표적인 방법이며, [수학식 3]에서와 같이 다양한 방향별로 빔포밍을 형성한 후에, 에너지가 최대가 되는 곳을 추정함에 따라 도래각을 찾게 된다.
Figure 112020033512695-pat00003
그러나, 시간차를 이용하는 경우에도 스테레오 마이크로폰의 간격이 좁을 경우에는 시간차가 많이 발생하지 않을 수 있으므로 도래각 추정이 어렵거나, 마이크로폰의 간격이 클 경우에는 고주파에서는 Spatial Aliasing 현상이 발생하게 되어 도래각 추정에 어려움을 겪게 된다.
따라서, 스테레오 마이크로폰 환경에서 음원의 발원 방향을 보다 정확하게 추정할 수 있는 기술이 필요하다.
국내 등록특허 제10-16316110호(2016.06.13)
전술한 문제점을 해결하기 위하여 본 발명이 이루고자 하는 기술적 과제는, 음원의 방향 또는 도래각에 따라서 강도차가 나타나며, 특히 정면을 기준으로 음향 방향이 멀어질수록 강도차가 더 커지는 경향성을 이용하여 음원의 도래각을 추정할 수 있는 음원 도래각 추정 장치 및 방법을 제시하는 데 있다.
본 발명의 해결과제는 이상에서 언급된 것들에 한정되지 않으며, 언급되지 아니한 다른 해결과제들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
전술한 기술적 과제를 해결하기 위한 수단으로서, 본 발명의 실시 예에 따르면, 음원의 도래각 추정 장치는 두 채널에 대한 스테레오 소리 신호를 포함하는 m(m은 1보다 큰 정수)개의 오디오 클립들이 입력되면, 각 오디오 클립 별로 두 채널 간의 강도차를 산출하는 강도차 산출부; 및 상기 강도차 산출부에서 산출되는 m개의 강도차들에 대해 K-means 클러스터링 방식을 적용하여 각 오디오 클립의 음원 도래각을 추정하는 도래각 추정부;를 포함한다.
상기 강도차 산출부는 다음 식을 이용하여 하나의 오디오 클립에 대한 두 채널 간의 강도차를 산출한다.
Figure 112020033512695-pat00004
여기서,
Figure 112020033512695-pat00005
은 하나의 오디오 클립에 대한 두 채널 간의 강도차, n은 하나의 오디오 클립에 속한 샘플들(즉, 신호들)의 인덱스(이하, '샘플 인덱스'라 한다), S는 해당 오디오 클립에서 샘플 인덱스의 최대값,
Figure 112020033512695-pat00006
Figure 112020033512695-pat00007
은 각각 스테레오 소리 신호의 좌측 샘플과 우측 샘플이다.
상기 도래각 추정부는, 상기 m개의 오디오 클립들 각각의 음원 도래각 추정을 위해 p개(p는 1보다 큰 정수)의 도래각들이 설정되는 설정부; 상기 산출되는 m개의 강도차들에 대해 K-means 클러스터링 방식을 적용하여 p개의 도래각들에 대응하는 p개의 클러스터들 별로 강도차 센트로이드를 산출하는 센트로이드 산출부; 상기 p개의 클러스터들 별로 산출된 강도차 센트로이드에 대응하는 도래각을 상기 강도차 센트로이드가 속한 클러스터 내의 오디오 클립들의 음원 도래각으로서 추정하는 음원 도래각 추정부;를 포함한다.
상기 센트로이드 산출부는, 상기 설정부에서 설정된 도래각의 개수 p개를 클러스터 개수로서 정하고, 상기 강도차 산출부에서 산출된 m개의 강도차들을 p개로 클러스터링하며, p개의 클러스터들 각각에 대해 강도차 센트로이드를 산출한다.
한편, 전술한 기술적 과제를 해결하기 위한 수단으로서, 본 발명의 실시 예에 따르면, 음원의 도래각 추정 방법은, (A) 전자장치가, 두 채널에 대한 스테레오 소리 신호를 포함하는 m(m은 1보다 큰 정수)개의 오디오 클립들이 입력되면, 각 오디오 클립 별로 두 채널 간의 강도차를 산출하는 단계; 및 (B) 상기 전자장치가, 상기 (A) 단계에서 산출되는 m개의 강도차들에 대해 K-means 클러스터링 방식을 적용하여 각 오디오 클립의 음원 도래각을 추정하는 도래각 추정부;를 포함한다.
상기 (A) 단계는, 다음 식을 이용하여 하나의 오디오 클립에 대한 두 채널 간의 강도차를 산출한다.
Figure 112020033512695-pat00008
상기 (B) 단계는, (B1) 상기 m개의 오디오 클립들 각각의 음원 도래각 추정을 위해 p개(p는 1보다 큰 정수)의 도래각들이 설정되는 단계; (B2) 상기 산출되는 m개의 강도차들에 대해 K-means 클러스터링 방식을 적용하여 p개의 도래각들에 대응하는 p개의 클러스터들 별로 강도차 센트로이드를 산출하는 단계; 및 (B3) 상기 p개의 클러스터들 별로 산출된 강도차 센트로이드에 대응하는 도래각을 상기 강도차 센트로이드가 속한 클러스터 내의 오디오 클립들의 음원 도래각으로서 추정하는 단계;를 포함한다.
본 발명에 따르면,정면을 기준으로 음원 방향이 변하면 강도차도 변하는 경향성에 기초하여 K-means 클러스터링 기반의 음원의 발원 방향을 추정함으로써 스테레오 마이크로폰의 성능에 상관없이 정확한 발원 방향, 즉, 음원 도래각 추정이 가능하다.
또한, 스테레오 마이크로폰의 음원 도래각 추정이 가능함에 따라 AI 스피커, 사운드 이벤트 디텍션, 음성 인식 등 다양한 분야에서의 활용이 가능하며, 향후, 다양한 음성 및 오디오 관련 어플리케이션에 접목되어 고품질의 서비스를 제시할 수 있다.
본 발명의 효과는 이상에서 언급된 것들에 한정되지 않으며, 언급되지 아니한 다른 효과들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
도 1은 스테레오 마이크로폰에서 발생하는 시간차와 강도차를 보여주는 도면,
도 2는 다양한 마이크로폰의 방향별 방향성 패턴을 보여주는 도면,
도 3은 본 발명의 실시 예에 따른 음원 도래각 추정 장치를 도시한 블록도,
도 4는 음원과 스테레오 마이크로폰과의 관계를 보여주는 도면,
도 5는 음원의 방향에 따라 나타나는 강도차를 보여주는 예시도,
도 6은 0°, 60°, 120° 및 180° 방향에 존재하는 50개의 오디오 클립들에 대해서 도래각을 추정한 결과를 보여주는 도면,
도 7은 본 발명의 실시 예에 따른 전자장치의 음원 도래각 추정 방법을 보여주는 흐름도, 그리고,
도 8은 본 발명의 일 실시 예에 따른 음원 도래각 추정 방법을 실행하는 컴퓨팅 시스템을 보여주는 블록도이다.
본 발명의 실시를 위한 구체적인 내용을 설명하기에 앞서, 본 명세서 및 청구범위에 사용된 용어나 단어는 발명자가 그 자신의 발명을 가장 최선의 방법으로 설명하기 위해 용어의 개념을 적절하게 정의할 수 있다는 원칙에 입각하여 본 발명의 기술적 사항에 부합하는 의미와 개념으로 해석되어야 할 것이다.
또한, 본 발명에 관련된 공지 기능 및 그 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는, 그 구체적인 설명을 생략하였음에 유의해야 할 것이다.
어떤 엘리먼트, 구성요소, 장치, 또는 시스템이 프로그램 또는 소프트웨어로 이루어진 구성요소를 포함한다고 언급되는 경우, 명시적인 언급이 없더라도, 그 엘리먼트, 구성요소, 장치, 또는 시스템은 그 프로그램 또는 소프트웨어가 실행 또는 동작하는데 필요한 하드웨어(예를 들면, 메모리, CPU 등)나 다른 프로그램 또는 소프트웨어(예를 들면 운영체제나 하드웨어를 구동하는데 필요한 드라이버 등)를 포함하는 것으로 이해되어야 할 것이다.
또한, 어떤 엘리먼트(또는 구성요소)가 구현됨에 있어서 특별한 언급이 없다면, 그 엘리먼트(또는 구성요소)는 소프트웨어, 하드웨어, 또는 소프트웨어 및 하드웨어 어떤 형태로도 구현될 수 있는 것으로 이해되어야 할 것이다.
이하에서는 본 발명에서 실시하고자 하는 구체적인 기술내용에 대해 첨부도면을 참조하여 상세하게 설명하기로 한다.
도 3에 도시된 장치들의 각각의 구성은 기능 및 논리적으로 분리될 수 있음을 나타내는 것이며, 반드시 각각의 구성이 별도의 물리적 장치로 구분되거나 별도의 코드로 생성됨을 의미하는 것은 아님을 본 발명의 기술분야의 평균적 전문가는 용이하게 추론할 수 있을 것이다.
도 3은 본 발명의 실시 예에 따른 음원 도래각 추정 장치(300)를 도시한 블록도이다.
도 3에 도시된 음원 도래각 추정 장치(300)는 스테레오 마이크로폰 환경에서 음원의 방향, 즉, 도래각을 추정할 수 있는 장치로서, K-means 클러스터링 방식을 이용하여 비지도 학습 기반의 음원 도래각을 추정할 수 있다.
도 4는 음원과 스테레오 마이크로폰과의 관계를 보여주는 도면, 도 5는 음원의 방향에 따라 나타나는 강도차를 보여주는 예시도이다.
도 4를 참조하면, Mic1과 Mic2는 각각 우측 마이크로폰과 좌측 마이크로폰, 음원은 소리가 출력되는 위치, θ는 음원의 도래각, 정면은 Mic1과 Mic2의 중심과 음원이 이루는 각도가 90°인 경우로서, 정면을 기준으로 정하기 위한 각도 90°는 변경가능하다.
도 5를 참조하면, 0°, 60°, 120° 및 180°는 음원의 방향, 즉, 음원의 도래각으로서, 스테레오 마이크로폰 환경에서 음원의 방향에 따라 강도차가 다르게 나타나는 것을 알 수 있다. 특히, 스테레오 마이크로폰의 종류나 성능에 따라서 강도차의 정도 차이가 나타날 수 있지만, 상술한 정면에서 멀어지는 도래각일수록(즉, 도 4에 도시된 것처럼 정면을 기준으로 양측으로 음원이 이동할수록) 강도차가 점점 크게 나타나는 경향성은 모든 마이크로폰에 대해 동일하다고 볼 수 있다. 따라서, 본 발명의 실시 예에서는 이러한 경향성을 이용하여 음원 도래각을 추정한다.
다시 도 3을 참조하면, 본 발명의 실시 예에 따른 음원의 도래각 추정 장치(300)는 강도차 산출부(310) 및 도래각 추정부(320)를 포함할 수 있다.
강도차 산출부(310)는 두 채널에 대한 스테레오 소리 신호를 포함하는 m(m은 1보다 큰 정수)개의 오디오 클립들이 입력되면, 각 오디오 클립 별로 두 채널 간의 강도차를 산출할 수 있다. 오디오 클립은 스테레오 마이크로폰이 취득한 스테레오 소리 신호로부터 생성된 오디오 파일이다. 두 채널은 우측 마이크로폰과 좌측 마이크로폰에 해당하는 채널이다.
강도차 산출부(310)는 [수학식 4]를 이용하여 하나의 오디오 클립에 대한 두 채널 간의 강도차를 산출할 수 있다. 강도차를 산출하기 위한 오디오 클립이 예를 들어 50개인 경우, 강도차 산출부(310)는 50개의 강도차(
Figure 112020033512695-pat00009
~
Figure 112020033512695-pat00010
, 1~50은 오디오 클립 인덱스)를 산출한다.
Figure 112020033512695-pat00011
여기서,
Figure 112020033512695-pat00012
은 하나의 오디오 클립에 대한 두 채널 간의 강도차(power ratio), n은 하나의 오디오 클립에 속한 샘플들(즉, 신호들)의 인덱스(이하, '샘플 인덱스'라 한다), S는 해당 오디오 클립에서 샘플 인덱스의 최대값,
Figure 112020033512695-pat00013
Figure 112020033512695-pat00014
은 각각 스테레오 소리 신호의 좌측 샘플과 우측 샘플을 의미한다.
[수학식 4]를 참조하면, 강도차 산출부(310)는 입력되는 스테레오 소리 신호(
Figure 112020033512695-pat00015
Figure 112020033512695-pat00016
)를 제곱근한 후 강도차를 산출한다. 우측 채널의 신호와 좌측 채널의 신호의 크기가 비슷하면 1에 가까운 강도차가 산출되고, 우측 채널의 신호가 더 크다면 1보다 큰 강도차가 산출되고, 좌측 채널의 신호가 더 크다면 1보다 작은 강도차가 산출된다.
도래각 추정부(320)는 강도차 산출부(310)에서 산출되는 m개의 강도차들에 대해 K-means 클러스터링 방식을 적용하여 강도차 센트로이드를 산출한 후 강도차 센트로이드를 이용하여 m개의 강도차들에 대해 도 6에 도시된 것처럼 군집하며, 이로써 각 오디오 클립의 음원 도래각을 추정할 수 있다.
이를 위하여, 도래각 추정부(320)는 설정부(322), 센트로이드 산출부(324) 및 음원 도래각 추정부(326)를 포함할 수 있다.
설정부(322)는 K-means 클러스터링 방식으로 형성할 클러스터의 개수(p)와 각 클러스터의 값을 설정한다. 즉, p는 도래각을 몇 개로 분류할지를 나타내는 파라메타이다. 따라서, 설정부(322)는 m개의 오디오 클립들 각각의 음원 도래각 추정을 위해 p개(p는 1보다 큰 정수)의 도래각들을 설정하고, 각 도래각에 대해 인덱스를 설정할 수 있다.
예를 들어, 사용자가 음원의 방향을 0°, 60°, 120° 및 180°로 분류한 경우, 설정부(322)는 클러스터의 개수는 4로 설정하거나, 반대로 클러스터의 개수를 4로 정하면 음원의 방향(즉, 도래각)을 0°, 60°, 120° 및 180°로 분류한다. 그리고, 0°에는 p=0이라는 인덱스를, 60°에는 p=1이라는 인덱스를, 120°에는 p=2라는 인덱스를, 180°에는 p=3이라는 인덱스를 설정할 수 있다.
센트로이드 산출부(324)는 산출되는 m개의 강도차들에 대해 [수학식 5]의 K-means 클러스터링 방식을 적용하여 p개의 도래각들에 대응하는 p개의 클러스터들 별로 강도차 센트로이드(gp, p=0, 1, 2, 3)를 산출할 수 있다.
Figure 112020033512695-pat00017
[수학식 5]에서, m은 K-means 클러스터링하기 위한 오디오 클립의 개수, p는 클러스터 개수(또는 분류된 클러스터 인덱스)이고, gp는 각 클러스터의 강도차 센트로이드, cp(m)은 클러스터가 p개로 분류된 경우, 강도차 산출부(310)에서 산출된 강도차가 어느 클러스터에 속하는지 마스킹하기 위한 함수이다.
[수학식 5]를 참조하면 센트로이드 산출부(324)는 설정부(322)에서 설정된 도래각의 개수 p개를 클러스터 개수로서 정하고, 강도차 산출부(310)에서 산출된 m개의 강도차들을 p개로 클러스터링하며, p개의 클러스터들 각각에 대해 강도차 센트로이드를 산출할 수 있다.
즉, [수학식 5]와 같은 K-means 클러스터링에 의해 센트로이드 산출부(324)는 오디오 클립들의 강도차들을 도래각 별로, 즉, p의 인덱스 별로 분류하여 클러스터링한 후, 동일한 클러스터에 속한 강도차들의 중심값(mean)인 센트로이드를 산출할 수 있다.
예를 들어, 센트로이드 산출부(324)는 모든 오디오 클립들의 강도차를 순회하며 각 강도차마다 가장 가까운 센트로이드가 속해 있는 클러스터로 강도차를 어사인(assign)하고, 센트로이드를 재산출하여 클러스터의 중심으로 이동할 수 있다. 새로 어사인된 강도차가 발생하면 센트로이드도 변경되므로, 센트로이드 산출부(324)는 변경된 센트로이드와 강도차들의 유클리디안 거리에 따라 어사인을 반복 수행할 수 있다. 즉, 센트로이드 산출부(324)는 클러스터에 새로 어사인되는(즉, 변경된 센트로이드에 의해 소속된 클러스터가 변경되는) 강도차가 없을 때까지 센트로이드를 재산출하고 클러스터로 어사인하는 동작을 반복수행할 수 있다.
음원 도래각 추정부(326)는 센트로이드 산출부(324)에서 p개의 클러스터들 별로 산출된 강도차 센트로이드(gp)에 대응하는 도래각을 강도차 센트로이드(gp)가 속한 클러스터 내의 오디오 클립들의 음원 도래각으로서 추정할 수 있다.
도 6은 0°, 60°, 120° 및 180° 방향에 존재하는 50개의 오디오 클립들에 대해서 도래각을 추정한 결과를 보여주는 도면이다.
도 6을 참조하면, 상단에 표기된 0°, 60°, 120° 및 180°는 초기에 강도차 산출부(310)로 입력된 50개의 오디오 클립들의 실제 음원 방향(또는 Ground Truth)이다.
Figure 112020033512695-pat00018
은 m(m=1~50)번째 오디오 클립의 강도차, go, g1, g2, g3는 각각 0°, 60°, 120° 및 180°에 해당하는 클러스터들에 대한 강도차 센트로이드이다. 예를 들어, m=1~12인 오디오 클립들은 g0의 클러스터에 군집되어 있으며, 따라서, m=1~12인 오디오 클립들의 도래각은 0°로 추정된다.
도 6에 의하면, 실제 GT 각도에 따라서 강도차의 분포가 실제 음원의 발원 방향과 일치하게 분포되어 있는 것을 알 수 있다. 즉, 본 발명의 실시 예에 따른 K-means 클러스터링을 기반으로 모든 음원 또는 모든 오디오 클립들에 대한 도래각을 정확하게 추정하는 것이 가능하다.
도 7은 본 발명의 실시 예에 따른 전자장치의 음원 도래각 추정 방법을 보여주는 흐름도이다.
도 7의 음원의 도래각 추정 방법을 수행하는 전자장치는 도 3 내지 도 6을 참조하여 설명한 음원의 도래각 추정 장치(300)이거나 또는 음원의 도래각 추정 장치(300)와 방법을 구현하기 위한 컴퓨팅 시스템(800)일 수도 있다.
도 7을 참조하면, 전자장치는 두 채널에 대한 스테레오 소리 신호를 포함하는 m(m은 1보다 큰 정수)개의 오디오 클립들이 입력되면, 각 오디오 클립 별로 두 채널 간의 강도차를 산출할 수 있다(S710). S710단계는 [수학식 4]를 이용할 수 있다.
전자장치는 S710단계에서 산출되는 m개의 강도차들에 대해 K-means 클러스터링 방식을 적용하여 각 오디오 클립의 음원 도래각을 추정할 수 있다(S720).
S720단계에서, 전자장치는 m개의 오디오 클립들 각각의 음원 도래각 추정을 위해 p개(p는 1보다 큰 정수)의 도래각들을 설정할 수 있다(S722).
전자장치는 S722단계에서 산출되는 m개의 강도차들에 대해 [수학식 5]와 같은 K-means 클러스터링 방식을 적용하여 p개의 도래각들에 대응하는 p개의 클러스터들 별로 강도차 센트로이드를 산출할 수 있다(S724).
전자장치는 S724단계에서 p개의 클러스터들 별로 산출된 강도차 센트로이드(p=4인 경우, go, g1, g2, g3)에 대응하는 도래각을 강도차 센트로이드(p=4인 경우, go, g1, g2, g3)가 속한 클러스터 내의 오디오 클립들의 음원 도래각으로서 추정할 수 있다(S726).
도 8은 본 발명의 일 실시 예에 따른 음원 도래각 추정 방법을 실행하는 컴퓨팅 시스템을 보여주는 블록도이다.
도 8을 참조하면, 컴퓨팅 시스템(800)은 버스(820)를 통해 연결되는 적어도 하나의 프로세서(810), 메모리(830), 사용자 인터페이스 입력 장치(840), 사용자 인터페이스 출력 장치(850), 스토리지(860), 및 네트워크 인터페이스(870)를 포함할 수 있다. 음원의 도래각 추정 장치(300)는 컴퓨팅 시스템(800)일 수 있다.
프로세서(810)는 중앙 처리 장치(CPU) 또는 메모리(830) 및/또는 스토리지(860)에 저장된 명령어들에 대한 처리를 실행하는 반도체 장치일 수 있다. 메모리(830) 및 스토리지(860)는 다양한 종류의 휘발성 또는 비휘발성 저장 매체를 포함할 수 있다. 예를 들어, 메모리(830)는 ROM(Read Only Memory)(831) 및 RAM(Random Access Memory)(832)을 포함할 수 있다.
따라서, 본 명세서에 개시된 실시 예들과 관련하여 설명된 방법 또는 알고리즘의 단계는 프로세서(810)에 의해 실행되는 하드웨어, 소프트웨어 모듈, 또는 그 2 개의 결합으로 직접 구현될 수 있다. 소프트웨어 모듈은 RAM 메모리, 플래시 메모리, ROM 메모리, EPROM 메모리, EEPROM 메모리, 레지스터, 하드 디스크, 착탈형 디스크, CD-ROM과 같은 저장 매체(즉, 메모리(830) 및/또는 스토리지(860))에 상주할 수도 있다. 예시적인 저장 매체는 프로세서(810)에 커플링되며, 그 프로세서(810)는 저장 매체로부터 정보를 판독할 수 있고 저장 매체에 정보를 기입할 수 있다. 다른 방법으로, 저장 매체는 프로세서(810)와 일체형일 수도 있다. 프로세서 및 저장 매체는 주문형 집적회로(ASIC) 내에 상주할 수도 있다. ASIC는 사용자 단말기 내에 상주할 수도 있다. 다른 방법으로, 프로세서 및 저장 매체는 사용자 단말기 내에 개별 컴포넌트로서 상주할 수도 있다.
이상에서, 본 발명의 실시예를 구성하는 모든 구성 요소들이 하나로 결합되거나 결합되어 동작하는 것으로 설명되었다고 해서, 본 발명이 반드시 이러한 실시예에 한정되는 것은 아니다. 즉, 본 발명의 목적 범위 안에서라면, 그 모든 구성 요소들이 하나 이상으로 선택적으로 결합하여 동작할 수도 있다. 또한, 그 모든 구성요소들이 각각 하나의 독립적인 하드웨어로 구현될 수 있지만, 각 구성 요소들의 그 일부 또는 전부가 선택적으로 조합되어 하나 또는 복수 개의 하드웨어에서 조합된 일부 또는 전부의 기능을 수행하는 프로그램 모듈을 갖는 컴퓨터 프로그램으로서 구현될 수도 있다. 그 컴퓨터 프로그램을 구성하는 코드들 및 코드 세그먼트들은 본 발명의 기술 분야의 당업자에 의해 용이하게 추론될 수 있을 것이다. 이러한 컴퓨터 프로그램은 컴퓨터가 읽을 수 있는 저장매체(Computer Readable Media)에 저장되어 컴퓨터에 의하여 읽혀지고 실행됨으로써, 본 발명의 실시예를 구현할 수 있다.
한편, 이상으로 본 발명의 기술적 사상을 예시하기 위한 바람직한 실시 예와 관련하여 설명하고 도시하였지만, 본 발명은 이와 같이 도시되고 설명된 그대로의 구성 및 작용에만 국한되는 것이 아니며, 기술적 사상의 범주를 일탈함이 없이 본 발명에 대해 다수의 변경 및 수정 가능함을 당업자들은 잘 이해할 수 있을 것이다. 따라서, 그러한 모든 적절한 변경 및 수정과 균등물들도 본 발명의 범위에 속하는 것으로 간주하여야 할 것이다. 따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 등록청구범위의 기술적 사상에 의해 정해져야 할 것이다.
300: 음원의 도래각 추정 장치
310: 강도차 산출부
320: 도래각 추정부

Claims (7)

  1. 두 채널에 대한 스테레오 소리 신호를 포함하는 m(m은 1보다 큰 정수)개의 오디오 클립들이 입력되면, 각 오디오 클립 별로 두 채널 간의 강도차를 산출하는 강도차 산출부; 및
    상기 강도차 산출부에서 산출되는 m개의 강도차들에 대해 K-means 클러스터링 방식을 적용하여 각 오디오 클립의 음원 도래각을 추정하는 도래각 추정부;를 포함하고,
    상기 강도차 산출부는 다음 식을 이용하여 하나의 오디오 클립에 대한 두 채널 간의 강도차를 산출하고,
    Figure 112020070812307-pat00019

    여기서,
    Figure 112020070812307-pat00020
    은 하나의 오디오 클립에 대한 두 채널 간의 강도차, n은 하나의 오디오 클립에 속한 샘플들(즉, 신호들)의 인덱스(이하, '샘플 인덱스'라 한다), S는 해당 오디오 클립에서 샘플 인덱스의 최대값,
    Figure 112020070812307-pat00021
    Figure 112020070812307-pat00022
    은 각각 스테레오 소리 신호의 좌측 샘플과 우측 샘플이며,
    상기 도래각 추정부는,
    상기 m개의 오디오 클립들 각각의 음원 도래각 추정을 위해 p개(p는 1보다 큰 정수)의 도래각들이 설정되는 설정부;
    상기 산출되는 m개의 강도차들에 대해 K-means 클러스터링 방식을 적용하여 p개의 도래각들에 대응하는 p개의 클러스터들 별로 강도차 센트로이드를 산출하는 센트로이드 산출부; 및
    상기 p개의 클러스터들 별로 산출된 강도차 센트로이드에 대응하는 도래각을 상기 강도차 센트로이드가 속한 클러스터 내의 오디오 클립들의 음원 도래각으로서 추정하는 음원 도래각 추정부;를 포함하는 것을 특징으로 하는 음원의 도래각 추정 장치.
  2. 삭제
  3. 삭제
  4. 제1항에 있어서,
    상기 센트로이드 산출부는,
    상기 설정부에서 설정된 도래각의 개수 p개를 클러스터 개수로서 정하고, 상기 강도차 산출부에서 산출된 m개의 강도차들을 p개로 클러스터링하며, p개의 클러스터들 각각에 대해 강도차 센트로이드를 산출하는 것을 특징으로 하는 음원의 도래각 추정 장치.
  5. (A) 전자장치가, 두 채널에 대한 스테레오 소리 신호를 포함하는 m(m은 1보다 큰 정수)개의 오디오 클립들이 입력되면, 각 오디오 클립 별로 두 채널 간의 강도차를 산출하는 단계; 및
    (B) 상기 전자장치가, 상기 (A) 단계에서 산출되는 m개의 강도차들에 대해 K-means 클러스터링 방식을 적용하여 각 오디오 클립의 음원 도래각을 추정하는 단계;를 포함하고,
    상기 (A) 단계는, 다음 식을 이용하여 하나의 오디오 클립에 대한 두 채널 간의 강도차를 산출하고,
    Figure 112020070812307-pat00023

    여기서,
    Figure 112020070812307-pat00024
    은 하나의 오디오 클립에 대한 두 채널 간의 강도차, n은 하나의 오디오 클립에 속한 샘플들(즉, 신호들)의 인덱스(이하, '샘플 인덱스'라 한다), S는 해당 오디오 클립에서 샘플 인덱스의 최대값,
    Figure 112020070812307-pat00025
    Figure 112020070812307-pat00026
    은 각각 스테레오 소리 신호의 좌측 샘플과 우측 샘플이며,
    상기 (B) 단계는,
    (B1) 상기 m개의 오디오 클립들 각각의 음원 도래각 추정을 위해 p개(p는 1보다 큰 정수)의 도래각들이 설정되는 단계;
    (B2) 상기 산출되는 m개의 강도차들에 대해 K-means 클러스터링 방식을 적용하여 p개의 도래각들에 대응하는 p개의 클러스터들 별로 강도차 센트로이드를 산출하는 단계; 및
    (B3) 상기 p개의 클러스터들 별로 산출된 강도차 센트로이드에 대응하는 도래각을 상기 강도차 센트로이드가 속한 클러스터 내의 오디오 클립들의 음원 도래각으로서 추정하는 단계;를 포함하는 것을 특징으로 하는 음원의 도래각 추정 방법.
  6. 삭제
  7. 삭제
KR1020200038931A 2020-03-31 2020-03-31 음원 도래각 추정 장치 및 방법 KR102153491B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200038931A KR102153491B1 (ko) 2020-03-31 2020-03-31 음원 도래각 추정 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200038931A KR102153491B1 (ko) 2020-03-31 2020-03-31 음원 도래각 추정 장치 및 방법

Publications (1)

Publication Number Publication Date
KR102153491B1 true KR102153491B1 (ko) 2020-09-08

Family

ID=72471803

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200038931A KR102153491B1 (ko) 2020-03-31 2020-03-31 음원 도래각 추정 장치 및 방법

Country Status (1)

Country Link
KR (1) KR102153491B1 (ko)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101631610B1 (ko) 2008-10-15 2016-06-17 짐머 게엠베하 골수내 못
KR20170068255A (ko) * 2015-12-09 2017-06-19 주식회사 케이티 음성 인식 방법 및 서버
KR20180079975A (ko) * 2017-01-03 2018-07-11 한국전자통신연구원 음원의 공간적 위치 및 비음수 행렬 분해를 이용한 음원 분리 방법 및 장치

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101631610B1 (ko) 2008-10-15 2016-06-17 짐머 게엠베하 골수내 못
KR20170068255A (ko) * 2015-12-09 2017-06-19 주식회사 케이티 음성 인식 방법 및 서버
KR20180079975A (ko) * 2017-01-03 2018-07-11 한국전자통신연구원 음원의 공간적 위치 및 비음수 행렬 분해를 이용한 음원 분리 방법 및 장치

Similar Documents

Publication Publication Date Title
Mandel et al. An EM algorithm for localizing multiple sound sources in reverberant environments
CN110148422B (zh) 基于传声器阵列确定声源信息的方法、装置及电子设备
AU2011322560B2 (en) Apparatus and method for deriving a directional information and computer program product
Burges et al. Extracting noise-robust features from audio data
US10650836B2 (en) Decomposing audio signals
May et al. Binaural localization and detection of speakers in complex acoustic scenes
KR20130007634A (ko) 음향 입력 신호에 기초하여 공간적 파라미터를 제공하는 공간적 오디오 프로세서 및 방법
CN104094613A (zh) 用于依据空间功率密度定位麦克风的装置和方法
KR102087307B1 (ko) 잔향 환경에 강인한 음원 방향 추정을 위한 심화 신경망 기반의 앙상블 음원 방향 추정 방법 및 장치
CN112034418A (zh) 基于频域Bark子带的波束扫描方法及声源定向装置
CN106371057B (zh) 语音声源测向方法及装置
JP6225245B2 (ja) 信号処理装置、方法及びプログラム
CN113189544A (zh) 一种利用活动强度矢量加权移除野点的多声源定位方法
WO2019163736A1 (ja) マスク推定装置、モデル学習装置、音源分離装置、マスク推定方法、モデル学習方法、音源分離方法及びプログラム
CN110164468A (zh) 一种基于双麦克风的语音增强方法及装置
KR102617476B1 (ko) 분리 음원을 합성하는 장치 및 방법
CN113223552A (zh) 语音增强方法、装置、设备、存储介质及程序
CN113892136A (zh) 信号提取系统、信号提取学习方法以及信号提取学习程序
Dong et al. Fractional low-order moments based DOA estimation with co-prime array in presence of impulsive noise
CN110800048A (zh) 多通道空间音频格式输入信号的处理
Shi et al. A fast reduced-rank sound zone control algorithm using the conjugate gradient method
KR102153491B1 (ko) 음원 도래각 추정 장치 및 방법
KR102590887B1 (ko) 음원의 공간적 위치 및 비음수 행렬 분해를 이용한 음원 분리 방법 및 장치
Jia et al. Multi-source DOA estimation in reverberant environments using potential single-source points enhancement
JP2009053349A (ja) 信号分離装置、信号分離方法、プログラム及び記録媒体

Legal Events

Date Code Title Description
PA0109 Patent application

Patent event code: PA01091R01D

Comment text: Patent Application

Patent event date: 20200331

PA0201 Request for examination
PA0302 Request for accelerated examination

Patent event date: 20200506

Patent event code: PA03022R01D

Comment text: Request for Accelerated Examination

Patent event date: 20200331

Patent event code: PA03021R01I

Comment text: Patent Application

PE0902 Notice of grounds for rejection

Comment text: Notification of reason for refusal

Patent event date: 20200612

Patent event code: PE09021S01D

E701 Decision to grant or registration of patent right
PE0701 Decision of registration

Patent event code: PE07011S01D

Comment text: Decision to Grant Registration

Patent event date: 20200813

GRNT Written decision to grant
PR0701 Registration of establishment

Comment text: Registration of Establishment

Patent event date: 20200902

Patent event code: PR07011E01D

PR1002 Payment of registration fee

Payment date: 20200903

End annual number: 3

Start annual number: 1

PG1601 Publication of registration