[go: up one dir, main page]

KR101260684B1 - 피드 포워드 네트워크를 이용하는 독립 벡터 분석에 따른 블라인드 소스 분리 방법 및 장치 - Google Patents

피드 포워드 네트워크를 이용하는 독립 벡터 분석에 따른 블라인드 소스 분리 방법 및 장치 Download PDF

Info

Publication number
KR101260684B1
KR101260684B1 KR1020110051512A KR20110051512A KR101260684B1 KR 101260684 B1 KR101260684 B1 KR 101260684B1 KR 1020110051512 A KR1020110051512 A KR 1020110051512A KR 20110051512 A KR20110051512 A KR 20110051512A KR 101260684 B1 KR101260684 B1 KR 101260684B1
Authority
KR
South Korea
Prior art keywords
denotes
equation
source
matrix
filter coefficient
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
KR1020110051512A
Other languages
English (en)
Other versions
KR20120133038A (ko
Inventor
박형민
오명우
Original Assignee
서강대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 서강대학교산학협력단 filed Critical 서강대학교산학협력단
Priority to KR1020110051512A priority Critical patent/KR101260684B1/ko
Publication of KR20120133038A publication Critical patent/KR20120133038A/ko
Application granted granted Critical
Publication of KR101260684B1 publication Critical patent/KR101260684B1/ko
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

본 발명의 블라인드 소스 분리 장치는, 혼합신호들을 FD의 혼합신호들로 변환하는 ST(Short-Time) 푸리에 트랜스포밍하는 ST(Short-Time) 푸리에 트랜스포머; 상기 FD의 혼합신호들을 소스신호들로 분리하는 FF(Feed Forward) 언믹싱 필터 네트워크; 상기 FD의 분리된 소스 신호들을 TD로 되돌리는 역 ST(Short-Time) 푸리에 트랜스포머; 를 포함하는 것을 특징으로 한다.

Description

피드 포워드 네트워크를 이용하는 독립 벡터 분석에 따른 블라인드 소스 분리 방법 및 장치{Blind source separation method and apparatus according to independent vector analysis using feed forward network}
본 발명은 블라인드 소스 분리 기술에 관한 것으로, 더욱 상세하게는 피드 포워드 네트워크를 이용하는 독립 벡터 분석에 따른 블라인드 소스 분리 방법 및 장치에 관한 것이다.
블라인드 소스 분리(Blind Source Separation;BSS)란 혼합 환경 및 소스 신호를 알지 못한 상태에서 혼합된 혼합 신호들로부터 소스 신호들을 분리하는 것으로, 이는 음향 및 영상 처리, 생체 신호 분석 및 통신 등의 다양한 분야에 적용되고 있다.
상기한 블라인드 신호 분리를 위한 방법 중 하나인 독립 성분 분석(Independent Component Analysis;ICA) 기술은 혼합 신호들의 고차 통계량(higher-order statistics)을 이용하여 소스 신호들을 분리하는 것으로, 혼합 신호들을 시간 도메인(Time-Domain;TD)또는 주파수 도메인(Frequency-Domain;FD)에서 디콘볼루션(deconvolution)하여 처리하였다. 이러한 FD 방식을 채용하는 ICA 기술은 TD 방식이 내재하고 있는 많은 계산과 느린 컨버전스 문제를 해소할 수는 있었으나, 소스 신호들의 순서와 크기에 대한 모호성(Permutation and Scale Ambiguity)에 대한 문제를 내재하고 있었다. 이러한 ICA 기술에 대해서는 Hyvarinen, A., Karhunen, J., and Oja, E.: Independent Component Analysis(John Wiley & Sons, 2001)에 기술되어 있다.
상기한 ICA 기술이 내재하는 소스 신호들의 순서에 대한 모호성 문제는 독립 벡터 분석(Independent Vector Analysis; IVA) 기술에 의해 해소될 수 있다. 즉 상기 IVA 기술은 주파수 빈 각각에 대해 독립적인 ICA 기술과 달리 주파수 빈 사이에 서로 의존성을 가지도록 하여 소스 신호들의 순서에 대한 모호성을 해소하였으며, 이로서 블라인드 신호 분리 성능을 향상시켰다. 이러한 IVA 기술에 대해서는 Kim, T., Attias, H. T., Lee, S.-Y., and Lee, T.-W.: Blind source separation exploiting higher-order frequency dependencies, IEEE Trans. Audio, Speech, and Language Processing, 2007, 15, pp. 70-79에 기술되어 있다. 또한, ICA 기술이 내재하는 소스 신호들의 크기에 대한 모호성 문제는 최소 왜곡 원리(Minimal Distortion Principle; MDP) 기술에 의해 해소될 수 이다. 이러한 MDP 기술에 대해서는 Matsuoka, K., and Nakashima, S. : Minimal distortion principle for blind source separation, Int. Workshop on ICA and BSS, 2001, pp. 722-727에 기술되어 있다.
상기한 IVA 기술은 일반적인 ICA 기술과 같이 각 주파수 빈에 대해 단순 가중치 언믹싱 행렬로 컨볼루션을 이행하여 소스 신호들을 분리하며, 이는 TD 접근 방식의 컨볼루션이 FD 접근 방식에서 단순 곱으로 대치되기 때문이었다. 그러나 이러한 대치는 프레임 길이가 믹싱 프로세스의 반향을 감당하기에 적당할 때에만 유효하다는 한계가 있었다. 이는 Kim, L.-H., Tashev, I., and Acero, A.: Reverberated speech signal separation based on regularized subband feedforward ICA and instantaneous direction of arrival, ICASSP, 2010, pp. 2678-2681에 기술되어 있다.
그러나 실제 환경에서의 음향 반향은 단순 가중치 언믹싱 행렬이 처리할 수 있는 프레임 길이에 비해 긴 경우가 많다.
이에따라 Kim, L.-H., Tashev, I., and Acero, A.: Reverberated speech signal separation based on regularized subband feedforward ICA and instantaneous direction of arrival, ICASSP, 2010, pp. 2678-2681에서는, 높은 반향 환경에서 소스 신호들을 분리하기 위해 피드 포워드 언믹싱 필터 구조(FeedForward unmixing filter structure)를 채용하는 ICA 기술을 제안하였다. 이 제안된 FF ICA(FeedForward ICA) 기술은 순서 및 크기의 모호성없이 원하는 출력 채널로 분리된 소스 신호를 제공하기 위해 소스들의 공간 정보를 적용하고, 공간 정보에 따르는 첫번째 스테이지의 출력에 가까운 출력 신호들을 가능한 얻을 수 있도록 부가적인 제약조건 텀을 포함하는 학습 규칙을 가지고 언믹싱 필터를 갱신하였다.
상기한 FF ICA 기술은 반향이 긴 혼합 신호들에 적용할 수 있었으나, 여전히 소스 신호들의 주파수간 독립성에 대한 문제를 가지고 있었다. 부가적으로 적용된 엔트로피 최대화 학습 규칙은 분리된 소스신호들의 프레임간 상관성을 떨어뜨리는 부작용에 의해 음질이 손상되었다. 또한 FF ICA 방식은 ICA 기술에 바탕을 두고 있으므로 순서 모호성 문제가 직접적으로 해결되었다고 볼 수 없었고 다만 첫 스테이지의 빔 포밍 출력과 학습 규칙의 부가적인 제약조건 텀이 채용된 휴리스틱한 기술을 통해 순서 바뀜의 가능성을 줄였을 뿐이었다.
이에 종래에는 반향이 긴 혼합 신호를 분리할 때의 FF ICA 기술의 한계와 IVA의 문제점을 극복하기 위한 기술의 개발이 절실하게 요망되었다.
삭제
삭제
삭제
삭제
삭제
삭제
삭제
본 발명은 독립 성분 분석이 아닌 독립 벡터 분석을 사용하여, 반향이 긴 혼합 신호들의 분리에서 휴리스틱(heuristic)한 기술 없이도 주파수간 독립성에 따른 문제를 해소할 수 있게 함은 물론이며, 프레임 길이의 한계를 해소할 수 있는 피드 포워드 네트워크를 이용하는 블라인드 소스 분리 방법 및 장치를 제공하는 것을 그 목적으로 한다.
또한 본 발명의 다른 목적은 선택적인 전처리 단계로서 널 포밍 제한을 포함하는 최소 파워 왜곡 응답(Minimum Power Distortionless Response;MPDR) 빔 포머를 적용한 피드 포워드 네트워크를 이용하는 독립 벡터 분석에 따른 블라인드 소스 분리 방법 및 장치를 제공하는 것이다.
또한 본 발명의 또 다른 목적은 분리된 소스 신호들에서의 프레임간 화이트닝 효과와 스케일링 불확정성을 피하기 위해 확장된 넌-홀로노믹 제한(extended non-holonomic constraint)과 최소 왜곡 원리를 적용한 피드 포워드 네트워크를 이용하는 독립 벡터 분석에 따른 블라인드 소스 분리 방법 및 장치를 제공하는 것이다.
삭제
삭제
상기한 목적을 달성하기 위한 본 발명의 블라인드 소스 분리 장치는, 혼합신호들을 FD의 혼합신호들로 변환하는 ST(Short-Time) 푸리에 트랜스포밍하는 ST(Short-Time) 푸리에 트랜스포머; 상기 FD의 혼합신호들을 소스신호들로 분리하는 FF(Feed Forward) 언믹싱 필터 네트워크; 상기 FD의 분리된 소스 신호들을 TD로 되돌리는 역 ST(Short-Time) 푸리에 트랜스포머; 를 포함하는 것을 특징으로 한다.
상기한 본 발명은 독립 성분 분석을 확장한 독립 벡터 분석을 사용하였고, 프레임 길이의 한계를 해소할 수 있는 피드 포워드 네트워크를 이용하였기 때문에 반향이 긴 혼합 신호들을 분리할 때에 휴리스틱한 기술 없이도 주파수간 독립성에 따른 문제를 해소할 수 있게 함은 물론이며 프레임 길이의 한계를 해소할 수 있는 효과가 있다.
또한 본 발명은 선택적인 전처리 단계로서 널 포밍 제한을 포함한 최소 파워 왜곡 응답(Minimum Power Distortionless Response;MPDR) 빔 포머를 적용하여 향상된 소스 신호를 초기값으로 사용할 수 있다.
또한 본 발명은 확장된 넌-홀로노믹 제한(extended non-holonomic constraint)과 최소 왜곡 원리를 적용하여, 언믹스드 소스 신호들에서의 프레임간 화이트닝 효과와 스케일링 불확정성을 피할 수 있는 효과가 있다.
삭제
삭제
도 1은 본 발명의 바람직한 실시예에 따른 블라인드 소스 분리 장치의 구성도.
도 2는 본 발명의 바람직한 실시예에 따른 블라인드 소스 분리 성능을 측정하기 위해 소스 및 마이크 설치예를 도시한 도면.
도 3은 본 발명에 따른 블라인드 소스 분리 방법과 종래의 블라인드 소스 분리 방법의 블라인드 소스 분리 성능 분석 결과표를 도시한 도면.
본 발명의 바람직한 실시예에 따른 블라인드 소스 분리 장치의 구성을 도 1을 참조하여 설명한다.
상기 블라인드 소스 분리 장치는 ST(Short-time) 푸리에 트랜스포머(100)와 MPDR(Minimum Power Distortionless Response) 빔 포머(102)와 FF(Feed Forward) 언믹싱 필터 네트워크(104)와 역 ST(Short-time) 푸리에 트랜스포머(105)로 구성된다.
상기 ST 푸리에 트랜스포머(100)는 TD의 혼합신호들을 입력받아 FD의 혼합신호들로 변환한다.
상기 FD의 혼합신호들은 수학식 1에 따라 나타낼 수 있다.
Figure 112012064558634-pat00044

상기 수학식 1에서 x(k,n)은 혼합신호들을 나타내고, k는 주파수 빈을 나타내고, n은 프레임을 나타내고, L은 소스신호들 및 혼합신호들의 수를 나타낸다.
상기 FD의 혼합신호들은 소스신호들의 공간정보에 따르는 널 포밍 제한(null forming constraints)을 포함한 MPDR(Minimum Power Distortionless Response) 빔 포머(102)에 입력된다.
상기 MPDR 빔 포머(102)는 수학식 2에 따라 상기 FD의 혼합신호들의 성분(component)들의 간섭을 억제하여 출력한다.
Figure 112012064558634-pat00045

Figure 112012064558634-pat00046

상기 수학식 2에서
Figure 112012064558634-pat00047
는 MPDR 빔 포머(102)의 출력이며, 상기 D(k)는 소스신호들에 대한 스티어링 벡터(steering vector)로 구성되는 행렬
Figure 112012064558634-pat00048
을 나타내며, 이는 소스신호들과 마이크 사이의 방향에 따른 각도정보에 의해 변화하는 복소평면에서의 페이즈 값, 그리고 거리에 의한 신호의 크기 감쇄값을 곱한 형태로 표현된다. 상기 D H (k)는 상기 D(k)의 켤레 전치 벡터이다. 그리고 상기 I는 단위행렬이다. 그리고 상기 R(k)는 입력 스펙트럼의 공분산 행렬(input spectral covariance matrix)을 나타내고, 상기 λ는 R(k)의 역행렬 값이 매우 커지는 것을 피하기 위한 작은 양의 상수(small positive constant)이다. 상기 수학식 2는 입력 스펙트럼의 공분산 행렬과 소스신호들의 방향정보가 담긴 스티어링 벡터(steering vector)로 구성되는 행렬을 이용하여 관심 소스신호의 방향 외의 신호인 간섭 신호에 대한 파워를 최소화함으로써, 간섭 신호 대비 관심 소스 신호를 강화시킨다.
상기한 바와 같은 혼합신호들에 대한 전처리가 완료되면, 상기 전처리된 혼합신호들은 FF 언믹싱 필터 네트워크(104)로 제공된다.
상기 FF 언믹싱 필터 네트워크(104)는 수학식 3에 따라 전처리된 혼합신호들을 입력받아 소스신호들로 분리한다.
Figure 112012064558634-pat00049

상기 수학식 3에서 상기
Figure 112012064558634-pat00050
는 소스신호들의 ST(short time) FD 형태를 나타내며, 상기 W(k,m)은 언믹싱 필터 계수 행렬(unmixing filter coefficient matrix)을 나타낸다. 상기 k는 주파수 빈을 나타내고, 상기 n은 프레임을 나타내며, m은 언믹싱 필터 계수 행렬을 입력 신호에 콘볼루션(convolution) 하기 위해 입력 신호를 쉬프팅하는 프레임 숫자이며, U는 언믹싱 필터 계수 행렬의 프레임 단위의 길이를 나타낸다.
한편 독립성의 측정으로 추정된 소스신호들 간의 결합 확률 밀도(joint probability density function)
Figure 112012064558634-pat00051
과 추정된 소스신호들에 대한 확률 밀도 모델의 곱
Figure 112012064558634-pat00052
사이의 Kullback-Leibler 발산(Kullback-Leibler divergence)을 적용한다. 여기서,
Figure 112012064558634-pat00053
으로 표현하며, K는 주파수 빈의 수이다. 그리고 L은 소스신호들 및 혼합신호들의 수를 나타낸다. 따라서
Figure 112012064558634-pat00054
은 추정된 소스신호들의 주파수별 각 성분들을 모은 벡터가 된다.
상기 소스신호들간 독립성 최대화 기반 FF 언믹싱 네트워크 추정을 위한 비용 함수(cost function) J는 수학식 4와 같다.
Figure 112012064558634-pat00055

상기 수학식 4에서 k는 주파수 빈을 나타내고, n은 프레임을 나타내며, L은 소스 신호들 및 혼합 신호들의 수를 나타낸다.
상기한 비용함수 J를 이용하여 자연 경사(natural gradient) 기반 확률 최소 경사법(stochastic gradient descent algorithm)에 의해 FF 언믹싱 네트워크를 추정하면 수학식 5와 같다.
Figure 112012064558634-pat00056

상기
Figure 112012064558634-pat00057
은 소스신호에 대한 다변수 스코어 함수를 말하고, 이것은 비인과성(noncausality)을 피하기 위한 U-샘플 지연을 포함하고 있다. 상기 r은 언믹싱 필터 계수 행렬을 입력 신호에 콘볼루션(convolution) 하기 위해 입력 신호를 쉬프팅하는 프레임 숫자이며,
Figure 112012064558634-pat00058
은 소스신호에서 FF 언믹싱 네트위크에 의해 지연된 샘플값의 행렬의 켤레전치 행렬이다.
다변수 스코어 함수에서
Figure 112012064558634-pat00059
이고,
Figure 112012064558634-pat00060
로 표현된다.

그리고 엔트로피 최대화(entropy maximization)에 따른 언믹싱 소스 신호들의 프레임간 상관 제거 부작용을 막기 위해, 확장된 넌-홀로노믹 제한(extended non-holonomic constraint)와 MDP(Minimal Distortion Principle)을 적용하며, 이는 수학식 6에 따른다.
Figure 112012064558634-pat00061

상기 수학식 6에서, W(k,m)은 언믹싱 필터 계수 행렬(unmixing filter coefficient matrix)을 나타내며, W(k,m)는 △W(k,m)의 갱신을 위한 변화량을 나타낸다.
상기 k는 주파수 빈을 나타내고, 상기 n은 프레임을 나타내며, m은 언믹싱 필터 계수 행렬을 입력 신호에 콘볼루션(convolution) 하기 위해 입력 신호를 쉬프팅하는 프레임 숫자이며, U는 언믹싱 필터 계수 행렬의 프레임 단위의 길이를 나타낸다.
상기
Figure 112012064558634-pat00062
는 추정된 소스신호들의 ST(short time) FD 형태를 나타내며,
Figure 112012064558634-pat00063
은 소스신호에 대한 다변수 스코어 함수를 말하며, 두 변수 모두 비인과성(noncausality)을 피하기 위한 U-샘플 지연을 포함하고 있다. 여기서,
Figure 112012064558634-pat00064
으로 표현하며, K는 주파수 빈의 수이다. 또, 다변수 스코어 함수에서
Figure 112012064558634-pat00065
이고,
Figure 112012064558634-pat00066
로 표현된다. 여기서, q(·)는 가정된 확률밀도함수를 나타낸다. 그리고
Figure 112012064558634-pat00067
은 소스신호에서 FF 언믹싱 네트위크에 의해 지연된 샘플값의 행렬의 켤레전치 행렬이며, r은 언믹싱 필터 계수 행렬을 입력 신호에 콘볼루션(convolution) 하기 위해 입력 신호를 쉬프팅하는 프레임 숫자이다. off-diag(·)은 대각 성분이 0인 행렬을 나타내므로,
Figure 112012064558634-pat00068
은 다변수 스코어 함수의 대각 성분들을 학습에 반영하지 않음으로써 학습시 소스신호의 추정에서 불필요한 크기 변화를 방지한다. β는 작은 양의 가중치(small positive weighting constant)이고,
Figure 112012064558634-pat00069
는 MPDR 빔 포머(102)의 출력이므로,
Figure 112012064558634-pat00070
은 추정된 소스 신호에서 마이크 입력신호의 FF 언믹싱 필터의 절반 길이의 딜레이 값을 뺀 값이고, 이를 통해 소스신호의 추정을 위한 학습의 왜곡을 최소화할 수 있다.
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
이제 본 발명의 바람직한 실시예에 따른 블라인드 소스 분리 방법과 일반적인 FD 방식 ICA, IVA 및 FF ICA 사이의 SIR(signal-to-interference ratio)을 비교하며, 이 SIR 산술식은 수학식 7에 따른다.
Figure 112011040470843-pat00024
이러한 본 발명의 바람직한 실시예에 따른 블라인드 소스 분리 방법과 일반적인 FD 방식 ICA, IVA 및 FF ICA 사이의 비교를 위하여 본 출원인은 세가지의 상이한 환경에서 두 개의 소스 신호를 혼합하고, 두 개의 마이크를 통해 두 개의 혼합 신호들을 획득하여 소스 신호들을 분리하여 그에 대한 SIR를 검출하였다.
도 2는 상기 세가지의 상이한 환경을 도시한 것으로, 제1환경은 제1 및 제2소스(204,206)가 제1 및 제2마이크(200,202)에 대해 방향이 서로 다르며 이격 거리가 가깝게 위치된 경우이고, 제2환경은 제3 및 제4소스(208,210)가 제1 및 제2마이크(200,202)에 대해 방향이 비슷하며 이격 거리가 가깝게 위치된 경우이고, 제3환경은 제5 및 제6소스(212,214)가 제1 및 제2마이크(200,202)에 대해 방향이 비슷하며 이격 거리가 멀게 위치된 경우이다. 그리고 상기 제1 내지 제6소스(204~214)로 출력되는 소스 신호들은 TIMIT 데이터베이스에서 두 남자 화자와 두 여자 화자에 의해 말해진 문장들을 연결하여 구성하였다. 그리고 각 소스 신호는 16kHz의 샘플링 레이트로 샘플링되며 8-s 길이이다. 상기 혼합 신호의 SIR은 -2.5dB에서 2.7dB이다. 단구간 푸리에 분석에 있어 한 프레임의 윈도우 길이는 FF 언믹싱 필터 네트위크가 적용된 알고리즘들(FF ICA, prop. FF IVA)은 512샘플, 그렇지 않은 알고리즘들(conv. ICA, conv. IVA)은 2048샘플을 사용했다. 그리고 각 방법의 최적 스텝 크기는 다양한 실험으로부터 확정된다.
상기 세가지 환경에 대한 실험 분석 결과를 도 3에 도시한 표 1 내지 표 3에 나타내었다.
먼저 제1환경에 대한 실험 분석 결과를 표 1을 참조하여 설명한다. 상기 표 1은 반향시간 RT60을 0.2초, 0.4초, 0.6초로 변경하면서 본 발명에 따른 블라인드 소스 분리 방법(prop. FF IVA)과 기존의 블라인드 소스 분리 방법들(conv. ICA, conv. IVA, FF ICA)에 따라 소스 신호들을 분리하고, 분리된 소스 신호들에 대한 SIR을 측정하여 기록한 것이다. 상기 표 1을 참조하면, 본 발명에 따른 블라인드 소스 분리 방법(prop. FF IVA)은 기존의 블라인드 소스 분리 방법들(conv. ICA, conv. IVA, FF ICA)보다 SIR이 향상되었으며, 특히 반향시간이 긴 경우에도 SIR이 9.16dB으로 높게 검출되었다.
그리고 제2환경에 대한 실험 분석 결과를 표 2를 참조하여 설명한다. 상기 표 2는 반향시간 RT60을 0.2초, 0.4초, 0.6초로 변경하면서 본 발명에 따른 블라인드 소스 분리 방법(prop. FF IVA)과 기존의 블라인드 소스 분리 방법들(conv. ICA, conv. IVA, FF ICA)에 따라 소스 신호들을 분리하고, 분리된 소스 신호들에 대한 SIR을 측정하여 기록한 것이다. 상기 표 2를 참조하면, 본 발명에 따른 블라인드 소스 분리 방법(prop. FF IVA)은 기존의 블라인드 소스 분리 방법들(conv. ICA, conv. IVA, FF ICA)보다 SIR이 향상되었으며, 특히 반향시간이 긴 경우에도 SIR이 8.44dB로 높게 검출되었다.
그리고 제3환경에 대한 실험 분석 결과를 표 3을 참조하여 설명한다. 상기 표 3은 반향시간 RT60을 0.2초, 0.4초, 0.6초로 변경하면서 본 발명에 따른 블라인드 소스 분리 방법(prop. FF IVA)과 기존의 블라인드 소스 분리 방법들(conv. ICA, conv.IVA, FF ICA)에 따라 소스 신호들로 분리하고, 분리된 소스 신호들에 대한 SIR을 측정하여 기록한 것이다. 상기 표 3을 참조하면, 본 발명에 따른 블라인드 소스 분리 방법(prop. FF IVA)은 기존의 블라인드 소스 분리 방법들(conv. ICA, conv. IVA, FF ICA)보다 SIR이 향상되었으며, 특히 반향시간이 긴 경우에도 SIR이 7.58dB로 높게 검출되었다.
100 : ST 푸리에 트랜스포머
102 : MPDR 빔 포머
104 : FF 언믹싱 필터 네트워크
105 : 역 ST 푸리에 트랜스포머

Claims (6)

  1. 블라인드 소스 분리 장치에 있어서,
    TD(Time-Domain)의 혼합신호들을 FD(Frequency-Domain)의 혼합신호들로 변환하는 ST(Short-Time) 푸리에 트랜스포머;
    상기 ST 푸리에 트랜스포머로부터 FD의 혼합신호들을 제공받아 수학식 8에 따라 전처리하여
    Figure 112013008835428-pat00071
    을 생성하여 출력하는 MPDR 빔포머;
    상기
    Figure 112013008835428-pat00072
    를 입력받아 수학식 9에 따라 FD의 소스신호들로 분리하는 FF 언믹싱 필터 네트워크;
    상기 분리된 FD의 소스신호들을 TD의 소스신호들로 변환하는 역 ST 푸리에 트랜스포머;를 구비하는 것을 특징으로 하는 블라인드 소스 분리 장치.
    [수학식 8]
    Figure 112013008835428-pat00101

    상기 수학식 8에서
    Figure 112013008835428-pat00102
    는 MPDR 빔 포머의 출력이며, 상기 D(k)는 소스들에 대한 스티어링 벡터(steering vector)로 구성되는 행렬
    Figure 112013008835428-pat00103
    을 나타내며, 이는 소스신호들과 마이크 간의 방향에 따른 각도정보에 의해 변화하는 복소평면에서의 페이즈 값과 거리에 의한 신호의 크기 감쇄값을 곱한 형태이며, 상기 D H (k)는 상기 D(k)의 켤레 전치 벡터이고, 상기 I는 단위행렬이고, 상기 R(k)는 입력 스펙트럼의 공분산 행렬(input spectral covariance matrix)을 나타내고, 상기 λ는 R(k)의 역행렬 값을 제한하기 위한 상수(small positive constant)이며,
    Figure 112013008835428-pat00104
    는 FD의 혼합신호들이며, 상기 k는 주파수 빈을 나타내고, 상기 n은 프레임을 나타냄.
    [수학식 9]
    Figure 112013008835428-pat00073

    상기 수학식 9에서 상기
    Figure 112013008835428-pat00074
    는 소스신호들의 ST(short time) FD 형태를 나타내며, 상기 W(k,m)은 언믹싱 필터 계수 행렬(unmixing filter coefficient matrix)을 나타내며, 상기 k는 주파수 빈을 나타내고, 상기 n은 프레임을 나타내며, 상기 m은 언믹싱 필터 계수 행렬을 입력 신호에 콘볼루션(convolution)하기 위해 입력신호를 쉬프팅하는 프레임 숫자이며, 상기 U는 언믹싱 필터 계수 행렬의 프레임 단위의 길이를 나타내며,
    Figure 112013008835428-pat00075
    는 MPDR 빔 포머의 출력임.
  2. 삭제
  3. 제1항에 있어서,
    상기 언믹싱 필터 계수 행렬 W(k,m)은 수학식 10에 따라 학습됨을 특징으로 하는 블라인드 소스 분리 장치.
    수학식 10
    Figure 112012064558634-pat00079

    상기 수학식 10에서, W(k,m)은 언믹싱 필터 계수 행렬(unmixing filter coefficient matrix)을 나타내며, W(k,m)는 △W(k,m)의 갱신을 위한 변화량을 나타냄.
    그리고 k는 주파수 빈을 나타내고, n은 프레임을 나타내며, m은 언믹싱 필터 계수 행렬을 입력 신호에 콘볼루션(convolution) 하기 위해 입력 신호를 쉬프팅하는 프레임 숫자이며, U는 언믹싱 필터 계수 행렬의 프레임 단위의 길이를 나타냄.
    그리고
    Figure 112012064558634-pat00080
    는 추정된 소스 신호들의 ST(short time) FD 형태를 나타내며,
    Figure 112012064558634-pat00081
    은 소스 신호에 대한 다변수 스코어 함수를 말하며, 두 변수 모두 비인과성(noncausality)을 피하기 위한 U-샘플 지연을 포함함.
    그리고
    Figure 112012064558634-pat00082
    은 소스 신호에서 FF 언믹싱 네트위크에 의해 지연된 샘플값의 행렬의 켤레전치 행렬이며, r은 언믹싱 필터 계수 행렬을 입력 신호에 콘볼루션(convolution)하기 위해 입력 신호를 쉬프팅하는 프레임 숫자임.
    그리고 off-diag(·)은 대각 성분이 0인 행렬을 나타내며,
    Figure 112012064558634-pat00083
    은 다변수 스코어 함수의 대각 성분들을 학습에 반영하지 않음으로써 학습시 소스신호의 추정에서 불필요한 크기 변화를 방지함을 나타냄.
    그리고 β는 작은 양의 가중치(small positive weighting constant)이고,
    Figure 112012064558634-pat00084
    는 상기 MPDR 빔포머의 출력이며,
    Figure 112012064558634-pat00085
    은 추정된 소스 신호에서 마이크 입력신호의 FF 언믹싱 필터의 절반 길이의 딜레이 값을 뺀 값임.
  4. 블라인드 소스 분리 방법에 있어서,
    TD의 혼합신호들을 FD의 혼합신호들(
    Figure 112013008835428-pat00105
    )로 변환하는 단계;
    상기 FD의 혼합신호들(
    Figure 112013008835428-pat00106
    )을 제공받아 수학식 11에 따라 전처리하여
    Figure 112013008835428-pat00086
    를 생성하는 단계;
    상기
    Figure 112013008835428-pat00087
    을 수학식 12에 따라 FD의 소스신호들로 분리하는 단계;
    상기 분리된 FD의 소스신호들을 TD의 소스신호들로 변환하는 단계;를 구비하는 것을 특징으로 하는 블라인드 소스 분리 방법.
    [수학식 11]
    Figure 112013008835428-pat00107

    상기 수학식 11에서 상기 D(k)는 소스들에 대한 스티어링 벡터(steering vector)로 구성되는 행렬
    Figure 112013008835428-pat00108
    을 나타내며, 이는 소스신호들과 마이크 간의 방향에 따른 각도정보에 의해 변화하는 복소평면에서의 페이즈 값과 거리에 의한 신호의 크기 감쇄값을 곱한 형태이며, 상기 D H (k)는 상기 D(k)의 켤레 전치 벡터이고, 상기 I는 단위행렬이고, 상기 R(k)는 입력 스펙트럼의 공분산 행렬(input spectral covariance matrix)을 나타내고, 상기 λ는 R(k)의 역행렬 값을 제한하기 위한 상수(small positive constant)이며,
    Figure 112013008835428-pat00109
    는 FD의 혼합신호들이며, 상기 k는 주파수 빈을 나타내고, 상기 n은 프레임을 나타냄.
    [수학식 12]
    Figure 112013008835428-pat00088

    상기 수학식 12에서 상기
    Figure 112013008835428-pat00089
    는 소스신호들의 ST(short time) FD 형태를 나타내며, 상기 W(k,m)은 언믹싱 필터 계수 행렬(unmixing filter coefficient matrix)을 나타내며, 상기 k는 주파수 빈을 나타내고, 상기 n은 프레임을 나타내며, 상기 m은 언믹싱 필터 계수 행렬을 입력 신호에 콘볼루션(convolution)하기 위해 입력신호를 쉬프팅하는 프레임 숫자이며, 상기 U는 언믹싱 필터 계수 행렬의 프레임 단위의 길이를 나타내며,
    Figure 112013008835428-pat00090
    는 수학식 11에 따라 전처리한 FD의 혼합신호들임.
  5. 삭제
  6. 제4항에 있어서,
    상기 언믹싱 필터 계수 행렬 W(k,m)은 수학식 13에 따라 학습됨을 특징으로 하는 블라인드 소스 분리 방법.
    수학식 13
    Figure 112012064558634-pat00094

    상기 수학식 13에서, W(k,m)은 언믹싱 필터 계수 행렬(unmixing filter coefficient matrix)을 나타내며, W(k,m)는 △W(k,m)의 갱신을 위한 변화량을 나타냄.
    그리고 k는 주파수 빈을 나타내고, n은 프레임을 나타내며, m은 언믹싱 필터 계수 행렬을 입력 신호에 콘볼루션(convolution) 하기 위해 입력 신호를 쉬프팅하는 프레임 숫자이며, U는 언믹싱 필터 계수 행렬의 프레임 단위의 길이를 나타냄.
    그리고
    Figure 112012064558634-pat00095
    는 추정된 소스 신호들의 ST(short time) FD 형태를 나타내며,
    Figure 112012064558634-pat00096
    은 소스 신호에 대한 다변수 스코어 함수를 말하며, 두 변수 모두 비인과성(noncausality)을 피하기 위한 U-샘플 지연을 포함함.
    그리고
    Figure 112012064558634-pat00097
    은 소스 신호에서 FF 언믹싱 네트위크에 의해 지연된 샘플값의 행렬의 켤레전치 행렬이며, r은 언믹싱 필터 계수 행렬을 입력 신호에 콘볼루션(convolution)하기 위해 입력 신호를 쉬프팅하는 프레임 숫자임.
    그리고 off-diag(·)은 대각 성분이 0인 행렬을 나타내며,
    Figure 112012064558634-pat00098
    은 다변수 스코어 함수의 대각 성분들을 학습에 반영하지 않음으로써 학습시 소스신호의 추정에서 불필요한 크기 변화를 방지함을 나타냄.
    그리고 β는 작은 양의 가중치(small positive weighting constant)이고,
    Figure 112012064558634-pat00099
    는 상기 MPDR 빔포머의 출력이며,
    Figure 112012064558634-pat00100
    은 추정된 소스 신호에서 마이크 입력신호의 FF 언믹싱 필터의 절반 길이의 딜레이 값을 뺀 값임.
KR1020110051512A 2011-05-30 2011-05-30 피드 포워드 네트워크를 이용하는 독립 벡터 분석에 따른 블라인드 소스 분리 방법 및 장치 Active KR101260684B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020110051512A KR101260684B1 (ko) 2011-05-30 2011-05-30 피드 포워드 네트워크를 이용하는 독립 벡터 분석에 따른 블라인드 소스 분리 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020110051512A KR101260684B1 (ko) 2011-05-30 2011-05-30 피드 포워드 네트워크를 이용하는 독립 벡터 분석에 따른 블라인드 소스 분리 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20120133038A KR20120133038A (ko) 2012-12-10
KR101260684B1 true KR101260684B1 (ko) 2013-05-10

Family

ID=47516472

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020110051512A Active KR101260684B1 (ko) 2011-05-30 2011-05-30 피드 포워드 네트워크를 이용하는 독립 벡터 분석에 따른 블라인드 소스 분리 방법 및 장치

Country Status (1)

Country Link
KR (1) KR101260684B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105527016A (zh) * 2015-12-31 2016-04-27 国家电网公司 一种基于时频比分布的电力变压器振动分离方法及系统
CN108447493A (zh) * 2018-04-03 2018-08-24 西安交通大学 频域卷积盲源分离分频段多质心聚类排序方法

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116866123B (zh) * 2023-07-13 2024-04-30 中国人民解放军战略支援部队航天工程大学 一种无正交受限的卷积盲分离方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090222262A1 (en) 2006-03-01 2009-09-03 The Regents Of The University Of California Systems And Methods For Blind Source Signal Separation

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090222262A1 (en) 2006-03-01 2009-09-03 The Regents Of The University Of California Systems And Methods For Blind Source Signal Separation

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105527016A (zh) * 2015-12-31 2016-04-27 国家电网公司 一种基于时频比分布的电力变压器振动分离方法及系统
CN108447493A (zh) * 2018-04-03 2018-08-24 西安交通大学 频域卷积盲源分离分频段多质心聚类排序方法

Also Published As

Publication number Publication date
KR20120133038A (ko) 2012-12-10

Similar Documents

Publication Publication Date Title
US10446171B2 (en) Online dereverberation algorithm based on weighted prediction error for noisy time-varying environments
Adler et al. Audio inpainting
Markovich et al. Multichannel eigenspace beamforming in a reverberant noisy environment with multiple interfering speech signals
KR101726737B1 (ko) 다채널 음원 분리 장치 및 그 방법
KR101834913B1 (ko) 복수의 입력 오디오 신호를 잔향제거하기 위한 신호 처리 장치, 방법 및 컴퓨터가 판독 가능한 저장매체
US20170251301A1 (en) Selective audio source enhancement
CN110517701B (zh) 一种麦克风阵列语音增强方法及实现装置
EP2030200B1 (en) Blind signal extraction
WO2022190615A1 (ja) 信号処理装置および方法、並びにプログラム
Cherkassky et al. Blind synchronization in wireless sensor networks with application to speech enhancement
Habets et al. Dereverberation
KR101260684B1 (ko) 피드 포워드 네트워크를 이용하는 독립 벡터 분석에 따른 블라인드 소스 분리 방법 및 장치
KR101243897B1 (ko) 신호의 시간 지연 및 감쇄 추정에 기반한 반향 환경에서의 암묵 음원 분리 방법
Kim et al. Efficient online target speech extraction using DOA-constrained independent component analysis of stereo data for robust speech recognition
Blouet et al. Evaluation of several strategies for single sensor speech/music separation
Wang et al. Microphone array post-filter based on accurate estimation of noise power spectral density
Kim et al. Probabilistic spectral gain modification applied to beamformer-based noise reduction in a car environment
KR101658001B1 (ko) 강인한 음성 인식을 위한 실시간 타겟 음성 분리 방법
Janský et al. A computationally cheaper method for blind speech separation based on AuxIVA and incomplete demixing transform
Oh et al. Blind source separation based on independent vector analysis using feed-forward network
Takeda et al. ICA-based efficient blind dereverberation and echo cancellation method for barge-in-able robot audition
Xie et al. A fast and efficient frequency-domain method for convolutive blind source separation
Vincent An experimental evaluation of Wiener filter smoothing techniques applied to under-determined audio source separation
KR100863184B1 (ko) 간섭 및 반향신호 제거를 위한 다단계 암묵 디콘볼루션방법
Emura et al. Multi-delay sparse approach to residual crosstalk reduction for blind source separation

Legal Events

Date Code Title Description
A201 Request for examination
PA0109 Patent application

Patent event code: PA01091R01D

Comment text: Patent Application

Patent event date: 20110530

PA0201 Request for examination
PE0902 Notice of grounds for rejection

Comment text: Notification of reason for refusal

Patent event date: 20120626

Patent event code: PE09021S01D

AMND Amendment
PG1501 Laying open of application
E601 Decision to refuse application
PE0601 Decision on rejection of patent

Patent event date: 20121231

Comment text: Decision to Refuse Application

Patent event code: PE06012S01D

Patent event date: 20120626

Comment text: Notification of reason for refusal

Patent event code: PE06011S01I

AMND Amendment
PX0901 Re-examination

Patent event code: PX09011S01I

Patent event date: 20121231

Comment text: Decision to Refuse Application

Patent event code: PX09012R01I

Patent event date: 20120813

Comment text: Amendment to Specification, etc.

PX0701 Decision of registration after re-examination

Patent event date: 20130131

Comment text: Decision to Grant Registration

Patent event code: PX07013S01D

Patent event date: 20130130

Comment text: Amendment to Specification, etc.

Patent event code: PX07012R01I

Patent event date: 20121231

Comment text: Decision to Refuse Application

Patent event code: PX07011S01I

Patent event date: 20120813

Comment text: Amendment to Specification, etc.

Patent event code: PX07012R01I

X701 Decision to grant (after re-examination)
GRNT Written decision to grant
PR0701 Registration of establishment

Comment text: Registration of Establishment

Patent event date: 20130429

Patent event code: PR07011E01D

PR1002 Payment of registration fee

Payment date: 20130430

End annual number: 3

Start annual number: 1

PG1601 Publication of registration
FPAY Annual fee payment

Payment date: 20160223

Year of fee payment: 4

PR1001 Payment of annual fee

Payment date: 20160223

Start annual number: 4

End annual number: 4

FPAY Annual fee payment

Payment date: 20170502

Year of fee payment: 5

PR1001 Payment of annual fee

Payment date: 20170502

Start annual number: 5

End annual number: 5

FPAY Annual fee payment

Payment date: 20180409

Year of fee payment: 6

PR1001 Payment of annual fee

Payment date: 20180409

Start annual number: 6

End annual number: 6

FPAY Annual fee payment

Payment date: 20190325

Year of fee payment: 7

PR1001 Payment of annual fee

Payment date: 20190325

Start annual number: 7

End annual number: 7