[go: up one dir, main page]

KR20090127182A - 잡음 환경들에 대한 음성 활동도 검출기 및 검증기 - Google Patents

잡음 환경들에 대한 음성 활동도 검출기 및 검증기 Download PDF

Info

Publication number
KR20090127182A
KR20090127182A KR1020097022615A KR20097022615A KR20090127182A KR 20090127182 A KR20090127182 A KR 20090127182A KR 1020097022615 A KR1020097022615 A KR 1020097022615A KR 20097022615 A KR20097022615 A KR 20097022615A KR 20090127182 A KR20090127182 A KR 20090127182A
Authority
KR
South Korea
Prior art keywords
input
frame
voice
energy acceleration
energy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
KR1020097022615A
Other languages
English (en)
Other versions
KR100976082B1 (ko
Inventor
더글라스 랄프 엘리
홀리 루이스 켈리허
데이비드 존 벤자민 피어스
Original Assignee
모토로라 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 모토로라 인코포레이티드 filed Critical 모토로라 인코포레이티드
Publication of KR20090127182A publication Critical patent/KR20090127182A/ko
Application granted granted Critical
Publication of KR100976082B1 publication Critical patent/KR100976082B1/ko
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision
    • G10L2025/786Adaptive threshold

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Telephone Function (AREA)

Abstract

통신 유닛(100)은 음성 활동도 검출 메커니즘(130, 135)을 갖는 오디오 처리 유닛(109)을 포함한다. 음성 활동도 검출 메커니즘(130, 135)은 통신 유닛(100)으로의 신호 입력의 에너지 가속을 측정하여 상기 측정에 기초하여 상기 입력 신호가 음성인지 또는 잡음인지를 결정한다. 음성 검출 방법 및 입력 신호가 음성인지 또는 잡음인지를 결정하는 방법이 또한 서술되어 있다. 특히 잡음 환경에 대하여, 에너지 가속 기반 음성 활동도 검출기 및 검증기(validator)를 사용하면, 입력 음성의 레벨의 독립성, 고속 응답 및 잡음 견고성(noise robustness)의 이점들을 제공한다.
통신 유닛, 음성 프레임, 프레임 카운터, 에너지 가속 측정, 전력 스펙트럼

Description

잡음 환경들에 대한 음성 활동도 검출기 및 검증기{Voice activity detector and validator for noisy environments}
본 발명은 잡음 환경 내에서의 음성 검출(통상적으로, 음성 활동도 검출(VAD)로서 공지됨)에 관한 것이다. 본 발명은 음성 검출 시스템에서 음성 신호들의 에너지 가속 측정에 적용되지만, 이에 국한되지 않는다.
사설 이동 무선 사용자들을 위한 테트라(TETRA: TErrestrial Trunked RAdio) 시스템 및 전 지구적 이동 통신 시스템(GSM) 셀룰러 전화 표준과 같은 많은 음성 통신 시스템들은 음-처리 유닛들을 사용하여, 음성 패턴들을 엔코딩 및 디코딩한다. 이와 같은 음성 통신 시스템들에서, 음성 엔코더는 전송을 위하여 아날로그 음성 패턴을 적절한 디지털 포맷으로 변환시킨다. 음성 디코더는 수신된 디지털 음성 신호를 가청 아날로그 음성 패턴으로 변환시킨다.
음성 활동도를 검출하는 방법들 및 장치는 종래 기술에 공지되어 있다. 음성 활동도 검출기(VAD)는, 음성이 단지 오디오 신호 부분에서만 제공된다는 가정하에 서 동작한다. 단지 침묵 또는 배경 잡음을 나타내는 많은 오디오 신호 간격들이 존재하기 때문에, 이 가정은 통상적으로 옳다.
음성 활동도 검출기는 많은 용도로 사용될 수 있다. 음성이 존재하지 않을 때, 이들 용도로서 전송 시스템에서 전체 전송 활동도를 억제하여, 전력 및 채널 대역폭을 상당히 절약하는 것을 포함한다. 음성 활동도가 재개되었다는 것을 VAD가 검출할 때, 이는 전송 활동도를 다시 초기화한다.
음성을 포함하는 오디오 부분들을 "무음(speechless)"인 부분들과 구별함으로써, 음성 활동도 검출기는 또한, 음성 저장 장치들과 결합하여 사용될 수 있다. 그 후, 음성을 포함하는 부분들은 저장 장치에 저장되고 "무음" 부분들은 폐기된다.
음성을 검출하는 종래 방법들은 적어도 부분적으로 음성 신호의 전력을 검출 및 평가하는 방법들에 기초한다. 추정된 전력은 일정하거나 적응적인 임계값중 하나와 비교되어, 신호가 음성인지를 결정한다. 이들 방법들의 주요한 이점은 복잡도를 낮춰, 저-처리 자원 구현하는데 적합하게 된다. 이와 같은 방법들의 주요 단점은, "음성"이 실제 제공되지 않을 때 검출되는 "음성"에서 배경 잡음이 우발적으로 발생될 수 있다는 것이다. 대안적으로, 제공되는 "음성"은 불분명하기 때문에 검출될 수 없고 배경 잡음으로 인해 검출하는 것이 곤란하다.
음성 활동도를 검출하기 위한 일부 방법들은 잡음 이동 환경들에 관계하고, 음성 신호의 적응형 필터링에 기초한다. 이는 최종 결정에 앞서 신호로부터 잡음 량을 감소시킨다. 주파수 스펙트럼 및 잡음 레벨은 가변될 수 있는데, 그 이유는 이 방법이 여러 스피커들 및 여러 환경들에 사용되기 때문이다. 그러므로, 입력 필터 및 임계값들은 종종 적응적이 되어, 이들 변화들을 추적한다.
이들 방법들의 예들이 하프 레이트(half rate), 풀 레이트(full rate) 및 향상된 풀 레이트 음성 트래픽 채널들 각각을 위한 GSM Specification 06.42 Voice Activity Detector(VAD)에 제공되어 있다. 또 다른 이와 같은 방법은 ITU G.729 부록 B에 제안된 바와 같은 "Multi-Boundary Voice Activity Detection Algorithm"이다. 이들 방법들은 잡음 환경에서 매우 정확하지만 수행하는데 있어 상당히 복잡하다.
모든 이들 방법들은 입력될 음성 신호를 필요로 한다. 음성 압축해제 방식을 사용하는 일부 애플리케이션들은, 음성 압축해제 공정동안 음성 검출을 실행하는 것을 필요로 한다.
벤야사인(Benyassine) 등에 의한 유럽 특허 출원 EP-A-0785419 호는 다음 단계들을 포함하는 음성 활동도 검출을 위한 방법에 관한 것이다.
(i) 매 프레임마다 인입하는 음성 신호로부터 소정 파라미터들의 세트를 추출하는 단계; 및
(ii) 상기 소정 파라미터들의 세트로부터 추출된 차 측정값들(difference measures)의 세트에 따라서 매 프레임마다 상기 인입하는 음성 신호의 프레임 음성 결정을 행하는 단계.
셀룰러 시스템들에서 VAD는 바이어스되어, 당사자가 말할 때, 배경 잡음 및 이외 다른 손상들의 존재시에 상대방에게 음성을 전달하도록 음성 코덱 및 RF 회로 등을 포함하는 무선장치를 작동시키도록 한다. 그러나, 이는 당사자가 말하고 있지 않을 때에도 데이터를 전송한다. 이는 배터리 수명을 다소 낮추고 시스템의 다른 셀들 내에 있는 공통-채널 사용자들과의 간섭을 다소 증가시킨다. 이들은 근본적으로, 2차(또는, 이보다 높은) 영향들이다.
이들 시스템들에서, 듀플렉스 호출에 이용가능 하게 되는 유한 자원에 대한 개념이 존재하지 않는다. 이것이 전체적으로 업링크 및 다운링크에 대해 가능하고 일관되며, 이는 통상적으로 여러 캐리어들 상에 존재하여 전체 대역폭을 동시에 이용하도록 한다.
본 발명의 분야에서, 일부 음성 활동도 또는 음성 온셋 검출기들(VADs/VODs)은 (예를 들어, 자동상관을 통해서) 하모닉 구조와 같은 음성의 특성들을 사용하여 음성화된 음성을 구별하고자 시도하는 것이 공지되어 있다. 그러나, 잡음 하에서, 음성 구조의 파괴 또는 잡음 구조 중 어느 하나로 인해 이들 구조적인 인디케이터들(indicators)은 실패할 수 있다. 이는, 예를 들어, 차량의 엔진, 타이어, 또는 에어컨 잡음일 수 있다. 최종적으로, 이들 방법들은 음성화되지 않은 음성을 검출하는데 좋지 않다.
대안적인 방법은 음성을 검출하기 위하여 단지 프레임 에너지 레벨을 사용하는 것이다. 이는, 잡음 레벨을 넘는 임의의 임계값이 음성을 표시하도록 설정될 수 있는 높은 신호-대-잡음 비(SNR) 상태들의 음성에 대해선 만족스럽다. 그러나, 이 방법은 보다 실제적인 잡음 상태들에선 실패한다.
비표준화된 데이터베이스에 대해서 또는 실제 애플리케이션들에서, 한 세트 의 예들에서의 잡음 레벨들은 또 다른 예들에서의 음성 레벨들 보다 크게될 수 있는데, 이는 임계값을 설정하는 것을 불가능하게 한다. 이를 극복하기 위한 통상적인 방법은 잡음을 나타낸다는 가정 하에서 발음(utterance)의 제 1의 100msec 정도를 평균화하여, 이 발음에 대한 특정한 임계값을 생성하는 것이다. 그러나, 또 다시, 이는, 잡음이 초기 추정값으로부터 급격하게 발산될 수 있으며, 잡음이 높은 분산을 갖거나 제 1의 몇개의 프레임들이 실제로 추정된 잡음이 아니라 오히려 음성을 포함하는 비고정 잡음(non-stationary noise)에 대해선 불충분하게 된다.
그러므로, 상술된 단점들을 경감할 수 있는 잡음 환경들에 대한 개선된 음성 활동도 검출기 및 검증기(validator)가 필요로 된다.
본 발명의 제 1 특징에 따르면, 청구항 1에 청구된 바와 같은 통신 유닛이 제공된다.
본 발명의 제 2 특징에 따르면, 청구항 11에 청구된 바와 같은 통신 유닛으로의 음성 신호 입력을 검출하는 방법이 제공된다.
본 발명의 제 3 특징에 따르면, 청구항 14에 청구된 바와 같은 통신 유닛으로의 신호 입력이 음성인지 또는 잡음인지를 결정하는 방법이 제공된다.
본 발명의 부가적인 특징들은 종속항들에 청구된 바와 같다.
요약하면, 본 발명은 음성의 존재 또는 부재를 표시하기 위하여 에너지 진폭 측정하는 것보다 오히려 에너지 가속 측정(energy acceleration measurement)을 사용함으로써, 임의의 진폭의 비고정 잡음의 경우를 처리하고자 하는 것이다.
본 발명의 전형적인 실시예들이 지금부터 첨부한 도면들을 참조하여 설명될 것이다.
본 발명에 따라, 잡음 환경들에 대한 개선된 음성 활동도 검출기 및 검증기(validator)가 제공된다.
음성화된 음성의 온셋(onset)이 진동 또는 정지중인 보컬 코드들(vocal cords)의 활동도에 좌우되기 때문에, 음성화된 음성은 비교적 높은-에너지 가속 값을 갖는다. 유사하게, 음성화되지 않은 온셋들(예를 들어, 파열음들) 또한, 높은 에너지 가속들을 갖는다.
본 발명가들은, 협대역 전력 스펙트럼 또는 Mel-스펙트럼과 같은 음성화를 강조하는 대표적인 도메인(representational domain emphasising voicing)에서, 합성 에너지 가속이 비고정 잡음보다 상당히 높다는 것을 인지하였다. 단지 중요한 예외들은 자극적인 잡음들(예를 들어, 박수)이다.
그러므로, 본 발명의 바람직한 실시예들을 따르면, 본 발명가들은 음성 신호의 기본적인 피치(fundamental pitch)를 포함할 것 같은 주파수 영역에서 에너지에 대해 집중함으로써 이들 잡음들에 대해 부가적으로 구별할 수 있다는 것을 인지하였다. 특히, 본 발명의 발명가들은 음성의 구조화되지 않은 특성, 즉 에너지 특성(또는 음성 에너지 또는 이들의 성분들을 반영하는 어떤 메트릭의 가속)을 사용하는 것을 제안하였다.
특히, 본원에 서술된 본 발명의 개념들에 대한 바람직한 적용은 European Telecommunications Standards Institute(ETSI)-"Speech Processing, Transmission and Quality aspects(STQ): Distributed speech recognition; Front-end feature extraction algorithm; Compression algorithm", ETSI ES 201 108 v1.1.2(2000-04), April 2000에 현재 정의된 분산 음성(distributed speech)이다.
지금부터 도 1을 참조하면, 본 발명의 바람직한 실시예들의 본 발명의 개념을 지원하도록 하는 오디오 가입자 유닛(100)의 블록도가 도시되어 있다.
본 발명의 바람직한 실시예는 예를 들어, 장래 셀룰러 무선 통신 시스템들을 위한 3GPP(3rd Generation Partnership Project) 표준으로 동작하여 DSR 성능들을 제공할 수 있는 무선 오디오 통신 유닛과 관련하여 서술된다. 그러나, 음성 활동도 검출 및 이의 검증과 관련하여 본원에 서술된 본 발명의 개념들이 음성 신호들에 응답하는 어떠한 전자 장치에 동일하게 적용될 수 있도록 하고 개선된 음성 활동도 검출 회로로부터 이점을 얻을 수 있도록 하는 것이 본 발명에서 고려되어 있다.
종래 기술에 공지된 바와 같이, 오디오 가입자 유닛(100)은 듀플렉스 필터에 바람직하게 결합된 안테나(102), 안테나 스위치 또는 오디오 가입자 유닛(100) 내에서 수신 및 전송 체인들간을 격리(isolation)시키는 서큘레이터(circulator)(104)를 포함한다.
수신기 체인은 (수신, 필터링 및 중간 또는 기저대 주파수 변환을 효율적으로 제공하는)수신기 프론트-엔드 회로(106)를 포함한다. 프론트-엔드 회로(106)는 신호 처리 기능부(일반적으로 디지털 신호 처리기(DSP)로 구현된다)(108)에 직렬로 결합된다. 신호 처리 기능부(108)는 신호 복조, 에러 정정 및 포맷팅을 수행한다. 신호 처리 기능부(108)로부터 복구된 데이터는 오디오 처리 기능부(109)에 직렬로 결합되며, 이 오디오 처리 기능부(109)는 적절한 방식으로 수신된 신호를 포맷하여 오디오 발음기(enunciator)/디스플레이(111)에 전송한다.
본 발명의 여러 실시예들에서, 신호 처리 기능부(108) 및 오디오 처리 기능부(109)는 동일한 물리적 장치 내에 제공될 수 있다. 제어기(114)는 가입자 유닛(100)의 소자들의 동작 상태 및 정보 흐름을 제어하도록 구성된다.
전송 체인과 관련하여, 이는 근본적으로, 오디오 처리 기능부(109), 신호 처리 기능부(108), 송신기/변조 회로(122) 및 전력 증폭기(124)를 통해서 직렬로 결합되는 오디오 입력 장치(120)을 포함한다. 처리기(108), 송신기/변조 회로(122) 및 전력 증폭기(124)는 제어기에 동작적으로 응답한다. 전력 증폭기 출력은 듀플렉스 필터, 안테나 스위치 또는 서큘레이터(104) 및 최종 무선 주파수 신호를 방사(radiate)하는 안테나(102)에 결합된다.
특히, 오디오 처리 기능부(109)는 음성 활동도 결정 기능부(135)에 동작가능하게 결합된 음성 활동도(또는 음성 온셋) 검출(VAD) 기능부(130)를 포함한다. 본 발명의 바람직한 실시예들에 따르면, VAD 기능부(130) 및 음성 활동도 결정 기능(135)은 개선된 음성 검출 및 결정 메커니즘을 제공하도록 적응되며, 이의 동작이 도 2 및 도 3과 관련하여 부가 설명된다. 음성 활동도 검출기 기능부(130)가 3가지 측정들로 이루어진 매 프레임마다 검출 스테이지(frame-by-frame detection stage)를 포함한다. 3개의 주파수 범위 측정들은 다음을 포함한다.
(i) 전체 스펙트럼;
(ii) 스펙트럼 서브-대역들; 및
(iii) 스펙트럼 분산(spectral variance)
다음에, 음성 활동도 결정 기능부(135)는 측정들의 버퍼에 기초하여 결정을 수행하는데, 이들 측정들은 자신들의 음성 가능도(speech likelihood)를 위하여 분석된다. 결정 스테이지로부터의 최종 결정은 버퍼내의 보다 이른 프레임에 소급적으로(retrospectively) 적용된다.
본 발명의 바람직한 실시예에서, 타이머/카운터(118)는 또한, 도2 및 도3의 검출 및 결정 공정들에서 타이밍 기능들을 수행하도록 적응된다.
신호 처리기 기능부(108), 오디오 처리 기능부(109), VAD 기능부(130) 및 음성 활동도 결정 기능부(135)는 별도의 동작 가능하게 결합된 처리 소자들로서 구현될 수 있다. 대안적으로, 하나 이상의 처리기들은 대응하는 처리 동작들 중 하나 이상의 동작들을 수행하도록 사용될 수 있다. 또 다른 부가적인 실시예에서, 상술된 기능부들은 주문형 반도체들(ASICs) 및/또는 처리기들, 예를 들어 디지털 신호 처리기들(DSPs)을 사용하여, 하드웨어, 소프트웨어 또는 펌웨어 요소들의 조합으로서 구현될 수 있다.
물론, 오디오 가입자 유닛(100) 내의 각종 구성요소들은 이산 또는 집적 구성요소 형태로 실현될 수 있음으로, 최종 구조는 단지 자의적인 선택에 의해 이루어진다.
이로 인해, 본 발명의 바람직한 실시예에 사용하기 위한 에너지 가속의 표시를 성취하는 여러 가지 방법들이 존재한다.
(i) 이론적으로 이상적인 방법은 종래 공개된 출원 US 6009391 에서 알 수 있는 바와 같이, 발음의 연속적인 프레임들에 걸쳐서 에너지 레벨을 이중-미분(double-differentiation)하는 것이다. 이 방식이 지닌 단점은 분석 중에 있는 매 프레임 측마다 프레임들의 수를 분석할 필요가 있기 때문에 지연을 초래한다는 것이다.
(ii) 에너지 가속의 제로-지연 추정값은 예를 들어 다음과 같은 프레임 평균 또는 롤링 평균(rolling average)을 사용하여 순시값과 단기간 평균의 비를 비교함으로써 구할 수 있다.
프레임 평균:
Figure 112009066269417-PAT00001
롤링 평균:
Figure 112009066269417-PAT00002
각각의 경우에, 이 방법은 '감속'<'1'<'가속'으로서 해석될 수 있는 값들을 복귀시킨다. 그 후, 잡음으로부터 음성을 최적으로 구별하는 분모 길이(denominator length) 및
Figure 112009066269417-PAT00003
에 대한 실험적인 값들을 구할 수 있다.
본 발명의 발명가들은, 바람직한 최적의 해법은 비고정 잡음을 신속하게 추 적할 수 있지만, 너무 길어 음성 온셋을 추적할 수 없는 분모를 구하는 것이라는 것을 인지하였다. 롤링 평균을 위한 제안된 값의 시퀀스는 a=0.2, b=0.8*a, c=0.8*b, 등이며, 이는 반복적으로 간단히 표현될 수 있다.
Figure 112009066269417-PAT00004
이 때,
Figure 112009066269417-PAT00005
검출 스테이지 내의 바람직한 VAD 및 파라미터 초기화 시스템들은 도2의 순서도에 요약되어 있다. 비고정 잡음에서, 장기간 에너지 임계값들은 음성의 신뢰할 수 없는 인디케이터이다. 유사하게, 높은 잡음 조건들에서, 음성(예를 들어, 하모닉들)의 구조는 잡음에 의해 파괴될 수 있거나 구조적인 잡음들이 검출기를 혼동시킬 수 있기 때문에 인디케이터로서 완전히 신뢰할 수 없다. 그러므로, 바람직한 음성 활동도 검출기는 음성의 잡음-견고성 특성, 즉 음성 온셋과 관련된 에너지 가속을 사용하는 것이다.
지금부터 도 2를 참조하면, 바람직한 검출 공정의 순서도(200)가 도시되어 있다. 상술된 바와 같이, 이 공정은 매 프레임마다 분석을 포함한다. 바람직한 VAD 메커니즘은 '전체 스펙트럼' 측정 공정과 관계한다. 프레임 카운터는 초기에 평가되어, 단계(205)에 도시된 바와 같이 버퍼링된 프레임들의 수를 규정하는 'N' 보다 작은지를 결정한다. 바람직한 실시예의 예로서, 매 프레임이 10msec 증분되도록 설정되었다 라고 하면, 'N'은 '15'로 설정된다. 프레임 카운터가 단계(205)에서 'N' 보다 작다면, 초기 가속 테스트를 위한 롤링 평균은 단계(210)에서처럼 갱신된다. 프레임 카운터가 단계(205)에서 'N' 보다 작지 않다면, 단계(210)를 건너뛴다.
그 후, 단계(235)에 도시된 바와 같이, 에너지 가속 측정값이 하나 이상의 규정된 마진(들) 내에 있는지를 평가하기 위한 결정이 행해진다. 에너지 가속 측정값이 단계(235)에서 하나 이상의 규정된 마진(들) 내에 있다면, 롤링 평균은 단계(240)에서 처럼 부가 에너지 가속 테스트의 결과들로 갱신된다. 에너지 가속 측정값이 단계(235)에서 하나 이상의 특정 마진(들) 내에 있지 않다면, 단계(240)를 건너뛴다.
그 후, 단계(260)에 도시된 바와 같이 에너지 가속 측정값이 규정된 임계값 보다 큰지를 평가하기 위한 결정이 행해진다. 에너지 가속 측정값이 단계(260)에서 규정된 임계값 보다 크다면, 프레임은 단계(265)에서 처럼 음성 프레임이라 추정된다. 에너지 가속 측정값이 단계(260)에서 규정된 임계값 보다 크지 않다면, 프레임은 단계(270)에서 처럼 잡음 프레임이라 추정된다.
그 후, 프레임 카운터는 단계(275)에서처럼 증분되고 이 공정은 단계(205)로부터 반복된다.
전체 스펙트럼 측정 공정 대신 또는 이 공정 이외에도, 상기 공정에 대한 개선으로서, 선택적인 단계들(215 및 245)에 도시된 서브-영역 측정 공정이 수행될 수 있다. 스펙트럼의 특정 서브-영역이 기본 피치(fundamental pitch)를 가장 포함 할 것 같은 그 서브-영역으로서 선택된다.
서브-영역 공정에서, 초기 가속 테스트를 위한 롤링 평균이 전체 스펙트럼 측정에서 단계(210)에서 갱신되면, 에너지 가속 측정값이 단계(220)에서 도시된 바와 같이 임계값 보다 큰지를 검사하기 위한 결정이 행해진다. 에너지 가속 측정값이 단계(220)에서 임계값 보다 크다면, 다른 파라미터들의 초기화 공정은 단계(225)에서 도시된 바와 같이 중지된다. 에너지 가속 측정값이 단계(220)에서 임계값 보다 크지 않다면, 다른 파라미터들의 초기화는 단계(230)에서처럼 갱신된다. 그 후, 이 공정은 도시된 바와 같이 단계(235)로 복귀한다.
에너지 가속 측정값이 단계(235)에서 하나 이상의 규정된 마진(들) 내에 있는지를 평가하는 결정 후에 부가적인 바람직한 결정이 행해진다. 감속 값은 단계(250)에서 '하이'인지를 결정하도록 평가되고, 만일 그렇다면, 에너지 감속 테스트를 위한 롤링 평균은 단계(255)에 도시된 바와 같이 서서히 갱신된다. 그 후, 이 공정은 단계(260)에서 전체 스펙트럼 방법으로 복귀된다.
이 방식에서, 서브-영역 검출기의 일반적으로 높은 신호-대-잡음 비들(SNRs)은 잡음-견고성을 높게 한다. 그러나, 대역-제한된 잡음뿐만 아니라 마이크로폰 및 스피커 변경들에 취약하다. 따라서, 이 측정들은 모든 환경들에서 신뢰될 수 없다. 결국, 본 발명의 바람직한 실시예는 서브-영역 검출기를 포함하여 전체 스펙트럼 측정값을 증가시킨다.
부가적인 측정 공정은 예를 들어, 매 프레임의 스펙트럼의 하부 절반 내의 값들의 분산의 '가속'을 사용하여 바람직하게 수행된다. 이 분산 측정은 스펙트럼 의 하부 절반 내에서 구조를 검출하여, 음성화된 음성에 매우 민감하게 된다. 분산 측정은 서브-영역 공정 방식을 따르는데, 이 스펙트럼의 하부 절반은 선택된 특정 서브-영역이다. 이 분산 측정은 전체 스펙트럼 측정 방식을 더욱 보완하여, 음성화되지 않은 음성 및 파열음을 보다 양호하게 검출할 수 있도록 한다.
모든 3가지 측정들은 출원인 모토로라, 발명가 Yan-Ming Chen인 미국 특허 출원 US 09/427497에 서술된 바와 같은 이중 위너 필터(double Wiener filter)의 제1 스테이지에 의해 발생된 필터 이득들의 스펙트럼 표현으로부터 원 입력(raw input)을 취한다. 상술된 바와 같이, 각 측정은 이 데이터의 상이한 양상을 사용한다.
특히, 전체 스펙트럼 검출기는 이중 위너 필터의 제 1 스테이지에 의해 발생된 필터 이득들의 공지된 Mel-필터링된 스펙트럼 표현을 사용한다. 단일 입력 값은 Mel 필터 뱅크들의 합을 자승함으로써 구해진다.
본 발명의 바람직한 실시예에서, 전체 스펙트럼 검출기는 후술된 바와 같이 다음의 공정을 모든 프레임들에 적용한다.
단계 1은 다음 방식으로 잡음 추정 트랙커(Tracker)를 초기화한다.
Frame< 15 및 Acceleration<2.5이면, Tracker = MAC(Tracker, Input)이다.
에너지 가속 측정은 음성이 15프레임들의 리드-인 시간 내에서 발생되면 트랙커가 갱신되는 것을 방지한다.
단계 2는 현재 입력이 잡음 추정과 유사하다면 다음 방식으로 트랙커 값을 갱신한다.
Input<Tracker*UpperBound 및 Input>Tracker*LowerBound이면, 트랙커 = a*Tracker+(1-a)*Input이다.
단계 3은 제1의 몇개의 프레임들 내에서 음성 또는 특징없이 큰 잡음이 존재하는 예들에 대한 안전한 메커니즘을 제공한다. 이는 최종 에러있는 높은 잡은 추정값이 감쇠(decay)되도록 한다. 단계 3은 다음 방식으로 바람직하게 기능한다.
Input<Tracker*Floor이면, Tracker=b*Tracker+(1-b)*Input
단계 4는 현재 입력이 트랙커 보다 165% 이상으로 크다면 다음 방식으로 '참' 음성 결정으로서 복귀한다.
Input>Tracker*Threshold이면, TRUE을 출력하거나 그렇치 않다면 FALSE을 출력한다.
순시 입력 대 단기간 평균 트랙커의 비는 연속 입력들의 에너지 가속의 함수이다.
상기에서,
a=0.8 및 b=0.97
UpperBound은 150%이고 LowerBound은 75%
Floor는 50% 이고
Threshold은 165%이다.
값이 상한 보다 크거나 하한 및 플로어(floor)사이에 있다면 갱신되지 않는다는 점에 유의하라. 게다가, 상술된 바와 같이 에너지 가속 입력은 다음 중 하나로 계산될 수 있다.
연속 입력들의 이중-미분 또는,
입력들의 2개의 롤링 평균들의 비를 추정함으로써 추정된다.
고속 및 저속-적응형 롤링 평균들의 비는 연속적인 입력들의 에너지 가속을 반영한다는 점에 유의하라.
예를 들어, 상술된 평균들을 위한 기여 비들(contribution rates)은 다음과 같다:
(i) 0*mean + 1*input, 및
(ii) ((Frame-1)*mean + 1*input)/Frame,
에너지 가속 측정이 제1의 15개 프레임들에 걸쳐 감도를 증가시킨다.
서브-대역 검출기는 '전체 스펙트럼' 측정을 위하여 유도된 제2, 제3 및 제4 Mel-필터 뱅크들의 평균을 바람직하게 사용한다. 그 후, 검출기는 후술되는 방식으로 다음 공정을 모든 프레임들에 적용한다.
(i) Input = p * CurrentInput +(1-p)*PreviousInput;
(ii) Frame <15이면, Tracker= MAX(Tracker, Input);
(iii) Input<Tracker*UpperBound 및 Input>Tracker*LowerBound이면, Tracker = a*Tracker+(1-a)*Input;
(iv) Input<Tracker*Floor이면, Tracker = b*Tracker+(1-b)*Input
(v) Input>Tracker*Threshold이면, TRUE을 출력하거나 그렇치 않다면 FALSE를 출력한다.
서브 영역 측정에서:
p=0.75이다.
모든 다른 파라미터들은 임계값을 제외하면 전체 스펙트럼 측정에 대해서 동일하게 되며, 이는 3.25와 동일하다.
스펙트럼 분산 측정을 위하여, 매 프레임에 대해 이득의 협대역 스펙트럼 표현의 하부 주파수 절반을 포함하는 값들의 분산이 입력으로서 사용된다. 그 후, 검출기는 전체 스펙트럼 측정에 대한 것과 정확하게 동일한 공정을 적용한다.
분산은 다음과 같이 계산된다.
Figure 112009066269417-PAT00006
여기서, N = FFT Length/4 이고,
wi는 이득의 협대역 스펙트럼 표현의 값들이다.
본 발명의 바람직한 실시예에 따르면, 상술된 3개의 측정들은 도3의 순서도에 도시된 바와 같이 VAD 결정 알고리즘에 제공된다. 연속적인 입력들은 문맥 분석(contextual analysis)을 제공하는 버퍼에 제공된다. 이는 버퍼의 길이 빼기 1 프레임과 동일한 프레임 지연을 야기시킨다.
지금부터 도 3을 참조하면, 잡음 환경들에 대한 가속-기반 음성 활동도 검증 공정의 순서도(300)가 본 발명의 바람직한 실시예에 따라서 예시된다.
N=7 프레임 버퍼에 대해서, 가장 최근의 참/거짓 음성 입력은 단계(305)에 도시된 바와 같이 데이터 버퍼내의 위치(N)에 저장된다. 결정 논리는 다수 및 바람직하게는 각각의 다음 단계들을 적용한다.
단계 1:
VN = Measure 1 또는 Measure 2 또는 Measure 3
3개의 측정들 중 한 측정이 참 음성 표시를 복귀시키면, 입력(VN)은 '참'(T)으로 규정된다.
단계 2:
Figure 112009066269417-PAT00007
이 알고리즘은 단계(310)에서 처럼, 버퍼에서 '참' 값들의 가장 긴 연속적인 시퀀스를 탐색한다. 그러므로, 예를 들어, 시퀀스 'T T F T T T F'인 경우에, M은 '3'과 동일하게 된다.
단계 3:
M≥Sp 및 T<Ls이면, T = Ls이다.
여기서, Sp는 단계(315)에서 제1 임계값과 동일하다. 참(T) 음성 값들의 가장 긴 시퀀스는 단계(315)에서 제1 임계값과 동일하거나 초과하는데, 즉 Sp=3 또는 보다 연속적인 '참' 값들이면, 버퍼는 '가능한' 음성을 포함한다라고 판단된다. 단 계(320)에서 판정으로부터 이미 제공(또는 초과)하지 않으면, LS=5 프레임들(Time_1)의 짧은 타이머(T)가 단계(325)에서 활성화된다.
단계 4:
M≥SL 및 F>FS이면, T=LM 그렇치 않다면 T=LL이다.
여기서, SL은 단계(330)에서 제2 임계값과 동일하다. SL=4 또는 보다 연속적인 '참' 값들이 존재하면, 버퍼는 또 다시 '가능한' 음성을 포함한다라고 판단된다. 단계(355)에서 판정된 바와 같이, 현재 프레임(F)이 초기의 리드-인 안전 기간(FS) 밖에 있다면, LM=22 플레임들의 중간 타이머(T)는 단계(340)에서 활성화된다. 그렇치 않다면, LL=40 프레임들의 안전한 긴 타이머가 단계(345)에서 사용된다. 발음에서 초기에 존재하는 음성이 VAD의 초기 잡음 추정을 너무 높게할 때, 이와 같은 배열이 사용된다.
단계 5:
M<SP 및 T>0이면, T--이다.
이 공정이 단계(350)에서 Sp=3 연속적인 '참' 값들 보다 작고 단계(355)에서 타이머가 제로보다 크다라고 판정하면, 타이머는 단계(360)에서 감소된다.
단계 6:
T>0이면, TRUE를 출력하며 그렇치 않다면 FALSE를 출력한다. 타이머가 단계(365)에서 제로보다 크다면, 이 공정은 단계(370)에 도시된 바와 같이 '참' 음성 결정을 출력한다. 대안적으로, 타이머가 단계(365)에서 제로보다 크지 않다면, 이 공정은 단계(375)에 도시된 바와 같이 '잡음' 결정을 출력한다.
단계 7:
Frame++, 버퍼를 좌로 시프트하고 단계 1로 복귀하라. 단계(380)에서 다음 프레임에 대해 준비시, 도4와 관련하여 도시된 바와 같이, 버퍼는 좌로 시프트되어 다음 입력을 수용한다. 출력 음성 결정은 버퍼로부터 배출된 프레임에 대해 적용된다. 그 후, 이 공정은 데이터 버퍼로의 다음 참/거짓 입력에 대해 단계(305)에서 반복된다.
상술된 에너지 가속 공정에 기초하여 음성 또는 잡음 결정을 행하는 대안적인 메커니즘들을 구현하는 것이 고려된다. 예를 들어, 결정 메커니즘은 하나 이상의 타이머(들)에 기초할 수 없고, 하나 이상의 에너지 가속 임계값들이 초과되는지에 대해서만 결정할 수 있다.
지금부터 도 4를 참조하면, 본 발명의 바람직한 실시예에 따른 버퍼 동작(400)의 예가 보다 상세하게 도시되어 있다. 제1 임계값이 3개의 연속적인 '참' 값들을 위해 설정되었다 라고 가정하자. 시간 't'(410)에서, 단지 현재 입력(프레임 #7)(425) 및 사전 입력(프레임 #6)(420)만이 '참'이라고 가정하자. 결국, 버퍼가 시프트될 때, 제 1 프레임(프레임 #1)(415)은 거짓으로서 표시될 것이다.
시간 't+1'(430)에서, 제3 '참' 입력(프레임 #8)(450)이 수신되어 이 보다 이른 2개의 '참' 입력들(440, 445)을 보충한다. 결국, 버퍼가 시프트될 때, 다음 출력 프레임(프레임 #2)은 '참'으로서 표시될 것이다.
상기 결정 공정에서, 단지 제한들은 (i) Time_1<Time_2<Time_3 및 (ii) Threshold_1<Threshold_2이라는 점에 유의하여야 한다.
단지 이들 3개의 입력들(프레임 #6, 프레임 #7 및 프레임 #8)만이 '참'이라면, 전체 출력 시퀀스는 다음과 같이 될 것이다.
Figure 112009066269417-PAT00008
여기서, 프레임들 #2-#5은 버퍼 리드-인 기능으로 인해 '참'을 나타낸다. 프레임들 #6-#8은 실제 원 '참' 음성 입력들의 위치로서 '참'을 나타낸다. 프레임들 #9-#12는 버퍼 리드-아웃 기능으로 인한 '참'을 표시한다. 프레임들 #13-#18은 사용되는 타이머 행오버(hangover)에 응답하여 '참'을 나타낸다. 발음 내의 모든 프레임들이 입력되면, 버퍼는 빌(empty) 때까지 '거짓' 엔트리들(프레임들 #19-#LM)을 시프트한다.
버퍼 길이 및 행오버 타이머들이 동적으로 조정되어 오디오 통신 유닛의 요구들에 부합하도록 하는 것이 본 발명에서 고려된다. 8의 버퍼 길이 'N' 및 5개의 프레임들의 행오버 타이머를 사용하는 바람직한 실시예는 단지 설명을 위하여서만 사용된다. 그러나, 버퍼 길이 'N'이 항상 N≥SL이 되도록 결정되어야 한다.
본 발명의 권리에서 VAD로서 사용하는 것 이외에도, 도2의 방법적 단계들에서 수행되는 에너지 가속 측정이 다른 파라미터들의 초기화를 검증하는데 사용될 수 있다는 것이 본 발명에서 고려된다. 예를 들어, 스펙트럼 감산 방식은 음성의 제 1의 10개의 프레임들(전형적으로, 100msec)에 기초하여 잡음의 초기 추정을 필요로 한다. 고정 잡음에서조차도, 여러 이벤트들은 초기 추정을 무효화하기 위하여 발생될 수 있다. 이와 같은 이벤트들의 예들은 다음을 포함한다.
(a) 신호의 램프-업(ramp-up)
각종 다양한 원인들로 인해, 막 개시된 기록은 평가중인 주기 내의 전체 볼륨으로 '램프-업'된다. 그 이유는 이와 같은 전체 램프-업은 디지털 시스템들에서 버퍼-필(buffer-fill), 아날로그 시스템에서 커패시턴스 또는 테이프-헤드 인게이지먼트(tape-head engagement)를 포함하기 때문이다. 이와 같은 이벤트들의 효과는 추정을 무효화한다. 그러므로, 에너지 가속 측정은 이와 같은 램프-업을 검출하여 에러를 방지하는데 사용될 수 있다.
(b) 초기 신호에서 스파이크들:
공통 '스파이크(spike)'는 가입자 무선 유닛상의 프레스토크(PTT: Press-To-Talk) 버튼의 완전 배치로 인해 발생되는데, 여기서 전기 접촉은 버튼이 스위치의 배면과 부딪치는 것 보다 먼저 발생된다. 상술된 바와 같은 에너지 가속 측정은 이와 같은 이벤트들이 발생될 때 도2의 단계(225)에서 도시된 바와 같이 추정 공정을 중지하는데 사용될 수 있다.
(c) 초기 신호에서의 음성:
PTT 시스템들로 인한 또 다른 공통 발생은, 사용자가 PTT 버튼을 누르자 마자 말을 시작한다는 것이다. 이 방식에서, 전기 접촉은 말을 한 후에 행해진다. 에너지 가속 측정은 도 2의 단계(255)에 도시된 바와 같이 이를 식별하여 잡음-기반 초기화들을 중지할 수 있거나 디폴트 추정들을 사용하도록 할 수 있다.
요약하면, 음성 활동도 메커니즘을 갖는 오디오 처리 유닛을 포함하는 통신 유닛이 서술되었다. 음성 활동도 검출 메커니즘은 통신 유닛으로의 신호 입력의 에너지 가속의 표시를 제공하고, 상기 입력 신호가 상기 표시에 기초하여 음성인지 또는 잡음인지를 결정한다.
게다가, 통신 유닛으로의 음성 신호 입력을 검출하는 방법이 서술되었다. 이 방법은 통신 유닛으로의 입력 신호의 가속을 표시하는 단계; 및, 상기 입력 신호가 상기 표시 단계에 기초하여 음성인지 또는 잡음인지를 결정하는 단계를 포함한다.
게다가, 통신 유닛으로의 신호 입력이 음성인지 또는 잡음인지를 결정하는 방법이 서술되었다. 이 방법은 상기 입력 신호가 예를 들어, 다수의 입력 신호들의 프레임 평균 또는 롤링 평균을 사용하여, 에너지 가속에 기초하여 음성인지 또는 잡음인지를 결정하는 단계를 포함한다.
그러므로, 상술된 잡음 환경들에 대한 음성 활동도 검출기 및 검증기가 잡음 견고성 및 고속 응답의 장점들을 제공한다는 것을 알 수 있을 것이다. 바람직한 실시예가 절대 측정값 대신에 에너지 가속에 따른 측정값을 사용하기 때문에, 본원에 서술된 본 발명의 개념은 어떠한 입력 레벨의 음성에도 적용될 수 있다.
본 발명의 실시예들의 특정하고 바람직한 구현 방식들이 상술되었지만, 본 발명의 영역 내에 있는 이와 같은 발명의 개념을 변경 및 수정할 수 있다는 것이 당업자에게는 명백하다.
따라서, 잡음 환경들에 대한 개선된 음성 활동도 검출기 및 검증기는 종래 기술과 관련된 상술된 단점들을 실질적으로 경감할 수 있다.
도 1은 본 발명의 바람직한 실시예의 음성 활동도 검출 및 검출을 수행하도록 적응되는 통신 유닛의 블록도.
도 2는 본 발명의 바람직한 실시예에 따른 잡음 환경들에 대한 에너지 가속 기반 음성 활동도 검출기의 순서도.
도 3은 본 발명의 바람직한 실시예에 따른 잡음 환경들에 대한 에너지 가속 기반 음성 활동도 검증의 순서도.
도 4는 본 발명의 바람직한 실시예에 따른 버퍼 동작을 도시한 도면.

Claims (21)

  1. 음성(voice) 활동도 검출 메커니즘(130, 135)을 갖는 오디오 처리 유닛(109)을 포함하는 통신 유닛(100)에 있어서:
    상기 음성 활동도 검출 메커니즘(130, 135)은 평균 에너지값과 순간(instantaneous) 에너지값의 비를 계산함으로써 상기 통신 유닛(100)에 입력된 신호의 에너지 가속을 측정하고, 상기 측정에 기초하여 상기 입력 신호가 음성(speech)인지 또는 잡음인지를 매 프레임마다 판정하도록 구성되고,
    상기 에너지 가속 측정이 에너지 가속 문턱치보다 큰 에너지 가속값을 산출할 때, 입력 프레임은 음성 프레임으로 판정되는(265) 것을 특징으로 하는, 통신 유닛.
  2. 제 1 항에 있어서,
    상기 음성 활동도 검출 메커니즘은, 상기 음성 활동도 검출 메커니즘(130, 135)에 입력되는 신호들에 대해 매 프레임마다 음성의 검출을 수행하는 음성 활동도 검출 기능부(130)를 포함하는, 통신 유닛.
  3. 제 2 항에 있어서,
    상기 프레임마다 검출은 다음 주파수 범위들:
    (i) 전체 스펙트럼;
    (ii) 스펙트럼 서브-대역들; 및
    (iii) 스펙트럼 분산
    중 하나 이상의 범위들에 대한 상기 음성 활동도 검출 메커니즘(130, 135)에 입력된 신호에 대해 에너지 가속 측정을 수행하는 것으로 구성되는, 통신 유닛.
  4. 제 3 항에 있어서,
    상기 음성 활동도 검출 메커니즘은 상기 음성 활동도 검출 기능부(130)에 동작 가능하게 결합되고, 상기 입력 신호가 상기 측정들 중 하나 이상의 측정의 버퍼링 동작에 기초하여 음성인지를 결정하도록 구성된 음성 활동도 결정 기능부(135)를 포함하는, 통신 유닛.
  5. 제 1 항에 있어서,
    상기 음성 활동도 검출 메커니즘은 다수의 상기 입력 신호들의 프레임 평균 또는 롤링(rolling) 평균을 사용하여 에너지 가속을 측정하도록 구성되는, 통신 유닛.
  6. 제 1 항에 있어서,
    입력 프레임이 음성 프레임이라는 결정(265)은 입력 신호들의 버퍼내의 이전 프레임에 소급적으로 적용되는, 통신 유닛.
  7. 제 1 항에 있어서,
    상기 에너지 가속 측정이 다수의 연속한 프레임들에 걸쳐서 에너지 가속 문턱치보다 큰 에너지 가속 값을 산출하면, 입력 신호는 음성 신호로 추정되는(370), 통신 유닛.
  8. 제 3 항 또는 제 4 항에 있어서,
    입력 신호 스펙트럼의 서브-대역이 선택되면, 상기 선택은 그 서브-대역이 음성 신호의 기본 피치(fundamental pitch)를 포함하는 것에 기초하는, 통신 유닛.
  9. 통신 유닛에 입력된 음성 신호(speech signal)를 검출하는 방법에 있어서:
    평균 에너지값과 순간 에너지값의 비를 계산함으로써 상기 통신 유닛에 입력된 신호의 에너지 가속을 측정하는 단계; 및
    상기 측정 단계에 기초하여 상기 입력 신호가 음성인지(370) 또는 잡음인지(375)를 매 프레임마다 판정하는 단계(315, 330, 350)를 포함하고,
    상기 에너지 가속 측정이 에너지 가속 문턱치보다 큰 에너지 가속값을 산출할 때 입력 프레임은 음성 프레임으로 판정되는(265) 것을 특징으로 하는, 음성 신호 검출 방법.
  10. 제 9 항에 있어서,
    상기 통신 유닛에 입력된 신호들에 대해 매 프레임마다 음성(voice)의 검출 을 수행하는 단계를 더 포함하는 것을 특징으로 하는, 음성 신호 검출 방법.
  11. 제 10 항에 있어서,
    상기 매 프레임마다 검출은:
    다음 주파수 범위들:
    (i) 전체 스펙트럼;
    (ii) 스펙트럼 서브-대역들; 및
    (iii) 스펙트럼 분산
    중 하나 이상의 범위들에 대한 상기 입력 신호에 대해 에너지 가속 측정을 수행하는 단계를 포함하는, 음성 신호 검출 방법.
  12. 제 9 항 내지 제 11 항 중 어느 한 항에 있어서:
    상기 에너지 가속을 측정하는 단계는 다수의 입력 신호들의 프레임 평균 또는 롤링 평균을 사용하는, 음성 신호 검출 방법.
  13. 제 9 항에 있어서,
    입력 프레임이 음성 프레임이라는 상기 판정을 입력 신호들의 버퍼내의 이전 프레임에 소급적으로 적용하는 단계를 더 포함하는, 음성 신호 검출 방법.
  14. 제 3 항에 있어서,
    상기 음성 활동도 검출 메커니즘은 상기 음성 활동도 검출 기능부(130)에 동작 가능하게 결합되고, 버퍼 내의 상기 입력 신호의 버퍼링 동작에 기초하여 그리고 상기 에너지 가속 측정들 중 하나 이상에 따라, 상기 입력 신호가 음성인지를 결정하도록 구성된 음성 활동도 결정 기능부(135)를 포함하고, 상기 음성 활동도 결정 기능부(135)는 버퍼 내의 상기 입력 신호의 입력 프레임들을 버퍼링하도록 구성되고, 상기 음성 활동도 결정 기능부(135)는 또한 상기 버퍼 내의 상기 버퍼링된 입력 프레임들 각각에 참(true) 또는 거짓(false) 표시를 할당하도록 구성되고, 참 표시는 입력 프레임에 대한 상기 에너지 가속 측정들의 하나 이상 중 어느 하나가 음성 표시를 복귀시킬 때 할당되고, 상기 음성 활동도 결정 기능부(135)는 또한 상기 버퍼 내의 상기 버퍼링된 입력 프레임들의 각각에 할당된 상기 참 또는 거짓 표시들에 기초하여 상기 버퍼 내의 상기 입력 신호가 음성인지를 판정하도록 구성되는, 통신 유닛.
  15. 제 5 항에 있어서,
    프레임 평균을 이용하는 상기 에너지 가속의 추정은
    Figure 112009066269417-PAT00009
    인, 통신 유닛.
  16. 제 9 항에 있어서,
    상기 판정 단계는,
    버퍼 내의 상기 입력 신호의 입력 프레임들을 버퍼링하는 단계;
    상기 버퍼 내의 상기 버퍼링된 입력 프레임들의 각각에 참 또는 거짓 표시를 할당하는 단계로서, 참 표시는 입력 프레임에 대한 에너지 가속 측정이 음성 표시를 복귀시킬 때 할당되는, 상기 참 또는 거짓 표시 할당 단계; 및
    상기 버퍼 내의 상기 버퍼링된 입력 프레임들의 각각에 할당된 상기 참 또는 거짓 표시들에 기초하여, 상기 버퍼내의 상기 입력 신호가 음성인지를 판정하는 단계를 더 포함하는, 음성 신호 검출 방법.
  17. 제 12 항에 있어서,
    상기 에너지 가속을 측정하는 단계는, 프레임 평균을 이용하여
    Figure 112009066269417-PAT00010
    를 계산함으로써 상기 에너지 가속을 추정하는 단계를 포함하는, 음성 신호 검출 방법.
  18. 제 1 항 내지 제 4 항 중 어느 한 항에 있어서,
    상기 에너지 가속은 (0*mean + 1*input) 및 ((Frame-1)*mean + 1*input)/Frame을 각각 사용하여 상기 입력 신호들의 두 개의 롤링 평균들의 비를 추적함(tracking)으로써 추정되고, 여기서 Frame은 프레임 카운터의 값을 나타내 는, 통신 유닛.
  19. 제 5 항에 있어서,
    상기 에너지 가속 측정이 하나 이상의 특정된 마진(margin)들 내에 있을 때, 롤링 평균을 사용하는 상기 에너지 가속의 추정은
    Figure 112009066269417-PAT00011
    인, 통신 유닛.
  20. 제 9 항 내지 제 11 항 중 어느 한 항에 있어서,
    상기 에너지 가속은 (0*mean + 1*input) 및 ((Frame-1)*mean + 1*input)/Frame을 각각 사용하여 상기 입력 신호들의 두 개의 롤링 평균들의 비를 추적함으로써 추정되고, 여기서 Frame은 프레임 카운터의 값을 나타내는, 음성 신호 검출 방법.
  21. 제 12 항에 있어서,
    상기 에너지 가속을 측정하는 단계는, 상기 에너지 가속 측정이 하나 이상의 특정된 마진들 내에 있을 때, 롤링 평균을 사용하여
    Figure 112009066269417-PAT00012
    를 계산함으로써 상기 에너지 가속을 추정하는 단계를 포함하는, 음성 신호 검출 방법.
KR1020097022615A 2002-01-24 2003-01-10 잡음 환경들에 대한 음성 활동도 검출기 및 검증기 Expired - Lifetime KR100976082B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
GB0201585.7 2002-01-24
GB0201585A GB2384670B (en) 2002-01-24 2002-01-24 Voice activity detector and validator for noisy environments

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
KR10-2004-7011459A Division KR20040075959A (ko) 2002-01-24 2003-01-10 잡음 환경들에 대한 음성 활동도 검출기 및 밸리데이터

Publications (2)

Publication Number Publication Date
KR20090127182A true KR20090127182A (ko) 2009-12-09
KR100976082B1 KR100976082B1 (ko) 2010-08-16

Family

ID=9929648

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020097022615A Expired - Lifetime KR100976082B1 (ko) 2002-01-24 2003-01-10 잡음 환경들에 대한 음성 활동도 검출기 및 검증기
KR10-2004-7011459A Ceased KR20040075959A (ko) 2002-01-24 2003-01-10 잡음 환경들에 대한 음성 활동도 검출기 및 밸리데이터

Family Applications After (1)

Application Number Title Priority Date Filing Date
KR10-2004-7011459A Ceased KR20040075959A (ko) 2002-01-24 2003-01-10 잡음 환경들에 대한 음성 활동도 검출기 및 밸리데이터

Country Status (6)

Country Link
JP (2) JP2005516247A (ko)
KR (2) KR100976082B1 (ko)
CN (1) CN1307613C (ko)
FI (1) FI124869B (ko)
GB (1) GB2384670B (ko)
WO (1) WO2003063138A1 (ko)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100657912B1 (ko) * 2004-11-18 2006-12-14 삼성전자주식회사 잡음 제거 방법 및 장치
CN100543841C (zh) * 2005-10-21 2009-09-23 神基科技股份有限公司 音源处理电路结构及其处理方法
JP4758879B2 (ja) * 2006-12-14 2011-08-31 日本電信電話株式会社 仮音声区間決定装置、方法、プログラム及びその記録媒体、音声区間決定装置、方法
GB2450886B (en) 2007-07-10 2009-12-16 Motorola Inc Voice activity detector and a method of operation
US8407044B2 (en) 2008-10-30 2013-03-26 Telefonaktiebolaget Lm Ericsson (Publ) Telephony content signal discrimination
CN102044241B (zh) * 2009-10-15 2012-04-04 华为技术有限公司 一种实现通信系统中背景噪声的跟踪的方法和装置
EP2561508A1 (en) * 2010-04-22 2013-02-27 Qualcomm Incorporated Voice activity detection
US8898058B2 (en) 2010-10-25 2014-11-25 Qualcomm Incorporated Systems, methods, and apparatus for voice activity detection
KR101196518B1 (ko) 2011-04-05 2012-11-01 한국과학기술연구원 실시간 음성 활동 검출 장치 및 검출 방법
RU2544293C1 (ru) * 2013-10-11 2015-03-20 Сергей Александрович Косарев Способ измерения физической величины с помощью мобильного электронного устройства и внешнего блока
US9953661B2 (en) * 2014-09-26 2018-04-24 Cirrus Logic Inc. Neural network voice activity detection employing running range normalization
CN104575498B (zh) * 2015-01-30 2018-08-17 深圳市云之讯网络技术有限公司 有效语音识别方法及系统
JP2016167678A (ja) * 2015-03-09 2016-09-15 株式会社リコー 通信装置、通信システム、ログデータ蓄積方法、及びプログラム
CN109841223B (zh) * 2019-03-06 2020-11-24 深圳大学 一种音频信号处理方法、智能终端及存储介质
US11217262B2 (en) * 2019-11-18 2022-01-04 Google Llc Adaptive energy limiting for transient noise suppression
CN112820324B (zh) * 2020-12-31 2024-06-25 平安科技(深圳)有限公司 多标签语音活动检测方法、装置及存储介质
KR102453919B1 (ko) 2022-05-09 2022-10-12 (주)피플리 인공지능 기반 문화 콘텐츠 관련 가이드 음원의 검증 방법, 장치 및 시스템

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IT1209561B (it) * 1983-07-14 1989-08-30 Gte Laboratories Inc Rivelazione complementare della parola.
JP2559475B2 (ja) * 1988-09-22 1996-12-04 積水化学工業株式会社 音声検出方式
JPH03114100A (ja) * 1989-09-28 1991-05-15 Matsushita Electric Ind Co Ltd 音声区間検出装置
JP3024447B2 (ja) * 1993-07-13 2000-03-21 日本電気株式会社 音声圧縮装置
JP3109978B2 (ja) * 1995-04-28 2000-11-20 松下電器産業株式会社 音声区間検出装置
US5774849A (en) 1996-01-22 1998-06-30 Rockwell International Corporation Method and apparatus for generating frame voicing decisions of an incoming speech signal
JPH10171497A (ja) * 1996-12-12 1998-06-26 Oki Electric Ind Co Ltd 背景雑音除去装置
US5946649A (en) * 1997-04-16 1999-08-31 Technology Research Association Of Medical Welfare Apparatus Esophageal speech injection noise detection and rejection
JP3297346B2 (ja) * 1997-04-30 2002-07-02 沖電気工業株式会社 音声検出装置
JPH10327089A (ja) * 1997-05-23 1998-12-08 Matsushita Electric Ind Co Ltd 携帯電話装置
JPH113091A (ja) * 1997-06-13 1999-01-06 Matsushita Electric Ind Co Ltd 音声信号の立ち上がり検出装置
US6032116A (en) * 1997-06-27 2000-02-29 Advanced Micro Devices, Inc. Distance measure in a speech recognition system for speech recognition using frequency shifting factors to compensate for input signal frequency shifts
FR2768544B1 (fr) * 1997-09-18 1999-11-19 Matra Communication Procede de detection d'activite vocale
JP4221537B2 (ja) * 2000-06-02 2009-02-12 日本電気株式会社 音声検出方法及び装置とその記録媒体

Also Published As

Publication number Publication date
CN1623186A (zh) 2005-06-01
GB2384670A (en) 2003-07-30
KR100976082B1 (ko) 2010-08-16
KR20040075959A (ko) 2004-08-30
CN1307613C (zh) 2007-03-28
FI124869B (fi) 2015-02-27
JP2005516247A (ja) 2005-06-02
GB2384670B (en) 2004-02-18
WO2003063138A1 (en) 2003-07-31
GB0201585D0 (en) 2002-03-13
FI20041013L (fi) 2004-09-22
JP2010061151A (ja) 2010-03-18

Similar Documents

Publication Publication Date Title
KR100976082B1 (ko) 잡음 환경들에 대한 음성 활동도 검출기 및 검증기
KR100944252B1 (ko) 오디오 신호 내에서 음성활동 탐지
US11270707B2 (en) Analysing speech signals
US9524735B2 (en) Threshold adaptation in two-channel noise estimation and voice activity detection
US7171357B2 (en) Voice-activity detection using energy ratios and periodicity
US6993481B2 (en) Detection of speech activity using feature model adaptation
US8194882B2 (en) System and method for providing single microphone noise suppression fallback
JP3878482B2 (ja) 音声検出装置および音声検出方法
EP0548054B1 (en) Voice activity detector
US6807525B1 (en) SID frame detection with human auditory perception compensation
US10115399B2 (en) Audio classifier that includes analog signal voice activity detection and digital signal voice activity detection
CN100490314C (zh) 语音通信的声频信号处理装置和方法
CN1985304B (zh) 用于增强型人工带宽扩展的系统和方法
JP2012506073A (ja) オーディオ信号における雑音推定の方法および装置
US8924199B2 (en) Voice correction device, voice correction method, and recording medium storing voice correction program
US20120265526A1 (en) Apparatus and method for voice activity detection
US20110254688A1 (en) User state recognition in a wireless communication system
US8788265B2 (en) System and method for babble noise detection
JP4601970B2 (ja) 有音無音判定装置および有音無音判定方法
US6539350B1 (en) Method and circuit arrangement for speech level measurement in a speech signal processing system
US6633847B1 (en) Voice activated circuit and radio using same
EP3125244B1 (en) Audio classifier
KR101336203B1 (ko) 전자기기에서 음성 검출 방법 및 장치
US20220068270A1 (en) Speech section detection method
KR100881355B1 (ko) 다중 누화 잡음 검출 시스템 및 방법

Legal Events

Date Code Title Description
A107 Divisional application of patent
PA0104 Divisional application for international application

Comment text: Divisional Application for International Patent

Patent event code: PA01041R01D

Patent event date: 20091028

A201 Request for examination
PA0201 Request for examination

Patent event code: PA02012R01D

Patent event date: 20091127

Comment text: Request for Examination of Application

E902 Notification of reason for refusal
PE0902 Notice of grounds for rejection

Comment text: Notification of reason for refusal

Patent event date: 20091204

Patent event code: PE09021S01D

PG1501 Laying open of application
E701 Decision to grant or registration of patent right
PE0701 Decision of registration

Patent event code: PE07011S01D

Comment text: Decision to Grant Registration

Patent event date: 20100630

GRNT Written decision to grant
PR0701 Registration of establishment

Comment text: Registration of Establishment

Patent event date: 20100810

Patent event code: PR07011E01D

PR1002 Payment of registration fee

Payment date: 20100811

End annual number: 3

Start annual number: 1

PG1601 Publication of registration
FPAY Annual fee payment

Payment date: 20130729

Year of fee payment: 4

PR1001 Payment of annual fee

Payment date: 20130729

Start annual number: 4

End annual number: 4

FPAY Annual fee payment

Payment date: 20140730

Year of fee payment: 5

PR1001 Payment of annual fee

Payment date: 20140730

Start annual number: 5

End annual number: 5

FPAY Annual fee payment

Payment date: 20150724

Year of fee payment: 6

PR1001 Payment of annual fee

Payment date: 20150724

Start annual number: 6

End annual number: 6

FPAY Annual fee payment

Payment date: 20160726

Year of fee payment: 7

PR1001 Payment of annual fee

Payment date: 20160726

Start annual number: 7

End annual number: 7

FPAY Annual fee payment

Payment date: 20170728

Year of fee payment: 8

PR1001 Payment of annual fee

Payment date: 20170728

Start annual number: 8

End annual number: 8

PR1001 Payment of annual fee

Payment date: 20200730

Start annual number: 11

End annual number: 11

PR1001 Payment of annual fee

Payment date: 20220727

Start annual number: 13

End annual number: 13

PC1801 Expiration of term

Termination date: 20230710

Termination category: Expiration of duration