[go: up one dir, main page]

KR100827153B1 - 음성 신호의 유성음화 비율 검출 장치 및 방법 - Google Patents

음성 신호의 유성음화 비율 검출 장치 및 방법 Download PDF

Info

Publication number
KR100827153B1
KR100827153B1 KR1020060034722A KR20060034722A KR100827153B1 KR 100827153 B1 KR100827153 B1 KR 100827153B1 KR 1020060034722 A KR1020060034722 A KR 1020060034722A KR 20060034722 A KR20060034722 A KR 20060034722A KR 100827153 B1 KR100827153 B1 KR 100827153B1
Authority
KR
South Korea
Prior art keywords
peak
peaks
harmonic
detecting
ratio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
KR1020060034722A
Other languages
English (en)
Other versions
KR20070102904A (ko
Inventor
김현수
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020060034722A priority Critical patent/KR100827153B1/ko
Priority to US11/732,656 priority patent/US7835905B2/en
Publication of KR20070102904A publication Critical patent/KR20070102904A/ko
Application granted granted Critical
Publication of KR100827153B1 publication Critical patent/KR100827153B1/ko
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

본 발명은 음성 신호의 유성음화 비율을 검출하기 위해, 입력되는 음성 신호를 주파수 도메인으로 변환하고, 상기 음성 신호로부터 피치값을 계산하여 결정하고, 상기 음성 신호에 존재하는 다수의 하모닉 피크를 검출하여, 상기 검출된 하모닉 피크 중 서로 이웃하는 하모닉 피크의 간격과 상기 피치값을 비교하여 그 차이 값을, 음성 신호에 포함된 유성음 비율을 나타내는 유성음화 비율로 검출함을 특징으로 한다.
Figure R1020060034722
유성음화 비율, 하모닉 피크, 피치

Description

음성 신호의 유성음화 비율 검출 장치 및 방법{METHOD AND APPARATUS FOR EXTRACTING DEGREE OF VOICING IN AUDIO SIGNAL}
도 1은 본 발명의 일 실시예에 따른 음성 신호의 유성음화 비율 검출 장치의 구성을 나타낸 도면,
도 2는 본 발명의 일 실시예에 따른 하이 오더 피크를 나타낸 도면,
도 3은 본 발명의 일 실시예에 따른 하모닉 피크 검색 범위를 도시한 도면,
도 4는 본 발명의 일 실시에에 따른 모폴로지 연산 수행 과정을 나타낸 도면.
도 5는 본 발명의 실시예에 따른 음성 신호의 유성음화 비율 검출의 대략적인 과정을 나타낸 도면,
도 6은 본 발명의 제1실시예에 따른 음성 신호의 유성음화 비율 검출 과정을 나타낸 도면,
도 7은 본 발명의 제2실시예에 따른 음성 신호의 유성음화 비율 검출 과정을 나타낸 도면,
도 8은 본 발명의 제3실시예에 따른 음성 신호의 유성음화 비율 검출 과정을 나타낸 도면.
본 발명은 음성 신호 처리에 관한 것으로, 특히 음성 신호에서 유성음화 비율을 검출하는 장치 및 방법에 관한 것이다.
음성 코딩(Phonetic coding)시 사용되는 음성 신호의 유성음과 무성음의 분리는 방식은 음성 분절(phonetic segmentation)을 위해, 여섯 개의 카테고리(onset, full-band steady-state voiced, full-band transient voiced, low-pass transient voiced, low-pass steady-state voiced and unvoiced)로 나눌수 있다. 유, 무성음 분리를 위해 사용하는 특징으로는 저주파수 스피치 에너지(Low-band speech energy), 영점 교차 계수(Zero-crossing count), 제1반사 계수(First reflection coefficient), 특정 에너지 비율(Pre-emphasized Energy ratio), 제2반가 계수(Second reflection coefficient), 인과적 피치 예측 이득(Casual pitch prediction gains), 비인과적 피치 예측 이득(Non-causal pitch prediction gains)이 있으며, 선형 판별기(linear discriminator)에서 조합하여 사용하고 있다. 이와 같이 유,무성음의 분리 및 특징 추출을 위해 사용되는 특징들은 많이 존재하지만, 각각 하나의 특징으로 유,무성음을 분리하기에는 정보가 부족하기 때문에, 여러 개의 특징의 조합으로 유, 무성음을 분리해내고 있다. 때문에, 여러 개의 특징들을 어떻게 조합하여 사용하는가에 따라 유,무성음 분리 정도에 중요한 영향을 미치게 된다.
그런데 각 특징들의 상관관계를 가지기 때문에, 특징들의 조합시 이를 고려해야하며, 잡음에서의 심각한 성능 저하 문제를 유발한다. 또한, 유성음과 무성음의 본질적인 차이점인 하모닉 성분의 유무와 하모닉 정도의 차이를 제대로 표현하지 못하고 있으며, 실질적으로 이러한 하모닉 성분에 대한 분석으로 정확하게 유, 무성음의 분리을 수행할 수 있는 특징 추출법의 개발이 요구되고 있다.
유성음화 비율의 추정을 정확하게 하려면, 음성 신호에 포함된 유성음에 대한 감도, 피치 의 높고 낮음, 피치의 부드러운 변화 유무, 피치 주기의 무작위성 존재 여부 등에 대한 둔감도(insensitivity), 스펙트럼 포락선(envelope)에 대한 둔감도(insensitivity), 특정적인(subjective) 성능 등을 고려해야한다.
본 발명은 위와 같은 조건에 맞으면서도, 여러 개의 신뢰할 수 없는 특징들의 조합 없이, 단일한 특징으로 유, 무성음의 특징을 찾아내어 분리가 가능하도록 하는 유성음화 비율 검출 방법 및 장치를 제공하는 것이다.
특히 종래의 특징들이 유, 무성음의 본질적인 차이점인 하모닉 성분에 대한 정보와 분석이 없었던 것에 비해, 본 발명은 하모닉 피크와, 하모닉 피크를 제외한 나머지 피크, 즉, 비 하모닉 피크의 포락선 비율 분석을 이용한 유, 무성음 분리 정보 추출 방법은 하모닉 성분 분석에 근거한 정확하고 실용적인 특징 추출법을 제시함으로써 모든 음성, 오디오 신호를 사용하는 시스템에서 가장 중요하고 성능에 큰 영향을 미치는 정보인 유성음 정보를 검출할 수 있는 유성음화 비율 검출 방법 및 장치를 제공하는 것이다.
상기의 목적을 달성하기 위한 본 발명은, 음성 신호의 유성음화 비율 검출 방법에 있어서, 입력되는 음성 신호를 주파수 도메인으로 변환하는 과정과, 상기 음성 신호로부터 피치값을 계산하여 결정하는 과정과, 상기 음성 신호에 존재하는 다수의 하모닉 피크를 검출하는 과정과, 상기 검출된 하모닉 피크 중 서로 이웃하는 하모닉 피크의 간격과 상기 피치값을 비교하여 그 차이 값을, 음성 신호에 포함된 유성음 비율을 나타내는 유성음화 비율로 검출하는 과정를 포함함을 특징으로 한다.
그리고 본 발명은, 음성 신호의 유성음화 비율 검출 장치에 있어서, 입력되는 음성 신호를 주파수 도메인으로 변환하는 주파수 도메인 변환부와, 상기 음성 신호로부터 피치값을 계산하여 결정하는 피치 계산부와, 상기 음성 신호에 존재하는 다수의 하모닉 피크를 검출하는 하모닉 피크 결정부와, 상기 검출된 하모닉 피크 중 서로 이웃하는 하모닉 피크의 간격과 상기 피치값을 비교하여 그 차이 값을, 음성 신호에 포함된 유성음 비율을 나타내는 유성음화 비율로 검출하는 유성음화 비율 검출부를 포함함을 특징으로 한다.
이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 일실시예를 상세히 설명한다. 도면에서 동일한 구성요소들에 대해서는 비록 다른 도면에 표시되더라도 가능한 한 동일한 참조번호 및 부호로 나타내고 있음에 유의해야 한다. 또한, 본 발명을 설명함에 있어서, 관련된 공지기능 혹은 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명은 생략한다.
본 발명은 음성 신호의 유성음화 비율(degree of voicing)을 검출하는 방법 및 장치에 관한 것이다. 이는 종래의 단순한 유성음, 무성음 분리를 위한 특징만이 아니라, 음성 신호의 본질적인 특성인 유성음과 무성음의 성분이 일정하게 포함되어 있는 정도를 알아내는 것으로써, 음성 신호 분석의 매우 중요한 특징 추출이 된다.
유성음 중에는 음성 처리 시스템에 의해 더 많은 파워가 나와서 유성음이 음성 에너지의 대부분을 차지하게 되므로, 음성 신호에서 유성음이 포함된 부분의 왜곡은 코드화된 스피치(coded speech)의 전체적인 음질에 아주 큰 영향을 미치게 된다.
이러한 유성음 스피치(Voiced speech)에서는 glottal excitation과 vocal tract간의 상호 작용이 스펙트럼의 추정에 많은 어려움을 가져오게 되므로, 대부분의 시스템에서는 유성음화 정도의 측정 정보가 필수적으로 필요하다. 따라서 많은 응용에서 실질적인 유성음화 비율degree of voicing measure)을 검출하는 것이 매우 필요한 것이다. 예를 들어, 사인형의 스피치 코딩(sinusoidal speech coding)에서는 유성음화 비율은 디코더에서 엑사이텐션(excitation)을 구성시 사용된다. 또한 유성음화 비율은 음성 인식에도 유용하게 사용된다.
본 발명은 상기와 같은 유성음화 비율을 측정하는 것에 관한 것으로, 음성 신호의 스펙트럼 또는 시간축 신호에서 주기성(periodicity)으로부터의 일탈(deviation) 정도를 측정하여, 유성음화 비율을 측정한다.
주기성 정도의 측정에는 많은 방법이 있을 수 있으나, 본 발명의 일 실시예에서는 음성 신호의 스펙트럼에 기반한 분석법을 사용한다. 강한 보이싱을 가진 음성 신호의 변화하는 진폭을 가지는 스펙트럼은 일정한 간격의 하모닉 피크들의 세트로 이루어져 지는데, 본 발명은 유성음화 비율에 따라 이러한 구조로부터의 일탈이 발생하는 것을 이용하여 유성음화 비율을 검출하는 것이다.
상기한 본 발명에 따른 유성음화 비율 검출 장치의 일예를 도1에 도시하였다. 도1은 본 발명의 일 실시예에 따른 음성 신호의 유성음화 비율 검출 장치의 구성을 나타낸 도면이다. 도1을 참조하여, 본 발명의 일 실시예에 따른 유성음화 비율 검출 장치는 음성 신호 입력부(10), 주파수 도메인 변환부(20), 피치 계산부(30), 하모닉 피크 검출부(40), 하이 오더 피크 검출부(50), 모몰로지 분섯부(60), 유성음화 비율 검출부(70), 음성 처리부(80)를 포함하여 이루어진다.
음성 신호 입력부(10)는 마이크(MIC:Microphone) 등으로 구성될 수 있으며 음성 신호를 입력받아 주파수 도메인 변환부(20)로 출력한다. 주파수 도메인 변환부(20)는 입력된 음성 신호를 FFT(Fast Fourier Transform) 등을 이용하여 시간 도메인 상의 음성 신호를 주파수 도메인 상의 음성 신호로 변환하여 피치 계산부(30), 하모닉 피크 검출부(40), 하이 오더 피크 검출부(50), 모폴로지 분석부(60)로 출력한다. 이때, 주파수 도메인 변환부(20)는 주파수 도메인 상의 음성 신호의 STFT(Short-Time Fourier Transform) 절대값을 추출하여 출력한다.
하이오더피크 검출부(50)는 입력되는 주파수 도메인 상의 음성 신호의 일정 구간에 존재하는 피크들을 검출하고, 검출할 피크 차수를 결정하고, 결정된 피크 차수에 해당하는 하이 오더 피크를 하모닉 피크로 결정하여 유성음화 비율 검출부(70)로 출력한다. 하이오더 피크 검출부(50)는 음성 신호에서 하모닉 피크를 검출해야하기 때문에 최소 2차 이상의 차수를 검출할 피크의 차수로 결정한다.
본 발명에서 상기 하이 오더 피크란 일반적인 개념의 피크를 1차 오더 피크라고 했을 때, 1차 오더 피크로 구성된 신호에서 찾아낸 새로운 피크들을 의미하는 것이다. 즉, 1차 오더 피크들의 피크를 2차 오더 피크라고 정의하고, 마찬가지로 3차 오더 피크는 2차 오더 피크로 이루어진 신호들의 피크인 것이다. 이러한 개념으로 하이 오더 피크를 정의하게 된다. 따라서 2차 오더 피크를 찾기 위해서는 단순히 1차 오더 피크들을 새로운 타임 시리즈(time series)로 보고 그 타임 시리즈들의 피크를 찾아내면 되는 것이다. 이를 도2에 도시하였다. 도2는 본 발명에 따른 하이 오더 피크를 나타낸 도면이다. 도4의 (a)는 1차 오더 피크에 대한 도면이다. 하모닉 피크 검출부(30)가 실제 검색 구간에서 검출하는 최초 피크들은 도5의 (a)에 도시된 바와 같이 1차 오더 피크 P1이다. 그리고 도5의 (b)에 도시된 바와 같이 각 1차 오더 피크 P1들을 연결했을 때 피크가 되는 피크를 도5의 (c)에 도시된 바와 같이 2차 오더 피크 P2로 정의한다. 본 발명에서 하모닉 피크 검출부(30)가 하모닉 피크로 선택하는 피크들은 이러한 2차 오더 피크 이상의 피크들이다. 도5에서는 2차 오더 피크까지만 정의하는 경우를 도시하였지만, 2차 오더 피크 사이의 피크가 3차 오더 피크로 정의될 수 있으며, 이러한 원리에 따라 임의의 N(N은 자연 수)차 오더 피크까지 정의 가능하다.
이러한 하이 오더 피크들은 음성, 오디오 신호의 특징 추출에서 매우 효과적인 통계값을 보이게 된다. 본 발명에서 제시하는 하이 오더 피크의 특성으로는 낮은 차수의 피크들 보다 평균적으로 높은 레벨(level)을 가지고, 차수가 높을 수 록 적은 횟수로 나타나게 된다. 예를 들어, 2차 오더 피크는 1차 오더 피크 보다 개수가 적다. 각 차수 피크들의 출현 비율은 음성, 오디오 신호 특징 추출에 매우 유용하게 쓰일 수 있는데, 특히 2차 오더 피크와 3차 오더 피크들은 피치 추출 정보를 가지고 있게 된다. 또한 2차 오더 피크와 3차 오더 피크들 사이의 시간이나 샘플링 포인트(sampling point) 개수가 음성, 오디오 신호 특징 추출에 대한 많은 정보를 가지고 있다.
상기한 하이 오더 피크들은 다음과 같은 법칙을 가진다.
1. 연속적인 피크(밸리(valley))들 사이에는 단하나의 밸리(피크)만이 존재할 수 있다.
2. 상기 법칙 1은 각 차수의 피크(밸리)에 적용된다.
3. 하이 오더 피크(밸리)는 더 낮은 차수의 피크(밸리) 보다는 적게 존재하며, 하이 오더 피크(밸리)는 더 낮은 차수의 피크(밸리)의 사이(subset)에 존재한다.
4. 어떠한 두개의 연속적인 하이 오더 피크(밸리)사이에도 항상 하나 이상의 더 낮은 차수의 피크(밸리)가 존재한다.
5. 하이 오더 피크(밸리)는 더 낮은 차수의 피크(밸리) 보다는 평균적으로 더 높은(낮은) 레벨(level)을 가진다.
6. 특정 기간의 신호 동안(예컨대 한 프레임 동안), 단 하나의 피크와 밸 리가 존재하는(예컨대 한 프레임 내의 최대, 최소값) 오더가 존재한다.
이러한 하이 오더 피크 또는 밸리들은 음성, 오디오 신호의 특징 추출에서 매우 효과적인 통계값으로 이용될 수 있으며, 특히 각 오더 피크들 중 2차 오더 피크들과 3차 오더 피크들은 음성, 오디오 신호의 피치(pitch) 정보를 가지고 있다. 또한 2차 오더 피크와 3차 오더 피크들 사이의 시간이나 샘플링 포인트 개수가 음성, 신호 특징 추출에 대한 많은 정보를 가지고 있다.
도1로 돌아가서, 피치 계산부(30)는 입력되는 주파수 도메인 상의 음성 신호를 이용하여 피치값을 계산하여 결정하여, 하모닉 피크 검출부(40)와 유성음화 비율 검출부(70)로 출력한다.
하모닉 피크 검출부(30)는 입력되는 피치값을 이용하여 피크 검색 범위를 결정하고, 음성 신호의 실질적인 피크 검색 범위를 설정하고, 설정된 피크 검색 범위 상에 존재하는 다수의 피크들과 각 피크에 대응하는 스펙트럼 값을 검출하며, 검출된 다수의 피크 값들 중에서 가장 큰 스펙트럼을 가지는 피크를 하모닉 피크로 결정한다. 피크 검색 범위에 존재하는 피크를 검출하는 방식은 종래의 여러 방식이 사용될 수 있다. 예를 들어, 임의의 한 점을 기준으로 앞, 뒤 값을 비교했을 때 증가하고, 감소하거나, 임의의 한 점을 기준으로 앞, 뒤 값 간의 기울기가 +에서 -로 바뀐 다면 임의의 한 점은 피크인 것이다.
상기 피크 검색 범위는 상기 피치 계산부(30)에서 입력된 피치값을 이용하여 피크 검색 범위를 결정된다. 상기 피크 검색 범위는 음성 신호 중 하모닉 피크가 존재할 것으로 예상되는 구간으로서, 도3에 도시하였다. 도3은 본 발명의 일 실시예에 따른 하모닉 피크 검색 범위를 도시한 도면이다. 본 발명의 실시예에 따라 도3에 도시된 바와 같이, 피크 검색 범위는 전체 구간과, 시프팅 구간a와, 전체 구간에서 시프팅 구간a를 제외한 구간인 실제 검색 구간b로 구성된다. 상기 시프팅 구간a는 음성 신호상에서 하모닉 피크 검출부(40)에 의한 피크 검출이 이루어지지 않는 구간이고, 상기 실제 검색 구간b는 음성 신호상에서 하모닉 피크 검출부(40)에 의해 실질적으로 피크들이 검출되는 구간이며, 상기 전체 구간과 시프팅 구간a는 음성 신호의 상태에 따라 유동적으로 설정될 수 있다. 때문에, 상기 실제 검색 구간이 적게 설정될수록 하모닉 피크 검출부(30)의 연산량이 감소될 수 있다.
하모닉 피크 검출부(30)는 입력되는 음성 신호에서 최초 하모닉 피크를 검출할 시에는 음성 신호 시작 지점부터 피크 검색 범위를 설정할 수 있고, 그 이외에는 가장 최근에 검출된 하모닉 피크를 시작점으로 하여 피크 검색 범위를 계속 설정하여, 음성 신호의 밴드 대역폭 끝까지 하모닉 피크를 검출해 낸다. 하모닉 피크 검출부(30)는 하모닉 피크로 결정된 피크를 유성음화 비율 검출부(70)로 출력한다.
모폴로지 분석부(60)는 모폴로지 필터(61) 및 SSS 결정부(62)를 구비하며, 입력된 음성 신호 프레임을 모폴로지 연산을 통해 모폴로지 분석에 따른 신호 파형을 생성한다. 여기서 상기 모폴로지 필터(61)는 모폴로지 클로징(morphological closing)으로 하모닉 피크를 선택하는 동작을 수행한다. 이러한 모폴로지 클로징 수행 후에는 도 4(a)에 도시된 바와 같은 파형이 출력된다. 도 4(a)에 도시된 바와 같은 파형을 전처리(pre-processing)하게 되면, 도 4(b)에 도시된 바와 같이 나머지(remainder or residual) 스펙트럼 형태의 파형이 출력되게 된다. 여기서, 나머지 스펙트럼이란 도 4(a) 상의 점선 형태의 경계층(closure floor) 위에 존재하는 신호들을 의미하며, 전처리 후에는 도 4(b)에 도시된 바와 같이 특징 주파수 영역들만 남게된다. 즉, 전처리 후에는모폴로지 클로징 후 출력되는 신호에서 나선계단(staircase) 신호를 빼고 남은 신호가 도 4(b)에 도시된 바와 같은 신호가 되는 것이다. 이러한 전처리 과정을 통해 유성음에서는 하모닉 콘텐츠(content)를 강조하고, 무성음에서는 주요 사인꼴 구성요소(sinusoidal component)를 강조하게 되는 것이다.
이때, 모폴로지 필터(61)의 성능을 최적화하기 위해서는 얼마만큼의 윈도우 크기 단위로 모폴로지 연산을 수행할 것인지를 결정하는 것이 필요하다. 즉, 최적 윈도우 크기 단위에 기반한 모폴로지 연산이 수행되어야 하는 것이다. 이를 위해 본 발명에서는 SSS(structuring set size) 결정부(62)를 모폴로지 분석부(60)에 포함한다. 이 SSS 결정부(62)는 모폴로지 필터(61)의 성능을 최적화하는 SSS를 결정하여 이를 모폴로지필터(61)에 제공한다. 이러한 SSS 결정 과정은 필요에 따라 선택적으로 이용 가능한 과정으로, 디폴트로 정해질 수도 있으며 하기와 같은 방식에 의해 정해질 수도 있다.
SSS 결정 과정을 설명하면 다음과 같다. 먼저, 하모닉 피크가 가장 큰 신호의 개수 즉, 최대 하모닉 피크의 개수를 N이라고 할 경우 즉, 도 4(b)에서 빗금친 부분에 해당하는 N개의 피크들을 정의할 경우, 이 N개의 선택된 피크를 이용하여 P 값을 산출한다. 이 P는 전체 나머지(remainder) 스펙트럼의 에너지 비율과 N개의 피크들에 대한 에너지 비율을 나타낸다. 예를 들어, 도 4(b)에서는 N=5이며, 빗금친 영역부분을 모두 더한 값이 N개의 피크들에 대한 에너지인 EN 이라고 하며, 전체 나머지 스펙트럼의 에너지를 Etotal 이라고 할 경우, P는 EN / Etotal이다. 이 때, 신호에 대한 어떠한 가정도 하지 않는 상태에서, P값과 SSS와의 비교 과정을 통해 P값이 너무 클 경우(예컨대, SSS < 0.5인 경우) N을 줄이고, P값이 너무 작으면(예컨대, SSS > 0. 5인 경우) N값을 크게 한다. 이에 따라 여성 화자일 경우에는 피치가 높아 전체 하모닉 수가 더 적으므로 남성 화자보다 더 작은 N이 선택된다. 상기한 바와 같은 과정을 통해 주파수 도메인 상의 음성 신호로 변환된 파형에 대해 모폴로지 클로징을 수행하는 모폴로지 필터(61)의 최적의SSS(Optimum Structuring Set Size)가 결정되게 된다. 만일 N을 조절하여 SSS를 선택하는 방법을 이용하지 않을 경우에는 가장 작은 SSS부터 시작하여 단계적으로 SSS를 크게하여 해당 SSS를 이용할 수도 있다.
한편, 모폴로지 연산은 구성 요소(structuring element)를 어떤 특정 값으로 맞추는데(fitting) 의존하는 고정-이론적인(set-theoretical) 접근 방법이므로, 음성 신호 파형과 같은 1차원 이미지 구성 요소는 이산적인(discrete) 값들의 집합으로 표현된다. 여기서 구성 요소 집합 구간(structuring set)은 원점에 대칭적인 슬라이딩 윈도우(sliding window)에 의해 결정되며, 슬라이딩 윈도우 크기는 모폴로지 연산의 성능을 결정하게 된다.
본 발명의 실시 예에 따르면 윈도우크기는 하기 수학식 1과 같다.
윈도우 크기= (structuring set size(SSS) * 2 + 1)
상기 수학식 1과 같이 윈도우 크기는SSS(structuring set size)에 의해 좌우된다. 따라서 구성 요소 집합 크기를 조절하여 모폴로지 연산의 성능을 조절할 수 있다. 따라서 모폴로지 필터(61)는 상기 SSS 결정부(62)에 의해 결정된 구성 요소 집합 크기에 따른 슬라이딩 윈도우를 이용하여 팽창 또는 침식 연산 그리고 오프닝 또는 클로징 등의 모폴로지 연산을 수행할 수 있게 된다.
이에 따라 모폴로지 필터(61)는 SSS 결정부(62)에 의해 결정된 SSS를 이용하여 주파수 도메인 상의 음성 신호 파형에 대해 모폴로지 연산을 수행한다. 즉, 모폴로지 필터(61)는 변환된 음성 신호 파형에 대해 모폴로지 클로징을 수행한 후, 전처리(pre-processing)를 수행한다.
한편, 모폴로지 필터(Morphological filter)의 신호 형태(transform)는 전송된 신호의 기하학적 특징들을 부분적으로 변형하는 비선형적 방법이며, 상기한 네 가지 동작들에 따라 수축(contraction), 확장(expansion), 스무딩(smoothing), (opening), 충전(filling)하는 효과를 가진다. 이러한 모폴로지 필터링의 장점은 계산량이 매우적으면서도 스펙트럼의 피크나 밸리 정보를 정확하게 추출해낼 수 있다는 점이다. 게다가 비매개(nonparametric)하여 예컨대, 기존의 하모닉 코덱에서는 음성 신호의 하모닉 구조를 가정한 것과 달리 본 발명에서는입력 신호에 대한 어떠한 가정도 하지 않는다.
여기서, 모폴로지 클로징은 음성 신호 스펙트럼에서 신호 파형 사이의 밸리(valley)를 채우는 효과를 가지고 있으며, 도 4(a)처럼 하모닉 피크들은 그대로 살아 있으면서 작은 스퓨리어스(spurious) 피크들은 클로징한 스펙트럼의 아래에 존재하게 된다.
이에 따라 모몰로지 분석부(60)는 모폴로지 필터(61)에 의한 모폴로지연산 결과로부터 음성 신호에 들어있는 특징 주파수 영역들만을 선택할 수 있게 된다. 즉, 노이즈가 억압(suppression)되면서 특징 주파수 영역들만을 선택할 수 있게 된다. 이때, 도 4(b)처럼 작은 피크들까지 모두 선택하면, 음성 신호를 표현할 수 있는 특징 주파수 영역이 모두 추출된다. 이러한 특징 주파수들은 유성음의 성질을 가질 경우에는 f0, 2f0,3f0 ,4f0, 5f0,…등과 같이 일정한 주기성을 가지는 하모닉 피크들이 나타나게 된다. 즉, 유성음 및 무성음을 구분하지 않고도 음성 신호에 모폴로지 기법을 적용하게 되면 하모닉 코덱의 하모닉 코딩 시에 피치 주파수 대신에 적용할 수 있는 특징 주파수가 추출되게 된다.
특히 도 4(b)에서 전처리한후의 나머지(remainder) 피크들은 주요 사인파 구성 요소(major sine wave component)로 인한 것인데, 이러한 주요 사인파 구성요소들이 바로 음성 신호의 특징 주파수가 된다. 이러한 특징 주파수는 일반적인 하모닉 추출 방법과는 달리, 음성 신호를 표현하는 모든 사인파의 주파수 영역을 나타내게 된다.
모폴로지 분석부(60)는 상기와 같은 과정에 따라 하모닉 피크로 결정된 피크 정보를 유성음화 비율 검출부(70)로 출력한다.
유성음화 비율 검출부(70)는 하모닉 피크 검출부(40) 또는 하아오더 피크 검출부(50) 또는 모폴로지 분석부(60)에서 입력되는 하모닉 피크 정보와 피치 계산부(30)에서 입력되는 피치값을 이용하여 유성음화 비율을 검출한다.
유성음의 경우 정확한 피치를 가지는 것에 반하여, 무성음의 경우 주파수 도메인에서 피크들이 같은 거리를 가진 것이 아니라 무작위적인 거리를 가지게 된다. 때문에, 무성음 일수록 하모닉 피크 간의 간격은 피치값에서 벗어나게 된다. 유성음화 비율 검출부(70)는 음성 신호의 이런 특성을 이용하여 유성음화 비율을 검출하는 것으로, 미리 계산된 피치값과 하모닉 피크 검출부(40) 또는 하아오더 피크 검출부(50) 또는 모폴로지 분석부(60) 각각에서 입력되는 하모닉 피크들중 서로 이웃하는 하모닉 피크의 간격을 비교하고, 그 차이를 일반화하여 유성음화 비율로 출력한다.
본 발명의 일 실시예에 유성음화 비율 검출부(70)는 하모닉 피크 검출부(40) 또는 하이오더 피크 검출부(50)에서 입력되는 하모닉 피크들로부터 유성음화 비율을 검출하는 경우와 모폴로지 분석부(60)에서 입력되는 하모닉 피크들로부터 유성음화 비율을 검출하는 경우 서로 다른 수학식을 이용한다.
하모닉 피크 검출부(40) 또는 하이오더 피크 검출부(50)에서 입력되는 하모닉 피크들로부터 유성음화 비율을 검출하는 경우에는 하기 수학식2를 이용한다.
Figure 112006026659277-pat00001
상기 수학식 2에서 N은 스펙트럼의 피크 개수이고, 하모닉 피크 검출부(40) 또는 하이오더 피크 검출부(50)에서 입력되는 하모닉 피크는 {Pk}이며,
Figure 112006026659277-pat00002
이다.
이때, 유성음화 비율 검출부(70)는 가중치 모듈(71)로부터 일정 가중치를 부여받아, 유성음화 비율을 검출할 수도 있다. 가중치 모듈(71)은 피크 진폭(amplitude)의 파워에 따라 유성음화 비율에 가중치를 줄 수 있다. 이를 수학식으로 표현하면 수학식3과 같다.
Figure 112006026659277-pat00003
상기 수학식3에서 Ak는 가중치이다.
그리고 유성음화 비율 검출부(70)는 모폴로지 분석부(60)에서 입력되는 하모닉 피크에서 유성음화 비율을 검출할 때는 모폴로지 처리 과정에서 낮은 레벨의 피크가 거의 제외되므로, 가중치를 사용하지 않아도 된다. 모폴로지 분석부(60)에서 입력되는 하모닉 피크에서 검출되는 유성음화 비율은 수학식4와 같이 나타낼 수 있다.
Figure 112006026659277-pat00004
모폴로지 분석부(60)에서 입력되는 하모닉 피크들의 집합은 S이고, 그 갯 수 들은 I, K(k)는
Figure 112006026659277-pat00005
를 최소화하는 정수이다. (즉, K(k) f0는 피크에서 가장 가까운 피치 f0의 하모닉이다.) 이 때, amplitude weighting Ak 는 옵션 항목이 된다. 그리고 대부분의 하모닉 피크가 모폴로지 전처리 후에 남아 있는 경우 간단한 피치 추정치로
Figure 112006026659277-pat00006
를 사용할 수 있다.
음성 처리부(80)는 유성음화 비율 검출부(70)에서 입력되는 유성음화 비율을 이용하여 각종 음성 코딩, 인식, 합성, 강화 등의 음성 처리 과정을 수행한다.
상기와 같이 구성되는 유성음화 비율 검출 장치가 유성음화 비율을 검출하는 대략적인 과정을 도5에 도시하였다. 도5는 본 발명의 실시예에 따른 음성 신호의 유성음화 비율 검출의 대략적인 과정을 나타낸 도면이다. 도5를 참조하여, 101단계에서 유성음화 비율 검출 장치의 음성 신호 입력부(10)는 입력되는 음성 신호를 주파수 도메인 변환부(20)로 출력하여 주파수 도메인 상의 음성 신호로 변환하고, 103단계로 진행한다. 103단계에서 유성음화 비율 검출 장치는 피치 계산부(30)를 통해 피치값을 계산하고, 하모닉 피크 검출부(40), 하이오더 피크 검출부(50), 모폴로지 분석부(60)를 통해 하모닉 피크를 검출하고 105단계로 진행한다. 하모닉 피크의 검출은 본 발명의 실시예에 따라 상기한 하모닉 피크 검출부(40), 하이오더 피크 검출부(50), 모폴로지 분석부(60) 중 어느 하나를 통해 이루어질 수도 있고, 세가지 모두를 통해 이루어질 수도 있다. 즉, 본 발명에서 중요한 것은 음성 신호에 포함된 하모닉 피크 정보이며, 하모닉 피크를 검출해 내는 방식은 어떠한 방식이라도 사용가능하다. 따라서 유성음화 비율의 정확도 등을 고려하여 한 가지 이상 의 방식을 중복으로 사용하여, 정확한 하모닉 피크를 검출해 내도록 구성할 수도 있고, 상기한 방식 중 어느 한 방식을 통해 하모닉 피크를 검출해 내도록 구성할 수도 있다.
한편, 105단계에서 유성음화 비율 검출 장치의 유성음화 비율 검출부(70)는 피치값과, 서로 이웃하는 하모닉 피크 간의 간격을 비교하여, 그 결과, 즉, 그 차이값에 따른 유성음화 비율을 검출하고 107단계로 진행한다. 107단계에서 유성음화 비율 검출 장치의 음성 처리부(80)는 검출된 유성음화 비율을 이용하여 음성 코딩, 인식, 합성, 강화 등의 오디오 처리 과정을 수행한다.
상기에서는 유성음화 비율 검출 장치의 전반적인 유성음화 비율 검출 과정을 설명하였으나, 하기에서는 상기한 유성음화 비율 검출 장치에 구비된 하모닉 피크 검출 방식에 따른 유성음화 비율 검출 과정을 설명한다.
먼저, 도6을 참조하여, 하이오더 피크 검출부(50)에 의해 검출된 하모닉 피크를 이용하여 유성음화 비율을 검출하는 과정을 설명한다. 도6은 본 발명의 제1실시예에 따른 음성 신호의 유성음화 비율 검출 과정을 나타낸 도면이다.
도6을 참조하여, 유성음화 비율 검출 장치는 201단계에서 음성 신호가 입력되면 입력되는 음성 신호를 주파수 도메인 변환부(20)로 출력하여 주파수 도메인 상의 음성 신호로 변환하고 203단계로 진행한다. 203단계에서 유성음화 비율 검출 장치는 피치 계산부(30)를 통해 피치값을 계산하고, 205단계로 진행한다. 205단계에서 하이오더 피크 검출부(50)는 피크 정보 추출 및 피크 차수를 결정하고, 207단게에서 결정된 차수에 해당하는 하이오더 피크를 하모닉 피크 정보로 검출하여 유 성음화 비율 검출부(70)로 출력한다. 유성음화 비율 검출부(70)는 209단계에서 가중치 모듈(71)을 통해 가중치를 사용할지 판단하여, 가중치를 사용하지 않는 경우는 211단계로 진행하여 피치값과, 서로 이웃하는 하모닉 피크간의 간격을 비교하여 그 결과, 즉, 그 차이에 따른 유성음화 비율을 검출한다. 이때 유성음화 비율 검출부(70)는 상기 수학식2를 이용하여 유성음화 비율을 계산한다. 한편, 유성음화 비율 검출부(70)는 가중치를 사용하는 경우 213단계로 진행하여, 가중치를 적용하고, 피치값과, 서로 이웃하는 하모닉 피크간의 간격을 비교하여 그 결과, 즉, 그 차이에 따른 유성음화 비율을 검출한다. 이때 유성음화 비율 검출부(70)는 상기 수학식3을 이용하여 유성음화 비율을 계산한다. 이후, 유성음화 비율 검출 장치는 215단계로 진행하여 검출한 유성음화 비율을 음성 신호 처리에 사용한다.
다음으로, 하모닉 피크 검출부(40)에 의해 검출된 하모닉 피크를 이용하여 유성음화 비율을 검출하는 과정을 도7을 참조하여 설명한다. 도7은 본 발명의 제2실시예에 따른 음성 신호의 유성음화 비율 검출 과정을 나타낸 도면이다.
도7을 참조하여, 유성음화 비율 검출 장치는 301단계에서 음성 신호가 입력되면 입력되는 음성 신호를 주파수 도메인 변환부(20)로 출력하여 303단계에서 주파수 도메인 상의 음성 신호로 변환하고 305단계로 진행한다. 305단계에서 유성음화 비율 검출 장치는 피치 계산부(30)를 통해 피치값을 계산하고, 하모닉 피크 검출부(40)를 통해 피크 검색 범위를 결정하고 307단계에서 최근 추출된 하모닉 피크를 기준으로한 피크 검색 범위 내에서 최대 크기의 피크를 하모닉 피크 정보로 검출하여 유성음화 비율 검출부(70)로 출력한다. 유성음화 비율 검출부(70)는 309단 계에서 가중치 모듈(71)을 통해 가중치를 사용할지 판단하여 판단 결과에 따라 가중치를 적용하며, 피치값과, 서로 이웃하는 하모닉 피크간의 간격을 비교하여 그 결과, 즉, 그 차이에 따른 유성음화 비율을 검출한다. 이때 유성음화 비율 검출부(70)는 상기 수학식2 또는 수학식3을 이용하여 유성음화 비율을 계산한다. 이후, 유성음화 비율 검출 장치는 311단계로 진행하여 검출한 유성음화 비율을 음성 신호 처리에 사용한다.
마지막으로, 모폴로지 분석부(60)에 의해 검출된 하모닉 피크를 이용하여 유성음화 비율을 검출하는 과정을 도8을 참조하여 설명한다. 도8은 본 발명의 제3실시예에 따른 음성 신호의 유성음화 비율 검출 과정을 나타낸 도면이다.
도8을 참조하여, 유성음화 비율 검출 장치는 401단계에서 음성 신호가 입력되면 입력되는 음성 신호를 주파수 도메인 변환부(20)로 출력하여 403단계에서 주파수 도메인 상의 음성 신호로 변환하고, 피치 계산부(30)를 통해 피치값을 계산하고 405단계로 진행한다. 405단계에서 유성음화 비율 검출 장치는 모폴로지 분석부(60)를 통해 모폴로지 필터의 SSS를 결정하고 407단계로 진행하여 주파수 도메인 상의 음성 신호 파형에 대한 모폴로지 연산을 수행하고 409단계로 진행한다. 409단계에서 모폴로지 분석부(60)는 연산 결과 하모닉 피크 정보를 추출하여 유성음화 비율 검출부(70)로 출력한다. 유성음화 비율 검출부(70)는 411단계에서 피치값과, 서로 이웃하는 하모닉 피크간의 간격을 비교하여 그 결과, 즉, 그 차이에 따른 유성음화 비율을 검출한다. 이때 유성음화 비율 검출부(70)는 상기 수학식4를 이용하여 유성음화 비율을 계산한다. 이후, 유성음화 비율 검출 장치는 413단계로 진행하 여 검출한 유성음화 비율을 음성 신호 처리에 사용한다.
상기한 바와 같이 본 발명은 모든 음성, 오디오 신호를 사용하는 시스템에서 필수적으로 사용되고 가장 중요한 정보인 유성음화 비율을 검출하는 장치 및 방법을 제시함으로써, 종래의 방법이 가지고 있던 성능의 한계와 문제점들을 하모닉 피크 분석이라는 적용으로 해결하였다.
이것은 항상 노이즈 위에 높이 존재하는 하모닉 구역을 분석하여 사용함으로써 잡음에 아주 견고하고, 계산량이 거의 없는 매우 빠르고 정확하며 실용적인 방법으로 모든 음성, 오디오 신호에서 필수적인 유성음 정보를 제공할 수 있다.
본 발명에서 제시하는 유성음화 비율은 음성, 오디오 신호의 하모닉 컴포넌트(harmonic component)의 세기를 측정하므로, 유성음과 무성음의 분리 특징 추출의 본질적인 성질, 즉, 유성음 스피치는 semi-regular glottal excitation으로 인해 quasi-periodic하며, unvoiced speech는 noise-like excitation을 가진다."는 성질을 수치화할 수 있다. 따라서 여러 특징 추출을 조합하던 종래의 방법들에 비해, 실용적이면서도 간단하고 유성음화 비율을 측정하는 매우 정확하고 효율적이다.
또한, 본 발명에서 제시한 유성음화 비율 검출 방법의 하모닉 피크 분리, 분석 기술은 다른 많은 음성과 오디오 특징 추출 방법들에서 쉽게 적용하여 사용이 가능할 수 가 있으며, 종래에 사용하던 다른 특징 추출법들과의 조합으로 (ex. artificial neural network을 이용한 feature들의 조합), 더욱 더 정확한 유서음, 무성음 구분을 해 낼 수 있다.
이와 같은 유성음화 비율 정보 추출법은 주요한 하모닉 구역들에 대한 분석에 근거하여 그 효용성이 더욱 커지게 되며, 유무성음 구분에서 실제로 중요한 주파수 영역을 강조함으로써 더욱 성능이 좋아 질 수 있다.
상술한 본 발명의 설명에서는 구체적인 실시 예에 관해 설명하였으나, 여러 가지 변형이 본 발명의 범위에서 벗어나지 않고 실시할 수 있다. 따라서 본 발명의 범위는 설명된 실시 예에 의하여 정할 것이 아니고 특허청구범위와 특허청구범위의 균등한 것에 의해 정해 져야 한다.
상술한 바와 같이 본 발명은 모든 음성, 오디오 신호를 사용하는 시스템에서 필수적으로 사용되고 가장 중요한 정보인 유성음화 비율을 검출하는 장치 및 방법을 제시함으로써, 종래의 방법이 가지고 있던 성능의 한계와 문제점들을 하모닉 피크 분석이라는 적용으로 해결하였다.
이것은 항상 노이즈 위에 높이 존재하는 하모닉 구역을 분석하여 사용함으로써 잡음에 아주 견고하고, 계산량이 거의 없는 매우 빠르고 정확하며 실용적인 방법으로 모든 음성, 오디오 신호에서 필수적인 유성음 정보를 제공할 수 있다.
본 발명에서 제시하는 유성음화 비율은 음성, 오디오 신호의 하모닉 컴포넌트(harmonic component)의 세기를 측정하므로, 유성음과 무성음의 분리 특징 추출의 본질적인 성질, 즉, 유성음 스피치는 semi-regular glottal excitation으로 인해 quasi-periodic하며, unvoiced speech는 noise-like excitation을 가진다."는 성질을 수치화할 수 있다. 따라서 여러 특징 추출을 조합하던 종래의 방법들에 비해, 실용적이면서도 간단하고 유성음화 비율을 측정하는 매우 정확하고 효율적이다.
또한, 본 발명에서 제시한 유성음화 비율 검출 방법의 하모닉 피크 분리, 분석 기술은 다른 많은 음성과 오디오 특징 추출 방법들에서 쉽게 적용하여 사용이 가능할 수 가 있으며, 종래에 사용하던 다른 특징 추출법들과의 조합으로 (ex. artificial neural network을 이용한 feature들의 조합), 더욱 더 정확한 유서음, 무성음 구분을 해 낼 수 있다.

Claims (25)

  1. 삭제
  2. 음성 신호의 유성음화 비율(degree of voicing) 검출 방법에 있어서,
    입력되는 음성 신호를 주파수 도메인으로 변환하는 과정과,
    상기 음성 신호로부터 피치값을 계산하여 결정하는 과정과,
    상기 음성 신호에 존재하는 다수의 피크를 추출하여 m차 오더 피크로 결정하고, 상기 m차 오더 피크들을 새로운 타임 시리즈(time series)로 가정하여 상기 새로운 타임 시리즈의 피크를 추출하여 m+1차 오더 피크로 결정함으로써, 현재 결정된 차수의 오더 피크를 근거로 다음 차수의 오더 피크를 결정하여, 1차 내지 M차 까지의 오더 피크를 결정하는 과정과,
    상기 결정된 차수를 근거로 2차 오더 이상에 해당하는 하이오더 피크를 하모닉 피크로 검출하는 과정과,
    상기 검출된 하모닉 피크 중 서로 이웃하는 하모닉 피크의 간격과 상기 피치값을 비교하여 그 차이 값을, 음성 신호에 포함된 유성음 비율을 나타내는 유성음화 비율로 검출하는 과정을 포함함을 특징으로 하는 검출 방법.
    단, m은 자연수, M=m+1.
  3. 음성 신호의 유성음화 비율(degree of voicing) 검출 방법에 있어서,
    입력되는 음성 신호를 주파수 도메인으로 변환하는 과정과,
    상기 음성 신호로부터 피치값을 계산하여 결정하는 과정과,
    상기 피치값을 이용하여, 전체 구간과, 상기 전체 구간 중 피크 검출을 수행하지 않는 시프팅 구간과, 상기 전체 구간에서 상기 시프팅 구간을 제외한 구간으로서 실제 피크 검출이 이루어지는 실제 검색 구간을 포함하는 피크 검색 범위를 결정하는 과정과,
    상기 음성 신호에 다수의 상기 피크 검색 구간을 설정하여, 상기 각각의 피크 검색 범위에 존재하는 피크들을 검출하고, 상기 검출된 피크들 중 가장 최대 스펙트럼 값을 가지는 피크를 하모닉 피크로 결정하여 상기 음성 신호의 하모닉 피크로 검출하는 과정과,
    상기 검출된 하모닉 피크 중 서로 이웃하는 하모닉 피크의 간격과 상기 피치값을 비교하여 그 차이 값을, 음성 신호에 포함된 유성음 비율을 나타내는 유성음화 비율로 검출하는 과정을 포함함을 특징으로 하는 검출 방법.
  4. 제2항에 있어서, 상기 유성음화 비율로 검출하는 과정에서 상기 유성음화 비율은 하기 수학식 5를 통해 계산됨을 특징으로 하는 검출 방법.
    Figure 112007055685594-pat00007
    단, N은 스펙트럼의 피크 개수이고, {Pk}는 하모닉 피크는 이며, fo는 피치값이며,
    Figure 112007055685594-pat00008
    .
  5. 제2항에 있어서, 상기 유성음화 비율로 검출하는 과정에서 상기 유성음화 비율은 하기 수학식 6을 통해 계산됨을 특징으로 하는 검출 방법.
    Figure 112007055685594-pat00009
    단, N은 스펙트럼의 피크 개수이고, {Pk}는 하모닉 피크는 이며, fo는 피치값이며,
    Figure 112007055685594-pat00010
    , Ak는 가중치.
  6. 음성 신호의 유성음화 비율(degree of voicing) 검출 방법에 있어서,
    입력되는 음성 신호를 주파수 도메인으로 변환하는 과정과,
    상기 음성 신호로부터 피치값을 계산하여 결정하는 과정과,
    상기 변환된 음성 신호 파형에 대해 모폴로지 클로징을 수행하는 모폴로지 필터의 최적의 SSS(structuring set size)를 결정하는 과정과,
    상기 음성신호 파형에 대해 모폴로지 연산을 수행하여, 연산 결과에 따른 하모닉 피크를 검출하는 과정과,
    상기 검출된 하모닉 피크 중 서로 이웃하는 하모닉 피크의 간격과 상기 피치값을 비교하여 그 차이 값을, 음성 신호에 포함된 유성음 비율을 나타내는 유성음화 비율로 검출하는 과정을 포함함을 특징으로 하는 검출 방법.
  7. 제6항에 있어서, 상기 유성음화 비율로 검출하는 과정에서 상기 유성음화 비율은 하기 수학식 7을 통해 계산됨을 특징으로 하는 검출 방법.
    Figure 112006026659277-pat00011
    S는 하모닉 피크들의 집합이고, I는 피크 개수이고, K(k)는
    Figure 112006026659277-pat00012
    를 최소화하는 정수이고, fo는 피치값.
  8. 삭제
  9. 음성 신호의 유성음화 비율(degree of voicing) 검출 장치에 있어서,
    입력되는 음성 신호를 주파수 도메인으로 변환하는 주파수 도메인 변환부와,
    상기 음성 신호로부터 피치값을 계산하여 결정하는 피치 계산부와,
    상기 음성 신호에 존재하는 다수의 피크를 추출하여 m차 오더 피크로 결정하고, 상기 m차 오더 피크들을 새로운 타임 시리즈(time series)로 가정하여 상기 새로운 타임 시리즈의 피크를 추출하여 m+1차 오더 피크로 결정함으로써, 현재 결정된 차수의 오더 피크를 근거로 다음 차수의 오더 피크를 결정하여, 1차 내지 M차 까지의 오더 피크를 결정하고, 상기 결정된 차수를 근거로 2차 오더 이상에 해당하는 하이오더 피크를 하모닉 피크로 검출하는 하모닉 피크 결정부와,
    상기 검출된 하모닉 피크 중 서로 이웃하는 하모닉 피크의 간격과 상기 피치값을 비교하여 그 차이 값을, 음성 신호에 포함된 유성음 비율을 나타내는 유성음화 비율로 검출하는 유성음화 비율 검출부를 포함함을 특징으로 하는 검출 장치.
    단, m은 자연수, M=m+1.
  10. 음성 신호의 유성음화 비율(degree of voicing) 검출 장치에 있어서,
    입력되는 음성 신호를 주파수 도메인으로 변환하는 주파수 도메인 변환부와,
    상기 음성 신호로부터 피치값을 계산하여 결정하는 피치 계산부와,
    상기 피치값을 이용하여, 전체 구간과, 상기 전체 구간 중 피크 검출을 수행하지 않는 시프팅 구간과, 상기 전체 구간에서 상기 시프팅 구간을 제외한 구간으로서 실제 피크 검출이 이루어지는 실제 검색 구간을 포함하는 피크 검색 범위를 결정하고, 상기 음성 신호에 다수의 상기 피크 검색 구간을 설정하여, 상기 각각의 피크 검색 범위에 존재하는 피크들을 검출하고, 상기 검출된 피크들 중 가장 최대 스펙트럼 값을 가지는 피크를 하모닉 피크로 결정하여 상기 음성 신호의 하모닉 피크로 검출하는 하모닉 피크 검출부와,
    상기 검출된 하모닉 피크 중 서로 이웃하는 하모닉 피크의 간격과 상기 피치값을 비교하여 그 차이 값을, 음성 신호에 포함된 유성음 비율을 나타내는 유성음화 비율로 검출하는 유성음화 비율 검출부를 포함함을 특징으로 하는 검출 장치.
  11. 제9항에 있어서, 상기 유성음화 비율로 검출부는 상기 유성음화 비율을 하기 수학식 8을 통해 계산함을 특징으로 하는 검출 장치.
    Figure 112007092870861-pat00013
    단, N은 스펙트럼의 피크 개수이고, {Pk}는 하모닉 피크는 이며, fo는 피치값이며,
    Figure 112007092870861-pat00014
    .
  12. 제9항에 있어서, 상기 유성음화 비율로 검출부는 상기 유성음화 비율을 하기 수학식 9를 통해 계산함을 특징으로 하는 검출 장치.
    Figure 112007055685594-pat00015
    단, N은 스펙트럼의 피크 개수이고, {Pk}는 하모닉 피크는 이며, fo는 피치값이며,
    Figure 112007055685594-pat00016
    , Ak는 가중치.
  13. 음성 신호의 유성음화 비율(degree of voicing) 검출 장치에 있어서,
    입력되는 음성 신호를 주파수 도메인으로 변환하는 주파수 도메인 변환부와,
    상기 음성 신호로부터 피치값을 계산하여 결정하는 피치 계산부와,
    상기 변환된 음성 신호 파형에 대해 모폴로지 클로징을 수행하는 모폴로지 필터의 최적의 SSS(structuring set size)를 결정하고, 상기 음성신호 파형에 대해 모폴로지 연산을 수행하여, 연산 결과에 따른 하모닉 피크를 검출하는 모폴로지 분석부와,
    상기 검출된 하모닉 피크 중 서로 이웃하는 하모닉 피크의 간격과 상기 피치값을 비교하여 그 차이 값을, 음성 신호에 포함된 유성음 비율을 나타내는 유성음화 비율로 검출하는 유성음화 비율 검출부를 포함함을 특징으로 하는 검출 장치.
  14. 제13항에 있어서, 상기 유성음화 비율로 검출부는 상기 유성음화 비율을 하기 수학식 10을 통해 계산함을 특징으로 하는 검출 장치.
    Figure 112007055685594-pat00017
    S는 하모닉 피크들의 집합이고, I는 피크 개수이고, K(k)는
    Figure 112007055685594-pat00018
    를 최소화하는 정수이고, fo는 피치값.
  15. 제3항에 있어서, 상기 유성음화 비율로 검출하는 과정에서 상기 유성음화 비율은 하기 수학식 11을 통해 계산됨을 특징으로 하는 검출 방법.
    Figure 112007055685594-pat00027
    단, N은 스펙트럼의 피크 개수이고, {Pk}는 하모닉 피크는 이며, fo는 피치값이며,
    Figure 112007055685594-pat00028
    .
  16. 제3항에 있어서, 상기 유성음화 비율로 검출하는 과정에서 상기 유성음화 비율은 하기 수학식 12를 통해 계산됨을 특징으로 하는 검출 방법.
    Figure 112007055685594-pat00029
    단, N은 스펙트럼의 피크 개수이고, {Pk}는 하모닉 피크는 이며, fo는 피치값이며,
    Figure 112007055685594-pat00030
    , Ak는 가중치.
  17. 제10항에 있어서, 상기 유성음화 비율 검출부는 상기 유성음화 비율을 하기 수학식 13을 통해 계산함을 특징으로 하는 검출 장치.
    Figure 112007055685594-pat00031
    단, N은 스펙트럼의 피크 개수이고, {Pk}는 하모닉 피크는 이며, fo는 피치값이며,
    Figure 112007055685594-pat00032
    .
  18. 제10항에 있어서, 상기 유성음화 비율 검출부는 상기 유성음화 비율을 하기 수학식 14를 통해 계산함을 특징으로 하는 검출 장치.
    Figure 112007055685594-pat00033
    단, N은 스펙트럼의 피크 개수이고, {Pk}는 하모닉 피크는 이며, fo는 피치값이며,
    Figure 112007055685594-pat00034
    , Ak는 가중치.
  19. 제7항에 있어서, 상기 변환된 음성 신호 파형에 대해 모폴로지 클로징을 수행한 후에 상기 모폴로지 클로징한 신호를 전처리(pre-processing)하는 과정을 더 포함함을 특징으로 하는 검출 방법.
  20. 제19항에 있어서, 상기 전처리 과정은 상기 변환된 오디오 신호 파형에서 나선계단(staircase) 신호를 빼서 하모닉 신호만을 남기는 과정임을 특징으로 하는 검출 방법.
  21. 제20항에 있어서, 상기 최적의 SSS를 결정하는 과정은
    상기 변환된 오디오 신호 파형에 대해 전처리 수행 후 최대 하모닉 피크의 개수를 설정하는 과정과,
    상기 설정된 최대 하모닉 피크의 개수에 따른 에너지 비율을 산출하는 과정과,
    상기 에너지 비율과 현재의 SSS를 비교하는 과정과,
    상기 비교 결과에 따라 상기 피크 신호의 개수를 조정하여 상기 최적의 SSS를 결정하는 과정임을 특징으로 하는 검출 방법.
  22. 제20항에 있어서, 상기 에너지 비율을 산출하는 과정은 상기 최대 하모닉 피크의 개수를 L로 정의한 후, 상기 L개의 선택된 하모닉 피크를 이용하여 전체 나머지(remainder) 피크 신호에 대한 에너지와 상기 L개의 선택된 하모닉 피크에 대한 에너지의 비율인 P를 산출하는 과정임을 특징으로 하는 검출 방법.
  23. 제22항에 있어서, 상기 최적의 SSS는 상기 에너지 비율인 P가 소정값을 초과할 경우 상기 L을 줄이고, 상기 P가 소정값 미만일 경우 상기 L을 크게 함으로써 얻어짐을 특징으로 하는 검출 방법.
  24. 음성 신호의 유성음화 비율(degree of voicing) 검출 방법에 있어서,
    입력되는 음성 신호를 주파수 도메인으로 변환하는 과정과,
    상기 음성 신호로부터 피치값을 계산하여 결정하는 과정과,
    상기 음성 신호에 존재하는 다수의 하모닉 피크를 검출하는 과정과,
    상기 검출된 하모닉 피크 중 서로 이웃하는 하모닉 피크의 간격과 상기 피치값을 비교하여 그 차이 값을, 음성 신호에 포함된 유성음 비율을 나타내는 유성음화 비율로 검출하는 과정를 포함하며, 상기 유성음화 비율은 하기 수학식 15를 통해 계산됨을 특징으로 하는 검출 방법.
    Figure 112007055685594-pat00035
    단, N은 스펙트럼의 피크 개수이고, {Pk}는 하모닉 피크는 이며, fo는 피치값이며,
    Figure 112007055685594-pat00036
    .
  25. 음성 신호의 유성음화 비율(degree of voicing) 검출 방법에 있어서,
    입력되는 음성 신호를 주파수 도메인으로 변환하는 과정과,
    상기 음성 신호로부터 피치값을 계산하여 결정하는 과정과,
    상기 음성 신호에 존재하는 다수의 하모닉 피크를 검출하는 과정과,
    상기 검출된 하모닉 피크 중 서로 이웃하는 하모닉 피크의 간격과 상기 피치값을 비교하여 그 차이 값을, 음성 신호에 포함된 유성음 비율을 나타내는 유성음화 비율로 검출하는 과정를 포함하며, 상기 유성음화 비율은 하기 수학식 16을 통해 계산됨을 특징으로 하는 검출 방법.
    Figure 112007055685594-pat00037
    단, N은 스펙트럼의 피크 개수이고, {Pk}는 하모닉 피크는 이며, fo는 피치값이며,
    Figure 112007055685594-pat00038
    , Ak는 가중치.
KR1020060034722A 2006-04-17 2006-04-17 음성 신호의 유성음화 비율 검출 장치 및 방법 Expired - Fee Related KR100827153B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020060034722A KR100827153B1 (ko) 2006-04-17 2006-04-17 음성 신호의 유성음화 비율 검출 장치 및 방법
US11/732,656 US7835905B2 (en) 2006-04-17 2007-04-04 Apparatus and method for detecting degree of voicing of speech signal

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020060034722A KR100827153B1 (ko) 2006-04-17 2006-04-17 음성 신호의 유성음화 비율 검출 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20070102904A KR20070102904A (ko) 2007-10-22
KR100827153B1 true KR100827153B1 (ko) 2008-05-02

Family

ID=38817594

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020060034722A Expired - Fee Related KR100827153B1 (ko) 2006-04-17 2006-04-17 음성 신호의 유성음화 비율 검출 장치 및 방법

Country Status (2)

Country Link
US (1) US7835905B2 (ko)
KR (1) KR100827153B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013085801A1 (en) * 2011-12-09 2013-06-13 Microsoft Corporation Harmonicity-based single-channel speech quality estimation

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011013244A1 (ja) * 2009-07-31 2011-02-03 株式会社東芝 音声処理装置
CN103765511B (zh) * 2011-07-07 2016-01-20 纽昂斯通讯公司 嘈杂语音信号中的脉冲干扰的单信道抑制
CN103167066A (zh) * 2011-12-16 2013-06-19 富泰华工业(深圳)有限公司 手机及其噪声检测方法
EP2634769B1 (en) * 2012-03-02 2018-11-07 Yamaha Corporation Sound synthesizing apparatus and sound synthesizing method
US9305567B2 (en) 2012-04-23 2016-04-05 Qualcomm Incorporated Systems and methods for audio signal processing
KR101907957B1 (ko) * 2013-06-19 2018-10-16 한국전자통신연구원 Tts를 이용한 화면해설방송 제작 방법 및 장치
CN107731241B (zh) * 2017-09-29 2021-05-07 广州酷狗计算机科技有限公司 处理音频信号的方法、装置和存储介质
JP6724932B2 (ja) * 2018-01-11 2020-07-15 ヤマハ株式会社 音声合成方法、音声合成システムおよびプログラム

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10124094A (ja) 1996-10-18 1998-05-15 Sony Corp 音声分析方法、音声符号化方法および装置
KR19980024970A (ko) * 1996-09-27 1998-07-06 이데이 노브유끼 음성 부호화 방법 및 장치, 음성 복호화 방법 및 장치
KR19980024790A (ko) * 1996-09-20 1998-07-06 이데이 노브유끼 음성부호화방법 및 장치, 음성복호화방법 및 장치
KR19980037190A (ko) * 1996-11-21 1998-08-05 양승택 유성음 구간에서 프레임별 피치 검출 방법
KR19990002399A (ko) * 1997-06-20 1999-01-15 윤종용 다중 밴드 여기 음성 부호화기에서 매개변수 추정 장치 및 방법
KR100347188B1 (en) 2001-08-08 2002-08-03 Amusetec Method and apparatus for judging pitch according to frequency analysis
KR20030085354A (ko) * 2002-04-30 2003-11-05 엘지전자 주식회사 음성 부호화기에서 하모닉 추정 방법 및 장치
US20040133424A1 (en) * 2001-04-24 2004-07-08 Ealey Douglas Ralph Processing speech signals
US20040260540A1 (en) 2003-06-20 2004-12-23 Tong Zhang System and method for spectrogram analysis of an audio signal

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5189701A (en) * 1991-10-25 1993-02-23 Micom Communications Corp. Voice coder/decoder and methods of coding/decoding
WO1997027578A1 (en) * 1996-01-26 1997-07-31 Motorola Inc. Very low bit rate time domain speech analyzer for voice messaging
WO2004111996A1 (ja) * 2003-06-11 2004-12-23 Matsushita Electric Industrial Co., Ltd. 音響区間検出方法および装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR19980024790A (ko) * 1996-09-20 1998-07-06 이데이 노브유끼 음성부호화방법 및 장치, 음성복호화방법 및 장치
KR19980024970A (ko) * 1996-09-27 1998-07-06 이데이 노브유끼 음성 부호화 방법 및 장치, 음성 복호화 방법 및 장치
JPH10124094A (ja) 1996-10-18 1998-05-15 Sony Corp 音声分析方法、音声符号化方法および装置
KR19980037190A (ko) * 1996-11-21 1998-08-05 양승택 유성음 구간에서 프레임별 피치 검출 방법
KR19990002399A (ko) * 1997-06-20 1999-01-15 윤종용 다중 밴드 여기 음성 부호화기에서 매개변수 추정 장치 및 방법
US20040133424A1 (en) * 2001-04-24 2004-07-08 Ealey Douglas Ralph Processing speech signals
KR100347188B1 (en) 2001-08-08 2002-08-03 Amusetec Method and apparatus for judging pitch according to frequency analysis
KR20030085354A (ko) * 2002-04-30 2003-11-05 엘지전자 주식회사 음성 부호화기에서 하모닉 추정 방법 및 장치
US20040260540A1 (en) 2003-06-20 2004-12-23 Tong Zhang System and method for spectrogram analysis of an audio signal

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
10-1998-24790
10-1999-2399
10-2003-85354

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013085801A1 (en) * 2011-12-09 2013-06-13 Microsoft Corporation Harmonicity-based single-channel speech quality estimation
US8731911B2 (en) 2011-12-09 2014-05-20 Microsoft Corporation Harmonicity-based single-channel speech quality estimation

Also Published As

Publication number Publication date
US20070288233A1 (en) 2007-12-13
US7835905B2 (en) 2010-11-16
KR20070102904A (ko) 2007-10-22

Similar Documents

Publication Publication Date Title
KR100827153B1 (ko) 음성 신호의 유성음화 비율 검출 장치 및 방법
KR100770839B1 (ko) 음성 신호의 하모닉 정보 및 스펙트럼 포락선 정보,유성음화 비율 추정 방법 및 장치
KR100762596B1 (ko) 음성 신호 전처리 시스템 및 음성 신호 특징 정보 추출방법
KR100744352B1 (ko) 음성 신호의 하모닉 성분을 이용한 유/무성음 분리 정보를추출하는 방법 및 그 장치
Gonzalez et al. PEFAC-A pitch estimation algorithm robust to high levels of noise
Deshmukh et al. Use of temporal information: Detection of periodicity, aperiodicity, and pitch in speech
EP1083541B1 (en) A method and apparatus for speech detection
KR100873396B1 (ko) 오디토리 이벤트에 기초한 특성을 이용하여 오디오를비교하는 방법
EP1744303A2 (en) Method and apparatus for extracting pitch information from audio signal using morphology
JPH0990974A (ja) 信号処理方法
US8762147B2 (en) Consonant-segment detection apparatus and consonant-segment detection method
KR100770896B1 (ko) 음성 신호에서 음소를 인식하는 방법 및 그 시스템
KR101008022B1 (ko) 유성음 및 무성음 검출방법 및 장치
CN104036785A (zh) 语音信号的处理方法和装置、以及语音信号的分析系统
Li et al. A pitch estimation algorithm for speech in complex noise environments based on the radon transform
Zhao et al. A processing method for pitch smoothing based on autocorrelation and cepstral F0 detection approaches
US20090089051A1 (en) Vocal fry detecting apparatus
Messaoud et al. Using multi-scale product spectrum for single and multi-pitch estimation
KR100744288B1 (ko) 음성 신호에서 음소를 분절하는 방법 및 그 시스템
JPH06110488A (ja) 音声検出方法および音声検出装置
Deshmukh et al. Detection of periodicity and aperiodicity in speech signal based on temporal information
CN118155656B (zh) 一种基于不自然性的语音对抗样本检测方法
Dasgupta DETECTION OF EXCITATION EPOCHS AND VOICING IN SPEECH SIGNALS USING HILBERT ENVELOPE
Deshmukh et al. A novel method for computation of periodicity, aperiodicity and pitch of speech signals
Mehta et al. Linear Dynamic Models for Voice Activity Detection.

Legal Events

Date Code Title Description
A201 Request for examination
PA0109 Patent application

Patent event code: PA01091R01D

Comment text: Patent Application

Patent event date: 20060417

PA0201 Request for examination
E902 Notification of reason for refusal
PE0902 Notice of grounds for rejection

Comment text: Notification of reason for refusal

Patent event date: 20070530

Patent event code: PE09021S01D

E902 Notification of reason for refusal
PE0902 Notice of grounds for rejection

Comment text: Notification of reason for refusal

Patent event date: 20071022

Patent event code: PE09021S01D

PG1501 Laying open of application
E701 Decision to grant or registration of patent right
PE0701 Decision of registration

Patent event code: PE07011S01D

Comment text: Decision to Grant Registration

Patent event date: 20080327

GRNT Written decision to grant
PR0701 Registration of establishment

Comment text: Registration of Establishment

Patent event date: 20080425

Patent event code: PR07011E01D

PR1002 Payment of registration fee

Payment date: 20080425

End annual number: 3

Start annual number: 1

PG1601 Publication of registration
PR1001 Payment of annual fee

Payment date: 20110330

Start annual number: 4

End annual number: 4

FPAY Annual fee payment
PR1001 Payment of annual fee

Payment date: 20120329

Start annual number: 5

End annual number: 5

FPAY Annual fee payment
PR1001 Payment of annual fee

Payment date: 20130328

Start annual number: 6

End annual number: 6

PR1001 Payment of annual fee

Payment date: 20140328

Start annual number: 7

End annual number: 7

PR1001 Payment of annual fee

Payment date: 20150330

Start annual number: 8

End annual number: 8

FPAY Annual fee payment

Payment date: 20160330

Year of fee payment: 9

PR1001 Payment of annual fee

Payment date: 20160330

Start annual number: 9

End annual number: 9

FPAY Annual fee payment

Payment date: 20170330

Year of fee payment: 10

PR1001 Payment of annual fee

Payment date: 20170330

Start annual number: 10

End annual number: 10

FPAY Annual fee payment

Payment date: 20180329

Year of fee payment: 11

PR1001 Payment of annual fee

Payment date: 20180329

Start annual number: 11

End annual number: 11

FPAY Annual fee payment

Payment date: 20190328

Year of fee payment: 12

PR1001 Payment of annual fee

Payment date: 20190328

Start annual number: 12

End annual number: 12

PR1001 Payment of annual fee

Payment date: 20200330

Start annual number: 13

End annual number: 13

PC1903 Unpaid annual fee