KR100294920B1 - 심한 잡음 환경에서 이동 전화기의 음성인식을 위한 음성검출방법 및 장치 - Google Patents
심한 잡음 환경에서 이동 전화기의 음성인식을 위한 음성검출방법 및 장치 Download PDFInfo
- Publication number
- KR100294920B1 KR100294920B1 KR1019980037173A KR19980037173A KR100294920B1 KR 100294920 B1 KR100294920 B1 KR 100294920B1 KR 1019980037173 A KR1019980037173 A KR 1019980037173A KR 19980037173 A KR19980037173 A KR 19980037173A KR 100294920 B1 KR100294920 B1 KR 100294920B1
- Authority
- KR
- South Korea
- Prior art keywords
- voice
- section
- frame
- average
- par
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/72—Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
- H04M1/724—User interfaces specially adapted for cordless or mobile telephones
- H04M1/72403—User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/0017—Lossless audio signal coding; Perfect reconstruction of coded audio signal by transmission of coding error
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
- G10L2025/932—Decision in previous or following frames
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Networks & Wireless Communication (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
Description
종류 SNR | 22dB이상 | 15~10dB | -6~6dB |
프레임별 게인 | 95% | 72% | 21% |
유사 게인 | 95% | 96% | 75% |
종류 SNR | 22dB이상 | 15~10dB | -6~6dB |
유사 게인 | 99% | 96% | 75% |
후처리1(게인 정보) | 99% | 97% | 79% |
후처리2(게인+스펙트럼) | 99% | 97% | 87% |
Claims (14)
- 음성 보코더에서 생성된 음성특징 파라미터만을 이용하여 음성을 검출하는 방법에 있어서,(a)상기 보코더에서 상기 음성특징 파라미터를 추출하는 과정;(b)상기 음성특징 파라미터를 이용하여 유사신호를 생성하는 과정;(c)상기 유사신호의 절대값을 합해 얻어진 프레임별 유사신호의 게인을 생성하는 과정;(d)상기 유사신호 게인의 중첩평균을 시간에 따라 구하는 과정;(e)상기 유사신호 게인의 중첩평균결과와 이전 프레임들의 결과를 이용하여 현재 프레임이 음성인지, 음성과 음성사이의 묵음구간인지를 결정하고, 음성과 음성사이의 묵음구간을 포함한 시작위치와 끝위치 정보를 알려주는 과정;(f)상기 (e)과정의 결과를 이용하여 음성구간의 시작위치와 끝위치 결과의 앞뒤 소정 프레임내에서 상기 (e)과정을 다시 수행시켜 음성출력 결과를 보정하는 과정; 및(g)상기 (f)과정후 스펙트럼 정보를 이용하여 재보정하는 과정을 포함함을 특징으로 하는 음성검출방법.
- 제1항에 있어서, 상기 (b)과정에서 상기 유사신호 x(i)는x(i) = w(i) * G + x(i-L) * B(여기서, i는 샘플 수에 해당하는 시간 변수이고, G값은 프레임별 게인 값, L은 프레임별 피치, B는 프레임별 피치 게인, x(i)는 유사 신호, w(i)는 백색 신호이다.)에 의해 생성됨을 특징으로 하는 음성검출방법.
- 제2항에 있어서, 상기 (c)과정에서 상기 유사신호 게인 s(j)는s(j) = abs_sum(x(j*I) ~ x(j*(I+1) - 1))(여기서, j는 프레임 수로서 j = i / I 에 해당한다. I는 프레임의 크기이다. abs_sum(x(k) ~ x(m))는 k번째 유사신호부터 m번째 유사신호까지의 절대값 합을 의미한다.)에 의해 생성됨을 특징으로 하는 음성검출방법.
- 제3항에 있어서, 상기 (d)과정에서 유사신호 게인의 중첩평균 nG(j)는nG(j) = (s(j-3) + s(j-2) + s(j-1) + s(j)) / 4에 의해 계산됨을 특징으로 하는 음성검출방법.
- 제1항에 있어서, 상기 (g)과정은(g.1)음성구간의 초기구간에서 스펙트럼의 초기 평균을 구하는 소과정;(g.2)프레임 별 단구간 평균 스펙트럼을 계산하는 소과정;(g.3)상기 평균 스펙트럼의 파워를 계산하는 소과정;(g.4)상기 평균 스펙트럼의 파워값에 대한 변화값을 계산하는 소과정; 및(g.5)상기 평균 스펙트럼의 파워 변화값으로부터 스펙트럼 파라미터를 구하는 소과정을 포함함을 특징으로 하는 음성검출방법.
- 제5항에 있어서, 상기 (g.1)과정에서 스펙트럼의 초기 평균은ave_par[k] = (par[0][k] + ... + par[4][k]) / 5 (k=0, .. ,K-1)(여기서, k 는 스펙트럼 차수를 의미한다.)에 의해 계산됨을 특징으로 하는 음성검출방법.
- 제5항에 있어서, 상기 (g.2)과정에서 평균 스펙트럼은x_par[i][k] = (par[i-2][k] + ... + par[i+2][k]) / 5(여기서, i 는 시간에 따른 프레임 인덱스이고, k 는 스펙트럼 차수를 의미한다.)에 의해 계산됨을 특징으로 하는 음성검출방법.
- 제5항에 있어서, 상기 (g.3)과정에서 평균 스펙트럼의 파워값은y_par[i] = abs(x_par[i][0] - ave_par[0]) + ...+ abs(x_par[i][K-1] - ave_par[K-1])(여기서, i 는 시간에 따른 프레임 인덱스이고, k 는 스펙트럼 차수를 의미한다.)에 의해 계산됨을 특징으로 하는 음성검출방법.
- 제5항에 있어서, 상기 (g.4)과정에서 평균 스펙트럼의 파워 변화값은p_par[i] = (y_par[i-2] + ... + y_par[i+2]) / 5(여기서, i 는 시간에 따른 프레임 인덱스이다.)에 의해 계산됨을 특징으로 하는 음성검출방법.
- 제5항에 있어서, 상기 (g.5)과정에서 스펙트럼 파라미터는s_par[i] = abs(2*p_par[i-2] + p_par[i-1] - p_par[i+1] - 2*p_par[i+2])(여기서, i 는 시간에 따른 프레임 인덱스이다.)에 의해 계산됨을 특징으로 하는 음성검출방법.
- 음성 보코더에서 생성된 음성특징 파라미터만을 이용하여 음성을 검출하는 음성검출장치에 있어서,프레임별 패킷 데이터에서 소정시간이내에 상기 보코더에서 음성특징 파라미터를 추출하는 입력 인터페이스;상기 음성특징 파라미터를 이용하여 유사신호를 생성하는 유사신호 생성부;상기 유사신호의 절대값을 합해 얻어진 프레임별 유사신호의 게인을 생성하는 유사신호 게인 생성부;상기 유사신호 게인의 중첩평균(moving average)을 시간에 따라 구하는 게인 평균부;음성과 비음성을 결정하기 위한 소정의 게인 문턱치를 계산하는 게인 문턱치 계산부;상기 게인 평균부의 결과와 이전 프레임들의 결과를 이용하여 현재 프레임이 음성인지, 음성과 음성사이의 묵음구간인지를 결정하는 프레임 상태 판정부; 및상기 현재 프레임의 음성과 음성사이의 묵음구간을 포함한 시작 위치와 끝 위치를 결정하는 음성구간 결정부;상기 프레임 상태 판정부의 결과를 이용하여 음성구간의 시작위치와 끝위치 결과의 앞뒤 소정 프레임내에서 상기 프레임 상태 판정부를 다시 수행시켜 음성출력 결과를 보정하는 제1후처리부; 및상기 제1후처리부로부터 출력된 결과를 스펙트럼 정보를 이용하여 재보정하는 제2후처리부를 포함함을 특징으로 하는 음성검출장치.
- 제11항에 있어서, 제2후처리부는처리하고자 하는 음성구간의 초기구간에서 스펙트럼의 평균을 구하는 초기 평균 스펙트럼 계산부;각 프레임별 단구간에서의 스펙트럼의 평균을 구하는 평균 스펙트럼 계산부;기준치가 되는 상기 초기평균 스펙트럼과 현재 프레임의 상기 평균 스펙트럼간의 차이를 구해 절대값을 구하는 스펙트럼 파워 계산부;상기 스펙트럼 파워 값들을 평균하는 평균 스펙트럼 파워 계산부; 및상기 평균 스펙트럼 파워값을 이용하여 음성 구간내에서 음성구간 끝점을 미세하게 조정하는 디퍼런스 필터링부를 포함함을 특징으로 하는 음성검출장치.
- 제1항에 있어서, 상기 (e)과정은(e1)현재 프레임의 유사신호 게인 평균값이 묵음구간에 해당하는 제1임계치와 음성구간에 해당하는 제2임계치와 비교하는 과정;(e2)현재 프레임의 유사신호 게인 평균값이 제1임계치 보다 작다면 그 구간은 묵음구간, 현재 프레임의 유사신호 게인 평균값이 제2임계치 보다 크다면 그 구간은 음성구간, 현재 프레임의 유사신호 게인 평균값이 제1임계치 보다 크고, 제2임계치보다 작다면 바로 이전 프레임이 음성구간이라면 그 구간은 음성구간, 바로 이전 프레임이 음성구간이 아니라면 그 구간은 묵음구간으로 판정하는 단계;(e3)상기 단계에서 묵음구간으로 판정이 난 경우, 이전 상태판정단에서 음성구간이 있었고, 마지막 음성구간의 끝부터 현재 프레임까지의 길이가 소정의 음성입력종료임계치 보다 크다면 음성검출을 완료하는 과정; 및(e4)음성검출이 완료되었으면 전체 음성 입력에서 음성의 시작위치와 끝위치를 구하는 과정을 포함함을 특징으로 하는 음성검출방법.
- 제1항에 있어서, 상기 (f)과정은(f1)음성구간이 연속되어 있다면 그 연속구간(혹은 음성펄스구간)의 시작과 끝 위치정보를 이용하여 펄스 구간 길이를 구하는 과정;(f2)펄스 구간의 길이가 정해진 값보다 작다면 그 펄스 구간음 음성이 아니라 주변잡음이므로 묵음구간으로 편입시키는 과정; 및(f3)상기 (f2)과정의 결과를 고려하여 묵음구간의 길이가 소정의 음성입력종료임계치보다 큰 부분이 있는지 점검하여, 첫번째 펄스나 마지막 펄스가 상기 (f2)과정에 의해 묵음으로 편입되었다면 전체 음성의 시작과 끝도 그에 따라 변경하고, 세개 이상의 펄스가 존재하는 경우에서 첫 번째나 마지막 펄스가 아닌 그 외의 펄스가 묵음으로 편입되어 바로 앞뒤의 음성사이가 소정의 음성입력종료임계치보다 크게 될 때는 전체 음성구간을 두 부분으로 나누어 각각 음성구간의 시작 위치와 끝위치를 구하고 그 구간의 길이를 구하여 얻어진 두 부분의 길이중 큰 쪽을 선택하는 과정을 포함함을 특징으로 하는 음성검출방법.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1019980037173A KR100294920B1 (ko) | 1998-09-09 | 1998-09-09 | 심한 잡음 환경에서 이동 전화기의 음성인식을 위한 음성검출방법 및 장치 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1019980037173A KR100294920B1 (ko) | 1998-09-09 | 1998-09-09 | 심한 잡음 환경에서 이동 전화기의 음성인식을 위한 음성검출방법 및 장치 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20000019199A KR20000019199A (ko) | 2000-04-06 |
KR100294920B1 true KR100294920B1 (ko) | 2001-07-12 |
Family
ID=19550072
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1019980037173A Expired - Fee Related KR100294920B1 (ko) | 1998-09-09 | 1998-09-09 | 심한 잡음 환경에서 이동 전화기의 음성인식을 위한 음성검출방법 및 장치 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR100294920B1 (ko) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100474310B1 (ko) * | 2002-11-27 | 2005-03-10 | 엘지전자 주식회사 | 휴대폰의 소음 제거 장치 |
-
1998
- 1998-09-09 KR KR1019980037173A patent/KR100294920B1/ko not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
KR20000019199A (ko) | 2000-04-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100719650B1 (ko) | 잡음 신호에서 음성의 엔드포인팅 방법 | |
EP1208563B1 (en) | Noisy acoustic signal enhancement | |
EP0770988B1 (en) | Speech decoding method and portable terminal apparatus | |
US6411927B1 (en) | Robust preprocessing signal equalization system and method for normalizing to a target environment | |
KR20010014352A (ko) | 음성 통신 시스템에서 음성 강화를 위한 방법 및 장치 | |
IL125649A (en) | Method and device for detecting signal of a sound sampled from noise | |
US20060100866A1 (en) | Influencing automatic speech recognition signal-to-noise levels | |
EP0634041B1 (en) | Method and apparatus for encoding/decoding of background sounds | |
Itoh et al. | Environmental noise reduction based on speech/non-speech identification for hearing aids | |
KR100294920B1 (ko) | 심한 잡음 환경에서 이동 전화기의 음성인식을 위한 음성검출방법 및 장치 | |
US20080228477A1 (en) | Method and Device For Processing a Voice Signal For Robust Speech Recognition | |
KR100294921B1 (ko) | 이동 전화기의 음성인식을 위한 음성 검출 방법 및 장치 | |
JP2905112B2 (ja) | 環境音分析装置 | |
KR100647291B1 (ko) | 음성의 특징을 이용한 음성 다이얼링 장치 및 방법 | |
JPH0643892A (ja) | 音声認識方法 | |
KR100278640B1 (ko) | 이동 전화기를 위한 음성 다이얼링 장치 및방법 | |
Vereecken et al. | Noise suppression and loudness normalization in an auditory model-based acoustic front-end | |
JP3896654B2 (ja) | 音声信号区間検出方法及び装置 | |
Kleinschmidt et al. | Combining monaural noise reduction algorithms and perceptive preprocessing for robust speech recognition | |
JPH0337699A (ja) | 騒音抑圧回路 | |
HK1015183B (en) | Method and apparatus for encoding/decoding of background sounds | |
Itoh et al. | ENVIRONMENTAL NOISE REDUCTION BASED ON SPEECH/NON-SPEECH IDENTIFICATION pop | |
JPH04340598A (ja) | 音声認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
PA0109 | Patent application |
Patent event code: PA01091R01D Comment text: Patent Application Patent event date: 19980909 |
|
PA0201 | Request for examination |
Patent event code: PA02012R01D Patent event date: 19980909 Comment text: Request for Examination of Application |
|
PG1501 | Laying open of application | ||
E902 | Notification of reason for refusal | ||
PE0902 | Notice of grounds for rejection |
Comment text: Notification of reason for refusal Patent event date: 20000629 Patent event code: PE09021S01D |
|
E701 | Decision to grant or registration of patent right | ||
PE0701 | Decision of registration |
Patent event code: PE07011S01D Comment text: Decision to Grant Registration Patent event date: 20010312 |
|
GRNT | Written decision to grant | ||
PR0701 | Registration of establishment |
Comment text: Registration of Establishment Patent event date: 20010423 Patent event code: PR07011E01D |
|
PR1002 | Payment of registration fee |
Payment date: 20010424 End annual number: 3 Start annual number: 1 |
|
PG1601 | Publication of registration | ||
PR1001 | Payment of annual fee |
Payment date: 20040401 Start annual number: 4 End annual number: 4 |
|
PR1001 | Payment of annual fee |
Payment date: 20050404 Start annual number: 5 End annual number: 5 |
|
PR1001 | Payment of annual fee |
Payment date: 20060331 Start annual number: 6 End annual number: 6 |
|
PR1001 | Payment of annual fee |
Payment date: 20070319 Start annual number: 7 End annual number: 7 |
|
FPAY | Annual fee payment |
Payment date: 20080312 Year of fee payment: 8 |
|
PR1001 | Payment of annual fee |
Payment date: 20080312 Start annual number: 8 End annual number: 8 |
|
LAPS | Lapse due to unpaid annual fee | ||
PC1903 | Unpaid annual fee |