[go: up one dir, main page]

KR950001067B1 - 음성인식장치 - Google Patents

음성인식장치 Download PDF

Info

Publication number
KR950001067B1
KR950001067B1 KR1019940026432A KR19940026432A KR950001067B1 KR 950001067 B1 KR950001067 B1 KR 950001067B1 KR 1019940026432 A KR1019940026432 A KR 1019940026432A KR 19940026432 A KR19940026432 A KR 19940026432A KR 950001067 B1 KR950001067 B1 KR 950001067B1
Authority
KR
South Korea
Prior art keywords
voice
band
speech
noise
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
KR1019940026432A
Other languages
English (en)
Inventor
죠지 카네
아끼라 노하라
Original Assignee
마쯔시다덴기산교 가부시기가이샤
다니이 아끼오
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR1019910008708A external-priority patent/KR950013552B1/ko
Application filed by 마쯔시다덴기산교 가부시기가이샤, 다니이 아끼오 filed Critical 마쯔시다덴기산교 가부시기가이샤
Priority to KR1019940026432A priority Critical patent/KR950001067B1/ko
Application granted granted Critical
Publication of KR950001067B1 publication Critical patent/KR950001067B1/ko
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

내용 없음.

Description

음성인식장치
제1도는 본 발명의 제1실시예에 의한 음성인식장치를 도시한 블록도.
제2도는 본 발명의 제2실시예에 의한 음성인식장치를 도시한 블록도.
제3도는 일반적인 켑스트럼분석을 설명하기 위한 그래프.
제4도는 본 발명에 있어서의 잡음예측을 설명하기 위한 그래프.
제5도와 제6도는 본 발명의 잡음제거를 설명하기 위한 그래프.
* 도면의 주요부분에 대한 부호의 설명
401 : 대역분할수단 402 : 켑스트럼분석수단
403 : 피크주파수검출수단 404 : 제1기억수단
405 : 제1비교수단 406 : 음성커팅아웃수단
407 : 특징추출수단 408 : 제2비교수단
409 : 제2기억수단 410 : 비교출력합성수단
411 : 피크검출수단 412 : 음성판별수단
413 : 잡음예측수단 414 : 잡음제거수단
415 : 대역합성수단
본 발명은, 사람이 발성한 말을 인식하는 음성인식장치에 관한 것이다.
최근, 연구소등, 비밀을 요하는 장소에서, 특별한 말을 발생하지 않으면, 사용할 수 없는 시스템이 개발되어 있다. 이 시스템은 음성인식기술을 이용해서, 예를들면 {「일」,「삼」,「오」,「칠」}이라는 말을 키(key)로 해서, 이 말을 시스템으로 향해서 발성함으로써, 이 시스템이 가동하도록 되어 있다.
그러나, 이와 같은 비밀을 요하는 시스템에 있어서는, 말을 키로할 뿐만 아니라, 말을 발성하는 사람도 특정인에 한정하는 것이 바람직하다. 즉, 미리 결정된 특정인이, 키가 되는 말을 발성함으로써, 시스템을 사용할 수 있도록 되는 쪽에서 비밀을 보다 지티기 쉽다고 할 수 있다.
본 발명의 목적은, 이와 같은 종래의 음성인식장치의 과제를 고려하여, 미리 결정된 사람이 발성한 음성만을 인식해서 출력하는 음성인식장치를 제공하는데 있다.
상기 목적을 달성하기 위한 본 발명에 따르면, 기지의 사람의 음성신호를 대역분할하고, 켑스트럼분석하여 얻은 피크주파수를 미리 기억하는 제1기억수단과, 미지의 잡음혼입의 음성입력신호를 대역분할하는 대역분할수단과, 대역분할수단의 출력을 켑스트럼분석하는 켑스트럼분석수단과, 켑스트럼분석수단의 켑스트럼분석출력으로부터 피크주파수를 검출하는 피크주파수검출수단과, 상기 피크주파수검출수단의 피크검출정보와 상기 제1기억수단에 기억된 각 피크주파수를 비교하고, 상기 미지의 음성신호가 누구의 음성신호인지를 판단하는 제1비교수단과, 각종 음성의 음성특징을 미리 기억하고 있는 제2기억수단과, 상기 잡음혼입의 음성신호로부터 음성부분을 커팅아웃하는 음성커팅아웃수단과, 커팅아웃된 음성의 특징을 추출하는 특징추출수단과, 특징추출수단에 의해서 추출된 음성특징과 상기 제2기억수단에 기억된 음성특징을 비교하여, 음성을 인식하는 제2비교수단과, 상기 제1비교수단의 비교결과와 제2비교수단의 비교결과에 의거하여, 소정의 처리를 행해서 출력하는 비교출력합성수단을 구비한 것을 특징으로 하는 음성인식장치가 제공된다.
본 발명의 상기 구성에 의한 음성인식장치는 음성신호로부터 음성을 발성한 사람을 켑스트럼분석을 이용해서 특정하고 사람의 정보도 이용하므로 비밀을 요하는 시스템 등에 유효하다. 또한, 잡음을 제거해서, 음성인식을 행하는 경우에는 잡음이 제거된 신호로부터 음성인식을 행할 수 있으므로 음성인식율이 한층 더 높아진다.
이하에 본 발명에 의한 각 실시예에 대해서 도면을 참조하면서 설명한다.
[실시예 1]
제1도는, 본 발명의 제1실시예에 의한 음성인식장치의 블록도이다. 제1도에 있어서 대역분할수단(401)은 신호에 대해서 대역분할을 행하는 수단으로서 예를들면 A/D변환기와 신호를 푸리에 변화하는 FFT수단을 구비하고 있다.
켑스트럼분석수단(402)은 켑스트럼분석을 행하는 수단이다.
제3도(a)는, 신호를 주파수분석하여 얻은 스펙트럼을 나타내고, 제3도는(b)는 켑스트럼(cepstrum)을 나타낸 그래프이다.
피크주파수검출수단(403)은, 켑스트럼분석수단(402)으로부터 얻은 켑스트럼 분포의 피크주파수를 검출하는 수단이다. 즉, 제3도(b)에 도시한 켑스트럼에 대한 피치(피크)가 피크주파수를 나타낸다.
제1기억수단(404)은 기지의 사람의 음성신호를 대역분할하고 대역분할된 신호에 대해서 켑스트럼분석을 행하고 켑스트럼분석결과로부터 얻은 피크주파수를 미리 기억하고 있는 ROM 등으로 이루어진 제1기억수단이다.
제1비교수단(405)는 피크주파수검출수단(403)의 피크검출정보와 제1기억수단(404)에 기억된 각 피크주파수를 비교하고 미지의 음성신호가 누구의 음성신호인지를 판단하는 수단이다. 소정의 허용범위내에서 가장 가까운 피크주파수의 소유자가 그 사람이라고 판단한다.
한편, 제2기억수단(409)은, 각종 음성의 음성특성을 미리 기억하고 있는 ROM등으로 이루어진 수단이다. 예를들면, 단어마다 또는 「아」,「이」,「우」 등의 음절마다 또는 음소마다 음성의 특징을 기억하고 있다.
음성커팅아웃수단(406)은 잡음혼입의 음성신호로부터 음성부분을 커팅아웃하는 수단이다. 예를들면, 필터 등을 사용한다.
특징추출수단(407)은 커팅아웃된 음성의 특징을 추출하는 수단이다.
제2비교수단(408)은 특징추출수단(407)에 의해서 추출된 음성특징과 제2기억수단(409)에 기억된 음성특징을 비교하고, 음성을 확인하는 수단이다. 예를들면, 패턴매칭법들의 기법을 사용한다.
비교출력합성수단(410)은 상기 제1비교수단(405)의 비교결과와 제2비교수단(408)의 비교결과에 의거하여 소정의 처리를 행하여 그 결과를 출력하는 수단이고, 예를들면, 미리 지정된 사람이외의 사람의 경우에는 인식결과를 출력하지 않도록 한다. 또는, 누구의 음성인지에 대한 정보를 부여해서 인식결과를 출력해도 된다.
다음에 상기 실시예의 동작을 설명한다.
먼저, 제1기억수단(404)에 기지의 사람의 음성신호를 대역분할하여 켑스트럼분석하고, 켑스트럼분석출력으로부터 얻는 피크주파수를 미리 기억해 둔다. 그리고, 제2기억수단(409)에 각종 음성의 음성특징을 미리 기억해 둔다.
대역분할수단(401)에서 미지의 잡음혼입의 음성입력신호를 대역분할하고 켑스트럼분석수단(402)에서 대역분할수단(401)의 출력을 켑스트럼분석하고 피크주파수검출수단(403)에서 켑스트럼분석수단(402)의 켑스트럼분석출력으로부터 피크주파수를 검출하고 제1비교수단(405)에서 상기 피크주파수검출수단(403)의 피크검출 정보와 상기 제1기억수단(404)에 기억된 각 피크주파수를 비교하고 미지의 음성신호가 누구의 음성신호인지를 판단한다.
음성 커팅아웃수단(406)에서 상기 잡음혼입의 음성신호로부터 음성부분을 커팅아웃하고 특징추출수단(407)에서 커팅아웃된 음성의 특징을 추출하고 제2비교수단(408)에서 특징추출수단(407)에 의해서 추출된 음성특징과 상기 제2기억수단(409)에 기억된 음성특징을 비교하여 음성으로 인식한다.
비교출력합성수단(410)에서 상기 제1비교수단(405)의 비교결과와 제2비교수단(408)의 비교결과에 의거하여 소정의 사람음성신호의 경우에만 음성인식결과를 출력한다.
[실시예 2]
제2도는 본 발명에 의한 제2실시예이고, 대역분할수단(401), 켑스트럼분석수단(402), 제1기억수단(404), 제1비교수단(405), 음성커팅아웃수단(406), 특징추출수단(407), 제2비교수단(408), 제2기억수단(409), 비교출력합성수단(410)은 제1도에 도시한 것과 마찬가지이므로 이에 대한 설명은 생략한다.
피크검출수단(411)은 켑스트럼분석수단(402)에 의한 켑스트럼분석결과를 이용해서 피크를 검출하는 수단이고 피크주파수검출수단(403)은 피크정보에 의거하여 피크주파수를 검출하는 수단이다. 한편, 음성 판별수단(412)은 피크정보에 의거하여 음성부분을 판별하는 수단이다. 잡음예측수단(413)은 음성판별수단(412)에 의한 음성부분정보를 이용해서, 상기 대역분할된 신호에 대해서 음성부분의 잡음을 예측하는 수단이다. 이 잡음예측수단(413)은 m개의 채널로 분할된 음성/잡음입력에 의거하여, 잡음성분을 각 채널마다 예측하는 수단이다. 예를들면, 제4도에 표시한 바와 같이, X축에 주파수, Y축에 음성레벨, Z축에 시간을 취하는 동시에 주파수(f1) 데이터(P1),(P2), ... ,(Pi)를 취하고, 다음의 데이터(Pj)를 예측한다. 예를들면, 잡음부분(P1)∼(Pi)의 평균을 취하여 데이터(Pj)로 한다. 또는 음성신호부분이 다시 계속될 때에는 데이터(Pj)에 감쇠계수를 곱한다. 잡음제거수단(414)은 상기 대역분할된 신호로부터 예측된 잡음을 제거하는 수단이다.
일반적으로 잡음제거의 방법의 일례로서 시간축에 대한 잡음제거는, 제5도에 표시한 바와 같이 잡음혼입의 음성신호(a)로부터 예측된 잡음파형(b)을 감산함으로써 행해진다. 이에 의해서 음성신호(c)만이 인출된다. 또한, 본 실시예에서는 제6도에 표시한 바와 같이, 주파수를 기준으로 한 잡음제거에 의해서 잡음혼입의 음성신호(a)를 푸리에 변환하고, 푸리에 변환된 스펙트럼(b)으로부터 예측잡음의 스펙트럼(c)를 감산하고, 감산된 스펙트럼(d)을 푸리에 역변환해서 잡음이 없는 음성신호(e)를 얻는다. 대역합성수단(415)은 잡음제거수단(414)으로부터 공급되는 m개의 채널의 신호를 푸리에 역변환해서 음성출력을 얻는 수단이다. 상기 음성커팅아웃수단(406), 대역합성수단(415)에 의해서 합성된 신호로부터 음성커팅아웃을 행한다.
본 실시예에서는, 이와 같이, 음성을 인식하는 대상이 되는 음성신호로부터 잡음을 제거하고 있으므로 보다 높은 인식율을 가지는 음성인식이 행하여진다.
[다른 실시예]
또한, 이상의 실시예에 있어서, 켑스트럼분석수단, 피크주파수검출수단, 비교수단 등의 각종 수단은 컴퓨터를 이용해서 소프트웨어적으로 실현할 수 있으나 전용의 하드회로를 사용해도 실현가능하다.
또한 본 발명에 있어서 잡음이란, 착안하는 신호이외의 신호를 의미하므로 음성에 대해서도 잡으로 취급되는 일이 있을 수 있다.
상기한 실시예로부터 명백한 바와 같이, 본 발명에 의한 음성인식장치는 음성신호로부터 음성을 발성한 사람을 켑스트럼분석을 이용하여 특정하고, 그 사람이 정보도 이용하므로 비밀을 요하는 시스템 등에 유효하다.
또한 잡음을 제거해서, 음성인식을 행하는 경우에는 잡음이 제거된 신호로부터 음성인식을 행할 수 있으므로 음성인식율이 한층 더 높아진다.

Claims (2)

  1. 기지의 사람의 음성신호를 대역분할하고 켑스트럼분석하여 얻은 피크주파수를 미리 기억하는 제1기억수단과, 미지의 잡음혼입의 음성입력신호를 대역분할하는 대역분할수단과, 대역분할수단의 출력을 켑스트럼 분석하는 켑스트럼분석수단과, 켑스트럼분석수단의 켑스트럼분석출력으로부터 피크주파수를 검출하는 피크주파수검출수단과, 상기 피크주파수검출수단의 피크검출정보와 상기 제1기억수단에 기억된 각 피크주파수를 비교하고, 미지의 음성신호가 어느 사람의 음성신호인지를 판단하는 제1비교수단과, 각종 음성의 음성특징을 미리 기억하고 있는 제2기억수단과, 상기 잡음혼입의 음성신호로부터 음성부분을 커팅아웃하는 음성커팅아웃수단과, 커팅아웃된 음성의 특징을 추출하는 특징추출수단과, 특징추출수단에 의해서 추출된 음성특징과 상기 제2기억수단에 기억된 음성특징을 비교하여 음성을 인식하는 제2비교수단과, 상기 제1비교수단의 비교결과와 제2비교수단의 비교결과에 의거하여, 소정의 처리를 행해서 출력하는 비교출력합성수단을 구비한 것을 특징으로 하는 음성인식장치.
  2. 제1항에 있어서, 켑스트럼분석수단에 의한 켑스트럼분석결과를 이용해서 음성부분을 판별하는 음성판별수단과, 음성판별수단에 의한 음성부분정보를 이용해서, 상기 대역분할된 신호로부터 음성부분의 잡음을 예측하는 잡음예측수단과, 상기 대역분할된 신호로부터, 예측된 잡음을 제거하는 잡음제거수단과, 잡음제거 수단의 출력을 대역합성하는 대역합성수단을 부가하여 구비하고, 상기 음성커팅아웃수단은 이 대역합성수단에 의해서 합성된 신호로부터 커팅아웃을 행하는 것을 특징으로 하는 음성인식장치.
KR1019940026432A 1990-05-28 1994-10-15 음성인식장치 Expired - Fee Related KR950001067B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1019940026432A KR950001067B1 (ko) 1990-05-28 1994-10-15 음성인식장치

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP90-138067 1990-05-28
JP13806790 1990-05-28
KR1019910008708A KR950013552B1 (ko) 1990-05-28 1991-05-28 음성신호처리장치
KR1019940026432A KR950001067B1 (ko) 1990-05-28 1994-10-15 음성인식장치

Publications (1)

Publication Number Publication Date
KR950001067B1 true KR950001067B1 (ko) 1995-02-08

Family

ID=26471208

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019940026432A Expired - Fee Related KR950001067B1 (ko) 1990-05-28 1994-10-15 음성인식장치

Country Status (1)

Country Link
KR (1) KR950001067B1 (ko)

Similar Documents

Publication Publication Date Title
EP0763812B1 (en) Speech signal processing apparatus for detecting a speech signal from a noisy speech signal
KR950013551B1 (ko) 잡음신호예측장치
US7117149B1 (en) Sound source classification
US4665548A (en) Speech analysis syllabic segmenter
KR960005740B1 (ko) 음성신호처리장치
KR950013553B1 (ko) 음성신호처리장치
US20030046069A1 (en) Noise reduction system and method
KR950001067B1 (ko) 음성인식장치
JP3106543B2 (ja) 音声信号処理装置
JPH04230796A (ja) 音声信号処理装置
GB2216320A (en) Selective addition of noise to templates employed in automatic speech recognition systems
JP3114757B2 (ja) 音声認識装置
EP1391876A1 (en) Method of determining phonemes in spoken utterances suitable for recognizing emotions using voice quality features
JPH04230798A (ja) 雑音予測装置
JP2968976B2 (ja) 音声認識装置
JPH05165492A (ja) 音声認識装置
KR950013555B1 (ko) 음성신호처리장치
JP2959792B2 (ja) 音声信号処理装置
KR960007843B1 (ko) 음성신호처리장치
Vysotsky Speaker-independent isolated word recognition using a one-pass analysis
JPH02100099A (ja) 音声認識装置
JPS59218499A (ja) 音声誤認識防止方法
JPS59176798A (ja) 単音節音声認識方式

Legal Events

Date Code Title Description
A107 Divisional application of patent
A201 Request for examination
PA0107 Divisional application

St.27 status event code: A-0-1-A10-A16-div-PA0107

St.27 status event code: A-0-1-A10-A18-div-PA0107

PA0201 Request for examination

St.27 status event code: A-1-2-D10-D11-exm-PA0201

R17-X000 Change to representative recorded

St.27 status event code: A-3-3-R10-R17-oth-X000

G160 Decision to publish patent application
PG1605 Publication of application before grant of patent

St.27 status event code: A-2-2-Q10-Q13-nap-PG1605

E701 Decision to grant or registration of patent right
PE0701 Decision of registration

St.27 status event code: A-1-2-D10-D22-exm-PE0701

GRNT Written decision to grant
PR0701 Registration of establishment

St.27 status event code: A-2-4-F10-F11-exm-PR0701

PR1002 Payment of registration fee

Fee payment year number: 1

St.27 status event code: A-2-2-U10-U11-oth-PR1002

PR1001 Payment of annual fee

Fee payment year number: 4

St.27 status event code: A-4-4-U10-U11-oth-PR1001

PR1001 Payment of annual fee

Fee payment year number: 5

St.27 status event code: A-4-4-U10-U11-oth-PR1001

PN2301 Change of applicant

St.27 status event code: A-5-5-R10-R11-asn-PN2301

St.27 status event code: A-5-5-R10-R13-asn-PN2301

R18-X000 Changes to party contact information recorded

St.27 status event code: A-5-5-R10-R18-oth-X000

PR1001 Payment of annual fee

Fee payment year number: 6

St.27 status event code: A-4-4-U10-U11-oth-PR1001

PR1001 Payment of annual fee

Fee payment year number: 7

St.27 status event code: A-4-4-U10-U11-oth-PR1001

PR1001 Payment of annual fee

Fee payment year number: 8

St.27 status event code: A-4-4-U10-U11-oth-PR1001

PR1001 Payment of annual fee

Fee payment year number: 9

St.27 status event code: A-4-4-U10-U11-oth-PR1001

PR1001 Payment of annual fee

Fee payment year number: 10

St.27 status event code: A-4-4-U10-U11-oth-PR1001

PR1001 Payment of annual fee

Fee payment year number: 11

St.27 status event code: A-4-4-U10-U11-oth-PR1001

PR1001 Payment of annual fee

Fee payment year number: 12

St.27 status event code: A-4-4-U10-U11-oth-PR1001

FPAY Annual fee payment

Payment date: 20070125

Year of fee payment: 13

PR1001 Payment of annual fee

Fee payment year number: 13

St.27 status event code: A-4-4-U10-U11-oth-PR1001

LAPS Lapse due to unpaid annual fee
PC1903 Unpaid annual fee

Not in force date: 20080209

Payment event data comment text: Termination Category : DEFAULT_OF_REGISTRATION_FEE

St.27 status event code: A-4-4-U10-U13-oth-PC1903

R18-X000 Changes to party contact information recorded

St.27 status event code: A-5-5-R10-R18-oth-X000

PC1903 Unpaid annual fee

Ip right cessation event data comment text: Termination Category : DEFAULT_OF_REGISTRATION_FEE

Not in force date: 20080209

St.27 status event code: N-4-6-H10-H13-oth-PC1903

PN2301 Change of applicant

St.27 status event code: A-5-5-R10-R11-asn-PN2301

St.27 status event code: A-5-5-R10-R13-asn-PN2301