KR101610151B1

KR101610151B1 - 개인음향모델을 이용한 음성 인식장치 및 방법

Info

Publication number: KR101610151B1
Application number: KR1020140141167A
Authority: KR
Inventors: 방규섭; 이창헌
Original assignee: 현대자동차 주식회사
Priority date: 2014-10-17
Filing date: 2014-10-17
Publication date: 2016-04-08
Anticipated expiration: 2034-10-17
Also published as: CN105529026B; DE102015213715A1; US20160111084A1; CN105529026A

Abstract

개인음향모델을 이용한 음성 인식장치 및 방법이 제공되며, 본 발명의 하나의 실시예에 따른 개인음향모델을 이용한 음성 인식장치는 음성 데이터를 수집하는 수집부, 음성 데이터에 기초하여 학습을 수행하고 음성 데이터의 주체가 되는 화자의 개인음향모델을 생성하는 학습부, 공통음향모델과 음성 데이터, 그리고 개인음향모델을 저장하는 저장부, 그리고 화자의 음성인식 요청에 따라 화자의 음성 데이터 수집량에 기초하여 공통음향모델 또는 개인음향모델을 선택하여 음성인식을 수행하는 음성인식부를 포함한다.

Description

개인음향모델을 이용한 음성 인식장치 및 방법{SPEECH RECOGNITION DEVICE AND METHOD USING INDIVIDUAL SOUND MODEL}

개인음향모델을 이용한 음성 인식장치 및 방법이 제공된다.

음성인식 시스템에서는 미리 저장되어 있는 음향모델을 사용하여 음성인식을 수행한다. 이때, 음향모델은 음성신호가 어떤 형태로 표현되는지를 나타내며 기본 단위로는 음소(phoneme)를 사용하고 인접한 음소의 변화에 따른 음운 변화 현상을 제대로 반영하기 위해 트라이폰(triphone)과 같은 문맥의존 음향모델을 사용하기도 한다. 그러나, 트라이폰의 경우 최대 모델 개수는 n*n*n(n=음소개수)이라는 점에서 각각의 음향모델을 학습하기 위해서는 다량의 음성데이터가 필요하다.

종래 음성데이터는 무향실에서 직접 녹음하거나 서버를 통해 수집하고 있으나, 이러한 방법은 다량의 음성데이터를 수집하기가 어렵고 음성데이터의 품질을 보장할 수 없다. 또한, 다양한 음색을 골고루 포함하는 음성데이터를 수집하는데 한계가 있으며, 수집된 음성데이터에 기초하여 음향모델을 학습하고 이를 이용하여 음성인식을 수행한다는 점에서 수집된 음성데이터와 다른 음색을 포함하는 음성데이터에 대하여 음성인식 성능이 저하되는 문제가 있다. 예를 들어, 일반적으로 제공되는 음성인식 시스템은 성인 남성과 성인 여성의 음성데이터를 바탕으로 학습된 음향모델을 사용하므로, 성인 남성 또는 성인 여성과 음색이 다른 노인 또는 어린아이들의 음성데이터를 이용한 음성인식이 어렵다.

본 발명의 하나의 실시예가 해결하려는 과제는 화자의 음성데이터에 기초하여 화자별 음향모델을 생성하고 이를 이용하여 음성인식을 수행하는 개인음향모델을 이용한 음성 인식장치 및 방법을 제공하는 것이다.

상기 과제 이외에도 구체적으로 언급되지 않은 다른 과제를 달성하는 데 본 발명에 따른 실시예가 사용될 수 있다.

상기 과제를 해결하기 위해 본 발명의 하나의 실시예는, 음성 데이터를 수집하는 수집부, 상기 음성 데이터에 기초하여 학습을 수행하고 상기 음성 데이터의 주체가 되는 화자의 개인음향모델을 생성하는 학습부, 공통음향모델과 상기 음성 데이터, 그리고 상기 개인음향모델을 저장하는 저장부, 그리고 상기 화자의 음성인식 요청에 따라 상기 화자의 음성 데이터 수집량에 기초하여 상기 공통음향모델 또는 상기 개인음향모델을 선택하여 음성인식을 수행하는 음성인식부를 포함하는 개인음향모델을 이용한 음성 인식장치를 제안한다.

여기서, 상기 음성 데이터 내의 노이즈를 검출하여 제거하는 전처리부를 포함할 수 있다.

또한, 상기 수집부는 원격지 서버로부터 언어모델과 문맥정보를 수집하고, 상기 음성인식부는 상기 개인음향모델, 상기 언어모델, 그리고 상기 문맥정보에 기초하여 음성인식을 수행할 수 있다.

또한, 상기 학습부는 상기 음성 데이터에 기초하여 학습을 수행하고 상기 음성 데이터의 주체가 되는 다수의 화자에 대응하는 공통음향모델을 생성할 수 있다.

또한, 상기 음성데이터는 차량 내의 음성제어장치 또는 음성통화장치를 사용하는 화자의 음성데이터일 수 있다.

또한, 상기 음성데이터는 동일 계정의 음성제어장치 또는 음성통화장치를 사용하는 화자의 음성데이터일 수 있다.

또한, 상기 음성인식부는 상기 화자의 음성인식 요청에 따라 상기 화자의 음성데이터 수집량을 미리 설정된 임계값과 비교하는 수집량 비교부, 상기 화자의 음성데이터 수집량이 미리 설정된 임계값 이상인 경우 상기 개인음향모델에 기초하여 음성인식을 수행하는 제1 음성인식 처리부, 그리고 상기 화자의 음성데이터 수집량이 미리 설정된 임계값 미만인 경우 상기 공통음향모델에 기초하여 음성인식을 수행하는 제2 음성인식 처리부를 포함할 수 있다.

상기 과제를 해결하기 위해 본 발명의 하나의 실시예는, 음성데이터, 공통음향모델, 언어모델 그리고 문맥정보를 수집하는 단계, 상기 음성데이터를 학습하여 상기 음성데이터의 주체가 되는 화자의 개인음향모델을 생성하는 단계, 상기 화자의 음성인식 요청에 따라 상기 화자의 음성데이터 수집량을 미리 설정된 임계값과 비교하는 단계, 그리고 상기 화자의 음성데이터 수집량이 미리 설정된 임계값 이상인 경우 상기 개인음향모델에 기초하여 음성인식을 수행하고, 상기 화자의 음성데이터 수집량이 미리 설정된 임계값 미만인 경우 상기 공통음향모델에 기초하여 음성인식을 수행하는 단계를 포함하는 개인음향모델을 이용한 음성 인식방법을 제안한다.

여기서, 상기 음성데이터는 차량 내의 음성제어장치 또는 음성통화장치를 사용하는 화자의 음성데이터일 수 있다.

또한, 상기 수집단계는 상기 음성 데이터 내의 노이즈를 검출하여 제거하는 단계를 포함할 수 있다.

또한, 상기 개인음향모델 생성단계는 다수의 화자의 음성데이터에 기초하여 상기 다수의 화자에 대응하는 공통음향모델을 생성하는 단계를 포함할 수 있다.

본 발명의 하나의 실시예에 의하면 화자 개개인의 음향모델을 이용하여 음성인식을 수행함으로써 음성인식 성능을 향상시킬 수 있다. 또한, 음향모델 학습에 필요한 음성데이터의 수집 시간 및 비용을 절감할 수 있다.

도 1은 본 발명의 하나의 실시예에 따른 개인음향모델을 이용한 음성 인식장치이다.
도 2는 본 발명의 하나의 실시예에 따른 음성인식부의 상세 구성이다.
도 3은 본 발명의 하나의 실시예에 따른 개인음향모델을 이용한 음성 인식방법이다.

아래에서는 첨부한 도면을 참고하여 본 발명의 실시예들을 상세히 설명한다.

명세서 전체에서 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에 기재된 "…부"의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.

명세서 전체에서 "화자"는 음성 데이터 기반의 전자장치 즉, 음성제어장치 또는 음성통화장치의 사용자를 의미하며, "음성데이터"는 상기 사용자의 발화음성을 의미한다.

도 1은 본 발명의 하나의 실시예에 따른 개인음향모델을 이용한 음성 인식장치이다.

도 1의 음성 인식장치(200)는 음성 데이터 기반의 전자장치(100)와 무선통신망을 통해 연결되며, 서버로 구현될 수 있다.

도 1의 음성 인식장치(200)는 수집부(210), 전처리부(220), 제1 저장부(230), 학습부(240), 제2 저장부(250), 특징벡터 추출부(260), 음성인식부(270), 그리고 제어부(280)를 포함한다.

수집부(210)는 음성 데이터 기반의 전자장치(100)로부터 음성데이터를 수집한다. 이때, 음성 데이터 기반의 전자장치(100)는 사용자 음성에 의해 동작이 제어되는 음성제어장치(110)와 음성 또는 영상통화를 제공하는 음성통화장치(120)를 포함한다.

수집부(210)는 원격지의 서버로부터 음성인식에 사용되는 언어모델, 문맥정보, 그리고 공통음향모델을 수집하고 상기 언어모델, 상기 문맥정보, 상기 공통음향모델은 제2 저장부(250)에 저장된다.

전처리부(220)는 수집부(210)를 통해 수집된 음성데이터 내의 노이즈를 검출하고 상기 노이즈를 제거한다.

제1 저장부(230)는 전처리부(220)에서 노이즈가 제거된 상기 음성데이터를 저장한다.

학습부(240)는 제1 저장부(230)에 저장된 상기 음성데이터를 학습하여 음향모델을 생성한다. 이때, 한 명의 화자의 음성데이터를 학습하여 상기 한 명의 화자에 대응하는 개인음향모델을 생성한다.

학습부(240)는 제1 저장부(230)에 저장된 한 명 이상의 화자의 음성데이터를 학습하여 상기 한 명 이상의 화자 즉, 다수의 화자에 공통으로 대응하는 공통음향모델을 생성할 수 있다.

제2 저장부(250)는 학습부(240)에서 생성된 상기 개인음향모델 또는 상기 공통음향모델을 저장한다.

특징벡터 추출부(260)는 상기 화자로부터 음성인식 요청이 수신되면, 상기 화자의 음성데이터로부터 특징벡터를 추출한다.

특징벡터 추출부(260)는 MFCC(Mel Frequency Cepstral Coefficient) 추출법, LPC(Linear Predictive Coding) 추출법, 고역강조 추출법, 창 함수 추출법 등의 종래 기술을 사용하여 특성벡터를 추출하며, 종래기술에 대한 상세한 설명은 생략한다.

음성인식부(270)는 특징벡터 추출부(260)에서 전달되는 특성벡터에 기초하여 음성인식을 수행한다.

도 2는 본 발명의 하나의 실시예에 따른 음성인식부의 상세 구성이다.

도 2의 음성인식부(270)는 수집량 비교부(271), 제1 음성인식 처리부(272), 제2 음성인식 처리부(273)을 포함한다.

수집량 비교부(271)는 음성인식을 요청한 화자의 음성데이터 수집량을 미리 설정된 임계값과 비교한다.

제1 음성인식 처리부(272)와 제2 음성인식 처리부(273)는 수집량 비교부(271)의 비교결과에 따라 상기 화자의 음성인식을 수행한다.

구체적으로, 제1 음성인식 처리부(272)는 상기 화자의 음성데이터 수집량이 미리 설정된 임계값 이상인 경우 상기 개인음향모델, 상기 문맥정보, 그리고 상기 언어모델에 기초하여 음성인식을 수행한다.

반대로, 제2 음성인식 처리부(273)는 상기 화자의 음성데이터 수집량이 미리 설정된 임계값 미만인 경우 상기 공통음향모델, 상기 문맥정보, 그리고 상기 언어모델에 기초하여 음성인식을 수행한다. 이때, 상기 공통음향모델은 수집부(210)를 통해 원격지 서버로부터 수집된 공통음향모델이거나, 또는 학습부(240)를 통해 생성된 공통음향모델일 수 있다.

제어부(280)는 음성인식부(270)의 음성인식 결과에 기초하여 음성제어장치(110) 또는 음성통화장치(120)를 제어한다.

도 1의 음성인식 장치(200)에서 제1 저장부(230)는 상기 음성데이터를 화자별로 분류하여 저장한다. 구체적으로, 음성제어장치(110)와 음성통화장치(120)가 차량 내에 설치되어 있을 경우, 수집부(210)는 화자의 차량 탑승시 차량으로부터 전송되는 차량정보와 상기 화자의 음성데이터를 수집하고, 제1 저장부(230)는 상기 차량정보에 기초하여 상기 화자의 음성데이터를 분류하여 저장한다. 또한, 음성제어장치(110)와 음성통화장치(120)에서 공통적으로 사용되는 화자의 계정에 기초하여 상기 화자를 식별하고 상기 화자의 음성데이터를 분류하여 저장할 수 있다.

도 1의 음성인식 장치(200)에서 학습부(240)는 화자의 음성데이터 수집량을 미리 설정된 임계값과 비교한 결과에 따라 개인음향모델 또는 공통음향모델을 선택적으로 생성할 수 있다.

도 3은 본 발명의 제1 실시예에 따른 개인음향모델을 이용한 음성 인식방법이다.

먼저, 수집부(210)를 통해 제1 화자의 탑승을 감지한 차량으로부터 전송되는 차량정보와 상기 제1 화자의 음성데이터를 수집한다(s11).

이후, 제1 저장부(230)에 상기 제1 화자의 음성데이터를 저장한다(s12).

이때, s11단계와 s12단계 사이에서 전처리부(220)를 통해 상기 음성데이터 내에 존재하는 노이즈를 검출하여 제거할 수 있다.

이후, 학습부(240)를 통해 음향모델을 생성한다(s13). 이때, 제1 저장부(230)에 저장되어 있는 상기 제1 화자의 음성데이터에 기초하여 상기 제1 화자에 대응하는 개인음향모델을 생성한다. 또한, 제1 저장부(230)에 저장되어 있는 다수의 화자 즉, 제1 화자, 제2 화자, … , 제n 화자의 음성데이터에 기초하여 다수의 화자에 공통으로 대응하는 공통음향모델을 생성할 수 있다.

이후, 상기 제1 화자의 음성인식 요청을 수신하고, 특성벡터 추출부(260)를 통해 상기 제1 화자의 음성데이터로부터 특성벡터를 추출한다(s14).

이후, 수집량 비교부(271)를 통해 제1 저장부(230)에 저장되어 있는 상기 제1 화자의 음성데이터 수집량과 미리 설정되어 있는 임계값을 비교한다(s15).

s15단계의 비교결과, 상기 제1 화자의 음성데이터 수집량이 미리 설정되어 있는 임계값 이상인 경우 제1 음성인식 처리부(272)를 통해 상기 제1 화자의 개인음향모델, 제2 저장부(250)에 저장되어 있는 문맥정보와 언어모델에 기초하여 상기 제1 화자의 음성인식을 수행한다(s16).

s15단계의 비교결과, 상기 제1 화자의 음성데이터 수집량이 미리 설정되어 있는 임계값 미만인 경우 제2 음성인식 처리부(273)를 통해 상기 공통음향모델, 제2 저장부(250)에 저장되어 있는 문맥정보와 언어모델에 기초하여 상기 제1 화자의 음성인식을 수행한다(s17). 이때, 상기 공통음향모델은 수집부(210)를 통해 원격지 서버로부터 수집하거나 또는 학습부(240)를 통해 생성할 수 있다.

도 3의 개인음향모델을 이용한 음성 인식방법은 음성제어장치(110)와 음성통화장치(120)가 차량 내에 설치되어 있는 경우를 가정하여 설명하였으나, 이에 한정되는 것은 아니며, 음성제어장치(110)와 음성통화장치(120)에서 공통으로 사용되는 화자의 계정에 기초하여 화자를 식별하고 상기 화자의 음성데이터를 분류하여 저장하거나 음성인식을 수행할 수 있다.

본 발명의 실시예에 따르면 화자의 음성데이터 수집량에 기초하여 음향모델을 선택하고 선택된 음향모델을 이용하여 음성인식을 수행함으로써 화자별로 음성인식 성능을 향상시킬 수 있다.

본 발명의 실시예에 따르면 화자의 음성데이터를 누적하여 저장하고 누적된 음성데이터에 기초하여 실시간 또는 주기적으로 개인음향모델을 학습함으로써 화자별로 음성인식 성능을 향상시킬 수 있다.

이상에서 본 발명의 실시예에 대하여 상세하게 설명하였으나, 본 발명의 권리범위가 이에 한정되는 것은 아니며 본 발명이 속하는 분야에서 통상의 지식을 가진 자가 여러 가지로 변형 및 개량한 형태 또한 본 발명의 권리범위에 속한다.

110 : 음성제어장치 120 : 음성통화장치
210 : 수집부 220 : 전처리부
230 : 제1 저장부 240 : 학습부
250 : 제2 저장부 260 : 특징벡터 추출부
270 : 음성인식부 280 : 제어부

Claims

음성 데이터를 수집하는 수집부,
상기 음성 데이터에 기초하여 학습을 수행하고 상기 음성 데이터의 주체가 되는 화자의 개인음향모델을 생성하는 학습부,
다수의 화자에 공통으로 대응하는 공통음향모델과 상기 음성 데이터, 그리고 상기 개인음향모델을 저장하는 저장부, 그리고
상기 화자의 음성인식 요청에 따라 상기 화자의 음성 데이터 수집량에 기초하여 상기 공통음향모델 또는 상기 개인음향모델을 선택하여 음성인식을 수행하는 음성인식부를 포함하며,
상기 음성인식부는 상기 화자의 음성인식 요청에 따라 상기 화자의 음성데이터 수집량을 미리 설정된 임계값과 비교하는 수집량 비교부,
상기 화자의 음성데이터 수집량이 미리 설정된 임계값 이상인 경우 상기 개인음향모델에 기초하여 음성인식을 수행하는 제1 음성인식 처리부, 그리고
상기 화자의 음성데이터 수집량이 미리 설정된 임계값 미만인 경우 상기 공통음향모델에 기초하여 음성인식을 수행하는 제2 음성인식 처리부를 포함하는 개인음향모델을 이용한 음성 인식장치.
제1항에서,
상기 음성 데이터 내의 노이즈를 검출하여 제거하는 전처리부를 포함하는 개인음향모델을 이용한 음성 인식장치.
제1항 또는 제2항에서,
상기 수집부는 원격지 서버로부터 언어모델과 문맥정보를 수집하고,
상기 음성인식부는 상기 개인음향모델, 상기 언어모델, 그리고 상기 문맥정보에 기초하여 음성인식을 수행하는 개인음향모델을 이용한 음성 인식장치.
제1항 또는 제2항에서,
상기 학습부는 상기 음성 데이터에 기초하여 학습을 수행하고 상기 음성 데이터의 주체가 되는 다수의 화자에 대응하는 공통음향모델을 생성하는 개인음향모델을 이용한 음성 인식장치.
제1항에서,
상기 음성데이터는 차량 내의 음성제어장치 또는 음성통화장치를 사용하는 화자의 음성데이터인 개인음향모델을 이용한 음성 인식장치.
제1항에서,
상기 음성데이터는 동일 계정의 음성제어장치 또는 음성통화장치를 사용하는 화자의 음성데이터인 개인음향모델을 이용한 음성 인식장치.
삭제
음성데이터, 다수의 화자에 공통으로 대응하는 공통음향모델, 언어모델 그리고 문맥정보를 수집하는 단계,
상기 음성데이터를 학습하여 상기 음성데이터의 주체가 되는 화자의 개인음향모델을 생성하는 단계,
상기 화자의 음성인식 요청에 따라 상기 화자의 음성데이터 수집량을 미리 설정된 임계값과 비교하는 단계, 그리고
상기 화자의 음성데이터 수집량이 미리 설정된 임계값 이상인 경우 상기 생성된 화자의 개인음향모델에 기초하여 음성인식을 수행하고, 상기 화자의 음성데이터 수집량이 미리 설정된 임계값 미만인 경우 상기 공통음향모델에 기초하여 음성인식을 수행하는 단계
를 포함하는 개인음향모델을 이용한 음성 인식방법.
제8항에서,
상기 음성데이터는 차량 내의 음성제어장치 또는 음성통화장치를 사용하는 화자의 음성데이터인 개인음향모델을 이용한 음성 인식방법.
제8항에서,
상기 음성데이터는 동일 계정의 음성제어장치 또는 음성통화장치를 사용하는 화자의 음성데이터인 개인음향모델을 이용한 음성 인식방법.
제8항에서,
상기 수집단계는 상기 음성 데이터 내의 노이즈를 검출하여 제거하는 단계를 포함하는 개인음향모델을 이용한 음성 인식방법.
제8항에서,
상기 개인음향모델 생성단계는,
다수의 화자의 음성데이터에 기초하여 상기 다수의 화자에 대응하는 공통음향모델을 생성하는 단계를 포함하는 개인음향모델을 이용한 음성 인식방법.