KR102711295B1

KR102711295B1 - 음성 인식 장치 및 그것을 이용한 음성 인식 속도 개선 방법

Info

Publication number: KR102711295B1
Application number: KR1020200077320A
Authority: KR
Inventors: 김대현; 정요원
Original assignee: 주식회사 케이티
Priority date: 2020-06-24
Filing date: 2020-06-24
Publication date: 2024-09-26
Anticipated expiration: 2040-06-24
Also published as: KR20210158667A

Abstract

본 발명은 적어도 하나의 프로세스에 의해 동작하는 컴퓨팅 장치가 음성 인식 속도를 개선하는 방법으로서, 발화된 문장을 입력받으면, 문장의 단어들을 순차적으로 연결한 복수의 단어열로 구성된 제1 그래프(First lattice Tree)를 생성하고, 제1 그래프에 포함된 단어별 초기 비용에 기초하여 단어열에 대한 초기 비용들의 합이 최소가 되는 기준 스코어를 선정하는 단계, 제1 그래프에서 문장의 음절 순서에 따라 단어를 선택하고, 선택된 단어가 연결되는 하나의 단어열에 따라 인식될 비용을 재산출하여 해당 단어열에 대한 전체 비용을 추정하고 전체 비용이 기준 스코어보다 큰 값을 가지면 해당 단어열로 연결되는 상기 선택된 단어를 가지치기하는 단계, 그리고 제1 그래프의 복수의 단어열에 대해 가지치기를 완료하여 제2 그래프를 생성하고, 제2 그래프의 단어열 중에서 단어별 재산출한 비용들의 합이 최소가 되는 하나의 단어열을 선택하는 단계를 포함한다.

Description

음성 인식 장치 및 그것을 이용한 음성 인식 속도 개선 방법{APPARATUS FOR AUTOMATIC SPEECH RECOGNITION AND METHOD FOR IMPROVING SPEECH RECOGNITION SPEED USING THE SAME}

RNN 언어 모델의 음성 인식 속도를 향상시키는 기술에 관한 것이다.

최근에는 기존의 back-off N-gram 언어 모델 방식의 음성인식보다 높은 인식률을 가지는 RNN 언어 모델(Recurrent Neural Network Language Model)의 음성인식 기술이 다양한 시스템에서 적용되고 있다.

다만, 1-pass 디코딩 시 RNN 언어 모델로 음성인식을 수행하면 비슷한 스코어를 가지는 유사한 후보군이 거의 무한대로 발생하게 되어 사용이 어렵기 때문에 정적 언어모델 생성 및 정적 음성인식 그래프 생성이 불가하다.

그러므로 RNN 언어 모델의 음성인식 기술은 2-pass 디코딩 방식을 이용한다. 여기서, 2-pass 디코딩 방식은 1-pass에서는 back-off N-gram 언어 모델을 통해 디코딩을 수행하고, 2-pass 에서는 RNN 언어 모델을 통해 리스코어링하는 방식이다.

이에 1-pass 에서는 후보군을 압축하고 2-pass에서는 압축된 후보군으로부터 정밀한 음성인식이 가능하다. 다만 기존의 이러한 방식은 1-pass에서 출력된 노드 및 경로를 다시 풀어헤쳐 만들기 때문에 2-pass에서 수행하는 스코어링 개수가 기하급수적으로 발생하게 되어 인식 속도에 악영향을 준다.

도 1은 기존의 back-off N-gram 방식과 2-pass의 RNN 언어 모델로 음성 인식을 수행하는 그래프를 나타낸 예시도이다.

“두 철수 팟캐스트 틀어줘”라는 음성은 입력받은 경우, 도 1의 (a)는 back-off N-gram으로 음성을 인식하였으나 오인식된 과정의 예시와 음성 인식을 하기 위한 확장된 노드 및 경로들을 나타낸 예시도이다.

도 1의 (a)에서는 백 오프 N-그램(back-off N-gram) 방식의 음성인식 과정에서 초기에 잘못 인식된 음절에 대한 스코어가 낮게 책정되는 경우에는 이후에의 음절이 정확하게 인식되더라도 낮은 스코어의 경로를 선택하는 최적 경로에 의해서 잘못된 문장이 인식될 수 있다. 그리고 도 1의 (a)에서 보면 각 연결 경로는 가중치 유한 상태 후보(Weighted Finite State Acceptor, WFSA) 기반으로 최적화 과정을 통해 생성되며, 서로 다른 경로를 갖는 단어열로 인해 동일 스코어가 발생할 수 있다.

이에 실제 발화는 “두철수 팟캐스트 틀어줘”이지만, 가장 낮은 경로 스코어가 나온 “주차 할 수 팟캐스트 틀어줘”로 오인식된다.

한편, 도 1의 (b)에서와 같이, 2-pass의 RNN 언어 모델의 음성 인식 방법은 1-pass에서 back-off N-gram 값이 똑같이 출력된 경우에 격자 트리 형태의 노드 및 경로에서 압축되지만, 2-pass에서는 압축된 스코어가 서로 다르게 출력되기 때문에 각각의 노드에서 확장한다. 그리고 도 1의 (b)처럼 전체 노드 및 경로가 확장된 도면에서 최적의 경로를 생성하여 생성된 최적의 경로로 음성 인식을 완료한다.

그렇기 때문에 2-pass의 RNN 언어 모델은 노드 및 경로의 확장 정도에 대응하여 음성 인식 속도가 느려진다.

특히, 정적 네트워크가 아닌 실시간 음성인식에 사용하는 경우, 매번 RNN 언어 모델 네트워크를 통해 스코어 값을 출력하는 과정에서 엔-그램(N-gram)의 차수가 클수록 인식 속도가 기하급수적으로 감소하게 된다.

그러므로 실시간 음성 인식의 성능을 보장하면서 음성 인식 속도를 개선할 수 있는 기술이 요구된다.

해결하고자 하는 과제는 음성 인식 성능을 보장하면서 엔-그램의 차수에 따라 증가되는 노드 및 경로들을 가지치기 함으로써, RNN 언어 모델의 음성 인식 속도를 향상시키는 음성 인식 기술을 제공하기 위한 것이다.

본 발명의 특징에 따르면,적어도 하나의 프로세스에 의해 동작하는 컴퓨팅 장치가 음성 인식 속도를 개선하는 방법으로서, 발화된 문장을 입력받으면, 문장의 단어들을 순차적으로 연결한 복수의 단어열로 구성된 제1 그래프를 생성하고, 제1 그래프에 포함된 단어별 초기 비용에 기초하여 단어열에 대한 초기 비용들의 합이 최소가 되는 기준 스코어를 선정하는 단계, 제1 그래프에서 문장의 음절 순서에 따라 단어를 선택하고, 선택된 단어가 연결되는 하나의 단어열에 따라 인식될 비용을 재산출하여 해당 단어열에 대한 전체 비용을 추정하고 전체 비용이 기준 스코어보다 큰 값을 가지면 해당 단어열로 연결되는 선택된 단어를 가지치기하는 단계, 그리고 제1 그래프의 복수의 단어열에 대해 가지치기를 완료하여 제2 그래프를 생성하고, 제2 그래프의 단어열들 중에서 단어별 재산출한 비용들의 합이 최소가 되는 하나의 단어열을 선택하는 단계를 포함한다.

기준 스코어를 선정하는 단계는, 백오프 엔그램(back-off N-gram)을 이용하여 제1 그래프를 생성하고, 단어열에서 단어별로 연결 단어와의 관계에 기초하여 해당 단어를 인식하기 위한 초기 비용을 산출할 수 있다.

선택된 단어를 가지치기하는 단계는, 순환 신경망 언어 모델(Recurrent Neural Network Language Model, RNN-LM)을 이용하여 해당 단어열에서 선택된 단어를 인식하기 위해 재산출한 비용을 최종 비용으로 산출할 수 있다.

선택된 단어를 가지치기하는 단계는, 선택된 단어를 포함하여 선택된 단어의 이전 단어에 할당된 최종 비용과 선택된 단어의 이후 단어에 할당된 초기 비용을 모두 합한 값을 해당 단어열의 전체 비용으로 추정할 수 있다.

선택된 단어를 가지치기하는 단계는, 제2 그래프에서 최초로 하나의 단어열을 구성하는 단어들에 최종 비용이 모두 할당되면, 해당 단어열에 대한 초기 비용들의 합과 최종 비용들의 합 간의 차이값을 보상값으로 설정할 수 있다.

보상값이 설정되면, 다음 단어열에 대한 전체 비용을 산출할 때 보상값을 포함할 수 있다.

본 발명의 또 다른 특징에 따르면,음성 인식 장치로서, 메모리, 그리고 상기 메모리에 로드된 프로그램의 명령들(instructions)을 실행하는 적어도 하나의 프로세서를 포함하고, 프로그램은 발화된 문장에 대한 음성 인식을 수행하여 문장의 음절 순서에 따른 단어들을 순차적으로 연결한 단어열들로 구성된 제1 그래프(First lattice Tree)를 획득하고, 단어열별로 상기 단어열에 포함된 단어마다 백오프 엔그램(back-off N-gram)을 통해 해당 단어를 인식하기 위한 초기 비용을 계산하면, 단어열로 인식하기 위한 전체 비용이 최소가 되는 값을 기준 스코어로 선정하는 단계, 문장의 음절 순서에 따라 단어를 선택하고, 선택한 단어에서 연결되는 단어열마다 순환신경망 언어 모델(Recurrent Neural Network Language Model, RNN-LM)을 통해 선택한 단어를 인식하기 위한 최종 비용을 산출하면, 최종 비용을 포함하여 해당 단어열에 대한 전체 비용을 산출하는 단계, 해당 단어열에 대한 전체 비용이 기준 스코어보다 큰 값을 가지면 해당 단어열로 연결되는 선택한 단어를 가지치기하는 단계, 그리고 제1 그래프에 대해 가지치기를 완료하여 제2 그래프를 획득하면, 제2 그래프의 단어열 중에서 전체 비용이 최소가 되는 단어열을 선택하는 단계를 실행하도록 기술된 명령들을 포함한다.

기준 스코어를 산출하는 단계는, 단어열별로 상기 단어열에 포함된 단어마다 해당 단어를 인식하는 데 소요되는 비용을 조건부 확률값으로 계산하는 단계, 발화된 문장을 음향 모델에 적용하여 음성 입력 프레임 단위로 음향 모델 스코어를 할당하는 단계, 그리고 단어별로 상기 조건부 확률값과 음향 모델 스코어를 조합하여 각 단어들에 대한 초기 비용을 할당하는 단계를 포함할 수 있다.

전체 비용을 산출하는 단계는, 선택된 단어를 포함하여 선택된 단어의 이전 단어에 할당된 최종 비용과 선택된 단어의 이후 단어에 할당된 초기 비용을 모두 합한 값을 전체 비용으로 산출할 수 있다.

전체 비용을 산출하는 단계는, 최초로 하나의 단어열에 포함된 단어들에 대해 최종 비용을 모두 산출하면 해당 단어열에 대한 최종 비용들의 합과 초기 비용들의 합간의 차이값을 보상 값으로 선정하고, 다음 단어열의 전체 비용을 산출할 때 보상값을 포함할 수 있다.

기준 스코어로 선정하는 단계는, 전체 비용이 최소가 되는 값에 빔(Beam) 스코어 값을 더하여 기준 스코어를 선정하며, 빔 스코어의 값이 작을수록 해당 단어를 제외하는 가지치기가 타이트하게 수행될 수 있다.

실시예에 따르면 음성 인식의 전체 경로 스코어 기반으로 음성 인식률에 영향을 주지 않는 경로들을 선별하여 가지치기를 수행함으로써 RNN 언어 모델의 음성 인식률을 보장하면서 음성 인식에 필요한 시간을 단축시킬 수 있다.

실시예에 따르면, 음성 인식의 경로에서 순방향 비용(스코어)뿐 아니라 역방향 비용까지 고려하여 보다 정확한 가지치기와 리스코어링을 수행하기 때문에 음성 인식률의 신뢰성을 보장할 수 있다.

도 1은 기존 방식의 back-off N-gram 방식과 2-pass의 RNN언어 모델 방식으로 음성 인식을 수행하는 그래프를 나타낸 예시도이다.
도 2는 본 발명의 실시예에 따른 음성 인식 장치를 도시한 구성도이다.
도 3은 본 발명의 실시예에 따른 음성 인식 장치의 음성 인식 속도 개선 방법을 나타낸 흐름도이다.
도 4 내지 도 8은 본 발명의 실시예에 따른 가지치기 과정을 설명하기 위한 예시도이다.
도 9는 본 발명의 실시예에 따른 최적 경로를 나타낸 예시도이다.
도 10은 본 발명의 실시예에 따른 컴퓨팅 장치의 하드웨어 구성도이다.

아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에 기재된 "…부", "…기", "모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.

이하 명세서에서 제1 그래프는 백오프 엔-그램(back-off N-gram)을 통해 획득한 격자 트리 정보를 의미하고, 제2 그래프는 순환신경망 언어모델(RNN 언어 모델)을 통해 가지치기를 수행하여 획득한 격자 트리 정보를 의미한다. 다시 말해, 제1 그래프에서 가지치기를 완료한 격자 트리 정보를 제2 그래프로 나타낸다.

이하 명세서에서 제1 그래프에 포함된 단어에 할당된 초기 비용은 백오프 엔그램을 통해 산출된 비용을 의미하고, 제2 그래프에 포함된 단어에 할당된 최종 비용은 순환신경망 언어 모델을 통해 산출된 비용을 의미한다. 그리고 전체 비용은 발화된 문장을 해당 단어열로 인식되는데 소요되는 비용의 합을 의미하는 것으로, 초기 비용과 최종 비용의 합으로 산출된다.

도 2는 본 발명의 실시예에 따른 음성 인식 장치를 도시한 구성도이다.

도 2에 도시한 바와 같이, 음성 인식 장치(100)는 사용자로부터 발화된 음성을 수집하여 음성의 문장을 인식할 수 있다.

음성 인식 장치(100)는 인식부(110), 가지치기부(120), 그리고 리스코어링부(130)를 포함한다.

설명을 위해, 인식부(110), 가지치기부(120), 그리고 리스코어링부(130)로 명명하여 부르나, 이들은 적어도 하나의 프로세서에 의해 동작하는 컴퓨팅 장치이다. 여기서, 인식부(110), 가지치기부(120), 그리고 리스코어링부(130)는 하나의 컴퓨팅 장치에 구현되거나, 별도의 컴퓨팅 장치에 분산 구현될 수 있다. 별도의 컴퓨팅 장치에 분산 구현된 경우, 인식부(110), 가지치기부(120), 그리고 리스코어링부(130)는 통신 인터페이스를 통해 서로 통신할 수 있다. 컴퓨팅 장치는 본 발명을 수행하도록 작성된 소프트웨어 프로그램을 실행할 수 있는 장치이면 충분하고, 예를 들면, 서버, 랩탑 컴퓨터 등일 수 있다.

먼저, 인식부(110)는 발화된 문장을 백오프 엔-그램(back-off N-gram)에 의해 음성 인식을 수행한다.

인식부(110)는 발화된 문장을 통해 해당 문장의 음절마다 추정되는 단어들을 순차적으로 연결한 복수의 단어열로 구성된 제1 그래프(First lattice Tree)를 생성한다.

상세하게는 인식부(110)는 백오프 엔-그램(back-off N-gram)을 이용하여 문장의 음절마다 back-off N-gram 값이 유사한 후보군을 가지는 단어들을 출력할 수 있다. 여기서, 단어들은 가중치 유한 상태 후보(WFSA) 기반으로 선정되며, 최적화 과정을 통해 단어들 사이에서 여러 경로가 발생할 수 있다.

다시 말해 인식부(110)에서는 제1 그래프에서 연결 라인(arc, 가지 등을 의미함)에 단어와 해당 단어의 초기 비용에 대한 정보를 저장할 수 있다.

초기 비용은 단어열에서 단어별로 연결 단어와의 관계에 기초하여 해당 단어를 인식하기 위한 백오프 엔그램의 스코어를 의미하고, 인식부(110)는 카운트(Count) 기반으로 단어들 간에 N그램별 조건부 확률값으로 산출한다.

예를 들어, 3-gram의 언어 모델을 이용할 때,“두 철수 팟캐스트”을 음성으로 수신하면, “두 철수” count =3와 “두 철수 팟캐스트” count =9를 하여, “두 철수”는 분모값으로, “두 철수 팟캐스트”는 분자값으로 하여 조건부 확률값이 계산된다. 이 때의 확률값은 0.33이고 이 값을 정규화하여 10의 스코어로 환산할 수 있다. 여기서 정규화 방법은 주로 가중 로그 스케일(weighted log scale) 방식이 사용되지만 반드시 이에 한정하는 것은 아니다. 가중 로그 스케일은 이는 log scale을 취한 뒤, 일정 가중치(weight) 값을 곱해주는 방식으로 Back-off weight의 경우 N-gram의 count가 없을 때 (N-1)-gram 확률값을 계산할 때 쓰이는 값이다. 이를 계산하기 위한 (N-1)-gram에서 남겨 놓은 확률값은 back-off weight으로, (N-1)-gram 출현 비율대로 계산해 놓은 값을 의미한다.

이처럼 인식부(110)는 각 단어에 초기 비용을 할당하여 최종 단어열마다 전체 비용을 산출한다.

그리고 인식부(110)는 문자열마다 초기 비용들의 합한 값 들 중에서 최적의 경로를 가지는 문자열의 초기 비용들의 합을 선택할 수 있다.

상세하게는 기준 스코어는 백오프 엔-그램을 통해 최적 경로로 산정된 초기 비용의 합에 빔(Beam) 스코어 값을 더한 값이다. 빔 스코어는 통상 휴리스틱(huristic) 기법으로 설정된다. 휴리스틱 기법은 한정된 시간 내에 수행하기 위해 최적의 해 대신 현실적으로 만족할 만한 수준의 해를 구하는 방법이다. 예를 들어, 빔 스코어의 값이 작게 설정될수록 정밀하게 해당 단어에 대해 가지치기가 수행된다.

이때, 인식부(110)는 음향 모델에 적용하여 음성 입력 프레임 단위로 음향 모델 스코어를 할당할 수 있다. 그리고 인식부(110)는 초기 비용의 합, 빔 스코어 그리고 음향 모델 스코어들을 합 한 값으로 기준 스코어를 산정할 수 있다.

가지치기부(120)는 인식부(110)에서 생성한 제1 그래프에 대한 전체 경로 스코어(전체 비용) 기반으로 가지치기를 수행한다.

가지치기부(120)는 인식부(110)에서 생성한 제1 그래프의 압축된 경로를 해제하면서 해당 문장의 음절 순서에 기초하여 선택한 단어에서 연결되는 단어열마다 RNN 언어 모델(Recurrent Neural Network Language Model, RNN-LM)을 통해 선택한 단어를 인식하기 위한 최종 비용을 산출한다.

가지치기부(120)는 해당 최종 비용을 포함하여 해당 단어열에 대한 전체 비용을 산출한다. 여기서, 전체 비용은 단어열에 포함된 단어마다의 비용을 전부 합한 값으로, RNN 언어 모델을 통해 산출한 최종 비용은 해당 단어에 한정되기 때문에, 해당 단어의 이후에 위치하는 해당 문자열의 단어들은 최종 비용에 대한 정보를 얻기 어렵다.

그러므로 가지치기부(120)는 해당 단어열에 포함된 단어들 중에서 최종 비용이 산출된 단어에 대해서는 최종 비용을 선택하고, 그 이외의 단어에서는 인식부(110)에서 산출한 초기 비용을 선택한다. 그리고 가지치기부(120)는 해당 단어열에 대해 최종 비용과 초기 비용을 합한 값으로 전체 비용을 산출한다.

가지치기부(120)는 해당 단어열에 대한 전체 비용이 기준 스코어보다 큰 값을 가지면 해당 단어열로 연결되는 선택한 단어를 가지치기한다.

가지치기부(120)는 해당 단어열로 연결을 끊기 위해 선택한 단어를 제외하는 것으로, 해당 선택한 단어가 복수의 단어열로 연결되는 경우에는 각 단어열마다 가지치기 여부를 판단하여 해당 단어를 삭제하거나 가지치기되지 않은 단어열로의 연결하는 해당 선택한 단어를 포함할 수 있다.

한편, 가지치기부(120)는 최초로 하나의 문자열에서 마지막 단어까지 최종 비용을 산출하면, 가지치기의 역방향 비용을 산출하여 보상값으로 선정한다. 그리고 가지치기부(120)는 다음 문자열에 대해서 전체 비용을 산출하면, 선정한 보상값을 전체 비용에 포함시킨다.

이후 보상값은 계속해서 각 문자열의 가지치기 여부를 판단할 때 최종 비용의 합에 포함되며, 보정값을 포함한 전체 비용이 기준 스코어보다 크면 해당 단어를 가지치기한다.

가지치기부(120)는 제1 그래프에 대한 모든 단어열에 대해 가지치기 여부를 판단하면 최종적으로 남은 제2 그래프를 획득한다. 이때, 가지치기가 완료된 제2 그래프에는 각 단어에 할당된 최종 비용이 할당된다.

이처럼 음성 인식 장치(100)는 back-off N-gram의 비용(스코어)는 가지치기 용도로만 사용되고 최종적으로 하나의 문자열을 선택할 때에는 순환신경망 언어 모델에 의한 비용(스코어)를 이용한다,

리스코어링부(130)는 획득한 제2 그래프의 문자열 중에서 최적의 문자열을 선택한다.

이때, 리스코어링부(130)는 가지치기가 완료된 후, 가지치기가 수행되지 않은 문자열 중에서 최종 비용의 합으로 전체 비용을 산출하면, 전체 비용이 최소 값을 가지는 문자열을 선택할 수 있다. 여기서 보상값을 포함하지 않는다.

이하에서는 도 3 내지 도 9을 이용하여 음성인식 네트워크 가지치기를 통해 순환 언어모델의 음성 인식 속도를 개선하는 방법에 대해서 상세하게 설명한다.

도 3은 본 발명의 실시예에 따른 음성 인식 장치의 음성 인식 속도 개선 방법을 나타낸 흐름도이고, 도 4 내지 도 8은 본 발명의 실시예에 따른 가지치기 과정을 설명하기 위한 예시도이다. 그리고 도 9는 본 발명의 실시예에 따른 최적 경로를 나타낸 예시도이다.

먼저 음성 인식 장치(100)는 발화된 문장을 입력받으면, 제1 그래프를 생성하고 제1 그래프에 기초하여 기준 스코어를 선정한다(S110).

음성 인식 장치(100)는 발화된 문장을 입력받으면, 문장의 음절마다 추정되는 단어들을 순차적으로 연결한 복수의 단어열로 구성된 제1 그래프를 생성한다. 그리고 음성 인식 장치(100)는 제1 그래프에 포함된 단어별 초기 비용에 기초하여 단어열에 대한 초기 비용들의 합이 최소가 되는 기준 스코어를 선정한다(S110).

문자열에 대한 초기 비용들의 합들 중에서 최소가 되는 값에 빔(Beam) 스코어 값을 더하여 기준 스코어를 선정한다.

상세하게는 음성 인식 장치(100)는 백오프 엔그램을 이용하여 문장의 음절마다 추정되는 단어들을 순차적으로 연결한 복수의 단어열을 생성하고, 각 단어열에서 단어마다 연결 단어와의 관계에 기초하여 해당 단어를 인식하기 위한 초기 비용을 산출한다. 여기서, 초기 비용은 카운트 기반으로 추정된 단어들의 조건부 확률값을 추출하며, 추출한 조건부 확률값이 초기 비용으로 설정된다.

예를 들어, N-gram에서 N은 해당 어휘 기준으로 스코어 계산에 사용되는 어휘 개수가 N개라는 뜻으로, 기준이 되는 어휘 1개와 앞의 N-1개 단어가 사용된다. N=3으로 3-gram의 언어 모델을 이용할 때, 해당 어휘와 앞의 2개 단어가 같이 스코어 계산에 사용된다.

그리고 음성 인식 장치(100)는 기준 스코어를 선정할 때, 빔(Beam) 스코어 값을 더하여 가지치기 범위를 조절할 수 있다. 빔 스코어 값이 작을수록 가지치기는 타이트하게 수행된다.

또한 음성 인식 장치(100)는 백오프 엔그램을 통한 초기 비용 이외에도 음향 모델의 스코어가 같이 사용될 수 있다. 음향 모델 스코어의 경우 음성 입력 프레임(10~20ms) 단위로 출력되고, 언어모델 스코어와 음향모델 스코어가 조합되어 기준 스코어로 설정될 수 있다.

그리고 음성 인식 장치(100)는 연동되는 데이터베이스에 각 문자열마다 포함되는 단어에 할당된 초기 비용과 기준 스코어를 저장할 수 있다.

다음으로 음성 인식 장치(100)는 문장의 음절 순서에 따라, 선택된 단어에서 하나의 단어열로의 연결 여부를 결정하는 전체 비용을 산출하며, 전체 비용이 기준 스코어보다 큰 값을 가지면 해당 단어열로 연결되는 선택된 단어를 가지치기한다(S120).

1-pass 에서는 후보군을 압축하고 2-pass에서는 압축된 후보군으로부터 정밀하게 인식이 가능하기 때문에 음성 인식 장치(100)는 해당 제1 그래프의 압축을 해제하면서 동시에 가지치기 여부를 판단할 수 있다.

음성 인식 장치(100)는 제1 그래프를 A라고 하면 가지치기 수행하고자 하는 단어를 B라고 한다. B는 가중치 유한 상태 후보를 나타내며, 해당 B를 연결하는 이전 라인에는 저장된 단어의 순환 신경망 언어 모델의 최종 비용이 산출되어 저장된다.

이때, 가지치기 대상이 되는 B는 실시간으로 만들어 지는 구조이며, A와 B가 동시에 출력되는 상황에서 최적의 단어열 경로를 C라고 한다.

예를 들어 A에 a 노드가 들어가 있고, B의 b 노드가 C의 c 경로로 a 노드와 매핑된다고 가정하면, 이 때 C의 최적의 경로는 다음 수학식 1과 같이 구성된다.

여기서 H(b)는 단어열마다 산출된 전체 비용 다시 말해, 단어열에 대한 경로 비용을 나타낸다.

이 때 α(b)는 시작 노드부터 b 노드까지의 최적 경로(best path)의 스코어인 최종 비용을 나타내고, β(b)는 b 노드부터 끝 노드까지의 최적 경로의 최종 비용을 나타낸다. 하지만 β(b)의 값은 실시간으로 확인하기 어렵기 때문에 이를 대신하여 이미 주어진 스코어 β(α)를 사용하면 다음 수학식 2와 같다.

여기서, β(α)는 현재 노드를 기준으로 계산할 수 없는 앞으로의 경로(forward path, arc들 집합)에 대한 스코어를 의미한다. 다시 말해, back-off N-gram 방식으로 각 단어마다 할당한 최초 스코어를 이용한다.

이처럼 음성 인식 장치(100)는 순차적으로 선택된 단어에 대해 산출된 최종 비용과 단어열에 포함된 이후 단어들의 최초 비용들의 합을 기준 스코어와 비교하여 가지치기를 판단한다.

다음으로 음성 인식 장치(100)는 최초로 하나의 문자열에 대해 최종 비용을 모두 산출하면, 초기 비용들의 합과 최종 비용들의 합 간의 차이값을 보상값으로 설정한다(S130).

다시 말해, 음성 인식 장치(100)는 최초의 문자열에 대해 가지치기하지 않고 최종 비용을 모두 산출하면, 보상값()을 설정한다.

여기서 보상값()은 β(b)- β(α)를 나타낸다. 여기서, β(b)는 1개 이상의 마지막 노드까지 경로가 도달한 경우 산출 가능하기 때문에 온전한 단어열에 대한 최종 비용이 산출되면, 보상값을 설정한다.

보상값은 수학식 1을 적용하지 않고 수학식 2로 적용하는 과정에서 최종 비용과 초기 비용 간에 상이한 부분을 보상해주기 위해 설정된다.

그리고 음성 인식 장치(100)는 다음 문자열에 대해 전체 비용의 합에 보정값을 포함하여 기준 스코어와 비교하여 해당 단어의 가지치기 여부를 판단하여 수행한다(S140).

음성 인식 장치(100)는 다음 수학식 3과 같이 해당 스코어를 보상하여 단어열에 대한 전체 비용을 산출한다.

그리고 음성 인식 장치(100)는 가지치기를 완료한 후 최종 비용들의 합이 최소가 되는 하나의 단어열을 선택한다(S150).

음성 인식 장치(100)는 제1 그래프를 가지치기하여 제2 그래프를 획득하고 제2 그래프에서 가지치기 되지 않은 문자열 중에서 각 문자열의 전체 비용이 최소가 되는 하나의 문자열을 선택한다. 그리고 음성 인식 장치(100)는 발화된 문장을 선택한 문자열로 인식할 수 있다.

한편 본 발명에서는 단어열의 비용을 산출하여 최소값을 가지는 문자열을 선택한 것으로 설명하였지만, 추후에 단어열이 인식된 비용이 아닌 단어열이 인식될 확률을 이용할 경우, 최대값을 가지는 문자열을 선택할 수 있다.

예를 들어, 단어마다 인식될 확률값(스코어)을 산출하는 경우, 제1 그래프에서 단어열에 대한 초기 확률값이 최대가 되는 기준 스코어를 선정할 수 있고, 이를 통해 전체 확률값이 기준 스코어보다 작은 값을 가지면 해당 단어열로 연결되는 선택된 단어를 가지치기할 수 있다. 그리고 최종적으로 단어별 최종 확률값들의 합이 최대가 되는 하나의 단어열로 발화된 문장을 인식할 수 있다.

이하에서는 도 4 내지 도 8을 이용하여 가지치기하는 과정을 설명의 편의상 노드와 연결라인으로 도시하여 상세하게 설명한다.

여기서, 노드와 연결 라인 중에서 각각의 연결 라인에 음절에 따라 추정된 단어와 스코어(비용) 값이 저장된다.

도 4에 도시한 바와 같이, 빨간색으로 표시된 노드가 압축된 후보군을 해제하면서 가지치기를 수행하고자 하는 노드 후보(B)로, 각 경로마다 백오프-엔그램 모델에서 출력된 초기 비용을 연동하여 저장하고 있다.

이하에서는 사용자가 발화한 문장이 “두 철수 팟케스트 틀어줘”이며, 최적의 스코어는 66이고, 미리 설정된 빔 값은 6으로 가정하여 기준 스코어는 72로 가정하여 상세하게 설명하다.

여기서, 최적의 스코어 66은 백오프 엔그램을 통해 산출된 비용 중에서 최소의 비용을 의미한다.

먼저, 음성 인식 장치(100)는 “두” 라는 음성은 영어 단어 “to”와 “두” 그리고 “주차”라는 back-off N-gram 값이 유사한 후보군을 가질 수 있다.

여기서, 음성 인식 장치(100)는 순차적으로 단어마다 순환신경망 언어 모델을 통해 최종 비용을 산출하는데, “to”의 최종 비용이 34인 경우, “to”를 포함하는 단어열의 최종 비용(34)과 이하 단어들의 초기 비용들(23+ 10+ 3)의 합이 총 70이 된다.

이하의 단어들(찰스, 팟케스트, 틀어줘)는 최종 비용을 산출하지 않은 단어들로 백오프 엔-그램을 통해 산출했던 초기 비용들을 이용하여 단어열의 전체 비용을 산정한다.

이에 따라 음성 인식 장치(100)는 기준 스코어인 72와 비교하여 “to” 를 포함하는 단어열에 대한 합이 작으므로 해당 단어는 가지치기하지 않는다.

이와 마찬가지로, “두”와 “주파”의 경우에도 각각 총 합의 값이 67, 68로 가지치기 하지 않고 다음 음절로 넘어간다.

다음으로 음성 인식 장치(100)는 도 5의 (a)와 같이 “to”라는 노드에 다시 “찰스”와 “철수”에 대해 순환신경망 언어모델을 통해 최종 비용을 산출한다.

이때, to- 찰스로 연결되는 단어열의 경우에 제2 스코어의 값은 34, 26으로 산출하였고, 이후의 단어인 팟캐스트, 틀어줘의 단어의 경우에 초기 비용을 선택하여 합한 값이 (34+26)+(10+3)으로, 전체 비용은 73이 된다.

이에 음성 인식 장치(100)는 기준 스코어(72)보다 큰 값을 가지므로 해당 찰스의 단어에 대해 가지치기하여 단어열을 제거한다.

한편, to-철수로 연결되는 단어열의 경우에 최종 비용의 값은 34, 25으로 산출하였고, 이후의 단어인 팟캐스트, 틀어줘의 단어의 경우에 제1 스코어를 선택하여 합한 값이 (34+25)+(10+3)으로, 전체 비용이 72이 되어 가지치기하지 않는다.

도 5의 (b)와 (c)에서도 이와 동일한 방법으로 각 연결되는 단어에 대한 가지치기 여부를 판단한다.

그 결과, 두-철수, 두 -찰스 그리고 주차-할수에 대응하여 각각 전체 비용이 70,69 그리고 69을 가지기 때문에 가지치기하지 않고 다음단계로 넘어간다.

다음으로 도 6과 도 7를 통해 음성 인식 장치(100)는 각각의 인식 노드에서 다음 단어인 “팟케스트”에 대한 가지치기 여부를 판단할 수 있다.

도 6의 (a)와 같이, “to”-“철수”-“팟케스트”를 연결하는 경로의 스코어(H(b)는 74+3으로 기준값(72)보다 큰 값을 가지므로 음성 인식 장치(100)는 가지치기를 수행한다.

도 6의 (b)와 도 7의 (a)와 같이 “두”-“찰스”-“팟케스트” 의 경로와 “두”-“철수”-“팟케스트”의 경로의 스코어(H(b)는 각각 68+3, 65+3으로 기준값(72)보다 작은 값을 가지므로 가지치기를 수행하지 않는다.

한편, 도 7의 (b)와 같이, “주차”-“할수”-“팟케스트”의 경로의 스코어(H(b)는 73+3으로 기준값(72)보다 큰 값을 가지기 때문에 가지치기를 수행한다.

그러므로 도 8과 같이, 음성 인식 장치(100)는 수학식 3을 이용하여 마지막 경로의 스코어를 계산한. 이에 “두”- “찰스”-“팟캐스트”-“틀어줘”경로와 “두”- “철수”-“팟캐스트”-“틀어줘”경로의 스코어(H(b)는 각각 68+4, 65+2+5(theta(b))으로 기준값(72)과 같은 값을 가지므로 가지치기를 수행하지 않는다.

이때 스코어 보상은 최종 노드까지 도달한 경로가 발생한 시점 이후에 수행하며, 해당 시점 이후 계산하는 과정에서는 해당 보상값을 활용하여 보다 정확한 가지치기를 수행할 수 있다.

이에 최종적으로 음성 인식 장치(100)는 가지치기를 수행함으로써, 최종 도 9과 같은 경로로 확장할 수 있다.

그러므로 도 9와 같이 음성 인식 장치(100)는 “두 철수 팟케스트 틀어줘”라는 사용자의 발화 내용과 일치하는 문장으로 인식할 수 있다.

이처럼 음성 인식 장치(100)는 후보군의 압축을 해제하면서 동시에 가지치기를 수행함으로써, 연산의 횟수가 간소화되고 시간이 단축된다.

예를 들어, 도 1의(b)와 같이 확장된 상황에서 최적의 경로를 산출하는 것에 비하여 약 38% 시간 단축을 획득할 수 있다.

특히 이러한 시간 단축은 노드 크기가 작을 때 보다 문장이 길어서 노드의 크기가 크게 확장될 때 더 큰 시간 단축 효과를 획득할 수 있다.

도 10은 본 발명의 실시예에 따른 컴퓨팅 장치의 하드웨어 구성도이다

도 10에 도시한 바와 같이, 컴퓨팅 장치(200)의 하드웨어는 적어도 하나의 프로세서(210), 메모리(220), 스토리지(230), 통신 인터페이스(240)를 포함할 수 있고, 버스를 통해 연결될 수 있다. 이외에도 입력 장치 및 출력 장치 등의 하드웨어가 포함될 수 있다. 컴퓨팅 장치(200)는 프로그램을 구동할 수 있는 운영 체제를 비롯한 각종 소프트웨어가 탑재될 수 있다.

프로세서(210)는 컴퓨팅 장치(200)의 동작을 제어하는 장치로서, 프로그램에 포함된 명령들을 처리하는 다양한 형태의 프로세서(210)일 수 있고, 예를 들면, CPU(Central Processing Unit), MPU(Micro Processor Unit), MCU(Micro Controller Unit), GPU(Graphic Processing Unit) 등 일 수 있다. 메모리(520)는 본 발명의 동작을 실행하도록 기술된 명령들이 프로세서(210)에 의해 처리되도록 해당 프로그램을 로드한다. 메모리(220)는 예를 들면, ROM(read only memory), RAM(random access memory) 등 일 수 있다. 스토리지(230)는 본 발명의 동작을 실행하는데 요구되는 각종 데이터, 프로그램 등을 저장한다. 통신 인터페이스(240)는 유/무선 통신 모듈일 수 있다.

이상에서 설명한 본 발명의 실시예는 장치 및 방법을 통해서만 구현이 되는 것은 아니며, 본 발명의 실시예의 구성에 대응하는 기능을 실현하는 프로그램 또는 그 프로그램이 기록된 기록 매체를 통해 구현될 수도 있다.

이상에서 본 발명의 실시예에 대하여 상세하게 설명하였지만 본 발명의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 발명의 권리범위에 속하는 것이다.

Claims

적어도 하나의 프로세스에 의해 동작하는 컴퓨팅 장치가 음성 인식 속도를 개선하는 방법으로서,
발화된 문장을 입력받으면, 상기 문장의 단어들을 순차적으로 연결한 복수의 단어열로 구성된 제1 그래프를 생성하고, 상기 제1 그래프에 포함된 단어별 초기 비용에 기초하여 단어열에 대한 초기 비용들의 합이 최소가 되는 기준 스코어를 선정하는 단계,
상기 제1 그래프에서 상기 문장의 음절 순서에 따라 단어를 선택하고, 선택된 단어가 연결되는 하나의 단어열에 따라 인식될 비용을 재산출하여 해당 단어열에 대한 전체 비용을 추정하고 상기 전체 비용이 상기 기준 스코어보다 큰 값을 가지면 해당 단어열로 연결되는 상기 선택된 단어를 가지치기하는 단계, 그리고
상기 제1 그래프의 복수의 단어열에 대해 가지치기를 완료하여 제2 그래프를 생성하고, 상기 제2 그래프의 단어열들 중에서 단어별 재산출한 비용들의 합이 최소가 되는 하나의 단어열을 선택하는 단계,
를 포함하는 음성 인식 속도 개선 방법.
제1항에서,
상기 기준 스코어를 선정하는 단계는,
백오프 엔그램(back-off N-gram)을 이용하여 상기 제1 그래프를 생성하고, 단어열에서 단어별로 연결 단어와의 관계에 기초하여 해당 단어를 인식하기 위한 초기 비용을 산출하는 음성 인식 속도 개선 방법.
제2항에서,
상기 선택된 단어를 가지치기하는 단계는,
순환 신경망 언어 모델(Recurrent Neural Network Language Model, RNN-LM)을 이용하여 해당 단어열에서 상기 선택된 단어를 인식하기 위해 재산출한 비용을 최종 비용으로 산출하는 음성 인식 속도 개선 방법.
제1항에서,
상기 선택된 단어를 가지치기하는 단계는,
상기 선택된 단어를 포함하여 상기 선택된 단어의 이전 단어에 할당된 최종 비용과 상기 선택된 단어의 이후 단어에 할당된 초기 비용을 모두 합한 값을 해당 단어열의 상기 전체 비용으로 추정하는 음성 인식 속도 개선 방법.
제4항에서,
상기 선택된 단어를 가지치기하는 단계는,
상기 제2 그래프에서 최초로 하나의 단어열을 구성하는 단어들에 최종 비용이 모두 할당되면, 해당 단어열에 대한 초기 비용들의 합과 최종 비용들의 합 간의 차이값을 보상값으로 설정하는 음성 인식 속도 개선 방법.
제5항에서,
상기 보상값이 설정되면, 다음 단어열에 대한 상기 전체 비용을 산출할 때 상기 보상값을 포함하는 음성 인식 속도 개선 방법.
음성 인식 장치로서,
메모리, 그리고 상기 메모리에 로드된 프로그램의 명령들(instructions)을 실행하는 적어도 하나의 프로세서를 포함하고,
상기 프로그램은
발화된 문장에 대한 음성 인식을 수행하여 상기 문장의 음절 순서에 따른 단어들을 순차적으로 연결한 단어열들로 구성된 제1 그래프(First lattice Tree)를 획득하고, 단어열별로 상기 단어열에 포함된 단어마다 백오프 엔그램(back-off N-gram)을 통해 해당 단어를 인식하기 위한 초기 비용을 계산하면, 상기 단어열로 인식하기 위한 전체 비용이 최소가 되는 값을 기준 스코어로 선정하는 단계,
상기 문장의 음절 순서에 따라 단어를 선택하고, 선택한 단어에서 연결되는 단어열마다 순환신경망 언어 모델(Recurrent Neural Network Language Model, RNN-LM)을 통해 상기 선택한 단어를 인식하기 위한 최종 비용을 산출하면, 상기 최종 비용을 포함하여 해당 단어열에 대한 전체 비용을 산출하는 단계,
해당 단어열에 대한 전체 비용이 상기 기준 스코어보다 큰 값을 가지면 해당 단어열로 연결되는 상기 선택한 단어를 가지치기하는 단계, 그리고
상기 제1 그래프에 대해 가지치기를 완료하여 제2 그래프를 획득하면, 상기 제2 그래프의 단어열 중에서 전체 비용이 최소가 되는 단어열을 선택하는 단계
을 실행하도록 기술된 명령들을 포함하는 음성 인식 장치.
제7항에서,
상기 기준 스코어를 산출하는 단계는,
단어열별로 상기 단어열에 포함된 단어마다 해당 단어를 인식하는 데 소요되는 비용을 조건부 확률값으로 계산하는 단계,
상기 발화된 문장을 음향 모델에 적용하여 음성 입력 프레임 단위로 음향 모델 스코어를 할당하는 단계, 그리고
단어별로 상기 조건부 확률값과 상기 음향 모델 스코어를 조합하여 각 단어들에 대한 초기 비용을 할당하는 단계를 포함하는 음성 인식 장치.
제8항에서,
상기 전체 비용을 산출하는 단계는,
상기 선택된 단어를 포함하여 상기 선택된 단어의 이전 단어에 할당된 최종 비용과 상기 선택된 단어의 이후 단어에 할당된 초기 비용을 모두 합한 값을 상기 전체 비용으로 산출하는 음성 인식 장치.
제9항에서,
상기 전체 비용을 산출하는 단계는,
최초로 하나의 단어열에 포함된 단어들에 대해 최종 비용을 모두 산출하면 해당 단어열에 대한 최종 비용들의 합과 초기 비용들의 합간의 차이값을 보상값으로 선정하고, 다음 단어열의 전체 비용을 산출할 때 상기 보상값을 포함하는 음성 인식 장치.
제10항에서,
상기 기준 스코어로 선정하는 단계는,
상기 전체 비용이 최소가 되는 값에 빔(Beam) 스코어 값을 더하여 기준 스코어를 선정하며, 상기 빔 스코어의 값이 작을수록 해당 단어를 제외하는 상기 가지치기가 타이트하게 수행되는 음성 인식 장치.