KR102386863B1

KR102386863B1 - 사용자 기반 언어 모델 생성 장치, 방법 및 음성 인식 장치

Info

Publication number: KR102386863B1
Application number: KR1020150127916A
Authority: KR
Inventors: 문민영
Original assignee: 삼성전자주식회사
Priority date: 2015-09-09
Filing date: 2015-09-09
Publication date: 2022-04-13
Anticipated expiration: 2035-09-09
Also published as: US20170069314A1; KR20170030387A; US10242668B2

Abstract

사용자 기반 언어 모델 생성 장치, 방법 및 음성 인식 장치가 개시된다. 일 양상에 따른 사용자 기반 언어 모델 생성 장치는 사용자의 특성 데이터를 기초로, 언어 모델 그룹을 식별하는 언어 모델 그룹 식별부 및 식별된 언어 모델 그룹을 기초로 범용 언어 모델을 보간하여, 사용자에게 적용할 언어 모델을 생성하는 언어 모델 생성부를 포함할 수 있다.

Description

사용자 기반 언어 모델 생성 장치, 방법 및 음성 인식 장치{USER-BASED LANGUAGE MODEL GENERATING APPARATUS, METHOD AND VOICE RECOGNITION APPARATUS}

음성 인식을 수행하기 위한 사용자 기반 언어 모델 생성 장치, 방법 및 음성 인식 장치에 대한 것이다.

최근 음성 인식 인터페이스에 대한 이용이 증가하고 있으며, 이로 인하여 음성 인식의 정확도를 높이기 위한 연구가 이루어 지고 있다. 특히, 잡음에 강건한 음성 인식을 위하여 일반적으로 음성 인식 엔진을 이루고 있는 음향 모델(acoustic model)과 언어 모델(language model)중에 언어 모델에 대한 연구가 활발히 진행되고 있다.

그러나, 음향 모델의 경우 사용자에 개인화를 하는 것이 짧은 시간 안에 가능하나, 사용자가 쓰는 언어 모델을 단시간에 습득하기는 쉽지 않으며, 일반적으로 언어 모델을 회득하기 위하여 사용하는 텍스트 학습방식은 구어체에서 사용하는 단어와 차이점이 발생할 수 있다.

또한, 현재의 음성 인식 장치의 경우 한가지의 언어 모델이 모든 사용자의 음성을 인식하여야 하기 때문에, 단어의 Pool 사이즈가 증가되며, 일반적으로 많이 쓰는 단어의 순서로 발화를 하였을 경우만 성능이 잘 나올 수 있다.

언어 모델 그룹을 이용하여 사용자 기반 언어 모델 생성하며, 이를 이용하여 음성 인식을 수행하는 장치 및 방법을 제공하는 것을 목적으로 한다.

일 양상에 따른, 음성 인식을 위한 사용자 기반 언어 모델 생성 장치는 사용자의 특성 데이터를 기초로, 언어 모델 그룹을 식별하는 언어 모델 그룹 식별부 및 식별된 언어 모델 그룹을 기초로 범용 언어 모델을 보간하여, 사용자에게 적용할 언어 모델을 생성하는 언어 모델 생성부를 포함할 수 있다.

사용자 기반 언어 모델 생성 장치는 사용자의 특성 데이터를 수집하는 특성 데이터 수집부를 더 포함할 수 있다.

특성 데이터 수집부는 사용자에게 소정 이미지나 소정 질의를 제시하고, 이미지나 질의에 대한 사용자의 응답을 기초로 사용자의 특성 데이터를 수집할 수 있다.

사용자의 특성 데이터는 성별, 나이, 주소, 자주 사용하는 애플리케이션 및 생체 정보 중의 하나 이상을 포함하는 정적 정보 및, 상황에 따라 변화하는 자주 사용하는 키워드, 목소리 톤, 세기 및 빠르기 중의 하나 이상을 포함하는 동적 정보 중의 적어도 하나를 포함할 수 있다.

언어 모델 생성부는 사용자 데이터와 결정된 언어 모델 그룹의 일치 정도를 기초로 가중치를 계산하는 가중치 계산부를 포함할 수 있다.

언어 모델 생성부는 가중치를 기초로 범용 언어 모델의 보간을 수행하는 언어 모델 보간부를 더 포함할 수 있다.

다른 양상에 따른, 음성 인식 장치는 사용자로부터 음성 인식 요청이 수신되면, 사용자에게 적용할 사용자 기반 언어 모델을 획득하는 언어 모델 획득부 및 획득된 사용자 기반 언어 모델을 이용하여, 음성 인식이 요청된 사용자의 음성을 인식하는 음성 인식부를 포함할 수 있다.

언어 모델 획득부는 사용자 기반 언어 모델을 저장하는 언어 모델 DB로부터 사용자에 적용할 언어 모델을 획득할 수 있다.

언어 모델 획득부는 사용자의 음성 인식 요청에 따라, 하나 이상의 언어 모델 그룹으로부터 사용자에 적용할 언어 모델 그룹을 결정하고, 결정된 언어 모델 그룹에 기초로 범용 언어 모델을 보간하여 사용자에게 적용할 사용자 기반 언어 모델을 획득할 수 있다.

또 다른 양상에 따른, 음성 인식을 위한 사용자 기반 언어 모델 생성 방법은 사용자의 특성 데이터를 기초로, 언어 모델 그룹을 식별하는 단계 및 식별된 언어 모델 그룹을 기초로 범용 언어 모델을 보간하여, 사용자에게 적용할 언어 모델을 생성하는 단계를 포함할 수 있다.

사용자 기반 언어 모델 생성 방법은 사용자의 특성 데이터를 수집하는 단계를 더 포함할 수 있다.

특성 데이터를 수집하는 단계는 사용자에게 소정 이미지나 소정 질의를 제시하고, 이미지나 질의에 대한 사용자의 응답을 기초로 사용자의 특성 데이터를 수집할 수 있다.

언어 모델을 생성하는 단계는 사용자 데이터와 결정된 언어 모델 그룹의 일치 정도를 기초로 가중치를 계산하는 단계를 포함할 수 있다.

언어 모델을 생성하는 단계는 가중치를 기초로 범용 언어 모델의 보간을 수행하는 단계를 더 포함할 수 있다.

언어 모델 그룹 중 사용자의 특성과 일치 정도가 높은 언어 모델 그룹을 선택하여 사용자 기반 언어 모델 생성함으로써 사용자에 대한 언어 모델 학습 없이 사용자에게 적합한 사용자 기반 언어 모델을 생성할 수 있으며, 이를 이용하여 음성 인식을 수행함으로써 음성 인식의 정확도를 향상시킬 수 있다.

도 1은 일 실시예에 따른 사용자 기반 언어 모델 생성 장치의 구성도이다.
도 2는 일 실시예에 따른 언어 모델 생성부의 구성도이다.
도 3은 다른 실시예에 따른 사용자 기반 언어 모델 생성 장치의 구성도이다.
도 4는 일 실시예에 따른 사용자의 특성 데이터를 수집하는 방법을 설명하기 위한 예시도이다.
도 5는 일 실시예에 음성 인식 장치의 구성도이다.
도 6은 일 실시예에 따른 사용자 기반 언어 모델 생성 방법의 단계를 구체적으로 도시한 흐름도이다.
도 7은 일 실시예에 따른 언어 모델 생성 방법의 단계를 구체적으로 도시한 흐름도이다.

이하, 첨부된 도면을 참조하여 본 발명의 일 실시예를 상세하게 설명한다. 본 발명을 설명함에 있어 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 또한, 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로, 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.

이하, 사용자 기반 언어 모델 생성 장치, 방법 및 음성 인식 장치의 실시예들을 도면들을 참고하여 자세히 설명한다.

도 1은 일 실시예에 따른 사용자 기반 언어 모델 생성 장치(100)의 구성도이다.

도 1을 참조하면, 사용자 기반 언어 모델 생성 장치(100)는 특성 데이터 수집부(110), 언어 모델 그룹 식별부(130) 및 언어 모델 생성부(150)를 포함할 수 있다.

특성 데이터 수집부(110)는 사용자의 특성 데이터를 수집할 수 있다. 이때, 사용자의 특성 데이터는 성별, 나이, 주소, 자주 사용하는 애플리케이션 및 생체 정보 중의 하나 이상을 포함하는 정적 정보 및, 상황에 따라 변화하는 자주 사용하는 키워드를 포함하는 동적 정보 중의 적어도 하나를 포함할 수 있다. 또한, 특성 데이터 수집부(110)는 동적 정보를 수집시 사용자의 목소리 톤, 세기 및 빠르기와 같은 음향 데이터를 동시에 수집할 수 있으며, 수집된 음향 데이터는 언어 모델 그룹을 식별을 위한 동적 데이터로서 사용될 수 있다. 나아가, 해당 사용자의 목소리 톤, 세기 및 빠르기는 사용자의 개인화된 음향 모델을 생성하는데 사용될 수 있다.

특성 데이터 수집부(110)는 사용자의 특성 데이터를 수집하기 위하여, 사용자가 사용하고 있는 전자기기에 저장되어 있는 정보를 검색하거나, 사용자가 사용하고 있는 어플리케이션의 텍스트 데이터 등을 검색하여 사용자의 특성 정보를 수집할 수 있다. 예를 들어, 특성 데이터 수집부(110)는 사용자가 사용하고 있는 전자기기에 저장되어 있는 개인 정보를 검색하여 사용자의 성별, 나이, 주소 등의 정보를 수집할 수 있다. 다른 예를 들어, 특성 데이터 수집부(110)는 사용자가 사용하고 있는 전자기기의 마이크로폰과 연동되어 사용자의 목소리 톤, 세기 및 빠르기와 같은 특성 정보를 수집할 수 있다. 또 다른 예로, 데이터 수집부(110)는 능동적으로 사용자에게 특정 질의를 수행하여 사용자의 특성 데이터를 수집할 수 있다.

일 예에 따르면, 특성 데이터 수집부(110)는 사용자에게 소정 이미지나 소정 질의를 제시하고, 이미지나 질의에 대한 사용자의 응답을 기초로 사용자의 특성 데이터를 수집할 수 있다.

일 예를 들면, 특성 데이터 수집부(110)는 사용자가 자주 이용하는 대중 매체의 종류 및 사용 빈도, 자주 이용하는 인터넷 매체의 종류 및 사용 빈도, 나이, 성별, 출생지, 거주지, 직업, 교육 수준, 취미 및 관심분야 중의 적어도 하나 이상을 기준으로 사용자에 대한 질의를 생성할 수 있다. 이때, 기준은 사용자에게 적용할 언어 모델 그룹을 생성하는데 이용된 기준과 동일하거나 유사한 기준일 수 있다. 예를 들어, 특성 데이터 수집부(110)는 언어 모델 그룹을 생성하는데 있어서, 사용자의 나이와 성별을 기준으로 언어 모델 그룹을 생성한 경우, 사용자에게 나이와 성별에 대한 질의를 생성할 수 있다.

다른 예를 들면, 특성 데이터 수집부(110)는 언어 모델 그룹에 포함된 특정 대상 및 특정 상황 중 적어도 하나와 관련된 키워드를 추출하여 질의를 수행할 수 있다. 예를 들어, 특성 데이터 수집부(110)는 스마트폰을 키워드로 추출할 수 있으며, 스마트폰과 관련된 이미지 또는 질의를 생성하여 사용자에게 질의를 수행할 수 있다.

이때, 특성 데이터 수집부(110)는 키워드를 선택함에 있어서 각각의 언어 모델 그룹 내 동일성이 높으며, 동시에 언어 모델 그룹 간 동일성이 낮은 적어도 하나 이상의 키워드를 선택하여 질의를 생성할 수 있다. 예를 들어, 언어 모델 그룹을 사용자의 나이를 기준으로 하는 경우, 동일한 "스마트폰"에 대하여 10 내지 30대는 "스마트폰", 40대 내지 50대는 "핸드폰", 60대 이상은 "전화기"라는 단어를 사용할 수 있다. 즉, 유사한 연령대의 경우 특정 대상에 대하여 동일한 단어를 사용하나, 연령대가 다른 경우 특정 대상에 대하여 상이한 단어를 사용하는 경우, 특성 데이터 수집부(110)는 스마트폰에 대한 이미지를 질의로 생성할 수 있으며, 이에 대한 사용자의 응답을 수신하여 사용자의 특성 데이터를 수집할 수 있다.

언어 모델 그룹 식별부(130)는 사용자의 특성 데이터를 기초로, 언어 모델 그룹을 식별할 수 있다.

일 예를 들어, 언어 모델 그룹 식별부(130)는 특성 데이터 수집부(110)에서 수집한 사용자의 특성 데이터를 이용하여 언어 모델 그룹을 선택할 수 있다. 예를 들어, 언어 모델 그룹이 사용자의 나이를 기준으로 생성된 경우, 언어 모델 그룹 식별부(130)는 사용자의 특성 데이터에서 사용자의 나이에 대한 정보를 추출하여 사용자에게 적용할 언어 모델 그룹을 식별할 수 있다.

예를 들어, 위에서 설명한 바와 같이 사용자의 연령대에 따라 스마트폰에 대한 자주 사용하는 단어가 상이한 경우, 언어 모델 그룹 식별부(130)는 사용자 특성 데이터로부터 스마트폰과 동일성이 있는 단어를 추출하며, 추출된 단어를 사용하여 언어 그룹 모델과 매칭을 시키며, 가장 일치 정도가 높은 언어 모델 그룹을 식별할 수 있다. 일 예로 위의 특성 데이터 수집부(110)의 예에서 설명한 바와 같이 사용자가 "전화기"라는 단어를 사용하는 경우 언어 모델 그룹 식별부(130)는 사용자가 60대 이상의 사람으로 판단할 수 있으며, 60대 이상의 사용자를 기준으로 생성된 언어 모델 그룹을 사용자에 사용할 언어 모델 그룹으로 식별할 수 있다.

언어 모델 생성부(150)는 식별된 언어 모델 그룹을 기초로 범용 언어 모델을 보간하여, 사용자에게 적용할 언어 모델을 생성할 수 있다.

일 예를 들어, 언어 모델은 각 단어 다음 나올 수 있는 단어를 명시적으로 나타낸 네트워크일 수 있다. 이러한 경우, 언어 모델 생성부(150)는 식별된 언어 범용 언어 모델에서 포함하고 있는 각 단어 다음 나올 수 있는 단어의 종류 및 확률값을 식별된 언어 모델 그룹에 포함된 단어 및 그 단어가 나올 확률값을 반영하여 새롭게 네트워크를 만들 수 있다. 예를 들어, 범용 언어 모델의 경우, "전화기"와 연속하여 "통화하다", "문자를 보내다"와 같은 문자열을 가질 수 있다. 이때, 사용자의 언어 모델 그룹을 적용하는 경우, 사용자는 전화기를 스마트폰과 동일한 의미로 사용하고 있으므로 "통화하다", "문자를 보내다" 이외에 "인터넷을 하다", "음악을 듣는다"와 같은 문자열을 추가할 수 있게 된다.

도 2는 일 실시예에 따른 언어 모델 생성부(150)의 구성도이다.

도 2를 참조하면, 언어 모델 생성부(150)는 가중치 계산부(151) 및 언어 모델 보간부(153)을 포함할 수 있다.

가중치 계산부(151)는 사용자 데이터와 결정된 언어 모델 그룹의 일치 정도를 기초로 가중치를 계산할 수 있다.

일 예를 들어, 사용자 데이터를 기초로 사용자의 나이에 대한 정보를 추출하여 언어 모델 그룹을 선택하는 경우, 60대 이상일 확률이 0.6, 40대 내지 50대일 확률이 0.4로 계산될 수 있다. 이러한 경우 60대 이상을 기준으로 생성한 언어 모델 그룹의 가중치를 0.6, 40대 내지 50대를 기준으로 생성한 언어 모델 그룹의 가중치를 0.4로 계산할 수 있다.

언어 모델 보간부(153)는 가중치를 기초로 범용 언어 모델의 보간을 수행할 수 있다. 예를 들어, 위와 같이 60대 이상을 기준으로 생성한 언어 모델 그룹의 가중치가 0.6, 40대 내지 50대를 기준으로 생성한 언어 모델 그룹의 가중치가 0.4인 경우, 언어 모델 보간부(153)는 범용 언어 모델의 보간을 수행할 때, 60대 이상을 기준으로 생성한 언어 모델 그룹에 포함된 데이터 중 특정 기준 이상의 확률을 가지는 데이터만을 이용하여 보간을 수행할 수 있다. 또 다른 예로, 언어 모델 보간부(153)는 60대 이상을 기준으로 생성한 언어 모델 그룹과 40대 내지 50대를 기준으로 생성한 언어 모델 그룹 모두를 적용하여 보간을 수행할 수 있다.

도 3은 다른 실시예에 따른 사용자 기반 언어 모델 생성 장치(300)의 구성도이다.

도 3을 참조하면, 사용자 기반 언어 모델 생성 장치(300)는 사용자 단말(310)과 언어 모델 생성 서버(350)의 두 개의 장치로 분리되어 구현될 수 있다.

사용자 단말(310)은 특성 데이터 수집부(311), 언어 모델 그룹 식별부(313) 및 송수신부(315)를 포함할 수 있으며, 특성 데이터 수집부(311), 언어 모델 그룹 식별부(313)는 도 1의 특성 데이터 수집부(110), 언어 모델 그룹 식별부(130)의 일 실시예가 될 수 있다.

특성 데이터 수집부(311)는 사용자의 특성 데이터를 수집할 수 있으며, 사용자의 특성 데이터는 성별, 나이, 주소, 자주 사용하는 애플리케이션 및 생체 정보 중의 하나 이상을 포함하는 정적 정보 및, 상황에 따라 변화하는 자주 사용하는 키워드, 목소리 톤, 세기 및 빠르기 중의 하나 이상을 포함하는 동적 정보 중의 적어도 하나를 포함할 수 있다.

특성 데이터 수집부(311)는 사용자의 특성 데이터를 수집하기 위하여, 사용자 단말에 저장되어 있는 정보를 검색하거나, 사용자 단말에서 동작중인 있는 어플리케이션의 텍스트 데이터 등을 검색하여 사용자의 특성 정보를 수집할 수 있다.

일 예에 따르면, 특성 데이터 수집부(311)는 사용자 단말의 인터페이스를 통하여 사용자에게 소정 이미지나 소정 질의를 제시하고, 이미지나 질의에 대한 사용자의 응답을 사용자 단말에 내장된 마이크로폰을 이용하여 수신할 수 있으며, 이를 기초로 사용자의 특성 데이터를 수집할 수 있다.

일 예를 들면, 특성 데이터 수집부(311)는 사용자에게 적용할 언어 모델 그룹을 생성하는데 이용된 기준과 동일하거나 유사한 기준을 이용하여 질의를 생성할 수 있다. 예를 들어, 특성 데이터 수집부(311)는 언어 모델 그룹을 생성하는데 있어서, 사용자의 나이와 성별을 기준으로 언어 모델 그룹을 생성한 경우, 사용자에게 나이와 성별에 대한 질의를 생성할 수 있다.

다른 예를 들면, 특성 데이터 수집부(311)는 언어 모델 그룹에 포함된 특정 대상 및 특정 상황 중 적어도 하나와 관련된 키워드를 추출하여 질의를 수행할 수 있다. 예를 들어, 특성 데이터 수집부(311)는 스마트폰을 키워드로 추출할 수 있으며, 스마트폰과 관련된 이미지 또는 질의를 생성하여 사용자에게 질의를 수행할 수 있다.

이때, 특성 데이터 수집부(311)는 키워드를 선택함에 있어서 각각의 언어 모델 그룹 내 동일성이 높으며, 동시에 언어 모델 그룹 간 동일성이 낮은 적어도 하나 이상의 키워드를 선택하여 질의를 생성할 수 있다

언어 모델 그룹 식별부(313)는 사용자의 특성 데이터를 기초로, 언어 모델 그룹을 식별할 수 있다.

일 예를 들어, 언어 모델 그룹 식별부(313)는 특성 데이터 수집부(311)에서 수집한 사용자의 특성 데이터를 이용하여 언어 모델 그룹을 선택할 수 있다. 예를 들어, 언어 모델 그룹이 사용자의 나이를 기준으로 생성된 경우, 언어 모델 그룹 식별부(313)는 사용자의 특성 데이터에서 사용자의 나이에 대한 정보를 추출하여 사용자에게 적용할 언어 모델 그룹을 식별할 수 있으며, 식별된 언어 모델 그룹에 한 데이터는 송수신부(315)를 통하여 언어 모델 생성 장치로 제공할 수 있다.

송수신부(315)는 사용자 단말(310)에서 식별된 언어 모델 그룹에 대한 데이터를 언어 모델 생성 서버(350)로 전송할 수 있다.

송수신부(315)는 LAN, Wi-Fi, 블루투스, IrDA(Infrared Data Association), HomeRF, NFC(Near Field Communication), UWB(Ultra Wide Band), Zig-bee, GSM(Global System for Mobile Communications), CDMA(Code Division Multiple Access), LTE(Long Term Evolution), 와이브로 중 적어도 하나의 통신 방법을 이용할 수 있다. 또한, 송수신부(315)가 이용하는 통신 방식은 위의 실시예에 국한되지 않으며, 통상의 기술자가 용이하게 구현할 수 있는 장치와 장치 간 통신을 위한 모든 통신 방법을 이용하여 구현될 수 있다.

언어 모델 생성 서버(350)는 송수신부(351), 언어 모델 생성부(353) 및 저장부(355)를 포함할 수 있으며, 언어 모델 생성부(353)는 도 1의 언어 모델 생성부(150) 의 일 실시예가 될 수 있다.

송수신부(351)는 사용자 단말(310)로부터 언어 모델 그룹에 대한 데이터를 수신할 수 있으며, 송수신부(315)와 동일한 통신 방식을 이용하여 구현될 수 있다.

언어 모델 생성부(353)는 사용자 단말(310)로부터 수신한 언어 모델 그룹에 대한 정보를 기초로 언어 모델 그룹을 선택하며, 선택된 언어 모델 그룹을 기초로 범용 언어 모델을 보간하여, 사용자에게 적용할 언어 모델을 생성할 수 있다.

일 예를 들어, 언어 모델 생성부(353)는 선택된 언어 모델 그룹의 단어 및 단어의 배치 순서, 순서에 대한 확률 정도를 이용하여 범용 언어 모델에 새로운 단어를 추가하거나, 단어의 순서를 변경하거나, 순서에 대한 확률값을 변경할 수 있다.

저장부(355)는 언어 모델 생성부(353)에서 생성된 사용자에게 적용할 언어 모델을 저장할 수 있다. 또한, 음성 인식에 사용될 언어 모델을 검색하기 위한 사용자 식별 데이터, 사용자별 언어 모델 인덱스 등을 저장할 수 있다. 일 예로, 사용자 식별 데이터, 사용자별 언어 모델 인덱스는 특성 데이터 수집부(311) 또는 언어 모델 그룹 식별부(313)에서 생성된 것일 수 있다.

도 4는 일 실시예에 따른 사용자의 특성 데이터를 수집하는 방법을 설명하기 위한 예시도이다.

도 4를 참조하면, 언어 모델 생성 장치(410)는 사용자에게 질의를 수행하고, 질의에 대한 사용자의 응답을 수신하는 인터페이스를 포함할 수 있다.

일 예에 따르면, 언어 모델 생성 장치(410)는 이미지를 표시할 수 있는 인터페이스를 포함할 수 있으며, 인터페이스를 통하여 사용자에게 소정 이미지나 소정 질의를 제시할 수 있다. 예를 들어, 언어 모델 생성 장치(410)는 특정 대상이나 특정 상황에 대한 이미지(420)나 사용자에게 특정 응답을 이끌어내기 위한 질의(430)를 제시할 수 있다.

이때, 질의는 특정 대상 및 특정 상황 중 적어도 하나와 관련된 키워드를 추출하여 질의를 수행할 수 있다. 예를 들어, 언어 모델 생성 장치(410)는 "스마트폰"과 "사람"을 키워드로 추출할 수 있으며, 스마트폰과 사람에 관련된 이미지 또는 질의를 생성하여 사용자에게 질의를 수행할 수 있다.

이러한 경우, 사용자는 이미지(420)나 질의(430)에 대하여 응답을 하게 되며, 언어 모델 생성 장치(410)는 사용자의 응답을 기초로 사용자의 특성 데이터를 수집하게 된다.

예를 들어, 사용자는 이미지(420)나 질의(430)를 보고 "여자 아이가 핸드폰을 보고 있다", "언니가 스마트폰을 보고 있다", "여학생이 스마트폰으로 SNS를 하고 있다."와 같이 응답을 할 수 있다. 이러한 경우, 언어 모델 생성 장치(410)는 사용자의 응답을 수신하여 사용자의 특성 데이터를 생성할 수 있다. 예를 들어, "여자 아이가 핸드폰을 보고 있다."와 같이 응답한 경우, 언어 모델 생성 장치(410)는 스마트폰"과 "사람"에 관련된 키워드인 "여자 아이"와 "핸드폰"이라는 키워드를 추출할 수 있으며, 이러한 키워드가 사용자의 특성 데이터로 이용될 수 있다. 다른 예로, "언니가 스마트폰을 보고 있다"와 같이 응답한 경우, 언어 모델 생성 장치(410)는 "언니"와 "스마트폰"을 키워드로 추출하여 사용자 특성 데이터를 생성할 수 있다.

또한, 언어 모델 생성 장치(410)는 위에서 생성된 사용자 특성 데이터와 언어 모델 그룹을 매칭하여 언어 모델 그룹을 식별할 수 있다. 예를 들어, "여자 아이"와 "핸드폰"이라는 키워드를 이용하여 해당 사용자가 60대 이상의 사람을 기준으로 생성한 언어 모델 그룹에 매칭이 가장 높은 경우, 해당 언어 모델 그룹을 사용자의 언어 그룹 모델로 식별할 수 있다. 다른 예로, "언니"와 "스마트폰"을 키워드로 하는 경우, 해당 사용자가 10대 여성의 사람을 기준으로 생성한 언어 그룹 모델에 가장 높은 일치를 나타낼 수 있으며, 이러한 경우, 해당 언어 모델 그룹을 사용자의 언어 모델 그룹으로 식별할 수 있다.

도 5는 일 실시예에 음성 인식 장치(500)의 구성도이다.

도 5를 참조하면, 음성 인식 장치(500)는 언어 모델 획득부(510), 음성 인식부(530) 및 언어 모델 DB(550)를 포함할 수 있으며, 사용자 단말과 연동되는 서버로 구현될 수 있다. 이러한 경우, 음성 인식 장치(500)는 사용자 단말과 통신을 수행하기 위한 송수신부(미도시)를 더 포함할 수 있다.

일 예에 따르면, 언어 모델 획득부(510)는 송수신부를 통하여 사용자 단말로부터 사용자의 음성 인식 요청을 수신할 수 있다. 이때, 음성 인식 요청은 사용자에 관련된 데이터가 포함될 수 있다. 일 예로, 사용자가 단말을 통하여 음성 인식을 요청하는 경우, 사용자 단말은 사용자의 음성을 인식하여 사용자 정보를 생성하거나, 해당 단말의 제품 정보 등을 이용하여 사용자 정보를 생성할 수 있으며, 이를 음성 인식 요청시 음성 인식 장치(500)에 제공할 수 있다.

이에 따라, 언어 모델 획득부(510)는 사용자 단말로부터 사용자 정보를 수신하여 해당 음성 인식 요청이 누구의 요청인지에 대하여 식별을 할 수 있다.

이후, 일 예에 따르면, 언어 모델 획득부(510)는 사용자 단말로부터 수신한 사용자 정보를 기초로 사용자 기반 언어 모델을 저장하는 언어 모델 DB(550)로부터 사용자에 적용할 언어 모델을 획득할 수 있다. 즉, 언어 모델 획득부(510)는 사용자 기반 언어 모델 생성 장치에 의해 생성된 사용자에게 적용할 언어 모델을 언어 모델 DB(550)에서 검색하여 사용자에 적용할 언어 모델을 획득할 수 있다.

다른 예에 따르면, 언어 모델 획득부(510)는 사용자의 음성 인식 요청에 따라, 하나 이상의 언어 모델 그룹으로부터 사용자에 적용할 언어 모델 그룹을 결정하고, 결정된 언어 모델 그룹에 기초로 범용 언어 모델을 보간하여 사용자에게 적용할 사용자 기반 언어 모델을 획득할 수 있다. 예를 들어, 언어 모델 획득부(510)는 사용자 단말로부터 수신한 사용자 정보를 기초로 언어 모델 DB(550)에서 사용자에게 해당하는 언어 모델 그룹을 검색할 수 있다. 또한, 언어 모델 획득부(510)는 DB(550)에서 범용 언어 모델을 검색한 후 사용자에게 해당하는 언어 모델 그룹을 이용하여 범용 언어 모델에 보간을 수행하여 사용자에게 적용할 언어 모델을 생성할 수 있다.

음성 인식부(530)는 획득된 사용자 기반 언어 모델을 이용하여, 음성 인식이 요청된 사용자의 음성을 인식할 수 있다. 일 예에 따르면, 음성 인식부(530)는 음성 인식을 위하여 은닉 마르코프 모델 (Hidden Markov Model; HMM), 동적 시간 왜곡(Dynamic Time Warping; DTW), 신경망(Neural Networks)과 같은 방법 등을 이용할 수 있다. 다만, 음성 인식부(530)는 위의 인식 방법에 한정되지 않으며, 통상의 기술자가 사용할 수 있는 모든 음성 인식 방법을 이용할 수 있다.

또한, 음성 인식부(530)는 음성 인식이 완료되면, 음성 인식을 요청한 사용자 단말에 인식된 결과를 제공할 수 있다.

언어 모델 DB(550)는 범용 언어 모델, 언어 모델 그룹 및 각각의 사용자에게 적용할 언어 모델 중 적어도 하나를 저장할 수 있다.

다른 실시예에 따르면, 음성 인식 장치(500)는 사용자 단말에 탑재되어 사용자의 음성을 인식할 수 있다.

이러한 경우, 일 예에 따르면, 사용자 단말은 해당 사용자의 언어 모델을 저장하는 언어 모델 DB(550)를 포함할 수 있다. 이를 위하여, 사용자 단말은 사용자 단말에 포함되어 있는 마이크로폰을 통하여 사용자의 음성을 수신하여 사용자 음성 인식 요청을 생성하는 요청 수신부(미도시)를 더 포함할 수 있다.

언어 모델 획득부(510)는 요청 수신부로부터 사용자 음성 인식 요청을 수신하면, 언어 모델 DB(550)로부터 사용자의 언어 모델을 읽어올 수 있다. 이때, 사용자의 언어 모델은 사용자 단말의 초기화시 또는 사용자 단말에서 구동되는 어플리케이션의 초기화시 사용자 기반 언어 모델 생성 장치에 의해 생성된 것일 수 있다. 여기서, 사용자 기반 언어 모델 생성 장치는 사용자 단말에 탑재되는 장치이거나 외부 서버에 구현되어 사용자 단말과 연동되는 장치일 수 있다.

또는, 언어 모델 획득부(510)는 사용자의 음성 인식이 요청되면, 언어 모델 생성 서버로부터 그 사용자에 적용할 언어 모델을 획득할 수 있다. 예를 들어, 사용자로부터 음성 인식이 요청되면, 음성 인식을 요청한 사용자의 정보를 포함하는 사용자의 특성 정보를 수집하고, 수집된 특성 정보를 이용하여 그 사용자에 대한 언어 모델 그룹 식별 정보를 획득할 수 있다. 또한, 언어 모델 그룹 식별 정보가 획득되면, 그 언어 모델 그룹 식별 정보를 언어 모델 생성 서버에 전송하여 그 사용자에게 적용할 사용자 기반 언어 모델을 요청하고, 언어 모델 생성 서버로부터 그 언어 모델 그룹 식별 정보를 기초로 생성된 사용자 기반 언어 모델을 수신할 수 있다.

이후, 음성 인식부(530)는 언어 모델 DB(550)로부터 읽어 들인 사용자의 언어 모델을 이용하여 사용자의 음성을 인식할 수 있다.

도 6은 일 실시예에 따른 사용자 기반 언어 모델 생성 방법의 단계를 구체적으로 도시한 흐름도이다.

도 6을 참조하면, 사용자 기반 언어 모델 생성 장치는 사용자에게 적용할 언어 모델을 생성하기 위하여 사용자의 특성 데이터를 수집할 수 있다(610). 이때, 사용자의 특성 데이터는 성별, 나이, 주소, 자주 사용하는 애플리케이션 및 생체 정보 중의 하나 이상을 포함하는 정적 정보 및, 상황에 따라 변화하는 자주 사용하는 키워드, 목소리 톤, 세기 및 빠르기 중의 하나 이상을 포함하는 동적 정보 중의 적어도 하나를 포함할 수 있다.

일 예를 들면, 사용자 기반 언어 모델 생성 장치는 사용자의 특성 데이터를 수집하기 위하여, 사용자가 사용하고 있는 전자기기에 저장되어 있는 정보를 검색하거나, 사용자가 사용하고 있는 어플리케이션의 텍스트 데이터 등을 검색하여 사용자의 특성 정보를 수집할 수 있다.

다른 예를 들면, 사용자 기반 언어 모델 생성 장치는 사용자에게 소정 이미지나 소정 질의를 제시하고, 이미지나 질의에 대한 사용자의 응답을 기초로 사용자의 특성 데이터를 수집할 수 있다. 이를 위하여 사용자 기반 언어 모델 생성 장치는 사용자가 자주 이용하는 대중 매체의 종류 및 사용 빈도, 자주 이용하는 인터넷 매체의 종류 및 사용 빈도, 나이, 성별, 출생지, 거주지, 직업, 교육 수준, 취미 및 관심분야 중의 적어도 하나 이상을 기준으로 사용자에 대한 질의를 생성할 수 있다.

또 다른 예를 들면, 사용자 기반 언어 모델 생성 장치는 언어 모델 그룹에 포함된 특정 대상 및 특정 상황 중 적어도 하나와 관련된 키워드를 추출하여 질의를 수행할 수 있다. 예를 들어, 사용자 기반 언어 모델 생성 장치는 스마트폰을 키워드로 추출할 수 있으며, 스마트폰과 관련된 이미지 또는 질의를 생성하여 사용자에게 질의를 수행할 수 있다.

이후, 사용자 기반 언어 모델 생성 장치는 수집된 사용자 특성 데이터를 이용하여 사용자에게 적용할 언어 모델 그룹을 식별할 수 있다(630). 예를 들어, 사용자 기반 언어 모델 생성 장치는 언어 모델 그룹이 사용자의 나이를 기준으로 생성된 경우, 사용자의 특성 데이터에서 사용자의 나이에 대한 정보를 추출하여 사용자에게 적용할 언어 모델 그룹을 식별할 수 있다. 예를 들어, 사용자 기반 언어 모델 생성 장치는 사용자의 연령대에 따라 스마트폰에 대한 자주 사용하는 단어가 상이한 경우, 사용자 특성 데이터로부터 스마트폰과 동일성이 있는 단어를 추출하며, 추출된 단어를 사용하여 언어 그룹 모델과 매칭을 시키며, 가장 일치 정도가 높은 언어 모델 그룹을 식별할 수 있다.

사용자에게 적용할 언어 모델 그룹이 식별되면, 사용자 기반 언어 모델 생성 장치는 식별된 언어 모델 그룹을 기초로 범용 언어 모델을 보간하여 사용자에게 적용할 언어 모델을 생성할 수 있다(650).

일 예를 들어, 언어 모델은 각 단어 다음 나올 수 있는 단어를 명시적으로 나타낸 네트워크일 수 있다. 이러한 경우, 사용자 기반 언어 모델 생성 장치는 식별된 언어 범용 언어 모델에서 포함하고 있는 각 단어 다음 나올 수 있는 단어의 종류 및 확률값을 식별된 언어 모델 그룹에 포함된 단어 및 그 단어가 나올 확률값을 반영하여 새롭게 네트워크를 만들 수 있다.

도 7은 일 실시예에 따른 언어 모델 생성 방법의 단계를 구체적으로 도시한 흐름도이다.

도 7을 참조하면, 사용자 기반 언어 모델 생성 장치는 언어 모델을 생성하기 위하여 사용자 데이터와 결정된 언어 모델 그룹의 일치 정도를 기초로 가중치를 계산할 수 있다(651).

일 예로, 사용자 기반 언어 모델 생성 장치가 사용자 데이터를 기초로 사용자의 나이에 대한 정보를 추출하여 언어 모델 그룹을 선택하는 경우, 60대 이상일 확률이 0.6, 40대 내지 50대일 확률이 0.4로 계산될 수 있다. 이러한 경우 60대 이상을 기준으로 생성한 언어 모델 그룹의 가중치를 0.6, 40대 내지 50대를 기준으로 생성한 언어 모델 그룹의 가중치를 0.4로 계산할 수 있다.

이후, 사용자 기반 언어 모델 생성 장치는 계산된 가중치를 기초로 범용 언어 모델의 보간을 수행할 수 있다(653). 예를 들어, 사용자 기반 언어 모델 생성 장치는 위와 같이 60대 이상을 기준으로 생성한 언어 모델 그룹의 가중치가 0.6, 40대 내지 50대를 기준으로 생성한 언어 모델 그룹의 가중치가 0.4인 경우, 범용 언어 모델의 보간을 수행할 때, 60대 이상을 기준으로 생성한 언어 모델 그룹에 포함된 데이터 중 특정 기준 이상의 확률을 가지는 데이터만을 이용하여 보간을 수행할 수 있다. 또 다른 예로, 사용자 기반 언어 모델 생성 장치는 60대 이상을 기준으로 생성한 언어 모델 그룹과 40대 내지 50대를 기준으로 생성한 언어 모델 그룹 모두를 적용하여 보간을 수행할 수 있다.

본 발명의 일 양상은 컴퓨터로 읽을 수 있는 기록 매체에 컴퓨터가 읽을 수 있는 코드로서 구현될 수 있다. 상기의 프로그램을 구현하는 코드들 및 코드 세그먼트들은 당해 분야의 컴퓨터 프로그래머에 의하여 용이하게 추론될 수 있다. 컴퓨터가 읽을 수 있는 기록 매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함할 수 있다. 컴퓨터가 읽을 수 있는 기록 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광 디스크 등을 포함할 수 있다. 또한, 컴퓨터가 읽을 수 있는 기록 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산 방식으로 컴퓨터가 읽을 수 있는 코드로 작성되고 실행될 수 있다.

이제까지 본 발명에 대하여 그 바람직한 실시 예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 따라서, 본 발명의 범위는 전술한 실시 예에 한정되지 않고 특허 청구범위에 기재된 내용과 동등한 범위 내에 있는 다양한 실시 형태가 포함되도록 해석되어야 할 것이다.

100: 사용자 기반 언어 모델 생성 장치
110: 특성 데이터 수집부 130: 언어 모델 그룹 식별부
150: 언어 모델 생성부 151: 가중치 계산부
153: 언어 모델 보간부 310: 사용자 단말
350: 언어 모델 생성 서버 500: 음성 인식 장치
510: 언어 모델 획득부 530: 음성 인식부
550: 언어 모델 DB

Claims

음성 인식을 위한 사용자 기반 언어 모델 생성 장치에 있어서,
사용자의 특성 데이터를 수집하는 특성 데이터 수집부;
상기 수집된 사용자의 특성 데이터와　소정　기준에　따라　생성된　복수의 언어 모델 그룹 각각의 그룹간의　일치정도를　결정하고, 상기 결정된 일치　정도에 기초하여 상기 복수의 언어 모델 그룹 중 사용자에게 적용할 언어 모델 그룹을 식별하는 언어 모델 그룹 식별부; 및
상기　결정된　일치　정도를　기초로　가중치를　계산하고，　상기　가중치，　및　상기 식별된 언어 모델 그룹을 기초로 범용 언어 모델을 보간하여, 상기 사용자에게 적용할 언어 모델을 생성하는 언어 모델 생성부;를 포함하는 사용자 기반 언어 모델 생성 장치.
삭제
제1항에 있어서,
상기 특성 데이터 수집부는
사용자에게 소정 이미지나 소정 질의를 제시하고, 상기 이미지나 질의에 대한 사용자의 응답을 기초로 상기 사용자의 특성 데이터를 수집하는 사용자 기반 언어 모델 생성 장치.
제1항에 있어서,
상기 사용자의 특성 데이터는 성별, 나이, 주소, 자주 사용하는 애플리케이션 및 생체 정보 중의 하나 이상을 포함하는 정적 정보 및, 상황에 따라 변화하는 자주 사용하는 키워드, 목소리 톤, 세기 및 빠르기 중의 하나 이상을 포함하는 동적 정보 중의 적어도 하나를 포함하는 사용자 기반 언어 모델 생성 장치.
삭제
삭제
사용자로부터 음성 인식 요청이 수신되면, 상기 사용자에게 적용할 사용자 기반 언어 모델을 획득하는 언어 모델 획득부; 및
상기 획득된 사용자 기반 언어 모델을 이용하여, 음성 인식이 요청된 사용자의 음성을 인식하는 음성 인식부;를 포함하되，
상기　언어　모델　획득부는，
수집된 사용자의 특성 데이터와　소정　기준에　따라　생성된　복수의 언어 모델 그룹 각각의 그룹간의　일치　정도를　결정하고, 상기 결정된 일치　정도에 기초하여 상기 복수의 언어 모델 그룹 중 사용자에게 적용할 언어 모델 그룹을 식별하고，　상기　결정된　일치　정도를　기초로　가중치를　계산하고，　상기　가중치，　및　상기 식별된 언어 모델 그룹을 기초로 범용 언어 모델을 보간하여 상기 사용자에게 적용할 언어 모델을 생성하는 음성 인식 장치.
삭제
삭제
음성 인식을 위한 사용자 기반 언어 모델 생성 방법에 있어서,
사용자의 특성 데이터를 수집하는 단계;
상기 사용자의 특성 데이터와, 소정　기준에　따라　생성된 복수의 언어 모델 그룹 각각의 그룹간의　일치　정도를　결정하는 단계;
상기 결정된 일치　정도에 기초하여 상기 복수의 언어 모델 그룹 중 사용자에게 적용할 언어 모델 그룹을 식별하는 단계;
상기　결정된　일치　정도를　기초로　가중치를　계산하는　단계；및
상기　가중치，　및　상기 식별된 언어 모델 그룹을 기초로 범용 언어 모델을 보간하여, 상기 사용자에게 적용할 언어 모델을 생성하는 단계;를 포함하는 사용자 기반 언어 모델 생성 방법.
삭제
제10항에 있어서,
상기 특성 데이터를 수집하는 단계는
사용자에게 소정 이미지나 소정 질의를 제시하고, 상기 이미지나 질의에 대한 사용자의 응답을 기초로 상기 사용자의 특성 데이터를 수집하는 사용자 기반 언어 모델 생성 방법.
제10항에 있어서,
상기 사용자의 특성 데이터는 성별, 나이, 주소, 자주 사용하는 애플리케이션 및 생체 정보 중의 하나 이상을 포함하는 정적 정보 및, 상황에 따라 변화하는 자주 사용하는 키워드, 목소리 톤, 세기 및 빠르기 중의 하나 이상을 포함하는 동적 정보 중의 적어도 하나를 포함하는 사용자 기반 언어 모델 생성 방법.
삭제
삭제