KR100622019B1

KR100622019B1 - 음성 인터페이스 시스템 및 방법

Info

Publication number: KR100622019B1
Application number: KR1020050069038A
Authority: KR
Inventors: 김상훈; 이영직
Original assignee: 한국전자통신연구원
Priority date: 2004-12-08
Filing date: 2005-07-28
Publication date: 2006-09-11
Also published as: KR20060064493A

Abstract

본 발명은 음성 인터페이스 시스템 및 방법에 관한 발명으로써, 특히 지능형 로봇 등의 응용에 사용될 수 있으며, 자연스러운 음성 커뮤니케이션을 가능하게 하고, 음성 인식 성능을 향상시킨 음성 인터페이스 시스템 및 방법에 관한 발명이다.

본 발명은 음성 데이터를 이용하여 음성 인식을 수행하며, 수행된 음성 인식의 오류 여부를 판단하는 음성 인식 모듈; 및 상기 음성 인식 모듈에서 음성 인식의 오류가 있는 것으로 판단되어지는 경우 휴먼 오퍼레이터를 통하여 음성 인식 결과를 얻는 H/O 오류 후처리 모듈을 포함하는 음성 인터페이스 서버를 제공한다.

Description

음성 인터페이스 시스템 및 방법{VOICE INTERFACE SYSTEM AND METHOD}

도 1은 본 발명의 실시예에 의한 음성 인터페이스 시스템을 설명하기 위한 도면이다.

도 2는 본 발명의 실시예에 의한 음성 인터페이스 시스템의 신호 처리 흐름을 나타내기 위한 도면이다.

도 3은 음성 인식 결과가 정(正)인식 되었을 때와 오(誤)인식 되었을 때로 정보처리 과정을 나타내는 도면이다.

도 4는 도 1에 표현된 음성 인터페이스 시스템 등에서 수행될 수 있는 음성 인터페이스 방법을 설명하기 위한 도면이다.

도 5는 도 4에 표현된 음성 인터페이스 방법에서 H/O 오류 후처리 단계의 일례를 나타내는 도면이다.

도 6은 도 4에 표현된 음성 인터페이스 방법에 있어서 대화 모델 단계의 일례를 나타내는 도면이다.

음성인식은 음성으로 가전기기나 단말기를 제어하거나 원하는 정보를 음성으로 접근할 수 있는 매우 편리한 기능으로 최근 지능형로봇, 텔레매틱스, 홈네트워크 등에 응용하고자 하는 사례가 증가하고 있다. 특히 지능형로봇의 경우, 키보드나 마우스 등의 인터페이스가 매우 곤란하므로, 음성인식, 영상인식(제스처, 문자인식), 센서(초음파, 적외선) 등의 인터페이스가 효과적인 방법으로 알려져 있는데, 그 중 특히 음성인식은 사용자에게 가장 자연스러운 인터페이스로 알려져 있다.

그러나, 종래 기술에 음성 인터페이스는 100개 미만의 간단한 음성명령어를 인식하여 수행하는 기능이 주류를 이루었고, 인식/합성엔진도 자립형(stand-alone)으로 로봇에 내장되어 있어 CPU, 메모리 등 리소스 제약으로 인한 대화형 음성인터페이스가 어려웠다. 명령어도 주로 로봇의 구동명령나 메뉴선정을 위한 명령어로 구성되어 로봇을 이용한 응용서비스에 한계가 있었다. 또한 종래기술이 음성인식오류 및 사용자오류에 대한 대처방안이 미흡하여 음성인터페이스 시스템의 사용이 오히려 불편함을 초래했다.

따라서, 본 발명이 이루고자 하는 기술적 과제는 상기한 문제점들을 해결하기 위한 것으로서, 음성인식의 성능뿐만 아니라 음성인식오류(Recognition error) 대처, 사용자오류(Human error) 대처 방법, 실시간성(Realtime) 및 사용자편의성(Usability)이 고려됨으로써, 지능형로봇이 실생활에 쓰일 수 있도록 인간-로봇 상호작용이 가능한 음성인터페이스 방법 및 장치를 제안하고자 한다.

상술한 목적을 달성하기 위한 기술적 수단으로서, 본 발명의 제 1 측면은 음성 데이터를 이용하여 음성 인식을 수행하며, 수행된 음성 인식의 오류 여부를 판단하는 음성 인식 모듈; 및 상기 음성 인식 모듈에서 음성 인식의 오류가 있는 것으로 판단되어지는 경우 휴먼 오퍼레이터를 통하여 음성 인식 결과를 얻는 H/O 오류 후처리 모듈을 포함하는 음성 인터페이스 서버를 제공한다.

본 발명의 제 2 측면은 사용자가 발화한 음성을 음성 데이터로 변환하고, 변환된 음성 데이터를 통신을 통하여 음성 인터페이스 서버로 전달하는 음성 인터페이스 클라이언트; 및 상기 음성 인터페이스 클라이언트로부터 전달된 음성 데이터를 이용하여 음성 인식을 수행하되, 음성 인식에 오류가 클 것으로 판단되어지는 경우에는 휴먼 오퍼레이터를 통하여 음성 인식 결과를 얻는 음성 인터페이스 서버를 포함하는 음성 인터페이스 시스템을 제공한다.

본 발명의 제 3 측면은 음성 데이터를 이용하여 음성 인식을 수행하는 음성 인식 모듈; 상기 음성 인식 모듈에서 수행된 음성 인식 결과 오인식이거나, 의미상 의 오류가 있는 경우에 오류를 수정하기 위한 질문인 시스템 응답을 형성하는 대화 모델 모듈; 및 상기 질문을 음성 데이터로 변환하는 음성 합성 모듈을 포함하는 음성 인터페이스 서버를 제공한다.

본 발명의 제 4 측면은 사용자가 발화한 음성을 음성 데이터로 변환하고, 변환된 음성 데이터를 통신을 통하여 음성 인터페이스 서버로 전달하는 음성 인터페이스 클라이언트; 및 상기 음성 인터페이스 클라이언트로부터 전달된 음성 데이터를 이용하여 음성 인식을 수행하되, 음성 인식 결과 오인식이거나, 의미상의 오류가 있는 경우에는 오류를 수정하기 위한 질문인 시스템 응답을 형성하는 음성 인터페이스 서버를 포함하는 음성 인터페이스 시스템을 제공한다.

본 발명의 제 5 측면은 (a) 음성 데이터를 이용하여 음성 인식을 수행하며, 수행된 음성 인식의 오류 여부를 판단하는 음성 인식 단계; 및 (b) 상기 (a) 단계에서 음성 인식의 오류가 있는 것으로 판단되어지는 경우 휴먼 오퍼레이터를 통하여 음성 인식 결과를 얻는 H/O 오류 후처리 단계를 포함하는 음성 인식 방법을 제공한다.

본 발명의 제 6 측면은 (a) 음성 데이터를 이용하여 음성 인식을 수행하는 음성 인식 단계; (b) 상기 (a) 단계에서 얻어진 음성 인식 결과에 오인식이 있거나 의미상의 오류가 있는 경우에 오류를 수정하기 위한 질문인 시스템 응답을 형성하는 단계; 및 (c) 상기 시스템 응답을 음성 데이터로 변환하는 단계를 더 포함하는 음성 인식 방법을 제공한다.

이하, 첨부한 도면들을 참조하여 본 발명의 바람직한 실시예를 상세히 설명한다. 그러나, 본 발명의 실시예들은 여러가지 형태로 변형될 수 있으며, 본 발명의 범위가 아래에서 상술하는 실시예들로 인하여 한정되는 식으로 해석되어 져서는 안된다. 본 발명의 실시예들은 당업계에서 평균적 지식을 가진 자에게 본 발명을 보다 완전하게 설명하기 위해 제공되는 것이다.

도 1을 참조하면, 음성 인터페이스 시스템은 음성 인터페이스 서버(10) 및 음성 인터페이스 클라이언트(20a, 20b, 20c)를 포함한다.

음성 인터페이스 클라이언트(20a, 20b, 20c)는 사용자가 발화한 음성을 음성 데이터로 변환하고, 변환된 음성 데이터를 통신을 통하여 음성 인터페이스 서버(10)로 전달하는 기능을 수행한다. 음성 인터페이스 클라이언트(20a, 20b, 20c)는 지능형 로봇 등의 로봇이 될 수 있으며, 무선랜 등의 무선 통신 또는 유선 통신을 통하여 음성 인터페이스 서버(10)와 통신을 수행한다. 음성 인터페이스 클라이언트(20a, 20b, 20c)는 음성 구간의 시작점과 끝점을 구분하는 끝점 검출 기능을 가질 수 있다. 이 경우, 음성 인터페이스 클라이언트(20a, 20b, 20c)는 묵음구간과 음성구간을 구분하고, 음성구간에 해당하는 음성 데이터를 음성 인터페이스 서버(10)로 전달한다.

음성 인터페이스 서버(10)는 음성 인터페이스 클라이언트(20a, 20b, 20c)로 부터 전달된 음성 데이터를 이용하여 음성 인식을 수행한다. 음성 인터페이스 서버(10)는 음성 인식 모듈(11)을 포함하며, H/O(human operator) 오류 후처리 모듈(12), 대화 모델 모듈(13) 및 음성 합성 모듈(14)을 포함할 수 있다. 또한, 음성 인터페이스 서버(10)는 서버 관리 모듈(15)을 추가적으로 구비할 수 있다. 음성 인터페이스 서버(10)를 구성하는 각각의 모듈은 별개의 서버 또는 하드웨어로 구성될 수도 있다. 또한, 음성 인터페이스 서버(10)를 구성하는 각각의 모듈은 하나의 서버 또는 하드웨어에서 수행되는 별개의 프로그램의 형태로 구현될 수도 있다.

음성 인식 모듈(11)은 음성 인터페이스 클라이언트(20a, 20b, 20c)로부터 수신된 음성 데이터를 이용하여 음성 인식을 수행한다. 음성 인터페이스 서버(10)가 H/O 오류 후처리 모듈(12)을 포함하는 경우에, 음성 인식 모듈(11)은 수행된 음성 인식의 결과에 오류가 있는지 여부를 판단하여, 오류가 있는 경우, H/O 오류 후처리 모듈(12)로 그 결과를 통보할 수 있다.

H/O(human-operator) 오류 후처리 모듈(12)은 상기 음성 인식 모듈(11)에서 음성 인식의 오류가 있는 것으로 판단되어지는 경우 휴먼 오퍼레이터를 통하여 음성 인식 결과를 얻는 기능을 수행한다. 보다 구체적으로, 음성 인식 모듈(11)에서 음성 인식의 오류가 있는 것으로 판단되어지는 경우 사람이 직접 음성을 청취하여 정확한 음성 인식 결과를 입력하는 등의 방법으로 오류를 치유한다. H/O 오류 후처리 모듈(12)은 사용자별 음성 인식 오류의 누적 회수를 디스플레이 하는 기능을 가짐으로써, 누적된 거절회수가 많은 사용자의 오류를 우선적으로 수정할 수 있도록 하여, 사용자 불만을 최소화 할 수 있다. 또한, H/O 오류 후처리 모듈(12)은 자주 틀리는 단어를 디스플레이 함으로써, 휴먼 오프레이터가 쉽게 정인식결과를 선택하게 하여, 효율적인 수정을 가능하게 할 수 있다. 또한, H/O 오류 후처리 모듈(12)은 오류가 발생한 단어와 가장 인접한 것으로 판단되어지는 적어도 하나의 단어를 디스플레이 함으로써, 휴먼 오프레이터가 디스플레이된 단어 중에서 정인식 결과를 빨리 찾을 수 있도록 하여, 효율적인 수정을 가능하게 할 수 있다. 또한, H/O 오류 후처리 모듈(12)은 대화 히스토리를 디스플레이 함으로써, 휴먼 오퍼레이터가 좀 더 정확하고 효율적으로 정인식 결과를 선택하도록 할 수 있다. 또한, H/O 오류 후처리 모듈(12)은 단어 자동 인덱싱 기능을 가짐으로써, 몇 개의 음소만 타이핑이 되었을 때, 일치되는 단어를 리스트하여 나머지 음소를 타이핑하지 않더라도 쉽게 정인식 단어를 선정하도록 하여, 효율적인 수정을 가능하게 할 수 있다. 또한, H/O 오류 후처리 모듈(12)은 발화 속도 가변 기능을 가짐으로써, 빠른 속도로 음성을 청취한 후 정인식된 음성 인식 결과를 기록하게 하여, H/O 오류 후처리 속도를 개선할 수도 있다.

대화 모델 모듈(13)은 음성 인식 모듈(11) 또는 H/O 오류 후처리 모듈(12)에서 얻어진 음성 인식 결과에 의미상의 오류가 있는 경우에 오류를 수정하기 위한 시스템 응답을 형성하는 기능을 수행한다. 의미상의 오류의 일례로서, "[날짜] + [날씨]"가 의미 관계상 오류가 없는 경우라고 가정하자. 이 경우, 단순히 "날씨"라는 음성 인식 결과를 얻으면, 음성 인식에 의미상의 오류가 있는 것으로서, 어느 날짜의 날씨를 묻는 것인지를 사용자에게 질문할 필요가 있다. 또한, "아버지 + 날씨"라는 음성 인식 결과를 얻으면, 역시 음성 인식에 의미상의 오류가 있는 것으로 서, 어느 날짜의 날씨를 묻는 것인지를 사용자에게 질문할 필요가 있다. 이와 같이, 대화 모델 모듈(13)은 의미상의 오류가 있는 경우에 오류를 수정하기 위한 시스템 응답을 형성함으로써, 사용자와 음성 인터페이스 간 대화형 상호 작용을 원활히 하는 효과가 있다.

음성 합성 모듈(14)은 대화 모델 모듈(13)에서 출력된 시스템 응답을 음성 데이터로 변환하여 음성 인터페이스 클라이언트(20a, 20b, 20c)로 전달하는 기능을 수행한다.

서버 관리 모듈(15)은 음성 인식 모듈(11), H/O 오류 후처리 모듈(12), 대화 모델 모듈(13) 및 음성 합성 모듈(14) 각각이 독립된 서버의 형태로 구현되는 경우 사용될 수 있는 모듈로서, 부하분산을 통해 실시간 처리를 가능하게 할 수 있다.

각 가정마다 로봇이 사용될 경우, 음성 인터페이스 클라이언트(20a, 20b, 20c)는 각 가정 내에서 여러 대가 될 수 있으며, 각 가정에서는 무선랜 등의 통신을 통해 음성 인터페이스 서버(10)로 정보를 요청하고, 음성 인터페이스 서버(10)는 음성 인터페이스 클라이언트(20a, 20b, 20c)로부터 전달된 음성 데이터에 따라 정보처리된 결과를 제공한다. 이는 사용자로 하여금 음성 인터페이스 클라이언트(20a, 20b, 20c)의 저가 구입을 가능하게 하고, 음성 인터페이스 서버(10)를 통해 각종 정보처리를 담당하게 함으로서 실시간으로 서비스를 제공할 수 있는 구조이다. 음성 인터페이스 서버(10) 및 음성 인터페이스 클라이언트(20a, 20b, 20c)간 정보전달은 바람직하게 패킷을 사용한다.

도 2는 본 발명의 실시예에 의한 음성 인터페이스 시스템의 신호 처리 흐름을 나타내기 위한 도면이고, 도 3은 음성 인식 결과가 정(正)인식 되었을 때와 오(誤)인식 되었을 때로 정보처리 과정을 나타내는 도면이다.

도 2 및 3을 참조하면, 음성 인식 결과가 정(正)인식 되었을 때의 정보 처리 과정은 사용자(30)가 "오늘 일정이 뭐지" 등의 음성 명령을 발화하는 단계(S11), 음성 인터페이스 클라이언트(20)가 사용자(30)가 발성한 음성 데이터 중 음성 구간을 검출한 후 검출된 음성 데이터를 전달하는 단계(S12), 음성 인식 모듈(11)이 전달된 음성 데이터를 이용하여 "오늘"과 "일정"이라는 정(正)인식된 음성 인식을 수행하는 단계(S13), 대화 모델 모듈(13)이 음성 인식된 결과에 따라 "누구의 일정입니까?" 등의 시스템 응답을 형성하는 단계(S14), 음성 합성 모듈(14)이 시스템 응답을 음성 데이터로 변환하는 단계(S15), 및 음성 인터페이스 클라이언트(20)가 음성 데이터로 변환된 시스템 응답에 따라 사용자에게 발화하는 단계(S16)을 포함한다.

또한, 음성 인식 결과가 오(誤)인식 되었을 때의 정보 처리 과정은 사용자(30)가 "오늘 일정이 뭐지" 등의 음성 명령을 발화하는 단계(S21), 음성 인터페이스 클라이언트(20)가 사용자(30)가 발성한 음성 데이터 중 음성 구간을 검출한 음성 데이터를 전달하는 단계(S22), 음성 인식 모듈(11)이 전달된 음성 데이터를 이용하여 오(誤)인식으로 판단되어지는 음성 인식을 수행하는 단계(S23), H/O 오류 후처리 모듈(12)에서 휴먼 오퍼레이터에 의하여 오류가 보정되어 "오늘"과 "일정"이라는 음성 인식 결과를 형성하는 단계(S24), 대화 모델 모듈(13)이 음성 인식된 결과에 따라 "누구의 일정입니까?" 등의 시스템 응답을 형성하는 단계(S25), 음성 합성 모듈(14)이 시스템 응답을 음성 데이터로 변환하는 단계(S26) 및 음성 인터페이스 클라이언트(20)가 음성 데이터로 변환된 시스템 응답에 따라 사용자에게 발화하는 단계(S27)를 포함한다.

도 4를 참조하면, 음성 인터페이스 방법은 음성 향상 단계(S31), 음성 끝점 검출 단계(S32), 음성/비음성 검증 단계(S33) 음성 특징 추출 단계(S34), 실시간 잡음보상 단계(S35), 핵심어 탐색 단계(S36), 온라인 화자적응 단계(S37), 발화 검증 단계(S38), H/O 오류 후처리 단계(S39), 대화 모델 단계(S40) 및 음성 합성 단계(S41)를 포함한다. 상기 단계들 중 음성 향상 단계(S31) 및 음성 끝점 검출 단계(S32)는 음성 인터페이스 클라이언트에서 수행될 수 있으며, 나머지 단계들은 음성 인터페이스 서버에서 수행될 수 있다. 만일 음성 끝점 검출 단계(S32)가 2단계로 구성되는 경우에는, 2단계 중 제 1 단계는 음성 인터페이스 클라이언트에서 수행되고, 제 2 단계는 음성 인터페이스 서버에서 수행될 수도 있다. 음성 향상 단계(S31), 음성 끝점 검출 단계(S32), 음성/비음성 검증 단계(S33) 음성 특징 추출 단계(S34), 실시간 잡음보상 단계(S35), 핵심어 탐색 단계(S36), 온라인 화자적응 단계(S37) 및 발화 검증 단계(S38)를 편의상 음성 인식 단계(S42)로 호칭될 수 있다. 음성/비음성 검증 단계(S33) 음성 특징 추출 단계(S34), 실시간 잡음보상 단계 (S35), 핵심어 탐색 단계(S36), 온라인 화자적응 단계(S37) 및 발화 검증 단계(S38)는 음성 인식 모듈에서 수행될 수 있으며, H/O 오류 후처리 단계(S39)는 H/O 오류 후처리 모듈에서, 대화 모델 단계(S40)는 대화 모델 모듈에서, 음성 합성 단계(S41)는 음성 합성 모듈에서 수행될 수 있다.

음성 향상(speech enhancement) 단계(S31)는 주로 정적(stationary) 배경잡음을 제거하여 음성의 명료도를 배경잡음에 비해 상대적으로 높여주는 단계로서 어레이 신호 프로세싱(Array signal processing) 및 위너필터(Wiener filter) 기능 등을 수행한다.

음성끝점검출 단계(S32)은 묵음구간과 음성구간을 구분하는 단계로, 일례로 2단계의 음성 끝점 검출이 수행될 수 있다. 2단계의 음성 끝점 검출 단계는 음성의 에너지 정보를 이용하여 1차 음성끝점검출을 수행하는 제 1 단계와 통계적 모델로 제 1 단계 결과로부터 GSAP(Global speech absent probability)를 이용하여 좀 더 정교하게 음성끝점을 검출하는 제 2 단계를 포함할 수 있다. 2단계의 음성 끝점 검출 단계 중 제 1 단계는 음성 인터페이스 클라이언트에서 수행되고, 제 2 단계는 음성 인터페이스 서버에서 수행하게 될 수 있다.

음성/비음성 검증 단계(S33)에서, 끝점검출된 음성은 GMM (Gaussian Mixture Model)기반 음성/비음성 검증방법 등을 통해 음성인지 잡음인지 검증과정을 거치게 되고, 단순 잡음으로 판단되면 이후의 단계를 수행하지 아니하고, 음성으로 판단되면 이후의 단계를 수행하게 된다.

음성 특징 추출 단계(S34)에서, 음성으로부터 특징 파라메터(예: 필터뱅크, 멜켑스트럼 등)가 추출된다.

잡음보상 단계(S35)에서 음성구간에 대해 비정적(non-stationary) 배경잡음을 IMM(Interactive Multiple Model)방법으로 실시간으로 제거하게 된다. 잡음이 제거된 최종 특징 파라메터는 HMM(Hidden Markov Model) 음향모델로부터 확률값을 계산하는데 이용되고, 이로부터 인식대상 어휘후보 단어간 확률값을 비교하여 인식결과를 출력하게 된다.

핵심어 탐색 단계(S36)에서는, 인식대상 어휘가 많으면 (예: 1000단어급 이상) 인식시 걸리는 시간이 증가하게 되므로, 이를 실시간으로 인식결과를 출력할 수 있도록 트리 검색(tree search) 등을 이용한 고속탐색방법을 사용한다. 음성 명령어 발화시 고립단어 뿐만 아니라 단문도 발성이 가능하고, 이 단문내에 포함된 핵심어를 추출하여 핵심어만 인식하는 방식으로, 고립단어 발성에 비해 사용자 발화시 편의성을 대폭 높일 수 있다.

온라인 화자적응 단계(S37)에서, 온라인 화자적응을 통해 기존 모델링된 화자독립 음성특성에 발화자의 음성특성을 실시간으로 반영하여 화자독립 음향모델링으로 인한 인식성능 저하를 막는다.

발화 검증 단계(S38)에서, 음성인식 결과가 정인식인지 오인식인지 검증한다. 일반적으로 오인식이 발생할 경우, 오인식된 결과를 그대로 시스템 응답에 사용한다면 사용자의 만족도를 크게 저하시키고, 음성인식 기능이 오히려 편리함 보다는 불편함을 초래할 수 있다. 이와 같은 음성인식 오류로 인한 사용자 불만을 해소하고자 음성인식 결과를 다시 한번 검증하여 확실히 정인식된 결과라고 신뢰할 경우에만 시스템 응답으로 전달하고 그 외는 사용자에게 다시 한번 발성하게 하는 거절기능이 사용자 편의성을 위해 매우 중요하다. 발화 검증 단계(S38)는 각종 LLR(Log Likelihood Ratio)값으로부터 추출된 스코어 값(예: Anti-model LLR score, N-best LLR score, LLR score의 조합, word duration)을 이용하여 검증하는 제 1 단계와, 인식수행 모듈단계별 출력되는 중간결과값 및 메타데이타(예: SNR, 성별, 나이, 음절수, 음운구조, 피치, 발성속도, 사투리 등)를 이용하여 발화검증의 신뢰도를 높이는 제 2 단계를 포함할 수 있다. 음성 인터페이스 서버는 발화검증된 최종 결과에 따라 다음 단계인 대화모델/휴먼오퍼레이터로 진행할지 아니면 사용자에게 재발성을 요구할지 결정하게 된다.

H/O 오류 후처리 단계(S39)는 발화 검증 단계(S38)에서 음성 인식이 오인식으로 판단된 경우 수행되는 단계로서, 사람인 휴먼 오퍼레이터가 인식 오류를 정인식 결과로 수정하는 단계이다.

대화 모델 단계(S40)는 음성인식 결과를 음성인식 모듈로부터 직접 받거나, H/O 오류후처리 단계(S39)로부터 수정된 음성인식 결과를 입력받아, 의미오류 후처리 과정을 통해 의미적으로 오류(예: "오늘 아버지 일정"은 의미적 오류가 발생하지 아니한 경우이나, "날씨 아버지 일정"은 의미적 오류가 발생한 경우이다.)가 있는지 검증하고, 빠진 의미단어(핵심어)를 재차 발성하도록 시스템 응답을 생성하는 단계이다.

음성 합성 단계(S41)는 시스템 응답에 따라 음성 데이터를 형성한다. 이때, 시스템 응답 문장으로부터 양태를 분석하여 화자의 의도에 따른 대화체 스타일의 합성음으로 변환하여 들려줄 수 있다.

도 5는 도 4에 표현된 음성 인터페이스 방법에서 H/O 오류 후처리 단계의 일례를 나타내는 도면이다. H/O 오류 후처리 단계에서는 여러대의 음성 인터페이스 클라이언트로부터 입력되는 복수개의 오인식결과를 빠른 시간내에 다수 사용자에게 응답할 수 있도록 처리하는 것이 매우 중요하다. 이에 본 발명에서는 휴먼오퍼레이터가 오인식결과를 정인식결과로 효율적으로 수정할 수 있는 방식을 제안한다.

H/O 오류 후처리 단계는 거절회수 디스플레이 단계(S51)를 포함 할 수 있다. 거절회수 디스플레이 단계(S51)는 발화검증(Utterance verification) 단계에서 거절(Rejection)한 회수를 DB(41)에 누적하여, 누적된 거절회수가 많은 사용자의 오류를 우선적으로 수정할 수 있도록 함으로써, 사용자 불만을 최소화하기 위한 단계이다.

H/O 오류 후처리 단계는 자주 틀리는 단어 디스플레이 단계(S52)를 포함할 수 있다. 이 단계는 자주 틀리는 단어를 DB(42)에 등록하고 이를 디스플레이 함으로써, 운용자가 쉽게 정인식결과를 선택하게 함으로써 효율적인 수정을 가능하게 한다.

H/O 오류 후처리 단계는 베스트 인식결과 디스플레이 단계(S53)를 포함 할 수 있다. 이 단계에서, 오인식 된 단어의 인식 결과와 가장 가까운 복수의 단어를 디스플레이 함으로써, 디스플레이된 단어 중에서 정인식 결과를 빨리 찾을 수 있도록 한다.

H/O 오류 후처리 단계는 대화 히스토리 디스플레이 단계(S54)를 포함 할 수 있다. 이 단계에서, 사용자와 음성 인터페이스 시스템 간 대화가 진행된 로그를 디스플레이함으로써, 운용자가 좀더 정확하게 정인식 결과를 선택할 수 있도록 한다.

H/O 오류 후처리 단계는 단어 자동 인텍싱 단계(S55)를 포함 할 수 있다. 이 단계에서는 정인식 단어를 빨리 찾을 수 있도록 몇 개의 음소만 타이핑이 되었을 때, 일치되는 단어를 리스트하여 나머지 음소를 타이핑하지 않더라도 정인식 단어를 바로 선정하도록 한다.

H/O 오류 후처리 단계는 발화 속도 가변 단계(S56)를 포함 할 수 있다. 음성을 청취하는 시간은 음성의 길이에 비례하게 되는데 이에 따라 사용자에게 H/O 오류 후처리 단계를 통해 정인식 결과를 응답할 수 있는 시간이 길어지게 되므로, 발화 속도 가변 단계(S56)에서는 음성의 청취가 가능한 범위까지 음성의 길이를 대폭 줄여, 즉 발화 속도를 증가시켜 H/O 오류 후처리 속도를 개선하고자 한다.

대화 모델 단계는 의미오류 후처리 단계(S61), 탐색 대화영역 제한 단계(S62) 및 응답용 대화문장 생성 단계(S63)를 포함한다.

의미 오류 후처리 단계(S61)에서, 음성 인식된 결과에 의미적으로 오류가 있는지 검증하고, 오류가 있는 경우 빠진 의미 단어(핵심어)를 재차 발성하도록 사용자에게 요청한다. 이때 이러한 의미적 애매성이 있을 경우, DB(51)에 저장된 표 1 과 같은 의미적관계 규칙 테이블을 이용하여, 정해진 규칙 이외의 형태가 입력될 경우, 가장 유사한 형태로 대화를 진행하도록 한다.

대화 모델 단계에서 생성하는 대화체 문장에 따라 사용자가 발성하는 어휘가 제한될 것이다. 가령, 대화 모델 단계에서 생성하는 대화체 문장이 시기를 묻는 문장이라면, 그 답은 날짜, 시간 등 일정한 범위 내에 있는 단어가 될 것이다. 따라서, 탐색 대화영역 제한 단계(S62)에서는 상술한 핵심어 탐색 단계 등에서 탐색하여야 할 핵심어의 대상 범위를 줄이도록 하여, 결과적으로 인식률을 향상시키는 기능을 수행한다.

응답용 대화 모델 생성 단계(S63)에서, 시스템 응답을 생성한다.

표 2는 사용자, 음성 인터페이스 클라이언트(로봇) 및 음성 인터페이스 서버간 입출력에 대한 동작 상태를 시간에 따라 나타내고 있다.

초기단계에서는 로봇(클라이언트)와 서버는 대기상태로 있고, 로봇으로부터 입력된 배경잡음을 서버로 보내 실시간으로 환경에 적응하는 단계를 수행한다. 사용자가 "로봇"이라고 원거리에서 부르면 로봇은 어레이 마이크를 통해 화자위치를 추정하고 잡음을 제거한 뒤 음성구간을 검출하여 서버로 보낸다. 서버에서는 화자인식을 수행하여 누가 말하는지 인식하고 화자개인정보를 로딩하여 화자특성에 따른 음향특성을 적응하도록 한다. 로봇은 추정된 화자위치로 방향을 전환하여 사용자와 50cm 거리까지 이동한다. 그리고 서버로부터 음성합성음을 전달받아 사용자에게 "무엇을 도와드릴까요. 홍길동님" 라고 출력하게 된다. 이때 로봇은 영상인식을 통해 화자의 입술을 바라보고 있도록 얼굴 추적(face-tracking)을 수행하고, 영상정보도 음성정보와 함께 멀티모달정보를 추출한다.

사용자는 정보를 로봇에게 요청하고(예:“오늘 날씨가 어때?”) 로봇은 전과 동일하게 잡음제거, 음성끝점검출을 수행한 후 서버로 음성을 전송한다. 서버로 전송된 음성은 단문내 포함된 핵심어(예: “오늘 날씨”)를 추출하고 음성인식을 수행한다. 이때 합성음이 출력되는 동안에도 음성인식이 가능하도록 바지-인(barge-in) 처리 기능을 포함한다. 음성인식 결과는 온라인 화자적응을 통해 음성인식을 수행하고, 인식결과가 신뢰도가 있는지 발화검증을 통해 재차 검증하고, 발화검증 결과에 따라 대화모델로 직접 입력되거나 H/O 오류후처리 과정으로 넘어가 정인식 결과로 보정하고, 최종 인식결과는 대화모델로 입력된다. 대화모델은 사용자가 요청한 질의에 대해 시스템응답(예: “오늘 대전 날씨는 맑습니다”)을 생성하고 대화체 합성기를 통해 출력하게 된다. 이후 동일한 과정을 통해 사용자와 로봇간 대화형 음성인터페이스가 이루어지며, 최종 종료신호(예: “OK”)가 주어지면 로봇과 서버는 초기상태로 대기하게 된다.

본 발명에 의한 음성 인터페이스 장치 및 방법은 H/O 오류 후처리를 수행함으로써, 음성인식오류를 최소화할 수 있다는 장점이 있다.

또한, 본 발명에 의한 음성 인터페이스 장치 및 방법은 대화 모델을 사용하여 적절한 시스템 응답을 형성함으로써, 의미적 오류나 음성 인식의 오류가 발생하는 경우 적절한 질문을 사용자에게 제시하고 그 답을 얻어, 음성인식의 오류 또는 사용자 오류에 적절하게 대처할 수 있다는 장점이 있다.

또한, 본 발명에 의한 음성 인터페이스 장치 및 방법은 대화 모델에서 형성되는 시스템 응답에 따라 음성 인식시 탐색하는 핵심어의 범위를 줄임으로써, 음성 인식의 정확도 및 속도를 개성할 수 있다는 장점이 있다.

또한, 본 발명에 의한 음성 인터페이스 장치 및 방법은 H/O 오류 후처리를 수행함에 있어서, 사용자별 음성 인식 오류의 누적 회수, 자주 틀리는 단어, 오류가 발생한 단어와 가장 인접한 것으로 판단되어지는 적어도 하나의 단어, 및 대화 히스토리 중 적어도 하나를 디스플레이하거나, 단어 자동 인덱싱 기능을 가지거나, 발화 속도 가변 기능을 가짐으로써, H/O 오류 후처리의 효율을 향상시킬 수 있다는 장점이 있다.

또한, 본 발명에 의한 음성 인터페이스 장치 및 방법은 클라이언트/서버 구조를 가짐으로써, 클라이언트 특히 로봇 클라이언트의 저가 구입을 가능하게 한다 는 장점이 있다.

Claims

음성 데이터를 이용하여 음성 인식을 수행하며, 수행된 음성 인식의 오류 여부를 판단하는 음성 인식 모듈; 및

상기 음성 인식 모듈에서 음성 인식의 오류가 있는 것으로 판단되어지는 경우 휴먼 오퍼레이터를 통하여 음성 인식 결과를 얻는 H/O 오류 후처리 모듈을 포함하는 음성 인터페이스 서버.
제 1 항에 있어서,

상기 H/O 오류 후처리 모듈은 사용자별 음성 인식 오류의 누적 회수, 자주 틀리는 단어, 오류가 발생한 단어와 가장 인접한 것으로 판단되어지는 적어도 하나의 단어, 및 대화 히스토리 중 적어도 하나를 디스플레이하는 음성 인터페이스 서버.
제 1 항에 있어서,

상기 H/O 오류 후처리 모듈은 단어 자동 인덱싱 기능을 가지는 음성 인터페이스 서버.
제 1 항에 있어서,

상기 H/O 오류 후처리 모듈은 발화 속도 가변 기능을 가지는 음성 인터페이 스 서버.
제 1 항에 있어서,

상기 음성 인식 모듈 또는 상기 H/O 오류 후처리 모듈에서 얻어진 음성 인식 결과에 의미상의 오류가 있는 경우에 오류를 수정하기 위한 질문인 시스템 응답을 형성하는 대화 모델 모듈; 및

상기 시스템 응답을 음성 데이터로 변환하는 음성 합성 모듈을 더 포함하는 음성 인터페이스 서버.
제 5 항에 있어서,

상기 음성 인식 모듈은 상기 대화 모델 모듈에서 형성된 시스템 응답에 대응하는 범위의 단어만을 탐색하는 음성 인터페이스 서버.
사용자가 발화한 음성을 음성 데이터로 변환하고, 변환된 음성 데이터를 통신을 통하여 음성 인터페이스 서버로 전달하는 음성 인터페이스 클라이언트; 및

상기 음성 인터페이스 클라이언트로부터 전달된 음성 데이터를 이용하여 음성 인식을 수행하되, 음성 인식에 오류가 클 것으로 판단되어지는 경우에는 휴먼 오퍼레이터를 통하여 음성 인식 결과를 얻는 음성 인터페이스 서버를 포함하는 음성 인터페이스 시스템.
제 7 항에 있어서,

상기 음성 인터페이스 서버는 제 1 항 내지 6 항 중 어느 한 항에 의한 음성 인터페이스 서버인 음성 인터페이스 시스템.
제 7 항에 있어서,

상기 음성 인터페이스 클라이언트는 상기 사용자가 발화한 음성으로부터 변환된 음성 데이터의 끝점 검출 기능을 가지는 음성 인터페이스 시스템.
제 7 항에 있어서,

상기 음성 인터페이스 클라이언트는 로봇인 음성 인터페이스 시스템.
음성 데이터를 이용하여 음성 인식을 수행하는 음성 인식 모듈;

상기 음성 인식 모듈에서 수행된 음성 인식 결과 오인식이거나, 의미상의 오류가 있는 경우에 오류를 수정하기 위한 질문인 시스템 응답을 형성하는 대화 모델 모듈; 및

상기 질문을 음성 데이터로 변환하는 음성 합성 모듈을 포함하는 음성 인터페이스 서버.
제 11 항에 있어서,

상기 음성 인식 모듈은 상기 대화 모델 모듈에서 형성된 질문에 대응하는 범위의 단어만을 탐색하는 음성 인터페이스 서버.
사용자가 발화한 음성을 음성 데이터로 변환하고, 변환된 음성 데이터를 통신을 통하여 음성 인터페이스 서버로 전달하는 음성 인터페이스 클라이언트; 및

상기 음성 인터페이스 클라이언트로부터 전달된 음성 데이터를 이용하여 음성 인식을 수행하되, 음성 인식 결과 오인식이거나, 의미상의 오류가 있는 경우에는 오류를 수정하기 위한 질문인 시스템 응답을 형성하는 음성 인터페이스 서버를 포함하는 음성 인터페이스 시스템.
제 13 항에 있어서,

상기 음성 인터페이스 서버는 제 11 또는 12 항에 의한 음성 인터페이스 서버인 음성 인터페이스 시스템.
(a) 음성 데이터를 이용하여 음성 인식을 수행하며, 수행된 음성 인식의 오류 여부를 판단하는 음성 인식 단계; 및

(b) 상기 (a) 단계에서 음성 인식의 오류가 있는 것으로 판단되어지는 경우 휴먼 오퍼레이터를 통하여 음성 인식 결과를 얻는 H/O 오류 후처리 단계를 포함하는 음성 인식 방법.
제 15 항에 있어서,

상기 (a) 단계는

(a1) 상기 음성 데이터로부터 특징 파라메터를 추출하는 단계;

(a2) 상기 추출된 특징 파라메터로부터 핵심어를 탐색하여 구하는 단계; 및

(a3) 상기 (a2) 단계에서 구한 핵심어가 정인식인지에 의한 결과인지 오인식에 의한 결과인지 여부를 판단하여 수행된 음성 인식의 오류 여부를 판단하는 단계를 포함하는 음성 인식 방법.
제 16 항에 있어서,

상기 (a3) 단계는

적어도 한 종류의 LLR 값으로부터 추출된 스코어 값을 이용하여 음성 인식의 오류 여부를 판단하는 단계; 및

메타데이터를 이용하여 음성 인식의 오류 여부를 판단하는 단계를 포함하는 음성 인식 방법.
제 16 항에 있어서,

상기 (a) 단계는

(a4) 화자독립 음성 특성에 발화자의 음성특성을 실시간으로 반영하는 단계를 더 포함하는 음성 인식 방법.
제 16 항에 있어서,

상기 (a) 단계는

(a5) 상기 (a1) 단계 이전에 수행되며, 상기 음성 데이터의 묵음구간과 음성구간을 구분하는 음성 끝점 검출 단계를 더 포함하는 음성 인식 방법.
제 19 항에 있어서,

상기 (a5) 단계는

음성의 에너지 정보를 이용하여 음성 끝점을 검출하는 단계; 및

GSAP를 이용하여 음성 끝점을 검출하는 단계를 포함하는 음성 인식 방법.
제 19 항에 있어서,

상기 (a) 단계는

(a6) 상기 (a1) 단계 이전에 수행되며, 상기 끝점 검출된 음성 데이터가 음성인지 잡음인지 검증하는 단계를 더 포함하는 음성 인식 방법.
제 19 항에 있어서,

상기 (a) 단계는

(a7) 상기 (a5) 단계 이전에 수행되며, 음성 데이터에서 정적 배경 잡음을 제거하는 단계를 더 포함하는 음성 인식 방법.
제 16 항에 있어서,

상기 (a) 단계는

(a8) 상기 (a1) 단계에서 추출한 특징 파라메터로부터 비정적 배경 잡음을 제거하는 단계를 더 포함하는 음성 인식 방법.
제 15 항에 있어서,

상기 (b) 단계는

사용자별 음성 인식 오류의 누적 회수, 자주 틀리는 단어, 오류가 발생한 단어와 가장 인접한 것으로 판단되어지는 적어도 하나의 단어, 및 대화 히스토리 중 적어도 하나를 디스플레이하는 단계를 포함하는 음성 인식 방법.
제 15 항에 있어서,

상기 (b) 단계는

적어도 하나의 음소가 타이핑되었을 때, 타이핑 된 음소를 포함하는 단어를 리스팅하는 단계를 포함하는 음성 인식 방법.
제 15 항에 있어서,

상기 (b) 단계는

발화 속도를 가변하는 단계를 포함하는 음성 인식 방법.
제 15 항에 있어서,

(c) 상기 (a) 단계 또는 상기 (b) 단계에서 얻어진 음성 인식 결과에 의미상의 오류가 있는 경우에 오류를 수정하기 위한 질문을 형성하는 단계; 및

(d) 상기 질문을 음성 데이터로 변환하는 단계를 더 포함하는 음성 인식 방법.
제 27 항에 있어서,

상기 (c) 단계는

(c1) 상기 (a) 단계 또는 상기 (b) 단계에서 얻어진 음성 인식 결과에 의미상의 오류가 있는지 여부를 판단하는 단계;

(c2) 상기 질문을 형성하는 단계; 및

(c3) 이후에 수행되는 음성 인식에서 상기 질문에 대응하는 범위의 핵심어만을 탐색하도록 제어하는 단계를 포함하는 음성 인식 방법.
(a) 음성 데이터를 이용하여 음성 인식을 수행하는 음성 인식 단계;

(b) 상기 (a) 단계에서 얻어진 음성 인식 결과에 오인식이 있거나 의미상의 오류가 있는 경우에 오류를 수정하기 위한 질문인 시스템 응답을 형성하는 단계; 및

(c) 상기 시스템 응답을 음성 데이터로 변환하는 단계를 더 포함하는 음성 인식 방법.
제 29 항에 있어서,

상기 (b) 단계는

(b1) 상기 (a) 단계에서 얻어진 음성 인식 결과에 오인식이 있거나, 의미상의 오류가 있는지 여부를 판단하는 단계;

(b2) 상기 시스템 응답을 형성하는 단계; 및

(b3) 이후에 수행되는 음성 인식에서 상기 시스템 응답에 대응하는 범위의 단어만을 탐색하도록 제어하는 단계를 포함하는 음성 인식 방법.