KR101255856B1

KR101255856B1 - 통합형 음성 대화 시스템

Info

Publication number: KR101255856B1
Application number: KR1020060073655A
Authority: KR
Inventors: 만프레드 쉐들
Original assignee: 하만 베커 오토모티브 시스템즈 게엠베하
Priority date: 2005-08-04
Filing date: 2006-08-04
Publication date: 2013-04-17
Also published as: KR20070017050A; JP2007041585A; ATE550756T1; EP1750253A1; EP1750253B1; US20070156407A1; CA2551589A1; CN1909063A

Abstract

본 발명은 음성 대화 시스템으로서, 음성 대화 시스템을 제어하기 위한 음성 애플리케이션 관리자, 이 음성 대화 시스템의 2 개 이상의 서비스 컴포넌트, 특히 음성을 인식하도록 구성되는 음성 인식 수단, 이 2 개 이상의 서비스 컴포넌트들과 서로 그리고 2 개 이상의 서비스 컴포넌트와 음성 애플리케이션 관리자 사이에서 데이터를 교환하는 메시지 라우터, 이 음성 대화 시스템을 임의의 하드웨어 플랫폼 및/또는 임의의 작동 시스템 및/또는 하나 이상의 임의의 장치 드라이버에 접속하는 플랫폼 추상화 계층을 구비하는 음성 대화 시스템에 관한 것이며, 또한 본 발명의 시스템을 이용하는 방법에 관한 것이다.

메시지 라우터, 서비스 컴포넌트

Description

통합형 음성 대화 시스템{INTEGRATED SPEECH DIALOG SYSTEM}

도 1 은 SAM, 메시지 라우터 및 서비스 컴포넌트들을 구비하는 본 발명에 따른 음성 대화 시스템의 확장가능한 아키텍쳐의 도면.

도 2 는 SAM, 메시지 라우터 및 서비스 컴포넌트들 및 PAL 을 구비하는 본 발명의 음성 대화 시스템의 일례의 블록도.

도 3 은 StarRecⓒ 대화 개발 스튜디오에 접속되는 본 발명의 대화 시스템의 바람직한 실시형태를 나타내는 도면.

도 4 는 플랫폼 추상화 계층을 커스터머 오디오 드라이버 명세에 적응시킴을 나타내는 도면.

※ 도면의 주요 부분에 대한 부호의 설명

12 : 서비스 컴포넌트 14 : 메시지 라우터

72 : 타겟 에이전트 76 : GDC 컴파일러

본 발명은 인간의 스피커와 계산 시스템 사이의 상호작용을 실현하기 위한 음성 대화 시스템에 관한 것이다. 더욱 상세하게는, 본 발명은 실제 플랫폼과는 크게 독립적인 음성 대화 시스템의 복수의 구성요소의 고도의 통합에 관한 것이다.

아마도, 인간의 보이스는 가장 자연스럽고 편안한 인간 컴퓨터 인터페이스로서 간주될 수 있다. 보이스 입력은 예를 들어 물리적으로 도전된(challenged) 사용자들에 액세스하여 핸즈-프리 동작의 이점을 제공하며, 추상적인 계산 신택스(syntax)를 학습하는 문제를 피하는 이점을 제공한다. 따라서, 컴퓨터 사용자들은 오랫동안 원하는 소프트웨어 애플리케이션들을 발성(verbal utterance)에 의해 동작시킬 수 있다.

특히, 한편으로는 예를 들어 컴퓨팅 능력과 메모리에 관한 컴퓨터 용량의 최근의 향상 및 다른 한편으로는 이론적인 음성 분석으로 인하여, 음성 대화 시스템들의 개발(development)이 크게 진행되고 있다. 음성 대화 시스템은 음성, 사운드, 캐릭터, 숫자, 그래픽, 이미지 등을 입력, 출력 및 처리하는 멀티미디어 시스템에 통합되어 있다.

컴퓨터 동작을 위한 구어(spoken language) 입력의 기본적인 엘리먼트는, 즉 단어들의 세트에 의해 음성 신호를 대응하는 정자(orthographic) 표현으로 변환하는 것인 음성 인식이다. 인식된 단어 및 문장은, 명령 및 데이터 엔트리와 같은 애플케이션에 대하여 최종 결과일 수 있거나 또는 추가적인 언어에 대한 입력으로서 기능할 수 있다. 통계적인 언어 모델들 사용하여 분리된 워드 인식으로부터 연속적인 워드 인식으로 개발되고 있다.

음성 대화 시스템의 출력 작업에 대하여, 부분적으로는 직접적인 문자/음성 대화 시스템들로부터 개별적인 억양까지도 고려하는 정교한 음성 합성 수단까지 개 발되고 있다.

종래의 음성 대화 시스템은 음성 인식 및 음성 합성으로서 개별적으로 개발된 컴포넌트들의 간단한 결합물로서 설계되고 있다. 부가적으로, 부분적으로는 일부 컴포넌트의 낮은 통합 정도의 결과로서, 현존 음성 대화 시스템들은 특정 플랫폼에 결합되고, 다른 인터페이스들의 원하지 않은 다이버시티를 나타낸다.

예를 들어, Microsoft, Inc 에 의해 제공된 SAPI(Speech Application Program Interface)는 마이크로소프사의 작동 시스템에 결합된다. 다른 개발형 JAVA SAPI 에 의해 프로그래머는 오디오 리코딩 음성과 같은 플랫폼 의존 문제들 뿐만 아니라 인식기 시방서(specifics) 를 무시할 수 있고, 복수의 플랫폼들에 의해 음성을 인식하지만, 특정 음성 서버가 제공된 것들만이 백그라운드에서 동작한다. 일부 파라메트릭 의존도에 의해 동작을 제어하는 컴포넌트는 포함되지 않는다.

따라서, 본 발명에 내재하는 문제점은 종래 기술의 결점을 극복하며, 특히 몇몇 컴포넌트들의 높은 휴대성 및 집적도를 나타내는 음성 대화 시스템을 제공해야 하는 것이다. 또한, 요구되는 시스템은 고도의 기능적 확장성 및 타겟 시스템으로의 용이한 접속성을 나타내야 한다.

상술한 문제점은 청구항 제 1 항에 따른 음성 대화 시스템 및 청구항 제 9 항에 따른 음성 대화 시스템을 동작시키는 방법에 의해 해결된다. 제공된 청구항 제 1 항에 따른 음성 대화 시스템은,

음성 대화 시스템을 제어하는 음성 애플리케이션 관리자;

2 개 이상의 서비스 컴포넌트로서, 특히 음성을 인식하도록 구성된 음성 인식 수단;

상기 2 개 이상의 서비스 컴포넌트 사이에서 서로 그리고 상기 2 개의 이상의 서비스 컴포넌트와 상기 음성 애플리케이션 관리자 사이에서 데이터를 교환하는 메시지 라우터; 및

임의의 하드웨어 플랫폼 및/또는 임의의 작동 시스템 및/또는 하나 이상의 임의의 장치 드라이버에 상기 음성 대화 시스템을 접속하는 플랫폼 추상화(abstraction) 계층을 구비한다.

음성 애플리케이션 관리자(SAM)는, 음성 대화 시스템의 메인 제어 유닛이며, 사용된 서비스들의 동작에 대한 정보를 포함하는 서비스 레지스트리를 구비한다. 특히, SAM 은 모든 등록된 서비스들에 대하여 조정된 개시 및 중지 동작을 제어한다.

음성 대화 시스템의 서비스들은 몇몇 유닛 또는 컴포넌트들로 분배된다. 음성 또는 보이스 인식 수단은 사용자의 발성(verbal utterance)에 의해 음성 대화 시스템을 통하여 일부 애플리케이션 장치를 제어하는데 필요한 필수적인 컴포넌트를 나타낸다. 이하에서는 서비스 컴포넌트들에 의해 표현되는 몇몇 다른 서비스들을 설명한다.

서비스 컴포넌트들 사이 뿐만 아니라 서비스 컴포넌트들과 SAM 사이에서 데이터가 메시지 라우터에 의해 교환된다. 서비스 컴포넌트들은 바람직하기로는 표 준화된 균일하고 개방된 인터페이스들 및 통신 프로토콜들을 이용한다. 따라서, 음성 대화 시스템은 추가적인 구성요소들에 의해 용이하게 확장될 수 있다.

예를 들어, 메시지 라우터는 하나의 시스템 컴포넌트로부터 메시지 또는 데이터를 수신하고, 이를 조건들의 세트에 의존하는 다른 메시지 채널로 재발행한다.

메시지 라우터는, 이것이 복수의 출력 채널들에 접속한다는 점에서 가장 기본적인 파이프 및 필터들과는 다르다. 메시지 라우터의 키 속성은, 이것이 메시지 콘텐츠를 변경하지 않고, 그 자체가 메시지의 목적지와 관련되어 있다.

플랫폼 추상화 계층(PAL; Platform Abstraction layer)은 본 발명의 음성 대화 시스템의 키 시스템 컴포넌트를 나타낸다. PAL 은 음성 대화 시스템의 커널(kernal) 즉, 서비스 컴포넌트로서의 내부 동작 유닛과, 예를 들어 일부 하드웨어 플랫폼상에 사용되는 일부 작동 시스템 및 장치 드라이버들 사이에서 통신한다.

바꾸어 말하면, PAL 에 의해 음성 대화 시스템은 임의의 타겟 시스템에 편리하고 간단하게 적응할 수 있다. 음성 대화 시스템을 타겟 시스템 등의 소프트웨어로 적응시키는 것은 PAL 을 적절히 변경함으로써 독자적으로 달성된다.

PAL 은 음성 대화 시스템을 예를 들어 CAN, MOST, Ibus 및 D2B와 같은 임의의 버스 구조에 접속할 수 있으며, TCP/IP, 블루투스, GSM 을 포함하는 통신 프로토콜들을 구현할 수 있다.

다른 클래스들의 장치들은 예를 들어 메모리, 데이터 포트, 오디오 및 비디오 출력, 일반적으로 스위치 및 버튼과 같은 PAL 에 의해 음성 대화 시스템으로부터 불려진다.

본 발명의 음성 대화 시스템은 예를 들어 음성 인식, 음성 입/출력 및 음성 대화의 제어를 위한 모든 서비스 컴포넌트들을 멀티플렉싱한다. 특히, PAL 은 임의의 타겟 시스템에 대한 추상적인 단일의 적응가능한 인터페이스를 나타낸다.

PAL 은 일부 구성요소들의 높은 휴대성 및 집적도뿐만 아니라 고도의 기능적 확장성 및 타겟 시스템들로의 용이한 접속성을 보증한다. PAL 때문에, 음성 대화 시스템의 임의의 구현은, 작동 시스템 또는 타겟 시스템의 하드웨어 아키텍쳐에도 의존하지 않는다.

아마도, 메시지 라우터는 일반적인 통신 포맷의 다른 시스템 컴포넌트들 사이에서 데이터를 라우팅할 수도 있다. 일반적인 통신 포맷(GCF)이라는 용어는 타겟 시스템의 데이터 포맷에 완전히 독립적인 포맷을 지칭한다. 일부 시스템 컴포넌트들 사이에서 통신되는 메시지들에 대한 하나의 단일 데이터 포맷의 용도는 음성 대화 시스템을 효과적이고 강고하게 작동시키는 것이며, 다른 서비스들을 멀티플렉싱하는데 크게 기여한다. 또한, 메시지 라우터의 데이터 포맷은 확장될 수 있는 것이 바람직하다.

음성 대화 시스템은 커스터머 프로그래머의 인터페이스 및/또는 보이스 검출 수단 및/또는 보이스 프롬프팅 수단 및/또는 텍스트 합성 수단 및/또는 보이스 리코더 및/또는 철자 확인장치 및/또는 전체 서비스 컴포넌트들의 구성 파일들을 포함하는 구성 데이터 및/또는 옵션적인 음성 개발 컴포넌트(아래를 참조)와 관련되는 중요한 디버깅 수단 및/또는 대화 관리자를 포함할 수도 있다. 커스터머 프로그래머의 인터페이스는 커스터머 서비스들을 음성 대화 시스템의 메시지 라우터에 간단히 접속할 수 있다. 이 접속은 메시지 라우터 포맷 즉, GCF 인터페이스에 의해 사용되는 데이터 포맷을 커스터머 시스템 애플리케이션으로 매핑함으로써 확립될 수 있다.

또한, 음성 대화 시스템은 특히, 음성 대화를 개발하기 위한 개발 환경을 제공할 수 있다. 음성 개발 환경에 의해 음성 대화 설계를 규정, 컴파일, 구현 및 관리할 수 있다. 예를 들어 TCP/IP 와 같은 호스트 개발 툴로의 데이터 전송 채널 그리고 이 호스트 개발 툴로부터의 데이터 전송 채널을 선택할 수도 있다. 별도로 제공된 디버깅 수단은 커스터머 개발 환경에 적응될 수도 있다. 이 개발 환경은 새로운 음성 대화의 효과적인 개발을 용이하게 하는 그래픽 인터페이스를 구비할 수도 있다.

음성 대화 시스템은, 예를 들어 튜너 또는 CD 플레이어와 같은 오디오 장치들과 같은 음성 대화 시스템에 의해 실제로 동작 또는 제어되거나 및/또는 동작 또는 제어되도록 계획되는 애플리케이션들 및/또는 장치들을 시뮬레이션하기 위한 시뮬레이션 환경을 제공할 수 있다. 미래의 시뮬레이션시에 부가될 컴포넌트들을 제어하기 위한 새로운 음성 대화를 개발시키는 경우에, 이러한 컴포넌트는 개발자를 효과적으로 지원할 수 있다. 예를 들어, 데이터 및/또는 제어 충돌은, 상상된 애플리케이션이 물리적으로 실현되기 이전에 식별 및 해결될 수 있다.

그래픽 개발 환경은 이 시스템을 임의로 변경하지 않고(단일 소스 원리로) 음성 대화 시스템을 통합하도록 구성될 수도 있다. 따라서, 개발 환경뿐만 아니라 시뮬레이션 환경을 포함하는 음성 대화 시스템의 실시형태는 새롭게 설계된 음성 대화를 시뮬레이션하는데 쉽게 사용될 수 있다.

음성 대화 시스템에 포함될 새로운 서비스의 시뮬레이션은 원하는 결과들을 나타낸 이후에, 통합될 각각의 새로운 서비스 컴포넌트는 시뮬레이션된 가상 컴포넌트를 대체한다.

예를 들어 음성 입력에 의해 새로운 장치를 제어하기 위한 새로운 음성 대화의 개발 동안에, 음성 대화 시스템은 완전히 기능적이며 개발 프로세스는 연속적으로 수행될 수 있다. 따라서, 신속한 프로토타이핑 및 커스터머 시스템으로의 후속 이동을 행할 수 있다.

다른 종류의 애플리케이션 수단은 음성 대화 시스템에 포함될 수도 있다. 통상적인 애플리케이션 수단은 법전(tables), 명단(books) 등에서 정보를 찾기 위한 전화 다이얼러 및 수단일 수도 있고, 이는 예를 들어 항공회사 또는 열차에 대한 시간표 정보를 제공하는 시스템의 일부분일 수도 있다. 또한, 음성 대화 시스템을 통하여 음성 입력에 의해 제어되는 기계적 장치들은 작동가능한 애플리케이션들을 나타낸다.

차량에서 특히 자동차에서 상술한 음성 대화 시스템들 중 하나가 사용된다. 임의의 차 데이터 버스들은 PAL 을 통하여 음성 대화 시스템에 접속될 수도 있다.

차량에서 음성 대화 시스템의 실시형태를 이용하면 드라이버로 하여금 간단한 말하기에 의해 차량의 몇몇 장치들을 동작시킬 수 있다. 또한, 전화 기능들은 저장된 번호의 리콜 및 다이얼링과 같은, 음성 대화 시스템을 통하여 액세스될 수 있다. 차량에 네비게이션 시스템이 장착되면, 상술한 음성 대화 시스템의 실시형 태들 중 하나는 네비게이션 시스템에 통합될 수도 있다.

또한, 서비스 컴포넌트들을 구비하는 음성 대화 시스템을 작동하기 위한 방법이 제공되며, 이 방법은,

음성 대화 시스템을 음성 애플리케이션 관리자에 의해 제어하는 단계;

메시지 라우터에 의해, 상기 서비스 컴포넌트들 사이에서 그리고 상기 서비스 컴포넌트들과 상기 음성 애플리케이션 관리자 사이에서 데이터를 교환하는 단계; 및

플랫폼 추상화 계층에 의해 상기 음성 대화 시스템을 임의의 하드웨어 플랫폼 및/또는 임의의 작동 시스템 및/또는 하나 이상의 임의의 장치 드라이버에 접속하는 단계를 포함한다.

메시지 라우터에 의해 교환되는 데이터는 하나의 일반적인 단일 통신 포맷으로 포맷화될 수도 있다.

이 방법은 음성 신호를 검출 및 처리하는 단계, 그 처리된 음성 신호의 분석에 기초하여 출력 데이터를 생성하는 단계, 상기 출력 데이터를 애플리케이션 수단에 라우팅하여 애플리케이션을 실행하는 단계를 더 포함하며, 상기 라우팅은 상기 플랫폼 추상화 계층에 의해 조정된다.

음성 신호의 처리는 음성 신호를 피쳐 백터 및/또는 음성 인식 및/또는 철자 확인 및/또는 음성 리코딩으로 변환하는 단계를 포함할 수도 있다. 피쳐 백터들은 음성 분석 및 합성에 관련된 파라미터들을 포함하며, 셉스트럴(cepstral) 또는 예언자 계수로 구성될 수도 있다.

출력 데이터는 음성 대화 시스템에 의해 출력된 하나 이상의 합성 음성 신호를 포함할 수도 있다.

여기서 개시된 방법은, 서비스 컴포넌트들 및/또는 시뮬레이션 환경을 이용하여 음성 대화 시스템에 의해 실제로 작동 또는 제어되거나 및/또는 작동 또는 제어되도록 계획된 시뮬레이션 애플리케이션 중 하나를 나타내는 개발 환경을 이용하는 개발 음성 대화을 더 포함할 수도 있다.

부가적으로, 음성 대화 시스템을 동작하기 위한 개시된 방법의 상술된 실시형태들 중 하나 실시형태의 단계들을 수행하기 위한 컴퓨터 실행가능한 명령들을 가지는 하나 이상의 컴퓨터 판독가능한 매체를 구비하는 컴퓨터 프로그램 제품을 제공한다.

본 발명의 부가적인 특징 및 이점은 도면을 참조하여 설명한다. 명세서에서, 본 발명의 바람직한 실시형태들을 나타내도록 의미하는 첨부된 도면들을 참조한다. 이러한 실시형태들은 이하에 주어진 청구항들에 의해 규정되는 본 발명의 전체 범위를 표현하지는 않음을 이해해야 한다.

도 1 은 본 발명의 음성 대화 시스템의 확장가능한 구조(architecture)를 나타낸다. 다른 컴포넌트들 중에서, 시스템은 1 부터 M 까지 번호가 매겨진, 음성 애플리케이션 관리자(SAM)(10) 및 서비스 컴포넌트(12)들 뿐만 아니라 이 서비스 컴포넌트들과 SAM 사이에서 데이터를 교환하는 중앙 메시지 통신 유닛으로 동작하는 메시지 라우터(14)를 구비한다. 몇몇 서비스 컴포넌트(12)와 SAM 사이의 통신 은 메시지 프로토콜로서 하나의 단일 메시지 포맷을 독점적으로 사용함으로써 수행된다. 타겟 또는 커스터머 시스템에 독립적인 일반적이고 확장가능한 범용 통신 포맷(GCF; General Communication Format)은 커스터머의 필요성에 대하여 간단하고 경제적인 변경 및 적응에 대해서는 중요하다.

예를 들어, 서비스 컴포넌트(12)는 음성 검출용 수단, 음성 리코딩, 음성 인식, 음성 합성, 진단 뿐만 아니라 커스터머 인터페이스에 대한 수단을 구비한다. 본 발명에 내재하는 확장가능한 서버 개념에 따르면, 추가적인 서비스 컴포넌트들은 커널(kernel)을 변경할 필요없이 용이하게 부가될 수 있다. 커스터머 인터페이스들은 간단히 음성 대화 시스템에 통합되는 부가적인 서비스 컴포넌트들로서 간주되며, 또한 상술한 메시지 포맷을 이용한다. 이 포맷은 단지 본 발명의 시스템의 소프트웨어 커널 외부의 커스터머들에 의해 사용되는 포맷들로 변경되어야 한다.

음성 대화 시스템은 SAM(10)에 의해 사용자의 의도에 따라 구성된다. 따라서, SAM(10)은 예를 들어 연관된 데이터베이스들을 가진 적절한 서비스 컴포넌트(12)들의 어드레싱인, 동작 제어에 필요한 정보를 포함하는 서비스 레지스트리를 포함한다. 또한, SAM(10)은 모든 등록된 서비스 컴포넌트(12)들의 조정된 개시 및 중지에 책임이 있다.

도 2 는 본 발명에 따른 음성 대화 시스템의 예를 일부 상세히 나타낸다. 음성 대화 시스템의 물리적 기초에는, 바람직하기로는 32 비트 예를 들어 32 비트 RISC 플랫폼을 나타내는 하드웨어 플랫폼(20)이 제공된다. 32 비트 작동 시스템(OS) 및 드라이버(22)는 하드웨어 플랫폼(20)을 이용한다.

본 발명의 시스템은 다양한 타겟 시스템들의 높은 휴대성을 위하여 설계되어 있다. 이를 위하여, 플랫폼 추상화 계층(PAL; Platfrom Abstraction Layer)(24)은 음성 대화 시스템에서 중요한 역할을 맡는다. 커스터머 장치들 상의 음성 대화 시스템의 소프트웨어 컴포넌트들 그리고 즉, 반드시 가상 타겟 시스템들의 소프트웨어 컴포넌트들의 전체 의존도는 PAL(24)에 의해 처리됨으로써, 본 발명의 시스템의 커널 외부로 소싱된다. 타겟 시스템으로 적응은 실제 환경에 PAL(24)의 기능들을 독점적으로 적응시킴으로써 달성된다.

단일의 일반적인 메시지 포맷과 함께 실제로 사용되는 플랫폼 상의 임의의 의존도로부터의 추상화에 의해 제 3 파티 소프트웨어를 간단히 구현할 수 있다. 제 3 파티 소프트웨어의 통합은 제 3 파티 인터페이스들의 특정 실현으로부터의 추상화에 의해 달성되고, 본 발명의 음성 대화 시스템에 의해 내부적으로 사용되는 인터페이스들 및 메시지 포맷에 3세대 파티 설계를 매핑함으로써 달성된다.

도 1 에 도시된 바와 같이, 음성 대화 시스템의 소프트웨어 커널은, SAM(26)과 서비스 컴포넌트들 사이에 통신을 제공하는 메시지 라우터(28)를 구비한다. 도 2 에 따르면, 서비스 컴포넌트들은 일반적인 대화 관리자(GDM)(30)과 철자 확인장치(32)를 구비한다.

예를 들어, StarRecⓒ GDM 과 같은 GDM(30)은 대화 흐름을 실행하는 런타임 컴포넌트이다. GDM 대화 관리자에 의해 처리될 음성 애플리케이션은 XML 기반 GDML(Generic Dialog Modeling Language)로 인코딩된다. GDML 소스 파일들은 조밀한 이진 표현으로 GDC 그래머 컴파일러를 사용하여 컴파일링되어야 하며, 이는 작 동시간 동안에 GDM 대화 관리 모듈에 의해 해석된다.

StarRec

GDM 대화 관리자는 컴파일링된 GDML 애플리케이션들을 해석하는 가상 머신이다. 이는 가장 일반적인 실시간 작동 시스템들 상의 많은 32 비트 RISC(정수 및/또는 부동소수점수(float))에 대하여 이용가능하다. 지원된 작동 시스템들은 VxWorks, QNX, WinCE 및 LINUX 를 포함한다. StarRec

GDM 소프트웨어의 플랫폼 독립 구현으로 인하여, 다른 타겟 플랫폼들로의 포팅(porting)이 용이하게 실현될 수도 있다.

또한, 서비스 컴포넌트들은 오디오 입/출력 관리자, 및 보이스 인식 수단(36), 보이스 프롬프터(38), 텍스트 합성 수단(40) 및 보이스 렌더러(42)로서 인간과 컴퓨터간의 음성 상호작용의 기본적인 엘리먼트들을 관리하는 코덱(34)들을 구비한다. 이 서비스 컴포넌트들은 적절한 데이터베이스들을 포함한다.

도 2 의 메시지 라우터(28)위에 표시되는 로우(row)는 본 발명에 따른 음성 애플리케이션 프로그래밍 인터페이스의 기능성을 나타내며, 이는 서비스 구성 수단(44), 커스터머 프로그래머의 인터페이스(46), 디버그 및 트레이스 서비스(48) 그리고 호스트 에이전트(50)를 나타낸다. 구성 수단(44)은 각각의 서비스의 파일 기반 구성을 제공하고, SAM(26)에 의해 개시된다.

커스터머 인터페이스(46)는 사용자의 애플리케이션에 접속한다. 이 접속은 GCF 스트링 인터페이스를 커스터머 시스템 애플리케이션에 매핑함으로써 달성된다. 커널 외부의 임의의 다른 통신 프로토콜로의 매핑은 예를 들어 TCP/IP, MOST, 12C; 메시지 큐 등과 같은 전송 채널들을 통한 전송에 의해 용이하게 행해질 수 있다. 따라서, 커스터머 애플리케이션은 메시지 라우터(28)에 간단히 접속된다.

디버그 및 트레이스 서비스(48)와 호스트 에이전트(50)는, 추가적으로 음성 대화 시스템을 개발하거나 및/또는 타겟 시스템을 통합하기 위한 GCF 인터페이스를 효과적으로 개발 및 디버깅한다. StarRecⓒ 대화 개발 스튜디오는, 예를 들어 호스트 에이전트(50)를 통하여 접속되며, 음성 대화를 개발 및 디버깅하는데 사용될 수도 있다. 예를 들어 StarRecⓒ 대화 개발 스튜디오를 사용하면, 그래픽 사용자 인터페이스에 의해 음성 대화 개발을 정의, 편집, 구현 및 관리할 수 있다.

개발된 음성 대화는, 성공적으로 수행되는 경우에, 임의의 개념적인 변경없이 음성 대화 시스템에 통합될 수 있다. 바꾸어 말하면, 음성 대화 시스템은 커스터머의 애플리케이션에 사용될 개발중인 음성 대화를 시뮬레이션하는데 사용될 수 있고, 음성 대화의 컴포넌트들은 이후에 타겟 시스템에 통합될 수 있다. 일반적으로, 본 발명의 음성 대화 시스템은 신속한 프로토타이핑 및 연속적인 호스트-타겟 통합에 대하여 교차적인 개발 능력을 나타낸다.

도 3 은 그래픽 사용자 인터페이스(GUI)(66)를 이용하여 음성 대화를 개발하기 위한 통합형 개발 툴 체인을 나타낸다. 예를 들어, StarRecⓒ 대화 개발 스튜디오(DDS)(66)는 이러한 목적을 위하여 사용될 수도 있다. DDS(66)는 교차-플랫폼 개발 환경에서 컴파일링된 GDML 대화를 상호적으로 테스팅 및 디버깅할 수 있다.

타겟 플랫폼으로의 연속적인 이동은 모듀러 소프트웨어 구조를 통하여 달성되며, 메인 DDS 프로그램은, 단일 컴포넌트들(음성 인식, 음성 출력, 대화 관리) 사이에서 메시지와 데이터를 교환하기 위하여 TCP/IP 기반의 프로세스간 통신을 이 용한다. 이 컴포넌트들은 하드웨어 독립 방식 및 OS 독립 방식으로 구현되기 때문에, 임의의 플랫폼 타입으로 포팅(porting)될 수 있다.

도 3 에 나타낸 본 발명의 시스템의 실시형태에 따르면, 윈도우2000/NT 작동 시스템(62)은 X86 하드웨어 플랫폼(60)상에 구현된다. 블록(64)은 도 2 에 도시된 예와 유사한 음성 대화 시스템의 기본 컴포넌트들을 포함한다.

DDS/GUI(66)는 호스트 에이전트 및 타겟 에이전트(72)를 사용하는 음성 대화 시스템에 TCP/IP 접속에 의해 접속된다. 타겟 에이전트(72) 이외에, DSS(66)는 디버깅 유닛(68), 프로젝트 구성 유닛(70), GDC 컴파일러(74), 표준화된 오브젝트 지향 언어 ADA에 대한 컴파일러인 GDS 컴파일러(76) 그리고 로깅 및 테스팅용 유닛(80)을 포함한다. 또한, DDS(66)는 대화 개발을 위한 자바 음성 그래머 포맷(JSGF) 데이터베이스(82) 즉, GDML 데이터베이스인 그래머용 데이터베이스, 및 로깅(86)용 데이터베이스를 포함한다.

JSGF는 종래의 그래머 표시법을 이용하는 것 이외에 자바 프로그래밍 언어의 스타일 및 관행을 채택하는, 음성 인식에 일반적으로 사용하는 그래머들의 플랫폼 독립적이고 벤더(vendor) 독립적인 문자(textual) 표현이다.

DDS(66)에 의해, 실제 음성 대화 시스템에는 아직 구현되지 않은 가상 서비스들은 시뮬레이션될 수 있다(블록 88). 정보는 GCF 메시지 라우터에 의해 재교환된다. 예를 들어, 튜너(92) 및 CD 플레이어(94)의 통합이 시뮬레이션될 수 있다. 각각의 대화가 성공적으로 개발된 이후에, 실제 물리적 장치들은 음성 대화 시스템에 의해 접속되고 이것에 의해 제어될 수 있다.

도 4 는 본 발명에 따른 음성 대화 시스템을 커스터머 고유의 PCM(pulse code modification) 드라이버 인터페이스(110)에 적응시킴을 나타낸다. PCM 은 디지털 비트의 스트림을 가진 아날로그 파형들을 나타냄으로써 아날로그 정보를 디지털 신호들에 전송하기 위한(또는 그 역의) 일반적인 방법을 나타낸다. PAL(104)는 워드의 비트 표현으로서, PCM 의 커스터머 버전의 특정 명세(specification)로 적응시킬 수 있다.

커스터머 장치들, 오디오 장치 상의 음성 대화 시스템의 소프트웨어 컴포넌트들의 전체 의존도는 PAL(104)에 의해 처리된다. 타겟 시스템으로의 적응은, 실제 환경 특히, 일부 하드웨어 플랫폼(100)상에 구현된 OS 및 드라이버(102)에 PAL(104)의 기능을 독자적으로 적응시킴으로써 달성된다.

오디오 IO 관리자(112)는 메시지 라우터(114)를 통하여 다른 서비스 컴포넌트(예를 들어, 도 1 을 참조)에 접속되는 본 발명의 음성 대화 시스템의 커널의 구성요소를 나타낸다. 특정 커스터머 오디오 드라이버(110)는, OS 기능 및 파일 시스템 관리(108) 뿐만 아니라 C-프로그래밍 언어(106)의 전 범위를 제공하는 ANSI 라이브러리 기능을 포함하는, PAL(104)내에 독자적으로 적응된다.

통신에 관하여, 커스터머 오디오 장치 드라이버는 일부 PCM을 이용할 수도 있고, PAL 은 이러한 종류의 PAL을 PAL과 음성 대화 시스템의 커널의 오디오 IO 관리자(112) 사이의 데이터 접속에 사용되는 고유의 PCM 에 적응시킨다.

앞에서 설명한 실시형태들 모두는 제한적인 것으로 의도도지 않고 본 발명의 특징 및 이점을 나타내는 예로서 기능한다. 상술한 특징들 중 일부 또는 전부는 다른 방식으로 결합될 수 있음을 이해해야 한다.

이상 설명한 바와 같이, 본 발명에 의하면 몇몇 컴포넌트들이 높은 휴대성 및 집적도를 나타내는 음성 대화 시스템을 제공할 수 있으며, 또한 고도의 기능적 확장성 및 타겟 시스템으로의 용이한 접속성을 나타내는 시스템을 제공할 수 있다.

Claims

음성 대화 시스템을 제어하는 음성 애플리케이션 관리자;

음성을 인식하도록 구성된 음석 인식 수단과, 커스터머 서비스를 메시지 라우터에 접속하도록 구성된 커스터머 프로그래머의 인터페이스를 포함하는 상기 음성 대화 시스템의 2 개 이상의 서비스 컴포넌트;

상기 2 개 이상의 서비스 컴포넌트 사이에서 서로 그리고 상기 2 개 이상의 서비스 컴포넌트와 상기 음성 애플리케이션 관리자 사이에서 데이터를 교환하는 메시지 라우터; 및

상기 음성 대화 시스템을 하드웨어 플랫폼과 작동 시스템 및 하나 이상의 장치 드라이버에 접속하는 플랫폼 추상화(abstraction) 계층

을 구비하는 음성 대화 시스템.
제 1 항에 있어서, 상기 메시지 라우터는 데이터를 교환하기 위하여 하나의 일반적인 단일 통신 포맷을 이용하는 것인 음성 대화 시스템.
제 1 항 또는 제 2 항에 있어서, 상기 2 개 이상의 서비스 컴포넌트는 커스터머 프로그래머의 인터페이스, 보이스 검출 수단, 보이스 프롬프팅 수단, 텍스트 합성 수단, 보이스 리코더, 철자 확인회로(matcher), 구성 데이터베이스, 디버깅 수단 및 대화 관리자 중 하나 이상을 포함하는 것인 음성 대화 시스템.
제 1 항 또는 제 2 항에 있어서, 음성 대화를 개발하기 위한 개발(development) 환경을 더 포함하는 것인 음성 대화 시스템.
제 4 항에 있어서, 상기 개발 환경은 그래픽 사용자 인터페이스를 포함하는 것인 음성 대화 시스템.
제 1 항 또는 제 2 항에 있어서, 상기 음성 대화 시스템에 의해 실제로 작동 또는 제어되거나 또는 작동 또는 제어되도록 계획된 애플리케이션들 및 장치들 중 하나 이상을 시뮬레이션하기 위한 시뮬레이션 환경을 더 포함하는 것인 음성 대화 시스템
제 1 항 또는 제 2 항에 있어서, 하나 이상의 애플리케이션 수단을 더 포함하는 것인 음성 대화 시스템.
삭제
음성을 인식하도록 구성된 음성 인식 수단과 커스터머 프로그래머의 인터페이스를 포함하는 서비스 컴포넌트들을 구비하는 음성 대화 시스템의 작동 방법으로서,

상기 음성 대화 시스템을 음성 애플리케이션 관리자에 의해 제어하는 단계;

메시지 라우터에 의해, 상기 서비스 컴포넌트들 사이에서, 그리고 상기 서비스 컴포넌트들과 상기 음성 애플리케이션 관리자 사이에서 데이터를 교환하는 단계;

플랫폼 추상화 계층에 의해 상기 음성 대화 시스템을 하드웨어 플랫폼과 작동 시스템 및 하나 이상의 장치 드라이버에 접속하는 단계; 및

상기 메시지 라우터에 의해 채용된 데이터 포맷을 커스터머 시스템 애플리케이션에 매핑함으로써, 상기 커스터머 프로그래머의 인터페이스에 의해 커스터머 서비스를 상기 음성 대화 시스템의 상기 메시지 라우터에 접속하는 단계

를 포함하는 음성 대화 시스템의 작동 방법.
제 9 항에 있어서, 상기 메시지 라우터에 의해 교환되는 데이터는 하나의 일반적인 단일 통신 포맷으로 포맷화되는 것인 음성 대화 시스템의 작동 방법.
제 9 항 또는 제 10 항에 있어서,

음성 신호를 검출 및 처리하는 단계;

상기 처리된 음성 신호의 분석에 기초하여 출력 데이터를 생성하는 단계; 및

상기 출력 데이터를 애플리케이션 수단에 라우팅하여 애플리케이션을 실행하는 단계를 더 포함하며,

상기 라우팅은 상기 플랫폼 추상화 계층에 의해 조정되는 것인 음성 대화 시스템의 작동 방법.
제 11 항에 있어서, 상기 음성 신호의 처리는, 상기 음성 신호를 피쳐(feature) 벡터로 변환하는 단계, 음성 인식단계, 철자 확인단계 및 음성 리코딩 단계 중 하나 이상을 포함하는 것인 음성 대화 시스템의 작동 방법.
제 11 항에 있어서, 상기 출력 데이터는 상기 음성 대화 시스템에 의해 출력되는 하나 이상의 합성된 음성 신호를 포함하는 것인 음성 대화 시스템의 작동 방법.
제 9 항 또는 제 10 항에 있어서, 상기 서비스 컴포넌트들 중 하나를 나타내는 개발 환경을 이용하여 음성 대화를 개발하는 단계를 더 포함하는 것인 음성 대화 시스템의 작동 방법.
제 9 항 또는 제 10 항에 있어서, 상기 서비스 컴포넌트들 중 하나를 나타내는 시뮬레이션 환경을 이용하여 상기 음성 대화 시스템에 의해 실제로 동작 또는 제어되거나 또는 동작 또는 제어되도록 계획되는 애플리케이션들 및 장치들 중 하나 이상을 시뮬레이션하는 단계를 더 포함하는 것인 음성 대화 시스템의 작동 방법.
제 9 항 또는 제 10 항에 기재된 음성 대화 시스템의 작동 방법의 단계들을 수행하기 위한 컴퓨터 실행가능한 명령들을 가지는 하나 이상의 컴퓨터 판독가능한 매체를 포함하는 컴퓨터 프로그램 제품.