KR20020062017A

KR20020062017A - 인터넷을 이용한 음성 정보 제공 시스템 및 방법

Info

Publication number: KR20020062017A
Application number: KR1020010003220A
Authority: KR
Inventors: 임병훈; 전진우; 차상욱; 신소우; 김가현
Original assignee: 엠제이엘테크놀러지 주식회사
Priority date: 2001-01-19
Filing date: 2001-01-19
Publication date: 2002-07-25

Abstract

본 발명은 인터넷(internet) 상의 텍스트(text) 정보를 음성 정보로 변환해서 이 음성 정보를 특정 전화 번호에 대응하는 회선을 통해 제공하는 인터넷을 이용한 음성 정보 제공 시스템 및 방법에 관한 것이다. 종래의 기술에 있어서는 특정 웹사이트(web site)의 정보를 얻기 위해서는 컴퓨터를 사용해야 하기 때문에, 사용 환경의 제약을 많이 받을 수밖에 없는 결점이 있다. 일반 전화기를 사용하여 특정 웹사이트의 텍스트 정보를 음성으로 받아 볼 수 있다면 상기 결점을 해소할 수 있음은 물론이고 인터넷 상의 텍스트 정보를 얼마든지 받아 볼 수 있을 것이다. 본 발명에서는 인터넷 등에 접속된 웹사이트의 텍스트 정보를 음성 정보로 변환해서 이 음성 정보를 특정 전화 번호에 대응하는 회선을 통해 소정의 사용자에게 제공한다. 따라서, 사용자는 일반 전화를 통해서도 인터넷에 접속하여 정보를 음성으로 들을 수 있기 때문에, 인터넷의 이용이 매우 용이해지는 효과가 있는 것이다.

Description

인터넷을 이용한 음성 정보 제공 시스템 및 방법{METHOD AND SYSTEM FOR PROVIDING VOICE INFORMATION BY USING THE INTERNET}

본 발명은 인터넷(internet)을 이용한 음성 정보 제공 시스템 및 방법에 관한 것으로서, 특히, 인터넷 상의 텍스트(text) 정보를 음성 정보로 변환해서 이 음성 정보를 특정 전화 번호에 대응하는 회선을 통해 제공하는 시스템 및 방법에 관한 것이다.

종래에는 사용자가 통신 기능이 있는 컴퓨터 등을 사용하여 인터넷 상의 특정 웹사이트(web site)에 접속해서 상기 웹사이트에서 제공하는 정보를 얻을 수 있었다. 일반적으로 상기 정보는 대부분 텍스트로 이루어져 있고 영상 및 음성 정보가 텍스트 정보를 효과적으로 나타내기 위해 어느 정도 부가되어 있다. 따라서, 텍스트만 보아도 원하는 정보를 대부분 얻을 수 있다.

그러나, 이와 같은 종래의 기술에 있어서는 특정 웹사이트의 정보를 얻기 위해서는 컴퓨터를 사용해야 하기 때문에, 사용 환경의 제약을 많이 받을 수밖에 없는 결점이 있다. 일반 전화기를 사용하여 특정 웹사이트의 텍스트 정보를 음성으로 받아 볼 수 있다면 상기 결점을 해소할 수 있음은 물론이고 인터넷 상의 텍스트 정보를 얼마든지 받아 볼 수 있을 것이다.

본 발명은 상기 결점을 개선하기 위하여 안출한 것으로서, 인터넷 등에 접속된 웹사이트의 텍스트 정보를 음성 정보로 변환해서 이 음성 정보를 특정 전화 번호에 대응하는 회선을 통해 소정의 사용자에게 제공하는 인터넷을 이용한 음성 정보 제공 시스템 및 방법을 제공하는 데 그 목적이 있다.

이와 같은 목적을 달성하기 위한 본 발명은, 인터넷 상의 웹사이트의 컨텐츠를 음성 정보로 변환시켜 사용자에게 전화를 통해 제공하는 음성 정보 제공 시스템에 있어서: 다수의 사용자와 전화망을 통해 각기 접속되어, 특정 사용자의 명령에 대응하는 음성 정보를 상기 특정 사용자에게 제공하기 위한 호 처리를 수행하는 음성 정보 제공 제어부; 상기 음성 정보 제공 제어부를 통해 상기 특정 사용자의 명령에 대응하는 상기 인터넷 상의 컨텐츠를 가공된 상태로 전달받아 음성으로 변환시켜 상기 특정 사용자에게 상기 음성 정보 제공 제어부를 통해 재생시켜 주는 음성 합성부; 상기 음성 정보 제공 제어부를 통해 제공되는 상기 특정 사용자의 음성명령을 해석하여 상기 음성 정보 제공 제어부에게 알려주는 음성 인식부; 상기 음성 정보 제공 제어부로부터 상기 특정 사용자의 명령을 받아 이에 대응하는 상기인터넷 상의 특정 웹사이트에 연결해서 소정의 웹 컨텐츠를 받아 사용자가 듣기 편한 문장으로 가공하여 상기 음성 정보 제공 제어부로 제공하는 문장 분석부; 방문할 인터넷 상의 사이트에 주기적으로 접속하여 컨텐츠를 기 설정된 서버에 저장해 두었다가 상기 문장 분석부가 원하는 컨텐츠가 있을 경우 상기 문장 분석부에게 바로 제공하는 캐시 에이전트; 상기 문장 분석부에 접속되어 음성 정보 제공 서비스를 위한 웹사이트를 제공하는 웹서버를 포함하는 것을 특징으로 한다.

도 1은 본 발명에 따른 인터넷을 이용한 음성 정보 제공 시스템의 일 실시예를 나타낸 블록도,

도 2는 도 1에 도시된 음성 정보 제공 제어부가 음성 정보를 제공하기 위해 수행하는 호 처리의 일 실시예를 단계별로 나타낸 순서도,

도 3은 음성 합성의 일 실시예를 나타낸 개략도,

도 4는 음성 인식부를 구성하는 음성 인식 엔진의 동작 원리를 단계별로 나타낸 순서도,

도 5는 음성 인식의 일 실시예를 순차적으로 나타낸 흐름도,

도 6은 도 1에 도시된 문장 분석부의 동작을 상세하게 설명하기 위한 블록도,

도 7은 단말기 화면의 일 실시예를 나타낸 개략도,

도 8은 도 1에 도시된 캐시 에이전트의 동작을 상세하게 설명하기 위한 블록도,

도 9 내지 도 25는 본 발명에 따른 각 상황의 화면을 각기 나타낸 도면,

도 26은 파일 재생 규칙의 일 실시예를 나타낸 표.

<도면의 주요부분에 대한 부호의 설명>

10 : 음성 정보 제공 제어부 20 : 음성 합성부

30 : 음성 인식부 40 : 문장 분석부

50 : 캐시 에이전트 50a : 메인 쓰레드

50b : 모니터링 쓰레드 50c, 50d, 50e : 제 1, 제 2, 제 3 캐시 쓰레드

60 : 웹서버 70 : 데이터베이스

80 : 인터넷

이하, 이와 같은 본 발명의 실시 예를 다음과 같은 도면에 의하여 상세히 설명하면 다음과 같다.

도 1은 본 발명에 따른 인터넷을 이용한 음성 정보 제공 시스템의 일 실시예를 나타낸 블록도로, 음성 정보 제공 제어부(10), 음성 합성부(20), 음성 인식부(30), 문장 분석부(40), 캐시 에이전트(cache agent)(50), 웹서버(60), 데이터베이스(database)(70), 및 인터넷(80)으로 구성된다.

동 도면에 있어서, 음성 정보 제공 제어부(10)는 하드웨어(hardware)적으로 일명 엠보이스웹 CTI 엔진(mvoiceweb Computer Telephony Interface engine) 예로, NMS사의 AG-4000 보드를 구비하여 이 보드에 접속된 각 사용자와 관련해서 호 처리를 수행한다. 각 AG-4000 보드 당 2E1을 처리할 수 있으며 엠보이스웹 CTI 엔진을 사용하는 호 처리 서버(call processing server)(도면 중에 도시되지 않음)는 각 서버 당 DID 6E1, DOD 2E1을 처리할 수 있는 용량을 지원한다. 음성 정보 제공 제어부(10)는 C/C++를 사용하여 구현되며, 소프트웨어(software)적으로 크게 3 개의프로세스를 이루고 있으며 각 프로세스간의 인터페이스는 Microsoft사의 객체지향 기술인 분산 요소 객체 모델(Distributed Component Object Model : DCOM)을 적용하여 구성되었다. 상기 크게 3 개의 프로세스는 입 중계 호 처리 프로세스, 출 중계 호 처리 프로세스, 및 상기 입 중계 호와 출 중계 호를 연결시키는 프로세스를 의미한다.

도 2는 도 1에 도시된 음성 정보 제공 제어부(10)가 음성 정보를 제공하기 위해 수행하는 호 처리의 일 실시예를 단계별로 나타낸 순서도이다.

먼저, 사용자는 전화기를 사용하여 음성 정보 제공 서비스를 제공하는 시스템 즉, 음성 정보 제공 제어부(10)에 접속하기 위한 전화번호 예로, 6200-5000으로 전화 교환 망을 통해 전화를 건다.

음성 정보 제공 제어부(10)는 전화 교환 망으로부터 전달되는 MFC-R2 프로토콜(protocol) 환경의 신호를 처리하여 착신 호를 시스템에 연결한다(단계 100).

음성 정보 제공 제어부(10)는 데이터베이스(70)로부터 사용언어, 인터넷 주소, 및 부가기능의 지원여부 등의 정보를 가져온다(단계 102).

음성 정보 제공 제어부(10)는 음성 합성부(20) 및 음성 인식부(30)를 초기화시킨다(단계 104).

음성 정보 제공 제어부(10)는 데이터베이스(70)로부터 가져온 정보를 바탕으로 음성 합성부(20), 음성 인식부(30), 및 문장 분석부(40)와 연동해서 인터넷(80) 상의 텍스트 정보를 음성 정보로 변환하여 제공하는 서비스를 시작하여 사용자에게 음성 정보 제공 서비스 이용에 필요한 프롬프트(prompt)를 전송한다(단계 106).

사용자는 음성 정보 제공 제어부(10)로부터 재생되는 프롬프트에 따라 필요한 명령을 버튼 선택에 의한 DTMF(Dual Tone Multi-Frequency) 신호 혹은 음성으로 음성 정보 제공 제어부(10)에 전화기를 통해 입력하여 인터넷(80) 상의 텍스트 정보를 음성으로 제공받는다(단계 108). 여기서, 음성 정보 제공 제어부(10)는 문장 분석부(40)로부터 제공되는 텍스트 정보를 음성 합성부(20)로 전달하여 음성 합성부(20)가 이 텍스트 정보를 음성 파일로 변환하도록 해서 이를 사용자에게 재생시켜 준다. 또한, 음성 정보 제공 제어부(10)는 DTMF 신호로 입력되는 명령은 직접 해석하고 음성으로 입력되는 명령은 음성 인식부(30)로 전달하여 음성 인식부(30)가 음성 명령을 해석해서 해석 결과를 제공하도록 한다. 단, DTMF 신호와 음성 신호가 동시에 입력 시 DTMF 신호를 우선 처리하도록 한다. 만약 사용자가 잡음이 심한 환경에서 시스템을 사용한다면 음성 입력 시 오 인식의 확률이 높다. 이때 사용자가 DTMF 신호 0을 입력하면 실시간으로 음성인식기능이 오프된다. 하지만 음성인식이 오프된 경우에도 우물정자(#)를 누른 후 음성을 입력하여 음성인식기능을 사용할 수 있다. 사용자가 다시 음성인식을 기본적으로 사용하길 원한다면 DTMF 신호 0을 누르면 실시간으로 음성입력 모드로 변환된다. 사용자의 환경에 따라 서비스의 멈춤 없이 실시간으로 숫자/음성 입력모드로의 변환이 자유로운 매우 편리한 기능이다. 다른 음성포탈 서비스에서는 찾아볼 수 없는 장점이다.

음성 정보 제공 제어부(10)는 사용자로부터 입력된 명령을 해석한다(단계 110).

음성 정보 제공 제어부(10)는 단계 110의 해석 결과, 서비스를 진행하는 것이면 상기 단계 106을 수행한다.

음성 정보 제공 제어부(10)는 단계 110의 해석 결과, 출 중계 발생이면 착신 호를 출 중계에 대응하는 특정 중계선으로 스위칭시킨다(단계 112). 여기서, 사용자는 출 중계 발생 서비스 사용 중 호 연결을 해제한 후 다시 음성 정보 제공 서비스로 복귀할 수 있다. 마찬가지로 상대방 측에서 먼저 호 연결을 해제한 경우에도 음성 정보 제공 서비스로 복귀된다.

음성 정보 제공 제어부(10)는 착신 호를 출 중계 호 처리하여 특정 전화 교환 망으로 보낸다(단계 114).

음성 정보 제공 제어부(10)는 단계 110의 해석 결과, 호 해제이면 서비스를 종료한다(단계 116).

상술한 본 발명은 일반적인 인터넷에서 지원하는 북 마크(book mark) 기능을 지원한다. 사용자가 현재 자신이 위치해 있는 페이지를 자신의 북 마크에 등록시키기 위해 단순히 북 마크라고 말하기만 하면 음성 정보 제공 제어부(10)는 현재의 페이지를 데이터베이스(70)에 등록한다. 음성 정보 제공 제어부(10)는 사용자가 북 마크를 요청했을 때 사용자의 북 마크 용량이 초과되었거나 사용자가 로그 인을 하지 않았다면 이를 사용자에게 알린다.

서비스를 이용 중에 사용자가 로그 인을 하고자 하면 단순히 로그 인이라고 말하면 로그 인 페이지로 이동한다. 또한 식별자와 비밀번호 역시 단순히 숫자를 사용하여 입력할 수도 있으나 음성명령으로도 입력할 수 있다. 이를 위해 사용자는 본 발명의 서비스를 제공하는 사이트의 홈페이지에 웹서버(60)를 통해 접속하여자신만의 개인설정에서 각 사이트의 식별자와 비밀번호를 미리 등록한다. 그리고 서비스 이용 시 자신이 개인설정에서 설정한 사이트에 한해서는 말로 "아이디", "비밀번호"라고 말함으로써 숫자입력 없이 로그 인을 할 수 있다. 따라서 이러한 방법을 사용하면 숫자와 알파벳이 섞여있는 일반적인 식별자와 비밀번호를 전화환경인 서비스에서도 그대로 사용할 수 있는 장점이 있다.

인터넷에서 제공하는 다양한 정보를 사용할 수 있다. 이때 일반적인 인터넷 단말기처럼 눈으로 확인하는 것이 아니라 음성으로 내용을 청취하는 것이므로 중요한 내용의 경우 청취 중 내용을 놓칠 우려가 있다. 이를 해결하기 위해 프롬프트 재생 시 뒤로 가기, 일시정시, 및 앞으로 가기의 기능을 제공한다. 사용자는 음성으로 "뒤로", "정지", "앞으로"를 말하거나 "77", "88", "99" 등의 숫자를 각기 입력하면 된다. 이 기능 역시 다른 음성포탈 서비스에서는 제공하지 않는 본 발명만의 장점이다.

일반적인 인터넷처럼 각 사이트별로 필요한 광고가 포함되어 있다. 인터넷 컨텐츠에 해당 광고의 음성파일 위치를 기록함으로써 전화 환경에서도 충분히 필요한 광고효과를 얻을 수 있다. 이 기능 역시 일반 음성포탈 서비스와 달리 단순한 인터넷 컨텐츠의 변경만으로도 다양한 광고내용을 빠른 시간 내에 적용할 수 있는 장점이 있다.

기본적으로 인터넷 컨텐츠의 서비스 내용에 의존한다. 따라서 기본적인 프롬프트는 음성 합성된 음성 파일로 제작된다. 이 경우 아직은 인간의 목소리와 음질 면에서 차이가 나는 합성음으로 재생되므로 단조로움을 줄 수 있기 때문에, 사용자의 적극적인 관심을 얻기에 부족한 면이 있을 수 있다. 이를 해결하기 위해 성우가 녹음한 멘트 파일 혹은 음악 파일 등, 다양한 형식의 음성 파일을 재생할 수 있다. 이를 위해 인터넷의 컨텐츠에 재생을 원하는 음성 파일의 위치를 기록하기만 하면 된다. 이 기능 역시 일반 음성포탈 서비스와 달리 단순한 인터넷 컨텐츠의 변경만으로도 다양한 효과를 낼 수 있는 음성 파일들을 빠른 시간 내에 적용할 수 있는 장점이 있다.

한국어뿐만 아니라 여러 개국의 언어를 지원한다. 확장하고자 하는 언어별로 별도의 시스템 구현 없이 즉각적인 지원이 가능하다. 이때 필요한 요소로는 확장언어의 음성합성, 음성인식 프로세서이다. 시스템은 객체 지향적으로 요소들이 구현되어 있으므로 언어확장 시 서비스의 멈춤 없이 데이터베이스(70)의 변경만으로 확장이 가능하다. 또한 확장에 필요한 음성합성, 음성인식 프로세서의 개발 역시 시스템에 영향을 미치지 않으므로 계속적이고 안정적인 언어확장이 가능하다.

기본적인 기능 이외에 사이트별로 별도의 이용요금을 부과한 후 지원해 주는 특수기능들이 존재한다. 이들 기능들에 대해서 실시간으로 온/오프 가능하며 이 경우에도 시스템은 정지하지 않는다.

인터넷 컨텐츠에 설정되어 있는 전화번호로 출 중계 호를 발생시킬 수 있다. 시내, 시외 및 휴대폰, 삐삐 등에 대해서도 모두 호 연결이 가능하며 연결된 호의 해제 후에도 계속하여 서비스를 사용할 수 있다.

음성 합성부(20)는 서비스 내용을 기본적으로 인터넷 컨텐츠에 의존한다. 즉 음성 합성부(20)는 음성 정보 제공 제어부(10)의 제어를 받아 인터넷 단말기로확인할 수 있는 모든 기능을 음성으로 변환하여 재생하고 또 역시 음성으로 명령을 내릴 수 있다. 예로, 음성 정보 제공 서비스가 시작되면 음성 합성부(20)는 음성 정보 제공 제어부(10)를 통해 인터넷 컨텐츠를 전달받아 음성 파일로 변환한다. 음성 정보 제공 제어부(10)는 이 음성 파일을 전화를 걸어온 전화기로 재생시켜 준다. 이 작업들은 모두 실시간으로 처리되며 음성 합성부(20)와 음성 정보 제공 제어부(10)는 서로 분산 요소 객체 모델 환경으로 연동된다.

음성 합성부(20)는 한국어, 영어, 일본어를 지원하기 위한 각 언어별 음성합성 프로세서를 구비하고 음성합성 인터페이스 역시 동적으로 연동된다. 분산 요소 객체 모델 구조를 적용하므로 특정 회사의 음성합성 제품에 국한되지 않으며 어떤 회사의 제품이라도 연동이 가능한 것이 장점이다. 특수 기능으로 음성 합성된 프롬프트 대신 광고 파일이나 성우 녹음된 파일을 대신 재생할 수도 있다. 이때는 음성 합성된 파일이 필요 없으나 시스템에서는 음성합성을 기본적으로 수행하여 만일 장애 발생 시에도 프롬프트 재생에 차질이 없도록 구현되어 있다.

음성 합성부(20)의 음성합성 프로세서는 Microsoft사의 객체지향 환경인 분산 요소 객체 모델로 구현되었다. 전체적인 시스템의 각 모듈들 역시 분산 요소 객체 모델 환경으로 구현되어 객체지향의 기능을 가지므로 확장 및 변경이 용이하다.

도 3은 음성 합성의 일 실시예를 나타낸 개략도로, 문자를 입력받아 이를 음성 합성하여 사람의 음성으로 변환하는 기술을 말한다. 즉 텍스트 파일을 입력하여 음성 파일을 생성한다. 서비스는 인터넷(80)의 내용을 그대로 전화 환경에서사용할 수 있는 서비스이다. 따라서 인터넷(80)으로부터 텍스트 데이터를 그대로 전달받는다. 이를 사용자에게 재생하기 위해 음성합성을 수행한 후 생성된 음성 파일을 재생한다.

상술한 음성 합성부(20)의 음성합성 프로세서의 특징을 다음과 같이 요약할 수 있다.

한국어, 영어, 일본어 이외의 다국어를 지원한다. 시스템은 Microsoft사의 분산 요소 객체 모델을 적용하므로 각 모듈별로 객체지향성을 가진다. 따라서 언어별 음성합성 프로세서의 개발 시 분산 요소 객체 모델 환경으로 개발함으로써 서비스에 영향 없이 개별적으로 개발할 수 있으며 적용 시에도 시스템의 정지 없이 곧바로 적용 가능하다. 음성합성 프로세서에서 장애 발생 시 대체 음성합성 프로세서로의 변경이 실시간으로 가능하다. 즉, 설정데이터의 변경만으로 시스템 전체의 멈춤 없이 음성합성 프로세서의 변경이 가능하여 장애 유지 시간을 최소화할 수 있다.

음성 인식부(30)는 사용자가 서비스를 본인의 음성명령만으로 사용하도록 할 수 있다. DTMF 신호 입력은 기본적으로 지원된다. 음성인식 기능을 사이트별로 온/오프 할 수 있다. 따라서 시스템은 음성인식이 지원될 사이트에 한해서만 동적으로 적용된다. 한국어, 영어, 일본어를 모두 지원하는 경우 사이트에 따라 역시 해당 언어별 음성인식 프로세스가 적용된다. 음성 인식부(30)의 음성인식 처리 인터페이스는 NMS사의 음성보드에서 직접 "named-pipe"를 사용한 환경을 제공하는 경우 특정 회사의 음성인식 제품에 국한되지 않으며 어떤 회사의 제품이라도 특정 모듈의 개발 없이 연동이 가능한 것이 장점이다.

프롬프트 청취중 사용자는 이동을 원하는 메뉴의 번호 예로, "일 번", "일" 등을 말하기만 하면 된다. 또한 기본적인 숫자입력 이외에 메뉴이동에 필요한 단어들 예로, "이전", "처음" 등과 특정 서비스에 사용되는 단어들 예로, 북 마크, 로그 인, 및 비밀번호 등 역시 음성인식 처리가 가능하다.

음성인식을 위해서 보이스웨어의 "보이스링크"를 사용하는 경우 최대 인식 가능한 어휘의 수는 10,000 이상이며 다중 인식 단위의 구성이 가능하다.

도 4는 음성 인식부(30)를 구성하는 음성 인식 엔진의 동작 원리를 단계별로 나타낸 순서도로, 단어 등록부, 음소 데이터베이스, 단어 데이터베이스, 및 음성 인식 처리부로 구성된다.

동 도면에 있어서, 단어 등록부는 입력된 텍스트의 형태소를 분석한다. 텍스트의 모음조화, 구개음화 등의 한국어 조음현상을 처리한다. 텍스트의 음소를 추출한다. 추출된 음소에 대응하는 음소 정보를 음소 데이터베이스에서 액세스(access)하여 상기 입력된 텍스트에 대응하는 단어 데이터베이스를 구축한다.

음성 인식 처리부는 입력되는 음성의 시작점 및 끝점을 검출한다. 음성의 특징을 추출한다. 음성의 선형예측분석을 수행한다. 비교 및 근사치를 계산한 후, 단어 데이터베이스를 액세스하여 상기 입력된 음성에 대응하는 텍스트를 출력한다.

음성 정보 제공 제어부(10)를 사용하는 호 처리 서버에 연결된 음성인식부(30)는 음성인식 엔진, 음성인식 클라이언트, 및 음성인식 서버를 구비한다.

음성인식 서버는 음성 정보 제공 서비스를 음성인식 엔진을 기 설정된 메모리로 로딩(loading)하고 동작한다.

도 5는 음성 인식의 일 실시예를 순차적으로 나타낸 흐름도이다.

먼저, 음성 정보 제공 제어부(10)는 사용자로부터 음성이 입력되는 경우 이 음성에 대응하는 음성 데이터, 녹음 시작, 및 녹음 종료를 음성인식 클라이언트에게 알려 음성인식 클라이언트가 녹음 시작과 종료 기간 동안 음성을 녹음하도록 한다. 여기서, 음성 정보 제공 제어부(10)는 음성 입력 후, 묵음이 500ms 이상 지속되면 음성 데이터의 전달을 종료하고 "MSG_UTT_END 패킷"을 전달한다. 또한, 호 처리 서버는 음성 입력 실패 시 "MSG_UTT_STOPPED 패킷"을 전달하여 음성인식을 취소시킨다.

음성인식 클라이언트는 음성 데이터를 8Khz, 16bit의 웨이브 파일로 녹음한 인식 파일 및 이 인식 파일의 경로를 음성인식 서버로 제공한다.

음성인식 서버는 음성인식 클라이언트로부터 음성인식 파일을 제공받아 음성인식 엔진에게 음성인식을 요구한다.

음성인식 엔진은 음성인식 결과를 음성인식 서버에게 전송한다.

음성인식 서버는 음성인식 결과를 음성인식 클라이언트에게 전송한다.

음성인식 클라이언트는 음성인식 결과를 인덱스(index)화 해서 "WM_VIEW_RESULT 패킷"에 실어 호 처리 서버에게 전송한다.

상술한 음성인식 클라이언트는 호 처리 서버와 양 방향의 "named-pipe"로 연결되어 있다. 사용자가 음성인식을 사용할 권한이 있을 경우에 호 처리 서버에서 새로운 연결을 요구하고, 음성인식 클라이언트는 음성인식을 위한 쓰레드(thread)를 실행시킨다.

문장 분석부(40)는 사용자가 원하는 사이트에 이동하는 경우 음성 정보 제공 제어부(10)로부터 사용자가 선택한 값을 받아 인터넷(80) 상의 해당 웹사이트에 연결한다. 이때 받아온 웹 컨텐츠를 분석하여 사용자가 듣기 편한 문장으로 만들어 주는 역할을 한다. 또한, 웹 컨텐츠는 음성으로 전환하기 용이한 인터넷 컨텐츠를 이용한다.

문장 분석부(40)는 HDML(Handheld Device Markup Language), WML(Wireless Markup Language), mHTML(Mobile HTML), cHTML(Compact HTML), SkyHTML, 및 VXML(Voice eXtensible Markup Language) 등의 언어를 지원한다. HDML(Handheld Device Markup Language)은 WAP(Wireless Application Protocol)에서 쓰이는 언어로, 현재 017, 019에서 지원한다. WML(Wireless Markup Language)은 WAP(Wireless Application Protocol)에서 쓰이는 언어로, 현재 011에서 지원한다. mHTML(Mobile HTML)은 마이크로소프트에서 정의한 무선 인터넷 언어로, 현재 016, 018에서 지원한다. cHTML(Compact HTML)은 일본 NTT i-mode 서비스에서 사용하는 언어이다. SkyHTML은 일본 Jphone Skyweb 서비스에서 사용하는 언어이다. VXML(Voice eXtensible Markup Language)은 음성 서비스를 위해 새로 정의된 국제 표준 언어이다.

상술한 컨텐츠들은 주로 텍스트 위주의 메뉴로 구성되어 있다. 문장분석부(40)는 이 메뉴를 모아 하나의 문장으로 만들어 사용자가 이해하기 편한 문장으로 재구성한다.

도 6은 도 1에 도시된 문장 분석부(40)의 동작을 상세하게 설명하기 위한 블록도로, 문장 분석부(40), 캐시 에이전트(50), 및 인터넷(80)으로 구성된다.

동 도면에 있어서, 문장 분석부(40)는 사용자가 메뉴선택을 하거나 값을 입력하면 캐시 파일을 확인하여 현재 가져오려는 컨텐츠의 내용이 이미 존재하는지 여부를 확인한다.

문장 분석부(40)는 존재 여부 확인 결과, 현재 가져오려는 컨텐츠의 내용이 존재하면 인터넷(80)에 접속하지 않고 바로 결과를 돌려준다.

문장 분석부(40)는 존재 여부 확인 결과, 현재 가져오려는 컨텐츠의 내용이 존재하지 않는 경우 HTTP(Hyper Text Transfer Protocol) 규약으로 패킷을 만들어 인터넷(80)에 URL(Uniform Resource Locator)을 사용하여 접속하여 원하는 컨텐츠를 가져온다.

문장 분석부(40)는 인터넷(80)에서 받은 자료를 분석하여 사용자가 듣기 편한 문장으로 재구성한다. 이 재구성 과정을 예로 들면,

『<choice>

<center>야후! 코리아

<ce task=gosub dest=http://oa.yahoo.co.kr/http://login.mobile.yahoo.com>메일

<ce task=gosub dest=http://oa.yahoo.co.kr/http://login.mobile.yahoo.com>일정관리

<ce task=gosub dest=http://oa.yahoo.co.kr/http://login.mobile.yahoo.com>주소록

<ce task=gosub dest=http://w.yahoo.co.kr/dr/index.hdml>디렉토리<ce task=gosub dest=http://w.yahoo.co.kr/ds/index.hdml>WAP 검색

<ce task=gosub dest=http://w.yahoo.co.kr/ec/index.hdml>금융정보

<ce task=gosub dest=http://w.yahoo.co.kr/ns/index.hdml>뉴스

</choice>

</hdml>』와 같다.

즉, 무선 인터넷 단말기 화면에서는 도 7과 같이 각 항목이 디스플레이(display)되고 문장 분석부(40)는 각 항목을 "야후! 코리아. 1 번은 메일, 2 번은 주소록, 3 번은 디렉토리 검색, 4 번은 유머, 5 번은 뉴스입니다. 원하는 메뉴를 선택하여 주십시오."와 같은 문장으로 재구성한다.

문장 분석부(40)의 애플리케이션(application)의 각 클래스(class)를 설명하면 다음과 같다.

문장 분석기 메인 클래스(main class)는 문장 분석기 서비스를 관리한다. 필요한 모든 정보를 컨피그레이션(configuration) 파일로부터 읽어온다. 멀티 쓰레드를 생성, 종료한다. 사용자마다 하나의 쓰레드를 생성하여 사용자가 선택한 정보를 해당 쓰레드에 전달하여 준다.

쓰레드 클래스는 사용자가 선택한 URL의 웹서버를 찾아 해당 컨텐츠를 가지고 온다. 컨텐츠의 언어를 분석하여 해당 문장 분석기 클래스로 전달한다.

HDML 문장 분석기 클래스는 인터넷에서 가져온 컨텐츠가 HDML로 되어있는 경우 분석하여 문장을 재구성한다.

WML 문장 분석기 클래스는 인터넷에서 가져온 컨텐츠가 WML로 되어있는 경우 분석하여 문장을 재구성한다.

xHTML 문장 분석기 클래스는 인터넷에서 가져온 컨텐츠가 xHTML로 되어있는 경우 분석하여 문장을 재구성한다.

VXML 문장 분석기 클래스는 인터넷에서 가져온 컨텐츠가 VXML로 되어있는 경우 분석하여 문장을 재구성한다.

로그 클래스는 문장 분석기가 처리하는 내용을 로그로 남긴다.

데이터베이스 클래스는 사용자 정보 등을 가지고 올 경우 데이터베이스(70)에 연결해 준다.

캐시 에이전트(50)는 서비스 응답 시간을 최소화하기 위해 방문할 사이트에 주기적으로 접속하여 컨텐츠를 로컬 서버에 저장해 둔다. 문장 분석 엔진을 그대로 이용하여 모든 웹 컨텐츠 HDML, WML, MHTML, CHTML 문서를 분석하여 음성합성의 텍스트 소스로 제공하고 저장한다. 각 사이트마다 접속 주기(로컬 컨텐츠 갱신 주기)를 달리하여 시스템 성능을 높이고 최신 정보를 유지하도록 하며, 서비스 이용자가 빠른 응답을 받아 서비스 이용에 불편을 최소화한다.

캐시 에이전트(50)는 사이트 컨텐츠를 로컬로 저장해 두기 위해 데이터베이스(70)를 이용한다. 데이터베이스(70)에 저장된 사이트 정보로는 접속할 사이트 주소(URL)와 갱신주기(timeout)가 있다.

CCacheAgent 클래스는 전체적인 캐시 에이전트 플로우(flow)를 컨트롤(control)하는 클래스이다. "멀티쓰레드 구조 = 메인 쓰레드 + 다중 캐시 에이전트 쓰레드"이다.

메인 쓰레드는 데이터베이스(70)로부터 주기적으로 접속할 사이트 리스트와 갱신 주기를 얻어온다. 사이트 주소와 갱신주기 정보를 기반으로 타이머를 생성한다. 캐시 에이전트(50) 프로그램 내에 타이머는 캐시할 사이트 수만큼 생성되는데, 각 타이머는 주기적으로 TimeoutProc을 호출한다. TimeOutProc에서는 캐시 쓰레드를 생성하고, 캐시 쓰레드는 접속-컨텐츠분석-음성합성을 위한 컨텐츠 저장 등 일련의 작업을 수행한다.

CCacheInfoDB 클래스는 데이터베이스(70)에 저장된 사이트 정보(사이트 URL, 갱신주기)를 ODBC를 통해 프로그램에서 이용할 수 있도록 한다.

CWAPParser 클래스는 HDML 도큐먼트(document)를 분석한다.

CWMLParser 클래스는 WML 도큐먼트를 분석한다.

CMHTMLParser 클래스는 HTML 계열 도큐먼트를 분석한다.

도 8은 도 1에 도시된 캐시 에이전트(50)의 동작을 상세하게 설명하기 위한 블록도로, 음성 합성부(20), 문장 선택부(40), 캐시 에이전트(50), 데이터베이스(70), 및 인터넷(80)으로 구성된다. 캐시 에이전트(50)는 메인 쓰레드(50a), 모니터링 쓰레드(50b), 제 1 내지 제 3 캐시 쓰레드(50c 내지 50e)를 구비한다.

동 도면에 있어서, 캐시 에이전트(50)의 프로그램은 다중 쓰레드 프로그램(multi-thread program)으로, 이 프로그램이 실행되면 먼저 메인 쓰레드(50a)를 생성한다. 메인 쓰레드(50a)는 사이트관련 정보를 얻기 위해 데이터베이스(70)를 액세스하거나, 데이터베이스(70) 정보의 갱신 여부를 나타내는 공유 파일(sharing file)을 모니터링한다. 또한 다수의 캐시 쓰레드(50c 내지 50e)를 생성하여 다중 사용자를 위한 공유 캐시 역할을 수행하도록 한다.

이와 같은 캐시 에이전트(50)의 동작을 단계별로 설명하면 다음과 같다.

메인 쓰레드(50a)는 데이터베이스(70)로부터 사이트 주소, 컨텐츠 갱신 주기 등의 사이트 정보를 읽는다.

메인 쓰레드(50a)는 각 사이트의 컨텐츠를 주기적으로 갱신하기 위해 갱신 주기를 기반으로 타이머를 생성한다. 타이머가 생성되면 주기적으로 타이머 프로시저(timer procedure-프로그램의 일부 루틴)를 호출하게 된다. 타이머 프로시저 내부에서는 다수의 캐시 쓰레드(50c 내지 50e)를 생성한다.

각 캐시 쓰레드(50c 내지 50e)는 사이트에 접속하여 WAP 컨텐츠를 얻어온다.

각 캐시 쓰레드(50c 내지 50e)는 컨텐츠를 분석하여 음성 서비스를 위한 내용을 추출한다.

각 캐시 쓰레드(50c 내지 50e)는 추출한 내용을 텍스트 파일로 저장하고, 음성서비스 파일 포맷으로 변경하기 위해 문장 합성 모듈을 호출한다.

웹서버(60)는 문장 분석부(40)에 접속되어, 본 발명의 서비스를 위한 사이트를 제공한다.

본 발명의 서비스를 제공하는 사이트의 가장 큰 특징은 현존하는 모든 인터넷 사이트에 접속하여 원하는 정보를 유무선 전화를 통해 실시간 음성합성 방식으로 제공받을 수 있다는 데 있다.

말로 하는 인터넷 서비스를 이용하고자 하는 사용자는 대표전화 예로, 6200-5000 번으로 전화를 걸어 회원가입 메뉴를 통해 회원으로 가입할 수 있다. 또한 본 발명의 서비스에서 제공하는 사용자 개인 서비스(즐겨 찾기 사이트 등록, 각 즐겨 찾기 사이트에 자동 로그 인을 위한 식별자/비밀번호 등록 등)를 위해서 사용자는 웹서버(60)에서 제공하는 웹사이트에 접속하여 회원으로 가입하면 된다. 전화 접속으로 가입한 사용자는 본 발명의 사이트에서 개인 정보를 변경 할 수 있다.

회원 식별자는 예로,4 내지 12 자리 숫자로 지정하고 비밀번호는 4 자리 이하 숫자로 지정한다. 이는 전화 접속을 통한 회원가입과 일관성을 유지하기 위함이다. 특히, 현재 사용자 고유의 유무선 전화 번호 등을 식별자로 설정하면 사용자가 식별자를 혼돈하지 않게 된다. 개인정보로는 사용자 이름, 주민번호, 이메일 주소 등을 등록하게 되는데, 차후 사용자가 서비스 이용 시 키워드(음성명령)를 통해 개인 정보가 자동 입력되도록 할 수 있다.

회원가입 후 본 발명의 사이트에 로그 인하면, 사용자가 자주 방문하는 무선 인터넷 사이트를 즐겨 찾기 사이트로 등록할 수 있다. 즐겨 찾기 사이트는 개인별 10 개까지 등록이 가능하며, 등록된 사이트들은 사용자가 전화로 사이트에 로그 인하면 개인별 메뉴로 제공된다. 사이트에서 사용자는 즐겨 찾기 메뉴의 순서를 변경할 수 있다. 즐겨 찾기 사이트 등록은 사이트의 URL과 각 즐겨 찾기 사이트 로그 인 시 필요로 되는 식별자와 비밀번호를 지정할 수 있도록 하였다. 따라서 사용자가 본 발명의 서비스를 이용하면서 즐겨 찾기에 등록된 사이트 방문 시 로그 인할 때, 아이디, 비밀번호 등의 음성 명령으로 로그 인 할 수 있도록 한다.

회원 가입 시 등록한 정보들은 아이디, 비밀번호, 이름, 주소, 이메일 등의 음성 명령에 반응하여 본 발명의 사이트에 로그 인을 할 때, 자동으로 로그 인 정보로 입력된다. 본 발명의 사이트에서 등록한 즐겨 찾기 정보는 사용자가 서비스에 로그 인하면 개인 메뉴로 제공되는데, 각 메뉴에 해당하는 1 번, 2 번 등의 음성 명령으로 즐겨 찾기 사이트에 직접 접속할 수 있다. 또한 일반 무선 인터넷 사이트가 요구하는 개인 정보를 음성 명령어를 통해 자동으로 입력시킬 수 있다.

사용자의 즐겨 찾기 사이트 등록은 사이트뿐만 아니라, 서비스 로그 인 후 음성인식을 통해 등록 할 수도 있다. 사용자가 전화로 현재 항해(navigation)하고 있는 사이트에서 "북 마크"라고 음성 명령을 내리면, 현재 인터넷 사이트가 자동으로 개인 즐겨 찾기 메뉴에 추가된다.

사용자가 즐겨 찾기 사이트로 등록할 인터넷 사이트의 정확한 URL을 알 수가 없으므로 인터넷 검색 사이트를 링크시켜 두어 사용자 편의를 도모하였다.

음성합성 음질의 한계를 개선시키는 한 방법으로 각 커스터머(customer) 사이트 관리자는 사이트 컨텐츠를 웨이브 파일 형태로 녹음하여 사이트에 업로드(upload)하도록 한다.

도 9 및 도 10을 참조하여 운용/유지보수 시스템의 특징을 보면 다음과 같다.

시스템의 운용/유지보수에 있어서 유지/보수의 각 기능을 모듈화 작업을 거쳐 분리하여 독립적인 구동이 가능하고 특정 기능에 대한 삭제/보완/대체 등이 용이하며 더불어 부가적인 기능을 추가하기가 수월하다.

특히, 분산 요소 객체 모델을 통한 개방형 구조로서 분산 객체 기술을 접목하여 전체 시스템 및 특정 시스템에 대해 프로세스 단위로 관리할 수 있다.

따라서, 유지/보수를 통해 시스템의 통합 관리가 가능하며 중요한 문제가 발생한 경우 각 모듈별로 전원 차단이 가능하고 나머지 모듈에서 서비스를 계속 수행하는 분할 운용이 가능하다. 시스템은 분산 요소 객체 모델 기반의 분산 구조로 각 모듈이 독립적이기 때문에 일부 소프트웨어 동작이 정지하여도 다른 서비스에 영향을 주지 않는다.

또한, 시스템에서는 GUI 환경의 사용자 인터페이스를 원칙적으로 제공하며 서비스 데이터 관리, 시스템 형상 관리, 장애 관리 등을 수행하기 위한 사용자 인터페이스와 메시지 및 프롬프트를 입력할 수 있는 효과적인 방법을 제공한다.

시스템은 운용자를 4 등급 예로, "Administrator, Power User, General User, Guest"로 분류하여 관리하며 각 등급에 따라서 시스템에 대한 접근 권한과 명령어 사용을 제한한다. 단지 "Administrator" 만이 전체 시스템에 대한 접근 권한을 가지며 새로운 운용자 생성 및 기존 운용자의 권한 변경이 가능하다. 이렇게 관리 권한에 차별을 둔 사용을 기본으로 한다.

시스템 관리에 있어서 운용자가 시스템을 운용하기 위해 필요한 기능은 변경또는 추가될 수 있도록 한다.

도 11 내지 도 13을 참조하여 운용자 관리를 보면 다음과 같다.

도 11과 같이 운용자 계정을 각 등급별 예로, "Administrator, Power User, General User, Guest"로 관리하여 각 등급에 따라 운용자의 권한을 다르게 부여하고 시스템의 운용자로서 접속한 모든 경우에 대해 도 12와 같이 기록을 남기게 된다. 시스템 관리자는 도 13과 같은 기록을 항상 지켜볼 필요는 없지만 기록을 보존할 필요는 있다.

도 14 내지 도 19를 참조하여 시스템 관리를 보면 다음과 같다.

도 14와 같이 시스템을 구축하고 있는 각 서버의 IP 주소를 설정한다. 이 주소를 기반으로 서버의 상태를 감시하여 결과에 따라 운용자에게 통보하게 된다.

도 15와 같이 시스템을 구축하고 있는 각 서버의 프로세스를 관리한다. 일반적인 서비스 상태를 볼 수 있으며 특정 프로세스를 제거할 수 있다.

도 16과 같이 시스템에 접속하고 있는 사용자의 수를 보여준다.

도 17과 같이 시스템을 구축하고 있는 각 서버의 디스크 상태를 보여주고 할당된 디스크 역치 값에 따라 경고해 주는 기능을 담당한다. 단, 디스크 상태를 보기 위해 각 서버의 디스크는 공유된 상태이어야 한다.

도 18과 같이 시스템을 구축하고 있는 각 서버의 장애를 조건에 따라 보여주고 삭제하는 기능을 제공한다.

도 19와 같이 시스템을 구축하고 있는 각 서버를 유지/보수를 통해 시스템의 정지 및 재 가동을 할 수 있다.

도 20 내지 도 22를 참조하여 프로세스 관리를 보면 다음과 같다.

메인 상태 창에서 시스템 전체의 프로세스를 모니터링할 수 있다. 현재, 각 서버의 활성 여부는 SNMP 서비스를 통해 이루어지고 있으며 콜 서버(call server)의 경우 보드 상태와 포트 상태를 추가로 검사할 수 있다. 보드는 4 가지 상태 예로, "LOF(Loss Of Frame), 1'SA(All 1'S Alarm), FEA(Far End Alarm indication), FEL(Far End Loss of multi-frame)"에 따라 결과를 보여주며 포트는 블록 상태에 따라 각기 결과를 나타낸다.

도 23과 같이 사용자의 정보 및 통계를 저장 및 관리한다. 사용자의 즐겨 찾기를 통해 미리 등록한 웹사이트의 이동이 가능하다.

도 24와 같이 시스템의 통계를 산출한다. 질의 조건에 따라 조회가 가능하며 엑셀(excel) 파일로 결과를 추출할 수 있다. 조회의 결과를 그래프로 보여주며 접속빈도/접속시간으로 선택해서 볼 수 있다.

도 25를 참조하여 자동 음성 로그 인을 보면 다음과 같다. 서비스를 사용할 회원가입을 하면 이 서비스를 사용할 수 있다.

먼저 서비스를 제공하는 홈페이지에 접속하여 회원 가입한다.

회원 가입 후 로그 인을 한다. 로그 인을 하면 즐겨 찾기 등록 페이지가 보인다.

즐겨 찾기 페이지에서 등록할 수 있는 내용은 사이트 이름, 사이트 주소, 아이디, 비밀번호 등이다. 예로, "야후 코리아"에서 제공하는 메일 서비스를 받고 있는 회원의 경우 여기에서 다음과 같이 등록할 수 있다. 등록 시에 인터넷 사이트 주소를 입력해야 하므로 도 25의 참조사이트 라는 메뉴로 찾고자 하는 사이트의 주소를 쉽게 찾을 수 있도록 되어있다. 이렇게 등록해 놓은 후에 서비스를 시작하여 로그 인을 한 후 즐겨 찾기 메뉴로 간다.

즐겨 찾기 메뉴에 야후 코리아 메뉴가 존재한다.

야후 코리아 메뉴를 선택하여 야후 코리아 사이트로 이동한다.

야후 코리아에서 로그 인 메뉴로 들어가면 아이디를 입력하라는 말이 나온다. 이 때 음성으로 아이디라고 명령한다.

시스템이 음성을 인식하여 이전에 웹페이지에서 적어 놓은 아이디를 자동으로 입력하여 준다.

비밀번호를 입력하라는 멘트가 나오면 마찬가지로 비밀번호라고 음성으로 말한다. 시스템이 자동으로 비밀번호를 입력하여 준다.

로그 인이 되었으므로 메일을 확인할 수 있다.

사용 도중 현재 듣고 있는 사이트가 마음에 드는 경우 등록이라는 음성 명령어를 사용하면 현재 페이지의 주소와 이름이 자동으로 사용자의 즐겨 찾기에 등록된다. 추후 웹페이지에서 확인 및 수정이 가능하다.

주석 처리 태그를 사용하여 광고 및 음성파일을 재생한다. 따라서, 음성합성으로만 되어있는 서비스의 음질을 높일 수 있다. 또한 광고를 삽입할 수 있도록 하여 ASP 서비스의 수익성을 올린다. 상기 음성파일은 웨이브 파일로, 메뉴파일, 광고파일 등이 있다. 음성파일 재생 규칙은 도 26과 같이 메뉴파일 또는 광고파일의 존재 여부에 따른다. 이 서비스를 구현하기 위한 방법을 간단히 보면 다음과같다.

Comment tag를 이용한다. : <!?? companyid=number file_type = file_name [file_type = file_name]→

반드시 소문자로만 작성한다.

주석 태그를 사용하므로 일반 무선 단말기에서는 보이지 않는다.

Ex) <!?? companyid=5000 menufile=mainmenu.wav adfile=welcome.wav→

웨이브 파일 업로드 방법을 보면 다음과 같다.

웹페이지에 각 사별로 음성파일을 업로드할 수 있는 운영자 메뉴를 제공한다.

운영자는 원하는 종류의 파일을 업로드 한 후에 위의 서비스 구현 방법에서 제시한 형태를 준수하여 업로드한 파일의 이름을 정확하게 명기한다. 이 때 파일의 이름은 중복될 수 없다.

시스템 설정에 있어, 각 사별로 별도의 파일 업로드 디렉토리를 설정해 놓는다.

실제 서비스를 사용하는 방법을 로그 인하는 방법, 회원 가입하는 방법, 인터넷을 사용하는 방법, 도움말을 사용하는 방법, 및 키워드를 사용하는 방법 순으로 각기 설명하면 다음과 같다.

로그 인하는 방법은 다음과 같다.

1. 02) 6200-5000 번으로 전화를 건다.

2. "말로 하는 인터넷 엠보이스웹에 오신 것을 환영합니다. 엠보이스웹은원하는 서비스의 번호를 일 번, 이 번 등과 같이 말하거나 전화기의 버튼을 눌러서 메뉴를 선택하실 수 있습니다. 자세한 내용은 4 번 도움말이나 www.mvoiceweb.co.kr을 참고하십시오. 서비스를 시작합니다. 1 번은 로그인, 2 번은 회원가입, 3 번은 인터넷, 4 번은 도움말, 5 번은 키워드입니다."라는 초기메뉴를 듣게 된다.

3. '1 번 로그인'을 선택하기 위해 전화기의 1 번을 누르거나, 일 번이라고 말한다.

4. "가입자번호를 버튼으로만 입력하여 주십시오. 숫자를 눌러주십시오. 이전메뉴는 별표를 눌러 주십시오."라는 멘트를 듣고, 가입자 번호를 숫자로 입력한다.

5. "비밀번호 네 자리를 버튼으로만 입력하여 주십시오. 숫자를 눌러 주십시오. 이전 메뉴는 별표를 눌러주십시오."라는 멘트를 듣고, 비밀번호 네 자리를 숫자로만 입력한다.

6. 가입자 번호와 비밀번호 입력이 끝나면, "XXXXX님의 엠보이스웹 메뉴입니다. 1 번은 즐겨 찾기, 2 번은 인터넷, 3 번은 도움말, 4 번은 키워드입니다."라는 멘트를 듣게 된다.

7. '1 번 즐겨 찾기'를 선택하기 위하여 전화기의 1 번을 누르거나 일 번이라고 말한다. 2 번 인터넷, 3 번 도움말, 4 번 키워드의 선택도 위와 같은 방법으로 한다.

8. 비밀번호가 잘못 입력되었을 경우 "비밀번호가 잘못 입력되었습니다. 1번은 다시 입력입니다. 이전메뉴는 별표를 눌러주십시오."라는 멘트를 듣게 된다.

9. 재 입력하기 위하여 전화기의 1 번 버튼을 누르거나 일 번이라고 말한다.

10. 다시 가입자 번호와 비빌 번호를 입력한다.

5-1. 만일 엠보이스웹 회원으로 가입되어 있지 않을 경우 "XXXXX 아이디는 음성 인터넷 서비스에 가입되어 있지 않습니다. 1 번은 다시 입력입니다."라는 멘트를 듣는다. 다시 입력을 위하여 전화기의 1 번 버튼을 누르거나 일 번이라고 말한다.

5-2. 전화기의 1 번 버튼을 누르거나 일 번이라고 말하면, "가입자번호를 버튼으로만 입력하여 주십시오. 숫자를 눌러주십시오. 이전메뉴는 별표를 눌러주십시오."라는 멘트를 듣게 된다.

5-3. 다시 가입자 번호와 비빌 번호를 입력한다.

회원 가입하는 방법은 다음과 같다.

1. 02) 6200-5000 번으로 전화를 건다.

2. "말로 하는 인터넷 엠보이스웹에 오신 것을 환영합니다. 엠보이스웹은 원하는 서비스의 번호를 일 번, 이번 등과 같이 말하거나 전화기의 버튼을 눌러서 메뉴를 선택하실 수 있습니다. 자세한 내용은 4 번 도움말이나 www.mvoiceweb.co.kr을 참고하십시오. 서비스를 시작합니다. 1 번은 로그인, 2 번은 회원가입, 3 번은 인터넷, 4 번은 도움말, 5 번은 키워드입니다."라는 멘트를 듣게 된다.

3. '2 번 회원가입'을 선택하기 위해 전화기의 2 번을 누르거나, 이 번이라고 말한다.

4. "회원가입. 엠보이스웹의 가입과 이용은 무료이며 가입 즉시 서비스를 이용하실 수 있습니다. 아이디로 사용하실 네 자리 이상 12 자리 이하의 가입자 번호를 버튼으로만 입력하여 주십시오. 이동전화 번호를 사용하시면 편리합니다. 숫자를 눌러 주십시오. 이전 메뉴는 별표를 눌러주십시오."라는 멘트를 듣고 아이디를 숫자만 입력한다.

5. 아이디를 숫자로만 입력한다.

6. "입력하신 가입자번호는 XXXXX입니다. 맞습니까? 1 번은 예, 2 번은 아니요 입니다."라는 멘트를 듣게 된다.

7. 입력한 가입자 번호가 맞으면, 전화기의 1 번을 누르거나, 일 번이라고 말한다.

8. "비밀번호 네 자리를 입력하여 주십시오. 숫자를 눌러 주십시오. 이전 메뉴는 별표를 눌러 주십시오."라는 멘트를 듣게 된다.

9. 비밀번호를 입력한다.

10. "확인을 위해 다시 한번 비밀 번호 네 자리를 입력하여 주십시오. 숫자를 눌러 주십시오. 이전 메뉴는 별표를 눌러 주십시오."라는 멘트듣고, 비밀번호 네 자리를 재 입력한다.

11. "주민등록번호 13 자리를 숫자로만 입력하여 주십시오. 숫자를 눌러 주십시오. 이전메뉴는 별표를 눌러 주십시오."라는 멘트를 듣고, 가입자의 주민 등록번호를 숫자로 입력한다.

12. "다시 한 번 주민등록 번호 13 자리를 입력하여 주십시오. 숫자를 눌러 주십시오라."는 멘트를 듣고, 주민 등록 번호를 재 입력한다.

13. "회원가입이 성공적으로 진행이 되었으면 감사합니다. 회원으로 가입되었습니다. 1 번은 시작 메뉴입니다. 이전 메뉴는 별표를 눌러 주십시오."라는 멘트를 듣게 된다.

14. '시작메뉴'를 선택하기 위해 전화기의 1 번 버튼을 누르거나 일 번이라고 말한다.

5-1. 만일 아이디가 이미 사용되고 있는 경우 "입력하신 가입자 번호는 이미 사용되고 있습니다. 일 번은 다시 입력입니다."라는 멘트를 듣게 된다.

7-1. 입력한 가입자 번호가 아닌 경우, 전화기의 2 번을 누르거나, 이 번이라고 말한다.

7-2. 초기메뉴의 2 번 회원가입으로 이동한다.

10-1. 만일 비밀번호 재 입력 과정에서 동일한 비밀번호를 입력하지 않을 경우 "입력하신 두 개의 비밀 번호가 다릅니다. 1 번은 다시 입력입니다."라는 멘트를 듣게 된다.

12-1. 만일 주민등록번호 재 입력 과정에서 동일한 비밀번호를 입력하지 않을 경우 "입력하신 주빈등록번호가 다릅니다. 일 번은 다시 입력입니다."라는 멘트를 듣게 된다.

인터넷을 사용하는 방법은 다음과 같다.

1. 02) 6200-5000 번으로 전화를 건다.

2. "말로 하는 인터넷 엠보이스웹에 오신 것을 환영합니다. 엠보이스웹은 원하는 서비스의 번호를 일 번, 이 번 등과 같이 말하거나 전화기의 버튼을 눌러서 메뉴를 선택하실 수 있습니다. 자세한 내용은 4 번 도움말이나 www.mvoiceweb.co.kr을 참고하십시오. 서비스를 시작합니다. 1 번은 로그인, 2 번은 회원가입, 3 번은 인터넷, 4 번은 도움말, 5 번은 키워드입니다."라는 초기메뉴를 듣게 된다.

3. '3 번 인터넷'을 선택하기 위해 전화기의 3 번을 누르거나 삼 번이라고 말한다.

4. "원하는 사이트를 선택해주십시오. 1 번은 뉴스/스포츠, 2 번은 엔터테이먼트, 3 번은 증권, 4 번은 교통/지역 5 번은 교육/취업, 6 번은 여성/생활, 7 번은 문화 /예술, 8 번은 컴퓨터/인터넷, 9 번은 날씨/쇼핑입니다."라는 멘트를 듣게 된다.

5. '1번 뉴스/스포츠'를 선택하기 위해 전화기의 1 번을 누르거나 일 번이라고 말한다. 2 번 엔터테인먼트, 3 번 증권, 4 번 교통/지역, 5 번 교육/취업, 6 번 여성/생활, 7 번 문화/예술, 8 번 컴퓨터/인터넷, 9 번 날씨/쇼핑의 선택도 위와 같은 방법으로 한다.

6. "뉴스/스포츠. 1 번은 스포츠 투데이, 2 번은 연합뉴스, 3 번은 중앙일보입니다."라는 멘트를 듣게 된다.

7. '스포츠 투데이'를 선택하기 위해 전화기의 1 번을 누르거나, 일 번이라고 말한다. 2 번 연합뉴스, 3 번 중앙일보의 선택도 위와 같은 방법으로 한다.

8. 이제 서비스는 스포츠 투데이의 인터넷 사이트로 이동하여, 스포츠 투데이에서 제공하는 내용을 음성합성 기술을 이용하여 음성으로 들려준다.

도움말을 사용하는 방법은 다음과 같다.

1. 02) 6200-5000 번으로 전화를 건다.

2. "말로 하는 인터넷 엠보이스웹에 오신 것을 환영합니다. 엠보이스웹은 원하는 서비스의 번호를 일 번 , 이 번 등과 같이 말하거나 전화기의 버튼을 눌러서 메뉴를 선택하실 수 있습니다. 자세한 내용은 4 번 도움말이나 www.mvoiceweb.co.kr을 참고하십시오. 서비스를 시작합니다. 1 번은 로그인, 2 번은 회원가입, 3 번은 인터넷, 4 번은 도움말, 5 번은 키워드입니다."라는 초기메뉴 멘트를 듣게 된다.

3. '4 번 도움말'을 선택하기 위해 전화기의 4 번을 누르거나, 사 번이라고 말한다.

4. "1 번은 상위 메뉴, 2 번은 엠보이스웹, 3 번은 사용 방법입니다."라는 멘트를 듣게 된다.

5. '2 번 엠보이스웹'을 선택하기 위해 전화기의 2 번을 누르거나 이번이라고 말한다.

6. "엠보이스웹은 전화로 인터넷에 접속하여 간단한 키워드로 원하는 메뉴나 방문하고자 하는 사이트를 선택하여 필요한 정보를 전화로 들을 수 있는 음성 인터넷 서비스입니다. 유무선 전화를 모두 사용하실 수 있으며, 별도의 정보 이용료 없이 인터넷 상에서 제공되는 모든 정보와 서비스를 제공받을 수 있습니다. 자세한 내용은 www.mvoiceweb.co.kr을 참고하십시오. 1 번은 사용방법, 2 번은 상위 메뉴입니다. 이전 메뉴는 별표를 눌러 주십시오."라는 멘트를 듣게 된다.

7. '1 번 사용방법'을 선택하기 위해, 전화기의 1 번을 누르거나, 일 번이라고 말한다.

8. "사용방법. 메뉴를 듣고 원하는 메뉴를 선택합니다. 처음에는 키워드와 번호 입력 모두를 사용하실 수 있습니다. 주변에 잡음이 많거나 번호입력만 사용하고 싶은 경우, '0'을 한 번을 누르면 번호 입력 모드로 전환됩니다. 다시 한번 '0' 번을 누르면 이전 상태로 돌아갑니다. 엠보이스웹 이용 중 이전 단계로 돌아가시려면 별표를 한 번 누르거나, '이전'이라고 말하고, 초기 메뉴로 돌아가시려면 별표를 두 번 누르거나, '처음'이라고 말합니다. 로그 인을 하면 즐겨 찾기 등의 개인메뉴를 사용하실 수 있습니다. 사용 중 '로그 인'을 하시려면 '로그인'이라고 말하거나, 초기메뉴에서 '로그인'을 선택합니다. 자세한 내용은 www.mvoiceweb.co.kr을 참고하십시오. 자세한 설명을 원하시면, 다음 메뉴에서 선택하십시오. 1 번 상위메뉴, 2 번은 회원가입, 3 번 즐겨 찾기, 4 번 키워드입니다."라는 멘트를 듣게 된다.

9. '2 번 회원가입'을 선택하기 위해 전화기의 2 번을 누르거나, 이 번이라고 말한다.

10. "회원가입. 회원가입은 웹페이지나 전화를 통하여 하실 수 있습니다. 회원가입에 하지 않고도 엠보이스웹을 이용하실 수 있습니다. 하지만, 회원에 가입하시면 즐겨 찾기 목록 서비스 및 다른 사이트 자동로그인 서비스 등의 한 차원높은 서비스를 이용하실 수 있습니다. 1 번은 상위메뉴입니다. 이전 메뉴는 별표를 눌러주십시오."라는 멘트를 듣게 된다.

5-1. '1 번 상위메뉴'를 선택하면, "1 번은 로그인, 2 번은 회원가입, 3 번은 인터넷, 4 번은 도움말, 5 번은 키워드입니다."라는 초기메뉴를 듣게 된다.

7-1. '2 번 상위메뉴'를 선택하면, "1 번은 상위메뉴, 2 번은 엠보이스웹, 3 번은 사용방법입니다."이라는 메뉴로 이동한다.

9-1. '1 번 상위메뉴'를 선택하면, "1 번은 상위메뉴, 2 번은 엠보이스웹, 3 번은 사용방법입니다."라는 메뉴로 이동한다.

9-2. "'3 번 즐겨 찾기'를 선택하려면 전화기의 3 번 버튼을 누르거나, 삼 번이라고 말한다. 엠보이스웹 회원은 자신이 자주 방문하는 인터넷 사이트를 웹페이지에 즐겨 찾기로 등록할 수 있다. 이때 원하는 사이트 명, 해당 인터넷 홈페이지주소, 로그인 아이디와 비밀번호를 입력한다. 즐겨 찾기에 등록한 사이트를 방문하여 로그 인을 할 때, 음성으로 각각 아이디, 비밀번호라고 말하면 해당 사이트에 등록한 아이디와 비밀번호가 자동으로 입력된다. 그리고 로그 인을 한 경우에는 언제든지 즐겨 찾기라고 말하면 "바로 즐겨 찾기로 이동합니다. 1번은 상위메뉴입니다. 이전메뉴는 별표를 눌러주십시오."라는 멘트를 듣게 된다.

9-3. '4 번 키워드'를 선택하려면 전화기의 4 번 버튼을 누르거나, 사번이라고 말한다.

9-4. "엠보이스웹 이용 중 원하는 메뉴를 선택하고자 할 때, 키워드를 말하거나 해당 메뉴의 번호를 눌러서 선택하실 수 있습니다. 현재 이용 가능한 키워드는 이전, 처음, 로그 인, 북 마크, 즐겨찾기, 아이디, 비밀번호, 일 번, 이번과 같은 메뉴 번호가 있습니다. 서비스 이용 중 언제든지 다른 키워드를 말하면 1해당 서비스로 이동합니다. 1 번은 상위메뉴, 2 번은 자세히 입니다."라는 멘트를 듣게 된다.

9-5. '1 번 상위메뉴'를 선택하면, "1 번은 로그인, 2 번은 회원가입, 3 번은 인터넷, 4 번은 도움말, 5 번은 키워드입니다."라는 초기메뉴로 이동한다.

9-6. '2 번 자세히'를 선택하면, 자세한 키워드 설명을 듣게 된다.

10-1. '1 번 상위메뉴'를 선택하면, "1 번은 상위메뉴, 2 번은 엠보이스웹, 3 번은 사용방법입니다."이라는 이전단계의 메뉴로 이동한다.

키워드를 사용하는 방법은 다음과 같다.

1. 02) 6200-5000 번으로 전화를 건다.

3. '5 번 키워드'를 선택하기 위하여, 전화기의 5 번을 누르거나, 오 번이라고 말한다.

4. "보이스웹 이용 중 원하는 메뉴를 선택하고자 할 때, 키워드를 말하거나해당 메뉴의 번호를 눌러서 선택하실 수 있습니다. 현재 이용 가능한 키워드는 이전, 처음, 로그인, 북 마크, 즐겨찾기, 아이디, 비밀번호, 일 번, 이 번과 같은 메뉴 번호가 있습니다. 서비스 이용 중 언제든지 다른 키워드를 말하면 해당 서비스로 이동합니다. 1 번은 상위 메뉴, 2 번은 자세히 입니다."라는 멘트를 듣게 된다.

4-1. '1 번 상위메뉴'를 선택하면, "1 번은 로그인, 2 번은 회원가입, 3 번은 인터넷, 4 번은 도움말, 5 번은 키워드입니다."라는 초기메뉴로 이동한다.

4-2. "'2 번 자세히'를 선택합니다. 초기메뉴로 이동하시려면, '처음'이라고 말하고, 이전 메뉴로 돌아가려면, '이전'이라고 말합니다. 로그 인을 하시려면 '로그인'이라고 말합니다. 로그 인 후, 즐겨 찾기로 이동하려면 '즐겨 찾기'라고 말하고, 현재 접속 중인 인터넷 사이트를 즐겨 찾기에 등록하시려면 '북 마크'라고 말합니다. 즐겨 찾기에 등록한 사이트를 방문하여 로그인 할 때, 음성으로 각각 '아이디', '비밀번호'라고 말하면 해당사이트에 등록한 아이디와 비밀번호가 자동으로 입력됩니다. 원하는 인터넷 사이트 명을 말하면, 해당사이트로 바로 이동합니다. 1 번은 상위메뉴입니다. 이전메뉴는 별표를 눌러주십시오."라는 멘트를 듣게 된다.

4-3. '1 번 상위메뉴'를 선택하면, "1 번은 로그 인, 2 번은 회원가입, 3 번은 인터넷, 4 번은 도움말, 5 번은 키워드입니다."라는 초기메뉴로 이동한다.

이상에서 설명한 바와 같이 본 발명은, 인터넷 등에 접속된 웹사이트의 텍스트 정보를 음성 정보로 변환해서 이 음성 정보를 특정 전화 번호에 대응하는 회선을 통해 소정의 가입자에게 제공한다. 따라서, 사용자는 일반 전화를 통해서도 인터넷에 접속하여 정보를 음성으로 들을 수 있기 때문에, 인터넷의 이용이 매우 용이해지는 효과가 있다.

Claims

인터넷 상의 웹사이트의 컨텐츠를 음성 정보로 변환시켜 사용자에게 전화를 통해 제공하는 음성 정보 제공 시스템에 있어서:

다수의 사용자와 전화망을 통해 각기 접속되어, 특정 사용자의 명령에 대응하는 음성 정보를 상기 특정 사용자에게 제공하기 위한 호 처리를 수행하는 음성 정보 제공 제어부;

상기 음성 정보 제공 제어부를 통해 상기 특정 사용자의 명령에 대응하는 상기 인터넷 상의 컨텐츠를 가공된 상태로 전달받아 음성으로 변환시켜 상기 특정 사용자에게 상기 음성 정보 제공 제어부를 통해 재생시켜 주는 음성 합성부;

상기 음성 정보 제공 제어부를 통해 제공되는 상기 특정 사용자의 음성명령을 해석하여 상기 음성 정보 제공 제어부에게 알려주는 음성 인식부;

상기 음성 정보 제공 제어부로부터 상기 특정 사용자의 명령을 받아 이에 대응하는 상기 인터넷 상의 특정 웹사이트에 연결해서 소정의 웹 컨텐츠를 받아 사용자가 듣기 편한 문장으로 가공하여 상기 음성 정보 제공 제어부로 제공하는 문장 분석부;

방문할 인터넷 상의 사이트에 주기적으로 접속하여 컨텐츠를 기 설정된 서버에 저장해 두었다가 상기 문장 분석부가 원하는 컨텐츠가 있을 경우 상기 문장 분석부에게 바로 제공하는 캐시 에이전트;

상기 문장 분석부에 접속되어 음성 정보 제공 서비스를 위한 웹사이트를 제공하는 웹서버를 포함하는 인터넷을 이용한 음성 정보 제공 시스템.
제 1 항에 있어서,

상기 음성 정보 제공 제어부는 입 중계 호 처리 프로세스, 출 중계 호 처리 프로세스, 및 상기 입 중계 호와 출 중계 호를 연결시키는 프로세스를 사용하여 상기 호 처리를 수행하는 것을 특징으로 하는 인터넷을 이용한 음성 정보 제공 시스템.
제 2 항에 있어서,

상기 3 개의 프로세스간에 분산 요소 객체 모델이 적용된 인터페이스를 사용하는 것을 특징으로 하는 인터넷을 이용한 음성 정보 제공 시스템.
제 1 항에 있어서,

상기 음성 정보 제공 제어부는 상기 사용자의 명령이 DTMF 신호인 경우 직접 해석하는 것을 특징으로 하는 인터넷을 이용한 음성 정보 제공 시스템.
제 1 항에 있어서,

상기 음성 정보 제공 제어부와 상기 음성 합성부는 서로 분산 요소 객체 모델 환경으로 연동되는 것을 특징으로 하는 인터넷을 이용한 음성 정보 제공 시스템.
제 1 항에 있어서,

상기 음성 합성부는 다국어를 각기 지원하기 위한 각 언어별 음성합성 프로세서를 구비하는 것을 특징으로 하는 인터넷을 이용한 음성 정보 제공 시스템.
제 6 항에 있어서,

상기 각 언어별 음성합성 프로세서는 분산 요소 객체 모델로 구현되는 것을 특징으로 하는 인터넷을 이용한 음성 정보 제공 시스템.
제 1 항에 있어서,

상기 음성 인식부는 다국어를 각기 지원하기 위한 각 언어별 음성합성 프로세서를 구비하는 것을 특징으로 하는 인터넷을 이용한 음성 정보 제공 시스템.
제 1 항에 있어서,

상기 문장 분석부는 HDML, WM, mHTML, cHTML, SkyHTML, 및 VXML 등의 언어를 지원하는 것을 특징으로 하는 인터넷을 이용한 음성 정보 제공 시스템.
제 1 항에 있어서,

상기 캐시 에이전트는 상기 컨텐츠를 분석하여 음성합성의 텍스트 소스로 만들어 상기 기 설정된 서버에 저장해 두는 것을 특징으로 하는 인터넷을 이용한 음성 정보 제공 시스템.
인터넷 상의 웹사이트의 컨텐츠를 음성 정보로 변환시켜 사용자에게 전화를 통해 제공하는 음성 정보 제공 시스템에 있어서:

사용자가 상기 음성 정보 제공 시스템에 전화 접속하는 제 1 단계;

기 설정된 음성 합성부 및 음성 인식부를 초기화시키는 제 2 단계;

상기 음성 합성부, 음성 인식부, 및 기 설정된 문장 분석부와 연동해서 상기 인터넷 상의 텍스트 정보를 음성 정보로 변환하여 제공하는 서비스를 시작하여 상기 전화 접속된 사용자에게 음성 정보 제공 서비스 이용에 필요한 프롬프트를 재생시키는 제 3 단계;

상기 사용자는 상기 재생되는 프롬프트에 따라 필요한 명령을 입력하여 상기 인터넷 상의 텍스트 정보를 음성으로 제공받는 제 4 단계;

상기 사용자로부터 입력된 명령을 해석하는 제 5 단계;

상기 해석 결과, 서비스를 진행하는 것이면 상기 제 3 단계를 수행하는 제 6 단계;

상기 해석 결과, 출 중계 발생이면 착신 호를 출 중계에 대응하는 중계선으로 스위칭시키는 제 7 단계;

착신 호를 출 중계 호 처리하여 특정 전화 교환 망으로 보내는 제 8 단계;

상기 해석 결과, 호 해제이면 서비스를 종료하는 제 9 단계를 포함하는 인터넷을 이용한 음성 정보 제공 방법.
제 11 항에 있어서,

상기 제 1 단계의 전화 접속은 MFC-R2 프로토콜 환경의 신호 처리에 의해 이루어지는 것을 특징으로 하는 인터넷을 이용한 음성 정보 제공 방법.
제 11 항에 있어서,

상기 사용자가 입력하는 명령은 DTMF 신호 또는 음성 신호인 것을 특징으로 하는 인터넷을 이용한 음성 정보 제공 방법.