KR100380829B1 - System and method for managing conversation -type interface with agent and media for storing program source thereof - Google Patents
System and method for managing conversation -type interface with agent and media for storing program source thereof Download PDFInfo
- Publication number
- KR100380829B1 KR100380829B1 KR10-2000-0053847A KR20000053847A KR100380829B1 KR 100380829 B1 KR100380829 B1 KR 100380829B1 KR 20000053847 A KR20000053847 A KR 20000053847A KR 100380829 B1 KR100380829 B1 KR 100380829B1
- Authority
- KR
- South Korea
- Prior art keywords
- voice command
- user
- animation character
- synthesized sound
- outputting
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 67
- 238000010295 mobile communication Methods 0.000 claims abstract description 35
- 230000002452 interceptive effect Effects 0.000 claims abstract description 25
- 238000012545 processing Methods 0.000 claims description 43
- 230000008569 process Effects 0.000 claims description 38
- 230000009471 action Effects 0.000 abstract description 17
- 238000004891 communication Methods 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 16
- 230000015572 biosynthetic process Effects 0.000 description 5
- 238000003786 synthesis reaction Methods 0.000 description 5
- 239000000284 extract Substances 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 238000012790 confirmation Methods 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000011017 operating method Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000015654 memory Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 241000282414 Homo sapiens Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Telephonic Communication Services (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
개시된 본 발명은 에이전트를 이용한 대화 방식 인터페이스 운영 시스템과 방법 및 그 프로그램 소스를 기록한 기록 매체에 관한 것이다.The disclosed invention relates to a system and method for operating an interactive interface using an agent, and a recording medium having recorded thereon a program source.
본 발명은 이동 통신 단말기의 디스플레이 수단에 동적인 애니메이션 캐릭터를 디스플레이하여, 상기 애니메이션 캐릭터가 사용자의 음성 명령어를 듣거나 사용자에게 전달할 내용을 말하는 액션을 취하게 하는 한편, 그에 상응하는 음성 신호가 상기 이동 통신 단말기의 스피커로 출력되도록 지원한다.The present invention displays a dynamic animation character on the display means of the mobile communication terminal, allowing the animation character to take action to listen to the user's voice command or to say content to the user, while the corresponding voice signal is moved. It supports to be output through speaker of communication terminal.
즉 사용자가 상기 애니메이션 캐릭터와 대화하면서 상기 이동 통신 단말기가 제공하는 서비스를 이용하게 할 수 있는 인터페이스를 제공한다.That is, an interface for allowing a user to use the service provided by the mobile communication terminal while talking to the animation character is provided.
따라서, 본 발명은 데이터 입력에 따른 번거로움을 감소시켜 신체적 핸디캡이 있거나 자동차 운전 중에 있는 사용자도 손쉽게 사용하게 할 수 있다는 장점이 있다.Therefore, the present invention has the advantage that it can be easily used by a user having a physical handicap or driving a car by reducing the hassle caused by data input.
Description
본 발명은 사용자 인터페이스 운영 시스템 및 방법과 그 프로그램 소스를 기록한 기록 매체에 관한 것이다.The present invention relates to a user interface operating system and method, and a recording medium having recorded thereon a program source.
특히, 사용자의 음성 인식을 처리하고, 스피커를 통해 사용자가 들을 수 있는 합성음을 출력하고 그에 해당하는 동적 애니메이션 캐릭터를 이동 통신 단말기의 디스플레이 수단에 출력하는 에이전트를 이용한 대화 방식 인터페이스 운영 시스템 및 방법과 그 프로그램 소스를 기록한 기록 매체를 제공한다.In particular, a system and method for operating an interactive interface using an agent that processes voice recognition of a user, outputs a synthesized sound that can be heard by a user through a speaker, and outputs a corresponding dynamic animation character to a display means of a mobile communication terminal. A recording medium having a program source recorded thereon is provided.
최근 들어 휴대 전화는 이동 전화기로서의 기능 뿐 아니라 개인 정보 관리, 문자 메시지 전송, 전자 우편 및 인터넷 검색과 같은 서비스를 이용할 수 있을 뿐만 아니라 단말의 소형화 및 저가격화로 보급이 급속히 확대되고 있다.Recently, mobile phones are not only able to use functions as mobile phones but also can use services such as personal information management, text message transmission, e-mail and Internet search, and the popularity of mobile phones is rapidly expanding due to the miniaturization and low price of terminals.
현재 사용되고 있는 대부분의 단말기는 사용자와의 상호 작용을 위한 입력 수단으로 마이크와 키패드가 사용되고 있으며, 출력 수단으로는 스피커와 디스플레이 수단이 사용되고 있다.Most of the terminals currently used are microphones and keypads as input means for interaction with users, and speakers and display means are used as output means.
상기 입출력 수단 중 마이크와 스피커는 주로 전화 통화를 위해 사용되고 있으며, 키패드와 디스플레이 수단은 단말기의 기능 조작과 데이터 입력 및 진행 상황 표시에 주로 사용되고 있다.Among the input and output means, a microphone and a speaker are mainly used for a telephone call, and a keypad and a display means are mainly used for a function operation of a terminal, data input and progress display.
또한, 대부분 단말기는 사용자 인터페이스로 메뉴-버튼 방식을 채용하고 있다. 사용자 단말기에서 제공되는 기능들을 키패드와 디스플레이 수단에 표시되는메뉴를 입력하여 선택 사용하고 있다.In addition, most terminals adopt a menu-button method as a user interface. The functions provided by the user terminal are selected by using a menu displayed on the keypad and the display means.
그러나, 현재의 단말기에서 사용자 인터페이스로 채택하고 있는 메뉴-버튼 방식은 다음과 같은 문제점이 있다.However, the menu-button method adopted as a user interface in the current terminal has the following problems.
첫째로 메뉴 체계가 복잡하여 원하는 서비스를 찾아 이용하기 어렵다.First, it is difficult to find and use a desired service because the menu system is complicated.
왜냐하면 단말기에서 제공되는 많은 기능들은 모두 보통 40자 기준 내외의 작은 디스플레이 수단을 통해서 다단계의 메뉴 형태로 제공되고 있기 때문이다.Because many functions provided in the terminal are usually provided in a multi-level menu form through a small display means of about 40 characters.
예를 들어 삼성 전자(주)의 PCS 단말기를 이용하여 문자 메시지를 보내고자 할 경우에 메시지 내용의 입력을 제외하고 4단계의 메뉴를 거쳐야 하고 기능키를 20번 이상 눌러야 하는 불편이 따른다.For example, if you want to send a text message using Samsung Electronics Co., Ltd. PCS terminal, you have to go through the menu of 4 steps except inputting the message contents and have to press function key more than 20 times.
두 번째로 15개 내외의 버튼을 이용하여 사람의 이름, 문자 메시지의 내용, 스케줄의 내용, 전자 우편 주소 및 내용, 또는 인터넷 주소 등과 같은 데이터를 입력하기에는 많은 노력과 시간이 소요된다. 예를 들어 삼성 전자(주)의 단말기를 이용하여 "7월 7일 오후 2시 방문 예정"이라는 전송할 문자 메시지의 내용을 입력하기 위해서는 기능키를 60번 이상 눌러야 한다.Second, it takes a lot of effort and time to enter data such as a person's name, the contents of a text message, the contents of a schedule, an e-mail address and contents, or an internet address using about 15 buttons. For example, to enter the contents of a text message that will be sent to Samsung Electronics Co., Ltd., "Scheduled to visit at 2pm on July 7," you must press the function key more than 60 times.
셋째로 메뉴-버튼 방식에 익숙하지 않은 사용자들은 사용하기에 보다 친밀하고 이용하기 쉬운 사용자 인터페이스를 요구한다.Third, users unfamiliar with the menu-button approach require a user interface that is more familiar and easier to use.
이러한 문제점을 개선하기 위해 우리 인간에게 가장 보편적이고 쉬운 통신 수단인 음성을 이용한 인터페이스 수단이 개발되고 있다.In order to solve this problem, the interface means using voice, which is the most common and easy communication means for human beings, has been developed.
그러나, 현재의 단말에서는 빈약한 연산 처리 능력과 작은 메모리 용량만을 가지고 있어, 일반적으로 50여 개의 간단한 음성 명령어만을 화자 종속으로 수용할수밖에 없어 음성 인식 기술은 이름을 이용한 다이얼링에만 일부 사용되고 있을 뿐, 단말기의 사용자 인터페이스를 크게 개선해주지 못하고 있는 실정이다.However, the current terminal has only poor computational processing capability and small memory capacity, and generally only about 50 simple voice commands can be accepted as speaker dependent, so the speech recognition technology is only partially used for dialing by name. This does not significantly improve the user interface of.
따라서, 본 발명의 목적은 상기와 같은 문제점을 해결하기 위해 안출한 것으로, 사용자가 입력한 음성 명령어 또는 데이터를 인식 처리하고 그 결과 신호를 출력받아 디스플레이 수단에 출력하는 한편, 상기 음성 명령어 또는 데이터 인식 처리 상태 또는 서비스 지원 상태 또는 완료 상태를 동적으로 표현하는 애니메이션 캐릭터를 디스플레이 수단에 디스플레이하거나 그에 해당하는 합성음을 스피커로 출력하는 에이전트를 이용한 대화 방식 인터페이스 운영 시스템 및 방법과 그 프로그램 소스를 기록한 기록 매체를 제공함에 있다.Accordingly, an object of the present invention is to solve the above problems, and to recognize the voice command or data input by the user and to process the resulting signal output to the display means, the voice command or data recognition An interactive interface operating system and method using an agent for displaying an animation character that dynamically expresses a processing state or service support state or completion state on a display means or outputs a corresponding synthesized sound to a speaker, and a recording medium recording the program source thereof. In providing.
상기의 목적을 달성하기 위한 본 발명의 제 1 실시 예는, 이동 통신 시스템에서 사용자로부터 특정 명령 정보를 입력받아 처리 수단에 전달하고, 상기 특정 명령에 따른 처리 결과를 사용자에게 출력해주는 이동 통신 수단에서 사용자 인터페이스 운영 방법에 있어서, 사용자가 입력한 음성 명령어를 인식 처리하여 그 결과 신호를 출력하여 디스플레이 수단에 디스플레이하는 한편, 상기 음성 명령어 인식 처리 진행 상태 및 완료 상태를 동적으로 표현하는 애니메이션 캐릭터를 디스플레이 수단에 출력하거나 그에 해당하는 합성음을 스피커에 출력하는 제 1 단계, 상기 인식 처리 결과에 해당하는 서비스 기능이 수행되는 동안, 상기 서비스 기능 제공 상태를 동적으로 표현하는 애니메이션 캐릭터를 상기 디스플레이 수단에 출력하거나 그에 해당하는 합성음을 스피커에 출력하는 제 2단계, 상기 음성 명령어 또는 데이터 인식에 실패할 경우, 상기 음성 명령어를 이동 통신 단말기와 무선 접속되어 있는 서버에 전송하여 결과 신호 또는 그에 해당하는 애니메이션 캐릭터 또는 합성음 데이터를 전송받는 제 3단계를 포함하여 구성되는 것을 특징으로 하는 에이전트를 이용한 대화 방식 인터페이스 운영 방법을 제공한다.A first embodiment of the present invention for achieving the above object, in the mobile communication system to receive a specific command information from the user and transmits to the processing means, the mobile communication means for outputting the processing result according to the specific command to the user In the user interface operating method, a voice command input by the user is recognized and output as a result signal is displayed on the display means, while an animation character that dynamically expresses the voice command recognition processing progress and completion status display means Outputting the synthesized sound to the speaker or outputting the corresponding synthesized sound to the speaker, while outputting an animation character that dynamically expresses the service function provision state to the display means while the service function corresponding to the recognition processing result is performed. Corresponding In the second step of outputting the vocal sound to the speaker, if the voice command or data recognition fails, the voice command is transmitted to a server wirelessly connected to the mobile communication terminal to transmit a result signal or corresponding animation character or synthesized sound data. It provides a method of operating an interactive interface using an agent, characterized in that configured to include a third step of receiving.
상기의 목적을 달성하기 위한 본 발명의 제 2 실시 예는, 사용자로부터 특정 명령을 입력받아 처리 수단에 전달하고, 상기 특정 명령에 따른 처리 결과를 사용자에게 출력해주는 사용자 인터페이스 시스템에 있어서, 사용자가 입력한 음성 명령어를 인식 처리하여 그 결과 신호를 출력하는 한편 상기 음성 명령어 인식 처리 진행 상태 및 완료 상태를 동적으로 표현하는 애니메니션 캐릭터를 디스플레이 수단에 출력 및 그에 해당하는 합성음을 스피커에 출력하고, 상기 인식 처리 결과에 해당하는 서비스 기능이 수행되는 동안 상기 서비스 제공 상태를 동적으로 표현하는 애니메이션 캐릭터를 상기 디스플레이 수단에 출력 및 그에 해당하는 합성음을 스피커에 출력하는 이동 통신 단말 장치에 포함된 클라이언트 에이전트, 상기 음성 명령어 또는 데이터 인식에 실패할 경우, 상기 음성 명령어를 이동 통신 단말 장치와 무선 접속되어 있는 서버에 전송하여 결과 신호 또는 그에 해당하는 애니메이션 캐릭터 또는 합성음 데이터를 상기 클라이언트 에이전트에 전송하는 서버 에이전트를 포함하여 구성되는 것을 특징으로 하는 에이전트를 이용한 대화 방식 인터페이스 운영 시스템을 제공한다.A second embodiment of the present invention for achieving the above object, in the user interface system for receiving a specific command from the user to pass to the processing means, and outputs the processing result according to the specific command to the user, the user input A voice command is recognized and output as a result signal, while an animation character which dynamically expresses the voice command recognition processing progress state and completion state is output to a display means and a corresponding synthesized sound is output to a speaker, and the recognition process is performed. A client agent included in a mobile communication terminal device for outputting an animation character that dynamically represents the service provision state to the display means and a corresponding synthesized sound to a speaker while a service function corresponding to a result is performed; Or day If it fails to recognize, the server comprises a server agent for transmitting the voice command to a server that is wirelessly connected to the mobile communication terminal device to transmit a result signal or a corresponding animation character or synthesized sound data to the client agent. It provides an interactive interface operating system using an agent.
상기의 목적을 달성하기 위한 본 발명의 제 3 실시 예는, 이동 통신 시스템에서 사용자로부터 특정 명령 정보를 입력받아 처리 수단에 전달하고, 상기 특정 명령에 따른 처리 결과를 사용자에게 출력해주는 이동 통신 시스템에서 사용자 인터페이스 운영 프로그램 소스를 기록한 기록 매체에 있어서, 사용자가 입력한 음성 명령어를 인식 처리하여 그 결과 신호를 출력하여 디스플레이 수단에 디스플레이하는 한편, 상기 음성 명령어 인식 처리 진행 상태 및 완료 상태를 동적으로 표현하는 애니메이션 캐릭터를 디스플레이 수단에 출력하거나 그에 해당하는 합성음을 스피커에 출력하는 명령어 인식 프로세스, 상기 인식 처리 결과에 해당하는 서비스 기능이 수행되는 동안, 상기 서비스 기능 제공 상태를 동적으로 표현하는 애니메이션 캐릭터를 상기 디스플레이 수단에 출력하거나 그에 해당하는 합성음을 스피커에 출력하는 서비스 지원 프로세스, 상기 음성 명령어 또는 데이터 인식에 실패할 경우, 상기 음성 명령어를 이동 통신 단말기와 무선 접속되어 있는 서버에 전송하여 결과 신호 또는 그에 해당하는 애니메이션 캐릭터 또는 합성음 데이터를 전송받는 프로세스를 포함하여 구성되는 것을 특징으로 하는 에이전트를 이용한 대화 방식 인터페이스 운영 프로그램 소스를 기록한 기록 매체를 제공한다.According to a third embodiment of the present invention for achieving the above object, a mobile communication system receives specific command information from a user in a mobile communication system and transmits the same to a processing means, and outputs a processing result according to the specific command to a user. A recording medium on which a user interface operating program source is recorded, wherein a voice command input by a user is recognized and output as a result, a signal is displayed on a display means, and the voice command recognition processing progress state and completion state are dynamically expressed. While the command recognition process for outputting the animation character to the display means or a corresponding synthesized sound to the speaker, and the service function corresponding to the result of the recognition processing is performed, the animation character to dynamically express the service function provision state Service support process for outputting to the display means or the corresponding synthesized sound to the speaker, if the voice command or data recognition fails, the voice command is transmitted to the server wirelessly connected to the mobile communication terminal result signal or the corresponding It provides a recording medium recording the interactive interface operating program source using the agent, characterized in that it comprises a process for receiving the animation character or synthesized sound data.
도 1은 본 발명의 에이전트를 이용한 대화 방식 인터페이스 운영 시스템 전체 구성도.1 is an overall configuration diagram of an interactive interface operating system using an agent of the present invention.
도 2는 본 발명의 에이전트를 이용한 대화 방식 인터페이스 운영 방법을 설명하는 순서도.2 is a flowchart illustrating a method of operating an interactive interface using an agent of the present invention.
<도면 주요 부분에 대한 부호의 설명><Explanation of symbols for the main parts of the drawings>
100 : 클라이언트 에이전트 (CA ; CLIENT AGENT)100: client agent (CA; CLIENT AGENT)
200 : 서버 에이전트 ( SA ; SERVER AGENT)200: server agent (SA; SERVER AGENT)
110 : CA 매니저 120 : 소용량 음성 인식 엔진110: CA manager 120: small capacity speech recognition engine
130 : 응용 서비스 모듈/CA 140 : 캐릭터 구동기130: application service module / CA 140: character driver
150 : DB /CA 210 : SA 매니저150: DB / CA 210: SA manager
220 : 대용량 음성 인식 엔진 230 : 음성-문자 변환기220: large speech recognition engine 230: speech-to-text converter
240 : 대용량 음성 합성 엔진 250 : 응용 서비스 모듈/SA240: large-capacity speech synthesis engine 250: application service module / SA
260 : 의미 해석기 270 : 캐릭터 생성기260: semantic interpreter 270: character generator
280 : DB /SA280: DB / SA
본 발명의 이들 목적과 특징 및 장점은 첨부 도면 및 다음 상세한 설명을 참조함으로서 더욱 쉽게 이해될 수 있을 것이다.These objects, features and advantages of the present invention will be more readily understood by reference to the accompanying drawings and the following detailed description.
이하에서의 본 발명은 무선 접속된 서버에 의해 지원되는 이동 통신 단말기 내의 인터페이스 수단인 클라이언트 에이전트가 포함되어 있는 상태의 제 1 시스템 구성을 도입하여 설명한다.In the following, the present invention will be described by introducing a first system configuration in which a client agent, which is an interface means in a mobile communication terminal supported by a wirelessly connected server, is included.
또는 상기 서버 내에 상기 클라이언트 에이전트를 지원하는 서버 에이전트가 포함되어 있는 상태의 제 2 시스템 구성을 도입하여 설명한다.Alternatively, a description will be made by introducing a second system configuration in which a server agent supporting the client agent is included in the server.
이는 사용자가 입력한 음성 명령어 또는 데이터를 인식 처리하고 그 결과 신호를 출력받아 디스플레이 수단에 출력하는 한편, 상기 음성 명령어 또는 데이터 인식 처리 상태 또는 서비스 지원 상태 또는 완료 상태를 동적으로 표현하는 애니메이션 캐릭터를 상기 디스플레이 수단에 디스플레이하거나 그에 해당하는 합성음을 스피커에 출력하는 인터페이스 운영 방법 및 그를 지원하도록 구현되는 시스템을 바람직한 실시 예로 제안한다.It recognizes and processes the voice command or data input by the user, and outputs the signal to the display means, while the animation character dynamically expresses the voice command or data recognition processing state or service support state or completion state. An interface operating method for displaying on a display means or outputting corresponding synthesized sound to a speaker and a system implemented to support the same are provided as a preferred embodiment.
또한, 본 발명의 바람직한 실시 예는 본 발명 방법을 실행하도록 프로그램된 컴퓨터 시스템 및 컴퓨터 프로그램 제품과 같은 실시 예를 포함한다. 컴퓨터 시스템의 실시 예에 따르면, 방법을 실행하기 위한 명령어 세트는 하나 또는 그 이상의 메모리(램)에 상주하며, 이들 명령어 세트는 컴퓨터 시스템에서 필요로 할 때까지 예를 들어 디스크 드라이브와 같은 다른 컴퓨터 메모리에 컴퓨터 프로그램 제품으로써 저장될 수 있다.In addition, preferred embodiments of the present invention include embodiments such as computer systems and computer program products programmed to carry out the methods of the present invention. According to an embodiment of a computer system, a set of instructions for carrying out a method resides in one or more memories (RAM), which sets of other instructions, such as, for example, disk drives, until needed by the computer system. Can be stored as a computer program product.
도 1은 본 발명의 에이전트를 이용한 대화 방식 인터페이스 운영 시스템의전체 구성도를 나타낸다.Figure 1 shows the overall configuration of the interactive interface operating system using the agent of the present invention.
본 발명의 에이전트를 이용한 대화 방식의 인터페이스 운영 시스템은 이동 통신 단말기인 휴대용 전화(CELLULAR PHONE), PCS(PERSONAL COMMUNICATIONS SERVICE)나 개인용 정보 단말기인 PDA (PERSONAL DIGITAL ASSISTANTS), 또는 홈 오토메이션 장치 등에 다양하게 적용될 수 있다.The interactive interface operating system using the agent of the present invention can be variously applied to a mobile communication terminal (CELLULAR PHONE), a PCS (PERSONAL COMMUNICATIONS SERVICE), a personal information terminal PDA (PERSONAL DIGITAL ASSISTANTS), or a home automation device. Can be.
그러나, 본 발명의 이해를 도모하고자 상기 제 2 시스템에 한정하여 설명하기로 한다.However, in order to understand the present invention, a description will be given of the second system.
그리고, 이후 상기 사용자가 특정 서비스를 요청하는 음성 신호를 음성 명령어라 칭하고, 상기 에이전트가 특정 서비스 수행에 따라 사용자로부터 입력받아야 할 정보가 되는 음성 신호를 음성 데이터라 칭하기로 함을 밝혀둔다.Subsequently, the voice signal for requesting a specific service by the user is called a voice command, and the voice signal that becomes information to be input from the user according to the performance of the specific service by the agent is called voice data.
예를 들어 상기 음성 명령어는 "전화 번호 등록"과 같이 특정 서비스를 호출하는 명령어이고, 음성 데이터는 상기 전화 번호 등록에 필요한 등록할 사람과 그에 해당하는 전화 번호 데이터로서 "김미영"."02-405-9956"과 같은 형태가 될 수 있다.For example, the voice command is a command for calling a specific service such as "registering a telephone number", and the voice data is "Kim Mi-young" as a person to register and corresponding telephone number data required for registering the telephone number. "02-405 -9956 ".
본 발명의 에이전트를 이용한 대화 방식 인터페이스 운영 시스템은 이동 통신 단말기내에 포함되어 대화 방식 사용자 인터페이스를 지원하는 클라이언트 에이전트(100, CLIENT AGENT; CA)와, 상기 이동 통신 단말기와 무선 접속된 서버 내에 포함되어, 상기 CA(100)를 지원하는 서버 에이전트(200, SERVER AGENT; SA)를 포함하여 구성된다.The interactive interface operating system using the agent of the present invention is included in a client agent (100, CLIENT AGENT; CA) included in a mobile communication terminal and supporting an interactive user interface, and included in a server wirelessly connected to the mobile communication terminal, It is configured to include a server agent (200, SERVER AGENT; SA) for supporting the CA (100).
도 1를 참조하면 상기 CA(100)는 데이터 입출력 및 전반적인 기능을 제어하는 클라이언트 에이전트 매니저(110, CLIENT AGENT MANAGER ; CA 매니저)와 사용자로부터 입력받는 음성 신호를 인식 처리하여 결과 신호를 출력하는 소용량 음성 인식 엔진(120)과 음성 명령어에 해당하는 서비스를 지원하는 응용 서비스 모듈/CA(130)과 상기 애니메이션 캐릭터를 출력해주는 캐릭터 구동기(140)와 인터페이스 운영에 필요한 정보를 저장하는 DB/CA(150)를 포함하여 구성된다.Referring to FIG. 1, the CA 100 recognizes and processes a voice signal received from a client agent manager 110 and a user agent that controls data input / output and overall functions, and outputs a resultant voice. An application service module / CA 130 for supporting a service corresponding to a recognition engine 120 and a voice command, a character driver 140 for outputting the animation character, and a DB / CA 150 for storing information necessary for operating an interface. It is configured to include.
도 2를 참조하면, 상기 SA(200)는 데이터 입출력 및 전반적인 기능을 제어하는 서버 에이전트 메이저(210, SERVER AGENT MANAGER; SA 매니저)와 상기 CA 매니저(110)로부터 전송받은 음성 신호를 인식 처리하는 대용량 음성 인식 엔진(220)과 음성 신호를 생성하는 대용량 음성 합성 엔진(240)과 음성 명령어에 해당하는 서비스를 지원하는 응용 서비스 모듈/SA(250)과 상기 애니메이션 캐릭터를 생성하는 캐릭터 생성기(270)와 상기 캐릭터 생성기에 의해 제작된 캐릭터를 저장하는 DB/SA(280)를 포함하여 구성된다.Referring to FIG. 2, the SA 200 recognizes and processes a server agent major 210 (SERVER AGENT MANAGER; SA manager) that controls data input / output and overall functions and a voice signal received from the CA manager 110. A speech recognition engine 220, a large-capacity speech synthesis engine 240 for generating a voice signal, an application service module / SA 250 for supporting a service corresponding to a voice command, and a character generator 270 for generating the animated character; It is configured to include a DB / SA 280 for storing the character produced by the character generator.
상기 CA 매니저(110)는 상기 사용자의 대화 방식 인터페이스 모드 요청에 따라 구동되며, 이 후 에이전트를 이용한 대화 방식 인터페이스 운영 방법 설명시 상세한 동작 설명을 하기로 한다.The CA manager 110 is driven according to the user's interactive interface mode request, and then the detailed operation will be described when explaining the method of operating the interactive interface using the agent.
상기 소용량 음성 인식 엔진(120)은 음성 인식 알고리즘을 내장하여 간단한 고정 명령어 수준의 음성 인식을 수행한다.The small-capacity speech recognition engine 120 incorporates a speech recognition algorithm to perform simple speech recognition at a fixed command level.
상기 소용량 음성 인식 엔진(120)은 CA 매니저(110) 또는 응용 서비스 모듈/CA(130)로부터 음성 신호 인식 처리 요구를 받아 음성 패턴을 추출한 후, 상기 추출된 음성 패턴이 DB/CA(150)에 등록된 음성 패턴과 일치하는 항목이 있을 경우 해당하는 명령어를 텍스트 형태로 변환하여 상기 CA 매니저(110) 또는 응용 서비스 모듈/CA(130)에 전송한다.The small-capacity speech recognition engine 120 receives a speech signal recognition processing request from the CA manager 110 or the application service module / CA 130, extracts the speech pattern, and then extracts the speech pattern to the DB / CA 150. If there is an item that matches the registered voice pattern, the corresponding command is converted into a text form and transmitted to the CA manager 110 or the application service module / CA 130.
상기 응용 서비스 모듈/CA(130)은 사용자로부터 입력받은 음성 명령어에 대응하는 서비스를 지원하는 하나 이상의 모듈이다.The application service module / CA 130 is one or more modules supporting a service corresponding to a voice command received from a user.
상기 응용 서비스 모듈/CA(130)은 전화 번호 등록, 음성 다이얼링, 스케줄 등록, 문자 메시지 전송, 전자 우편 전송, 인터넷 검색, 생활 정보 서비스 등 다양한 기능을 수행한다.The application service module / CA 130 performs various functions such as telephone number registration, voice dialing, schedule registration, text message transmission, e-mail transmission, Internet search, and life information service.
따라서, 필요에 따라 상기 응용 서비스 모듈/CA(130)이 추가 또는 삭제될 수 있다.Therefore, the application service module / CA 130 may be added or deleted as necessary.
또한 상기 응용 서비스 모듈/CA(130)은 응용 서비스를 처리하면서, 그에 적절한 애니메이션 캐릭터 서비스를 캐릭터 구동기(140)에 요청하고, 사용자로부터 입력받은 음성 데이터를 처리한다.In addition, the application service module / CA 130 processes the application service, requests the character driver 140 for the appropriate animation character service, and processes the voice data received from the user.
상기 캐릭터 구동기(140)는 CA 매니저(110) 또는 응용 서비스 모듈/CA(130)로부터 수신된 캐릭터 애니메이션 서비스 요구를 처리한다.The character driver 140 processes the character animation service request received from the CA manager 110 or the application service module / CA 130.
상기 캐릭터 구동기(140)는 상기 요구 사항에 반응한 동적 애니메니션 캐릭터가 상기 디스플레이 수단에 디스플레이되면서 그에 해당하는 합성음이 상기 이동 통신 단말기에 장착된 스피커에 출력되도록 처리한다.The character driver 140 processes a dynamic animation character in response to the requirement to be displayed on the display means and outputs a corresponding synthesized sound to a speaker mounted in the mobile communication terminal.
즉, 상기 애니메이션 캐릭터가 말을 하면서, 특정 액션을 취하여 마치 사용자가 애니메이션 캐릭터와 대화하는 것과 같은 다양한 서비스를 이용할 수 있게 된다.That is, while the animation character speaks, it is possible to use a variety of services such as taking a specific action as if the user is talking to the animation character.
상기 DB/CA(150)는 복수의 명령어 정보, 복수의 전화 번호 정보, 복수의 스케줄 정보, 복수의 이메일 주소 정보, 복수의 캐릭터 정보 등을 포함하고 있으며, 상기 정보들은 각각 명령어 DB와 전화 번호부 DB와 스케줄 DB와 이메일 주소 DB와 캐릭터 DB 등과 같이 별도의 세부 DB로 나누어질 수도 있다.The DB / CA 150 includes a plurality of command information, a plurality of phone number information, a plurality of schedule information, a plurality of email address information, a plurality of character information, and the like, and the information includes a command DB and a phone book DB, respectively. And it can be divided into separate DB such as schedule DB, email address DB and character DB.
상기 명령어 DB는 음성 명령어의 음성 패턴과 대응하는 명령어를 텍스트 형태로 저장한다.The command DB stores a command corresponding to the voice pattern of the voice command in text form.
상기 전화 번호부 DB는 사용자명을 인덱스로 하여 전화 번호 정보를 저장한다.The telephone directory DB stores telephone number information using the user name as an index.
상기 스케줄 DB는 일시를 인덱스로 하여 스케줄 내용을 저장한다.The schedule DB stores schedule contents using the date and time as an index.
상기 이메일 주소 DB는 사용자명을 인덱스로 하여 이메일 주소를 저장한다.The email address DB stores the email address using the user name as an index.
상기 캐릭터 DB는 이동 통신 단말기에서 사용되는 기본 캐릭터 및 애니메이션의 압축된 이미지를 저장한다.The character DB stores a compressed image of the basic character and animation used in the mobile communication terminal.
상기 SA 매니저(210)는 CA(110)의 서비스 요구를 수신받아, 그에 해당하는 결과 신호를 출력하고 상기 CA(110)에 재전송을 지원한다.The SA manager 210 receives the service request from the CA 110, outputs a result signal corresponding thereto, and supports retransmission to the CA 110.
이때 상기 CA 매니저(110)로부터 SA 매니저(210)로 전송되는 음성 신호가 음성 명령어일 수도 있고, 음성 데이터일 수도 있다.In this case, the voice signal transmitted from the CA manager 110 to the SA manager 210 may be a voice command or voice data.
만약 상기 CA 매니저(110)로부터 전송되는 상기 음성 신호가 음성 명령어라면, 상기 SA 매니저(210)는 상기 음성명령어를 대용량 음성 인식 엔진(220)으로 전송하여 인식 처리를 요청한다.If the voice signal transmitted from the CA manager 110 is a voice command, the SA manager 210 transmits the voice command to the large-capacity voice recognition engine 220 and requests recognition processing.
상기 SA 매니저(210)는 상기 요청에 따라 상기 대용량 음성 인식 엔진(220)으로부터 인식 처리 결과를 상기 텍스트 형태로 전송받고, 상기 텍스트 형태의 인식 처리 결과를 상기 의미 해석기(260)로 전송한다.The SA manager 210 receives the recognition processing result in the text form from the mass speech recognition engine 220 and transmits the recognition processing result in the text form to the semantic interpreter 260 according to the request.
상기 SA 매니저(210)는 상기 의미 해석기(260)로부터 출력되는 상기 다양한 인식 처리 결과를 이용하여 추출된 명령어의 의미를 전송받게 되고, 전송받은 명령어의 의미를 상기 CA 매니저(110)로 전송한다.The SA manager 210 receives the meaning of the extracted command using the various recognition processing results output from the semantic interpreter 260, and transmits the meaning of the received command to the CA manager 110.
상기 CA 매니저(110)로부터 전송되는 음성 신호가 음성 데이터인 경우에는, 상기 SA 매니저(210)는 상기 음성 데이터를 수신하여 해당 응용 서비스 모듈/SA(250)에 전송하고, 그 처리 결과를 텍스트 형태로 전송받아 CA 매니저(110)에 전송한다.When the voice signal transmitted from the CA manager 110 is voice data, the SA manager 210 receives the voice data and transmits the voice data to the corresponding application service module / SA 250 and transmits the processing result in text form. Received to transmit to the CA manager 110.
상기 대용량 음성 인식 엔진(220)은 대용량의 어휘 인식 알고리즘을 내장하여 음소 기반으로 음성 신호를 인식하고, 상기 음성 신호를 문자로 변환하여 출력해준다.The large-capacity speech recognition engine 220 incorporates a large-capacity lexical recognition algorithm to recognize a speech signal based on a phoneme, convert the speech signal into a text, and output the text.
소용량의 음성 인식 엔진(120)이 고정된 몇 가지 음성 명령어를 저장하여 상기 저장된 음성 명령어에 해당하는 명령어만 인식하므로, 상기 사용자가 명령어를 외우고 있어야 하는 화자 종속 인식 기반인데 비해, 상기 대용량 음성 인식 엔진(240)은 다양한 언어를 인식하여 추출해내는 화자 독립 인식 기반이다.Since the small voice recognition engine 120 stores some fixed voice commands and recognizes only the commands corresponding to the stored voice commands, the large voice recognition engine is based on speaker-dependent recognition in which the user should memorize the commands. 240 is a speaker independent recognition base that recognizes and extracts various languages.
상기 제 1 시스템에 서버 에이전트를 포함시켜 상기 제 2 시스템을 구현한 이유는 다음과 같다.The reason for implementing the second system by including a server agent in the first system is as follows.
상기 대용량 음성 인식 엔진의 부피가 커서 현재의 기술로는 이동 통신 단말기만으로 화자 독립 기반의 인터페이스를 제공할 수가 없다.Due to the large volume of the large-capacity speech recognition engine, current technology cannot provide a speaker-independent interface using only a mobile communication terminal.
따라서, 상기 소용량 음성 인식 엔진의 사용으로 화자 종속 기반인 이동 통신 단말기에서의 인터페이스를 상기 서버에 포함된 대용량 음성 인식 엔진이 지원하여 화자 독립 기반으로 전환시킬 수가 있다.Therefore, by using the small-capacity speech recognition engine, the large-capacity speech recognition engine included in the server can convert the interface in the speaker-dependent base to the speaker-independent basis.
그러나, 향후 음성 인식 엔진의 소형화로 상기 이동 통신 단말기만으로 화자 독립 인터페이스 기반을 제공할 수 있으므로, 상기 제 1 시스템도 권리 범위로 제시함을 밝혀둔다.However, in the future, the miniaturization of the speech recognition engine may provide a speaker-independent interface basis using only the mobile communication terminal, so that the first system is also presented as a range of rights.
상기 대용량 음성 합성 엔진(240)은 대용량 음성 합성 알고리즘을 내장하여상기 응용 서비스 모듈/SA(250)로부터 텍스트를 입력받아, 그 텍스트를 합성음으로 생성하여 상기 응용 서비스 모듈/SA(250)에 재 전송한다.The large-capacity speech synthesis engine 240 incorporates a large-capacity speech synthesis algorithm, receives text from the application service module / SA 250, generates the text as a synthesized sound, and retransmits the text to the application service module / SA 250. do.
상기 의미 해석기(260)는 동일 의미를 갖는 다양한 유형의 음성 명령어를 분석하여 사용자가 의도하는 명령어를 추출해낸다.The meaning interpreter 260 extracts a command intended by a user by analyzing various types of voice commands having the same meaning.
상기 응용 서비스 모듈/SA(250)은 각 음성 명령어에 대응하는 서비스를 실제로 처리하는 모듈이다.The application service module / SA 250 is a module that actually processes a service corresponding to each voice command.
상기 응용 서비스 모듈/SA(250)은 이동 통신 단말기에서 제공될 프롬프트 메시지를 상기 대용량 음성 합성 엔진(240)을 이용하여 생성하고, 상기 이동 통신 단말기에 전송한다.The application service module / SA 250 generates a prompt message to be provided in the mobile communication terminal using the mass speech synthesis engine 240 and transmits the prompt message to the mobile communication terminal.
상기 캐릭터 생성기(270)는 이동 통신 에이전트 서비스용 캐릭터 및 애니메이션 제작 툴(Tool)을 내장하고 있다.The character generator 270 includes a character and animation production tool for mobile communication agent service.
제작된 이미지는 압축된 형태로 주로 서비스 제공업자가 제작하여 DB/SA(280)에 저장한다.The produced image is mainly compressed by the service provider and stored in the DB / SA 280 in a compressed form.
이때, 개인 사용자들도 인터넷을 통하여 개인용 캐릭터를 제작하여 이용할 수도 있다.In this case, individual users may also make and use personal characters through the Internet.
상기 DB/SA(280)는 상기 캐릭터 생성기에 의해 제작된 캐릭터 및 이동 통신 단말기 사용자 정보를 저장하는 마스터 DB이다.The DB / SA 280 is a master DB that stores the character produced by the character generator and mobile communication terminal user information.
그리고, 상기 SA(200)은 상기 SA에 저장되어 있는 사용자 정보를 검색하여 개인 정보 또는 기념일에 해당하는 특정 애니메니션 캐릭터 또는 합성음 데이터를 상기 CA(100)에 전송할 수도 있다.The SA 200 may search for user information stored in the SA and transmit specific animation character or synthesized sound data corresponding to personal information or an anniversary date to the CA 100.
도 2는 본 발명의 에이전트를 이용한 대화 방식의 인터페이스 운영 방법을 설명하는 순서도이다.2 is a flowchart illustrating a method of operating an interactive interface using an agent of the present invention.
도 2를 참조하면, 본 발명은 사용자가 입력한 음성 명령어를 인식 처리하여 그 결과 신호를 출력하는 한편, 상기 음성 명령어 인식 처리 진행 상태 및 완료 상태를 동적으로 표현하는 애니메이션 캐릭터를 디스플레이 수단에 출력하거나 그에 해당하는 합성음을 스피커에 출력하는 제 1 단계(S300~ S330);Referring to FIG. 2, the present invention recognizes a voice command input by a user and outputs a signal as a result, while outputting an animation character that dynamically expresses the voice command recognition processing progress state and completion state to a display means. A first step (S300 ˜ S330) of outputting the synthesized sound corresponding to the speaker;
상기 인식 처리 결과에 해당하는 서비스 기능이 수행되는 동안, 상기 서비스 기능 제공 상태를 동적으로 표현하는 애니메이션 캐릭터를 상기 디스플레이 수단에 출력하거나 그에 해당하는 합성음을 스피커에 출력하는 제 2단계(S340~S420)를 포함하여 구성된다.A second step (S340 ˜ S420) of outputting an animation character dynamically expressing the service function provision state to the display means or a synthesized sound corresponding thereto while the service function corresponding to the recognition processing result is performed; It is configured to include.
본 발명의 에이전트를 이용한 대화 방식의 인터페이스 운영 방법은 이해를 도모하기 위해 상기 이동 통신 수단을 휴대폰으로, 스케줄 등록 서비스 지원 과정에서의 실시 예를 첨부하여 설명하기로 한다.In order to understand the interactive interface operating method using the agent of the present invention, the mobile communication means will be described with reference to an embodiment in a process of supporting a schedule registration service.
상기 실시 예를 설명함에 있어서, 상기 캐릭터 구동기에 의해 '특정한 동적 애니메이션 캐릭터가 상기 디스플레이 수단에 디스플레이되고 그에 해당하는 합성음이 스피커에 출력된다'라는 내용을, 설명을 명료하게 하기 위해 'xx말을 하고, xx액션을 취하는 애니메이션 캐릭터'로 기재하기로 한다.In describing the above embodiment, 'xx' is spoken for clarity by the character driver that 'a specific dynamic animation character is displayed on the display means and a corresponding synthesized sound is output to the speaker'. , xx action animated character.
상기 사용자로부터 대화 방식의 인터페이스 모드 요청에 따라 상기 CA 매니저(110)가 구동되면, 상기 CA 매니저(110)는 상기 캐릭터 구동기(140)로 동적 애니메이션 캐릭터 출력 요청 신호를 출력한다.When the CA manager 110 is driven according to an interactive interface mode request from the user, the CA manager 110 outputs a dynamic animation character output request signal to the character driver 140.
그러면, 상기 캐릭터 구동기(140)는 CA 매니저(110)의 요청 신호에 반응해서 인사 애니메이션 캐릭터 및 음성 명령어 입력 프롬프트를 제공(S300)한다.Then, the character driver 140 provides a greeting animation character and a voice command input prompt in response to the request signal from the CA manager 110 (S300).
예를 들어, '안녕하십니까? 무엇을 도와드릴까요?"라고 말하면서 인사하는 액션을 취한 후, 청취하는 액션으로 바뀌는 애니메이션 캐릭터를 출력한다.For example, 'Hello? What can I do for you? "And you take an action to greet and output an animated character that turns into the action you are listening to.
상기 CA 매니저(110)는 사용자로부터 음성 명령어를 입력(S310)받으면, 상기 입력된 음성 명령어를 소용량 음성 인식 엔진(120)으로 전송하여 인식 처리되도록 하는 한편, 음성 명령어 인식 애니메이션이 제공되도록 지원(S320)한다.When the CA manager 110 receives a voice command from the user (S310), the CA manager 110 transmits the input voice command to the small voice recognition engine 120 to perform a recognition process, and provides a voice command recognition animation (S320). )do.
예를 들어, 상기 CA 매니저(110)는 상기 캐릭터 구동기(140)를 통해 상기 음성 명령어를 들었다는 액션을 취한 후, "잠시만 기다려 주세요"라는 말을 하면서 작업 중이라는 액션을 취하는 애니메이션 캐릭터가 출력되도록 지원한다.For example, the CA manager 110 takes an action that the voice command has been heard through the character driver 140, and then outputs an animation character that takes an action of working while saying “Please wait”. Support.
도면에는 도시되어 있지 않지만, 음성 명령어 인식 처리 과정을 좀 더 자세히 설명하기로 한다.Although not shown in the drawing, the voice command recognition process will be described in more detail.
상기 소용량 음성 인식 엔진(120)은 예를 들어 "스케줄을 등록 해줘"라는 음성 명령어를 상기 DB/CA(150)를 통해 검색하여 "스케줄 등록"이라는 텍스트를 검색해낼 경우, 상기 텍스트를 CA 매니저(110)에 전송한다.For example, when the small voice recognition engine 120 searches for the text "schedule registration" by searching for the voice command "register a schedule" through the DB / CA 150, the text is stored in the CA manager ( 110).
만약, 상기 소용량 음성 인식 엔진(120)이 상기 "스케줄을 등록 해줘"라는 명령어를 검색해내지 못할 경우, 상기 CA 매니저(110)는 상기 음성 명령어와 사용자 ID를 상기 SA 매니저(210)로 전송한다.If the small-capacity speech recognition engine 120 fails to search for the "register schedule" command, the CA manager 110 transmits the voice command and the user ID to the SA manager 210.
그러면, 상기 SA 매니저(210)는 상기 음성 명령어를 수신하여, 상기 대용량 음성 인식 엔진(220)으로 인식 처리 요청을 한다.Then, the SA manager 210 receives the voice command and makes a request for recognition processing to the large-capacity speech recognition engine 220.
상기 SA 매니저(210)는 대용량 인식 엔진(220)으로부터 인식 처리된 출력 결과인 "스케줄 등록"이라는 텍스트를 상기 CA 매니저(110)로 전송한다.The SA manager 210 transmits the text "schedule registration" to the CA manager 110, which is a result of recognition processing from the mass recognition engine 220.
그러면, 상기 CA 매니저(110)는 상기 소용량 음성 인식 엔진(120) 또는 SA 매니저(210)으로부터 텍스트를 수신받아, 상기 텍스트를 디스플레이 수단에 디스플레이(S330)한다.Then, the CA manager 110 receives the text from the small capacity speech recognition engine 120 or the SA manager 210, and displays the text on the display means (S330).
도면에는 도시되어 있지 않지만, 상기 CA 매니저(110)는 상기 음성 명령어에 해당하는 응용 서비스 모듈/CA(130)을 구동시킨다.Although not shown, the CA manager 110 drives the application service module / CA 130 corresponding to the voice command.
이 때, 상기 응용 서비스 모듈/CA(130)은 상기 음성 명령어에 해당하는 응용서비스가 음성 데이터를 필요로 하는 지를 판단(S340)한다.In this case, the application service module / CA 130 determines whether an application service corresponding to the voice command requires voice data (S340).
상기 음성 데이터가 요구될 경우, 상기 응용 서비스 모듈/CA(130)은 음성 데이터 요청 애니메이션 및 프롬프트가 제공되도록 지원(S350)한다.When the voice data is required, the application service module / CA 130 supports the voice data request animation and the prompt to be provided (S350).
예를 들어, 상기 응용 서비스 모듈/CA(130)은 상기 캐릭터 구동기(140)를 통해 "스케줄 날짜와 시간을 말씀해주세요"라는 말을 하면서 청취하는 액션을 취하는애니메이션 캐릭터가 출력되도록 지원한다.For example, the application service module / CA 130 supports an animation character that takes an action of listening while saying “tell me the schedule date and time” through the character driver 140.
상기 응용 서비스 모듈/CA(130)은 사용자로부터 예를 들어 "8월 8일 오후 2시"라는 음성 데이터를 입력(S360)받으면, 상기 음성 데이터를 소용량 음성 인식 엔진(120)으로 전송하여 음성 인식 처리 수행 및 음성 데이터 인식 애니메이션 캐릭터 애니메이션이 제공되도록 지원(S370)한다.When the application service module / CA 130 receives the voice data, for example, “2 pm on August 8” from the user (S360), the application service module / CA 130 transmits the voice data to the small capacity voice recognition engine 120 to recognize the voice. Processing and voice data recognition animation character animation support is provided (S370).
예를 들어, 상기 응용 서비스 모듈/CA(130)은 상기 캐릭터 구동기(140)를 통해 사용자의 음성 데이터를 알아들었다는 액션 후 처리중이라는 액션을 취하는 애니메이션 캐릭터가 출력되도록 지원한다.For example, the application service module / CA 130 supports an animation character that takes an action of processing after the action that the user's voice data is received through the character driver 140.
만약, 상기 소용량 음성 인식 엔진(120)이 상기 음성 데이터를 인식하지 못할 경우, 상기 CA 매니저(110)는 상기 소용량 음성 인식 엔진(120)에서 인식하지 못한 상기 음성 데이터를 SA(200)로 전송하고, 상기 SA(200)에 의해 음성 인식 처리 과정이 이루어져 그에 따른 애니메이션 캐릭터 및 텍스트가 추출되고, 상기 사용자에게 제공될 수 있도록 할 수도 있다.If the small capacity speech recognition engine 120 does not recognize the voice data, the CA manager 110 transmits the voice data not recognized by the small capacity speech recognition engine 120 to the SA 200. In addition, the voice recognition process may be performed by the SA 200, and thus, an animated character and text may be extracted and provided to the user.
상기 응용 서비스 모듈/CA(130)은 상기 음성 데이터 인식 결과가 디스플레이 수단에 디스플레이되도록 지원(S380)하고, 상기 S340의 과정으로 되돌아간다.The application service module / CA 130 supports the voice data recognition result to be displayed on the display means (S380) and returns to the process of S340.
상기 S340 의 판단 결과, 본 실시 예에 따르면, 스케줄 내용에 대한 음성 데이터가 필요하다고 판단되어질 수 있다.As a result of the determination of S340, according to the present embodiment, it may be determined that voice data regarding schedule contents is required.
상기 응용 서비스 모듈/CA(130)은 상기 캐릭터 구동기(140)를 통해 "스케줄 내용을 말씀해 주세요"라는 말을 하면서 청취하는 액션을 취하는 애니메이션 캐릭터가 출력되도록 지원하고, 상기 사용자로부터 예를 들어 "회의"라는 음성 데이터를 입력받아, 상기 S370에서 S380의 단계를 거친다.The application service module / CA 130 supports an output of an animation character that takes an action of listening while saying "tell me the schedule" through the character driver 140, and for example, "conference" from the user. Voice data is inputted, and the steps S370 to S380 are performed.
상기 S380의 단계 이후, 상기 S340의 단계를 다시 거친다.After the step S380, the process goes through the step S340 again.
상기 응용 서비스 모듈/CA(S130)은 본 실시 예에 경우에는 더 이상의 음성 데이터 입력이 필요하지 않다고 판단하지만, 다른 응용 서비스인 경우에는 서비스 수행에 필요한 음성 데이터가 모두 입력될 때까지 상기 S340에서 S380의 단계가 로테이션된다.In this embodiment, the application service module / CA (S130) determines that no further voice data input is required in the present embodiment. However, in the case of other application services, the application service module / CA (S130) does not need to input any voice data necessary to perform a service. The steps of are rotated.
상기 응용 서비스 모듈/CA(130)은 상기 입력된 음성 명령어 및 데이터로 서비스 실행 여부를 확인하는 애니메이션 및 프롬프트가 출력되도록 지원한다.The application service module / CA 130 supports an animation and a prompt confirming whether a service is executed using the input voice command and data.
예를 들어, 상기 캐릭터 구동기(140)를 통해 "입력된 스케줄을 등록할까요?"라고 말하고, 청취 액션을 취하는 애니메이션 캐릭터가 출력되도록 지원한다.For example, the character driver 140 may say, “Do you want to register the input schedule?” And support an animation character that takes a listening action.
상기 응용 서비스 모듈/CA(130)은 사용자로부터 실행 확인 음성 신호를 입력받았는지를 판단(S400)한다.The application service module / CA 130 determines whether an execution confirmation voice signal is input from the user (S400).
사용자로부터 상기 실행 확인 음성 신호가 입력되었음이 확인되면, 상기 응용 서비스 모듈/CA(130)은 실행 확인 음성 신호 인식 처리 수행 및 처리 중 애니메이션이 출력되도록 지원(S410)한다.When it is confirmed that the execution confirmation voice signal is input from the user, the application service module / CA 130 supports the execution confirmation voice signal recognition processing and outputs an animation during processing (S410).
예를 들어, 상기 캐릭터 구동기(140)를 통해 알아들었다는 액션을 취한 후, "등록중입니다"라고 말하면서 기록하는 액션을 취하는 애니메이션 캐릭터가 출력되도록 지원한다.For example, after taking an action that has been understood through the character driver 140, an animation character taking an action of recording while saying "is registering" is outputted.
그리고, 상기 응용 서비스 모듈/CA(130)은 상기 스케줄 등록 정보를 DB/CA(150)에 저장하고, 상기 캐릭터 구동기(140)를 통해 "등록이 완료되었습니다"라고 말하면서 사라지는 액션을 취하는 애니메이션 캐릭터가 출력되도록 지원(S420)한다.In addition, the application service module / CA 130 stores the schedule registration information in the DB / CA 150, and the animation character taking an action of disappearing while saying “registration completed” through the character driver 140 is present. It supports to be output (S420).
그러나, 상기 응용 서비스 모듈/CA(130)은 사용자로부터 거부하는 음성 명령어를 입력받으면, 도면에는 도시되어 있지 않지만 상기에서 입력받아 인식 처리된 음성 데이터를 상기 DB/CA(150)에서 삭제한다.However, when the application service module / CA 130 receives a voice command rejected from the user, the application service module / CA 130 deletes the received voice data received from the DB / CA 150 although not shown in the drawing.
그리고, 상기 응용 서비스 모듈/CA(130)은 상기 캐릭터 구동기(140)를 통해 알아들었다는 액션을 취한 후, "등록이 취소되었습니다"라고 말하면서 기록을 지우는 액션을 취하는 애니메이션 캐릭터가 출력되도록 지원한다.In addition, the application service module / CA 130 takes an action of acquiring it through the character driver 140 and supports an output of an animation character taking an action of erasing the recording while saying "registration canceled".
그리고, 도면에는 도시되어 있지 않지만, 상기 CA(100)는 상기 사용자의 개인 정보 또는 기념일에 해당하는 특정 애니메니션 캐릭터 또는 합성음 데이터를 전송받아 출력하도록 지원할 수도 있다.Although not shown in the drawing, the CA 100 may support to receive and output specific animation character or synthesized sound data corresponding to the personal information or the anniversary of the user.
이상의 본 발명은 상기에 기술된 실시예들에 의해 한정되지 않고, 당업자들에 의해 다양한 변형 및 변경을 가져올 수 있으며, 이는 첨부된 청구항에서 정의되는 본 발명의 취지와 범위에 포함된다.The present invention is not limited to the embodiments described above, and various modifications and changes can be made by those skilled in the art, which are included in the spirit and scope of the present invention as defined in the appended claims.
본 발명에 의하면, 다음과 같은 장점이 있다.According to the present invention, there are the following advantages.
첫째, 메뉴-버튼 방식에 익숙하지 않은 사용자의 경우에도 간단한 음성 명령어를 이용하여 원하는 서비스를 쉽게 그리고 빨리 접근할 수 있게 할 수 있다.First, even users who are not familiar with the menu-button method can easily and quickly access a desired service by using simple voice commands.
둘째, 데이터 입력을 음성으로 입력하고 그 내용을 자동으로 인식하여 문자로 변환함으로서 키를 누르는 번거로움과 문자입력시간을 단축시킬 수 있다.Second, by inputting the data input by voice and automatically recognizing the contents and converting the contents into text, the trouble of pressing a key and the text input time can be shortened.
셋째, 인간과 유사한 동적 캐릭터와의 상호작용을 지원함으로써 기계와의 상호작용에 따른 어색함과 두려움을 해소할 수 있다.Third, it can solve the awkwardness and fear of interaction with the machine by supporting the interaction with dynamic characters similar to humans.
넷째, 신체적으로 핸디캡이 있는 사람도 단말을 쉽게 이용 가능하게 한다.Fourth, the physically handicapped person can also easily use the terminal.
다섯째, 손을 사용하지 않고서도 휴대폰을 사용할 수 있게되어 자동차 운전 중에 발생할 수 있는 사고를 예방할 수 있다.Fifth, it is possible to use a mobile phone without using a hand can prevent accidents that can occur while driving a car.
Claims (21)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2000-0053847A KR100380829B1 (en) | 2000-09-09 | 2000-09-09 | System and method for managing conversation -type interface with agent and media for storing program source thereof |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2000-0053847A KR100380829B1 (en) | 2000-09-09 | 2000-09-09 | System and method for managing conversation -type interface with agent and media for storing program source thereof |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20020020585A KR20020020585A (en) | 2002-03-15 |
KR100380829B1 true KR100380829B1 (en) | 2003-04-18 |
Family
ID=19688510
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR10-2000-0053847A KR100380829B1 (en) | 2000-09-09 | 2000-09-09 | System and method for managing conversation -type interface with agent and media for storing program source thereof |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR100380829B1 (en) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20010000911A (en) * | 2000-10-27 | 2001-01-05 | 서의환 | How to serve game and information such as news, weather forecast, sports, commercial ad. which is downloaded character by mobile |
KR20030021826A (en) * | 2001-09-08 | 2003-03-15 | (주) 엘지텔레콤 | method for manufacturing service of character using network |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
KR20110059178A (en) * | 2009-11-27 | 2011-06-02 | 주식회사 인스프리트 | Avatar personal assistant service providing method and system |
CA2791277C (en) * | 2011-09-30 | 2019-01-15 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
WO2020111351A1 (en) * | 2018-11-30 | 2020-06-04 | 엘지전자 주식회사 | Vehicle control apparatus and vehicle control method |
US11438452B1 (en) | 2019-08-09 | 2022-09-06 | Apple Inc. | Propagating context information in a privacy preserving manner |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR19990084001A (en) * | 1999-09-06 | 1999-12-06 | 김영래 | Method for outputting the finger language by speech recognition for a deaf-mute |
-
2000
- 2000-09-09 KR KR10-2000-0053847A patent/KR100380829B1/en not_active IP Right Cessation
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR19990084001A (en) * | 1999-09-06 | 1999-12-06 | 김영래 | Method for outputting the finger language by speech recognition for a deaf-mute |
Also Published As
Publication number | Publication date |
---|---|
KR20020020585A (en) | 2002-03-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4651613B2 (en) | Voice activated message input method and apparatus using multimedia and text editor | |
CN101366075B (en) | The control center of voice controlled wireless communication device system | |
US9525767B2 (en) | System and method for answering a communication notification | |
US20090198497A1 (en) | Method and apparatus for speech synthesis of text message | |
US7421390B2 (en) | Method and system for voice control of software applications | |
CN100578614C (en) | Semantic object synchronous understanding implemented with speech application language tags | |
US6462616B1 (en) | Embedded phonetic support and TTS play button in a contacts database | |
KR20030044899A (en) | Method and apparatus for a voice controlled foreign language translation device | |
KR100365860B1 (en) | Method for transmitting message in mobile terminal | |
KR101149135B1 (en) | Method and apparatus for voice interactive messaging | |
CN1771716A (en) | Apparatus, system, and method for providing silently selectable audible communication | |
EP1851757A1 (en) | Selecting an order of elements for a speech synthesis | |
KR100380829B1 (en) | System and method for managing conversation -type interface with agent and media for storing program source thereof | |
KR100544810B1 (en) | Wireless portable terminal communication system | |
KR100826778B1 (en) | Browser-based wireless terminal for multi-modal, Browser-based multi-modal server and system for wireless terminal and its operation method | |
US20080126087A1 (en) | Method and systems for information retrieval during communication | |
WO2008118038A1 (en) | Message exchange method and devices for carrying out said method | |
KR20080054591A (en) | Call service method of mobile terminal | |
JP3714159B2 (en) | Browser-equipped device | |
JP2003218999A (en) | Mobile phone device with voice recognition function and control program therefor | |
JP2001350682A (en) | Internet connection mediating system by voice domain, mediating device, mediating method, and voice domain database generating method | |
US8379809B2 (en) | One-touch user voiced message | |
JP2001251429A (en) | Voice translation system using portable telephone and portable telephone | |
CN111274828A (en) | Language translation method, system, computer program and handheld terminal based on message leaving | |
JP2004134942A (en) | Mobile phone |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
PA0109 | Patent application |
Patent event code: PA01091R01D Comment text: Patent Application Patent event date: 20000909 |
|
PA0201 | Request for examination | ||
PG1501 | Laying open of application | ||
E902 | Notification of reason for refusal | ||
PE0902 | Notice of grounds for rejection |
Comment text: Notification of reason for refusal Patent event date: 20020528 Patent event code: PE09021S01D |
|
E701 | Decision to grant or registration of patent right | ||
PE0701 | Decision of registration |
Patent event code: PE07011S01D Comment text: Decision to Grant Registration Patent event date: 20030108 |
|
GRNT | Written decision to grant | ||
PR0701 | Registration of establishment |
Comment text: Registration of Establishment Patent event date: 20030407 Patent event code: PR07011E01D |
|
PR1002 | Payment of registration fee |
Payment date: 20030408 End annual number: 3 Start annual number: 1 |
|
PG1601 | Publication of registration | ||
PR1001 | Payment of annual fee |
Payment date: 20060410 Start annual number: 4 End annual number: 4 |
|
FPAY | Annual fee payment |
Payment date: 20070410 Year of fee payment: 5 |
|
PR1001 | Payment of annual fee |
Payment date: 20070410 Start annual number: 5 End annual number: 5 |
|
LAPS | Lapse due to unpaid annual fee | ||
PC1903 | Unpaid annual fee |