WO2002061729A1 - Method and system for audio interaction between human being and computer - Google Patents
Method and system for audio interaction between human being and computer Download PDFInfo
- Publication number
- WO2002061729A1 WO2002061729A1 PCT/JP2001/000628 JP0100628W WO02061729A1 WO 2002061729 A1 WO2002061729 A1 WO 2002061729A1 JP 0100628 W JP0100628 W JP 0100628W WO 02061729 A1 WO02061729 A1 WO 02061729A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- voice
- computer
- noise
- human
- response sentence
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
Definitions
- the present invention relates to a method and system for voice dialogue exchanged between a computer and a human, and more particularly to a computer which correctly recognizes a conversation sentence from a human and enables a natural dialogue between humans.
- the present invention relates to a voice interaction method and system.
- the computer provides information to the computer.
- the computer asks the patient to listen to the patient's symptoms and condition and fill out a sheet before the doctor's consultation. was there.
- the computer must correctly recognize and interpret the speech uttered by humans, that is, the conversational sentences, and create various programs for establishing conversations. We need to be able to cooperate properly.
- speech dialogue between computers and humans has been rapidly conducted in recent years, and there has been considerable research on theoretical aspects such as the theory of speech recognition and efforts to create artificial brains. Level.
- Adjustment techniques such as devising to recognize the noise even when there is ambient noise and noise, or normalization techniques. At present, there has not been enough research.
- a human speaks and a conversation sentence from the human is received by a voice input device such as a microphone connected to the computer.
- the computer interprets the input conversation and creates a response to it.
- This response sentence is output from a voice generator such as a speaker, and this output is also input to a voice input device such as a microphone connected to the computer.
- a voice generator such as a speaker
- this output is also input to a voice input device such as a microphone connected to the computer.
- the convenience evening is similar to a human conversation It will try to interpret this response and create a further response.
- Such an operation might confuse a program for operating a computer, and prevent proper dialogue.
- focusing on the environment in which the dialogue takes place the surroundings are not completely silent, and in many cases there is a considerable level of noise.
- a telephone as a device for holding a voice dialogue between humans, and the same problem on the transmitting side and the receiving side has been solved by various methods.
- a “noise canceling device” according to Japanese Patent Application Laid-Open No. 9-133177, an audio signal is input from a first microphone, while noise and an audio signal are input from a second microphone. Then, the noise / voice signal from the second microphone is inverted in phase and combined with the voice signal from the first microphone to obtain a reduced noise signal, which is input to the voice input of the device to be used.
- the noise and surrounding noise are reduced by synthesizing the signal obtained by inverting the phase of the audio signal with the audio output signal of the device and outputting the synthesized signal from the speaker.
- the present invention deals with human-to-human dialogue, even if it is applied to a voice dialogue between a computer and a human, the computer cannot interpret human conversational sentences.
- humans listen separately to the other party without being aware of their own conversations, recognize and interpret only what the other party has said, and create a response sentence taking into account their own past remarks.
- a computer if no adjustment is made to the audio signal obtained by the microphone, all of them are judged to be speech recognition targets, and the process of creating a response sentence is started. This confuses the program that runs the dialogue as described above.
- the noise canceller included in the audio input to the microphone plays an important role in accurately recognizing the conversation sentence by the combination, but the noise canceller invention in the telephone as described above is directly applied. Can not be used. That is, the method of always canceling noise as in the above-mentioned publication has a drawback that noise cannot be removed properly if the volume difference between the noise and the conversation becomes small. Therefore, attempts have been made to collect noise over a predetermined period and learn it to create a noise canceling signal.
- computers and humans There has not yet been developed how to specifically apply such an attempt to a method of voice dialogue between them, and there has been a demand for the development of such adjustment technology or normalization technology.
- An object of the present invention is to provide a voice interaction method and system capable of performing a natural and accurate dialogue between a computer and a human in response to the above demand. It is another object of the present invention to provide a speech dialogue method and system for surely canceling a response sentence from a computer and leaving only a human conversation sentence as an object of computer conversation recognition.
- Another object of the present invention is to provide a speech dialogue method and system that can be easily recognized by a computer, and thus enable accurate recognition of conversational sentences.
- a speech dialogue method comprising a step of canceling a sentence by a speech cancellation device and removing the sentence from a conversation recognition target by a computer.
- the response sentence canceling step sets a flag on the response sentence creation signal created by the computer and outputs the response sentence from the voice generating device. After that, the voice input to the voice input device after a predetermined time is canceled using the response sentence creation signal as a reference signal.
- the invention according to claim 3 is the voice interaction method according to claim 1 or 2, further comprising a step of removing noise from a voice received by the voice input device by a noise canceller device, and thereafter, a computer Thus, a response sentence to a conversation sentence from a human is created.
- the noise canceling step includes a noise in a time zone when the voice level is so low that it is clear that no speech is being made from a human or a computer, At other times, cancel the utterance And learning the accumulated noise for a predetermined period of time, and canceling the learned noise from the voice signal from the voice input device and removing it during the next utterance from a human.
- a second aspect of the present invention is a voice dialogue system between a computer and a human being, wherein the voice input device listens for a conversation between a computer and a human, and the output signal from the voice input device is Speech canceller that cancels the response to the response sent from the computer and removes it from the target of conversation recognition by the computer, and conversation recognition in the computer that interprets the conversation from a human and creates a response to it.
- the present invention provides a voice dialogue system including a response text creation unit and a voice generating device for outputting a response text from a computer.
- the voice canceling device flags the response sentence creation signal created by the computer, and sends the response sentence from the voice generating device.
- a clock that measures the time from when the voice input device receives the voice after outputting it, and when the time until the voice input device receives the voice after outputting the response from the voice generating device is less than the specified time, Canceller means for determining that the voice received by the voice input device is a response sentence created by the computer, and canceling the response sentence creation signal as a reference signal.
- the invention according to claim 7 is the voice dialogue system according to claim 5 or 6, further comprising a noise canceller device that removes noise from a voice received by the voice input device, whereby the computer includes a noise canceller device.
- the conversation sentence recognition / response sentence creation unit is characterized in that it receives only conversation sentences from humans that do not include noise as conversation recognition targets.
- the invention according to claim 8 is the method according to claim 7, wherein the noise canceller device is configured to perform noise during a time period when the voice level is low enough to make it clear that no speech is being made from a person or a computer, or In other time periods, the noise for which the utterance content has been canceled is accumulated for a predetermined period of time for learning, and during the next utterance from a human, the learned noise is canceled and removed from the voice signal from the voice input device. Noise learning / noise removing means.
- FIG. 1 is a flowchart of one embodiment for explaining what kind of dialog between a computer and a human is applied to a voice dialog method according to the present invention.
- FIG. 2 is a block diagram showing one embodiment of a system for performing any kind of dialogue with a human shown in FIG.
- FIG. 3 is a flowchart of another embodiment of a dialog between a computer and a human.
- Fig. 4 shows an example of dialogue when a computer provides travel guidance to a human.
- FIG. 5 is a block diagram showing an embodiment of the host computer 9 of the system for executing the dialog shown in FIG.
- Figure 6 is a table showing a conventional relational database.
- FIG. 5 is a flowchart showing a flow of one embodiment of a voice dialogue method between a computer and a person according to the present invention.
- FIG. 8 is a flowchart showing a flow of a method for canceling a response sentence signal by the voice canceling device employed in FIG.
- 9 (A) and 9 (B) are a schematic configuration diagram of an embodiment of a voice dialogue system between a computer and a human according to the present invention, and a block diagram of a configuration in a computer 30, respectively. Confuse.
- FIG. 10 is a schematic diagram for explaining the operation in the voice interaction system between the computer and the human shown in FIG.
- step 1 a database and a program are recorded (step 1), and voice input is performed. If there is, it is word-decomposed 'After analyzing the sentence, it is determined whether or not the information item exists (step 2), and it is determined whether or not the information item necessary to identify the record is included in the input speech. If the answer is “No”, the required information items are asked to humans (Step 3), and if the answer is “Yes” to J1 or the information items necessary to identify the record by Step 3 are collected. In this case, the program proceeds according to the program (step 4).
- a computer interacts with humans using data stored in a relational database stored in memory.
- Fig. 6 is a table showing a conventional typical relational data rate data structure.
- S l to Sn are attributes serving as search keys, that is, schemes, and T l l to Tmn are tuples that are contents or values. Each line makes up one record. If the relational database is for travel, the schemes sl to Sn may be, for example,
- Each record describes the sample for these schemas.
- Each record includes, for example, “Hawaii”, “Thai packet”, “Helsinki in Finland”, “Kyoto”, “Aomori in Mutsu”, “Okibashi”, “English”, etc. Key information is recorded.
- the memory also specifies the dialogue sequence that defines the order in which each scheme should be put on the topic in dialogue with humans, the wording when each scheme becomes a topic, its deformation, etc.
- the program is also recorded.
- the computer's CPU can Call a program to perform the dialogue according to the program.
- the dialogue sequence begins with a conversational sentence, such as "What's your business?"
- step 2 when a human utters a voice to the computer, the computer recognizes phonemes using a microphone phone, voice recognition software, and the like. For example, “I want to be happy.” Using a word dictionary, syntax dictionary, case dictionary, etc., these words are disassembled and sentence analysis is performed, and then “I want to go to Hawaii.” And “I want to see the aurora.”
- a value corresponding to each scheme (herein, referred to as an “information item”) exists in the speech input obtained by the word disassembly-sentence analysis in the decision J1.
- Many records are stored in the relational data base, and this is to determine which of the records the audio input requires. That is, if the input information does not include the information items required to identify the record, the user is asked in step 3 about the missing information items, and all the required information items are heard. This identifies one (or a few) records.
- the information item of the record in step 4 Using, the computer's CPU runs the program according to the dialog sequence. Typically, the dialogue sequence proceeds in a predetermined order using all of the records or information items corresponding to the appropriate scheme. In the illustrated embodiment, the missing information item recall process step 3 is skipped. — Ask the question by putting back the name of the song in the sentence.
- FIG. 2 one embodiment of a system for performing the dialog shown in FIG. 1 is shown.
- FIG. 2 shows an embodiment of a system for implementing a voice interaction method via an in-home network, but is not limited to this.
- a voice interaction method via an in-home network
- FIG. 2 shows an embodiment of a system for implementing a voice interaction method via an in-home network, but is not limited to this.
- humans and computers interact directly without going through the Internet.
- Such a topic dialogue system generally includes a voice input device 1 such as a microphone, a voice output device S3 such as a speaker and a headphone, a user terminal 5, and communication such as an Internet connection, an intranet, and a LAN. It comprises a line 7 and a host combination 9 for managing this system.
- the voice input device 1 converts a voice uttered by a human being as a user into a digital signal that can be processed by a computer.
- the sound output device 3 converts the sound into a sound based on a sound generation signal generated by the computer.
- the user terminal 5 can be connected to the Internet by various well-known personal computers.
- the processing result at the user terminal 5 is transmitted to the host computer 9 via the communication line 7, and the processing result at the host computer 9 can be received by the user terminal 5 via the communication line 7.
- the host computer 9 is provided with a memory 11 for recording various data and programs, and a CPU 13 for calling a program recorded in the memory and performing various controls.
- Memory 11 records a number of schemes, namely a relational data base 1 la consisting of schemas and tuples, and a program that defines the order in which each scheme is to be discussed in the topic.
- a dialogue sequence unit 1 lb, and a word recording unit 11 c for recording a program that defines wording when each scheme becomes a topic are provided.
- the CPU 13 includes an information item determination control means 13a for analyzing the input voice of the user by word decomposition and sentence analysis to determine whether or not there is an information item corresponding to each scheme, and a relational data processor.
- the information items required to identify the record being based are included in the input audio. ⁇
- a program progress control means 13c is provided for using the information item of the record to advance the program in accordance with the interactive sequence.
- FIG. 3 is a flowchart of another embodiment of a dialog between a computer and a human.
- FIG. 5 is a block diagram showing an embodiment of the host computer 9 of the system for performing the dialogue as shown in FIG.
- the dialog shown in Fig. 3 is different from the dialog shown in Fig. 1 in that the computer can identify and interact with scenes (topics) from human voices. The difference is that it is possible to insert a small biz-like dialogue that adds a little bit to the topic during the conversation.
- a database and a program are recorded (step 11), and then a human is asked for an index for identifying a scene (step 12).
- the type data base is specified, it is recorded in the cache memory (step 13), and if there is a voice input from the user, it is analyzed after word analysis and sentence analysis to determine the existence of the information item. (Step 14), and judge whether the information item necessary to identify the record is included in the input voice. If “No” for J11, the human is required to hear the information item (Step 15). ), And if the judgment J 11 is “Yes” or if the information items necessary to identify the record are obtained in step 15, the program proceeds (step 16), and the predetermined scan is performed.
- the program and / or tuple become a topic, the subroutine for small scenes is entered (step 17), and when the small scene subroutine is completed, the program returns to the original dialogue sequence and the remaining program is executed. (Step 18).
- a plurality of relational databases are recorded and stored in the memory of the convenience store, and each of them is provided with an index that can identify the scene (topic) that is being handled on the basis of the data from the others.
- the computer's memory also stores a relational database that defines small scenes associated with a given scheme and / or tuple.
- the relational data base that defines the small scene is It consists of a structural example (corresponding to a schema) consisting of multiple items and a content example (corresponding to a tuple), which is the contents of the structural example.
- a program that defines an interaction sequence and an item sequence, which is the order of making each scheme and item a topic, and a wording when each scheme and item becomes a topic is recorded. I have.
- Fig. 4 shows an example of dialogue when a computer provides travel guidance to a human.
- step 12 the computer first utters a question, such as “please do your business.”, Which is a question for inquiring an index for identifying a scene to which a conversation is directed to a human.
- a human responds, for example, "Looking for a summer vacation destination", the scene of "travel information” is specified according to the input index of "travel destination", “search”, and the like.
- search the user's response, for example,
- Negative words such as " ⁇ ) bad", "What is the subscript m not ⁇ , ⁇ r ⁇ ?”, "About ⁇ without a hotel and ⁇ 3 ⁇ 41 ⁇ .”
- the scene of “complaint” is specified.
- the scene (topic) can be identified by finding a word serving as an index included therein. It has features in points. That is, a specific one scene can be selected from a large number of scenes by finding a word serving as a predetermined index.
- step 13 the CPU calls the relational database of the scene (topic) of the travel guide specified by the index from the memory and records it in the cache memory so that it can be rewritten.
- the schema of the scene of travel is, for example, “Destination”, “Purpose”, “Days”, “Departure (time)”, “Number of people”, “Breakdown of companions”, “Budget”, “Designation of airline” , “Designation of hotel”, “room specifications”, “meal availability”, “option”, “passport”, “necessity of visa”, “payment method”, etc. Therefore, in the combination, in the essential information item presence / absence determining step (step 14), it is determined whether or not all the essential information items for identifying the record are present. Then, in a counseling mode that searches for a target record from a series of questions and answers, a dialogue for searching for a missing information item is started.
- the computer asked the question "Where do you want to go?" And the user answered “Is it UK or America?" From the answer to “Is it British or American?”, Combi U will detect that the user has not decided on the destination, and will transition to the advise mode to confirm this as soon as possible.
- the dialogue between humans based on the knowledge that the counseling mode and the advice mode appear alternately and develop the dialogue, this was applied for the first time to the dialogue between the viewer and human beings.
- the user's answer, “house line,” is used as an information item to recommend a piece of information.
- step 17 a transition is made to a small scene of “Singing and sleeping child price” using “family” as a keyword. Specifically, after asking about the composition and age of the family, they explained about the “paying for a bed with a child” and asked if they would be eligible. If the answer in the sixth line of the dialogue shown in Fig. 4 is, for example, "honeymoon", then it is possible to shift to the small scene using "honeymoon" as a keyword. For example, it is possible to take up a variety of topics such as pick-up and drop-off from the airport to the hotel by limousine, a special dinner in a private room, and a room at the front desk of the wedding reception.
- topics such as pick-up and drop-off from the airport to the hotel by limousine, a special dinner in a private room, and a room at the front desk of the wedding reception.
- the program proceeds according to the dialogue sequence using the information item of the record. Normally, it proceeds to confirm the entered schema to the user in order. In the present embodiment, the user has indicated that he will go on a 10-night, 10-day trip to Orlando, Florida. However, it may be difficult to determine whether or not the intention is confirmed after confirming all the conditions of this package trip in the event of a dispute at a later date. Therefore, "Destination”, “Days”, “Cost” It is preferable to clearly confirm the items that have been confirmed. For example, "destination"
- a dialogue with humans is conducted using a relational database consisting of a structural example consisting of a plurality of items and a content example that is the contents of the structural example.
- the order in which the items appear in the dialogue is determined by the item sequence.
- the items of family travel include "breakdown of family", “sex of child”, “age of child”, “whether or not to pay for bed-sharing child”, and "number of people". In the example above, "Please tell us about your family.”
- the illustrated preferred embodiment is characterized in that the structural case defining the sub-scene is a past interactive case.
- a small scene composed of a plurality of pieces of content information collected as described above can be recorded in a memory as an example of a dialog. Then, the next time the same small scene becomes a topic, control is performed so that the dialogue proceeds with the item sequence based on the dialogue example.
- control is performed so that the dialogue proceeds with the item sequence based on the dialogue example.
- Small scenes can be constructed in an infinite hierarchy. In other words, it can be constructed such that one small scene has a lower sub-scene, and that sub-scene has a lower sub-scene.
- the variety of conversations between the computer and humans is infinitely widespread, and the conventional technology that simply handles the prepared conversations is used. It can completely dispel the peculiar monotony of interacting with computers, which has been a criticism.
- the system of the present embodiment is the same as the Tobix dialogue system shown in FIG. 2 except for the configuration of the host computer 9, so that only different configurations will be described.
- the same reference numerals as those in FIG. 2 are used for the same components as those in FIG.
- the memory 11 of the host computer 9 contains a relational database 1 la in the evening, and a program that defines the order in which each scheme is to be placed in the topic. 1 lb, and a word recording unit 11 c that records a program that defines wording when each scheme becomes a topic.
- the relational data base section 11a is divided into sections llaa to llan so that a relational database of a large number of different scenes (topics) can be stored.
- each relational database is pre-selected and registered with one or more words that serve as an index that can be distinguished from others. Then, by finding the word, one relational data base is specified.
- Each relational database is the same as that in Fig. 2 in that it consists of a schema and a tuple.
- the memory 11 is also provided with one or more relational data bases 1 Id that define small scenes associated with a given scheme and / or tuple. If there are multiple relational data bases that specify small scenes, as in the data space section 11a, the relational data base section 11d should also be used for data processing.
- ⁇ Divided into L 1 dm.
- the relational data base that defines a small scene also consists of a structural example (equivalent to a schema) consisting of a plurality of items and a content example (equivalent to a tuple) that is the content of the structural example. In the relational data base that defines each small scene, it is also necessary to determine in advance which of the relational data bases that define the scene will be transferred to the small scene when it appears. is necessary.
- the memory 11 further records an item sequence, which is the order in which each item is made a topic, and an item sequence part 11 e and a program that records a program that defines wording when each item becomes a topic.
- a recording unit 11 f is provided.
- the host computer 9 further includes, in addition to the memory 11, a cache memory 15 for calling the relational data space specified by the index and recording it in a rewritable manner 6
- the CPU 13 is provided with information item presence / absence control means 13a, essential information item hearing control means 13b, and program progress control means 13c. Have been.
- the CPU 13 further includes an index query control means 13 d for inquiring an index for specifying which scene the dialog is about from the computer to a human, and a scene according to the input index.
- an index query control means 13 d for inquiring an index for specifying which scene the dialog is about from the computer to a human, and a scene according to the input index.
- a cache memory recording control means 13 e for calling the specified relational data base from the memory and rewritably recording it in the cache memory.
- the CPU 13 calls a relational database for defining a small scene, and as a subroutine, a subroutine progress control means for executing a program according to an item sequence. 13 f, and a return sequence control means 13 g for returning to the interactive sequence and proceeding with the remaining program when the item sequence is completed.
- the mandatory information item recall control means 13b asks for a question by putting the name of the scheme in a recall sentence, thereby recalling the missing key report item.
- the method of voice dialogue between a computer and a human generally includes a step of receiving a conversation sentence from a human by a voice input device such as a microphone (step 2). 1), a step in which the computer creates a response sentence in accordance with a program for performing the conversation (step 22), a step in which the response sentence is output from a sound generator such as a speaker (step 23), and a sound such as a microphone.
- Step 32 After setting the flag on the answer creation signal (step 31) and outputting the response sentence from the voice generator, the voice input to the voice input device after a predetermined time is canceled using the response sentence creation signal as a reference signal. (Step 32).
- the input signal is preferably a pure signal with little noise. Therefore, it is preferable to interpose a step (step 26) for removing noise from the audio signal received by the audio input device by the noise canceller device between step 21 and step 22.
- a step for removing noise from the audio signal received by the audio input device by the noise canceller device between step 21 and step 22.
- noise cancellation noise is removed from a voice signal input from a voice input device such as a microphone, so that only a voice signal corresponding to a conversation sentence from a human remains.
- the noise canceling step the noise is accumulated during a time period when the voice level is low enough that it is clear that no speech is being made from a human or a computer, or in other time periods, the noise canceling the utterance is accumulated for a predetermined period of time. Then, during the next utterance from a human, the learned noise is canceled and removed from the voice signal from the voice input device. As a result, even when the volume of the noise increases and the difference from the volume of the conversation sentence from a human decreases, the noise can be surely eliminated.
- the noise collection time required for noise cancellation is about 3 seconds.
- the voice dialogue system is a keyboardless keyboard having a microphone 31 for listening to a conversation between a computer and a human and a speed 32 for outputting a response sentence created by the computer. Includes 30 minutes.
- the computer 30 recognizes phonemes of the voice input from the microphone 31, analyzes the words / sentences and analyzes them as a conversational sentence, and the computer recognizes the voice signal from the microphone 31.
- a voice canceling device 3-4 that cancels the response to the created response sentence and removes it from the subject of conversation recognition by the computer, and
- a conversation sentence recognition / response sentence creation unit 35 that interprets these conversation sentences and creates a response sentence therefor.
- the voice canceling device 34 is a means for flagging the response sentence creation signal created by the viewer, and a voice after outputting the response sentence from the voice generating device.
- a clock 34b that measures the time until the input device receives the voice, and if the time until the voice input device receives the voice after outputting the response from the voice generation device is within the specified time, the voice The canceller means 34c which determines that the voice received by the input device is a response sentence created by the computer and cancels the response sentence creation signal as a reference signal.
- the noise canceller device 37 various types of devices including a conventionally known device can be adopted, whereby the conversational sentence recognition / response sentence creation unit 35 can use only noise-free conversational sentences from humans. As a conversation recognition target.
- the noise canceller device 37 cancels the noise in the time period when the sound level is low, that is, when no human or the computer is speaking, or in other time periods.
- the learned noise is accumulated for a predetermined time. Then, during the next utterance from a human, the learned noise is canceled and removed from the voice signal from the voice input device.
- the computer can correctly recognize the human utterance even if a human interrupts while outputting a response sentence from the evening. This has the effect of enabling word analysis and sentence analysis to create a response sentence.
- the conventional method has the disadvantage that if a human utters before the output of the computer, the computer will not be able to recognize the voice, or the program will be confused and the conversation will be impossible.
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
An audio interactive method for interface between human being and a computer comprises a step (21) of receiving human words from a voice input device which recognizes conversation between human being and a computer, a step (22) of interpreting the words of conversation and creating words of response by the computer, a step (23) of allowing a voice generator to produce words of response by the computer to human words, a step (24) of entering the words of response from the computer using the voice input device, and a step (25) of canceling the words of response from the computer by a voice cancellation device to remove them from what the computer should recognition.
Description
明細書 Specification
コンピュータと人間との間の音声対話方法及びシステム 技術 Method and system for voice interaction between computer and human
本発明は、 コンピュータと人間との間で交わされる音声対話方法及びシステムに係り、 特に、 コンピュータが人間の発した会話文を正しく認識し人間同士が行っているような 自然な対話を可能ならしめる音声対話方法及びシステムに関する。 The present invention relates to a method and system for voice dialogue exchanged between a computer and a human, and more particularly to a computer which correctly recognizes a conversation sentence from a human and enables a natural dialogue between humans. The present invention relates to a voice interaction method and system.
抟術の皆景 All views of art
近年、 コンピュータによる音声認識技術が発達し、 音声によってコンピュータと人間 とが対話を行う環境が整いつつある。 音声が人間のもっとも自然な入出力手段であるこ とから、 人間同士の会話のように、 コンピュータに蓄積された情報を用いてコンビユー 夕と人間とが対話を行えるようにさせる試みや研究が盛んに行われる。 例えば、 コンビ ユー夕に蓄積されている情報の中から適切なものを検索して抽出し人間に情報を伝える もの、 あるいは、 メモリ内のデ一夕構造に合致するように質問 ·回答を定められた順序 で且つ不自然でない程度の速度で行わせるものがあった。 In recent years, computer-based speech recognition technology has been developed, and an environment in which computers and humans interact with each other by voice is being prepared. Since speech is the most natural means of input and output for human beings, many attempts and researches have been conducted to enable conversations between humans and humans using information stored in computers, such as conversations between humans. Done. For example, search and extract the appropriate information from the information stored in the combination, and transmit the information to humans, or set questions and answers to match the data structure in memory. Some were performed in the following order and at a speed that was not unnatural.
前者の例では、 インフォメーションの提供をコンピュータに行わせるものがあり、 後 者の例では、 患者の症状 ·状態を医師の診察に先立って聞き取り、 シートに記入すると いった作業をコンピュータに行わせるものがあった。 かかるコンピュータと人間との間 の音声対話をうまく機能させる前提として、 人間が発した音声、 すなわち、 会話文をコ ンピュー夕が正しく認識し、 解釈して、 会話を成り立たせるための種々のプログラムに 適切に連携できるようにしなければならない。 しかしながら、 コンピュータと人間との 間の音声対話に関する研究は、 近年、 急速に行われるようになったもので、 音声認識の 理論や人工頭脳を作成するための取り組み等理論的な側面の研究はかなりのレベルまで 行われてきている。 しかしながら、 人間の発した音声をコンピュータに正しく認識させ るためにどうしたら良いか、 周囲の騒音 ·ノイズがある場合にも正しく認識させるため の工夫といった調整技術、 あるいは、 正規化技術といったものについての研究は十分な されていないのが現状であった。 In the former example, the computer provides information to the computer.In the latter example, the computer asks the patient to listen to the patient's symptoms and condition and fill out a sheet before the doctor's consultation. was there. As a prerequisite for the speech dialogue between the computer and humans to function well, the computer must correctly recognize and interpret the speech uttered by humans, that is, the conversational sentences, and create various programs for establishing conversations. We need to be able to cooperate properly. However, research on speech dialogue between computers and humans has been rapidly conducted in recent years, and there has been considerable research on theoretical aspects such as the theory of speech recognition and efforts to create artificial brains. Level. However, what should be done to make the computer recognize human voices correctly? Adjustment techniques such as devising to recognize the noise even when there is ambient noise and noise, or normalization techniques. At present, there has not been enough research.
例えば、 コンピュータと人間との間の音声対話は、 人間が発話し、 この人間からの 会話文をコンピュー夕に接続されたマイク等の音声入力装置が受け取る。 コンピュータ は、 入力された会話文を解釈しそれに対する応答文を作成する。 この応答文は、 スピ一 力等の音声発生装置から出力するが、 この出力はコンピュータに接続されたマイク等の 音声入力装置にも入力される。 その結果、 コンビユー夕は、 人間からの会話文と同様に
この応答文を解釈し、 それに対するさらなる応答文を作成しょうとする。 かかる動作 は、 コンピュータを動作させるためのプログラムを混乱させ、 正しい対話ができなく なるようにしてしまう危惧があった。 また、 対話が行われる環境について着目すると、. 周囲が完全なる静寂ということは無く、 多くの場合、 かなりのレベルのノイズが存在す る。 空調の空気を送る音であるとか、 周囲の話し声とかいったものである。 また、 その ようなノイズも、 朝早い時間帯では小さいが時間を経るに従って大きくなるといった状 況がある。 従って、 コンピュータによる会話文の認識精度も午後になると極端に低くな る、 または、 認識不能となる欠点があった。 For example, in a voice dialogue between a computer and a human, a human speaks and a conversation sentence from the human is received by a voice input device such as a microphone connected to the computer. The computer interprets the input conversation and creates a response to it. This response sentence is output from a voice generator such as a speaker, and this output is also input to a voice input device such as a microphone connected to the computer. As a result, the convenience evening is similar to a human conversation It will try to interpret this response and create a further response. Such an operation might confuse a program for operating a computer, and prevent proper dialogue. Also, focusing on the environment in which the dialogue takes place, the surroundings are not completely silent, and in many cases there is a considerable level of noise. It is the sound of air sent from air conditioning or the voice of surrounding people. In addition, such noise is small in the early morning hours, but increases with time. Therefore, there was a disadvantage that the recognition accuracy of the conversation sentence by the computer became extremely low in the afternoon, or the recognition became impossible.
ところで、 人間同士の音声対話を取り持つ機器として電話があり、 送信側及び受信側 における同様の問題を種々の方法で解決してきている。 例えば、 特開平 9一 3 3 1 3 7 7号に係る 「ノイズキャンセル装置」 では、 第 1のマイクロフォンより音声信号を入力 し、 一方、 第 2のマイクロフォンより雑音、 音声信号を入力する。 そして、 第 2のマイ クロフオンからの雑音 ·音声信号を位相反転して第 1のマイクロフオンからの音声信号 と合成し、 雑音信号を低減させた信号とし、 使用する装置の音声入力へ入力する。 同時 に雑音、 音声信号を位相反転したものを前記装置の音声出力信号と合成しスピーカより 出力することにより周囲の雑音を低減させている。 By the way, there is a telephone as a device for holding a voice dialogue between humans, and the same problem on the transmitting side and the receiving side has been solved by various methods. For example, in a “noise canceling device” according to Japanese Patent Application Laid-Open No. 9-133177, an audio signal is input from a first microphone, while noise and an audio signal are input from a second microphone. Then, the noise / voice signal from the second microphone is inverted in phase and combined with the voice signal from the first microphone to obtain a reduced noise signal, which is input to the voice input of the device to be used. At the same time, the noise and surrounding noise are reduced by synthesizing the signal obtained by inverting the phase of the audio signal with the audio output signal of the device and outputting the synthesized signal from the speaker.
この発明は、 人間同士の対話を扱うものであることから、 そのままコンピュータと 人間との間の音声対話に応用しても、 コンピュー夕は人間の会話文の解釈を行うことが できない。 すなわち、 人間は相手と自分の会話を意識せずに分離して聞き取り、 相手の 言ったことのみを認識し、 解釈し、 自分の過去の発言等を加味しながら応答文を作成す る。 それに対して、 コンピュータの場合、 マイクロフォンで入手した音声信号に何らか の調整を加えないと、 全て音声認識対象として判断し、 応答文の作成作業に入ってしま う。 これでは、 前述のように対話を実行させるためのプログラムを混乱させる。 Since the present invention deals with human-to-human dialogue, even if it is applied to a voice dialogue between a computer and a human, the computer cannot interpret human conversational sentences. In other words, humans listen separately to the other party without being aware of their own conversations, recognize and interpret only what the other party has said, and create a response sentence taking into account their own past remarks. On the other hand, in the case of a computer, if no adjustment is made to the audio signal obtained by the microphone, all of them are judged to be speech recognition targets, and the process of creating a response sentence is started. This confuses the program that runs the dialogue as described above.
さらに、 マイクロフオンに入った音声に含まれるノィズのキヤンセルは、 コンビユー 夕による会話文の正確な認識のために重要な役割を果たすものであるが、 前述したよう な電話機におけるノィズキヤンセルの発明をそのまま応用して利用することはできない。 すなわち、 前記公開公報のように、 常時ノイズをキャンセルする方法の場合には、 ノィ ズと会話文の音量差が小さくなるとノイズをうまく除去できなくなる欠点を有していた。 そこで、 ノイズを所定期間に渡って収集し、 それを学習することにより、 ノイズキャン セル信号を作成する試みも行われてきている。 しかしながら、 コンピュータと人間との
間の音声対話方法にそのような試みを具体的にどのように適用するかについては未だ 開発されておらず、 そのような調整技術又は正規化技術の開発が要望されていた。 本発明は、 前記要望に応えるもので、 コンピュータと人間との間で自然な且つ正確な 対話を行うことができる音声対話方法及びシステムを提供することを目的とする。 本発明は、 また、 コンピュータからの応答文を確実にキャンセルし、 人間の会話文の みがコンピュータの会話認識対象として残るようにする音声対話方法及びシステムを提 供することを目的とする。 In addition, the noise canceller included in the audio input to the microphone plays an important role in accurately recognizing the conversation sentence by the combination, but the noise canceller invention in the telephone as described above is directly applied. Can not be used. That is, the method of always canceling noise as in the above-mentioned publication has a drawback that noise cannot be removed properly if the volume difference between the noise and the conversation becomes small. Therefore, attempts have been made to collect noise over a predetermined period and learn it to create a noise canceling signal. However, between computers and humans There has not yet been developed how to specifically apply such an attempt to a method of voice dialogue between them, and there has been a demand for the development of such adjustment technology or normalization technology. An object of the present invention is to provide a voice interaction method and system capable of performing a natural and accurate dialogue between a computer and a human in response to the above demand. It is another object of the present invention to provide a speech dialogue method and system for surely canceling a response sentence from a computer and leaving only a human conversation sentence as an object of computer conversation recognition.
本発明は、 さらに、 コンピュータが認識し易く、 従って、 正確な会話文の認識が可能 となる音声対話方法及びシステムを提供することを目的とする。 Another object of the present invention is to provide a speech dialogue method and system that can be easily recognized by a computer, and thus enable accurate recognition of conversational sentences.
本発明は、 さらにまた、 学習機能による効果的ノイズキャンセルを可能とした音声対 話方法及びシステムを提供することを目的とする。 It is still another object of the present invention to provide a voice conversation method and system that enable effective noise cancellation by a learning function.
発明の開示 Disclosure of the invention
本発明の第一の態様は、 人間からの会話文をコンビュ一夕と人間との間の会話を聞き 取る音声入力装置から受信するステップと、 会話文を解釈しそれに対する応答文をコン ピュー夕により作成するステップと、 人間からの会話文に対するコンピュータからの応 答文を音声発生装置から出力するステップと、 音声入力装置によりコンピュータからの 応答文を入力す ¾ステップと、 そして、 コンピュータからの応答文を音声キャンセル装 置によりキャンセルしてコンピュ一夕による会話認識対象から除去するステヅプとを含 んで構成されてなる音声対話方法を提供する。 According to a first aspect of the present invention, there is provided a step of receiving a conversation sentence from a human from a voice input device for listening to a conversation between a computer and a human being, and interpreting the conversation sentence and outputting a response sentence to the computer. And a step of outputting a response sentence from a computer to a conversation sentence from a human from a voice generating device, a step of inputting a response sentence from a computer by a voice input device, and a response from the computer. A speech dialogue method comprising a step of canceling a sentence by a speech cancellation device and removing the sentence from a conversation recognition target by a computer.
請求項 2に記載の発明は、 請求項 1に記載の音声対話方法において、 応答文キャンセ ルステツプが、 コンピュータが作成した応答文作成信号にフラヅグをたてて、 当該応答 文を音声発生装置から出力した後、 所定時間後に音声入力装置に入力された音声を、 応 答文作成信号を基準信号としてキャンセルするものであることを特徴とする。 According to a second aspect of the present invention, in the voice interaction method according to the first aspect, the response sentence canceling step sets a flag on the response sentence creation signal created by the computer and outputs the response sentence from the voice generating device. After that, the voice input to the voice input device after a predetermined time is canceled using the response sentence creation signal as a reference signal.
請求項 3に記載の発明は、 請求項 1又は 2に記載の音声対話方法において、 さらに、 音声入力装置が受け取る音声からノイズキャンセラ装置によってノイズを除去するステ ヅプを備えており、 しかる後、 コンピュータにより人間からの会話文に対する応答文を 作成するようにしてなることを特徴とする。 The invention according to claim 3 is the voice interaction method according to claim 1 or 2, further comprising a step of removing noise from a voice received by the voice input device by a noise canceller device, and thereafter, a computer Thus, a response sentence to a conversation sentence from a human is created.
請求項 4に記載の発明は、 請求項 3に記載の音声対話方法において、 ノイズキャンセ ルステヅプが、 人間若しくはコンピュータからの発話中でないことが明らかな程音声レ ベルが低い時間帯におけるノイズ、 又は、 それ以外の時間帯は当該発話内容をキャンセ
ルしたノイズを所定時間蓄積して学習し、 次なる人間からの発話中に、 学習された当 該ノィズを音声入力装置からの音声信号からキャンセルして除去することを特徴とす る According to a fourth aspect of the present invention, in the voice interaction method according to the third aspect, the noise canceling step includes a noise in a time zone when the voice level is so low that it is clear that no speech is being made from a human or a computer, At other times, cancel the utterance And learning the accumulated noise for a predetermined period of time, and canceling the learned noise from the voice signal from the voice input device and removing it during the next utterance from a human.
本発明の第二の態様は、 コンピュータと人間との間の音声対話システムであって、 コ ンピュー夕と人間との間の会話を聞き取る音声入力装置と、 音声入力装置からの出力信 号の内、 コンピュータからの応答文に対応するものをキャンセルしてコンピュータによ る会話認識対象から除去する音声キヤンセル装置と、 人間からの会話文を解釈しそれに 対する応答文を作成するコンピュータ内の会話文認識/応答文作成ユニットと、 そして、 コンピュータからの応答文を出力する音声発生装置とを含んで構成されてなる音声対話 システムを提供する。 A second aspect of the present invention is a voice dialogue system between a computer and a human being, wherein the voice input device listens for a conversation between a computer and a human, and the output signal from the voice input device is Speech canceller that cancels the response to the response sent from the computer and removes it from the target of conversation recognition by the computer, and conversation recognition in the computer that interprets the conversation from a human and creates a response to it. The present invention provides a voice dialogue system including a response text creation unit and a voice generating device for outputting a response text from a computer.
請求項 6に記載の発明は、 請求項 5に記載の音声対話システムにおいて、 音声キャン セル装置が、 コンピュータが作成した応答文作成信号にフラッグをたてる手段と、 当該 応答文を音声発生装置から出力した後音声入力装置が音声を受け取るまでの時間を計測 するクロックと、 応答文を音声発生装置から出力した後音声入力装置が音声を受け取る までの時間が所定時間以内であった場合に、 当該音声入力装置が受け取った音声をコン ピュー夕が作成した応答文であると判定し応答文作成信号を基準信号としてキャンセル するキャンセラ手段とを含んで構成されてなることを特徴とする。 According to a sixth aspect of the present invention, in the voice dialogue system according to the fifth aspect, the voice canceling device flags the response sentence creation signal created by the computer, and sends the response sentence from the voice generating device. A clock that measures the time from when the voice input device receives the voice after outputting it, and when the time until the voice input device receives the voice after outputting the response from the voice generating device is less than the specified time, Canceller means for determining that the voice received by the voice input device is a response sentence created by the computer, and canceling the response sentence creation signal as a reference signal.
請求項 7に記載の発明は、 請求項 5又は 6に記載の音声対話システムにおいて、 さら に、 音声入力装置が受け取る音声からノィズを除去するノィズキヤンセラ装置を含んで おり、 それによつてコンピュータ内の前記会話文認識/応答文作成ュニヅトは、 ノィズ を含まない人間からの会話文のみを会話認識対象として受け取るようにしてなることを 特徴とする。 The invention according to claim 7 is the voice dialogue system according to claim 5 or 6, further comprising a noise canceller device that removes noise from a voice received by the voice input device, whereby the computer includes a noise canceller device. The conversation sentence recognition / response sentence creation unit is characterized in that it receives only conversation sentences from humans that do not include noise as conversation recognition targets.
請求項 8に記載の発明は、 請求項 7に記載の音声対話方法において、 ノィズキヤンセ ラ装置が、 人間若しくはコンピュータからの発話中でないことが明らかな程音声レベル が低い時間帯におけるノイズ、 又は、 それ以外の時間帯は当該発話内容をキャンセルし たノイズを所定時間蓄積して学習し、 次なる人間からの発話中に、 学習された当該ノィ ズを音声入力装置からの音声信号からキャンセルして除去するノィズ学習/ノィズ除去 手段を含んで構成されてなることを特徴とする。 The invention according to claim 8 is the method according to claim 7, wherein the noise canceller device is configured to perform noise during a time period when the voice level is low enough to make it clear that no speech is being made from a person or a computer, or In other time periods, the noise for which the utterance content has been canceled is accumulated for a predetermined period of time for learning, and during the next utterance from a human, the learned noise is canceled and removed from the voice signal from the voice input device. Noise learning / noise removing means.
本発明は、 以下に、 図示された好ましい実施形態に基づいて詳細に説明されるが、 図示されたものは単なる一例で、 本発明の範囲を限定するものではない。 本発明は、 添
付された請求の範囲に記載された発明の精神を逸脱することなく種々の修正 ·改変が 可能であることは留意されるべきである。 The invention will be described in more detail hereinafter with reference to preferred embodiments illustrated, which are merely examples and do not limit the scope of the invention. The present invention provides It should be noted that various modifications and alterations can be made without departing from the spirit of the invention described in the appended claims.
I 1而の簡単な説昍■ A simple theory of I
第 1図は、 本発明に係る音声対話方法がコンピュータと人間との間のどのような対話 に適用されるのかを説明するための一実施例のフローチャートである。 FIG. 1 is a flowchart of one embodiment for explaining what kind of dialog between a computer and a human is applied to a voice dialog method according to the present invention.
第 2図は、 第 1図に示された人間との間のどのような対話を実施するシステムの一実 施例を示したブロック図である。 FIG. 2 is a block diagram showing one embodiment of a system for performing any kind of dialogue with a human shown in FIG.
第 3図は、 コンピュータと人間との間の対話の他の実施例のフローチャートである。 第 4図は、 旅行案内をコンピュータが人間に対して行う場合の対話の一例を示したも のである。 FIG. 3 is a flowchart of another embodiment of a dialog between a computer and a human. Fig. 4 shows an example of dialogue when a computer provides travel guidance to a human.
第 5図は、 第 3図に示された対話を実施するシステムのホストコンピュー夕 9の一実 施例を示したブロック図である。 FIG. 5 is a block diagram showing an embodiment of the host computer 9 of the system for executing the dialog shown in FIG.
第 6図は、 従来のリレーショナル型データベースを示す表である。 Figure 6 is a table showing a conventional relational database.
第マ図は、 本発明に係るコンピュー夕と人間との間の音声対話方法の一実施例の流れ を示すフローチャートである。 FIG. 5 is a flowchart showing a flow of one embodiment of a voice dialogue method between a computer and a person according to the present invention.
第 8図は、 第 7図で採用されている音声キヤンセル装置による応答文信号のキヤンセ ル方法の流れを示すフローチャートである。 FIG. 8 is a flowchart showing a flow of a method for canceling a response sentence signal by the voice canceling device employed in FIG.
第 9図 (A) 及び (B) は、 それそれ、 本発明に係るコンピュータと人間との間の音 声対話システムの一実施例の概略構成図及びコンピュー夕 3 0内の構成のプロヅク図で める。 9 (A) and 9 (B) are a schematic configuration diagram of an embodiment of a voice dialogue system between a computer and a human according to the present invention, and a block diagram of a configuration in a computer 30, respectively. Confuse.
第 1 0図は、 第 9図に示されたコンピュータと人間との間の音声対話システムにおけ る動作を説明するための概略図である。 FIG. 10 is a schematic diagram for explaining the operation in the voice interaction system between the computer and the human shown in FIG.
発明を実施する めの暴良の形熊 Shameless bear for carrying out the invention
以下、 図面を参照して本発明に係る音声対話方法及びシステムを図示された実施例に 基づいて詳細に説明する。 Hereinafter, a voice interaction method and system according to the present invention will be described in detail with reference to the accompanying drawings.
初めに、 本発明に係る脊声対話方法及びシステムが、 具体的に、 コンピュータと人間 との間のどのような対話に適用されるのかを簡単に説明する。 本発明者らは、 発明の名 称「トピックス対話方法及びシステム」である国際出願 (PCT/JP00/06759) に開示され ているように、 未来のコンピュータと人間との間の自然で且つ知的な対話を実現させる ための開発を行った。 このトピックス対話方法及びシステムは、 前述した従来のインフ オメ一シヨンの提供をコンピュータに行わせるものや、 患者の症状 ·状態を医師の診察
に先立って聞き取り、 シートに記入するといつた作業を行うものに比較すると、 あた かもコンピュータが人工頭脳を持ち合わせているような錯覚を人間に与える程、 自然 で且つ知的な対話を可能とする。 本発明は、 従って、 将来開発されるであろうコンビュ 一夕と人間との間の対話についての発明 ·工夫を含みこれら全てのそのような対話に適 用されるものである。 First, the method and system of the spine dialogue according to the present invention will be briefly described specifically for what kind of dialogue between a computer and a human. As disclosed in the international application (PCT / JP00 / 06759), entitled "Topics Dialogue Method and System," the present inventors have proposed a natural and intelligent communication between the future computer and humans. Development for realizing an effective dialogue. This topic dialogue method and system can be used to provide the above-mentioned conventional information provision to a computer, or to examine the symptoms and condition of a patient by a doctor. Compared to what you do when you listen and fill out the sheet before you do the work, it makes natural and intellectual dialogue enough to give humans the illusion that a computer has an artificial brain . The present invention therefore applies to all such dialogues, including inventions and ingenuity in the dialogue between human beings and the convenience store that will be developed in the future.
前記国際出願によって達成される 「トピックス対話方法及びシステム」 の概略を理解 してもらうため、 その一部を以下引用する。 その全容については、 もちろん、 前記国際 出願に記載されているため、 参照されたい。 In order to gain an overview of the “topics dialogue method and system” achieved by the international application, a portion is cited below. The entire contents are, of course, described in the international application, so please refer to it.
第 1図に示されているように、 本発明に係る音声対話方法が適用されるコンピュータ と人間との間の対話においては、 先ず、 データベース及びプログラムを記録し(ステヅ プ 1 )、 音声入力があった場合それを単語分解 '文章解析した後、 情報アイテムの存否 を判断し(ステップ 2 )、 レコードを特定するために必要な情報アイテムが入力音声に含 まれているかの判断 J 1に対して、 「No」 の場合、 人間に必須情報アイテムの聞き出し を行い(ステップ 3 )、 そして、 判断 J 1に対して 「Yes」 の場合又はステップ 3により レコードを特定するために必要な情報アイテムが揃った場合、 プログラムに従って進行 する(ステップ 4 )ように構成されている。 As shown in FIG. 1, in a dialogue between a computer and a human to which the voice dialogue method according to the present invention is applied, first, a database and a program are recorded (step 1), and voice input is performed. If there is, it is word-decomposed 'After analyzing the sentence, it is determined whether or not the information item exists (step 2), and it is determined whether or not the information item necessary to identify the record is included in the input speech. If the answer is “No”, the required information items are asked to humans (Step 3), and if the answer is “Yes” to J1 or the information items necessary to identify the record by Step 3 are collected. In this case, the program proceeds according to the program (step 4).
図 1に示された態様においては、 コンピュータは、 メモリに記録されたリレ一ショナ ル型デ一夕ベースに蓄積されたデータを用いて人間と対話する。 第 6図は、 従来の典型 的なリレーショナル型デ一夕ペースのデ一夕構造を示した表である。 表中、 S l〜S n は、 検索キーとなる属性、 すなわち、 スキームであり、 T l l ~Tmnは、 その内容又 は値であるタツプルである。 各行は、 1つのレコードを構成する。 このリレーショナル 型デ—夕べ—スが旅行に関するものである場合、 前記スキーム s l〜S nは、 例えば、 In the embodiment shown in FIG. 1, a computer interacts with humans using data stored in a relational database stored in memory. Fig. 6 is a table showing a conventional typical relational data rate data structure. In the table, S l to Sn are attributes serving as search keys, that is, schemes, and T l l to Tmn are tuples that are contents or values. Each line makes up one record. If the relational database is for travel, the schemes sl to Sn may be, for example,
「行き先」 、 「目的」、 「日数」、 「出発日 (時) 」、 「人数」、 「価格」、 「航空会 社」 、 「ホテル」 、 「部屋の仕様」 、 「食事の有無」 、 「オプション」 、 「パスポー ト」 、 「ビザ」 、 「支払方法」等となる。 各レコードには、 これらスキーマに対する夕 ヅプルが記述される。 各レコードとしては、 例えば、 「ハワイ」 、 「タイのプ一ケッ ト」 、 「フィンランドのヘルシンキ」 、 「京都」 、 「陸奥の青森」 、 「沖縛」 、 「ィギ リス」等の行き先別のヅァー情報が記録される。 "Destination", "Purpose", "Days", "Departure date (hour)", "People", "Price", "Airline company", "Hotel", "Room specifications", "Eating / no meal", "Option", "Passport", "Visa", "Payment method", etc. Each record describes the sample for these schemas. Each record includes, for example, “Hawaii”, “Thai packet”, “Helsinki in Finland”, “Kyoto”, “Aomori in Mutsu”, “Okibashi”, “English”, etc. Key information is recorded.
メモリには、 また、 人間との対話で、 各スキームをどのような順序で話題に載せてい くかを定めた対話シーケンスや個々のスキームが話題となった時の言い回し、 その変形 等を規定するプログラムも記録されている。 コンピュータの C P Uは、 メモリからかか
るプログラムを呼び出して、 そのプログラムに従って対話を進める。 旅行の例では、 対話シーケンスは、 人間に対し要件を問い合わせる 「御用件をどうそ。 」等の会話文 で対話を開始する。 The memory also specifies the dialogue sequence that defines the order in which each scheme should be put on the topic in dialogue with humans, the wording when each scheme becomes a topic, its deformation, etc. The program is also recorded. The computer's CPU can Call a program to perform the dialogue according to the program. In the travel example, the dialogue sequence begins with a conversational sentence, such as "What's your business?"
ステップ 2では、 人間がコンピュータに対し音声を発すると、 コンピュータはマイク 口フォン、 音声認識ソフト等を駆使して音素認識する。 例えば、 「はわいにいきた い。 」、 「お一ろらがみたい。 」等である。 これを、 単語辞書、 構文辞書、 事例辞書等 を利用して、 単語分解し '文章解析して 「ハワイに行きたい。 」 、 「オーロラが見た い。 」 と正しく認識する。 In step 2, when a human utters a voice to the computer, the computer recognizes phonemes using a microphone phone, voice recognition software, and the like. For example, "I want to be happy." Using a word dictionary, syntax dictionary, case dictionary, etc., these words are disassembled and sentence analysis is performed, and then "I want to go to Hawaii." And "I want to see the aurora."
続けて、 各スキームに対応する値 (ここでは、 「情報アイテム」 と称する) が単語分 解-文章解析された音声入力中に存在するか否かを判断 J 1で判断する。 リレーショナ ル型デ一夕ベースには、 多数のレコードが蓄積されているが、 音声入力がその内のどの レコードを要求するものであるかを決定するためである。 すなわち、 レコードを特定す るために必要な情報アイテムが入力音声に含まれていない場合には、 ステップ 3により 欠けている情報アイテムについて利用者に聞き返し、 当該必須情報アイテムの全てを聞 き出す。 これにより、 一(又は少数) のレコードが特定される。 Subsequently, it is determined whether or not a value corresponding to each scheme (herein, referred to as an “information item”) exists in the speech input obtained by the word disassembly-sentence analysis in the decision J1. Many records are stored in the relational data base, and this is to determine which of the records the audio input requires. That is, if the input information does not include the information items required to identify the record, the user is asked in step 3 about the missing information items, and all the required information items are heard. This identifies one (or a few) records.
例えば、 旅行に関するリレーショナル型データベースには、 ハワイを行き先とするヅ ァ一情報が数十〜数百存在する。 これらの中から利用者の欲するレコードを選定するた めには、 さらなる情報アイテムが必要となる。 「目的」 、 「日数」、 「出発日」 等であ る。 プログラムには、 どのスキームのタヅプ^/がそのような'必須 アイテムとなるか が予め決められており、 単語分解 ·文章解析された音声入力中にそのようなレコードを 特定する情報アイテムが始から全て揃っているか否かが判断される。 For example, in a relational database relating to travel, there are tens to hundreds of pieces of information on destinations in Hawaii. In order to select the record desired by the user from these, further information items are required. "Purpose", "Days", "Departure date", etc. The program pre-determines which scheme type ^ / is such an 'indispensable item', and starts with an information item that identifies such a record during word disassembly / sentence-analyzed speech input. It is determined whether or not all items are present.
レコードを特定するために必要な情報アイテムが初めから入力音声に含まれている場 合、 あるいは、 前述のように利用者に聞き返しを行って揃えた場合、 ステップ 4におい て、 当該レコードの情報アイテムを用いて、 コンピュータの C P Uは対話シーケンスに 従ってプログラムを進行させる。 通常、 対話シーケンスでは、 当該レコードの全て又は 適宜のスキームに対応する情報アイテムを用いて所定の順序に従って対話を進行させる 図示された実施例では、 欠けている情報アイテムの聞き返し工程ステップ 3は、 スキ —ムの名称を聞き返し文に入れて質問する。 前述した 「ハワイに行きたい。 」 という利 用者の回答は、 「目的」 、 「日数」 、 「出発日」 等の必須情報アイテムが不足している c そこで、 コンピュータはかかる倩報アイテムを聞き出すのであるが、 この場合に、 「 (ご旅行の) 目的をお教え下さい。 」、 「日数は何日ですか。 」 、 「出発日はいつで
すか。 」 のように、 スキームの名称をそのまま聞き返し文に入れて質問することが好 ましい。 これにより、 コンピュータと人間との間の対話において意志の疎通が上手く いかないという事態を回避することができる。 なお、 「旅行の目的は、 新婚旅行、 マリ ンスポーツ、 日焼け、 ショッピング、 ビジネス、 その他からお選び下さい。 」 のように、 利用者からの回答を限定して認識精度を向上させることもできる。 If the input information required to identify the record is included in the input voice from the beginning, or if the user has been interviewed and aligned as described above, the information item of the record in step 4 Using, the computer's CPU runs the program according to the dialog sequence. Typically, the dialogue sequence proceeds in a predetermined order using all of the records or information items corresponding to the appropriate scheme. In the illustrated embodiment, the missing information item recall process step 3 is skipped. — Ask the question by putting back the name of the song in the sentence. "I want to go to Hawaii." The above-mentioned answer of interest for the person that is, "objective", "number of days", where c is the lack of required information items such as "departure date", the computer will elicit such倩報items In this case, "Please tell us the purpose of your (travel).", "How many days are you?" Do you? It is preferable to ask the question by putting the name of the scheme in the reflection as it is. As a result, it is possible to avoid a situation in which communication between the computer and a human is not successful. In addition, it is also possible to improve the recognition accuracy by limiting the answers from users, such as "Please select the purpose of the trip from honeymoon, marine sports, tanning, shopping, business, etc."
第 2図を参照すると、 第 1図に示された対話を実施するシステムの一実施例が示され ている。 Referring to FIG. 2, one embodiment of a system for performing the dialog shown in FIG. 1 is shown.
図 2には、 イン夕一ネヅトを介して音声対話方法を実施するシステムの一実施例が示 されているが、 勿論、 これに限られない。 例えば、 会社の受け付け業務をコンピュータ に行わせるような使用形態では、 インターネットを介さないで人間とコンピュータとが 直接対話を行う。 FIG. 2 shows an embodiment of a system for implementing a voice interaction method via an in-home network, but is not limited to this. For example, in a form of use in which a computer is used to accept company work, humans and computers interact directly without going through the Internet.
かかるトピックス対話システムは、 概略的に、 マイクロフォン等の音声入力装置 1と、 スピーカ、 ヘッドフォン等の音声出力装 S 3と、 利用者端末 5と、 イン夕一ネット、 ィ ントラネット、 L AN等の通信回線 7と、 そして、 本システムを管理するホストコンビ ユー夕 9とを備えて構成されている。 Such a topic dialogue system generally includes a voice input device 1 such as a microphone, a voice output device S3 such as a speaker and a headphone, a user terminal 5, and communication such as an Internet connection, an intranet, and a LAN. It comprises a line 7 and a host combination 9 for managing this system.
音声入力装置 1は、 利用者である人間の発した音声をコンピュータで処理可能なデジ タル信号に変換する。 音声出力装置 3は、 コンピュータで生成された音声発生信号に基 づき音声に変換する。 利用者端末 5は、 従来周知の各種のパソコンでィン夕一ネヅトに 接続可能となっている。 利用者端末 5における処理結果は、 通信回線 7を介してホスト コンピュータ 9に送信され、 また、 ホストコンピュータ 9における処理結果は通信回線 7を介して利用者端末 5で受信できるようになつている。 The voice input device 1 converts a voice uttered by a human being as a user into a digital signal that can be processed by a computer. The sound output device 3 converts the sound into a sound based on a sound generation signal generated by the computer. The user terminal 5 can be connected to the Internet by various well-known personal computers. The processing result at the user terminal 5 is transmitted to the host computer 9 via the communication line 7, and the processing result at the host computer 9 can be received by the user terminal 5 via the communication line 7.
ホストコンピュータ 9には、 各種のデ一夕やプログラムを記録するメモリ 1 1と、 メ モリに記録されたプログラムを呼び出し各種の制御を行う C P U 1 3とが設けられてい る。 メモリ 1 1には、 多数のスキーム、 すなわち、 スキーマ及びタヅプルからなるリレ 一ショナル型デ一夕ベース部 1 l aと、 各スキームをどのような順位で話題に載せてい くのかを定めたプログラムを記録する対話シーケンス部 1 l bと、 そして、 各スキ一ム が話題となった場合の言い回し等を定めたプログラムを記録する言回記録部 1 1 cとが 設けられている。 The host computer 9 is provided with a memory 11 for recording various data and programs, and a CPU 13 for calling a program recorded in the memory and performing various controls. Memory 11 records a number of schemes, namely a relational data base 1 la consisting of schemas and tuples, and a program that defines the order in which each scheme is to be discussed in the topic. A dialogue sequence unit 1 lb, and a word recording unit 11 c for recording a program that defines wording when each scheme becomes a topic are provided.
C P U 1 3には、 利用者の入力音声を単語分解 ·文章解析して、 各スキームに対応す る情報アイテムの存否を判断する情報アイテム判断制御手段 1 3 aと、 リレ一ショナル 型デ一夕ベース中のレコードを特定するために必要な情報アイテムが入力音声に含まれ
Θ The CPU 13 includes an information item determination control means 13a for analyzing the input voice of the user by word decomposition and sentence analysis to determine whether or not there is an information item corresponding to each scheme, and a relational data processor. The information items required to identify the record being based are included in the input audio. Θ
ていない場合に、 欠けている情報アイテムについて利用者に聞き返し、 当該必要とす る情報アイテムの全てを聞き出す必須情報アイテム聞出制御手段 1 3 bと、 そして、 レコードを特定するために必要な情報アイテムが入力音声に含まれている場合に、 当該 レコードの情報アイテムを用いて、 対話シーケンスに従ってプログラムを進行させるプ ログラム進行制御手段 1 3 cとが設けられている。 If it is not, ask the user about the missing information item and ask the required information item control means 13b to hear all the necessary information items, and the information necessary to identify the record When an item is included in the input speech, a program progress control means 13c is provided for using the information item of the record to advance the program in accordance with the interactive sequence.
図示された実施例では、 必須情報アイテム聞出制御手段 1 3 bは、 スキームの名称を 聞き返し文に入れて質問し、 それにより、 欠けている情報アイテムの聞き返しを行う。 第 3図は、 コンピュー夕と人間との間の対話の他の実施例のフローチヤ一トである。 第 5図は、 第 3図に示されたような対話を実施するシステムのホストコンピュ一夕 9 の一実施例を示したブロック図である。 In the illustrated embodiment, the mandatory information item hearing control means 13b asks a question by putting the name of the scheme in a feedback sentence, thereby hearing back the missing information item. FIG. 3 is a flowchart of another embodiment of a dialog between a computer and a human. FIG. 5 is a block diagram showing an embodiment of the host computer 9 of the system for performing the dialogue as shown in FIG.
図 3に示された対話は、 図 1に示された対話と比較してコンピュータが人間の発した 音声からシーン (話題) を特定して対話することができる点、 さらに、 特定のシーンに ついての対話の途中でその話題に溁さを加えるようなトビヅクス的な小対話を挿入する ことができる点が相違している。 The dialog shown in Fig. 3 is different from the dialog shown in Fig. 1 in that the computer can identify and interact with scenes (topics) from human voices. The difference is that it is possible to insert a small biz-like dialogue that adds a little bit to the topic during the conversation.
図 3に示された対話では、 先ず、 デ一夕べ一ス及びプログラムを言 3録し(ステップ 1 1 )、 次に、 シーンを特定するためのインデックスを人間に問い合せ (ステップ 1 2 )、 リレーショナル型デ一夕ベースが特定された場合にそれをキャッシュメモリへ記録し (ステップ 1 3 )、 利用者から音声入力があった場合、 それを単語分解'文章解析した後 に情報アイテムの存否を判断し(ステップ 1 4 )、 レコードを特定するために必要な情報 アイテムが入力音声に含まれているかの判断 J 1 1に対して 「No」 の場合、 人間に必須 情報アイテムを聞き出し(ステップ 1 5 )、 そして、 判断 J 1 1に対して 「Yes」 の場合 又はステツプ 1 5によりレコードを特定するために必要な情報アイテムが揃った場合、 プログラムを進行し(ステップ 1 6 )、 所定のスキーム及び/又はタヅプルが話題となつ た時は、 小シーンに関するサブルーチンに移行し(ステヅプ 1 7 )、 そして、 小シーンの サプル一チンが終了した場合に、 元の対話シーケンスに戻って残りのプログラムを進行 させる(ステップ 1 8 )ように構成されている。 In the dialogue shown in Fig. 3, first, a database and a program are recorded (step 11), and then a human is asked for an index for identifying a scene (step 12). When the type data base is specified, it is recorded in the cache memory (step 13), and if there is a voice input from the user, it is analyzed after word analysis and sentence analysis to determine the existence of the information item. (Step 14), and judge whether the information item necessary to identify the record is included in the input voice. If “No” for J11, the human is required to hear the information item (Step 15). ), And if the judgment J 11 is “Yes” or if the information items necessary to identify the record are obtained in step 15, the program proceeds (step 16), and the predetermined scan is performed. When the program and / or tuple become a topic, the subroutine for small scenes is entered (step 17), and when the small scene subroutine is completed, the program returns to the original dialogue sequence and the remaining program is executed. (Step 18).
ステップ 1 1では、 コンビュ一夕のメモリに複数のリレーショナル型データベースを 記録蓄積するが、 その各々には当該デ一夕ベースで扱っているシーン (話題) を他のも のから識別できるインデックスが付与されている。 コンピュータのメモリには、 さらに、 所定のスキーム及び/又はタヅプルに関連する小シーンを規定するリレーショナル型デ 一夕べ一スも記録されている。 小シーンを規定するリレ一ショナル型デ一夕ベースは、
複数の項目からなる構造事例 (スキーマに相当する) 及びそれらの内容であるコンテ ンヅ事例 (タヅプルに相当する) から構成されている。 コンピュータのメモリには、 さらに、 各スキーム及び項目の話題にする順番である対話シーケンス及び項目シ一ケン ス、 並びに、 各スキーム及び項目が話題となった場合の言い回し等を定めたプログラム 記録されている。 In step 11, a plurality of relational databases are recorded and stored in the memory of the convenience store, and each of them is provided with an index that can identify the scene (topic) that is being handled on the basis of the data from the others. Have been. The computer's memory also stores a relational database that defines small scenes associated with a given scheme and / or tuple. The relational data base that defines the small scene is It consists of a structural example (corresponding to a schema) consisting of multiple items and a content example (corresponding to a tuple), which is the contents of the structural example. In the memory of the computer, a program that defines an interaction sequence and an item sequence, which is the order of making each scheme and item a topic, and a wording when each scheme and item becomes a topic is recorded. I have.
第 4図は、 旅行案内をコンピュータが人間に対して行う場合の対話の一例を示したも のである。 Fig. 4 shows an example of dialogue when a computer provides travel guidance to a human.
ステップ 1 2において、 コンピュータは、 先ず、 人間に対しどのシーンについての対 話であるかを特定するためのインデックスを問合せるための質問である 「御用件をどう ぞ。 」 等の発話を行う。 人間がこれに対し、 「夏休みの旅行先を探している。 」 等の回 答をすると、 「旅行先」 、 「探す」 等の入力されたインデックスに従って 「旅行案内」 のシーンを特定する。他方、 利用者の回答中に、 例えば、 「現地スタッフの応対がとて In step 12, the computer first utters a question, such as “please do your business.”, Which is a question for inquiring an index for identifying a scene to which a conversation is directed to a human. When a human responds, for example, "Looking for a summer vacation destination", the scene of "travel information" is specified according to the input index of "travel destination", "search", and the like. On the other hand, during the user's response, for example,
Φ)悪かっ 」 、 「添垂 mが何の に Φ、†r†なかっか。 」、 「ホテルがき なくて約亩 のものと Μ¾1^。 」等、 否定的な単語 (文章中においてアンダーラインで示した。 ) が含まれている場合には、 「苦情」 のシーンを特定する。 このように、 本実施態様は、 人間が複数のシーン (話題) のいずれかについて発話した場合に、 その中に含まれてい るインデックスとなる単語の発見によってシーン (話題) を特定することができる点に 特徴を有する。 すなわち、 予め定められたインデックスとなる単語の発見により、 多数 のシーンから特定の一のシーンを選出することができる。 Negative words (underlined in the text) such as "Φ) bad", "What is the subscript m not Φ, † r †?", "About 亩 without a hotel and Μ¾1 ^." ), The scene of “complaint” is specified. As described above, according to the present embodiment, when a human utters one of a plurality of scenes (topics), the scene (topic) can be identified by finding a word serving as an index included therein. It has features in points. That is, a specific one scene can be selected from a large number of scenes by finding a word serving as a predetermined index.
C P Uは、 ステップ 1 3にて、 メモリからインデックスにより特定された旅行案内の シーン(話題 )のリレーショナル型デ一夕ペースを呼び出してキャッシュメモリに書き換 え可能に記録する。 In step 13, the CPU calls the relational database of the scene (topic) of the travel guide specified by the index from the memory and records it in the cache memory so that it can be rewritten.
旅行というシーンのスキーマは、 例えば、 「行き先」、 「目的」 、 「日数」、 「出発 曰 (時) 」、 「人数」、 「同伴者の内訳」 、 「予算」、 「航空会社の指定」、 「ホテル の指定」 、 「部屋の仕様」 、 「食事の有無」 、 「オプションの有無」 、 「パスポートの 有無」 、 「ビザの必要性」 、 「支払方法」 等から構成されている。 そこで、 コンビユー 夕は、 必須情報アイテムの存否判断工程 (ステップ 1 4 ) にて、 レコードを特定するた めに必須の情報アイテムが全て揃っているか否かを判断する。 そして、 一連の質疑応答 から目的のレコードを探し出すカウンセリングモードにより、 不足している情報アイテ ムを探すための対話を開始する。
本実施例では、 コンピュータから 「行き先はどこになさいますか?」 の質問が出さ れ、 これに対し、 利用者から 「イギリスかアメリカかな。 」 の回答があった。 コンビ ユー夕は、 「イギリスかアメリカかな。 」 の回答から、 利用者が行き先について確定し ていないことを察知し、 できるだけ早くこれを確定させるためのアドバイズモードに移 行する。 人間同士の対話においては、 このカウンセリングモードとアドバイズモードと が入れ替わり登場して対話を発展させるものであるとの知見に基づき、 これをコンビュ 一夕と人間との対話に初めて応用した。 図 3の対話では、 旅行の目的を質問した後、 利 用者からの回答、 「家 行」 を情報アイテムとして一のヅァ一情報を推薦している。The schema of the scene of travel is, for example, “Destination”, “Purpose”, “Days”, “Departure (time)”, “Number of people”, “Breakdown of companions”, “Budget”, “Designation of airline” , “Designation of hotel”, “room specifications”, “meal availability”, “option”, “passport”, “necessity of visa”, “payment method”, etc. Therefore, in the combination, in the essential information item presence / absence determining step (step 14), it is determined whether or not all the essential information items for identifying the record are present. Then, in a counseling mode that searches for a target record from a series of questions and answers, a dialogue for searching for a missing information item is started. In this embodiment, the computer asked the question "Where do you want to go?" And the user answered "Is it UK or America?" From the answer to “Is it British or American?”, Combi U will detect that the user has not decided on the destination, and will transition to the advise mode to confirm this as soon as possible. In the dialogue between humans, based on the knowledge that the counseling mode and the advice mode appear alternately and develop the dialogue, this was applied for the first time to the dialogue between the viewer and human beings. In the dialogue in Fig. 3, after asking a question about the purpose of the trip, the user's answer, “house line,” is used as an information item to recommend a piece of information.
「C :フロリダのオーランドはどうですか。 · · · ·」 から 「G :そのパック旅行にし ましょう。 」 までが一つのサブルーチンを構成している。 そして、 パック旅行の選定が 行われた後、 元の旅行案内のシーンに戻って対話を継続している。 From "C: What about Orlando, Florida?" To "G: Let's do that pack trip" constitute one subroutine. Then, after the selection of the package tour was made, the participants returned to the original travel guide scene and continued the dialogue.
なお、 利用者によるパヅク旅行の選定により、 「行き先」、 「日数」、 「費用」 、 In addition, depending on the selection of the park trip by the user, “Destination”, “Days”, “Cost”,
「航空会社」、 「ホテル」、 「食事の有無」 が確定し、 残りのスキームについてのみ、 それ以後の対話で聞き出すこととなる。 本実施例では、 「出発日」及び「人数」 が未確 認である。 そこで、 ステップ 1 5において、 「出発日は、 いつですか。 」 の質問を行い、The “airline”, “hotel”, and “meal availability” will be determined, and only the remaining schemes will be heard in subsequent dialogues. In this embodiment, “departure date” and “number of people” have not been confirmed. So, in step 15 we asked the question "When is the departure date?"
「7月 1 8日にします。 」 の回答を得ている。 "I will do it on July 18th."
本実施 I^Jでは、 次に、 ステップ 1 7において、 「家族」 をキーワードとして、 「添い 寝子代金」 についての小シーンに移行している。 具体的には、 家族の構成、 年齢を聞い た後、 「添い寝子代金」 についての説明を行い、 その適用を受けるか否か問い合わせて いる。 もし、 第 4図に示された対話の 6行目の回答が、 例えば、 「新婚旅行」 であった 場合には、 「新婚」 をキーワードとしてその小シーンへと移行することができる。 例え ば、 空港からホテルまでのリムジンによる送迎、 プライべ一トルームでのスペシャルデ ィナー、 ウォー夕フロントの部屋等新婚ム一ドを盛り上げるための各種の話題を取り上 げることができる。 Next, in the present embodiment I ^ J, in step 17, a transition is made to a small scene of “Singing and sleeping child price” using “family” as a keyword. Specifically, after asking about the composition and age of the family, they explained about the “paying for a bed with a child” and asked if they would be eligible. If the answer in the sixth line of the dialogue shown in Fig. 4 is, for example, "honeymoon", then it is possible to shift to the small scene using "honeymoon" as a keyword. For example, it is possible to take up a variety of topics such as pick-up and drop-off from the airport to the hotel by limousine, a special dinner in a private room, and a room at the front desk of the wedding reception.
なお、 レコードを特定するために必要な情報アイテムが既にしゃべられた入力音声に 含まれている場合には、 当該レコードの情幸 アイテムを用いて、 対話シーケンスに従つ てプログラムを進行させる。 通常、 入力済みのスキーマを順番に利用者に確認するよう に進行する。 なお、 本実施例では、 利用者は 「フロリダ州オーランド行きの 9泊 1 0曰 のパック旅行に行く。 」 旨の意思表示を行っている。 しかしながら、 このパック旅行の 全ての条件について確認した上での意思表示であるか否かは、 後日紛争となつた場合に 問題が生じる可能性がある。 そこで、 「行き先」 、 「日数」 、 「費用」 等暗黙の内に承
認した事項についても、 明確に確認することが好ましい。 例えば、 「行き先」 は、 ォIf the information item required to identify the record is included in the spoken input voice, the program proceeds according to the dialogue sequence using the information item of the record. Normally, it proceeds to confirm the entered schema to the user in order. In the present embodiment, the user has indicated that he will go on a 10-night, 10-day trip to Orlando, Florida. However, it may be difficult to determine whether or not the intention is confirmed after confirming all the conditions of this package trip in the event of a dispute at a later date. Therefore, "Destination", "Days", "Cost" It is preferable to clearly confirm the items that have been confirmed. For example, "destination"
—ランド (NAN S Aへの日帰りバス旅行を含む) とマイアミで、 それそれ、 6泊と 2泊し、 移動に 3日かかることを確認する。 · 本態様における特徴は、 前述のように対話の途中で、 その対話に登場したトピックス を取り上げ、 そのトピックスについて深く掘り下げたり、 他のバリエーションについて 言及すること等により対話を発展させ得る点にある。 すなわち、 所定のスキーム及び/ 又は夕ヅプルが話題となった時、 小シーンを規定するリレーショナル型デ一夕ベースを 呼び出し、 サブルーチンとして、 項目シーケンスに従ってプログラムを進行させる。 前 述の例では、 例えば、 利用者が旅行の 「目的」 について言及した際に、 「家族旅行」 に ついての小シーンへ話題を転じるように制御する点に特徴を有する。 —In Rand (including day bus trips to NAN SA) and in Miami, make sure you spend 6 and 2 nights and 3 days to travel. · The feature of this mode is that, as described above, during the dialogue, the topics that appeared in the dialogue are taken up, and the dialogue can be developed by digging deeply into the topics or referring to other variations. That is, when a predetermined scheme and / or evening topic becomes a topic, a relational data base that defines a small scene is called, and the program proceeds as a subroutine according to the item sequence. The above example is characterized in that, for example, when a user mentions the “purpose” of a trip, control is performed so that the topic shifts to a small scene regarding “family trip”.
「家 ί«行」 の小シーンでは、 複数の項目からなる構造事例及びその内容であるコン テンヅ事例からなるリレ一ショナル型デ一夕べ一スを用いて人間との対話を行う。 対話 における項目の登場する順番は、 項目シーケンスによって順番が定められている。 家族 旅行の項目としては、 「家族の内訳」 、 「子供の性別」 、 「子供の年齢」、 「添い寝子 代金の採否」 、 「人数」 等がある。 前述の例では、 「ご家族の内訳をお教え下さい。 」 、 In the small scene of “home”, a dialogue with humans is conducted using a relational database consisting of a structural example consisting of a plurality of items and a content example that is the contents of the structural example. The order in which the items appear in the dialogue is determined by the item sequence. The items of family travel include "breakdown of family", "sex of child", "age of child", "whether or not to pay for bed-sharing child", and "number of people". In the example above, "Please tell us about your family."
「お子様の性別と年齢をお教え下さい。 」 、 添い寝子代金についての説明の後 「どうな さいますか。 」 と続けて家族旅行の小話題に変換させている。 小シーンのリレーショナ ル型デ一夕ペースにおける構造事例の全て又は所定の項目について項目シ一ケンスが終 了すると、 ステップ 1 8において、 対話シーケンスに戻って残りのプログラムを進行さ せる。 "Please tell me the gender and age of your child." After explaining the price of the bed with you, "What's up?" When the item sequence has been completed for all or predetermined items of the structural example in the relational type of the small scene, at step 18, the program returns to the dialogue sequence and proceeds with the rest of the program.
図示された好ましい実施例では、 小シーンを規定する構造事例が過去の対話例である ことを特徴とする。 前述のようにして収集された複数のコンテンヅ情報からなる小シ一 ンは、 対話例としてメモリに記録可能である。 そして、 次回に、 同じ小シーンが話題と なったときに、 当該対話例に基づく項目シーケンスで対話を進行させるように制御する。 対話例を積み重ねることにより、 質問の仕方、 所定のツアー等への誘導等の点において コンビユー夕が熟練することができる。 The illustrated preferred embodiment is characterized in that the structural case defining the sub-scene is a past interactive case. A small scene composed of a plurality of pieces of content information collected as described above can be recorded in a memory as an example of a dialog. Then, the next time the same small scene becomes a topic, control is performed so that the dialogue proceeds with the item sequence based on the dialogue example. By accumulating examples of dialogue, it is possible for the viewer to become skilled in how to ask questions, guide to a predetermined tour, etc.
小シーンは、 無限階層的に構築することができる。 すなわち、 一の小シーンにはさら に下位の小シーンが、 また、 その小シーンにはさらにその下位の小シーンが存在するよ うに構築することができる。 これにより、 コンピュータと人間との会話のバリエーショ ンが無限に広がることとなり、 用意された会話を単にこなしているという、 従来技術に
おいてとかく非難の的であったコンピュータとの対話独特の単調さを完全に払拭する ことができる。 Small scenes can be constructed in an infinite hierarchy. In other words, it can be constructed such that one small scene has a lower sub-scene, and that sub-scene has a lower sub-scene. As a result, the variety of conversations between the computer and humans is infinitely widespread, and the conventional technology that simply handles the prepared conversations is used. It can completely dispel the peculiar monotony of interacting with computers, which has been a criticism.
次に、 第 5図を参照して第 3図に示された音声対話方法を実施するシステムについて 詳細に説明する。 Next, with reference to FIG. 5, a system for implementing the voice interaction method shown in FIG. 3 will be described in detail.
本実施例のシステムは、 ホストコンピュ一夕 9の構成を除いて第 2図に示されたトビ ヅクス対話システムと同様であるため、 異なる構成についてのみ説明する。 なお、 説明 中、 第 2図と同一の構成要素については、 第 2図のものと同一の参照番号を用いた。 本実施例においては、 ホストコンピュータ 9のメモリ 1 1には、 リレーショナル型デ —夕べ一ス部 1 l aと、 各スキームをどのような順位で話題に載せていくのかを定めた プログラムを言 3録する対話シーケンス部 1 l bと、 そして、 各スキームが話題となった 場合の言い回し等を定めたプログラムを記録する言回記録部 1 1 cとが設けられている。 リレーショナル型デ一夕ベース部 1 1 aは、 多数のシーン (話題) の異なるリレ一ショ ナル型データベースを蓄積することができるように、 セクション l l a a〜l l a nに 分割されている。 図示された好ましい実施例では、 各リレーショナル型データベースに は、 他のものと識別できるィンデヅクスとなる一又は複数の単語が予め選出して登録さ れている。 そして、 当該単語の発見により、 一のリレーショナル型デ一夕ベースが特定 される。 各リレーショナル型デ一夕ベースが、 スキーマとタツプルとから構成されてい る点は第 2図のものと同様である。 The system of the present embodiment is the same as the Tobix dialogue system shown in FIG. 2 except for the configuration of the host computer 9, so that only different configurations will be described. In the description, the same reference numerals as those in FIG. 2 are used for the same components as those in FIG. In the present embodiment, the memory 11 of the host computer 9 contains a relational database 1 la in the evening, and a program that defines the order in which each scheme is to be placed in the topic. 1 lb, and a word recording unit 11 c that records a program that defines wording when each scheme becomes a topic. The relational data base section 11a is divided into sections llaa to llan so that a relational database of a large number of different scenes (topics) can be stored. In the illustrated preferred embodiment, each relational database is pre-selected and registered with one or more words that serve as an index that can be distinguished from others. Then, by finding the word, one relational data base is specified. Each relational database is the same as that in Fig. 2 in that it consists of a schema and a tuple.
メモリ 1 1には、 また、 所定のスキーム及び/又はタヅプルに関連する小シーンを規 定する一又は複数のリレーショナル型デ一夕ベース部 1 I dが設けられている。 データ ペース部 1 1 aと同様に、 小シーンを規定するリレ一ショナル型デ一夕ベースが複数あ る場合は、 リレ一ショナル型デ一夕べ一ス部 1 1 dもパ一ヅ 1 1 d a〜: L 1 d mに分割 される。 小シーンを規定するリレーショナル型デ一夕ベースも、 また、 複数の項目から なる構造事例 (スキ一マに相当) 及びそれらの内容であるコンテンツ事例 (タツプルに 相当) から構成されている。 各小シーンを規定するリレーショナル型デ一夕ベースには、 また、 シーンを規定するリレーショナル型デ一夕ベースのどの夕ヅプルが表れた時に当 該小シーンに移行させるのかを予め定めておくことが必要である。 The memory 11 is also provided with one or more relational data bases 1 Id that define small scenes associated with a given scheme and / or tuple. If there are multiple relational data bases that specify small scenes, as in the data space section 11a, the relational data base section 11d should also be used for data processing. ~: Divided into L 1 dm. The relational data base that defines a small scene also consists of a structural example (equivalent to a schema) consisting of a plurality of items and a content example (equivalent to a tuple) that is the content of the structural example. In the relational data base that defines each small scene, it is also necessary to determine in advance which of the relational data bases that define the scene will be transferred to the small scene when it appears. is necessary.
メモリ 1 1には、 さらに、 各項目の話題にする順番である項目シーケンスを記録する 項目シーケンス部 1 1 e及び各項目が話題となった場合の言い回し等を定めたプログラ ムを記録する言回記録部 1 1 fが設けられている。
ホストコンピュータ 9には、 さらに、 メモリ 1 1に加えてインデックスにより特定 されたリレーショナル型デ一夕ペースを呼び出して書き換え可能に記録するキヤッシ ュメモリ 1 5が設けられている 6 The memory 11 further records an item sequence, which is the order in which each item is made a topic, and an item sequence part 11 e and a program that records a program that defines wording when each item becomes a topic. A recording unit 11 f is provided. The host computer 9 further includes, in addition to the memory 11, a cache memory 15 for calling the relational data space specified by the index and recording it in a rewritable manner 6
C P U 1 3には、 第 2図のシステムと同様に、 情報アイテム存否判断制御手段 1 3 a と、 必須情報アイテム聞出制御手段 1 3 bと、 そして、 プログラム進行制御手段 1 3 c とが設けられている。 C P U 1 3には、 さらに、 コンピュータから人間に対し、 どのシ —ンについての対話であるかを特定するためのィンデックスを問い合せるィンデヅクス 問合制御手段 1 3 dと、 入力されたインデックスに従ってシーンを特定し、 メモリから 特定されたリレ一ショナル型デ一夕ベースを呼び出してキヤヅシュメモリに書き換え可 能に記録するキャッシュメモリ記録制御手段 1 3 eとが設けられている。 C P U 1 3に は、 さらにまた、 所定のスキーム及び/又はタヅプルが話題となった時、 小シーンを規 定するリレーショナル型データベースを呼び出し、 サブルーチンとして、 項目シーケン スに従ってプログラムを進行させるサブルーチン進行制御手段 1 3 f と、 そして、 項目 シ一ケンスが終了した場合に、 対話シ一ケンスに戻って残りのプログラムを進行させる 対話シーケンスへのリタ一ン制御手段 1 3 gとが設けられている。 As in the system of FIG. 2, the CPU 13 is provided with information item presence / absence control means 13a, essential information item hearing control means 13b, and program progress control means 13c. Have been. The CPU 13 further includes an index query control means 13 d for inquiring an index for specifying which scene the dialog is about from the computer to a human, and a scene according to the input index. Further, there is provided a cache memory recording control means 13 e for calling the specified relational data base from the memory and rewritably recording it in the cache memory. Further, when a predetermined scheme and / or tuple becomes a topic, the CPU 13 calls a relational database for defining a small scene, and as a subroutine, a subroutine progress control means for executing a program according to an item sequence. 13 f, and a return sequence control means 13 g for returning to the interactive sequence and proceeding with the remaining program when the item sequence is completed.
図示されだ好ましい実施例では、 必須情報アイテム聞出制御手段 1 3 bは、 スキーム の名称を聞き返し文に入れて質問し、 それにより、 欠けている倩報アイテムの聞き返し を行つ。 In the illustrated preferred embodiment, the mandatory information item recall control means 13b asks for a question by putting the name of the scheme in a recall sentence, thereby recalling the missing key report item.
次に、 このようなコンピュータと人間との間の対話に適用してコンピュータが人間の 発話した会話文を正しく認識可能とする本発明に係る音声対話方法及びシステムについ て詳細に説明する。 Next, a detailed description will be given of a speech dialogue method and system according to the present invention, which is applied to such a dialogue between a computer and a human to enable the computer to correctly recognize a conversation uttered by a human.
本発明に係るコンピュータと人間との間の音声対話方法は、 図 7に示されているよう に、 概略的に、 マイクロフォン等の音声入力装置により人間からの会話文を受信するェ 程 (ステップ 2 1 ) と、 会話を遂行させるプログラムに従ってコンピュータが応答文を 作成する工程 (ステップ 2 2 ) と、 応答文をスピーカ等の音声発生装置から出力するェ 程 (ステップ 2 3 ) と、 マイクロフォン等の音声入力装置により音声発生装置から出力 された応答文を受信する工程 (ステップ 2 4 ) と、 そして、 応答文信号を音声キャンセ ル装置によりキャンセルしてコンピュータによる会話認識対象から除去する工程 (ステ ヅプ 2 5 ) とを含んで構成されている。 As shown in FIG. 7, the method of voice dialogue between a computer and a human according to the present invention generally includes a step of receiving a conversation sentence from a human by a voice input device such as a microphone (step 2). 1), a step in which the computer creates a response sentence in accordance with a program for performing the conversation (step 22), a step in which the response sentence is output from a sound generator such as a speaker (step 23), and a sound such as a microphone. A step of receiving the response sentence output from the voice generator by the input device (step 24); and a step of canceling the response sentence signal by the voice canceller and removing it from the conversation recognition target by the computer (step 24). 25).
音声キヤンセル装置による応答文信号のキヤンセル方法は、 種々の方法を採用するこ とができるが、 図 8に示された好ましい実施例においては、 コンピュータが作成した応
答文作成信号にフラッグをたてて (ステップ 3 1 ) 、 当該応答文を音声発生装置から 出力した後、 所定時間後に音声入力装置に入力された音声を、 応答文作成信号を基準 信号としてキャンセルする (ステヅプ 3 2 ) ものであることを特徴とする。 Various methods can be used for canceling the response sentence signal by the voice canceller, but in the preferred embodiment shown in FIG. After setting the flag on the answer creation signal (step 31) and outputting the response sentence from the voice generator, the voice input to the voice input device after a predetermined time is canceled using the response sentence creation signal as a reference signal. (Step 32).
さらに、 コンビュ一夕が、 会話を遂行させるプログラムに従って応答文を作成するに あたっては、 入力信号がノイズの少ないピュアなものであることが好ましい。 そこで、 ステップ 2 1とステップ 2 2との間に、 音声入力装置が受け取る音声信号からノイズキ ヤンセラ装置によってノイズを除去する工程 (ステップ 2 6 ) を介在させることが好ま しい。 そして、 かかるノイズキャンセルにより、 マイクロフォン等の音声入力装置から 入力される音声信号からノィズを除去し、 人間からの会話文に相当する音声信号のみが 残るようにする。 Furthermore, in preparing a response sentence in accordance with a program for performing a conversation, the input signal is preferably a pure signal with little noise. Therefore, it is preferable to interpose a step (step 26) for removing noise from the audio signal received by the audio input device by the noise canceller device between step 21 and step 22. By such noise cancellation, noise is removed from a voice signal input from a voice input device such as a microphone, so that only a voice signal corresponding to a conversation sentence from a human remains.
ノイズキャンセルステップは、 人間若しくはコンピュータからの発話中でないことが 明らかな程音声レベルが低い時間帯におけるノイズ、 又は、 それ以外の時間帯は当該発 話内容をキャンセルしたノイズを所定時間蓄積して学習し、 次なる人間からの発話中に、 学習された当該ノイズを音声入力装置からの音声信号からキャンセルして除去する。 こ れにより、 ノイズの音量が大きくなり、 人間からの会話文の音量との差が小さくなるよ うな場合にも、 ノイズを確実に消去することができる効果を有している。 通常、 ノイズ キャンセルに必要なノィズの収集時間は 3秒程度であるが、 コンビュ一夕からの応答文 をスピー力から出力している時間 (応答文信号は音声キヤンセル装置によりキャンセル されるのでノィズのみが残る) 及び人間が発話してから若しくは次に人間が発話するま での間を加えた時間に、 かかるノイズの収集を完了することができる効果を有する。 こ れにより、 刻一刻と変化するノイズを有効にキャンセルすることができ、 人間からの会 話文信号のみをクリァな状態で音声認識装置に入力することができる。 In the noise canceling step, the noise is accumulated during a time period when the voice level is low enough that it is clear that no speech is being made from a human or a computer, or in other time periods, the noise canceling the utterance is accumulated for a predetermined period of time. Then, during the next utterance from a human, the learned noise is canceled and removed from the voice signal from the voice input device. As a result, even when the volume of the noise increases and the difference from the volume of the conversation sentence from a human decreases, the noise can be surely eliminated. Normally, the noise collection time required for noise cancellation is about 3 seconds. However, the time during which the response sentence from the convenience store is output from the speaker (the response sentence signal is canceled by the voice canceller, so only the noise is collected). This has the effect that the collection of such noise can be completed after a human utters or at a time added to the next human utterance. As a result, noise that changes every moment can be effectively canceled, and only speech sentence signals from humans can be input to the speech recognition device in a clear state.
次に、 第 9図を用いて本発明に係るコンピュータと人間との間の音声対話システムに ついて詳細に説明する。 Next, a voice dialogue system between a computer and a human according to the present invention will be described in detail with reference to FIG.
図示されているように、 本発明に係る音声対話システムは、 コンピュータと人間との 間の会話を聞き取るマイクロフォン 3 1とコンピュータが作成した応答文を出力するス ピー力 3 2とを有するキーボードレスのコンビユー夕 3 0を含んでいる。 As shown in the figure, the voice dialogue system according to the present invention is a keyboardless keyboard having a microphone 31 for listening to a conversation between a computer and a human and a speed 32 for outputting a response sentence created by the computer. Includes 30 minutes.
コンピュータ 3 0は、 マイクロフォン 3 1から入力された音声を音素認識し、 単語分 解/文章解析して会話文として認識する音声認識装置 3 3と、 マイクロフォン 3 1から の音声信号の内、 コンピュータが作成した応答文に対応するものをキャンセルしてコン ピュー夕による会話認識対象から除去する音声キャンセル装置 3 4と、 そして、 人間か
らの会話文を解釈しそれに対する応答文を作成する会話文認識/応答文作成ュニット 3 5とを含んで構成されている。 これらの装置は、 メモリ 3 0 a内に蓄積された各種 プログラムを CPU 3 0 bが呼び出して各種信号に対して処理する制御手段によって実現 することができる。 The computer 30 recognizes phonemes of the voice input from the microphone 31, analyzes the words / sentences and analyzes them as a conversational sentence, and the computer recognizes the voice signal from the microphone 31. A voice canceling device 3-4 that cancels the response to the created response sentence and removes it from the subject of conversation recognition by the computer, and A conversation sentence recognition / response sentence creation unit 35 that interprets these conversation sentences and creates a response sentence therefor. These devices can be realized by control means for causing the CPU 30b to call various programs stored in the memory 30a and to process various signals.
音声キャンセル装置 3 4は、 図示された好ましい実施例では、 コンビュ一夕が作成し た応答文作成信号にフラヅグをたてる手段 3 4 aと、 当該応答文を音声発生装置から出 力した後音声入力装置が音声を受け取るまでの時間を計測するクロック 3 4 bと、 応答 文を音声発生装置から出力した後音声入力装置が音声を受け取るまでの時間が所定時間 以内であった場合に、 当該音声入力装置が受け取った音声をコンピュータが作成した応 答文であると判定し応答文作成信号を基準信号としてキャンセルするキャンセラ手段 3 4 cとを含んで構成されている。 In the preferred embodiment shown in the figure, the voice canceling device 34 is a means for flagging the response sentence creation signal created by the viewer, and a voice after outputting the response sentence from the voice generating device. A clock 34b that measures the time until the input device receives the voice, and if the time until the voice input device receives the voice after outputting the response from the voice generation device is within the specified time, the voice The canceller means 34c which determines that the voice received by the input device is a response sentence created by the computer and cancels the response sentence creation signal as a reference signal.
ノイズキャンセラ装置 3 7としては、 従来周知のものを含み種々の構成のものを採用 することができ、 それによつて会話文認識/応答文作成ユニット 3 5は、 ノイズを含ま ない人間からの会話文のみを会話認識対象として受け取るようにしてなる。 図示された 好ましい実施例では、 ノイズキャンセラ装置 3 7は、 音声レベルが低い時間帯における ノイズ、 すなわち、 人間若しくはコンピュータのいずれも発話中でないとき、 又は、 そ れ以外の時間帯は当該発話内容をキャンセルしたノイズを所定時間蓄積して学習する。 そして、 次なる人間からの発話中に、 学習された当該ノイズを音声入力装置からの音声 信号からキャンセルして除去する。 As the noise canceller device 37, various types of devices including a conventionally known device can be adopted, whereby the conversational sentence recognition / response sentence creation unit 35 can use only noise-free conversational sentences from humans. As a conversation recognition target. In the illustrated preferred embodiment, the noise canceller device 37 cancels the noise in the time period when the sound level is low, that is, when no human or the computer is speaking, or in other time periods. The learned noise is accumulated for a predetermined time. Then, during the next utterance from a human, the learned noise is canceled and removed from the voice signal from the voice input device.
このようなコンピュータと人間との間の音声対話方法を用いることにより、 コンビュ —夕から応答文を出力中に、 人間が割り込みを掛けるような場合にも、 コンピュータは 人間の発話内容を正しく認識し、 単語分解 ·文章解析し、 それに対する応答文を作成す ることができるようになる効果がある。 従来方法では、 コンピュータが出力し終わるま でに人間が発話するとコンピュータが音声を認識できない、 または、 プログラムが混乱 して会話不能となる等の欠点があつた。
By using this type of speech dialogue between the computer and a human, the computer can correctly recognize the human utterance even if a human interrupts while outputting a response sentence from the evening. This has the effect of enabling word analysis and sentence analysis to create a response sentence. The conventional method has the disadvantage that if a human utters before the output of the computer, the computer will not be able to recognize the voice, or the program will be confused and the conversation will be impossible.
Claims
1 . コンピュータと人間との間の音声対話方法であって、 1. A method of spoken dialogue between a computer and a human,
人間からの会話文をコンビュ一夕と人間との間の会話を聞き取る音声入力装置から受 信するステップと、 Receiving a conversation sentence from a human from a voice input device that listens to a conversation between the convenience store and the human;
会話文を解釈しそれに対する応答文をコンピュータにより作成するステップと、 人間からの会話文に対するコンピュ一夕からの応答文を音声発生装置から出力するス テツプと、 A step of interpreting a conversational sentence and creating a response sentence by the computer, a step of outputting a response sentence from a computer for a conversational sentence from a human from a voice generating device,
前記音声入力装置によりコンピュータからの応答文を入力するステップと、 そして、 コンビュ一夕からの応答文を音声キャンセル装置によりキャンセルしてコンビュ一夕 による会話認識対象から除去するステップと、 Inputting a response sentence from the computer by the voice input device; andsteps of canceling the response sentence from the convenience store by the voice cancellation device and removing the response sentence from the conversation recognition target by the convenience store.
を含んで構成されてなる音声対話方法。 A voice interaction method comprising:
2 . 請求項 1に記載の音声対話方法において、 前記応答文キャンセルステップが、 コ ンピュー夕が作成した応答文作成信号にフラッグをたてて、 当該応答文を前記音声発生 装置から出力した後、 所定時間後に前記音声入力装置に入力された音声を、 前記応答文 作成信号を基準信号としてキャンセルするものであることを特徴とする音声対話方法。 2. The voice interaction method according to claim 1, wherein the response sentence canceling step sets a flag on a response sentence creation signal created by a computer, and outputs the response sentence from the voice generating device. A voice dialogue method, wherein a voice input to the voice input device after a predetermined time is canceled using the response sentence creation signal as a reference signal.
3 . 請求項 1又は 2に記載の音声対話方法において、 さらに、 前記音声入力装置が受 け取る音声からノィズキヤンセラ装置によってノィズを除去するステツプを備えており、 しかる後、 コンピュータにより人間からの会話文に対する応答文を作成するようにして なることを特徴とする音声対話方法。 3. The voice interaction method according to claim 1 or 2, further comprising a step of removing noise from a voice received by the voice input device by a noise canceller device, and thereafter, a conversation sentence from a human by a computer. A spoken dialogue method comprising creating a response sentence to a user.
4. 請求項 3に記載の音声対話方法において、 前記ノイズキャンセルステップは、 人 間若しくはコンピュータからの発話中でないことが明らかな程音声レベルが低い時間帯 におけるノイズ、 又は、 それ以外の時間帯は当該発話内容をキャンセルしたノイズを所 定時間蓄積して学習し、 次なる人間からの発話中に、 学習された当該ノイズを前記音声 入力装置からの音声信号からキャンセルして除去することを特徴とする音声対話方法。 4. The voice dialogue method according to claim 3, wherein the noise canceling step includes: a noise in a time zone in which the voice level is so low that it is clear that no speech is being made from a person or a computer; Learning is performed by accumulating noise for which the uttered content has been canceled for a predetermined time, and canceling and removing the learned noise from the voice signal from the voice input device during the next utterance from a human. Spoken dialogue method.
5 . コンピュータと人間との間の音声対話システムであって、 5. A speech dialogue system between a computer and a human,
コンピュータと人間との間の会話を聞き取る音声入力装置と、 A voice input device for listening to a conversation between a computer and a human,
音声入力装置からの出力信号の内、 コンピュータからの応答文に対応するものをキヤ ンセルしてコンピュータによる会話認識対象から除去する音声キャンセル装置と、 人間からの会話文を解釈しそれに対する応答文を作成するコンピュータ内の会話文認 識 /応答文作成ユニットと、 そして、 Of the output signals from the voice input device, the one corresponding to the response sentence from the computer is canceled and removed from the speech recognition target by the computer, and the speech cancellation device that interprets the conversation sentence from human and responds to it. A conversation sentence recognition / response sentence creation unit in the computer to be created, and
コンピュータからの応答文を出力する音声発生装置と、
を含んで構成されてなる音声対話システム。 A voice generator for outputting a response sentence from the computer, A voice dialogue system comprising:
6 . 請求項 5に記載の音声対話システムにおいて、 前記音声キャンセル装置は、 コ ンピュー夕が作成した応答文作成信号にフラッグをたてる手段と、 当該応答文を前記音 声発生装置から出力した後前記音声入力装置が音声を受け取るまでの時間を計測するク ロックと、 応答文を前記音声発生装置から出力した後前記音声入力装置が音声を受け取 るまでの時間が所定時間以内であった場合に、 当該音声入力装置が受け取った音声を前 記コンピュータが作成した応答文であると判定し前記応答文作成信号を基準信号として キャンセルするキャンセラ手段とを含んで構成されてなることを特徴とする音声対話シ ステム。 6. The voice interaction system according to claim 5, wherein the voice canceling device flags a response sentence creation signal created by a computer, and outputs the response sentence from the voice generating device. A clock for measuring a time until the voice input device receives a voice, and a clock for measuring a time until the voice input device receives a voice after outputting a response sentence from the voice generating device. A canceller means for determining that the speech received by the speech input device is a response sentence created by the computer and canceling the response sentence creation signal as a reference signal. Dialogue system.
7 . 請求項 5又は 6に記載の音声対話システムにおいて、 さらに、 前記音声入力装置 が受け取る音声からノィズを除去するノィズキヤンセラ装置を含んでおり、 それによつ てコンピュータ内の前記会話文認識/応答文作成ュニヅトは、 ノイズを含まない人間か らの会話文のみを会話認識対象として受け取るようにしてなることを特徴とする音声対 話システム。 7. The speech dialogue system according to claim 5, further comprising a noise canceller device for removing noise from a voice received by the voice input device, whereby the speech recognition / response text in a computer is provided. The creation unit is a voice conversation system characterized by receiving only conversational sentences from humans without noise as conversation recognition targets.
8 . 請求項 7に記載の音声対話方法において、 前記ノイズキャンセラ装置は、 人間若 しくはコンビユー夕からの発話中でないことが明らかな程音声レベルが低い時間帯にお けるノイズ、 又は、 それ以外の時間帯は当該発話内容をキャンセルしたノイズを所定時 間蓄積して学習し、 次なる人間からの発話中に、 学習された当該ノイズを前記音声入力 装置からの音声信号からキヤンセルして除去するノィズ学習 zノィズ除去手段を含んで 構成されてなることを特徴とする音声対話方法。
8. The voice interaction method according to claim 7, wherein the noise canceller device is configured to perform noise in a time zone when the voice level is so low that it is apparent that the user is not speaking from a human or a convenience store, or other noise. In the time period, the noise that cancels the utterance is accumulated for a predetermined period of time to learn, and during the next utterance from a human, the noise is removed by canceling the learned noise from the audio signal from the audio input device. A spoken dialogue method comprising learning z-noise removing means.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2001/000628 WO2002061729A1 (en) | 2001-01-31 | 2001-01-31 | Method and system for audio interaction between human being and computer |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2001/000628 WO2002061729A1 (en) | 2001-01-31 | 2001-01-31 | Method and system for audio interaction between human being and computer |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2002061729A1 true WO2002061729A1 (en) | 2002-08-08 |
Family
ID=11736963
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2001/000628 WO2002061729A1 (en) | 2001-01-31 | 2001-01-31 | Method and system for audio interaction between human being and computer |
Country Status (1)
Country | Link |
---|---|
WO (1) | WO2002061729A1 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014232289A (en) * | 2013-05-30 | 2014-12-11 | 三菱電機株式会社 | Guide voice adjustment device, guide voice adjustment method and guide voice adjustment program |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5914769B2 (en) * | 1980-03-04 | 1984-04-06 | 三洋電機株式会社 | audio equipment |
JPS612960B2 (en) * | 1978-08-30 | 1986-01-29 | Fujitsu Ltd | |
JPH04287099A (en) * | 1991-03-15 | 1992-10-12 | Nippondenso Co Ltd | Voice recognition system |
JPH05323993A (en) * | 1992-03-16 | 1993-12-07 | Toshiba Corp | Speech interactive system |
-
2001
- 2001-01-31 WO PCT/JP2001/000628 patent/WO2002061729A1/en active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS612960B2 (en) * | 1978-08-30 | 1986-01-29 | Fujitsu Ltd | |
JPS5914769B2 (en) * | 1980-03-04 | 1984-04-06 | 三洋電機株式会社 | audio equipment |
JPH04287099A (en) * | 1991-03-15 | 1992-10-12 | Nippondenso Co Ltd | Voice recognition system |
JPH05323993A (en) * | 1992-03-16 | 1993-12-07 | Toshiba Corp | Speech interactive system |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014232289A (en) * | 2013-05-30 | 2014-12-11 | 三菱電機株式会社 | Guide voice adjustment device, guide voice adjustment method and guide voice adjustment program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7788095B2 (en) | Method and apparatus for fast search in call-center monitoring | |
US9626959B2 (en) | System and method of supporting adaptive misrecognition in conversational speech | |
CN104778945B (en) | The system and method for responding to natural language speech utterance | |
CN100578614C (en) | Semantic object synchronous understanding implemented with speech application language tags | |
US8064573B2 (en) | Computer generated prompting | |
US20100217591A1 (en) | Vowel recognition system and method in speech to text applictions | |
US8812314B2 (en) | Method of and system for improving accuracy in a speech recognition system | |
KR20120038000A (en) | Method and system for determining the topic of a conversation and obtaining and presenting related content | |
US20130136243A1 (en) | Method and Apparatus For Voice Interactive Messaging | |
JP3437617B2 (en) | Time-series data recording / reproducing device | |
WO2002061729A1 (en) | Method and system for audio interaction between human being and computer | |
CN113885825A (en) | Method and device for intelligently creating application form | |
WO2002067244A1 (en) | Speech recognition method for speech interaction, speech recognition system and speech recognition program | |
MXPA97009035A (en) | System and method for the sound interface with information hiperenlaz |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
AK | Designated states |
Kind code of ref document: A1 Designated state(s): CN JP KR US |
|
AL | Designated countries for regional patents |
Kind code of ref document: A1 Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LU MC NL PT SE TR |
|
121 | Ep: the epo has been informed by wipo that ep was designated in this application | ||
32PN | Ep: public notification in the ep bulletin as address of the adressee cannot be established |
Free format text: "NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 69(1) EPC (EPO FORM 1205A DATED 24/11/03)" |
|
122 | Ep: pct application non-entry in european phase | ||
NENP | Non-entry into the national phase |
Ref country code: JP |