[go: up one dir, main page]

WO2015075975A1 - 対話制御装置及び対話制御方法 - Google Patents

対話制御装置及び対話制御方法 Download PDF

Info

Publication number
WO2015075975A1
WO2015075975A1 PCT/JP2014/070768 JP2014070768W WO2015075975A1 WO 2015075975 A1 WO2015075975 A1 WO 2015075975A1 JP 2014070768 W JP2014070768 W JP 2014070768W WO 2015075975 A1 WO2015075975 A1 WO 2015075975A1
Authority
WO
WIPO (PCT)
Prior art keywords
intention
transition
dialogue
unit
dialog
Prior art date
Application number
PCT/JP2014/070768
Other languages
English (en)
French (fr)
Inventor
洋一 藤井
石井 純
Original Assignee
三菱電機株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 三菱電機株式会社 filed Critical 三菱電機株式会社
Priority to JP2015549010A priority Critical patent/JP6073498B2/ja
Priority to CN201480057853.7A priority patent/CN105659316A/zh
Priority to US14/907,719 priority patent/US20160163314A1/en
Priority to DE112014005354.6T priority patent/DE112014005354T5/de
Publication of WO2015075975A1 publication Critical patent/WO2015075975A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/027Concept to speech synthesisers; Generation of natural phrases from machine-based concepts
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Definitions

  • the present invention relates to a dialog control apparatus and a dialog control method for performing a dialog based on an input natural language and executing a command according to a user's intention.
  • a method for guiding the system to achieve the purpose by dialogue is disclosed as a method for achieving the purpose even if the user does not remember the command for achieving the purpose.
  • One way to achieve this is to construct a dialogue scenario in advance in a tree structure, and follow the intermediate nodes from the root of the tree structure (hereinafter referred to as node activation for transition on the tree structure). Once the end node is reached, there is a way for the user to achieve the goal. Which of the tree structure of the dialogue scenario is followed depends on the keyword held by each node of the tree structure, and which keyword is included in the user's utterance of the intention transition destination activated at that time To decide.
  • each scenario holds a plurality of keywords that characterize the scenario, thereby selecting which scenario from the first user's utterance. And decide whether to proceed with the dialogue.
  • the user selects a different scenario based on multiple keywords assigned to multiple scenarios and routes A method of changing the topic by proceeding with the dialogue is disclosed.
  • the conventional dialog control apparatus is configured as described above, it is possible to select a new scenario when transition is impossible.
  • the tree structure scenario created based on the functional design of the system is different from the expression representing the function assumed by the user, the user is selected during a conversation using the tree structure scenario when a scenario is selected.
  • the uttered content is an utterance that is not assumed by the scenario, it is assumed that there is a possibility of another scenario, and a plausible scenario is selected from the utterance content.
  • priority is given to the selection of the ongoing scenario. Therefore, there is a problem that transition is not performed even when another scenario is more likely.
  • the present invention has been made to solve the above-described problems, and an object of the present invention is to provide an interactive control device that can perform appropriate transitions even for unexpected inputs and execute appropriate commands. To do.
  • the dialogue control device activates an intention estimation unit for estimating an input intention based on data obtained by converting an input in a natural language into a morpheme string, and data having the intention in a hierarchical structure.
  • the intention estimation weight determination unit that determines the intention estimation weight of the intention estimated by the intention estimation unit, and the intention estimation unit's estimation result is corrected according to the intention estimation weight determined by the intention estimation weight determination unit.
  • a transition node determining unit that determines an intention to be newly activated by transition
  • a dialog turn generating unit that generates a dialog turn from one or more intentions activated by the transition node determining unit
  • a dialog turn generation unit that generates a dialog turn from one or more intentions activated by the transition node determining unit
  • a dialog turn generation unit perform Of management, control at least one processing, by repeating this control, finally, in which a dialogue control unit for executing the set command.
  • the dialogue control device of the present invention determines the intention estimation weight of the estimated intention, modifies the estimation result of the intention according to the intention estimation weight, and determines the intention to make a new transition and activate. Therefore, an appropriate transition is performed even for an unexpected input, and an appropriate command can be executed.
  • FIG. 1 is a block diagram showing a dialogue control apparatus according to Embodiment 1 of the present invention.
  • 1 includes a voice input unit 1, a dialog control unit 2, a voice output unit 3, a voice recognition unit 4, a morpheme analysis unit 5, an intention estimation model 6, an intention estimation unit 7, an intention hierarchy graph data 8, An intention estimation weight determination unit 9, a transition node determination unit 10, a dialogue scenario data 11, a dialogue history data 12, a dialogue turn generation unit 13, and a speech synthesis unit 14 are provided.
  • the voice input unit 1 is an input unit that receives voice input by the dialog control device.
  • the dialogue control unit 2 is a control unit that controls the voice recognition unit 4 to the voice synthesis unit 14 to advance the dialogue and finally execute a command assigned to the intention.
  • the voice output unit 3 is an output unit that performs voice output with the dialogue control device.
  • the voice recognition unit 4 is a processing unit that recognizes the voice input from the voice input unit 1 and converts it into text.
  • the morpheme analysis unit 5 is a processing unit that divides the recognition result recognized by the speech recognition unit 4 into morphemes.
  • the intention estimation model 6 is data of an intention estimation model for estimating an intention using a morphological analysis result analyzed by the morphological analysis unit 5.
  • the intention estimation unit 7 is a processing unit that receives the morphological analysis result analyzed by the morpheme analysis unit 5 and outputs the intention estimation result using the intention estimation model 6, and a set of scores representing the intention and the likelihood of the intention. Output a list of
  • a method such as a maximum entropy method can be used.
  • feature an independent word “target, setting” (hereinafter referred to as “feature”) is extracted from the morphological analysis result, and the correct answer “destination”
  • feature an independent word “target, setting”
  • intention estimation using the maximum entropy method is performed.
  • the intention estimation weight determination unit 9 is a processing unit that determines a weight to be added to the intention score estimated by the intention estimation unit 7 from the intention hierarchy information of the intention hierarchy graph data 8 and the activated intention information.
  • the transition node determination unit 10 re-evaluates the list of intentions and intention scores estimated by the intention estimation unit 7 with the weights determined by the intention estimation weight determination unit 9, thereby enabling the intentions to be activated next (a plurality of intents). (Including cases).
  • the dialogue scenario data 11 is data of a dialogue scenario that describes what one or more intentions selected by the transition node determination unit 10 should be executed next.
  • the dialogue history data 12 is dialogue history data for storing a dialogue state.
  • the dialogue history data 12 holds information for returning to the previous state when the operation is changed according to the previous state or when the user denies the confirmation dialogue.
  • the dialog turn generation unit 13 receives the one or more intentions selected by the transition node determination unit 10 and uses the dialog scenario data 11, the dialog history data 12, and the like to generate and execute a system response. This is a dialog turn generation unit that generates a scenario such as determination and waiting for the next input from the user.
  • the voice synthesizer 14 is a processing unit that generates a synthesized voice by using the system response generated by the dialogue turn generator 13 as an input.
  • Fig. 2 shows an example of intention hierarchy data assuming car navigation.
  • nodes 21 to 30 and 86 are intention nodes representing intentions of the intention hierarchy.
  • the intention node 21 is a root node at the top of the intention hierarchy, and an intention node 22 representing a group of navigation functions hangs below the intention node 21.
  • the intention 81 is an example of a special intention set during the transition link.
  • the intentions 82 and 83 are special intentions when a confirmation is requested from the user during the dialogue.
  • the intention 84 is a special intention for returning one dialog state
  • the intention 85 is a special intention for stopping the conversation.
  • FIG. 3 shows an example of the dialogue in the first embodiment.
  • “U:” at the beginning of the line represents the user's utterance.
  • “S:” represents a response from the system.
  • 31, 33, 35, 37, and 39 are system responses, and 32, 34, 36, and 38 are user utterances, which indicate that the conversation progresses in order.
  • FIG. 4 is an example of a transition showing what kind of intention node transition occurs as the dialogue of FIG. 3 progresses.
  • 28 is an intention activated by the user utterance 32
  • 25 is an intention activated again by the user utterance 34
  • 26 is an intention activated by the user utterance 38
  • 41 is preferentially intended when the intention node 28 is activated This is a presumed priority intention estimation range.
  • Reference numeral 42 denotes a transitioned link.
  • FIG. 5 is an explanatory diagram showing an example of the intention estimation result and an example of an expression for correcting the intention estimation result according to the conversation state.
  • Expression 51 shows a score correction expression of the intention estimation result
  • 52 to 56 are intention estimation results.
  • FIG. 6 is a diagram of a dialogue scenario stored in the dialogue scenario data 11. It describes what kind of system response is made to the activated intention node and what kind of command execution is performed on the device operated by the dialog control device.
  • 61 to 67 are dialogue scenarios for the intended nodes.
  • 68 and 69 are interactive scenarios that are registered when it is desired to describe a system response for selection when a plurality of intention nodes are activated. In general, when a plurality of intention nodes are activated, connection is made using a response prompt before execution of the dialogue scenario of each intention node.
  • FIG. 7 shows the dialogue history data 12, and reference numerals 71 to 77 indicate backtrack points for each intention.
  • FIG. 8 is a flowchart showing the flow of dialogue in the first embodiment.
  • the dialogue is executed.
  • FIG. 9 is a flowchart showing a flow of dialog turn generation in the first embodiment.
  • a dialogue turn is generated when only one intention node is activated.
  • a system response for selecting the activation intention node is added to the dialog turn in step ST30.
  • the operation of the dialogue control apparatus will be described.
  • the following operation will be described on the assumption that the input (input using one or more keywords or sentences) is a natural language voice.
  • the following description will be made assuming that the user's utterance is correctly recognized without misrecognition.
  • a dialog is started using an utterance start button that is not explicitly shown.
  • none of the intention nodes in the intention hierarchy graph of FIG. 2 are in an activated state.
  • step ST11 if the user utters the utterance 32 “I want to change the route”, the voice is input from the voice input unit 1 and converted into text by the voice recognition unit 4.
  • the voice recognition ends, the process proceeds to step ST12, and “I want to change the route” is passed to the morpheme analyzer 5.
  • the morpheme analysis unit 5 analyzes the recognition result and performs morpheme analysis such as “root / noun, a / particle, change / noun (sa-variant connection), shi / verb, tai / auxiliary verb”.
  • step ST13 the process moves to step ST13, and the result of the morphological analysis is passed to the intention estimation unit 7, and intention estimation is performed using the intention estimation model 6.
  • the intention estimation unit 7 extracts features used for intention estimation from the morphological analysis trace results.
  • step ST13 a list of features “route, setting” is extracted from the morphological analysis result of the recognition result of the utterance example 32, and the intention estimation unit 7 performs intention estimation based on the feature.
  • step ST14 the process proceeds to step ST14, and the list of intention and score pairs estimated by the intention estimation unit 7 is passed to the transition node determination unit 10, and the score is corrected.
  • the process moves to ST15, and a transition node to be activated is determined.
  • a score correction formula 51 is used to correct the score.
  • i represents intention
  • s i represents the score of intention i.
  • the transition node determination unit 10 determines an activation intention set.
  • the operation of the transition node determination unit 10 includes, for example, the following intention node determination method.
  • (C) When the maximum score is less than 0.1, the activation is not performed because the intention cannot be understood. In the case of the first embodiment, in the situation where the speech “I want to change the route” is performed, the maximum score is 0. Therefore, only the intention “route selection [type ?]” Is activated in the transition node determination unit 10.
  • step ST ⁇ b> 16 the next turn processing list is generated based on the content written in the dialog scenario data 11 in the dialog turn generation unit 13. .
  • the processing flow of FIG. 9 is obtained.
  • step ST21 of FIG. 9 since the intention node activated is only the intention node 28, the process proceeds to step ST22. Since there is no DB search condition in the dialogue scenario 61 of the intention node 28, the process proceeds to step ST28. Since no command is defined in the dialogue scenario 61, the process moves to step ST27, and a system response for selecting the lower intention nodes 29, 30 and the like of the intention node 28 is generated.
  • step ST16 the dialogue control unit 2 receives the dialogue turn, and sequentially processes the processes added to the dialogue turn.
  • the speech of the system response 33 is created by the speech synthesizer 14 and output from the speech output unit 3.
  • the intention estimation result 55 is determined to be the intention of the user's utterance, and the activation node is set as the intention node 25.
  • the dialog turn generation unit 13 generates a dialog turn based on the fact that the activation intention node has transitioned and that there is no link from the transition source. Since it moves to a place where there is no transition, it will be executed after confirmation.
  • the dialogue turn generation unit 13 uses the dialogue scenario 67 to change “$ genre $” of the post-execution prompt “$ genre $ near current location” to “Ramen shop”. ”To generate a system interaction response that reads“ Find a ramen shop near your current location ”.
  • the DB search “SearchDB (current location, ramen shop)” is added to the dialog turn to receive it, and the system selects “Please select from the list”.
  • the response is added to the dialogue turn as a response, and the next process is started (step ST22 ⁇ step ST23 ⁇ step ST24 ⁇ step ST25 in FIG. 9). If there is only one search result as a result of the DB search, the process moves to step ST26, a system response notifying that the search result is one is added to the dialogue turn, and the process moves to step ST27. .
  • the dialogue control unit 2 outputs a system response 37 “searched for a ramen shop near the current location. Please select from the list.” To display a list of ramen stores searched for the database, and the user Waiting to speak.
  • the system response 39 “I made a route through XX ramen” is added to the dialogue turn (step ST22 ⁇ step ST28 ⁇ step ST29 ⁇ step ST27 in FIG. 9).
  • the dialogue control unit 2 executes the received dialogue turns in order.
  • the waypoint addition is executed, and a synthesized sound is output as “I made ramen a waypoint”. Since this dialog turn includes command execution, the dialog is terminated and the first utterance start waiting state is returned.
  • the intention estimation unit that estimates the input intention based on the data obtained by converting the natural language input into the morpheme string, and the data having the intention in a hierarchical structure And an intention estimation weight determination unit for determining an intention estimation weight of the intention estimated by the intention estimation unit based on the intention activated at the time of the target, and an intention estimation weight determined by the intention estimation weight determination unit
  • the estimation result of the intention estimation unit is corrected, and a transition node determination unit that determines an intention to be newly activated by transition, and a conversation turn from one or more intentions activated by the transition node determination unit
  • the intention estimation unit, the intention estimation weight determination unit, the transition node determination unit And at least one of the processes performed by the dialog turn generation unit, and by repeating this control, a dialog control unit that executes the set command is provided.
  • the dialogue control device that performs the dialogue by estimating the intention of the input in the natural language and executes the command set as a result, the input in the natural language is performed.
  • Intent estimated in the intention estimation step based on the intention inference step that estimates the intent of the input based on the data converted into columns, and the intentionally activated data at the target time
  • Intention estimation weight determination step to determine the intention estimation weight of the target
  • a new transition and activation intent are determined
  • Transition node determination step for generating a dialog
  • a dialog turn generation step for generating a dialog turn from one or more intentions activated in the transition node determination step
  • FIG. FIG. 10 is a configuration diagram illustrating the dialogue control apparatus according to the second embodiment.
  • the command history data 15 is data for storing commands executed so far together with execution times.
  • the history considering dialogue turn generation unit 16 generates a dialogue turn using the command history data 15 in addition to the function of the dialogue turn generation unit 13 of the first embodiment using the dialogue scenario data 11 and the dialogue history data 12. It is a processing unit.
  • FIG. 11 shows an example of the dialogue in the second embodiment.
  • 101, 103, 105, 106, 108, 109, 111, 113, 115 are system responses
  • 102, 104, 107, 110, 112, 114 are user utterances.
  • FIG. 12 is a diagram showing an example of the intention estimation result.
  • 121 to 124 are intention estimation results.
  • FIG. 13 is an example of the command history data 15.
  • the command history data 15 includes a command execution history list 15a and a command misunderstanding possibility list 15b.
  • the command execution history in the command execution history list 15a records the result of command execution with time.
  • the command misunderstanding possibility list 15b is a list that is registered when an intention that is not an execution intention among the option intentions in the command execution history is executed within a predetermined time.
  • FIG. 14 is a flowchart of a process for adding data to the command history data 15 when a turn is generated by the history considering dialogue turn generation unit 16 according to the second embodiment.
  • FIG. 15 is a flowchart showing a process as to whether or not confirmation is to be made to the user when the intention to execute a command is determined by the history considering dialogue turn generation unit 16.
  • the basic operation in the second embodiment is the same as that in the first embodiment, but the difference from the first embodiment is that the operation of the dialog turn generation unit 13 is performed by adding the command history data 15 and considering the history. This is the operation of the dialog turn generation unit 16. That is, the difference from the first embodiment is that, when the misinterpretation intention is finally selected as an intention with a command definition in the system response, a confirmation is not made instead of generating a scenario to be executed directly. Is to generate a dialogue turn to take.
  • the dialogue in the second embodiment shows a case where the user does not understand the application well, adds a registered place with the intention of setting the destination, and later notices and sets the destination again.
  • the overall flow of the dialog is the same as that of the first embodiment and follows the flow of FIG. 8, and thus the description of the same operation as that of the first embodiment is omitted. Also, the generation of the dialog turn is the same as the flow of FIG.
  • the transition node determination unit 10 determines the intention node to be activated based on the intention estimation result.
  • the intention node to be activated is determined under the same conditions as those in the first embodiment, it becomes (b), and the intention nodes 26, 27, and 86 are activated.
  • the intended node is not activated. For example, if the destination is not set, the intended node 26 is not activated because the waypoint cannot be set.
  • the destination node is not set and the intention node 26 is not activated.
  • Step ST21 Step ST30.
  • the finally completed scenario is transferred to the dialogue control unit 2, and a system response 103 is output, and the user is awaited to speak.
  • the intention node 86 is selected as the intention estimation result
  • the dialogue scenario 65 is selected, and the command “Add (registered place) is selected.
  • Step ST21 ⁇ step ST22 ⁇ step ST28 ⁇ step ST29 in FIG. 9).
  • Step ST27 the history considering dialogue turn generation unit 16 determines whether to register in the command execution history according to the flow of FIG.
  • step ST31 it is determined whether the intention number immediately before executing the command is 0 or 1.
  • step ST36 the command execution history 131 is added to the command execution history list.
  • step ST37 when an option intention that has not been executed within a certain period of time is executed, it is registered in the command misinterpretability list 15b. Since the execution history 132 does not exist, the process ends without doing anything.
  • step ST31 the process moves to step ST32. Since there is no immediately preceding intention in step ST32, the process moves to step ST33, and the command execution history 132 is registered in step ST36.
  • step ST37 When the command execution history is registered, in step ST37, if an intention that has not been selected is selected among ambiguous option intentions within a certain time (for example, 10 minutes), there is a possibility that the user may misunderstand. If there is, the process moves to step ST38 and is registered in the command misunderstanding possibility list 15b. Since there is a possibility that the destination setting is misunderstood as the registered place setting from the command execution histories 131 and 132, a command misunderstanding possibility 133 is added, and the number of times of confirmation and the number of correct intention executions are set to 1.
  • step ST42 a system response 113 urging confirmation is generated, “ ⁇ Center is not a destination but a registered location. Are you sure?”.
  • step ST43 the number of confirmations is incremented by 1, and the process ends.
  • step ST44 when the scheduled execution intention does not exist in the command misunderstanding possibility list 15b, the process moves to step ST44 to execute the scheduled execution intention.
  • the destination is set without using the word “Registration”, and the correct answer intention is not increased.
  • the number of executions will increase. That is, of the misinterpretation intentions present in the command misinterpretation list 15b, the intentions that have not become execution intentions are not executed within a certain time.
  • the correct answer execution count / check count exceeds 2, for example, the command misunderstanding possibility list data is deleted to stop the check, so that the dialog can be smoothly advanced.
  • a dialog turn is generated from one or more intentions activated by the transition node determination unit, and the dialog Record the command executed as a result of the above, and turn the dialogue using the list registered when the intention that is not the execution intention among the option intentions in the command execution history is executed within a certain period of time. Since a history-considering dialogue turn generation unit for generating a command is provided, an appropriate transition can be performed and an appropriate command can be executed even if the user may misunderstand the command.
  • the history-considering dialogue turn generation unit confirms when an intention that is not an execution intention among the option intentions in the command execution history is executed within a certain time.
  • a dialog turn to be generated is generated, and after the dialog turn is generated, among the intention intentions existing in the list, the intention that has not been executed is not executed within a certain time, and this is repeated a set number of times Deletes the list and stops generating interactive turns to confirm, so if the user doesn't understand the appropriate command, it can take appropriate action, while the user When it is understood, it is possible to prevent performing unnecessary check.
  • FIG. 16 is a configuration diagram illustrating the dialogue control apparatus according to the third embodiment.
  • the dialogue control apparatus shown in the figure includes an additional transition link data 17 and a transition link control unit 18 in addition to the voice input unit 1 to the voice synthesis unit 14. Since the configurations of the voice input unit 1 to the voice synthesis unit 14 are the same as those of the first embodiment, description thereof is omitted here.
  • the additional transition link data 17 is data in which a transition link when an unexpected transition is executed is recorded.
  • the transition link control unit 18 is a control unit that adds data to the additional transition link data 17 and changes intention hierarchy data based on the additional transition link data 17.
  • FIG. 17 shows an example of the dialogue in the third embodiment.
  • the utterance in FIG. 17 is an example of the dialog executed at another time after the utterance in FIG. 3 is performed and the command is executed.
  • 171, 173, 175, 177, 178, 180, 182, 184, 186 are system responses
  • 172, 174, 176, 179, 181, 183, 185 are user utterances, Indicates that it is progressing.
  • FIG. 18 is an example of the intention estimation result in the third embodiment. Reference numerals 191 to 195 denote intention estimation results.
  • FIG. 19 is an example of the additional transition link data 17.
  • 201, 202 and 203 are additional transition links.
  • FIG. 20 is a flowchart illustrating processing when the transition link control unit 18 performs transition link integration processing.
  • FIG. 21 is an example of intention hierarchy data after integration.
  • the transition of link 42 in FIG. 4 is selected.
  • the intention estimation result 191 is converted into the data of the additional transition link data 17 through the intention estimation weight determination unit 9 and the transition link control unit 18.
  • the dialog in FIG. 17 continues.
  • the dialog is started by the system response 171, and the user utters the user utterance 172 “I want to change the route” in the same way as the dialog of FIG. 3.
  • the intention estimation unit 7 generates the intention estimation result 52 of FIG. 5, the intention node 28 is selected, and the system response 173 is output in the same way as the dialog of FIG. 3 to wait for the user's utterance.
  • the intention estimation results 192 and 193 are obtained.
  • the transition intention is calculated by assuming that the transition link 42 exists, and the intention estimation results 194 and 195 are obtained.
  • the transition node determination unit 10 activates only the intention node 25 as a transition node. Since the dialog turn generation unit 13 proceeds with the transition link 42 being present, the system response 175 is added to the scenario without confirmation from the user, and the process is transferred to the dialog control unit 2.
  • the dialogue scenario 63 is selected, and there is a command, so the command is executed and the processing ends.
  • 1 is added to the number of transitions of the additional transition link 201.
  • step ST51 When the number of transitions of the additional transition link is updated, it is determined whether the link can be changed to a higher intention in the intention hierarchy according to the flow of FIG.
  • step ST51 since the number of transitions of the additional transition link 201 is increased by 1, the transition destination where the transition source of the additional transition link 201 matches is extracted.
  • N 2.
  • the condition of N in step ST51 is 3, there is no corresponding upper hierarchy intention in step ST52, so “YES” and the process is ended.
  • step ST52 since it is “NO”, the process moves to step ST53. Since the main intention of the upper hierarchy intention is common to “peripheral search”, “YES” is set.
  • step ST54 Since the main intention of the upper hierarchy intention is common to “peripheral search”, “YES” is set.
  • the transition source Since there is a transition control unit that adds the link information of the transition destination from and the transition node determination unit treats the link added by the transition control unit in the same way as a normal link and decides the intention. Appropriate transitions are made to the input, and an appropriate command can be executed.
  • the transition link control unit is not expected when there are a plurality of transitions to unexpected intentions and a plurality of unexpected intentions have a common intention as a parent node. Since the transition to the intention is replaced with the transition to the parent node, the command desired by the user can be executed with less interaction.
  • Embodiments 1 to 3 the description has been given in Japanese. However, by changing the feature extraction method for intention estimation for each language, various languages such as English, German, and Chinese can be used. It is possible to apply to.
  • the input natural language text can be analyzed using a method such as pattern matching. It is also possible to directly execute the intention estimation process after extracting the facility $, $ address $, etc.
  • the input is described as voice input.
  • input means such as a keyboard without using voice recognition as input means.
  • Embodiments 1 to 3 intention estimation is performed by processing the speech recognition result text in the morphological analysis unit. However, if the speech recognition engine result itself includes the morphological analysis result, the information is used directly. Intention estimation.
  • Embodiments 1 to 3 have been described using an example in which a learning model based on the maximum entropy method is assumed as an intention estimation method, the intention estimation method is not limited.
  • the dialogue control apparatus and the dialogue control method according to the present invention prepare a plurality of dialogue scenarios configured in advance in a tree structure, and from one tree-structure scenario to another tree-structure scenario based on the dialogue with the user.
  • a plurality of dialogue scenarios configured in advance in a tree structure, and from one tree-structure scenario to another tree-structure scenario based on the dialogue with the user.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • User Interface Of Digital Computer (AREA)
  • Machine Translation (AREA)
  • Navigation (AREA)

Abstract

 意図推定重み決定部9は、意図階層グラフデータ8と、活性化している意図を元に意図推定重みを決定する。遷移ノード決定部10は、意図推定重みに従って意図推定結果を修正した上で、新たに遷移して活性化する意図を決定する。対話ターン生成部13は、活性化した意図から対話のターンを生成する。対話制御部2は、対話のターンにより新たな入力が与えられた場合、意図推定部7、意図推定重み決定部9、遷移ノード決定部10および対話ターン生成部13のうち、少なくともいずれかの処理を制御し、これを繰り返すことにより、最終的に、設定されたコマンドを実行する。

Description

対話制御装置及び対話制御方法
 この発明は、入力された自然言語に基づいて対話を行い、ユーザの意図に応じたコマンドを実行する対話制御装置および対話制御方法に関するものである。
 近年、人間が話す言葉を音声入力し、その認識結果を用いて、操作を実行する方法が注目されている。この技術は、携帯電話やカーナビなどの音声インタフェースとして利用されているが、基本的な方法としては、予めシステムが想定した音声認識結果と操作を対応付け、音声認識結果が想定したものの場合には、操作を実行するというものである。この方法は、従来の手操作と比べると、音声の発話によって直接操作が行えるため、ショートカット機能として有効に働く。一方で、ユーザは操作を実行するためにシステムが待ち受けている言葉を発話する必要があり、システムが扱う機能が増えていくと、憶えておかなくてはならない言葉が増えていく。また、一般には、取り扱い説明書を十分に理解した上で使用するユーザは少なく、結果的に操作のために何をどう言えばいいのかが分からないため、実際には憶えている機能以外、音声で操作できないという問題がある。
 そこで、それを改良した従来の技術として、ユーザが目的を達成するためのコマンドを憶えていなくても目的を達成するための方法として、対話によってシステムが誘導して目的を達成に導く方法が開示されている。その実現の方法の1つに、予め対話シナリオを木構造に構成しておき、木構造のルートから中間ノードを辿っていき(以後、木構造上を遷移することをノードが活性化するという)、末端ノードに到達した時点で、ユーザが目的を達成する方法があった。対話シナリオの木構造のどれを辿っていくかは、木構造の各ノードが保持しているキーワードを、その時点で活性化している意図の遷移先をユーザの発話中にどのキーワードが含まれるかで決定する。
 さらに、例えば、特許文献1に記載されたような技術では、そのようなシナリオを複数持ち、各シナリオがそのシナリオを特徴付ける複数のキーワードを保持することで、最初のユーザの発話からどのシナリオを選択して対話を進めるかを決定する。また、ユーザが発話した内容が現在進行中のシナリオの木構造の遷移先に一致するものが無かった場合に、複数のシナリオに付与された複数のキーワードを元に別のシナリオを選択してルートから対話を進めることで、話題を替える方法が開示されている。
特開2008-170817号公報
 従来の対話制御装置は上記のように構成されていたので、遷移が不可能であった場合に新たなシナリオを選択するということは可能である。しかしながら、例えばシステムの機能設計を元に作成された木構造のシナリオとユーザが想定する機能を表す表現が異なった場合に、あるシナリオが選択されて木構造のシナリオを利用した対話中にユーザが発話した内容がシナリオ想定外の発話だった場合には、別のシナリオの可能性があるとして、発話内容から尤もらしいシナリオを選択することになる。発話の内容が曖昧な場合には、進行中のシナリオの選択が優先されるため、別シナリオのほうがより尤もらしい場合でも遷移が行われないという課題があった。また、従来の方法はシナリオ自体を動的に変更することは出来ないため、システムの機能設計を元に作成された木構造のシナリオが、ユーザが想定する機能構造と異なったときや、ユーザが機能を誤解していたときに、木構造のシナリオをカスタマイズすることが出来ないという課題があった。
 この発明は上記のような課題を解決するためになされたもので、想定外の入力に対しても適切な遷移を行い、適切なコマンドを実行することのできる対話制御装置を得ることを目的とする。
 この発明に係る対話制御装置は、自然言語による入力を形態素列に変換したデータに基づいて入力の意図を推定する意図推定部と、意図を階層構造としたデータと対象とする時点で活性化している意図とを元に、意図推定部で推定された意図の意図推定重みを決定する意図推定重み決定部と、意図推定重み決定部で決定された意図推定重みに従って意図推定部の推定結果を修正した上で、新たに遷移して活性化する意図を決定する遷移ノード決定部と、遷移ノード決定部で活性化した1つまたは複数の意図から対話のターンを生成する対話ターン生成部と、対話ターン生成部で生成された対話のターンにより新たな自然言語による入力が与えられた場合、意図推定部、意図推定重み決定部、遷移ノード決定部および対話ターン生成部が行う処理のうち、少なくともいずれかの処理を制御し、この制御を繰り返すことにより、最終的に、設定されたコマンドを実行する対話制御部とを備えたものである。
 この発明の対話制御装置は、推定された意図の意図推定重みを決定し、この意図推定重みに従って意図の推定結果を修正した上で、新たに遷移して活性化する意図を決定するようにしたので、想定外の入力に対しても適切な遷移が行われ、適切なコマンドを実行することができる。
この発明の実施の形態1による対話制御装置を示す構成図である。 この発明の実施の形態1による対話制御装置の意図階層データの一例を示す説明図である。 この発明の実施の形態1による対話制御装置の対話例を示す説明図である。 この発明の実施の形態1による対話制御装置の対話での意図遷移を示す説明図である。 この発明の実施の形態1による対話制御装置の意図推定結果を示す説明図である。 この発明の実施の形態1による対話制御装置の対話シナリオデータを示す説明図である。 この発明の実施の形態1による対話制御装置の対話履歴データを示す説明図である。 この発明の実施の形態1による対話制御装置の対話の流れを示すフローチャートである。 この発明の実施の形態1による対話制御装置の対話ターンの生成処理の流れを示すフローチャートである。 この発明の実施の形態2による対話制御装置を示す構成図である。 この発明の実施の形態2による対話制御装置の対話例を示す説明図である。 この発明の実施の形態2による対話制御装置の意図推定結果を示す説明図である。 この発明の実施の形態2による対話制御装置のコマンド履歴データを示す説明図である。 この発明の実施の形態2による対話制御装置のコマンド履歴データへの追加処理の流れを示すフローチャートである。 この発明の実施の形態2による対話制御装置のユーザへの確認を行うか否かを判定する処理の流れを示すフローチャートである。 この発明の実施の形態3による対話制御装置を示す構成図である。 この発明の実施の形態3による対話制御装置の対話例を示す説明図である。 この発明の実施の形態3による対話制御装置の意図推定結果を示す説明図である。 この発明の実施の形態3による対話制御装置の追加遷移リンクデータを示す説明図である。 この発明の実施の形態3による対話制御装置の追加遷移リンクの変更処理の流れを示すフローチャートである。 この発明の実施の形態3による対話制御装置の変更後の意図階層データデータを示す説明図である。
 以下、この発明をより詳細に説明するために、この発明を実施するための形態について、添付の図面に従って説明する。
実施の形態1.
 図1は、この発明の実施の形態1による対話制御装置を示す構成図である。
 図1に示す対話制御装置は、音声入力部1、対話制御部2、音声出力部3、音声認識部4、形態素解析部5、意図推定モデル6、意図推定部7、意図階層グラフデータ8、意図推定重み決定部9、遷移ノード決定部10、対話シナリオデータ11、対話履歴データ12、対話ターン生成部13、音声合成部14を備えている。
 音声入力部1は、対話制御装置で音声入力を受け付ける入力部である。対話制御部2は、音声認識部4~音声合成部14を制御して対話を進行し、最終的に意図に割り付けられたコマンドを実行する制御部である。音声出力部3は、対話制御装置で音声出力を行う出力部である。音声認識部4は、音声入力部1から入力した音声を認識してテキストに変換する処理部である。形態素解析部5は、音声認識部4で認識した認識結果を形態素に分割する処理部である。意図推定モデル6は、形態素解析部5で解析した形態素解析結果を使い意図を推定するための意図推定モデルのデータである。意図推定部7は、形態素解析部5で解析した形態素解析結果を入力として、意図推定モデル6を使って意図推定結果を出力する処理部であり、意図とその意図の尤もらしさを表すスコアの組のリストを出力する。
 例えば、意図は「<主意図>[<スロット名>=<スロット値>,…]」のような形で表現される。例としては、「目的地設定[施設=?]」や「目的地設定[施設=$施設$(=○○ラーメン)]」のように表現できる。「目的地設定[施設=?]」は目的地を設定したいが具体的な施設名が決定していない状態を示し、「目的地設定[施設=$施設$(=○○ラーメン)]」は「○○ラーメン」という具体的な施設を目的地に設定したい状態を示す。
 ここで、意図推定部7での意図推定方式は、例えば最大エントロピー法などの方法が利用できる。具体的には、「目的地を設定したい」という発話に対して、形態素解析結果から「目的地、設定」という自立語単語(以下、素性と呼ぶ)を抽出したものと、正解意図「目的地設定[施設=?]」の組を与えておき、大量に収集した素性と意図との組から統計的手法によって入力素性のリストに対して、どの意図がどれだけ尤もらしいかを推定する方法が利用できる。以下では最大エントロピー法を利用した意図推定を行うものとして説明する。
 意図階層グラフデータ8は、意図を階層的に表現したものである。例えば、「目的地設定[施設=?]」、「目的地設定[施設=$施設$(=○○ラーメン)]」のような形で表現される2つの意図は、上位により抽象的な意図「目的地設定[施設=?]」が階層の上位に存在し、その下に具体的スロットが埋まった「目的地設定[施設=$施設$(=○○ラーメン)]」が位置づけられる。また、対話制御部2で推定した現在活性化中の意図が何かも保持している。
 意図推定重み決定部9は、意図階層グラフデータ8の意図の階層情報と活性化した意図の情報から、意図推定部7で推定した意図のスコアにつける重みを決定する処理部である。遷移ノード決定部10は、意図推定部7で推定した意図と意図のスコアのリストを、意図推定重み決定部9で決定した重みによって再評価することで、次に活性化するべき意図(複数の場合も含む)を選択する処理部である。
 対話シナリオデータ11は、遷移ノード決定部10によって選択された1つまたは複数の意図が、次に何を実行すべきかを記述した対話シナリオのデータである。また、対話履歴データ12は、対話の状態を記憶しておく対話履歴のデータである。対話履歴データ12は、直前の状態に応じて、動作を変更したり、確認対話を行ったときにユーザが否定を行ったりした場合に直前の状態に戻るための情報を保持している。対話ターン生成部13は、遷移ノード決定部10によって選択された1つまたは複数の意図を入力として、対話シナリオデータ11、対話履歴データ12などを利用して、システム応答の生成、実行する操作の決定、ユーザからの次の入力の待ち受けなどのシナリオを生成する対話ターンの生成部である。音声合成部14は、対話ターン生成部13で生成したシステム応答を入力として合成音声を生成する処理部である。
 図2はカーナビゲーションを想定した意図階層データの例である。図中、ノード21~30,86は、意図階層の意図を表す意図ノードである。意図ノード21は意図階層の一番上のルートノードで、その下には、ナビゲーション機能のまとまりを表す意図ノード22がぶら下がる。意図81は、遷移リンクの間に設定される特殊意図の例である。意図82,83は、対話時にユーザに対して確認を要求した場合の特殊意図である。意図84は、対話状態を一つ戻るための特殊意図、意図85は、対話を中止するための特殊意図である。
 図3は、実施の形態1における対話の例である。行頭の「U:」は、ユーザの発話を表している。「S:」はシステムからの応答を表している。31,33,35,37,39はシステム応答、32,34,36,38はユーザ発話であり、順番に対話が進んでいることを示している。
 図4は、図3の対話が進むに従って、どのような意図ノードの遷移が起こるかを示した遷移の例である。28はユーザ発話32にて活性化した意図、25はユーザ発話34で活性化しなおした意図、26はユーザ発話38によって活性化した意図、41は意図ノード28が活性化したときに優先的に意図推定される優先意図推定範囲である。42は、遷移したリンクを示している。
 図5は、意図推定結果の例と、対話状態によって意図推定結果を修正する式の例とを示した説明図である。式51は意図推定結果のスコア修正式を示し、52~56は意図推定結果である。
 図6は対話シナリオデータ11に格納されている対話シナリオの図である。活性化した意図ノードに対して、どのようなシステム応答を行うか、また対話制御装置が操作する機器にどのようなコマンド実行を行うかが記述されている。61~67は意図ノードに対する対話シナリオである。一方、68,69は、複数の意図ノードが活性化している場合に、選択をさせるためのシステム応答を記述したい場合に登録しておく対話シナリオである。一般には、複数の意図ノードが活性化した場合は、それぞれの意図ノードの対話シナリオの実行前応答プロンプトを使って接続する。
 図7は、対話履歴データ12であり、71~77は、各意図に対するバックトラックポイントを示している。
 図8は実施の形態1における対話の流れを示すフローチャートである。ステップST11からステップST17までのステップに従うことで、対話が実行される。
 図9は実施の形態1における対話ターン生成の流れを示すフローチャートである。ステップST21からステップST29までのステップに従うことで、意図ノードが1つだけ活性化した場合の対話ターンが生成される。一方、意図ノードが複数活性化した場合は、ステップST30において、活性化意図ノード選択のためのシステム応答を対話ターンに追加する。
 次に、実施の形態1の対話制御装置の動作について説明する。本実施の形態では、入力(1つまたは複数のキーワードや文での入力)は自然言語の音声であるとして以下の動作を説明する。また、本発明では、音声に関する誤認識は関係しないので、以降、ユーザの発話は誤認識無く正しく認識されるものとして説明する。実施の形態1では、明示しない発話開始ボタンを使い、対話が開始されるものとする。また、対話を開始する前は、図2の意図階層グラフの意図ノードはどれも活性化していない状態にある。
 最初にユーザが発話開始ボタンを押すと、対話が開始されシステムが対話開始を促すシステム応答と共にビープ音を出力する。例えば、発話開始ボタンを押すと、システム応答31「ピッと鳴ったらお話ください」とシステム応答し、ビープ音が鳴ると共に音声認識部4が認識可能状態となる。ステップST11に移ると、そこでユーザは発話32「ルートを変更したい」と発話したとすると、音声入力部1から音声が入力され、音声認識部4でテキストに変換される。ここでは、正しく認識されたとする。音声認識が終了すると、ステップST12に処理を移し、「ルートを変更したい」が形態素解析部5に渡される。形態素解析部5は、認識結果を解析して、「ルート/名詞、を/助詞、変更/名詞(サ変接続)、し/動詞、たい/助動詞」のように形態素解析を行う。
 続いて、ステップST13に処理を移し、形態素解析された結果は意図推定部7に渡され、意図推定モデル6を使って意図推定を行う。意図推定部7では、形態素解析形跡結果から意図推定に使う素性を抽出する。先ず、ステップST13では、発話例32の認識結果の形態素解析結果からは「ルート、設定」という素性のリストが抽出され、その素性を元に意図推定部7で意図推定が行われる。このとき、意図推定の結果は、意図推定結果52のようになり、意図「ルート選択[タイプ=?]」のスコア0.972が得られる(実際には、それ以外の意図にもスコアが振られている)。
 意図推定結果が得られると、ステップST14に処理を移し、意図推定部7で推定した意図とスコアの組のリストは、遷移ノード決定部10に渡され、スコアの修正を行った上で、ステップST15に処理を移し、活性化させる遷移ノードを決定する。スコアの修正は例えばスコア修正式51のような形のものを使う。式中、iは意図を表し、sは意図iのスコアを表す。関数I(s)は、意図iが活性化した意図の下位階層に位置する優先意図推定範囲ならば1.0を、優先意図推定範囲外ならばα(0≦α≦1)を返すような関数として定義する。なお、実施の形態1ではα=0.01とする。すなわち、活性化した意図から遷移できない意図の場合には、スコアを落としてスコアの総和が1となるように修正する。「ルートを変更したい」の発話が行われた状況では、意図階層グラフでどのノードも活性化した状態に無いため全ての意図スコアが0.01倍され総和で割るので、結局修正後のスコアは元のスコアとなる。
 次に、ステップST15では、遷移ノード決定部10で活性化意図セットを決定する。遷移ノード決定部10の動作としては、例えば次のような意図ノードの決定方法がある。
(a)最大スコアが0.6以上の場合は、最大スコアのノードを1つだけ活性化
(b)最大スコアが0.6未満の場合は、スコアが0.1以上のノードを複数活性化
(c)最大スコアが0.1未満の場合は、意図理解できなかったとして活性化しない
 実施の形態1の場合、「ルートを変更したい」の発話が行われた状況では、最大スコアが0.972となるので、意図「ルート選択[タイプ=?]」だけが遷移ノード決定部10で活性化する。
 遷移ノード決定部10で、意図ノード28が活性化すると、ステップST16に処理を移し、対話ターン生成部13にて対話シナリオデータ11に書かれた内容を元に次のターンの処理リストを生成する。具体的には図9の処理フローとなる。先ず、図9のステップST21において、活性化している意図ノードは意図ノード28だけなので、ステップST22に処理を移す。意図ノード28の対話シナリオ61には、DB検索条件が無いので、ステップST28に処理を移す。対話シナリオ61にはコマンドも定義されていないので、ステップST27に処理を移し、意図ノード28の下位意図ノード29,30などを選択するためのシステム応答を生成する。応答は、対話シナリオ61が選択され、実行前プロンプトの「ルートを変更します。有料優先、一般優先などが選べます。」がシステム応答として対話ターンに追加され、図9のフローは終了する。ステップST16では、対話制御部2は対話ターンを受け取り、対話ターンに追加された処理を順番に処理する。システム応答33の音声を音声合成部14で作成し、音声出力部3から出力する。対話ターンの実行が終了すると、ステップST17に処理を移す。対話ターンにはコマンドがなかったので、処理をステップST11に移して、ユーザの入力待ちとなる。
 音声入力待ちとなった時点で1つの対話ターンが完了し、対話制御部2で処理を継続する。以下、図8のフローが繰り返されるので詳細な記述は省く。ユーザ発話34「近くのラーメン屋を探して」が入力されて、音声認識部4で正しく認識され、形態素解析部5で形態素解析され、その形態素解析結果を元に、意図推定部7で意図推定した結果が、意図推定結果53,54のように得られたとする。次に、遷移ノード決定部10では、この時点で、意図ノード28だけが活性化しているため、優先意図推定範囲41の意図推定結果54はそのままで、優先意図推定範囲外の意図推定結果53はα倍して、スコア修正式51に従って、スコアを再計算する。再計算の結果は意図推定結果55,56のようになり、重みを付けた上でも、意図推定結果55をユーザの発話の意図とすべきと決定し活性化ノードを意図ノード25とする。
 対話ターン生成部13は、活性化意図ノードが遷移したことと、遷移元からのリンクが無いことを踏まえて、対話ターンを生成する。遷移がないところに移動するので、確認のうえ実行することとする。まず、対話シナリオ67が選択されると、実行前プロンプトの「現在地近くの$ジャンル$を検索します。」が選択され、意図推定結果の「$ジャンル$(=ラーメン屋)」の情報から、「$ジャンル$」を「ラーメン屋」で置き換え、システム応答「現在地近くのラーメン屋を検索します。」を生成する。さらに、確認応答を追加して「現在地近くのラーメン屋を検索します。よろしいですか」をシステム応答とする。そしてコマンドが定義されていないので、対話が継続するとして、ユーザ入力待ちとなる。
 ここでユーザが、ユーザ発話36「はい。」のように発話すれば、音声認識部4、形態素解析部5、意図推定部7で確認用の特殊意図「確認[値=YES]」が生成される。遷移ノード決定部10の処理は、有効な特殊意図82「確認[値=YES]」選択され、意図ノード25への遷移が確定する(遷移リンク42で示す)。なお、ここで、ユーザが「いいえ」のように、否定する発話を行った場合は、意図推定部7で特殊意図「確認[値=NO]」が高スコアの意図推定結果として推定され、遷移ノード決定部10の処理は、特殊意図83「確認[値=NO]」が有効であることから、図7に示す対話履歴データ12を元に直前のバックトラックポイントまで戻り、新たな入力をユーザに促す対話を続けることとなる。
 次に、意図ノード25の状態が確定すると、対話ターン生成部13で対話シナリオ67を使って、実行後プロンプト「現在地近くの$ジャンル$を検索しました」の「$ジャンル$」を「ラーメン屋」で置換して、「現在地近くのラーメン屋を検索しました」とシステム対話応答を生成する。次に、対話シナリオ67にDB検索条件があるため、DB検索「SearchDB(現在地、ラーメン屋)」を実行するよう対話ターンに追加、その結果を受けて、「リストから選択してください」をシステム応答として対話ターンに追加して次の処理に移る(図9におけるステップST22→ステップST23→ステップST24→ステップST25)。なお、DB検索の結果検索結果が1件しかなかった場合は、ステップST26に処理を移して検索結果が1件であったことを知らせるシステム応答を対話ターンに追加してステップST27に処理を移す。
 対話制御部2は受け取った対話ターンに従って、システム応答37「現在地近くのラーメン屋を検索しました。リストから選択してください。」と音声出力し、データベース検索したラーメン店のリストを表示し、ユーザの発話待ちの状態になる。ユーザがユーザ発話38「○○ラーメンに立ち寄って」を発話し、正しく音声認識、形態素解析、意図理解がされると、意図「経由地設定[施設=$施設$]」が意図推定され、意図「経由地設定[施設=$施設$]」は、意図ノード25の下位であることから意図ノード26への遷移が実行される。
 結果として、意図ノード26「経由地設定[施設=$施設$]」の対話シナリオ63が選択され、コマンド「Add(経由地,○○ラーメン)」を対話ターンに追加する。続いて、システム応答39「○○ラーメンを経由地にしました」を対話ターンに追加する(図9におけるステップST22→ステップST28→ステップST29→ステップST27)。
 最後に、対話制御部2は、受け取った対話ターンを順番に実行する。すなわち、経由地の追加を実行して、さらに「○○ラーメンを経由地にしました」と合成音で出力する。この対話ターンには、コマンド実行が含まれているので、対話を終了して、最初の発話開始待ち状態に戻る。
 以上説明したように、実施の形態1の対話制御装置によれば、自然言語による入力を形態素列に変換したデータに基づいて入力の意図を推定する意図推定部と、意図を階層構造としたデータと対象とする時点で活性化している意図とを元に、意図推定部で推定された意図の意図推定重みを決定する意図推定重み決定部と、意図推定重み決定部で決定された意図推定重みに従って意図推定部の推定結果を修正した上で、新たに遷移して活性化する意図を決定する遷移ノード決定部と、遷移ノード決定部で活性化した1つまたは複数の意図から対話のターンを生成する対話ターン生成部と、対話ターン生成部で生成された対話のターンにより新たな自然言語による入力が与えられた場合、意図推定部、意図推定重み決定部、遷移ノード決定部および対話ターン生成部が行う処理のうち、少なくともいずれかの処理を制御し、この制御を繰り返すことにより、最終的に、設定されたコマンドを実行する対話制御部とを備えたので、想定外の入力に対しても適切な遷移が行われ、ユーザの要求に合った処理を行うことができる。
 また、実施の形態1の対話制御方法によれば、自然言語による入力の意図を推定して対話を行い、その結果として設定されたコマンドを実行する対話制御装置を用い、自然言語による入力を形態素列に変換したデータに基づいて入力の意図を推定する意図推定ステップと、意図を階層構造としたデータと対象とする時点で活性化している意図とを元に、意図推定ステップで推定された意図の意図推定重みを決定する意図推定重み決定ステップと、意図推定重み決定ステップで決定された意図推定重みに従って意図推定ステップの推定結果を修正した上で、新たに遷移して活性化する意図を決定する遷移ノード決定ステップと、遷移ノード決定ステップで活性化した1つまたは複数の意図から対話のターンを生成する対話ターン生成ステップと、対話ターン生成ステップで生成された対話のターンにより新たな自然言語による入力が与えられた場合、意図推定ステップ、意図推定重み決定ステップ、遷移ノード決定ステップおよび対話ターン生成ステップのうち、少なくともいずれかのステップを制御し、この制御を繰り返すことにより、最終的に、設定されたコマンドを実行する対話制御ステップとを備えたので、想定外の入力に対しても適切な遷移が行われ、ユーザの要求に合った処理を行うことができる。
実施の形態2.
 図10は、実施の形態2の対話制御装置を示す構成図である。図中、音声入力部1~対話履歴データ12及び音声合成部14は実施の形態1と同様であるため、対応する部分に同一符号を付してその説明を省略する。
 コマンド履歴データ15は、これまで実行したコマンドを実行時刻と共に記憶しておくデータである。また、履歴考慮対話ターン生成部16は、対話シナリオデータ11、対話履歴データ12を用いる実施の形態1の対話ターン生成部13の機能に加えて、コマンド履歴データ15を用いて対話ターンを生成する処理部である。
 図11は、実施の形態2における対話の例である。実施の形態1における図3と同様に、101,103,105,106,108,109,111,113,115はシステム応答、102,104,107,110,112,114はユーザ発話であり、順番に対話が進んでいることを示している。図12は意図推定結果の例を示した図である。121~124は意図推定結果である。
 図13は、コマンド履歴データ15の例である。コマンド履歴データ15は、コマンド実行履歴リスト15aとコマンド誤解可能性リスト15bから構成される。コマンド実行履歴リスト15aにおけるコマンド実行履歴はコマンドが実行された結果を時間と共に記録しておく。また、コマンド誤解可能性リスト15bはコマンド実行履歴中の選択肢意図のうち実行意図とならなかった意図が一定時間以内に実行された場合に登録されるリストである。
 図14は、実施の形態2における履歴考慮対話ターン生成部16でターンを生成したときのコマンド履歴データ15へのデータ追加処理のフローチャートである。また、図15は履歴考慮対話ターン生成部16でコマンド実行予定意図が決まったときに、ユーザに確認を取るかどうかについての処理を示すフローチャートである。
 次に、実施の形態2の対話制御装置の動作について説明する。実施の形態2での基本的な動作は実施の形態1と同様であるが、実施の形態1との違いは、対話ターン生成部13の動作が、コマンド履歴データ15を加えて動作する履歴考慮対話ターン生成部16の動作となっていることである。すなわち、実施の形態1との相違点としては、システム応答にて誤解可能性意図が最終的にコマンド定義のある意図として選択された場合に、直接実行するシナリオを生成するのではなく、確認をとる対話ターンを生成することである。
 実施の形態2における対話は、ユーザがアプリケーションをよく理解しておらず、目的地を設定するつもりで登録地を追加してしまい、後に、気がついて、改めて目的地に設定した場合を示す。対話全体の流れは、実施の形態1と同様で、図8のフローに従うため、実施の形態1と同様の動作についてはその説明を省略する。また、対話ターンの生成についても図9のフローと同様である。
 以下、図11の対話内容に従って説明する。ユーザが発話開始ボタンを押下すると、対話が開始され、システム応答101「ピッと鳴ったらお話ください」が音声出力される。そこで、ユーザ発話102「○×駅」と発話されたとする。ユーザ発話102が発話されると、音声認識部4、形態素解析部5、意図推定部7を通して、意図推定結果121,122,123が得られる。この状態では、活性化している意図ノードは無い状態なので、遷移ノード決定部10で意図推定結果の修正後の値は意図推定結果121,122,123の値そのものとなる。遷移ノード決定部10は意図推定結果に基づき活性化する意図ノードを決定する。ここで、実施の形態1と同じ条件で、活性化する意図ノードを決定すると、(b)になり、意図ノード26、27、86が活性化されることとなる。ただし、アプリケーションの状態によっては選択できないものがある場合は、その意図ノードは活性化しない。例えば、目的地が未設定ならば経由地は設定できないため意図ノード26は活性化しない。ここでは目的地未設定として、意図ノード26が活性化していない状態を想定する。
 活性化しているのは、意図ノード27、86なので、対話シナリオ68が選択され、システム応答として「○×駅を目的地にしますか、登録地にしますか」がシナリオに追加される(図9におけるステップST21→ステップST30)。最後に出来上がったシナリオは対話制御部2に渡され、システム応答103が出力され、ユーザの発話待ちとなる。ここで、ユーザ発話104「登録地」が発話されると、同様に音声認識、意図推定され、意図ノード86が意図推定結果として選択され、対話シナリオ65が選択されて、コマンド「Add(登録地,○×駅)」が対話ターンに登録され、システム応答「○×駅を登録地に追加しました」が対話ターンに追加される(図9におけるステップST21→ステップST22→ステップST28→ステップST29→ステップST27)。次に、履歴考慮対話ターン生成部16は、図14のフローに従って、コマンド実行履歴に登録するかどうかを判断する。
 先ず、ステップST31において、コマンド実行した直前意図数は0か1かを判定する。ここで、コマンド実行した直前の意図は「登録地設定[施設=$施設$(=○×駅)]」と「目的地設定[施設=$施設$(=○×駅)]」の2つであるため、ステップST34に進む。ステップST34では、選択肢意図を「登録地設定[施設=$施設$(=○×駅)]」と「目的地設定[施設=$施設$(=○×駅)]」にする。そしてステップST36でコマンド実行履歴リストにコマンド実行履歴131を追加する。さらにステップST37では、一定時間内に選択肢意図のうちで実行されなかったものが実行された場合にコマンド誤解可能性リスト15bに登録することとなるが、コマンド実行履歴131を登録した時点では、コマンド実行履歴132は存在しないので何もせず終了する。
 次に、しばらくしても、ユーザが設定したつもりの「○×駅」へのルート案内が始まらないため、ユーザはやりたかったことがうまくいっていないことに気がつく。そこで新たな対話を始める。そこで、ユーザがユーザ発話106のように「○×駅に行きたい」と発話すれば、意図推定結果124が得られ、目的地を設定することとなる。次に、ステップST31に処理を移し、直前意図は無いのでステップST32に処理を移す。ステップST32では直前意図自体が無いので、ステップST33に処理を移し、さらにステップST36でコマンド実行履歴132が登録される。
 コマンド実行履歴が登録されると、ステップST37で、一定時間内(例えば10分)に、曖昧性を持つ選択肢意図のうち選択されなかった意図が選択された場合は、ユーザの勘違いの可能性があるとして、ステップST38に処理を移し、コマンド誤解可能性リスト15bに登録する。コマンド実行履歴131,132から、目的地設定を登録地設定と勘違いした可能性があるため、コマンド誤解可能性133を追加し、それぞれ確認回数、正解意図実行回数を1とする。
 後日、ユーザが、目的地を設定しようとして、同じ間違いをしたとする。例えば、ユーザ発話110「△△センター」と発話したとすると、最初の発話と同様に意図理解され、システム応答111「△△センターを目的地にしますか、登録地にしますか」を生成して、ユーザの発話を待つ。ユーザが前と同じく間違ってユーザ発話112「登録地」のように発話すると、意図推定結果は「登録地設定[施設=$施設$(=△△センター)]」となる。そこで、履歴考慮対話ターン生成部16は、ステップST41に処理を移し、「登録地設定[施設=$施設$]」のデータがコマンド誤解可能性リスト15bに存在するのでステップST42に処理を移す。ステップST42では確認を促すシステム応答113「△△センターを目的地ではなく、登録地にします。よろしいですか。」を生成する。次にステップST43に処理を移し、確認回数を1追加して処理を終了する。一方、ステップST41において、実行予定意図がコマンド誤解可能性リスト15bに存在しなかった場合はステップST44に処理を移して実行予定意図を実行する。
 対話制御部2は、システム応答113を出力したあと、ユーザ発話を待ち、ユーザ応答114「あ、間違い、目的地にして」がされると、「目的地設定[施設=$施設$(=△△センター)]」が選択され実行される。
 その後、ユーザが「登録地」の「目的地」の違いを理解してくると、「登録地」という言葉を使うことなく目的地を設定するようになり、確認回数は増えることなく、正解意図実行回数が増加していくことになる。すなわち、コマンド誤解可能性リスト15bに存在する誤解可能性意図のうち、実行意図とならなかった意図が一定時間以内に実行されることが無くなっていく。
 正解実行回数/確認回数が、例えば2を超えた時点でコマンド誤解可能性リストのデータを削除して確認をやめるようにすることで、対話を円滑に進めることが出来る。
 以上説明したように、実施の形態2の対話制御装置によれば、対話ターン生成部に代えて、遷移ノード決定部で活性化した1つまたは複数の意図から対話のターンを生成すると共に、対話の結果として実行したコマンドを記録しておき、かつ、コマンド実行履歴中の選択肢意図のうち実行意図とならなかった意図が一定時間以内に実行された場合に登録されるリストを用いて対話のターンを生成する履歴考慮対話ターン生成部を備えたので、ユーザがコマンドを勘違いした可能性がある場合でも適切な遷移が行われ、適切なコマンドを実行することができる。
 また、実施の形態2の対話制御装置によれば、履歴考慮対話ターン生成部は、コマンド実行履歴中の選択肢意図のうち実行意図とならなかった意図が一定時間以内に実行された場合に確認を行う対話ターンを生成し、対話ターンの生成後、リストに存在する選択肢意図のうち、実行意図とならなかった意図が一定時間以内に実行されることがなく、かつ、これが設定回数繰り返された場合はリストを削除すると共に、確認を行う対話ターンの生成を停止するようにしたので、ユーザが適切なコマンドを理解していない場合はこれに対する適切な対処が行え、一方、ユーザが適切なコマンドを理解した場合に無駄な確認を行うといったことを防止することができる。
実施の形態3.
 図16は、実施の形態3の対話制御装置を示す構成図である。図示の対話制御装置は音声入力部1~音声合成部14に加えて追加遷移リンクデータ17と遷移リンク制御部18とを備えている。音声入力部1~音声合成部14の構成は実施の形態1と同様であるため、ここでの説明は省略する。追加遷移リンクデータ17は、想定外遷移を実行した場合の遷移リンクを記録したデータである。また、遷移リンク制御部18は、追加遷移リンクデータ17へのデータの追加や、追加遷移リンクデータ17に基づく意図階層データの変更を行う制御部である。
 図17は、実施の形態3における対話の例である。図17の発話は図3の発話が行われ、コマンドが実行された後、別のときに実行された対話例である。図3と同様に、171,173,175,177,178,180,182,184,186はシステム応答、172,174,176,179,181,183,185はユーザ発話であり、順番に対話が進んでいることを示している。
 図18は、実施の形態3における意図推定結果の例である。191~195は意図推定結果である。
 図19は、追加遷移リンクデータ17の例である。201,202,203は追加遷移リンクである。
 図20は、遷移リンク制御部18で、遷移リンクの統合処理を行う場合の処理を示すフローチャートである。
 図21は、統合後の意図階層データ例である。
 次に、実施の形態3の対話制御装置の動作について説明する。
 実施の形態3における最初の対話は、図3の対話内容であり、システム応答39により「経由地設定[施設=$施設$]」決定されコマンドが実行されるが、そこまでの対話の中で図4のリンク42の遷移が選択される。ここで、遷移ノード決定部10で遷移先が決定された時点で、意図推定重み決定部9と遷移リンク制御部18を介して意図推定結果191を、追加遷移リンクデータ17の追加遷移リンクのデータとして追加する。
 続いて図17の対話が続くものとする。システム応答171により対話が開始され、ユーザは図3の対話と同様、ユーザ発話172「ルートを変更したい」と発話する。結果として意図推定部7は、図5の意図推定結果52を生成し、意図ノード28が選択され、図3の対話と同様にシステム応答173を出力してユーザの発話を待つ。ここでユーザがユーザ発話174「近くに焼肉屋はない」と発話すると、意図推定結果192,193を得る。
 ここで、追加遷移リンク201が存在するので、遷移リンク42が存在するとして、遷移意図を計算して、意図推定結果194,195を得る。遷移ノード決定部10では、遷移ノードとして意図ノード25だけを活性化する。対話ターン生成部13は遷移リンク42が存在するものとして処理を進めるので、ユーザに確認を取ることなく、システム応答175をシナリオに追加して、対話制御部2に処理を移す。対話制御部2では、対話を進め、システム応答175を出力してユーザ発話176に基づき意図ノード26「経由地設定[施設=$施設$(=×□カルビ)]」へ遷移する。結果、対話シナリオ63が選択され、コマンドがあるのでコマンドを実行して終了するが、対話の遷移の中に遷移リンク42が存在するので、追加遷移リンク201の遷移回数に1加える。
 追加遷移リンクの遷移回数が更新されると、図20のフローに従って、意図階層の上位意図にリンクを張り替えることで出来るかを判定し、張り替え可能なら張り替えを行う。ステップST51では追加遷移リンク201の遷移回数が1増えたので、追加遷移リンク201の遷移元が一致する遷移先を抽出する。ここではまだ追加遷移リンク202がない状態なので、追加遷移リンク201しか存在しない。従ってN=2となる。ここで、ステップST51のNの条件を3とすると、ステップST52で該当する上位階層意図は存在しないため「YES」となり処理を終了する。
 さらに別のとき、図17の続きの対話を進めたとする。ユーザ発話181が発話されると、「周辺検索[基準=$POI$,ジャンル=$ジャンル$]」が意図推定結果となる。この意図は、この時点では追加遷移リンクデータ17の追加遷移リンクのデータとして登録されていないので、図3の対話内容と同じように、システム応答182を出力して確認を行う。最終的には、ユーザ発話185に従って目的地設定の意図が選択され、コマンドが実行されて目的地が「ホットカレー□□」になる。このとき、追加遷移リンク202を追加する。
 追加遷移リンクのデータが追加されると、再度図20のフローに従って、意図階層の上位意図にリンクを張り替えることで出来るかを判定し、張り替え可能なら張り替えを行う。ステップST51では追加遷移リンク201の遷移回数が2、追加遷移リンク202の遷移回数が1なので、N=3となり条件を満たす上位階層意図として「周辺検索[基準=?,ジャンル=?]」が抽出される。処理はステップST52に移り、「NO」なのでステップST53に処理を移す。上位階層意図の主意図は「周辺検索」で共通なので、「YES」となる。ステップST54に処理を移すと、追加遷移リンク203のように上位階層の意図遷移先を変更したデータで置き換える。
 このように、遷移先を置き換えることで、追加遷移リンク203の意図遷移先は図21に示す意図ノード211に変更されていることとなる。従って、ユーザがその後、「ルート選択[タイプ=?]」の意図の発話をした後で、意図ノード213にあたる発話(たとえば、「行き先近くでお店を探す」)を行った場合、対話制御装置は確認をすることなく、意図ノード213への遷移を実施するので、無駄な対話を行わずにコマンドにたどり着くことが出来る。
 以上説明したように、実施の形態3の対話制御装置によれば、遷移ノード決定部で決定した意図が、意図階層で定義されたリンクで無い想定外意図への遷移であった場合に遷移元から遷移先のリンク情報を追加する遷移制御部を有し、遷移ノード決定部は、遷移制御部で追加されたリンクを通常リンクと同様に扱って意図を決定するようにしたので、想定外の入力に対しても適切な遷移が行われ、適切なコマンドを実行することができる。
 また、実施の形態3の対話制御装置によれば、遷移リンク制御部は、想定外意図への遷移が複数あり、かつ、複数の想定外意図が共通の意図を親ノードとして持つ場合、想定外意図への遷移を親ノードへの遷移に置き換えるようにしたので、少ない対話でユーザが所望するコマンドを実行することができる。
 なお、上記実施の形態1~3では、日本語において説明を行ったが、意図推定に関する素性抽出方法をそれぞれの言語ごとに変更することで、英語、ドイツ語、および中国語など様々な言語に対して適用することが可能である。
 また、単語が特定のシンボル(スペースなど)で区切られる言語の場合に、言語的な構造を解析することが難しい場合には、入力の自然言語テキストに対してパターンマッチのような方法で、$施設$、$住所$などの抽出処理を行ったあと、直接意図推定処理を実行する形をとることも可能である。
 さらに、実施の形態1~3では、入力を音声入力として説明を行ったが、入力手段として音声認識を用いず、キーボードなど入力手段によるテキスト入力の場合でも同様の効果が期待できる。
 さらに、実施の形態1~3では、音声認識結果のテキストを形態素解析部で処理することで意図推定を行ったが、音声認識エンジン結果自体が形態素解析結果を含む場合は、その情報を直接使って意図推定を行うことが出来る。
 さらに、実施の形態1~3では意図推定の方法として、最大エントロピー法による学習モデルを想定した例で説明したが、意図推定の方法を限定するものではない。
 なお、本願発明はその発明の範囲内において、各実施の形態の自由な組み合わせ、あるいは各実施の形態の任意の構成要素の変形、もしくは各実施の形態において任意の構成要素の省略が可能である。
 以上のように、この発明に係る対話制御装置及び対話制御方法は、予め木構造に構成した対話シナリオを複数用意し、ユーザとの対話に基づいてある木構造のシナリオから他の木構造のシナリオへの遷移を行う構成に関するものであり、携帯電話やカーナビの音声インタフェースとして用いるのに適している。
 1 音声入力部、2 対話制御部、3 音声出力部、4 音声認識部、5 形態素解析部、6 意図推定モデル、7 意図推定部、8 意図階層グラフデータ、9 意図推定重み決定部、10 遷移ノード決定部、11 対話シナリオデータ、12 対話履歴データ、13 対話ターン生成部、14 音声合成部、15 コマンド履歴データ、16 履歴考慮対話ターン生成部、17 追加遷移リンクデータ、18 遷移リンク制御部。

Claims (6)

  1.  自然言語による入力を形態素列に変換したデータに基づいて当該入力の意図を推定する意図推定部と、
     意図を階層構造としたデータと対象とする時点で活性化している意図とを元に、前記意図推定部で推定された意図の意図推定重みを決定する意図推定重み決定部と、
     前記意図推定重み決定部で決定された前記意図推定重みに従って前記意図推定部の推定結果を修正した上で、新たに遷移して活性化する意図を決定する遷移ノード決定部と、
     前記遷移ノード決定部で活性化した1つまたは複数の意図から対話のターンを生成する対話ターン生成部と、
     前記対話ターン生成部で生成された対話のターンにより新たな自然言語による入力が与えられた場合、前記意図推定部、前記意図推定重み決定部、前記遷移ノード決定部および前記対話ターン生成部が行う処理のうち、少なくともいずれかの処理を制御し、当該制御を繰り返すことにより、最終的に、設定されたコマンドを実行する対話制御部とを備えたことを特徴とする対話制御装置。
  2.  対話ターン生成部に代えて、前記遷移ノード決定部で活性化した1つまたは複数の意図から対話のターンを生成すると共に、前記対話の結果として実行したコマンドを記録しておき、かつ、コマンド実行履歴中の選択肢意図のうち実行意図とならなかった意図が一定時間以内に実行された場合に登録されるリストを用いて対話のターンを生成する履歴考慮対話ターン生成部を備えたことを特徴とする請求項1記載の対話制御装置。
  3.  履歴考慮対話ターン生成部は、コマンド実行履歴中の選択肢意図のうち実行意図とならなかった意図が一定時間以内に実行された場合に確認を行う対話ターンを生成し、当該対話ターンの生成後、前記リストに存在する選択肢意図のうち、前記実行意図とならなかった意図が一定時間以内に実行されることがなく、かつ、これが設定回数繰り返された場合は当該リストを削除すると共に、前記確認を行う対話ターンの生成を停止することを特徴とする請求項2記載の対話制御装置。
  4.  遷移ノード決定部で決定した意図が、意図階層で定義されたリンクで無い想定外意図への遷移であった場合に遷移元から遷移先のリンク情報を追加する遷移制御部を有し、
     前記遷移ノード決定部は、前記遷移制御部で追加されたリンクを通常リンクと同様に扱って遷移する意図を決定することを特徴とする請求項1記載の対話制御装置。
  5.  前記遷移リンク制御部は、前記想定外意図への遷移が複数あり、かつ、当該複数の想定外意図が共通の意図を親ノードとして持つ場合、前記想定外意図への遷移を前記親ノードへの遷移に置き換えること特徴とする請求項4記載の対話制御装置。
  6.  自然言語による入力の意図を推定して対話を行い、その結果として設定されたコマンドを実行する対話制御装置を用い、
     前記自然言語による入力を形態素列に変換したデータに基づいて当該入力の意図を推定する意図推定ステップと、
     意図を階層構造としたデータと対象とする時点で活性化している意図とを元に、前記意図推定ステップで推定された意図の意図推定重みを決定する意図推定重み決定ステップと、
     前記意図推定重み決定ステップで決定された前記意図推定重みに従って前記意図推定ステップの推定結果を修正した上で、新たに遷移して活性化する意図を決定する遷移ノード決定ステップと、
     前記遷移ノード決定ステップで活性化した1つまたは複数の意図から対話のターンを生成する対話ターン生成ステップと、
     前記対話ターン生成ステップで生成された対話のターンにより新たな自然言語による入力が与えられた場合、前記意図推定ステップ、前記意図推定重み決定ステップ、前記遷移ノード決定ステップおよび前記対話ターン生成ステップのうち、少なくともいずれかのステップを制御し、当該制御を繰り返すことにより、最終的に、設定されたコマンドを実行する対話制御ステップとを備えたことを特徴とする対話制御方法。
PCT/JP2014/070768 2013-11-25 2014-08-06 対話制御装置及び対話制御方法 WO2015075975A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2015549010A JP6073498B2 (ja) 2013-11-25 2014-08-06 対話制御装置及び対話制御方法
CN201480057853.7A CN105659316A (zh) 2013-11-25 2014-08-06 对话控制装置和对话控制方法
US14/907,719 US20160163314A1 (en) 2013-11-25 2014-08-06 Dialog management system and dialog management method
DE112014005354.6T DE112014005354T5 (de) 2013-11-25 2014-08-06 Dialog-management-system und dialog-management-verfahren

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2013242944 2013-11-25
JP2013-242944 2013-11-25

Publications (1)

Publication Number Publication Date
WO2015075975A1 true WO2015075975A1 (ja) 2015-05-28

Family

ID=53179254

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2014/070768 WO2015075975A1 (ja) 2013-11-25 2014-08-06 対話制御装置及び対話制御方法

Country Status (5)

Country Link
US (1) US20160163314A1 (ja)
JP (1) JP6073498B2 (ja)
CN (1) CN105659316A (ja)
DE (1) DE112014005354T5 (ja)
WO (1) WO2015075975A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018513405A (ja) * 2015-08-17 2018-05-24 三菱電機株式会社 音声言語理解システム
JP2019036171A (ja) * 2017-08-17 2019-03-07 Kddi株式会社 対話シナリオコーパスの作成支援システム
CN117496973A (zh) * 2024-01-02 2024-02-02 四川蜀天信息技术有限公司 一种提升人机对话交互体验感的方法、装置、设备及介质
JP7462995B1 (ja) 2023-10-26 2024-04-08 Starley株式会社 情報処理システム、情報処理方法及びプログラム

Families Citing this family (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105070288B (zh) * 2015-07-02 2018-08-07 百度在线网络技术(北京)有限公司 车载语音指令识别方法和装置
US10083451B2 (en) 2016-07-08 2018-09-25 Asapp, Inc. Using semantic processing for customer support
US10453074B2 (en) 2016-07-08 2019-10-22 Asapp, Inc. Automatically suggesting resources for responding to a request
DE102016008855A1 (de) * 2016-07-20 2018-01-25 Audi Ag Verfahren zum Durchführen einer Sprachübertragung
JP2018054790A (ja) * 2016-09-28 2018-04-05 トヨタ自動車株式会社 音声対話システムおよび音声対話方法
KR101934280B1 (ko) * 2016-10-05 2019-01-03 현대자동차주식회사 발화내용 분석 장치 및 방법
US10109275B2 (en) 2016-12-19 2018-10-23 Asapp, Inc. Word hash language model
US10650311B2 (en) 2016-12-19 2020-05-12 Asaap, Inc. Suggesting resources using context hashing
JP6873805B2 (ja) * 2017-04-24 2021-05-19 株式会社日立製作所 対話支援システム、対話支援方法、及び対話支援プログラム
US10762423B2 (en) 2017-06-27 2020-09-01 Asapp, Inc. Using a neural network to optimize processing of user requests
CN107240398B (zh) * 2017-07-04 2020-11-17 科大讯飞股份有限公司 智能语音交互方法及装置
JP2019057123A (ja) * 2017-09-21 2019-04-11 株式会社東芝 対話システム、方法、及びプログラム
KR101932263B1 (ko) * 2017-11-03 2018-12-26 주식회사 머니브레인 적시에 실질적 답변을 제공함으로써 자연어 대화를 제공하는 방법, 컴퓨터 장치 및 컴퓨터 판독가능 기록 매체
CN107832293B (zh) * 2017-11-07 2021-04-09 北京灵伴即时智能科技有限公司 一种面向非自由谈话式汉语口语的对话行为分析方法
US10497004B2 (en) 2017-12-08 2019-12-03 Asapp, Inc. Automating communications using an intent classifier
JP2019106054A (ja) 2017-12-13 2019-06-27 株式会社東芝 対話システム
US10489792B2 (en) 2018-01-05 2019-11-26 Asapp, Inc. Maintaining quality of customer support messages
US10210244B1 (en) 2018-02-12 2019-02-19 Asapp, Inc. Updating natural language interfaces by processing usage data
US10169315B1 (en) 2018-04-27 2019-01-01 Asapp, Inc. Removing personal information from text using a neural network
US10776582B2 (en) * 2018-06-06 2020-09-15 International Business Machines Corporation Supporting combinations of intents in a conversation
US11216510B2 (en) 2018-08-03 2022-01-04 Asapp, Inc. Processing an incomplete message with a neural network to generate suggested messages
US11501763B2 (en) * 2018-10-22 2022-11-15 Oracle International Corporation Machine learning tool for navigating a dialogue flow
US11551004B2 (en) 2018-11-13 2023-01-10 Asapp, Inc. Intent discovery with a prototype classifier
US10747957B2 (en) 2018-11-13 2020-08-18 Asapp, Inc. Processing communications using a prototype classifier
US11043214B1 (en) * 2018-11-29 2021-06-22 Amazon Technologies, Inc. Speech recognition using dialog history
WO2020110249A1 (ja) * 2018-11-29 2020-06-04 三菱電機株式会社 対話装置、対話方法、及び対話プログラム
CN111737408B (zh) * 2019-03-25 2024-05-03 阿里巴巴集团控股有限公司 基于剧本的对话方法、设备及电子设备
CN110377716B (zh) * 2019-07-23 2022-07-12 百度在线网络技术(北京)有限公司 对话的交互方法、装置及计算机可读存储介质
US11425064B2 (en) 2019-10-25 2022-08-23 Asapp, Inc. Customized message suggestion with user embedding vectors
US20210158810A1 (en) * 2019-11-25 2021-05-27 GM Global Technology Operations LLC Voice interface for selection of vehicle operational modes
CN111538802B (zh) * 2020-03-18 2023-07-28 北京三快在线科技有限公司 会话处理方法、装置、电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004251998A (ja) * 2003-02-18 2004-09-09 Yukihiro Ito 対話理解装置
WO2007013521A1 (ja) * 2005-07-26 2007-02-01 Honda Motor Co., Ltd. ユーザと機械とのインタラクションを実施するための装置、方法、およびプログラム
JP2008203559A (ja) * 2007-02-20 2008-09-04 Toshiba Corp 対話装置及び方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6490698B1 (en) * 1999-06-04 2002-12-03 Microsoft Corporation Multi-level decision-analytic approach to failure and repair in human-computer interactions
JP4363076B2 (ja) * 2002-06-28 2009-11-11 株式会社デンソー 音声制御装置
US7302383B2 (en) * 2002-09-12 2007-11-27 Luis Calixto Valles Apparatus and methods for developing conversational applications
US8265939B2 (en) * 2005-08-31 2012-09-11 Nuance Communications, Inc. Hierarchical methods and apparatus for extracting user intent from spoken utterances
CN101266793B (zh) * 2007-03-14 2011-02-02 财团法人工业技术研究院 通过对话回合间上下文关系来减少辨识错误的装置与方法
JP4547721B2 (ja) * 2008-05-21 2010-09-22 株式会社デンソー 自動車用情報提供システム
WO2010126321A2 (ko) * 2009-04-30 2010-11-04 삼성전자주식회사 멀티 모달 정보를 이용하는 사용자 의도 추론 장치 및 방법
US8892419B2 (en) * 2012-04-10 2014-11-18 Artificial Solutions Iberia SL System and methods for semiautomatic generation and tuning of natural language interaction applications
CN103077165A (zh) * 2012-12-31 2013-05-01 威盛电子股份有限公司 自然语言对话方法及其系统
US9665564B2 (en) * 2014-10-06 2017-05-30 International Business Machines Corporation Natural language processing utilizing logical tree structures

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004251998A (ja) * 2003-02-18 2004-09-09 Yukihiro Ito 対話理解装置
WO2007013521A1 (ja) * 2005-07-26 2007-02-01 Honda Motor Co., Ltd. ユーザと機械とのインタラクションを実施するための装置、方法、およびプログラム
JP2008203559A (ja) * 2007-02-20 2008-09-04 Toshiba Corp 対話装置及び方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018513405A (ja) * 2015-08-17 2018-05-24 三菱電機株式会社 音声言語理解システム
JP2019036171A (ja) * 2017-08-17 2019-03-07 Kddi株式会社 対話シナリオコーパスの作成支援システム
JP7462995B1 (ja) 2023-10-26 2024-04-08 Starley株式会社 情報処理システム、情報処理方法及びプログラム
CN117496973A (zh) * 2024-01-02 2024-02-02 四川蜀天信息技术有限公司 一种提升人机对话交互体验感的方法、装置、设备及介质
CN117496973B (zh) * 2024-01-02 2024-03-19 四川蜀天信息技术有限公司 一种提升人机对话交互体验感的方法、装置、设备及介质

Also Published As

Publication number Publication date
CN105659316A (zh) 2016-06-08
DE112014005354T5 (de) 2016-08-04
JP6073498B2 (ja) 2017-02-01
US20160163314A1 (en) 2016-06-09
JPWO2015075975A1 (ja) 2017-03-16

Similar Documents

Publication Publication Date Title
JP6073498B2 (ja) 対話制御装置及び対話制御方法
US10037758B2 (en) Device and method for understanding user intent
WO2016067418A1 (ja) 対話制御装置および対話制御方法
JP4267385B2 (ja) 統計的言語モデル生成装置、音声認識装置、統計的言語モデル生成方法、音声認識方法、およびプログラム
US9449599B2 (en) Systems and methods for adaptive proper name entity recognition and understanding
US20080010070A1 (en) Spoken dialog system for human-computer interaction and response method therefor
JP2017058673A (ja) 対話処理装置及び方法と知能型対話処理システム
JP4186992B2 (ja) 応答生成装置、方法及びプログラム
JP2001109493A (ja) 音声対話装置
JP2005321730A (ja) 対話システム、対話システム実行方法、及びコンピュータプログラム
JP2006349954A (ja) 対話システム
KR20210130024A (ko) 대화 시스템 및 그 제어 방법
JP6070809B1 (ja) 自然言語処理装置及び自然言語処理方法
JP2007041319A (ja) 音声認識装置および音声認識方法
EP3005152B1 (en) Systems and methods for adaptive proper name entity recognition and understanding
US20060136195A1 (en) Text grouping for disambiguation in a speech application
JP4798039B2 (ja) 音声対話装置および方法
JP4634156B2 (ja) 音声対話方法および音声対話装置
US11804225B1 (en) Dialog management system
JP4486413B2 (ja) 音声対話方法、音声対話装置、音声対話プログラム、これを記録した記録媒体
JP2009198871A (ja) 音声対話装置
JP4537755B2 (ja) 音声対話システム
JP2000330588A (ja) 音声対話処理方法、音声対話処理システムおよびプログラムを記憶した記憶媒体
KR20210032200A (ko) 다중 언어 대화 서비스 제공 장치 및 방법
WO2009147745A1 (ja) 検索装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 14863985

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2015549010

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 14907719

Country of ref document: US

WWE Wipo information: entry into national phase

Ref document number: 112014005354

Country of ref document: DE

122 Ep: pct application non-entry in european phase

Ref document number: 14863985

Country of ref document: EP

Kind code of ref document: A1