WO2017168637A1 - 意図推定装置及び意図推定方法 - Google Patents
意図推定装置及び意図推定方法 Download PDFInfo
- Publication number
- WO2017168637A1 WO2017168637A1 PCT/JP2016/060413 JP2016060413W WO2017168637A1 WO 2017168637 A1 WO2017168637 A1 WO 2017168637A1 JP 2016060413 W JP2016060413 W JP 2016060413W WO 2017168637 A1 WO2017168637 A1 WO 2017168637A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- intention
- intention estimation
- estimation
- unit
- sentence
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/268—Morphological analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/228—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
Definitions
- the present invention relates to an intention estimation apparatus and an intention estimation method for recognizing text input using a voice or a keyboard to estimate a user's intention and executing an operation intended by the user.
- Patent Document 1 proposes a method for estimating the position of an appropriate division point of an input text based on intention estimation and probability of compound sentence division for an utterance including a plurality of intentions. .
- the present invention has been made to solve such a problem, and provides an intention estimation apparatus and an intention estimation method capable of accurately estimating a user's intention even for a compound sentence including a plurality of intentions. Objective.
- the intention estimation apparatus includes a morpheme analyzer that performs morphological analysis on a compound sentence including a plurality of intentions, and a syntax analysis that parses the compound sentence that has been analyzed by the morpheme analyzer and divides the compound sentence into a plurality of single sentences.
- an intention estimation unit that estimates the intention contained in each of a plurality of single sentences, and a single sentence that has failed in the estimation of the intention in the single sentence to be estimated in the intention estimation unit.
- a supplementary information estimating unit that supplements the incomplete intention estimation result using the estimated supplementary information when there is a single sentence of the incomplete intention estimation result in the single sentence to be estimated in the intention estimating unit. It is a thing.
- the intent estimation device estimates supplementary information from a single sentence that has failed in intent estimation in a single sentence to be estimated, and has a single sentence that is an incomplete intention estimation result in a single sentence to be estimated Is used to supplement the incomplete intention estimation result using the estimated supplementary information.
- the user's intention can be accurately estimated even for a compound sentence including a plurality of intentions.
- FIG. 1 is a configuration diagram illustrating an intention estimation apparatus according to Embodiment 1.
- FIG. 6 is an explanatory diagram illustrating an example of an intention estimation model according to Embodiment 1.
- FIG. 6 is an explanatory diagram illustrating an example of a supplementary information estimation model according to Embodiment 1.
- FIG. 3 is a block diagram illustrating a hardware configuration example of the intention estimation apparatus according to the first embodiment. 3 is a block diagram illustrating a configuration example for explaining a generation process of a supplementary information estimation model according to Embodiment 1.
- FIG. 6 is an explanatory diagram illustrating an example of supplementary information estimation model learning data according to Embodiment 1.
- FIG. 4 is a flowchart for explaining a supplementary information estimation model generation process according to Embodiment 1; 6 is an explanatory diagram showing an example of an interaction according to Embodiment 1.
- FIG. 5 is a flowchart for explaining intention supplement processing according to Embodiment 1; It is explanatory drawing which shows the score of each feature-value with respect to each supplementary information which concerns on Embodiment 1.
- FIG. 6 is an explanatory diagram illustrating a calculation formula for obtaining a product of scores according to Embodiment 1.
- FIG. 6 is an explanatory diagram showing a final score for each supplementary information according to Embodiment 1.
- FIG. 3 is a flowchart showing a flow of intention supplement processing according to Embodiment 1; 5 is a configuration diagram of an intention estimation apparatus according to Embodiment 2.
- FIG. 6 is an explanatory diagram illustrating an example of a supplementary intention estimation model according to Embodiment 2.
- FIG. 10 is a block diagram illustrating a configuration example for explaining a generation process of a supplementary intention estimation model according to a second embodiment. 10 is an explanatory diagram illustrating an example of supplementary intention estimation model learning data according to Embodiment 2.
- FIG. 10 is a flowchart for explaining a supplementary intention estimation model generation process according to Embodiment 2;
- FIG. 10 is an explanatory diagram showing an example of interaction according to the second embodiment.
- 10 is a flowchart for explaining supplementary intention estimation processing according to Embodiment 2; 10 is an explanatory diagram showing a final score for each supplementary intention according to Embodiment 2.
- FIG. 10 is a flowchart for explaining supplementary intention estimation processing
- FIG. 1 is a configuration diagram of an intention estimation apparatus according to the present embodiment.
- the intention estimation apparatus according to Embodiment 1 includes a speech input unit 101, a speech recognition unit 102, a morpheme analysis unit 103, a syntax analysis unit 104, an intention estimation model storage unit 105, and an intention estimation unit.
- 106 supplemental information estimation model storage unit 107, supplemental information estimation unit 108, intention supplementation unit 109, command execution unit 110, response generation unit 111, and notification unit 112.
- the voice input unit 101 is an input unit of an intention estimation device for receiving voice input.
- the speech recognition unit 102 is a processing unit that recognizes speech data corresponding to the speech input input to the speech input unit 101, converts the speech data into text data, and outputs the text data to the morpheme analysis unit 103.
- the text data is a compound sentence including a plurality of intentions.
- a compound sentence is composed of a plurality of simple sentences, and one simple sentence includes one intention.
- the morpheme analysis unit 103 is a processing unit that performs morpheme analysis on the text data converted by the speech recognition unit 102 and outputs the result to the syntax analysis unit 104.
- the morpheme analysis is a natural language processing technique in which text is divided into morphemes (the smallest unit having meaning in language) and parts of speech are given using a dictionary. For example, a simple sentence “go to Tokyo Tower” is divided into morphemes such as “Tokyo Tower / proprietary nouns, go / case particles, go / verbs”.
- the syntax analysis unit 104 is a processing unit that analyzes (syntactic analysis) the structure of a sentence in units of phrases or clauses based on grammatical rules with respect to the text data analyzed by the morphological analysis unit 103.
- the syntax analysis unit 104 divides the text into a plurality of simple sentences and outputs a morphological analysis result of each single sentence to the intention estimation unit 106.
- a syntax analysis method for example, a CYK (Cocke-Younger-Kasami) method or the like can be used.
- the text (compound sentence) is described as including two simple sentences 1 and 2 but is not limited to this, and may be composed of three or more simple sentences.
- the parsing unit 104 does not need to output data corresponding to all the divided single sentences to the intention estimation unit 106.
- the input text (compound sentence) includes single sentence 1, single sentence 2, and single sentence 3. Even in this case, only the single sentence 1 and the single sentence 2 may be output.
- the intention estimation model storage unit 105 is a storage unit of an intention estimation model for performing intention estimation using morphemes as features.
- the main intention indicates the classification or function of the intention.
- the main intention corresponds to an upper layer machine command (destination setting, listening to music, etc.) that the user first operates.
- the slot name and the slot value indicate information necessary for executing the main intention.
- the peripheral search is performed, but since the specific facility type is not determined, it is necessary to ask the user for the facility type again.
- the intention estimation result is insufficient or incomplete intention estimation result in this embodiment.
- the case where the intention cannot be estimated or the case where the intention estimation has failed means that the main intention cannot be estimated.
- FIG. 2 is a diagram illustrating an example of an intention estimation model according to the first embodiment.
- the intention estimation unit 106 is a processing unit that estimates intentions included in a plurality of single sentences using an intention estimation model based on the morphological analysis results of a plurality of single sentences input from the syntax analysis unit 104, and supplements the results.
- the information is output to the information estimation unit 108, the intention supplement unit 109, and the command execution unit 110.
- the maximum entropy method can be used as the intention estimation method.
- the intention estimation unit 106 uses a statistical method to estimate how likely the intention corresponding to the input morpheme is from a set of morphemes and intentions collected in advance.
- the supplementary information estimation model storage unit 107 is a supplementary information estimation model storage unit that indicates the relationship between a single sentence and supplementary information. That is, the supplementary information estimation model is supplementary information for estimating supplementary information from a single sentence morpheme for which intention estimation has failed.
- FIG. 3 is a diagram showing an example of the supplementary information estimation model according to the first embodiment.
- the model shows the relevance of supplementary information (slot contents) using a single sentence morpheme that could not be estimated as a feature amount.
- the response generation unit 111 is a processing unit that generates a response corresponding to the machine command executed by the command execution unit 110.
- the response may be generated in the form of text data, or a synthesized sound may be generated as voice data.
- voice data for example, a synthesized sound such as “Searching for nearby restaurants. Please select from a list.” May be used.
- the notification unit 112 is a processing unit for notifying a user such as a vehicle driver of the response generated by the response generation unit 111. That is, the notification unit 112 has a function of notifying the user that a plurality of machine commands have been executed by the command execution unit 110.
- the notification mode may be anything as long as the user can recognize the notification, such as notification by display, notification by voice, or notification by vibration.
- FIG. 4 is a diagram illustrating a hardware configuration example of the intention estimation apparatus according to the first embodiment.
- the intention estimation device includes a processing device 150 such as a CPU (Central Processing Unit), a storage device 160 such as a ROM (Read Only Memory) and a hard disk device, an input device 170 such as a keyboard and a microphone, The output device 180 such as a speaker or a display is connected via a bus.
- a processing device 150 such as a CPU (Central Processing Unit)
- a storage device 160 such as a ROM (Read Only Memory) and a hard disk device
- an input device 170 such as a keyboard and a microphone
- the output device 180 such as a speaker or a display is connected via a bus.
- the CPU may have its own memory.
- the voice input unit 101 illustrated in FIG. 1 is realized by the input device 170, and the notification unit 112 is realized by the output device 180.
- the data stored in the intention estimation model storage unit 105, the supplemental information estimation model storage unit 107, and the learning data storage unit 113 described later are stored in the storage device 160, respectively.
- “ ⁇ units” such as the speech recognition unit 102, the morphological analysis unit 103, the syntax analysis unit 104, the intention estimation unit 106, the supplementary information estimation unit 108, the intention supplementation unit 109, the command execution unit 110, the response generation unit 111, and the like. And stored in the storage device 160 as a program.
- the processing device 150 implements the functions in the “ ⁇ units” by appropriately reading and executing the program stored in the storage device 160. That is, by combining the hardware that is the processing device 150 and the software that is the above-described program, the above-described “ ⁇ unit” functions are realized. Further, in the example of FIG. 4, the function is realized by one processing device 150, but a plurality of processing devices are used by, for example, taking a part of the function by a processing device in an external server. A function may be realized. Therefore, the processing device 150 is a concept including not only a single processing device but also a plurality of processing devices.
- FIG. 5 is an explanatory diagram of a configuration example for performing generation processing of a supplementary information estimation model according to the first embodiment.
- a learning data storage unit 113 is a storage unit for storing learning data in which supplementary information is associated with a plurality of sentence examples.
- FIG. 6 is an explanatory diagram showing an example of learning data according to the first embodiment.
- the learning data is data in which supplementary information is given to a sentence example of a single sentence whose intention estimation has failed.
- the supplemental information estimation model generation unit 114 is a processing unit for learning the correspondence relationship of the supplemental information stored in the learning data storage unit 113 by a statistical method.
- the supplementary information estimation model generation unit 114 generates a supplementary information estimation model using the morphemes extracted by the morpheme analysis unit 103.
- FIG. 7 is a flowchart for explaining the generation process of the supplementary information estimation model according to the first embodiment.
- the morphological analysis unit 103 performs morphological analysis on each sentence example of the learning data stored in the learning data storage unit 113 (step ST1). For example, sentence No. 1, the morphological analysis unit 103 performs morphological analysis on “I am hungry”.
- the morpheme analysis unit 103 outputs the result of the morpheme analysis to the supplementary information estimation model generation unit 114.
- FIG. 8 is a diagram showing an example of dialogue according to the first embodiment.
- FIG. 9 is a flowchart for explaining intention supplement processing according to the first embodiment.
- the notification unit 112 of the intention estimation device utters “Please tell me when it beeps” (S1).
- the user utters “I want to go to XX” (U1).
- the utterance from the intention estimation apparatus is represented as “S”
- the utterance from the user is represented as “U”.
- the numbers following U or S indicate the utterance order.
- the speech recognition unit 102 performs speech recognition processing on the user input (step ST101) and converts it into text data.
- the morpheme analysis unit 103 performs a morpheme analysis process on the converted text data (step ST102).
- the syntax analysis unit 104 performs a syntax analysis process on the text data subjected to morphological analysis (step ST103), and if the text data is a compound sentence, the compound sentence is divided into a plurality of simple sentences. If the text data is not a compound sentence (step ST104-NO), the process proceeds to step ST105 and subsequent steps. If the text data is a compound sentence (step ST104-YES), the process proceeds to step ST106 and subsequent steps.
- step ST104 Since the input example of U1 is a single sentence, the determination result in step ST104 is “NO”, and the process proceeds to step ST105. Therefore, the syntax analysis unit 104 outputs simple text data subjected to morphological analysis to the intention estimation unit 106.
- the command execution unit 110 executes a machine command corresponding to the intention estimation result by the intention estimation unit 106 (step ST108). For example, the command execution unit 110 executes an operation of setting the facility XX as the destination. At the same time, the response generation unit 111 generates a synthesized sound corresponding to the machine command executed by the command execution unit 110. As the synthesized sound, for example, “XX has been set as the destination”. The notification unit 112 notifies the user of the synthesized sound generated by the response generation unit 111 through a speaker or the like (step ST106). As a result, as shown in “S2” in FIG. 8, a notification such as “I made XX a destination” is given to the user.
- step ST101 and ST102 the speech recognition unit 102 performs speech recognition processing on the user input and converts it into text data
- the morpheme analysis unit 103 performs morpheme analysis on the text data. Processing is performed (steps ST101 and ST102).
- the syntax analysis unit 104 performs a syntax analysis process on the text data (step ST103).
- the text data related to the user input is divided into a plurality of simple sentences, such as “I am hungry” in the simple sentence 1 and “Look for shops near the route” in the simple sentence 2. Accordingly, the determination result in step ST104 is “YES”, and the process proceeds to step ST106 and subsequent steps.
- the intention estimation unit 106 performs intention estimation processing on the single sentence 1 and the single sentence 2 using the intention estimation model (step ST106).
- step ST107 In the intention estimation result of the intention estimation unit 106, if there is a result that the intention estimation is insufficient and the intention cannot be estimated as the intention estimation result of the compound sentence (YES in step ST107), the process proceeds to step ST109 and subsequent steps. In other cases (NO in step ST107), the process proceeds to step ST108.
- the supplementary information estimation process will be described in detail.
- the supplementary information estimation unit 108 collates the morpheme of the single sentence 1 with the supplementary information estimation model, and obtains a score of each morpheme for each supplementary information.
- FIG. 10 is a diagram showing a score of each morpheme for each supplementary information according to the first embodiment.
- the score of the feature amount “belly” is 0.01
- the score of the feature amount “ga” is 0.01
- the feature amount “ The score for “free” is 0.15
- the score for the feature amount “ta” is 0.01.
- the score of each feature amount can be obtained for other supplementary information.
- FIG. 11 is a diagram showing a calculation formula for obtaining a product of scores according to the first embodiment.
- Si is the score of the i-th morpheme for the supplementary information to be estimated.
- S is a final score representing the product of Si with respect to the supplementary information to be estimated.
- FIG. 12 is a diagram showing a final score for each supplementary information according to the first embodiment.
- a sum of scores of a plurality of morphemes is taken, and supplementary information having the highest value (final score) is selected. You may do it.
- the intention supplement unit 109 performs intention supplement processing using the result estimated by the supplement information estimation unit 108 (step ST110).
- step ST110a-YES When the slot names match (step ST110a-YES), the slot value of the supplementary information is filled in the intention estimation result “NULL” (step ST110b), and when the slot names do not match (step ST110a-NO), the intention
- the intention is passed to the command execution unit 110.
- the slot value may be filled only when the score is equal to or greater than a preset threshold value.
- the command execution unit 110 executes a machine command corresponding to the intention supplemented by the intention supplementation unit 109 (step ST109). For example, the command execution unit 110 searches for nearby restaurants and displays a list of nearby restaurants in the list. Then, the response generation unit 111 generates a synthesized sound corresponding to the machine command executed by the command execution unit 110 (step ST109).
- the synthesized sound is, for example, “searched for restaurants around the route, please select from the list”.
- the notification unit 112 notifies the user of the synthesized sound generated by the response generation unit 111 through a speaker or the like. As a result, as shown in “S3” in FIG. 8, a notification such as “Searched for restaurants around the route, please select from the list.” Is given to the user.
- the syntax analysis unit 104 divides the input complex sentence into a plurality of simple sentences, estimates the intention for each simple sentence, and estimates supplementary information from the single sentence in which the intention estimation fails. Then, supplementary information is used to supplement the intention of a single sentence with an insufficient intention estimation result. By operating in this way, the user's intention can be accurately estimated.
- the command execution unit 110 executes the corresponding machine command based on the intention supplemented by the intention supplementation unit 109, it is possible to reduce the operation burden on the user. That is, it is possible to realize a reduction in the number of conversations than in the past.
- a morpheme analysis unit that performs morphological analysis on a compound sentence including a plurality of intentions, and parses the compound sentence that has been analyzed by the morpheme analysis unit. If there is a syntax analysis part that divides the sentence into multiple sentences, an intention estimation part that estimates the intention contained in each of the single sentences, and a single sentence that failed in the estimation of the intention sentence in the intention estimation part, the intention estimation If there is a supplementary information estimation unit that estimates supplementary information from a single sentence that has failed, and a single sentence that is an incomplete intention estimation result in the single sentence to be estimated by the intention estimation unit, the incomplete intention estimation result using the estimated supplementary information Therefore, the intention of the user can be accurately estimated even for a compound sentence including a plurality of intentions.
- the supplementary information estimation model storage unit that holds the supplementary information estimation model indicating the relationship between the single sentence and the supplementary information is provided, and the supplementary information estimation unit uses the supplementary information estimation model.
- the supplementary information can be estimated efficiently.
- the supplementary information estimation model is configured by associating the score of supplementary information with a simple sentence morpheme as a feature quantity, and the supplementary information estimation unit has failed in the intention estimation Since the score of the supplementary information for each morpheme of the single sentence is obtained and the supplementary information is estimated based on the final score obtained by the product of the scores, the supplementary information can be estimated with high accuracy.
- the incomplete intention estimation result is represented by a combination of the slot name and the slot value in the absence of the slot value
- the supplementary information is represented by the slot name and the slot value. If the slot name of the estimated supplementary information matches the slot name of the incomplete intention estimation result, the slot value of the estimated supplementary information is used as the slot value of the incomplete intention estimation result. The intention can be reliably supplemented to the complete intention estimation result.
- a voice input unit that accepts input of voice including a plurality of intentions, voice data corresponding to the voice input to the voice input unit is recognized, and a plurality of intentions are recognized.
- the morpheme analyzer performs morpheme analysis on the text data output from the speech recognizer. The intention can be estimated with high accuracy.
- the morphological analysis step for performing morphological analysis on a compound sentence including a plurality of intentions using the intention estimating apparatus of the first embodiment, and the compound sentence subjected to the morphological analysis are performed.
- the estimated supplementary information is not used.
- the intention capture step that supplements the complete intention estimation result is executed, so that the user's intention can be accurately estimated even for multiple sentences including multiple intentions. It is possible.
- Embodiment 2 is an example in which supplementary intention estimation is performed for an intention whose intention estimation has failed using a history of the state recorded by the apparatus, a correctly estimated intention, and a single sentence morpheme whose intention estimation has failed.
- FIG. 14 is a configuration diagram illustrating the intention estimation apparatus according to the second embodiment.
- the intention estimation apparatus according to the second embodiment has a state history storage unit 115 and a supplementary intention estimation model storage unit 116 instead of the supplementary information estimation model storage unit 107, the supplementary information estimation unit 108, and the intention supplementation unit 109 according to the first embodiment.
- the supplementary intention estimation unit 117 is provided. Since other configurations are the same as those of the first embodiment shown in FIG. 1, the corresponding parts are denoted by the same reference numerals and the description thereof is omitted.
- the state history storage unit 115 is a storage unit that holds the current state of the intention estimation device based on the intention history up to the present as the state history.
- this state history for example, when the intention estimation device is applied to a car navigation device, there are a route setting state “destination set”, “with waypoint”, and the like.
- the supplementary intention estimation model storage unit 116 is a storage unit for holding a supplementary intention estimation model to be described later.
- the supplementary intention estimation unit 117 uses the intention estimation result of the single sentence that the intention estimation unit 106 can infer, the morpheme of the single sentence in which the intention estimation has failed, and the state history stored in the state history storage unit 115 as feature quantities. This is a processing unit that estimates the supplementary intention of a single sentence whose intention estimation has failed.
- the hardware configuration of the intention estimation apparatus in the second embodiment is realized by the configuration shown in FIG. 4 of the first embodiment.
- the state history storage unit 115 and the supplementary intention estimation model storage unit 116 are realized on the storage device 160, and the supplementary intention estimation unit 117 is stored in the storage device 160 as a program.
- FIG. 15 is a diagram illustrating an example of a supplementary intention estimation model according to the second embodiment.
- the supplementary intention estimation model is data in which each supplementary intention is associated with a plurality of simple sentence morphemes, state history information, and a score of a feature amount included in each estimated intention.
- “belly” and “empty” are morphological features.
- “No transit point” and “With transit point” are state history information features.
- FIG. 16 is an explanatory diagram illustrating a configuration for explaining generation processing of an intention supplement model according to the second embodiment.
- a learning data storage unit 113a is a storage unit for storing learning data in correspondence with supplementary intention results for a plurality of sentence examples, intentions, and state history information.
- FIG. 17 is an explanatory diagram of an example of supplementary intention estimation model learning data according to the second embodiment.
- the learning data is data in which a supplementary intention estimation result is added to a sentence example, state history information, and intention estimation result that cannot be estimated.
- the supplementary intention estimation model generation unit 118 is a processing unit that learns the correspondence relationship of the supplementary intention information stored in the learning data storage unit 113a using a statistical method.
- the supplementary intention estimation model generation unit 118 generates a supplementary intention estimation model using the morpheme extracted by the morpheme analysis unit 103, the state history information included in the learning data, and the supplementary intention.
- FIG. 18 is a flowchart for explaining generation processing of a supplementary intention estimation model according to the second embodiment.
- the morpheme analysis unit 103 performs morpheme analysis in each sentence example of the learning data stored in the learning data storage unit 113a (step ST201). Since this morphological analysis is the same process as step ST1 in the first embodiment, its description is omitted.
- the supplementary intention estimation model generation unit 118 generates a supplementary intention estimation model by combining the morpheme analyzed by the morpheme analysis unit 103, the state history and supplementary intention set as learning data (step ST202).
- the supplementary intention included in the learning data is “deletion of waypoints []” as shown in FIG. 17, it is determined that the score is high.
- the supplementary intention estimation model generation unit 118 performs the same processing as described above on all sentence examples, state history information, and learning preparation diagrams included in the learning data, and finally the supplementary intention estimation model as shown in FIG. Is generated.
- all the morphemes of a single sentence in which intention estimation has failed, the state history recorded in the state history storage unit 115, and the intention estimation result of a single sentence that can be intentionally estimated are used as feature quantities in supplementary intention estimation.
- the present invention is not limited to this example, and it is possible to select a feature quantity by defining a clear rule such as “Use morphemes other than particles” or “Do not use intention features for specific state history”.
- only morphemes that are highly effective for supplementary intention estimation may be used using a statistical technique.
- FIG. 19 is a diagram showing an example of dialogue according to the second embodiment. As shown in FIG. 19, it is assumed that the state history storage unit 115 records information “with waypoint setting”. Hereinafter, supplementary intention estimation processing will be described with reference to the flowchart of FIG.
- the notification unit 112 of the intention estimation apparatus utters “Please speak when you hear a beep” (S11). On the other hand, the user speaks “I am hungry, go home immediately” (U11).
- the speech recognition unit 102 performs speech recognition processing on user input to convert it into text data
- the morpheme analysis unit 103 performs morpheme analysis processing on the text data (steps ST201 and ST202).
- the syntax analysis unit 104 performs a syntax analysis process on the text data (step ST203).
- the text data related to the user input is divided into a plurality of simple sentences, such as a simple sentence 1 “I am hungry” and a simple sentence 2 “return home”.
- the syntax analysis unit 104 outputs the text data of each single sentence subjected to the morphological analysis to the intention estimation unit 106, and the processes of step ST204 to step ST206 are performed. Since the processing after step ST205 is the same as the processing after step ST105 in the first embodiment, description thereof will be omitted.
- the intention estimation unit 106 performs intention estimation processing for each of the single sentence 1 and the single sentence 2 using the intention estimation model (step ST206).
- the supplementary intention estimation unit 117 calculates the product of the feature amount scores for each supplementary intention using the calculation formula shown in FIG. That is, the supplementary intention estimation unit 117 estimates an appropriate supplementary intention based on the final score obtained from the scores of a plurality of feature amounts.
- FIG. 21 is a diagram showing a final score for each execution order according to the second embodiment.
- the score of the feature value “abdomen” is 0.2
- the score of the feature value “ga” is 0.01
- the feature value “empty” has a score of 0.15
- a score of the feature amount “ta” is 0.01
- a score of the state history feature “with route setting” is 0.01
- an intention feature “destination setting [facility house]”
- the final score S which is the product of these, is calculated as 1.5e-9.
- final scores are calculated for other supplementary intentions.
- the supplementary intention estimation unit 117 estimates the supplementary intention “deletion of waypoints []” having the highest score as an appropriate intention among the final scores of the supplementary intentions to be calculated.
- the command execution unit 110 performs a plurality of operations based on each intention included in the plurality of single sentences estimated by the intention estimation unit 106 and a plurality of intentions of the plurality of single sentences estimated by the supplementary intention estimation unit 117.
- a machine command corresponding to each of the intentions is executed (step ST208).
- the supplementary intention estimation unit 117 estimates the intention of “deletion of waypoint []” for the single sentence 1. Therefore, the command execution unit 110 executes deleting the waypoint and setting the destination as home.
- the response generation unit 111 generates a synthesized sound “the route is deleted.
- the house is set as the destination” corresponding to the machine command executed by the command execution unit 110.
- the notification unit 112 notifies the user of the synthesized sound (step ST208).
- a morphological analysis unit that performs morphological analysis on a compound sentence including a plurality of intentions, and parses the compound sentence that has been analyzed by the morpheme analysis unit. If there is a syntactic part that divides the sentence into multiple sentences, an intention estimator that estimates the intent contained in each of the single sentences, and a single sentence that failed in the inference The intent estimation result of the single sentence that the intent could be estimated by the estimator, the morpheme of the single sentence that failed in the intent estimation, and the state history indicating the current state of the intention estimation device based on the intention history up to the present time are used as features. Since the supplementary intention estimation unit for estimating the supplementary intention of a single sentence that has failed to be estimated is provided, the intention of the user can be accurately estimated even for a compound sentence including a plurality of intentions.
- the state history storage unit that records the state history is provided, and the supplementary intention estimation unit performs supplementary intention estimation using the state history stored in the state history storage unit. As a result, intention estimation reflecting the state history can be performed.
- the score of the supplementary intention corresponds to the morpheme of the single sentence in which the intention estimation has failed, the intention estimation result of the single sentence in which the intention could be estimated, and the state history.
- the supplementary intention estimation model storage unit for storing the supplementary intention estimation model is provided, and the supplementary intention estimation unit is configured to perform supplementary intention estimation using the supplementary intention estimation model. It can be carried out.
- the supplementary intention estimation unit obtains a score of a feature amount corresponding to a single sentence for which intention estimation has failed, and estimates the intention based on a final score obtained by the product of these scores Since the supplementary intention estimation of the single sentence that failed to be performed is performed, the supplementary intention estimation can be reliably performed on the single sentence whose intention estimation has failed.
- the morphological analysis step for performing morphological analysis on a compound sentence including a plurality of intentions using the intention estimation apparatus of the second embodiment, and the compound sentence subjected to the morphological analysis are performed.
- the feature amount includes a single sentence intention estimation result obtained by the intention estimation step, a single sentence morpheme for which the intention estimation has failed, and a state history indicating the current state of the intention estimation device based on the intention history up to the present.
- the supplementary intention estimation step for estimating the supplementary intention of a single sentence that failed in the intention estimation is executed. Figure can be accurately estimated.
- the present invention is not limited to this, and some functions are executed by another apparatus. You may be made to do.
- some functions may be executed by a server or the like provided outside.
- the target language for intention estimation is Japanese, but it is also possible to deal with multiple languages.
- the present invention can be freely combined with each embodiment, any component of each embodiment can be modified, or any component can be omitted in each embodiment. .
- the intention estimation apparatus is a configuration of intention estimation for recognizing text input using a voice, a keyboard, or the like, estimating a user's intention, and executing an operation intended by the user. And is suitable for use as an audio interface for a mobile phone or a navigation device.
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
補足情報推定部(108)は、意図推定部(106)における推定対象の単文で意図推定を失敗した単文があった場合、補足情報推定モデル記憶部(107)の補足情報推定モデルを用いて、この単文から補足情報を推定する。意図補足部(109)は、意図推定部(106)における推定対象の単文で不完全意図推定結果の単文があった場合、補足情報推定部(108)で推定された補足情報を用いて不完全意図推定結果を補足する。
Description
本発明は、音声やキーボードなどを用いて入力されたテキストを認識してユーザの意図を推定し、ユーザの意図する操作を実行するための意図推定装置及び意図推定方法に関するものである。
近年、人間の自由発話を認識し、その認識結果を用いて機械等の操作を実行する技術が知られている。この技術は、携帯電話やナビゲーション装置などの音声インタフェースとして利用され、入力音声の認識結果の意図を推定するものであり、多様な文例及び対応する意図から統計的手法を用いて学習した意図推定モデルを使用することにより、ユーザの多様な言い回しに対応できる。
このような技術においては、発話内容に含まれる意図が一つである場合には有効である。しかしながら、発話者により、複文のような複数の意図を含む発話が入力された場合に、正しく複数の意図を推定することは困難であった。例えば、「お腹が空いた、近くに何か店ある?」という発話では、「お腹が空く」という意図と、「周辺施設を検索」という二つの意図があり、上記の意図推定モデルの使用では、これら二つの意図を推定することは困難であった。
このような問題に対し、従来、例えば特許文献1では、複数の意図を含む発話に対し、入力テキストの適切な分割点の位置を意図推定及び複文分割の確率により推定する手法が提案されている。
このような問題に対し、従来、例えば特許文献1では、複数の意図を含む発話に対し、入力テキストの適切な分割点の位置を意図推定及び複文分割の確率により推定する手法が提案されている。
しかしながら、上記特許文献1に記載された技術では、分割点により複数の意図を推定した結果をそのまま出力するだけであって、適切な意図推定ができない場合の対応については示されていなかった。このため、例えば上記の例だと、“目的地設定”、“周辺検索”などカーナビ用の特定コマンド発話から作られた意図推定モデルでは、周辺の施設を検索など意図が推定できるが、「お腹が空いた」のような、コマンドではない自由な発話に対する意図推定は困難であった。従って、最終的にユーザの意図である“周辺のレストランを検索”ではなく、「周辺の店の検索」の意図が推定されてしまい、ユーザの意図を精度良く推定したとは言えないものであった。このため、その後は、店の種類についてまたユーザへの問いを行い、最終的にユーザの意図を推定するは一般的な対話方式となってしまうことになる。一方「お腹が空いた」のような自由な発話にも上記特許文献1に記載された手法で対応させようとした場合は、膨大な学習データを収集しなければならず、すべての自由な発話を対応させることは現実的には困難であった。
この発明は、かかる問題を解決するためになされたもので、複数の意図を含んだ複文に対してもユーザの意図を精度良く推定することのできる意図推定装置及び意図推定方法を提供することを目的とする。
この発明に係る意図推定装置は、複数の意図が含まれる複文に対して形態素解析を行う形態素解析部と、形態素解析部による形態素解析された複文を構文解析して複数の単文に分割する構文解析部と、複数の単文のそれぞれに含まれる意図を推定する意図推定部と、意図推定部における推定対象の単文で意図推定を失敗した単文がある場合、意図推定を失敗した単文から補足情報を推定する補足情報推定部と、意図推定部における推定対象の単文で不完全意図推定結果の単文があった場合、推定された補足情報を用いて不完全意図推定結果を補足する意図補足部とを備えたものである。
この発明に係る意図推定装置は、推定対象の単文で意図推定を失敗した単文があった場合はこの文から補足情報を推定し、推定対象の単文で不完全意図推定結果の単文があった場合は、推定された補足情報を用いて不完全意図推定結果を補足するようにしたものである。これにより、複数の意図を含んだ複文に対してもユーザの意図を精度良く推定することができる。
以下、この発明をより詳細に説明するために、この発明を実施するための形態について、添付の図面に従って説明する。
実施の形態1.
図1は、本実施の形態による意図推定装置の構成図である。
図示のように、実施の形態1による意図推定装置は、音声入力部101と、音声認識部102と、形態素解析部103と、構文解析部104と、意図推定モデル記憶部105と、意図推定部106と、補足情報推定モデル記憶部107と、補足情報推定部108と、意図補足部109と、コマンド実行部110と、応答生成部111と、通知部112とを備える。
実施の形態1.
図1は、本実施の形態による意図推定装置の構成図である。
図示のように、実施の形態1による意図推定装置は、音声入力部101と、音声認識部102と、形態素解析部103と、構文解析部104と、意図推定モデル記憶部105と、意図推定部106と、補足情報推定モデル記憶部107と、補足情報推定部108と、意図補足部109と、コマンド実行部110と、応答生成部111と、通知部112とを備える。
音声入力部101は、音声の入力を受け付けるための意図推定装置の入力部である。音声認識部102は、音声入力部101に入力された音声入力に対応する音声データを音声認識した上でテキストデータに変換し、形態素解析部103に出力する処理部である。以下の説明では、テキストデータは複数の意図が含まれる複文であるとする。複文は、複数の単文から構成され、一つの単文には一つの意図が含まれる。
形態素解析部103は、音声認識部102により変換されたテキストデータに対して形態素解析を行い、その結果を構文解析部104に出力する処理部である。ここで、形態素解析とは、テキストを形態素(言語で意味を持つ最小単位)に区切り、辞書を利用して品詞を付与する自然言語処理技術である。例えば、「東京タワーへ行く」という単文に対しては、「東京タワー/固有名詞、へ/格助詞、行く/動詞」のような形態素に区切られる。
構文解析部104は、形態素解析部103により形態素解析されたテキストデータに対して、文法規則によって文の構造を句や文節を単位として解析(構文解析)を行う処理部である。構文解析部104は、テキストデータに対応するテキストが複数の意図を含む複文である場合、複数の単文に分割して各単文の形態素解析結果を意図推定部106に出力する。構文解析手法として、例えば、CYK(Cocke-Younger-Kasami)法等を用いることができる。
なお、ここでの説明では、テキスト(複文)は二つの単文1及び単文2を含むものとして説明を行うが、これに限るものではなく、三つ以上の単文から構成されていてもよい。なお、構文解析部104は、分割した全ての単文に対応するデータを意図推定部106に出力する必要はなく、例えば、入力されたテキスト(複文)に単文1、単文2及び単文3が含まれる場合であっても、単文1及び単文2のみを出力の対象としてもよい。
意図推定モデル記憶部105は、形態素を特徴として意図推定を行うための意図推定モデルの記憶部である。意図は、「<主意図>[<スロット名>=<スロット値>、・・・]」のような形で表現することができる。ここで、主意図とは、意図の分類または機能を示すものである。ナビゲーション装置の例では、主意図とは、ユーザが最初に操作する上位層の機械コマンド(目的地設定、音楽を聞く等)に対応する。スロット名及びスロット値は、主意図を実行するために必要な情報を示す。例えば、「近くのレストランを検索する」という単文に含まれる意図は、「周辺検索[施設種類=レストラン]」のように表すことができ、「近くの店を検索したい」という単文に含まれる意図は、「周辺検索[施設種類=NULL]」のように表現できる。この場合、周辺検索されるが、具体的な施設種類は決定されないため、ユーザに対してまた施設種類を尋ねることが必要となる。このようなスロットに具体値がない場合、本実施の形態では意図推定結果が不十分または不完全意図推定結果であるとする。なお、意図推定できない場合または意図推定失敗の場合とは、主意図が推定できない状態であることをいう。
図2は実施の形態1に係る意図推定モデルの一例を示す図である。図2に示すように、意図推定モデルは、「目的地設定[施設=東京タワー]」や「周辺検索[施設種類=レストラン]」等の意図に対する各形態素のスコアを表すものである。図2に示すように、形態素「行く」や「目的地」については、目的地設定を意図している可能性が高いので、意図「目的地設定[施設=東京タワー]」のスコアが高くなる。一方で、形態素「美味」、「食事」については、周辺レストランの検索を意図している可能性が高いので、意図「周辺検索[施設種類=レストラン]」のスコアが高くなる。なお、意図推定モデルとしては「周辺検索[施設種類=NULL]」といった具体的な施設種類が決定されていない意図(図2では図示省略)も含まれている。
意図推定部106は、構文解析部104から入力された複数の単文の形態素解析結果に基づき、意図推定モデルを使って複数の単文に含まれる意図をそれぞれ推定する処理部であり、その結果を補足情報推定部108、意図補足部109及びコマンド実行部110に出力するよう構成されている。ここで、意図推定の方式としては、例えば最大エントロピ法が利用できる。つまり、意図推定部106は、統計的手法を利用して、予め大量に収集した形態素と意図の組から、入力された形態素に対応する意図がどれだけ尤もらしいかを推定する。
補足情報推定モデル記憶部107は、単文と補足情報との関係を示す補足情報推定モデルの記憶部である。すなわち、この補足情報推定モデルは、意図推定失敗した単文の形態素から補足情報の推定を行うための補足情報である。補足情報は「<スロット名>=<スロット値>」のような形で表現することができる。
図3は実施の形態1に係る補足情報推定モデルの一例を示す図である。図3に示すように、意図推定できなかった単文の形態素を特徴量として、補足情報(スロット内容)の関連性を示すモデルである。図3の例として「ルート種類=渋滞回避」や「施設種類=レストラン」等の補足情報に対する各形態素のスコアを表すものである。図3に示すように、形態素「道」や「混む」については、渋滞回避を意図している可能性が高いので、補足情報「ルート種類=渋滞回避」のスコアが高くなる。一方で、形態素「お腹」、「空く」については、食事したい意図のスロットを推定する可能性が高いので、補足情報「施設種類=レストラン」のスコアが高くなる。
補足情報推定部108は、意図推定不十分な単文に対して、意図推定できなかった単文の形態素を用い、補足情報推定モデル記憶部107に記憶されている補足情報推定モデルを参照して、補足情報を推定する処理部である。例えば、“お腹が空いた、周辺の店を探す”というテキストが入力されると、単文2は意図推定不十分のため、単文1「お腹が空いた」の形態素「お腹、が、空く、た」から補足情報を推定する。結果、「施設種類=レストラン」の補足情報が推定できる。推定した補足情報は意図補足部109に出力される。なお、推定アルゴリズムの詳細については後述する。
なお、ここでの説明では、意図推定失敗した単文のすべての形態素を補足情報推定で使用するが、これに限るものではなく、「助詞以外の形態素を使用」のように明確な規則を決めて特徴量を選択する、あるいは統計的な手法を用いて補足情報推定に効果が高い形態素のみの使用するようにしてもよい。
意図補足部109は、補足情報推定部108から得た補足情報及び意図推定不十分(スロット値がない状態)の意図を用いて意図を補足する処理部である。例えば、意図「周辺検索[施設種類=NULL]」に対して補足情報が[施設種類=レストラン]を得た場合、スロット名の「施設種類」が一致するため、スロット値の“レストラン”をスロット名“施設種類”に埋め、「周辺検索[施設種類=レストラン]」の意図を得る。補足した意図をコマンド実行部110に渡す。
コマンド実行部110は、意図推定部106により推定された複数の単文に含まれるそれぞれの意図と、意図補足部109により補足した意図に基づき、複数の単文それぞれに含まれる意図に対応する機械コマンド(操作)を実行する処理部である。例えば、“お腹が空いた、店を探して”の発話に対して、「周辺検索「施設種類=[レストラン]」」の意図により、周辺のレストランを検索するという動作を実行する。
応答生成部111は、コマンド実行部110により実行された機械コマンドに対応する応答を生成する処理部である。応答については、テキストデータの形式で生成してもよいし、音声データとして合成音を生成してもよい。音声データを生成する場合、例えば、「周辺のレストランを検索しました。リストから選択してください」のような合成音であればよい。
通知部112は、応答生成部111で生成された応答を、車両のドライバ等のユーザに通知するための処理部である。つまり、通知部112は、コマンド実行部110により複数の機械コマンドが実行されたことをユーザに通知する機能を有している。なお、通知の態様については、表示による通知、音声による通知、または振動による通知等、ユーザが通知を認識できるものであれば何でもよい。
次に、意図推定装置のハードウェア構成について説明する。
図4は実施の形態1に係る意図推定装置のハードウェア構成例を示す図である。意図推定装置は、CPU(Central Processing Unit)等の処理装置(Processor)150と、ROM(Read Only Memory)やハードディスク装置等の記憶装置(Memory)160と、キーボードやマイク等の入力装置170と、スピーカやディスプレイ等の出力装置180とがバス接続された構成となっている。なお、CPUは、自身にメモリを備えていてもよい。
図4は実施の形態1に係る意図推定装置のハードウェア構成例を示す図である。意図推定装置は、CPU(Central Processing Unit)等の処理装置(Processor)150と、ROM(Read Only Memory)やハードディスク装置等の記憶装置(Memory)160と、キーボードやマイク等の入力装置170と、スピーカやディスプレイ等の出力装置180とがバス接続された構成となっている。なお、CPUは、自身にメモリを備えていてもよい。
図1に示す音声入力部101は、入力装置170により実現され、通知部112は出力装置180により実現される。
意図推定モデル記憶部105、補足情報推定モデル記憶部107、後述する学習用データ記憶部113に記憶されるデータ等はそれぞれ記憶装置160に記憶される。また、音声認識部102、形態素解析部103、構文解析部104、意図推定部106、補足情報推定部108、意図補足部109、コマンド実行部110、応答生成部111等の「~部」についても、プログラムとして記憶装置160に記憶される。
意図推定モデル記憶部105、補足情報推定モデル記憶部107、後述する学習用データ記憶部113に記憶されるデータ等はそれぞれ記憶装置160に記憶される。また、音声認識部102、形態素解析部103、構文解析部104、意図推定部106、補足情報推定部108、意図補足部109、コマンド実行部110、応答生成部111等の「~部」についても、プログラムとして記憶装置160に記憶される。
処理装置150は、記憶装置160に記憶されるプログラムを適宜読みだして実行することにより、上記「~部」における機能を実現する。つまり、処理装置150であるハードウェアと上記プログラムであるソフトウェアとを組み合わせることにより、上記「~部」の機能を実現する。また、図4の例では一つの処理装置150により機能を実現する構成となっているが、例えば一部機能を外部のサーバ内にある処理装置で担う等して、複数の処理装置を用いて機能を実現してもよい。そのため、処理装置150とは、一つの処理装置で構成されるだけでなく、複数の処理装置をも含む概念である。なお、これら「~部」の機能は、ハードウェアとソフトウェアとの組み合わせに限らず、処理装置150に上記プログラムをインプリメントし、いわゆるシステムLSIのように、ハードウェア単体で実現するようにしてもよい。このようなハードウェアとソフトウェアの組み合わせ、及び、ハードウェア単体の両者を含めた上位の概念として、プロセッサ回路(Processing Circuitry)と表現してもよい。
次に、実施の形態1に係る意図推定装置の動作について説明する。まず、補足情報推定モデル記憶部107に記憶される補足情報推定モデルの生成処理について説明する。
図5は実施の形態1に係る補足情報推定モデルの生成処理を行うための構成例の説明図である。図5において、学習用データ記憶部113は、複数の文例に対して補足情報を対応付けた学習用データを記憶するための記憶部である。
図6は実施の形態1に係る学習用データの一例を示す説明図である。図6に示すように、学習用データは、意図推定失敗した単文の文例に対して補足情報が付与されたデータである。例えば、文例No.1の「お腹が空いた」については、補足情報「施設種類=レストラン」が付与される。この補足情報は予め人手で付与される。
図5に戻って、補足情報推定モデル生成部114は、学習用データ記憶部113に記憶された補足情報の対応関係を統計的な手法で学習するための処理部である。補足情報推定モデル生成部114は、形態素解析部103で抽出された形態素を用いて、補足情報推定モデルを生成する。
図7は実施の形態1に係る補足情報推定モデルの生成処理を説明するためのフローチャートである。まず、形態素解析部103が、学習用データ記憶部113に記憶される学習用データの各文例に対し、形態素解析を行う(ステップST1)。例えば、文例No.1について言えば、形態素解析部103は「お腹が空いた」に対して形態素解析を行う。形態素解析部103は、形態素解析した結果を、補足情報推定モデル生成部114に出力する。
補足情報推定モデル生成部114は、形態素解析部103で解析した形態素を用い、学習用データに含まれる補足情報に基づいて、補足情報推定モデルを生成する(ステップST2)。補足情報推定モデル生成部114は、例えば、形態素「お腹」と「空く」の場合、学習用データに含まれる補足情報は図6に示すように「施設種類=レストラン」であるので、スコアが高いと判断する。補足情報推定モデル生成部114は、学習用データに含まれる全ての文例に対して上記と同様の処理を行い、最終的に図3に示すような補足情報推定モデルを生成する。
次に、補足情報推定モデルを用いた意図補足処理に関する動作について説明する。
図8は実施の形態1に係る対話例を示す図である。図9は実施の形態1に係る意図補足処理を説明するためのフローチャートである。
図8は実施の形態1に係る対話例を示す図である。図9は実施の形態1に係る意図補足処理を説明するためのフローチャートである。
まず、図8に示すように、意図推定装置の通知部112が「ピッと鳴ったらお話ください」と発話する(S1)。それに対し、ユーザが「○○へ行きたい。」と発話する(U1)。なお、ここでは意図推定装置からの発話を「S」と表し、ユーザからの発話を「U」と表す。UまたはSに続く番号は、それぞれの発話順序を示している。
図9において、U1で示すようにユーザが発話すると、音声認識部102がユーザ入力に対して音声認識処理を行い(ステップST101)、テキストデータに変換する。形態素解析部103は、変換されたテキストデータに対し、形態素解析処理を行う(ステップST102)。構文解析部104は、形態素解析されたテキストデータに対し構文解析処理を実施し(ステップST103)、当該テキストデータが複文である場合、当該複文を複数の単文に分割する。テキストデータが複文でない場合は(ステップST104-NO)、ステップST105以降の処理に移り、テキストデータが複文である場合は(ステップST104-YES)、ステップST106以降の処理に移る。
U1の入力例は単文であるため、ステップST104の判断結果は「NO」であり、ステップST105に移る。そのため、構文解析部104は、形態素解析された単文のテキストデータを意図推定部106に出力する。意図推定部106は、意図推定モデルを利用して、入力された単文に対し意図推定処理を実行する(ステップST105)。ここでは、「目的地設定[施設=○○]」のように意図を推定する。
コマンド実行部110は、意図推定部106による意図推定結果に対応する機械コマンドを実行する(ステップST108)。例えば、コマンド実行部110は、施設○○を目的地に設定するという操作を実行する。同時に、応答生成部111は、コマンド実行部110により実行された機械コマンドに対応する合成音を生成する。合成音としては、例えば、「○○を目的地に設定しました。」となる。通知部112は、応答生成部111で生成された合成音を、スピーカ等によりユーザに通知する(ステップST106)。その結果、図8の「S2」に示すように、「○○を目的地にしました。」のような通知をユーザに行う。
次に、図8において、ユーザが「U2」に示すように「お腹が空いた、ルート周辺の店を探して」と発話した場合について説明する。
図9において、ユーザが「U2」に示すように発話すると、音声認識部102がユーザ入力に対して音声認識処理を行ってテキストデータに変換し、形態素解析部103がテキストデータに対して形態素解析処理を行う(ステップST101、ST102)。次に、構文解析部104がテキストデータに対して構文解析処理を行う(ステップST103)。ここで、ユーザ入力に関するテキストデータは、単文1の「お腹が空いた」と、単文2の「ルート周辺の店を探して」のように、複数の単文に分割される。従って、ステップST104の判断結果は「YES」であり、ステップST106以降の処理に移る。
図9において、ユーザが「U2」に示すように発話すると、音声認識部102がユーザ入力に対して音声認識処理を行ってテキストデータに変換し、形態素解析部103がテキストデータに対して形態素解析処理を行う(ステップST101、ST102)。次に、構文解析部104がテキストデータに対して構文解析処理を行う(ステップST103)。ここで、ユーザ入力に関するテキストデータは、単文1の「お腹が空いた」と、単文2の「ルート周辺の店を探して」のように、複数の単文に分割される。従って、ステップST104の判断結果は「YES」であり、ステップST106以降の処理に移る。
意図推定部106は、意図推定モデルを利用し、単文1及び単文2に対して、それぞれ意図推定処理を実施する(ステップST106)。ここでの例では、意図推定部106は、単文1に対して意図推定できない、という意図推定結果を、また、単文2に対しては「周辺検索[施設種類=NULL]」の意図推定結果を得る。すなわち、単文1は主意図が推定できない状態であり、単文2は「周辺検索[施設種類=NULL]」が尤もらしいと判断する。
意図推定部106の意図推定結果で、複文の意図推定結果として、意図推定不十分な結果があり且つ意図推定できなかった結果がある場合(ステップST107-YES)はステップST109以降の処理に移り、それ以外の場合(ステップST107-NO)はステップST108の処理に移る。
意図推定部106から、単文1が意図推定失敗、単文2は不完全意図推定結果「周辺検索[施設種類=NULL]」を得たため、ここではステップST109に移る。そのため、単文1の形態素解析結果を補足情報推定部108に渡し、補足情報推定を行う(ステップST109)。以下、補足情報推定処理について詳細を説明する。
まず、補足情報推定部108は、単文1の形態素と補足情報推定モデルを照合し、各補足情報に対する各形態素のスコアを求める。
図10は実施の形態1に係る各補足情報に対する各形態素のスコアを示す図である。図10に示すように、補足情報「ルート種類=渋滞回避」に対しては、特徴量「お腹」のスコアは0.01となり、特徴量「が」のスコアは0.01となり、特徴量「空く」のスコアは0.15となり、特徴量「た」のスコアは0.01となる。他の補足情報についても、同様に、各特徴量のスコアが求まる。
図11は実施の形態1に係るスコアの積を求める計算式を示す図である。図11において、Siは、推定対象の補足情報に対するi番目の形態素のスコアである。Sは、推定対象の補足情報に対するSiの積を表す最終スコアである。
図12は実施の形態1に係る各補足情報に対する最終スコアを示す図である。補足情報推定部108は、図11に示す計算式を用いて、図12に示す最終スコアを算出する。ここでの例では、補足情報「ルート種類=渋滞回避」に対しては、特徴量「お腹」のスコアは0.01となり、特徴量「が」のスコアは0.01となり、特徴量「空く」のスコアは0.15となり、特徴量「た」のスコアは0.01となるので、これらの積である最終スコアSは1.5e-7と算出される。同様に、他の補足情報についても、それぞれ最終スコアが算出される。
補足情報推定部108は、算出した推定対象となる各補足情報の最終スコアのうち、最もスコアが高い補足情報「施設種類=レストラン」を適切な補足情報として推定する。つまり、補足情報推定部108は、補足情報推定モデルに含まれる複数の形態素のスコアに基づき、補足情報を推定するものであり、さらに言うと、複数の形態素のスコアの積により得られた最終スコアに基づき補足情報を推定する。推定された補足情報「施設種類=レストラン」を意図補足部109に渡す。なお、補足情報の推定を行う方法としては、複数の形態素のスコアの積を用いる他に、例えば、複数の形態素のスコアの和をとり、その値(最終スコア)が最も高い補足情報を選択するようにしてもよい。
図9に戻って、意図補足部109では補足情報推定部108で推定された結果を用いて意図の補足処理を行う(ステップST110)。図13に意図補足処理の流れを示す。すなわち、意図補足部109は、補足情報推定部108で推定された結果である「施設種類=レストラン」を用いて、意図推定部106で得た意図推定結果「周辺検索[施設種類=NULL]」のスロット名と比較する(ステップST110a)。スロット名が一致する場合は(ステップST110a-YES)、補足情報のスロット値を意図推定結果「NULL」のところに埋め(ステップST110b)、スロット名が一致しない場合は(ステップST110a-NO)、意図推定部106で得た意図推定結果「周辺検索[施設種類=NULL]」をそのままコマンド実行部110に渡す。ここの例では、補足情報のスロット名「施設種類」と不完全意図のスロット名が一致し、スロット値を埋め、「周辺検索[施設種類=レストラン]」のような完全な意図を得る。当意図をコマンド実行部110に渡す。なお、ステップST110bにおいて、スコアが予め設定した閾値以上の場合にのみスロット値を埋めるようにしてもよい。
コマンド実行部110は、意図補足部109による補足した意図に対応する機械コマンドを実行する(ステップST109)。例えば、コマンド実行部110は、周辺のレストランを検索し、周辺レストランの一覧をリストに表示する。そして、応答生成部111は、コマンド実行部110により実行された機械コマンドに対応する合成音を生成する(ステップST109)。合成音としては、例えば、「ルート周辺のレストランを検索しました、リストから選んでください」となる。通知部112は、応答生成部111で生成された合成音を、スピーカ等によりユーザに通知する。その結果、図8の「S3」に示すように、「ルート周辺のレストランを検索しました、リストから選んでください。」のような通知をユーザに行う。
このように、実施の形態1では、構文解析部104が入力された複文を複数の単文に分割し、各単文に対して意図推定し、意図推定失敗した単文から補足情報を推定する。そして、補足情報を用いて意図推定結果が不十分の単文の意図を補足する。このように動作することにより、ユーザの意図を正確に推定することができる。
また、コマンド実行部110が、意図補足部109により補足された意図に基づき、対応する機械コマンドを実行するので、ユーザによる操作負担を軽減することが可能となる。すなわち、従来より対話回数の削減を実現できる。
なお、ここまでの説明では、煩雑さを避けるため、意図のスロットが一つの場合を説明したが、複数のスロットを持つ意図に対しても、スロット名の照合により対応可能である。また、意図推定失敗の単文が複数である場合、補足情報推定時の最終スコアにより一番高いスコアを持つ補足情報を選択及びスロット名の照合により適切な補足情報を選択することも可能である。
以上説明したように、実施の形態1の意図推定装置によれば、複数の意図が含まれる複文に対して形態素解析を行う形態素解析部と、形態素解析部による形態素解析された複文を構文解析して複数の単文に分割する構文解析部と、複数の単文のそれぞれに含まれる意図を推定する意図推定部と、意図推定部における推定対象の単文で意図推定を失敗した単文がある場合、意図推定を失敗した単文から補足情報を推定する補足情報推定部と、意図推定部における推定対象の単文で不完全意図推定結果の単文があった場合、推定された補足情報を用いて不完全意図推定結果を補足する意図補足部とを備えたので、複数の意図を含んだ複文に対してもユーザの意図を精度良く推定することができる。
また、実施の形態1の意図推定装置によれば、単文と補足情報との関係を示す補足情報推定モデルを保持する補足情報推定モデル記憶部を備え、補足情報推定部は補足情報推定モデルを用いて補足情報の推定を行うようにしたので、効率よく補足情報を推定することができる。
また、実施の形態1の意図推定装置によれば、補足情報推定モデルは、単文の形態素を特徴量として補足情報のスコアが対応付けられて構成され、補足情報推定部は、意図推定を失敗した単文の形態素毎の補足情報のスコアを求め、スコアの積により得られた最終スコアに基づき補足情報の推定を行うようにしたので、精度の高い補足情報の推定を行うことができる。
また、実施の形態1の意図推定装置によれば、不完全意図推定結果はスロット名とスロット値の組合せでスロット値が無い状態で表すと共に、補足情報はスロット名とスロット値で表し、意図補足部は、推定された補足情報のスロット名が不完全意図推定結果のスロット名と一致した場合、推定された補足情報のスロット値を不完全意図推定結果のスロット値とするようにしたので、不完全意図推定結果に対して確実に意図の補足を行うことができる。
また、実施の形態1の意図推定装置によれば、複数の意図が含まれる音声の入力を受け付ける音声入力部と、音声入力部に入力された音声に対応する音声データを認識し、複数の意図が含まれる複文のテキストデータに変換する音声認識部を備え、形態素解析部は、音声認識部から出力されたテキストデータに対して形態素解析を行うようにしたので、音声入力に対してもユーザの意図を精度良く推定することができる。
また、実施の形態1の意図推定方法によれば、実施の形態1の意図推定装置を用い、複数の意図が含まれる複文に対して形態素解析を行う形態素解析ステップと、形態素解析された複文を構文解析して複数の単文に分割する構文解析ステップと、複数の単文のそれぞれに含まれる意図を推定する意図推定ステップと、意図推定ステップにおける推定対象の単文で意図推定を失敗した単文があった場合、意図推定を失敗した単文から補足情報を推定する補足情報推定ステップと、意図推定ステップにおける推定対象の単文で不完全意図推定結果の単文があった場合、推定された補足情報を用いて不完全意図推定結果を補足する意図補足ステップとを実行するようにしたので、複数の意図を含んだ複文に対してもユーザの意図を精度良く推定することができる。
実施の形態2.
実施の形態2は、装置で記録した状態の履歴、正しく推定された意図及び意図推定失敗した単文の形態素を用いて、意図推定失敗した意図に対する補足意図推定を行う例である。
実施の形態2は、装置で記録した状態の履歴、正しく推定された意図及び意図推定失敗した単文の形態素を用いて、意図推定失敗した意図に対する補足意図推定を行う例である。
図14は、実施の形態2の意図推定装置を示す構成図である。実施の形態2の意図推定装置は、実施の形態1における補足情報推定モデル記憶部107、補足情報推定部108、意図補足部109の代わりに、状態履歴記憶部115、補足意図推定モデル記憶部116、補足意図推定部117を備えたものである。他の構成については、図1に示した実施の形態1と同様であるので、対応する部分に同一符号を付してその説明を省略する。
状態履歴記憶部115は、現在までの意図の履歴に基づく意図推定装置の現在の状態を状態履歴として保持する記憶部である。この状態履歴としては、例えば意図推定装置がカーナビ装置に適用されている場合は、ルート設定状態の「目的地設定済」、「経由地あり」などである。
補足意図推定モデル記憶部116は、後述する補足意図推定モデルを保持するための記憶部である。補足意図推定部117は、意図推定部106で意図推定できた単文の意図推定結果と、意図推定失敗した単文の形態素と、状態履歴記憶部115に記憶されている状態履歴とを特徴量として、意図推定失敗した単文の補足意図を推定する処理部である。
また、実施の形態2における意図推定装置のハードウェア構成については、実施の形態1の図4で示した構成で実現される。ここで、状態履歴記憶部115、補足意図推定モデル記憶部116は記憶装置160上に実現され、補足意図推定部117は、プログラムとして記憶装置160に記憶される。
図15は実施の形態2に係る補足意図推定モデルの一例を示す図である。図示のように、補足意図推定モデルは、各補足意図と、複数の単文形態素、状態履歴情報、推定できた意図それぞれに含まれる特徴量のスコアとが対応づけられたデータである。図15において、「お腹」「空く」は形態素特徴である。「経由地なし」「経由地あり」は状態履歴情報特徴である。「周辺検索[施設種類=レストラン]」「目的地設定[施設=家]」は意図特徴である。図15に示すように、形態素「お腹」や「空く」、意図特徴「周辺検索[施設種類=レストラン]」については、レストランを探す可能性が高いので、補足意図「経由地設定[施設種類=レストラン]」のスコアが高くなる。また、経由地設定するため、状態情報特徴「経由地なし」の方が「経由地あり」よりもスコアが高くなる。一方、「経由地あり」は、補足意図「経由地削除[]」に対して推定する可能性が高いので、「経由地なし」よりもスコアが高くなる。
次に、実施の形態2に係る意図推定装置の動作について説明する。先ず、補足意図推定モデルの生成処理の動作について説明する。
図16は、実施の形態2に係る意図補足モデルの生成処理を説明するための構成を示す説明図である。図16において、学習用データ記憶部113aは、複数の文例、意図、状態履歴情報に対して補足意図結果と対応関係で学習用データを記憶するための記憶部である。
図17は、実施の形態2に係る補足意図推定モデル学習用データの一例を示す説明図である。図17に示すように、学習用データは、意図推定できない単文の文例、状態履歴情報、意図推定結果に対して補足意図推定結果が付与されたデータである。例えば、文例No.1の「お腹が空いた」「目的地設定[施設=家]」「経由地あり」については、補足意図「経由地削除[]」が付与される。この補足意図は予め人手で付与される。
図16に戻って、補足意図推定モデル生成部118は、学習用データ記憶部113aに記憶される補足意図情報の対応関係を統計的な手法で学習する処理部である。補足意図推定モデル生成部118は、形態素解析部103で抽出された形態素と、学習用データに含まれている状態履歴情報と補足意図とを用いて補足意図推定モデルを生成する。
図18は実施の形態2に係る補足意図推定モデルの生成処理を説明するためのフローチャートである。まず、形態素解析部103が、学習用データ記憶部113aに記憶される学習用データの各文例における形態素解析を行う(ステップST201)。この形態素解析は実施の形態1におけるステップST1と同様の処理のため、その説明は省略する。
補足意図推定モデル生成部118は、形態素解析部103で解析した形態素と、学習データとして設定されている状態履歴及び補足意図とを合わせて、補足意図推定モデルを生成する(ステップST202)。補足意図推定モデル生成部118は、例えば、形態素「お腹」と「空く」の場合、意図推定できた単文の意図推定結果「目的地設定[施設=家]」及び状態履歴情報「経由地あり」に対して、学習用データに含まれる補足意図は図17に示すように「経由地削除[]」であるので、スコアが高いと判断する。補足意図推定モデル生成部118は、学習用データに含まれる全ての文例、状態履歴情報、学習用意図に対して上記と同様の処理を行い、最終的に図15に示すような補足意図推定モデルを生成する。
なお、ここでの説明では、意図推定失敗した単文のすべての形態素と、状態履歴記憶部115で記録した状態履歴と、意図推定できた単文の意図推定結果とを特徴量として補足意図推定で使用する例を説明したが、これに限るものではなく、「助詞以外の形態素を使用」あるいは「特定な状態履歴に対して意図特徴は使わない」のように明確な規則を決めて特徴量を選択する、あるいは統計的な手法を用いて補足意図推定に効果が高い形態素のみを使用するようにしてもよい。
次に、補足意図推定モデルを用いた補足意図推定処理について説明する。
図19は実施の形態2に係る対話例を示す図である。図19に示すように、状態履歴記憶部115では「経由地設定あり」という情報を記録しているものとする。以下、図20のフローチャートを用いて、補足意図推定処理を説明する。
図19は実施の形態2に係る対話例を示す図である。図19に示すように、状態履歴記憶部115では「経由地設定あり」という情報を記録しているものとする。以下、図20のフローチャートを用いて、補足意図推定処理を説明する。
図19に示すように、意図推定装置の通知部112が「ピッと鳴ったらお話ください」と発話する(S11)。それに対し、ユーザが「お腹が空いた、すぐ家に帰って」と発話する(U11)。
先ず、音声認識部102がユーザ入力に対して音声認識処理を行ってテキストデータに変換し、形態素解析部103がテキストデータに対して形態素解析処理を行う(ステップST201、ST202)。次に、構文解析部104がテキストデータに対して構文解析処理を行う(ステップST203)。ここで、ユーザ入力に関するテキストデータは、単文1「お腹が空いた」と、単文2「すぐ家に帰って」のように、複数の単文に分割される。構文解析部104は形態素解析された各単文のテキストデータを意図推定部106へ出力し、ステップST204~ステップST206の処理がなされることになる。ステップST205以降の処理については、実施の形態1におけるステップST105以降の処理と同様のため、これらの説明は省略する。
意図推定部106は、意図推定モデルを利用し、単文1及び単文2に対して、それぞれ意図推定処理を実施する(ステップST206)。ここでの例では、意図推定部106は、単文1に対しては意図推定できなかったが、単文2に対して「目的地設定[施設=家]」の意図を推定する。
意図推定部106の結果によると、意図推定失敗した単文と意図推定できた単文が存在するため(ステップST207-YES)、ステップST209以後の処理を行う。
補足意図推定部117は、意図推定部106により推定された単文の意図「目的地設定[施設=家]」、形態素解析部103から得た意図推定できなかった単文の形態素「お腹」「が」「空く」「た」と、状態履歴記憶部115で記憶した状態履歴「経由地あり」とを特徴量として用い、補足意図推定モデルと照らし合わせて、各補足意図に対する特徴量のスコアを求める(ステップST209)。そして、補足意図推定部117は、図11に示す計算式を用いて、各補足意図における特徴量のスコアの積を求める。つまり、補足意図推定部117は、複数の特徴量のスコアにより得られた最終スコアに基づき、適切な補足意図を推定する。
補足意図推定部117は、意図推定部106により推定された単文の意図「目的地設定[施設=家]」、形態素解析部103から得た意図推定できなかった単文の形態素「お腹」「が」「空く」「た」と、状態履歴記憶部115で記憶した状態履歴「経由地あり」とを特徴量として用い、補足意図推定モデルと照らし合わせて、各補足意図に対する特徴量のスコアを求める(ステップST209)。そして、補足意図推定部117は、図11に示す計算式を用いて、各補足意図における特徴量のスコアの積を求める。つまり、補足意図推定部117は、複数の特徴量のスコアにより得られた最終スコアに基づき、適切な補足意図を推定する。
図21は実施の形態2に係る各実行順序に対する最終スコアを示す図である。ここでの例では、補足意図「経由地追加[レストラン]」については、特徴量「お腹」のスコアは0.2で、特徴量「が」のスコアは0.01で、特徴量「空く」のスコアは0.15で、特徴量「た」のスコアは0.01で、状態履歴特徴「経由地設定あり」のスコアは0.01で、意図特徴「目的地設定[施設=家]」のスコアは0.05となるので、これらの積である最終スコアSは1.5e-9と算出される。同様に、他の補足意図についても、それぞれ最終スコアが算出される。
補足意図推定部117は、算出した推定対象となる各補足意図の最終スコアのうち、最もスコアが高い補足意図「経由地削除[]」を適切な意図として推定する。
図20に戻って、コマンド実行部110は、意図推定部106により推定された複数の単文に含まれるそれぞれの意図と、補足意図推定部117により推定された複数の単文の複数意図に基づき、複数の意図それぞれに対応する機械コマンドを実行する(ステップST208)。
ここでの例では、意図推定部106により、単文2に対して「目的地設定[施設=家]」の意図が推定される。また、補足意図推定部117により、単文1に対して「経由地削除[]」の意図が推定される。そのため、コマンド実行部110は、経由地を削除すること及び目的地を家に設定することを実行する。
応答生成部111は、図19のS12に示すように、コマンド実行部110により実行された機械コマンドに対応する合成音「経由地を削除しました。家を目的地に設定しました」を生成し、通知部112によりユーザに当該合成音が通知される(ステップST208)。
以上説明したように、実施の形態2の意図推定装置によれば、複数の意図が含まれる複文に対して形態素解析を行う形態素解析部と、形態素解析部による形態素解析された複文を構文解析して複数の単文に分割する構文解析部と、複数の単文のそれぞれに含まれる意図を推定する意図推定部と、意図推定部における推定対象の単文で意図推定を失敗した単文があった場合、意図推定部で意図推定できた単文の意図推定結果と、意図推定を失敗した単文の形態素と、現在までの意図の履歴に基づく意図推定装置の現在の状態を示す状態履歴とを特徴量として、意図推定を失敗した単文の補足意図推定を行う補足意図推定部とを備えたので、複数の意図を含んだ複文に対してもユーザの意図を精度良く推定することができる。
また、実施の形態2の意図推定装置によれば、状態履歴を記録する状態履歴記憶部を備え、補足意図推定部は、状態履歴記憶部に記憶された状態履歴を用いて補足意図推定を行うようにしたので、状態履歴を反映した意図推定を行うことができる。
また、実施の形態2の意図推定装置によれば、意図推定を失敗した単文の形態素と、意図推定できた単文の意図推定結果と、状態履歴とを特徴量として、補足意図とのスコアが対応付けられた補足意図推定モデルを記憶する補足意図推定モデル記憶部を備え、補足意図推定部は、補足意図推定モデルを用いて補足意図推定を行うようにしたので、精度の高い補足意図の推定を行うことができる。
また、実施の形態2の意図推定装置によれば、補足意図推定部は、意図推定を失敗した単文に対応した特徴量のスコアを求め、これらスコアの積により得られた最終スコアに基づき意図推定を失敗した単文の補足意図推定を行うようにしたので、意図推定を失敗した単文に対して確実に補足意図推定を行うことができる。
また、実施の形態2の意図推定装置によれば、実施の形態2の意図推定装置を用い、複数の意図が含まれる複文に対して形態素解析を行う形態素解析ステップと、形態素解析された複文を構文解析して複数の単文に分割する構文解析ステップと、複数の単文のそれぞれに含まれる意図を推定する意図推定ステップと、意図推定ステップにおける推定対象の単文で意図推定を失敗した単文があった場合、意図推定ステップで意図推定できた単文の意図推定結果と、意図推定を失敗した単文の形態素と、現在までの意図の履歴に基づく意図推定装置の現在の状態を示す状態履歴とを特徴量として、意図推定を失敗した単文の補足意図の推定を行う補足意図推定ステップとを実行するようにしたので、複数の意図を含んだ複文に対してもユーザの意図を精度良く推定することができる。
なお、実施の形態1及び実施の形態2では、意図推定装置として1台の装置で実現される例を説明したが、これに限定されるものではなく、一部の機能を他の装置で実行されるようにしてもよい。例えば、一部の機能を、外部に設けられたサーバ等により実行するようにしてもよい。
また、実施の形態1及び実施の形態2では意図推定を行う対象言語を日本語としたが、多言語にも対応可能である。
さらに、本願発明はその発明の範囲内において、各実施の形態の自由な組み合わせ、あるいは各実施の形態の任意の構成要素の変形、もしくは各実施の形態において任意の構成要素の省略が可能である。
以上のように、この発明に係る意図推定装置は、音声やキーボードなどを用いて入力されたテキストを認識してユーザの意図を推定し、ユーザの意図する操作を実行するための意図推定の構成に関するものであり、携帯電話やナビゲーション装置などの音声インタフェースとして用いるのに適している。
101 音声入力部、102 音声認識部、103 形態素解析部、104 構文解析部、105 意図推定モデル記憶部、106 意図推定部、107 補足情報推定モデル記憶部、108 補足情報推定部、109 意図補足部、110 コマンド実行部、111 応答生成部、112 通知部、113 学習用データ記憶部、114 補足情報推定モデル生成部、115 状態履歴記憶部、116 補足意図推定モデル記憶部、117 補足意図推定部。
Claims (11)
- 複数の意図が含まれる複文に対して形態素解析を行う形態素解析部と、
前記形態素解析部による形態素解析された前記複文を構文解析して複数の単文に分割する構文解析部と、
前記複数の単文のそれぞれに含まれる意図を推定する意図推定部と、
前記意図推定部における推定対象の単文で意図推定を失敗した単文があった場合、当該意図推定を失敗した単文から補足情報を推定する補足情報推定部と、
前記意図推定部における推定対象の単文で不完全意図推定結果の単文があった場合、前記推定された補足情報を用いて当該不完全意図推定結果を補足する意図補足部とを備えたことを特徴とする意図推定装置。 - 単文と補足情報との関係を示す補足情報推定モデルを保持する補足情報推定モデル記憶部を備え、
前記補足情報推定部は前記補足情報推定モデルを用いて前記補足情報の推定を行うことを特徴とする請求項1記載の意図推定装置。 - 前記補足情報推定モデルは、単文の形態素を特徴量として補足情報のスコアが対応付けられて構成され、
前記補足情報推定部は、前記意図推定を失敗した単文の形態素毎の補足情報のスコアを求め、当該スコアの積により得られた最終スコアに基づき前記補足情報の推定を行うことを特徴とする請求項2記載の意図推定装置。 - 前記不完全意図推定結果はスロット名とスロット値の組合せで前記スロット値が無い状態で表すと共に、前記補足情報はスロット名とスロット値で表し、
前記意図補足部は、前記推定された補足情報のスロット名が前記不完全意図推定結果のスロット名と一致した場合、前記推定された補足情報のスロット値を前記不完全意図推定結果のスロット値とすることを特徴とする請求項2に記載の意図推定装置。 - 複数の意図が含まれる複文に対して形態素解析を行う形態素解析部と、
前記形態素解析部による形態素解析された前記複文を構文解析して複数の単文に分割する構文解析部と、
前記複数の単文のそれぞれに含まれる意図を推定する意図推定部と、
前記意図推定部における推定対象の単文で意図推定を失敗した単文があった場合、前記意図推定部で意図推定できた単文の意図推定結果と、前記意図推定を失敗した単文の形態素と、現在までの意図の履歴に基づく意図推定装置の現在の状態を示す状態履歴とを特徴量として、前記意図推定を失敗した単文の補足意図推定を行う補足意図推定部とを備えたことを特徴とする意図推定装置。 - 前記状態履歴を記録する状態履歴記憶部を備え、
前記補足意図推定部は、前記状態履歴記憶部に記憶された状態履歴を用いて前記補足意図推定を行うことを特徴とする請求項5記載の意図推定装置。 - 前記意図推定を失敗した単文の形態素と、前記意図推定できた単文の意図推定結果と、前記状態履歴とを特徴量として、補足意図とのスコアが対応付けられた補足意図推定モデルを記憶する補足意図推定モデル記憶部を備え、
前記補足意図推定部は、前記補足意図推定モデルを用いて前記補足意図推定を行うことを特徴とする請求項5記載の意図推定装置。 - 前記補足意図推定部は、前記意図推定を失敗した単文に対応した前記特徴量のスコアを求め、これらスコアの積により得られた最終スコアに基づき前記意図推定を失敗した単文の補足意図推定を行うことを特徴とする請求項7記載の意図推定装置。
- 複数の意図が含まれる音声の入力を受け付ける音声入力部と、
前記音声入力部に入力された前記音声に対応する音声データを認識し、前記複数の意図が含まれる複文のテキストデータに変換する音声認識部を備え、
前記形態素解析部は、前記音声認識部から出力されたテキストデータに対して形態素解析を行うことを特徴とする請求項1記載の意図推定装置。 - 請求項1の意図推定装置を用い、
複数の意図が含まれる複文に対して形態素解析を行う形態素解析ステップと、
前記形態素解析された前記複文を構文解析して複数の単文に分割する構文解析ステップと、
前記複数の単文のそれぞれに含まれる意図を推定する意図推定ステップと、
前記意図推定ステップにおける推定対象の単文で意図推定を失敗した単文があった場合、当該意図推定を失敗した単文から補足情報を推定する補足情報推定ステップと、
前記意図推定ステップにおける推定対象の単文で不完全意図推定結果の単文があった場合、前記推定された補足情報を用いて当該不完全意図推定結果を補足する意図補足ステップとを実行することを特徴とする意図推定方法。 - 請求項5に記載の意図推定装置を用い、
複数の意図が含まれる複文に対して形態素解析を行う形態素解析ステップと、
前記形態素解析された前記複文を構文解析して複数の単文に分割する構文解析ステップと、
前記複数の単文のそれぞれに含まれる意図を推定する意図推定ステップと、
前記意図推定ステップにおける推定対象の単文で意図推定を失敗した単文があった場合、前記意図推定ステップで意図推定できた単文の意図推定結果と、前記意図推定を失敗した単文の形態素と、現在までの意図の履歴に基づく前記意図推定装置の現在の状態を示す状態履歴とを特徴量として、前記意図推定を失敗した単文の補足意図の推定を行う補足意図推定ステップとを実行することを特徴とする意図推定方法。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201680084170.XA CN108885618A (zh) | 2016-03-30 | 2016-03-30 | 意图估计装置和意图估计方法 |
US16/063,914 US20190005950A1 (en) | 2016-03-30 | 2016-03-30 | Intention estimation device and intention estimation method |
DE112016006512.4T DE112016006512T5 (de) | 2016-03-30 | 2016-03-30 | Absichtseinschätzungsvorrichtung und Absichtseinschätzungsverfahren |
JP2017548072A JP6275354B1 (ja) | 2016-03-30 | 2016-03-30 | 意図推定装置及び意図推定方法 |
PCT/JP2016/060413 WO2017168637A1 (ja) | 2016-03-30 | 2016-03-30 | 意図推定装置及び意図推定方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2016/060413 WO2017168637A1 (ja) | 2016-03-30 | 2016-03-30 | 意図推定装置及び意図推定方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2017168637A1 true WO2017168637A1 (ja) | 2017-10-05 |
Family
ID=59962749
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2016/060413 WO2017168637A1 (ja) | 2016-03-30 | 2016-03-30 | 意図推定装置及び意図推定方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20190005950A1 (ja) |
JP (1) | JP6275354B1 (ja) |
CN (1) | CN108885618A (ja) |
DE (1) | DE112016006512T5 (ja) |
WO (1) | WO2017168637A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7231171B1 (ja) | 2022-07-21 | 2023-03-01 | ソプラ株式会社 | 処理動作支援装置及びプログラム |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108881466B (zh) * | 2018-07-04 | 2020-06-26 | 百度在线网络技术(北京)有限公司 | 交互方法和装置 |
JP2020186951A (ja) * | 2019-05-10 | 2020-11-19 | トヨタ自動車株式会社 | 情報提供装置及び情報提供プログラム |
US11230262B2 (en) * | 2019-10-11 | 2022-01-25 | Augmented Radar Imaging, Inc. | Preventive action based on estimated intent |
US10703336B1 (en) * | 2019-10-11 | 2020-07-07 | Augmented Radar Imaging, Inc. | Preventive action based on estimated intent |
JP2022045835A (ja) * | 2020-09-09 | 2022-03-22 | 富士フイルムビジネスイノベーション株式会社 | 情報処理装置、及び情報処理プログラム |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002108614A (ja) * | 2000-09-26 | 2002-04-12 | Toshiba Corp | 入力解釈装置、方法及び対話システム |
JP2004240225A (ja) * | 2003-02-06 | 2004-08-26 | Nippon Telegr & Teleph Corp <Ntt> | 音声対話装置、音声対話システム、音声対話方法、プログラム及び記録媒体 |
JP2015148910A (ja) * | 2014-02-05 | 2015-08-20 | 株式会社東芝 | 発話文収集装置、方法、及びプログラム |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000200273A (ja) | 1998-11-04 | 2000-07-18 | Atr Interpreting Telecommunications Res Lab | 発話意図認識装置 |
US8145473B2 (en) * | 2006-10-10 | 2012-03-27 | Abbyy Software Ltd. | Deep model statistics method for machine translation |
JP2010224194A (ja) * | 2009-03-23 | 2010-10-07 | Sony Corp | 音声認識装置及び音声認識方法、言語モデル生成装置及び言語モデル生成方法、並びにコンピューター・プログラム |
JP2011043716A (ja) * | 2009-08-21 | 2011-03-03 | Sharp Corp | 情報処理装置、会議システム、情報処理方法及びコンピュータプログラム |
CN104756100B (zh) * | 2012-11-30 | 2017-07-28 | 三菱电机株式会社 | 意图估计装置以及意图估计方法 |
US9448992B2 (en) * | 2013-06-04 | 2016-09-20 | Google Inc. | Natural language search results for intent queries |
US9721570B1 (en) * | 2013-12-17 | 2017-08-01 | Amazon Technologies, Inc. | Outcome-oriented dialogs on a speech recognition platform |
JPWO2015151157A1 (ja) * | 2014-03-31 | 2017-04-13 | 三菱電機株式会社 | 意図理解装置および方法 |
CN107209758A (zh) * | 2015-01-28 | 2017-09-26 | 三菱电机株式会社 | 意图估计装置以及意图估计方法 |
-
2016
- 2016-03-30 CN CN201680084170.XA patent/CN108885618A/zh active Pending
- 2016-03-30 WO PCT/JP2016/060413 patent/WO2017168637A1/ja active Application Filing
- 2016-03-30 DE DE112016006512.4T patent/DE112016006512T5/de not_active Ceased
- 2016-03-30 US US16/063,914 patent/US20190005950A1/en not_active Abandoned
- 2016-03-30 JP JP2017548072A patent/JP6275354B1/ja not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002108614A (ja) * | 2000-09-26 | 2002-04-12 | Toshiba Corp | 入力解釈装置、方法及び対話システム |
JP2004240225A (ja) * | 2003-02-06 | 2004-08-26 | Nippon Telegr & Teleph Corp <Ntt> | 音声対話装置、音声対話システム、音声対話方法、プログラム及び記録媒体 |
JP2015148910A (ja) * | 2014-02-05 | 2015-08-20 | 株式会社東芝 | 発話文収集装置、方法、及びプログラム |
Non-Patent Citations (1)
Title |
---|
HIROSHI FUJIMOTO ET AL.: "Development of Car Navigation System Operated by Naturally Speaking", THE TRANSACTIONS OF THE INSTITUTE OF ELECTRONICS, INFORMATION AND COMMUNICATION ENGINEERS (J96-D, vol. 11, no. 11, 1 November 2013 (2013-11-01), pages 2815 - 2824 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7231171B1 (ja) | 2022-07-21 | 2023-03-01 | ソプラ株式会社 | 処理動作支援装置及びプログラム |
JP2024014130A (ja) * | 2022-07-21 | 2024-02-01 | ソプラ株式会社 | 処理動作支援装置及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
DE112016006512T5 (de) | 2018-11-22 |
CN108885618A (zh) | 2018-11-23 |
JP6275354B1 (ja) | 2018-02-07 |
US20190005950A1 (en) | 2019-01-03 |
JPWO2017168637A1 (ja) | 2018-04-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6275354B1 (ja) | 意図推定装置及び意図推定方法 | |
US11580991B2 (en) | Speaker based anaphora resolution | |
EP2862164B1 (en) | Multiple pass automatic speech recognition | |
US9905228B2 (en) | System and method of performing automatic speech recognition using local private data | |
US20240153505A1 (en) | Proactive command framework | |
US10037758B2 (en) | Device and method for understanding user intent | |
US20190371329A1 (en) | Voice enablement and disablement of speech processing functionality | |
US10917758B1 (en) | Voice-based messaging | |
CN111710333B (zh) | 用于生成语音转录的方法和系统 | |
US8019604B2 (en) | Method and apparatus for uniterm discovery and voice-to-voice search on mobile device | |
US9589563B2 (en) | Speech recognition of partial proper names by natural language processing | |
KR20090111825A (ko) | 언어 독립적인 음성 인덱싱 및 검색 방법 및 장치 | |
KR20090130028A (ko) | 분산 음성 검색을 위한 방법 및 장치 | |
JP2011232619A (ja) | 音声認識装置および音声認識方法 | |
US11626107B1 (en) | Natural language processing | |
JP2019185737A (ja) | 検索方法及びそれを用いた電子機器 | |
KR102536944B1 (ko) | 음성 신호 처리 방법 및 장치 | |
US10600405B2 (en) | Speech signal processing method and speech signal processing apparatus | |
US20230143110A1 (en) | System and metohd of performing data training on morpheme processing rules | |
JP2003263190A (ja) | 音声自動質問応答装置 | |
US11308936B2 (en) | Speech signal processing method and speech signal processing apparatus | |
US11450325B1 (en) | Natural language processing | |
JP2008083165A (ja) | 音声認識処理プログラム及び音声認識処理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
ENP | Entry into the national phase |
Ref document number: 2017548072 Country of ref document: JP Kind code of ref document: A |
|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 16896856 Country of ref document: EP Kind code of ref document: A1 |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 16896856 Country of ref document: EP Kind code of ref document: A1 |