JP4728905B2 - Spoken dialogue apparatus and spoken dialogue program - Google Patents
Spoken dialogue apparatus and spoken dialogue program Download PDFInfo
- Publication number
- JP4728905B2 JP4728905B2 JP2006211166A JP2006211166A JP4728905B2 JP 4728905 B2 JP4728905 B2 JP 4728905B2 JP 2006211166 A JP2006211166 A JP 2006211166A JP 2006211166 A JP2006211166 A JP 2006211166A JP 4728905 B2 JP4728905 B2 JP 4728905B2
- Authority
- JP
- Japan
- Prior art keywords
- response
- paraphrase
- keyword
- voice
- type
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Description
本発明は、利用者とさまざまな機器とのやり取りを音声対話によってスムーズに行うための音声対話装置およびそのプログラムに関するものである。 The present invention relates to a voice dialogue apparatus and a program therefor for smoothly performing exchange between a user and various devices by voice dialogue.
音声により利用者と対話を行い、利用者が要求する情報やサービスを提供する音声対話システムに関する技術は多数提案されている。音声対話システムにより、利用者とのスムーズなやり取りを行うためには、利用者が入力する音声を正しく解釈できることに加え、利用者が入力した音声に対して適切な応答文を利用者に提示し、応答文に続いて利用者が
音声を入力しやすい状況にすることが重要となる。
A number of technologies related to a voice dialogue system that performs dialogue with a user and provides information and services required by the user have been proposed. In order to communicate smoothly with the user through the voice dialogue system, in addition to being able to correctly interpret the voice input by the user, an appropriate response sentence is presented to the user in response to the voice input by the user. It is important to make it easy for the user to input voice following the response sentence.
「特許文献1」では、認識対象とする第1のキーワードと、第1のキーワードとスロット項目(キーワードの種別)に対応づけられた第2のキーワードを格納したキーワード知識ベースを用意する技術が開示されている。入力音声から抽出された第1のキーワードに対応する第2のキーワードをキーワード知識ベースから選択し、スロット項目毎に記録する。スロット項目毎の第2のキーワード毎の格納状況に基づいて、応答文を生成する。
「特許文献2」では、入力音声から認識された単語をカテゴリとクラスとに分類し、さらに、入力音声から認識された単語の信頼度からどのクラスの単語が認識されたかを表す確からしさを求める技術が開示されている。求めた確からしさに基づいて詳細化、回答訂正、あるいは再入力といった発話タイプを決定し、応答文を生成する。応答文は、応答文パターンにカテゴリ単語やカテゴリクラスを挿入することにより生成される。
“
In “
前記従来技術では、利用者が入力した音声から認識されたキーワードについて、あらかじめ用意されたキーワードと言い換え語との対応関係に基づいて、キーワードを変更し、応答文中に入れ替える技術が示されている。
また、認識されたキーワードの信頼度や対話履歴に基づいて、キーワードを変更するかどうかを決定する技術や、応答文のパターンを決定する技術が示されている。
Also, a technique for determining whether or not to change a keyword and a technique for determining a response sentence pattern are shown based on the reliability of the recognized keyword and the conversation history.
しかし、前記従来技術では、あるキーワードに対してどのような語に変更するかは一意に決定されており、また、信頼度等に基づいてキーワードを変更したり、応答文を決定するルールは、共通のルールを設定し、それを利用して処理を行っている。
一方、あるキーワードを応答文に挿入する際の適切な変更方法や応答文の形式は、キーワードそのものの他、各種の状況、例えば、入力されたキーワードが複数の場合等によって変化する場合がある。このため、共通のルールを設定し、それを利用する従来技術では、キーワードそれぞれの音韻的な特徴等に応じて柔軟に応答文や対応処理を変更し決定することができないという問題がある。その結果、従来技術では、適切な応答文を生成することができない。
However, in the prior art, what kind of word is changed for a certain keyword is uniquely determined, and the rule for changing the keyword based on the reliability or the like or determining the response sentence is as follows: A common rule is set and processed using it.
On the other hand, an appropriate change method and a response sentence format when inserting a certain keyword into a response sentence may change depending on various situations, for example, a case where a plurality of input keywords exist, in addition to the keyword itself. For this reason, there is a problem that the conventional technique that sets and uses a common rule cannot flexibly change and determine the response sentence or the corresponding process according to the phonological characteristics of each keyword. As a result, the conventional technology cannot generate an appropriate response sentence.
そこで、本発明は、適切な応答文を生成することが可能な音声対話装置および音声対話プログラムを提供することを目的とする。 Accordingly, an object of the present invention is to provide a voice interaction apparatus and a voice interaction program that can generate an appropriate response sentence.
以上の問題を解決するために、本発明では、認識対象となっているキーワードに対して、それらを応答文中に挿入する場合に使用する言い換え語と、応答文の種類を表す応答タイプと、言い換え語と応答タイプが選択される条件と、を記録する。また、応答タイプ毎に応答文のフォーマットを表す応答文テンプレートを用意する。
言い換え語と応答タイプが選択される条件に基づいて、認識されたキーワードに対する言い換え語と応答タイプを決定し、さらに、応答タイプに基づいて応答文テンプレートを検索する。検索された応答文テンプレートに言い換え語を挿入することにより応答文を生成する。
言い換え語と応答タイプが選択される条件としては、認識されたキーワードに対する信頼度の値に基づく条件、認識されたキーワードの数、認識されたキーワードの種類、過去の応答タイプの履歴、過去の応答文の履歴、過去の利用者音声の認識結果の何れか1つ以上が含まれる。
In order to solve the above problems, in the present invention, for a keyword that is a recognition target, a paraphrase used when the keyword is inserted in a response sentence, a response type indicating the type of the response sentence, and a paraphrase Record the terms and conditions under which the response type is selected. In addition, a response sentence template representing a response sentence format is prepared for each response type.
The paraphrase word and the response type for the recognized keyword are determined based on the condition for selecting the paraphrase word and the response type, and the response sentence template is searched based on the response type. A response sentence is generated by inserting a paraphrase into the retrieved response sentence template.
Conditions for selecting a paraphrase and a response type include a condition based on a confidence value for a recognized keyword, the number of recognized keywords, a recognized keyword type, a history of past response types, and a past response. Any one or more of sentence history and past user speech recognition results are included.
本発明によれば、適切な応答文を生成することが可能になる。 According to the present invention, it is possible to generate an appropriate response sentence.
(実施の形態1)
以下、本発明(音声対話装置および音声対話プログラム)の実施の形態1を、図1〜図7を用いて説明する。
(Embodiment 1)
The first embodiment of the present invention (voice dialogue apparatus and voice dialogue program) will be described below with reference to FIGS.
図1は本発明の実施の形態1の構成例を示した図である。図1では、利用者が目的とする施設の場所と名称を音声により入力し、目的とする施設の情報を検索し結果を出力する音声対話装置を想定している。
FIG. 1 is a diagram showing a configuration example of
図1において、マイク101は利用者の音声を電気信号に変換するための手段、音声入力部102はマイク101から入力された電気信号を情報処理部105において処理可能な音声データに変換する手段である。音声出力部103は入力された利用者の音声に対する応答文から生成された音声データを電気信号に変換するための手段、スピーカ104は変換された電気信号を音声として出力するための手段である。情報処理部105は記憶部106に記憶された各種プログラムに基づいて、利用者とのやり取りを行うための処理を実行する手段である。
In FIG. 1, a
なお、音声対話装置1は、図示しない、CPU(Central Processing Unit)、RAM(Random Access Memory)等の半導体メモリからなる主記憶装置、ハードディスク装置等からなる補助記憶装置、入出力インタフェース等を備えるコンピュータを用いて構成される。ここで、CPUは情報処理部105に、主記憶装置は記憶部106に、入出力インタフェースは音声入力部102および音声出力部103に相当する。
前記主記憶装置には、記憶部106の音声認識プログラム107、対話制御プログラム108、音声合成プログラム109および検索プログラム110が格納されている。
また、前記補助記憶装置には、対話シナリオ111、キーワード種類辞書112、言い換え辞書113、応答文テンプレート辞書114およびデータベース115が格納されている。各機能についての詳細は後記する。
The spoken
The main storage device stores a
The auxiliary storage device stores a
音声認識プログラム107は、情報処理部105に実行されることで、入力された利用者の音声データの中で表現されているキーワードを認識し、その結果を出力する。その結果は、例えば、「神奈川県の○○美術館」という利用者の音声に対して、(神奈川県、0.8) (○○美術館、0.9)というような形式で取得することができる。ここで、()の中に表現されている単語は認識対象としているキーワードであり、キーワードに併記されている数値は認識されたキーワードの確からしさを表す信頼度である。信頼度としては、通常用いられる音声認識技術において音声認識処理の結果としてキーワード毎に得られる信頼度の数値をそのまま利用することができる。前記例では、キーワードとしている県名や美術館名のみを結果として出力すると想定しているが、「の」のようなキーワード以外の単語を全て出力することも可能である。さらに、前記例では、最も信頼度の高いキーワードのみを結果として出力しているが、音声データ中の各キーワードに対する候補を複数出力することもできる。
The
対話制御プログラム108は、情報処理部105に実行されることで、前記信頼度を条件として、前記認識されたキーワードとその信頼度とに基づいて、言い換え辞書113から応答タイプと言い換え語を決定し、前記決定された応答タイプに基づいて、それに対応づけられた応答文を応答文テンプレート辞書114から決定し、前記決定された応答文に、前記決定された言い換え語を挿入し、利用者に次の発話を促すための応答文を生成する。対話制御プログラム108の処理の詳細は後記する。
The
音声合成プログラム109は、情報処理部105に実行されることで、対話制御プログラム108によって生成された応答文を音声データに変換して出力する。
The
検索プログラム110は、情報処理部105に実行されることで、利用者が入力した施設の場所と名称を検索条件として、データベース115から目的とする施設の情報を検索するプログラムである。データベース115は、公知のリレーショナルデータベース等を使用する。また、検索プログラム110は前記データベースに通常用意されている検索手段を用いることにより、容易に実現することができる。あるいは、データベース115としては、一般的に利用されているインターネット上の情報を検索する手段等を利用することもできる。
The
図2は、対話シナリオ111中に格納されている個々の対話シナリオのフォーマットを示す構成図である。対話シナリオには、利用者が入力するキーワードの種類と数、利用者の音声を認識するための情報(利用者音声認識用文法名)、利用者が入力したキーワードを用いて行う処理(コマンド)に関する情報、が記録される。
FIG. 2 is a block diagram showing the format of each dialogue scenario stored in the
対話名201は、対話シナリオを区別するために利用される対話の名称を表す文字列、スロット1の名称202およびスロットnの名称204は、利用者が入力するスロットの名称を表す文字列である。ここで、スロットとは、利用者が入力する各キーワードを格納するメモリ領域を指し、スロットの名称はこのメモリ領域を区別するために使用される。利用者が入力したスロットに対応するキーワードは、スロットに対応するメモリ領域に格納される。
また、スロット1の種類203およびスロットnの種類205は、スロットに格納されるキーワードの種類を表す文字列であり、後記するキーワード種類辞書112において使用されるキーワードの種類の名称と同じ文字列を使用する。例えば、「県名」や「美術館」等の文字列が格納される。スロット1の種類203およびスロットnの種類205は、利用者が入力したキーワードをスロットに格納する際に、どのスロットに格納するかを決定するために用いられる。
The
The
利用者音声認識用文法名206は、利用者が入力した音声データを認識するために使用されるキーワードやキーワードの並びに関するルールが登録された音声認識用文法の名称を表す文字列である。音声認識用文法としても、一般的に用いられる音声認識技術で利用されている形式を使用することができる。また、対話毎に利用者が入力する音声の言い回しやキーワードが異なるため、本発明の実施の形態1では対話毎に音声認識用文法を設定しているが、対象とする全ての対話に対応可能な音声認識用文法を用意し、それを用いるようにすることもできる。
コマンド207は、利用者がスロット1の名称202およびスロットnの名称204に入力したキーワードに基づいてデータベースを検索するためのコマンドを表す文字列である。例えば、スロット1およびスロット2を検索条件としてデータベースを検索する場合、コマンドの形式が、「SEARCH 条件1 条件2」であったとすると、207のコマンドには、「SEARCH [スロット1の名称] [スロット2の名称]」と記述される。ここで、SEARCHは検索を行うためのコマンドの名称であり、[スロットnの名称]という記述は、この箇所をスロットnに格納されているキーワードで置き換えることを示すものとする。
The user speech
The
図3は、キーワード種類辞書112に格納される情報のフォーマットを示す構成図である。キーワード種類辞書112は、入力された利用者の音声に含まれるキーワードとその種類の名称を対応づけて記憶した辞書である。
FIG. 3 is a configuration diagram showing a format of information stored in the
種類301で示される列はキーワードの種類の名称であり、キーワード302で示される列はキーワードの種類に該当するキーワードが記述される。例えば、図3において、「○○美術館」304、「△△美術館」305および「××ミュージアム」306は、「美術館」303という種類に該当するキーワードである。また、「東京都」308、「神奈川県」309および「千葉県」310は、「県名」307という種類に該当するキーワードである。
The column indicated by the
図4は、言い換え辞書113に格納される情報のフォーマットを示す構成図である。言い換え辞書113は、入力された利用者の音声に含まれるキーワードとその信頼度とから、応答文を生成するための言い換えルールを設定した辞書である。
FIG. 4 is a configuration diagram showing a format of information stored in the paraphrase
キーワード401で示される列は言い換え対象となるキーワード、条件(信頼度)402で示される列は言い換えを行う条件、言い換え語403で示される列は言い換え語および応答タイプ404で示される列は応答タイプが記述される。条件(信頼度)402の言い換えを行う条件で示される列において、「x」は利用者の音声データから認識されたキーワードの信頼度を表しており、例えば、「x>0.8」という表記は、「信頼度が0.8より大きい場合」という条件を表す。また、符号405の欄に含まれる4行はキーワード「○○美術館」に関する言い換えルールを、符号406の欄に含まれる4行はキーワード「神奈川県」に関する言い換えルールを表す。さらに、符号407で示される行は、「○○美術館」の言い換えルールの1つを表しており、信頼度が0.8より大きい場合は、「○○美術館」というキーワードをそのまま使用し、「キーワード確認」という応答タイプが選択されるというルールになる。一方、符号408で示される行の場合は、信頼度が0.5より大きく、0.8以下の場合は、「○○美術館」というキーワードを「美術館の名称」に置き換え、「絞込み」という応答タイプが選択されるというルールになる。 The column indicated by the keyword 401 is the keyword to be paraphrased, the column indicated by the condition (reliability) 402 is the condition for paraphrasing, the column indicated by the paraphrase 403 is the paraphrase word and the column indicated by the response type 404 is the response type Is described. In the column indicated by the condition (reliability) 402 for performing the paraphrase, “x” represents the reliability of the keyword recognized from the user's voice data, for example, “x> 0.8” Represents the condition “when reliability is greater than 0.8”. Also, the four lines included in the column 405 represent paraphrase rules for the keyword “XX museum”, and the four lines included in the column 406 represent paraphrase rules for the keyword “Kanagawa”. Furthermore, the line indicated by reference numeral 407 represents one of the paraphrasing rules of “XX museum”. When the reliability is greater than 0.8, the keyword “XX museum” is used as it is. The rule is that the response type “confirm keyword” is selected. On the other hand, in the case of the row indicated by the reference numeral 408, when the reliability is greater than 0.5 and less than or equal to 0.8, the keyword “XX museum” is replaced with “art museum name”, and the response is “narrow down” The rule is that the type is selected.
図5は、応答文テンプレート辞書114に格納される情報のフォーマットを示す構成図である。応答文テンプレート辞書114は、前記言い換え辞書113(図4参照)で決定された応答タイプ404に対応づけた応答文のフォーマットを記録した辞書である。
FIG. 5 is a configuration diagram showing a format of information stored in the response
応答タイプ501で示される列には応答タイプが、応答文テンプレート502で示される列には応答タイプに対応する応答文テンプレートが記述される。符号503で示される行には応答タイプ「キーワード確認」に対する応答文テンプレートが、符号504で示される行には応答タイプ「絞込み」に対する応答文テンプレートが、符号505で示される行には応答タイプ「種類確認」に対する応答文テンプレートが、符号506で示される行には応答タイプ「再入力」に対する応答文テンプレートがそれぞれ格納されている。各応答文テンプレート中の「X」は、その位置に言い換え辞書113により決定された言い換え語403が挿入されることを示している。すなわち、応答文は、応答タイプ501に対応する応答文テンプレート502に、言い換え辞書113によって決定される言い換え語を挿入することにより生成される。
The response type is described in the column indicated by the
例えば、言い換え辞書113(図4参照)において、符号407で示される行の言い換えルールが適用された場合、応答文テンプレート辞書114において、符号503で示される行の応答文テンプレートが選択され、言い換え語「○○美術館」が挿入されるため、応答文は、「○○美術館でよろしいですか?」となる。
一方、符号408で示される行の言い換えルールが適用された場合は、応答文テンプレート辞書114において、符号504で示される行の応答文テンプレートが選択され、言い換え語「美術館の名称」が挿入されるため、応答文は、「もう一度美術館の名称をお話し下さい。」となる。
For example, in the paraphrase dictionary 113 (see FIG. 4), when the paraphrase rule for the line indicated by reference numeral 407 is applied, the response sentence template for the line indicated by
On the other hand, when the paraphrase rule for the line indicated by reference numeral 408 is applied, the response sentence template for the line indicated by
図6は、本発明の実施の形態1を適用した音声対話装置1の処理手順を示すフローチャートである。本発明の実施の形態1を適用した音声対話装置1の処理は、対話制御プログラム108をメインに実行する。対話制御プログラム108は、対話シナリオ111、キーワード種類辞書112、言い換え辞書113および応答文テンプレート辞書114を用いて、利用者が目的とする情報を検索するための検索条件となるキーワードを音声により入力することを促し、必要なキーワードが揃うとデータベース115を検索し、その結果を利用者に対して出力する。図1を参照しつつ、図6に添って、本発明の実施の形態1における手順の説明をする。
FIG. 6 is a flowchart showing a processing procedure of the voice
図6では、別の音声コマンド、あるいは、図示しない画面上のメニュー等により、利用者によって特定の対話シナリオがあらかじめ選択されており、音声認識プログラム107には選択された対話シナリオに対応する利用者音声認識用文法名が通知され、利用者から入力される音声データの認識が可能な状態になっていると想定している。また、処理開始時の対話シナリオ111の各スロットの内容は空であると想定する。
以下、ステップS600からステップS603は、情報処理部105に実行されることで、対話制御プログラム108が行う。
In FIG. 6, a specific dialogue scenario is selected in advance by the user by another voice command or a menu on the screen (not shown), and the user corresponding to the selected dialogue scenario is stored in the
In the following, steps S600 to S603 are executed by the
処理が開始すると、ステップS600は、各スロットを初期化する。すなわち、利用者によって特定の対話シナリオ111(図2参照)が選択されると、当該対話シナリオ111をメモリ領域に格納する。当該対話シナリオ111には、利用者音声認識用文法名206と、それに対応するコマンド207と、スロット1の種類203と、スロットnの種類205と、が格納されている。さらに、スロットN(N=1、・・n)の内容を格納するメモリ領域を確保し、その内容を空のまま(空スロット)とする。
When the process starts, step S600 initializes each slot. That is, when a specific dialogue scenario 111 (see FIG. 2) is selected by the user, the
ステップS601は、対話シナリオ111に存在するスロットN(N=1、・・n)の内容を格納するメモリ領域の中で空スロットであるものを条件として、その空スロットにキーワードの入力を利用者に促すための応答文に対する応答タイプを、後記する図7に示す対応表から決定する。ステップS601は、利用者との対話が新たに開始された場合や、新たなスロットへのキーワードの入力を利用者に促す場合に行われる処理となる。
In step S601, on the condition that the slot N (N = 1,... N) existing in the
ここで、図7は、本発明の実施の形態1において空きスロットと、それに対応した応答タイプとの関係を格納する情報を示す対応表である。本対応表は、空きスロットリスト701と応答タイプ702とから構成され、空きスロットリスト701で示される列にはスロットの名称、応答タイプ702で示される列にはスロットに対する応答タイプが格納される。例えば、符号703で示される行では、スロット1が空スロットである場合に応答タイプが「要求1」であることを示している。同様に、符号704で示される行では、スロット2が空スロットである場合に応答タイプが「要求2」になることを示している。
図7に示す対応表は、あらかじめ利用者音声認識用文法名206に対応した、空スロットと応答タイプを関連づけた対応表を用意しておく。また、言い換えルールの一種として、言い換え辞書113(図4参照)に、空スロットに対応する応答タイプを格納することができる。あるいは、別途格納手段を設けて空スロットに対応する応答タイプを格納するようにしても良い。
Here, FIG. 7 is a correspondence table showing information for storing the relationship between empty slots and corresponding response types in the first embodiment of the present invention. This correspondence table is composed of an
The correspondence table shown in FIG. 7 is prepared in advance as a correspondence table in which empty slots and response types are associated with the user speech
ステップS602では、ステップS601で選択された応答タイプに基づいて、応答文テンプレート辞書114(図5参照)を検索し、該当する応答文テンプレートを決定する。応答文テンプレート辞書114に格納される情報では、図7に示す応答タイプ702に対応する応答文テンプレートは考慮していないが、例えば、後記する図8における符号801および符号802で示される行のように、空スロットに対する応答文テンプレートを応答文テンプレート辞書114の中に含めることができる。
In step S602, the response sentence template dictionary 114 (see FIG. 5) is searched based on the response type selected in step S601, and the corresponding response sentence template is determined. In the information stored in the response
ここで、図8は、図5で示した応答文テンプレート辞書114を拡張した応答文テンプレート辞書114aに格納される情報を表す構成図を示す。図8において、符号801で示される行には、図7より、スロット1が空スロットである場合の応答文、符号802で示される行には、スロット2が空スロットである場合の応答文となる。
Here, FIG. 8 is a configuration diagram showing information stored in the response
ステップS603では、決定されている言い換え語を応答文テンプレートに挿入し、応答文を生成する。ここで、挿入される言い換え語は、後記するステップS607で決定される。従って、ステップS601で応答タイプが選択された場合のステップS603では、応答文テンプレートには、言い換え語は無しとして、処理を進める。 In step S603, the determined paraphrase word is inserted into the response sentence template to generate a response sentence. Here, the paraphrase to be inserted is determined in step S607 described later. Therefore, in step S603 when the response type is selected in step S601, the process proceeds with no paraphrase word in the response sentence template.
ステップS604では、ステップS603で生成された応答文を音声合成プログラム109により音声データに変換し、音声出力部103を経由してスピーカ104から出力する。
In step S604, the response sentence generated in step S603 is converted into voice data by the
ステップS605では、音声認識プログラム107が、ステップS604で出力した応答文に対して利用者が入力した音声データを認識し、キーワードを抽出し、抽出されたキーワードとその確からしさを表す信頼度とともに、対話制御プログラムに通知する。
以下、ステップS606からステップS611は、情報処理部105に実行されることで、対話制御プログラム108が行う。
In step S605, the
Hereinafter, steps S606 to S611 are executed by the
ステップS606では、音声データの認識結果が確認に対する応答かどうかを判定する。判定方法としては、認識結果中に、あらかじめ登録しておいた確認に対する応答であることを表す特定の単語、例えば、「はい」や「いいえ」等の単語が含まれているかどうかを調べ、特定の単語が含まれていれば確認に対する応答であると判断し、含まれていなければ確認に対する応答ではないと判断すれば良い。また、応答文が確認を求める応答文かどうかの情報を保持しておき、応答文が確認を求める応答文であれば利用者の音声は確認に対する応答と判断することもできる。この際、応答文が確認を求める応答文であるかどうかの判定は、応答文テンプレート辞書114(図5参照)の応答タイプ501や応答文テンプレート502に確認を求める応答文であるかを表す情報を付加しておけば容易に実現することができる。さらに、応答文が確認を求める応答文であるかどうかを表す情報と、認識結果中に含まれる特定の単語との両方を利用して判定することもできる。
In step S606, it is determined whether the recognition result of the voice data is a response to the confirmation. As a determination method, the recognition result is checked by checking whether or not a specific word indicating a response to a confirmation registered in advance, for example, “Yes” or “No” is included. If this word is included, it is determined that the response is to the confirmation, and if it is not included, it is only necessary to determine that the response is not the confirmation. In addition, information on whether or not the response sentence is a response sentence requesting confirmation may be stored, and if the response sentence is a response sentence requesting confirmation, the user's voice can be determined as a response to the confirmation. At this time, whether or not the response sentence is a response sentence that requires confirmation is information indicating whether or not the
ステップS606において、利用者の音声が、確認に対する応答では無いと判断された場合は(No)、ステップS607に進む。
ステップS607では、ステップS605で認識されたキーワードとその信頼度に基づいて言い換え辞書113(図4参照)を検索し、言い換え語403と応答タイプ404を決定し、ステップS602に戻る。
If it is determined in step S606 that the user's voice is not a response to the confirmation (No), the process proceeds to step S607.
In step S607, the paraphrase dictionary 113 (see FIG. 4) is searched based on the keyword recognized in step S605 and its reliability, the paraphrase word 403 and the response type 404 are determined, and the process returns to step S602.
例えば、ステップS605で利用者の音声を認識した結果が、(○○美術館、0.4)であったとすると、言い換え辞書113(図4参照)から、まず「○○美術館」を検索キーとして検索され、ステップS607では、言い換え語403「美術館」、応答タイプ404「種類確認」が選択される。
この例では、ステップS602では、前記応答タイプに基づいて、応答文テンプレート辞書114(図5参照)から該当する応答文テンプレート505が選択されるため、ステップS603で生成される応答文は、「美術館でよろしいですか?」となる。
For example, if the result of recognizing the user's voice in step S605 is (XX museum, 0.4), first search from the paraphrase dictionary 113 (see FIG. 4) using “XX museum” as a search key. In step S607, the paraphrase 403 “museum” and the response type 404 “type confirmation” are selected.
In this example, in step S602, since the corresponding
一方、ステップS606において、利用者の音声が確認に対する応答であると判断された場合は(Yes)、ステップS608に進む。 On the other hand, if it is determined in step S606 that the user's voice is a response to the confirmation (Yes), the process proceeds to step S608.
ステップS608では、さらに、利用者の音声が、確認に対する応答が肯定であったか、否定であったかを判定する。この場合も、利用者の音声の認識結果中に、肯定を表す特定の語、例えば「はい」や「そうです」等が含まれている場合、利用者の音声は確認に対する応答が肯定、一方、否定を表す特定の語、例えば「いいえ」、「違います」等が含まれている場合、利用者の音声は確認に対する応答が否定であると判定すれば良い。 In step S608, the user's voice further determines whether the response to the confirmation is affirmative or negative. Also in this case, if the user's voice recognition result includes a specific word indicating affirmation, such as “Yes” or “Yes”, the user's voice has a positive response to the confirmation. When a specific word representing negation, for example, “No”, “No”, or the like is included, the user's voice may be determined as a negative response to the confirmation.
ステップS608において、利用者の音声の、確認に対する応答が否定であると判定された場合は(No)、ステップS609に進み、確認対象となっているキーワードを抹消し、ステップS601に戻る。確認対象となっているキーワードが何であるかは、確認に対する応答と判断された利用者の音声より前に入力された利用者の音声の認識結果を保持しておくことにより、容易に判定することができる。 If it is determined in step S608 that the response of the user's voice to the confirmation is negative (No), the process proceeds to step S609, where the keyword to be confirmed is deleted, and the process returns to step S601. It is easy to determine what keyword is the target of confirmation by holding the recognition result of the user's voice input before the voice of the user who is judged to be a response to the confirmation. Can do.
ステップS608において、利用者の音声の確認に対する応答が肯定であると判定された場合は(Yes)、ステップS610に進み、確認の対象となっているキーワードを対話シナリオ111の該当するスロットN(N=1、・・n)の内容を格納するメモリ領域に格納する。このために、前記キーワードをキーとして、キーワード種類辞書112(図3参照)から、キーワードの種類301を求める。さらに、求めたキーワードの種類と一致するスロットNの種類(N=1、・・n)を有するスロットを図2における対話シナリオ111から検索する。検索されたスロットをキーワードに該当するスロットとして、キーワードをそのスロットN(N=1、・・n)の内容を格納するメモリ領域に格納する。
If it is determined in step S608 that the response to the user's voice confirmation is affirmative (Yes), the process proceeds to step S610, and the keyword to be confirmed is selected in the corresponding slot N (N = 1,... N) is stored in a memory area for storing the contents. For this purpose, the
ステップS610において該当するスロットにキーワードを格納した後、ステップS611に進み、全てのスロットにキーワードが格納されたかどうかを調べる。
全てのスロットにキーワードが格納されていない場合は(No)、ステップS601に戻る。
After storing the keyword in the corresponding slot in step S610, the process proceeds to step S611 to check whether the keyword is stored in all slots.
If no keyword is stored in all slots (No), the process returns to step S601.
ステップS611において全てのスロットにキーワードが格納されている場合は(Yes)、ステップS612に進み、対話シナリオ111(図2参照)の符号207で示されるコマンドとスロットに格納されたキーワードを用いて検索プログラム110が、データベース115の検索処理を実行し、結果を音声合成プログラム109により出力する。
When keywords are stored in all slots in step S611 (Yes), the process proceeds to step S612, and a search is performed using the command indicated by
さらに、言い換え辞書113(図4参照)には、キーワード毎に対応する言い換え語を格納していたが、キーワードの種類毎に言い換え語を格納することもできる。この場合、言い換え辞書としては、図9に示すようなフォーマットを用いれば良い。 Furthermore, although the paraphrase dictionary 113 (see FIG. 4) stores paraphrase words corresponding to each keyword, paraphrase words can also be stored for each type of keyword. In this case, a format as shown in FIG. 9 may be used as the paraphrase dictionary.
ここで、図9は、本発明の実施の形態1におけるキーワードの種類に対する言い換え辞書に格納される情報を表す構成図を示す。 Here, FIG. 9 shows a configuration diagram representing information stored in the paraphrase dictionary for the keyword type in the first embodiment of the present invention.
図9において、図4に示す言い換え辞書113との差異は、種類901で示される列と言い換え語902で示される列の内容である。種類901で示される列には、言い換え対象となるキーワードの種類を表す文字列が記載される。
図9では、「美術館」903および「県名」904がキーワードの種類を表す文字列である。言い換え語902で示される列の内容は、図4における言い換え語403で示される列の内容とほぼ同じであるが、符号905および符号906の行で示されるルールに含まれる内容が異なっている。符号905の行で示されるルールでは、「認識されたキーワードの種類が美術館であり、キーワードの信頼度が0.8より大きければ、認識されたキーワードを言い換え語として選択する」ということを表している。符号905および符号906で示される行に含まれる[キーワード]という記述は、認識されたキーワードを言い換え語として使用することを示している。
In FIG. 9, the difference from the paraphrase
In FIG. 9, “art museum” 903 and “prefecture name” 904 are character strings representing the types of keywords. The content of the column indicated by the paraphrase
図9に示す言い換え辞書113aを用いた場合、図6に示す流れ図におけるステップS607は、次のように変更される。すなわち、ステップS607では、まず、利用者の音声から認識されたキーワードをキーワード種類辞書112から検索し、キーワードの種類301を決定する。決定したキーワードの種類301と認識されたキーワードに対する信頼度に基づいて、言い換え辞書113aを検索し、言い換え語および応答タイプを決定する。
When the paraphrase
また、図4および図9に示す言い換え辞書113では、一組のキーワードと条件の組み合わせに対して一種類の言い換え語のみが登録されているが、複数の言い換え語を登録することもできる。この場合、言い換え語を決定する方法としては、例えば乱数を使用して決定すれば良い。
Further, in the paraphrase
本発明の実施の形態1によれば、キーワードの音韻的な特性や長さ等によってキーワードの認識結果における信頼度が大きく変化する場合にも柔軟に対応した応答文の生成が可能となる。例えば、キーワードが正しく認識された場合においても、得られる信頼度はキーワードの種類によって常に高い値が得られるときも、低いときもある。言い換え辞書113(図4参照)では、「○○美術館」と「神奈川県」それぞれに対して、言い換え語を選択する際の信頼度に関する条件(符号402参照)が異なっており、「○○美術館」では正しい認識結果が得られる場合の信頼度が高く、「神奈川県」では正しい認識結果が得られる場合の信頼度が低いことが多い、ということを前提とした設定となっている。このように、キーワード毎に言い換え語を選択する条件を設定することにより、認識対象とするキーワードの特性に応じて適切な応答文を生成することが可能となる。 According to the first embodiment of the present invention, it is possible to flexibly generate a response sentence even when the reliability of the keyword recognition result varies greatly depending on the phonological characteristics and length of the keyword. For example, even when a keyword is recognized correctly, the reliability obtained may be always high or low depending on the type of keyword. In the paraphrase dictionary 113 (see FIG. 4), the conditions regarding reliability (see reference numeral 402) for selecting paraphrase words are different for “XX Museum” and “Kanagawa Prefecture”, respectively. "Is high when the correct recognition result is obtained, and" Kanagawa Prefecture "is premised on that the reliability is often low when the correct recognition result is obtained. Thus, by setting conditions for selecting paraphrasing words for each keyword, it is possible to generate an appropriate response sentence according to the characteristics of the keyword to be recognized.
(実施の形態2)
以下、本発明(音声対話装置および音声対話プログラム)の実施の形態2を、図10等を用いて説明する。
(Embodiment 2)
The second embodiment of the present invention (voice dialogue apparatus and voice dialogue program) will be described below with reference to FIG.
前記した本発明の実施の形態1では、利用者の音声中に含まれているキーワードは1つのみであると仮定していた。通常、利用者との対話では、利用者が2つ以上のキーワードを1回の音声中に含めることができるようにした方が操作性は向上する。
In
本発明の実施の形態2では、利用者の音声中に複数のキーワードが含まれている場合でも柔軟な応答文を生成できるように、応答文テンプレート辞書114のフォーマットを図10に示すようなフォーマットとする。図5に示す応答文テンプレート辞書114では、対象とするキーワードが1種類であるため、それに対応する応答タイプも1種類であるが、同時に対象とするキーワードが2つ以上の場合は、それぞれのキーワードに対して図4に示す言い換え辞書113を適用することにより、それぞれのキーワードに対して応答タイプが決定される。このため図10に示す応答文テンプレート辞書114bでは、応答タイプの組み合わせに対して応答文テンプレートを決定できるようにしている。
In the second embodiment of the present invention, the format of the response
図10に示す辞書は、対象とするスロットが2つの場合を示しており、それぞれのスロットに対応するキーワードから選択される応答タイプの組み合わせがスロット1の応答タイプ1001およびスロット2の応答タイプ1002で示される列に記録される。例えば、符号1003で示される行では、スロット1およびスロット2の応答タイプが共に「キーワード確認」の場合、「[スロット1の名称]の[スロット2の名称]でよろしいですか?」という応答文テンプレートが選択される。
ここで、図6に示すフローチャートを用いた処理中、ステップS603の処理では、[スロット1の名称]および[スロット2の名称]には、対話シナリオ111に格納されているそれぞれのスロットNの種類(N=1、・・n)に対応するキーワードの言い換え語が挿入される。すなわち、キーワードの入れ替え語をどのスロットに挿入するかは、対象とするキーワードに対応するキーワードの種類をキーワード種類辞書112から検索し、さらに、対話シナリオ111から、前記検索されたキーワードの種類と一致するスロットNの種類(N=1、・・n)を検索することにより決定することができる。
The dictionary shown in FIG. 10 shows the case where there are two target slots, and the response type combinations selected from the keywords corresponding to the respective slots are the
Here, during the process using the flowchart shown in FIG. 6, in the process of step S <b> 603, [
また、図10における符号1003から符号1006に示される行では、それぞれのスロットに対応するキーワードから選択される応答タイプが具体的に記録されているが、符号1007から符号1009に示される行では、スロット2に対応する応答タイプに関しては制約を設けないという形式になっている。符号1002で示される列に記載されている「*」という記号が、応答タイプに関する制約が無いことを示している。これにより、例えば、符号1007で示される行は、スロット1に対応する応答タイプが「絞り込み」であれば、スロット2に対応する応答タイプに関わらず、「もう一度[スロット1の名称]をお話し下さい。」という応答文テンプレートが選択される。
Further, in the rows indicated by
利用者の音声中に複数のキーワードが含まれており、図10の符号1007から符号1009に示されるような形式で応答文が生成された場合、図6に示すフローチャートを用いた処理では、1つのキーワードに対してのみ確認が行われ、他のキーワードについては再度入力を行う必要が生じる。このため、例えば、利用者の音声の認識結果に対して確認が行われたかどうかを示す情報をスロット毎に対話シナリオ111に付加するようにし、確認が行われていないキーワードについて、言い換え辞書113(図4参照)および応答文テンプレート辞書114(図5参照)を用いた応答文の生成を行うようにすれば、全てのキーワードに対して効率的な対話を行うことが可能となる。
When a plurality of keywords are included in the user's voice and a response sentence is generated in a format as indicated by
また、利用者の音声中に複数のキーワードが含まれている場合、認識された複数のキーワードとそれらの信頼度の組み合わせによって応答タイプを一意に決定するように図11に示すような言い換え辞書を用いることもできる。 In addition, when a plurality of keywords are included in the user's voice, a paraphrase dictionary as shown in FIG. 11 is used so that the response type is uniquely determined by the combination of the recognized keywords and their reliability. It can also be used.
ここで、図11は、複数のキーワードの組み合わせに対する言い換え辞書のフォーマットを表す構成図を示す。
1つ目のキーワード1101、1つ目のキーワードの信頼度に関する条件1102、2つ目のキーワード1103、2つ目のキーワードの信頼度に関する条件1104、1つ目のキーワードに対する言い換え語1105、2つ目のキーワードの対する言い換え語1106、応答タイプ1107が組として登録されている。符号1101から符号1104で示されるキーワードおよびそれらの信頼度の組み合わせに対して、それぞれのキーワードに対する言い換え語および応答タイプが決定される。
Here, FIG. 11 is a block diagram showing the format of a paraphrase dictionary for a combination of a plurality of keywords.
The
図12は、例えば、図11の言い換え辞書113bを用いることにより、複数のキーワードに対する言い換え語および応答タイプが決定された場合に使用される応答文テンプレート辞書のフォーマットを示す。図12に示す応答文テンプレート辞書114cのフォーマットは、図5に示す応答文テンプレート辞書114と基本的には同様であるが、応答文テンプレート1201で示す列における応答文テンプレートの内容は、複数のスロットに対応するキーワードが挿入可能な記述となっている。
FIG. 12 shows a format of a response sentence template dictionary used when paraphrase words and response types for a plurality of keywords are determined by using, for example, the paraphrase
例えば、図11における符号1108で示される条件が適用された場合、図12の符号1202で示される行の応答文テンプレートが選択される。すなわち、スロット1の種類が「県名」、スロット2の種類が「美術館」である場合、応答文は、「神奈川県の○○美術館でよろしいですか?」となる。
一方、図11の1109で示される条件が適用された場合は、図12の符号1204で示される応答文テンプレートが選択され、応答文は、「神奈川県の何という美術館ですか?」となる。
さらに、図11の符号1110で示される条件が適用された場合は、図12の符号1203で示される応答文テンプレートが選択され、応答文は、「○○美術館でよろしいですか?」となる。
For example, when the condition indicated by
On the other hand, when the condition indicated by 1109 in FIG. 11 is applied, the response sentence template indicated by
Furthermore, when the condition indicated by reference numeral 1110 in FIG. 11 is applied, the response sentence template indicated by
さらに、1つのキーワードのみを対象とした言い換え辞書113や応答文テンプレート辞書114と、2つ以上のキーワードの組み合わせを対象とした言い換え辞書113や応答文テンプレート114と、を混在させて使用することもできる。
例えば、対象とするスロットに優先順位を付加し、優先順位の高いスロットに関する言い換え辞書113や応答文テンプレート辞書114を優先的に用いて検索する方法や、より多い数のスロットの組み合わせに対する言い換え辞書113や応答文テンプレート辞書114を優先的に用いて検索するようにすれば良い。
また、スロットの優先順位と対象とするスロットの数を併用するようにすることや、スロットの組み合わせに対する優先順位をあらかじめ定義しておくこともできる。
Furthermore, the paraphrase
For example, a priority is added to the target slot and a search is performed by using the paraphrase
Also, the slot priority and the number of target slots can be used together, and the priority for the combination of slots can be defined in advance.
本発明の実施の形態2によれば、利用者から入力されるキーワードの種類やその数によってキーワードの言い換え方法を変更した方が良い場合にも適切な応答文を柔軟に生成することが可能となる。
例えば、利用者の音声から認識されたキーワードについて、その種類を指定した再入力を促す応答文を生成する場合を想定する。利用者の音声が、「○○美術館です。」のようにキーワードが1つである場合、応答文としては、「もう一度、美術館の名称をお話下さい。」というような表現が考えられる。
一方、利用者の音声が、「神奈川県の○○美術館です。」のようにキーワードが2つ(神奈川県、○○美術館)である場合は、「神奈川県のどの美術館ですか。」というような表現が適切な表現となる。
最初の例においては「○○美術館」が「美術館の名称」で置き換えられ、2番目の例においては「どの美術館」に置き換えられていることになる。
このように、言い換える対象となるキーワードが同じであっても、応答文に含めるキーワードの数によって、適切な言い換え方法が異なる場合がある。また、それ以前の応答文によっては、「どの美術館」ではなく、「どんな美術館」や「何という美術館」等の表現が適切な場合も考えられる。
かかる場合、1つのキーワードのみを対象とした言い換え辞書113や応答文テンプレート辞書114と、2つ以上のキーワードの組み合わせを対象とした言い換え辞書113や応答文テンプレート114を併用することにより、適切な応答文を生成することが可能となる。
According to
For example, a case is assumed where a response sentence that prompts re-input specifying a type of a keyword recognized from the user's voice is generated. If the user's voice is a single keyword such as “It is a XX museum,” the response sentence may be “Please tell me the name of the museum again.”
On the other hand, if the user's voice is two keywords (Kanagawa Prefecture, XX Museum of Art), such as “It is a XX museum in Kanagawa Prefecture”, “Which museum is in Kanagawa Prefecture?” Is an appropriate expression.
In the first example, “XX museum” is replaced with “art museum name”, and in the second example, “which museum” is replaced.
Thus, even if the keywords to be paraphrased are the same, an appropriate paraphrase method may differ depending on the number of keywords included in the response sentence. In addition, depending on the response sentence before that, the expression “what kind of art museum” or “what kind of art museum” may be appropriate instead of “which art museum”.
In such a case, an appropriate response can be obtained by using the paraphrase
(実施の形態3)
本発明(音声対話装置および音声対話プログラム)の実施の形態3を、図13等を用いて説明する。
(Embodiment 3)
A third embodiment of the present invention (voice dialogue apparatus and voice dialogue program) will be described with reference to FIG.
前記した本発明の実施の形態1および実施の形態2における言い換え辞書113は、認識されたキーワードおよびその信頼度のみを言い換え語および応答タイプを選択する際の条件としていた。通常、利用者との対話では、やり取りする情報の量や直前までの対話の内容等によって応答文を変更した方が、スムーズなやり取りが行える場合が少なくない。これを実現するため、言い換え語辞書113における言い換え語および応答タイプを選択する際の条件として、認識されたキーワードおよび信頼度以外の項目を追加する。
The paraphrase
図13は、本発明の実施の形態3における前記条件に項目を追加した言い換え辞書に格納される情報を表す構成図である。 FIG. 13 is a configuration diagram showing information stored in the paraphrase dictionary in which items are added to the conditions in the third embodiment of the present invention.
図13における言い換え辞書113cでは、符号1301の列に示す「他スロット数」が条件として追加されている。符号1301の列において、「*」は対象とするスロット以外のスロット数に対する制約が無いことを表している。「0」は対象とするスロット以外のスロットが無いことを表しており、「y≧1」は対象とするスロット以外のスロット数が1以上であることを表している。yは便宜上使用している変数名である。
In the paraphrase
ここで、例えば、図13に示す言い換え辞書113cと、図5および図10に示す応答文テンプレート辞書114を使用する場合を想定する。利用者の音声を認識した結果、音声中に含まれるキーワードが「○○美術館」のみであり、信頼度は0.7、そのキーワードはスロット2に対応しているとする。この場合、図13に示す言い換え辞書113cを適用すると、符号1302で示す行が選択され、言い換え語「美術館の名称」、応答タイプ「絞込み」が選択される。対象とするスロットが1つであるため、図5に示す応答文テンプレート辞書114により応答文テンプレート「もう一度Xをお話し下さい。」が選択され、選択された言い換え語を挿入することにより、応答文として、「もう一度美術館の名称をお話し下さい。」が生成される。
Here, for example, it is assumed that the paraphrase
一方、利用者の音声中にスロット1に対応する「神奈川県」も同時に含まれており、その信頼度は1.0とする。この場合、「神奈川県」に対する言い換え語および応答タイプは、図13に示す言い換え辞書113cを適用することにより、それぞれ「神奈川県」、「キーワード確認」となる。当該スロット1と前記スロット2とについて、対象とするスロットは2つになるため、図10の応答文テンプレート辞書114bにより、応答文テンプレートとしては、「[スロット1の名称]の[スロット2の名称]ですか?」が選択される。
On the other hand, “Kanagawa Prefecture” corresponding to slot 1 is also included in the user's voice, and the reliability is assumed to be 1.0. In this case, the paraphrase word and the response type for “Kanagawa prefecture” are “Kanagawa prefecture” and “Keyword confirmation”, respectively, by applying the paraphrase
ここで、他スロット数を条件として考慮しない場合(例えば、図4に示す言い換え辞書113を利用する場合)、「○○美術館」に対する言い換え語は「美術館の名称」であるため、選択された応答文テンプレートに言い換え語を挿入することにより、応答文は、「神奈川県の美術館の名称ですか?」となる。「○○美術館」に対する応答タイプは「絞込み」であるため、応答文としては不適切となる。
Here, when the number of other slots is not considered as a condition (for example, when using the paraphrase
一方、図13に示す言い換え辞書113cにより、他スロット数を条件として考慮した場合、「○○美術館」に対する言い換え語としては、他スロット数が1となるため、「何という美術館」が選択される。応答文テンプレートに選択された言い換え語を挿入することにより、応答文として、「神奈川県の何という美術館ですか?」が生成され、応答タイプ「絞込み」に対して適切な応答文を生成することが可能となる。
On the other hand, when the number of other slots is considered as a condition according to the paraphrase
図13に示す言い換え辞書113cでは、言い換え語および応答タイプを選択する条件として、信頼度と他スロット数(利用者の音声中に含まれるキーワードの数)に基づく条件を使用していたが、その他、他スロットの種類や利用者名、対話履歴(過去の応答タイプや応答文、利用者音声の認識結果等の履歴)を条件として使用することもできる。これらの情報を利用するためには、それぞれの内容を格納するための列を図13に示す言い換え辞書113cに追加すれば良い。
In the paraphrase
また、利用者名を利用する場合は、対話を開始する際に、音声入力やキーボード等により名前を入力させれば良い。あるいは、公知の顔画像認識技術を用いることにより、カメラから取り込んだ画像から利用者の顔を認識し、入力することもできる。これにより、利用者毎に応答文の形態を変化させることが可能となる。 Further, when using a user name, the name may be input by voice input, a keyboard, or the like when starting a conversation. Alternatively, the user's face can be recognized and input from an image captured from the camera by using a known face image recognition technique. Thereby, it becomes possible to change the form of a response sentence for every user.
さらに、対話履歴を利用する場合は、応答タイプ、応答文および利用者音声の認識結果の列を条件として言い換え辞書113中に格納すれば良い。例えば、以下のような対話を想定する。
(1)応答文:施設名をお話し下さい。
(2)利用者音声:○○美術館。
(3)応答文:もう一度美術館の名称をお話し下さい。
(4)利用者音声:○○美術館
(5)応答文:○○美術館でよろしいですか?
(6)利用者音声:はい
図4に示す言い換え辞書113および図8に示す応答文テンプレート辞書114aを使用した場合、それぞれの応答文の応答タイプは、(1)は、要求1、(3)は、絞込み、(5)は、キーワード確認となる。対話履歴を応答タイプおよび利用者音声の認識結果の列によって表す場合、例えば、(応答:要求1)(利用者:○○美術館)(応答:絞込み)(利用者:○○美術館)(応答:キーワード確認)(利用者:はい)というような形式で対話履歴を表すことができる。「応答」は応答タイプの略であり、「利用者」は利用者音声の認識結果の略であることを表している。このような形式の情報を言い換え辞書113に格納すると共に、同様の形式で実際に行われた対話の結果を別途記録しておけば、言い換え辞書113の条件として対話履歴を利用することができる。
前記例では、利用者音声の認識結果として、認識されたキーワードのみを登録する例を示しているが、認識の結果得られる信頼度を合わせて記録しても良い。また、応答タイプの代わりに、実際に出力された応答文を格納することも容易である。また、応答文のみあるいは利用者音声の認識結果のみを格納しても良い。また、言い換え辞書113中に条件として格納する対話履歴として、格納する対話履歴中の項目の数を制限しても良い。
Furthermore, when using the conversation history, the response type, the response sentence, and the user speech recognition result column may be stored in the paraphrase
(1) Response text: Please tell us the name of the facility.
(2) User voice: XX museum.
(3) Response: Please tell us the name of the museum once again.
(4) User voice: XX Museum (5) Response: Are you sure you want to visit XX Museum?
(6) User voice: Yes When the paraphrase
In the above example, only the recognized keyword is registered as the recognition result of the user voice. However, the reliability obtained as a result of the recognition may be recorded together. It is also easy to store the actually output response text instead of the response type. Further, only the response sentence or only the recognition result of the user voice may be stored. In addition, as the conversation history stored as a condition in the paraphrase
対話履歴を言い換え辞書113の条件として使用することにより、応答タイプが絞込みや種類確認の繰り返しとなる場合に応答文を変更する等の制御を容易に行うことが可能となる。
By using the dialogue history as a condition of the paraphrase
本発明の実施の形態3によれば、前記実施の形態2よりさらに複雑な条件毎に、応答文の内容を細かく制御して生成することが可能となる。 According to the third embodiment of the present invention, it is possible to finely control the contents of the response sentence for each more complicated condition than in the second embodiment.
本発明の音声対話装置は、入力された利用者の音声データの中で表現されているキーワードあるいはその種類毎に、細かく応答文の内容を設定することが可能であり、その結果、利用者との対話がより自然となり、操作性向上が期待できる。従って、コールセンターにおける自動応答システムや、自動販売機やATM等の機器の操作インタフェースとしての利用が本発明には適している。 The spoken dialogue apparatus of the present invention can finely set the contents of the response sentence for each keyword or its type expressed in the input user's voice data, and as a result, Can be expected to improve the operability. Accordingly, the present invention is suitable for use as an automatic response system in a call center or as an operation interface for devices such as vending machines and ATMs.
107 音声認識プログラム
108 対話制御プログラム
109 音声合成プログラム
112 キーワード種類辞書
113 言い換え辞書
114 応答文テンプレート辞書
DESCRIPTION OF
Claims (8)
キーワード毎に、前記利用者に音声により伝える応答文の種類を表す応答タイプ、前記認識されたキーワードを前記応答文に含める場合に使用する言い換え語、前記応答文が選択される条件、を記録した言い換え辞書と、
前記応答タイプに対応づけられた応答文を記録した応答文テンプレート辞書と、
前記信頼度を条件として、前記認識されたキーワードとその信頼度とに基づいて、前記言い換え辞書から前記応答タイプと前記言い換え語を決定し、前記決定された応答タイプに基づいて、当該応答タイプに対応づけられた応答文を前記応答文テンプレート辞書から決定し、前記決定された応答文に前記決定された言い換え語を挿入し、応答文を生成する対話制御手段と、
前記生成された応答文を音声データに変換して出力する音声合成手段と、を有することを
特徴とする音声対話装置。 Voice recognition means for recognizing one or more keywords and their reliability from the input user voice;
For each keyword, a response type indicating the type of response sentence to be communicated to the user by voice, a paraphrase used when the recognized keyword is included in the response sentence, and a condition for selecting the response sentence were recorded. A paraphrase dictionary,
A response sentence template dictionary storing a response sentence associated with the response type;
Based on the recognized keyword and its reliability, the response type and the paraphrase are determined from the paraphrase dictionary on the basis of the reliability, and the response type is determined based on the determined response type. Dialogue control means for determining a response sentence associated with the response sentence template dictionary, inserting the determined paraphrase into the determined response sentence, and generating a response sentence;
Voice synthesizing apparatus, comprising: voice synthesis means for converting the generated response sentence into voice data and outputting the voice data.
前記条件に、前記信頼度に加えて、前記利用者の音声に含まれるキーワードの数、該キーワードの種類、過去の応答タイプの履歴、過去の応答文の履歴、過去の利用者の音声の認識結果のうち何れか1つ以上を含むことを
特徴とする請求項1に記載の音声対話装置。 The paraphrase dictionary is
In addition to the reliability, the number of keywords included in the user's voice, the type of the keyword, the past response type history, the past response sentence history, the past user voice recognition The spoken dialogue apparatus according to claim 1, wherein any one or more of the results are included.
前記入力される利用者の音声に含まれる2つ以上のキーワード各々に対応する応答タイプの組み合わせに対応づけられた前記応答文を記録することを
特徴とする請求項1又は2に記載の音声対話装置。 The response sentence template dictionary is:
The spoken dialogue according to claim 1 or 2, wherein the response sentence corresponding to a combination of response types corresponding to each of two or more keywords included in the inputted user voice is recorded. apparatus.
前記入力される利用者の音声に含まれる2つ以上のキーワード各々に対して、前記決定された応答タイプの前記組み合わせの中で、該組み合わせを構成する応答タイプ数が多い組み合わせに対応づけられる応答文を優先して決定することを
特徴とする請求項3に記載の音声対話装置。 The dialogue control means includes
For each of two or more keywords included in the input user's voice, a response associated with a combination having a large number of response types constituting the combination among the combinations of the determined response types The spoken dialogue apparatus according to claim 3, wherein the sentence is determined with priority.
前記入力される利用者の音声に含まれる2つ以上のキーワードの組み合わせに対応させて、それぞれのキーワードに対する前記言い換え語を記録することを
特徴とする請求項1又は2に記載の音声対話装置。 The paraphrase dictionary is
The spoken dialogue apparatus according to claim 1 or 2, wherein the paraphrase for each keyword is recorded in association with a combination of two or more keywords included in the inputted user's voice.
前記言い換え辞書は、
前記種類の名称毎に、前記応答タイプと、前記言い換え語と、前記条件と、を記録し、
前記対話制御手段は、
前記認識されたキーワードに基づいて、そのキーワードの種類の名称を、前記キーワード種類辞書から決定し、該決定されたキーワードの種類の名称および前記条件に基づいて、前記言い換え辞書から、前記応答タイプおよび前記言い換え語を決定することを
特徴とする請求項1乃至5の何れかに記載の音声対話装置。 A keyword type dictionary that records the keyword and the name of the type in association with each other;
The paraphrase dictionary is
For each name of the type, record the response type, the paraphrase, and the condition,
The dialogue control means includes
Based on the recognized keyword, the keyword type name is determined from the keyword type dictionary, and based on the determined keyword type name and the condition, from the paraphrase dictionary, the response type and The spoken dialogue apparatus according to any one of claims 1 to 5, wherein the paraphrase is determined.
複数の前記言い換え語を記録し、
前記対話制御手段は、
前記言い換え辞書から決定した前記複数の言い換え語の何れかをランダムに決定することを
特徴とする請求項1乃至6の何れかに記載の音声対話装置。 The paraphrase dictionary is
Record a plurality of said paraphrases,
The dialogue control means includes
The spoken dialogue apparatus according to claim 1, wherein any one of the plurality of paraphrase words determined from the paraphrase dictionary is randomly determined.
キーワード毎に、前記利用者に音声により伝える応答文の種類を表す応答タイプ、前記認識されたキーワードを前記応答文に含める場合に使用する言い換え語、前記応答文が選択される条件、を記録した言い換え辞書と、前記応答タイプに対応づけられた応答文を記録した応答文テンプレート辞書とが記憶された記憶装置を備えたコンピュータに、
前記音声入力部を介して入力される利用者の音声から1つ以上のキーワードとその信頼度を認識する処理、
前記信頼度を条件として、前記認識されたキーワードとその信頼度とに基づいて、前記言い換え辞書から前記応答タイプと前記言い換え語を決定する処理、
前記決定した応答タイプに基づいて、当該応答タイプに対応づけられた応答文を前記応答文テンプレート辞書から決定する処理、
前記決定した応答文に前記決定した言い換え語を挿入し、応答文を生成する処理、
前記応答文を音声合成して音声データに変換し、音声出力部を介して出力する処理、
をこの順に実行させることを特徴とする音声対話プログラム。 A voice input unit that inputs voice uttered by the user via the voice input device, and a voice output unit that outputs voice to be heard by the user via the voice output device;
For each keyword, a response type indicating the type of response sentence to be communicated to the user by voice, a paraphrase used when the recognized keyword is included in the response sentence, and a condition for selecting the response sentence were recorded. In a computer having a storage device in which a paraphrase dictionary and a response sentence template dictionary that records a response sentence associated with the response type are stored,
A process of recognizing one or more keywords and their reliability from the voice of the user input via the voice input unit;
A process of determining the response type and the paraphrase from the paraphrase dictionary based on the recognized keyword and its reliability, with the reliability as a condition,
A process for determining a response sentence associated with the response type from the response sentence template dictionary based on the determined response type;
Processing for inserting the determined paraphrase into the determined response sentence and generating a response sentence;
A process of synthesizing the response sentence into voice data and outputting the voice data via a voice output unit;
Are executed in this order.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006211166A JP4728905B2 (en) | 2006-08-02 | 2006-08-02 | Spoken dialogue apparatus and spoken dialogue program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006211166A JP4728905B2 (en) | 2006-08-02 | 2006-08-02 | Spoken dialogue apparatus and spoken dialogue program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008039928A JP2008039928A (en) | 2008-02-21 |
JP4728905B2 true JP4728905B2 (en) | 2011-07-20 |
Family
ID=39175040
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006211166A Active JP4728905B2 (en) | 2006-08-02 | 2006-08-02 | Spoken dialogue apparatus and spoken dialogue program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4728905B2 (en) |
Families Citing this family (142)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US10255566B2 (en) | 2011-06-03 | 2019-04-09 | Apple Inc. | Generating and processing task items that represent tasks to perform |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US8977584B2 (en) | 2010-01-25 | 2015-03-10 | Newvaluexchange Global Ai Llp | Apparatuses, methods and systems for a digital conversation management platform |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
KR101959188B1 (en) | 2013-06-09 | 2019-07-02 | 애플 인크. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
TWI566107B (en) | 2014-05-30 | 2017-01-11 | 蘋果公司 | Method for processing a multi-part voice command, non-transitory computer readable storage medium and electronic device |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US10152299B2 (en) | 2015-03-06 | 2018-12-11 | Apple Inc. | Reducing response latency of intelligent automated assistants |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
JP6448765B2 (en) * | 2015-03-20 | 2019-01-09 | 株式会社東芝 | Dialogue device, method and program |
US9959866B2 (en) | 2015-04-02 | 2018-05-01 | Panasonic Intellectual Property Management Co., Ltd. | Computer-implemented method for generating a response sentence by using a weight value of node |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
JP6898322B2 (en) * | 2015-11-12 | 2021-07-07 | マイクロソフト テクノロジー ライセンシング,エルエルシー | Dialogue assistance |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179309B1 (en) | 2016-06-09 | 2018-04-23 | Apple Inc | Intelligent automated assistant in a home environment |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
JP6832502B2 (en) * | 2016-07-01 | 2021-02-24 | パナソニックIpマネジメント株式会社 | Agent device, dialogue system, dialogue method and program |
US10474753B2 (en) | 2016-09-07 | 2019-11-12 | Apple Inc. | Language identification using recurrent neural networks |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
JP6895037B2 (en) * | 2016-11-06 | 2021-06-30 | ナレルシステム株式会社 | Speech recognition methods, computer programs and equipment |
US11281993B2 (en) | 2016-12-05 | 2022-03-22 | Apple Inc. | Model and ensemble compression for metric learning |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
US11204787B2 (en) | 2017-01-09 | 2021-12-21 | Apple Inc. | Application integration with a digital assistant |
US10417266B2 (en) | 2017-05-09 | 2019-09-17 | Apple Inc. | Context-aware ranking of intelligent response suggestions |
DK201770383A1 (en) | 2017-05-09 | 2018-12-14 | Apple Inc. | User interface for correcting recognition errors |
US10395654B2 (en) | 2017-05-11 | 2019-08-27 | Apple Inc. | Text normalization based on a data-driven learning network |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
US11301477B2 (en) | 2017-05-12 | 2022-04-12 | Apple Inc. | Feedback analysis of a digital assistant |
DK201770429A1 (en) | 2017-05-12 | 2018-12-14 | Apple Inc. | Low-latency intelligent automated assistant |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK179560B1 (en) | 2017-05-16 | 2019-02-18 | Apple Inc. | Far-field extension for digital assistant services |
US10311144B2 (en) | 2017-05-16 | 2019-06-04 | Apple Inc. | Emoji word sense disambiguation |
US10403278B2 (en) | 2017-05-16 | 2019-09-03 | Apple Inc. | Methods and systems for phonetic matching in digital assistant services |
US20180336275A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Intelligent automated assistant for media exploration |
US10657328B2 (en) | 2017-06-02 | 2020-05-19 | Apple Inc. | Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling |
US10445429B2 (en) | 2017-09-21 | 2019-10-15 | Apple Inc. | Natural language understanding using vocabularies with compressed serialized tries |
US10755051B2 (en) | 2017-09-29 | 2020-08-25 | Apple Inc. | Rule-based natural language processing |
US11222320B1 (en) | 2017-11-06 | 2022-01-11 | Wells Fargo Bank, N.A. | Systems and methods for controlling an automated transaction machine |
US10636424B2 (en) | 2017-11-30 | 2020-04-28 | Apple Inc. | Multi-turn canned dialog |
US10733982B2 (en) | 2018-01-08 | 2020-08-04 | Apple Inc. | Multi-directional dialog |
US10733375B2 (en) | 2018-01-31 | 2020-08-04 | Apple Inc. | Knowledge-based framework for improving natural language understanding |
US10789959B2 (en) | 2018-03-02 | 2020-09-29 | Apple Inc. | Training speaker recognition models for digital assistants |
US10592604B2 (en) | 2018-03-12 | 2020-03-17 | Apple Inc. | Inverse text normalization for automatic speech recognition |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
US10909331B2 (en) | 2018-03-30 | 2021-02-02 | Apple Inc. | Implicit identification of translation payload with neural machine translation |
JP7252690B2 (en) * | 2018-04-04 | 2023-04-05 | 節夫 鶴田 | Conversation processing device, conversation processing system, conversation processing method and program |
WO2019198667A1 (en) * | 2018-04-10 | 2019-10-17 | ソニー株式会社 | Information processing device, information processing method and program |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
US10984780B2 (en) | 2018-05-21 | 2021-04-20 | Apple Inc. | Global semantic word embeddings using bi-directional recurrent neural networks |
US11386266B2 (en) | 2018-06-01 | 2022-07-12 | Apple Inc. | Text correction |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | Virtual assistant operation in multi-device environments |
DK179822B1 (en) | 2018-06-01 | 2019-07-12 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
US11076039B2 (en) | 2018-06-03 | 2021-07-27 | Apple Inc. | Accelerated task performance |
JP7471921B2 (en) * | 2020-06-02 | 2024-04-22 | 株式会社日立製作所 | Speech dialogue device, speech dialogue method, and speech dialogue program |
CN111968632B (en) * | 2020-07-14 | 2024-05-10 | 招联消费金融股份有限公司 | Call voice acquisition method, device, computer equipment and storage medium |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3454897B2 (en) * | 1994-01-31 | 2003-10-06 | 株式会社日立製作所 | Spoken dialogue system |
JP4293340B2 (en) * | 2003-02-18 | 2009-07-08 | 幸宏 伊東 | Dialogue understanding device |
-
2006
- 2006-08-02 JP JP2006211166A patent/JP4728905B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2008039928A (en) | 2008-02-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4728905B2 (en) | Spoken dialogue apparatus and spoken dialogue program | |
RU2379767C2 (en) | Error correction for speech recognition systems | |
JP4058071B2 (en) | Example translation device, example translation method, and example translation program | |
US8676577B2 (en) | Use of metadata to post process speech recognition output | |
KR101418163B1 (en) | Speech recognition repair using contextual information | |
JP5706384B2 (en) | Speech recognition apparatus, speech recognition system, speech recognition method, and speech recognition program | |
US20070100619A1 (en) | Key usage and text marking in the context of a combined predictive text and speech recognition system | |
JP2006277677A (en) | Communication support device, method, and program | |
JP2007264471A (en) | Voice recognition device and method therefor | |
EP1430474A1 (en) | Correcting a text recognized by speech recognition through comparison of phonetic sequences in the recognized text with a phonetic transcription of a manually input correction word | |
JP5753769B2 (en) | Voice data retrieval system and program therefor | |
US8126715B2 (en) | Facilitating multimodal interaction with grammar-based speech applications | |
JP2005321730A (en) | Dialog system, dialog system execution method, and computer program | |
JP2014202848A (en) | Text generation device, method and program | |
US20170270923A1 (en) | Voice processing device and voice processing method | |
JP5160594B2 (en) | Speech recognition apparatus and speech recognition method | |
JP2005241829A (en) | System and method for speech information processing, and program | |
JP2004226698A (en) | Speech recognition device | |
JP6499228B2 (en) | Text generating apparatus, method, and program | |
JP2007265131A (en) | Dialog information extraction device, dialog information extraction method, and program | |
JP2003162524A (en) | Language processor | |
JP4537755B2 (en) | Spoken dialogue system | |
WO2021130892A1 (en) | Conversion table generation device, voice dialogue system, conversion table generation method, voice dialogue method, and recording medium | |
JP2010197709A (en) | Voice recognition response method, voice recognition response system and program therefore | |
JP2007033478A (en) | Multimodal dialog system and multimodal application generation wizard |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090617 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20100212 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110309 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110412 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110415 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4728905 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140422 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313117 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |