JP2004029457A - 音声対話装置、および音声対話プログラム - Google Patents
音声対話装置、および音声対話プログラム Download PDFInfo
- Publication number
- JP2004029457A JP2004029457A JP2002186650A JP2002186650A JP2004029457A JP 2004029457 A JP2004029457 A JP 2004029457A JP 2002186650 A JP2002186650 A JP 2002186650A JP 2002186650 A JP2002186650 A JP 2002186650A JP 2004029457 A JP2004029457 A JP 2004029457A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- processing
- input
- data
- sound
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
【解決手段】音声対話処理において、音声対話処理部は、表示用言語で作成されている処理用データを読み出し、「form」タグのあとに記載されている文字に従って、“会員番号を入力して下さい”と発声する処理を実行する。次いで、「input」タグに従って、ユーザからの音声入力の待ち状態となる。音声データの入力があると、音声認識部は、音声認識処理を実行して文字データを取得する。音声対話処理部は、「members_number」に、音声認識部12から受信した文字データを保持する。このように、表示用言語で作成された処理用データにもとづいて音声対話処理が実行される。よって、広く利用されている表示用言語を用いて音声対話処理を行う処理用データを作成することができるようになる。
【選択図】 図3
Description
【発明の属する技術分野】
本発明は、文字などを画面表示させるために用いられる表示用データの作成に使用される表示用言語で作成された処理用データにもとづいて音声対話処理を実行する音声対話装置、および処理用データにもとづく音声対話処理をコンピュータに実行させるためのプログラムに関する。
【0002】
【従来の技術】
従来から、顧客との間で音声対話を行うことによって各種のサービスを行う音声対話装置が活用されている。音声対話装置では、音声対話処理用言語で作成された音声対話処理用データにもとづいて、音声を発声する処理や音声を入力する処理が行われる。
【0003】
この音声対話装置には、例えば、音声対話に加えて画面表示を行うための処理を実行するものがある。このような音声対話装置では、表示用言語で作成された文字などを画面表示させるための表示用データを用いて画面表示処理が実行されるとともに、表示用データに対応して作成された音声対話処理用データを用いて、画面表示されている内容に関連した音声を発生する音声対話処理が実行される。
【0004】
また、音声対話装置には、音声入力することが想定される音声から文字データを抽出するための辞書データを備えているものがある。このような音声対話装置では、音声対話処理用データにもとづく音声対話処理の実行中に、音声入力に応じて辞書データを読み出し、読み出した辞書データを用いて入力した音声を音声認識する処理が行われている。
【0005】
【発明が解決しようとする課題】
表示用データの作成に用いられる表示用言語は広く利用されているのに対し、音声対話処理用データの作成に用いられる音声対話処理用言語はあまり広く利用されていない。このため、表示用データの作成などの表示用言語を取り扱うことができる技術者が多数存在しているのに対して、音声対話処理用データの作成などの音声対話処理用言語を取り扱うことができる技術者は限られている。よって、今後、様々な分野で音声対話によって処理を進めていくようなシステムが望まれるようになっても、音声対話処理を実現する多種多様な音声対話処理用データを作成することができる技術者が不足し、様々なニーズに対応した音声対話処理用データを提供することができなくなる可能性があるという問題があった。
【0006】
なお、近年、表示用言語であるHTML(HyperText Markup Language)で作成された表示用データに記述されている文字を音声で読み上げ、音声入力によって情報入力や情報選択などを行わせるようにしているシステムが用いられるようになってきているが、音声に関する処理を実現するためのデータとして、音声対話処理用言語によって作成されたものでなく、表示用言語で作成された表示処理用データが用いられているため、必要十分な処理を実行するためのタグやコマンドが定義されていない。よって、音声対話処理において必要十分な処理を実行することができず、音声対話処理を円滑に行うことができないという問題がある。
【0007】
また、HTMLで作成された表示用データにもとづく表示処理と、音声対話処理用言語である例えばvoiceXML(eXtensible Markup Language)によって作成された音声対話処理用データにもとづく音声対話処理とを連動させて、表示用データにもとづいて表示されている表示画面に音声対話処理の結果を反映させるシステムが用いられている。しかし、上記のシステムでは、音声対話処理用データにもとづいて音声対話処理を行うことに変わりないので、音声対話処理を実現するためには音声対話処理用言語によって作成された音声対話処理用データが必要とされる。このため、音声対話処理用言語を取り扱うことができる技術者が必要となり、上記の問題は解消されていない。
【0008】
また、音声対話処理用言語で作成された音声対話処理用データにもとづく音声入力処理は、音声の入力を行うだけである。このため、音声が入力したときに、音声の入力処理だけでなく、音声認識が正しくなされているかを確認するための処理を行うようにする場合には、音声入力処理を行う音声対話処理用データを作成する際に、音声の入力処理を行うためのデータを作成するだけでなく正しく音声認識がなされているかを確認する処理を実行するためのデータを作成する必要がある。このように、音声対話処理を実行するためのデータを作成する処理負担が大きいという問題があった。
【0009】
さらに、音声対話処理用言語では、入力することが想定される音声を音声認識するための辞書データを作成するためのデータを作成することができない。このため、音声認識処理を行うことができるようにするためには、音声認識処理を実行するための音声対話処理用データを作成するのみならず、音声認識処理で用いられる辞書データをあらかじめ作成しておく必要があるという問題があった。
【0010】
本発明は上述した問題を解消し、表示用言語によって作成された処理用データにもとづいて音声対話処理を円滑に行うことができるようにすることを目的とする。
【0011】
【課題を解決するための手段】
上記の問題を解決するために、本発明の音声対話装置は、音(例えばDTMF信号にもとづく音)もしくは音声(例えば人間が発声する音)を発する処理を行う音声出力処理部(例えば音声対話処理部11)と、入力した音もしくは音声を取得する処理を行う音声入力処理部(例えば音声対話処理部11)とを含み、処理を記述した処理用データ(例えば図2に示すデータ)にもとづいて、音もしくは音声による情報の入出力を実行する音声対話処理(例えば図3に示す処理)を行うことを特徴とする。なお、処理用データは、音声対話処理用言語で作成されていなくてもよく、少なくとも音もしくは音声の入出力に関する処理を実行させるための音声対話処理用データとして用いられるものであればよい。
【0012】
上記の構成としたことで、処理を記述した処理用データにもとづいて、音声対話処理を行うことができるようになる。
【0013】
音声入力処理部が、入力した音もしくは音声に対応する文字データを取得する音声認識処理部(例えば音声認識部12)を含む構成とされていてもよい。
【0014】
上記の構成としたことで、音声認識処理において入力した音もしくは音声を示す文字データを取得することができる。
【0015】
音声認識処理部が、入力した音声を認識し、認識結果に応じて音声に対応する文字データを取得する構成とされていてもよい。
【0016】
上記の構成としたことで、音声認識処理において入力した音声を示す文字データを取得することができる。
【0017】
音声認識処理部が、入力した音をDTMF(Dual Tone Multi Frequency)信号とし、対応するキーに対応する文字データを取得する構成とされていてもよい。
【0018】
上記の構成としたことで、音声認識処理において入力した音を示す文字データを取得することができる。
【0019】
音声入力処理部が、音声認識処理部によって取得された文字データを、処理用データによって特定される保存領域に保存する(例えば、ステップS105)ように構成されていてもよい。
【0020】
上記の構成としたことで、処理が記述された処理用データにもとづいて、音声対話処理における音声入力処理を行うことができるようになる。
【0021】
処理用データに従って画面表示を行う表示装置(例えば、表示部14、ユーザが使用する端末装置に設けられている表示装置)に対して、音声入力処理部によって取得された音もしくは音声を処理用データに従って処理することで得られた文字データにもとづいて、表示画面に情報表示を行うことを指示する音声表示連携部(例えば、音声・表示連携部15)を備えた構成とされていてもよい。
【0022】
上記の構成としたことで、音声対話処理にて音声入力された情報(例えば会員番号を示す情報)を、表示画面の表示情報に反映させることができる。
【0023】
処理用データに従って画面表示を行う表示装置に対して、音声入力処理部によって取得された音もしくは音声を処理用データに従って処理することで得られた文字データが示す選択結果にもとづいて、表示画面に情報表示を行うことを指示する音声表示連携部を備えた構成とされていてもよい。
【0024】
上記の構成としたことで、音声対話処理によって音声入力された選択結果(例えばカテゴリを示す情報)を、表示画面の表示情報に反映させることができる。
【0025】
処理用データが音声処理用言語で記述されていてもよい。この場合、音声処理用言語には、voiceXMLが用いられる。
【0026】
上記の構成としたことで、表示処理用言語に近い音声処理用言語で記述された処理用データにもとづいて、音声対話処理を行うことができる。よって、多くの技術者が音声対話処理を行うための処理用データを作成することができるようになる。
【0027】
処理用データは、表示される情報や表示形式、入力の促進(画面表示の内容や形式によってユーザに入力を依頼したり、入力が円滑にできるようにしたりすることを意味する)を指定するために用いられる表示用言語で記述されているように構成されていることが好ましい。
【0028】
上記の構成としたことで、多くの技術者が音声対話処理を行うための処理用データを作成することができるようになる。この場合、処理用データは、少なくとも音もしくは音声の入出力に関する処理を実行させるための音声対話処理用データとして用いられる。具体的は、処理用データは、表示用言語によって作成されてはいるが、表示処理用のデータとして用いられるとは限らず、音声対話処理を行うために用いられる。すなわち、プログラム構成上は表示処理用であるが、表示処理用として用いるかどうかは任意であり、少なくとも音声対話処理用として使用される音声対話処理用データである。
【0029】
処理用データが、表示される情報や表示形式、入力の促進を指定するために用いられる表示用言語に、音声対話処理を行う際の所定の指示を示す付属情報を表記するための付属言語(例えば、音声対話処理用言語)が付加された言語によって記述されているように構成されていてもよい。
【0030】
上記の構成としたことで、表示用言語だけでは設定することができない処理を指定して音声対話処理を実行させることができる。従って、表示用言語では定義されていないような処理を付属言語によって補うことができ、音声対話処理において必要十分な処理を実行することができるため、音声対話処理を円滑に行うことができるようになる。
【0031】
付属言語が表示用言語に付加された言語で記述された処理用データが、表示用言語で記述された表示処理用データに従って画面表示を行う表示処理手段(例えば表示部14が備えるブラウザ)によって、表示処理用データとして処理されるように構成されていてもよい。
【0032】
上記の構成としたことで、処理用データが付属言語が表示用言語に付加された言語で記述されていても、表示処理用データとして正しく処理することができる。具体的には、例えば、表示処理手段が、付属言語で記述されているデータを無視し、表示用言語で記述されているデータにもとづいてのみ処理を実行するようにする。
【0033】
付属情報が、音声入力処理部が使用する辞書情報(例えば「grammar」属性によって指定される音声認識に用いられる辞書データを示す情報)、音声入力処理部もしくは音声出力処理部が使用するデータの読み情報(例えば「option」タグなどの「prompt」属性を用いて指定される情報であって、音声対話処理にて音声出力する音声の「読み方」を示す情報)、音声出力処理部が発するガイダンス(例えば「input」タグの「prompt」属性を用いて指定される情報であって、例えば入力依頼を行うためのガイダンスを示す情報)、音声出力処理部が音声を発する際に用いる音声情報を格納した出力音声格納ファイル(例えば「option」タグの「audio」属性を用いて指定される情報であって、音声対話処理にて音声出力する音声の音声データが格納されたファイルを示す情報)、音声入力処理部が使用する入力待ち時間指定情報(例えば、「timeout」属性によって指定されるユーザからの音声入力の待機時間を指定する情報)のうち、少なくとも1つを含むように構成されていてもよい。
【0034】
上記にように構成したことで、表示用言語では定義されていない様々な音声対話に関する処理を付属言語にもとづいて実行することができるようになる。従って、音声対話処理において必要十分な処理を実行することができ、音声対話処理を円滑に行うことができる。
【0035】
表示用言語として、HTML、C−HTML、iモードHTML、HDML、WML、XHTMLの何れかが用いられることが好ましい。
【0036】
上記の構成としたことで、広く用いられているHTML、C−HTML、iモードHTML、HDML、WML、XHTMLの何れかを用いて、音声対話処理を実行させるための処理用データを作成することができる。
【0037】
付属情報は、表示用言語として用いられるHTML、C−HTML、iモードHTML、HDML、WML、またはXHTMLの何れかの属性値として記述されていることが好ましい。
【0038】
上記の構成としたことで、広く用いられているHTML、C−HTML、iモードHTML、HDML、WML、XHTMLの何れかの属性値を用いて、処理用データにおける付属情報を作成することができる。
【0039】
処理用データは、入力依頼を示す記述がなされている部分(例えば、「form」タグのあとの「会員番号を入力して下さい。」と記述されている部分)を含み、入力依頼を示す記述に従って、音声入力処理部が、入力した音もしくは音声を取得し、音声出力処理部が、音声入力処理部によって取得された音もしくは音声を処理用データに従って処理することで得られた文字データにもとづく音もしくは音声(例えば、「〜でよろしいですか?」)を発し、得られた文字データが正しいか否かを確認する入力確認処理(例えばステップS303)を実行し、入力確認処理が実行されたあとに入力した音もしくは音声にもとづいて、得られた文字データが正しいか否かを判定(例えばステップS305)する判定部(例えば音声対話処理部11)を備え、音声入力処理部は、判定部によって得られた文字データが正しいと判定された場合に、得られた文字データを保存する(例えば図10に示すステップS202)ように構成されていてもよい。
【0040】
上記の構成としたことで、入力依頼を示す記述に従って取得した音もしくは音声の音声認識結果が正しいかどうかをユーザに確認することができ、誤った認識結果にもとづいて処理が続行してしまうことを防止することができる。
【0041】
処理用データに含まれている入力依頼を示す記述に従って、音声入力処理部が取得する音声が入力される前(例えば、ステップS103の入力待ちとなる前)に、音声出力処理部が入力依頼を示す音声(例えば、ステップS102での「会員番号を入力して下さい。」なる音声)を発するように構成されていてもよい。
【0042】
上記の構成としたことで、入力依頼を行ったあとに音声の入力を待つことができるようになる。
【0043】
処理用データは、選択依頼および複数の選択候補を示す記述がなされている部分(例えば、選択依頼は、「select」タグを用いて記述されている部分。また、選択候補は、「option」属性を用いて記述されている部分)を含み、選択依頼および複数の選択候補を示す記述に従って、音声入力処理部が、入力した音もしくは音声を取得し、音声出力処理部が、音声入力処理部によって取得された音もしくは音声を処理用データに従って処理することで得られた文字データ(例えばステップS307にて抽出される文字データ)にもとづく音もしくは音声を発し、得られた文字データが正しいか否かを確認する選択確認処理(例えばステップS308)を実行し、選択確認処理が実行されたあとに入力した音もしくは音声にもとづいて、得られた文字データが正しいか否かを判定(例えばステップS310)する判定部(例えば音声対話処理部11)を備え、音声入力処理部は、判定部によって得られた文字データが正しいと判定された場合に、得られた文字データを保存する(例えば図11に示すステップS110)構成とされていてもよい。
【0044】
上記の構成としたことで、選択依頼および複数の選択候補を示す記述に従って取得した音もしくは音声の音声認識結果が正しいかどうかをユーザに確認することができ、誤った認識結果にもとづいて処理が続行してしまうことを防止することができる。
【0045】
処理用データに含まれている選択依頼および複数の選択候補を示す記述に従って、音声入力処理部が取得する音声が入力される前(例えば、ステップS107の入力待ちとなる前)に、音声出力処理部が選択依頼を示す音声を発する(例えば、ステップS106)ように構成されていてもよい。
【0046】
上記の構成としたことで、選択依頼を行ったあとに音声の入力を待つことができるようになる。
【0047】
音声出力処理部は、選択依頼を示す音声を発する際に、選択候補を示す音声を発する(ステップS306)ように構成されていてもよい。
【0048】
上記の構成としたことで、選択候補の通知を行ったあとに音声の入力を待つことができるようになる。
【0049】
処理用データは、表示用言語によって選択依頼および複数の選択候補を示す記述がなされている部分(例えば、選択依頼は、「select」タグを用いて記述されている部分。また、選択候補は、「option」属性を用いて記述されている部分)を含み、複数の選択候補をそれぞれ示す文字データと、音もしくは音声とを対応させた辞書を作成する辞書作成部(例えば辞書データ作成部16)を備え、音声出力処理部は、選択依頼を示す音声もしくは音を発する処理(例えば、図11のステップS106、ステップS306)を実行し、音声入力処理部は、音声出力処理部による選択依頼に応じて発せられた音もしくは音声が入力した場合(例えば、図11のステップS107の入力待ち状態であるときに入力があった場合)に、辞書作成部によって作成された辞書を用いて、当該入力した音もしくは音声に対応する文字データを取得する(例えば、ステップS307)構成とされていてもよい。
【0050】
上記の構成としたことで、複数の選択候補を示す文字データと音声とが対応付けされている辞書データをあらかじめ用意しておく必要をなくすことができる。
【0051】
発した音もしくは音声を通信ネットワークに接続された端末装置(例えばユーザが使用する携帯電話端末装置、固定電話端末装置)に向けて出力し、発せられた音もしくは音声を当該端末装置および通信ネットワークを介して入力することで、音声対話処理を実行するように構成されていてもよい。なお、言うまでもないが、アナログ通信であるかディジタル通信であるかを問わず、通信ネットワークによって実際に伝送されるのは、音声そのものではなく、音声を示す音声データである。
【0052】
上記の構成としたことで、遠隔地のユーザとの間で音声対話処理を行うことができるようになる。
【0053】
また、本発明の音声対話プログラムは、音もしくは音声による情報の入出力を行う音声対話処理を実行するための音声対話プログラムであって、コンピュータに、処理を記述した処理用データにもとづいて音もしくは音声を発する処理と、処理用データにもとづいて入力した音もしくは音声を取得する処理とを実行させることを特徴とする。なお、例えば、処理用データは、表示される情報や表示形式、入力の促進を指定するために用いられる表示用言語で記述されているデータとされる。また、例えば、処理用データは、表示される情報や表示形式、入力の促進を指定するために用いられる表示用言語に、音声対話処理を行う際の所定の指示を示す付属情報を表記するための付属言語が付加された言語によって記述されているデータとされる。
【0054】
上記の構成としたことで、音声対話処理にて音声を発生する処理を行うための音声対話プログラムを表示用言語を用いて作成することができる、多くの技術者が音声対話プログラムを作成することができるようになる。
【0055】
【発明の実施の形態】
以下、本発明の実施の形態について図面を参照して説明する。なお、以下の説明において、「音声」というときには、音声そのものだけでなく、音声を示す音声データをも差している場合がある。
図1は、本発明の第1の実施の形態における音声対話装置の構成例を示すブロック図である。音声対話装置10は、音声対話処理部11と、音声認識部12とを含む。また、音声対話装置10は、音声対話処理の実行に用いられる処理用データを格納する処理用データ管理データベース13を備えている。
【0056】
音声対話処理部11は、処理用データ管理データベース13に格納されている処理用データにもとづいて、音声合成して音声を発生する処理などの音声対話を行うための各種の処理を実行する。
【0057】
音声認識部12は、音声入力があった場合に、入力した音声に対応する文字データを探索して抽出する音声認識処理を実行し、その認識結果を音声対話処理部11に送信する処理を実行する。音声認識部12は、この例では、音声入力が想定される音声を示す音声データと、その音声が示す文字を特定するための文字データとが関連付けされた音声認識用の辞書データが格納された図示しないデータベースを有している。
【0058】
処理用データ管理データベース13に格納されている処理用データは、例えばLCD(Liquid Crystal Display)などの表示装置に文字や画像などを表示させるための表示用言語によって作成される。この例では、表示用言語として、HTMLが用いられるものとする。
【0059】
図2は、処理用データの内容の例を示すデータ説明図である。処理用データは、図2に示すように、HTMLによって作成されている。すなわち、HTMLによって作成されたデータを、音声対話処理を実行するための処理用データとして用いる。
【0060】
この例では、発生する音声を指定する場合に、本来はフォーム(ブラウザ上でのアンケートやコメントの収集のために用いられる書き込み可能なセクション)をブラウザに表示させるために用いられる「form」タグを利用している。具体的には、図2に示すように、<form>〜</form>の間に、発生する音声を示す文字を指定する。
【0061】
また、この例では、音声入力待ちや音声入力があったときの処理を指定する場合に、本来はフォーム内に入力領域を表示したり入力された文字情報を表示するためなどに用いられる「input」タグや、本来はフォーム内に選択領域を表示したり選択された選択結果情報を表示するためなどに用いられる「select」タグを利用している。
【0062】
次に、本例の音声対話装置10による音声対話処理について説明する。図3は、音声対話処理の例を示すフローチャートである。ここでは、ユーザYと音声対話を行う場合の処理について説明する。なお、ユーザYは、音声対話装置10が提供するサービスの利用者として予めユーザ登録を済ませており、会員番号が付与されているユーザであるものとして説明する。音声対話処理は、例えば、ユーザYによって処理の開始を要求する何らかのアクション(例えばボタン操作)があったときや、ユーザYが音声対話装置10の前に立ったことを人感センサが感知したときに開始する。
【0063】
音声対話処理において、音声対話装置10の音声対話処理部11は、先ず、処理用データ管理データベース13から音声対話処理に用いる所定の処理用データを読み出す(ステップS101)。ここでは、図2に示した処理用データを読み出したものとする。
【0064】
処理用データを読み出すと、音声対話処理部11は、「form」タグのあとに記載されている文字に従って、図示しないスピーカから “会員番号を入力して下さい”と発声する処理を実行する(ステップS102)。この例では、音声対話処理部11は、「form」タグにて指定されている文字に従って音声出力する機能を有している。次いで、音声対話処理部11は、その次に記載されている「input」タグに従って、ユーザYからの音声入力の待ち状態となる(ステップS103)。
【0065】
ユーザYは、音声対話装置10が備えるスピーカから“会員番号を入力して下さい”という音声が発せられたことに応じて、音声対話装置10が備える図示しないマイクロフォンに向けて自己の会員番号を発声する。発声された音声は、音声データとして音声対話装置10に入力される。
【0066】
なお、ここで「input」タグの前に発せられるべき文字列が存在しない場合、もしくは明示的に「input」タグに対応する入力を促すための文字列が指定されていない場合には、例えば“入力して下さい”などのように、「input」タグに対応して入力を促すような音声を発するようにすることもできる。
【0067】
音声入力の待ち状態であるときに音声データの入力があると、音声認識部12は、入力した音声データにもとづく音声認識処理を実行し、音声データが示す音声に対応する文字を示す文字データを抽出して音声対話処理部11に送信する(ステップS104)。
【0068】
音声対話処理部11は、受信した文字データを、処理用データにて「input」タグの属性として記載されている「name」に示されている“members_number”を示すデータであるとして処理する。すなわち、音声対話処理部11は、会員番号を示すデータを保存する保存領域として予め設けられている「members_number」に、音声認識部12から受信した文字データを保持する(ステップS105)。
【0069】
会員番号を示すデータを取得すると、音声対話処理部11は、「form」タグ内で次に記載されている文字に従って、スピーカから“カテゴリを入力して下さい”と発声する処理を実行する(ステップS106)。次いで、音声対話処理部11は、その次に記載されている「select」タグに従って、ユーザYからの音声入力の待ち状態となる(ステップS107)。
【0070】
ユーザYは、音声対話装置10のスピーカから“カテゴリを入力して下さい”なる音声が発せられたことに応じて、音声対話装置10に設けられているマイクロフォンに向けて自己のカテゴリを発声する。発声された音声は、音声データとして音声対話装置10に入力される。
【0071】
なお、ここで「select」タグの前に発せられるべき文字列が存在しない場合、もしくは明示的に「select」タグに対応する入力を促すための文字列が指定されていない場合には、例えば“入力して下さい”などのように、「select」タグに対応して入力を促すような音声を発するようにすることもできる。
【0072】
音声入力の待ち状態であるときに音声データの入力があると、音声認識部12は、入力した音声データにもとづく音声認識処理を実行し、音声データが示す音声に対応する文字を示す文字データを抽出して音声対話処理部11に送信する(ステップS108)。
【0073】
音声対話処理部11は、受信した文字データが、「select」〜「/select」の間に記載されている各「option」タグに示されている選択肢の中の何れを示すデータであるかを判定し(ステップS109)、判定された結果を「select」タグの属性として記載されている「name」に示されている“カテゴリ”を示すデータであるとして処理する。すなわち、カテゴリを示すデータを保存する保存領域として予め設けられている「カテゴリ」に、音声認識部12によって抽出された選択肢の何れかを示す文字データを保存する(ステップS110)。具体的には、ユーザYが「個人」と発声した場合には、音声認識部12によって入力した音声が「法人」、「個人」、「その他」の何れであるかが判定され、「個人」を示す文字データが抽出される。その後、音声対話処理部11によって、「個人」を示す文字データが保存領域「カテゴリ」に保存される。
【0074】
この例では、「その他」の選択肢において「recognize=”そのほか”」というデータが設定されているので、ステップS109にて、入力した音声が「その他」であるか否かの確認が優先的に実行される。すなわち、「recognize」属性によって音声認識時に認識すべき文字列が指定されている場合には、指定された文字列を用いた確認処理を優先的に行う。また、同様にして、「pronounce=”そのほか”」と設定されている場合には、発声時に”そのほか”と発声し、また、「voicefile=”sonota.wav”」と設定されている場合には、発声時に指定されたファイル”sonota.wav”を音声ファイルとして再生するようにすることもできる。
【0075】
そして、音声対話装置10は、受信した会員番号とカテゴリにもとづいてユーザ認証を行ったあと、ユーザYを認証した場合には、他の処理用データを用いて例えばチケットの予約や販売などのための音声対話による各種の処理を実行する。
【0076】
上述したように、属性情報を示す付属言語(例えば「recognize」属性などの属性によって記述する言語)が表示用言語に加えられた処理用言語によって作成された処理用データにもとづいて、音声を用いた音声対話処理を実行する構成としたので、音声対話処理を行うための音声処理用言語を用いて処理用データを作成する必要がなくなる。従って、表示用言語によるプログラムの作成方法を習得するだけで、音声対話処理を行うためのプログラムの作成方法も同時に習得したことになる。表示用言語を用いてプログラムを作成することができる技術者は、音声処理用言語を用いてプログラムを作成することができる技術者に比べて多く存在しているため、音声対話処理を実行するためのプログラムを多くの技術者が作成することができるようになる。よって、音声対話処理を実現する多種多様な処理用データを作成することができる技術者を増加させ、様々なニーズに対応した音声対話処理を行うための処理用データを提供することができるようになる。また、付属言語を含む処理用言語によって処理用データが作成されているので、表示用言語だけでは実現できない処理を含めて音声対話処理を行うことができるようになる。具体的には、音声対話処理を円滑に行うために利用されている音声対話処理用言語のタグ(コマンドであってもよい)に対応するタグが表示用言語で定義されていない場合に、タグによる指令の属性や要素を示す属性情報を付属言語によって定義し、その属性情報を用いて音声対話処理を行うようにしているので、必要十分な処理内容の音声対話処理を実現することができ、音声対話処理を円滑に行うことができるようになる。
【0077】
なお、上述した第1の実施の形態では、音声対話装置10の設置場所までユーザが出向いて音声対話を行う場合を例にしたが、ユーザが、携帯電話端末やパーソナルコンピュータなどの端末装置を用いて、公衆電話回線網やインターネットなどの通信ネットワークを介して音声対話装置10にアクセスし、音声対話装置10との間で音声対話を行うようにしてもよい。この場合、音声対話装置10は、通信ネットワークに接続され、通信ネットワークを介して、音声対話によって端末装置に対して各種のサービスを提供する音声対話処理サーバとして用いられる。例えばインターネットを介してサービスを提供する場合には、音声対話装置にWWW(World Wide Web)サーバとしての機能を備えるようにすればよい。
【0078】
次に、本発明の第2の実施の形態について図面を参照して説明する。なお、上述した第1の実施の形態と同一に構成され同一の処理を実行する部分については、同一の符号を付与してその詳細な説明は省略する。
図4は、本発明の第2の実施の形態における音声対話装置10aの構成例を示すブロック図である。音声対話装置10aは、音声対話処理部11と、音声認識部12と、表示部14と、音声・表示連携部15とを含む。また、音声対話装置10aは、音声対話処理の実行に用いられる処理用データを格納する処理用データ管理データベース13を備えている。
【0079】
表示部14は、例えばLCDなどの表示装置によって構成される。音声・表示連携部15は、音声認識部12による音声認識処理によって取得された文字データにもとづいて、表示部14に対して画面表示されているフォーム内の表示入力を指示する処理など、表示処理と音声対話処理とを連携させる処理を行う機能を有する。
【0080】
図5は、この例で用いられる処理用データの内容の例を示すデータ説明図である。処理用データは、図5に示すように、HTMLによって作成されている。すなわち、HTMLによって作成されたデータを、音声対話処理を実行するための処理用データとして用いる。図5に示す処理用データは、図2に示した処理用データとほぼ同一であるが、会員番号を保存する保存領域に「members_num」が指定されている点と、音声対話処理だけでなく表示処理をも実行することが指示されている点(mmxml:process=”true”が記載されている点)で異なっている。従って、表示部14は、この例では、「mmxml:process=”true”」なる属性が記述されている場合に処理用データにもとづく表示処理を実行し、記述されていなければ(図2参照)処理用データを取得しても表示処理を実行しない。なお、「mmxml:process=”true”」なる属性が記述されているか否かにかかわらず、音声対話処理部11などによる音声対話処理は実行される。
【0081】
次に、本例の音声対話装置10aによる音声対話処理について説明する。図6は、音声対話処理の例を示すフローチャートである。ここでは、ユーザYと音声対話を行う場合の処理について説明する。なお、ユーザYは、音声対話装置10aが提供するサービスの利用者として予めユーザ登録を済ませており、会員番号が付与されているユーザであるものとして説明する。音声対話処理は、ユーザYによって処理の開始を要求する何らかのアクションがあったときや、ユーザYが音声対話装置10aの前に立ったことを人感センサが感知したときに開始する。
【0082】
音声対話処理において、音声対話装置10aは、先ず、処理用データ管理データベース13から音声対話処理に用いる所定の処理用データを読み出す(ステップS101)。ここでは、音声対話処理部11と、表示部14とが、それぞれ図5に示した処理用データを読み出したものとする。
【0083】
処理用データを読み出すと、表示部14は、処理用データにもとづいて表示画面にフォームを表示する。具体的には、図7(A)に示すように、ブラウザ上に、「form」タグ内に記載されている「会員番号」および「カテゴリ」の文字の表示や、会員番号の入力領域、カテゴリの選択結果入力領域などが表示される。なお、図5で例示した処理用データには示されていないが、処理用データには、会員番号の入力領域のサイズを指定するデータが設定されているものとする。
【0084】
また、音声対話処理部11は、読み出した処理用データにもとづいて、上述したステップS102〜ステップS104と同様にして音声対話処理を実行したあと、音声認識部12から受信した文字データを、処理用データにて「input」タグの属性として記載されている「name」に示されている“members_num”を示すデータであるとして処理する。すなわち、会員番号を示すデータを保存する保存領域として予め設けられている「members_num」に、音声認識部12が抽出した文字データを保存する(ステップS202)。また、音声対話処理部11は、音声認識部12から受信した文字データを音声・表示連携部15に送信する。音声・表示連携部15は、表示部14に受信した文字データを送信するとともに、表示部14に対して、受信した文字データを表示部14が取得している処理用データにおける「members_num」として保存するように指示する。すると、表示部14は、音声・表示連携部15から受けた文字データを「members_num」として保存し、図7(B)に示すように、受信した文字データにもとづいてユーザYが発声した会員番号を示す情報を会員番号の入力領域に表示する処理を行う(ステップS203)。なお、ここでは、ユーザYが自己の会員番号として「01234」と発声したものとする。
【0085】
次いで、音声対話処理部11は、上述したステップS106〜ステップS110と同様にして音声対話処理を実行する。なお、この例においても、「その他」の選択肢において「recognize=”そのほか”」というデータが設定されているので、ステップS109にて、入力した音声が「その他」であるか否かの確認が優先的に実行される。すなわち、「recognize」属性によって音声認識時に認識すべき文字列が指定されている場合には、指定された文字列を用いた確認処理を優先的に行う。また、同様にして、「pronounce=”そのほか”」と設定されている場合には、発声時に”そのほか”と発声し、また、「voicefile=”sonota.wav”」と設定されている場合には、発声時に指定されたファイル”sonota.wav”を音声ファイルとして再生するようにすることもできる。
【0086】
そして、ステップS109で選択されたカテゴリを示す文字データを音声・表示連携部15に送信する。音声・表示連携部15は、表示部14に受信した文字データを送信するとともに、表示部14に対して、受信した文字データを表示部14が取得している処理用データにおける「カテゴリ」として保存するように指示する。すると、表示部14は、音声・表示連携部15から受けた文字データを「カテゴリ」として保存し、図7(C)に示すように、受信した文字データにもとづいてユーザYが発声したカテゴリを示す情報をカテゴリの選択結果入力領域に選択結果として表示する処理を行う(ステップS204)。なお、ここでは、ユーザYが自己のカテゴリとして「個人」と発声したものとする。
【0087】
上記のように音声・表示連携部15を設ける構成としたことで、ユーザYが発声した音声の内容が表示部14の画面表示に反映されるようにすることができる。従って、ユーザYは、自己が発声した音声を音声対話装置10aが正確に認識しているかを、表示部14の表示画面を見ることで確認することができる。
【0088】
そして、音声対話装置10aは、入力された会員番号とカテゴリにもとづいてユーザ認証を行ったあと、ユーザYを認証した場合には、他の処理用データを用いて例えばチケットの予約や販売などのための各種の処理を実行する。
【0089】
上述したように、音声・表示連携部15が、音声対話処理によってユーザから得た音声情報にもとづいて、表示部14に表示指示を行う構成としたので、音声対話処理にて入力された音声の内容を表示画面に容易に反映させることができる。すなわち、音声対話装置10aは、入力した音声の認識結果を表示画面に表示することができる。従って、ユーザは、自己が発声した音声が正確に認識されているかどうかを確認することができる。また、表示用データと音声認識処理用データとを兼用する処理用データを使用しているので、1つの処理用データを用いて、音声対話処理と画面表示処理とを行うことができる。
【0090】
なお、上述した第2の実施の形態では、音声対話装置10aの設置場所までユーザが出向いて音声対話を行う場合を例にしたが、ユーザが、携帯電話端末やパーソナルコンピュータなどの端末装置を用いて、公衆電話回線網やインターネットなどの通信ネットワークを介して音声対話装置10aにアクセスし、音声対話装置10aと音声対話を行うようにしてもよい。この場合、音声対話装置10aは、通信ネットワークに接続され、通信ネットワークを介して端末装置に対して音声対話によって各種のサービスを提供する音声対話処理サーバとして用いられる。例えばインターネットを介してサービスを提供する場合には、音声対話装置はWWWサーバとしての機能を有するようにすればよい。なお、上記の構成とする場合には、表示部14を、ユーザ側の端末装置に設けるようにすればよい。
【0091】
また、上述した第2の実施の形態では、処理用データ内の“会員番号を入力してください”、“カテゴリを入力してください”は、表示も発声も行われることとなるが、これを音声処理用の属性情報として「prompt」タグの要素もしくは「input」タグおよび「select」タグのprompt属性値として記述した場合には、これらはそれぞれ「input」タグおよび「select」タグの入力依頼として発声されるが、表示は行われないようにすることができる。すなわち、この例では、処理用データにもとづく画面表示を行う場合には、表示制御を行うブラウザは、正しく表示制御を行うために、処理用データ中の付属言語によって記述されているデータを無視して処理を行う。従って、属性情報として入力依頼を行うようにすれば、表示が行われないようにすることができる。
【0092】
次に、本発明の第3の実施の形態について図面を参照して説明する。なお、上述した第1および第2の実施の形態と同一に構成され同一の処理を実行する部分については、同一の符号を付与してその詳細な説明は省略する。
図8は、本発明の第3の実施の形態における音声対話装置10bの構成例を示すブロック図である。音声対話装置10bは、音声対話処理部11と、音声認識部12と、辞書データ作成部16と、辞書データ管理部17とを含む。また、音声対話装置10bは、音声対話処理の実行に用いられる処理用データを格納する処理用データ管理データベース13を備えている。
【0093】
辞書データ作成部16は、処理用データにおける「select」タグにもとづく音声入力待ち状態であるときの音声入力による音声認識処理で用いる辞書データを、その「select」タグにて指定されている選択情報にもとづいて作成する機能を有している。辞書データとは、音声データが示す音声に対応する文字データを探索するために用いられるデータであって、音声データと対応する文字データとが関連付けされているデータを意味する。
【0094】
辞書データ管理部17は、例えばRAMなどの記憶媒体を含む構成とされ、辞書データ作成部16によって作成された辞書データや、予め作成されている辞書データを保存して管理する機能を有する。
【0095】
図9は、この例で用いられる処理用データの内容の例を示すデータ説明図である。処理用データは、図9に示すように、HTMLによって作成されている。すなわち、HTMLによって作成されたデータを、音声対話処理を実行するための処理用データとして用いる。図9に示す処理用データは、図2に示した処理用データとほぼ同一であるが、会員番号を保存する保存領域に「members_num」が指定されている点と、「input」タグにもとづく音声認識処理が行われる際の認識対象を示す情報もしくは認識処理用の辞書を示す情報(mmxml:grammar=”digits”)が付加されている点で異なっている。また、同じく、属性「timeout」を用いて、入力待ち時間を指定する情報(例えば、10秒であれば、timeout=”10”)を付加するようにすることもできる。
【0096】
次に、本例の音声対話装置10bによる音声対話処理について説明する。図10および図11は、音声対話処理の例を示すフローチャートである。ここでは、ユーザYと音声対話を行う場合の処理について説明する。なお、ユーザYは、音声対話装置10bが提供するサービスの利用者として予めユーザ登録を済ませており、会員番号が付与されているユーザであるものとして説明する。音声対話処理は、ユーザYによって処理の開始を要求する何らかのアクションがあったときや、ユーザYが音声対話装置10bの前に立ったことを人感センサが感知したときに開始する。
【0097】
音声対話装置10bは、音声対話処理において、先ず、処理用データ管理データベース13から音声対話処理に用いる所定の処理用データを読み出す(ステップS101)。ここでは、音声対話処理部11および辞書データ作成部16が、それぞれ図9に示した処理用データを読み出したものとする。
【0098】
処理用データを読み出すと、音声対話処理部11は、処理用データにもとづいて、上述したステップS102〜ステップS103と同様の処理を実行する。そして、音声入力があった場合には、音声対話処理部11は、「input」タグにて指定されている辞書データを辞書データ管理部17から読み出し、読み出した辞書データと入力した音声データを音声認識部12に送信する(ステップS301)。なお、この例では、「mmxml:grammar=”digits”」(認識対象が会員番号であることから、認識対象となる音声が数字であることを指定している。)なる付加情報にもとづいて、数字を音声認識するための辞書データが読み出される。
【0099】
音声認識部12は、受信した辞書データを用いて、受信した音声データに対応する文字データを抽出する音声認識処理を実行し、抽出した文字データを音声対話処理部11に送信する(ステップS302)。
【0100】
次いで、音声対話処理部11は、ユーザYに対して音声認識結果の確認要求を行うために、音声認識部12から受信した文字データにもとづいて音声を発生する処理を行う(ステップS303)。例えば音声認識部12から受信した文字データが「01234」であれば、「01234でよろしいですか?」と発声する。このように、本例では、音声対話処理部11は、音声認識部12による音声認識結果にもとづいて音声を発生する処理を実行する。音声認識部12による音声認識結果にもとづく音声を発生すると、音声対話処理部11は、ユーザYによる回答を示す音声の入力待ち状態となる(ステップS304)。
【0101】
ユーザYは、「01234でよろしいですか?」と発声されたことに応じて、音声認識結果が正しければその旨を示す音声(例えば「はい」、「Yes」など)を発声し、音声認識結果が誤っていればその旨を示す音声(例えば「いいえ」、「No」など)を発声する。
【0102】
ユーザYからの音声入力があると、音声対話処理部11は、入力した音声を音声認識部12によって音声認識した結果にもとづいて結果判定を行い(ステップS305)、「はい」や「YES」などの回答が得られた場合には、音声認識結果が正しかったもの判定し、音声認識部12から受信した文字データを、処理用データにて「input」タグの属性として記載されている「name」に示されている“members_num”を示すデータであるとして処理する。すなわち、会員番号を示すデータを保存する保存領域として予め設けられている「members_num」に、受信した文字データを保持する(ステップS202)。一方、「いいえ」「NO」などの回答が得られた場合には、音声認識結果が誤っていたものと判定し、ステップS102以降の処理を再度実行する。なお、「いいえ」「NO」などの回答が所定回数連続して得られたような場合には、エラー報知をしたあと、音声対話処理を終了するようにしてもよい。
【0103】
会員番号を示すデータを保存すると、音声対話処理部11は、上述したステップS106と同様にして「カテゴリを入力して下さい」と発声したあと、この例では、「select」タグに従って、「選択肢は、法人、個人、その他です。」と発声する処理を実行し(ステップS306)、その後にユーザYからの音声入力の待ち状態となる(ステップS107)。すなわち、この例では、音声対話処理部11が、「select」タグに従って入力待ち状態となる前に、「select」タグにて指定されている各選択肢を読み上げる処理を実行する。
【0104】
ユーザYは、音声対話装置10bのスピーカから「カテゴリを入力して下さい」なる音声が発せられ、「選択肢は、法人、個人、その他です」なる音声が発せられたことに応じて、音声対話装置10に設けられているマイクロフォンに向けて自己のカテゴリを発声する。発声された音声は、音声データとして音声対話装置10bに入力される。
【0105】
音声入力の待ち状態であるときに音声データの入力があると、音声認識部12は、処理用データにもとづいて辞書データ作成部16によって作成されている辞書データを用いて、入力した音声データについて音声認識処理を実行し、音声データが示す音声に対応する文字を示す文字データを選択して音声対話処理部11に送信する(ステップS307)。この例では、辞書データ作成部16は、音声対話処理が開始すると、ステップS101にて読み出した処理用データの「option」タグに示されている各選択肢について、選択肢にあげられている文字データと音声データとを関連付けした辞書データを作成する処理を実行する。この例では、辞書作成部16は、「option」タグに示されている「法人」、「個人」、「その他」を示す音声データを生成し、それぞれの文字データに対応付けした辞書データを作成する。この辞書データの作成の際には、例えば、すべての平仮名についてそれぞれ音声データが対応付けされている基本辞書データが用いられる。
【0106】
次いで、音声対話処理部11は、ユーザYに対して音声認識結果の確認要求を行うために、音声認識部12から受信した文字データにもとづいて音声を発生する処理を行う(ステップS308)。例えば音声認識部12から受信した文字データが「個人」であれば、「個人でよろしいですか?」と発声する。このように、本例では、音声対話処理部11は、音声認識部12による音声認識結果にもとづいて音声を発生する処理を実行する。音声認識部12による音声認識結果にもとづく音声を発生すると、音声対話処理部11は、ユーザYによる回答を示す音声の入力待ち状態となる(ステップS309)。
【0107】
ユーザYは、「個人でよろしいですか?」と発声されたことに応じて、音声認識結果が正しければその旨を示す音声(例えば「はい」、「Yes」など)を発声し、音声認識結果が誤っていればその旨を示す音声(例えば「いいえ」、「No」など)を発声する。
【0108】
ユーザYからの音声入力があると、入力した音声を音声認識部12によって音声認識した結果にもとづいて結果判定を行い(ステップS310)、「はい」や「YES」などの回答が得られた場合には、音声認識結果が正しかったものとして、音声認識部12から受信した文字データを、処理用データにて「select」タグの属性として記載されている「name」に示されている“カテゴリ”として処理する。すなわち、カテゴリを示すデータを保存する保存領域として予め設けられている「カテゴリ」に、音声認識部12によって抽出されたカテゴリを示す文字データを保存する(ステップS110)。一方、「いいえ」「NO」などの回答が得られた場合には、音声認識結果が誤っていたものとして、ステップS106以降の処理を再度実行する。なお、「いいえ」「NO」などの回答が所定回数連続して得られたような場合には、エラー報知をしたあと、音声対話処理を終了するようにしてもよい。
【0109】
そして、音声対話装置10bは、受信した会員番号とカテゴリにもとづいてユーザ認証を行ったあと、ユーザYを認証した場合には、他の処理用データを用いて例えばチケットの予約や販売などのための音声対話による各種の処理を実行する。
【0110】
上述したように、辞書データ作成部16が、処理用データにおける「select」タグ内の「option」タグに示されている各選択肢について、対応する音声データを生成して辞書データを作成する構成としたので、複数の選択肢の中からユーザに選択させる際に入力される音声を音声認識するための辞書データを予め作成しておく必要がない。すなわち、処理用データにもとづいて、上記のような辞書データを作成する構成としたので、処理用データとは別に上記のような辞書データを設けておく必要がなくなる。
【0111】
また、上述したように、音声認識結果が正しいかどうかを音声による確認する構成としたことで、音声対話装置10bが発する音声によってユーザが音声認識の正否を確認することができ、誤った音声認識結果にもとづいて処理が続行してしまうことを回避することができる。また、音声認識結果が誤っている場合には、再度音声入力を促す構成としたので、正しい音声認識結果が得られるまで処理をやり直すことができる。
【0112】
また、上述したように、処理用データ中に、表示用データだけでなく、音声対話処理を行う際に用いられる付属情報(本例では、音声認識の対象となる音声が数字であることを指定する情報)を、音声対話処理用言語によって表示したデータ(本例では、「mmxml:grammar=”digits”」)を含めるようにしたので、表示用言語だけでは設定することができない処理を指定して音声対話処理を実行させることができる。なお、音声対話処理用言語によって他の内容の付属情報を付加するようにしてもよい。上述した第2の実施の形態における「recognize」属性も、付属情報である。
【0113】
なお、上述した第3の実施の形態では、音声対話装置10bの設置場所まで出向いてユーザが音声対話を行う場合を例にしたが、ユーザが、携帯電話端末やパーソナルコンピュータなどの端末装置を用いて、公衆電話回線網やインターネットなどの通信ネットワークを介して音声対話装置10bにアクセスし、音声対話装置10bとの間で音声対話を行うようにしてもよい。この場合、音声対話装置10bは、通信ネットワークに接続され、通信ネットワークを介して端末装置に対して音声対話によって各種のサービスを提供する音声対話処理サーバとして用いられる。例えばインターネットを介してサービスを提供する場合には、音声対話装置はWWWサーバとしての機能を有するようにすればよい。
【0114】
また、処理用データにもとづいて辞書データ作成部16によって行われる辞書データの作成は、辞書を使用する以前であれば、辞書を使用する直前でも、処理用データの選択肢を処理する際でも、処理用データによる処理を解しする際でも、処理用データよりあらかじめ作成していてもよい。
【0115】
次に、本発明の第4の実施の形態について図面を参照して説明する。なお、上述した第1、第2および第3の実施の形態と同一に構成され同一の処理を実行する部分については、同一の符号を付与してその詳細な説明は省略する。
図12は、本発明の第4の実施の形態における音声対話装置10cの構成例を示すブロック図である。音声対話装置10cは、音声対話処理部11と、音声認識部12とを含む。また、音声対話装置10cは、音声対話処理の実行に用いられる処理用データを格納する処理用データ管理データベース13を備えている。
【0116】
図13は、この例で用いられる処理用データの内容の例を示すデータ説明図である。処理用データは、図13に示すように、VoiceXMLによって作成されている。すなわち、VoiceXMLによって作成されたデータを、音声対話処理を実行するための処理用データとして用いる。
【0117】
この例では、発生する音声を指定する場合に、「prompt」タグが用いられる。具体的には、図13に示すように、<vxml:prompt>〜</vxml:prompt>の間に、発生する音声を示す文字を指定する。
【0118】
また、この例では、音声入力待ちや音声入力があったときの処理を指定する場合に、「field」タグが用いられる。具体的には、図13に示すように、「field」タグによって、<vxml:field>〜</vxml:field>の間に記述されている「prompt」タグにもとづく音声を発声したあと音声入力待ちとすること、この音声入力待ちであるときに音声が入力した場合、音声認識処理を実行するとともに認識結果を示す音声を発声して確認をとること、確認をとるための音声の発声を行ったあと音声入力待ちとすること、この音声入力待ちであるときに音声が入力した場合、音声認識処理を実行するとともに確認が得られたか否かを判定すること、確認が得られた場合には音声認識結果を保存することなどが音声対話装置10cに対して指示される。
【0119】
次に、本例の音声対話装置10cによる音声対話処理について説明する。図14は、音声対話処理の例を示すフローチャートである。ここでは、ユーザYと音声対話を行う場合の処理について説明する。なお、ユーザYは、音声対話装置10cが提供するサービスの利用者として予めユーザ登録を済ませており、会員番号が付与されているユーザであるものとして説明する。音声対話処理は、ユーザYによって処理の開始を要求する何らかのアクションがあったときや、ユーザYが音声対話装置10cの前に立ったことを人感センサが感知したときに開始する。
【0120】
音声対話装置10cは、音声対話処理において、先ず、処理用データ管理データベース13から音声対話処理に用いる所定の処理用データを読み出す(ステップS101)。ここでは、音声対話処理部11が、図13に示した処理用データを読み出したものとする。
【0121】
処理用データを読み出すと、音声対話処理部11は、「field」タグの要素である「prompt」タグのあとに記載されている文字に従って、図示しないスピーカから “住所をどうぞ”と発声する処理を実行する(ステップS401)。この例では、音声対話処理部11は、「prompt」タグにて指定されている文字に従って音声出力する機能を有している。次いで、音声対話処理部11は、「field」タグに従って、「prompt」タグにて指定されている文字に従って音声出力すると、ユーザYからの音声入力の待ち状態となる(ステップS402)。この例では、音声対話処理部11は、「prompt」タグにて指定されている文字に従って音声出力を行うと、音声入力の待ち状態となる機能を有している。
【0122】
ユーザYは、音声対話装置10cが備えるスピーカから“住所をどうぞ”という音声が発せられたことに応じて、音声対話装置10cが備える図示しないマイクロフォンに向けて例えば自己の住所を発声する。発声された音声は、音声データとして音声対話装置10cに入力される。
【0123】
「prompt」タグに従って音声出力を行ったあとの音声入力の待ち状態となると、音声対話処理部11は、「field」タグの要素である「grammar」タグにて指定されている辞書データを処理用データ管理データベース13から読み出し、読み出した辞書データを音声認識部12に送信する(ステップS403)。なお、この例では、処理用データ管理データベース13が辞書データも管理する構成としている。なお、この例では、「vxml:grammar src=”address.srgf”」(認識対象が住所であることから、認識対象となる音声が都道府県名や市区町村名であることを指定している。)なる付加情報にもとづいて、都道府県名や市区町村名を音声認識するための辞書データが読み出される。また、「prompt」タグに従って音声出力を行ったあとの音声入力の待ち状態であるときに音声データの入力があると、音声対話処理部11は、入力した音声データを音声認識部12に送信する。
【0124】
音声認識部12は、受信した辞書データを用いて、受信した音声データに対応する文字データを抽出する音声認識処理を実行し、抽出した文字データを音声対話処理部11に送信する(ステップS302)。
【0125】
次いで、音声対話処理部11は、ユーザYに対して音声認識結果の確認要求を行うために、音声認識部12から受信した文字データにもとづいて音声を発生する処理を行う(ステップS404)。例えば音声認識部12から受信した文字データが「東京都千代田区○○1−1−1」であれば、「東京都千代田区○○1−1−1でよろしいですか?」と発声する。音声認識部12による音声認識結果にもとづく音声を発生すると、音声対話処理部11は、ユーザYによる回答を示す音声の入力待ち状態となる(ステップS304)。このように、本例では、音声対話処理部11は、音声認識部12による音声認識結果にもとづく音声を発声する処理を実行する機能と、音声認識部12による音声認識結果にもとづく音声を発声したあと音声の入力待ち状態とする機能とを有している。
【0126】
ユーザYは、「東京都千代田区○○1−1−1でよろしいですか?」と発声されたことに応じて、音声認識結果が正しければその旨を示す音声(例えば「はい」、「Yes」など)を発声し、音声認識結果が誤っていればその旨を示す音声(例えば「いいえ」、「No」など)を発声する。
【0127】
ユーザYからの音声入力があると、音声対話処理部11は、入力した音声を音声認識部12によって音声認識した結果にもとづいて結果判定を行い(ステップS305)、「はい」や「YES」などの回答が得られた場合には、音声認識結果が正しかったもの判定し、音声認識部12から受信した文字データを、処理用データにて「field」タグの属性として記載されている「name」に示されている“field_juusho”を示すデータであるとして処理する。すなわち、住所を示すデータを保存する保存領域として予め設けられている「field_juusho」に、受信した文字データを保持する(ステップS405)。一方、「いいえ」「NO」などの回答が得られた場合には、音声認識結果が誤っていたものと判定し、ステップS401以降の処理を再度実行する。なお、「いいえ」「NO」などの回答が所定回数連続して得られたような場合には、エラー報知をしたあと、音声対話処理を終了するようにしてもよい。
【0128】
そして、音声対話装置10cは、住所を示すデータを保存すると、音声対話によって住所を登録する処理を終了する。ここでは住所を登録する例について説明したが、続けて名前などを登録するための音声対話処理を実行するようにしてもよい。この場合、処理用データを、図13に示した処理用データと同様にして、名前を登録するための音声対話処理が実行されるようなデータ構成とすればよい。
【0129】
上述したように、音声対話処理用言語によって作成された処理用データにもとづいて、1つのタグ(上記の例では「field」タグ)によって一連の音声対話処理を実行する構成としたので、音声処理用言語を用いて簡単に処理用データを作成することができるようになる。また、処理数と比較して少ない数のタグを用いて簡単にVoiceXMLによって処理用データを作成する構成としたので、HTMLなどの表示処理用言語と同じような手順で音声対話処理用のデータを作成することができる。従って、表示用言語によるプログラムの作成方法を習得していれば、音声対話処理を行うためのプログラムの作成方法を簡単に習得することができるようになる。すなわち、音声対話処理用データにもとづいて音声対話処理を行うことに変わりないが、表示用言語によるプログラムの作成方法を習得している技術者であれは簡単に音声対話処理用データを作成することができるようになる。よって、音声対話処理用言語を取り扱う専門の技術者でなければ音声対話処理用データを作成することができないような事態は解消される。
【0130】
なお、上述した第4の実施の形態では、音声対話装置10cの設置場所まで出向いてユーザが音声対話を行う場合を例にしたが、ユーザが、携帯電話端末やパーソナルコンピュータなどの端末装置を用いて、公衆電話回線網やインターネットなどの通信ネットワークを介して音声対話装置10cにアクセスし、音声対話装置10cとの間で音声対話を行うようにしてもよい。この場合、音声対話装置10cは、通信ネットワークに接続され、通信ネットワークを介して端末装置に対して音声対話によって各種のサービスを提供する音声対話処理サーバとして用いられる。例えばインターネットを介してサービスを提供する場合には、音声対話装置はWWWサーバとしての機能を有するようにすればよい。
【0131】
なお、上述した各実施の形態では、表示用言語としてHTMLを例にしていたが、携帯電話端末のブラウザでWebページの表示などを行うために用いられるC−HTML(Compact HTML)、iモード用HTML(i−MODE(登録商標)と呼ばれる携帯電話端末を含むシステムで用いられる言語)などの携帯電話端末用のマークアップ言語や、HDML(Handheld Device Markup Language)、WML(Wireless Markup Language)、XHTML(eXtensible HTML)などの他のマークアップ言語を用いるようにしてもよい。
【0132】
また、上述した各実施の形態において、HTMLを用いた処理用データの例を示したが、例示した処理用データに含まれていない他のタグや属性を音声対話処理における特定の処理に関連付けして、他のタグや属性にもとづく他の音声対話に関する処理を実行するようにしてもよい。
【0133】
また、上述した各実施の形態では、処理用データにおける音声認識に用いられる辞書データを示す情報やユーザからの音声入力の待機時間を指定する情報が、「grammar」属性や「timeout」属性を用いた付属言語による付属情報として記述されていたが、他の情報についても付属情報として記述するようにしてもよい。この場合、例えば、図15に示すように、音声対話処理部11に対して入力依頼などのガイダンスの内容を指定する際に、「input」タグの「prompt」属性を用いて「会員番号を入力してください」を発声することを指定するようにしたり、音声対話処理部11が音声を発するときに用いる音声情報を格納したファイルを指定する際に、「option」タグの「audio」属性を用いて「kojin.wav」というファイルであることを指定するようにしたり、音声対話処理部11が音声入力や音声合成を行うときに用いる音声の読み情報(音声の「読み方」を示す情報)を指定する際に、例えば「option」タグの「prompt」属性を用いて「その他」の読み方は「そのほか」であることを指定するようにすればよい。なお、図15に示す処理用データは、付属言語を多く利用して、音声対話装置10aに上述した図5に示す処理用データと同様の音声対話処理を実行させるための処理用データである。例えば、音声対話装置10aは、図15に示す処理用データに従い、「input」タグの「prompt」属性にもとづいて「会員番号を入力してください」と発声したあと入力待ち状態となり、会員番号の入力があると、「form」タグにて指定されている「カテゴリを選択して下さい」と発声する。上記のように付属情報を多く利用すれば、細かい処理まで指定することができるようになるので1つのタグに多くの処理を関連付けする必要がなくなる。また、表示用言語では定義されていない様々な音声対話に関する処理を実行することができるようになるので、音声対話処理において必要十分な処理を実行することができ、音声対話処理を円滑に行うことができるようになる。
【0134】
また、上述した各実施の形態では、音声認識結果が正しいかどうかを確認するための音声出力の指示などに関しては、それらの指示のための専用のタグや属性は用いられていないが(「input」タグや「select」タグなどによって一連の処理が指示されるようになっていた)、そのような指示を行う特別のタグや属性(表示用言語で用いられているタグや属性が好ましいが、音声対話処理用言語などの他の言語で用いられているタグや属性であっても、新規のタグや属性を定義付けしたものであってもよい)を用いるようにしてもよい。
【0135】
さらに、上述した実施の形態では、処理用データを、表示用言語のみによって作成したり、表示用言語によるデータ内に音声認識用言語によるデータを付加して作成したりしていたが、他の言語によるデータや、新たに定義したデータを表示用言語に付加した構成とすることもできる。
【0136】
さらに、上述した実施の形態すべてにおいて、入力は音声となっているが、入力がDTMF信号であり、音声認識処理部は取得したDTMF信号に対応するキーを表す文字を返すものとしてもよい。
【0137】
さらに、上述した実施の形態すべてにおいて、処理用データは、入力より得た文字データをそのまま格納するように記述されているが、文字データに文字列処理等の演算を施した後に格納するように記述してもよい。
【0138】
なお、上述した各実施の形態では特に説明していないが、音声対話装置10,10a,10b,10cは、上述した各処理を実行させるための制御プログラム(音声対話プログラム)に従って動作している。この制御プログラムは、音もしくは音声による情報の入出力を行う音声対話処理を実行するための音声対話プログラムであって、コンピュータ(音声対話装置10,10a,10b,10c)に、処理を記述した処理用データにもとづいて音もしくは音声を発する処理と、処理用データにもとづいて入力した音もしくは音声を取得する処理とを実行させるプログラムである。なお、処理用データは、例えば、表示される情報や表示形式、入力の促進を指定するために用いられる表示用言語で記述されているデータとされる。また、例えば、処理用データは、表示される情報や表示形式、入力の促進を指定するために用いられる表示用言語に、音声対話処理を行う際の所定の指示を示す付属情報を表記するための付属言語が付加された言語によって記述されているデータとされる。
【0139】
【発明の効果】
以上のように、本発明の音声対話装置によれば、音もしくは音声を発する処理を行う音声出力処理部と、入力した音もしくは音声を取得する処理を行う音声入力処理部とを含み、処理を記述した処理用データにもとづいて、音もしくは音声による情報の入出力を実行する音声対話処理を行うことを特徴とするので、処理を記述した処理用データにもとづいて、音声対話処理を行うことができるようになる。
【0140】
音声入力処理部が、入力した音もしくは音声に対応する文字データを取得する音声認識処理部を含む構成とした場合には、音声認識処理において入力した音もしくは音声を示す文字データを取得することができる。
【0141】
音声認識処理部が、入力した音声を認識し、認識結果に応じて音声に対応する文字データを取得する構成とした場合には、音声認識処理において入力した音声を示す文字データを取得することができる。
【0142】
音声認識処理部が、入力した音をDTMF信号とし、対応するキーに対応する文字データを取得する構成とした場合には、音声認識処理において入力した音を示す文字データを取得することができる。
【0143】
音声入力処理部が、音声認識処理部によって取得された文字データを、処理用データによって特定される保存領域に保存する構成とした場合には、処理が記述された処理用データにもとづいて、音声対話処理における音声入力処理を行うことができるようになる。
【0144】
処理用データに従って画面表示を行う表示装置に対して、音声入力処理部によって取得された音もしくは音声を処理用データに従って処理することで得られた文字データにもとづいて、表示画面に情報表示を行うことを指示する音声表示連携部を備えた構成とされているので、音声対話処理にて音声入力された情報を、表示画面の表示情報に反映させることができる。
【0145】
処理用データに従って画面表示を行う表示装置に対して、音声入力処理部によって取得された音もしくは音声を処理用データに従って処理することで得られた文字データが示す選択結果にもとづいて、表示画面に情報表示を行うことを指示する音声表示連携部を備えているので、音声対話処理によって音声入力された選択結果を、表示画面の表示情報に反映させることができる。
【0146】
処理用データがvoiceXMLなどの音声処理用言語で記述されている場合には、表示処理用言語に近い音声処理用言語で記述された処理用データにもとづいて、音声対話処理を行うことができる。よって、多くの技術者が音声対話処理を行うための処理用データを作成することができるようになる。
【0147】
処理用データが、表示される情報や表示形式、入力の促進を指定するために用いられる表示用言語で記述されている構成と場合には、多くの技術者が音声対話処理を行うための処理用データを作成することができるようになる。
【0148】
処理用データが、表示される情報や表示形式、入力の促進を指定するために用いられる表示用言語に、音声対話処理を行う際の所定の指示を示す付属情報を表記するための付属言語が付加された言語によって記述されているように構成されている場合には、表示用言語だけでは設定することができない処理を指定して音声対話処理を実行させることができる。従って、表示用言語では定義されていないような処理を付属言語によって補うことができ、音声対話処理において必要十分な処理を実行することができるため、音声対話処理を円滑に行うことができるようになる。
【0149】
付属言語が表示用言語に付加された言語で記述された処理用データが、表示用言語で記述された表示処理用データに従って画面表示を行う表示処理手段によって、表示処理用データとして処理されるように構成されている場合には、処理用データが付属言語が表示用言語に付加された言語で記述されていても、表示処理用データとして正しく処理することができる。
【0150】
付属情報が、音声入力処理部が使用する辞書情報、音声入力処理部もしくは音声出力処理部が使用するデータの読み情報、音声出力処理部が発するガイダンス、音声出力処理部が音声を発する際に用いる音声情報を格納した出力音声格納ファイル、音声入力処理部が使用する入力待ち時間指定情報のうち、少なくとも1つを含むように構成されている場合には、表示用言語では定義されていない様々な音声対話に関する処理を付属言語にもとづいて実行することができるようになる。従って、音声対話処理において必要十分な処理を実行することができ、音声対話処理を円滑に行うことができる。
【0151】
表示用言語として、HTML、C−HTML、iモードHTML、HDML、WML、XHTMLの何れかが用いられるようにした場合には、広く用いられているHTML、C−HTML、iモードHTML、HDML、WML、XHTMLの何れかを用いて、音声対話処理を実行させるための処理用データを作成することができる。
【0152】
付属情報が、表示用言語として用いられるHTML、C−HTML、iモードHTML、HDML、WML、またはXHTMLの何れかの属性値として記述されているようにした場合には、広く用いられているHTML、C−HTML、iモードHTML、HDML、WMLの何れかの属性値を用いて、処理用データにおける付属情報を作成することができる。
【0153】
処理用データは、入力依頼を示す記述がなされている部分を含み、入力依頼を示す記述に従って、音声入力処理部が、入力した音もしくは音声を取得し、音声出力処理部が、音声入力処理部によって取得された音もしくは音声を処理用データに従って処理することで得られた文字データにもとづく音もしくは音声を発し、得られた文字データが正しいか否かを確認する入力確認処理を実行し、入力確認処理が実行されたあとに入力した音もしくは音声にもとづいて、得られた文字データが正しいか否かを判定する判定部を備え、音声入力処理部は、判定部によって得られた文字データが正しいと判定された場合に、得られた文字データを保存するように構成されているので、入力依頼を示す記述に従って取得した音もしくは音声の音声認識結果が正しいかどうかをユーザに確認することができ、誤った認識結果にもとづいて処理が続行してしまうことを防止することができる。
【0154】
処理用データに含まれている入力依頼を示す記述に従って、音声入力処理部が取得する音声が入力される前に、音声出力処理部が入力依頼を示す音声を発するように構成されているので、入力依頼を行ったあとに音声の入力を待つことができるようになる。
【0155】
処理用データは、選択依頼および複数の選択候補を示す記述がなされている部分を含み、選択依頼および複数の選択候補を示す記述に従って、音声入力処理部が、入力した音もしくは音声を取得し、音声出力処理部が、音声入力処理部によって取得された音もしくは音声を処理用データに従って処理することで得られた文字データにもとづく音もしくは音声を発し、得られた文字データが正しいか否かを確認する選択確認処理を実行し、選択確認処理が実行されたあとに入力した音もしくは音声にもとづいて、得られた文字データが正しいか否かを判定する判定部を備え、音声入力処理部は、判定部によって得られた文字データが正しいと判定された場合に、得られた文字データを保存する構成とされているので、選択依頼および複数の選択候補を示す記述に従って取得した音もしくは音声の音声認識結果が正しいかどうかをユーザに確認することができ、誤った認識結果にもとづいて処理が続行してしまうことを防止することができる。
【0156】
処理用データに含まれている選択依頼および複数の選択候補を示す記述に従って、音声入力処理部が取得する音声が入力される前に、音声出力処理部が選択依頼を示す音声を発するように構成されているので、選択依頼を行ったあとに音声の入力を待つことができるようになる。
【0157】
音声出力処理部が、選択依頼を示す音声を発する際に、選択候補を示す音声を発する構成とされているので、選択候補の通知を行ったあとに音声の入力を待つことができるようになる。
【0158】
処理用データは、表示用言語によって選択依頼および複数の選択候補を示す記述がなされている部分を含み、複数の選択候補をそれぞれ示す文字データと、音もしくは音声とを対応させた辞書を作成する辞書作成部を備え、音声出力処理部は、選択依頼を示す音声もしくは音を発する処理を実行し、音声入力処理部は、音声出力処理部による選択依頼に応じて発せられた音もしくは音声が入力した場合に、辞書作成部によって作成された辞書を用いて、当該入力した音もしくは音声に対応する文字データを取得する構成とされているので、複数の選択候補を示す文字データと音声とが対応付けされている辞書データをあらかじめ用意しておく必要をなくすことができる。
【0159】
発した音もしくは音声を通信ネットワークに接続された端末装置に向けて出力し、発せられた音もしくは音声を当該端末装置および通信ネットワークを介して入力することで、音声対話処理を実行するように構成されているので、遠隔地のユーザとの間で音声対話処理を行うことができるようになる。
【0160】
また、本発明の音声対話プログラムによれば、音もしくは音声による情報の入出力を行う音声対話処理を実行するための音声対話プログラムであって、コンピュータに、処理を記述した処理用データ(例えば、表示される情報や表示形式、入力の促進を指定するために用いられる表示用言語で記述されているデータ。また、例えば、表示される情報や表示形式、入力の促進を指定するために用いられる表示用言語に、音声対話処理を行う際の所定の指示を示す付属情報を表記するための付属言語が付加された言語によって記述されているデータ。)にもとづいて音もしくは音声を発する処理と、処理用データにもとづいて入力した音もしくは音声を取得する処理とを実行させることを特徴とするので、音声対話処理にて音声を発生する処理を行うための音声対話プログラムを表示用言語を用いて作成することができる、多くの技術者が音声対話プログラムを作成することができるようになる。
【図面の簡単な説明】
【図1】本発明の第1の実施の形態における音声対話装置の構成の例を示すブロック図である。
【図2】本発明の第1の実施の形態にて用いられる処理用データの例を示す説明図である。
【図3】本発明の第1の実施の形態における音声対話装置が実行する音声対話処理の例を示すフローチャートである。
【図4】本発明の第2の実施の形態における音声対話装置の構成の例を示すブロック図である。
【図5】本発明の第2の実施の形態にて用いられる処理用データの例を示す説明図である。
【図6】本発明の第2の実施の形態における音声対話装置が実行する音声対話処理の例を示すフローチャートである。
【図7】本発明の第2の実施の形態における表示部の表示状態の例を示す説明図である。
【図8】本発明の第3の実施の形態における音声対話装置の構成の例を示すブロック図である。
【図9】本発明の第3の実施の形態にて用いられる処理用データの例を示す説明図である。
【図10】本発明の第3の実施の形態における音声対話装置が実行する音声対話処理の例を示すフローチャートである。
【図11】本発明の第3の実施の形態における音声対話装置が実行する音声対話処理の例を示すフローチャートである。
【図12】本発明の第4の実施の形態における音声対話装置の構成の例を示すブロック図である。
【図13】本発明の第4の実施の形態にて用いられる処理用データの例を示す説明図である。
【図14】本発明の第4の実施の形態における音声対話装置が実行する音声対話処理の例を示すフローチャートである。
【図15】処理用データの他の例を示す説明図である。
【符号の説明】
10,10a,10b,10c 音声対話装置
11 音声対話処理部
12 音声認識部
13 処理用データ管理データベース
14 表示部
15 音声・表示連携部
16 辞書データ作成部
17 辞書データ管理部
Claims (26)
- 音もしくは音声を発する処理を行う音声出力処理部と、入力した音もしくは音声を取得する処理を行う音声入力処理部とを含み、
処理を記述した処理用データにもとづいて、音もしくは音声による情報の入出力を実行する音声対話処理を行う ことを特徴とする音声対話装置。 - 音声入力処理部は、入力した音もしくは音声に対応する文字データを取得する音声認識処理部を含む
請求項1記載の音声対話装置。 - 音声認識処理部は、入力した音声を認識し、認識結果に応じて前記音声に対応する文字データを取得する
請求項2記載の音声対話装置。 - 音声認識処理部は、入力した音をDTMF信号とし、対応するキーに対応する文字データを取得する
請求項2記載の音声対話装置。 - 音声入力処理部は、音声認識処理部によって取得された文字データを、処理用データによって特定される保存領域に保存する
請求項2から請求項4のうちいずれかに記載の音声対話装置。 - 処理用データに従って画面表示を行う表示装置に対して、音声入力処理部によって取得された音もしくは音声を処理用データに従って処理することで得られた文字データにもとづいて、表示画面に情報表示を行うことを指示する音声表示連携部を備えた
請求項1から請求項5のうちいずれかに記載の音声対話装置。 - 処理用データに従って画面表示を行う表示装置に対して、音声入力処理部によって取得された音もしくは音声を処理用データに従って処理することで得られた文字データが示す選択結果にもとづいて、表示画面に情報表示を行うことを指示する音声表示連携部を備えた
請求項1から請求項5のうちいずれかに記載の音声対話装置。 - 処理用データが音声処理用言語で記述されている
請求項1から請求項7のうちいずれかに記載の音声対話装置。 - 音声処理用言語は、voiceXMLである
請求項8記載の音声対話装置。 - 処理用データが、表示される情報や表示形式、入力の促進を指定するために用いられる表示用言語で記述されている
請求項1から請求項7のうちいずれかに記載の音声対話装置。 - 処理用データは、表示される情報や表示形式、入力の促進を指定するために用いられる表示用言語に、音声対話処理を行う際の所定の指示を示す付属情報を表記するための付属言語が付加された言語によって記述されている 請求項1から請求項7のうちいずれかに記載の音声対話装置。
- 付属言語が表示用言語に付加された言語で記述された処理用データが、表示用言語で記述された表示処理用データに従って画面表示を行う表示処理手段によって、表示処理用データとして処理される 請求項11記載の音声対話装置。
- 付属情報は、音声入力処理部が使用する辞書情報、前記音声入力処理部もしくは音声出力処理部が使用するデータの読み情報、前記音声出力処理部が発するガイダンス、前記音声出力処理部が音声を発する際に用いる音声情報を格納した出力音声格納ファイル、音声入力処理部が使用する入力待ち時間指定情報のうち、少なくとも1つを含む 請求項11または請求項12に記載の音声対話装置。
- 表示用言語として、HTML、C−HTML、iモードHTML、HDML、WML、XHTMLの何れかが用いられる
請求項10から請求項13のうちいずれかに記載の音声対話装置。 - 付属情報は、表示用言語として用いられるHTML、C−HTML、iモードHTML、HDML、WML、またはXHTMLの何れかの属性値として記述される
請求項11から請求項13のうちいずれかに記載の音声対話装置。 - 処理用データは、入力依頼を示す記述がなされている部分を含み、
前記入力依頼を示す記述に従って、
音声入力処理部が、入力した音もしくは音声を取得し、
音声出力処理部が、前記音声入力処理部によって取得された音もしくは音声を前記処理用データに従って処理することで得られた文字データにもとづく音もしくは音声を発し、前記得られた文字データが正しいか否かを確認する入力確認処理を実行し、
前記入力確認処理が実行されたあとに入力した音もしくは音声にもとづいて、前記得られた文字データが正しいか否かを判定する判定部を備え、
前記音声入力処理部は、前記判定部によって前記得られた文字データが正しいと判定された場合に、前記得られた文字データを保存する
請求項1から請求項15のうちいずれかに記載の音声対話装置。 - 処理用データに含まれている入力依頼を示す記述に従って、音声入力処理部が取得する音声が入力される前に、音声出力処理部が入力依頼を示す音声を発する
請求項16記載の音声対話装置。 - 処理用データは、選択依頼および複数の選択候補を示す記述がなされている部分を含み、
前記選択依頼および複数の選択候補を示す記述に従って、
音声入力処理部が、入力した音もしくは音声を取得し、
音声出力処理部が、前記音声入力処理部によって取得された音もしくは音声を前記処理用データに従って処理することで得られた文字データにもとづく音もしくは音声を発し、前記得られた文字データが正しいか否かを確認する選択確認処理を実行し、
前記選択確認処理が実行されたあとに入力した音もしくは音声にもとづいて、前記得られた文字データが正しいか否かを判定する判定部を備え、
前記音声入力処理部は、前記判定部によって前記得られた文字データが正しいと判定された場合に、前記得られた文字データを保存する
請求項1から請求項17のうちいずれかに記載の音声対話装置。 - 処理用データに含まれている選択依頼および複数の選択候補を示す記述に従って、
音声入力処理部が取得する音声が入力される前に、音声出力処理部が選択依頼を示す音声を発する
請求項18記載の音声対話装置。 - 音声出力処理部は、選択依頼を示す音声を発する際に、前記選択候補を示す音声を発する
請求項19記載の音声対話装置。 - 処理用データは、表示用言語によって選択依頼および複数の選択候補を示す記述がなされている部分を含み、
前記複数の選択候補をそれぞれ示す文字データと、音もしくは音声とを対応させた辞書を作成する辞書作成部を備え、
音声出力処理部は、前記選択依頼を示す音声もしくは音を発する処理を実行し、
音声入力処理部は、前記音声出力処理部による選択依頼に応じて発せられた音もしくは音声が入力した場合に、前記辞書作成部によって作成された辞書を用いて、当該入力した音もしくは音声に対応する文字データを取得する
請求項1から請求項17のうちいずれかに記載の音声対話装置。 - 発した音もしくは音声を通信ネットワークに接続された端末装置に向けて出力し、発せられた音もしくは音声を当該端末装置および前記通信ネットワークを介して入力することで、音声対話処理を実行する
請求項1から請求項21のうちいずれかに記載の音声対話装置。 - 処理用データは、少なくとも音もしくは音声の入出力に関する処理を実行させるための音声対話処理用データとして用いられる
請求項1から請求項22のうちいずれかに記載の音声対話装置。 - 音もしくは音声による情報の入出力を行う音声対話処理を実行するための音声対話プログラムであって、
コンピュータに、処理を記述した処理用データにもとづいて音もしくは音声を発する処理と、前記処理用データにもとづいて入力した音もしくは音声を取得する処理とを実行させる
ことを特徴とする音声対話プログラム - 処理用データは、表示される情報や表示形式、入力の促進を指定するために用いられる表示用言語で記述されている
請求項24記載の音声対話プログラム。 - 処理用データは、表示される情報や表示形式、入力の促進を指定するために用いられる表示用言語に、音声対話処理を行う際の所定の指示を示す付属情報を表記するための付属言語が付加された言語によって記述されている 請求項24記載の音声対話プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002186650A JP2004029457A (ja) | 2002-06-26 | 2002-06-26 | 音声対話装置、および音声対話プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002186650A JP2004029457A (ja) | 2002-06-26 | 2002-06-26 | 音声対話装置、および音声対話プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004029457A true JP2004029457A (ja) | 2004-01-29 |
Family
ID=31181943
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002186650A Pending JP2004029457A (ja) | 2002-06-26 | 2002-06-26 | 音声対話装置、および音声対話プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2004029457A (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010537276A (ja) * | 2007-08-16 | 2010-12-02 | ワベリンク コーポレーション | 音声を利用できるテルネットインターフェイス |
US10033797B1 (en) | 2014-08-20 | 2018-07-24 | Ivanti, Inc. | Terminal emulation over HTML |
JP2020136993A (ja) * | 2019-02-22 | 2020-08-31 | Necプラットフォームズ株式会社 | 設定装置、設定方法及び設定プログラム |
US11100278B2 (en) | 2016-07-28 | 2021-08-24 | Ivanti, Inc. | Systems and methods for presentation of a terminal application screen |
-
2002
- 2002-06-26 JP JP2002186650A patent/JP2004029457A/ja active Pending
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010537276A (ja) * | 2007-08-16 | 2010-12-02 | ワベリンク コーポレーション | 音声を利用できるテルネットインターフェイス |
US8930177B2 (en) | 2007-08-16 | 2015-01-06 | Crimson Corporation | Scripting support for data identifiers, voice recognition and speech in a telnet session |
US8930193B2 (en) | 2007-08-16 | 2015-01-06 | Crimson Corporation | Scripting support for data identifiers, voice recognition and voice input in a telnet session |
US9648083B2 (en) | 2007-08-16 | 2017-05-09 | Crimson Corporation | Scripting support for data identifiers, voice recognition and speech in a telnet session |
US10148734B2 (en) | 2007-08-16 | 2018-12-04 | Ivanti, Inc. | Scripting support for data identifiers, voice recognition and speech in a telnet session |
US10938886B2 (en) | 2007-08-16 | 2021-03-02 | Ivanti, Inc. | Scripting support for data identifiers, voice recognition and speech in a telnet session |
US10033797B1 (en) | 2014-08-20 | 2018-07-24 | Ivanti, Inc. | Terminal emulation over HTML |
US10873621B1 (en) | 2014-08-20 | 2020-12-22 | Ivanti, Inc. | Terminal emulation over html |
US11100278B2 (en) | 2016-07-28 | 2021-08-24 | Ivanti, Inc. | Systems and methods for presentation of a terminal application screen |
JP2020136993A (ja) * | 2019-02-22 | 2020-08-31 | Necプラットフォームズ株式会社 | 設定装置、設定方法及び設定プログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8572209B2 (en) | Methods and systems for authoring of mixed-initiative multi-modal interactions and related browsing mechanisms | |
US8909532B2 (en) | Supporting multi-lingual user interaction with a multimodal application | |
RU2349969C2 (ru) | Синхронное понимание семантических объектов, реализованное с помощью тэгов речевого приложения | |
CN104488027B (zh) | 声音处理系统 | |
US8775189B2 (en) | Control center for a voice controlled wireless communication device system | |
RU2352979C2 (ru) | Синхронное понимание семантических объектов для высокоинтерактивного интерфейса | |
US20030144846A1 (en) | Method and system for modifying the behavior of an application based upon the application's grammar | |
TW200813812A (en) | Methods and apparatus for improved voice recognition and voice recognition systems | |
US20050010422A1 (en) | Speech processing apparatus and method | |
EP1215656A2 (en) | Idiom handling in voice service systems | |
JP2004021920A (ja) | 情報処理装置、情報処理方法、プログラム、記憶媒体 | |
CN117809641A (zh) | 一种终端设备及基于查询文本改写的语音交互方法 | |
JP2004029457A (ja) | 音声対話装置、および音声対話プログラム | |
JP2003157095A (ja) | 音声認識装置及びその方法、プログラム | |
JP4749437B2 (ja) | 音声文字変換装置、音声文字変換方法及び音声文字変換プログラム | |
JP2003140690A (ja) | 情報システム、電子機器、プログラム | |
JP2007183516A (ja) | 音声対話装置及び音声認識方法 | |
JP3614116B2 (ja) | トランスクリプション装置、トランスクリプション方法、トランスクリプションプログラム、およびそのプログラムを記録した記録媒体 | |
JP2003202890A (ja) | 音声認識装置及びその方法、プログラム | |
JP2005038067A (ja) | 音声入力機能を備えたフォームを提供する電子フォームシステム | |
JP7132206B2 (ja) | 案内システム、案内システムの制御方法、およびプログラム | |
JP2005266009A (ja) | データ変換プログラムおよびデータ変換装置 | |
JP2003228393A (ja) | 音声対話装置及び方法、音声対話プログラム並びにその記録媒体 | |
JP2007272123A (ja) | 音声操作システム | |
JP2006133296A (ja) | 音声対話装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20040426 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20051116 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20051116 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060822 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20061023 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20071009 |