JP4000828B2 - 情報システム、電子機器、プログラム - Google Patents
情報システム、電子機器、プログラム Download PDFInfo
- Publication number
- JP4000828B2 JP4000828B2 JP2001340577A JP2001340577A JP4000828B2 JP 4000828 B2 JP4000828 B2 JP 4000828B2 JP 2001340577 A JP2001340577 A JP 2001340577A JP 2001340577 A JP2001340577 A JP 2001340577A JP 4000828 B2 JP4000828 B2 JP 4000828B2
- Authority
- JP
- Japan
- Prior art keywords
- voice
- recognition
- electronic device
- related data
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Telephone Function (AREA)
Description
【発明の属する技術分野】
音声を入力する電子機器等に関する。
【0002】
【従来の技術及び発明が解決しようとする課題】
従来から種々の電子機器において、人の言葉を認識して、その認識結果に応じた動作を行う機器がある。それらは、機器毎に言葉の認識モジュールが異なるため、機器毎に認識率が異なる。そのため機器を買いかえる毎に、言葉の認識率が変動する。このような機器には言葉の学習機能がある場合があるが、学習結果は移植できないため、機器を買いかえれば、また一から学習させなければならない。そのためユーザはそれぞれの機器毎に言語認識のための学習をさせる時間が必要になる。
【0003】
そこで本発明は、認識のための学習結果を他の電子機器で利用することのできる電子機器等を提供することを目的とする。
【0004】
【課題を解決するための手段及び発明の効果】
上述した問題点を解決するためになされた請求項1に記載の情報システムによれば、第1の電子機器における特定ユーザに対応する音声認識関連データを第2の電子機器が当該特定ユーザの音声の認識を行う際に第2の電子機器へ送信し、これを第2の電子機器で利用して音声認識を行うことができる。したがって例えば第2の電子機器が音声認識の学習機能を備えない場合であっても、ユーザの音声の認識率を高めることが可能となり、第2の電子機器に対してユーザは所望の機能を実現させることが容易にできるようになる。また、学習機能を備える場合であっても、他の電子機器で学習された音声認識関連データを、ユーザが用いる別の機器に移動可能であるので、別の機器でもユーザの言語認識率が落ちないようにすることができる。すなわち、ユーザはそれぞれの機器毎に言語認識のための学習をさせる時間が必要なくなり、使い勝手のよい電子機器を実現できる。なお、第1の電子機器、第2の電子機器は、例えば車載機器、PC、電話、家電製品等の機器とすることができる。
【0005】
そして例えば第1の電子機器は請求項2のように構成することができる。このようにすれば、特定ユーザの音声の認識結果に基づいて変更(更新)された特定ユーザに対応する音声認識関連データを外部の機器、例えば第2の電子機器が特定ユーザの音声の認識を行う際にこの第2の電子機器に送信することができる。このようにすれば、一つの機器で徹底的に学習させてそのデータを使い回すこともできる。また従来の電子機器はそれぞれの電子機器がそれぞれ別々に認識の学習をしていたため、機器間で認識精度が異なっていたが、認識精度をそろえることも容易にできる。
【0006】
また、音声の認識結果に基づく音声認識関連データの変更は、例えば、入力された音声から特徴量を求めてその特徴量に基づいて音声認識関連データを変更することもできるし、ユーザに対して認識結果と報知して、ユーザから入力された認識結果に対する評価に基づいて変更することもできる。例えば、音声の認識結果を表示したり、音声で出力して、正しいか否かを入力させる。このようにユーザからの評価に基づいて音声認識関連データを変更すれば、よりユーザの意思を反映した認識を第2の電子機器のような外部の機器で行うことができる。
【0007】
また、電子機器がユーザの音声の認識結果を学習する場合、ユーザの声質、機器の機能によっては、ユーザが何度認識させようとしても認識結果が不充分である場合が考えられる。そこで請求項3のようにするとよい。例えば、音声認識関連データ変更手段は、音声で入力された結果と、音声以外の方法で入力された結果を比較し、音声の認識がしづらい音を、音声以外の方法で入力された結果と対応付けしたデータとして記録し、次回の、同じ(同様な)音声が発音された場合の音声認識時に利用するようにしてもよい。
【0008】
なお、第1の電子機器は、携帯可能に構成するとよい。携帯可能であればユーザが常に携帯して利用することができ、ユーザの音声の入力頻度を高められる。このように音声認識関連データを記憶する機器として、音声の入力機能を装備している音声入力機会の多い機器を用いて、音声認識の学習時間を増やし、認識率を高めるとよい。このようにすることで音声認識関連データをよりユーザの特性(個性)を反映したものとすることができ、例えば第2の電子機器における認識率を高めることができる。
【0009】
また、音声は通話音声を入力するとよい。すなわち例えば電話等の通話音声を取得するようにする。このようにすれば、ユーザが音声認識データの変更、すなわち学習を明示的に行うことなく、通話音声から自動的に学習がなされる。したがって、学習の手間を大幅に削減することができる。特に、第1の電子機器の例として携帯電話などがあげられる。携帯電話に第1の電子機器としての機能を組み込むことで、携帯電話での通話中の音声に基づいて音声認識関連データが変更され、その変更された音声認識関連データを用いて第2の電子機器は音声認識を行うことができる。このような携帯電話は一般的に個人的に利用されるものであるため、通話音声はそのユーザの個性を反映するものとなる。特に、電話でのくだけた表現や、方言のような特殊な言葉の学習時間を増やすことができるため、認識性能を向上できる。
【0010】
さらに、音声認識関連データを請求項4に示すように送信先の機器の種別に適合した音声認識関連データを送信するとよい。例えば、音声認識関連データの送信に先立って、送信先の機器に種別を問い合わせてもよいし、予め送信先の機器の種別を登録しておき、その登録された種別に基づいて音声認識関連データを送信してもよい。また送信先の認識手段に適合した音声認識関連データになるように自己の音声認識関連データを変換してもよい。
【0011】
また音声認識を行う場合、外部の機器が、電話のようにあらゆる言語、語彙が用いられる機器もあれば、家電機器やオーディオ機器、ナビゲーション機器のように限られた語彙の認識ができればよい場合もある。よって、どの機器にも同じ語彙の音声認識機能を持たせるのは、機器の規模が大きくなり不効率である。したがってその機器に適した音声認識関連データを送信するとよい。
【0012】
そして、さらに音声認識関連データに加え、請求項5に示すように、音声認識関連データを利用する処理を実現するためのプログラムを送信するようにしてもよい。このようにすることで、予め音声認識関連データのデータ形式等を外部機器の音声認識関連データのデータ形式とあわせることなく、外部の機器に送信した音声認識関連データを利用した処理を、容易に実現させることができる。例えば、機器毎の移植性を高めるため、音声認識エンジンが動作する標準OS(カーネル)を設定するとともに、機器のメモリサイズ等リソースのサイズに応じて言語認識エンジンのコンポーネントを変更して、メモリのサイズにあった認識エンジンを構成できるようにするとよい。またさらにどのような機器にも言語認識エンジンを移動できるように、認識機能を持つ機器に、認識エンジン移植用I/F(インターフェース)を持たせてもよい。
【0013】
そして、音声認識関連データの送信は、常に行うようにしてもよいが、請求項6に示すように所定のアクションに応じて行うようにするとよい。所定のアクションとしては、例えばユーザからの送信指示の入力があった場合や、所定の時間毎のタイマー割り込み等や、請求項7に示すように送信対象の機器との距離が所定範囲内になった場合などがある。請求項10のようにすれば、送信対象の機器に近づくと自動的に音声認識関連データを送信する。したがって、送信対象の機器に対して音声認識で所定の機能を実現させる場合に、この電子機器を持った者が送信対象の機器に近づくだけで、認識率を高めることが可能となる。
【0014】
また、例えば音声認識機能を設けた携帯電話における音声認識関連データを定期的にデータを管理する外部の機器に送信して保存させてもよいし、音声認識関連データが変更された際に送信して保存させるようにしてもよい。
なお、音声の認識は、できるだけ簡単にできるようにするのが望ましく、例えば請求項8のようにして行うとよい。またこの過程でユーザからの評価に基づき音声認識関連データを変更することでさらにユーザの特性を加味した認識を行うことが可能となる。
【0015】
例えば、機器がユーザの要求を音声認識で確認する場合、ユーザ音声が認識された後は、例えばそれを復唱し、要求されたことを実行するが、認識されない場合は例えば「わからない」という回答を返すだけの電子機器が従来多かった。そのたびにユーザは、同じ言葉を何度も話すというわずらわしいことをする必要があるが、請求項8のようにすれば、予測結果が報知され、その予測結果に対する評価を入力できるため、何度も同じ言葉を話さなくて済む。例えば、ユーザの音声の認識結果を出すとき、認識結果の正解率を、音声認識の途中段階の結果から求め、正解率が低くなるに従い、複数の認識候補を選択して、ユーザに提示するようにしてもよい。この場合、認識候補は例えば樹状にメモリ上に配置し高速に検索できるようにするとよい。このようにすれば、ユーザは、何度も同じ言葉を話す必要がなくなる。
【0016】
一方、例えば第2の電子機器のような音声認識関連データの送信先の機器は、請求項9のように構成することができる。請求項9に記載の電子機器によれば、受信した特定ユーザに対応する音声認識関連データを利用して特定ユーザの音声の認識を行い、その認識結果に基づき所定の機能が実現される。したがって、所定の機能を音声認識によって正しく実現させることができる可能性が高くなり、ユーザにとって使い勝手のよい電子機器となる。
【0017】
なお複数のユーザが使用する場合は、音声の特徴を判定して、自動的にユーザを認識し、そのユーザの言語に適合する認識モジュールに切り替えるように制御するとよい。例えば電子機器がユーザ情報(会話)を解析して得られた声紋+性質などに基づくデータグループを用いて、ユーザ認証を行うようにしてもよい。また、複数のマイクを電子機器に接続し、音声認識関連データと複数の音声入力マイクを1対1で対応させるようにしてもよい。
【0018】
こうした音声認識関連データには有効期限データを添付し、請求項10に示すようにして、有効期限データに基づいて音声認識関連データを利用する期間を限定するとよい。例えば有効期限の経過後に受信した音声認識関連データを削除するとよい。例えば、ユーザが音声を認識させたい機器がユーザのテリトリ外(管理外など)にある場合、その機器に対して、自己のテリトリ内の(管理する)機器で学習した音声認識関連データを移動して、ユーザの音声認識率を高める。例えば、テリトリ外へ移動された音声認識関連データにはユーザに関連するデータIDと利用有効期限を設け、有効期限が過ぎるとそのデータを無効化する。無効化したユーザの音声認識が必要な場合、例えば、データIDを基に新規データを自動的に取得できるようにしてもよい。
【0019】
そして音声認識関連データとしては、例えばユーザの発生音(発音の特徴、イントネーション、母音、子音の周波数帯域等)とそれに対応する語彙などを利用することができる。また請求項11に示すようにして、定型文の認識を容易にすることができる。また、ユーザが話した言葉を機器が認識した場合に、その単語が、名詞、動詞、形容詞、助詞等を分類して、ユーザの目的に合致した制御を行うようにしてもよいし、各品詞を分類しその活用形まで対応付けを行うことで、ユーザの意図を把握するようにしてもよい。
【0020】
また、音声の入力が中断した場合には、請求項12に示すようにして、予測した言葉を報知するようにしてもよい。ユーザが話した言葉を認識する場合、例えばテキストとして認識する。もし、ユーザが話す言葉を途中で止めると、音声認識機能はその音だけを認識するため、ユーザが何を意図しているかを機器が把握できない。この場合は、従来の機器は、例えば「わからない」という回答を返すだけのものが多い。このような機器では、そのたびにユーザは、同じ言葉を何度も話すというわずらわしいことをする必要がある。そこで、請求項12に示すようにして、例えば、ユーザが途中まで話して入力が中断したとき、話されたところまでをそのまま発音して、ユーザが会話を中断したかどうかをユーザを気にかける言葉とともにユーザに問い合わせる。ユーザの返事がなければ、その後、中断した言葉の後に何が使われるかを、以前に中断した言葉データ履歴(話し方の癖データ)から検索し、中断した後の言葉をいくつかの候補から選択して、ユーザに問いかけを行う(ユーザとの会話が不自然に中断しないようにする)。例えば、「美しい花はどこで...」という入力で中断された場合、「美しい花はどこ買えるのだろうか?」や「美しい花はどこで咲いているのだろうか?」などと予測結果を報知する。
【0021】
なお、請求項2〜12は、認識対象が音声の場合であるが、請求項13に示すように認識対象を所定の言語表現としてもよい。例えば、音声以外にも、身振り、手振り(例えば手話)、手書き文字などでもよい。このようにした場合、例えば請求項2は、音声及び通話音声を所定の言語表現に代えて「特定ユーザの所定の言語表現を入力する言語表現入力手段と、前記特定ユーザの言語表現の認識結果から割り出した特徴量に基づく言語表現認識関連データを利用して前記言語表現入力手段から入力された前記特定ユーザの言語表現の認識を行う認識手段と、前記認識手段によって認識された言語表現の認識結果を報知する報知手段と、前記報知手段によって報知された認識結果に対する評価を入力する入力手段と、前記入力手段によって入力された評価と前記認識手段によって認識された言語表現から求めた特徴量に基づいて前記特定ユーザに対応する言語表現認識関連データを変更する言語表現認識関連データ変更手段と、前記特定ユーザに対応する前記言語表現認識関連データを、前記言語表現認識関連データを利用して言語表現認識を行う外部装置が前記特定ユーザの言語表現の認識を行う際に前記外部装置に送信する送信手段とを備えることを特徴とする電子機器。」となる。請求項3〜12も同様である。
【0022】
なお、請求項14に示すように、請求項2〜13のいずれかに記載の電子機器における各手段としての機能をコンピュータシステムにて実現する場合、例えば、コンピュータシステム側で起動するプログラムとして備えることができる。このようなプログラムの場合、例えば、フレキシブルディスク、光磁気ディスク、CD−ROM、ハードディスク、ROM、RAM等のコンピュータ読み取り可能な記録媒体に記録し、必要に応じてコンピュータシステムにロードして起動することにより用いることができ、また、ネットワークを介してロードして起動することにより用いることもできる。
【0023】
また、請求項1と同様に、請求項15のように情報システムを構成することができる。
【0024】
【発明の実施の形態】
以下、本発明が適用された実施例について図面を用いて説明する。なお、本発明の実施の形態は、下記の実施例に何ら限定されることなく、本発明の技術的範囲に属する限り種々の形態を採りうることは言うまでもない。
【0025】
図1は、実施例の情報システムとしてのモバイルAIシステム1の構成を示す図である。モバイルAIシステム1は、携帯情報処理機10と、外部機器20とで構成され、携帯情報処理機10と外部機器20とは電話網やインターネット等の通信システム30によって接続可能に構成されている。
【0026】
携帯情報処理機10は、携帯電話やPDA等であり、ユーザが話す言葉を外部に送信する電話機能をもち、報知手段としての音声を出力するためのスピーカ、音声入力手段としての音声を入力するためのマイクロホン、送信手段としての発着信・パケット通信などの制御回路、画像を入力するためのCCDカメラ、入力手段としての文字等を入力するためのキーボード、タッチパネル、操作ボタン、携帯情報処理機10の位置を測定するためのGPSレシーバ等が装備されている。また、ユーザへ表示を行うためのディスプレイ(例えばLCD、EL,有機EL等で構成される)が備えられており、種々の情報を表示し、CCDカメラの画像表示やTV電話のモニタとしても使用できる。さらに、携帯情報処理機10は、ユーザを特定するための情報等を記憶したICカードから情報を読み取るためのICカードリーダを装備している。
【0027】
携帯情報処理機10は、これらの装置の制御を行い、各種の機能を実現するための処理を行う制御回路と、データを記憶するためのメモリを備え、ユーザの操作に基づき、制御回路がこれらの装置を制御して必要なデータの読み書き、記憶、各種処理等を行う。
【0028】
こうした携帯情報処理機10の通信機能により外部へ送信されたデータは、中継局等の通信システム30を経由して、家や会社、車両、その他に置かれたPCや家電製品、ATMや自動販売機、種々組み込み機器などの外部機器20によって受信される。このように送信されるデータの宛先は、機器に設定されたインターネットのIPアドレスやユーザが独自に設定したユーザアドレス等を用いて指定する。外部機器20には、受信手段としての通信回路と、音声入力手段としてのマイクと、音声認識手段及び機能実現手段としての制御回路を備える。
【0029】
そして、携帯情報処理機10の制御回路では、通話中の音声の認識処理を常に行い、音声認識により得た結果を分析して、ユーザの発生音(発音の特徴、イントネーション、母音、子音の周波数帯域等)、使用する語彙、これらの対応関係等から音声認識に利用可能なユーザの特徴を割り出して音声認識関連データとして記憶する認識手段及び音声認識関連データ変更手段としての処理を行う。
【0030】
こうした音声認識関連データとメモリに記憶された個人情報とを含む情報である認識モジュールは、通信システム30を介して外部機器20に対して送信することができる。
このような認識モジュールの外部機器20への転送、移動について図2を参照して説明する。
【0031】
図2に示すように、携帯情報処理機10は、ユーザAの通話音声を認識して、ユーザAの特徴をメモリに記憶する。外部機器20は、ユーザAの持つ携帯情報処理機10にユーザAを認識するためのデータの使用依頼を行い、認証を行い、認証が成功すると、携帯情報処理機10からユーザ認識に必要なデータとして認識モジュールを受信する。
【0032】
このようにして認識モジュールを受信した外部機器20はこの認識モジュールを利用して音声認識を行う。認識モジュールには、ユーザAの発生音や使用する語彙、これらの対応関係等の情報が含まれる。したがってユーザAが外部機器に対して音声認識で文字や指示を入力する場合の認識率を高めることができる。よって外部機器20はユーザAの音声をより確実に認識できるようになる。また認識モジュールにはユーザAの特徴量を含むためユーザAの個人認証等に用いることもでき、セキュリティの確保のために利用することもできる。
【0033】
なお、携帯情報処理機10は、認識モジュール全体あるいは認識モジュール内の個々のデータについて有効期限(設定時間)情報を添付しておき、外部機器20がこの有効期限情報に基づいて、設定時間が経過の経過や、設定された日時になった場合に自動的にそのデータを消去する。ここで、設定時間は、外部機器20の用途等に応じて変更するとよい。例えば外部機器20が家電製品のようにある程度長時間使用される機器であれば設定時間を日単位で設定し、自動販売機のような機器であれば分単位で消されるように設定する。また、音声認識によるセキュリティ確保の目的で認識モジュールを使用する場合は、月や年単位でデータ変更を行うようにしてもよい。
【0034】
なお、上述した例では、携帯情報処理機10は、外部機器20からのデータの使用依頼に基づいて認識モジュールを外部機器20に対して送信することとしたが、例えば、携帯情報処理機10から外部機器20に対してデータの送信依頼を行い、外部機器20に対してデータを送信するようにしてもよい。
【0035】
また、通信システム30に接続されたサーバやPCに、認識モジュールを送信し、サーバやPCがこれらの情報を蓄積して、外部機器20に対して蓄積した認識モジュールを送信するようにしてもよい。すなわち、携帯情報処理機10から直接的に外部機器20へ認識モジュールを送信してもよいし、PCやサーバ等を介して間接的に外部機器20へ送信するようにしてもよい。例えば、ユーザAの解析、学習結果の蓄積、管理を情報蓄積センタ等の機関が管理するサーバで行うようにしてもよい。
【0036】
次に、携帯情報処理機10において、認識結果をもとに事前動作確認を行う例について,図3〜図5を用いて説明する。ここで、事前動作確認とは、ユーザが発した言葉が携帯情報処理機10において認識できない場合や誤認識した場合、ユーザはどのような目的を持っていて、それは具体的にどのような処理を期待しているかをユーザに確かめるために行われる確認である。これにより、ユーザの意図に反した動作を行わないようにして、機器の動作効率を改善させるとともに、ユーザの特性を記録して認識率の改善を図ることができる。また、ユーザの言い間違いや勘違いによる機器の動作ミスを未然に防止することができる。
【0037】
図3は、携帯情報処理機10が、認識語彙に基づく音声認識によって所定の動作を行う機器であり、かつ、この動作の事前に事前動作確認を行い、認識できない部分をユーザに問い合わせて認識語彙を増加させるとともに、その結果を認識改善に役立てるようにした場合の概略フローを示す図である。
【0038】
図3のS100では、ユーザからの入力があるかをチェックし、情報を収集する。
続くS110では、S100で、入力された情報を機器が管理するデータ構造に変更して記憶する。すなわち、音声データをテキストに変更する操作を行う。
【0039】
そしてS120では、テキストデータを解析して、テキストデータからユーザの意向を判定する。すなわち、命令、依頼、質問、その他から機器がすべき動作を決定する。
S130では、ユーザの意向に添えるソフト、ハードの条件を検証する。ユーザの意向確認と、動作シミュレートを行う。ここで語彙増加、認識条件向上用の設定値の調整、マッチングデータを収集、蓄積する。
【0040】
S140では、検証の結果、動作可能と判定されると、実際に動作することを確定する。
S150では、動作を行う。
図3の概略フローの詳細を図4及び図5に示して説明する。
【0041】
図4のS200では、入力されたデータから、ユーザが機器に対して入力(会話)を行おうとしているか否か判定する。すなわちユーザの音声の有無の検知、背景雑音の低減等の処理結果を常時出力する。ユーザの入力(会話)があれば確実にそれを認識処理に移行できるようにする。
【0042】
S210では、上記出力結果から、会話があるか否かを判定する。会話が無いと判定した場合は(S210:NO)、S200へ戻る。会話が有りと判定すると(S210:YES)、会話音声の切り出しを行う(S220)。
S230では、適宜切り出した会話音声をデジタルデータに変換し、S240ではさらにそのデータを認識のためのデータに変換する。
【0043】
S250では、変換されたデータに対して音声認識処理(音声マッチング)を行い、S260でテキストデータに変換する。また、音の大きさ、抑揚データ等も合わせて解析する。
S270では、このテキストデータの単語の並びをもとに文の構造を文法的に分類する。
【0044】
S280では、テキストデータから単語を抽出し、それらを品詞(名詞、動詞、助詞、形容詞等)にわける。
S290では、S280で抽出された単語に対し、それぞれ品詞を類別するID(データタイプタグ)を付け、S300で記憶する。
【0045】
S310では、各単語につけられた品詞の矛盾や、テキストとして認識できたが意味が通らない単語(認識データ辞書にはないもの)であるかをチェックする。問題がなければ(S310:NO)、図5のS390へ進む。一方、単語に矛盾がある場合(S310:YES)、S320へ移行しユーザに矛盾の有る単語を示して、再入力を依頼する。ユーザが再入力するのを待ち(S330)、入力された場合(S330:YES)、データの認識を行う(S350)。
【0046】
S360では、入力データを解析し、使用される単語がデータ辞書にあるか否か判定する。
認識されたデータに矛盾がないかを再度チェックし(S360)、まだ、矛盾があれば(S360:YES)、ユーザにそのデータを登録するかを聞き(S370)、正しい語を入力するよう依頼する。ユーザはそこで代替の語を入力すれば、音データと代替語を関連付けて保存する(S380)。
【0047】
このように入力データが認識辞書に無い場合(理解できない場合と称する)、ユーザへ理解できない単語を復唱あるいは表示にて知らせる。ユーザはそれにより理解されなかった単語を入力する。入力結果は解析され、理解できるか否かが判定される。そして、この部分で機器は入力された単語を認識するための必要データを記憶し、同じユーザの入力に対し、認識候補を増やして認識率を向上させることができる。ここで必要なデータとは、基本音素データ、音素変動パラメータ、抑揚、速度、選択語彙の変化が記憶される。
【0048】
ユーザが設定時間何もしない場合は(S370:NO)、データに矛盾があるためそれ以上の処理ができないので、開始画面へ移動する(S200へ移行する)。
単語レベルで矛盾が無くなると次に、図5のS390で、認識されたテキストのメッセージタイプを分類する。まずテキストから動詞を探し、次に動詞の前後関係からメッセージタイプを決定する。機器はそのメッセージタイプに対応できるかを判定する(S400)。
【0049】
対応できないと判定すると(S400:NO)、ユーザにメッセージタイプの再確認を行う(S410)。再確認では、ユーザにメッセージタイプの入力を促すための画面表示を行う。そして入力内容がどのメッセージタイプかをチェックする(S420)。
【0050】
メッセージタイプの再チェックを行ってもそれがわからないと判定されると(S420:NO)、対応できない旨の表示と、対応できない理由や、入力に関する推奨項目を表示する(S440)。たとえば、メッセージタイプを明確にするための入力の仕方の案内を行うとよい。例えば、質問なら「・・か? ですか?」、依頼なら「「・・してほしい」の語尾を使ってください」等の表示、または音声の出力を行う。
【0051】
テキストのメッセージタイプに対応できると判定されると(S400:YESまたはS420:YES)、そのメッセージタイプに入れられた単語を解析し、そのメッセージの処理を行うためのリソースの有無をチェックする。
そこでリソース不足と判定されると(S430:YES)、前述のS440の対応不可の処理に移る。一方リソースが機器内部にあれば(S440:NO)、それらからアプリの動作内容を設定する(S450)。
【0052】
アプリの準備が完了すると(S460:YES)、動作内容をユーザに事前に伝えて動作を行う(S480)。
以上の説明は、携帯情報処理機10が、機器内部のアプリモジュールを構成して、認識およびユーザの要求に答える方式の手順である。機器内部にリソースが十分ある場合はこれでよいが、機器がリソースを保持していない場合、機器はユーザ要求に対応できないという結果になる。そのため、内部に保持するリソースでは不充分の場合、外部から通信を用いて不足するリソースを収集してもよい。
【0053】
図6及び図7は、このようにして携帯情報処理機10で学習された認識モジュールをユーザの携帯情報処理機10から直接、外部機器20へ転送し、外部機器20が受信したデータを使って、ユーザの音声を外部機器20が認識する手順を示す。
【0054】
図7に示すように、ユーザが外部機器20へ音声にて入力を行いたい場合、携帯情報処理機10には依頼のための命令を音声で入力するか、その他、携帯情報処理機10に備えた、CCD,タッチパネル、スイッチ等から外部機器20の利用の指示を入力する。ユーザが利用できる外部機器20は、携帯情報処理機10の表示画面にリストアップされており、ユーザが利用したい外部機器20を選択して、指示が入力されると、携帯情報処理機10は外部機器20へ外部機器利用依頼を送る。
【0055】
携帯情報処理機10は選択された外部機器20のアドレスまたはID(インターネットIP)等を用いてその機器に通信アクセスを行う。(TCP/IPプロトコルなどが用いられる。)
外部機器20は、利用依頼を受信すると、携帯情報処理機10に認識モジュールの利用を依頼する。すなわち、外部機器20は常時他の機器からのアクセスを待ち受け、自分のアドレスまたはIDが呼ばれると、呼んだ相手に対し自分のアドレスと機器タイプ等の応答データを返す。また、外部機器20に言語認識機能がある場合、携帯情報処理機10に認識関連データ(認識モジュール)の送信を依頼する。
【0056】
携帯情報処理機10が外部機器20からこの依頼を受けると、外部機器20へ認識関連データを送る。
外部機器20は認識関連データを受信し、そのデータのセットアップが完了すると、ユーザへ音声(言語)入力するよう促す。これには外部機器20の持つディスプレイを用いてもよいし、携帯情報処理機10にデータを送信して携帯情報処理機10のディスプレイにデータを表示させるようにしてもよい。
【0057】
ユーザが音声入力を行うと、外部機器20は認識関連データを用いて認識を行い、入力に応じた応答を行う。例えば外部機器20で、図4のS200〜S300の処理によって音声認識を行った後、図5のS390〜S480の処理を行うことにより、所望の動作を外部機器20にさせることができる。
【0058】
ユーザが外部機器20の利用完了を外部機器20に伝えると、外部機器20は、設定時間後にデータを削除する。
こうした音声の認識の際には、予め定義されたメッセージタイプに基づいて図5のS390〜S480で述べた処理を行うことで認識率を高めることができる。
【0059】
図8は、ユーザが携帯情報処理機10へ音声で依頼する場合のメッセージタイプの例である。このように、例えばいつ(When),なにを(What),どうする(How)という順にしたメッセージタイプを定義することができる。
図9は、メッセージタイプを決めるための処理ステップと、ステップ毎に用いるパラメータ項目を示す。このパラメータ項目は、認識モジュールに含まれる項目である。メッセージタイプを決める処理は、音声認識、言語解析、言語翻訳、メッセージタイプの決定の手順で行う。
【0060】
音声認識では、基本音素、音素変動パラメータ、抑揚、速度、語彙等のパラメータを用いて認識を行う。
言語解析では、語彙辞書、メッセージタイプ辞書、文法辞書等を用いて解析を行う。
【0061】
メッセージタイプの決定には、これらのパラメータや辞書が、認識エラーの訂正のプロセスに反映される。
図10は、言語認識の結果からメッセージタイプをどのように決定するかを示すフローを示す。この図は、ユーザが「今、エンジンをかけてくれないか?」と車両に搭載された外部機器20に音声入力を行い、それがテキストに変換された場合の処理を示す。
【0062】
メッセージタイプは、テキストを以下の手順で処理することで決定される。
テキストの読み出しを行い(図8のS500)、テキストを所定の条件により単語単位に分割する。たとえば、音の区切りの時間、助詞と名詞と助詞の区別、動詞の類別を行う。「今、エンジンをかけてくれないか」は、以下のようになる。
【0063】
【表1】
【0064】
ここで、ユーザが音声認識機器に話し掛ける順序を、以下のようにすることをルールとして決めておくと、音声認識結果からメッセージタイプを判定することが容易になる。
話し掛ける順序のルール
1.最初に、時間、タイミングを言う。
2.次に目的語(通常操作したい対象の名詞)を言う
3.次に目的語に対しどのような操作をするかを言う
4.疑問、命令、依頼、問合せ等の優先度を示す動詞を加える
【0065】
次に、時間を示す単語があるかをチェックする(S510)。上記の例では、「今」という時間を設定している。もし、時間を示す単語が無いと判定された場合は(S510:NO)、次の単語の解析を行う(S730)。上記の話し掛けるルールでは目的語が来るはずなので、「を」という助詞とその前の単語の有無をチェックする。目的語が有れば(S730:YES)、その名詞と属性を判定する(S740)。
【0066】
ここで、名詞の検索の際にはユーザがいる環境を考慮して検索を行う。たとえば車両内であれば、車両に設置した車載機器関連の名詞が優先的に検索される。ユーザがどこにいるかは、例えば携帯情報処理機10が周囲の外部機器20とDSRC(短距離通信)等の通信を用いて呼びかけを行い、その応答により周囲に何が存在しているかを判定して、ユーザのいる環境を特定する。携帯情報処理機10は、通信電力を変更して、DSRCの通信到達距離を変更できるようにすることが望ましい。そうすると携帯情報処理機10の周囲何mにどのような機器があるかを判定できる。
【0067】
また、目的語の名詞に対し、それぞれどのような操作が行われるかを、予め決めておき、操作に関して同義語をグループ化しておく。また、目的語自体の同義語もグループ化しておく。例えば、次のようにする。
■エンジンを: かける 動作する 動かす 作動する とめる 切る 停止する スタート(する)
■エンジン/イグニッション/キー
目的語の判定の後には、動詞があるか否かをチェックする。動詞がある場合は、その動詞が目的語と関連する動詞か否かチェックする。また、動詞に付属する助動詞から、ユーザの優先度を判定する。
【0068】
動詞が目的語と関連すると判定されれば、時間、目的語、動詞、優先度が判定できるため、ユーザの意向を仮に判定できる。判定された結果は、ユーザに音声や文字の表示で確認が行われる(S590)。
ユーザがそれに対しOKかどうかをチェックし(S600:YES)、OKであれば、メッセージタイプを決定する(S610)。
【0069】
分岐するフローにおいて、時間、目的語、動詞、優先度の4つの項目の内、わからないものが1つであれば、そのわからない品詞をユーザに尋ねる(S630,S700,S780)。
2つ以上わからなければ、ユーザに「もう一度お願いします」と入力を依頼する(S720,S800,S810)。もし、ユーザがもう一度言語を入力して、再度2つ以上わからなければ、「別の方法で入力ください」と表示をユーザに出し、ユーザにテキストの入力を依頼する。
【0070】
このようにすると、最初の言語認識に失敗した従来の解析パラメータと、正しい認識を行うための解析パラメータの差異が明確になる。従来の解析パラメータを一定量以下変化させた値を使うと、言語解析率が向上すると判定される場合、新たな解析パラメータを通常使用パラメータの中に携帯情報処理機10はセットする。一方、解析パラメータを大幅に変える必要があるという結果が出た場合は、そのパラメータ値を例外使用の改正パラメータとして記憶する。
【0071】
外国人が、自分の母国語の言語認識用データを外国で使おうとする場合に備え、言語辞書には、言語に応じた言語類別用IDをつけており、携帯情報処理機10は、言語類別用IDを確認して、認識辞書や認識方式を切りかえる。
その際、言語が日本語から、他の外国語に変わると、携帯情報処理機10だけで外国語の辞書を記憶することが難しい場合が考えられる。その際は、携帯情報処理機10は外部の機器と協働して(分散処理を行って)、外国語の認識、翻訳、応答等を行うことが可能になる。
【図面の簡単な説明】
【図1】実施例の情報システムとしてのモバイルAIシステムの構成を示す説明図である。
【図2】個人認識モジュールの外部機器20への転送に関する説明図である。
【図3】携帯情報処理機における認識処理の概略を示すフローチャートである。
【図4】携帯情報処理機における認識処理の詳細な内容を示すフローチャートである。
【図5】図4の続きの認識処理の詳細な内容を示すフローチャートである。
【図6】携帯情報処理機と外部機器間での認識モジュールの転送の様子を示す説明図である。
【図7】携帯情報処理機と外部機器間での認識モジュールの転送のフローを示す説明図である。
【図8】メッセージタイプの例を示す説明図である。
【図9】メッセージタイプを決めるための処理ステップと、ステップ毎に用いるパラメータ項目を示す説明図である。
【図10】言語認識の結果からメッセージタイプを決定する処理を示すフローチャートである。
【符号の説明】
1…モバイルAIシステム
10…携帯情報処理機
20…外部機器
30…通信システム
Claims (15)
- 特定ユーザの通話音声を入力し、前記特定ユーザの通話音声の認識結果から割り出した特徴量に基づく音声認識関連データを利用して、入力した前記特定ユーザの通話音声を認識し、その認識した通話音声から求めた特徴量に基づいて前記特定ユーザに対応する前記音声認識関連データを変更する機能を備え、携帯可能に構成された第1の電子機器と、音声を入力し、音声認識関連データを利用して、入力した音声を認識し、その認識結果に基づく所定の機能を実現する第2の電子機器とを備えた情報システムにおいて、
前記第1の電子機器は、
前記認識した通話音声の認識結果を報知し、この報知された認識結果に対する評価を入力し、入力した評価と前記認識結果に基づいて前記音声認識関連データを変更する機能と、
自機器が利用する前記特定ユーザに対応する音声認識関連データを、前記第2の電子機器が前記特定ユーザの音声の認識を行う際に前記第2の電子機器に対して送信する機能を備え、
前記第2の電子機器は、前記第1の電子機器から受信した前記特定ユーザに対応する音声認識関連データを利用して前記特定ユーザの音声の認識を行うこと
を特徴とする情報システム。 - 特定ユーザの通話音声を入力する音声入力手段と、
前記特定ユーザの通話音声の認識結果から割り出した特徴量に基づく音声認識関連データを利用して前記音声入力手段から入力された前記特定ユーザの音声の認識を行う認識手段と、
前記認識手段によって認識された通話音声の認識結果を報知する報知手段と、
前記報知手段によって報知された認識結果に対する評価を入力する入力手段と、
前記入力手段によって入力された評価と前記認識手段によって認識された通話音声から求めた特徴量に基づいて前記特定ユーザに対応する音声認識関連データを変更する音声認識関連データ変更手段と、
前記特定ユーザに対応する前記音声認識関連データを、前記音声認識関連データを利用して音声認識を行う外部装置が前記特定ユーザの音声の認識を行う際に前記外部装置に送信する送信手段とを備え、携帯可能に構成されたこと
を特徴とする電子機器。 - 請求項2に記載の電子機器において、
前記認識手段によって所定回数以上通話音声の認識に失敗した場合、前記入力手段はユーザから通話音声以外の方法で入力を行い、前記音声認識関連データ変更手段は当該通話音声以外の方法による入力内容を前記音声認識関連データの変更に用いること
を特徴とする電子機器。 - 請求項2または3に記載の電子機器において、
前記送信手段は、送信先の機器の種別に適合した音声認識関連データを送信すること
を特徴とする電子機器。 - 請求項2〜4のいずれかに記載の電子機器において、
前記送信手段は、前記音声認識関連データを利用する処理を実現するためのプログラムを送信すること
を特徴とする電子機器。 - 請求項2〜5のいずれかに記載の電子機器において、
前記送信手段は、前記認識データを所定のアクションに応じて送信すること
を特徴とする電子機器。 - 請求項7に記載の電子機器において、
前記所定のアクションは送信対象の機器との距離が所定範囲内となることであること
を特徴とする電子機器。 - 請求項2〜7のいずれかに記載の電子機器において、
前記認識手段は前記認識結果及び前記音声認識関連データに基づきユーザの以後の入力内容を予測し、
前記報知手段は、前記予測した入力内容を報知して、
前記入力手段から前記予測した入力内容に対する前記評価を入力すること
を特徴とする電子機器。 - 特定ユーザの音声を入力する音声入力手段と、
特定ユーザの通話音声の認識結果から割り出した特徴量に基づく音声認識関連データを利用して、入力した前記特定ユーザの通話音声を認識し、その認識した通話音声から求めた特徴量に基づいて前記特定ユーザに対応する前記音声認識関連データを変更する機能を備えた携帯可能な外部装置から、前記特定ユーザに対応する音声認識関連データを受信する受信手段と、
前記受信手段によって受信された前記特定ユーザに対応する音声認識関連データを利用して前記音声入力手段から入力された前記特定ユーザの音声の認識を行う認識手段と、
前記認識手段の認識結果に基づき所定の機能を実現する機能実現手段とを備えること
を特徴とする電子機器。 - 請求項9に記載の電子機器において、
前記音声認識関連データには有効期限データが添付されており、
前記認識手段は、当該有効期限データに基づいて受信した音声認識関連データを利用する期間を限定すること
を特徴とする電子機器。 - 請求項2〜12のいずれかに記載の電子機器において、
前記音声認識関連データとして、所定の定型文を認識するためのデータを含むこと
を特徴とする電子機器。 - 請求項2〜11のいずれかに記載の電子機器において、
前記入力手段からの音声の入力が中断した場合には、前記認識手段は前記音声認識関連データに基づいて中断後に続く言葉を予測し、前記報知手段は該予測した言葉を報知すること
を特徴とする電子機器。 - 請求項2〜12のいずれかに記載の電子機器において、
前記音声に代えて所定の言語表現を用いる
ことを特徴とする電子機器。 - 請求項2〜13のいずれかに記載の電子機器としての機能をコンピュータに実現させるためのプログラム。
- 請求項1に記載の情報システムにおいて、
前記第1の電子機器として、請求項2〜8のいずれかに記載の電子機器を用い、
前記第2の電子機器として、請求項9または10のいずれかに記載の電子機器を用いる こと
を特徴とする情報システム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001340577A JP4000828B2 (ja) | 2001-11-06 | 2001-11-06 | 情報システム、電子機器、プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001340577A JP4000828B2 (ja) | 2001-11-06 | 2001-11-06 | 情報システム、電子機器、プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2003140690A JP2003140690A (ja) | 2003-05-16 |
JP4000828B2 true JP4000828B2 (ja) | 2007-10-31 |
Family
ID=19154755
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001340577A Expired - Fee Related JP4000828B2 (ja) | 2001-11-06 | 2001-11-06 | 情報システム、電子機器、プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4000828B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10984795B2 (en) | 2018-04-12 | 2021-04-20 | Samsung Electronics Co., Ltd. | Electronic apparatus and operation method thereof |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8301436B2 (en) | 2003-05-29 | 2012-10-30 | Microsoft Corporation | Semantic object synchronous understanding for highly interactive interface |
US7200559B2 (en) * | 2003-05-29 | 2007-04-03 | Microsoft Corporation | Semantic object synchronous understanding implemented with speech application language tags |
JP2005086768A (ja) * | 2003-09-11 | 2005-03-31 | Toshiba Corp | 制御装置、制御方法およびプログラム |
US8725505B2 (en) | 2004-10-22 | 2014-05-13 | Microsoft Corporation | Verb error recovery in speech recognition |
JP2011064913A (ja) * | 2009-09-16 | 2011-03-31 | Ntt Docomo Inc | 電話システム、端末装置、音声モデル更新装置、および音声モデル更新方法 |
JP5825387B2 (ja) * | 2014-04-07 | 2015-12-02 | 株式会社ニコン | 電子機器 |
JP6544693B2 (ja) * | 2014-12-25 | 2019-07-17 | エイディシーテクノロジー株式会社 | ロボット |
KR20200044173A (ko) | 2018-10-05 | 2020-04-29 | 삼성전자주식회사 | 전자 장치 및 그의 제어 방법 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5944639B2 (ja) * | 1975-12-02 | 1984-10-31 | フジゼロツクス カブシキガイシヤ | 音声による異同認識方式における標準パタ−ン更新方法 |
JPS5987500A (ja) * | 1982-11-12 | 1984-05-21 | 株式会社日立製作所 | 音声認識装置 |
JPH0695683A (ja) * | 1992-09-10 | 1994-04-08 | Fujitsu Ltd | 音声認識装置 |
JP3844367B2 (ja) * | 1994-05-17 | 2006-11-08 | 沖電気工業株式会社 | 音声情報通信システム |
JP3790038B2 (ja) * | 1998-03-31 | 2006-06-28 | 株式会社東芝 | サブワード型不特定話者音声認識装置 |
JP3060379B2 (ja) * | 1998-06-09 | 2000-07-10 | 株式会社デジキューブ | 情報提供システム、情報提供処理方法、及び記録媒体 |
JP2000112489A (ja) * | 1998-09-30 | 2000-04-21 | Toshiba Corp | 音声入力リモートコントロールシステム |
JP4244423B2 (ja) * | 1999-01-28 | 2009-03-25 | 株式会社デンソー | 適正単語列推定装置 |
JP2001223816A (ja) * | 2000-02-04 | 2001-08-17 | Hitachi Ltd | 電話機によるテキストメッセージの作成方法および装置 |
JP3581881B2 (ja) * | 2000-07-13 | 2004-10-27 | 独立行政法人産業技術総合研究所 | 音声補完方法、装置および記録媒体 |
-
2001
- 2001-11-06 JP JP2001340577A patent/JP4000828B2/ja not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10984795B2 (en) | 2018-04-12 | 2021-04-20 | Samsung Electronics Co., Ltd. | Electronic apparatus and operation method thereof |
Also Published As
Publication number | Publication date |
---|---|
JP2003140690A (ja) | 2003-05-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110998720B (zh) | 话音数据处理方法及支持该方法的电子设备 | |
EP3782040B1 (en) | Electronic device and method for providing artificial intelligence services based on pre-gathered conversations | |
US8775189B2 (en) | Control center for a voice controlled wireless communication device system | |
EP3608906B1 (en) | System for processing user voice utterance and method for operating same | |
US11455989B2 (en) | Electronic apparatus for processing user utterance and controlling method thereof | |
US9742912B2 (en) | Method and apparatus for predicting intent in IVR using natural language queries | |
JP2017058673A (ja) | 対話処理装置及び方法と知能型対話処理システム | |
US10811005B2 (en) | Adapting voice input processing based on voice input characteristics | |
US12087298B2 (en) | Electronic device and method of controlling thereof | |
KR102701423B1 (ko) | 음성 인식을 수행하는 전자 장치 및 전자 장치의 동작 방법 | |
JP6625772B2 (ja) | 検索方法及びそれを用いた電子機器 | |
JP4000828B2 (ja) | 情報システム、電子機器、プログラム | |
KR102594838B1 (ko) | 사용자 발화에 응답하여 통화를 포함하는 태스크를 수행하는 전자 장치 및 그 동작 방법 | |
US10866948B2 (en) | Address book management apparatus using speech recognition, vehicle, system and method thereof | |
KR20210001082A (ko) | 사용자 발화를 처리하는 전자 장치와 그 동작 방법 | |
KR20190083884A (ko) | 음성 명령을 처리하기 위한 전자 문서 표시 방법 및 그 전자 장치 | |
EP4428854A1 (en) | Method for providing voice synthesis service and system therefor | |
US20240135925A1 (en) | Electronic device for performing speech recognition and operation method thereof | |
KR20240049061A (ko) | 음성 인식을 수행하는 전자 장치와 이의 동작 방법 | |
CN114168706A (zh) | 智能对话能力测试方法、介质和测试设备 | |
KR20220137437A (ko) | 전자 장치 및 전자 장치의 동작 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20031216 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20060117 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060124 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060323 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20070220 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070410 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20070424 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20070724 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070806 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100824 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100824 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110824 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120824 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130824 Year of fee payment: 6 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |