JP2016095383A

JP2016095383A - 音声認識クライアント装置及びサーバ型音声認識装置

Info

Publication number: JP2016095383A
Application number: JP2014231144A
Authority: JP
Inventors: 利昭古谷; Toshiaki Furuya
Original assignee: ATR-TREK CO Ltd
Current assignee: ATR-TREK CO Ltd
Priority date: 2014-11-14
Filing date: 2014-11-14
Publication date: 2016-05-26

Abstract

【課題】音声認識サーバによる音声認識の結果を利用して多様なサービスを効率よく利用できる音声認識クライアント装置と、その音声認識クライアント装置とともに使用できる音声認識サーバを提供する。
【解決手段】音声認識クライアント装置３４は、音声を音声データに変換するマイクロフォン５０及びフレーム化処理部５２と、ローカルな音声認識処理部８０と、キーワードをキーに音声認識サーバのＵＲＩをルックアップするためのルックアップテーブル８４と、音声認識処理部８０の出力する音声認識結果の中にキーワードを検出したことに応答して検出信号を出力する判定部８２と、検出信号に応答して、検出されたキーワードをキーにルックアップテーブル８４からルックアップされるＵＲＩの音声認識サーバに音声データを送信して音声認識を要求する通信制御部８６とを含む。
【選択図】図２

Description

この発明はサーバ型音声認識装置と通信することにより音声を認識する機能を備えた音声認識クライアント装置と、この音声認識クライアント装置と通信して音声認識を行なうサーバ型音声認識装置に関し、特に、音声認識クライアント装置がローカルな音声認識機能を備え、ローカルな音声認識結果にしたがって、サーバ型音声認識装置を切替えることが可能な音声認識システムに関する。

インターネット等のネットワークに接続されるいわゆるスマートフォン等の携帯型端末装置が世界的規模で急速に普及している。携帯型端末装置は、旧来の電話線等を敷設する必要がなく、ある程度の範囲をカバーする基地局を拠点位置に設ければよい。したがって、例えば砂漠地帯、凍土地帯、山岳地帯、島嶼、密林等においても基地局と無線通信さえ可能であれば電話として機能する。それだけではなく、携帯型端末装置の無線通信機能を用いることで、事実上、インターネットに接続可能な小型のコンピュータとして用いることができる。スマートフォンを使えば、インターネット上のサイトの検索、閲覧、及びサイトの更新、音楽及びビデオの視聴及び投稿、メールの交換、銀行取引、スケッチ、録音・録画等、デスクトップコンピュータと同等の充実した機能が利用できる。

しかしこのように充実した機能を利用するための１つのネックが、携帯型端末装置の筐体の小ささである。携帯型端末装置は、携帯を可能とするための当然の前提として筐体が小さく軽く作られている。そのため、コンピュータのキーボードのように高速に入力をするためのデバイスを搭載できない。タッチパネルを使用した様々な入力方式が考えられており、以前と比較して素早く入力できるようにはなっているが、依然として携帯型端末装置でテキスト文字列を高速に入力ことはそれほど容易でない。

こうした状況で注目されているのが音声認識による入力である。音声認識機能を用いることにより、長文のテキストの入力、及び携帯型端末装置に対するコマンドの入力等が可能になる。音声認識の現在の主流は、多数の音声データを統計的に処理して作成した音響モデルと、大量の文書から得た統計的言語モデルとを使用する統計的音声認識装置である。こうした音声認識には、高精度を得るために非常に大きな計算パワーを必要とする。そのためこれまでは、音声認識は大容量で計算能力が十分に高いコンピュータでのみ実現されていた。携帯型端末装置の計算資源は相対的に非力であるため、音声認識機能を利用する場合には、音声認識機能をオンラインで提供する音声認識サーバに音声認識を依頼し、携帯型端末装置はその結果を利用する音声認識クライアントとして動作することが主流である。音声認識クライアントが音声認識をする際には、音声をローカルに処理して得た音声データ、符号データ、又は音声の特徴量（素性）を音声認識サーバにオンラインで送信し、音声認識結果を受け取ってそれに基づいた処理を行なう。

しかし、半導体技術の進歩により、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）はより小型化し、その計算能力は高く、消費電力は十分に小さくなった。また、携帯型端末装置に搭載されるメモリ容量も従来と比較して桁違いに大きくなってきた。そのため、携帯型端末装置でも精度の問題を別として、音声認識が十分に利用可能となっている。

もっとも、利用できる計算資源の点では音声認識サーバの方が、以前と同様に圧倒的に有利である。音声認識の精度の点では、携帯型端末装置よりも音声認識サーバで行なわれる音声認識の方が優れている点は間違いない。しかも装置間の通信速度は以前と比較してはるかに高速になっているため、音声認識サーバを利用した分散的な音声認識を携帯型端末装置で利用する仕組みが実用化されている。

このように、携帯型端末装置に搭載される音声認識の精度が相対的に低い、という欠点を補うための提案が、後掲の特許文献１に開示されている。特許文献１は音声認識サーバと交信するクライアントに関する。このクライアントは、音声を処理して音声データに変換し、音声認識サーバに送信する。音声認識サーバは、その音声データに対して音声認識を行ない、その結果のテキストデータを携帯型端末装置に返信する。その音声認識結果には、文節の区切り位置、文節の属性（文字種）、単語の品詞、文節の時間情報等が付されている場合が大部分である。クライアントは、サーバからの音声認識結果に付されているこのような情報を用い、ローカルで音声認識ができる。この際、ローカルに登録されている語彙又は音響モデルを使用できるので、語彙によっては音声認識サーバで誤って認識された語を携帯型端末装置のローカルな音声認識では正しく認識できる可能性がある。

特許文献１に開示されたクライアントでは、音声認識サーバからの音声認識結果と、ローカルに行なった音声認識結果とを比較し、両者の認識結果が異なった箇所についてはユーザによりいずれかを選択させる。

特開２０１０−８５５３６号公報、特に段落００４５〜００５０、図４

特許文献１に開示されたクライアントは、音声認識サーバによる認識結果をローカルな音声認識結果で補完できるという優れた効果を奏する。しかし、ローカルな音声認識の精度を高めても、その効果はローカルな個々の携帯型端末装置に特化したものとなり、高精度の音声認識の効果を多くの人が享受することができない。音声認識サーバによる認識結果の精度が高まれば、ローカルな環境に関係なくユーザは音声認識の機能を享受できるはずである。

一方、音声認識サービスは、単にネットワークを用いて提供される多種多様なサービスのフロントエンドに過ぎないということもできる。音声認識サービスと他のサービスとを組み合わせることにより、ユーザが利用可能なサービスがより多様化し、従来は考えられなかったようなシステムが利用可能となる可能性が高い。そのような環境では、例えば複数の音声認識サーバが存在し、それらがそれぞれ音声認識サービスと何らかのサービスを組み合わせた独自のサービスを提供すると考えられる。そのような多様なサービスを利用する際には、単にローカルな音声認識の精度を高めるだけでなく、ローカルな音声認識を用いて多様なサービスを効率的に利用できる仕組みが必要である。特許文献１に開示された発明は、ローカルな音声認識を用いてそのような多様なサービスを効率的に利用することについては全く関係しておらず、こうした問題を解決することはできない。

それゆえにこの発明の目的は、音声認識サーバを用いた音声認識の結果を用いて多様なサービスを効率的に利用することが可能な音声認識クライアント装置と、その音声認識クライアント装置とともに使用できる音声認識サーバを提供することである。

本発明の第１の局面は、複数の音声認識サーバのいずれかに音声認識を要求する音声認識クライアント装置に関する。この音声認識クライアント装置は、音声を音声データに変換する音声変換手段と、音声データに対する音声認識を行なって音声認識結果を出力する音声認識手段と、キーワードをキーとして音声認識サーバの識別子をルックアップするためのルックアップテーブルを記憶するルックアップテーブル記憶手段と、音声認識手段の出力する音声認識結果の中に、ルックアップテーブルのキーとなるキーワードを検出したことに応答して、検出信号を出力するキーワード検出手段と、検出信号に応答して、検出されたキーワードをキーにルックアップテーブルからルックアップされる音声認識サーバの識別子に対応する音声認識サーバに音声データを送信して、当該音声データの音声認識を要求する音声データ送信手段とを含む。

ルックアップテーブルに、予めキーワードとそのキーワードが検出されたときに音声データを送信すべき音声認識サーバの識別子（例えばＵＲＩ）とを登録しておく。ユーザの発話に対してローカルな音声認識手段が音声認識を行なう。その結果の中にルックアップテーブル中のキーワードがあるとそれをキーワード検出手段が検出し、検出信号を出力する。この検出信号に応答して、音声データ送信手段がルックアップテーブルからルックアップされた音声認識サーバに対して音声データを送信する。

ルックアップテーブルにキーワードと音声認識サーバの識別子との組み合わせを複数個登録しておくことにより、異なるキーワードによって、音声データの送信先の音声認識サーバを変えることができる。各音声認識サーバが音声認識した結果を用いた何らかのサービスを提供している場合、ユーザは発話中にその音声認識サーバに対応するキーワードを発話するだけで、そのサービスを利用することが可能になる。手動で音声認識サーバを切替える場合と比較して、より簡単な操作で多様なサービスを効率的に利用できるようになる。

好ましくは、音声データ送信手段は、検出信号に応答して、検出されたキーワードをキーにルックアップテーブルから音声認識サーバの識別子をルックアップするルックアップ手段と、ルックアップ手段によりルックアップされた音声認識サーバの識別子に対応する音声認識サーバに、音声データとキーワード検出手段により検出されたキーワードとを送信して、当該音声データの音声認識を要求する音声データ・キーワード送信手段とを含む。

さらに好ましくは、ルックアップテーブルは、キーワードをキーとして、音声認識サーバの識別子と、クライアント装置に対してサービスを提供するサービスサーバの識別子とをルックアップ可能である。音声認識クライアント装置はさらに、音声データ送信手段による音声データの送信先の音声認識サーバから音声認識の結果を受信する音声認識結果受信手段と、音声認識結果受信手段により受信された音声認識結果を、検出されたキーワードをキーにルックアップテーブルからルックアップされたサービスサーバの識別子に対応するサービスサーバに送信することにより、当該サービスサーバによるサービスにアクセスするサービスアクセス手段とを含む。

ルックアップテーブルは、キーワードをキーとして、音声認識サーバの識別子と、クライアント装置に対してサービスを提供するサービスサーバの識別子とをルックアップ可能であってもよい。音声データ送信手段は、検出信号に応答して、検出されたキーワードをキーにルックアップテーブルから音声認識サーバの識別子及びサービスサーバの識別子をルックアップするルックアップ手段と、ルックアップ手段によりルックアップされた音声認識サーバの識別子に対応する音声認識サーバに、音声データと、キーワードと、サービスサーバの識別子とを送信して、当該音声データについて、当該キーワードに依存して変化する音声認識処理の実行と、当該音声認識処理の結果を用いてサービスサーバの識別子により特定されるサービスサーバへのアクセスとを要求する手段とを含む。

好ましくは、ルックアップテーブルは、キーワードをキーとして、音声認識サーバの識別子と、音声認識に用いられる音声認識モデルを特定するための音声認識モデル情報とをルックアップ可能である。音声データ送信手段は、検出信号に応答して、検出されたキーワードをキーにルックアップテーブルから音声認識サーバの識別子及び音声認識モデル情報をルックアップするルックアップ手段と、ルックアップ手段によりルックアップされた音声認識サーバの識別子に対応する音声認識サーバに、音声データと音声認識モデル情報とを送信して、当該音声データについて、当該音声認識モデル情報を用いた音声認識処理の実行を要求する手段とを含む。

本発明の第２の局面は、音声認識クライアント装置からデータを受信して、当該データに含まれる音声データに対する音声認識を行なうサーバ型音声認識装置に関する。データは、音声データと、当該音声データに関するキーワードとを含む。このサーバ型音声認識装置は、受信したデータを音声データとキーワードとに分離する分離手段と、複数の音声認識モデルを記憶するモデル記憶手段と、キーワードから、複数の音声認識モデルのいずれかを特定するモデル特定情報をルックアップ可能なルックアップテーブルを記憶するルックアップテーブル記憶手段と、分離手段により分離されたキーワードをキーに、ルックアップテーブルからモデル特定情報をルックアップするルックアップ手段と、モデル記憶手段に記憶された複数の音声認識モデルのうち、ルックアップ手段によりルックアップされたモデル特定情報により特定される音声認識モデルを用いて分離手段により分離された音声データに対する音声認識を行なう音声認識手段とを含む。

本発明の第３の局面は、クライアント装置からデータを受信して、当該データに含まれる音声データに対する音声認識を行なうサーバ型音声認識装置に関する。データは、音声データと、当該音声データに関するキーワードとを含む。このサーバ型音声認識装置は、受信したデータを音声データとキーワードとに分離する分離手段と、分離手段により分離された音声データに対する音声認識を行なって音声認識結果を出力する音声認識手段と、キーワードから、音声認識手段による音声認識結果の送信先を特定する送信先特定情報をルックアップ可能なルックアップテーブルを記憶するルックアップテーブル記憶手段と、分離手段により分離されたキーワードをキーに、ルックアップテーブルから送信先特定情報をルックアップするルックアップ手段と、ルックアップ手段によりルックアップされた送信先特定情報により特定される送信先に、音声認識手段による音声認識結果を送信する送信手段とを含む。

本発明の第４の局面は、クライアント装置からデータを受信して、当該データに含まれる音声データに対する音声認識を行なうサーバ型音声認識装置に関する。データは、音声データと、当該音声データに対する音声認識結果の送信先を特定する送信先特定情報とを含む。このサーバ型音声認識装置は、受信したデータを音声データと送信先特定情報とに分離する分離手段と、分離手段により分離された音声データに対する音声認識を行なって音声認識結果を出力する音声認識手段と、分離手段により分離された送信先特定情報により特定される送信先に、音声認識手段による音声認識結果を送信する送信手段とを含む。

本発明の第５の局面は、クライアント装置からデータを受信して、当該データに含まれる音声データに対する音声認識を行なうサーバ型音声認識装置に関する。データは、音声データと、当該音声データに対する音声認識に用いるべき音声認識モデルを特定するモデル特定情報とを含む。このサーバ型音声認識装置は、受信したデータを音声データとモデル特定情報とに分離する分離手段と、複数の音声認識モデルを記憶するモデル記憶手段と、モデル記憶手段に記憶された複数の音声認識モデルのうち、分離手段により分離されたモデル特定情報により特定される音声認識モデルを用いて音声認識を行なう音声認識手段とを含む。

本発明の第６の局面は、第１の局面に係るいずれかの音声認識クライアント装置の各手段としてコンピュータを機能させるコンピュータプログラムに関する。

本発明の第７の局面は、第２−第５の局面に係るいずれかのサーバ型音声認識装置の各手段としてコンピュータを機能させるコンピュータプログラムに関する。

本発明の第１の実施の形態に係る音声認識システムの概略構成を示すブロック図である。第１の実施の形態に係る携帯端末装置であるスマートフォンの機能的ブロック図である。逐次方式の音声認識の出力の仕方の概略を説明する模式図である。第１の実施の形態において、ローカルな音声認識結果を用いて音声認識のためのサーバのＵＲＩを決定する手順を説明するための模式図である。第１の実施の形態において、音声認識サーバのＵＲＩを決定し音声データを送信する処理を制御するプログラムの制御構造を示すフローチャートである。第１の実施の形態において、音声認識サーバから受信した音声認識の結果を利用してスマートフォンを制御するプログラムの制御構造を示すフローチャートである。本発明の第２の実施の形態に係る携帯型端末装置であるスマートフォンの機能的ブロック図である。第２の実施の形態において、音声認識サーバのＵＲＩ及びサービスサーバのＵＲＩを決定するためのルックアップテーブルの構成を説明するための模式図である。第２の実施の形態において、音声認識サーバへの音声データの送信開始及び終了を制御するプログラムの制御構造を示すフローチャートである。第２の実施の形態において、音声認識サーバから受信した音声認識の結果を利用してサービスサーバにリクエストを送信するプログラムの制御構造を示すフローチャートである。第３の実施の形態において使用される音声認識サーバの機能的ブロック図である。第４の実施の形態において使用される音声認識サーバの機能的ブロック図である。第５の実施の形態に係るスマートフォンの機能的ブロック図である。第５の実施の形態において使用される音声認識サーバの機能的ブロック図である。各実施の形態に係るスマートフォンの構成を示すハードウェアブロック図である。

以下の説明及び図面では、同一の部品には同一の参照番号を付してある。したがって、それらについての詳細な説明は繰返さない。

＜第１の実施の形態＞
［概略］
図１を参照して、第１の実施の形態に係る音声認識システム３０は、ローカルな音声認識機能を持つ音声認識クライアント装置であるスマートフォン３４と、音声認識サーバ３６、３８，４０及び４２とを含む。これらはインターネットに代表されるネットワーク３２を介して相互に通信可能である。この実施の形態では、スマートフォン３４はローカルな音声認識の機能を持ち、音声認識サーバ３６、３８，４０及び４２との間の通信量を抑えながら、自然な形でユーザによる操作に対する応答を実現する。なお、以下の実施の形態では、スマートフォン３４から音声認識サーバ３６、３８，４０及び４２に送信される音声データは音声信号をフレーム化したデータであるが、例えば音声信号を符号化した符号化データでもよいし、音声認識サーバ３６、３８，４０及び４２で行なわれる音声認識処理で使用される特徴量でもよい。要するに、スマートフォン３４から各音声認識サーバへは、入力された音声から得られる情報であって、音声認識サーバで音声認識の処理を行なうことができるようなデータであればどのようなものでもよい。

［構成］
図２を参照して、スマートフォン３４は、マイクロフォン５０と、マイクロフォン５０から出力される音声信号をデジタル化し、所定フレーム長及び所定シフト長でフレーム化するフレーム化処理部５２と、フレーム化処理部５２の出力である音声データを一時的に蓄積するバッファ５４と、バッファ５４に蓄積された音声データを音声認識サーバ３６に送信する処理と、音声認識サーバ３６からの音声認識結果等を含むネットワークからのデータを無線により受信する処理とを実行する送受信部５６とを含む。フレーム化処理部５２の出力する各フレームには、各フレームの時間情報が付されている。

スマートフォン３４はさらに、バッファ５４に蓄積された音声データによるローカルな音声認識をバックグラウンドで行ない、音声認識結果の中に所定のキーワードが検出されたことに応答して、そのキーワードに応じて定められる音声認識サーバに音声信号の送信を開始する処理と、所定時間発話がないことに応答して音声認識サーバ３６への音声信号の送信を終了する処理とを実行するようにバッファ５４及び送受信部５６を制御するための制御部５８と、送受信部５６が音声認識サーバ３６から受信した音声認識結果を一時的に蓄積する受信データバッファ６０と、音声認識サーバ３６からの音声認識結果に応答して、受信データバッファ６０の内容を用いたアプリケーションを実行するアプリケーション実行部６２と、アプリケーション実行部６２に接続されたタッチパネル６４と、アプリケーション実行部６２に接続されたスピーカ６６と含む。本実施の形態では、どのようなアプリケーションを実行するかはアプリケーション実行部６２が受信データバッファ６０に記憶された内容によって判定する。

制御部５８は、発話キーワードと、その発話キーワードが検出されたときに音声信号を送信すべき音声認識サーバのＵＲＩとの組を複数個記憶し、検出された発話キーワードから音声認識サーバのＵＲＩをルックアップ可能に構成された発話キーワード・音声認識サーバＵＲＩルックアップテーブル８４（以下単にルックアップテーブル８４と呼ぶ）と、バッファ５４に蓄積された音声データに対してローカルな音声認識処理を実行する音声認識処理部８０と、音声認識処理部８０の出力する音声認識結果にルックアップテーブル８４に記憶された発話キーワードのいずれかがあるか否かを、音声認識結果とルックアップテーブル８４とを照合することにより判定し、あれば、発話キーワードの検出信号と、その発話キーワードをキーとしてルックアップテーブル８４から読み出された音声認識サーバの識別子であるＵＲＩとを出力する判定部８２と、判定部８２からの検出信号に応答し、判定部８２から与えられたＵＲＩの音声認識サーバに、発話キーワードの直後からの発話の音声信号を送信するよう、バッファ５４及び送受信部５６による通信を制御する通信制御部８６とを含む。なお、音声認識処理部８０は、無音区間が所定のしきい値時間以上続くと発話が終了したとみなし、発話終了検出信号を出力する。判定部８２は、発話終了検出信号を受信すると、通信制御部８６に対して音声認識サーバ３６へのデータの送信を終了する指示を出す機能を持つ。

ルックアップテーブル８４に記憶される発話キーワードは、本実施の形態では、通常の発話とできるだけ区別するために、名詞を用いるものとする。スマートフォン３４に何らかの処理を依頼することを考えると、この名詞としては特に通常使用されないような語彙の固有名詞を使用することが自然であり好ましい。固有名詞でなく、特定のコマンド用語を用いるようにしてもよい。こうした処理を可能とするためには、音声認識処理部８０が認識可能な語句は限られたものでもよい。音声認識処理部８０は、認識結果の各単語にその単語の品詞、動詞の活用形、助詞の種類等を示す情報を付すようなものでもよい。

なお、発話キーワードを名詞に限定する必要はない。他と明確に区別できる単語であれば、どのような単語でも使用できるし、通常は使用されないような特別な語を造語してそれを発話キーワードとしてもよい。

制御部５８はさらに、判定部８２から、検出信号と、検出された発話キーワードと、その発話キーワードをキーにルックアップテーブル８４から読み出されたＵＲＩを受信したことに応答し、バッファ５４に蓄積された音声データを、指定されたＵＲＩの音声認識サーバ３６に送信する処理を開始するよう送受信部５６を制御するための通信制御部８６を含む。

音声認識処理部８０が、バッファ５４に蓄積された音声データに対する音声認識をするにあたり、音声認識結果を出力する仕方には２通りある。発話ごと方式と逐次方式とである。発話ごと方式は、音声データ内に所定時間を超える無音区間があったときに、それまでの音声の音声認識結果を出力し、次の発話区間から新たに音声認識を開始する。逐次方式は、バッファ５４に蓄積されている音声データ全体に対する音声認識結果を所定時間間隔（たとえば１００ミリ秒ごと）で出力する。したがって、発話区間が長くなると音声認識音結果のテキストもそれにつれて長くなる。本実施の形態では、音声認識処理部８０は逐次方式を採用している。この際、発話中の無音区間が所定時間長以上になったときは、発話が終了したものとする。なお、発話区間が非常に長くなると、音声認識処理部８０による音声認識が困難になる。したがって音声認識処理部８０は、発話区間が所定時間長以上になると、強制的に発話が終了したものとしてそれまでの音声認識を終了し、新たな音声認識を開始するものとする。なお、音声認識処理部８０による音声認識の出力が発話ごとの方式である場合でも、以下の機能は本実施の形態のものと同様に実現できる。

図３を参照して、ローカルな音声認識処理部８０の出力タイミングについて説明する。発話１００が、第１の発話１１０と第２の発話１１２とを含み、両者の間に無音区間１１４があるものとする。本実施の形態では、音声認識処理部８０は、バッファ５４に音声データが蓄積されていくと、音声認識結果１２０で示されるように、１００ミリ秒ごとに、バッファ５４に蓄積された音声全体に対する音声認識結果を出力する。この方式では、音声認識結果の一部が途中で修正される場合もある。例えば、図３に示す音声認識結果１２０の場合、２００ミリ秒時点で出力された「熱い」という単語が３００ミリ秒時点では「暑い」に修正されている。この方式では、無音区間１１４の時間長が所定のしきい値より大きい場合には、発話が終了したものとみなされる。その結果、バッファ５４に蓄積されていた音声データはクリアされ（読捨てられ）、次の発話に対する音声認識処理が開始される。図３の場合には、次の音声認識結果１２２が新たな時間情報とともに音声認識処理部８０から出力される。判定部８２は、音声認識結果１２０又は音声認識結果１２２等の各々について、音声認識結果が出力されるごとに、ルックアップテーブル８４に記憶された発話キーワードのいずれかと一致しているか否かを判定し、発話キーワード検出信号を出力する。ただし、本実施の形態では、発話キーワードは音声認識サーバ３６への音声データの送信が行なわれていないときにしか検出されない。

［動作］
スマートフォン３４は以下のように動作する。マイクロフォン５０は常に周囲の音声を検知して音声信号をフレーム化処理部５２に与える。フレーム化処理部５２は、音声信号をデジタル化及びフレーム化し、バッファ５４に順次入力する。音声認識処理部８０は、バッファ５４に蓄積されていく音声データの全体について、１００ミリ秒ごとに音声認識を行ない、その結果を判定部８２に出力する。ローカルな音声認識処理部８０は、しきい値時間以上の無音区間を検知するとバッファ５４をクリアし、発話の終了を検出したことを示す信号（発話終了検出信号）を判定部８２に出力する。

判定部８２は、音声認識処理部８０からローカルな音声認識結果を受信すると、その中にルックアップテーブル８４に記憶された発話キーワードがあるかを判定する。判定部８２は、音声認識サーバ３６に音声データを送信していない期間にローカルな音声認識結果内に発話キーワードを検出した場合、発話キーワードの検出信号と、その発話キーワードとともにルックアップテーブル８４に記憶されていたＵＲＩを通信制御部８６に与える。一方、判定部８２は、音声認識サーバ３６に音声データを送信している間に音声認識処理部８０から発話終了検出信号を受信すると、音声認識サーバへの音声データの送信を終了するよう通信制御部８６に対して指示を与える。

通信制御部８６は、判定部８２から発話キーワード検出信号が与えられると、送受信部５６を制御して、バッファ５４に蓄積されているデータのうち、検出された発話キーワードの直後の位置からデータを読み出して、判定部８２から受信したＵＲＩの音声認識サーバ３６に送信する処理を開始させる。通信制御部８６は、判定部８２から発話終了検出信号が与えられると、送受信部５６を制御して、バッファ５４に蓄積されているデータのうち、発話終了までの音声データを音声認識サーバに送信させた後に送信を終了させる。

図２に示す受信データバッファ６０は、通信制御部８６によって、判定部８２により指定されたＵＲＩの音声認識サーバへの音声データの送信が開始された後、音声認識サーバから送信されてくる音声認識結果のデータを蓄積する。アプリケーション実行部６２は、音声認識サーバから送信されて来た音声認識結果のデータが受信データバッファ６０に入力されたことに応答して、受信データバッファ６０に記憶されたデータを読み出す。アプリケーション実行部６２は、そのデータに基づいて、どのようなアプリケーションを実行するかを判定し、そのアプリケーションを起動する。アプリケーション実行部６２は、必要であれば音声認識結果のデータをアプリケーションに渡して処理させる。処理の結果は、例えばタッチパネル６４に表示されたり、スピーカ６６から音声の形で出力されたりする。

例えば図４を参照して、具体的な例を説明する。ユーザが発話１４０を行なったものとする。発話１４０は、「ｖＧａｔｅ君」という発話キーワード１４２と、その後に続く通常の発話部分１４４とを含む。

ここでは、ルックアップテーブル８４は、発話キーワードカラム１５０と、ＵＲＩカラム１５２とを含む。発話キーワードとして例えば「ｖＧａｔｅ君」、「アシスト君」、「スポット博士」、「羊君」等が登録されており、これらに対応するＵＲＩカラム１５２には、各音声認識サーバのＵＲＩが登録されている。図４に示す例では、音声認識結果の発話キーワード１４２である「ｖＧａｔｅ君」がルックアップテーブル８４の１行目の発話キーワードと一致している。したがって、この発話キーワード「ｖＧａｔｅ君」に対応するＵＲＩ（www.example1.co.jp）がルックアップテーブル８４から読み出される。そして、発話キーワード１４２以後の発話部分１４４の音声データ１７４と、ルックアップテーブル８４読み出されたＵＲＩの音声認識サーバへのhttpコマンド１７２とからなるパケット１７０が送受信部５６により組み立てられ、ネットワーク３２上に送信される。音声データが長い場合には、音声データは複数のパケットにより音声認識サーバに送信される。

一方、発話中に所定時間以上の空白区間が検出されると、その時点以後の音声データを音声認識サーバ３６に送信する処理は終了する。

パケット１７０による音声データの送信が終了すると、この音声データに対する音声認識結果が、指定された音声認識サーバからスマートフォン３４に送信され、受信データバッファ６０に蓄積される。この音声認識結果はアプリケーション実行部６２（図２参照）に与えられ、適切なアプリケーションにより処理される。

以上のようにこの実施の形態によれば、ローカル音声認識により発話中に発話キーワードが検出されると、ルックアップテーブル８４からその発話キーワードに対応するＵＲＩが読み出される。そして、発話キーワードの直後から後の音声データが、読み出されたＵＲＩによって特定される音声認識サーバに送信される。ローカル音声認識により発話中に空白区間が検出されると、音声認識サーバへの音声データの送信が終了される。音声認識サーバでの音声認識結果を用いて何らかの処理が実行される。したがって、この実施の形態では、スマートフォン３４に何らかの処理を実行させようとする場合、ユーザは他に何もせず、単に発話キーワードと実行内容とを発話するだけでよい。発話キーワードがローカル音声認識で正しく認識されれば、スマートフォン３４による音声認識の結果を用いた所望の処理が実行され、結果がスマートフォン３４により出力される。音声入力の開始のためのボタンを押したりする必要はなく、スマートフォン３４を従来より簡単に使用できる。

さらに、上記実施の形態では、発話キーワードがローカル音声認識で検出された場合に音声データを音声認識サーバに送信する処理を開始し、発話に空白区間が検出されると送信処理を終了する。音声の送信を終了するためにユーザが特別な操作をする必要がない。

［プログラムによる実現］
上記第１の実施の形態に係るスマートフォン３４は、後述するような、コンピュータと同様のスマートフォンハードウェアと、その上のプロセッサにより実行されるプログラムとにより実現できる。図５に、図２の判定部８２及び通信制御部８６の機能を実現するプログラムの制御構造をフローチャート形式で示し、図６に、アプリケーション実行部６２の機能を実現するプログラムの制御構造をフローチャート形式で示す。ここでは両者を別プログラムとして記載しているが、両者をまとめることもできるし、１つのプログラムの別スレッドとすることもできるし、それぞれさらに細かい単位のプログラムに分割することもできる。

図５を参照して、判定部８２及び通信制御部８６の機能を実現するプログラムは、スマートフォン３４の電源投入時に起動されたことに応答して、使用するメモリエリアの初期化等を実行するステップ２００と、システムからプログラムの実行を終了することを指示する終了信号を受信したか否かを判定し、終了信号を受信したときには必要な終了処理を実行してこのプログラムの実行を終わるステップ２０２と、終了信号が受信されていないときに、音声認識処理部８０からローカル音声認識結果を受信したか否かを判定し、受信していなければ制御をステップ２０２に戻すステップ２０４とを含む。前述したとおり、音声認識処理部８０は所定時間ごとに音声認識結果を逐次的に出力する。したがってステップ２０４の判定は、所定時間ごとにＹＥＳとなる。なお、プログラムの実行を終了する指示とは、例えばユーザがこのプログラムを強制的に終了させるための処理を実行したときにシステムからこのアプリケーションに送信される信号のことをいう。

このプログラムはさらに、ステップ２０４でローカル音声認識の結果を受信したと判定されたことに応答して、ルックアップテーブル８４に記憶された発話キーワードのいずれかがローカル音声認識結果に含まれるか判定し、含まれていない場合には制御をステップ２０２に戻すステップ２０６と、発話キーワードのいずれかがローカル音声認識結果にあったときに、その発話キーワードに対応付けて記憶されているＵＲＩを読み出し、検出された発話キーワードとともにメモリに保存するステップ２０８と、バッファ５４（図２）に記憶されている音声データのうち、発話キーワードの直後を先頭とする音声データをステップ２０８で読み出されたＵＲＩの音声認識サーバに送信する処理を開始するよう送受信部５６に指示するステップ２１０とを含む。以後、処理はスマートフォン３４への音声データ送信中の処理に移る。

音声データ送信中の処理は、システムの終了信号を受信したか否かを判定し、受信したときには必要な処理を実行してこのプログラムの実行を終了するステップ２１２と、終了信号が受信されていないときに、音声認識処理部８０から所定時間以上の無音区間を検出したことを示す発話終了検出信号を受信したか否かを判定するステップ２１４と、発話終了検出信号を受信したと判定されたときに、バッファ５４に記憶されている音声データのうち、その無音区間の直前の部分までを音声認識サーバ３６に送信して送信を終了し、制御をステップ２０２に戻すステップ２１８と、ステップ２１４で発話終了検出信号を受信していないと判定されたときに、音声認識サーバへの音声データの送信を継続し、制御をステップ２１２に戻すステップ２１６とを含む。

図６を参照して、図２のアプリケーション実行部６２を実現するプログラムは、スマートフォン３４の電源投入時に起動され、必要な初期化処理を実行するステップ２２０と、終了信号を受信したか否かを判定し受信したときにはこのプログラムの実行を終了するステップ２２２と、終了信号を受信していないときに、音声認識サーバから音声認識結果のデータを受信したか否かを判定し、受信していなければ制御をステップ２２２に戻すステップ２２４とを含む。

このプログラムはさらに、受信データバッファ６０が音声認識サーバから音声認識結果のデータを受信したことに応答して、音声認識結果を受信データバッファ６０から読み出してアプリケーション実行部６２に与えるステップ２２６と、ステップ２２６の後に、受信データバッファ６０をクリアして制御をステップ２２２に戻すステップ２２８とを含む。

図５に示すプログラムによれば、ローカルな音声認識結果が発話キーワードとマッチしているとステップ２０６で判定されると、ステップ２０８でその発話キーワードに対応するＵＲＩがルックアップテーブル８４から読み出されてメモリに保存され、ステップ２１０以後で、バッファ５４に記憶された音声データのうち、発話キーワード以後を先頭とする音声データが、ステップ２０８で読み出されたＵＲＩの音声認識サーバに送信される。音声データの送信中に入力音声中に所定長以上の空白区間が検出されると、バッファ５４に記憶された音声データのうち、空白部分の直前までが音声認識サーバに送信された後、送信が終了する。

一方、音声認識サーバ３６から音声認識結果を受信したときに、音声認識結果が受信データバッファ６０からアプリケーション実行部６２に読み出され、アプリケーション実行部６２が音声認識結果の内容に応じた適切な処理を実行する。

したがって、図５及び図６に制御構造を示すプログラムをスマートフォン３４で実行することにより、上記した実施の形態の機能を実現できる。

なお、上記実施の形態では、音声データをスマートフォン３４から音声認識サーバに送信する際、音声をデジタル化しフレーム化したものを送信している。しかし本発明はそのような実施の形態には限定されない。例えば、音声をデジタル化したものをそのまま送信してもよいし、コードブックによりベクトルコード化した音声データを送信してもよい。さらに、フレーム化した音声から所定の特徴量（ＭＦＣＣ係数等）を抽出し、それを送信してもよい。

＜第２の実施の形態＞
上記実施の形態では、ローカル音声認識で発話キーワードを検出すると、その発話キーワードに対応するＵＲＩをルックアップテーブル８４から読み出し、音声データをそのＵＲＩに送信する。そして、音声認識サーバから音声認識結果を受信すると、その音声認識結果に基づいて所定のアプリケーションを実行する。しかし本発明はそのような実施の形態には限定されない。例えば、音声認識サーバから音声認識結果を受信した後、他のサービスサーバにその音声認識結果を転送し、そのサービスサーバに、何らかの処理を実行させるようにしてもよい。第２の実施の形態に係るスマートフォンはそのようなシステムで使用される。

図７を参照して、この第２の実施の形態に係るスマートフォン２４０は、第１の実施の形態のスマートフォン３４とほぼ同様な構成である。しかし、スマートフォン２４０は、音声認識システム３０の制御部５８に代えて、制御部５８の機能に加え、発話キーワードに基づいて、音声認識サーバからの音声認識サーバを転送するターゲットとなるサービスサーバの識別子であるＵＲＩを出力する制御部２５０を含む点において、図２に示すスマートフォン３４と異なっている。

制御部２５０は、音声認識処理部８０と、発話キーワード、音声認識サーバＵＲＩ、及びサービスサーバＵＲＩの組を複数個記憶し、発話キーワードをキーに音声認識サーバＵＲＩ及びサービスサーバＵＲＩをルックアップ可能なルックアップテーブル２６２と、ルックアップテーブル２６２を参照することにより音声認識処理部８０の音声認識結果中に発話キーワードがあるか否かを判定し、発話キーワードがあったときには、発話キーワードの検出信号とともに、その発話キーワードに対応する音声認識サーバＵＲＩ及びサービスサーバＵＲＩをルックアップテーブル２６２から読み出して出力する判定部２６０と、判定部２６０から発話キーワード検出信号を受けたことに応答して、バッファ５４から発話キーワードに記憶されている音声データの内で、発話キーワードに対応する位置の直後からのデータを、判定部２６０から与えられた音声認識サーバに送信する処理を開始するよう送受信部５６を制御する機能を持つ通信制御部２６４と、判定部２６０から出力されるサービスサーバＵＲＩを一時的に記憶する一時記憶部２６６と、一時記憶部２６６がサービスサーバＵＲＩを記憶しているときに、受信データバッファ６０が音声認識結果を受信したことに応答して、受信データバッファ６０に記憶された音声認識結果を、一時記憶部２６６に記憶されたサービスサーバＵＲＩに送信してそのサービスにアクセスするよう、通信制御部２６４を制御するサービスアクセス部２６８とを含む。

図８を参照して、ルックアップテーブル２６２は複数のエントリを含む。各エントリは、発話キーワードカラム１５０と、音声認識サーバＵＲＩカラム１５２と、サービスサーバＵＲＩカラム２８０とを含む。このルックアップテーブル２６２により、発話キーワードが与えられると、その発話キーワードと対応付けられた音声認識サーバＵＲＩとサービスサーバＵＲＩとを読み出すことができる。

この実施の形態に係るスマートフォン２４０の動作の概略について説明する。発話の構成は図４に示す発話１４０と同様であるものとする。本実施の形態に係る制御部２５０は、発話１４０中の単語をルックアップテーブル２６２と照合することにより、発話中に発話キーワードが存在するか否かを判定する。発話中に発話キーワードが存在するときには、判定部２６０は、その発話キーワードに対応する音声認識サーバＵＲＩとサービスサーバＵＲＩとをルックアップテーブル２６２から読み出し、発話キーワード検出信号とともに通信制御部２６４に与える。通信制御部２６４は、音声データのうち、発話キーワードが検出された部分の次から発話の終了までの音声データを、判定部２６０から与えられた音声認識サーバＵＲＩの音声認識サーバに送信する。通信制御部２６４はまた、判定部２６０から与えられたサービスサーバＵＲＩを一時記憶部２６６に一時的に記憶させる。

一時記憶部２６６にサービスサーバＵＲＩが記憶されているときに受信データバッファ６０が音声認識結果を受信すると、サービスアクセス部２６８は音声認識結果を受信データバッファ６０から読み出し、通信制御部２６４及び送受信部５６を介して、一時記憶部２６６に記憶されたサービスサーバＵＲＩに送信する。すると、そのサービスサーバは、送信された音声認識結果に対して所定の処理を行うことになる。

このように本実施の形態では、ルックアップテーブル２６２は発話キーワードと音声認識サーバＵＲＩだけでなく、サービスサーバＵＲＩも記憶している。発話中に発話キーワードが検出されると、その発話キーワードに対応する音声認識サーバに音声データが送信される。その音声認識結果が受信データバッファ６０により受信されると、その音声認識結果が、ルックアップテーブル２６２から読み出されたサービスサーバＵＲＩに送信される。その結果、ユーザの音声に基づいて、その音声により指示される内容の処理がサービスサーバＵＲＩで実行される。

以上のようにこの実施の形態によれば、発話キーワードを使い分けることにより、音声認識サーバを切替えることができるだけでなく、その結果を使用して所望のサービスにアクセスできる。したがって、ユーザは発話のみを用い、自分の必要とする処理にとって最も好ましい音声認識サーバを用いて精度の高い音声認識を行ない、その結果を自分が望むサービスサーバに送信できる。その結果、多様なサービスを切り替えながら効率的に利用することが可能になる。

図９に、この実施の形態に係るスマートフォン２４０の判定部２６０及び通信制御部２６４の機能のうち、発話キーワード検出時の機能を実現するためのプログラムの制御構造をフローチャート形式で示す。この図は、第１の実施の形態の図５に示すものに相当する。

図９を参照して、このプログラムは、図５に制御構造を示すものからステップ２０８を削除し、代わりに、ステップ２０６で検出された発話キーワードに対応する音声認識サーバＵＲＩとサービスサーバＵＲＩとをルックアップテーブル２６２から読み出し、特にサービスサーバＵＲＩを一時記憶部２６６に保存するステップ３００を含む。その他の点では、このプログラムは図５に示すものと同じ制御構造を持つ。このプログラムの実行時の制御部２５０の動作も、既に説明したものから十分に明らかである。

図１０を参照して、この実施の形態において、音声認識結果を受信したときの、図７に示す通信制御部２６４及びサービスアクセス部２６８の機能を実現するためのプログラムの制御構造について説明する。この図は、第１の実施の形態における図６に示すものに対応する。このプログラムが図６に示すものと異なるのは、図６のステップ２２６に代えて、受信データバッファ６０が受信した音声認識結果を、一時記憶部２６６に記憶されたサービスサーバＵＲＩに送信するステップ３１０を含む点である。

このプログラムを実行したときのスマートフォン２４０の動作は、音声認識結果を受信したときに、スマートフォン２４０自身がその音声認識結果に対応したアプリケーションを実行する代わりに、スマートフォン２４０がその音声認識結果を、ルックアップテーブル２６２から読み出したサービサーバＵＲＩに送信する点において、第１の実施の形態に係るスマートフォン３４と相違する。

この第２の実施の形態では、音声データの送信を開始するためにユーザが何らかの操作を特に行なう必要がないという点と、音声認識サーバを切替えるにあたり、音声中に発話キーワードを含ませるだけでよいという点とで第１の実施の形態と同じ効果を得ることができる。またこの第２の実施の形態では、どのようなサービスを受けるかに応じて適切な発話キーワードを用いて音声認識サーバを切り替えると、それとともにサービスを受けるためのサービスサーバも切替えることができる。したがって、ウェブ上で提供される様々なサービスを、音声を用いた精度の高い音声認識によって手軽に利用できるという効果がある。

＜第３の実施の形態＞
上記第２の実施の形態では、音声認識サーバから音声認識結果が一旦スマートフォン２４０に送信され、スマートフォン２４０がさらに発話キーワードに応じて定まるサービスサーバＵＲＩにその音声認識結果を送信している。しかし本発明はそのような実施の形態には限定されない。例えば、音声認識サーバからスマートフォン２４０に音声認識結果を送信することなく、音声認識サーバから直接サービスサーバＵＲＩに送信することも考えられる。第３の実施の形態はそのような実施の形態である。

この実施の形態では、クライアントとしてのスマートフォンは第１の実施の形態と同様のものを用いる。ただし、図１に示す通信制御部８６は、第１の実施の形態と異なり、発話キーワードが検出されると、音声データだけではなく、その発話キーワードのテキストデータを、ルックアップテーブル８４から読み出されたＵＲＩの音声認識サーバに送信するものとする。

図１１に、この実施の形態で使用される音声認識サーバの機能的ブロック図を示す。図１１を参照して、この音声認識サーバ３３０は、ネットワーク３２を介して他の装置との通信を提供する送受信部３４０と、本実施の形態に係るスマートフォンから、送受信部３４０を介して発話キーワードのテキストデータと音声データとからなるデータを受信し、発話キーワードを音声データから分離する音声・キーワード分離部３４２とを含む。

音声認識サーバ３３０はさらに、音声・キーワード分離部３４２が出力する音声データに対して音声認識を行なう音声認識部３４４と、音声認識部３４４による音声認識結果を、音声・キーワード分離部３４２により分離された発話キーワードにより定められるサービスサーバに、送受信部３４０を介して送信する処理を行なうデータ処理部３４６とを含む。

音声認識部３４４は、音声・キーワード分離部３４２により分離された音声データを一時蓄積するバッファ３６０と、バッファ３６０に蓄積された音声データに対して音声認識を行ない、テキストデータを出力する音声認識エンジン３６２と、音声認識エンジン３６２が出力する音声認識結果のテキストデータを一時蓄積する音声認識データバッファ３６４とを含む。

データ処理部３４６は、音声・キーワード分離部３４２が出力する発話キーワードを一時保存するキーワード保存部３８０と、発話キーワードとサービスサーバＵＲＩとの組み合わせからなるエントリを１又は複数個記憶する発話キーワード・サービスサーバＵＲＩルックアップテーブル３８２（以下単にルックアップテーブル３８２）と、キーワード保存部３８０に保存された発話キーワードとルックアップテーブル３８２とを照合し、当該キーワードに対応するサービスサーバＵＲＩを読み出す照合部３８４と、音声認識データバッファ３６４に記憶された音声認識結果を、照合部３８４がルックアップテーブル３８２から読み出したＵＲＩのサービスサーバに送信するためのパケットを組み立てるパケット組立部３８６と、パケット組立部３８６により組み立てられたパケットを、照合部３８４が読みだしたＵＲＩに送受信部３４０を介して送出する通信制御部３８８とを含む。

この形態では、スマートフォンは、ローカルな音声認識により発話キーワードが検出されると、その発話キーワードに対応する音声認識サーバＵＲＩをテーブルルックアップにより特定し、そのサーバに音声データと発話キーワードとを送信する。ここでは、図１１に示す音声認識サーバ３３０がその音声認識サーバであるものとする。

音声認識サーバ３３０の送受信部３４０は、音声データと発話キーワードとからなるデータを受信し、音声・キーワード分離部３４２に与える。音声・キーワード分離部３４２は、受信データを音声データと発話キーワードとに分離する。音声・キーワード分離部３４２は、音声データをバッファ３６０に蓄積し、発話キーワードをキーワード保存部３８０に保存する。

音声認識エンジン３６２は、バッファ３６０に蓄積された音声データに対して音声認識を行ないその結果を音声認識データバッファ３６４に蓄積する。

照合部３８４は、キーワード保存部３８０に発話キーワードが保存されると、ルックアップテーブル３８２と発話キーワードとを照合し、その発話キーワードに対応するサービスサーバＵＲＩをルックアップテーブル３８２から読み出す。照合部３８４は、読み出したサービスサーバＵＲＩをパケット組立部３８６に与える。

パケット組立部３８６は、音声認識データバッファ３６４に蓄積された音声認識結果のデータと、照合部３８４が出力するサービスサーバＵＲＩとから、サービスサーバに送信するパケットを組み立てる。通信制御部３８８は、パケット組立部３８６により組み立てられたパケットを、指定されたＵＲＩのサービスサーバに送受信部３４０を介して送信する。

なお、発話キーワードに対応するサービスサーバＵＲＩがルックアップテーブル３８２に記録されていない場合には、パケット組立部３８６及び通信制御部３８８は、音声認識結果を、クライアントであるスマートフォンに送信するようにしてもよい。また、サービスサーバＵＲＩとして、特定のキーワードが記録されているときにも、音声認識結果をクライアントに送信するようにしてもよい。

この実施の形態でも、第１及び第２の実施の形態のスマートフォンと同様、ユーザは発話キーワードを変えることにより、音声認識に使用するサーバを簡単に切替えることができる。したがって、例えば発話のトピックの内容に応じて最適な音声認識サーバを利用でき、音声認識の精度を高めることができる。さらに、ルックアップテーブル３８２に発話キーワードに対応するサービスサーバＵＲＩが格納されていれば、クライアントであるスマートフォンを通さず、音声認識サーバから直接に目的のサービスサーバにアクセスできる。音声認識結果をスマートフォンに送信することなくサービスを利用できるため、通信データ量を削減でき、サービスをより高速に利用できる。

＜第４の実施の形態＞
上記第３の実施の形態では、スマートフォンで実行されるローカルな音声認識の結果に所定の発話キーワードが検出されると、その発話キーワードに対応する音声認識サーバのＵＲＩがルックアップテーブルから読み出され、発話キーワードと音声データとがその音声認識サーバに送信される。音声認識サーバは、発話キーワードからサービスサーバＵＲＩをルックアップするためのルックアップテーブルを持ち、サーバでの音声認識の結果を、発話キーワードに対応してルックアップされるサービスサーバＵＲＩに送信する。

しかし、本発明はそのような実施の形態には限定されない。音声認識サーバにおいて、発話キーワードからサービスサーバＵＲＩをルックアップするテーブルに代え、その音声認識サーバで音声認識に用いるべき音声認識モデル（特に統計的言語モデル）を切替えるために、発話キーワードから音声認識に用いる音声認識モデルを特定する音声認識情報である音声認識モデル名をルックアップするためのルックアップテーブルを用いるようにしてもよい。この第４の実施の形態は、そのようなルックアップテーブルを用いる例である。

なおこの実施の形態でも、クライアントであるスマートフォンとしては第３の実施の形態と同様のものを用いることができる。

図１２に、この実施の形態に係る音声認識サーバの一例として音声認識サーバ４００の機能的ブロック図を示す。図１２を参照して、音声認識サーバ４００が図１１に示す音声認識サーバ３３０と異なるのは、図１１のデータ処理部３４６に代えて、発話キーワードから音声認識モデル名を特定し、その音声認識モデルを用いて行なわれた音声認識の結果をクライアントであるスマートフォに送信するデータ処理部４１２を含むことと、図１１の音声認識部３４４に代えて、音声認識のためのモデルを複数個備え、指定された音声認識モデルに切替えて音声認識を行なうことが可能な音声認識部４１０を含むこととである。

具体的には、データ処理部４１２は、発話キーワードから音声認識モデル名をルックアップするための発話キーワード・音声認識モデルルックアップテーブル４４２（以下単にルックアップテーブル４４２と呼ぶ。）と、音声・キーワード分離部３４２により音声データから分離された発話キーワードとルックアップテーブル４４２とを照合し、発話キーワードに対応する音声認識モデル名を特定して音声認識部４１０に入力する照合部４４０と、音声認識部４１０による音声認識結果をクライアントであるスマートフォンに送信するためにパケットを組み立てるパケット組立部３８６と、パケット組立部３８６により組み立てられたパケットを、送受信部３４０を介してクライアントであるスマートフォンに送信する通信制御部３８８とを含む。

音声認識部４１０は、音声・キーワード分離部３４２により発話キーワードから分離された音声データを蓄積するバッファ３６０と、複数の音声認識群を記憶する音声認識モデル群記憶部４２２と、照合部４４０から音声認識モデル名を受け、音声認識モデル群記憶部４２２に記憶された複数の音声認識モデルの中から、照合部４４０により指定された音声認識モデルを選択するモデル選択部４２４と、モデル選択部４２４により選択された音声認識モデルを用いて、バッファ３６０に記憶された音声データに対する音声認識処理を行ない、音声認識結果を出力する音声認識処理部４２０と、音声認識処理部４２０の出力する音声認識結果を一時蓄積する音声認識データバッファ３６４とを含む。

この音声認識サーバ４００は以下のように動作する。なお、この実施の形態に係るクライアントであるスマートフォンは、第３の実施の形態と同じものを使用できる。

スマートフォンの話者がスマートフォンに対して発話し、その中で特定の発話キーワードを発話したものとする。発話キーワードが検出されると、ルックアップテーブルを用い、その発話キーワードに対する音声認識サーバのＵＲＩが特定される。スマートフォンのユーザの発話のうち、発話キーワードの直後の部分から始める音声データと、検出された発話キーワードとが、ルックアップテーブルにより特定された音声認識サーバのＵＲＩに送信される。

図１２を参照して、送受信部３４０は、このデータを受信すると音声・キーワード分離部３４２にそのデータを与える。音声・キーワード分離部３４２は、受信されたデータを音声データと発話キーワードとに分離する。音声・キーワード分離部３４２は、音声データをバッファ３６０に蓄積し、発話キーワードを照合部４４０に保存する。

照合部４４０は、音声・キーワード分離部３４２から受けた発話キーワードとルックアップテーブル４４２とを照合し、発話キーワードに対応する音声認識モデル名をルックアップテーブルからルックアップし、モデル選択部４２４に与える。モデル選択部４２４は、音声認識モデル群記憶部４２２に記憶されている音声認識モデルのうち、照合部４４０から出力された音声認識モデル名に対応する音声認識モデルを選択し音声認識処理部４２０に接続する。音声認識処理部４２０は、バッファ３６０に蓄積されている音声データを、モデル選択部４２４により選択された音声認識モデルを用いて音声認識し、音声認識結果を音声認識データバッファ３６４に蓄積する。

パケット組立部３８６は、音声認識データバッファ３６４に蓄積された音声認識結果を読み出し、クライアントであるスマートフォンに送信するよう、パケットを組み立てる。通信制御部３８８は、組み立てられたパケットを、送受信部３４０を介して、クライアントであるスマートフォンに送信する。

この実施の形態によれば、第１〜第３の実施の形態と同様、クライアントであるスマートフォンで、発話キーワードを使い分けることにより、ユーザの発話に対する音声認識を行なう音声認識サーバを簡単に切替えることができる。したがって、発話のトピックに応じた最適な音声認識サーバを用いることによって、音声認識の精度を高めることができる。さらに、音声認識サーバで用いる音声認識モデルも発話キーワードにより同時に選択できる。そのため、指定された音声認識サーバでの音声認識を、発話のトピックに応じて最適な音声認識モデルを用いて行なうことができる。したがって、音声認識サーバの音声認識精度をさらに高めることができ、クライアントでの処理を簡単に抑えその価格も抑えながら、ユーザは簡単な操作で精度の高い音声認識を享受できる。

＜第５の実施の形態＞
第４の実施の形態では、クライアント装置であるスマートフォンでは、ローカルな音声認識結果に所定の発話キーワードが含まれている場合、その発話キーワードに対応する音声認識サーバのＵＲＩをテーブルルックアップして、その音声認識サーバに発話キーワードとともに音声データを送信する。音声認識サーバでは、受信した発話キーワードから、発話トピックに最適な音声認識モデル名をルックアップし、その音声認識モデルを用いて音声認識を行なう。その結果、発話トピックに応じた最適な音声認識サーバで、発話トピックに応じた最適な音声認識モデルを用いて音声認識を行なうことができる。

しかし、同様のシステムは、音声認識モデル名をクライアント側でルックアップし、その音声認識モデル名を音声認識サーバに送信することによっても実現できる。以下に説明する第５の実施の形態は、そのようなシステムである。

図１３を参照して、この実施の形態に係る音声認識システムで使用されるクライントとしてのスマートフォン４５０は、図２に示す第１の実施の形態に係る制御部５８に代えて、発話キーワードが検出されたことに応答して、音声認識サーバのＵＲＩだけでなく音声認識サーバで使用する音声認識モデル名をルックアップし、ルックアップされたＵＲＩの音声認識サーバに、音声認識モデル名を送信するよう送受信部５６を制御する制御部４６０を含む点で図２に示すスマートフォン３４と異なっている。

制御部４６０は、図に示すものと同様のローカルな音声認識処理部８０と、発話キーワードをキーに音声認識サーバＵＲＩ及び音声認識モデル名をルックアップするためのルックアップテーブル４８２と、音声認識処理部８０の出力する音声認識結果中の単語と、ルックアップテーブル４８２とを照合することによって音声認識結果中に発話キーワードがあるか否かを判定し、あれば、その発話キーワードに対応する音声認識サーバのＵＲＩと音声認識モデル名をルックアップテーブル４８２からルックアップし、発話キーワード検出信号とともに出力する判定部４８０と、判定部４８０からの発話キーワード検出信号に応答し、音声認識モデル名と、バッファ５４に記憶された音声データのうち発話キーワードの直後の音声データとを、判定部４８０が出力した音声認識サーバＵＲＩに向けて送信するよう送受信部５６を制御するための通信制御部４８４とを含む。

図１４は、この第５の実施の形態において、スマートフォン４５０と通信可能な複数の音声認識サーバの１つである音声認識サーバ５００の機能的ブロック図である。図１４を参照して、この音声認識サーバ５００は、図１２に示す第４の実施の形態に係る音声認識サーバ４００とほぼ同様の構成を有するが、図１２の音声・キーワード分離部３４２に代えて、スマートフォン４５０から受信した音声データから音声認識モデル名を分離する音声・モデル名分離部５２０を含む点と、図１２のデータ処理部４１２に代えて、音声・モデル名分離部５２０から出力された音声認識モデル名に対応する音声認識モデルを用いて音声認識部４１０に音声認識を行なわせ、音声認識結果をスマートフォン４５０に送信する機能を持つデータ処理部５２２とを含む点で図１２に示す音声認識サーバ４００と異なっている。音声・モデル名分離部５２０は、音声認識モデルから分離された音声データをバッファ３６０に格納する。

データ処理部５２２は、音声・モデル名分離部５２０から出力された音声認識モデル名を記憶し、モデル選択部４２４に出力するモデル名記憶部５３０と、音声認識データバッファ３６４に記憶された音声認識データからスマートフォン４５０に送信するためのパケットを組み立てるパケット組立部３８６と、パケット組立部３８６により組み立てられたパケットをスマートフォン４５０に送信するよう送受信部３４０を制御するための通信制御部３８８とを含む。

この音声認識システムは以下のように動作する。以下の説明では重複を避け、この実施の形態に特有の部分のみを説明する。音声認識処理部８０は、バッファ５４に記憶された音声データに対してローカルな音声認識を行ない、結果を音声認識処理部８０に出力する。判定部４８０は、音声認識処理部８０の出力するローカルな音声認識結果に含まれる単語とルックアップテーブル４８２とを照合し、ルックアップテーブル４８２に記憶された発話キーワードが音声認識結果に存在するか否かを判定する。発話キーワードが音声認識結果に存在しない場合、判定部４８０は何もしない。発話キーワードが音声認識結果に存在する場合、判定部４８０は、そのキーワードに対応してルックアップテーブル４８２に記憶されている音声認識サーバＵＲＩと、音声認識モデル名とを読みだし、発話キーワード検出信号とともに通信制御部４８４に与える。通信制御部４８４は、発話検出信号に応答して、音声認識モデル名と、バッファ５４に記憶された音声データのうち、発話キーワードの直後以後の部分を、判定部４８０から出力された音声認識サーバＵＲＩに音声認識のリクエストとともに送受信部５６を介して送信する。ここでは、この音声認識サーバＵＲＩは図１４に示す音声認識サーバ５００を指すものとする。

図１４を参照して、音声認識サーバ５００の音声・モデル名分離部５２０は、受信したデータの内、音声認識モデル名と音声データとを分離し、音声認識モデル名をモデル名記憶部５３０に格納し、音声データをバッファ３６０に蓄積する。モデル選択部４２４は、モデル名記憶部５３０に音声認識モデル名が記憶されていると、音声認識モデル群記憶部４２２に記憶された音声認識モデル群の中からその音声認識モデル名に対応するものを選択し、音声認識処理部４２０と結合する。音声認識処理部４２０は、モデル選択部４２４により選択された音声認識モデルを用い、バッファ３６０に蓄積された音声データに対する音声認識を行なって結果を音声認識データバッファ３６４に蓄積する。

パケット組立部３８６は、音声認識データバッファ３６４に記憶された音声認識結果を送信するためのパケットを組み立て、通信制御部３８８に与える。通信制御部３８８は、組み立てられたパケットを、音声認識のリクエストを送信して来たクライアント（ここでは図１３に示すスマートフォン４５０）に送信するよう、送受信部３４０を制御してパケットをネットワーク３２に出力する。

以上のようにこの実施の形態に係るスマートフォン４５０及び音声認識サーバ５００によれば、ローカルな音声認識結果の中に、所定の発話キーワードが存在すれば、その発話キーワードに対応する音声認識サーバのＵＲＩがルックアップされる。さらに、その発話キーワードに対応する音声認識モデル名がモデル名記憶部５３０からルックアップされ、発話キーワード以後の音声データとともに、ルックアップされた音声認識サーバＵＲＩに送信される。

この送信データを受信した音声認識サーバ５００の音声・モデル名分離部５２０は、音声データと音声認識モデル名とを分離し、音声認識モデル名により特定される音声認識モデルを用いて、受信した音声データに対する音声認識を行なう。その結果得られた音声認識結果は、リクエストを送信してきたスマートフォン４５０に送信される。

したがって、この実施の形態によれば、いずれかの発話キーワードを発話することにより、音声認識サーバを切り替えて音声認識を要求することができる。さらに、発話キーワードに対応して音声認識モデル名が特定され、音声認識サーバではその音声認識モデル名により選択された音声認識モデルを用いて音声認識が行なわれる。したがって、発話のトピックに応じて、特定の発話キーワードを発話することによって、そのトピックに最適な音声認識サーバに音声認識を行なわせることができる。しかも、発話キーワードに応じて、音声認識で使用される音声認識モデルについても適切なものを選択できる。そのため、発話キーワードと音声認識サーバＵＲＩと音声認識モデル名とについて、種々の目的に応じて予め適切な組み合わせをルックアップテーブル４８２に記憶させておくことにより、実際の発話について、最適な音声認識サーバで最適な音声認識モデルを用いて音声認識を行なうことができる。その結果、クライアントであるスマートフォン側の負担を最小限に抑えながら、個々の音声認識サーバについて精度の高い音声認識のための過大な負担を強いることなく、スマートフォンから複数の音声認識サーバを用いて精度の高い音声認識結果を得ることができるという効果を奏する。

なお、この図１２に示す第４の実施の形態に係る音声認識サーバ４００、及び図１３及び図１４に係る第５の実施の形態に係るスマートフォン４５０及び音声認識サーバ５００において、発話キーワードに応じてルックアップされるのは音声認識モデル名である。しかし本発明はそのような実施の形態には限定されない。音声認識サーバで使用する音声認識モデル名について予めクライアント側で分からない場合もあり得る。そうした場合には、例えば図１２に示すルックアップテーブル４４２及び図１３に示すルックアップテーブル４８２において、音声認識モデル名に代えて、使用すべき音声認識モデルのカテゴリ名等を記憶しておき、ルックアップされたカテゴリ名を音声認識サーバに送信してもよい。音声認識サーバでは、予め各音声認識モデルをカテゴリ別に分類しておく。そして、音声認識のリクエストが来た時には、そのリクエストに付されている音声認識モデルのカテゴリ名に一致したカテゴリに属する音声認識モデルを用いて音声認識を行なうようにしてもよい。

又は、予め音声認識サーバの音声認識モデルに検索用キーワードを割り当てておき、クライアント装置では発話キーワードを用いて音声認識モデルの検索用キーワードをルックアップし、その検索用キーワードを音声認識サーバに送信するようにしてもよい。音声認識サーバでは、その検索用キーワードが割り当てられている音声認識モデルを用いて音声認識を行なう。

音声認識モデル名、又はそのカテゴリは、発話トピックによって予め分類しておくことが望ましい。分類としては、例えば交通手段の乗り換え検索、料理のレシピ検索、学校の各教科に関する情報検索、スポーツの結果検索、テレビ番組の検索等、種々のものが考えられる。発話キーワードとしては、そうした分類を想起させるものを採用することが好ましい。

［スマートフォンのハードウェアブロック図］
図１５に、第１の実施の形態に係るスマートフォン３４、第２の実施の形態に係るスマートフォン２４０及び第５の実施の形態に係るスマートフォン４５０を実現するスマートフォンのハードウェアブロック図を示す。以下の説明では、これらスマートフォンを代表してスマートフォン３４について説明する。

図１５を参照して、スマートフォン３４は、マイクロフォン５０及びスピーカ６６と、マイクロフォン５０及びスピーカ６６が接続されたオーディオ回路５５０と、オーディオ回路５５０が接続されたデータ転送用及び制御信号転送用のバス５４０と、ＧＰＳ用、スマートフォン回線用、及びその他規格にしたがった無線通信用のアンテナを備え、様々な通信を無線により実現する無線回路５５２と、無線回路５５２とスマートフォン３４の他のモジュールとの間を仲介する処理を行なう、バス５４０に接続された通信制御回路５５６と、通信制御回路５５６に接続され、スマートフォン３４に対する利用者の指示入力を受けて入力信号を通信制御回路５５６に与える操作ボタン５５４と、バス５４０に接続され、様々なアプリケーションを実行するためのＣＰＵ（図示せず）、ＲＯＭ（読出専用メモリ：図示せず）及びＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ：図示せず）を備えたアプリケーション実行用ＩＣ（集積回路）５４２と、アプリケーション実行用ＩＣ５４２に接続されたカメラ５４６、メモリカード入出力部５４８、タッチパネル６４及びＤＲＡＭ（ＤｙｎａｍｉｃＲＡＭ）５５８と、アプリケーション実行用ＩＣ５４２に接続され、アプリケーション実行用ＩＣ５４２により実行される様々なアプリケーションを記憶した不揮発性メモリ５４４とを含む。

不揮発性メモリ５４４には、図１に示す音声認識処理部８０を実現するローカル音声認識処理プログラム５７０と、図１に示す判定部８２及び通信制御部８６を実現する発話送受信制御プログラム５７２と、ルックアップテーブル８４と、ルックアップテーブル８４に記憶されるキーワードを保守するための辞書保守プログラム５７６とが記憶されている。これらプログラムは、いずれもアプリケーション実行用ＩＣ５４２による実行時にはアプリケーション実行用ＩＣ５４２内の図示しないメモリにロードされ、アプリケーション実行用ＩＣ５４２内のＣＰＵが持つプログラムカウンタと呼ばれるレジスタにより指定されるアドレスから読み出され、ＣＰＵにより実行される。実行結果は、ＤＲＡＭ５５８、メモリカード入出力部５４８に装着されたメモリカード、アプリケーション実行用ＩＣ５４２内のメモリ、通信制御回路５５６内のメモリ、オーディオ回路５５０内のメモリのうち、プログラムにより指定されるアドレスに格納される。

図２に示すフレーム化処理部５２はオーディオ回路５５０により実現される。バッファ５４及び受信データバッファ６０は、ＤＲＡＭ５５８若しくは通信制御回路５５６又はアプリケーション実行用ＩＣ５４２内のメモリにより実現される。送受信部５６は無線回路５５２及び通信制御回路５５６により実現される。図１の制御部５８及びアプリケーション実行部６２は、本実施の形態ではいずれもアプリケーション実行用ＩＣ５４２により実現される。

今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内での全ての変更を含む。

３０音声認識システム
３２インターネット
３４，２４０４５０スマートフォン
３６，３８，４０，３３０，４００，５００音声認識サーバ
５０マイクロフォン
５４，３６０バッファ
５６，３４０送受信部
５８，２５０，４６０制御部
６０受信データバッファ
６２アプリケーション実行部
６４タッチパネル
６６スピーカ
８０音声認識処理部
８２，２６０，４８０判定部
８４，２６２，４４２，４８２ルックアップテーブル
８６，２６４，４８４通信制御部
２６６一時記憶部
２６８サービスアクセス部
３４２音声・キーワード分離部
３４４音声認識部
３４６，４１２データ処理部
３６４音声認識データバッファ
４２０音声認識処理部
４４０照合部
５２０音声・モデル名分離部

Claims

複数の音声認識サーバのいずれかに音声認識を要求する音声認識クライアント装置であって、
音声を音声データに変換する音声変換手段と、
前記音声データに対する音声認識を行なって音声認識結果を出力する音声認識手段と、
キーワードをキーとして音声認識サーバの識別子をルックアップするためのルックアップテーブルを記憶するルックアップテーブル記憶手段と、
前記音声認識手段の出力する音声認識結果の中に、前記ルックアップテーブルのキーとなるキーワードを検出したことに応答して、検出信号を出力するキーワード検出手段と、
前記検出信号に応答して、検出された前記キーワードをキーに前記ルックアップテーブルからルックアップされる音声認識サーバの識別子に対応する音声認識サーバに前記音声データを送信して、当該音声データの音声認識を要求する音声データ送信手段とを含む、音声認識クライアント装置。
前記音声データ送信手段は、
前記検出信号に応答して、検出された前記キーワードをキーに前記ルックアップテーブルから音声認識サーバの識別子をルックアップするルックアップ手段と、
前記ルックアップ手段によりルックアップされた音声認識サーバの識別子に対応する音声認識サーバに、前記音声データと前記キーワード検出手段により検出されたキーワードとを送信して、当該音声データの音声認識を要求する音声データ・キーワード送信手段とを含む、請求項１に記載の音声認識クライアント装置。
前記ルックアップテーブルは、キーワードをキーとして、音声認識サーバの識別子と、クライアント装置に対してサービスを提供するサービスサーバの識別子とをルックアップ可能であり、
前記音声認識クライアント装置はさらに、
前記音声データ送信手段による音声データの送信先の前記音声認識サーバから音声認識の結果を受信する音声認識結果受信手段と、
前記音声認識結果受信手段により受信された音声認識結果を、前記検出された前記キーワードをキーに前記ルックアップテーブルからルックアップされた前記サービスサーバの識別子に対応するサービスサーバに送信することにより、当該サービスサーバによるサービスにアクセスするサービスアクセス手段とを含む、請求項１又は請求項２に記載の音声認識クライアント装置。
前記ルックアップテーブルは、キーワードをキーとして、音声認識サーバの識別子と、クライアント装置に対してサービスを提供するサービスサーバの識別子とをルックアップ可能であり、
前記音声データ送信手段は、
前記検出信号に応答して、検出された前記キーワードをキーに前記ルックアップテーブルから音声認識サーバの識別子及びサービスサーバの識別子をルックアップするルックアップ手段と、
前記ルックアップ手段によりルックアップされた前記音声認識サーバの識別子に対応する音声認識サーバに、前記音声データと、前記キーワードと、前記サービスサーバの識別子とを送信して、当該音声データについて、当該キーワードに依存して変化する音声認識処理の実行と、当該音声認識処理の結果を用いて前記サービスサーバの識別子により特定されるサービスサーバへのアクセスとを要求する手段とを含む、請求項１に記載の音声認識クライアント装置。
前記ルックアップテーブルは、キーワードをキーとして、音声認識サーバの識別子と、音声認識に用いられる音声認識モデルを特定するための音声認識モデル情報とをルックアップ可能であり、
前記音声データ送信手段は、
前記検出信号に応答して、検出された前記キーワードをキーに前記ルックアップテーブルから音声認識サーバの識別子及び音声認識モデル情報をルックアップするルックアップ手段と、
前記ルックアップ手段によりルックアップされた音声認識サーバの識別子に対応する音声認識サーバに、前記音声データと前記音声認識モデル情報とを送信して、当該音声データについて、当該音声認識モデル情報を用いた音声認識処理の実行を要求する手段とを含む、請求項１に記載の音声認識クライアント装置。
音声認識クライアント装置からデータを受信して、当該データに含まれる音声データに対する音声認識を行なうサーバ型音声認識装置であって、前記データは、音声データと、当該音声データに関するキーワードとを含み、
受信したデータを音声データとキーワードとに分離する分離手段と、
複数の音声認識モデルを記憶するモデル記憶手段と、
キーワードから、前記複数の音声認識モデルのいずれかを特定するモデル特定情報をルックアップ可能なルックアップテーブルを記憶するルックアップテーブル記憶手段と、
前記分離手段により分離された前記キーワードをキーに、前記ルックアップテーブルからモデル特定情報をルックアップするルックアップ手段と、
前記モデル記憶手段に記憶された前記複数の音声認識モデルのうち、前記ルックアップ手段によりルックアップされたモデル特定情報により特定される音声認識モデルを用いて前記分離手段により分離された前記音声データに対する音声認識を行なう音声認識手段とを含む、サーバ型音声認識装置。
音声認識クライアント装置からデータを受信して、当該データに含まれる音声データに対する音声認識を行なうサーバ型音声認識装置であって、前記データは、音声データと、当該音声データに関するキーワードとを含み、
受信したデータを音声データとキーワードとに分離する分離手段と、
前記分離手段により分離された前記音声データに対する音声認識を行なって音声認識結果を出力する音声認識手段と、
キーワードから、前記音声認識手段による音声認識結果の送信先を特定する送信先特定情報をルックアップ可能なルックアップテーブルを記憶するルックアップテーブル記憶手段と、
前記分離手段により分離された前記キーワードをキーに、前記ルックアップテーブルから送信先特定情報をルックアップするルックアップ手段と、
前記ルックアップ手段によりルックアップされた前記送信先特定情報により特定される送信先に、前記音声認識手段による音声認識結果を送信する送信手段とを含む、サーバ型音声認識装置。
音声認識クライアント装置からデータを受信して、当該データに含まれる音声データに対する音声認識を行なうサーバ型音声認識装置であって、前記データは、音声データと、当該音声データに対する音声認識結果の送信先を特定する送信先特定情報とを含み、
受信したデータを音声データと送信先特定情報とに分離する分離手段と、
前記分離手段により分離された前記音声データに対する音声認識を行なって音声認識結果を出力する音声認識手段と、
前記分離手段により分離された前記送信先特定情報により特定される送信先に、前記音声認識手段による音声認識結果を送信する送信手段とを含む、サーバ型音声認識装置。
音声認識クライアント装置からデータを受信して、当該データに含まれる音声データに対する音声認識を行なうサーバ型音声認識装置であって、前記データは、音声データと、当該音声データに対する音声認識に用いるべき音声認識モデルを特定するモデル特定情報とを含み、
受信したデータを音声データとモデル特定情報とに分離する分離手段と、
複数の音声認識モデルを記憶するモデル記憶手段と、
前記モデル記憶手段に記憶された前記複数の音声認識モデルのうち、前記分離手段により分離されたモデル特定情報により特定される音声認識モデルを用いて音声認識を行なう音声認識手段とを含む、サーバ型音声認識装置。
コンピュータを、請求項１−請求項５のいずれかに記載の音声認識クライアント装置の各手段として機能させる、コンピュータプログラム。
コンピュータを、請求項６−請求項９のいずれかに記載のサーバ型音声認識装置の各手段として機能させる、コンピュータプログラム。