JP2005249829A

JP2005249829A - 音声認識を行うコンピュータネットワークシステム

Info

Publication number: JP2005249829A
Application number: JP2004055973A
Authority: JP
Inventors: Kiyoyuki Suzuki; 清幸鈴木
Original assignee: Advanced Media Inc
Current assignee: Advanced Media Inc
Priority date: 2004-03-01
Filing date: 2004-03-01
Publication date: 2005-09-15

Abstract

【課題】ネットワークで接続されたサーバーとクライアント（端末）において、クライアントで自然言語に近い音声入力に対しても音声認識が対応でき、効率的な音声認識処理が行えるシステムを提供することである。
【解決手段】ネットワークで接続されたサーバーコンピュータ装置とクライアントコンピュータ装置から構成されたコンピュータネットワークシステムにおいて、(1)前記サーバーコンピュータ装置に第１の音声認識エンジンを備え、(2)前記クライアントコンピュータ装置に第２の音声認識エンジンを備え、(3)前記クライアントコンピュータ装置に、音声入力データに対して前記第１の音声認識エンジンと前記第２の音声認識エンジンのどちらで処理するか選択判定する音声認識エンジン選択処理手段を備えたことを特徴とする音声認識を行うコンピュータネットワークシステムである。
【選択図】図１

Description

本発明は、ネットワークで接続されたサーバーコンピュータ装置（以下サーバーと略する）とクライアントコンピュータ装置（以下クライアントと略する）から構成されたコンピュータネットワークシステムにおいて、クライアント側で入力された音声入力データを音声認識処理するシステムに関する。

音声処理には大きく分けて音声認証と音声認識がある。前者は入力された音声で個人認証を行うものであり、対象になる音声は一般に声紋と呼ばれる個々に記録した音声データである。従って、音声認証では言葉の意味にまで立ち入らない。後者は音声から意味のある言葉を解析するものであり、音響モデル、言語モデルなどを必要とする。音声認識は音声認証に比べて高度な技術とそれに伴う処理時間が要求される。

音声認識は音声分析過程、探索過程、応用過程とから構成される。音声分析過程では、音声から認識に有効な特徴量の抽出を行う。探索過程では、この特徴量を入力データにして、入力音声に最もよく合致する音響モデルの列を言語モデルの拘束下で探し出す。認識された音声データは文字列などに変換される。応用過程では認識された音声データはヒューマンインターフェースとして利用される。例えば、音声入力によるマシンの操作、音声入力による文書化、音声入力による指示とそれに対応したマシンからの合成音による返答など、様々な応用分野が考えられている。

音響モデルは音素をモデル化したもので、一般に音声特徴の確率モデルとしての隠れマルコフモデル（ＨＭＭ）が利用されている。大量の学習データから各音素の特徴をＨＭＭにより表現して音響モデルが作られ、これによって入力音声の部分部分がどの音素に近いかが評価される。連続音声認識には音響モデルとともに言語モデル（統計的言語モデル）が使用される。言語モデルは、語彙、文法あるいは言語統計などにより、音声内容を規定するものであり、最も広く使用されているのがＮグラムモデルである。Ｎグラムモデルとは、単語や文字の生成確率をマルコフモデルで近似したモデルであり、単語ｗ_iの生成確率Ｐは直前の（ｎ−１）個の単語ｗ_i-n+1のみに依存するとみなされ、
Ｐ（ｗ）＝ПＰ（ｗ_i｜ｗ_i-n+1…ｗ_i-1）
と計算される。ここでｗは単語列ｗ₁〜ｗ_nであり、Пは添字ｉの階乗を表す。音響モデルによって推測される単語列ｗの組み合わせは、生成確率Ｐの計算によって最も高い値の単語列が音声認識の結果となる（最尤推定法）。

日本語は最後まで聞かないと、その言葉が肯定か否定かあるいは推量なのか分からないとよく言われる。その中にあって、予約語は数少ない断定的な使い方をする場合に使用される。例えば、「まったく」とか「ぜんぜん（全然）」は否定形を伴う副詞で、「ぜんぜん」と文頭に来れば、「ない」の否定形が予想される。また日本語は２音節、３音節などの短い単語が多く、同音異義語が多く存在する。例えば、「ない」と発音された場合、否定形の「ない」なのか、外に対する「内」なのかは、文章で判断することになる。この場合、「ない」の前に「ぜんぜん」があれば、「ない」は否定形の「ない」と判断される。このような予約語のような場合には、２グラムモデルで解決できる。もっとも最近では「ぜんぜん」が肯定でも使われるようになってきている。このように言語は生き物であるから、言語モデル辞書も時代に応じて変える必要性がある。

音声認識技術も飛躍的な進歩を遂げている。その背景にはハードウェアの発展が挙げられる。ＣＰＵの演算処理の高速化やメモリの大容量化・小型化が挙げられる。ディクテイション（音声入力）によるカーナビへの指示などはその技術の一つである。例えば、『地図情報提供システム』（特許文献１）では、請求項の一つとして、端末機（カーナビやノート型パソコン等）で音声入力による目的地指示や目的地の変更指示などを行う方法が提唱している。『移動体無線端末』（特許文献２）では、移動端末が周辺環境の音声を認識して、端末の電源を自動的に切断したりマナーモードに設定するなどの機能を有する装置を提唱している。例えば、電車や映画館といった場所でアナウンスされる「ポケットベル、携帯電話の電源をお切り下さい」等を携帯電話のマイクロフォンが拾い、該音声を認識して電源を自動切断する手段が述べられている。このシステムでは、移動端末は音声認識のための語彙辞書を備えている。『携帯電話用インターネット情報・音声検索システム』（特許文献３）では、携帯電話からの音声をインターネットを通じてサーバーが受信し、サーバー上で音声認識してテキスト化し、情報検索するシステムについて述べられている。このシステムでは、音声認識のための装置はサーバー側に備えられている。

音声による個人認証を扱ったものとしては、『音声による個人認証システム』（特許文献４）がある。このシステムは声紋による音声認証を行うものであるが、同時にキーワードによる個人認証も行っているために、声紋分析（照合）のほか、音声認識も行っている。『ホームページシステム』（特許文献５）では、ホームページ単位にサーバーからクライアントにホームページとともにそのページ用のルールグラマを送信し、ユーザー側（クライアント側）で音声認識が行えるシステムを提供している。音声認識の単位がホームページ単位であるために、送信時間も短く、またルールグラマも小容量であるという利点を持っている。なおここでいうルールグラマとは、音響モデル用辞書、言語モデル用辞書および言語辞書（かな漢字変換用辞書）のうち１以上の辞書を含む辞書群を指す。
特開２００３−２８８５３６号公報特開２００２−３３５３０４号公報特開２００２−０４４２５６号公報特開２００３−３０２９９９号公報特開２００３−３２３１９０号公報

音声認識技術は飛躍的な進歩を遂げてきている。かつては単語レベルの認識しかできなかった音声認識も、現在では自然言語に近い言葉も認識が可能となってきている。しかしその一方、自然言語を認識できるようにするために、大語彙辞書群が必要となってきている。言語認識技術が携帯電話やカーナビなどへ応用が進んできているが、現実にはこれらの端末に大語彙辞書群を搭載するまでには到っていない。メモリ上の制約と処理スピードの制約があるからである。背景技術で見てきたように、多くの事例では、言語認識はサーバー側に委ねられている。辞書などをクライアント側にサーバーからダウンロードする方法も提唱されているものもあるが、その場合、限られた機能に限定されている。実際に公開特許で提唱されているクライアント側で音声認識を行うというシステムでも、その辞書の大きさについては触れられていないのが現状である。

処理の分散化という点で、Ａ／Ｄ変換（音声のデジタル化）はクライアントで行い、デジタル音声信号をサーバーが受信し、サーバーで音声認識を行うというシステムはある。しかし音声認識で最も時間の掛かる音声認識処理部分は、サーバーに委ねられることになるから、多数のクライアントからの音声を同時に認識するとなると、時間的問題が生じてくる。本来なら、端末（クライアント）に音声認識処理に必要な音声認識エンジンや辞書群（本発明では音響モデル辞書・言語モデル辞書・単語辞書のうちいずれか１以上を含む）をサーバーからダウンロードし、端末で音声認識を行った結果（通常、文字列＜テキスト形式＞）のみをサーバーに送信し、サーバーで情報検索などの処理を行うのが最も好ましい。ただし移動体端末や携帯端末（例えば、カーナビや携帯電話等）の場合には、音響モデル辞書・言語モデル辞書・単語辞書のうちいずれか１以上を含む辞書群をダウンロードするのに時間が掛かるだけでなく、メモリやＣＰＵ速度などが問題となってくる。限られた単語レベルでの音声認識ならばこれも可能であろうが、自然言語に近い音声認識を行うためには大語彙が必要となり、現状では現実的でない。

以上の点に鑑み、本発明が解決しようとする課題は、ネットワークで接続されたサーバーとクライアント（端末）において、クライアントで自然言語に近い音声入力に対しても音声認識が対応でき、効率的な音声認識処理が行えるシステムを提供することである。

上記課題を解決するため、請求項１に記載された発明は、ネットワークで接続されたサーバーコンピュータ装置とクライアントコンピュータ装置から構成されたコンピュータネットワークシステムにおいて、
(1)前記サーバーコンピュータ装置に第１の音声認識エンジンを備え、
(2)前記クライアントコンピュータ装置に第２の音声認識エンジンを備え、
(3)前記クライアントコンピュータ装置に、音声入力データに対して前記第１の音声認識エンジンと前記第２の音声認識エンジンのどちらで処理するか選択判定する音声認識エンジン選択処理手段
を備えたことを特徴とする音声認識を行うコンピュータネットワークシステムである。

請求項２に記載された発明は、前記音声認識エンジン選択処理手段が
(1)前記音声入力が音響モデル辞書、言語モデル辞書、単語辞書のうちいずれか１以上を含む辞書群で記述可能で、かつ前記辞書群が前記クライアントコンピュータ装置に存在する場合は、前記第２の音声認識エンジンを、
(2)その他の場合には前記第１の音声認識エンジンを、
選択する手段を備えたことを特徴とする請求項１記載の音声認識を行うコンピュータネットワークシステムである。

請求項３に記載された発明は、前記音声入力データが前記第１の音声認識エンジンにおいて処理される場合、
前記クライアントコンピュータ装置に音声入力データから該音声入力データの特徴量を抽出して前記サーバーコンピュータ装置に送信する手段
を備えたことを特徴とする請求項１または請求項２記載の音声認識を行うコンピュータネットワークシステム、
及び、該特徴量を受信した前記サーバーコンピュータ装置は前記サーバーコンピュータ装置上の音声認識エンジンにより前記特徴量を解析する音声認識手段、およびその音声認識結果を前記クライアントコンピュータ装置に送信する手段、
を備えたことを特徴とする請求項１及び請求項２に記載の音声認識を行うコンピュータネットワークシステムである。

通常の日常会話では、2,000語程度を知っていればできると言われている。しかし、専門分野がこれに加わると、一気に使われる用語が増える。経済の話、科学の話、世界情勢の話、政治の話など、それぞれの話題によって使われる単語が異なり、使われる語彙も一気に増える。ただし、構文（文法）はほとんど同じであるから、語彙レベルの問題を解決できれば、これに対処できることになる（ただし、Ｎグラムなどの文法を使う場合には構文も増える）。

本発明では、比較的小語彙の辞書群と比較的大語彙の辞書群を用意し、前者をクライアントに備え、後者をサーバーに備えたシステムにする。すなわち、通常の基本的な音声認識はクライアントで行えるように、大語彙の辞書群を必要とする音声認識はサーバーで行う手段とに分け、音声認識処理の効率化を図る。

なお本発明における用いる辞書群は、音響モデル辞書・言語モデル辞書・および単語辞書のうちいずれか１以上を含むものが用いられる。単語辞書は言語モデル辞書に含めることも可能である。

本発明ではクライアント／サーバー音声認識選択処理プログラム（以下、略して「選択処理プログラム」と記述）をクライアントに備え、クライアントで入力された音声の音声認識をクライアントで行うかサーバーで行うかを判断する。まず、クライアントのシステムから説明する。

クライアントはパソコン、携帯電話、カーナビなどの端末であり、クライアントとサーバーは通信ネットワークで結ばれている。音声入力を行うためにクライアントのシステムには、マイクロホン（音声入力装置）が備えてあり、マイクロホンから入力された音声はＡＤＣ（アナログ／デジタル変換コントローラ）によって、入力音声をデジタル化（量子化）し、フロントエンドで特徴的な音響のみを算出・補正して特徴量を作成する。フロントエンドによって抽出された特徴量を受けて、選択処理プログラムは音声認識をクライアントで行うか、サーバーで行うかを判定する。

判定は、基本的には、クライアント上に音響モデル辞書・言語モデル辞書・単語辞書のうちいずれか１以上を含む辞書群が存在するかどうかで行う。しかし、クライアント上に置く音響モデル辞書・言語モデル辞書・単語辞書のうちいずれか１以上を含む辞書群は小語彙辞書群であり、すべてがクライアントで解決することができないこともある。そこで、クライアントで処理することになった場合でも、
・解読不可能なときには選択処理プログラムを介して特徴量のサーバーへ
の自動送信。
・手操作（または音声指示）によるサーバーの選択で特徴量の送信
を行えるようにしておく。

クライアントで音声認識を行う場合には、選択処理プログラムからの特徴量を音声認識エンジンが受け、音響モデル辞書・言語モデル辞書・単語辞書のうちいずれか１以上を含む辞書群を用いて音声認識を行い、音声認識結果をコンテンツデータベースに書き出す。音声認識結果は文字列化（テキスト化）されていて、その結果はユーザーインターフェース（ユーザーＩ／Ｆ）を介してディスプレイに表示する。このほか、何らかの操作が行われることもある。例えば、情報検索を行う場合には、「ｘｘ地区の地図情報を取得」と音声入力したとき、“ｘｘ地区＋地図情報”（テキスト形式）を検索キーとしてサーバーに送信し、サーバーは受信した検索キーでｘｘ地区の地図情報を検出してクライアントに送信するなどの処理である。もちろんこの場合には、音声認識結果を送信するプログラムを介する必要がある。前記のような処理が限定されているものに関しては、該処理を選択処理プログラムに組み込んでおくことも可能である。

音声認識エンジンが音声認識を行うときに使用する辞書群は、音響モデル辞書・言語モデル辞書・単語辞書のうちいずれか１以上を含むものである。音響モデル辞書は音素モデル辞書あるいは音節のサブワードモデル辞書などからなり、言語モデル辞書は言語の文法を記述した辞書である。音声認識エンジンが解析した音声はテキスト化されてコンテンツデータベースに保管され、ユーザーＩ／Ｆを介してユーザーに表示したり、あるいは解析結果を基に何らかの処理が行われる。

一方、選択処理プログラムがサーバーを選択した場合には、フロントエンドで抽出された特徴量を、該選択処理プログラムに含まれるプログラムインターフェース（プログラムＩ／Ｆ）により、サーバーに送信し、サーバーで音声認識を行う。サーバーはメインサーバーとサブサーバーとから構成される。メインサーバーは、クライアントから通信ネットワークで送信されてきた特徴量を受信して音声認識を行うサーバーである。

メインサーバーは音響モデル辞書・言語モデル辞書・単語辞書のうちいずれか１以上を含む大語彙辞書群を備えていて、該サーバーの音声認識エンジンが受信した特徴量を解析し、テキスト化する。認識結果はサブサーバーに送信され、サブサーバーのサービスコンテンツデータベースに一時保存される。さらにサブサーバーはサービスコンテンツデータベースに保存されている認識結果に対応する情報（データ、コンテンツなど）を通信ネットワークを介してクライアントに送信する。コンテンツを受信したクライアントはクライアントのコンテンツデータベースに一時保存する。クライアントでは認識結果をユーザーＩ／Ｆを介してディスプレイに表示したり、あるいは認識結果を基に何らかの処理が行われる。なお応用過程として、サブサーバーはメインサーバーが解析した結果（コンテンツ）を基に何らかの処理（例えばホームページの抽出や情報検索など）を行うことも可能である。

クライアントの音声認識処理とサーバーの音声認識処理の大きな違いは、音響モデル辞書・言語モデル辞書・単語辞書のうちいずれか１以上を含む辞書群のサイズと種類にある。すなわちクライアントで使用する辞書群は、音響モデル辞書・言語モデル辞書・単語辞書のうちいずれか１以上を含む比較的小語彙の辞書群であるのに対して、サーバーのそれは音響モデル辞書・言語モデル辞書・単語辞書のうちいずれか１以上を含む比較的大語彙の辞書群である。

例えば、クライアントの音響モデル辞書・言語モデル辞書・単語辞書のうちいずれか１以上を含む辞書群の構成要素である、音響モデル辞書は音素モデル辞書（音声を子音と母音で解析する音素が登録された辞書）だけからなり、言語モデル辞書も語彙のみからなる辞書（文法なしの単語のみの辞書）からなる。

一方、サーバーでの音響モデル辞書は音素辞書、音節辞書なども含み、言語モデルでは語彙辞書だけなく、Ｎグラムの文法辞書が含まれる。また実際に使用された言語表現を蓄積、整理した例文集であるコーパスなども、音響モデル辞書・言語モデル辞書・単語辞書のうちいずれか１以上を含む辞書群に含まれる。辞書は本発明では既存のものを使用し、先に述べたように内容も異なるが、基本的に語彙の大小から、クライアントで使用する音響モデル辞書・言語モデル辞書・単語辞書のうちいずれか１以上を含む辞書群を単に「音響モデル辞書・言語モデル辞書・単語辞書のうちいずれか１以上を含む小語彙辞書群」と呼び、サーバーで使用する音響モデル辞書・言語モデル辞書・単語辞書のうちいずれか１以上を含む辞書群を「音響モデル辞書・言語モデル辞書・単語辞書のうちいずれか１以上を含む大語彙辞書群」と呼ぶことにする。

すなわち、本発明では、クライアントでの音声認識は限られた範囲での音声認識が行える音響モデル辞書・言語モデル辞書・単語辞書のうちいずれか１以上を含む辞書群であるのに対して、サーバーでの音声認識は自然言語（基本的に制限されない語彙を用いた言葉）の音声認識が行える音響モデル辞書・言語モデル辞書・単語辞書のうちいずれか１以上を含む辞書群である。

音声認識は研究のレベルから実用の段階に入り、様々な分野での応用が考えられている。とくに著しいのが通信の世界で、電話やインターネットでの音声入力による音声認識である。例えば病院やレストランの電話予約時の音声認識、インターネットのホームページにおける音声認識などがある。カーナビにおける指示を音声で行うシステムもすでに発表されている。音声認識は大量の語彙（文法も含め）を必要とし、処理時間も掛かるために、通信においてはサーバー側にすべての処理が任されている。端末がスタンドアロンで行う場合には限られた語彙での音声認識になっている。

音声認識が行えるという確かな手ごたえは、各業界が感じてはいるが、本格的に導入されているというところまで到っていないのが現状である。その原因は大容量のメモリが必要であり、かつ処理時間が掛かるためである。とくにネットワーク（例えばインターネット）で使用する場合には、サーバーだけで音声認識を行うと、不特定多数のクライアントからの音声データを処理しきれない。本発明は、このような状況を打破するために有効である。

本発明はクライアントとサーバーで処理の分散を行っている。先にも述べたように、限られた範囲の会話なら少ない単語（語彙）で対応することができる。この点を重視し、本発明ではクライアントで処理する音声認識とサーバーで処理する音声認識とに分割し、クライアント／サーバー音声認識選択処理プログラムによって入力された音声をどちらで処理するかを判定し、クライアントで処理できるものはクライアントで処理し、サーバーでなければ処理できないもののみをサーバーに送信して処理している。これによってサーバーの負荷を軽減し、限定された音声処理から自然語の音声処理までをハードウェアに負担を掛けることなく行えるようにしてある。また選択処理プログラムが自動的に処理の振り分けを行っているために、ユーザーに音声認識処理のための負担を掛けることなく行えるのも、本発明の効果である。

サーバーですべての音声認識処理を行うシステムでは、音声認識処理のための負荷をサーバーに追わせているだけでなく、そのつどクライアントからサーバーへの音声データを送信しなければならないために、回線にも大きな負担となる。背景技術で挙げた『ホームページシステム』では、ホームページにそのページ独自の音響モデル辞書・言語モデル辞書・単語辞書のうちいずれか１以上を含む辞書群を送信し、そのホームページで使用できる音声を限定使用するような方法も、サーバーへの負荷の軽減という点では優れているが、そのつど音響モデル辞書・言語モデル辞書・単語辞書のうちいずれか１以上を含む辞書群をダウンロードするために、それだけ余分なデータを送信しなければならず、回線への負荷やダウンロード時間という点で問題を残している。

この点、本発明ではよく使われる語彙に対する音響モデル辞書・言語モデル辞書・単語辞書のうちいずれか１以上を含む辞書群を予めクライアントが備えているために、ダウンロードによる余分な時間もなくすことができる。しかもよく利用される語彙に関してはクライアントの音響モデル辞書・言語モデル辞書・単語辞書のうちいずれか１以上を含む小語彙辞書群が備えているために、語彙の音声認識におけるヒット率も高く、サーバーへの負荷の軽減、回線への負荷の軽減という二つの面でのメリットをもっている。

本発明ではクライアント用の音響モデル辞書・言語モデル辞書・単語辞書のうちいずれか１以上を含む辞書群をサーバーから提供する手段も用意している。利用する分野や言語によって、使われる語彙や文法は異なる。音響モデル辞書・言語モデル辞書・単語辞書のうちいずれか１以上を含む辞書群はパッケージの形態を成していて、そっくり入れ替えることができる。この分野別、言語別パッケージ化音響モデル辞書・言語モデル辞書・単語辞書のうちいずれか１以上を含む辞書群をサーバーからダウンロードし、音響モデル辞書・言語モデル辞書・単語辞書のうちいずれか１以上を含む小語彙辞書群を入れ替えることによって、その分野あるいは使用言語に対応した音声認識システムをクライアント上に構築することができる。

またこれにより、クライアントでの音声認識におけるヒット率を高めることができる。ダウンロードされた音響モデル辞書・言語モデル辞書・単語辞書のうちいずれか１以上を含む辞書群は意図的に消したり、別のもので上書きしない限りそのままクライアントに保存されるものであるから、ダウンロード処理と音声認識処理とは切り離して処理でき、音声認識時の回線への負荷を掛けることはない。

今後、カーナビや携帯電話といった移動型・携帯型端末装置における音声認識利用分野が増大することが予想される。ＩＣ技術の進歩から、これらの移動型、携帯型端末におけるメモリの大量化や処理の高速化が望めるだろうが、端末だけで自然言語に対応した辞書をこれらの端末が行うことは、当面望めないだろう。かといって、サーバーにすべてを依存することは、利用者が増大したときに、サーバー側の対応が難しくなることが予想される。このような将来的問題点も、本発明の音声認識処理なら、音声認識処理の分散により、容易に対応することができる。

発明の実施の形態を図を用いて説明する。図１は、本発明のシステム構成図である。サーバー2とクライアント1から構成され、両者はネットワーク9で接続されている。ネットワークは一般にインターネットである。ユーザーの音声はマイク（図示略）で拾われ、ＡＤＣ（フロントエンド）110でアナログ・デジタル変換が行われ、フロントエンド特徴量が抽出され、音声認識プログラム120に渡される。音声認識プログラムはクライアント／サーバー音声認識選択処理プログラム121（以下、“選択処理プログラム”と記述）と音声認識エンジン122とからなる。選択処理プログラムは、フロントエンドで抽出された特徴量の音声認識をクライアントの音声認識エンジン122で行うか、サーバー2の音声認識エンジンで行うかの決定を行う。便宜上、クライアントの音声認識エンジンを「小語彙音声認識エンジン」と呼び、サーバーの音声認識エンジンを「大語彙音声認識エンジン」と呼ぶ。

図２は、選択処理プログラムのプログラム構成を示したもので、フロントエンドＩ／Ｆで受けた特徴量は選択処理ルーチンで選んだ音声認識エンジンに各Ｉ／Ｆで送信する。なお、ルーチン、Ｉ／Ｆという記述にしているが、基本的にはいずれも選択処理プログラムを構成するサブルーチン（Ｃ言語の場合には関数）である。どちらの音声認識エンジンを使用するかの判定は、基本的にクライアントに音響モデル辞書・言語モデル辞書・単語辞書のうちいずれか１以上を含む小語彙辞書群（小語彙辞書群）123があるかどうかで決める。

すなわち、音響モデル辞書・言語モデル辞書・単語辞書のうちいずれか１以上を含む小語彙辞書群123がクライアントにある場合には、特徴量は小語彙音声認識エンジンＩ／Ｆを介して小語彙音声認識エンジン122に渡され、小語彙音声認識エンジンによって音声認識が行われる。音声認識結果は、コンテンツＤＢ130に書き出され、ユーザーＩ／Ｆ140を介してディスプレイに表示されたり、あるいは何らかの操作（例えば、コマンドの実行など）が行われる。小語彙音声認識エンジンが認識不可能とした場合には、特徴量は小語彙音声認識エンジンから小語彙音声認識エンジンＩ／Ｆに渡され、サーバーＩ／Ｆを通してネットワーク9に送り出され、サーバーに送信される。選択処理ルーチンがサーバーを選んだ場合も、特徴量はサーバーＩ／Ｆからネットワークに送り出される。なお、ＤＢはデータベースの略で、以下ではデータベースを“ＤＢ”で統一表記する。

音声認識はクライアントで行う場合には、小語彙音声認識エンジンが音響モデル辞書・言語モデル辞書・単語辞書のうちいずれか１以上を含む小語彙辞書群123を用いて行い、サーバーが行う場合には、サーバーの大語彙音声認識エンジン（図示略）が音響モデル辞書・言語モデル辞書・単語辞書のうちいずれか１以上を含む大語彙辞書群211を用いて行う。音響モデル辞書・言語モデル辞書・単語辞書のうちいずれか１以上を含む小語彙辞書群と音響モデル辞書・言語モデル辞書・単語辞書のうちいずれか１以上を含む大語彙辞書群との違いは、語彙の量だけでなく、課題を解決するための手段で記述したように、その内容も異なる。音響モデル辞書・言語モデル辞書・単語辞書のうちいずれか１以上を含む小語彙辞書群の語彙数はおよそ数千から数万であり、通常の簡単な単語レベル、文節レベルの認識が行えるようになっている。これに対して音響モデル辞書・言語モデル辞書・単語辞書のうちいずれか１以上を含む大語彙辞書群は使用する辞書にもよるが、基本的に無制限である。また文書事例を集めたコーパスなども、サーバーには備えられている。

サーバーで音声認識を行う場合（選択処理プログラムがサーバーを選択した場合）には、サーバーＩ／Ｆが特徴量をネットワークに送り出し、ネットワークを介してメインサーバー210が受信し、音声認識処理を行う。このときに使われる辞書が音響モデル辞書・言語モデル辞書・単語辞書のうちいずれか１以上を含む大語彙辞書群211である。音声認識結果はメインサーバーからサブサーバー220に引き渡され、サービスコンテンツＤＢ221に書き出される。さらに、サブサーバーは音声認識結果に対応する情報（データ、コンテンツなど）をネットワークに送り出す。クライアントはサーバーの音声認識結果をコンテンツＤＢ130に一時保管する（図１では直接ＤＢ130で受けているようになっているが、実際にはサーバーＩ／Ｆを介してコンテンツに書かれている）。

上記では、選択処理プログラムがサーバーの音響モデル辞書・言語モデル辞書・単語辞書のうちいずれか１以上を含む大語彙辞書群を使う場合として、クライアント上に音響モデル辞書・言語モデル辞書・単語辞書のうちいずれか１以上を含む辞書群が無い場合と、音響モデル辞書・言語モデル辞書・単語辞書のうちいずれか１以上を含む小語彙辞書群では音声認識が不可能の場合を挙げたが、予めサーバーを選択するようにセットしておくこともできる。例えば音声で「サーバーで音声認識を行う」と指示を端末に出すことにより、選択処理では無条件でサーバーを選ぶことができる手段も用意しておく。

このときの音声による指示の音声認識の場合には、クライアントの小語彙音声認識エンジンが行う。図３は選択処理プログラムがサーバーかクライアントかの選択条件判定をまとめたもので、サーバー選択サインがオンの場合には無条件にサーバーで大語彙音声認識処理を行っている。このサーバー選択サインは「サーバーで音声認識を行う」とか、「サーバー選択サイン、オン」などの音声指示でオンにすることができる。当然、このサインの初期値はオフである。またサーバー選択サインの切換はキー操作でも可能にしておく。

音響モデル辞書・言語モデル辞書・単語辞書のうちいずれか１以上を含む小語彙辞書群はセットで入れ替えることのできる辞書である。この音響モデル辞書・言語モデル辞書・単語辞書のうちいずれか１以上を含む辞書群はサーバーが提供している。サービスコンテンツＤＢ221は音声認識結果の一時保管のほかに、クライアントサービス用の音響モデル辞書・言語モデル辞書・単語辞書のうちいずれか１以上を含む小語彙辞書群をいくつか含んでいる。例えば、最近は日本にも多くの外国人が住んでいるが、各国の言語に合わせた音響モデル辞書・言語モデル辞書・単語辞書のうちいずれか１以上を含む小語彙辞書群を用意しておけば、各言語に合わせた音声認識がクライアントでも行える。中国人が携帯電話で音声認識システムを使用する場合には、予め中国語（標準は北京語）用音響モデル辞書・言語モデル辞書・単語辞書のうちいずれか１以上を含む小語彙辞書群（場合によっては音声認識エンジンも含む）をクライアントにダウンロードすることによって、中国語の音声認識を本システムでそのまま利用することができる。また利用する分野によって、使用する用語が異なる。

従って、クライアントでのヒット率を挙げるために、各応用分野での頻繁に使用される語彙を音響モデル辞書・言語モデル辞書・単語辞書のうちいずれか１以上を含む辞書群として用意しておけば、どの分野の音声認識で利用したいかにより、ダウンロードする音響モデル辞書・言語モデル辞書・単語辞書のうちいずれか１以上を含む小語彙辞書群を決めることもできる。例えば、病院やレストランの予約システムで使用する場合とか、インターネット株取引で使う場合とかなどによって、分野別音響モデル辞書・言語モデル辞書・単語辞書のうちいずれか１以上を含む小語彙辞書群を用意しておけば、ユーザーが利用したい分野ごとに音響モデル辞書・言語モデル辞書・単語辞書のうちいずれか１以上を含む辞書群を選択することができ、クライアントでの音声認識のヒット率も高めることができる。音響モデル辞書・言語モデル辞書・単語辞書のうちいずれか１以上を含む小語彙辞書群はいったんダウンロードしておけば、他の音響モデル辞書・言語モデル辞書・単語辞書のうちいずれか１以上を含む辞書群で書き換えたり、意図的に消したりしない限り、クライアントに保存されているので、そのまま何度でも繰り返し利用することができる。このため、ダウンロード時間はダウンロード時のみに必要であり、音声認識処理速度に影響することはない。

本発明ではよく使われる語彙に対する音響モデル辞書・言語モデル辞書・単語辞書のうちいずれか１以上を含む辞書群を予めクライアントが備えているために、ダウンロードによる余分な時間もなくすことができる。しかもよく利用される語彙に関してはクライアントの音響モデル辞書・言語モデル辞書・単語辞書のうちいずれか１以上を含む小語彙辞書群が備えているために、語彙の音声認識におけるヒット率も高く、サーバーへの負荷の軽減、回線への負荷の軽減という二つの面でのメリットをもっている。

本発明の音声認識処理システムのシステム構成図である。本発明のクライアント／サーバー選択処理プログラムの構成とデータの流れの説明図である。本発明のクライアント／サーバー選択処理プログラムでクライアントで音声認識処理を行うか、あるいはサーバーで行うかの判定を説明するためのフローチャートである。

符号の説明

１クライアント（端末）
１１０ＡＤＣ（アナログ／デジタル変換コントローラー）、フロントエンド
１２０音声認識プログラム
１２１クライアント／サーバー音声認識選択処理プログラム（選択処理プログラム）
１２２音声認識エンジン（小語彙音声認識エンジン）
１２３音響モデル辞書・言語モデル辞書・単語辞書のうちいずれか１以上を含む小語彙辞書群（小語彙辞書群）
１３０コンテンツデータベース
１４０ユーザーインターフェース（ユーザーＩ／Ｆ）
２サーバー
２１０メインサーバー（音声認識エンジンを含む）
２１１音響モデル辞書・言語モデル辞書・単語辞書のうちいずれか１以上を含む大語彙辞書群（大語彙辞書群）
２２０サブサーバー
２２１サービスコンテンツデータベース
（音声認識結果の一時保管用かつユーザーサービス用音響モデル辞書・言語モデル辞書・単語辞書のうちいずれか１以上を含む小語彙辞書群を含むＤＢ）
９ネットワーク（おもにインターネット）
ＤＢデータベース

Claims

ネットワークで接続されたサーバーコンピュータ装置とクライアントコンピュータ装置から構成されたコンピュータネットワークシステムにおいて、
(1)前記サーバーコンピュータ装置に第１の音声認識エンジンを備え、
(2)前記クライアントコンピュータ装置に第２の音声認識エンジンを備え、
(3)前記クライアントコンピュータ装置に、音声入力データに対して前記第１の音声認識エンジンと前記第２の音声認識エンジンのどちらで処理するか選択判定する音声認識エンジン選択処理手段
を備えたことを特徴とする音声認識を行うコンピュータネットワークシステム。
前記音声認識エンジン選択処理手段が
(1)前記音声入力が音響モデル辞書、言語モデル辞書、単語辞書のうちいずれか１以上を含む辞書群で記述可能で、かつ前記辞書群が前記クライアントコンピュータ装置に存在する場合は、前記第２の音声認識エンジンを、
(2)その他の場合には前記第１の音声認識エンジンを、
選択する手段を備えたことを特徴とする請求項１記載の音声認識を行うコンピュータネットワークシステム。
前記音声入力データが前記第１の音声認識エンジンにおいて処理される場合、
前記クライアントコンピュータ装置に音声入力データから該音声入力データの特徴量を抽出して前記サーバーコンピュータ装置に送信する手段
を備えたことを特徴とする請求項１または請求項２記載の音声認識を行うコンピュータネットワークシステム、
及び、該特徴量を受信した前記サーバーコンピュータ装置は前記サーバーコンピュータ装置上の音声認識エンジンにより前記特徴量を解析する音声認識手段、およびその音声認識結果を前記クライアントコンピュータ装置に送信する手段、
を備えたことを特徴とする請求項１及び請求項２に記載の音声認識を行うコンピュータネットワークシステム。