[go: up one dir, main page]

JP2005249829A - 音声認識を行うコンピュータネットワークシステム - Google Patents

音声認識を行うコンピュータネットワークシステム Download PDF

Info

Publication number
JP2005249829A
JP2005249829A JP2004055973A JP2004055973A JP2005249829A JP 2005249829 A JP2005249829 A JP 2005249829A JP 2004055973 A JP2004055973 A JP 2004055973A JP 2004055973 A JP2004055973 A JP 2004055973A JP 2005249829 A JP2005249829 A JP 2005249829A
Authority
JP
Japan
Prior art keywords
dictionary
server
speech recognition
client
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004055973A
Other languages
English (en)
Inventor
Kiyoyuki Suzuki
清幸 鈴木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced Media Inc
Original Assignee
Advanced Media Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Advanced Media Inc filed Critical Advanced Media Inc
Priority to JP2004055973A priority Critical patent/JP2005249829A/ja
Publication of JP2005249829A publication Critical patent/JP2005249829A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】 ネットワークで接続されたサーバーとクライアント(端末)において、クライアントで自然言語に近い音声入力に対しても音声認識が対応でき、効率的な音声認識処理が行えるシステムを提供することである。
【解決手段】 ネットワークで接続されたサーバーコンピュータ装置とクライアントコンピュータ装置から構成されたコンピュータネットワークシステムにおいて、(1)前記サーバーコンピュータ装置に第1の音声認識エンジンを備え、(2)前記クライアントコンピュータ装置に第2の音声認識エンジンを備え、(3)前記クライアントコンピュータ装置に、音声入力データに対して前記第1の音声認識エンジンと前記第2の音声認識エンジンのどちらで処理するか選択判定する音声認識エンジン選択処理手段を備えたことを特徴とする音声認識を行うコンピュータネットワークシステムである。
【選択図】 図1

Description

本発明は、ネットワークで接続されたサーバーコンピュータ装置(以下サーバーと略する)とクライアントコンピュータ装置(以下クライアントと略する)から構成されたコンピュータネットワークシステムにおいて、クライアント側で入力された音声入力データを音声認識処理するシステムに関する。
音声処理には大きく分けて音声認証と音声認識がある。前者は入力された音声で個人認証を行うものであり、対象になる音声は一般に声紋と呼ばれる個々に記録した音声データである。従って、音声認証では言葉の意味にまで立ち入らない。後者は音声から意味のある言葉を解析するものであり、音響モデル、言語モデルなどを必要とする。音声認識は音声認証に比べて高度な技術とそれに伴う処理時間が要求される。
音声認識は音声分析過程、探索過程、応用過程とから構成される。音声分析過程では、音声から認識に有効な特徴量の抽出を行う。探索過程では、この特徴量を入力データにして、入力音声に最もよく合致する音響モデルの列を言語モデルの拘束下で探し出す。認識された音声データは文字列などに変換される。応用過程では認識された音声データはヒューマンインターフェースとして利用される。例えば、音声入力によるマシンの操作、音声入力による文書化、音声入力による指示とそれに対応したマシンからの合成音による返答など、様々な応用分野が考えられている。
音響モデルは音素をモデル化したもので、一般に音声特徴の確率モデルとしての隠れマルコフモデル(HMM)が利用されている。大量の学習データから各音素の特徴をHMMにより表現して音響モデルが作られ、これによって入力音声の部分部分がどの音素に近いかが評価される。連続音声認識には音響モデルとともに言語モデル(統計的言語モデル)が使用される。言語モデルは、語彙、文法あるいは言語統計などにより、音声内容を規定するものであり、最も広く使用されているのがNグラムモデルである。Nグラムモデルとは、単語や文字の生成確率をマルコフモデルで近似したモデルであり、単語wiの生成確率Pは直前の(n−1)個の単語wi-n+1のみに依存するとみなされ、
P(w)=ПP(wi|wi-n+1…wi-1
と計算される。ここでwは単語列w1〜wnであり、Пは添字iの階乗を表す。音響モデルによって推測される単語列wの組み合わせは、生成確率Pの計算によって最も高い値の単語列が音声認識の結果となる(最尤推定法)。
日本語は最後まで聞かないと、その言葉が肯定か否定かあるいは推量なのか分からないとよく言われる。その中にあって、予約語は数少ない断定的な使い方をする場合に使用される。例えば、「まったく」とか「ぜんぜん(全然)」は否定形を伴う副詞で、「ぜんぜん」と文頭に来れば、「ない」の否定形が予想される。また日本語は2音節、3音節などの短い単語が多く、同音異義語が多く存在する。例えば、「ない」と発音された場合、否定形の「ない」なのか、外に対する「内」なのかは、文章で判断することになる。この場合、「ない」の前に「ぜんぜん」があれば、「ない」は否定形の「ない」と判断される。このような予約語のような場合には、2グラムモデルで解決できる。もっとも最近では「ぜんぜん」が肯定でも使われるようになってきている。このように言語は生き物であるから、言語モデル辞書も時代に応じて変える必要性がある。
音声認識技術も飛躍的な進歩を遂げている。その背景にはハードウェアの発展が挙げられる。CPUの演算処理の高速化やメモリの大容量化・小型化が挙げられる。ディクテイション(音声入力)によるカーナビへの指示などはその技術の一つである。例えば、『地図情報提供システム』(特許文献1)では、請求項の一つとして、端末機(カーナビやノート型パソコン等)で音声入力による目的地指示や目的地の変更指示などを行う方法が提唱している。『移動体無線端末』(特許文献2)では、移動端末が周辺環境の音声を認識して、端末の電源を自動的に切断したりマナーモードに設定するなどの機能を有する装置を提唱している。例えば、電車や映画館といった場所でアナウンスされる「ポケットベル、携帯電話の電源をお切り下さい」等を携帯電話のマイクロフォンが拾い、該音声を認識して電源を自動切断する手段が述べられている。このシステムでは、移動端末は音声認識のための語彙辞書を備えている。『携帯電話用インターネット情報・音声検索システム』(特許文献3)では、携帯電話からの音声をインターネットを通じてサーバーが受信し、サーバー上で音声認識してテキスト化し、情報検索するシステムについて述べられている。このシステムでは、音声認識のための装置はサーバー側に備えられている。
音声による個人認証を扱ったものとしては、『音声による個人認証システム』(特許文献4)がある。このシステムは声紋による音声認証を行うものであるが、同時にキーワードによる個人認証も行っているために、声紋分析(照合)のほか、音声認識も行っている。『ホームページシステム』(特許文献5)では、ホームページ単位にサーバーからクライアントにホームページとともにそのページ用のルールグラマを送信し、ユーザー側(クライアント側)で音声認識が行えるシステムを提供している。音声認識の単位がホームページ単位であるために、送信時間も短く、またルールグラマも小容量であるという利点を持っている。なおここでいうルールグラマとは、音響モデル用辞書、言語モデル用辞書および言語辞書(かな漢字変換用辞書)のうち1以上の辞書を含む辞書群を指す。
特開2003−288536号公報 特開2002−335304号公報 特開2002−044256号公報 特開2003−302999号公報 特開2003−323190号公報
音声認識技術は飛躍的な進歩を遂げてきている。かつては単語レベルの認識しかできなかった音声認識も、現在では自然言語に近い言葉も認識が可能となってきている。しかしその一方、自然言語を認識できるようにするために、大語彙辞書群が必要となってきている。言語認識技術が携帯電話やカーナビなどへ応用が進んできているが、現実にはこれらの端末に大語彙辞書群を搭載するまでには到っていない。メモリ上の制約と処理スピードの制約があるからである。背景技術で見てきたように、多くの事例では、言語認識はサーバー側に委ねられている。辞書などをクライアント側にサーバーからダウンロードする方法も提唱されているものもあるが、その場合、限られた機能に限定されている。実際に公開特許で提唱されているクライアント側で音声認識を行うというシステムでも、その辞書の大きさについては触れられていないのが現状である。
処理の分散化という点で、A/D変換(音声のデジタル化)はクライアントで行い、デジタル音声信号をサーバーが受信し、サーバーで音声認識を行うというシステムはある。しかし音声認識で最も時間の掛かる音声認識処理部分は、サーバーに委ねられることになるから、多数のクライアントからの音声を同時に認識するとなると、時間的問題が生じてくる。本来なら、端末(クライアント)に音声認識処理に必要な音声認識エンジンや辞書群(本発明では音響モデル辞書・言語モデル辞書・単語辞書のうちいずれか1以上を含む)をサーバーからダウンロードし、端末で音声認識を行った結果(通常、文字列<テキスト形式>)のみをサーバーに送信し、サーバーで情報検索などの処理を行うのが最も好ましい。ただし移動体端末や携帯端末(例えば、カーナビや携帯電話等)の場合には、音響モデル辞書・言語モデル辞書・単語辞書のうちいずれか1以上を含む辞書群をダウンロードするのに時間が掛かるだけでなく、メモリやCPU速度などが問題となってくる。限られた単語レベルでの音声認識ならばこれも可能であろうが、自然言語に近い音声認識を行うためには大語彙が必要となり、現状では現実的でない。
以上の点に鑑み、本発明が解決しようとする課題は、ネットワークで接続されたサーバーとクライアント(端末)において、クライアントで自然言語に近い音声入力に対しても音声認識が対応でき、効率的な音声認識処理が行えるシステムを提供することである。
上記課題を解決するため、請求項1に記載された発明は、ネットワークで接続されたサーバーコンピュータ装置とクライアントコンピュータ装置から構成されたコンピュータネットワークシステムにおいて、
(1)前記サーバーコンピュータ装置に第1の音声認識エンジンを備え、
(2)前記クライアントコンピュータ装置に第2の音声認識エンジンを備え、
(3)前記クライアントコンピュータ装置に、音声入力データに対して前記第1の音声認識エンジンと前記第2の音声認識エンジンのどちらで処理するか選択判定する音声認識エンジン選択処理手段
を備えたことを特徴とする音声認識を行うコンピュータネットワークシステムである。
請求項2に記載された発明は、前記音声認識エンジン選択処理手段が
(1)前記音声入力が音響モデル辞書、言語モデル辞書、単語辞書のうちいずれか1以上を含む辞書群で記述可能で、かつ前記辞書群が前記クライアントコンピュータ装置に存在する場合は、前記第2の音声認識エンジンを、
(2)その他の場合には前記第1の音声認識エンジンを、
選択する手段を備えたことを特徴とする請求項1記載の音声認識を行うコンピュータネットワークシステムである。
請求項3に記載された発明は、前記音声入力データが前記第1の音声認識エンジンにおいて処理される場合、
前記クライアントコンピュータ装置に音声入力データから該音声入力データの特徴量を抽出して前記サーバーコンピュータ装置に送信する手段
を備えたことを特徴とする請求項1または請求項2記載の音声認識を行うコンピュータネットワークシステム、
及び、該特徴量を受信した前記サーバーコンピュータ装置は前記サーバーコンピュータ装置上の音声認識エンジンにより前記特徴量を解析する音声認識手段、およびその音声認識結果を前記クライアントコンピュータ装置に送信する手段、
を備えたことを特徴とする請求項1及び請求項2に記載の音声認識を行うコンピュータネットワークシステムである。
通常の日常会話では、2,000語程度を知っていればできると言われている。しかし、専門分野がこれに加わると、一気に使われる用語が増える。経済の話、科学の話、世界情勢の話、政治の話など、それぞれの話題によって使われる単語が異なり、使われる語彙も一気に増える。ただし、構文(文法)はほとんど同じであるから、語彙レベルの問題を解決できれば、これに対処できることになる(ただし、Nグラムなどの文法を使う場合には構文も増える)。
本発明では、比較的小語彙の辞書群と比較的大語彙の辞書群を用意し、前者をクライアントに備え、後者をサーバーに備えたシステムにする。すなわち、通常の基本的な音声認識はクライアントで行えるように、大語彙の辞書群を必要とする音声認識はサーバーで行う手段とに分け、音声認識処理の効率化を図る。
なお本発明における用いる辞書群は、音響モデル辞書・言語モデル辞書・および単語辞書のうちいずれか1以上を含むものが用いられる。単語辞書は言語モデル辞書に含めることも可能である。
本発明ではクライアント/サーバー音声認識選択処理プログラム(以下、略して「選択処理プログラム」と記述)をクライアントに備え、クライアントで入力された音声の音声認識をクライアントで行うかサーバーで行うかを判断する。まず、クライアントのシステムから説明する。
クライアントはパソコン、携帯電話、カーナビなどの端末であり、クライアントとサーバーは通信ネットワークで結ばれている。音声入力を行うためにクライアントのシステムには、マイクロホン(音声入力装置)が備えてあり、マイクロホンから入力された音声はADC(アナログ/デジタル変換コントローラ)によって、入力音声をデジタル化(量子化)し、フロントエンドで特徴的な音響のみを算出・補正して特徴量を作成する。フロントエンドによって抽出された特徴量を受けて、選択処理プログラムは音声認識をクライアントで行うか、サーバーで行うかを判定する。
判定は、基本的には、クライアント上に音響モデル辞書・言語モデル辞書・単語辞書のうちいずれか1以上を含む辞書群が存在するかどうかで行う。しかし、クライアント上に置く音響モデル辞書・言語モデル辞書・単語辞書のうちいずれか1以上を含む辞書群は小語彙辞書群であり、すべてがクライアントで解決することができないこともある。そこで、クライアントで処理することになった場合でも、
・解読不可能なときには選択処理プログラムを介して特徴量のサーバーへ
の自動送信。
・手操作(または音声指示)によるサーバーの選択で特徴量の送信
を行えるようにしておく。
クライアントで音声認識を行う場合には、選択処理プログラムからの特徴量を音声認識エンジンが受け、音響モデル辞書・言語モデル辞書・単語辞書のうちいずれか1以上を含む辞書群を用いて音声認識を行い、音声認識結果をコンテンツデータベースに書き出す。音声認識結果は文字列化(テキスト化)されていて、その結果はユーザーインターフェース(ユーザーI/F)を介してディスプレイに表示する。このほか、何らかの操作が行われることもある。例えば、情報検索を行う場合には、「xx地区の地図情報を取得」と音声入力したとき、“xx地区+地図情報”(テキスト形式)を検索キーとしてサーバーに送信し、サーバーは受信した検索キーでxx地区の地図情報を検出してクライアントに送信するなどの処理である。もちろんこの場合には、音声認識結果を送信するプログラムを介する必要がある。前記のような処理が限定されているものに関しては、該処理を選択処理プログラムに組み込んでおくことも可能である。
音声認識エンジンが音声認識を行うときに使用する辞書群は、音響モデル辞書・言語モデル辞書・単語辞書のうちいずれか1以上を含むものである。音響モデル辞書は音素モデル辞書あるいは音節のサブワードモデル辞書などからなり、言語モデル辞書は言語の文法を記述した辞書である。音声認識エンジンが解析した音声はテキスト化されてコンテンツデータベースに保管され、ユーザーI/Fを介してユーザーに表示したり、あるいは解析結果を基に何らかの処理が行われる。
一方、選択処理プログラムがサーバーを選択した場合には、フロントエンドで抽出された特徴量を、該選択処理プログラムに含まれるプログラムインターフェース(プログラムI/F)により、サーバーに送信し、サーバーで音声認識を行う。サーバーはメインサーバーとサブサーバーとから構成される。メインサーバーは、クライアントから通信ネットワークで送信されてきた特徴量を受信して音声認識を行うサーバーである。
メインサーバーは音響モデル辞書・言語モデル辞書・単語辞書のうちいずれか1以上を含む大語彙辞書群を備えていて、該サーバーの音声認識エンジンが受信した特徴量を解析し、テキスト化する。認識結果はサブサーバーに送信され、サブサーバーのサービスコンテンツデータベースに一時保存される。さらにサブサーバーはサービスコンテンツデータベースに保存されている認識結果に対応する情報(データ、コンテンツなど)を通信ネットワークを介してクライアントに送信する。コンテンツを受信したクライアントはクライアントのコンテンツデータベースに一時保存する。クライアントでは認識結果をユーザーI/Fを介してディスプレイに表示したり、あるいは認識結果を基に何らかの処理が行われる。なお応用過程として、サブサーバーはメインサーバーが解析した結果(コンテンツ)を基に何らかの処理(例えばホームページの抽出や情報検索など)を行うことも可能である。
クライアントの音声認識処理とサーバーの音声認識処理の大きな違いは、音響モデル辞書・言語モデル辞書・単語辞書のうちいずれか1以上を含む辞書群のサイズと種類にある。すなわちクライアントで使用する辞書群は、音響モデル辞書・言語モデル辞書・単語辞書のうちいずれか1以上を含む比較的小語彙の辞書群であるのに対して、サーバーのそれは音響モデル辞書・言語モデル辞書・単語辞書のうちいずれか1以上を含む比較的大語彙の辞書群である。
例えば、クライアントの音響モデル辞書・言語モデル辞書・単語辞書のうちいずれか1以上を含む辞書群の構成要素である、音響モデル辞書は音素モデル辞書(音声を子音と母音で解析する音素が登録された辞書)だけからなり、言語モデル辞書も語彙のみからなる辞書(文法なしの単語のみの辞書)からなる。
一方、サーバーでの音響モデル辞書は音素辞書、音節辞書なども含み、言語モデルでは語彙辞書だけなく、Nグラムの文法辞書が含まれる。また実際に使用された言語表現を蓄積、整理した例文集であるコーパスなども、音響モデル辞書・言語モデル辞書・単語辞書のうちいずれか1以上を含む辞書群に含まれる。辞書は本発明では既存のものを使用し、先に述べたように内容も異なるが、基本的に語彙の大小から、クライアントで使用する音響モデル辞書・言語モデル辞書・単語辞書のうちいずれか1以上を含む辞書群を単に「音響モデル辞書・言語モデル辞書・単語辞書のうちいずれか1以上を含む小語彙辞書群」と呼び、サーバーで使用する音響モデル辞書・言語モデル辞書・単語辞書のうちいずれか1以上を含む辞書群を「音響モデル辞書・言語モデル辞書・単語辞書のうちいずれか1以上を含む大語彙辞書群」と呼ぶことにする。
すなわち、本発明では、クライアントでの音声認識は限られた範囲での音声認識が行える音響モデル辞書・言語モデル辞書・単語辞書のうちいずれか1以上を含む辞書群であるのに対して、サーバーでの音声認識は自然言語(基本的に制限されない語彙を用いた言葉)の音声認識が行える音響モデル辞書・言語モデル辞書・単語辞書のうちいずれか1以上を含む辞書群である。
音声認識は研究のレベルから実用の段階に入り、様々な分野での応用が考えられている。とくに著しいのが通信の世界で、電話やインターネットでの音声入力による音声認識である。例えば病院やレストランの電話予約時の音声認識、インターネットのホームページにおける音声認識などがある。カーナビにおける指示を音声で行うシステムもすでに発表されている。音声認識は大量の語彙(文法も含め)を必要とし、処理時間も掛かるために、通信においてはサーバー側にすべての処理が任されている。端末がスタンドアロンで行う場合には限られた語彙での音声認識になっている。
音声認識が行えるという確かな手ごたえは、各業界が感じてはいるが、本格的に導入されているというところまで到っていないのが現状である。その原因は大容量のメモリが必要であり、かつ処理時間が掛かるためである。とくにネットワーク(例えばインターネット)で使用する場合には、サーバーだけで音声認識を行うと、不特定多数のクライアントからの音声データを処理しきれない。本発明は、このような状況を打破するために有効である。
本発明はクライアントとサーバーで処理の分散を行っている。先にも述べたように、限られた範囲の会話なら少ない単語(語彙)で対応することができる。この点を重視し、本発明ではクライアントで処理する音声認識とサーバーで処理する音声認識とに分割し、クライアント/サーバー音声認識選択処理プログラムによって入力された音声をどちらで処理するかを判定し、クライアントで処理できるものはクライアントで処理し、サーバーでなければ処理できないもののみをサーバーに送信して処理している。これによってサーバーの負荷を軽減し、限定された音声処理から自然語の音声処理までをハードウェアに負担を掛けることなく行えるようにしてある。また選択処理プログラムが自動的に処理の振り分けを行っているために、ユーザーに音声認識処理のための負担を掛けることなく行えるのも、本発明の効果である。
サーバーですべての音声認識処理を行うシステムでは、音声認識処理のための負荷をサーバーに追わせているだけでなく、そのつどクライアントからサーバーへの音声データを送信しなければならないために、回線にも大きな負担となる。背景技術で挙げた『ホームページシステム』では、ホームページにそのページ独自の音響モデル辞書・言語モデル辞書・単語辞書のうちいずれか1以上を含む辞書群を送信し、そのホームページで使用できる音声を限定使用するような方法も、サーバーへの負荷の軽減という点では優れているが、そのつど音響モデル辞書・言語モデル辞書・単語辞書のうちいずれか1以上を含む辞書群をダウンロードするために、それだけ余分なデータを送信しなければならず、回線への負荷やダウンロード時間という点で問題を残している。
この点、本発明ではよく使われる語彙に対する音響モデル辞書・言語モデル辞書・単語辞書のうちいずれか1以上を含む辞書群を予めクライアントが備えているために、ダウンロードによる余分な時間もなくすことができる。しかもよく利用される語彙に関してはクライアントの音響モデル辞書・言語モデル辞書・単語辞書のうちいずれか1以上を含む小語彙辞書群が備えているために、語彙の音声認識におけるヒット率も高く、サーバーへの負荷の軽減、回線への負荷の軽減という二つの面でのメリットをもっている。
本発明ではクライアント用の音響モデル辞書・言語モデル辞書・単語辞書のうちいずれか1以上を含む辞書群をサーバーから提供する手段も用意している。利用する分野や言語によって、使われる語彙や文法は異なる。音響モデル辞書・言語モデル辞書・単語辞書のうちいずれか1以上を含む辞書群はパッケージの形態を成していて、そっくり入れ替えることができる。この分野別、言語別パッケージ化音響モデル辞書・言語モデル辞書・単語辞書のうちいずれか1以上を含む辞書群をサーバーからダウンロードし、音響モデル辞書・言語モデル辞書・単語辞書のうちいずれか1以上を含む小語彙辞書群を入れ替えることによって、その分野あるいは使用言語に対応した音声認識システムをクライアント上に構築することができる。
またこれにより、クライアントでの音声認識におけるヒット率を高めることができる。ダウンロードされた音響モデル辞書・言語モデル辞書・単語辞書のうちいずれか1以上を含む辞書群は意図的に消したり、別のもので上書きしない限りそのままクライアントに保存されるものであるから、ダウンロード処理と音声認識処理とは切り離して処理でき、音声認識時の回線への負荷を掛けることはない。
今後、カーナビや携帯電話といった移動型・携帯型端末装置における音声認識利用分野が増大することが予想される。IC技術の進歩から、これらの移動型、携帯型端末におけるメモリの大量化や処理の高速化が望めるだろうが、端末だけで自然言語に対応した辞書をこれらの端末が行うことは、当面望めないだろう。かといって、サーバーにすべてを依存することは、利用者が増大したときに、サーバー側の対応が難しくなることが予想される。このような将来的問題点も、本発明の音声認識処理なら、音声認識処理の分散により、容易に対応することができる。
発明の実施の形態を図を用いて説明する。図1は、本発明のシステム構成図である。サーバー2とクライアント1から構成され、両者はネットワーク9で接続されている。ネットワークは一般にインターネットである。ユーザーの音声はマイク(図示略)で拾われ、ADC(フロントエンド)110でアナログ・デジタル変換が行われ、フロントエンド特徴量が抽出され、音声認識プログラム120に渡される。音声認識プログラムはクライアント/サーバー音声認識選択処理プログラム121(以下、“選択処理プログラム”と記述)と音声認識エンジン122とからなる。選択処理プログラムは、フロントエンドで抽出された特徴量の音声認識をクライアントの音声認識エンジン122で行うか、サーバー2の音声認識エンジンで行うかの決定を行う。便宜上、クライアントの音声認識エンジンを「小語彙音声認識エンジン」と呼び、サーバーの音声認識エンジンを「大語彙音声認識エンジン」と呼ぶ。
図2は、選択処理プログラムのプログラム構成を示したもので、フロントエンドI/Fで受けた特徴量は選択処理ルーチンで選んだ音声認識エンジンに各I/Fで送信する。なお、ルーチン、I/Fという記述にしているが、基本的にはいずれも選択処理プログラムを構成するサブルーチン(C言語の場合には関数)である。どちらの音声認識エンジンを使用するかの判定は、基本的にクライアントに音響モデル辞書・言語モデル辞書・単語辞書のうちいずれか1以上を含む小語彙辞書群(小語彙辞書群)123があるかどうかで決める。
すなわち、音響モデル辞書・言語モデル辞書・単語辞書のうちいずれか1以上を含む小語彙辞書群123がクライアントにある場合には、特徴量は小語彙音声認識エンジンI/Fを介して小語彙音声認識エンジン122に渡され、小語彙音声認識エンジンによって音声認識が行われる。音声認識結果は、コンテンツDB130に書き出され、ユーザーI/F140を介してディスプレイに表示されたり、あるいは何らかの操作(例えば、コマンドの実行など)が行われる。小語彙音声認識エンジンが認識不可能とした場合には、特徴量は小語彙音声認識エンジンから小語彙音声認識エンジンI/Fに渡され、サーバーI/Fを通してネットワーク9に送り出され、サーバーに送信される。選択処理ルーチンがサーバーを選んだ場合も、特徴量はサーバーI/Fからネットワークに送り出される。なお、DBはデータベースの略で、以下ではデータベースを“DB”で統一表記する。
音声認識はクライアントで行う場合には、小語彙音声認識エンジンが音響モデル辞書・言語モデル辞書・単語辞書のうちいずれか1以上を含む小語彙辞書群123を用いて行い、サーバーが行う場合には、サーバーの大語彙音声認識エンジン(図示略)が音響モデル辞書・言語モデル辞書・単語辞書のうちいずれか1以上を含む大語彙辞書群211を用いて行う。音響モデル辞書・言語モデル辞書・単語辞書のうちいずれか1以上を含む小語彙辞書群と音響モデル辞書・言語モデル辞書・単語辞書のうちいずれか1以上を含む大語彙辞書群との違いは、語彙の量だけでなく、課題を解決するための手段で記述したように、その内容も異なる。音響モデル辞書・言語モデル辞書・単語辞書のうちいずれか1以上を含む小語彙辞書群の語彙数はおよそ数千から数万であり、通常の簡単な単語レベル、文節レベルの認識が行えるようになっている。これに対して音響モデル辞書・言語モデル辞書・単語辞書のうちいずれか1以上を含む大語彙辞書群は使用する辞書にもよるが、基本的に無制限である。また文書事例を集めたコーパスなども、サーバーには備えられている。
サーバーで音声認識を行う場合(選択処理プログラムがサーバーを選択した場合)には、サーバーI/Fが特徴量をネットワークに送り出し、ネットワークを介してメインサーバー210が受信し、音声認識処理を行う。このときに使われる辞書が音響モデル辞書・言語モデル辞書・単語辞書のうちいずれか1以上を含む大語彙辞書群211である。音声認識結果はメインサーバーからサブサーバー220に引き渡され、サービスコンテンツDB221に書き出される。さらに、サブサーバーは音声認識結果に対応する情報(データ、コンテンツなど)をネットワークに送り出す。クライアントはサーバーの音声認識結果をコンテンツDB130に一時保管する(図1では直接DB130で受けているようになっているが、実際にはサーバーI/Fを介してコンテンツに書かれている)。
上記では、選択処理プログラムがサーバーの音響モデル辞書・言語モデル辞書・単語辞書のうちいずれか1以上を含む大語彙辞書群を使う場合として、クライアント上に音響モデル辞書・言語モデル辞書・単語辞書のうちいずれか1以上を含む辞書群が無い場合と、音響モデル辞書・言語モデル辞書・単語辞書のうちいずれか1以上を含む小語彙辞書群では音声認識が不可能の場合を挙げたが、予めサーバーを選択するようにセットしておくこともできる。例えば音声で「サーバーで音声認識を行う」と指示を端末に出すことにより、選択処理では無条件でサーバーを選ぶことができる手段も用意しておく。
このときの音声による指示の音声認識の場合には、クライアントの小語彙音声認識エンジンが行う。図3は選択処理プログラムがサーバーかクライアントかの選択条件判定をまとめたもので、サーバー選択サインがオンの場合には無条件にサーバーで大語彙音声認識処理を行っている。このサーバー選択サインは「サーバーで音声認識を行う」とか、「サーバー選択サイン、オン」などの音声指示でオンにすることができる。当然、このサインの初期値はオフである。またサーバー選択サインの切換はキー操作でも可能にしておく。
音響モデル辞書・言語モデル辞書・単語辞書のうちいずれか1以上を含む小語彙辞書群はセットで入れ替えることのできる辞書である。この音響モデル辞書・言語モデル辞書・単語辞書のうちいずれか1以上を含む辞書群はサーバーが提供している。サービスコンテンツDB221は音声認識結果の一時保管のほかに、クライアントサービス用の音響モデル辞書・言語モデル辞書・単語辞書のうちいずれか1以上を含む小語彙辞書群をいくつか含んでいる。例えば、最近は日本にも多くの外国人が住んでいるが、各国の言語に合わせた音響モデル辞書・言語モデル辞書・単語辞書のうちいずれか1以上を含む小語彙辞書群を用意しておけば、各言語に合わせた音声認識がクライアントでも行える。中国人が携帯電話で音声認識システムを使用する場合には、予め中国語(標準は北京語)用音響モデル辞書・言語モデル辞書・単語辞書のうちいずれか1以上を含む小語彙辞書群(場合によっては音声認識エンジンも含む)をクライアントにダウンロードすることによって、中国語の音声認識を本システムでそのまま利用することができる。また利用する分野によって、使用する用語が異なる。
従って、クライアントでのヒット率を挙げるために、各応用分野での頻繁に使用される語彙を音響モデル辞書・言語モデル辞書・単語辞書のうちいずれか1以上を含む辞書群として用意しておけば、どの分野の音声認識で利用したいかにより、ダウンロードする音響モデル辞書・言語モデル辞書・単語辞書のうちいずれか1以上を含む小語彙辞書群を決めることもできる。例えば、病院やレストランの予約システムで使用する場合とか、インターネット株取引で使う場合とかなどによって、分野別音響モデル辞書・言語モデル辞書・単語辞書のうちいずれか1以上を含む小語彙辞書群を用意しておけば、ユーザーが利用したい分野ごとに音響モデル辞書・言語モデル辞書・単語辞書のうちいずれか1以上を含む辞書群を選択することができ、クライアントでの音声認識のヒット率も高めることができる。音響モデル辞書・言語モデル辞書・単語辞書のうちいずれか1以上を含む小語彙辞書群はいったんダウンロードしておけば、他の音響モデル辞書・言語モデル辞書・単語辞書のうちいずれか1以上を含む辞書群で書き換えたり、意図的に消したりしない限り、クライアントに保存されているので、そのまま何度でも繰り返し利用することができる。このため、ダウンロード時間はダウンロード時のみに必要であり、音声認識処理速度に影響することはない。
本発明はクライアントとサーバーで処理の分散を行っている。先にも述べたように、限られた範囲の会話なら少ない単語(語彙)で対応することができる。この点を重視し、本発明ではクライアントで処理する音声認識とサーバーで処理する音声認識とに分割し、クライアント/サーバー音声認識選択処理プログラムによって入力された音声をどちらで処理するかを判定し、クライアントで処理できるものはクライアントで処理し、サーバーでなければ処理できないもののみをサーバーに送信して処理している。これによってサーバーの負荷を軽減し、限定された音声処理から自然語の音声処理までをハードウェアに負担を掛けることなく行えるようにしてある。また選択処理プログラムが自動的に処理の振り分けを行っているために、ユーザーに音声認識処理のための負担を掛けることなく行えるのも、本発明の効果である。
本発明ではよく使われる語彙に対する音響モデル辞書・言語モデル辞書・単語辞書のうちいずれか1以上を含む辞書群を予めクライアントが備えているために、ダウンロードによる余分な時間もなくすことができる。しかもよく利用される語彙に関してはクライアントの音響モデル辞書・言語モデル辞書・単語辞書のうちいずれか1以上を含む小語彙辞書群が備えているために、語彙の音声認識におけるヒット率も高く、サーバーへの負荷の軽減、回線への負荷の軽減という二つの面でのメリットをもっている。
本発明ではクライアント用の音響モデル辞書・言語モデル辞書・単語辞書のうちいずれか1以上を含む辞書群をサーバーから提供する手段も用意している。利用する分野や言語によって、使われる語彙や文法は異なる。音響モデル辞書・言語モデル辞書・単語辞書のうちいずれか1以上を含む辞書群はパッケージの形態を成していて、そっくり入れ替えることができる。この分野別、言語別パッケージ化音響モデル辞書・言語モデル辞書・単語辞書のうちいずれか1以上を含む辞書群をサーバーからダウンロードし、音響モデル辞書・言語モデル辞書・単語辞書のうちいずれか1以上を含む小語彙辞書群を入れ替えることによって、その分野あるいは使用言語に対応した音声認識システムをクライアント上に構築することができる。
またこれにより、クライアントでの音声認識におけるヒット率を高めることができる。ダウンロードされた音響モデル辞書・言語モデル辞書・単語辞書のうちいずれか1以上を含む辞書群は意図的に消したり、別のもので上書きしない限りそのままクライアントに保存されるものであるから、ダウンロード処理と音声認識処理とは切り離して処理でき、音声認識時の回線への負荷を掛けることはない。
今後、カーナビや携帯電話といった移動型・携帯型端末装置における音声認識利用分野が増大することが予想される。IC技術の進歩から、これらの移動型、携帯型端末におけるメモリの大量化や処理の高速化が望めるだろうが、端末だけで自然言語に対応した辞書をこれらの端末が行うことは、当面望めないだろう。かといって、サーバーにすべてを依存することは、利用者が増大したときに、サーバー側の対応が難しくなることが予想される。このような将来的問題点も、本発明の音声認識処理なら、音声認識処理の分散により、容易に対応することができる。
本発明の音声認識処理システムのシステム構成図である。 本発明のクライアント/サーバー選択処理プログラムの構成とデータの流れの説明図である。 本発明のクライアント/サーバー選択処理プログラムでクライアントで音声認識処理を行うか、あるいはサーバーで行うかの判定を説明するためのフローチャートである。
符号の説明
1 クライアント(端末)
110 ADC(アナログ/デジタル変換コントローラー)、フロントエンド
120 音声認識プログラム
121 クライアント/サーバー音声認識選択処理プログラム(選択処理プログラム)
122 音声認識エンジン(小語彙音声認識エンジン)
123 音響モデル辞書・言語モデル辞書・単語辞書のうちいずれか1以上を含む小語彙辞書群(小語彙辞書群)
130 コンテンツデータベース
140 ユーザーインターフェース(ユーザーI/F)
2 サーバー
210 メインサーバー(音声認識エンジンを含む)
211 音響モデル辞書・言語モデル辞書・単語辞書のうちいずれか1以上を含む大語彙辞書群(大語彙辞書群)
220 サブサーバー
221 サービスコンテンツデータベース
(音声認識結果の一時保管用かつユーザーサービス用音響モデル辞書・言語モデル辞書・単語辞書のうちいずれか1以上を含む小語彙辞書群を含むDB)
9 ネットワーク(おもにインターネット)
DB データベース

Claims (3)

  1. ネットワークで接続されたサーバーコンピュータ装置とクライアントコンピュータ装置から構成されたコンピュータネットワークシステムにおいて、
    (1)前記サーバーコンピュータ装置に第1の音声認識エンジンを備え、
    (2)前記クライアントコンピュータ装置に第2の音声認識エンジンを備え、
    (3)前記クライアントコンピュータ装置に、音声入力データに対して前記第1の音声認識エンジンと前記第2の音声認識エンジンのどちらで処理するか選択判定する音声認識エンジン選択処理手段
    を備えたことを特徴とする音声認識を行うコンピュータネットワークシステム。
  2. 前記音声認識エンジン選択処理手段が
    (1)前記音声入力が音響モデル辞書、言語モデル辞書、単語辞書のうちいずれか1以上を含む辞書群で記述可能で、かつ前記辞書群が前記クライアントコンピュータ装置に存在する場合は、前記第2の音声認識エンジンを、
    (2)その他の場合には前記第1の音声認識エンジンを、
    選択する手段を備えたことを特徴とする請求項1記載の音声認識を行うコンピュータネットワークシステム。
  3. 前記音声入力データが前記第1の音声認識エンジンにおいて処理される場合、
    前記クライアントコンピュータ装置に音声入力データから該音声入力データの特徴量を抽出して前記サーバーコンピュータ装置に送信する手段
    を備えたことを特徴とする請求項1または請求項2記載の音声認識を行うコンピュータネットワークシステム、
    及び、該特徴量を受信した前記サーバーコンピュータ装置は前記サーバーコンピュータ装置上の音声認識エンジンにより前記特徴量を解析する音声認識手段、およびその音声認識結果を前記クライアントコンピュータ装置に送信する手段、
    を備えたことを特徴とする請求項1及び請求項2に記載の音声認識を行うコンピュータネットワークシステム。
JP2004055973A 2004-03-01 2004-03-01 音声認識を行うコンピュータネットワークシステム Pending JP2005249829A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004055973A JP2005249829A (ja) 2004-03-01 2004-03-01 音声認識を行うコンピュータネットワークシステム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004055973A JP2005249829A (ja) 2004-03-01 2004-03-01 音声認識を行うコンピュータネットワークシステム

Publications (1)

Publication Number Publication Date
JP2005249829A true JP2005249829A (ja) 2005-09-15

Family

ID=35030393

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004055973A Pending JP2005249829A (ja) 2004-03-01 2004-03-01 音声認識を行うコンピュータネットワークシステム

Country Status (1)

Country Link
JP (1) JP2005249829A (ja)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010025440A3 (en) * 2008-08-29 2010-06-03 Multimodal Technologies, Inc. Hybrid speech recognition
JP2010224301A (ja) * 2009-03-24 2010-10-07 Denso Corp 音声認識システム
JP2011232619A (ja) * 2010-04-28 2011-11-17 Ntt Docomo Inc 音声認識装置および音声認識方法
JP2012133243A (ja) * 2010-12-22 2012-07-12 Toshiba Corp 音声認識装置、音声認識方法および音声認識装置を搭載したテレビ受像機
JP2013064777A (ja) * 2011-09-15 2013-04-11 Ntt Docomo Inc 端末装置、音声認識プログラム、音声認識方法および音声認識システム
WO2014051219A1 (en) * 2012-09-28 2014-04-03 Samsung Electronics Co., Ltd. Image processing apparatus and control method thereof and image processing system
WO2014051207A1 (en) * 2012-09-28 2014-04-03 Samsung Electronics Co., Ltd. Electronic device, server and control method thereof
JP2014089437A (ja) * 2012-10-29 2014-05-15 Samsung Electronics Co Ltd 音声認識装置及び音声認識方法
JP2015102795A (ja) * 2013-11-27 2015-06-04 シャープ株式会社 音声認識端末、サーバ、サーバの制御方法、音声認識システム、音声認識端末の制御プログラムおよびサーバの制御プログラム
RU2571520C2 (ru) * 2012-09-28 2015-12-20 Самсунг Электроникс Ко., Лтд. Устройство обработки изображений и соответствующий способ управления и система обработки изображений
JP2015537258A (ja) * 2012-12-12 2015-12-24 アマゾン テクノロジーズ インコーポレーテッド 分散音声認識システムにおける音声モデル検索
JP2019115047A (ja) * 2013-04-19 2019-07-11 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America システムの制御方法、システム、及びプログラム
JP2020086571A (ja) * 2018-11-16 2020-06-04 アルパイン株式会社 車載装置及び音声認識方法

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010025440A3 (en) * 2008-08-29 2010-06-03 Multimodal Technologies, Inc. Hybrid speech recognition
US7933777B2 (en) 2008-08-29 2011-04-26 Multimodal Technologies, Inc. Hybrid speech recognition
JP2012501480A (ja) * 2008-08-29 2012-01-19 マルチモーダル・テクノロジーズ・インク ハイブリッド型音声認識
JP2010224301A (ja) * 2009-03-24 2010-10-07 Denso Corp 音声認識システム
JP2011232619A (ja) * 2010-04-28 2011-11-17 Ntt Docomo Inc 音声認識装置および音声認識方法
JP2012133243A (ja) * 2010-12-22 2012-07-12 Toshiba Corp 音声認識装置、音声認識方法および音声認識装置を搭載したテレビ受像機
JP2013064777A (ja) * 2011-09-15 2013-04-11 Ntt Docomo Inc 端末装置、音声認識プログラム、音声認識方法および音声認識システム
US9037471B2 (en) 2012-09-28 2015-05-19 Samsung Electronics Co., Ltd. Image processing apparatus and control method thereof and image processing system
US9582245B2 (en) 2012-09-28 2017-02-28 Samsung Electronics Co., Ltd. Electronic device, server and control method thereof
CN103716704A (zh) * 2012-09-28 2014-04-09 三星电子株式会社 图像处理设备及其控制方法和图像处理系统
US11086596B2 (en) 2012-09-28 2021-08-10 Samsung Electronics Co., Ltd. Electronic device, server and control method thereof
US8838456B2 (en) 2012-09-28 2014-09-16 Samsung Electronics Co., Ltd. Image processing apparatus and control method thereof and image processing system
WO2014051219A1 (en) * 2012-09-28 2014-04-03 Samsung Electronics Co., Ltd. Image processing apparatus and control method thereof and image processing system
US10120645B2 (en) 2012-09-28 2018-11-06 Samsung Electronics Co., Ltd. Electronic device, server and control method thereof
RU2571520C2 (ru) * 2012-09-28 2015-12-20 Самсунг Электроникс Ко., Лтд. Устройство обработки изображений и соответствующий способ управления и система обработки изображений
CN103716704B (zh) * 2012-09-28 2018-03-23 三星电子株式会社 图像处理设备及其控制方法和图像处理系统
WO2014051207A1 (en) * 2012-09-28 2014-04-03 Samsung Electronics Co., Ltd. Electronic device, server and control method thereof
JP2014089437A (ja) * 2012-10-29 2014-05-15 Samsung Electronics Co Ltd 音声認識装置及び音声認識方法
JP2015537258A (ja) * 2012-12-12 2015-12-24 アマゾン テクノロジーズ インコーポレーテッド 分散音声認識システムにおける音声モデル検索
US10152973B2 (en) 2012-12-12 2018-12-11 Amazon Technologies, Inc. Speech model retrieval in distributed speech recognition systems
JP2019115047A (ja) * 2013-04-19 2019-07-11 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America システムの制御方法、システム、及びプログラム
USRE48569E1 (en) 2013-04-19 2021-05-25 Panasonic Intellectual Property Corporation Of America Control method for household electrical appliance, household electrical appliance control system, and gateway
JP2015102795A (ja) * 2013-11-27 2015-06-04 シャープ株式会社 音声認識端末、サーバ、サーバの制御方法、音声認識システム、音声認識端末の制御プログラムおよびサーバの制御プログラム
JP2020086571A (ja) * 2018-11-16 2020-06-04 アルパイン株式会社 車載装置及び音声認識方法
JP7023823B2 (ja) 2018-11-16 2022-02-22 アルパイン株式会社 車載装置及び音声認識方法

Similar Documents

Publication Publication Date Title
JP4267081B2 (ja) 分散システムにおけるパターン認識登録
US9495956B2 (en) Dealing with switch latency in speech recognition
CA2280331C (en) Web-based platform for interactive voice response (ivr)
US10672391B2 (en) Improving automatic speech recognition of multilingual named entities
US8364487B2 (en) Speech recognition system with display information
JP3920812B2 (ja) コミュニケーション支援装置、支援方法、及び支援プログラム
KR101042119B1 (ko) 음성 이해 시스템, 및 컴퓨터 판독가능 기록 매체
EP1089193A2 (en) Translating apparatus and method, and recording medium used therewith
US20110054899A1 (en) Command and control utilizing content information in a mobile voice-to-speech application
WO2008084476A2 (en) Vowel recognition system and method in speech to text applications
JP2002524806A (ja) 音声認識および自然言語処理を使用したネットワーク用対話型ユーザ・インタフェース
JP2002116796A (ja) 音声処理装置、音声処理方法及び記憶媒体
CN101115245A (zh) 具有语音识别及翻译功能的移动终端
JP2005249829A (ja) 音声認識を行うコンピュータネットワークシステム
JP2010048953A (ja) 対話文生成装置
US8706489B2 (en) System and method for selecting audio contents by using speech recognition
CA2613154A1 (en) Dictionary lookup for mobile devices using spelling recognition
JPH07222248A (ja) 携帯型情報端末における音声情報の利用方式
EP1617409B1 (en) Multimodal method to provide input to a computing device
US20080270128A1 (en) Text Input System and Method Based on Voice Recognition
JP3088364B2 (ja) 音声言語理解装置及び音声言語理解システム
JP5300576B2 (ja) 検索装置、検索方法、および検索プログラム
JP2003162524A (ja) 言語処理装置
WO2019142447A1 (ja) 情報処理装置および情報処理方法
WO2002099786A1 (en) Method and device for multimodal interactive browsing

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20070110

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070226

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090612

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090707

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20100119