[go: up one dir, main page]

JP5558284B2 - 音声認識システム、音声認識方法、および音声認識プログラム - Google Patents

音声認識システム、音声認識方法、および音声認識プログラム Download PDF

Info

Publication number
JP5558284B2
JP5558284B2 JP2010207048A JP2010207048A JP5558284B2 JP 5558284 B2 JP5558284 B2 JP 5558284B2 JP 2010207048 A JP2010207048 A JP 2010207048A JP 2010207048 A JP2010207048 A JP 2010207048A JP 5558284 B2 JP5558284 B2 JP 5558284B2
Authority
JP
Japan
Prior art keywords
speech recognition
vocabulary
server
language model
recognition processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2010207048A
Other languages
English (en)
Other versions
JP2012063537A (ja
Inventor
孝輔 辻野
真也 飯塚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Docomo Inc
Original Assignee
NTT Docomo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Docomo Inc filed Critical NTT Docomo Inc
Priority to JP2010207048A priority Critical patent/JP5558284B2/ja
Publication of JP2012063537A publication Critical patent/JP2012063537A/ja
Application granted granted Critical
Publication of JP5558284B2 publication Critical patent/JP5558284B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、通信端末、音声認識方法、および音声認識プログラムに関するものである。
音声認識処理を行うに当たっては、クライアント端末内で行う場合と、サーバ側で行う場合がある。クライアント端末内で行う場合は、当該端末がユーザ専用のものである場合が多いことから、端末内のユーザ固有の情報として、ユーザ辞書、ユーザの過去の入力音声や通話音声、音響トレーニングの実績などを利用して、言語モデルや音響モデルの個人カスタマイズが容易である。したがって、ユーザ適応の音声認識が可能となる反面、メモリ量や演算リソースが限られ、語彙数や仮説探索の範囲が制約されるといったデメリットがある。
一方で、サーバ側で行う場合は、端末内音声認識と比較してメモリ量や演算リソースを豊富に利用でき、大語彙且つ高精度の音声認識が可能といったメリットがある。しかし、サーバは多数のユーザに共有されるものであるため、ユーザ各々の言語モデルまたは音響モデルを学習したり、アクセスに応じて即時且つ高速にユーザ各々にカスタマイズされた言語モデルまたは音響モデルを読み込むにはコストが高くかかる。したがって、サーバ側の音声認識では言語モデルまたは音響モデルのユーザごとのカスタマイズが困難というデメリットがある。
そこで、両者の長所を兼ね備え、大語彙且つ高精度の音声認識処理と、言語モデルまたは音響モデルのユーザごとのカスタマイズを両立する音声認識処理を実現することが課題とされており、特許文献1は当該課題を解決するための一つの試みを示している。特許文献1では、サーバは認識結果における単語境界の時間情報を端末に返し、端末では当該時間情報を参照し且つ自らが有する辞書を用いて再認識を行う。特に、未知語や固有名詞と判定された語のみを再認識の対象とすることにより、認識精度の向上を目指している。
特開2010−85536号公報
しかし、このような特許文献1の技術では、サーバ側の認識で単語境界が正しく認識されていないと、端末側は正しくない時間情報を参照することとなり、端末での再認識後も正しい認識結果が得られないおそれがある。また、サーバ側で認識対象の語が語彙外の語である場合は、未知語や固有名詞の判定を正しくできない場合があり、端末で再認識を行った後も正しい認識結果が得られない場合がある。
そこで、本発明は上記に鑑みてなされたもので、大語彙且つ高精度の音声認識処理と、言語モデルまたは音響モデルのユーザごとのカスタマイズを両立する音声認識処理を実現することが可能な通信端末、音声認識方法、および音声認識プログラムを提供することを目的とする。
上記課題を解決するために、本発明の通信端末は、音声信号を入力する音声入力手段と、音声認識処理を行うための言語モデルまたは音響モデルであってユーザに適応されたものを格納する格納手段と、前記言語モデルまたは前記音響モデルを用いて前記音声信号に対して第1の音声認識処理を行う音声認識処理手段と、前記音声認識処理手段の認識処理結果を構成する語彙を抽出する語彙抽出手段と、前記語彙抽出手段が抽出した当該語彙を認識辞書として用いて前記音声信号に対して第2の音声認識処理を行うサーバに、前記音声信号とともに前記語彙を表す情報を送信する送信手段と、を備える。
また、本発明の音声認識方法は、格納手段に、音声認識処理を行うための言語モデルまたは音響モデルであってユーザに適応されたものが格納されており、音声入力手段が、音声信号を入力する音声入力ステップと、音声認識処理手段が、前記言語モデルまたは前記音響モデルを用いて前記音声信号に対して第1の音声認識処理を行う音声認識処理ステップと、語彙抽出手段が、前記音声認識処理手段の認識処理結果を構成する語彙を抽出する語彙抽出ステップと、送信手段が、前記語彙抽出手段が抽出した当該語彙を認識辞書として用いて前記音声信号に対して第2の音声認識処理を行うサーバに、前記音声信号とともに前記語彙を表す情報を送信する送信ステップと、を備える。
また、本発明の音声認識プログラムは、格納手段に、音声認識処理を行うための言語モデルまたは音響モデルであってユーザに適応されたものが格納されており、音声信号を入力する音声入力モジュールと、前記言語モデルまたは前記音響モデルを用いて前記音声信号に対して第1の音声認識処理を行う音声認識処理モジュールと、前記音声認識処理モジュールの認識処理結果を構成する語彙を抽出する語彙抽出モジュールと、前記語彙抽出モジュールが抽出した当該語彙を認識辞書として用いて前記音声信号に対して第2の音声認識処理を行うサーバに、前記音声信号とともに前記語彙を表す情報を送信する送信モジュールと、を備える。
このような本発明の通信端末、音声認識方法、および音声認識プログラムによれば、通信端末の音声認識処理手段による第1の音声認識処理の結果を構成する語彙を、第2の音声認識処理を行うサーバに送信する。通信端末の音声認識処理手段は、ユーザに適応された言語モデルまたは音響モデルを用いるため、ユーザにカスタマイズされた音声認識処理が可能である。この音声認識処理の結果を構成する語彙がサーバに送信され認識辞書として用いられるため、サーバでは、認識辞書を拡張した上で、大語彙且つ高精度の音声認識処理を行うことが可能となる。したがって、第2の音声認識処理における未知語を減少させながらも、大語彙且つ高精度の音声認識処理と、言語モデルまたは音響モデルのユーザごとのカスタマイズを両立する音声認識処理を実現することが可能となる。
また、本発明において、前記言語モデルは、当該通信端末内に存在するユーザデータ、または前記ユーザの利用履歴から得られ前記ユーザに依存する言語データに基づくユーザ辞書を含んでいても良い。
この発明によれば、通信端末の言語モデルをユーザにカスタマイズされた言語モデルとすることができる。ユーザ辞書には、例えばユーザの知り合いの人名等が含まれることができる。
また、本発明において、前記音響モデルは、前記ユーザの過去の入力音声もしくは通話音声、または音響トレーニングの実績を利用して、前記ユーザに適応されても良い。
この発明によれば、通信端末の音響モデルをユーザにあわせてカスタマイズするための具体的な方法が提供される。
また、本発明の通信端末において、前記サーバとは、ネットワーク上に接続されていても良い。
この発明によれば、通信端末側は、ユーザ辞書全体ではなく、第1の音声認識処理の結果を構成する語彙のみをサーバに送信するため、通信端末とサーバがネットワーク上に接続されている場合に、情報伝送のコストが少なくて済むというメリットがある。また、送信すべきデータの量が少ないことから、全体の処理時間が短くなり、音声認識処理が終わるまでの遅延時間が短くて済むというメリットがある。
また、本発明において、前記語彙抽出手段は、前記語彙のうち、前記ユーザデータまたは前記ユーザ辞書に存在するもののみを抽出しても良い。
この発明によれば、通信端末のユーザデータまたはユーザ辞書に存在する語彙をサーバの認識辞書にて確実に拡張させることができる。また、語彙抽出手段が抽出すべき語彙を減らすことができ、通信端末からサーバへ送信すべきデータ量を更に少なくすることができる。
また、本発明において、前記送信手段は、前記語彙が前記ユーザ辞書に存在するものか否かを示す情報を前記サーバに更に送信しても良い。
この発明によれば、当該情報を参照することにより、通信端末のユーザデータまたはユーザ辞書に存在する語彙を確実に特定でき、当該語彙をサーバの認識辞書にて確実に拡張させることができる。
本発明によれば、第2の音声認識処理における未知語を減少させながらも、大語彙且つ高精度の音声認識処理と、言語モデルまたは音響モデルのユーザごとのカスタマイズを両立する音声認識処理を実現することが可能な通信端末、音声認識方法、および音声認識プログラムを提供することができる。
音声認識システム1の構成概要図である。 クライアント端末100およびサーバ200のハードウェア構成図である。 音声認識システム1で行われる動作を示すシーケンス図である。 クライアント端末100による第1の音声認識処理の結果の一例を示す図である。
以下、添付図面を参照して本発明にかかる通信端末、音声認識方法、および音声認識プログラムの好適な実施形態を詳細に説明する。なお、図面の説明において同一の要素には同一の符号を付し、重複する説明を省略する。以下の説明における「音声認識処理」とは、話者の話す音声言語を解析し、話している内容を文字データとして取り出す処理のことである。
(音声認識システム1の全体構成)
まず、本発明の実施形態に係る音声認識システム1の構成について、図1を参照しながら説明する。図1は、音声認識システム1の構成概要図である。図1に示すように、音声認識システム1は、クライアント端末100(特許請求の範囲における「通信端末」に相当)およびサーバ200から構成され、クライアント端末100とサーバ200とはネットワーク300上に接続されている。図1ではクライアント端末100を代表して1台のみを示しているが、サーバ200に複数のクライアント端末100が通信可能である。クライアント端末100は第1の音声認識処理を行い、サーバ200は第2の音声認識処理を行う。第2の音声認識処理の結果が音声認識処理の最終的な結果となる。
(クライアント端末100の構成)
クライアント端末100について詳細に説明する。クライアント端末100は例えば携帯電話機やスマートフォンであって、図2はクライアント端末100のハードウェア構成図である。図2に示すように、クライアント端末100は、物理的には、CPU11、主記憶装置であるROM12及びRAM13、操作ボタンやマイクなどの入力デバイス14、LCDや有機ELディスプレイなどの出力デバイス15、サーバ200との間でデータの送受信を行う通信モジュール16、メモリディバイス等の補助記憶装置17を備えて構成される。後述するクライアント端末100の各機能は、CPU11、ROM12、RAM13等のハードウェア上に所定のソフトウェアを読み込ませることにより、CPU11の制御の元で入力デバイス14、出力デバイス15、通信モジュール16を動作させると共に、主記憶装置12,13や補助記憶装置17におけるデータの読み出し及び書き込みを行うことで実現される。
図1に戻り、クライアント端末100は、機能的には、音声入力部110(特許請求の範囲における「音声入力手段」に相当)、端末側格納部120(特許請求の範囲における「格納手段」に相当)、端末側音声認識部130(特許請求の範囲における「音声認識処理手段」に相当)、語彙抽出部140(特許請求の範囲における「語彙抽出手段」に相当)、および送信部150(特許請求の範囲における「送信手段」に相当)を備えて構成される。
音声入力部110は、ユーザからの音声信号を入力するものであって、例えば図2に示した入力デバイス14により構成されることができる。音声入力部110は、マイクから入力した音声信号をA−D変換し、音声データを生成する。音声入力部110は、さらに、生成した音声データを圧縮符号に変換して符号化データを生成しても良く、音声データから特徴量データを抽出しても良い。以下では、符号化データおよび特徴量データを含めて音声データという。音声入力部110は、生成した音声データを端末側音声認識部130および送信部150に出力する。
端末側格納部120は、端末側音声認識部130が音声認識処理を行うための言語モデルまたは音響モデルであって、ユーザに適応されたものを格納するものである。本実施形態におけるクライアント端末100はユーザ専用のものであるか、または限定されたユーザのみが使用可能な通信端末である場合が多い。したがって、この場合には言語モデルや音響モデルの個人カスタマイズが容易である。端末側格納部120に格納された端末側言語モデルは、クライアント端末100内に存在するユーザデータ、またはユーザの利用履歴から得られ且つユーザに依存する言語データに基づくユーザ辞書を含むことにより、クライアント端末100のユーザにカスタマイズされることができる。また、端末側格納部120に格納された端末側音響モデルは、ユーザの過去の入力音声もしくは通話音声、または音響トレーニングの実績を利用して、ユーザに適応されることにより、カスタマイズされることができる。このような端末側格納部120は、例えば図2に示した補助記憶装置17により構成されることができる。
端末側音声認識部130は、例えば図2に示したCPU11等により構成され、端末側格納部120に格納された言語モデルまたは音響モデルを用いて、音声入力部110より入力した音声データに対して第1の音声認識処理を行うものである。第1の音声認識処理はクライアント端末100側での音声認識処理であることから、メモリ量や演算リソースを豊富に利用した大語彙且つ高精度の音声認識処理ではないけれども、ユーザにカスタマイズされた言語モデルまたは音響モデルを用いたユーザに適応された音声認識処理である。なお、端末側音声認識部130による音声認識処理そのものは、例えば言語モデルとしてユニグラム(unigram)またはバイグラム(bigram)を用い、音響モデルとして隠れマルコフモデル(Hidden Markov Model)を用いるなど、周知の技術であるため、ここでは詳細な説明を省略する。端末側音声認識部130における音声認識は、入力音声全体に対する連続音声認識または、孤立単語認識であってもよく、また音声の一部に対する音声認識やワードスポッティングであってもよい。端末側音声認識部130は、第1の音声認識処理を行った結果を語彙抽出部140に出力する。
語彙抽出部140は、端末側音声認識部130より第1の音声認識処理の結果を入力され、当該結果を構成する語彙(表記と読みの対)を抽出するものである。語彙抽出部140は、例えば図2に示したCPU11等により構成されることができる。語彙抽出部140は、第1の音声認識処理の結果を構成する語彙全てを抽出しても良く、当該語彙のうち、ユーザデータまたはユーザ辞書に存在するもののみを抽出するようにしても良い。または、語彙抽出部140は、抽出した語彙がユーザデータまたはユーザ辞書に存在するものである場合には、その旨を示す情報(以下、「指示信号」という)を生成する処理とともに、語彙抽出処理を行っても良い。語彙抽出部140は、指示信号があれば当該指示信号とともに、抽出した語彙を表す情報(以下、「語彙情報」という)を送信部150に出力する。
送信部150は、音声入力部110より入力した音声データとともに、語彙抽出部140より入力した語彙情報、および指示信号があれば当該指示信号をサーバ200に送信するものである。送信部150は、例えば図2に示した通信モジュール16により構成されることができる。
(サーバ200の構成)
続いて、サーバ200について説明する。図2はサーバ200のハードウェア構成図である。図2に示すように、サーバ200は、物理的には、CPU21、ROM22及びRAM23等の主記憶装置、キーボード及びマウス等の入力デバイス24、ディスプレイ等の出力デバイス25、クライアント端末100との間でデータの送受信を行うためのネットワークカード等の通信モジュール26、ハードディスク等の補助記憶装置27などを含む通常のコンピュータシステムとして構成される。後述するサーバ200の各機能は、CPU21、ROM22、RAM23等のハードウェア上に所定のコンピュータソフトウェアを読み込ませることにより、CPU21の制御の元で入力デバイス24、出力デバイス25、通信モジュール26を動作させると共に、主記憶装置22,23や補助記憶装置27におけるデータの読み出し及び書き込みを行うことで実現される。
図1に戻り、サーバ200は、機能的には、受信部210、サーバ側格納部220、認識辞書拡張部230、サーバ側音声認識部240、および認識結果送信部250を備えて構成される。
受信部210は、クライアント端末100の送信部150より、音声データ、語彙情報、および指示信号があれば当該指示信号を受信するものである。受信部210は、受信した音声データをサーバ側音声認識部240に出力し、受信した語彙情報および指示信号を認識辞書拡張部230に出力する。
サーバ側格納部220は、サーバ側音声認識部240が音声認識処理を行うための言語モデルまたは音響モデルを格納するものである。本実施形態におけるサーバ200は多数のユーザに共有されるものである場合が多いので、サーバ側で言語モデルや音響モデルの個人カスタマイズを行うことは容易ではないが、サーバ側格納部220は大語彙且つ高精度の音声認識処理に適合した言語モデルまたは音響モデルを格納することができる。
認識辞書拡張部230は、受信部210より、語彙情報、および指示信号があれば当該指示信号を入力し、当該入力した諸情報に基づき、サーバ側格納部220に格納されたサーバ側言語モデルの認識辞書を拡張するものである。「サーバ側言語モデルの認識辞書を拡張する」とは、受信部210より入力した語彙情報で表される語彙がサーバ側言語モデルにおいて未知語である場合に、当該未知語をサーバ側言語モデルの認識辞書に既知語として登録することにより、当該語彙をそれ以上未知語でないようにすることをいう。このような認識辞書の拡張により、サーバ側音声認識部240がサーバ側言語モデルを用いて音声認識処理を行う際の未知語を減少させることができる。
サーバ側音声認識部240は、サーバ側格納部220に格納された言語モデルまたは音響モデルを用いて、受信部210より入力した音声データに対して第2の音声認識処理を行うものである。第2の音声認識処理はサーバ200側での音声認識処理であることから、メモリ量や演算リソースを豊富に利用した大語彙且つ高精度の音声認識処理が可能である。更に、第2の音声認識処理は、認識辞書拡張部230により認識辞書が拡張された後の言語モデルを用いて行われる。このため、未知語が減少された上での音声認識処理が可能となり、認識結果の精度が向上する。なお、サーバ側音声認識部240による音声認識処理そのものは、例えば言語モデルとしてトライグラム(trigram)を用い、音響モデルとして隠れマルコフモデルを用いるなど、周知の技術であるため、ここでは詳細な説明を省略する。サーバ側音声認識部240は、第2の音声認識処理を行った結果を認識結果送信部250に出力する。
認識結果送信部250は、サーバ側音声認識部240より第2の音声認識処理を行った結果を入力され、当該結果をクライアント端末100に送信するものである。なお、クライアント端末100は第2の音声認識処理の結果を受信する手段(例えば図2の通信モジュール16で構成可能)、および当該結果をユーザに表示する手段(例えば図2の出力デバイス15で構成可能)を備えても良い。
(音声認識システム1の動作)
続いて、音声認識システム1により行われる動作について、図3を参照しながら説明する。図3は、音声認識システム1で行われる動作を示すシーケンス図である。
(ステップS1、特許請求の範囲における「音声入力ステップ」に相当)
最初に、クライアント端末100の音声入力部110がユーザからの音声信号を入力し、A−D変換等を行った後に、音声データを端末側音声認識部130および送信部150に出力する。
(ステップS2、特許請求の範囲における「音声認識処理ステップ」に相当)
次に、端末側音声認識部130が、端末側格納部120に格納された言語モデルまたは音響モデルを用いて、ステップS1にて音声入力部110より入力した音声データに対して第1の音声認識処理を行う。図4は、第1の音声認識処理の結果の一例を示す。図4では認識結果をN−bestで示しているが、これに限らず、confusion networkであっても良く、単語latticeであっても良い。端末側音声認識部130は、図4に示したような第1の音声認識処理の結果を語彙抽出部140に出力する。
(ステップS3、特許請求の範囲における「語彙抽出ステップ」に相当)
次に、語彙抽出部140が、ステップS2の第1の音声認識処理の結果を端末側音声認識部130より入力され、当該結果を構成する語彙を抽出する。図4の例のような認識結果が入力された場合に、語彙抽出部140は下記に示す語彙を抽出し、当該抽出した語彙を表す語彙情報を送信部150に出力する(語彙抽出部140の語彙抽出パターン1)。
「今日/キョウ」、「は/ワ」、「横浜/ヨコハマ」、「高浜/タカハマ」、「横島/ヨコシマ」、「へ/エ」、「に/ニ」、「行った/イッタ」、「会った/アッタ」
ここで、語彙抽出部140が、図4に示す認識結果における語彙のうち、ユーザデータまたはユーザ辞書に存在するもののみを抽出するようにしても良い。例えば、図4の例において、「横島/ヨコシマ」のみがクライアント端末100のユーザデータまたはユーザ辞書に存在する語彙であって、その他の「今日/キョウ」、「は/ワ」等はユーザデータまたはユーザ辞書に存在しない語彙であるとする。この場合に、語彙抽出部140は「横島/ヨコシマ」のみを抽出し、当該抽出した語彙「横島/ヨコシマ」を表す語彙情報を送信部150に出力する(語彙抽出部140の語彙抽出パターン2)。
更に、語彙抽出部140が、抽出した語彙がユーザデータまたはユーザ辞書に存在するものである場合には、その旨を示す情報(指示信号)を生成する処理とともに、上記語彙抽出パターン1のような語彙抽出処理を行っても良い。例えば、図4の例において、語彙抽出部140が「今日/キョウ」、「は/ワ」等の認識結果にある全ての語彙を抽出するとともに、語彙「横島/ヨコシマ」はユーザデータまたはユーザ辞書に存在する語彙である旨を示す指示信号を生成する。そして、語彙抽出部140は、当該指示信号とともに、抽出した語彙を表す語彙情報を送信部150に出力する(語彙抽出部140の語彙抽出パターン3)。
(ステップS4、特許請求の範囲における「送信ステップ」に相当)
次に、送信部150が、ステップS1にて音声入力部110より入力した音声データとともに、ステップS3にて語彙抽出部140より入力した語彙情報、および指示信号があれば当該指示信号をサーバ200に送信する。
(ステップS5)
次に、サーバ200の受信部210が、クライアント端末100の送信部150より、音声データ、語彙情報、および指示信号があれば当該指示信号を受信する。受信部210は、受信した音声データをサーバ側音声認識部240に出力し、受信した語彙情報および指示信号を認識辞書拡張部230に出力する。
(ステップS6)
次に、認識辞書拡張部230が、受信部210より、語彙情報、および指示信号があれば当該指示信号を入力し、当該入力した諸情報に基づき、サーバ側格納部220に格納されたサーバ側言語モデルの認識辞書を拡張する。
上記の語彙抽出パターン1のように、語彙抽出部140が抽出した語彙を全て表す語彙情報を入力した場合に、認識辞書拡張部230は、当該入力された語彙情報で表される語彙と、自サーバが保有している認識辞書に登録されている語彙とを比較し、語彙情報で表される語彙のうち自サーバの認識辞書に登録されていないもののみを既知語として新たに登録するようにしても良い。図4の例において、比較の結果、例えば「横浜/ヨコハマ」および「高浜/タカハマ」の二つの語彙がサーバの認識辞書に登録されていないことが判明された場合に、認識辞書拡張部230は当該語彙「横浜/ヨコハマ」および「高浜/タカハマ」を自サーバの認識辞書に既知語として新たに登録する(認識辞書拡張部230の辞書拡張パターン1)。
または、上記の語彙抽出パターン2のように、入力された語彙情報で表される語彙が全てクライアント端末100のユーザデータまたはユーザ辞書に存在するものであることが保障される場合には、認識辞書拡張部230は入力された語彙情報で表される語彙全てを既知語として認識辞書に登録するようにしても良い。このような場合は、例えば図4の例において、クライアント端末100の語彙抽出部140がユーザデータまたはユーザ辞書に存在する語彙のみを抽出することを、例えばクライアント端末100とサーバ200間で所定の情報を予め交換しておくことにより、サーバ200が事前に知っている場合である。このような場合に、例えば、「横島/ヨコシマ」のみが語彙抽出部140により抽出され、「横島/ヨコシマ」のみを表す語彙情報が認識辞書拡張部230に入力され、認識辞書拡張部230は語彙「横島/ヨコシマ」を既知語として自サーバの認識辞書に登録する。なお、仮に語彙「横島/ヨコシマ」がサーバ側言語モデルの認識辞書に既に登録されている既知語である場合には、認識辞書拡張部230は語彙「横島/ヨコシマ」を登録しなくても良い(認識辞書拡張部230の辞書拡張パターン2)。
更に、上記の語彙抽出パターン3のように指示信号がある場合には、認識辞書拡張部230は、当該指示信号を参照することにより、当該語彙がクライアント端末100のユーザデータまたはユーザ辞書に存在するものであることが判明された場合のみに、当該語彙を既知語として認識辞書に登録するようにしても良い。例えば、上記図4の例において、「横島/ヨコシマ」がユーザデータまたはユーザ辞書に存在する語彙である旨を示す指示信号が入力された場合に、認識辞書拡張部230は語彙「横島/ヨコシマ」を既知語として自サーバの認識辞書に登録する。なお、仮に語彙「横島/ヨコシマ」がサーバ側言語モデルの認識辞書に既に登録されている既知語である場合には、認識辞書拡張部230は語彙「横島/ヨコシマ」を登録しなくても良い(認識辞書拡張部230の辞書拡張パターン3)。
(ステップS7)
次に、サーバ側音声認識部240が、サーバ側格納部220に格納された言語モデルまたは音響モデルを用いて、ステップS5にて受信部210より入力した音声データに対して第2の音声認識処理を行う。第2の音声認識処理は、認識辞書拡張部230により認識辞書が拡張された後の言語モデルを用いて行われる。サーバ側音声認識部240は、第2の音声認識処理を行った結果を認識結果送信部250に出力する。
(ステップS8)
次に、認識結果送信部250が、サーバ側音声認識部240より第2の音声認識処理を行った結果を入力され、当該結果をクライアント端末100に送信する。
(ステップS9)
次に、クライアント端末100側で第2の音声認識処理の結果を受信し、当該結果をユーザに表示する。
以上の説明においては、本発明の実施態様として、クライアント端末100およびサーバ200を備える音声認識システム1を例示したが、これに限られるものではなく、クライアント端末100およびサーバ200における各機能を実行するためのモジュールを備えたプログラムとして構成してもよい。すなわち、クライアント端末100に相当するものとして、格納手段に、音声認識処理を行うための言語モデルまたは音響モデルであってユーザに適応されたものが格納されており、音声入力部110に相当する音声入力モジュール、端末側音声認識部130に相当する音声認識処理モジュール、語彙抽出部140に相当する語彙抽出モジュール、および送信部150に相当する送信モジュールを備えたプログラムを構成する。また、同様に、サーバ200の各構成要素に相当する各モジュールを備えたプログラムを構成する。そして、携帯端末、スマートフォン、サーバ等に当該プログラムを読み込ませることにより、上述のクライアント端末100およびサーバ200を備える音声認識システム1と同等の機能を実現することができる。このようなプログラムは記録媒体に記録されることができる。記録媒体とは、コンピュータのハードウェア資源に備えられている読み取り装置に対して、プログラムの記述内容に応じて、磁気、光、電気等のエネルギーの変化状態を引き起こして、それに対応する信号の形式で、読み取り装置にプログラムの記述内容を伝達できるものである。かかる記録媒体としては、例えば、磁気ディスク、光ディスク、CD−ROM、コンピュータに内蔵されるメモリなどが該当する。
(本実施形態の作用及び効果)
続いて、本実施形態にかかる音声認識システム1の作用及び効果について説明する。本実施形態の音声認識システム1によれば、クライアント端末100の端末側音声認識部130による第1の音声認識処理の結果を構成する語彙を、第2の音声認識処理を行うサーバ200に送信する。クライアント端末100の端末側音声認識部130は、ユーザに適応された言語モデルまたは音響モデルを用いるため、ユーザにカスタマイズされた音声認識処理が可能である。この音声認識処理の結果を構成する語彙がサーバ200に送信され認識辞書として用いられるため、サーバ200では、認識辞書を拡張した上で、大語彙且つ高精度の音声認識処理を行うことが可能となる。したがって、第2の音声認識処理における未知語を減少させながらも、大語彙且つ高精度の音声認識処理と、言語モデルまたは音響モデルのユーザごとのカスタマイズを両立する音声認識処理を実現することが可能となる。
また、本実施形態によれば、クライアント端末100の言語モデルに、当該クライアント端末100内に存在するユーザデータ、またはユーザの利用履歴から得られユーザに依存する言語データに基づくユーザ辞書を含ませることにより、クライアント端末100の言語モデルをユーザにカスタマイズされた言語モデルとすることができる。ユーザ辞書には、例えばユーザの知り合いの人名等が含まれることができる。
また、本実施形態によれば、ユーザの過去の入力音声もしくは通話音声、または音響トレーニングの実績を利用するといった、クライアント端末100の音響モデルをユーザにあわせてカスタマイズするための具体的な方法が提供される。
また、本実施形態によれば、クライアント端末100側は、ユーザ辞書全体ではなく、第1の音声認識処理の結果を構成する語彙のみをサーバ200に送信するため、クライアント端末100とサーバ200がネットワーク上に接続されている本実施形態のような場合に、情報伝送のコストが少なくて済むというメリットがある。また、送信すべきデータの量が少ないことから、全体の処理時間が短くなり、音声認識処理が終わるまでの遅延時間が短くて済むというメリットがある。
また、本実施形態によれば、特に語彙抽出パターン2および辞書拡張パターン2においては、クライアント端末100のユーザデータまたはユーザ辞書に存在する語彙をサーバ200の認識辞書にて確実に拡張させることができる。また、語彙抽出部140が抽出すべき語彙を減らすことができ、クライアント端末100からサーバ200へ送信すべきデータ量を更に少なくすることができる。
また、本実施形態によれば、特に語彙抽出パターン3および辞書拡張パターン3においては、指示信号を参照することにより、クライアント端末100のユーザデータまたはユーザ辞書に存在する語彙を確実に特定でき、当該語彙をサーバ200の認識辞書にて確実に拡張させることができる。
1…音声認識システム、100…クライアント端末、110…音声入力部、120…端末側格納部、130…端末側音声認識部、140…語彙抽出部、150…送信部、200…サーバ、210…受信部、220…サーバ側格納部、230…認識辞書拡張部、240…サーバ側音声認識部、250…認識結果送信部、300…ネットワーク。

Claims (7)

  1. 通信端末とサーバとが通信することによって音声認識処理を行う音声認識システムであって、
    前記通信端末は、
    音声信号を入力する音声入力手段と、
    音声認識処理を行うための言語モデルまたは音響モデルであってユーザに適応されたものを格納する格納手段と、
    前記言語モデルまたは前記音響モデルを用いて前記音声信号に対して第1の音声認識処理を行う音声認識処理手段と、
    前記音声認識処理手段の認識処理結果を構成する語彙を抽出するとともに、抽出した前記語彙が前記言語モデルに存在するものであるか否かを示す情報である指示信号を生成する語彙抽出手段と、
    記音声信号とともに前記語彙を表す情報である語彙情報、および前記指示信号前記サーバに送信する送信手段と、を備え、
    前記サーバは、
    音声認識処理を行うための言語モデルであって、前記格納手段に格納された言語モデルよりも大語彙且つ高精度の音声認識処理に適合した言語モデルであるサーバ側言語モデルを格納するサーバ側格納手段と、
    前記語彙情報、および前記指示信号に基づき、前記サーバ側言語モデルにおける未知語を既知語として登録する認識辞書拡張手段と、
    前記サーバ側言語モデルを用いて前記音声信号に対して第2の音声認識処理を行うサーバ側音声認識処理手段と、
    を備える音声認識システム
  2. 前記格納手段が格納する前記言語モデルは、当該通信端末内に存在するユーザデータ、または前記ユーザの利用履歴から得られ前記ユーザに依存する言語データに基づくユーザ辞書を含む、
    ことを特徴とする請求項1に記載の音声認識システム
  3. 前記格納手段が格納する前記音響モデルは、前記ユーザの過去の入力音声もしくは通話音声、または音響トレーニングの実績を利用して、前記ユーザに適応された、
    ことを特徴とする請求項1または2に記載の音声認識システム
  4. 前記サーバとは、ネットワーク上に接続されている、
    ことを特徴とする請求項1〜3の何れか1項に記載の音声認識システム
  5. 前記語彙抽出手段は、前記語彙のうち、前記ユーザデータまたは前記ユーザ辞書に存在するもののみを抽出する、
    ことを特徴とする請求項2記載の音声認識システム
  6. 通信端末とサーバとが通信することによって音声認識処理を行う音声認識方法であって、
    前記通信端末の格納手段に、音声認識処理を行うための言語モデルまたは音響モデルであってユーザに適応されたものが格納されており、
    前記通信端末の音声入力手段が、音声信号を入力する音声入力ステップと、
    前記通信端末の音声認識処理手段が、前記言語モデルまたは前記音響モデルを用いて前記音声信号に対して第1の音声認識処理を行う音声認識処理ステップと、
    前記通信端末の語彙抽出手段が、前記音声認識処理手段の認識処理結果を構成する語彙を抽出するとともに、抽出した前記語彙が前記言語モデルに存在するものであるか否かを示す情報である指示信号を生成する語彙抽出ステップと、
    前記通信端末の送信手段が、記音声信号とともに前記語彙を表す情報である語彙情報、および前記指示信号前記サーバに送信する送信ステップと、を備え、
    前記サーバのサーバ格納手段に、音声認識処理を行うための言語モデルであって、前記格納手段に格納された言語モデルよりも大語彙且つ高精度の音声認識処理に適合した言語モデルであるサーバ側言語モデルが格納されており、
    前記サーバの認識辞書拡張手段が、前記語彙情報、および前記指示信号に基づき、前記サーバ側言語モデルにおける未知語を既知語として登録する認識辞書拡張ステップと、
    前記サーバのサーバ側音声認識処理手段が、前記サーバ側言語モデルを用いて前記音声信号に対して第2の音声認識処理を行うサーバ側音声認識処理ステップと、
    を備える音声認識方法。
  7. 通信端末とサーバとが通信することによって行われる音声認識処理の音声認識プログラムであって、
    音声信号を入力する音声入力モジュールと、
    前記通信端末に格納された、音声認識処理を行うための言語モデルまたは音響モデルであってユーザに適応されたものを用いて前記音声信号に対して第1の音声認識処理を行う音声認識処理モジュールと、
    前記音声認識処理モジュールの認識処理結果を構成する語彙を抽出するとともに、抽出した前記語彙が前記言語モデルに存在するものであるか否かを示す情報である指示信号を生成する語彙抽出モジュールと、
    記音声信号とともに前記語彙を表す情報である語彙情報、および前記指示信号前記サーバに送信する送信モジュールと、
    前記語彙情報、および前記指示信号に基づき、音声認識処理を行うための言語モデルであって前記通信端末に格納された言語モデルよりも大語彙且つ高精度の音声認識処理に適合した言語モデルであるサーバ側言語モデルにおける未知語を既知語として登録する認識辞書拡張モジュールと、
    前記サーバ側言語モデルを用いて前記音声信号に対して第2の音声認識処理を行うサーバ側音声認識処理モジュールと、
    を備える音声認識プログラム。
JP2010207048A 2010-09-15 2010-09-15 音声認識システム、音声認識方法、および音声認識プログラム Expired - Fee Related JP5558284B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010207048A JP5558284B2 (ja) 2010-09-15 2010-09-15 音声認識システム、音声認識方法、および音声認識プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010207048A JP5558284B2 (ja) 2010-09-15 2010-09-15 音声認識システム、音声認識方法、および音声認識プログラム

Publications (2)

Publication Number Publication Date
JP2012063537A JP2012063537A (ja) 2012-03-29
JP5558284B2 true JP5558284B2 (ja) 2014-07-23

Family

ID=46059315

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010207048A Expired - Fee Related JP5558284B2 (ja) 2010-09-15 2010-09-15 音声認識システム、音声認識方法、および音声認識プログラム

Country Status (1)

Country Link
JP (1) JP5558284B2 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5956913B2 (ja) * 2012-11-14 2016-07-27 日本電信電話株式会社 言語モデル生成装置、言語モデル生成方法、プログラム、記録媒体
KR20150145024A (ko) 2014-06-18 2015-12-29 한국전자통신연구원 화자적응 음성인식 시스템의 단말 및 서버와 그 운용 방법
WO2016157352A1 (ja) * 2015-03-30 2016-10-06 富士通株式会社 音声認識装置、音声認識システム、及び、プログラム
KR102434604B1 (ko) 2016-01-05 2022-08-23 한국전자통신연구원 개인화된 음성 인식을 수행하기 위한 음성 인식 단말, 음성 인식 서버 및 음성 인식 방법
JP6833203B2 (ja) * 2017-02-15 2021-02-24 フォルシアクラリオン・エレクトロニクス株式会社 音声認識システム、音声認識サーバ、端末装置、及び語句管理方法
JP7243567B2 (ja) 2019-10-18 2023-03-22 トヨタ自動車株式会社 変更操作支援装置
JP6824547B1 (ja) * 2020-06-22 2021-02-03 江崎 徹 アクティブラーニングシステム及びアクティブラーニングプログラム

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6195641B1 (en) * 1998-03-27 2001-02-27 International Business Machines Corp. Network universal spoken language vocabulary
JP2004012653A (ja) * 2002-06-05 2004-01-15 Matsushita Electric Ind Co Ltd 音声認識システム、音声認識クライアント、音声認識サーバ、音声認識クライアントプログラムおよび音声認識サーバプログラム
JP4601306B2 (ja) * 2003-03-13 2010-12-22 パナソニック株式会社 情報検索装置、情報検索方法、およびプログラム
JP2007033901A (ja) * 2005-07-27 2007-02-08 Nec Corp 音声認識システム、音声認識方法、および音声認識用プログラム
US8676582B2 (en) * 2007-03-14 2014-03-18 Nec Corporation System and method for speech recognition using a reduced user dictionary, and computer readable storage medium therefor
JP4902617B2 (ja) * 2008-09-30 2012-03-21 株式会社フュートレック 音声認識システム、音声認識方法、音声認識クライアントおよびプログラム

Also Published As

Publication number Publication date
JP2012063537A (ja) 2012-03-29

Similar Documents

Publication Publication Date Title
JP5480760B2 (ja) 端末装置、音声認識方法および音声認識プログラム
JP6251958B2 (ja) 発話解析装置、音声対話制御装置、方法、及びプログラム
CN109036391B (zh) 语音识别方法、装置及系统
JP5558284B2 (ja) 音声認識システム、音声認識方法、および音声認識プログラム
KR101590724B1 (ko) 음성 인식 오류 수정 방법 및 이를 수행하는 장치
AU2010346493B2 (en) Speech correction for typed input
EP4097718B1 (en) Voice context-aware content manipulation
CN110308886B (zh) 提供与个性化任务相关联的声音命令服务的系统和方法
JP6150268B2 (ja) 単語登録装置及びそのためのコンピュータプログラム
CN101681365A (zh) 用于分布式语音搜索的方法和装置
JP4680691B2 (ja) 対話システム
KR20200080400A (ko) 페르소나에 기반하여 문장을 제공하는 방법 및 이를 지원하는 전자 장치
JP2011232619A (ja) 音声認識装置および音声認識方法
KR20130112654A (ko) 통역 장치 및 방법
US11501762B2 (en) Compounding corrective actions and learning in mixed mode dictation
KR20230156427A (ko) 연결 및 축소된 rnn-t
JP5396530B2 (ja) 音声認識装置および音声認識方法
JP5160594B2 (ja) 音声認識装置および音声認識方法
KR20130050132A (ko) 오류 발음 검출을 위한 단말 및 음성 인식 장치, 그리고 그의 음향 모델 학습 방법
KR20220118818A (ko) 전자 장치 및 전자 장치의 동작 방법
EP3018654A1 (en) Speech signal processing method and speech signal processing apparatus
KR20220159170A (ko) 전자 장치 및 전자 장치의 동작 방법
JP2010257085A (ja) 検索装置、検索方法、および検索プログラム
US20240135925A1 (en) Electronic device for performing speech recognition and operation method thereof
JP4445371B2 (ja) 認識語彙の登録装置と音声認識装置および方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130206

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130925

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20131022

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20131118

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131218

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140520

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140604

R150 Certificate of patent or registration of utility model

Ref document number: 5558284

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees