JP5558284B2 - 音声認識システム、音声認識方法、および音声認識プログラム - Google Patents
音声認識システム、音声認識方法、および音声認識プログラム Download PDFInfo
- Publication number
- JP5558284B2 JP5558284B2 JP2010207048A JP2010207048A JP5558284B2 JP 5558284 B2 JP5558284 B2 JP 5558284B2 JP 2010207048 A JP2010207048 A JP 2010207048A JP 2010207048 A JP2010207048 A JP 2010207048A JP 5558284 B2 JP5558284 B2 JP 5558284B2
- Authority
- JP
- Japan
- Prior art keywords
- speech recognition
- vocabulary
- server
- language model
- recognition processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
まず、本発明の実施形態に係る音声認識システム1の構成について、図1を参照しながら説明する。図1は、音声認識システム1の構成概要図である。図1に示すように、音声認識システム1は、クライアント端末100(特許請求の範囲における「通信端末」に相当)およびサーバ200から構成され、クライアント端末100とサーバ200とはネットワーク300上に接続されている。図1ではクライアント端末100を代表して1台のみを示しているが、サーバ200に複数のクライアント端末100が通信可能である。クライアント端末100は第1の音声認識処理を行い、サーバ200は第2の音声認識処理を行う。第2の音声認識処理の結果が音声認識処理の最終的な結果となる。
クライアント端末100について詳細に説明する。クライアント端末100は例えば携帯電話機やスマートフォンであって、図2はクライアント端末100のハードウェア構成図である。図2に示すように、クライアント端末100は、物理的には、CPU11、主記憶装置であるROM12及びRAM13、操作ボタンやマイクなどの入力デバイス14、LCDや有機ELディスプレイなどの出力デバイス15、サーバ200との間でデータの送受信を行う通信モジュール16、メモリディバイス等の補助記憶装置17を備えて構成される。後述するクライアント端末100の各機能は、CPU11、ROM12、RAM13等のハードウェア上に所定のソフトウェアを読み込ませることにより、CPU11の制御の元で入力デバイス14、出力デバイス15、通信モジュール16を動作させると共に、主記憶装置12,13や補助記憶装置17におけるデータの読み出し及び書き込みを行うことで実現される。
続いて、サーバ200について説明する。図2はサーバ200のハードウェア構成図である。図2に示すように、サーバ200は、物理的には、CPU21、ROM22及びRAM23等の主記憶装置、キーボード及びマウス等の入力デバイス24、ディスプレイ等の出力デバイス25、クライアント端末100との間でデータの送受信を行うためのネットワークカード等の通信モジュール26、ハードディスク等の補助記憶装置27などを含む通常のコンピュータシステムとして構成される。後述するサーバ200の各機能は、CPU21、ROM22、RAM23等のハードウェア上に所定のコンピュータソフトウェアを読み込ませることにより、CPU21の制御の元で入力デバイス24、出力デバイス25、通信モジュール26を動作させると共に、主記憶装置22,23や補助記憶装置27におけるデータの読み出し及び書き込みを行うことで実現される。
続いて、音声認識システム1により行われる動作について、図3を参照しながら説明する。図3は、音声認識システム1で行われる動作を示すシーケンス図である。
最初に、クライアント端末100の音声入力部110がユーザからの音声信号を入力し、A−D変換等を行った後に、音声データを端末側音声認識部130および送信部150に出力する。
次に、端末側音声認識部130が、端末側格納部120に格納された言語モデルまたは音響モデルを用いて、ステップS1にて音声入力部110より入力した音声データに対して第1の音声認識処理を行う。図4は、第1の音声認識処理の結果の一例を示す。図4では認識結果をN−bestで示しているが、これに限らず、confusion networkであっても良く、単語latticeであっても良い。端末側音声認識部130は、図4に示したような第1の音声認識処理の結果を語彙抽出部140に出力する。
次に、語彙抽出部140が、ステップS2の第1の音声認識処理の結果を端末側音声認識部130より入力され、当該結果を構成する語彙を抽出する。図4の例のような認識結果が入力された場合に、語彙抽出部140は下記に示す語彙を抽出し、当該抽出した語彙を表す語彙情報を送信部150に出力する(語彙抽出部140の語彙抽出パターン1)。
「今日/キョウ」、「は/ワ」、「横浜/ヨコハマ」、「高浜/タカハマ」、「横島/ヨコシマ」、「へ/エ」、「に/ニ」、「行った/イッタ」、「会った/アッタ」
次に、送信部150が、ステップS1にて音声入力部110より入力した音声データとともに、ステップS3にて語彙抽出部140より入力した語彙情報、および指示信号があれば当該指示信号をサーバ200に送信する。
次に、サーバ200の受信部210が、クライアント端末100の送信部150より、音声データ、語彙情報、および指示信号があれば当該指示信号を受信する。受信部210は、受信した音声データをサーバ側音声認識部240に出力し、受信した語彙情報および指示信号を認識辞書拡張部230に出力する。
次に、認識辞書拡張部230が、受信部210より、語彙情報、および指示信号があれば当該指示信号を入力し、当該入力した諸情報に基づき、サーバ側格納部220に格納されたサーバ側言語モデルの認識辞書を拡張する。
次に、サーバ側音声認識部240が、サーバ側格納部220に格納された言語モデルまたは音響モデルを用いて、ステップS5にて受信部210より入力した音声データに対して第2の音声認識処理を行う。第2の音声認識処理は、認識辞書拡張部230により認識辞書が拡張された後の言語モデルを用いて行われる。サーバ側音声認識部240は、第2の音声認識処理を行った結果を認識結果送信部250に出力する。
次に、認識結果送信部250が、サーバ側音声認識部240より第2の音声認識処理を行った結果を入力され、当該結果をクライアント端末100に送信する。
次に、クライアント端末100側で第2の音声認識処理の結果を受信し、当該結果をユーザに表示する。
続いて、本実施形態にかかる音声認識システム1の作用及び効果について説明する。本実施形態の音声認識システム1によれば、クライアント端末100の端末側音声認識部130による第1の音声認識処理の結果を構成する語彙を、第2の音声認識処理を行うサーバ200に送信する。クライアント端末100の端末側音声認識部130は、ユーザに適応された言語モデルまたは音響モデルを用いるため、ユーザにカスタマイズされた音声認識処理が可能である。この音声認識処理の結果を構成する語彙がサーバ200に送信され認識辞書として用いられるため、サーバ200では、認識辞書を拡張した上で、大語彙且つ高精度の音声認識処理を行うことが可能となる。したがって、第2の音声認識処理における未知語を減少させながらも、大語彙且つ高精度の音声認識処理と、言語モデルまたは音響モデルのユーザごとのカスタマイズを両立する音声認識処理を実現することが可能となる。
Claims (7)
- 通信端末とサーバとが通信することによって音声認識処理を行う音声認識システムであって、
前記通信端末は、
音声信号を入力する音声入力手段と、
音声認識処理を行うための言語モデルまたは音響モデルであってユーザに適応されたものを格納する格納手段と、
前記言語モデルまたは前記音響モデルを用いて前記音声信号に対して第1の音声認識処理を行う音声認識処理手段と、
前記音声認識処理手段の認識処理結果を構成する語彙を抽出するとともに、抽出した前記語彙が前記言語モデルに存在するものであるか否かを示す情報である指示信号を生成する語彙抽出手段と、
前記音声信号とともに前記語彙を表す情報である語彙情報、および前記指示信号を前記サーバに送信する送信手段と、を備え、
前記サーバは、
音声認識処理を行うための言語モデルであって、前記格納手段に格納された言語モデルよりも大語彙且つ高精度の音声認識処理に適合した言語モデルであるサーバ側言語モデルを格納するサーバ側格納手段と、
前記語彙情報、および前記指示信号に基づき、前記サーバ側言語モデルにおける未知語を既知語として登録する認識辞書拡張手段と、
前記サーバ側言語モデルを用いて前記音声信号に対して第2の音声認識処理を行うサーバ側音声認識処理手段と、
を備える音声認識システム。 - 前記格納手段が格納する前記言語モデルは、当該通信端末内に存在するユーザデータ、または前記ユーザの利用履歴から得られ前記ユーザに依存する言語データに基づくユーザ辞書を含む、
ことを特徴とする請求項1に記載の音声認識システム。 - 前記格納手段が格納する前記音響モデルは、前記ユーザの過去の入力音声もしくは通話音声、または音響トレーニングの実績を利用して、前記ユーザに適応された、
ことを特徴とする請求項1または2に記載の音声認識システム。 - 前記サーバとは、ネットワーク上に接続されている、
ことを特徴とする請求項1〜3の何れか1項に記載の音声認識システム。 - 前記語彙抽出手段は、前記語彙のうち、前記ユーザデータまたは前記ユーザ辞書に存在するもののみを抽出する、
ことを特徴とする請求項2に記載の音声認識システム。 - 通信端末とサーバとが通信することによって音声認識処理を行う音声認識方法であって、
前記通信端末の格納手段に、音声認識処理を行うための言語モデルまたは音響モデルであってユーザに適応されたものが格納されており、
前記通信端末の音声入力手段が、音声信号を入力する音声入力ステップと、
前記通信端末の音声認識処理手段が、前記言語モデルまたは前記音響モデルを用いて前記音声信号に対して第1の音声認識処理を行う音声認識処理ステップと、
前記通信端末の語彙抽出手段が、前記音声認識処理手段の認識処理結果を構成する語彙を抽出するとともに、抽出した前記語彙が前記言語モデルに存在するものであるか否かを示す情報である指示信号を生成する語彙抽出ステップと、
前記通信端末の送信手段が、前記音声信号とともに前記語彙を表す情報である語彙情報、および前記指示信号を前記サーバに送信する送信ステップと、を備え、
前記サーバのサーバ格納手段に、音声認識処理を行うための言語モデルであって、前記格納手段に格納された言語モデルよりも大語彙且つ高精度の音声認識処理に適合した言語モデルであるサーバ側言語モデルが格納されており、
前記サーバの認識辞書拡張手段が、前記語彙情報、および前記指示信号に基づき、前記サーバ側言語モデルにおける未知語を既知語として登録する認識辞書拡張ステップと、
前記サーバのサーバ側音声認識処理手段が、前記サーバ側言語モデルを用いて前記音声信号に対して第2の音声認識処理を行うサーバ側音声認識処理ステップと、
を備える音声認識方法。 - 通信端末とサーバとが通信することによって行われる音声認識処理の音声認識プログラムであって、
音声信号を入力する音声入力モジュールと、
前記通信端末に格納された、音声認識処理を行うための言語モデルまたは音響モデルであってユーザに適応されたものを用いて前記音声信号に対して第1の音声認識処理を行う音声認識処理モジュールと、
前記音声認識処理モジュールの認識処理結果を構成する語彙を抽出するとともに、抽出した前記語彙が前記言語モデルに存在するものであるか否かを示す情報である指示信号を生成する語彙抽出モジュールと、
前記音声信号とともに前記語彙を表す情報である語彙情報、および前記指示信号を前記サーバに送信する送信モジュールと、
前記語彙情報、および前記指示信号に基づき、音声認識処理を行うための言語モデルであって前記通信端末に格納された言語モデルよりも大語彙且つ高精度の音声認識処理に適合した言語モデルであるサーバ側言語モデルにおける未知語を既知語として登録する認識辞書拡張モジュールと、
前記サーバ側言語モデルを用いて前記音声信号に対して第2の音声認識処理を行うサーバ側音声認識処理モジュールと、
を備える音声認識プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010207048A JP5558284B2 (ja) | 2010-09-15 | 2010-09-15 | 音声認識システム、音声認識方法、および音声認識プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010207048A JP5558284B2 (ja) | 2010-09-15 | 2010-09-15 | 音声認識システム、音声認識方法、および音声認識プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012063537A JP2012063537A (ja) | 2012-03-29 |
JP5558284B2 true JP5558284B2 (ja) | 2014-07-23 |
Family
ID=46059315
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010207048A Expired - Fee Related JP5558284B2 (ja) | 2010-09-15 | 2010-09-15 | 音声認識システム、音声認識方法、および音声認識プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5558284B2 (ja) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5956913B2 (ja) * | 2012-11-14 | 2016-07-27 | 日本電信電話株式会社 | 言語モデル生成装置、言語モデル生成方法、プログラム、記録媒体 |
KR20150145024A (ko) | 2014-06-18 | 2015-12-29 | 한국전자통신연구원 | 화자적응 음성인식 시스템의 단말 및 서버와 그 운용 방법 |
WO2016157352A1 (ja) * | 2015-03-30 | 2016-10-06 | 富士通株式会社 | 音声認識装置、音声認識システム、及び、プログラム |
KR102434604B1 (ko) | 2016-01-05 | 2022-08-23 | 한국전자통신연구원 | 개인화된 음성 인식을 수행하기 위한 음성 인식 단말, 음성 인식 서버 및 음성 인식 방법 |
JP6833203B2 (ja) * | 2017-02-15 | 2021-02-24 | フォルシアクラリオン・エレクトロニクス株式会社 | 音声認識システム、音声認識サーバ、端末装置、及び語句管理方法 |
JP7243567B2 (ja) | 2019-10-18 | 2023-03-22 | トヨタ自動車株式会社 | 変更操作支援装置 |
JP6824547B1 (ja) * | 2020-06-22 | 2021-02-03 | 江崎 徹 | アクティブラーニングシステム及びアクティブラーニングプログラム |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6195641B1 (en) * | 1998-03-27 | 2001-02-27 | International Business Machines Corp. | Network universal spoken language vocabulary |
JP2004012653A (ja) * | 2002-06-05 | 2004-01-15 | Matsushita Electric Ind Co Ltd | 音声認識システム、音声認識クライアント、音声認識サーバ、音声認識クライアントプログラムおよび音声認識サーバプログラム |
JP4601306B2 (ja) * | 2003-03-13 | 2010-12-22 | パナソニック株式会社 | 情報検索装置、情報検索方法、およびプログラム |
JP2007033901A (ja) * | 2005-07-27 | 2007-02-08 | Nec Corp | 音声認識システム、音声認識方法、および音声認識用プログラム |
US8676582B2 (en) * | 2007-03-14 | 2014-03-18 | Nec Corporation | System and method for speech recognition using a reduced user dictionary, and computer readable storage medium therefor |
JP4902617B2 (ja) * | 2008-09-30 | 2012-03-21 | 株式会社フュートレック | 音声認識システム、音声認識方法、音声認識クライアントおよびプログラム |
-
2010
- 2010-09-15 JP JP2010207048A patent/JP5558284B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2012063537A (ja) | 2012-03-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5480760B2 (ja) | 端末装置、音声認識方法および音声認識プログラム | |
JP6251958B2 (ja) | 発話解析装置、音声対話制御装置、方法、及びプログラム | |
CN109036391B (zh) | 语音识别方法、装置及系统 | |
JP5558284B2 (ja) | 音声認識システム、音声認識方法、および音声認識プログラム | |
KR101590724B1 (ko) | 음성 인식 오류 수정 방법 및 이를 수행하는 장치 | |
AU2010346493B2 (en) | Speech correction for typed input | |
EP4097718B1 (en) | Voice context-aware content manipulation | |
CN110308886B (zh) | 提供与个性化任务相关联的声音命令服务的系统和方法 | |
JP6150268B2 (ja) | 単語登録装置及びそのためのコンピュータプログラム | |
CN101681365A (zh) | 用于分布式语音搜索的方法和装置 | |
JP4680691B2 (ja) | 対話システム | |
KR20200080400A (ko) | 페르소나에 기반하여 문장을 제공하는 방법 및 이를 지원하는 전자 장치 | |
JP2011232619A (ja) | 音声認識装置および音声認識方法 | |
KR20130112654A (ko) | 통역 장치 및 방법 | |
US11501762B2 (en) | Compounding corrective actions and learning in mixed mode dictation | |
KR20230156427A (ko) | 연결 및 축소된 rnn-t | |
JP5396530B2 (ja) | 音声認識装置および音声認識方法 | |
JP5160594B2 (ja) | 音声認識装置および音声認識方法 | |
KR20130050132A (ko) | 오류 발음 검출을 위한 단말 및 음성 인식 장치, 그리고 그의 음향 모델 학습 방법 | |
KR20220118818A (ko) | 전자 장치 및 전자 장치의 동작 방법 | |
EP3018654A1 (en) | Speech signal processing method and speech signal processing apparatus | |
KR20220159170A (ko) | 전자 장치 및 전자 장치의 동작 방법 | |
JP2010257085A (ja) | 検索装置、検索方法、および検索プログラム | |
US20240135925A1 (en) | Electronic device for performing speech recognition and operation method thereof | |
JP4445371B2 (ja) | 認識語彙の登録装置と音声認識装置および方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130206 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130925 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20131022 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20131118 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20131218 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140520 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140604 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5558284 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |