JP5231484B2 - 音声認識装置、音声認識方法、プログラム、及びプログラムを配信する情報処理装置 - Google Patents
音声認識装置、音声認識方法、プログラム、及びプログラムを配信する情報処理装置 Download PDFInfo
- Publication number
- JP5231484B2 JP5231484B2 JP2010114848A JP2010114848A JP5231484B2 JP 5231484 B2 JP5231484 B2 JP 5231484B2 JP 2010114848 A JP2010114848 A JP 2010114848A JP 2010114848 A JP2010114848 A JP 2010114848A JP 5231484 B2 JP5231484 B2 JP 5231484B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- speech recognition
- language model
- unit
- recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 23
- 230000010365 information processing Effects 0.000 title description 7
- 230000014509 gene expression Effects 0.000 claims description 81
- 238000000605 extraction Methods 0.000 claims description 54
- 238000006243 chemical reaction Methods 0.000 description 76
- 239000000284 extract Substances 0.000 description 32
- 238000010586 diagram Methods 0.000 description 15
- 241001247986 Calotropis procera Species 0.000 description 5
- 238000004891 communication Methods 0.000 description 5
- 239000004973 liquid crystal related substance Substances 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000010295 mobile communication Methods 0.000 description 3
- CDBYLPFSWZWCQE-UHFFFAOYSA-L Sodium Carbonate Chemical compound [Na+].[Na+].[O-]C([O-])=O CDBYLPFSWZWCQE-UHFFFAOYSA-L 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000011112 process operation Methods 0.000 description 1
Images
Description
図1は、本実施形態に係る音声認識装置100の機能ブロック図である。
音声取得部101は、マイク等を介して、入力された音声を取得し、音声を音声波形131に変換する。
音声記憶部103は、音声取得部101により取得された音声波形131を記憶する。
図2は、本実施形態に係る音声認識装置100の第1音声認識部105の動作を説明するための概念図である。具体的には、図2(a)は、第1音声認識部105で変換される音声波形131の概念図である。図2(b)は、第1音声認識部105で音声波形131に基づいて置き換えられる発音記号133の一例を示す図である。図2(c)は、第1音声認識部105で音声波形131に基づいて置き換えられる第1変換候補135の一例を示す図である。
第1音響モデルDB107aは、発音記号と、発音記号に対応する複数の音声波形又は音声波形の統計的な音声波形のモデルである音声波形モデルとを記憶する。例えば、第1音響モデルDB107aは、「あ」から「ん」までの平仮名の発音記号と、各発音記号に対応する複数又は統計的な音声波形モデルとを記憶する。
第1言語モデルDB107bは、汎用的な単語に基づいて構成された第1言語モデルを記憶する。第1言語モデルは、辞書部と、n−gramとからなる。具体的には、第1言語モデルは、辞書部の機能として、汎用的な単語と、単語に対応する発音記号列とが含まれる。例えば、第1言語モデルは、「汎用的な単語」として、5万語程度の単語と、対応する発音記号列とからなる。
提示部109は、音声波形131について、対応する第1変換候補135を提示する。また、音声波形131について、対応する第2変換候補141が第2音声認識部117により作成されている場合、提示部109は、音声波形131について、対応する第1変換候補135及び第2変換候補141を提示する。すなわち、提示部109は、音声波形131について、対応する第1変換候補135及び第2変換候補141により統合された変換候補を提示する。具体的には、提示部109は、液晶ディスプレイ等の出力装置を介して、音声波形131に対応する第1変換候補135及び第2変換候補141を提示する。
図3は、本実施形態に係る音声認識装置100の再認識範囲抽出部111及び限定範囲音声抽出部115の動作を説明するための概念図である。具体的には、図3(a)は、第1変換候補135において、再認識範囲抽出部111により抽出される特定の表現137の概念図である。図3(b)は、音声波形131において、再認識範囲抽出部111により抽出される特定の区間139の概念図である。
第3言語モデルDB113は、接尾語又は接頭語により構成された第3言語モデルを記憶する。第3言語モデルには、辞書部と、n−gramとが含まれる。具体的には、第3言語モデルは、辞書部の機能として、接尾語又は接頭語からなる単語と、単語に対応する発音記号列とが含まれる。例えば、第3言語モデルは、「接尾語からなる単語」として、直前に人名を含む「さん」、「家」、「流」等、直前に地名を含む「行き」、「県」、「発」、「着」、「語」、「弁」、「製」等、直前の単語に専門の人や仕事を含む「屋」、「店」等、直前の単語に数値を含む「回」、「円」、「度」等を含む。また、第3言語モデルは、「接頭語からなる単語」として、直後の単語に企業名を含む「株式会社」等の単語を含む。
限定範囲音声抽出部115は、再認識範囲抽出部111により抽出された特定の区間139の音声波形を抽出する。具体的には、限定範囲音声抽出部115は、音声記憶部103に記憶される音声波形131を取得し、再認識範囲抽出部111により抽出された特定の区間139の音声波形を抽出する。
図4は、本実施形態に係る音声認識装置100の第2音声認識部117の動作を説明するための概念図である。
第2言語モデルDB119bは、第1言語モデルよりも特定の表現に特化した単語に基づいて構成された第2言語モデルを記憶する。第2言語モデルは、辞書部と、n−gramとからなる。第2言語モデルの辞書部は、固有名詞、時間表現、数量表現の少なくとも何れかからなる単語に基づいて、構成される。例えば、固有名詞には、固有の人物を表す人名、会社名、固有の場所を表す地名、住所、駅名、新たに創造された物に対する固有物名等、100万語以上の単語が含まれる。第2言語モデルは、特定の表現として特定の分野の単語と、該特定の分野の種別と、対応する発音記号列とからなる。
判定部121は、液晶ディスプレイ等の出力装置を介して、提示部109により、ユーザに提示された第1変換候補135及び第2変換候補141の少なくとも何れかが、ユーザの指示等により確定されたか否かを判定する。例えば、判定部121は、第1変換候補135及び第2変換候補141について、ユーザのキーボード又はマウス等の入力装置の操作からの指示に基づいて、「株式会社ヤホの赤田さんと会議をしました」という第1変換候補135が確定されたことを判定する。
出力部123は、第1変換候補135又は、第2変換候補141の少なくとも何れかをユーザに出力する。具体的には、出力部123は、液晶ディスプレイ等の出力装置を介して、第1変換候補135又は、第2変換候補141の少なくとも何れかを出力する。また、出力部123は、判定部121に基づいて確定したと判定された第1変換候補135又は、第2変換候補141の少なくとも何れかをユーザに出力してもよい。出力部123は、ネットワーク等を介して、確定したと判定された第1変換候補135又は、第2変換候補141の少なくとも何れかをデータとして出力することもできる。
音声認識装置100の動作について、(2.1)全体概略動作、(2.2)第1音声認識部105の音声認識処理動作の順に説明する。
図5は、実施形態に係る音声認識装置100の音声認識動作を示すフローチャートである。
図6は、実施形態に係る第1音声認識部105の音声認識処理動作の詳細を示すフローチャートである。具体的には、図6は、図5のステップS120における第1音声認識部105が、音声認識を行う処理の詳細動作を示す。
以上説明したように、本実施形態によれば、音声認識装置100は、第1音声認識部105により、音声波形131について、汎用的な単語について音声認識し、特定の表現137を含む音声波形131を再認識範囲抽出部111により特定の区間139として、抽出し、第2音声認識部117により音声認識することができる。
上述した実施形態では、第1音声認識部105は、第1音響モデルDB107aを用いて音声波形131を発音記号133に変換し、第1言語モデルを用いて、発音記号133を単語列からなる第1変換候補135に変換する、いわゆるボトムアップ的な認識手法による音声認識をする。
101 音声取得部
103 音声記憶部
105 第1音声認識部
107a 第1音響モデルDB
107b 第1言語モデルDB
109 提示部
111 再認識範囲抽出部
113 第3言語モデルDB
115 限定範囲音声抽出部
117 第2音声認識部
119a 第2音響モデルDB
119b 第2言語モデルDB
121 判定部
123 出力部
131 音声波形
131a 音声区間
133 発音記号
133a 発音記号候補
135 第1変換候補
137 特定の表現
139 特定の区間
141 第2変換候補
Claims (3)
- 汎用的な単語に基づいて構成された第1言語モデルを記憶する第1記憶手段と、
前記第1言語モデルよりも特定の表現に特化した、固有名詞、時間表現、数量表現の少なくとも何れかからなる単語に基づいて構成された第2言語モデルを記憶する第2記憶手段と、
前記特定の表現の前後に連なるとともに、前記特定の表現に関連する接頭語または接尾語に基づいて構成された第3言語モデルを記憶する第3記憶手段と、
前記第1言語モデルを用いて、入力された音声に基づく音声波形を音声認識する第1音声認識手段と、
前記第3言語モデルを用いて、前記第1音声認識手段の認識結果から、前記接頭語または前記接尾語を抽出し、該接頭語の直後の区間または該接尾語の直前の区間を、固有名詞、時間表現、数量表現の少なくとも何れかからなる単語含む特定の区間として抽出する抽出手段と、
前記第2言語モデルを用いて、前記抽出手段により抽出された特定の区間の音声波形を音声認識する第2音声認識手段と、
を備えることを特徴とする音声認識装置。 - コンピュータが、汎用的な単語に基づいて構成された第1言語モデルを用いて、入力された音声に基づく音声波形を音声認識するステップと、
コンピュータが、前記特定の表現の前後に連なるとともに、前記特定の表現に関連する接頭語または接尾語に基づいて構成された第3言語モデルを用いて、前記第1言語モデルを用いて認識した認識結果から、前記接頭語または前記接尾語を抽出し、該接頭語の直後の区間または該接尾語の直前の区間を、固有名詞、時間表現、数量表現の少なくとも何れかからなる単語含む特定の区間として抽出するステップと、
コンピュータが、前記第1言語モデルよりも特定の表現に特化した、固有名詞、時間表現、数量表現の少なくとも何れかからなる単語に基づいて構成された第2言語モデルを用いて、前記特定の区間について、音声認識するステップと、
を含むことを特徴とする音声認識方法。 - 請求項2に記載の音声認識方法をコンピュータに実行させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010114848A JP5231484B2 (ja) | 2010-05-19 | 2010-05-19 | 音声認識装置、音声認識方法、プログラム、及びプログラムを配信する情報処理装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010114848A JP5231484B2 (ja) | 2010-05-19 | 2010-05-19 | 音声認識装置、音声認識方法、プログラム、及びプログラムを配信する情報処理装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011242613A JP2011242613A (ja) | 2011-12-01 |
JP5231484B2 true JP5231484B2 (ja) | 2013-07-10 |
Family
ID=45409317
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010114848A Active JP5231484B2 (ja) | 2010-05-19 | 2010-05-19 | 音声認識装置、音声認識方法、プログラム、及びプログラムを配信する情報処理装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5231484B2 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6150268B2 (ja) * | 2012-08-31 | 2017-06-21 | 国立研究開発法人情報通信研究機構 | 単語登録装置及びそのためのコンピュータプログラム |
CN103903619B (zh) * | 2012-12-28 | 2016-12-28 | 科大讯飞股份有限公司 | 一种提高语音识别准确率的方法及系统 |
CN106297797B (zh) | 2016-07-26 | 2019-05-31 | 百度在线网络技术(北京)有限公司 | 语音识别结果纠错方法和装置 |
US9959861B2 (en) * | 2016-09-30 | 2018-05-01 | Robert Bosch Gmbh | System and method for speech recognition |
JP6763527B2 (ja) * | 2018-08-24 | 2020-09-30 | ソプラ株式会社 | 認識結果補正装置、認識結果補正方法、およびプログラム |
JP7177348B2 (ja) * | 2019-02-06 | 2022-11-24 | 日本電信電話株式会社 | 音声認識装置、音声認識方法およびプログラム |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000056795A (ja) * | 1998-08-03 | 2000-02-25 | Fuji Xerox Co Ltd | 音声認識装置 |
JP3976959B2 (ja) * | 1999-09-24 | 2007-09-19 | 三菱電機株式会社 | 音声認識装置、音声認識方法および音声認識プログラム記録媒体 |
JP3639776B2 (ja) * | 2000-07-28 | 2005-04-20 | シャープ株式会社 | 音声認識用辞書作成装置および音声認識用辞書作成方法、音声認識装置、携帯端末器、並びに、プログラム記録媒体 |
JP2008089625A (ja) * | 2006-09-29 | 2008-04-17 | Honda Motor Co Ltd | 音声認識装置、音声認識方法及び音声認識プログラム |
JP4709887B2 (ja) * | 2008-04-22 | 2011-06-29 | 株式会社エヌ・ティ・ティ・ドコモ | 音声認識結果訂正装置および音声認識結果訂正方法、ならびに音声認識結果訂正システム |
JP5050175B2 (ja) * | 2008-07-02 | 2012-10-17 | 株式会社国際電気通信基礎技術研究所 | 音声認識機能付情報処理端末 |
-
2010
- 2010-05-19 JP JP2010114848A patent/JP5231484B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2011242613A (ja) | 2011-12-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102439540B (zh) | 输入法编辑器 | |
JP5997217B2 (ja) | 言語変換において複数の読み方の曖昧性を除去する方法 | |
TWI636452B (zh) | 語音識別方法及系統 | |
US9754592B2 (en) | Methods and systems for speech-enabling a human-to-machine interface | |
Han et al. | Lexical normalisation of short text messages: Makn sens a# twitter | |
US10290299B2 (en) | Speech recognition using a foreign word grammar | |
JP5403696B2 (ja) | 言語モデル生成装置、その方法及びそのプログラム | |
JP2011018330A (ja) | 統計的な方法を用いて漢字を自国語の発音列に変換するシステムおよび方法 | |
JP5231484B2 (ja) | 音声認識装置、音声認識方法、プログラム、及びプログラムを配信する情報処理装置 | |
CN107402933A (zh) | 实体多音字消歧方法和实体多音字消歧设备 | |
JP2016102866A (ja) | 誤認識修正装置およびプログラム | |
JP2006053906A (ja) | コンピューティングデバイスへの入力を提供するための効率的なマルチモーダル方法 | |
Ablimit et al. | A multilingual language processing tool for Uyghur, Kazak and Kirghiz | |
Prasad et al. | Mining Training Data for Language Modeling Across the World's Languages. | |
JP2019159118A (ja) | 出力プログラム、情報処理装置及び出力制御方法 | |
JP5203324B2 (ja) | 誤字脱字対応テキスト解析装置及び方法及びプログラム | |
JP5722375B2 (ja) | 文末表現変換装置、方法、及びプログラム | |
JP5139499B2 (ja) | 抽出装置、抽出方法、プログラム、及びプログラムを配信する情報処理装置 | |
JP2007156545A (ja) | 記号列変換方法、単語翻訳方法、その装置およびそのプログラム並びに記録媒体 | |
JP2019095603A (ja) | 情報生成プログラム、単語抽出プログラム、情報処理装置、情報生成方法及び単語抽出方法 | |
JP5318030B2 (ja) | 入力支援装置、抽出方法、プログラム、及び情報処理装置 | |
Saychum et al. | Efficient Thai Grapheme-to-Phoneme Conversion Using CRF-Based Joint Sequence Modeling. | |
JP5474723B2 (ja) | 音声認識装置およびその制御プログラム | |
CN101645068A (zh) | 具有搜索相似特性字词能力的资料查询方法及搜索引擎服务器 | |
Celikkaya et al. | A mobile assistant for Turkish |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120405 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120424 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20120508 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120625 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20121211 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130207 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130226 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130321 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160329 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5231484 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |