JP6549064B2 - 音声認識装置、音声認識方法、プログラム - Google Patents
音声認識装置、音声認識方法、プログラム Download PDFInfo
- Publication number
- JP6549064B2 JP6549064B2 JP2016112982A JP2016112982A JP6549064B2 JP 6549064 B2 JP6549064 B2 JP 6549064B2 JP 2016112982 A JP2016112982 A JP 2016112982A JP 2016112982 A JP2016112982 A JP 2016112982A JP 6549064 B2 JP6549064 B2 JP 6549064B2
- Authority
- JP
- Japan
- Prior art keywords
- speech recognition
- recognition result
- word
- importance
- idf
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 21
- 238000004364 calculation method Methods 0.000 claims description 37
- 239000013598 vector Substances 0.000 claims description 19
- 238000012217 deletion Methods 0.000 claims description 15
- 230000037430 deletion Effects 0.000 claims description 15
- 238000012545 processing Methods 0.000 description 19
- 235000021438 curry Nutrition 0.000 description 14
- 230000006870 function Effects 0.000 description 9
- 238000004904 shortening Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000014509 gene expression Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000007493 shaping process Methods 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
Description
<音声認識部11>
入力:音声データ(音圧の時系列データ。形式はpcm,wavなど)、順位数の上限N
出力:音声認識結果の1位〜N位の文、各文における各単語の信頼度
ここで、入力される音声データは、例えば1発話毎に文として処理されるものとする。
1発話目の文例:「今日はかるカレーを食べた」
音声認識部11は、音声データを入力として取得し、一般的な音声認識方法によって音声認識を実行し、1位からN位までの音声認識結果を出力する(S11)。ただし前述したようにNは2以上の整数である。
1位:今日 は かる カレー を 食べた
信頼度:今日→0.7 は→0.5 かる→0.4 カレー→0.5 を→0.7 食べた→0.9
2位:今日 は 軽い カレー を 食べた
信頼度:今日→0.7 は→0.5 軽い→0.35 カレー→0.5 を→0.7 食べた→0.9
・・・
N位: 今日 は かん カレー を 食べた
信頼度:今日→0.7 は→0.5 かん→0.2 カレー→0.5 を→0.7 食べた→0.9
入力:大量のテキストデータ
出力:テキストデータに対する3gram確率
3gram計算部12は、予め用意された大量のテキストデータ(音声認識結果でないもの)を用いる。本実施例では、大量のテキストデータはコーパス記憶部10に予め記憶されているものとする。大量のテキストデータとしては、例えば新聞の記事などを用いることができる。大量のテキストデータとしては、例えば1個30文程度の記事が150000記事程度あるようなコーパスが考えられる。
(1)今日 は 暑い 100
(2)今日 は 晴れ 95
(3)今日 は まれ 5
この場合、3gram確率p(暑い|今日、は)は、
(参考非特許文献1:北研二、辻井潤一、「言語と計算(4)確率的言語モデル」、東京大学出版会、1999年11月、p.67-69)
入力:1位からN位の音声認識結果、大量のテキストデータ
出力:1位の音声認識結果に出現した全ての単語に対するtf−idf
tf−idfとは、tf(term frequency、単語の出現頻度)とidf(inverse document frequency、逆文書頻度)の二つの指標にもとづいて計算される指標であり、文章内での単語の重要度を表す指標である。
「今日」が出現するドキュメントの数・・・400
「は」が出現するドキュメントの数・・・300
「カレー」が出現するドキュメントの数・・・3000
「を」が出現するドキュメントの数・・・50000
「食べ」が出現するドキュメントの数・・・40000
「た」が出現するドキュメントの数・・・50000
であったとする。
「今日」のidf=log10(150000/400)=2.24
「は」のidf=log10(150000/300)=2.70
「カレー」のidf=log10(150000/3000)=1.70
「を」のidf=log10(150000/50000)=0.478
「食べ」のidf=log10(150000/40000)=0.57
「た」のidf=log10(150000/50000)=0.478
と計算する。
「カレー」のtf=200/1000=0.20
と計算される。
tf−idf=tf×idf
例えば前述の例における「カレー」のtf−idfは、
tf−idf=0.20×1.70=0.34
である。
入力:1位の音声認識結果、1位の音声認識結果のtf−idf
出力:1位の音声認識結果に含まれる各単語のNRD(Normalized Relevance Distance)
重要度計算部14は、1位の音声認識結果のtf−idfに基づいて、1位の音声認識結果中の2単語間の類似性を表す尺度であるNRDを計算する(S14)。2単語間の類似性を表すNRDを計算する目的は、例えば、ある単語が他の単語との類似性が高ければ、その単語は誤認識ではない正解単語であり、削除すべき不要な単語ではないと判断できるためである。
入力:1位の音声認識結果、1位の音声認識結果の各単語に対する信頼度、1位の音声認識結果の各単語に対する3gram確率、1位の音声認識結果の各単語に対する重要度
出力:不要な単語が削除された音声認識結果
不要単語削除部15は、1位の音声認識結果に対して、不要な単語を削除する処理を実行する。今、ある音声データの1位の音声認識結果が、単語w1,w2,...,wTという並びで得られているとする。この文から不要な単語を、NRDに基づく値(単語一貫性スコア、その単語の重要度、削除してはいけない度合い)と、単語3つ並びの接続のしやすさの確率(3gram確率)、信頼度(その単語が音声認識結果として正しいと考えられる度合い)を用いて整数計画問題に定式化する。
例えば、音声認識結果である、「今日 は かる カレー を 食べた」という文に対してこの方法で不要単語を削除し、文圧縮を行うものとする。この場合、「かる」は、重要度が低い(NRDに基づく値が低い)ものとする。すると、「かる」を削除したと仮定した並びの、「は カレー を」が自然である(3gram確率が高い)ならば、該当の「かる」を削除しても構わないはずである。これを数式表現したものが上記の式となっている。
(参考非特許文献2:Tomas Mikolov, Ilya Sutskever , Kai Chen, Greg Corrado, Jeffrey Dean, ”Distributed Representations of Words and Phrases and their Compositionality”, [online], Oct 2013, [平成28年5月30日検索]、インターネット<URL:https://papers.nips.cc/paper/5021-distributed-representations-of-words-and-phrases-and-their-compositionality.pdf>)
この実数値ベクトルの平均ベクトルである
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置(例えば通信ケーブル)が接続可能な通信部、CPU(Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい)、メモリであるRAMやROM、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、CD−ROMなどの記録媒体を読み書きできる装置(ドライブ)などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
Claims (7)
- Nを2以上の整数とし、
入力された音声データに基づいて1位からN位の音声認識結果を出力する音声認識部と、
予め用意されたテキストデータの3gram確率を計算する3gram計算部と、
前記1位からN位の音声認識結果に含まれる各単語のtfと、前記テキストデータに基づいて予め用意されたidfのうち前記1位の音声認識結果に含まれる各単語のidfに基づき、前記1位の音声認識結果に含まれる各単語のtf−idfを計算するtf−idf計算部と、
前記tf−idfに基づいて前記1位の音声認識結果に含まれる各単語のNRDを計算し、計算された前記NRDに基づく値を各単語の重要度として出力する重要度計算部と、
前記1位の音声認識結果に含まれる各単語の信頼度と、前記1位の音声認識結果に含まれる連続する三つの単語の3gram確率と、前記1位の音声認識結果に含まれる各単語の重要度と、を用いて定式化した整数計画問題の解に基づいて前記1位の音声認識結果に含まれる不要単語を削除する不要単語削除部
を含む音声認識装置。 - 入力された音声データに基づいて1位の音声認識結果を出力する音声認識部と、
予め用意されたテキストデータの3gram確率を計算する3gram計算部と、
前記テキストデータの各単語を、DNNを用いて多次元の実数値ベクトルに変換し、前記多次元の実数値ベクトルに基づいて前記1位の音声認識結果に含まれる各単語の重要度を計算する重要度計算部と、
前記1位の音声認識結果に含まれる各単語の信頼度と、前記1位の音声認識結果に含まれる連続する三つの単語の3gram確率と、前記1位の音声認識結果に含まれる各単語の重要度と、を用いて定式化した整数計画問題の解に基づいて前記1位の音声認識結果に含まれる不要単語を削除する不要単語削除部
を含む音声認識装置。 - 請求項2に記載の音声認識装置であって、
前記重要度計算部は、
前記実数値ベクトルのばらつきの度合いに基づいて前記重要度を計算する
音声認識装置。 - 音声認識装置が実行する音声認識方法であって、
Nを2以上の整数とし、
入力された音声データに基づいて1位からN位の音声認識結果を出力するステップと、
予め用意されたテキストデータの3gram確率を計算するステップと、
前記1位からN位の音声認識結果に含まれる各単語のtfと、前記テキストデータに基づいて予め用意されたidfのうち前記1位の音声認識結果に含まれる各単語のidfに基づき、前記1位の音声認識結果に含まれる各単語のtf−idfを計算するステップと、
前記tf−idfに基づいて前記1位の音声認識結果に含まれる各単語のNRDを計算し、計算された前記NRDに基づく値を各単語の重要度として出力するステップと、
前記1位の音声認識結果に含まれる各単語の信頼度と、前記1位の音声認識結果に含まれる連続する三つの単語の3gram確率と、前記1位の音声認識結果に含まれる各単語の重要度と、を用いて定式化した整数計画問題の解に基づいて前記1位の音声認識結果に含まれる不要単語を削除するステップ
を含む音声認識方法。 - 音声認識装置が実行する音声認識方法であって、
入力された音声データに基づいて1位の音声認識結果を出力するステップと、
予め用意されたテキストデータの3gram確率を計算するステップと、
前記テキストデータの各単語を、DNNを用いて多次元の実数値ベクトルに変換し、前記多次元の実数値ベクトルに基づいて前記1位の音声認識結果に含まれる各単語の重要度を計算するステップと、
前記1位の音声認識結果に含まれる各単語の信頼度と、前記1位の音声認識結果に含まれる連続する三つの単語の3gram確率と、前記1位の音声認識結果に含まれる各単語の重要度と、を用いて定式化した整数計画問題の解に基づいて前記1位の音声認識結果に含まれる不要単語を削除するステップ
を含む音声認識方法。 - 請求項5に記載の音声認識方法であって、
前記実数値ベクトルのばらつきの度合いに基づいて前記重要度を計算する
音声認識方法。 - コンピュータを、請求項1から3の何れかに記載の音声認識装置として機能させるプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016112982A JP6549064B2 (ja) | 2016-06-06 | 2016-06-06 | 音声認識装置、音声認識方法、プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016112982A JP6549064B2 (ja) | 2016-06-06 | 2016-06-06 | 音声認識装置、音声認識方法、プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017219637A JP2017219637A (ja) | 2017-12-14 |
JP6549064B2 true JP6549064B2 (ja) | 2019-07-24 |
Family
ID=60657628
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016112982A Active JP6549064B2 (ja) | 2016-06-06 | 2016-06-06 | 音声認識装置、音声認識方法、プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6549064B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112530417B (zh) * | 2019-08-29 | 2024-01-26 | 北京猎户星空科技有限公司 | 语音信号处理方法、装置、电子设备及存储介质 |
CN111917850B (zh) * | 2020-07-20 | 2022-07-05 | 武汉美和易思数字科技有限公司 | 一种智能物联网校园背包 |
-
2016
- 2016-06-06 JP JP2016112982A patent/JP6549064B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2017219637A (ja) | 2017-12-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11688391B2 (en) | Mandarin and dialect mixed modeling and speech recognition | |
JP7092953B2 (ja) | エンドツーエンドモデルによる多言語音声認識のための音素に基づく文脈解析 | |
US7835902B2 (en) | Technique for document editorial quality assessment | |
US6233544B1 (en) | Method and apparatus for language translation | |
JP5901001B1 (ja) | 音響言語モデルトレーニングのための方法およびデバイス | |
CN112712804A (zh) | 语音识别方法、系统、介质、计算机设备、终端及应用 | |
US9588967B2 (en) | Interpretation apparatus and method | |
WO2019065263A1 (ja) | 発音誤り検出装置、発音誤り検出方法、プログラム | |
JP6955963B2 (ja) | 検索装置、類似度算出方法、およびプログラム | |
CN104239289B (zh) | 音节划分方法和音节划分设备 | |
US20230281392A1 (en) | Computer-readable recording medium storing computer program, machine learning method, and natural language processing apparatus | |
JP6552999B2 (ja) | テキスト補正装置、テキスト補正方法、およびプログラム | |
JP5180800B2 (ja) | 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム | |
JP6549064B2 (ja) | 音声認識装置、音声認識方法、プログラム | |
JP7028198B2 (ja) | 要約生成装置、方法、プログラム、及び記憶媒体 | |
JP5253317B2 (ja) | 要約文作成装置、要約文作成方法、プログラム | |
JP6486789B2 (ja) | 音声認識装置、音声認識方法、プログラム | |
CN118378623A (zh) | 一种基于跨模态大模型的全局视觉引导图像描述生成方法 | |
JP6852167B2 (ja) | コンフュージョンネットワーク分散表現生成装置、コンフュージョンネットワーク分類装置、コンフュージョンネットワーク分散表現生成方法、コンフュージョンネットワーク分類方法、プログラム | |
CN109344388A (zh) | 一种垃圾评论识别方法、装置及计算机可读存储介质 | |
JP6441203B2 (ja) | 音声認識結果圧縮装置、音声認識結果圧縮方法、プログラム | |
JP2006338261A (ja) | 翻訳装置、翻訳方法及び翻訳プログラム | |
JP2016095399A (ja) | 音声認識結果整形装置、方法及びプログラム | |
RU2814808C1 (ru) | Способ и система перефразирования текста | |
CN114398876B (zh) | 一种基于有限状态转换器的文本纠错方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180830 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20190612 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190625 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190626 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6549064 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |