JP2001255889A - 音声認識装置および音声認識方法、並びに記録媒体 - Google Patents
音声認識装置および音声認識方法、並びに記録媒体Info
- Publication number
- JP2001255889A JP2001255889A JP2000069698A JP2000069698A JP2001255889A JP 2001255889 A JP2001255889 A JP 2001255889A JP 2000069698 A JP2000069698 A JP 2000069698A JP 2000069698 A JP2000069698 A JP 2000069698A JP 2001255889 A JP2001255889 A JP 2001255889A
- Authority
- JP
- Japan
- Prior art keywords
- word
- speech recognition
- score
- dictionary
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 21
- 238000004364 calculation method Methods 0.000 claims description 23
- 238000000605 extraction Methods 0.000 claims description 9
- 239000000470 constituent Substances 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 7
- 238000013138 pruning Methods 0.000 description 7
- 230000002542 deteriorative effect Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 101100087530 Caenorhabditis elegans rom-1 gene Proteins 0.000 description 1
- 101100305983 Mus musculus Rom1 gene Proteins 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Character Discrimination (AREA)
Abstract
する。 【解決手段】 辞書データベース6は、音声認識の対象
とする単語の他、未知語を構成する音素や音素列であっ
て、未知語を、その品詞ごとに分類するための接尾語が
登録された単語辞書を記憶している。マッチング部4
は、そのような単語辞書に基づき、音響モデルデータベ
ース5の音響モデルを接続し、その接続した音響モデル
に基づき、特徴抽出部3が出力する特徴量の系列を用い
てスコアを計算する。そして、マッチング部4は、その
スコアに基づいて、音声認識結果とする単語の系列を選
択する。
Description
び音声認識方法、並びに記録媒体に関し、特に、例え
ば、発話中に未知語が含まれる場合の音声認識精度の劣
化を低減することができるようにする音声認識装置およ
び音声認識方法、並びに記録媒体に関する。
声認識装置の一例の構成を示している。
フォン)1に入力され、マイク1では、その入力音声
が、電気信号としての音声信号に変換される。この音声
信号は、AD(Analog Digital)変換部2に供給される。
AD変換部2では、マイク1からのアナログ信号である
音声信号がサンプリング、量子化され、ディジタル信号
である音声データに変換される。この音声データは、特
徴抽出部3に供給される。
データについて、適当なフレームごとに、フーリエ変換
やフィルタリング等の音響処理を施し、これにより、例
えば、MFCC(Mel Frequency Cepstrum Coefficient)
等の特徴量を抽出し、マッチング部4に供給する。な
お、特徴抽出部3では、その他、例えば、スペクトル
や、線形予測係数、ケプストラム係数、線スペクトル対
等の特徴量を抽出することが可能である。
徴量を用いて、音響モデルデータベース5、辞書データ
ベース6、および文法データベース7を必要に応じて参
照しながら、マイク1に入力された音声(入力音声)
を、例えば、連続分布HMM法等に基づいて音声認識す
る。
認識する音声の言語における個々の音素や音節などの音
響的な特徴を表す音響モデルを記憶している。ここで
は、連続分布HMM法に基づいて音声認識を行うので、
音響モデルとしては、例えば、HMM(Hidden Markov M
odel)が用いられる。辞書データベース6は、音声認識
対象とする各単語(語彙)について、その発音に関する
情報(音韻情報)が記述された単語辞書を記憶してい
る。文法データベース7は、辞書データベース6の単語
辞書に登録されている各単語が、どのように連鎖する
(つながる)かを記述した文法規則(言語モデル)を記
憶している。ここで、文法規則としては、例えば、文脈
自由文法(CFG)や、統計的な単語連鎖確率(N−g
ram)などに基づく規則を用いることができる。
単語辞書を参照することにより、音響モデルデータベー
ス5に記憶されている音響モデルを接続することで、単
語の音響モデル(単語モデル)を構成する。さらに、マ
ッチング部4は、幾つかの単語モデルを、文法データベ
ース7に記憶された文法規則を参照することにより接続
し、そのようにして接続された単語モデルを用いて、特
徴量に基づき、連続分布HMM法によって、マイク1に
入力された音声を認識する。即ち、マッチング部4は、
特徴抽出部3が出力する時系列の特徴量が観測されるス
コア(尤度)が最も高い単語モデルの系列を検出し、そ
の単語モデルの系列に対応する単語列を、音声の認識結
果として出力する。
モデルに対応する単語列について、各特徴量の出現確率
を累積し、その累積値をスコアとして、そのスコアを最
も高くする単語列を、音声認識結果として出力する。
ベース5に記憶された音響モデルによって与えられる音
響的なスコア(以下、適宜、音響スコアという)と、文
法データベース7に記憶された文法規則によって与えら
れる言語的なスコア(以下、適宜、言語スコアという)
とを総合評価することで行われる。
よる場合には、単語モデルを構成する音響モデルから、
特徴抽出部3が出力する特徴量の系列が観測される確率
(出現する確率)に基づいて、単語ごとに計算される。
また、言語スコアは、例えば、バイグラムによる場合に
は、注目している単語と、その単語の直前の単語とが連
鎖(連接)する確率に基づいて求められる。そして、各
単語についての音響スコアと言語スコアとを総合評価し
て得られる最終的なスコア(以下、適宜、最終スコアと
いう)に基づいて、音声認識結果が確定される。
列におけるk番目の単語をwkとして、その単語wkの音
響スコアをA(wk)と、言語スコアをL(wk)と、そ
れぞれ表すとき、その単語列の最終スコアSは、例え
ば、次式にしたがって計算される。
ることを表す。また、C kは、単語wkの言語スコアL
(wk)にかける重みを表す。
示す最終スコアを最も大きくするNと、単語列w1,
w2,・・・,wNを求めるマッチング処理が行われ、そ
の単語列w1,w2,・・・,wNが、音声認識結果とし
て出力される。
図1の音声認識装置では、例えば、ユーザが、「ニュー
ヨークに行きたいです」と発話した場合には、「ニュー
ヨーク」、「に」、「行きたい」、「です」といった各
単語に、音響スコアおよび言語スコアが与えられ、それ
らを総合評価して得られる最終スコアが最も大きいと、
単語列「ニューヨーク」、「に」、「行きたい」、「で
す」が、音声認識結果として出力される。
タベース6の単語辞書に登録されているすべての単語に
ついて独立に行うと、その計算量が大きくなることか
ら、複数の単語についての音響スコアの計算の一部を共
通化(共有化)する方法がある。即ち、単語辞書の単語
のうち、その先頭の音韻が同一のものについて、その先
頭の音韻から、同一になっている音韻までは、音響モデ
ルを共通に用い、それ以後の音韻には、音響モデルを個
々に用いることにより、全体として1つの木構造のネッ
トワークを構成し、これを用いて、音響スコアを求める
方法がある。
すように、ルートノードを始点として、そのルートノー
ドから、音声認識対象とする各単語の先頭からの音韻に
対応するブランチを順次接続していくことで得られる木
構造の単語のネットワーク(単語ネットワーク)で構成
される。
の音韻が同一の単語については、上述のように、その先
頭の音韻から、同一になっている音韻までに対応するブ
ランチは、共通に用いられる。即ち、図2において、各
ブランチに付したスラッシュ(/)で囲むアルファベット
は、音韻を表しており、四角形で囲んである部分は、単
語を表しているが、例えば、単語"I","ice","icy","up"
については、その先頭の音韻/A/が同一であるから、そ
の音韻/A/に対応するブランチが1つに共通化されてい
る。また、単語"I","ice","icy"については、その2番
目の音韻/I/も同一であるから、先頭の音韻/A/だけでな
く、2番目の音韻/I/に対応するブランチも1つに共通
化されている。さらに、単語"ice","icy"については、
その3番目の音韻/S/も同一であるから、先頭の音韻/A/
と2番目の音韻/I/だけでなく、3番目の音韻/S/に対応
するブランチも1つに共通化されている。
先頭の音韻/B/と2番目の音韻/I/が同一であるから、先
頭の音韻/B/と2番目の音韻/I/に対応するブランチが1
つに共通化されている。
書を用いる場合には、マッチング部4は、単語ネットワ
ークのルートノードから延びるブランチの系列に対応す
る音韻の音響モデルを、音響モデルデータベース5から
読み出して接続し、その接続した音響モデルに基づき、
特徴抽出部3からの特徴量の系列を用いて、音響スコア
を計算する。
スコアは、その先頭の音韻/A/については、兼用で計算
される。また、単語"I","ice","icy"の音響スコアは、
その先頭から2番目までの音韻/A/,/I/については、兼
用で計算される。さらに、単語"ice","icy"の音響スコ
アは、その先頭からその3番目までの音韻/A/,/I/,/S/
については、兼用で計算される。そして、単語"up"の残
りの音韻(2番目の音韻)/P/、および単語"icy"の残り
の音韻(4番目の音韻)/I/については、単独で、音響
スコアが計算される。
その先頭から2番目までの音韻/B/,/I/については、兼
用で計算される。そして、単語"beat"の残りの音韻(3
番目の音韻)/T/については、単独で、音響スコアが計
算される。
辞書を用いることにより、音響スコアの計算量を大幅に
低減することができる。
単語ネットワークのルートノードから延びるブランチの
系列(以下、適宜、パスという)に沿って接続された音
響モデルに基づき、特徴量の系列を用いて、音響スコア
を計算していくと、最終的には、単語ネットワークの最
後のノード(図2において、ルートノードから、ブラン
チに沿って、右方向に移動していった場合の最後のブラ
ンチの終端)に到達する。即ち、例えば、音響モデルと
して、HMMを用いる場合には、パスを構成するブラン
チの系列に沿って接続されたHMMに基づき、特徴量の
系列を用いて音響スコアを計算していくと、その接続さ
れたHMMの最後の状態において、音響スコアが、ある
程度大きくなる時刻(以下、適宜、極大時刻という)が
ある。
アの計算に用いた先頭の特徴量の時刻から、極大時刻ま
でが、パスに対応する単語が発話された音声区間である
と仮定され、その単語は、音声認識結果としての単語列
を構成する単語の候補とされる。そして、その単語の候
補の後に接続する単語の候補の音響スコアの計算が、単
語ネットワークのルートノードから延びるブランチの系
列(パス)に沿って接続された音響モデルに基づき、極
大時刻以後の特徴量の系列を用いて、再び行われる。
り返されることにより、多数の音声認識結果の候補とし
ての単語列が得られることとなるが、マッチング部4
は、そのような多数の単語列の候補のうち、音響スコア
が小さいものを破棄することにより、即ち、音響的な枝
刈りを行うことにより、音響スコアが所定の閾値以上の
単語列、つまり、音声認識結果として、ある程度、音響
的に確からしい単語列だけを選択して(残して)、処理
を続行していく。
して、音響スコアを計算しながら、音声認識結果として
の単語列の候補を生成していく過程において、文法デー
タベース7に登録された、例えばN−gram等の文法
規則に基づき、音声認識結果としての単語列の候補を構
成する単語の言語スコアを計算する。そして、マッチン
グ部4は、その言語スコアが小さい単語を破棄すること
により、即ち、言語的な枝刈りを行うことにより、言語
スコアが所定の閾値以上の単語列、つまり、音声認識結
果として、ある程度、言語的に確からしい単語列だけを
選択して、処理を続行していく。
音響スコアおよび言語スコアを計算し、その音響スコア
および言語スコアに基づいて、音響的および言語的な枝
刈りを行うことで、音声認識結果として確からしい1以
上の単語列を選択する。そして、その選択された単語列
の後に接続する単語の音響スコアおよび言語スコアを計
算していくことを繰り返すことで、最終的には、音声認
識結果の候補として、ある程度確からしい1以上の単語
列を得る。そして、マッチング部4は、そのような単語
列の中から、例えば、式(1)で示される最終スコアが
最も大きいものを、音声認識結果として確定する。
置においては、例えば、装置の演算速度や、メモリ容量
等に起因して、音声認識の対象として、辞書データベー
ス6の単語辞書に登録する単語の数が制限される。
されると、対象とされなかった単語(以下、適宜、未知
語という)が、ユーザによって発話された場合には、各
種の問題が生じる。
された場合であっても、その未知語の音声の特徴量を用
いて、単語辞書に登録された各単語の音響スコアが計算
され、その音響スコアがある程度大きい単語が、未知語
の音声認識結果の候補として、誤って選択される。
は、その未知語の部分において誤りを生じるが、さら
に、この誤りは、他の部分の誤りを引き起こす原因にも
なる。
「ニューヨークに行きたいです」と発話した場合におい
て、「ニューヨーク」が未知語であるときには、その
「ニューヨーク」の部分において、誤った単語が選択さ
れるため、未知語である「ニューヨーク」と、その後に
続く「に」との単語の境界を、正確に決定することが困
難となる。その結果、単語の境界に誤りが生じ、その誤
りが、他の部分の音響スコアの計算に影響を与える。
ヨーク」ではない、誤った単語が選択された後に、その
誤った単語の音響スコアの計算に用いられた特徴量の系
列の終点を始点とする特徴量の系列を用いて、次の単語
の音響スコアが計算される。従って、音響スコアの計算
は、例えば、音声「ニューヨーク」の終わりの部分の特
徴量を用いて行われたり、「ニューヨーク」の次の音声
「に」の最初の部分の特徴量を用いずに行われたりす
る。その結果、音声認識結果として正しい単語「に」の
音響スコアが、他の単語に比較して小さくなることがあ
る。
った単語の音響スコアが、それほど大きくならなくて
も、その単語の言語スコアが大きくなり、その結果、音
響スコアと言語スコアとを総合評価したスコアが、音声
認識結果として正しい単語「に」の音響スコアと言語ス
コアとを総合評価したスコア(以下、適宜、単語スコア
という)よりも大きくなることがある。
とにより、未知語に近い位置の単語の音声認識も誤るこ
とになる。
る単語としては、一般に、例えば、新聞や小説等におい
て出現頻度の高いものが選定されることが多いが、出現
頻度の低い単語が、ユーザによって発話されないという
保証はない。従って、未知語については、何らかの対処
をとる必要がある。
認識の対象となっていない単語である未知語を、その単
語を構成する音素や、幾つかの音素でなる音素列といっ
た断片にし、この断片を、擬似的に単語(いわゆるサブ
ワード)として、音声認識の対象とする方法がある。
れほど多くはないから、そのような音素や音素列を、擬
似的な単語として、音声認識の対象としても、計算量や
メモリ容量に、それほど大きな影響は与えない。そし
て、この場合、未知語は、擬似的な単語(以下、適宜、
疑似単語という)の系列として認識され、その結果、見
かけ上は、未知語は0になることになる。
辞書に登録されている単語が発話されても、擬似単語の
系列として認識され得ることとなるが、発話された単語
が、単語辞書に登録されている単語、または疑似単語の
系列としての未知語のうちのいずれに認識されるかは、
それぞれについて計算されるスコアに基づいて決定され
ることになる。
は、未知語は、疑似単語である音素や音素列の系列とし
て認識されるから、未知語は、その属性を利用して処理
することができない。即ち、未知語については、例え
ば、その属性としての品詞が分からないから、文法規則
を適用することができず、これに起因して、音声認識精
度が劣化する。
タベース6に、複数の言語それぞれについて、その言語
の単語辞書を記憶させておき、その単語辞書を、例え
ば、ユーザの操作に応じて切り替えて、複数の言語の音
声認識を可能とするものがある。この場合、いま使用さ
れている単語辞書の言語以外の言語の単語は、未知語と
なるが、その未知語の属性としての言語が分かれば、そ
の言語の単語辞書に自動的に切り替えることができ、さ
らに、この場合、その未知語であった単語を正確に認識
することが可能となる。
に、英語とフランス語の単語辞書が記憶されている場合
において、そのうちの英語の単語辞書が使用されている
ときに、未知語がフランス語の単語であることが分かれ
ば、発話者がフランス人に変わったとして、単語辞書
を、英語のものからフランス語のものに切り替えて、精
度の良い音声認識が可能となる。
たものであり、未知語の属性を得ることができるように
することにより、音声認識精度を向上させることができ
るようにするものである。
は、未知語を構成する要素であって、未知語を、その属
性ごとに分類するための未知語構成要素と、音声認識の
対象とする単語とが登録された辞書に基づき、特徴量を
用いてスコアを計算する計算手段と、スコアに基づい
て、音声認識結果とする単語の系列を選択する選択手段
とを備えることを特徴とする。
するための未知語構成要素を登録しておくことができ
る。
て登録しておくことができる。
する音韻を登録しておくことができる。
するための未知語構成要素を登録しておくことができ
る。
設けることができる。
る要素であって、未知語を、その属性ごとに分類するた
めの未知語構成要素と、音声認識の対象とする単語とが
登録された辞書に基づき、特徴量を用いてスコアを計算
する計算ステップと、スコアに基づいて、音声認識結果
とする単語の系列を選択する選択ステップとを備えるこ
とを特徴とする。
素であって、未知語を、その属性ごとに分類するための
未知語構成要素と、音声認識の対象とする単語とが登録
された辞書に基づき、特徴量を用いてスコアを計算する
計算ステップと、スコアに基づいて、音声認識結果とす
る単語の系列を選択する選択ステップとを備えるプログ
ラムが記録されていることを特徴とする。
法、並びに記録媒体においては、未知語を構成する要素
であって、未知語を、その属性ごとに分類するための未
知語構成要素と、音声認識の対象とする単語とが登録さ
れた辞書に基づき、特徴量を用いてスコアが計算され、
そのスコアに基づいて、音声認識結果とする単語の系列
が選択される。
識装置の一実施の形態の構成例を示している。なお、図
中、図1における場合と対応する部分については、同一
の符号を付してあり、以下では、その説明は、適宜省略
する。即ち、図3の音声認識装置は、図1の音声認識装
置と、基本的に同様に構成されている。
ース6には、図1の辞書データベース6に記憶された、
音声認識の対象とする単語が登録された単語辞書(以
下、適宜、標準辞書という)の他に、未知語を構成する
要素であって、未知語を、その属性ごとに分類するため
の未知語構成要素が登録された未知語辞書も記憶されて
いる。即ち、図3の実施の形態において、辞書データベ
ース6に記憶された単語辞書は、標準辞書と未知語辞書
とから構成されている。
辞書においても、図1の辞書データベース6の単語辞書
と同様に、単語ネットワークが構成されている。
書においては、例えば、図4に示すように、前述の図2
における場合と同様の単語ネットワークが構成され、こ
れが、標準辞書とされている。さらに、図3の辞書デー
タベース6の単語辞書においては、ルートノードに、未
知語を構成する音素や音素列である疑似単語の音韻が対
応付けられた1以上のブランチである汎用ブランチが接
続され、さらに、その汎用ブランチに、未知語を、その
属性ごとに分類するための音韻(列)が対応付けられた
1以上のブランチである属性ブランチが接続されること
で、未知語に対処するための単語ネットワークが構成さ
れ、これが、未知語辞書とされている。
辞書は、ルートノードに、汎用ブランチと属性ブランチ
が順次接続されて構成されている。さらに、汎用ブラン
チには、ループとなるブランチ(以下、適宜、ループブ
ランチという)が接続されている。汎用ブランチは、各
種の音素や音素列である疑似単語の音韻が対応付けられ
た1以上のブランチで構成されるから、汎用ブランチを
通り、ループブランチを経由して、再び、汎用ブランチ
を通ることを繰り返すことにより、すべての単語(標準
辞書に登録されている単語、および未知語の両方を含
む)は、疑似単語の系列として認識可能である。
されている単語、または疑似単語の系列としての未知語
のうちのいずれに認識されるかは、それぞれについて計
算されるスコアに基づいて決定される。
上述したように、属性ブランチが接続されている。属性
ブランチは、例えば、未知語を、その品詞ごとに分類す
るための接尾語の音韻(列)が対応付けられた1以上の
ブランチで構成されている。即ち、いま、音声認識の対
象とする言語を、例えば、英語とすると、属性ブランチ
は、例えば、一般には英語の名詞の接尾語である"tion"
や"ing"の音韻が対応付けられたブランチ、一般には英
語の動詞の接尾語である"ed"の音韻が対応付けられたブ
ランチ、一般には英語の形容詞の接尾語である"ive"の
音韻が対応付けられたブランチ等で構成されている。
ング部4と同様に、図4に示した単語辞書を構成する単
語ネットワークのルートノードから延びるブランチの系
列(パス)に沿って、音響モデルデータベース5に記憶
された音響モデルが接続され、その接続された音響モデ
ルに基づき、特徴量の系列を用いて、音響スコアが計算
される。これにより、最終的には、単語ネットワークの
最後のノードに到達し、音響スコアが得られるが、即
ち、例えば、音響モデルとして、HMMを用いる場合に
は、パスを構成するブランチの系列に沿って接続された
HMMに基づき、特徴量の系列を用いて音響スコアが計
算され、これにより、その接続されたHMMの最後の状
態において、ある時刻(極大時刻)で、音響スコアが、
ある程度大きくなるが、その音響スコアが、その計算に
用いたパスに対応する単語の音響スコアとされる。
特徴量の系列が、標準辞書に登録された単語の音声のも
のであれば、基本的には、標準辞書を構成する単語ネッ
トワークのいずれかの単語に対応するパスに沿って計算
された音響スコアが大きくなる。
量の系列が、標準辞書に登録されていない単語、即ち、
未知語の音声のものであれば、未知語辞書を構成する単
語ネットワークのいずれかのパスに沿って計算された音
響スコアが大きくなる。
は語根、基体、基底部)については、汎用ブランチを通
り、ループブランチを経由して、再び、汎用ブランチを
通ることを必要に応じて繰り返すことにより、ある程度
大きな音響スコアが得られる。そして、未知語の接尾語
については、その接尾語の音韻が対応付けられた属性ブ
ランチを通ることにより、やはり、ある程度大きな音響
スコアが得られる。従って、未知語については、汎用ブ
ランチを所定回数通り、その後、所定の属性ブランチを
通るパスに沿って計算される音響スコアが、他のパスに
沿って計算される音響スコアよりも大きくなる。
ときに用いたパスを構成する属性ブランチによって、そ
の未知語の品詞が得られることになる。即ち、そのパス
を構成する属性ブランチが、"tion"や"ing"の音韻が対
応付けられたものであれば、未知語の品詞は、名詞であ
ると推定することができる。さらに、その属性ブランチ
が、"ed"の音韻が対応付けられたものであれば、動詞で
あると、また、"ive"の音韻が対応付けられたものであ
れば、形容詞であると、それぞれ推定することができ
る。
図3の音声認識装置による連続音声認識処理について説
明する。
音声は、マイク1およびAD変換部2を介することによ
り、ディジタルの音声データとされ、特徴抽出部3に供
給される。特徴抽出部3は、ステップS1において、そ
こに供給される音声データから、音声の特徴量を、フレ
ームごとに順次抽出し、マッチング部4に供給する。
蔵しており、特徴抽出部3から供給される特徴量を一時
記憶する。そして、マッチング部4は、ステップS2に
おいて、バッファに記憶した、必要な特徴量の系列を用
いて、スコアの計算を行う。
単語辞書を構成する単語ネットワークのルートノードか
ら延びるブランチの系列(パス)に沿って、音響モデル
データベース5に記憶された音響モデルが接続され、そ
の接続された音響モデルに基づき、特徴量の系列を用い
て、音響スコアが計算される。これにより、最終的に
は、単語ネットワークの最後のノードに到達し、音響ス
コアが得られる。
HMMを用いる場合には、マッチング部4では、パスを
構成するブランチの系列に沿って接続されたHMMに基
づき、特徴量の系列を用いて音響スコアが計算されてい
く。この計算の過程で、接続されたHMMの最後の状態
における音響スコアが、ある程度大きくなる時刻(極大
時刻)があるが、その極大時刻における音響スコアが、
その計算に用いたパスに対応する単語(本実施の形態で
は、標準辞書に登録された単語の他、未知語も含まれ
る)の音響スコアとされる。
の計算に用いた先頭の特徴量の時刻から、極大時刻まで
が、パスに対応する単語が発話された音声区間であると
仮定され、その単語は、音声認識結果としての単語列を
構成する単語の候補とされる。そして、その単語の候補
の後に接続する単語の候補の音響スコアの計算が、単語
ネットワークのルートノードから延びるブランチの系列
(パス)に沿って接続されたHMMに基づき、極大時刻
以後の特徴量の系列を用いて、再び行われる。
り返されることにより、多数の音声認識結果の候補とし
ての1以上の単語列が得られることとなるが、マッチン
グ部4は、そのような多数の単語列の候補のうち、音響
スコアが小さいものを破棄して、音響的な枝刈りを行う
ことにより、音響スコアが所定の閾値以上の単語列、つ
まり、音声認識結果として、ある程度、音響的に確から
しい単語列だけを選択して、スコアの計算を続行してい
く。
して、音響スコアを計算しながら、音声認識結果として
の単語列の候補を生成していく過程において、文法デー
タベース7に登録された文法規則である、例えば、バイ
グラム(直前の単語との関係を考慮した単語の生起確
率)やトライグラム(直前の単語およびそのさらに1つ
前の単語との関係を考慮した単語の生起確率)等に基づ
き、音声認識結果の候補としての単語列を構成する単語
の言語スコアを計算する。そして、マッチング部4は、
その言語スコアが小さい単語を破棄して、言語的な枝刈
りを行うことにより、言語スコアが所定の閾値以上の単
語列、つまり、音声認識結果の候補として、ある程度、
言語的に確からしい単語列だけを選択して、処理を続行
していく。
列が、未知語を含む場合、その未知語については、その
音響スコアを計算するときに用いたパスを構成する属性
ブランチによって、その未知語の品詞が得られる。従っ
て、未知語については、そのようにして得られた品詞に
基づいて、文法規則(言語モデル)を適用することによ
り、精度の良い言語スコアを得ることができる。
音響スコアおよび言語スコアを計算し、その音響スコア
および言語スコアに基づいて、音響的および言語的な枝
刈りを行うことで、音声認識結果の候補として確からし
い単語列を選択し、その単語列の後に接続する単語の音
響スコアおよび言語スコアを計算していくことを繰り返
すことで、最終的には、音声区間(但し、音声区間は、
何らかの手法によって検出するものとする)の全体に亘
って、音声認識結果の候補となる1以上の単語列を得
る。
部4は、その1以上の単語列それぞれについて、例え
ば、前述の式(1)によって与えられる最終スコアを計
算する。さらに、マッチング部4は、最終スコアが最も
大きい単語列を選択し、その単語列を、最終的な音声認
識結果として確定、出力して、処理を終了する。
と、マッチング部4によるスコア計算とは、並列して行
われる。
りは、音声認識結果の候補となる単語列についてだけで
なく、図4の単語ネットワークのパスについても行われ
る。即ち、マッチング部4は、パスに沿った音響スコア
の計算を行っている過程において、ある程度大きな音響
スコアを得ることができない見込みがたったときには、
その時点で、そのパスに沿った音響スコアの計算を打ち
切る。これにより、計算量が低減され、迅速な処理が可
能となる。
構成する音素や音素列である疑似単語の音韻が対応付け
られた汎用ブランチを接続し、さらに、その汎用ブラン
チに、未知語を、その品詞ごとに分類するための音韻
(列)が対応付けられた属性ブランチを接続することに
より、未知語に対処するための単語ネットワークを構成
し、これを用いて、音響スコアを計算するようにしたの
で、未知語の品詞を推定し、その品詞に基づいて、未知
語の言語スコアを精度良く計算することが可能となる。
その結果、未知語について、正確な言語スコアが求めら
れないことによる音声認識精度の劣化を防止し、さらに
は、その改善を図ることが可能となる。
詞を、その接尾語によって推定するようにしたが、その
他、例えば、未知語の属性として、その意味内容を、そ
の接頭語等によって推定し、言語スコアを適用すること
も可能である。
の言語を推定することも可能である。
の辞書データベース6の単語辞書においては、例えば、
図6に示すような単語ネットワークが構成される。
に、単語辞書は、標準辞書と未知語辞書とから構成され
ている。
の言語の音素や音素列である疑似単語の音韻が対応付け
られた1以上のブランチである属性ブランチが接続され
ことで、未知語に対処するための単語ネットワークが構
成され、これが、未知語辞書とされている。
置による音声認識の対象の言語が、基本的には、例え
ば、英語であるとして、その英語の単語によって、標準
辞書が構成されている。
ば、フランス語とドイツ語など)それぞれについて、未
知語辞書が構成されている。ここで、以下、適宜、言語
L1またはL2についての未知語辞書を、それぞれ、L
1語辞書またはL2語辞書という。
の音素や音素列である疑似単語の音韻が対応付けられた
1以上の属性ブランチが接続され、さらに、その属性ブ
ランチに、ループブランチが接続されることで構成され
ている。L2語辞書も、ルートノードに、言語L2の音
素や音素列である疑似単語の音韻が対応付けられた1以
上の属性ブランチが接続され、さらに、その属性ブラン
チに、ループブランチが接続されることで構成されてい
る。
ブランチは、それぞれの言語の各種の音素や音素列であ
る疑似単語の音韻が対応付けられた1以上のブランチで
構成されるから、属性ブランチを通り、ループブランチ
を経由して、再び、属性ブランチを通ることを繰り返す
ことにより、言語L1とL2それぞれの単語は、疑似単
語の系列として認識可能である。
ベース5には、英語の音響モデルの他、言語L1とL2
それぞれの各種の音素や音素列の音響モデルも記憶され
ていることが必要である。
単語辞書を用いる場合には、マッチング部4では、図4
の単語辞書を用いる場合と同様に、図6の単語辞書を構
成する単語ネットワークのルートノードから延びるブラ
ンチの系列(パス)に沿って、音響モデルデータベース
5に記憶された音響モデルが接続され、その接続された
音響モデルに基づき、特徴量の系列を用いて、音響スコ
アが計算される。これにより、最終的には、単語ネット
ワークの最後のノードに到達し、音響スコアが得られる
が、即ち、例えば、音響モデルとして、HMMを用いる
場合には、パスを構成するブランチの系列に沿って接続
されたHMMに基づき、特徴量の系列を用いて音響スコ
アが計算され、これにより、その接続されたHMMの最
後の状態において、ある時刻(極大時刻)で、音響スコ
アが、ある程度大きくなるが、その音響スコアが、その
計算に用いたパスに対応する単語の音響スコアとされ
る。
特徴量の系列が、標準辞書に登録された英語の単語の音
声のものであれば、基本的には、標準辞書を構成する単
語ネットワークのいずれかの単語に対応するパスに沿っ
て計算された音響スコアが大きくなる。
量の系列が、標準辞書に登録されていない単語、即ち、
未知語としての言語L1やL2の単語の音声のものであ
れば、未知語辞書(ここでは、L1語辞書またはL2語
辞書)を構成する単語ネットワークのいずれかのパスに
沿って計算された音響スコアが大きくなる。
の単語の音声については、それぞれ、言語L1またはL
2の属性ブランチを通り、ループブランチを経由して、
再び、言語L1またはL2の属性ブランチを通ることを
必要に応じて繰り返すことにより、他のパスに沿って計
算される音響スコアよりも、大きな音響スコアが得られ
る。
ときに用いたパスを構成する属性ブランチによって、そ
の未知語の言語が得られることになる。即ち、そのパス
を構成する属性ブランチが、言語L1またはL2の属性
ブランチであれば、未知語の言語は、言語L1またはL
2の単語であると、それぞれ推定することができる。
ース6に、図6に示したような単語辞書に加えて、言語
L1とL2それぞれについて、図6の標準辞書と同様に
構成される単語辞書を記憶しておけば、未知語の言語
が、言語L1またはL2であると推定された後に、使用
する単語辞書を、その推定された言語の単語辞書に切り
替えて、スコアの計算をやり直すことにより、その推定
された言語による発話を、精度良く音声認識することが
可能となる。
て、2つの言語の推定を行うようにしたが、1つの言語
だけや、3以上の言語の推定を行うようにすることも可
能である。
アにより行うこともできるし、ソフトウェアにより行う
こともできる。一連の処理をソフトウェアによって行う
場合には、そのソフトウェアを構成するプログラムが、
汎用のコンピュータ等にインストールされる。
行するプログラムがインストールされるコンピュータの
一実施の形態の構成例を示している。
いる記録媒体としてのハードディスク105やROM1
03に予め記録しておくことができる。
(登録商標)ディスク、CD-ROM(Compact Disc Read Onl
y Memory),MO(Magneto optical)ディスク,DVD(Digita
l Versatile Disc)、磁気ディスク、半導体メモリなど
のリムーバブル記録媒体111に、一時的あるいは永続
的に格納(記録)しておくことができる。このようなリ
ムーバブル記録媒体111は、いわゆるパッケージソフ
トウエアとして提供することができる。
ーバブル記録媒体111からコンピュータにインストー
ルする他、ダウンロードサイトから、ディジタル衛星放
送用の人工衛星を介して、コンピュータに無線で転送し
たり、LAN(Local Area Network)、インターネットとい
ったネットワークを介して、コンピュータに有線で転送
し、コンピュータでは、そのようにして転送されてくる
プログラムを、通信部108で受信し、内蔵するハード
ディスク105にインストールすることができる。
Unit)102を内蔵している。CPU102には、バス1
01を介して、入出力インタフェース110が接続され
ており、CPU102は、入出力インタフェース110を
介して、ユーザによって、キーボードや、マウス、マイ
ク等で構成される入力部107が操作等されることによ
り指令が入力されると、それにしたがって、ROM(Read O
nly Memory)103に格納されているプログラムを実行
する。あるいは、また、CPU102は、ハードディスク
105に格納されているプログラム、衛星若しくはネッ
トワークから転送され、通信部108で受信されてハー
ドディスク105にインストールされたプログラム、ま
たはドライブ109に装着されたリムーバブル記録媒体
111から読み出されてハードディスク105にインス
トールされたプログラムを、RAM(Random Access Memor
y)104にロードして実行する。これにより、CPU10
2は、上述したフローチャートにしたがった処理、ある
いは上述したブロック図の構成により行われる処理を行
う。そして、CPU102は、その処理結果を、必要に応
じて、例えば、入出力インタフェース110を介して、
LCD(Liquid CryStal Display)やスピーカ等で構成され
る出力部106から出力、あるいは、通信部108から
送信、さらには、ハードディスク105に記録等させ
る。
に各種の処理を行わせるためのプログラムを記述する処
理ステップは、必ずしもフローチャートとして記載され
た順序に沿って時系列に処理する必要はなく、並列的あ
るいは個別に実行される処理(例えば、並列処理あるい
はオブジェクトによる処理)も含むものである。
より処理されるものであっても良いし、複数のコンピュ
ータによって分散処理されるものであっても良い。さら
に、プログラムは、遠方のコンピュータに転送されて実
行されるものであっても良い。
て、HMMを用いることとしたが、音響モデルとして
は、その他、例えば、ニューラルネットワークに基づく
モデル等を用いることも可能である。
で用いる単語辞書に、未知語を構成する要素であって、
未知語を、その属性ごとに分類するための未知語構成要
素が登録された未知語辞書を含めるようにしたが、未知
語辞書は、その他、例えば、マッチング部4でスコア計
算の対象とする1以上の単語を予備的に選択する、いわ
ゆる予備選択を行う音声認識装置において、その予備選
択に用いる単語辞書に含めるようにすることも可能であ
る。
音韻が同一のものについて、その先頭の音韻から、同一
になっている音韻までは、音響モデルを共通に用い、そ
れ以後の音韻には、音響モデルを個々に用いることによ
り、全体として1つの木構造の単語ネットワークを構成
し、これに基づいて、音響スコアを計算するようにした
が、単語の音響スコアの計算は、各単語について、個別
に、音響モデルを接続し、単語ごとに独立に行うことも
可能である。
チに、ループブランチを接続し、未知語の語幹につい
て、汎用ブランチを通り、ループブランチを経由して、
再び、汎用ブランチを通ることを必要に応じて繰り返す
ことにより、その音響スコアを計算することとしたが、
未知語の語幹については、その他、例えば、ループブラ
ンチを用いずに、汎用ブランチを必要な数だけシリーズ
に接続して、その音響スコアを、ビタビ法によって計算
することが可能である。図6のループブランチが接続さ
れた属性ブランチについても、同様である。
認識の対象としたが、本発明は、英語以外の言語を対象
に音声認識を行う場合にも適用可能である。
法、並びに記録媒体によれば、未知語を構成する要素で
あって、未知語を、その属性ごとに分類するための未知
語構成要素と、音声認識の対象とする単語とが登録され
た辞書に基づき、特徴量を用いてスコアが計算され、そ
のスコアに基づいて、音声認識結果とする単語の系列が
選択される。従って、未知語の、例えば、品詞等の属性
を推定することが可能となり、その結果、未知語に起因
する音声認識精度の劣化を防止することが可能となる。
ク図である。
書の構成例を示す図である。
の構成例を示すブロック図である。
書の構成例を示す図である。
ローチャートである。
書の他の構成例を示す図である。
の構成例を示すブロック図である。
4 マッチング部,5 音響モデルデータベース, 6
辞書データベース, 7 文法データベース, 10
1 バス, 102 CPU, 103 ROM, 104
RAM, 105 ハードディスク, 106 出力部,
107 入力部, 108 通信部, 109 ドラ
イブ, 110 入出力インタフェース, 111 リ
ムーバブル記録媒体
Claims (8)
- 【請求項1】 入力された音声に対して、その音声認識
結果の尤度を表すスコアを計算し、そのスコアに基づい
て、前記音声を連続音声認識する音声認識装置であっ
て、 前記音声から、その特徴量を抽出する抽出手段と、 未知語を構成する要素であって、未知語を、その属性ご
とに分類するための未知語構成要素と、音声認識の対象
とする単語とが登録された辞書に基づき、前記特徴量を
用いて前記スコアを計算する計算手段と、 前記スコアに基づいて、音声認識結果とする前記単語の
系列を選択する選択手段とを備えることを特徴とする音
声認識装置。 - 【請求項2】 前記辞書には、未知語を、その品詞ごと
に分類するための未知語構成要素が登録されていること
を特徴とする請求項1に記載の音声認識装置。 - 【請求項3】 前記辞書には、接尾語が、前記未知語構
成要素として登録されていることを特徴とする請求項2
に記載の音声認識装置。 - 【請求項4】 前記辞書には、前記接尾語とともに、未
知語を構成する音韻が登録されていることを特徴とする
請求項3に記載の音声認識装置。 - 【請求項5】 前記辞書には、未知語を、その言語ごと
に分類するための未知語構成要素が登録されていること
を特徴とする請求項1に記載の音声認識装置。 - 【請求項6】 前記辞書をさらに備えることを特徴とす
る請求項1に記載の音声認識装置。 - 【請求項7】 入力された音声に対して、その音声認識
結果の尤度を表すスコアを計算し、そのスコアに基づい
て、前記音声を連続音声認識する音声認識方法であっ
て、 前記音声から、その特徴量を抽出する抽出ステップと、 未知語を構成する要素であって、未知語を、その属性ご
とに分類するための未知語構成要素と、音声認識の対象
とする単語とが登録された辞書に基づき、前記特徴量を
用いて前記スコアを計算する計算ステップと、 前記スコアに基づいて、音声認識結果とする前記単語の
系列を選択する選択ステップとを備えることを特徴とす
る音声認識方法。 - 【請求項8】 入力された音声に対して、その音声認識
結果の尤度を表すスコアを計算し、そのスコアに基づい
て、前記音声を連続音声認識する音声認識処理を、コン
ピュータに行わせるプログラムが記録されている記録媒
体であって、前記音声から、その特徴量を抽出する抽出
ステップと、 未知語を構成する要素であって、未知語を、その属性ご
とに分類するための未知語構成要素と、音声認識の対象
とする単語とが登録された辞書に基づき、前記特徴量を
用いて前記スコアを計算する計算ステップと、 前記スコアに基づいて、音声認識結果とする前記単語の
系列を選択する選択ステップとを備えるプログラムが記
録されていることを特徴とする記録媒体。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000069698A JP4543294B2 (ja) | 2000-03-14 | 2000-03-14 | 音声認識装置および音声認識方法、並びに記録媒体 |
US09/804,354 US20010053974A1 (en) | 2000-03-14 | 2001-03-12 | Speech recognition apparatus, speech recognition method, and recording medium |
EP01302284A EP1134727A3 (en) | 2000-03-14 | 2001-03-13 | Sound models for unknown words in speech recognition |
CNB011192038A CN1199148C (zh) | 2000-03-14 | 2001-03-14 | 语音识别装置、语音识别方法 |
US10/785,246 US7249017B2 (en) | 2000-03-14 | 2004-02-24 | Speech recognition with score calculation |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000069698A JP4543294B2 (ja) | 2000-03-14 | 2000-03-14 | 音声認識装置および音声認識方法、並びに記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2001255889A true JP2001255889A (ja) | 2001-09-21 |
JP4543294B2 JP4543294B2 (ja) | 2010-09-15 |
Family
ID=18588531
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000069698A Expired - Fee Related JP4543294B2 (ja) | 2000-03-14 | 2000-03-14 | 音声認識装置および音声認識方法、並びに記録媒体 |
Country Status (4)
Country | Link |
---|---|
US (2) | US20010053974A1 (ja) |
EP (1) | EP1134727A3 (ja) |
JP (1) | JP4543294B2 (ja) |
CN (1) | CN1199148C (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006507530A (ja) * | 2002-11-22 | 2006-03-02 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 音声認識装置及び方法 |
JP2008129318A (ja) * | 2006-11-21 | 2008-06-05 | Nippon Hoso Kyokai <Nhk> | 言語モデル作成装置及び言語モデル作成プログラム並びに音声認識装置及び音声認識プログラム |
JP2009156941A (ja) * | 2007-12-25 | 2009-07-16 | Advanced Telecommunication Research Institute International | 木構造辞書を記録した記憶媒体、木構造辞書作成装置、及び木構造辞書作成プログラム |
JP2016102947A (ja) * | 2014-11-28 | 2016-06-02 | 株式会社東芝 | 生成装置、認識装置、生成方法およびプログラム |
Families Citing this family (47)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4543294B2 (ja) * | 2000-03-14 | 2010-09-15 | ソニー株式会社 | 音声認識装置および音声認識方法、並びに記録媒体 |
DE10220524B4 (de) | 2002-05-08 | 2006-08-10 | Sap Ag | Verfahren und System zur Verarbeitung von Sprachdaten und zur Erkennung einer Sprache |
EP1363271A1 (de) | 2002-05-08 | 2003-11-19 | Sap Ag | Verfahren und System zur Verarbeitung und Speicherung von Sprachinformationen eines Dialogs |
JP4072718B2 (ja) * | 2002-11-21 | 2008-04-09 | ソニー株式会社 | 音声処理装置および方法、記録媒体並びにプログラム |
US7379867B2 (en) * | 2003-06-03 | 2008-05-27 | Microsoft Corporation | Discriminative training of language models for text and speech classification |
JP4705023B2 (ja) * | 2004-06-10 | 2011-06-22 | パナソニック株式会社 | 音声認識装置、音声認識方法、及びプログラム |
JP4541781B2 (ja) * | 2004-06-29 | 2010-09-08 | キヤノン株式会社 | 音声認識装置および方法 |
US7529668B2 (en) * | 2004-08-03 | 2009-05-05 | Sony Corporation | System and method for implementing a refined dictionary for speech recognition |
JP2006201749A (ja) * | 2004-12-21 | 2006-08-03 | Matsushita Electric Ind Co Ltd | 音声による選択装置、及び選択方法 |
JP4301515B2 (ja) * | 2005-01-04 | 2009-07-22 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 文章表示方法、情報処理装置、情報処理システム、プログラム |
JP4671898B2 (ja) * | 2006-03-30 | 2011-04-20 | 富士通株式会社 | 音声認識装置、音声認識方法、音声認識プログラム |
US9390167B2 (en) | 2010-07-29 | 2016-07-12 | Soundhound, Inc. | System and methods for continuous audio matching |
CN102572839B (zh) * | 2010-12-14 | 2016-03-02 | 中国移动通信集团四川有限公司 | 一种控制语音通信的方法和系统 |
US9035163B1 (en) | 2011-05-10 | 2015-05-19 | Soundbound, Inc. | System and method for targeting content based on identified audio and multimedia |
US9002702B2 (en) | 2012-05-03 | 2015-04-07 | International Business Machines Corporation | Confidence level assignment to information from audio transcriptions |
US10957310B1 (en) | 2012-07-23 | 2021-03-23 | Soundhound, Inc. | Integrated programming framework for speech and text understanding with meaning parsing |
TWI475558B (zh) * | 2012-11-08 | 2015-03-01 | Ind Tech Res Inst | 詞語驗證的方法及裝置 |
US9565080B2 (en) | 2012-11-15 | 2017-02-07 | Microsoft Technology Licensing, Llc | Evaluating electronic network devices in view of cost and service level considerations |
US9269352B2 (en) * | 2013-05-13 | 2016-02-23 | GM Global Technology Operations LLC | Speech recognition with a plurality of microphones |
JP6245846B2 (ja) | 2013-05-30 | 2017-12-13 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 音声認識における読み精度を改善するシステム、方法、およびプログラム |
US9507849B2 (en) | 2013-11-28 | 2016-11-29 | Soundhound, Inc. | Method for combining a query and a communication command in a natural language computer system |
US9292488B2 (en) | 2014-02-01 | 2016-03-22 | Soundhound, Inc. | Method for embedding voice mail in a spoken utterance using a natural language processing computer system |
US11295730B1 (en) | 2014-02-27 | 2022-04-05 | Soundhound, Inc. | Using phonetic variants in a local context to improve natural language understanding |
US9564123B1 (en) | 2014-05-12 | 2017-02-07 | Soundhound, Inc. | Method and system for building an integrated user profile |
US9959328B2 (en) * | 2015-06-30 | 2018-05-01 | Microsoft Technology Licensing, Llc | Analysis of user text |
US10402435B2 (en) | 2015-06-30 | 2019-09-03 | Microsoft Technology Licensing, Llc | Utilizing semantic hierarchies to process free-form text |
KR102413692B1 (ko) * | 2015-07-24 | 2022-06-27 | 삼성전자주식회사 | 음성 인식을 위한 음향 점수 계산 장치 및 방법, 음성 인식 장치 및 방법, 전자 장치 |
JP6605997B2 (ja) | 2016-03-17 | 2019-11-13 | 株式会社東芝 | 学習装置、学習方法及びプログラム |
JP6545633B2 (ja) | 2016-03-17 | 2019-07-17 | 株式会社東芝 | 単語スコア計算装置、単語スコア計算方法及びプログラム |
CN106328123B (zh) * | 2016-08-25 | 2020-03-20 | 苏州大学 | 小数据库条件下正常语音流中耳语音的识别方法 |
WO2018047421A1 (ja) * | 2016-09-09 | 2018-03-15 | ソニー株式会社 | 音声処理装置、情報処理装置、音声処理方法および情報処理方法 |
US10311046B2 (en) * | 2016-09-12 | 2019-06-04 | Conduent Business Services, Llc | System and method for pruning a set of symbol-based sequences by relaxing an independence assumption of the sequences |
CN106228984A (zh) * | 2016-10-18 | 2016-12-14 | 江西博瑞彤芸科技有限公司 | 语音识别信息获取方法 |
CN106548787B (zh) * | 2016-11-01 | 2019-07-09 | 云知声(上海)智能科技有限公司 | 优化生词的评测方法及评测系统 |
JP6618884B2 (ja) * | 2016-11-17 | 2019-12-11 | 株式会社東芝 | 認識装置、認識方法およびプログラム |
US10679008B2 (en) | 2016-12-16 | 2020-06-09 | Microsoft Technology Licensing, Llc | Knowledge base for analysis of text |
CN110168544A (zh) * | 2016-12-27 | 2019-08-23 | 夏普株式会社 | 应答装置、应答装置的控制方法、及控制程序 |
US10643601B2 (en) | 2017-02-09 | 2020-05-05 | Semantic Machines, Inc. | Detection mechanism for automated dialog systems |
KR102466652B1 (ko) * | 2017-03-30 | 2022-11-15 | 엔에이치엔 주식회사 | 메시지 정보 통합 관리 서비스를 위한 모바일 장치, 메시지 정보 통합 관리 제공 방법 및 컴퓨터로 판독 가능한 저장매체 |
KR102288249B1 (ko) | 2017-10-31 | 2021-08-09 | 텐센트 테크놀로지(센젠) 컴퍼니 리미티드 | 정보 처리 방법, 단말기, 및 컴퓨터 저장 매체 |
CN110797026B (zh) * | 2019-09-17 | 2024-11-26 | 腾讯科技(深圳)有限公司 | 一种语音识别方法、装置及存储介质 |
US11501067B1 (en) | 2020-04-23 | 2022-11-15 | Wells Fargo Bank, N.A. | Systems and methods for screening data instances based on a target text of a target corpus |
CN112002308B (zh) * | 2020-10-30 | 2024-01-09 | 腾讯科技(深圳)有限公司 | 一种语音识别方法及装置 |
JP2022082049A (ja) * | 2020-11-20 | 2022-06-01 | パナソニックIpマネジメント株式会社 | 発話評価方法および発話評価装置 |
GB2603805A (en) * | 2021-02-15 | 2022-08-17 | Eaton Intelligent Power Ltd | Method, device, computer program and computer readable storage medium for determining a command |
US11620993B2 (en) * | 2021-06-09 | 2023-04-04 | Merlyn Mind, Inc. | Multimodal intent entity resolver |
CN113990293B (zh) * | 2021-10-19 | 2025-02-21 | 京东科技信息技术有限公司 | 语音识别方法及装置、存储介质、电子设备 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04141771A (ja) * | 1990-10-03 | 1992-05-15 | Fujitsu Ltd | 階層化された単語カテゴリの推移確率を利用した品詞/単語推定装置 |
JPH075891A (ja) * | 1993-06-16 | 1995-01-10 | Canon Inc | 音声対話方法および装置 |
Family Cites Families (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5241619A (en) * | 1991-06-25 | 1993-08-31 | Bolt Beranek And Newman Inc. | Word dependent N-best search method |
US5283833A (en) * | 1991-09-19 | 1994-02-01 | At&T Bell Laboratories | Method and apparatus for speech processing using morphology and rhyming |
US5689616A (en) * | 1993-11-19 | 1997-11-18 | Itt Corporation | Automatic language identification/verification system |
US5524169A (en) * | 1993-12-30 | 1996-06-04 | International Business Machines Incorporated | Method and system for location-specific speech recognition |
US5805771A (en) * | 1994-06-22 | 1998-09-08 | Texas Instruments Incorporated | Automatic language identification method and system |
US5675706A (en) * | 1995-03-31 | 1997-10-07 | Lucent Technologies Inc. | Vocabulary independent discriminative utterance verification for non-keyword rejection in subword based speech recognition |
US5729659A (en) * | 1995-06-06 | 1998-03-17 | Potter; Jerry L. | Method and apparatus for controlling a digital computer using oral input |
US5832428A (en) * | 1995-10-04 | 1998-11-03 | Apple Computer, Inc. | Search engine for phrase recognition based on prefix/body/suffix architecture |
US5761687A (en) * | 1995-10-04 | 1998-06-02 | Apple Computer, Inc. | Character-based correction arrangement with correction propagation |
JP3459712B2 (ja) * | 1995-11-01 | 2003-10-27 | キヤノン株式会社 | 音声認識方法及び装置及びコンピュータ制御装置 |
US5835888A (en) * | 1996-06-10 | 1998-11-10 | International Business Machines Corporation | Statistical language model for inflected languages |
DE19639844A1 (de) * | 1996-09-27 | 1998-04-02 | Philips Patentverwaltung | Verfahren zum Ableiten wenigstens einer Folge von Wörtern aus einem Sprachsignal |
JP3992348B2 (ja) * | 1997-03-21 | 2007-10-17 | 幹雄 山本 | 形態素解析方法および装置、並びに日本語形態素解析方法および装置 |
US5956668A (en) * | 1997-07-18 | 1999-09-21 | At&T Corp. | Method and apparatus for speech translation with unrecognized segments |
DE19742054A1 (de) * | 1997-09-24 | 1999-04-01 | Philips Patentverwaltung | Eingabesystem wenigstens für Orts- und/oder Straßennamen |
US6108627A (en) * | 1997-10-31 | 2000-08-22 | Nortel Networks Corporation | Automatic transcription tool |
US6195634B1 (en) * | 1997-12-24 | 2001-02-27 | Nortel Networks Corporation | Selection of decoys for non-vocabulary utterances rejection |
JP2000020089A (ja) * | 1998-07-07 | 2000-01-21 | Matsushita Electric Ind Co Ltd | 音声認識方法及びその装置、並びに音声制御システム |
EP0982712B1 (en) * | 1998-08-28 | 2007-09-26 | International Business Machines Corporation | Segmentation technique increasing the active vocabulary of speech recognizers |
US6161092A (en) * | 1998-09-29 | 2000-12-12 | Etak, Inc. | Presenting information using prestored speech |
US6598016B1 (en) * | 1998-10-20 | 2003-07-22 | Tele Atlas North America, Inc. | System for using speech recognition with map data |
DE59901575D1 (de) * | 1998-10-27 | 2002-07-04 | Siemens Ag | Verfahren und anordnung zur klassenbildung für ein sprachmodell basierend auf linguistischen klassen |
US6556970B1 (en) * | 1999-01-28 | 2003-04-29 | Denso Corporation | Apparatus for determining appropriate series of words carrying information to be recognized |
US6401068B1 (en) * | 1999-06-17 | 2002-06-04 | Navigation Technologies Corp. | Method and system using voice commands for collecting data for a geographic database |
US7165019B1 (en) * | 1999-11-05 | 2007-01-16 | Microsoft Corporation | Language input architecture for converting one text form to another text form with modeless entry |
US6598018B1 (en) * | 1999-12-15 | 2003-07-22 | Matsushita Electric Industrial Co., Ltd. | Method for natural dialog interface to car devices |
JP4543294B2 (ja) * | 2000-03-14 | 2010-09-15 | ソニー株式会社 | 音声認識装置および音声認識方法、並びに記録媒体 |
US6490521B2 (en) * | 2000-12-28 | 2002-12-03 | Intel Corporation | Voice-controlled navigation device utilizing wireless data transmission for obtaining maps and real-time overlay information |
-
2000
- 2000-03-14 JP JP2000069698A patent/JP4543294B2/ja not_active Expired - Fee Related
-
2001
- 2001-03-12 US US09/804,354 patent/US20010053974A1/en not_active Abandoned
- 2001-03-13 EP EP01302284A patent/EP1134727A3/en not_active Withdrawn
- 2001-03-14 CN CNB011192038A patent/CN1199148C/zh not_active Expired - Fee Related
-
2004
- 2004-02-24 US US10/785,246 patent/US7249017B2/en not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04141771A (ja) * | 1990-10-03 | 1992-05-15 | Fujitsu Ltd | 階層化された単語カテゴリの推移確率を利用した品詞/単語推定装置 |
JPH075891A (ja) * | 1993-06-16 | 1995-01-10 | Canon Inc | 音声対話方法および装置 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006507530A (ja) * | 2002-11-22 | 2006-03-02 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 音声認識装置及び方法 |
JP2008129318A (ja) * | 2006-11-21 | 2008-06-05 | Nippon Hoso Kyokai <Nhk> | 言語モデル作成装置及び言語モデル作成プログラム並びに音声認識装置及び音声認識プログラム |
JP2009156941A (ja) * | 2007-12-25 | 2009-07-16 | Advanced Telecommunication Research Institute International | 木構造辞書を記録した記憶媒体、木構造辞書作成装置、及び木構造辞書作成プログラム |
JP2016102947A (ja) * | 2014-11-28 | 2016-06-02 | 株式会社東芝 | 生成装置、認識装置、生成方法およびプログラム |
US10109274B2 (en) | 2014-11-28 | 2018-10-23 | Kabushiki Kaisha Toshiba | Generation device, recognition device, generation method, and computer program product |
Also Published As
Publication number | Publication date |
---|---|
CN1320902A (zh) | 2001-11-07 |
US7249017B2 (en) | 2007-07-24 |
US20010053974A1 (en) | 2001-12-20 |
EP1134727A2 (en) | 2001-09-19 |
EP1134727A3 (en) | 2001-11-28 |
CN1199148C (zh) | 2005-04-27 |
US20040167779A1 (en) | 2004-08-26 |
JP4543294B2 (ja) | 2010-09-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4543294B2 (ja) | 音声認識装置および音声認識方法、並びに記録媒体 | |
JP4465564B2 (ja) | 音声認識装置および音声認識方法、並びに記録媒体 | |
JP4802434B2 (ja) | 音声認識装置及び音声認識方法、並びにプログラムを記録した記録媒体 | |
US7240002B2 (en) | Speech recognition apparatus | |
JP4351385B2 (ja) | 連続および分離音声を認識するための音声認識システム | |
JP4481035B2 (ja) | 単語間音素情報を利用した連続音声認識方法および装置 | |
US6961701B2 (en) | Voice recognition apparatus and method, and recording medium | |
CN112435654A (zh) | 通过帧插入对语音数据进行数据增强 | |
JP2002366187A (ja) | 音声認識装置および音声認識方法、並びにプログラムおよび記録媒体 | |
JP2006038895A (ja) | 音声処理装置および音声処理方法、プログラム、並びに記録媒体 | |
KR101014086B1 (ko) | 음성 처리 장치 및 방법, 및 기록 매체 | |
JP2011027910A (ja) | パターン認識方法および装置ならびにパターン認識プログラムおよびその記録媒体 | |
US5706397A (en) | Speech recognition system with multi-level pruning for acoustic matching | |
JP2005148342A (ja) | 音声認識方法、この方法を実施する装置、プログラムおよび記録媒体 | |
JP4600706B2 (ja) | 音声認識装置および音声認識方法、並びに記録媒体 | |
JP3776391B2 (ja) | 多言語音声認識方法、装置、プログラム | |
Rebai et al. | Linto platform: A smart open voice assistant for business environments | |
JP2938865B1 (ja) | 音声認識装置 | |
JP4600705B2 (ja) | 音声認識装置および音声認識方法、並びに記録媒体 | |
JP2002149188A (ja) | 自然言語処理装置および自然言語処理方法、並びに記録媒体 | |
JP2731133B2 (ja) | 連続音声認識装置 | |
JP4163207B2 (ja) | 多言語話者適応方法、装置、プログラム | |
Lyu et al. | Modeling pronunciation variation for bi-lingual Mandarin/Taiwanese speech recognition | |
JP4696400B2 (ja) | 音声認識装置および音声認識方法、並びにプログラムおよび記録媒体 | |
JP2000315095A (ja) | 音声認識装置、音声認識方法及び音声認識制御プログラムを記録した記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070125 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20091015 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20091207 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100225 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100419 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100603 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100616 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130709 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130709 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |