JP2005221752A - Speech recognition apparatus, speech recognition method and program - Google Patents
Speech recognition apparatus, speech recognition method and program Download PDFInfo
- Publication number
- JP2005221752A JP2005221752A JP2004029344A JP2004029344A JP2005221752A JP 2005221752 A JP2005221752 A JP 2005221752A JP 2004029344 A JP2004029344 A JP 2004029344A JP 2004029344 A JP2004029344 A JP 2004029344A JP 2005221752 A JP2005221752 A JP 2005221752A
- Authority
- JP
- Japan
- Prior art keywords
- model
- concept
- recognition
- feature amount
- score
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 24
- 238000000605 extraction Methods 0.000 claims abstract description 14
- 230000005236 sound signal Effects 0.000 claims description 5
- 238000007476 Maximum Likelihood Methods 0.000 abstract description 32
- 238000010586 diagram Methods 0.000 description 10
- 235000009419 Fagopyrum esculentum Nutrition 0.000 description 7
- 239000000284 extract Substances 0.000 description 6
- 240000008620 Fagopyrum esculentum Species 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 241000219051 Fagopyrum Species 0.000 description 3
- 239000003550 marker Substances 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Abstract
Description
本発明は、音声認識装置、音声認識方法及びプログラムに係り、特に、意味的適合性の向上を図った音声認識装置、音声認識方法及びプログラムに関する。 The present invention relates to a speech recognition device, a speech recognition method, and a program, and more particularly, to a speech recognition device, a speech recognition method, and a program that improve semantic adaptability.
一般的に使われている音声認識装置は、音声の特徴を統計的にモデル化した音響モデルの他に、言語制約として単語の局所的な連接を統計的にモデル化した言語モデル(例えば、単語n−gramモデルなど)を用いている。しかし、言語モデルの言語制約を用いるだけでは、全体として構文的もしくは意味的に不適格な認識結果が得られることが起こる。 Commonly used speech recognition devices include not only acoustic models that statistically model speech features, but also language models that statistically model local concatenation of words as language constraints (for example, words n-gram model etc.) is used. However, using only the language constraints of the language model may result in recognition results that are syntactically or semantically ineligible as a whole.
そこで、従来の音声認識装置から得られた上位N個の最尤認識候補に対して、文法知識として予め作成しておいた文脈自由文法を用いた構文解析を行って文法的な適合性を判定し、文法的に不適格な認識候補を出力しないようにすることで、認識精度の向上を図った音声認識装置が提案されている(例えば、特許文献1を参照。)
また、文構造をより正確に解析的に示し、認識時に高い認識率を得る言語モデルを生成する言語モデル生成装置、及びこの言語モデルを用いて音声認識を行う音声認識装置が提案されている(例えば、特許文献2を参照。)。
Therefore, the top N maximum likelihood recognition candidates obtained from the conventional speech recognition apparatus are subjected to syntax analysis using a context-free grammar prepared in advance as grammar knowledge to determine grammatical suitability. In addition, a speech recognition apparatus has been proposed that improves recognition accuracy by preventing recognition candidates that are grammatically ineligible from being output (see, for example, Patent Document 1).
In addition, a language model generation device that generates a language model that accurately and analytically shows a sentence structure and obtains a high recognition rate at the time of recognition, and a speech recognition device that performs speech recognition using this language model have been proposed ( For example, see
特許文献2では、変換主導型機械翻訳装置(TDML装置)を用いてbigramマーカーを挿入した学習用テキストデータから、単語(もしくは単語クラス)N−gramモデルを生成する。このN−gramモデルは、局所的な文構造の制約を有している。さらに、bigramマーカーを挿入した学習用テキストデータを構文解析して得られた構文木から、1つの部分木及び複数の連接する部分木に含まれる単語からなる単語パターンの連接関係の単語パターンモデルを生成する。単語パターンモデルは、部分語列と関連のある遠距離にある単語の関係をモデル化したものである。
In
特許文献2に記載の技術は、これらのモデルを用いることにより、従来の局所的な単語の連鎖の制約だけでなく、局所的な文構造の制約および従来の単語N−gramモデルではモデル化できない遠距離の単語間の制約を取り入れて、音声認識精度の向上を図っている。
音声言語(話し言葉)は、元々書き言葉に比べて文法的に厳密ではないため、ユーザ(話者)は必ずしも文法的に適合した文を話すとは限らない。また、このような文法的に揺らぎのある話し言葉を包含するような文法を作成するのはほぼ不可能である。 Since the spoken language (spoken language) is not grammatically stricter than the originally written language, the user (speaker) does not always speak a grammatically adapted sentence. It is almost impossible to create a grammar that includes such grammatically fluctuating spoken words.
これに対して、特許文献1の音声認識装置は、文法的に不適格な認識結果を棄却してしまうことがある。このため、、音声認識装置は、元々話者が文法的に不適格な発話をしてしまった場合、初期段階で正しく認識していたとしても、文法的適合性の判定段階において、その認識結果を棄却してしまうことがある。
On the other hand, the speech recognition apparatus of
さらに、上記音声認識装置は、文脈自由文法による構文解析だけでは、たとえ意味的に不適合であっても構文的に正しければ、正解とすることもある。例えば、「千種区にある中区に行きたい」という文は、意味的には不適合であるが、構文的には正しいため、正解と認識されることがあった。 Furthermore, the above speech recognition apparatus may be correct if it is syntactically correct even if it is semantically unsuitable only by syntactic analysis using a context-free grammar. For example, the sentence “I want to go to Naka-ku in Chikusa-ku” is not relevant in terms of meaning, but is syntactically correct, so it may be recognized as a correct answer.
特許文献2では、学習用テキストデータに文法的に不適格な発話が含まれていれば、ある程度は文法的に揺らぎのある話し言葉に対して、頑健であると考えられる。しかし、認識結果候補には誤認識による単語の置換、挿入、欠落などが含まれているため、必ずしも構文解析が可能であるとは限らない。
In
したがって、特許文献2に記載の技術は、構文解析を行い、構文木を求める必要があるため、誤認識を多く含む認識結果候補に対する頑健性が高いとは言えない。また、特許文献1と同様に、構文的に正しいが、意味的に不適格な認識結果候補を正解とする場合もある。
Therefore, since the technique described in
本発明は、上述した課題を解決するために提案されたものであり、意味的適合性の向上、及び頑健性の高い音声認識装置、音声認識方法及びプログラムを提供することを目的とする。 The present invention has been proposed to solve the above-described problems, and an object of the present invention is to provide a speech recognition apparatus, a speech recognition method, and a program with improved semantic adaptability and high robustness.
本発明は、音声信号の特徴量を抽出する特徴量抽出手段と、特徴量を統計的にモデル化した音響モデルを記憶する音響モデル記憶手段と、語の連鎖を統計的にモデル化した言語モデルを記憶する言語モデル記憶手段と、1つ以上の概念の組み合わせ順を表した複数の出現パターンを有する概念出現パターンモデルを記憶する概念出現パターンモデル記憶手段と、前記特徴量抽出手段により抽出された特徴量と、前記音響モデル記憶手段に記憶された音響モデルと、前記言語モデル記憶手段に記憶された言語モデルと、前記概念出現パターンモデルに記憶された概念出現パターンモデルと、に基づいて、前記音声信号の表す音声を認識する認識手段と、を備えている。 The present invention relates to a feature quantity extracting means for extracting a feature quantity of a speech signal, an acoustic model storing means for storing an acoustic model obtained by statistically modeling the feature quantity, and a language model that statistically models a chain of words. Extracted by the feature model extracting means, a concept appearance pattern model storing means for storing a concept appearance pattern model having a plurality of appearance patterns representing a combination order of one or more concepts, and a feature quantity extracting means Based on the feature amount, the acoustic model stored in the acoustic model storage unit, the language model stored in the language model storage unit, and the concept appearance pattern model stored in the concept appearance pattern model, Recognition means for recognizing the voice represented by the voice signal.
特徴量抽出手段は、音声信号について音声分析の結果得られる特徴量を抽出する。音響モデル記憶手段は、特徴量を統計的にモデル化した音響モデルを記憶する。音響モデルは、音素単位に限らず、例えば、音節またはモーラなどのサブワード単位であってもよい。 The feature amount extraction unit extracts a feature amount obtained as a result of speech analysis for the speech signal. The acoustic model storage unit stores an acoustic model obtained by statistically modeling the feature amount. The acoustic model is not limited to phoneme units, but may be subword units such as syllables or mora, for example.
言語モデル記憶手段は、語の連鎖を統計的にモデル化した言語モデルを記憶している。「語」とは、音素、単語もしくは形態素、又はこれらの組み合わせであってもよい。すなわち、言語モデルは、言語的制約をモデル化したものである。 The language model storage means stores a language model obtained by statistically modeling a word chain. The “word” may be a phoneme, a word or a morpheme, or a combination thereof. In other words, the language model is a model of linguistic constraints.
概念出現パターンモデル記憶手段は、概念出現パターンモデルを記憶している。概念出現パターンモデルは、1つ以上の概念の組み合わせ順を表した複数の出現パターンを表している。なお、複数の概念の組み合わせ順は、意味的制約を有する、すなわち意味的な適合性を有するものである。したがって、出現パターンは、概念間にどのような語がどの程度存在しているか否かを問わないが、概念の組み合わせ順に対して必ず意味的な適合性を有している。なお、各出現パターンにはスコアが対応付けられていてもよい。 The concept appearance pattern model storage means stores a concept appearance pattern model. The concept appearance pattern model represents a plurality of appearance patterns representing the combination order of one or more concepts. Note that the order of combination of a plurality of concepts has semantic constraints, that is, has semantic suitability. Therefore, the appearance pattern does not matter how many words are present between the concepts, but always has a semantic adaptability to the combination order of the concepts. Each appearance pattern may be associated with a score.
認識手段は、特徴量抽出手段で抽出された特徴量に、音響モデル、言語モデル及び概念出現パターンモデルを用いることで、音声信号が表す音声を認識する。 The recognizing unit recognizes the voice represented by the audio signal by using the acoustic model, the language model, and the concept appearance pattern model for the feature amount extracted by the feature amount extracting unit.
したがって、前記発明によれば、音声信号の特徴量、音響モデル、言語モデル及び1つ以上の概念の組み合わせ順を表した複数の出現パターンを有する概念出現パターンモデルに基づいて、音声信号が表す音声を認識することで、音声認識の意味的適合性を向上させることができる。 Therefore, according to the invention, the voice represented by the voice signal based on the concept appearance pattern model having a plurality of appearance patterns representing the feature amount of the voice signal, the acoustic model, the language model, and the combination order of one or more concepts. By recognizing, the semantic suitability of speech recognition can be improved.
前記発明において、前記認識手段は、前記特徴量、前記音響モデル及び前記言語モデルに基づく複数の認識結果候補及びそれらのスコアに対して、前記各出現パターンにスコアが対応付けられた概念出現パターンモデルを用いることで、前記複数の認識結果候補の各スコアに重み付けを行い、重み付けされたスコアのうち最上位にあるスコアの認識結果候補を出力してもよい。 In the present invention, the recognition means includes a concept appearance pattern model in which a score is associated with each appearance pattern for a plurality of recognition result candidates based on the feature quantity, the acoustic model, and the language model, and their scores. May be used to weight each score of the plurality of recognition result candidates, and the recognition result candidate of the highest score among the weighted scores may be output.
前記発明は、概念毎に複数の表現パターンを表した表現パターンモデルを記憶する表現パターンモデル記憶手段をさらに備え、前記認識手段は、前記表現パターンモデル記憶手段に記憶された表現パターンモデルをさらに用いて、音声を認識してもよい。ここで、表現パターンは、所定概念を表す語もしくはその周辺の部分語列を含むものである。所定概念を表す語だけでなく、その周辺の部分語列を含むことにより、誤認識による語の置換、欠落などの影響を受けることなく、頑健性を高くすることができる。 The invention further includes an expression pattern model storage unit that stores an expression pattern model representing a plurality of expression patterns for each concept, and the recognition unit further uses the expression pattern model stored in the expression pattern model storage unit. The voice may be recognized. Here, the expression pattern includes a word representing a predetermined concept or a peripheral partial word string. By including not only a word representing a predetermined concept but also a partial word string around it, robustness can be enhanced without being affected by word replacement or omission due to misrecognition.
さらに、前記発明において、前記認識手段は、前記特徴量、前記音響モデル及び前記言語モデルに基づく複数の認識結果候補及びそれらのスコアに対して、前記各表現パターンにスコアが対応付けられた概念表現パターンモデルをさらに用いることで、前記複数の認識結果候補の各スコアに重み付けを行ってもよい。 Furthermore, in the invention, the recognition means includes a conceptual expression in which a score is associated with each expression pattern for a plurality of recognition result candidates based on the feature quantity, the acoustic model, and the language model, and their scores. By further using a pattern model, each score of the plurality of recognition result candidates may be weighted.
本発明に係る音声認識装置、音声認識方法及びプログラムによれば、音声信号の特徴量、音響モデル、言語モデル及び1つ以上の概念の組み合わせ順を表した複数の出現パターンを有する概念出現パターンモデルに基づいて、音声信号が表す音声を認識することで、音声認識の意味的適合性を向上させることができる。 According to the speech recognition apparatus, the speech recognition method, and the program according to the present invention, a concept appearance pattern model having a plurality of appearance patterns representing a combination of a feature amount of an audio signal, an acoustic model, a language model, and one or more concepts. By recognizing the voice represented by the voice signal based on the above, it is possible to improve the semantic suitability of the voice recognition.
以下、最初に本発明の原理をの説明した後、本発明を実施するための最良の形態について図面を参照しながら詳細に説明する。 The principle of the present invention will be described first, and then the best mode for carrying out the present invention will be described in detail with reference to the drawings.
[本発明の原理]
音声認識の問題は、(式1)を最大化する単語列Wを求める問題として捉えられる。
[Principle of the present invention]
The problem of speech recognition can be regarded as a problem of obtaining a word string W that maximizes (Equation 1).
ただし、
W:単語列W1,W2,W3,…,WM
O:音声特徴量列O1,O2,O3,…,ON
である。
However,
W: Word strings W 1 , W 2 , W 3 ,..., W M
O: Speech feature sequence O 1 , O 2 , O 3 ,..., O N
It is.
すなわち、言語モデルから求められる単語列Wの出現確率P(W)と、音響モデルから求められる単語列Wにおける音声特徴量列の出現確率P(O|W)と、の積が最大となる単語列Wを求めるという問題である。 That is, the word that maximizes the product of the appearance probability P (W) of the word sequence W obtained from the language model and the appearance probability P (O | W) of the speech feature amount sequence in the word sequence W obtained from the acoustic model. The problem is to obtain the column W.
本発明は、(式1)に対して、単語列W中の部分語列wi i+Kが予め定められた概念Cjであれば、概念表現パターンモデルから求められるスコアScore(wi i+K|Cj)を加算し、また、単語列W中の出現パターン(概念の並び)に基づく概念出現パターンモデルから求められるスコアScore(C1j,C2j,…,CLj)を加算するというものである。ここで、Score(wi i+K|Cj)は、概念Cjにおいて部分語列wi i+Kが出現する頻度に基づいて求められるスコアである。また、Score(C1j,C2j,…,CLj)(Cijは複数の概念のうちの任意の1つ)は、一発話中に概念Cijが同時に出現する頻度に基づいて求められるスコアである。 According to the present invention, if the partial word sequence w i i + K in the word sequence W is a predetermined concept C j with respect to (Equation 1), the score Score (w i i obtained from the concept expression pattern model is determined. + K | C j ) is added, and scores Score (C 1j , C 2j ,..., C Lj ) obtained from the concept appearance pattern model based on the appearance pattern (concept array) in the word string W are added. That's it. Here, Score (w i i + K | C j ) is a score obtained based on the frequency of occurrence of the partial word string w i i + K in the concept C j . Score (C 1j , C 2j ,..., C Lj ) (C ij is any one of a plurality of concepts) is a score obtained based on the frequency at which the concepts C ij appear simultaneously in one utterance. It is.
したがって、本発明の音声認識の問題は、(式2)を最大化する問題として捉えることができる。 Therefore, the problem of speech recognition according to the present invention can be regarded as a problem that maximizes (Equation 2).
なお、(式2)では便宜上加算及び乗算を用いたが、本発明はこれに限定されるものではない。すなわち、本発明は、音響モデル及び言語モデルのみを用いた従来の認識尤度に対して、概念表現パターンモデルのスコア及び概念出現パターンモデルのスコアを用いて重み付けをすることができれば、上記の加算や乗算に限らず、減算や除算を用いてもよい。 In addition, in (Formula 2), addition and multiplication are used for convenience, but the present invention is not limited to this. That is, according to the present invention, if the weight of the conventional recognition likelihood using only the acoustic model and the language model can be weighted using the score of the concept expression pattern model and the score of the concept appearance pattern model, the above addition is performed. In addition to subtraction and multiplication, subtraction or division may be used.
[実施形態]
図1は、本発明の実施形態に係る音声認識装置の構成を示すブロック図である。本実施形態では、目的地タスク対話システムに用いて好適な音声認識装置を例に挙げて説明する。すなわち、本実施形態に係る音声認識装置は、目的地を設定するために必要な「市町村名」、「住所」、「店名」、「業種」の少なくとも1つを含んだ音声を入力し、目的地を認識するものである。
[Embodiment]
FIG. 1 is a block diagram showing a configuration of a speech recognition apparatus according to an embodiment of the present invention. In this embodiment, a voice recognition apparatus suitable for use in a destination task dialogue system will be described as an example. That is, the speech recognition apparatus according to the present embodiment inputs speech including at least one of “city name”, “address”, “store name”, and “business type” necessary for setting a destination. It recognizes the earth.
上記音声認識装置は、話者の発話に応じた音声信号を生成するマイク1と、音声信号の特徴量(音声特徴量)を抽出する特徴量抽出部2と、音響モデルを記憶する音響モデル記憶部3と、言語モデルを記憶する言語モデル記憶部4と、概念表現パターンモデルを記憶する概念表現パターンモデル記憶部5と、概念出現パターンモデルを記憶する概念出現パターンモデル記憶部6と、音声特徴量及び各モデルを用いて音声認識を行うデコーダ7と、認識結果を所定のシステムに出力する出力部8と、を備えている。
The voice recognition apparatus includes a
マイク1は、話者の発話した音声に応じた音声信号を生成し、この音声信号を特徴量抽出部2に供給する。特徴量抽出部2は、マイク1から供給された音声信号を分析して、無音で区切られた音声区間を切り出して、音声特徴量を抽出する。
The
音響モデル記憶部3には、音響モデルとして、例えば音素隠れマルコフモデル(HMM:Hidden Markov Model)が記憶されている。音素HMMは、「あ」、「い」などの音素単位毎に音声特徴量を統計的に表したモデルである。用途の違いにより音節、単語という単位で存在することもある。
The acoustic
言語モデル記憶部4には、語の連鎖を統計的にモデル化した言語モデルとして、例えば単語2−gram(バイグラム;bigram)モデルが記憶されている。単語2−gramモデルは、単語の生起確率が直前の1個の単語のみに依存する言語モデルであり、例えば学習用テキストデータによって学習されたものである。
The language
概念表現パターンモデル記憶部5には、発話の意味/意図を理解する上でキーとなる語もしくはその周辺部分語列を含む表現パターンを表した概念表現パターンモデルが記憶されている。
The concept expression pattern
本実施形態における目的地タスク対話システムでは、発話中の住所、店名、業種などの概念を表す語を同定することが重要である。例えば、「業種」の概念に含まれる「ソバ屋」は、この他に“ソバ屋さん”、“おソバ屋さん”、“ソバの店”など様々な表現パターンが存在する。同様に、「業種」の概念に含まれる「ラーメン屋」は、この他に“ラーメン店”など様々な表現パターンが存在する。そこで、概念表現パターンモデルは、ある概念を表す複数の表現パターンを学習用テキストデータから学習し、その概念において各々の表現パターンをモデル化したものである。 In the destination task dialogue system according to the present embodiment, it is important to identify words representing concepts such as the address, the store name, and the type of business being uttered. For example, “soba shop” included in the concept of “industry” has various expression patterns such as “soba shop”, “soba shop”, and “soba shop”. Similarly, the “ramen restaurant” included in the concept of “industry” has various expression patterns such as “ramen store”. Therefore, the concept expression pattern model is obtained by learning a plurality of expression patterns representing a certain concept from learning text data and modeling each expression pattern in the concept.
図2は、概念表現パターンモデル記憶部5に記憶されている概念表現パターンモデルを示す図である。本実施形態では、概念表現パターンモデルは、「市町村名(city)」、「詳細住所(address)」、「店名(name)」、「業種(type)」の各々の概念における「表現パターン」及びその「スコア」を表したモデルである。
FIG. 2 is a diagram illustrating the concept expression pattern model stored in the concept expression pattern
「表現パターン」は、単語2−gramモデルを学習する際に用いた学習用テキストデータから例えば人手によって抽出されたものである。例えば図2に示すように、「業種(type)」の「概念」内には、ソバ屋、ソバ屋さん、おソバ屋さん、レストラン、飲食店、ラーメン屋、ラーメン店などの「表現パターン」がある。各「表現パターン」には「スコア」が対応付けられている。 The “expression pattern” is, for example, manually extracted from the text data for learning used when learning the word 2-gram model. For example, as shown in FIG. 2, “concept” of “type of industry” includes “expression patterns” such as buckwheat shop, buckwheat shop, buckwheat shop, restaurant, restaurant, ramen shop, ramen shop, etc. There is. Each “expression pattern” is associated with a “score”.
「スコア」は、当該「概念」内における当該「表現パターン」の出現確率に基づく値である。例えば、レストランのスコア“0.152”は、「業種」の概念内における「レストラン」の出現確率に基づく値である。その他の概念についても同様に、1つの概念に対して複数の表現パターンが用意されており、各表現パターンにスコアが対応付けられている。 The “score” is a value based on the appearance probability of the “expression pattern” in the “concept”. For example, the score “0.152” of a restaurant is a value based on the appearance probability of “restaurant” within the concept of “business type”. Similarly, for other concepts, a plurality of expression patterns are prepared for one concept, and a score is associated with each expression pattern.
概念出現パターンモデル記憶部6には、1発話(1回の認識単位)において1つ以上の概念が出現した場合において概念間の出現パターンの統計的な傾向をモデル化した概念出現パターンモデルが記憶されている。
The concept appearance pattern
図3は、概念出現パターンモデル記憶部6に記憶されている概念表現パターンモデルを示す図である。概念出現パターンモデルは、上記4つの概念の任意の組合せ順である「出現パターン」及びその「スコア」を表したモデルである。
FIG. 3 is a diagram showing a concept expression pattern model stored in the concept appearance pattern
「出現パターン」は、上記学習テキストデータ内に現れる「表現パターン」をそれぞれ該当する「概念」を示す概念記号(例えば、[city]や[type]など)に置換したテキストから作成されたものである。このため、「出現パターン」では、「概念」間に特に意味のない語が多数存在していたとしても、「概念」の配列順に意味的制約を有している。各「出現パターン」には「スコア」が対応付けられている。「スコア」は、概念共起確率に基づく値である。 The “appearance pattern” is created from text obtained by replacing the “expression pattern” appearing in the learning text data with a concept symbol (eg, [city] or [type]) indicating the corresponding “concept”. is there. For this reason, the “appearance pattern” has semantic restrictions in the order of the “concept” even if there are many meaningless words between the “concepts”. Each “appearance pattern” is associated with a “score”. The “score” is a value based on the concept co-occurrence probability.
デコーダ7は、複数の認識結果候補を出力する第1のデコーダ71と、認識結果候補の中から最終的な認識結果を出力する第2のデコーダ72と、を備えている。 The decoder 7 includes a first decoder 71 that outputs a plurality of recognition result candidates, and a second decoder 72 that outputs a final recognition result from among the recognition result candidates.
第1のデコーダ71は、特徴量抽出部2で抽出された音声特徴量、音響モデル記憶部3に記憶された音素HMM、言語モデル記憶部4に記憶された単語2−gramモデルを用いて、複数(例えばN個以上)の最尤解及びその尤度(スコア)を演算する。最尤解は、音響モデルを言語モデルに従って連結してネットワーク化したものであり、いわゆる認識結果候補である。なお、第1のデコーダ71によって求められた最尤解の尤度(後述する尤度パラメータL)は、例えば(式3)によって表される。なお、各パラメータは(式1)と同様である。
The first decoder 71 uses the speech feature amount extracted by the feature
第2のデコーダ72は、概念表現パターンモデル記憶部5に記憶された概念表現パターンモデル、概念出現パターンモデル記憶部6に記憶された概念出現パターンモデルを用いて、複数の最尤解の中から最上位の最尤解を選択し、この最尤解を最終的な認識結果とする。
The second decoder 72 uses the concept expression pattern model stored in the concept expression pattern
図4は、第2のデコーダ72が最終的な認識結果を得るための処理手順を示したフローチャートである。 FIG. 4 is a flowchart showing a processing procedure for the second decoder 72 to obtain a final recognition result.
ステップST1では、第2のデコーダ72は、第1のデコーダ71で求められた複数の最尤解のうち、上位N個の最尤解及びそのスコアを最尤解行列Cにセットする。そして、i=1とした後、ステップST2に移行する。なお、iは、1からNまでの自然数である。 In step ST1, the second decoder 72 sets the top N most likely solutions and their scores in the maximum likelihood solution matrix C among the plurality of maximum likelihood solutions obtained by the first decoder 71. Then, after i = 1, the process proceeds to step ST2. Note that i is a natural number from 1 to N.
ステップST2では、第2のデコーダ72は、最尤解行列Cからi番目の最尤解を取り出し、この最尤解を最尤解パラメータRにセットすると共に、その尤度(スコア)を尤度パラメータLにコピーして、ステップST3に移行する。なお、ステップST3移行の処理では、i番目の最尤解として次の例を用いて説明する。 In step ST2, the second decoder 72 extracts the i-th maximum likelihood solution from the maximum likelihood matrix C, sets this maximum likelihood solution as the maximum likelihood parameter R, and sets the likelihood (score) to the likelihood. The parameter L is copied and the process proceeds to step ST3. In the process of step ST3, the i-th maximum likelihood solution will be described using the following example.
図5(A)はi番目の最尤解をテキスト表示した図、(B)はi番目の最尤解に概念表現パターンモデルを用いたときの処理を説明する図、(C)はi番目の最尤解に概念出現パターンモデルを用いたときの処理を説明する図である。 FIG. 5A is a diagram showing the i-th maximum likelihood solution in text display, FIG. 5B is a diagram for explaining processing when a conceptual expression pattern model is used for the i-th maximum likelihood solution, and FIG. It is a figure explaining a process when a concept appearance pattern model is used for the maximum likelihood solution.
同図(A)に示すように、ステップST2におけるi番目の最尤解は、従来と同様に、音響モデル及び言語モデルにより得られた認識結果候補の1つである。なお、“<”は先頭記号、“>”は終端記号を表している。 As shown in FIG. 5A, the i-th maximum likelihood solution in step ST2 is one of recognition result candidates obtained by the acoustic model and the language model, as in the conventional case. Note that “<” represents a head symbol and “>” represents a terminal symbol.
ステップST3では、第2のデコーダ72は、最尤解パラメータR中の全ての部分語列に対して、概念表現パターンモデル中の「表現パターン」を最長一致でマッチングを行う。そして、マッチングした部分語列に対して、該当する概念記号を付与し、さらに該当する「表現パターン」のスコアを尤度パラメータLに加算して、ステップST4に移行する。 In step ST3, the second decoder 72 matches the “expression pattern” in the concept expression pattern model with the longest match for all the partial word strings in the maximum likelihood parameter R. Then, a corresponding conceptual symbol is assigned to the matched partial word string, and the score of the corresponding “expression pattern” is added to the likelihood parameter L, and the process proceeds to step ST4.
例えば図5(A)に示す最尤解パラメータRでは、同図(B)に示すように、“千種区 にある”が、概念「詳細住所」における「表現パターン」の1つにマッチングする。このため、“千種区にある”に対して、概念記号[address]を付与すると共に、この表現パターンに対応するスコア(=Score(千種区まで|[address]))を尤度パラメータLに加算する。 For example, in the maximum likelihood parameter R shown in FIG. 5A, as shown in FIG. 5B, “in the Chikusa-ku” matches one of the “expression patterns” in the concept “detailed address”. For this reason, a concept symbol [address] is assigned to “in the Chikusa-ku” and a score corresponding to this expression pattern (= Score (up to Chikusa-ku | [address])) is added to the likelihood parameter L. To do.
さらに、“ナカヨシまで”が、概念「店名」における「表現パターン」の1つにマッチングする。このため、“ナカヨシまで”に対して、概念記号[name]を付与すると共に、この表現パターンに対応するスコア(=Score(ナカヨシまで|[name]))を尤度パラメータLにさらに加算する。このとき第2のデコーダ72によって求められた尤度パラメータLは、例えば(式4)で表される。 Furthermore, “to Nakayoshi” matches one of the “expression patterns” in the concept “store name”. Therefore, a concept symbol [name] is given to “up to Nakayoshi”, and a score (= Score (| [name] up to Nakayoshi)) corresponding to this expression pattern is further added to the likelihood parameter L. At this time, the likelihood parameter L obtained by the second decoder 72 is expressed by, for example, (Expression 4).
ステップST4では、第2のデコーダ72は、最尤解パラメータRから先頭記号、概念記号、終端記号を取り出し、取り除かれた1つ以上の概念記号を順に概念出現パターンモデルの「出現パターン」マッチングさせる。そして、概念記号の組合せ順序にマッチングした「出現パターン」のスコアを求め、このスコアを尤度パラメータLに加算して、ステップST5に移行する。 In step ST4, the second decoder 72 extracts the first symbol, the concept symbol, and the terminal symbol from the maximum likelihood parameter R, and sequentially matches one or more removed concept symbols with the “appearance pattern” of the concept appearance pattern model. . Then, the score of the “appearance pattern” that matches the combination order of the concept symbols is obtained, this score is added to the likelihood parameter L, and the process proceeds to step ST5.
例えば、図5(B)示したテキストからは、概念記号[address]及び[name]が順に取り除かれる。そこで、この概念記号の組合せ順序には出現パターン([address] [name])がマッチングするので、同図(C)に示すように、これに対応するスコア(=Score([address],[name]))を尤度パラメータLに加算する。このとき第2のデコーダ72によって求められた尤度パラメータLは、例えば(式5)で表される。 For example, the concept symbols [address] and [name] are sequentially removed from the text shown in FIG. Therefore, since the appearance pattern ([address] [name]) is matched with the combination order of the concept symbols, as shown in FIG. 5C, the corresponding score (= Score ([address], [name] ])) Is added to the likelihood parameter L. At this time, the likelihood parameter L obtained by the second decoder 72 is expressed by, for example, (Equation 5).
ステップST5では、第2のデコーダ72は、最尤解行列Cにおけるi番目の最尤解の尤度を尤度パラメータLの値に更新して、ステップST6に移行する。 In step ST5, the second decoder 72 updates the likelihood of the i-th maximum likelihood solution in the maximum likelihood matrix C to the value of the likelihood parameter L, and proceeds to step ST6.
ステップST6では、第2のデコーダ72は、i=Nであるかを判定し、肯定判定のときはステップST8に移行し、否定判定のときはステップST7に移行する。 In step ST6, the second decoder 72 determines whether i = N. If the determination is affirmative, the process proceeds to step ST8. If the determination is negative, the process proceeds to step ST7.
ステップST7では、第2のデコーダ72は、iをインクリメントして(i=i+1)、ステップST2に戻る。これにより、第2のデコーダ72は、N個の最尤解及びそのスコアに対してステップST2からステップST5までの処理を施して、その後ステップST8に移行する。 In step ST7, the second decoder 72 increments i (i = i + 1), and returns to step ST2. As a result, the second decoder 72 performs the processing from step ST2 to step ST5 on the N maximum likelihood solutions and their scores, and then proceeds to step ST8.
ステップST8では、第2のデコーダ72は、最尤解行列C中のN個の最尤解をその尤度の順にソートし、最上位の最尤解を最終的な認識結果として出力する。そして、最終的な認識結果のデータは、ディジタル/アナログ変換されて、出力部8に供給される。
In step ST8, the second decoder 72 sorts the N maximum likelihood solutions in the maximum likelihood matrix C in the order of the likelihoods, and outputs the most significant solution as the final recognition result. The final recognition result data is digital / analog converted and supplied to the
以上のように、本実施形態に係る音声認識装置は、複数の最尤解に対して、概念間の意味的な制約の強い概念出現パターンモデルを用いることにより、N−gramモデルでは認識できないような遠距離の概念間の意味を考慮して、認識精度の向上を図ることができる。 As described above, the speech recognition apparatus according to the present embodiment cannot be recognized by the N-gram model by using the concept appearance pattern model having strong semantic constraints between concepts for a plurality of maximum likelihood solutions. The recognition accuracy can be improved in consideration of the meaning between the concepts of long distances.
また、音声認識装置は、意味的に重要なキーワード及びその周辺の語を表現パターンとしてまとめた概念表現パターンモデルを用いることにより、発話の部分語列に対して文法上比較的強い制約をもたせて、認識精度の向上を図ることができる。 In addition, the speech recognition device uses a conceptual expression pattern model that summarizes semantically important keywords and surrounding words as expression patterns, thereby placing relatively strong grammatical restrictions on the partial word strings of utterances. The recognition accuracy can be improved.
なお、本発明は、上述した実施形態に限定されるものではなく、特許請求の範囲に記載された事項の範囲内で設計変更されたものについても同様に適用可能である。 Note that the present invention is not limited to the above-described embodiments, and can be similarly applied to those whose design is changed within the scope of the matters described in the claims.
図6は、音声認識装置の他の構成を示すブロック図である。 FIG. 6 is a block diagram showing another configuration of the speech recognition apparatus.
上記音声認識装置は、音声信号を得るマイク1と、音声信号から音声特徴量を抽出する特徴量抽出部2と、音響モデルを記憶する音響モデル記憶部3と、言語モデルを記憶する言語モデル記憶部4と、概念表現パターンモデルを記憶する概念表現パターンモデル記憶部5と、概念出現パターンモデルを記憶する概念出現パターンモデル記憶部6と、音声特徴量及び各モデルを用いて音声認識を行うデコーダ9と、認識結果を所定のシステムに出力する出力部8と、を備えている。
The voice recognition device includes a
図1に示したデコーダ7は、音響モデル及び言語モデルを用いてN個の最尤解を演算した後、概念表現パターンモデル及び概念出現パターンモデルを用いて最上位の最尤解を最終的な認識結果として出力した。これに対して、図6に示したデコーダ9は、音響モデル、言語モデル、概念表現パターンモデル及び概念出現パターンモデルを用いて、一度に最終的な認識結果を出力する。
The decoder 7 shown in FIG. 1 calculates the N maximum likelihood solutions using the acoustic model and the language model, and then finalizes the highest likelihood solution using the concept expression pattern model and the concept appearance pattern model. Output as recognition result. On the other hand, the
また、概念表現パターンモデルを予め言語モデル(言語モデル記憶部4)に組み込んでもよい。これにより、音声認識装置は、概念表現パターンモデルを言語モデルとして利用することができる。また、上記4つのモデルから有限状態オートマトン(FSA)を予め作成しておけば、デコード時にはFSAのみを用いればよい。 Further, the concept expression pattern model may be incorporated in the language model (language model storage unit 4) in advance. Thereby, the speech recognition apparatus can use the concept expression pattern model as a language model. Further, if a finite state automaton (FSA) is created in advance from the above four models, only FSA may be used for decoding.
さらに、音声認識装置は、概念表現パターンモデル、概念出現パターンモデルをデコード時に使用せず、予めオフラインでこれらのモデルの知識を組み込んだ別のモデルを作成し、当該別のモデルを使用してもよい。 Furthermore, the speech recognition apparatus does not use the concept expression pattern model and the concept appearance pattern model at the time of decoding, but creates another model that incorporates knowledge of these models offline in advance, and uses the other model. Good.
また、音声認識装置は、目的地タスク対話システムに適用される場合に限らないのは勿論である。 Needless to say, the speech recognition apparatus is not limited to being applied to the destination task dialogue system.
概念表現パターンモデルは、図2に示したように体言を中心とした「概念パターン」に限らず、例えば、「行きたい」、「知りたい」、「教えて欲しい」などの用言を中心とした「概念パターン」を用いてもよい。また、概念出現パターンモデルは、図3に示したものに限らず、話者の発話履歴、音声認識装置を用いる状態の履歴によって変更してもよい。 As shown in FIG. 2, the concept expression pattern model is not limited to the “concept pattern” centered on the body, but for example, the premise such as “I want to go”, “I want to know”, “I want you to tell me”, etc. The “concept pattern” may be used. Further, the concept appearance pattern model is not limited to the one shown in FIG.
また、上述したステップST1からステップST8までの処理を実行するプログラムをコンピュータにインストールしてもよい。これにより、上記コンピュータは、音声認識装置として機能し、上述したステップST1からステップST8までの処理を実行することができる。 Further, a program for executing the processes from step ST1 to step ST8 described above may be installed in the computer. As a result, the computer functions as a voice recognition device and can execute the processes from step ST1 to step ST8 described above.
なお、上記プログラムは、通信回線を介して伝送されたものでもよいし、光ディスク、磁気ディスク、半導体メモリなどの記録媒体に記録されたものであってもよいのは勿論である。 Of course, the program may be transmitted via a communication line or may be recorded on a recording medium such as an optical disk, a magnetic disk, or a semiconductor memory.
1 マイク
2 特徴量抽出部
3 音響モデル記憶部
4 言語モデル記憶部
5 概念表現パターンモデル記憶部
6 概念出現パターンモデル記憶部
7,9 デコーダ
8 出力部
71 第1のデコーダ
72 第2のデコーダ
DESCRIPTION OF
Claims (9)
特徴量を統計的にモデル化した音響モデルを記憶する音響モデル記憶手段と、
語の連鎖を統計的にモデル化した言語モデルを記憶する言語モデル記憶手段と、
1つ以上の概念の組み合わせ順を表した複数の出現パターンを有する概念出現パターンモデルを記憶する概念出現パターンモデル記憶手段と、
前記特徴量抽出手段により抽出された特徴量と、前記音響モデル記憶手段に記憶された音響モデルと、前記言語モデル記憶手段に記憶された言語モデルと、前記概念出現パターンモデルに記憶された概念出現パターンモデルと、に基づいて、前記音声信号の表す音声を認識する認識手段と、
を備えた音声認識装置。 A feature amount extraction means for extracting a feature amount of an audio signal;
Acoustic model storage means for storing an acoustic model obtained by statistically modeling features;
Language model storage means for storing a language model that statistically models a chain of words;
A concept appearance pattern model storage means for storing a concept appearance pattern model having a plurality of appearance patterns representing a combination order of one or more concepts;
The feature amount extracted by the feature amount extraction unit, the acoustic model stored in the acoustic model storage unit, the language model stored in the language model storage unit, and the concept appearance stored in the concept appearance pattern model Recognition means for recognizing the voice represented by the voice signal based on the pattern model;
A speech recognition device comprising:
請求項1に記載の音声認識装置。 The recognition means uses a concept appearance pattern model in which a score is associated with each appearance pattern for a plurality of recognition result candidates based on the feature quantity, the acoustic model, and the language model, and their scores. The speech recognition apparatus according to claim 1, wherein each score of the plurality of recognition result candidates is weighted, and a recognition result candidate of the highest score among the weighted scores is output.
前記認識手段は、前記表現パターンモデル記憶手段に記憶された表現パターンモデルをさらに用いて、音声を認識する
請求項1または請求項2に記載の音声認識装置。 An expression pattern model storage means for storing an expression pattern model representing a plurality of expression patterns for each concept;
The speech recognition apparatus according to claim 1, wherein the recognition unit recognizes speech by further using an expression pattern model stored in the expression pattern model storage unit.
請求項3に記載の音声認識装置。 The recognition means further uses a concept expression pattern model in which a score is associated with each expression pattern for a plurality of recognition result candidates based on the feature quantity, the acoustic model, and the language model, and their scores. The voice recognition device according to claim 3, wherein each score of the plurality of recognition result candidates is weighted.
前記特徴量抽出工程で抽出された特徴量と、特徴量を統計的にモデル化した音響モデルと、語の連鎖を統計的にモデル化した言語モデルと、1つ以上の概念の組み合わせ順を表した複数の出現パターンを有する概念出現パターンモデルと、に基づいて、前記音声信号の表す音声を認識する認識工程と、
を備えた音声認識方法。 A feature amount extraction step for extracting a feature amount of an audio signal;
The feature amount extracted in the feature amount extraction step, an acoustic model in which the feature amount is statistically modeled, a language model in which the word chain is statistically modeled, and a combination order of one or more concepts are displayed. A recognition step of recognizing a voice represented by the voice signal based on a concept appearance pattern model having a plurality of appearance patterns.
A speech recognition method comprising:
請求項5に記載の音声認識方法。 In the recognition step, a concept appearance pattern model in which a score is associated with each appearance pattern is used for a plurality of recognition result candidates based on the feature quantity, the acoustic model, and the language model and their scores. The speech recognition method according to claim 5, wherein each score of the plurality of recognition result candidates is weighted, and a recognition result candidate of the highest score among the weighted scores is output.
請求項5または請求項6に記載の音声認識方法。 The speech recognition method according to claim 5, wherein in the recognition step, speech is recognized by further using an expression pattern model representing a plurality of expression patterns and their scores for each concept.
請求項7に記載の音声認識方法。 In the recognition step, a concept expression pattern model in which a score is associated with each expression pattern is further used for a plurality of recognition result candidates based on the feature quantity, the acoustic model, and the language model and their scores. The voice recognition method according to claim 7, wherein each score of the plurality of recognition result candidates is weighted.
音声信号の特徴量を抽出する特徴量抽出工程と、
前記特徴量抽出工程で抽出された特徴量と、特徴量を統計的にモデル化した音響モデルと、語の連鎖を統計的にモデル化した言語モデルと、1つ以上の概念の組み合わせ順を表した複数の出現パターンを有する概念出現パターンモデルと、に基づいて、前記音声信号の表す音声を認識する認識工程と、
を実行させる音声認識プログラム。 On the computer,
A feature amount extraction step for extracting a feature amount of an audio signal;
The feature amount extracted in the feature amount extraction step, an acoustic model in which the feature amount is statistically modeled, a language model in which the word chain is statistically modeled, and a combination order of one or more concepts are displayed. A recognition step of recognizing a voice represented by the voice signal based on a concept appearance pattern model having a plurality of appearance patterns,
Voice recognition program that executes
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2004029344A JP2005221752A (en) | 2004-02-05 | 2004-02-05 | Speech recognition apparatus, speech recognition method and program |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2004029344A JP2005221752A (en) | 2004-02-05 | 2004-02-05 | Speech recognition apparatus, speech recognition method and program |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2005221752A true JP2005221752A (en) | 2005-08-18 |
Family
ID=34997433
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2004029344A Pending JP2005221752A (en) | 2004-02-05 | 2004-02-05 | Speech recognition apparatus, speech recognition method and program |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP2005221752A (en) |
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2007256836A (en) * | 2006-03-24 | 2007-10-04 | Toshiba Corp | Speech recognition apparatus, speech recognition method, and speech recognition program |
| JP2014523543A (en) * | 2011-06-19 | 2014-09-11 | エムモーダル アイピー エルエルシー | Speech recognition using context-aware recognition model |
| CN111583906A (en) * | 2019-02-18 | 2020-08-25 | 中国移动通信有限公司研究院 | Character recognition method, device and terminal for voice conversation |
-
2004
- 2004-02-05 JP JP2004029344A patent/JP2005221752A/en active Pending
Cited By (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2007256836A (en) * | 2006-03-24 | 2007-10-04 | Toshiba Corp | Speech recognition apparatus, speech recognition method, and speech recognition program |
| US7974844B2 (en) | 2006-03-24 | 2011-07-05 | Kabushiki Kaisha Toshiba | Apparatus, method and computer program product for recognizing speech |
| JP2014523543A (en) * | 2011-06-19 | 2014-09-11 | エムモーダル アイピー エルエルシー | Speech recognition using context-aware recognition model |
| US9489375B2 (en) | 2011-06-19 | 2016-11-08 | Mmodal Ip Llc | Speech recognition using an operating system hooking component for context-aware recognition models |
| CN111583906A (en) * | 2019-02-18 | 2020-08-25 | 中国移动通信有限公司研究院 | Character recognition method, device and terminal for voice conversation |
| CN111583906B (en) * | 2019-02-18 | 2023-08-15 | 中国移动通信有限公司研究院 | Method, device and terminal for role recognition of voice conversation |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| EP1575030B1 (en) | New-word pronunciation learning using a pronunciation graph | |
| US6910012B2 (en) | Method and system for speech recognition using phonetically similar word alternatives | |
| KR100486733B1 (en) | Method and apparatus for speech recognition using phone connection information | |
| Kwon et al. | Korean large vocabulary continuous speech recognition with morpheme-based recognition units | |
| US6694296B1 (en) | Method and apparatus for the recognition of spelled spoken words | |
| US6973427B2 (en) | Method for adding phonetic descriptions to a speech recognition lexicon | |
| KR101056080B1 (en) | Phoneme-based speech recognition system and method | |
| Wang et al. | Complete recognition of continuous Mandarin speech for Chinese language with very large vocabulary using limited training data | |
| US7275034B2 (en) | Word-specific acoustic models in a speech recognition system | |
| Ghai et al. | Analysis of automatic speech recognition systems for indo-aryan languages: Punjabi a case study | |
| US20070225977A1 (en) | System and method for diacritization of text | |
| WO2004047075A1 (en) | Voice processing device and method, recording medium, and program | |
| Serrino et al. | Contextual Recovery of Out-of-Lattice Named Entities in Automatic Speech Recognition. | |
| JP2019012095A (en) | Phoneme recognition dictionary generation device and phoneme recognition device and their program | |
| KR20130126570A (en) | Apparatus for discriminative training acoustic model considering error of phonemes in keyword and computer recordable medium storing the method thereof | |
| JP2010078877A (en) | Speech recognition device, speech recognition method, and speech recognition program | |
| Baig et al. | Discriminative training for phonetic recognition of the Holy Quran | |
| CN100568222C (en) | Divergence elimination language model | |
| Kayte et al. | Implementation of Marathi Language Speech Databases for Large Dictionary | |
| KR20050101695A (en) | A system for statistical speech recognition using recognition results, and method thereof | |
| Azim et al. | Large vocabulary Arabic continuous speech recognition using tied states acoustic models | |
| Bigi | The SPPAS participation to the forced-alignment task of Evalita 2011 | |
| JP2974621B2 (en) | Speech recognition word dictionary creation device and continuous speech recognition device | |
| JP2006031278A (en) | Voice retrieval system, method, and program | |
| JP2005221752A (en) | Speech recognition apparatus, speech recognition method and program |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20061004 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20090721 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090818 |
|
| A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20100202 |
