JPH10171488A - Method for speech recognition and device therefor and storage medium - Google Patents
Method for speech recognition and device therefor and storage mediumInfo
- Publication number
- JPH10171488A JPH10171488A JP8330741A JP33074196A JPH10171488A JP H10171488 A JPH10171488 A JP H10171488A JP 8330741 A JP8330741 A JP 8330741A JP 33074196 A JP33074196 A JP 33074196A JP H10171488 A JPH10171488 A JP H10171488A
- Authority
- JP
- Japan
- Prior art keywords
- likelihood
- recognition
- word
- speech
- recognition target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Abstract
Description
【0001】[0001]
【発明の属する技術分野】本発明は、音声認識方法及び
装置及び記憶媒体に関するものである。BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a speech recognition method and apparatus, and a storage medium.
【0002】[0002]
【従来の技術】音声認識は、入力された音声を音響分析
し、分析結果と事前に用意している認識対象語のモデル
との類似度をあらわす尤度を計算し、もっとも高い尤度
になったモデルを認識結果として出力するものである。
したがって、認識対象としてない発話が認識対象の音声
として入力されたり、使用者が咳をしたりした場合で
も、それらの入力音声の尤度を計算して最も尤度の高い
認識対象語を認識結果として出力してしまう。これらに
対処する技術として、咳や認識対象外の語など想定して
ない発話(未知語) が入力された時に、その発話の認識
結果を棄却するため、未知語のモデルを作成してその未
知語モデルの尤度に重みをかけた値が認識結果の尤度よ
り大きい場合に、認識結果を棄却する方法が一般に知ら
れている。図2を用いて音声入力から認識処理をし、認
識結果を出力する従来の方法を説明する。まず、音声が
入力されると音声取り込みを行ない(S100)、S100で取り
込んだ音声の音響分析をし(S200)、S200で分析した結果
に対する事前に用意している認識対象語のモデルの尤度
を計算する(S300)。次にS200の分析結果に対する未知語
モデルの尤度を(未知語に対する重みが予め設定されて
いる場合はその重みを考慮して) 計算する(S410)。(S30
0とS410のステップの順番は入れ変わっても良いし、同
時に行なっても良い)。求まった認識結果の尤度と未知
語モデルの尤度を比較し、未知語のモデルの尤度が大き
い場合は認識結果を棄却し(S601)、認識結果の尤度が大
きい場合はその認識結果を出力する(S600)。2. Description of the Related Art In speech recognition, acoustic analysis of an input speech is performed, and the likelihood indicating the similarity between the analysis result and a model of a word to be recognized prepared in advance is calculated. Is output as the recognition result.
Therefore, even when an utterance that is not a recognition target is input as a recognition target voice or the user coughs, the likelihood of those input voices is calculated and the recognition target word having the highest likelihood is recognized. Will be output as As a technique to deal with these, when an unexpected utterance (unknown word) such as a cough or an unrecognized word is input, a model of the unknown word is created by rejecting the recognition result of the utterance. A method of rejecting a recognition result when a value obtained by weighting the likelihood of the word model is larger than the likelihood of the recognition result is generally known. A conventional method of performing a recognition process from a speech input and outputting a recognition result will be described with reference to FIG. First, when a voice is input, the voice is captured (S100), the acoustic analysis of the voice captured in S100 (S200), and the likelihood of the model of the recognition target word prepared in advance with respect to the analysis result in S200. Is calculated (S300). Next, the likelihood of the unknown word model with respect to the analysis result of S200 is calculated (when the weight for the unknown word is set in advance, considering the weight) (S410). (S30
The order of the steps 0 and S410 may be interchanged or may be performed simultaneously.) The likelihood of the obtained recognition result is compared with the likelihood of the unknown word model.If the likelihood of the unknown word model is high, the recognition result is rejected (S601) .If the likelihood of the recognition result is high, the recognition result is high. Is output (S600).
【0003】[0003]
【発明が解決しようとする課題】音声で計算機等を操作
する場合、誤認識した場合にその後の処理に悪影響を及
ぼす場合がある。例えば、『消去』という言葉に計算機
の記憶装置上のデータを消去するという操作が対応して
いる時に、未知語(例えば 『賞金』 『証拠』 )が入力
された時に誤って『消去』 と認識された場合には、オ
ペレータの意思と関係なくデータが消去されてしまい、
その後の処理に悪影響が出てしまう。このような状況が
起こる可能性は減らさなければならない。また、逆に、
誤認識してもそれほど影響が出ない場合は、棄却処理に
より正しい発話を棄却される回数は少ない方が良い。When a computer or the like is operated by voice, erroneous recognition may adversely affect subsequent processing. For example, when the word "delete" corresponds to the operation of deleting data on the computer's storage device, when an unknown word (for example, "prize" or "evidence") is entered, it is incorrectly recognized as "delete" In this case, the data will be erased regardless of the intention of the operator,
The subsequent processing will be adversely affected. The likelihood of such a situation occurring must be reduced. Also, conversely,
If the erroneous recognition does not have a significant effect, it is better that the number of times correct speech is rejected by the rejection process is small.
【0004】しかし、例えば未知語モデルの精度が良く
ない場合、未知語でない本来認識されるべき発話を棄却
したり(誤棄却)、棄却するべき発話が棄却されなかった
り(棄却洩れ)、棄却処理に誤りが生じる。S400で計算さ
れる未知語モデルの尤度にかける重みを大きく設定した
場合、棄却洩れが減るが誤棄却が増える。逆に重みを小
さくした場合は、誤棄却が減るが棄却洩れが増える。However, if the accuracy of the unknown word model is not good, for example, utterances that should be originally recognized as unknown words are rejected (false rejection), utterances to be rejected are not rejected (rejection omission), and rejection processing is performed. Error occurs. When the weight applied to the likelihood of the unknown word model calculated in S400 is set large, rejection is reduced, but erroneous rejection is increased. Conversely, when the weight is reduced, false rejection is reduced but rejection is increased.
【0005】従来は、認識対象語や認識結果にかかわら
ず、一定の重みが未知語モデルの尤度にかけられ、ま
た、尤度の大小のみで棄却するかどうかを判断してい
た。Conventionally, a certain weight is applied to the likelihood of an unknown word model regardless of the recognition target word and the recognition result, and it is determined whether to reject only the likelihood.
【0006】したがって、未知語モデルにかける重みが
大きい場合、棄却すべき語が棄却できずに誤認識されて
は困る語に誤認識するなどの棄却処理誤りの問題があっ
た。また、重みを小さく設定した場合棄却しなくて良い
語が棄却されるという棄却処理誤りの問題があった。Therefore, when the weight applied to the unknown word model is large, there is a problem of rejection processing error such that a word to be rejected cannot be rejected and is erroneously recognized as a word which should not be erroneously recognized. In addition, there is a problem of rejection processing error that words that do not need to be rejected are rejected when the weight is set small.
【0007】[0007]
【課題を解決するための手段】上記従来の課題を解決す
る為に、本発明は、予め定められている認識対象語を用
いて入力音声を認識し、入力音声に対する未知語モデル
の尤度を導出し、前記導出された尤度に前記認識された
認識対象語に対応付けて記憶されている重みをかけた尤
度を導出し、前記導出された、重みをかけた尤度に従っ
て前記入力音声の認識結果を決定する音声認識方法及び
装置及び記憶媒体を提供する。SUMMARY OF THE INVENTION In order to solve the above-mentioned conventional problems, the present invention recognizes an input speech by using a predetermined recognition target word and determines the likelihood of an unknown word model for the input speech. Deriving a likelihood obtained by multiplying the derived likelihood by a weight stored in association with the recognized recognition target word, and obtaining the input speech according to the derived weighted likelihood. Provided are a speech recognition method and apparatus for determining a recognition result of a speech recognition device, and a storage medium.
【0008】上記従来の課題を解決する為に、本発明
は、好ましくは前記尤度の計算は、HMMモデルを用い
て行う。[0008] In order to solve the above-mentioned conventional problems, the present invention preferably calculates the likelihood using an HMM model.
【0009】上記従来の課題を解決する為に、本発明
は、好ましくは前記認識対象語を用いた入力音声の認識
は、入力音声の認識対象語との尤度を計算し、前記尤度
が最大の認識対象語を認識結果と判断する処理とする。[0009] In order to solve the above-mentioned conventional problems, it is preferable that the recognition of an input voice using the recognition target word calculates a likelihood of the input voice with the recognition target word, and the likelihood is calculated. It is assumed that the largest recognition target word is determined as a recognition result.
【0010】上記従来の課題を解決する為に、本発明
は、好ましくは前記認識において得た認識対象語の尤度
と、前記重みをかけた未知語モデルの尤度とを比較し、
前記比較により、認識対象語の尤度が大きい場合には、
該認識対象語を前記入力音声の認識結果として出力す
る。In order to solve the above-mentioned conventional problems, the present invention preferably compares the likelihood of a word to be recognized obtained in the recognition with the likelihood of the weighted unknown word model,
According to the comparison, when the likelihood of the recognition target word is large,
The recognition target word is output as a recognition result of the input voice.
【0011】上記従来の課題を解決する為に、本発明
は、好ましくは前記認識において得た認識対象語の尤度
と、前記重みをかけた未知語モデルの尤度とを比較し、
前記比較により、重みをかけた未知語モデルの尤度が大
きい場合には、前記認識対象語を棄却する。In order to solve the above-mentioned conventional problems, the present invention preferably compares the likelihood of the word to be recognized obtained in the recognition with the likelihood of the weighted unknown word model,
As a result of the comparison, if the likelihood of the weighted unknown word model is large, the recognition target word is rejected.
【0012】上記従来の課題を解決する為に、本発明
は、好ましくは前記認識対象語に、棄却対象語であるか
否かを示す属性を付与して記憶し、前記記憶されている
属性に従って、前記未知語モデルに重みをかける処理を
するか否かを切り替えるよう制御する。[0012] In order to solve the above-mentioned conventional problems, the present invention preferably provides the recognition target word with an attribute indicating whether it is a rejection target word and stores the word, according to the stored attribute. , Is controlled so as to switch whether or not to perform processing for weighting the unknown word model.
【0013】上記従来の課題を解決する為に、本発明
は、好ましくは前記入力音声を入力する項目ごとに棄却
処理が必要か否かを示す属性を付与して記憶し、前記記
憶されている属性に従って、前記未知語モデルに重みを
かける処理をするか否かを切り替えるよう制御する。[0013] In order to solve the above-mentioned conventional problems, the present invention preferably provides an attribute indicating whether or not rejection processing is required for each item for inputting the input voice, and stores the attribute. Control is performed so as to switch whether or not to perform processing for weighting the unknown word model according to the attribute.
【0014】上記従来の課題を解決する為に、本発明
は、好ましくは前記認識対象語に対応する重み情報は、
認識対象語に対応付けたテーブルとして記憶する。In order to solve the above-mentioned conventional problems, the present invention preferably provides that the weight information corresponding to the recognition target word is:
It is stored as a table associated with the recognition target word.
【0015】上記従来の課題を解決する為に、本発明
は、好ましくは前記認識対象語に対応する重み情報は、
認識対象語の音声認識文法に盛り込んで記憶する。In order to solve the above-mentioned conventional problems, the present invention preferably provides that the weight information corresponding to the recognition target word is:
The recognition target word is included in the speech recognition grammar and stored.
【0016】上記従来の課題を解決する為に、本発明
は、好ましくは前記認識対象語に対応する重み情報を、
未知語モデルの尤度計算処理に先立って行う。[0016] In order to solve the above-mentioned conventional problems, the present invention preferably provides weight information corresponding to the recognition target word,
This is performed prior to the likelihood calculation processing of the unknown word model.
【0017】上記従来の課題を解決する為に、本発明
は、好ましくは前記認識対象語に対応する重み情報の計
算を、認識対象語が更新される度に行う。In order to solve the above-mentioned conventional problem, the present invention preferably calculates the weight information corresponding to the recognition target word every time the recognition target word is updated.
【0018】上記従来の課題を解決する為に、本発明
は、好ましくは前記認識結果を表示手段に表示する。In order to solve the above-mentioned conventional problems, the present invention preferably displays the recognition result on a display means.
【0019】上記従来の課題を解決する為に、本発明
は、好ましくは前記音声をマイクロフォンより入力す
る。In order to solve the above-mentioned conventional problems, the present invention preferably inputs the voice from a microphone.
【0020】上記従来の課題を解決する為に、本発明
は、認識対象語ごとに未知語モデルの尤度にかける重み
を決定し、入力音声の認識対象語との尤度を計算し、前
記入力音声の未知語モデルとの尤度を計算し、前記尤度
を計算した認識対象語に対して決定されている重みを、
前記計算して求められた未知語モデルの尤度にかけて、
未知語モデルの重み計上尤度を求め、前記認識対象語の
尤度及び未知語モデルの重み計上尤度とを比較し、前記
比較結果に応じて前記入力音声に対する認識結果を棄却
するか否かを決定する音声認識方法及び装置及び記憶媒
体を提供する。In order to solve the above-mentioned conventional problems, the present invention determines a weight to be applied to the likelihood of an unknown word model for each recognition target word, calculates the likelihood of the input speech with the recognition target word, Calculate the likelihood of the input speech with the unknown word model, and determine the weight determined for the recognition target word for which the likelihood has been calculated,
Multiplying the likelihood of the unknown word model obtained by the above calculation,
Find the weighted likelihood of the unknown word model, compare the likelihood of the word to be recognized with the weighted likelihood of the unknown word model, and decide whether to reject the recognition result for the input speech according to the comparison result. The present invention provides a speech recognition method and apparatus for determining the number and a storage medium.
【0021】[0021]
【発明の実施の形態】以下、図面を参照しながら本発明
の一実施の形態を説明する。図1は本発明に係わる音声
認識装置の概略構成の一例を表すブロック図である。図
3は本発明にかかわる音声認識処理のフローチャートで
ある。DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS An embodiment of the present invention will be described below with reference to the drawings. FIG. 1 is a block diagram illustrating an example of a schematic configuration of a speech recognition device according to the present invention. Figure
FIG. 3 is a flowchart of a voice recognition process according to the present invention.
【0022】以下で説明するユーザの発話に対する音声
認識などの処理は記憶装置(400) に記憶されたプログラ
ムに沿ってCPU(200) が処理する。後述するフローチャ
ートのプログラムも記憶装置400に記憶される。ま
た、記憶装置400に記憶されるプログラムは、着脱可
能な外部記憶媒体であるFDやCDROM等、或は公衆
回線やLANを介して他の装置からダウンロードしても
良い。Processing such as voice recognition for a user's utterance described below is performed by the CPU (200) according to a program stored in the storage device (400). The program of the flowchart described later is also stored in the storage device 400. Further, the program stored in the storage device 400 may be downloaded from a removable external storage medium such as FD or CDROM, or from another device via a public line or a LAN.
【0023】まず、ステップS020で、認識対象語ごと
に、その語のモデルと未知語モデルの尤度を比較する時
にその語のモデルに対して未知語モデルにかける重みを
決定する。即ち、ここで決定される重みは認識対象語と
同数である。または、認識対象語ごとに予め定められて
いる属性(例えばその語の危険度等)によりグループ分
けされるグループごとに重みを決定しても良い。First, in step S020, for each word to be recognized, when comparing the likelihood between the model of the word and the unknown word model, the weight applied to the model of the word by the unknown word model is determined. That is, the weight determined here is the same as the number of words to be recognized. Alternatively, the weight may be determined for each group that is grouped according to an attribute (for example, the degree of risk of the word) that is predetermined for each recognition target word.
【0024】S020で決定された認識対象語ごとの重みの
値は、単語と対応づけてテーブルとして記憶装置400
に記憶しても良いし、S300での尤度計算処理において用
いる音声認識の為の文法情報に盛り込んでも良い。こう
して棄却処理に先立って認識対象語ごとの重みを決定
し、予め記憶しておくことにより、S410での未知語モデ
ルの尤度計算ではこの重みを読み出して、認識対象語ご
とに適切な重みをかけた尤度が求められる。The value of the weight for each recognition target word determined in S020 is stored in the storage device 400 as a table in association with the word.
May be stored in the grammar information for speech recognition used in the likelihood calculation processing in S300. Thus, prior to the rejection processing, the weight of each recognition target word is determined and stored in advance, so that the weight is read out in the likelihood calculation of the unknown word model in S410, and an appropriate weight is set for each recognition target word. The likelihood multiplied is obtained.
【0025】また、このS020の重み決定処理は、棄却処
理に先立って行われれば良く、図3のフローチャートに
示されるようにS100の前でも良いし、例えばS300の後に
行っても良い。The weight determination process in S020 may be performed prior to the rejection process, and may be performed before S100 as shown in the flowchart of FIG. 3, or may be performed after S300, for example.
【0026】S020での重み決定及び記憶処理が行われた
後は、音声が入力される度にS100〜S601が繰り返される
が、例えば認識対象語が増加した場合、或はユーザの指
示により、随時S020を実行しても良い。After the weight is determined and stored in S020, S100 to S601 are repeated each time a voice is input. For example, when the number of words to be recognized increases or when the user instructs, S020 may be executed.
【0027】マイクロフォンや電話などの音声入出力装
置(500) から音声が入力されると、ステップS100で音声
を取り込み、A/D変換などを行なう。When a voice is input from a voice input / output device (500) such as a microphone or a telephone, the voice is captured in step S100 and A / D conversion is performed.
【0028】次に、A/D変換された音声をステップS200
で音響分析する。Next, the A / D-converted voice is stored in step S200.
Acoustic analysis with.
【0029】次に、ステップS300で音響分析結果と記憶
装置(400) 上に記憶された認識対象語をHMMなどで表現
したモデルとの類似度を表す尤度をCPU(200) で計算
し、最も尤度の高いモデルを認識結果とする。Next, in step S300, the CPU (200) calculates the likelihood representing the similarity between the result of the acoustic analysis and the model in which the recognition target word stored in the storage device (400) is represented by an HMM or the like. The model with the highest likelihood is set as the recognition result.
【0030】次に、ステップS410で、音響分析結果と記
憶装置(400) 上に記憶された未知語をHMMなどで表現し
たモデルとの類似度を表す尤度をCPU(200) で計算す
る。この際、ステップS300の認識結果の語に対応する重
みを記憶装置400に記憶されているテーブル或は文法
から読み出すことにより、ステップS020で決定した認識
対象語ごとに適切だと判断された重みを未知語モデルの
尤度にかける。Next, in step S410, the CPU (200) calculates the likelihood representing the similarity between the acoustic analysis result and a model in which the unknown word stored in the storage device (400) is represented by an HMM or the like. At this time, by reading the weight corresponding to the word of the recognition result in step S300 from the table or the grammar stored in the storage device 400, the weight determined to be appropriate for each recognition target word determined in step S020 is determined. Multiply the likelihood of the unknown word model.
【0031】次に、ステップS500でステップS300で計算
した認識結果の尤度とステップS410で計算した未知語モ
デルの尤度を比較する。Next, in step S500, the likelihood of the recognition result calculated in step S300 is compared with the likelihood of the unknown word model calculated in step S410.
【0032】ステップS500で認識結果の尤度が未知語モ
デルの尤度と等しいかそれより大きい場合は、ステップ
S600に進み、認識結果を表示装置(300) に表示する。If the likelihood of the recognition result is equal to or greater than the likelihood of the unknown word model in step S500,
Proceeding to S600, the recognition result is displayed on the display device (300).
【0033】ステップS500で認識結果の尤度が未知語モ
デルの尤度より小さい場合は、ステップS601に進み、認
識結果を棄却する。If the likelihood of the recognition result is smaller than the likelihood of the unknown word model in step S500, the flow advances to step S601 to discard the recognition result.
【0034】ステップS601において、棄却したことを表
示装置(300) に表示しても良い。ステップS600におい
て、認識結果は記憶装置(400) に記憶しても良い。In step S601, the rejection may be displayed on the display device (300). In step S600, the recognition result may be stored in the storage device (400).
【0035】先の説明における、ステップS020とステッ
プS300での処理を変更した例を図4のフローチャートを
用いて説明する。他のステップは先の図3のフローチャ
ートとほぼ等しいので、同じステップ番号を付し、ここ
での説明は省略する。以下、変更したステップについて
説明する。An example in which the processing in steps S020 and S300 in the above description is changed will be described with reference to the flowchart of FIG. The other steps are almost the same as those in the flowchart of FIG. 3, and thus the same step numbers are given and the description is omitted here. Hereinafter, the changed steps will be described.
【0036】ステップS020で認識対象語ごとに未知
語モデルの尤度にかける重みを決定する際に、認識対象
語を棄却の対象とする語と棄却の対象としない語に分類
し、棄却の対象としない語に対する未知語処理モデルの
尤度にかける重みを0とする(S040)。このS040は、S020
が行われるタイミングと同じタイミングで行なわれ、ま
た、記憶装置400への記憶方法も同じである。When determining the weight to be applied to the likelihood of the unknown word model for each word to be recognized in step S020, the words to be recognized are classified into words to be rejected and words not to be rejected. The weight to be applied to the likelihood of the unknown word processing model for words not to be set is set to 0 (S040). This S040 is S020
Is performed at the same timing as the storage device 400 is performed, and the storage method in the storage device 400 is the same.
【0037】実施例1におけるステップS300において、
認識結果が出力された後に、S300で出力された認識結果
の語が棄却の対象かどうか(未知語のモデルの尤度にか
ける重みが0かどうか)記憶装置400を調べる(S350)。In step S300 in the first embodiment,
After the recognition result is output, the storage device 400 is checked whether the word of the recognition result output in S300 is to be rejected (whether the weight applied to the likelihood of the unknown word model is 0) (S350).
【0038】棄却の対象としない語であるとS350で判断
された場合(重みが0の場合) は、未知語モデルの尤度計
算(S410) と認識結果と未知語モデルの尤度比較を行な
わずにステップS600に進み、認識結果としてS300で出力
した語を表示する。If it is determined in S350 that the word is not to be rejected (when the weight is 0), the likelihood calculation of the unknown word model (S410) and the likelihood comparison between the recognition result and the unknown word model are performed. Instead, the process proceeds to step S600, and the word output in S300 is displayed as a recognition result.
【0039】棄却の対象の語であるとS350で判断された
場合(重みが0以外の場合) は、ステップS410に進み、未
知語モデルの尤度の計算を行ない、以降は図3のフロー
チャートと同じ処理をする。If it is determined in S350 that the word is a word to be rejected (when the weight is other than 0), the flow advances to step S410 to calculate the likelihood of the unknown word model. Do the same.
【0040】次に、図5のフローチャートを用いて発話
内容が棄却対象であるか否かを尤度計算の前に判断し、
その結果によって棄却処理を行うか否かを切り替える処
理について説明する。Next, it is determined before the likelihood calculation whether or not the content of the utterance is to be rejected by using the flowchart of FIG.
Processing for switching whether to perform rejection processing based on the result will be described.
【0041】図3のフローチャートにおけるステップS0
20の後に発話内容が棄却の対象か否かを判断するステッ
プS050を設け、発話内容が棄却の対象である場合は図3
のフローチャートと同様に棄却処理を用いた音声認識(S
100〜S601)を行なう。ステップS050で発話が棄却の対象
でないと判断した場合はステップS400、S500の棄却処理
を行なわず、S100〜S300のみ行い、通常の音声認識と同
じように認識結果を表示する。Step S0 in the flowchart of FIG.
After step 20, a step S050 is provided for determining whether or not the utterance content is to be rejected.
Speech recognition using rejection processing (S
100 to S601). If it is determined in step S050 that the utterance is not the object of rejection, the rejection processing of steps S400 and S500 is not performed, only S100 to S300 are performed, and the recognition result is displayed in the same manner as normal speech recognition.
【0042】これは例えば、複数の項目のデータを音声
で入力するシステムなどで、項目ごとに棄却処理が必要
であるか否かを予め記憶装置400に記憶しておき、音
声入力対象となっている項目が棄却処理が必要な項目で
あるのか、或は必要ではない項目であるのかを記憶装置
400を参照することにより使い分けすることに利用で
きる。For example, in a system for inputting data of a plurality of items by voice, whether or not rejection processing is required for each item is stored in the storage device 400 in advance, and the data is input as a voice input target. It can be used to refer to the storage device 400 to determine whether an item is an item that requires rejection processing or an item that is not necessary by referring to the storage device 400.
【0043】[0043]
【発明の効果】以上説明したように、本発明によれば、
予め定められている認識対象語を用いて入力音声を認識
し、入力音声に対する未知語モデルの尤度を導出し、前
記導出された尤度に前記認識された認識対象語に対応付
けて記憶されている重みをかけた尤度を導出し、前記導
出された、重みをかけた尤度に従って前記入力音声の認
識結果を決定することにより、棄却誤りの少ない音声認
識が実現でき、音声認識による情報の入力を行う場合に
おける操作性を向上させることができる。As described above, according to the present invention,
The input speech is recognized using a predetermined recognition target word, a likelihood of the unknown word model for the input speech is derived, and the derived likelihood is stored in association with the recognized recognition target word. Deriving a weighted likelihood, and determining the recognition result of the input speech according to the derived weighted likelihood, speech recognition with less rejection errors can be realized, and information by speech recognition can be realized. The operability in the case of performing the input of can be improved.
【0044】以上説明したように、本発明によれば、前
記尤度の計算は、HMMモデルを用いて行うことによ
り、精度の良い音声認識において棄却誤りの少ない音声
認識を可能とする。As described above, according to the present invention, the calculation of the likelihood is performed using an HMM model, thereby enabling speech recognition with few rejection errors in accurate speech recognition.
【0045】以上説明したように、本発明によれば、前
記認識対象語を用いた入力音声の認識は、入力音声の認
識対象語との尤度を計算し、前記尤度が最大の認識対象
語を認識結果と判断する処理とすることにより、尤度が
最大の認識対象語に適した重みを考慮した棄却処理を可
能とする。As described above, according to the present invention, input speech recognition using the recognition target word calculates the likelihood of the input speech with the recognition target word and calculates the recognition target having the maximum likelihood. By performing the process of determining a word as a recognition result, it is possible to perform a rejection process in consideration of a weight suitable for a recognition target word having the highest likelihood.
【0046】以上説明したように、本発明によれば、前
記認識において得た認識対象語の尤度と、前記重みをか
けた未知語モデルの尤度とを比較し、前記比較により、
認識対象語の尤度が大きい場合には、該認識対象語を前
記入力音声の認識結果として出力することにより、認識
対象語の各々に適した重みを考慮した棄却処理をした上
で適切だと判断された認識対象語を認識結果として得る
ことが出来る。As described above, according to the present invention, the likelihood of the word to be recognized obtained in the above recognition is compared with the likelihood of the weighted unknown word model.
If the likelihood of the recognition target word is large, the recognition target word is output as the recognition result of the input voice, and it is determined that the recognition target word is appropriate after performing rejection processing in consideration of a weight suitable for each of the recognition target words. The determined recognition target word can be obtained as a recognition result.
【0047】以上説明したように、本発明によれば、前
記認識において得た認識対象語の尤度と、前記重みをか
けた未知語モデルの尤度とを比較し、前記比較により、
重みをかけた未知語モデルの尤度が大きい場合には、前
記認識対象語を棄却することにより、棄却の判断を、認
識対象語の各々に適切なレベルで判断することが出来
る。As described above, according to the present invention, the likelihood of the word to be recognized obtained in the recognition is compared with the likelihood of the weighted unknown word model.
If the likelihood of the weighted unknown word model is high, rejection of the recognition target word allows the rejection to be determined at an appropriate level for each of the recognition target words.
【0048】以上説明したように、本発明によれば、前
記認識対象語に、棄却対象語であるか否かを示す属性を
付与して記憶し、前記記憶されている属性に従って、前
記未知語モデルに重みをかける処理をするか否かを切り
替えるよう制御することにより、必要に応じて棄却処理
を行うので、音声認識の処理能率を向上させられる。As described above, according to the present invention, the recognition target word is added with an attribute indicating whether it is a rejection target word and stored, and the unknown word is stored in accordance with the stored attribute. By performing control to switch whether or not to apply weighting to the model, rejection processing is performed as necessary, so that the processing efficiency of speech recognition can be improved.
【0049】以上説明したように、本発明によれば、前
記入力音声を入力する項目ごとに棄却処理が必要か否か
を示す属性を付与して記憶し、前記記憶されている属性
に従って、前記未知語モデルに重みをかける処理をする
か否かを切り替えるよう制御することにより、必要な場
合に応じて棄却処理を行うので、音声認識の処理能率を
向上させられる。As described above, according to the present invention, an attribute indicating whether or not rejection processing is required is added and stored for each item to which the input voice is input, and according to the stored attribute, By controlling whether or not to perform the process of weighting the unknown word model, the rejection process is performed as needed, so that the processing efficiency of speech recognition can be improved.
【0050】以上説明したように、本発明によれば、前
記認識対象語に対応する重み情報は、認識対象語に対応
付けたテーブルとして記憶することにより、認識対象語
ごとに別個に設けられた重み情報を早く、適切に得るこ
とが出来る。As described above, according to the present invention, the weight information corresponding to the recognition target word is separately provided for each recognition target word by storing the weight information as a table corresponding to the recognition target word. Weight information can be obtained quickly and appropriately.
【0051】以上説明したように、本発明によれば、前
記認識対象語に対応する重み情報は、認識対象語の音声
認識文法に盛り込んで記憶することにより、認識対象語
ごとに別個に設けられた重み情報を早く、確実に得るこ
とが出来る。As described above, according to the present invention, the weight information corresponding to the recognition target word is separately provided for each recognition target word by storing it in the speech recognition grammar of the recognition target word. Weight information can be obtained quickly and reliably.
【0052】以上説明したように、本発明によれば、前
記認識対象語に対応する重み情報を、未知語モデルの尤
度計算処理に先立って行うことにより、未知語対象語ご
とに異なる重み情報の決定を適切なタイミングで行うこ
とが出来る。As described above, according to the present invention, the weight information corresponding to the recognition target word is performed prior to the likelihood calculation processing of the unknown word model, so that the weight information different for each unknown word target word is obtained. Can be determined at an appropriate timing.
【0053】以上説明したように、本発明によれば、前
記認識対象語に対応する重み情報の計算を、認識対象語
が更新される度に行うことにより、認識対象語が変化す
る場合においても、認識対象語ごとに異なる重み情報
を、確実に用意しておくことが出来る。As described above, according to the present invention, the calculation of the weight information corresponding to the recognition target word is performed every time the recognition target word is updated, so that even when the recognition target word changes. In addition, different weight information can be reliably prepared for each recognition target word.
【0054】以上説明したように、本発明によれば、前
記認識結果を表示手段に表示することにより、認識結果
を正確に確認することが出来る。As described above, according to the present invention, by displaying the recognition result on the display means, the recognition result can be confirmed accurately.
【0055】以上説明したように、本発明によれば、前
記音声をマイクロフォンより入力することにより、音声
入力が容易に行える。As described above, according to the present invention, voice input can be easily performed by inputting the voice from the microphone.
【0056】以上説明したように、本発明によれば、認
識対象語ごとに未知語モデルの尤度にかける重みを決定
し、入力音声の認識対象語との尤度を計算し、前記入力
音声の未知語モデルとの尤度を計算し、前記尤度を計算
した認識対象語に対して決定されている重みを、前記計
算して求められた未知語モデルの尤度にかけて、未知語
モデルの重み計上尤度を求め、前記認識対象語の尤度及
び未知語モデルの重み計上尤度とを比較し、前記比較結
果に応じて前記入力音声に対する認識結果を棄却するか
否かを決定することにより、棄却誤りを少なくすること
を可能とし、音声により情報を入力する場合の操作性を
向上させられる。As described above, according to the present invention, the weight applied to the likelihood of the unknown word model is determined for each recognition target word, the likelihood of the input speech with the recognition target word is calculated, and the input speech is calculated. The likelihood of the unknown word model is calculated by multiplying the weight determined for the recognition target word for which the likelihood has been calculated by the likelihood of the calculated unknown word model. Finding weighted likelihood, comparing the likelihood of the recognition target word with the weighted likelihood of the unknown word model, and determining whether to reject the recognition result for the input speech according to the comparison result. Accordingly, rejection errors can be reduced, and operability when inputting information by voice can be improved.
【図1】本発明に関わる音声認識装置の構成のブロック
図である。FIG. 1 is a block diagram of a configuration of a speech recognition device according to the present invention.
【図2】従来の音声認識方法のフローチャートである。FIG. 2 is a flowchart of a conventional voice recognition method.
【図3】本発明に係る実施形態である音声認識方法のフ
ローチャートである。FIG. 3 is a flowchart of a voice recognition method according to an embodiment of the present invention.
【図4】本発明に係る実施形態である音声認識方法2の
フローチャートである。FIG. 4 is a flowchart of a speech recognition method 2 according to an embodiment of the present invention.
【図5】本発明に係る実施形態である音声認識方法3の
フローチャートである。FIG. 5 is a flowchart of a voice recognition method 3 according to an embodiment of the present invention.
Claims (18)
入力音声を認識し、 入力音声に対する未知語モデルの尤度を導出し、 前記導出された尤度に前記認識された認識対象語に対応
付けて記憶されている重みをかけた尤度を導出し、 前記導出された、重みをかけた尤度に従って前記入力音
声の認識結果を決定することを特徴とする音声認識方
法。An input speech is recognized using a predetermined recognition target word, a likelihood of an unknown word model for the input speech is derived, and the derived likelihood is used as the recognized recognition target word. A speech recognition method, comprising: deriving a weighted likelihood stored in association with the input speech; and determining a recognition result of the input speech according to the derived weighted likelihood.
て行うことを特徴とする請求項1に記載の音声認識方
法。2. The speech recognition method according to claim 1, wherein the calculation of the likelihood is performed using an HMM model.
は、 入力音声の認識対象語との尤度を計算し、 前記尤度が最大の認識対象語を認識結果と判断する処理
とすることを特徴とする請求項1に記載の音声認識方
法。3. Recognition of an input speech using the recognition target word is a process of calculating a likelihood of the input speech with the recognition target word, and determining a recognition target word having the maximum likelihood as a recognition result. 2. The speech recognition method according to claim 1, wherein:
と、前記重みをかけた未知語モデルの尤度とを比較し、 前記比較により、認識対象語の尤度が大きい場合には、
該認識対象語を前記入力音声の認識結果として出力する
ことを特徴とする請求項1に記載の音声認識方法。4. Comparing the likelihood of the word to be recognized obtained in the recognition with the likelihood of the weighted unknown word model, and as a result of the comparison, if the likelihood of the word to be recognized is large,
2. The speech recognition method according to claim 1, wherein the recognition target word is output as a result of the recognition of the input speech.
と、前記重みをかけた未知語モデルの尤度とを比較し、 前記比較により、重みをかけた未知語モデルの尤度が大
きい場合には、前記認識対象語を棄却することを特徴と
する請求項1に記載の音声認識方法。5. The likelihood of the word to be recognized obtained in the recognition and the likelihood of the weighted unknown word model are compared, and the likelihood of the weighted unknown word model is large by the comparison. 2. The speech recognition method according to claim 1, wherein in the case, the recognition target word is rejected.
否かを示す属性を付与して記憶し、 前記記憶されている属性に従って、前記未知語モデルに
重みをかける処理をするか否かを切り替えるよう制御す
ることを特徴とする請求項1に記載の音声認識方法。6. A method for assigning an attribute indicating whether the word is a rejection word to the recognition target word and storing the word, and determining whether to perform a process of weighting the unknown word model according to the stored attribute. 2. The voice recognition method according to claim 1, wherein control is performed to switch between them.
処理が必要か否かを示す属性を付与して記憶し、 前記記憶されている属性に従って、前記未知語モデルに
重みをかける処理をするか否かを切り替えるよう制御す
ることを特徴とする請求項1に記載の音声認識方法。7. A process for assigning an attribute indicating whether rejection processing is required for each item for inputting the input voice and storing the attribute, and performing a process of weighting the unknown word model according to the stored attribute. 2. The speech recognition method according to claim 1, wherein control is performed to switch whether or not the voice recognition is performed.
認識対象語に対応付けたテーブルとして記憶することを
特徴とする請求項1に記載の音声認識方法。8. The weight information corresponding to the recognition target word is:
2. The speech recognition method according to claim 1, wherein the speech recognition method is stored as a table associated with a recognition target word.
認識対象語の音声認識文法に盛り込んで記憶することを
特徴とする請求項1に記載の音声認識方法。9. The weight information corresponding to the recognition target word is:
2. The speech recognition method according to claim 1, wherein the speech is included in a speech recognition grammar of the recognition target word and stored.
を、未知語モデルの尤度計算処理に先立って行うことを
特徴とする請求項1に記載の音声認識方法。10. The speech recognition method according to claim 1, wherein weight information corresponding to the recognition target word is performed prior to a likelihood calculation process of the unknown word model.
計算を、認識対象語が更新される度に行うことを特徴と
する請求項1に記載の音声認識方法。11. The speech recognition method according to claim 1, wherein calculation of weight information corresponding to the recognition target word is performed each time the recognition target word is updated.
とを特徴とする請求項1に記載の音声認識方法。12. The speech recognition method according to claim 1, wherein the recognition result is displayed on a display.
ることを特徴とする請求項1に記載の音声認識方法。13. The speech recognition method according to claim 1, wherein the speech is input from a microphone.
にかける重みを決定し、 入力音声の認識対象語との尤度を計算し、 前記入力音声の未知語モデルとの尤度を計算し、 前記尤度を計算した認識対象語に対して決定されている
重みを、前記計算して求められた未知語モデルの尤度に
かけて、未知語モデルの重み計上尤度を求め、 前記認識対象語の尤度及び未知語モデルの重み計上尤度
とを比較し、 前記比較結果に応じて前記入力音声に対する認識結果を
棄却するか否かを決定することを特徴とする音声認識方
法。14. A weight for the likelihood of the unknown word model is determined for each recognition target word, a likelihood of the input speech with the recognition target word is calculated, and a likelihood of the input speech with the unknown word model is calculated. Multiplying the weight determined for the recognition target word for which the likelihood has been calculated by the likelihood of the calculated unknown word model to obtain a weighted likelihood of the unknown word model; A speech recognition method comprising comparing a likelihood of a word with a weighted likelihood of an unknown word model, and determining whether to reject a recognition result for the input speech according to the comparison result.
て入力音声を認識する認識対象語認識手段と、 入力音声に対する未知語モデルの尤度を導出する未知語
モデル尤度導出手段と、 前記導出された尤度に前記認識された認識対象語に対応
付けて記憶されている重みをかけた尤度を導出する未知
語モデル重み計上尤度導出手段と、 前記導出された、重みをかけた尤度に従って前記入力音
声の認識結果を決定する認識結果決定手段とを有するこ
とを特徴とする音声認識装置。15. A recognition target word recognition unit for recognizing an input speech using a predetermined recognition target word, an unknown word model likelihood derivation unit for deriving a likelihood of an unknown word model for the input speech, Unknown word model weight accounting likelihood deriving means for deriving a likelihood obtained by applying a weight stored in association with the recognized recognition target word to the derived likelihood, and the derived weighted A recognition result determining unit that determines a recognition result of the input voice according to the likelihood.
にかける重みを決定する重み決定手段と、 入力音声の認識対象語との尤度を計算する認識対象語尤
度決定手段と、 前記入力音声の未知語モデルとの尤度を計算する未知語
モデル尤度決定手段と、 前記尤度を計算した認識対象語に対して決定されている
重みを、前記計算して求められた未知語モデルの尤度に
かけて、未知語モデルの重み計上尤度を求める未知語モ
デル重み計上尤度導出手段と、 前記認識対象語の尤度及び未知語モデルの重み計上尤度
とを比較する尤度比較手段と、 前記比較結果に応じて前記入力音声に対する認識結果を
棄却するか否かを決定する棄却判定手段とを有すること
を特徴とする音声認識装置。16. A weight determining means for determining a weight to be applied to the likelihood of the unknown word model for each recognition target word, a recognition target word likelihood determining means for calculating the likelihood of the input speech with the recognition target word, Unknown word model likelihood determining means for calculating the likelihood of the input speech with the unknown word model; and an unknown word obtained by calculating the weight determined for the recognition target word for which the likelihood has been calculated. Unknown word model weighting likelihood deriving means for obtaining the weighting likelihood of the unknown word model over the likelihood of the model; and likelihood comparison comparing the likelihood of the recognition target word and the weighting likelihood of the unknown word model. Means, and rejection determination means for determining whether or not to reject the recognition result for the input voice according to the comparison result.
体であって、 予め定められている認識対象語を用いて入力音声を認識
する工程と、 入力音声に対する未知語モデルの尤度を導出する工程
と、 前記導出された尤度に前記認識された認識対象語に対応
付けて記憶されている重みをかけた尤度を導出する工程
と、 前記導出された、重みをかけた尤度に従って前記入力音
声の認識結果を決定する工程のプログラムを記憶した記
憶媒体。17. A computer-readable storage medium, comprising: a step of recognizing an input speech using a predetermined recognition target word; and a step of deriving a likelihood of an unknown word model for the input speech. Deriving a likelihood obtained by weighting the derived likelihood stored in association with the recognized word to be recognized, and extracting the likelihood of the input voice according to the derived weighted likelihood. A storage medium storing a program for a step of determining a recognition result.
体であって、 認識対象語ごとに未知語モデルの尤度にかける重みを決
定する工程と、 入力音声の認識対象語との尤度を計算する工程と、 前記入力音声の未知語モデルとの尤度を計算する工程
と、 前記尤度を計算した認識対象語に対して決定されている
重みを、前記計算して求められた未知語モデルの尤度に
かけて、未知語モデルの重み計上尤度を求める工程と、 前記認識対象語の尤度及び未知語モデルの重み計上尤度
とを比較する工程と、 前記比較結果に応じて前記入力音声に対する認識結果を
棄却するか否かを決定する工程のプログラムを記憶した
記憶媒体。18. A computer-readable storage medium, comprising: determining a weight to be applied to the likelihood of an unknown word model for each recognition target word; and calculating a likelihood of the input speech with the recognition target word. Calculating the likelihood of the input speech with the unknown word model; and determining the weight determined for the recognition target word for which the likelihood has been calculated, the likelihood of the unknown word model obtained by the calculation. Determining the weighted likelihood of the unknown word model, comparing the likelihood of the recognition target word and the weighted likelihood of the unknown word model, and recognizing the input speech according to the comparison result. A storage medium storing a program for a step of determining whether to reject the result.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP8330741A JPH10171488A (en) | 1996-12-11 | 1996-12-11 | Method for speech recognition and device therefor and storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP8330741A JPH10171488A (en) | 1996-12-11 | 1996-12-11 | Method for speech recognition and device therefor and storage medium |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH10171488A true JPH10171488A (en) | 1998-06-26 |
Family
ID=18236046
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP8330741A Withdrawn JPH10171488A (en) | 1996-12-11 | 1996-12-11 | Method for speech recognition and device therefor and storage medium |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH10171488A (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007025279A (en) * | 2005-07-15 | 2007-02-01 | Mitsubishi Electric Corp | Device and program for speech recognition |
US8271282B2 (en) | 2008-07-10 | 2012-09-18 | Fujitsu Limited | Voice recognition apparatus, voice recognition method and recording medium |
WO2022254912A1 (en) * | 2021-06-01 | 2022-12-08 | 株式会社Nttドコモ | Speech recognition device |
-
1996
- 1996-12-11 JP JP8330741A patent/JPH10171488A/en not_active Withdrawn
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007025279A (en) * | 2005-07-15 | 2007-02-01 | Mitsubishi Electric Corp | Device and program for speech recognition |
JP4727330B2 (en) * | 2005-07-15 | 2011-07-20 | 三菱電機株式会社 | Speech recognition apparatus and speech recognition program |
US8271282B2 (en) | 2008-07-10 | 2012-09-18 | Fujitsu Limited | Voice recognition apparatus, voice recognition method and recording medium |
WO2022254912A1 (en) * | 2021-06-01 | 2022-12-08 | 株式会社Nttドコモ | Speech recognition device |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5797116A (en) | Method and apparatus for recognizing previously unrecognized speech by requesting a predicted-category-related domain-dictionary-linking word | |
US6751595B2 (en) | Multi-stage large vocabulary speech recognition system and method | |
US6839667B2 (en) | Method of speech recognition by presenting N-best word candidates | |
US8249870B2 (en) | Semi-automatic speech transcription | |
JP2000122691A (en) | Automatic recognizing method for spelling reading type speech speaking | |
US8428241B2 (en) | Semi-supervised training of destination map for call handling applications | |
US6963834B2 (en) | Method of speech recognition using empirically determined word candidates | |
JP2955297B2 (en) | Speech recognition system | |
US6952674B2 (en) | Selecting an acoustic model in a speech recognition system | |
JPH10171488A (en) | Method for speech recognition and device therefor and storage medium | |
JP4220151B2 (en) | Spoken dialogue device | |
EP1488410B1 (en) | Distortion measure determination in speech recognition | |
JP3063855B2 (en) | Finding the minimum value of matching distance value in speech recognition | |
JP2543584B2 (en) | Voice standard pattern registration method | |
JP3458285B2 (en) | Voice recognition device | |
US20030163312A1 (en) | Speech processing apparatus and method | |
JPH0713598A (en) | Specific task speech data base generating device | |
JP2005227555A (en) | Voice recognition device | |
JPH0997095A (en) | Speech recognition device | |
JPH0211919B2 (en) | ||
JPH03223799A (en) | Method and apparatus for recognizing separated words, especially very large words | |
JP3063856B2 (en) | Finding the minimum value of matching distance value in speech recognition | |
KR100506662B1 (en) | The Speech Database Construction Method Based on Online Speech Verification | |
JP2995941B2 (en) | Speech recognition device for unspecified speakers | |
JPH0236960B2 (en) |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20040302 |