JP4296290B2 - Speech recognition apparatus, speech recognition method and program - Google Patents
Speech recognition apparatus, speech recognition method and program Download PDFInfo
- Publication number
- JP4296290B2 JP4296290B2 JP2003361646A JP2003361646A JP4296290B2 JP 4296290 B2 JP4296290 B2 JP 4296290B2 JP 2003361646 A JP2003361646 A JP 2003361646A JP 2003361646 A JP2003361646 A JP 2003361646A JP 4296290 B2 JP4296290 B2 JP 4296290B2
- Authority
- JP
- Japan
- Prior art keywords
- syllable
- recognition
- recognition result
- reliability
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
本発明は、音声認識装置、音声認識方法及びプログラムに係り、特に、音節単位で区切り発声された音声を認識する音声認識装置、音声認識方法及びプログラムに関する。 The present invention relates to a speech recognition device, a speech recognition method, and a program, and more particularly, to a speech recognition device, a speech recognition method, and a program for recognizing speech that is uttered in syllable units.
従来、音声の入力速度を向上させるために、様々な音声認識装置が提案されている。 Conventionally, various speech recognition apparatuses have been proposed in order to improve the voice input speed.
特許文献1には、音節に対応する音節列(例えば、音節「あ」に対して音節列「あいうえおのあ」)を標準パターンとして登録することにより、単音節単体で認識するのが難しい場合であっても、音節列「あいうえおのあ」が音声入力されれば、音節「あ」を高確率で認識することが記載されている。 In Patent Document 1, a syllable string corresponding to a syllable (for example, a syllable string “ai”) is registered as a standard pattern, and it is difficult to recognize a single syllable alone. Even if there is a voice, the syllable string “A” is recognized with a high probability if the syllable string “Ai Ueno A” is input.
特許文献2には、単語を音節に区切って発生された音声と、同じ単語を連続的に発生された音声の両方を使って、高精度に音声を認識することが記載されている。
特許文献3には、音声認識結果と信頼性レベルを確認しやすくするため、信頼性レベルに応じてキャラクタの表情を変えることが記載されている。
特許文献1では、ユーザは、単音節「あ」を認識させるために、それに対応する音節列「あいうえおのあ」を発生しなければならない。このため、音声の入力速度が遅くなってしまう問題があった。 In Patent Document 1, in order to recognize a single syllable “A”, the user must generate a syllable string “Ai Ueno A” corresponding thereto. For this reason, there has been a problem that the voice input speed is slow.
特許文献2では、ユーザは同じ単語を2通りの方法で発声しなければならず、このため音声の入力速度が遅くなってしまう問題があった。
In
特許文献3では、音声認識結果の信頼度をユーザにフィードバックしているだけに過ぎず、これだけでは音声の入力速度を上げることができなかった。
In
本発明は、上述した課題を解決するために提案されたものであり、音節毎に区切り発声された音声の入力速度を向上させることができる音声認識装置、音声認識方法及びプログラムを提供することを目的とする。 The present invention has been proposed to solve the above-described problems, and provides a speech recognition device, a speech recognition method, and a program that can improve the input speed of speech uttered by syllable. Objective.
請求項1に記載の発明である音声認識装置は、音節単位で区切り発声された音声を入力する音声入力手段と、前記音声入力手段により入力された音声を音節毎に認識する音節認識手段と、前記音節認識手段の認識結果の信頼度に応じた態様で前記音節の認識結果を出力する出力手段と、を備え、前記出力手段は、前記認識結果の信頼度が認識不可を示す第1の閾値より低いときは、前記音節の認識結果として予め定められた情報を出力し、前記認識結果の信頼度が前記第1の閾値以上であり認識不完全を示す第2の閾値より低いときは、前記音節の認識結果として少なくとも前記音節の母音を出力する。 The speech recognition device according to claim 1 is a speech input means for inputting speech uttered in syllable units, a syllable recognition means for recognizing speech input by the speech input means for each syllable, Output means for outputting the recognition result of the syllable in a manner corresponding to the reliability of the recognition result of the syllable recognition means , wherein the output means has a first threshold value indicating that the reliability of the recognition result is unrecognizable. When it is lower, it outputs predetermined information as the recognition result of the syllable, and when the reliability of the recognition result is equal to or higher than the first threshold and lower than the second threshold indicating incomplete recognition, At least a vowel of the syllable is output as a syllable recognition result .
請求項4に記載の発明である音声認識方法は、音節単位で区切り発声された音声を音節毎に認識する音節認識工程と、前記音節認識工程による認識結果の信頼度に応じた態様で前記音節の認識結果を出力する出力工程と、を備え、前記出力工程では、前記認識結果の信頼度が認識不可を示す第1の閾値より低いときは、前記音節の認識結果として予め定められた情報を出力し、前記認識結果の信頼度が前記第1の閾値以上であり認識不完全を示す第2の閾値より低いときは、前記音節の認識結果として少なくとも前記音節の母音を出力する。 According to a fourth aspect of the present invention, there is provided a speech recognition method comprising: a syllable recognition step for recognizing speech uttered in units of syllables for each syllable; and a syllable in a manner corresponding to a reliability of a recognition result obtained by the syllable recognition step. An output step of outputting the recognition result of the first step, and in the output step, when the reliability of the recognition result is lower than a first threshold value indicating that the recognition is impossible, information predetermined as the recognition result of the syllable is obtained. When the reliability of the recognition result is equal to or higher than the first threshold and lower than the second threshold indicating incomplete recognition, at least a vowel of the syllable is output as the recognition result of the syllable .
請求項11に記載の発明である音声認識プログラムは、コンピュータを、音節単位で区切り発声された音声を入力する音声入力手段と、前記音声入力手段により入力された音声を音節毎に認識する音節認識手段と、前記音節認識手段の認識結果の信頼度に応じた態様で前記音節の認識結果を出力する出力手段と、して機能させ、前記出力手段は、前記認識結果の信頼度が認識不可を示す第1の閾値より低いときは、前記音節の認識結果として予め定められた情報を出力し、前記認識結果の信頼度が前記第1の閾値以上であり認識不完全を示す第2の閾値より低いときは、前記音節の認識結果として少なくとも前記音節の母音を出力するように機能させる。 According to an eleventh aspect of the present invention, there is provided a speech recognition program, comprising: a voice input unit that inputs a voice uttered in units of syllables; and a syllable recognition that recognizes a voice input by the voice input unit for each syllable. And an output means for outputting the recognition result of the syllable in a manner corresponding to the reliability of the recognition result of the syllable recognition means, and the output means determines that the reliability of the recognition result is unrecognizable. When the value is lower than the first threshold value, information that is predetermined as the syllable recognition result is output, and the reliability of the recognition result is equal to or higher than the first threshold value and the second threshold value indicating incomplete recognition. When the value is low, the syllable recognition result is output at least as a vowel of the syllable.
音節認識手段は、ユーザによって音節単位で区切り発声された音声を音節毎に認識する。ここで、音節認識手段の認識結果は、信頼度が高いものや低いものなど、様々が存在する。しかし、認識結果の信頼度が低いときであってもユーザに何ら情報をフィートバックしないとすると、ユーザは、次の音節を発話しようとしないことが多い。 The syllable recognition means recognizes, for each syllable, the voice uttered by the user in syllable units. Here, there are various recognition results of the syllable recognition means, such as those with high reliability and those with low reliability. However, even when the reliability of the recognition result is low, if the user does not provide any information back to the user, the user often does not try to speak the next syllable.
出力手段は、音節認識手段の認識結果の信頼度に応じた態様で音節の認識結果を出力する。すなわち、出力手段は、音節の認識結果の信頼度に応じて、その認識結果の出力態様を変えている。 The output means outputs the syllable recognition result in a manner corresponding to the reliability of the recognition result of the syllable recognition means. That is, the output means changes the output mode of the recognition result according to the reliability of the recognition result of the syllable.
したがって、上記発明によれば、次の音節の入力を促すことができるので、その結果、音声入力速度を向上させることができる。 Therefore, according to the above invention, the input of the next syllable can be prompted, and as a result, the voice input speed can be improved.
音節の認識結果の信頼度が第1の閾値未満であるときは、当該音節は全く認識されていない。このとき、出力手段はその音節について何ら情報を出力しないと、ユーザは次の音節を発話しようとしない。 When the reliability of the recognition result of the syllable is less than the first threshold, the syllable is not recognized at all. At this time, if the output means does not output any information about the syllable, the user does not try to speak the next syllable.
したがって、上記発明によれば、音節の認識結果の信頼度が認識不可を示す第1の閾値より低いときは、音節の認識結果として予め定められた情報を出力することによって、音節を全く認識できない場合でも、ユーザに次の音節の発声を促すことができる。なお、予め定められた情報としては、相づちのような情報であってもよい。 Therefore, according to the above invention, when the reliability of the recognition result of the syllable is lower than the first threshold value indicating that the recognition is impossible, the syllable cannot be recognized at all by outputting the predetermined information as the recognition result of the syllable. Even in this case, the user can be prompted to utter the next syllable. Note that the predetermined information may be information such as a combination.
音節の認識結果の信頼度が第1の閾値以上第2の閾値未満であるときは、当該音節は一部だけ認識されているが、完全に認識されていない。例えば、当該音節の一部である母音は認識されているが、その他の部分である子音は認識されていない。 When the reliability of the recognition result of the syllable is not less than the first threshold and less than the second threshold, only a part of the syllable is recognized, but not completely recognized. For example, vowels that are part of the syllable are recognized, but consonants that are other parts are not recognized.
このとき、出力手段はその音節について何ら情報を出力しないと、ユーザは次の音節を発話しようとしない。一方、何か情報を出力するときは、認識された部分だけでも出力した方が、ユーザの発声を促すことができる。 At this time, if the output means does not output any information about the syllable, the user does not try to speak the next syllable. On the other hand, when outputting some information, it is possible to prompt the user to speak by outputting only the recognized part.
したがって、上記発明によれば、認識結果の信頼度が第1の閾値以上であり認識不完全を示す第2の閾値より低いときは、音節の認識結果として少なくとも音節の母音を出力することにより、音節の一部が認識されたことをユーザに報知できるので、ユーザに次の音節の発声を促すことができる。 Therefore, according to the invention, when the reliability of the recognition result is equal to or higher than the first threshold and lower than the second threshold indicating incomplete recognition, by outputting at least the syllable vowel as the syllable recognition result, Since the user can be notified that a part of the syllable has been recognized, the user can be prompted to utter the next syllable.
請求項2に記載の発明である音声認識装置は、請求項1に記載の発明であって、前記出力手段は、音声を出力する音声出力手段、画像を出力する画像出力手段の少なくとも一方である。
The speech recognition apparatus according to
請求項5に記載の発明である音声認識方法は、請求項4に記載の発明であって、前記出力工程では、音声、画像の少なくとも一方を出力する。 A speech recognition method according to a fifth aspect of the present invention is the voice recognition method according to the fourth aspect of the present invention, wherein at the output step, at least one of a voice and an image is output.
請求項3に記載の発明である音声認識装置は、請求項1又は請求項2に記載の発明であって、複数の音節列候補を記憶する音節列候補記憶手段と、前記音節列候補記憶手段に記憶された複数の音節列候補の中から、前記音節認識手段により認識された複数の音節で構成された音節列に最も対応する音節列候補を選択する選択手段と、を更に備えている。 A speech recognition apparatus according to a third aspect of the invention is the invention according to the first or second aspect , wherein the syllable string candidate storage means stores a plurality of syllable string candidates, and the syllable string candidate storage means. Selecting means for selecting a syllable string candidate most corresponding to the syllable string composed of the plurality of syllable strings recognized by the syllable recognition means from among the plurality of syllable string candidates stored in the syllable recognition unit.
請求項6に記載の発明である音声認識方法は、請求項4又は請求項5に記載の発明であって、複数の音節列候補の中から前記音節認識工程で認識された複数の音節で構成された音節列に最も対応する音節列候補を選択する選択工程と、を更に備えている。
The speech recognition method according to claim 6 is the invention according to claim 4 or
1つの音節だけを認識しても意味がなく、最終的には、複数の音節で構成された音節列を認識する必要がある。ここで、意味をなす単語であって例えば名詞などからなる音節列候補を予め用意しておく。そして、選択手段は、音節列候補の中から、既に認識された複数の音節で構成された音節列に最も対応する音節列候補を選択する。 There is no point in recognizing only one syllable, and ultimately it is necessary to recognize a syllable string composed of a plurality of syllables. Here, syllable string candidates that are meaningful words, such as nouns, are prepared in advance. Then, the selecting means selects a syllable string candidate most corresponding to the syllable string composed of a plurality of already recognized syllables from the syllable string candidates.
これにより、上記発明によれば、区切り発声された複数の音節からなる音節列について、音節の一部に認識不可又は認識不完全が存在しても、高精度かつ確実に認識することができる。 Thus, according to the above-described invention, a syllable string composed of a plurality of syllables that are uttered separately can be recognized with high accuracy and reliability even if a part of the syllable is unrecognizable or incompletely recognized.
本発明に係る音声認識装置、音声認識方法及びプログラムは、音節単位で区切り発声された音声を音節毎に認識し、認識結果の信頼度に応じた態様で音節の認識結果を出力することによって、次の音節の入力を促すことができ、この結果、音声入力速度を向上させることができる。 The speech recognition apparatus, the speech recognition method, and the program according to the present invention recognize the speech uttered in units of syllables for each syllable, and output the syllable recognition result in a manner according to the reliability of the recognition result. The input of the next syllable can be prompted, and as a result, the voice input speed can be improved.
以下、本発明を実施するための最良の形態について、図面を参照しながら詳細に説明する。 Hereinafter, the best mode for carrying out the present invention will be described in detail with reference to the drawings.
図1は、本発明の実施の形態に係る音声認識装置の構成を示すブロック図である。上記音声認識装置は、ユーザが音節単位で区切り発声した音声を認識するものである。なお、本実施の形態では、ユーザが「ひ・が・し・や・ま・ど・う・ぶ・つ・え・ん」を音節単位で発声した例を挙げて説明する。 FIG. 1 is a block diagram showing a configuration of a speech recognition apparatus according to an embodiment of the present invention. The speech recognition device recognizes speech uttered by the user in syllable units. In the present embodiment, an example will be described in which the user utters “hi, g, shi, ya, ma, do, u, bu, tsu, e, n” in units of syllables.
音声認識装置は、ユーザが発声した音声を入力して音声信号を生成するマイク1と、音声信号から音声区間を切り出して音響パラメータを抽出する音声区間切出器2と、単音節の音声認識を行う単音節認識器3と、音節列候補を選択して最終的な認識結果を出力する音節候補選択器4と、複数の音節列候補を表した辞書を記憶する音節列候補辞書データベース5と、認識結果を画像出力する表示装置6と、認識結果を音声出力するスピーカ7と、を備えている。
The speech recognition apparatus includes a microphone 1 that inputs speech uttered by a user and generates a speech signal, a
単音節認識器3は、単音節の音声認識を行うと共に、当該単音節の認識結果の信頼度を演算する。なお、単音節認識器3で認識された複数の単音節を、「認識対象音節列」とする。認識対象音節列は、認識不可又は認識不完全(母音のみ認識可)の音節が含まれてもよい。
The single syllable recognizer 3 performs speech recognition of a single syllable and calculates the reliability of the recognition result of the single syllable. A plurality of single syllables recognized by the
音節列候補辞書データベース5は、複数の音節列候補と、各音節列候補に対応する音響モデル列とを記憶している。本実施の形態では、音節列候補は、1つの意味をなす単語であれば特に限定されないが、本実施の形態では、例えば地名や施設などの名詞であるものとする。
The syllable string
音節候補選択器4は、認識対象音節列に基づいて音節列候補辞書データベース5の中から音節列候補を選択し、音響パラメータと音響モデル列とのマッチングを行って、認識対象音節列の最終的な音声認識結果を出力する。
The syllable candidate selector 4 selects a syllable string candidate from the syllable string
図2は、音声認識装置による音声認識処理の手順を示すフローチャートである。ユーザが音節毎に区切られた音声を発生すると、マイク1はその音声を音声信号に変換して音声区間切出器2に供給する。
FIG. 2 is a flowchart showing a procedure of voice recognition processing by the voice recognition device. When the user generates a voice divided for each syllable, the microphone 1 converts the voice into a voice signal and supplies the voice signal to the
音声区間切出器2は、マイク1から供給された音声信号の入力を受け付け(ステップST1)、音声信号から音声区間を切り出し、音響分析を行うことで特徴パラメータ(音響パラメータ)を抽出する(ステップST2)。
The
単音節認識器3は、音声区間切出器2で抽出された音響パラメータを用いて、単音節の認識を行うと共に、その認識結果の信頼度を演算する(ステップST3)。このとき、表示装置6及びスピーカ7は、単音節の認識結果の信頼度に応じた態様で、その認識結果を出力する。
The
具体的には、表示装置6は、認識結果の信頼度が高いときはその単音節の文字画像をそのまま表示する。表示装置6は、認識結果の信頼度が少し低いとき(例えば、信頼度が第1の閾値以上第2の閾値未満:母音しか認識できなかったとき)は、その母音の文字画像を表示すると共に、その横に子音認識不可を表す所定画像“?”を表示する。また、表示装置6は、認識結果の信頼度が低いとき(例えば、信頼度が第1の閾値未満:母音及び子音が共に認識できなかったとき)は、音節認識不可であり次の音節入力を促すことを表す所定画像“*”を表示する。 Specifically, when the reliability of the recognition result is high, the display device 6 displays the single syllable character image as it is. When the reliability of the recognition result is slightly low (for example, when the reliability is equal to or higher than the first threshold and lower than the second threshold: only the vowel is recognized), the display device 6 displays the character image of the vowel. Next, a predetermined image “?” Indicating that consonant recognition is impossible is displayed. In addition, when the reliability of the recognition result is low (for example, when the reliability is less than the first threshold: both vowels and consonants cannot be recognized), the display device 6 cannot recognize the syllable and inputs the next syllable. A predetermined image “*” representing prompting is displayed.
一方、スピーカ7は、認識結果の信頼度が高いときはその単音節の合成音声を出力し、認識結果の信頼度が少し低いとき(母音しか認識できなかったとき)は、その母音の合成音声のみを出力する。また、スピーカ7は、認識結果の信頼度が低いとき(母音及び子音が共に認識できなかったとき)は、音節認識不可であり次の音節入力を促すことを表す合成音声“はい”を出力する。
On the other hand, the
このように、音声認識装置は、単音節の認識結果の信頼度が高くない場合であっても、認識結果の信頼度を視覚や聴覚を通じてユーザにフィードバックすることにより、システムが正しく動作しているとユーザに思いこませることができる。この結果、ユーザに次の単音節の入力を促すことができる。 As described above, even if the reliability of the recognition result of the single syllable is not high, the speech recognition apparatus operates the system correctly by feeding back the reliability of the recognition result to the user through vision or hearing. Can be reminiscent of the user. As a result, the user can be prompted to input the next single syllable.
つぎに、単音節認識器3は、単音節の認識結果が正解であるか否かを判定する(ステップST4)。ここでは、ユーザが、表示装置6及びスピーカ7の出力を介して、単音節の認識結果を確認することができる。そして、ユーザは、その認識結果が誤りであると判断したときは、例えば、認識結果が誤りである旨を示す図示しないボタンを押圧することができる。
Next, the
そして、単音節認識器3は、所定時間経過しても上記ボタンの押圧を検出しないときは単音節の認識結果が正解であると判定し、上記ボタンの押圧を検出したときは単音節の認識結果が正解でないと判定する。なお、上記ステップST4において、ユーザに正解か否かを判断させるかわりに、例えば、単音節認識器3が単音節の信頼度に応じて自動的に正解か否かを判断してもよい。
The
単音節認識器3は、単音節の認識結果が正解でないと判定したときは、次候補となっていた単音節の認識結果を出力することによって、再び音節認識を行う(ステップST3)。単音節認識器3は、単音節の認識結果が正解になるまでステップST3及びステップST4の処理を繰り返し実行する。
When the
一方、単音節認識器3は、認識結果が正解であると判定したときは、当該単音節の波形データ(音響パラメータ)を図示しないメモリに格納する(ステップST5)。
On the other hand, when the
次に、単音節認識器3は、すべての音節入力が完了したか否かを判定する(ステップST6)。ここでは、単音節認識器3は、次の単音節の入力があったときは音節入力が完了していないと判定して、ステップST1に戻る。また、ステップST5の処理後所定時間経過しても次の単音節の入力がないときは音節入力が完了したと判定する。
Next, the
これにより、例えば、ステップST1からステップST5において単音節「ひ」の音節認識処理が終了したときは、再びステップST1に戻って、次の単音節「が」の音節認識処理が行われる。そして、音節列「ひ・が・し・や・ま・ど・う・ぶ・つ・え・ん」を構成する各々の単音節について音節認識処理が行われる。 Thereby, for example, when the syllable recognition process for the single syllable “hi” is completed in steps ST1 to ST5, the process returns to step ST1 again, and the syllable recognition process for the next single syllable “ga” is performed. Then, the syllable recognition process is performed for each single syllable constituting the syllable string “hi-ga-shi-ya-ma-do-u-bu-tsu-e-n”.
図3は、入力音声「ひ・が・し・や・ま・ど・う・ぶ・つ・え・ん」の単音節毎の認識結果を説明する図である。 FIG. 3 is a diagram for explaining a recognition result for each single syllable of the input speech “Hi, Gashi, Ya, Ma, Do, U, Bu, Tsu, E, N”.
ユーザが単音節を発声する毎に、表示装置6は、認識結果として「*」、「?あ」、「し」、「?あ」、「ま」、「ど」、「う」、「?う」、「*」、「え」、「*」の画像を順次出力する。同時に、スピーカ7は、認識結果として、「はい」、「あ」、「し」、「あ」、「ま」、「ど」、「う」、「う」、「はい」、「え」、「はい」の合成音声を順次出力する。
Every time the user utters a single syllable, the display device 6 recognizes “*”, “? A”, “shi”, “? A”, “ma”, “do”, “u”, “?” As recognition results. U, “*”, “e”, and “*” images are sequentially output. At the same time, the
これにより、ユーザは、単音節の認識結果の信頼度に影響されることなく、単音節を連続的に発声することができる。すなわち、音声認識装置は、単音節の認識結果の一部に誤りがあったとしても、ユーザに単音節の連続的な発話を促しているので、単音節毎の修正をできるかぎり回避することができる。なお、図3に示すように認識された複数の単音節を、「認識対象音節列」とする。 Thereby, the user can utter a single syllable continuously without being influenced by the reliability of the recognition result of the single syllable. That is, since the speech recognition apparatus prompts the user to continuously speak single syllables even if there is an error in part of the recognition result of single syllables, it is possible to avoid correction for each single syllable as much as possible. it can. A plurality of single syllables recognized as shown in FIG. 3 are referred to as “recognition target syllable strings”.
音節候補選択器4は、音節列候補辞書データベース5に記憶されている音節列候補辞書の中から、認識対象音節列に形式上一致する(例えば、単音節の数が同じ、同じ音節・母音が同じ位置にある等の条件が一致する)音節列候補を選択する(ステップST7)。なお、音節候補選択器4は、“*”に対応する認識不可の単音節については、任意の1文字とみなす。これにより、音節候補選択器4は、認識対象音節列の中に部分的に認識できなかった単音節が含まれていても、音節列候補を選択している。 The syllable candidate selector 4 matches the recognition target syllable string in the syllable string candidate dictionary stored in the syllable string candidate dictionary database 5 (for example, the same syllable / vowel having the same number of single syllables). A syllable string candidate that matches the condition such as being in the same position is selected (step ST7). The syllable candidate selector 4 regards an unrecognizable single syllable corresponding to “*” as an arbitrary character. Thereby, the syllable candidate selector 4 selects a syllable string candidate even if the recognition target syllable string includes a single syllable that could not be partially recognized.
さらに、音節候補選択器4は、メモリから各音節の音響パラメータを読み出し、認識対象音節列の音響パラメータと各々の音節列候補の音響モデルをマッチングさせて、認識対象音節列に最も対応する音節列候補を選択する。具体的には、認識対象音節列と各々の音節列候補についてスコアを演算し、最もスコアの高い音節列候補を再音節認識結果(最終認識結果)として選択する(ステップST8)。そして、表示装置6及びスピーカ7は、最終認識結果を出力する。
Further, the syllable candidate selector 4 reads out the acoustic parameters of each syllable from the memory, matches the acoustic parameters of the recognition target syllable string and the acoustic model of each syllable string candidate, and corresponds most to the recognition target syllable string. Select a candidate. Specifically, the score is calculated for the recognition target syllable string and each syllable string candidate, and the syllable string candidate with the highest score is selected as a re-syllable recognition result (final recognition result) (step ST8). Then, the display device 6 and the
以上のように、本発明の実施の形態に係る音声認識装置は、ユーザが発話した単音節とその認識結果が完全に一致していなくても、ユーザに単音節の連続的な発話を促すことができるため、見かけ上の誤認識を少なくして、音声入力速度を向上させることができる。 As described above, the speech recognition apparatus according to the embodiment of the present invention prompts the user to continuously speak single syllables even if the recognition result does not completely match the single syllable spoken by the user. Therefore, apparent misrecognition can be reduced and the voice input speed can be improved.
また、上記音声認識装置は、ステップST7以降の後処理においては、認識不可又は認識不完全の単音節を含んだ認識対象音節列から音節列候補を絞り込んだ後、再び同じ認識対象音節列の音響パラメータを用いて、認識対象音節列に対応する音節列候補を、最終的な認識結果として出力することができる。すなわち、認識結果である認識対象音節列と音節列候補辞書データベース5の音節列候補とを照合し、入力音声の絞り込みを行うことによって、単音節の認識が不可又は不完全であっても、高精度に認識対象音節列を認識することができる。
Further, in the post-processing after step ST7, the speech recognition apparatus narrows down syllable string candidates from recognition target syllable strings including unrecognizable or incompletely recognized single syllables, and then repeats the sound of the same recognition target syllable string. Using parameters, syllable string candidates corresponding to recognition target syllable strings can be output as final recognition results. That is, by comparing the recognition target syllable string that is the recognition result with the syllable string candidates in the syllable string
なお、本発明は、上述した実施の形態に限定されるものではなく、特許請求の範囲に記載された範囲内で設計上変更されたものについても適用可能である。 In addition, this invention is not limited to embodiment mentioned above, It can apply also about what was changed in design within the range described in the claim.
例えば、上述したステップST1からステップST8までの処理を実行する音声認識プログラムをコンピュータにインストールして、そのコンピュータに音声区間切出器2、単音節認識器3、音節候補選択器4、音節列候補辞書データベース5の機能を実行させてもよい。なお、上記コンピュータは、通信回線を介して伝送された音声認識プログラムをインストールしてもよいし、光ディスク、磁気ディスク、半導体メモリなどの記録媒体に記録された音声認識プログラムをインストールしてもよい。
For example, a speech recognition program for executing the processes from step ST1 to step ST8 described above is installed in a computer, and a
さらに、表示装置6は、“?”や“*”の代わりに他の記号、文字、キャラクターを表示してもよい。同様に、スピーカ7は、“はい”の代わりに、相づちのような情報、例えば“えー”などの他の合成音声を出力してもよい。
Further, the display device 6 may display other symbols, characters, and characters instead of “?” Or “*”. Similarly, instead of “Yes”, the
1 マイク
2 音声区間切出器
3 単音節認識器
4 音節候補選択器
5 音節列候補辞書データベース
6 表示装置
7 スピーカ
1
Claims (7)
前記音声入力手段により入力された音声を音節毎に認識する音節認識手段と、
前記音節認識手段の認識結果の信頼度に応じた態様で前記音節の認識結果を出力する出力手段と、を備え、
前記出力手段は、前記認識結果の信頼度が認識不可を示す第1の閾値より低いときは、前記音節の認識結果として予め定められた情報を出力し、前記認識結果の信頼度が前記第1の閾値以上であり認識不完全を示す第2の閾値より低いときは、前記音節の認識結果として少なくとも前記音節の母音を出力する音声認識装置。 A voice input means for inputting voice uttered in syllable units;
Syllable recognition means for recognizing the voice input by the voice input means for each syllable;
Output means for outputting the recognition result of the syllable in a manner according to the reliability of the recognition result of the syllable recognition means ,
The output means outputs information predetermined as the recognition result of the syllable when the reliability of the recognition result is lower than a first threshold indicating that recognition is impossible, and the reliability of the recognition result is the first A speech recognition device that outputs at least a vowel of the syllable as a recognition result of the syllable when the threshold is lower than a second threshold that is not less than the second threshold and indicates incomplete recognition.
請求項1に記載の音声認識装置。 The output means is at least one of a sound output means for outputting sound and an image output means for outputting an image.
The speech recognition apparatus according to claim 1 .
前記音節列候補記憶手段に記憶された複数の音節列候補の中から、前記音節認識手段により認識された複数の音節で構成された音節列に最も対応する音節列候補を選択する選択手段と、を更に備えた
請求項1又は請求項2に記載の音声認識装置。 Syllable string candidate storage means for storing a plurality of syllable string candidates;
Selecting means for selecting a syllable string candidate most corresponding to a syllable string composed of a plurality of syllable strings recognized by the syllable recognition means from a plurality of syllable string candidates stored in the syllable string candidate storage means; The speech recognition apparatus according to claim 1, further comprising:
前記音節認識工程による認識結果の信頼度に応じた態様で前記音節の認識結果を出力する出力工程と、を備え
前記出力工程では、前記認識結果の信頼度が認識不可を示す第1の閾値より低いときは、前記音節の認識結果として予め定められた情報を出力し、前記認識結果の信頼度が前記第1の閾値以上であり認識不完全を示す第2の閾値より低いときは、前記音節の認識結果として少なくとも前記音節の母音を出力する音声認識方法。 A syllable recognition process for recognizing speech uttered in syllable units for each syllable;
And an output step of outputting a recognition result of the syllable in a manner that depends on the reliability of the recognition result of the syllable recognition step
In the output step, when the reliability of the recognition result is lower than a first threshold indicating that recognition is not possible, information predetermined as the recognition result of the syllable is output, and the reliability of the recognition result is the first reliability. A speech recognition method for outputting at least a vowel of the syllable as a recognition result of the syllable when the threshold is lower than a second threshold that indicates incomplete recognition.
請求項4に記載の音声認識方法。 In the output step, at least one of sound and image is output.
The speech recognition method according to claim 4 .
請求項4又は請求項5に記載の音声認識方法。 A selection step of selecting a syllable string candidate most corresponding to the syllable string composed of a plurality of syllable strings recognized in the syllable recognition process from a plurality of syllable string candidates.
The speech recognition method according to claim 4 or 5 .
音節単位で区切り発声された音声を入力する音声入力手段と、
前記音声入力手段により入力された音声を音節毎に認識する音節認識手段と、
前記音節認識手段の認識結果の信頼度に応じた態様で前記音節の認識結果を出力する出力手段と、して機能させ、
前記出力手段は、前記認識結果の信頼度が認識不可を示す第1の閾値より低いときは、前記音節の認識結果として予め定められた情報を出力し、前記認識結果の信頼度が前記第1の閾値以上であり認識不完全を示す第2の閾値より低いときは、前記音節の認識結果として少なくとも前記音節の母音を出力するように機能させる音声認識プログラム。 Computer
A voice input means for inputting voice uttered in syllable units;
Syllable recognition means for recognizing the voice input by the voice input means for each syllable;
Function as output means for outputting the recognition result of the syllable in a manner according to the reliability of the recognition result of the syllable recognition means ,
The output means outputs information predetermined as the recognition result of the syllable when the reliability of the recognition result is lower than a first threshold indicating that recognition is impossible, and the reliability of the recognition result is the first A speech recognition program that functions to output at least a vowel of the syllable as a recognition result of the syllable when the threshold is lower than a second threshold that indicates incomplete recognition.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003361646A JP4296290B2 (en) | 2003-10-22 | 2003-10-22 | Speech recognition apparatus, speech recognition method and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003361646A JP4296290B2 (en) | 2003-10-22 | 2003-10-22 | Speech recognition apparatus, speech recognition method and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005128130A JP2005128130A (en) | 2005-05-19 |
JP4296290B2 true JP4296290B2 (en) | 2009-07-15 |
Family
ID=34641522
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003361646A Expired - Fee Related JP4296290B2 (en) | 2003-10-22 | 2003-10-22 | Speech recognition apparatus, speech recognition method and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4296290B2 (en) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4757599B2 (en) * | 2005-10-13 | 2011-08-24 | 日本電気株式会社 | Speech recognition system, speech recognition method and program |
JP5046902B2 (en) * | 2007-12-13 | 2012-10-10 | 三菱電機株式会社 | Voice search device |
JP5160594B2 (en) * | 2010-06-17 | 2013-03-13 | 株式会社エヌ・ティ・ティ・ドコモ | Speech recognition apparatus and speech recognition method |
JP6457353B2 (en) * | 2015-08-21 | 2019-01-23 | 日本電信電話株式会社 | Speech recognition result editing apparatus, speech recognition result editing method, program |
KR101819457B1 (en) * | 2016-08-17 | 2018-01-17 | 주식회사 소리자바 | Voice recognition apparatus and system |
WO2019003350A1 (en) * | 2017-06-28 | 2019-01-03 | ヤマハ株式会社 | Singing sound generation device, method and program |
JP6818082B2 (en) * | 2019-05-17 | 2021-01-20 | 日本放送協会 | Speech recognition device, recognition result output control device, and program |
-
2003
- 2003-10-22 JP JP2003361646A patent/JP4296290B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2005128130A (en) | 2005-05-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102246943B1 (en) | Method of multilingual text-to-speech synthesis | |
US8595004B2 (en) | Pronunciation variation rule extraction apparatus, pronunciation variation rule extraction method, and pronunciation variation rule extraction program | |
US7401018B2 (en) | Foreign language learning apparatus, foreign language learning method, and medium | |
US6910012B2 (en) | Method and system for speech recognition using phonetically similar word alternatives | |
US7983912B2 (en) | Apparatus, method, and computer program product for correcting a misrecognized utterance using a whole or a partial re-utterance | |
US20090138266A1 (en) | Apparatus, method, and computer program product for recognizing speech | |
US20070239455A1 (en) | Method and system for managing pronunciation dictionaries in a speech application | |
JP4729902B2 (en) | Spoken dialogue system | |
US20050165602A1 (en) | System and method for accented modification of a language model | |
JP2008209717A (en) | Device, method and program for processing inputted speech | |
JP2003022087A (en) | Voice recognition method | |
US20080154591A1 (en) | Audio Recognition System For Generating Response Audio by Using Audio Data Extracted | |
EP4285358B1 (en) | Instantaneous learning in text-to-speech during dialog | |
US20090220926A1 (en) | System and Method for Correcting Speech | |
KR20160122542A (en) | Method and apparatus for measuring pronounciation similarity | |
JP2009251199A (en) | Speech synthesis device, method and program | |
US20170270923A1 (en) | Voice processing device and voice processing method | |
JP2010078877A (en) | Speech recognition device, speech recognition method, and speech recognition program | |
JP4296290B2 (en) | Speech recognition apparatus, speech recognition method and program | |
CN113112996A (en) | System and method for speech-based audio and text alignment | |
JP2008026721A (en) | Speech recognizer, speech recognition method, and program for speech recognition | |
EP0987681B1 (en) | Speech recognition method and apparatus | |
US9928832B2 (en) | Method and apparatus for classifying lexical stress | |
US8024191B2 (en) | System and method of word lattice augmentation using a pre/post vocalic consonant distinction | |
JP2001188556A (en) | Method and device for voice recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060719 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20081201 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20081216 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090212 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090310 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090323 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120424 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120424 Year of fee payment: 3 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313532 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120424 Year of fee payment: 3 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |