JP2006184421A - Speech recognition device and speech recognition method - Google Patents
Speech recognition device and speech recognition method Download PDFInfo
- Publication number
- JP2006184421A JP2006184421A JP2004376211A JP2004376211A JP2006184421A JP 2006184421 A JP2006184421 A JP 2006184421A JP 2004376211 A JP2004376211 A JP 2004376211A JP 2004376211 A JP2004376211 A JP 2004376211A JP 2006184421 A JP2006184421 A JP 2006184421A
- Authority
- JP
- Japan
- Prior art keywords
- recognition
- speech
- vocabulary
- syllable
- speech recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Abstract
Description
本発明は音声認識装置及び音声認識方法に関する。 The present invention relates to a voice recognition device and a voice recognition method.
昨今、操作者の発話情報を認識して情報入力を行う音声インタフェース手法が数多く提案されている。これは、いちいち、手でスイッチを操作する手間を軽減できる方法として注目されており、特に、情報検索操作(名称検索や電話番号検索等)に威力を発揮する。 Recently, many voice interface methods for recognizing operator's utterance information and inputting information have been proposed. This is attracting attention as a method that can reduce the trouble of manually operating the switch, and is particularly effective for information search operations (name search, telephone number search, etc.).
音声インタフェースを実現するには、一般に、認識可能な語彙を辞書としてシステムに登録しておき、発話された情報と当該辞書の内容を照合し、最も尤度が高い言葉を1つ特定することによって行う。この時、用意された全ての語彙との照合処理を行う為、辞書の容量が増加すると、照合に要する時間が増加するという問題が生じる。これは、認識辞書を、CD−ROMやDVDのような外部記憶装置に保持しているため、辞書の読み出し時間が長くかかるためである。もちろん、語彙数が増加すれば、照合自体に要する時間も長くなる。一般に、数百語レベルの辞書であれば、照合処理は1秒以内に終了するが、1万語を超える辞書サイズになると、場合によっては数秒オーダの処理時間を要する場合もある。このような場合、発話を完了してから認識結果が出力されるまでに時間がかかるため、インタフェースのテンポが阻害され、不自然なインタフェースになってしまう可能性がある。 In order to realize a voice interface, generally, a recognizable vocabulary is registered in the system as a dictionary, and the spoken information is compared with the contents of the dictionary to identify one word with the highest likelihood. Do. At this time, since collation processing with all prepared vocabularies is performed, if the capacity of the dictionary increases, there arises a problem that the time required for collation increases. This is because the recognition dictionary is held in an external storage device such as a CD-ROM or DVD, and it takes a long time to read the dictionary. Of course, as the number of vocabularies increases, the time required for collation itself increases. In general, in the case of a dictionary having a level of several hundred words, the collation process is completed within one second. However, when the dictionary size exceeds 10,000 words, a processing time on the order of several seconds may be required in some cases. In such a case, since it takes time until the recognition result is output after the utterance is completed, there is a possibility that the interface tempo is hindered and the interface becomes unnatural.
従来技術においては、上記の、音声認識のための照合処理に数秒オーダの処理時間を要する場合もあり、不自然なインタフェースになってしまうという問題点に対応した発明として、例えば下記特許文献1に記載されているように、よく使われる語彙は高速アクセス可能な場所に格納し、使用頻度が低い語彙は、アクセス速度が低い場所に格納することを特徴とする音声認識システムが提案されている。
In the prior art, the above-described collation processing for speech recognition may require a processing time on the order of a few seconds, and as an invention corresponding to the problem of an unnatural interface, for example, in
しかしながら、このような方法によると、語彙の使用頻度を予め分析しておく必要がある。一般に、情報検索を行う場合、検索される情報の頻度を予測するのは困難で、一般には何らかの制約条件をかけざるを得ない。例えば、神奈川県にいる時は、神奈川県の情報を検素する可能性が高いから、その情報は、高遠にアクセスできる場所に格納する、という具合である。このような制約をかけてしまうと、操作者の意図と外れると使い勝手が悪くなり、インタフェースとしての使用感が悪化するという問題が生じる。大量の語彙の情報検索は、できるだけフラットに行えるのが望ましい。 However, according to such a method, it is necessary to analyze in advance the vocabulary usage frequency. In general, when performing an information search, it is difficult to predict the frequency of information to be searched, and in general, some constraints must be imposed. For example, when you are in Kanagawa Prefecture, there is a high possibility that the information of Kanagawa Prefecture will be checked, so that information is stored in a place that can be accessed at a high distance. If such a restriction is applied, there is a problem that if the operator's intention is not satisfied, the usability is deteriorated and the usability as an interface is deteriorated. It is desirable that information retrieval of a large amount of vocabulary can be performed as flat as possible.
本発明は、このような問題点に着目してなされたものであり、本発明が解決しようとする課題は、認識のための音声が入力されてから短時間内に、音声認識処理を終えて、音声入力された語彙を特定する音声認識装置及び音声認識方法を提供することにある。 The present invention has been made paying attention to such problems, and the problem to be solved by the present invention is to finish the speech recognition processing within a short time after the speech for recognition is input. Another object of the present invention is to provide a speech recognition apparatus and speech recognition method for specifying a vocabulary inputted by speech.
語彙が音声として入力された時に、入力された音声を音声信号に変換し、該音声信号における語頭の1音節及び語尾の1音節の一方のみまたは両方を認識し、その認識の結果を用いて認識対象語彙の範囲を絞込み、絞込まれた範囲内の認識対象語彙を用いて上記音声信号における語彙すなわち入力語彙の認識を行う音声認識装置を構成する。ここで、「認識対象語彙」は、音声入力された語彙と一致する可能性がある語彙を意味する。 When a vocabulary is input as speech, it converts the input speech into a speech signal, recognizes only one or both of the first syllable and the last syllable in the speech signal, and recognizes using the recognition result A speech recognition device that narrows down the range of the target vocabulary and recognizes the vocabulary in the speech signal, that is, the input vocabulary, using the recognition target vocabulary within the narrowed down range is configured. Here, the “recognition target vocabulary” means a vocabulary that may match the vocabulary input by voice.
本発明の実施によって、認識のための音声が入力されてから短時間内に、音声認識処理を終えて、音声入力された語彙を特定する音声認識装置及び音声認識方法を提供することが可能となる。 By implementing the present invention, it is possible to provide a speech recognition device and a speech recognition method for identifying a vocabulary input by speech after finishing speech recognition processing within a short period of time after speech for recognition is input. Become.
本発明に係る音声認識装置及び音声認識方法の特徴は、発話された言葉の語頭と語尾の一方あるいは両方における1音節を認識し、その結果に基づいて、認識対象語彙を絞込み、その後発話全体に照合処理を行って、語彙を特定するものである。 The features of the speech recognition apparatus and speech recognition method according to the present invention are to recognize one syllable in one or both of the beginning and the end of a spoken word, narrow down the recognition target vocabulary based on the result, and then to the entire utterance. A collation process is performed to specify the vocabulary.
以下に、実施の形態例によって、本発明を詳細に説明する。 Hereinafter, the present invention will be described in detail by way of embodiments.
(第1実施の形態例)
本実施の形態例は、本発明を、車両用ナビゲーションシステムの施設検索に適用したものである。以下、図面に基づいて、本発明の内容を説明する。
(First embodiment)
In this embodiment, the present invention is applied to facility search of a vehicle navigation system. Hereinafter, the contents of the present invention will be described with reference to the drawings.
本実施の形態例はステアリングに設置され、図1に示すように、以下の構成要素を有する音声認識装置である。すなわち、本実施の形態例は、音声入力開始を指示する音声入力開始指示手段101と、マイクロフォン等を構成要素とする、入力音声を音声信号に変換して出力する音声入力手段102と、音声入力手段102によって変換された音声信号における語頭の1音節と語尾の1音節とを認識することが可能な語頭・語尾音声認識手段103と、上記音声信号における語彙の認識を行う単語音声認識手段104と、認識対象語彙が展開された音声認識用辞書105と、認識対象語彙が格納された音声認識用情報データベース106と、音声や画面表示による応答出力を生成する応答生成手段107と、応答出力としてテキスト情報や地図情報をモニタに出力する視覚情報表示手段108と、応答出力として、生成した応答文を出力する聴覚情報提示手段109と、入力した内容に応じてナビゲーションシステムを制御するナヒゲーションシステム制御手段110と、語頭・語尾音声認識手段103が認識した語頭の1音節及び語尾の1音節の一方または両方を用いて認識対象語彙の範囲を絞込む語彙絞込み手段111とを有する。
The present embodiment is a voice recognition device that is installed on a steering wheel and has the following components as shown in FIG. That is, the present embodiment includes a voice input start instructing
本実施の形態例は、車両に設置されたナビゲーションシステムを音声で操作することができる音声入力装置である。ここでは、音声で施設名検索を行う場合を例にあげ、本発明に係る音声入力装置の動作を説明する。 The present embodiment is a voice input device that can operate a navigation system installed in a vehicle by voice. Here, the operation of the voice input device according to the present invention will be described by taking as an example the case of performing facility name search by voice.
以下、作用の流れを、図2に示したフローチャートと対応付けて説明する。
(a)音声入力開始指示手段101は、車両のステアリングホイールに設置される。これは、音声入力の開始指示のために利用される。
(b)音声入力手段102として、マイクロフォンが、車両のルームミラー近傍、あるいは、ステアリングコラム等、ドライバの口元に近接した位置に設置される。
(c)音声入力開始指示手段101の音声入力開始ボタンを押すと、音声入力手段102が起動し、発話入力可能状態に遷移する(S201)。この時、聴覚情報提示手段109から、「ご用件をどうぞ」のように、発話を促すガイダンス音声が出力される(S202)。同時に、視覚情報表示手段108を通し、モニタ画面に、音声入力を促す表示が出力される。この時、音声認識用辞書105には、音声認識用情報データベース106から認識対象語彙が転送、セットされる。
(d)「ご用件をどうぞ」のガイダンス音声の後ビープ音が出力され、当該ビープ音が終了すると、音声入力待ち受け状態となる。この時、画面には音声入力可能であることを示すアイコンが表示される。ここで、操作者は、「施設検索」というコマンドを発話する(S203)。
(e)使用者の「施設検索」という発話は、音声入力手段102に入力され、音声入力手段102によって音声信号に変換され、該音声信号は単語音声認識手段104によって、音声認識用辞書105と照合され、「施設検索」というコマンドが認識される(S204)。
(f)聴覚情報提示手段109から、「施設名をどうぞ」というガイダンス音声が出力される(S205)。同時に、視覚情報表示手段108を通し、モニタ画面に、施設名称入力を促す表示が出力される。この時、音声認識用辞書105には、50音の1文字データがセットされる。
(g)「施設名をどうぞ」のガイダンス音声の後ビープ音が出力され、当該ビープ音が終了すると、音声入力待ち受け状態となる。この時、画面には音声入力可能であることを示すアイコンが表示される。ここで、操作者は、「東京ディズニーランド」という施設名称を発話する(S206)。この発話情報(操作者の発話が、音声入力手段102によって、音声信号に変換されたものを含む)は、一時記憶される。
(h)語頭・語尾音声認識手段103において、発話された文言の語頭と語尾の各1音節が認識される。本例の場合、語頭が「と」、語尾が「ど」と認識される(S207)。
(i)音声認識用情報データベース106に格納された施設名情報の語頭が「と」、語尾が「ど」である情報が選択され(S207)、語彙絞込み手段111によって、語頭が「と」、語尾が「ど」であるという絞込み条件の下で、語彙範囲の絞込みが行われ、絞込まれた範囲内にある、音声認識用情報データベース106に格納された施設名が、認識対象語彙として、音声認識用辞書105に転送、セットされる。これによって、認識対象語彙の絞込みが行われる(S208)。
(j)単語音声認識手段104において、先に(g)で発話された情報の認識処理が実行され、入力音声信号における語彙「東京ディズニーランド」が認識される(S209)。この時の認識は、一時記憶されている発話情報(入力音声信号)を、音声認識用辞書105に転送されている、語頭が「と」、語尾が「ど」である語彙(絞込み後の認識対象語彙)と照合することによって行われる。このように、すでに、語頭・語尾音声認識手段103によって、語頭・語尾音声認識されている入力音声信号は、再び認識処理される。
(k)聴覚情報提示手段109から、「東京ディズニーランドを検索します」というガイダンス音声が出力され(S210)、検索された当該地点の地図が、視覚情報表示手段108を通し、モニタ画面に表示される。
(l)その後、画面の指示に従い、「表示された地点を登録する」、「そこを目的地に設定する」等の操作を行うことができる。これは、ナビゲーションシステム制御手段110によって行われる。この時、東京ディズニーランドの地図表示を行い(S211)、上記の操作を実行する(S212)。
Hereinafter, the flow of action will be described in association with the flowchart shown in FIG.
(A) The voice input
(B) As the
(C) When the voice input start button of the voice input start instructing
(D) A beep sound is output after the guidance message “Please give me a request”, and when the beep sound ends, a voice input standby state is entered. At this time, an icon indicating that voice input is possible is displayed on the screen. Here, the operator utters the command “facility search” (S203).
(E) The user's utterance “facility search” is input to the voice input means 102, converted into a voice signal by the voice input means 102, and the voice signal is converted to the
(F) A guidance voice “Please name the facility” is output from the auditory information presentation unit 109 (S205). At the same time, through the visual information display means 108, a display prompting the facility name input is output on the monitor screen. At this time, one character data of 50 sounds is set in the
(G) A beep sound is output after the guidance sound “Please name the facility”, and when the beep sound ends, a voice input standby state is entered. At this time, an icon indicating that voice input is possible is displayed on the screen. Here, the operator speaks the facility name “Tokyo Disneyland” (S206). This utterance information (including the utterance of the operator converted into an audio signal by the audio input means 102) is temporarily stored.
(H) The beginning / ending speech recognition means 103 recognizes one syllable of each of the beginning and end of the spoken word. In this example, the beginning of the word is recognized as “to” and the end of the word is recognized as “do” (S207).
(I) Information whose facility name information stored in the speech
(J) In the word speech recognition means 104, recognition processing of the information previously spoken in (g) is executed, and the vocabulary “Tokyo Disneyland” in the input speech signal is recognized (S209). At this time, the utterance information (input speech signal) temporarily stored is transferred to the
(K) The guidance information “Search for Tokyo Disneyland” is output from the auditory information presentation means 109 (S210), and the map of the searched point is displayed on the monitor screen through the visual information display means 108. The
(L) Thereafter, according to the instructions on the screen, operations such as “register the displayed point” and “set it as the destination” can be performed. This is performed by the navigation system control means 110. At this time, a map of Tokyo Disneyland is displayed (S211), and the above operation is executed (S212).
上記においては、語頭の1音節と語尾の1音節とを認識し、その両方を用いて語彙絞込みを行ったが、語頭の1音節のみ、もしくは語尾の1音節のみを認識し、それを用いて語彙絞込みを行ってもよい。その場合、1音節認識処理の負担をより小さくすることができる。但し、その後の認識対象語彙の数が、より多くなる可能性もあるため、認識対象語彙の総数を勘案して、語頭と語尾の双方を認識してそれらを語彙絞込みに用いる、語頭のみを認識してそれを語彙絞込みに用いる、語尾のみを認識してそれを語彙絞込みに用いる、のいずれにするかを決定すればよい。すなわち、語頭・語尾音声認識手段103が上記音声信号における語頭の1音節及び語尾の1音節の一方のみを認識した結果を用いて、語彙絞込み手段111が絞込んだ範囲内の認識対象語彙の個数が、あらかじめ定められた個数を超えている時に、記語頭・語尾音声認識手段103は、上記音声信号における語頭の1音節及び語尾の1音節の他方をも認識し、該認識の結果をも用いて、語彙絞込み手段111が認識対象語彙の範囲をさらに絞込むようにすればよい。 In the above, one syllable at the beginning of the word and one syllable at the end of the word are recognized, and both are used to narrow down the vocabulary. You may narrow down the vocabulary. In that case, the burden of the one syllable recognition process can be further reduced. However, there is a possibility that the number of vocabulary to be recognized after that may increase, so that the total number of recognition vocabularies is taken into account and both the beginning and ending are recognized and used for narrowing down the vocabulary only. Then, it may be determined whether to use it for narrowing the vocabulary or to recognize only the ending and use it for narrowing the vocabulary. That is, the number of words to be recognized within the range narrowed down by the vocabulary narrowing means 111 using the result of the recognition of only one of the initial syllable and the ending syllable of the speech signal in the speech signal. However, when the number exceeds the predetermined number, the initial / ending speech recognition means 103 recognizes the other one of the initial syllable and the final syllable in the speech signal, and also uses the result of the recognition. Thus, the vocabulary narrowing means 111 may narrow down the range of the recognition target vocabulary.
また、本実施の形態例では、施設名称を認識する際、語頭や語尾の音節を認識したが、これは、「施設検索」というコマンド発話時に適用してもよい。その場合、認識対象コマンドの数が少なければ、語頭や語尾の音を認識するだけで、コマンドが唯1つに絞込まれる場合もあり、そのような場合、認識処理の高速化が実現可能である。また、施設名称の入力を、操作者が音声以外の入力方法(例えば、キー操作による選択)でおこなってもよい。 In this embodiment, the syllable at the beginning or the end of the word is recognized when the facility name is recognized. However, this may be applied at the time of command utterance of “facility search”. In that case, if the number of commands to be recognized is small, the command may be narrowed down to just one by recognizing the sound at the beginning or end of the word. In such a case, the recognition process can be speeded up. is there. In addition, the facility name may be input by an operator using an input method other than voice (for example, selection by key operation).
また、施設名称の入力は、語彙絞込みの後、単語音声認識手段104による音声認識の前に行われてもよい。 The facility name may be input after the vocabulary is narrowed down and before the speech recognition by the word speech recognition means 104.
なお、上記においては、語頭・語尾音声認識手段103が音節認識を行う前((h)の前)に、カテゴリ分類による認識対象語彙の範囲の絞込みである、認識対象語彙の範囲を施設名称に限る範囲の絞込み((c)〜(e))を行っているが、このようなカテゴリ分類による認識対象語彙の範囲の絞込みは、語頭・語尾音声認識手段103が音節認識を行った後((h)の後)、単語音声認識手段104が語彙の認識を始める前((j)の前)に行ってもよい。 In the above, the recognition target vocabulary range, which is the narrowing down of the recognition target vocabulary range by category classification, is used as the facility name before the beginning / ending speech recognition means 103 performs syllable recognition (before (h)). The limited range is narrowed down ((c) to (e)), but the range of the recognition target vocabulary by such category classification is narrowed down after the syllable recognition is performed by the beginning / ending speech recognition means 103 (( After h), it may be performed before the word speech recognition means 104 starts vocabulary recognition (before (j)).
以上に説明したように、本実施の形態においては、発話された語彙における語頭の1音節と語尾の1音節との一方または両方のみを認識し、その結果に基づいて、候補となる語彙を絞込み、再度認識処理を行って、結果を特定する。 As described above, in the present embodiment, only one or both of the first syllable and the last syllable in the spoken vocabulary are recognized, and the candidate vocabulary is narrowed down based on the result. The recognition process is performed again, and the result is specified.
この方法により、認識対象語彙が多数あっても、絞込み後の候補との照合を行うだけで足りるので、認識を短時間で行うことができる。すなわち、認識のための音声が入力されてから短時間内に、照合処理を終えて、発話された語彙を特定することができる。 According to this method, even if there are a large number of recognition target words, it is sufficient to perform collation with the candidates after narrowing down, so that recognition can be performed in a short time. That is, it is possible to specify the spoken vocabulary by completing the collation process within a short time after the input of recognition speech.
また、ディスク等の外部記憶装置から語彙を読み出す際、絞込んだ語彙のみ読み出せばよいため、読み出し時間も短くできる。 In addition, when reading a vocabulary from an external storage device such as a disk, only the narrowed vocabulary needs to be read, so that the reading time can be shortened.
また、上記の構成にしたため、認識対象語彙を展開するメモリ容量が小さくて済む、という効果が得られる。 In addition, since the above configuration is used, an effect that a memory capacity for expanding the recognition target vocabulary is small can be obtained.
また、語頭・語尾の1音節の認識は、1つの語の語頭・語尾以外の1音節の認識よりも容易であり、これによって、確度高い音声認識が可能となる。 Also, recognition of one syllable at the beginning / end of the word is easier than recognition of one syllable other than the beginning / end of one word, thereby enabling highly accurate speech recognition.
(第2実施の形態例)
本実施の形態例は、本発明を、車両用ナビゲーションシステムの施設検索に適用したものである。以下、図面に基づいて、本発明の内容を説明する。
(Second embodiment)
In this embodiment, the present invention is applied to facility search of a vehicle navigation system. Hereinafter, the contents of the present invention will be described with reference to the drawings.
本実施の形態例はステアリングに設置され、図3に示すように、以下の構成要素を有する音声認識装置である。すなわち、本音声認識装置は、音声入力開始を指示する音声入力開始指示手段301と、マイクロフォン等を構成要素とする、音声入力を音声信号に変換して出力する音声入力手段302と、音声入力手段302によって変換された音声信号における語頭の1音節と語尾の1音節とを認識することが可能な語頭・語尾音声認識手段303と、上記音声信号における語彙の認識を行う単語音声認識手段304と、認識対象語彙が展開された音声認識用辞書305と、語頭・語尾1音節の認識結果の確からしさを算出する認識確からしさ分析手段306と、認識対象語彙が格納された音声認識用情報データベース307と、音声や画面表示による応答出力を生成する応答生成手段308と、応答出力としてテキスト情報や地図情報をモニタに出力する視覚情報表示手段309と、応答出力として、生成した応答文を出力する聴覚情報提示手段310と、入力した内容に応じてナビゲーションシステムを制御するナビゲーションシステム制御手段311と、語頭・語尾音声認識手段303が認識した語頭の1音節及び語尾の1音節の一方または両方を用いて認識対象語彙の範囲を絞込む語彙絞込み手段312を有する。
The present embodiment is a voice recognition device that is installed in a steering and has the following components as shown in FIG. That is, the speech recognition apparatus includes a speech input start instructing
認識確からしさ分析手段306が算出する語頭・語尾1音節の認識結果の確からしさの一例としては、認識尤度がある。認識尤度は、例えば、入力発話波形と照合音節波形とのパターンマッチングの度合い、すなわち、両波形の間の相関係数の絶対値として定義する。この場合に、両波形の間の相関係数は、それぞれの波形をf(t)、g(t)(tは時間)とし、S(x)を、両波形が存在する時間区間において、xを時間tに関して積分して得る値とした時に、
S(f(t)・g(t))/[(S(f(t)2)・S(g(t)2)]1/2
として定義される。この認識尤度は、両波形が同一の場合(kを定数として、f(t)=k・g(t)と表される場合)に1となり、両波形の類似性が低くなるほど小さな値となる。
An example of the likelihood of the recognition result of the first ending / ending syllable calculated by the recognition
S (f (t) · g (t)) / [(S (f (t) 2 ) · S (g (t) 2 )] 1/2
Is defined as This recognition likelihood is 1 when both waveforms are the same (when k is a constant and expressed as f (t) = k · g (t)), and the recognition likelihood becomes smaller as the similarity between both waveforms is lower. Become.
本実施の形態例は、車両に設置されたナビゲーションシステムを音声で操作することができる音声入力装置である。ここでは、音声で施設名検索を行う場合を例にあげ、本発明の動作を説明する。以下、作用の流れを、図4のフローチャートと対応付けて説明する。
(a)音声入力開始手段301は、車両のステアリングホイールに設置される。これは、音声入力の開始や、キャンセル操作を指示するために利用される。
(b)音声入力手段302として、マイクロフォンが、車両のルームミラー近傍、あるいは、ステアリングコラム等、ドライバの口元に近接した位置に設置される。
(c)音声入力開始手段301の音声入力開始ボタンを押すと、音声入力手段302が起動し、発話入力可能状態に遷移する(S401)。この時、聴覚情報提示手段310から、「ご用件をどうぞ」のように、発話を促すガイダンス音声が出力される(S402)。同時に、視覚情報表示手段(309)を通し、モニタ画面に、音声入力を促す表示が出力される。この時、音声認識用辞書305には、音声認識用情報データベース307から認識対象語彙が転送、セットされる。
(d)「ご用件をどうぞ」のガイダンス音声の後ビープ音が出力され、当該ビープ音が終了すると、音声入力待ち受け状態となる。この時、画面には音声入力可能であることを示すアイコンが表示される。ここで、操作者は、「施設検索」というコマンドを発話する(S403)。
(e)使用者の発話は、音声入力手段302を通して、音声信号として単語音声認識手段304に入力され、単語音声認識手段304によって、音声認識用辞書305と照合され、「施設検索」というコマンドが認識される(S404)。
(f)「施設名をどうぞ」のガイダンス音声の後ビーブ音が出力され、当該ビーブ音が終了すると、音声入力待ち受け状態となる(S405)。この時、画面には音声入力可能であることを示すアイコンが表示される。ここで、操作者は、「東京ディズニーランド」という施設名称を発話する(S406)。この発話情報は、一時記憶される。
(g)語頭・語尾音声認識手段303において、発話され音声入力手段302によって音声信号に変換された文言の語頭と語尾の各1音節が認識される。本例の場合、語頭が「と」、語尾が「ど」と認識される(S407)。
(h)この時、認識確からしさ分析手段(306)において、まず、前記語頭・語尾の各1音節の認識結果の確からしさが算出される。本例で、語頭の1音節の認識確からしさがA、語尾の1音節の認識確からしさがBと算出されたとする。ここで、確からしさとは、音声認識のための照合処理を行う際、辞書として用意された言葉と、入力された言葉の近さを示す尺度である。本例の場合、値が大きいほど、認識結果が確からしいものとする、認識確からしさ分析手段(306)において、次に、あらかじめ定められた基準である、確からしさの閾値TとA、Bの大小関係が分析される(S408)。
The present embodiment is a voice input device that can operate a navigation system installed in a vehicle by voice. Here, the operation of the present invention will be described by taking the case of performing facility name search by voice as an example. Hereinafter, the flow of action will be described in association with the flowchart of FIG.
(A) The voice input start means 301 is installed on the steering wheel of the vehicle. This is used to start voice input or instruct a cancel operation.
(B) As the voice input means 302, a microphone is installed in the vicinity of the driver's mouth, such as in the vicinity of a vehicle rearview mirror or a steering column.
(C) When the voice input start button of the voice
(D) A beep sound is output after the guidance message “Please give me a request”, and when the beep sound ends, a voice input standby state is entered. At this time, an icon indicating that voice input is possible is displayed on the screen. Here, the operator utters a command “facility search” (S403).
(E) The user's utterance is input to the word
(F) After the guidance sound “Please name the facility” is output, a beep sound is output, and when the beep sound ends, a voice input standby state is entered (S405). At this time, an icon indicating that voice input is possible is displayed on the screen. Here, the operator speaks the facility name “Tokyo Disneyland” (S406). This utterance information is temporarily stored.
(G) The beginning / end
(H) At this time, in the recognition probability analysis means (306), first, the probability of the recognition result of each one syllable of the beginning and ending is calculated. In this example, it is assumed that the recognition probability of one syllable at the beginning of a word is calculated as A and the recognition probability of one syllable at the end of a word is calculated as B. Here, the certainty is a scale indicating the closeness of words prepared as a dictionary and input words when collation processing for speech recognition is performed. In this example, the recognition probability analysis means (306) assumes that the larger the value, the more likely the recognition result is. Then, in the recognition probability analysis means (306), the thresholds T and A, B of the certainty, which are predetermined criteria, are set. The magnitude relationship is analyzed (S408).
A≧TかつB≧Tの時(S409)
語彙絞込み手段111によって、音声認識用情報データベース307に格納された施設名情報の語頭が「と」、かつ語尾が「ど」である情報のみが選択され、音声認識用辞書305に転送、セットされる。すなわち認識対象語彙の絞込みがおこなわれる(S413)。
When A ≧ T and B ≧ T (S409)
By the vocabulary narrowing means 111, only the information whose facility name information stored in the speech
A≧TかつB<Tの時(S410)
語彙絞込み手段111によって、音声認識用情報データベース307に格納された施設名情報の語頭が「と」である情報のみが選択され、音声認識用辞書305に転送、セットされる。すなわち認識対象語彙の絞込みがおこなわれる(S413)。
When A ≧ T and B <T (S410)
The vocabulary narrowing means 111 selects only information whose facility name information stored in the speech
A<TかつB≧Tの時(S411)
語彙絞込み手段111によって、音声認識用情報データベース307に格納された施設名情報の語尾が「ど」である情報のみが選択され、音声認識用辞書305に転送、セットされる。すなわち認識対象語彙の絞込みがおこなわれる(S413)。
When A <T and B ≧ T (S411)
The vocabulary narrowing means 111 selects only information whose facility name information stored in the speech
A<TかつB<Tの時(S412)
再発話を促す。すなわち、「もう1度お話しください」と応答音声出力をして、(f)の音声入力待ち受け状態となる(S405)。
(i)S412以外の場合には、単語音声認識手段304において、先に(f)で発話された情報が、(h)で設定した辞書と照合され、「東京ディズニーランド」が認識される(S414)。
(j)聴覚情報提示手段310から、「東京ディズニーランドを検索します」というガイダンス音声が出力され(S415)、検索された当該地点の地図が、視覚情報表示手段309を通し、モニタ画面に表示される(S416)。
(k)その後、画面の指示に従い、「表示された地点を登録する」、「そこを目的地に設定する」等の操作を行うことができる(S417)。これは、ナビゲーションシステム制御手段311によって行われる。
When A <T and B <T (S412)
Encourage recurrence. That is, a response voice output saying "Please speak again" is made, and the voice input standby state of (f) is entered (S405).
(I) In cases other than S412, the word
(J) The guidance information “Search for Tokyo Disneyland” is output from the auditory information presentation means 310 (S415), and the map of the searched point is displayed on the monitor screen through the visual information display means 309. (S416).
(K) Thereafter, in accordance with the instructions on the screen, operations such as “register the displayed point” and “set it as the destination” can be performed (S417). This is performed by the navigation system control means 311.
以上に説明したように、本実施の形態においては、語頭・語尾の認識結果の確からしさに基づいて、認識対象語彙の絞込み範囲を変更する。具体的には、
(1)語頭・語尾の認識結果の確からしさが、ともに所定値以上の時、語頭・語尾両方の認識結果によって、認識対象語彙を絞込み、
(2)語頭の認識結果のみ、確からしさが所定値以上の時、語頭の認識結果によって、認識対象語彙を絞込み、
(3)語尾の認識結果のみ、確からしさが所定値以上の時、語尾の認識結果によって、認識対象語彙を絞込み、
(4)語頭・語尾の認識結果の確からしさが、ともに所定値未満の時、再発話を促す。
As described above, in the present embodiment, the narrowing range of the recognition target vocabulary is changed based on the probability of the recognition result of the beginning / ending of the word. In particular,
(1) When the accuracy of the recognition result of the beginning / ending of the word is more than a predetermined value, the recognition target vocabulary is narrowed down by the recognition result of both the beginning / ending of the word,
(2) Only when the initial recognition result is more than a certain value, the recognition target vocabulary is narrowed down by the initial recognition result.
(3) When only the ending recognition result is more than a predetermined value, the recognition target vocabulary is narrowed down by the ending recognition result,
(4) When the likelihood of the recognition result of the beginning / ending of the word is less than a predetermined value, re-speech is urged.
なお、上記においては、語頭・語尾音声認識手段303が音節認識を行う前((g)の前)に、カテゴリ分類による認識対象語彙の範囲の絞込みである、認識対象語彙の範囲を施設名称に限る範囲の絞込み((c)〜(e))を行っているが、このようなカテゴリ分類による認識対象語彙の範囲の絞込みは、語頭・語尾音声認識手段303が音節認識を行った後((g)の後)、単語音声認識手段304が語彙の認識を始める前((i)の前)に行ってもよい。 In the above description, the recognition target vocabulary range, which is the narrowing down of the recognition target vocabulary range by category classification, is used as the facility name before the beginning / ending speech recognition means 303 performs syllable recognition (before (g)). Although the limited range is narrowed down ((c) to (e)), the range of the recognition target vocabulary by such category classification is narrowed down after the syllable recognition by the beginning / ending speech recognition means 303 (( After g), it may be performed before the word speech recognition means 304 starts vocabulary recognition (before (i)).
以上に説明したように、本実施の形態においては、発話された語彙における語頭の1音節と語尾の1音節との一方または両方のみを認識し、その結果に基づいて、候補となる語彙を絞込み、再度認識処理を行って、結果を特定する。 As described above, in the present embodiment, only one or both of the first syllable and the last syllable in the spoken vocabulary are recognized, and the candidate vocabulary is narrowed down based on the result. The recognition process is performed again, and the result is specified.
この方法により、認識対象語彙が多数あっても、絞込み後の候補との照合を行うだけで足りるので、認識を短時間で行うことができる。すなわち、認識のための音声が入力されてから短時間内に、照合処理を終えて、発話された語彙を特定することができる。 According to this method, even if there are a large number of recognition target words, it is sufficient to perform collation with the candidates after narrowing down, so that recognition can be performed in a short time. That is, it is possible to specify the spoken vocabulary by completing the collation process within a short time after the input of recognition speech.
また、ディスク等の外部記憶装置から語彙を読み出す際、絞込んだ語彙のみ読み出せばいいため、読み出し時間も短くできる。 Further, when reading a vocabulary from an external storage device such as a disk, it is only necessary to read the narrowed vocabulary, so the reading time can be shortened.
また、上記の構成にしたため、認識対象語彙を展開するメモリ容量が小さくて済む、という効果が得られる。 In addition, since the above configuration is used, an effect that a memory capacity for expanding the recognition target vocabulary is small can be obtained.
また、語頭・語尾の1音節の認識は、1つの語の語頭・語尾以外の1音節の認識よりも容易であり、これによって、確度高い音声認識が可能となる。 Also, recognition of one syllable at the beginning / end of the word is easier than recognition of one syllable other than the beginning / end of one word, thereby enabling highly accurate speech recognition.
さらに、本実施の形態においては、語頭や語尾の認識結果の確からしさに応じて認識対象語彙を絞込むことができるため、操作者の発話状態に応じた語彙絞込みが可能となり、結果として認識性能を向上することができる(確信度が低い認識語彙を絞込み条件にかけて、間違えの可能性のある語彙に対して照合処理を実施せずに済む)という効果が得られる。例えば、誤った語頭や語尾の認識結果に基づいて、誤った絞込みを行う場合を排除することができる。 Furthermore, in the present embodiment, since the recognition target vocabulary can be narrowed down according to the probability of the recognition result of the beginning and ending of the word, it is possible to narrow down the vocabulary according to the utterance state of the operator, resulting in recognition performance. (There is no need to perform a collation process on a vocabulary that may be mistaken by using a recognition vocabulary with a low certainty as a narrowing-down condition). For example, it is possible to eliminate a case where an erroneous narrowing down is performed based on a recognition result of an erroneous head or tail.
請求項1ないし3に記載の音声認識装置の構成要件と請求項7に記載の音声認識方法の構成要件とは第1実施の形態例において満足され、請求項4ないし6に記載の音声認識装置の構成要件と請求項8に記載の音声認識方法の構成要件とは第2実施の形態例において満足されている。
The constituent requirements of the speech recognition apparatus according to
101:音声入力開始指示手段、102:音声入力手段、103:語頭・語尾音声認識手段、104:単語音声認識手段、105:音声認識用辞書、106:音声認識用情報データベース、107:応答生成手段、108:視覚情報表示手段、109:聴覚情報提示手段、110:ナヒゲーションシステム制御手段、111:語彙絞込み手段、301:音声入力開始指示手段、302:音声入力手段、303:語頭・語尾音声認識手段、304:単語音声認識手段、305:音声認識用辞書、306:認識確からしさ分析手段、307:音声認識用情報データベース、308:応答生成手段、309:視覚情報表示手段、310:聴覚情報提示手段、311:ナヒゲーションシステム制御手段、312:語彙絞込み手段。 101: voice input start instructing means, 102: voice input means, 103: beginning / ending voice recognition means, 104: word voice recognition means, 105: dictionary for voice recognition, 106: information database for voice recognition, 107: response generation means , 108: visual information display means, 109: auditory information presentation means, 110: navigation system control means, 111: vocabulary narrowing means, 301: voice input start instruction means, 302: voice input means, 303: head / end voice recognition Means 304: Word voice recognition means 305: Speech recognition dictionary 306: Recognition probability analysis means 307: Speech recognition information database 308: Response generation means 309: Visual information display means 310: Auditory information presentation Means, 311: Navigation system control means, 312: Vocabulary narrowing means.
Claims (8)
入力される音声を音声信号に変換して出力する音声入力手段と、該音声入力手段が出力する音声信号における語頭の1音節と語尾の1音節との少なくとも一方を認識することが可能な語頭・語尾音声認識手段と、該語頭・語尾音声認識手段における認識結果を用いて認識対象語彙の範囲を絞込む語彙絞込み手段と、該語彙絞込み手段によって絞込まれた範囲内の認識対象語彙を用いて上記音声信号における語彙の認識を行う単語音声認識手段とを有することを特徴とする音声認識装置。 In a speech recognition device that recognizes vocabulary input by speech,
A voice input means for converting the input voice into a voice signal and outputting it; and a head part capable of recognizing at least one of the first syllable and the last syllable in the voice signal outputted by the voice input means; Ending speech recognition means, vocabulary narrowing means for narrowing down the range of recognition target vocabulary using the recognition result in the beginning / ending speech recognition means, and the recognition target vocabulary within the range narrowed down by the vocabulary narrowing means A speech recognition apparatus comprising word speech recognition means for recognizing a vocabulary in the speech signal.
上記語頭・語尾音声認識手段は、上記音声信号における語頭の1音節及び語尾の1音節の一方のみまたは両方を認識することを特徴とする音声認識装置。 The speech recognition device according to claim 1,
The speech recognition apparatus according to claim 1, wherein the beginning / ending speech recognition means recognizes only one or both of one syllable at the beginning and one syllable at the end of the speech signal.
上記語頭・語尾音声認識手段が上記音声信号における語頭の1音節及び語尾の1音節の一方のみを認識した結果を用いて、上記語彙絞込み手段が絞込んだ範囲内の認識対象語彙の個数が、あらかじめ定められた個数を超えている時に、上記語頭・語尾音声認識手段は、上記音声信号における語頭の1音節及び語尾の1音節の他方をも認識し、該認識の結果をも用いて、上記語彙絞込み手段が認識対象語彙の範囲をさらに絞込むことを特徴とする音声認識装置。 The speech recognition device according to claim 2,
The number of words to be recognized within the range narrowed down by the vocabulary narrowing means is determined by using the result of the word / word ending speech recognition means recognizing only one of the first syllable and the last syllable in the speech signal. When the number exceeds a predetermined number, the beginning / ending speech recognition means recognizes the other one of the beginning and ending syllables in the speech signal, and also uses the recognition result to A speech recognition apparatus, characterized in that the vocabulary narrowing means further narrows down the range of the recognition target vocabulary.
入力される音声を音声信号に変換して出力する音声入力手段と、該音声入力手段が出力する音声信号における語頭の1音節と語尾の1音節との少なくとも一方を認識することが可能な語頭・語尾音声認識手段と、該語頭・語尾音声認識手段における、該語頭の1音節の認識結果の確からしさと該語尾の1音節の認識結果の確からしさとを算出する認識確からしさ分析手段と、算出された認識結果の確からしさが、あらかじめ定められた基準以上である、該語頭の1音節及び語尾の1音節の一方または両方を用いて認識対象語彙の範囲を絞込む語彙絞込み手段と、該語彙絞込み手段によって絞込まれた範囲内の認識対象語彙を用いて上記音声信号における語彙の認識を行う単語音声認識手段とを有することを特徴とする音声認識装置。 In a speech recognition device that recognizes vocabulary input as speech,
A voice input means for converting the input voice into a voice signal and outputting it; and a head part capable of recognizing at least one of the first syllable and the last syllable in the voice signal outputted by the voice input means; Ending speech recognition means, recognition probability analysis means for calculating the probability of the recognition result of one syllable at the beginning and the probability of the recognition result of one syllable at the ending in the beginning / ending speech recognition means, and Vocabulary narrowing means for narrowing the range of vocabulary to be recognized using one or both of one syllable at the beginning and one syllable at the end of which the certainty of the recognized recognition result is equal to or greater than a predetermined standard, and the vocabulary A speech recognition apparatus comprising: word speech recognition means for recognizing a vocabulary in the speech signal using a recognition target vocabulary within a range narrowed down by the narrowing-down means.
上記認識結果の確からしさは、該認識結果が得られる際の認識尤度であることを特徴とする音声認識装置。 The speech recognition apparatus according to claim 4,
The speech recognition apparatus characterized in that the probability of the recognition result is a recognition likelihood when the recognition result is obtained.
上記語頭・語尾音声認識手段が音節認識を行う前または行った後、上記単語音声認識手段が語彙の認識を始める前に、カテゴリ分類による認識対象語彙の範囲の絞込みを行うことを特徴とする音声認識装置。 The speech recognition device according to any one of claims 1 to 5,
A speech characterized by narrowing down the range of recognition target vocabulary by category classification before or after the beginning / ending speech recognition means performs syllable recognition and before the word speech recognition means starts to recognize words Recognition device.
入力される音声を音声信号に変換し、該音声信号における語頭の1音節及び語尾の1音節の一方または両方を認識し、該認識の結果を用いて認識対象語彙の範囲を絞込み、絞込まれた範囲内の認識対象語彙を用いて上記音声信号における語彙の認識を行うことを特徴とする音声認識方法。 In a speech recognition method for recognizing vocabulary input by speech,
The input speech is converted into a speech signal, one or both of the first syllable and the last syllable in the speech signal are recognized, and the range of the recognition target vocabulary is narrowed down by using the recognition result. A speech recognition method comprising: recognizing a vocabulary in the speech signal using a recognition target vocabulary within a predetermined range.
入力される音声を音声信号に変換し、該音声信号における語頭の1音節及び語尾の1音節の一方または両方を認識するとともに、認識結果の確からしさを算出し、算出された認識結果の確からしさが、あらかじめ定められた基準以上である、該語頭の1音節及び語尾の1音節の一方または両方を用いて認識対象語彙の範囲を絞込み、絞込まれた範囲内の認識対象語彙を用いて上記音声信号における語彙の認識を行うことを特徴とする音声認識方法。 In a speech recognition method for recognizing vocabulary input as speech,
The input speech is converted into a speech signal, and one or both of the first syllable and the last syllable of the speech signal are recognized, the probability of the recognition result is calculated, and the accuracy of the calculated recognition result is confirmed. Is narrowed down the range of the recognition target vocabulary by using one or both of the first syllable and the last syllable of the ending word that is equal to or more than a predetermined standard, and the above using the recognition target vocabulary within the narrowed range A speech recognition method characterized by recognizing a vocabulary in a speech signal.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004376211A JP2006184421A (en) | 2004-12-27 | 2004-12-27 | Speech recognition device and speech recognition method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004376211A JP2006184421A (en) | 2004-12-27 | 2004-12-27 | Speech recognition device and speech recognition method |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006184421A true JP2006184421A (en) | 2006-07-13 |
Family
ID=36737606
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004376211A Withdrawn JP2006184421A (en) | 2004-12-27 | 2004-12-27 | Speech recognition device and speech recognition method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2006184421A (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10689299B2 (en) | 2014-09-24 | 2020-06-23 | Rolls-Royce Corporation | Method for making ceramic matrix composite articles |
JP2020187163A (en) * | 2019-05-10 | 2020-11-19 | 本田技研工業株式会社 | Voice operation system, voice operation control method and voice operation control program |
-
2004
- 2004-12-27 JP JP2004376211A patent/JP2006184421A/en not_active Withdrawn
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10689299B2 (en) | 2014-09-24 | 2020-06-23 | Rolls-Royce Corporation | Method for making ceramic matrix composite articles |
JP2020187163A (en) * | 2019-05-10 | 2020-11-19 | 本田技研工業株式会社 | Voice operation system, voice operation control method and voice operation control program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8380505B2 (en) | System for recognizing speech for searching a database | |
JP5334178B2 (en) | Speech recognition apparatus and data update method | |
KR100998566B1 (en) | Method and apparatus for language translation using speech recognition | |
US8548806B2 (en) | Voice recognition device, voice recognition method, and voice recognition program | |
US8005673B2 (en) | Voice recognition device, voice recognition method, and voice recognition program | |
KR100679042B1 (en) | Speech recognition method and apparatus, navigation system using same | |
JP4260788B2 (en) | Voice recognition device controller | |
JP2004510239A (en) | How to improve dictation and command distinction | |
KR101526918B1 (en) | Multilingual Exotic Speech Recognition | |
JP2008064885A (en) | Voice recognition device, voice recognition method and voice recognition program | |
EP2863385B1 (en) | Function execution instruction system, function execution instruction method, and function execution instruction program | |
JP5263875B2 (en) | Computer system, speech recognition method and computer program for speech recognition | |
JP4914632B2 (en) | Navigation device | |
JP2008076811A (en) | Voice recognition device, voice recognition method and voice recognition program | |
KR101063607B1 (en) | Navigation system having a name search function using voice recognition and its method | |
KR101063159B1 (en) | Address Search using Speech Recognition to Reduce the Number of Commands | |
JP2006184421A (en) | Speech recognition device and speech recognition method | |
JP3296783B2 (en) | In-vehicle navigation device and voice recognition method | |
JP4639990B2 (en) | Spoken dialogue apparatus and speech understanding result generation method | |
JP4770374B2 (en) | Voice recognition device | |
JP4930014B2 (en) | Speech recognition apparatus and speech recognition method | |
JP2011180416A (en) | Voice synthesis device, voice synthesis method and car navigation system | |
JP2005114964A (en) | Method and processor for speech recognition | |
JP2005031260A (en) | Method and apparatus for information processing | |
JP4550207B2 (en) | Voice recognition device and voice recognition navigation device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20071128 |
|
A761 | Written withdrawal of application |
Free format text: JAPANESE INTERMEDIATE CODE: A761 Effective date: 20090827 |