JP2015194766A - speech recognition device and speech recognition method - Google Patents
speech recognition device and speech recognition method Download PDFInfo
- Publication number
- JP2015194766A JP2015194766A JP2015130102A JP2015130102A JP2015194766A JP 2015194766 A JP2015194766 A JP 2015194766A JP 2015130102 A JP2015130102 A JP 2015130102A JP 2015130102 A JP2015130102 A JP 2015130102A JP 2015194766 A JP2015194766 A JP 2015194766A
- Authority
- JP
- Japan
- Prior art keywords
- trigger
- recognition
- trigger detection
- user
- detection unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 26
- 238000001514 detection method Methods 0.000 claims abstract description 114
- 238000009826 distribution Methods 0.000 description 7
- 238000012986 modification Methods 0.000 description 6
- 230000004048 modification Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 3
- 235000008429 bread Nutrition 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
Images
Landscapes
- User Interface Of Digital Computer (AREA)
Abstract
Description
本発明の実施形態は、音声認識装置および音声認識方法に関する。 Embodiments described herein relate generally to a speech recognition apparatus and a speech recognition method.
近年、ユーザが発声したコマンド(コマンド発声)を認識して機器の操作を行う音声認識装置が実用化されている。コマンド発声の認識を開始する指示(開始トリガ)として、ユーザによる特定のキーワードの発声、ジェスチャ、拍手などが提案されている。これらの開始トリガを用いた音声認識装置では、開始トリガを検出した後、コマンド発声の認識処理を開始する。 In recent years, a speech recognition apparatus that recognizes a command (command utterance) uttered by a user and operates a device has been put into practical use. As an instruction to start recognition of command utterance (start trigger), utterance, gesture, applause and the like of a specific keyword by a user have been proposed. In the speech recognition apparatus using these start triggers, the command utterance recognition process is started after the start trigger is detected.
しかしながら、上述した開始トリガには、操作対象となる機器の使用環境に応じた一長一短があり、使用環境に適しない開始トリガを用いた場合、開始トリガの検出精度が低下するという問題があった。例えば、機器の周囲が暗い場合、画像認識の精度が低下するため、ジェスチャによる開始トリガを正しく検出することができなかった。また、複数の開始トリガを受理可能な音声認識装置において、使用環境に適した開始トリガをユーザが適宜選択することは困難であった。 However, the start trigger described above has merits and demerits according to the use environment of the device to be operated, and there is a problem that the start trigger detection accuracy is lowered when a start trigger that is not suitable for the use environment is used. For example, when the surroundings of the device are dark, the accuracy of image recognition is reduced, so that the start trigger by the gesture cannot be detected correctly. In addition, in a speech recognition apparatus that can accept a plurality of start triggers, it is difficult for the user to appropriately select a start trigger suitable for the usage environment.
発明が解決しようとする課題は、使用環境に適した開始トリガを選択する音声認識装置を実現することである。 The problem to be solved by the invention is to realize a speech recognition device that selects a start trigger suitable for a use environment.
本実施形態の音声認識装置は、複数のトリガ検出手段とトリガ選択手段と認識手段とを備える。トリガ検出手段は、機器を操作するためのコマンド発声の認識開始を指示する開始トリガを検出する。トリガ選択手段は、前記機器に設置された1又は複数のセンサからの信号に基づいて、前記複数のトリガ検出手段から前記機器の使用環境に適したトリガ検出手段を選択する。認識手段は、前記トリガ選択手段で動作を有効にされた前記トリガ検出手段が、前記開始トリガを検出した場合、前記コマンド発声の認識処理を開始する。 The speech recognition apparatus according to this embodiment includes a plurality of trigger detection means, trigger selection means, and recognition means. The trigger detection means detects a start trigger instructing start of recognition of command utterance for operating the device. The trigger selection unit selects a trigger detection unit suitable for the use environment of the device from the plurality of trigger detection units based on signals from one or more sensors installed in the device. The recognizing unit starts the command utterance recognizing process when the trigger detecting unit activated by the trigger selecting unit detects the start trigger.
以下、本発明の実施形態について図面を参照しながら説明する。 Hereinafter, embodiments of the present invention will be described with reference to the drawings.
(第1の実施形態)
第1の実施形態の音声認識装置は、ユーザのコマンド発声を認識して機器の操作を行う装置である。音声認識装置はテレビ受像機に内蔵されており、ユーザはコマンド発声により、テレビ受像機のチャンネルの切り替え、番組表の検索などを指示することができる。
(First embodiment)
The speech recognition apparatus according to the first embodiment is an apparatus that recognizes a user's command utterance and operates a device. The voice recognition device is built in the television receiver, and the user can instruct the switching of the channel of the television receiver, the search of the program guide, etc. by command utterance.
本実施形態の音声認識装置は、コマンド発声の認識を開始する指示(開始トリガ)に発話ボタン押下などの操作を必要とせず、ジェスチャトリガ、ボイストリガ、拍手トリガの3種類の開始トリガの中から、テレビ受像機の使用環境に適した開始トリガを選択する。ここで、ジェスチャトリガはユーザによる特定のジェスチャを、ボイストリガはユーザによる特定のキーワード発声を、拍手トリガはユーザの拍手をそれぞれ開始トリガとするものである。 The voice recognition device according to the present embodiment does not require an operation such as pressing an utterance button for an instruction (start trigger) for starting recognition of a command utterance, and can be selected from three types of start triggers: a gesture trigger, a voice trigger, and a clap trigger. Then, a start trigger suitable for the use environment of the television receiver is selected. Here, the gesture trigger is a user's specific gesture, the voice trigger is a user's specific keyword utterance, and the applause trigger is a user's applause as a start trigger.
図1は、第1の実施形態にかかる音声認識装置100を示すブロック図である。本実施形態の音声認識装置100は、マイク208で取得された音からユーザの特定のキーワード発声による開始トリガを検出するボイストリガ検出部101と、カメラ209で撮像された映像からユーザの特定のジェスチャによる開始トリガを検出するジェスチャトリガ検出部102と、マイク208で取得された音からユーザの拍手による開始トリガを検出する拍手トリガ検出部103と、テレビ受像機周囲の音量を測定する音量センサ210、テレビ受像機からユーザまでの距離を測定する距離センサ211、テレビ受像機周囲の光量を測定する光量センサ212からの信号に基づいて、上記各トリガ検出部のうち、使用環境に適した開始トリガを検出するトリガ検出部の動作を有効にするトリガ選択部104と、トリガ選択部104で動作を有効にされた何れかのトリガ検出部が開始トリガを検出した場合、マイク208で取得されたコマンド発声の音声波形に対する認識処理を開始する認識部105とを備える。
FIG. 1 is a block diagram showing a
本実施形態の音声認識装置は、操作対象となる機器(テレビ受像機)に設置されたセンサからの信号に基づいて、機器の使用環境に適したトリガ検出部の動作を有効にする。これにより、開始トリガを高い精度で検出することができ、結果としてユーザのコマンド発声の認識精度を向上させることができる。 The speech recognition apparatus according to the present embodiment enables the operation of the trigger detection unit suitable for the use environment of the device based on a signal from a sensor installed in the device to be operated (television receiver). Thereby, the start trigger can be detected with high accuracy, and as a result, the recognition accuracy of the user's command utterance can be improved.
(ハードウェア構成)
本実施形態の音声認識装置は、図2に示すような通常のコンピュータを利用したハードウェアで構成することができ、装置全体を制御するCPU(Central Processing Unit)等の制御部201と、各種データや各種プログラムを記憶するROM(Read Only Memory)やRAM(Random Access Memory)等の記憶部202と、各種データや各種プログラムを記憶するHDD(Hard Disk Drive)やCD(Compact Disk)ドライブ装置等の外部記憶部203と、ユーザの指示入力を受け付ける操作部204と、外部装置との通信を制御する通信部205と、ユーザのコマンド発声を取得するマイク208と、ユーザのジェスチャを撮像するカメラ209と、テレビ受像機周囲の音量を測定する音量センサ210と、テレビ受像機からユーザまでの距離を測定する距離センサ211と、テレビ受像機周囲の光量を測定する光量センサ212と、これらを接続するバス206とを備えている。
(Hardware configuration)
The speech recognition apparatus according to the present embodiment can be configured by hardware using a normal computer as shown in FIG. 2, and includes a
このようなハードウェア構成において、制御部201がROM等の記憶部202や外部記憶部203に記憶された各種プログラムを実行することにより以下の機能が実現される。
In such a hardware configuration, the following functions are realized when the
(トリガ選択部)
トリガ選択部104は、音量センサ210、距離センサ211、光量センサ212からの信号に基づいて、後述する各トリガ検出部のうちテレビ受像機の使用環境に適したトリガ検出部を選択し、その動作を有効にする。
(Trigger selection part)
Based on the signals from the
ここで、音量センサ210は、テレビ受像機周囲の音量を測定するセンサであり、マイク208で取得した周囲雑音の音量やテレビ受像機自体がスピーカから再生する音の音量を測定する。なお、音量センサ210で音を時系列のディジタル信号として取得し、トリガ選択部104でその信号から音量(例えば、所定区間における信号のパワー)を計算するようにしてもよい。この場合、音量センサ210はマイク208で代替することができる。
Here, the
距離センサ211は、テレビ受像機からユーザまでの距離を測定するセンサである。所定の距離以内に人がいるかいないかを判別する人感センサで代替することもできる。
The
光量センサ212は、テレビ受像機周囲の光量を測定する光量センサである。
The
これらセンサからの信号に基づいた、トリガ選択部104における動作の詳細は後述する。
Details of the operation of the
(ボイストリガ検出部)
ボイストリガ検出部101は、マイク208で取得された音からユーザのキーワード発声による開始トリガを検出する。
(Voice trigger detector)
The voice
ボイストリガを用いた音声認識では、特定のキーワード発声を開始トリガとして検出後、それに続くユーザのコマンド発声を認識する(特開2001−67091号公報)。例えば、「ハロー」をキーワードとして使用する場合、ユーザの「ハロー」というキーワード発声を検出すると、「ピッ」という音を出力してユーザにコマンド発声を促す。そして、それに続く「8チャンネル」などのユーザのコマンド発声を認識する。 In voice recognition using a voice trigger, a specific keyword utterance is detected as a start trigger, and then the user's command utterance is recognized (Japanese Patent Laid-Open No. 2001-67091). For example, in the case of using “Hello” as a keyword, when a keyword utterance of “Hello” is detected by the user, a “beep” sound is output to prompt the user to utter a command. Then, the user's command utterance such as “8 channels” is recognized.
ボイストリガ検出部101は、特定のキーワードを認識語彙とした認識処理を継続的に行い、得られた信頼度スコアが閾値Lを超えた場合に、特定のキーワードが発声されたと判別する。閾値Lは、特定のキーワードを発声した場合の信頼度スコアの分布と、それ以外を発声した場合の信頼度スコアの分布を予め実験的に求めておき、これら2つの分布を適切に区別する値に設定することができる。
The voice
ボイストリガ検出部101は、マイク208で取得された音を常時取り込んで認識処理を行うが、認識語彙を特定のキーワードに絞ることができるため周囲雑音による誤認識の危険性を減らすことができる。
The voice
ただし、周囲雑音やテレビ受像機の出力音声が非常に大きい場合やユーザの声が小さい場合は、キーワード発声のSNRが低下するため、キーワード発声による開始トリガの検出精度が低下する。 However, when the ambient noise or the output sound of the television receiver is very large or when the user's voice is low, the SNR of the keyword utterance is lowered, so that the start trigger detection accuracy due to the keyword utterance is lowered.
(ジェスチャトリガ検出部)
ジェスチャトリガ検出部102は、カメラ209で撮像された映像からユーザの特定のジェスチャによる開始トリガを検出する。
(Gesture trigger detector)
The gesture
ジェスチャトリガを用いた音声認識では、ユーザの特定のジェスチャを開始トリガとして検出後、それに続くユーザのコマンド発声を認識する(特開2010−182014号公報)。例えば、「手を左右に振る」という動作をジェスチャとして使用する場合、画像認識により「手を左右に振る」動作を検出すると、「ピッ」という音を出力してユーザにコマンド発声を促す。そして、それに続く「8チャンネル」などのユーザのコマンド発声を認識する。 In voice recognition using a gesture trigger, a user's specific utterance is recognized after detecting a user's specific gesture as a start trigger (Japanese Patent Laid-Open No. 2010-182014). For example, when an operation of “waving your hand to the left and right” is used as a gesture, if a “hand to shake your hand to the left and right” operation is detected by image recognition, a sound of “beep” is output to prompt the user to speak a command. Then, the user's command utterance such as “8 channels” is recognized.
ジェスチャトリガ検出部102は、画像認識を用いて開始トリガを検出するため、周囲雑音の影響を受けないが、カメラで捉えることのできる範囲でユーザがジェスチャをする必要がある等の制約がある。また、照明条件によりジェスチャの認識精度が変動する。さらに、高度な画像認識処理を常に動作させる必要があるため、他のトリガ検出部と比較して消費電力が大きくなる。
Since the gesture
(拍手トリガ検出部)
拍手トリガ検出部103は、マイク208で取得された音からユーザの拍手による開始トリガを検出する。ここで、本実施形態における拍手は、「パン、パン」という2回連続した拍手とする。
(Applause trigger detector)
The applause
拍手トリガを用いた音声認識では、2回連続した拍手を検出すると、「ピッ」という音を出力してユーザにコマンド発声を促す。そして、それに続くユーザのコマンド発声を認識する。 In voice recognition using a clap trigger, when two consecutive claps are detected, a beep sound is output to prompt the user to speak a command. Subsequently, the user's command utterance is recognized.
図3のフローチャートを利用して、拍手トリガ検出部103の処理を説明する。この処理では、図4に示すように、所定間隔(閾値T0)の間にパワーが閾値Sを2回超えるような音の波形を拍手として検出する。
The process of the applause
ここで、閾値T0は、2回連続した拍手を行った場合の拍手間の継続時間の分布を予め求めておき、その分布が十分に包含される最小の値に設定することができる。また、閾値Sは、拍手を行っていない時のパワーの分布と、拍手を行った時のパワーの分布を予め実験的に求めておき、2つの分布を適切に区別するための最適値を用いて設定できる。 Here, the threshold T 0 can be set in advance to a minimum value in which the distribution of the duration between claps in the case of performing two consecutive applauses is obtained in advance. In addition, the threshold value S is obtained by experimentally obtaining in advance a power distribution when no applause is performed and a power distribution when applause is performed, and an optimum value for appropriately distinguishing the two distributions is used. Can be set.
まず、図3のステップS1では、マイク208で音の取得が開始された時刻をt=0と設定する。ここで、tは、取得された音の波形をフレーム長25ms、間隔8msで分割した際のフレームの番号を表す。ステップS2では、tをt+1に更新する。ステップS3では、t番目のフレームにおける波形のパワーを計算し、その値を予め設定した閾値Sと比較する。パワーが閾値Sを超える場合はステップS4へ、超えない場合はステップS2へ移行する。ステップS4では、T=0に設定する。ステップS5では、TをT+1に、tをt+Tにそれぞれ更新する。ステップS6では、Tが予め設定した閾値T0より小さいか否かを判別する。TがT0より小さい場合はステップS7へ、それ以外の場合はステップS2へ移行する。ステップS7では、t番目のフレームにおける波形のパワーを計算し、その値を閾値Sと比較する。パワーが閾値Sを超える場合はステップS8へ移行し、2回連続した拍手を検出したものと判別する。それ以外の場合はステップS2へ移行し、処理を継続する。
First, in step S1 of FIG. 3, the time when sound acquisition is started by the
本実施形態で用いる「パン、パン」という2回連続した拍手は他の周囲雑音と比較して特別な特徴を持つため、拍手トリガ検出部103は、周囲雑音がある程度大きい場合でも拍手による開始トリガを検出することができる。
The applause
(認識部)
認識部105は、トリガ選択部104で有効とされた何れかのトリガ検出部が開始トリガを検出した場合、コマンド発声の認識処理を開始する。具体的には、認識部105は、何れかのトリガ検出部が開始トリガを検出した後に、マイク208で取得された音の取り込みを開始し、この音に含まれるコマンド発声に対する認識処理を実行する。
(Recognition part)
The recognizing
この他にも、マイク208で取得された音の取り込みとそれに対する認識処理を継続して行い、開始トリガ検出後に生成された認識結果のみを認識部105が出力するようにしてもよい。
In addition to this, it is also possible that the sound acquired by the
(フローチャート)
図5のフローチャートを利用して、本実施形態にかかる音声認識装置の処理を説明する。
(flowchart)
The processing of the speech recognition apparatus according to the present embodiment will be described using the flowchart of FIG.
ステップS11では、トリガ選択部104は、音量センサ210、距離センサ211、光量センサ212からの信号に基づいて、ボイストリガ検出部101、ジェスチャトリガ検出部102、拍手トリガ検出部103の中からテレビ受像機の使用環境に適したトリガ検出部の動作を有効にする。
In step S11, the
図6のフローチャートを利用して、ステップS11の詳細を説明する。まず、ステップS21では、トリガ選択部104は、初期化のため全てのトリガ検出部(ボイストリガ検出部101、ジェスチャトリガ検出部102、拍手トリガ検出部103)の動作を無効にする。
Details of step S11 will be described using the flowchart of FIG. First, in step S21, the
ステップS22では、トリガ選択部104は、距離センサ211で測定されたテレビ受像機からユーザまでの距離が予め設定された閾値Dを超えるか否かを判別する。閾値Dを超える場合は、ユーザまでの距離が遠くジェスチャトリガ検出部102おけるジェスチャの認識精度が低下する可能性がある。したがって、この場合は、ジェスチャトリガ検出部102はこの使用環境に適していないものとしてステップS25に移行する。ユーザまでの距離が閾値Dを超えない場合は、ステップS23に移行する。
In step S <b> 22, the
なお、閾値Dは、予め実験的に求めたユーザまでの距離とジェスチャの検出精度との関係に基づいて設定することができる。 Note that the threshold value D can be set based on the relationship between the distance to the user obtained experimentally in advance and the gesture detection accuracy.
ステップS23では、光量センサで測定されたテレビ受像機周囲の光量が予め設定された閾値Lを超えるか否かを判別する。閾値Lを超えない場合は、周囲が暗いためジェスチャトリガ検出部102おけるジェスチャの認識精度が低下する可能性がある。したがって、この場合は、ジェスチャトリガ検出部102はこの使用環境に適していないものとしてステップS25に移行する。
In step S23, it is determined whether or not the light quantity around the television receiver measured by the light quantity sensor exceeds a preset threshold value L. When the threshold value L is not exceeded, the recognition accuracy of the gesture in the gesture
一方、光量が閾値Lを超える場合はステップS24に移行し、ユーザまでの距離および光量の両条件がジェスチャトリガ検出部102おけるジェスチャの画像認識に適しているものとして、ジェスチャトリガ検出部102の動作を有効にする。
On the other hand, if the amount of light exceeds the threshold value L, the process proceeds to step S24, where both the distance to the user and the amount of light are suitable for the gesture image recognition in the gesture
なお、閾値Lは、予め実験的に求めた光量とジェスチャの検出精度との関係に基づいて設定することができる。 The threshold value L can be set based on the relationship between the light amount experimentally obtained in advance and the gesture detection accuracy.
ステップS25では、トリガ選択部104は、音量センサ210で測定されたテレビ受像機周囲の音量が予め設定された閾値Nを超えるか否かを判別する。閾値Nを超える場合は、周囲の雑音が大きすぎるためボイストリガ検出部101におけるキーワード発声の検出精度が低下する可能性がある。したがって、この場合は、ボイストリガ検出部101はこの使用環境に適していないものとしてステップS27に移行する。
In step S25, the
一方、音量が閾値Nを超えない場合はステップS26に移行し、周囲の雑音が小さくボイストリガ検出部101におけるキーワード発声の認識に適しているものとして、ボイストリガ検出部101の動作を有効にする。
On the other hand, if the volume does not exceed the threshold value N, the process proceeds to step S26, and the operation of the voice
なお、閾値Nは、予め実験的に求めた音量とキーワード発声の検出精度との関係に基づいて設定することができる。 The threshold value N can be set based on the relationship between the volume obtained experimentally in advance and the detection accuracy of the keyword utterance.
最後に、ステップ27では、拍手トリガ検出部103の動作を有効にする。本実施形態では、拍手トリガ検出部103の動作を常に有効にする。これは、拍手トリガ検出部103は、周囲の雑音が大きくても、ユーザまでの距離が遠くても比較的高い精度で開始トリガを検出できるからである。
Finally, in step 27, the operation of the applause
図5のフローチャートに戻って説明を続ける。ステップS12では、音声認識装置は、ステップS11で有効とされたトリガ検出部の動作を開始する。 Returning to the flowchart of FIG. In step S12, the speech recognition apparatus starts the operation of the trigger detection unit validated in step S11.
ステップS13では、ステップS12で動作を開始した何れかのトリガ検出部が開始トリガを検出したか否かを判別する。開始トリガを検出した場合は、ステップS14へ移行する。検出していない場合は、何れかのトリガ検出部が開始トリガを検出するまで待つ。 In step S13, it is determined whether any of the trigger detection units that have started operation in step S12 has detected a start trigger. If a start trigger is detected, the process proceeds to step S14. When not detected, it waits until any trigger detection part detects a start trigger.
ステップS14では、開始トリガを検出した後、ユーザのコマンド発声の認識処理を開始する。 In step S14, after the start trigger is detected, the process for recognizing the user's command utterance is started.
(効果)
このように、本実施形態の音声認識装置は、操作対象となる機器に設置されたセンサからの信号に基づいて、機器の使用環境に適したトリガ検出部の動作を有効にする。これにより、開始トリガを高い精度で検出することができ、結果としてユーザのコマンド発声の認識精度を向上させることができる。
(effect)
As described above, the speech recognition apparatus according to the present embodiment enables the operation of the trigger detection unit suitable for the use environment of the device based on the signal from the sensor installed in the device to be operated. Thereby, the start trigger can be detected with high accuracy, and as a result, the recognition accuracy of the user's command utterance can be improved.
(変形例1)
本実施形態のトリガ選択部104は、音量センサ210、距離センサ211、光量センサ212の計3つのセンサからの信号に基づいて、各トリガ検出部における動作の有効・無効を選択したが、何れか1つのセンサを用いてトリガ検出部の動作を選択することも可能である。例えば、音量センサ210があれば、図6のステップS25と同様な処理を用いて、ボイストリガ検出部101の動作の有効・無効を選択することができる。
(Modification 1)
The
また、距離センサ211からの信号を基に、ボイストリガ検出部101の動作の有効・無効を選択することもできる。この場合、距離センサ211で測定された距離が閾値D以下になったときに、ボイストリガ検出部101の動作を有効にする。これは、距離が小さい時は、テレビ受像機で受信されるユーザの音声が大きくなるため、ボイストリガ検出部101での開始トリガの検出精度が高くなるからである。
Further, based on the signal from the
また、トリガ選択部104が、センサ以外からの制御信号を用いて、各トリガ検出部における動作の有効・無効を選択することもできる。センサ以外からの制御信号としては、ユーザが指示した消費電力に関するモード(電力モード)がある。例えば、ユーザが、消費電力が少ないモード(省電力モード)を選択した場合、トリガ選択部104は、常時動作時に消費電力が大きくなるジェスチャトリガ検出部102の動作を無効にすることができる。
In addition, the
図7は、電力モードを利用する場合のトリガ選択部104の動作を示すフローチャートである。このフローチャートのステップS31では、トリガ選択部104は、ユーザが指示した電力モードを判別する。電力モードが通常のモード(通常モード)である場合は、ステップS22に移行しジェスチャトリガ検出部102を含めた各トリガ検出部における動作の有効・無効を選択する。一方、電力モードが省電力モードである場合は、ステップS25に移行し、消費電力が高いジェスチャトリガ検出部102の動作が有効にならないようにする。
FIG. 7 is a flowchart showing the operation of the
このように、本変形例にかかる音声認識装置は、センサでは取得できない制御信号に基づいて、トリガ検出部の動作の有効・無効を選択することができる。 As described above, the speech recognition apparatus according to the present modification can select whether the operation of the trigger detection unit is valid or invalid based on the control signal that cannot be acquired by the sensor.
(変形例2)
本実施形態の音声認識装置は、トリガ選択部104における各トリガ検出部の動作の有効・無効の選択結果を、提示部(図示なし)を介してユーザに提示することができる。提示部としては、テレビ受像機のディスプレイなどが考えられる。
(Modification 2)
The speech recognition apparatus according to the present embodiment can present to the user the selection result of the validity / invalidity of the operation of each trigger detection unit in the
図8および図9は、テレビ受像機のディスプレイ400に表示された画像を表している。例えば、図8のマーク401はボイストリガ検出部101、マーク402は拍手トリガ検出部103、マーク403はジェスチャトリガ検出部102の動作がそれぞれ有効であることを表している。すなわち、図8の状態では、ユーザは全ての開始トリガを用いてコマンド発声の認識開始を指示することができる。
8 and 9 show images displayed on the
一方、図9では、マーク401およびマーク402のみが表示されており、マーク403は表示されていない。すなわち、図9の状態では、ユーザはジェスチャを開始トリガとして選択できないことを意味している。
On the other hand, in FIG. 9, only the
このように、有効に動作しているトリガ検出部の情報をユーザに提示することにより、ユーザは使用する開始トリガを迷うことなく選択することができる。 Thus, by presenting the information of the trigger detection unit that is operating effectively to the user, the user can select the start trigger to use without hesitation.
なお、ユーザへの提示方法は上述した方法に限ったものではなく、テレビ受像機にトリガ検出部と同数のLEDを取りつけ、有効に動作しているトリガ検出部に対応したLEDを点灯させるようにしてもよい。 The method of presentation to the user is not limited to the above-described method, and the same number of LEDs as the trigger detection unit are attached to the television receiver so that the LED corresponding to the trigger detection unit that is operating effectively is lit. May be.
(変形例3)
本実施形態におけるコマンド発声は、「8チャンネル」などのような孤立単語の発声だけでなく、「スポーツ番組を検索して」といった自然文の発声も含む。
(Modification 3)
The command utterance in the present embodiment includes not only an isolated word utterance such as “8 channels” but also a natural sentence utterance such as “search for a sports program”.
また、音声認識装置がクラウドサーバ上に設置され、テレビ受像機がネットワークを介して音声認識装置と接続している場合でも、音声認識装置は本実施形態と同様な処理を実行することができる。 Further, even when the voice recognition apparatus is installed on the cloud server and the television receiver is connected to the voice recognition apparatus via the network, the voice recognition apparatus can execute the same processing as in the present embodiment.
また、本実施形態におけるトリガ検出部は、ボイストリガ検出部101、ジェスチャトリガ検出部102、拍手トリガ検出部103の3種類であるが、トリガ検出部はこれに限られない。他の種類の開始トリガを検出するトリガ検出部であってもよい。
Moreover, although the trigger detection part in this embodiment is three types, the voice
また、本実施形態では、使用環境に適したトリガ検出部を選択しこのトリガ検出手段の動作を有効にしていたが、複数のトリガ検出部を常時動作させておき、トリガ選択部104で選択されたトリガ検出部が開始トリガを検出した場合にコマンド発声の認識処理を開始するようにしてよい。
In this embodiment, the trigger detection unit suitable for the usage environment is selected and the operation of the trigger detection unit is enabled. However, a plurality of trigger detection units are always operated and selected by the
以上説明した本実施形態における一部機能もしくは全ての機能は、ソフトウェア処理により実現可能である。 Some or all of the functions in the present embodiment described above can be realized by software processing.
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。 Although several embodiments of the present invention have been described, these embodiments are presented by way of example and are not intended to limit the scope of the invention. These novel embodiments can be implemented in various other forms, and various omissions, replacements, and changes can be made without departing from the scope of the invention. These embodiments and modifications thereof are included in the scope and gist of the invention, and are included in the invention described in the claims and the equivalents thereof.
101 ボイストリガ検出部
102 ジェスチャトリガ検出部
103 拍手トリガ検出部
104 トリガ選択部
105 認識部
201 制御部
202 記憶部
203 外部記憶部
204 操作部
205 通信部
206 バス
208 マイク
209 カメラ
210 音量センサ
211 距離センサ
212 光量センサ
400 テレビ受像機のディスプレイ
401 ボイストリガが有効であることを示すマーク
402 拍手トリガが有効であることを示すマーク
403 ジェスチャトリガが有効であることを示すマーク
DESCRIPTION OF
Claims (8)
複数のセンサからの信号に基づいて、前記複数のトリガ検出手段のうちの少なくとも1つが前記開始トリガを検出した場合、前記コマンドの認識処理を開始する認識手段と、
を備える認識装置。 A plurality of trigger detection means for detecting a start trigger for instructing start of recognition of a command for operating an operation target;
A recognition unit that starts recognition processing of the command when at least one of the plurality of trigger detection units detects the start trigger based on signals from a plurality of sensors;
A recognition device comprising:
前記音量が予め決められた閾値以下となる場合に、前記ボイストリガ検出手段が動作する請求項1記載の認識装置。 Voice trigger detection in which at least one of the plurality of sensors is a volume sensor for measuring a surrounding volume, and at least one of the plurality of trigger detection means detects a start trigger by a user's specific keyword utterance. In the case of means,
The recognition apparatus according to claim 1, wherein the voice trigger detection unit operates when the volume is equal to or lower than a predetermined threshold.
前記光量が予め決められた閾値を超える場合に、前記ジェスチャトリガ検出手段が動作する請求項1記載の認識装置。 At least one of the plurality of sensors is a light amount sensor that measures the amount of ambient light, and at least one of the plurality of trigger detection units detects a start trigger by a user's specific gesture. In the case
The recognition apparatus according to claim 1, wherein the gesture trigger detection unit operates when the light amount exceeds a predetermined threshold.
前記距離が予め決められた閾値以下となる場合に、前記ジェスチャトリガ検出手段が動作する請求項1記載の認識装置。 At least one of the plurality of sensors is a distance sensor that measures a distance to a user, and at least one of the plurality of trigger detection means detects a start trigger by a user's specific gesture. In the case of means,
The recognition apparatus according to claim 1, wherein the gesture trigger detection unit operates when the distance is equal to or less than a predetermined threshold.
前記距離が予め決められた閾値以下となる場合に、前記ボイストリガ検出手段が動作する請求項1記載の認識装置。 At least one of the plurality of sensors is a distance sensor that measures a distance to the user, and at least one of the plurality of trigger detection means detects a start trigger due to a specific keyword utterance of the user. In the case of detecting means,
The recognition apparatus according to claim 1, wherein the voice trigger detection unit operates when the distance is equal to or less than a predetermined threshold.
複数のセンサからの信号に基づいて、前記複数のトリガ検出ステップのうちの少なくとも1つが前記開始トリガを検出した場合、前記コマンドの認識処理を開始する認識ステップと、
を備える認識方法。 A plurality of trigger detection steps for detecting a start trigger for instructing start of recognition of a command for operating an operation target;
A recognition step of starting recognition processing of the command when at least one of the plurality of trigger detection steps detects the start trigger based on signals from a plurality of sensors;
A recognition method comprising:
操作対象を操作するためのコマンドの認識開始を指示する開始トリガを検出する複数のトリガ検出ステップと、
複数のセンサからの信号に基づいて、前記複数のトリガ検出ステップのうちの少なくとも1つが前記開始トリガを検出した場合、前記コマンドの認識処理を開始する認識ステップと、
を実現させるための認識プログラム。 In the recognition device,
A plurality of trigger detection steps for detecting a start trigger for instructing start of recognition of a command for operating an operation target;
A recognition step of starting recognition processing of the command when at least one of the plurality of trigger detection steps detects the start trigger based on signals from a plurality of sensors;
A recognition program for realizing
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015130102A JP2015194766A (en) | 2015-06-29 | 2015-06-29 | speech recognition device and speech recognition method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015130102A JP2015194766A (en) | 2015-06-29 | 2015-06-29 | speech recognition device and speech recognition method |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011218679A Division JP2013080015A (en) | 2011-09-30 | 2011-09-30 | Speech recognition device and speech recognition method |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2015194766A true JP2015194766A (en) | 2015-11-05 |
Family
ID=54433759
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015130102A Pending JP2015194766A (en) | 2015-06-29 | 2015-06-29 | speech recognition device and speech recognition method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2015194766A (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020003076A (en) * | 2018-06-25 | 2020-01-09 | 株式会社パロマ | Gas cooking stove |
JP2020012954A (en) * | 2018-07-18 | 2020-01-23 | 株式会社東芝 | Information processing apparatus, information processing method and program |
US10726837B2 (en) | 2017-11-02 | 2020-07-28 | Hisense Visual Technology Co., Ltd. | Voice interactive device and method for controlling voice interactive device |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003345390A (en) * | 2002-05-23 | 2003-12-03 | Matsushita Electric Ind Co Ltd | Voice processor and remote controller |
JP2011081541A (en) * | 2009-10-06 | 2011-04-21 | Canon Inc | Input device and control method thereof |
-
2015
- 2015-06-29 JP JP2015130102A patent/JP2015194766A/en active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003345390A (en) * | 2002-05-23 | 2003-12-03 | Matsushita Electric Ind Co Ltd | Voice processor and remote controller |
JP2011081541A (en) * | 2009-10-06 | 2011-04-21 | Canon Inc | Input device and control method thereof |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10726837B2 (en) | 2017-11-02 | 2020-07-28 | Hisense Visual Technology Co., Ltd. | Voice interactive device and method for controlling voice interactive device |
US11302328B2 (en) | 2017-11-02 | 2022-04-12 | Hisense Visual Technology Co., Ltd. | Voice interactive device and method for controlling voice interactive device |
JP2020003076A (en) * | 2018-06-25 | 2020-01-09 | 株式会社パロマ | Gas cooking stove |
JP7146240B2 (en) | 2018-06-25 | 2022-10-04 | 株式会社パロマ | Gas stove |
JP2020012954A (en) * | 2018-07-18 | 2020-01-23 | 株式会社東芝 | Information processing apparatus, information processing method and program |
CN110808039A (en) * | 2018-07-18 | 2020-02-18 | 株式会社东芝 | Information processing apparatus, information processing method, and recording medium |
US11062705B2 (en) | 2018-07-18 | 2021-07-13 | Kabushiki Kaisha Toshiba | Information processing apparatus, information processing method, and computer program product |
JP7000268B2 (en) | 2018-07-18 | 2022-01-19 | 株式会社東芝 | Information processing equipment, information processing methods, and programs |
CN110808039B (en) * | 2018-07-18 | 2023-12-01 | 株式会社东芝 | Information processing apparatus, information processing method, and recording medium |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2013080015A (en) | Speech recognition device and speech recognition method | |
JP6143975B1 (en) | System and method for providing haptic feedback to assist in image capture | |
WO2017134935A1 (en) | Information processing device, information processing method, and program | |
JP6325626B2 (en) | Hybrid performance scaling or speech recognition | |
JP6230726B2 (en) | Speech recognition apparatus and speech recognition method | |
US11094323B2 (en) | Electronic device and method for processing audio signal by electronic device | |
US9436287B2 (en) | Systems and methods for switching processing modes using gestures | |
JP6635049B2 (en) | Information processing apparatus, information processing method and program | |
RU2534073C2 (en) | System, method and apparatus for causing device to enter active mode | |
KR102623272B1 (en) | Electronic apparatus and Method for controlling electronic apparatus thereof | |
KR20150112337A (en) | display apparatus and user interaction method thereof | |
CN108346425B (en) | Voice activity detection method and device and voice recognition method and device | |
EP2994911B1 (en) | Adaptive audio frame processing for keyword detection | |
EP3535754B1 (en) | Improved reception of audio commands | |
KR102505719B1 (en) | Electronic device and method for recognizing voice of speech | |
US9837068B2 (en) | Sound sample verification for generating sound detection model | |
KR20170050908A (en) | Electronic device and method for recognizing voice of speech | |
EP2639793A1 (en) | Electronic device and method for controlling power using voice recognition | |
KR20120080070A (en) | Electronic device controled by a motion, and control method thereof | |
JP2011257943A (en) | Gesture operation input device | |
JP2015194766A (en) | speech recognition device and speech recognition method | |
JP2015175983A (en) | Voice recognition device, voice recognition method, and program | |
US11600275B2 (en) | Electronic device and control method thereof | |
KR20170029390A (en) | Method for voice command mode activation | |
KR102071867B1 (en) | Device and method for recognizing wake-up word using information related to speech signal |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20160725 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160729 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20170220 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20170324 |