JP2019191490A - Voice interaction terminal, and voice interaction terminal control method - Google Patents
Voice interaction terminal, and voice interaction terminal control method Download PDFInfo
- Publication number
- JP2019191490A JP2019191490A JP2018086985A JP2018086985A JP2019191490A JP 2019191490 A JP2019191490 A JP 2019191490A JP 2018086985 A JP2018086985 A JP 2018086985A JP 2018086985 A JP2018086985 A JP 2018086985A JP 2019191490 A JP2019191490 A JP 2019191490A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- sensitivity
- sensitivity setting
- terminal
- microphone
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Telephone Function (AREA)
- Telephonic Communication Services (AREA)
Abstract
Description
本実施形態は、音声対話端末および音声対話端末の制御方法に関するものである。 The present embodiment relates to a voice interactive terminal and a method for controlling the voice interactive terminal.
ユーザが発した音声を例えばマイクで収集し、この収集した音声を音声認識処理により解析することでユーザが発した内容を判別し、この判別した内容に応じた応答をユーザに提供する音声対話システムがある。この音声対話システムは、音声対話サービスの部分と音声対話端末の部分の大きく2つの部分を含む。 A voice dialogue system that collects voices uttered by a user, for example, with a microphone, discriminates the contents uttered by the user by analyzing the collected voices by voice recognition processing, and provides the user with a response according to the determined contents There is. This voice interaction system includes two main parts: a voice dialog service part and a voice dialog terminal part.
音声対話サービスの部分は、ユーザが発した内容を入力として、この入力された内容を音声認識処理により解析し、この解析結果に応じた応答をユーザに提供する機能を持つ。 The portion of the voice interaction service has a function of receiving the content issued by the user as input, analyzing the input content by speech recognition processing, and providing a response according to the analysis result to the user.
音声対話端末の部分は、マイクで収集したユーザの発話内容を、音声データとして音声対話サービスに入力したり、音声対話サービスが出力する応答の内容を、ユーザに対して音声として出力したり周辺機器の制御を行ったりする機能を持つ。 The voice dialog terminal part inputs the user's utterance contents collected by the microphone as voice data to the voice dialog service, and outputs the response contents output by the voice dialog service to the user as a voice. It has a function to control.
さらに、音声対話サービスの部分は、ユーザが発した内容の入力に対応した応答の提供ではなく、音声対話サービスが自発的に音声対話端末に情報を提供する場合もある。 Furthermore, the voice dialogue service part may not provide a response corresponding to the input of the content issued by the user, but the voice dialogue service may voluntarily provide information to the voice dialogue terminal.
音声対話端末は、ユーザの発話内容をマイクで収集する際に、予め決められた特定ワードを認識することで、以降のユーザの発話内容の収集を行う。 The voice interactive terminal collects the user's utterance contents thereafter by recognizing a predetermined specific word when the user's utterance contents are collected by the microphone.
音声対話端末が置かれている場所は、ユーザが特定ワードを発話する以外に、日常会話やテレビジョン等のAV機器の音等の室内雑音が発生している場合が一般的である。このため音声対話端末が、これらの室内雑音をユーザが特定ワードを発したと誤認識してしまう場合がある。このため音声対話端末が置かれている場所の室内雑音の状況に応じて、音声対話システムを使うユーザが、音声対話端末が特定ワードを認識する感度を調整できることが望ましい。 In general, the place where the voice interaction terminal is placed is that there is room noise such as daily conversation or sound of AV equipment such as television, in addition to the user speaking a specific word. For this reason, the voice interaction terminal may misrecognize that the room noise has been generated by the user. For this reason, it is desirable that the user using the voice interaction system can adjust the sensitivity with which the voice interaction terminal recognizes the specific word in accordance with the state of room noise at the place where the voice interaction terminal is placed.
しかし現状の音声対話システムでは、音声対話端末が特定ワードを認識する感度を、ユーザが調整する仕組みがない、という課題があった。 However, the current voice dialogue system has a problem that the user has no mechanism for adjusting the sensitivity with which the voice dialogue terminal recognizes a specific word.
そこで本発明の本実施形態では、音声対話端末が特定ワードを認識する感度を、ユーザが調整することが可能な音声対話端末および音声対話端末制御方法を提供することを目的とする。 Therefore, an object of the present embodiment of the present invention is to provide a voice interaction terminal and a voice interaction terminal control method in which the user can adjust the sensitivity with which the voice interaction terminal recognizes a specific word.
マイクと、
ネットワークとの通信を制御する通信制御部と、
前記マイクから入力された音声を、前記通信制御部を介して前記ネットワークに出力する出力処理部と、
前記マイクから入力された前記音声のうち、予め定められたワードである特定ワードを検出する検出部と、
前記通信制御部を介して前記ネットワークより入力された、前記検出部が前記特定ワードを検出するための感度の値である感度設定値を、前記検出部に設定する設定部と、
を具備する音声対話端末である。
With a microphone,
A communication control unit for controlling communication with the network;
An output processing unit that outputs audio input from the microphone to the network via the communication control unit;
A detection unit that detects a specific word that is a predetermined word among the voices input from the microphone;
A setting unit configured to set a sensitivity setting value, which is a sensitivity value for the detection unit to detect the specific word, input from the network via the communication control unit to the detection unit;
Is a voice interactive terminal.
以下、本発明の実施の形態について図面を参照して説明する。 Hereinafter, embodiments of the present invention will be described with reference to the drawings.
図1は、本発明の実施形態が適用された音声対話端末1を含む音声対話システムの概要を示す図である。本音声対話システムは、例えば家屋4に配置された音声対話端末1とクラウド上に存在するサーバ9に配置された音声対話サービス2とからなる、音声対話端末1と音声対話サービス2は、家屋4内に配置されたホームゲートウェイ5を経由してネットワーク3を介して互いに通信を行うことが可能である。
FIG. 1 is a diagram showing an outline of a voice dialogue system including a voice dialogue terminal 1 to which an embodiment of the present invention is applied. The voice dialogue system includes, for example, a voice dialogue terminal 1 arranged in a
音声対話端末1は、またBluetooth(登録商標)、ZigBee(登録商標)、Wi−Fi等の近距離無線通信システム7を介して、家屋4の中に設置されている照明10やエア・コンディショナー(エアコン)11、録画再生機器12と通信を行うことが可能である。また音声対話端末1は、赤外線通信のようなペアリングを必要としない通信方式を介して周辺機器を制御することも可能である。また音声対話端末1は、ここに示した電子機器以外の電子機器とも通信を行うことも可能である。また、一例として近距離無線通信システムを用いるものとして説明するが必ずしも近距離無線通信システムである必要はなく、通常の無線システム或いは有線通信システムを用いてもよい。
The voice interactive terminal 1 is also connected to a
音声対話端末1は、Bluetooth、ZigBee、Wi−Fi等の近距離無線通信システム7を介して携帯端末20により、音声対話端末1の機能設定等種々の制御をすることが可能である。また音声対話端末1は、音声対話サービス2を含むサーバ9を経由してネットワーク3を介して携帯端末21により、音声対話端末1の機能設定等種々の制御をすることが可能である。携帯端末20および携帯端末21には、音声対話端末1を制御するためのアプリケーション(感度設定アプリとも呼ぶ)がインストールされている。
The voice interactive terminal 1 can perform various controls such as function setting of the voice interactive terminal 1 by the
音声対話サービス2は、例えば音声対話サービスA2−1(図示しない)と音声対話サービスB2−2(図示しない)の2つの音声対話サービスを含んでもよい。この場合音声対話サービスA2−1と音声対話サービスB2−2のいずれを用いるかは、ユーザが発する特定ワードによって決定される。音声対話サービス2は、3つ以上の音声対話サービスを含んでもよい。
The
音声対話端末1は、ユーザが発した言葉を備え付けのマイク1−1で収集し、特定ワードと認識すると、以降のユーザの発話内容を継続してマイク1−1を通して収集し、この収集したユーザの発話内容の音声データを、ネットワーク3を介して音声対話サービス2に送る。
The voice interactive terminal 1 collects the words uttered by the user with the provided microphone 1-1, and when it recognizes it as a specific word, it continuously collects the utterance contents of the subsequent users through the microphone 1-1. Is sent to the
音声対話サービス2は、音声認識部2−1、対話処理部2−2、音声合成部2−3、検出感度算出部2−4からなる。
The
音声対話端末1から送られてきた音声データを受信した音声対話サービス2は、受信した音声データの音声認識部2−1で解析を行い、この解析した内容に応じた応答を対話処理部2−2で生成する。
The
音声対話サービス2が生成する応答内容は、音声による応答とコマンドによる応答との2種類の応答を含む。いずれの種類の応答を生成するかは、音声対話端末1から送られてきた音声データを音声認識部2−1で解析した結果による。音声による応答とコマンドによる応答に関しては、以降で詳細に説明する。
The response content generated by the
応答を生成すると、この生成した応答の内容によりを音声合成部2−3で音声データに変換し、この変換した音声データを、ネットワーク3を介して音声対話端末1に送信する。 When the response is generated, the content of the generated response is converted into voice data by the voice synthesizer 2-3, and the converted voice data is transmitted to the voice interactive terminal 1 via the network 3.
特定ワードとは、ユーザが発話する、音声対話端末1との対話処理を開始するための所定のキーワードのことであり、トリガワードあるいはウェイク表現あるいはボイストリガあるいは音声コマンドあるいは起動コマンドと呼んでもよい。以降の説明では、特定ワードをトリガワードと呼んで説明する。 The specific word is a predetermined keyword for starting a dialogue process with the voice dialogue terminal 1 uttered by the user, and may be called a trigger word, a wake expression, a voice trigger, a voice command, or an activation command. In the following description, the specific word is referred to as a trigger word.
音声対話端末1は、マイク1−1からユーザの発話内容を、図2に示すトリガワード検出処理部203によりトリガワードであると認識すると、トリガワード以降のユーザの発話内容を、音声対話端末1に対して話しかけられているものとして、ユーザの発話内容を継続して収集する。また音声対話端末1は、マイク1−1から一定時間ユーザの発話の入力がない場合、ユーザの発話が終了したと判断し、再びトリガワードが入力されるのを待つトリガワード入力待ち状態に遷移する。
When the voice conversation terminal 1 recognizes the user's utterance content from the microphone 1-1 as the trigger word by the trigger word
トリガワードは、予め決めれたものが登録されてあってもよいし、音声対話端末1の初期設定時にユーザにより任意に登録されてもよい。 A predetermined trigger word may be registered, or may be arbitrarily registered by the user at the time of initial setting of the voice interaction terminal 1.
音声対話サービス2の対話処理部2−2が生成する応答は、音声による応答とコマンドによる応答の2種類の応答を含む。
The response generated by the dialogue processing unit 2-2 of the
音声による応答は、音声対話端末1から入力される音声データに応じて音声対話サービス2が、音声で生成する応答である。
The response by voice is a response generated by the
コマンドによる応答は、音声対話端末1から入力される音声データに応じて、音声対話サービス2が、制御コマンドで生成する応答である。制御コマンドは、音声対話端末1がもつ電子機器(デバイス)あるいは音声対話端末1と近距離無線通信システム等を介して接続されている周辺機器(周辺デバイス)を制御するコマンドである。音声対話端末1がもつ電子機器(デバイス)は、例えば付属するカメラである。音声対話端末1と近距離無線通信システム等で接続されている周辺機器(周辺デバイス)は、例えば照明10やエア・コンディショナー(エアコン)11である。
The response by the command is a response generated by the
音声データによる応答の応答内容は、ユーザが音声対話端末1に対して発話した例えば「おはよう」に対する「おはようございます。今日は元気ですか?」のようにユーザが発話した内容に対応した返事である。また例えば「今から新幹線に乗って大阪に行くと何時に着くかな?」という質問に対する「今から30分後に出発すれば、夜の8時までに大阪駅に到着します」のようにユーザの問い掛けに対応した回答である。 The response content of the response by the voice data is a response corresponding to the content spoken by the user such as “Good morning, how are you today?” is there. In addition, for example, the user's question is “When do you get to Osaka by taking the Shinkansen?” “If you leave 30 minutes from now, you will arrive at Osaka Station by 8 pm” The answer corresponds to the question.
音声対話サービス2から応答を受け取った音声対話端末1は、その応答が音声データによる応答の場合は、その応答の内容を、例えば備え付けのスピーカ1−2より音声として出力することができる。これによりユーザは、自らの発話に対する音声対話システムの応答を聞くことができる。
The voice interactive terminal 1 that has received a response from the voice
コマンドによる応答の応答内容は、ユーザが音声対話端末1に対して発話した例えば「エアコンつけて」に対する「デバイス=エアコン10、操作=ON、モード=冷房、設定=温度26度、風量最大」の内容のコマンドである。また例えば「ちょっと電気つけて」に対する「デバイス=照明10、操作=ON」の内容のコマンドである。
The response content of the response by the command is “device =
音声対話サービス2から応答を受け取った音声対話端末1は、その応答がコマンドによる応答の場合は、コマンドに含まれている制御対象のデバイスの制御を行う。例えばコマンドの内容が「デバイス=エアコン10、操作=ON、モード=冷房、設定=温度26度、風量最大」の場合、音声対話端末1は、エアコン11を温度26度、風量最大の設定で起動するように、内部に持つWi-Fi、ZigBee、Bluetooth等の近距離無線通信システムを介して制御する。
The voice interactive terminal 1 that has received a response from the voice
コマンドによる応答の内容は、ユーザが音声対話端末1に対して発した例えば「AAA動画サービスのBBBコンテンツを再生して」に対する「play from www.xxxxxx.co.jp/musicBBB.wav」のように、コマンドの部分である「play」とユーザの発話の内容をもとにテキストデータに変換した部分である「www.xxxxxx.co.jp/musicBBB.wav」から構成される場合もある。 The content of the response by the command is, for example, “play from www.xxxx.co.jp/musicBBB.wav” for “playing back the BBB content of AAA video service” issued to the voice interactive terminal 1 by the user. , “Play” that is a command part and “www.xxxxxxxx.co.jp/musicBBB.wav” that is a part converted to text data based on the content of the user's utterance.
音声対話サービス2から応答を受け取った音声対話端末1は、その応答がテキストデータを含むコマンドによる応答の場合は、コマンドの解釈に加えてテキストデータ部分の解釈も行い、制御対象のデバイスの制御を行う。例えばコマンドの内容が「play from www.xxxxxx.co.jp/musicBBB.wav」の場合、音声対話端末1は、www.xxxxxx.co.jp/musicBBB.wavのデータを取得して、この取得したデータを音声対話端末1内で再生してもよい。
The voice interactive terminal 1 that has received a response from the voice
このように音声対話サービス2は、ユーザとの対話に基づく情報の提供を行うことができる。
As described above, the
また音声対話サービス2は、音声対話端末1からの音声データの入力がない場合でも、自発的に音声対話端末1に情報を提供してもよい。
Further, the
音声対話サービス2が自発的に提供する情報は、例えばユーザの近所のバス停へのバスの接近情報であったり、ユーザの居住地域への雨雲の接近情報であったりと、ユーザ個人のニーズに対応した情報であってもよいし、また例えば緊急地震速報や津波警報のように公共性の高い情報であってもよい。
The information provided spontaneously by the
図2は、図1に示した音声対話端末1の構成図である。 FIG. 2 is a block diagram of the voice interactive terminal 1 shown in FIG.
音声対話端末1は、ユーザが発した発話を収集するマイク1−1、収集した発話内容をノイズキャンセル等音響処理を行う音響処理部201、収集された発話内容からトリガワードを検出するトリガワード検出処理部203、トリガワード検出処理部203でトリガワードを検出したら、以降のユーザの発話内容を音声サービス2に送信するための処理を行う音声データ出力処理部202、出力する音声データを音声対話サービス2とやり取りする通信制御部204を含む。さらに音声対話端末1は、トリガワード検出処理部203でトリガワードを検出する際の検出感度を設定するトリガワード検出感度設定処理部205を含む。
The voice interactive terminal 1 includes a microphone 1-1 that collects utterances uttered by a user, an
検出感度は、マイク1−1から入力された音声データとトリガワードとの類似度を示すものである。トリガワード検出処理部203は、マイク1−1から入力された音声データとトリガワードとの類似度が、予め設定した閾値を超えた場合に、マイク1−1から入力された音声データは、トリガワードであると判断する。
The detection sensitivity indicates the similarity between the voice data input from the microphone 1-1 and the trigger word. The trigger word
トリガワード検出処理部203に設定されている閾値は、トリガワード検出感度設定処理部205が設定する感度設定値により更新される。
The threshold value set in the trigger word
音声対話端末1は、一定時間マイク1−1からユーザの発話の入力がない場合、トリガワードが入力されるのを待つトリガワード入力待ち状態に遷移する。音声対話端末1は、トリガワード検出処理部203において、マイク1−1から入力された音声が、予め登録されてトリガワードと一致するかの検出を常に行う。音声対話端末1は、トリガワード検出処理部203でトリガワードを検出すると、以降ユーザの発話内容をネットワーク3を介して音声サービス2に送信する。音声対話端末1は、トリガワード検出処理部203でトリガワードを検出した後も、一定時間マイク1−1からユーザの発話の入力がない場合は、再びトリガワード入力待ち状態に遷移する。
(第1の実施形態)
第1の実施形態の音声対話端末は、ユーザが携帯端末20あるいは携帯端末21にインストールされているアプリケーション(感度設定アプリ)を操作して、任意の検出感度の感度設定値を入力することで、トリガワード検出処理部203の検出感度を変更する音声対話端末である。
When there is no input of the user's utterance from the microphone 1-1 for a certain period of time, the voice interactive terminal 1 transits to a trigger word input waiting state waiting for a trigger word to be input. In the voice interactive terminal 1, the trigger word
(First embodiment)
In the voice interactive terminal according to the first embodiment, the user operates an application (sensitivity setting application) installed in the
図3は、第1の実施形態の音声対話端末に感度設定を行う場合の、全体構成図および感度設定に関するデータの流れを示す図である。 FIG. 3 is a diagram illustrating an overall configuration diagram and a flow of data related to sensitivity setting when sensitivity setting is performed in the voice interactive terminal according to the first embodiment.
携帯端末20を操作することでユーザが設定した感度設定値は、近距離無線通信システム7を介して音声対話端末1に送信することが出来る。また携帯端末21を操作することでユーザが設定した感度設定値は、サーバ9を経由してネットワーク3を介して音声対話端末1に送信することが出来る。これにより音声対話端末1は、トリガワード検出処理部203の検出感度を、携帯端末20あるいは携帯端末21のユーザ操作により自由に変更することができる。
The sensitivity setting value set by the user by operating the
図4は、携帯端末20あるいは携帯端末21にインストールされている音声対話端末1を制御するための感度設定アプリの、感度設定値を設定する設定画面の例である。
FIG. 4 is an example of a setting screen for setting a sensitivity setting value of a sensitivity setting application for controlling the voice interactive terminal 1 installed in the
携帯端末20あるいは携帯端末21のユーザは、スライドバー(スライダー)401を左右に移動させることで検出感度の感度設定値を上下させることができる。ユーザは、スライドバー401を任意の位置に設定し、設定ボタン402を押下することで、ユーザがスライドバー401に設定した位置に基づく感度設定値が、近距離無線通信システム7あるいはネットワーク3を介して音声対話端末1に送られ、トリガワード検出処理部203に設定される。
The user of the
図4の例は、スライドバー40を左右に移動させることで検出感度の設定値を上下させる場合の例であるが、検出感度の設定値(例えば0〜100)の数値を直接またはアップダウンさせて入力させる方法のユーザインターフェースであってもよい。 The example of FIG. 4 is an example in which the detection sensitivity setting value is raised or lowered by moving the slide bar 40 to the left or right, but the detection sensitivity setting value (for example, 0 to 100) is directly or up and down. It may be a user interface of a method of making it input.
図5Aは、第1の実施形態における音声対話端末1のトリガワードの検出感度の感度設定値を、ユーザが携帯端末20あるいは携帯端末21にインストールされているアプリケーションを操作して変更する場合の、音声対話端末1の処理フローである。
FIG. 5A shows the case where the user changes the sensitivity setting value of the trigger word detection sensitivity of the voice interactive terminal 1 in the first embodiment by operating an application installed in the
音声対話端末1の電源をONすると、音声対話端末1は音声対話端末処理を開始する(S500)。音声対話端末1は、起動後初期化処理を行い(S501)、マイク1−1から音声が入力されるのを待つ。 When the power of the voice interactive terminal 1 is turned on, the voice interactive terminal 1 starts a voice interactive terminal process (S500). The voice interactive terminal 1 performs an initialization process after activation (S501), and waits for a voice to be input from the microphone 1-1.
音声対話端末1は、マイク1−1から音声が入力される(S502)と、入力された音声データを音響処理部201でノイズの除去等音響処理を行う(S503)。次に音声対話端末1は、感度設定値を受信しているかを判定する(S504)。 When a voice is input from the microphone 1-1 (S502), the voice interactive terminal 1 performs acoustic processing such as noise removal on the input voice data by the acoustic processing unit 201 (S503). Next, the voice interaction terminal 1 determines whether a sensitivity setting value has been received (S504).
S504の判定の結果、感度設定値を受信した場合(S504のYes)、音声対話端末1は、トリガワード検出感度設定処理部205の検出感度を受信した感度設定値に設定する。音声対話端末1は、トリガワード検出感度設定処理部205の検出感度を設定すると、トリガワード検出処理を行う(S506)。
When the sensitivity setting value is received as a result of the determination in S504 (Yes in S504), the voice interactive terminal 1 sets the detection sensitivity of the trigger word detection sensitivity setting
S504の判定の結果、感度設定値を受信しなかった場合(S504のNo)、音声対話端末1は、トリガワード検出処理を行う(S506)。 If the sensitivity setting value is not received as a result of the determination in S504 (No in S504), the voice interactive terminal 1 performs a trigger word detection process (S506).
音声対話端末1は、S502の処理でマイク1−1から入力された音声と、予めトリガワードとして登録されている内容との類似度を算出し、この算出した類似度が予め決められた閾値を超えたかどうかを判定する(S506)。 The voice interactive terminal 1 calculates the similarity between the voice input from the microphone 1-1 in the process of S502 and the contents registered in advance as the trigger word, and sets the threshold for which the calculated similarity is determined in advance. It is determined whether it has been exceeded (S506).
S506の判定の結果、閾値を超えてる場合(S507のYes)、音声対話端末1は、S502でマイク1−1から入力された音声をトリガワードであると認識し、トリガワード以降に入力された音声データを、ネットワーク3を介して音声対話サービス2に送信する(S508)。
As a result of the determination in S506, when the threshold is exceeded (Yes in S507), the voice interaction terminal 1 recognizes the voice input from the microphone 1-1 in S502 as a trigger word, and is input after the trigger word. The voice data is transmitted to the
S506の判定の結果、閾値を超えていない場合(S507のNo)、音声対話端末1は、S302でマイク1−1から入力された音声からトリガワードを認識できなかったと判断し、トリガワード以降に入力された音声データを、音声対話サービス2に送信しない。
As a result of the determination in S506, if the threshold is not exceeded (No in S507), the voice interaction terminal 1 determines that the trigger word could not be recognized from the voice input from the microphone 1-1 in S302, and after the trigger word The input voice data is not transmitted to the
音声対話端末1は、電源がONであれば(S509のYes)、S502の処理へ戻りS503以降の処理を、電源がONである限り繰り返す。 If the power is on (Yes in S509), the voice interactive terminal 1 returns to the process of S502 and repeats the processes after S503 as long as the power is on.
図5Bは、第1の実施形態における音声対話端末1のトリガワードの検出感度の感度設定値を、ユーザが携帯端末20あるいは携帯端末21にインストールされているアプリケーションを操作して変更する場合の、携帯端末20あるいは携帯端末21の処理フローである。なお、携帯端末20の処理フローと携帯端末21の処理フローは同一であるので、携帯端末21の処理フローを例に説明する。
FIG. 5B shows a case where the sensitivity setting value of the trigger word detection sensitivity of the voice interactive terminal 1 in the first embodiment is changed by the user operating an application installed on the
携帯端末20のユーザが、感度設定値を設定する感度設定アプリを起動するためのアイコンをタップすると、感度設定アプリは携帯端末処理を開始する(S520)。感度設定アプリは、アイコンがタップされたことにより起動する(S521)と、例えば図4に示す表示内容(GUI画面)を携帯端末21の表示画面に表示する。
When the user of the
ユーザは、携帯端末20の表示画面に表示されている図4に示す表示内容により、感度設定値を調整して設定する(S522)。ユーザは、感度設定値を設定したあとに、図4の設定ボタン402を押下することで、設定された感度設定値がネットワーク3を介して音声対話端末1に送られ(S523)、トリガワード検出感度設定処理部205によりトリガワード検出処理部203の閾値が更新される。
The user adjusts and sets the sensitivity setting value according to the display content shown in FIG. 4 displayed on the display screen of the mobile terminal 20 (S522). After the sensitivity setting value is set, the user presses the
なお第1の実施形態の音声対話端末は、ユーザが携帯端末20あるいは携帯端末21にインストールされているアプリケーション(感度設定アプリ)を操作して感度設定値を入力する場合を例に説明したが、例えば音声対話端末1に感度設定アプリがインストールされていてもよい。この場合ユーザは、音声対話端末1にインストールされている感度設定アプリを直接操作することで、感度設定値を入力してもよい。
(第2の実施形態)
第2の実施形態の音声対話端末は、携帯端末21で設定した期間において収集した周辺の音声を音声対話サービス2に送信し、音声対話サービス2において音声対話端末1が収集した音声データを用いて算出した感度設定値を用いて、感度設定値を更新する音声対話端末である。音声対話端末1は、周辺の音声の収集を携帯端末21からの指示で行う。
In the voice interactive terminal according to the first embodiment, the case where the user operates the application (sensitivity setting application) installed in the
(Second Embodiment)
The voice interaction terminal according to the second embodiment transmits the surrounding voice collected during the period set by the
図6は、第2の実施形態の音声対話端末に感度設定を行う場合の、全体構成図および感度設定に関するデータの流れを示す図である。 FIG. 6 is a diagram illustrating an overall configuration diagram and a flow of data relating to sensitivity setting when sensitivity setting is performed in the voice interactive terminal according to the second embodiment.
ユーザは、携帯端末21にインストールされている感度設定アプリを操作することで、音声対話端末1が、周辺の音声をマイク1−1で収集する期間を指示することができる。ユーザは、携帯端末21の感度設定アプリにより、期間の開始として感度設定開始、期間の終了として感度設定終了を設定する。
The user can instruct a period during which the voice interactive terminal 1 collects surrounding sounds with the microphone 1-1 by operating the sensitivity setting application installed in the
感度設定アプリにより設定された感度設定開始および感度設定終了は、感度設定開始イベントおよび感度設定終了イベントとして、ネットワーク3を介してサーバ9を経由して音声対話端末1に送信される(S61)。 The sensitivity setting start and sensitivity setting end set by the sensitivity setting application are transmitted as a sensitivity setting start event and a sensitivity setting end event via the network 3 to the voice interactive terminal 1 via the server 9 (S61).
感度設定開始イベントおよび感度設定終了イベントを受信した音声対話端末1は、受信したイベントの内容に基づいて、設定された期間内にマイク1−1で収集した音声データを検出感度算出部2−4に送る(S62)。設定された期間内の音声データの送信処理は、図8Aを用いて説明する。なお、設定された期間中は、音声対話端末1に対して、ユーザはトリガワードを発しないことが望ましい。 Upon receiving the sensitivity setting start event and the sensitivity setting end event, the voice interactive terminal 1 detects the voice data collected by the microphone 1-1 within the set period based on the contents of the received event, and detects the sensitivity calculation unit 2-4. (S62). The audio data transmission process within the set period will be described with reference to FIG. 8A. Note that it is desirable that the user does not issue a trigger word to the voice interactive terminal 1 during the set period.
検出感度算出部2−4は、受信した音声データを用いて、トリガワードを発話していないのに、トリガワードを発したと誤検出した回数が一定回数(一定割合)以下になるようにトリガワードの検出感度を算出する。検出感度算出部2−4は、検出感度の算出が完了すると、この算出した感度設定値を音声対話端末1に送信する(S63)。感度設定の算出処理は、図8Cを用いて説明する。 The detection sensitivity calculation unit 2-4 uses the received audio data to trigger so that the number of times that the trigger word is erroneously detected is less than a certain number (a certain rate) even though the trigger word is not uttered. Calculate the word detection sensitivity. When the calculation of the detection sensitivity is completed, the detection sensitivity calculation unit 2-4 transmits the calculated sensitivity setting value to the voice interactive terminal 1 (S63). The sensitivity setting calculation process will be described with reference to FIG. 8C.
音声対話端末1は、検出感度算出部2−4から送られてきた感度設定値を、トリガワード検出処理部203に設定する。
The voice interactive terminal 1 sets the sensitivity setting value sent from the detection sensitivity calculation unit 2-4 in the trigger word
図7は、携帯端末20あるいは携帯端末21にインストールされている音声対話端末1を制御するためのアプリケーションにおける、周辺雑音の測定の開始および終了の設定画面の例である。携帯端末20あるいは携帯端末21のユーザは、任意のタイミンツで開始ボタン702と終了ボタン703を押下することができる。ユーザが開始ボタン702を押下すると、測定開始の通知(感度設定開始イベント)がネットワーク3を介して音声対話端末1に送られ、トリガワード検出処理部203が周辺雑音の測定を開始する。次にユーザが終了ボタン703を押下すると、測定終了の通知(感度設定終了イベント)がネットワーク3を介して音声対話端末1に送られ、トリガワード検出処理部203が周辺雑音の測定を終了する。
FIG. 7 is an example of a setting screen for starting and ending measurement of ambient noise in an application for controlling the voice interactive terminal 1 installed in the
図7に示す設定アプリの設定画面の例は、感度設定開始および感度設定終了を設定する例であるが、例えば感度設定開始と期間の長さの2つを設定できる設定画面を表示してもよい。また、ユーザが開始ボタン702を押下した後に終了ボタン703を押下しなくても、所定数秒間(例えば、10秒間)取得した周辺雑音の音声データを音声対話サービス2に送信し、この送信後に、感度設定終了のイベントを音声対話サービス2に送信する。このようにすることで終了ボタン703を省くことも可能である。
The example of the setting application setting screen shown in FIG. 7 is an example of setting sensitivity setting start and sensitivity setting end. For example, even if a setting screen that can set two of sensitivity setting start and period length is displayed. Good. Even if the user does not press the
図8Aは、第2の実施形態における音声対話端末が、携帯端末21で設定した期間収集した周辺の音声を音声対話サービス2に送信し、音声対話サービス2において音声対話端末1が収集した音声データにより算出した感度設定値を用いて、感度設定値を設定する場合の、音声対話端末1の処理フローである。
FIG. 8A shows the voice data collected by the voice dialogue terminal 1 in the
音声対話端末1の電源をONすると、音声対話端末1は音声対話端末処理を開始する(S800)。音声対話端末1は、起動後初期化処理を行い(801)、マイク1−1から音声が入力されるのを待つ。 When the power of the voice interactive terminal 1 is turned on, the voice interactive terminal 1 starts a voice interactive terminal process (S800). The voice interaction terminal 1 performs an initialization process after activation (801), and waits for a voice to be input from the microphone 1-1.
音声対話端末1は、マイク1−1から音声が入力される(S802)と、この入力された音声データを音響処理部201でノイズの除去等音響処理を行う(S803)。次に音声対話端末1は、感度設定開始イベントを受信しているかを判定する(S804)。 When voice is input from the microphone 1-1 (S802), the voice interactive terminal 1 performs acoustic processing such as noise removal on the input voice data by the acoustic processing unit 201 (S803). Next, the voice interaction terminal 1 determines whether a sensitivity setting start event has been received (S804).
S804の判定の結果、感度設定開始イベントを受信している場合(S804のYes)、音声対話端末1は、マイク1−1から入力された音声を、音声データとして音声対話サービス2に送信する(S812)。続いて音声対話端末1は、感度設定終了イベントを受信したかを判定する(S813)。
When the sensitivity setting start event is received as a result of the determination in S804 (Yes in S804), the voice interaction terminal 1 transmits the voice input from the microphone 1-1 to the
S813の判定の結果、感度設定終了イベントを受信していない場合(S813のNo)、音声対話端末1は、S802の処理に戻り、S802以降の処理を続ける。 If the sensitivity setting end event has not been received as a result of the determination in S813 (No in S813), the voice interaction terminal 1 returns to the processing in S802 and continues the processing from S802.
S804の判定の結果、感度設定開始イベントを受信していない場合(S804のNo)、音声対話端末1は、図5Aの処理フローのS504以降と同じ処理を行う。つまり音声対話端末1は、感度設定値を受信したかの判定(S805)と、トリガワードを検出したかの判定(808)を、電源がONされている間繰り返し行う。 As a result of the determination in S804, when the sensitivity setting start event has not been received (No in S804), the voice interaction terminal 1 performs the same processing as S504 and subsequent steps in the processing flow of FIG. 5A. That is, the voice interactive terminal 1 repeatedly determines whether a sensitivity setting value has been received (S805) and whether a trigger word has been detected (808) while the power is on.
またS813の判定の結果、感度設定終了イベントを受信していた場合(S813のYes)、音声対話端末1は、図5Aの処理フローのS504以降と同じ処理を行う。つまり、音声対話端末1は、感度設定値を受信したかの判定(S805)と、トリガワードを検出したかの判定(808)を、電源がONされている間繰り返し行う。 If the sensitivity setting end event is received as a result of the determination in S813 (Yes in S813), the voice interaction terminal 1 performs the same processing as S504 and subsequent steps in the processing flow of FIG. 5A. That is, the voice interactive terminal 1 repeatedly determines whether a sensitivity setting value has been received (S805) and whether a trigger word has been detected (808) while the power is on.
図8Bは、第2の実施形態における音声対話端末が、携帯端末21で設定した期間収集した周辺の音声を音声対話サービス2に送信し、音声対話サービス2において音声対話端末1が収集した音声データにより算出した感度設定値を用いて、感度設定値を更新する場合の、携帯端末21の処理フローである。
FIG. 8B shows the voice data collected by the voice dialogue terminal 1 in the
携帯端末21のユーザが感度設定アプリを起動するためのアイコンをタップすると、感度設定アプリは携帯端末処理を開始する(S820)。感度設定アプリは、アイコンがタップされたことにより起動する(S821)と、例えば図7に示す表示内容を携帯端末21の表示画面に表示する。
When the user of the
ユーザは、携帯端末21の表示画面に表示さている図7に示す表示内容の開始ボタン702を押下すると、感度設定開始イベントが、ネットワーク3を介して音声対話端末1に送信される。感度設定開始イベントを受信した音声対話端末1は、図8AのS804の処理においてYesと判定し、取得した周辺雑音の音声データを音声対話サービス2に送信を開始する。
When the user presses a display
つづいてユーザが、携帯端末20の表示画面に表示されている図7に示す表示内容の終了ボタン703を押下すると、感度設定終了イベントが、ネットワーク3を介して音声対話端末1に送られる。感度設定終了イベントを受信した音声対話端末1は、図8AのS813の処理においてをYesと判定し、周辺雑音の音声データの音声対話サービス2への送信を終了する。
Subsequently, when the user presses a display
図8Cは、第2の実施形態における音声対話端末が、携帯端末21で設定した期間収集した周辺の音声を音声対話サービス2に送信し、音声対話サービス2において音声対話端末1が収集した音声データにより算出した感度設定値を用いて、感度設定値を更新する場合の、検出感度算出部2−4の処理フローである。
FIG. 8C shows the voice data collected by the voice dialogue terminal 1 in the
音声対話サービス2の検出感度算出部2−4は、外部からイベントを受信するとクラウド処理を開始する(S830)。検出感度算出部2−4は、受信したイベントが感度設定開始かどうかを判定する(S831)。
The detection sensitivity calculation unit 2-4 of the
S831の判定の結果、受信したイベントが感度設定開始イベントである場合(S831がYes)、検出感度算出部2−4は、検出感度の調整を開始する(S832)。また検出感度算出部2−4は同時に、受信した感度設定開始イベントを音声対話端末1に送信する(S832)。 As a result of the determination in S831, if the received event is a sensitivity setting start event (S831 is Yes), the detection sensitivity calculation unit 2-4 starts adjusting detection sensitivity (S832). At the same time, the detection sensitivity calculation unit 2-4 transmits the received sensitivity setting start event to the voice interaction terminal 1 (S832).
検出感度算出部2−4は、感度設定開始イベントを音声対話端末1に送ることで、音声対話端末1から音声データが送られてくる(図8Aの812)のを待つ(S833)。検出感度算出部2−4は、音声対話端末1から音声データが送られてくる(S833)と、感度設定終了イベントを受信するまで、送られてくる音声データを受信し続ける(S834のNo)。 The detection sensitivity calculation unit 2-4 sends a sensitivity setting start event to the voice interaction terminal 1, and waits for the voice data to be transmitted from the voice interaction terminal 1 (812 in FIG. 8A) (S833). When the voice data is sent from the voice interaction terminal 1 (S833), the detection sensitivity calculation unit 2-4 continues to receive the voice data sent until a sensitivity setting end event is received (No in S834). .
検出感度算出部2−4は、感度設定終了イベントを受信すると(S834のYes)検出感度調整を終了する(S835)。また検出感度算出部2−4は同時に、受信した感度設定終了イベントを音声対話端末1に送信する(S835)。 When receiving the sensitivity setting end event (Yes in S834), the detection sensitivity calculation unit 2-4 ends the detection sensitivity adjustment (S835). At the same time, the detection sensitivity calculation unit 2-4 transmits the received sensitivity setting end event to the voice interaction terminal 1 (S835).
次に検出感度算出部2−4は、受信した音声データを用いて感度設定値を算出する(S836)。検出感度算出部2−4は、算出した感度設定値を音声対話端末1に送信し(S837)、処理を終了する。 Next, the detection sensitivity calculation unit 2-4 calculates a sensitivity setting value using the received audio data (S836). The detection sensitivity calculation unit 2-4 transmits the calculated sensitivity setting value to the voice interaction terminal 1 (S837), and ends the process.
以上のように第2の実施形態の音声対話端末は、音声対話端末が置かれている周辺の音の状況から算出された最適な感度設定値を用いて、トリガワードを検出する感度設定値を設定するので、音声対話端末1は、置かれている環境に適した感度でトリガワードを検出でき、ユーザが使い勝手が向上する。
(第3の実施形態)
第3の実施形態の音声対話端末は、ユーザの発話の内容により設定した期間において収集した周辺の音声を音声対話サービス2に送信し、音声対話サービス2において音声対話端末1が収集した音声データを用いて算出した感度設定値を用いて、感度設定値を設定する音声対話端末である。音声対話端末1は、周辺の音声の収集をユーザの発話による指示で行う。
As described above, the voice interactive terminal according to the second embodiment uses the optimum sensitivity setting value calculated from the surrounding sound situation where the voice interactive terminal is placed, and sets the sensitivity setting value for detecting the trigger word. Since it is set, the voice interactive terminal 1 can detect the trigger word with a sensitivity suitable for the environment in which it is placed, and the usability of the user is improved.
(Third embodiment)
The voice interaction terminal according to the third embodiment transmits the surrounding voice collected during the period set according to the content of the user's utterance to the
図9は、第3の実施形態の音声対話端末に感度設定を行う場合の、全体構成図および感度設定に関するデータの流れを示す図である。 FIG. 9 is a diagram illustrating an overall configuration diagram and a data flow related to sensitivity setting when sensitivity setting is performed in the voice interactive terminal according to the third embodiment.
ユーザは、音声対話端末1に発話することで、周辺の音声をマイク1−1で収集する期間を指示することができる。発話の内容は例えば、期間の開始を示す感度設定開始としての「トリガワード検出感度開始」、期間の終了を示す感度設定終了としての「トリガワード検出感度終了」でもよい。ユーザが発話した「トリガワード検出感度開始」および「トリガワード検出感度終了」は、音声データとして検出感度算出部2−4に送られ(S91)、検出感度算出部2−4において期間の開始と期間の終了として認識される。検出感度算出部2−4は、認識した期間の開始を感度設定開始イベントとして音声対話端末1に送信する(S91)。また検出感度算出部2−4は、認識した期間の終了を感度設定終了イベントとして音声対話端末1に送信する(S91)。 The user can instruct the period during which surrounding sounds are collected by the microphone 1-1 by speaking to the voice interactive terminal 1. The content of the utterance may be, for example, “trigger word detection sensitivity start” as the sensitivity setting start indicating the start of the period and “trigger word detection sensitivity end” as the sensitivity setting end indicating the end of the period. The “trigger word detection sensitivity start” and “trigger word detection sensitivity end” uttered by the user are sent to the detection sensitivity calculation unit 2-4 as voice data (S91), and the detection sensitivity calculation unit 2-4 determines the start of the period. Recognized as the end of the period. The detection sensitivity calculation unit 2-4 transmits the start of the recognized period to the voice interaction terminal 1 as a sensitivity setting start event (S91). The detection sensitivity calculation unit 2-4 transmits the end of the recognized period to the voice interaction terminal 1 as a sensitivity setting end event (S91).
また音声対話端末1は、マイク1−1から入力された音声を、音声データとして検出感度算出部2−4に送信する(S92)。 In addition, the voice interactive terminal 1 transmits the voice input from the microphone 1-1 to the detection sensitivity calculation unit 2-4 as voice data (S92).
音声対話端末1から送られてきた期間の開始を示す音声データである「トリガワード検出感度開始」、期間の終了を示す音声データである「トリガワード検出感度終了」を認識した検出感度算出部2−4は、この期間に受信した音声データを用いて、トリガワードを発話していないのに、トリガワードを発したとご検出した回数が一定回数以下になるようにトリガワードの検出感度を算出する。検出感度算出部2−4は、検出感度の算出が完了すると、算出した感度設定値を音声対話端末1に送信する(S93)。
図10Aは、第3の実施形態における音声対話端末が、ユーザの発話の内容により設定した期間において収集した周辺の音声を音声対話サービス2に送信し、音声対話サービス2において音声対話端末1が収集した音声データを用いて算出した感度設定値を用いて、感度設定値を更新する場合の、音声対話端末1の処理フローである。図10AのS1000からS1013までの処理は、図8AのS800からS813までの処理と同一である。
FIG. 10A shows that the voice conversation terminal according to the third embodiment transmits the surrounding voice collected during the period set according to the content of the user's utterance to the
図10Bは、第3の実施形態における音声対話端末が、ユーザの発話の内容により設定した期間において収集した周辺の音声を音声対話サービス2に送信し、音声対話サービス2において音声対話端末1が収集した音声データを用いて算出した感度設定値を用いて、感度設定値を更新する場合の、検出感度算出部2−4の処理フローである。
FIG. 10B shows that the voice conversation terminal according to the third embodiment transmits the surrounding voice collected during the period set according to the content of the user's utterance to the
図8Cの処理フローとの違いは、期間の開始を示す感度設定開始イベントを受信する代わりに期間の開始を示す音声データである「トリガワード検出感度開始」を受信して認識する点および、期間の終了を示す感度設定終了イベントを受信する代わりに期間の終了を示す音声データである「トリガワード検出感度終了」を受信して認識する点である。 The difference from the processing flow of FIG. 8C is that, instead of receiving the sensitivity setting start event indicating the start of the period, “trigger word detection sensitivity start” that is voice data indicating the start of the period is received and recognized, and the period Instead of receiving a sensitivity setting end event indicating the end of the period, “trigger word detection sensitivity end” which is audio data indicating the end of the period is received and recognized.
音声対話端末1は、トリガワードを認識し、マイク1−1から入力された音声を音声データとして音声対話サービス2に送信しているとする。音声対話サービス2は、音声対話端末1から送られてきた音声データを受信すると、クラウド処理(1020)を開始する。
It is assumed that the voice interaction terminal 1 recognizes the trigger word and transmits the voice input from the microphone 1-1 to the
検出感度算出部2−4は、受信した音声データの中から、期間の開始を示す音声データである「トリガワード検出感度開始」を認識すると(S1023のYes)、検出感度算出部2−4は、検出感度の調整を開始する(S1024)。また検出感度算出部2−4は、同時に受信した感度設定開始のイベントを音声対話端末1に送信する(S1024)。 When the detection sensitivity calculation unit 2-4 recognizes “start trigger word detection sensitivity”, which is audio data indicating the start of a period, from the received audio data (Yes in S1023), the detection sensitivity calculation unit 2-4 Then, adjustment of detection sensitivity is started (S1024). Also, the detection sensitivity calculation unit 2-4 transmits the simultaneously received sensitivity setting start event to the voice interaction terminal 1 (S1024).
検出感度算出部2−4は、受信した音声データの中から、期間の終了を示す音声データである「トリガワード検出感度終了」を認識するまで音声データを受信し続ける(S1025)。 The detection sensitivity calculation unit 2-4 continues to receive the voice data from the received voice data until it recognizes “end of trigger word detection sensitivity”, which is voice data indicating the end of the period (S1025).
検出感度算出部2−4は、受信した音声データの中から、期間の終了を示す音声データである「トリガワード検出感度終了」を認識する(S1026のYes)と検出感度調整を終了する(S1027)。検出感度算出部2−4は、検出感度調整を終了する(S1027)と、受信した音声データを用いて感度設定値を算出する(S1028)。検出感度算出部2−4は、算出した感度設定値を音声対話端末1に送信し(S1029)、処理を終了する(1030)。 The detection sensitivity calculator 2-4 recognizes “end of trigger word detection sensitivity”, which is audio data indicating the end of the period, from the received audio data (Yes in S1026), and ends the detection sensitivity adjustment (S1027). ). When the detection sensitivity adjustment ends (S1027), the detection sensitivity calculation unit 2-4 calculates a sensitivity setting value using the received audio data (S1028). The detection sensitivity calculation unit 2-4 transmits the calculated sensitivity setting value to the voice interactive terminal 1 (S1029), and ends the process (1030).
以上のように第3の実施形態の音声対話端末は、音声対話端末が置かれている周辺の音の状況から算出された最適な感度設定値を用いて、トリガワードを検出する感度設定値を更新することができ、かつ最適な感度設定値を算出を、ユーザの発話をトリガーにして実行することができるため、ユーザは携帯端末を操作する手間から解放され、さらにユーザの使い勝手が向上する。このよう音声対話端末1は、置かれている環境に適した感度でトリガワードを検出でき、ユーザが使い勝手が向上する。 As described above, the voice interaction terminal according to the third embodiment uses the optimum sensitivity setting value calculated from the state of the surrounding sound where the voice interaction terminal is placed, and sets the sensitivity setting value for detecting the trigger word. Since it is possible to update and to calculate the optimum sensitivity setting value using the user's utterance as a trigger, the user is freed from the trouble of operating the mobile terminal, and the user's usability is further improved. In this way, the voice interactive terminal 1 can detect the trigger word with a sensitivity suitable for the environment in which the voice interactive terminal 1 is placed, and the usability of the user is improved.
以上のように、本実施形態の音声対話端末は、音声対話端末が設定されている状況の応じて、トリガワードを検出する感度の設定を更新することが可能である。例えば。比較的騒がしい環境においては、第2の実施形態の機能を使い周辺環境に基づいた検出感度の設定を行うのに加え、第1の実施形態のユーザ操作による検出感度を設定を行ってもよい。 As described above, the voice interactive terminal according to the present embodiment can update the sensitivity setting for detecting the trigger word according to the situation in which the voice interactive terminal is set. For example. In a relatively noisy environment, in addition to setting the detection sensitivity based on the surrounding environment using the function of the second embodiment, the detection sensitivity by the user operation of the first embodiment may be set.
また第1の実施形態の機能および第2の実施形態の機能の両方を同時に使用してもよい。たとえば、ある位置に置かれた音声対話端末1に対して他の位置にいるユーザがトリガワードを発する場合の、検出感度を調整するシーンを想定する。この場合、第1の実施形態の機能だけで検出感度を決定すると誤検出が増えることが予想される。そこで、第2の実施形態の機能を合わせて使用することで、音声対話端末1とユーザの立ち位置の相対関係において、周辺環境を考慮にいれた最適な検出感度を設定することが可能である。
(第4の実施形態)
第1の実施形態から第3の実施形態において音声対話サービス2の検出感度算出部2−4は、サーバ9に存在しているが、音声対話端末1の中に存在していてもよい。
Moreover, you may use both the function of 1st Embodiment and the function of 2nd Embodiment simultaneously. For example, assume a scene in which detection sensitivity is adjusted when a user at another position issues a trigger word to the voice interactive terminal 1 placed at a certain position. In this case, it is expected that the number of false detections increases when the detection sensitivity is determined only by the function of the first embodiment. Therefore, by using the functions of the second embodiment together, it is possible to set the optimum detection sensitivity in consideration of the surrounding environment in the relative relationship between the voice interactive terminal 1 and the user's standing position. .
(Fourth embodiment)
In the first to third embodiments, the detection sensitivity calculation unit 2-4 of the
第4の実施形態の音声対話端末は、さらに検出感度算出部2−4を含む音声対話端末である。 The voice interactive terminal according to the fourth embodiment is a voice interactive terminal further including a detection sensitivity calculating unit 2-4.
図11および図12に、検出感度算出部2−4が音声対話端末1の中に存在している場合の全体構成図および感度設定に関するデータの流れの例を示す図である。 FIG. 11 and FIG. 12 are diagrams showing an example of the entire configuration diagram and the flow of data related to sensitivity setting when the detection sensitivity calculation unit 2-4 is present in the voice interaction terminal 1.
図11は、第2の実施形態の音声対話端末1の場合の図6に対応する、検出感度算出部2−4が音声対話端末1の中に存在している場合の、全体構成図および感度設定に関するデータの流れを示す図である。 FIG. 11 is an overall configuration diagram and sensitivity when the detection sensitivity calculation unit 2-4 exists in the voice interaction terminal 1 corresponding to FIG. 6 in the case of the voice interaction terminal 1 of the second embodiment. It is a figure which shows the flow of the data regarding a setting.
感度設定アプリにより設定された感度設定開始および感度設定終了は、感度設定開始イベントおよび感度設定終了イベントとして、ネットワーク3を介して音声対話端末1に送信される(S111)。音声対話端末1は、この感度設定開始イベントと感度設定終了イベントとの間、図6に示す例の場合同様に、周辺の音声をマイク1−1で収集するが、図11に示す例の場合は、図6に示すS62およびS63に相当する処理をすべて音声対話端末1の内部を行う点が、図6に示す例との相違点である。 The sensitivity setting start and sensitivity setting end set by the sensitivity setting application are transmitted as a sensitivity setting start event and a sensitivity setting end event to the voice interactive terminal 1 via the network 3 (S111). The voice interactive terminal 1 collects peripheral voices with the microphone 1-1 between the sensitivity setting start event and the sensitivity setting end event, as in the example shown in FIG. 6, but in the example shown in FIG. Is different from the example shown in FIG. 6 in that all the processes corresponding to S62 and S63 shown in FIG.
同様に図12は、第3の実施形態の音声対話端末1の場合の図9に対応する、検出感度算出部2−4が音声対話端末1の中に存在している場合の全体構成図および感度設定に関するデータの流れを示す図である。 Similarly, FIG. 12 is an overall configuration diagram in the case where the detection sensitivity calculation unit 2-4 exists in the voice interaction terminal 1 and corresponds to FIG. 9 in the case of the voice interaction terminal 1 of the third embodiment. It is a figure which shows the flow of the data regarding a sensitivity setting.
ユーザは、図9に示す例の場合同様に、音声対話端末1に発話することで、周辺の音声をマイク1−1で収集する期間を指示することができる。音声対話端末1は、この指示された期間、図6に示す例の場合同様に、周辺の音声をマイク1−1で収集するが、図12に示す例の場合は、図9に示すS91、S92およびS93の処理に相当する処理をすべて音声対話端末1の内部を行う点が、図9に示す例との相違点である。 As in the case of the example shown in FIG. 9, the user can instruct the period for collecting the surrounding sound with the microphone 1-1 by speaking to the voice interactive terminal 1. In the instructed period, the voice interactive terminal 1 collects peripheral voices with the microphone 1-1 as in the example shown in FIG. 6, but in the example shown in FIG. 12, S91 shown in FIG. The difference from the example shown in FIG. 9 is that all the processes corresponding to the processes of S92 and S93 are performed inside the voice interactive terminal 1.
本発明のいくつかの実施形態を説明したが、これらの実施形態は例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。さらにまた、請求項の各構成要素において、構成要素を分割して表現した場合、或いは複数を合わせて表現した場合、或いはこれらを組み合わせて表現した場合であっても本発明の範疇である。また、複数の実施形態を組み合わせてもよく、この組み合わせで構成される実施例も発明の範疇である。 Although several embodiments of the present invention have been described, these embodiments have been presented by way of example and are not intended to limit the scope of the invention. These novel embodiments can be implemented in various other forms, and various omissions, replacements, and changes can be made without departing from the scope of the invention. These embodiments and modifications thereof are included in the scope and gist of the invention, and are included in the invention described in the claims and the equivalents thereof. Furthermore, in each constituent element of the claims, even when the constituent element is expressed in a divided manner, when a plurality of constituent elements are expressed together, or when they are expressed in combination, they are within the scope of the present invention. Further, a plurality of embodiments may be combined, and an example constituted by this combination is also within the scope of the invention.
また、本明細書と各図において、既出の図に関して前述したものと同一又は類似した機能を発揮する構成要素には同一の参照符号を付し、重複する詳細な説明を適宜省略することがある。また請求項を制御ロジックとして表現した場合、コンピュータを実行させるインストラクションを含むプログラムとして表現した場合、及び前記インストラクションを記載したコンピュータ読み取り可能な記録媒体として表現した場合でも本発明の装置を適用したものである。また、使用している名称や用語についても限定されるものではなく、他の表現であっても実質的に同一内容、同趣旨であれば、本発明に含まれるものである。 In addition, in the present specification and each drawing, components that perform the same or similar functions as those described above with reference to the previous drawings are denoted by the same reference numerals, and repeated detailed description may be omitted as appropriate. . In addition, when the claims are expressed as control logic, when expressed as a program including instructions for causing a computer to execute, and when expressed as a computer-readable recording medium describing the instructions, the apparatus of the present invention is applied. is there. Further, the names and terms used are not limited, and other expressions are included in the present invention as long as they have substantially the same contents and the same concept.
1・・・音声対話端末、2・・・音声対話サービス、2−1・・・音声認識部、2−2・・・対話処理部、2−3・・・音声合成部、2−4検出感度算出部、3・・・ネットワーク、203・・・トリガワード検出処理部、205・・・トリガワード検出感度設定処理部。 DESCRIPTION OF SYMBOLS 1 ... Voice dialogue terminal, 2 ... Voice dialogue service, 2-1 ... Voice recognition part, 2-2 ... Dialog processing part, 2-3 ... Voice synthesis part, 2-4 detection Sensitivity calculation unit, 3... Network, 203... Trigger word detection processing unit, 205.
Claims (9)
ネットワークとの通信を制御する通信制御部と、
前記マイクから入力された音声を、前記通信制御部を介して前記ネットワークに出力する出力処理部と、
前記マイクから入力された前記音声のうち、予め定められたワードである特定ワードを検出する検出部と、
前記通信制御部を介して前記ネットワークより入力された、前記検出部が前記特定ワードを検出するための感度の値である感度設定値を、前記検出部に設定する設定部と、
を具備する音声対話端末。 With a microphone,
A communication control unit for controlling communication with the network;
An output processing unit that outputs audio input from the microphone to the network via the communication control unit;
A detection unit that detects a specific word that is a predetermined word among the voices input from the microphone;
A setting unit configured to set a sensitivity setting value, which is a sensitivity value for the detection unit to detect the specific word, input from the network via the communication control unit to the detection unit;
A voice interaction terminal comprising:
前記通信制御部を介して前記ネットワークより入力された、前記第1音声に基づいて算出された前記感度設定値を前記設定部が前記検出部に設定する、請求項1に記載の音声対話端末。 The output processing unit receives, via the communication control unit, the first sound input from the microphone between a sensitivity setting start event and a sensitivity setting end event input from the network via the communication control unit. Output to the network,
2. The voice interactive terminal according to claim 1, wherein the setting unit sets the sensitivity setting value calculated based on the first voice input from the network via the communication control unit in the detection unit.
前記通信制御部を介して前記ネットワークより入力された、前記第2音声に基づいて算出された前記感度設定値を前記設定部が前記検出部に設定する、請求項1に記載の音声対話端末。 The output processing unit receives the second sound input from the microphone between the first specific word indicating the start of sensitivity setting and the second specific word indicating the end of sensitivity setting, which is input from the microphone. Output to the network via the control unit,
The voice interactive terminal according to claim 1, wherein the setting unit sets the sensitivity setting value calculated based on the second voice input from the network via the communication control unit in the detection unit.
前記マイクから入力された音声のうち、予め定められたワードである特定ワードを検出する検出部と、
感度設定開始を示す開始イベントから感度設定終了を示す終了イベントまでの間に前記マイクから入力された第1音声に基づいて、前記検出部が前記特定ワードを検出するための感度の値である感度設定値を算出する感度算出部と、
前記感度算出部が算出した前記感度設定値を、前記検出部に設定する設定部と、
を具備する音声対話端末。 With a microphone,
Among the voices input from the microphone, a detection unit that detects a specific word that is a predetermined word;
Sensitivity that is a sensitivity value for the detection unit to detect the specific word based on the first sound input from the microphone between the start event indicating the start of sensitivity setting and the end event indicating the end of sensitivity setting. A sensitivity calculation unit for calculating a set value;
A setting unit that sets the sensitivity setting value calculated by the sensitivity calculation unit in the detection unit;
A voice interaction terminal comprising:
前記マイクから入力された音声のうち、予め定められたワードである特定ワードを検出するステップと、
前記ネットワークから入力された前記特定ワードを検出する感度の値である感度設定値に更新して前記特定ワードを検出するステップと、
からなる音声対話端末制御方法。 Outputting audio input from a microphone to a network;
Detecting a specific word, which is a predetermined word, from the voice input from the microphone;
Updating the sensitivity setting value, which is a sensitivity value for detecting the specific word input from the network, to detect the specific word;
A voice interactive terminal control method comprising:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018086985A JP2019191490A (en) | 2018-04-27 | 2018-04-27 | Voice interaction terminal, and voice interaction terminal control method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018086985A JP2019191490A (en) | 2018-04-27 | 2018-04-27 | Voice interaction terminal, and voice interaction terminal control method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019191490A true JP2019191490A (en) | 2019-10-31 |
JP2019191490A5 JP2019191490A5 (en) | 2020-06-25 |
Family
ID=68390305
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018086985A Pending JP2019191490A (en) | 2018-04-27 | 2018-04-27 | Voice interaction terminal, and voice interaction terminal control method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2019191490A (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112786042A (en) * | 2020-12-28 | 2021-05-11 | 北京百度网讯科技有限公司 | Method, device and equipment for adjusting vehicle-mounted voice equipment and storage medium |
WO2022169039A1 (en) * | 2021-02-02 | 2022-08-11 | 삼성전자주식회사 | Electronic apparatus and controlling method thereof |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011118822A (en) * | 2009-12-07 | 2011-06-16 | Nec Casio Mobile Communications Ltd | Electronic apparatus, speech detecting device, voice recognition operation system, and voice recognition operation method and program |
JP2013015726A (en) * | 2011-07-05 | 2013-01-24 | Yamaha Corp | Voice recording server device and voice recording system |
JP2016033530A (en) * | 2014-07-30 | 2016-03-10 | 株式会社東芝 | Utterance section detection device, voice processing system, utterance section detection method and program |
JP2017515147A (en) * | 2014-04-17 | 2017-06-08 | クアルコム,インコーポレイテッド | Keyword model generation to detect user-defined keywords |
JP2017537361A (en) * | 2014-09-12 | 2017-12-14 | アップル インコーポレイテッド | Dynamic threshold for always listening for speech trigger |
-
2018
- 2018-04-27 JP JP2018086985A patent/JP2019191490A/en active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011118822A (en) * | 2009-12-07 | 2011-06-16 | Nec Casio Mobile Communications Ltd | Electronic apparatus, speech detecting device, voice recognition operation system, and voice recognition operation method and program |
JP2013015726A (en) * | 2011-07-05 | 2013-01-24 | Yamaha Corp | Voice recording server device and voice recording system |
JP2017515147A (en) * | 2014-04-17 | 2017-06-08 | クアルコム,インコーポレイテッド | Keyword model generation to detect user-defined keywords |
JP2016033530A (en) * | 2014-07-30 | 2016-03-10 | 株式会社東芝 | Utterance section detection device, voice processing system, utterance section detection method and program |
JP2017537361A (en) * | 2014-09-12 | 2017-12-14 | アップル インコーポレイテッド | Dynamic threshold for always listening for speech trigger |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112786042A (en) * | 2020-12-28 | 2021-05-11 | 北京百度网讯科技有限公司 | Method, device and equipment for adjusting vehicle-mounted voice equipment and storage medium |
CN112786042B (en) * | 2020-12-28 | 2024-05-31 | 阿波罗智联(北京)科技有限公司 | Adjustment method, device, equipment and storage medium of vehicle-mounted voice equipment |
WO2022169039A1 (en) * | 2021-02-02 | 2022-08-11 | 삼성전자주식회사 | Electronic apparatus and controlling method thereof |
US11929081B2 (en) | 2021-02-02 | 2024-03-12 | Samsung Electronics Co., Ltd. | Electronic apparatus and controlling method thereof |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11470382B2 (en) | Methods and systems for detecting audio output of associated device | |
US10672387B2 (en) | Systems and methods for recognizing user speech | |
JP6819672B2 (en) | Information processing equipment, information processing methods, and programs | |
JP6791356B2 (en) | Control method of voice terminal, voice command generation system, and voice command generation system | |
JP2019086903A (en) | Speech interaction terminal and speech interaction terminal control method | |
US9293134B1 (en) | Source-specific speech interactions | |
KR20190031785A (en) | Speech signal recognition system recognizing speech signal of a plurality of users by using personalization layer corresponding to each of the plurality of users | |
KR102628211B1 (en) | Electronic apparatus and thereof control method | |
KR102056330B1 (en) | Apparatus for interpreting and method thereof | |
JP3838029B2 (en) | Device control method using speech recognition and device control system using speech recognition | |
JP2011022600A (en) | Method for operating speech recognition system | |
US11862153B1 (en) | System for recognizing and responding to environmental noises | |
JP2016114744A (en) | Electronic device control system, terminal device and server | |
JP2014191029A (en) | Voice recognition system and method for controlling voice recognition system | |
JP2009178783A (en) | Communication robot and control method thereof | |
JP6678315B2 (en) | Voice reproduction method, voice interaction device, and voice interaction program | |
JP2019191490A (en) | Voice interaction terminal, and voice interaction terminal control method | |
JP2019184809A (en) | Voice recognition device and voice recognition method | |
JP2010078763A (en) | Voice processing device, voice processing program, and intercom system | |
KR20200089594A (en) | Sound System for stage, and control method thereof. | |
KR20210098250A (en) | Electronic device and Method for controlling the electronic device thereof | |
JP2005192004A (en) | Headset, and reproducing method for music data of the same | |
US20240079007A1 (en) | System and method for detecting a wakeup command for a voice assistant | |
KR20190029236A (en) | Method for interpreting | |
WO2020208972A1 (en) | Response generation device and response generation method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200423 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200423 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210318 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210330 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210521 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210817 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20220301 |