[go: up one dir, main page]

JP6773876B2 - Input / output device - Google Patents

Input / output device Download PDF

Info

Publication number
JP6773876B2
JP6773876B2 JP2019222635A JP2019222635A JP6773876B2 JP 6773876 B2 JP6773876 B2 JP 6773876B2 JP 2019222635 A JP2019222635 A JP 2019222635A JP 2019222635 A JP2019222635 A JP 2019222635A JP 6773876 B2 JP6773876 B2 JP 6773876B2
Authority
JP
Japan
Prior art keywords
voice
output
input
level
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019222635A
Other languages
Japanese (ja)
Other versions
JP2020052419A (en
Inventor
貴嗣 外山
貴嗣 外山
猪谷 浩和
浩和 猪谷
正陽 松本
正陽 松本
正史 田辺
正史 田辺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Pioneer Corp
Original Assignee
Pioneer Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Pioneer Corp filed Critical Pioneer Corp
Priority to JP2019222635A priority Critical patent/JP6773876B2/en
Publication of JP2020052419A publication Critical patent/JP2020052419A/en
Application granted granted Critical
Publication of JP6773876B2 publication Critical patent/JP6773876B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Navigation (AREA)
  • Telephone Function (AREA)

Description

本発明は、発話した音声を認識する音声認識装置等に用いる入出力装置に関する。 The present invention relates to an input / output device used for a voice recognition device or the like that recognizes a spoken voice.

近年、車載機器や携帯機器等において、ボタン等の操作が不要で、音声のみで簡単に操作できるようにするため、音声認識装置(音声認識機能)が内蔵されているものが多い。 In recent years, many in-vehicle devices, mobile devices, and the like have a built-in voice recognition device (voice recognition function) so that they do not need to operate buttons or the like and can be easily operated only by voice.

この種の音声認識装置においては、入力音声に対して、入力音声に対応する処理結果を音声情報や画像等の表示情報で応答として出力したり、入力を受け付けた旨や認識結果等の応答を音声情報や表示情報で出力したりする。このような応答の方法は、発話者の周囲の状況を考慮せずに、例えば、一定の音声レベルや一定の輝度など必ず決められた方式で行われていた。 In this type of voice recognition device, the processing result corresponding to the input voice is output as a response with the display information such as voice information and images, and the response such as the acceptance of the input and the recognition result is output to the input voice. Output as voice information or display information. Such a response method has always been performed by a predetermined method such as a constant voice level and a constant brightness without considering the surrounding situation of the speaker.

音声認識装置で発話者の周囲の状況を考慮して動作する方法としては、特許文献1に記載の方法が一例として挙げられる。特許文献1に記載の音声認識装置は、携帯型情報端末装置の使用状態に応じて入力した音声レベルを適切なレベルに増幅し、認識率低下の防止を可能としている。 As an example of the method of operating the voice recognition device in consideration of the surrounding situation of the speaker, the method described in Patent Document 1 can be mentioned. The voice recognition device described in Patent Document 1 amplifies the input voice level according to the usage state of the portable information terminal device to an appropriate level, and makes it possible to prevent a decrease in the recognition rate.

特許第4299768号公報Japanese Patent No. 4299768

従来の音声認識装置では、発話者の周囲の状況を考慮せずに、必ず決められた方式で応答するので、発話者が周囲の人間に応答の内容を、聞かれたくない、又は、見られたくない、といった場合には対応できず音声認識装置の利用を控えるしかなかった。そのため、そのような状況ではボタン等による操作を行わなければならず不便に感じるという問題があった。 In a conventional voice recognition device, the speaker always responds in a fixed manner without considering the surrounding situation of the speaker, so that the speaker does not want or can see the contents of the response to the surrounding people. If I didn't want to, I couldn't handle it and had to refrain from using the voice recognition device. Therefore, in such a situation, there is a problem that it is inconvenient to operate with a button or the like.

特許文献1に記載された音声認識装置は、あくまで認識率低下を防止するために、入力音声レベルを制御するものであり、上述したような音声認識装置からの応答については何ら考慮されていない。 The voice recognition device described in Patent Document 1 controls the input voice level in order to prevent a decrease in the recognition rate, and does not consider the response from the voice recognition device as described above.

そこで、本発明は、上述した問題に鑑み、例えば、入力に対する応答を周囲の状況に応じて変化させて出力することができる入出力装置を提供することを課題とする。 Therefore, in view of the above-mentioned problems, it is an object of the present invention to provide, for example, an input / output device capable of changing and outputting a response to an input according to a surrounding situation.

上記課題を解決するために、請求項1に記載の発明は、音声を出力する音声出力部と、
画像を表示する表示部と、ユーザの発話音声を音声信号として音声認識手段に出力する発話音声信号出力部と、前記音声認識手段の認識結果に応じた応答情報を取得する応答情報取得部と、前記音声信号の音声レベルが所定の音声レベルよりも小さい場合には、前記応答情報に基づく音声を前記音声出力部により出力させず、且つ前記応答情報に基づく画像を前記表示部により表示させる制御部と、を備えることを特徴としている。
In order to solve the above problems, the invention according to claim 1 includes an audio output unit that outputs audio and an audio output unit.
A display unit that displays an image, an utterance voice signal output unit that outputs the user's utterance voice as a voice signal to the voice recognition means, and a response information acquisition unit that acquires response information according to the recognition result of the voice recognition means. When the voice level of the voice signal is lower than the predetermined voice level, the control unit that does not output the voice based on the response information by the voice output unit and displays the image based on the response information by the display unit. It is characterized by having.

請求項4に記載の発明は、音声出力部と表示部を備える入出力装置が実行する入出力方法であって、ユーザの発話音声を音声信号として音声認識手段に出力する発話音声信号出力工程と、前記音声認識手段の認識結果に応じた応答情報を取得する応答情報取得工程と、前記音声信号の音声レベルが所定の音声レベルよりも小さい場合には、前記応答情報に基づく音声を前記音声出力部により出力させず、且つ前記応答情報に基づく画像を前記表示部により表示させる制御工程と、を含むことを特徴としている。 The invention according to claim 4 is an input / output method executed by an input / output device including a voice output unit and a display unit, which comprises a voice signal output step of outputting a user's voice as a voice signal to a voice recognition means. , The response information acquisition step of acquiring the response information according to the recognition result of the voice recognition means, and when the voice level of the voice signal is smaller than the predetermined voice level, the voice based on the response information is output as the voice. It is characterized by including a control step of displaying an image based on the response information by the display unit without being output by the unit.

請求項5に記載の発明は、音声出力部と表示部を備える入出力装置のコンピュータにより実行される入出力プログラムであって、前記コンピュータを、ユーザの発話音声を音声信号として音声認識手段に出力する発話音声信号出力部と、前記音声認識手段の認識結果に応じた応答情報を取得する応答情報取得部と、前記音声信号の音声レベルが所定の音声レベルよりも小さい場合には、前記応答情報に基づく音声を前記音声出力部により出力させず、且つ前記応答情報に基づく画像を前記表示部により表示させる制御部と、して機能させることを特徴としている。 The invention according to claim 5 is an input / output program executed by a computer of an input / output device including a voice output unit and a display unit, and outputs the computer to a voice recognition means as a voice signal of a user's spoken voice. Spoken voice signal output unit, response information acquisition unit that acquires response information according to the recognition result of the voice recognition means, and response information when the voice level of the voice signal is smaller than a predetermined voice level. It is characterized in that it functions as a control unit that does not output the voice based on the above by the voice output unit and displays an image based on the response information by the display unit.

請求項6に記載の発明は、請求項5に記載の入出力プログラムを格納したことを特徴としている。 The invention according to claim 6 is characterized in that the input / output program according to claim 5 is stored.

本発明の第1の実施例にかかる入出力装置の構成図である。It is a block diagram of the input / output device which concerns on 1st Example of this invention. 図1に示された入出力装置の動作のフローチャートである。It is a flowchart of the operation of the input / output device shown in FIG. 本発明の第2の実施例にかかる入出力装置の構成図である。It is a block diagram of the input / output device which concerns on 2nd Embodiment of this invention. 図2に示された入出力装置の動作のフローチャートである。It is a flowchart of the operation of the input / output device shown in FIG. 本発明の他の実施例にかかる入出力装置の構成図である。It is a block diagram of the input / output device which concerns on another Example of this invention. 本発明の他の実施例にかかる入出力装置の構成図である。It is a block diagram of the input / output device which concerns on another Example of this invention.

以下、本発明の一実施形態にかかる入出力装置を説明する。本発明の一実施形態にかかる入出力装置は、発話した入力音声を集音する第1集音手段と、第1集音手段が集音した入力音声を音声認識手段に出力する第1出力手段と、音声認識手段からの応答を取得する応答取得手段と、応答取得手段が取得した応答を出力する第2出力手段と、を有している。そして、第1集音手段が集音した入力音声の音声レベルである入力音声レベルを検出し、その入力音声レベルを予め定めた所定の音声レベルと比較する音声レベル比較手段と、音声レベル比較手段が比較した入力音声レベルが所定の音声レベルよりも小さい場合に、周囲から応答が認識しにくくなるように第2出力手段の出力を変化させる制御手段と、を更に有している。このようにすることにより、入力音声の音声レベルが小さい場合は、音声認識の応答を周囲に聞かれたくない、又は、見られたくないと判断して第2出力手段の出力を周囲から認識しにくくなるように変化させることができる。したがって、入力に対する応答を周囲の状況に応じて変化させて出力することができる。 Hereinafter, an input / output device according to an embodiment of the present invention will be described. The input / output device according to the embodiment of the present invention includes a first sound collecting means for collecting the spoken input sound and a first output means for outputting the input sound collected by the first sound collecting means to the voice recognition means. A response acquisition means for acquiring a response from the voice recognition means, and a second output means for outputting the response acquired by the response acquisition means. Then, a voice level comparing means and a voice level comparing means that detect the input voice level which is the voice level of the input voice collected by the first sound collecting means and compare the input voice level with a predetermined voice level. Further has a control means for changing the output of the second output means so that the response is difficult to be recognized from the surroundings when the input voice level compared with is smaller than the predetermined voice level. By doing so, when the voice level of the input voice is low, it is determined that the voice recognition response is not desired to be heard or seen by the surroundings, and the output of the second output means is recognized from the surroundings. It can be changed to make it difficult. Therefore, the response to the input can be changed and output according to the surrounding situation.

また、第2出力手段は、応答を音として出力する音声出力手段を有し、制御手段は、音声レベル比較手段が比較した結果が、所定の音声レベルよりも小さい場合に、音声出力手段から出力される音を小さくしてもよい。このようにすることにより、音声認識の応答を周囲に聞かれたくない場合にスピーカ等の音声出力手段から出力される音を小さくすることができる。 Further, the second output means has a voice output means that outputs a response as a sound, and the control means outputs the response from the voice output means when the result of comparison by the voice level comparison means is smaller than a predetermined voice level. The sound produced may be reduced. By doing so, it is possible to reduce the sound output from the voice output means such as a speaker when it is not desired to hear the voice recognition response to the surroundings.

また、第2出力手段は、応答を画像として表示する表示手段を更に有し、制御手段は、音声レベル比較手段が比較した結果が、所定の音声レベルよりも小さい場合に、表示手段の表示を停止させるとともに、音声出力手段から出力される音を小さくしてもよい。このようにすることにより、音声出力手段と表示手段の双方を有する際には、表示手段の表示を止めてスピーカ等の音声出力手段から出力される音を小さくして出力することができる。 Further, the second output means further includes a display means for displaying the response as an image, and the control means displays the display means when the result of comparison by the voice level comparison means is smaller than a predetermined voice level. The sound output from the audio output means may be reduced while being stopped. By doing so, when both the audio output means and the display means are provided, the display of the display means can be stopped and the sound output from the audio output means such as a speaker can be reduced and output.

また、第2出力手段は、応答を音として外部音声出力手段から出力させるための出力インタフェースを更に有し、制御手段は、音声レベル比較手段が比較した結果が、所定の音声レベルよりも小さい場合に、出力インタフェースのみに応答を出力させるようにしてもよい。このようにすることにより、音声認識の応答を周囲に聞かれたくない場合に、イヤホンなどの外部音声出力手段のみから音を出力させることができる。 Further, the second output means further has an output interface for outputting the response as sound from the external voice output means, and the control means means that the result of comparison by the voice level comparison means is smaller than a predetermined voice level. In addition, the response may be output only to the output interface. By doing so, when it is not desired to hear the voice recognition response from the surroundings, the sound can be output only from an external voice output means such as an earphone.

また、第2出力手段は、応答を画像として表示する表示手段を有し、制御手段は、音声レベル比較手段が比較した結果が、所定の音声レベルよりも小さい場合に、画像が周囲から認識しにくくなるように表示手段の表示を変化させるようにしてもよい。このようにすることにより、音声認識の応答を周囲に見られたくない場合に、例えば、液晶ディスプレイ等の表示手段の輝度や視認角度などを変化させることができる。 Further, the second output means has a display means for displaying the response as an image, and the control means recognizes the image from the surroundings when the result of comparison by the voice level comparison means is smaller than a predetermined voice level. The display of the display means may be changed so as to make it difficult. By doing so, it is possible to change, for example, the brightness and viewing angle of a display means such as a liquid crystal display when it is not desired to see the voice recognition response in the surroundings.

また、第2出力手段は、応答を音として出力する音声出力手段を更に有し、制御手段は、音声レベル比較手段が比較した結果が、所定の音声レベルよりも小さい場合に、音声出力手段の出力を停止させるとともに、画像が周囲から認識しにくくなるように表示手段の表示を変化させてもよい。このようにすることにより、音声出力手段と表示手段の双方を有する際には、音声出力手段からの音の出力を止めて表示装置の表示を認識しにくくすることができる。 Further, the second output means further includes a voice output means that outputs a response as a sound, and the control means of the voice output means when the result of comparison by the voice level comparison means is smaller than a predetermined voice level. The output may be stopped and the display of the display means may be changed so that the image is difficult to recognize from the surroundings. By doing so, when both the audio output means and the display means are provided, the sound output from the audio output means can be stopped to make it difficult to recognize the display of the display device.

また、本発明の一実施形態にかかる入出力装置は、発話した入力音声を集音する第1集音手段と、入力音声以外の周囲音を集音する第2集音手段と、第1集音手段が集音した入力音声を音声認識手段に出力する第1出力手段と、第2集音手段が集音した周囲音の音声レベルである周囲音レベルを検出する周囲音レベル検出手段と、音声認識手段からの応答を取得する応答取得手段と、応答取得手段が取得した応答を出力する第2出力手段と、を有している。そして、第1集音手段が集音した入力音声の音声レベルである入力音声レベルを検出し、その入力音声レベルと周囲音レベル検出手段が検出した周囲音レベルとの比を算出する比算出手段と、比算出手段が算出した比が予め定めた所定の値よりも小さい場合に、周囲から応答が認識しにくくなるように第2出力手段の出力を変化させる制御手段と、とを更に有している。このようにすることにより、発話者の周囲の状況を入力音声と周囲音との比から判断することができる。つまり、発話した入力音声レベルと周囲音レベルの比(S/N比)が小さい場合は周囲に人が多い状況であって小さい声で発話していると判断できるので、音声認識の応答を周囲に聞かれたくない、又は、見られたくないとして出力手段の出力を変化させることができる。 Further, the input / output device according to the embodiment of the present invention includes a first sound collecting means for collecting the spoken input sound, a second sound collecting means for collecting ambient sounds other than the input sound, and a first collection. The first output means for outputting the input sound collected by the sound means to the voice recognition means, the ambient sound level detecting means for detecting the ambient sound level which is the sound level of the ambient sound collected by the second sound collecting means, and the ambient sound level detecting means. It has a response acquisition means for acquiring a response from the voice recognition means, and a second output means for outputting the response acquired by the response acquisition means. Then, the ratio calculation means that detects the input voice level, which is the voice level of the input voice collected by the first sound collecting means, and calculates the ratio between the input voice level and the ambient sound level detected by the ambient sound level detecting means. Further, when the ratio calculated by the ratio calculating means is smaller than a predetermined value, the control means for changing the output of the second output means so that the response is difficult to be recognized from the surroundings is further provided. ing. By doing so, the surrounding situation of the speaker can be judged from the ratio of the input voice and the ambient sound. In other words, if the ratio of the spoken input voice level to the ambient sound level (S / N ratio) is small, it can be determined that there are many people around and the utterance is made in a small voice. You can change the output of the output means as you do not want to be heard or seen by.

また、本発明の一実施形態にかかる入出力方法は、発話した入力音声に対して音声認識手段からの応答を出力する入出力装置における入出力方法であって、入力音声を集音する第1集音手段が集音した音声の音声レベルである入力音声レベルを検出し、その入力音声レベルを予め定めた所定の音声レベルと比較する音声レベル比較工程と、音声レベル比較工程で比較した入力音声レベルが所定の音声レベルよりも小さい場合に、周囲から音声認識手段の応答が認識しにくくなるように、応答の出力を変化させる制御工程と、を含んでいる。このようにすることにより、入力音声の音声レベルが小さい場合は、音声認識の応答を周囲に聞かれたくない、又は、見られたくないと判断して応答の出力を変化させることができる。したがって、入力に対する応答を周囲の状況に応じて変化させて出力することができる。 Further, the input / output method according to the embodiment of the present invention is an input / output method in an input / output device that outputs a response from the voice recognition means to the spoken input voice, and is a first input / output method for collecting the input voice. The input voice level compared in the voice level comparison step and the voice level comparison step of detecting the input voice level, which is the voice level of the voice collected by the sound collecting means, and comparing the input voice level with a predetermined voice level. It includes a control step of changing the output of the response so that the response of the speech recognition means is difficult to recognize from the surroundings when the level is smaller than a predetermined speech level. By doing so, when the voice level of the input voice is low, it is possible to determine that the voice recognition response is not heard or seen by the surroundings and change the output of the response. Therefore, the response to the input can be changed and output according to the surrounding situation.

また、上述した入出力方法をコンピュータにより実行させる入出力プログラムとして構成してもよい。このようにすることにより、コンピュータを利用して、入力音声の音声レベルが小さい場合は、音声認識の応答を周囲に聞かれたくない、又は、見られたくないと判断して応答の出力を変化させることができる。したがって、入力に対する応答を周囲の状況に応じて変化させて出力することができる。 Further, it may be configured as an input / output program in which the above-mentioned input / output method is executed by a computer. By doing so, when the voice level of the input voice is low using a computer, it is judged that the voice recognition response is not heard or seen by the surroundings, and the output of the response is changed. Can be made to. Therefore, the response to the input can be changed and output according to the surrounding situation.

また、上述した音声認識プログラムをコンピュータ読み取り可能な記録媒体に格納してもよい。このようにすることにより、当該プログラムを機器に組み込む以外に単体でも流通させることができ、バージョンアップ等も容易に行える。 Further, the above-mentioned voice recognition program may be stored in a computer-readable recording medium. By doing so, the program can be distributed as a single unit in addition to being incorporated in the device, and version upgrades and the like can be easily performed.

また、本発明の一実施形態にかかる入出力方法は、発話した入力音声に対して音声認識手段からの応答を出力する入出力装置における入出力方法であって、入力音声を集音する第1集音手段が集音した音声の音声レベルである入力音声レベルを検出し、入力音声以外の周囲音を集音する第2集音手段が集音した周囲音の音声レベルである周囲音レベルを検出し、入力音声レベルと周囲音レベルとの比を算出する比算出工程と、比算出工程で比較した比が予め定めた所定の値よりも小さい場合に、周囲から音声認識手段の応答が認識しにくくなるように、応答の出力を変化させる制御工程と、を含んでいる。このようにすることにより、発話者の周囲の状況を入力音声と周囲音との比から判断することができる。つまり、発話した入力音声レベルと周囲音レベルの比(S/N比)が小さい場合は周囲に人が多い状況であって小さい声で発話していると判断できるので、音声認識の応答を周囲に聞かれたくない、又は、見られたくないとして出力手段の出力を変化させることができる。 Further, the input / output method according to the embodiment of the present invention is an input / output method in an input / output device that outputs a response from the voice recognition means to the spoken input sound, and is a first input / output method for collecting the input sound. The input sound level, which is the sound level of the sound collected by the sound collecting means, is detected, and the ambient sound level, which is the sound level of the ambient sound collected by the second sound collecting means, is used to collect the ambient sound other than the input sound. When the ratio calculation step of detecting and calculating the ratio of the input voice level to the ambient sound level and the ratio compared in the ratio calculation step are smaller than a predetermined value, the response of the voice recognition means is recognized from the surroundings. It includes a control step that changes the output of the response so that it is difficult to do. By doing so, the surrounding situation of the speaker can be judged from the ratio of the input voice and the ambient sound. In other words, if the ratio of the spoken input voice level to the ambient sound level (S / N ratio) is small, it can be determined that there are many people around and the utterance is made in a small voice. You can change the output of the output means as you do not want to be heard or seen by.

また、上述した入出力方法をコンピュータにより実行させる入出力プログラムとして構成してもよい。このようにすることにより、コンピュータを利用して、S/N比が小さい場合は、音声認識の応答を周囲に聞かれたくない、又は、見られたくないと判断して応答の出力を変化させることができる。したがって、入力に対する応答を周囲の状況に応じて変化させて出力することができる。 Further, it may be configured as an input / output program in which the above-mentioned input / output method is executed by a computer. By doing so, when the S / N ratio is small, the computer is used to determine that the voice recognition response is not heard or seen by the surroundings, and the output of the response is changed. be able to. Therefore, the response to the input can be changed and output according to the surrounding situation.

また、上述した音声認識プログラムをコンピュータ読み取り可能な記録媒体に格納してもよい。このようにすることにより、当該プログラムを機器に組み込む以外に単体でも流通させることができ、バージョンアップ等も容易に行える。 Further, the above-mentioned voice recognition program may be stored in a computer-readable recording medium. By doing so, the program can be distributed as a single unit in addition to being incorporated in the device, and version upgrades and the like can be easily performed.

本発明の第1の実施例にかかる入出力装置を有する音声認識装置を図1および図2を参照して説明する。音声認識装置1は図1に示すように、マイク2と、制御装置3と、外部出力装置4と、を有している。 A voice recognition device having an input / output device according to a first embodiment of the present invention will be described with reference to FIGS. 1 and 2. As shown in FIG. 1, the voice recognition device 1 includes a microphone 2, a control device 3, and an external output device 4.

第1集音手段としてのマイク2は、ユーザが発話した音声(入力音声)を集音して電気信号に変換し音声信号として制御装置3に出力する。 The microphone 2 as the first sound collecting means collects the voice (input voice) spoken by the user, converts it into an electric signal, and outputs the voice signal to the control device 3.

制御装置3は、レベルチェック部31と、音声認識エンジン部32と、ユースケース判断部33と、を有している。制御装置3は、例えばマイクロコンピュータ(マイコン)やデジタルシグナルプロセッサ(DSP)、あるいはASIC(Application Specific Integrated Circuit)などで構成されている。 The control device 3 includes a level check unit 31, a voice recognition engine unit 32, and a use case determination unit 33. The control device 3 is composed of, for example, a microcomputer (microcomputer), a digital signal processor (DSP), an ASIC (Application Specific Integrated Circuit), or the like.

第1出力手段、音声レベル比較手段としてのレベルチェック部31は、マイク2から入力された音声信号を音声認識エンジン部32に出力する。即ち、第1集音手段が集音した入力音声を音声認識手段に出力する。レベルチェック部31は、マイク2から入力された音声信号のレベルを検出して入力音声レベルとしてユースケース判断部33に出力する。即ち、第1集音手段が集音した入力音声の音声レベルである入力音声レベルを検出する。なお、本明細書における音声信号のレベルとは対象とする音の大きさを示し、例えば、音声信号の振幅の最大値や平均値などを示している。 The level check unit 31 as the first output means and the voice level comparison means outputs the voice signal input from the microphone 2 to the voice recognition engine unit 32. That is, the input sound collected by the first sound collecting means is output to the voice recognition means. The level check unit 31 detects the level of the voice signal input from the microphone 2 and outputs it to the use case determination unit 33 as the input voice level. That is, the first sound collecting means detects the input voice level, which is the voice level of the input voice collected. The level of the audio signal in the present specification indicates the loudness of the target sound, for example, the maximum value or the average value of the amplitude of the audio signal.

音声認識エンジン部32は、レベルチェック部31から入力された音声信号をデジタル信号に変換し音声認識処理を行う(レベルチェック部31でデジタル信号に変換してもよい)。音声認識処理は、統計的手法、動的時間伸縮法、隠れマルコフモデルなど公知の方法を用いればよく特に限定されない。音声認識エンジン部32は、音声認識処理の結果に関する応答を外部出力装置4に出力する。音声認識処理の結果に関する応答とは、発話された音声内容に対する回答にかかる音声情報や表示情報に限らず、当該音声を認識したことを示す音声情報や表示情報、または当該音声を認識出来なかったことを示す音声情報や表示情報、あるいは次の命令等の入力を促す音声情報や表示情報等も含む。 The voice recognition engine unit 32 converts the voice signal input from the level check unit 31 into a digital signal and performs voice recognition processing (the level check unit 31 may convert the voice signal into a digital signal). The speech recognition process is not particularly limited as long as a known method such as a statistical method, a dynamic time expansion / contraction method, or a hidden Markov model is used. The voice recognition engine unit 32 outputs a response regarding the result of the voice recognition process to the external output device 4. The response regarding the result of the voice recognition process is not limited to the voice information and display information related to the response to the spoken voice content, but the voice information and display information indicating that the voice has been recognized, or the voice could not be recognized. It also includes voice information and display information indicating that, or voice information and display information prompting the input of the next command and the like.

また、音声認識エンジン部32は、音声認識した結果、図示しない他の処理装置等に対する命令であった場合は当該他の処理装置に対して命令を出力する。なお、この他の処理装置は、音声認識装置1と一体的に構成されているものに限らず、着脱自在またはネットワーク等を介して無線または有線で通信するようになっていてもよい。図1に示した構成の場合は、制御装置3に音声認識エンジン部32が含まれているので、音声認識エンジン部32が、音声認識手段と音声認識手段からの応答を取得する応答取得手段とを兼ねる。 Further, the voice recognition engine unit 32 outputs a command to another processing device (not shown) as a result of voice recognition. The other processing device is not limited to the one that is integrally configured with the voice recognition device 1, and may be detachably or wirelessly or wiredly communicated via a network or the like. In the case of the configuration shown in FIG. 1, since the voice recognition engine unit 32 is included in the control device 3, the voice recognition engine unit 32 is a response acquisition means for acquiring a response from the voice recognition means and the voice recognition means. Also serves as.

音声レベル比較手段、制御手段としてのユースケース判断部33は、レベルチェック部31で検出した入力音声レベルが、予め定めた所定の音声信号レベル(予め定めた所定の音声レベル)よりも小さい場合は、周囲に音声認識の応答を聞かれたくない、又は、見られたくない状況を示すモードであるプライベートモードと判断し、外部出力装置4に対して当該プライベートモードに対応した出力に変化させるよう制御信号を出力する。即ち、入力音声レベルを予め定めた所定の音声レベルと比較している。そして、音声レベル比較手段が比較した入力音声レベルが所定の音声レベルよりも小さい場合に、周囲から応答が認識しにくくなるように第2出力手段の出力を変化させている。 When the input voice level detected by the level check unit 31 is smaller than a predetermined voice signal level (predetermined voice level), the use case determination unit 33 as the voice level comparison means and the control means , It is determined that the private mode is a mode indicating a situation in which the surroundings do not want to hear or see the voice recognition response, and the external output device 4 is controlled to change to the output corresponding to the private mode. Output a signal. That is, the input voice level is compared with a predetermined voice level. Then, when the input voice level compared by the voice level comparing means is smaller than the predetermined voice level, the output of the second output means is changed so that the response is difficult to be recognized from the surroundings.

なお、入力音声レベルが小さいと音声認識エンジン部32における認識率が低下する可能性があるため、予め定めた所定の音声信号レベルは、音声認識エンジン部32における認識率が低下しない範囲で定めることが望ましい。あるいは、特許文献1に記載された処理など周囲の雑音の影響を少なくするような処理を施した上で音声認識処理を行うようにしても良い。 If the input voice level is small, the recognition rate in the voice recognition engine unit 32 may decrease. Therefore, the predetermined voice signal level is set within a range in which the recognition rate in the voice recognition engine unit 32 does not decrease. Is desirable. Alternatively, the voice recognition process may be performed after performing a process such as the process described in Patent Document 1 that reduces the influence of ambient noise.

なお、図1では、制御装置3は、レベルチェック部31と、音声認識エンジン部32と、ユースケース判断部33が一体的に構成されているが、それに限らない。例えば、それぞれ個別の部品(マイコン、DSP、ASIC等)で構成されていてもよい。 In FIG. 1, the control device 3 includes, but is not limited to, the level check unit 31, the voice recognition engine unit 32, and the use case determination unit 33. For example, each may be composed of individual parts (microcomputer, DSP, ASIC, etc.).

第2出力手段としての外部出力装置4は、音声出力手段としての音声出力部41と、表示手段としての表示部42と、を有している。音声出力部41は、音声認識エンジン部32から出力された音声認識処理の結果に関する応答のうち、音声情報で入力された応答を音声として出力するスピーカと、スピーカに出力する音量を制御するアンプ等を有している。表示部42は、音声認識エンジン部32から出力された音声認識処理の結果に関する応答のうち、表示情報で入力された応答を画像(テキストのみの情報も含む)として表示する液晶ディスプレイや有機EL(Electro Luminescence)ディスプレイ等の表示デバイスと、その表示デバイスの表示を制御するドライバ回路等を有している。即ち、外部出力装置4は、応答取得手段が取得した応答を出力する。 The external output device 4 as the second output means has an audio output unit 41 as an audio output means and a display unit 42 as a display means. The voice output unit 41 includes a speaker that outputs the response input as voice information as voice among the responses related to the result of the voice recognition process output from the voice recognition engine unit 32, an amplifier that controls the volume output to the speaker, and the like. have. The display unit 42 displays a liquid crystal display or an organic EL (including text-only information) that displays the response input as the display information among the responses related to the result of the voice recognition process output from the voice recognition engine unit 32. Electro Luminescence) It has a display device such as a display and a driver circuit that controls the display of the display device. That is, the external output device 4 outputs the response acquired by the response acquisition means.

そして、ユースケース判断部33がプライベートモードと判断して出力を変化させるような制御信号が入力されると、音声出力部41は、スピーカから出力される音が小さくなるようにアンプ等が増幅率を変化させる。即ち、音声レベル比較手段が比較した結果が、所定の音声レベルよりも小さい場合に、音声出力手段から出力される音を小さくする。また、表示部42は、表示デバイスの輝度を低下させるようにドライバ回路が制御する。即ち、音声レベル比較手段が比較した結果が、所定の音声レベルよりも小さい場合に、画像が周囲から認識しにくくなるように表示手段の表示を変化させる。 Then, when a control signal that causes the use case determination unit 33 to determine that it is in private mode and change the output is input, the audio output unit 41 uses an amplifier or the like to reduce the sound output from the speaker. To change. That is, when the result of comparison by the voice level comparing means is smaller than a predetermined voice level, the sound output from the voice output means is reduced. Further, the display unit 42 is controlled by a driver circuit so as to reduce the brightness of the display device. That is, when the result of comparison by the voice level comparing means is smaller than a predetermined voice level, the display of the display means is changed so that the image is difficult to recognize from the surroundings.

上述した説明から明らかなように、マイク2、レベルチェック部31、ユースケース判断部33、外部出力装置4で、本発明の第1の実施例にかかる入出力装置10を構成する。 As is clear from the above description, the microphone 2, the level check unit 31, the use case determination unit 33, and the external output device 4 constitute the input / output device 10 according to the first embodiment of the present invention.

次に、上述した構成の入出力装置10の動作を図2のフローチャートを参照して説明する。図2に示したフローチャートは制御装置3で実行される。 Next, the operation of the input / output device 10 having the above-described configuration will be described with reference to the flowchart of FIG. The flowchart shown in FIG. 2 is executed by the control device 3.

まず、ステップS11において、入力音声の音声信号がマイク2からレベルチェック部31に入力されてステップS12に進む。 First, in step S11, the voice signal of the input voice is input from the microphone 2 to the level check unit 31, and the process proceeds to step S12.

次に、ステップS12において、レベルチェック部31が、マイク2から入力された入力音声の音声信号の入力音声レベルを検出してユースケース判断部33に出力し、ステップS13に進む。 Next, in step S12, the level check unit 31 detects the input voice level of the voice signal of the input voice input from the microphone 2 and outputs it to the use case determination unit 33, and proceeds to step S13.

次に、ステップS13において、ユースケース判断部33が、レベルチェック部31で検出した入力音声レベルと、予め定めた所定の音声信号レベルと、を比較し、所定の音声信号レベルより小さい場合(YESの場合)はステップS14に進み、所定の音声信号レベル以上の場合(NOの場合)はステップS15に進む。即ち、ステップS12とS13で、音声レベル比較工程として機能する。 Next, in step S13, the use case determination unit 33 compares the input audio level detected by the level check unit 31 with a predetermined audio signal level, and is smaller than the predetermined audio signal level (YES). In the case of), the process proceeds to step S14, and in the case of a predetermined audio signal level or higher (NO), the process proceeds to step S15. That is, in steps S12 and S13, it functions as a voice level comparison step.

次に、ステップS14において、ステップS13で所定の音声信号レベルより小さいと判断されたので、ユースケース判断部33が、プライベートモードとして外部出力装置4の出力を周囲から認識しにくくなるように変化させる(出力制御)。具体的には上述したように、音声出力部41は、スピーカから出力される音がデフォルトの音量よりも小さくなるようにアンプ等に増幅率を変化させ、表示部42は、表示デバイスの輝度をデフォルトの輝度よりも低下させるようにドライバ回路に制御させる。即ち、本ステップは制御工程として機能する。ここで、デフォルトの音量、輝度とは音声認識装置1が初期状態の音量、輝度とする。 Next, in step S14, since it is determined in step S13 that the audio signal level is lower than the predetermined audio signal level, the use case determination unit 33 changes the output of the external output device 4 so as to be difficult to recognize from the surroundings as a private mode. (Output control). Specifically, as described above, the audio output unit 41 changes the amplification factor of the amplifier or the like so that the sound output from the speaker becomes smaller than the default volume, and the display unit 42 determines the brightness of the display device. Let the driver circuit control the brightness to be lower than the default brightness. That is, this step functions as a control process. Here, the default volume and brightness are the volume and brightness in the initial state of the voice recognition device 1.

一方、ステップS15においては、ステップS13で所定のレベル以上と判断されたので、ユースケース判断部33が、通常モードとしてデフォルトの音量および輝度とする。つまり、本ステップ実行前がデフォルトの音量および輝度であった場合は、そのまま変化させない。本ステップ実行前がデフォルトの音量および輝度よりも低下させていた場合は、デフォルトの音量および輝度に戻す。 On the other hand, in step S15, since it was determined in step S13 that the level is equal to or higher than the predetermined level, the use case determination unit 33 sets the default volume and brightness as the normal mode. In other words, if the default volume and brightness were set before the execution of this step, they are not changed as they are. If the volume and brightness were lower than the default volume and brightness before this step was executed, the default volume and brightness are restored.

本実施例によれば、音声認識装置1において、マイク2から出力された入力音声レベルをレベルチェック部31が検出し、ユースケース判断部33が、検出された入力音声レベルが予め定められた所定の音声信号レベルより小さいか否か判断する。そして、入力音声レベルが予め定められた所定の音声信号レベルより小さい場合は、スピーカから出力される音を小さくするとともに表示デバイスの輝度を低下させる。このようにすることにより、入力音声レベルが小さい場合は、音声認識の応答を周囲に聞かれたくない、又は、見られたくない状況と判断して音を小さくしたり、輝度を低下させることができる。したがって、入力に対する応答を周囲の状況に応じて変化させて出力することができる。 According to this embodiment, in the voice recognition device 1, the level check unit 31 detects the input voice level output from the microphone 2, and the use case determination unit 33 determines the detected input voice level in advance. Judge whether it is lower than the voice signal level of. When the input audio level is smaller than a predetermined audio signal level, the sound output from the speaker is reduced and the brightness of the display device is reduced. By doing so, when the input voice level is low, it is possible to judge that the response of voice recognition is not heard or seen by the surroundings, and the sound is reduced or the brightness is lowered. it can. Therefore, the response to the input can be changed and output according to the surrounding situation.

次に、本発明の第2の実施例にかかる音声認識装置1を図3および図4を参照して説明する。なお、前述した第1の実施例と同一部分には、同一符号を付して説明を省略する。 Next, the voice recognition device 1 according to the second embodiment of the present invention will be described with reference to FIGS. 3 and 4. The same parts as those in the first embodiment described above are designated by the same reference numerals, and the description thereof will be omitted.

本実施例にかかる入出力装置10は、図1に示した音声認識装置1に対してマイク5が追加されている。第2集音手段としてのマイク5は、ユーザが発話する音声を集音するのではなく、音声認識装置1の周囲の音(周囲音)を集音する。即ち、発話した入力音声以外の周囲音を集音する。 In the input / output device 10 according to this embodiment, a microphone 5 is added to the voice recognition device 1 shown in FIG. The microphone 5 as the second sound collecting means does not collect the sound spoken by the user, but collects the surrounding sound (ambient sound) of the voice recognition device 1. That is, ambient sounds other than the spoken input voice are collected.

マイク5で集音された周囲音はレベルチェック部31でレベルを検出し、その音声信号のレベル(周囲音レベル)をユースケース判断部33に出力する。即ち、レベルチェック部31が、第2集音手段が集音した周囲音の音声レベルである周囲音レベルを検出する周囲音レベル検出手段として機能する。 The level check unit 31 detects the level of the ambient sound collected by the microphone 5, and outputs the level of the audio signal (ambient sound level) to the use case determination unit 33. That is, the level check unit 31 functions as an ambient sound level detecting means for detecting the ambient sound level, which is the sound level of the ambient sound collected by the second sound collecting means.

ユースケース判断部33は、レベルチェック部31で検出されたマイク2が集音した入力音声レベルと周囲音レベルとの比(S/N比)を算出する。ここで、本実施例におけるS/N比は、入力音声レベルを周囲音レベルで除算した値(入力音声レベル/周囲音レベル)である。そして、算出されたS/N比が予め定めた所定の値より小さい場合は、プライベートモードと判断し、外部出力装置4に対してプライベートモードに対応した出力に変化させるよう制御信号を出力する。即ち、ユースケース判断部33が比算出手段として機能する。 The use case determination unit 33 calculates the ratio (S / N ratio) of the input sound level collected by the microphone 2 detected by the level check unit 31 to the ambient sound level. Here, the S / N ratio in this embodiment is a value obtained by dividing the input voice level by the ambient sound level (input voice level / ambient sound level). Then, when the calculated S / N ratio is smaller than a predetermined value determined in advance, it is determined that the mode is private, and a control signal is output to the external output device 4 so as to change the output to correspond to the private mode. That is, the use case determination unit 33 functions as a ratio calculation means.

つまり、S/N比が小さい場合は、ユーザの発話に対して周囲音が相対的に大きいことを意味するので、周囲に人が多くいる状況において小声で発話していると推測することができる。したがって、S/N比が小さい場合は周囲に音声認識エンジン部32の応答を聞かれたくない、又は、見られたくない状況と判断してプライベートモードの動作を行わせる。なお、プライベートモード時の外部出力装置4の動作は第1の実施例と同様である。即ち、スピーカから出力される音を小さくし、表示デバイスに表示される画像が周囲から認識しにくくなるように輝度を低下させる。 That is, when the S / N ratio is small, it means that the ambient sound is relatively loud with respect to the user's utterance, so it can be inferred that the utterance is made in a low voice in a situation where there are many people around. .. Therefore, when the S / N ratio is small, it is determined that the response of the voice recognition engine unit 32 is not desired to be heard or seen by the surroundings, and the operation of the private mode is performed. The operation of the external output device 4 in the private mode is the same as that of the first embodiment. That is, the sound output from the speaker is reduced, and the brightness is lowered so that the image displayed on the display device is difficult to recognize from the surroundings.

次に、本実施例における音声認識装置1の動作を図4のフローチャートを参照して説明する。図4に示したフローチャートは制御装置3で実行される。 Next, the operation of the voice recognition device 1 in this embodiment will be described with reference to the flowchart of FIG. The flowchart shown in FIG. 4 is executed by the control device 3.

まず、ステップS21において、音声信号がマイク2とマイク5からレベルチェック部31に入力されてステップS12に進む。 First, in step S21, the audio signal is input from the microphone 2 and the microphone 5 to the level check unit 31, and the process proceeds to step S12.

次に、ステップS22において、レベルチェック部31が、マイク2から入力された音声信号の入力音声レベルを検出し、マイク5から入力された音声信号の周囲音レベルを検出して、それぞれユースケース判断部33に出力し、ステップS23に進む。 Next, in step S22, the level check unit 31 detects the input audio level of the audio signal input from the microphone 2, detects the ambient sound level of the audio signal input from the microphone 5, and determines each use case. Output to unit 33, and the process proceeds to step S23.

次に、ステップS23において、ユースケース判断部33が、レベルチェック部31で検出した入力音声レベルと周囲音レベルとの比(S/N比)を算出し、S/N比が所定の値より小さい場合(YESの場合)はステップS24に進み、所定の値以上の場合(NOの場合)はステップS25に進む。即ち、ステップS22とS23で、比算出工程として機能する。 Next, in step S23, the use case determination unit 33 calculates the ratio (S / N ratio) between the input voice level and the ambient sound level detected by the level check unit 31, and the S / N ratio is from a predetermined value. If it is small (YES), the process proceeds to step S24, and if it is equal to or more than a predetermined value (NO), the process proceeds to step S25. That is, in steps S22 and S23, it functions as a ratio calculation step.

ステップS24とステップS25は図2のステップS14とステップS15と同様である。 Step S24 and step S25 are the same as steps S14 and S15 of FIG.

本実施例によれば、音声認識装置1において、入力音声レベルとマイク5から出力された周囲音のレベル(周囲音レベル)をレベルチェック部31が検出し、ユースケース判断部33が、入力音声レベルと周囲音レベルの比(S/N比)が予め定めた所定の値より小さいか否か判断する。そして、S/N比が予め定めた所定の値より小さい場合は、例えばスピーカから出力される音を小さくするとともに表示デバイスの輝度を低下させる。このようにすることにより、S/N比が小さい場合は、音声認識の応答を周囲に聞かれたくない、又は、見られたくないと判断して音を小さくしたり、輝度を低下させることができる。したがって、入力に対する応答を周囲の状況に応じて変化させることができる。 According to this embodiment, in the voice recognition device 1, the level check unit 31 detects the input sound level and the ambient sound level (ambient sound level) output from the microphone 5, and the use case determination unit 33 determines the input sound. It is determined whether or not the ratio of the level to the ambient sound level (S / N ratio) is smaller than a predetermined value. When the S / N ratio is smaller than a predetermined value, for example, the sound output from the speaker is reduced and the brightness of the display device is reduced. By doing so, when the S / N ratio is small, it is possible to reduce the sound or reduce the brightness by judging that the response of the voice recognition is not heard or seen by the surroundings. it can. Therefore, the response to the input can be changed according to the surrounding situation.

なお、上述した2つの実施例では、表示部42が有する表示デバイスの輝度を低下させることで表示される画像が周囲から認識しにくくなるようにしていたが、それに限らず、例えば、表示デバイスの視認角度を狭くするようにしてもよい。この場合は、例えば液晶素子に電圧を印加することで液晶の配向状態を変化させるなどとして偏光方向を変化させるフィルタ等を表示デバイスの表面に設ければよい。 In the above two embodiments, the brightness of the display device included in the display unit 42 is reduced to make it difficult for the displayed image to be recognized from the surroundings. However, the present invention is not limited to this, for example, the display device. The viewing angle may be narrowed. In this case, for example, a filter or the like that changes the polarization direction by changing the orientation state of the liquid crystal by applying a voltage to the liquid crystal element may be provided on the surface of the display device.

また、上述した2つの実施例では、音声出力部41と表示部42の双方の制御を変化させていたが、いずれか一方のみであってもよい。 Further, in the above-mentioned two embodiments, the control of both the audio output unit 41 and the display unit 42 is changed, but only one of them may be used.

また、上述した2の実施例のように、スピーカ(音声出力部41)と表示デバイス(表示部42)の双方を有している場合において、プライベートモードと判断された際は、表示デバイスの表示を停止し(画面を消し)、スピーカが出力する音を小さくするようにしてもよい。または、逆に、スピーカからの音の出力を停止し、表示デバイスの輝度を低下させたり視認角度を狭くするようにしてもよい。即ち、音声出力手段と表示手段の双方を有している場合は、一方の動作を停止させることも周囲から応答が認識しにくくなるように出力を変化させることに含まれる。 Further, in the case where both the speaker (audio output unit 41) and the display device (display unit 42) are provided as in the second embodiment described above, when the private mode is determined, the display device is displayed. You may stop (turn off the screen) to reduce the sound output by the speaker. Alternatively, conversely, the output of sound from the speaker may be stopped to reduce the brightness of the display device or narrow the viewing angle. That is, when both the voice output means and the display means are provided, stopping one of the operations is also included in changing the output so that the response is difficult to be recognized from the surroundings.

また、音声認識エンジン部32は、図1や図3に示したような制御装置3に含む形態に限らず、例えば、ネットワーク等を介して無線または有線で通信する外部サーバ等に設けられていてもよい。その一例を図5に示す。図5では、制御装置3に通信部34が設けられている。通信部34は、レベルチェック部31から入力された音声信号をインターネット30に接続されたサーバ20内に設けられた音声認識エンジン部21に出力する。そして、通信部34は、音声認識エンジン部21から入力された応答を外部出力装置4や他の処理装置等に出力する。図5に示した場合においては、通信部34が第1出力手段および応答取得手段として機能する。 Further, the voice recognition engine unit 32 is not limited to the form included in the control device 3 as shown in FIGS. 1 and 3, and is provided in, for example, an external server or the like that communicates wirelessly or by wire via a network or the like. May be good. An example thereof is shown in FIG. In FIG. 5, the control device 3 is provided with a communication unit 34. The communication unit 34 outputs the voice signal input from the level check unit 31 to the voice recognition engine unit 21 provided in the server 20 connected to the Internet 30. Then, the communication unit 34 outputs the response input from the voice recognition engine unit 21 to the external output device 4, another processing device, or the like. In the case shown in FIG. 5, the communication unit 34 functions as the first output means and the response acquisition means.

また、図6に示したように、イヤホンやヘッドホンなどの外部音声出力手段6を接続するための端子や外部音声出力手段6とBluetooth(登録商標)などで無線通信をするための回路やアンテナ等の出力インタフェース43を有している場合がある。 Further, as shown in FIG. 6, a terminal for connecting an external audio output means 6 such as earphones and headphones, a circuit, an antenna, and the like for wireless communication between the external audio output means 6 and Bluetooth (registered trademark) and the like. It may have an output interface 43 of.

図6に示した出力インタフェース43は、音声出力部41と切替スイッチ44で切替可能となっている。つまり、イヤホンやヘッドホンが接続された場合は、切替スイッチ44を出力インタフェース43側に切り替えて音声出力部のスピーカからは音が出力されないようになっている。 The output interface 43 shown in FIG. 6 can be switched by the audio output unit 41 and the changeover switch 44. That is, when earphones or headphones are connected, the changeover switch 44 is switched to the output interface 43 side so that no sound is output from the speaker of the audio output unit.

図6に示した出力インタフェース43を有している場合において、プライベートモードと判断された際は、表示デバイスの表示を停止し、出力インタフェースのみから音声認識エンジン部32の応答にかかる音(音声信号)を出力するようにしてもよい。このようにすることにより、音声認識の応答を周囲に見られたくない場合に、イヤホンやヘッドホンなどの外部音声出力手段から音のみを出力させることができる。 In the case of having the output interface 43 shown in FIG. 6, when it is determined that the mode is private, the display of the display device is stopped, and the sound (voice signal) applied to the response of the voice recognition engine unit 32 only from the output interface. ) May be output. By doing so, when it is not desired to see the voice recognition response in the surroundings, it is possible to output only the sound from an external voice output means such as earphones or headphones.

また、レベルチェック部31と、ユースケース判断部33をマイコン等のコンピュータで構成し、図2や図4に示したフローチャートをコンピュータプログラムとすれば、入出力プログラムとして構成することができる。 Further, if the level check unit 31 and the use case determination unit 33 are configured by a computer such as a microcomputer and the flowcharts shown in FIGS. 2 and 4 are used as computer programs, they can be configured as input / output programs.

また、本発明は上記実施例に限定されるものではない。即ち、当業者は、従来公知の知見に従い、本発明の骨子を逸脱しない範囲で種々変形して実施することができる。かかる変形によってもなお本発明の入出力装置の構成を具備する限り、勿論、本発明の範疇に含まれるものである。 Further, the present invention is not limited to the above examples. That is, those skilled in the art can carry out various modifications according to conventionally known knowledge within a range that does not deviate from the gist of the present invention. As long as the input / output device of the present invention is still provided by such modification, it is, of course, included in the category of the present invention.

2 マイク(第1集音手段)
31 レベルチェック部(第1出力手段、音声レベル比較手段、周囲音レベル検出手段)
32 音声認識エンジン部(応答取得手段)
33 ユースケース判断部(音声レベル比較手段、制御手段、比算出手段)
4 外部出力装置(第2出力手段)
41 音声出力部(第2出力手段、音声出力手段)
42 表示部(第2出力手段、表示手段)
5 マイク(第2集音手段)
6 外部音声出力手段
10 入出力装置
S12 レベルチェック(音声レベル比較工程)
S13 所定の音声信号レベルより小(音声レベル比較工程)
S14 プライベートモード(制御工程)
S22 レベルチェック(比算出工程)
S23 所定の値より小(比算出工程)
S24 プライベートモード(制御工程)
2 Microphone (1st sound collecting means)
31 Level check unit (first output means, voice level comparison means, ambient sound level detection means)
32 Speech recognition engine (response acquisition means)
33 Use case judgment unit (voice level comparison means, control means, ratio calculation means)
4 External output device (second output means)
41 Audio output unit (second output means, audio output means)
42 Display unit (second output means, display means)
5 Microphone (second sound collecting means)
6 External audio output means 10 Input / output device S12 Level check (audio level comparison process)
S13 Less than the predetermined voice signal level (voice level comparison process)
S14 Private mode (control process)
S22 level check (ratio calculation process)
S23 Smaller than the specified value (ratio calculation process)
S24 Private mode (control process)

Claims (6)

音声を出力する音声出力部と、
画像を表示する表示部と、
ユーザの発話音声を音声信号として音声認識手段に出力する発話音声信号出力部と、
前記音声認識手段の認識結果に応じた応答情報を取得する応答情報取得部と、
前記音声信号の音声レベルが所定の音声レベルよりも小さい場合には、前記応答情報に基づく音声を前記音声出力部により出力させず、且つ前記応答情報に基づく画像を前記表示部により表示させる制御部と、
を備えることを特徴とする入出力装置。
An audio output unit that outputs audio and
A display unit that displays images and
An utterance voice signal output unit that outputs the user's utterance voice as a voice signal to the voice recognition means,
A response information acquisition unit that acquires response information according to the recognition result of the voice recognition means, and
When the voice level of the voice signal is lower than the predetermined voice level, the control unit that does not output the voice based on the response information by the voice output unit and displays the image based on the response information by the display unit. When,
An input / output device characterized by being provided with.
前記制御部は、前記音声信号の音声レベルが前記所定の音声レベル以上の場合には、前記応答情報に基づく音声を前記音声出力部により出力させ、且つ前記応答情報に基づく画像を前記表示部により表示させることを特徴とする請求項1に記載の入出力装置。 When the voice level of the voice signal is equal to or higher than the predetermined voice level, the control unit causes the voice output unit to output voice based on the response information, and the display unit outputs an image based on the response information. The input / output device according to claim 1, wherein the input / output device is displayed. 前記発話音声信号出力部は、外部のサーバ装置に設けられた前記音声認識手段に前記音声信号を出力し、
前記応答情報取得部は、前記サーバ装置から前記応答情報を取得することを特徴とする請求項1または2に記載の入出力装置。
The utterance voice signal output unit outputs the voice signal to the voice recognition means provided in the external server device.
The input / output device according to claim 1 or 2, wherein the response information acquisition unit acquires the response information from the server device.
音声出力部と表示部を備える入出力装置が実行する入出力方法であって、
ユーザの発話音声を音声信号として音声認識手段に出力する発話音声信号出力工程と、
前記音声認識手段の認識結果に応じた応答情報を取得する応答情報取得工程と、
前記音声信号の音声レベルが所定の音声レベルよりも小さい場合には、前記応答情報に基づく音声を前記音声出力部により出力させず、且つ前記応答情報に基づく画像を前記表示部により表示させる制御工程と、
を含むことを特徴とする入出力方法。
It is an input / output method executed by an input / output device having an audio output unit and a display unit.
The utterance voice signal output process that outputs the user's utterance voice as a voice signal to the voice recognition means,
A response information acquisition step of acquiring response information according to the recognition result of the voice recognition means, and
When the voice level of the voice signal is smaller than the predetermined voice level, the control step of not outputting the voice based on the response information by the voice output unit and displaying the image based on the response information by the display unit. When,
An input / output method characterized by including.
音声出力部と表示部を備える入出力装置のコンピュータにより実行される入出力プログラムであって、
前記コンピュータを、
ユーザの発話音声を音声信号として音声認識手段に出力する発話音声信号出力部と、
前記音声認識手段の認識結果に応じた応答情報を取得する応答情報取得部と、
前記音声信号の音声レベルが所定の音声レベルよりも小さい場合には、前記応答情報に基づく音声を前記音声出力部により出力させず、且つ前記応答情報に基づく画像を前記表示部により表示させる制御部と、
して機能させることを特徴とする入出力プログラム。
An input / output program executed by a computer of an input / output device having an audio output unit and a display unit.
The computer
An utterance voice signal output unit that outputs the user's utterance voice as a voice signal to the voice recognition means,
A response information acquisition unit that acquires response information according to the recognition result of the voice recognition means, and
When the voice level of the voice signal is lower than the predetermined voice level, the control unit that does not output the voice based on the response information by the voice output unit and displays the image based on the response information by the display unit. When,
An input / output program characterized by functioning.
請求項5に記載の入出力プログラムを格納したことを特徴とするコンピュータ読み取り可能な記録媒体。 A computer-readable recording medium comprising storing the input / output program according to claim 5.
JP2019222635A 2019-12-10 2019-12-10 Input / output device Active JP6773876B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019222635A JP6773876B2 (en) 2019-12-10 2019-12-10 Input / output device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019222635A JP6773876B2 (en) 2019-12-10 2019-12-10 Input / output device

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2018013618A Division JP2018084843A (en) 2018-01-30 2018-01-30 Input/output device

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2020164445A Division JP2021006921A (en) 2020-09-30 2020-09-30 Input/output device

Publications (2)

Publication Number Publication Date
JP2020052419A JP2020052419A (en) 2020-04-02
JP6773876B2 true JP6773876B2 (en) 2020-10-21

Family

ID=69997036

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019222635A Active JP6773876B2 (en) 2019-12-10 2019-12-10 Input / output device

Country Status (1)

Country Link
JP (1) JP6773876B2 (en)

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006251061A (en) * 2005-03-08 2006-09-21 Nissan Motor Co Ltd Voice dialogue apparatus and voice dialogue method
JP2011242594A (en) * 2010-05-18 2011-12-01 Denso Corp Information presentation system

Also Published As

Publication number Publication date
JP2020052419A (en) 2020-04-02

Similar Documents

Publication Publication Date Title
US9531338B2 (en) Signal processing apparatus, signal processing method, program, signal processing system, and communication terminal
JP6318621B2 (en) Speech processing apparatus, speech processing system, speech processing method, speech processing program
US10542357B2 (en) Earset, earset system, and earset control method
US20110200213A1 (en) Hearing aid with an accelerometer-based user input
JP2018509820A (en) Personalized headphones
CN109429132A (en) Earphone system
CN111343540B (en) Piano audio processing method and electronic equipment
KR102350890B1 (en) Portable hearing test device
CN110225195B (en) Voice communication method and terminal
US9356571B2 (en) Earbuds and earphones for personal sound system
US11472037B2 (en) Robot for assisting a user in hearing
CN111800696B (en) Hearing assistance method, earphone, and computer-readable storage medium
WO2021098698A1 (en) Audio playback method and terminal device
CN111131957A (en) Volume control method, terminal and readable storage medium
CN110691303B (en) Wearable sound box and control method thereof
JP2014202808A (en) Input/output device
CN110995921A (en) Call processing method, electronic device and computer readable storage medium
JP6773876B2 (en) Input / output device
KR101600429B1 (en) An Auxiliary Aid Device for Adaptation of Environmental Circumstance and A method for Linking An Auxiliary Aid Device to A multimedia Device
JP2018084843A (en) Input/output device
JP2021006921A (en) Input/output device
CN111580779A (en) Volume adjusting device and method and mobile terminal
TWI233741B (en) Mobile communication earphone accommodating hearing aid with volume adjusting function and method thereof
KR101522291B1 (en) Auxiliary Aid Apparatus of Hearing for Coping to with External Environmental Situation and Method for Controlling Operation of the Same Associated with Multimedia Device
CN111050261A (en) Hearing compensation method, device and computer readable storage medium

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191210

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200824

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200908

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201001

R150 Certificate of patent or registration of utility model

Ref document number: 6773876

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150