JP6768613B2 - 音声処理装置、方法およびプログラム - Google Patents
音声処理装置、方法およびプログラム Download PDFInfo
- Publication number
- JP6768613B2 JP6768613B2 JP2017176615A JP2017176615A JP6768613B2 JP 6768613 B2 JP6768613 B2 JP 6768613B2 JP 2017176615 A JP2017176615 A JP 2017176615A JP 2017176615 A JP2017176615 A JP 2017176615A JP 6768613 B2 JP6768613 B2 JP 6768613B2
- Authority
- JP
- Japan
- Prior art keywords
- voice
- data
- user
- output
- motion data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 38
- 230000033001 locomotion Effects 0.000 claims description 139
- 230000004044 response Effects 0.000 claims description 49
- 230000006870 function Effects 0.000 claims description 5
- 238000003672 processing method Methods 0.000 claims 2
- 230000004913 activation Effects 0.000 claims 1
- 210000004185 liver Anatomy 0.000 claims 1
- 238000013500 data storage Methods 0.000 description 30
- 238000001514 detection method Methods 0.000 description 26
- 230000015572 biosynthetic process Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000000926 separation method Methods 0.000 description 4
- 238000003786 synthesis reaction Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 2
- 239000000470 constituent Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Landscapes
- User Interface Of Digital Computer (AREA)
Description
この発明の第3の態様は、前記第2の種類のモーションデータにより提示される前記相槌または首を傾けるジェスチャを、前記第1の種類のモーションデータにより提示される前記身振り手振りによるジェスチャよりも、サーボモータの速度または移動量が小さくなるようにしたものである。
さらに、モーションデータに基づいてユーザに対しジェスチャが提示されている期間中に設定される閾値が、ユーザに対し第2の音声データに基づく音声を出力している期間に設定される閾値より高くかつ上記ジェスチャの提示により発生するノイズの音圧レベルより高い値に設定される。すなわち、ユーザに対し音声が出力される期間より、ジェスチャが提示される期間の方が、閾値が高くなるように設定される。このため、出力される音声データに起因して発生される音声、および出力されるモーションデータに起因して発生されるノイズを、いずれもユーザの発話音声として誤検知することなく、ユーザの発話音声を検知することができる。
さらに、出力されるモーションデータが、身振り手振りによるジェスチャを提示するための第1の種類のデータと、相槌または首を傾けるジェスチャを提示するための第2の種類のデータとを有する場合に、第1の種類のデータが出力されるときには、上記閾値が、第2の種類のデータが出力されるときより高い値に設定される。このように、閾値を、出力されるモーションデータの種類に応じたものにすることによって、例えば、閾値をそれぞれ、出力されているモーションデータに起因して発生されるノイズがユーザの発話音声として誤検知されない最大限度の値に設定することができる。
[第1の実施形態]
(構成)
図1は、この発明の第1の実施形態に係る、ユーザとの音声対話を実現する音声対話装置の一例を示す図である。本実施形態では、音声処理装置の非限定的な例として音声対話装置1について説明する。
音声対話装置1は、制御ユニット11と、記憶ユニット12と、マイク13と、スピーカ14と、サーボモータ15とを備えている。
スピーカ14は、制御ユニット11から出力される音声データを再生する。
サーボモータ15は、制御ユニット11から出力されるモーションデータに基づき動作して、音声対話装置1にジェスチャを提示させる。
次に、以上のように構成された音声対話装置1の動作を説明する。
図3は、図2に示した音声対話装置1の制御ユニット11によって実行されるユーザ発話検知処理の一例を示すフロー図である。
以上詳述したように、この発明の第1の実施形態では、以下のような効果が奏せられる。
なお、この発明は上記第1の実施形態に限定されるものではない。
例えば、上記第1の実施形態では、モーションデータ出力部におけるデータの出力中には、ユーザの発話を検知するための閾値として第3の値が設定される場合を例にとって説明した。しかしながら、出力されるモーションデータの種類に応じて、異なる値の閾値が設定されるようにしてもよい。例えば、出力されるモーションデータが、身振り手振りによるジェスチャを提示するための第1の種類のデータと、相槌または首を傾けるジェスチャを提示するための第2の種類のデータとを有する場合に、より会話を円滑に進めるためのジェスチャに対応する第1の種類のデータが出力されるときには、上記閾値を、会話に必要な最低限のジェスチャに対応する第2の種類のデータが出力されるときより高い値に設定するようにしてもよい。
Claims (5)
- ユーザの発話音声に対応する第1の音声データを取得する音声データ取得部と、
前記取得された第1の音声データから前記発話音声の音圧レベルを計測し、当該計測された音圧レベルが閾値より高い場合に、前記第1の音声データを前記ユーザの発話音声として検知する発話検知部と、
前記ユーザに対し音声を出力するための第2の音声データおよび前記ユーザに対しジェスチャを提示するためのモーションデータを出力するデータ出力部と、
前記閾値を可変設定する閾値設定部と
を備え、
前記閾値設定部は、
前記第2の音声データと前記モーションデータとのうちのいずれが出力されているかを判定し、
前記第2の音声データおよび前記モーションデータがいずれも出力されていない期間中には、前記閾値を第1の値に設定し、
前記第2の音声データが出力されている期間中には、前記閾値を、前記第1の値より高くかつ前記第2の音声データに基づいて前記ユーザに対し出力される前記音声の音圧レベルより高い第2の値に設定し、
前記モーションデータに基づいて前記ユーザに対しジェスチャが提示されている期間中には、前記閾値を、前記第1および第2の値より高くかつ前記ジェスチャの提示により発生するノイズの音圧レベルより高い第3の値に設定し、
さらに前記閾値設定部は、前記出力されるモーションデータが、前記ユーザの発話に対する応答テキストデータに対応するジェスチャを提示するための第1の種類のモーションデータと、前記ユーザの発話状況に応じて提示するジェスチャに対応する第2の種類のモーションデータとを有する場合に、前記第1の種類のモーションデータが出力されるときには、前記第3の値を、前記第2の種類のモーションデータが出力されるときより高い値に設定する
音声処理装置。 - 前記第1の種類のモーションデータは身振り手振りによるジェスチャを提示するためのデータであり、前記第2の種類のモーションデータは相槌または首を傾けるジェスチャを提示するためのデータである、請求項1に記載の音声処理装置。
- 前記第2の種類のモーションデータにより提示される前記相槌または首を傾けるジェスチャは、前記第1の種類のモーションデータにより提示される前記身振り手振りによるジェスチャよりも、サーボモータの速度または移動量が小さい、請求項2に記載の音声処理装置。
- コンピュータおよびメモリを備える装置が実行する音声処理方法であって、
ユーザの発話音声を検知するための閾値を可変設定する過程と、
前記ユーザの発話音声に対応する第1の音声データを取得する過程と、
前記取得された第1の音声データから前記発話音声の音圧レベルを計測し、当該計測された音圧レベルが前記閾値より高い場合に、前記第1の音声データを前記ユーザの発話音声として検知する過程と
を備え、
前記閾値を可変設定する過程は、
前記ユーザに対し音声を出力するための第2の音声データと前記ユーザに対しジェスチャを提示するためのモーションデータとのうちのいずれが出力されているかを判定し、
前記第2の音声データおよび前記モーションデータがいずれも出力されていない期間中には、前記閾値を第1の値に設定し、
前記第2の音声データが出力される期間中には、前記閾値を、前記第1の値より高くかつ前記第2の音声データに基づいて前記ユーザに対し出力される音声の音圧レベルより高い第2の値に設定し、
前記モーションデータに基づいて前記ユーザに対しジェスチャが提示されている期間中には、前記閾値を、前記第1および第2の値より高くかつ前記ジェスチャの提示により発生するノイズの音圧レベルより高い第3の値に設定し、
さらに前記閾値を可変設定する過程は、前記出力されるモーションデータが、前記ユーザの発話に対する応答テキストデータに対応するジェスチャを提示するための第1の種類のモーションデータと、前記ユーザの発話状況に応じて提示するジェスチャに対応する第2の種類のモーションデータとを有する場合に、前記第1の種類のモーションデータが出力されるときには、前記第3の値を、前記第2の種類のモーションデータが出力されるときより高い値に設定する
音声処理方法。 - 請求項1乃至3のいずれかに記載の音声処理装置が備える各部としてコンピュータを機能させるプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017176615A JP6768613B2 (ja) | 2017-09-14 | 2017-09-14 | 音声処理装置、方法およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017176615A JP6768613B2 (ja) | 2017-09-14 | 2017-09-14 | 音声処理装置、方法およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019053156A JP2019053156A (ja) | 2019-04-04 |
JP6768613B2 true JP6768613B2 (ja) | 2020-10-14 |
Family
ID=66013757
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017176615A Active JP6768613B2 (ja) | 2017-09-14 | 2017-09-14 | 音声処理装置、方法およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6768613B2 (ja) |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3398401B2 (ja) * | 1992-03-16 | 2003-04-21 | 株式会社東芝 | 音声認識方法及び音声対話装置 |
JPH08146991A (ja) * | 1994-11-17 | 1996-06-07 | Canon Inc | 情報処理装置及びその制御方法 |
JP4587009B2 (ja) * | 2000-10-11 | 2010-11-24 | ソニー株式会社 | ロボット制御装置およびロボット制御方法、並びに記録媒体 |
JP4622384B2 (ja) * | 2004-04-28 | 2011-02-02 | 日本電気株式会社 | ロボット、ロボット制御装置、ロボットの制御方法およびロボットの制御用プログラム |
JP2009109536A (ja) * | 2007-10-26 | 2009-05-21 | Panasonic Electric Works Co Ltd | 音声認識システム及び音声認識装置 |
-
2017
- 2017-09-14 JP JP2017176615A patent/JP6768613B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2019053156A (ja) | 2019-04-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10586534B1 (en) | Voice-controlled device control using acoustic echo cancellation statistics | |
US10062379B2 (en) | Adaptive beam forming devices, methods, and systems | |
JP2013200423A (ja) | 音声対話支援装置、方法、およびプログラム | |
JPWO2019138651A1 (ja) | 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム | |
JP5638479B2 (ja) | 書き起こし支援システムおよび書き起こし支援方法 | |
JP2006201749A (ja) | 音声による選択装置、及び選択方法 | |
US10529331B2 (en) | Suppressing key phrase detection in generated audio using self-trigger detector | |
JP2007010971A (ja) | 音声認識方法及び音声認識装置 | |
JP6766675B2 (ja) | 音声対話装置 | |
JP2012163692A (ja) | 音声信号処理システム、音声信号処理方法および音声信号処理方法プログラム | |
WO2018135276A1 (ja) | 言動制御装置、ロボット、制御プログラムおよび言動制御装置の制御方法 | |
JP5375423B2 (ja) | 音声認識システム、音声認識方法および音声認識プログラム | |
JP6768613B2 (ja) | 音声処理装置、方法およびプログラム | |
JP2008003517A (ja) | 音声対話装置、音声対話方法、およびプログラム | |
JP5166470B2 (ja) | 音声認識装置、及びコンテンツ再生装置 | |
JP2019132997A (ja) | 音声処理装置、方法およびプログラム | |
JP2019113636A (ja) | 音声認識システム | |
JP7592496B2 (ja) | 音声応答装置、音声応答方法および音声応答プログラム | |
JP6772881B2 (ja) | 音声対話装置 | |
JP6748565B2 (ja) | 音声対話システム及び音声対話方法 | |
JP4143487B2 (ja) | 時系列情報制御システム及びその方法並びに時系列情報制御プログラム | |
JP2011215291A (ja) | 音声認識装置及びプログラム | |
JP6723033B2 (ja) | 情報処理装置、情報処理システム、サーバ、端末装置、情報処理方法及びプログラム | |
KR101501705B1 (ko) | 음성 데이터를 이용한 문서 생성 장치, 방법 및 컴퓨터 판독 가능 기록 매체 | |
JP2020042171A (ja) | キーワード検出装置、キーワード検出方法、およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190129 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20191212 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20191224 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200221 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200707 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200831 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200915 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200923 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6768613 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |