JP5753212B2 - 音声認識システム、サーバ、および音声処理装置 - Google Patents
音声認識システム、サーバ、および音声処理装置 Download PDFInfo
- Publication number
- JP5753212B2 JP5753212B2 JP2013057324A JP2013057324A JP5753212B2 JP 5753212 B2 JP5753212 B2 JP 5753212B2 JP 2013057324 A JP2013057324 A JP 2013057324A JP 2013057324 A JP2013057324 A JP 2013057324A JP 5753212 B2 JP5753212 B2 JP 5753212B2
- Authority
- JP
- Japan
- Prior art keywords
- voice
- recognition
- speech
- server
- processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Telephonic Communication Services (AREA)
Description
〔音声応答システム100の概要〕
以下、本発明の一実施形態について、図1〜図9を参照して説明する。まず、図2を参照して、本実施形態に係る音声応答システム100の概要を説明する。図2は、音声応答システム100の概要を示す図である。
〔情報処理装置1〕
次に、音声応答システム100の詳細について、説明する。まず、情報処理装置1について、図1を参照して説明する。図1は、情報処理装置1の要部構成を示すブロック図である。図1に示すように、情報処理装置1は、制御部10、記憶部11、マイク12、スピーカ13、およびIR部14を含む構成である。
次に、音声認識サーバ2、配信サーバ3、および双方向通信サーバ4の要部構成について、図3を参照して説明する。図3は、音声認識サーバ2、配信サーバ3、および双方向通信サーバ4の要部構成を示すブロック図である。
次に、図8、9を参照して音声応答システム100における処理の流れについて説明する。図8、9は、音声応答システム100における処理の流れを示すシーケンス図である。
本実施形態に係る音声応答システム100では、情報処理装置1より発話される合成音声が、予め音声認識サーバ2で生成され、情報処理装置1に格納されている。まず、この予め合成音声が格納される処理の流れについて、図8を参照して説明する。
次に、ユーザが情報処理装置1に対し何らかの発話を行った場合の処理の流れについて、図9を参照して説明する。
上述した実施形態では、音声認識サーバ2において合成音声を生成する構成としたが、情報処理装置1に合成音声を生成する機能を持たせてもよい。これにより、音声認識サーバ2から合成音声が通知されてない場合であっても、情報処理装置1で生成した合成音声を出力することにより対応することができる。
また、上述した実施形態では、音声の内容に応じた処理を実行する構成を説明したが、これに限られず、音声の種類(男女、大人、子供、高齢者)に応じて、実行する処理を異ならせる(出力する音声の内容や口調(音声の高さや速さ等)を異ならせる)構成であってもよい。例えば、取得した音声が子供であれば、天気予報のみを通知し、大人の男性(父親)であれば、天気予報に加えて交通情報も通知し、大人の女性(母親)であれば、天気予報に加えて買い物情報も通知するという構成であってもよい。また、大人に対する通知は、やや早口(音声の速度大)で行い、高齢者に対する通知は、ゆっくり(音声の速度小)と行うという構成であってもよい。
以上のように、本実施形態では、情報処理装置1と音声認識サーバ2との2つ装置で音声認識処理を行うとともに、認識した音声に対し即答すべき音声がある場合は、まず即答し、さらに、配信サーバ3で決定した再生音声を情報処理装置1で出力させるものである。検知した音声、これに対する応答、その他の条件の例を一覧としてまとめると図6のようになる。
本発明の他の実施形態について説明する。上述した実施形態では、音声認識サーバ2が音声認識処理を実行する場合について限定していない。これに対し、本実施形態では、音声認識サーバ2が音声認識する場合を制御するものである。
また、通信部21が、情報処理装置1が検知した音声を音声認識サーバ2に送信する場合は、音や光等でユーザに対し報知する構成を備えていてもよい。これにより、ユーザに対し、発した音声が音声認識サーバ2に通知されていることを認識させることができる。
本発明のさらに他の実施形態について、図10〜図13に基づいて説明すれば、以下のとおりである。なお、説明の便宜上、前記実施形態にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を省略する。
図10に、本実施形態における音声認識部22の要部構成を示す。図10に示すように、音声認識部22は、音声取得部201、音声判定部202、音声認識処理部203、確度算出部204、対話処理実行部205、認識結果決定部206、および判定テーブル207を含む。
次に、音声に応じて認識閾値を変える場合の処理の流れについて、図11、図12を参照して説明する。図11、図12は、音声に応じて認識閾値を変える場合の処理の流れを示すフローチャートである。
本発明のさらに他の実施形態について、図14に基づいて説明すれば、以下のとおりである。なお、説明の便宜上、前記実施形態にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を省略する。
本発明のさらに他の実施形態について、図15に基づいて説明すれば、以下のとおりである。なお、説明の便宜上、前記実施形態にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を省略する。
本発明のさらに他の実施形態について、図16に基づいて説明すれば、以下のとおりである。なお、説明の便宜上、前記実施形態にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を省略する。
情報処理装置1、音声認識サーバ2、配信サーバ3、および双方向通信サーバ4の制御ブロック(制御部10(通信部21、音声認識部22、出力処理部23、動作処理部24)、応答判断処理部52、音声認識要求取得部53、配信情報取得部54、出力部55)は、集積回路(ICチップ)等に形成された論理回路(ハードウェア)によって実現してもよいし、CPU(Central Processing Unit)を用いてソフトウェアによって実現してもよい。
本発明の態様1に係る音声認識システム(音声応答システム100)は、音声を取得し、取得した音声に対応した処理を行う音声処理装置(情報処理装置1)と、該音声処理装置と通信可能なサーバ(音声認識サーバ2、配信サーバ3、双方向通信サーバ4)とにより構成された音声認識システムであって、上記音声処理装置には、上記取得した音声の認識処理を行う第1音声認識手段(音声認識部22)と、上記取得した音声を上記サーバに送信する音声送信手段(通信部21)と、上記サーバから上記音声の認識結果を取得する音声認識結果取得手段(通信部21)と、上記第1音声認識手段が認識処理を行った結果である第1認識結果と、上記音声認識結果取得手段が取得した、上記サーバによる音声認識処理の結果である第2認識結果とに基づいて、該音声に対応した処理を実行する音声対応手段(出力処理部23)と、が備えられており、上記サーバには、上記音声処理装置が取得した音声を受信する音声受信手段(音声認識部61)と、上記音声受信手段が受信した上記音声の認識処理を行う第2音声認識手段(音声認識部61)と、上記第2音声認識手段が認識処理を行った結果を上記音声処理装置に送信する音声認識結果送信手段(出力部55)と、が備えられていることを特徴としている。
2 音声認識サーバ(サーバ)
3 配信サーバ(サーバ)
4 双方向通信サーバ(サーバ、処理内容送信手段)
21 通信部(音声受信手段、音声送信手段、音声認識結果取得手段)
22 音声認識部(音声受信手段、第1音声認識手段、音声送信制御手段)
23 出力処理部(音声対応手段、発話手段)
52 応答判断処理部(処理内容決定手段)
54 配信情報取得部(配信情報取得手段)
55 出力部(音声認識結果送信手段)
61 音声認識部(第2音声認識手段)
62 合成音声生成部(合成音声生成手段、合成音声送信手段)
100 音声応答システム(音声認識システム、発話システム)
Claims (9)
- 音声を取得し、取得した音声に対する音声認識処理を行う音声処理装置と、該音声処理装置と通信可能なサーバとにより構成された音声認識システムであって、
上記音声処理装置には、
上記取得した音声の音声認識処理を行う第1音声認識手段と、
上記取得した音声を上記サーバに送信する音声送信手段と、
上記サーバから、上記サーバによる上記音声の音声認識処理の結果である第2認識結果および該第2認識結果に対応付けられた音声応答処理内容を取得する音声認識結果取得手段と、
上記第1音声認識手段が音声認識処理を行った結果である第1認識結果に対応付けられた応答を音声出力した後、上記音声認識結果取得手段が上記サーバから取得した、上記第2認識結果に対応付けられた上記音声応答処理内容を音声出力する音声対応手段と、が備えられており、
上記サーバには、
上記音声処理装置が取得した音声を受信する音声受信手段と、
上記音声受信手段が受信した上記音声の音声認識処理を行い、上記第2認識結果を生成する第2音声認識手段と、
上記音声処理装置に音声出力させる、上記第2認識結果に対応付けられた音声応答処理内容を決定する処理内容決定手段と、
上記処理内容決定手段が決定した音声応答処理内容を上記音声処理装置に送信する処理内容送信手段と、
上記第2音声認識手段が音声認識処理を行った結果である上記第2認識結果を上記音声処理装置に送信する音声認識結果送信手段と、
が備えられていることを特徴とする音声認識システム。 - 上記処理内容決定手段は、上記音声応答処理内容が複数存在する場合に、それぞれの音声応答処理内容に優先順位を設定し、優先順位の高い音声応答処理内容を、上記音声処理装置に音声出力させる音声応答処理内容として決定することを特徴とする請求項1に記載の音声認識システム。
- 上記サーバには、
上記音声処理装置に配信する情報を取得する配信情報取得手段と、
上記配信情報取得手段が取得した配信情報を音声情報として出力するための合成音声を生成する合成音声生成手段と、
上記合成音声生成手段が生成した合成音声を上記音声処理装置に送信する合成音声送信手段と、が備えられていることを特徴とする請求項1または2に記載の音声認識システム。 - 上記合成音声送信手段は、上記音声処理装置の上記音声対応手段が処理を実行する前に、上記合成音声を該音声処理装置に送信することを特徴とする請求項3に記載の音声認識システム。
- 上記第1音声認識手段、および上記第2音声認識手段は、音声認識処理の結果の精度を示す認識結果精度が閾値を超えた場合、当該音声認識処理の結果を自手段による音声認識処理の結果として出力するものであり、該閾値は、当該音声認識処理の結果となる音声の内容が挨拶であるのか、または動作を指示するものであるのかによって異なることを特徴とする請求項1〜4のいずれか1項に記載の音声認識システム。
- 上記音声処理装置には、所定の条件を満たした場合、上記音声送信手段による音声の送信を許可する音声送信制御手段が備えられ、
上記音声送信手段は、上記音声送信制御手段の許可があった場合のみ、上記音声を上記サーバに送信することを特徴とする請求項1〜5のいずれか1項に記載の音声認識システム。 - 上記音声処理装置には、上記音声送信手段が上記音声を上記サーバに送信するときに、上記音声送信手段が上記音声を上記サーバに送信することをユーザに対し報知する報知手段が備えられていることを特徴とする請求項1〜6のいずれか1項に記載の音声認識システム。
- 音声を取得し、取得した音声に対する音声認識処理を行う音声処理装置と通信可能なサーバであって、
上記音声処理装置が上記取得した音声を受信する音声受信手段と、
上記音声受信手段が受信した上記音声の音声認識処理を行って第2認識結果を生成する第2音声認識手段と、
上記音声処理装置の上記音声認識処理の結果である第1認識結果に対応付けられた応答を上記音声処理装置が音声出力した後に、上記音声処理装置に音声出力させる、上記第2認識結果に対応付けられた音声応答処理内容を決定する処理内容決定手段と、
上記処理内容決定手段が決定した音声応答処理内容を上記音声処理装置に送信する処理内容送信手段と、
上記第2音声認識手段が音声認識処理を行った結果である上記第2認識結果を上記音声処理装置に送信する音声認識結果送信手段と、
を備えるサーバ。 - 音声を取得し、取得した音声に対する音声認識処理を行う音声処理装置であって、
上記取得した音声の音声認識処理を行う第1音声認識手段と、
上記取得した音声を、自装置と通信可能なサーバに送信する音声送信手段と、
上記サーバから、上記サーバによる上記音声の音声認識処理の結果である第2認識結果および該第2認識結果に対応付けられた音声応答処理内容を取得する音声認識結果取得手段と、
上記第1音声認識手段が音声認識処理を行った結果である第1認識結果に対応付けられた応答を音声出力した後、上記音声認識結果取得手段が上記サーバから取得した、上記第2認識結果に対応付けられた上記音声応答処理内容を音声出力する音声対応手段と、を備えている
ことを特徴とする音声処理装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013057324A JP5753212B2 (ja) | 2013-03-19 | 2013-03-19 | 音声認識システム、サーバ、および音声処理装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013057324A JP5753212B2 (ja) | 2013-03-19 | 2013-03-19 | 音声認識システム、サーバ、および音声処理装置 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015103920A Division JP5973030B2 (ja) | 2015-05-21 | 2015-05-21 | 音声認識システム、および音声処理装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014182307A JP2014182307A (ja) | 2014-09-29 |
JP5753212B2 true JP5753212B2 (ja) | 2015-07-22 |
Family
ID=51701056
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013057324A Active JP5753212B2 (ja) | 2013-03-19 | 2013-03-19 | 音声認識システム、サーバ、および音声処理装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5753212B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113921016A (zh) * | 2021-10-15 | 2022-01-11 | 阿波罗智联(北京)科技有限公司 | 语音处理方法、装置、电子设备以及存储介质 |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6448971B2 (ja) * | 2014-09-30 | 2019-01-09 | シャープ株式会社 | 対話装置 |
JP6373709B2 (ja) * | 2014-09-30 | 2018-08-15 | シャープ株式会社 | 対話装置 |
JP6520100B2 (ja) * | 2014-12-15 | 2019-05-29 | オンキヨー株式会社 | 電子機器制御システム、端末装置、及び、サーバー |
JP6468069B2 (ja) * | 2015-05-19 | 2019-02-13 | オンキヨー株式会社 | 電子機器制御システム、サーバー、及び、端末装置 |
JP6614080B2 (ja) * | 2016-09-16 | 2019-12-04 | トヨタ自動車株式会社 | 音声対話システムおよび音声対話方法 |
EP3596616A1 (en) | 2018-05-03 | 2020-01-22 | Google LLC. | Coordination of overlapping processing of audio queries |
JP2020134903A (ja) * | 2019-02-26 | 2020-08-31 | コニカミノルタ株式会社 | システム、画像形成装置、方法およびプログラム |
JP2021152589A (ja) * | 2020-03-24 | 2021-09-30 | シャープ株式会社 | 電子機器の制御装置、制御プログラム、制御方法、電子機器 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000259601A (ja) * | 1999-03-05 | 2000-09-22 | Masami Kato | 会話装置および方法 |
JP2001188786A (ja) * | 1999-12-28 | 2001-07-10 | Sony Corp | 会話処理装置および方法、並びに記録媒体 |
JP2003140691A (ja) * | 2001-11-07 | 2003-05-16 | Hitachi Ltd | 音声認識装置 |
JP2003316803A (ja) * | 2002-04-19 | 2003-11-07 | Nec Corp | 携帯端末装置およびサービス提供システム |
JP4174233B2 (ja) * | 2002-04-24 | 2008-10-29 | 株式会社日立製作所 | 音声対話システム及び音声対話方法 |
JP2008009153A (ja) * | 2006-06-29 | 2008-01-17 | Xanavi Informatics Corp | 音声対話システム |
JP2010054897A (ja) * | 2008-08-29 | 2010-03-11 | Brother Ind Ltd | 音声認識装置、音声認識プログラム、受付装置および受付プログラム |
JP5606951B2 (ja) * | 2011-02-15 | 2014-10-15 | アルパイン株式会社 | 音声認識システムおよびこれを用いた検索システム |
CN103635962B (zh) * | 2011-08-19 | 2015-09-23 | 旭化成株式会社 | 声音识别系统、识别字典登记系统以及声学模型标识符序列生成装置 |
JP5658641B2 (ja) * | 2011-09-15 | 2015-01-28 | 株式会社Nttドコモ | 端末装置、音声認識プログラム、音声認識方法および音声認識システム |
-
2013
- 2013-03-19 JP JP2013057324A patent/JP5753212B2/ja active Active
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113921016A (zh) * | 2021-10-15 | 2022-01-11 | 阿波罗智联(北京)科技有限公司 | 语音处理方法、装置、电子设备以及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
JP2014182307A (ja) | 2014-09-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5753212B2 (ja) | 音声認識システム、サーバ、および音声処理装置 | |
US11051139B2 (en) | Outputting notifications using device groups | |
US20170330566A1 (en) | Distributed Volume Control for Speech Recognition | |
WO2016052018A1 (ja) | 家電管理システム、家電、リモコン装置、ロボット | |
US20140214429A1 (en) | Method for Voice Activation of a Software Agent from Standby Mode | |
KR20190075800A (ko) | 지능형 개인 보조 인터페이스 시스템 | |
JP2019117623A (ja) | 音声対話方法、装置、デバイス及び記憶媒体 | |
US10803872B2 (en) | Information processing apparatus for transmitting speech signals selectively to a plurality of speech recognition servers, speech recognition system including the information processing apparatus, and information processing method | |
US11514905B2 (en) | Information processing apparatus and information processing method | |
CN106067996B (zh) | 语音再现方法、语音对话装置 | |
JP6783339B2 (ja) | 音声を処理する方法及び装置 | |
JP6659514B2 (ja) | 電子機器及びその制御方法 | |
WO2017141530A1 (ja) | 情報処理装置、情報処理方法、及びプログラム | |
WO2020003851A1 (ja) | 音声処理装置、音声処理方法及び記録媒体 | |
KR20230133864A (ko) | 스피치 오디오 스트림 중단들을 처리하는 시스템들및 방법들 | |
JP6621593B2 (ja) | 対話装置、対話システム、及び対話装置の制御方法 | |
JP7095684B2 (ja) | 情報処理装置、情報処理方法、プログラム | |
JP6559192B2 (ja) | 制御装置、入出力装置、制御方法、および制御プログラム | |
JP2016206646A (ja) | 音声再生方法、音声対話装置及び音声対話プログラム | |
JP5973030B2 (ja) | 音声認識システム、および音声処理装置 | |
JP6373709B2 (ja) | 対話装置 | |
JP6151112B2 (ja) | 再生装置、再生装置の制御方法、サーバ、および、システム | |
CN110958348B (zh) | 语音处理方法、装置、用户设备及智能音箱 | |
CN105681556A (zh) | 一种录音控制的方法及装置、移动终端 | |
CN111292771A (zh) | 用于控制影音设备的方法及装置、终端设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140924 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20141121 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150421 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150521 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5753212 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |