JP2016095383A - 音声認識クライアント装置及びサーバ型音声認識装置 - Google Patents
音声認識クライアント装置及びサーバ型音声認識装置 Download PDFInfo
- Publication number
- JP2016095383A JP2016095383A JP2014231144A JP2014231144A JP2016095383A JP 2016095383 A JP2016095383 A JP 2016095383A JP 2014231144 A JP2014231144 A JP 2014231144A JP 2014231144 A JP2014231144 A JP 2014231144A JP 2016095383 A JP2016095383 A JP 2016095383A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- speech recognition
- data
- server
- voice recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Telephonic Communication Services (AREA)
Abstract
【課題】音声認識サーバによる音声認識の結果を利用して多様なサービスを効率よく利用できる音声認識クライアント装置と、その音声認識クライアント装置とともに使用できる音声認識サーバを提供する。
【解決手段】音声認識クライアント装置34は、音声を音声データに変換するマイクロフォン50及びフレーム化処理部52と、ローカルな音声認識処理部80と、キーワードをキーに音声認識サーバのURIをルックアップするためのルックアップテーブル84と、音声認識処理部80の出力する音声認識結果の中にキーワードを検出したことに応答して検出信号を出力する判定部82と、検出信号に応答して、検出されたキーワードをキーにルックアップテーブル84からルックアップされるURIの音声認識サーバに音声データを送信して音声認識を要求する通信制御部86とを含む。
【選択図】図2
【解決手段】音声認識クライアント装置34は、音声を音声データに変換するマイクロフォン50及びフレーム化処理部52と、ローカルな音声認識処理部80と、キーワードをキーに音声認識サーバのURIをルックアップするためのルックアップテーブル84と、音声認識処理部80の出力する音声認識結果の中にキーワードを検出したことに応答して検出信号を出力する判定部82と、検出信号に応答して、検出されたキーワードをキーにルックアップテーブル84からルックアップされるURIの音声認識サーバに音声データを送信して音声認識を要求する通信制御部86とを含む。
【選択図】図2
Description
この発明はサーバ型音声認識装置と通信することにより音声を認識する機能を備えた音声認識クライアント装置と、この音声認識クライアント装置と通信して音声認識を行なうサーバ型音声認識装置に関し、特に、音声認識クライアント装置がローカルな音声認識機能を備え、ローカルな音声認識結果にしたがって、サーバ型音声認識装置を切替えることが可能な音声認識システムに関する。
インターネット等のネットワークに接続されるいわゆるスマートフォン等の携帯型端末装置が世界的規模で急速に普及している。携帯型端末装置は、旧来の電話線等を敷設する必要がなく、ある程度の範囲をカバーする基地局を拠点位置に設ければよい。したがって、例えば砂漠地帯、凍土地帯、山岳地帯、島嶼、密林等においても基地局と無線通信さえ可能であれば電話として機能する。それだけではなく、携帯型端末装置の無線通信機能を用いることで、事実上、インターネットに接続可能な小型のコンピュータとして用いることができる。スマートフォンを使えば、インターネット上のサイトの検索、閲覧、及びサイトの更新、音楽及びビデオの視聴及び投稿、メールの交換、銀行取引、スケッチ、録音・録画等、デスクトップコンピュータと同等の充実した機能が利用できる。
しかしこのように充実した機能を利用するための1つのネックが、携帯型端末装置の筐体の小ささである。携帯型端末装置は、携帯を可能とするための当然の前提として筐体が小さく軽く作られている。そのため、コンピュータのキーボードのように高速に入力をするためのデバイスを搭載できない。タッチパネルを使用した様々な入力方式が考えられており、以前と比較して素早く入力できるようにはなっているが、依然として携帯型端末装置でテキスト文字列を高速に入力ことはそれほど容易でない。
こうした状況で注目されているのが音声認識による入力である。音声認識機能を用いることにより、長文のテキストの入力、及び携帯型端末装置に対するコマンドの入力等が可能になる。音声認識の現在の主流は、多数の音声データを統計的に処理して作成した音響モデルと、大量の文書から得た統計的言語モデルとを使用する統計的音声認識装置である。こうした音声認識には、高精度を得るために非常に大きな計算パワーを必要とする。そのためこれまでは、音声認識は大容量で計算能力が十分に高いコンピュータでのみ実現されていた。携帯型端末装置の計算資源は相対的に非力であるため、音声認識機能を利用する場合には、音声認識機能をオンラインで提供する音声認識サーバに音声認識を依頼し、携帯型端末装置はその結果を利用する音声認識クライアントとして動作することが主流である。音声認識クライアントが音声認識をする際には、音声をローカルに処理して得た音声データ、符号データ、又は音声の特徴量(素性)を音声認識サーバにオンラインで送信し、音声認識結果を受け取ってそれに基づいた処理を行なう。
しかし、半導体技術の進歩により、CPU(Central Processing Unit)はより小型化し、その計算能力は高く、消費電力は十分に小さくなった。また、携帯型端末装置に搭載されるメモリ容量も従来と比較して桁違いに大きくなってきた。そのため、携帯型端末装置でも精度の問題を別として、音声認識が十分に利用可能となっている。
もっとも、利用できる計算資源の点では音声認識サーバの方が、以前と同様に圧倒的に有利である。音声認識の精度の点では、携帯型端末装置よりも音声認識サーバで行なわれる音声認識の方が優れている点は間違いない。しかも装置間の通信速度は以前と比較してはるかに高速になっているため、音声認識サーバを利用した分散的な音声認識を携帯型端末装置で利用する仕組みが実用化されている。
このように、携帯型端末装置に搭載される音声認識の精度が相対的に低い、という欠点を補うための提案が、後掲の特許文献1に開示されている。特許文献1は音声認識サーバと交信するクライアントに関する。このクライアントは、音声を処理して音声データに変換し、音声認識サーバに送信する。音声認識サーバは、その音声データに対して音声認識を行ない、その結果のテキストデータを携帯型端末装置に返信する。その音声認識結果には、文節の区切り位置、文節の属性(文字種)、単語の品詞、文節の時間情報等が付されている場合が大部分である。クライアントは、サーバからの音声認識結果に付されているこのような情報を用い、ローカルで音声認識ができる。この際、ローカルに登録されている語彙又は音響モデルを使用できるので、語彙によっては音声認識サーバで誤って認識された語を携帯型端末装置のローカルな音声認識では正しく認識できる可能性がある。
特許文献1に開示されたクライアントでは、音声認識サーバからの音声認識結果と、ローカルに行なった音声認識結果とを比較し、両者の認識結果が異なった箇所についてはユーザによりいずれかを選択させる。
特許文献1に開示されたクライアントは、音声認識サーバによる認識結果をローカルな音声認識結果で補完できるという優れた効果を奏する。しかし、ローカルな音声認識の精度を高めても、その効果はローカルな個々の携帯型端末装置に特化したものとなり、高精度の音声認識の効果を多くの人が享受することができない。音声認識サーバによる認識結果の精度が高まれば、ローカルな環境に関係なくユーザは音声認識の機能を享受できるはずである。
一方、音声認識サービスは、単にネットワークを用いて提供される多種多様なサービスのフロントエンドに過ぎないということもできる。音声認識サービスと他のサービスとを組み合わせることにより、ユーザが利用可能なサービスがより多様化し、従来は考えられなかったようなシステムが利用可能となる可能性が高い。そのような環境では、例えば複数の音声認識サーバが存在し、それらがそれぞれ音声認識サービスと何らかのサービスを組み合わせた独自のサービスを提供すると考えられる。そのような多様なサービスを利用する際には、単にローカルな音声認識の精度を高めるだけでなく、ローカルな音声認識を用いて多様なサービスを効率的に利用できる仕組みが必要である。特許文献1に開示された発明は、ローカルな音声認識を用いてそのような多様なサービスを効率的に利用することについては全く関係しておらず、こうした問題を解決することはできない。
それゆえにこの発明の目的は、音声認識サーバを用いた音声認識の結果を用いて多様なサービスを効率的に利用することが可能な音声認識クライアント装置と、その音声認識クライアント装置とともに使用できる音声認識サーバを提供することである。
本発明の第1の局面は、複数の音声認識サーバのいずれかに音声認識を要求する音声認識クライアント装置に関する。この音声認識クライアント装置は、音声を音声データに変換する音声変換手段と、音声データに対する音声認識を行なって音声認識結果を出力する音声認識手段と、キーワードをキーとして音声認識サーバの識別子をルックアップするためのルックアップテーブルを記憶するルックアップテーブル記憶手段と、音声認識手段の出力する音声認識結果の中に、ルックアップテーブルのキーとなるキーワードを検出したことに応答して、検出信号を出力するキーワード検出手段と、検出信号に応答して、検出されたキーワードをキーにルックアップテーブルからルックアップされる音声認識サーバの識別子に対応する音声認識サーバに音声データを送信して、当該音声データの音声認識を要求する音声データ送信手段とを含む。
ルックアップテーブルに、予めキーワードとそのキーワードが検出されたときに音声データを送信すべき音声認識サーバの識別子(例えばURI)とを登録しておく。ユーザの発話に対してローカルな音声認識手段が音声認識を行なう。その結果の中にルックアップテーブル中のキーワードがあるとそれをキーワード検出手段が検出し、検出信号を出力する。この検出信号に応答して、音声データ送信手段がルックアップテーブルからルックアップされた音声認識サーバに対して音声データを送信する。
ルックアップテーブルにキーワードと音声認識サーバの識別子との組み合わせを複数個登録しておくことにより、異なるキーワードによって、音声データの送信先の音声認識サーバを変えることができる。各音声認識サーバが音声認識した結果を用いた何らかのサービスを提供している場合、ユーザは発話中にその音声認識サーバに対応するキーワードを発話するだけで、そのサービスを利用することが可能になる。手動で音声認識サーバを切替える場合と比較して、より簡単な操作で多様なサービスを効率的に利用できるようになる。
好ましくは、音声データ送信手段は、検出信号に応答して、検出されたキーワードをキーにルックアップテーブルから音声認識サーバの識別子をルックアップするルックアップ手段と、ルックアップ手段によりルックアップされた音声認識サーバの識別子に対応する音声認識サーバに、音声データとキーワード検出手段により検出されたキーワードとを送信して、当該音声データの音声認識を要求する音声データ・キーワード送信手段とを含む。
さらに好ましくは、ルックアップテーブルは、キーワードをキーとして、音声認識サーバの識別子と、クライアント装置に対してサービスを提供するサービスサーバの識別子とをルックアップ可能である。音声認識クライアント装置はさらに、音声データ送信手段による音声データの送信先の音声認識サーバから音声認識の結果を受信する音声認識結果受信手段と、音声認識結果受信手段により受信された音声認識結果を、検出されたキーワードをキーにルックアップテーブルからルックアップされたサービスサーバの識別子に対応するサービスサーバに送信することにより、当該サービスサーバによるサービスにアクセスするサービスアクセス手段とを含む。
ルックアップテーブルは、キーワードをキーとして、音声認識サーバの識別子と、クライアント装置に対してサービスを提供するサービスサーバの識別子とをルックアップ可能であってもよい。音声データ送信手段は、検出信号に応答して、検出されたキーワードをキーにルックアップテーブルから音声認識サーバの識別子及びサービスサーバの識別子をルックアップするルックアップ手段と、ルックアップ手段によりルックアップされた音声認識サーバの識別子に対応する音声認識サーバに、音声データと、キーワードと、サービスサーバの識別子とを送信して、当該音声データについて、当該キーワードに依存して変化する音声認識処理の実行と、当該音声認識処理の結果を用いてサービスサーバの識別子により特定されるサービスサーバへのアクセスとを要求する手段とを含む。
好ましくは、ルックアップテーブルは、キーワードをキーとして、音声認識サーバの識別子と、音声認識に用いられる音声認識モデルを特定するための音声認識モデル情報とをルックアップ可能である。音声データ送信手段は、検出信号に応答して、検出されたキーワードをキーにルックアップテーブルから音声認識サーバの識別子及び音声認識モデル情報をルックアップするルックアップ手段と、ルックアップ手段によりルックアップされた音声認識サーバの識別子に対応する音声認識サーバに、音声データと音声認識モデル情報とを送信して、当該音声データについて、当該音声認識モデル情報を用いた音声認識処理の実行を要求する手段とを含む。
本発明の第2の局面は、音声認識クライアント装置からデータを受信して、当該データに含まれる音声データに対する音声認識を行なうサーバ型音声認識装置に関する。データは、音声データと、当該音声データに関するキーワードとを含む。このサーバ型音声認識装置は、受信したデータを音声データとキーワードとに分離する分離手段と、複数の音声認識モデルを記憶するモデル記憶手段と、キーワードから、複数の音声認識モデルのいずれかを特定するモデル特定情報をルックアップ可能なルックアップテーブルを記憶するルックアップテーブル記憶手段と、分離手段により分離されたキーワードをキーに、ルックアップテーブルからモデル特定情報をルックアップするルックアップ手段と、モデル記憶手段に記憶された複数の音声認識モデルのうち、ルックアップ手段によりルックアップされたモデル特定情報により特定される音声認識モデルを用いて分離手段により分離された音声データに対する音声認識を行なう音声認識手段とを含む。
本発明の第3の局面は、クライアント装置からデータを受信して、当該データに含まれる音声データに対する音声認識を行なうサーバ型音声認識装置に関する。データは、音声データと、当該音声データに関するキーワードとを含む。このサーバ型音声認識装置は、受信したデータを音声データとキーワードとに分離する分離手段と、分離手段により分離された音声データに対する音声認識を行なって音声認識結果を出力する音声認識手段と、キーワードから、音声認識手段による音声認識結果の送信先を特定する送信先特定情報をルックアップ可能なルックアップテーブルを記憶するルックアップテーブル記憶手段と、分離手段により分離されたキーワードをキーに、ルックアップテーブルから送信先特定情報をルックアップするルックアップ手段と、ルックアップ手段によりルックアップされた送信先特定情報により特定される送信先に、音声認識手段による音声認識結果を送信する送信手段とを含む。
本発明の第4の局面は、クライアント装置からデータを受信して、当該データに含まれる音声データに対する音声認識を行なうサーバ型音声認識装置に関する。データは、音声データと、当該音声データに対する音声認識結果の送信先を特定する送信先特定情報とを含む。このサーバ型音声認識装置は、受信したデータを音声データと送信先特定情報とに分離する分離手段と、分離手段により分離された音声データに対する音声認識を行なって音声認識結果を出力する音声認識手段と、分離手段により分離された送信先特定情報により特定される送信先に、音声認識手段による音声認識結果を送信する送信手段とを含む。
本発明の第5の局面は、クライアント装置からデータを受信して、当該データに含まれる音声データに対する音声認識を行なうサーバ型音声認識装置に関する。データは、音声データと、当該音声データに対する音声認識に用いるべき音声認識モデルを特定するモデル特定情報とを含む。このサーバ型音声認識装置は、受信したデータを音声データとモデル特定情報とに分離する分離手段と、複数の音声認識モデルを記憶するモデル記憶手段と、モデル記憶手段に記憶された複数の音声認識モデルのうち、分離手段により分離されたモデル特定情報により特定される音声認識モデルを用いて音声認識を行なう音声認識手段とを含む。
本発明の第6の局面は、第1の局面に係るいずれかの音声認識クライアント装置の各手段としてコンピュータを機能させるコンピュータプログラムに関する。
本発明の第7の局面は、第2−第5の局面に係るいずれかのサーバ型音声認識装置の各手段としてコンピュータを機能させるコンピュータプログラムに関する。
以下の説明及び図面では、同一の部品には同一の参照番号を付してある。したがって、それらについての詳細な説明は繰返さない。
<第1の実施の形態>
[概略]
図1を参照して、第1の実施の形態に係る音声認識システム30は、ローカルな音声認識機能を持つ音声認識クライアント装置であるスマートフォン34と、音声認識サーバ36、38,40及び42とを含む。これらはインターネットに代表されるネットワーク32を介して相互に通信可能である。この実施の形態では、スマートフォン34はローカルな音声認識の機能を持ち、音声認識サーバ36、38,40及び42との間の通信量を抑えながら、自然な形でユーザによる操作に対する応答を実現する。なお、以下の実施の形態では、スマートフォン34から音声認識サーバ36、38,40及び42に送信される音声データは音声信号をフレーム化したデータであるが、例えば音声信号を符号化した符号化データでもよいし、音声認識サーバ36、38,40及び42で行なわれる音声認識処理で使用される特徴量でもよい。要するに、スマートフォン34から各音声認識サーバへは、入力された音声から得られる情報であって、音声認識サーバで音声認識の処理を行なうことができるようなデータであればどのようなものでもよい。
[概略]
図1を参照して、第1の実施の形態に係る音声認識システム30は、ローカルな音声認識機能を持つ音声認識クライアント装置であるスマートフォン34と、音声認識サーバ36、38,40及び42とを含む。これらはインターネットに代表されるネットワーク32を介して相互に通信可能である。この実施の形態では、スマートフォン34はローカルな音声認識の機能を持ち、音声認識サーバ36、38,40及び42との間の通信量を抑えながら、自然な形でユーザによる操作に対する応答を実現する。なお、以下の実施の形態では、スマートフォン34から音声認識サーバ36、38,40及び42に送信される音声データは音声信号をフレーム化したデータであるが、例えば音声信号を符号化した符号化データでもよいし、音声認識サーバ36、38,40及び42で行なわれる音声認識処理で使用される特徴量でもよい。要するに、スマートフォン34から各音声認識サーバへは、入力された音声から得られる情報であって、音声認識サーバで音声認識の処理を行なうことができるようなデータであればどのようなものでもよい。
[構成]
図2を参照して、スマートフォン34は、マイクロフォン50と、マイクロフォン50から出力される音声信号をデジタル化し、所定フレーム長及び所定シフト長でフレーム化するフレーム化処理部52と、フレーム化処理部52の出力である音声データを一時的に蓄積するバッファ54と、バッファ54に蓄積された音声データを音声認識サーバ36に送信する処理と、音声認識サーバ36からの音声認識結果等を含むネットワークからのデータを無線により受信する処理とを実行する送受信部56とを含む。フレーム化処理部52の出力する各フレームには、各フレームの時間情報が付されている。
図2を参照して、スマートフォン34は、マイクロフォン50と、マイクロフォン50から出力される音声信号をデジタル化し、所定フレーム長及び所定シフト長でフレーム化するフレーム化処理部52と、フレーム化処理部52の出力である音声データを一時的に蓄積するバッファ54と、バッファ54に蓄積された音声データを音声認識サーバ36に送信する処理と、音声認識サーバ36からの音声認識結果等を含むネットワークからのデータを無線により受信する処理とを実行する送受信部56とを含む。フレーム化処理部52の出力する各フレームには、各フレームの時間情報が付されている。
スマートフォン34はさらに、バッファ54に蓄積された音声データによるローカルな音声認識をバックグラウンドで行ない、音声認識結果の中に所定のキーワードが検出されたことに応答して、そのキーワードに応じて定められる音声認識サーバに音声信号の送信を開始する処理と、所定時間発話がないことに応答して音声認識サーバ36への音声信号の送信を終了する処理とを実行するようにバッファ54及び送受信部56を制御するための制御部58と、送受信部56が音声認識サーバ36から受信した音声認識結果を一時的に蓄積する受信データバッファ60と、音声認識サーバ36からの音声認識結果に応答して、受信データバッファ60の内容を用いたアプリケーションを実行するアプリケーション実行部62と、アプリケーション実行部62に接続されたタッチパネル64と、アプリケーション実行部62に接続されたスピーカ66と含む。本実施の形態では、どのようなアプリケーションを実行するかはアプリケーション実行部62が受信データバッファ60に記憶された内容によって判定する。
制御部58は、発話キーワードと、その発話キーワードが検出されたときに音声信号を送信すべき音声認識サーバのURIとの組を複数個記憶し、検出された発話キーワードから音声認識サーバのURIをルックアップ可能に構成された発話キーワード・音声認識サーバURIルックアップテーブル84(以下単にルックアップテーブル84と呼ぶ)と、バッファ54に蓄積された音声データに対してローカルな音声認識処理を実行する音声認識処理部80と、音声認識処理部80の出力する音声認識結果にルックアップテーブル84に記憶された発話キーワードのいずれかがあるか否かを、音声認識結果とルックアップテーブル84とを照合することにより判定し、あれば、発話キーワードの検出信号と、その発話キーワードをキーとしてルックアップテーブル84から読み出された音声認識サーバの識別子であるURIとを出力する判定部82と、判定部82からの検出信号に応答し、判定部82から与えられたURIの音声認識サーバに、発話キーワードの直後からの発話の音声信号を送信するよう、バッファ54及び送受信部56による通信を制御する通信制御部86とを含む。なお、音声認識処理部80は、無音区間が所定のしきい値時間以上続くと発話が終了したとみなし、発話終了検出信号を出力する。判定部82は、発話終了検出信号を受信すると、通信制御部86に対して音声認識サーバ36へのデータの送信を終了する指示を出す機能を持つ。
ルックアップテーブル84に記憶される発話キーワードは、本実施の形態では、通常の発話とできるだけ区別するために、名詞を用いるものとする。スマートフォン34に何らかの処理を依頼することを考えると、この名詞としては特に通常使用されないような語彙の固有名詞を使用することが自然であり好ましい。固有名詞でなく、特定のコマンド用語を用いるようにしてもよい。こうした処理を可能とするためには、音声認識処理部80が認識可能な語句は限られたものでもよい。音声認識処理部80は、認識結果の各単語にその単語の品詞、動詞の活用形、助詞の種類等を示す情報を付すようなものでもよい。
なお、発話キーワードを名詞に限定する必要はない。他と明確に区別できる単語であれば、どのような単語でも使用できるし、通常は使用されないような特別な語を造語してそれを発話キーワードとしてもよい。
制御部58はさらに、判定部82から、検出信号と、検出された発話キーワードと、その発話キーワードをキーにルックアップテーブル84から読み出されたURIを受信したことに応答し、バッファ54に蓄積された音声データを、指定されたURIの音声認識サーバ36に送信する処理を開始するよう送受信部56を制御するための通信制御部86を含む。
音声認識処理部80が、バッファ54に蓄積された音声データに対する音声認識をするにあたり、音声認識結果を出力する仕方には2通りある。発話ごと方式と逐次方式とである。発話ごと方式は、音声データ内に所定時間を超える無音区間があったときに、それまでの音声の音声認識結果を出力し、次の発話区間から新たに音声認識を開始する。逐次方式は、バッファ54に蓄積されている音声データ全体に対する音声認識結果を所定時間間隔(たとえば100ミリ秒ごと)で出力する。したがって、発話区間が長くなると音声認識音結果のテキストもそれにつれて長くなる。本実施の形態では、音声認識処理部80は逐次方式を採用している。この際、発話中の無音区間が所定時間長以上になったときは、発話が終了したものとする。なお、発話区間が非常に長くなると、音声認識処理部80による音声認識が困難になる。したがって音声認識処理部80は、発話区間が所定時間長以上になると、強制的に発話が終了したものとしてそれまでの音声認識を終了し、新たな音声認識を開始するものとする。なお、音声認識処理部80による音声認識の出力が発話ごとの方式である場合でも、以下の機能は本実施の形態のものと同様に実現できる。
図3を参照して、ローカルな音声認識処理部80の出力タイミングについて説明する。発話100が、第1の発話110と第2の発話112とを含み、両者の間に無音区間114があるものとする。本実施の形態では、音声認識処理部80は、バッファ54に音声データが蓄積されていくと、音声認識結果120で示されるように、100ミリ秒ごとに、バッファ54に蓄積された音声全体に対する音声認識結果を出力する。この方式では、音声認識結果の一部が途中で修正される場合もある。例えば、図3に示す音声認識結果120の場合、200ミリ秒時点で出力された「熱い」という単語が300ミリ秒時点では「暑い」に修正されている。この方式では、無音区間114の時間長が所定のしきい値より大きい場合には、発話が終了したものとみなされる。その結果、バッファ54に蓄積されていた音声データはクリアされ(読捨てられ)、次の発話に対する音声認識処理が開始される。図3の場合には、次の音声認識結果122が新たな時間情報とともに音声認識処理部80から出力される。判定部82は、音声認識結果120又は音声認識結果122等の各々について、音声認識結果が出力されるごとに、ルックアップテーブル84に記憶された発話キーワードのいずれかと一致しているか否かを判定し、発話キーワード検出信号を出力する。ただし、本実施の形態では、発話キーワードは音声認識サーバ36への音声データの送信が行なわれていないときにしか検出されない。
[動作]
スマートフォン34は以下のように動作する。マイクロフォン50は常に周囲の音声を検知して音声信号をフレーム化処理部52に与える。フレーム化処理部52は、音声信号をデジタル化及びフレーム化し、バッファ54に順次入力する。音声認識処理部80は、バッファ54に蓄積されていく音声データの全体について、100ミリ秒ごとに音声認識を行ない、その結果を判定部82に出力する。ローカルな音声認識処理部80は、しきい値時間以上の無音区間を検知するとバッファ54をクリアし、発話の終了を検出したことを示す信号(発話終了検出信号)を判定部82に出力する。
スマートフォン34は以下のように動作する。マイクロフォン50は常に周囲の音声を検知して音声信号をフレーム化処理部52に与える。フレーム化処理部52は、音声信号をデジタル化及びフレーム化し、バッファ54に順次入力する。音声認識処理部80は、バッファ54に蓄積されていく音声データの全体について、100ミリ秒ごとに音声認識を行ない、その結果を判定部82に出力する。ローカルな音声認識処理部80は、しきい値時間以上の無音区間を検知するとバッファ54をクリアし、発話の終了を検出したことを示す信号(発話終了検出信号)を判定部82に出力する。
判定部82は、音声認識処理部80からローカルな音声認識結果を受信すると、その中にルックアップテーブル84に記憶された発話キーワードがあるかを判定する。判定部82は、音声認識サーバ36に音声データを送信していない期間にローカルな音声認識結果内に発話キーワードを検出した場合、発話キーワードの検出信号と、その発話キーワードとともにルックアップテーブル84に記憶されていたURIを通信制御部86に与える。一方、判定部82は、音声認識サーバ36に音声データを送信している間に音声認識処理部80から発話終了検出信号を受信すると、音声認識サーバへの音声データの送信を終了するよう通信制御部86に対して指示を与える。
通信制御部86は、判定部82から発話キーワード検出信号が与えられると、送受信部56を制御して、バッファ54に蓄積されているデータのうち、検出された発話キーワードの直後の位置からデータを読み出して、判定部82から受信したURIの音声認識サーバ36に送信する処理を開始させる。通信制御部86は、判定部82から発話終了検出信号が与えられると、送受信部56を制御して、バッファ54に蓄積されているデータのうち、発話終了までの音声データを音声認識サーバに送信させた後に送信を終了させる。
図2に示す受信データバッファ60は、通信制御部86によって、判定部82により指定されたURIの音声認識サーバへの音声データの送信が開始された後、音声認識サーバから送信されてくる音声認識結果のデータを蓄積する。アプリケーション実行部62は、音声認識サーバから送信されて来た音声認識結果のデータが受信データバッファ60に入力されたことに応答して、受信データバッファ60に記憶されたデータを読み出す。アプリケーション実行部62は、そのデータに基づいて、どのようなアプリケーションを実行するかを判定し、そのアプリケーションを起動する。アプリケーション実行部62は、必要であれば音声認識結果のデータをアプリケーションに渡して処理させる。処理の結果は、例えばタッチパネル64に表示されたり、スピーカ66から音声の形で出力されたりする。
例えば図4を参照して、具体的な例を説明する。ユーザが発話140を行なったものとする。発話140は、「vGate君」という発話キーワード142と、その後に続く通常の発話部分144とを含む。
ここでは、ルックアップテーブル84は、発話キーワードカラム150と、URIカラム152とを含む。発話キーワードとして例えば「vGate君」、「アシスト君」、「スポット博士」、「羊君」等が登録されており、これらに対応するURIカラム152には、各音声認識サーバのURIが登録されている。図4に示す例では、音声認識結果の発話キーワード142である「vGate君」がルックアップテーブル84の1行目の発話キーワードと一致している。したがって、この発話キーワード「vGate君」に対応するURI(www.example1.co.jp)がルックアップテーブル84から読み出される。そして、発話キーワード142以後の発話部分144の音声データ174と、ルックアップテーブル84読み出されたURIの音声認識サーバへのhttpコマンド172とからなるパケット170が送受信部56により組み立てられ、ネットワーク32上に送信される。音声データが長い場合には、音声データは複数のパケットにより音声認識サーバに送信される。
一方、発話中に所定時間以上の空白区間が検出されると、その時点以後の音声データを音声認識サーバ36に送信する処理は終了する。
パケット170による音声データの送信が終了すると、この音声データに対する音声認識結果が、指定された音声認識サーバからスマートフォン34に送信され、受信データバッファ60に蓄積される。この音声認識結果はアプリケーション実行部62(図2参照)に与えられ、適切なアプリケーションにより処理される。
以上のようにこの実施の形態によれば、ローカル音声認識により発話中に発話キーワードが検出されると、ルックアップテーブル84からその発話キーワードに対応するURIが読み出される。そして、発話キーワードの直後から後の音声データが、読み出されたURIによって特定される音声認識サーバに送信される。ローカル音声認識により発話中に空白区間が検出されると、音声認識サーバへの音声データの送信が終了される。音声認識サーバでの音声認識結果を用いて何らかの処理が実行される。したがって、この実施の形態では、スマートフォン34に何らかの処理を実行させようとする場合、ユーザは他に何もせず、単に発話キーワードと実行内容とを発話するだけでよい。発話キーワードがローカル音声認識で正しく認識されれば、スマートフォン34による音声認識の結果を用いた所望の処理が実行され、結果がスマートフォン34により出力される。音声入力の開始のためのボタンを押したりする必要はなく、スマートフォン34を従来より簡単に使用できる。
さらに、上記実施の形態では、発話キーワードがローカル音声認識で検出された場合に音声データを音声認識サーバに送信する処理を開始し、発話に空白区間が検出されると送信処理を終了する。音声の送信を終了するためにユーザが特別な操作をする必要がない。
[プログラムによる実現]
上記第1の実施の形態に係るスマートフォン34は、後述するような、コンピュータと同様のスマートフォンハードウェアと、その上のプロセッサにより実行されるプログラムとにより実現できる。図5に、図2の判定部82及び通信制御部86の機能を実現するプログラムの制御構造をフローチャート形式で示し、図6に、アプリケーション実行部62の機能を実現するプログラムの制御構造をフローチャート形式で示す。ここでは両者を別プログラムとして記載しているが、両者をまとめることもできるし、1つのプログラムの別スレッドとすることもできるし、それぞれさらに細かい単位のプログラムに分割することもできる。
上記第1の実施の形態に係るスマートフォン34は、後述するような、コンピュータと同様のスマートフォンハードウェアと、その上のプロセッサにより実行されるプログラムとにより実現できる。図5に、図2の判定部82及び通信制御部86の機能を実現するプログラムの制御構造をフローチャート形式で示し、図6に、アプリケーション実行部62の機能を実現するプログラムの制御構造をフローチャート形式で示す。ここでは両者を別プログラムとして記載しているが、両者をまとめることもできるし、1つのプログラムの別スレッドとすることもできるし、それぞれさらに細かい単位のプログラムに分割することもできる。
図5を参照して、判定部82及び通信制御部86の機能を実現するプログラムは、スマートフォン34の電源投入時に起動されたことに応答して、使用するメモリエリアの初期化等を実行するステップ200と、システムからプログラムの実行を終了することを指示する終了信号を受信したか否かを判定し、終了信号を受信したときには必要な終了処理を実行してこのプログラムの実行を終わるステップ202と、終了信号が受信されていないときに、音声認識処理部80からローカル音声認識結果を受信したか否かを判定し、受信していなければ制御をステップ202に戻すステップ204とを含む。前述したとおり、音声認識処理部80は所定時間ごとに音声認識結果を逐次的に出力する。したがってステップ204の判定は、所定時間ごとにYESとなる。なお、プログラムの実行を終了する指示とは、例えばユーザがこのプログラムを強制的に終了させるための処理を実行したときにシステムからこのアプリケーションに送信される信号のことをいう。
このプログラムはさらに、ステップ204でローカル音声認識の結果を受信したと判定されたことに応答して、ルックアップテーブル84に記憶された発話キーワードのいずれかがローカル音声認識結果に含まれるか判定し、含まれていない場合には制御をステップ202に戻すステップ206と、発話キーワードのいずれかがローカル音声認識結果にあったときに、その発話キーワードに対応付けて記憶されているURIを読み出し、検出された発話キーワードとともにメモリに保存するステップ208と、バッファ54(図2)に記憶されている音声データのうち、発話キーワードの直後を先頭とする音声データをステップ208で読み出されたURIの音声認識サーバに送信する処理を開始するよう送受信部56に指示するステップ210とを含む。以後、処理はスマートフォン34への音声データ送信中の処理に移る。
音声データ送信中の処理は、システムの終了信号を受信したか否かを判定し、受信したときには必要な処理を実行してこのプログラムの実行を終了するステップ212と、終了信号が受信されていないときに、音声認識処理部80から所定時間以上の無音区間を検出したことを示す発話終了検出信号を受信したか否かを判定するステップ214と、発話終了検出信号を受信したと判定されたときに、バッファ54に記憶されている音声データのうち、その無音区間の直前の部分までを音声認識サーバ36に送信して送信を終了し、制御をステップ202に戻すステップ218と、ステップ214で発話終了検出信号を受信していないと判定されたときに、音声認識サーバへの音声データの送信を継続し、制御をステップ212に戻すステップ216とを含む。
図6を参照して、図2のアプリケーション実行部62を実現するプログラムは、スマートフォン34の電源投入時に起動され、必要な初期化処理を実行するステップ220と、終了信号を受信したか否かを判定し受信したときにはこのプログラムの実行を終了するステップ222と、終了信号を受信していないときに、音声認識サーバから音声認識結果のデータを受信したか否かを判定し、受信していなければ制御をステップ222に戻すステップ224とを含む。
このプログラムはさらに、受信データバッファ60が音声認識サーバから音声認識結果のデータを受信したことに応答して、音声認識結果を受信データバッファ60から読み出してアプリケーション実行部62に与えるステップ226と、ステップ226の後に、受信データバッファ60をクリアして制御をステップ222に戻すステップ228とを含む。
図5に示すプログラムによれば、ローカルな音声認識結果が発話キーワードとマッチしているとステップ206で判定されると、ステップ208でその発話キーワードに対応するURIがルックアップテーブル84から読み出されてメモリに保存され、ステップ210以後で、バッファ54に記憶された音声データのうち、発話キーワード以後を先頭とする音声データが、ステップ208で読み出されたURIの音声認識サーバに送信される。音声データの送信中に入力音声中に所定長以上の空白区間が検出されると、バッファ54に記憶された音声データのうち、空白部分の直前までが音声認識サーバに送信された後、送信が終了する。
一方、音声認識サーバ36から音声認識結果を受信したときに、音声認識結果が受信データバッファ60からアプリケーション実行部62に読み出され、アプリケーション実行部62が音声認識結果の内容に応じた適切な処理を実行する。
したがって、図5及び図6に制御構造を示すプログラムをスマートフォン34で実行することにより、上記した実施の形態の機能を実現できる。
なお、上記実施の形態では、音声データをスマートフォン34から音声認識サーバに送信する際、音声をデジタル化しフレーム化したものを送信している。しかし本発明はそのような実施の形態には限定されない。例えば、音声をデジタル化したものをそのまま送信してもよいし、コードブックによりベクトルコード化した音声データを送信してもよい。さらに、フレーム化した音声から所定の特徴量(MFCC係数等)を抽出し、それを送信してもよい。
<第2の実施の形態>
上記実施の形態では、ローカル音声認識で発話キーワードを検出すると、その発話キーワードに対応するURIをルックアップテーブル84から読み出し、音声データをそのURIに送信する。そして、音声認識サーバから音声認識結果を受信すると、その音声認識結果に基づいて所定のアプリケーションを実行する。しかし本発明はそのような実施の形態には限定されない。例えば、音声認識サーバから音声認識結果を受信した後、他のサービスサーバにその音声認識結果を転送し、そのサービスサーバに、何らかの処理を実行させるようにしてもよい。第2の実施の形態に係るスマートフォンはそのようなシステムで使用される。
上記実施の形態では、ローカル音声認識で発話キーワードを検出すると、その発話キーワードに対応するURIをルックアップテーブル84から読み出し、音声データをそのURIに送信する。そして、音声認識サーバから音声認識結果を受信すると、その音声認識結果に基づいて所定のアプリケーションを実行する。しかし本発明はそのような実施の形態には限定されない。例えば、音声認識サーバから音声認識結果を受信した後、他のサービスサーバにその音声認識結果を転送し、そのサービスサーバに、何らかの処理を実行させるようにしてもよい。第2の実施の形態に係るスマートフォンはそのようなシステムで使用される。
図7を参照して、この第2の実施の形態に係るスマートフォン240は、第1の実施の形態のスマートフォン34とほぼ同様な構成である。しかし、スマートフォン240は、音声認識システム30の制御部58に代えて、制御部58の機能に加え、発話キーワードに基づいて、音声認識サーバからの音声認識サーバを転送するターゲットとなるサービスサーバの識別子であるURIを出力する制御部250を含む点において、図2に示すスマートフォン34と異なっている。
制御部250は、音声認識処理部80と、発話キーワード、音声認識サーバURI、及びサービスサーバURIの組を複数個記憶し、発話キーワードをキーに音声認識サーバURI及びサービスサーバURIをルックアップ可能なルックアップテーブル262と、ルックアップテーブル262を参照することにより音声認識処理部80の音声認識結果中に発話キーワードがあるか否かを判定し、発話キーワードがあったときには、発話キーワードの検出信号とともに、その発話キーワードに対応する音声認識サーバURI及びサービスサーバURIをルックアップテーブル262から読み出して出力する判定部260と、判定部260から発話キーワード検出信号を受けたことに応答して、バッファ54から発話キーワードに記憶されている音声データの内で、発話キーワードに対応する位置の直後からのデータを、判定部260から与えられた音声認識サーバに送信する処理を開始するよう送受信部56を制御する機能を持つ通信制御部264と、判定部260から出力されるサービスサーバURIを一時的に記憶する一時記憶部266と、一時記憶部266がサービスサーバURIを記憶しているときに、受信データバッファ60が音声認識結果を受信したことに応答して、受信データバッファ60に記憶された音声認識結果を、一時記憶部266に記憶されたサービスサーバURIに送信してそのサービスにアクセスするよう、通信制御部264を制御するサービスアクセス部268とを含む。
図8を参照して、ルックアップテーブル262は複数のエントリを含む。各エントリは、発話キーワードカラム150と、音声認識サーバURIカラム152と、サービスサーバURIカラム280とを含む。このルックアップテーブル262により、発話キーワードが与えられると、その発話キーワードと対応付けられた音声認識サーバURIとサービスサーバURIとを読み出すことができる。
この実施の形態に係るスマートフォン240の動作の概略について説明する。発話の構成は図4に示す発話140と同様であるものとする。本実施の形態に係る制御部250は、発話140中の単語をルックアップテーブル262と照合することにより、発話中に発話キーワードが存在するか否かを判定する。発話中に発話キーワードが存在するときには、判定部260は、その発話キーワードに対応する音声認識サーバURIとサービスサーバURIとをルックアップテーブル262から読み出し、発話キーワード検出信号とともに通信制御部264に与える。通信制御部264は、音声データのうち、発話キーワードが検出された部分の次から発話の終了までの音声データを、判定部260から与えられた音声認識サーバURIの音声認識サーバに送信する。通信制御部264はまた、判定部260から与えられたサービスサーバURIを一時記憶部266に一時的に記憶させる。
一時記憶部266にサービスサーバURIが記憶されているときに受信データバッファ60が音声認識結果を受信すると、サービスアクセス部268は音声認識結果を受信データバッファ60から読み出し、通信制御部264及び送受信部56を介して、一時記憶部266に記憶されたサービスサーバURIに送信する。すると、そのサービスサーバは、送信された音声認識結果に対して所定の処理を行うことになる。
このように本実施の形態では、ルックアップテーブル262は発話キーワードと音声認識サーバURIだけでなく、サービスサーバURIも記憶している。発話中に発話キーワードが検出されると、その発話キーワードに対応する音声認識サーバに音声データが送信される。その音声認識結果が受信データバッファ60により受信されると、その音声認識結果が、ルックアップテーブル262から読み出されたサービスサーバURIに送信される。その結果、ユーザの音声に基づいて、その音声により指示される内容の処理がサービスサーバURIで実行される。
以上のようにこの実施の形態によれば、発話キーワードを使い分けることにより、音声認識サーバを切替えることができるだけでなく、その結果を使用して所望のサービスにアクセスできる。したがって、ユーザは発話のみを用い、自分の必要とする処理にとって最も好ましい音声認識サーバを用いて精度の高い音声認識を行ない、その結果を自分が望むサービスサーバに送信できる。その結果、多様なサービスを切り替えながら効率的に利用することが可能になる。
図9に、この実施の形態に係るスマートフォン240の判定部260及び通信制御部264の機能のうち、発話キーワード検出時の機能を実現するためのプログラムの制御構造をフローチャート形式で示す。この図は、第1の実施の形態の図5に示すものに相当する。
図9を参照して、このプログラムは、図5に制御構造を示すものからステップ208を削除し、代わりに、ステップ206で検出された発話キーワードに対応する音声認識サーバURIとサービスサーバURIとをルックアップテーブル262から読み出し、特にサービスサーバURIを一時記憶部266に保存するステップ300を含む。その他の点では、このプログラムは図5に示すものと同じ制御構造を持つ。このプログラムの実行時の制御部250の動作も、既に説明したものから十分に明らかである。
図10を参照して、この実施の形態において、音声認識結果を受信したときの、図7に示す通信制御部264及びサービスアクセス部268の機能を実現するためのプログラムの制御構造について説明する。この図は、第1の実施の形態における図6に示すものに対応する。このプログラムが図6に示すものと異なるのは、図6のステップ226に代えて、受信データバッファ60が受信した音声認識結果を、一時記憶部266に記憶されたサービスサーバURIに送信するステップ310を含む点である。
このプログラムを実行したときのスマートフォン240の動作は、音声認識結果を受信したときに、スマートフォン240自身がその音声認識結果に対応したアプリケーションを実行する代わりに、スマートフォン240がその音声認識結果を、ルックアップテーブル262から読み出したサービサーバURIに送信する点において、第1の実施の形態に係るスマートフォン34と相違する。
この第2の実施の形態では、音声データの送信を開始するためにユーザが何らかの操作を特に行なう必要がないという点と、音声認識サーバを切替えるにあたり、音声中に発話キーワードを含ませるだけでよいという点とで第1の実施の形態と同じ効果を得ることができる。またこの第2の実施の形態では、どのようなサービスを受けるかに応じて適切な発話キーワードを用いて音声認識サーバを切り替えると、それとともにサービスを受けるためのサービスサーバも切替えることができる。したがって、ウェブ上で提供される様々なサービスを、音声を用いた精度の高い音声認識によって手軽に利用できるという効果がある。
<第3の実施の形態>
上記第2の実施の形態では、音声認識サーバから音声認識結果が一旦スマートフォン240に送信され、スマートフォン240がさらに発話キーワードに応じて定まるサービスサーバURIにその音声認識結果を送信している。しかし本発明はそのような実施の形態には限定されない。例えば、音声認識サーバからスマートフォン240に音声認識結果を送信することなく、音声認識サーバから直接サービスサーバURIに送信することも考えられる。第3の実施の形態はそのような実施の形態である。
上記第2の実施の形態では、音声認識サーバから音声認識結果が一旦スマートフォン240に送信され、スマートフォン240がさらに発話キーワードに応じて定まるサービスサーバURIにその音声認識結果を送信している。しかし本発明はそのような実施の形態には限定されない。例えば、音声認識サーバからスマートフォン240に音声認識結果を送信することなく、音声認識サーバから直接サービスサーバURIに送信することも考えられる。第3の実施の形態はそのような実施の形態である。
この実施の形態では、クライアントとしてのスマートフォンは第1の実施の形態と同様のものを用いる。ただし、図1に示す通信制御部86は、第1の実施の形態と異なり、発話キーワードが検出されると、音声データだけではなく、その発話キーワードのテキストデータを、ルックアップテーブル84から読み出されたURIの音声認識サーバに送信するものとする。
図11に、この実施の形態で使用される音声認識サーバの機能的ブロック図を示す。図11を参照して、この音声認識サーバ330は、ネットワーク32を介して他の装置との通信を提供する送受信部340と、本実施の形態に係るスマートフォンから、送受信部340を介して発話キーワードのテキストデータと音声データとからなるデータを受信し、発話キーワードを音声データから分離する音声・キーワード分離部342とを含む。
音声認識サーバ330はさらに、音声・キーワード分離部342が出力する音声データに対して音声認識を行なう音声認識部344と、音声認識部344による音声認識結果を、音声・キーワード分離部342により分離された発話キーワードにより定められるサービスサーバに、送受信部340を介して送信する処理を行なうデータ処理部346とを含む。
音声認識部344は、音声・キーワード分離部342により分離された音声データを一時蓄積するバッファ360と、バッファ360に蓄積された音声データに対して音声認識を行ない、テキストデータを出力する音声認識エンジン362と、音声認識エンジン362が出力する音声認識結果のテキストデータを一時蓄積する音声認識データバッファ364とを含む。
データ処理部346は、音声・キーワード分離部342が出力する発話キーワードを一時保存するキーワード保存部380と、発話キーワードとサービスサーバURIとの組み合わせからなるエントリを1又は複数個記憶する発話キーワード・サービスサーバURIルックアップテーブル382(以下単にルックアップテーブル382)と、キーワード保存部380に保存された発話キーワードとルックアップテーブル382とを照合し、当該キーワードに対応するサービスサーバURIを読み出す照合部384と、音声認識データバッファ364に記憶された音声認識結果を、照合部384がルックアップテーブル382から読み出したURIのサービスサーバに送信するためのパケットを組み立てるパケット組立部386と、パケット組立部386により組み立てられたパケットを、照合部384が読みだしたURIに送受信部340を介して送出する通信制御部388とを含む。
この形態では、スマートフォンは、ローカルな音声認識により発話キーワードが検出されると、その発話キーワードに対応する音声認識サーバURIをテーブルルックアップにより特定し、そのサーバに音声データと発話キーワードとを送信する。ここでは、図11に示す音声認識サーバ330がその音声認識サーバであるものとする。
音声認識サーバ330の送受信部340は、音声データと発話キーワードとからなるデータを受信し、音声・キーワード分離部342に与える。音声・キーワード分離部342は、受信データを音声データと発話キーワードとに分離する。音声・キーワード分離部342は、音声データをバッファ360に蓄積し、発話キーワードをキーワード保存部380に保存する。
音声認識エンジン362は、バッファ360に蓄積された音声データに対して音声認識を行ないその結果を音声認識データバッファ364に蓄積する。
照合部384は、キーワード保存部380に発話キーワードが保存されると、ルックアップテーブル382と発話キーワードとを照合し、その発話キーワードに対応するサービスサーバURIをルックアップテーブル382から読み出す。照合部384は、読み出したサービスサーバURIをパケット組立部386に与える。
パケット組立部386は、音声認識データバッファ364に蓄積された音声認識結果のデータと、照合部384が出力するサービスサーバURIとから、サービスサーバに送信するパケットを組み立てる。通信制御部388は、パケット組立部386により組み立てられたパケットを、指定されたURIのサービスサーバに送受信部340を介して送信する。
なお、発話キーワードに対応するサービスサーバURIがルックアップテーブル382に記録されていない場合には、パケット組立部386及び通信制御部388は、音声認識結果を、クライアントであるスマートフォンに送信するようにしてもよい。また、サービスサーバURIとして、特定のキーワードが記録されているときにも、音声認識結果をクライアントに送信するようにしてもよい。
この実施の形態でも、第1及び第2の実施の形態のスマートフォンと同様、ユーザは発話キーワードを変えることにより、音声認識に使用するサーバを簡単に切替えることができる。したがって、例えば発話のトピックの内容に応じて最適な音声認識サーバを利用でき、音声認識の精度を高めることができる。さらに、ルックアップテーブル382に発話キーワードに対応するサービスサーバURIが格納されていれば、クライアントであるスマートフォンを通さず、音声認識サーバから直接に目的のサービスサーバにアクセスできる。音声認識結果をスマートフォンに送信することなくサービスを利用できるため、通信データ量を削減でき、サービスをより高速に利用できる。
<第4の実施の形態>
上記第3の実施の形態では、スマートフォンで実行されるローカルな音声認識の結果に所定の発話キーワードが検出されると、その発話キーワードに対応する音声認識サーバのURIがルックアップテーブルから読み出され、発話キーワードと音声データとがその音声認識サーバに送信される。音声認識サーバは、発話キーワードからサービスサーバURIをルックアップするためのルックアップテーブルを持ち、サーバでの音声認識の結果を、発話キーワードに対応してルックアップされるサービスサーバURIに送信する。
上記第3の実施の形態では、スマートフォンで実行されるローカルな音声認識の結果に所定の発話キーワードが検出されると、その発話キーワードに対応する音声認識サーバのURIがルックアップテーブルから読み出され、発話キーワードと音声データとがその音声認識サーバに送信される。音声認識サーバは、発話キーワードからサービスサーバURIをルックアップするためのルックアップテーブルを持ち、サーバでの音声認識の結果を、発話キーワードに対応してルックアップされるサービスサーバURIに送信する。
しかし、本発明はそのような実施の形態には限定されない。音声認識サーバにおいて、発話キーワードからサービスサーバURIをルックアップするテーブルに代え、その音声認識サーバで音声認識に用いるべき音声認識モデル(特に統計的言語モデル)を切替えるために、発話キーワードから音声認識に用いる音声認識モデルを特定する音声認識情報である音声認識モデル名をルックアップするためのルックアップテーブルを用いるようにしてもよい。この第4の実施の形態は、そのようなルックアップテーブルを用いる例である。
なおこの実施の形態でも、クライアントであるスマートフォンとしては第3の実施の形態と同様のものを用いることができる。
図12に、この実施の形態に係る音声認識サーバの一例として音声認識サーバ400の機能的ブロック図を示す。図12を参照して、音声認識サーバ400が図11に示す音声認識サーバ330と異なるのは、図11のデータ処理部346に代えて、発話キーワードから音声認識モデル名を特定し、その音声認識モデルを用いて行なわれた音声認識の結果をクライアントであるスマートフォに送信するデータ処理部412を含むことと、図11の音声認識部344に代えて、音声認識のためのモデルを複数個備え、指定された音声認識モデルに切替えて音声認識を行なうことが可能な音声認識部410を含むこととである。
具体的には、データ処理部412は、発話キーワードから音声認識モデル名をルックアップするための発話キーワード・音声認識モデルルックアップテーブル442(以下単にルックアップテーブル442と呼ぶ。)と、音声・キーワード分離部342により音声データから分離された発話キーワードとルックアップテーブル442とを照合し、発話キーワードに対応する音声認識モデル名を特定して音声認識部410に入力する照合部440と、音声認識部410による音声認識結果をクライアントであるスマートフォンに送信するためにパケットを組み立てるパケット組立部386と、パケット組立部386により組み立てられたパケットを、送受信部340を介してクライアントであるスマートフォンに送信する通信制御部388とを含む。
音声認識部410は、音声・キーワード分離部342により発話キーワードから分離された音声データを蓄積するバッファ360と、複数の音声認識群を記憶する音声認識モデル群記憶部422と、照合部440から音声認識モデル名を受け、音声認識モデル群記憶部422に記憶された複数の音声認識モデルの中から、照合部440により指定された音声認識モデルを選択するモデル選択部424と、モデル選択部424により選択された音声認識モデルを用いて、バッファ360に記憶された音声データに対する音声認識処理を行ない、音声認識結果を出力する音声認識処理部420と、音声認識処理部420の出力する音声認識結果を一時蓄積する音声認識データバッファ364とを含む。
この音声認識サーバ400は以下のように動作する。なお、この実施の形態に係るクライアントであるスマートフォンは、第3の実施の形態と同じものを使用できる。
スマートフォンの話者がスマートフォンに対して発話し、その中で特定の発話キーワードを発話したものとする。発話キーワードが検出されると、ルックアップテーブルを用い、その発話キーワードに対する音声認識サーバのURIが特定される。スマートフォンのユーザの発話のうち、発話キーワードの直後の部分から始める音声データと、検出された発話キーワードとが、ルックアップテーブルにより特定された音声認識サーバのURIに送信される。
図12を参照して、送受信部340は、このデータを受信すると音声・キーワード分離部342にそのデータを与える。音声・キーワード分離部342は、受信されたデータを音声データと発話キーワードとに分離する。音声・キーワード分離部342は、音声データをバッファ360に蓄積し、発話キーワードを照合部440に保存する。
照合部440は、音声・キーワード分離部342から受けた発話キーワードとルックアップテーブル442とを照合し、発話キーワードに対応する音声認識モデル名をルックアップテーブルからルックアップし、モデル選択部424に与える。モデル選択部424は、音声認識モデル群記憶部422に記憶されている音声認識モデルのうち、照合部440から出力された音声認識モデル名に対応する音声認識モデルを選択し音声認識処理部420に接続する。音声認識処理部420は、バッファ360に蓄積されている音声データを、モデル選択部424により選択された音声認識モデルを用いて音声認識し、音声認識結果を音声認識データバッファ364に蓄積する。
パケット組立部386は、音声認識データバッファ364に蓄積された音声認識結果を読み出し、クライアントであるスマートフォンに送信するよう、パケットを組み立てる。通信制御部388は、組み立てられたパケットを、送受信部340を介して、クライアントであるスマートフォンに送信する。
この実施の形態によれば、第1〜第3の実施の形態と同様、クライアントであるスマートフォンで、発話キーワードを使い分けることにより、ユーザの発話に対する音声認識を行なう音声認識サーバを簡単に切替えることができる。したがって、発話のトピックに応じた最適な音声認識サーバを用いることによって、音声認識の精度を高めることができる。さらに、音声認識サーバで用いる音声認識モデルも発話キーワードにより同時に選択できる。そのため、指定された音声認識サーバでの音声認識を、発話のトピックに応じて最適な音声認識モデルを用いて行なうことができる。したがって、音声認識サーバの音声認識精度をさらに高めることができ、クライアントでの処理を簡単に抑えその価格も抑えながら、ユーザは簡単な操作で精度の高い音声認識を享受できる。
<第5の実施の形態>
第4の実施の形態では、クライアント装置であるスマートフォンでは、ローカルな音声認識結果に所定の発話キーワードが含まれている場合、その発話キーワードに対応する音声認識サーバのURIをテーブルルックアップして、その音声認識サーバに発話キーワードとともに音声データを送信する。音声認識サーバでは、受信した発話キーワードから、発話トピックに最適な音声認識モデル名をルックアップし、その音声認識モデルを用いて音声認識を行なう。その結果、発話トピックに応じた最適な音声認識サーバで、発話トピックに応じた最適な音声認識モデルを用いて音声認識を行なうことができる。
第4の実施の形態では、クライアント装置であるスマートフォンでは、ローカルな音声認識結果に所定の発話キーワードが含まれている場合、その発話キーワードに対応する音声認識サーバのURIをテーブルルックアップして、その音声認識サーバに発話キーワードとともに音声データを送信する。音声認識サーバでは、受信した発話キーワードから、発話トピックに最適な音声認識モデル名をルックアップし、その音声認識モデルを用いて音声認識を行なう。その結果、発話トピックに応じた最適な音声認識サーバで、発話トピックに応じた最適な音声認識モデルを用いて音声認識を行なうことができる。
しかし、同様のシステムは、音声認識モデル名をクライアント側でルックアップし、その音声認識モデル名を音声認識サーバに送信することによっても実現できる。以下に説明する第5の実施の形態は、そのようなシステムである。
図13を参照して、この実施の形態に係る音声認識システムで使用されるクライントとしてのスマートフォン450は、図2に示す第1の実施の形態に係る制御部58に代えて、発話キーワードが検出されたことに応答して、音声認識サーバのURIだけでなく音声認識サーバで使用する音声認識モデル名をルックアップし、ルックアップされたURIの音声認識サーバに、音声認識モデル名を送信するよう送受信部56を制御する制御部460を含む点で図2に示すスマートフォン34と異なっている。
制御部460は、図に示すものと同様のローカルな音声認識処理部80と、発話キーワードをキーに音声認識サーバURI及び音声認識モデル名をルックアップするためのルックアップテーブル482と、音声認識処理部80の出力する音声認識結果中の単語と、ルックアップテーブル482とを照合することによって音声認識結果中に発話キーワードがあるか否かを判定し、あれば、その発話キーワードに対応する音声認識サーバのURIと音声認識モデル名をルックアップテーブル482からルックアップし、発話キーワード検出信号とともに出力する判定部480と、判定部480からの発話キーワード検出信号に応答し、音声認識モデル名と、バッファ54に記憶された音声データのうち発話キーワードの直後の音声データとを、判定部480が出力した音声認識サーバURIに向けて送信するよう送受信部56を制御するための通信制御部484とを含む。
図14は、この第5の実施の形態において、スマートフォン450と通信可能な複数の音声認識サーバの1つである音声認識サーバ500の機能的ブロック図である。図14を参照して、この音声認識サーバ500は、図12に示す第4の実施の形態に係る音声認識サーバ400とほぼ同様の構成を有するが、図12の音声・キーワード分離部342に代えて、スマートフォン450から受信した音声データから音声認識モデル名を分離する音声・モデル名分離部520を含む点と、図12のデータ処理部412に代えて、音声・モデル名分離部520から出力された音声認識モデル名に対応する音声認識モデルを用いて音声認識部410に音声認識を行なわせ、音声認識結果をスマートフォン450に送信する機能を持つデータ処理部522とを含む点で図12に示す音声認識サーバ400と異なっている。音声・モデル名分離部520は、音声認識モデルから分離された音声データをバッファ360に格納する。
データ処理部522は、音声・モデル名分離部520から出力された音声認識モデル名を記憶し、モデル選択部424に出力するモデル名記憶部530と、音声認識データバッファ364に記憶された音声認識データからスマートフォン450に送信するためのパケットを組み立てるパケット組立部386と、パケット組立部386により組み立てられたパケットをスマートフォン450に送信するよう送受信部340を制御するための通信制御部388とを含む。
この音声認識システムは以下のように動作する。以下の説明では重複を避け、この実施の形態に特有の部分のみを説明する。音声認識処理部80は、バッファ54に記憶された音声データに対してローカルな音声認識を行ない、結果を音声認識処理部80に出力する。判定部480は、音声認識処理部80の出力するローカルな音声認識結果に含まれる単語とルックアップテーブル482とを照合し、ルックアップテーブル482に記憶された発話キーワードが音声認識結果に存在するか否かを判定する。発話キーワードが音声認識結果に存在しない場合、判定部480は何もしない。発話キーワードが音声認識結果に存在する場合、判定部480は、そのキーワードに対応してルックアップテーブル482に記憶されている音声認識サーバURIと、音声認識モデル名とを読みだし、発話キーワード検出信号とともに通信制御部484に与える。通信制御部484は、発話検出信号に応答して、音声認識モデル名と、バッファ54に記憶された音声データのうち、発話キーワードの直後以後の部分を、判定部480から出力された音声認識サーバURIに音声認識のリクエストとともに送受信部56を介して送信する。ここでは、この音声認識サーバURIは図14に示す音声認識サーバ500を指すものとする。
図14を参照して、音声認識サーバ500の音声・モデル名分離部520は、受信したデータの内、音声認識モデル名と音声データとを分離し、音声認識モデル名をモデル名記憶部530に格納し、音声データをバッファ360に蓄積する。モデル選択部424は、モデル名記憶部530に音声認識モデル名が記憶されていると、音声認識モデル群記憶部422に記憶された音声認識モデル群の中からその音声認識モデル名に対応するものを選択し、音声認識処理部420と結合する。音声認識処理部420は、モデル選択部424により選択された音声認識モデルを用い、バッファ360に蓄積された音声データに対する音声認識を行なって結果を音声認識データバッファ364に蓄積する。
パケット組立部386は、音声認識データバッファ364に記憶された音声認識結果を送信するためのパケットを組み立て、通信制御部388に与える。通信制御部388は、組み立てられたパケットを、音声認識のリクエストを送信して来たクライアント(ここでは図13に示すスマートフォン450)に送信するよう、送受信部340を制御してパケットをネットワーク32に出力する。
以上のようにこの実施の形態に係るスマートフォン450及び音声認識サーバ500によれば、ローカルな音声認識結果の中に、所定の発話キーワードが存在すれば、その発話キーワードに対応する音声認識サーバのURIがルックアップされる。さらに、その発話キーワードに対応する音声認識モデル名がモデル名記憶部530からルックアップされ、発話キーワード以後の音声データとともに、ルックアップされた音声認識サーバURIに送信される。
この送信データを受信した音声認識サーバ500の音声・モデル名分離部520は、音声データと音声認識モデル名とを分離し、音声認識モデル名により特定される音声認識モデルを用いて、受信した音声データに対する音声認識を行なう。その結果得られた音声認識結果は、リクエストを送信してきたスマートフォン450に送信される。
したがって、この実施の形態によれば、いずれかの発話キーワードを発話することにより、音声認識サーバを切り替えて音声認識を要求することができる。さらに、発話キーワードに対応して音声認識モデル名が特定され、音声認識サーバではその音声認識モデル名により選択された音声認識モデルを用いて音声認識が行なわれる。したがって、発話のトピックに応じて、特定の発話キーワードを発話することによって、そのトピックに最適な音声認識サーバに音声認識を行なわせることができる。しかも、発話キーワードに応じて、音声認識で使用される音声認識モデルについても適切なものを選択できる。そのため、発話キーワードと音声認識サーバURIと音声認識モデル名とについて、種々の目的に応じて予め適切な組み合わせをルックアップテーブル482に記憶させておくことにより、実際の発話について、最適な音声認識サーバで最適な音声認識モデルを用いて音声認識を行なうことができる。その結果、クライアントであるスマートフォン側の負担を最小限に抑えながら、個々の音声認識サーバについて精度の高い音声認識のための過大な負担を強いることなく、スマートフォンから複数の音声認識サーバを用いて精度の高い音声認識結果を得ることができるという効果を奏する。
なお、この図12に示す第4の実施の形態に係る音声認識サーバ400、及び図13及び図14に係る第5の実施の形態に係るスマートフォン450及び音声認識サーバ500において、発話キーワードに応じてルックアップされるのは音声認識モデル名である。しかし本発明はそのような実施の形態には限定されない。音声認識サーバで使用する音声認識モデル名について予めクライアント側で分からない場合もあり得る。そうした場合には、例えば図12に示すルックアップテーブル442及び図13に示すルックアップテーブル482において、音声認識モデル名に代えて、使用すべき音声認識モデルのカテゴリ名等を記憶しておき、ルックアップされたカテゴリ名を音声認識サーバに送信してもよい。音声認識サーバでは、予め各音声認識モデルをカテゴリ別に分類しておく。そして、音声認識のリクエストが来た時には、そのリクエストに付されている音声認識モデルのカテゴリ名に一致したカテゴリに属する音声認識モデルを用いて音声認識を行なうようにしてもよい。
又は、予め音声認識サーバの音声認識モデルに検索用キーワードを割り当てておき、クライアント装置では発話キーワードを用いて音声認識モデルの検索用キーワードをルックアップし、その検索用キーワードを音声認識サーバに送信するようにしてもよい。音声認識サーバでは、その検索用キーワードが割り当てられている音声認識モデルを用いて音声認識を行なう。
音声認識モデル名、又はそのカテゴリは、発話トピックによって予め分類しておくことが望ましい。分類としては、例えば交通手段の乗り換え検索、料理のレシピ検索、学校の各教科に関する情報検索、スポーツの結果検索、テレビ番組の検索等、種々のものが考えられる。発話キーワードとしては、そうした分類を想起させるものを採用することが好ましい。
[スマートフォンのハードウェアブロック図]
図15に、第1の実施の形態に係るスマートフォン34、第2の実施の形態に係るスマートフォン240及び第5の実施の形態に係るスマートフォン450を実現するスマートフォンのハードウェアブロック図を示す。以下の説明では、これらスマートフォンを代表してスマートフォン34について説明する。
図15に、第1の実施の形態に係るスマートフォン34、第2の実施の形態に係るスマートフォン240及び第5の実施の形態に係るスマートフォン450を実現するスマートフォンのハードウェアブロック図を示す。以下の説明では、これらスマートフォンを代表してスマートフォン34について説明する。
図15を参照して、スマートフォン34は、マイクロフォン50及びスピーカ66と、マイクロフォン50及びスピーカ66が接続されたオーディオ回路550と、オーディオ回路550が接続されたデータ転送用及び制御信号転送用のバス540と、GPS用、スマートフォン回線用、及びその他規格にしたがった無線通信用のアンテナを備え、様々な通信を無線により実現する無線回路552と、無線回路552とスマートフォン34の他のモジュールとの間を仲介する処理を行なう、バス540に接続された通信制御回路556と、通信制御回路556に接続され、スマートフォン34に対する利用者の指示入力を受けて入力信号を通信制御回路556に与える操作ボタン554と、バス540に接続され、様々なアプリケーションを実行するためのCPU(図示せず)、ROM(読出専用メモリ:図示せず)及びRAM(Random Access Memory:図示せず)を備えたアプリケーション実行用IC(集積回路)542と、アプリケーション実行用IC542に接続されたカメラ546、メモリカード入出力部548、タッチパネル64及びDRAM(Dynamic RAM)558と、アプリケーション実行用IC542に接続され、アプリケーション実行用IC542により実行される様々なアプリケーションを記憶した不揮発性メモリ544とを含む。
不揮発性メモリ544には、図1に示す音声認識処理部80を実現するローカル音声認識処理プログラム570と、図1に示す判定部82及び通信制御部86を実現する発話送受信制御プログラム572と、ルックアップテーブル84と、ルックアップテーブル84に記憶されるキーワードを保守するための辞書保守プログラム576とが記憶されている。これらプログラムは、いずれもアプリケーション実行用IC542による実行時にはアプリケーション実行用IC542内の図示しないメモリにロードされ、アプリケーション実行用IC542内のCPUが持つプログラムカウンタと呼ばれるレジスタにより指定されるアドレスから読み出され、CPUにより実行される。実行結果は、DRAM558、メモリカード入出力部548に装着されたメモリカード、アプリケーション実行用IC542内のメモリ、通信制御回路556内のメモリ、オーディオ回路550内のメモリのうち、プログラムにより指定されるアドレスに格納される。
図2に示すフレーム化処理部52はオーディオ回路550により実現される。バッファ54及び受信データバッファ60は、DRAM558若しくは通信制御回路556又はアプリケーション実行用IC542内のメモリにより実現される。送受信部56は無線回路552及び通信制御回路556により実現される。図1の制御部58及びアプリケーション実行部62は、本実施の形態ではいずれもアプリケーション実行用IC542により実現される。
今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内での全ての変更を含む。
30 音声認識システム
32 インターネット
34,240450 スマートフォン
36,38,40,330,400,500 音声認識サーバ
50 マイクロフォン
54,360 バッファ
56,340 送受信部
58,250,460 制御部
60 受信データバッファ
62 アプリケーション実行部
64 タッチパネル
66 スピーカ
80 音声認識処理部
82,260,480 判定部
84,262,442,482 ルックアップテーブル
86,264,484 通信制御部
266 一時記憶部
268 サービスアクセス部
342 音声・キーワード分離部
344 音声認識部
346,412 データ処理部
364 音声認識データバッファ
420 音声認識処理部
440 照合部
520 音声・モデル名分離部
32 インターネット
34,240450 スマートフォン
36,38,40,330,400,500 音声認識サーバ
50 マイクロフォン
54,360 バッファ
56,340 送受信部
58,250,460 制御部
60 受信データバッファ
62 アプリケーション実行部
64 タッチパネル
66 スピーカ
80 音声認識処理部
82,260,480 判定部
84,262,442,482 ルックアップテーブル
86,264,484 通信制御部
266 一時記憶部
268 サービスアクセス部
342 音声・キーワード分離部
344 音声認識部
346,412 データ処理部
364 音声認識データバッファ
420 音声認識処理部
440 照合部
520 音声・モデル名分離部
Claims (11)
- 複数の音声認識サーバのいずれかに音声認識を要求する音声認識クライアント装置であって、
音声を音声データに変換する音声変換手段と、
前記音声データに対する音声認識を行なって音声認識結果を出力する音声認識手段と、
キーワードをキーとして音声認識サーバの識別子をルックアップするためのルックアップテーブルを記憶するルックアップテーブル記憶手段と、
前記音声認識手段の出力する音声認識結果の中に、前記ルックアップテーブルのキーとなるキーワードを検出したことに応答して、検出信号を出力するキーワード検出手段と、
前記検出信号に応答して、検出された前記キーワードをキーに前記ルックアップテーブルからルックアップされる音声認識サーバの識別子に対応する音声認識サーバに前記音声データを送信して、当該音声データの音声認識を要求する音声データ送信手段とを含む、音声認識クライアント装置。 - 前記音声データ送信手段は、
前記検出信号に応答して、検出された前記キーワードをキーに前記ルックアップテーブルから音声認識サーバの識別子をルックアップするルックアップ手段と、
前記ルックアップ手段によりルックアップされた音声認識サーバの識別子に対応する音声認識サーバに、前記音声データと前記キーワード検出手段により検出されたキーワードとを送信して、当該音声データの音声認識を要求する音声データ・キーワード送信手段とを含む、請求項1に記載の音声認識クライアント装置。 - 前記ルックアップテーブルは、キーワードをキーとして、音声認識サーバの識別子と、クライアント装置に対してサービスを提供するサービスサーバの識別子とをルックアップ可能であり、
前記音声認識クライアント装置はさらに、
前記音声データ送信手段による音声データの送信先の前記音声認識サーバから音声認識の結果を受信する音声認識結果受信手段と、
前記音声認識結果受信手段により受信された音声認識結果を、前記検出された前記キーワードをキーに前記ルックアップテーブルからルックアップされた前記サービスサーバの識別子に対応するサービスサーバに送信することにより、当該サービスサーバによるサービスにアクセスするサービスアクセス手段とを含む、請求項1又は請求項2に記載の音声認識クライアント装置。 - 前記ルックアップテーブルは、キーワードをキーとして、音声認識サーバの識別子と、クライアント装置に対してサービスを提供するサービスサーバの識別子とをルックアップ可能であり、
前記音声データ送信手段は、
前記検出信号に応答して、検出された前記キーワードをキーに前記ルックアップテーブルから音声認識サーバの識別子及びサービスサーバの識別子をルックアップするルックアップ手段と、
前記ルックアップ手段によりルックアップされた前記音声認識サーバの識別子に対応する音声認識サーバに、前記音声データと、前記キーワードと、前記サービスサーバの識別子とを送信して、当該音声データについて、当該キーワードに依存して変化する音声認識処理の実行と、当該音声認識処理の結果を用いて前記サービスサーバの識別子により特定されるサービスサーバへのアクセスとを要求する手段とを含む、請求項1に記載の音声認識クライアント装置。 - 前記ルックアップテーブルは、キーワードをキーとして、音声認識サーバの識別子と、音声認識に用いられる音声認識モデルを特定するための音声認識モデル情報とをルックアップ可能であり、
前記音声データ送信手段は、
前記検出信号に応答して、検出された前記キーワードをキーに前記ルックアップテーブルから音声認識サーバの識別子及び音声認識モデル情報をルックアップするルックアップ手段と、
前記ルックアップ手段によりルックアップされた音声認識サーバの識別子に対応する音声認識サーバに、前記音声データと前記音声認識モデル情報とを送信して、当該音声データについて、当該音声認識モデル情報を用いた音声認識処理の実行を要求する手段とを含む、請求項1に記載の音声認識クライアント装置。 - 音声認識クライアント装置からデータを受信して、当該データに含まれる音声データに対する音声認識を行なうサーバ型音声認識装置であって、前記データは、音声データと、当該音声データに関するキーワードとを含み、
受信したデータを音声データとキーワードとに分離する分離手段と、
複数の音声認識モデルを記憶するモデル記憶手段と、
キーワードから、前記複数の音声認識モデルのいずれかを特定するモデル特定情報をルックアップ可能なルックアップテーブルを記憶するルックアップテーブル記憶手段と、
前記分離手段により分離された前記キーワードをキーに、前記ルックアップテーブルからモデル特定情報をルックアップするルックアップ手段と、
前記モデル記憶手段に記憶された前記複数の音声認識モデルのうち、前記ルックアップ手段によりルックアップされたモデル特定情報により特定される音声認識モデルを用いて前記分離手段により分離された前記音声データに対する音声認識を行なう音声認識手段とを含む、サーバ型音声認識装置。 - 音声認識クライアント装置からデータを受信して、当該データに含まれる音声データに対する音声認識を行なうサーバ型音声認識装置であって、前記データは、音声データと、当該音声データに関するキーワードとを含み、
受信したデータを音声データとキーワードとに分離する分離手段と、
前記分離手段により分離された前記音声データに対する音声認識を行なって音声認識結果を出力する音声認識手段と、
キーワードから、前記音声認識手段による音声認識結果の送信先を特定する送信先特定情報をルックアップ可能なルックアップテーブルを記憶するルックアップテーブル記憶手段と、
前記分離手段により分離された前記キーワードをキーに、前記ルックアップテーブルから送信先特定情報をルックアップするルックアップ手段と、
前記ルックアップ手段によりルックアップされた前記送信先特定情報により特定される送信先に、前記音声認識手段による音声認識結果を送信する送信手段とを含む、サーバ型音声認識装置。 - 音声認識クライアント装置からデータを受信して、当該データに含まれる音声データに対する音声認識を行なうサーバ型音声認識装置であって、前記データは、音声データと、当該音声データに対する音声認識結果の送信先を特定する送信先特定情報とを含み、
受信したデータを音声データと送信先特定情報とに分離する分離手段と、
前記分離手段により分離された前記音声データに対する音声認識を行なって音声認識結果を出力する音声認識手段と、
前記分離手段により分離された前記送信先特定情報により特定される送信先に、前記音声認識手段による音声認識結果を送信する送信手段とを含む、サーバ型音声認識装置。 - 音声認識クライアント装置からデータを受信して、当該データに含まれる音声データに対する音声認識を行なうサーバ型音声認識装置であって、前記データは、音声データと、当該音声データに対する音声認識に用いるべき音声認識モデルを特定するモデル特定情報とを含み、
受信したデータを音声データとモデル特定情報とに分離する分離手段と、
複数の音声認識モデルを記憶するモデル記憶手段と、
前記モデル記憶手段に記憶された前記複数の音声認識モデルのうち、前記分離手段により分離されたモデル特定情報により特定される音声認識モデルを用いて音声認識を行なう音声認識手段とを含む、サーバ型音声認識装置。 - コンピュータを、請求項1−請求項5のいずれかに記載の音声認識クライアント装置の各手段として機能させる、コンピュータプログラム。
- コンピュータを、請求項6−請求項9のいずれかに記載のサーバ型音声認識装置の各手段として機能させる、コンピュータプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014231144A JP2016095383A (ja) | 2014-11-14 | 2014-11-14 | 音声認識クライアント装置及びサーバ型音声認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014231144A JP2016095383A (ja) | 2014-11-14 | 2014-11-14 | 音声認識クライアント装置及びサーバ型音声認識装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2016095383A true JP2016095383A (ja) | 2016-05-26 |
Family
ID=56071679
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014231144A Pending JP2016095383A (ja) | 2014-11-14 | 2014-11-14 | 音声認識クライアント装置及びサーバ型音声認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2016095383A (ja) |
Cited By (77)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20180084672A (ko) * | 2017-01-16 | 2018-07-25 | 주식회사 케이티 | 음성 신호에 기반하여 서비스를 제공하는 통합 서버, 방법 및 공용 단말 |
JP2018181330A (ja) * | 2017-04-13 | 2018-11-15 | ハーマン インターナショナル インダストリーズ インコーポレイテッド | 複数のインテリジェントパーソナルアシスタントサービスに対する管理レイヤ |
WO2019026314A1 (ja) * | 2017-08-02 | 2019-02-07 | パナソニックIpマネジメント株式会社 | 情報処理装置、音声認識システム、及び、情報処理方法 |
CN109754807A (zh) * | 2017-11-02 | 2019-05-14 | 东芝视频解决方案株式会社 | 语音交互设备和用于语音交互设备的控制方法 |
JP2019086535A (ja) * | 2017-11-01 | 2019-06-06 | ソフトバンク株式会社 | 送信制御装置及びプログラム |
JP2019109510A (ja) * | 2017-12-18 | 2019-07-04 | ネイバー コーポレーションNAVER Corporation | 複数のウェイクワードを利用して人工知能機器を制御する方法およびシステム |
JP2019120935A (ja) * | 2017-12-28 | 2019-07-22 | ネイバー コーポレーションNAVER Corporation | 人工知能機器で複数のウェイクワードを利用したサービス提供方法およびそのシステム |
KR20190089032A (ko) * | 2017-03-31 | 2019-07-29 | 알리바바 그룹 홀딩 리미티드 | 음성 기능 제어 방법 및 장치 |
KR20190100630A (ko) * | 2018-02-21 | 2019-08-29 | 엘지전자 주식회사 | 디스플레이 장치 및 그의 동작 방법 |
JP2020004192A (ja) * | 2018-06-29 | 2020-01-09 | 株式会社フュートレック | 通信装置および通信装置を備える音声認識端末装置 |
JP2020140355A (ja) * | 2019-02-27 | 2020-09-03 | 東京瓦斯株式会社 | 帰宅通知サービスの提供方法、サーバシステム、サーバ装置及びプログラム |
JP2020536274A (ja) * | 2017-09-29 | 2020-12-10 | ソノズ インコーポレイテッド | ボイスアシスタンスを備えたメディア再生システム |
US10885909B2 (en) | 2017-02-23 | 2021-01-05 | Fujitsu Limited | Determining a type of speech recognition processing according to a request from a user |
US11175880B2 (en) | 2018-05-10 | 2021-11-16 | Sonos, Inc. | Systems and methods for voice-assisted media content selection |
US11183183B2 (en) | 2018-12-07 | 2021-11-23 | Sonos, Inc. | Systems and methods of operating media playback systems having multiple voice assistant services |
US11184704B2 (en) | 2016-02-22 | 2021-11-23 | Sonos, Inc. | Music service selection |
US11189286B2 (en) | 2019-10-22 | 2021-11-30 | Sonos, Inc. | VAS toggle based on device orientation |
US11200889B2 (en) | 2018-11-15 | 2021-12-14 | Sonos, Inc. | Dilated convolutions and gating for efficient keyword spotting |
US11200900B2 (en) | 2019-12-20 | 2021-12-14 | Sonos, Inc. | Offline voice control |
US11200894B2 (en) | 2019-06-12 | 2021-12-14 | Sonos, Inc. | Network microphone device with command keyword eventing |
JP2022020157A (ja) * | 2020-07-20 | 2022-02-01 | 沖電気工業株式会社 | 情報処理装置、情報処理方法、プログラム、および、情報処理システム |
US11302326B2 (en) | 2017-09-28 | 2022-04-12 | Sonos, Inc. | Tone interference cancellation |
US11308962B2 (en) | 2020-05-20 | 2022-04-19 | Sonos, Inc. | Input detection windowing |
US11308958B2 (en) | 2020-02-07 | 2022-04-19 | Sonos, Inc. | Localized wakeword verification |
US11308961B2 (en) | 2016-10-19 | 2022-04-19 | Sonos, Inc. | Arbitration-based voice recognition |
US11315556B2 (en) | 2019-02-08 | 2022-04-26 | Sonos, Inc. | Devices, systems, and methods for distributed voice processing by transmitting sound data associated with a wake word to an appropriate device for identification |
US11343614B2 (en) | 2018-01-31 | 2022-05-24 | Sonos, Inc. | Device designation of playback and network microphone device arrangements |
US11354092B2 (en) | 2019-07-31 | 2022-06-07 | Sonos, Inc. | Noise classification for event detection |
US11361756B2 (en) | 2019-06-12 | 2022-06-14 | Sonos, Inc. | Conditional wake word eventing based on environment |
US11380322B2 (en) | 2017-08-07 | 2022-07-05 | Sonos, Inc. | Wake-word detection suppression |
US11405430B2 (en) | 2016-02-22 | 2022-08-02 | Sonos, Inc. | Networked microphone device control |
US11432030B2 (en) | 2018-09-14 | 2022-08-30 | Sonos, Inc. | Networked devices, systems, and methods for associating playback devices based on sound codes |
US11451908B2 (en) | 2017-12-10 | 2022-09-20 | Sonos, Inc. | Network microphone devices with automatic do not disturb actuation capabilities |
US11482978B2 (en) | 2018-08-28 | 2022-10-25 | Sonos, Inc. | Audio notifications |
US11482224B2 (en) | 2020-05-20 | 2022-10-25 | Sonos, Inc. | Command keywords with input detection windowing |
US11501795B2 (en) | 2018-09-29 | 2022-11-15 | Sonos, Inc. | Linear filtering for noise-suppressed speech detection via multiple network microphone devices |
US11501773B2 (en) | 2019-06-12 | 2022-11-15 | Sonos, Inc. | Network microphone device with command keyword conditioning |
US11500611B2 (en) | 2017-09-08 | 2022-11-15 | Sonos, Inc. | Dynamic computation of system response volume |
US11513763B2 (en) | 2016-02-22 | 2022-11-29 | Sonos, Inc. | Audio response playback |
US11514898B2 (en) | 2016-02-22 | 2022-11-29 | Sonos, Inc. | Voice control of a media playback system |
US11516610B2 (en) | 2016-09-30 | 2022-11-29 | Sonos, Inc. | Orientation-based playback device microphone selection |
US11531520B2 (en) | 2016-08-05 | 2022-12-20 | Sonos, Inc. | Playback device supporting concurrent voice assistants |
US11538460B2 (en) | 2018-12-13 | 2022-12-27 | Sonos, Inc. | Networked microphone devices, systems, and methods of localized arbitration |
US11538451B2 (en) | 2017-09-28 | 2022-12-27 | Sonos, Inc. | Multi-channel acoustic echo cancellation |
US11540047B2 (en) | 2018-12-20 | 2022-12-27 | Sonos, Inc. | Optimization of network microphone devices using noise classification |
US11545169B2 (en) | 2016-06-09 | 2023-01-03 | Sonos, Inc. | Dynamic player selection for audio signal processing |
US11551669B2 (en) | 2019-07-31 | 2023-01-10 | Sonos, Inc. | Locally distributed keyword detection |
US11551700B2 (en) | 2021-01-25 | 2023-01-10 | Sonos, Inc. | Systems and methods for power-efficient keyword detection |
US11556306B2 (en) | 2016-02-22 | 2023-01-17 | Sonos, Inc. | Voice controlled media playback system |
US11556307B2 (en) | 2020-01-31 | 2023-01-17 | Sonos, Inc. | Local voice data processing |
JP2023004485A (ja) * | 2021-06-25 | 2023-01-17 | アルプスアルパイン株式会社 | 音声認識装置、音声認識システムおよび音声認識方法 |
US11562740B2 (en) | 2020-01-07 | 2023-01-24 | Sonos, Inc. | Voice verification for media playback |
US11563842B2 (en) | 2018-08-28 | 2023-01-24 | Sonos, Inc. | Do not disturb feature for audio notifications |
US11641559B2 (en) | 2016-09-27 | 2023-05-02 | Sonos, Inc. | Audio playback settings for voice interaction |
US11646045B2 (en) | 2017-09-27 | 2023-05-09 | Sonos, Inc. | Robust short-time fourier transform acoustic echo cancellation during audio playback |
US11646023B2 (en) | 2019-02-08 | 2023-05-09 | Sonos, Inc. | Devices, systems, and methods for distributed voice processing |
US11664023B2 (en) | 2016-07-15 | 2023-05-30 | Sonos, Inc. | Voice detection by multiple devices |
US11676590B2 (en) | 2017-12-11 | 2023-06-13 | Sonos, Inc. | Home graph |
US11696074B2 (en) | 2018-06-28 | 2023-07-04 | Sonos, Inc. | Systems and methods for associating playback devices with voice assistant services |
US11698771B2 (en) | 2020-08-25 | 2023-07-11 | Sonos, Inc. | Vocal guidance engines for playback devices |
US11710487B2 (en) | 2019-07-31 | 2023-07-25 | Sonos, Inc. | Locally distributed keyword detection |
US11715489B2 (en) | 2018-05-18 | 2023-08-01 | Sonos, Inc. | Linear filtering for noise-suppressed speech detection |
US11726742B2 (en) | 2016-02-22 | 2023-08-15 | Sonos, Inc. | Handling of loss of pairing between networked devices |
US11727936B2 (en) | 2018-09-25 | 2023-08-15 | Sonos, Inc. | Voice detection optimization based on selected voice assistant service |
US11727919B2 (en) | 2020-05-20 | 2023-08-15 | Sonos, Inc. | Memory allocation for keyword spotting engines |
US11790911B2 (en) | 2018-09-28 | 2023-10-17 | Sonos, Inc. | Systems and methods for selective wake word detection using neural network models |
US11792590B2 (en) | 2018-05-25 | 2023-10-17 | Sonos, Inc. | Determining and adapting to changes in microphone performance of playback devices |
US11790937B2 (en) | 2018-09-21 | 2023-10-17 | Sonos, Inc. | Voice detection optimization using sound metadata |
US11798553B2 (en) | 2019-05-03 | 2023-10-24 | Sonos, Inc. | Voice assistant persistence across multiple network microphone devices |
US11899519B2 (en) | 2018-10-23 | 2024-02-13 | Sonos, Inc. | Multiple stage network microphone device with reduced power consumption and processing load |
US11979960B2 (en) | 2016-07-15 | 2024-05-07 | Sonos, Inc. | Contextualization of voice inputs |
US11984123B2 (en) | 2020-11-12 | 2024-05-14 | Sonos, Inc. | Network device interaction by range |
US12047753B1 (en) | 2017-09-28 | 2024-07-23 | Sonos, Inc. | Three-dimensional beam forming with a microphone array |
US12217748B2 (en) | 2017-03-27 | 2025-02-04 | Sonos, Inc. | Systems and methods of multiple voice services |
US12283269B2 (en) | 2020-10-16 | 2025-04-22 | Sonos, Inc. | Intent inference in audiovisual communication sessions |
US12327556B2 (en) | 2021-09-30 | 2025-06-10 | Sonos, Inc. | Enabling and disabling microphones and voice assistants |
US12327549B2 (en) | 2022-02-09 | 2025-06-10 | Sonos, Inc. | Gatekeeping for voice intent processing |
-
2014
- 2014-11-14 JP JP2014231144A patent/JP2016095383A/ja active Pending
Cited By (133)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11514898B2 (en) | 2016-02-22 | 2022-11-29 | Sonos, Inc. | Voice control of a media playback system |
US11556306B2 (en) | 2016-02-22 | 2023-01-17 | Sonos, Inc. | Voice controlled media playback system |
US12047752B2 (en) | 2016-02-22 | 2024-07-23 | Sonos, Inc. | Content mixing |
US11405430B2 (en) | 2016-02-22 | 2022-08-02 | Sonos, Inc. | Networked microphone device control |
US11736860B2 (en) | 2016-02-22 | 2023-08-22 | Sonos, Inc. | Voice control of a media playback system |
US11212612B2 (en) | 2016-02-22 | 2021-12-28 | Sonos, Inc. | Voice control of a media playback system |
US11750969B2 (en) | 2016-02-22 | 2023-09-05 | Sonos, Inc. | Default playback device designation |
US11513763B2 (en) | 2016-02-22 | 2022-11-29 | Sonos, Inc. | Audio response playback |
US11983463B2 (en) | 2016-02-22 | 2024-05-14 | Sonos, Inc. | Metadata exchange involving a networked playback system and a networked microphone system |
US11726742B2 (en) | 2016-02-22 | 2023-08-15 | Sonos, Inc. | Handling of loss of pairing between networked devices |
US11863593B2 (en) | 2016-02-22 | 2024-01-02 | Sonos, Inc. | Networked microphone device control |
US11832068B2 (en) | 2016-02-22 | 2023-11-28 | Sonos, Inc. | Music service selection |
US11184704B2 (en) | 2016-02-22 | 2021-11-23 | Sonos, Inc. | Music service selection |
US11545169B2 (en) | 2016-06-09 | 2023-01-03 | Sonos, Inc. | Dynamic player selection for audio signal processing |
US11979960B2 (en) | 2016-07-15 | 2024-05-07 | Sonos, Inc. | Contextualization of voice inputs |
US11664023B2 (en) | 2016-07-15 | 2023-05-30 | Sonos, Inc. | Voice detection by multiple devices |
JP7698681B2 (ja) | 2016-08-05 | 2025-06-25 | ソノス・インコーポレイテッド | 複数の音声サービス |
JP2023164960A (ja) * | 2016-08-05 | 2023-11-14 | ソノズ インコーポレイテッド | 複数の音声サービス |
US11531520B2 (en) | 2016-08-05 | 2022-12-20 | Sonos, Inc. | Playback device supporting concurrent voice assistants |
US11641559B2 (en) | 2016-09-27 | 2023-05-02 | Sonos, Inc. | Audio playback settings for voice interaction |
US11516610B2 (en) | 2016-09-30 | 2022-11-29 | Sonos, Inc. | Orientation-based playback device microphone selection |
US11308961B2 (en) | 2016-10-19 | 2022-04-19 | Sonos, Inc. | Arbitration-based voice recognition |
US11727933B2 (en) | 2016-10-19 | 2023-08-15 | Sonos, Inc. | Arbitration-based voice recognition |
KR102200226B1 (ko) * | 2017-01-16 | 2021-01-08 | 주식회사 케이티 | 음성 신호에 기반하여 서비스를 제공하는 통합 서버, 방법 및 공용 단말 |
KR20180084672A (ko) * | 2017-01-16 | 2018-07-25 | 주식회사 케이티 | 음성 신호에 기반하여 서비스를 제공하는 통합 서버, 방법 및 공용 단말 |
US10885909B2 (en) | 2017-02-23 | 2021-01-05 | Fujitsu Limited | Determining a type of speech recognition processing according to a request from a user |
US12217748B2 (en) | 2017-03-27 | 2025-02-04 | Sonos, Inc. | Systems and methods of multiple voice services |
KR102228964B1 (ko) | 2017-03-31 | 2021-03-18 | 어드밴스드 뉴 테크놀로지스 씨오., 엘티디. | 음성 기능 제어 방법 및 장치 |
US10991371B2 (en) | 2017-03-31 | 2021-04-27 | Advanced New Technologies Co., Ltd. | Voice function control method and apparatus |
JP2020510852A (ja) * | 2017-03-31 | 2020-04-09 | アリババ・グループ・ホールディング・リミテッドAlibaba Group Holding Limited | 音声機能制御方法および装置 |
KR20190089032A (ko) * | 2017-03-31 | 2019-07-29 | 알리바바 그룹 홀딩 리미티드 | 음성 기능 제어 방법 및 장치 |
KR102660922B1 (ko) * | 2017-04-13 | 2024-04-25 | 하만인터내셔날인더스트리스인코포레이티드 | 복수의 지능형 개인 비서 서비스를 위한 관리 계층 |
JP7083270B2 (ja) | 2017-04-13 | 2022-06-10 | ハーマン インターナショナル インダストリーズ インコーポレイテッド | 複数のインテリジェントパーソナルアシスタントサービスに対する管理レイヤ |
JP2018181330A (ja) * | 2017-04-13 | 2018-11-15 | ハーマン インターナショナル インダストリーズ インコーポレイテッド | 複数のインテリジェントパーソナルアシスタントサービスに対する管理レイヤ |
KR20230169052A (ko) * | 2017-04-13 | 2023-12-15 | 하만인터내셔날인더스트리스인코포레이티드 | 복수의 지능형 개인 비서 서비스를 위한 관리 계층 |
WO2019026314A1 (ja) * | 2017-08-02 | 2019-02-07 | パナソニックIpマネジメント株式会社 | 情報処理装置、音声認識システム、及び、情報処理方法 |
JP7033713B2 (ja) | 2017-08-02 | 2022-03-11 | パナソニックIpマネジメント株式会社 | 情報処理装置、音声認識システム、及び、情報処理方法 |
CN109601017A (zh) * | 2017-08-02 | 2019-04-09 | 松下知识产权经营株式会社 | 信息处理装置、声音识别系统及信息处理方法 |
CN109601016A (zh) * | 2017-08-02 | 2019-04-09 | 松下知识产权经营株式会社 | 信息处理装置、声音识别系统及信息处理方法 |
EP3663905A4 (en) * | 2017-08-02 | 2020-06-17 | Panasonic Intellectual Property Management Co., Ltd. | INFORMATION PROCESSING DEVICE, VOICE RECOGNITION SYSTEM AND INFORMATION PROCESSING METHOD |
CN109601017B (zh) * | 2017-08-02 | 2024-05-03 | 松下知识产权经营株式会社 | 信息处理装置、声音识别系统及信息处理方法 |
JPWO2019026314A1 (ja) * | 2017-08-02 | 2020-06-18 | パナソニックIpマネジメント株式会社 | 情報処理装置、音声認識システム、及び、情報処理方法 |
US10803872B2 (en) | 2017-08-02 | 2020-10-13 | Panasonic Intellectual Property Management Co., Ltd. | Information processing apparatus for transmitting speech signals selectively to a plurality of speech recognition servers, speech recognition system including the information processing apparatus, and information processing method |
US11145311B2 (en) | 2017-08-02 | 2021-10-12 | Panasonic Intellectual Property Management Co., Ltd. | Information processing apparatus that transmits a speech signal to a speech recognition server triggered by an activation word other than defined activation words, speech recognition system including the information processing apparatus, and information processing method |
US11900937B2 (en) | 2017-08-07 | 2024-02-13 | Sonos, Inc. | Wake-word detection suppression |
US11380322B2 (en) | 2017-08-07 | 2022-07-05 | Sonos, Inc. | Wake-word detection suppression |
US11500611B2 (en) | 2017-09-08 | 2022-11-15 | Sonos, Inc. | Dynamic computation of system response volume |
US11646045B2 (en) | 2017-09-27 | 2023-05-09 | Sonos, Inc. | Robust short-time fourier transform acoustic echo cancellation during audio playback |
US12236932B2 (en) | 2017-09-28 | 2025-02-25 | Sonos, Inc. | Multi-channel acoustic echo cancellation |
US11302326B2 (en) | 2017-09-28 | 2022-04-12 | Sonos, Inc. | Tone interference cancellation |
US11538451B2 (en) | 2017-09-28 | 2022-12-27 | Sonos, Inc. | Multi-channel acoustic echo cancellation |
US12047753B1 (en) | 2017-09-28 | 2024-07-23 | Sonos, Inc. | Three-dimensional beam forming with a microphone array |
US11769505B2 (en) | 2017-09-28 | 2023-09-26 | Sonos, Inc. | Echo of tone interferance cancellation using two acoustic echo cancellers |
JP2022037012A (ja) * | 2017-09-29 | 2022-03-08 | ソノズ インコーポレイテッド | ボイスアシスタンスを備えたメディア再生システム |
US11288039B2 (en) | 2017-09-29 | 2022-03-29 | Sonos, Inc. | Media playback system with concurrent voice assistance |
JP2020536274A (ja) * | 2017-09-29 | 2020-12-10 | ソノズ インコーポレイテッド | ボイスアシスタンスを備えたメディア再生システム |
US11893308B2 (en) | 2017-09-29 | 2024-02-06 | Sonos, Inc. | Media playback system with concurrent voice assistance |
US11175888B2 (en) | 2017-09-29 | 2021-11-16 | Sonos, Inc. | Media playback system with concurrent voice assistance |
JP7346529B2 (ja) | 2017-09-29 | 2023-09-19 | ソノズ インコーポレイテッド | ボイスアシスタンスを備えたメディア再生システム |
JP2019086535A (ja) * | 2017-11-01 | 2019-06-06 | ソフトバンク株式会社 | 送信制御装置及びプログラム |
CN109754807B (zh) * | 2017-11-02 | 2023-04-28 | 海信视像科技股份有限公司 | 语音交互设备和用于语音交互设备的控制方法 |
JP2019086903A (ja) * | 2017-11-02 | 2019-06-06 | 東芝映像ソリューション株式会社 | 音声対話端末、および音声対話端末制御方法 |
CN109754807A (zh) * | 2017-11-02 | 2019-05-14 | 东芝视频解决方案株式会社 | 语音交互设备和用于语音交互设备的控制方法 |
US11451908B2 (en) | 2017-12-10 | 2022-09-20 | Sonos, Inc. | Network microphone devices with automatic do not disturb actuation capabilities |
US11676590B2 (en) | 2017-12-11 | 2023-06-13 | Sonos, Inc. | Home graph |
JP2019109510A (ja) * | 2017-12-18 | 2019-07-04 | ネイバー コーポレーションNAVER Corporation | 複数のウェイクワードを利用して人工知能機器を制御する方法およびシステム |
JP2019120935A (ja) * | 2017-12-28 | 2019-07-22 | ネイバー コーポレーションNAVER Corporation | 人工知能機器で複数のウェイクワードを利用したサービス提供方法およびそのシステム |
US11689858B2 (en) | 2018-01-31 | 2023-06-27 | Sonos, Inc. | Device designation of playback and network microphone device arrangements |
US11343614B2 (en) | 2018-01-31 | 2022-05-24 | Sonos, Inc. | Device designation of playback and network microphone device arrangements |
KR20190100630A (ko) * | 2018-02-21 | 2019-08-29 | 엘지전자 주식회사 | 디스플레이 장치 및 그의 동작 방법 |
US11733965B2 (en) | 2018-02-21 | 2023-08-22 | Lg Electronics Inc. | Display device and operating method thereof |
KR102576388B1 (ko) | 2018-02-21 | 2023-09-08 | 엘지전자 주식회사 | 디스플레이 장치 및 그의 동작 방법 |
US12360734B2 (en) | 2018-05-10 | 2025-07-15 | Sonos, Inc. | Systems and methods for voice-assisted media content selection |
US11175880B2 (en) | 2018-05-10 | 2021-11-16 | Sonos, Inc. | Systems and methods for voice-assisted media content selection |
US11797263B2 (en) | 2018-05-10 | 2023-10-24 | Sonos, Inc. | Systems and methods for voice-assisted media content selection |
US11715489B2 (en) | 2018-05-18 | 2023-08-01 | Sonos, Inc. | Linear filtering for noise-suppressed speech detection |
US11792590B2 (en) | 2018-05-25 | 2023-10-17 | Sonos, Inc. | Determining and adapting to changes in microphone performance of playback devices |
US11696074B2 (en) | 2018-06-28 | 2023-07-04 | Sonos, Inc. | Systems and methods for associating playback devices with voice assistant services |
JP2020004192A (ja) * | 2018-06-29 | 2020-01-09 | 株式会社フュートレック | 通信装置および通信装置を備える音声認識端末装置 |
US11482978B2 (en) | 2018-08-28 | 2022-10-25 | Sonos, Inc. | Audio notifications |
US11563842B2 (en) | 2018-08-28 | 2023-01-24 | Sonos, Inc. | Do not disturb feature for audio notifications |
US11778259B2 (en) | 2018-09-14 | 2023-10-03 | Sonos, Inc. | Networked devices, systems and methods for associating playback devices based on sound codes |
US11432030B2 (en) | 2018-09-14 | 2022-08-30 | Sonos, Inc. | Networked devices, systems, and methods for associating playback devices based on sound codes |
US11790937B2 (en) | 2018-09-21 | 2023-10-17 | Sonos, Inc. | Voice detection optimization using sound metadata |
US12230291B2 (en) | 2018-09-21 | 2025-02-18 | Sonos, Inc. | Voice detection optimization using sound metadata |
US11727936B2 (en) | 2018-09-25 | 2023-08-15 | Sonos, Inc. | Voice detection optimization based on selected voice assistant service |
US12165651B2 (en) | 2018-09-25 | 2024-12-10 | Sonos, Inc. | Voice detection optimization based on selected voice assistant service |
US12165644B2 (en) | 2018-09-28 | 2024-12-10 | Sonos, Inc. | Systems and methods for selective wake word detection |
US11790911B2 (en) | 2018-09-28 | 2023-10-17 | Sonos, Inc. | Systems and methods for selective wake word detection using neural network models |
US12062383B2 (en) | 2018-09-29 | 2024-08-13 | Sonos, Inc. | Linear filtering for noise-suppressed speech detection via multiple network microphone devices |
US11501795B2 (en) | 2018-09-29 | 2022-11-15 | Sonos, Inc. | Linear filtering for noise-suppressed speech detection via multiple network microphone devices |
US11899519B2 (en) | 2018-10-23 | 2024-02-13 | Sonos, Inc. | Multiple stage network microphone device with reduced power consumption and processing load |
US11741948B2 (en) | 2018-11-15 | 2023-08-29 | Sonos Vox France Sas | Dilated convolutions and gating for efficient keyword spotting |
US11200889B2 (en) | 2018-11-15 | 2021-12-14 | Sonos, Inc. | Dilated convolutions and gating for efficient keyword spotting |
US11557294B2 (en) | 2018-12-07 | 2023-01-17 | Sonos, Inc. | Systems and methods of operating media playback systems having multiple voice assistant services |
US11183183B2 (en) | 2018-12-07 | 2021-11-23 | Sonos, Inc. | Systems and methods of operating media playback systems having multiple voice assistant services |
US11538460B2 (en) | 2018-12-13 | 2022-12-27 | Sonos, Inc. | Networked microphone devices, systems, and methods of localized arbitration |
US11540047B2 (en) | 2018-12-20 | 2022-12-27 | Sonos, Inc. | Optimization of network microphone devices using noise classification |
US11315556B2 (en) | 2019-02-08 | 2022-04-26 | Sonos, Inc. | Devices, systems, and methods for distributed voice processing by transmitting sound data associated with a wake word to an appropriate device for identification |
US11646023B2 (en) | 2019-02-08 | 2023-05-09 | Sonos, Inc. | Devices, systems, and methods for distributed voice processing |
JP7229043B2 (ja) | 2019-02-27 | 2023-02-27 | 東京瓦斯株式会社 | 帰宅通知サービスの提供方法、サーバシステム及びプログラム |
JP2020140355A (ja) * | 2019-02-27 | 2020-09-03 | 東京瓦斯株式会社 | 帰宅通知サービスの提供方法、サーバシステム、サーバ装置及びプログラム |
US11798553B2 (en) | 2019-05-03 | 2023-10-24 | Sonos, Inc. | Voice assistant persistence across multiple network microphone devices |
US11501773B2 (en) | 2019-06-12 | 2022-11-15 | Sonos, Inc. | Network microphone device with command keyword conditioning |
US11854547B2 (en) | 2019-06-12 | 2023-12-26 | Sonos, Inc. | Network microphone device with command keyword eventing |
US11361756B2 (en) | 2019-06-12 | 2022-06-14 | Sonos, Inc. | Conditional wake word eventing based on environment |
US11200894B2 (en) | 2019-06-12 | 2021-12-14 | Sonos, Inc. | Network microphone device with command keyword eventing |
US11551669B2 (en) | 2019-07-31 | 2023-01-10 | Sonos, Inc. | Locally distributed keyword detection |
US11714600B2 (en) | 2019-07-31 | 2023-08-01 | Sonos, Inc. | Noise classification for event detection |
US11354092B2 (en) | 2019-07-31 | 2022-06-07 | Sonos, Inc. | Noise classification for event detection |
US11710487B2 (en) | 2019-07-31 | 2023-07-25 | Sonos, Inc. | Locally distributed keyword detection |
US12211490B2 (en) | 2019-07-31 | 2025-01-28 | Sonos, Inc. | Locally distributed keyword detection |
US11189286B2 (en) | 2019-10-22 | 2021-11-30 | Sonos, Inc. | VAS toggle based on device orientation |
US11862161B2 (en) | 2019-10-22 | 2024-01-02 | Sonos, Inc. | VAS toggle based on device orientation |
US11869503B2 (en) | 2019-12-20 | 2024-01-09 | Sonos, Inc. | Offline voice control |
US11200900B2 (en) | 2019-12-20 | 2021-12-14 | Sonos, Inc. | Offline voice control |
US11562740B2 (en) | 2020-01-07 | 2023-01-24 | Sonos, Inc. | Voice verification for media playback |
US11556307B2 (en) | 2020-01-31 | 2023-01-17 | Sonos, Inc. | Local voice data processing |
US11961519B2 (en) | 2020-02-07 | 2024-04-16 | Sonos, Inc. | Localized wakeword verification |
US11308958B2 (en) | 2020-02-07 | 2022-04-19 | Sonos, Inc. | Localized wakeword verification |
US11694689B2 (en) | 2020-05-20 | 2023-07-04 | Sonos, Inc. | Input detection windowing |
US11482224B2 (en) | 2020-05-20 | 2022-10-25 | Sonos, Inc. | Command keywords with input detection windowing |
US11727919B2 (en) | 2020-05-20 | 2023-08-15 | Sonos, Inc. | Memory allocation for keyword spotting engines |
US11308962B2 (en) | 2020-05-20 | 2022-04-19 | Sonos, Inc. | Input detection windowing |
JP2022020157A (ja) * | 2020-07-20 | 2022-02-01 | 沖電気工業株式会社 | 情報処理装置、情報処理方法、プログラム、および、情報処理システム |
US11698771B2 (en) | 2020-08-25 | 2023-07-11 | Sonos, Inc. | Vocal guidance engines for playback devices |
US12283269B2 (en) | 2020-10-16 | 2025-04-22 | Sonos, Inc. | Intent inference in audiovisual communication sessions |
US11984123B2 (en) | 2020-11-12 | 2024-05-14 | Sonos, Inc. | Network device interaction by range |
US11551700B2 (en) | 2021-01-25 | 2023-01-10 | Sonos, Inc. | Systems and methods for power-efficient keyword detection |
JP2023004485A (ja) * | 2021-06-25 | 2023-01-17 | アルプスアルパイン株式会社 | 音声認識装置、音声認識システムおよび音声認識方法 |
JP7692667B2 (ja) | 2021-06-25 | 2025-06-16 | アルプスアルパイン株式会社 | 音声認識装置、音声認識システムおよび音声認識方法 |
US12327556B2 (en) | 2021-09-30 | 2025-06-10 | Sonos, Inc. | Enabling and disabling microphones and voice assistants |
US12327549B2 (en) | 2022-02-09 | 2025-06-10 | Sonos, Inc. | Gatekeeping for voice intent processing |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2016095383A (ja) | 音声認識クライアント装置及びサーバ型音声認識装置 | |
WO2014208231A1 (ja) | ローカルな音声認識を行なう音声認識クライアント装置 | |
CN116888663B (zh) | 基于部分假设的流式动作实施 | |
US8868428B2 (en) | Integration of embedded and network speech recognizers | |
US10719507B2 (en) | System and method for natural language processing | |
JP6771805B2 (ja) | 音声認識方法、電子機器、及びコンピュータ記憶媒体 | |
CN105592343B (zh) | 针对问题和回答的显示装置和方法 | |
JP5658641B2 (ja) | 端末装置、音声認識プログラム、音声認識方法および音声認識システム | |
US20140350933A1 (en) | Voice recognition apparatus and control method thereof | |
US9805715B2 (en) | Method and system for recognizing speech commands using background and foreground acoustic models | |
US11188289B2 (en) | Identification of preferred communication devices according to a preference rule dependent on a trigger phrase spoken within a selected time from other command data | |
JP5233989B2 (ja) | 音声認識システム、音声認識方法、および音声認識処理プログラム | |
KR101208166B1 (ko) | 온라인 음성인식을 처리하는 음성인식 클라이언트 시스템, 음성인식 서버 시스템 및 음성인식 방법 | |
US10170122B2 (en) | Speech recognition method, electronic device and speech recognition system | |
US20150100314A1 (en) | Multiple web-based content category searching in mobile search application | |
CN103974109B (zh) | 语音识别设备和用于提供响应信息的方法 | |
CN109616096A (zh) | 多语种语音解码图的构建方法、装置、服务器和介质 | |
CN102473413A (zh) | 语音翻译系统、词典服务器装置及其程序 | |
CN111312233A (zh) | 一种语音数据的识别方法、装置及系统 | |
US10861453B1 (en) | Resource scheduling with voice controlled devices | |
CN113113024A (zh) | 语音识别方法、装置、电子设备和存储介质 | |
US20220161131A1 (en) | Systems and devices for controlling network applications | |
JP2015102805A (ja) | 音声認識システム、電子装置、サーバー、音声認識方法および音声認識プログラム | |
JP6322125B2 (ja) | 音声認識装置、音声認識方法および音声認識プログラム | |
JP5940038B2 (ja) | 情報処理装置、情報処理方法、及びプログラム |