JP2015513704A

JP2015513704A - ユーザ専用自動発話認識

Info

Publication number: JP2015513704A
Application number: JP2015500412A
Authority: JP
Inventors: トービアスヴォルフ，; マルクスバック，; ティムホーリック，; スハディ
Original assignee: ニュアンスコミュニケーションズ，インコーポレイテッド
Priority date: 2012-03-16
Filing date: 2012-03-16
Publication date: 2015-05-14
Also published as: US20150046157A1; EP2817801A1; US20180158461A1; KR101641448B1; EP2817801B1; US10789950B2; CN104488025A; WO2013137900A1; KR20140131956A

Abstract

マルチモード音声制御式ユーザインターフェースが、説明される。ユーザインターフェースは、１人以上の可能性として考えられる発話者と音声対話を行なうように適合され、ユーザインターフェースは、空間フィルタ処理を伴わずに、可能性として考えられる発話者からの発話入力を受け入れる広域聴取モードと、空間フィルタ処理を使用して、発話入力を特定の発話者に限定する選択的聴取モードとを含む。ユーザインターフェースは、１つ以上の切替キューに応答して、聴取モードを切り替える。

Description

本発明は、コンピュータシステムのためのユーザインターフェースに関し、より具体的には、自動発話認識を使用したユーザ専用マルチモード音声制御式インターフェースに関する。

音声制御式デバイスでは、自動発話認識（ＡＳＲ）は、典型的には、プッシュ・トゥ・トーク（ＰＴＴ）ボタンを使用して誘発される。ＰＴＴボタンの押下によって、誰が発話したかにかかわらず、システムに、任意の発話された語の入力に応答させる。音声制御式テレビまたはコンピュータゲームコンソール等の遠隔発声用途では、ＰＴＴボタンは、アクティブ化ワードコマンドによって代用されてもよい。加えて、潜在的に音声制御を行なうことを所望し得る１人よりも多いユーザが存在してもよい。

ＡＳＲシステムは、典型的には、信号プリプロセッサを具備し、干渉および雑音に対処する。多くの場合、複数のマイクロホンが、特に、遠隔発声インターフェースのために使用され、遠隔発声インターフェースにおいて、発話増大アルゴリズムが、発話者の想定される方向に向かって空間的に操向される（ビームフォーミング）。その結果、他の方向からの干渉は、抑制される。これは、所望の発話者に対するＡＳＲ性能を改善させるが、他の発話者に対するＡＳＲ性能を低下させる。したがって、ＡＳＲ性能は、マイクロホンアレイに対する発話者の空間位置およびビームフォーミングアルゴリズムの操向方向に依存する。

（概要）
本発明の実施形態は、少なくとも１つのハードウェア実装コンピュータプロセッサを採用する自動発話認識（ＡＳＲ）システムのためのマルチモード音声制御式ユーザインターフェースと、そのようなインターフェースを使用する対応する方法とに関する。ユーザインターフェースは、１人以上の可能性として考えられる発話者と音声対話を行なうように適合され、ユーザインターフェースは、空間フィルタ処理を伴わずに、可能性として考えられる発話者からの発話入力を受け入れる広域聴取モードと、空間フィルタ処理を使用して、発話入力を特定の発話者に限定する選択的聴取モードとを含む。ユーザインターフェースは、１つ以上の切替キューに応答して、聴取モードを切り替える。

広域聴取モードは、関連付けられた広域モード認識語彙を使用してもよく、選択的聴取モードは、異なる関連付けられた選択的モード認識語彙を使用する。切替キューは、発話入力からの１つ以上のモード切替ワード、音声対話内の１つ以上の対話状態、および／または、可能性として考えられる発話者からの１つ以上の視覚キューを含んでもよい。選択的聴取モードは、空間フィルタ処理のために、音響発話者位置特定および／または画像処理を使用してもよい。

ユーザインターフェースは、複数の選択された発話者のそれぞれに対して、同時に並行して選択的聴取モードで動作してもよい。加えて、または、代替として、インターフェースは、並行して、両方の聴取モードで動作するように適合されてもよく、それによって、インターフェースは、広域聴取モードにおいて部屋内の任意のユーザからの発話入力を受け入れ、同時に、選択的聴取モードにおいて１人のみの選択された発話者からの発話入力を受け入れる。

本発明の実施形態はまた、少なくとも１つのハードウェア実装コンピュータプロセッサを採用する音声制御式ユーザインターフェースを含む自動発話認識（ＡＳＲ）のためのデバイスを含む。ユーザインターフェースは、１人以上の可能性として考えられる発話者と音声対話を行なうように適合される。ユーザ選択モジュールは、１人のみの特定の発話者からの発話入力に応答するように、可能性として考えられる発話者の画像処理に基づいた空間フィルタ処理を使用して、ユーザインターフェースを限定するために、ユーザインターフェースと通信する。

空間フィルタ処理はさらに、複数のマイクロホンの選択的ビームフォーミングに基づいてもよい。ユーザインターフェースはさらに、特定の発話者の方向および／または特定の発話者の識別を示すために、視覚フィードバックを提供するように適合されてもよい。画像処理は、可能性として考えられる発話者の視覚画像のジェスチャ認識および／または可能性として考えられる発話者の顔の視覚画像の顔認識を行なうことを含んでもよい。

図１は、本発明の実施形態による、音声制御式ユーザインターフェースを使用するための配列を示す。図２は、本発明の実施形態による、ユーザ専用音声制御式ユーザインターフェースのための状態図を示す。図３は、アクティブユーザとして所与の発話者を選択するために音響情報および内容情報を使用することを示す。図４は、アクティブユーザとして所与の発話者を選択するために視覚情報を使用することを示す。図５は、アクティブユーザとして所与の発話者を選択するために視覚情報、音響情報、および、内容情報の組み合わせを使用することを示す。図６は、逐次的に交互する動作モードを有する音声制御インターフェースのための一連の配列を示す。図７は、同時並行動作モードを有する音声制御インターフェースのための並列配列を示す。

（詳細な説明）
本発明の実施形態は、近傍に偶然に存在する任意のユーザではなく、１人の選択されたユーザに音声制御機能を限定するユーザ専用ＡＳＲに関する。これは、例えば、ユーザ限定機能を起動させる特別なアクティブ化ワードを発するユーザに基づいてもよい。システムは、次いで、特定の対話が終了するか、または、他の何らかのモード切替事象が生じるまで、指定されたユーザ専用のままであってもよい。ユーザ専用モードで動作している間、システムは、他のユーザ（干渉発話者）からのいかなる発話入力にも応答しない。

より具体的には、本発明の実施形態は、２つの異なる種類の聴取モード、すなわち、（１）任意の方向における任意のユーザからの発話入力に応答する広域聴取モードと、（２）発話入力を特定の位置における特定の発話者に限定する選択的聴取モードとを伴う自動発話認識を使用するユーザ専用マルチモード音声制御式インターフェースを含む。インターフェースシステムは、異なる切替キュー、すなわち、対話状態、特定のアクティブ化ワード、または、視覚ジェスチャに基づいて、モードを切り替えることができる。異なる聴取モードはまた、異なる認識語彙、例えば、広域聴取モードにおける限定された語彙、および、選択的聴取モードにおけるより広範囲の認識語彙を使用してもよい。発話入力を特定の発話者に限定するために、システムは、音響発話者位置特定および／またはビデオ処理手段を使用することにより、発話者位置を決定してもよい。

本発明の実施形態はまた、任意の他のユーザには応答しない、特定のユーザ専用である自動発話認識（ＡＳＲ）のための配列を含む。潜在的ユーザは、１つ以上のカメラからの画像を使用して、画像処理を用いて検出される。画像処理は、専用ユーザを決定および選択するための１つ以上のユーザキュー（例えば、ジェスチャ認識、顔認識等）の検出に依拠してもよい。そのようなユーザ選択の結果に基づいて、音響空間フィルタの操向方向が、制御され、継続的視覚情報に依拠し続けることができる。（ＧＵＩを介した）ユーザフィードバックは、選択された専用ユーザの方向および／または正体を識別し、例えば、システムの空間操向方向を示すために与えられることができる。

図１は、本発明の実施形態による、音声制御式ユーザインターフェース１００の配列を示す。音声制御式ユーザインターフェース１００は、少なくとも２つの異なる動作モードを含む。音声制御式ユーザインターフェース１００が、部屋１０１内の複数の発話者１０２のうちの任意の１人から、いずれの空間フィルタ処理を伴わずに、発話入力を広く受け入れる広域聴取モードが、存在する。広域聴取モードでは、音声制御式ユーザインターフェース１００は、選択的モードアクティブ化ワードを含む限定された広域モード認識語彙を使用する。音声制御式ユーザインターフェース１００がアクティブ化ワードを検出すると、音声制御式ユーザインターフェース１００は、拡張された選択的モード認識語彙を使用して発話入力を部屋１０１内の特定の発話者１０２に限定するために空間フィルタ処理を使用する選択的聴取モードに入る。例えば、選択された特定の発話者は、選択的聴取モードでは、音声制御式ユーザインターフェース１００を使用することにより、対話プロセスの後、テレビ１０５および／またはコンピュータゲームコンソール１０６等の１つ以上のデバイスを制御してもよい。

図２は、音声制御式ユーザインターフェース１００の動作のための状態図を示す。図２の左側の広域聴取モードから開始し、左端の閉鎖弧は、アクティブ化ワードが検出されず、特定の発話者が識別されない限り、音声制御式ユーザインターフェース１００が、広域聴取モードに留まることを示す。図２の上部の弧は、音声制御式ユーザインターフェース１００が、アクティブ化ワードが発話され、特定の発話者が正常に識別されたことを検出すると生じる、広域聴取モードから選択的聴取モードへの遷移を示す。選択的聴取モードにあるとき、図２の右端の閉鎖弧は、発話者との対話プロセスが終了するか、または、図２の底部を横断する弧によって示されるように他の何らかの事象がモードを広域聴取モードに戻すかのいずれかまで、特定の発話者の場所が既知である限り、音声制御式ユーザインターフェース１００が、選択的聴取モードに留まることを示す。

選択的聴取モードにおいて行なわれる特定の発話者の空間フィルタ処理は、図３に示されるように、内容情報と音響情報との組み合わせに基づいてもよい。内容情報は、アクティブ化ワードが広域聴取モードにおいて見分けられるときに存在する。音響情報は、音響発話者位置特定がインターフェースによって行なわれ、部屋内の複数のマイクロホンからの発話入力を選択し、マイクロホン信号の選択的ビームフォーミングを行ない、発話入力を特定の発話者に位置特定するときに存在する。

図４に示されるように、画像処理と空間フィルタ処理との併用にも基づいて、選択的聴取モードに入ってもよい。アクティブ化ワードが広域聴取モードにおいて検出されると、インターフェースは、カメラおよび／またはビデオ処理エンジンからの視覚画像情報を使用して、視認可能な人数およびマイクロホンアレイに対するその位置を決定してもよい。インターフェースは、画像処理とジェスチャ認識とを併用し、アクティブ化ワードと組み合わせて特定のジェスチャを認識することによって、特定の発話者を選択してもよい。画像処理を使用する実施形態は、コマンドが発話されていないときでも、特定の発話者の位置を追跡することができる。また、図５に示されるように、いくつかの実施形態は、音響情報、画像情報、および、内容情報の組み合わせを使用して、空間フィルタ処理を行なってもよい。

図６は、逐次的に聴取モード間を切り替えるマルチモード音声制御式ユーザインターフェース内の機能ブロックを示す。そのような配列では、広域聴取モードは、選択的聴取モードにおいて特定の発話者がインターフェースとの音声対話を完了したことに応答して、作動させられ得、それによって、インターフェースは、逐次的に聴取モード間を交互する。その結果、１度に１人のみのユーザが、インターフェースを動作させることができる。広域聴取モードでは、インターフェース内の制御モジュールは、モード選択スイッチを使用して、部屋内の単一のマイクロホンを選択し、部屋内の任意の１人からの発話入力を受け入れる。雑音低減（ＮＲ）を適用後、自動発話認識（ＡＳＲ）が、選択的モードアクティブ化ワードを含む限定された広域モード認識語彙（認識モデルの限定された組）を使用して行なわれる。アクティブ化ワードがＡＳＲによって検出されると、フィードバック信号が、ＡＳＲから制御モジュールに提供される。制御モジュールは、次いで、遅延時間推定（ＴＤＥ）およびユーザ特異的ビームフォーミング（ＢＦ１、ＢＦ２等）を通してマイクロホンアレイ入力を空間フィルタ処理するために、視覚情報および対話状態情報を使用し、ユーザ対話が継続する限り、選択的聴取モードがアクティブ化されていると決定された選択された特定の発話者にインターフェースが焦点を合わせるように維持する。

図７は、異なる聴取モードで動作しながら、ユーザ発話入力を並行して処理するマルチモード音声制御式ユーザインターフェース内の機能ブロックを示す。したがって、インターフェースは、広域聴取モードでは、広域聴取モードの限定された広域モード認識語彙を使用して、部屋内の任意のユーザから発話入力を受け入れるように動作し、同時に、１人以上の特定の発話者に対する選択的聴取モードでは、拡張された選択的聴取モード認識語彙を使用して、発話入力を受け入れるように動作する。１人のユーザが既に選択的モードにおいてシステムを動作させているときでも、インターフェースは、広域聴取モードおよび／または選択的聴取モードにおいて、他のユーザを受け付ける。したがって、別のユーザは、複数の指向性感知ビームが各発話者に向けられている間、例えば、別個の対話を開始するか、または、（例えば、コンピュータゲームのための）現在の既存の対話に参加するために、第２の選択的モードインスタンスを開始することができる。これは、例えば、クイズゲーム用途におけるような複数の発話者との対話をサポートし得る。

聴取モードに応じて、異なる音響モデルがＡＳＲエンジン内で使用されてもよく、または、さらに異なるＡＳＲエンジンが使用されてもよい。いずれにおいても、聴取モードを切り替えるとき、ＡＳＲ文法が、切り替えられる必要がある。何人かの複数のユーザＭの場合、Ｎ＝Ｍビーム、Ｎ＜Ｍビーム、またはＮ＝１ビームのいずれかが、インターフェースによって使用され得る。

デバイスが選択的聴取モードにあり、特定の発話者のみを聴取するとき、インターフェースが特定の発話者と通信することが有用であり得る。これが行なわれ得るいくつかの異なる方法が、存在する。例えば、視覚ディスプレイが、選択された特定の発話者の位置を識別するために、ユーザ強調表示を伴う部屋の光景の概略画像を示してもよい。または、より単純に、光のバーの表示が、選択された特定の発話者の空間方向を示すようにコード化された強度であることができる。または、アバターが、ユーザ（単数または複数）との対話の一部として、聴取モードフィードバックを送達するために使用されてもよい。

例えば、前述の有用用途の１つは、潜在的ユーザおよびその空間位置が１つ以上のカメラを用いて検出される広域聴取モードおよび選択的聴取モードを伴うユーザ専用ＡＳＲに基づいて、テレビまたはゲームコンソールを制御する特定の状況におけるものである。最初に、インターフェースシステムは、広域聴取モードにあり、潜在的ユーザ情報が、音声アクティビティに対して発話者位置をチェックする空間音声アクティビティ検出プロセスに提供される。広域聴取モードがモード切替キュー（例えば、アクティブ化ワード）を検出すると、空間音声アクティビティ検出プロセスは、その切替キューを提供した人物に関する情報を提供する。インターフェースシステムは、次いで、空間フィルタ処理（ビームフォーミングおよび／またはブラインド源分離）による選択的聴取モードに切り替わり、ＡＳＲをそのユーザ専用にする／そのユーザに限定する。ユーザフィードバックもまた、聴取方向に関して、ＧＵＩを介して提供され、それ以降、専用ユーザの空間位置は、１つ以上のカメラによって追従される。広域聴取モードに戻るモード遷移は、対話状態または別の切替キューに依存してもよい。

本発明の実施形態は、全体的または部分的に、ＶＨＤＬ、ＳｙｓｔｅｍＣ、Ｖｅｒｉｌｏｇ、ＡＳＭ等の任意の従来のコンピュータプログラミング言語に実装されてもよい。本発明の代替実施形態は、事前にプログラムされたハードウェア要素、他の関連構成要素、または、ハードウェアおよびソフトウェア構成要素の組み合わせとして実装されてもよい。

実施形態は、全体的または部分的に、コンピュータシステムと併用するためのコンピュータプログラム製品として実装されることができる。そのような実装は、コンピュータ読み取り可能な媒体（例えば、ディスケット、ＣＤ−ＲＯＭ、ＲＯＭ、または固定ディスク）等の有形媒体上に固定されるか、あるいは媒体を経由してネットワークに接続された通信アダプタ等のモデムまたは他のインターフェースデバイスを介して、コンピュータシステムに伝送可能であるかのいずれかである一連のコンピュータ命令を含んでもよい。媒体は、有形媒体（例えば、光学またはアナログ通信ライン）または無線技法（例えば、マイクロ波、赤外線、または他の伝送技法）を用いて実装される媒体のいずれかであってもよい。一連のコンピュータ命令は、システムに関して本明細書に前述の機能性の全部または一部を具現化する。当業者は、そのようなコンピュータ命令が、多くのコンピュータアーキテクチャまたはオペレーティングシステムと併用するために、いくつかのプログラミング言語で書かれることができることを理解するはずである。さらに、そのような命令は、半導体、磁気、光学、または他のメモリデバイス等の任意のメモリデバイス内に記憶されてもよく、光学、赤外線、マイクロ波、または他の伝送技術等の任意の通信技術を使用して伝送されてもよい。そのようなコンピュータプログラム製品は、付随の印刷または電子説明書（例えば、収縮包装ソフトウェア）を伴う取り外し可能な媒体として配信され、コンピュータシステムに予め搭載され（例えば、システムＲＯＭまたは固定ディスク上）、あるいは、ネットワーク（例えば、インターネットまたはＷｏｒｌｄＷｉｄｅＷｅｂ）を経由して、サーバまたは電子掲示板から配信され得ることが予想される。当然ながら、本発明のいくつかの実施形態は、ソフトウェア（例えば、コンピュータプログラム製品）およびハードウェアの両方の組み合わせとして実装されてもよい。本発明のさらに他の実施形態は、完全にハードウェアまたは完全にソフトウェア（例えば、コンピュータプログラム製品）として実装される。

本発明の種々の例示的実施形態が開示されたが、本発明の真の範囲から逸脱することなく、本発明の利点のうちのいくつかを達成する種々の変更および修正が行なわれ得ることは、当業者に明白であるはずである。

Claims

自動発話認識（ＡＳＲ）のためのデバイスであって、前記デバイスは、
少なくとも１つのハードウェア実装コンピュータプロセッサを採用しているマルチモード音声制御式ユーザインターフェースを備え、
前記ユーザインターフェースは、１人以上の可能性として考えられる発話者と音声対話を行なうように適合され、前記インターフェースは、
ａ．空間フィルタ処理を伴わずに、前記可能性として考えられる発話者からの発話入力を受け入れる広域聴取モードと、
ｂ．空間フィルタ処理を使用して、発話入力を特定の発話者に限定する選択的聴取モードと
を含み、前記ユーザインターフェースは、１つ以上の切替キューに応答して、聴取モードを切り替える、デバイス。
前記広域聴取モードは、関連付けられた広域モード認識語彙を使用し、前記選択的聴取モードは、異なる関連付けられた選択的モード認識語彙を使用する、請求項１に記載のデバイス。
前記切替キューは、前記発話入力からの１つ以上のモード切替ワードを含む、請求項１に記載のデバイス。
前記切替キューは、前記音声対話内の１つ以上の対話状態を含む、請求項１に記載のデバイス。
前記切替キューは、前記可能性として考えられる発話者からの１つ以上の視覚キューを含む、請求項１に記載のデバイス。
前記選択的聴取モードは、前記空間フィルタ処理のために、音響発話者位置特定を使用する、請求項１に記載のデバイス。
前記選択的聴取モードは、前記空間フィルタ処理のために、画像処理を使用する、請求項１に記載のデバイス。
前記ユーザインターフェースは、複数の選択された発話者のそれぞれに対して、同時に並行して選択的聴取モードで動作する、請求項１に記載のデバイス。
前記インターフェースは、並行して、両方の聴取モードで動作するように適合され、それによって、前記インターフェースは、前記広域聴取モードにおいて部屋内の任意のユーザから発話入力を受け入れ、同時に、前記選択的聴取モードにおいて１人のみの選択された発話者から発話入力を受け入れる、請求項１に記載のデバイス。
自動発話認識（ＡＳＲ）システムを動作させるために、非一過性コンピュータ読み取り可能な媒体にエンコードされたコンピュータプログラム製品であって、前記製品は、マルチモード音声制御式ユーザインターフェースを介して、１人以上の可能性として考えられる発話者と音声対話を行なうためのプログラムコードを備え、前記マルチモード音声制御式ユーザインターフェースは、
ａ．広域聴取モードにおいて、空間フィルタ処理を伴わずに、前記可能性として考えられる発話者からの発話入力を受け入れることと、
ｂ．選択的聴取モードにおいて、空間フィルタ処理を使用して、発話入力を特定の発話者に限定することと
を行うように適合され、前記ユーザインターフェースは、１つ以上の切替キューに応答して、聴取モードを切り替える、製品。
自動発話認識（ＡＳＲ）のためのデバイスであって、前記デバイスは、
少なくとも１つのハードウェア実装コンピュータプロセッサを採用している音声制御式ユーザインターフェースであって、前記ユーザインターフェースは、１人以上の可能性として考えられる発話者と音声対話を行なうように適合されている、ユーザインターフェースと、
１人のみの特定の発話者からの発話入力に応答するように、前記可能性として考えられる発話者の画像処理に基づいた空間フィルタ処理を使用して、前記ユーザインターフェースを限定するために、前記ユーザインターフェースと通信しているユーザ選択モジュールと
を備える、デバイス。
前記空間フィルタ処理は、複数のマイクロホンの選択的ビームフォーミングにさらに基づいている、請求項１１に記載のデバイス。
前記ユーザインターフェースは、前記特定の発話者の方向を示すために、視覚フィードバックを提供するようにさらに適合されている、請求項１１に記載のデバイス。
前記ユーザインターフェースは、前記特定の発話者の識別を示すために、視覚フィードバックを提供するようにさらに適合されている、請求項１１に記載のデバイス。
前記画像処理は、前記可能性として考えられる発話者の視覚画像のジェスチャ認識を行なうことを含む、請求項１１に記載のデバイス。
前記画像処理は、前記可能性として考えられる発話者の顔の視覚画像の顔認識を行なうことを含む、請求項１１に記載のデバイス。
自動発話認識（ＡＳＲ）システムを動作させるために、非一過性コンピュータ読み取り可能な媒体にエンコードされたコンピュータプログラム製品であって、前記製品は、
１人以上の可能性として考えられる発話者と音声対話を行なうように適合された音声制御式ユーザインターフェースのためのプログラムコードと、
１人のみの特定の発話者からの発話入力に応答するように、前記可能性として考えられる発話者の画像処理に基づいた空間フィルタ処理を使用して、前記ユーザインターフェースを限定するために、前記ユーザインターフェースと通信しているユーザ選択モジュールのためのプログラムコードと
を備える、製品。