[go: up one dir, main page]

JP2015513704A - ユーザ専用自動発話認識 - Google Patents

ユーザ専用自動発話認識 Download PDF

Info

Publication number
JP2015513704A
JP2015513704A JP2015500412A JP2015500412A JP2015513704A JP 2015513704 A JP2015513704 A JP 2015513704A JP 2015500412 A JP2015500412 A JP 2015500412A JP 2015500412 A JP2015500412 A JP 2015500412A JP 2015513704 A JP2015513704 A JP 2015513704A
Authority
JP
Japan
Prior art keywords
user interface
speaker
mode
voice
selective
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2015500412A
Other languages
English (en)
Inventor
トービアス ヴォルフ,
トービアス ヴォルフ,
マルクス バック,
マルクス バック,
ティム ホーリック,
ティム ホーリック,
スハディ
Original Assignee
ニュアンス コミュニケーションズ, インコーポレイテッド
ニュアンス コミュニケーションズ, インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ニュアンス コミュニケーションズ, インコーポレイテッド, ニュアンス コミュニケーションズ, インコーポレイテッド filed Critical ニュアンス コミュニケーションズ, インコーポレイテッド
Publication of JP2015513704A publication Critical patent/JP2015513704A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • User Interface Of Digital Computer (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Position Input By Displaying (AREA)

Abstract

マルチモード音声制御式ユーザインターフェースが、説明される。ユーザインターフェースは、1人以上の可能性として考えられる発話者と音声対話を行なうように適合され、ユーザインターフェースは、空間フィルタ処理を伴わずに、可能性として考えられる発話者からの発話入力を受け入れる広域聴取モードと、空間フィルタ処理を使用して、発話入力を特定の発話者に限定する選択的聴取モードとを含む。ユーザインターフェースは、1つ以上の切替キューに応答して、聴取モードを切り替える。

Description

本発明は、コンピュータシステムのためのユーザインターフェースに関し、より具体的には、自動発話認識を使用したユーザ専用マルチモード音声制御式インターフェースに関する。
音声制御式デバイスでは、自動発話認識(ASR)は、典型的には、プッシュ・トゥ・トーク(PTT)ボタンを使用して誘発される。PTTボタンの押下によって、誰が発話したかにかかわらず、システムに、任意の発話された語の入力に応答させる。音声制御式テレビまたはコンピュータゲームコンソール等の遠隔発声用途では、PTTボタンは、アクティブ化ワードコマンドによって代用されてもよい。加えて、潜在的に音声制御を行なうことを所望し得る1人よりも多いユーザが存在してもよい。
ASRシステムは、典型的には、信号プリプロセッサを具備し、干渉および雑音に対処する。多くの場合、複数のマイクロホンが、特に、遠隔発声インターフェースのために使用され、遠隔発声インターフェースにおいて、発話増大アルゴリズムが、発話者の想定される方向に向かって空間的に操向される(ビームフォーミング)。その結果、他の方向からの干渉は、抑制される。これは、所望の発話者に対するASR性能を改善させるが、他の発話者に対するASR性能を低下させる。したがって、ASR性能は、マイクロホンアレイに対する発話者の空間位置およびビームフォーミングアルゴリズムの操向方向に依存する。
(概要)
本発明の実施形態は、少なくとも1つのハードウェア実装コンピュータプロセッサを採用する自動発話認識(ASR)システムのためのマルチモード音声制御式ユーザインターフェースと、そのようなインターフェースを使用する対応する方法とに関する。ユーザインターフェースは、1人以上の可能性として考えられる発話者と音声対話を行なうように適合され、ユーザインターフェースは、空間フィルタ処理を伴わずに、可能性として考えられる発話者からの発話入力を受け入れる広域聴取モードと、空間フィルタ処理を使用して、発話入力を特定の発話者に限定する選択的聴取モードとを含む。ユーザインターフェースは、1つ以上の切替キューに応答して、聴取モードを切り替える。
広域聴取モードは、関連付けられた広域モード認識語彙を使用してもよく、選択的聴取モードは、異なる関連付けられた選択的モード認識語彙を使用する。切替キューは、発話入力からの1つ以上のモード切替ワード、音声対話内の1つ以上の対話状態、および/または、可能性として考えられる発話者からの1つ以上の視覚キューを含んでもよい。選択的聴取モードは、空間フィルタ処理のために、音響発話者位置特定および/または画像処理を使用してもよい。
ユーザインターフェースは、複数の選択された発話者のそれぞれに対して、同時に並行して選択的聴取モードで動作してもよい。加えて、または、代替として、インターフェースは、並行して、両方の聴取モードで動作するように適合されてもよく、それによって、インターフェースは、広域聴取モードにおいて部屋内の任意のユーザからの発話入力を受け入れ、同時に、選択的聴取モードにおいて1人のみの選択された発話者からの発話入力を受け入れる。
本発明の実施形態はまた、少なくとも1つのハードウェア実装コンピュータプロセッサを採用する音声制御式ユーザインターフェースを含む自動発話認識(ASR)のためのデバイスを含む。ユーザインターフェースは、1人以上の可能性として考えられる発話者と音声対話を行なうように適合される。ユーザ選択モジュールは、1人のみの特定の発話者からの発話入力に応答するように、可能性として考えられる発話者の画像処理に基づいた空間フィルタ処理を使用して、ユーザインターフェースを限定するために、ユーザインターフェースと通信する。
空間フィルタ処理はさらに、複数のマイクロホンの選択的ビームフォーミングに基づいてもよい。ユーザインターフェースはさらに、特定の発話者の方向および/または特定の発話者の識別を示すために、視覚フィードバックを提供するように適合されてもよい。画像処理は、可能性として考えられる発話者の視覚画像のジェスチャ認識および/または可能性として考えられる発話者の顔の視覚画像の顔認識を行なうことを含んでもよい。
図1は、本発明の実施形態による、音声制御式ユーザインターフェースを使用するための配列を示す。 図2は、本発明の実施形態による、ユーザ専用音声制御式ユーザインターフェースのための状態図を示す。 図3は、アクティブユーザとして所与の発話者を選択するために音響情報および内容情報を使用することを示す。 図4は、アクティブユーザとして所与の発話者を選択するために視覚情報を使用することを示す。 図5は、アクティブユーザとして所与の発話者を選択するために視覚情報、音響情報、および、内容情報の組み合わせを使用することを示す。 図6は、逐次的に交互する動作モードを有する音声制御インターフェースのための一連の配列を示す。 図7は、同時並行動作モードを有する音声制御インターフェースのための並列配列を示す。
(詳細な説明)
本発明の実施形態は、近傍に偶然に存在する任意のユーザではなく、1人の選択されたユーザに音声制御機能を限定するユーザ専用ASRに関する。これは、例えば、ユーザ限定機能を起動させる特別なアクティブ化ワードを発するユーザに基づいてもよい。システムは、次いで、特定の対話が終了するか、または、他の何らかのモード切替事象が生じるまで、指定されたユーザ専用のままであってもよい。ユーザ専用モードで動作している間、システムは、他のユーザ(干渉発話者)からのいかなる発話入力にも応答しない。
より具体的には、本発明の実施形態は、2つの異なる種類の聴取モード、すなわち、(1)任意の方向における任意のユーザからの発話入力に応答する広域聴取モードと、(2)発話入力を特定の位置における特定の発話者に限定する選択的聴取モードとを伴う自動発話認識を使用するユーザ専用マルチモード音声制御式インターフェースを含む。インターフェースシステムは、異なる切替キュー、すなわち、対話状態、特定のアクティブ化ワード、または、視覚ジェスチャに基づいて、モードを切り替えることができる。異なる聴取モードはまた、異なる認識語彙、例えば、広域聴取モードにおける限定された語彙、および、選択的聴取モードにおけるより広範囲の認識語彙を使用してもよい。発話入力を特定の発話者に限定するために、システムは、音響発話者位置特定および/またはビデオ処理手段を使用することにより、発話者位置を決定してもよい。
本発明の実施形態はまた、任意の他のユーザには応答しない、特定のユーザ専用である自動発話認識(ASR)のための配列を含む。潜在的ユーザは、1つ以上のカメラからの画像を使用して、画像処理を用いて検出される。画像処理は、専用ユーザを決定および選択するための1つ以上のユーザキュー(例えば、ジェスチャ認識、顔認識等)の検出に依拠してもよい。そのようなユーザ選択の結果に基づいて、音響空間フィルタの操向方向が、制御され、継続的視覚情報に依拠し続けることができる。(GUIを介した)ユーザフィードバックは、選択された専用ユーザの方向および/または正体を識別し、例えば、システムの空間操向方向を示すために与えられることができる。
図1は、本発明の実施形態による、音声制御式ユーザインターフェース100の配列を示す。音声制御式ユーザインターフェース100は、少なくとも2つの異なる動作モードを含む。音声制御式ユーザインターフェース100が、部屋101内の複数の発話者102のうちの任意の1人から、いずれの空間フィルタ処理を伴わずに、発話入力を広く受け入れる広域聴取モードが、存在する。広域聴取モードでは、音声制御式ユーザインターフェース100は、選択的モードアクティブ化ワードを含む限定された広域モード認識語彙を使用する。音声制御式ユーザインターフェース100がアクティブ化ワードを検出すると、音声制御式ユーザインターフェース100は、拡張された選択的モード認識語彙を使用して発話入力を部屋101内の特定の発話者102に限定するために空間フィルタ処理を使用する選択的聴取モードに入る。例えば、選択された特定の発話者は、選択的聴取モードでは、音声制御式ユーザインターフェース100を使用することにより、対話プロセスの後、テレビ105および/またはコンピュータゲームコンソール106等の1つ以上のデバイスを制御してもよい。
図2は、音声制御式ユーザインターフェース100の動作のための状態図を示す。図2の左側の広域聴取モードから開始し、左端の閉鎖弧は、アクティブ化ワードが検出されず、特定の発話者が識別されない限り、音声制御式ユーザインターフェース100が、広域聴取モードに留まることを示す。図2の上部の弧は、音声制御式ユーザインターフェース100が、アクティブ化ワードが発話され、特定の発話者が正常に識別されたことを検出すると生じる、広域聴取モードから選択的聴取モードへの遷移を示す。選択的聴取モードにあるとき、図2の右端の閉鎖弧は、発話者との対話プロセスが終了するか、または、図2の底部を横断する弧によって示されるように他の何らかの事象がモードを広域聴取モードに戻すかのいずれかまで、特定の発話者の場所が既知である限り、音声制御式ユーザインターフェース100が、選択的聴取モードに留まることを示す。
選択的聴取モードにおいて行なわれる特定の発話者の空間フィルタ処理は、図3に示されるように、内容情報と音響情報との組み合わせに基づいてもよい。内容情報は、アクティブ化ワードが広域聴取モードにおいて見分けられるときに存在する。音響情報は、音響発話者位置特定がインターフェースによって行なわれ、部屋内の複数のマイクロホンからの発話入力を選択し、マイクロホン信号の選択的ビームフォーミングを行ない、発話入力を特定の発話者に位置特定するときに存在する。
図4に示されるように、画像処理と空間フィルタ処理との併用にも基づいて、選択的聴取モードに入ってもよい。アクティブ化ワードが広域聴取モードにおいて検出されると、インターフェースは、カメラおよび/またはビデオ処理エンジンからの視覚画像情報を使用して、視認可能な人数およびマイクロホンアレイに対するその位置を決定してもよい。インターフェースは、画像処理とジェスチャ認識とを併用し、アクティブ化ワードと組み合わせて特定のジェスチャを認識することによって、特定の発話者を選択してもよい。画像処理を使用する実施形態は、コマンドが発話されていないときでも、特定の発話者の位置を追跡することができる。また、図5に示されるように、いくつかの実施形態は、音響情報、画像情報、および、内容情報の組み合わせを使用して、空間フィルタ処理を行なってもよい。
図6は、逐次的に聴取モード間を切り替えるマルチモード音声制御式ユーザインターフェース内の機能ブロックを示す。そのような配列では、広域聴取モードは、選択的聴取モードにおいて特定の発話者がインターフェースとの音声対話を完了したことに応答して、作動させられ得、それによって、インターフェースは、逐次的に聴取モード間を交互する。その結果、1度に1人のみのユーザが、インターフェースを動作させることができる。広域聴取モードでは、インターフェース内の制御モジュールは、モード選択スイッチを使用して、部屋内の単一のマイクロホンを選択し、部屋内の任意の1人からの発話入力を受け入れる。雑音低減(NR)を適用後、自動発話認識(ASR)が、選択的モードアクティブ化ワードを含む限定された広域モード認識語彙(認識モデルの限定された組)を使用して行なわれる。アクティブ化ワードがASRによって検出されると、フィードバック信号が、ASRから制御モジュールに提供される。制御モジュールは、次いで、遅延時間推定(TDE)およびユーザ特異的ビームフォーミング(BF1、BF2等)を通してマイクロホンアレイ入力を空間フィルタ処理するために、視覚情報および対話状態情報を使用し、ユーザ対話が継続する限り、選択的聴取モードがアクティブ化されていると決定された選択された特定の発話者にインターフェースが焦点を合わせるように維持する。
図7は、異なる聴取モードで動作しながら、ユーザ発話入力を並行して処理するマルチモード音声制御式ユーザインターフェース内の機能ブロックを示す。したがって、インターフェースは、広域聴取モードでは、広域聴取モードの限定された広域モード認識語彙を使用して、部屋内の任意のユーザから発話入力を受け入れるように動作し、同時に、1人以上の特定の発話者に対する選択的聴取モードでは、拡張された選択的聴取モード認識語彙を使用して、発話入力を受け入れるように動作する。1人のユーザが既に選択的モードにおいてシステムを動作させているときでも、インターフェースは、広域聴取モードおよび/または選択的聴取モードにおいて、他のユーザを受け付ける。したがって、別のユーザは、複数の指向性感知ビームが各発話者に向けられている間、例えば、別個の対話を開始するか、または、(例えば、コンピュータゲームのための)現在の既存の対話に参加するために、第2の選択的モードインスタンスを開始することができる。これは、例えば、クイズゲーム用途におけるような複数の発話者との対話をサポートし得る。
聴取モードに応じて、異なる音響モデルがASRエンジン内で使用されてもよく、または、さらに異なるASRエンジンが使用されてもよい。いずれにおいても、聴取モードを切り替えるとき、ASR文法が、切り替えられる必要がある。何人かの複数のユーザMの場合、N=Mビーム、N<Mビーム、またはN=1ビームのいずれかが、インターフェースによって使用され得る。
デバイスが選択的聴取モードにあり、特定の発話者のみを聴取するとき、インターフェースが特定の発話者と通信することが有用であり得る。これが行なわれ得るいくつかの異なる方法が、存在する。例えば、視覚ディスプレイが、選択された特定の発話者の位置を識別するために、ユーザ強調表示を伴う部屋の光景の概略画像を示してもよい。または、より単純に、光のバーの表示が、選択された特定の発話者の空間方向を示すようにコード化された強度であることができる。または、アバターが、ユーザ(単数または複数)との対話の一部として、聴取モードフィードバックを送達するために使用されてもよい。
例えば、前述の有用用途の1つは、潜在的ユーザおよびその空間位置が1つ以上のカメラを用いて検出される広域聴取モードおよび選択的聴取モードを伴うユーザ専用ASRに基づいて、テレビまたはゲームコンソールを制御する特定の状況におけるものである。最初に、インターフェースシステムは、広域聴取モードにあり、潜在的ユーザ情報が、音声アクティビティに対して発話者位置をチェックする空間音声アクティビティ検出プロセスに提供される。広域聴取モードがモード切替キュー(例えば、アクティブ化ワード)を検出すると、空間音声アクティビティ検出プロセスは、その切替キューを提供した人物に関する情報を提供する。インターフェースシステムは、次いで、空間フィルタ処理(ビームフォーミングおよび/またはブラインド源分離)による選択的聴取モードに切り替わり、ASRをそのユーザ専用にする/そのユーザに限定する。ユーザフィードバックもまた、聴取方向に関して、GUIを介して提供され、それ以降、専用ユーザの空間位置は、1つ以上のカメラによって追従される。広域聴取モードに戻るモード遷移は、対話状態または別の切替キューに依存してもよい。
本発明の実施形態は、全体的または部分的に、VHDL、SystemC、Verilog、ASM等の任意の従来のコンピュータプログラミング言語に実装されてもよい。本発明の代替実施形態は、事前にプログラムされたハードウェア要素、他の関連構成要素、または、ハードウェアおよびソフトウェア構成要素の組み合わせとして実装されてもよい。
実施形態は、全体的または部分的に、コンピュータシステムと併用するためのコンピュータプログラム製品として実装されることができる。そのような実装は、コンピュータ読み取り可能な媒体(例えば、ディスケット、CD−ROM、ROM、または固定ディスク)等の有形媒体上に固定されるか、あるいは媒体を経由してネットワークに接続された通信アダプタ等のモデムまたは他のインターフェースデバイスを介して、コンピュータシステムに伝送可能であるかのいずれかである一連のコンピュータ命令を含んでもよい。媒体は、有形媒体(例えば、光学またはアナログ通信ライン)または無線技法(例えば、マイクロ波、赤外線、または他の伝送技法)を用いて実装される媒体のいずれかであってもよい。一連のコンピュータ命令は、システムに関して本明細書に前述の機能性の全部または一部を具現化する。当業者は、そのようなコンピュータ命令が、多くのコンピュータアーキテクチャまたはオペレーティングシステムと併用するために、いくつかのプログラミング言語で書かれることができることを理解するはずである。さらに、そのような命令は、半導体、磁気、光学、または他のメモリデバイス等の任意のメモリデバイス内に記憶されてもよく、光学、赤外線、マイクロ波、または他の伝送技術等の任意の通信技術を使用して伝送されてもよい。そのようなコンピュータプログラム製品は、付随の印刷または電子説明書(例えば、収縮包装ソフトウェア)を伴う取り外し可能な媒体として配信され、コンピュータシステムに予め搭載され(例えば、システムROMまたは固定ディスク上)、あるいは、ネットワーク(例えば、インターネットまたはWorld Wide Web)を経由して、サーバまたは電子掲示板から配信され得ることが予想される。当然ながら、本発明のいくつかの実施形態は、ソフトウェア(例えば、コンピュータプログラム製品)およびハードウェアの両方の組み合わせとして実装されてもよい。本発明のさらに他の実施形態は、完全にハードウェアまたは完全にソフトウェア(例えば、コンピュータプログラム製品)として実装される。
本発明の種々の例示的実施形態が開示されたが、本発明の真の範囲から逸脱することなく、本発明の利点のうちのいくつかを達成する種々の変更および修正が行なわれ得ることは、当業者に明白であるはずである。

Claims (17)

  1. 自動発話認識(ASR)のためのデバイスであって、前記デバイスは、
    少なくとも1つのハードウェア実装コンピュータプロセッサを採用しているマルチモード音声制御式ユーザインターフェースを備え、
    前記ユーザインターフェースは、1人以上の可能性として考えられる発話者と音声対話を行なうように適合され、前記インターフェースは、
    a.空間フィルタ処理を伴わずに、前記可能性として考えられる発話者からの発話入力を受け入れる広域聴取モードと、
    b.空間フィルタ処理を使用して、発話入力を特定の発話者に限定する選択的聴取モードと
    を含み、前記ユーザインターフェースは、1つ以上の切替キューに応答して、聴取モードを切り替える、デバイス。
  2. 前記広域聴取モードは、関連付けられた広域モード認識語彙を使用し、前記選択的聴取モードは、異なる関連付けられた選択的モード認識語彙を使用する、請求項1に記載のデバイス。
  3. 前記切替キューは、前記発話入力からの1つ以上のモード切替ワードを含む、請求項1に記載のデバイス。
  4. 前記切替キューは、前記音声対話内の1つ以上の対話状態を含む、請求項1に記載のデバイス。
  5. 前記切替キューは、前記可能性として考えられる発話者からの1つ以上の視覚キューを含む、請求項1に記載のデバイス。
  6. 前記選択的聴取モードは、前記空間フィルタ処理のために、音響発話者位置特定を使用する、請求項1に記載のデバイス。
  7. 前記選択的聴取モードは、前記空間フィルタ処理のために、画像処理を使用する、請求項1に記載のデバイス。
  8. 前記ユーザインターフェースは、複数の選択された発話者のそれぞれに対して、同時に並行して選択的聴取モードで動作する、請求項1に記載のデバイス。
  9. 前記インターフェースは、並行して、両方の聴取モードで動作するように適合され、それによって、前記インターフェースは、前記広域聴取モードにおいて部屋内の任意のユーザから発話入力を受け入れ、同時に、前記選択的聴取モードにおいて1人のみの選択された発話者から発話入力を受け入れる、請求項1に記載のデバイス。
  10. 自動発話認識(ASR)システムを動作させるために、非一過性コンピュータ読み取り可能な媒体にエンコードされたコンピュータプログラム製品であって、前記製品は、マルチモード音声制御式ユーザインターフェースを介して、1人以上の可能性として考えられる発話者と音声対話を行なうためのプログラムコードを備え、前記マルチモード音声制御式ユーザインターフェースは、
    a.広域聴取モードにおいて、空間フィルタ処理を伴わずに、前記可能性として考えられる発話者からの発話入力を受け入れることと、
    b.選択的聴取モードにおいて、空間フィルタ処理を使用して、発話入力を特定の発話者に限定することと
    を行うように適合され、前記ユーザインターフェースは、1つ以上の切替キューに応答して、聴取モードを切り替える、製品。
  11. 自動発話認識(ASR)のためのデバイスであって、前記デバイスは、
    少なくとも1つのハードウェア実装コンピュータプロセッサを採用している音声制御式ユーザインターフェースであって、前記ユーザインターフェースは、1人以上の可能性として考えられる発話者と音声対話を行なうように適合されている、ユーザインターフェースと、
    1人のみの特定の発話者からの発話入力に応答するように、前記可能性として考えられる発話者の画像処理に基づいた空間フィルタ処理を使用して、前記ユーザインターフェースを限定するために、前記ユーザインターフェースと通信しているユーザ選択モジュールと
    を備える、デバイス。
  12. 前記空間フィルタ処理は、複数のマイクロホンの選択的ビームフォーミングにさらに基づいている、請求項11に記載のデバイス。
  13. 前記ユーザインターフェースは、前記特定の発話者の方向を示すために、視覚フィードバックを提供するようにさらに適合されている、請求項11に記載のデバイス。
  14. 前記ユーザインターフェースは、前記特定の発話者の識別を示すために、視覚フィードバックを提供するようにさらに適合されている、請求項11に記載のデバイス。
  15. 前記画像処理は、前記可能性として考えられる発話者の視覚画像のジェスチャ認識を行なうことを含む、請求項11に記載のデバイス。
  16. 前記画像処理は、前記可能性として考えられる発話者の顔の視覚画像の顔認識を行なうことを含む、請求項11に記載のデバイス。
  17. 自動発話認識(ASR)システムを動作させるために、非一過性コンピュータ読み取り可能な媒体にエンコードされたコンピュータプログラム製品であって、前記製品は、
    1人以上の可能性として考えられる発話者と音声対話を行なうように適合された音声制御式ユーザインターフェースのためのプログラムコードと、
    1人のみの特定の発話者からの発話入力に応答するように、前記可能性として考えられる発話者の画像処理に基づいた空間フィルタ処理を使用して、前記ユーザインターフェースを限定するために、前記ユーザインターフェースと通信しているユーザ選択モジュールのためのプログラムコードと
    を備える、製品。
JP2015500412A 2012-03-16 2012-03-16 ユーザ専用自動発話認識 Pending JP2015513704A (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/US2012/029359 WO2013137900A1 (en) 2012-03-16 2012-03-16 User dedicated automatic speech recognition

Publications (1)

Publication Number Publication Date
JP2015513704A true JP2015513704A (ja) 2015-05-14

Family

ID=45888502

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015500412A Pending JP2015513704A (ja) 2012-03-16 2012-03-16 ユーザ専用自動発話認識

Country Status (6)

Country Link
US (2) US20150046157A1 (ja)
EP (1) EP2817801B1 (ja)
JP (1) JP2015513704A (ja)
KR (1) KR101641448B1 (ja)
CN (1) CN104488025A (ja)
WO (1) WO2013137900A1 (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017144521A (ja) * 2016-02-18 2017-08-24 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
JP2018180523A (ja) * 2017-04-12 2018-11-15 サウンドハウンド,インコーポレイテッド マン・マシン・ダイアログにおけるエージェント係属の管理
JP2018206385A (ja) * 2017-06-02 2018-12-27 ネイバー コーポレーションNAVER Corporation ユーザの位置及び空間に適した情報を能動的に提供する方法及び装置
WO2019187371A1 (ja) * 2018-03-29 2019-10-03 パナソニックIpマネジメント株式会社 音声処理装置、音声処理方法および音声処理システム
JP2020515901A (ja) * 2017-03-31 2020-05-28 ボーズ・コーポレーションBose Corporation ボイスアクティビティ検出に基づく音声の指向性捕捉
JP2021033140A (ja) * 2019-08-27 2021-03-01 富士通クライアントコンピューティング株式会社 情報処理装置およびプログラム
JP2021135363A (ja) * 2020-02-26 2021-09-13 株式会社サイバーエージェント 制御システム、制御装置、制御方法及びコンピュータプログラム

Families Citing this family (54)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2817801B1 (en) 2012-03-16 2017-02-22 Nuance Communications, Inc. User dedicated automatic speech recognition
US9286898B2 (en) * 2012-11-14 2016-03-15 Qualcomm Incorporated Methods and apparatuses for providing tangible control of sound
US9689960B1 (en) 2013-04-04 2017-06-27 Amazon Technologies, Inc. Beam rejection in multi-beam microphone systems
US9711166B2 (en) 2013-05-23 2017-07-18 Knowles Electronics, Llc Decimation synchronization in a microphone
US9712923B2 (en) 2013-05-23 2017-07-18 Knowles Electronics, Llc VAD detection microphone and method of operating the same
US10020008B2 (en) 2013-05-23 2018-07-10 Knowles Electronics, Llc Microphone and corresponding digital interface
US9502028B2 (en) 2013-10-18 2016-11-22 Knowles Electronics, Llc Acoustic activity detection apparatus and method
US9147397B2 (en) 2013-10-29 2015-09-29 Knowles Electronics, Llc VAD detection apparatus and method of operating the same
US9697828B1 (en) * 2014-06-20 2017-07-04 Amazon Technologies, Inc. Keyword detection modeling using contextual and environmental information
US9830080B2 (en) 2015-01-21 2017-11-28 Knowles Electronics, Llc Low power voice trigger for acoustic apparatus and method
US10121472B2 (en) 2015-02-13 2018-11-06 Knowles Electronics, Llc Audio buffer catch-up apparatus and method with two microphones
JP6678315B2 (ja) * 2015-04-24 2020-04-08 パナソニックIpマネジメント株式会社 音声再生方法、音声対話装置及び音声対話プログラム
JP2016218852A (ja) * 2015-05-22 2016-12-22 ソニー株式会社 情報処理装置および情報処理方法、並びにプログラム
US9478234B1 (en) 2015-07-13 2016-10-25 Knowles Electronics, Llc Microphone apparatus and method with catch-up buffer
US9875081B2 (en) * 2015-09-21 2018-01-23 Amazon Technologies, Inc. Device selection for providing a response
US9826599B2 (en) * 2015-12-28 2017-11-21 Amazon Technologies, Inc. Voice-controlled light switches
EP3414759B1 (en) 2016-02-10 2020-07-01 Cerence Operating Company Techniques for spatially selective wake-up word recognition and related systems and methods
US9886954B1 (en) 2016-09-30 2018-02-06 Doppler Labs, Inc. Context aware hearing optimization engine
EP3535751A4 (en) 2016-11-10 2020-05-20 Nuance Communications, Inc. Techniques for language independent wake-up word detection
US20180166073A1 (en) * 2016-12-13 2018-06-14 Ford Global Technologies, Llc Speech Recognition Without Interrupting The Playback Audio
KR20180085931A (ko) 2017-01-20 2018-07-30 삼성전자주식회사 음성 입력 처리 방법 및 이를 지원하는 전자 장치
CN106782585B (zh) * 2017-01-26 2020-03-20 芋头科技(杭州)有限公司 一种基于麦克风阵列的拾音方法及系统
US10468022B2 (en) * 2017-04-03 2019-11-05 Motorola Mobility Llc Multi mode voice assistant for the hearing disabled
US10546655B2 (en) 2017-08-10 2020-01-28 Nuance Communications, Inc. Automated clinical documentation system and method
US11316865B2 (en) 2017-08-10 2022-04-26 Nuance Communications, Inc. Ambient cooperative intelligence system and method
US10304475B1 (en) * 2017-08-14 2019-05-28 Amazon Technologies, Inc. Trigger word based beam selection
US10482904B1 (en) 2017-08-15 2019-11-19 Amazon Technologies, Inc. Context driven device arbitration
US11062702B2 (en) 2017-08-28 2021-07-13 Roku, Inc. Media system with multiple digital assistants
US11062710B2 (en) 2017-08-28 2021-07-13 Roku, Inc. Local and cloud speech recognition
US20200090663A1 (en) * 2017-11-07 2020-03-19 Sony Corporation Information processing apparatus and electronic device
US10157611B1 (en) 2017-11-29 2018-12-18 Nuance Communications, Inc. System and method for speech enhancement in multisource environments
US10482878B2 (en) 2017-11-29 2019-11-19 Nuance Communications, Inc. System and method for speech enhancement in multisource environments
WO2019118089A1 (en) 2017-12-11 2019-06-20 Analog Devices, Inc. Multi-modal far field user interfaces and vision-assisted audio processing
US11145298B2 (en) 2018-02-13 2021-10-12 Roku, Inc. Trigger word detection with multiple digital assistants
US20190272902A1 (en) 2018-03-05 2019-09-05 Nuance Communications, Inc. System and method for review of automated clinical documentation
US11515020B2 (en) 2018-03-05 2022-11-29 Nuance Communications, Inc. Automated clinical documentation system and method
US11250382B2 (en) 2018-03-05 2022-02-15 Nuance Communications, Inc. Automated clinical documentation system and method
CN109272989B (zh) * 2018-08-29 2021-08-10 北京京东尚科信息技术有限公司 语音唤醒方法、装置和计算机可读存储介质
US11217254B2 (en) * 2018-12-24 2022-01-04 Google Llc Targeted voice separation by speaker conditioned on spectrogram masking
CN109725725B (zh) * 2018-12-29 2022-08-12 出门问问信息科技有限公司 智能交互终端、以及智能交互终端的信息处理方法
CN110148406B (zh) * 2019-04-12 2022-03-04 北京搜狗科技发展有限公司 一种数据处理方法和装置、一种用于数据处理的装置
US20200349933A1 (en) 2019-04-30 2020-11-05 Nuance Communications, Inc. Speech Dialog System Aware of Ongoing Conversations
US11367437B2 (en) * 2019-05-30 2022-06-21 Nuance Communications, Inc. Multi-microphone speech dialog system for multiple spatial zones
US11216480B2 (en) 2019-06-14 2022-01-04 Nuance Communications, Inc. System and method for querying data points from graph data structures
US11227679B2 (en) 2019-06-14 2022-01-18 Nuance Communications, Inc. Ambient clinical intelligence system and method
US11043207B2 (en) 2019-06-14 2021-06-22 Nuance Communications, Inc. System and method for array data simulation and customized acoustic modeling for ambient ASR
US11531807B2 (en) 2019-06-28 2022-12-20 Nuance Communications, Inc. System and method for customized text macros
US11670408B2 (en) 2019-09-30 2023-06-06 Nuance Communications, Inc. System and method for review of automated clinical documentation
CN114365216A (zh) 2019-10-10 2022-04-15 谷歌有限责任公司 按讲话者进行语音识别的目标话音分离
CN110797043B (zh) * 2019-11-13 2022-04-12 思必驰科技股份有限公司 会议语音实时转写方法及系统
KR20210087249A (ko) * 2020-01-02 2021-07-12 엘지전자 주식회사 촬영장치 및 그 제어방법
US11222103B1 (en) 2020-10-29 2022-01-11 Nuance Communications, Inc. Ambient cooperative intelligence system and method
WO2022260655A1 (en) * 2021-06-08 2022-12-15 Hewlett-Packard Development Company, L.P. Gestures for switching audio endpoints
US20230197097A1 (en) * 2021-12-16 2023-06-22 Mediatek Inc. Sound enhancement method and related communication apparatus

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004109361A (ja) * 2002-09-17 2004-04-08 Toshiba Corp 指向性設定装置、指向性設定方法及び指向性設定プログラム
JP2004515982A (ja) * 2000-12-05 2004-05-27 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ テレビ会議及び他の適用においてイベントを予測する方法及び装置
JP2004184803A (ja) * 2002-12-05 2004-07-02 Nissan Motor Co Ltd 車両用音声認識装置
JP2006504130A (ja) * 2002-10-23 2006-02-02 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 音声に基づく装置制御
EP2028062A2 (en) * 2007-08-23 2009-02-25 Delphi Technologies, Inc. System and method for optimizing speech recognition in a vehicle
JP2011061461A (ja) * 2009-09-09 2011-03-24 Sony Corp 撮像装置、指向性制御方法及びそのプログラム

Family Cites Families (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6850252B1 (en) * 1999-10-05 2005-02-01 Steven M. Hoffberg Intelligent electronic appliance system and method
US6125341A (en) * 1997-12-19 2000-09-26 Nortel Networks Corporation Speech recognition system and method
US6556970B1 (en) * 1999-01-28 2003-04-29 Denso Corporation Apparatus for determining appropriate series of words carrying information to be recognized
US7904187B2 (en) * 1999-02-01 2011-03-08 Hoffberg Steven M Internet appliance system and method
CN1177312C (zh) * 2000-09-13 2004-11-24 中国科学院自动化研究所 多种语音工作模式的统一识别方法
JP2003114699A (ja) * 2001-10-03 2003-04-18 Auto Network Gijutsu Kenkyusho:Kk 車載音声認識システム
AU2003240193A1 (en) * 2002-06-17 2003-12-31 Koninklijke Philips Electronics N.V. Controlling an apparatus based on speech
JP4267385B2 (ja) * 2003-06-30 2009-05-27 インターナショナル・ビジネス・マシーンズ・コーポレーション 統計的言語モデル生成装置、音声認識装置、統計的言語モデル生成方法、音声認識方法、およびプログラム
US7190775B2 (en) * 2003-10-29 2007-03-13 Broadcom Corporation High quality audio conferencing with adaptive beamforming
US7355508B2 (en) * 2004-05-21 2008-04-08 International Electronic Machines Corp. System and method for monitoring an area
DE602005008005D1 (de) * 2005-02-23 2008-08-21 Harman Becker Automotive Sys Spracherkennungssytem in einem Kraftfahrzeug
US7620549B2 (en) * 2005-08-10 2009-11-17 Voicebox Technologies, Inc. System and method of supporting adaptive misrecognition in conversational speech
JP4225430B2 (ja) * 2005-08-11 2009-02-18 旭化成株式会社 音源分離装置、音声認識装置、携帯電話機、音源分離方法、及び、プログラム
WO2007034392A2 (en) * 2005-09-21 2007-03-29 Koninklijke Philips Electronics N.V. Ultrasound imaging system with voice activated controls using remotely positioned microphone
JP2007318438A (ja) * 2006-05-25 2007-12-06 Yamaha Corp 音声状況データ生成装置、音声状況可視化装置、音声状況データ編集装置、音声データ再生装置、および音声通信システム
US8019050B2 (en) * 2007-01-03 2011-09-13 Motorola Solutions, Inc. Method and apparatus for providing feedback of vocal quality to a user
JP4877112B2 (ja) * 2007-07-12 2012-02-15 ヤマハ株式会社 音声処理装置およびプログラム
US8218033B2 (en) * 2007-09-10 2012-07-10 Sanyo Electric Co., Ltd. Sound corrector, sound recording device, sound reproducing device, and sound correcting method
US8175291B2 (en) * 2007-12-19 2012-05-08 Qualcomm Incorporated Systems, methods, and apparatus for multi-microphone based speech enhancement
US8099289B2 (en) * 2008-02-13 2012-01-17 Sensory, Inc. Voice interface and search for electronic devices including bluetooth headsets and remote systems
EP2222091B1 (en) * 2009-02-23 2013-04-24 Nuance Communications, Inc. Method for determining a set of filter coefficients for an acoustic echo compensation means
US20100217590A1 (en) * 2009-02-24 2010-08-26 Broadcom Corporation Speaker localization system and method
US8340654B2 (en) * 2009-05-26 2012-12-25 Lextech Labs Llc Apparatus and method for video display and control for portable device
US8649533B2 (en) * 2009-10-02 2014-02-11 Ford Global Technologies, Llc Emotive advisory system acoustic environment
US9197736B2 (en) * 2009-12-31 2015-11-24 Digimarc Corporation Intuitive computing methods and systems
US8660355B2 (en) * 2010-03-19 2014-02-25 Digimarc Corporation Methods and systems for determining image processing operations relevant to particular imagery
CN102237086A (zh) * 2010-04-28 2011-11-09 三星电子株式会社 用于语音识别设备的补偿装置和方法
US8700392B1 (en) * 2010-09-10 2014-04-15 Amazon Technologies, Inc. Speech-inclusive device interfaces
US8818800B2 (en) * 2011-07-29 2014-08-26 2236008 Ontario Inc. Off-axis audio suppressions in an automobile cabin
US8660847B2 (en) * 2011-09-02 2014-02-25 Microsoft Corporation Integrated local and cloud based speech recognition
EP2817801B1 (en) 2012-03-16 2017-02-22 Nuance Communications, Inc. User dedicated automatic speech recognition

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004515982A (ja) * 2000-12-05 2004-05-27 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ テレビ会議及び他の適用においてイベントを予測する方法及び装置
JP2004109361A (ja) * 2002-09-17 2004-04-08 Toshiba Corp 指向性設定装置、指向性設定方法及び指向性設定プログラム
JP2006504130A (ja) * 2002-10-23 2006-02-02 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 音声に基づく装置制御
JP2004184803A (ja) * 2002-12-05 2004-07-02 Nissan Motor Co Ltd 車両用音声認識装置
EP2028062A2 (en) * 2007-08-23 2009-02-25 Delphi Technologies, Inc. System and method for optimizing speech recognition in a vehicle
JP2011061461A (ja) * 2009-09-09 2011-03-24 Sony Corp 撮像装置、指向性制御方法及びそのプログラム

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11237794B2 (en) 2016-02-18 2022-02-01 Sony Corporation Information processing device and information processing method
WO2017141530A1 (ja) * 2016-02-18 2017-08-24 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
JP2017144521A (ja) * 2016-02-18 2017-08-24 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
JP2020515901A (ja) * 2017-03-31 2020-05-28 ボーズ・コーポレーションBose Corporation ボイスアクティビティ検出に基づく音声の指向性捕捉
JP2018180523A (ja) * 2017-04-12 2018-11-15 サウンドハウンド,インコーポレイテッド マン・マシン・ダイアログにおけるエージェント係属の管理
US12125484B2 (en) 2017-04-12 2024-10-22 Soundhound Ai Ip, Llc Controlling an engagement state of an agent during a human-machine dialog
US11250844B2 (en) 2017-04-12 2022-02-15 Soundhound, Inc. Managing agent engagement in a man-machine dialog
JP2018206385A (ja) * 2017-06-02 2018-12-27 ネイバー コーポレーションNAVER Corporation ユーザの位置及び空間に適した情報を能動的に提供する方法及び装置
JP7186375B2 (ja) 2018-03-29 2022-12-09 パナソニックIpマネジメント株式会社 音声処理装置、音声処理方法および音声処理システム
JP2019174778A (ja) * 2018-03-29 2019-10-10 パナソニックIpマネジメント株式会社 音声処理装置、音声処理方法および音声処理システム
JP2023011945A (ja) * 2018-03-29 2023-01-24 パナソニックIpマネジメント株式会社 音声処理装置、音声処理方法および音声処理システム
US11804220B2 (en) 2018-03-29 2023-10-31 Panasonic Intellectual Property Management Co., Ltd. Voice processing device, voice processing method and voice processing system
JP7458013B2 (ja) 2018-03-29 2024-03-29 パナソニックIpマネジメント株式会社 音声処理装置、音声処理方法および音声処理システム
US12118990B2 (en) 2018-03-29 2024-10-15 Panasonic Intellectual Property Management Co., Ltd. Voice processing device, voice processing method and voice processing system
WO2019187371A1 (ja) * 2018-03-29 2019-10-03 パナソニックIpマネジメント株式会社 音声処理装置、音声処理方法および音声処理システム
CN112509571A (zh) * 2019-08-27 2021-03-16 富士通个人电脑株式会社 信息处理装置和记录介质
JP2021033140A (ja) * 2019-08-27 2021-03-01 富士通クライアントコンピューティング株式会社 情報処理装置およびプログラム
JP2021135363A (ja) * 2020-02-26 2021-09-13 株式会社サイバーエージェント 制御システム、制御装置、制御方法及びコンピュータプログラム

Also Published As

Publication number Publication date
US20150046157A1 (en) 2015-02-12
EP2817801A1 (en) 2014-12-31
US20180158461A1 (en) 2018-06-07
KR101641448B1 (ko) 2016-07-20
EP2817801B1 (en) 2017-02-22
US10789950B2 (en) 2020-09-29
CN104488025A (zh) 2015-04-01
WO2013137900A1 (en) 2013-09-19
KR20140131956A (ko) 2014-11-14

Similar Documents

Publication Publication Date Title
US10789950B2 (en) User dedicated automatic speech recognition
EP2984763B1 (en) System for automatic speech recognition and audio entertainment
CN106462383B (zh) 具有定向接口的免提装置
US10529360B2 (en) Speech enhancement method and apparatus for same
US9368105B1 (en) Preventing false wake word detections with a voice-controlled device
Okuno et al. Robot audition: Its rise and perspectives
US9293134B1 (en) Source-specific speech interactions
WO2018013564A1 (en) Combining gesture and voice user interfaces
US9916832B2 (en) Using combined audio and vision-based cues for voice command-and-control
US20180090138A1 (en) System and method for localization and acoustic voice interface
CN107808665B (zh) 用于处理口头话语流的方法、系统和存储介质
CN105793923A (zh) 本地和远程语音处理
US9792901B1 (en) Multiple-source speech dialog input
AU2022201037B2 (en) Providing audio information with a digital assistant
JP2007329702A (ja) 受音装置と音声認識装置とそれらを搭載している可動体
JP2009166184A (ja) ガイドロボット
WO2024137112A1 (en) Speaker-specific speech filtering for multiple users
JP2007168972A (ja) エレベータ制御装置
US20240212669A1 (en) Speech filter for speech processing
KR20230006339A (ko) 운전자의 음성과 입술을 인식하여 명령을 처리하는 장치 및 방법
CN119493074A (zh) 朝向确定方法及相关设备

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150907

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150911

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20151208

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20160526