JP2015513704A - ユーザ専用自動発話認識 - Google Patents
ユーザ専用自動発話認識 Download PDFInfo
- Publication number
- JP2015513704A JP2015513704A JP2015500412A JP2015500412A JP2015513704A JP 2015513704 A JP2015513704 A JP 2015513704A JP 2015500412 A JP2015500412 A JP 2015500412A JP 2015500412 A JP2015500412 A JP 2015500412A JP 2015513704 A JP2015513704 A JP 2015513704A
- Authority
- JP
- Japan
- Prior art keywords
- user interface
- speaker
- mode
- voice
- selective
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
- G10L15/25—Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/228—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Signal Processing (AREA)
- User Interface Of Digital Computer (AREA)
- Circuit For Audible Band Transducer (AREA)
- Position Input By Displaying (AREA)
Abstract
マルチモード音声制御式ユーザインターフェースが、説明される。ユーザインターフェースは、1人以上の可能性として考えられる発話者と音声対話を行なうように適合され、ユーザインターフェースは、空間フィルタ処理を伴わずに、可能性として考えられる発話者からの発話入力を受け入れる広域聴取モードと、空間フィルタ処理を使用して、発話入力を特定の発話者に限定する選択的聴取モードとを含む。ユーザインターフェースは、1つ以上の切替キューに応答して、聴取モードを切り替える。
Description
本発明は、コンピュータシステムのためのユーザインターフェースに関し、より具体的には、自動発話認識を使用したユーザ専用マルチモード音声制御式インターフェースに関する。
音声制御式デバイスでは、自動発話認識(ASR)は、典型的には、プッシュ・トゥ・トーク(PTT)ボタンを使用して誘発される。PTTボタンの押下によって、誰が発話したかにかかわらず、システムに、任意の発話された語の入力に応答させる。音声制御式テレビまたはコンピュータゲームコンソール等の遠隔発声用途では、PTTボタンは、アクティブ化ワードコマンドによって代用されてもよい。加えて、潜在的に音声制御を行なうことを所望し得る1人よりも多いユーザが存在してもよい。
ASRシステムは、典型的には、信号プリプロセッサを具備し、干渉および雑音に対処する。多くの場合、複数のマイクロホンが、特に、遠隔発声インターフェースのために使用され、遠隔発声インターフェースにおいて、発話増大アルゴリズムが、発話者の想定される方向に向かって空間的に操向される(ビームフォーミング)。その結果、他の方向からの干渉は、抑制される。これは、所望の発話者に対するASR性能を改善させるが、他の発話者に対するASR性能を低下させる。したがって、ASR性能は、マイクロホンアレイに対する発話者の空間位置およびビームフォーミングアルゴリズムの操向方向に依存する。
(概要)
本発明の実施形態は、少なくとも1つのハードウェア実装コンピュータプロセッサを採用する自動発話認識(ASR)システムのためのマルチモード音声制御式ユーザインターフェースと、そのようなインターフェースを使用する対応する方法とに関する。ユーザインターフェースは、1人以上の可能性として考えられる発話者と音声対話を行なうように適合され、ユーザインターフェースは、空間フィルタ処理を伴わずに、可能性として考えられる発話者からの発話入力を受け入れる広域聴取モードと、空間フィルタ処理を使用して、発話入力を特定の発話者に限定する選択的聴取モードとを含む。ユーザインターフェースは、1つ以上の切替キューに応答して、聴取モードを切り替える。
本発明の実施形態は、少なくとも1つのハードウェア実装コンピュータプロセッサを採用する自動発話認識(ASR)システムのためのマルチモード音声制御式ユーザインターフェースと、そのようなインターフェースを使用する対応する方法とに関する。ユーザインターフェースは、1人以上の可能性として考えられる発話者と音声対話を行なうように適合され、ユーザインターフェースは、空間フィルタ処理を伴わずに、可能性として考えられる発話者からの発話入力を受け入れる広域聴取モードと、空間フィルタ処理を使用して、発話入力を特定の発話者に限定する選択的聴取モードとを含む。ユーザインターフェースは、1つ以上の切替キューに応答して、聴取モードを切り替える。
広域聴取モードは、関連付けられた広域モード認識語彙を使用してもよく、選択的聴取モードは、異なる関連付けられた選択的モード認識語彙を使用する。切替キューは、発話入力からの1つ以上のモード切替ワード、音声対話内の1つ以上の対話状態、および/または、可能性として考えられる発話者からの1つ以上の視覚キューを含んでもよい。選択的聴取モードは、空間フィルタ処理のために、音響発話者位置特定および/または画像処理を使用してもよい。
ユーザインターフェースは、複数の選択された発話者のそれぞれに対して、同時に並行して選択的聴取モードで動作してもよい。加えて、または、代替として、インターフェースは、並行して、両方の聴取モードで動作するように適合されてもよく、それによって、インターフェースは、広域聴取モードにおいて部屋内の任意のユーザからの発話入力を受け入れ、同時に、選択的聴取モードにおいて1人のみの選択された発話者からの発話入力を受け入れる。
本発明の実施形態はまた、少なくとも1つのハードウェア実装コンピュータプロセッサを採用する音声制御式ユーザインターフェースを含む自動発話認識(ASR)のためのデバイスを含む。ユーザインターフェースは、1人以上の可能性として考えられる発話者と音声対話を行なうように適合される。ユーザ選択モジュールは、1人のみの特定の発話者からの発話入力に応答するように、可能性として考えられる発話者の画像処理に基づいた空間フィルタ処理を使用して、ユーザインターフェースを限定するために、ユーザインターフェースと通信する。
空間フィルタ処理はさらに、複数のマイクロホンの選択的ビームフォーミングに基づいてもよい。ユーザインターフェースはさらに、特定の発話者の方向および/または特定の発話者の識別を示すために、視覚フィードバックを提供するように適合されてもよい。画像処理は、可能性として考えられる発話者の視覚画像のジェスチャ認識および/または可能性として考えられる発話者の顔の視覚画像の顔認識を行なうことを含んでもよい。
(詳細な説明)
本発明の実施形態は、近傍に偶然に存在する任意のユーザではなく、1人の選択されたユーザに音声制御機能を限定するユーザ専用ASRに関する。これは、例えば、ユーザ限定機能を起動させる特別なアクティブ化ワードを発するユーザに基づいてもよい。システムは、次いで、特定の対話が終了するか、または、他の何らかのモード切替事象が生じるまで、指定されたユーザ専用のままであってもよい。ユーザ専用モードで動作している間、システムは、他のユーザ(干渉発話者)からのいかなる発話入力にも応答しない。
本発明の実施形態は、近傍に偶然に存在する任意のユーザではなく、1人の選択されたユーザに音声制御機能を限定するユーザ専用ASRに関する。これは、例えば、ユーザ限定機能を起動させる特別なアクティブ化ワードを発するユーザに基づいてもよい。システムは、次いで、特定の対話が終了するか、または、他の何らかのモード切替事象が生じるまで、指定されたユーザ専用のままであってもよい。ユーザ専用モードで動作している間、システムは、他のユーザ(干渉発話者)からのいかなる発話入力にも応答しない。
より具体的には、本発明の実施形態は、2つの異なる種類の聴取モード、すなわち、(1)任意の方向における任意のユーザからの発話入力に応答する広域聴取モードと、(2)発話入力を特定の位置における特定の発話者に限定する選択的聴取モードとを伴う自動発話認識を使用するユーザ専用マルチモード音声制御式インターフェースを含む。インターフェースシステムは、異なる切替キュー、すなわち、対話状態、特定のアクティブ化ワード、または、視覚ジェスチャに基づいて、モードを切り替えることができる。異なる聴取モードはまた、異なる認識語彙、例えば、広域聴取モードにおける限定された語彙、および、選択的聴取モードにおけるより広範囲の認識語彙を使用してもよい。発話入力を特定の発話者に限定するために、システムは、音響発話者位置特定および/またはビデオ処理手段を使用することにより、発話者位置を決定してもよい。
本発明の実施形態はまた、任意の他のユーザには応答しない、特定のユーザ専用である自動発話認識(ASR)のための配列を含む。潜在的ユーザは、1つ以上のカメラからの画像を使用して、画像処理を用いて検出される。画像処理は、専用ユーザを決定および選択するための1つ以上のユーザキュー(例えば、ジェスチャ認識、顔認識等)の検出に依拠してもよい。そのようなユーザ選択の結果に基づいて、音響空間フィルタの操向方向が、制御され、継続的視覚情報に依拠し続けることができる。(GUIを介した)ユーザフィードバックは、選択された専用ユーザの方向および/または正体を識別し、例えば、システムの空間操向方向を示すために与えられることができる。
図1は、本発明の実施形態による、音声制御式ユーザインターフェース100の配列を示す。音声制御式ユーザインターフェース100は、少なくとも2つの異なる動作モードを含む。音声制御式ユーザインターフェース100が、部屋101内の複数の発話者102のうちの任意の1人から、いずれの空間フィルタ処理を伴わずに、発話入力を広く受け入れる広域聴取モードが、存在する。広域聴取モードでは、音声制御式ユーザインターフェース100は、選択的モードアクティブ化ワードを含む限定された広域モード認識語彙を使用する。音声制御式ユーザインターフェース100がアクティブ化ワードを検出すると、音声制御式ユーザインターフェース100は、拡張された選択的モード認識語彙を使用して発話入力を部屋101内の特定の発話者102に限定するために空間フィルタ処理を使用する選択的聴取モードに入る。例えば、選択された特定の発話者は、選択的聴取モードでは、音声制御式ユーザインターフェース100を使用することにより、対話プロセスの後、テレビ105および/またはコンピュータゲームコンソール106等の1つ以上のデバイスを制御してもよい。
図2は、音声制御式ユーザインターフェース100の動作のための状態図を示す。図2の左側の広域聴取モードから開始し、左端の閉鎖弧は、アクティブ化ワードが検出されず、特定の発話者が識別されない限り、音声制御式ユーザインターフェース100が、広域聴取モードに留まることを示す。図2の上部の弧は、音声制御式ユーザインターフェース100が、アクティブ化ワードが発話され、特定の発話者が正常に識別されたことを検出すると生じる、広域聴取モードから選択的聴取モードへの遷移を示す。選択的聴取モードにあるとき、図2の右端の閉鎖弧は、発話者との対話プロセスが終了するか、または、図2の底部を横断する弧によって示されるように他の何らかの事象がモードを広域聴取モードに戻すかのいずれかまで、特定の発話者の場所が既知である限り、音声制御式ユーザインターフェース100が、選択的聴取モードに留まることを示す。
選択的聴取モードにおいて行なわれる特定の発話者の空間フィルタ処理は、図3に示されるように、内容情報と音響情報との組み合わせに基づいてもよい。内容情報は、アクティブ化ワードが広域聴取モードにおいて見分けられるときに存在する。音響情報は、音響発話者位置特定がインターフェースによって行なわれ、部屋内の複数のマイクロホンからの発話入力を選択し、マイクロホン信号の選択的ビームフォーミングを行ない、発話入力を特定の発話者に位置特定するときに存在する。
図4に示されるように、画像処理と空間フィルタ処理との併用にも基づいて、選択的聴取モードに入ってもよい。アクティブ化ワードが広域聴取モードにおいて検出されると、インターフェースは、カメラおよび/またはビデオ処理エンジンからの視覚画像情報を使用して、視認可能な人数およびマイクロホンアレイに対するその位置を決定してもよい。インターフェースは、画像処理とジェスチャ認識とを併用し、アクティブ化ワードと組み合わせて特定のジェスチャを認識することによって、特定の発話者を選択してもよい。画像処理を使用する実施形態は、コマンドが発話されていないときでも、特定の発話者の位置を追跡することができる。また、図5に示されるように、いくつかの実施形態は、音響情報、画像情報、および、内容情報の組み合わせを使用して、空間フィルタ処理を行なってもよい。
図6は、逐次的に聴取モード間を切り替えるマルチモード音声制御式ユーザインターフェース内の機能ブロックを示す。そのような配列では、広域聴取モードは、選択的聴取モードにおいて特定の発話者がインターフェースとの音声対話を完了したことに応答して、作動させられ得、それによって、インターフェースは、逐次的に聴取モード間を交互する。その結果、1度に1人のみのユーザが、インターフェースを動作させることができる。広域聴取モードでは、インターフェース内の制御モジュールは、モード選択スイッチを使用して、部屋内の単一のマイクロホンを選択し、部屋内の任意の1人からの発話入力を受け入れる。雑音低減(NR)を適用後、自動発話認識(ASR)が、選択的モードアクティブ化ワードを含む限定された広域モード認識語彙(認識モデルの限定された組)を使用して行なわれる。アクティブ化ワードがASRによって検出されると、フィードバック信号が、ASRから制御モジュールに提供される。制御モジュールは、次いで、遅延時間推定(TDE)およびユーザ特異的ビームフォーミング(BF1、BF2等)を通してマイクロホンアレイ入力を空間フィルタ処理するために、視覚情報および対話状態情報を使用し、ユーザ対話が継続する限り、選択的聴取モードがアクティブ化されていると決定された選択された特定の発話者にインターフェースが焦点を合わせるように維持する。
図7は、異なる聴取モードで動作しながら、ユーザ発話入力を並行して処理するマルチモード音声制御式ユーザインターフェース内の機能ブロックを示す。したがって、インターフェースは、広域聴取モードでは、広域聴取モードの限定された広域モード認識語彙を使用して、部屋内の任意のユーザから発話入力を受け入れるように動作し、同時に、1人以上の特定の発話者に対する選択的聴取モードでは、拡張された選択的聴取モード認識語彙を使用して、発話入力を受け入れるように動作する。1人のユーザが既に選択的モードにおいてシステムを動作させているときでも、インターフェースは、広域聴取モードおよび/または選択的聴取モードにおいて、他のユーザを受け付ける。したがって、別のユーザは、複数の指向性感知ビームが各発話者に向けられている間、例えば、別個の対話を開始するか、または、(例えば、コンピュータゲームのための)現在の既存の対話に参加するために、第2の選択的モードインスタンスを開始することができる。これは、例えば、クイズゲーム用途におけるような複数の発話者との対話をサポートし得る。
聴取モードに応じて、異なる音響モデルがASRエンジン内で使用されてもよく、または、さらに異なるASRエンジンが使用されてもよい。いずれにおいても、聴取モードを切り替えるとき、ASR文法が、切り替えられる必要がある。何人かの複数のユーザMの場合、N=Mビーム、N<Mビーム、またはN=1ビームのいずれかが、インターフェースによって使用され得る。
デバイスが選択的聴取モードにあり、特定の発話者のみを聴取するとき、インターフェースが特定の発話者と通信することが有用であり得る。これが行なわれ得るいくつかの異なる方法が、存在する。例えば、視覚ディスプレイが、選択された特定の発話者の位置を識別するために、ユーザ強調表示を伴う部屋の光景の概略画像を示してもよい。または、より単純に、光のバーの表示が、選択された特定の発話者の空間方向を示すようにコード化された強度であることができる。または、アバターが、ユーザ(単数または複数)との対話の一部として、聴取モードフィードバックを送達するために使用されてもよい。
例えば、前述の有用用途の1つは、潜在的ユーザおよびその空間位置が1つ以上のカメラを用いて検出される広域聴取モードおよび選択的聴取モードを伴うユーザ専用ASRに基づいて、テレビまたはゲームコンソールを制御する特定の状況におけるものである。最初に、インターフェースシステムは、広域聴取モードにあり、潜在的ユーザ情報が、音声アクティビティに対して発話者位置をチェックする空間音声アクティビティ検出プロセスに提供される。広域聴取モードがモード切替キュー(例えば、アクティブ化ワード)を検出すると、空間音声アクティビティ検出プロセスは、その切替キューを提供した人物に関する情報を提供する。インターフェースシステムは、次いで、空間フィルタ処理(ビームフォーミングおよび/またはブラインド源分離)による選択的聴取モードに切り替わり、ASRをそのユーザ専用にする/そのユーザに限定する。ユーザフィードバックもまた、聴取方向に関して、GUIを介して提供され、それ以降、専用ユーザの空間位置は、1つ以上のカメラによって追従される。広域聴取モードに戻るモード遷移は、対話状態または別の切替キューに依存してもよい。
本発明の実施形態は、全体的または部分的に、VHDL、SystemC、Verilog、ASM等の任意の従来のコンピュータプログラミング言語に実装されてもよい。本発明の代替実施形態は、事前にプログラムされたハードウェア要素、他の関連構成要素、または、ハードウェアおよびソフトウェア構成要素の組み合わせとして実装されてもよい。
実施形態は、全体的または部分的に、コンピュータシステムと併用するためのコンピュータプログラム製品として実装されることができる。そのような実装は、コンピュータ読み取り可能な媒体(例えば、ディスケット、CD−ROM、ROM、または固定ディスク)等の有形媒体上に固定されるか、あるいは媒体を経由してネットワークに接続された通信アダプタ等のモデムまたは他のインターフェースデバイスを介して、コンピュータシステムに伝送可能であるかのいずれかである一連のコンピュータ命令を含んでもよい。媒体は、有形媒体(例えば、光学またはアナログ通信ライン)または無線技法(例えば、マイクロ波、赤外線、または他の伝送技法)を用いて実装される媒体のいずれかであってもよい。一連のコンピュータ命令は、システムに関して本明細書に前述の機能性の全部または一部を具現化する。当業者は、そのようなコンピュータ命令が、多くのコンピュータアーキテクチャまたはオペレーティングシステムと併用するために、いくつかのプログラミング言語で書かれることができることを理解するはずである。さらに、そのような命令は、半導体、磁気、光学、または他のメモリデバイス等の任意のメモリデバイス内に記憶されてもよく、光学、赤外線、マイクロ波、または他の伝送技術等の任意の通信技術を使用して伝送されてもよい。そのようなコンピュータプログラム製品は、付随の印刷または電子説明書(例えば、収縮包装ソフトウェア)を伴う取り外し可能な媒体として配信され、コンピュータシステムに予め搭載され(例えば、システムROMまたは固定ディスク上)、あるいは、ネットワーク(例えば、インターネットまたはWorld Wide Web)を経由して、サーバまたは電子掲示板から配信され得ることが予想される。当然ながら、本発明のいくつかの実施形態は、ソフトウェア(例えば、コンピュータプログラム製品)およびハードウェアの両方の組み合わせとして実装されてもよい。本発明のさらに他の実施形態は、完全にハードウェアまたは完全にソフトウェア(例えば、コンピュータプログラム製品)として実装される。
本発明の種々の例示的実施形態が開示されたが、本発明の真の範囲から逸脱することなく、本発明の利点のうちのいくつかを達成する種々の変更および修正が行なわれ得ることは、当業者に明白であるはずである。
Claims (17)
- 自動発話認識(ASR)のためのデバイスであって、前記デバイスは、
少なくとも1つのハードウェア実装コンピュータプロセッサを採用しているマルチモード音声制御式ユーザインターフェースを備え、
前記ユーザインターフェースは、1人以上の可能性として考えられる発話者と音声対話を行なうように適合され、前記インターフェースは、
a.空間フィルタ処理を伴わずに、前記可能性として考えられる発話者からの発話入力を受け入れる広域聴取モードと、
b.空間フィルタ処理を使用して、発話入力を特定の発話者に限定する選択的聴取モードと
を含み、前記ユーザインターフェースは、1つ以上の切替キューに応答して、聴取モードを切り替える、デバイス。 - 前記広域聴取モードは、関連付けられた広域モード認識語彙を使用し、前記選択的聴取モードは、異なる関連付けられた選択的モード認識語彙を使用する、請求項1に記載のデバイス。
- 前記切替キューは、前記発話入力からの1つ以上のモード切替ワードを含む、請求項1に記載のデバイス。
- 前記切替キューは、前記音声対話内の1つ以上の対話状態を含む、請求項1に記載のデバイス。
- 前記切替キューは、前記可能性として考えられる発話者からの1つ以上の視覚キューを含む、請求項1に記載のデバイス。
- 前記選択的聴取モードは、前記空間フィルタ処理のために、音響発話者位置特定を使用する、請求項1に記載のデバイス。
- 前記選択的聴取モードは、前記空間フィルタ処理のために、画像処理を使用する、請求項1に記載のデバイス。
- 前記ユーザインターフェースは、複数の選択された発話者のそれぞれに対して、同時に並行して選択的聴取モードで動作する、請求項1に記載のデバイス。
- 前記インターフェースは、並行して、両方の聴取モードで動作するように適合され、それによって、前記インターフェースは、前記広域聴取モードにおいて部屋内の任意のユーザから発話入力を受け入れ、同時に、前記選択的聴取モードにおいて1人のみの選択された発話者から発話入力を受け入れる、請求項1に記載のデバイス。
- 自動発話認識(ASR)システムを動作させるために、非一過性コンピュータ読み取り可能な媒体にエンコードされたコンピュータプログラム製品であって、前記製品は、マルチモード音声制御式ユーザインターフェースを介して、1人以上の可能性として考えられる発話者と音声対話を行なうためのプログラムコードを備え、前記マルチモード音声制御式ユーザインターフェースは、
a.広域聴取モードにおいて、空間フィルタ処理を伴わずに、前記可能性として考えられる発話者からの発話入力を受け入れることと、
b.選択的聴取モードにおいて、空間フィルタ処理を使用して、発話入力を特定の発話者に限定することと
を行うように適合され、前記ユーザインターフェースは、1つ以上の切替キューに応答して、聴取モードを切り替える、製品。 - 自動発話認識(ASR)のためのデバイスであって、前記デバイスは、
少なくとも1つのハードウェア実装コンピュータプロセッサを採用している音声制御式ユーザインターフェースであって、前記ユーザインターフェースは、1人以上の可能性として考えられる発話者と音声対話を行なうように適合されている、ユーザインターフェースと、
1人のみの特定の発話者からの発話入力に応答するように、前記可能性として考えられる発話者の画像処理に基づいた空間フィルタ処理を使用して、前記ユーザインターフェースを限定するために、前記ユーザインターフェースと通信しているユーザ選択モジュールと
を備える、デバイス。 - 前記空間フィルタ処理は、複数のマイクロホンの選択的ビームフォーミングにさらに基づいている、請求項11に記載のデバイス。
- 前記ユーザインターフェースは、前記特定の発話者の方向を示すために、視覚フィードバックを提供するようにさらに適合されている、請求項11に記載のデバイス。
- 前記ユーザインターフェースは、前記特定の発話者の識別を示すために、視覚フィードバックを提供するようにさらに適合されている、請求項11に記載のデバイス。
- 前記画像処理は、前記可能性として考えられる発話者の視覚画像のジェスチャ認識を行なうことを含む、請求項11に記載のデバイス。
- 前記画像処理は、前記可能性として考えられる発話者の顔の視覚画像の顔認識を行なうことを含む、請求項11に記載のデバイス。
- 自動発話認識(ASR)システムを動作させるために、非一過性コンピュータ読み取り可能な媒体にエンコードされたコンピュータプログラム製品であって、前記製品は、
1人以上の可能性として考えられる発話者と音声対話を行なうように適合された音声制御式ユーザインターフェースのためのプログラムコードと、
1人のみの特定の発話者からの発話入力に応答するように、前記可能性として考えられる発話者の画像処理に基づいた空間フィルタ処理を使用して、前記ユーザインターフェースを限定するために、前記ユーザインターフェースと通信しているユーザ選択モジュールのためのプログラムコードと
を備える、製品。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/US2012/029359 WO2013137900A1 (en) | 2012-03-16 | 2012-03-16 | User dedicated automatic speech recognition |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2015513704A true JP2015513704A (ja) | 2015-05-14 |
Family
ID=45888502
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015500412A Pending JP2015513704A (ja) | 2012-03-16 | 2012-03-16 | ユーザ専用自動発話認識 |
Country Status (6)
Country | Link |
---|---|
US (2) | US20150046157A1 (ja) |
EP (1) | EP2817801B1 (ja) |
JP (1) | JP2015513704A (ja) |
KR (1) | KR101641448B1 (ja) |
CN (1) | CN104488025A (ja) |
WO (1) | WO2013137900A1 (ja) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017144521A (ja) * | 2016-02-18 | 2017-08-24 | ソニー株式会社 | 情報処理装置、情報処理方法、及びプログラム |
JP2018180523A (ja) * | 2017-04-12 | 2018-11-15 | サウンドハウンド,インコーポレイテッド | マン・マシン・ダイアログにおけるエージェント係属の管理 |
JP2018206385A (ja) * | 2017-06-02 | 2018-12-27 | ネイバー コーポレーションNAVER Corporation | ユーザの位置及び空間に適した情報を能動的に提供する方法及び装置 |
WO2019187371A1 (ja) * | 2018-03-29 | 2019-10-03 | パナソニックIpマネジメント株式会社 | 音声処理装置、音声処理方法および音声処理システム |
JP2020515901A (ja) * | 2017-03-31 | 2020-05-28 | ボーズ・コーポレーションBose Corporation | ボイスアクティビティ検出に基づく音声の指向性捕捉 |
JP2021033140A (ja) * | 2019-08-27 | 2021-03-01 | 富士通クライアントコンピューティング株式会社 | 情報処理装置およびプログラム |
JP2021135363A (ja) * | 2020-02-26 | 2021-09-13 | 株式会社サイバーエージェント | 制御システム、制御装置、制御方法及びコンピュータプログラム |
Families Citing this family (54)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2817801B1 (en) | 2012-03-16 | 2017-02-22 | Nuance Communications, Inc. | User dedicated automatic speech recognition |
US9286898B2 (en) * | 2012-11-14 | 2016-03-15 | Qualcomm Incorporated | Methods and apparatuses for providing tangible control of sound |
US9689960B1 (en) | 2013-04-04 | 2017-06-27 | Amazon Technologies, Inc. | Beam rejection in multi-beam microphone systems |
US9711166B2 (en) | 2013-05-23 | 2017-07-18 | Knowles Electronics, Llc | Decimation synchronization in a microphone |
US9712923B2 (en) | 2013-05-23 | 2017-07-18 | Knowles Electronics, Llc | VAD detection microphone and method of operating the same |
US10020008B2 (en) | 2013-05-23 | 2018-07-10 | Knowles Electronics, Llc | Microphone and corresponding digital interface |
US9502028B2 (en) | 2013-10-18 | 2016-11-22 | Knowles Electronics, Llc | Acoustic activity detection apparatus and method |
US9147397B2 (en) | 2013-10-29 | 2015-09-29 | Knowles Electronics, Llc | VAD detection apparatus and method of operating the same |
US9697828B1 (en) * | 2014-06-20 | 2017-07-04 | Amazon Technologies, Inc. | Keyword detection modeling using contextual and environmental information |
US9830080B2 (en) | 2015-01-21 | 2017-11-28 | Knowles Electronics, Llc | Low power voice trigger for acoustic apparatus and method |
US10121472B2 (en) | 2015-02-13 | 2018-11-06 | Knowles Electronics, Llc | Audio buffer catch-up apparatus and method with two microphones |
JP6678315B2 (ja) * | 2015-04-24 | 2020-04-08 | パナソニックIpマネジメント株式会社 | 音声再生方法、音声対話装置及び音声対話プログラム |
JP2016218852A (ja) * | 2015-05-22 | 2016-12-22 | ソニー株式会社 | 情報処理装置および情報処理方法、並びにプログラム |
US9478234B1 (en) | 2015-07-13 | 2016-10-25 | Knowles Electronics, Llc | Microphone apparatus and method with catch-up buffer |
US9875081B2 (en) * | 2015-09-21 | 2018-01-23 | Amazon Technologies, Inc. | Device selection for providing a response |
US9826599B2 (en) * | 2015-12-28 | 2017-11-21 | Amazon Technologies, Inc. | Voice-controlled light switches |
EP3414759B1 (en) | 2016-02-10 | 2020-07-01 | Cerence Operating Company | Techniques for spatially selective wake-up word recognition and related systems and methods |
US9886954B1 (en) | 2016-09-30 | 2018-02-06 | Doppler Labs, Inc. | Context aware hearing optimization engine |
EP3535751A4 (en) | 2016-11-10 | 2020-05-20 | Nuance Communications, Inc. | Techniques for language independent wake-up word detection |
US20180166073A1 (en) * | 2016-12-13 | 2018-06-14 | Ford Global Technologies, Llc | Speech Recognition Without Interrupting The Playback Audio |
KR20180085931A (ko) | 2017-01-20 | 2018-07-30 | 삼성전자주식회사 | 음성 입력 처리 방법 및 이를 지원하는 전자 장치 |
CN106782585B (zh) * | 2017-01-26 | 2020-03-20 | 芋头科技(杭州)有限公司 | 一种基于麦克风阵列的拾音方法及系统 |
US10468022B2 (en) * | 2017-04-03 | 2019-11-05 | Motorola Mobility Llc | Multi mode voice assistant for the hearing disabled |
US10546655B2 (en) | 2017-08-10 | 2020-01-28 | Nuance Communications, Inc. | Automated clinical documentation system and method |
US11316865B2 (en) | 2017-08-10 | 2022-04-26 | Nuance Communications, Inc. | Ambient cooperative intelligence system and method |
US10304475B1 (en) * | 2017-08-14 | 2019-05-28 | Amazon Technologies, Inc. | Trigger word based beam selection |
US10482904B1 (en) | 2017-08-15 | 2019-11-19 | Amazon Technologies, Inc. | Context driven device arbitration |
US11062702B2 (en) | 2017-08-28 | 2021-07-13 | Roku, Inc. | Media system with multiple digital assistants |
US11062710B2 (en) | 2017-08-28 | 2021-07-13 | Roku, Inc. | Local and cloud speech recognition |
US20200090663A1 (en) * | 2017-11-07 | 2020-03-19 | Sony Corporation | Information processing apparatus and electronic device |
US10157611B1 (en) | 2017-11-29 | 2018-12-18 | Nuance Communications, Inc. | System and method for speech enhancement in multisource environments |
US10482878B2 (en) | 2017-11-29 | 2019-11-19 | Nuance Communications, Inc. | System and method for speech enhancement in multisource environments |
WO2019118089A1 (en) | 2017-12-11 | 2019-06-20 | Analog Devices, Inc. | Multi-modal far field user interfaces and vision-assisted audio processing |
US11145298B2 (en) | 2018-02-13 | 2021-10-12 | Roku, Inc. | Trigger word detection with multiple digital assistants |
US20190272902A1 (en) | 2018-03-05 | 2019-09-05 | Nuance Communications, Inc. | System and method for review of automated clinical documentation |
US11515020B2 (en) | 2018-03-05 | 2022-11-29 | Nuance Communications, Inc. | Automated clinical documentation system and method |
US11250382B2 (en) | 2018-03-05 | 2022-02-15 | Nuance Communications, Inc. | Automated clinical documentation system and method |
CN109272989B (zh) * | 2018-08-29 | 2021-08-10 | 北京京东尚科信息技术有限公司 | 语音唤醒方法、装置和计算机可读存储介质 |
US11217254B2 (en) * | 2018-12-24 | 2022-01-04 | Google Llc | Targeted voice separation by speaker conditioned on spectrogram masking |
CN109725725B (zh) * | 2018-12-29 | 2022-08-12 | 出门问问信息科技有限公司 | 智能交互终端、以及智能交互终端的信息处理方法 |
CN110148406B (zh) * | 2019-04-12 | 2022-03-04 | 北京搜狗科技发展有限公司 | 一种数据处理方法和装置、一种用于数据处理的装置 |
US20200349933A1 (en) | 2019-04-30 | 2020-11-05 | Nuance Communications, Inc. | Speech Dialog System Aware of Ongoing Conversations |
US11367437B2 (en) * | 2019-05-30 | 2022-06-21 | Nuance Communications, Inc. | Multi-microphone speech dialog system for multiple spatial zones |
US11216480B2 (en) | 2019-06-14 | 2022-01-04 | Nuance Communications, Inc. | System and method for querying data points from graph data structures |
US11227679B2 (en) | 2019-06-14 | 2022-01-18 | Nuance Communications, Inc. | Ambient clinical intelligence system and method |
US11043207B2 (en) | 2019-06-14 | 2021-06-22 | Nuance Communications, Inc. | System and method for array data simulation and customized acoustic modeling for ambient ASR |
US11531807B2 (en) | 2019-06-28 | 2022-12-20 | Nuance Communications, Inc. | System and method for customized text macros |
US11670408B2 (en) | 2019-09-30 | 2023-06-06 | Nuance Communications, Inc. | System and method for review of automated clinical documentation |
CN114365216A (zh) | 2019-10-10 | 2022-04-15 | 谷歌有限责任公司 | 按讲话者进行语音识别的目标话音分离 |
CN110797043B (zh) * | 2019-11-13 | 2022-04-12 | 思必驰科技股份有限公司 | 会议语音实时转写方法及系统 |
KR20210087249A (ko) * | 2020-01-02 | 2021-07-12 | 엘지전자 주식회사 | 촬영장치 및 그 제어방법 |
US11222103B1 (en) | 2020-10-29 | 2022-01-11 | Nuance Communications, Inc. | Ambient cooperative intelligence system and method |
WO2022260655A1 (en) * | 2021-06-08 | 2022-12-15 | Hewlett-Packard Development Company, L.P. | Gestures for switching audio endpoints |
US20230197097A1 (en) * | 2021-12-16 | 2023-06-22 | Mediatek Inc. | Sound enhancement method and related communication apparatus |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004109361A (ja) * | 2002-09-17 | 2004-04-08 | Toshiba Corp | 指向性設定装置、指向性設定方法及び指向性設定プログラム |
JP2004515982A (ja) * | 2000-12-05 | 2004-05-27 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | テレビ会議及び他の適用においてイベントを予測する方法及び装置 |
JP2004184803A (ja) * | 2002-12-05 | 2004-07-02 | Nissan Motor Co Ltd | 車両用音声認識装置 |
JP2006504130A (ja) * | 2002-10-23 | 2006-02-02 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 音声に基づく装置制御 |
EP2028062A2 (en) * | 2007-08-23 | 2009-02-25 | Delphi Technologies, Inc. | System and method for optimizing speech recognition in a vehicle |
JP2011061461A (ja) * | 2009-09-09 | 2011-03-24 | Sony Corp | 撮像装置、指向性制御方法及びそのプログラム |
Family Cites Families (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6850252B1 (en) * | 1999-10-05 | 2005-02-01 | Steven M. Hoffberg | Intelligent electronic appliance system and method |
US6125341A (en) * | 1997-12-19 | 2000-09-26 | Nortel Networks Corporation | Speech recognition system and method |
US6556970B1 (en) * | 1999-01-28 | 2003-04-29 | Denso Corporation | Apparatus for determining appropriate series of words carrying information to be recognized |
US7904187B2 (en) * | 1999-02-01 | 2011-03-08 | Hoffberg Steven M | Internet appliance system and method |
CN1177312C (zh) * | 2000-09-13 | 2004-11-24 | 中国科学院自动化研究所 | 多种语音工作模式的统一识别方法 |
JP2003114699A (ja) * | 2001-10-03 | 2003-04-18 | Auto Network Gijutsu Kenkyusho:Kk | 車載音声認識システム |
AU2003240193A1 (en) * | 2002-06-17 | 2003-12-31 | Koninklijke Philips Electronics N.V. | Controlling an apparatus based on speech |
JP4267385B2 (ja) * | 2003-06-30 | 2009-05-27 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 統計的言語モデル生成装置、音声認識装置、統計的言語モデル生成方法、音声認識方法、およびプログラム |
US7190775B2 (en) * | 2003-10-29 | 2007-03-13 | Broadcom Corporation | High quality audio conferencing with adaptive beamforming |
US7355508B2 (en) * | 2004-05-21 | 2008-04-08 | International Electronic Machines Corp. | System and method for monitoring an area |
DE602005008005D1 (de) * | 2005-02-23 | 2008-08-21 | Harman Becker Automotive Sys | Spracherkennungssytem in einem Kraftfahrzeug |
US7620549B2 (en) * | 2005-08-10 | 2009-11-17 | Voicebox Technologies, Inc. | System and method of supporting adaptive misrecognition in conversational speech |
JP4225430B2 (ja) * | 2005-08-11 | 2009-02-18 | 旭化成株式会社 | 音源分離装置、音声認識装置、携帯電話機、音源分離方法、及び、プログラム |
WO2007034392A2 (en) * | 2005-09-21 | 2007-03-29 | Koninklijke Philips Electronics N.V. | Ultrasound imaging system with voice activated controls using remotely positioned microphone |
JP2007318438A (ja) * | 2006-05-25 | 2007-12-06 | Yamaha Corp | 音声状況データ生成装置、音声状況可視化装置、音声状況データ編集装置、音声データ再生装置、および音声通信システム |
US8019050B2 (en) * | 2007-01-03 | 2011-09-13 | Motorola Solutions, Inc. | Method and apparatus for providing feedback of vocal quality to a user |
JP4877112B2 (ja) * | 2007-07-12 | 2012-02-15 | ヤマハ株式会社 | 音声処理装置およびプログラム |
US8218033B2 (en) * | 2007-09-10 | 2012-07-10 | Sanyo Electric Co., Ltd. | Sound corrector, sound recording device, sound reproducing device, and sound correcting method |
US8175291B2 (en) * | 2007-12-19 | 2012-05-08 | Qualcomm Incorporated | Systems, methods, and apparatus for multi-microphone based speech enhancement |
US8099289B2 (en) * | 2008-02-13 | 2012-01-17 | Sensory, Inc. | Voice interface and search for electronic devices including bluetooth headsets and remote systems |
EP2222091B1 (en) * | 2009-02-23 | 2013-04-24 | Nuance Communications, Inc. | Method for determining a set of filter coefficients for an acoustic echo compensation means |
US20100217590A1 (en) * | 2009-02-24 | 2010-08-26 | Broadcom Corporation | Speaker localization system and method |
US8340654B2 (en) * | 2009-05-26 | 2012-12-25 | Lextech Labs Llc | Apparatus and method for video display and control for portable device |
US8649533B2 (en) * | 2009-10-02 | 2014-02-11 | Ford Global Technologies, Llc | Emotive advisory system acoustic environment |
US9197736B2 (en) * | 2009-12-31 | 2015-11-24 | Digimarc Corporation | Intuitive computing methods and systems |
US8660355B2 (en) * | 2010-03-19 | 2014-02-25 | Digimarc Corporation | Methods and systems for determining image processing operations relevant to particular imagery |
CN102237086A (zh) * | 2010-04-28 | 2011-11-09 | 三星电子株式会社 | 用于语音识别设备的补偿装置和方法 |
US8700392B1 (en) * | 2010-09-10 | 2014-04-15 | Amazon Technologies, Inc. | Speech-inclusive device interfaces |
US8818800B2 (en) * | 2011-07-29 | 2014-08-26 | 2236008 Ontario Inc. | Off-axis audio suppressions in an automobile cabin |
US8660847B2 (en) * | 2011-09-02 | 2014-02-25 | Microsoft Corporation | Integrated local and cloud based speech recognition |
EP2817801B1 (en) | 2012-03-16 | 2017-02-22 | Nuance Communications, Inc. | User dedicated automatic speech recognition |
-
2012
- 2012-03-16 EP EP12710851.2A patent/EP2817801B1/en active Active
- 2012-03-16 JP JP2015500412A patent/JP2015513704A/ja active Pending
- 2012-03-16 CN CN201280071506.0A patent/CN104488025A/zh active Pending
- 2012-03-16 US US14/382,839 patent/US20150046157A1/en not_active Abandoned
- 2012-03-16 KR KR1020147025374A patent/KR101641448B1/ko not_active Expired - Fee Related
- 2012-03-16 WO PCT/US2012/029359 patent/WO2013137900A1/en active Application Filing
-
2018
- 2018-01-22 US US15/876,545 patent/US10789950B2/en not_active Expired - Fee Related
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004515982A (ja) * | 2000-12-05 | 2004-05-27 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | テレビ会議及び他の適用においてイベントを予測する方法及び装置 |
JP2004109361A (ja) * | 2002-09-17 | 2004-04-08 | Toshiba Corp | 指向性設定装置、指向性設定方法及び指向性設定プログラム |
JP2006504130A (ja) * | 2002-10-23 | 2006-02-02 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 音声に基づく装置制御 |
JP2004184803A (ja) * | 2002-12-05 | 2004-07-02 | Nissan Motor Co Ltd | 車両用音声認識装置 |
EP2028062A2 (en) * | 2007-08-23 | 2009-02-25 | Delphi Technologies, Inc. | System and method for optimizing speech recognition in a vehicle |
JP2011061461A (ja) * | 2009-09-09 | 2011-03-24 | Sony Corp | 撮像装置、指向性制御方法及びそのプログラム |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11237794B2 (en) | 2016-02-18 | 2022-02-01 | Sony Corporation | Information processing device and information processing method |
WO2017141530A1 (ja) * | 2016-02-18 | 2017-08-24 | ソニー株式会社 | 情報処理装置、情報処理方法、及びプログラム |
JP2017144521A (ja) * | 2016-02-18 | 2017-08-24 | ソニー株式会社 | 情報処理装置、情報処理方法、及びプログラム |
JP2020515901A (ja) * | 2017-03-31 | 2020-05-28 | ボーズ・コーポレーションBose Corporation | ボイスアクティビティ検出に基づく音声の指向性捕捉 |
JP2018180523A (ja) * | 2017-04-12 | 2018-11-15 | サウンドハウンド,インコーポレイテッド | マン・マシン・ダイアログにおけるエージェント係属の管理 |
US12125484B2 (en) | 2017-04-12 | 2024-10-22 | Soundhound Ai Ip, Llc | Controlling an engagement state of an agent during a human-machine dialog |
US11250844B2 (en) | 2017-04-12 | 2022-02-15 | Soundhound, Inc. | Managing agent engagement in a man-machine dialog |
JP2018206385A (ja) * | 2017-06-02 | 2018-12-27 | ネイバー コーポレーションNAVER Corporation | ユーザの位置及び空間に適した情報を能動的に提供する方法及び装置 |
JP7186375B2 (ja) | 2018-03-29 | 2022-12-09 | パナソニックIpマネジメント株式会社 | 音声処理装置、音声処理方法および音声処理システム |
JP2019174778A (ja) * | 2018-03-29 | 2019-10-10 | パナソニックIpマネジメント株式会社 | 音声処理装置、音声処理方法および音声処理システム |
JP2023011945A (ja) * | 2018-03-29 | 2023-01-24 | パナソニックIpマネジメント株式会社 | 音声処理装置、音声処理方法および音声処理システム |
US11804220B2 (en) | 2018-03-29 | 2023-10-31 | Panasonic Intellectual Property Management Co., Ltd. | Voice processing device, voice processing method and voice processing system |
JP7458013B2 (ja) | 2018-03-29 | 2024-03-29 | パナソニックIpマネジメント株式会社 | 音声処理装置、音声処理方法および音声処理システム |
US12118990B2 (en) | 2018-03-29 | 2024-10-15 | Panasonic Intellectual Property Management Co., Ltd. | Voice processing device, voice processing method and voice processing system |
WO2019187371A1 (ja) * | 2018-03-29 | 2019-10-03 | パナソニックIpマネジメント株式会社 | 音声処理装置、音声処理方法および音声処理システム |
CN112509571A (zh) * | 2019-08-27 | 2021-03-16 | 富士通个人电脑株式会社 | 信息处理装置和记录介质 |
JP2021033140A (ja) * | 2019-08-27 | 2021-03-01 | 富士通クライアントコンピューティング株式会社 | 情報処理装置およびプログラム |
JP2021135363A (ja) * | 2020-02-26 | 2021-09-13 | 株式会社サイバーエージェント | 制御システム、制御装置、制御方法及びコンピュータプログラム |
Also Published As
Publication number | Publication date |
---|---|
US20150046157A1 (en) | 2015-02-12 |
EP2817801A1 (en) | 2014-12-31 |
US20180158461A1 (en) | 2018-06-07 |
KR101641448B1 (ko) | 2016-07-20 |
EP2817801B1 (en) | 2017-02-22 |
US10789950B2 (en) | 2020-09-29 |
CN104488025A (zh) | 2015-04-01 |
WO2013137900A1 (en) | 2013-09-19 |
KR20140131956A (ko) | 2014-11-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10789950B2 (en) | User dedicated automatic speech recognition | |
EP2984763B1 (en) | System for automatic speech recognition and audio entertainment | |
CN106462383B (zh) | 具有定向接口的免提装置 | |
US10529360B2 (en) | Speech enhancement method and apparatus for same | |
US9368105B1 (en) | Preventing false wake word detections with a voice-controlled device | |
Okuno et al. | Robot audition: Its rise and perspectives | |
US9293134B1 (en) | Source-specific speech interactions | |
WO2018013564A1 (en) | Combining gesture and voice user interfaces | |
US9916832B2 (en) | Using combined audio and vision-based cues for voice command-and-control | |
US20180090138A1 (en) | System and method for localization and acoustic voice interface | |
CN107808665B (zh) | 用于处理口头话语流的方法、系统和存储介质 | |
CN105793923A (zh) | 本地和远程语音处理 | |
US9792901B1 (en) | Multiple-source speech dialog input | |
AU2022201037B2 (en) | Providing audio information with a digital assistant | |
JP2007329702A (ja) | 受音装置と音声認識装置とそれらを搭載している可動体 | |
JP2009166184A (ja) | ガイドロボット | |
WO2024137112A1 (en) | Speaker-specific speech filtering for multiple users | |
JP2007168972A (ja) | エレベータ制御装置 | |
US20240212669A1 (en) | Speech filter for speech processing | |
KR20230006339A (ko) | 운전자의 음성과 입술을 인식하여 명령을 처리하는 장치 및 방법 | |
CN119493074A (zh) | 朝向确定方法及相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20150907 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150911 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20151208 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20160526 |