[go: up one dir, main page]

JP5928606B2 - 搭乗者の聴覚視覚入力の乗り物ベースの決定 - Google Patents

搭乗者の聴覚視覚入力の乗り物ベースの決定 Download PDF

Info

Publication number
JP5928606B2
JP5928606B2 JP2014547665A JP2014547665A JP5928606B2 JP 5928606 B2 JP5928606 B2 JP 5928606B2 JP 2014547665 A JP2014547665 A JP 2014547665A JP 2014547665 A JP2014547665 A JP 2014547665A JP 5928606 B2 JP5928606 B2 JP 5928606B2
Authority
JP
Japan
Prior art keywords
vehicle
passengers
received
associate
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014547665A
Other languages
English (en)
Other versions
JP2015507219A (ja
Inventor
ワン、ペン
ジャン、イミン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Intel Corp
Original Assignee
Intel Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Intel Corp filed Critical Intel Corp
Publication of JP2015507219A publication Critical patent/JP2015507219A/ja
Application granted granted Critical
Publication of JP5928606B2 publication Critical patent/JP5928606B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • User Interface Of Digital Computer (AREA)
  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)

Description

音声コントロール・システムは、しばしば、オフライン・トレーニングおよびオンライン認識を伴う統計学ベースのアルゴリズムに従う。産学両方において、話者認識(たとえば、誰が話しているのか)および発話認識(たとえば、何が話されているのか)は、2つの活発なトピックになっている。音声認識は、通常、話者認識および発話認識の組み合わせとして理解されている。音声認識は、何が話されているのかの決定に話者の音声の学習済みの態様を使用できる。たとえば、いくつかの音声認識システムは、ランダムな話者の発話をあまり正確に認識できないが、その音声認識システムがトレーニング済みの個人の音声に対しては高い正確度を達成できる。
ここ数十年、アカデミアでは視聴覚発話認識が研究されてきた。一般的な視聴覚発話認識は、顔検出、追跡;顔特徴の場所;視覚的発話のための顔特徴表現;発話の聴覚と視覚の表現の融合からなる。
車載インフォテインメント(IVI)システムのための既存の発話コントロール・システム(たとえば、オンスター(OnStar)、シンク(SYNC)、ニュアンス(Nuance))は、通常、発話認識のための音響信号処理テクニックを頼る。車載インフォテインメントのための既存の発話コントロール・システムは、音声認識のための視覚信号処理テクニックを導入していない。
この中で述べられている資料は、例のために図解されたものであって、添付図面内への限定のためではない。図解の簡単明瞭のために図面内に図解された要素は、必ずしも縮尺どおりではない。たとえば、いくつかの要素の寸法は、明瞭のため、ほかの要素に対して誇張されていることがある。さらに、適切と考えられるところでは、いくつかの図の間において対応する要素または類似の要素を示すべく参照ラベルが反復されている。図面は以下のとおりであり、すべて、この開示の少なくともいくつかの実装に従って準備された。
一例の車載インフォテインメント(IVI)システムの図解的な説明図である。 一例の音声認識プロセスを図解したフローチャートである。 動作中の一例の車載インフォテインメント(IVI)の図解的な説明図である。 口唇追跡の間におけるいくつかの画像処理例を図解した説明図である。 一例のシステムの図解的な説明図である。 一例のシステムの図解的な説明図である。
以下、添付図面を参照して1つまたは複数の実施態様または実装を説明する。特定の構成およびアレンジメントが論じられているが、図解説明の目的のためにのみこれが行われていることを理解する必要がある。関連分野の当業者は、この記述の精神ならびに範囲から逸脱することなく、そのほかの構成およびアレンジメントが採用され得ることを認識することになるであろう。関連分野の当業者には、この中に述べられているテクニックおよび/またはアレンジメントもまた、ほかの多様な、この中に述べられている以外のシステムおよび応用に採用され得ることが明らかであろう。
以下の説明は、たとえばシステムオンチップ(SOC)アーキテクチャ等のアーキテクチャ内において明らかにできる多様な実装を示しているが、この中に述べられているテクニックおよび/またはアレンジメントの実装は、特定のアーキテクチャおよび/またはコンピューティング・システムに限定されることはなく、類似する目的のために任意のアーキテクチャおよび/またはコンピューティング・システムによって実装され得る。例を挙げれば、この中に述べられているテクニックおよび/またはアレンジメントを、たとえば複数の集積回路(IC)チップおよび/またはパッケージを採用している多様なアーキテクチャ、および/または多様なコンピューティング・デバイス、および/またはセットトップ・ボックス、スマートフォン等の消費者エレクトロニクス(CE)デバイスにより実装することができる。さらに、以下の記述においては、論理実装、システム構成要素のタイプおよび相互関係、論理的分割/統合の選択肢等の多くの特定の詳細が示されているが、請求されている発明の要旨は、その種の特定の詳細を伴うことなく実施できる。そのほかの場合において、たとえば、コントロール構造および完全なソフトウエア・インストラクション・シーケンス等のある種の資料については、この中に開示されている資料を不明瞭化させないためにも詳細に示されていない。
この中に開示されている資料は、ハードウエア、ファームウエア、ソフトウエア、またはこれらの任意の組み合わせにおいて実装することができる。この中に開示されている資料は、1つまたは複数のプロセッサによって読み出しおよび実行がなされ得るマシン可読媒体上にストアされたインストラクションとしても実装できる。マシン可読媒体は、マシン(たとえば、コンピューティング・デバイス)によって読み出し可能な形式での情報のストアまたは送信のための任意の媒体および/またはメカニズムを含むことができる。たとえば、マシン可読媒体は、読み出し専用メモリ(ROM)、ランダム・アクセス・メモリ(RAM)、磁気ディスク・ストレージ媒体、光学ストレージ媒体、フラッシュ・メモリ・デバイス、電気的、光学的、音響的、またはそのほかの伝播信号の形式(たとえば、搬送波、赤外線信号、デジタル信号等)、およびそのほかを含むことができる。
この明細書内において『1つの実装』、『(単に)実装』、『一例の実装』等々と言うときは、そこに述べられている実装が特定の特徴、構造、または特性を含むことができるが、すべての実装が必ずしも特定の特徴、構造、または特性を含まないことがある。さらにまた、その種の言いまわしが同一の実装を参照している必要はない。さらに、特定の特徴、構造、または特性が実装に関連して述べられるとき、この中で明示的に述べられているか否かによらず、ほかの実装に関連してその種の特徴、構造、または特性がもたらされることは当業者の知識内であることに従う。
以下においては、乗り物の1人または複数人の搭乗者から聴覚データおよび視覚データを受け取る動作を含むシステム、装置、物品、および方法を述べる。乗り物の1人または複数人の搭乗者のうちの誰と受け取った聴覚データとを関連付けするべきかに関係する決定は、受け取った視覚データに少なくとも部分的に基づいて行うことができる。いくつかの例においては、車載インフォテインメント(IVI)システム内のインテリジェント音声コントロールのために口唇検出および追跡を実装できる。
いくつかのIVIシステムは、少数のあらかじめ定義済みの語彙に基づいて発話ベースの認識コントロールを遂行できる。車載発話認識システムは、しばしば難題を抱えている。たとえば車載発話認識システムは、5から20デシベルの範囲内の信号対ノイズ比を伴うノイズの多い環境をしばしば有する。それに加えて車載発話認識システムは、しばしば話者から30から100センチメートルに搭載された低価格のマイクロフォンも有する。
より自然なユーザ・インターフェースは、より自然かつ/またはより堅牢な言語処理テクノロジを利用することになるであろう。たとえば、いくつかの例の実装においては、IVIシステムが話者の視覚データを抽出してノイズに対して堅牢な音声認識システムを強化することができる。たとえば、複数人のユーザが音声命令(Voice Command)を発するときは、いずれの話者が発話しているかをIVIシステムが見分けてユーザ固有の発話認識機械を適応させることが有用となり得る。同様に、運転者が音声命令を発しているときは、ラジオの音量を自動的に下げて背景ノイズをより小さくすることが有用となり得る。
より詳細を以下に述べるとおり、いくつかの例の実装は、話者認識(たとえば、話者の変化の検出)のため、および適応型ユーザ固有音声認識のために口唇検出および追跡を使用することができる。その種の視聴覚音声認識システムにおいては、口唇読み取りが口唇輪郭検出および/または追跡の正確度を頼ることができる。同様に、正確な口唇検出もまた、顔検出の堅牢性を頼ることができる。
この中で使用されるとき、用語『話者認識』は、誰が話をしているかを認識することとし得る。この中で使用されるとき、用語『発話認識』は、何が話されているかを認識することとし得る。この中で使用されるとき、用語『音声認識』は、誰が話をしているかを認識することに少なくとも部分的に基づいて何が話されているかを認識すること、または言い換えると、話者認識と発話認識の組み合わせとすることができる。視聴覚音声コントロールは、概して演算負荷が高いが、発話認識単独より高い認識正確度を提供できることがある。
図1は、この開示の少なくともいくつかの実装に従ってアレンジされた一例の車載インフォテインメント(IVI)システム100の図解的な説明図である。図解されている実装においては、IVIシステム100が、撮像デバイス104およびマイクロフォン・デバイス106を含むことができる。IVIシステム100は、乗り物108と動作的に関連付けすることができる。たとえば、IVIシステム100を乗り物108内に配置することができる。いくつかの例においては、IVIシステム100が、明瞭のため図1には示されていない追加のアイテムを含むことができる。たとえばIVIシステム100は、プロセッサ、無線周波数タイプ(RF)のトランシーバ、および/またはアンテナを含むことができる。さらにIVIシステム100は、明瞭のため図1には示されていないスピーカ、ディスプレイ、加速度計、メモリ、ルータ、ネットワーク・インターフェース論理等々といった追加のアイテムを含むことができる。
この中で使用されるとき、用語『車載インフォテインメント』は、乗り物内に配置されるシステムであって、エンターテインメントおよび/または情報サービスを遂行するべく構成されたシステムを指すことができる。いくつかの例においては車載インフォテインメントが、ターン・バイ・ターン方式ナビゲーション、ハンズフリー電話、乗り物診断、救急サービス、911(警察消防)補助、音楽サーチ、可聴テキスト・メッセージ、商業施設サーチ、関心ポイントのウェブ・サーチ、音声入力テキスト・メッセージ、ワイヤレス充電、遠隔監視等、および/またはこれらの組み合わせを指すことができる。上記の応用の中でも、ここで論じている音声認識テクニックを利用できるいくぶんより特定的なユーザ・インターフェース特徴の例は、スマートフォン・アプリケーションの音声コントロール、音声アクティベートされたナビゲーションシステム、音声コントロールおよびタッチスクリーン・アクセスの組み合わせ、音声命令、ブルートゥース(Bluetooth)(登録商標)ベースの音声通信アプリケーション、音声ベースのフェースブック(Facebook)(登録商標)アプリケーション、運転中の音声ベースのテキスト・メッセージング、インタラクティブ音声応答等、および/またはこれらの組み合わせを含むことができる。
撮像デバイス104は、乗り物108の1人または複数人の搭乗者110から視覚データを取り込むべく構成できる。たとえば撮像デバイス104は、運転者112、助手席搭乗者114、1人または複数人の後部座席搭乗者116等、および/またはこれらの組み合わせから視覚データを取り込むべく構成できる。
いくつかの例においては、誰が話をしているかを突き止めるために、赤‐緑‐青(RGB)深度カメラおよび/またはマイクロフォン・アレイを用いることなくカメラ・センサまたはその類(たとえば、相補型金属酸化膜半導体タイプの画像センサ(CMOS)または電荷結合デバイス・タイプの画像センサ(CCD))を介して第1のユーザの視覚データを取り込むことができる。ほかの例においては、カメラ・センサに追加して、またはそれに代えて、RGB深度カメラおよび/またはマイクロフォン・アレイを使用することができる。
しばしば乗り物が制約付きの環境を有することから、通常、搭乗者の活動および挙動は制限される。特に、搭乗者は、通常、着座しており、搭乗者が命令(Command)を発するときには一般にダッシュボードに面している。したがって撮像デバイス104は、リヤビュー・ミラー位置にマウントされるカメラ・センサを含むことができる。その種の例においては、リヤビュー・ミラーにマウントされたカメラ・センサが、乗り物内のすべての搭乗者の眺めを取り込めることがある。
マイクロフォン・デバイス106は、1人または複数人の搭乗者110から聴覚データを取り込むべく構成できる。いくつかの例においては、第1のユーザの視覚データを、誰が話をしているかを突き止めるために、赤‐緑‐青(RGB)深度カメラおよび/またはマイクロフォン・アレイを用いることなく取り込むことができる。ほかの例においては、カメラ・センサに追加して、またはそれに代えて、RGB深度カメラおよび/またはマイクロフォン・アレイを使用することができる。
より詳細を以下において説明するとおり、図2および/または3に関連して以下に説明する多様な機能のいくつかまたはすべての遂行にIVIシステム100を使用できる。たとえばIVIシステム100は、乗り物108の1人または複数人の搭乗者110の聴覚データをマイクロフォン・デバイス106から、および/またはその視覚データを撮像デバイス104から受け取ることができる。受け取った視覚データに少なくとも部分的に基づいて、受け取った聴覚データに関連付けされるのは乗り物108の1人または複数人の搭乗者110のうちの誰であるかに関係する決定を行うことができる。
動作においては、IVIシステム100が、ユーザの口頭入力に対するスマートかつコンテキスト・アウェアな応答を利用できる。聴覚および視覚のデータ入力は、マイクロフォン・デバイス106および撮像デバイス104によってそれぞれ取り込むことができる。聴覚と視覚のデータを組み合わせることによって、IVIシステム100は、乗り物等に伴う制約付きの環境またはそのほかの制約付きの環境内において1人の搭乗者とほかの搭乗者を見分ける能力を持つことができる。したがって、IVIシステム100は、視覚情報処理テクニックをてこ入れすることによって、車載インフォテインメント・システム内におけるスマートかつ堅牢な音声コントロールを遂行する能力を持つことができる。
図2は、この開示の少なくともいくつかの実装に従ってアレンジされた音声認識プロセス200の例を図解したフローチャートである。図解されている実装においては、プロセス200が、ブロック202、204、および/または206のうちの1つまたは複数によって図解されるとおり、1つまたは複数の動作、機能、または作用を含むことができる。非限定的な例として、プロセス300を、図1の例の車載インフォテインメント(IVI)システム100を参照して説明する。
プロセス200は、聴覚データを受け取ることができるブロック202の『聴覚データを受け取る』において開始できる。たとえば、受け取られた聴覚データは、乗り物の1人または複数人の搭乗者からの発話入力を含むことができる。
プロセスは、動作202から、視覚データを受け取ることができる動作204の『視覚データを受け取る』へ続くことができる。たとえば、受け取られた視覚データは、乗り物の1人または複数人の搭乗者のビデオを含むことができる。
プロセスは、動作204から、乗り物の1人または複数人の搭乗者のうちの誰と受け取った聴覚データとを関連付けするべきかを決定できる動作206の『乗り物の1人または複数人の搭乗者のうちの誰と受け取った聴覚データとを関連付けするべきかを決定する』へ続くことができる。たとえば、乗り物の1人または複数人の搭乗者のうちの誰と受け取った聴覚データとを関連付けするべきかは、受け取った視覚データに少なくとも部分的に基づいて決定できる。
動作においては、プロセス200が、ユーザの口頭入力に対するスマートかつコンテキスト・アウェアな応答を利用できる。聴覚と視覚のデータを組み合わせることによって、プロセス200は、乗り物等に伴う制約付きの環境またはそのほかの制約付きの環境内において1人の搭乗者とほかの搭乗者を見分ける能力を持つことができる。したがって、プロセス200は、視覚情報処理テクニックをてこ入れすることによって、車載インフォテインメント・システム内におけるスマートかつ堅牢な音声コントロールを遂行する能力を持つことができる。
プロセス200に関係のあるいくつかの追加の、および/または代替の詳細は、以下において図3に関係してより詳細を論ずる実装の1つまたは複数の例に図解することができる。
図3は、この開示の少なくともいくつかの実装に従ってアレンジされた一例の車載インフォテインメント(IVI)100および音声認識プロセス300の動作の図解的な説明図である。図解されている実装においては、プロセス300が、作用310、311、312、314、316、318、320、322、324、326、および/または328のうちの1つまたは複数によって図解されるとおり、1つまたは複数の動作、機能、または作用を含むことができる。非限定的な例として、プロセス200を、図1の例の車載インフォテインメント(IVI)システム100を参照して説明する。
図解されている実装においては、IVIシステム100が、発話認識モジュール302、顔検出モジュール304、口唇追跡モジュール306、コントロール・システム308、およびこれらの類、および/またはこれらの組み合わせを含むことができる。図解されているとおり、発話認識モジュール302、顔検出モジュール304、および口唇追跡モジュール306は、互いに通信することおよび/またはコントロール・システム308と通信することができる。IVIシステム100は、図3に示されているとおり、それぞれが特定のモジュールに関連付けされた1つの特定セットのブロックまたは作用を含むことができるが、これらのブロックまたは作用は、この中に図解されている特定のモジュールとは異なるモジュールと関連付けすることができる。
プロセス300は、聴覚と視覚の処理テクニックを組み合わせて乗り物内のノイズおよび/または話者適応問題に対処することができる強化された音声コントロール方法を提供できる。乗り物内ノイズは、エンジン、道路、車載エンターテインメントのサウンド等から到来する。運転者または搭乗者がどのような命令を発したかを認識する音響信号処理テクニックのほかに、プロセス300は、顔検出および口唇追跡等の視覚情報処理テクニックも採用できる。その種の視覚情報処理テクニックは、多様なノイズ環境の下における命令認識の堅牢性を向上させる。
プロセス300は、聴覚データを受け取ることができるブロック310の『聴覚データを受け取る』において開始できる。たとえば、発話認識モジュール302を介して聴覚データを受け取ることができる。聴覚データは、乗り物の1人または複数人の搭乗者からの発話入力を含むことができる。
プロセスは、動作310から、発話認識を遂行できる動作311の『発話認識を遂行する』へ続くことができる。たとえば、発話認識モジュール302を介して発話認識を遂行できる。いくつかの例においては、その種の発話認識を、受け取った聴覚データに少なくとも部分的に基づいて遂行できる。
理解すべき重要なことは、聴覚データ・ストリームがめったに清澄でないことである。たとえば聴覚データ・ストリームは、発話データ(たとえば、何が話されたか)だけでなく、背景ノイズも含むことがある。このノイズは、認識プロセスと干渉する可能性があり、発話認識モジュール302は、可聴音の発話がある環境を取り扱うことが(および、それに適応させることさえ)できる。
発話認識モジュール302は、生聴覚入力を取り込み、それをアプリケーションが理解できる認識済みテキストに翻訳するというむしろ複雑なタスクを取り扱わなければならない。いくつかの実装においては発話認識モジュール302が、1つまたは複数の言語文法モデルおよび/または音響モデルを利用して乗り物の搭乗者に入力された聴覚データから認識されたテキストを返すことができる。たとえば、発話認識モジュール302は、発話された聴覚データ入力からテキストへ変換するのに、1つまたは複数の言語文法モデルを利用できる。その種の言語文法モデルは、有効な文法についてわかる単語および語句を考慮に入れるべくあらゆる種類のデータ、統計、および/またはソフトウエア・アルゴリズムを採用することができる。同様に、環境の知識もまた、音響モデルの形式で発話認識モジュール302に提供される。
何が話されたかについて最もありがちな整合を発話認識モジュール302が識別すると、発話認識モジュール302は、何が認識されたかを初期テキスト文字列として返すことができる。発話された聴覚データが適切なフォーマットの初期テキスト文字列になれば、発話認識モジュール302が出力テキスト文字列のための最良整合をサーチできる。発話認識モジュール302は、出力テキスト文字列のための整合を探すことを非常に懸命に試み、非常に寛大となることもあり得る(たとえば、通常、比較的貧弱なクオリティの初期テキスト文字列に基づいて最良推測を提供することがある)。
以下においてより詳細を論ずるとおり、乗り物1人または複数人の搭乗者のうちの誰と受け取った聴覚データとを関連付けするべきかを決定することは、いくつかの動作を含むことができる。図解されている例においては、その種の動作が口唇追跡と併せて顔検出を含むことができる。
プロセスは、動作311から、視覚データを受け取ることができる動作312の『視覚データを受け取る』へ続くことができる。たとえば、顔検出モジュール304を介して視覚データを受け取ることができる。受け取られた視覚データは、乗り物の1人または複数人の搭乗者のビデオを含むことができる。
プロセスは、動作312から、搭乗者の顔を検出できる動作314の『顔検出を遂行する』へ続くことができる。たとえば、乗り物の1人または複数人の搭乗者の顔を、顔検出モジュール304を介し、視覚データに少なくとも部分的に基づいて検出することができる。いくつかの例においては、その種の顔検出を、乗り物の1人または複数人の搭乗者の間を区別するべく構成できる。
いくつかの例においては、顔の検出が、少なくとも部分的にビオラ‐ジョーンズ‐タイプのフレームワークに基づく検出を含むことができる(たとえば、ポール・ビオラ、マイケル・ジョーンズ(Paul Viola, Michael Jones)著『Rapid Object Detection using a Boosted Cascade of Simple Features』CVPR 2001および/またはYangzhou Du, Qiang Liにより『TECHNIQUES FOR FACE DETECTION AND TRACKING』と題されて2010年12月10日に出願されたPCT/CN2010/000997参照)。この種の顔検出テクニックは、相対的な蓄積が顔検出、ランドマーク検出、顔アライメント、笑顔/瞬き/性別/年齢検出、顔認識、2つ又は3つ以上の顔の検出、および/またはこれらの類を含むことを可能にできる。
ビオラ‐ジョーンズ‐タイプのフレームワークは、リアルタイム・オブジェクト検出への1つのアプローチである。トレーニングは比較的遅いかもしれないが、検出は比較的高速となり得る。その種のビオラ‐ジョーンズ‐タイプのフレームワークは、高速特徴評価のために積分画像を、特徴選択のためにブースティングを、非顔ウィンドウの高速排除のための注目カスケードを利用できる。
たとえば、顔検出は、画像にわたってウィンドウをスライドさせ、それぞれの場所において顔モデルを評価することを含むことができる。通常、画像内に顔があることはまれであるが、スライディング・ウィンドウ検出器は、顔検出タスクの間に数万の場所/縮尺の組み合わせを評価できる。計算効率のために、非顔ウィンドウに費やすことができる時間を可能な限り短くすることができる。メガピクセル画像は、約106ピクセルおよびそれに相当する数の候補の顔の場所を有する。各画像内において偽陽性を有することを回避するために、偽陽性レートを10から6より小さくすることができる。
プロセスは、動作314から、口唇追跡を遂行できる動作316の『口唇追跡を遂行する』へ続くことができる。たとえば、口唇追跡モジュール306を介して乗り物の1人または複数人の搭乗者の口唇追跡を遂行できる。いくつかの例においては、口唇追跡を、受け取った視覚データおよび遂行済みの顔検出に少なくとも部分的に基づいて遂行できる。
口唇追跡の1つの実装例に関係する追加の詳細については、以下において図4を参照してより詳細を論ずる。
プロセスは、動作316から、乗り物の1人または複数人の搭乗者の中に話をしている者はいるか否か決定できる動作318の『話をしているか否かを決定する』へ続くことができる。たとえば、口唇追跡モジュール306を介して乗り物の1人または複数人の搭乗者の中に話をしている者はいるか否かを決定できる。いくつかの例においては、乗り物の1人または複数人の搭乗者の中に話をしている者はいるか否かの決定が、少なくとも部分的に口唇追跡に基づくことができる。
プロセスは、動作318から、乗り物オーディオの出力の音量を下げることができる動作320の『音量を下げる』へ続くことができる。たとえば、コントロール・システム308を介して乗り物オーディオの出力の音量を下げることができる。いくつかの例においては、乗り物の1人または複数人の搭乗者の中に話をしている者はいるか否かの決定に少なくとも部分的に基づいて乗り物オーディオの出力の音量を下げることができる。
たとえば、運転中のエンジン・ノイズ、鑑賞中のラジオからの背景音楽による妨害、および/または複数の搭乗者の会話は、しばしば発話認識の正確度を低下させる。聴覚データ自体が音声コントロールの正確度を向上させる補助となり得ないときは、視覚データが、IVIシステム100が乗り物の搭乗者とのインタラクションのための相補的な手がかりとなり得る。いくつかの例においては、乗り物の1人または複数人の搭乗者の中に話をしている者はいるか否かの決定に少なくとも部分的に基づいて乗り物オーディオの出力の音量を下げることができる。
プロセスは、動作320から、乗り物の1人または複数人の搭乗者のうちの誰が話をしているかを決定できる動作322の『誰が話をしているかを決定する』へ続くことができる。たとえば、口唇追跡モジュール306を介して乗り物の1人または複数人の搭乗者のうちの誰が話をしているかを決定できる。いくつかの例においては、乗り物の1人または複数人の搭乗者のうちの誰が話をしているかの決定が、少なくとも部分的に口唇追跡に基づくことができる。
プロセスは、動作322から、乗り物の1人または複数人の搭乗者を個人プロファイルと関連付けすることができる動作324の『話者と個人プロファイルを関連付けする』へ続くことができる。たとえば、コントロール・システム308を介して、乗り物の1人または複数人の搭乗者を個人プロファイルと関連付けすることができる。いくつかの例においては、顔検出に少なくとも部分的に基づいて、かつ搭乗者のうちの誰が話をしているかの決定に少なくとも部分的に基づいて乗り物の1人または複数人の搭乗者を個人プロファイルと関連付けすることができる。
この中で使用されるとき、用語『個人プロファイル』は、個人搭乗者に関係のあるコントロール情報、たとえば搭乗者識別、コントロール・システムについての個人の好み、またはこれらの類を含むことができる。たとえば、コントロール・システム308は、その種の個人が乗り物内にいることを示すデータの受け取り時に、またはその種の個人が発話しているか、または命令(Command)を引き渡したことを示すデータの受け取り時に、その種の個人プロファイルに少なくとも部分的に基づいて命令に応答するか、または設定を先取り的に調整できる。
たとえば、堅牢な顔検出モジュール304を用いてIVIシステム100は、発話している者のアイデンティティを自動的に見分けた後、個人化した設定のIVIシステム100を遂行することが可能である。いくつかの例においては、顔が検出され、認識されると、認識された搭乗者のアイデンティティに少なくとも部分的に基づいてコントロール設定を調整するべくコントロール・システム308を適応させることができる。それに加えて、またはそれに代えて、コントロール・システム308は、顔が検出され、認識されると、認識された搭乗者のアイデンティティに少なくとも部分的に基づいて応答を調整するべく、命令に対して応答を適応させることができる。それに加えて、動作322の誰が話をしているかの決定をコントロール・システム308に伝えることができる。その種の例においては、顔が検出され、認識され、その個人が話をしているとの決定が行われると、認識された搭乗者のアイデンティティに少なくとも部分的に基づいてコントロール・システム308がコントロール設定を調整するべく適応されること、および/または搭乗者の命令に対して応答を調整することができる。
プロセスは、動作324から、音声認識を遂行できる動作326の『音声認識を遂行する』へ続くことができる。たとえば、発話認識モジュール302を介して音声認識を遂行できる。いくつかの例においては、音声認識が、遂行された発話認識および乗り物の1人または複数人の搭乗者のうちの誰と受け取った聴覚データとが関連付けされるかの決定に少なくとも部分的に基づくことができる。
いくつかの例においては、その種の音声認識を、動作311の発話認識の修正として遂行できる。それに代えて、その種の音声認識を独立して、または動作311の発話認識の置換として遂行できる。
いくつかの例においては、顔が検出され、認識されると、認識された搭乗者のアイデンティティに少なくとも部分的に基づいて特定の話者モデルに対して発話認識モジュール302を適応させることができる。たとえば、発話認識モジュール302を適応させて多様な入力に対して調整することができる(たとえば、運転者等の特定の搭乗者および/または少数の搭乗者のために先行してオフラインでトレーニングされる特定の認識機械を使用する)。それに加えて、動作322の誰が話をしているかの決定を発話認識モジュール302に伝えることができる。その種の例においては、顔が検出され、認識され、その個人が話をしているとの決定が行われると、認識された搭乗者のアイデンティティに少なくとも部分的に基づいて特定の話者モデルに対して発話認識モジュール302を適応させることができる。
プロセスは、動作326から、ユーザ命令が決定できる動作328の『ユーザ命令を決定する』へ続くことができる。たとえば、コントロール・システム308を介してユーザ命令を決定できる。ユーザ命令のその種の決定は、遂行された発話認識および/または音声認識に少なくとも部分的に基づくことができる。
動作においては、IVIシステム100が、ユーザの口頭入力に対するスマートかつコンテキスト・アウェアな応答を利用できる。聴覚および視覚のデータ入力は、マイクロフォンおよびカメラによってそれぞれ取り込むことができる。聴覚データ処理スレッドにおいては、発話認識モジュール302が、何が話されたかを単語ごとに見分けることができる。視覚データ処理スレッドにおいては(たとえば、顔検出モジュール304および/または口唇追跡モジュール306)、顔検出モジュール304が、カメラ画像内の顔(1つまたは複数)の位置、サイズ、および数を見分けることができる。顔が検出されると、さらに口唇エリアが突き止められ、口唇追跡モジュール306を介して動画内において追跡できる。顔認識および口唇追跡を用いて、コントロール・システム308は、車内に誰がいるか、また現在その者が話をしているか否かを見分けることが可能となり得る。聴覚と視覚のデータを組み合わせることによって、コントロール・システム308は、話者の変化および命令入力ステータスを監視できる。
いくつかの実装においては、視覚処理モジュール(たとえば、顔検出モジュール304および/または口唇追跡モジュール306)が、音声認識を単に補助することを超えるところまで到達できる。たとえば、堅牢な顔検出モジュール304を用いてIVIシステム100は、発話している者のアイデンティティを自動的に見分けた後、個人化した設定のIVIシステム100を遂行することが可能である。さらに、顔が検出され、認識されると、認識された搭乗者のアイデンティティに少なくとも部分的に基づいて特定の話者モデルに対して発話認識モジュール302を適応させることができる。それに加えて、安定した口唇追跡モジュール306を用いてIVIシステム100は、話をしている者はいるか否かについてのステータスを自動的に見分けた後、ラジオの音量を下げる等といった積極的な音響環境の設定を遂行できる。別の例においては、口唇追跡出力が肯定的であるとき、IVIシステム100の音量をスマートな態様で下げることができる。
図2および3に図解されているとおり、プロセスの例200および300の実装が図解された順序における示されたすべてのブロックの扱いを含むことができるが、この開示はこれに関して限定されることはなく、多様な例においては、プロセス200および300の実装が、ここに示されたブロックのサブセットだけの、および/または図解とは異なる順序での扱いを含むことができる。
それに加えて、1つまたは複数のコンピュータ・プログラム・プロダクトによって提供されるインストラクションに応答して図2および3のブロックのうちの任意の1つまたは複数を扱うことができる。その種のプログラム・プロダクトは、たとえばプロセッサによって実行されたときにこの中に述べられている機能を提供するインストラクションを提供する信号担持媒体を含むことができる。コンピュータ・プログラム・プロダクトは、任意形式のコンピュータ可読媒体で提供できる。したがって、たとえば、1つまたは複数のプロセッサ・コアを含むプロセッサは、コンピュータ可読媒体によってプロセッサに伝えられたインストラクションに応答して、図5および6に示されているブロックのうちの1つまたは複数を扱うことができる。
この中に述べられている任意の実装において使用されるとき、用語『モジュール』は、この中に述べられている機能を提供するべく構成されたソフトウエア、ファームウエア、および/またはハードウエアの任意の組み合わせを言う。ソフトウエアは、ソフトウエア・パッケージ、コード、および/またはインストラクション・セットまたはインストラクションとして埋め込むことができ、用語『ハードウエア』は、この中に述べられている任意の実装において使用されるとき、たとえば、ハードワイヤード回路、プログラマブル回路、状態マシン回路、および/またはプログラマブル回路によって実行されるインストラクションをストアしているファームウエアを単独で、または任意の組み合わせで含むことができる。モジュールは、たとえば集積回路(IC)、システムオンチップ(SOC)、およびこの類といったより大きなシステムの部分を形成する回路として集合的に、または個別に具体化される。
図4は、この開示の少なくともいくつかの実装に従ってアレンジされた、口唇追跡プロセス400の間に処理される画像のいくつかの例を図解している。上で論じたとおり、いくつかの例の実装は、話者認識のため(たとえば、話者の変化の検出)および適応型ユーザ固有音声認識のために口唇検出および追跡を使用できる。
口唇の位置特定および追跡における難題は、いくつかの態様にある。たとえば、変形可能なオブジェクト・モデルは複雑である可能性があり、いくつかの顔のポーズおよび/または口唇の形状は、充分に知られてないかまたは研究されてなく、照明条件が頻繁な変更を受けることがあり、背景が複雑かつ/または頻繁な変更を受けることがあり、口唇の動きが頭の動きとともに頻繁に位置を変化させるか、または予測しない態様、および/またはセルフオクルージョン等のそのほかの要因で変化することがある。
図解されている実装においては、口唇追跡プロセス400が、口唇の輪郭検出および/または追跡の正確度に頼ることができる。同様に、正確な口唇検出もまた、顔検出の堅牢性を頼ることができる。たとえば、口唇追跡プロセス400は、動きベースの口唇追跡および最適化ベースの分割を頼ることができる。
図解されている実装においては、口唇402が検出できるようにビデオ・データ画像401を処理できる。口唇追跡プロセス400の動きベースの口唇追跡部分は、3つの段階、すなわち特徴ポイントの初期化、オプティカルフロー追跡、および/または特徴ポイント詳細化、またはこれらの類に従うことができる。たとえば4つの特徴ポイントを階層的直接アピアランス・モデル(HDAM)によって初期化し、続いてピラミッド型ルーカス‐カナデ(Lucas‐Kanade)オプティカルフロー方法によりまばらな特徴セットの追跡を補助できる。たとえば、口唇追跡プロセス400の特徴ポイント初期化動作は、口唇位置特定404を含むことができる。その後、特徴ポイント詳細化406が、口唇位置特定404を修正できる。たとえば、特徴ポイント詳細化406の特徴ポイントの位置は、図解されているとおり、カラー・ヒストグラム比較および/または局所サーチによって詳細化できる。
口唇追跡プロセス400は、口唇輪郭の楕円モデリング407を含むことができる。口唇追跡プロセス400を通じ、口唇輪郭を楕円モデル408により表現できる。しばしば口唇が対称であることから、口唇輪郭は、図解されているとおり、最初に左/右の口角410を、続いて上下端のエッジ・ポイント412を識別することによって構築できる。
口唇追跡プロセス400は、口唇402の口のエッジを局所的にサーチすることによる口唇輪郭構築414を含むことができる。たとえば、図解されているとおり、4つまたはそれより多くのポイント416を位置特定し、口のエッジを局所的にサーチすることによって口唇輪郭414を構築できる。
口唇追跡プロセス400は、動画上の口唇402が動くときの口唇輪郭構築414の結果の追跡を含むことができる。たとえば、ビデオ・データ画像420は、口唇402が閉じられるときの口唇輪郭構築414の結果を追跡する口唇追跡プロセス400を例証している。同様に、ビデオ・データ画像422は、口唇402が開かれるときの口唇輪郭構築414の結果を追跡する口唇追跡プロセス400を例証している。口唇輪郭構築414を追跡することによって口唇追跡プロセス400は、乗り物の搭乗者が話をしているか否かを見分けることができる。
図5は、この開示に従った例のシステム500を図解している。多様な実装において、システム500は、媒体システムとなり得るが、システム500がこの状況に限定されることはない。たとえばシステム500は、パーソナル・コンピュータ(PC)、ラップトップ・コンピュータ、ウルトラ‐ラップトップ・コンピュータ、タブレット、タッチパッド、ポータブル・コンピュータ、ハンドヘルド・コンピュータ、パームトップ・コンピュータ、携帯情報端末(PDA)、携帯電話、組み合わせ携帯電話/PDA、テレビジョン、スマート・デバイス(たとえば、スマートフォン、スマートタブレット、またはスマートテレビジョン)、モバイル・インターネット・デバイス(MID)、メッセージング・デバイス、データ通信デバイス、およびこれらの類の中に組み入れることができる。
多様な実装においてシステム500は、ディスプレイ520に結合されたプラットフォーム502を含む。プラットフォーム502は、コンテント・サービス・デバイス(1つまたは複数)530またはコンテント配信デバイス(1つまたは複数)540またはそのほかの類似のコンテント提供源等のコンテント・デバイスからコンテントを受信できる。1つまたは複数のナビゲーション特徴を含むナビゲーションコントローラ550は、たとえばプラットフォーム502および/またはディスプレイ520とのインタラクションに使用できる。これらの構成要素のそれぞれについては、以下において詳細に説明する。
多様な実装において、プラットフォーム502は、チップセット505、プロセッサ510、メモリ512、ストレージ514、グラフィック・サブシステム515、アプリケーション516、および/またはラジオ518の任意の組み合わせを含むことができる。チップセット505は、プロセッサ510、メモリ512、ストレージ514、グラフィック・サブシステム515、アプリケーション516、および/またはラジオ518の間における相互接続を提供できる。たとえば、チップセット505は、ストレージ514との相互通信を提供する能力のあるストレージ・アダプタ(図示せず)を含むことができる。
プロセッサ510は、複合命令セット・コンピュータ(CISC)または縮小命令セット・コンピュータ(RISC)プロセッサ、x86命令セット互換プロセッサ、マルチコア、または任意のそのほかのマイクロプロセッサまたは中央処理ユニット(CPU)として実装できる。多様な実装においては、プロセッサ510を、デュアルコア・プロセッサ(1つまたは複数)、デュアルコア・モバイル・プロセッサ(1つまたは複数)、およびこれらの類とすることができる。
メモリ512は、限定ではないが、ランダム・アクセス・メモリ(RAM)、ダイナミック・ランダム・アクセス・メモリ(DRAM)、またはスタティックRAM(SRAM)等の揮発性メモリ・デバイスとして実装できる。
ストレージ514は、限定ではないが、磁気ディスク・ドライブ、光ディスク・ドライブ、テープ・ドライブ、内蔵ストレージ・デバイス、外付けストレージ・デバイス、フラッシュ・メモリ、バッテリ・バックアップ付きSDRAM(シンクロナスDRAM)、および/またはネットワーク・アクセス可能なストレージ・デバイス等の不揮発性ストレージ・デバイスとして実装できる。多様な実装においては、ストレージ514が、たとえば複数のハードディスク・ドライブが含まれるとき、有用性の高いデジタル媒体のためにストレージ性能強化付きの保護を増加させるテクノロジを含むことができる。
グラフィック・サブシステム515は、表示のための静止画またはビデオ等の画像の処理を遂行できる。グラフィック・サブシステム515は、たとえば、グラフィック処理ユニット(GPU)または視覚処理ユニット(VPU)とすることができる。アナログまたはデジタル・インターフェースを使用して、グラフィック・サブシステム515とディスプレイ520を通信結合することができる。たとえば、このインターフェースを、HDMI(High‐Definition Multimedia Interface)(登録商標)、ディスプレイポート(DisplayPort)、無線HDMI(登録商標)、および/または無線HD適合テクニックのうちのいずれかとすることができる。グラフィック・サブシステム515は、プロセッサ510またはチップセット505内に統合することができる。いくつかの実装においては、グラフィック・サブシステム515を、チップセット505と通信結合されるスタンドアロン・カードとすることができる。
この中に述べられているグラフィックおよび/またはビデオ処理テクニックは、多様なハードウエア・アーキテクチャにおいて実装できる。たとえば、グラフィックおよび/またはビデオ機能をチップセット内に統合することができる。それに代えて、離散的グラフィックおよび/またはビデオ・プロセッサを使用することができる。さらに別の実装としては、グラフィックおよび/またはビデオ機能を、マルチコア・プロセッサを含む汎用プロセッサによって提供することができる。さらなる実施態様においては、その機能を消費者電子デバイス内において実装できる。
ラジオ518は、多様な適切な無線通信テクニックを使用して信号を送受信する能力を有する1つまたは複数のラジオを含むことができる。その種のテクニックは、1つまたは複数の無線ネットワークにわたる通信を伴うことがある。無線ネットワークの例は(限定ではないが)無線ローカル・エリア・ネットワーク(WLAN)、無線パーソナル・エリア・ネットワーク(WPAN)、無線メトロポリタンエリアネットワーク(WMAN)、セルラ・ネットワーク、および衛星ネットワークを含む。その種のネットワークにわたる通信においてラジオ518は、任意バージョンの1つまたは複数の適用可能な標準に従って動作できる。
多様な実装において、ディスプレイ520は、任意のテレビジョン・タイプのモニタまたは表示器を含むことができる。ディスプレイ520は、たとえば、コンピュータ・ディスプレイ・スクリーン、タッチスクリーン・ディスプレイ、ビデオ・モニタ、テレビジョン類似のデバイス、および/またはテレビジョンを含むことができる。ディスプレイ520は、デジタルおよび/またはアナログとすることができる。多様な実装においては、ディスプレイ520をホログラフィック・ディスプレイとすることができる。またディスプレイ520を、視覚的投影を受け取る透明な表面とすることもできる。その種の投影は、多様な形式の情報、画像、および/またはオブジェクトを伝達できる。たとえば、その種の投影は、モバイル拡張現実(MAR)アプリケーションのための視覚的なオーバーレイとすることができる。1つまたは複数のソフトウエア・アプリケーション516のコントロールの下に、プラットフォーム502は、ディスプレイ520上にユーザ・インターフェース522を表示できる。
多様な実装においては、コンテント・サービス・デバイス(1つまたは複数)530が任意の国内、国際、および/または独立のサービスによってホストされること、したがって、たとえばインターネットを介してプラットフォーム502にアクセスすることができる。コンテント・サービス・デバイス(1つまたは複数)530は、プラットフォーム502および/またはディスプレイ520と結合できる。プラットフォーム502および/またはコンテント・サービス・デバイス(1つまたは複数)530は、ネットワーク560に結合してネットワーク560との間でメディア情報の通信(たとえば、送信および/または受信)を行なうことができる。コンテント配信デバイス(1つまたは複数)540もまた、プラットフォーム502および/またはディスプレイ520に結合できる。
多様な実装において、コンテント・サービス・デバイス(1つまたは複数)530は、ケーブル・テレビジョン・ボックス、パーソナル・コンピュータ、ネットワーク、電話、インターネット対応デバイスまたはデジタル情報および/またはコンテントを配信する能力を有するアプライアンス、および任意のそのほかの類似した、コンテント・プロバイダとプラットフォーム502および/またはディスプレイ520の間においてネットワーク560を介して、または直接、コンテントの単方向または双方向通信を行なう能力を有するデバイスを含むことができる。認識するであろうが、コンテントは、システム500内の構成要素の任意の1つとコンテント・プロバイダとの間においてネットワーク560を介して単方向または双方向通信を行なうことができる。コンテントの例は、たとえばビデオ、音楽、医療およびゲーム情報、およびこれらの類を含む任意のメディア情報を含むことができる。
コンテント・サービス・デバイス(1つまたは複数)530は、メディア情報、デジタル情報、および/またはそのほかのコンテントを含むケーブル・テレビジョン番組等のコンテントを受け取ることができる。コンテント・プロバイダの例は、任意のケーブルまたは衛星テレビジョンまたはラジオまたはインターネット・コンテント・プロバイダを含むことができる。ここに提供した例は、いかなる形においても現在の開示に従った実装を制限することを意図しない。
多様な実装においては、プラットフォーム502が、1つまたは複数のナビゲーション特徴を有するナビゲーションコントローラ550からコントロール信号を受け取ることができる。コントローラ550のナビゲーション特徴は、たとえばユーザ・インターフェース522とのインタラクションに使用できる。実施態様においては、ナビゲーションコントローラ550を、ユーザが空間的(たとえば、連続かつ多次元の)データをコンピュータに入力することを可能にするコンピュータ・ハードウエア構成要素(特に、人間インターフェース・デバイス)とすることができるポインティング・デバイスとすることができる。グラフィカル・ユーザ・インターフェース(GUI)等の多くのシステムおよびテレビジョンおよびモニタは、ユーザが身体的なジェスチャを使用してコンピュータまたはテレビジョンをコントロールすること、およびデータを提供することを可能にする。
コントローラ550のナビゲーション特徴の動きは、ディスプレイ(たとえば、ディスプレイ520)上に、ポインタ、カーソル、フォーカス・リング、またはディスプレイ上に表示されるそのほかの視覚的なインジケータの動きによって再現できる。たとえば、ソフトウエア・アプリケーション516のコントロールの下に、ナビゲーションコントローラ550上で位置特定されたナビゲーション特徴を、たとえばユーザ・インターフェース522上に表示される仮想ナビゲーション特徴にマップすることができる。実施態様においては、コントローラ550を別々の構成要素とはせずに、プラットフォーム502および/またはディスプレイ520と一体化できる。しかしながらこの開示は、この中に示したか、または述べた要素または状況に限定されない。
多様な実装においては、ドライバ(図示せず)が、たとえばイネーブルされているとき、初期ブートアップ後にユーザがボタンに触れることによりテレビジョン等のプラットフォーム502を即座にオン/オフすることを可能にするテクノロジを含むことができる。プログラム論理は、プラットフォームが『オフ』になっているとき、メディア・アダプタまたはそのほかのコンテント・サービス・デバイス(1つまたは複数)530またはコンテント配信デバイス(1つまたは複数)540に対してプラットフォーム502がコンテントのストリーミングを行なうことを可能にできる。それに加えて、チップセット505は、たとえば、5.1サラウンド・サウンド・オーディオおよび/またはHD 7.1サラウンド・サウンド・オーディオをサポートするハードウエアおよび/またはソフトウエアを含むことができる。ドライバは、統合グラフィック・プラットフォームのためのグラフィック・ドライバを含むことができる。実施態様においては、グラフィック・ドライバが、PCI(ペリフェラル・コンポーネント・インターコネクト(peripheral component interconnect))エクスプレス対応のグラフィック・カードを包含できる。
多様な実装においては、システム500内に示された構成要素のうちの任意の1つまたは複数を統合できる。たとえばプラットフォーム502とコンテント・サービス・デバイス(1つまたは複数)530を統合すること、またはプラットフォーム502とコンテント配信デバイス(1つまたは複数)540を統合すること、またはプラットフォーム502、コンテント・サービス・デバイス(1つまたは複数)530、およびコンテント配信デバイス(1つまたは複数)540を統合することができる。多様な実施態様においては、プラットフォーム502とディスプレイ520を一体化されたユニットとすることができる。たとえば、ディスプレイ520とコンテント・サービス・デバイス(1つまたは複数)530を一体化してもよく、またはディスプレイ520とコンテント配信デバイス(1つまたは複数)540を一体化してもよい。これらの例は、この開示を限定することを意味しない。
多様な実施態様においては、システム500を、無線システム、有線システム、またはこれら両方の組み合わせとして実装できる。無線システムとしての実装時にはシステム500が、1つまたは複数のアンテナ、送信機、受信機、トランシーバ、増幅器、フィルタ、コントロール論理、およびこの類といった無線共有媒体にわたる通信に適した構成要素およびインターフェースを含むことができる。無線共有媒体の例は、RFスペクトル等の無線スペクトルの部分を含むことができる。有線システムとしての実装時にはシステム500が、入力/出力(I/O)アダプタ、I/Oアダプタを対応する有線通信媒体に接続する物理的なコネクタ、ネットワーク・インターフェース・カード(NIC)、ディスク・コントローラ、ビデオ・コントローラ、オーディオ・コントローラ、およびこれらの類といった有線通信媒体にわたる通信に適した構成要素およびインターフェースを含むことができる。有線通信媒体の例は、有線、ケーブル、金属リード線、プリント回路基板(PCB)、バックプレーン、スイッチ・ファブリック、半導体材料、ツイストペア・配線、同軸ケーブル、光ファイバ、およびこれらの類を含むことができる。
プラットフォーム502は、情報の通信のための1つまたは複数の論理または物理チャンネルを確立できる。情報は、メディア情報およびコントロール情報を含むことができる。メディア情報は、ユーザにとって意味のあるコンテントを表す任意のデータを言うことができる。コンテントの例は、たとえば、音声対話からのデータ、ビデオ会議、ストリーミング・ビデオ、電子メール(eメール)メッセージ、ボイス・メール・メッセージ、英数記号、グラフィクス、画像、ビデオ、テキスト、およびこれらの類を含むことができる。音声対話からのデータは、たとえば、発話情報、無音期間、背景ノイズ、快適ノイズ、トーン、およびこれらの類とすることができる。コントロール情報は、命令、インストラクション、または自動化されたシステムにとって意味のあるコントロール・ワードを表す任意のデータを言うことができる。たとえば、コントロール情報を、システムを通るメディア情報のルーティング、またはノードに対するあらかじめ決定済みの態様によるメディア情報の処理の指示に使用できる。しかしながら、実施態様は、図5に示されているかまたは記述されている要素、または状況に限定されない。
上で述べたとおり、システム500は、多様な物理的なスタイルまたは形状因子をもって具体化できる。図6は、システム500を具体化できる小型形状因子のデバイス600の実装を図解している。実施態様においては、たとえば、無線機能を有するモバイル・コンピューティング・デバイスとしてデバイス600を実装できる。モバイル・コンピューティング・デバイスは、処理システムおよび、たとえば1つまたは複数のバッテリ等のモバイル電源または電力供給源を有する任意のデバイスを言うことができる。
上で述べたとおり、モバイル・コンピューティング・デバイスの例は、パーソナル・コンピュータ(PC)、ラップトップ・コンピュータ、ウルトラ‐ラップトップ・コンピュータ、タブレット、タッチパッド、ポータブル・コンピュータ、ハンドヘルド・コンピュータ、パームトップ・コンピュータ、携帯情報端末(PDA)、携帯電話、組み合わせ携帯電話/PDA、テレビジョン、スマート・デバイス(たとえば、スマートフォン、スマートタブレット、またはスマートテレビジョン)、モバイル・インターネット・デバイス(MID)、メッセージング・デバイス、データ通信デバイス、およびこれらの類を含むことができる。
またモバイル・コンピューティング・デバイスの例は、手首にはめるコンピュータ、指にはめるコンピュータ、指輪コンピュータ、眼鏡コンピュータ、ベルトクリップ・コンピュータ、アームバンド・コンピュータ、靴コンピュータ、衣服コンピュータ、およびそのほかのウエアラブル・コンピュータ等の人が装着するようにアレンジされたコンピュータを含むこともできる。多様な実施態様においては、たとえば、モバイル・コンピューティング・デバイスを、コンピュータ・アプリケーションをはじめ、音声通信および/またはデータ通信を実行する能力を有するスマートフォンとして実装できる。いくつかの実施態様をスマートフォンとして実装されるモバイル・コンピューティング・デバイスを例として用いて説明できるが、ほかの無線モバイル・コンピューティング・デバイスを使用しても同様にほかの実施態様が実装できることが認識されるであろう。実施態様は、この状況に限定されない。
図6に示されているとおり、デバイス600は、ハウジング602、ディスプレイ604、入力/出力(I/O)デバイス606、およびアンテナ608を含むことができる。デバイス600は、ナビゲーション特徴612を含むこともできる。ディスプレイ604は、モバイル・コンピューティング・デバイスに適した情報を表示するための任意の適切なディスプレイ・ユニットを含むことができる。I/Oデバイス606は、モバイル・コンピューティング・デバイスに情報を入力するための任意の適切なI/Oデバイスを含むことができる。I/Oデバイス606の例は、英数キーボード、数字キーパッド、タッチパッド、入力キー、ボタン、スイッチ、ロッカー・スイッチ、マイクロフォン、スピーカ、音声認識デバイスおよびソフトウエア、およびこれらの類を含むことができる。情報は、マイクロフォン(図示せず)によってもデバイス600に入力することができる。その種の情報は、音声認識デバイス(図示せず)によってデジタル化することができる。実施態様は、この状況に限定されない。
ハードウエア要素、ソフトウエア要素、または両方の組み合わせを使用して多様な実施態様が実装できる。ハードウエア要素の例は、プロセッサ、マイクロプロセッサ、回路、回路要素(たとえば、トランジスタ、抵抗、キャパシタ、インダクタ、およびこれらの類)、集積回路、特定用途向け集積回路(ASIC)、プログラマブル・ロジック・デバイス(PLD)、デジタル信号プロセッサ(DSP)、フィールド・プログラマブル・ゲート・アレイ(FPGA)、論理ゲート、レジスタ、半導体デバイス、チップ、マイクロチップ、チップセット、およびこれらの類を含むことができる。ソフトウエアの例は、ソフトウエア構成要素、プログラム、アプリケーション、コンピュータ・プログラム、アプリケーション・プログラム、システム・プログラム、マシン・プログラム、オペレーティング・システム・ソフトウエア、ミドルウエア、ファームウエア、ソフトウエア・モジュール、ルーチン、サブルーチン、関数、メソッド、プロシージャ、ソフトウエア・インターフェース、アプリケーション・プログラム・インターフェース(API)、インストラクション・セット、コンピューティング・コード、コンピュータ・コード、コード・セグメント、コンピュータ・コード・セグメント、ワード、値、記号、またはこれらの任意の組み合わせを含むことができる。ハードウエア要素および/またはソフトウエア要素を使用して実施態様が実装されるか否かの決定は、望ましい計算レート、電力レベル、熱許容度、処理サイクル・バジェット、入力データ・レート、出力データ・レート、メモリ資源、データ・バス速度、およびそのほかの設計または性能上の制約といった多くの要因に従って変化し得る。
少なくとも1つの実施態様の1つまたは複数の態様は、プロセッサ内の多様な論理を表すマシン可読媒体上にストアされた代表的なインストラクションによって実装でき、当該インストラクションは、マシンによって読み出されたときにそのマシンに、この中に述べられているテクニックを遂行する論理を作らせる。その種の表現は『IPコア』として知られるが、有体のマシン可読媒体上にストアして多様なカスタマまたは製造設備に供給し、論理またはプロセッサを実際に作成する製造マシン内にロードすることができる。
ここでは特定の特徴を示し、多様な実装を参照してそれを説明してきたが、この説明は、限定の意味で解釈されることは意図されていない。したがって、この中で述べた実装の多様な修正をはじめ、そのほかの、この開示が関係する分野の当業者に明らかとなる実装は、この開示の精神ならびに範囲内にあると見なされる。
[項目1]
乗り物の1人または複数人の搭乗者からの発話入力を含む聴覚データを受け取ることと、
前記乗り物の前記1人または複数人の搭乗者のビデオを含む視覚データを受け取ることと、
前記受け取った視覚データに少なくとも部分的に基づいて前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかを決定することと、
を行なうべく構成されたプロセッサを備える装置。
[項目2]
前記プロセッサは、さらに、
前記受け取った聴覚データに少なくとも部分的に基づいて発話認識を遂行することと、
前記遂行した発話認識および前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかの前記決定に少なくとも部分的に基づいて音声認識を遂行することと、
前記遂行した発話認識に少なくとも部分的に基づいてユーザ命令を決定することと、を行なうべく構成される、項目1に記載の装置。
[項目3]
前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかを決定することは、さらに、
前記受け取った視覚データに少なくとも部分的に基づく前記乗り物の前記1人または複数人の搭乗者の顔検出であって、前記乗り物の前記1人または複数人の搭乗者の間を区別するべく構成される顔検出を遂行することと、を包含する項目1に記載の装置。
[項目4]
前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかを決定することは、さらに、
前記受け取った視覚データに少なくとも部分的に基づく前記乗り物の前記1人または複数人の搭乗者の顔検出であって、前記乗り物の前記1人または複数人の搭乗者の間を区別するべく構成される顔検出を遂行することと、
前記顔検出に少なくとも部分的に基づいて前記乗り物の前記1人または複数人の搭乗者と個人プロファイルとを関連付けすることと、を包含する項目1に記載の装置。
[項目5]
前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかを決定することは、さらに、
前記受け取った視覚データに少なくとも部分的に基づいて前記乗り物の前記1人または複数人の搭乗者の口唇追跡を遂行すること、を包含する項目1に記載の装置。
[項目6]
前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかを決定することは、さらに、
前記受け取った視覚データに少なくとも部分的に基づいて前記乗り物の前記1人または複数人の搭乗者と個人プロファイルとを関連付けすることと、
前記受け取った視覚データに少なくとも部分的に基づいて前記乗り物の前記1人または複数人の搭乗者の口唇追跡を遂行することと、
前記口唇追跡に少なくとも部分的に基づいて前記乗り物の前記1人または複数人の搭乗者の中に話をしている者はいるか否かを決定することと、
前記乗り物の前記1人または複数人の搭乗者の中に話をしている者はいるか否かの決定に少なくとも部分的に基づいて乗り物オーディオ出力の音量を下げることと、を包含する項目1に記載の装置。
[項目7]
前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかを決定することは、さらに、
前記受け取った視覚データに少なくとも部分的に基づいて前記乗り物の前記1人または複数人の搭乗者と個人プロファイルとを関連付けすることと、
前記受け取った視覚データに少なくとも部分的に基づいて前記乗り物の前記1人または複数人の搭乗者の口唇追跡を遂行することと、
前記口唇追跡に少なくとも部分的に基づいて前記乗り物の前記1人または複数人の搭乗者のうちの誰が話をしているかを決定することと、を包含し、
前記プロセッサは、さらに、
前記受け取った聴覚データに少なくとも部分的に基づいて発話認識を遂行することと、
前記遂行した発話認識および前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかの前記決定に少なくとも部分的に基づいて音声認識を遂行することと、を行なうべく構成される、項目1に記載の装置。
[項目8]
視覚データを取り込むべく構成された撮像デバイスと、
前記撮像デバイスと通信結合されたコンピューティング・システムと、を備えるシステムであって、
前記コンピューティング・システムは、
乗り物の1人または複数人の搭乗者からの発話入力を含む聴覚データを受け取ることと、
前記乗り物の前記1人または複数人の搭乗者のビデオを含む前記視覚データを受け取ることと、
前記受け取った視覚データに少なくとも部分的に基づいて前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかを決定することと、を行なうべく構成されるシステム。
[項目9]
さらに前記コンピューティング・システムが、
前記受け取った聴覚データに少なくとも部分的に基づいて発話認識を遂行することと、
前記遂行した発話認識および前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかの前記決定に少なくとも部分的に基づいて音声認識を遂行することと、
前記遂行した発話認識に少なくとも部分的に基づいてユーザ命令を決定することと、を行なうべく構成される項目8に記載のシステム。
[項目10]
前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかを決定することは、さらに、
前記受け取った視覚データに少なくとも部分的に基づく前記乗り物の前記1人または複数人の搭乗者の顔検出であって、前記乗り物の前記1人または複数人の搭乗者の間を区別するべく構成される顔検出を遂行することと、を包含する項目8に記載のシステム。
[項目11]
前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかを決定することは、さらに、
前記受け取った視覚データに少なくとも部分的に基づく前記乗り物の前記1人または複数人の搭乗者の顔検出であって、前記乗り物の前記1人または複数人の搭乗者の間を区別するべく構成される顔検出を遂行することと、
前記顔検出に少なくとも部分的に基づいて前記乗り物の前記1人または複数人の搭乗者と個人プロファイルとを関連付けすることと、を包含する項目8に記載のシステム。
[項目12]
前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかを決定することは、さらに、
前記受け取った視覚データに少なくとも部分的に基づいて前記乗り物の前記1人または複数人の搭乗者の口唇追跡を遂行すること、を包含する項目8に記載のシステム。
[項目13]
前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかを決定することは、さらに、
前記受け取った視覚データに少なくとも部分的に基づいて前記乗り物の前記1人または複数人の搭乗者と個人プロファイルとを関連付けすることと、
前記受け取った視覚データに少なくとも部分的に基づいて前記乗り物の前記1人または複数人の搭乗者の口唇追跡を遂行することと、
前記口唇追跡に少なくとも部分的に基づいて前記乗り物の前記1人または複数人の搭乗者の中に話をしている者はいるか否かを決定することと、
前記乗り物の前記1人または複数人の搭乗者の中に話をしている者はいるか否かの決定に少なくとも部分的に基づいて乗り物オーディオ出力の音量を下げることと、を包含する項目8に記載のシステム。
[項目14]
前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかを決定することは、さらに、
前記受け取った視覚データに少なくとも部分的に基づいて前記乗り物の前記1人または複数人の搭乗者と個人プロファイルとを関連付けすることと、
前記受け取った視覚データに少なくとも部分的に基づいて前記乗り物の前記1人または複数人の搭乗者の口唇追跡を遂行することと、
前記口唇追跡に少なくとも部分的に基づいて前記乗り物の前記1人または複数人の搭乗者のうちの誰が話をしているかを決定することと、を包含し、
前記コンピューティング・システムは、さらに、
前記受け取った聴覚データに少なくとも部分的に基づいて発話認識を遂行することと、
前記遂行した発話認識および前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかの前記決定に少なくとも部分的に基づいて音声認識を遂行することと、を行なうべく構成される項目8に記載のシステム。
[項目15]
コンピュータにより実装される方法であって、
乗り物の1人または複数人の搭乗者からの発話入力を含む聴覚データを受け取ることと、
前記乗り物の前記1人または複数人の搭乗者のビデオを含む視覚データを受け取ることと、
前記受け取った視覚データに少なくとも部分的に基づいて前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかを決定することと、
を備える方法。
[項目16]
さらに、
前記受け取った聴覚データに少なくとも部分的に基づいて発話認識を遂行することと、
前記遂行した発話認識および前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかの前記決定に少なくとも部分的に基づいて音声認識を遂行することと、を備える項目15に記載の方法。
[項目17]
さらに、
前記受け取った聴覚データに少なくとも部分的に基づいて発話認識を遂行することと、
前記遂行した発話認識および前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかの前記決定に少なくとも部分的に基づいて音声認識を遂行することと、
前記遂行した発話認識に少なくとも部分的に基づいてユーザ命令を決定することと、を備える項目15に記載の方法。
[項目18]
前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかを決定することは、さらに、
前記受け取った視覚データに少なくとも部分的に基づく前記乗り物の前記1人または複数人の搭乗者の顔検出であって、前記乗り物の前記1人または複数人の搭乗者の間を区別するべく構成される顔検出を遂行することを包含する、項目15に記載の方法。
[項目19]
前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかを決定することは、さらに、
前記受け取った視覚データに少なくとも部分的に基づく前記乗り物の前記1人または複数人の搭乗者の顔検出であって、前記乗り物の前記1人または複数人の搭乗者の間を区別するべく構成される顔検出を遂行することと、
前記顔検出に少なくとも部分的に基づいて前記乗り物の前記1人または複数人の搭乗者と個人プロファイルとを関連付けすることと、を包含する項目15に記載の方法。
[項目20]
前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかを決定することは、さらに、
前記受け取った視覚データに少なくとも部分的に基づいて前記乗り物の前記1人または複数人の搭乗者の口唇追跡を遂行すること、を包含する項目15に記載の方法。
[項目21]
前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかを決定することは、さらに、
前記受け取った視覚データに少なくとも部分的に基づいて前記乗り物の前記1人または複数人の搭乗者と個人プロファイルとを関連付けすることと、
前記受け取った視覚データに少なくとも部分的に基づいて前記乗り物の前記1人または複数人の搭乗者の口唇追跡を遂行することと、
前記口唇追跡に少なくとも部分的に基づいて前記乗り物の前記1人または複数人の搭乗者の中に話をしている者はいるか否かを決定することと、
前記乗り物の前記1人または複数人の搭乗者の中に話をしている者はいるか否かの決定に少なくとも部分的に基づいて乗り物オーディオ出力の音量を下げることと、を包含する項目15に記載の方法。
[項目22]
前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかを決定することは、さらに、
前記受け取った視覚データに少なくとも部分的に基づいて前記乗り物の前記1人または複数人の搭乗者と個人プロファイルとを関連付けすることと、
前記受け取った視覚データに少なくとも部分的に基づいて前記乗り物の前記1人または複数人の搭乗者の口唇追跡を遂行すること、
前記口唇追跡に少なくとも部分的に基づいて前記乗り物の前記1人または複数人の搭乗者のうちの誰が話をしているかを決定することと、を包含し、さらに前記方法が、
前記受け取った聴覚データに少なくとも部分的に基づいて発話認識を遂行することと、
前記遂行した発話認識および前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかの前記決定に少なくとも部分的に基づいて音声認識を遂行することと、を包含する項目15に記載の方法。
[項目23]
前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかを決定することは、さらに、
前記受け取った視覚データに少なくとも部分的に基づく前記乗り物の前記1人または複数人の搭乗者の顔検出であって、前記乗り物の前記1人または複数人の搭乗者の間を区別するべく構成される顔検出を遂行することと、
前記顔検出に少なくとも部分的に基づいて前記乗り物の前記1人または複数人の搭乗者と個人プロファイルとを関連付けすることと、
前記受け取った視覚データおよび前記遂行した顔検出に少なくとも部分的に基づいて前記乗り物の前記1人または複数人の搭乗者の口唇追跡を遂行すること、
前記口唇追跡に少なくとも部分的に基づいて前記乗り物の前記1人または複数人の搭乗者の中に話をしている者はいるか否かを決定することと、
前記口唇追跡に少なくとも部分的に基づいて前記乗り物の前記1人または複数人の搭乗者のうちの誰が話をしているかを決定することと、を包含し、さらに前記方法が、
前記受け取った聴覚データに少なくとも部分的に基づいて発話認識を遂行することと、
前記遂行した発話認識および前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかの前記決定に少なくとも部分的に基づいて音声認識を遂行することと、
前記遂行した発話認識に少なくとも部分的に基づいてユーザ命令を決定することと、を包含する項目15に記載の方法。
[項目24]
インストラクションを含むプログラムであって、当該インストラクションは、コンピュータに実行されると、
乗り物の1人または複数人の搭乗者からの発話入力を含む聴覚データを受け取ることと、
前記乗り物の前記1人または複数人の搭乗者のビデオを含む視覚データを受け取ることと、
前記受け取った視覚データに少なくとも部分的に基づいて前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかを決定することと、を結果としてもたらすプログラム。
[項目25]
前記インストラクションは、前記コンピュータに実行されると、さらに、
前記受け取った聴覚データに少なくとも部分的に基づいて発話認識を遂行することと、
前記遂行した発話認識および前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかの前記決定に少なくとも部分的に基づいて音声認識を遂行することと、
前記遂行した発話認識に少なくとも部分的に基づいてユーザ命令を決定することと、を結果としてもたらす項目24に記載のプログラム。
[項目26]
前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかを決定することは、さらに、
前記受け取った視覚データに少なくとも部分的に基づく前記乗り物の前記1人または複数人の搭乗者の顔検出であって、前記乗り物の前記1人または複数人の搭乗者の間を区別するべく構成される顔検出を遂行することと、を包含する項目24に記載のプログラム。
[項目27]
前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかを決定することは、さらに、
前記受け取った視覚データに少なくとも部分的に基づく前記乗り物の前記1人または複数人の搭乗者の顔検出であって、前記乗り物の前記1人または複数人の搭乗者の間を区別するべく構成される顔検出を遂行することと、
前記顔検出に少なくとも部分的に基づいて前記乗り物の前記1人または複数人の搭乗者と個人プロファイルとを関連付けすることと、を包含する項目24に記載のプログラム。
[項目28]
前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかを決定することは、さらに、
前記受け取った視覚データに少なくとも部分的に基づいて前記乗り物の前記1人または複数人の搭乗者の口唇追跡を遂行すること、を包含する項目24に記載のプログラム。
[項目29]
前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかを決定することは、さらに、
前記受け取った視覚データに少なくとも部分的に基づいて前記乗り物の前記1人または複数人の搭乗者と個人プロファイルとを関連付けすることと、
前記受け取った視覚データに少なくとも部分的に基づいて前記乗り物の前記1人または複数人の搭乗者の口唇追跡を遂行すること、
前記口唇追跡に少なくとも部分的に基づいて前記乗り物の前記1人または複数人の搭乗者の中に話をしている者はいるか否かを決定することと、
前記乗り物の前記1人または複数人の搭乗者の中に話をしている者はいるか否かの決定に少なくとも部分的に基づいて乗り物オーディオ出力の音量を下げることと、を包含する項目24に記載のプログラム。
[項目30]
前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかを決定することは、さらに、
前記受け取った視覚データに少なくとも部分的に基づいて前記乗り物の前記1人または複数人の搭乗者と個人プロファイルとを関連付けすることと、
前記受け取った視覚データに少なくとも部分的に基づいて前記乗り物の前記1人または複数人の搭乗者の口唇追跡を遂行すること、
前記口唇追跡に少なくとも部分的に基づいて前記乗り物の前記1人または複数人の搭乗者のうちの誰が話をしているかを決定することと、を包含し、
前記インストラクションは、前記コンピュータに実行されると、さらに、
前記受け取った聴覚データに少なくとも部分的に基づいて発話認識を遂行することと、
前記遂行した発話認識および前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかの前記決定に少なくとも部分的に基づいて音声認識を遂行することと、を結果としてもたらす項目24に記載のプログラム。
100 車載インフォテインメント(IVI)システム、IVIシステム、104 撮像デバイス、106 マイクロフォン・デバイス、108 乗り物、110 搭乗者、112 運転者、114 助手席搭乗者、116 後部座席搭乗者
200 音声認識プロセス、プロセス、300 音声認識プロセス、プロセス、302 発話認識モジュール、304 顔検出モジュール、306 口唇追跡モジュール、308 コントロール・システム
400 口唇追跡プロセス、401 ビデオ・データ画像、402 口唇、404 口唇位置特定、406 特徴ポイント詳細化、407 楕円モデリング、408 楕円モデル、410 口角、412 エッジ・ポイント、414 口唇輪郭構築、416 ポイント、420 ビデオ・データ画像、422 ビデオ・データ画像
500 システム、502 プラットフォーム、505 チップセット、510 プロセッサ、512 メモリ、514 ストレージ、515 グラフィック・サブシステム、516 アプリケーション、ソフトウエア・アプリケーション、518 ラジオ、520 ディスプレイ、522 ユーザ・インターフェース、530 コンテント・サービス・デバイス、540 コンテント配信デバイス、550 ナビゲーションコントローラ、560 ネットワーク
600 デバイス、602 ハウジング、604 ディスプレイ、606 I/Oデバイス、608 アンテナ、612 ナビゲーション特徴

Claims (27)

  1. 乗り物の1人または複数人の搭乗者からの発話入力を含む聴覚データを受け取ることと、
    前記乗り物の前記1人または複数人の搭乗者のビデオを含む視覚データを受け取ることと、
    前記受け取った視覚データに少なくとも部分的に基づいて前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかを決定することと、
    を行なうべく構成されプロセッサを備え
    前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかを決定することは、
    前記受け取った視覚データに少なくとも部分的に基づいて前記乗り物の前記1人または複数人の搭乗者の口唇追跡を遂行することと、
    前記口唇追跡に少なくとも部分的に基づいて前記乗り物の前記1人または複数人の搭乗者の中に話をしている者がいるか否かを決定することと、
    前記乗り物の前記1人または複数人の搭乗者の中に話をしている者がいる場合に、乗り物オーディオ出力の音量を下げることと
    を包含し、
    前記プロセッサは、
    前記乗り物オーディオ出力の音量を下げた後に、前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかの前記決定に少なくとも部分的に基づいて、音声認識を遂行すること
    をさらに行なうべく構成される、装置。
  2. 前記プロセッサは、さらに、
    前記受け取った聴覚データに少なくとも部分的に基づいて発話認識を遂行することと、
    前記遂行した発話認識および前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかの前記決定に少なくとも部分的に基づいて音声認識を遂行することと、
    前記遂行した発話認識に少なくとも部分的に基づいてユーザ命令を決定することと、を行なうべく構成される、請求項1に記載の装置。
  3. 前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかを決定することは、さらに、
    前記受け取った視覚データに少なくとも部分的に基づく前記乗り物の前記1人または複数人の搭乗者の顔検出であって、前記乗り物の前記1人または複数人の搭乗者の間を区別するべく構成される顔検出を遂行することと、を包含する請求項1又は2に記載の装置。
  4. 前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかを決定することは、さらに、
    前記受け取った視覚データに少なくとも部分的に基づく前記乗り物の前記1人または複数人の搭乗者の顔検出であって、前記乗り物の前記1人または複数人の搭乗者の間を区別するべく構成される顔検出を遂行することと、
    前記顔検出に少なくとも部分的に基づいて前記乗り物の前記1人または複数人の搭乗者と個人プロファイルとを関連付けすることと、を包含する請求項1又は2に記載の装置。
  5. 前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかを決定することは、さらに、
    前記受け取った視覚データに少なくとも部分的に基づいて前記乗り物の前記1人または複数人の搭乗者と個人プロファイルとを関連付けするこ
    を包含する請求項1から3のいずれか一項に記載の装置。
  6. 前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかを決定することは、さらに、
    前記受け取った視覚データに少なくとも部分的に基づいて前記乗り物の前記1人または複数人の搭乗者と個人プロファイルとを関連付けすることと
    記口唇追跡に少なくとも部分的に基づいて前記乗り物の前記1人または複数人の搭乗者のうちの誰が話をしているかを決定することと、を包含し、
    前記プロセッサは、さらに、
    前記受け取った聴覚データに少なくとも部分的に基づいて発話認識を遂行することと、
    前記遂行した発話認識および前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかの前記決定に少なくとも部分的に基づいて音声認識を遂行することと、を行なうべく構成される、請求項1に記載の装置。
  7. 視覚データを取り込むべく構成された撮像デバイスと、
    前記撮像デバイスと通信結合されたコンピューティング・システムと、を備えるシステムであって、
    前記コンピューティング・システムは、
    乗り物の1人または複数人の搭乗者からの発話入力を含む聴覚データを受け取ることと、
    前記乗り物の前記1人または複数人の搭乗者のビデオを含む前記視覚データを受け取ることと、
    前記受け取った視覚データに少なくとも部分的に基づいて前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかを決定することと、を行なうべく構成され
    前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかを決定することは、
    前記受け取った視覚データに少なくとも部分的に基づいて前記乗り物の前記1人または複数人の搭乗者の口唇追跡を遂行することと、
    前記口唇追跡に少なくとも部分的に基づいて前記乗り物の前記1人または複数人の搭乗者の中に話をしている者がいるか否かを決定することと、
    前記乗り物の前記1人または複数人の搭乗者の中に話をしている者がいる場合に、乗り物オーディオ出力の音量を下げることと
    を包含し、
    前記コンピューティング・システムは、
    前記乗り物オーディオ出力の音量を下げた後に、前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかの前記決定に少なくとも部分的に基づいて、音声認識を遂行すること
    をさらに行なうべく構成される、システム。
  8. さらに前記コンピューティング・システムが、
    前記受け取った聴覚データに少なくとも部分的に基づいて発話認識を遂行することと、
    前記遂行した発話認識および前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかの前記決定に少なくとも部分的に基づいて音声認識を遂行することと、
    前記遂行した発話認識に少なくとも部分的に基づいてユーザ命令を決定することと、を行なうべく構成される請求項に記載のシステム。
  9. 前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかを決定することは、さらに、
    前記受け取った視覚データに少なくとも部分的に基づく前記乗り物の前記1人または複数人の搭乗者の顔検出であって、前記乗り物の前記1人または複数人の搭乗者の間を区別するべく構成される顔検出を遂行することと、を包含する請求項7又は8に記載のシステム。
  10. 前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかを決定することは、さらに、
    前記受け取った視覚データに少なくとも部分的に基づく前記乗り物の前記1人または複数人の搭乗者の顔検出であって、前記乗り物の前記1人または複数人の搭乗者の間を区別するべく構成される顔検出を遂行することと、
    前記顔検出に少なくとも部分的に基づいて前記乗り物の前記1人または複数人の搭乗者と個人プロファイルとを関連付けすることと、を包含する請求項7又は8に記載のシステム。
  11. 前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかを決定することは、さらに、
    前記受け取った視覚データに少なくとも部分的に基づいて前記乗り物の前記1人または複数人の搭乗者と個人プロファイルとを関連付けするこ
    を包含する請求項7から9のいずれか一項に記載のシステム。
  12. 前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかを決定することは、さらに、
    前記受け取った視覚データに少なくとも部分的に基づいて前記乗り物の前記1人または複数人の搭乗者と個人プロファイルとを関連付けすることと
    記口唇追跡に少なくとも部分的に基づいて前記乗り物の前記1人または複数人の搭乗者のうちの誰が話をしているかを決定することと、を包含し、
    前記コンピューティング・システムは、さらに、
    前記受け取った聴覚データに少なくとも部分的に基づいて発話認識を遂行することと、
    前記遂行した発話認識および前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかの前記決定に少なくとも部分的に基づいて音声認識を遂行することと、を行なうべく構成される請求項に記載のシステム。
  13. コンピュータにより実装される方法であって、
    乗り物の1人または複数人の搭乗者からの発話入力を含む聴覚データを受け取ることと、
    前記乗り物の前記1人または複数人の搭乗者のビデオを含む視覚データを受け取ることと、
    前記受け取った視覚データに少なくとも部分的に基づいて前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかを決定することと、
    を備え
    前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかを決定することは、
    前記受け取った視覚データに少なくとも部分的に基づいて前記乗り物の前記1人または複数人の搭乗者の口唇追跡を遂行することと、
    前記口唇追跡に少なくとも部分的に基づいて前記乗り物の前記1人または複数人の搭乗者の中に話をしている者がいるか否かを決定することと、
    前記乗り物の前記1人または複数人の搭乗者の中に話をしている者がいる場合に、乗り物オーディオ出力の音量を下げることと
    を包含し、
    前記方法は、
    前記乗り物オーディオ出力の音量を下げた後に、前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかの前記決定に少なくとも部分的に基づいて、音声認識を遂行すること
    をさらに備える、方法。
  14. さらに、
    前記受け取った聴覚データに少なくとも部分的に基づいて発話認識を遂行することと、
    前記遂行した発話認識および前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかの前記決定に少なくとも部分的に基づいて音声認識を遂行することと、を備える請求項13に記載の方法。
  15. さらに、
    前記受け取った聴覚データに少なくとも部分的に基づいて発話認識を遂行することと、
    前記遂行した発話認識および前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかの前記決定に少なくとも部分的に基づいて音声認識を遂行することと、
    前記遂行した発話認識に少なくとも部分的に基づいてユーザ命令を決定することと、を備える請求項13に記載の方法。
  16. 前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかを決定することは、さらに、
    前記受け取った視覚データに少なくとも部分的に基づく前記乗り物の前記1人または複数人の搭乗者の顔検出であって、前記乗り物の前記1人または複数人の搭乗者の間を区別するべく構成される顔検出を遂行することを包含する、請求項13から15のいずれか一項に記載の方法。
  17. 前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかを決定することは、さらに、
    前記受け取った視覚データに少なくとも部分的に基づく前記乗り物の前記1人または複数人の搭乗者の顔検出であって、前記乗り物の前記1人または複数人の搭乗者の間を区別するべく構成される顔検出を遂行することと、
    前記顔検出に少なくとも部分的に基づいて前記乗り物の前記1人または複数人の搭乗者と個人プロファイルとを関連付けすることと、を包含する請求項13から15のいずれか一項に記載の方法。
  18. 前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかを決定することは、さらに、
    前記受け取った視覚データに少なくとも部分的に基づいて前記乗り物の前記1人または複数人の搭乗者と個人プロファイルとを関連付けするこ
    を包含する請求項13から16のいずれか一項に記載の方法。
  19. 前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかを決定することは、さらに、
    前記受け取った視覚データに少なくとも部分的に基づいて前記乗り物の前記1人または複数人の搭乗者と個人プロファイルとを関連付けすることと
    記口唇追跡に少なくとも部分的に基づいて前記乗り物の前記1人または複数人の搭乗者のうちの誰が話をしているかを決定することと
    を包含し、さらに前記方法が、
    前記受け取った聴覚データに少なくとも部分的に基づいて発話認識を遂行することと、
    前記遂行した発話認識および前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかの前記決定に少なくとも部分的に基づいて音声認識を遂行することと、を包含する請求項13に記載の方法。
  20. 前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかを決定することは、さらに、
    前記受け取った視覚データに少なくとも部分的に基づく前記乗り物の前記1人または複数人の搭乗者の顔検出であって、前記乗り物の前記1人または複数人の搭乗者の間を区別するべく構成される顔検出を遂行することと、
    前記顔検出に少なくとも部分的に基づいて前記乗り物の前記1人または複数人の搭乗者と個人プロファイルとを関連付けすることと、
    前記受け取った視覚データおよび前記遂行した顔検出に少なくとも部分的に基づいて前記乗り物の前記1人または複数人の搭乗者の口唇追跡を遂行することと、
    記口唇追跡に少なくとも部分的に基づいて前記乗り物の前記1人または複数人の搭乗者のうちの誰が話をしているかを決定することと、を包含し、さらに前記方法が、
    前記受け取った聴覚データに少なくとも部分的に基づいて発話認識を遂行することと、
    前記遂行した発話認識および前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかの前記決定に少なくとも部分的に基づいて音声認識を遂行することと、
    前記遂行した発話認識に少なくとも部分的に基づいてユーザ命令を決定することと、を包含する請求項13に記載の方法。
  21. インストラクションを含むプログラムであって、当該インストラクションは、コンピュータに実行されると、
    乗り物の1人または複数人の搭乗者からの発話入力を含む聴覚データを受け取ることと、
    前記乗り物の前記1人または複数人の搭乗者のビデオを含む視覚データを受け取ることと、
    前記受け取った視覚データに少なくとも部分的に基づいて前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかを決定することと、を結果としてもたらし、
    前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかを決定することは、
    前記受け取った視覚データに少なくとも部分的に基づいて前記乗り物の前記1人または複数人の搭乗者の口唇追跡を遂行することと、
    前記口唇追跡に少なくとも部分的に基づいて前記乗り物の前記1人または複数人の搭乗者の中に話をしている者がいるか否かを決定することと、
    前記乗り物の前記1人または複数人の搭乗者の中に話をしている者がいる場合に、乗り物オーディオ出力の音量を下げることと
    を包含し、
    前記インストラクションは、前記コンピュータに実行されると、さらに、
    前記乗り物オーディオ出力の音量を下げた後に、前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかの前記決定に少なくとも部分的に基づいて、音声認識を遂行すること
    を結果としてもたらす、プログラム。
  22. 前記インストラクションは、前記コンピュータに実行されると、さらに、
    前記受け取った聴覚データに少なくとも部分的に基づいて発話認識を遂行することと、
    前記遂行した発話認識および前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかの前記決定に少なくとも部分的に基づいて音声認識を遂行することと、
    前記遂行した発話認識に少なくとも部分的に基づいてユーザ命令を決定することと、を結果としてもたらす請求項21に記載のプログラム。
  23. 前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかを決定することは、さらに、
    前記受け取った視覚データに少なくとも部分的に基づく前記乗り物の前記1人または複数人の搭乗者の顔検出であって、前記乗り物の前記1人または複数人の搭乗者の間を区別するべく構成される顔検出を遂行することと、を包含する請求項21又は22に記載のプログラム。
  24. 前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかを決定することは、さらに、
    前記受け取った視覚データに少なくとも部分的に基づく前記乗り物の前記1人または複数人の搭乗者の顔検出であって、前記乗り物の前記1人または複数人の搭乗者の間を区別するべく構成される顔検出を遂行することと、
    前記顔検出に少なくとも部分的に基づいて前記乗り物の前記1人または複数人の搭乗者と個人プロファイルとを関連付けすることと、を包含する請求項21又は22に記載のプログラム。
  25. 前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかを決定することは、さらに、
    前記受け取った視覚データに少なくとも部分的に基づいて前記乗り物の前記1人または複数人の搭乗者と個人プロファイルとを関連付けするこ
    を包含する請求項21又は22に記載のプログラム。
  26. 前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかを決定することは、さらに、
    前記受け取った視覚データに少なくとも部分的に基づいて前記乗り物の前記1人または複数人の搭乗者と個人プロファイルとを関連付けすることと
    記口唇追跡に少なくとも部分的に基づいて前記乗り物の前記1人または複数人の搭乗者のうちの誰が話をしているかを決定することと、を包含し、
    前記インストラクションは、前記コンピュータに実行されると、さらに、
    前記受け取った聴覚データに少なくとも部分的に基づいて発話認識を遂行することと、
    前記遂行した発話認識および前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかの前記決定に少なくとも部分的に基づいて音声認識を遂行することと、を結果としてもたらす請求項21に記載のプログラム。
  27. 請求項21から26のいずれか一項に記載のプログラムを格納するコンピュータ可読媒体。
JP2014547665A 2011-12-26 2011-12-26 搭乗者の聴覚視覚入力の乗り物ベースの決定 Active JP5928606B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2011/084649 WO2013097075A1 (en) 2011-12-26 2011-12-26 Vehicle based determination of occupant audio and visual input

Publications (2)

Publication Number Publication Date
JP2015507219A JP2015507219A (ja) 2015-03-05
JP5928606B2 true JP5928606B2 (ja) 2016-06-01

Family

ID=48696171

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014547665A Active JP5928606B2 (ja) 2011-12-26 2011-12-26 搭乗者の聴覚視覚入力の乗り物ベースの決定

Country Status (7)

Country Link
US (1) US20140214424A1 (ja)
EP (1) EP2798635A4 (ja)
JP (1) JP5928606B2 (ja)
KR (1) KR101749143B1 (ja)
CN (1) CN104011735B (ja)
BR (1) BR112014015844A8 (ja)
WO (1) WO2013097075A1 (ja)

Families Citing this family (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9881616B2 (en) * 2012-06-06 2018-01-30 Qualcomm Incorporated Method and systems having improved speech recognition
JP5902632B2 (ja) 2013-01-07 2016-04-13 日立マクセル株式会社 携帯端末装置及び情報処理システム
US9159317B2 (en) * 2013-06-14 2015-10-13 Mitsubishi Electric Research Laboratories, Inc. System and method for recognizing speech
DE102013222645A1 (de) * 2013-11-07 2015-05-07 Robert Bosch Gmbh Erkennungssystem in einem Fahrzeug zur Erfassung der Sprachaktivität eines Fahrzeuginsassen
US10741182B2 (en) 2014-02-18 2020-08-11 Lenovo (Singapore) Pte. Ltd. Voice input correction using non-audio based input
GB2528247A (en) * 2014-07-08 2016-01-20 Imagination Tech Ltd Soundbar
EP3218928A4 (en) * 2014-11-12 2018-09-19 Intel Corporation Flexible system-in-package solutions for wearable devices
CN104409075B (zh) * 2014-11-28 2018-09-04 深圳创维-Rgb电子有限公司 语音识别方法和系统
EP3147898A1 (en) 2015-09-23 2017-03-29 Politechnika Gdanska Method and system for improving the quality of speech signals in speech recognition systems
US9963096B2 (en) * 2015-11-16 2018-05-08 Continental Automotive Systems, Inc. Vehicle infotainment and connectivity system
US20170174221A1 (en) * 2015-12-18 2017-06-22 Robert Lawson Vaughn Managing autonomous vehicles
US10275982B2 (en) * 2016-05-13 2019-04-30 Universal Entertainment Corporation Attendant device, gaming machine, and dealer-alternate device
US20170372697A1 (en) * 2016-06-22 2017-12-28 Elwha Llc Systems and methods for rule-based user control of audio rendering
WO2018175959A1 (en) * 2017-03-23 2018-09-27 Joyson Safety Systems Acquisition Llc System and method of correlating mouth images to input commands
EP3466761B1 (en) * 2017-10-05 2020-09-09 Ningbo Geely Automobile Research & Development Co. Ltd. A display system and method for a vehicle
JP6916130B2 (ja) * 2018-03-02 2021-08-11 株式会社日立製作所 話者推定方法および話者推定装置
DE102018212902B4 (de) * 2018-08-02 2024-12-19 Bayerische Motoren Werke Aktiengesellschaft Verfahren zum Bestimmen eines digitalen Assistenten zum Ausführen einer Fahrzeugfunktion aus einer Vielzahl von digitalen Assistenten in einem Fahrzeug, computerlesbares Medium, System, und Fahrzeug
EP3648479B1 (en) 2018-11-02 2023-09-27 Ningbo Geely Automobile Research & Development Co. Ltd. Audio communication in a vehicle
JP7023823B2 (ja) 2018-11-16 2022-02-22 アルパイン株式会社 車載装置及び音声認識方法
US11167693B2 (en) * 2018-11-19 2021-11-09 Honda Motor Co., Ltd. Vehicle attention system and method
US10863971B2 (en) 2018-11-30 2020-12-15 Fujifilm Sonosite, Inc. Touchless input ultrasound control
US12247841B2 (en) * 2018-12-19 2025-03-11 Nikon Corporation Navigation device, vehicle, navigation method, and non-transitory storage medium
CN109887515B (zh) * 2019-01-29 2021-07-09 北京市商汤科技开发有限公司 音频处理方法及装置、电子设备和存储介质
EP3722158A1 (en) * 2019-04-10 2020-10-14 Volvo Car Corporation A voice assistant system
CN110164440B (zh) * 2019-06-03 2022-08-09 交互未来(北京)科技有限公司 基于捂嘴动作识别的语音交互唤醒电子设备、方法和介质
US11257493B2 (en) 2019-07-11 2022-02-22 Soundhound, Inc. Vision-assisted speech processing
CN110428838A (zh) * 2019-08-01 2019-11-08 大众问问(北京)信息科技有限公司 一种语音信息识别方法、装置及设备
KR20210112726A (ko) * 2020-03-06 2021-09-15 엘지전자 주식회사 차량의 좌석별로 대화형 비서를 제공하는 방법
CN113963692A (zh) * 2020-07-03 2022-01-21 华为技术有限公司 一种车舱内语音指令控制方法及相关设备
KR20220059629A (ko) * 2020-11-03 2022-05-10 현대자동차주식회사 차량 및 그의 제어방법
US12086501B2 (en) * 2020-12-09 2024-09-10 Cerence Operating Company Automotive infotainment system with spatially-cognizant applications that interact with a speech interface
US12175970B2 (en) * 2020-12-24 2024-12-24 Cerence Operating Company Speech dialog system for multiple passengers in a car
CN113488043B (zh) * 2021-06-30 2023-03-24 上海商汤临港智能科技有限公司 乘员说话检测方法及装置、电子设备和存储介质
WO2023121871A1 (en) * 2021-12-23 2023-06-29 Stoneridge Electronics Ab Method and apparatus for system command verification
WO2024248576A1 (ko) * 2023-06-01 2024-12-05 (주)윈트론 차량용 인터폰 시스템

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19962218C2 (de) * 1999-12-22 2002-11-14 Siemens Ag Verfahren und System zum Autorisieren von Sprachbefehlen
US6999932B1 (en) * 2000-10-10 2006-02-14 Intel Corporation Language independent voice-based search system
US6964023B2 (en) * 2001-02-05 2005-11-08 International Business Machines Corporation System and method for multi-modal focus detection, referential ambiguity resolution and mood classification using multi-modal input
US6498970B2 (en) * 2001-04-17 2002-12-24 Koninklijke Phillips Electronics N.V. Automatic access to an automobile via biometrics
DE10123179A1 (de) * 2001-05-12 2002-11-14 Daimler Chrysler Ag Kraftfahrzeug mit mehreren Sitzplätzen
US7130446B2 (en) * 2001-12-03 2006-10-31 Microsoft Corporation Automatic detection and tracking of multiple individuals using multiple cues
US6996526B2 (en) * 2002-01-02 2006-02-07 International Business Machines Corporation Method and apparatus for transcribing speech when a plurality of speakers are participating
JP3807307B2 (ja) * 2002-01-07 2006-08-09 株式会社デンソー 車両用空調装置
US20030154084A1 (en) * 2002-02-14 2003-08-14 Koninklijke Philips Electronics N.V. Method and system for person identification using video-speech matching
JP2004354930A (ja) * 2003-05-30 2004-12-16 Calsonic Kansei Corp 音声認識システム
WO2005048239A1 (ja) * 2003-11-12 2005-05-26 Honda Motor Co., Ltd. 音声認識装置
US7542971B2 (en) * 2004-02-02 2009-06-02 Fuji Xerox Co., Ltd. Systems and methods for collaborative note-taking
JP2006251266A (ja) * 2005-03-10 2006-09-21 Hitachi Ltd 視聴覚連携認識方法および装置
US7826945B2 (en) * 2005-07-01 2010-11-02 You Zhang Automobile speech-recognition interface
JP5153211B2 (ja) * 2007-05-25 2013-02-27 キヤノン株式会社 撮像装置及びその制御方法
JP2009146263A (ja) * 2007-12-17 2009-07-02 Panasonic Corp 本人認証システム
US8423362B2 (en) * 2007-12-21 2013-04-16 General Motors Llc In-vehicle circumstantial speech recognition
JP2010156825A (ja) * 2008-12-26 2010-07-15 Fujitsu Ten Ltd 音声出力装置
KR101035768B1 (ko) * 2009-01-02 2011-05-20 전남대학교산학협력단 립 리딩을 위한 입술 영역 설정 방법 및 장치
US8275622B2 (en) * 2009-02-06 2012-09-25 Mitsubishi Electric Research Laboratories, Inc. Ultrasonic doppler sensor for speaker recognition
KR101041039B1 (ko) * 2009-02-27 2011-06-14 고려대학교 산학협력단 오디오 및 비디오 정보를 이용한 시공간 음성 구간 검출 방법 및 장치
KR101092820B1 (ko) * 2009-09-22 2011-12-12 현대자동차주식회사 립리딩과 음성 인식 통합 멀티모달 인터페이스 시스템
US8660842B2 (en) * 2010-03-09 2014-02-25 Honda Motor Co., Ltd. Enhancing speech recognition using visual information
CN101923854B (zh) * 2010-08-31 2012-03-28 中国科学院计算技术研究所 一种交互式语音识别系统和方法

Also Published As

Publication number Publication date
EP2798635A1 (en) 2014-11-05
BR112014015844A2 (pt) 2017-06-13
EP2798635A4 (en) 2016-04-27
CN104011735A (zh) 2014-08-27
WO2013097075A1 (en) 2013-07-04
BR112014015844A8 (pt) 2017-07-04
CN104011735B (zh) 2018-03-30
KR20140104461A (ko) 2014-08-28
US20140214424A1 (en) 2014-07-31
KR101749143B1 (ko) 2017-06-20
JP2015507219A (ja) 2015-03-05

Similar Documents

Publication Publication Date Title
JP5928606B2 (ja) 搭乗者の聴覚視覚入力の乗り物ベースの決定
US9972322B2 (en) Speaker recognition using adaptive thresholding
US10984783B2 (en) Spoken keyword detection based utterance-level wake on intent system
US10937426B2 (en) Low resource key phrase detection for wake on voice
CN111179961B (zh) 音频信号处理方法、装置、电子设备及存储介质
US10043521B2 (en) User defined key phrase detection by user dependent sequence modeling
US9972313B2 (en) Intermediate scoring and rejection loopback for improved key phrase detection
US10083689B2 (en) Linear scoring for low power wake on voice
CN111696570B (zh) 语音信号处理方法、装置、设备及存储介质
US10438588B2 (en) Simultaneous multi-user audio signal recognition and processing for far field audio
KR101752072B1 (ko) 오브젝트 검출을 가속하기 위한 하드웨어 컨볼루션 사전-필터
US10685666B2 (en) Automatic gain adjustment for improved wake word recognition in audio systems
US20140129207A1 (en) Augmented Reality Language Translation
JP6026007B2 (ja) ビデオモーション推定モジュールを用いた加速対象検出フィルタ
US20180239973A1 (en) A real-time multiple vehicle detection and tracking
WO2021052306A1 (zh) 声纹特征注册
WO2022206602A1 (zh) 语音唤醒方法、装置、存储介质及系统
CN110322760A (zh) 语音数据生成方法、装置、终端及存储介质
CN111341307A (zh) 语音识别方法、装置、电子设备及存储介质
US20140192133A1 (en) Content aware selective adjusting of motion estimation
US20220165263A1 (en) Electronic apparatus and method of controlling the same

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150727

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150804

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20151030

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160405

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160411

R150 Certificate of patent or registration of utility model

Ref document number: 5928606

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250