JP5928606B2 - 搭乗者の聴覚視覚入力の乗り物ベースの決定 - Google Patents
搭乗者の聴覚視覚入力の乗り物ベースの決定 Download PDFInfo
- Publication number
- JP5928606B2 JP5928606B2 JP2014547665A JP2014547665A JP5928606B2 JP 5928606 B2 JP5928606 B2 JP 5928606B2 JP 2014547665 A JP2014547665 A JP 2014547665A JP 2014547665 A JP2014547665 A JP 2014547665A JP 5928606 B2 JP5928606 B2 JP 5928606B2
- Authority
- JP
- Japan
- Prior art keywords
- vehicle
- passengers
- received
- associate
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
- G10L15/25—Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/32—Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Oral & Maxillofacial Surgery (AREA)
- User Interface Of Digital Computer (AREA)
- Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
Description
[項目1]
乗り物の1人または複数人の搭乗者からの発話入力を含む聴覚データを受け取ることと、
前記乗り物の前記1人または複数人の搭乗者のビデオを含む視覚データを受け取ることと、
前記受け取った視覚データに少なくとも部分的に基づいて前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかを決定することと、
を行なうべく構成されたプロセッサを備える装置。
[項目2]
前記プロセッサは、さらに、
前記受け取った聴覚データに少なくとも部分的に基づいて発話認識を遂行することと、
前記遂行した発話認識および前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかの前記決定に少なくとも部分的に基づいて音声認識を遂行することと、
前記遂行した発話認識に少なくとも部分的に基づいてユーザ命令を決定することと、を行なうべく構成される、項目1に記載の装置。
[項目3]
前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかを決定することは、さらに、
前記受け取った視覚データに少なくとも部分的に基づく前記乗り物の前記1人または複数人の搭乗者の顔検出であって、前記乗り物の前記1人または複数人の搭乗者の間を区別するべく構成される顔検出を遂行することと、を包含する項目1に記載の装置。
[項目4]
前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかを決定することは、さらに、
前記受け取った視覚データに少なくとも部分的に基づく前記乗り物の前記1人または複数人の搭乗者の顔検出であって、前記乗り物の前記1人または複数人の搭乗者の間を区別するべく構成される顔検出を遂行することと、
前記顔検出に少なくとも部分的に基づいて前記乗り物の前記1人または複数人の搭乗者と個人プロファイルとを関連付けすることと、を包含する項目1に記載の装置。
[項目5]
前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかを決定することは、さらに、
前記受け取った視覚データに少なくとも部分的に基づいて前記乗り物の前記1人または複数人の搭乗者の口唇追跡を遂行すること、を包含する項目1に記載の装置。
[項目6]
前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかを決定することは、さらに、
前記受け取った視覚データに少なくとも部分的に基づいて前記乗り物の前記1人または複数人の搭乗者と個人プロファイルとを関連付けすることと、
前記受け取った視覚データに少なくとも部分的に基づいて前記乗り物の前記1人または複数人の搭乗者の口唇追跡を遂行することと、
前記口唇追跡に少なくとも部分的に基づいて前記乗り物の前記1人または複数人の搭乗者の中に話をしている者はいるか否かを決定することと、
前記乗り物の前記1人または複数人の搭乗者の中に話をしている者はいるか否かの決定に少なくとも部分的に基づいて乗り物オーディオ出力の音量を下げることと、を包含する項目1に記載の装置。
[項目7]
前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかを決定することは、さらに、
前記受け取った視覚データに少なくとも部分的に基づいて前記乗り物の前記1人または複数人の搭乗者と個人プロファイルとを関連付けすることと、
前記受け取った視覚データに少なくとも部分的に基づいて前記乗り物の前記1人または複数人の搭乗者の口唇追跡を遂行することと、
前記口唇追跡に少なくとも部分的に基づいて前記乗り物の前記1人または複数人の搭乗者のうちの誰が話をしているかを決定することと、を包含し、
前記プロセッサは、さらに、
前記受け取った聴覚データに少なくとも部分的に基づいて発話認識を遂行することと、
前記遂行した発話認識および前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかの前記決定に少なくとも部分的に基づいて音声認識を遂行することと、を行なうべく構成される、項目1に記載の装置。
[項目8]
視覚データを取り込むべく構成された撮像デバイスと、
前記撮像デバイスと通信結合されたコンピューティング・システムと、を備えるシステムであって、
前記コンピューティング・システムは、
乗り物の1人または複数人の搭乗者からの発話入力を含む聴覚データを受け取ることと、
前記乗り物の前記1人または複数人の搭乗者のビデオを含む前記視覚データを受け取ることと、
前記受け取った視覚データに少なくとも部分的に基づいて前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかを決定することと、を行なうべく構成されるシステム。
[項目9]
さらに前記コンピューティング・システムが、
前記受け取った聴覚データに少なくとも部分的に基づいて発話認識を遂行することと、
前記遂行した発話認識および前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかの前記決定に少なくとも部分的に基づいて音声認識を遂行することと、
前記遂行した発話認識に少なくとも部分的に基づいてユーザ命令を決定することと、を行なうべく構成される項目8に記載のシステム。
[項目10]
前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかを決定することは、さらに、
前記受け取った視覚データに少なくとも部分的に基づく前記乗り物の前記1人または複数人の搭乗者の顔検出であって、前記乗り物の前記1人または複数人の搭乗者の間を区別するべく構成される顔検出を遂行することと、を包含する項目8に記載のシステム。
[項目11]
前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかを決定することは、さらに、
前記受け取った視覚データに少なくとも部分的に基づく前記乗り物の前記1人または複数人の搭乗者の顔検出であって、前記乗り物の前記1人または複数人の搭乗者の間を区別するべく構成される顔検出を遂行することと、
前記顔検出に少なくとも部分的に基づいて前記乗り物の前記1人または複数人の搭乗者と個人プロファイルとを関連付けすることと、を包含する項目8に記載のシステム。
[項目12]
前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかを決定することは、さらに、
前記受け取った視覚データに少なくとも部分的に基づいて前記乗り物の前記1人または複数人の搭乗者の口唇追跡を遂行すること、を包含する項目8に記載のシステム。
[項目13]
前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかを決定することは、さらに、
前記受け取った視覚データに少なくとも部分的に基づいて前記乗り物の前記1人または複数人の搭乗者と個人プロファイルとを関連付けすることと、
前記受け取った視覚データに少なくとも部分的に基づいて前記乗り物の前記1人または複数人の搭乗者の口唇追跡を遂行することと、
前記口唇追跡に少なくとも部分的に基づいて前記乗り物の前記1人または複数人の搭乗者の中に話をしている者はいるか否かを決定することと、
前記乗り物の前記1人または複数人の搭乗者の中に話をしている者はいるか否かの決定に少なくとも部分的に基づいて乗り物オーディオ出力の音量を下げることと、を包含する項目8に記載のシステム。
[項目14]
前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかを決定することは、さらに、
前記受け取った視覚データに少なくとも部分的に基づいて前記乗り物の前記1人または複数人の搭乗者と個人プロファイルとを関連付けすることと、
前記受け取った視覚データに少なくとも部分的に基づいて前記乗り物の前記1人または複数人の搭乗者の口唇追跡を遂行することと、
前記口唇追跡に少なくとも部分的に基づいて前記乗り物の前記1人または複数人の搭乗者のうちの誰が話をしているかを決定することと、を包含し、
前記コンピューティング・システムは、さらに、
前記受け取った聴覚データに少なくとも部分的に基づいて発話認識を遂行することと、
前記遂行した発話認識および前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかの前記決定に少なくとも部分的に基づいて音声認識を遂行することと、を行なうべく構成される項目8に記載のシステム。
[項目15]
コンピュータにより実装される方法であって、
乗り物の1人または複数人の搭乗者からの発話入力を含む聴覚データを受け取ることと、
前記乗り物の前記1人または複数人の搭乗者のビデオを含む視覚データを受け取ることと、
前記受け取った視覚データに少なくとも部分的に基づいて前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかを決定することと、
を備える方法。
[項目16]
さらに、
前記受け取った聴覚データに少なくとも部分的に基づいて発話認識を遂行することと、
前記遂行した発話認識および前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかの前記決定に少なくとも部分的に基づいて音声認識を遂行することと、を備える項目15に記載の方法。
[項目17]
さらに、
前記受け取った聴覚データに少なくとも部分的に基づいて発話認識を遂行することと、
前記遂行した発話認識および前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかの前記決定に少なくとも部分的に基づいて音声認識を遂行することと、
前記遂行した発話認識に少なくとも部分的に基づいてユーザ命令を決定することと、を備える項目15に記載の方法。
[項目18]
前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかを決定することは、さらに、
前記受け取った視覚データに少なくとも部分的に基づく前記乗り物の前記1人または複数人の搭乗者の顔検出であって、前記乗り物の前記1人または複数人の搭乗者の間を区別するべく構成される顔検出を遂行することを包含する、項目15に記載の方法。
[項目19]
前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかを決定することは、さらに、
前記受け取った視覚データに少なくとも部分的に基づく前記乗り物の前記1人または複数人の搭乗者の顔検出であって、前記乗り物の前記1人または複数人の搭乗者の間を区別するべく構成される顔検出を遂行することと、
前記顔検出に少なくとも部分的に基づいて前記乗り物の前記1人または複数人の搭乗者と個人プロファイルとを関連付けすることと、を包含する項目15に記載の方法。
[項目20]
前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかを決定することは、さらに、
前記受け取った視覚データに少なくとも部分的に基づいて前記乗り物の前記1人または複数人の搭乗者の口唇追跡を遂行すること、を包含する項目15に記載の方法。
[項目21]
前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかを決定することは、さらに、
前記受け取った視覚データに少なくとも部分的に基づいて前記乗り物の前記1人または複数人の搭乗者と個人プロファイルとを関連付けすることと、
前記受け取った視覚データに少なくとも部分的に基づいて前記乗り物の前記1人または複数人の搭乗者の口唇追跡を遂行することと、
前記口唇追跡に少なくとも部分的に基づいて前記乗り物の前記1人または複数人の搭乗者の中に話をしている者はいるか否かを決定することと、
前記乗り物の前記1人または複数人の搭乗者の中に話をしている者はいるか否かの決定に少なくとも部分的に基づいて乗り物オーディオ出力の音量を下げることと、を包含する項目15に記載の方法。
[項目22]
前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかを決定することは、さらに、
前記受け取った視覚データに少なくとも部分的に基づいて前記乗り物の前記1人または複数人の搭乗者と個人プロファイルとを関連付けすることと、
前記受け取った視覚データに少なくとも部分的に基づいて前記乗り物の前記1人または複数人の搭乗者の口唇追跡を遂行すること、
前記口唇追跡に少なくとも部分的に基づいて前記乗り物の前記1人または複数人の搭乗者のうちの誰が話をしているかを決定することと、を包含し、さらに前記方法が、
前記受け取った聴覚データに少なくとも部分的に基づいて発話認識を遂行することと、
前記遂行した発話認識および前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかの前記決定に少なくとも部分的に基づいて音声認識を遂行することと、を包含する項目15に記載の方法。
[項目23]
前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかを決定することは、さらに、
前記受け取った視覚データに少なくとも部分的に基づく前記乗り物の前記1人または複数人の搭乗者の顔検出であって、前記乗り物の前記1人または複数人の搭乗者の間を区別するべく構成される顔検出を遂行することと、
前記顔検出に少なくとも部分的に基づいて前記乗り物の前記1人または複数人の搭乗者と個人プロファイルとを関連付けすることと、
前記受け取った視覚データおよび前記遂行した顔検出に少なくとも部分的に基づいて前記乗り物の前記1人または複数人の搭乗者の口唇追跡を遂行すること、
前記口唇追跡に少なくとも部分的に基づいて前記乗り物の前記1人または複数人の搭乗者の中に話をしている者はいるか否かを決定することと、
前記口唇追跡に少なくとも部分的に基づいて前記乗り物の前記1人または複数人の搭乗者のうちの誰が話をしているかを決定することと、を包含し、さらに前記方法が、
前記受け取った聴覚データに少なくとも部分的に基づいて発話認識を遂行することと、
前記遂行した発話認識および前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかの前記決定に少なくとも部分的に基づいて音声認識を遂行することと、
前記遂行した発話認識に少なくとも部分的に基づいてユーザ命令を決定することと、を包含する項目15に記載の方法。
[項目24]
インストラクションを含むプログラムであって、当該インストラクションは、コンピュータに実行されると、
乗り物の1人または複数人の搭乗者からの発話入力を含む聴覚データを受け取ることと、
前記乗り物の前記1人または複数人の搭乗者のビデオを含む視覚データを受け取ることと、
前記受け取った視覚データに少なくとも部分的に基づいて前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかを決定することと、を結果としてもたらすプログラム。
[項目25]
前記インストラクションは、前記コンピュータに実行されると、さらに、
前記受け取った聴覚データに少なくとも部分的に基づいて発話認識を遂行することと、
前記遂行した発話認識および前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかの前記決定に少なくとも部分的に基づいて音声認識を遂行することと、
前記遂行した発話認識に少なくとも部分的に基づいてユーザ命令を決定することと、を結果としてもたらす項目24に記載のプログラム。
[項目26]
前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかを決定することは、さらに、
前記受け取った視覚データに少なくとも部分的に基づく前記乗り物の前記1人または複数人の搭乗者の顔検出であって、前記乗り物の前記1人または複数人の搭乗者の間を区別するべく構成される顔検出を遂行することと、を包含する項目24に記載のプログラム。
[項目27]
前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかを決定することは、さらに、
前記受け取った視覚データに少なくとも部分的に基づく前記乗り物の前記1人または複数人の搭乗者の顔検出であって、前記乗り物の前記1人または複数人の搭乗者の間を区別するべく構成される顔検出を遂行することと、
前記顔検出に少なくとも部分的に基づいて前記乗り物の前記1人または複数人の搭乗者と個人プロファイルとを関連付けすることと、を包含する項目24に記載のプログラム。
[項目28]
前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかを決定することは、さらに、
前記受け取った視覚データに少なくとも部分的に基づいて前記乗り物の前記1人または複数人の搭乗者の口唇追跡を遂行すること、を包含する項目24に記載のプログラム。
[項目29]
前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかを決定することは、さらに、
前記受け取った視覚データに少なくとも部分的に基づいて前記乗り物の前記1人または複数人の搭乗者と個人プロファイルとを関連付けすることと、
前記受け取った視覚データに少なくとも部分的に基づいて前記乗り物の前記1人または複数人の搭乗者の口唇追跡を遂行すること、
前記口唇追跡に少なくとも部分的に基づいて前記乗り物の前記1人または複数人の搭乗者の中に話をしている者はいるか否かを決定することと、
前記乗り物の前記1人または複数人の搭乗者の中に話をしている者はいるか否かの決定に少なくとも部分的に基づいて乗り物オーディオ出力の音量を下げることと、を包含する項目24に記載のプログラム。
[項目30]
前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかを決定することは、さらに、
前記受け取った視覚データに少なくとも部分的に基づいて前記乗り物の前記1人または複数人の搭乗者と個人プロファイルとを関連付けすることと、
前記受け取った視覚データに少なくとも部分的に基づいて前記乗り物の前記1人または複数人の搭乗者の口唇追跡を遂行すること、
前記口唇追跡に少なくとも部分的に基づいて前記乗り物の前記1人または複数人の搭乗者のうちの誰が話をしているかを決定することと、を包含し、
前記インストラクションは、前記コンピュータに実行されると、さらに、
前記受け取った聴覚データに少なくとも部分的に基づいて発話認識を遂行することと、
前記遂行した発話認識および前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかの前記決定に少なくとも部分的に基づいて音声認識を遂行することと、を結果としてもたらす項目24に記載のプログラム。
200 音声認識プロセス、プロセス、300 音声認識プロセス、プロセス、302 発話認識モジュール、304 顔検出モジュール、306 口唇追跡モジュール、308 コントロール・システム
400 口唇追跡プロセス、401 ビデオ・データ画像、402 口唇、404 口唇位置特定、406 特徴ポイント詳細化、407 楕円モデリング、408 楕円モデル、410 口角、412 エッジ・ポイント、414 口唇輪郭構築、416 ポイント、420 ビデオ・データ画像、422 ビデオ・データ画像
500 システム、502 プラットフォーム、505 チップセット、510 プロセッサ、512 メモリ、514 ストレージ、515 グラフィック・サブシステム、516 アプリケーション、ソフトウエア・アプリケーション、518 ラジオ、520 ディスプレイ、522 ユーザ・インターフェース、530 コンテント・サービス・デバイス、540 コンテント配信デバイス、550 ナビゲーションコントローラ、560 ネットワーク
600 デバイス、602 ハウジング、604 ディスプレイ、606 I/Oデバイス、608 アンテナ、612 ナビゲーション特徴
Claims (27)
- 乗り物の1人または複数人の搭乗者からの発話入力を含む聴覚データを受け取ることと、
前記乗り物の前記1人または複数人の搭乗者のビデオを含む視覚データを受け取ることと、
前記受け取った視覚データに少なくとも部分的に基づいて前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかを決定することと、
を行なうべく構成されるプロセッサを備え、
前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかを決定することは、
前記受け取った視覚データに少なくとも部分的に基づいて前記乗り物の前記1人または複数人の搭乗者の口唇追跡を遂行することと、
前記口唇追跡に少なくとも部分的に基づいて前記乗り物の前記1人または複数人の搭乗者の中に話をしている者がいるか否かを決定することと、
前記乗り物の前記1人または複数人の搭乗者の中に話をしている者がいる場合に、乗り物オーディオ出力の音量を下げることと
を包含し、
前記プロセッサは、
前記乗り物オーディオ出力の音量を下げた後に、前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかの前記決定に少なくとも部分的に基づいて、音声認識を遂行すること
をさらに行なうべく構成される、装置。 - 前記プロセッサは、さらに、
前記受け取った聴覚データに少なくとも部分的に基づいて発話認識を遂行することと、
前記遂行した発話認識および前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかの前記決定に少なくとも部分的に基づいて音声認識を遂行することと、
前記遂行した発話認識に少なくとも部分的に基づいてユーザ命令を決定することと、を行なうべく構成される、請求項1に記載の装置。 - 前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかを決定することは、さらに、
前記受け取った視覚データに少なくとも部分的に基づく前記乗り物の前記1人または複数人の搭乗者の顔検出であって、前記乗り物の前記1人または複数人の搭乗者の間を区別するべく構成される顔検出を遂行することと、を包含する請求項1又は2に記載の装置。 - 前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかを決定することは、さらに、
前記受け取った視覚データに少なくとも部分的に基づく前記乗り物の前記1人または複数人の搭乗者の顔検出であって、前記乗り物の前記1人または複数人の搭乗者の間を区別するべく構成される顔検出を遂行することと、
前記顔検出に少なくとも部分的に基づいて前記乗り物の前記1人または複数人の搭乗者と個人プロファイルとを関連付けすることと、を包含する請求項1又は2に記載の装置。 - 前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかを決定することは、さらに、
前記受け取った視覚データに少なくとも部分的に基づいて前記乗り物の前記1人または複数人の搭乗者と個人プロファイルとを関連付けすること
を包含する請求項1から3のいずれか一項に記載の装置。 - 前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかを決定することは、さらに、
前記受け取った視覚データに少なくとも部分的に基づいて前記乗り物の前記1人または複数人の搭乗者と個人プロファイルとを関連付けすることと、
前記口唇追跡に少なくとも部分的に基づいて前記乗り物の前記1人または複数人の搭乗者のうちの誰が話をしているかを決定することと、を包含し、
前記プロセッサは、さらに、
前記受け取った聴覚データに少なくとも部分的に基づいて発話認識を遂行することと、
前記遂行した発話認識および前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかの前記決定に少なくとも部分的に基づいて音声認識を遂行することと、を行なうべく構成される、請求項1に記載の装置。 - 視覚データを取り込むべく構成された撮像デバイスと、
前記撮像デバイスと通信結合されたコンピューティング・システムと、を備えるシステムであって、
前記コンピューティング・システムは、
乗り物の1人または複数人の搭乗者からの発話入力を含む聴覚データを受け取ることと、
前記乗り物の前記1人または複数人の搭乗者のビデオを含む前記視覚データを受け取ることと、
前記受け取った視覚データに少なくとも部分的に基づいて前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかを決定することと、を行なうべく構成され、
前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかを決定することは、
前記受け取った視覚データに少なくとも部分的に基づいて前記乗り物の前記1人または複数人の搭乗者の口唇追跡を遂行することと、
前記口唇追跡に少なくとも部分的に基づいて前記乗り物の前記1人または複数人の搭乗者の中に話をしている者がいるか否かを決定することと、
前記乗り物の前記1人または複数人の搭乗者の中に話をしている者がいる場合に、乗り物オーディオ出力の音量を下げることと
を包含し、
前記コンピューティング・システムは、
前記乗り物オーディオ出力の音量を下げた後に、前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかの前記決定に少なくとも部分的に基づいて、音声認識を遂行すること
をさらに行なうべく構成される、システム。 - さらに前記コンピューティング・システムが、
前記受け取った聴覚データに少なくとも部分的に基づいて発話認識を遂行することと、
前記遂行した発話認識および前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかの前記決定に少なくとも部分的に基づいて音声認識を遂行することと、
前記遂行した発話認識に少なくとも部分的に基づいてユーザ命令を決定することと、を行なうべく構成される請求項7に記載のシステム。 - 前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかを決定することは、さらに、
前記受け取った視覚データに少なくとも部分的に基づく前記乗り物の前記1人または複数人の搭乗者の顔検出であって、前記乗り物の前記1人または複数人の搭乗者の間を区別するべく構成される顔検出を遂行することと、を包含する請求項7又は8に記載のシステム。 - 前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかを決定することは、さらに、
前記受け取った視覚データに少なくとも部分的に基づく前記乗り物の前記1人または複数人の搭乗者の顔検出であって、前記乗り物の前記1人または複数人の搭乗者の間を区別するべく構成される顔検出を遂行することと、
前記顔検出に少なくとも部分的に基づいて前記乗り物の前記1人または複数人の搭乗者と個人プロファイルとを関連付けすることと、を包含する請求項7又は8に記載のシステム。 - 前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかを決定することは、さらに、
前記受け取った視覚データに少なくとも部分的に基づいて前記乗り物の前記1人または複数人の搭乗者と個人プロファイルとを関連付けすること
を包含する請求項7から9のいずれか一項に記載のシステム。 - 前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかを決定することは、さらに、
前記受け取った視覚データに少なくとも部分的に基づいて前記乗り物の前記1人または複数人の搭乗者と個人プロファイルとを関連付けすることと、
前記口唇追跡に少なくとも部分的に基づいて前記乗り物の前記1人または複数人の搭乗者のうちの誰が話をしているかを決定することと、を包含し、
前記コンピューティング・システムは、さらに、
前記受け取った聴覚データに少なくとも部分的に基づいて発話認識を遂行することと、
前記遂行した発話認識および前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかの前記決定に少なくとも部分的に基づいて音声認識を遂行することと、を行なうべく構成される請求項7に記載のシステム。 - コンピュータにより実装される方法であって、
乗り物の1人または複数人の搭乗者からの発話入力を含む聴覚データを受け取ることと、
前記乗り物の前記1人または複数人の搭乗者のビデオを含む視覚データを受け取ることと、
前記受け取った視覚データに少なくとも部分的に基づいて前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかを決定することと、
を備え、
前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかを決定することは、
前記受け取った視覚データに少なくとも部分的に基づいて前記乗り物の前記1人または複数人の搭乗者の口唇追跡を遂行することと、
前記口唇追跡に少なくとも部分的に基づいて前記乗り物の前記1人または複数人の搭乗者の中に話をしている者がいるか否かを決定することと、
前記乗り物の前記1人または複数人の搭乗者の中に話をしている者がいる場合に、乗り物オーディオ出力の音量を下げることと
を包含し、
前記方法は、
前記乗り物オーディオ出力の音量を下げた後に、前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかの前記決定に少なくとも部分的に基づいて、音声認識を遂行すること
をさらに備える、方法。 - さらに、
前記受け取った聴覚データに少なくとも部分的に基づいて発話認識を遂行することと、
前記遂行した発話認識および前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかの前記決定に少なくとも部分的に基づいて音声認識を遂行することと、を備える請求項13に記載の方法。 - さらに、
前記受け取った聴覚データに少なくとも部分的に基づいて発話認識を遂行することと、
前記遂行した発話認識および前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかの前記決定に少なくとも部分的に基づいて音声認識を遂行することと、
前記遂行した発話認識に少なくとも部分的に基づいてユーザ命令を決定することと、を備える請求項13に記載の方法。 - 前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかを決定することは、さらに、
前記受け取った視覚データに少なくとも部分的に基づく前記乗り物の前記1人または複数人の搭乗者の顔検出であって、前記乗り物の前記1人または複数人の搭乗者の間を区別するべく構成される顔検出を遂行することを包含する、請求項13から15のいずれか一項に記載の方法。 - 前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかを決定することは、さらに、
前記受け取った視覚データに少なくとも部分的に基づく前記乗り物の前記1人または複数人の搭乗者の顔検出であって、前記乗り物の前記1人または複数人の搭乗者の間を区別するべく構成される顔検出を遂行することと、
前記顔検出に少なくとも部分的に基づいて前記乗り物の前記1人または複数人の搭乗者と個人プロファイルとを関連付けすることと、を包含する請求項13から15のいずれか一項に記載の方法。 - 前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかを決定することは、さらに、
前記受け取った視覚データに少なくとも部分的に基づいて前記乗り物の前記1人または複数人の搭乗者と個人プロファイルとを関連付けすること
を包含する請求項13から16のいずれか一項に記載の方法。 - 前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかを決定することは、さらに、
前記受け取った視覚データに少なくとも部分的に基づいて前記乗り物の前記1人または複数人の搭乗者と個人プロファイルとを関連付けすることと、
前記口唇追跡に少なくとも部分的に基づいて前記乗り物の前記1人または複数人の搭乗者のうちの誰が話をしているかを決定することと
を包含し、さらに前記方法が、
前記受け取った聴覚データに少なくとも部分的に基づいて発話認識を遂行することと、
前記遂行した発話認識および前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかの前記決定に少なくとも部分的に基づいて音声認識を遂行することと、を包含する請求項13に記載の方法。 - 前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかを決定することは、さらに、
前記受け取った視覚データに少なくとも部分的に基づく前記乗り物の前記1人または複数人の搭乗者の顔検出であって、前記乗り物の前記1人または複数人の搭乗者の間を区別するべく構成される顔検出を遂行することと、
前記顔検出に少なくとも部分的に基づいて前記乗り物の前記1人または複数人の搭乗者と個人プロファイルとを関連付けすることと、
前記受け取った視覚データおよび前記遂行した顔検出に少なくとも部分的に基づいて前記乗り物の前記1人または複数人の搭乗者の口唇追跡を遂行することと、
前記口唇追跡に少なくとも部分的に基づいて前記乗り物の前記1人または複数人の搭乗者のうちの誰が話をしているかを決定することと、を包含し、さらに前記方法が、
前記受け取った聴覚データに少なくとも部分的に基づいて発話認識を遂行することと、
前記遂行した発話認識および前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかの前記決定に少なくとも部分的に基づいて音声認識を遂行することと、
前記遂行した発話認識に少なくとも部分的に基づいてユーザ命令を決定することと、を包含する請求項13に記載の方法。 - インストラクションを含むプログラムであって、当該インストラクションは、コンピュータに実行されると、
乗り物の1人または複数人の搭乗者からの発話入力を含む聴覚データを受け取ることと、
前記乗り物の前記1人または複数人の搭乗者のビデオを含む視覚データを受け取ることと、
前記受け取った視覚データに少なくとも部分的に基づいて前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかを決定することと、を結果としてもたらし、
前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかを決定することは、
前記受け取った視覚データに少なくとも部分的に基づいて前記乗り物の前記1人または複数人の搭乗者の口唇追跡を遂行することと、
前記口唇追跡に少なくとも部分的に基づいて前記乗り物の前記1人または複数人の搭乗者の中に話をしている者がいるか否かを決定することと、
前記乗り物の前記1人または複数人の搭乗者の中に話をしている者がいる場合に、乗り物オーディオ出力の音量を下げることと
を包含し、
前記インストラクションは、前記コンピュータに実行されると、さらに、
前記乗り物オーディオ出力の音量を下げた後に、前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかの前記決定に少なくとも部分的に基づいて、音声認識を遂行すること
を結果としてもたらす、プログラム。 - 前記インストラクションは、前記コンピュータに実行されると、さらに、
前記受け取った聴覚データに少なくとも部分的に基づいて発話認識を遂行することと、
前記遂行した発話認識および前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかの前記決定に少なくとも部分的に基づいて音声認識を遂行することと、
前記遂行した発話認識に少なくとも部分的に基づいてユーザ命令を決定することと、を結果としてもたらす請求項21に記載のプログラム。 - 前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかを決定することは、さらに、
前記受け取った視覚データに少なくとも部分的に基づく前記乗り物の前記1人または複数人の搭乗者の顔検出であって、前記乗り物の前記1人または複数人の搭乗者の間を区別するべく構成される顔検出を遂行することと、を包含する請求項21又は22に記載のプログラム。 - 前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかを決定することは、さらに、
前記受け取った視覚データに少なくとも部分的に基づく前記乗り物の前記1人または複数人の搭乗者の顔検出であって、前記乗り物の前記1人または複数人の搭乗者の間を区別するべく構成される顔検出を遂行することと、
前記顔検出に少なくとも部分的に基づいて前記乗り物の前記1人または複数人の搭乗者と個人プロファイルとを関連付けすることと、を包含する請求項21又は22に記載のプログラム。 - 前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかを決定することは、さらに、
前記受け取った視覚データに少なくとも部分的に基づいて前記乗り物の前記1人または複数人の搭乗者と個人プロファイルとを関連付けすること
を包含する請求項21又は22に記載のプログラム。 - 前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかを決定することは、さらに、
前記受け取った視覚データに少なくとも部分的に基づいて前記乗り物の前記1人または複数人の搭乗者と個人プロファイルとを関連付けすることと、
前記口唇追跡に少なくとも部分的に基づいて前記乗り物の前記1人または複数人の搭乗者のうちの誰が話をしているかを決定することと、を包含し、
前記インストラクションは、前記コンピュータに実行されると、さらに、
前記受け取った聴覚データに少なくとも部分的に基づいて発話認識を遂行することと、
前記遂行した発話認識および前記乗り物の前記1人または複数人の搭乗者の誰と前記受け取った聴覚データとを関連付けするかの前記決定に少なくとも部分的に基づいて音声認識を遂行することと、を結果としてもたらす請求項21に記載のプログラム。 - 請求項21から26のいずれか一項に記載のプログラムを格納するコンピュータ可読媒体。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/CN2011/084649 WO2013097075A1 (en) | 2011-12-26 | 2011-12-26 | Vehicle based determination of occupant audio and visual input |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015507219A JP2015507219A (ja) | 2015-03-05 |
JP5928606B2 true JP5928606B2 (ja) | 2016-06-01 |
Family
ID=48696171
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014547665A Active JP5928606B2 (ja) | 2011-12-26 | 2011-12-26 | 搭乗者の聴覚視覚入力の乗り物ベースの決定 |
Country Status (7)
Country | Link |
---|---|
US (1) | US20140214424A1 (ja) |
EP (1) | EP2798635A4 (ja) |
JP (1) | JP5928606B2 (ja) |
KR (1) | KR101749143B1 (ja) |
CN (1) | CN104011735B (ja) |
BR (1) | BR112014015844A8 (ja) |
WO (1) | WO2013097075A1 (ja) |
Families Citing this family (35)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9881616B2 (en) * | 2012-06-06 | 2018-01-30 | Qualcomm Incorporated | Method and systems having improved speech recognition |
JP5902632B2 (ja) | 2013-01-07 | 2016-04-13 | 日立マクセル株式会社 | 携帯端末装置及び情報処理システム |
US9159317B2 (en) * | 2013-06-14 | 2015-10-13 | Mitsubishi Electric Research Laboratories, Inc. | System and method for recognizing speech |
DE102013222645A1 (de) * | 2013-11-07 | 2015-05-07 | Robert Bosch Gmbh | Erkennungssystem in einem Fahrzeug zur Erfassung der Sprachaktivität eines Fahrzeuginsassen |
US10741182B2 (en) | 2014-02-18 | 2020-08-11 | Lenovo (Singapore) Pte. Ltd. | Voice input correction using non-audio based input |
GB2528247A (en) * | 2014-07-08 | 2016-01-20 | Imagination Tech Ltd | Soundbar |
EP3218928A4 (en) * | 2014-11-12 | 2018-09-19 | Intel Corporation | Flexible system-in-package solutions for wearable devices |
CN104409075B (zh) * | 2014-11-28 | 2018-09-04 | 深圳创维-Rgb电子有限公司 | 语音识别方法和系统 |
EP3147898A1 (en) | 2015-09-23 | 2017-03-29 | Politechnika Gdanska | Method and system for improving the quality of speech signals in speech recognition systems |
US9963096B2 (en) * | 2015-11-16 | 2018-05-08 | Continental Automotive Systems, Inc. | Vehicle infotainment and connectivity system |
US20170174221A1 (en) * | 2015-12-18 | 2017-06-22 | Robert Lawson Vaughn | Managing autonomous vehicles |
US10275982B2 (en) * | 2016-05-13 | 2019-04-30 | Universal Entertainment Corporation | Attendant device, gaming machine, and dealer-alternate device |
US20170372697A1 (en) * | 2016-06-22 | 2017-12-28 | Elwha Llc | Systems and methods for rule-based user control of audio rendering |
WO2018175959A1 (en) * | 2017-03-23 | 2018-09-27 | Joyson Safety Systems Acquisition Llc | System and method of correlating mouth images to input commands |
EP3466761B1 (en) * | 2017-10-05 | 2020-09-09 | Ningbo Geely Automobile Research & Development Co. Ltd. | A display system and method for a vehicle |
JP6916130B2 (ja) * | 2018-03-02 | 2021-08-11 | 株式会社日立製作所 | 話者推定方法および話者推定装置 |
DE102018212902B4 (de) * | 2018-08-02 | 2024-12-19 | Bayerische Motoren Werke Aktiengesellschaft | Verfahren zum Bestimmen eines digitalen Assistenten zum Ausführen einer Fahrzeugfunktion aus einer Vielzahl von digitalen Assistenten in einem Fahrzeug, computerlesbares Medium, System, und Fahrzeug |
EP3648479B1 (en) | 2018-11-02 | 2023-09-27 | Ningbo Geely Automobile Research & Development Co. Ltd. | Audio communication in a vehicle |
JP7023823B2 (ja) | 2018-11-16 | 2022-02-22 | アルパイン株式会社 | 車載装置及び音声認識方法 |
US11167693B2 (en) * | 2018-11-19 | 2021-11-09 | Honda Motor Co., Ltd. | Vehicle attention system and method |
US10863971B2 (en) | 2018-11-30 | 2020-12-15 | Fujifilm Sonosite, Inc. | Touchless input ultrasound control |
US12247841B2 (en) * | 2018-12-19 | 2025-03-11 | Nikon Corporation | Navigation device, vehicle, navigation method, and non-transitory storage medium |
CN109887515B (zh) * | 2019-01-29 | 2021-07-09 | 北京市商汤科技开发有限公司 | 音频处理方法及装置、电子设备和存储介质 |
EP3722158A1 (en) * | 2019-04-10 | 2020-10-14 | Volvo Car Corporation | A voice assistant system |
CN110164440B (zh) * | 2019-06-03 | 2022-08-09 | 交互未来(北京)科技有限公司 | 基于捂嘴动作识别的语音交互唤醒电子设备、方法和介质 |
US11257493B2 (en) | 2019-07-11 | 2022-02-22 | Soundhound, Inc. | Vision-assisted speech processing |
CN110428838A (zh) * | 2019-08-01 | 2019-11-08 | 大众问问(北京)信息科技有限公司 | 一种语音信息识别方法、装置及设备 |
KR20210112726A (ko) * | 2020-03-06 | 2021-09-15 | 엘지전자 주식회사 | 차량의 좌석별로 대화형 비서를 제공하는 방법 |
CN113963692A (zh) * | 2020-07-03 | 2022-01-21 | 华为技术有限公司 | 一种车舱内语音指令控制方法及相关设备 |
KR20220059629A (ko) * | 2020-11-03 | 2022-05-10 | 현대자동차주식회사 | 차량 및 그의 제어방법 |
US12086501B2 (en) * | 2020-12-09 | 2024-09-10 | Cerence Operating Company | Automotive infotainment system with spatially-cognizant applications that interact with a speech interface |
US12175970B2 (en) * | 2020-12-24 | 2024-12-24 | Cerence Operating Company | Speech dialog system for multiple passengers in a car |
CN113488043B (zh) * | 2021-06-30 | 2023-03-24 | 上海商汤临港智能科技有限公司 | 乘员说话检测方法及装置、电子设备和存储介质 |
WO2023121871A1 (en) * | 2021-12-23 | 2023-06-29 | Stoneridge Electronics Ab | Method and apparatus for system command verification |
WO2024248576A1 (ko) * | 2023-06-01 | 2024-12-05 | (주)윈트론 | 차량용 인터폰 시스템 |
Family Cites Families (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE19962218C2 (de) * | 1999-12-22 | 2002-11-14 | Siemens Ag | Verfahren und System zum Autorisieren von Sprachbefehlen |
US6999932B1 (en) * | 2000-10-10 | 2006-02-14 | Intel Corporation | Language independent voice-based search system |
US6964023B2 (en) * | 2001-02-05 | 2005-11-08 | International Business Machines Corporation | System and method for multi-modal focus detection, referential ambiguity resolution and mood classification using multi-modal input |
US6498970B2 (en) * | 2001-04-17 | 2002-12-24 | Koninklijke Phillips Electronics N.V. | Automatic access to an automobile via biometrics |
DE10123179A1 (de) * | 2001-05-12 | 2002-11-14 | Daimler Chrysler Ag | Kraftfahrzeug mit mehreren Sitzplätzen |
US7130446B2 (en) * | 2001-12-03 | 2006-10-31 | Microsoft Corporation | Automatic detection and tracking of multiple individuals using multiple cues |
US6996526B2 (en) * | 2002-01-02 | 2006-02-07 | International Business Machines Corporation | Method and apparatus for transcribing speech when a plurality of speakers are participating |
JP3807307B2 (ja) * | 2002-01-07 | 2006-08-09 | 株式会社デンソー | 車両用空調装置 |
US20030154084A1 (en) * | 2002-02-14 | 2003-08-14 | Koninklijke Philips Electronics N.V. | Method and system for person identification using video-speech matching |
JP2004354930A (ja) * | 2003-05-30 | 2004-12-16 | Calsonic Kansei Corp | 音声認識システム |
WO2005048239A1 (ja) * | 2003-11-12 | 2005-05-26 | Honda Motor Co., Ltd. | 音声認識装置 |
US7542971B2 (en) * | 2004-02-02 | 2009-06-02 | Fuji Xerox Co., Ltd. | Systems and methods for collaborative note-taking |
JP2006251266A (ja) * | 2005-03-10 | 2006-09-21 | Hitachi Ltd | 視聴覚連携認識方法および装置 |
US7826945B2 (en) * | 2005-07-01 | 2010-11-02 | You Zhang | Automobile speech-recognition interface |
JP5153211B2 (ja) * | 2007-05-25 | 2013-02-27 | キヤノン株式会社 | 撮像装置及びその制御方法 |
JP2009146263A (ja) * | 2007-12-17 | 2009-07-02 | Panasonic Corp | 本人認証システム |
US8423362B2 (en) * | 2007-12-21 | 2013-04-16 | General Motors Llc | In-vehicle circumstantial speech recognition |
JP2010156825A (ja) * | 2008-12-26 | 2010-07-15 | Fujitsu Ten Ltd | 音声出力装置 |
KR101035768B1 (ko) * | 2009-01-02 | 2011-05-20 | 전남대학교산학협력단 | 립 리딩을 위한 입술 영역 설정 방법 및 장치 |
US8275622B2 (en) * | 2009-02-06 | 2012-09-25 | Mitsubishi Electric Research Laboratories, Inc. | Ultrasonic doppler sensor for speaker recognition |
KR101041039B1 (ko) * | 2009-02-27 | 2011-06-14 | 고려대학교 산학협력단 | 오디오 및 비디오 정보를 이용한 시공간 음성 구간 검출 방법 및 장치 |
KR101092820B1 (ko) * | 2009-09-22 | 2011-12-12 | 현대자동차주식회사 | 립리딩과 음성 인식 통합 멀티모달 인터페이스 시스템 |
US8660842B2 (en) * | 2010-03-09 | 2014-02-25 | Honda Motor Co., Ltd. | Enhancing speech recognition using visual information |
CN101923854B (zh) * | 2010-08-31 | 2012-03-28 | 中国科学院计算技术研究所 | 一种交互式语音识别系统和方法 |
-
2011
- 2011-12-26 JP JP2014547665A patent/JP5928606B2/ja active Active
- 2011-12-26 CN CN201180075888.XA patent/CN104011735B/zh active Active
- 2011-12-26 WO PCT/CN2011/084649 patent/WO2013097075A1/en active Application Filing
- 2011-12-26 EP EP11878572.4A patent/EP2798635A4/en not_active Withdrawn
- 2011-12-26 BR BR112014015844A patent/BR112014015844A8/pt not_active IP Right Cessation
- 2011-12-26 KR KR1020147017764A patent/KR101749143B1/ko active Active
- 2011-12-26 US US13/977,541 patent/US20140214424A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
EP2798635A1 (en) | 2014-11-05 |
BR112014015844A2 (pt) | 2017-06-13 |
EP2798635A4 (en) | 2016-04-27 |
CN104011735A (zh) | 2014-08-27 |
WO2013097075A1 (en) | 2013-07-04 |
BR112014015844A8 (pt) | 2017-07-04 |
CN104011735B (zh) | 2018-03-30 |
KR20140104461A (ko) | 2014-08-28 |
US20140214424A1 (en) | 2014-07-31 |
KR101749143B1 (ko) | 2017-06-20 |
JP2015507219A (ja) | 2015-03-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5928606B2 (ja) | 搭乗者の聴覚視覚入力の乗り物ベースの決定 | |
US9972322B2 (en) | Speaker recognition using adaptive thresholding | |
US10984783B2 (en) | Spoken keyword detection based utterance-level wake on intent system | |
US10937426B2 (en) | Low resource key phrase detection for wake on voice | |
CN111179961B (zh) | 音频信号处理方法、装置、电子设备及存储介质 | |
US10043521B2 (en) | User defined key phrase detection by user dependent sequence modeling | |
US9972313B2 (en) | Intermediate scoring and rejection loopback for improved key phrase detection | |
US10083689B2 (en) | Linear scoring for low power wake on voice | |
CN111696570B (zh) | 语音信号处理方法、装置、设备及存储介质 | |
US10438588B2 (en) | Simultaneous multi-user audio signal recognition and processing for far field audio | |
KR101752072B1 (ko) | 오브젝트 검출을 가속하기 위한 하드웨어 컨볼루션 사전-필터 | |
US10685666B2 (en) | Automatic gain adjustment for improved wake word recognition in audio systems | |
US20140129207A1 (en) | Augmented Reality Language Translation | |
JP6026007B2 (ja) | ビデオモーション推定モジュールを用いた加速対象検出フィルタ | |
US20180239973A1 (en) | A real-time multiple vehicle detection and tracking | |
WO2021052306A1 (zh) | 声纹特征注册 | |
WO2022206602A1 (zh) | 语音唤醒方法、装置、存储介质及系统 | |
CN110322760A (zh) | 语音数据生成方法、装置、终端及存储介质 | |
CN111341307A (zh) | 语音识别方法、装置、电子设备及存储介质 | |
US20140192133A1 (en) | Content aware selective adjusting of motion estimation | |
US20220165263A1 (en) | Electronic apparatus and method of controlling the same |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20150727 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150804 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20151030 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160405 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160411 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5928606 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |