JP6977004B2 - 車載装置、発声を処理する方法およびプログラム - Google Patents
車載装置、発声を処理する方法およびプログラム Download PDFInfo
- Publication number
- JP6977004B2 JP6977004B2 JP2019152908A JP2019152908A JP6977004B2 JP 6977004 B2 JP6977004 B2 JP 6977004B2 JP 2019152908 A JP2019152908 A JP 2019152908A JP 2019152908 A JP2019152908 A JP 2019152908A JP 6977004 B2 JP6977004 B2 JP 6977004B2
- Authority
- JP
- Japan
- Prior art keywords
- speaker
- data
- vehicle
- feature vector
- speaker feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60R—VEHICLES, VEHICLE FITTINGS, OR VEHICLE PARTS, NOT OTHERWISE PROVIDED FOR
- B60R11/00—Arrangements for holding or mounting articles, not otherwise provided for
- B60R11/02—Arrangements for holding or mounting articles, not otherwise provided for for radio sets, television sets, telephones, or the like; Arrangement of controls thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
- G10L15/25—Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/57—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Signal Processing (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Probability & Statistics with Applications (AREA)
- General Engineering & Computer Science (AREA)
- Mechanical Engineering (AREA)
- Oral & Maxillofacial Surgery (AREA)
- User Interface Of Digital Computer (AREA)
- Image Analysis (AREA)
- Automobile Manufacture Line, Endless Track Vehicle, Trailer (AREA)
Description
本技術は音声処理の分野にある。ある例は、車両内部からキャプチャされる音声を処理することに関する。
コンピューティングにおける最近の進歩によって、多くの長く望まれていた音声制御アプリケーションを実現する可能性が高まっている。たとえば、有効なニューラルネットワークアーキテクチャについての実際的なフレームワークを含む統計モデルにおける改善によって、以前の音声処理システムの精度および信頼性が大幅に増加している。これがワイドエリアコンピュータネットワークの興隆と組み合わされ、単にアプリケーションプログラミングインターフェイスを使用してアクセスされ得るある範囲のモジュラーサービスを提供する。音声は急速に、ユーザインターフェイスを提供するための実行可能オプションになっている。
本願明細書において記載されるある例は、スピーチを処理するための方法およびシステムを提供する。ある例は、スピーチを処理するためにオーディオデータおよび画像データの両方を使用する。ある例は、車両内でキャプチャされる発声を処理する困難に対応するために適合される。ある例は、たとえば車両内の人といった少なくとも人の顔エリアを特徴とする画像データに基づいて、話者特徴ベクトルを得る。その後、音声処理は、発声の話者に依存する視覚由来情報を使用して行なわれる。これにより、精度および堅牢性が改善され得る。
さまざまな興味深い局面を示す本技術のさまざまな例を以下に説明する。一般に、例は、記載された局面を任意の組合せで使用し得る。
図1Aは、音声処理装置についての例示的なコンテキストを示す。図1Aでは、当該コンテキストは自動車両である。図1Aは、自動車両の内部100の概略図である。内部100は、自動車両の前部の運転手側について示される。人102が内部100内に存在するのが示される。図1Aでは、人は自動車両の運転手である。運転手は、車両において前方に向いており、ウインドシールド104を介して道路を観察する。人は、ハンドル106を使用して車両を制御し、ダッシュボードまたはインストルメントパネル108を介して車両状態指示を観察する。図1Aでは、画像キャプチャデバイス110は、自動車両の内部100内においてダッシュボード108の底部の近傍に位置する。画像キャプチャデバイス110は、人102の顔エリア114をキャプチャする視野112を有する。この例において、画像キャプチャデバイス110は、ハンドル106のアパーチャを通じて画像をキャプチャするように位置決めされる。図1Aはさらに、自動車両の内部100内に位置するオーディオキャプチャデバイス116を示す。オーディオキャプチャデバイス116は人102によって発される音をキャプチャするように配される。たとえば、オーディオキャプチャデバイス116は、人102からの音声、すなわち、人の顔エリア114から発せられる音をキャプチャするために配され得る。オーディオキャプチャデバイス116はウインドシールド104にマウントされているのが示される。たとえば、オーディオキャプチャデバイス116は、バックミラーの近傍またはバックミラー上にマウントされてもよく、人102の側に対するドアフレーム上にマウントされてもよい。図1Aはさらに音声処理装置120を示す。音声処理装置120は自動車両にマウントされ得る。音声処理装置120は、自動車両のための制御システムを含み得るか、または、制御システムの部分を形成し得る。図1Aの例において、画像キャプチャデバイス110およびオーディオキャプチャデバイス116は、たとえば1つ以上の有線および/または無線インターフェイスを介して音声処理装置120に通信可能に結合される。画像キャプチャデバイス110は、自動車両の窓ガラスを介して自動車両内の画像をキャプチャするために自動車両外に位置され得る。
図2は、例示的な音声処理装置200を示す。たとえば、音声処理装置200は、図1Aおよび図1Bにおいて示される音声処理装置120を実現するために使用され得る。音声処理装置200は、車両内自動音声認識システムの部分を形成し得る。他の場合では、音声処理装置200は、家またはオフィスといった車両外部での使用に適合され得る。
図3は、例示的な音声処理装置300を示す。音声処理装置300は、図2における話者前処理モジュール220を実現するために使用され得る付加的なコンポーネントを示す。図3に示されるあるコンポーネントは、図2に示されるそれらの相当物と同様であり、同様の参照番号を有する。図2を参照して上で記載される特徴はさらに、図3の例300にも該当し得る。図2の例示的な音声処理装置200のように、図3の例示的な音声処理装置300は、話者前処理モジュール320および音声処理モジュール330を含む。音声処理モジュール330はオーディオデータ355および話者特徴ベクトル325を受け取り、言語的特徴360のセットを計算する。音声処理モジュール330は、図2を参照して上で記載された例と同様の態様で構成され得る。
本願明細書において記載されるある例において、話者特徴ベクトル225または325のような話者特徴ベクトルは、たとえば図2および図3におけるオーディオデータ255または355といったオーディオデータに基づいて生成されるデータを含み得る。これは図3において破線によって示される。1つの場合では、話者特徴ベクトルの少なくとも部分は、ファクタ解析に基づいて生成されるベクトルを含み得る。この場合、発声は、1つ以上のファクタの線形関数であるベクトルMとして表わされ得る。ファクタは、線形および/または非線形モデルにおいて組み合わされ得る。これらのファクタのうちの1つは、話者およびセッション独立スーパーベクトル(speaker and session independent supervector)mを含み得る。これは、ユニバーサルバックグランドモデル(UBM: Universal Background Model)に基づき得る。これらのファクタのうちの別の物は、話者依存ベクトルwを含み得る。この後者のファクタはさらに、チャネルもしくはセッションに依存し得、または、チャネルおよび/またはセッションに依存するさらに別のファクタが提供され得る。1つの場合では、ファクタ解析は、混合ガウスモデル(GMM)混合を使用して行なわれる。シンプルな場合では、話者発声は、M=m+Twとして決定されるスーパーベクトルMによって表わされ得、式中、Tは少なくとも話者サブスペースを定義するマトリックスである。話者依存ベクトルwは、浮動小数点値を有する複数の要素を有し得る。この場合における話者特徴ベクトルは、話者依存のベクトルwに基づき得る。時に「iベクトル」と称されるwを計算する1つの方法は、Najim Dehak、Patrick Kenny、Reda Dehak、Pierre DumouchelおよびPierre Ouelletによる論文「話者照合のためのフロントエンドファクタ分析(Front-End Factor Analysis For Speaker Verification)」に記載されている。当該論文は、2010年、IEEE Transactions On Audio, Speech And Language Processing 19, no.4, pages 788-798において発表されており、本願明細書において参照により援用される。ある例において、話者特徴ベクトルの少なくとも部分は、iベクトルの少なくとも部分を含む。iベクトルは、オーディオデータからの発声について決定される話者依存ベクトルであると見られ得る。
ある例において、話者特徴ベクトル225または325のような話者特徴ベクトルは、ニューラルネットワークアーキテクチャを使用して計算され得る。たとえば、1つの場合では、図3の話者前処理モジュール320のベクトルジェネレータ372は、ニューラルネットワークアーキテクチャを含み得る。この場合、ベクトルジェネレータ372は、オーディオデータ355の次元数を低減することにより話者特徴ベクトルの少なくとも部分を計算し得る。たとえば、ベクトルジェネレータ372は、オーディオデータ355の1つ以上のフレームを受け取るとともに固定長ベクトル出力(たとえば1言語当たり1つのベクトル)を出力するように構成される1つ以上のディープニューラルネットワーク層を含み得る。1つ以上のプーリング、非線形関数およびソフトマックス(SoftMax)層がさらに提供され得る。1つの場合では、話者特徴ベクトルは、David Snyder、Daniel Garcia-Romero、Alan McCree、Gregory Sell、Daniel PoveyおよびSanjeev Khudanpurによる論文「Xベクトルを使用した発声言語認識(Spoken Language Recognition using X-vectors)」に記載されるようにxベクトルに基づいて生成され得る。当該論文は、2018年、Odyssey(pp.105−111)において発表されており、本願明細書において参照により援用される。
図4は、例示的な音声処理モジュール400を示す。音声処理モジュール400は、図1、図2および図3における音声処理モジュール130、230または330を実現するために使用され得る。他の例において、他の音声処理モジュール構成が使用され得る。
図5は、ニューラル話者前処理モジュール520およびニューラル音声処理モジュール530を使用する例示的な音声処理装置500を示す。図5において、図2および図3におけるモジュール220または320を実現し得る話者前処理モジュール520は、ニューラルネットワークアーキテクチャ522を含む。図5では、ニューラルネットワークアーキテクチャ522は、画像データ545を受け取るように構成される。他の場合では、ニューラルネットワークアーキテクチャ522はさらに、たとえば図3における破線のパスウェイ(pathway)によって示されるような、オーディオデータ355のようなオーディオデータを受け取り得る。これらの他の場合では、図3のベクトルジェネレータ372はニューラルネットワークアーキテクチャ522を含み得る。
図6は、音響モデルを構成するために話者特徴ベクトル625を使用する例示的な音声処理モジュール600を示す。音声処理モジュール600は、他の例に記載される音声処理モジュールのうちの1つを少なくとも部分的に実現するために使用され得る。図6では、音声処理モジュール600は、音響モデル構成632のデータベースと、音響モデルセレクタ634と、音響モデルインスタンス636とを含む。音響モデル構成632のデータベースは、音響モデルを構成するためにある数のパラメータを格納する。この例において、音響モデルインスタンス636は、音響モデル構成632のデータベースからのパラメータ値の特定のセットを使用して、インスタンス化される(たとえば、構成または較正される)一般的な音響モデルを含み得る。たとえば、音響モデル構成636のデータベースは、複数の音響モデル構成を格納し得る。各音響モデル構成は、異なるユーザに関連付けられ得、ユーザが検出されないかまたはユーザが検出されるが特に認識されない場合に使用される1つ以上のデフォルト音響モデル構成を含む。
図7および図8は、自動車両のような車両の内部から得られる画像データに適用され得る例示的な画像前処理オペレーションを示す。図7は、画像プリプロセッサ710を含む例示的な画像前処理パイプライン700を示す。画像プリプロセッサ710は、本願明細書に記載されるように、機能を実現するためにハードウェアおよびソフトウェアの任意の組合せを含み得る。1つの場合において、画像プリプロセッサ710は、1つ以上の画像キャプチャデバイスに結合される画像キャプチャ回路の部分を形成するハードウェアコンポーネントを含み得、別の場合では、画像プリプロセッサ710は、車両内制御システムのプロセッサによって実行される(ファームウェアのような)コンピュータプログラムコードによって実現され得る。1つの場合では、画像プリプロセッサ710は、本願明細書における例に記載される話者前処理モジュールの部分として実現され得、他の場合では、画像プリプロセッサ710は、話者前処理モジュールに通信可能に結合され得る。
ある例において、本願明細書において記載される話者特徴ベクトルは少なくとも、人の口または唇の特徴を表わす要素のセットを含み得る。これらの場合では、話者特徴ベクトルは、人の口または唇エリアを特徴とする画像データのコンテンツに基づいて変化するので、話者に依存し得る。図5の例では、ニューラル話者前処理モジュール520は、話者特徴ベクトル525を生成するために使用される唇または口の特徴をエンコードし得る。これらは音声処理モジュール530のパフォーマンスを向上させるために使用され得る。
図10Aおよび図10Bは、本願明細書に記載される車両が自動車両である例を示す。図10Aは、自動車1005の側面図1000を示す。自動車1005は、自動車1005のコンポーネントを制御するための制御ユニット1010を含む。図1Bに示されるような音声処理装置120のコンポーネント(および他の例)は、この制御ユニット1010に組み込まれ得る。他の場合において、音声処理装置120のコンポーネントは、制御ユニット1010との接続のオプションにより、別個のユニットとして実現され得る。自動車1005はさらに、少なくとも1つの画像キャプチャデバイス1015を含む。たとえば、少なくとも1つの画像キャプチャデバイス1015は、図1Aに示される画像キャプチャデバイス110を含み得る。この例において、少なくとも1つの画像キャプチャデバイス1015は、通信可能に制御ユニット1010に結合され得、制御ユニット1010によって制御され得る。他の例において、少なくとも1つの画像キャプチャデバイス1015は制御ユニット1010と通信し、リモートに制御される。本願明細書において記載される機能とともに、少なくとも1つの画像キャプチャデバイス1015は、たとえばビデオデータによるボイスオーバインターネットプロトコルコール、環境モニタリング、運転手覚醒モニタリングなどといったビデオ通信に使用され得る。図10Aはさらに、側面にマウントされたマイクロフォン1020の形態にある少なくとも1つのオーディオキャプチャデバイスを示す。これらは、図1Aにおいて示されるオーディオキャプチャデバイス116を実現し得る。
ある場合には、音声処理モジュールの機能が本願明細書に記載されるように分散され得る。たとえば、ある機能は、自動車1005内でローカルに計算され得、また、ある機能はリモート(「クラウド」)のサーバデバイスによって計算され得る。ある場合には、機能が、自動車(「クライアント」)側およびリモートサーバデバイス(「サーバ」)側で複製され得る。これらの場合において、リモートサーバデバイスへの接続が利用可能でない場合、処理はローカル音声処理モジュールによって行なわれ得、リモートサーバデバイスへの接続が利用可能な場合、オーディオデータ、画像データおよび話者特徴ベクトルのうちの1つ以上は、キャプチャされた発声を解析するためにリモートサーバデバイスに送信され得る。リモートサーバデバイスは、処理リソース(たとえば中央処理装置すなわちCPU、グラフィカル処理ユニットすなわちGPU、およびランダムアクセスメモリ)を有し得るので、接続が利用可能な場合、ローカルパフォーマンスに対する改善を提供し得る。これは、処理パイプラインにおけるレイテンシに対してトレードオフとなり得る(たとえば、ローカル処理はより応答が早い)。1つの場合では、ローカル音声処理モジュールは、第1の出力を提供し得、これはリモート音声処理モジュールの結果によって補足および/または向上され得る。
図12は、本願明細書に記載されるように音声処理装置を実現し得る例示的な埋込型コンピューティングシステム1200を示す。埋込型コンピューティングシステム1200と同様のシステムは、図10において制御ユニット1010を実現するために使用され得る。例示的な埋込型コンピューティングシステム1200は、1つ以上のコンピュータプロセッサ(CPU)コア1210と、0以上のグラフィックスプロセッサ(GPU)コア1220とを含む。プロセッサは、プログラムコードおよびデータストレージのためにランダムアクセスメモリ(RAM)デバイス1240に基板レベルの配線1230を通じて接続する。埋込型コンピューティングシステム1200はさらに、プロセッサがリモートシステムおよび特定の車両制御回路1260と通信することを可能にするためにネットワークインターフェイス1250を含む。インターフェイス1230を通じてRAMデバイスに格納される命令を実行することによって、CPU1210および/またはGPU1220は、本願明細書に記載されるような機能を実行し得る。ある場合には、制約された埋込型コンピューティングデバイスが、コンポーネントの同様の一般的な配置を有し得るが、ある場合において、より少ないコンピューティングリソースを有してもよく、専用のグラフィックスプロセッサ1220を有さなくてもよい。
図13は、車両内音声認識を向上させるために行なわれ得る音声を処理するための例示的な方法1300を示す。方法1300は、オーディオデータがオーディオキャプチャデバイスから受け取られるブロック1305から始まる。オーディオキャプチャデバイスは車両内に位置し得る。オーディオデータは、ユーザからの発声を特徴とし得る。ブロック1305は、図10Aおよび図10Bにおけるデバイス1020、1042および1044のような1つ以上のマイクロフォンからのデータをキャプチャすることを含む。1つの場合では、ブロック1305は、ローカルオーディオインターフェイスを介してオーディオデータを受け取ることを含み得、別の場合では、ブロック1305は、たとえば車両からリモートであるオーディオインターフェイスにてネットワークを介してオーディオデータを受け取ることを含み得る。
図14は、命令1420を格納する一時的でないコンピュータ読取可能記憶媒体1410を含む例示的な処理システム1400を示す。命令1420は、少なくとも1つのプロセッサ1430によって実行されると、少なくとも1つのプロセッサに一連のオペレーションを実行させる。この例のオペレーションは、発声のトランスクリプションを生成するために以前に記載されたアプローチを使用する。これらのオペレーションは、たとえば前述のように車両内において行なわれ得るか、または、車両内の例を、たとえばデスクトップ、ラップトップ、モバイルまたはサーバコンピューティングデバイスを使用して実現され得る車両ベースでない状況まで拡張し得る。
自動音声認識を含む音声処理に関するある例が記載される。ある例は、ある話された言語の処理に関する。さまざまな例は、他の言語または言語の組合せについて同様に動作する。ある例は、発声をする人の画像から導出される付加的な情報を組み込むことによって、音声処理の精度および堅牢性を向上させる。この付加的な情報は、言語的モデルを向上させるために使用され得る。言語的モデルは、音響モデル、発音モデルおよび言語モデルの1つ以上を含み得る。
Claims (28)
- 車両のオーディオキャプチャデバイスからオーディオデータを受け取るように構成されるオーディオインターフェイスと、
前記車両からの画像をキャプチャするよう画像キャプチャデバイスから画像データを受け取るように構成される画像インターフェイスと、
前記オーディオデータおよび前記画像データに基づいて人の発声を解析するように構成される音声処理モジュールと、
前記画像データを受け取り、かつ、音素データを予測するために前記画像データに基づいて話者特徴ベクトルを得るように構成される話者前処理モジュールとを含み、
前記音声処理モジュールは、前記オーディオデータを処理し、前記発声を解析するために使用される前記音素データを予測するように構成される音響モデルを含み、
前記音響モデルは、入力として前記話者特徴ベクトルおよび前記オーディオデータを受け取るように構成され、前記音素データを予測するために前記話者特徴ベクトルおよび前記オーディオデータを使用するように学習される、車載装置。 - 車両のオーディオキャプチャデバイスからオーディオデータを受け取るように構成されるオーディオインターフェイスと、
前記車両からの画像をキャプチャするよう画像キャプチャデバイスから画像データを受け取るように構成される画像インターフェイスと、
前記オーディオデータおよび前記画像データに基づいて人の発声を解析するように構成される音声処理モジュールと、
前記画像データを受け取り、かつ、音素データを予測するために前記画像データに基づいて話者特徴ベクトルを得るように構成される話者前処理モジュールとを含み、
1つ以上のユーザプロファイルを格納するように構成されるメモリを含み、
前記話者前処理モジュールは、
前記車両内の前記人に関連付けられる前記メモリ内のユーザプロファイルを識別するために前記画像データに対して顔認識を行なうことと、
前記人について話者特徴ベクトルを計算することと、
前記メモリに前記話者特徴ベクトルを格納することと、
格納された前記話者特徴ベクトルを識別された前記ユーザプロファイルに関連付けることとを行うように構成され、
前記話者前処理モジュールは、
所与のユーザプロファイルに関連付けられる格納された話者特徴ベクトルの数が予め規定されたしきい値より大きいか否かを決定することと、
前記予め規定されたしきい値を上回ることに応答して、
前記格納された話者特徴ベクトルの数に基づいて静的な話者特徴ベクトルを計算することと、
前記静的な話者特徴ベクトルを前記メモリに格納することと、
格納された前記静的な話者特徴ベクトルを前記所与のユーザプロファイルに関連付けることと、
前記静的な話者特徴ベクトルは、前記人についての前記話者特徴ベクトルの計算の代わりに、将来の発声解析のために使用されるべきものであるということを示すこととを行うように構成される、車載装置。 - 車両のオーディオキャプチャデバイスからオーディオデータを受け取るように構成されるオーディオインターフェイスと、
前記車両からの画像をキャプチャするよう画像キャプチャデバイスから画像データを受け取るように構成される画像インターフェイスと、
前記オーディオデータおよび前記画像データに基づいて人の発声を解析するように構成される音声処理モジュールと、
前記画像データを受け取り、かつ、音素データを予測するために前記画像データに基づいて話者特徴ベクトルを得るように構成される話者前処理モジュールとを含み、
前記音声処理モジュールは、
前記オーディオデータを処理し、前記発声を解析するために使用される前記音素データを予測するように構成される音響モデルと、
前記音素データを受け取るとともに前記発声を表わすトランスクリプションを生成するために、前記音響モデルに通信可能に結合される言語モデルと、を含み、
前記言語モデルは、前記発声を表わす前記トランスクリプションを生成するために前記話者特徴ベクトルを使用するように構成される、車載装置。 - 車両のオーディオキャプチャデバイスからオーディオデータを受け取るように構成されるオーディオインターフェイスと、
前記車両からの画像をキャプチャするよう画像キャプチャデバイスから画像データを受け取るように構成される画像インターフェイスと、
前記オーディオデータおよび前記画像データに基づいて人の発声を解析するように構成される音声処理モジュールと、
前記画像データを受け取り、かつ、音素データを予測するために前記画像データに基づいて話者特徴ベクトルを得るように構成される話者前処理モジュールとを含み、
前記話者特徴ベクトルは、
前記オーディオデータに基づいて生成される、話者に依存する第1の部分と、
前記画像データに基づいて生成される、前記話者の唇の動きに依存する第2の部分とを含む、車載装置。 - 前記話者特徴ベクトルは、前記画像データに基づいて生成される、前記話者の顔に依存する第3の部分を含む、請求項4に記載の車載装置。
- 前記音声処理モジュールは、前記オーディオデータを処理し、前記発声を解析するために使用される前記音素データを予測するように構成される音響モデルを含む、請求項2、請求項4、および請求項5のいずれか1項に記載の車載装置。
- 前記音響モデルはニューラルネットワークアーキテクチャを含む、請求項1、請求項3、および、請求項6のいずれか1項に記載の車載装置。
- 前記画像データは、前記車両内の人の顔エリアを含む、請求項1〜請求項7のいずれか1項に記載の車載装置。
- 前記話者前処理モジュールは、
前記車両内の前記人を識別するために前記画像データに対して顔認識を行なうことと、
識別された前記人に関連付けられる話者特徴ベクトルを抽出することとを行うように構成される、請求項1〜請求項8のいずれか1項に記載の車載装置。 - 前記話者前処理モジュールは、
前記人の前記顔エリア内の唇の動きに基づいて1つ以上の話者特徴ベクトルを生成するように構成される読唇モジュールを含む、請求項8に記載の車載装置。 - 前記話者前処理モジュールはニューラルネットワークアーキテクチャを含み、前記ニューラルネットワークアーキテクチャは、前記オーディオデータおよび前記画像データのうちの1つ以上に由来するデータを受け取り、前記話者特徴ベクトルを予測するように構成される、請求項1〜請求項10のいずれか1項に記載の車載装置。
- 赤外線波長を有する電磁放射をキャプチャするように構成される画像キャプチャデバイスを含み、前記画像キャプチャデバイスは前記画像インターフェイスへ前記画像データを送るように構成される、請求項1〜請求項11のいずれか1項に記載の車載装置。
- 前記話者前処理モジュールは、前記画像データのうちの1つ以上の部分を抽出するために前記画像データを処理するように構成されており、
抽出された前記1つ以上の部分は前記話者特徴ベクトルを得るために使用される、請求項1〜請求項12のいずれか1項に記載の車載装置。 - 前記話者前処理モジュールを実現するプロセッサが前記車両内に位置する、請求項1〜請求項13のいずれか1項に記載の車載装置。
- 前記音声処理モジュールは前記車両からリモートであり、前記装置は、
前記オーディオデータおよび前記画像データに由来するデータを前記音声処理モジュールに送信し、前記発声の前記解析に基づく制御データを受け取るトランシーバを含む、請求項1〜請求項14のいずれか1項に記載の車載装置。 - 前記音響モデルは、ニューラルネットワークアーキテクチャおよび混合ガウスモデルを含むハイブリッド音響モデルを含み、前記混合ガウスモデルは、前記ニューラルネットワークアーキテクチャによって出力されるクラス確率のベクトルを受け取り、前記発声を解析するための音素データを出力するように構成される、請求項1または請求項6に記載の車載装置。
- 前記音響モデルは、コネクショニストテンポラルクラシフィケーション(CTC:connectionist temporal classification)モデルを含む、請求項1、請求項6、および、請求項16のいずれか1項に記載の車載装置。
- 前記音声処理モジュールは、
前記音素データを受け取るとともに前記発声を表わすトランスクリプションを生成するために、前記音響モデルに通信可能に結合される言語モデルを含む、請求項1、請求項6、請求項16、および、請求項17のいずれか1項に記載の車載装置。 - 前記音声処理モジュールは、
音響モデル構成のデータベースと、
前記話者特徴ベクトルに基づいて前記データベースから音響モデル構成を選択する、音響モデルセレクタと、
前記オーディオデータを処理する音響モデルインスタンスと、を含み、前記音響モデルインスタンスは、前記音響モデルセレクタによって選択される前記音響モデル構成に基づいてインスタンス化されており、前記音響モデルインスタンスは、前記発声を解析するために使用される前記音素データを生成するように構成される、請求項1〜請求項18のいずれか1項に記載の車載装置。 - 前記話者特徴ベクトルはiベクトルおよびxベクトルのうちの1つ以上である、請求項1〜請求項19のいずれか1項に記載の車載装置。
- 車両内に位置するオーディオキャプチャデバイスから、前記車両内の人の発声を特徴とするオーディオデータを受け取ることと、
前記車両内の画像をキャプチャするために、前記人の顔エリアを特徴とする画像データを画像キャプチャデバイスから受け取ることと、
前記画像データに基づいて話者特徴ベクトルを得ることと、
プロセッサによって実現される音声処理モジュールを使用して前記発声を解析することとを含み、
前記発声を解析することは、
前記音声処理モジュールの音響モデルへの入力として、前記話者特徴ベクトルおよび前記オーディオデータを提供することを含み、前記音響モデルはニューラルネットワークアーキテクチャを含んでおり、さらに、
前記話者特徴ベクトルおよび前記オーディオデータに基づいて、少なくとも前記ニューラルネットワークアーキテクチャを使用して音素データを予測することを含む、発声を処理する方法。 - 話者特徴ベクトルを得ることは、
前記車両内の前記人を識別するために前記画像データに対して顔認識を行なうことと、
前記顔認識に基づいて前記人についてユーザプロファイルデータを得ることと、
前記ユーザプロファイルデータに従って前記話者特徴ベクトルを得ることとを含む、請求項21に記載の方法。 - 前記ユーザプロファイルデータに関連付けられる格納された話者特徴ベクトルの数を予め規定されたしきい値と比較することと、
前記格納された話者特徴ベクトルの数が前記予め規定されたしきい値を下回ることに応答して、前記オーディオデータおよび前記画像データのうちの1つ以上を使用して前記話者特徴ベクトルを計算することと、
前記格納された話者特徴ベクトルの数が前記予め規定されたしきい値より大きいことに応答して、前記ユーザプロファイルデータに関連付けられる静的な話者特徴ベクトルを得ることとを含み、前記静的な話者特徴ベクトルは、前記格納された話者特徴ベクトルの数を使用して生成される、請求項22に記載の方法。 - 話者特徴ベクトルを得ることは、
前記人の前記顔エリア内の唇の動きに基づいて1つ以上の話者特徴ベクトルを生成するために前記画像データを処理することを含む、請求項21〜請求項23のいずれか1項に記載の方法。 - 前記発声を解析することは、
前記音声処理モジュールの言語モデルに前記音素データを提供することと、
前記言語モデルを使用して前記発声のトランスクリプトを予測することと、
前記トランスクリプトを使用して前記車両のための制御コマンドを決定することとを含む、請求項21〜請求項24のいずれか1項に記載の方法。 - 命令を含むプログラムコードであって、前記命令は、少なくとも1つのプロセッサによって実行されると、前記少なくとも1つのプロセッサに、
オーディオキャプチャデバイスからオーディオデータを受け取ることと、
画像キャプチャデバイスからの画像データに基づいて得られる話者特徴ベクトルを受け取ることとを行わせ、前記画像データはユーザの顔エリアを特徴としており、さらに、
音声処理モジュールを使用して発声を解析することを行わせ、
前記発声を解析することは、
前記音声処理モジュールの音響モデルへの入力として、前記話者特徴ベクトルおよび前記オーディオデータを提供することを含み、前記音響モデルはニューラルネットワークアーキテクチャを含んでおり、さらに、
前記話者特徴ベクトルおよび前記オーディオデータに基づいて、少なくとも前記ニューラルネットワークアーキテクチャを使用して音素データを予測することと、
前記音声処理モジュールの言語モデルに前記音素データを提供することと、
前記言語モデルを使用して前記発声のトランスクリプトを生成することとを含む、プログラムコード。 - 前記話者特徴ベクトルは、
前記オーディオデータに基づいて生成される、話者に依存するベクトル要素と、
前記画像データに基づいて生成される、前記話者の唇の動きに依存するベクトル要素と、
前記画像データに基づいて生成される、前記話者の顔に依存するベクトル要素とのうちの1つ以上を含む、請求項26に記載のプログラムコード。 - 前記オーディオデータおよび前記話者特徴ベクトルは自動車両から受け取られる、請求項26に記載のプログラムコード。
Priority Applications (8)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019152908A JP6977004B2 (ja) | 2019-08-23 | 2019-08-23 | 車載装置、発声を処理する方法およびプログラム |
CN202010841021.1A CN112420033A (zh) | 2019-08-23 | 2020-08-20 | 车载装置以及处理话语的方法 |
EP20192264.8A EP3783605B1 (en) | 2019-08-23 | 2020-08-21 | Vehicle-mounted apparatus, method of processing utterance, and program |
EP21197560.2A EP3955245A1 (en) | 2019-08-23 | 2020-08-21 | Apparatus, method and program for parsing an utterance using a speaker feature vector |
KR1020200105355A KR102449007B1 (ko) | 2019-08-23 | 2020-08-21 | 차량 장착 장치, 발언 프로세싱의 방법, 및 프로그램 |
JP2021183302A JP7525460B2 (ja) | 2019-08-23 | 2021-11-10 | オーディオデータおよび画像データに基づいて人の発声を解析するコンピューティングデバイスおよび発声処理方法、ならびにプログラム |
KR1020220120698A KR102609724B1 (ko) | 2019-08-23 | 2022-09-23 | 발언 프로세싱 장치, 발언 프로세싱 방법, 및 프로그램 |
JP2024114800A JP2024161380A (ja) | 2019-08-23 | 2024-07-18 | コンピューティングデバイス |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019152908A JP6977004B2 (ja) | 2019-08-23 | 2019-08-23 | 車載装置、発声を処理する方法およびプログラム |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021183302A Division JP7525460B2 (ja) | 2019-08-23 | 2021-11-10 | オーディオデータおよび画像データに基づいて人の発声を解析するコンピューティングデバイスおよび発声処理方法、ならびにプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021033048A JP2021033048A (ja) | 2021-03-01 |
JP6977004B2 true JP6977004B2 (ja) | 2021-12-08 |
Family
ID=72193403
Family Applications (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019152908A Active JP6977004B2 (ja) | 2019-08-23 | 2019-08-23 | 車載装置、発声を処理する方法およびプログラム |
JP2021183302A Active JP7525460B2 (ja) | 2019-08-23 | 2021-11-10 | オーディオデータおよび画像データに基づいて人の発声を解析するコンピューティングデバイスおよび発声処理方法、ならびにプログラム |
JP2024114800A Pending JP2024161380A (ja) | 2019-08-23 | 2024-07-18 | コンピューティングデバイス |
Family Applications After (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021183302A Active JP7525460B2 (ja) | 2019-08-23 | 2021-11-10 | オーディオデータおよび画像データに基づいて人の発声を解析するコンピューティングデバイスおよび発声処理方法、ならびにプログラム |
JP2024114800A Pending JP2024161380A (ja) | 2019-08-23 | 2024-07-18 | コンピューティングデバイス |
Country Status (4)
Country | Link |
---|---|
EP (2) | EP3783605B1 (ja) |
JP (3) | JP6977004B2 (ja) |
KR (2) | KR102449007B1 (ja) |
CN (1) | CN112420033A (ja) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11011162B2 (en) | 2018-06-01 | 2021-05-18 | Soundhound, Inc. | Custom acoustic models |
KR20220084359A (ko) | 2019-10-18 | 2022-06-21 | 구글 엘엘씨 | 종단 간 다중-화자 시청각 자동 음성 인식 |
JPWO2021192991A1 (ja) * | 2020-03-23 | 2021-09-30 | ||
CN115050375A (zh) * | 2021-02-26 | 2022-09-13 | 华为技术有限公司 | 一种设备的语音操作方法、装置和电子设备 |
CN113144542A (zh) * | 2021-04-09 | 2021-07-23 | 上海弘遥电子研究开发有限公司 | 一种沉浸式车载健身方法、系统、设备及可读存储介质 |
CN113643709B (zh) * | 2021-08-03 | 2023-07-18 | 成都理工大学 | 一种基于mean-SAP池化模型的说话人识别方法及系统 |
CN113689858B (zh) * | 2021-08-20 | 2024-01-05 | 广东美的厨房电器制造有限公司 | 烹饪设备的控制方法、装置、电子设备及存储介质 |
JP7055529B1 (ja) * | 2022-02-22 | 2022-04-18 | クリスタルメソッド株式会社 | 意味判定プログラム、及び意味判定システム |
CN115050092B (zh) * | 2022-05-20 | 2024-08-13 | 宁波明家智能科技有限公司 | 一种面向智能驾驶的唇读算法及系统 |
WO2024252647A1 (ja) * | 2023-06-09 | 2024-12-12 | 日立Astemo株式会社 | 画像認識モデル管理装置、および、画像認識モデル管理システム |
Family Cites Families (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1195789A (ja) * | 1997-09-25 | 1999-04-09 | Hitachi Ltd | 音声認識システムおよび音声認識システムにおける話者適応方法 |
JP2000181481A (ja) * | 1998-10-09 | 2000-06-30 | Sony Corp | 学習装置および学習方法、認識装置および認識方法、並びに記録媒体 |
US7254538B1 (en) * | 1999-11-16 | 2007-08-07 | International Computer Science Institute | Nonlinear mapping for feature extraction in automatic speech recognition |
US6964023B2 (en) * | 2001-02-05 | 2005-11-08 | International Business Machines Corporation | System and method for multi-modal focus detection, referential ambiguity resolution and mood classification using multi-modal input |
JP2004260641A (ja) * | 2003-02-27 | 2004-09-16 | Shibasoku:Kk | 信号処理装置 |
JP4463526B2 (ja) * | 2003-10-24 | 2010-05-19 | 株式会社ユニバーサルエンターテインメント | 声紋認証システム |
US7430313B2 (en) | 2004-05-04 | 2008-09-30 | Zbilut Joseph P | Methods using recurrence quantification analysis to analyze and generate images |
JP4599244B2 (ja) * | 2005-07-13 | 2010-12-15 | キヤノン株式会社 | 動画データから字幕を作成する装置及び方法、プログラム、並びに記憶媒体 |
US8015014B2 (en) * | 2006-06-16 | 2011-09-06 | Storz Endoskop Produktions Gmbh | Speech recognition system with user profiles management component |
JP2009139390A (ja) * | 2007-12-03 | 2009-06-25 | Nec Corp | 情報処理システム、処理方法及びプログラム |
KR101092820B1 (ko) | 2009-09-22 | 2011-12-12 | 현대자동차주식회사 | 립리딩과 음성 인식 통합 멀티모달 인터페이스 시스템 |
JP2011191423A (ja) * | 2010-03-12 | 2011-09-29 | Honda Motor Co Ltd | 発話認識装置、発話認識方法 |
TWI398853B (zh) * | 2010-05-10 | 2013-06-11 | Univ Nat Cheng Kung | 人臉說話模擬系統及方法 |
JP5797009B2 (ja) * | 2011-05-19 | 2015-10-21 | 三菱重工業株式会社 | 音声認識装置、ロボット、及び音声認識方法 |
US9710219B2 (en) * | 2013-06-10 | 2017-07-18 | Panasonic Intellectual Property Corporation Of America | Speaker identification method, speaker identification device, and speaker identification system |
JP6025690B2 (ja) * | 2013-11-01 | 2016-11-16 | ソニー株式会社 | 情報処理装置および情報処理方法 |
US10360901B2 (en) * | 2013-12-06 | 2019-07-23 | Nuance Communications, Inc. | Learning front-end speech recognition parameters within neural network training |
US20160034811A1 (en) * | 2014-07-31 | 2016-02-04 | Apple Inc. | Efficient generation of complementary acoustic models for performing automatic speech recognition system combination |
JP6401126B2 (ja) * | 2015-08-11 | 2018-10-03 | 日本電信電話株式会社 | 特徴量ベクトル算出装置、特徴量ベクトル算出方法及び特徴量ベクトル算出プログラム。 |
JP2017090612A (ja) * | 2015-11-09 | 2017-05-25 | 三菱自動車工業株式会社 | 音声認識制御システム |
US11264044B2 (en) * | 2016-02-02 | 2022-03-01 | Nippon Telegraph And Telephone Corporation | Acoustic model training method, speech recognition method, acoustic model training apparatus, speech recognition apparatus, acoustic model training program, and speech recognition program |
CN106782545B (zh) * | 2016-12-16 | 2019-07-16 | 广州视源电子科技股份有限公司 | 一种将音视频数据转化成文字记录的系统和方法 |
KR102408308B1 (ko) * | 2017-05-17 | 2022-06-13 | 삼성전자주식회사 | 센서 변환 집중 네트워크 모델 |
CN107507612B (zh) * | 2017-06-30 | 2020-08-28 | 百度在线网络技术(北京)有限公司 | 一种声纹识别方法及装置 |
CN109872379B (zh) * | 2017-12-05 | 2022-12-02 | 富士通株式会社 | 数据处理装置和方法 |
CN107945789A (zh) * | 2017-12-28 | 2018-04-20 | 努比亚技术有限公司 | 语音识别方法、装置及计算机可读存储介质 |
JP6973110B2 (ja) * | 2018-01-23 | 2021-11-24 | 株式会社リコー | 情報処理システム、情報処理端末、情報処理方法及びプログラム |
CN109147763B (zh) * | 2018-07-10 | 2020-08-11 | 深圳市感动智能科技有限公司 | 一种基于神经网络和逆熵加权的音视频关键词识别方法和装置 |
JP7117972B2 (ja) * | 2018-10-19 | 2022-08-15 | エヌ・ティ・ティ・コミュニケーションズ株式会社 | 音声認識装置、音声認識方法および音声認識プログラム |
CN109697976B (zh) * | 2018-12-14 | 2021-05-25 | 北京葡萄智学科技有限公司 | 一种发音识别方法及装置 |
CN110111783A (zh) * | 2019-04-10 | 2019-08-09 | 天津大学 | 一种基于深度神经网络的多模态语音识别方法 |
CN110136698B (zh) * | 2019-04-11 | 2021-09-24 | 北京百度网讯科技有限公司 | 用于确定嘴型的方法、装置、设备和存储介质 |
-
2019
- 2019-08-23 JP JP2019152908A patent/JP6977004B2/ja active Active
-
2020
- 2020-08-20 CN CN202010841021.1A patent/CN112420033A/zh active Pending
- 2020-08-21 EP EP20192264.8A patent/EP3783605B1/en active Active
- 2020-08-21 KR KR1020200105355A patent/KR102449007B1/ko active Active
- 2020-08-21 EP EP21197560.2A patent/EP3955245A1/en not_active Withdrawn
-
2021
- 2021-11-10 JP JP2021183302A patent/JP7525460B2/ja active Active
-
2022
- 2022-09-23 KR KR1020220120698A patent/KR102609724B1/ko active Active
-
2024
- 2024-07-18 JP JP2024114800A patent/JP2024161380A/ja active Pending
Also Published As
Publication number | Publication date |
---|---|
JP2022028772A (ja) | 2022-02-16 |
JP7525460B2 (ja) | 2024-07-30 |
CN112420033A (zh) | 2021-02-26 |
EP3783605B1 (en) | 2024-10-02 |
KR20210023766A (ko) | 2021-03-04 |
KR102449007B1 (ko) | 2022-09-29 |
JP2021033048A (ja) | 2021-03-01 |
EP3955245A1 (en) | 2022-02-16 |
JP2024161380A (ja) | 2024-11-19 |
KR20220138360A (ko) | 2022-10-12 |
EP3783605A1 (en) | 2021-02-24 |
KR102609724B1 (ko) | 2023-12-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6977004B2 (ja) | 車載装置、発声を処理する方法およびプログラム | |
US20210065712A1 (en) | Automotive visual speech recognition | |
JP7242520B2 (ja) | 視覚支援スピーチ処理 | |
US8560313B2 (en) | Transient noise rejection for speech recognition | |
US8639508B2 (en) | User-specific confidence thresholds for speech recognition | |
US11295735B1 (en) | Customizing voice-control for developer devices | |
US7676363B2 (en) | Automated speech recognition using normalized in-vehicle speech | |
US10255913B2 (en) | Automatic speech recognition for disfluent speech | |
TWI697793B (zh) | 用於關鍵詞組識別的系統和方法 | |
CN102097096B (zh) | 在语音识别后处理过程中使用音调来改进识别精度 | |
US20160039356A1 (en) | Establishing microphone zones in a vehicle | |
US8756062B2 (en) | Male acoustic model adaptation based on language-independent female speech data | |
US9311930B2 (en) | Audio based system and method for in-vehicle context classification | |
US8438030B2 (en) | Automated distortion classification | |
US20160111090A1 (en) | Hybridized automatic speech recognition | |
CN112397065A (zh) | 语音交互方法、装置、计算机可读存储介质及电子设备 | |
JP2004538543A (ja) | 多モード入力を使用した多モード・フォーカス検出、参照の曖昧性の解決およびムード分類のためのシステムおよび方法 | |
US9881609B2 (en) | Gesture-based cues for an automatic speech recognition system | |
US20230129816A1 (en) | Speech instruction control method in vehicle cabin and related device | |
CN115113739A (zh) | 用于生成表情符号的装置、车辆和用于生成表情符号的方法 | |
Kepuska et al. | Wake-up-word speech recognition application for first responder communication enhancement | |
JP2021033929A (ja) | 制御システム、及び制御方法 | |
US20240419731A1 (en) | Knowledge-based audio scene graph | |
US20230290342A1 (en) | Dialogue system and control method thereof | |
JP7297483B2 (ja) | エージェントシステム、サーバ装置、エージェントシステムの制御方法、およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20191029 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20201027 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210122 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210406 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210706 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20211012 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20211110 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6977004 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |