JP6977004B2

JP6977004B2 - 車載装置、発声を処理する方法およびプログラム

Info

Publication number: JP6977004B2
Application number: JP2019152908A
Authority: JP
Inventors: ステフェン・ホーム
Original assignee: サウンドハウンド，インコーポレイテッド
Priority date: 2019-08-23
Filing date: 2019-08-23
Publication date: 2021-12-08
Anticipated expiration: 2039-08-23
Also published as: JP2022028772A; JP7525460B2; CN112420033A; EP3783605B1; KR20210023766A; KR102449007B1; JP2021033048A; EP3955245A1; JP2024161380A; KR20220138360A; EP3783605A1; KR102609724B1

Description

本発明の技術分野
本技術は音声処理の分野にある。ある例は、車両内部からキャプチャされる音声を処理することに関する。

背景
コンピューティングにおける最近の進歩によって、多くの長く望まれていた音声制御アプリケーションを実現する可能性が高まっている。たとえば、有効なニューラルネットワークアーキテクチャについての実際的なフレームワークを含む統計モデルにおける改善によって、以前の音声処理システムの精度および信頼性が大幅に増加している。これがワイドエリアコンピュータネットワークの興隆と組み合わされ、単にアプリケーションプログラミングインターフェイスを使用してアクセスされ得るある範囲のモジュラーサービスを提供する。音声は急速に、ユーザインターフェイスを提供するための実行可能オプションになっている。

音声制御デバイスは、家庭内で一般的になっているが、車両内で音声処理を提供することにはさらなる困難が示される。たとえば、車両は、しばしば（音声インターフェイスのような）補助的な機能のための処理リソースが限られており、顕著なノイズ（たとえばハイレベルの道路ノイズおよび／またはエンジンノイズ）に見舞われ、音響環境での制約を提示する。如何なるユーザインターフェイスも、車両を制御する安全性への影響によって更に制約される。これらの要因によって、車両内で音声制御を実際上達成することが困難になっている。

さらに音声処理における進歩にもかかわらず、高度なコンピューティングデバイスのユーザでさえしばしば、現在のシステムは人間レベルの応答性および知能を欠いていると報告している。空気中の圧力変動を解析されたコマンドへ変換することは、信じられないほど困難である。音声処理は典型的に複雑な処理パイプラインを伴い、如何なるステージでのエラーによっても機械の解釈の成功が損なわれることになる。これらの困難のうちの多くは、意識的な思考なしで皮質構造または皮質下構造を使用して音声を処理することができる人間にとっては直ちに明白ではない。しかしながら、当該分野で働くエンジニアは急速に、人間の能力と現状技術の音声処理との間のギャップに気付いている。

ＵＳ８，４４２，８２０Ｂ２（特許文献１）は、読唇および音声認識組合マルチモーダルインターフェイスシステムを記載している。当該システムは、音声および唇の動きによるのみナビゲーションオペレーション命令を発行し得、これにより、運転手がナビゲーションオペレーションの間に前方を見ることが可能になり、運転中のナビゲーションオペレーションに関係する車両事故を低減する。ＵＳ８，４４２，８２０Ｂ２に記載される読唇および音声認識組合マルチモーダルインターフェイスシステムは、オーディオ音声入力ユニットと、音声認識ユニットと、音声認識命令および推定確率出力ユニットと、唇ビデオ画像入力ユニットと、読唇ユニットと、読唇認識命令出力ユニットと、音声認識命令を出力する音声認識および読唇認識結果組合ユニットとを含む。ＵＳ８，４４２，８２０Ｂ２は車両内制御の１つのソリューションを提供しているが、提案されたシステムは複雑であり、多くの相互動作するコンポーネントによって、エラーおよび解析の失敗の機会が増加する。

より正確に人間の発声を文字起こし（transcribe）して解析する音声処理システムおよび方法を提供することが望まれている。さらに、車両のための埋込型コンピューティングシステムのような現実世界のデバイスにより実際に実現され得る音声処理方法を提供することが望まれている。実際的な音声処理ソリューションを実現することは、システムインテグレーションおよび接続性について多くの困難が車両に存在するため、困難である。

米国特許明細書第８，４２２，８２０号

発明の概要
本願明細書において記載されるある例は、スピーチを処理するための方法およびシステムを提供する。ある例は、スピーチを処理するためにオーディオデータおよび画像データの両方を使用する。ある例は、車両内でキャプチャされる発声を処理する困難に対応するために適合される。ある例は、たとえば車両内の人といった少なくとも人の顔エリアを特徴とする画像データに基づいて、話者特徴ベクトルを得る。その後、音声処理は、発声の話者に依存する視覚由来情報を使用して行なわれる。これにより、精度および堅牢性が改善され得る。

１つの局面では、車両のための装置は、車両内に位置するオーディオキャプチャデバイスからオーディオデータを受け取るように構成されるオーディオインターフェイスと、車両内で画像データをキャプチャするために、車両内の人の顔エリアを特徴とする画像データを画像キャプチャデバイスから受け取るように構成される画像インターフェイスと、オーディオデータおよび画像データに基づいて人の発声を解析するように構成される音声処理モジュールとを含む。音声処理モジュールは、オーディオデータを処理し、発声を解析するために使用される音素データを予測するように構成される音響モデルを含み、音響モデルはニューラルネットワークアーキテクチャを含む。装置はさらに、プロセッサによって実現される話者前処理モジュールを含み、話者前処理モジュールは、画像データを受け取り、かつ、画像データに基づいて話者特徴ベクトルを得るように構成されており、音響モデルは、入力として話者特徴ベクトルおよびオーディオデータを受け取るように構成され、音素データを予測するために話者特徴ベクトルおよびオーディオデータを使用するように学習される。

上記の局面では、話者特徴ベクトルは、話している人の顔エリアを特徴とする画像データを使用して得られる。この話者特徴ベクトルは、音響モデルのニューラルネットワークアーキテクチャへの入力として提供され、音響モデルは、発声を特徴とするオーディオデータと同様にこの入力を使用するように構成される。これにより、発声の解析を改善するために、たとえば車両内の望ましくない音響およびノイズ特徴を補償するために、ニューラルネットワークアーキテクチャが使用し得る付加的な視覚由来情報が音響モデルに提供される。たとえば、画像データから決定される特定の人および／またはその人の口エリアに基づいて音響モデルを構成することによって、たとえば、付加的な情報がなければ、車両の状況に基づいて誤って文字起こしされ得る曖昧な音素の決定が向上され得る。

１つの変形例において、話者前処理モジュールは、車両内の人を識別し、識別された人に関連付けられる話者特徴ベクトルを抽出するために、画像データに対して顔認識を行なうように構成される。たとえば、話者前処理モジュールは、車両内で話しているユーザを識別するために使用される顔認識モジュールを含み得る。話者特徴ベクトルがオーディオデータに基づいて決定される場合、人の識別は、所定の（たとえば、あらかじめ計算された）話者特徴ベクトルがメモリから抽出されることを可能にし得る。これにより、制限のある埋込型車両制御システムについての処理レイテンシが向上され得る。

１つの変形例において、話者前処理モジュールは、プロセッサによって実現される読唇モジュールを含み、読唇モジュールは、人の顔エリア内の唇の動きに基づいて１つ以上の話者特徴ベクトルを生成するように構成される。これは、顔認識モジュールと一緒に使用されてもよく、または、顔認識モジュールとは独立して使用されてもよい。この場合、１つ以上の話者特徴ベクトルは、音響モデルのニューラルネットワークアーキテクチャによって使用され得る話者の口または唇エリアの表現を提供し、これにより処理が向上する。

ある場合において、話者前処理モジュールは、ニューラルネットワークアーキテクチャを含み得、ニューラルネットワークアーキテクチャは、オーディオデータおよび画像データのうちの１つ以上に由来するデータを受け取り、話者特徴ベクトルを予測するように構成される。たとえば、このアプローチは、音響の処理を向上させるために、視覚ベースのニューラル読唇システムと音響「ｘベクトル」システムとを組み合わせ得る。１つ以上のニューラルネットワークアーキテクチャが使用される場合、これらは、画像データと、オーディオデータと、音素データおよび／またはテキストトランスクリプションのグラウンドトゥルース（ground truth）セットのような言語的特徴のグラウンドトゥルースセットとを含む学習セットを使用して学習され得る。

ある場合において、話者前処理モジュールは、予め規定された数の発声について話者特徴ベクトルを計算し、予め規定された数の発声について複数の話者特徴ベクトルに基づいて静的な話者特徴ベクトルを計算するように構成される。たとえば、静的な話者特徴ベクトルは、画像データを使用して特定のユーザにリンクされる話者特徴ベクトルのセットの平均を含み得る。静的な話者特徴ベクトルは、車両のメモリ内に格納され得る。また、これにより、リソースが制限された車両コンピューティングシステム内の音声処理能力が向上され得る。

１つの場合では、装置は、１つ以上のユーザプロファイルを格納するように構成されるメモリを含む。この場合、話者前処理モジュールは、車両内の人に関連付けられるメモリ内のユーザプロファイルを識別するために画像データに対して顔認識を行なうことと、人について話者特徴ベクトルを計算することと、メモリに話者特徴ベクトルを格納することと、格納された話者特徴ベクトルを識別されたユーザプロファイルに関連付けることとを行うように構成される。顔認識は、特定の人に依存する音響の処理のための有益な情報（たとえば話者特徴ベクトル）を抽出するための迅速かつ簡便なメカニズムを提供し得る。１つの場合では、話者前処理モジュールは、所与のユーザプロファイルに関連付けられる格納された話者特徴ベクトルの数が予め規定されたしきい値より大きいか否かを決定するように構成され得る。これがそうである場合、話者前処理モジュールは、格納された話者特徴ベクトルの数に基づいて静的な話者特徴ベクトルを計算することと、静的な話者特徴ベクトルをメモリに格納することと、格納された静的な話者特徴ベクトルを所与のユーザプロファイルに関連付けることと、静的な話者特徴ベクトルは、人についての話者特徴ベクトルの計算の代わりに、将来の発声解析に使用されるべきものであるということを示すこととを行い得る。

１つの変形例では、装置は、赤外線波長を有する電磁放射をキャプチャするように構成される画像キャプチャデバイスを含み、画像キャプチャデバイスは画像インターフェイスへ画像データを送るように構成される。これにより、画像データ処理を向上させる照度不変画像が提供され得る。話者前処理モジュールは、画像データのうちの１つ以上の部分を抽出するために画像データを処理するように構成され得、抽出された１つ以上の部分は話者特徴ベクトルを得るために使用される。たとえば、１つ以上の部分は、顔エリアおよび／または口エリアに関係があり得る。

１つの場合において、オーディオインターフェイス、画像インターフェイス、音声処理モジュールおよび話者前処理モジュールのうちの１つ以上は、車両内に位置し得、たとえば、ローカルの埋込システムの部分を含み得る。この場合、プロセッサは車両内に位置し得る。別の場合では、音声処理モジュールは車両からリモートであり得る。この場合、装置は、オーディオデータおよび画像データに由来するデータを音声処理モジュールに送信し、発声の解析からの制御データを受け取るトランシーバを含み得る。異なる分散された構成が可能である。たとえば、１つの場合において、装置は、車両内にローカルに実現され得るが、装置の少なくとも１つのコンポーネントのさらに別のコピーがリモートサーバデバイス上で実行され得る。この場合、ある機能は、たとえば、ローカル処理と一緒にまたはローカル処理の代わりにリモートで実行され得る。リモートサーバデバイスは、精度を向上させる処理リソースの向上を有し得るが、処理レイテンシを増加させ得る。

１つの場合において、音響モデルは、ニューラルネットワークアーキテクチャおよび混合ガウスモデルを含むハイブリッド音響モデルを含み、混合ガウスモデルは、ニューラルネットワークアーキテクチャによって出力されるクラス確率のベクトルを受け取り、発声を解析するための音素データを出力するように構成される。音響モデルは付加的または代替的には、ニューラルネットワークアーキテクチャとともに、たとえば隠れマルコフモデル（ＨＭＭ： Hidden Markov Model）を含む。１つの場合において、音響モデルは、コネクショニストテンポラルクラシフィケーション（ＣＴＣ： connectionist temporal classification）モデルを含み得るか、または、回帰型ニューラルネットワークアーキテクチャを有するニューラルネットワークモデルの別の形態を含み得る。

１つの変形例では、音声処理モジュールは、音素データを受け取るとともに発声を表わすトランスクリプションを生成するために、音響モデルに通信可能に結合される言語モデルを含む。この変形例において、言語モデルは、たとえば音響モデルに加えて、発声を表わすトランスクリプションを生成するために話者特徴ベクトルを使用するように構成され得る。これは、言語モデルが回帰型ニューラルネットワークまたはトランスフォーマアーキテクチャのようなニューラルネットワークアーキテクチャを含む場合、言語モデル精度を向上させるために使用され得る。

１つの変形例では、音響モデルは、音響モデル構成のデータベースと、話者特徴ベクトルに基づいてデータベースから音響モデル構成を選択する音響モデルセレクタと、オーディオデータを処理する音響モデルインスタンスとを含み、音響モデルインスタンスは、音響モデルセレクタによって選択される音響モデル構成に基づいてインスタンス化されており、音響モデルインスタンスは、発声を解析するために使用される音素データを生成するように構成される。

ある例において、話者特徴ベクトルはｉベクトルおよびｘベクトルのうちの１つ以上である。話者特徴ベクトルは合成ベクトルを含み得、たとえば、オーディオデータに基づいて生成される、話者に依存する第１の部分と、画像データに基づいて生成される、話者の唇の動きに依存する第２の部分と、画像データに基づいて生成される、話者の顔に依存する第３の部分とのうちの２つ以上を含み得る。

別の局面に従うと、発声を処理する方法が存在し、当該方法は、車両内に位置するオーディオキャプチャデバイスから、車両内の人の発声を特徴とするオーディオデータを受け取ることと、人の顔エリアを特徴とする画像データを、車両内に位置する画像キャプチャデバイスから受け取ることと、画像データに基づいて話者特徴ベクトルを得ることと、プロセッサによって実現される音声処理モジュールを使用して発声を解析することとを含む。発声を解析することは、音声処理モジュールの音響モデルへの入力として、話者特徴ベクトルおよびオーディオデータを提供することを含み、音響モデルはニューラルネットワークアーキテクチャを含んでおり、発声を解析することはさらに、話者特徴ベクトルおよびオーディオデータに基づいて、少なくともニューラルネットワークアーキテクチャを使用して音素データを予測することを含む。

上記方法は、車両内での音声処理に同様の改善を提供し得る。ある場合において、話者特徴ベクトルを得ることは、車両内の人を識別するために画像データに対して顔認識を行なうことと、顔認識に基づいて人についてユーザプロファイルデータを得ることと、ユーザプロファイルデータに従って話者特徴ベクトルを得ることとを含む。上記方法はさらに、ユーザプロファイルデータに関連付けられる格納された話者特徴ベクトルの数を予め規定されたしきい値と比較することを含み得る。格納された話者特徴ベクトルの数が予め規定されたしきい値を下回ることに応答して、上記方法は、オーディオデータおよび画像データのうちの１つ以上を使用して話者特徴ベクトルを計算することを含み得る。格納された話者特徴ベクトルの数が予め規定されたしきい値より大きいことに応答して、上記方法は、ユーザプロファイルデータに関連付けられる静的な話者特徴ベクトルを得ることを含み得、静的な話者特徴ベクトルは、格納された話者特徴ベクトルの数を使用して生成される。１つの場合では、話者特徴ベクトルは、人の顔エリア内の唇の動きに基づいて１つ以上の話者特徴ベクトルを生成するために画像データを処理することを含む。発声を解析することは、音声処理モジュールの言語モデルに音素データを提供することと、言語モデルを使用して発声のトランスクリプトを予測することと、トランスクリプトを使用して車両のための制御コマンドを決定することとを含み得る。

別の局面に従うと、命令を格納している一時的でないコンピュータ読取可能記憶媒体が存在する。上記命令は、少なくとも１つのプロセッサによって実行されると、少なくとも１つのプロセッサに、オーディオキャプチャデバイスからオーディオデータを受け取ることと、画像キャプチャデバイスからの画像データに基づいて得られる話者特徴ベクトルを受け取ることとを行わせ、画像データはユーザの顔エリアを特徴としており、さらに、音声処理モジュールを使用して発声を解析することを行わせ、発声を解析することは、音声処理モジュールの音響モデルへの入力として、話者特徴ベクトルおよびオーディオデータを提供することを含み、音響モデルはニューラルネットワークアーキテクチャを含んでおり、さらに、話者特徴ベクトルおよびオーディオデータに基づいて、少なくともニューラルネットワークアーキテクチャを使用して音素データを予測することと、音声処理モジュールの言語モデルに音素データを提供することと、言語モデルを使用して発声のトランスクリプトを生成することとを含む。

少なくとも１つのプロセッサは、たとえば自動車両（motor vehicle）からリモートであるコンピューティングデバイスといったコンピューティングデバイスを含み得、オーディオデータおよび話者画像ベクトルは自動車両から受け取られる。上記命令によって、プロセッサは、より低い誤り率で自動音声認識を行なうことが可能になり得る。ある場合、話者特徴ベクトルは、オーディオデータに基づいて生成される、話者に依存するベクトル要素と、画像データに基づいて生成される、話者の唇の動きに依存するベクトル要素と、画像データに基づいて生成される、話者の顔に依存するベクトル要素とのうちの１つ以上を含む。

ある例に従った車両の内部を示す概略図である。ある例に従った車両のための装置を示す概略図である。ある例に従った話者前処理モジュールを有する車両のための装置を示す概略図である。ある例に従った話者前処理モジュールのコンポーネントを示す概略図である。ある例に従った音声処理モジュールのコンポーネントを示す概略図である。ある例に従ったニューラル話者前処理モジュールおよびニューラル音声処理モジュールを示す概略図である。ある例に従った音声処理モジュールの音響モデルを構成するコンポーネントを示す概略図である。ある例に従った画像プリプロセッサを示す概略図である。ある例に従った異なる画像キャプチャデバイスからの画像データを示す概略図である。ある例に従った唇の特徴を抽出するように構成される話者前処理モジュールのコンポーネントを示す概略図である。ある例に従った音声処理のための装置を有する自動車両を示す概略図である。ある例に従った音声処理のための装置を有する自動車両を示す概略図である。ある例に従った自動車両のためのユーザインターフェイスのコンポーネントを示す概略図である。車両のための例示的なコンピューティングデバイスを示す概略図である。ある例に従った発声を処理する方法を示すフロー図である。ある例に従った一時的でないコンピュータ読取可能記憶媒体を示す概略図である。

詳細な説明
さまざまな興味深い局面を示す本技術のさまざまな例を以下に説明する。一般に、例は、記載された局面を任意の組合せで使用し得る。

本願明細書において記載されるある例は、音声処理を向上させるために視覚情報を使用する。この視覚情報は車両内部から得られ得る。例において、視覚情報は、たとえば運転手または乗客といった車両内の人を特徴とする。ある例は、適合された音声処理モジュールによる使用のために話者特徴ベクトルを生成するために視覚情報を使用する。音声処理モジュールは、たとえば車両内のオーディオキャプチャデバイスに由来するオーディオデータといった関連付けられるオーディオデータの処理を向上させるために話者特徴ベクトルを使用するように構成され得る。例は、車両内音声インターフェイスの応答性および精度を向上させ得る。ある例は、音声トランスクリプションを向上させるためにコンピューティングデバイスによって使用されてもよい。したがって、記載された例は、音声処理の精度および信頼性を向上させるマルチモーダルな能力により音声処理システムを拡張するように思われ得る。

本願明細書において記載されるある例は、話者特徴ベクトルを生成するために異なるアプローチを提供する。あるアプローチは相補的であり、音声処理を相乗的に向上させるために一緒に使用され得る。一例において、たとえば運転手および／または乗客カメラからの車両の内部から得られた画像データが処理されて、人を識別し、当該人のある特徴を数的に表わす特徴ベクトルを決定する。これらの特徴は、たとえば音響モデルのためのオーディオデータ内の予測される変動の数的表現といったオーディオ特徴を含み得る。別の例では、たとえば運転手および／または乗客カメラからの車両の内部から得られた画像データが処理されて、たとえば当該人による発声に関連付けられる特徴といった、当該人のある視覚的な特徴を数的に表わす特徴ベクトルを決定する。１つの場合では、視覚的な特徴は、人の口エリアに関連付けられ、たとえば、唇の位置および／または動きを表わす。両方の例において、話者特徴ベクトルは同様のフォーマットを有し得るので、音素データを生成するために使用される音響モデルの入力パイプラインに容易に統合され得る。ある例は、車両の制限された内部、この限られた内部で複数人が話し得る可能性、および、ハイレベルのエンジンおよび環境ノイズといった、車両内での自動音声認識のある困難を克服する改善を提供し得る。

例示的な車両のコンテキスト
図１Ａは、音声処理装置についての例示的なコンテキストを示す。図１Ａでは、当該コンテキストは自動車両である。図１Ａは、自動車両の内部１００の概略図である。内部１００は、自動車両の前部の運転手側について示される。人１０２が内部１００内に存在するのが示される。図１Ａでは、人は自動車両の運転手である。運転手は、車両において前方に向いており、ウインドシールド１０４を介して道路を観察する。人は、ハンドル１０６を使用して車両を制御し、ダッシュボードまたはインストルメントパネル１０８を介して車両状態指示を観察する。図１Ａでは、画像キャプチャデバイス１１０は、自動車両の内部１００内においてダッシュボード１０８の底部の近傍に位置する。画像キャプチャデバイス１１０は、人１０２の顔エリア１１４をキャプチャする視野１１２を有する。この例において、画像キャプチャデバイス１１０は、ハンドル１０６のアパーチャを通じて画像をキャプチャするように位置決めされる。図１Ａはさらに、自動車両の内部１００内に位置するオーディオキャプチャデバイス１１６を示す。オーディオキャプチャデバイス１１６は人１０２によって発される音をキャプチャするように配される。たとえば、オーディオキャプチャデバイス１１６は、人１０２からの音声、すなわち、人の顔エリア１１４から発せられる音をキャプチャするために配され得る。オーディオキャプチャデバイス１１６はウインドシールド１０４にマウントされているのが示される。たとえば、オーディオキャプチャデバイス１１６は、バックミラーの近傍またはバックミラー上にマウントされてもよく、人１０２の側に対するドアフレーム上にマウントされてもよい。図１Ａはさらに音声処理装置１２０を示す。音声処理装置１２０は自動車両にマウントされ得る。音声処理装置１２０は、自動車両のための制御システムを含み得るか、または、制御システムの部分を形成し得る。図１Ａの例において、画像キャプチャデバイス１１０およびオーディオキャプチャデバイス１１６は、たとえば１つ以上の有線および／または無線インターフェイスを介して音声処理装置１２０に通信可能に結合される。画像キャプチャデバイス１１０は、自動車両の窓ガラスを介して自動車両内の画像をキャプチャするために自動車両外に位置され得る。

図１Ａのコンテキストおよび構成は、次の記載の理解を支援するために例として提供される。なお、当該例は自動車両に限定される必要はなく、他の形態の乗り物で同様に実現され得る。他の形態の乗り物は、ボートおよび船のような船舶乗り物、ヘリコプタ、飛行機およびグライダのような航空乗り物、電車および路面電車のようなレール用乗り物、宇宙船、建設車両および重量機器を含むがこれらに限定されない。自動車両は、たとえば、車、トラック、スポーツ多目的車、モータバイク、バス、および、モータ付きカートを含み得る。本願明細書における「車両」という用語の使用はさらに、クレーン、リフティング装置およびボーリング装置のような、静止のままでモータ駆動され得るある重量機器を含む。車両は、手動で制御されてもよく、および／または、自律機能を有してもよい。図１Ａの例はハンドル１０６およびダッシュボード１０８を特徴とするが、他の制御構成が提供されてもよい（たとえば、自律運転車両は、示されるようなハンドル１０６を有さない場合がある）。運転席のコンテキストが図１Ａにおいて示されるが、同様の構成は１つ以上の乗客席（たとえば前部および後部の両方）に提供され得る。図１Ａは、例示のためにのみ提供されており、明確さのための自動車両内に存在し得るある特徴を省略している。ある場合において、本願明細書において記載されるアプローチは、車両のコンテキスト外で使用されてもよく、たとえば、デスクトップもしくはラップトップコンピュータ、スマートフォン、または、埋込型デバイスのようなコンピューティングデバイスによって実現されてもよい。

図１Ｂは、図１Ａにおいて示される音声処理装置１２０の概略図である。図１Ｂでは、音声処理装置１２０は、音声処理モジュール１３０、画像インターフェイス１４０、および、オーディオインターフェイス１５０を含む。画像インターフェイス１４０は画像データ１４５を受け取るように構成される。画像データは、図１Ａにおける画像キャプチャデバイス１１０によってキャプチャされる画像データを含み得る。オーディオインターフェイス１５０はオーディオデータ１５５を受け取るように構成される。オーディオデータ１５５は、図１Ａにおけるオーディオキャプチャデバイス１１６によってキャプチャされるオーディオデータを含み得る。音声処理モジュール１３０は、画像インターフェイス１４０およびオーディオインターフェイス１５０の両方に通信可能に結合される。音声処理モジュール１３０は、人１０２の発声を解析するのに使用可能な言語的特徴１６０のセットを生成するために、画像データ１４５およびオーディオデータ１５５を処理するように構成される。言語的特徴は、音素、単語部分（たとえば語幹または祖語）、および、単語（句読点にマッピングされる休止のようなテキスト特徴を含む）、ならびに、これらの言語ユニットに関する確率および他の値を含み得る。１つの場合では、言語的特徴は、発声を表わすテキスト出力を生成するために使用され得る。この場合、テキスト出力はそのまま使用されてもよく、または、コマンドおよび／またはコマンドデータの予め規定されたセットにマッピングされてもよい。別の場合では、言語的特徴は、（たとえば明示的なテキスト出力なしで）コマンドおよび／またはコマンドデータの予め規定されたセットに直接的にマッピングされてもよい。

（人１０２のような）人は、図１Ａおよび図１Ｂの構成を使用して、自動車両を操作しながらボイスコマンドを発し得る。たとえば、人１０２は、自動車両を制御するまたは情報を得るために、内部において喋り得る、たとえば、発声を生成し得る。このコンテキストにおける発声は、音声のような言語情報を表わす人によって作り出されるボーカル音に関連付けられる。たとえば、発声は、人１０２の喉頭から出る音声を含み得る。発声は、たとえばユーザが話した要求といったボイスコマンドを含み得る。たとえば、ボイスコマンドは、（たとえば「音楽を再生」、「エアコンをオン」、「クルーズコントロールをアクティベート」といった）あるアクションを行う要求、（たとえば、「アルバムＸＹ」、「華氏６８度」、「３０分間６０ｍｐｈ」）といった要求に関するさらに別の情報、（たとえば、「私のｔｏｄｏリストに…を追加」または「ユーザＡに次のメッセージを送信」といった）書き起こされるスピーチ、ならびに／または、（たとえば「Ｃの交通量は？」、「今日の天気は？」、もしくは、「最も近いガソリンスタンドはどこ？」といった）情報についての要求を含み得る。

オーディオデータ１５５は、実現例に依存してさまざまな形態を取り得る。一般に、オーディオデータ１５５は、図１Ａにおけるオーディオキャプチャデバイス１１６のような１つ以上のオーディオキャプチャデバイス（たとえば１つ以上のマイクロフォン）からの１つ以上のオーディオキャプチャデバイス（たとえば１つ以上のマイクロフォン）からの時系列測定に由来し得る。ある場合には、オーディオデータ１５５は、１つのオーディオキャプチャデバイスからキャプチャされ得る。他の場合には、オーディオデータ１５５は複数のオーディオキャプチャデバイスからキャプチャされ得、たとえば、内部１００内の異なる位置に複数のマイクロフォンが存在し得る。後者の場合において、オーディオデータは、各オーディオキャプチャデバイスからの時間的に相関されるオーディオデータの１つ以上のチャネルを含み得る。キャプチャの時点でのオーディオデータはたとえば、予め規定されたサンプリングレート（たとえば１６ｋＨｚ）でのパルス符号変調（ＰＣＭ： Pulse Code Modulation）データの１つ以上のチャネルを含み得、各サンプルは、予め規定されたビット数によって表わされる（たとえば各サンプルが整数または浮動小数点値を含む場合、サンプル当たり８ビット、１６ビットまたは２４ビット）。

ある場合において、オーディオデータ１５５は、キャプチャの後であるが、オーディオインターフェイス１５０での受け取りの前に処理され得る（たとえば、音声処理に関して前処理される）。処理は、時間および周波数ドメインのうちの１つ以上におけるフィルタリングのうちの１つ以上を含み得、ノイズ低減および／または正規化を適用する。１つの場合では、オーディオデータは、たとえばスペクトログラムデータの１つ以上のフレームを作り出すために高速フーリエ変換を行なうことによって、周波数ドメインにおいて時間に亘る測定値に変換され得る。ある場合において、１つ以上の周波数ドメインの特徴についての値を決定するために、メルフィルタバンク（Mel filter bank）またはメル周波数ケプストラム係数（Mel-Frequency Cepstral Coefficient）といった、フィルタバンクが適用され得る。これらの場合では、オーディオデータ１５５は、１つ以上のフィルタバンクの出力を含み得る。他の場合では、オーディオデータ１５５は、時間ドメインサンプルを含み得、音声処理モジュール１３０内において前処理が行なわれ得る。アプローチの異なる組合せが可能である。したがって、オーディオインターフェイス１５０にて受け取られるようなオーディオデータは、音声処理パイプラインに沿ってなされる任意の測定を含み得る。

オーディオデータと同様の態様で、本願明細書において記載される画像データは、実現例に依存してさまざまな形態を取り得る。１つの場合において、画像キャプチャデバイス１１０はビデオキャプチャデバイスを含み得、画像データはビデオデータの１つ以上のフレームを含む。別の場合では、画像キャプチャデバイス１１０は静止画像キャプチャデバイスを含み得、画像データは、静止画像の１つ以上のフレームを含む。従って、画像データはビデオ画像源および静止画像源の両方に由来し得る。本願明細書における画像データへの参照は、たとえば、（たとえば、アレイの行および列と同等である）高さおよび幅を有する２次元アレイに由来する画像データに関し得る。１つの場合では、画像データは、複数の色チャネルを有し得、たとえば、赤緑青（ＲＧＢ）の色の各々について３つの色チャネルを含み得、各色チャネルは色値の関連付けられる２次元アレイを有する（たとえばアレイ要素当たり８ビット、１６ビットまたは２４ビット）。色チャネルは、異なる画像「面」と称され得る。ある場合では、たとえば「グレー」または明るさチャネルを表わす単一のチャネルのみが使用されてもよい。異なる色空間が用途に依存して使用され得る。たとえば、画像キャプチャデバイスは本来、明るさチャネルＹ（たとえば輝度）を特徴とするＹＵＶ画像データのフレームと、２つの反対色チャネルＵおよびＶ（たとえば概略的に青−緑および赤−緑で整列された２つのクロミナンス成分）とを生成し得る。オーディオデータ１５５と同様に、画像データ１４５は、キャプチャの後で処理され得る。たとえば、１つ以上の画像フィルタリング動作が適用され得、および／または、画像データ１４５は、リサイズおよび／または切り取り(crop)され得る。

図１Ａおよび図１Ｂの例を参照して、画像インターフェイス１４０およびオーディオインターフェイス１５０のうちの１つ以上が自動車両内のハードウェアに対してローカルであり得る。たとえば、画像インターフェイス１４０およびオーディオインターフェイス１５０の各々は、音声処理モジュール１３０を実現するように構成される少なくとも１つのプロセッサへのそれぞれの画像およびオーディオキャプチャデバイスの有線結合を含み得る。１つの場合において、画像およびオーディオインターフェイス１４０，１５０は、画像およびオーディオデータ１４５，１５５が受け取られ得るシリアルインターフェイスを含み得る。分散車両制御システムにおいて、画像およびオーディオキャプチャデバイス１４０，１５０は、中央システムバスに通信可能に結合され得、画像およびオーディオデータ１４５，１５５は１つ以上のストレージデバイス（たとえばランダムアクセスメモリまたはソリッドステートストレージ）に格納され得る。この後者の場合、画像およびオーディオインターフェイス１４０，１５０は、１つ以上のストレージデバイスへの、音声処理モジュールを実現するように構成される少なくとも１つのプロセッサの通信結合を含み得る。たとえば、少なくとも１つのプロセッサは、画像およびオーディオデータ１４５，１５５の各々にアクセスするために、所与のメモリ位置からデータを読み出すように構成され得る。ある場合には、画像およびオーディオインターフェイス１４０，１５０は、無線インターフェイスを含み得、音声処理モジュール１３０は自動車両からリモートであり得る。異なるアプローチおよび組合せが可能である。

図１Ａは、人１０２が自動車両の運転手である例を示すが、他の適用例では、乗客のような自動車両を制御していない人を特徴としている画像データをキャプチャするために、１つ以上の画像およびオーディオキャプチャデバイスが配され得る。たとえば、自動車両は、車両の１つ以上の乗客席（たとえば前部および後部のような車両内の異なる位置）において存在する人々に関する画像データをキャプチャするために配される複数の画像キャプチャデバイスを有し得る。オーディオキャプチャデバイスも同様に、異なる人々からの発声をキャプチャするために配され得、たとえばマイクロフォンが車両の各ドアまたはドアフレームに位置し得る。１つの場合では、複数のオーディオキャプチャデバイスが車両内に提供され得、オーディオデータは、オーディオインターフェイス１５０へのデータの供給のために、これらのうちの１つ以上からキャプチャされ得る。１つの場合において、オーディオデータの前処理は、発声をする人に最も近いと考えられるチャネルからオーディオデータを選択すること、および／または、自動車両内の複数のチャネルからオーディオデータを組み合わせることを含み得る。後述するように、本願明細書において記載されるある例は、複数の乗客が存在する車両における音声処理を促進する。

例示的な話者前処理モジュール
図２は、例示的な音声処理装置２００を示す。たとえば、音声処理装置２００は、図１Ａおよび図１Ｂにおいて示される音声処理装置１２０を実現するために使用され得る。音声処理装置２００は、車両内自動音声認識システムの部分を形成し得る。他の場合では、音声処理装置２００は、家またはオフィスといった車両外部での使用に適合され得る。

音声処理装置２００は、話者前処理モジュール２２０および音声処理モジュール２３０を含む。音声処理モジュール２３０は、図１Ｂの音声処理モジュール１３０と同様であり得る。この例において、画像インターフェイス１４０およびオーディオインターフェイス１５０は、明確さのために省略されているが、これらはそれぞれ話者前処理モジュール２２０の画像入力および音声処理モジュール２３０のための音声入力の部分を形成し得る。話者前処理モジュール２２０は、画像データ２４５を受け取り、話者特徴ベクトル２２５を出力するように構成される。音声処理モジュール２３０は、オーディオデータ２５５および話者特徴ベクトル２２５を受け取り、言語的特徴２６０を生成するためにこれらを使用するように構成される。

音声処理モジュール２３０はプロセッサによって実現される。プロセッサは、車両内のローカルの埋込型コンピューティングシステムのプロセッサおよび／またはリモートサーバコンピューティングデバイス（いわゆる「クラウド」処理デバイス）のプロセッサであり得る。１つの場合において、プロセッサは、たとえば１つ以上の特定用途向け集積回路（ＡＳＩＣ： Application Specific Integrated Circuit）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ： Field Programmable Gate Array）、および、いわゆる「システムオンチップ」（ＳｏＣ：system on chip）コンポーネントといった専用の音声処理ハードウェアの部分を含み得る。別の場合では、プロセッサは、アクセス可能なストレージデバイス内に格納されプロセッサによる実行のためにメモリにロードされる、たとえばファームウェアなどのコンピュータプログラムコードを処理するように構成され得る。音声処理モジュール２３０は、オーディオデータ２２５および画像データ２４５に基づいて、たとえば人１０２のような人の発声を解析するように構成される。現在の場合では、画像データ２４５は、話者前処理モジュール２２０によって前処理され、話者特徴ベクトル２２５を生成する。音声処理モジュール２３０と同様に、話者前処理モジュール２２０は、ハードウェアおよびソフトウェアの任意の組合せであり得る。１つの場合では、話者前処理モジュール２２０および音声処理モジュール２３０は、車両のための共通の埋込型回路基板上で実現され得る。

１つの場合において、音声処理モジュール２３０は、オーディオデータ２５５を処理し、発声を解析するために使用される音素データを予測するように構成される音響モデルを含む。この場合、言語的特徴２６０は音素データを含み得る。音素データは、たとえば予め規定されたアルファベットまたは辞書からの１つ以上の音素シンボルに関し得る。１つの場合では、音素データは、音素の予測されたシーケンスを含み得る。別の場合において、音素データは、たとえば音素シンボルおよび／または予め規定されたアルファベットもしくは辞書からのサブシンボルと、（たとえば隠れマルコフモデルについての）状態遷移のセットといった、音素コンポーネントのセットのうちの１つ以上についての確率を含み得る。音響モデルは、オーディオ特徴ベクトルの形態にあるオーディオデータを受け取るように構成され得る。オーディオ特徴ベクトルは、メル周波数ケプストラム係数（ＭＦＣＣ）およびフィルタバンク出力のうちの１つ以上を表す数値を含み得る。ある場合において、オーディオ特徴ベクトルは、時間内の現在のウィンドウ（しばしば「フレーム」と称される）に関し得、現在のウィンドウと時間における１つ以上の他のウィンドウ（たとえば以前のウィンドウ）との間での特徴の変化に関する差を含む。現在のウィンドウは、ｗミリ秒の範囲内の幅を有し得、たとえば、１つの場合では、ｗは約２５ミリ秒であり得る。他の特徴はたとえば、信号エネルギーメトリックおよび対数スケーリングの出力を含み得る。前処理の後のオーディオデータ２５５は、複数の要素（たとえば１０個から１０００個を上回る要素）のフレーム（たとえばベクトル）を含み得、各要素は特定のオーディオ特徴に関連付けられる数値表現を含む。ある例において、約２５〜５０のメルフィルタバンク特徴と、イントラ特徴（intra feature）の同様のサイズのセットと、（たとえば、一階導関数（first-order derivative）を表わす）デルタ特徴の同様のサイズのセットと、（たとえば、二階導関数を表わす）ダブルデルタ特徴の同様のサイズのセットとが存在し得る。

話者前処理モジュール２２０は、多くの異なる態様で話者特徴ベクトル２２５を取得するように構成され得る。１つの場合では、話者前処理モジュール２２０は、メモリからたとえばルックアップオペレーションを介して話者特徴ベクトル２２５の少なくとも部分を取得し得る。１つの場合では、以下に記載されるｉおよび／またはｘベクトルを含む話者特徴ベクトル２２５の部分がメモリから抽出され得る。この場合、画像データ２４５は、メモリから抽出するために特定の話者特徴ベクトル２２５を決定するように使用され得る。たとえば、画像データ２４５は、登録ユーザのセットから１人の特定のユーザを選択するために話者前処理モジュール２２０によって分類され得る。この場合、話者特徴ベクトル２２５は、選択された特定のユーザに相関される特徴の数値表現を含み得る。別の場合では、話者前処理モジュール２２０は、話者特徴ベクトル２２５を計算し得る。たとえば、話者前処理モジュール２２０は、画像データ２４５内の顕著な情報の圧縮または密な数値表現を計算し得る。これは、画像データ２４５よりサイズが小さい多くの要素を有するベクトルを含み得る。この場合、話者前処理モジュール２２０は、話者特徴ベクトル２２５を計算するために情報ボトルネックを実現し得る。１つの場合では、計算は、重み、バイアスおよび／または確率係数のセットのようなパラメータのセットに基づいて決定される。これらのパラメータについての値は、学習データのセットを使用する学習フェーズを介して決定され得る。１つの場合では、話者特徴ベクトル２２５は、計算のセットの後、静的な値（static value）としてバッファまたは格納され得る。この場合、話者特徴ベクトル２２５は、その後の発声の際、画像データ２４５に基づいてメモリから抽出され得る。話者特徴ベクトルがどのように計算され得るかを説明するさらに別の例を以下に説明する。話者特徴ベクトル２２５が唇の動きに関するコンポーネントを含む場合、このコンポーネントは、リアルタイムまたはリアルタイムに近いベースで提供され得、データストレージから抽出され得ない。

１つの場合では、話者特徴ベクトル２２５は、たとえばアレイの各要素につき１つの値といった、数値の固定長１次元アレイ（たとえばベクトル）を含み得る。他の場合では、話者特徴ベクトル２２５は多次元アレイを含み得、たとえば２つ以上の次元が複数の１次元アレイを表わす。数値は、（たとえば特定のビット長（８ビットは０〜２５５の範囲を与える）によってセットされる範囲内の）整数値、または、（たとえば、３２ビットもしくは６４ビットの浮動小数点値として規定される）浮動小数点値を含み得る。正規化が視覚的特徴テンソルに適用される場合、たとえば、値が０〜１または−１〜１の範囲にマッピングされる場合、浮動小数点値が使用され得る。例として、話者特徴ベクトル２２５は２５６の要素アレイを含み得る。各要素が８または１６ビットの値であるが、その形態は実現例に基づいて異なり得る。一般に、話者特徴ベクトル２２５は、たとえば前述の例を使用する、画像データの対応するフレーム未満の情報コンテンツを有しており、８ビットの値を有する長さ２５６の話者特徴ベクトル２２５は、８ビット値の３つのチャネルを有する６４０×４８０のビデオフレームより小さい。すなわち、２０４８ビットｖｓ７３７２８００ビットである。情報コンテンツは、ビットで測定され得るか、または、エントロピー測定の形態で測定され得る。

１つの場合では、音声処理モジュール２３０は音響モデルを含み、音響モデルはニューラルネットワークアーキテクチャを含む。たとえば、音響モデルは、複数の隠れ層を有するディープニューラルネットワーク（ＤＮＮ： Deep Neural Network）アーキテクチャと、ニューラルネットワークアーキテクチャならびに混合ガウスモデル（ＧＭＭ： Gaussian Mixture Model）および隠れマルコフモデル（ＨＭＭ：Hidden Markov Model）のうちの１つ以上を含むハイブリッドモデルと、たとえば、入力のシーケンスに対して動作するとともに出力として言語的特徴のシーケンスを生成する１つ以上の回帰型ニューラルネットワークを含むコネクショニストテンポラルクラシフィケーション（ＣＴＣ：Connectionist Temporal Classification）モデルとのうちの１つ以上を含み得る。音響モデルは、フレームレベルで（たとえば音素シンボルまたはサブシンボルについて）予測を出力し得、以前の（およびいくつかの場合では将来の）予測を使用し得、これにより、発声についての音素データの可能または最も可能性のあるシーケンスを決定する。ビームサーチおよびビタビアルゴリズム（Viterbi algorithm）のようなアプローチが、音響モデルの出力端上で使用され得、これにより、音響モデルから出力される音素データのシーケンスをさらに決定する。音響モデルの学習は、時間ステップバイ時間ステップで行われ得る。

音声処理モジュール２３０が音響モデルを含み、音響モデルがニューラルネットワークアーキテクチャを含む（たとえば、「ニューラル」音響モデルである）場合、話者特徴ベクトル２２５は、オーディオデータ２５５と一緒に、ニューラルネットワークアーキテクチャへの入力として提供され得る。話者特徴ベクトル２２５およびオーディオデータ２５５は多くの態様で組み合わされ得る。シンプルな場合では、話者特徴ベクトル２２５およびオーディオデータ２５５は連結されてより長い結合ベクトルになり得る。別の場合では、異なる入力前処理が、話者特徴ベクトル２２５およびオーディオデータ２５５の各々に対して行なわれ得る。たとえば１つ以上のアテンション（attention）層、フィードフォワード（feed-forward）層および／または埋込層（embedding layer）が適用され得、その後、これらの層の結果が組み合わされ得る。層の異なるセットが異なる入力に適用され得る。他の場合では、音声処理モジュール２３０は、たとえば確率音響モデルといった統計モデルの別の形態を含み得、話者特徴ベクトル２２５は、特定の話者のために音声処理モジュール２３０を構成するために１つ以上の数値パラメータ（たとえば確率係数）を含む。

例示的な音声処理装置２００は、車両内の音声処理のための改善を提供する。車両内において、道路およびエンジンノイズのようなハイレベルの環境ノイズが存在し得る。自動車両の囲まれた内部空間によって引き起こされる音響の歪みがさらに存在し得る。これらのファクタによって、比較例においてはオーディオデータを処理することが困難となり得る。たとえば、音声処理モジュール２３０は言語的特徴２６０を生成するのに失敗し得、および／または、言語的特徴２６０の不十分にマッチするシーケンスを生成し得る。しかしながら、図２の構成により、音声処理モジュール２３０は、画像データ２４５に基づいて決定される話者特徴に基づいて構成または適合されることが可能になる。これは、たとえば外観と音響特徴との間の相関を利用することによって特定の話者と一貫している言語的特徴を選択し得るように、音声処理モジュール２３０に付加的な情報を提供する。これらの相関は、一般的な顔の外観のような長期的な時間的相関であり得、および／または、特定の唇位置および口位置のような短期的な時間的相関であり得る。これは、困難なノイズおよび音響コンテキストにもかかわらず、より高い精度につながる。これは、たとえば、エンドツーエンドのトランスクリプションパスを向上させ、および／または、ボイスコマンドを行なうためのオーディオインターフェイスを向上させるといった、発声解析エラーを低減するのを支援し得る。ある場合において、本例は、眠気および／または注意散漫をチェックするために運転手をモニターするように通常構成される存在する運転手に面するカメラを利用することが可能であり得る。ある場合において、認識された話者に基づいて抽出される話者依存特徴ベクトルコンポーネント、および／または、口の動きの特徴を含む話者依存特徴ベクトルコンポーネントが存在し得る。後者のコンポーネントは、個人ユーザのために構成されない機能に基づいて決定され得、たとえば、すべてのユーザのための共通の機能が適用され得るが、口の動きは話者に関連付けられる。ある他の場合では、口の動きの特徴の抽出は、特定の識別されたユーザに基づいて構成され得る。

顔認識例
図３は、例示的な音声処理装置３００を示す。音声処理装置３００は、図２における話者前処理モジュール２２０を実現するために使用され得る付加的なコンポーネントを示す。図３に示されるあるコンポーネントは、図２に示されるそれらの相当物と同様であり、同様の参照番号を有する。図２を参照して上で記載される特徴はさらに、図３の例３００にも該当し得る。図２の例示的な音声処理装置２００のように、図３の例示的な音声処理装置３００は、話者前処理モジュール３２０および音声処理モジュール３３０を含む。音声処理モジュール３３０はオーディオデータ３５５および話者特徴ベクトル３２５を受け取り、言語的特徴３６０のセットを計算する。音声処理モジュール３３０は、図２を参照して上で記載された例と同様の態様で構成され得る。

図３では、話者前処理モジュール３２０の多くのサブコンポーネントが示される。これらは、顔認識モジュール３７０、ベクトルジェネレータ３７２およびデータストア３７４を含む。これらは、図３において話者前処理モジュール３２０のサブコンポーネントとして示されるが、他の例において、別個のコンポーネントとして実現され得る。図３の例では、話者前処理モジュール３２０は、人の顔エリアを特徴とする画像データ３４５を受け取る。人は、上述したように車両中の運転手または乗客を含み得る。顔認識モジュール３７０は、たとえば車両内の運転手または乗客といった人を識別するために画像データに対して顔認識を行なう。顔認識モジュール３７０は、顔認識を行なうためにハードウェアおよびソフトウェアの任意の組合せを含み得る。１つの場合では、顔認識モジュール３７０は、オムロンエレクトロニクス社によって供給されるＢ５Ｔ−００７００１のような既製のハードウェアコンポーネントを使用して実現され得る。本例では、顔認識モジュール３７０は、画像データ３４５に基づいてユーザを検出し、ユーザ識別子３７６を出力する。ユーザ識別子３７６はベクトルジェネレータ３７２に渡される。ベクトルジェネレータ３７２は、識別された人に関連付けられる話者特徴ベクトル３２５を得るためにユーザ識別子３７６を使用する。ある場合には、ベクトルジェネレータ３７２は、データストア３７４から話者特徴ベクトル３２５を抽出し得る。その後、話者特徴ベクトル３２５は、図２を参照して記載されるように、使用のために音声処理モジュール３３０に渡される。

図３の例では、ベクトルジェネレータ３７２は、オペレーティングパラメータのセットに依存して、異なる態様で話者特徴ベクトル３２５を取得し得る。１つの場合において、オペレーティングパラメータは、特定の数の話者特徴ベクトル３２５が（たとえばユーザ識別子３７６によって識別されたような）特定の識別されたユーザについて計算されたか否かを示すパラメータを含む。１つの場合では、ある数の以前に計算された話者特徴ベクトルに関連付けられるしきい値が規定される。このしきい値が１である場合、話者特徴ベクトル３２５は第一の発声について計算され得、その後、データストア３７４に格納され得、その後の発声について、話者特徴ベクトル３２５はデータストア３７４から抽出され得る。しきい値がｎのように１以上である場合、ｎ個の話者特徴ベクトル３２５が生成され得、（ｎ＋１）番目の話者特徴ベクトル３２５が、データストア３７４から抽出される以前のｎ個の話者特徴ベクトル３２５の合成関数として得られ得る。合成関数は平均または補間を含み得る。１つの場合では、ひとたび（ｎ＋１）番目の話者特徴ベクトル３２５が計算されると、構成可能な数の将来の発声について静的な話者特徴ベクトルとして使用される。

上記の例において、話者特徴ベクトル３２５を保存するデータストア３７４の使用によって、車両内システムのためのランタイム計算要求が低減され得る。たとえば、データストア３７４は、車両内のローカルデータストレージデバイスを含み得、したがって、話者特徴ベクトル３２５は、ベクトルジェネレータ３７２によって計算されるのではなく、特定のユーザについてデータストア３７４から抽出され得る。

１つの場合では、ベクトルジェネレータ３７２によって使用される少なくとも１つの計算機能は、クラウド処理リソース（たとえばリモートサーバコンピューティングデバイス）を伴い得る。この場合、車両とクラウド処理リソースとの間の接続に制限がある状況において、話者特徴ベクトル３２５は、クラウド処理リソースによって提供される任意の機能に依存するのではなく、静的なベクトルとしてローカルストレージから抽出され得る。

１つの場合では、話者前処理モジュール３２０は、車両内の各新しく認識された人のユーザプロファイルを生成するように構成され得る。たとえば、オーディオキャプチャデバイスによってキャプチャされるといったような発声の検出に先立ってまたは発声の検出の際に、顔認識モジュール３７０は、以前に観察された顔に対して画像データ３４５をマッチすることを試み得る。マッチが見つからない場合、顔認識モジュール３７０は、新しいユーザ識別子３７６を生成し得る（または新しいユーザ識別子３７６の生成を指示し得る）。１つの場合において、顔認識モジュール３７０またはベクトルジェネレータ３７２のような話者前処理モジュール３２０のコンポーネントは、マッチが見つからない場合に、新しいユーザプロファイルを生成するように構成され得、新しいユーザプロファイルは新しいユーザ識別子を使用してインデックス付けされ得る。その後、話者特徴ベクトル３２５は、新しいユーザプロファイルに関連付けられ、新しいユーザプロファイルは、将来のマッチが顔認識モジュール３７０によってなされる場合に抽出される準備ができている状態で、データストア３７４に格納され得る。したがって、ユーザ特定音声認識プロファイルを選択するために、顔認識のために車両内画像キャプチャデバイスが使用され得る。ユーザプロファイルは、たとえば運転手が最初に車を使用する際に、エンロールメントプロセスを通じて較正され得るか、または、使用中に集められたデータに基づいて学習され得る。

１つの場合では、話者処理モジュール３２０は、データストア３７４のリセットを行なうように構成され得る。製造時において、デバイス３７４にはユーザプロファイル情報が存在しない場合がある。使用中に新しいユーザプロファイルが上述したように作成され、データストア３７４に加えられ得る。ユーザは、格納されたユーザ識別子のリセットを命じ得る。いくつかの場合には、自動車がサービス店でメンテナンスされるかまたは公認ディーラによって販売される場合のように、リセットはプロフェッショナルサービス中にのみ行なわれ得る。いくつかの場合において、ユーザによって提供されたパスワードを通じて、リセットは任意の時に提供され得る。

車両が複数の画像キャプチャデバイスおよび複数のオーディオキャプチャデバイスを含む例において、話者前処理モジュール３２０は、１つ以上のキャプチャされた画像から適切な顔エリアを決定するためにさらに別の機能を提供し得る。１つの場合において、複数のオーディオキャプチャデバイスからのオーディオデータが、発声に関連付けられる最も近いオーディオキャプチャデバイスを決定するために処理され得る。この場合、決定された最も近いオーディオキャプチャデバイスに関連付けられる最も近い画像キャプチャデバイスが選択され得、このデバイスからの画像データ３４５が顔認識モジュール３７０に送信され得る。別の場合において、顔認識モジュール３７０は、複数の画像キャプチャデバイスから複数の画像を受け取るように構成され得、各画像は、現在話しているユーザを識別するためにそれが使用されるべきであるか否かを示すために、関連付けられるフラグを含む。これにより、図３の音声処理装置３００は、車両内の複数の人々から話者を識別するために使用され得、その話者の特定の特徴に対して音声処理モジュール３３０を構成し得る。これはさらに、複数の人々が車両の制約のある内部で話している場合、車両内での音声処理を向上させ得る。

ｉベクトル
本願明細書において記載されるある例において、話者特徴ベクトル２２５または３２５のような話者特徴ベクトルは、たとえば図２および図３におけるオーディオデータ２５５または３５５といったオーディオデータに基づいて生成されるデータを含み得る。これは図３において破線によって示される。１つの場合では、話者特徴ベクトルの少なくとも部分は、ファクタ解析に基づいて生成されるベクトルを含み得る。この場合、発声は、１つ以上のファクタの線形関数であるベクトルＭとして表わされ得る。ファクタは、線形および／または非線形モデルにおいて組み合わされ得る。これらのファクタのうちの１つは、話者およびセッション独立スーパーベクトル（speaker and session independent supervector）ｍを含み得る。これは、ユニバーサルバックグランドモデル（ＵＢＭ： Universal Background Model）に基づき得る。これらのファクタのうちの別の物は、話者依存ベクトルｗを含み得る。この後者のファクタはさらに、チャネルもしくはセッションに依存し得、または、チャネルおよび／またはセッションに依存するさらに別のファクタが提供され得る。１つの場合では、ファクタ解析は、混合ガウスモデル（ＧＭＭ）混合を使用して行なわれる。シンプルな場合では、話者発声は、Ｍ＝ｍ＋Ｔｗとして決定されるスーパーベクトルＭによって表わされ得、式中、Ｔは少なくとも話者サブスペースを定義するマトリックスである。話者依存ベクトルｗは、浮動小数点値を有する複数の要素を有し得る。この場合における話者特徴ベクトルは、話者依存のベクトルｗに基づき得る。時に「ｉベクトル」と称されるｗを計算する１つの方法は、Najim Dehak、Patrick Kenny、Reda Dehak、Pierre DumouchelおよびPierre Ouelletによる論文「話者照合のためのフロントエンドファクタ分析（Front-End Factor Analysis For Speaker Verification）」に記載されている。当該論文は、２０１０年、IEEE Transactions On Audio, Speech And Language Processing 19, no.4, pages 788-798において発表されており、本願明細書において参照により援用される。ある例において、話者特徴ベクトルの少なくとも部分は、ｉベクトルの少なくとも部分を含む。ｉベクトルは、オーディオデータからの発声について決定される話者依存ベクトルであると見られ得る。

図３の例では、ベクトルジェネレータ３７２は、１つ以上の発声についてのｉベクトルを計算し得る。データストア３７４内に格納された話者特徴ベクトルが存在しない場合、ｉベクトルは、発声３５５についてのオーディオデータの１つ以上のフレームに基づいて、ベクトルジェネレータ３７２によって計算され得る。この例において、ベクトルジェネレータ３７２は、たとえば顔認識モジュール３７０から決定されるユーザ識別子３７６を使用して識別されるように、しきい値数の計算が特定のユーザについて行なわれるまで、発声ごと（たとえばボイスクエリごと）のｉベクトル計算を繰り返し得る。この場合、画像データ３４５に基づいて特定のユーザが識別された後、発声ごとにユーザについてｉベクトルがデータストア３７４に格納される。ｉベクトルも話者特徴ベクトル３２５を出力するために使用される。たとえば１００程度のｉベクトルが計算されるといったようなしきい値数の計算がひとたび行なわれると、ベクトルジェネレータ３７２は、データストア３７４に格納されるｉベクトルを使用して、特定のユーザについてのプロファイルを計算するように構成され得る。プロファイルは、インデックスとしてユーザ識別子３７６を使用し得、格納されたｉベクトルの合成関数として計算される静的な（たとえば変化しない）ｉベクトルを含み得る。ベクトルジェネレータ３７２は、（ｎ＋１）番目のクエリの受信の際に、または、バックグラウンドまたは周期関数の部分としてプロファイルを計算するように構成され得る。１つの場合では、静的なｉベクトルは、格納されたｉベクトルの平均として計算され得る。たとえば特定のユーザにプロファイルを関連付けるためにユーザ識別子を使用してプロファイルがひとたびベクトルジェネレータ３７２によって生成されてデータストア３７４に格納されると、ユーザについてのｉベクトルの計算の代わりにデータストア３７４から抽出され、将来の発声解析に使用され得る。これにより、話者特徴ベクトルを生成する計算オーバーヘッドが低減され得、ｉベクトル変動が低減され得る。

ｘベクトル
ある例において、話者特徴ベクトル２２５または３２５のような話者特徴ベクトルは、ニューラルネットワークアーキテクチャを使用して計算され得る。たとえば、１つの場合では、図３の話者前処理モジュール３２０のベクトルジェネレータ３７２は、ニューラルネットワークアーキテクチャを含み得る。この場合、ベクトルジェネレータ３７２は、オーディオデータ３５５の次元数を低減することにより話者特徴ベクトルの少なくとも部分を計算し得る。たとえば、ベクトルジェネレータ３７２は、オーディオデータ３５５の１つ以上のフレームを受け取るとともに固定長ベクトル出力（たとえば１言語当たり１つのベクトル）を出力するように構成される１つ以上のディープニューラルネットワーク層を含み得る。１つ以上のプーリング、非線形関数およびソフトマックス(SoftMax)層がさらに提供され得る。１つの場合では、話者特徴ベクトルは、David Snyder、Daniel Garcia-Romero、Alan McCree、Gregory Sell、Daniel PoveyおよびSanjeev Khudanpurによる論文「Ｘベクトルを使用した発声言語認識（Spoken Language Recognition using X-vectors）」に記載されるようにｘベクトルに基づいて生成され得る。当該論文は、２０１８年、Ｏｄｙｓｓｅｙ（ｐｐ．１０５−１１１）において発表されており、本願明細書において参照により援用される。

ｘベクトルは、上記ｉベクトルと同様の態様で使用され得、上記のアプローチは、ｘベクトルおよびｉベクトルを使用して生成される話者特徴ベクトルに適用される。１つの場合において、ｉベクトルおよびｘベクトルの両方が決定され得、話者特徴ベクトルは、ｉベクトルおよびｘベクトルの両方からの要素を含むスーパーベクトルを含み得る。ｉベクトルおよびｘベクトルの両方は、たとえば典型的に浮動小数点値および／または所与の範囲内で正規化された値といった、連結（concatenation）または加重和によって組み合わされ得る数値の要素を含む。この場合、データストア３７４は、ｉベクトルおよびｘベクトルのうちの１つ以上について格納された値を含み得、これにより、しきい値にひとたび達すると、静的な値が計算され、将来の抽出のために特定のユーザ識別子とともに格納される。１つの場合では、１つ以上のｉベクトルおよびｘベクトルからの話者特徴ベクトルを決定するために補間が使用され得る。１つの場合では、補間は、同じベクトル源から異なる話者特徴ベクトルを平均することにより行なわれ得る。

音声処理モジュールがニューラル音響モデルを含む場合、話者特徴ベクトルについての固定長フォーマットが定義され得る。その後、ニューラル音響モデルは、たとえば、図２および図３における話者前処理モジュール２２０または３２０によって決定されるように、規定された話者特徴ベクトルを使用して学習され得る。話者特徴ベクトルがｉベクトルおよびｘベクトル計算の１つ以上に由来する要素を含む場合、ニューラル音響モデルは、話者特徴ベクトル内に具現化または埋め込まれる話者固有の情報に基づいて、音響処理を構成することを「学習し」得る。これは、特に自動車両のような車両内に音響処理精度を増加し得る。この場合、画像データは、計算または格納されたベクトル要素に特定のユーザを迅速に関連付けるようなメカニズムを提供する。

例示的な音声処理モジュール
図４は、例示的な音声処理モジュール４００を示す。音声処理モジュール４００は、図１、図２および図３における音声処理モジュール１３０、２３０または３３０を実現するために使用され得る。他の例において、他の音声処理モジュール構成が使用され得る。

以前の例により、音声処理モジュール４００はオーディオデータ４５５および話者特徴ベクトル４２５を受け取る。オーディオデータ４５５および話者特徴ベクトル４２５が、本願明細書において記載される例のうちのいずれかにより構成され得る。図４の例では、音声処理モジュール４００は、音響モデル４３２と、言語モデル４３４と、発声パーサー４３６とを含む。上述したように、音響モデル４３２は音素データ４３８を生成する。音素データは、音素シンボルまたはサブシンボルのうちの１つ以上の予測されたシーケンス、または、祖語言語ユニット（proto-language unit）の他の形態を含み得る。ある場合において、各時間ステップにおける特定のシンボルまたはサブシンボルの可能性を示す確率データとともに、複数の予測されたシーケンスが生成され得る。

音素データ４３８は言語モデル４３４に通信され、たとえば、音響モデル４３２は言語モデル４３４に通信可能に結合される。言語モデル４３４は、音素データ４３８を受け取り、かつ、トランスクリプション４４０を生成するように構成される。トランスクリプション４４０は、たとえば文字列、単語部分（たとえば語幹および語尾など）または単語といったテキストデータを含み得る。文字、単語部分および単語は、たとえば各時間ステップでの可能な出力の予め規定されたセットといった予め規定された辞書から選択され得る。ある場合には、音素データ４３８が言語モデル４３４に渡す前に処理され得るか、または、言語モデル４３４によって前処理され得る。たとえば、ビーム形成は、音響モデル４３２から出力される（たとえば音素についての）確率分布に適用され得る。

言語モデル４３４は、発声パーサー４３６に通信可能に結合される。発声パーサー４３６はトランスクリプション４４０を受け取り、発声を解析するためにこれを使用する。ある場合には、発声パーサー４３６が、発声の解析の結果、発声データ４４２を生成する。発声パーサー４３６は、トランスクリプションに基づいて発声に関連付けられるコマンドおよび／またはコマンドデータを決定するように構成され得る。１つの場合では、言語モデル４３４は、たとえばテキスト内でのユニットについて確率情報により、複数の可能なテキストシーケンスを生成し得、発声パーサー４３６は、たとえば、ＡＳＣＩＩもしくはＵｎｉｃｏｄｅの文字エンコードまたは音声コマンドもしくはコマンドデータの形態で、終了したテキスト出力を決定するように構成され得る。トランスクリプション４４０がボイスコマンドを含むと決定されると、発声パーサー４３６は、コマンドデータに従ってコマンドを実行するか、または、当該コマンドの実行を命令するように構成され得る。これにより、発声データ４４２として出力される応答データが得られ得る。発声データ４４２は、たとえばコマンド命令といった、発声をする人にリレーされる応答を含み得、これにより、ダッシュボード１０８上および／または車両の音声システムを介して出力を提供する。ある場合において、言語モデル４３４は、統計的言語モデルを含み得、発声パーサー４３６は、統計的言語モデルによる出力として代替的な仮定を再スコアリングするように構成される別個の「メタ」言語モデルを含み得る。これは、たとえば最終トランスクリプションまたはコマンド識別といった最終出力を決定するために投票（voting）を使用するアンサンブルモデルを介し得る。

図４は、音響モデル４３２が入力として話者特徴ベクトル４２５およびオーディオデータ４５５を受け取り、音素データ４３８を生成するために当該入力を使用する例を実線で示す。たとえば、音響モデル４３２は、（他の非ニューラルコンポーネントを有するハイブリッドモデルを含む）ニューラルネットワークアーキテクチャを含み得、話者特徴ベクトル４２５およびオーディオデータ４５５は、ニューラルネットワークアーキテクチャに入力として提供され得、音素データ４３８はニューラルネットワークアーキテクチャの出力に基づいて生成される。

図４における破線は、ある実現例において構成され得る付加的な結合を示す。第１の場合では、話者特徴ベクトル４２５は、言語モデル４３４および発声パーサー４３６のうちの１つ以上によってアクセスされ得る。たとえば、言語モデル４３４および発声パーサー４３６がさらにそれぞれのニューラルネットワークアーキテクチャを含む場合、これらのアーキテクチャは、たとえば音素データ４３８およびトランスクリプション４４０それぞれに加えて、付加的な入力として話者特徴ベクトル４２５を受け取るように構成され得る。発声データ４４２がコマンド識別子および１つ以上のコマンドパラメータを含む場合、完全な音声処理モジュール４００は、グラウンドトゥルース出力を有する学習セットと、オーディオデータ４５５および話者特徴ベクトル４２５についての学習サンプルとが与えられると、エンドツーエンドの態様で学習され得る。

第２の実現例では、図４の音声処理モジュール４００は１つ以上の回帰型接続を含み得る。１つの場合では、音響モデルは、たとえばＬＳＴＭといった回帰型モデルを含み得る。他の場合では、モジュール間でのフィードバックが存在し得る。図４において、破線が、発声パーサー４３６と言語モデル４３４との間の第１の回帰型結合を示しており、破線が、言語モデル４３４と音響モデル４３２との間の第２の回帰型結合を示す。この第２の場合において、発声パーサー４３６の現在の状態は、言語モデル４３４の将来の予測を構成するために使用され得、言語モデル４３４の現在の状態は、音響モデル４３２の将来の予測を構成するために使用され得る。回帰型結合は、ある場合において、処理パイプラインを簡素化し、かつより容易な学習を可能にするために省略され得る。１つの場合では、回帰型結合は、次の時間ステップで適用されるアテンションまたは加重ベクトルを計算するために使用され得る。

ニューラル話者前処理モジュール
図５は、ニューラル話者前処理モジュール５２０およびニューラル音声処理モジュール５３０を使用する例示的な音声処理装置５００を示す。図５において、図２および図３におけるモジュール２２０または３２０を実現し得る話者前処理モジュール５２０は、ニューラルネットワークアーキテクチャ５２２を含む。図５では、ニューラルネットワークアーキテクチャ５２２は、画像データ５４５を受け取るように構成される。他の場合では、ニューラルネットワークアーキテクチャ５２２はさらに、たとえば図３における破線のパスウェイ（pathway）によって示されるような、オーディオデータ３５５のようなオーディオデータを受け取り得る。これらの他の場合では、図３のベクトルジェネレータ３７２はニューラルネットワークアーキテクチャ５２２を含み得る。

図５において、ニューラルネットワークアーキテクチャ５２２は少なくとも畳み込みニューラルアーキテクチャを含む。あるアーキテクチャにおいて、最後の畳み込みニューラルネットワーク層とニューラルネットワークアーキテクチャ５２２の出力層との間に１つ以上のフィードフォワードニューラルネットワーク層が存在し得る。ニューラルネットワークアーキテクチャ５２２は、ＡｌｅｘＮｅｔ、ＶＧＧＮｅｔ、ＧｏｏｇＬｅＮｅｔまたはＲｅｓＮｅｔアーキテクチャの適合された形態を含み得る。ニューラルネットワークアーキテクチャ５２２は、より正確なアーキテクチャが利用可能になると、モジュラーな態様で置換され得る。

ニューラルネットワークアーキテクチャ５２２は、少なくとも１つの話者特徴ベクトル５２５を出力し、話者特徴ベクトルは、他の例のうちのいずれかに記載されるように導出および／または使用され得る。図５は、たとえば画像データ５４５がビデオカメラからの複数のフレームを含む場合を示しており、フレームは人の顔エリアを特徴とする。この場合、複数の話者特徴ベクトル５２５は、たとえば画像データの各入力フレームについて１つ、ニューラルネットワークアーキテクチャを使用して計算され得る。他の場合では、入力データのフレームと話者特徴ベクトルとの間に多対一の関係が存在し得る。なお、回帰型ニューラルネットワークシステムを使用して、入力画像データ５４５および出力話者特徴ベクトル５２５のサンプルを時間的に同期する必要はない。たとえば、回帰型ニューラルネットワークアーキテクチャは、時間にわたってエンコーダ（またはインテグレータ）として動作し得る。１つの場合では、ニューラルネットワークアーキテクチャ５２２は、上述したようにｘベクトルを生成するように構成され得る。１つの場合において、ｘベクトルジェネレータは、画像データ５４５を受け取り、畳み込みニューラルネットワークアーキテクチャを使用してこの画像データを処理し、次いで畳み込みニューラルネットワークアーキテクチャの出力をオーディオベースのｘベクトルと組み合わせるように構成され得る。１つの場合において、公知のｘベクトル構成は、画像データとオーディオデータとを受け取り、かつ、両方のモーダルパスウェイからの情報を具現化する単一の話者特徴ベクトルを生成するために拡張され得る。

図５では、ニューラル音声処理モジュール５３０は、ニューラルネットワークアーキテクチャを含むモジュール２３０、３３０、４００のうちの１つのような音声処理モジュールである。たとえば、ニューラル音声処理モジュール５３０は、ハイブリッドＤＮＮ−ＨＭＭ／ＧＭＭシステムを含み得、および／または、完全にニューラルのＣＴＣシステムを含み得る。図５では、ニューラル音声処理モジュール５３０は、入力としてオーディオデータ５５５のフレームを受け取る。各フレームは、たとえばオーディオキャプチャデバイスからの時系列データに対して経過するｗミリ秒のウィンドウといった時間ウィンドウに対応し得る。オーディオデータ５５５のフレームは画像データ５４５のフレームと非同期であり得、たとえば、オーディオデータ５５５のフレームはより高いフレームレートを有する可能性が高い。また、保持メカニズムおよび／または回帰型ニューラルネットワークアーキテクチャは、時間的なエンコーディングおよび／またはサンプルの積分を提供するようニューラル音声処理モジュール５３０内で適用され得る。他の例において、ニューラル音声処理モジュール５３０は、言語的特徴のセットを生成するために、オーディオデータ５５５のフレームおよび話者特徴ベクトル５２５を処理するように構成される。本願明細書において議論されるように、ニューラルネットワークアーキテクチャへの参照は、１つ以上のニューラルネットワーク層（１つの場合において、１つ以上の隠れ層および複数の層を有する「ディープ」アーキテクチャ）を含み、各層は、双曲線正接単位（tanh unit）または正規化線形関数単位（RELU: REctified Linear Unit）のような非線形性によって次の層から分離され得る。他の関数は、プーリングオペレーションを含む層内で具現化され得る。

ニューラル音声処理モジュール５３０は、図４に示されるような１つ以上のコンポーネントを含み得る。たとえば、ニューラル音声処理モジュール５３０は、少なくとも１つのニューラルネットワークを含む音響モデルを含み得る。図５の例では、ニューラル話者前処理モジュール５２０およびニューラル音声処理モジュール５３０のニューラルネットワークアーキテクチャは共同で学習され得る。この場合、学習セットは、画像データ５４５のフレームと、オーディオデータ５５５のフレームと、グラウンドトゥルース言語的特徴（たとえばグラウンドトゥルース音素シーケンス、テキストトランスクリプションまたはボイスコマンド分類、および、コマンドパラメータ値）とを含み得る。ニューラル話者前処理モジュール５２０およびニューラル音声処理モジュール５３０の両方は、この学習セットを使用して、エンドツーエンドの態様で学習され得る。この場合、予測された言語的特徴とグラウンドトゥルース言語的特徴との間のエラーは、ニューラル音声処理モジュール５３０の後、ニューラル話者前処理モジュール５２０を通じて戻るように伝播され得る。次いで、両方のニューラルネットワークアーキテクチャのためのパラメータが、勾配降下法アプローチ（gradient descent approach）を使用して決定され得る。これにより、ニューラル話者前処理モジュール５２０のニューラルネットワークアーキテクチャ５２２は、車両内環境において少なくとも音響処理を向上させる１つ以上の話者特徴ベクトル５２５を生成する（１つ以上のニューラルネットワーク層についての重みおよび／またはバイアスについての値のような）パラメータ値を「学習」し得、ニューラル話者前処理モジュール５２０は、出力される言語的特徴の精度を向上させるのを支援する人の顔エリアから特徴を抽出することを学習する。

本願明細書に記載されるようなニューラルネットワークアーキテクチャの学習は、車両内デバイス上で（所望の場合、行なわれ得るが）典型的には行なわれない。１つの場合において、学習は、（ＣＰＵ、ＧＰＵ、フィールドプログラマブルゲートアレイ（ＦＰＧＡ： Field Programmable Gate Array）または他の専用のプロセッサアーキテクチャに関わらず）複数の処理ユニットと、学習データの組を保持する大きなメモリ部分とを有するサーバコンピュータデバイスのような、かなりの処理リソースへのアクセスを有するコンピューティングデバイス上で行なわれ得る。ある場合において、学習は、たとえば結合可能なＦＰＧＡまたはＧＰＵベースのデバイスといった結合されたアクセレレイタデバイスを使用して行なわれ得る。ある場合では、学習されたパラメータは、たとえば無線経由のアップデート（over-the-air update）の部分として、リモートサーバデバイスから車両内の埋込システムまで通信され得る。

音響モデル選択の例
図６は、音響モデルを構成するために話者特徴ベクトル６２５を使用する例示的な音声処理モジュール６００を示す。音声処理モジュール６００は、他の例に記載される音声処理モジュールのうちの１つを少なくとも部分的に実現するために使用され得る。図６では、音声処理モジュール６００は、音響モデル構成６３２のデータベースと、音響モデルセレクタ６３４と、音響モデルインスタンス６３６とを含む。音響モデル構成６３２のデータベースは、音響モデルを構成するためにある数のパラメータを格納する。この例において、音響モデルインスタンス６３６は、音響モデル構成６３２のデータベースからのパラメータ値の特定のセットを使用して、インスタンス化される（たとえば、構成または較正される）一般的な音響モデルを含み得る。たとえば、音響モデル構成６３６のデータベースは、複数の音響モデル構成を格納し得る。各音響モデル構成は、異なるユーザに関連付けられ得、ユーザが検出されないかまたはユーザが検出されるが特に認識されない場合に使用される１つ以上のデフォルト音響モデル構成を含む。

ある場合では、話者特徴ベクトル６２５は、特定のユーザの代わりに（または特定のユーザとともに）特定の地方アクセントを表わすために使用され得る。これは、多くの異なる地方アクセントが存在し得るインドのような国々において有用であり得る。この場合、話者特徴ベクトル６２５は、話者特徴ベクトル６２５を使用して行なわれるアクセント認識に基づいて動的に音響モデルをロードするために使用され得る。たとえば、これは、話者特徴ベクトル６２５が上述したようにｘベクトルを含む場合において可能であり得る。これは、車両のメモリ内に格納される複数のアクセントモデル（たとえば各アクセントについての複数の音響モデル構成）を有する場合に有用であり得る。次いで、これは、複数の別々に学習されたアクセントモデルが使用されることを可能にし得る。

１つの場合では、話者特徴ベクトル６２５は、車両内の人の分類を含み得る。たとえば、話者特徴ベクトル６２５は、図３における顔認識モジュール３７０によって出力されるユーザ識別子３７６に由来し得る。別の場合において、話者特徴ベクトル６２５は、図５におけるモジュール５２０のようなニューラル話者前処理モジュールによって出力される分類および／または確率のセットを含み得る。後者の場合では、ニューラル話者前処理モジュールは、潜在ユーザのセット（「未認識」についての分類を含む）について「確率」を出力するソフトマックス層を含み得る。この場合、入力画像データ５４５の１つ以上のフレームが単一の話者特徴ベクトル５２５に帰着し得る。

図６では、音響モデルセレクタ６３４は、たとえば話者前処理モジュールから話者特徴ベクトル６２５を受け取り、音響モデル構成６３２のデータベースから音響モデル構成を選択する。これは、上で記載された図３の例と同様の態様で動作され得る。話者特徴ベクトル６２５がユーザ分類のセットを含む場合、音響モデルセレクタ６３４は、たとえば確率ベクトルをサンプリングし、および／または、決定された人として最も大きい確率値を選択することによって、これらの分類に基づいて音響モデル構成を選択し得る。選択された構成に関するパラメータ値は、音響モデル構成６３２のデータベースから抽出され、音響モデルインスタンス６３６をインスタンス化するために使用され得る。従って、車両内の異なる識別されたユーザのために異なる音響モデルインスタンスが使用され得る。

図６において、たとえば、音響モデル構成６３２のデータベースから抽出された構成を使用して音響モデルセレクタ６３４によって構成されるような音響モデルインスタンス６３６もオーディオデータ６５５を受け取る。音響モデルインスタンス６３６は、オーディオデータ６５５に関連付けられる（たとえばオーディオデータ６５５内で特徴とされる）発声を解析するために使用するよう、音素データ６６０を生成するように構成される。音素データ６６０は、たとえば予め規定されたアルファベットまたは辞書からの音素シンボルのシーケンスを含み得る。従って、図６の例において、音響モデルセレクタ６３４は、話者特徴ベクトルに基づいてデータベース６３２から音響モデル構成を選択し、音響モデル構成は、音響モデルインスタンス６３６をインスタンス化してオーディオデータ６５５を処理するために使用される。

音響モデルインスタンス６３６は、ニューラルおよび非ニューラルアーキテクチャの両方を含み得る。１つの場合では、音響モデルインスタンス６３６は非ニューラルモデルを含み得る。たとえば、音響モデルインスタンス６３６は統計モデルを含み得る。統計モデルは、シンボル周波数および／または確率を使用し得る。１つの場合では、統計モデルは、ベイジアンネットワークまたは分類器のようなベイジアンモデルを含み得る。これらの場合では、音響モデル構成は、シンボル周波数の特定のセット、および／または、異なる環境において測定された以前の確率を含み得る。したがって、音響モデルセレクタ６３４は、発声の特定の源（たとえば人またはユーザ）が、両方の視覚的（およびある場合ではオーディオ）情報に基づいて決定されることを可能にし、これにより、音素シーケンス６６０を生成するためにオーディオデータ６５５を単独で使用することに対して改善が提供され得る。

別の場合では、音響モデルインスタンス６３６はニューラルモデルを含み得る。この場合、音響モデルセレクタ６３４および音響モデルインスタンス６３６は、ニューラルネットワークアーキテクチャを含み得る。この場合、音響モデル構成６３２のデータベースは省略され得、音響モデルセレクタ６３４は、インスタンスを構成するために音響モデルインスタンス６３６にベクトル入力を供給し得る。この場合、学習データは、話者特徴ベクトル６２５、オーディオデータ６５５および音素出力６６０のグラウンドトゥールースセットを生成するために使用される画像データから構築され得る。そのようなシステムは共同で学習され得る。

例示的な画像前処理
図７および図８は、自動車両のような車両の内部から得られる画像データに適用され得る例示的な画像前処理オペレーションを示す。図７は、画像プリプロセッサ７１０を含む例示的な画像前処理パイプライン７００を示す。画像プリプロセッサ７１０は、本願明細書に記載されるように、機能を実現するためにハードウェアおよびソフトウェアの任意の組合せを含み得る。１つの場合において、画像プリプロセッサ７１０は、１つ以上の画像キャプチャデバイスに結合される画像キャプチャ回路の部分を形成するハードウェアコンポーネントを含み得、別の場合では、画像プリプロセッサ７１０は、車両内制御システムのプロセッサによって実行される（ファームウェアのような）コンピュータプログラムコードによって実現され得る。１つの場合では、画像プリプロセッサ７１０は、本願明細書における例に記載される話者前処理モジュールの部分として実現され得、他の場合では、画像プリプロセッサ７１０は、話者前処理モジュールに通信可能に結合され得る。

図７では、画像プリプロセッサ７１０は、図１Ａにおける画像キャプチャデバイス１１０からの画像のような画像データ７４５を受け取る。画像プリプロセッサ７１０は、画像データの１つ以上の部分を抽出するために画像データを処理する。図７は、画像プリプロセッサ７１０の出力７５０を示す。出力７５０は、たとえば画像データ７４５の１つ以上のピクセルに関連付けられるメタデータといった１つ以上の画像アノテーション、および／または、画像データ７４５内でのピクセル座標を使用して定義される特徴を含み得る。図７の例では、画像プリプロセッサ７１０は、第１の画像エリア７５２を決定するために、画像データ７４５上で顔検出を行なう。第１の画像エリア７５２は画像部分７６２として切り取りおよび抽出され得る。第１の画像エリア７５２は、バウンディングボックス（bounding box）（たとえば、矩形エリアについての少なくとも左上および右下（ｘ，ｙ））ピクセル座標）を使用して定義され得る。顔検出は、顔認識のための前駆ステップであり得る。たとえば、顔検出が画像データ７４５内の顔エリアを決定し得、顔認識が（たとえば人々のセット内の）所与の人に属するものとして顔エリアを分類し得る。図７の例では、画像プリプロセッサ７１０はさらに、第２の画像エリア７５４を決定するために画像データ７４５内で口エリアを識別する。第２の画像エリア７５４は画像部分７６４として切り取りおよび抽出され得る。第２の画像エリア７５４もバウンディングボックスを使用して定義され得る。１つの場合では、第１および第２の画像エリア７５２，７５４は検出された顔の特徴７５６のセットに関連して決定され得る。これらの顔の特徴７５６は、目、鼻および口エリアの１つ以上を含み得る。顔の特徴７５６および／または第１および第２のエリア７５２，７５４の１つ以上の検出は、ニューラルネットワークアプローチを使用し得、または、２００４年、オランダ、International Journal of Computer Vision 57, pp. 137-154において発表された、本願明細書において参照により援用されるPaul ViolaおよびMichael J Jonesによる「堅牢なリアルタイム顔検出（Robust Real-Time Face Detection）」に記載されるようなビオラ−ジョーンズ（Viola-Jones）顔検出アルゴリズムといった公知の顔検出アルゴリズムを使用し得る。ある例において、第１および第２の画像エリア７５２，７５４のうちの１つ以上は、話者特徴ベクトルを得るために、本願明細書において記載される話者前処理モジュールによって使用される。たとえば、第１の画像エリア７５２は、図３における顔認識モジュール３７０のために入力画像データを提供し得る（すなわち、画像データ３４５を供給するために使用され得る）。第２の画像エリア７５４を使用する例は、図９を参照して以下に記載される。

図８は、赤外線波長を有する電磁放射をキャプチャするように構成される画像キャプチャデバイスを使用する効果を示す。ある場合において、図１Ａにおける画像キャプチャデバイス１１０のような画像キャプチャデバイスによって得られた画像データ８１０は低い光の状況によって影響を受け得る。図８では、画像データ８１０は、（たとえば図７における第１および第２の画像エリア７５２，７５４を含む）顔エリアを部分的に不明瞭にする影８２０のエリアを含む。これらの場合では、赤外線波長を有する電磁放射をキャプチャするように構成される画像キャプチャデバイスが使用され得る。これは、図１Ａにおける画像キャプチャデバイス１１０に（たとえばハードウェアおよび／もしくはソフトウェアにおいて除去可能なフィルタのような）適応（adaptations）を提供すること、ならびに／または、近赤外線（ＮＩＲ：Near-Infra-Red）カメラを提供することを含み得る。そのような画像キャプチャデバイスからの出力は、画像データ８３０として概略的に示される。画像データ８３０では、顔エリア８４０は確実にキャプチャされる。この場合、画像データ８３０は、たとえば夜のドライブにおいて生じ得る照度の変化といった照度の変化によって影響を受けない照度不変表現を提供する。これらの場合、画像データ８３０は、本願明細書に記載されるように、画像プリプロセッサ７１０および／または話者前処理モジュールモジュールに提供されるものである。

読唇例
ある例において、本願明細書において記載される話者特徴ベクトルは少なくとも、人の口または唇の特徴を表わす要素のセットを含み得る。これらの場合では、話者特徴ベクトルは、人の口または唇エリアを特徴とする画像データのコンテンツに基づいて変化するので、話者に依存し得る。図５の例では、ニューラル話者前処理モジュール５２０は、話者特徴ベクトル５２５を生成するために使用される唇または口の特徴をエンコードし得る。これらは音声処理モジュール５３０のパフォーマンスを向上させるために使用され得る。

図９は、話者特徴ベクトルの少なくとも部分を形成するために唇特徴を使用する別の例示的な音声処理装置９００を示す。以前の例と同様に、音声処理装置９００は、話者前処理モジュール９２０および音声処理モジュール９３０を含む。音声処理モジュール９３０は、オーディオデータ９５５（この場合ではオーディオデータのフレーム）を受け取り、言語的特徴９６０を出力する。音声処理モジュール９３０は、本願明細書において記載される他の例のように構成され得る。

図９では、話者前処理モジュール９２０は、画像データの２つの異なる源を受け取るように構成される。この例において、話者前処理モジュール９２０は、人の顔エリアを特徴とする画像データ９６２の第１のセットを受け取る。これは、図７において画像プリプロセッサ７１０によって抽出されるような第１の画像エリア７６２を含み得る。話者前処理モジュール９２０はさらに、人の唇または口のエリアを特徴とする画像データ９６４の第２のセットを受け取る。これは、図７における画像プリプロセッサ７１０によって抽出されるような第２の画像エリア７６４を含み得る。画像データ９６４の第２のセットは、たとえば図１Ａの画像キャプチャデバイス１１０を使用して得られるより大きな画像の小さな切り取られた部分といったように相対的に小さくあり得る。他の例において、画像データ９６２，９６４の第１および第２のセットは切り取られなくてもよく、画像キャプチャデバイスからの画像のセットのコピーを含み得る。異なる構成は可能である。すなわち、画像データを切り取ることによって、処理速度および学習における改善が提供され得るが、ニューラルネットワークアーキテクチャは、幅広いさまざまな画像サイズに対して動作するように学習され得る。

話者前処理モジュール９２０は、特徴抽出コンポーネント９２２および唇特徴抽出器９２４という図９における２つのコンポーネントを含む。唇特徴抽出器９２４は、読唇モジュールの部分を形成する。特徴抽出コンポーネント９２２は、図３における話者前処理モジュール３２０と同様の態様で構成され得る。この例において、特徴抽出コンポーネント９２２は、画像データ９６２の第１のセットを受け取り、（たとえば上述したような）ｉベクトルおよびｘベクトルのうちの１つ以上からなるベクトル部分９２６を出力する。１つの場合では、特徴抽出コンポーネント９２２は、発声当たりの単一の画像を受け取り、唇特徴抽出器９２４および音声処理モジュール９３０は、発声の時間に亘って複数のフレームを受け取る。１つの場合では、特徴抽出コンポーネント９２２によって行なわれる顔認識がしきい値を下回る信頼値を有する場合、画像データ９６２の第１のセットが（たとえば、ビデオの別／現在のフレームを使用することによって）アップデートされ得、信頼値がしきい値に到達する（または、予め規定された数の試行を上回る）まで顔認識が再適用される。図３を参照して記載されるように、ベクトル部分９２６は、第１の数の発声についてのオーディオデータ９５５に基づいて計算され得、第１の数の発声をひとたび上回ると、メモリから静的な値として抽出される。

唇特徴抽出器９２４は、画像データ９６４の第２のセットを受け取る。画像データ９６４の第２のセットは、口または唇エリアに注目する画像データの切り取られたフレームを含み得る。唇特徴抽出器９２４は、画像キャプチャデバイスのフレームレートおよび／またはサブサンプリングされるフレームレート（たとえば２フレームごと）で、画像データ９６４の第２のセットを受け取り得る。唇特徴抽出器９２４は、ベクトル部分９２８のセットを出力する。これらのベクトル部分９２８は、ニューラルネットワークアーキテクチャを含むエンコーダの出力を含み得る。唇特徴抽出器９２４は、固定長ベクトル出力（たとえば整数または浮動小数点値を有する２５６または５１２個の要素）を提供するために畳み込みニューラルネットワークアーキテクチャを含み得る。唇特徴抽出器９２４は、画像データ９６４の各入力フレームについてベクトル部分を出力し得、および／または、回帰型ニューラルネットワークアーキテクチャを使用して（たとえば長短期記憶（ＬＳＴＭ： Long Short Term Memory）、ゲート付き回帰型ユニット（ＧＲＵ：Gated Recurrent Unit）、または「トランスフォーマ」アーキテクチャを使用して）時間ステップ上の特徴をエンコードし得る。後者の場合では、唇特徴抽出器９２４の出力は、回帰型ニューラルネットワークの隠れ状態および回帰型ニューラルネットワークの出力のうちの１つ以上を含み得る。唇特徴抽出器９２４のための一つの例示的な実現例は、本願明細書において参照により援用される、２０１７年、IEEE Conference on Computer Vision and Pattern Recognition (CVPR)におけるChung, Joon Sonらによる「自然な状態の文の唇読（Lip reading sentences in the wild）」に記載される。

図９において、音声処理モジュール９３０は、入力として、特徴抽出コンポーネント９２２からベクトル部分９２６を受け取り、唇特徴抽出器９２４からベクトル部分９２８を受け取る。１つの場合では、話者前処理モジュール９２０は、単一の話者特徴ベクトルになるようにベクトル部分９２６，９２８を組み合わせ得る。別の場合では、音声処理モジュール９３０は、ベクトル部分９２６，９２８を別々に受け取り得るが、話者特徴ベクトルの異なる部分として当該ベクトル部分を取り扱い得る。ベクトル部分９２６，９２８は、たとえば連結またはより複雑なアテンションベースのメカニズムを使用して、話者前処理モジュール９２０および音声処理モジュール９２０のうちの１つ以上によって、単一の話者特徴ベクトルになるように組み合わせ得る。ベクトル部分９２６、ベクトル部分９２８およびオーディオデータ９５５のフレームの１つ以上のサンプルレートが異なる場合、たとえば、受取および保持アーキテクチャ（receive-and-hold architecture）（新しいサンプル値が受け取られるまでより遅くより変動する値が所与の値に一定に保持される）、（たとえば上記のようにＬＳＴＭまたはＧＲＵを使用する）回帰型時間エンコーディング（recurrent temporal encoding）、または、時間ステップ当たりにアテンション加重ベクトルが変化するアテンションベースのシステムによって、共通のサンプルレートが実現され得る。

音声処理モジュール９３０は、本願明細書において記載される他の例に記載されるようにベクトル部分９２６，９２８を使用するように構成され得、たとえば、これらは、オーディオデータ９５５と共に、話者特徴ベクトルとしてニューラル音響モデルに入力され得る。音声処理モジュール９３０がニューラル音響モデルを含む例において、画像キャプチャデバイスからの入力ビデオと、オーディオキャプチャデバイスからの入力オーディオと、グラウンドトゥルース言語的特徴とに基づき学習セットが生成され得る（たとえば、図７における画像プリプロセッサ７１０は、生の入力ビデオから画像データ９６２，９６４の第１および第２のセットを得るために使用され得る）。

ある例において、ベクトル部分９２６はさらに要素の付加的なセットを含み得る。当該要素の付加的なセットの値は、たとえば図５における５２２のようなニューラルネットワークアーキテクチャを使用して画像データ９６２の第１のセットのエンコーディングから導出される。これらの付加的な要素は「顔エンコーディング」を表わし得、ベクトル部分９２８は「唇エンコーディング」を表わし得る。顔エンコーディングは、発声について静的なままであり得、唇エンコーディングは、発声の間に変化し得るか、または、発声について複数の「フレーム」を含み得る。図９は唇特徴抽出器９２４および特徴抽出コンポーネント９２２の両方を使用する例を示すが、一例では、特徴抽出コンポーネント９２２が省略され得る。この後の例では、車両内での使用のための読唇システムは、図５の音声処理装置５００と同様の態様で使用され得る。

例示的な自動車両
図１０Ａおよび図１０Ｂは、本願明細書に記載される車両が自動車両である例を示す。図１０Ａは、自動車１００５の側面図１０００を示す。自動車１００５は、自動車１００５のコンポーネントを制御するための制御ユニット１０１０を含む。図１Ｂに示されるような音声処理装置１２０のコンポーネント（および他の例）は、この制御ユニット１０１０に組み込まれ得る。他の場合において、音声処理装置１２０のコンポーネントは、制御ユニット１０１０との接続のオプションにより、別個のユニットとして実現され得る。自動車１００５はさらに、少なくとも１つの画像キャプチャデバイス１０１５を含む。たとえば、少なくとも１つの画像キャプチャデバイス１０１５は、図１Ａに示される画像キャプチャデバイス１１０を含み得る。この例において、少なくとも１つの画像キャプチャデバイス１０１５は、通信可能に制御ユニット１０１０に結合され得、制御ユニット１０１０によって制御され得る。他の例において、少なくとも１つの画像キャプチャデバイス１０１５は制御ユニット１０１０と通信し、リモートに制御される。本願明細書において記載される機能とともに、少なくとも１つの画像キャプチャデバイス１０１５は、たとえばビデオデータによるボイスオーバインターネットプロトコルコール、環境モニタリング、運転手覚醒モニタリングなどといったビデオ通信に使用され得る。図１０Ａはさらに、側面にマウントされたマイクロフォン１０２０の形態にある少なくとも１つのオーディオキャプチャデバイスを示す。これらは、図１Ａにおいて示されるオーディオキャプチャデバイス１１６を実現し得る。

本願明細書において記載される画像キャプチャデバイスは、コマンドに対してまたは予め規定されたサンプリングレートで画像データのフレームをキャプチャするように構成される１つ以上の静止画またはビデオカメラを含み得る。画像キャプチャデバイスは、車両内部の前部および後部の両方のカバレージを提供し得る。１つの場合において、予め規定されたサンプリングレートは、全解像度ビデオのためのフレームレート未満であり得、たとえば、ビデオストリームは３０フレーム／秒でキャプチャされ得るが、画像キャプチャデバイスのサンプリングレートは、このレートでキャプチャし得るか、または、１フレーム／秒のような低いレートでキャプチャし得る。画像キャプチャデバイスは、１つ以上の色チャネル（たとえば、上述したようなＲＧＢまたはＹＵＶ）を有する画像データの１つ以上のフレームをキャプチャし得る。ある場合において、フレームレートと、フレームサイズおよび解像度と、色チャネルの数と、サンプルフォーマットといった画像キャプチャデバイスの局面が構成可能であり得る。ある場合において、画像データのフレームはダウンサンプリングされ得る。たとえば３８４０×２１６０の「４Ｋ」解像度でビデオをキャプチャするビデオキャプチャデバイスは、６４０×４８０またはそれを下回るまでダウンサンプリングされ得る。代替的には、低コストの埋込型デバイスの場合、３２０×２４０以下で画像データのフレームをキャプチャする低解像度画像キャプチャデバイスが使用され得る。ある場合において、安い低解像度画像キャプチャデバイスでも、音声処理について向上するのに十分な視覚情報を提供し得る。上記のように、画像キャプチャデバイスはさらに、画像前処理および／またはフィルタリングコンポーネント（たとえばコントラスト調節、ノイズ除去、色調整、切り取りなど）を含み得る。ある場合において、ＩＳＯ２６２６２自動車セーティスタンダードについてのより厳格な自動車セーフティレベル（ＡＳＩＬ： Automotive Safety Integrity Level）を満たす低レイテンシおよび／または高フレームレートの画像カメラが利用可能である。それらのセーフティ上の利点とは別に、より高い時間情報を提供することにより、読唇精度が向上し得る。それは、より正確な特徴確率推定のために回帰型ニューラルネットワークにとって有用であり得る。

図１０Ｂは、自動車１００５の俯瞰図１０３０を示す。自動車１００５は、音声キャプチャのための前部にマウントされたマイクロフォンの向きに乗客を保持するための前部シート１０３２および後部シート１０３４を含む。自動車１００５は、セーフティクリティカル表示情報を有する運転手視覚コンソール１０３６を含む。運転手視覚コンソール１０３６は、図１Ａに示されるようなダッシュボード１０８の部分を含み得る。自動車１００５はさらに、ナビゲーション、娯楽および環境制御機能を有する一般的なコンソール１０３８を含む。制御ユニット１０１０は、一般的なコンソール１０３８を制御し得、図１Ａにおける１２０のようなローカル音声処理モジュールおよびワイヤレスネットワーク通信モジュールを実現し得る。ワイヤレスネットワーク通信モジュールは、制御ユニット１０１０によって生成される画像データ、オーディオデータおよび話者特徴ベクトルのうちの１つ以上を処理のためにリモートサーバに送信し得る。自動車１００５は、側面にマウントされたマイクロフォン１０２０と、前部の頭上のマルチマイクロフォンスピーチキャプチャユニット１０４２と、後部の頭上のマルチマイクロフォンスピーチキャプチャユニット１０４４とをさらに含む。前部および後部スピーチキャプチャユニット１０４２，１０４４は、スピーチオーディオをキャプチャし、ノイズをキャンセルし、話者の位置を識別するための付加的なオーディオキャプチャデバイスを提供する。１つの場合において、前部および後部スピーチキャプチャユニット１０４２，１０４４はさらに、車両の乗客の各々を特徴とする画像データをキャプチャするために付加的な画像キャプチャデバイスを含み得る。

図１０Ｂの例において、マイクロフォンおよびスピーチキャプチャユニット１０２０、１０４２および１０４４のうちのいずれか１つ以上が、図１Ｂにおける１４０のようなオーディオインターフェイスにオーディオデータを提供し得る。マイクロフォンまたはマイクロフォンのアレイは、予め規定されたサンプリングレートでオーディオサンプルをキャプチャまたは記録するように構成され得る。ある場合において、サンプリングレート、ビット分解能、チャネルの数およびサンプルフォーマットといった各オーディオキャプチャデバイスの局面は構成可能であり得る。キャプチャされたオーディオデータはパルス符号変調（Pulse Code Modulated）であり得る。いずれかのオーディオキャプチャデバイスはさらに、オーディオ前処理コンポーネントおよび／またはフィルタリングコンポーネント（たとえばコントラスト調節、ノイズ除去など）を含み得る。同様に、画像キャプチャデバイスのうちのいずれか１つ以上が、図１Ｂにおける１５０のような画像インターフェイスに画像データを提供し得、さらに、ビデオ前処理および／またはフィルタリングコンポーネントを含み得る（たとえばコントラスト調節、ノイズ除去など）。

図１１は、前部シート１０３２から見られるような自動車１１００の内部の例を示す。たとえば、図１１は、図１Ａのウインドシールド１０４へ向かう視界を含み得る。図１１は、（図１におけるハンドル１０６のような）ハンドル１１０６と、（図１０Ａおよび図１０Ｂにおけるサイドマイクロフォン１０２０のうちの１つのような）サイドマイクロフォン１１２０と、（前部頭上マルチマイクロフォンスピーチキャプチャユニット１０４２を含み得る）バックミラー１１４２と、投射デバイス１１３０とを示す。投射デバイス１１３０は、（たとえば、運転手視覚コンソール１０３６および一般的なコンソール１０３８に加えて）たとえば付加的な視覚的出力デバイスとしての使用のために、ウインドシールド上に画像１１４０を投射するように用いられ得る。図１１では、画像１１４０は方向を含む。これらは、「モールマートへの方向を教えて」というボイスコマンドの後に投射される方向であり得る。他の例はよりシンプルな応答システムを使用し得る。

車両のためのローカルおよびリモート音声処理
ある場合には、音声処理モジュールの機能が本願明細書に記載されるように分散され得る。たとえば、ある機能は、自動車１００５内でローカルに計算され得、また、ある機能はリモート（「クラウド」）のサーバデバイスによって計算され得る。ある場合には、機能が、自動車（「クライアント」）側およびリモートサーバデバイス（「サーバ」）側で複製され得る。これらの場合において、リモートサーバデバイスへの接続が利用可能でない場合、処理はローカル音声処理モジュールによって行なわれ得、リモートサーバデバイスへの接続が利用可能な場合、オーディオデータ、画像データおよび話者特徴ベクトルのうちの１つ以上は、キャプチャされた発声を解析するためにリモートサーバデバイスに送信され得る。リモートサーバデバイスは、処理リソース（たとえば中央処理装置すなわちＣＰＵ、グラフィカル処理ユニットすなわちＧＰＵ、およびランダムアクセスメモリ）を有し得るので、接続が利用可能な場合、ローカルパフォーマンスに対する改善を提供し得る。これは、処理パイプラインにおけるレイテンシに対してトレードオフとなり得る（たとえば、ローカル処理はより応答が早い）。１つの場合では、ローカル音声処理モジュールは、第１の出力を提供し得、これはリモート音声処理モジュールの結果によって補足および／または向上され得る。

１つの場合において、たとえば自動車１００５のような車両は、少なくとも１つのネットワークを介してリモートサーバデバイスに通信可能に結合され得る。ネットワークは、さまざまな物理的な技術（たとえばイーサネット（登録商標）のような有線技術、ならびに／または、Ｗｉ−Ｆｉ（登録商標）（ＩＥＥＥ８０２．１１）規格およびセルラー通信技術）といった無線技術）を使用して実現され得る１つ以上のローカルおよび／またはワイドエリアネットワークを含み得る。ある場合には、ネットワークが、インターネットのような１つ以上のプライベートおよびパブリックネットワークの混合を含み得る。車両およびリモートサーバデバイスは、異なる技術および通信パスウェイを使用してネットワークを介して通信し得る。

図３の例示的な音声処理装置３００を参照して、１つの場合において、ベクトルジェネレータ３７２によるベクトル生成は、ローカルまたはリモートで行なわれ得るが、データストア３７４は自動車１００５内にローカルに存在する。この場合、静的な話者特徴ベクトルは、ローカルおよび／またはリモートで計算され得るが、データストア３７４内にローカルに格納される。この後、話者特徴ベクトル３２５は、リモートサーバデバイスから受け取られるのではなく、自動車内のデータストア３７４から抽出され得る。これにより音声処理レイテンシが向上され得る。

音声処理モジュールが車両からリモートである場合、ローカル音声処理装置は、オーディオデータ、画像データおよび話者特徴ベクトルのうちの１つ以上に由来するデータを音声処理モジュールへ送信し、発声の解析からの制御データを受け取るトランシーバを含み得る。１つの場合では、トランシーバは、有線または無線の物理インターフェイスと、予め規定されたフォーマットで要求を送信および／または受信するための方法を提供する１つ以上の通信プロトコルとを含み得る。１つの場合では、トランシーバは、インターネットプロトコルスイート上で動作するアプリケーション層インターフェイスを含み得る。この場合、アプリケーション層インターフェイスは、リモートサーバデバイスを識別する特定のインターネットプロトコルアドレスの方へ方向付けされた通信を受けるように構成され得、パス名またはウェブアドレスに基づいたルーティングが１つ以上のプロキシおよび／または通信（たとえば「ウェブ」）サーバによって行なわれる。

ある場合には、音声処理モジュールによって生成される言語的特徴が、（たとえば図４における発声パーサー４３６を参照して記載されるように）ボイスコマンドおよびボイスコマンドについてのデータのセットにマッピングされ得る。１つの場合では、発声データ４４２は、自動車１００５の制御ユニット１０１０によって使用され、ボイスコマンドを実行するために使用され得る。１つの場合において、発声パーサー４３６はリモートサーバデバイス内に存在し得、発声解析は、音声処理モジュールの出力からのボイスコマンドを実行するよう適切なサービスを識別することを伴い得る。たとえば、発声パーサー４３６は、識別されたサーバへアプリケーションプログラミングインターフェイス（ＡＰＩ： application programming interface）要求をするように構成され得る。当該要求は、言語モデルの出力から識別されるコマンドと任意のコマンドデータとを含む。たとえば、「モールマートはどこ？」という発声によって、「モールマートはどこ」というテキスト出力が得られ得、「モールマート」の所望の位置パラメータと、たとえばグローバルポジショニングシステムのような測位システムから導出される車両の現在の位置とを有する車両マッピングデータについての方向サービスＡＰＩ要求にマッピングされ得る。応答は、抽出され、車両に通信され得、図１１に示されるように表示され得る。

１つの場合では、リモート発声パーサー４３６は、自動車１００５の制御ユニット１０１０に応答データを通信する。これは、たとえばユーザインターフェイスまたはオーディオ出力を介して、ユーザに通信されるマシン読取可能データを含み得る。応答データが処理され得、ユーザへの応答は、運転手視覚コンソール１０３６および一般的なコンソール１０３８のうちの１つ以上の上で出力され得る。ユーザへ応答を提供することは、運転手視覚コンソール１０３６および一般的なコンソール１０３８のうちの１つ以上のディスプレイスクリーン上でのテキストおよび／または画像の表示を含み得るか、または、テキストツースピーチモジュールを介する音の出力を含み得る。ある場合において、応答データは、制御ユニット１００５で処理され得るとともにたとえば１つ以上の話者を介してオーディオ出力を生成するために使用されるオーディオデータを含み得る。自動車１００５の内部内にマウントされるスピーカを介して応答がユーザに話され得る。

例示的な埋込型コンピューティングシステム
図１２は、本願明細書に記載されるように音声処理装置を実現し得る例示的な埋込型コンピューティングシステム１２００を示す。埋込型コンピューティングシステム１２００と同様のシステムは、図１０において制御ユニット１０１０を実現するために使用され得る。例示的な埋込型コンピューティングシステム１２００は、１つ以上のコンピュータプロセッサ（ＣＰＵ）コア１２１０と、０以上のグラフィックスプロセッサ（ＧＰＵ）コア１２２０とを含む。プロセッサは、プログラムコードおよびデータストレージのためにランダムアクセスメモリ（ＲＡＭ）デバイス１２４０に基板レベルの配線１２３０を通じて接続する。埋込型コンピューティングシステム１２００はさらに、プロセッサがリモートシステムおよび特定の車両制御回路１２６０と通信することを可能にするためにネットワークインターフェイス１２５０を含む。インターフェイス１２３０を通じてＲＡＭデバイスに格納される命令を実行することによって、ＣＰＵ１２１０および／またはＧＰＵ１２２０は、本願明細書に記載されるような機能を実行し得る。ある場合には、制約された埋込型コンピューティングデバイスが、コンポーネントの同様の一般的な配置を有し得るが、ある場合において、より少ないコンピューティングリソースを有してもよく、専用のグラフィックスプロセッサ１２２０を有さなくてもよい。

例示的な音声処理方法
図１３は、車両内音声認識を向上させるために行なわれ得る音声を処理するための例示的な方法１３００を示す。方法１３００は、オーディオデータがオーディオキャプチャデバイスから受け取られるブロック１３０５から始まる。オーディオキャプチャデバイスは車両内に位置し得る。オーディオデータは、ユーザからの発声を特徴とし得る。ブロック１３０５は、図１０Ａおよび図１０Ｂにおけるデバイス１０２０、１０４２および１０４４のような１つ以上のマイクロフォンからのデータをキャプチャすることを含む。１つの場合では、ブロック１３０５は、ローカルオーディオインターフェイスを介してオーディオデータを受け取ることを含み得、別の場合では、ブロック１３０５は、たとえば車両からリモートであるオーディオインターフェイスにてネットワークを介してオーディオデータを受け取ることを含み得る。

ブロック１３１０において、画像キャプチャデバイスからの画像データが受け取られる。画像キャプチャデバイスは車両内に位置し得、たとえば、図１０Ａおよび図１０Ｂにおける画像キャプチャデバイス１０１５を含み得る。１つの場合では、ブロック１３１０は、ローカル画像インターフェイスを介して画像データを受け取ることを含み得、別の場合では、ブロック１３１０は、たとえば車両からリモートである画像インターフェイスにてネットワークを介して画像データを受け取ることを含み得る。

ブロック１３１５では、話者特徴ベクトルが画像データに基づいて得られる。これはたとえば、話者前処理モジュール２２０，３２０，５２０および９２０のうちのいずれか１つを実現することを含み得る。ブロック１３１５は、自動車１００５のローカルプロセッサまたはリモートサーバデバイスによって行なわれ得る。ブロック１３２０では、発声は音声処理モジュールを使用して解析される。たとえば、これはたとえば、音声処理モジュール２３０、３３０、４００、５３０および９３０のうちのいずれか１つを実現することを含み得る。ブロック１３２０は、ある数のサブブロックを含む。これらは、サブブロック１３２２において、音声処理モジュールの音響モデルへの入力として話者特徴ベクトルおよびオーディオデータを提供することを含む。これは、図４を参照して記載されるオペレーションと同様のオペレーションを含み得る。ある場合には、音響モデルがニューラルネットワークアーキテクチャを含む。サブブロック１３２４では、音素データは、話者特徴ベクトルおよびオーディオデータに基づいて、少なくともニューラルネットワークアーキテクチャを使用して予測される。これは、オーディオデータに加えて、入力として話者特徴ベクトルを受け取るように学習されるニューラルネットワークアーキテクチャを使用することを含み得る。話者特徴ベクトルおよびオーディオデータの両方が数値表現を含むので、これらは同様にニューラルネットワークアーキテクチャによって処理され得る。ある場合において、既存のＣＴＣまたはハイブリッド音響モデルは、話者特徴ベクトルおよびオーディオデータの連結を受け取るように構成され得、（たとえば話者特徴ベクトルを導出するために使用される）画像データを付加的に含む学習セットを使用して学習され得る。

ある場合には、ブロック１３１５は、車両内の人を識別するために画像データに対して顔認識を行なうことを含む。たとえば、これは、図３における顔認識モジュール３７０を参照して記載されるように行なわれ得る。これの後、（たとえば車両中の）人についてのユーザプロファイルデータが顔認識に基づいて得られ得る。たとえば、ユーザプロファイルデータは、図３を参照して記載されるように、ユーザ識別子３７６を使用して、データストア３７４から抽出され得る。その後、話者特徴ベクトルはユーザプロファイルデータに従って得られ得る。１つの場合では、話者特徴ベクトルは、要素値の静的なセットとしてユーザプロファイルデータから抽出され得る。別の場合では、ユーザプロファイルデータは、たとえばブロック１３０５および１３１０にて受け取ったオーディオデータおよび画像データのうちの１つ以上を使用して話者特徴ベクトルが計算されることになっていることを示し得る。ある場合において、ブロック１３１５は、ユーザプロファイルデータに関連付けられるある数の格納された話者特徴ベクトルを予め規定されたしきい値と比較することを含む。たとえば、ユーザプロファイルデータは顔認識を使用して識別されるユーザによってどれくらい多くの以前のボイスクエリーが行なわれたかを示し得る。ある数の格納された話者特徴ベクトルが予め規定されたしきい値を下回ることに応答して、オーディオデータおよび画像データのうちの１つ以上を使用して話者特徴ベクトルが計算され得る。ある数の格納された話者特徴ベクトルが予め規定されたしきい値より大きいことに応答して、たとえば、ユーザプロファイルデータ内に格納されるか、または、ユーザプロファイルデータを介してアクセス可能である話者特徴ベクトルといった、静的な話者特徴ベクトルが得られ得る。この場合、静的な話者特徴ベクトルは、ある数の格納された話者特徴ベクトルを使用して生成され得る。

ある例において、ブロック１３１５は、人の顔エリア内の唇の動きに基づいて１つ以上の話者特徴ベクトルを生成するために画像データを処理することを含み得る。たとえば、唇特徴抽出器９２４または好適に構成されたニューラル話者前処理モジュール５２０のような読唇モジュールが使用され得る。読唇モジュールの出力は、音声処理モジュールに１つ以上の話者特徴ベクトルを供給するために使用され得、および／または、より大きな話者特徴ベクトルを生成するために他の値（たとえばｉまたはｘベクトル）と結合され得る。

ある例において、ブロック１３２０は、音声処理モジュールの言語モデルに音素データを提供することと、言語モデルを使用して発声のトランスクリプトを予測することと、トランスクリプトを使用して車両のための制御コマンドを決定することとを含む。たとえば、ブロック１３２０は、図４を参照して記載されるオペレーションと同様のオペレーションを含み得る。

発声解析例
図１４は、命令１４２０を格納する一時的でないコンピュータ読取可能記憶媒体１４１０を含む例示的な処理システム１４００を示す。命令１４２０は、少なくとも１つのプロセッサ１４３０によって実行されると、少なくとも１つのプロセッサに一連のオペレーションを実行させる。この例のオペレーションは、発声のトランスクリプションを生成するために以前に記載されたアプローチを使用する。これらのオペレーションは、たとえば前述のように車両内において行なわれ得るか、または、車両内の例を、たとえばデスクトップ、ラップトップ、モバイルまたはサーバコンピューティングデバイスを使用して実現され得る車両ベースでない状況まで拡張し得る。

命令１４３２を介して、プロセッサ１４３０は、オーディオキャプチャデバイスからオーディオデータを受け取るように構成される。これは、オーディオデータを含むローカルメモリへアクセスすること、および／または、ネットワークを介してアレイ値のデータストリームまたはセットを受け取ることを含み得る。オーディオデータは、本願明細書における他の例を参照して記載されるような形態を有し得る。命令１４３４を介して、プロセッサ１４３０は話者特徴ベクトルを受け取るように構成される。話者特徴ベクトルは、画像キャプチャデバイスからの画像データに基づいて得られる。当該画像データは、ユーザの顔エリアを特徴とする。たとえば、話者特徴ベクトルは、図２、図３、図５および図９のうちのいずれかを参照して記載されるアプローチを使用して得られ得る。話者特徴ベクトルはたとえば、プロセッサ１４３０によってローカルに計算され得、ローカルメモリからアクセスされ得、および／または、（たとえば）ネットワークインターフェイスを介して受け取られ得る。命令１４３６を介して、プロセッサ１４３０は、音声処理モジュールを使用して発声を解析するように命令される。音声処理モジュールは、図２、図３、図４、図５および図９のうちのいずれかを参照して記載されるモジュールのうちのいずれかを含み得る。

図１４は、命令１４３６がある数のさらに別の命令に分解され得ることを示す。命令１４４０を介して、プロセッサ１４３０は、音声処理モジュールの音響モデルへの入力として、話者特徴ベクトルおよびオーディオデータを提供するように命令される。これは、図４を参照して記載されたものと同様の態様で達成され得る。本例では、音響モデルはニューラルネットワークアーキテクチャを含む。命令１４４２を介して、プロセッサ１４３０は、話者特徴ベクトルおよびオーディオデータに基づいて、少なくともニューラルネットワークアーキテクチャを使用して、音素データを予測するように命令される。命令１４４４を介して、プロセッサ１４３０は、音声処理モジュールの言語モデルに音素データを提供するように命令される。これはさらに、図４に示されるものと同様の態様で行なわれ得る。命令１４４６を介して、プロセッサ１４３０は、言語モデルを使用して発声のトランスクリプトを生成するように命令される。たとえば、トランスクリプトは言語モデルの出力として生成され得る。ある場合には、トランスクリプトは、ボイスコマンドを実行するために、自動車１００５における制御ユニット１０１０のような制御システムによって使用され得る。他の場合では、トランスクリプトは、スピーチツーテキストシステムのための出力を含み得る。後者の場合では、画像データは、プロセッサ１４３０を含むコンピューティングデバイスに通信可能に結合されるウェブカメラなどから抽出され得る。モバイルコンピューティングデバイスについては、画像データは前向き画像キャプチャデバイスから得られ得る。

ある例において、命令１４３４に従って受け取られる話者特徴ベクトルは、オーディオデータに基づいて生成される、話者に依存するベクトル要素（たとえばｉベクトルまたはｘベクトルコンポーネント）と、画像データに基づいて生成される、話者の唇の動きに依存するベクトル要素（たとえば読唇モジュールによって生成されるような）と、画像データに基づいて生成される、話者の顔に依存するベクトル要素とのうちの１つ以上を含む。１つの場合では、プロセッサ１４３０は、リモートサーバデバイスの部分を含み得、オーディオデータおよび話者画像ベクトルは、たとえば分散処理パイプラインの部分として自動車両から受け取られ得る。

例示的な実現例
自動音声認識を含む音声処理に関するある例が記載される。ある例は、ある話された言語の処理に関する。さまざまな例は、他の言語または言語の組合せについて同様に動作する。ある例は、発声をする人の画像から導出される付加的な情報を組み込むことによって、音声処理の精度および堅牢性を向上させる。この付加的な情報は、言語的モデルを向上させるために使用され得る。言語的モデルは、音響モデル、発音モデルおよび言語モデルの１つ以上を含み得る。

本願明細書において記載されるある例は、自動車のような車両内で自動音声認識を行なうユニークな困難さに対処するために実現され得る。ある組み合わされた例において、読唇特徴を決定し、ｉベクトルおよび／またはｘベクトルプロファイルが構築および選択されることを可能にするために顔を認識するよう、カメラからの画像データが使用され得る。本願明細書に記載されるようにアプローチを実現することによって、自動車両の騒々しくマルチチャネルの環境内において、自動音声認識を行なうことが可能であり得る。

本願明細書において記載されるある例は、たとえばオーディオ入力またはオーディオおよび画像データについての別個の音響モデルを受け取るのみの音響モデルを有するのではなく、入力（シンギュラーモデル）としてオーディオデータも受け取る音響モデルに入力として提供される話者特徴ベクトル内にたとえば唇位置または動きといった画像データに由来する１つ以上の特徴を含むことによって、音声処理の効率を増加させ得る。

ある方法およびオペレーションのセットは、一時的でないコンピュータ読取可能媒体上に格納される命令によって行なわれ得る。一時的でないコンピュータ読取可能媒体は、１つ以上のコンピュータによって実行されると、本願明細書において記載される方法のステップをコンピュータに行なわせる命令を含むコードを格納する。一時的でないコンピュータ読取可能媒体は、回転する磁気ディスク、回転する光ディスク、フラッシュランダムアクセスメモリ（ＲＡＭ）チップ、および、他の機械的に動く記憶媒体もしくはソリッドステート記憶媒体のうちの１つ以上を含み得る。任意のタイプのコンピュータ読取可能媒体が、さまざまな例に従った命令を含むコードを格納するために適切である。

本願明細書において記載されるある例は、いわゆるシステムオンチップ（ＳｏＣ：system-on-chip）デバイスとして実現され得る。ＳｏＣデバイスは、多くの埋込型車両内システムを制御し、本願明細書において記載される機能を実現するために使用され得る。１つの場合では、話者前処理モジュールおよび音声処理モジュールのうちの１つ以上は、ＳｏＣデバイスとして実現され得る。ＳｏＣデバイスは、１つ以上のプロセッサ（たとえばＣＰＵまたはＧＰＵ）と、ランダムアクセスメモリ（たとえばオフチップダイナミックＲＡＭまたはＤＲＡＭといったＲＡＭ）と、イーサネット（登録商標）、ＷｉＦｉ（登録商標）、３Ｇ、４Ｇロングタームエボリューション（ＬＴＥ：long-term evolution）、５Ｇ、および、他のワイヤレスインターフェイス規格無線といった有線または無線接続のためのネットワークインターフェイスとを含み得る。ＳｏＣデバイスはさらに、たとえばタッチスクリーンセンサ、ジオロケーションレシーバ、マイクロフォン、スピーカ、ブルートゥース（登録商標）周辺装置、ならびに、キーボードおよびマウスのようなＵＳＢデバイスといった、異なる周辺機器について必要とされるようなさまざまなＩ／Ｏインターフェイスデバイスを含み得る。ＲＡＭデバイスに格納される命令を実行することによって、ＳｏＣデバイスのプロセッサは、本願明細書に記載されるように方法のステップを行ない得る。

ある例が本願明細書において記載されたが、異なる例とは異なるコンポーネントの異なる組合せが可能であり得ることが言及される。顕著な特徴が例をより良好に説明するために示されているが、ある特徴が、記載されたようにこれらの例の機能的な局面を修正することなく追加、修正および／または省略され得るということは明らかである。

さまざまな例は、人間およびマシンのいずれかまたは組合せの挙動を使用する方法である。方法例は、世界のどこであってもほとんどの構成ステップが生じるため、完全である。いくつかの例は、本願明細書において記載される方法のためのそのような命令を格納するように構成される１つ以上の一時的でないコンピュータ読取可能媒体である。必要なコードのうちのいずれかを含む一時的でないコンピュータ読取可能媒体をどのようなマシンが保持しても、例が実現され得る。いくつかの例は、半導体チップのような物理デバイス、そのようなデバイスの論理または機能的挙動のハードウェア記述言語表現、および、そのようなハードウェア記述言語表現を格納するように構成される１つ以上の一時的でないコンピュータ読取可能媒体として実現され得る。原則、局面および実施形態を説明する本願明細書における記載は、その構造的および機能的な等価物を包含する。本願明細書において結合されるように記載される要素は、直接的な接続によって実現可能な有効な関係を有するか、または、１つ以上の他の介在要素を間接的に有する。

Claims

車両のオーディオキャプチャデバイスからオーディオデータを受け取るように構成されるオーディオインターフェイスと、
前記車両からの画像をキャプチャするよう画像キャプチャデバイスから画像データを受け取るように構成される画像インターフェイスと、
前記オーディオデータおよび前記画像データに基づいて人の発声を解析するように構成される音声処理モジュールと、
前記画像データを受け取り、かつ、音素データを予測するために前記画像データに基づいて話者特徴ベクトルを得るように構成される話者前処理モジュールとを含み、
前記音声処理モジュールは、前記オーディオデータを処理し、前記発声を解析するために使用される前記音素データを予測するように構成される音響モデルを含み、
前記音響モデルは、入力として前記話者特徴ベクトルおよび前記オーディオデータを受け取るように構成され、前記音素データを予測するために前記話者特徴ベクトルおよび前記オーディオデータを使用するように学習される、車載装置。
車両のオーディオキャプチャデバイスからオーディオデータを受け取るように構成されるオーディオインターフェイスと、
前記車両からの画像をキャプチャするよう画像キャプチャデバイスから画像データを受け取るように構成される画像インターフェイスと、
前記オーディオデータおよび前記画像データに基づいて人の発声を解析するように構成される音声処理モジュールと、
前記画像データを受け取り、かつ、音素データを予測するために前記画像データに基づいて話者特徴ベクトルを得るように構成される話者前処理モジュールとを含み、
１つ以上のユーザプロファイルを格納するように構成されるメモリを含み、
前記話者前処理モジュールは、
前記車両内の前記人に関連付けられる前記メモリ内のユーザプロファイルを識別するために前記画像データに対して顔認識を行なうことと、
前記人について話者特徴ベクトルを計算することと、
前記メモリに前記話者特徴ベクトルを格納することと、
格納された前記話者特徴ベクトルを識別された前記ユーザプロファイルに関連付けることとを行うように構成され、
前記話者前処理モジュールは、
所与のユーザプロファイルに関連付けられる格納された話者特徴ベクトルの数が予め規定されたしきい値より大きいか否かを決定することと、
前記予め規定されたしきい値を上回ることに応答して、
前記格納された話者特徴ベクトルの数に基づいて静的な話者特徴ベクトルを計算することと、
前記静的な話者特徴ベクトルを前記メモリに格納することと、
格納された前記静的な話者特徴ベクトルを前記所与のユーザプロファイルに関連付けることと、
前記静的な話者特徴ベクトルは、前記人についての前記話者特徴ベクトルの計算の代わりに、将来の発声解析のために使用されるべきものであるということを示すこととを行うように構成される、車載装置。
車両のオーディオキャプチャデバイスからオーディオデータを受け取るように構成されるオーディオインターフェイスと、
前記車両からの画像をキャプチャするよう画像キャプチャデバイスから画像データを受け取るように構成される画像インターフェイスと、
前記オーディオデータおよび前記画像データに基づいて人の発声を解析するように構成される音声処理モジュールと、
前記画像データを受け取り、かつ、音素データを予測するために前記画像データに基づいて話者特徴ベクトルを得るように構成される話者前処理モジュールとを含み、
前記音声処理モジュールは、
前記オーディオデータを処理し、前記発声を解析するために使用される前記音素データを予測するように構成される音響モデルと、
前記音素データを受け取るとともに前記発声を表わすトランスクリプションを生成するために、前記音響モデルに通信可能に結合される言語モデルと、を含み、
前記言語モデルは、前記発声を表わす前記トランスクリプションを生成するために前記話者特徴ベクトルを使用するように構成される、車載装置。
車両のオーディオキャプチャデバイスからオーディオデータを受け取るように構成されるオーディオインターフェイスと、
前記車両からの画像をキャプチャするよう画像キャプチャデバイスから画像データを受け取るように構成される画像インターフェイスと、
前記オーディオデータおよび前記画像データに基づいて人の発声を解析するように構成される音声処理モジュールと、
前記画像データを受け取り、かつ、音素データを予測するために前記画像データに基づいて話者特徴ベクトルを得るように構成される話者前処理モジュールとを含み、
前記話者特徴ベクトルは、
前記オーディオデータに基づいて生成される、話者に依存する第１の部分と、
前記画像データに基づいて生成される、前記話者の唇の動きに依存する第２の部分とを含む、車載装置。
前記話者特徴ベクトルは、前記画像データに基づいて生成される、前記話者の顔に依存する第３の部分を含む、請求項４に記載の車載装置。
前記音声処理モジュールは、前記オーディオデータを処理し、前記発声を解析するために使用される前記音素データを予測するように構成される音響モデルを含む、請求項２、請求項４、および請求項５のいずれか１項に記載の車載装置。
前記音響モデルはニューラルネットワークアーキテクチャを含む、請求項１、請求項３、および、請求項６のいずれか１項に記載の車載装置。
前記画像データは、前記車両内の人の顔エリアを含む、請求項１〜請求項７のいずれか１項に記載の車載装置。
前記話者前処理モジュールは、
前記車両内の前記人を識別するために前記画像データに対して顔認識を行なうことと、
識別された前記人に関連付けられる話者特徴ベクトルを抽出することとを行うように構成される、請求項１〜請求項８のいずれか１項に記載の車載装置。
前記話者前処理モジュールは、
前記人の前記顔エリア内の唇の動きに基づいて１つ以上の話者特徴ベクトルを生成するように構成される読唇モジュールを含む、請求項８に記載の車載装置。
前記話者前処理モジュールはニューラルネットワークアーキテクチャを含み、前記ニューラルネットワークアーキテクチャは、前記オーディオデータおよび前記画像データのうちの１つ以上に由来するデータを受け取り、前記話者特徴ベクトルを予測するように構成される、請求項１〜請求項１０のいずれか１項に記載の車載装置。
赤外線波長を有する電磁放射をキャプチャするように構成される画像キャプチャデバイスを含み、前記画像キャプチャデバイスは前記画像インターフェイスへ前記画像データを送るように構成される、請求項１〜請求項１１のいずれか１項に記載の車載装置。
前記話者前処理モジュールは、前記画像データのうちの１つ以上の部分を抽出するために前記画像データを処理するように構成されており、
抽出された前記１つ以上の部分は前記話者特徴ベクトルを得るために使用される、請求項１〜請求項１２のいずれか１項に記載の車載装置。
前記話者前処理モジュールを実現するプロセッサが前記車両内に位置する、請求項１〜請求項１３のいずれか１項に記載の車載装置。
前記音声処理モジュールは前記車両からリモートであり、前記装置は、
前記オーディオデータおよび前記画像データに由来するデータを前記音声処理モジュールに送信し、前記発声の前記解析に基づく制御データを受け取るトランシーバを含む、請求項１〜請求項１４のいずれか１項に記載の車載装置。
前記音響モデルは、ニューラルネットワークアーキテクチャおよび混合ガウスモデルを含むハイブリッド音響モデルを含み、前記混合ガウスモデルは、前記ニューラルネットワークアーキテクチャによって出力されるクラス確率のベクトルを受け取り、前記発声を解析するための音素データを出力するように構成される、請求項１または請求項６に記載の車載装置。
前記音響モデルは、コネクショニストテンポラルクラシフィケーション（ＣＴＣ：connectionist temporal classification）モデルを含む、請求項１、請求項６、および、請求項１６のいずれか１項に記載の車載装置。
前記音声処理モジュールは、
前記音素データを受け取るとともに前記発声を表わすトランスクリプションを生成するために、前記音響モデルに通信可能に結合される言語モデルを含む、請求項１、請求項６、請求項１６、および、請求項１７のいずれか１項に記載の車載装置。
前記音声処理モジュールは、
音響モデル構成のデータベースと、
前記話者特徴ベクトルに基づいて前記データベースから音響モデル構成を選択する、音響モデルセレクタと、
前記オーディオデータを処理する音響モデルインスタンスと、を含み、前記音響モデルインスタンスは、前記音響モデルセレクタによって選択される前記音響モデル構成に基づいてインスタンス化されており、前記音響モデルインスタンスは、前記発声を解析するために使用される前記音素データを生成するように構成される、請求項１〜請求項１８のいずれか１項に記載の車載装置。
前記話者特徴ベクトルはｉベクトルおよびｘベクトルのうちの１つ以上である、請求項１〜請求項１９のいずれか１項に記載の車載装置。
車両内に位置するオーディオキャプチャデバイスから、前記車両内の人の発声を特徴とするオーディオデータを受け取ることと、
前記車両内の画像をキャプチャするために、前記人の顔エリアを特徴とする画像データを画像キャプチャデバイスから受け取ることと、
前記画像データに基づいて話者特徴ベクトルを得ることと、
プロセッサによって実現される音声処理モジュールを使用して前記発声を解析することとを含み、
前記発声を解析することは、
前記音声処理モジュールの音響モデルへの入力として、前記話者特徴ベクトルおよび前記オーディオデータを提供することを含み、前記音響モデルはニューラルネットワークアーキテクチャを含んでおり、さらに、
前記話者特徴ベクトルおよび前記オーディオデータに基づいて、少なくとも前記ニューラルネットワークアーキテクチャを使用して音素データを予測することを含む、発声を処理する方法。
話者特徴ベクトルを得ることは、
前記車両内の前記人を識別するために前記画像データに対して顔認識を行なうことと、
前記顔認識に基づいて前記人についてユーザプロファイルデータを得ることと、
前記ユーザプロファイルデータに従って前記話者特徴ベクトルを得ることとを含む、請求項２１に記載の方法。
前記ユーザプロファイルデータに関連付けられる格納された話者特徴ベクトルの数を予め規定されたしきい値と比較することと、
前記格納された話者特徴ベクトルの数が前記予め規定されたしきい値を下回ることに応答して、前記オーディオデータおよび前記画像データのうちの１つ以上を使用して前記話者特徴ベクトルを計算することと、
前記格納された話者特徴ベクトルの数が前記予め規定されたしきい値より大きいことに応答して、前記ユーザプロファイルデータに関連付けられる静的な話者特徴ベクトルを得ることとを含み、前記静的な話者特徴ベクトルは、前記格納された話者特徴ベクトルの数を使用して生成される、請求項２２に記載の方法。
話者特徴ベクトルを得ることは、
前記人の前記顔エリア内の唇の動きに基づいて１つ以上の話者特徴ベクトルを生成するために前記画像データを処理することを含む、請求項２１〜請求項２３のいずれか１項に記載の方法。
前記発声を解析することは、
前記音声処理モジュールの言語モデルに前記音素データを提供することと、
前記言語モデルを使用して前記発声のトランスクリプトを予測することと、
前記トランスクリプトを使用して前記車両のための制御コマンドを決定することとを含む、請求項２１〜請求項２４のいずれか１項に記載の方法。
命令を含むプログラムコードであって、前記命令は、少なくとも１つのプロセッサによって実行されると、前記少なくとも１つのプロセッサに、
オーディオキャプチャデバイスからオーディオデータを受け取ることと、
画像キャプチャデバイスからの画像データに基づいて得られる話者特徴ベクトルを受け取ることとを行わせ、前記画像データはユーザの顔エリアを特徴としており、さらに、
音声処理モジュールを使用して発声を解析することを行わせ、
前記発声を解析することは、
前記音声処理モジュールの音響モデルへの入力として、前記話者特徴ベクトルおよび前記オーディオデータを提供することを含み、前記音響モデルはニューラルネットワークアーキテクチャを含んでおり、さらに、
前記話者特徴ベクトルおよび前記オーディオデータに基づいて、少なくとも前記ニューラルネットワークアーキテクチャを使用して音素データを予測することと、
前記音声処理モジュールの言語モデルに前記音素データを提供することと、
前記言語モデルを使用して前記発声のトランスクリプトを生成することとを含む、プログラムコード。
前記話者特徴ベクトルは、
前記オーディオデータに基づいて生成される、話者に依存するベクトル要素と、
前記画像データに基づいて生成される、前記話者の唇の動きに依存するベクトル要素と、
前記画像データに基づいて生成される、前記話者の顔に依存するベクトル要素とのうちの１つ以上を含む、請求項２６に記載のプログラムコード。
前記オーディオデータおよび前記話者特徴ベクトルは自動車両から受け取られる、請求項２６に記載のプログラムコード。