[go: up one dir, main page]

JP7603055B2 - 分散配置されたオーディオデバイスのための音響エコー除去制御 - Google Patents

分散配置されたオーディオデバイスのための音響エコー除去制御 Download PDF

Info

Publication number
JP7603055B2
JP7603055B2 JP2022506120A JP2022506120A JP7603055B2 JP 7603055 B2 JP7603055 B2 JP 7603055B2 JP 2022506120 A JP2022506120 A JP 2022506120A JP 2022506120 A JP2022506120 A JP 2022506120A JP 7603055 B2 JP7603055 B2 JP 7603055B2
Authority
JP
Japan
Prior art keywords
audio
devices
examples
loudspeaker
microphone
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022506120A
Other languages
English (en)
Other versions
JP2022542962A (ja
JPWO2021021857A5 (ja
Inventor
エヌ. ディキンズ,グレン
グラハム ハインズ,クリストファー
グナワン,デイビッド
ジェイ. カートライト,リチャード
ジェイ. シーフェルド,アラン
アルテアガ,ダニエル
アール.ピー. トーマス,マーク
ビー. ランド,ジョシュア
Original Assignee
ドルビー ラボラトリーズ ライセンシング コーポレイション
ドルビー・インターナショナル・アーベー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ドルビー ラボラトリーズ ライセンシング コーポレイション, ドルビー・インターナショナル・アーベー filed Critical ドルビー ラボラトリーズ ライセンシング コーポレイション
Publication of JP2022542962A publication Critical patent/JP2022542962A/ja
Publication of JPWO2021021857A5 publication Critical patent/JPWO2021021857A5/ja
Application granted granted Critical
Publication of JP7603055B2 publication Critical patent/JP7603055B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M9/00Arrangements for interconnection not involving centralised switching
    • H04M9/08Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic
    • H04M9/082Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic using echo cancellers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S5/00Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
    • G01S5/18Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0324Details of processing therefor
    • G10L21/034Automatic adjustment
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/60Substation equipment, e.g. for use by subscribers including speech amplifiers
    • H04M1/6033Substation equipment, e.g. for use by subscribers including speech amplifiers for providing handsfree use or a loudspeaker mode in telephone sets
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R27/00Public address systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/02Circuits for transducers, loudspeakers or microphones for preventing acoustic reaction, i.e. acoustic oscillatory feedback
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/12Circuits for transducers, loudspeakers or microphones for distributing signals to two or more loudspeakers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/305Electronic adaptation of stereophonic audio signals to reverberation of the listening space
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2227/00Details of public address [PA] systems covered by H04R27/00 but not provided for in any of its subgroups
    • H04R2227/005Audio distribution systems for home, i.e. multi-room use
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2227/00Details of public address [PA] systems covered by H04R27/00 but not provided for in any of its subgroups
    • H04R2227/007Electronic adaptation of audio signals to reverberation of the listening space for PA
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2227/00Details of public address [PA] systems covered by H04R27/00 but not provided for in any of its subgroups
    • H04R2227/009Signal processing in [PA] systems to enhance the speech intelligibility
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2420/00Details of connection covered by H04R, not provided for in its groups
    • H04R2420/01Input selection or mixing for amplifiers or loudspeakers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/01Aspects of volume control, not necessarily automatic, in sound systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/03Synergistic effects of band splitting and sub-band processing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/13Aspects of volume control, not necessarily automatic, in stereophonic sound systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/07Synergistic effects of band splitting and sub-band processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Quality & Reliability (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Remote Sensing (AREA)
  • Radar, Positioning & Navigation (AREA)
  • General Physics & Mathematics (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)

Description

[関連出願への相互参照]
本願は、2020年7月21日付け出願の米国仮特許出願第62/705,897号、2020年6月25日付け出願の米国仮特許出願第62/705,410号、2020年2月7日付け出願の米国仮特許出願第62/971,421号、2019年12月18日付け出願の米国仮特許出願第62/950,004号、2019年7月30日付け出願の米国仮特許出願第62/880,122号、2019年7月30日付け出願の米国仮特許出願第62/880,113号、2019年11月29日付け出願の欧州特許出願第19212391.7号および2019年7月30日付け出願のスペイン特許出願第P201930702号に基づく優先権を主張するものであり、各出願の開示内容を全て本願に援用する。
本願は、複数のオーディオデバイス(例えばスマートオーディオデバイス)のコーディネート(オーケストレーション)および実装を行い、かつ、オーディオデバイスによるオーディオ音声のレンダリングを制御する、システムおよび方法に関する。
オーディオデバイス(スマートオーディオデバイスを含むが、それらに限定されない)は、広く用いられており、多くの家庭において一般的な要素になりつつある。オーディオデバイスを制御する既存のシステムおよび方法は利益を提供するが、改良されたシステムおよび方法が望まれる。
[表記と命名]
特許請求の範囲を含む本開示全体を通じて、「スピーカ」および「ラウドスピーカ」は、同義的に、単一のスピーカフィードによって駆動される任意の音響放射トランスデューサ(またはトランスデューサのセット)を示すように使用される。典型的なヘッドフォンセットは、2つのスピーカを含む。スピーカは、単一の共通のスピーカフィードまたは複数のスピーカフィードによって駆動されるような、複数のトランスデューサ(例えばウーファーとツイーター)を含むように実装され得る。いくつかの例において、スピーカフィード(単数または複数)は、異なるトランスデューサに接続された異なる回路ブランチにおいて異なる処理を受けてもよい。
特許請求の範囲を含む本開示全体を通じて、信号またはデータに対して演算(例えば、信号またはデータに対するフィルタリング、スケーリング、変換、またはゲインの適用)を「行う」という表現は、信号またはデータに対して直接演算を行うこと、または信号またはデータの処理済みバージョン(例えば、演算の実行を受ける前に予備フィルタリングまたは前処理されたバージョンの信号)に対して演算を行うことの意味において広義で使用される。
特許請求の範囲を含む本開示全体を通じて、「システム」という表現は、デバイス、システム、またはサブシステムの意味において広義で使用される。例えば、デコーダを実装するサブシステムは、デコーダシステムと呼ばれることがあり、そのようなサブシステムを含むシステム(例えば、複数の入力に応答してX個の出力信号を生成するシステムであって、入力のうちM個をサブシステムが生成し、他のX-M個の入力が外部ソースから受信される)は、デコーダシステムとも呼ばれ得る。
特許請求の範囲を含む本開示全体を通じて、「プロセッサ」という用語は、データ(例えば、オーディオ、またはビデオもしくは他の画像データ)に対する演算を実行するためにプログラマブルであるかまたは他の方法で(例えば、ソフトウェアまたはファームウェアによって)構成可能なシステムまたはデバイスの意味において広義で使用される。プロセッサの例としては、フィールドプログラマブルゲートアレイ(または他の構成可能な集積回路またはチップセット)、オーディオまたは他のサウンドデータに対してパイプライン化処理を行うようにプログラムおよび/または他の方法で構成されたデジタルシグナルプロセッサ、プログラマブルな汎用プロセッサまたはコンピュータ、およびプログラマブルなマイクロプロセッサチップまたはチップセットなどが挙げられる。
特許請求の範囲を含む本開示全体を通して、「接続する(couples)」または「接続された(coupled)」という用語は、直接的接続または間接的接続のいずれかを意味するように用いられる。したがって、第1のデバイスが第2のデバイスに接続される場合、この接続は、直接的接続により実現されてもよいし、他のデバイスおよび接続を介した間接的接続により実現されてもよい。
本明細書中において、「スマートデバイス」は、概して、ある程度対話的かつ/または自律的に動作可能な、ブルートゥース、ジグビー(Zigbee)、近距離無線通信、Wi-Fi、Li-Fi(light fidelity)、3G、4G、5Gなどの各種無線プロトコルを介して1つ以上の他のデバイス(またはネットワーク)と通信するように構成された電子デバイスである。スマートデバイスの、いくつかの代表的な例として、スマートフォン、スマートカー、スマートサーモスタット、スマートドアベル、スマートロック、スマート冷蔵庫、ファブレットおよびタブレット、スマートウォッチ、スマートバンド、スマートキーチェーン、ならびにスマートオーディオデバイスが挙げられる。「スマートデバイス」という用語は、人工知能などのユビキタスコンピューティングのいくつかの特性を示すデバイスを指してもよい。
本明細書中において、「スマートオーディオデバイス」という表現は、単一目的オーディオデバイスまたは多目的オーディオデバイス(例えば、バーチャルアシスタント機能の少なくともいくつかの側面を実装するオーディオデバイス)のいずれかであるスマートデバイスを表すために用いられる。単一目的オーディオデバイスとは、少なくとも1つのマイクロフォンを含むかまたはそれに接続される(任意に少なくとも1つのスピーカおよび/またはカメラも含むかまたはそれに接続される)デバイス(例えば、スマートスピーカ、テレビ(TV)または携帯電話)であり、単一の目的を達成するために概してまたは主として設計されているデバイスである。例えば、TVは典型的には、プログラム素材からのオーディオを再生することができる(再生できると考えられている)が、ほとんどの場合、現代のTVは、何らかのオペレーティングシステムを実行し、その上で、テレビを見るためのアプリケーションを含む複数のアプリケーションがローカルに実行される。同様に、携帯電話機のオーディオ入力と出力は多くのことを行い得るが、これらは当該電話機上で実行されているアプリケーションによって提供されている。この意味で、スピーカ(単数または複数)およびマイクロフォン(単数または複数)を有する単一目的オーディオデバイスは、スピーカ(単数または複数)およびマイクロフォン(単数または複数)を直接使用するためのローカルアプリケーションおよび/またはサービスを実行するように構成されることが多い。ゾーンすなわちユーザー設定されたエリアにわたってオーディオの再生を実現するためにグループ化するように構成された、単一目的オーディオデバイスもある。
多目的オーディオデバイスの1つの一般的な種類として、バーチャルアシスタント機能の少なくともいくつかの側面を実装するオーディオデバイスが挙げられるが、バーチャルアシスタント機能の他の側面は、多目的オーディオデバイスが通信を行うように構成された1つ以上のサーバなどの、1つ以上の他のデバイスにより実装されてもよい。本明細書において、そのような多目的オーディオデバイスを、「バーチャルアシスタント」と呼んでもよい。バーチャルアシスタントは、少なくとも1つのマイクロフォンを含むか、またはこのマイクロフォンに接続された(さらに、任意に、少なくとも1つのスピーカおよび/または少なくとも1つのカメラを含むか、もしくはそれ(それら)に接続された)デバイス(例えば、スマートスピーカまたは音声アシスタント内蔵デバイス)である。いくつかの例において、バーチャルアシスタントは、ある意味においてクラウドイネーブルドなアプリケーション、もしくは、バーチャルアシスタント自体において完全には実装されないアプリケーションのために、(バーチャルアシスタントとは別個の)複数のデバイスを利用する能力を提供する。換言すると、バーチャルアシスタント機能の少なくともいくつかの側面、例えば音声認識機能は、インターネットなどのネットワークを介してバーチャルアシスタントが通信し得る1つ以上のサーバまたは他のデバイスにより、(少なくとも部分的に)実装されてもよい。複数のバーチャルアシスタントが、例えば離散的かつ条件付きで定義された方法で、協働することがあってもよい。例えば、2つ以上のバーチャルアシスタントが、それらのうち1つ(すなわちウェイクワードを聞いたことを最も確信している1つ)が、そのウェイクワードに応答するという意味において、協働し得る。いくつかの実施態様において、コネクテッド状態にある複数のデバイスが、1つのメインアプリケーションによって管理される、一種の集合体を形成してもよい。その1つのメインアプリケーションは、バーチャルアシスタントであり得る(または、実装し得る)。
本明細書中において、「ウェイクワード」とは、任意の音(例えば、人間によって発せられた単語、または他の何らかの音)の意味において広義で使用される。スマートオーディオデバイスは、(スマートオーディオデバイスに含まれるかまたは接続された少なくとも1つのマイクロフォン、または少なくとも1つの他のマイクロフォンを用いた)音の検出(「聞き取り(hearing))に応答して、目覚めるよう構成される。この文脈において「目覚める(awake)」とは、デバイスがサウンドコマンドを待つ(すなわち、耳を立てている)状態に入ることを表す。いくつかの事例において、本明細書において「ウェイクワード」と呼ばれ得るものは、複数のワード、例えばフレーズを含むことができる。
本明細書中において、「ウェイクワード検出器」という表現は、リアルタイムのサウンド(例えば、発話)特徴と学習済みモデルとの間の整合性を連続的に探索するように構成されたデバイス(またはデバイスを構成するための命令を含むソフトウェア)を表す。典型的には、ウェイクワードイベントは、ウェイクワードが検出された確率が事前に定義された閾値を超えているとウェイクワード検出器によって判断されるたびに、トリガされる。例えば閾値は、他人受入率と本人拒否率との間の妥当な妥協点を与えるように調整された、所定の閾値であってもよい。ウェイクワードイベントの後、デバイスはコマンドに耳を立てる状態(「目覚めた(awakened)」状態または「アテンティブネス(attentiveness)」状態と呼ばれることがある)に入り、この状態において、受け取ったコマンドをより大規模でより計算集約的な認識器に渡し得る。
本明細書において、「マイクロフォン位置」という表現は、1つ以上のマイクロフォンの位置を指す。いくつかの例において、1つのマイクロフォン位置は、1つのオーディオデバイス内に設けられた複数のマイクロフォンからなる1つのマイクロフォンアレイに対応していてもよい。例えば、マイクロフォン位置は、1つ以上のマイクロフォンを含むオーディオデバイス全体に対応する1つの位置であってもよい。いくつかのそのような例において、マイクロフォン位置は、1つのオーディオデバイスのマイクロフォンアレイの重心に対応する1つの位置であってもよい。しかし、いくつかの例において、マイクロフォン位置は、1つのマイクロフォンの位置であってもよい。いくつかのそのような例において、オーディオデバイスが有するマイクロフォンの数は、1つのみであってもよい。
いくつかの開示された実施形態は、1つ以上のオーディオデバイスにおける全二重通信(full duplex)を成功させるための鍵となる基準を改善する、聴者または「ユーザ」エクスペリエンスの管理へのアプローチを提供する。この基準は、信号対エコー比(Signal to Echo ratio:SER)として知られており、また発話対エコー比(Speech to Echo Ratio)と呼ぶこともある。これは、1つ以上のマイクロフォンを介して環境(例えば部屋)からキャプチャされるボイス信号(または他の所望の信号)と、出力されたプログラムコンテンツ、対話型コンテンツ等から1つ以上のマイクロフォンを備えたオーディオデバイスにおいて提示されるエコーとの比として定義されてもよい。オーディオ環境の多数のオーディオデバイスは、ラウドスピーカおよびマイクロフォンの両方を内蔵している一方で、他の機能にも関わっているということが考えられる。しかし、このオーディオ環境の他のオーディオデバイスは、1つ以上のラウドスピーカを有するがマイクロフォンを備えていないかもしれないし、あるいは、1つ以上のマイクロフォンを有するがラウドスピーカを備えていないかもしれない。いくつかの実施形態は、所与のユースケースまたはシナリオにおいて、ユーザの最も近くのラウドスピーカ(単数または複数)を使用することを故意に避けている(または、ユーザの最も近くのラウドスピーカを主として使用しない)。代替的にまたは追加的に、いくつかの実施形態は、オーディオ環境の1つ以上のマイクロフォンにおいてSERを増大させるために、オーディオ環境の1つ以上のラウドスピーカによりレンダリングされたオーディオデータに対して、1以上の他の種類のオーディオ処理変更を起こしてもよい。
いくつかの実施形態は、コーディネート(オーケストレーション)されたオーディオデバイスを含むシステムを実装するように構成されている。いくつかの実施態様において、オーディオデバイスは、スマートオーディオデバイスを含み得る。いくつかのそのような実施態様によると、複数のスマートオーディオデバイスのうち2つ以上のスマートオーディオデバイスは、ウェイクワード検出器である(または、ウェイクワード検出器を実装するように構成されている)。したがって、そのような例において、複数のマイクロフォン(例えば、非同期マイクロフォン)が利用可能である。いくつかの例において、各マイクロフォンは、スマートオーディオデバイスのうち少なくとも1つに含まれていてもよいし、スマートオーディオデバイスのうち少なくとも1つと通信するように構成されてもよい。例えば、マイクロフォンの少なくともいくつかは、スマートオーディオデバイスのいずれにも含まれないが、スマートオーディオデバイスの少なくとも1つと通信するように(よって、マイクロフォンの出力が、スマートオーディオデバイスの少なくとも1つによりキャプチャ可能となるように)構成された、(例えば、家電機器内の)独立したマイクロフォンであってもよい。いくつかの実施形態において、各ウェイクワード検出器(またはウェイクワード検出器を含む各スマートオーディオデバイス)、もしくはシステムの別のサブシステム(例えば分類器)は、少なくともいくつかのマイクロフォン(例えば非同期マイクロフォン)から得られた複数の音響的特徴により駆動される分類器を適用することにより、人のゾーンを推定するように構成されている。いくつかの実施態様では、その目的は、人の正確な位置を推定することではなく、人の現在位置を含む離散ゾーン(discrete zone)のロバスト推定を形成することであってもよい。
いくつかの実施態様において、人(本明細書中、「ユーザ」と呼ぶこともある)、スマートオーディオデバイスおよびマイクロフォンは、オーディオ環境(例えば、ユーザの住居、自動車または職場)内に存在する。このオーディオ環境内において、音声はユーザからマイクロフォンへと伝搬し得る。オーディオ環境は、複数の所定のゾーンを含んでもよい。いくつかの例によると、環境は、少なくとも次のゾーンを含んでもよい:調理エリア、ダイニングエリア、生活空間のオープンエリア、生活空間のテレビエリア(テレビソファーを含む)等。システムの動作中、ユーザは任意の時刻において前記ゾーンのうちの1つに物理的に存在し(ユーザのゾーン)、ユーザのゾーンは時間により異なり得る、と仮定する。
いくつかの例において、マイクロフォンは、非同期であってもよく(例えば、異なるサンプリングクロックを用いてデジタルサンプリングされてもよく)、かつ、ランダムに配置されてもよい(または、少なくとも所定の位置に配置されなくてもよい、対称に配置されなくてもよい、グリッド状に配置されなくてもよい、等)。いくつかの例において、ユーザのゾーンは、少なくとも部分的にウェイクワード検出器のうちの少なくとも1つから得られた複数の高レベルの特徴により駆動される、データ駆動型のアプローチを介して推定されてもよい。これらの特徴(例えば、ウェイクワード確信度および受信レベル)は、いくつかの例において、ほとんど帯域幅を使わないかもしれないし、また、非常に少ないネットワーク負荷で分類器を実装するデバイスへと(例えば非同期的に)送信されてもよい。
いくつかの実施形態の側面は、スマートオーディオデバイスを実装すること、および/または、スマートオーディオデバイスをコーディネートさせることに関する。
いくつかの開示された実施態様の側面は、1つ以上の開示された方法またはそのステップを実行するように構成された(例えば、プログラムされた)システムと、1つ以上の開示された方法またはそのステップを実行するためのコード(例えば1つ以上の開示された方法またはそのステップを実行するように実行可能なコード)を格納した、非一時的なデータの格納を実装する、有形の非一時的なコンピュータ読取可能媒体(例えば、ディスクまたは他の有形の記憶媒体)とを含む。例えば、いくつかの開示された実施形態は、1つ以上の開示された方法またはそのステップを含め、1つ以上の開示された方法またはそのステップを含むデータに対して各種演算のいずれかを実行するようにソフトウェアまたはファームウェアでプログラムされた、かつ/またはその他構成された、プログラム可能な汎用プロセッサ、デジタルシグナルプロセッサ、またはマイクロプロセッサであるか、もしくは、そのプロセッサを含み得る。そのような汎用プロセッサは、入力装置と、メモリと、アサートされたデータに応答して1つ以上の開示された方法(またはそのステップ)を実行するようにプログラムされた(かつ/またはその他構成された)処理用サブシステムとを含むコンピュータシステムであってもよいし、そのコンピュータシステムを含んでもよい。
いくつかの実施態様において、制御システムは、1つ以上のオーディオセッション管理方法などの、本明細書中に開示された1つ以上の方法を実装するように構成されてもよい。いくつかのそのような方法は、オーディオ環境内の複数のマイクロフォンの各々からの出力信号を(例えば制御システムにより)受信するステップを含む。いくつかの例において、前記複数のマイクロフォンの各々は、前記オーディオ環境のマイクロフォン位置に存在する。いくつかの例において、前記出力信号は、人の現在の発声に対応する信号を含む。いくつかの例によると、前記出力信号は、雑音および/またはエコー等の、発話でないオーディオデータに対応する信号を含む。
いくつかのそのような方法は、前記出力信号に基づき、前記人に関するコンテクスト情報の1つ以上のアスペクトを(例えば制御システムにより)決定するステップを含む。いくつかの例において、コンテクスト情報は、前記人の推定される現在位置および/または前記人の1つ以上のマイクロフォン位置に対する推定される現在の近接度を含む。いくつかのそのような方法は、前記コンテクスト情報の前記1つ以上のアスペクトに少なくとも部分的に基づき、前記オーディオ環境の2つ以上のオーディオデバイスを選択するステップを含む。いくつかの実施態様において、2つ以上のオーディオデバイスの各々は、少なくとも1つのラウドスピーカを含む。
いくつかのそのような方法は、前記2つ以上のオーディオデバイス用のラウドスピーカフィード信号へとレンダリングされているオーディオデータに適用する、1種類以上のオーディオ処理変更を(例えば制御システムにより)決定するステップを含む。いくつかの例において、前記オーディオ処理変更は、1つ以上のマイクロフォンにおける発話対エコー比を増大する効果を有する。いくつかのそのような方法は、前記1種類以上のオーディオ処理変更を適用させるステップを含む。
いくつかの実施態様によると、前記1種類以上のオーディオ処理変更は、前記2つ以上のオーディオデバイスの前記ラウドスピーカのラウドスピーカ再生レベルの低下を生じてもよい。いくつかの実施態様において、第1のオーディオデバイスに対する前記オーディオ処理変更の少なくとも1つは、第2のオーディオデバイスに対するオーディオ処理変更とは異なってもよい。いくつかの例において、前記オーディオ環境の2つ以上のオーディオデバイスを(例えば制御システムにより)選択するステップは、前記オーディオ環境のN個のラウドスピーカ内蔵オーディオデバイスを選択することを含んでもよく、Nは2よりも大きい整数である。
いくつかの実施態様において、前記オーディオ環境の前記2つ以上のオーディオデバイスを選択するステップは、マイクロフォン位置およびラウドスピーカ内蔵オーディオデバイス位置の少なくとも一方に対する、前記人の推定される現在位置に少なくとも部分的に基づいてもよい。いくつかのそのような実施態様によると、前記方法は、前記人の前記推定される現在位置に最も近い最近位ラウドスピーカ内蔵オーディオデバイス、または、前記人の前記推定される現在位置に最も近い前記マイクロフォン位置に最も近い最近位ラウドスピーカ内蔵オーディオデバイス、を決定するステップを含んでもよい。いくつかのそのような例において、前記2つ以上のオーディオデバイスは、前記最近位ラウドスピーカ内蔵オーディオデバイスを含んでもよい。
いくつかの例において、前記1種類以上のオーディオ処理変更は、前記人の前記推定される現在位置から離れる方向に、オーディオ信号のレンダリングをワーピングするように、レンダリングプロセスを変更することを含む。いくつかの実施態様において、前記1種類以上のオーディオ処理変更は、スペクトル修正を含んでもよい。いくつかのそのような実施態様によると、前記スペクトル修正は、500Hzと3KHzとの間の周波数帯域においてオーディオデータのレベルを低下させることを含んでもよい。
いくつかの実施態様において、前記1種類以上のオーディオ処理変更は、オーディオ再生信号の少なくとも1つの選択された周波数帯域に、少なくとも1つのギャップを挿入することを含んでもよい。いくつかの例において、前記1種類以上のオーディオ処理変更は、ダイナミックレンジ圧縮を含んでもよい。
いくつかの実施態様によると、前記2つ以上のオーディオデバイスを選択するステップは、1つ以上のマイクロフォン位置についての信号対エコー比推定値に少なくとも部分的に基づいてもよい。例えば、前記2つ以上のオーディオデバイスを選択するステップは、前記信号対エコー比推定値が信号対エコー比閾値以下であるか否かを判定することに少なくとも部分的に基づいてもよい。いくつかの例において、前記1種類以上のオーディオ処理変更を決定するステップは、前記信号対エコー比推定値に少なくとも部分的に基づくコスト関数の最適化に基づいてもよい。例えば、前記コスト関数は、レンダリングパフォーマンスに少なくとも部分的に基づいてもよい。いくつかの実施態様において、前記2つ以上のオーディオデバイスを選択するステップは、近接度推定値に少なくとも部分的に基づいてもよい。
いくつかの例において、前記方法は、各マイクロフォンの前記出力信号から複数の現在の音響的特徴を(例えば制御システムにより)決定するステップと、前記複数の現在の音響的特徴に分類器を適用するステップとを含んでもよい。いくつかの実施態様によると、前記分類器を適用するステップは、前記環境内の複数のユーザゾーン内で前記人によってなされた複数の過去の発声から得られた、過去に決定された音響的特徴に対して訓練されたモデルを適用することを含んでもよい。
いくつかのそのような例において、前記人に関するコンテクスト情報の1つ以上のアスペクトを決定するステップは、前記分類器からの出力に少なくとも部分的に基づき、前記人が現在位置しているユーザゾーンの推定値を決定することを含んでもよい。いくつかの実施態様によると、前記ユーザゾーンの前記推定値は、前記複数のマイクロフォンの幾何学的位置を参照せずに決定されてもよい。いくつかの例において、前記現在の発声および前記過去の発声は、ウェイクワードの発声であってもよいし、ウェイクワードの発声を含んでもよい。
いくつかの実施態様によると、前記1つ以上のマイクロフォンは、前記オーディオ環境の複数のオーディオデバイス内に設けられてもよい。しかし、別の例において、前記1つ以上のマイクロフォンは、前記オーディオ環境の1つのオーディオデバイス内に設けられてもよい。いくつかの例において、前記1つ以上のマイクロフォン位置のうち少なくとも1つは、1つのオーディオデバイスの複数のマイクロフォンに対応していてもよい。いくつかの開示された方法は、前記コンテクスト情報の前記1つ以上のアスペクトに応じて少なくとも1つのマイクロフォンを選択するステップを含んでもよい。
本開示の少なくともいくつかの側面は、オーディオセッション管理方法などの方法により実装されてもよい。本明細書中の別の場所で示すように、いくつかの例において、前記方法は、少なくとも部分的には、本明細書中に開示されているような制御方法により実装されてもよい。いくつかのそのような方法は、オーディオ環境内の複数のマイクロフォンの各々から出力信号を受信するステップを含む。いくつかの例において、前記複数のマイクロフォンの各々は、前記オーディオ環境のマイクロフォン位置に存在する。いくつかの例において、前記出力信号は、人の現在の発声に対応する信号を含む。いくつかの例によると、前記出力信号は、雑音および/またはエコー等の、発話でないオーディオデータに対応する信号を含む。
いくつかのそのような方法は、前記出力信号に基づき、前記人に関するコンテクスト情報の1つ以上のアスペクトを決定するステップを含む。いくつかの例において、コンテクスト情報は、前記人の推定される現在位置および/または前記人の1つ以上のマイクロフォン位置に対する推定される現在の近接度を含む。いくつかのそのような方法は、前記コンテクスト情報の前記1つ以上のアスペクトに少なくとも部分的に基づき、前記オーディオ環境の2つ以上のオーディオデバイスを選択するステップを含む。いくつかの実施態様において、2つ以上のオーディオデバイスの各々は、少なくとも1つのラウドスピーカを含む。
いくつかのそのような方法は、前記2つ以上のオーディオデバイス用のラウドスピーカフィード信号へとレンダリングされているオーディオデータに適用する、1種類以上のオーディオ処理変更を決定するステップを含む。いくつかの例において、前記オーディオ処理変更は、1つ以上のマイクロフォンにおける発話対エコー比を増大する効果を有する。いくつかのそのような方法は、前記1種類以上のオーディオ処理変更を適用させるステップを含む。
いくつかの実施態様によると、前記1種類以上のオーディオ処理変更は、前記2つ以上のオーディオデバイスの前記ラウドスピーカのラウドスピーカ再生レベルの低下を生じてもよい。いくつかの実施態様において、第1のオーディオデバイスに対する前記オーディオ処理変更の少なくとも1つは、第2のオーディオデバイスに対するオーディオ処理変更とは異なってもよい。いくつかの例において、前記オーディオ環境の2つ以上のオーディオデバイスを選択するステップは、前記オーディオ環境のN個のラウドスピーカ内蔵オーディオデバイスを選択することを含んでもよく、Nは2よりも大きい整数である。
いくつかの実施態様において、前記オーディオ環境の前記2つ以上のオーディオデバイスを選択するステップは、マイクロフォン位置およびラウドスピーカ内蔵オーディオデバイス位置の少なくとも一方に対する、前記人の推定される現在位置に少なくとも部分的に基づいてもよい。いくつかのそのような実施態様によると、前記方法は、前記人の前記推定される現在位置に最も近い最近位ラウドスピーカ内蔵オーディオデバイス、または、前記人の前記推定される現在位置に最も近い前記マイクロフォン位置に最も近い最近位ラウドスピーカ内蔵オーディオデバイス、を決定するステップを含んでもよい。いくつかのそのような例において、前記2つ以上のオーディオデバイスは、前記最近位ラウドスピーカ内蔵オーディオデバイスを含んでもよい。
いくつかの例において、前記1種類以上のオーディオ処理変更は、前記人の前記推定される現在位置から離れる方向に、オーディオ信号のレンダリングをワーピングするように、レンダリングプロセスを変更することを含む。いくつかの実施態様において、前記1種類以上のオーディオ処理変更は、スペクトル修正を含んでもよい。いくつかのそのような実施態様によると、前記スペクトル修正は、500Hzと3KHzとの間の周波数帯域においてオーディオデータのレベルを低下させることを含んでもよい。
いくつかの実施態様において、前記1種類以上のオーディオ処理変更は、オーディオ再生信号の少なくとも1つの選択された周波数帯域に、少なくとも1つのギャップを挿入することを含んでもよい。いくつかの例において、前記1種類以上のオーディオ処理変更は、ダイナミックレンジ圧縮を含んでもよい。
いくつかの実施態様によると、前記2つ以上のオーディオデバイスを選択するステップは、1つ以上のマイクロフォン位置についての信号対エコー比推定値に少なくとも部分的に基づいてもよい。例えば、前記2つ以上のオーディオデバイスを選択するステップは、前記信号対エコー比推定値が信号対エコー比閾値以下であるか否かを判定することに少なくとも部分的に基づいてもよい。いくつかの例において、前記1種類以上のオーディオ処理変更を決定するステップは、前記信号対エコー比推定値に少なくとも部分的に基づくコスト関数の最適化に基づいてもよい。例えば、前記コスト関数は、レンダリングパフォーマンスに少なくとも部分的に基づいてもよい。いくつかの実施態様において、前記2つ以上のオーディオデバイスを選択するステップは、近接度推定値に少なくとも部分的に基づいてもよい。
いくつかの例において、前記方法は、各マイクロフォンの前記出力信号から複数の現在の音響的特徴を決定するステップと、前記複数の現在の音響的特徴に分類器を適用するステップとを含んでもよい。いくつかの実施態様によると、前記分類器を適用するステップは、前記環境内の複数のユーザゾーン内で前記人によってなされた複数の過去の発声から得られた、過去に決定された音響的特徴に対して訓練されたモデルを適用することを含んでもよい。
いくつかのそのような例において、前記人に関するコンテクスト情報の1つ以上のアスペクトを決定するステップは、前記分類器からの出力に少なくとも部分的に基づき、前記人が現在位置しているユーザゾーンの推定値を決定することを含んでもよい。いくつかの実施態様によると、前記ユーザゾーンの前記推定値は、前記複数のマイクロフォンの幾何学的位置を参照せずに決定されてもよい。いくつかの例において、前記現在の発声および前記過去の発声は、ウェイクワードの発声であってもよいし、ウェイクワードの発声を含んでもよい。
いくつかの実施態様によると、前記1つ以上のマイクロフォンは、前記オーディオ環境の複数のオーディオデバイス内に設けられてもよい。しかし、別の例において、前記1つ以上のマイクロフォンは、前記オーディオ環境の1つのオーディオデバイス内に設けられてもよい。いくつかの例において、前記1つ以上のマイクロフォン位置のうち少なくとも1つは、1つのオーディオデバイスの複数のマイクロフォンに対応していてもよい。いくつかの開示された方法は、前記コンテクスト情報の前記1つ以上のアスペクトに応じて少なくとも1つのマイクロフォンを選択するステップを含んでもよい。
本明細書に記載の演算、機能、および/または方法のいくつかまたは全ては、1つ以上の非一時的な媒体に格納された命令(例えばソフトウェア)に従い、1つ以上のデバイスにより実行されてもよい。そのような非一時的な媒体は、本明細書に記載されたようなメモリ装置を含んでもよい。これは、ランダムアクセスメモリ(RAM)装置、リードオンリーメモリ(ROM)装置を含むが、これらに限定されない。したがって、本開示に記載された主題の革新的ないくつかの側面は、ソフトウェアが格納された非一時的な媒体において実装され得る。
例えば、ソフトウェアは、1つ以上のデバイスを制御して、オーディオ環境における複数のマイクロフォンの各々からの出力信号を受信するステップを含む方法を実行する命令を含んでもよい。いくつかの例において、前記複数のマイクロフォンの各々は、前記オーディオ環境のマイクロフォン位置に存在する。いくつかの例において、前記出力信号は、人の現在の発声に対応する信号を含む。いくつかの例によると、前記出力信号は、雑音および/またはエコー等の、発話でないオーディオデータに対応する信号を含む。
いくつかのそのような方法は、前記出力信号に基づき、前記人に関するコンテクスト情報の1つ以上のアスペクトを決定するステップを含む。いくつかの例において、コンテクスト情報は、前記人の推定される現在位置および/または前記人の1つ以上のマイクロフォン位置に対する推定される現在の近接度を含む。いくつかのそのような方法は、前記コンテクスト情報の前記1つ以上のアスペクトに少なくとも部分的に基づき、前記オーディオ環境の2つ以上のオーディオデバイスを選択するステップを含む。いくつかの実施態様において、2つ以上のオーディオデバイスの各々は、少なくとも1つのラウドスピーカを含む。
いくつかのそのような方法は、前記2つ以上のオーディオデバイス用のラウドスピーカフィード信号へとレンダリングされているオーディオデータに適用する、1種類以上のオーディオ処理変更を決定するステップを含む。いくつかの例において、前記オーディオ処理変更は、1つ以上のマイクロフォンにおける発話対エコー比を増大する効果を有する。いくつかのそのような方法は、前記1種類以上のオーディオ処理変更を適用させるステップを含む。
いくつかの実施態様によると、前記1種類以上のオーディオ処理変更は、前記2つ以上のオーディオデバイスの前記ラウドスピーカのラウドスピーカ再生レベルの低下を生じてもよい。いくつかの実施態様において、第1のオーディオデバイスに対する前記オーディオ処理変更の少なくとも1つは、第2のオーディオデバイスに対するオーディオ処理変更とは異なってもよい。いくつかの例において、前記オーディオ環境の2つ以上のオーディオデバイスを選択するステップは、前記オーディオ環境のN個のラウドスピーカ内蔵オーディオデバイスを選択することを含んでもよく、Nは2よりも大きい整数である。
いくつかの実施態様において、前記オーディオ環境の前記2つ以上のオーディオデバイスを選択するステップは、マイクロフォン位置およびラウドスピーカ内蔵オーディオデバイス位置の少なくとも一方に対する、前記人の推定される現在位置に少なくとも部分的に基づいてもよい。いくつかのそのような実施態様によると、前記方法は、前記人の前記推定される現在位置に最も近い最近位ラウドスピーカ内蔵オーディオデバイス、または、前記人の前記推定される現在位置に最も近い前記マイクロフォン位置に最も近い最近位ラウドスピーカ内蔵オーディオデバイス、を決定するステップを含んでもよい。いくつかのそのような例において、前記2つ以上のオーディオデバイスは、前記最近位ラウドスピーカ内蔵オーディオデバイスを含んでもよい。
いくつかの例において、前記1種類以上のオーディオ処理変更は、前記人の前記推定される現在位置から離れる方向に、オーディオ信号のレンダリングをワーピングするように、レンダリングプロセスを変更することを含む。いくつかの実施態様において、前記1種類以上のオーディオ処理変更は、スペクトル修正を含んでもよい。いくつかのそのような実施態様によると、前記スペクトル修正は、500Hzと3KHzとの間の周波数帯域においてオーディオデータのレベルを低下させることを含んでもよい。
いくつかの実施態様において、前記1種類以上のオーディオ処理変更は、オーディオ再生信号の少なくとも1つの選択された周波数帯域に、少なくとも1つのギャップを挿入することを含んでもよい。いくつかの例において、前記1種類以上のオーディオ処理変更は、ダイナミックレンジ圧縮を含んでもよい。
いくつかの実施態様によると、前記2つ以上のオーディオデバイスを選択するステップは、1つ以上のマイクロフォン位置についての信号対エコー比推定値に少なくとも部分的に基づいてもよい。例えば、前記2つ以上のオーディオデバイスを選択するステップは、前記信号対エコー比推定値が信号対エコー比閾値以下であるか否かを決定することに少なくとも部分的に基づいてもよい。いくつかの例において、前記1種類以上のオーディオ処理変更を決定するステップは、前記信号対エコー比推定値に少なくとも部分的に基づくコスト関数の最適化に基づいてもよい。例えば、前記コスト関数は、レンダリングパフォーマンスに少なくとも部分的に基づいてもよい。いくつかの実施態様において、前記2つ以上のオーディオデバイスを選択するステップは、近接度推定値に少なくとも部分的に基づいてもよい。
いくつかの例において、前記方法は、各マイクロフォンの前記出力信号から複数の現在の音響的特徴を決定するステップと、前記複数の現在の音響的特徴に分類器を適用するステップとを含んでもよい。いくつかの実施態様によると、前記分類器を適用するステップは、前記環境内の複数のユーザゾーン内で前記人によってなされた複数の過去の発声から得られた、過去に決定された音響的特徴に対して訓練されたモデルを適用することを含んでもよい。
いくつかのそのような例において、前記人に関するコンテクスト情報の1つ以上のアスペクトを決定するステップは、前記分類器からの出力に少なくとも部分的に基づき、前記人が現在位置しているユーザゾーンの推定値を決定することを含んでもよい。いくつかの実施態様によると、前記ユーザゾーンの前記推定値は、前記複数のマイクロフォンの幾何学的位置を参照せずに決定されてもよい。いくつかの例において、前記現在の発声および前記過去の発声は、ウェイクワードの発声であってもよいし、ウェイクワードの発声を含んでもよい。
いくつかの実施態様によると、前記1つ以上のマイクロフォンは、前記オーディオ環境の複数のオーディオデバイス内に設けられてもよい。しかし、別の例において、前記1つ以上のマイクロフォンは、前記オーディオ環境の1つのオーディオデバイス内に設けられてもよい。いくつかの例において、前記1つ以上のマイクロフォン位置のうち少なくとも1つは、1つのオーディオデバイスの複数のマイクロフォンに対応していてもよい。いくつかの開示された方法は、前記コンテクスト情報の前記1つ以上のアスペクトに応じて少なくとも1つのマイクロフォンを選択するステップを含んでもよい。
本明細書に記載された主題の1つ以上の実施態様の詳細を、添付の図面および以下の説明に記載する。その他の特徴、側面、および利点は、以下の説明、図面、および特許請求の範囲から明らかになる。なお、以下の図形の相対的な寸法は、縮尺どおりに描かれていない場合もあることに留意されたい。
図1Aは、ある例によるオーディオ環境を示す。 図1Bは、オーディオ環境の別の例を示す。 図2Aは、本開示のさまざまな側面を実装することができる装置の構成要素の例を示すブロック図である。 図2Bは、いくつかの実施態様によるオーディオセッション管理方法のブロックを含む流れ図である。 図3Aは、別個のレンダリング制御および複数のデバイスに亘るリスニングまたはキャプチャロジックを実装するように構成されたシステムのブロック図である。 図3Bは、別の開示された実施態様によるシステムのブロック図である。 図3Cは、ある例によるエネルギバランシングネットワーク(energy balancing network)を実装するように構成された実施形態のブロック図である。 図4は、オーディオ環境の1つ以上のマイクロフォンにおける発話対エコー比を増大し得るオーディオ処理の例を示すグラフである。 図5は、オーディオ環境の1つ以上のマイクロフォンにおける発話対エコー比を増大し得る別の種類のオーディオ処理を示すグラフである。 図6は、オーディオ環境の1つ以上のマイクロフォンにおける発話対エコー比を増大し得る別の種類のオーディオ処理を示す。 図7は、オーディオ環境の1つ以上のマイクロフォンにおける発話対エコー比を増大し得る別の種類のオーディオ処理を示すグラフである。 図8は、音量を下げようとするオーディオデバイスが、話している人に最も近いオーディオデバイスではないかもしれない例の図である。 図9は、非常に高いSERを有するデバイスがユーザの極めて近くにある状況を示す。 図10は、図2Aに示すような装置により実行され得る方法の一例の概略を示す流れ図である。 図11は、ゾーン分類器を実装するように構成された実施形態の一例の要素のブロック図である。 図12は、図2Aの装置200などの装置により実行され得る方法の一例の概略を示す流れ図である。 図13は、図2Aの装置200などの装置により実行され得る方法の別の例の概略を示す流れ図である。 図14は、図2Aの装置200などの装置により実行され得る方法の別の例の概略を示す流れ図である。 図15は、スピーカ起動電位の集合の一例およびオブジェクトレンダリング位置を示す図である。 図16は、スピーカ起動電位の集合の一例およびオブジェクトレンダリング位置を示す図である。 図17は、図2Aに示すような装置またはシステムにより実行され得る方法の一例の概略を示す流れ図である。 図18は、実施形態例における、スピーカ起動電位のグラフである。 図19は、実施形態例における、オブジェクトレンダリング位置のグラフである。 図20は、実施形態例における、スピーカ起動電位のグラフである。 図21は、実施形態例における、オブジェクトレンダリング位置のグラフである。 図22は、実施形態例における、スピーカ起動電位のグラフである。 図23は、実施形態例における、オブジェクトレンダリング位置のグラフである。
現在、設計者らは、概して、オーディオデバイスを、娯楽、通信、および情報サービスの混合体であり得るオーディオ音声のための単一のインターフェイスポイントとして考えている。通知および音声制御にオーディオ音声を用いることは、視覚的または身体的な割込みを回避できるという利点を有する。拡大しつつあるデバイスのランドスケープは細分化され、より多くのシステムが我々の一対の耳を奪い合っている。
対話型オーディオ音声の全ての形態において、全二重通信オーディオ性能を向上するという課題は、依然として困難なままである。ある室内において、この室内における伝送または情報的なキャプチャにとって関係のないオーディオ出力が存在する場合、このオーディオ出力をキャプチャされた信号から除去する(例えばエコー除去および/またはエコー抑制によって)ことが望ましい。いくつかの開示された実施形態は、1つ以上のデバイスにおける全二重通信を成功させるための鍵となる基準である、信号対エコー比(SER)を改善する、ユーザエクスペリエンスのアプローチおよび管理を提供する。
このような実施形態は、ユーザの可聴範囲内に複数のオーディオデバイスが存在し、各オーディオデバイスが、所望の娯楽、通信、または情報サービスのためにユーザの位置で適切な音量のオーディオプログラム素材を提供することができるという状況において、有用であると考えられる。そのような実施形態の価値は、ユーザに対して同じくらい近くに3つ以上のオーディオデバイスが存在する場合に特に高いと考えられる。
レンダリングアプリケーションがオーディオデバイスの主要な機能である場合があるので、可能な限り多くのオーディオ出力デバイスを用いたい場合がある。いくつかのオーディオデバイスがユーザのより近くにある場合、これらのオーディオデバイスは、音声を正確に配置する能力または特定のオーディオシグナリングおよびイメージングをユーザに届ける能力の点でより有利であり得る。しかし、これらのオーディオデバイスが1つ以上のマイクロフォンを含む場合、それらはユーザの声を拾うのに好ましいかもしれない。信号対エコー比の困難性とともに考えた場合、ユーザのより近くに存在するデバイスを単信(入力オンリー)モードで使用するか、または、ユーザがこのデバイスに近づくと、信号対エコー比が劇的に向上されることがわかる。
開示されたさまざまな実施形態において、オーディオデバイスは、他の機能(例えば図1Aに示す機能)を提供しつつ、内蔵のスピーカおよびマイクロフォンの両方を有していてもよい。いくつかの開示された実施形態は、ある状況において、ユーザの最も近くにあるラウドスピーカ(単数または複数)をあえて主として用いないというコンセプトを実装する。
アプリケーション(例えばクラウド型アプリケーション)間の、コネクテッドなオペレーティングシステムまたは仲介者排除(disintermediation)において、(オーディオ入力、出力、および/またはリアルタイムインタラクションを可能にする)多くの異なる種類のデバイスが含まれ得ると考える。そのようなデバイスの例として、ウェアラブルな家庭用オーディオデバイス、モバイルデバイス、自動モバイルコンピューティングデバイス、およびスマートスピーカが挙げられる。スマートスピーカは、クラウド型サービス用の、ネットワーク接続されたスピーカおよびマイクロフォンを含んでもよい。このようなデバイスの他の例は、スピーカおよび/またはマイクロフォンを内蔵しており、ライト、時計、テレビ、携帯情報端末、冷蔵庫およびゴミ箱を含む。いくつかの実施形態は、スマートホームハブなどのオーケストレーションデバイス(orchestrating device)またはオーディオセッション管理を行うように構成された他のデバイス(本明細書中、「オーディオセッションマネジャ」と呼ぶことがある)を介してオーディオ環境内の複数のオーディオデバイスのオーケストレーションを行うための共通プラットホームが存在する状況に特に関連している。いくつかのそのような実施態様は、デバイス固有ではない言語であって、オーケストレーションデバイスがソフトウェアアプリケーションにより特定された複数のユーザや場所の間でオーディオコンテンツのルーティング(routing)を行うような言語において、オーディオセッションマネジャとローカル実装されたソフトウェアアプリケーションとの間のコマンドを含み得る。いくつかの実施形態は、レンダリングを動的に管理する方法(例えば、最も近くに存在するデバイスから音声を遠ざけて空間イメージングを維持する制約を含む)、ならびに/もしくは、ゾーン内のユーザの位置を特定する方法、ならびに/もしくは、デバイス間およびユーザに対して相対的にデバイスのマッピングおよび位置特定を行う方法を実装する。
典型的には、複数のスマートオーディオデバイスを含むシステムは、ユーザから(上で定義した)「ウェイクワード」をいつ聞いたかを示す必要があり、ユーザからのコマンドに注意を払っている(換言すると、ユーザからのコマンドがないかと耳をすましている)。
図1Aは、ある例によるオーディオ環境を示す。いくつかの開示された実施形態は、任意の環境(例えば生活空間または職場)内に、例えば本明細書に開示されるように、音声を伝達しオーディオ音声をキャプチャすることができる多数のオーディオデバイスが存在するというシナリオにおいて特に有用であり得る。図1Aのシステムは、さまざまな開示された実施形態に応じて構成されてもよい。
図1Aは、オーディオインタラクションのための1組のスマートオーディオデバイス(デバイス1.1)と、オーディオ出力のためのスピーカ(1.3)と、制御可能なライト(1.2)とを含む、オーディオ環境(生活空間)の図である。他の開示された実施態様と同様、図1Aにおける要素の種類、個数および配置は例示に過ぎない。他の実施態様は、より多くの要素、より少ない要素、および/または異なる要素を提供し得る。いくつかの例において、マイクロフォン1.5のうち1つ以上のマイクロフォンは、デバイス1.1、ライト1.2、スピーカ1.3のうちの1つの一部であってもよいし、デバイス1.1、ライト1.2、スピーカ1.3のうちの1つと関連付けられてもよい。代替的にまたは追加的に、マイクロフォン1.5のうち1つ以上のマイクロフォンは、当該環境の別の部分(例えば、壁、天井、家具、家電、または当該環境の別のデバイス)に取り付けられてもよい。ある例において、デバイス1.1の各々は、少なくとも1つのマイクロフォン1.5を含む(かつ/または少なくとも1つのマイクロフォン1.5に接続されている)。図1Aには図示しないが、いくつかのオーディオ環境は、1つ以上のカメラを含んでもよい。いくつかの開示された実施態様によると、オーディオ環境の1つ以上のデバイス(例えば、デバイス1.1のうちの1つ以上のデバイスなどの、オーディオセッション管理のために構成されたデバイス、オーディオセッションマネジャを実装するデバイス、スマートホームハブ等)は、ウェイクワードやコマンドなどを発したユーザ(1.4)が何処にいるか(例えば、生活空間のどのゾーンいるか)を推定することができてもよい。図1Aに示すシステムの1つ以上のデバイス(例えば、デバイス1.1)は、さまざまな開示された実施形態を実装するように構成されてもよい。さまざまな方法を用いて、図3のデバイスから情報を集約的に得て、ウェイクワードを発したユーザの位置推定値を提供することができる。いくつかの開示された方法によると、図1Aのマイクロフォン1.5から情報が集約的に得られ、その情報は、ウェイクワードを発したユーザの位置推定値を提供するように構成された分類器を実装するデバイス(例えばオーディオセッション管理のために構成されたデバイス)に提供される。
生活空間(例えば図1Aの生活空間)内に、1組の通常のアクティビティゾーンが存在し、このゾーンにおいて、人は、タスクまたはアクティビティを実行するか、またはしきいを越える。これらのエリア(本明細書において「ユーザゾーン」と呼ぶ)は、いくつかの例において、幾何学的位置(geometric location)の座標または他の指標を特定することなく、ユーザにより定義されてもよい。いくつかの例のよると、人の「コンテクスト」は、ユーザが現在居るユーザゾーンまたはそのユーザゾーンの推定値を含んでもよいし、もしくは、それに一致してもよい。図1Aにおいて、ユーザゾーンは以下のゾーンを含む:
1.キッチンシンクおよび調理エリア(生活空間の左上領域内);
2.冷蔵庫のドア(シンクおよび調理エリアの右側);
3.ダイニングエリア(生活空間の左下領域内);
4.生活空間のオープンエリア(シンクおよび調理エリアならびにダイニングエリアの右側);
5.テレビソファ(オープンエリアの右側);
6.テレビ自身;
7.テーブル;
8.ドアエリアまたは通路(生活空間の右上領域内)。
他のオーディオ環境は、より多くのユーザゾーン、より少ないユーザゾーン、ならびに/もしくは、1つ以上の寝室ゾーン、ガレージゾーン、パティオまたはデッキゾーンなど他の種類のユーザゾーンを含んでもよい。
いくつかの実施形態によると、音(例えば、ウェイクワードまたは注意喚起する他の信号)が起こった(または生じた)場所を推定する(例えば、音が起こった場所の不確実な推定値(uncertain estimate)を決定する)システムは、その推定値に一定の信頼をおいていてもよい(または複数の仮説を有してもよい)。例えば、人がオーディオ環境の複数のユーザゾーンの境界の近くにたまたま居る場合、この人の位置の不確実な推定値は、この人がこれら複数のゾーンの各ゾーン内に居るという一定の確信を含んでもよい。音声インターフェイスの従来のいくつかの実施態様において、音声アシスタントの声は一度に一カ所のみから発せられ、1つの位置(例えば、図1Aにおいて、8カ所のスピーカ位置(1.1および1.3)のうちの1つ)に対して1つの選択肢とすることが要求される。しかし、単純な仮想のロールプレイに基づくと、(そのような従来の実施態様において)アシスタントの声の発生源の選択された位置(つまり、音声アシスタントに含まれるかまたは接続されたスピーカの位置)が、注意を表出するための自然な返答のフォーカスポイントである尤度が低いものであり得ることが明らかである。
図1Bは、オーディオ環境の別の例を示す。図1Bに示す別のオーディオ環境は、直接的な発話102を発するユーザ101と、1組のスマートオーディオデバイス103および105、オーディオ出力のためのスピーカ、およびマイクロフォンを含むシステムとを含む。このシステムは、いくつかの開示された実施態様に従って構成されてもよい。ユーザ101(本明細書中、「話者」と呼ぶこともある)により発せられた発話は、システムの1つ以上の要素により、ウェイクワードであると認識され得る。
より具体的には、図1Bのシステムの要素は以下を含む。
102:直接的で局所的な声(ユーザー101によって生成される)。
103:音声アシスタントデバイス(1つ以上のラウドスピーカに接続される)。デバイス103は、デバイス105よりもユーザ101の近くに配置されている。デバイス103を「近位」デバイスと呼び、デバイス105を「遠位」デバイスと呼ぶこともある。
104:近位デバイス103内の(またはそれに接続された)複数のマイクロフォン。
105:(1つ以上のラウドスピーカに接続された)音声アシスタントデバイス。
106:遠位デバイス105内の(またはそれに接続された)複数のマイクロフォン。
107:家電機器(例えば、ランプ)。
108:家電機器107内の(またはそれに接続された)複数のマイクロフォン。いくつかの例において、マイクロフォン108の各々は、分類器を実装するように構成されたデバイス(いくつかの例において、デバイス103または105の少なくとも一方)と通信するように構成されてもよい。いくつかの実施態様において、分類器を実装するように構成されたデバイスはまた、CHASMまたはスマートホームハブを実装するように構成されたデバイスなどの、オーディオセッション管理のために構成されたデバイスであってもよい。
図1Bのシステムはまた、少なくとも1つの分類器(例えば、後で説明する図11の分類器1107)を含んでもよい。例えば、デバイス103(またはデバイス105)は、分類器を含んでもよい。代替的にまたは追加的に、分類器は、デバイス103および/またはデバイス105と通信するよう構成され得る別のデバイスにより実装されてもよい。いくつかの例において、分類器は、別のローカルデバイス(例えば、環境109内のデバイス)により実装されてもよい。それに対して、別の例では、分類器は、環境109の外部に配置されたリモートデバイス(例えば、サーバ)により実装されてもよい。
いくつかの実施態様によると、少なくとも2つのデバイス(例えば、図1Aのデバイス1.1、図1Bのデバイス103および105など)は、(例えば、オーディオセッション管理のために構成されたデバイスなどの、オーケストレーションデバイスの制御下において)任意の様態で協働して、それらデバイス間でオーディオ音声が共同制御され得るように音声を配送する。例えば、2つのデバイス103および105は、個別にまたは共同で音声を再生してもよい。ある単純なケースにおいて、デバイス103および105は、共同の対として動作して、各々がオーディオ音声の一部分をレンダリングする(例えば、一般性を失わずに、ステレオ信号の一方が実質的にL側をレンダリングし、他方が実質的にR側をレンダリングする)。
家電機器107(または別のデバイス)は、ユーザ101の最も近くに存在しかつラウドスピーカを有していない1つのマイクロフォン108を含んでもよい。その場合、この特定のオーディオ環境およびこのユーザ101の特定の位置に対して、デバイス105および/または家電機器107のスピーカ(単数または複数)により再生されるオーディオ音声に対するオーディオ処理を変更することによっても改善し得ない、好ましい信号対エコー比または発話対エコー比(SER)が既に存在する状況を考える。いくつかの実施形態において、そのようなマイクロフォンは存在しない。
いくつかの開示された実施形態は、検出可能で有意なSERパフォーマンスインパクトを提供する。いくつかの実施態様は、ゾーン位置特定および/または動的可変レンダリングの側面を実装することなく、そのような利点を提供する。しかし、いくつかの実施形態は、デバイスから離れる方向にサウンドオブジェクト(またはオーディオオブジェクト)を斥ける(repelling)または「ワーピング(warping)」するようにレンダリングすることを含む、オーディオ処理変更を実装する。特定のオーディオデバイスや特定の位置などから離れる方向にオーディオオブジェクトをワーピングする理由は、いくつかの例において、人間の発話をキャプチャするために使用される特定のマイクロフォンにおける信号対エコー比を改善するためである。そのようなワーピングは、1つ、2つ、または3つ以上の近くに存在するオーディオデバイスの再生レベルを下げることを含んでもよいが、このことに限定されない。いくつかの場合において、SERを改善するためのオーディオ処理の変更は、オーディオ処理の変更が実装される(例えば再生レベルを下げる)1つ、2つ、またはそれ以上の近くに存在するオーディオデバイスが、ユーザの最も近くに存在するオーディオデバイス、ユーザの発話をキャプチャするために使用される特定のマイクロフォンの最も近くに存在するオーディオデバイス、および/または、注目している音声の最も近くに存在するオーディオデバイスとなるように、ゾーン検出技術により通知されてもよい。
いくつかの実施形態の側面は、コンテクストと、決定(decision)と、オーディオ処理変更(本明細書中、「レンダリング変更」と呼ぶ)とを含む。いくつかの例において、これらの側面は以下のとおりである。
コンテクスト(CONTEXT)(位置および/または時間など)。いくつかの例において、位置および時間はコンテクストの一部であり、各々が様々な方法で提供または決定され得る。
決定(DECISION)(閾値または変更の連続的な調整を含み得る)。この構成要素は、単純であっても複雑であってもよく、それは特定の実施形態に応じて決まる。いくつかの実施形態において、決定は、例えばフィードバックに応じて、連続的に為されてもよい。いくつかの例において、決定は、例えば後で説明するような好循環のフィードバックの安定性などの、システムの安定性を生み得る。
レンダリング(RENDER)(オーディオ処理変更の本質)。本明細書中「レンダリング(rendering)」と表記するが、オーディオ処理変更は、レンダリング変更を含んでも含まなくてもよく、それは特定の実施態様に応じて決まる。いくつかの実施態様において、かろうじて知覚可能なオーディオ処理変更の実施態様から、厳密かつ明白なオーディオ処理変更のレンダリングの実施態様までを含む、オーディオ処理変更に複数のオプションが存在する。
いくつかの例において、「コンテクスト」は、位置および意図に関する情報を含んでもよい。例えば、コンテクスト情報は、少なくとも、ユーザの現在位置に一致するユーザゾーンの推定値などの、ユーザの位置についての大まかな知識を含んでもよい。コンテクスト情報は、オーディオオブジェクト位置(例えば、ユーザによるウェイクワードの発話に一致するオーディオオブジェクト位置)に一致してもよい。いくつかの例において、コンテクスト情報は、オブジェクトまたは個人が音を鳴らしたタイミングおよび尤度に関する情報を含んでもよい。コンテクストの例として、以下のものが挙げられるが、それらに限定されない。
A.尤もらしい位置が何処なのかを知ること。これは、以下の事項に基づく。
i) 弱検出または低確率検出(例えば、もしかすると注目している音声であり得るが、作用するのに十分に明瞭であることもないこともあり得る、音声の検出)。
ii) 特定の起動(例えば、発声されかつ明瞭に検出されたウェイクワード)。
iii) 習慣およびパターン(例えば、テレビの近くにあるソファなどの所与の位置が、ソファに座ってテレビでビデオ素材を視て関連するオーディオ音声を聞いている1人以上の人に関連付けられるというような、パターン認識に基づく。)
iv) および/または他の様式(modality)に基づく他の形態の近接度検知((例えば、オーディオ環境の家具内または家具上に設けられた)1つ以上の赤外線センサ、カメラ、容量型センサ、高周波(RF)センサ、熱センサ、圧力センサ、ウェアラブルビーコン等)の統合。
B.例えば改善された検出度で人が聞きたい音声の尤度を知るまたは推定すること。これは、以下の事項のいくつかまたは全てを含み得る。
i) ウェイクワード検出など、任意のオーディオ音声の検出に基づくイベント。
ii) 既知のアクティビティまたは一連のイベント(例えば、ビデオコンテンツの表示の一時休止、スクリプト化された自動音声認識(ASR)型の対話型コンテンツにおけるインタラクションのための空間、もしくは、アクティビティの変更および/または(テレビ会議の1人以上の参加者による一時休止などの)全二重通信通信アクティビティの対話ダイナミクスの変更)に基づくイベントまたはコンテクスト。
iii) 追加的な他の様式の感覚入力(sensory input)
iv) 任意の様態で頻繁にリスニングを改良するという選択肢 ― 向上された準備状態または改良されたリスニング。
A(尤もらしい位置が何処なのかを知ること)とB(例えば改善された検出度でユーザが聞きたい音声の尤度を知るまたは推定すること)との重要な差を説明すると、Aは、まだ聞くべきものがあるか否かを必ずしも知る必要なく、特定の位置情報または知識を含むが、それに対してBは、正確に何処で聞くかを必ずしも知る必要なく、特定のタイミングまたはイベント情報により注目する。当然、AおよびBのいくつかのアスペクトにおいて重複する部分があり得る。例えば、ウェイクワードの弱検出または完全検出が、位置およびタイミングの両方に関する情報を有する。
いくつかのユースケースにとって、重要なことは、「コンテクスト」が、聞きたいと思う位置(例えば、人および/または最も近くに存在するマイクロフォンの位置)およびタイミングの両方に関する情報を含むということである。このコンテクストの情報は、1つ以上の関連付けられた決定、および、1つ以上の起こり得るオーディオ処理変更(例えば1つ以上の起こり得るレンダリング変更)を駆動する。したがって、さまざまな実施形態は、コンテクストを形成するために使用され得る各種情報に基づき、多くの可能性を考慮に入れる。
次に、「決定」アスペクトについて説明する。このアスペクトは、例えば、関連付けられたオーディオ処理が変更される1つ、2つ、または3つ以上の出力デバイスを決定することを含んでもよい。このような決定を形成する1つの単純な方法は、以下のようなものである。
コンテクストからの情報(例えば、位置および/またはイベント(もしくは、ある意味において、その位置に関して重要な何かがあるということに対する信頼))が与えられると、いくつかの例において、オーディオセッションマネジャは、その位置からオーディオ環境内のいくつかまたは全てのオーディオデバイスまでの距離を決定または推定し得る。いくつかの実施態様において、オーディオセッションマネジャはまた、オーディオ環境のいくつかまたは全てのオーディオデバイスについて、各ラウドスピーカ(または1組のラウドスピーカ)に対する1組の起動電位を生成し得る。いくつかのそのような例によると、1組の起動電位は、[f_1,f_2,…,f_n]と決定され得、一般性を失わずに、[0..1]の範囲内であり得る。別の例において、決定の結果は、各デバイスの目標の発話対エコー比改善値[s_1,s_2,…,s_n]を、「レンダリング」アスペクトに記述(説明)してもよい。さらなる例において、起動電位および発話対エコー比改善値の両方は、「決定」アスペクトにより生成され得る。
いくつかの実施形態において、起動電位は、「レンダリング」アスペクトが、所望のマイクロフォン位置でSERが改善されることを確実にする度合いを伝達する。いくつかのそのような例において、f_nの最大値は、レンダリングされたオーディオ音声を積極的に音量低減(ダッキング)するまたはワーピングすることを示し、もしくは、値s_nが与えられた場合、オーディオ音声は、s_nの発話対エコー比を達成するように、限定かつ音量低減(ダッキング)されることを示す。0.5により近いf_nの中間値は、いくつかの実施形態において、中程度のレンダリング変更のみが要求され、これらの位置に向けてオーディオ源をワーピングすることが適切であることを示し得る。さらに、いくつかの実施態様において、f_nの低い値は、減衰するのに重要でないとみなされ得る。いくつかのそのような実施態様において、閾値レベル以下のf_n値はアサートされなくてもよい。いくつかの例によると、閾値レベル以下のf_n値は、オーディオコンテンツのレンダリングをワーピングして向ける先の位置に一致してもよい。いくつかの例において、閾値レベル以下のf_n値に一致するラウドスピーカは、後で説明するプロセスに応じて再生レベルを上昇されてもよい。
いくつかの実施態様によると、上記方法(または後で説明する別の方法の1つ)は、全ての選択されたオーディオデバイスに対する、例えば、オーディオ環境の各デバイス、オーディオ環境の1つ以上のデバイス、オーディオ環境の2つ以上のデバイス、オーディオ環境の3つ以上のデバイスなどに対する、選択されたオーディオ処理変更の各々について、制御パラメータを生成するために使用されてもよい。オーディオ処理変更の選択は、特定の実施態様に応じて異なってもよい。例えば、決定は、
- オーディオ処理を変更しようとする2つ以上のラウドスピーカからなる1組のラウドスピーカと、
- この1組の2つ以上のラウドスピーカに対するオーディオ処理を変更する範囲と、を決定することを含んでもよい。変更の範囲は、いくつかの例において、設計または決定された範囲の文脈において決定されてもよく、これは、当該1組のラウドスピーカに含まれる1つ以上のラウドスピーカの能力に少なくとも部分的に基づき得る。いくつかの例において、各ラウドスピーカの能力は、周波数特性、再生レベル限界値、および/または1つ以上のラウドスピーカダイナミクス処理アルゴリズムのパラメータを含み得る。
例えば、1つの設計上の選択事項として、特定の状況における最良の選択肢がラウドスピーカの音量を下げることであるということがあり得る。いくつかのそのような例において、オーディオ処理変更の最大範囲および/または最小範囲が決定されてもよい。例えば、任意のラウドスピーカの音量を下げる範囲が、例えば15dB、20dB、25dB等の特定の閾値に限定される。いくつかのそのような実施態様において、決定は、1つ、2つ、または3つ以上のラウドスピーカを選択するヒューリスティクスまたはロジックに基づいてもよく、かつ、注目しているアクティビティの確信度やラウドスピーカ位置などに基づいてもよい。決定は、1つ、2つ、または3つ以上のラウドスピーカにより再生されるオーディオ音声を、最小値および最大値の範囲(例えば0dB~20dB)内の任意の量だけ音量低減(ダッキング)することであってもよい。決定方法(またはシステム要素)は、いくつかの例において、各ラウドスピーカ内蔵オーディオデバイスにつき1組の起動電位を生成してもよい。
ある単純な例において、決定プロセスは、1つを除いて全てのオーディオデバイスがレンダリング起動変更の値0を有すると決定することや、その1つのオーディオデバイスがレンダリング起動変更の値1を有すると決定することのような単純なことであってもよい。オーディオ処理変更(例えば、音量低減(ダッキング))の設計およびオーディオ処理変更の範囲(例えば、時定数)は、いくつかの例において、決定ロジックから独立していてもよい。このアプローチにより、単純かつ効果的な設計が得られる。
しかし、別の実施態様は、2つ以上のラウドスピーカ内蔵オーディオデバイスを選択することと、2つ以上のラウドスピーカ内蔵オーディオデバイスのうち、少なくとも2つ、少なくとも3つ(および、いくつかの例において、全て)のオーディオデバイスに対するオーディオ処理を変更することとを含んでもよい。いくつかのそのような例において、第1のオーディオデバイスに対するオーディオ処理変更のうちの少なくとも1つ(例えば再生レベルの低減)は、第2のオーディオデバイスに対するオーディオ処理変更とは異なってもよい。これらオーディオ処理変更の間の差は、いくつかの例において、各オーディオデバイスの位置に対する人の推定される現在位置またはマイクロフォン位置に少なくとも部分的に基づいてもよい。いくつかのそのような実施態様によると、オーディオ処理変更は、レンダリングプロセスを変更することの一部として、異なるラウドスピーカ位置において異なるスピーカ起動電位を適用して、注目している人の推定される現在位置から離れる方向に、オーディオ信号のレンダリングをワーピングすることを含んでもよい。これらオーディオ処理変更の間の差は、いくつかの例において、ラウドスピーカの能力に少なくとも部分的に基づいてもよい。例えば、オーディオ処理変更が、バスレンジにおけるオーディオ音声のレベルを低下させることを含む場合、そのような変更は、バスレンジにおいて大音量再生が可能な1つ以上のラウドスピーカを含むオーディオデバイスに対して、より積極的に適用されてもよい。
次に、オーディオ処理変更アスペクト(本明細書中、「レンダリング変更」アスペクトと呼ぶこともある)に関するさらなる詳細を説明する。本開示は、このアスペクトを、「最近位スピーカの音量低下(turn nearest down)」(例えば、1つ、2つ、または3つ以上の最近位スピーカにより再生されるオーディオコンテンツがレンダリングされる音量を低減すること)と呼ぶことがあるが、(本明細書の他の箇所に示すように、)より一般的には、多くの実施態様において実装され得るのは、所望のオーディオ発信源(例えばウェイクワードを話した人)をキャプチャまたは検知する能力に関して、信号対エコー比の全体的な推定、測定および/または基準を改善することに向けられた、オーディオ処理に対する1つ以上の変更である。いくつかの場合において、オーディオ処理変更(例えば、レンダリングされたオーディオコンテンツの音量を「低下」すること)は、結果の量のいくつかの連続的なパラメータによって調整される(または調整され得る)。例えば、ラウドスピーカの音量を下げるという文脈において、いくつかの実施態様は、調節可能な(例えば連続的に調節可能な)量の減衰(dB)を適用することができてもよい。いくつかのそのような例において、調節可能な量の減衰は、ぎりぎり感知し得る変更のための第1の範囲(例えば、0~3dB)と、SERに特に効果的な改善をもたらすが、聴者が絶対に感知し得る第2の範囲(例えば、0~20dB)とを有してもよい。
上記スキーマ(コンテクスト(CONTEXT)、決定(DECISION)、ならびにレンダリング(RENDER)またはレンダリング変更(RENDERING CHANGE))を実装するいくつかの実施形態において、(例えば、ユーザもしくは別の個人またはシステム要素の「最近位」に位置するラウドスピーカまたはデバイスについて)「最近位」の特定の確固たる境界(hard boundary)が存在しなくてもよく、一般性を失わずに、レンダリング変更は、以下のAおよびBのうちの1つ以上を変化させる(例えば、連続的に変化させる)ことを含み得るかまたは含んでいる。
A. 1つ以上のオーディオデバイスからのオーディオ出力を低減するように、出力を変更するモード。ここで、オーディオ出力の変更は、以下のi)~vi)のうちの1つ以上を含み得る。
i)オーディオデバイス出力の全体のレベルを低下すること(1つ以上のラウドスピーカの音量を下げること、1つ以上のラウドスピーカを消音すること)。
ii)例えば、我々が検出したいオーディオ音声のスペクトルとは異なる出力を生成するように設計された略線形のイコライズ(EQ)フィルタを用いて、1つ以上のラウドスピーカの出力のスペクトルを成形すること。いくつかの例において、人間の声を検出するために出力スペクトルが成形されている場合、フィルタは、約500Hz~3kHzの範囲内の周波数を下げ得る(例えば、この周波数範囲の各端部において±5%または±10%)、もしくは、低周波帯および高周波帯を強調して中間帯域(例えば、約500Hz~3kHzの範囲)にスペースが残るようにラウドネス(loudness)を成形し得る。
iii)出力の上限またはピークを変更して、ピークレベルの低下、ならびに/もしくは、オーディオ検出のために達成されたSERを生成するシステム全体(例えば、タイムドメインダイナミックレンジ圧縮器またはマルチバンド周波数依存型圧縮器)の一部である任意のエコー除去のパフォーマンスを追加的に低下させ得る歪成分の低減のいずれかを行うこと。このようなオーディオ信号修正は、オーディオ信号の振幅を効果的に低減し得、かつ、ラウドスピーカのエクスカーションを制限することに寄与し得る。
iv)エネルギを低減する傾向がある方法でオーディオ音声を空間的にステアリングすること、もしくは、例えば本明細書中に記載した「ワーピング」例におけるように、1つ以上のラウドスピーカの出力を、システム(例えばオーディオ処理マネジャ)がより高いSERを実現している1つ以上のマイクロフォンに接続すること。
v)後で説明するギャップ挿入の例と同様に、一時的なタイムスライシングまたはタイムアジャストメントを用いて、オーディオ音声の細断片(glimpses)を得るのに十分な、スパース時間周波数のより低い出力の「ギャップ」または期間を生成すること。
vi)上記方法の何らかの組み合わせにて、オーディオ音声を変更すること。
B. エネルギの保存、ならびに/もしくは、特定のリスニング位置または幅広い1組のリスニング位置における連続性の生成。例えば、以下のi)およびii)のうちの1つ以上を含む。
i)いくつかの例において、1つのラウドスピーカから除去されたエネルギは、別のラウドスピーカに追加のエネルギを提供することにより補償され得る。いくつかの例において、全体のラウドネスは同じままであるか、または、実質的に同じままである。このことは、必須の特徴ではないが、コンテンツを失うことなく、「最近位の」デバイスまたは最近位の1組のデバイスのオーディオ処理に、より厳格な変更を施すことを可能にする効果的な手段であり得る。しかし、連続性および/またはエネルギの保存は、複雑なオーディオ出力およびオーディオシーンを扱う場合に特に関係し得る。
ii)起動の時定数。特に、オーディオ処理の変更は、通常状態に戻される(例えば1000~10000ms)よりも少し早く(例えば100~200ms)適用され得、その結果、オーディオ処理の変更は、感知可能である場合、意図的に見えるが、次に変更状態から通常状態に戻ることは、任意の実際のイベントまたは(ユーザの視点から見た)変更に関係があるように見えないかもしれず、いくつかの例において、ほとんど感知できないほど遅いかもしれない。
ここで、コンテクストおよび決定をどのように定式化しかつ決定するかのさらなる例を説明する。
実施形態A
(コンテクスト(CONTEXT))一例として、コンテクスト情報は、以下のように数学的に定式化され得る。
H(a,b)、デバイスaとデバイスbとの間のおおよその物理的距離(メートル):




(ここで、Dはシステムにおける全てのデバイスの組を示し、Sは各デバイスにおける推定SERである)は、次のように表現され得る。
HおよびSを決定する:
Hは、デバイスの物理的位置の特性(property)であり、以下の(1)および(2)によって決定または推定され得る。
(1)ユーザによる直接的な指示。例えば、スマートフォンまたはタブレット装置を用いて、環境の平面図または同様の図式表示上に、デバイスのおおよその位置をマーキングまたは指示する。このようなデジタルインターフェイスは、スマートホームデバイスの構成、グループ化、名前、目的およびIDの管理において、既にありふれたものである。例えば、このような直接的な指示は、アマゾンアレクサ(Amazon Alexa)スマートフォンアプリケーション、SonosS2コントローラアプリケーション、または同様のアプリケーションを介して提供されてもよい。
(2)例えば、J. Yang and Y. Chen, "Indoor Localization Using Improved RSS-Based Lateration Methods," GLOBECOM 2009 - 2009 IEEE Global Telecommunications Conference, Honolulu, HI, 2009, pp. 1-6, doi: 10.1109/GLOCOM.2009.5425237 および/またはMardeni, R. & Othman, Shaifull & Nizam, (2010) “Node Positioning in ZigBee Network Using Trilateration Method Based on the Received Signal Strength Indicator (RSSI)” 46(本明細書中、これら両方の文献を参考として援用する)に開示されているように、ブルートゥース、Wi-Fi、ジグビー等の一般的な無線通信技術の測定された信号強度(受信信号強度表示またはRSSIと呼ぶこともある)を用いて基礎的三辺測量の問題を解き、デバイス間の物理的距離の推定値を生成する。
S(a)は、デバイスaにおける発話対エコー比の推定値である。定義によれば、発話対エコー比(dB)は、次の式により与えられる。
上記式において、
は発話エネルギの推定値(dB)であり、
はエコー除去後の残留エコーエネルギの推定値(dB)である。これらの量を推定するためのさまざまな方法を、本明細書中に開示している。例えば、以下のものが挙げられる。
(1)発話エネルギおよび残留エコーエネルギは、デバイスのマイクロフォンとスピーカとの間の音響的接続およびオンボードのエコー除去回路のパフォーマンスを考慮して、特定のデバイスについて実行されたオフラインの測定プロセスにより推定されてもよい。いくつかのそのような例において、平均発話エネルギレベル「AvgSpeech」は、公称距離におけるデバイスにより測定された人間の発話の平均レベルによって決定されてもよい。例えば、マイクロフォン内蔵デバイスから1メートル離れて立っている少数の人々からの発話は、生成中に当該デバイスにより記録されてもよく、エネルギを平均してAvgSpeechを生成してもよい。いくつかのそのような例によると、平均残留エコーエネルギレベル「AvgEcho」は、生成中に当該デバイスからの音楽コンテンツを再生し、オンボードのエコー除去回路を実行してエコー残留信号を生成することにより推定されてもよい。音楽コンテンツの小さいサンプルについてのエコー残留信号のエネルギを平均することを用いて、AvgEchoを推定してもよい。デバイスがオーディオ音声を再生していない場合、AvgEchoは名目上の低い値(-96.0dBなど)に設定されてもよい。いくつかのそのような実施態様において、発話エネルギおよび残留エコーエネルギは、下のように表現され得る。
(2)いくつかの例によると、平均発話エネルギは、音声区間検出器(VAD)により決定されたユーザの発声に対応するマイクロフォン信号のエネルギを取得することにより決定されてもよい。いくつかのそのような例において、平均残留エコーエネルギは、VADが発話を示していない場合のマイクロフォン信号のエネルギによって推定されてもよい。xが、デバイスaのマイクロフォンの、あるサンプリングレートにおけるパルス符号変調(PCM)サンプルであり、Vが、音声区間に対応するサンプルに対して値1.0、その他の場合には値0.0をとるVADフラグである場合、発話エネルギおよび残留エコーエネルギは、次のように表現され得る。
(3)前述の方法に対してさらに、いくつかの実施態様において、マイクロフォン内のエネルギは、確率変数として扱われ、VAD決定に基づき別個にモデル化されてもよい。発話エネルギおよびエコーエネルギそれぞれの統計的モデルSpおよびEは、任意の数の統計的モデリング技術を用いて推定され得る。S(a)を近似するための発話およびエコーの両方についての平均値(dB)は、それぞれSpおよびEから導出され得る。このことを達成する一般的な方法は、統計的信号処理の分野に存在する。例えば、
・ エネルギのガウス分布を仮定し、バイアスされた2次統計値
および
を算出する。
・ 離散的ビンからなるエネルギ値のヒストグラムを作成して、マルチモードであり得る分布を得る。ここで、混合モデル(例えばガウス混合モデル)について期待値最大化(EM)パラメータ推定のステップを適用した後、混合モデルにおける下位分布(sub-distributions)のいずれかに属する最も大きい平均値
(決定(DECISION))
本明細書の別の箇所で説明するように、さまざまな開示された実施態様において、決定アスペクトは、いずれのデバイスが、レンダリング修正などのオーディオ処理修正を受信したかを決定し、さらにいくつかの実施形態においては、いずれのデバイスが、所望のSER改善のためにどの程度の修正が要求されているかについての表示を受信したかを決定する。いくつかのそのような実施形態は、例えば集合Dに含まれる全てのデバイスにおけるSの最大値を見つけることによって決定される、最良の初期SER値を有するデバイスにおけるSERを改善するように構成されてもよい。他の実施形態は、履歴的使用パターンに基づいて決定される、ユーザにより定期的に話しかけられるデバイスにおけるSERを日和見的(opportunistically)に改善するように構成されてもよい。他の実施形態は、複数のマイクロフォン位置におけるSERの改善を試みるように構成されてもよい。例えば、以下の説明のために複数のデバイスを選択する。
1つ以上のマイクロフォン位置が決定されると、いくつかのそのような実施態様において、所望のSER改善値(SERI)が次のように決定され得る。
上記式において、mは改善されるデバイス/マイクロフォン位置を示し、TargetSERは閾値であり、これは、使用中のアプリケーションにより設定され得る。例えば、ウェイクワード検出アルゴリズムは、大語彙音声認識器よりも低い動作SERを許容し得る。TargetSERの典型的な値は、-6dB~12dBのオーダーであり得る。前に言及したように、いくつかの実施形態において、S(m)が既知でないかまたは容易に推定されない場合、典型的な反響の室内またはセッティングにおいて記録された発話およびエコーのオフライン測定値に基づく任意のプリセット値で十分であり得る。いくつかの実施形態は、0~1の範囲のf_nを特定することにより、オーディオ処理(例えばレンダリング)を修正しようとするデバイスを決定してもよい。他の実施形態は、オーディオ処理(例えばレンダリング)を修正すべき程度を、発話対エコー比改善値(デシベル)s_nの単位で特定することを含んでもよい。ここで、s_nは、次式のように算出され得る。
いくつかの実施形態は、例えば次式のように、デバイスのジオメトリから直接f_nを算出してもよい。
上記式において、mは、オーディオ処理(例えばレンダリング)の最も大きい修正のために選択されるデバイスのインデックスである。他の実施態様は、デバイスジオメトリ上の関数を緩和または平滑化するという他の選択肢を含んでもよい。
実施形態B(ユーザゾーンの参照)
いくつかの実施形態において、本開示のコンテクストアスペクトおよび決定アスペクトは、1つ以上のユーザゾーンが存在する文脈において生成され得る。本明細書において後で詳細に説明するように、1組の音響的特徴
を用いて、事後確率
(Ckはある1組のゾーンラベルであり、
であり、環境内にK個の異なるユーザゾーンが存在する)を推定してもよい。各オーディオデバイスを各ユーザゾーンに関連付けることは、本明細書中で説明する訓練プロセスの一部としてユーザ自身により、あるいは、例えばアレクサスマートフォンアプリまたはSonosS2コントローラスマートフォンアプリなどのアプリケーションを介して、実現されてもよい。例えば、いくつかの実施態様は、j番目のデバイスをゾーンラベルCを有するユーザゾーンに関連付けることを、
と表現してもよい。いくつかの実施形態において、
および事後確率
の両方が、考慮されたコンテクスト情報であってもよい。いくつかの実施形態は、代わりに、音響的特徴W(j)自体を、コンテクストの一部と考えてもよい。他の実施形態において、これらの量(
、事後確率
、および音響的特徴W(j)自体)のうちの2つ以上、ならびに/もしくは、これらの量の組み合わせが、コンテクスト情報の一部であってもよい。
さまざまな実施形態の決定アスペクトは、デバイスの選択において1つ以上のユーザゾーンに関係付けられた量を用いてもよい。zおよびpの両方が利用可能である場合、次式のような決定例が為され得る。

そのような実施形態によると、ユーザが居る尤度が最も高いユーザゾーンとの関連度が最も高いデバイスは、適用されるオーディオ処理(例えばレンダリング)の変更が最も大きい。いくつかの例において、δは、[0.5,4.0]の範囲内の正の数であってもよい。いくつかのそのような例によると、δを用いてレンダリング変更の範囲を空間的に制御してもよい。そのような実施態様において、δが0.5であると選択される場合、より多くのデバイスがより大きいレンダリング変更を受信するのに対して、値が4.0である場合、レンダリング変更は、最尤ユーザゾーンの最も近くに存在するデバイスのみに限定される。
本発明者らはまた、音響的特徴W(j)が決定アスペクトにおいて直接的に使用されるような、別の種類の実施形態を考える。例えば、発声jに関連付けられたウェイクワード確信度スコアをw(j)とする場合、デバイスの選択は、次式に従って為され得る。

上記式において、δは前述の例と同様に解釈され、特定のウェイクワードシステムについて起こり得るウェイクワード確信度の典型的な分布を補償するという有用性をさらに有する。大部分のデバイスが高いウェイクワード確信度を報告する傾向がある場合、レンダリング変更アプリケーションの空間特異性(spatial specificity)を増大するように、δに例えば3.0等の比較的高い数値が選択され得る。ユーザがデバイスからさらに離れるとウェイクワード確信度が急に下降する傾向がある場合、レンダリング変更アプリケーション内により多くのデバイスを含むように、δに1.0または0.5等の比較的低い数値が選択され得る。いくつかの別の実施態様において、デバイスのマイクロフォンにおける発話レベルの推定値などの音響的特徴および/またはユーザの発声のDR比(direct to reverb ratio)について上に示したものと同様の式を、ウェイクワード確信度の代わりに使用し得ることが、本明細書から理解され得る。
図2Aは、本開示のさまざまな側面を実施できる装置またはシステムの構成要素の例を示すブロック図である。本明細書の他の図面と同様、図2Aに示す要素の種類および個数は例示に過ぎない。他の実施態様は、より多くの、より少ない、かつ/または異なる種類および個数の要素を含んでもよい。いくつかの例によると、装置200は、本明細書に開示する方法の少なくともいくつかを実行するように構成されたデバイスであってもよいし、そのようなデバイスを含んでもよい。いくつかの実施態様において、装置200は、スマートスピーカ、ラップトップコンピュータ、携帯電話、タブレットデバイス、スマートホームハブ、または本明細書に開示する方法の少なくともいくつかを実行するように構成された別のデバイスであってもよいし、その別のデバイスを含んでもよい。いくつかの実施態様において、装置200は、オーディオセッションマネジャを実装するように構成されてもよい。いくつかのそのような実施態様において、装置200は、サーバであってもよいし、サーバを含んでもよい。
この例において、装置200は、インターフェイスシステム205および制御システム210を含む。インターフェイスシステム205は、いくつかの実施態様において、ソフトウェアアプリケーションを実行している(または、実行するように構成された)1つ以上のデバイスと通信するように構成されてもよい。そのようなソフトウェアアプリケーションは、「アプリケーション」または単に「アプリ」と呼ぶこともある。インターフェイスシステム205は、いくつかの実施態様において、制御情報およびアプリケーションに関する関連データを交換するように構成されてもよい。インターフェイスシステム205は、いくつかの実施態様において、オーディオ環境の1つ以上の他のデバイスと通信するように構成されてもよい。オーディオ環境は、いくつかの例において、家庭オーディオ環境であってもよい。インターフェイスシステム205は、いくつかの実施態様において、オーディオ環境のオーディオデバイスとの間で、制御情報および関連データを交換するように構成されてもよい。制御情報および関連データは、いくつかの例において、1つ以上のアプリケーションであって、装置200がそのアプリケーションと通信するように構成された、1つ以上のアプリケーションに関係する。
インターフェイスシステム205は、いくつかの実施態様において、オーディオデータを受信するように構成されてもよい。オーディオデータは、オーディオ環境の少なくともいくつかのスピーカにより再生されることが予定されているオーディオ信号を含んでもよい。オーディオデータは、1つ以上のオーディオ信号および関連する空間データを含んでもよい。空間データは、例えば、チャンネルデータおよび/または空間メタデータを含んでもよい。インターフェイスシステム205は、オーディオ環境の1組のラウドスピーカのうちの少なくともいくつかのラウドスピーカに、レンダリングされたオーディオ信号を提供するように構成されてもよい。インターフェイスシステム205は、いくつかの実施態様において、環境内の1つ以上のマイクロフォンからの入力を受信するように構成されてもよい。
インターフェイスシステム205は、1つ以上のネットワークインターフェイスおよび/または(1つ以上のユニバーサルシリアルバス(USB)インターフェイスなどの)1つ以上の外部デバイスインターフェイスを含んでもよい。いくつかの実施態様によると、インターフェイスシステム205は、1つ以上の無線インターフェイスを含んでもよい。インターフェイスシステム205は、1つ以上のマイクロフォン、1つ以上のスピーカ、表示システム、タッチセンサシステム、および/またはジェスチャセンサシステムなどの、ユーザインターフェイスを実装する1つ以上のデバイスを含んでもよい。いくつかの例において、インターフェイスシステム205は、制御システム210とメモリシステム(図2Aに示す任意のメモリシステム215など)との間に、1つ以上のインターフェイスを含んでもよい。しかし、いくつかの例において、制御システム210はメモリシステムを含んでもよい。
制御システム210は、例えば、シングルチップまたはマルチチップの汎用プロセッサ、デジタルシグナルプロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)または他のプログラマブルロジックデバイス、ディスクリートゲートまたはトランジスタロジック、ならびに/もしくは、ディスクリートハードウェアコンポーネントを含んでもよい。
いくつかの実施態様において、制御システム210は、複数のデバイス内に設けられてもよい。例えば、制御システム210の一部が、本明細書で図示する環境の1つに存在するデバイスに設けられ、制御システム210の別の部分が、サーバやモバイルデバイス(例えばスマートフォンまたはタブレットコンピュータ)など、当該環境の外部に存在するデバイスに設けられてもよい。他の例において、制御システム210の一部が、本明細書で図示する環境の1つに存在するデバイスに設けられ、制御システム210の別の部分が、当該環境の1つ以上の他のデバイスに設けられてもよい。例えば、制御システムの機能は、この環境の複数のスマートオーディオデバイスに分配されてもよいし、オーケストレーションデバイス(本明細書中、「オーディオセッションマネジャ」または「スマートホームハブ」と呼ぶものなど)と、この環境の1つ以上の他のデバイスとによって共有されてもよい。インターフェイスシステム205はまた、いくつかのそのような例において、複数のデバイスに設けられてもよい。
いくつかの実施態様において、制御システム210は、本明細書に開示した方法を少なくとも部分的に実行するように構成されてもよい。いくつかの例によると、制御システム210は、オーディオセッション管理方法を実装するように構成されてもよい。このオーディオセッション管理方法は、いくつかの例において、オーディオ環境の2つ以上のオーディオデバイス用のラウドスピーカフィード信号へとレンダリングされているオーディオデータに適用する、1種類以上のオーディオ処理変更を決定することを含んでもよい。いくつかの実施態様によると、オーディオ処理変更は、オーディオ環境内の1つ以上のマイクロフォンにおける発話対エコー比を増大する効果を有してもよい。
本明細書に開示した方法のいくつかまたは全ては、1つ以上の非一時的な媒体に格納された命令(例えばソフトウェア)に応じて、1つ以上のデバイスにより実行されてもよい。そのような非一時的な媒体は、本明細書に記載されたようなメモリデバイス(ランダムアクセスメモリ(RAM)デバイス、リードオンリーメモリ(ROM)などを含むが、これらに限定されない)を含んでもよい。1つ以上の非一時的な媒体は、例えば、図2Aに示す任意のメモリシステム215および/または制御システム210内に設けられてもよい。したがって、本開示に記載された主題のさまざまな革新的側面が、ソフトウェアを格納している1つ以上の非一時的な媒体において実装され得る。ソフトウェアは、例えば、少なくとも1つのデバイスを制御して、オーディオセッション管理方法を実装する命令を含んでもよい。ソフトウェアは、いくつかの例において、オーディオ環境の1つ以上のオーディオデバイスを制御して、オーディオデータの獲得、処理および/または提供を行う命令を含んでもよい。ソフトウェアは、いくつかの例において、オーディオ環境の2つ以上のオーディオデバイス用のラウドスピーカフィード信号へとレンダリングされているオーディオデータに適用する、1種類以上のオーディオ処理変更を決定することを含んでもよい。いくつかの実施態様によると、オーディオ処理変更は、オーディオ環境内の1つ以上のマイクロフォンにおける発話対エコー比を増大する効果を有してもよい。ソフトウェアは、例えば、図2Aの制御システム210などの制御システムの1つ以上の構成要素により実行可能であってもよい。
いくつかの例において、装置200は、図2Aに示す任意のマイクロフォンシステム220を含んでもよい。任意のマイクロフォンシステム220は、1つ以上のマイクロフォンを含んでもよい。いくつかの実施態様において、前記マイクロフォンのうち1つ以上のマイクロフォンは、スピーカシステムのスピーカやスマートオーディオデバイス等の、別のデバイスの一部であってもよいし、別のデバイスに関連付けられてもよい。いくつかの例において、装置200は、マイクロフォンシステム220を含まなくてもよい。しかし、いくつかのそのような実施態様において、装置200は、それでもなお、オーディオ環境内の1つ以上のマイクロフォンのためのマイクロフォンデータを、インターフェイスシステム210を介して受信するように構成されてもよい。
いくつかの実施態様によると、装置200は、図2Aに示す任意のラウドスピーカシステム225を含んでもよい。任意のスピーカシステム225は、1つ以上のラウドスピーカを含んでもよい。本明細書中、ラウドスピーカを「スピーカ」と呼ぶこともある。いくつかの例において、任意のラウドスピーカシステム225の少なくともいくつかのラウドスピーカは、任意の位置に配置されてもよい。例えば、任意のラウドスピーカシステム225の少なくともいくつかのスピーカは、Dolby5.1、Dolby5.1.2、Dolby7.1、Dolby7.1.4、Dolby9.1、Hamasaki22.2などの、任意の標準的な規定のスピーカレイアウトに対応しない位置に配置されてもよい。いくつかのそのような例において、任意のラウドスピーカシステム225の少なくともいくつかのラウドスピーカは、空間にとって都合のいい位置(例えばラウドスピーカを収容する空間がある位置)に配置されてよく、任意の標準的な規定のスピーカレイアウトに配置しなくてもよい。いくつかの例において、装置200は、任意のラウドスピーカシステム225を含まなくてもよい。
いくつかの実施態様において、装置200は、図2Aに示す任意のセンサシステム230を含んでもよい。任意のセンサシステム230は、1つ以上のカメラ、タッチセンサ、ジェスチャセンサ、人感センサ(motion detectors)などを含んでもよい。いくつかの実施態様によると、任意のセンサシステム230は、1つ以上のカメラを含んでもよい。いくつかの実施態様において、カメラは、自立型カメラであってもよい。いくつかの例において、任意のセンサシステム230の1つ以上のカメラは、スマートオーディオデバイス内に設けられてもよい。ここで、スマートオーディオデバイスは、単用途オーディオデバイスまたはバーチャルアシスタントであってもよい。いくつかのそのような例において、任意のセンサシステム230の1つ以上のカメラは、テレビ、携帯電話、またはスマートスピーカ内に設けられてもよい。いくつかの例において、装置200は、センサシステム230を含まなくてもよい。しかし、いくつかのそのような実施態様において、装置200は、それでもなお、オーディオ環境内の1つ以上のセンサのためのセンサデータを、インターフェイスシステム210を介して受信するように構成されてもよい。
いくつかの実施態様において、装置200は、図2Aに示す任意の表示システム235を含んでもよい。任意の表示システム235は、1つ以上の発光ダイオード(LED)ディスプレイなど、1つ以上の表示装置を含んでもよい。いくつかの例において、任意の表示システム235は、1つ以上の有機発光ダイオード(OLED)ディスプレイを含んでもよい。装置200が表示システム235を含むいくつかの例において、センサシステム230は、表示システム235の1つ以上の表示装置に最も近いタッチセンサシステムおよび/またはジェスチャセンサシステムを含んでもよい。いくつかのそのような実施態様によると、制御システム210は、表示システム235を制御して、1つ以上のグラフィカルユーザインターフェイス(GUI)を提示するように構成されてもよい。
いくつかの例によると、装置200は、スマートオーディオデバイスであってもよいし、スマートオーディオデバイスを含んでもよい。いくつかのそのような実施態様において、装置200は、ウェイクワード検出器であってもよいし、ウェイクワード検出器を(少なくとも部分的に)実装してもよい。例えば、装置200は、バーチャルアシスタントであってもよいし、バーチャルアシスタントを(少なくとも部分的に)実装してもよい。
図2Bは、いくつかの実施態様によるオーディオセッション管理方法のブロックを含む流れ図である。方法250のブロックは、本明細書に記載の他の方法と同様、必ずしも図示した順番で実行される必要はない。いくつかの実施態様において、方法250のブロックのうち、1つ以上のブロックを同時に実行してもよい。さらに、方法250のいくつかの実施態様は、図示したブロックおよび/または説明したブロックよりも多くの個数のブロックまたは少ない個数のブロックを含んでもよい。方法250のブロックは、図2Aを参照して上で説明した制御システム210などの制御システムまたは開示した他の制御システム例のうちの1つであり得る(または、その制御システムを含み得る)1つ以上のデバイスにより実行されてもよい。いくつかの実施態様によると、方法250のブロックは、少なくとも部分的に、本明細書においてオーディオセッションマネジャと呼ぶものを実装しているデバイスにより実行されてもよい。
この例によると、ブロック255は、オーディオ環境内の複数のマイクロフォンの各々から出力信号を受信することを含む。この例において、複数のマイクロフォンの各々はオーディオ環境のマイクロフォン位置に設けられており、出力信号は人の現在の発声に対応する信号を含む。いくつかの例において、現在の発声は、ウェイクワードの発声であってもよい。しかし、出力信号は、人が話していない時間に対応する信号を含み得る。そのような信号は、例えば、エコーや雑音などのベースラインレベルを設定するために使用され得る。
この例において、ブロック260は、出力信号に基づき、人に関するコンテクスト情報の1つ以上のアスペクトを決定することを含む。この実施態様において、コンテクスト情報は、この人の推定される現在位置、および/または、1つ以上のマイクロフォン位置に対するこの人の推定される現在の近接度を含む。上述のとおり、本明細書で使用する「マイクロフォン位置」という表現は、1つ以上のマイクロフォンの位置を示す。いくつかの例において、1つのマイクロフォン位置は、1つのオーディオデバイス内の複数のマイクロフォンからなる1つのマイクロフォンアレイに対応していてもよい。例えば、マイクロフォン位置は、1つ以上のマイクロフォンを含むオーディオデバイス全体に対応する1つの位置であってもよい。いくつかのそのような例において、マイクロフォン位置は、1つのオーディオデバイスのマイクロフォンアレイの重心に対応する1つの位置であってもよい。しかし、いくつかの例において、マイクロフォン位置は、1つのマイクロフォンの位置であってもよい。いくつかのそのような例において、オーディオデバイスは、1つのマイクロフォンだけを有していてもよい。
いくつかの例において、コンテクスト情報を決定することは、人が現在位置しているユーザゾーンの推定値を生成することを含んでもよい。いくつかのそのような例は、各マイクロフォンの出力信号から複数の現在の音響的特徴を決定することと、これら複数の現在の音響的特徴に分類器を適用することとを含んでもよい。分類器を適用することは、例えば、環境内の複数のユーザゾーン内でその人によってなされた複数の過去の発声から得られた過去に決定された音響的特徴に対して訓練されたモデルを適用することを含んでもよい。いくつかのそのような例において、その人に関するコンテクスト情報の1つ以上のアスペクトを決定することは、分類器からの出力に少なくとも部分的に基づき、その人が現在位置しているユーザゾーンの推定値を決定することを含んでもよい。いくつかのそのような例において、ユーザゾーンの推定値は、複数のマイクロフォンの幾何学的位置を参照することなく決定されてもよい。いくつかの例によると、現在の発声および過去の発声は、ウェイクワードの発声であってもよいし、ウェイクワードの発声を含んでもよい。
この実施態様によると、ブロック265は、コンテクスト情報の1つ以上のアスペクトに少なくとも部分的に基づいて、オーディオ環境の2つ以上のオーディオデバイスを選択することを含み、2つ以上のオーディオデバイスの各々は、少なくとも1つのラウドスピーカを含んでいる。いくつかの例において、オーディオ環境の2つ以上のオーディオデバイスを選択することは、オーディオ環境のN個のラウドスピーカ内蔵オーディオデバイス(Nは2より大きい整数)を選択することを含んでもよい。いくつかの例において、オーディオ環境の2つ以上のオーディオデバイスを選択すること、または、オーディオ環境のN個のラウドスピーカ内蔵オーディオデバイスを選択することは、オーディオ環境の全てのラウドスピーカ内蔵オーディオデバイスを選択することを含んでもよい。
いくつかの例において、オーディオ環境の2つ以上のオーディオデバイスを選択することは、マイクロフォン位置および/またはラウドスピーカ内蔵オーディオデバイス位置に対する人の推定される現在位置に少なくとも部分的に基づいてもよい。いくつかのそのような例は、この人の推定される現在位置に最も近い最近位ラウドスピーカ内蔵オーディオデバイスを決定すること、または、この人の推定される現在位置に最も近いマイクロフォン位置に最も近い最近位ラウドスピーカ内蔵オーディオデバイスを決定することを含んでもよい。いくつかのそのような例において、2つ以上のオーディオデバイスは、最近位ラウドスピーカ内蔵オーディオデバイスを含んでもよい。
いくつかの実施態様によると、2つ以上のオーディオデバイスを選択することは、信号対エコー比推定値が信号対エコー比閾値以下であるか否かを決定することに少なくとも部分的に基づいてもよい。
この例によると、ブロック270は、2つ以上のオーディオデバイス用のラウドスピーカフィード信号へとレンダリングされているオーディオデータに適用する、1種類以上のオーディオ処理変更を決定することを含む。この実施態様において、オーディオ処理変更は、1つ以上のマイクロフォンにおける発話対エコー比を増大する効果を有する。いくつかの例において、1つ以上のマイクロフォンは、オーディオ環境の複数のオーディオデバイス内に設けられてもよい。しかし、いくつかの実施態様によると、1つ以上のマイクロフォンは、オーディオ環境の1つのオーディオデバイス内に設けられてもよい。いくつかの例において、オーディオ処理変更は、2つ以上のオーディオデバイスのラウドスピーカのラウドスピーカ再生レベルの低下を生じてもよい。
いくつかの例によると、第1のオーディオデバイスに対するオーディオ処理変更の少なくとも1つは、第2のオーディオデバイスに対するオーディオ処理変更とは異ってもよい。例えば、オーディオ処理変更(単数または複数)は、第1のオーディオデバイスの第1のラウドスピーカのラウドスピーカ再生レベルに第1の低下を生じ、かつ、第2のオーディオデバイスの第2のラウドスピーカのラウドスピーカ再生レベルに第2の低下を生じてもよい。いくつかのそのような例において、ラウドスピーカ再生レベルの低下は、人の推定される現在位置に対する(または人の推定される現在位置に最も近いマイクロフォン位置に対する)近接度がより高いオーディオデバイスに対して、相対的により大きくなってもよい。
しかし、本発明者らは、いくつかの例において為し得る多くの種類のオーディオ処理変更を考える。いくつかの実施態様によると、1種類以上のオーディオ処理変更は、レンダリングプロセスを変更して、人の推定される現在位置から離れる方向(または人の推定される現在位置に最も近いマイクロフォン位置から離れる方向に)に、オーディオ信号のレンダリングをワーピングすることを含んでもよい。
いくつかの実施態様において、1種類以上のオーディオ処理変更は、スペクトル修正を含んでもよい。例えば、スペクトル修正は、500Hzと3KHzとの間の周波数帯域においてオーディオデータのレベルを低下させることを含んでもよい。他の例において、スペクトル修正は、より高い最大周波数および/またはより低い最小周波数を有する周波数帯域においてオーディオデータのレベルを低下させることを含んでもよい。いくつかの実施態様によると、1種類以上のオーディオ処理変更は、オーディオ再生信号の少なくとも1つの選択された周波数帯域に、少なくとも1つのギャップを挿入することを含んでもよい。
いくつかの実施態様において、1種類以上のオーディオ処理変更を決定することは、信号対エコー比推定値に少なくとも部分的に基づくコスト関数の最適化に基づいてもよい。いくつかの例において、コスト関数は、レンダリングパフォーマンスに少なくとも部分的に基づいてもよい。
この例によると、ブロック275は、1種類以上のオーディオ処理変更を適用させることを含んでもよい。いくつかの例において、ブロック275は、オーディオ環境内でオーディオ処理を制御している1つ以上のデバイスにより、1種類以上のオーディオ処理変更を適用することを含んでもよい。別の例において、ブロック275は、(例えば、オーディオセッションマネジャからのコマンドまたは制御信号を介して)オーディオ環境の1つ以上の他のデバイスにより、1種類以上のオーディオ処理変更を適用させることを含んでもよい。
方法250のいくつかの実施態様は、コンテクスト情報の1つ以上のアスペクトに応じて少なくとも1つのマイクロフォンを選択することを含んでもよい。いくつかのそのような実施態様において、方法250は、1つ以上のマイクロフォン位置に対する人の推定される現在の近接度に応じて、少なくとも1つのマイクロフォンを選択することを含んでもよい。方法250のいくつかの実施態様は、ユーザゾーンの推定値に応じて少なくとも1つのマイクロフォンを選択することを含んでもよい。いくつかのそのような実施態様によると、方法250は、選択されたマイクロフォン(単数または複数)から受信したマイクロフォン信号に応じて、バーチャルアシスタント機能を少なくとも部分的に実装することを含んでもよい。いくつかのそのような実施態様において、方法250は、選択されたマイクロフォン(単数または複数)から受信したマイクロフォン信号に少なくとも部分的に基づくテレビ会議機能を提供することを含んでもよい。
いくつかの実施形態は、レンダリングおよびマッピングを実装するように構成され、かつ、オーディオ処理を変更する(例えば、最も近くのラウドスピーカのうちの1つ、2つ、またはそれ以上のスピーカの音量を下げる)ために、ソフトウェアまたは他のロジック報告(manifestations of logic)を用いるように(例えば、ロジックを実装するシステム要素を含むように)構成された、(2つ以上のデバイス、例えば、スマートオーディオデバイスを含む)システムを提供する。ロジックは、オーディオセッションマネジャを実装するように構成されたデバイスなどの、管理者(supervisor)を実装してもよい。管理者は、いくつかの例において、レンダリングのために構成されたシステム要素とは別個に実行され得る。
図3Aは、別個のレンダリング制御および複数のデバイスに亘るリスニングまたはキャプチャロジックを実装するように構成されたシステムのブロック図である。他の開示された図面と同様、図3A、図3Bおよび図3Cに示す要素の個数、種類および配置は例示に過ぎない。他の実施態様は、より多くの要素、より少ない要素、および/または異なる種類の要素を含んでもよい。例えば、他の実施態様は、4つ以上のオーディオデバイス、異なる種類のオーディオデバイスなどを含んでもよい。
図3A、図3Bおよび図3Cに示すモジュールは、本開示において図示および説明する他のモジュールと同様、特定の例に応じて、ハードウェア、ソフトウェア、ファームウェア等を介して実装されてもよい。いくつかの実施態様において、開示されたモジュール(いくつかの例において、「要素」と呼ぶこともある)のうちの1つ以上のモジュールは、図2Aを参照して説明した制御システム210などの制御システムを介して実装されてもよい。いくつかのそのような例において、開示されたモジュールのうちの1つ以上のモジュールは、1つ以上のそのような制御システムにより実行されるソフトウェアに従って実装されてもよい。
図3Aの要素は、以下のものを含む。
オーディオデバイス302、303および304(いくつかの例において、スマートオーディオデバイスであってもよい)。この例によると、オーディオデバイス302、303および304の各々は、少なくとも1つのラウドスピーカおよび少なくとも1つのマイクロフォンを含む。
― 要素300は、オーディオデバイス302、303および304のうちの1つ以上のオーディオデバイスに亘って再生される、オーディオデータを含む、ある形態のコンテンツを示す。コンテンツ300は、線形のコンテンツであっても対話型のコンテンツであってもよく、これは特定の実施態様に応じて決まる。
― モジュール301は、レンダリングロジックに応じてレンダリングを行うことを含む(但し、このことに限定されない)、オーディオ処理のために構成されている。例えば、いくつかの実施形態において、モジュール301は、単に、3つのオーディオデバイス302、303および304の全てに対して均等に、コンテンツ300のオーディオ(例えば、モノラルまたはステレオ)を複製するように構成されてもよい。いくつかの別の実施態様において、オーディオデバイス302、303および304のうちの1つ以上のオーディオデバイスは、レンダリング機能を含む(但し、このことに限定されない)、オーディオ処理機能を実装するように構成されてもよい。
― 要素305は、オーディオデバイス302、303および304に分配される信号を示す。いくつかの例において、信号305は、スピーカフィード信号であってもよいし、スピーカフィード信号を含んでもよい。上述のとおり、いくつかの実施態様において、モジュール301の機能は、オーディオデバイス302、303および304のうちの1つ以上のオーディオデバイスを介して実装されてもよく、この場合、信号305は、オーディオデバイス302、303および304のうちの1つ以上のオーディオデバイスに限定されてもよい。しかし、図3Aでは、それらを1組のスピーカフィード信号として示す。なぜなら、いくつかの実施形態(例えば、後で図4を参照して説明する実施形態)は、信号305の単純な最終的な遮断(final interception)または後処理を実装するからである。
― 要素306は、オーディオデバイス302、303および304のマイクロフォンによりキャプチャされた生のマイクロフォン信号を示す。
― モジュール307は、マイクロフォン信号処理ロジックと、いくつかの例において、マイクロフォン信号キャプチャロジックとを実装するように構成されている。この例において、オーディオデバイス302、303および304の各々が1つ以上のマイクロフォンを有するので、キャプチャされた生信号306は、モジュール307により処理される。いくつかの実施態様において、ここでのとおり、モジュール307は、エコー除去および/またはエコー検出機能を実装するように構成されてもよい。
― 要素308は、モジュール301~モジュール307により供給される、ローカルなエコー参照信号および/またはグローバルなエコー参照信号を示す。この例によると、モジュール307は、ローカルなエコー参照信号および/またはグローバルなエコー参照信号308に応じて、エコー除去および/またはエコー検出機能を実装するように構成される。いくつかの実施態様において、マイクロフォンキャプチャ処理および/または生マイクロフォン信号の処理は、オーディオデバイス302、303および304の各々におけるローカルなエコー除去および/または検出ロジックとともに、分配されてもよい。キャプチャおよびキャプチャ処理の特定の実施態様が、レンダリングに施す任意の変更がSER全体ならびにキャプチャ処理およびロジックの効力に与えるインパクトを算出しかつ理解するという発想にとって、重要なわけではない。
― モジュール309は、(例えば、所望のオーディオ音声を、特定の単一の位置または幅広い位置から発せられたものとして知覚させることを目的として、)キャプチャされたオーディオ音声の混合または組み合わせの全体を実装するシステム要素である。いくつかの実施態様において、モジュール307はまた、要素309の混合機能を提供してもよい。
― モジュール310は、発声されたものについて、もしくは、オーディオ環境内で注目しているアクティビティが為されたか否かについて、何らかの決定を行うために、検出されたオーディオ音声の処理を行う最終アスペクトを実装するシステム要素である。モジュール310は、例えば、オーディオ環境内で人々が行っている行為に関するコンテクスト、オーディオ環境内の全体の雑音レベルの程度などについて、自動音声認識(ASR)機能や、背景雑音レベルおよび/または背景雑音の種類を検知する機能を提供してもよい。いくつかの実施態様において、モジュール310の機能のうち、いくつかの機能または全ての機能は、オーディオデバイス302、303および304が設けられたオーディオ環境の外側で(例えば、クラウド型サービスプロバイダの1つ以上のデバイス(例えば1つ以上のサーバ)において)実装されてもよい。
図3Bは、別の開示された実施態様によるシステムのブロック図である。この例において、図3Bに示すシステムは、図3Aのシステムの要素を含み、いくつかの開示された実施形態に応じた機能を含むように、図3Aのシステムを拡張する。図3Bのシステムは、動作中の分散型オーディオシステムに適用される、コンテクスト(CONTEXT)、決定(DECISION)およびレンダリングアクション(RENDERING ACTION)のアスペクトを実装する要素を含む。いくつかの例によると、コンテクスト(CONTEXT)、決定(DECISION)およびレンダリングアクション(RENDERING ACTION)のアスペクトを実装する要素へのフィードバックは、アクティビティ(例えば、検出された発話)が存在する場合の確信度の上昇、もしくは、アクティビティの感覚(the sense of activity)を自信をもって減少し(アクティビティの低尤度)、オーディオ処理を初期状態に戻す能力の、いずれかを生じさせてもよい。
図3Bの要素は、以下のものを含む。
― モジュール351は、コンテクスト(CONTEXT)のステップを示す(そして実装する)システム要素であって、例えば、オーディオ音声をより良く検出すること(例えば1つ以上のマイクロフォンにおいて発話対エコー比を増大すること)が望まれ得る位置の表示と、我々が聞きたいという尤度または感覚(例えば、ウェイクワードまたはコマンドなどの発話が1つ以上のマイクロフォンによりキャプチャされることの尤度)とを獲得する。この例において、モジュール351および353は、制御システム(この例では、図2Aの制御システム210)を介して実装される。いくつかの実施態様において、ブロック301および307もまた、制御システム(いくつかの例において、制御システム210であり得る)により実装されてもよい。いくつかの実施態様によると、ブロック356、357および358もまた、制御システム(いくつかの例において、制御システム210であり得る)により実装されてもよい。
― 要素352は、モジュール351へのフィードバック経路を示す。この例において、フィードバック352は、モジュール310により提供される。いくつかの実施形態において、フィードバック352は、コンテクストを決定することに関連し得るマイクロフォン信号のキャプチャから得られる、オーディオ処理(ASRのためのオーディオ処理など)の結果に対応してもよい。例えば、ウェイクワードの弱検出または早期検出もしくは発話アクティビティの低検出の感覚を用いて、リスニングの改善(例えば、1つ以上のマイクロフォンにおける発話対エコー比の上昇)を必要とするコンテクストの確信度または感覚を上昇し始めてもよい。
― モジュール353はシステム要素であって、このシステム要素において(またはこのシステム要素によって)、いずれのオーディオデバイスのオーディオ処理を変更するか、および、オーディオ処理を変更する量に関して決定が為される。モジュール353は、特定の実施態様に応じて、オーディオデバイスの種類および/または能力(例えば、ラウドスピーカ能力、エコー抑制能力等)やオーディオデバイスの尤もらしい向き等の、特定のオーディオデバイス情報を用いても、用いなくてもよい。いくつかの例において後で説明するように、モジュール353の決定実行プロセスは、スマートスピーカまたは他のラウドスピーカと比較して、ヘッドホンデバイスについて、大きく異なってもよい。
― 要素354は、制御経路355(信号経路355と呼ぶこともある)を介して個々のレンダリングブロックへと出力される、モジュール353の出力である。この例において、モジュール353の出力は、図3Bにおいてf_n値として示される、1組の制御関数である。この1組の制御関数は、この信号経路355が当該オーディオ環境に限定されるように、(例えば、無線伝送を介して)伝達されてもよい。この例において、制御関数は、モジュール356、357および358に提供される。
― モジュール356、357および358は、オーディオ処理(出力されたレンダリング(いくつかの実施形態のレンダリング(RENDER)アスペクト)を含み得るが、これに限定されない)を変更するように構成されたシステム要素である。この例において、モジュール356、357および358は、出力354の制御関数(この例ではf_n値)により起動が制御される。いくつかの実施態様において、モジュール356、357および358の機能は、ブロック301を介して実装されてもよい。
図3Bの実施形態および他の実施態様において、好循環のフィードバックが起こり得る。(いくつかの例において、自動音声認識(ASR)を実装し得る)要素310の出力352が、いくつかの例に応じて発話を検出した場合、それが弱検出であっても(例えば、低確信度であっても)、コンテクスト(CONTEXT)要素351は、オーディオ環境内のどのマイクロフォン(単数または複数)が音声をキャプチャしたか(例えば、どのマイクロフォン(単数または複数)がエコー以外のエネルギを最も多く有したか)に基づき、位置を推定してもよい。いくつかのそのような例によると、決定(DECISION)ブロック353は、オーディオ環境の1つ、2つ、または3つ以上のラウドスピーカを選択してもよく、かつ、レンダリングの変更に関する小さい値(例えば、f_n=0.25)をアクティベート(activate)してもよい。全体で20dBの音量低減(ダッキング)をした場合、この値は、選択されたデバイス(単数または複数)において、平均的な人間の聴力で感知し得る約5dBの音量減少を生じる。時定数および/またはイベント検出と組み合わせた場合に、そしてオーディオ環境の他のラウドスピーカが同様のコンテンツを再生している場合、レベルの低減はより感知されにくくなり得る。ある例において、音量を下げるのは、オーディオデバイス303(話している人311の最も近くのオーディオデバイス)であり得る。他の例において、オーディオデバイス302および303両方の音量を、いくつかの例においては(例えば人311に対する推定近接度に応じて)異なる量だけ、下げてもよい。他の例において、オーディオデバイス302、303および304全ての音量を、いくつかの例においては異なる量だけ、下げてもよい。オーディオデバイス302、303および304のうちの1つ以上のオーディオデバイスによる再生のレベルを下げた結果、発話対エコー比は、人311の近くの1つ以上のマイクロフォン(例えば、オーディオデバイス303の1つ以上のマイクロフォン)において増大され得る。従って、人311が話し続けた(例えば、ウェイクワードを繰り返し続けた、または、コマンドを発し続けた)場合、システムは人311の声をより良く「聞く」ことができる。いくつかのそのような実施態様において、次の期間のあいだ(例えば次の数秒間)に、いくつかの例においては連続的な様態で、システム(例えば、少なくとも部分的にブロック351および353を介して実装されるオーディオセッションマネジャ)が、例えばf_2=1を選択することにより、人311の近くの1つ以上のラウドスピーカの音量をオフにすることへと素早く切り替わってもよい。
図3Cは、ある例によるエネルギバランシングネットワークを実装するように構成された実施形態のブロック図である。図3Cは、図3Bのシステムの要素を含み、かつ、エネルギの補償を実装する要素(例えば、要素371)を含むように(例えば、「他のデバイスの音量を少し上げる」ように)図3Bのシステムを拡張した、システムのブロック図である。
いくつかの例において、図3Cのシステム(または図3Cのようなシステム)のオーディオセッション管理(オーディオセッションマネジャ)のために構成されたデバイスは、1つ以上のマイクロフォンにおいて発話対エコー比を増大するために適用される、オーディオ処理(例えば、1つ以上の選択されたラウドスピーカ(例えば、f_n>0である制御信号を受信するオーディオデバイスのラウドスピーカ)のレベルの低減)の結果失われた、聴者(311)におけるバンデッドエネルギ(banded energy)を評価してもよい。その後、オーディオセッションマネジャは、SER型のオーディオ処理変更を補償するために、レベルの上昇および/または他の形態のエネルギバランシングを、オーディオ環境の他のスピーカに適用してもよい。
少し関係があるコンテンツをレンダリングしており、かつ、相関しているかまたは類似のスペクトルを有するオーディオ成分が、オーディオ環境の複数のラウドスピーカにより再生されている場合(単純な例はモノラル再生)によくあることだが、エネルギバランシングをそれほど行う必要がないかもしれない。例えば、オーディオ環境内に、1~2の割合の範囲の距離(1が最も近い)を空けて3つのラウドスピーカが存在する場合、それらのラウドスピーカにより同一のコンテンツが再生されている場合は、最も近くのラウドスピーカの音量を6dB下げても、2~3dBのインパクトにしかならない。最も近くのラウドスピーカをオフにしても、聴者の位置における音声にとって、全体で3~4dBのインパクトにしかならない。
(例えば、ギャップの挿入または空間的ステアリングの)より複雑な状況において、いくつかの例では、エネルギの保存(energy preservation)および知覚の連続性(perceptual continuity)の形態は、より多元的なエネルギバランスであり得る。
図3Cにおいて、コンテクスト(CONTEXT)を実装する要素(単数または複数)は、いくつかの例において、ウェイクワード弱検出のオーディオレベル(近接度の相互性(reciprocity of proximity))であってもよい。換言すると、コンテクスト(CONTEXT)を決定することの一例は、検出されたエコーを介して検出された何らかのウェイクワード発声のレベルに基づいてもよい。このような方法は、発話対エコー比を決定するステップを実際に含んでもよいし、含まなくてもよく、このことは特定の実施態様に応じて決まる。しかし、いくつかの例において、複数のマイクロフォン位置の各々において検出されたウェイクワードの発声のレベルを検出および評価するだけで、コンテクスト(CONTEXT)の十分なレベルが提供され得る。
(例えば、図3Cのシステムにおいて)コンテクスト(CONTEXT)を実装するシステム要素により実装される方法のいくつかの例は、以下の事項を含むが、それらに限定されない。
― ウェイクワードの一部を検出すると、マイクロフォン内蔵オーディオデバイスへの近接度が、ウェイクワード確信度から推断され得る。ウェイクワード発声のタイミングもまた、ウェイクワード確信度から推断され得る。
― 生のマイクロフォン信号に適用されたエコー除去およびエコー抑制に加えて、いくつかのオーディオアクティビティが検出される。いくつかの実施態様は、1組のエネルギレベルおよび分類を用いて、そのオーディオアクティビティがボイスアクティビティであることがどれくらい尤もらしいかを決定する(ボイスアクティビティ検出)。このプロセスは、ボイスアクティビティの確信度または尤度を決定してもよい。声の位置は、インタラクションの類似の状況にとって最良のマイクロフォンの可能性に基づき得る。例えば、オーディオセッションマネジャを実装しているデバイスは、ユーザがよく居る位置の近くには存在しない壁設置デバイスよりも、ユーザがよく居る位置かまたはその位置の近くにあるテーブル上のデバイスなど、1つのマイクロフォン内蔵オーディオデバイスがユーザの最も近くに存在することを、予め知っているかもしれない。
(例えば、図3Cのシステムにおいて)決定(DECISION)を実装するシステム要素の実施形態例は、ボイスアクティビティに関する確信度値を決定すること、および、いずれのデバイスが最も近くのマイクロフォン内蔵オーディオデバイスであるかを決定することを行うように構成された要素である。
図3Cのシステム(および他の実施形態)において、任意の位置におけるSERを増大するために適用するオーディオ処理変更(単数または複数)の量は、距離およびボイスアクティビティに関する確信度の関数であってもよい。
(例えば、図3Cのシステムにおいて)レンダリング(RENDERING)を実装する方法のいくつかの例は、以下の事項を含む。
dBのみを下げる、および/または、
スピーチバンドイコライゼーション(EQ)(例えば、後で図4を参照して説明する)および/または、
レンダリングの変更の時変調(Time modulation)(図5を参照して説明する)、および/または、
一時的なタイムスライシングまたはタイムアジャストメントを用いて、注目しているオーディオ音声の細断片(glimpses)を得るのに十分なスパース時間周波数のより低い出力の「ギャップ」または期間を生成(例えば、オーディオコンテンツに挿入)すること。後で、図9を参照していくつかの例を説明する。
図4は、オーディオ環境の1つ以上のマイクロフォンにおける発話対エコー比を増大し得るオーディオ処理の例を示すグラフである。図4のグラフは、スペクトル修正の例を提供する。図4において、スペクトル修正は、発話に対応していることがわかっている周波数(これらの例において、およそ200Hz~10KHzの範囲内の周波数(例えば、この範囲の高い側および/または低い側の周波数の5%または10%以内))のレベルを低減することを含んでいる。他の例は、異なる周波数帯域(例えば、およそ500Hzと3KHzとの間(例えば、この範囲の高い側および/または低い側の周波数の5%または10%以内))内の周波数のレベルを低減することを含んでもよい。いくつかの実施態様において、この範囲の外側の周波数は、スペクトル修正により生じるラウドネスの低下を少なくとも部分的に補償するために、より高いレベルで再生されてもよい。
図4の要素は、以下のものを含む。
601:フラットEQを示す曲線。
602:示された周波数範囲の部分的減衰を示す曲線。このような部分的減衰は、比較的感知されにくいが、それにもかかわらず、音声検出に有用なインパクトを与え得る。
603:示された周波数範囲の顕著に大きい減衰を示す曲線。曲線603が示すようなスペクトル修正は、発話の聞き取りに大きいインパクトを与え得る。いくつかの例において、曲線603が示すような積極的なスペクトル修正は、全ての周波数のレベルを大幅に低減する選択肢を提供し得る。
いくつかの例において、オーディオセッションマネジャは、曲線601、602および603が示すシーケンスなどの、時変(time-varying)スペクトル修正に一致するオーディオ処理変更を生じ得る。
いくつかの例によると、1つ以上のスペクトル修正が、オフィス、寝室、眠っている乳児などの位置から離れる方向に、再生されたオーディオ音声を「ワーピングする」ことを生じるレンダリング変更の文脈など、他のオーディオ処理変更の文脈において使用されてもよい。そのようなワーピングに関連付けて使用されるスペクトル修正(単数または複数)は、例えば、バス周波数範囲(例えば、20~250Hz)内のレベルを低減してもよい。
図5は、オーディオ環境の1つ以上のマイクロフォンにおける発話対エコー比を増大し得る別の種類のオーディオ処理を示すグラフである。この例において、縦軸は0~1の範囲の「f」値を示し、横軸は時間(秒)を示す。図5は、レンダリング効果の起動の時間に対する、(曲線701で示す)軌線の図である。いくつかの例において、モジュール356、357または358のうちの1つ以上は、図5に示す種類のオーディオ処理を実装してもよい。この例によると、(曲線701が示す)時定数の非対称性は、システムが、短時間(例えば100ms~1秒)で制御された値(f_n)に調整するが、かなり時間をかけて(例えば10秒以上)値f_n(値703)からゼロへと緩和することを示す。いくつかの例において、2秒とN秒との間の間隔は、複数秒(例えば4~10秒の範囲内)であってもよい。
また、図5には、この例では最大値がf_nに等しい階段状の第2の起動曲線702を示す。この実施態様によると、上昇する段差は、コンテンツ自体のレベルの急激な変化(例えば、有声開始(voice onset)または音節レート(syllable rate))に一致する。
上述のとおり、いくつかの実施態様において、一時的なタイムスライシングまたは周波数調節により、注目しているオーディオ音声の細断片(glimpses)を得るのに十分なスパース時間周波数出力の「ギャップ」または期間を、(例えばオーディオコンテンツにギャップを挿入することにより)生成し得る(例えば、オーディオコンテンツおよびその認識の、「ギャップがある状態(gappiness)」の範囲を拡大または減少する)。
図6は、オーディオ環境の1つ以上のマイクロフォンにおける発話対エコー比を増大し得る別の種類のオーディオ処理を示す。図6は、1つの例に従って強制ギャップ(forced gaps)が挿入された、修正されたオーディオ再生信号のスペクトログラムの一例である。より具体的には、図6のスペクトログラムを生成するために、再生信号の周波数帯域に強制ギャップG1、G2およびG3を挿入して、修正されたオーディオ再生信号を生成した。図6に示すスペクトログラムにおいて、横軸に沿った位置は時間を示し、縦軸に沿った位置は、任意の時点における修正されたオーディオ再生信号のコンテンツの周波数を示す。
各小領域(各小領域は、縦および横の座標を有する点を中心とする)におけるドットの密度は、対応する周波数および時点における、修正されたオーディオ再生信号のコンテンツのエネルギを示す(より密度の高い領域は、より大きいエネルギを有するコンテンツを示し、より密度の低い領域は、より小さいエネルギを有するコンテンツを示す)。したがって、ギャップG1は、ギャップG2またはG3が存在する時間(または期間)よりも早い時間(つまり期間内)に存在し、かつ、ギャップG1は、ギャップG2またはG3が挿入された周波数帯域よりも高い周波数帯域に挿入されている。
再生信号に強制ギャップを導入することは、(例えば、ユーザおよびユーザの環境をより良く聞くために)デバイスがコンテンツのプレイバックストリームを一時停止する単信方式のデバイス動作とは区別される。いくつかの開示された実施形態に応じて再生信号に強制ギャップを導入することは、再生中に導入されたギャップの結果として生じるアーティファクトが知覚される可能性を大幅に低減(または除去)するように、好適には、強制ギャップがユーザに与えるインパクトがゼロまたは最小となるが、再生環境におけるマイクロフォンの出力信号が強制ギャップを示す(例えば、ギャップを利用してパーベイシブなリスニング方法を実装し得る)ように、最適化され得る。いくつかの開示された実施形態に応じて導入された強制ギャップを用いることにより、パーベイシブなリスニングシステムは、音響エコーキャンセラを用いなくても、非再生音声(例えば、再生環境におけるバックグラウンドアクティビティおよび/またはバックグラウンドノイズを示す音声)をモニターし得る。
いくつかの例によると、単一のチャネルからの時間スペクトル出力に複数のギャップを挿入してもよい。これらギャップは、「ギャップを通して聞く」という、疎らな感覚の進歩したリスニング能力を生じ得る。
図7は、オーディオ環境の1つ以上のマイクロフォンにおける発話対エコー比を増大し得る別の種類のオーディオ処理を示すグラフである。この実施形態において、オーディオ処理変更は、ダイナミックレンジ圧縮を含む。
この例は、ダイナミックレンジを限定する2つの極値の間の遷移を含む。曲線801が示すあるケースでは、オーディオセッションマネジャは、ダイナミックレンジ制御を適用させない。一方、曲線802が示す他のケースでは、オーディオセッションマネジャは、比較的積極的なリミッターを適用させる。曲線802に対応するリミッターは、オーディオ出力のピークを、10dB以上低減し得る。いくつかの例によると、圧縮比は、たった3:1である。いくつかの実施態様において、曲線802(または別のダイナミックレンジ圧縮曲線)は、デバイスのピーク出力から-20dB(または約-20dB)の位置(例えば、+/-1dB以内、+/-2dB以内、+/-3dB以内など)に屈曲部(knee)を含み得る。
次に、レンダリング(RENDERING)(例えば、図3Bまたは図3Cのシステムにおける、1つ以上のマイクロフォンにおける発話対エコー比を増大する効果を有するオーディオ処理変更)を実装するシステム要素の実施形態の別の例を説明する。本実施形態において、エネルギバランシングが実行される。上述のとおり、ある単純な例において、オーディオセッションマネジャは、オーディオ環境の1つ以上のマイクロフォンにおいてSERを増大するための他のオーディオ処理変更の結果失われた、聴者の位置またはゾーンにおけるオーディオ音声のバンデッドエネルギ(banded energy)を評価してもよい。その後、オーディオセッションマネジャは、この聴者の位置またはゾーンにおいて失われたエネルギを埋め合わせるブーストを、他のスピーカに追加してもよい。
少し関係があるコンテンツをレンダリングしており、かつ、相関しているかまたは類似のスペクトルを有する成分が複数のデバイスに存在する場合(単純な例はモノラル再生)によくあることだが、あまりに何もする必要はないかもしれない。例えば、1~2の割合の範囲の距離(1が最も近い)を空けて3つのラウドスピーカが存在する場合、(それらのラウドスピーカにより同一のコンテンツが再生されている場合、)最も近くのラウドスピーカの音量を6dB下げても、2~3dBのインパクトにしかならない。また、最も近くのラウドスピーカをオフにしても、聴者の位置における音声にとって、おそらく全体で3~4dBのインパクトにしかならない。
次に追加の実施形態の側面を説明する。
1.「最も近い(NEAREST)」の定義における2次因子
以下の2つの例が示すように、「近接度」または「最も近い」の尺度は、距離の単純な尺度でなくてもよく、推定される発話対エコー比を含むスカラーランキング(scalar ranking)であってもよい。オーディオ環境の複数のオーディオデバイスが同一でない場合、各ラウドスピーカ内蔵オーディオデバイスは、そのラウドスピーカ(単数または複数)から自分自身のマイクロフォン(単数または複数)への接続が異なっていてもよく、発話対エコー比におけるエコーレベルに大きな影響を与える。また、これらのオーディオデバイスは、マイクロフォンの配置が異なっており、リスニングのために(例えば、特定の方向からの音声を検出するため、または、オーディオ環境の特定の位置における音声またはその位置からの音声を検出するために)、相対的により適していたり、より適していなかったりする。したがって、いくつかの実施態様において、計算(決定(DECISION))は、近接度およびヒアリングの相互性(reciprocity of hearing)よりも、因子として考慮され得る。
図8は、音量を下げようとするオーディオデバイスが、話している人に最も近いオーディオデバイスではないかもしれない例の図である。この例において、オーディオデバイス802は、オーディオデバイス805よりも、話している人100に近い。いくつかの例によると、図8に示すような状況において、オーディオセッションマネジャは、異なるベースラインSERおよびオーディオデバイス特性を考慮し、オーディオプレゼンテーション(audio presentation)への出力の低減のインパクトに対する、人101の発話をより良くキャプチャできるように出力を下げることのベネフィットの、最良のコスト/ベネフィット比でデバイス(単数または複数)の音量を下げてもよい。
図8は、「最も近い(nearest)」のより機能的な尺度に複雑さと有用性が存在し得る例を示す。この例では、人101が、音(発話102)をたてており、オーディオセッションマネジャはこの音をキャプチャするように構成されている。また、2つのオーディオデバイス802および805が設けられており、これら両方が、ラウドスピーカ(806および804)ならびにマイクロフォン(803および807)を有している。マイクロフォン803が、人101により近いオーディオデバイス802のラウドスピーカ804の非常に近くにあることを考慮すると、このデバイスのラウドスピーカの音量を下げても、適したSERを生じ得ないかもしれない。この例において、オーディオデバイス805のマイクロフォン807は、ビーム形成を行う(概して、より好ましいSERを生じる)ように構成されており、したがって、オーディオデバイス805のラウドスピーカの音量を下げることは、オーディオデバイス802のラウドスピーカの音量を下げることよりも、インパクトが小さいかもしれない。いくつかのそのような例において、最適な決定(DECISION)は、ラウドスピーカ806の音量を下げることであり得る。
図9を参照して別の例を説明する。ここでは、2つのデバイス(一方が1対のヘッドホンであり、他方がスマートスピーカ)において生じ得るベースラインSERの最も大きい差について考える。
図9は、非常に高いSERを有するデバイスがユーザの極めて近くにある状況を示す。図9において、ユーザ101は、ヘッドホン902を装着し、音声102を話して(発して)おり、この音声102は、ヘッドホン902のマイクロフォン903およびスマートスピーカデバイス904のマイクロフォンの両方によりキャプチャされる。この場合、スマートスピーカデバイス904はまた、ヘッドホンに合う任意の音声を生成してもよい(例えば、イマーシブサウンド(没入感の高いサウンド)のための近位/遠位レンダリング)。確かに、ヘッドホン902は、ユーザ101に対して最も近い出力デバイスであるが、ヘッドホンから最も近いマイクロフォン903へのエコーの経路はほぼ存在せず、したがって、このデバイスのSERは非常に高く、ヘッドホンが聴者に対して略全てのレンダリング効果を与えるので、デバイスの音量を下げた場合に非常に大きなインパクトを与える。この場合、スマートスピーカ904の音量を下げることは、部分的なものに過ぎずかつレンダリング全体についての変更に逆らうものではあり(近くに居る他の聴者がその音声を聞いている)、実際のアクションは決定されていないかもしれないが、より有益であり得る。というのも、スピーカの音量を下げることまたはその他にオーディオ処理のパラメータを変更することが、オーディオ環境内に提供されるオーディオ音声をより良いものへと変えるように、ユーザピックアップのSERを改善し得るからである。ある意味において、ヘッドホンにおける固有のデバイスSERのおかげで既に十分機能的である。
複数のスピーカおよび分散配置されたマイクロフォンを有しかつ所与のサイズを超える大きさのデバイスに関して、いくつかの条件下において、多数のスピーカおよび多数のマイクロフォンを有する単一のオーディオデバイスを、たまたま強固に接続された別個のデバイスからなる1つのコンステレーションと考えることができる。この場合、音量を下げる決定を、個々のスピーカに適用してもよい。したがって、いくつかの実施態様において、オーディオセッションマネジャは、このタイプのオーディオデバイスを、独立したマイクロフォンおよびラウドスピーカからなる1つの集合体であると考え得る。それに対して、他の例において、オーディオセッションマネジャは、このタイプのオーディオデバイスを、複合的なスピーカとマイクロフォンのアレイを有する1つのデバイスと考え得る。また、単一のデバイスに設けられたスピーカを個別のデバイスとして扱うことと、複数のラウドスピーカを有する単一のオーディオデバイスにおいて、レンダリングの1つのアプローチが空間的ステアリングであるという考えとの間に二重性が存在する(このことは、必然的に、単一のオーディオデバイスに設けられたラウドスピーカの出力に差分変化を与える)ということが理解され得る。
移動する聴者の近くのオーディオデバイスからの空間的イメージングのセンシティブさを、最も近くのオーディオデバイス(単数または複数)が避けることの2次的効果に関し、多くの場合、移動する聴者の近くにラウドスピーカが存在したとしても、最も近いラウドスピーカ(単数または複数)から特定のオーディオオブジェクトまたはレンダリング素材を再生することに意味がないことがあり得る。これは、直接的オーディオ音声経路のラウドネスが直接的に変化するという事実に単純に関連する(1/r(rは音声が伝搬する距離))。そして、ラウドスピーカが任意の聴者に近づくと(r->0)、全体の混合音声に対する、このラウドスピーカにより再生されている音声のレベルの安定性が劣化する。
いくつかのそのような例において、(例えば)以下のような実施形態を実装することが有利であり得る。
― コンテクスト(CONTEXT)は、誰かがテレビで視ている番組についてオーディオ音声を聞くことができることが常に有用であると想定される、一般的なリスニングエリア(例えば、テレビの近くのソファ)である。
― 決定(DECISION):(例えば、ソファの近くの)一般的なリスニングエリアにおけるコーヒーテーブル上に置かれたスピーカを有するデバイスについて、f_n=1と設定する。
― レンダリング(RENDERING):デバイスをオフにし、何処か別の場所でエネルギがレンダリングされる。
このオーディオ処理変更のインパクトは、ソファに座っている人にとってのより良いリスニングである。コーヒーテーブルがソファの一方の端にある場合、この方法は、聴者のこのオーディオデバイスに対する近接度の、センシティブさを排除し得る。いくつかの例において、このオーディオデバイスは、例えばサラウンドチャネルにとって、理想的な位置に存在する一方、ソファを横切ってこのスピーカまで20dBのレベル差があり得るという事実は、聴者/話者の正確な位置が分からないのであれば、この最も近いデバイスの音量を下げるかまたはオフにするのがよいということを意味する。
図10は、図2Aに示すような装置により実行され得る方法の一例の概略を示す流れ図である。方法1000のブロックは、本明細書に開示する他の方法と同様、必ずしも図示した順序どおり実行する必要はない。さらに、このような方法は、図示および/または説明したブロックより多い個数または少ない個数のブロックを含んでもよい。この実施態様において、方法1000は、環境内におけるユーザの位置を推定することを含む。
この例において、ブロック1005は、環境内の複数のマイクロフォンの各々から出力信号を受信することを含む。この例において、複数のマイクロフォンの各々は、環境のマイクロフォン位置に設けられている。この例によると、出力信号は、ユーザの現在の発声に対応している。いくつかの例において、現在の発声は、ウェイクワードの発声であってもよいし、ウェイクワードの発声を含んでもよい。ブロック1005は、例えば、インターフェイスシステム(図2Aのインターフェイスシステム205など)を介して環境内の複数のマイクロフォンの各々から出力信号を受信する制御システム(図2Aの制御システム120など)を含んでもよい。
いくつかの例において、環境内のマイクロフォンのうちの少なくともいくつかのマイクロフォンは、1つ以上の他のマイクロフォンにより提供される出力信号に対して非同期の出力信号を提供してもよい。例えば、複数のマイクロフォンのうちの第1のマイクロフォンが、第1のサンプリングクロックに基づきオーディオデータをサンプリングし、複数のマイクロフォンのうちの第2のマイクロフォンが、第2のサンプリングクロックに基づきオーディオデータをサンプリングしてもよい。いくつかの例において、環境内のマイクロフォンの少なくとも1つが、スマートオーディオデバイスに含まれてもよいし、スマートオーディオデバイスと通信するように構成されてもよい。
この例によると、ブロック1010は、各マイクロフォンの出力信号から、複数の現在の音響的特徴を決定することを含む。この例において、「現在の音響的特徴」は、ブロック1005の「現在の発声」から得られた音響的特徴である。いくつかの実施態様において、ブロック1010は、1つ以上の他のデバイスから、複数の現在の音響的特徴を受信することを含んでもよい。例えば、ブロック1010は、1つ以上の他のデバイスにより実装される1つ以上のウェイクワード検出器から、複数の現在の音響的特徴のうちの少なくともいくつかを受信することを含んでもよい。代替的にまたは追加的に、いくつかの実施態様において、ブロック1010は、出力信号から複数の現在の音響的特徴を決定することを含んでもよい。
音響的特徴が単一のデバイスにより決定されるか複数のデバイスにより決定されるかに関わらず、音響的特徴は非同期的に決定され得る。音響的特徴が複数のデバイスにより決定される場合、音響的特徴を決定するプロセスをコーディネートさせるようにデバイスが構成されていなければ、音響的特徴は概して非同期的に決定され得る。音響的特徴が単一のデバイスにより決定される場合、いくつかの実施態様において、単一のデバイスは各マイクロフォンの出力信号を異なる時間に受信し得るので、音響的特徴は、それでもなお、非同期的に決定され得る。いくつかの例において、環境内のマイクロフォンのうち少なくともいくつかのマイクロフォンが、1つ以上の他のマイクロフォンにより提供される出力信号に対して非同期である出力信号を提供し得るので、音響的特徴は非同期的に決定され得る。
いくつかの例において、音響的特徴は、ウェイクワード確信度指数(wakeword confidence metric)、ウェイクワード長さ指数(wakeword duration metric)、および/または、少なくとも1つの受信レベル指数(received level metric)を含んでもよい。受信レベル指数は、マイクロフォンにより検出された音声の受信レベルを示し、かつ、マイクロフォンの出力信号のレベルに対応し得る。
代替的にまたは追加的に、音響的特徴は、以下のうちの1つ以上を含み得る。
・ 音響モデルに対する1-best(ビタビ)配列に沿った、各ウェイクワード状態についての平均状態エントロピー(純度)。
・ ウェイクワード検出器の音響モデルに対するCTC-損失(コネクショニスト時間分類損失)。
・ ウェイクワード検出器は、ウェイクワード確信度に加えて、話者のマイクロフォンからの距離の推定値および/またはRT60推定値を提供するように訓練されてもよい。距離推定値および/またはRT60推定値は、音響的特徴であってもよい。
・ マイクロフォンにおける広帯域受信レベル/パワーの代わりに、もしくはマイクロフォンにおける広帯域受信レベル/パワーに加えて、音響的特徴は、多数のログ/メル/バーク間隔の周波数帯域における受信レベルであってもよい。周波数帯域は、特定の実施態様に応じて変動し得る(例えば、2つの周波数帯域、5つの周波数帯域、20個の周波数帯域、50個の周波数帯域、1オクターブの周波数帯域、または1/3オクターブの周波数帯域)。
・ 過去のある時点におけるスペクトル情報のケプストラム表現。これは、バンドパワーの対数をDCT(離散コサイン変換)することにより算出される。
・ 人間の発話について重み付けされた周波数帯域におけるバンドパワー。例えば、音響的特徴は、特定の周波数帯域(例えば400Hz~1.5kHz)のみに基づいてもよい。この例において、より高い周波数およびより低い周波数は無視してもよい。
・ 帯域あたりまたはビンあたりの、ボイスアクティビティ検出器確信度。
・ 音響的特徴は、長期雑音推定値に少なくとも部分的に基づいて、信号対雑音比が不十分なマイクロフォンを無視してもよい。
・ 「ピーキネス(peakiness)」という発話の尺度としての尖度(Kurtosis)。尖度は、長いリバーブテイル(残響音)によるスミアリング(smearing)の指標であり得る。
・ 推定ウェイクワード開始時間。開始および期間は、フレーム内で等しい、または、全てのマイクロフォンの間で等しいことが期待される。外れ値は、信頼できない推定値の手がかりたり得る。このことは、必ずしもサンプルに対してではなく、例えば数十ミリ秒のフレームに対して、あるレベルのシンクロニー(synchrony)を想定している。
この例によると、ブロック1015は、複数の現在の音響的特徴に分類器を適用することを含む。いくつかのそのような例において、分類器を適用することは、環境内の複数のユーザゾーン内でユーザによってなされた複数の過去の発声から得られた、過去に決定された音響的特徴に対して訓練されたモデルを適用することを含んでもよい。本明細書中、さまざまな例を説明する。
いくつかの例において、ユーザゾーンは、シンクエリア、調理エリア、冷蔵庫エリア、ダイニングエリア、ソファエリア、テレビエリア、寝室エリア、および/または、出入り口エリアを含んでもよい。いくつかの例によると、これらユーザゾーンのうち1つ以上のゾーンは、所定のユーザゾーンであってもよい。いくつかのそのような例において、1つ以上の所定のユーザゾーンは、訓練プロセスの間、ユーザにより選択可能である。
いくつかの実施態様において、分類器を適用することは、過去の発声に対して訓練した混合ガウスモデルを適用することを含んでもよい。いくつかのそのような実施態様によると、分類器を適用することは、過去の発声の、正規化されたウェイクワード確信度、正規化された平均受信レベル、または、最大受信レベルのうちの1つ以上に対して訓練された混合ガウスモデルを適用することを含んでもよい。しかし、別の実施態様において、分類器を適用することは、本明細書に開示する他のモデルのうちの1つなど、異なるモデルに基づいてもよい。いくつかの例において、このモデルは、ユーザゾーンのラベルが付いた訓練データを用いて訓練されてもよい。しかし、いくつかの例において、分類器を適用することは、ユーザゾーンのラベルが付いていない、無ラベル訓練データを用いて訓練されたモデルを適用することを含む。
いくつかの例において、過去の発声は、ウェイクワードの発声であってもよく、ウェイクワードの発声を含んでいてもよい。いくつかのそのような例によると、過去の発声および現在の発声は、同じウェイクワードの発声であってもよい。
この例において、ブロック1020は、分類器からの出力に少なくとも部分的に基づいて、ユーザが現在位置しているユーザゾーンの推定値を決定することを含む。いくつかのそのような例において、この推定値は、複数のマイクロフォンの幾何学的位置を参照せずに決定されてもよい。例えば、この推定値は、個々のマイクロフォンの座標を参照せずに決定されてもよい。いくつかの例において、この推定値は、ユーザの幾何学的位置を推定することなく決定されてもよい。
方法1000のいくつかの実施態様は、推定されるユーザゾーンに応じて、少なくとも1つのスピーカを選択することを含んでもよい。いくつかのそのような実施態様は、少なくとも1つの選択されたスピーカを制御して、推定されるユーザゾーンに音を提供することを含んでもよい。代替的にまたは追加的に、方法1000のいくつかの実施態様は、推定されるユーザゾーンに応じて、少なくとも1つのマイクロフォンを選択することを含んでもよい。いくつかのそのような実施態様は、少なくとも1つの選択されたマイクロフォンにより出力された信号を、スマートオーディオデバイスに提供することを含んでもよい。
図11は、ゾーン分類器を実装するように構成された実施形態の一例の要素のブロック図である。この例によると、システム1100は、環境(例えば図1Aまたは図1Bに示すような環境)の少なくとも一部において分散配置された複数のラウドスピーカ1104を含む。この例において、システム1100は、マルチチャネルラウドスピーカレンダラー1101を含む。この実施態様によると、マルチチャネルラウドスピーカレンダラー1101の出力は、ラウドスピーカ駆動信号(スピーカ1104を駆動するスピーカフィード信号)およびエコー参照信号の両方として働く。この実施態様において、エコー参照信号は、複数のラウドスピーカ参照チャネル1102を介して、エコー管理サブシステム1103に提供される。ここで、エコー参照信号は、レンダラー1101から出力されたスピーカフィード信号のうちの少なくともいくつかを含んでいる。
この実施態様において、システム1100は、複数のエコー管理サブシステム1103を含む。この例によると、エコー管理サブシステム1103は、1つ以上のエコー抑制プロセスおよび/または1つ以上のエコー除去プロセスを実装するように構成されている。この例において、エコー管理サブシステム1103の各々は、ウェイクワード検出器1106のうちの1つに、対応するエコー管理出力1103Aを提供する。エコー管理出力1103Aは、エコー管理サブシステム1103のうちの関連する1つのエコー管理サブシステムへの入力と比較して、減衰されたエコーを有する。
この実施態様によると、システム1100は、環境(例えば図1Aまたは図1Bに示す環境)の少なくとも一部において分散配置されたN個のマイクロフォン1105(Nは整数)を含む。これらのマイクロフォンは、アレイマイクロフォンおよび/またはスポットマイクロフォンを含み得る。例えば、環境内に配置された1つ以上のスマートオーディオデバイスは、マイクロフォンのアレイを含んでもよい。この例において、マイクロフォン1105の出力は、エコー管理サブシステム1103への入力として提供される。この実施態様によると、エコー管理サブシステム1103の各々は、個々のマイクロフォン1105またはマイクロフォン1105の個々の群または部分集合の出力をキャプチャする。
この例において、システム1100は、複数のウェイクワード検出器1106を含む。この例によると、ウェイクワード検出器1106の各々は、エコー管理サブシステム1103の1つからのオーディオ出力を受信し、複数の音響的特徴1106Aを出力する。各エコー管理サブシステム1103から出力される音響的特徴1106Aは、ウェイクワード確信度、ウェイクワードの長さ、および受信レベルの尺度を含み得る(但し、これらに限定されない)。3つの音響的特徴1106Aを示す3つの矢印を、各エコー管理サブシステム1103から出力されているように図示しているが、別の実施態様において、より多くの数またはより少ない数の音響的特徴1106Aが出力されてもよい。さらに、これら3つの矢印は略垂直の線に沿って分類器1107に当たっているが、このことは、分類器1107が、全てのウェイクワード検出器1106から同時に音響的特徴1106Aを必ず受信することを示すものではない。本明細書の別の箇所で示すように、音響的特徴1106Aは、いくつかの例において、非同期的に決定され得る、かつ/または、非同期的に分類器に提供され得る。
この実施態様によると、システム1100は、ゾーン分類器1107(分類器1107と呼ぶこともある)を含む。この例において、分類器は、環境内の複数のマイクロフォン1105(例えば全てのマイクロフォン1105)について、複数の特徴1106Aを、複数のウェイクワード検出器1106から受信する。この例によると、ゾーン分類器1107の出力1108は、ユーザが現在位置しているユーザゾーンの推定値に対応している。いくつかのそのような例によると、出力1108は、1つ以上の事後確率に対応してもよい。ユーザが現在位置しているユーザゾーンの推定値は、ベイズ統計学に基づく最大事後確率であってもよいし、その最大事後確率に対応してもよい。
次に、分類器の実施態様例を説明する。この分類器は、いくつかの例において、図11のゾーン分類器1107に一致してもよい。x(n)を、離散時間nにおけるi番目(i={1…N})のマイクロフォン信号とする(つまり、マイクロフォン信号x(n)は、N個のマイクロフォン1105の出力である)。エコー管理サブシステム1103においてN個の信号x(n)の処理を行うことにより、それぞれ離散時間nにおいて、「クリーン(clean)な」マイクロフォン信号e(n)が生成される(i={1…N})。この例において、図11において1103Aで示すクリーンな信号e(n)は、ウェイクワード検出器1106に供給される。ここで、各ウェイクワード検出器1106は、図11において1106Aで示す特徴のベクトルw(j)を生成する(j={1…J}は、j番目のウェイクワード発声に対応するインデックスである)。この例において、分類器1107は、特徴の総集合
を入力とする。
いくつかの実施態様によると、1組のゾーンラベルC(k={1…K})は、環境内における多数(K個)の異なるユーザゾーンに対応していてもよい。例えば、ユーザゾーンは、ソファゾーン、キッチンゾーン、リーディングチェアゾーンなどを含んでもよい。いくつかの例は、キッチンまたは他の部屋の中に、複数のゾーンを定義してもよい。例えば、キッチンエリアは、シンクゾーン、調理ゾーン、冷蔵庫ゾーン、およびダイニングゾーンを含んでもよい。同様に、リビングルームエリアは、ソファゾーン、テレビゾーン、リーディングチェアゾーン、1つ以上の出入り口ゾーンなどを含んでもよい。これらのゾーンのゾーンラベルは、例えば訓練期間のあいだ、ユーザにより選択可能であってもよい。
いくつかの実施態様において、分類器1107は、例えばベイズ分類器を用いることにより、特徴の組W(j)の事後確率
を推定する。確率
は、(j番目の発声およびk番目のゾーンについて、ゾーンCの各々および発声の各々について)ユーザがゾーンCの各々に存在する確率を示し、分類器1107の出力1108の一例である。
いくつかの例によると、訓練データは、ゾーン(例えばソファゾーン)を選択または定義することをユーザに促すことにより、(例えば各ユーザゾーンについて)集められてもよい。訓練プロセスは、選択または定義されたゾーンの近傍において、訓練発声(ウェイクワードの発声など)を行うことをユーザに促すことを含んでもよい。ソファゾーンの例において、訓練プロセスは、ソファの中央および両端において、訓練発声を行うことをユーザに促すことを含んでもよい。訓練プロセスは、ユーザゾーン内の各位置において、訓練発声を複数回繰り返すことをユーザに促すことを含んでもよい。その後、別のユーザゾーンに移動して、全ての指定されたユーザゾーンがカバーされるまで訓練発声を続けるように、ユーザに促してもよい。
図12は、図2Aの装置200などの装置により実行され得る方法の一例の概略を示す流れ図である。方法1200のブロックは、本明細書に開示する他の方法と同様、必ずしも図示した順序どおり実行する必要はない。さらに、このような方法は、図示および/または説明したブロックより多い個数または少ない個数のブロックを含んでもよい。この実施態様において、方法1200は、環境内におけるユーザの位置を推定するための分類器を訓練することを含む。
この例において、ブロック1205は、環境の第1のユーザゾーン内の複数の位置の各々において、少なくとも1回の訓練発声を行うことをユーザに促すことを含む。訓練発声は、いくつかの例において、ウェイクワード発声の1つ以上の事例であってもよい。いくつかの実施態様によると、第1のユーザゾーンは、ユーザにより選択および/または定義された任意のユーザゾーンであってもよい。いくつかの例において、制御システムは、対応するゾーンラベル(例えば、前に説明したゾーンラベルCのうちの1つの対応する事例)を生成してもよく、かつ、ゾーンラベルを、第1のユーザゾーンについて得られた訓練データに関連付けてもよい。
自動化された促進システムを用いて、これらの訓練データを収集してもよい。上述のとおり、装置200のインターフェイスシステム205は、1つ以上のマイクロフォン、1つ以上のスピーカ、表示システム、タッチセンサシステムおよび/またはジェスチャセンサシステムなど、ユーザインターフェイスを実装する1つ以上のデバイスを含んでもよい。例えば、装置200は、訓練プロセスの間、ユーザに対して、以下の促進メッセージを、表示システムのスクリーン上に表示してもよいし、1つ以上のスピーカを介して通知してもよい。
・ 「ソファに移動」
・ 「顔を左右に振りつつウェイクワードを10回言う」
・ 「ソファとリーディングチェアとの間の中間位置に移動し、ウェイクワードを10回言う」
・ 「料理するときのようにキッチンに立ち、ウェイクワードを10回言う」
この例において、ブロック1210は、環境内の複数のマイクロフォンの各々から、第1の出力信号を受信することを含む。いくつかの例において、ブロック1210は、環境内のアクティブなマイクロフォンの全てから、第1の出力信号を受信することを含んでもよい。それに対して、他の例では、ブロック1210は、環境内のアクティブなマイクロフォンの全てを含む部分集合から、第1の出力信号を受信することを含んでもよい。いくつかの例において、環境内のマイクロフォンのうちの少なくともいくつかのマイクロフォンは、1つ以上の他のマイクロフォンにより提供される出力信号に対して非同期の出力信号を提供してもよい。例えば、複数のマイクロフォンのうちの第1のマイクロフォンが、第1のサンプリングクロックに基づきオーディオデータをサンプリングし、複数のマイクロフォンのうちの第2のマイクロフォンが、第2のサンプリングクロックに基づきオーディオデータをサンプリングしてもよい。
この例において、複数のマイクロフォンの各々は、環境のマイクロフォン位置に設けられている。この例において、第1の出力信号は、第1のユーザゾーンから受信した、検出された訓練発声の事例に対応している。ブロック1205は、環境の第1のユーザゾーン内の複数の位置の各々において、少なくとも1回の訓練発声を行うことをユーザに促すことを含むので、この例では、「第1の出力信号」という用語は、第1のユーザゾーンについての訓練発声に対応する全ての出力信号からなる集合を指す。他の例において、「第1の出力信号」という用語は、第1のユーザゾーンについての訓練発声に対応する全ての出力信号からなる部分集合を指してもよい。
この例によると、ブロック1215は、第1の出力信号の各々から、1つ以上の第1の音響的特徴を決定することを含む。いくつかの例において、第1の音響的特徴は、ウェイクワード確信度指数および/または受信レベル指数を含んでもよい。例えば、第1の音響的特徴は、正規化されたウェイクワード確信度指数、正規化された平均受信レベルの指標、および/または、最大受信レベルの指標を含んでもよい。
上述のとおり、ブロック1205は、環境の第1のユーザゾーン内の複数の位置の各々において、少なくとも1回の訓練発声を行うことをユーザに促すことを含むので、この例では、「第1の出力信号」という用語は、第1のユーザゾーンについての訓練発声に対応する全ての出力信号からなる集合を指す。したがって、この例では、「第1の音響的特徴」という用語は、第1のユーザゾーンについての訓練発声に対応する全ての出力信号からなる集合から得られた音響的特徴からなる集合を指す。したがって、この例において、第1の音響的特徴の集合は、第1の出力信号の集合と少なくとも同程度の大きさである。例えば、出力信号の各々から2つの音響的特徴が決定される場合、第1の音響的特徴の集合は、第1の出力信号の集合の2倍の大きさになる。
この例において、ブロック1220は、分類器モデルを訓練して、第1のユーザゾーンと第1の音響的特徴との間に相関関係を形成することを含む。分類器モデルは、例えば、本明細書に開示した分類器モデルのうちのいずれかであってもよい。この実施態様によると、分類器モデルは、複数のマイクロフォンの幾何学的位置を参照せずに訓練される。換言すると、この例において、訓練プロセスの間、複数のマイクロフォンの幾何学的位置に関するデータ(例えばマイクロフォン座標データ)は、分類器モデルに提供されない。
図13は、図2Aの装置200などの装置により実行され得る方法の別の例の概略を示す流れ図である。方法1300のブロックは、本明細書に開示する他の方法と同様、必ずしも図示した順序どおり実行する必要はない。例えば、いくつかの実施態様において、ブロック1325の音響的特徴決定プロセスの少なくとも一部を、ブロック1315またはブロック1320よりも先に実行してもよい。さらに、このような方法は、図示および/または説明したブロックより多い個数または少ない個数のブロックを含んでもよい。この実施態様において、方法1300は、環境内におけるユーザの位置を推定するための分類器を訓練することを含む。方法1300は、方法1200を環境の複数のユーザゾーンに展開する例を提供する。
この例において、ブロック1305は、環境のユーザゾーン内のある位置において、少なくとも1回の訓練発声を行うことをユーザに促すことを含む。いくつかの例において、ブロック1305は、ブロック1305がユーザゾーン内の単一の位置に関係していることを除き、図12のブロック1205を参照して上で説明した様態で実行されてもよい。訓練発声は、いくつかの例において、ウェイクワード発声の1つ以上の事例であってもよい。いくつかの実施態様によると、ユーザゾーンは、ユーザにより選択および/または定義された任意のユーザゾーンであってもよい。いくつかの例において、制御システムは、対応するゾーンラベル(例えば、前に説明したゾーンラベルCのうちの1つの対応する事例)を生成してもよく、かつ、ゾーンラベルを、ユーザゾーンについて得られた訓練データに関連付けてもよい。
この例によると、ブロック1310は、図12のブロック1210を参照して上で説明したのと実質的に同じように実行される。しかし、この例において、ブロック1310のプロセスは、必ずしも訓練データが獲得された第1のユーザゾーンではなく、任意のユーザゾーンに対して一般化されている。したがって、ブロック1310から受信した出力信号は、「環境内の複数のマイクロフォンの各々からの出力信号であって、複数のマイクロフォンの各々は、環境のマイクロフォン位置に設けられており、出力信号は、ユーザゾーンから受信した検出された訓練発声の事例に対応している。」この例において、「出力信号」という用語は、ユーザゾーンのある位置における1回以上の訓練発声に対応する全ての出力信号からなる集合を指す。他の例において、「出力信号」という用語は、ユーザゾーンのある位置における1回以上の訓練発声に対応する全ての出力信号からなる部分集合を指す。
この例によると、ブロック1315は、現在のユーザゾーンについて十分な訓練データが獲得できたか否かを判定することを含む。いくつかのそのような例において、ブロック1315は、閾値回数の訓練発声に対応する出力信号が、現在のユーザゾーンについて得られたか否かを判定することを含んでもよい。代替的にまたは追加的に、ブロック1315は、現在のユーザゾーン内の閾値箇所数の位置における訓練発声に対応する出力信号が得られたか否かを判定することを含んでもよい。得られていないと判定された場合、この例では、方法1300はブロック1305に戻り、同じユーザゾーン内のある位置において、少なくとも1回追加の発声を行うことをユーザに促す。
しかし、ブロック1315において、現在のユーザゾーンについて十分な訓練データが得られたと判定された場合、この例では、プロセスはブロック1320へと続く。この例によると、ブロック1320は、追加のユーザゾーンについて訓練データを得るか否かを判定する。いくつかの例によると、ブロック1320は、ユーザが過去に特定した各ユーザゾーンについて、訓練データが得られたか否かを判定することを含んでもよい。他の例において、ブロック1320は、最小個数のユーザゾーンについて、訓練データが得られたか否かを判定することを含んでもよい。最小個数は、ユーザにより選択されていてもよい。他の例において、最小個数は、環境毎に推奨された最小個数や、環境内の部屋毎に推奨された最小個数などであってもよい。
ブロック1320において、追加のユーザゾーンについて訓練データを獲得すべきだと判定された場合、この例では、プロセスはブロック1322へと続く。ブロック1322は、環境の別のユーザゾーンに移動することをユーザに促すことを含む。いくつかの例において、次のユーザゾーンは、ユーザにより選択可能であってもよい。この例によると、プロセスは、ブロック1322の促進ステップの後に、ブロック1305へと続く。いくつかのそのような例において、ブロック1322の促進ステップの後に、ユーザが新たなユーザゾーンに到達したことを確認するようユーザに促してもよい。いくつかのそのような例によると、ブロック1305の促進ステップの前に、ユーザが新たなユーザゾーンに到達したことを確認するようユーザに要求してもよい。
ブロック1320において、追加のユーザゾーンについて訓練データを獲得すべきではないと判定された場合、この例では、プロセスはブロック1325へと続く。この例において、方法1300は、K個のユーザゾーンについて訓練データを得ることを含む。この実施態様において、ブロック1325は、訓練データが得られた1番目~K番目のユーザゾーンの各々に対応する1番目~H番目の出力信号から、1番目~G番目の音響的特徴を決定することを含む。この例において、「第1の出力信号」という用語は、第1のユーザゾーンについての訓練発声に対応する全ての出力信号からなる集合を指す。また、「H番目の出力信号」という用語は、K番目のユーザゾーンについての訓練発声に対応する全ての出力信号からなる集合を指す。同様に、「第1の出力信号」という用語は、第1の出力信号から決定された音響的特徴の集合を指し、「G番目の音響的特徴」という用語は、H番目の出力信号から決定された音響的特徴の集合を指す。
これらの例によると、ブロック1330は、分類器モデルを訓練して、1番目~K番目のユーザゾーンと1番目~K番目の音響的特徴との間にそれぞれ相関関係を形成することを含む。分類器モデルは、例えば、本明細書に開示した分類器モデルのうちのいずれかであってもよい。
上記の例において、ユーザゾーンは、(例えば、前に説明したゾーンラベルCのうちの1つの対応する事例にしたがって)ラベリングされる。しかし、モデルは、ラベリングされたユーザゾーンに応じて訓練されてもよいし、ラベリングされていないユーザゾーンに応じて訓練されてもよく、このことは、特定の実施態様に応じて決まる。ラベリングされている場合、各訓練発声は、例えば次式のように、ユーザゾーンに対応するラベルと対にされてもよい。

分類器モデルを訓練することは、ラベリングされた訓練データに最も適合するものを決定することを含んでもよい。一般性を失わずに、分類器モデルにとって適切な分類アプローチは、以下のものを含み得る。
・ ベイズ分類器であって、例えば、クラスあたりの(per-class)分布が、多変量正規分布、完全共分散(full-covariance)混合ガウスモデル、または対角共分散(diagonal-covariance)混合ガウスモデルにより記述(説明)される、ベイズ分類器、
・ ベクトル量子化、
・ 最近傍(k-平均)、
・ 1つの出力が各クラスに対応している、SoftMax出力レイヤを有するニューラルネットワーク、
・ サポートベクターマシン(SVM)、ならびに/もしくは、
・ 勾配ブースティングマシン(GBM)などの、ブースティング技術。
ラベリングされない場合を実装する一例において、データは自動的にK個のクラスタ(Kは未知であり得る)に分割されてもよい。ラベリングされていない自動分割は、例えば、古典的なクラスタリング技術(例えば、k-平均アルゴリズムまたは混合ガウスモデリング)を用いることにより実行され得る。
ロバスト性を向上させるために、分類器モデルの訓練に正則化が適用されてもよく、かつ、新たな発声が為されると、時間の経過に伴いモデルパラメータが更新されてもよい。
次に、実施形態のさらなる側面を説明する。
音響的特徴の集合の一例(例えば、図11の音響的特徴1106A)は、ウェイクワード確信度の尤度、最も確信度の高いウェイクワードの推定される長さに対する平均受信レベル、および、最も確信度の高いウェイクワードの推定される長さに対する最大受信レベルを含んでもよい。特徴は、各ウェイクワード発声について、その最大値に対して正規化されてもよい。訓練データはラベリングされてもよく、完全共分散混合ガウスモデル(GMM)を訓練して、訓練ラベルの期待値を最大化してもよい。推定されるゾーンは、事後確率を最大化するクラスであってもよい。
いくつかの実施形態の上記説明は、促進された収集プロセスの間に収集された訓練データの集合から、音響ゾーンモデルを学習することについて議論した。そのモデルにおいて、訓練時間(または設定モード)ならびにランタイム(またはレギュラーモード)は、マイクロフォンシステムが配置され得る2つの異なるモードと考え得る。このスキームへの展開は、オンライン学習であり、ここでは、音響ゾーンモデルの一部または全てが、オンラインで(例えば、ランタイムに、またはレギュラーモードで)学習または適合される。換言すると、「ランタイム」プロセスにおいて分類器を適用して、(例えば、図10の方法1000に従って)ユーザが現在位置しているユーザゾーンの推定値を生成した後であっても、いくつかの実施態様において、分類器を訓練するプロセスは継続してもよい。
図14は、図2Aの装置200などの装置により実行され得る方法の別の例の概略を示す流れ図である。方法1400のブロックは、本明細書に開示する他の方法と同様、必ずしも図示した順序どおり実行する必要はない。さらに、このような方法は、図示および/または説明したブロックより多い個数または少ない個数のブロックを含んでもよい。この実施態様において、方法1400は、環境内におけるユーザの位置を推定する「ランタイム」プロセスの間、分類器の継続的訓練を含む。方法1400は、本明細書において「オンライン学習モード」と呼ぶものの一例である。
この例において、方法1400のブロック1405は、方法1000のブロック1005~1020に対応する。ここで、ブロック1405は、分類器からの出力に少なくとも部分的に基づき、ユーザが現在位置しているユーザゾーンの推定値を提供することを含む。この実施態様によると、ブロック1410は、ブロック1405の推定値に関する暗黙的または明示的なフィードバックを得ることを含む。ブロック1415において、分類器は、ブロック1405において受信されたフィードバックに従って更新される。ブロック1415は、例えば、1つ以上の強化学習方法を含んでもよい。ブロック1415からブロック1405へと延びる点線の矢印が示唆するとおり、いくつかの実施態様において、方法1400は、ブロック1405に戻ることを含んでもよい。例えば、方法1400は、更新されたモデルを適用することに基づき、将来のある時点においてユーザが位置するユーザゾーンの将来の推定値を提供することを含んでもよい。
フィードバックを得るための明示的な技術は、以下のことを含んでもよい。
・ 音声ユーザインターフェイス(UI)を用いて、予測が正しいかったか否かをユーザに尋ねる。例えば、以下を示す音声をユーザに提供してもよい。:『あなたはソファに座っていると思います。「正しい」または「間違い」で答えてください。』
・ いつでもボイスUIを用いて間違った予測を訂正し得ることをユーザに知らせる。(例えば、以下を示す音声をユーザに提供してもよい。:『私に話しかければ、あなたが何処にいるか予測できます。もし私の予測が間違いであれば、「アマンダ、私はソファには座っていない。リーディングチェアに座っている。」のように答えてください。』)
・ いつでもボイスUIを用いて正しい予測に対して報い得ることをユーザに知らせる。(例えば、以下を示す音声をユーザに提供してもよい。:『私に話しかければ、あなたが何処にいるか予測できます。もし私の予測が正しければ、「アマンダ、正解だ。私はソファに座っている。」のように答えてください。そうすれば私の予測はさらに改善されます。』)
・ フィードバックを与えるためにユーザが操作できる、物理ボタンまたは他のUI要素を含む(例えば、物理デバイス上もしくはスマートフォンアプリ内の、サムズアップ(いいね)ボタンおよび/またはサムズダウン(低評価)ボタン)。
ユーザが居るユーザゾーンを予測することの目的は、例えば、ウェイクワードに続くコマンドをより良く認識するために、ユーザの音響ゾーンからより効果的に音をピックアップすることを試みる、マイクロフォン選択スキームまたは適応型ビームフォーミングスキームに情報を与えることであり得る。そのようなシナリオにおいて、ゾーン予測の品質に関するフィードバックを得る暗黙的な技術は、以下の事項を含み得る。
・ ウェイクワードに続くコマンドの誤認識をもたらす予測に罰則を課する。誤認識を示し得るプロキシとしては、ユーザが、例えば「アマンダ、ストップ!」のような取消コマンド様のものを発することにより、コマンドに対する音声アシスタントの返答を中断することを含み得る;。
・ 音声認識器がコマンドを正しく認識したことの低確信度をもたらす予測を罰する。多くの自動音声認識システムが、結果とともに確信度レベルを返す能力を有し、この目的のために使用することができる;。
・ 第2パスウェイクワード検出器が高確信度でウェイクワードを遡及的に検出することの失敗をもたらす予測を罰する;および/または、
・ ウェイクワードの高確信度の認識および/またはユーザのコマンドの正しい認識をもたらす予測を強化する。
以下に説明するのは、第2パスウェイクワード検出器が高い確信度でウェイクワードを遡及的に検出することを失敗する例である。環境内のマイクロフォンからの現在の発声に対応する出力信号を得た後で、かつ、(例えば、マイクロフォンと通信するため
に構成された複数の第1パスウェイクワード検出器を介して)出力信号に基づいて音響的特徴を決定した後に、音響的特徴が分類器に提供されると仮定する。換言すると、音響的特徴は、検出されたウェイクワード発声に対応するとみなす。さらに、現在の発声をした人はゾーン3(この例では、リーディングチェアに対応する)に居る可能性が最も高いと、分類器が決定すると仮定する。例えば、ボイスコマンド認識のためにクラウド型バーチャルアシスタントに送信されるために、ゾーン3内の人の声を聞くのに最適であるということが既知である、特定のマイクロフォンまたは学習した複数のマイクロフォンの組み合わせが存在してもよい。
さらに、音声認識のためにどのマイクロフォン(単数または複数)を使用するかを決定した後で、かつ、人の発話が実際にバーチャルアシスタントサービスに送信される前に、コマンド認識のためにあなたが送信しようとしている、ゾーン3について選択されたマイクロフォン(単数または複数)により検出された発話に対応するマイクロフォン信号に対して、第2パスウェイクワード検出器が演算を行うと仮定する。ウェイクワードが実際に発せられたことに関して、第2パスウェイクワード検出器が複数の第1パスウェイクワード検出器と一致しない場合、それはおそらく、分類器がゾーンを間違って予測したからである。したがって、分類器は、罰せられなければならない。
1つ以上のウェイクワードが話された後の、ゾーンマッピングモデルの事後更新(事後更新)のための技術は、以下のものを含んでもよい。
・ 混合ガウスモデル(GMM)または最近傍モデルの最大事後(MAP)適合、ならびに/もしくは、
・ 例えば、ニューラルネットワークの強化学習であって、例えば、適切な「ワン-ホット(one-hot)」(正確な予測の場合)または「ワン-コールド(one-cold)」(不正確な予測の場合)の正解ラベル(ground truth label)をSoftMax出力に関連付け、オンラインバックプロパゲーションを適用して、新たなネットワークの重みを決定することにより実現される、強化学習。
この文脈におけるMAP適合のいくつかの例は、ウェイクワードが話される度に、GMM内の平均を調節することを含んでもよい。このようにして、平均は、後続のウェイクワードが話された場合に観測される音響的特徴により近づく。代替的にまたは追加的に、そのような例は、ウェイクワードが話される度に、GMM内の分散/共分散または混合重み情報(mixture weight information)を調節することを含んでもよい。
例えば、MAP適合スキームは、次の通りであってもよい。
μi,new=μi,old*α+x*(1-α)
上記式において、μi,oldは混合体内のi番目のガウスの平均値を示し、αはどの程度積極的にMAP適合が起こるべきかを制御するパラメータを示し(αは、[0.9,0.999]の範囲内であり得る)、xは新たなウェイクワード発声の特徴ベクトルを示す。インデックス「i」は、ウェイクワード時刻において話者の位置を含むことの、最も高い事前確率を返す混合要素に対応する。
あるいは、混合要素の各々は、例えば次式のように、ウェイクワードを含むことの事前確率に応じて調節されてもよい。
Μi,new=μi,old*β*x(1-β
上記式において、β=α*(1-P(i))であり、ここでP(i)は、観測値xが混合要素iに帰せられることの事前確率を示す。
強化学習の一例において、3つのユーザゾーンが設けられてもよい。ある特定のウェイクワードについて、モデルは、3つのユーザゾーンについて確率が[0.2,0.1,0.7]であると予測すると仮定する。第2の情報源(例えば第2パスウェイクワード検出器)が、第3のゾーンが正しかったことを確認した場合、正解ラベルは[0,0,1](ワン ホット)であり得る。ゾーンマッピングモデルの事後更新は、ニューラルネットワークを介してエラーをバックプロパゲーションすることを含んでもよく、これは、同じ入力が再度示された場合にニューラルネットワークがゾーン3をより強く予測するであろうことを事実上意味する。逆に、第2の情報源が、ゾーン3は不正確な予測であったことを示す場合、一例において、正解ラベルは[0.5,0.5,0.0]であり得る。ニューラルネットワークを介してエラーをバックプロパゲーションすることにより、将来同じ入力が示された場合に、モデルがゾーン3を予測する可能性が低くなる。
フレキシブルレンダリングにより、空間オーディオ音声を、任意の個数の任意に配置されたスピーカ上でレンダリングすることが可能になる。家庭内のスマートオーディオデバイス(例えばスマートスピーカ)を含む(但しそれに限定されない)、オーディオデバイスの広範な配置を鑑みて、消費者製品が、オーディオ音声のフレキシブルレンダリングを実行し、そのようにレンダリングされたオーディオ音声を再生することを可能にする、フレキシブルなレンダリング技術を実現する必要がある。
フレキシブルレンダリングを実装する複数の技術が開発されている。それら技術は、レンダリングの問題を、コスト関数最小化の1つとして扱う。ここで、コスト関数は2つの項からなる:第1項はレンダラーが実現しようとする所望の空間印象をモデリングし、第2項はスピーカを起動することにコストを割り当てる。今のところ、この第2項は、スパースな解を生成することに集中している。ここで、レンダリングされているオーディオ音声の所望の空間位置の近傍にあるスピーカのみが起動される。
消費者環境における空間的オーディオ音声の再生は、典型的には、例えば、5.1サラウンドおよび7.1サラウンドなど、規定された位置に配置された規定数のラウドスピーカに関連付けられている。これらの場合において、コンテンツは、関連付けられたラウドスピーカに対して特定的にオーサリングされており、かつ、各ラウドスピーカに対して1つ設けられた離散チャネルとしてエンコードされている(例えば、DolbyDigitalまたはDolbyDigitalPlusなど)。より最近では、このコンテンツと特定のラウドスピーカ位置との関連を断ち切った、没入感の高いオブジェクト型の空間オーディオフォーマットが導入されている(DolbyAtmos)。その代わり、コンテンツは、個々のオーディオオブジェクトの集合として記述(説明)されてもよい。ここで、各オーディオオブジェクトは、3次元空間内の当該オーディオオブジェクトの所望の知覚位置を記述(説明)している、おそらく時変のメタデータを有している。再生時において、コンテンツは、再生システムにおけるラウドスピーカの個数および位置に適合したレンダラーにより、ラウドスピーカフィード信号に変換される。しかし、そのようなレンダラーの多くは、依然として、1組のラウドスピーカの位置を、1組の規定されたレイアウト(例えば、DolbyAtmosでの、3.1.2、5.1.2、7.1.4、9.1.6など)のうちの1つとして制約している。
そのような制約されたレンダリングを越えんとして、任意の位置に配置された任意の個数のラウドスピーカ上で、オブジェクト型のオーディオ音声が柔軟にレンダリングされることを可能にする方法が開発されている。これらの方法は、リスニング空間内のラウドスピーカの個数および物理的な位置をレンダラーが知っていることを要求する。そのようなシステムを平均的な消費者にとって実用的なものとするため、ラウドスピーカの位置を特定する自動化された方法が望ましい。そのような方法の1つは、おそらくはラウドスピーカと共に配置された多数のマイクロフォンを使用することをあてにしている。ラウドスピーカを介してオーディオ信号を再生し、マイクロフォンで録音することにより、各ラウドスピーカとマイクロフォンとの間の距離が推定される。これらの距離から、ラウドスピーカおよびマイクロフォン両方の位置が導き出される。
消費者空間内にオブジェクト型の空間オーディオ音声が導入されるのと同時に、アマゾンエコー製品群などの、いわゆる「スマートスピーカ」の急速な選定が行われる。これらのデバイスが非常に人気なのは、無線接続性および統合型音声インターフェイス(例えば、アマゾンのアレクサ)により得られる、そのシンプルさおよび便利さに帰せられるものであり得る。しかし、これらのデバイスの音波性能(sonic capabilities)は、概して、特に空間オーディオ音声に対して、限定されている。たいていの場合において、これらのデバイスは、モノラル再生またはステレオ再生に制約されている。しかし、上記のフレキシブルレンダリング技術および自動位置特定技術を、複数のオーケストレーションされたスマートスピーカと組み合わせることにより、消費者による設定が極めてシンプルなままでありつつ、非常に洗練された空間再生能力を有するシステムをもたらし得る。消費者は、無線接続性のおかげでスピーカ配線を用いる必要なく、どこでも都合のいい場所に、望む個数のスピーカを配置することができ、かつ、内蔵のマイクロフォンを用いて、関連付けられたフレキシブルレンダラーのために、スピーカの位置を自動的に特定することができる。
従来のフレキシブルレンダリングアルゴリズムは、特定の所望の知覚された空間的印象を、可能な限り厳密に達成するように設計されている。オーケストレーションされたスマートスピーカからなるシステムにおいて、時折、この空間的印象を維持することは、最も重要でなくてもよいし、所望の目的でなくてもよい。例えば、誰かが同時に統合型音声アシスタントに話しかけようとすると、検出された発話を含むマイクロフォン信号の信号対雑音比および/または信号対エコー比(SER)を増大するように、所定のマイクロフォンの近くのスピーカにおいて相対的な再生レベルを低減するような様態で、空間レンダリングをしばらくの間変化させることが望ましいかもしれない。本明細書に記載したいくつかの実施形態は、例えば1つ以上の追加の目的を達成するため、そのような空間レンダリングに対する動的改変を可能にするように、既存のフレキシブルレンダリング方法の改変例として実装されてもよい。
既存のフレキシブルレンダリング技術は、重心振幅パンニング(Center of Mass Amplitude Panning (CMAP))およびフレキシブルバーチャリゼーション(Flexible Virtualization (FV))を含む。概観的に説明すると、これら技術の両方は、2つ以上のスピーカからなる1組のスピーカ上で再生するために、1つ以上のオーディオ信号(各オーディオ信号は、関連付けられた所望の知覚された空間位置を有する)からなる1組のオーディオ信号をレンダリングする。ここで、この1組のスピーカの相対的な起動は、スピーカ上で再生される前記オーディオ信号の知覚された空間位置のモデル、ならびに、スピーカの位置に対するオーディオ信号の所望の知覚された空間位置の近接度の関数である。このモデルは、目的の空間位置の近くの聴者がオーディオ信号を聞くこと、ならびに、どのスピーカを使用してこの空間印象を達成するかを近接度の項が制御することを確実にする。とりわけ、近接度の項は、オーディオ信号の所望の知覚された空間位置の近くのスピーカを起動することを好む。CMAPおよびFVの両方について、この関数関係は、次式のように、2つの項(1項は空間アスペクトを示し、1項は近接度を示す)の和として記述されたコスト関数から好適に導き出される。

ここで、集合
はM個のラウドスピーカからなる1組のラウドスピーカの位置を示し、
はオーディオ信号の所望の知覚された空間位置を示し、gはスピーカ起動電位のM次元ベクトルを示す。CMAPについて、このベクトルにおける各起動電位は、スピーカあたりのゲインを示す。一方、FVについて、各起動電位はフィルタを示す(後者において、gは、特定の周波数における複素数のベクトルと同一視され得、かつ、異なるgが複数の周波数に亘って算出されて、フィルタを形成する)。起動電位の最適なベクトルは、次式のように、複数の起動電位に亘るコスト関数を最小化することにより見出される。
コスト関数の所与の定義では、
の成分の間の相対的なレベルは適切であるが、上記最小化の結果得られた最適な起動電位の絶対レベルを制御することは難しい。この問題を取り扱うために、その後、
の正規化を行って、起動電位の絶対レベルを制御してもよい。例えば、単位長を有するようにベクトルを正規化するのが望ましいかもしれない。これは、一般的に使用されるコンスタントパワーパンニングルールに従って行われる。
フレキシブルレンダリングアルゴリズムの正確な振る舞いは、コスト関数の2つの項CspatialおよびCproximityの特定の構成により規定される。CMAPの場合、Cspatialは、1組のラウドスピーカから再生されるオーディオ信号の知覚された空間位置を、関連付けられた起動ゲインg(ベクトルgの要素)で重み付けされたラウドスピーカの位置の重心に配置するモデルから導出される。

式(3)は、その後、所望のオーディオ位置と起動されたラウドスピーカにより生成された位置との二乗誤差を示す空間コストへと変形される。

FVの場合、コスト関数の空間項は、異なるように定義される。その目的は、聴者の左耳および右耳におけるオーディオオブジェクト位置
に対応するバイノーラルレスポンスbを生成することである。コンセプト上、bはフィルタの2x1ベクトル(片耳に1つのフィルタ)であるが、より簡便には、特定の周波数における複素数の2x1ベクトルとして扱う。この特定の周波数における表現で進めると、所望のバイノーラルレスポンスは、オブジェクト位置で索引付けされた1組のHRTFから取得し得る。

それと同時に、ラウドスピーカにより聴者の耳において生成された2x1バイノーラルレスポンスeは、2xM音響伝達マトリクスHに複素スピーカ起動電位値(complex speaker activation value)のMx1ベクトルgを掛け合わせたものとしてモデル化される。

音響伝達マトリクスHは、聴者の位置に対する、ラウドスピーカの位置の集合
に基づきモデル化される。最後に、コスト関数の空間成分は、所望のバイノーラルレスポンス(式(5))とラウドスピーカにより生成されたバイノーラルレスポンス(式(6))との二乗誤差として定義される。

簡便には、式(4)および式(7)に定義したCMAPおよびFVについてのコスト関数の空間項は、両方とも、スピーカ起動電位gの関数としての二次行列に変形され得る。

ここで、AはMxMの正方行列であり、Bは1xMベクトルであり、Cはスカラーである。行列Aは階数が2であり、したがって、M>2である場合、空間誤差項がゼロに等しいスピーカ起動電位gが無限に存在する。コスト関数の第2項Cproximityを導入することにより、この不確定性が除かれ、結果として、他の可能な解と比較して、知覚に関して有益な特性を有する特定の解が得られる。CMAPおよびFVの両方について、Cproximityは、所望のオーディオ信号位置
から離れた位置
に存在するスピーカの起動が、所望の位置の近くに配置されたスピーカの起動よりも大きい罰則を受けるように、構成される。この構成により、スパース(疎ら)であるスピーカ起動電位の最適な集合が生成され(ここで、所望のオーディオ信号の位置に近接したスピーカのみが有意に起動される)、実際に、結果として、1組のスピーカの周囲における聴者の移動に対して知覚上よりロバストな、オーディオ信号の空間再生が得られる。
この目的のために、コスト関数の第2項Cproximityは、スピーカ起動電位の絶対値の二乗の距離加重合計として定義されてもよい。これは、次式のように、行列の形でコンパクトに表現される。

ここで、Dは、所望のオーディオ位置と各スピーカとの間の距離罰則の対角行列である。
距離罰則関数は、多くの形式をとり得るが、次式は有用なパラメータ化である。

(9c)
ここで、
は所望のオーディオ位置とスピーカ位置との間のユークリッド距離であり、αおよびβは調節可能なパラメータである。パラメータαは罰則の全体的な強度を示す。dは距離罰則の空間的範囲に対応し(およそ距離d以上離れた位置のラウドスピーカが罰せられる)、βは距離dにおける罰則の開始の急激度(abruptness)を表す。
式(8)および式(9a)で定義されたコスト関数の2つの項を組み合わせることにより、コスト関数全体が得られる。
このコスト関数の、gに対する導関数をゼロに設定し、gについて解くことにより、スピーカ起動電位の最適解が得られる。
概して、式(11)における最適解は、負の値のスピーカ起動電位を生じ得る。フレキシブルレンダラーのCMAP構成にとって、そのような負の起動電位は望ましくないかもしれず、したがって、式(11)は、全ての起動電位が正の値であると限定して、最小化されてもよい。
図15および図16は、スピーカ起動電位の集合の一例およびオブジェクトレンダリング位置を示す図である。これらの例において、スピーカ起動電位およびオブジェクトレンダリング位置は、4度、64度、165度、-87度、および-4度のスピーカ位置に対応している。図15は、スピーカ起動電位1505a、1510a、1515a、1520aおよび1525aを示す。これらは、上記特定のスピーカ位置について、式(11)に対する最適解を含んでいる。図16は、個々のスピーカ位置を、ドット1605、1610、1615、1620および1625としてプロットしている。これらは、それぞれ、スピーカ起動電位1505a、1510a、1515a、1520aおよび1525aに対応している。図16はまた、多数の考え得るオブジェクト角度(ドット1630a)に対する、理想のオブジェクト位置(換言すると、オーディオオブジェクトがレンダリングされる位置)、ならびに、それらオブジェクトについての、対応する実際のレンダリング位置(点線1640aにより理想のオブジェクト位置に連結されたドット1635a)を示している。
ある種の実施形態は、複数のコーディネート(オーケストレーション)されたスマートオーディオデバイスのうちの少なくとも1つ(例えば、全てまたはいくつか)による再生のために、オーディオ音声をレンダリングする方法を含む。例えば、ユーザの自宅に設けられた(システムに含まれる)1組のスマートオーディオデバイスは、さまざまな同時のユースケースに対処するようにオーケストレーションされてもよい。このようなケースは、全てまたはいくつかのスマートオーディオデバイスによる(つまり、全てまたはいくつかのスマートオーディオデバイスのスピーカ(単数または複数)による)再生のために、(実施形態に従って)オーディオ音声のフレキシブルレンダリングを行うことを含む。レンダリングに対する動的修正を要求する、システムとのインタラクションが多数想定されている。そのような修正は、空間忠実性(spatial fidelity)に焦点をあててもよいが、必ずしもその限りではない。
いくつかの実施形態は、1組のスマートオーディオデバイスのうちの少なくとも1つ(例えば、全てまたはいくつか)による再生のために(もしくは、別の1組のスピーカのうちの少なくとも1つ(例えば、全てまたはいくつか)による再生のために)、オーディオ音声をレンダリングする方法である。レンダリングは、コスト関数の最小化を含んでもよい。ここで、コスト関数は、少なくとも1つの動的なスピーカ起動電位の項を含む。そのような動的なスピーカ起動電位の項の例として、以下に列挙するものが挙げられる(但し、それらには限定されない):
・ 1人以上の聴者に対するスピーカの近接度;
・ 引力または斥力(attracting or repelling force)に対するスピーカの近接度;
・ いくつかの位置(例えば、聴者の位置、または乳児部屋)に対するスピーカの可聴度;
・ スピーカの能力(例えば、周波数特性および歪み);
・ スピーカの、他のスピーカとの同期性;
・ ウェイクワード性能;ならびに、
・ エコー除去性能。
動的なスピーカ起動電位の項(単数または複数)は、さまざまな振る舞いのうちの少なくとも1つを可能にしてもよい。これらの振る舞いは、特定のスマートオーディオデバイスから離れる方向に、オーディオ音声の空間的プレゼンテーション(spatial presentation)をワーピングすることにより、そのマイクロフォンが話者の発声をより良く聞くことができるようにすること、もしくは、二次的オーディオストリームが、スマートオーディオデバイスのスピーカ(単数または複数)からより良く聞こえるようにすることを含む。
いくつかの実施形態は、コーディネート(オーケストレーション)された複数のスマートオーディオデバイスのスピーカ(単数または複数)による再生のためのレンダリングを実装する。他の実施形態は、別の1組のスピーカのスピーカ(単数または複数)による再生のためのレンダリングを実装する。
(いくつかの実施形態に応じて実装される)フレキシブルレンダリング方法を、1組のワイヤレススマートスピーカ(または他のスマートオーディオデバイス)と組み合わせることにより、極めて能力が高くかつ使い易い空間オーディオレンダリングシステムを得ることができる。そのようなシステムとのインタラクションを想定する際に、システムの使用中に起こり得る他の目的のために最適化するために、空間レンダリングに動的な修正を加えることが望ましいことが明白になる。この目的を達成するために、ある種の実施形態は、(スピーカ起動電位が既に開示した空間項および近接度項の関数である)既存のフレキシブルレンダリングアルゴリズムを、レンダリングされているオーディオ信号、1組のスピーカ、および/または他の外部入力の1つ以上の特性に基づき、1つ以上の追加の動的に設定可能な関数で増大する。いくつかの実施形態によると、式(1)に与えられた既存のフレキシブルレンダリングのコスト関数は、次式に応じて、これら1つ以上の追加の依存性で増大される。
式(12)において、項
は、追加のコスト項を示す。ここで、
はレンダリングされている(例えば、オブジェクト型オーディオプログラムの)オーディオ信号の1つ以上の特性からなる集合を示し、
はオーディオ音声がレンダリングされているスピーカの1つ以上の特性からなる集合を示し、
は1つ以上の追加の外部入力を示す。各項
は、集合
により包括的に表される、オーディオ信号、スピーカ、および/または外部入力の1つ以上の特性の組み合わせに関して、起動電位gの関数としてコストを返す。なお、集合
は、

、または
のうち、最低でも1つの要素を含むことを理解されたい。
以下に、
の例を挙げる(但し、それらに限定されない)。
・ オーディオ信号の、所望の知覚された空間位置;
・ オーディオ信号のレベル(おそらく時変);および/または
・ オーディオ信号のスペクトル(おそらく時変)。
以下に、
の例を挙げる(但し、それらに限定されない)。
・ リスニング空間内のラウドスピーカの位置;
・ ラウドスピーカの周波数特性;
・ ラウドスピーカの再生レベルの上下限;
・ スピーカ内のダイナミクス処理アルゴリズムのパラメータ(リミッターゲイン(limiter gains)など);
・ 各スピーカから他のスピーカへの音響伝達の測定値または推定値;
・ スピーカにおけるエコー除去性能の尺度;および/または、
・ スピーカ間における相対的な同期。
以下に、
の例を挙げる(但し、それらに限定されない)。
・ 再生空間内の1人以上の聴者または話者の位置;
・ 各ラウドスピーカからリスニング位置への音響伝達の測定値または推定値;
・ 話者から1組のラウドスピーカへの音響伝達の測定値または推定値;
・ 再生空間内の何らかの他のランドマークの位置;および/または、
・ 再生空間内における各スピーカから何らかの他のランドマークへの音響伝達の測定値または推定値。
式(12)に規定する新たなコスト関数で、先に式(2a)および式(2b)で特定されたgについての最小化および考え得る事後正規化を介して、最適な1組の起動電位が見出され得る。
図17は、図2Aに示すような装置またはシステムにより実行され得る方法の一例の概略を示す流れ図である。方法1700のブロックは、本明細書に開示する他の方法と同様、必ずしも図示した順序どおり実行する必要はない。さらに、このような方法は、図示および/または説明したブロックより多い個数または少ない個数のブロックを含んでもよい。方法1700のブロックは、図2Aに示す制御システム210などの制御システムであり得る(または制御システムを含み得る)、1つ以上のデバイスにより実行されてもよい。
この実施態様において、ブロック1705は、制御システムにより、インターフェイスシステムを介して、オーディオデータを受信することを含む。この例において、オーディオデータは、1つ以上のオーディオ信号および関連付けられた空間データを含む。この実施態様によると、空間データは、オーディオ信号に対応する、目標の知覚された空間位置を示す。いくつかの例において、目標の知覚された空間位置は、例えば、DolbyAtmos位置メタデータなどの位置メタデータにより示されるように、明示的であってもよい。他の例において、目標の知覚された空間位置は、暗黙的であってもよい。例えば、目標の知覚された空間位置は、Dolby5.1、Dolby7.1または他のチャネル型オーディオフォーマットに基づくチャネルに関連付けられた仮定の位置であってもよい。いくつかの例において、ブロック1705は、インターフェイスシステムを介してオーディオデータを受信する制御システムのレンダリングモジュールを含む。
この例によると、ブロック1710は、制御システムにより、環境の1組のラウドスピーカを介した再生のためのオーディオデータをレンダリングして、レンダリングされたオーディオ信号を生成することを含む。この例において、オーディオデータに含まれる1つ以上のオーディオ信号の各々をレンダリングすることは、コスト関数を最適化することにより、環境内の1組のラウドスピーカの相対的な起動を決定することを含む。この例によると、コストは、環境内の1組のラウドスピーカ上で再生される場合のオーディオ信号の知覚された空間位置のモデルの関数である。この例において、コストはまた、1組のラウドスピーカのうちの各ラウドスピーカの位置に対する、オーディオ信号の目標の知覚された空間位置の近接度の尺度の関数でもある。この実施態様において、コストはまた、1つ以上の追加の動的に設定可能な関数の関数でもある。この例において、動的に設定可能な関数は、以下の事項のうち1つ以上の事項に基づく。1人以上の聴者に対するラウドスピーカの近接度;引力位置に対するラウドスピーカの近接度。ここで、引力は、引力位置により近接した、相対的により高いラウドスピーカ起動電位を好む要素である。;斥力位置に対するラウドスピーカの近接度。ここで、斥力は、斥力位置により近接した、相対的により低いラウドスピーカ起動電位を好む要素である。;環境内の他のラウドスピーカに対する、各ラウドスピーカの能力;ラウドスピーカの、他のラウドスピーカとの同期;ウェイクワード性能;または、エコー除去性能。
この例において、ブロック1715は、レンダリングされたオーディオ信号を、環境の1組のラウドスピーカのうちの少なくともいくつかのラウドスピーカに、インターフェイスシステムを介して提供することを含む。
いくつかの例によると、知覚された空間位置のモデルは、聴者の左右の耳において、オーディオオブジェクト位置に対応するバイノーラルレスポンスを生成してもよい。代替的にまたは追加的に、知覚された空間位置のモデルは、1組のラウドスピーカから再生されるオーディオ信号の知覚された空間位置を、ラウドスピーカの関連付けられた起動ゲインで重み付けされた、1組のラウドスピーカの位置の重心に配置してもよい。
いくつかの例において、1つ以上の追加の動的に設定可能な関数は、1つ以上のオーディオ信号のレベルに少なくとも部分的に基づいてもよい。いくつかの例において、1つ以上の追加の動的に設定可能な関数は、1つ以上のオーディオ信号のスペクトルに少なくとも部分的に基づいてもよい。
方法1700のいくつかの例は、ラウドスピーカレイアウト情報を受信することを含む。いくつかの例において、1つ以上の追加の動的に設定可能な関数は、環境内のラウドスピーカの各々の位置に少なくとも部分的に基づいてもよい。
方法1700のいくつかの例は、ラウドスピーカ仕様情報を受信することを含む。いくつかの例において、1つ以上の追加の動的に設定可能な関数は、各ラウドスピーカの能力に少なくとも部分的に基づいてもよい。ここで、各ラウドスピーカの能力は、周波数特性、再生レベルの上下限値、または1つ以上のラウドスピーカダイナミクス処理アルゴリズムのうちの1つ以上を含み得る。
いくつかの例によると、1つ以上の追加の動的に設定可能な関数は、各ラウドスピーカから他のラウドスピーカへの音響伝達の測定値または推定値に少なくとも部分的に基づいてもよい。代替的にまたは追加的に、1つ以上の追加の動的に設定可能な関数は、環境内の1人以上の人々のうちの聴者または話者の位置に少なくとも部分的に基づいてもよい。代替的にまたは追加的に、1つ以上の追加の動的に設定可能な関数は、各ラウドスピーカから聴者または話者の位置への音響伝達の測定値または推定値に少なくとも部分的に基づいてもよい。音響伝達の推定値は、例えば、各ラウドスピーカと聴者または話者の位置との間に存在し得る壁、家具、または他の物体に少なくとも部分的に基づいてもよい。
代替的にまたは追加的に、1つ以上の追加の動的に設定可能な関数は、環境内の1つ以上のラウドスピーカではない物体またはランドマークのオブジェクト位置に少なくとも部分的に基づいてもよい。いくつかのそのような実施態様において、1つ以上の追加の動的に設定可能な関数は、各ラウドスピーカからオブジェクト位置またはランドマーク位置への音響伝達の測定値または推定値に少なくとも部分的に基づいてもよい。
1つ以上の適切に定義された追加のコスト項を用いてフレキシブルレンダリングを実装することにより、数多の新しくかつ有用な振る舞いが達成されてもよい。以下に列挙する全ての振る舞いの例は、望ましくないと考えられる一定の条件下において、所与のラウドスピーカを罰することに関してキャスティング(cast)される。最終結果として、これらのラウドスピーカは、1組のオーディオ信号の空間レンダリングにおいて、比較的起動され難い(activated less)。これらの場合の多くにおいて、空間レンダリングに任意の修正を加えることとは別に、単に望ましくないラウドスピーカの音量を下げることを考え得るが、そのような戦略は、オーディオコンテンツの全体のバランスを著しく損ねるかもしれない。例えば、ミキシングした音声に含まれる或る成分が、全く聞こえなくなるかもしれない。一方、開示した実施態様では、これらの罰則付与をレンダリングのコア最適化に統合することにより、レンダリングを適合させ、残りの罰則の小さいスピーカを用いて考え得る最良の空間レンダリングを実行することを可能にする。これは、はるかに上質で、適合性があり、かつ効果的な解決方法である。
ユースケースの例は以下のものを含むが、それらに限定されるものではない。
・ リスニングエリア周辺に、よりバランスのとれた空間的プレゼンテーションを提供する。
〇 空間オーディオ音声は、目的のリスニングエリアから概ね同じ距離にあるラウドスピーカに亘って、最良の状態で提示されることがわかっている。ラウドスピーカからリスニングエリアまでの距離の平均と比較して、かなり近くにあるラウドスピーカまたはかなり離れたラウドスピーカが罰せられて、その起動が低減されるように、コストが構成されてもよい。
・ 聴者または話者から離れる方向もしくは聴者または話者に近づく方向に、オーディオ音声を移動する。
〇 システムのユーザが、システムの(またはシステムに関連付けられた)スマート音声アシスタントに話しかけようとする場合、話者により近いラウドスピーカを罰するコストを生成することが有益かもしれない。このようにして、これらのラウドスピーカは比較的起動され難く(activated less)、それらの関連付けられたマイクロフォンは、話者の発声をより良く聞くことが可能になる。
〇 リスニング空間内の他者に対する再生レベルを最小化する、1人の聴者にとってより親密な体験を提供するために、聴者の位置から離れた位置にあるスピーカを重く罰することにより、聴者に最も近いスピーカのみが最も有意に起動されるようにしてもよい。
・ ランドマーク、ゾーン、またはエリアから離れる方向もしくはランドマーク、ゾーン、またはエリアに近づく方向に、オーディオ音声を移動する。
〇 リスニング空間の近傍の所与の位置は、要注意であると考え得る(乳児部屋、乳児のベッド、オフィス、読書エリア、学習エリアなど)。そのような場合、この位置、ゾーン、またはエリアに近いスピーカの使用を罰するように、コストが構成されてもよい。
〇 あるいは、上記と同じ場合(または同様の場合)について、特に(取り付けられたまたは関連付けられたマイクロフォンを有する)スピーカのうちの1つが乳児部屋内部に設けられている場合、スピーカのシステムは、各スピーカから乳児部屋内への音響伝達の測定値を生成済みであり得る。この場合、乳児部屋に対するスピーカの物理的近接度を用いるのではなく、測定された乳児部屋内への音響伝達が高いスピーカを使用することを罰するように、コストを構成してもよい。
・ スピーカの能力の最適使用
〇 異なるラウドスピーカの能力は、大きく異なり得る。例えば、ある人気のスマートスピーカは、限定的な低周波数能力の、1.6インチフルレンジドライバを1つだけ備えている。一方、別のスマートスピーカは、はるかに能力の高い3インチウーファーを備えている。これらの能力は、概して、スピーカの周波数特性に反映されるので、スピーカに関連付けられた周波数特性の集合を、コスト項に利用し得る。特定の周波数において、周波数特性の点で他のスピーカと比べて能力の劣るスピーカは、罰則が与えられ、したがって、このスピーカが起動される程度はより低くなり得る。いくつかの実施態様において、このような周波数特性値は、スマートラウドスピーカと共に格納され、その後、フレキシブルレンダリングを最適化する責任を負った演算ユニットに伝達されてもよい。
〇 多くのスピーカが複数のドライバを備えており、各ドライバは、異なる周波数帯域を再生する責任を負っている。例えば、ある任意のスマートスピーカは、低周波数用のウーファーと高周波数用のツイーターを備えた2way設計である。典型的には、そのようなスピーカは、フルレンジの再生オーディオ信号を複数の適切な周波数帯域に分割して、それぞれのドライバに送信するクロスオーバー回路を備えている。あるいは、そのようなスピーカは、個々のドライバの能力に関する情報(周波数特性など)だけでなく、個々のドライバへの再生アクセスを、フレキシブルレンダラーに提供する。直前に説明したようなコスト項を適用することにより、いくつかの例において、フレキシブルレンダラーは、2つのドライバの間のクロスオーバーを、異なる周波数におけるそれらドライバの相対的な能力に基づき、自動的に形成してもよい。
〇 上述の周波数特性の使用例は、スピーカの固有の能力に焦点を当てているが、リスニング環境に配置されたスピーカの能力を正確に反映しなくてもよい。所与の場合において、目的のリスニング位置で測定されたスピーカの周波数特性は、何らかの較正処置を介して利用可能であってもよい。スピーカの使用をさらに良く最適化すべく、そのような測定値を、予備計算された周波数特性の代わりに用いてもよい。例えば、あるスピーカは、ある特定の周波数において固有の能力が高いかもしれないが、その配置(例えば、壁や家具の裏側)のせいで、目的のリスニング位置における周波数特性が大きく限定され得る。この周波数特性をキャプチャしかつ適切なコスト項に与えられる測定値により、そのようなスピーカの有意な起動を防止することができる。
〇 周波数特性は、ラウドスピーカの再生能力の1つのアスペクトにすぎない。多くの小型ラウドスピーカは、再生レベルが上昇するにつれ、まず歪み始めて、その後、特に低い周波数について、エクスカーション限界に到達する。そのような歪みを低減するために、多くのラウドスピーカが、再生レベルを、周波数に亘って可変であり得る、いくつかの限界閾値よりも低いレベルに抑制する、ダイナミクス処理を実装する。スピーカがこれら閾値の近傍または閾値上にある一方で、フレキシブルレンダリングに参加している他のスピーカがそうでない場合、この限界に達しているスピーカにおいて信号レベルを低減し、このエネルギを他の比較的負担の少ないスピーカに振り向けることは、理に適っている。そのような振る舞いは、関連付けられたコスト項を適切に設定することにより、いくつかの実施形態に従って、自動的に達成され得る。そのようなコスト項は、以下の事項のうちの1つ以上を含んでもよい。
・ ラウドスピーカの限界閾値に関して、全体の再生音量を監視する。例えば、音量レベルがその限界閾値に近いラウドスピーカに、より大きい罰則を与えてもよい。
・ ラウドスピーカ限界閾値(おそらく周波数に亘って可変)に対する関係において、動的な信号レベル(おそらく周波数に亘って可変)を監視する。例えば、監視された信号レベルがその限界閾値により近いラウドスピーカは、より大きい罰則を与えられてもよい。
・ 制限ゲイン(limiting gains)など、ラウドスピーカのダイナミクス処理のパラメータを直接監視する。いくつかのそのような例において、これらパラメータがより大きい制限を示すラウドスピーカは、より大きい罰則を与えられてもよい。
・ 増幅器によりラウドスピーカへと給送される、実際の瞬間的な電圧、電流、および電力を監視して、ラウドスピーカが、線形範囲において動作しているか否かを判定する。例えば、より低い線形性で動作しているラウドスピーカが、より大きい罰則を与えられ得る。
〇 一体型のマイクロフォンおよび対話型音声アシスタントを備えたスマートスピーカは、典型的には、ある種のエコー除去技術を用いて、録音マイクロフォンにより採録された、スピーカから再生されているオーディオ信号のレベルを低減する。この低減が大きくなるほど、スピーカは、空間内の話者の発声を聞き取りかつ理解できる可能性が高まる。エコーキャンセラの残余が一貫して高い場合、このことは、スピーカが、エコー経路の予測が難しい非線形領域内へと駆動されていることを示しているかもしれない。そのような場合、このスピーカから離れる方向に信号エネルギを振り向けることは、理に適っているかもしれず、したがって、エコー除去性能を考慮したコスト項が有益かもしれない。そのようなコスト項は、その関連付けられたエコーキャンセラの性能が低いスピーカに、高いコストを割り当て得る。
〇 複数のラウドスピーカ上で空間オーディオ音声をレンダリングする場合に、予測可能なイメージングを達成するために、概して、1組のラウドスピーカ上での再生を、時間全体に亘って適度に同期させることが要求される。有線接続されたラウドスピーカにとっては当然であるが、多数の無線ラウドスピーカで、同期をとるのは難しく、最終結果が変動し得る。そのような場合、各ラウドスピーカは、目的のスピーカとの同期の相対的な程度を報告することが可能かもしれず、この同期の程度は、同期コスト項に与えられてもよい。いくつかのそのような例において、同期の程度がより低いラウドスピーカは、より大きい罰則が与えられてもよく、したがって、レンダリングから排除されてもよい。さらに、ある種のオーディオ信号(例えば、拡散または無指向性の再生を意図した、ミキシングしたオーディオ音声の成分)には、厳密な同期が要求されなくてもよい。いくつかの実施態様において、成分はメタデータでそのようにタグが付されてもよく、同期コスト項は、罰則が低減されるように修正されてもよい。
次に、実施形態のさらなる例を説明する。式(9a)および式(9b)に定義された近接度コストと同様、新たなコスト関数の項
の各々を、スピーカ起動電位の絶対値の二乗の加重合計として表現することが、都合がよいかもしれない。例えば、次式のとおりである。

ここで、Wは、項jについて起動するスピーカiに関連付けられたコストを説明する重み
の対角行列である。
式(13a)および式(13b)を、式(10)に与えたCMAPおよびFVのコスト関数を二次行列に変換したものと組み合わせることにより、式(12)に与えた(いくつかの実施形態の)一般的な拡大されたコスト関数の、潜在的に有益な実施態様が得られる。
新たなコスト関数の項がこのように定義されると、コスト関数全体は二次行列のままであり、起動電位の最適な集合goptは、式(14)の微分を介して、次式のように見出し得る。
重みの項wijの各々を、ラウドスピーカの各々についての、所与の連続の罰則値
の関数として考えることが有益である。ある実施形態例において、この罰則値は、(レンダリングしようとする)オブジェクトから考慮されたラウドスピーカまでの距離である。別の実施形態例において、この罰則値は、所与のラウドスピーカがいくつかの周波数を再生できないことを表す。この罰則値に基づき、重みの項wijを、次のようにパラメータ化できる。

ここで、αは(重み項の全体の強度を考慮に入れた)前因子(pre-factor)である。τは罰則閾値である(この罰則閾値の周辺においてまたはこの罰則閾値を超えると、重みの項が有意になる)。f(x)は単調増加関数である。例えば、
の場合、重みの項は次式の形を有する。

ここで、α、β、τは、それぞれが罰則の全体的な強度、罰則の開始の急激度、および罰則の範囲を示す、調節可能なパラメータである。これらの調節可能な値を設定する際には、コスト項Cの別の追加のコスト項に対する相対的な効果が、CspatialおよびCproximityと同様、所望の結果を達成するために適切なものとなるように、留意する必要がある。例えば、経験則から言うと、あるものが、他のものを明確に支配するために、特定の罰則を望む場合、その強度αを、次に最も大きい罰則強度の約10倍大きく設定することが適切であり得る。
全てのラウドスピーカが罰せられた場合、後処理において全ての重み項から最小の罰則を減じて、これらスピーカのうち少なくとも1つが罰せられないようにするのが、多くの場合において好都合である。
上述のとおり、本明細書に記載の新たなコスト関数項(および、他の実施形態に従って使用される、同様の新たなコスト関数項)を用いて実現され得る、考え得るユースケースが多数存在する。次に、より具体的な詳細を、3つの例(聴者または話者に向かう方向にオーディオ音声を移動する例、聴者または話者から離れる方向にオーディオ音声を移動する例、ならびに、ランドマークから離れる方向にオーディオ音声を移動する例)により説明する。
第1の例では、本明細書において「引力」と呼ぶものを用いて、ある位置に向かってオーディオ音声を引っ張る。ここで、ある位置とは、いくつかの例において、聴者または話者の位置、ランドマークの位置、家具の位置などであり得る。この位置を、本明細書中、「引力位置」または「アトラクター位置」と呼ぶ場合もある。本明細書で用いる「引力」は、引力位置により近くなるほど、相対的により高いラウドスピーカ起動電位を好む要素である。この例によると、重みwijは、式(17)の形をとる。連続的罰則値pijは、固定されたアトラクターの位置
からi番目のスピーカまでの距離により与えられ、閾値τは、全てのスピーカについてのこれら距離のうちの最大値により与えられる。

聴者または話者に向かう方向にオーディオ音声を「引っ張る」ことのユースケースを説明するために、具体的には、α=20、β=3、
を180度の聴者/話者の位置(プロットの底部中央)に対応するベクトルに設定する。α、βおよび
のこれらの値は、例示に過ぎない。いくつかの実施態様において、αは1~100の範囲内であってもよく、βは1~25の範囲内であってもよい。図18は、実施形態例における、スピーカ起動電位のグラフである。この例において、図18は、スピーカ起動電位1505b、1510b、1515b、1520bおよび1525bを示す。これらは、wijで表される引力を加えた、図15および図16と同じスピーカ位置についてのコスト関数に対する最適解を含んでいる。図19は、実施形態例における、オブジェクトレンダリング位置のグラフである。この例において、図19は、多数の考え得るオブジェクト角度についての、対応する理想的なオブジェクト位置1630bと、それらオブジェクトについての、対応する実際のレンダリング位置1635bとを示す。実際のレンダリング位置1635bは、点線1640bで、理想的なオブジェクト位置1630bに連結されている。実際のレンダリング位置1635bの、固定された位置
へと向かう斜めの向きは、コスト関数への最適解に対する、アトラクター重み付けのインパクトを示している。
第2および第3の例では、「斥力」を用いて、ある位置から離れる方向にオーディオ音声を「押す」。ここで、ある位置とは、人の位置(例えば、聴者の位置、話者の位置など)であってもよいし、ランドマークの位置、家具の位置など、別の位置であってもよい。いくつかの例において、斥力を用いて、リスニング環境の或るエリアまたはゾーン(オフィスエリア、読書エリア、ベッドまたは寝室エリア(例えば、乳児用のベッドまたは寝室)など)から離れる方向にオーディオ音声を押してもよい。いくつかのそのような例によると、或る特定の位置を、ゾーンまたはエリアの代表として用いてもよい。例えば、乳児用ベッドを代表する位置は、乳児の頭の推定位置や、乳児に対応する推定される音声源の位置などであってもよい。この位置を、本明細書中、「斥力位置」または「斥位置」と呼ぶ場合もある。本明細書で用いる「斥力」は、斥力位置により近くなるほど、相対的により低いラウドスピーカ起動電位を好む要素である。この例によると、式(19)の引力と同様に、固定された斥位置
に対して、pijおよびτを次のように定義する。


聴者または話者から離れる方向にオーディオ音声を押すことのユースケースを説明するために、具体的には、α=5、β=2、
を180度の聴者/話者の位置(プロットの底部中央)に対応するベクトルに設定する。α、βおよび
のこれらの値は、例示に過ぎない。上述のとおり、いくつかの例において、αは1~100の範囲内であってもよく、βは1~25の範囲内であってもよい。図20は、実施形態例における、スピーカ起動電位のグラフである。この例によると、図20は、スピーカ起動電位1505c、1510c、1515c、1520cおよび1525cを示す。これらは、wijで表される斥力を加えた、前の図面と同じスピーカ位置についてのコスト関数に対する最適解を含んでいる。図21は、実施形態例における、オブジェクトレンダリング位置のグラフである。この例において、図21は、多数の考え得るオブジェクト角度についての、理想的なオブジェクト位置1630cと、それらオブジェクトについての、対応する実際のレンダリング位置1635cとを示す。実際のレンダリング位置1635cは、点線1640cで、理想的なオブジェクト位置1630cに連結されている。実際のレンダリング位置1635cの、固定された位置
から離れる斜めの向きは、コスト関数への最適解に対する、リペラー(repeller)重み付けのインパクトを示している。
第3のユースケースの例は、就寝中の乳児の部屋へと続くドアなどの、音響的に要注意であるランドマークから離れる方向にオーディオ音声を「押す」ことである。1つ前の例と同様に、
を180度のドア位置(プロットの底部中央)に対応するベクトルに設定する。より強い斥力を達成し、かつ、音場を、主要なリスニング空間の前方部分内へと全体的に歪めるために、α=20、β=5と設定する。図22は、実施形態例における、スピーカ起動電位のグラフである。再び、この例において、図22は、スピーカ起動電位1505d、1510d、1515d、1520dおよび1525dを示す。これらは、より強い斥力を加えた、同じ集合のスピーカ位置に対する最適解を含んでいる。図23は、実施形態例における、オブジェクトレンダリング位置のグラフである。再び、この例において、図23は、多数の考え得るオブジェクト角度についての、理想的なオブジェクト位置1630dと、それらオブジェクトについての、対応する実際のレンダリング位置1635dとを示す。実際のレンダリング位置1635dは、点線1640dで、理想的なオブジェクト位置1630dに連結されている。実際のレンダリング位置1635dの斜めの向きは、コスト関数への最適解に対する、より強いリペラー重み付けのインパクトを示している。
図2Bの方法250のさらなる例において、ユースケースは、オーディオ環境における2つ以上のオーディオデバイスの選択(ブロック265)と、「斥ける」力をオーディオ音声に適用すること(ブロック275)とに応じている。前の例によると、2つ以上のオーディオデバイスの選択は、いくつかの例において、値f_n(オーディオ処理変更が起こる程度を制御する無単位のパラメータ)の形をとり得る。多くの組み合わせが可能である。1つの単純な例において、斥力に対応する重みは、
として直接的に選択されてもよく、「決定」アスペクトにより選択されたデバイスを罰する。
重みを決定する前述の例に対してさらに、いくつかの実施態様において、重みは次式のように決定されてもよい。
上記式において、α、β、τは、式(17)を参照して既に説明したように、それぞれが罰則の全体的な強度、罰則の開始の急激度、および罰則の範囲を示す、調節可能なパラメータである。したがって、上記式は、複数の罰則項の組み合わせとして理解されてもよく、これは、複数の同時のユースケースから起こるものである。例えば、オーディオ音声は、先行する例において説明した項pijおよび項τを用いて、要注意であるランドマークから「押し離され」、また一方では、決定アスペクトにより決定された項fを用いてSERを改善するのが望ましいマイクロフォン位置からも「押し離され」る。
前の例はまた、発話対エコー比改善値(デシベル)で直接的に表現されたs_nを導入している。いくつかの実施形態は、部分的に、s_nの値(dB)に基づき、αの値およびβの値(それぞれ、罰則の強度および罰則の開始の急激度)を選択することを含んでもよく、wijについて上で示した式は、αおよびβの代わりに、それぞれ、αijおよびβijを用い得る。例えば、s_i=-20dBの値は、i番目のスピーカを起動する高いコストに対応し得る。いくつかのそのような例において、αijは、コスト関数の他の項CspatialおよびCproximityの典型的な値よりも何倍も高い値に設定してもよい。例えば、αの新たな値は、
により決定され得る。これは、s_i=-20dBの値について、結果として、コスト関数における通常の値よりも10倍大きい値のαijになり得る。βijを、0.5<βij<1.0の範囲内に設定されるように修正することは、いくつかの例において、s_iの大きい負の値に基づき、適切な修正であり得、i番目のスピーカの周辺のかなり大きい領域から離れる方向にオーディオ音声を「押す」。例えば、s_iの値は、次式に応じて、βijにマッピングされ得る。

この例において、s_i=-20.0dBについて、βijは0.8333であり得る。
実施形態例の複数の側面は、以下の列挙実施形態例(EEE)を含む。
EEE1. ユーザからのボイスコマンドを検出するために信号対エコー比を改善する方法(またはシステム)であって、
a.出力オーディオプログラム素材を生成するために、複数のデバイスが使用中である。
b.これらデバイスについて、聴者からの距離または順序付けられた関係の既知の集合がある。
c.システムは、ユーザからの距離が最も短いデバイスの音量を選択的に下げる。
EEE2. EEE1の方法またはシステムであって、信号の検出は、任意の雑音発生オブジェクトからの信号検出、または、1組のデバイスまでの距離の関係が既知であるオーディオ監視の所望の地点からの信号検出を含む、方法またはシステム。
EEE3. デバイスの順序付けを行うEEE1またはEEE2の方法またはシステムであって、距離と、名目上の音源距離(nominal source distance)についてのデバイスの信号対エコー比とを考慮することを含む。
EEE4. EEE1~EEE3のいずれかの方法またはシステムであって、順序付けは、ユーザに対するデバイスの一般化された近接度およびこれのおおよその相互関係(reciprocity)を考慮して、最も効果的な信号対エコー比改善値を推定し、この意味でデバイスの順序付けを行う。いくつかの開示された実施態様の側面は、1つ以上の開示された方法を実行するように構成された(例えば、プログラムされた)システムまたはデバイスと、1つ以上の開示された方法またはそのステップを実装するためのコードを格納した、有形のコンピュータ読取可能媒体(例えばディスク)とを含む。例えば、システムは、1つ以上の開示された方法またはそのステップを含め、1つ以上の開示された方法またはそのステップを含むデータに対して各種演算のいずれかを実行するようにソフトウェアまたはファームウェアでプログラムされた、かつ/またはその他構成された、プログラム可能な汎用プロセッサ、デジタルシグナルプロセッサ、またはマイクロプロセッサであるか、もしくは、そのプロセッサを含み得る。そのような汎用プロセッサは、入力装置と、メモリと、アサートされたデータに応答して1つ以上の開示された方法(またはそのステップ)を実行するようにプログラムされた(かつ/またはその他構成された)処理用サブシステムとを含むコンピュータシステムであってもよいし、そのコンピュータシステムを含んでもよい。
いくつかの開示された実施形態は、1つ以上の開示された方法の実行を含む、オーディオ信号(単数または複数)に対して要求された処理を実行するように設定された(例えば、プログラムされたかその他設定された)、設定可能な(例えばプログラム可能な)デジタルシグナルプロセッサ(DSP)として実装される。あるいは、いくつかの実施形態(またはその要素)は、1つ以上の開示された方法またはそのステップを含め、1つ以上の開示された方法またはそのステップを含む各種演算のいずれかを実行するようにソフトウェアまたはファームウェアでプログラムされた、かつ/またはその他構成された、汎用プロセッサ(例えば、入力装置およびメモリを含み得る、パーソナルコンピュータ(PC)もしくは他のコンピュータシステムまたはマイクロプロセッサ)として実装されてもよい。あるいは、いくつかの開示された実施形態の要素は、1つ以上の開示された方法またはそのステップを実行するように設定された(例えば、プログラムされた)汎用プロセッサまたはDSPとして実装され、システムはまた、他の要素(例えば、1つ以上のラウドスピーカおよび/または1つ以上のマイクロフォン)も含む。1つ以上の開示された方法またはそのステップを実行するように設定された汎用プロセッサは、典型的には、入力装置(例えば、マウスおよび/またはキーボード)と、メモリと、表示装置とに接続され得る。
いくつかの開示された実施態様の別の側面は、1つ以上の開示された方法の任意の実施形態またはそのステップを実行するためのコード(例えば、その実施形態を実行するように実行可能なコーダー)を格納した、コンピュータ読取可能媒体(例えば、ディスクまたは他の有形の記憶媒体)である。
本明細書中、具体的な実施形態および応用を説明したが、本明細書および特許請求の範囲に記載した内容の範囲から逸脱することなく、本明細書で説明した実施形態および応用に多くの改変を為し得ることは、当業者には明らかである。所与の実施態様を図示しかつ説明したが、本開示は、説明しかつ図示した具体的な実施形態もしくは説明した具体的な方法に限定されないことを理解されたい。

Claims (24)

  1. オーディオセッション管理方法であって、
    オーディオ環境内の複数のマイクロフォンの各々からの出力信号を受信するステップであって、前記複数のマイクロフォンの各々は前記オーディオ環境のマイクロフォン位置に存在し、前記出力信号は人の現在の発声に対応する信号を含む、ステップと、
    前記出力信号に基づき、前記人に関するコンテクスト情報の1つ以上のアスペクトを決定するステップであって、前記コンテクスト情報は、前記人の推定される現在位置、および、前記人の1つ以上のマイクロフォン位置に対する推定される現在の近接度のうちの少なくとも1つを含む、ステップと、
    前記人の前記推定される現在位置に最も近い前記マイクロフォン位置に最も近い最近位ラウドスピーカ内蔵オーディオデバイスを決定するステップと、
    前記コンテクスト情報の前記1つ以上のアスペクトに少なくとも部分的に基づき、前記オーディオ環境の2つ以上のオーディオデバイスを選択するステップであって、前記2つ以上のオーディオデバイスの各々は少なくとも1つのラウドスピーカを含み、前記2つ以上のオーディオデバイスは、前記最近位ラウドスピーカ内蔵オーディオデバイスを含む、ステップと、
    前記2つ以上のオーディオデバイス用のラウドスピーカフィード信号へとレンダリングされているオーディオデータに適用する、1種類以上のオーディオ処理変更を決定するステップであって、前記オーディオ処理変更は、前記人の前記推定される現在位置に最も近い前記マイクロフォンにおける発話対エコー比を増大する効果を有し、前記エコーは、前記2つ以上のオーディオデバイスにより出力されたオーディオ音声の少なくとも一部を含み、前記最近位ラウドスピーカ内蔵オーディオデバイスに対する前記オーディオ処理変更の少なくとも1つは、前記2つ以上のオーディオデバイスのうちののオーディオデバイスに対するオーディオ処理変更とは異なり、前記1種類以上のオーディオ処理変更は、前記最近位ラウドスピーカ内蔵オーディオデバイスのラウドスピーカ再生レベルを低下させる、ステップと、
    前記1種類以上のオーディオ処理変更を適用させるステップと、を含む方法。
  2. 前記1種類以上のオーディオ処理変更は、スペクトル修正を含む、請求項1に記載の方
    法。
  3. 前記1種類以上のオーディオ処理変更は、前記2つ以上のオーディオデバイスの前記ラウドスピーカのラウドスピーカ再生レベルを低下させる、請求項1または2に記載の方法。
  4. 前記オーディオ環境の2つ以上のオーディオデバイスを選択するステップは、前記オーディオ環境のN個のラウドスピーカ内蔵オーディオデバイスを選択することを含み、Nは2よりも大きい整数である、請求項1からのいずれか1つに記載の方法。
  5. 前記オーディオ環境の前記2つ以上のオーディオデバイスを選択するステップは、マイクロフォン位置およびラウドスピーカ内蔵オーディオデバイス位置の少なくとも一方に対する、前記人の推定される現在位置に少なくとも部分的に基づく、請求項1からのいずれか1つに記載の方法。
  6. 前記1種類以上のオーディオ処理変更は、前記人の前記推定される現在位置から離れる方向に、オーディオ信号のレンダリングをワーピングするように、レンダリングプロセスを変更することを含む、請求項1からのいずれか1つに記載の方法。
  7. 前記スペクトル修正は、500Hzと3KHzとの間の周波数帯域においてオーディオデータのレベルを低下させることを含む、請求項に記載の方法。
  8. 前記1種類以上のオーディオ処理変更は、オーディオ再生信号の少なくとも1つの選択された周波数帯域に、少なくとも1つのギャップを挿入することを含む、請求項1からのいずれか1つに記載の方法。
  9. 前記1種類以上のオーディオ処理変更は、ダイナミックレンジ圧縮を含む、請求項1からのいずれか1つに記載の方法。
  10. 前記2つ以上のオーディオデバイスを選択するステップは、1つ以上のマイクロフォン位置についての信号対エコー比推定値に少なくとも部分的に基づく、請求項1からのいずれか1つに記載の方法。
  11. 前記2つ以上のオーディオデバイスを選択するステップは、前記信号対エコー比推定値が信号対エコー比閾値以下であるか否かを判定することに少なくとも部分的に基づく、請求項10に記載の方法。
  12. 前記1種類以上のオーディオ処理変更を決定するステップは、前記信号対エコー比推定値に少なくとも部分的に基づくコスト関数の最適化に基づく、請求項10に記載の方法。
  13. 前記コスト関数は、レンダリングパフォーマンスに少なくとも部分的に基づく、請求項12に記載の方法。
  14. 前記2つ以上のオーディオデバイスを選択するステップは、近接度推定値に少なくとも部分的に基づく、請求項1から13のいずれか1つに記載の方法。
  15. 各マイクロフォンの前記出力信号から複数の現在の音響的特徴を決定するステップと、
    前記複数の現在の音響的特徴に分類器を適用するステップとをさらに含み、
    前記分類器を適用するステップは、前記オーディオ環境内の複数のユーザゾーン内で前記人によってなされた複数の過去の発声から得られた、過去に決定された音響的特徴に対して訓練されたモデルを適用することを含み、
    前記人に関するコンテクスト情報の1つ以上のアスペクトを決定するステップは、前記分類器からの出力に少なくとも部分的に基づき、前記人が現在位置しているユーザゾーンの推定値を決定することを含む、請求項1から14のいずれか1つに記載の方法。
  16. 前記ユーザゾーンの前記推定値は、前記複数のマイクロフォンの幾何学的位置を参照せずに決定される、請求項15に記載の方法。
  17. 前記現在の発声および前記過去の発声は、ウェイクワードの発声を含む、請求項15または16に記載の方法。
  18. 前記コンテクスト情報の前記1つ以上のアスペクトに応じて少なくとも1つのマイクロフォンを選択するステップをさらに含む、請求項1から17のいずれか1つに記載の方法。
  19. 前記1つ以上のマイクロフォンは、前記オーディオ環境の複数のオーディオデバイス内に設けられている、請求項1から18のいずれか1つに記載の方法。
  20. 前記1つ以上のマイクロフォンは、前記オーディオ環境の1つのオーディオデバイス内に設けられている、請求項1から19のいずれか1つに記載の方法。
  21. 前記1つ以上のマイクロフォン位置のうち少なくとも1つは、1つのオーディオデバイスの複数のマイクロフォンに対応している、請求項1から20のいずれか1つに記載の方法。
  22. 請求項1から21のいずれか1つに記載の方法を実行するように構成された装置。
  23. 請求項1から21のいずれか1つに記載の方法を実行するように構成されたシステム。
  24. つ以上のデバイスを制御して、請求項1から21のいずれか1つに記載の方法を実行させる命令を含む、コンピュータプログラム
JP2022506120A 2019-07-30 2020-07-29 分散配置されたオーディオデバイスのための音響エコー除去制御 Active JP7603055B2 (ja)

Applications Claiming Priority (17)

Application Number Priority Date Filing Date Title
US201962880122P 2019-07-30 2019-07-30
US201962880113P 2019-07-30 2019-07-30
US62/880,122 2019-07-30
ES201930702 2019-07-30
US62/880,113 2019-07-30
ESP201930702 2019-07-30
EP19212391 2019-11-29
EP19212391.7 2019-11-29
US201962950004P 2019-12-18 2019-12-18
US62/950,004 2019-12-18
US202062971421P 2020-02-07 2020-02-07
US62/971,421 2020-02-07
US202062705410P 2020-06-25 2020-06-25
US62/705,410 2020-06-25
US202062705897P 2020-07-21 2020-07-21
US62/705,897 2020-07-21
PCT/US2020/043958 WO2021021857A1 (en) 2019-07-30 2020-07-29 Acoustic echo cancellation control for distributed audio devices

Publications (3)

Publication Number Publication Date
JP2022542962A JP2022542962A (ja) 2022-10-07
JPWO2021021857A5 JPWO2021021857A5 (ja) 2022-10-17
JP7603055B2 true JP7603055B2 (ja) 2024-12-19

Family

ID=71950843

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022506120A Active JP7603055B2 (ja) 2019-07-30 2020-07-29 分散配置されたオーディオデバイスのための音響エコー除去制御

Country Status (11)

Country Link
US (2) US12003673B2 (ja)
EP (1) EP4005228A1 (ja)
JP (1) JP7603055B2 (ja)
KR (1) KR20220044204A (ja)
CN (1) CN114207715A (ja)
AU (1) AU2020323929A1 (ja)
BR (1) BR112022000466A2 (ja)
CA (1) CA3146871A1 (ja)
IL (1) IL289450A (ja)
MX (1) MX2022001162A (ja)
WO (1) WO2021021857A1 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110797041B (zh) * 2019-10-21 2023-05-12 珠海市杰理科技股份有限公司 语音降噪处理方法、装置、计算机设备及存储介质
EP4256811A1 (en) * 2020-12-03 2023-10-11 Dolby Laboratories Licensing Corporation Audibility at user location through mutual device audibility
WO2022234871A1 (ko) 2021-05-04 2022-11-10 엘지전자 주식회사 음장 제어 장치 및 방법
CN113573212B (zh) * 2021-06-04 2023-04-25 成都千立智能科技有限公司 扩声系统、及麦克风通道数据选择方法
US12182476B2 (en) * 2021-08-04 2024-12-31 Panasonic Intellectual Property Management Co., Ltd. Voice notification system, voice notification method, and recording medium
EP4430600A1 (en) * 2021-11-09 2024-09-18 Dolby Laboratories Licensing Corporation Multi-device, multi-channel attention for speech and audio analytics applications
EP4430861A1 (en) * 2021-11-10 2024-09-18 Dolby Laboratories Licensing Corporation Distributed audio device ducking

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007142595A (ja) 2005-11-15 2007-06-07 Yamaha Corp 遠隔会議装置
WO2009004983A1 (ja) 2007-06-29 2009-01-08 Yamaha Corporation 拡声装置
JP2011228899A (ja) 2010-04-19 2011-11-10 Nippon Telegr & Teleph Corp <Ntt> 場内拡声装置

Family Cites Families (79)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5434912A (en) 1993-08-11 1995-07-18 Bell Communications Research, Inc. Audio processing system for point-to-point and multipoint teleconferencing
JP3234811B2 (ja) 1998-09-30 2001-12-04 松下電器産業株式会社 音響エコーキャンセラを備えた通信システム
US6993245B1 (en) 1999-11-18 2006-01-31 Vulcan Patents Llc Iterative, maximally probable, batch-mode commercial detection for audiovisual content
JP2005151356A (ja) 2003-11-18 2005-06-09 Pioneer Electronic Corp 試聴用スピーカ装置
DE602007007581D1 (de) 2007-04-17 2010-08-19 Harman Becker Automotive Sys Akustische Lokalisierung eines Sprechers
KR101469739B1 (ko) 2007-06-21 2014-12-05 코닌클리케 필립스 엔.브이. 오디오 신호들을 처리하는 디바이스 및 방법
US8605890B2 (en) * 2008-09-22 2013-12-10 Microsoft Corporation Multichannel acoustic echo cancellation
CN102713664B (zh) 2010-01-12 2016-03-16 诺基亚技术有限公司 协作式位置/方位估计
CN103348686B (zh) 2011-02-10 2016-04-13 杜比实验室特许公司 用于风检测和抑制的系统和方法
CA3104225C (en) 2011-07-01 2021-10-12 Dolby Laboratories Licensing Corporation System and tools for enhanced 3d audio authoring and rendering
KR101915322B1 (ko) 2012-06-27 2018-11-05 엘지전자 주식회사 반향 제거 장치
US9426600B2 (en) 2012-07-06 2016-08-23 Dirac Research Ab Audio precompensation controller design with pairwise loudspeaker channel similarity
CN104412619B (zh) * 2012-07-13 2017-03-01 索尼公司 信息处理系统
WO2014021588A1 (ko) 2012-07-31 2014-02-06 인텔렉추얼디스커버리 주식회사 오디오 신호 처리 방법 및 장치
US8831957B2 (en) * 2012-08-01 2014-09-09 Google Inc. Speech recognition models based on location indicia
JP6580990B2 (ja) 2012-10-09 2019-09-25 聯發科技股▲ふん▼有限公司Mediatek Inc. オーディオ干渉推定のための方法及び装置
US9424859B2 (en) 2012-11-21 2016-08-23 Harman International Industries Canada Ltd. System to control audio effect parameters of vocal signals
US9491299B2 (en) 2012-11-27 2016-11-08 Dolby Laboratories Licensing Corporation Teleconferencing using monophonic audio mixed with positional metadata
US9237225B2 (en) * 2013-03-12 2016-01-12 Google Technology Holdings LLC Apparatus with dynamic audio signal pre-conditioning and methods therefor
US9936290B2 (en) * 2013-05-03 2018-04-03 Qualcomm Incorporated Multi-channel echo cancellation and noise suppression
US9100466B2 (en) 2013-05-13 2015-08-04 Intel IP Corporation Method for processing an audio signal and audio receiving circuit
US9357080B2 (en) * 2013-06-04 2016-05-31 Broadcom Corporation Spatial quiescence protection for multi-channel acoustic echo cancellation
EP2830065A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for decoding an encoded audio signal using a cross-over filter around a transition frequency
JP6055576B2 (ja) 2013-07-30 2016-12-27 ドルビー・インターナショナル・アーベー 任意のスピーカー・レイアウトへのオーディオ・オブジェクトのパン
GB2512413B (en) 2013-09-18 2015-05-06 Imagination Tech Ltd Acoustic echo cancellation
US9633671B2 (en) 2013-10-18 2017-04-25 Apple Inc. Voice quality enhancement techniques, speech recognition techniques, and related systems
US9888333B2 (en) 2013-11-11 2018-02-06 Google Technology Holdings LLC Three-dimensional audio rendering techniques
US20150195649A1 (en) 2013-12-08 2015-07-09 Flyover Innovations, Llc Method for proximity based audio device selection
US9432768B1 (en) 2014-03-28 2016-08-30 Amazon Technologies, Inc. Beam forming for a wearable computer
US20160039356A1 (en) 2014-08-08 2016-02-11 General Motors Llc Establishing microphone zones in a vehicle
KR102413495B1 (ko) 2014-09-26 2022-06-24 애플 인크. 구성가능한 구역을 구비한 오디오 시스템
US20160125891A1 (en) 2014-10-31 2016-05-05 Intel Corporation Environment-based complexity reduction for audio processing
CN106537942A (zh) 2014-11-11 2017-03-22 谷歌公司 3d沉浸式空间音频系统和方法
US9743213B2 (en) 2014-12-12 2017-08-22 Qualcomm Incorporated Enhanced auditory experience in shared acoustic space
KR102387567B1 (ko) 2015-01-19 2022-04-18 삼성전자주식회사 음성 인식 방법 및 음성 인식 장치
WO2016123560A1 (en) 2015-01-30 2016-08-04 Knowles Electronics, Llc Contextual switching of microphones
US10192546B1 (en) 2015-03-30 2019-01-29 Amazon Technologies, Inc. Pre-wakeword speech processing
US10013981B2 (en) * 2015-06-06 2018-07-03 Apple Inc. Multi-microphone speech recognition systems and related techniques
US9865265B2 (en) 2015-06-06 2018-01-09 Apple Inc. Multi-microphone speech recognition systems and related techniques
US9735747B2 (en) 2015-07-10 2017-08-15 Intel Corporation Balancing mobile device audio
US9858927B2 (en) 2016-02-12 2018-01-02 Amazon Technologies, Inc Processing spoken commands to control distributed audio outputs
EP3209034A1 (en) 2016-02-19 2017-08-23 Nokia Technologies Oy Controlling audio rendering
US10373612B2 (en) 2016-03-21 2019-08-06 Amazon Technologies, Inc. Anchored speech detection and speech recognition
US9949052B2 (en) 2016-03-22 2018-04-17 Dolby Laboratories Licensing Corporation Adaptive panner of audio objects
JP6480644B1 (ja) 2016-03-23 2019-03-13 グーグル エルエルシー マルチチャネル音声認識のための適応的オーディオ強化
WO2017197312A2 (en) 2016-05-13 2017-11-16 Bose Corporation Processing speech from distributed microphones
CN109417678A (zh) 2016-07-05 2019-03-01 索尼公司 声场形成装置和方法以及程序
US9794710B1 (en) 2016-07-15 2017-10-17 Sonos, Inc. Spatial audio correction
US10431211B2 (en) * 2016-07-29 2019-10-01 Qualcomm Incorporated Directional processing of far-field audio
EP3280123B1 (en) 2016-08-03 2022-05-11 Dolby Laboratories Licensing Corporation State-based endpoint conference interaction
US10771631B2 (en) 2016-08-03 2020-09-08 Dolby Laboratories Licensing Corporation State-based endpoint conference interaction
US9972339B1 (en) 2016-08-04 2018-05-15 Amazon Technologies, Inc. Neural network based beam selection
US10580404B2 (en) 2016-09-01 2020-03-03 Amazon Technologies, Inc. Indicator for voice-based communications
CN109791193B (zh) 2016-09-29 2023-11-10 杜比实验室特许公司 环绕声系统中扬声器位置的自动发现和定位
US9743204B1 (en) 2016-09-30 2017-08-22 Sonos, Inc. Multi-orientation playback device microphones
US10181323B2 (en) 2016-10-19 2019-01-15 Sonos, Inc. Arbitration-based voice recognition
US9881632B1 (en) * 2017-01-04 2018-01-30 2236008 Ontario Inc. System and method for echo suppression for in-car communications
US10299278B1 (en) 2017-03-20 2019-05-21 Amazon Technologies, Inc. Channel selection for multi-radio device
US10147439B1 (en) 2017-03-30 2018-12-04 Amazon Technologies, Inc. Volume adjustment for listening environment
US10121494B1 (en) 2017-03-30 2018-11-06 Amazon Technologies, Inc. User presence detection
GB2561844A (en) 2017-04-24 2018-10-31 Nokia Technologies Oy Spatial audio processing
ES2934801T3 (es) 2017-05-03 2023-02-27 Fraunhofer Ges Forschung Procesador de audio, sistema, procedimiento y programa informático para renderización de audio
EP3675508B1 (en) 2017-05-16 2023-01-11 Apple Inc. Methods and interfaces for home media control
US20180357038A1 (en) 2017-06-09 2018-12-13 Qualcomm Incorporated Audio metadata modification at rendering device
US10304475B1 (en) 2017-08-14 2019-05-28 Amazon Technologies, Inc. Trigger word based beam selection
US10446165B2 (en) 2017-09-27 2019-10-15 Sonos, Inc. Robust short-time fourier transform acoustic echo cancellation during audio playback
US10674303B2 (en) * 2017-09-29 2020-06-02 Apple Inc. System and method for maintaining accuracy of voice recognition
US11128977B2 (en) 2017-09-29 2021-09-21 Apple Inc. Spatial audio downmixing
US10192567B1 (en) 2017-10-18 2019-01-29 Motorola Mobility Llc Echo cancellation and suppression in electronic device
EP3704875B1 (en) 2017-10-30 2023-05-31 Dolby Laboratories Licensing Corporation Virtual rendering of object based audio over an arbitrary set of loudspeakers
US10524078B2 (en) 2017-11-29 2019-12-31 Boomcloud 360, Inc. Crosstalk cancellation b-chain
JP6888172B2 (ja) 2018-01-18 2021-06-16 ドルビー ラボラトリーズ ライセンシング コーポレイション 音場表現信号を符号化する方法及びデバイス
CN114175686B (zh) 2019-07-30 2024-03-15 杜比实验室特许公司 音频处理方法和系统及相关非暂时性介质
JP7326583B2 (ja) 2019-07-30 2023-08-15 ドルビー ラボラトリーズ ライセンシング コーポレイション 再生機能が異なる装置を横断したダイナミクス処理
EP4005247A1 (en) 2019-07-30 2022-06-01 Dolby Laboratories Licensing Corporation Coordination of audio devices
WO2021021460A1 (en) 2019-07-30 2021-02-04 Dolby Laboratories Licensing Corporation Adaptable spatial audio playback
CN114521334B (zh) 2019-07-30 2023-12-01 杜比实验室特许公司 音频处理系统、方法和介质
US20220351724A1 (en) 2019-07-30 2022-11-03 Dolby Laboratories Licensing Corporation Multi-device wakeword detection
CN114846821B (zh) 2019-12-18 2025-01-28 杜比实验室特许公司 音频设备自动定位

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007142595A (ja) 2005-11-15 2007-06-07 Yamaha Corp 遠隔会議装置
WO2009004983A1 (ja) 2007-06-29 2009-01-08 Yamaha Corporation 拡声装置
JP2011228899A (ja) 2010-04-19 2011-11-10 Nippon Telegr & Teleph Corp <Ntt> 場内拡声装置

Also Published As

Publication number Publication date
BR112022000466A2 (pt) 2022-03-03
US20230319190A1 (en) 2023-10-05
US20240267469A1 (en) 2024-08-08
JP2022542962A (ja) 2022-10-07
AU2020323929A1 (en) 2022-03-10
IL289450A (en) 2022-02-01
EP4005228A1 (en) 2022-06-01
US12003673B2 (en) 2024-06-04
MX2022001162A (es) 2022-02-22
KR20220044204A (ko) 2022-04-06
WO2021021857A1 (en) 2021-02-04
CN114207715A (zh) 2022-03-18
CA3146871A1 (en) 2021-02-04

Similar Documents

Publication Publication Date Title
JP7603055B2 (ja) 分散配置されたオーディオデバイスのための音響エコー除去制御
JP7271674B2 (ja) ネットワークマイクロフォンデバイスのノイズ分類による最適化
US12170875B2 (en) Managing playback of multiple streams of audio over multiple speakers
CN114175686B (zh) 音频处理方法和系统及相关非暂时性介质
KR102727090B1 (ko) 지능형 개인 비서에 대한 위치 분류
CN114402385A (zh) 具有分布式麦克风的声学分区
US20240323608A1 (en) Dynamics processing across devices with differing playback capabilities
RU2818982C2 (ru) Управление акустической эхокомпенсацией для распределенных аудиоустройств
JP2024545571A (ja) 分散型オーディオデバイスダッキング
EP4256814B1 (en) Insertion of forced gaps for pervasive listening
CN118235435A (zh) 分布式音频设备闪避
CN116547751A (zh) 针对遍布式聆听插入强制间隙
US20240114309A1 (en) Progressive calculation and application of rendering configurations for dynamic applications
CN116783900A (zh) 基于子带域声学回声消除器的声学状态估计器
JP2023551704A (ja) サブ帯域ドメイン音響エコーキャンセラに基づく音響状態推定器
CN116806431A (zh) 通过相互设备可听性在用户位置处的可听性
CN116830604A (zh) 动态应用的渲染配置的渐进计算和应用
CN118216163A (zh) 基于扩音器取向的渲染

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220328

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221005

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230728

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240806

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20241106

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20241126

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20241209

R150 Certificate of patent or registration of utility model

Ref document number: 7603055

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150