JP7603055B2 - 分散配置されたオーディオデバイスのための音響エコー除去制御 - Google Patents
分散配置されたオーディオデバイスのための音響エコー除去制御 Download PDFInfo
- Publication number
- JP7603055B2 JP7603055B2 JP2022506120A JP2022506120A JP7603055B2 JP 7603055 B2 JP7603055 B2 JP 7603055B2 JP 2022506120 A JP2022506120 A JP 2022506120A JP 2022506120 A JP2022506120 A JP 2022506120A JP 7603055 B2 JP7603055 B2 JP 7603055B2
- Authority
- JP
- Japan
- Prior art keywords
- audio
- devices
- examples
- loudspeaker
- microphone
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M9/00—Arrangements for interconnection not involving centralised switching
- H04M9/08—Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic
- H04M9/082—Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic using echo cancellers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S5/00—Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
- G01S5/18—Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
- G10L21/0324—Details of processing therefor
- G10L21/034—Automatic adjustment
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/60—Substation equipment, e.g. for use by subscribers including speech amplifiers
- H04M1/6033—Substation equipment, e.g. for use by subscribers including speech amplifiers for providing handsfree use or a loudspeaker mode in telephone sets
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R27/00—Public address systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/02—Circuits for transducers, loudspeakers or microphones for preventing acoustic reaction, i.e. acoustic oscillatory feedback
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/12—Circuits for transducers, loudspeakers or microphones for distributing signals to two or more loudspeakers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/302—Electronic adaptation of stereophonic sound system to listener position or orientation
- H04S7/303—Tracking of listener position or orientation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/305—Electronic adaptation of stereophonic audio signals to reverberation of the listening space
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02082—Noise filtering the noise being echo, reverberation of the speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2227/00—Details of public address [PA] systems covered by H04R27/00 but not provided for in any of its subgroups
- H04R2227/005—Audio distribution systems for home, i.e. multi-room use
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2227/00—Details of public address [PA] systems covered by H04R27/00 but not provided for in any of its subgroups
- H04R2227/007—Electronic adaptation of audio signals to reverberation of the listening space for PA
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2227/00—Details of public address [PA] systems covered by H04R27/00 but not provided for in any of its subgroups
- H04R2227/009—Signal processing in [PA] systems to enhance the speech intelligibility
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2420/00—Details of connection covered by H04R, not provided for in its groups
- H04R2420/01—Input selection or mixing for amplifiers or loudspeakers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2430/00—Signal processing covered by H04R, not provided for in its groups
- H04R2430/01—Aspects of volume control, not necessarily automatic, in sound systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2430/00—Signal processing covered by H04R, not provided for in its groups
- H04R2430/03—Synergistic effects of band splitting and sub-band processing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/13—Aspects of volume control, not necessarily automatic, in stereophonic sound systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/07—Synergistic effects of band splitting and sub-band processing
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Quality & Reliability (AREA)
- General Health & Medical Sciences (AREA)
- Otolaryngology (AREA)
- Remote Sensing (AREA)
- Radar, Positioning & Navigation (AREA)
- General Physics & Mathematics (AREA)
- Circuit For Audible Band Transducer (AREA)
- Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
Description
本願は、2020年7月21日付け出願の米国仮特許出願第62/705,897号、2020年6月25日付け出願の米国仮特許出願第62/705,410号、2020年2月7日付け出願の米国仮特許出願第62/971,421号、2019年12月18日付け出願の米国仮特許出願第62/950,004号、2019年7月30日付け出願の米国仮特許出願第62/880,122号、2019年7月30日付け出願の米国仮特許出願第62/880,113号、2019年11月29日付け出願の欧州特許出願第19212391.7号および2019年7月30日付け出願のスペイン特許出願第P201930702号に基づく優先権を主張するものであり、各出願の開示内容を全て本願に援用する。
特許請求の範囲を含む本開示全体を通じて、「スピーカ」および「ラウドスピーカ」は、同義的に、単一のスピーカフィードによって駆動される任意の音響放射トランスデューサ(またはトランスデューサのセット)を示すように使用される。典型的なヘッドフォンセットは、2つのスピーカを含む。スピーカは、単一の共通のスピーカフィードまたは複数のスピーカフィードによって駆動されるような、複数のトランスデューサ(例えばウーファーとツイーター)を含むように実装され得る。いくつかの例において、スピーカフィード(単数または複数)は、異なるトランスデューサに接続された異なる回路ブランチにおいて異なる処理を受けてもよい。
1.キッチンシンクおよび調理エリア(生活空間の左上領域内);
2.冷蔵庫のドア(シンクおよび調理エリアの右側);
3.ダイニングエリア(生活空間の左下領域内);
4.生活空間のオープンエリア(シンクおよび調理エリアならびにダイニングエリアの右側);
5.テレビソファ(オープンエリアの右側);
6.テレビ自身;
7.テーブル;
8.ドアエリアまたは通路(生活空間の右上領域内)。
他のオーディオ環境は、より多くのユーザゾーン、より少ないユーザゾーン、ならびに/もしくは、1つ以上の寝室ゾーン、ガレージゾーン、パティオまたはデッキゾーンなど他の種類のユーザゾーンを含んでもよい。
102:直接的で局所的な声(ユーザー101によって生成される)。
103:音声アシスタントデバイス(1つ以上のラウドスピーカに接続される)。デバイス103は、デバイス105よりもユーザ101の近くに配置されている。デバイス103を「近位」デバイスと呼び、デバイス105を「遠位」デバイスと呼ぶこともある。
104:近位デバイス103内の(またはそれに接続された)複数のマイクロフォン。
105:(1つ以上のラウドスピーカに接続された)音声アシスタントデバイス。
106:遠位デバイス105内の(またはそれに接続された)複数のマイクロフォン。
107:家電機器(例えば、ランプ)。
108:家電機器107内の(またはそれに接続された)複数のマイクロフォン。いくつかの例において、マイクロフォン108の各々は、分類器を実装するように構成されたデバイス(いくつかの例において、デバイス103または105の少なくとも一方)と通信するように構成されてもよい。いくつかの実施態様において、分類器を実装するように構成されたデバイスはまた、CHASMまたはスマートホームハブを実装するように構成されたデバイスなどの、オーディオセッション管理のために構成されたデバイスであってもよい。
コンテクスト(CONTEXT)(位置および/または時間など)。いくつかの例において、位置および時間はコンテクストの一部であり、各々が様々な方法で提供または決定され得る。
決定(DECISION)(閾値または変更の連続的な調整を含み得る)。この構成要素は、単純であっても複雑であってもよく、それは特定の実施形態に応じて決まる。いくつかの実施形態において、決定は、例えばフィードバックに応じて、連続的に為されてもよい。いくつかの例において、決定は、例えば後で説明するような好循環のフィードバックの安定性などの、システムの安定性を生み得る。
レンダリング(RENDER)(オーディオ処理変更の本質)。本明細書中「レンダリング(rendering)」と表記するが、オーディオ処理変更は、レンダリング変更を含んでも含まなくてもよく、それは特定の実施態様に応じて決まる。いくつかの実施態様において、かろうじて知覚可能なオーディオ処理変更の実施態様から、厳密かつ明白なオーディオ処理変更のレンダリングの実施態様までを含む、オーディオ処理変更に複数のオプションが存在する。
A.尤もらしい位置が何処なのかを知ること。これは、以下の事項に基づく。
i) 弱検出または低確率検出(例えば、もしかすると注目している音声であり得るが、作用するのに十分に明瞭であることもないこともあり得る、音声の検出)。
ii) 特定の起動(例えば、発声されかつ明瞭に検出されたウェイクワード)。
iii) 習慣およびパターン(例えば、テレビの近くにあるソファなどの所与の位置が、ソファに座ってテレビでビデオ素材を視て関連するオーディオ音声を聞いている1人以上の人に関連付けられるというような、パターン認識に基づく。)
iv) および/または他の様式(modality)に基づく他の形態の近接度検知((例えば、オーディオ環境の家具内または家具上に設けられた)1つ以上の赤外線センサ、カメラ、容量型センサ、高周波(RF)センサ、熱センサ、圧力センサ、ウェアラブルビーコン等)の統合。
B.例えば改善された検出度で人が聞きたい音声の尤度を知るまたは推定すること。これは、以下の事項のいくつかまたは全てを含み得る。
i) ウェイクワード検出など、任意のオーディオ音声の検出に基づくイベント。
ii) 既知のアクティビティまたは一連のイベント(例えば、ビデオコンテンツの表示の一時休止、スクリプト化された自動音声認識(ASR)型の対話型コンテンツにおけるインタラクションのための空間、もしくは、アクティビティの変更および/または(テレビ会議の1人以上の参加者による一時休止などの)全二重通信通信アクティビティの対話ダイナミクスの変更)に基づくイベントまたはコンテクスト。
iii) 追加的な他の様式の感覚入力(sensory input)
iv) 任意の様態で頻繁にリスニングを改良するという選択肢 ― 向上された準備状態または改良されたリスニング。
- オーディオ処理を変更しようとする2つ以上のラウドスピーカからなる1組のラウドスピーカと、
- この1組の2つ以上のラウドスピーカに対するオーディオ処理を変更する範囲と、を決定することを含んでもよい。変更の範囲は、いくつかの例において、設計または決定された範囲の文脈において決定されてもよく、これは、当該1組のラウドスピーカに含まれる1つ以上のラウドスピーカの能力に少なくとも部分的に基づき得る。いくつかの例において、各ラウドスピーカの能力は、周波数特性、再生レベル限界値、および/または1つ以上のラウドスピーカダイナミクス処理アルゴリズムのパラメータを含み得る。
i)オーディオデバイス出力の全体のレベルを低下すること(1つ以上のラウドスピーカの音量を下げること、1つ以上のラウドスピーカを消音すること)。
ii)例えば、我々が検出したいオーディオ音声のスペクトルとは異なる出力を生成するように設計された略線形のイコライズ(EQ)フィルタを用いて、1つ以上のラウドスピーカの出力のスペクトルを成形すること。いくつかの例において、人間の声を検出するために出力スペクトルが成形されている場合、フィルタは、約500Hz~3kHzの範囲内の周波数を下げ得る(例えば、この周波数範囲の各端部において±5%または±10%)、もしくは、低周波帯および高周波帯を強調して中間帯域(例えば、約500Hz~3kHzの範囲)にスペースが残るようにラウドネス(loudness)を成形し得る。
iii)出力の上限またはピークを変更して、ピークレベルの低下、ならびに/もしくは、オーディオ検出のために達成されたSERを生成するシステム全体(例えば、タイムドメインダイナミックレンジ圧縮器またはマルチバンド周波数依存型圧縮器)の一部である任意のエコー除去のパフォーマンスを追加的に低下させ得る歪成分の低減のいずれかを行うこと。このようなオーディオ信号修正は、オーディオ信号の振幅を効果的に低減し得、かつ、ラウドスピーカのエクスカーションを制限することに寄与し得る。
iv)エネルギを低減する傾向がある方法でオーディオ音声を空間的にステアリングすること、もしくは、例えば本明細書中に記載した「ワーピング」例におけるように、1つ以上のラウドスピーカの出力を、システム(例えばオーディオ処理マネジャ)がより高いSERを実現している1つ以上のマイクロフォンに接続すること。
v)後で説明するギャップ挿入の例と同様に、一時的なタイムスライシングまたはタイムアジャストメントを用いて、オーディオ音声の細断片(glimpses)を得るのに十分な、スパース時間周波数のより低い出力の「ギャップ」または期間を生成すること。
vi)上記方法の何らかの組み合わせにて、オーディオ音声を変更すること。
i)いくつかの例において、1つのラウドスピーカから除去されたエネルギは、別のラウドスピーカに追加のエネルギを提供することにより補償され得る。いくつかの例において、全体のラウドネスは同じままであるか、または、実質的に同じままである。このことは、必須の特徴ではないが、コンテンツを失うことなく、「最近位の」デバイスまたは最近位の1組のデバイスのオーディオ処理に、より厳格な変更を施すことを可能にする効果的な手段であり得る。しかし、連続性および/またはエネルギの保存は、複雑なオーディオ出力およびオーディオシーンを扱う場合に特に関係し得る。
ii)起動の時定数。特に、オーディオ処理の変更は、通常状態に戻される(例えば1000~10000ms)よりも少し早く(例えば100~200ms)適用され得、その結果、オーディオ処理の変更は、感知可能である場合、意図的に見えるが、次に変更状態から通常状態に戻ることは、任意の実際のイベントまたは(ユーザの視点から見た)変更に関係があるように見えないかもしれず、いくつかの例において、ほとんど感知できないほど遅いかもしれない。
(コンテクスト(CONTEXT))一例として、コンテクスト情報は、以下のように数学的に定式化され得る。
H(a,b)、デバイスaとデバイスbとの間のおおよその物理的距離(メートル):
(ここで、Dはシステムにおける全てのデバイスの組を示し、Sは各デバイスにおける推定SERである)は、次のように表現され得る。
Hは、デバイスの物理的位置の特性(property)であり、以下の(1)および(2)によって決定または推定され得る。
(1)ユーザによる直接的な指示。例えば、スマートフォンまたはタブレット装置を用いて、環境の平面図または同様の図式表示上に、デバイスのおおよその位置をマーキングまたは指示する。このようなデジタルインターフェイスは、スマートホームデバイスの構成、グループ化、名前、目的およびIDの管理において、既にありふれたものである。例えば、このような直接的な指示は、アマゾンアレクサ(Amazon Alexa)スマートフォンアプリケーション、SonosS2コントローラアプリケーション、または同様のアプリケーションを介して提供されてもよい。
(2)例えば、J. Yang and Y. Chen, "Indoor Localization Using Improved RSS-Based Lateration Methods," GLOBECOM 2009 - 2009 IEEE Global Telecommunications Conference, Honolulu, HI, 2009, pp. 1-6, doi: 10.1109/GLOCOM.2009.5425237 および/またはMardeni, R. & Othman, Shaifull & Nizam, (2010) “Node Positioning in ZigBee Network Using Trilateration Method Based on the Received Signal Strength Indicator (RSSI)” 46(本明細書中、これら両方の文献を参考として援用する)に開示されているように、ブルートゥース、Wi-Fi、ジグビー等の一般的な無線通信技術の測定された信号強度(受信信号強度表示またはRSSIと呼ぶこともある)を用いて基礎的三辺測量の問題を解き、デバイス間の物理的距離の推定値を生成する。
は発話エネルギの推定値(dB)であり、
はエコー除去後の残留エコーエネルギの推定値(dB)である。これらの量を推定するためのさまざまな方法を、本明細書中に開示している。例えば、以下のものが挙げられる。
・ エネルギのガウス分布を仮定し、バイアスされた2次統計値
および
を算出する。
・ 離散的ビンからなるエネルギ値のヒストグラムを作成して、マルチモードであり得る分布を得る。ここで、混合モデル(例えばガウス混合モデル)について期待値最大化(EM)パラメータ推定のステップを適用した後、混合モデルにおける下位分布(sub-distributions)のいずれかに属する最も大きい平均値
本明細書の別の箇所で説明するように、さまざまな開示された実施態様において、決定アスペクトは、いずれのデバイスが、レンダリング修正などのオーディオ処理修正を受信したかを決定し、さらにいくつかの実施形態においては、いずれのデバイスが、所望のSER改善のためにどの程度の修正が要求されているかについての表示を受信したかを決定する。いくつかのそのような実施形態は、例えば集合Dに含まれる全てのデバイスにおけるSの最大値を見つけることによって決定される、最良の初期SER値を有するデバイスにおけるSERを改善するように構成されてもよい。他の実施形態は、履歴的使用パターンに基づいて決定される、ユーザにより定期的に話しかけられるデバイスにおけるSERを日和見的(opportunistically)に改善するように構成されてもよい。他の実施形態は、複数のマイクロフォン位置におけるSERの改善を試みるように構成されてもよい。例えば、以下の説明のために複数のデバイスを選択する。
いくつかの実施形態において、本開示のコンテクストアスペクトおよび決定アスペクトは、1つ以上のユーザゾーンが存在する文脈において生成され得る。本明細書において後で詳細に説明するように、1組の音響的特徴
を用いて、事後確率
(Ckはある1組のゾーンラベルであり、
であり、環境内にK個の異なるユーザゾーンが存在する)を推定してもよい。各オーディオデバイスを各ユーザゾーンに関連付けることは、本明細書中で説明する訓練プロセスの一部としてユーザ自身により、あるいは、例えばアレクサスマートフォンアプリまたはSonosS2コントローラスマートフォンアプリなどのアプリケーションを介して、実現されてもよい。例えば、いくつかの実施態様は、j番目のデバイスをゾーンラベルCkを有するユーザゾーンに関連付けることを、
と表現してもよい。いくつかの実施形態において、
および事後確率
の両方が、考慮されたコンテクスト情報であってもよい。いくつかの実施形態は、代わりに、音響的特徴W(j)自体を、コンテクストの一部と考えてもよい。他の実施形態において、これらの量(
、事後確率
、および音響的特徴W(j)自体)のうちの2つ以上、ならびに/もしくは、これらの量の組み合わせが、コンテクスト情報の一部であってもよい。
そのような実施形態によると、ユーザが居る尤度が最も高いユーザゾーンとの関連度が最も高いデバイスは、適用されるオーディオ処理(例えばレンダリング)の変更が最も大きい。いくつかの例において、δは、[0.5,4.0]の範囲内の正の数であってもよい。いくつかのそのような例によると、δを用いてレンダリング変更の範囲を空間的に制御してもよい。そのような実施態様において、δが0.5であると選択される場合、より多くのデバイスがより大きいレンダリング変更を受信するのに対して、値が4.0である場合、レンダリング変更は、最尤ユーザゾーンの最も近くに存在するデバイスのみに限定される。
上記式において、δは前述の例と同様に解釈され、特定のウェイクワードシステムについて起こり得るウェイクワード確信度の典型的な分布を補償するという有用性をさらに有する。大部分のデバイスが高いウェイクワード確信度を報告する傾向がある場合、レンダリング変更アプリケーションの空間特異性(spatial specificity)を増大するように、δに例えば3.0等の比較的高い数値が選択され得る。ユーザがデバイスからさらに離れるとウェイクワード確信度が急に下降する傾向がある場合、レンダリング変更アプリケーション内により多くのデバイスを含むように、δに1.0または0.5等の比較的低い数値が選択され得る。いくつかの別の実施態様において、デバイスのマイクロフォンにおける発話レベルの推定値などの音響的特徴および/またはユーザの発声のDR比(direct to reverb ratio)について上に示したものと同様の式を、ウェイクワード確信度の代わりに使用し得ることが、本明細書から理解され得る。
オーディオデバイス302、303および304(いくつかの例において、スマートオーディオデバイスであってもよい)。この例によると、オーディオデバイス302、303および304の各々は、少なくとも1つのラウドスピーカおよび少なくとも1つのマイクロフォンを含む。
― モジュール351は、コンテクスト(CONTEXT)のステップを示す(そして実装する)システム要素であって、例えば、オーディオ音声をより良く検出すること(例えば1つ以上のマイクロフォンにおいて発話対エコー比を増大すること)が望まれ得る位置の表示と、我々が聞きたいという尤度または感覚(例えば、ウェイクワードまたはコマンドなどの発話が1つ以上のマイクロフォンによりキャプチャされることの尤度)とを獲得する。この例において、モジュール351および353は、制御システム(この例では、図2Aの制御システム210)を介して実装される。いくつかの実施態様において、ブロック301および307もまた、制御システム(いくつかの例において、制御システム210であり得る)により実装されてもよい。いくつかの実施態様によると、ブロック356、357および358もまた、制御システム(いくつかの例において、制御システム210であり得る)により実装されてもよい。
dBのみを下げる、および/または、
スピーチバンドイコライゼーション(EQ)(例えば、後で図4を参照して説明する)および/または、
レンダリングの変更の時変調(Time modulation)(図5を参照して説明する)、および/または、
一時的なタイムスライシングまたはタイムアジャストメントを用いて、注目しているオーディオ音声の細断片(glimpses)を得るのに十分なスパース時間周波数のより低い出力の「ギャップ」または期間を生成(例えば、オーディオコンテンツに挿入)すること。後で、図9を参照していくつかの例を説明する。
601:フラットEQを示す曲線。
602:示された周波数範囲の部分的減衰を示す曲線。このような部分的減衰は、比較的感知されにくいが、それにもかかわらず、音声検出に有用なインパクトを与え得る。
603:示された周波数範囲の顕著に大きい減衰を示す曲線。曲線603が示すようなスペクトル修正は、発話の聞き取りに大きいインパクトを与え得る。いくつかの例において、曲線603が示すような積極的なスペクトル修正は、全ての周波数のレベルを大幅に低減する選択肢を提供し得る。
以下の2つの例が示すように、「近接度」または「最も近い」の尺度は、距離の単純な尺度でなくてもよく、推定される発話対エコー比を含むスカラーランキング(scalar ranking)であってもよい。オーディオ環境の複数のオーディオデバイスが同一でない場合、各ラウドスピーカ内蔵オーディオデバイスは、そのラウドスピーカ(単数または複数)から自分自身のマイクロフォン(単数または複数)への接続が異なっていてもよく、発話対エコー比におけるエコーレベルに大きな影響を与える。また、これらのオーディオデバイスは、マイクロフォンの配置が異なっており、リスニングのために(例えば、特定の方向からの音声を検出するため、または、オーディオ環境の特定の位置における音声またはその位置からの音声を検出するために)、相対的により適していたり、より適していなかったりする。したがって、いくつかの実施態様において、計算(決定(DECISION))は、近接度およびヒアリングの相互性(reciprocity of hearing)よりも、因子として考慮され得る。
― コンテクスト(CONTEXT)は、誰かがテレビで視ている番組についてオーディオ音声を聞くことができることが常に有用であると想定される、一般的なリスニングエリア(例えば、テレビの近くのソファ)である。
― 決定(DECISION):(例えば、ソファの近くの)一般的なリスニングエリアにおけるコーヒーテーブル上に置かれたスピーカを有するデバイスについて、f_n=1と設定する。
― レンダリング(RENDERING):デバイスをオフにし、何処か別の場所でエネルギがレンダリングされる。
・ 音響モデルに対する1-best(ビタビ)配列に沿った、各ウェイクワード状態についての平均状態エントロピー(純度)。
・ ウェイクワード検出器の音響モデルに対するCTC-損失(コネクショニスト時間分類損失)。
・ ウェイクワード検出器は、ウェイクワード確信度に加えて、話者のマイクロフォンからの距離の推定値および/またはRT60推定値を提供するように訓練されてもよい。距離推定値および/またはRT60推定値は、音響的特徴であってもよい。
・ マイクロフォンにおける広帯域受信レベル/パワーの代わりに、もしくはマイクロフォンにおける広帯域受信レベル/パワーに加えて、音響的特徴は、多数のログ/メル/バーク間隔の周波数帯域における受信レベルであってもよい。周波数帯域は、特定の実施態様に応じて変動し得る(例えば、2つの周波数帯域、5つの周波数帯域、20個の周波数帯域、50個の周波数帯域、1オクターブの周波数帯域、または1/3オクターブの周波数帯域)。
・ 過去のある時点におけるスペクトル情報のケプストラム表現。これは、バンドパワーの対数をDCT(離散コサイン変換)することにより算出される。
・ 人間の発話について重み付けされた周波数帯域におけるバンドパワー。例えば、音響的特徴は、特定の周波数帯域(例えば400Hz~1.5kHz)のみに基づいてもよい。この例において、より高い周波数およびより低い周波数は無視してもよい。
・ 帯域あたりまたはビンあたりの、ボイスアクティビティ検出器確信度。
・ 音響的特徴は、長期雑音推定値に少なくとも部分的に基づいて、信号対雑音比が不十分なマイクロフォンを無視してもよい。
・ 「ピーキネス(peakiness)」という発話の尺度としての尖度(Kurtosis)。尖度は、長いリバーブテイル(残響音)によるスミアリング(smearing)の指標であり得る。
・ 推定ウェイクワード開始時間。開始および期間は、フレーム内で等しい、または、全てのマイクロフォンの間で等しいことが期待される。外れ値は、信頼できない推定値の手がかりたり得る。このことは、必ずしもサンプルに対してではなく、例えば数十ミリ秒のフレームに対して、あるレベルのシンクロニー(synchrony)を想定している。
を入力とする。
を推定する。確率
は、(j番目の発声およびk番目のゾーンについて、ゾーンCkの各々および発声の各々について)ユーザがゾーンCkの各々に存在する確率を示し、分類器1107の出力1108の一例である。
・ 「ソファに移動」
・ 「顔を左右に振りつつウェイクワードを10回言う」
・ 「ソファとリーディングチェアとの間の中間位置に移動し、ウェイクワードを10回言う」
・ 「料理するときのようにキッチンに立ち、ウェイクワードを10回言う」
・ ベイズ分類器であって、例えば、クラスあたりの(per-class)分布が、多変量正規分布、完全共分散(full-covariance)混合ガウスモデル、または対角共分散(diagonal-covariance)混合ガウスモデルにより記述(説明)される、ベイズ分類器、
・ ベクトル量子化、
・ 最近傍(k-平均)、
・ 1つの出力が各クラスに対応している、SoftMax出力レイヤを有するニューラルネットワーク、
・ サポートベクターマシン(SVM)、ならびに/もしくは、
・ 勾配ブースティングマシン(GBM)などの、ブースティング技術。
・ 音声ユーザインターフェイス(UI)を用いて、予測が正しいかったか否かをユーザに尋ねる。例えば、以下を示す音声をユーザに提供してもよい。:『あなたはソファに座っていると思います。「正しい」または「間違い」で答えてください。』
・ いつでもボイスUIを用いて間違った予測を訂正し得ることをユーザに知らせる。(例えば、以下を示す音声をユーザに提供してもよい。:『私に話しかければ、あなたが何処にいるか予測できます。もし私の予測が間違いであれば、「アマンダ、私はソファには座っていない。リーディングチェアに座っている。」のように答えてください。』)
・ いつでもボイスUIを用いて正しい予測に対して報い得ることをユーザに知らせる。(例えば、以下を示す音声をユーザに提供してもよい。:『私に話しかければ、あなたが何処にいるか予測できます。もし私の予測が正しければ、「アマンダ、正解だ。私はソファに座っている。」のように答えてください。そうすれば私の予測はさらに改善されます。』)
・ フィードバックを与えるためにユーザが操作できる、物理ボタンまたは他のUI要素を含む(例えば、物理デバイス上もしくはスマートフォンアプリ内の、サムズアップ(いいね)ボタンおよび/またはサムズダウン(低評価)ボタン)。
・ ウェイクワードに続くコマンドの誤認識をもたらす予測に罰則を課する。誤認識を示し得るプロキシとしては、ユーザが、例えば「アマンダ、ストップ!」のような取消コマンド様のものを発することにより、コマンドに対する音声アシスタントの返答を中断することを含み得る;。
・ 音声認識器がコマンドを正しく認識したことの低確信度をもたらす予測を罰する。多くの自動音声認識システムが、結果とともに確信度レベルを返す能力を有し、この目的のために使用することができる;。
・ 第2パスウェイクワード検出器が高確信度でウェイクワードを遡及的に検出することの失敗をもたらす予測を罰する;および/または、
・ ウェイクワードの高確信度の認識および/またはユーザのコマンドの正しい認識をもたらす予測を強化する。
に構成された複数の第1パスウェイクワード検出器を介して)出力信号に基づいて音響的特徴を決定した後に、音響的特徴が分類器に提供されると仮定する。換言すると、音響的特徴は、検出されたウェイクワード発声に対応するとみなす。さらに、現在の発声をした人はゾーン3(この例では、リーディングチェアに対応する)に居る可能性が最も高いと、分類器が決定すると仮定する。例えば、ボイスコマンド認識のためにクラウド型バーチャルアシスタントに送信されるために、ゾーン3内の人の声を聞くのに最適であるということが既知である、特定のマイクロフォンまたは学習した複数のマイクロフォンの組み合わせが存在してもよい。
・ 混合ガウスモデル(GMM)または最近傍モデルの最大事後(MAP)適合、ならびに/もしくは、
・ 例えば、ニューラルネットワークの強化学習であって、例えば、適切な「ワン-ホット(one-hot)」(正確な予測の場合)または「ワン-コールド(one-cold)」(不正確な予測の場合)の正解ラベル(ground truth label)をSoftMax出力に関連付け、オンラインバックプロパゲーションを適用して、新たなネットワークの重みを決定することにより実現される、強化学習。
μi,new=μi,old*α+x*(1-α)
Μi,new=μi,old*βi*x(1-βi)
ここで、集合
はM個のラウドスピーカからなる1組のラウドスピーカの位置を示し、
はオーディオ信号の所望の知覚された空間位置を示し、gはスピーカ起動電位のM次元ベクトルを示す。CMAPについて、このベクトルにおける各起動電位は、スピーカあたりのゲインを示す。一方、FVについて、各起動電位はフィルタを示す(後者において、gは、特定の周波数における複素数のベクトルと同一視され得、かつ、異なるgが複数の周波数に亘って算出されて、フィルタを形成する)。起動電位の最適なベクトルは、次式のように、複数の起動電位に亘るコスト関数を最小化することにより見出される。
の成分の間の相対的なレベルは適切であるが、上記最小化の結果得られた最適な起動電位の絶対レベルを制御することは難しい。この問題を取り扱うために、その後、
の正規化を行って、起動電位の絶対レベルを制御してもよい。例えば、単位長を有するようにベクトルを正規化するのが望ましいかもしれない。これは、一般的に使用されるコンスタントパワーパンニングルールに従って行われる。
式(3)は、その後、所望のオーディオ位置と起動されたラウドスピーカにより生成された位置との二乗誤差を示す空間コストへと変形される。
FVの場合、コスト関数の空間項は、異なるように定義される。その目的は、聴者の左耳および右耳におけるオーディオオブジェクト位置
に対応するバイノーラルレスポンスbを生成することである。コンセプト上、bはフィルタの2x1ベクトル(片耳に1つのフィルタ)であるが、より簡便には、特定の周波数における複素数の2x1ベクトルとして扱う。この特定の周波数における表現で進めると、所望のバイノーラルレスポンスは、オブジェクト位置で索引付けされた1組のHRTFから取得し得る。
それと同時に、ラウドスピーカにより聴者の耳において生成された2x1バイノーラルレスポンスeは、2xM音響伝達マトリクスHに複素スピーカ起動電位値(complex speaker activation value)のMx1ベクトルgを掛け合わせたものとしてモデル化される。
音響伝達マトリクスHは、聴者の位置に対する、ラウドスピーカの位置の集合
に基づきモデル化される。最後に、コスト関数の空間成分は、所望のバイノーラルレスポンス(式(5))とラウドスピーカにより生成されたバイノーラルレスポンス(式(6))との二乗誤差として定義される。
簡便には、式(4)および式(7)に定義したCMAPおよびFVについてのコスト関数の空間項は、両方とも、スピーカ起動電位gの関数としての二次行列に変形され得る。
ここで、AはMxMの正方行列であり、Bは1xMベクトルであり、Cはスカラーである。行列Aは階数が2であり、したがって、M>2である場合、空間誤差項がゼロに等しいスピーカ起動電位gが無限に存在する。コスト関数の第2項Cproximityを導入することにより、この不確定性が除かれ、結果として、他の可能な解と比較して、知覚に関して有益な特性を有する特定の解が得られる。CMAPおよびFVの両方について、Cproximityは、所望のオーディオ信号位置
から離れた位置
に存在するスピーカの起動が、所望の位置の近くに配置されたスピーカの起動よりも大きい罰則を受けるように、構成される。この構成により、スパース(疎ら)であるスピーカ起動電位の最適な集合が生成され(ここで、所望のオーディオ信号の位置に近接したスピーカのみが有意に起動される)、実際に、結果として、1組のスピーカの周囲における聴者の移動に対して知覚上よりロバストな、オーディオ信号の空間再生が得られる。
ここで、Dは、所望のオーディオ位置と各スピーカとの間の距離罰則の対角行列である。
(9c)
ここで、
は所望のオーディオ位置とスピーカ位置との間のユークリッド距離であり、αおよびβは調節可能なパラメータである。パラメータαは罰則の全体的な強度を示す。d0は距離罰則の空間的範囲に対応し(およそ距離d0以上離れた位置のラウドスピーカが罰せられる)、βは距離d0における罰則の開始の急激度(abruptness)を表す。
・ 1人以上の聴者に対するスピーカの近接度;
・ 引力または斥力(attracting or repelling force)に対するスピーカの近接度;
・ いくつかの位置(例えば、聴者の位置、または乳児部屋)に対するスピーカの可聴度;
・ スピーカの能力(例えば、周波数特性および歪み);
・ スピーカの、他のスピーカとの同期性;
・ ウェイクワード性能;ならびに、
・ エコー除去性能。
は、追加のコスト項を示す。ここで、
はレンダリングされている(例えば、オブジェクト型オーディオプログラムの)オーディオ信号の1つ以上の特性からなる集合を示し、
はオーディオ音声がレンダリングされているスピーカの1つ以上の特性からなる集合を示し、
は1つ以上の追加の外部入力を示す。各項
は、集合
により包括的に表される、オーディオ信号、スピーカ、および/または外部入力の1つ以上の特性の組み合わせに関して、起動電位gの関数としてコストを返す。なお、集合
は、
、
、または
のうち、最低でも1つの要素を含むことを理解されたい。
の例を挙げる(但し、それらに限定されない)。
・ オーディオ信号の、所望の知覚された空間位置;
・ オーディオ信号のレベル(おそらく時変);および/または
・ オーディオ信号のスペクトル(おそらく時変)。
以下に、
の例を挙げる(但し、それらに限定されない)。
・ リスニング空間内のラウドスピーカの位置;
・ ラウドスピーカの周波数特性;
・ ラウドスピーカの再生レベルの上下限;
・ スピーカ内のダイナミクス処理アルゴリズムのパラメータ(リミッターゲイン(limiter gains)など);
・ 各スピーカから他のスピーカへの音響伝達の測定値または推定値;
・ スピーカにおけるエコー除去性能の尺度;および/または、
・ スピーカ間における相対的な同期。
以下に、
の例を挙げる(但し、それらに限定されない)。
・ 再生空間内の1人以上の聴者または話者の位置;
・ 各ラウドスピーカからリスニング位置への音響伝達の測定値または推定値;
・ 話者から1組のラウドスピーカへの音響伝達の測定値または推定値;
・ 再生空間内の何らかの他のランドマークの位置;および/または、
・ 再生空間内における各スピーカから何らかの他のランドマークへの音響伝達の測定値または推定値。
・ リスニングエリア周辺に、よりバランスのとれた空間的プレゼンテーションを提供する。
〇 空間オーディオ音声は、目的のリスニングエリアから概ね同じ距離にあるラウドスピーカに亘って、最良の状態で提示されることがわかっている。ラウドスピーカからリスニングエリアまでの距離の平均と比較して、かなり近くにあるラウドスピーカまたはかなり離れたラウドスピーカが罰せられて、その起動が低減されるように、コストが構成されてもよい。
〇 システムのユーザが、システムの(またはシステムに関連付けられた)スマート音声アシスタントに話しかけようとする場合、話者により近いラウドスピーカを罰するコストを生成することが有益かもしれない。このようにして、これらのラウドスピーカは比較的起動され難く(activated less)、それらの関連付けられたマイクロフォンは、話者の発声をより良く聞くことが可能になる。
〇 リスニング空間内の他者に対する再生レベルを最小化する、1人の聴者にとってより親密な体験を提供するために、聴者の位置から離れた位置にあるスピーカを重く罰することにより、聴者に最も近いスピーカのみが最も有意に起動されるようにしてもよい。
〇 リスニング空間の近傍の所与の位置は、要注意であると考え得る(乳児部屋、乳児のベッド、オフィス、読書エリア、学習エリアなど)。そのような場合、この位置、ゾーン、またはエリアに近いスピーカの使用を罰するように、コストが構成されてもよい。
〇 あるいは、上記と同じ場合(または同様の場合)について、特に(取り付けられたまたは関連付けられたマイクロフォンを有する)スピーカのうちの1つが乳児部屋内部に設けられている場合、スピーカのシステムは、各スピーカから乳児部屋内への音響伝達の測定値を生成済みであり得る。この場合、乳児部屋に対するスピーカの物理的近接度を用いるのではなく、測定された乳児部屋内への音響伝達が高いスピーカを使用することを罰するように、コストを構成してもよい。
〇 異なるラウドスピーカの能力は、大きく異なり得る。例えば、ある人気のスマートスピーカは、限定的な低周波数能力の、1.6インチフルレンジドライバを1つだけ備えている。一方、別のスマートスピーカは、はるかに能力の高い3インチウーファーを備えている。これらの能力は、概して、スピーカの周波数特性に反映されるので、スピーカに関連付けられた周波数特性の集合を、コスト項に利用し得る。特定の周波数において、周波数特性の点で他のスピーカと比べて能力の劣るスピーカは、罰則が与えられ、したがって、このスピーカが起動される程度はより低くなり得る。いくつかの実施態様において、このような周波数特性値は、スマートラウドスピーカと共に格納され、その後、フレキシブルレンダリングを最適化する責任を負った演算ユニットに伝達されてもよい。
の各々を、スピーカ起動電位の絶対値の二乗の加重合計として表現することが、都合がよいかもしれない。例えば、次式のとおりである。
ここで、Wjは、項jについて起動するスピーカiに関連付けられたコストを説明する重み
の対角行列である。
の関数として考えることが有益である。ある実施形態例において、この罰則値は、(レンダリングしようとする)オブジェクトから考慮されたラウドスピーカまでの距離である。別の実施形態例において、この罰則値は、所与のラウドスピーカがいくつかの周波数を再生できないことを表す。この罰則値に基づき、重みの項wijを、次のようにパラメータ化できる。
ここで、αjは(重み項の全体の強度を考慮に入れた)前因子(pre-factor)である。τjは罰則閾値である(この罰則閾値の周辺においてまたはこの罰則閾値を超えると、重みの項が有意になる)。fj(x)は単調増加関数である。例えば、
の場合、重みの項は次式の形を有する。
ここで、αj、βj、τjは、それぞれが罰則の全体的な強度、罰則の開始の急激度、および罰則の範囲を示す、調節可能なパラメータである。これらの調節可能な値を設定する際には、コスト項Cjの別の追加のコスト項に対する相対的な効果が、CspatialおよびCproximityと同様、所望の結果を達成するために適切なものとなるように、留意する必要がある。例えば、経験則から言うと、あるものが、他のものを明確に支配するために、特定の罰則を望む場合、その強度αjを、次に最も大きい罰則強度の約10倍大きく設定することが適切であり得る。
からi番目のスピーカまでの距離により与えられ、閾値τjは、全てのスピーカについてのこれら距離のうちの最大値により与えられる。
を180度の聴者/話者の位置(プロットの底部中央)に対応するベクトルに設定する。αj、βjおよび
のこれらの値は、例示に過ぎない。いくつかの実施態様において、αjは1~100の範囲内であってもよく、βjは1~25の範囲内であってもよい。図18は、実施形態例における、スピーカ起動電位のグラフである。この例において、図18は、スピーカ起動電位1505b、1510b、1515b、1520bおよび1525bを示す。これらは、wijで表される引力を加えた、図15および図16と同じスピーカ位置についてのコスト関数に対する最適解を含んでいる。図19は、実施形態例における、オブジェクトレンダリング位置のグラフである。この例において、図19は、多数の考え得るオブジェクト角度についての、対応する理想的なオブジェクト位置1630bと、それらオブジェクトについての、対応する実際のレンダリング位置1635bとを示す。実際のレンダリング位置1635bは、点線1640bで、理想的なオブジェクト位置1630bに連結されている。実際のレンダリング位置1635bの、固定された位置
へと向かう斜めの向きは、コスト関数への最適解に対する、アトラクター重み付けのインパクトを示している。
に対して、pijおよびτjを次のように定義する。
を180度の聴者/話者の位置(プロットの底部中央)に対応するベクトルに設定する。αj、βjおよび
のこれらの値は、例示に過ぎない。上述のとおり、いくつかの例において、αjは1~100の範囲内であってもよく、βjは1~25の範囲内であってもよい。図20は、実施形態例における、スピーカ起動電位のグラフである。この例によると、図20は、スピーカ起動電位1505c、1510c、1515c、1520cおよび1525cを示す。これらは、wijで表される斥力を加えた、前の図面と同じスピーカ位置についてのコスト関数に対する最適解を含んでいる。図21は、実施形態例における、オブジェクトレンダリング位置のグラフである。この例において、図21は、多数の考え得るオブジェクト角度についての、理想的なオブジェクト位置1630cと、それらオブジェクトについての、対応する実際のレンダリング位置1635cとを示す。実際のレンダリング位置1635cは、点線1640cで、理想的なオブジェクト位置1630cに連結されている。実際のレンダリング位置1635cの、固定された位置
から離れる斜めの向きは、コスト関数への最適解に対する、リペラー(repeller)重み付けのインパクトを示している。
を180度のドア位置(プロットの底部中央)に対応するベクトルに設定する。より強い斥力を達成し、かつ、音場を、主要なリスニング空間の前方部分内へと全体的に歪めるために、αj=20、βj=5と設定する。図22は、実施形態例における、スピーカ起動電位のグラフである。再び、この例において、図22は、スピーカ起動電位1505d、1510d、1515d、1520dおよび1525dを示す。これらは、より強い斥力を加えた、同じ集合のスピーカ位置に対する最適解を含んでいる。図23は、実施形態例における、オブジェクトレンダリング位置のグラフである。再び、この例において、図23は、多数の考え得るオブジェクト角度についての、理想的なオブジェクト位置1630dと、それらオブジェクトについての、対応する実際のレンダリング位置1635dとを示す。実際のレンダリング位置1635dは、点線1640dで、理想的なオブジェクト位置1630dに連結されている。実際のレンダリング位置1635dの斜めの向きは、コスト関数への最適解に対する、より強いリペラー重み付けのインパクトを示している。
として直接的に選択されてもよく、「決定」アスペクトにより選択されたデバイスを罰する。
により決定され得る。これは、s_i=-20dBの値について、結果として、コスト関数における通常の値よりも10倍大きい値のαijになり得る。βijを、0.5<βij<1.0の範囲内に設定されるように修正することは、いくつかの例において、s_iの大きい負の値に基づき、適切な修正であり得、i番目のスピーカの周辺のかなり大きい領域から離れる方向にオーディオ音声を「押す」。例えば、s_iの値は、次式に応じて、βijにマッピングされ得る。
この例において、s_i=-20.0dBについて、βijは0.8333であり得る。
EEE1. ユーザからのボイスコマンドを検出するために信号対エコー比を改善する方法(またはシステム)であって、
a.出力オーディオプログラム素材を生成するために、複数のデバイスが使用中である。
b.これらデバイスについて、聴者からの距離または順序付けられた関係の既知の集合がある。
c.システムは、ユーザからの距離が最も短いデバイスの音量を選択的に下げる。
Claims (24)
- オーディオセッション管理方法であって、
オーディオ環境内の複数のマイクロフォンの各々からの出力信号を受信するステップであって、前記複数のマイクロフォンの各々は前記オーディオ環境のマイクロフォン位置に存在し、前記出力信号は人の現在の発声に対応する信号を含む、ステップと、
前記出力信号に基づき、前記人に関するコンテクスト情報の1つ以上のアスペクトを決定するステップであって、前記コンテクスト情報は、前記人の推定される現在位置、および、前記人の1つ以上のマイクロフォン位置に対する推定される現在の近接度のうちの少なくとも1つを含む、ステップと、
前記人の前記推定される現在位置に最も近い前記マイクロフォン位置に最も近い最近位ラウドスピーカ内蔵オーディオデバイスを決定するステップと、
前記コンテクスト情報の前記1つ以上のアスペクトに少なくとも部分的に基づき、前記オーディオ環境の2つ以上のオーディオデバイスを選択するステップであって、前記2つ以上のオーディオデバイスの各々は少なくとも1つのラウドスピーカを含み、前記2つ以上のオーディオデバイスは、前記最近位ラウドスピーカ内蔵オーディオデバイスを含む、ステップと、
前記2つ以上のオーディオデバイス用のラウドスピーカフィード信号へとレンダリングされているオーディオデータに適用する、1種類以上のオーディオ処理変更を決定するステップであって、前記オーディオ処理変更は、前記人の前記推定される現在位置に最も近い前記マイクロフォンにおける発話対エコー比を増大する効果を有し、前記エコーは、前記2つ以上のオーディオデバイスにより出力されたオーディオ音声の少なくとも一部を含み、前記最近位ラウドスピーカ内蔵オーディオデバイスに対する前記オーディオ処理変更の少なくとも1つは、前記2つ以上のオーディオデバイスのうちの他のオーディオデバイスに対するオーディオ処理変更とは異なり、前記1種類以上のオーディオ処理変更は、前記最近位ラウドスピーカ内蔵オーディオデバイスのラウドスピーカ再生レベルを低下させる、ステップと、
前記1種類以上のオーディオ処理変更を適用させるステップと、を含む方法。 - 前記1種類以上のオーディオ処理変更は、スペクトル修正を含む、請求項1に記載の方
法。 - 前記1種類以上のオーディオ処理変更は、前記2つ以上のオーディオデバイスの前記ラウドスピーカのラウドスピーカ再生レベルを低下させる、請求項1または2に記載の方法。
- 前記オーディオ環境の2つ以上のオーディオデバイスを選択するステップは、前記オーディオ環境のN個のラウドスピーカ内蔵オーディオデバイスを選択することを含み、Nは2よりも大きい整数である、請求項1から3のいずれか1つに記載の方法。
- 前記オーディオ環境の前記2つ以上のオーディオデバイスを選択するステップは、マイクロフォン位置およびラウドスピーカ内蔵オーディオデバイス位置の少なくとも一方に対する、前記人の推定される現在位置に少なくとも部分的に基づく、請求項1から4のいずれか1つに記載の方法。
- 前記1種類以上のオーディオ処理変更は、前記人の前記推定される現在位置から離れる方向に、オーディオ信号のレンダリングをワーピングするように、レンダリングプロセスを変更することを含む、請求項1から5のいずれか1つに記載の方法。
- 前記スペクトル修正は、500Hzと3KHzとの間の周波数帯域においてオーディオデータのレベルを低下させることを含む、請求項2に記載の方法。
- 前記1種類以上のオーディオ処理変更は、オーディオ再生信号の少なくとも1つの選択された周波数帯域に、少なくとも1つのギャップを挿入することを含む、請求項1から7のいずれか1つに記載の方法。
- 前記1種類以上のオーディオ処理変更は、ダイナミックレンジ圧縮を含む、請求項1から8のいずれか1つに記載の方法。
- 前記2つ以上のオーディオデバイスを選択するステップは、1つ以上のマイクロフォン位置についての信号対エコー比推定値に少なくとも部分的に基づく、請求項1から9のいずれか1つに記載の方法。
- 前記2つ以上のオーディオデバイスを選択するステップは、前記信号対エコー比推定値が信号対エコー比閾値以下であるか否かを判定することに少なくとも部分的に基づく、請求項10に記載の方法。
- 前記1種類以上のオーディオ処理変更を決定するステップは、前記信号対エコー比推定値に少なくとも部分的に基づくコスト関数の最適化に基づく、請求項10に記載の方法。
- 前記コスト関数は、レンダリングパフォーマンスに少なくとも部分的に基づく、請求項12に記載の方法。
- 前記2つ以上のオーディオデバイスを選択するステップは、近接度推定値に少なくとも部分的に基づく、請求項1から13のいずれか1つに記載の方法。
- 各マイクロフォンの前記出力信号から複数の現在の音響的特徴を決定するステップと、
前記複数の現在の音響的特徴に分類器を適用するステップとをさらに含み、
前記分類器を適用するステップは、前記オーディオ環境内の複数のユーザゾーン内で前記人によってなされた複数の過去の発声から得られた、過去に決定された音響的特徴に対して訓練されたモデルを適用することを含み、
前記人に関するコンテクスト情報の1つ以上のアスペクトを決定するステップは、前記分類器からの出力に少なくとも部分的に基づき、前記人が現在位置しているユーザゾーンの推定値を決定することを含む、請求項1から14のいずれか1つに記載の方法。 - 前記ユーザゾーンの前記推定値は、前記複数のマイクロフォンの幾何学的位置を参照せずに決定される、請求項15に記載の方法。
- 前記現在の発声および前記過去の発声は、ウェイクワードの発声を含む、請求項15または16に記載の方法。
- 前記コンテクスト情報の前記1つ以上のアスペクトに応じて少なくとも1つのマイクロフォンを選択するステップをさらに含む、請求項1から17のいずれか1つに記載の方法。
- 前記1つ以上のマイクロフォンは、前記オーディオ環境の複数のオーディオデバイス内に設けられている、請求項1から18のいずれか1つに記載の方法。
- 前記1つ以上のマイクロフォンは、前記オーディオ環境の1つのオーディオデバイス内に設けられている、請求項1から19のいずれか1つに記載の方法。
- 前記1つ以上のマイクロフォン位置のうち少なくとも1つは、1つのオーディオデバイスの複数のマイクロフォンに対応している、請求項1から20のいずれか1つに記載の方法。
- 請求項1から21のいずれか1つに記載の方法を実行するように構成された装置。
- 請求項1から21のいずれか1つに記載の方法を実行するように構成されたシステム。
- 1つ以上のデバイスを制御して、請求項1から21のいずれか1つに記載の方法を実行させる命令を含む、コンピュータプログラム。
Applications Claiming Priority (17)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201962880122P | 2019-07-30 | 2019-07-30 | |
US201962880113P | 2019-07-30 | 2019-07-30 | |
US62/880,122 | 2019-07-30 | ||
ES201930702 | 2019-07-30 | ||
US62/880,113 | 2019-07-30 | ||
ESP201930702 | 2019-07-30 | ||
EP19212391 | 2019-11-29 | ||
EP19212391.7 | 2019-11-29 | ||
US201962950004P | 2019-12-18 | 2019-12-18 | |
US62/950,004 | 2019-12-18 | ||
US202062971421P | 2020-02-07 | 2020-02-07 | |
US62/971,421 | 2020-02-07 | ||
US202062705410P | 2020-06-25 | 2020-06-25 | |
US62/705,410 | 2020-06-25 | ||
US202062705897P | 2020-07-21 | 2020-07-21 | |
US62/705,897 | 2020-07-21 | ||
PCT/US2020/043958 WO2021021857A1 (en) | 2019-07-30 | 2020-07-29 | Acoustic echo cancellation control for distributed audio devices |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2022542962A JP2022542962A (ja) | 2022-10-07 |
JPWO2021021857A5 JPWO2021021857A5 (ja) | 2022-10-17 |
JP7603055B2 true JP7603055B2 (ja) | 2024-12-19 |
Family
ID=71950843
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022506120A Active JP7603055B2 (ja) | 2019-07-30 | 2020-07-29 | 分散配置されたオーディオデバイスのための音響エコー除去制御 |
Country Status (11)
Country | Link |
---|---|
US (2) | US12003673B2 (ja) |
EP (1) | EP4005228A1 (ja) |
JP (1) | JP7603055B2 (ja) |
KR (1) | KR20220044204A (ja) |
CN (1) | CN114207715A (ja) |
AU (1) | AU2020323929A1 (ja) |
BR (1) | BR112022000466A2 (ja) |
CA (1) | CA3146871A1 (ja) |
IL (1) | IL289450A (ja) |
MX (1) | MX2022001162A (ja) |
WO (1) | WO2021021857A1 (ja) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110797041B (zh) * | 2019-10-21 | 2023-05-12 | 珠海市杰理科技股份有限公司 | 语音降噪处理方法、装置、计算机设备及存储介质 |
EP4256811A1 (en) * | 2020-12-03 | 2023-10-11 | Dolby Laboratories Licensing Corporation | Audibility at user location through mutual device audibility |
WO2022234871A1 (ko) | 2021-05-04 | 2022-11-10 | 엘지전자 주식회사 | 음장 제어 장치 및 방법 |
CN113573212B (zh) * | 2021-06-04 | 2023-04-25 | 成都千立智能科技有限公司 | 扩声系统、及麦克风通道数据选择方法 |
US12182476B2 (en) * | 2021-08-04 | 2024-12-31 | Panasonic Intellectual Property Management Co., Ltd. | Voice notification system, voice notification method, and recording medium |
EP4430600A1 (en) * | 2021-11-09 | 2024-09-18 | Dolby Laboratories Licensing Corporation | Multi-device, multi-channel attention for speech and audio analytics applications |
EP4430861A1 (en) * | 2021-11-10 | 2024-09-18 | Dolby Laboratories Licensing Corporation | Distributed audio device ducking |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007142595A (ja) | 2005-11-15 | 2007-06-07 | Yamaha Corp | 遠隔会議装置 |
WO2009004983A1 (ja) | 2007-06-29 | 2009-01-08 | Yamaha Corporation | 拡声装置 |
JP2011228899A (ja) | 2010-04-19 | 2011-11-10 | Nippon Telegr & Teleph Corp <Ntt> | 場内拡声装置 |
Family Cites Families (79)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5434912A (en) | 1993-08-11 | 1995-07-18 | Bell Communications Research, Inc. | Audio processing system for point-to-point and multipoint teleconferencing |
JP3234811B2 (ja) | 1998-09-30 | 2001-12-04 | 松下電器産業株式会社 | 音響エコーキャンセラを備えた通信システム |
US6993245B1 (en) | 1999-11-18 | 2006-01-31 | Vulcan Patents Llc | Iterative, maximally probable, batch-mode commercial detection for audiovisual content |
JP2005151356A (ja) | 2003-11-18 | 2005-06-09 | Pioneer Electronic Corp | 試聴用スピーカ装置 |
DE602007007581D1 (de) | 2007-04-17 | 2010-08-19 | Harman Becker Automotive Sys | Akustische Lokalisierung eines Sprechers |
KR101469739B1 (ko) | 2007-06-21 | 2014-12-05 | 코닌클리케 필립스 엔.브이. | 오디오 신호들을 처리하는 디바이스 및 방법 |
US8605890B2 (en) * | 2008-09-22 | 2013-12-10 | Microsoft Corporation | Multichannel acoustic echo cancellation |
CN102713664B (zh) | 2010-01-12 | 2016-03-16 | 诺基亚技术有限公司 | 协作式位置/方位估计 |
CN103348686B (zh) | 2011-02-10 | 2016-04-13 | 杜比实验室特许公司 | 用于风检测和抑制的系统和方法 |
CA3104225C (en) | 2011-07-01 | 2021-10-12 | Dolby Laboratories Licensing Corporation | System and tools for enhanced 3d audio authoring and rendering |
KR101915322B1 (ko) | 2012-06-27 | 2018-11-05 | 엘지전자 주식회사 | 반향 제거 장치 |
US9426600B2 (en) | 2012-07-06 | 2016-08-23 | Dirac Research Ab | Audio precompensation controller design with pairwise loudspeaker channel similarity |
CN104412619B (zh) * | 2012-07-13 | 2017-03-01 | 索尼公司 | 信息处理系统 |
WO2014021588A1 (ko) | 2012-07-31 | 2014-02-06 | 인텔렉추얼디스커버리 주식회사 | 오디오 신호 처리 방법 및 장치 |
US8831957B2 (en) * | 2012-08-01 | 2014-09-09 | Google Inc. | Speech recognition models based on location indicia |
JP6580990B2 (ja) | 2012-10-09 | 2019-09-25 | 聯發科技股▲ふん▼有限公司Mediatek Inc. | オーディオ干渉推定のための方法及び装置 |
US9424859B2 (en) | 2012-11-21 | 2016-08-23 | Harman International Industries Canada Ltd. | System to control audio effect parameters of vocal signals |
US9491299B2 (en) | 2012-11-27 | 2016-11-08 | Dolby Laboratories Licensing Corporation | Teleconferencing using monophonic audio mixed with positional metadata |
US9237225B2 (en) * | 2013-03-12 | 2016-01-12 | Google Technology Holdings LLC | Apparatus with dynamic audio signal pre-conditioning and methods therefor |
US9936290B2 (en) * | 2013-05-03 | 2018-04-03 | Qualcomm Incorporated | Multi-channel echo cancellation and noise suppression |
US9100466B2 (en) | 2013-05-13 | 2015-08-04 | Intel IP Corporation | Method for processing an audio signal and audio receiving circuit |
US9357080B2 (en) * | 2013-06-04 | 2016-05-31 | Broadcom Corporation | Spatial quiescence protection for multi-channel acoustic echo cancellation |
EP2830065A1 (en) | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for decoding an encoded audio signal using a cross-over filter around a transition frequency |
JP6055576B2 (ja) | 2013-07-30 | 2016-12-27 | ドルビー・インターナショナル・アーベー | 任意のスピーカー・レイアウトへのオーディオ・オブジェクトのパン |
GB2512413B (en) | 2013-09-18 | 2015-05-06 | Imagination Tech Ltd | Acoustic echo cancellation |
US9633671B2 (en) | 2013-10-18 | 2017-04-25 | Apple Inc. | Voice quality enhancement techniques, speech recognition techniques, and related systems |
US9888333B2 (en) | 2013-11-11 | 2018-02-06 | Google Technology Holdings LLC | Three-dimensional audio rendering techniques |
US20150195649A1 (en) | 2013-12-08 | 2015-07-09 | Flyover Innovations, Llc | Method for proximity based audio device selection |
US9432768B1 (en) | 2014-03-28 | 2016-08-30 | Amazon Technologies, Inc. | Beam forming for a wearable computer |
US20160039356A1 (en) | 2014-08-08 | 2016-02-11 | General Motors Llc | Establishing microphone zones in a vehicle |
KR102413495B1 (ko) | 2014-09-26 | 2022-06-24 | 애플 인크. | 구성가능한 구역을 구비한 오디오 시스템 |
US20160125891A1 (en) | 2014-10-31 | 2016-05-05 | Intel Corporation | Environment-based complexity reduction for audio processing |
CN106537942A (zh) | 2014-11-11 | 2017-03-22 | 谷歌公司 | 3d沉浸式空间音频系统和方法 |
US9743213B2 (en) | 2014-12-12 | 2017-08-22 | Qualcomm Incorporated | Enhanced auditory experience in shared acoustic space |
KR102387567B1 (ko) | 2015-01-19 | 2022-04-18 | 삼성전자주식회사 | 음성 인식 방법 및 음성 인식 장치 |
WO2016123560A1 (en) | 2015-01-30 | 2016-08-04 | Knowles Electronics, Llc | Contextual switching of microphones |
US10192546B1 (en) | 2015-03-30 | 2019-01-29 | Amazon Technologies, Inc. | Pre-wakeword speech processing |
US10013981B2 (en) * | 2015-06-06 | 2018-07-03 | Apple Inc. | Multi-microphone speech recognition systems and related techniques |
US9865265B2 (en) | 2015-06-06 | 2018-01-09 | Apple Inc. | Multi-microphone speech recognition systems and related techniques |
US9735747B2 (en) | 2015-07-10 | 2017-08-15 | Intel Corporation | Balancing mobile device audio |
US9858927B2 (en) | 2016-02-12 | 2018-01-02 | Amazon Technologies, Inc | Processing spoken commands to control distributed audio outputs |
EP3209034A1 (en) | 2016-02-19 | 2017-08-23 | Nokia Technologies Oy | Controlling audio rendering |
US10373612B2 (en) | 2016-03-21 | 2019-08-06 | Amazon Technologies, Inc. | Anchored speech detection and speech recognition |
US9949052B2 (en) | 2016-03-22 | 2018-04-17 | Dolby Laboratories Licensing Corporation | Adaptive panner of audio objects |
JP6480644B1 (ja) | 2016-03-23 | 2019-03-13 | グーグル エルエルシー | マルチチャネル音声認識のための適応的オーディオ強化 |
WO2017197312A2 (en) | 2016-05-13 | 2017-11-16 | Bose Corporation | Processing speech from distributed microphones |
CN109417678A (zh) | 2016-07-05 | 2019-03-01 | 索尼公司 | 声场形成装置和方法以及程序 |
US9794710B1 (en) | 2016-07-15 | 2017-10-17 | Sonos, Inc. | Spatial audio correction |
US10431211B2 (en) * | 2016-07-29 | 2019-10-01 | Qualcomm Incorporated | Directional processing of far-field audio |
EP3280123B1 (en) | 2016-08-03 | 2022-05-11 | Dolby Laboratories Licensing Corporation | State-based endpoint conference interaction |
US10771631B2 (en) | 2016-08-03 | 2020-09-08 | Dolby Laboratories Licensing Corporation | State-based endpoint conference interaction |
US9972339B1 (en) | 2016-08-04 | 2018-05-15 | Amazon Technologies, Inc. | Neural network based beam selection |
US10580404B2 (en) | 2016-09-01 | 2020-03-03 | Amazon Technologies, Inc. | Indicator for voice-based communications |
CN109791193B (zh) | 2016-09-29 | 2023-11-10 | 杜比实验室特许公司 | 环绕声系统中扬声器位置的自动发现和定位 |
US9743204B1 (en) | 2016-09-30 | 2017-08-22 | Sonos, Inc. | Multi-orientation playback device microphones |
US10181323B2 (en) | 2016-10-19 | 2019-01-15 | Sonos, Inc. | Arbitration-based voice recognition |
US9881632B1 (en) * | 2017-01-04 | 2018-01-30 | 2236008 Ontario Inc. | System and method for echo suppression for in-car communications |
US10299278B1 (en) | 2017-03-20 | 2019-05-21 | Amazon Technologies, Inc. | Channel selection for multi-radio device |
US10147439B1 (en) | 2017-03-30 | 2018-12-04 | Amazon Technologies, Inc. | Volume adjustment for listening environment |
US10121494B1 (en) | 2017-03-30 | 2018-11-06 | Amazon Technologies, Inc. | User presence detection |
GB2561844A (en) | 2017-04-24 | 2018-10-31 | Nokia Technologies Oy | Spatial audio processing |
ES2934801T3 (es) | 2017-05-03 | 2023-02-27 | Fraunhofer Ges Forschung | Procesador de audio, sistema, procedimiento y programa informático para renderización de audio |
EP3675508B1 (en) | 2017-05-16 | 2023-01-11 | Apple Inc. | Methods and interfaces for home media control |
US20180357038A1 (en) | 2017-06-09 | 2018-12-13 | Qualcomm Incorporated | Audio metadata modification at rendering device |
US10304475B1 (en) | 2017-08-14 | 2019-05-28 | Amazon Technologies, Inc. | Trigger word based beam selection |
US10446165B2 (en) | 2017-09-27 | 2019-10-15 | Sonos, Inc. | Robust short-time fourier transform acoustic echo cancellation during audio playback |
US10674303B2 (en) * | 2017-09-29 | 2020-06-02 | Apple Inc. | System and method for maintaining accuracy of voice recognition |
US11128977B2 (en) | 2017-09-29 | 2021-09-21 | Apple Inc. | Spatial audio downmixing |
US10192567B1 (en) | 2017-10-18 | 2019-01-29 | Motorola Mobility Llc | Echo cancellation and suppression in electronic device |
EP3704875B1 (en) | 2017-10-30 | 2023-05-31 | Dolby Laboratories Licensing Corporation | Virtual rendering of object based audio over an arbitrary set of loudspeakers |
US10524078B2 (en) | 2017-11-29 | 2019-12-31 | Boomcloud 360, Inc. | Crosstalk cancellation b-chain |
JP6888172B2 (ja) | 2018-01-18 | 2021-06-16 | ドルビー ラボラトリーズ ライセンシング コーポレイション | 音場表現信号を符号化する方法及びデバイス |
CN114175686B (zh) | 2019-07-30 | 2024-03-15 | 杜比实验室特许公司 | 音频处理方法和系统及相关非暂时性介质 |
JP7326583B2 (ja) | 2019-07-30 | 2023-08-15 | ドルビー ラボラトリーズ ライセンシング コーポレイション | 再生機能が異なる装置を横断したダイナミクス処理 |
EP4005247A1 (en) | 2019-07-30 | 2022-06-01 | Dolby Laboratories Licensing Corporation | Coordination of audio devices |
WO2021021460A1 (en) | 2019-07-30 | 2021-02-04 | Dolby Laboratories Licensing Corporation | Adaptable spatial audio playback |
CN114521334B (zh) | 2019-07-30 | 2023-12-01 | 杜比实验室特许公司 | 音频处理系统、方法和介质 |
US20220351724A1 (en) | 2019-07-30 | 2022-11-03 | Dolby Laboratories Licensing Corporation | Multi-device wakeword detection |
CN114846821B (zh) | 2019-12-18 | 2025-01-28 | 杜比实验室特许公司 | 音频设备自动定位 |
-
2020
- 2020-07-29 MX MX2022001162A patent/MX2022001162A/es unknown
- 2020-07-29 CN CN202080055689.1A patent/CN114207715A/zh active Pending
- 2020-07-29 BR BR112022000466A patent/BR112022000466A2/pt unknown
- 2020-07-29 EP EP20751837.4A patent/EP4005228A1/en active Pending
- 2020-07-29 AU AU2020323929A patent/AU2020323929A1/en active Pending
- 2020-07-29 KR KR1020227006339A patent/KR20220044204A/ko active Pending
- 2020-07-29 JP JP2022506120A patent/JP7603055B2/ja active Active
- 2020-07-29 US US17/628,732 patent/US12003673B2/en active Active
- 2020-07-29 WO PCT/US2020/043958 patent/WO2021021857A1/en active Search and Examination
- 2020-07-29 CA CA3146871A patent/CA3146871A1/en active Pending
-
2021
- 2021-12-28 IL IL289450A patent/IL289450A/en unknown
-
2024
- 2024-04-17 US US18/638,588 patent/US20240267469A1/en active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007142595A (ja) | 2005-11-15 | 2007-06-07 | Yamaha Corp | 遠隔会議装置 |
WO2009004983A1 (ja) | 2007-06-29 | 2009-01-08 | Yamaha Corporation | 拡声装置 |
JP2011228899A (ja) | 2010-04-19 | 2011-11-10 | Nippon Telegr & Teleph Corp <Ntt> | 場内拡声装置 |
Also Published As
Publication number | Publication date |
---|---|
BR112022000466A2 (pt) | 2022-03-03 |
US20230319190A1 (en) | 2023-10-05 |
US20240267469A1 (en) | 2024-08-08 |
JP2022542962A (ja) | 2022-10-07 |
AU2020323929A1 (en) | 2022-03-10 |
IL289450A (en) | 2022-02-01 |
EP4005228A1 (en) | 2022-06-01 |
US12003673B2 (en) | 2024-06-04 |
MX2022001162A (es) | 2022-02-22 |
KR20220044204A (ko) | 2022-04-06 |
WO2021021857A1 (en) | 2021-02-04 |
CN114207715A (zh) | 2022-03-18 |
CA3146871A1 (en) | 2021-02-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7603055B2 (ja) | 分散配置されたオーディオデバイスのための音響エコー除去制御 | |
JP7271674B2 (ja) | ネットワークマイクロフォンデバイスのノイズ分類による最適化 | |
US12170875B2 (en) | Managing playback of multiple streams of audio over multiple speakers | |
CN114175686B (zh) | 音频处理方法和系统及相关非暂时性介质 | |
KR102727090B1 (ko) | 지능형 개인 비서에 대한 위치 분류 | |
CN114402385A (zh) | 具有分布式麦克风的声学分区 | |
US20240323608A1 (en) | Dynamics processing across devices with differing playback capabilities | |
RU2818982C2 (ru) | Управление акустической эхокомпенсацией для распределенных аудиоустройств | |
JP2024545571A (ja) | 分散型オーディオデバイスダッキング | |
EP4256814B1 (en) | Insertion of forced gaps for pervasive listening | |
CN118235435A (zh) | 分布式音频设备闪避 | |
CN116547751A (zh) | 针对遍布式聆听插入强制间隙 | |
US20240114309A1 (en) | Progressive calculation and application of rendering configurations for dynamic applications | |
CN116783900A (zh) | 基于子带域声学回声消除器的声学状态估计器 | |
JP2023551704A (ja) | サブ帯域ドメイン音響エコーキャンセラに基づく音響状態推定器 | |
CN116806431A (zh) | 通过相互设备可听性在用户位置处的可听性 | |
CN116830604A (zh) | 动态应用的渲染配置的渐进计算和应用 | |
CN118216163A (zh) | 基于扩音器取向的渲染 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220328 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221005 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230728 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240806 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20241106 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20241126 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20241209 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7603055 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |