JP2017538146A

JP2017538146A - インテリジェントな音声認識および処理のためのシステム、方法、およびデバイス

Info

Publication number: JP2017538146A
Application number: JP2017521504A
Authority: JP
Inventors: レヴィット，ハリー
Original assignee: アウディマックス・エルエルシー
Priority date: 2014-10-20
Filing date: 2015-10-19
Publication date: 2017-12-21
Also published as: WO2016064730A1; KR20170071585A; EP3210207A1; ZA201703417B; US20160111111A1; EP3210207A4; US20170133037A1; US20180268841A1; CN107112026A; AU2015336275A1; US9916842B2; US9905240B2; CA2964906A1; US10475467B2

Abstract

インテリジェントな音声認識および処理のためのシステム、方法、およびデバイスが、開示される。一実施形態によれば、音声信号の了解度を改善するための方法は、（１）少なくとも１つのプロセッサが複数の音要素を備える入力音声信号を受信するステップと、（２）少なくとも１つのプロセッサが、入力音声信号内の音要素を認識して、了解度を改善するステップと、（３）少なくとも１つのプロセッサが、音要素の修正および置換えのうちの少なくとも１つによって、音要素を処理するステップと、（４）少なくとも１つのプロセッサが、処理された音要素を備える処理された音声信号を出力するステップとを含み得る。

Description

関連出願
[0001]本出願は、参照することによりその開示の内容全体が組み込まれる、２０１４年１０月２０日に出願された米国特許出願第６２／０６６，１５４号の継続出願である。

[0002]本出願は、概して、電子通信に関し、より詳細には、インテリジェントな音声認識および処理を有する通信システム、方法およびデバイスに関する。

[0003]近代的通信システム（たとえば、セルラー電話）における背景ノイズ、室内反響、および信号歪みは、多数の重要な音声キューを壊し、質の悪い音声信号をもたらす。しかしながら、音声は、多数の冗長キューを含み、正常聴力を有する人が、これらの冗長性を使用して、日常生活において遭遇するノイズの多い、反響するまたは他の形の歪んだ音声の多くの音声キューの損失を補うことが可能である。これは、偶発の出来事ではない。音声通信が、正常聴力を有する人々にとってほとんど常に相対的に効率的であるように、法律、公的圧力、および関連要因は、仕事場、公共の場、学校などにおける背景ノイズの低減をもたらした。しかしながら、聴力損失を有する人は、２つの形の質の悪い音声、正常に機能しない聴覚系における信号の神経系処理の低下から生じる音声キューの損失および歪んだ音声における音声キューの付加的損失、に対処しなければならない。聴力損失を有する多くの人々は、冗長音声キューを使用して、正常に機能しない聴覚系における不完全な神経系処理から生じる音声キューの損失を補って、静寂の中で歪んでいない音声を理解することができる一方で、歪んだ音声信号は、理解するのがより著しく困難である。増幅は、それが、質の悪い音声信号における有用な冗長キューのうちの多数のキューの可聴度を増やすという点で、静寂の中での歪んでいない音声の了解度の改善のために有用である。しかしながら、増幅された音声信号が、歪んだ（たとえば、背景ノイズが、音声信号と同様に増幅された）場合、正常に機能しない聴覚系における不完全な神経系処理から生じる音声キューの複合的損失および歪んだ音声信号における音声キューの損失を補うための残っている冗長音声キューはより著しく少ない。聴力損失を有する高齢者はまた、特に急速な時間的変化の処理に関して、神経系および認知処理において老化に伴う欠損を有する。結果として、これらの高齢者は、日常生活において共通して遭遇する種類の歪みを有する音声を理解する若い正常聴力の成人よりもかなり大きな困難を有する。従来の増幅は、歪んだ音声、特に急速な時間的歪みを有する音声、の了解度の改善をほとんどもたらさない。

[0004]自動音声認識の分野は、近年、かなりの進展を遂げた。音声の機械認識は、まだ人の音声認識ほど効率的ではないが、現在、実用的に実現している。しかしながら、自動音声認識の技術を使用するアルゴリズムが、質の悪い音声の了解度および品質を改善するために開発された。しかしながら、補聴器において実装された信号処理アルゴリズムは、音響信号のみを処理する。対照的に、自動音声認識アルゴリズムは、視覚的、音声学的、言語学的および／または統計的情報を含み得る、音声信号におけるすべての情報を使用する。質の悪い音声の理解を可能にする音声信号における多数の冗長性は、特に困難な聴取条件の下で、対面でのやりとりにおいて音声の音響的構成要素および視覚的構成要素の両方によって伝えられる。

[0005]インテリジェントな音声認識および処理を有するシステム、方法およびデバイスが、開示される。一実施形態では、本システム、方法およびデバイスは、本明細書に記載されるように、音声認識補助器（ＳＲＡ：ＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎＡｉｄ）を実装することができる。ＳＲＡは、特に、神経系および認知処理における老化に伴う欠損もほぼ必ず有する聴力損失を有する高齢者を含む、聴力損失を有する人々のために音声の了解度および音質を改善するための方式で実装され得る。

[0006]たとえば、従来の補聴器は、音声信号の音声学的、言語学的、意味論的または統計的内容には関係なく音響信号を処理する。処理された音響信号は、次いで、聴覚のみを使用して、聞き手に配信される。したがって、本発明の目的は、聴覚、視覚、および、特別な場合には、触覚的補助器を有するＳＲＡを使用する聴力損失を有する目の見えない人々のためになど、触覚によって聞き手に到達するすべての音声情報を使用することができるシステム、方法およびデバイスを実現することである。ＳＲＡは、通信のモード（たとえば、直接会って行う会話、テレビジョンを見ること、録音を聴くこと）に応じて適切なフォーマットで聞き手に処理された音声信号を配信する。

[0007]本発明のさらなる目的は、音響的増幅の候補である大多数の人々（たとえば、高齢者）のための改善されたまたはインテリジェントな音声認識をサポートすることができるシステム、方法およびデバイスを提供することである。これらの候補は、神経系における老化に伴う聴覚処理の欠損および聴力損失に加えた認知処理の低下を経験し得る。したがって、ＳＲＡは、神経系および認知処理における老化に伴う欠損を有する高齢者を含む聴力損失を有する人々のために音声の了解度および音質の両方を改善することができる方式で動作するように設計される。

[0008]聴力損失の特質および重症度と他の複合的な変数とに応じて、音声の知覚において聴力損失を有する人々の間には大きな個人差が存在する。したがって、本発明のさらにもう１つの目的では、ＳＲＡは、各個々のユーザーについて適切に処理されない音声信号のそれらの態様を認識するようにトレーニングされ得るように実装することができる。ＳＲＡは、次いで、各ユーザーの音声信号の了解度および／または音質を改善するように、音声信号を修正することができる。このトレーニングパラダイムを使用して、ＳＲＡはまた、聴力損失を有する人々ならびに質の悪い音声を聞く彼らの年齢相応の正常な聴力を有する人々のために音声了解度および／または音質を改善するために使用され得る。質の悪い音声は、背景ノイズ、室内反響、または、伝送の信号の方法固有の歪みを被る弱い電話またはインターネット接続を介して受信された音声の結果であることがある。たとえば、近代的音声通信システムにおける新しい形の歪みは、セルラー電話リンクにおける短期ドロップアウトのそれである。これらの新しい形の歪みは、日常の音声通信において遭遇する歪み（背景ノイズ、室内反響）とは全く異なり、したがって、音声了解度および／または音質を改善するための大きく異なるアルゴリズムを必要とし得る。ＳＲＡは、歪みの特質および音声信号のどの態様が歪みに弱いかを認識する能力を有する。この方法により、ＳＲＡは、各タイプの歪みについて適切な信号処理アルゴリズムを自動的に選択することができる。一実施形態では、たとえば、ＳＲＡは、ＳＲＡが一定期間にわたりユーザーによって使い古された結果として一般的に遭遇する歪みを認識することができる。ＳＲＡは、歪みの結果としてユーザーに対して失われる可能性が高い音声キューを識別し、これらのキューおよび／または歪みによって影響を受ける可能性の低い他の冗長音声キューを強化することによってこれらのキューの損失を補うために、アルゴリズムを選択する。この形の音声処理は、音声信号および聴力に障害のあるユーザーの聴覚能力の物理的、音声学的、言語学的および統計的プロパティを利用する。ＳＲＡは、各ユーザーが一般的に遭遇する歪みについて音声了解度および／または音質を改善するためのこの方法での音声の処理に一意的によく適している。ＳＲＡはまた、セルラー電話によってもたらされたタイプの歪みの場合のように、将来もたらされ得るおよび時間とともに一般的になり得る新しい形の歪みを認識するおよび補う能力を有する。ＳＲＡは、どの音声キューが失われたか、どのキューが減らされたまたは変更されたかおよび調整され得るか、ならびに、どの残りの冗長音声キューが、失われた、減らされたまたは変更されたキューを補うために強調され得るかに関して、各歪みを認識および分類するようにトレーニングされ得ることに留意されたい。歪みが、これらに関して認識された後は、歪みの物理的特性が、次いで、決定される。この方法で、ＳＲＡは、将来もたらされ得る任意の歪みを音声特徴レベルで認識および分類するようにトレーニングされ得る。

[0009]具体的には、ＳＲＡを実装するシステム、方法およびデバイスは、いくつかの点で信号強化の特徴を有する従来の補聴器またはセルラー電話とは異なる。ＳＲＡは、聞き手に到達する物理的信号の分析において音声学的、言語学的および統計的情報を使用するように動作することができる。別の観点から言うと、ＳＲＡは、対面でのやりとりにおいて人によって使用されるかまたはＳｋｙｐｅ（商標）などのインターネットベースのオーディオ−ビデオリンクを使用するような、音響的信号および視覚信号の両方から成る物理的信号を分析するように動作することができる。最後に、ＳＲＡは、聴覚に限定されず、視覚および触覚も同様に含み得る、聞き手への音声を配信するように動作することができる。広く使用されてはいないが、触覚は、１世紀以上の間重度聴覚障害者および視聴覚障害者に音声キューを配信するために使用されている。

[0010]特定の一実施形態では、ＳＲＡは、非音声認識モードで動作することができる。非音声認識モードでは、ＳＲＡは、従来の補聴器機能（たとえば、音楽を聴くこと、信号を変更すること、および他の非音声音）を提供するように動作することができる。加えて、このモードの動作は、オーディオ信号を処理し、音響信号をさらに分析することができる。

[0011]もう１つの実施形態では、ＳＲＡは、音声認識モードで動作することができる。音声認識モードでは、ＳＲＡは、音声了解度および／または音質を改善するように、音声を認識し、処理し、聞き手に配信するために、物理的音声信号におけるすべての使用可能な音声情報、ならびに、音声がどのように生み出されるかの情報と話される言語の音声学的、言語学的および統計的プロパティを使用するように動作することができる。

[0012]一実施形態によれば、音声信号の了解度を改善するための方法は、（１）少なくとも１つのプロセッサが、複数の音要素を備える入力音声信号を受信するステップと、（２）少なくとも１つのプロセッサが、入力音声信号内の音要素を認識して了解度を改善するステップと、（３）少なくとも１つのプロセッサが、音要素の修正および置換えのうちの少なくとも１つによって、音要素を処理するステップと、（４）少なくとも１つのプロセッサが、処理された音要素を備える処理された音声信号を出力するステップとを含み得る。

[0013]一実施形態では、音要素は、継続音要素および非継続音要素のうちの少なくとも１つを備える。
[0014]一実施形態では、本処理は、音要素の継続期間を増やす。

[0015]一実施形態では、本処理は、音要素の継続期間を減らす。
[0016]一実施形態では、本方法は、少なくとも１つのプロセッサが、入力音声信号内の第２の音要素を認識して了解度を改善するステップと、少なくとも１つのプロセッサが、音要素の修正および置換えのうちの少なくとも１つによって、第２の音要素を処理するステップとをさらに含み得る。第２の音要素は、第１の音要素の処理を補うために、修正または置換えされ得る。

[0017]一実施形態では、音要素は、音声音でもよい。
[0018]一実施形態では、第１の音要素は、短い継続音でもよく、第２の要素は、長い継続音でもよく、出力される処理された音声信号は、修正されたまたは置き換えられた第１のおよび第２の音要素を備える。

[0019]一実施形態では、本方法は、少なくとも１つのプロセッサが、入力音声信号の休止の継続期間を修正することによって入力音声信号をさらに処理するステップをさらに含むことができ、出力される処理された音声信号は、修正された休止を備える。

[0020]一実施形態では、本方法は、処理された音声信号を再生するステップをさらに含むことができ、出力される処理された音声が再現される速度が、減らされる。
[0021]もう１つの実施形態によれば、音声信号の了解度を改善するための方法は、（１）少なくとも１つのプロセッサが、入力音声信号を受信するステップと、（２）少なくとも１つのプロセッサが、入力音声信号の音声基本周波数を識別するステップと、（３）少なくとも１つのプロセッサが、音声信号を分析して有声の音声において声道の共振を刺激する周期的ピッチパルスを抽出することによって、入力音声信号を処理するステップであり、これらの周期的ピッチパルスの周波数が有声の基本周波数である、ステップと、（４）少なくとも１つのプロセッサが、入力音声信号の抽出された周期的ピッチパルスをより大きい強度を有するより広い周波数範囲の声道共振を刺激する周期的ピッチパルスと置き換えるステップと、（５）少なくとも１つのプロセッサが、処理された音声信号を出力するステップとを含み得る。

[0022]一実施形態では、置換周期的パルスは、ディラックパルスに近似してもよい。
[0023]一実施形態では、本方法は、少なくとも１つのプロセッサが、音声基本周波数を備える補足信号を生成することによって入力音声信号をさらに処理するステップと、少なくとも１つのプロセッサが、聴覚、触覚、および視覚のうちの１つによって補足信号を出力するステップとをさらに含み得る。

[0024]一実施形態では、音要素は、音声音でもよい。
[0025]もう１つの実施形態によれば、音声信号の了解度を改善するための方法は、（１）少なくとも１つのプロセッサが、入力音声信号を備えるオーディオ信号を受信するステップと、（２）少なくとも１つのプロセッサが、オーディオ信号の音響的環境を認識するステップと、（３）少なくとも１つのプロセッサが、受信された音声信号内の音要素を認識して了解度を改善するステップと、（４）少なくとも１つのプロセッサが、音響的環境に基づいて音要素を処理するための信号処理戦略を決定するステップと、（５）少なくとも１つのプロセッサが、決定された信号処理戦略を識別された音要素に適用するステップと、（６）少なくとも１つのプロセッサが、処理された音要素を備える処理された音声信号を出力するステップとを含み得る。

[0026]一実施形態では、本方法は、少なくとも１つのプロセッサが、音響的環境が音声信号の了解度を低下させると決定するステップをさらに含み得る。
[0027]一実施形態では、低下させられた音声了解度の聴取条件に基づいて音声信号を処理するための信号処理戦略を決定するステップは、少なくとも１つのコンピュータープロセッサが、ユーザーからのフィードバックに基づいて信号処理戦略を変更するステップを含み得る。フィードバックは、ユーザーからの可聴式フィードバックでもよい。

[0028]一実施形態では、決定された信号処理戦略は、分節間マスキングを減らす。
[0029]一実施形態では、決定された信号処理戦略は、反響するマスキングを減らす。
[0030]一実施形態では、決定された信号処理戦略は、背景ノイズを減らす。

[0031]一実施形態では、決定された信号処理戦略は、音響的フィードバックを減らす。
[0032]一実施形態では、音要素は、音声音でもよい。
[0033]一実施形態では、処理された音声信号を出力するステップは、処理された音声信号の第１の部分を出力の第１のチャネルに出力するステップと、処理された音声信号の第２の部分を出力の第２のチャネルに出力するステップとを含み得る。

[0034]もう１つの実施形態によれば、通信デバイスは、複数の音要素を備える入力音声信号を受信する入力と、入力音声信号内の音要素を認識して了解度を改善し、音要素の修正および置換えのうちの少なくとも１つによって音要素を処理する、少なくとも１つのプロセッサと、処理された音要素を備える処理された音声信号を出力する出力とを備え得る。

[0035]一実施形態では、入力は、マイクロフォンを備え得る。
[0036]一実施形態では、出力は、スピーカーを備え得る。
[0037]一実施形態では、出力は、触覚トランスデューサを備え得る。

[0038]一実施形態では、入力、少なくとも１つのプロセッサ、および出力は、同じデバイス内に共に位置し得る。
[0039]一実施形態では、出力および少なくとも１つのプロセッサは、別個である。

[0040]一実施形態では、音要素は、音声音でもよい。
[0041]もう１つの実施形態によれば、通信デバイスは、入力音声信号を備えるオーディオ信号を受信する入力と、オーディオ信号の音響的環境を認識すること、受信された音声信号内の音要素を認識して了解度を改善すること、音響的環境に基づいて音要素を処理するための信号処理戦略を決定すること、および決定された信号処理戦略を識別された音要素に適用すること、を実行する少なくとも１つのプロセッサと、処理された音要素を備える処理された音声信号を出力する出力とを備え得る。

[0042]一実施形態では、さらに、少なくとも１つのプロセッサは、音響的環境が音声信号の了解度を低下させるものであると決定する。
[0043]一実施形態では、入力は、マイクロフォンでもよい。

[0044]一実施形態では、出力は、スピーカーでもよい。
[0045]一実施形態では、出力は、触覚トランスデューサを備え得る。
[0046]一実施形態では、入力、少なくとも１つのプロセッサ、および出力は、
は、同じデバイス内に共に位置する。

[0047]一実施形態では、出力および少なくとも１つのプロセッサは、別個である。
[0048]一実施形態では、音要素は、音声音でもよい。
[0049]もう１つの実施形態によれば、音声信号の了解度を改善するためのデバイスは、入力オーディオ信号を受信する入力と、第１のユーザーの耳に関連する第１の出力と、第２のユーザーの耳に関連する第２の出力と、第１の出力と第２の出力との間で入力オーディオ信号の出力を切り替える少なくとも１つのプロセッサとを含み得る。

[0050]一実施形態では、切替えは、疑似周期的でもよい。
[0051]もう１つの実施形態によれば、音声信号の了解度を改善するためのデバイスは、入力オーディオ信号を受信する入力と、第１のユーザーの耳に関連する第１の出力と、第２のユーザーの耳に関連する第２の出力と、入力オーディオ信号内の第１の音要素を強い音要素として認識すること、第１の音要素を第１の出力に出力すること、入力オーディオ信号内の第２の音要素を受信すること、第２の音要素を第２の出力に出力すること、入力オーディオ信号内の第３の音要素を強い音要素として認識すること、第３の音要素を第２の出力に出力すること、入力オーディオ信号内の第４の音要素を受信すること、および第４の音要素を第１の出力に出力すること、を実行する少なくとも１つのプロセッサとを含み得る。

[0052]本発明、その目的および利点のより完全な理解のために、次のような添付の図面に関して以下の説明がここで参照される。

[0053]一実施形態によるインテリジェントな音声認識および処理のためのシステムを示す図である。 [0054]もう１つの実施形態によるインテリジェントな音声認識および処理のためのシステムを示す図である。 [0055]もう１つの実施形態によるインテリジェントな音声認識および処理のためのシステムを示す図である。 [0056]もう１つの実施形態によるインテリジェントな音声認識および処理のためのシステムを示す図である。 [0057]もう１つの実施形態によるインテリジェントな音声認識および処理のためのシステムを示す図である。 [0058]一実施形態によるインテリジェントな音声認識および処理のためのデバイスのブロック図である。 [0059]一実施形態による音クラスレベルで音声を処理するための方法を示す図である。 [0060]もう１つの実施形態による音クラスレベルで音声を処理するための方法を示す図である。 [0061]一実施形態による分節レベルで音声を処理するための方法を示す図である。 [0062]一実施形態による分節レベルで音声を処理するための方法を示す図である。

[0063]本発明のいくつかの実施形態およびそれらの利点は、図１〜６を参照することによって理解され得る。
[0064]本明細書では、「受信される音声信号」という語句は、聞き手に到達する物理的信号を指す。対面でのやりとりにおいて、受信される音声信号は、音響的構成要素および視覚的構成要素の両方を有する。電話通信では、受信される音声信号は、一般に、音響信号のみから成る。聴力損失を有する目の見えない人の特別な場合では、受信される音声信号は、音響的音声キューおよび振動デバイスからの触覚音声キューの両方から成り得る。

[0065]本明細書では、音声認識補助器、またはＳＲＡ、という用語は、本明細書で説明されるように機能する任意のデバイスを指す。ＳＲＡは、ハードウェア、ソフトウェア、またはその組合せにおいて実装され得る。それはまた、従来の補聴器におけるように耳に付けたスタンドアロンデバイスでもよく、またはそれは、２つ以上のユニットに分けられ得る。たとえば、それは、２つのユニット、従来の補聴器と同程度のサイズの小さい低電力の耳に装着されたユニットおよび比較的高い電力消費で計算的集中処理の能力を有するより大きなサイズのポケットに装着するユニット、から成り得る。耳に装着されたユニットは、前置増幅器を有する１つまたは複数のマイクロフォン、オーディオ出力トランスデューサ、およびウェアラブルビデオディスプレイへのリンクを有し得る。触覚トランスデューサはまた、ユーザーに信号を配信するために使用され得る。２つのユニットは、テレコイルリンク、Ｂｌｕｅｔｏｏｔｈ（登録商標）リンク、または他の無線リンクなど、ハードワイヤード電気リンクまたは電磁気リンクを用いて、互いに通信する。ＳＲＡの両耳用のバージョンは、各耳に１つの、２つの耳に装着されたユニットを有する。もう１つの実装形態では、より大きいユニットが、電話網および／またはインターネットへのリンクを用意するもう１つのデバイス（たとえば、スマートフォン、タブレットコンピューターなど）に接続され得る、またはその一部となり得る。これらのリンクは、従来の電話（ＰＯＴＳ）、携帯電話、付加的信号処理能力を有するスマートフォン、インターネットベースの通信デバイス（ハードウェアおよび／またはソフトウェア）、Ｓｋｙｐｅ（商標）、または他の通信デバイス、および、通信ネットワーク内のノードなど、電子デバイスによって実行される他のソフトウェアアプリケーションを介する通信を可能にする。ＳＲＡの他の実装形態は、本開示の範囲内にある。

[0066]本明細書では、「聴力損失」という用語は、聴覚系への損傷ならびに神経系および認知処理における老化に伴う欠損の影響を含み得る。聴力損失を有する人々の大多数は、神経系および認知処理において老化に伴う欠損を有する高齢者であるので、聴力損失のこのより広い定義が使用される。

[0067]本明細書で開示されるように、音声信号の了解度を改善することは、音声信号の了解度を改善することおよび／または音声信号の音質を改善することを含み得る。
[0068]音声は、伝送される音を修正する音伝送経路（声道）に音響エネルギーを配信するエネルギー源（肺）によって生み出される。声道は、通常は、声道の形に応じた共振周波数を有する。スペクトル分析を使用して測定されるものとしての、これらの共振は、「フォルマント」として知られる。

[0069]音声には３つの形のエネルギー生成がある：ｉ）声帯の振動によってもたらされる空気の周期的破裂が声道の共振を刺激する、周期的刺激と、ｉｉ）声道内の空気の流れのランダムな摂動が、声道の共振によってフィルターをかけられたノイズのような音を生み出す、ランダム刺激と、ｉｉｉ）声道の閉塞が急に解放されたときに生成されるものなど、エネルギーの単一の破裂から成る、パルス性刺激。

[0070]音声の音は、音源に応じてクラスに分けることができる。母音および二重母音は、声帯の周期的振動によって生み出される。これらの音は、子音に比べて相対的に長い。声道の共振（フォルマント）は、母音の定常状態部分の間は大きく変化しない。隣接する子音を示す母音へのおよび母音からのフォルマント遷移が存在する。二重母音は、次いで第２の母音のフォルマントパターンに融合する母音に特有のフォルマントパターンで始まる。母音および二重母音は、それぞれ口の前部、中央および後部での声道の収縮によって生み出される前舌母音、中舌母音および後舌母音など、それらが生み出される方式に従って下位分類することができる。

[0071]声道のランダム刺激によって生み出される音は、ｓｉｐにおける／ｓ／およびｓｈｉｐにおける／ｓｈ／など、無声摩擦音として知られる。ｚｉｐにおける／ｚ／などの有声摩擦音は、ランダム刺激を声道の周期的刺激と結合させる。

[0072]ｎｉｐにおける／ｎ／など、鼻子音は、母音におけるように、声道の周期的刺激によって生み出されるが、声道の形は非常に異なる。音響信号が鼻腔を介して声道を出るように、声道が、唇でまたは口の後部で、塞がれる。鼻子音における声道の形は、複雑であり、共振および反共振の複雑な混合をもたらす。鼻子音はまた、低周波数においてそれらのエネルギーの大半を有する。

[0073]わたり子音は、母音と同じ方法で生み出されるが、急速なフォルマント遷移を有する短い継続期間の音である。わたり音の調音は、１つの母音に適した形の声道で始まり、直後に１つの母音に適した形で終わる。

[0074]ｐｉｎにおける／ｐ／およびｂｉｎにおける／ｂ／など、閉鎖子音は、声道の収縮の突然の解放によって生み出される。閉鎖子音は、有声または無声でもよく、たとえば、／ｐ／は唇での収縮によって生み出される無声閉鎖音であり、一方で、その同種の／ｂ／は、唇での同じ収縮によって生み出される有声閉鎖音である。無声閉鎖音の調音は、収縮の解放の後の発声の開始が遅れるという点で、有声閉鎖音のそれとは異なる。閉鎖子音はまた、閉鎖音破裂と称されるランダム刺激の破裂を含む。閉鎖音破裂におけるエネルギーの量は、変化に富む。単語の最後にある閉鎖音など、場合によっては、閉鎖音破裂は、完全に省略され得る。

[0075]前述の音クラスは、２つの広いカテゴリー、継続音および非継続音、に分けられ得る。継続音（母音、二重母音、摩擦音、鼻音、および、ｌｉｐにおけるような／ｌ／、およびｒｉｐにおけるような／ｒ／など、いくつかの特別な音）は、その継続期間が、言われたことの意味を変更することなく修正され得る、継続的な音である。非継続音、わたり音、閉鎖音および破擦音（閉鎖音および摩擦音の組合せ）は、固定された継続期間の音であり、閉鎖音破裂の若干の修正を除いて、意味を変更することなく継続期間を修正することはできない。

[0076]各音クラス内の音声音は、ときに音素と称される、意味を伝える分節または要素に細分され得る。異なる言語は、各音クラス内に異なる分節／要素集合を有するが、複数の言語に共通する多数の分節／要素が存在する。音声はまた、質問、声明、強調を信号伝達するための語強勢および抑揚など、意味を伝える超分節構成要素を有する。

[0077]図１Ａをここで参照すると、この図は、たとえば、対面でのやりとりにおいて、使用され得るＳＲＡの一実施形態を示す。本実施形態では、話し手によって生み出された音声は、ＳＲＡ１０５によって受信される音響および視覚信号を用いて、ＳＲＡのユーザーに送信され得る。ＳＲＡ１０５に到達する音響信号は、ＳＲＡへの音響入力の機能を果たす１つまたは複数のマイクロフォンによって、受信され得る。ＳＲＡ１０５に到達する視覚信号は、ＳＲＡ１０５への視覚的入力の機能を果たす１つまたは複数のウェアラブルカメラによって、受信され得る。受信された音響および視覚信号は、音声の了解度および／または音質を改善するために、ＳＲＡ１０５によって処理され得る。

[0078]ＳＲＡ１０５の出力は、音響および／または視覚信号と、場合によっては、触覚信号を含み得る。音響信号は、補聴器出力トランスデューサ、挿耳型ラウドスピーカー、イヤホーン、または耳に音を配信するための他の音響トランスデューサを用いて、ユーザーに配信され得る。視覚信号は、ビデオディスプレイ、頭部装着型視覚ディスプレイ、ＧｏｏｇｌｅＧｌａｓｓ、または他の視覚／ビデオディスプレイを用いて、ユーザーに配信され得る。ユーザーに配信される視覚信号は、通常の対面でのやりとりにおいて使用可能な話し手の顔および体の動きの視覚的キューを補う。振動デバイスおよび他の触覚トランスデューサもまた、ユーザーに音声キューを配信するために使用され得る。ＳＲＡはまた、対面でのやりとりにおいて通常使用可能な視覚的キューへの視覚的または触覚的補足を使用せずに、使用することができる。

[0079]図１Ｂは、そこにおいて音源が、ＳＲＡ１０５によって受信される音響的音声信号を送信することができる、ＳＲＡ１０５の一実施形態を示す。音源は、無線、レコードプレーヤー、オーディオカセットプレーヤー、ＣＤプレーヤー、補助リスニングデバイス、ボイスオーバーＩＰデバイス、音声会議システム、拡声装置、ストリーミング無線デバイス、送受信無線、または、タブレットコンピューター、デスクトップおよびノートブックコンピューター、ワークステーション、電子読取りデバイスなどのオーディオ出力でもよい。ＳＲＡに到達する音響信号は、ＳＲＡ１０５への音響入力の機能を果たす１つまたは複数のマイクロフォンによって、受信され得る。受信された音響信号は、音声の了解度および／または音質を改善するためにＳＲＡによって処理され得る。

[0080]図１ＢのＳＲＡ１０５の出力は、補聴器出力トランスデューサ、挿耳型ラウドスピーカー、イヤホーン、または音を耳に配信するための他の音響トランスデューサを用いてユーザーに配信され得る音響信号から成る。ＳＲＡ１０５によって音響信号から抽出された音声キューはまた、ビデオディスプレイ、頭部装着型視覚ディスプレイ、ＧｏｏｇｌｅＧｌａｓｓ、または他の視覚／ビデオディスプレイを用いて配信される視覚的刺激によって、配信され得る。同様に、ＳＲＡ１０５によって音響信号から抽出された音声キューはまた、振動デバイスおよび他の触覚トランスデューサを用いて配信される触覚的刺激によって、配信され得る。この手段によって配信される音声キューは、対面でのやりとりにおいて通常使用可能な視覚的音声キューを補足する。

[0081]視覚的または触覚的手段によって配信される補足的音声キューは、聴力損失を有する人に有用であり得ることは認識され得るが、一方で、この手段によって配信される補足的視覚的キューはまた、背景ノイズにおいてもしくは非常に反響する環境においてのように難しい聴取条件の下で聴く、または低品質の通信チャネルを介して歪んだ音声を聴く、正常聴力を有する人にとっても有用であり得ることは、広く認識されてはいない。

[0082]図１Ｃは、そこにおいてオーディオ−ビデオ源が、ＳＲＡ１０５によって受信された音響および視覚信号を送信し得る、ＳＲＡ１０５の一実施形態を示す。オーディオ−ビデオ源は、テレビジョンセット、ＤＶＤプレーヤー、ビデオカセットプレーヤー、映画館における映画、ホームシアター、ビデオ会議システム、または、タブレットコンピューター、デスクトップおよびノートブックコンピューター、もしくはワークステーションなどのオーディオ−ビデオ出力でもよい。ＳＲＡ１０５に到達する音響信号は、ＳＲＡ１０５への音響入力の機能を果たす１つまたは複数のマイクロフォンによって受信され得る。ＳＲＡ１０５に到達する視覚信号は、ＳＲＡ１０５への視覚的入力の機能を果たす１つまたは複数のカメラによって受信され得る。受信された音響および視覚信号は、音声の了解度および／または音質を改善するために、ＳＲＡ１０５によって処理され得る。

[0083]図１ＣにおけるＳＲＡ１０５の出力は、音響、電気、および／または視覚信号から成り得る。音響信号は、補聴器出力トランスデューサ、挿耳型ラウドスピーカー、イヤホーン、または音を耳に配信するための他の音響トランスデューサを用いて、ユーザーに配信され得る。視覚信号は、ビデオディスプレイ、頭部装着型視覚ディスプレイ、ＧｏｏｇｌｅＧｌａｓｓ、または他の視覚／ビデオディスプレイを用いて、ユーザーに配信され得る。振動デバイスおよび他の触覚トランスデューサもまた、ユーザーに信号を配信するために使用され得る。ＳＲＡはまた、オーディオ−ビデオディスプレイを見る際に通常使用可能な視覚的キューへの視覚的または触覚的補足の使用なしに、使用され得る。

[0084]図１Ｄは、従来の電話（ＰＯＴＳ）、携帯電話、付加的信号処理能力を有するスマートフォン、インターネットベースの通信デバイス（ハードウェアおよび／もしくはソフトウェア）、Ｓｋｙｐｅ（商標）、または他の通信デバイスなどの通信デバイスからＳＲＡ１０５が信号を受信する、ＳＲＡ１０５の一実装形態を示す。図は、通信デバイスを使用して互いに通信する２人を示す。話し手は、第１の通信デバイス１１０ａに向かって話し得る。音声信号は、ネットワークの受信側にある第２の通信デバイス１１０ｂに通信ネットワーク１１５を介して送信され得る。通信ネットワークの例は、従来の電話システム（ＰＯＴＳ）、セルラーネットワーク、ＷｉＦｉネットワーク、インターネット、パーソナルエリアネットワーク、衛星ネットワーク、近距離通信ネットワーク、Ｂｌｕｅｔｏｏｔｈ（登録商標）ネットワーク、およびその任意の組合せを含む。任意の適切な通信ネットワークが、必要および／または要望に応じて使用され得る。

[0085]図１Ｄにおいて通信デバイス１１０ｂに到達する信号は、音響および視覚信号を用いて、および／または、テレコイルリンク、Ｂｌｕｅｔｏｏｔｈ（登録商標）リンク、もしくは他の無線リンクなど、ハードワイヤードの電気リンクもしくは電磁気リンクを用いて、ＳＲＡ１０５に送信され得る。ＳＲＡ１０５によって受信された信号は、音声の了解度および／または音質を改善するために、処理され得る。

[0086]ＳＲＡ１０５は、別個の要素として図示されるが、ＳＲＡ１０５のハードウェア、ソフトウェア、および／または機能は、第１の通信デバイス１１０ａおよび／または第２の通信デバイス１１０ｂに組み込まれてもよい。

[0087]図１ＤにおけるＳＲＡ１０５の出力は、音響、電気、および／または視覚信号から成り得る。音響信号は、補聴器出力トランスデューサ、挿耳型ラウドスピーカー、イヤホーン、または音を耳に配信するための他の音響トランスデューサを用いて、ユーザーに配信され得る。視覚信号は、ビデオディスプレイ、頭部装着型視覚ディスプレイ、ＧｏｏｇｌｅＧｌａｓｓ、および他の視覚／ビデオディスプレイを用いて、ユーザーに配信され得る。振動デバイスおよび他の触覚トランスデューサもまた、ユーザーに信号を配信するために使用され得る。ＳＲＡ１０５はまた、オーディオ−ビデオディスプレイを見る際に通常使用可能な視覚的キューへの視覚的または触覚的補足の使用なしに、使用され得る。

[0088]図１Ｅは、第１の通信デバイス１１０ａが、第２の通信デバイスに加えて、または第２の通信デバイスの代わりに、ＳＲＡ１０５を含み得る、一実施形態を示す。やはり、ＳＲＡ１０５は、別個の要素として示されるが、ＳＲＡ１０５のハードウェア、ソフトウェア、および／または機能は、第１の通信デバイス１１０ａに組み込むことができる。

[0089]一実施形態では、ＳＲＡ１０５は、第１の通信デバイス１１０ａおよび第２の通信デバイス１１０ｂの両方に組み込まれ得るかまたは提供され得る。
[0090]図２は、ＳＲＡの一実施形態のブロック図を示す。受信器２０５は、ＳＲＡに到達する音響および視覚信号を受け取ることができる。これらの信号は、一時的にメモリ２１０に記憶され得る。付加的Ｉ／Ｏデバイス２１５は、目の見えないユーザーのための触覚出力など、オプションの処理のためにアクセスされ得る。音響信号プロセッサ２２０は、視覚信号プロセッサ２２５と同期して音響信号を処理することができる。ＳＲＡの構成要素、２０５、２１０、２１５、２２０、２２５、２３０、のうちのいくつかまたはすべては、インターフェース２３５を介して通信可能なように連結され得る。当技術分野では知られているように、ローカルインターフェース２３５は、たとえば、１つもしくは複数のバスまたは他のワイヤードもしくはワイヤレス接続でもよいが、それらに限定されない。処理された音響および視覚信号は、出力デバイス２３０を介してユーザーに配信され得る。

[0091]一実施形態では、ＳＲＡ２００は、ソフトウェア、ファームウェア、ハードウェアまたはその組合せにおいて実装され得る。一実施形態では、デバイスの一部は、実行可能プログラムとして、ソフトウェアにおいて実装され、ＳＲＡの本体内のマイクロコンピューターなどの専用もしくは汎用コンピューターによって、または、パーソナルコンピューター、携帯情報端末、スマートフォン、ワークステーション、ミニコンピューター、メインフレームコンピューターなど、外部コンピューターへのハードワイヤードもしくは無線リンクを用いて、実行される。

[0092]もう１つの実施形態では、ＳＲＡ２０５の１つまたは複数の入力／出力（Ｉ／Ｏ）構成要素（２０５、２１５、２３０）は、マイクロフォン、カメラ、触覚加速度計、または他の入力センサー、補聴器出力トランスデューサ、挿耳型ラウドスピーカー、イヤホーン、または音を耳に配信するための他の音響トランスデューサ、ビデオディスプレイ、頭部装着型視覚ディスプレイ、ＧｏｏｇｌｅＧｌａｓｓ、コンピューターディスプレイ、または他の視覚／ビデオディスプレイ、目の見えないユーザーのための振動デバイスまたは他の触覚トランスデューサなど、音響的に、視覚的に、または触覚的に、音声信号を受信／配信する能力を有する周辺デバイスを含み得る。入力／出力デバイスは、ＳＲＡ２００の内部にあってもまたはそれと別個でもよい付加的ハードウェア（図示せず）を含み得ることを認識されたい。付加的ハードウェアは、通信を実現するために、標準ワイヤード（たとえば、ユニバーサルシリアルバス）または、テレコイルリンク、Ｂｌｕｅｔｏｏｔｈ（登録商標）リンク、もしくは他の無線リンクなど、標準ワイヤレス接続を使用してＳＲＡ２００に／から接続され得る。付加的ハードウェアをＳＲＡ２００に通信可能なように接続するための任意の適切な手段が、必要または要望に応じて使用され得る。

[0093]ＳＲＡは、非音声認識モードにおいてならびに音声認識モードにおいて従来の補聴器として使用され得る。非音声認識モードでの補聴器の動作は、自動音声認識処理の使用に先立って従来の手段によって増幅された音声を理解するためのユーザーの能力のベースラインデータが取得されることを可能にする。したがって、ＳＲＡは、参照することによりその開示の内容全体が組み込まれる、Ｄｉｌｌｏｎ，Ｈ．、「ＨｅａｒｉｎｇＡｉｄｓ（補聴器ハンドブック）」第２版、セクション９．２．２、２３９〜２４２ページ、Ｓｙｄｎｅｙ：ＢｏｏｍｅｒａｎｇＰｒｅｓｓ、ＮｅｗＹｏｒｋ、Ｓｔｕｔｔｇａｒｔ：Ｔｈｉｅｍｅ、（２０１０）に記載された、ＡｕｓｔｒａｌｉａｎＮａｔｉｏｎａｌＡｃｏｕｓｔｉｃＬａｂｏｒａｔｏｒｉｅｓ（オーストラリア国立音響研究所）によって開発されたＮＡＬ手順などの確立したあてはめ手順を使用して、従来の補聴器と同じ方法であてはめられ得る。ベースラインデータは、従来の増幅を使用していかに良くユーザーが音声を理解することができるかについて取得され得る。参照することによりその開示の内容全体が組み込まれる、Ｎｉｌｓｓｏｎ，Ｍ．、Ｓｏｌｉ，Ｓ．Ｄ．およびＳｕｌｌｉｖａｎ、Ｊ．Ａ．、「ＤｅｖｅｌｏｐｍｅｎｔｏｆｔｈｅＨｅａｒｉｎｇｉｎＮｏｉｓｅＴｅｓｔｆｏｒｔｈｅｍｅａｓｕｒｅｍｅｎｔｏｆｓｐｅｅｃｈｒｅｃｅｐｔｉｏｎｔｈｒｅｓｈｏｌｄｓｉｎｑｕｉｅｔａｎｄｉｎｎｏｉｓｅ（静寂の中でのおよびノイズの中での語音聴取閾値の測定のためのノイズテストにおける聴力の発達）」、ＪＡｃｏｕｓｔＳｏｃＡｍ．、９５、１０８５−９９（１９９４）に記載されているノイズ内聴力検査（ＨｅａｒｉｎｇｉｎＮｏｉｓｅＴｅｓｔ：ＨＩＮＴ）など、標準音声検査が、これを目的として使用され得る。補聴器利益の主観的評価もまた、参照することによりその開示の内容全体が組み込まれる、Ｃｏｘ，Ｒ．Ｍ．およびＡｌｅｘａｎｄｅｒ，Ｇ．Ｃ．、「Ｔｈｅａｂｂｒｅｖｉａｔｅｄｐｒｏｆｉｌｅｏｆｈｅａｒｉｎｇａｉｄｂｅｎｅｆｉｔ（補聴器の有効性評価簡略化版）」ＥａｒＨｅａｒ、１６、１７６−８６、（１９９５）に記載されている、補聴器の有効性評価簡略化版などの標準自己評価質問票を使用して取得され得る。加えて、クライアント指向の改善のスケール（ＣｌｉｅｎｔＯｒｉｅｎｔｅｄＳｃａｌｅｏｆＩｍｐｒｏｖｅｍｅｎｔ：ＣＯＳＩ）は、参照することによりその開示の内容全体が組み込まれる、Ｄｉｌｌｏｎ，Ｈ．、Ｊａｍｅｓ，Ａ．およびＧｉｎｉｓ，Ｊ．、「ＣｌｉｅｎｔＯｒｉｅｎｔｅｄＳｃａｌｅｏｆＩｍｐｒｏｖｅｍｅｎｔ（ＣＯＳＩ）ａｎｄｉｔｓｒｅｌａｔｉｏｎｓｈｉｐｔｏｓｅｖｅｒａｌｏｔｈｅｒｍｅａｓｕｒｅｓｏｆｂｅｎｅｆｉｔａｎｄｓａｔｉｓｆａｃｔｉｏｎｐｒｏｖｉｄｅｄｂｙｈｅａｒｉｎｇａｉｄｓ（クライアント指向の改善のスケールと補聴器によって実現される利益および満足のいくつかの他の測度とのそれの関係）」、ＪＡｍＡｃａｄＡｕｄｉｏｌ．８、２７−４、（１９９７）に記載されている、ＳＲＡからユーザーが最も望む利益を識別するように管理され得る。他の検査および評価の手順が、音声認識処理を有する補聴器および有さない補聴器の利益を決定するために使用され得る。音声認識処理のいくつかのレベルが存在し、前述のベースラインデータは、ＳＲＡの評価のための基準の提供においてのみならず、ＳＲＡの各ユーザーに適した音声認識アルゴリズムおよびそれらの実装形態の識別においても有用である。ＣＯＳＩは、各個人の最も重要なニーズを識別するように設計される。従来の増幅での各個人の能力のベースラインデータと結合されたこの情報は、最大の利益をもたらす可能性が高い、音声認識処理のレベルおよび適切なアルゴリズムの実装形態を決定するための手段を実現する。ＳＲＡにおいて実装され得る様々なレベルの音声認識処理が、以下に論じられる。

[0094]音クラスレベルでの音声の音声認識処理
[0095]実施形態によれば、ＳＲＡは、いくつかの異なるレベルで動作し得る。音クラスレベルでの音声の処理は、一般に、音声了解度および／または音質の改善を得るために、最小量の処理を必要とする。図３は、一実施形態による、音クラスレベルで音声を処理するための方法を示す。高齢者は、急速な音声、特に子供の急速な音声、を理解するのが難しい。聴覚感度の通常の老化に伴う損失は、部分的に原因であるが、より大きな要因は、認知処理における老化に伴う欠損と結合した時間的処理における通常の老化に伴う欠損である。困難な聴取条件（背景ノイズ、反響音、歪んだ電話音声）の下では、正常聴力を有する若い人々もまた、時間的処理の低下および音声基本周波数、Ｆｏ、とのより弱い神経系の同期性を示すことになる。方法３００による一実施形態によれば、ＳＲＡは、時間的処理の速度の低下および神経系の同期性の低下を補うために、休止を含めて、音声信号および／または音声信号の要素の速度を落とす。処理された速度信号の元の音声信号との時間同期を改善するために、ＳＲＡは、処理された音声信号において元の音声信号（非聴覚構成要素を含み得る）の全体的リズムおよびペースにより厳密に近似するために、休止を含めて、音声信号のある特定の要素の速度を上げることができる。

[0096]ステップ３０５で、ＳＲＡは、音声信号を受信することができる。一実施形態では、音声信号は、その急速な発話速度により、了解度の低下を経験し得る。
[0097]ステップ３１０で、ＳＲＡは、音声信号内の継続音および非継続音の音クラスを認識するために、受信された音声信号を処理することができる。継続音（母音、二重母音、鼻音、摩擦音）などの音クラスは、意味に影響を及ぼさずに継続期間を調整され得、一方で、非継続音（わたり音、閉鎖音）は、継続期間の変更に特に敏感である。一実施形態によれば、休止は、音声信号の停止によって認識され得る。継続音は、相対的に遅いフォルマント遷移ならびに経時的なピッチ周期の継続期間の小さな変化によって、ステップ３１０で、認識され得る。ゼロ交差の周期性の分析が、Ｆｏの変化を追跡するために使用され得、デジタルにまたはアナログ電子機器を使用して実装され得る。

[0098]もう１つの実施形態によれば、ＳＲＡは、音声信号における継続音ならびに休止を識別し、その後に、ステップ３１５で、それらの継続期間を増やすように動作することができる。したがって、フォルマント値およびピッチ周期の緩やかな変化を示す音声信号の部分は、了解度を改善するために、継続期間を増やされ得る。

[0099]一実施形態では、発話速度の低下が、信号処理の比較的単純な方法を使用して実装され得る。音声波形におけるゼロ交差が、識別および分析されて、ゼロ交差が周期的である波形におけるそれらの領域を決定する。２つの周期的ゼロ交差の間の時間差は、ピッチ周期として定義される。分析が実行されて、ピッチ周期が比較的安定した波形の領域を識別する。ピッチ周期の連続するペアにおける波形は、相互に相関する。相互相関関数のピークが、０．９５より大きい場合、波形のそのセクションにおけるピッチ周期は、安定しているとして定義される。相互相関はまた、ゼロ交差が実際に周期的であるというチェックの機能を果たす。それはまた、音声波形が何らかのノイズを含む場合に、ピッチ周期のより正確な推定値を提供する。安定したピッチ周期を有する波形の領域は、ピッチ周期が聞き取れる歪みをもたらすことなく音声波形から繰り返されるまたは削除されることを可能にする。ピッチ周期の繰返しは、音声の速度を下げる。ピッチ周期の削除は、音声の速度を上げる。音声信号への継続期間の調整は、実装が単純であり、簡単に自動化され得る。本方法はまた、ピッチ同期スペクトル分析が効率的に実行されることを可能にする。加えて、周波数スペクトルの低下は、本方法の変形形態を使用して得られ得る。音声音のピッチ周期のＸ％が、削除され、波形が、音声音の継続期間を変更しないようにより高速で再生される場合、音声音の周波数スペクトルは、Ｘ％下げられることになる。ピッチ周期を繰り返すまたは削除することによって発話速度を調整する例示的方法は、Ｏｓｂｅｒｇｅｒ，Ｍ．およびＨ．Ｌｅｖｉｔｔ，Ｈ．、「ＴｈｅＥｆｆｅｃｔｓｏｆＴｉｍｉｎｇＥｒｒｏｒｓｏｎｔｈｅＩｎｔｅｌｌｉｇｉｂｉｌｉｔｙｏｆＤｅａｆＣｈｉｌｄｒｅｎ’ｓＳｐｅｅｃｈ（聴覚障害児の音声の了解度のタイミングエラーの影響）」、ＭＪ．Ａｃｏｕｓｔ．Ｓｏｃ．Ａｍ．、１３１６〜１３２４、６６（１９７９）において開示される。本方法は、聴覚障害児によって生み出される音声の了解度を改善するために使用された。この文書の開示の内容全体が、参照することにより組み込まれる。

[00100]本方法はまた、会話の音声の了解度を改善するために使用される。
[00101]会話の音声は、明確に発音される音声より急速である。老化に伴う聴覚処理の欠損を有する高齢者は、急速な音声、特に高い基本周波数を有する小さい子供によって生み出される急速な音声、を理解するのが難しい。これらの高齢者の多くはまた、発話速度が急速であるのみならずそれらの高い基本周波数によるかなり高い周波数成分もまた有する彼らの孫の音声を理解することの難しさに加えて、老化に伴う高周波数聴力損失を有する。音声の速度を下げることは、子供が発言の後に休止することによって、処理されたより遅い音声が追いつくことを可能にすることを条件として、了解度を改善することになる。音声のスペクトルはまた、聞き手が聴き取りやすい周波数領域における音声キューをより多く置くために低くされ得る。しかしながら、音声が不自然に聞こえずに発話速度がどのくらい減らされ得るかまたはどのくらいの周波数低下が可能であるかに関して、制限が存在する。

[00102]発話速度を下げることは、一方向伝送の音声、すなわち、音声の録音を聴くとき、の音声了解度を改善する単純なおよび実用的な方法である。それはまた、発話速度の減少がオーディオチャネルとビデオチャネルとの間で同期されることを条件として、ビデオ録画を見るためにも使用され得る。二方向通信について、会話におけるように、速度を落とされた、処理された音声が話し手のそれに追いつくために、語句および文の最後に休止することが話し手には必要である。このタイプの話し手のエチケットは、互いをよく知っている人々、または、聴力損失を有する人々、特に聴力損失および老化に伴う聴覚処理の欠損を有する高齢者、と会話するときの休止およびより遅い音声の必要性を理解する人々ではより効率的に機能し得る。

[00103]ＳＲＡの代替実施形態は、ステップ３１５において継続期間を増やす他の方法を使用し得る。たとえば、代替実施形態は、ピッチ周期と非同期的に波形を追加すること、または音声の再現の速度を単に下げることなど、継続期間増加メカニズムを使用することができる。これらの実施形態では、音声の速度を下げることは、可聴の歪みを発生させ得る。オーディオ−ビデオ音声伝送について、音声信号は、繰り返されるフレームの間のピッチ周期の繰返しと同期されたビデオ信号のフレームを繰り返すことによって、ステップ３１５で、速度を落とすことができる。オーディオおよびビデオ信号の同期化は、音響的音声信号と視覚的音声信号との間の非同期性の知覚を避けるために、＋／−１０ミリ秒以内であるべきである。了解度および／または音質の低下がある前にどのくらい知覚可能な非同期性が許容され得るかに関しては人々の間に大きな個人差がある。

[00104]音声信号の速度を下げることは、いくつかの実施形態では、遅延を発生させ得る。通信のモードに応じて、どのくらいの遅延が聞き手によって許容され得るかには制限がある。たとえば、直接会って行う会話は、音声信号の受信における遅延により敏感であり得、リモート会話（電話を介するなどの）は、それほど敏感ではない。

[00105]オプションで、ステップ３２０が、遅延が音声処理において経験された場合に、遅延を減らすためにＳＲＡによって実行され得る。一実施形態では、対面でのやりとりにおいて受入れ可能なレベルまで処理遅延を減らし得る一実装形態は、音響信号が、視覚的に感知される視覚信号と同期されるように、短い継続音を長くする一方で、比較的長い継続音を短くすることを含み得る。

[00106]視覚的音声信号がない場合に音響的音声信号を処理するための一実施形態では、音声信号の継続期間を増やすことによってもたらされる比較的長い遅延、および／または了解度を改善するための音声信号の要素は、聞き手にとって許容可能であり得る。したがって、任意の適切な遅延低減実装形態が、必要および／または要望に応じて、使用または調整され得る。音声を強勢が置かれたパターンから無強勢のパターンに変更し得る継続期間の極端な変更を使用しないように注意が必要とされる。知覚される強勢の低減は、音声ピッチを上げることによって補われ得る。

[00107]発話速度の減少を必要としない一実施形態は、会話の音声においてわずかにのみ継続期間を変更されたそれらの音声音に焦点を合わせる。語末の位置にある閉鎖子音は、しばしば、閉鎖音破裂なしに生み出され、多数の子音は、明確に調音された音声よりは少ない強度で生み出される。そのような閉鎖子音の例は、Ｐｉｎｃｈｅｎｙ，Ｍ．、Ｄｕｒｌａｃｈ，Ｎ．、およびＢｒａｉｄａ，Ｌ．、「ＳｐｅａｋｉｎｇｃｌｅａｒｌｙｆｏｒｔｈｅｈａｒｄｏｆｈｅａｒｉｎｇＩ：Ｉｎｔｅｌｌｉｇｉｂｉｌｉｔｙｄｉｆｆｅｒｅｎｃｅｓｂｅｔｗｅｅｎｃｌｅａｒａｎｄｃｏｎｖｅｒｓａｔｉｏｎａｌｓｐｅｅｃｈ（難聴者のために明瞭に話すことＩ：明瞭な会話の音声の了解度の差）」、ＪＳｐｅｅｃｈＨｅａｒＲｅｓ．９６−１０３、１９８５において、そして、Ｐｉｎｃｈｅｎｙ，Ｍ．Ａ、Ｄｕｒｌａｃｈ，Ｎ．ＩおよびＢｒａｉｄａ，Ｌ．Ｄ．、「ＳｐｅａｋｉｎｇｃｌｅａｒｌｙｆｏｒｔｈｅｈａｒｄｏｆｈｅａｒｉｎｇＩＩ：Ａｃｏｕｓｔｉｃｃｈａｒａｃｔｅｒｉｓｔｉｃｓｏｆｃｌｅａｒａｎｄｃｏｎｖｅｒｓａｔｉｏｎａｌｓｐｅｅｃｈ（難聴者のために明瞭に話すことＩＩ：明瞭な会話の音声の音響特性）」ＪＳｐｅｅｃｈＨｅａｒＲｅｓ．、２９、４３４−４６、１９８６において開示される。これらの文書の開示は、参照することによりその内容全体が組み込まれる。

[00108]これらの音は、認識され、次いで、会話の音声における歪みに脆弱な音を含む音クラスの顕著な音響的特性と脆弱な音でしばしば生じる音の音響的特性との両方に焦点を合わせるアルゴリズムを使用してそれらの了解度を上げるように修正され得る。このタイプのアルゴリズムは、検索が特定の音タイプのサブセットについてであり、発言におけるすべての音の認識についてではないという点で、自動音声認識の従来の方法において使用されるものとは異なる。また、エラー率（たとえば、会話の音声において短くされた脆弱な音に気付かないこと）は、極めて低いエラー率が実用的システムの要件である自動音声認識の従来の方法のためのそれより遥かに高くなり得る。

[00109]もう１つの実施形態によれば、ステップ３２０で使用される一実装形態は、断続的または時間的に変化する背景ノイズと使用され得る。ステップ３２０で、ＳＲＡは、ノイズ強度に応じて異なって継続期間を調整することができる。時間とともにレベルが大きく変動するノイズにおいて、聞き手は、音声対ノイズ比が比較的よいときの時間間隔の間に音声に注意を払い、そして、音声対ノイズ比が比較的弱いときに音声に注意を払わないまたはあまり注意を払うことができないことを調査は示した。本実施形態では、音声は、音声が聞こえるときの時間間隔中に速度を落とすことができ、それによって、了解度を改善し、速度を落とされた音声が追いつくことを可能にする休止として音声がマスクされた間隔を使用する。

[00110]対面型ではない電話またはインターネット通信のためのＳＲＡのもう１つの実施形態では、方法３００の音声処理は、速度を落とされた音声に起因する遅延に敏感ではなくなり得る。会話の休止が、ステップ３２０で、遅れた音声が追いつくことを可能にするために、話す人に求められ得る。これらの休止は、音声の韻律を歪めないように、語句または文の最後にもたらされ得る。

[00111]ステップ３２５で、音声信号が、処理が了解度の改善のために完了された後に、ユーザーに送られ得る。
[00112]インターネット（たとえば、Ｓｋｙｐｅ（商標）、ＡｐｐｌｅのＦａｃｅＴｉｍｅ（商標）、ビデオ電話、ビデオ会議機器などを使用する）を介する対面でのやりとりの一実施形態では、ＳＲＡは、音響的および視覚的入力および出力信号の両方を使用することができる。したがって、ＧｏｏｇｌｅＧｌａｓｓ（商標）、モバイルデバイス、またはビデオ画像を表示するための同様の装置が、速度を落とされたビデオ音声信号を表示するために使用され得る。さらに、音声の速度を下げるためにステップ３１５において、ＳＲＡによって使用されるアルゴリズムはまた、リモート対面型の通信のために使用されるコンピューターまたはテレビ電話に含まれ得る。

[00113]もう１つの実施形態では、音声処理のための付加的了解度留意事項が、ＳＲＡによって対処される。たとえば、理解するのが難しい記録の部分は、速度を落とされた音声モードで動作するＳＲＡを有する外部再生システムで再生され得る。

[00114]ＳＲＡはまた、交通ターミナルでのアナウンスなど、反響する拡声装置の了解度を改善するために使用され得る。一実施形態では、ＳＲＡは、最初に、非音声認識モードの動作において拡声装置のアナウンスを増幅することができる。アナウンスはまた、ＳＲＡによって記録され得る。アナウンスが、分かりやすくない場合、それは、再生信号の了解度を改善するための方法３００の要素のいくつかまたはすべてを適用して、オンデマンドで、ＳＲＡによって再生され得る。いくつかのアナウンスが、必要に応じて、記録、記憶、および再生され得る。したがって、重要なパブリックアドレスメッセージの了解度の改善が、ＳＲＡによって実現され得る。

[00115]神経系処理における非同期性に対抗するための実施形態
[00116]図４は、一実施形態による、音クラスレベルに対処するための音声の処理のための方法を示す。調査研究は、ｉ）ノイズの中での音声（正常聴力者および聴力障害者の両方についてであるが、後者については特に）、ｉｉ）聴力損失を有する人々について静寂の中での音声、およびｉｉｉ）年齢に相応した正常聴力および年齢に相応した老化に伴う聴覚処理の欠損を有する高齢者について皮質下レベルでの欠損した神経系処理を有する。皮質下レベルでの処理の低下の例は、Ｌｅｖｉｔｔ，Ｈ．、Ｏｄｅｎ，Ｃ．、Ｓｉｍｏｎ，Ｈ．、Ｎｏａｃｋ，Ｃ．およびＬｏｔｚｅ，Ａ．、「Ｃｏｍｐｕｔｅｒ−ｂａｓｅｄｔｒａｉｎｉｎｇｍｅｔｈｏｄｓｆｏｒａｇｅ−ｒｅｌａｔｅｄＡＰＤ：Ｐａｓｔ、ｐｒｅｓｅｎｔ、ａｎｄｆｕｔｕｒｅ（加齢に伴うＡＰＤのためのコンピューターベースのトレーニング方法：過去、現在、および未来）」、ＡｕｄｉｔｏｒｙＰｒｏｃｅｓｓｉｎｇＤｉｓｏｒｄｅｒｓ：Ａｓｓｅｓｓｍｅｎｔ、ＭａｎａｇｅｍｅｎｔａｎｄＴｒｅａｔｍｅｎｔ：ＳｅｃｏｎｄＥｄｉｔｉｏｎ、ＤＧｅｆｆｎｅｒおよびＤＳｗａｉｎ、（Ｅｄｓ．）、第３０章、７７３〜８０１ページ、ＳａｎＤｉｅｇｏ：ＰｌｕｒａｌＰｒｅｓｓ、２０１２において開示される。本文書の開示は、参照することによりその内容全体が組み込まれる。

[00117]これらの研究は、有声化における声道の周期的刺激と有声化情報を伝える関連神経インパルスとの間の同期性の低下を示した。たとえば、一部の音声は、他の音声より理解しやすく、より理解しやすい音声は声道のより強い周期的刺激を有する。

[00118]図４を参照すると、ＳＲＡは、音声信号を処理して、有声化情報を伝える神経インパルスの同期性を向上させるように設計された声道の強い周期的刺激で音声をシミュレートすることができる。

[00119]ステップ４０５で、ＳＲＡは、音声信号を受信する。聴力損失を有する人々、年齢に相応した正常聴力を有する高齢者について、またはノイズ、反響音、もしくは他の干渉の中で音声を聴く誰か（若い、高齢の、正常聴力の、聴力障害の）について、声道の周期的刺激と有声化情報を伝える関連神経インパルスとの間の同期性の低下が存在し得る。

[00120]ステップ４１０で、ＳＲＡは、オーディオ信号を処理して、受信された音声信号、および／または処理された音声における声道の強烈な周期的刺激をもたらすより強いピッチパルスを有する音声信号の要素をシミュレートすることができる。任意の適切な要素、または音声信号に含まれる要素の組合せが、必要および／または要望に応じて処理のために使用され得る。

[00121]ステップ４１０で、音声信号は、聞き手の神経系処理の欠損を低減するために、強化、再生成、またはシミュレートされ得る。１つの方法は、音声基本周波数（Ｆｏ）を含む周波数領域を増幅し得る。これは、静寂の中での音声について容易に行われ得る。しかしながら、多くの一般的な環境ノイズは、Ｆｏの周波数領域において比較的強力であり、Ｆｏのマスキングにおいて効果的である。これらの一般的ノイズについて、Ｆｏの調波は、ノイズがあまり強烈ではないより高い周波数で検出可能であり得る。ノイズレベルが低い周波数領域におけるＦｏの調波間のスペーシングは、Ｆｏを決定するための手段を提供し得る。

[00122]もう１つの実施形態では、Ｆｏを含む補足信号が、了解度を改善するために、聴覚、触覚もしくは視覚、またはこれらのモダリティの何らかの組合せによって聞き手に配信され得る。そのような補足信号の例は、Ｈａｎｉｎ，Ｌ．、Ｂｏｏｔｈｒｏｙｄ，Ａ．、Ｈｎａｔｈ−Ｃｈｉｓｏｌｍ，Ｔ．、「Ｔａｃｔｉｌｅｐｒｅｓｅｎｔａｔｉｏｎｏｆｖｏｉｃｅｆｕｎｄａｍｅｎｔａｌｆｒｅｑｕｅｎｃｙａｓａｎａｉｄｔｏｔｈｅｓｐｅｅｃｈｒｅａｄｉｎｇｏｆｓｅｎｔｅｎｃｅｓ（文章の読話の補助としての音声基本周波数の触覚的提示）」Ｊ．ＥａｒＨｅａｒ．３３５〜３４１（１９８８）において開示される。本文書の開示は、参照することによりその内容全体が組み込まれる。一実施形態では、聴覚補足が、ノイズの多い音声信号に単純に追加される。もう１つの実施形態では、ノイズの多いＦｏは、ノッチフィルターを使用してなくすこと、および、ノイズフリーの周波数領域において調波Ｆｏから推定されるように、Ｆｏのノイズフリーの値と置き換えることができる。もう１つの実施形態では、触覚補足が、振動デバイスを使用して配信され得る。補聴器において触覚信号を配信する便利な方法は、ＳＲＡのイヤーモールドに搭載された小さい圧電触覚トランスデューサを組み込むことである。もう１つの実施形態は、ＧｏｏｇｌｅＧｌａｓｓ（商標）を用いて配信される視覚的補足を使用し得る。そのような一実施形態では、点滅するアイコンが、喉の領域内の話し手の画像に重ねられ得る。アイコンは、Ｆｏに比例する速度で点滅することが可能であり、Ｆｏの値と同期して上下に移動することも可能である。触覚的にまたは視覚的に配信されたＦｏの補足的情報が、聴力損失を有する人々またはノイズの中で聴く正常聴力者の音声了解度を改善するというかなり多数の実験的証拠が存在する。

[00123]ステップ４１０では、もう１つの実施形態によれば、ＳＲＡは、声道の周期的刺激と有声化情報を伝える関連神経インパルスとの間の同期性を向上させるために、ステップ４０５において入力音声信号および／または受信された音声信号の要素を再生成またはシミュレートする。一実施形態は、入力音声信号のピッチパルスを、ディラックパルスに近似しそれによって音声信号を再生成する合成ピッチパルス、および／または声道における遥かに広い範囲の共振周波数を刺激するこの新しいエネルギーソースを有する音声信号の要素と置き換えることである。

[00124]本実施形態では、急速な開始およびオフセットを有する非常に短い継続期間のパルスから成る、ディラックパルスへの実用的近似値が使用され得る。このタイプのパルスは、広い周波数範囲にわたり平らな周波数スペクトルを有し得る。理想的なディラックパルスは、無限大の周波数範囲にわたり平らな周波数スペクトルを有するゼロ継続期間および無限大の振幅のそれである。ディラックパルスに近似するパルスを有する周期的刺激によって生成される基本周波数、Ｆｏ、は、入力音声信号のより広く、より離散的でないパルスによって生成されるＦｏより広い周波数範囲にわたってより強烈な調波を有する。より有意には、周期的ディラックのようなパルスによって生み出された非常に離散的なピッチ周期は、聴覚系における音声信号の神経系処理におけるより高い同期性をもって追跡される。

[00125]もう１つの実施形態では、線形予測符号化が、刺激パルス間の間隔において音声信号の減衰を予測するために使用され得る。声道が、新しいパルスによって刺激されるとき、観測される音声信号は、新しい刺激を想定しない予測される信号とは異なることになる。観測される信号と予測される信号との差は、声道を刺激するパルスの形を識別するために使用され得る。本技法は、声道の音伝送特性をパルス性音源と分離するために、ならびに、声道を刺激する異なる音源で、音声および／または音声信号の要素を再生成するために、使用され得る。

[00126]ステップ４１０において生成されたシミュレートされた音声またはその要素は、有声化情報を伝える神経インパルスの同期性を向上させるように設計される。本技法はまた、質の悪い音声信号の了解度を改善することができる。

[00127]ステップ４１５では、音声信号が、了解度改善のための処理が完了した後に、ユーザーに送られ得る。処理された音声信号は、補聴器出力トランスデューサ、挿耳型ラウドスピーカー、イヤホーン、または音を耳に配信するための他の音響トランスデューサを用いて、音響的に配信され得る。加えて、補足的Ｆｏ情報が、バイブレーターまたは他の触覚トランスデューサを用いて、触覚的に配信され得る。一実装形態では、触覚トランスデューサは、大きな、目に見える触覚トランスデューサを着用するより外見的に受け入れやすいＳＲＡのイヤーモールドに搭載された小さい圧電トランスデューサでもよい。触覚Ｆｏ補足は、Ｆｏにおけるピッチパルスとの神経系の同期性を向上させるために、周期的エネルギーソースとしてディラックパルスへの実用的近似値を使用して配信され得る。

[00128]分節レベルでの音声のＳＲＡ処理
[00129]図５は、一実施形態による、分節レベルでの音声の処理の方法を示す。
[00130]本実施形態では、音声音のマスキングは、ＳＲＡによって最初に受信される了解度および音質の両方を低減し得る。したがって、方法５００で、ＳＲＡは、音声信号を処理してマスキングの問題に対処することができる。

[00131]方法５００の一実施形態では、ＳＲＡは、補聴器ユーザーに、理解しづらい、または十分に理解しやすくない、受信された音声信号において分節／要素を認識するようにトレーニングされ得る。その後、ＳＲＡは、これらの分節／要素の了解度を最大限に高め、それによって音声了解度および／または音質を改善するように、音声信号を処理することができる。

[00132]もう１つの実施形態では、方法５００の間、ＳＲＡは、理解不可能な分節／要素のみではなく、音声信号全体の了解度および／または音質を最大限に高めるように、音声信号を処理することができる。本実施形態によれば、処理は、分節レベルでの処理に限定されなくてもよく、超分節処理をさらに含み得る。ＳＲＡによって受信されるものとしての、音声信号は、音響的および視覚的の両方の構成要素を有することができることと、視覚的構成要素は、高いレベルの背景ノイズおよび／または反響音で特に重要であり得ることとに留意されたい。

[00133]ステップ５０５で、ＳＲＡは、音声了解度にとって困難であり得る聴取条件を識別するために、オーディオ信号を監視することができる。
[00134]ＳＲＡのトレーニングを含む一実施形態では、ユーザーの耳に届く音響信号が、記録され得る。ユーザーは、音声が理解しづらいときにユーザーがＳＲＡに信号を送ることを可能にする便利なハンドヘルドまたは装着式ユニットを提供され得る。音声が理解不可能であることを示す信号をＳＲＡが受信するときに、過去Ｘ秒に短期メモリに記憶された音声信号が将来の分析のために記録されるように、ＳＲＡは、受信された音声信号（音響的および視覚的）を継続的にリフレッシュされる短期メモリに一時的に記憶することができる。Ｘの値は、ユーザーが音声が理解不可能であるという信号を送るときの時間間隔の直前およびその間の受信された音声信号（任意の干渉を含む）の記録およびその後の分析を可能にする調整可能なパラメータになり得る。

[00135]困難な聴取条件の下では、受信される音響的音声信号の多くは、理解しづらいことがある。ステップ５０５において補聴器の日常的な使用の条件の下で記録された、これらの理解不可能なまたは十分に理解しやすくない音声信号は、最初にＳＲＡに記憶され、次いで、詳細な分析のための信号処理能力を有するより大きいユニットに後で転送され得る。

[00136]ステップ５１０で、ＳＲＡは、各個々の補聴器ユーザーの難しい日常の聴取条件の下で、理解不可能な、または十分に理解しやすくない分節／要素を識別することができる。

[00137]ステップ５１５で、ＳＲＡは、ＳＲＡの各ユーザーの難しい日常の聴取条件のための音声信号の処理のための適切な信号処理戦略を決定することができる。本実施形態では、難しい日常の聴取条件において受信されるまたはそのような条件の影響を受けるオーディオ信号を処理するための最も効果的信号処理戦略が、各ユーザーについて決定され得る。一実施形態では、ＳＲＡは、それの増幅特性（利得、周波数応答、振幅圧縮、周波数偏移）を変更して、質の悪い音声の認識を改善することができる。調音指数などの人間の音声認識のモデル、音声伝送指数、および他のモデルが、周波数フィルタリング、背景ノイズ、反響音および補償器の日常の使用において一般的に遭遇する他の歪みによって歪んだ音声信号を受信する聴力損失を有する人々のためのこれらの増幅特性を決定するために使用され得る。例は、参照することによりその開示の内容全体が組み込まれる、Ｈｕｍｅｓ，Ｌ．Ｅ．、Ｄｉｒｋｓ，Ｄ．Ｄ．、Ｂｅｌｌ，Ｔ．Ｓ．、Ａｈｌｓｔｂｏｍ，Ｃ．およびＫｉｎｃａｉｄ，Ｇ．Ｅ．、「ＡｐｐｌｉｃａｔｉｏｎｏｆｔｈｅＡｒｔｉｃｕｌａｔｉｏｎＩｎｄｅｘａｎｄｔｈｅＳｐｅｅｃｈＴｒａｎｓｍｉｓｓｉｏｎＩｎｄｅｘｔｏｔｈｅＲｅｃｏｇｎｉｔｉｏｎｏｆＳｐｅｅｃｈｂｙＮｏｒｍａｌ−ＨｅａｒｉｎｇａｎｄＨｅａｒｉｎｇ−ＩｍｐａｉｒｅｄＬｉｓｔｅｎｅｒｓ（正常聴力のおよび聴力障害のある聞き手による音声の認識への調音指数および音声伝送指数の適用）」、Ｊ．Ｓｐｅｅｃｈ、Ｌａｎｇ．Ｈｅａｒ．Ｒｅｓ．、２９、４４７−４６２（１９８６）において開示される。

[00138]もう１つの実施形態では、質の悪い音声は、理解しやすい、歪んでいないおよびノイズフリーの、再生成されたまたは合成された音声によって、置き換えられ得る。再生成されたまたは合成された音声は、ひどく歪んだ質の悪い音声信号の分節、または単語および語句を含む質の悪い音声のより大きいセクションと置き換えるために使用され得る。いくらかの付加的処理が、遷移音を可能な限り自然にするために、未処理の音声と再生成／再合成された音声分節を統合する際に必要とされ得る。

[00139]ＳＲＡのユーザーと頻繁に通信する人（たとえば、配偶者）との使用向けに設計された一実施形態では、この人の音声を再現することができる音声シンセサイザーをＳＲＡのメモリに記憶することになる。音声シンセサイザーのパラメータは、ユーザーの聴力損失の特質および重症度を考慮して、合成された音声の了解度および音質を最大限に高めるように微調整することができる。この人からの受信された音響的音声信号の分節、または単語および語句を含むより大きいセクションが、ひどく歪んだまたは見つからないが、視覚的音声信号が、歪みなく受信された場合、ＳＲＡは、主として視覚的音声キューを使用して、それによって、ひどく歪んだまたは見つからない音響的音声分節が歪みなく明瞭に合成されることを可能にして、音声を正確に認識することができる。本実施形態の変形形態は、音響的音声信号が歪みなく受信され、視覚的音声信号が見つからないまたはひどく歪んだ場合に、視覚的音声合成を使用することができる。視覚的音声合成の方法の一例は、参照することによりその開示の内容全体が組み込まれる、Ｌｅｖｉｔｔ，Ｈ．、Ｔｏｒａｓｋａｒ．Ｊ．およびＢａｋｋｅ，Ｍ．、「Ｖｉｓｕａｌｓｐｅｅｃｈｓｙｎｔｈｅｓｉｓｂｙｃｏｎｃａｔｅｎａｔｉｏｎ．Ｐｒｏｃ．Ｉｎｔ．Ｃｏｎｆ．Ａｓｓｏｃ．ｆｏｒｔｈｅＡｄｖａｎｃｅｍｅｎｔｏｆＲｅｈａｂ．Ｔｅｃｈｎｏｌｏｇｙ（リハビリテーション技術の進歩のためのｃｏｎｃａｔｅｎａｔｉｏｎ．Ｐｒｏｃ．Ｉｎｔ．Ｃｏｎｆ．Ａｓｓｏｃ．による視覚的音声合成）」、２３２〜２３３（１９８８）において開示される。

[00140]ステップ５２０で、ＳＲＡは、困難な日常の聴取条件の下で補聴器ユーザーのために、理解不可能なまたは十分に理解しやすくない分節／要素またはそのシーケンスを自動的に認識するようにトレーニングされ得る。一実施形態では、ＳＲＡのユーザーと頻繁に通信する人（たとえば、配偶者）は、補聴器の日常的使用において通常遭遇する、困難な聴取条件の下で１セットの発言を生み出し得る。発言の音声学的複写がＳＲＡに提供され、ＳＲＡは、次いで、発言のそれの認識を正確な音声学的複写と比較し、精密化する。これは、発言の反復を使用して数回行うことができる。もう１つの実施形態では、ＳＲＡは、ノイズの中での音声認識の精度を向上させるために、ノイズの多い音声の正弦波モデルでトレーニングされ得る。正常のおよび聴力障害のある聞き手の両方で取得される音声対ノイズ比および結果を改善するための正弦波モデリングの例は、参照することによりその開示の内容全体が組み込まれる、Ｌｅｖｉｔｔ，Ｈ．、Ｂａｋｋｅ，Ｍ．、Ｋａｔｅｓ，Ｊ．、Ｎｅｕｍａｎ，Ａ．Ｃ．およびＷｅｉｓｓ，Ｍ．、「Ａｄｖａｎｃｅｄｓｉｇｎａｌｐｒｏｃｅｓｓｉｎｇｈｅａｒｉｎｇａｉｄｓ（高度信号処理補聴器）」、ＲｅｃｅｎｔＤｅｖｅｌｏｐｍｅｎｔｓｉｎＨｅａｒｉｎｇＩｎｓｔｒｕｍｅｎｔＴｅｃｈｎｏｌｏｇｙ、１５ｔｈＤａｎａｖｏｘＳｙｍｐｏｓｉｕｍ、Ｊ．Ｂｅｉｌｉｎ、およびＧ．Ｒ．Ｊｅｎｓｅｎ、（Ｅｄｓ．）、３３３〜３５８ページ、Ｃｏｐｅｎｈａｇｅｎ：ＳｔｏｕｇａｒｄＪｅｎｓｅｎ（１９９３）において開示される。人間の聞き手による音声認識を改善するための正弦波モデルの使用は、人間の耳の限られたスペクトルおよび時間分解能によりわずかな改善のみをもたらしたが、ＳＲＡの信号処理能力は、これらの制限の影響を受けない。ＳＲＡのトレーニングの他の方法が、必要または要望に応じて実装され得る。

[00141]ＳＲＡは、次いで、認識される音声分節の了解度および／または音質を改善するためにステップ５１５において前に決定された信号処理戦略を適用することができる。
[00142]一実施形態では、ＳＲＡは、自己トレーニング実装形態を有し得る。自己トレーニング能力によれば、ＳＲＡは、音声処理動作中に遭遇する理解不可能な分節を認識するように機能し得る。続いて、ＳＲＡは、ユーザーからのフィードバックで音声処理戦略を動的に更新することができる。一実施形態では、ＳＲＡのユーザーは、便利なハンドヘルドまたは装着式信号伝達ユニットを提供され得る。もう１つの実施形態では、ユーザーは、そのようなフィードバックを提供するために、可聴式のキューを介してデバイスに指示を提供することができる。ＳＲＡによって認識され得る任意の音響信号が、必要および／または要望に応じて使用され得る。ＳＲＡが音声処理戦略を更新するときには必ず、ユーザーは、その更新が処理された音声信号において改善をもたらしたか減衰をもたらしたかを指示する信号をＳＲＡに送る。これらの単純な二者択一以外にユーザーから他の通信は必要とされない。ユーザーからの各応答で、ＳＲＡは、所与の聴取条件のユーザーのための最適な音声処理戦略に効率的に集中するための適用戦略を使用して音声処理戦略を修正する。補聴器調整において使用するためのこのタイプの適応戦略の例は、参照することによりその開示の内容全体が組み込まれる、Ｎｅｕｍａｎ，Ａ．Ｃ．、Ｌｅｖｉｔｔ，Ｈ．、Ｍｉｌｌｓ，Ｒ．およびＳｃｈｗａｎｄｅｒ．Ｔ．、「Ａｎｅｖａｌｕａｔｉｏｎｏｆｔｈｒｅｅａｄａｐｔｉｖｅｈｅａｒｉｎｇａｉｄｓｅｌｅｃｔｉｏｎｓｔｒａｔｅｇｉｅｓ（３つの適応的補聴器選択戦略の評価）」Ｊ．Ａｃｏｕｓｔ．Ｓｏｃ．Ａｍ．、８２、１９６７−１９７６（１９８７）に記載されている。

[00143]ＳＲＡはまた、理解不可能な分節／要素を識別し、他の音声認識および処理機能を同時に実行することができる。本実施形態では、たとえば、音声認識モードで動作して、入力音声信号をアクティブに処理しながら、ＳＲＡは、困難な聴取条件を同時に監視することができる。これは、「それを繰り返してもらえますか」または「今、何と言いましたか」など、理解の困難を示す単語／語句のユーザーの発言の監視および識別から決定され得る。

[00144]さらに、ＳＲＡは、音声処理中に、これらの困難な聴取条件において受信された理解不可能な分節／要素を識別し、これらの分節／要素を処理するために使用される戦略を適応的に調整することができる。したがって、ＳＲＡは、本実施形態の音声認識および処理を行う前に、プロセス（たとえば、非音声認識モード）のみの別個の監視および／またはトレーニングを必ずしも実行しなくてもよい。本実施形態によれば、ＳＲＡは、音声処理ステップ５２５〜５３０のいずれかと並行してまたは効果的に一斉に、ステップ５０５〜５２０を行うことによって、自己トレーニングを完遂することができる。

[00145]一実施形態では、ＳＲＡは、異なるタイプのマスキングについて、ステップ５１５において決定された、異なる処理戦略を使用することができる。日常の音声通信において一般的に遭遇する３つのタイプのマスキングは、分節間マスキング、反響するマスキング、および背景ノイズによるマスキングである。これらのタイプのマスキングの各々に対処する実施形態が、以下に説明される。

[00146]分節間マスキングを減らすための実施形態
[00147]一実施形態では、ＳＲＡは、分節間マスキングを減らすために方法５００を使用し得る。

[00148]分節間マスキングは、静寂の中での音声の了解度の低下の主な原因である。たとえば、強い（たとえば、高い強度）分節は、マスキングの時間的拡大の結果として隣接する弱い（たとえば、低強度）分節をマスクし得る。補聴器による音声信号の増幅は、マスキングの拡大を増やす。分節間マスキングは、時間および認知処理において老化に伴う欠損を有する高齢者にとって大きな問題になり得る。

[00149]弱い分節が強い分節に続くときに、マスキングの時間的拡大は、かなり大きくなり得る（順方向マスキング）。弱い分節が強い分節に先行するときには、時間的マスキングはより少ない（逆方向マスキング）。弱い分節が、隣接する強い分節と比較して強度を増すとき、音声了解度および／または音質は、改善され得る。しかしながら、強度の大きすぎる増加が了解度および／または音質を下げ得ることは、付加的な考慮すべき事項になり得る。したがって、弱い分節のレベルのどのくらいの増加が有益であるかに関しては聴力損失を有する人々の間で大きな個人差が存在し得る。

[00150]Ｋｅｎｎｅｄｙ，Ｅ．、Ｌｅｖｉｔｔ，Ｈ．、Ｎｅｕｍａｎ，Ａ．Ｃ．、およびＷｅｉｓｓ，Ｍ．、「Ｃｏｎｓｏｎａｎｔ−ｖｏｗｅｌｉｎｔｅｎｓｉｔｙｒａｔｉｏｓｆｏｒｍａｘｉｍｉｚｉｎｇｃｏｎｓｏｎａｎｔｒｅｃｏｇｎｉｔｉｏｎｂｙｈｅａｒｉｎｇ−ｉｍｐａｉｒｅｄｌｉｓｔｅｎｅｒｓ（聴力障害のある聞き手による子音認識を最大にするための子音−母音強度比）」、Ｊ．Ａｃｏｕｓｔ．Ｓｏｃ．Ａｍ．、１０３、１０９８〜１１１４（１９９８）において示されるように、音声認識は、各聞き手について音声信号における各音の強度の個人に合わせた調整によって改善され得る。本文書の開示は、参照することによりその内容全体が組み込まれる。強い強度の音に続く低い強度の音は、聞き手Ｂにとってよりも聞き手Ａにとって理解しやすくなるためにより多くの増幅を必要とし得る。ＳＲＡは、どの音声学的環境内のどの音声音が補聴器のユーザーにとって理解しやすくなるように処理される必要があるかを認識するようにトレーニングされる必要がある。トレーニングプロセスにおける第１の段階は、日常の音声通信の条件の下で付加的処理の候補である音声音を識別することである。

[00151]一実施形態では、ステップ５１０で、弱い分節が隣接する強い分節によってマスクされる強−弱分節ペアが、識別され得る。本実施形態では、フィールド記録が、ＳＲＡの従来の使用中に、受信された音響的音声信号について取得され得る。本実施形態では、ユーザーは、音声が理解しづらいときにユーザーがＳＲＡに信号を送ることを可能にする便利なハンドヘルドまたは装着式ユニットを提供され得る。もう１つの実施形態では、ＳＲＡは、ユーザーからのコメント（たとえば、「それを繰り返してください」または「何と言いましたか」）に基づいて、いつ音声が理解しにくかった可能性があるかを認識することができる。音声が理解不可能であることを示す信号が、ＳＲＡによって受信されるとき、記録が、受信された信号について行われる（入力マイクロフォンおよびカメラで音響的に受信された音声に加えた干渉）。これらの記録は、日常の音声通信においてユーザーが一般的に遭遇するどの音声音が、了解度および／または音質の改善のために処理される必要があるかを識別するために、分析され得る。

[00152]したがって、ＳＲＡは、静寂の中での音声の了解度および／または音質の低下の主たる原因である強−弱分節ペアを各ユーザーについて効率的に識別するために使用され得る。

[00153]ＳＲＡが、了解度および／または音質改善のための処理を必要とする音声音を識別するためにある期間にわたり装着された後、ＳＲＡは、付加的処理を必要とする音声音を認識するように、前の段階において取得された記録を使用して、トレーニングされる。次の段階は、付加的処理を必要とするものとして識別された音声音の音声了解度を改善するためにこれらの音を処理する方法を開発することである。

[00154]一実施形態では、低強度音声音が、各ユーザーについてそれらの了解度を最大限に高めるために、体系的にレベルにおいて調整される、Ｋｅｎｎｅｄｙらによって開発された（１９９８）方法が、実装され得る。利得の量は、考慮される必要のある音の音声学的コンテキストに依存する可能性が高い。補聴器ユーザーとの音声検査は、この情報を取得するために実行され得る。かなりの検査が必要とされる場合、これは、了解度改善のための処理を最も必要とする音で開始して、段階的に行われ得る。検査の方法および実験的発見の例は、Ｋｅｎｎｅｄｙ，Ｅ．、Ｌｅｖｉｔｔ，Ｈ．、Ｎｅｕｍａｎ，Ａ．Ｃ．、およびＷｅｉｓｓ，Ｍ．、「Ｃｏｎｓｏｎａｎｔ−ｖｏｗｅｌｉｎｔｅｎｓｉｔｙｒａｔｉｏｓｆｏｒｍａｘｉｍｉｚｉｎｇｃｏｎｓｏｎａｎｔｒｅｃｏｇｎｉｔｉｏｎｂｙｈｅａｒｉｎｇ−ｉｍｐａｉｒｅｄｌｉｓｔｅｎｅｒｓ（聴力障害のある聞き手による子音認識を最大にするための子音−母音強度比）」、Ｊ．Ａｃｏｕｓｔ．Ｓｏｃ．Ａｍ．、１０３、１０９８〜１１１４（１９９８）に記載されている。本文書の開示は、参照することによりその内容全体が組み込まれる。

[00155]ＳＲＡは、次いで、音が日常の通信においてＳＲＡによって識別されるときには必ず所与の音について導出される処理の方法を実装するようにプログラムされ得る。
[00156]もう１つの実施形態では、トレーニングは、実行されなくてもよい。

[00157]本実施形態によれば、ステップ５１５の間に、ＳＲＡは、ユーザーにとって最も適切な信号処理戦略を決定することができる。ＳＲＡは、行動測定を使用して、信号処理戦略の実装形態において個人差を考慮するように動作することができる。したがって、了解度および／または音質を最大限に高めるための適切な信号処理戦略が、それぞれ、ＳＲＡデバイスの各個々のユーザーについて決定され得る。効率的適応検索手順が、開発されており、各ユーザーのための信号処理戦略の決定を最適化するために使用され得る。例は、Ｎｅｕｍａｎ，Ａ．Ｃ．、Ｌｅｖｉｔｔ，Ｈ．、Ｍｉｌｌｓ，Ｒ．およびＳｃｈｗａｎｄｅｒ．Ｔ．、「Ａｎｅｖａｌｕａｔｉｏｎｏｆｔｈｒｅｅａｄａｐｔｉｖｅｈｅａｒｉｎｇａｉｄｓｅｌｅｃｔｉｏｎｓｔｒａｔｅｇｉｅｓ（３つの適応的補聴器選択戦略の評価）」、Ｊ．Ａｃｏｕｓｔ．Ｓｏｃ．Ａｍ．、８２、１９６７〜１９７６（１９８７）において開示されている。本文書の開示は、参照することによりその内容全体が組み込まれる。

[00158]ステップ５２０で、ＳＲＡは、本方法のステップ５１０において前に識別されたものとしてのユーザーにとって理解不可能なまたは十分に理解しやすくない分節ペアを自動的に認識するようにトレーニングすることができる。加えて、ＳＲＡは、前に決定された個人に合わせた信号処理戦略を適用するようにトレーニングすることができる。

[00159]ステップ５２５で、他の実施形態によれば、ＳＲＡは、受信された音声信号を処理することができる。処理は、周波数の関数として変化する聴力の臨界帯域に等しい帯域幅を有する隣接周波数フィルターのセットへの受信された音声信号のフィルタリングを含み得る。この処理の間、ＳＲＡはまた、音声信号の了解度を改善するために、臨界帯域内および臨界帯域の間のマスキング作用を考慮して、信号分析を実行することができる。

[00160]もう１つの実施形態では、ペア内のあまり強烈ではない分節の継続期間は、了解度および／または音質を改善するために、ステップ５２５において増やされ得る。継続期間の変更は、強度の増加の代わりでも、強度の増加に加えてでもよい。音声の全体的継続期間を変更しないために、より強烈な分節の継続期間を等量に短くすることが必要および／または求められることがある。継続期間を分割するための任意の他の適切な実装形態または調整が、必要および／または要望に応じて使用され得る。

[00161]ステップ５３０で、信号が、了解度改善のための処理が完了した後に、ユーザーにまたはもう１つのデバイスに出力され得る。
[00162]もう１つの実施形態では、ＳＲＡは、両耳用の補聴器を使用して実装され得るものなど、信号切替えを実行することができる。本実施形態では、出力音声信号は、２つの耳の間で急速に切り替えられ得る。したがって、強烈な分節の直後に、次のあまり強烈ではない分節は、ユーザーの反対の耳に切り替えられ得る。ＳＲＡは、本技法を使用して強烈な分節によってマスキングの時間的拡大をなくするように動作することができる。加えて、あまり強烈ではない分節の強度および／または継続期間はまた、了解度および／または音質を最大限に高めるために、増やされ得る。本実施形態によれば、ＳＲＡ出力は、音声信号を耳の間で急速に切り替えることによって、ユーザーの頭の中央近くにある単一の音画像の知覚を生み出すことができる。加えて、切替え過渡電流は、各耳での上昇および下降時間の適切な選択によって、低レベルに減らすことができる。両耳間の切替えの方法の例は、Ｈｏｆｆｍａｎ，Ｉ．およびＬｅｖｉｔｔ，Ｈ．、「ＡＮｏｔｅｏｎＳｉｍｕｌｔａｎｅｏｕｓａｎｄＩｎｔｅｒｌｅａｖｅｄＭａｓｋｉｎｇ（同時および交互的マスキングの注釈）」、Ｊ．ＣｏｍｍｕｎｉｃａｔｉｏｎＤｉｓｏｒｄｅｒｓ、１１、２０７−２１３（１９７８）において開示されている。本文書の開示は、参照することによりその内容全体が組み込まれる。

[00163]反響マスキングを減らすための実施形態
[00164]もう１つの実施形態では、ＳＲＡは、反響マスキングを減らすことができる。
[00165]一般に、反響マスキングは、マスキングの同時拡大および時間的拡大の両方を含む。同時マスキングは、先行する分節の反響する部分が、次に来る分節と重なるときに生じる。時間的順方向マスキングは、反響する信号が１つまたは複数の次に来る分節をマスクするときに生じる。

[00166]すべての反響音が了解度または音質を損なうという訳ではない。上手く設計された講堂においてなど、低レベルの反響音は、受信される音声信号を強化し、了解度および音質の両方を改善する。たとえば、無響室における音声は、弱く、不自然に聞こえる。中レベルの反響音は、少し了解度を下げ得るが、音質もかなり下げ得る。高レベルの反響音は、了解度および音質の両方をかなり下げる。反響音の知覚と、受入れ可能なレベルの反響音と受入れ不可能なレベルの反響音との間の境界とに関して、補聴器ユーザーの間で大きな個人差がある。

[00167]本実施形態によれば、ＳＲＡは、ステップ５２０で音声信号の耳の間の分析を実行することができる。たとえば、２つの耳に届く音声信号が、周波数の関数として受信信号における反響音の量を決定するために、分析され得る。例は、Ａｌｌｅｎら（１９７７）において開示されている。この分析を実行するために、各耳での受信された音響的音声信号は、隣接周波数帯域のセットに細分される。聴力の臨界帯域に対応する帯域幅が、この分析のために使用される。実行中の相互相関が、次いで、２つの耳での対応する周波数帯域における信号に実行される。低い耳の間の相関関係は、高度の反響音を示す。高い耳の間の相関関係は、反響音と比較して強い信号を示す。

[00168]本実施形態では、ごくわずかな耳の間の相関関係を有する周波数帯域は、音声信号より遥かに高い反響音から成り、減衰される。高い耳の間の相関関係を有するそれらの周波数帯域は、強い音声信号を含み、増幅される。相互相関関数におけるピークの時間オフセットは、受信音声信号の両耳間の時間遅延を識別する。この情報は、受信音声信号の方向を決定するために使用され得る。

[00169]ステップ５２５で、異なる方向から聞こえてくる音声およびノイズの場合、信号処理の確立した方法が、使用されて、音声の方向から来る信号を増幅することおよびノイズの方向から来る信号を減衰することができ、それによって、音声了解度および音質を同時に改善して音声対ノイズ比を増やすことができる。例は、Ｐｅｔｅｒｓｏｎら（１９８７）において開示された、グリフィス−ジムアルゴリズムを使用する指向性マイクロフォンおよび２チャネル信号処理の使用を含む。

[00170]ステップ５３０で、信号は、了解度改善のための処理が完了した後、ユーザーに出力され得る。オプションで、音声信号は、ステップ５３０で、処理中に聞き手に出力され得る。

[00171]背景ノイズによるマスキングを減らすための実施形態
[00172]もう１つの実施形態では、ＳＲＡは、背景ノイズによって引き起こされ得るマスキングを減らすために、方法５００を使用する。

[00173]一実施形態では、背景ノイズによるマスキングは、特に、音声了解度および音質の両方を損ない得る。補聴器などの従来の増幅デバイスでは、音声および背景ノイズの両方が、増幅される。結果として、従来の増幅デバイスは、何らかの形の信号処理がノイズレベルを下げるために実装されない限り、ノイズにおいてほとんどまたは全く利益をもたらさない。

[00174]もう１つの実施形態では、ＳＲＡは、環境ノイズ、または他の形の干渉と同時に音声信号を受信し得る。環境ノイズは、通常は、音声のそれとは異なる周波数スペクトルを有する。環境ノイズはまた、音声のそれとは異なる時間的構造を有し得る。

[00175]したがって、ＳＲＡの実施形態は、自動音声認識の要素を使用して、背景ノイズによってマスクされる音声の了解度および／または音質を改善することができる。
[00176]一実施形態では、ＳＲＡは、強烈な背景ノイズによるマスキングを経験し得る。マスキングは、同周波数マスキングに加えて、周波数を横切るマスキングの拡大を生み出し得る。

[00177]したがって、ステップ５２５で、ＳＲＡは、マスキングの周波数拡大を減らすために信号処理戦略を使用し得る。信号処理戦略は、隣接周波数帯域のセットへの受信音声信号のフィルタリングを含み得る。さらに、処理戦略は、周波数帯域内の音声信号を完全にマスクする強烈なノイズを有するそれらの周波数帯域の減衰を含み得る。信号処理のこの方法は、近代的補聴器において広く使用される。

[00178]したがって、ステップ５２５の間、ＳＲＡは、前述のノイズ低減処理の方法に加えて、自動音声認識を使用することができる。音声信号、および／または音声信号の要素を処理するための任意の適切な実装形態が、必要および／または要望に応じて使用され得る。本実装形態は、本明細書に記載されるような、一実施形態において、または実施形態の任意の組合せにおいて使用される、音声信号処理を含み得る。

[00179]確立した自動音声認識アルゴリズムが、受信された音声信号内の分節／要素を認識するために使用され得る。たとえば、低ノイズスペクトルおよび時間領域内の使用可能な音響的音声キューが、分析され得る。さらに、ウェアラブルカメラなどの周辺デバイスによって提供される視覚的キューが、ノイズの多い音響的音声信号によって伝えられる音声キューを補足するために使用され、それによって音声のより正確な自動認識を得ることが可能である。

[00180]もう１つの実施形態では、音響的音声信号の分析は、正常の聴力範囲を超える周波数領域における音声キューの認識を含み得る。
[00181]もう１つの実施形態では、ＳＲＡは、受信されたノイズの多い音声信号のスペクトル−時間分析を実行して、背景ノイズの強度が音声のそれより弱いそれらの時間およびスペクトル領域を識別することができる。

[00182]もう１つの実施形態では、ＳＲＡは、２つの耳の振幅および時間差を分析することができる。特に、本実施形態では、正常の聴力範囲を超えるスペクトル領域を含む、音声のそれを遥かに下回るノイズ強度を有するそれらのスペクトルおよび時間領域における各耳での受信される音響信号の差は、受信される音響的音声信号の方向が識別されることを可能にし得る。確立した両耳用の信号処理技法が、音声信号の方向から来る信号を増幅するためにおよび他の方向から来る信号を減衰するために使用され、それによって音声対ノイズ比を増やすことが可能である。したがって、ＳＲＡは、音声の了解度および／または音質を改善することができる。

[00183]実施形態では、受信音声信号の音響的および視覚的構成要素の両方が、ＳＲＡによって使用され得る。たとえば、分節／要素は、視覚および／または触覚を用いたＳＲＡへの配信のためにエンコードされ得る。視覚的音声キューは、たとえば、話し手の顔など、関連する表示エリアに重ねられた分節／要素またはタイプを表すことができるアイコンまたはテキスト文字とともに音声ソース（たとえば、話し手）を示す視覚的表示を介して配信され得る。ＳＲＡの周辺デバイスは、ＧｏｏｇｌｅＧｌａｓｓなど、視覚的音声信号を受信／配信する能力を有することが可能であり、したがって、本実施形態で使用され得る。もう１つの実施形態では、ＳＲＡの周辺デバイスでもよい、表示システムは、特定の表示エリアに仮想画像（たとえば、話し手の顔に重ねられた）を投影することができる。

[00184]加えて、ＳＲＡの実施形態による分節／要素をコード化するいくつかの方法が存在し得る。たとえば、視覚的表示は、１つまたは複数の分節／要素タイプを示す複数のアイコンまたはテキスト文字を使用することができる（たとえば、１つのアイコンは、分節／要素が有声か無声かを示すことができ、第２のアイコンは、分節が閉鎖子音かを示すことができ、第３のアイコンは、分節が摩擦音かを示すことができる）。本例を続けると、残りの音声音（母音、二重母音、鼻音、わたり音、測音）は、視覚的画像の色によってコード化することができる。有声の閉鎖音および無声の閉鎖音は、音声読取りにおいて区別できない。有声−無声の区別を示す単純なアイコンは、音声読取りにおいて有用であり得る。閉鎖音破裂は、閉鎖子音の重要な要素であり、閉鎖音破裂の強度を表すアイコンは、閉鎖子音における有声−無声の区別に関する有用なキューである。音声分節または音声分節の要素の視覚的表示が、音響的音声信号と同期することもまた、重要である。

[00185]触覚によって音声キューを配信する一実施形態では、１つまたは複数の振動デバイスが、使用され得る。そのような一実施形態では、オンオフ動作のバイブレーターが、視覚的表示において使用される様々なアイコンおよび／またはテキスト文字の各々について使用され得、振動の可変速度を有する１つまたは複数の付加的バイブレーターが、母音および母音のような音をエンコードするために使用され得る。他の視覚的および触覚的表示が、ユーザーの音声読取り能力に応じて、使用され得る。

[00186]もう１つの実施形態では、周辺デバイスでもよい、ディスプレイが、通常の音声読取りキューを補足するために使用され得る。たとえば、単一の視覚的アイコンもしくはテキスト文字または単一のバイブレーターが、音声ピッチを伝えるために使用され得る。ディスプレイは、分節／要素が有声か無声かを示すことができる。また、ディスプレイは、抑揚および韻律キューを伝えることができる。

[00187]本実施形態では、ＳＲＡは、音声信号の処理中に様々なノイズ低減方法を使用することができる。たとえば、ノイズの多い音響的音声信号は、デジタルノイズ低減を有する音響的増幅の確立した方法を使用して、処理され得る。確立した自動音声認識アルゴリズムが、使用されて、受信された音声信号内の分節／要素を認識して、ノイズの存在下で分節／要素了解度を上げるための信号の処理を可能にすることが可能である。

[00188]ステップ５３０では、ＳＲＡは、モノラルまたはバイノーラルのいずれかで、聴覚によって、ノイズの低減された、処理された音響的音声を出力することができる。したがって、ＳＲＡは、様々なノイズ低減メカニズムを使用することによって、音声の了解度および／または音質を改善することを可能にすることができる。一実施形態では、ＳＲＡは、同周波数マスキングを低減したならびにマスキングの時間および周波数拡大を低減した音声を出力することができる。

[00189]不安定な音響的フィードバックを減らすための実施形態
[00190]もう１つの実施形態では、ＳＲＡは、方法５００を使用して音響的フィードバックを減らすことができる。

[00191]本実施形態によれば、ＳＲＡ分節／要素レベルでの処理が、既存の方法よりも不安定な音響的フィードバックのより効率的な削減を可能にし得る。ＳＲＡは、音響的フィードバック低減の現在の方法の様々な問題に対処し得る。現在の技術の遭遇する問題の一例は、フィードバック経路のプロパティを識別するためにプローブ信号に依存すること、および、増幅されるオーディオ信号によってそのようなプローブ信号をマスクする必要性を含み得る。プローブ信号マスキングを達成するために、低振幅プローブ信号が使用され得るが、低振幅プローブ信号は、推定されるフィードバック経路の弱い分解能をもたらし得、それは、次に、達成され得るフィードバック低減の量を制限し得る。結果として、フィードバックは、増幅の最適レベルより低いレベルでユーザーによって知覚され始め得る。ＳＲＡは、特定の分節／要素と一致するおよびそれの代用とされるプローブ信号を使用し、それによって、プローブ信号マスキングの必要性を避け、その結果として、プローブ信号が相対的に強烈になることを可能にし、それによって、次にユーザーがフィードバックの開始を知覚する前により高い、最適レベルの増幅を可能にし得る、遥かに大きい分解能を有するフィードバック経路を推定することができる。したがって、ＳＲＡは、フィードバック低減を向上させることができる。

[00192]本実施形態では、ＳＲＡフィードバック低減は、ユーザーの聴力の決定に基づき得る。一実施形態によれば、フィードバック低減は、ランダム波形の強度−周波数スペクトルへのユーザーの耳の感度の決定に基づき得る。加えて、ユーザーの耳は、ランダム波形のスペクトルに敏感であるが、波形それ自体には敏感ではないと決定され得る。たとえば、同じ強度−周波数スペクトルを有する２つのランダムノイズ波形は、同じ音に聴こえ得る。音声学的モードの動作においてＳＲＡは、音声学的音タイプに関して入力音声信号を分析することができる。母音などの有声の継続音の音は、声帯の周期的振動によって決定され得る周期的構造を有する。無声摩擦音子音は、声道の形によって決定された強度−周波数スペクトルを有するランダム波形をもたらす声道における乱気流によって生み出され得る。

[00193]一実施形態では、ＳＲＡは、無声摩擦音を認識し、その摩擦音のランダム波形をそのランダム波形と知覚的に区別できない、知られている波形と置き換えるように動作することができる。これは、ランダム波形のスペクトルに一致する周波数および振幅を有するいくつかの正弦波を合計することによって、達成され得る。シミュレートされるランダム波形の周波数および振幅は、ＳＲＡに知られ得る。知られている波形を有するランダム様の信号は、フィードバック経路を推定するためのプローブとして使用され得る。フィードバック低減の確立した方法は、このプローブとともに使用され得る。プローブは、増幅される音声信号の部分であるので、低いレベルであり得るおよび増幅される音声信号によってマスクされ得る従来のプローブよりかなり大きな分解能を有するフィードバック経路の推定を実現し得る。

[00194]超分節レベルでの音声のＳＲＡ処理
[00195]本実施形態によれば、ＳＲＡは、受信音声信号の分節の分析および／または受信音声の分節レベルでの分析を実行することができる。

[00196]自動音声認識の非常に強力な方法が、超分節レベルで音声を認識するために開発された。近代的自動音声認識デバイスは、一般に、音声をテキストに変換するために使用される。これらのデバイスにおいて使用される方法はまた、音声の音声学的表現を生み出すために使用され得る。

[00197]本実施形態では、ＳＲＡは、自動音声認識アルゴリズムを使用して、受信された音響的音声信号を認識するおよび音声の音声学的表現を生み出すように動作することができる。その後、音声の新しいバージョンが、音声合成または音声再生の確立した方法を使用して生成され得る。合成されたまたは再現された音声は、時間および認知処理における老化に伴う欠損を有する高齢者を含む、聴力損失を有する人々にとってより理解しやすくするために、未処理の音声と比べて速度を落とすことができる。

[00198]ＳＲＡは、音声および／または音声の要素の速度を下げるための、およびより理解しやすくなるように音声を処理するための様々な信号処理方法を使用することができる。これらの方法は、弱い分節／要素の了解度を改善することなど、先行する実施形態において使用される信号処理方法の任意の変形形態を含み得る。

[00199]本実施形態では、ＳＲＡは、講義などの音声の記録を聞くために設計されてもよく、そこでは、音声および／または音声の要素の速度を下げるプロセスは、聞き手にとっての不都合または了解度の低下をもたらさないことが可能である。

[00200]他の実施形態では、ＳＲＡは、自動音声認識アルゴリズムを使用して、受信された音声信号を認識することができる。受信される音声信号の音響的および視覚的構成要素の両方が、自動音声認識プロセスに含まれ得る。ＳＲＡの出力は、音響的および視覚的音声信号の両方を含み得る。視覚的音声信号は、了解度改善のためにＳＲＡデバイスによって出力され得る。加えて、視覚的音声信号は、ビデオレコーダー／再生装置、ＤＶＤプレーヤー、または同様のデバイスなど、ＳＲＡに通信可能なように連結された周辺デバイスによって出力され得る。音声が、速度を落とされた場合、ビデオ再生装置のフレームレートは、音響的音声信号との同期性を維持するために、調整を必要とし得る。ＳＲＡの先行する実施形態において説明された方法が、同期性の維持を目的として使用され得る。

[00201]他の実施形態では、ＳＲＡは、自動音声認識アルゴリズムを使用して、受信された音響的音声信号を認識することおよび音声の音声学的表現を生み出すことができる。したがって、音声および／または音声の要素の新しいバージョンが、音声合成または音声再現の確立した方法を使用して、生成され得る。合成されたまたは再現された音声は、先行する実施形態において使用された了解度を改善するための方法の任意の変形形態または組合せを組み込み得る。たとえば、本実施形態は、音声生産の速度が未処理の音声のそれと平均して同じであるという制約をさらに含み得る。この制約は、ＳＲＡが他の人々との生の、直接会って行う会話において便利に使用されることを可能にし得る。

[00202]さらにもう１つの実施形態では、ＳＲＡは、自動音声認識アルゴリズムを使用して、受信された音響的音声信号を認識するようにおよび音声の音声学的表現を生み出すように動作することができる。その後、受信された音響的音声信号は、それの了解度を改善するように修正され得る。本実施形態では、ＳＲＡは、弱い分節／要素の了解度を改善することなど、先行する実施形態において使用される方法の任意の変形形態を使用し得る。話し手の声が認識可能でより自然に聞こえるようにするために、新しいバージョンの音声を合成または再現するのではなくて、受信された音声信号および／または音声信号の要素の修正が、使用され得る。

[00203]他の実施形態によれば、ＳＲＡは、ノイズの多いおよび反響する環境において動作することができる。これらの実施形態では、ＳＲＡは、自動音声認識アルゴリズムを使用して、受信された音声信号を認識することができる。受信された音声信号の音響的および視覚的構成要素の両方が、自動音声認識プロセスに含まれ得る。このアプリケーションにおけるＳＲＡの出力は、１）静寂の中での合成されたまたは再現された音響的音声信号、２）受信された視覚的音声信号のビデオ録画と同期して再生される静寂の中での合成されたまたは再現された音響的音声信号、３）受信された視覚的音声信号のビデオ録画と同期して再生され得るノイズ低減のために処理された受信された音響的音声信号の修正されたバージョン、４）了解度を改善するために先行する実施形態において使用された信号処理方法を含む静寂の中での合成されたまたは再現された音響的音声信号、からなり得る。これらの信号処理方法は、弱い分節／要素の了解度を改善することなどの様々な実装形態と、母音の間に口の開きを増やすこと、ならびに、歯および舌の可視性を強化することなど、視覚的音声キューの了解度を改善するための受信された視覚的音声信号の修正形態とを含み得る。

[00204]もう１つの実施形態によれば、ＳＲＡは、単語および／または語句スポッティングを行うように動作することができる。実施形態は、共通の単語または語句が頻繁に使用される状況において効果的であることが判明し得る。たとえば、共通の単語および／または語句は、配偶者、同僚、または、ＳＲＡユーザーの音声の頻繁なソースであり得る任意の人および／もしくはデバイスとの会話中に識別され得る（たとえば、スポッティング）。実施形態では、ＳＲＡは、頻繁に使用される単語および語句を認識するようにトレーニングされ得る。トレーニングは、ＳＲＡによって実行することができ、または、トレーニングは、ＳＲＡとは別個の（たとえば、スマートフォン、別個の電子デバイス、コンピューター（たとえば、タブレットコンピューター、ノートブックコンピューター、デスクトップコンピューターなど）、ＳＲＡと遠隔に（たとえば、集中サービスエリア）など、１つまたは複数のデバイスによって行うことができる。トレーニングは、ユーザーによって実行されてもよく、または、デバイスは、自己トレーニングされてもよい。ＳＲＡのこのトレーニングは、受信された音声信号が認識される速度および精度を上げることができる。加えて、所与の話者に共通の音声パターンの知識は、その人の音声の認識におけるＳＲＡデバイスの効率および精度を向上させることができる。また、配偶者、同僚、または親友は、一貫した方法で頻繁に使用される語句を生み出すことを学習することができる。たとえば、「夕食の時間です」が、頻繁に使用される語句としてＳＲＡに記憶または他の方法で指定され得る。もう１つの実施形態では、ＳＲＡは、事前に決定された単語および／または語句（たとえば、事前設定など）を使用することができる。事前に決定された単語および／または語句の使用は、前述の特定のトレーニングタスクをオプションで実行させることができる。本実施形態によれば、１つまたは複数の単語および／または語句は、ＳＲＡのメモリなどのストレージデバイスに記憶され得る。任意の適切なメモリ（すなわち、リモートまたはローカル）が、必要および／または要望に応じて使用され得る。これらの語句の比較的大きいセットが、ＳＲＡによって迅速におよび正確に認識され得、音声の認識および了解度の両方を改善する形で再現され得る。

[00205]音声認識処理の重要な態様は、広い範囲の異なるキューが認識プロセスにおいて使用され得ることである。自動音声認識システムにおいて従来の音響的および視覚的キューによって伝えられるかなりの情報に加えて、正常の聴力範囲外の音響的音声キュー、または周辺聴覚系における周波数および時間分解能の制限によって人間の聴力にマスクされる音響的キューもまた存在する。音声認識プロセッサによって検出および分析され得る音声キューの数が大きいほど、質の悪い音声の音声認識プロセスの頑強性は大きくなる。会話の音声の認識のために具体的に重要なのは、音声学的、言語学的、意味論的キューによって伝えられる情報、および、音声の多数の構成要素の統計的プロパティである。近代的自動音声認識デバイスは、音響的および視覚的音声信号における物理的キューに加えて、不十分にではあるが、これらのキューを利用する。使用される言語の非物理的音声学的、言語学的、意味論的および統計的プロパティに加えて、正常聴力の範囲を超える音響的キュー、周辺聴覚系の制限のために聴覚的に処理されない音響的キュー、正常視力の範囲を超える視覚的キュー（閉鎖音子音の間の肉眼に可視でない唇および頬の振動など）、鼻子音の間の振動的キュー、および視聴覚障害者による通信のＴａｄｏｍａ方法において使用される他の触覚キューを含めて、すべての音声キューを考慮する一実施形態は、音声認識の隠れマルコフモデルを使用するこれらのキューのすべてを処理する。この音声認識デバイスの出力は、次いで、音声を再現する音声シンセサイザーに送り込まれる。背景ノイズ、反響音、ならびに、電子および無線通信システムによってもたらされる歪みに起因し得るものなど、質の悪い音響的、視覚的および触覚的音声入力の場合、音声認識プロセッサは、冗長キューを使用して、入力音声信号において見つからないまたは歪んだ音声キューを補う。再生成された音声信号は、次いで、人間に、または別の機械に、音響的、視覚的および触覚的手段によって配信される。

[00206]図６は、一実施形態による分節レベルで音声を処理するための方法を示す。図６の実施形態は、図６が、５２５のオプションのステップ、トレーニングを示さないという点で、図５とは異なる。ステップ５０５、５１０、５１５、５２５、および５３０は、前述の実施形態で説明されたものとかなりよく似ている。

[00207]以下の米国特許出願は、参照することによりその内容全体が組み込まれる：２０１４年１２月１０日に出願された米国仮特許出願第６１／９３８，０７２号、２０１４年４月１７日に出願された米国仮特許出願第６１／９８１，０１０号、２０１５年２月９日に出願された米国特許出願第１４／６１７，５２７号、および、２０１５年４月１７日に出願された米国特許出願第１４／６８９，３９６号。

[00208]以下、本発明のシステム、デバイス、および方法の実装形態の一般的態様が説明される。
[00209]本発明のシステムまたは本発明のシステムの部分は、たとえば、汎用コンピューターなど、「処理構成要素」の形をとり得る。本明細書では、「処理構成要素」という用語は、少なくとも１つのメモリを使用する少なくとも１つのプロセッサを含むものと理解されるべきである。少なくとも１つのメモリは、命令集合を記憶する。命令は、処理機械の１つまたは複数のメモリに永続的にまたは一時的に記憶され得る。プロセッサは、データを処理するために、１つまたは複数のメモリに記憶された命令を実行する。命令集合は、前述のそれらのタスクなど、特定の１つまたは複数のタスクを実行する様々な命令を含み得る。特定のタスクを実行するためのそのような命令集合は、プログラム、ソフトウェアプログラム、または単純にソフトウェアと特徴付けられ得る。

[00210]前述のように、処理機械は、１つまたは複数のメモリに記憶された命令を実行してデータを処理する。データのこの処理は、たとえば、処理機械の１人または複数のユーザーによるコマンドに応答して、前の処理に応答して、別の処理機械による要求および／または任意の他の入力に応答して、行われ得る。

[00211]前述のように、本発明を実装するために使用される処理機械は、汎用コンピューターでもよい。しかしながら、前述の処理機械はまた、専用コンピューター、たとえばマイクロコンピューター、ミニコンピューターもしくはメインフレームを含む、コンピューターシステム、プログラムされたマイクロプロセッサ、マイクロコントローラー、周辺集積回路要素、ＣＳＩＣ（特定顧客向け集積回路）もしくはＡＳＩＣ（特定用途向け集積回路）、縮小命令セットコンピューター（ＲＩＳＣ）もしくは他の集積回路、論理回路、デジタル信号プロセッサ、ＦＰＧＡ、ＰＬＤ、ＰＬＡもしくはＰＡＬなどのプログラマブル論理デバイス、または、本発明のプロセスのステップを実装する能力を有する任意の他のデバイスもしくはデバイスの構成を含む、幅広い種類の他の技術のいずれかを使用し得る。これらの処理機械のうちのいずれかまたはすべては、携帯電話／デバイス、固定電話、補聴器、パーソナル増幅デバイス、補助リスニングデバイス、ビデオおよび音声会議システム、ボイスオーバーＩＰデバイス、ストリーミング無線デバイス、送受信無線、タブレットコンピューター、デスクトップおよびノートブックコンピューター、ワークステーション、電子読取りデバイスなど、様々なデバイスにおいて実装され得る。

[00212]本発明を実装するために使用される処理機械は、適切なオペレーティングシステムを使用し得る。したがって、本発明の実施形態は、ｉＯＳオペレーティングシステム、ＯＳＸオペレーティングシステム、Ａｎｄｒｏｉｄオペレーティングシステム、ＭｉｃｏｓｏｆｔＷｉｎｄｏｗｓ（商標）１０オペレーティングシステム、ＭｉｃｏｓｏｆｔＷｉｎｄｏｗｓ（商標）８オペレーティングシステム、ＭｉｃｏｓｏｆｔＷｉｎｄｏｗｓ（商標）７オペレーティングシステム、ＭｉｃｏｓｏｆｔＷｉｎｄｏｗｓ（商標）Ｖｉｓｔａ（商標）オペレーティングシステム、ＭｉｃｏｓｏｆｔＷｉｎｄｏｗｓ（商標）ＸＰ（商標）オペレーティングシステム、ＭｉｃｏｓｏｆｔＷｉｎｄｏｗｓ（商標）ＮＴ（商標）オペレーティングシステム、Ｗｉｎｄｏｗｓ（商標）２０００オペレーティングシステム、Ｕｎｉｘオペレーティングシステム、Ｌｉｎｕｘ（登録商標）オペレーティングシステム、Ｘｅｎｉｘオペレーティングシステム、ＩＢＭＡＩＸ（商標）オペレーティングシステム、Ｈｅｗｌｅｔｔ−ＰａｃｋａｒｄＵＸ（商標）オペレーティングシステム、ＮｏｖｅｌｌＮｅｔｗａｒｅ（商標）オペレーティングシステム、ＳｕｎＭｉｃｒｏｓｙｓｔｅｍｓＳｏｌａｒｉｓ（商標）オペレーティングシステム、ＯＳ／２（商標）オペレーティングシステム、ＢｅＯＳ（商標）オペレーティングシステム、Ｍａｃｉｎｔｏｓｈオペレーティングシステム、Ａｐａｃｈｅオペレーティングシステム、ＯｐｅｎＳｔｅｐ（商標）オペレーティングシステム、または別のオペレーティングシステムもしくはプラットフォームを実行する処理機械を含み得る。

[00213]前述の本発明の方法を実施するために、処理機械のプロセッサおよび／またはメモリが同じ物理的または地理的場所に物理的に位置することは必要ではないことが、理解されよう。すなわち、処理機械によって使用されるプロセッサおよびメモリの各々は、地理的に異なるロケーションに位置してもよく、任意の適切な方式で通信するように接続され得る。加えて、プロセッサおよび／またはメモリの各々は、異なる物理的機器から成ってもよいことが、理解されよう。したがって、プロセッサが１つのロケーションにある単一の機器であることおよびメモリが別のロケーションにある別の単一の機器であることは必要ではない。すなわち、プロセッサは、２つの異なる物理的ロケーションにある２つの機器でもよいことが企図されている。２つの個別の機器は、任意の適切な方式で接続され得る。加えて、メモリは、２つ以上の物理的ロケーションにあるメモリの２つ以上の部分を含み得る。

[00214]さらに説明するために、前述のような処理は、様々な構成要素および様々なメモリによって実行される。しかしながら、前述のような２つの個別の構成要素によって実行される処理は、本発明のさらなる実施形態によれば、単一の構成要素によって実行され得ることが理解されよう。さらに、前述のような１つの個別の構成要素によって実行される処理は、２つの個別の構成要素によって実行され得る。同様の方式で、前述のような２つの個別のメモリ部分によって実行されるメモリ記憶は、本発明のさらなる実施形態によれば、単一のメモリ部分によって実行され得る。さらに、前述のような１つの個別のメモリ部分によって実行されるメモリ記憶は、２つのメモリ部分によって実行され得る。

[00215]さらに、様々な技術が、様々なプロセッサおよび／またはメモリの間の通信を提供するために、ならびに、本発明のプロセッサおよび／またはメモリが任意の他のエンティティと通信することを可能にするために、すなわち、たとえば、さらなる命令を取得するようにまたはリモートメモリストアにアクセスし、使用するように、使用され得る。そのような通信を提供するために使用されるそのような技術は、たとえば、ネットワーク、インターネット、イントラネット、エクストラネット、ＬＡＮ、イーサネット（登録商標）、携帯電話基地局もしくは衛星を介するワイヤレス通信、または通信を提供する任意のクライアントサーバーシステムを含み得る。そのような通信技術は、たとえば、ＴＣＰ／ＩＰ、ＵＤＰ、またはＯＳＩなどの任意の適切なプロトコルを使用することができる。

[00216]前述のように、命令集合が、本発明の処理において使用され得る。命令集合は、プログラムまたはソフトウェアの形をとり得る。ソフトウェアは、たとえば、システムソフトウェアまたはアプリケーションソフトウェアの形をとってもよい。ソフトウェアはまた、たとえば、別個のプログラムの一群、より大きいプログラム内のプログラムモジュール、またはプログラムモジュールの一部の形をとってもよい。使用されるソフトウェアはまた、オブジェクト指向プログラミングの形のモジュラープログラミングを含み得る。ソフトウェアは、データの処理の仕方を処理機械に伝える。

[00217]さらに、本発明の実装形態および動作において使用される命令または命令集合は、処理機械が命令を読み取ることができるような、適切な形をとり得ることが理解されよう。たとえば、プログラムを形成する命令は、それが１つまたは複数のプロセッサが命令を読み取ることを可能にするための機械言語またはオブジェクトコードに変換される、適切なプログラミング言語の形をとり得る。すなわち、特定のプログラミング言語において、プログラミングコードまたはソースコードの書き込まれた行は、コンパイラ、アセンブラまたはインタープリターを使用して、機械言語に変換される。機械言語は、たとえば、特定のタイプの処理機械に特有の、すなわち、特定のタイプのコンピューターに特有の、バイナリコード化された機械命令である。コンピューターは、機械言語を理解する。

[00218]任意の適切なプログラミング言語が、本発明の様々な実施形態に従って使用され得る。例として、使用されるプログラミング言語は、たとえば、アセンブリ言語、Ａｄａ、ＡＰＬ、Ｂａｓｉｃ、Ｃ、Ｃ＋＋、ＣＯＢＯＬ、ｄＢａｓｅ、Ｆｏｒｔｈ、Ｆｏｒｔｒａｎ、Ｊａｖａ（登録商標）、Ｍｏｄｕｌａ−２、Ｐａｓｃａｌ、Ｐｒｏｌｏｇ、ＲＥＸＸ、ＶｉｓｕａｌＢａｓｉｃ、および／またはＪａｖａＳｃｒｉｐｔ（登録商標）を含み得る。さらに、単一のタイプの命令または単一のプログラミング言語が本発明のシステムおよび方法の動作と併せて使用されることは必要ではない。そうではなくて、任意の数の異なるプログラミング言語が、必要および／または要望に応じて使用され得る。

[00219]また、本発明の実施において使用される命令および／またはデータは、要望され得るように、任意の圧縮または暗号化技法またはアルゴリズムを使用することができる。暗号化モジュールが、データを暗号化するために使用され得る。さらに、ファイルまたは他のデータが、たとえば、適切な復号化モジュールを使用して復号化され得る。

[00220]前述のように、本発明は、例として、たとえば、少なくとも１つのメモリを含む、コンピューターまたはコンピューターシステムを含む、処理機械の形で実施され得る。命令集合、すなわち、たとえばコンピューターオペレーティングシステムが前述の動作を実行することを可能にする、ソフトウェアは、要望に応じて、幅広い種類の１つまたは複数の媒体のいずれかに含まれ得ることを理解されたい。さらに、命令集合によって処理されたデータはまた、幅広い種類の１つまたは複数の媒体のいずれかに含まれ得る。すなわち、特定の媒体、すなわち、本発明において使用される命令集合および／またはデータを保持するために使用される、処理機械内のメモリは、たとえば、様々な物理的形または伝送のいずれかを呈し得る。例として、媒体は、紙、紙スライド、コンパクトディスク、ＤＶＤ、集積回路、ハードディスク、フロッピーディスク、光ディスク、磁気テープ、ＲＡＭ、ＲＯＭ、ＰＲＯＭ、ＥＰＲＯＭ、ワイヤー、ケーブル、ファイバー、通信チャネル、衛星伝送、メモリカード、ＳＩＭカード、または他のリモート伝送、ならびに、本発明のプロセッサによって読み取られ得るデータの任意の他の媒体またはソースの形をとり得る。

[00221]さらに、本発明を実装する処理機械において使用される１つまたは複数のメモリは、要望に応じて、メモリが命令、データ、または他の情報を保持することを可能にするために、幅広い種類の形のいずれかをとり得る。したがって、メモリは、データを保持するために、データベースの形をとり得る。データベースは、たとえば、フラットファイル構成またはリレーショナルデータベース構成などのファイルの任意の所望の構成を使用することができる。

[00222]本発明のシステムおよび方法では、様々な「ユーザーインターフェース」が、本発明を実装するために使用される１つまたは複数の処理機械とユーザーがインターフェースすることを可能にするために使用され得る。本明細書では、ユーザーインターフェースは、ユーザーが処理機械と対話することを可能にする処理機械によって使用される任意のハードウェア、ソフトウェア、または、ハードウェアおよびソフトウェアの組合せを含む。ユーザーインターフェースは、たとえば、ダイアログ画面の形をとり得る。ユーザーインターフェースはまた、それが集合命令を処理するおよび／または処理機械に情報を提供するときにユーザーが処理機械の動作に関する情報を受信することを可能にする、マウス、タッチスクリーン、キーボード、キーパッド、音声読取装置、音声認識装置、ダイアログ画面、メニューボックス、リスト、チェックボックス、トグルスイッチ、押しボタンまたは任意の他のデバイスのいずれかを含み得る。したがって、ユーザーインターフェースは、ユーザーと処理機械との間の通信を提供する任意のデバイスである。ユーザーインターフェースを介してユーザーによって処理機械に提供される情報は、たとえば、コマンド、選ばれたデータ、または何らかの他の入力の形をとり得る。

[00223]前述のように、ユーザーインターフェースは、処理機械がユーザーのためのデータを処理するように命令集合を実行する処理機械によって使用される。ユーザーインターフェースは、通常は、情報を伝えるまたはユーザーから情報を受信するためにユーザーと対話するための処理機械によって使用される。しかしながら、本発明のシステムおよび方法のいくつかの実施形態によれば、人間のユーザーが、本発明の処理機械によって使用されるユーザーインターフェースと実際に対話することは必要ではないことを理解されたい。そうではなくて、本発明のユーザーインターフェースは、人間のユーザーではなくて、別の処理機械と対話する、すなわち、情報を伝えるおよび受信する、ことができることもまた企図されている。したがって、他方の処理機械は、ユーザーとして特徴付けられ得る。さらに、本発明のシステムおよび方法において使用されるユーザーインターフェースは、別の１つまたは複数の処理機械と部分的に対話することができ、その一方で人間のユーザーともまた部分的に対話することができることが、企図されている。

[00224]本発明は、広いユーティリティおよびアプリケーションを受け入れることができることが、当業者には容易に理解されよう。本明細書に記載されているもの以外の本発明の多数の実施形態および適合、ならびに多数の変形形態、修正形態および同等の構成は、本発明の内容または範囲を逸脱することなく、本発明およびその前述の説明から明らかとなろう、またはそれによって合理的に示唆されよう。

[00225]したがって、本発明は、それの実施形態に関して本明細書で詳細に説明されるが、この発明は、本発明の単なる説明および例示であり、本発明の可能にする発明を提供するようにされていることを理解されたい。したがって、前述の発明は、本発明を限定するものと、または任意の他のそのような実施形態、適合、変形形態、修正形態もしくは同等の構成を他の方法で排除するものと解釈されることは意図されていない。

Claims

音声信号の了解度を改善するための方法であって、
少なくとも１つのプロセッサが、複数の音要素を備える入力音声信号を受信するステップと、
前記少なくとも１つのプロセッサが、前記入力音声信号内の音要素を認識して前記了解度を改善するステップと、
前記少なくとも１つのプロセッサが、前記音要素の修正および置換えのうちの少なくとも１つによって、前記音要素を処理するステップと、
前記少なくとも１つのプロセッサが、前記処理された音要素を備える処理された音声信号を出力するステップと
を含む、方法。
前記音要素が、継続音要素および非継続音要素のうちの少なくとも１つを備える、請求項１に記載の方法。
前記処理が、前記音要素の継続期間を増やす、請求項１に記載の方法。
前記処理が、前記音要素の継続期間を減らす、請求項１に記載の方法。
前記少なくとも１つのプロセッサが、前記入力音声信号内の第２の音要素を認識して前記了解度を改善するステップと、
前記少なくとも１つのプロセッサが、前記音要素の修正および置換えのうちの少なくとも１つによって、前記第２の音要素を処理するステップと
をさらに含み、前記第２の音要素が、前記第１の音要素の前記処理を補うために、修正されるまたは置き換えられる、請求項１に記載の方法。
前記音要素が、音声音である、請求項１に記載の方法。
前記第１の音要素が、短い継続音であり、前記第２の要素が、長い継続音であり、そして、出力される前記処理された音声信号が、前記修正されたまたは置き換えられた第１のおよび第２の音要素を備える、請求項５に記載の方法。
前記少なくとも１つのプロセッサが、前記入力音声信号の休止の継続期間を修正することによって前記入力音声信号をさらに処理するステップをさらに含み、前記出力される処理された音声信号が、前記修正された休止を備える、請求項１に記載の方法。
前記処理された音声信号を再現するステップ
をさらに含み、前記出力される処理された音声が再現される速度が、減らされる、請求項１に記載の方法。
音声信号の了解度を改善するための方法であって、
少なくとも１つのプロセッサが、入力音声信号を受信するステップと、
前記少なくとも１つのプロセッサが、前記入力音声信号の音声基本周波数を識別するステップと、
前記少なくとも１つのプロセッサが、前記音声信号を分析して有声の音声において声道の共振を刺激する周期的ピッチパルスを抽出することによって、前記入力音声信号を処理するステップであり、これらの周期的ピッチパルスの周波数が前記有声の基本周波数である、ステップと、
前記少なくとも１つのプロセッサが、前記入力音声信号の前記抽出された周期的ピッチパルスをより大きい強度を有するより広い周波数範囲の声道共振を刺激する周期的ピッチパルスと置き換えるステップと、
前記少なくとも１つのプロセッサが、前記処理された音声信号を出力するステップと
を含む、方法。
前記置換周期的パルスが、ディラックパルスに近似する、請求項１０に記載の方法。
前記少なくとも１つのプロセッサが、前記音声基本周波数を備える補足信号を生成することによって前記入力音声信号をさらに処理するステップと、
前記少なくとも１つのプロセッサが、聴覚、触覚、および視覚のうちの１つによって前記補足信号を出力するステップと
をさらに含む、請求項１０に記載の方法。
前記音要素が、音声音である、請求項１０に記載の方法。
音声信号の了解度を改善するための方法であって、
少なくとも１つのプロセッサが、入力音声信号を備えるオーディオ信号を受信するステップと、
前記少なくとも１つのプロセッサが、前記オーディオ信号の音響的環境を認識するステップと、
前記少なくとも１つのプロセッサが、前記受信された音声信号内の音要素を認識して前記了解度を改善するステップと、
前記少なくとも１つのプロセッサが、前記音響的環境に基づいて前記音要素を処理するための信号処理戦略を決定するステップと、
前記少なくとも１つのプロセッサが、前記決定された信号処理戦略を前記識別された音要素に適用するステップと、
前記少なくとも１つのプロセッサが、前記処理された音要素を備える処理された音声信号を出力するステップと
を含む、方法。
前記少なくとも１つのプロセッサが、前記音響的環境が前記音声信号の了解度を低下させると決定するステップ
をさらに含む、請求項１４に記載の方法。
前記少なくとも１つのプロセッサが、低下させられた音声了解度の聴取条件に基づいて前記音声信号を処理するための信号処理戦略を決定する前記ステップが、
前記少なくとも１つのコンピュータープロセッサが、前記ユーザーからのフィードバックに基づいて前記信号処理戦略を変更するステップ
を含む、請求項１４に記載の方法。
前記フィードバックが、ユーザーからの可聴式フィードバックである、請求項１６に記載の方法。
前記決定された信号処理戦略が、分節間マスキングを減らす、請求項１４に記載の方法。
前記決定された信号処理戦略が、反響するマスキングを減らす、請求項１４に記載の方法。
前記決定された信号処理戦略が、背景ノイズを減らす、請求項１４に記載の方法。
前記決定された信号処理戦略が、音響的フィードバックを減らす、請求項１４に記載の方法。
前記音要素が、音声音である、請求項１４に記載の方法。
処理された音声信号を出力する前記ステップが、前記処理された音声信号の第１の部分を出力の第１のチャネルに出力するステップと、前記処理された音声信号の第２の部分を前記出力の第２のチャネルに出力するステップとを含む、請求項１４に記載の方法。
複数の音要素を備える入力音声信号を受信する入力と、
前記入力音声信号内の音要素を認識して了解度を改善し、前記音要素の修正および置換えのうちの少なくとも１つによって前記音要素を処理する、少なくとも１つのプロセッサと、
前記処理された音要素を備える前記処理された音声信号を出力する出力と
を備える、通信デバイス。
前記入力が、マイクロフォンである、請求項２４に記載の通信デバイス。
前記出力が、スピーカーである、請求項２４に記載の通信デバイス。
前記出力が、触覚トランスデューサを備える、請求項２４に記載の通信デバイス。
前記入力、前記少なくとも１つのプロセッサ、および前記出力が、同じデバイス内に共に位置する、請求項２４に記載の通信デバイス。
前記出力および前記少なくとも１つのプロセッサが、別個である、請求項２４に記載の通信デバイス。
前記音要素が、音声音である、請求項２４に記載の通信デバイス。
入力音声信号を備えるオーディオ信号を受信する入力と、
前記オーディオ信号の音響的環境を認識すること、
前記受信された音声信号内の音要素を認識して、了解度を改善すること、
前記音響的環境に基づいて前記音要素を処理するための信号処理戦略を決定すること、および、
前記決定された信号処理戦略を前記識別された音要素に適用すること、
を実行する少なくとも１つのプロセッサと、
前記処理された音要素を備える処理された音声信号を出力する出力と
を備える、通信デバイス。
前記少なくとも１つのプロセッサが、前記音響的環境が前記音声信号の了解度を低下させるとさらに決定する、請求項３１に記載の通信デバイス。
前記入力が、マイクロフォンである、請求項３１に記載の通信デバイス。
前記出力が、スピーカーである、請求項３１に記載の通信デバイス。
前記出力が、触覚トランスデューサを備える、請求項３１に記載の通信デバイス。
前記入力、前記少なくとも１つのプロセッサ、および前記出力が、同じデバイス内に共に位置する、請求項３１に記載の通信デバイス。
前記出力および前記少なくとも１つのプロセッサが、別個である、請求項３１に記載の通信デバイス。
前記音要素が、音声音である、請求項３１に記載の通信デバイス。
音声信号の了解度を改善するためのデバイスであって、
入力オーディオ信号を受信する入力と、
第１のユーザーの耳に関連する第１の出力と、
第２のユーザーの耳に関連する第２の出力と、
前記第１の出力と前記第２の出力との間で前記入力オーディオ信号の出力を切り替える少なくとも１つのプロセッサと
を備える、デバイス。
前記切替えが、疑似周期的である、請求項３９に記載のデバイス。
音声信号の了解度を改善するためのデバイスであって、
入力オーディオ信号を受信する入力と、
第１のユーザーの耳に関連する第１の出力と、
第２のユーザーの耳に関連する第２の出力と、
前記入力オーディオ信号内の第１の音要素を強い音要素として認識すること、
前記第１の音要素を前記第１の出力に出力すること、
前記入力オーディオ信号内の第２の音要素を受信すること、
前記第２の音要素を前記第２の出力に出力すること、
前記入力オーディオ信号内の第３の音要素を強い音要素として認識すること、
前記第３の音要素を前記第２の出力に出力すること、
前記入力オーディオ信号内の第４の音要素を受信すること、および、
前記第４の音要素を前記第１の出力に出力すること、
を実行する少なくとも１つのプロセッサと
を備える、デバイス。