JP5627241B2

JP5627241B2 - 音声信号処理装置および方法

Info

Publication number: JP5627241B2
Application number: JP2009550448A
Authority: JP
Inventors: 田中　直也; 直也田中
Original assignee: Panasonic Corp; Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp; Panasonic Holdings Corp
Priority date: 2008-01-21
Filing date: 2009-01-14
Publication date: 2014-11-19
Anticipated expiration: 2029-01-14
Also published as: US20100296662A1; JPWO2009093416A1; US8675882B2; WO2009093416A1

Description

本発明は、スピーカ等によって再生される音声信号を前処理することにより、特に、残響の影響により音声の明瞭性が低下しやすい閉空間において、再生される音声の明瞭性を向上させる技術に関する。

ディジタルもしくはアナログ信号として記録伝送された音声信号を、スピーカ等の音声再生手段を用いて再生する装置は、テレビ・ラジオ受信機、オーディオ装置、拡声装置など、広く一般に用いられている。一部の屋外用拡声装置を除いて、その多くは室内で使用される。室内は、壁に囲まれた閉空間であるため、スピーカから発せられた音波信号は、壁面に到達する毎に反射を繰り返す。従って、耳に届く音波信号は、スピーカから直接届く直接波と、壁面からの反射波が合成された信号となる。壁面からの反射波の強さは、壁面までの距離や、壁面の素材、構造などによって異なるが、たとえばコンクリートやタイルなどの硬い素材で作られた平らな壁面は、反射率が高く、強い反射波を生じる。

このような壁面で囲まれた空間の代表としては、家庭の浴室があげられる。反射波は、様々な方向から到来し、また、その経路長によって異なる遅延時間を有している。耳に届く反射波は、これら多くの反射波の合成であるため、独立した音としては認識されず、響き感やこもり感といった感覚として認識される。これを一般に、残響もしくはリバーブ（ｒｅｖｅｒｂ）と呼ぶ。残響は、音声の明瞭性を低下させ、残響の強度が上がるに従って、音声の認識率が低下することが知られている。

残響による音声の明瞭性低下を防ぐ方法として、残響が人間の聴覚に悪影響を及ぼしている部分について、その補正となる処理を入力音声信号に対して行ってから、スピーカから再生する方法がある。例えば、特許文献１において、残響による影響を補正する前処理として、入力信号から変調スペクトルを算出し、変調スペクトルの特定の帯域を強調する処理を行った後、前記処理された変調スペクトルから音声信号を再合成する方法が開示されている。この方法によれば、壁面等で反射した音波が原音に重畳する部分での原音の音圧を抑制することができ、特に、残響が音声信号の時間方向への振幅包絡の変化に及ぼす影響を補正し、残響環境下での音声の明瞭性を向上させることができる（特許文献１参照）。

特開２００１−１００７７４号公報

しかしながら、残響が音声信号に及ぼす影響は、音声信号の時間方向への振幅包絡の変化だけに留まらない。また、上記の従来の補正では、広い空間内で反射して戻ってきた音波と原音とが重なるタイミングで原音の音声信号をカットしているので、あまり広くない空間内で、すぐに戻ってくる残響に対しては十分に対処することができないという問題がある。図１は、閉空間において、スピーカから発せられた音声信号が、聴取者の耳に到達するまでの経路を示す図である。スピーカ２０１から発せられた音声信号は、音波信号として空間を伝播する。音波信号Ｓ１は、スピーカ２０１から直接聴取者２０２に届く直接波であり、音波信号Ｓ２、Ｓ３は、周囲の壁面２０３で反射してから届く反射波である。実際の閉空間環境においては、反射波はその経路により無数に存在する。また、一般に反射波が耳に到達するまでの経路長は、直接波に比べて長い。したがって、音速を毎秒３４０ｍとすれば、経路長の差１ｍに対し、約３ｍｓの遅延を生じる。つまり、聴取者の耳には、スピーカからの直接波が最初に到達し、続いて、様々な方向から、それぞれの経路長に基づく遅延を伴った反射波が到達することになる。

人間の聴覚は、音波の強弱だけでなく、音波の到来方向も認識しているが、このように、遅延を伴って様々な方向から音波が到来すると、聴覚は音波の到来方向を正しく把握することができない。聴取者が認識する音源位置はあいまいとなり、響き感、モヤモヤ感やこもり感といった感覚を覚え、結果として、音声を明瞭に聴き取れない状態になる。

本発明の目的は、狭い閉空間において音声信号を再生する場合であっても、残響による再生音への悪影響を抑制することによって認識率の高い明瞭な音声を再生することができる音声信号処理装置を提供することである。

前記課題を解決するために本発明の音声信号処理装置は、音声信号の両耳間位相差が音の到来方向の認識に与える影響の大きさに基づいたフィルタ特性を与えるフィルタ係数を決定するフィルタ係数設定部と、前記フィルタ係数設定部によって決定された前記フィルタ係数を用いて、前記音声信号にフィルタリング処理を行うフィルタ部とを備える。具体的には、前記フィルタ係数設定部は、再生された音声信号を聴取者が聴取する際、前記聴取者における両耳間位相差が、音の到来方向の認識に与える影響の大きさが大きくなる周波数ほど、前記音声信号の信号強度を小さくするゲイン定数を周波数毎に設定したフィルタ係数を決定する。

また、前記フィルタ係数設定部は、前記両耳間位相差が音の到来方向の認識に与える影響の大きさの値があらかじめ定められた閾値よりも大きくなる周波数範囲で入力音声信号を減衰するようなフィルタ特性を前記フィルタ部に与えるフィルタ係数を決定するとしてもよい。具体的には、前記フィルタ係数設定部は、（１）前記音の到来方向が前記聴取者の両耳を結ぶ直線方向に対して成す角度である偏角と、（２）前記偏角に基づいて算出される両耳間時間差と、（３）前記両耳間時間差および前記音声信号の周波数の関係から求められる両耳間位相差と、を用いた関係式により算出される周波数を、フィルタ係数により処理する周波数領域の下限周波数として設定してもよい。

また、前記フィルタ係数設定部は、前記両耳間位相差が音の到来方向の認識に与える影響の大きさの値があらかじめ定められた閾値よりも大きくなる周波数範囲の最適値を５００Ｈｚ〜１２００Ｈｚと定め、前記周波数範囲で、入力音声信号を減衰するようなフィルタ特性を与えるフィルタ係数を決定するとしてもよい。

さらに、前記フィルタ係数設定部は、声の第１フォルマントの周波数範囲の前記減衰量を小さくするように調整したフィルタ特性を与えるフィルタ係数を決定するとしてもよい。

また、前記フィルタ係数設定部は、前記フィルタ係数を保持するＲＯＭで構成され、前記フィルタ部は、前記ＲＯＭから読み出した前記フィルタ係数を用いて、入力音声信号をフィルタリング処理するとしてもよい。

前記音声信号処理装置は、さらに、前記フィルタ部からの出力である音声信号を再生する再生部と、前記再生部により音声信号が再生される再生空間での残響の特性を表す残響特性データを保持する残響特性設定部とを備え、前記フィルタ係数設定部は、前記両耳間位相差が音の到来方向の認識に与える影響の大きさの値に基づくフィルタ特性に、前記残響特性設定部に保持されている前記残響特性データに基づくフィルタ特性を加味して、前記フィルタ係数を決定するとしてもよい。

また、前記音声信号処理装置は、さらに、前記フィルタ部からの出力である音声信号を再生する再生部と、前記再生部の再生特性を表す再生特性データを保持する再生特性設定部とを備え、前記フィルタ係数設定部は、前記両耳間位相差が音の到来方向の認識に与える影響の大きさに基づくフィルタ特性を、前記再生特性設定部に保持されている前記再生特性データに基づいて調整し、調整されたフィルタ特性を表すフィルタ係数を決定するとしてもよい。

前記音声信号処理装置は、さらに、前記フィルタ部からの出力である音声信号を再生する再生部と、前記再生部の再生特性を表す再生特性データを保持する再生特性設定部と、前記再生部により音声信号が再生される再生空間での残響の特性を表す残響特性データを保持する残響特性設定部とを備え、前記フィルタ係数設定部は、前記両耳間位相差が音の到来方向の認識に与える影響の大きさに基づいたフィルタ特性に、前記残響特性設定部に保持されている残響特性データに基づいたフィルタ特性を加味し、得られた前記フィルタ特性を、前記再生特性設定部に保持されている前記再生特性データに基づいて調整し、調整されたフィルタ特性を表す前記フィルタ係数を決定するとしてもよい。

さらに、前記フィルタ係数設定部は、前記両耳間位相差が音の到来方向の認識に与える影響の大きさの値が、あらかじめ定められた閾値よりも大きくなる周波数範囲で減衰するようなフィルタ特性に対して、前記残響特性の残響音の音圧があらかじめ定められた第２の閾値よりも大きい周波数帯域について、前記減衰をさらに大きくするように補正したフィルタ係数を決定するとしてもよい。

また、前記フィルタ係数設定部は、前記両耳間位相差が音の到来方向の認識に与える影響の大きさの値があらかじめ定められた閾値よりも大きくなる周波数範囲で減衰するようなフィルタ特性に対して、前記残響特性の残響音の音圧があらかじめ定められた第２の閾値よりも強く、かつ、残響が持続する時間があらかじめ定められた第３の閾値よりも長い周波数帯域について、前記減衰をさらに大きくするように調整したフィルタ係数を決定するとしてもよい。

さらに、前記フィルタ係数設定部は、前記両耳間位相差が音の到来方向の認識に与える影響の大きさの値があらかじめ定められた閾値よりも大きくなる周波数範囲で、かつ、前記再生部の再生特性から前記再生部の出力音圧が低域側で減衰する周波数範囲について、前記両耳間位相差が音の到来方向の認識に与える影響の大きさの値が前記閾値よりも大きくなる周波数範囲で減衰するようなフィルタ特性に対して、前記減衰を小さくするように調整したフィルタ係数を決定するとしてもよい。

なお、本発明は、装置として実現できるだけでなく、その装置を構成する処理手段をステップとする方法として実現したり、それらステップをコンピュータに実行させるプログラムとして実現したり、そのプログラムを記録したコンピュータ読み取り可能なＣＤ−ＲＯＭなどの記録媒体として実現したり、そのプログラムを示す情報、データ又は信号として実現したりすることもできる。そして、それらプログラム、情報、データ及び信号は、インターネット等の通信ネットワークを介して配信してもよい。

上記構成により本発明の音声信号処理装置は、反射波によって音の到来方向の認識を妨げる周波数の成分のみを、どの程度妨害されるかの尺度にしたがって減衰させることにより、全体の音の強度の低下を防ぎながら、残響が強い閉空間の環境における再生音声信号の明瞭性を向上することができる。

図１は閉空間において、スピーカから発せられた音声信号が聴取者の耳に到達するまでの経路を示す図である。図２は本発明の実施の形態１における音声信号処理装置の構成を示す図である。図３（ａ）及び（ｂ）は音の到来方向と両耳間の行程差との関係を示す図である。図４（ａ）及び（ｂ）は聴覚特性パラメータとそれに対応するフィルタ特性とを示す図である。図５は本発明の実施の形態２における音声信号処理装置の構成を示す図である。図６は残響特性パラメータを示す図である。図７は本発明の実施の形態３における音声信号処理装置の構成を示す図である。図８は小型スピーカの再生周波数特性の一例を示す図である。図９（ａ）及び（ｂ）は、聴覚特性パラメータおよび残響特性パラメータのみに基づいて設定されたフィルタ係数による、前処理フィルタの周波数特性と出力音圧特性との関係を示す図である。図１０（ａ）及び（ｂ）はスピーカの再生特性に基づく補正有りの場合の前処理フィルタの周波数特性と出力音圧の関係を示す図である。図１１は実施の形態３の音声信号処理装置の動作を示すフローチャートである。

以下、本発明を実施するための最良の形態について、図面を参照しながら説明する。

（実施の形態１）
図２は、本発明の実施の形態１の音声信号処理装置の構成を示す図である。人間の聴覚には、特定の周波数帯域の音に対して、音の到来方向を認識する能力が高いという特性がある。その結果、その周波数帯域の音が、壁面などの反射により、多様な方向から耳に入った場合には、聴き取った音に響き感、モヤモヤ感、こもり感などを生じさせる影響が強く、音声を明瞭に聴き取れなくする傾向がある。本実施の形態１の音声信号処理装置は、前述のような聴覚特性を有する周波数帯域をあらかじめ検出し、検出された周波数帯域をスピーカ出力の前処理で抑制することによって、閉空間での残響下においても音声を明瞭に聴き取れるようにした音声信号処理装置である。以下、図面を参照しながら、実施の形態１の音声信号処理装置の構成および動作を説明する。図２に示すように、音声信号処理装置１０は、第１のフィルタ係数設定部１００、前処理フィルタ部１０３及びスピーカ１０４を備える。さらに、第１のフィルタ係数設定部１００は、聴覚特性設定部１０１および第１のフィルタ特性設定部１０２を含む。聴覚特性設定部１０１は、聴覚特性パラメータを保持している。聴覚特性パラメータについては、後でその詳細を述べる。第１のフィルタ特性設定部１０２は、聴覚特性設定部１０１で保持されている聴覚特性パラメータに従って、前処理フィルタ部１０３による前処理に必要なフィルタ特性を決定する。第１のフィルタ特性設定部１０２によって決定されたフィルタ特性は、フィルタ係数として、前処理フィルタ部１０３に入力される。前処理フィルタ部１０３は、入力音声信号に対して、格納しているフィルタ係数を用いた演算によるフィルタリングである前処理を行う。例えば、前処理フィルタ部１０３は、入力音声信号に対してＦＦＴ（高速フーリエ変換：ＦａｓｔＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ）などの周波数変換を施し、周波数変換により得られたスペクトルにフィルタ係数を乗算する。さらに、乗算結果として得られた周波数スペクトルに対してＩＦＦＴ（逆高速フーリエ変換：ＩｎｖｅｒｓｅＦａｓｔＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ）などの逆変換を施し、時間の関数として表される音声信号を出力する。前処理された入力音声信号は、スピーカ１０４を介して出力音声信号として再生される。なお、周波数変換の方法は、高速フーリエ変換に限らず、ＤＣＴ（ＤｉｓｃｒｅｔｅＣｏｓｉｎｅＴｒａｎｓｆｏｒｍ）およびＭＤＣＴ（ＭｏｄｉｆｉｅｄＤｉｓｃｒｅｔｅＣｏｓｉｎｅＴｒａｎｓｆｏｒｍ）など他の周波数変換方法を用いるとしてもよい。また、周波数変換を行わずに、ＩＩＲ（無限インパルス応答：ＩｎｆｉｎｉｔｅＩｍｐｕｌｓｅＲｅｓｐｏｎｓｅ）やＦＩＲ（有限インパルス応答：ＦｉｎｉｔｅＩｍｐｕｌｓｅＲｅｓｐｏｎｓｅ）のフィルタを用いて、時間信号に対して直接フィルタリング処理を行っても良い。

ここで、聴覚特性パラメータについて詳しく説明する。先に述べたように、人間の聴覚は、音の到来方向を認識する能力を持っている。音の到来方向（もしくは音源の位置）の認識は、主に二つの要素から成り立っていることが一般に知られており、"ＤｕｐｌｅｘＴｈｅｏｒｙ"と呼ばれている。すなわち、到来方向認識において、周波数が１５００Ｈｚ以下の音の場合、両耳間時間差ＩＴＤ（ＩｎｔｅｒａｕｒａｌＴｉｍｅＤｉｆｆｅｒｅｎｃｅ）と呼ばれる指標が主要素であり、１５００Ｈｚを超える音の場合、両耳間レベル差ＩＬＤ（ＩｎｔｅｒａｕｒａｌＬｅｖｅｌＤｉｆｆｅｒｅｎｃｅ）と呼ばれる指標が主要素となる。ただし、ＩＴＤとＩＬＤのどちらが主要素になるかは、境界周波数においていずれかにスイッチされるのでは無く、境界周波数から離れるにしたがって徐々に切り替わるものであり、また、境界周波数には個人差がある。したがって、一般的にＩＴＤが支配的となる周波数は、例えば１２００Ｈｚ程度である。さらに、人間がＩＴＤを認識できるのは、音波信号の第一波が到達したときのみであり、それ以降は、両耳間位相差ＩＰＤ（ＩｎｔｅｒａｕｒａｌＰｈａｓｅＤｅｆｆｅｒｅｎｃｅ）と呼ばれる指標により、音の到来方向が認知される。

次に、ＩＴＤとＩＰＤの関係を説明する。図３は、音波信号が両耳を結ぶ直線方向に対して偏角(アジマス) θをもって到来した場合に、音波信号が人間の耳にどのように届くかを示す図である。図３（ａ）に示すように、両耳に到来する音波信号が平行に伝播すると仮定すれば、図３（ｂ）に示すように、両耳間の行程差Ｙは、次の式１で表される。

ここで、Ｘは頭の幅に相当する。例えば、平均的な日本人の頭の幅は、１５〜１７ｃｍ程度である。また、偏角θは、０≦θ＜２πの範囲を取りえるが、Ｙを行程差の絶対値と定義すれば、コサイン関数の対称性により、０≦θ≦π／２が有効な範囲となる。

続いて、ＩＴＤは音速をＶｓとして、次の式２で表される。

ここで、Ｘ＝１７ｃｍ（＝０．１７ｍ）として、代表的な偏角θについてＩＴＤを算出すると、以下の表１に示す値となる。

これにより、ＩＴＤの下限値は０ｍｓ、上限値は０．５０ｍｓとなる。以上のように算出したＩＴＤは、両耳間で発生する音波信号の行程差と、音速に基づく値であり、音の周波数に係わらず一定である。これに対してＩＰＤは、音波信号が両耳に到達している状態における、両耳間での信号位相の差であり、音波信号の周波数ｆによって異なる値を取る。ＩＰＤは次の式３で算出される。

また、ＩＰＤは右側の耳に到達する音波信号の位相が左側の耳に到達する音波信号の位相よりも進んでいる場合に正の値として０≦ＩＰＤ≦πの値をとる。また、左側の耳に到達する音波信号の位相が右側の耳に到達する音波信号の位相よりも進んでいる場合に負の値として０≦ＩＰＤ≦−πの値を取る。ＩＰＤ＝０では、両耳間の位相差が無く、音波信号は真正面もしくは真後ろから到来していることを意味する。音波が頭の前方から到来しているか後方から到来しているかの判別は、耳の形状に起因する周波数特性の相違など、複合的な要因により行われる。０＜ＩＰＤ＜πの範囲においては、０からπ／２に向かってＩＰＤが増加するに伴って、音の到来方向は向かって右に移動し、π／２で移動量が最大となる。π／２を超えると、πに向かってＩＰＤが増加するにしたがって、音の到来方向は向かって左に移動し、πにおいて正面に戻る。これは、ＩＰＤ＝πにおいて両耳間の位相がちょうど逆相の関係となり、両耳に到達するどちらの音波信号の位相が進んでいるかの判別が出来ないためである。また、ＩＰＤが負の値を取る場合については、左右の関係が逆となる。このように、ＩＰＤ＝π／２もしくは−π／２、つまり両耳間の位相差の絶対値がπ／２であるときに、ＩＰＤは音の到来方向の認識に最も大きな影響を与える。

ここで、先に算出した各ＩＴＤに対して、式３よりＩＰＤがπ／２となる周波数を求めると以下の様になる。

式３の関係により、ＩＴＤが０に近づくほど周波数は高くなる。先に説明したように、一般にＩＴＤが主要素となる上限の周波数は１２００Ｈｚ程度であるが、ＩＴＤとＩＰＤの認識には密接な関係があるため、ＩＰＤが主要素となって音波信号の到来方向を認知する上限周波数も１２００Ｈｚ程度と考えて良い。また、上記算出結果より、ＩＰＤ＝π／２となる下限周波数は５００Ｈｚである。周波数が５００Ｈｚ未満では、ＩＰＤの最大値はπ／２より小さくなり、音の到来方向の認識に与える影響は、周波数が下がるごとに小さくなる。以上の結果から、両耳に到達する音波信号の行程差に起因するＩＰＤが、音の到来方向の認識に大きな影響を与える周波数範囲は、５００〜１２００Ｈｚ程度となる。

なお、前記上限周波数と下限周波数とで挟まれた周波数範囲において、ＩＰＤが音の到来方向の認識に与える影響の大きさは一定ではない。すなわち、同じＩＰＤ＝π／２の条件であっても、例えば、周波数ｆ＝９００Ｈｚの第１の音波信号と、周波数ｆ＝１１００Ｈｚの第２の音波信号では、第１の音波信号の方が音の到来方向の認識に与える影響は大きい。これらの性質を考慮した聴覚特性パラメータの例を図４に示す。図４（ａ）及び（ｂ）は、聴覚特性パラメータと対応するフィルタ特性を示す図である。図４（ａ）において、聴覚特性は従来から知られており、周波数をＸ軸、ＩＰＤが音の到来方向の認識に与える影響の大きさをＹ軸として、聴覚特性４０１のように表される。ＩＰＤが音の到来方向の認識に与える影響の大きさについて任意の閾値４０２を設定すると、聴覚特性４０１と閾値４０２の交点において、下限周波数と上限周波数が求まる。下限周波数と上限周波数に挟まれた区間を、聴覚特性の有効周波数範囲とし、前記有効周波数範囲における、聴覚特性４０１の実線部分を聴覚特性パラメータと定義する。

次に、図２に示した第１のフィルタ特性設定部１０２の動作を説明する。図４（ａ）の聴覚特性パラメータによって示される情報は、ある周波数の音声信号において、ＩＰＤが音の到来方向の認識に与える影響の大きさを示す尺度である。これは、残響環境下においては、ある周波数の音波信号の到来方向の認識が、ＩＰＤの異なる反射波の影響によってどの程度妨害されるかの尺度と等価となる。なぜならば、ＩＰＤが音の到来方向の認識に与える影響が大きいほど、ＩＰＤの異なる反射波の存在が問題となるからである。

音波信号の到来方向の認識を妨害されないためには、反射波を発生させなければ良いが、反射波のみを発生させないようにするのは、一般に非常に困難である。したがって、本発明の第１のフィルタ特性設定部１０２は、反射波の発生を抑制する目的で、元の音波信号を減衰させるフィルタ特性を設定する。元となる音波信号を減衰させれば、反射波も抑制されることは自明であるが、すべての音波信号を減衰させることは、音波信号自体の強度を低下させることであり、意味を成さない。しかしながら、聴覚特性パラメータにしたがって、反射波によって音波信号の到来方向の認識が妨害される周波数の音波信号のみを、どの程度妨害されるかの尺度に従って減衰させれば、音波信号全体の強度の低下を防ぎながら、反射波による妨害の影響だけを取り除くことができる。例えば、図４において、前記聴覚特性パラメータに対応するフィルタ特性４０３は、図４（ｂ）で示される。第１のフィルタ特性設定部１０２によって設定されるフィルタ特性の最大減衰量の最適値は、音声が再生される環境の残響強度に依存するが、通常−１０から−３０ｄＢ程度とする。設定されたフィルタ係数は、前処理フィルタ部１０３に送られる。前処理フィルタ部１０３は、第１のフィルタ特性設定部１０２から入力されたフィルタ係数を用いて、入力音声信号に前処理フィルタリング処理を行い、前処理された入力音声信号を生成する。なお、ここで、フィルタ特性の最大減衰量の最適値を−１０から−３０ｄＢとしたが、下限は必ずしも−３０ｄＢと限らず、より大きい減衰量としてもよい。

なお上記例において、聴覚特性パラメータは、ある周波数の音波信号について、ＩＰＤが音の到来方向の認識に与える影響の大きさを示す尺度として定義されているが、それ以外の心理聴覚的特性を含んでも良い。例えば、上記ＩＰＤが音の到来方向の認識に大きな影響を与える周波数範囲５００〜１２００Ｈｚ程度のうち、５００〜８００Ｈｚ付近は、音声信号において声の第１フォルマントと呼ばれ、言語の音素認識において重要な帯域とされている。したがって、この帯域を大きく減衰させることは、再生音声信号の明瞭性を向上する目的において逆効果となる場合がある。そこで、５００〜８００Ｈｚについては、減衰量を小さくするように聴覚特性パラメータを調整することにより、問題を解決することができる。

なお、本発明の実施の形態１の構成は、これに限定されない。例えば、聴覚特性設定部１０１が保持する聴覚特性パラメータをあらかじめ最適な一つの値に固定しておき、固定された聴覚特性パラメータに基づいて第１のフィルタ特性設定部１０２によって前処理フィルタ部１０３に設定されるフィルタ係数をあらかじめ算出する。そして、算出されたフィルタ係数を第１のフィルタ特性設定部１０２のＲＯＭ（読み出し専用メモリ）等に記憶させておき、前処理フィルタ部１０３が第１のフィルタ特性設定部１０２から読み出したフィルタ係数を用いて入力音声信号をフィルタリングすることによっても実現することができる。このように、第１のフィルタ特性設定部１０２をＲＯＭで構成することにより、フィルタ係数を音声再生の都度算出すること無く、ＲＯＭから読み出したフィルタ係数を用いて、前処理フィルタ部１０３において入力音声信号に対して前処理を行うことができるため、第１のフィルタ特性設定部１０２の処理を省くことができ、処理量を削減することができる。また、複数の聴覚特性パラメータを聴覚特性設定部１０１に保持させておき、入力部を備えた第１のフィルタ特性設定部１０２によりユーザが最適な１つを適宜、選択してもよい。そして、選択された聴覚特性パラメータに基づいてフィルタ係数を算出し、算出されたフィルタ係数を第１のフィルタ特性設定部１０２に格納しておくとしてもよい。

また、さらに、聴覚特性設定部１０１に外部から任意の閾値が入力されるようにしてもよい。この場合、第１のフィルタ特性設定部１０２は、図４（ａ）に示した聴覚特性が外部から入力された閾値を超える周波数帯域の音声信号を減衰するよう、前処理フィルタ部１０３のフィルタ係数を設定する。

（実施の形態２）
図５は、本発明の実施の形態２の音声信号処理装置の構成を示す図である。浴室のような狭い閉空間では、共通した特有の残響特性を示すことが知られている。このため、本実施の形態２の音声信号処理装置５０では、実施の形態１で説明した構成に加えて、狭い閉空間に特有な残響特性を併せて抑制するための処理部を新たに設けている。音声信号処理装置５０は、第２のフィルタ係数設定部５００、前処理フィルタ部１０３、スピーカ１０４を備える。第２のフィルタ係数設定部５００は、聴覚特性設定部１０１に加えてさらに、残響特性設定部５０１を備え、残響特性設定部５０１から出力される残響特性パラメータを第２のフィルタ特性設定部５０２に入力するようにしている。第２のフィルタ特性設定部５０２は、聴覚特性設定部１０１からの聴覚特性パラメータと、残響特性設定部５０１からの残響特性パラメータとの両方の特性を加味して算出されたフィルタ係数を内部に記憶し、前処理フィルタ部１０３に設定する。第２のフィルタ係数設定部５００を構成している残響特性設定部５０１、第２のフィルタ特性設定部５０２以外の動作は、図２に示した実施の形態１の構成と同じであるので、同じ参照番号を付し説明を省略する。

残響特性設定部５０１は、出力音声信号が再生される空間の残響特性を表す残響特性パラメータを保持している。図６は、残響特性設定部５０１が保持する残響特性パラメータの一例を示す図である。図６において、Ｘ軸は時間、Ｙ軸は周波数、Ｚ軸は残響強度を表す。６０１〜６０４は、時間０〜Ｔ３における周波数対残響強度特性であり、時間の経過に伴い変化する。また、６０５は、周波数Ｆ１における、時間対残響強度特性である。残響強度が大きい程、強い反射波が発生して残響が強いことを意味し、また、時間対残響強度の曲線が０に収束するまでの時間が長いほど反射波が減衰せず、長時間に渡って残響が残ることを意味する。

第２のフィルタ特性設定部５０２は、聴覚特性パラメータと、音響特性パラメータの両方を参照して、フィルタ係数を設定する。フィルタ係数の設定方法の一例としては、聴覚特性パラメータに基づいて設定したフィルタ係数を、音響特性パラメータに基づいて補正する方法がある。すなわち、実施の形態１で説明した手順に基づいて一旦フィルタ係数を設定した後、音響特性パラメータで示される、反射波の強い周波数や、反射波の継続時間が長い周波数について、フィルタによる減衰量を大きくする。フィルタによって減衰量を大きくする反射波の強い周波数及び反射波の継続時間が長い周波数は、反射波の音圧及び反射波の継続時間をそれぞれに定めた閾値と比較することによって決定する。具体的には、反射波の音圧が音圧の閾値を超える周波数帯域においてフィルタによる減衰量を大きくする。また、反射波の継続時間が、時間の閾値を超える周波数帯域について、フィルタによる減衰量を大きくする。このようにフィルタ係数を設定することによって、音声信号が再生される空間の残響特性を考慮して、反射波の影響をより効果的に抑制することが可能となり、再生される音声信号の明瞭性を向上することができる。

なお、残響特性設定部５０１において保持される残響特性パラメータは、あらかじめ代表的な空間の残響特性を測定しておき、プリセットパラメータとして保持しておいても良いし、残響特性設定部５０１にマイクなどの測定部を接続して、定期的に空間の残響特性を測定して更新するようにしても良い。前記測定部によって測定される空間残響特性としては、例えばインパルス応答や、測定信号と再生信号の差分から得られる残響強度および残響時間の特性を用いる。

なお、本発明の実施の形態２の構成は、聴覚特性パラメータおよび残響特性パラメータをあらかじめ最適な一つもしくは複数の値に固定しておき、固定された聴覚特性パラメータおよび残響特性パラメータに基づいて第２のフィルタ特性設定部５０２によって設定されるフィルタ係数をあらかじめ算出し、算出されたフィルタ係数を第２のフィルタ特性設定部５０２のＲＯＭ（読み出し専用メモリ）等に記憶させておくことによっても実現することができる。このように第２のフィルタ係数設定部５００をＲＯＭで構成することにより、フィルタ係数を音声信号処理装置の起動の都度算出すること無く、ＲＯＭから読み出したフィルタ係数を用いて、前処理フィルタ部１０３において入力信号に対して前処理を行うことができる。このため、第２のフィルタ特性設定部５０２の処理を省くことができ、処理量を削減することができる。

（実施の形態３）
図７は、本発明の実施の形態３の音声信号処理装置７０の構成を示すブロック図である。音声信号処理装置７０は、第３のフィルタ係数設定部７００、前処理フィルタ部１０３及びスピーカ１０４を備える。第３のフィルタ係数設定部７００は、実施の形態２で説明した第２のフィルタ係数設定部５００の構成に対して、聴覚特性設定部１０１および残響特性設定部５０１に加えて、さらに再生特性設定部７０１を備え、第２のフィルタ特性設定部５０２に替えて、第３のフィルタ特性設定部７０２を備える。第３のフィルタ係数設定部７００は、聴覚特性設定部１０１から出力される聴覚特性パラメータ、残響特性設定部５０１から出力される残響特性パラメータ、および再生特性設定部７０１から出力される再生特性パラメータを第３のフィルタ特性設定部７０２に入力するように構成している。ここで、再生特性設定部７０１、第３のフィルタ特性設定部７０２以外の動作は、図５に示される実施の形態２の第２のフィルタ係数設定部５００の構成と同じであるので、同じ構成要素には同じ参照番号を付し説明を省略する。再生特性設定部７０１は、出力音声信号を出力するスピーカ１０４の再生周波数特性を示す再生特性パラメータを保持している。

ここで、再生特性パラメータについて説明する。スピーカの再生周波数特性としては、理想的には、低い周波数（例えば２０Ｈｚ）から高い周波数（例えば２０ｋＨｚ）までフラットであることが望ましい。しかしながら、実際には、スピーカの構造に起因して、再生周波数特性には山谷があり、特に携帯電話などのポータブル機器で用いられる小型スピーカでは、４００〜５００Ｈｚ程度以下の音声信号がほとんど再生されない場合もある。

図８は小型スピーカの再生周波数特性の一例を示す図である。なお、図８の横軸は対数軸である。図８で示されるように、小型スピーカでは、低域側４００Ｈｚ以下の周波数帯域はほとんど再生されず、周波数が４００Ｈｚを超えてから１ｋＨｚにかけて出力レベルが上昇し、周波数が１ｋＨｚを超えてからはほぼ平坦な特性となる。このような再生特性においては、人間の音声信号の基本波は再生されないので、５００Ｈｚ〜８００Ｈｚ程度の、音声信号の第１フォルマントと呼ばれる帯域が音声の明瞭な聴き取りに関して重要な要素となる。さらに、この周波数帯域の再生レベルは、１ｋＨｚを超えてからの周波数帯域の再生レベルと比較して相対的に低いため、前処理フィルタ処理によってこの帯域の信号を減衰させることは好ましくない。したがって、再生特性設定部７０１において、スピーカの再生周波数特性を示す再生特性パラメータを保持し、第３のフィルタ特性設定部７０２は、聴覚特性パラメータおよび残響特性パラメータにしたがって計算したフィルタ係数を、再生特性パラメータの特性に基づいて音声信号の第１フォルマントが減衰されすぎないよう補正する。

図９（ａ）及び（ｂ）は、再生特性パラメータに基づいて補正される前、すなわち聴覚特性パラメータおよび残響特性パラメータのみに基づいて設定されたフィルタ係数による、前処理フィルタ処理の周波数特性（ａ）と、スピーカから再生される出力音声信号の出力音圧特性（ｂ）との関係を示す図である。また、図１０（ａ）および（ｂ）は、再生特性パラメータに基づいて補正されたフィルタ係数による、前処理フィルタ処理の周波数特性（ａ）と、スピーカから再生される出力音声信号の出力音圧特性（ｂ）との関係を示す図である。

図９（ａ）に示す補正前の前処理フィルタの周波数特性を用いて処理を行うと、図９（ｂ）に示すように、前処理フィルタ処理による減衰とスピーカの再生周波数特性の相乗効果により、１ｋＨｚ程度以下の音声信号はほとんど出力されない。これに対し、図１０（ａ）に示す補正後の前処理フィルタの周波数特性では、前処理フィルタ処理による減衰が抑えられ、図１０（ｂ）に示すように、出力音声信号の５００〜８００Ｈｚ付近の減衰量が小さくなる。これにより、音声信号の第１フォルマントの含まれる帯域が大きく減衰することなく再生され、音声の明瞭性の低下を防ぐことができる。

なお、本発明の実施の形態３の構成は、聴覚特性パラメータ、残響特性パラメータおよび再生特性パラメータをあらかじめ最適な一つもしくは複数の値に固定しておき、固定された聴覚特性パラメータ、残響特性パラメータおよび再生特性パラメータに基づいて第３のフィルタ特性設定部７０２によって設定されるフィルタ係数をあらかじめ算出し、算出されたフィルタ係数を第３のフィルタ特性設定部７０２のＲＯＭ（読み出し専用メモリ）等に記憶させておくことによっても実現することができる。このように第３のフィルタ係数設定部７００をＲＯＭで構成することにより、フィルタ係数を音声信号処理装置７０の起動の都度算出すること無く、ＲＯＭから読み出したフィルタ係数を用いて、前処理フィルタ部１０３において入力音声信号に対して前処理を行うことができるため、第３のフィルタ特性設定部７０２の処理を省くことができ、処理量を削減することができる。

図１１は、実施の形態３の音声信号処理装置７０の動作を示すフローチャートである。実施の形態３で第３のフィルタ係数設定部７００をＲＯＭで構成するとした場合には、図１１において破線で囲んだステップＳ１１０１〜ステップＳ１１０５の処理は、音声信号処理装置７０を起動する前にユーザ又は計算機があらかじめ行う処理である。ＩＰＤが音の到来方向の認識に大きな影響を与える聴覚特性パラメータを１種類または複数種類算出し、算出した聴覚特性パラメータを聴覚特性設定部１０１に格納する（Ｓ１１０１）。次いで、音声信号処理装置を設置する可能性の高い空間の残響特性を表す残響特性パラメータを１又は複数種類算出し、算出した残響特性パラメータを残響特性設定部５０１に格納する（Ｓ１１０２）。さらに、再生特性設定部７０１は、スピーカ１０４の再生特性を調べ、再生特性を表す再生特性パラメータを再生特性設定部７０１に格納する（Ｓ１１０３）。第３のフィルタ特性設定部７０２は、聴覚特性パラメータ、残響特性パラメータ及び再生特性パラメータを用いて、入力音声信号に含まれる第１フォルマントが減衰されすぎないフィルタ係数を決定する（Ｓ１１０４）。第３のフィルタ特性設定部７０２は、決定したフィルタ係数を内部のＲＯＭに格納する（Ｓ１１０５）。

音声信号処理装置７０が起動され、入力音声信号が入力されると、前処理フィルタ部１０３は、第３のフィルタ係数設定部７００又は第３のフィルタ特性設定部７０２内のＲＯＭからフィルタ係数を読み出して、入力音声信号をフィルタリングする（Ｓ１１０６）。スピーカ１０４は、前処理フィルタ部１０３によってフィルタリングされた音声信号を出力音声信号として再生出力する（Ｓ１１０７）。

以上のように、本実施の形態３の音声信号処理装置によれば、聴覚特性、残響特性及び再生特性に基づいて入力音声信号に前処理を施すので、（１）狭い空間内での反響音が音声の聴き取りに対して与える悪影響に敏感な周波数帯域の音声信号を減衰させるとともに、（２）狭い閉空間に共通の残響を抑制した上で、（３）音声を明瞭に聴き取るために重要な第１フォルマントが減衰されすぎないよう補正することができる。この結果、お風呂場などの狭い閉空間においても、明瞭に音声を聴き取ることができる出力音声信号を得ることができるという効果がある。

なお、実施の形態３において、残響特性設定部５０１の機能を無効化し、聴覚特性設定部１０１から出力される聴覚特性パラメータと、再生特性設定部７０１から出力される再生特性パラメータのみを用いて、第３のフィルタ特性設定部７０２においてフィルタ係数を設定する構成をとることができるのは自明である。

なお、本発明を上記実施の形態に基づいて説明してきたが、本発明は、上記の実施の形態に限定されないのはもちろんである。以下のような場合も本発明に含まれる。

（１）上記の各装置は、具体的には、マイクロプロセッサ、ＲＯＭ、ＲＡＭ、ハードディスクユニット、ディスプレイユニット、キーボード、マウスなどから構成されるコンピュータシステムである。前記ＲＡＭまたはハードディスクユニットには、コンピュータプログラムが記憶されている。前記マイクロプロセッサが、前記コンピュータプログラムにしたがって動作することにより、各装置は、その機能を達成する。ここでコンピュータプログラムは、所定の機能を達成するために、コンピュータに対する指令を示す命令コードが複数個組み合わされて構成されたものである。

（２）上記の各装置を構成する構成要素の一部または全部は、１個のシステムＬＳＩ（ＬａｒｇｅＳｃａｌｅＩｎｔｅｇｒａｔｉｏｎ：大規模集積回路）から構成されているとしてもよい。システムＬＳＩは、複数の構成部を１個のチップ上に集積して製造された超多機能ＬＳＩであり、具体的には、マイクロプロセッサ、ＲＯＭ、ＲＡＭなどを含んで構成されるコンピュータシステムである。前記ＲＡＭには、コンピュータプログラムが記憶されている。前記マイクロプロセッサが、前記コンピュータプログラムにしたがって動作することにより、システムＬＳＩは、その機能を達成する。

（３）上記の各装置を構成する構成要素の一部または全部は、各装置に脱着可能なＩＣカードまたは単体のモジュールから構成されているとしてもよい。前記ＩＣカードまたは前記モジュールは、マイクロプロセッサ、ＲＯＭ、ＲＡＭなどから構成されるコンピュータシステムである。前記ＩＣカードまたは前記モジュールは、上記の超多機能ＬＳＩを含むとしてもよい。マイクロプロセッサが、コンピュータプログラムにしたがって動作することにより、前記ＩＣカードまたは前記モジュールは、その機能を達成する。このＩＣカードまたはこのモジュールは、耐タンパ性を有するとしてもよい。

（４）本発明は、上記に示す方法であるとしてもよい。また、これらの方法をコンピュータにより実現するコンピュータプログラムであるとしてもよいし、前記コンピュータプログラムからなるディジタル信号であるとしてもよい。

また、本発明は、前記コンピュータプログラムまたは前記ディジタル信号をコンピュータ読み取り可能な記録媒体、例えば、フレキシブルディスク、ハードディスク、ＣＤ−ＲＯＭ、ＭＯ、ＤＶＤ、ＤＶＤ−ＲＯＭ、ＤＶＤ−ＲＡＭ、ＢＤ（Ｂｌｕ−ｒａｙＤｉｓｃ）、半導体メモリなどに記録したものとしてもよい。また、これらの記録媒体に記録されている前記ディジタル信号であるとしてもよい。

また、本発明は、前記コンピュータプログラムまたは前記ディジタル信号を、電気通信回線、無線または有線通信回線、インターネットを代表とするネットワーク、データ放送等を経由して伝送するものとしてもよい。

また、本発明は、マイクロプロセッサとメモリを備えたコンピュータシステムであって、前記メモリは、上記コンピュータプログラムを記憶しており、前記マイクロプロセッサは、前記コンピュータプログラムにしたがって動作するとしてもよい。

また、前記プログラムまたは前記ディジタル信号を前記記録媒体に記録して移送することにより、または前記プログラムまたは前記ディジタル信号を前記ネットワーク等を経由して移送することにより、独立した他のコンピュータシステムにより実施するとしてもよい。

また、本発明の音声信号処理装置は、人間の聴覚特性、空間の残響特性、およびスピーカの再生特性に基づく信号処理によって出力音声信号の明瞭性を確保するとしたが、信号処理や電気的処理に限らず、筐体の構造及びスピーカの再生特性などを調整することによっても実現することができる。

（５）上記実施の形態及び上記変形例をそれぞれ組み合わせるとしてもよい。

本発明の構成による音声信号処理装置は、スピーカから音声信号を再生する機能を持つテレビ・ラジオ受信機や、ＣＤ・半導体プレーヤ等のオーディオ再生装置などに適用可能であり、これらの機器を残響の多い環境、例えば浴室等で使用する場合に効果を発揮する。

１０、５０、７０音声信号処理装置
１００第１のフィルタ係数設定部
１０１聴覚特性設定部
１０２第１のフィルタ特性設定部
１０３前処理フィルタ部
１０４、２０１スピーカ
２０２聴取者
２０３壁面
４０１聴覚特性
４０２閾値
４０３フィルタ特性
５００第２のフィルタ係数設定部
５０１残響特性設定部
５０２第２のフィルタ特性設定部
６０１〜６０４周波数対残響強度特性
６０５時間対残響強度特性
７００第３のフィルタ係数設定部
７０１再生特性設定部
７０２第３のフィルタ特性設定部

Claims

再生された音声信号を聴取者が聴取する際、前記聴取者における両耳間位相差が、音の到来方向の認識に与える影響の大きさが大きくなる周波数ほど、前記音声信号の信号強度を小さくするゲイン定数を周波数毎に設定したフィルタ係数を決定するフィルタ係数設定部と、
前記フィルタ係数を用いて、前記音声信号にフィルタリング処理を行うフィルタ部とを備える
音声信号処理装置。
前記フィルタ係数設定部は、（１）前記音の到来方向が前記聴取者の両耳を結ぶ直線方向に対して成す角度である偏角と、（２）前記偏角に基づいて算出される両耳間時間差と、（３）前記両耳間時間差および前記音声信号の周波数の関係から求められる両耳間位相差と、を用いた関係式により算出される周波数を、フィルタ係数により処理する周波数領域の下限周波数として設定する
請求項１に記載の音声信号処理装置。
前記フィルタ係数設定部は、前記両耳間位相差が音の到来方向の認識に与える影響の大きさの値があらかじめ定められた閾値よりも大きくなる周波数範囲の最適値を５００Ｈｚ〜１２００Ｈｚと定め、前記周波数範囲で、入力音声信号を減衰するようなフィルタ特性を与えるフィルタ係数を決定する
請求項２記載の音声信号処理装置。
前記フィルタ係数設定部は、声の第１フォルマントの周波数範囲の前記減衰量を小さくするように調整したフィルタ特性を与えるフィルタ係数を決定する
請求項２記載の音声信号処理装置。
再生された音声信号を聴取者が聴取する際、前記聴取者における両耳間位相差が、音の到来方向の認識に与える影響の大きさが大きくなる周波数ほど、前記音声信号の信号強度を小さくするゲイン定数を周波数毎に設定したフィルタ特性を与えるフィルタ係数を決定するフィルタ係数設定ステップと、
前記フィルタ係数設定ステップによって決定された前記フィルタ係数を用いて、前記音声信号にフィルタリング処理を行うフィルタステップとを含む
音声信号処理方法。