JP4854533B2

JP4854533B2 - 音響判定方法、音響判定装置及びコンピュータプログラム

Info

Publication number: JP4854533B2
Application number: JP2007019917A
Authority: JP
Inventors: 昭二早川
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2007-01-30
Filing date: 2007-01-30
Publication date: 2012-01-18
Anticipated expiration: 2027-01-30
Also published as: JP2008185834A; US20080181058A1; US9082415B2; CN101236250A; CN101236250B; EP1953734B1; KR100952894B1; EP1953734A3; EP1953734A2; KR20080071479A

Description

本発明は、複数の音響受付手段にて受け付けた複数の音源からの音響信号に基づいて、特定の音響信号の有無を判定する音響判定方法、該音響判定方法を適用した音響判定装置、及び該音響判定装置を実現するためのコンピュータプログラムに関し、特に音響受付手段から最近傍の音源からの音響信号を特定するための音響判定方法、音響判定装置及びコンピュータプログラムに関する。

昨今のコンピュータ技術の進展により、大量の演算処理を必要とする音響信号処理であっても実用的な処理速度で実行できるようになってきた。このような事情から、複数のマイクロホンを用いたマルチチャンネルの音響処理機能の実用化が期待されている。その一例として、雑音抑制技術がある。雑音抑制技術では、目的とする音源、例えば近傍音源からの音を特定し、入射角又は入射角から決定される夫々のマイクロホンへの音の到達時間差を変数とした同期加算、同期減算等の演算により、特定の音源からの音を強調し、また特定の音源以外からの音を抑圧することにより目的とする音を強調し、他の音を抑制する。そして目的とする近傍音源が移動している場合、同期加算による入射角を変数としたパワー分布を求め、その分布の中でパワーの強い角度に音源があると推定し、その角度からの音を強調し、またその角度以外の音を抑圧するのが一般的である。

また目的の近傍音源からの音が連続して発せられていない場合、予め決定した背景雑音のパワーと現在のパワーとの比又は差を用いて、目的とする近傍音源からの音が発せられている時間区間を検出するのが一般的である。

さらに特許文献１では、同期加算により求まる入射角を変数とするパワー分布のピーク値と、それ以外の角度の値との比率で、入射した音が目的とする近傍音原からの音か遠方音源からの音かを判定する方法が開示されている。
米国特許第６，２４３，３２２号明細書

しかしながら同期加算による入射角を変数としたパワー分布は、背景雑音、非定常雑音等の雑音が発生している環境において、複数のピークが出現したり、ピークがブロード化したりするため、目的とする近傍音源を特定することが難しいという問題がある。

また目的とする近傍音原からの音が連続的に一定の強さで発せられていない場合、背景雑音によりピークが鈍ったパワー分布となるため、目的の音源からの音が発せられている時間区間の検出が更に難しくなるという問題がある。

さらに特許文献１に開示された方法では、Ｓ／Ｎ比の悪い帯域を含む全帯域を使用するため、雑音環境下において、近傍音源からの音が到来する角度におけるピークが鈍り正確に近傍音源から到来する音を判定することが難しいという問題がある。

本発明は斯かる事情に鑑みてなされたものであり、複数のマイクロホンが受け付けた夫々の音響信号の位相差を算出し、算出した位相差が所定の閾値以下である場合に、特定対象となる最近傍の音響信号を含むと判定することにより、雑音環境下でも目的とする音源からの音の発生区間を容易に特定することが可能な音響判定方法、該音響判定方法を適用した音響判定装置、及び該音響判定装置を実現するためのコンピュータプログラムの提供を主たる目的とする。

さらに本発明では、Ｓ／Ｎ比が所定の閾値以下である場合、目的とする音源からの音響信号を含まないと判断することにより、目的とする音源からの音の発生区間を特定する精度を向上させる音響判定装置等の提供を他の目的とする。

また本発明では、Ｓ／Ｎ比、背景雑音、フィルタ特性、音声特性等の要因に応じて判定に用いる周波数を取捨選択することにより、目的とする音源からの音の発生区間を特定する精度を向上させる音響判定装置等の提供を更に他の目的とする。

本願は、複数の音響受付手段にて受け付けた複数の音源からのアナログの音響信号に基づいて、特定の音響信号の有無を判定する音響判定装置を用いた音響判定方法において、前記音響判定装置は、各音響受付手段が受け付けた夫々の音響信号をデジタル信号に変換し、デジタル信号に変換した夫々の音響信号から所定時間長のフレームを夫々生成し、生成したフレーム単位の各音響信号を周波数軸上の信号に夫々変換し、周波数軸上の信号に変換した各音響信号間の周波数毎の位相成分の差を位相差として算出し、算出した位相差が第１閾値以上となる周波数の割合又は数が、第２閾値以下である場合、生成したフレームに音響受付手段から最近傍の音源からの音響信号を含むと判定し、判定した結果に基づく出力を行うことを特徴とする音響判定方法を開示する。

本願は、複数の音響受付手段にて受け付けた複数の音源からのアナログの音響信号に基づいて、前記音響受付手段から最近傍の音源からの音響信号の有無を判定する音響判定装置において、各音響受付手段が受け付けた夫々の音響信号をデジタル信号に変換する手段と、デジタル信号に変換した夫々の音響信号から所定時間長のフレームを夫々生成する手段と、生成したフレーム単位の各音響信号を周波数軸上の信号に夫々変換する手段と、周波数軸上の信号に変換した各音響信号間の周波数毎の位相成分の差を位相差として算出する手段と、算出した位相差が第１閾値以上となる周波数の割合又は数が、第２閾値以下である場合、生成したフレームに最近傍の音源からの音響信号を含むと判定する判定手段とを備えることを特徴とする音響判定装置を開示する。

本願は、周波数軸上の信号に変換した音響信号の振幅成分に基づいて信号対雑音比を算出する手段を更に備え、前記判定手段は、算出した信号対雑音比が所定の閾値以下である場合、位相差に関わらず、特定対象となる音響信号を含まないと判定する様に構成してあることを特徴とする音響判定装置を開示する。

本願は、前記複数の音響受付手段は、夫々の相対位置を変更可能に構成してあり、前記複数の音響受付手段間の距離に基づいて、前記判定手段の判定に用いる閾値を算出する手段を更に備えることを特徴とする音響判定装置を開示する。

本願は、周波数軸上の信号に変換した音響信号の振幅成分に基づく周波数毎の信号対雑音比に基づいて、前記判定手段の判定に用いる周波数を選択する選択手段を更に備えることを特徴とする音響判定装置を開示する。

本願は、折り返し誤差を防止すべくデジタル信号に変換する前の音響信号を濾波するアンチエイリアジングフィルタを更に備え、前記判定手段は、前記アンチエイリアジングフィルタの特性に基づく所定の周波数より高い周波数を判定に用いる周波数から除外する様に構成してあることを特徴とする音響判定装置を開示する。

本願は、音声である音響信号を特定する場合に、周波数軸上の信号に変換した音響信号の振幅成分が極小値をとる周波数、又は振幅成分に基づく信号対雑音比が極小値をとる周波数を検出する手段を更に備え、前記判定手段は、検出した周波数を判定に用いる周波数から除外する様に構成してあることを特徴とする音響判定装置を開示する。

本願は、音声である音響信号を特定する場合に、前記判定手段は、音声に係る基本周波数が存在しない周波数を判定に用いる周波数から除外する様に構成してあることを特徴とする音響判定装置を開示する。

本願は、コンピュータに、複数の音響受付手段にて受け付けた複数の音源からのアナログの音響信号に基づいて、特定の音響信号の有無を判定させるコンピュータプログラムにおいて、コンピュータに、各音響受付手段が受け付け、デジタル信号に変換した夫々の音響信号から所定時間長のフレームを夫々生成させる手順と、コンピュータに、生成したフレーム単位の各音響信号を周波数軸上の信号に夫々変換させる手順と、コンピュータに、周波数軸上の信号に変換した各音響信号間の周波数毎の位相成分の差を位相差として算出させる手順と、コンピュータに、算出した位相差が第１閾値以上となる周波数の割合又は数が、第２閾値以下である場合、生成したフレームに音響受付手段から最近傍の音源からの音響信号を含むと判定させる手順とを実行させることを特徴とするコンピュータプログラムを開示する。

本願に記載の音響判定方法、音響判定装置及びコンピュータプログラムでは、目的とする最近傍の音源からの音響信号は、反射波及び回折波として混入し難く位相差が小さくなることから、位相差が所定の閾値以下である場合に、目的とする音源からの音響信号を含むと判断することが可能である。しかも背景雑音等の遠方からの雑音は位相差が大きいため、雑音環境下でも目的とする音源からの音響信号が発生している区間を容易に特定することが可能である。

本願に記載の音響判定装置等では、信号対雑音比（Ｓ／Ｎ比）が所定の閾値以下である場合、目的とする音源からの音響信号を含まないと判断することにより、例えば背景雑音の位相差が偶然揃った場合での誤判定を回避することができるので、特定精度を向上させることが可能である。

本願に記載の音響判定装置等では、音響受付手段の相対位置が変更可能な構成であっても、閾値を動的に変更することにより、最適な閾値を設定し、目的とする音源からの音響信号の特定精度を向上させることが可能である。

本願に記載の音響判定装置等では、信号対雑音比が低い周波数帯を除外することにより、目的とする音源からの音響信号の特定精度を向上させることが可能である。

本願に記載の音響判定装置等では、アンチエイリアジングフィルタの影響が位相差の乱れとして発現する例えば標本化周波数８０００Ｈｚでサンプリングした場合の３３００Ｈｚ以上の周波数帯を除外することにより、目的とする音源からの音響信号の特定精度を向上させることが可能である。

本願に記載の音響判定装置等では、振幅成分が極小値をとる周波数での位相差が乱れ易いという音声の特性を考慮し、当該周波数を判定から除外することにより、目的とする音源からの音響信号の特定精度を向上させることが可能である。

本願に記載の音響判定装置等では、音声の周波数特性に応じて、音声スペクトルが存在しない周波数以下を位相差の判定から除外することにより、目的とする音源からの音響信号の特定精度を向上させることが可能である。

本願に記載の音響判定方法、音響判定装置及びコンピュータプログラムは、マイクロホン等の複数の音響受付手段が受け付けた夫々の音響信号を周波数軸上の信号に変換し、夫々の音響信号の位相差を算出し、算出した位相差が所定の閾値以下である場合に、特定対象となる最近傍の音源からの音響信号を含むと判定する。

複数の音源からの音響信号を受け付ける場合、一般的に、音源と音響受付手段との距離が長い程、音源から音響受付手段まで直接到達する直接波に、壁等の物体に反射して音響受付手段に到達する反射波及び回折して受付手段に到達する回折波が混入し易くなる。直接波と比べて反射波及び回折波は到達までの経路長が長いため、反射波及び回折波が混入した音響信号を周波数軸上に変換した場合、経路に応じて様々な入射角で到来するため位相差スペクトルの値が安定せず、ばらつきが大きくなる。また目的とする音源が最近傍の音源である場合、最近傍の音源からの音響信号は反射波及び回折波が混入し難く位相差スペクトルが直線上に並ぶ様になり、ばらつきが小さくなる。従って本発明では上述した構成により、位相差が所定の閾値以下である場合に、目的とする音源からの音響信号を含むと判断することが可能であり、しかも背景雑音等の遠方からの雑音は位相差が大きいため、雑音環境下でも目的とする音源からの音響信号を容易に特定し、雑音を抑圧することが可能である等、優れた効果を奏する。

本願に記載の音響判定装置等は、信号対雑音比が所定の閾値以下である場合、位相差に関わらず、特定対象となる音響信号を含まないと判定することにより、例えば背景雑音の位相差が偶然揃った状況での誤判定を回避することができるので、特定精度を向上させることが可能である等、優れた効果を奏する。

本願に記載の音響判定装置等は、音響受付手段の相対位置が変更可能な場合に、音響受付手段間の距離に基づいて、閾値を算出し、算出した閾値に設定を動的に変更することにより、閾値を常に最適化し、目的とする音源からの音響信号の特定精度を向上させることが可能である等、優れた効果を奏する。

本願に記載の音響判定装置等は、信号対雑音比が低い周波数帯を除外して判定を行うことにより、目的とする音源からの音響信号の特定精度を向上させることが可能である等、優れた効果を奏する。

本願に記載の音響判定装置等は、デジタル信号に変換した音響信号の折り返し（エイリアジング）誤差を除去するアンチエイリアジングフィルタ等のフィルタの特性に基づき、フィルタの影響が顕著になる例えば標本化周波数８０００Ｈｚでサンプリングした場合、３３００Ｈｚ以上の周波数帯を除外して判定を行うことにより、目的とする音源からの音響信号の特定精度を向上させることが可能である等、優れた効果を奏する。

本願に記載の音響判定装置等は、音声である音響信号を特定する場合に、振幅成分が極小値をとる周波数での位相差が乱れ易いという音声の特性を考慮し、当該周波数を除外して判定することにより、目的とする音源からの音響信号の特定精度を向上させることが可能である等、優れた効果を奏する。

本願に記載の音響判定装置等は、音声である音響信号を特定する場合に、音声の周波数特性に応じて、音声スペクトルが存在しない基本周波数以下の周波数帯を除外して位相差を判定することにより、目的とする音源からの音響信号の特定精度を向上させることが可能である等、優れた効果を奏する。

以下、本発明をその実施の形態を示す図面に基づいて詳述する。なお本実施の形態では、処理対象の音響信号が主として人間が発する音声である場合について説明する。

実施の形態１．
図１は、本発明の実施の形態１に係る音響判定方法の概要の一例を示す説明図である。図１中１は、携帯電話に適用した本発明の音響判定装置であり、音響判定装置１は、使用者により所持され、使用者から発せられる音声を音響信号として受け付ける。さらに音響判定装置１は、使用者が発する音声以外にも他の人物が発する音声、機械音、音楽等の様々な背景雑音を受け付ける。そこで本発明の音響判定装置１は、複数の音源から受け付ける様々な音響信号の中から特定対象となる音響信号を特定し、特定した音響信号を強調し、またそれ以外の音響信号を抑圧することにより雑音の抑圧等の処理を行う。なお本発明の音響判定装置１が目的とする音響信号とは、音響判定装置１の最近傍の音源からの音響信号、即ち使用者から発せられる音声である。

図２は、本発明の実施の形態１に係る音響判定装置１のハードウェアの構成例を示すブロック図である。音響判定装置１は、装置全体を制御するＣＰＵ等の制御部１０と、本発明のコンピュータプログラム１００等のプログラム及び各種設定値等のデータを記録するＲＯＭ、ＲＡＭ等の記録部１１と、通信インタフェースとなるアンテナ及びその付属機器等の通信部１２とを備えている。また音響判定装置１は、音響信号を受け付けるマイクロホン等の複数の音響受付部１３，１３，…と、スピーカ等の音響出力部１４と、音響受付部１３，１３，…及び音響出力部１４に係る音響信号の変換処理を行う音響変換部１５とを備えている。音響変換部１５による変換処理とは、音響出力部１４から出力すべくデジタル信号をアナログ信号に変換する処理及び音響受付部１３，１３，…から受け付けたアナログ信号である音響信号をデジタル信号に変換する処理である。さらに音響判定装置１は、英数字及び各種命令等のキー入力による操作を受け付ける操作部１６と、各種情報を表示する液晶ディスプレイ等の表示部１７とを備えている。そして携帯電話は、本発明のコンピュータプログラム１００に含まれる各種手順を制御部１０により実行することで、本発明の音響判定装置１として動作する。

図３は、本発明の実施の形態１に係る音響判定装置１の機能の一例を示す機能ブロック図である。本発明の音響判定装置１は、複数の音響受付部１３，１３と、アナログ信号である音響信号をデジタル信号に変換した際の折り返し誤差（エイリアジング）を防止すべくＬＰＦ(Low Pass Filter )として機能するアンチエイリアジングフィルタ１５０と、アナログ信号である音響信号をデジタル信号にＡ／Ｄ変換するＡ／Ｄ変換手段１５１とを備えている。アンチエイリアジングフィルタ１５０及びＡ／Ｄ変換手段１５１は、音響変換部１５にて実現される機能である。なおアンチエイリアジングフィルタ１５０及びＡ／Ｄ変換手段１５１は、音響変換部１５として音響判定装置１に内蔵するのではなく、外部の音響取り込みデバイスに実装することも可能である。

さらに本発明の音響判定装置１は、音響信号から処理の単位となる所定時間長のフレームを生成するフレーム生成手段１１０と、音響信号をＦＦＴ（高速フーリエ変換:Fast Fourier Transformation）処理にて周波数軸上の信号に変換するＦＦＴ変換手段１１１と、複数の音響受付部１３，１３が夫々受け付けた音響信号間の位相差を算出する位相差算出手段１１２と、音響信号のＳ／Ｎ比を算出するＳ／Ｎ比算出手段１１３と、処理の対象とする周波数を選択する選択手段１１４と、位相差が大きい周波数を計数する計数手段１１５と、目的とする最近傍の音源からの音響信号を特定する音響判定手段１１６と、特定した音響信号に基づき雑音抑圧等の処理を行う音響処理手段１１７とを備えている。フレーム生成手段１１０、ＦＦＴ変換手段１１１、位相差算出手段１１２、選択手段１１４、計数手段１１５、音響判定手段１１６及び音響処理手段１１７は、記録部１１内の各種コンピュータプログラムを実行することにより実現されるソフトウェアとしての機能を示しているが、各種処理チップ等の専用ハードウェアを用いて実現する様にしても良い。

次に本発明の実施の形態１に係る音響判定装置１の処理について説明する。なお以降の説明において、音響判定装置１は、二つの音響受付部１３，１３を備えるものとして説明する。但し、音響受付部１３は二つに限定されるものではなく、三つ以上の音響受付部１３，１３，…として実装することも可能である。図４は、本発明の実施の形態１に係る音響判定装置１の音響判定処理の一例を示すフローチャートである。音響判定装置１は、コンピュータプログラム１００を実行する制御部１０の制御により、複数の音響受付部１３，１３にて、夫々音響信号を受け付け（Ｓ１０１）、ＬＰＦであるアンチエイリアジングフィルタ１５０にて濾波し、Ａ／Ｄ変換手段１５１にて、アナログ信号として受け付けた音響信号を８０００Ｈｚ等の周期で標本化してデジタル信号に変換する（Ｓ１０２）。

そして音響判定装置１は、制御部１０の制御に基づくフレーム生成手段１１０の処理により、デジタル信号に変換した音響信号から所定時間長のフレームを生成する（Ｓ１０３）。ステップＳ１０３では、音響信号を、例えば２０ｍｓ〜４０ｍｓ程度の所定時間長の単位でフレーム化する。なお各フレームは、１０ｍｓ〜２０ｍｓ程度ずつオーバーラップしている。そして各フレームに対しては、ハミング窓、ハニング窓等の窓関数、高域強調フィルタによるフィルタリング等の音声認識の分野で一般的なフレーム処理が施される。この様にして生成された各フレームに対し、以降の処理が行われる。

音響判定装置１は、制御部１０の制御に基づいて、ＦＦＴ変換手段１１１の処理により、フレーム単位の音響信号をＦＦＴ処理して周波数軸上の信号である位相スペクトル及び振幅スペクトルに変換し（Ｓ１０４）、周波数軸上の信号に変換したフレーム単位の音響信号の振幅成分に基づいてＳ／Ｎ比（信号対雑音比）を算出するＳ／Ｎ比算出処理を開始し（Ｓ１０５）、位相差算出手段１１２の処理により、各音響信号間の周波数毎の位相スペクトルの差を位相差として算出する（Ｓ１０６）。ステップＳ１０４では、例えば２５６点の音響信号サンプルに対してＦＦＴを行い、１２８点の周波数の夫々について位相スペクトルの値の差を位相差として算出する。ステップＳ１０５にて開始されるＳ／Ｎ比算出処理は、ステップＳ１０６以降の処理と並行して実行される。なおＳ／Ｎ比算出処理の詳細は後述する。

そして音響判定装置１は、制御部１０の制御に基づく選択手段１１４の処理により、各周波数の中から処理の対象とする周波数を選択する（Ｓ１０７）。ステップＳ１０７では、目的とする最近傍の音源からの音響信号が検出し易く、背景雑音等の外乱の影響を受け難い周波数が選択される。具体的にはアンチエイリアジングフィルタ１５０の影響により、位相差が乱れやすい周波数帯を除外する。除外すべき周波数帯は、Ａ／Ｄ変換手段１５１の特性によって異なるが、一般的に３３００〜３５００ｋＨｚ以上の高域で位相差が乱れ易くなるため例えば３３００Ｈｚ以上の周波数を処理の対象から除外する。またＳ／Ｎ比算出処理により算出された周波数毎のＳ／Ｎ比を取得し、取得したＳ／Ｎ比が低い順に所定個数の周波数又は予め設定されている閾値以下の周波数を、処理の対象とする周波数から除外する。なおフレーム毎に算出したＳ／Ｎ比を取得して、除外する周波数を決定するのではなく、予めＳ／Ｎ比が低くなり易い周波数を除外する周波数として設定しておく様にしても良い。ステップＳ１０７の処理により、処理の対象となる周波数が例えば１００点に絞り込まれる。

音響判定装置１は、制御部１０の制御に基づく音響判定手段１１６の処理により、Ｓ／Ｎ比算出処理により算出されたＳ／Ｎ比を取得し（Ｓ１０８）、取得したＳ／Ｎ比が予め設定されている第０閾値以上であるか否かを判定する（Ｓ１０９）。第０閾値としては、例えば５ｄＢ等の値が用いられる。ステップＳ１０９にてＳ／Ｎ比が第０閾値以上である場合、目的とする最近傍の音源からの音響信号が含まれている可能性があると判定し、第０閾値未満である場合、目的とする音響信号が含まれていないと判定する。

ステップＳ１０９において、Ｓ／Ｎ比が第０閾値以上であると判定した場合（Ｓ１０９：ＹＥＳ）、音響判定装置１は、制御部１０の制御に基づく音響判定手段１１６の処理により、ステップＳ１０７にて選択した周波数の位相差の絶対値が、予め設定されている第１閾値以上である周波数を計数し（Ｓ１１０）、計数結果に基づいて、選択した周波数に対する第１閾値以上となる周波数の割合を算出し（Ｓ１１１）、算出した割合が予め設定されている第２閾値以下であるか否かを判定する（Ｓ１１２）。第１閾値としては、例えばπ／２ｒａｄｉａｎ等の値が用いられる。第２閾値としては、例えば３％等の値が用いられる。例えば選択された周波数が１００点である場合、位相差がπ／２ｒａｄｉａｎ以上の周波数が３点以下であるか否かを判定する。

ステップＳ１１２において、算出した割合が予め設定されている第２閾値以下である場合（Ｓ１１２：ＹＥＳ）、音響判定装置１は、制御部１０の制御に基づく音響判定手段１１６の処理により、当該フレームに位相差が小さい直接音による最近傍の音源からの音響信号を含むと判定する（Ｓ１１３）。そして音響処理手段１１７では、ステップＳ１１３の判定結果に基づいて各種音響処理及び音響出力処理を実行する。

ステップＳ１０９において、Ｓ／Ｎ比が第０閾値未満であると判定した場合（Ｓ１０９：ＮＯ）、又はステップＳ１１２において、算出した割合が予め設定されている第２閾値より大きいと判定した場合（Ｓ１１２：ＮＯ）、音響判定装置１は、制御部１０の制御に基づく音響判定手段１１６の処理により、当該フレームに最近傍の音源からの音響信号は含まないと判定する（Ｓ１１４）。そして音響処理手段１１７では、ステップＳ１１３の判定結果に基づいて各種音響処理及び音響出力処理を実行する。音響判定装置１は、上述した一連の処理を、音響受付部１３，１３による音響信号の受け付けが終了するまで繰り返し実行する。

上述した音響判定処理の例では、音響判定装置１は、ステップＳ１１１において、計数結果に基づいて、選択した周波数に対する第１閾値以上となる周波数の割合を算出し、ステップＳ１１２において、算出した割合を予め設定されている割合を示す第２閾値と比較する形態を示したが、ステップＳ１１０において算出した第１閾値以上となる周波数の個数を、ステップＳ１１２において、第２閾値である個数と比較する様にしても良い。周波数の個数を第２閾値とする場合、第２閾値は、固定された定数ではなく、ステップＳ１０７にて選択された周波数に基づいて変化する変数となる。

例えば基準値として、ステップＳ１０７にて選択される周波数が１２８点の場合、第２閾値は５個になるように設定されているものとする。この様な条件下において、ステップＳ１０７にて１２８点中２８点が除外され、１００点の周波数に絞り込まれたとすると、第２閾値は、下記の式１に示す様に４個となる。

５×１００／１２８＝３．９０６≒４ …式１

また同様の条件下において、ステップＳ１０７にて１２８点中５６点が除外され、７２点の周波数に絞り込まれたとすると、第２閾値は、下記の式２に示す様に３個となる。

５×７２／１２８＝２．８１３≒３ …式２

この様に第２閾値として個数を用いる場合、ステップＳ１０７において、周波数を選択した後、選択された周波数の数に基づいて第２閾値を算出する処理が行われる。

図５は、本発明の実施の形態１に係る音響判定装置１のＳ／Ｎ比算出処理の一例を示すフローチャートである。Ｓ／Ｎ比算出処理は、図４を用いて説明した音響判定処理のステップＳ１０５にて開始される処理である。音響判定装置１は、制御部１０の制御に基づくＳ／Ｎ比算出手段１１３の処理により、Ｓ／Ｎ比算出の対象となるフレームのサンプルの振幅値の二乗和をフレームパワーとして算出し（Ｓ２０１）、予め設定されている背景雑音レベルを読み取り（Ｓ２０２）、算出したフレームパワー及び読み取った背景雑音レベルの比である当該フレームのＳ／Ｎ比（信号対雑音比）を算出する（Ｓ２０３）。なお選択手段１１４の処理により、周波数毎のＳ／Ｎ比に基づいて除去すべき周波数を決定する必要がある場合、フレーム全体としてのＳ／Ｎ比だけでなく周波数毎のＳ／Ｎ比も算出する。周波数毎のＳ／Ｎ比は、背景雑音の周波数毎のレベルを表す背景雑音スペクトルを用いて、当該フレームの振幅スペクトルと、背景雑音スペクトルとの比として算出する。

そして音響判定装置１は、制御部１０の制御に基づくＳ／Ｎ比算出手段１１３の処理により、フレームパワーと背景雑音レベルとを比較して、フレームパワー及び背景雑音レベルの差が所定の第３閾値以下であるか否かを判定し（Ｓ２０４）、第３閾値以下であると判定した場合（Ｓ２０４：ＹＥＳ）、背景雑音レベルの値を、フレームパワーの値を用いて更新する（Ｓ２０５）。ステップＳ２０４では、フレームパワーと背景雑音レベルとの差が所定の第３閾値以下である場合、フレームパワーと背景雑音レベルとの差は、背景雑音レベルが変化したことによるものであると判断し、ステップＳ２０５にて背景雑音レベルを最新の値に更新する。ステップＳ２０５では、一定の比率で背景雑音レベルとフレームパワーとを組み合わせて算出した値に背景雑音レベルの値を更新する。例えば元の背景雑音レベルを０．９倍した値と、今回のフレームパワーを０．１倍した値との和を更新後の値とする。

ステップＳ２０４において、フレームパワー及び背景雑音レベルの差が第３閾値より大きいと判定した場合（Ｓ２０４：ＮＯ）、ステップＳ２０５の更新処理は行わない。即ちフレームパワーと背景雑音レベルとの差が所定の第３閾値より大きい場合、フレームパワーと背景雑音レベルとの差は、背景雑音とは異なる音響信号を受け付けたことによるものであると判断する。なお背景雑音レベルについては、音声認識、ＶＡＤ(Voice Activity Detection)、マイクアレイ処理等の分野で用いられている様々な方法を適用して推定することも可能である。音響判定装置１は、上述した一連の処理を、音響受付部１３，１３による音響信号の受け付けが終了するまで繰り返し実行する。

図６は、本発明の実施の形態１に係る音響判定装置１の音響判定処理に係る周波数と位相差との関係の一例を示すグラフである。図６は音響判定処理にて算出した周波数毎の位相差を、横軸に周波数をとり、縦軸に位相差をとってその関係を示したグラフである。なおグラフに示した周波数の範囲は０〜４０００Ｈｚであり、位相差の範囲は−π〜＋πｒａｄｉａｎである。また図６中、＋θth及び−θthとして示した値は、音響判定処理にて説明した第１閾値を示している。なお音響判定処理の説明に際しては、位相差の絶対値を第１閾値以上であるか否かを判定するとして説明したが、位相差は負の値をとる場合もあるので、第１閾値も正負の二値が設定される。音響受付部１３，１３が近傍の音源から受け付ける音響信号は、殆ど直接音であるので位相差は小さく不連続となる位相乱れが少ないのに対し、非定常雑音を含む背景雑音は、遠方の多様な音源から反射波及び回折波を含む様々な経路で音響受付部１３，１３に到達するため、位相差が大きくまた不連続点となる位相乱れが多くなる。また図６の高周波数側に位相差が大きく、不連続となっている周波数帯が観測されるが、これはアンチエイリアジングフィルタ１５０の影響によるものである。図６に示す例では、音響判定処理において、３３００Ｈｚ以上の周波数帯を選択手段１１４の処理により除外した場合、位相差の絶対値が、第１閾値以上である周波数は１個だけなので、直接音による最近傍の音源からの音響信号を含むと判定される。

図７は、本発明の実施の形態１に係る音響判定装置１の音響判定処理に係る周波数とＳ／Ｎ比との関係の一例を示すグラフである。図７は、Ｓ／Ｎ比算出処理にて算出した周波数毎のＳ／Ｎ比を、横軸に周波数をとり、縦軸にＳ／Ｎ比をとってその関係を示したグラフである。なおグラフに示した周波数の範囲は、０〜４０００Ｈｚであり、Ｓ／Ｎ比の範囲は０〜１００ｄＢである。音響判定処理においては図７中、丸印で示したＳ／Ｎ比が低い周波数帯を選択手段１１４の処理により除外して音響信号の判定を行う。

図８は、本発明の実施の形態１に係る音響判定装置１の音響判定処理に係る周波数と位相差との関係の一例を示すグラフである。なお図８のグラフの表記方法は図６と同様である。図８では、音響判定処理において、選択された周波数の中で位相差の絶対値が第１閾値θth以上となる周波数を丸印にて示しており、丸印にて示した周波数の割合又は数が第２閾値以下であるか否かを判定する。例えば第２閾値として３点が設定されていた場合、図８に示す例では、最近傍の音源からの音響信号を含まないと判定される。

前記実施の形態１では、音響判定装置が携帯電話である形態を示したが、本発明はこれに限らず、音響受付部を備えた汎用コンピュータであっても良く、また音響受付部は、必ずしも音響判定装置内に固定して配設されている必要はなく、外部のマイクロホンを有線又は無線にて接続しても良い等、様々な形態に展開することが可能である。

また前記実施の形態１では、Ｓ／Ｎ比が小さい場合、以降の判定を行わない形態を示したが、本発明はこれに限らず、Ｓ／Ｎ比に限らず、全てのフレームに対して、位相差に基づき最近傍の音源からの音響信号を含むか否かを判定する様にする等、様々な形態に展開することが可能である。

実施の形態２．
実施の形態２は、実施の形態１において、目的とする音源からの音響信号を人物の音声に限定する形態である。なお実施の形態２に係る音響判定方法の概要、音響判定装置の構成及び音響判定装置の機能については、実施の形態１と同様であるので、実施の形態１を参照するものとし、その説明を省略する。なお以降の説明において、実施の形態１と同様の構成要件については、実施の形態１と同様の符号を付して説明する。

実施の形態２では、実施の形態１の音響判定処理において、選択手段１１４による選択を音声の特性に応じた更なる選択条件が追加される。図９は、本発明の実施の形態２に係る音響判定方法の音声の特性の一例を示すグラフである。図９は、女性が発する音声の特性を示しており、図９（ａ）が周波数と振幅スペクトルとの関係を示しており、図９（ｂ）が周波数と位相差との関係を示している。図９（ａ）は、周波数変換処理に基づく周波数毎の振幅スペクトルの値を、横軸に周波数をとり、縦軸に振幅スペクトルをとってその関係を示したグラフである。なおグラフに示した周波数の範囲は、０〜４０００Ｈｚである。図９（ｂ）は音響判定処理にて算出した周波数毎の位相差を、横軸に周波数をとり、縦軸に位相差をとってその関係を示したグラフである。なおグラフに示した周波数の範囲は０〜４０００Ｈｚであり、位相差の範囲は−π〜＋πｒａｄｉａｎである。図９（ａ）及び図９（ｂ）を比較すると明らかな様に、振幅スペクトルが極小値をとる周波数では、位相差が大きくなっている。なお振幅スペクトルに代替してＳ／Ｎ比の値を用いても同様の結果となる。そこで音響判定装置１は、選択手段１１４による周波数の選択を行う場合、Ｓ／Ｎ比又は振幅スペクトルが極小値をとる周波数を除外することにより、判定精度を向上させることが可能となる。

図１０は、本発明の実施の形態２に係る音響判定装置１の極小値検出処理の一例を示すフローチャートである。図９を用いて説明した極小値を検出する処理として、音響判定装置１は、コンピュータプログラム１００を実行する制御部１０の制御により、周波数軸上の信号に変換した音響信号のＳ／Ｎ比又は振幅スペクトルが極小値をとる周波数を検出し（Ｓ３０１）、検出した極小値に係る周波数及び該周波数の近傍の周波数帯を、除外すべき周波数として記録する（Ｓ３０２）。なお音響信号のＳ／Ｎ比及び振幅スペクトルの値は、Ｓ／Ｎ比算出処理により算出した値を用いることが可能である。ステップＳ３０１による検出は、判断の対象となる周波数に係るＳ／Ｎ比を、前後の周波数に係るＳ／Ｎ比と比較し、前後の周波数に係るＳ／Ｎ比より小さい場合に、対象とした周波数を極小値である周波数として検出する。なお周波数に係るＳ／Ｎ比としては、対象となる周波数を含む近傍数点の周波数の平均値を対象となる周波数に係るＳ／Ｎ比として扱うことにより、微小変化を除去して精度良く極小値を検出することができる。また前後のＳ／Ｎ比からの変化に基づいて極小値を検出する様にしても良い。

図１１は、本発明の実施の形態２に係る音響判定方法に係る音声の基本周波数の特性を示すグラフである。図１１は、女性及び男性が発する音声の基本周波数の分布を示したグラフであり（例えば古井貞煕著、「ディジタル音声処理」、東海大学出版会、１９８５年９月、ｐ．１８）、横軸が周波数を示し、縦軸が頻度を示している。基本周波数は音声スペクトルの下限を表すので、この周波数よりも低い周波数には音声スペクトルの成分は存在しないことになる。図１１に示した音声の周波数分布から明らかな様に、８０Ｈｚ以上の周波数帯に音声の殆どが含まれる。そこで音響判定装置１は、選択手段１１４による周波数の選択を行う場合、例えば８０Ｈｚ以下の周波数を除外することにより、判定精度を向上させることが可能となる。

図９〜図１１を用いて説明した様に、目的とする音源からの音響信号を人物の音声に限定する場合、音響判定処理において、音響判定装置１は、選択手段１１４の処理により、各周波数の中から処理の対象とする周波数の選択として、極小値検出処理により検出して記録した除外すべき周波数及び基本周波数が存在しない低周波数帯の周波数を除外する。これにより判定精度を向上させることが可能となる。

実施の形態３．
実施の形態３は、実施の形態１において、各音響受付部の相対位置が変更可能な形態に適用する場合の形態である。なお実施の形態３に係る音響判定方法の概要、音響判定装置の構成、音響判定装置の機能及び処理については、実施の形態１と同様であるので、実施の形態１を参照するものとし、その説明を省略する。但し、各音響受付部は、例えば音響判定装置に有線により接続された外部マイクロホンの様に相対位置が変更可能に構成される。なお以降の説明において、実施の形態１と同様の構成要件については、実施の形態１と同様の符号を付して説明する。

音速Ｖ（ｍ／ｓ）、音響受付部１３，１３間の幅（距離）Ｗ（ｍ）、及び標本化周波数Ｆ（Ｈｚ）の場合において、第１閾値θth（ｒａｄｉａｎ）と音響受付部１３，１３への入射角度φ（ｒａｄｉａｎ）との関係は、ナイキスト周波数において下記の式３となることが好ましい。

θth＝Ｗ・ｓｉｎφ・Ｆ・２π／２Ｖ …式３

例えばＶ＝３４０ｍ、Ｗ＝０．０２５ｍ、Ｆ＝８０００Ｈｚ、θth＝１／２πｒａｄｉａｎである状態から、Ｗ＝０．０３０ｍに変更した場合、下記の式４に示す様にして算出した値に第１閾値θthも変更することで第１閾値を最適化することが可能となる。

θth＝（０．０３×０．８５×８０００×２π）／（３４０×２）＝３／５π …式４

なお標本化周波数が８０００Ｈｚであり、音速が３４０ｍ／ｓである場合、音響受付部１３，１３間の幅の上限値は、３４０／８０００＝０．０４２５ｍ＝４．２５ｃｍとすることが望ましく、これ以上の幅となった場合、サイドローブによる悪影響がでる。また下限値は、経験上１．６ｃｍとすることが望ましく、これ以下の幅となった場合、位相差を検出し難くなるので、誤差の影響が大きくなる。

図１２は、本発明の実施の形態３に係る音響判定装置１の第１閾値算出処理の一例を示すフローチャートである。音響判定装置１は、コンピュータプログラム１００を実行する制御部１０の制御により、音響受付部１３，１３間の幅（距離）の値を受け付け（Ｓ４０１）、受け付けた幅に基づいて第１閾値を算出し（Ｓ４０２）、算出した第１閾値を設定値として記録する（Ｓ４０３）。ステップＳ４０１の受け付けは、人が入力しても良く、また自動的に検出する様にしても良い。この様にして設定された第１閾値に基づいて音響判定処理等の様々な処理が実行される。

以上の実施の形態に関し、更に以下の付記を開示する。

（付記１）
複数の音響受付手段にて受け付けた複数の音源からのアナログの音響信号に基づいて、特定の音響信号の有無を判定する音響判定装置を用いた音響判定方法において、
前記音響判定装置は、
各音響受付手段が受け付けた夫々の音響信号をデジタル信号に変換し、
デジタル信号に変換した夫々の音響信号を周波数軸上の信号に変換し、
周波数軸上の信号に変換した各音響信号間の周波数毎の位相差を算出し、
算出した位相差が所定の閾値以下である場合に、音響受付手段から最近傍の音源からの音響信号を含むと判定し、
判定した結果に基づく出力を行う
ことを特徴とする音響判定方法。

（付記２）
複数の音響受付手段にて受け付けた複数の音源からのアナログの音響信号に基づいて、特定の音響信号の有無を判定する音響判定装置において、
各音響受付手段が受け付けた夫々の音響信号をデジタル信号に変換する手段と、
デジタル信号に変換した夫々の音響信号を周波数軸上の信号に変換する手段と、
周波数軸上の信号に変換した各音響信号間の周波数毎の位相成分の差を位相差として算出する手段と、
算出した位相差が所定の閾値以下である場合に、特定対象となる音響信号を含むと判定する判定手段と、
判定した結果に基づく出力を行う手段と
を備えることを特徴とする音響判定装置。

（付記３）
複数の音響受付手段にて受け付けた複数の音源からのアナログの音響信号に基づいて、前記音響受付手段から最近傍の音源からの音響信号の有無を判定する音響判定装置において、
各音響受付手段が受け付けた夫々の音響信号をデジタル信号に変換する手段と、
デジタル信号に変換した夫々の音響信号から所定時間長のフレームを夫々生成する手段と、
生成したフレーム単位の各音響信号を周波数軸上の信号に夫々変換する手段と、
周波数軸上の信号に変換した各音響信号間の周波数毎の位相成分の差を位相差として算出する手段と、
算出した位相差が第１閾値以上となる周波数の割合又は数が、第２閾値以下である場合、生成したフレームに最近傍の音源からの音響信号を含むと判定する判定手段と
を備えることを特徴とする音響判定装置。

（付記４）
周波数軸上の信号に変換した音響信号の振幅成分に基づいて信号対雑音比を算出する手段を更に備え、
前記判定手段は、算出した信号対雑音比が所定の閾値以下である場合、位相差に関わらず、特定対象となる音響信号を含まないと判定する様に構成してある
ことを特徴とする付記２又は付記３に記載の音響判定装置。

（付記５）
前記複数の音響受付手段は、夫々の相対位置を変更可能に構成してあり、
前記複数の音響受付手段間の距離に基づいて、前記判定手段の判定に用いる閾値を算出する手段を更に備える
ことを特徴とする付記２乃至付記４のいずれかに記載の音響判定装置。

（付記６）
周波数軸上の信号に変換した音響信号の振幅成分に基づく周波数毎の信号対雑音比に基づいて、前記判定手段の判定に用いる周波数を選択する選択手段を更に備えることを特徴とする付記２乃至付記５のいずれかに記載の音響判定装置。

（付記７）
前記判定手段が、位相差が第１閾値以上となる周波数の数に基づいて判定する様に構成してある場合に、前記選択手段が選択した周波数の数に基づいて第２閾値を算出する手段を更に備えることを特徴とする付記６に記載の音響判定装置。

（付記８）
折り返し誤差を防止すべくデジタル信号に変換する前の音響信号を濾波するアンチエイリアジングフィルタを更に備え、
前記判定手段は、前記アンチエイリアジングフィルタの特性に基づく所定の周波数より高い周波数を判定に用いる周波数から除外する様に構成してある
ことを特徴とする付記２乃至付記７のいずれかに記載の音響判定装置。

（付記９）
音声である音響信号を特定する場合に、
周波数軸上の信号に変換した音響信号の振幅成分が極小値をとる周波数、又は振幅成分に基づく信号対雑音比が極小値をとる周波数を検出する手段を更に備え、
前記判定手段は、検出した周波数を判定に用いる周波数から除外する様に構成してある
ことを特徴とする付記２乃至付記８のいずれかに記載の音響判定装置。

（付記１０）
音声である音響信号を特定する場合に、
前記判定手段は、音声に係る基本周波数が存在しない周波数を判定に用いる周波数から除外する様に構成してあることを特徴とする付記２乃至付記９のいずれかに記載の音響判定装置。

（付記１１）
コンピュータに、複数の音響受付手段にて受け付けた複数の音源からのアナログの音響信号に基づいて、特定の音響信号の有無を判定させるコンピュータプログラムにおいて、
コンピュータに、各音響受付手段が受け付け、デジタル信号に変換した夫々の音響信号を周波数軸上の信号に変換させる手順と、
コンピュータに、周波数軸上の信号に変換した各音響信号間の周波数毎の位相差を算出させる手順と、
コンピュータに、算出した位相差が所定の閾値以下である場合に、音響受付手段から最近傍の音源からの音響信号を含むと判定させる手順と
を実行させることを特徴とするコンピュータプログラム。

本発明の実施の形態１に係る音響判定方法の概要の一例を示す説明図である。本発明の実施の形態１に係る音響判定装置のハードウェアの構成例を示すブロック図である。本発明の実施の形態１に係る音響判定装置の機能の一例を示す機能ブロック図である。本発明の実施の形態１に係る音響判定装置の音響判定処理の一例を示すフローチャートである。本発明の実施の形態１に係る音響判定装置のＳ／Ｎ比算出処理の一例を示すフローチャートである。本発明の実施の形態１に係る音響判定装置の音響判定処理に係る周波数と位相差との関係の一例を示すグラフである。本発明の実施の形態１に係る音響判定装置の音響判定処理に係る周波数とＳ／Ｎ比との関係の一例を示すグラフである。本発明の実施の形態１に係る音響判定装置の音響判定処理に係る周波数と位相差との関係の一例を示すグラフである。本発明の実施の形態２に係る音響判定方法の音声の特性の一例を示すグラフである。本発明の実施の形態２に係る音響判定装置の極小値検出処理の一例を示すフローチャートである。本発明の実施の形態２に係る音響判定方法に係る音声の基本周波数の特性を示すグラフである。本発明の実施の形態３に係る音響判定装置の第１閾値算出処理の一例を示すフローチャートである。

符号の説明

１音響判定装置
１０制御部
１３音響受付部
１１０フレーム生成手段
１１１ＦＦＴ変換手段
１１２位相差算出手段
１１３Ｓ／Ｎ比算出手段
１１４選択手段
１１５計数手段
１１６音響判定手段
１１７音響処理手段
１５０アンチエイリアジングフィルタ
１５１Ａ／Ｄ変換手段
１００コンピュータプログラム

Claims

複数の音響受付手段にて受け付けた複数の音源からのアナログの音響信号に基づいて、特定の音響信号の有無を判定する音響判定装置を用いた音響判定方法において、
前記音響判定装置は、
各音響受付手段が受け付けた夫々の音響信号をデジタル信号に変換し、
デジタル信号に変換した夫々の音響信号から所定時間長のフレームを夫々生成し、
生成したフレーム単位の各音響信号を周波数軸上の信号に夫々変換し、
周波数軸上の信号に変換した各音響信号間の周波数毎の位相成分の差を位相差として算出し、
算出した位相差が第１閾値以上となる周波数の割合又は数が、第２閾値以下である場合、生成したフレームに音響受付手段から最近傍の音源からの音響信号を含むと判定し、
判定した結果に基づく出力を行う
ことを特徴とする音響判定方法。
複数の音響受付手段にて受け付けた複数の音源からのアナログの音響信号に基づいて、前記音響受付手段から最近傍の音源からの音響信号の有無を判定する音響判定装置において、
各音響受付手段が受け付けた夫々の音響信号をデジタル信号に変換する手段と、
デジタル信号に変換した夫々の音響信号から所定時間長のフレームを夫々生成する手段と、
生成したフレーム単位の各音響信号を周波数軸上の信号に夫々変換する手段と、
周波数軸上の信号に変換した各音響信号間の周波数毎の位相成分の差を位相差として算出する手段と、
算出した位相差が第１閾値以上となる周波数の割合又は数が、第２閾値以下である場合、生成したフレームに最近傍の音源からの音響信号を含むと判定する判定手段と
を備えることを特徴とする音響判定装置。
周波数軸上の信号に変換した音響信号の振幅成分に基づいて信号対雑音比を算出する手段を更に備え、
前記判定手段は、算出した信号対雑音比が所定の閾値以下である場合、位相差に関わらず、特定対象となる音響信号を含まないと判定する様に構成してある
ことを特徴とする請求項２に記載の音響判定装置。
前記複数の音響受付手段は、夫々の相対位置を変更可能に構成してあり、
前記複数の音響受付手段間の距離に基づいて、前記判定手段の判定に用いる閾値を算出する手段を更に備える
ことを特徴とする請求項２又は請求項３に記載の音響判定装置。
周波数軸上の信号に変換した音響信号の振幅成分に基づく周波数毎の信号対雑音比に基づいて、前記判定手段の判定に用いる周波数を選択する選択手段を更に備えることを特徴とする請求項２乃至請求項４のいずれかに記載の音響判定装置。
折り返し誤差を防止すべくデジタル信号に変換する前の音響信号を濾波するアンチエイリアジングフィルタを更に備え、
前記判定手段は、前記アンチエイリアジングフィルタの特性に基づく所定の周波数より高い周波数を判定に用いる周波数から除外する様に構成してある
ことを特徴とする請求項２乃至請求項５のいずれかに記載の音響判定装置。
音声である音響信号を特定する場合に、
周波数軸上の信号に変換した音響信号の振幅成分が極小値をとる周波数、又は振幅成分に基づく信号対雑音比が極小値をとる周波数を検出する手段を更に備え、
前記判定手段は、検出した周波数を判定に用いる周波数から除外する様に構成してある
ことを特徴とする請求項２乃至請求項６のいずれかに記載の音響判定装置。
音声である音響信号を特定する場合に、
前記判定手段は、音声に係る基本周波数が存在しない周波数を判定に用いる周波数から除外する様に構成してあることを特徴とする請求項２乃至請求項７のいずれかに記載の音響判定装置。
コンピュータに、複数の音響受付手段にて受け付けた複数の音源からのアナログの音響信号に基づいて、特定の音響信号の有無を判定させるコンピュータプログラムにおいて、
コンピュータに、各音響受付手段が受け付け、デジタル信号に変換した夫々の音響信号から所定時間長のフレームを夫々生成させる手順と、
コンピュータに、生成したフレーム単位の各音響信号を周波数軸上の信号に夫々変換させる手順と、
コンピュータに、周波数軸上の信号に変換した各音響信号間の周波数毎の位相成分の差を位相差として算出させる手順と、
コンピュータに、算出した位相差が第１閾値以上となる周波数の割合又は数が、第２閾値以下である場合、生成したフレームに音響受付手段から最近傍の音源からの音響信号を含むと判定させる手順と
を実行させることを特徴とするコンピュータプログラム。