JP2005157363A

JP2005157363A - フォルマント帯域を利用したダイアログエンハンシング方法及び装置

Info

Publication number: JP2005157363A
Application number: JP2004336538A
Authority: JP
Inventors: Yoon-Hak Oh; 潤学呉; Hae-Kwang Park; 海光朴
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2003-11-21
Filing date: 2004-11-19
Publication date: 2005-06-16
Also published as: CN1619646A; KR20050049103A; EP1533791A2; EP1533791A3; US20050114119A1; CN1303586C

Abstract

【課題】フォルマント帯域を利用したダイアログエンハンス方法及び装置を提供する。
【解決手段】音響区間はそのままにしておいたままでダイアログ区間のフォルマント帯域をブーストするダイアログエンハンス方法及び装置である。これにより、入力信号について線形予測符号化に基づいた線形スペクトル対係数を計算し、その線形スペクトル対係数を基に前記入力信号の音声存否を判断し、その音声存否によって前記線形スペクトル対係数からフォルマント帯域を抽出してブーストする。
【選択図】図４

Description

本発明はダイアログエンハンシングシステムに係り、特に音響区間はそのままにしたままダイアログ区間のフォルマント帯域をブーストするダイアログエンハンシング方法及び装置に関する。

一般的に、ダイアログエンハンシングシステムは、周辺音（音響または雑音）により低下したダイアログの明瞭度を向上させる。従来のダイアログエンハンシングシステムは、音声のボリュームだけを高めるためにイクォライザ、クリッピング回路を使用した。しかし、イクォライザまたはクリッピング回路は、ダイアログだけでなく周辺音まで増幅させてしまう問題点がある。

このような問題点を解決するための従来のダイアログエンハンシングシステムは、特許文献１（Ｋｌａｙｍａｎにより１９９３．６．２３．に“ＰＵＢＬＩＣＡＤＤＲＥＳＳＩＮＴＥＬＬＩＧＩＢＩＬＩＴＹＳＹＳＴＥＭ”という名称で出願される）に提示されている。

従来技術は、図１に図示されたように、有声音／無声音判断部９０と、スペクトル分析部４２と、ＶＣＡ（ＶｏｌｔａｇｅＣｏｎｔｒｏｌｌｅｄＡｍｐｌｉｆｉｅｒ）部５０と、結合部６０と、合成部１０８とより構成される。

図１を参照すれば、有声音／無声音判断部９０は、ローパスフィルタを利用して入力信号が有声音であるか、無声音であるかを判断する。スペクトル分析部４２は、３０個のフィルタバンクを備え、入力信号の周波数成分を分析してフォルマント帯域を決定する。ＶＣＡ部５０は、有声音／無声音判断部９０で判断された有声音／無声音によって、利得テーブルに保存された利得をフォルマント帯域に適用して振幅を調節する。結合部６０は、ＶＣＡ部５０で振幅が調節されたフォルマント帯域と他の帯域の周波数成分を結合する。

かかる従来のダイアログエンハンシングシステムは、スペクトル分析部４２で周波数分析のためにフィルタバンクを使用するので、多くの計算量を必要とするだけではなく、ＶＣＡ部５０でフォルマント帯域の利得を調節するので、音声信号の包絡線が歪曲される短所がある。
米国特許５，４５９，８１３号明細書

本発明が解決しようとする技術的課題は、線形スペクトル対（ＬＳＰ：ＬｉｎｅＳｐｅｃｔｒｕｍＰａｉｒ）係数に基づいた音声区間の存否によって、フォルマント帯域をエンハンスさせることにより音響の大きさはそのままにしたままダイアログだけエンハンスされるダイアログエンハンス方法及び装置を提供するところにある。

前記技術的課題を解決するために、本発明は、（ａ）入力信号に対して線形予測符号化（ＬＰＣ：ＬｉｎｅＰｒｅｄｉｃｔｉｏｎＣｏｄｉｎｇ）に基づいたＬＳＰ係数を計算する過程と、（ｂ）前記計算されたＬＳＰ係数を基に前記入力信号の音声存否を判断する過程と、（ｃ）前記音声存否によって、前記ＬＳＰ係数からフォルマント帯域を抽出してブーストする過程とを含むことを特徴とする。

前記技術的課題を解決するために、本発明は、（ａ）左右チャンネルの入力信号を合成する過程と、（ｂ）前記合成された信号をダウンサンプリングし、ＬＰＣに基づいたスペクトルパラメータを抽出する過程と、（ｃ）前記ＬＳＰ係数の近接度によって音声存否を判断する過程と、（ｄ）前記音声存否によってＬＳＰ係数から複数個のフォルマント帯域を抽出する過程と、（ｅ）前記複数個フォルマント帯域それぞれのセンター周波数に一定サイズのレベルを有する複数個帯域のブーストフィルター係数を生成する過程と、（ｆ）前記入力される左右チャンネルの信号に対して音声が存在すれば、前記複数個帯域のブーストフィルター係数を基にフィルタリングする過程とを含むことを特徴とする。

前記技術的課題を解決するために、本発明は、ダイアログエンハンス装置において、信号からＬＰＣに基づいたＬＳＰ係数を計算して複数個フォルマント帯域を抽出し、その複数個フォルマント帯域の一定レベルに該当するブーストフィルター係数を抽出し、前記ＬＳＰ係数の近接度を基に信号の音声存否を決定するブーストフィルター係数抽出手段と、前記ブーストフィルター係数抽出手段で決定された信号の音声存否によって前記ブーストフィルター係数を基に前記音声部分のフォルマント帯域をエンハンスさせる信号処理手段とを含み、前記ブーストフィルター係数抽出手段は、入力信号を所定倍数でダウンサンプリングするダウンサンプリング部と、前記ダウンサンプリング部でダウンサンプリングされた信号に対してＬＰＣ係数を抽出するＬＰＣ抽出部と、前記ＬＰＣ抽出部で抽出されたＬＰＣ係数をＬＳＰ係数に変換するＬＳＰ変換部と、前記ＬＳＰ変換部のＬＳＰ係数の近接度と臨界値とを比較して音声存否を決定する音声領域決定部と、前記ＬＳＰ変換部のＬＳＰ係数から複数個フォルマントのセンター周波数を計算し、その複数個フォルマントのセンター周波数から一定のブースト利得を有するブーストフィルター係数を生成するブーストフィルター係数抽出部とを備えることを特徴とする。

本発明によれば、ＬＰＣ係数を利用してフォルマント推定することによって、音声検出／エンハンスに対する計算量を減らせる。また、音声信号の第１ないし第４フォルマント帯域に一定の利得を設定することによって、音声信号のスペクトルの包絡線を歪曲させずに音色が変わらない。

以下、添付された図面を参照し、本発明の望ましい実施形態を説明する。
図２は、本発明によるダイアログエンハンス装置を示す全体ブロック図である。
図２を参照すれば、信号結合部２１０、は左（Ｌ）チャンネル、右（Ｒ）チャンネルに入力される信号を結合する。この時、左チャンネル、右チャンネル信号には、音声信号と周辺音（音響またはノイズ）とが混ざっている。

ブーストフィルター係数抽出部２２０は、結合された信号からＬＰＣとＬＳＰ係数を計算してフォルマント帯域を抽出し、そのフォルマント帯域からブーストフィルター係数を抽出し、さらにＬＳＰ係数の近接度を基に入力信号の音声存否を判断し、その音声存否によって入力信号のブーストいかんを選択するエンハンス選択モードを発生する。

第１信号処理部２３０、はブーストフィルター係数抽出部２２０で抽出されたブーストフィルター係数を適用した４バンドのブーストフィルターを備え、エンハンス選択モードによって入力される左信号に対して４バンドのブーストフィルターを通過させてエンハンスさせる。

第２信号処理部２４０は、ブーストフィルター係数抽出部２２０で抽出されたブーストフィルター係数を適用した４バンドのブーストフィルターを備え、エンハンス選択モードによって入力される右信号に対して４バンドのブーストフィルターを通過させてエンハンスさせる。

図３は、図２の信号結合部２１０の詳細図である。
図３を参照すれば、ダイアログ成分は、音響成分を比較して左右チャンネルに均一に存在する。従って、左右チャンネルの信号それぞれは第１及び第２乗算器３１０，３２０を介して０．５倍ずつ掛け合わされる。次に、左右チャンネルの信号それぞれは加算器３３０を介して加算される。

図４は、図２のブーストフィルター係数抽出部２２０の詳細図である。
図４を参照すれば、ダイアログ成分は、４ｋＨｚ以内に主要周波数成分を有する。ダウンサンプリング部４２０は、結合された信号に対してサンプリング周波数４４．１ＫＨｚの５倍ダウンサンプリングを行う。

ＬＰＣ抽出部４３０は、ダウンサンプリング部４２０でダウンサンプリングされた信号について音声成分のスペクトル包絡線を表現するために、ＬＰＣ係数を抽出する。この時、音声成分のスペクトルには４ｋＨｚ以内に４つのフォルマントが存在する。

ＬＳＰ変換部４４０は、ＬＰＣ抽出部４３０で抽出されたＬＰＣ係数をＬＳＰ係数に変換する。この時、２つのＬＳＰ係数は、１つのフォルマントを示す。また、フォルマントがシャープであって高いサイズを有するほど２つのＬＳＰ係数の間隔は狭くなる。

音声決定部４５０は、ＬＳＰ変換部４４０のＬＳＰ間隔情報を利用し、臨界値と比較して音声存否を決定する。すなわち、音声決定部４５０は、ＬＳＰ間隔が臨界値より大きい場合に音声でないと判断してバイパスモード信号を発生し、ＬＳＰ間隔が臨界値より小さい場合に音声と判断してブーストフィルタリングモード信号を発生する。

ブーストフィルター係数生成部４６０は、ＬＳＰ変換部４４０のＬＳＰ係数から第１ないし第４フォルマントのセンター周波数を計算し、その第１ないし第４フォルマントのセンター周波数から一定のブースト利得を有するブーストフィルター係数を生成する。

図５は、本発明によるダイアログエンハンス方法を示すフローチャートである。
まず、左チャンネル、右チャンネルに入力される信号を合成する（５１０過程）。この時、左チャンネル、右チャンネルの信号はセンター信号を含む。

従って、左チャンネル、右チャンネル信号は、Ｌ＝Ｌｔ＋Ｃｔ，Ｒ＝Ｒｔ＋Ｃｔと示せる。ここで、Ｌｔは、純粋なＬチャンネル信号（ｔｒｕｅＬ）、Ｒｔは純粋なＲチャンネル信号（ｔｒｕｅＲ）を示す。また、Ｃｔは純粋なセンター（ｔｒｕｅＣ）成分を意味する。従って、入力される信号（Ｘｉｎｐｕｔ）は、Ｘｉｎｐｕｔ＝０．５＊Ｌｔ＋０．５＊Ｒｔ＋Ｃｔと示せる。ここで、Ｌｔ＝Ｒｔである場合は存在しない。

この時、音声信号について周波数領域で説明すれば、大部分の周波数成分は、６ｋＨｚ以内に存在し、いくつかの周波数帯域成分が他の部分より支配的に示される。音声フォルマントは、周波数領域で他の帯域より支配的な帯域部分に該当する。一般的に、音声信号は、４つほどのフォルマントが観測される。また、フォルマントは、ほぼ１ｋＨｚ当たり一つずつ位置する。従って、第１ないし第４フォルマントは、４ｋＨｚ以下に存在する。これにより、合成された信号は、計算量を縮小するためにサンプリング周波数４４．１ＫＨｚの５倍ダウンサンプリングを行う（５２０過程）。

次に、ダウンサンプリングされた信号は、ＬＰＣを利用してＬＰＣ係数を抽出する（５３０過程）。この時、ＬＰＣ方法は、音声発生期間の間、声道（ｖｏｃａｌｔｒａｃｔ）の特性を全極（ａｌｌ−ｐｏｌｅ）構造を有するデジタルフィルタでモデリングするものであり、音声信号が１０ないし２０ｍｓほどの短区間でステーショナリ（ｓｔａｔｉｏｎａｒｙ）という仮定下に、この区間の音声信号からデジタルフィルタの係数を推定する。
この時、信号Ｓ（ｎ）は、式(1)のように示せる。

ここで、α_ｉは、声道をモデリングした線形フィルター係数であり、Ｇは利得であり、ｕ（ｎ）は励起信号である。
この線形フィルターの係数は、短区間音声信号の周波数特性を示し、特に音声学的に意味ある特徴である声道の共鳴周波数（ｆｏｒｍａｎｔ）に関わる情報をよく示している。

ＬＰＣ係数は、一般的に自己相関係数を利用したダービン（Ｄｕｒｂｉｎ）の方法を利用して式(2)ないし式(8)にように計算される。

ここで、Ｅ^０は入力信号のエネルギーであり、ｒ（０）は自己相関係数の最初の値である。

ここで、ｋ_ｉはｉ番目の反射係数であり、ｒ（ｉ）はｉ番目の自己相関係数である。従って、線形フィルター係数は式(4)及び(5)のように計算される。

ここで、自己相関係数ｒ（ｍ）は式(7)のようにあらかじめ求めておく。

ここで、ｓ（ｎ）は音声信号である。
結局、ＬＰＣ係数は最終的に式(8)のように示せる。

次に、音声信号の周波数スペクトル情報を示すために、ＬＰＣ係数を基にＬＳＰ係数を抽出する（５４０過程）。ＬＳＰは、図６で図示されたようにｐ個の不連続的な周波数分布を介して音声のスペクトル包絡線を表現する。すなわち、ＬＳＰは線形予測基盤の係数を利用してＬＰＣモデルから求められ、板倉によりＬＰＣ係数の他の表現形態として提案された。

式(1)で示されたように、音声Ｓ（ｎ）は、口腔構造をモデリングしたフィルター伝達関数Ｈ（ｚ）＝１／Ａ（ｚ）で示せる。ここで、Ａ（ｚ）は式(9)のようである。

ここで、ａ_ｐはｐ次のＬＰＣ係数を示す。
Ａ（ｚ）を利用してＬＳＰを定義できるが、このために式(10)及び式(11)の２つの多項式を定義する。

このように定義された２つの多項式Ｐ（ｚ），Ｑ（ｚ）の根をＬＳＰとして定義する。
また、ＬＰＣ係数及びＬＳＰ係数は、相互変換可能である。すなわち、ＬＳＰはＬＰＣから求められ、反対にＬＳＰ係数からＬＰＣ係数を求められる。

また、多項式Ｐ（ｚ）は、偶関数（ｅｖｅｎｆｕｎｃｔｉｏｎ）であって多項式Ｑ（ｚ）は奇関数（ｏｄｄｆｕｎｃｔｉｏｎ）なので、電力スペクトル|Ａ(ω)|^２２は式(12)のように示せる。

式(12)を介してＡ（ｚ）の根と多項式Ｐ（ｚ），Ｑ（ｚ）の根とが密接に関連していることが分かる。すなわち、２つあるいは３つのＬＳＰ周波数が集ってフォルマント周波数を示す。また、ＬＳＰの線対の近接度によって帯域幅を表現できる。すなわち、図６を参照して説明すれば、実線及び点線の間隔で示す近接度が高いほど帯域幅が狭くて高いサイズのフォルマントを示す。

次に、ＬＳＰ係数を基に音声存否を判断する（５５０過程）。一般的に、音声の場合にフォルマントは狭い帯域幅と高いサイズ（ａｍｐｌｉｔｕｄｅ）を有する。従って、フォルマントを示すＬＳＰ係数の近接度から音声の存否を判断する。すなわち、ＬＳＰ係数の近接度が臨界値より大きい場合に音声領域でないと判断し、ＬＳＰ係数の近接度が臨界値より小さい場合に音声領域と判断する。

この時、ＬＳＰの近接度から音声が存在しないと決定されれば（５６０過程）、入力ステレオ信号がそのままバイパスされる（５８２過程）。

一方、ＬＳＰの近接度から音声が存在すると決定されれば（５６０過程）、次のような音声のフォルマント帯域をブートさせる過程（５７２，５７４，５７６過程）を行う。
すなわち、入力信号で音声が存在すると判断されれば、ＬＳＰパラメータから第１ないし第４フォルマントのセンター周波数を決定する（５７２過程）。

次に、第１ないし第４フォルマントのセンター周波数を用いて一定サイズのブーストレベルを有する４バンドのブーストフィルター係数を求める（５７４過程）。この時、ブーストレベルは、音声信号のスペクトル包絡線が変わらないように各フォルマントに対して同一サイズを有する。

次に、入力ステレオ信号は、ブーストフィルター係数を適用した４バンドのブーストフィルターを通過する（５７６過程）。図７は、第１ないし第４フォルマント帯域７１０，７２０，７３０，７４０ごとに一定のブーストゲインを有する信号のＬＰＣスペクトルを図示する。

結局、図７で図示されたように、入力ステレオ信号は４バンドのブーストフィルターを通過することによって音声部分が向上する。

本発明は前述の実施形態に限定されず、本発明の思想内で当業者による変形が可能であることは言うまでもない。
また本発明は、コンピュータ可読記録媒体にコンピュータ可読コードとして具現することが可能である。コンピュータ可読記録媒体は、コンピュータシステムによって読み込まれうるデータが保存される全種の記録装置を含む。コンピュータ可読記録媒体の例としては、ＲＯＭ（Ｒｅａｄ−ＯｎｌｙＭｅｍｏｒｙ）、ＲＡＭ（Ｒａｎｄｏｍ−ＡｃｃｅｓｓＭｅｍｏｒｙ）、ＣＤ−ＲＯＭ、磁気テープ、ハードディスク、フロッピー（登録商標）ディスク、フラッシュメモリ、光データ貯蔵装置などがあり、またキャリアウエーブ（例えば、インターネットを介した伝送）の形で具現されるものも含む。また、コンピュータ可読記録媒体は、ネットワークに連結されたコンピュータシステムに分散され、分散方式でコンピュータが読み込めるコードとして保存されて実行されうる。

本発明のフォルマント帯域を利用したダイアログエンハンス方法及び装置は、例えばオーディオ再生機に効果的に適用可能である。

従来のダイアログエンハンスシステムの全体ブロック図である。本発明によるダイアログエンハンス装置を示す全体ブロック図である。図２の信号結合部の詳細図である。図２のブーストフィルター係数抽出部の詳細図である。本発明によるダイアログエンハンス方法を示すフローチャートである。ｐ個の不連続的な周波数分布を介した音声のスペクトル包絡線を図示したグラフである。本発明によるブーストフィルターを通過した音声のスペクトル包絡線を図示したグラフである。

符号の説明

４２０ダウンサンプラ
４３０ＬＰＣ抽出部
４４０ＬＳＰ変換部
４５０音声決定部
４６０ブーストフィルター係数生成部

Claims

（ａ）入力信号に対して線形予測符号化（ＬＰＣ）に基づいた線形スペクトル対（ＬＳＰ）係数を計算する過程と、
（ｂ）前記計算されたＬＳＰ係数を基に前記入力信号の音声存否を判断する過程と、
（ｃ）前記音声存否によって前記ＬＳＰ係数からフォルマント帯域を抽出してブーストする過程とを含むダイアログエンハンシング方法。
前記（ａ）過程は、
（ａ−１）入力信号にＬＰＣモデルを適用してＬＰＣ係数を抽出する過程と、
（ａ−２）前記ＬＰＣ係数を所定のＬＰＣモデルを介してＬＳＰ係数に変換する過程とを含むことを特徴とする請求項１に記載のダイアログエンハンシング方法。
前記（ｂ）過程は、前記ＬＳＰ係数の近接度が臨界値より大きい場合に音声と判断し、前記ＬＳＰ係数の近接度が臨界値より小さい場合に非音性と判断する過程であることを特徴とする請求項１に記載のダイアログエンハンシング方法。
前記（ｃ）過程は、
（ｃ−１）信号で音声があると判断すれば、前記ＬＳＰ係数から複数個フォルマントそれぞれのセンター周波数を決定する過程と、
（ｃ−２）前記複数個フォルマントそれぞれのセンター周波数でブーストレベルを有するブーストフィルター係数を生成する過程と、
（ｃ−３）前記ブーストフィルター係数によって信号の複数個フォルマント帯域をブーストする過程とを含むことを特徴とする請求項１に記載のダイアログエンハンシング方法。
前記ブーストレベルは、各フォルマントに対して同一サイズに設定されることを特徴とする請求項４に記載のダイアログエンハンシング方法。
前記信号が非音性と判断されれば、その入力信号をバイパスする過程をさらに含むことを特徴とする請求項４に記載のダイアログエンハンシング方法。
（ａ）左右チャンネルの入力信号を合成する過程と、
（ｂ）前記合成された信号をダウンサンプリングして線形予測符号に基づいたスペクトルパラメータを抽出する過程と、
（ｃ）ＬＳＰ係数の近接度によって音声存否を判断する過程と、
（ｄ）前記音声存否によって前記ＬＳＰ係数から複数個のフォルマント帯域を抽出する過程と、
（ｅ）前記複数個フォルマント帯域それぞれのセンター周波数に一定サイズのレベルを有する複数個帯域のブーストフィルター係数を生成する過程と、
（ｆ）前記入力される左右チャンネルの信号に対して音声が存在すれば、前記複数個帯域のブーストフィルター係数を基にフィルタリングする過程とを含むダイアログエンハンシング方法。
ダイアログエンハンシング装置において、
信号からＬＰＣに基づいたＬＳＰ係数を計算して複数個フォルマント帯域を抽出し、その複数個フォルマント帯域の一定レベルに該当するブーストフィルター係数を抽出し、前記ＬＳＰ係数の近接度を基に信号の音声存否を決定するブーストフィルター係数抽出手段と、
前記ブーストフィルター係数抽出手段で決定された信号の音声存否によって前記ブーストフィルター係数を基に前記音声部分のフォルマント帯域をエンハンスさせる信号処理手段とを含むダイアログエンハンシング装置。
左チャンネル、右チャンネルに入力される信号を結合し、前記ブーストフィルター係数抽出部に出力する信号結合手段をさらに含む請求項８に記載のダイアログエンハンシング装置。
前記ブーストフィルター係数抽出手段は、
入力信号を所定倍数でダウンサンプリングするダウンサンプリング部と、
前記ダウンサンプリング部でダウンサンプリングされた信号に対してＬＰＣ係数を抽出するＬＰＣ抽出部と、
前記ＬＰＣ抽出部で抽出されたＬＰＣ係数をＬＳＰ係数に変換するＬＳＰ変換部と、
前記ＬＳＰ変換部のＬＳＰ係数の近接度と臨界値とを比較して音声存否を決定する音声領域決定部と、
前記ＬＳＰ変換部のＬＳＰ係数から複数個フォルマントのセンター周波数を計算し、その複数個フォルマントのセンター周波数から一定のブースト利得を有するブーストフィルター係数を生成するブーストフィルター係数抽出部とを備えることを特徴とする請求項８に記載のダイアログエンハンシング装置。
前記音声領域決定部は、ＬＳＰ間隔が臨界値より大きい場合に非音性と判断してバイパスモード信号を発生し、ＬＳＰ間隔が臨界値より小さい場合に音声と判断してブーストフィルタリングモード信号を発生することを特徴とする請求項１０に記載のダイアログエンハンシング装置。
前記信号処理手段は、前記ブーストフィルター係数抽出手段で抽出されたブーストフィルター係数を適用した４バンドのブーストフィルターを備えることを特徴とする請求項８に記載のダイアログエンハンシング装置。