JP2013500498A

JP2013500498A - 音声品質の評価のための方法、コンピュータ、コンピュータプログラム、およびコンピュータプログラム製品

Info

Publication number: JP2013500498A
Application number: JP2012521598A
Authority: JP
Inventors: ヴォロージャグランシャロヴ，; マッツフォルケッソン，
Original assignee: テレフオンアクチーボラゲットエルエムエリクソン（パブル）
Priority date: 2009-07-24
Filing date: 2010-07-26
Publication date: 2013-01-07
Also published as: US20120116759A1; EP2457233A1; EP2457233A4; US8655651B2; WO2011010962A1

Abstract

本発明は、音声品質の評価のための方法、コンピュータ、コンピュータプログラム、およびコンピュータプログラム製品に関する。この方法は、音声信号についての符号化ひずみパラメータ（Ｑ_ＣＯＤ）、帯域幅関連のひずみパラメータ（ＢＷ）、および提示レベルのひずみパラメータ（ＰＬ）を決定するステップと、符号化ひずみパラメータに依存する第１の係数（ω_１）および第２の係数（ω_２）を抽出するステップと、Ｑ_ＣＯＤ＋ω_１・ＢＷ＋ω_２・ＰＬである信号品質指標（Ｑ）を計算するステップと、音声信号の品質の評価において信号品質指標を使用するステップとを含む。

Description

本発明は、音声品質の評価に関し、より具体的には、音声品質の評価のための方法、コンピュータプログラム、コンピュータプログラム製品、およびコンピュータに関する。

帯域幅の制限および信号の提示レベル（ｐｒｅｓｅｎｔａｔｉｏｎｌｅｖｅｌ）の変化が、音声品質の全体としての知覚に影響を及ぼす。提示レベルは、聴き手側における有効音声レベル（ａｃｔｉｖｅｓｐｅｅｃｈｌｅｖｅｌ）である。有効音声レベルの測定方法は、［１］ＩＴＵ−ＴＲｅｃ．Ｐ．５６（０３／９３）ＯｂｊｅｃｔｉｖｅｍｅａｓｕｒｅｍｅｎｔｏｆＡｃｔｉｖｅＳｐｅｅｃｈＬｅｖｅｌにおいて説明されている。

帯域幅および提示レベルの変化が、品質低下の唯一の原因であるならば、それらを単純なやり方で音声品質に関連付けることが可能であり、より広い帯域幅およびより高い提示レベルの信号ほど、より高い品質を有し、その逆も然りである。しかしながら、典型的な符号化アーチファクトの場合には、この関係がきわめて非線形になり、信号の帯域幅の制限、および／または提示レベルの低下が、品質の向上につながる可能性もある。この効果は、下記の文献［２］〜［６］に開示されている仕組みなど、従来からの品質評価の仕組みでは獲得することが難しい。

［２］ＩＴＵ−ＴＲｅｃ．Ｐ．８６２（０２／２００１）、Ｐｅｒｃｅｐｔｕａｌｅｖａｌｕａｔｉｏｎｏｆｓｐｅｅｃｈｑｕａｌｉｔｙ（ＰＥＳＱ），ａｎｏｂｊｅｃｔｉｖｅｍｅｔｈｏｄｆｏｒｅｎｄ−ｔｏ−ｅｎｄｓｐｅｅｃｈｑｕａｌｉｔｙａｓｓｅｓｓｍｅｎｔｉｎｎａｒｒｏｗ−ｂａｎｄｔｅｌｅｐｈｏｎｅｎｅｔｗｏｒｋｓａｎｄｓｐｅｅｃｈｃｏｄｅｃｓ、

［３］ＩＴＵ−ＴＲｅｃ．Ｐ．８６２．２（１１／２００５）、ＷｉｄｅｂａｎｄｅｘｔｅｎｓｉｏｎｔｏＲｅｃｏｍｍｅｎｄａｔｉｏｎＰ．８６２ｆｏｒｔｈｅａｓｓｅｓｓｍｅｎｔｏｆｗｉｄｅｂａｎｄｔｅｌｅｐｈｏｎｅｎｅｔｗｏｒｋｓａｎｄｓｐｅｅｃｈｃｏｄｅｃｓ、

［４］ＡＮＳＩＴ１．５１８−１９９８（Ｒ２００３）、ＯｂｊｅｃｔｉｖｅＭｅａｓｕｒｅｍｅｎｔｏｆＴｅｌｅｐｈｏｎｅＢａｎｄＳｐｅｅｃｈＱｕａｌｉｔｙＵｓｉｎｇＭｅａｓｕｒｉｎｇＮｏｒｍａｌｉｚｉｎｇＢｌｏｃｋｓ、

［５］ＩＴＵ−ＴＰ．５６３（０５／２００４）、Ｓｉｎｇｌｅｅｎｄｅｄｍｅｔｈｏｄｆｏｒｏｂｊｅｃｔｉｖｅｓｐｅｅｃｈｑｕａｌｉｔｙａｓｓｅｓｓｍｅｎｔｉｎｎａｒｒｏｗ−ｂａｎｄｔｅｌｅｐｈｏｎｙａｐｐｌｉｃａｔｉｏｎｓ、

［６］ＩＴＵ−ＲＲｅｃ．ＢＳ．１３８７−１（１１／０１）、Ｍｅｔｈｏｄｆｏｒｏｂｊｅｃｔｉｖｅｍｅａｓｕｒｅｍｅｎｔｓｏｆｐｅｒｃｅｉｖｅｄａｕｄｉｏｑｕａｌｉｔｙ。

提示レベルは、典型的には［１］に記載のＩＴＵ−ＴＲｅｃ．Ｐ．５６の音声レベルメータに従って測定される信号の音の大きさに関係する。種々の提示レベルの信号の例が、本出願の図１に示されている。

信号の帯域幅は、それを超えると周波数関数がゼロに近くなる（例えば、最大の周波数の値を１０〜２０ｄＢも下回る）周波数の範囲である。ＮＢ（狭帯域）ＩＲＳ（中間基準系）フィルタによって処理された超広帯域信号（５０〜１４０００Ｈｚ）の例が、図２に示されている。ＩＲＳは、ＮＢコーデックおよび他のＮＢ系の送信／受信特性を規定している。ＩＲＳは、３００Ｈｚ未満および３４００Ｈｚ超を減衰させる、［７］ＩＴＵ−ＴＲｅｃ．Ｐ．４８、ＴｅｌｅｐｈｏｎｅＴｒａｎｓｍｉｓｓｉｏｎＱｕａｌｉｔｙ，ＴｒａｎｓｍｉｓｓｉｏｎＳｔａｎｄａｒｄｓ，ＳｐｅｃｉｆｉｃａｔｉｏｎｆｏｒａｎＩｎｔｅｒｍｅｄｉａｔｅＲｅｆｅｒｅｎｃｅＳｙｓｔｅｍに記載の帯域通過フィルタを規定している。

本発明の目的は、音声品質の評価を改善すること、すなわち音声信号の音声品質の評価を改善することである。

本発明は、音声品質の評価のためのコンピュータによって実行される方法に関する。この方法は、
音声信号についての符号化ひずみパラメータＱ_ＣＯＤ、帯域幅関連のひずみパラメータＢＷ、および提示レベルのひずみパラメータＰＬを決定するステップと、
Ｑ_ＣＯＤに依存する第１の係数ω_１および第２の係数ω_２を抽出するステップと、
Ｑ_ＣＯＤ＋ω_１・ＢＷ＋ω_２・ＰＬである信号品質指標Ｑを計算するステップと、
音声信号の品質評価においてＱを使用するステップと
を含む。

これにより、帯域幅の制限および提示レベルの変化が考慮に入れられる。本発明は、符号化雑音と、帯域幅の変化と、提示レベルの変化との間の非線形関係を獲得することができるが、依然として単純であり、したがって未知のデータに、より良好に適合する仕組みを提供する。このやり方で、ＢＷおよびＰＬの影響を、データの過剰フィッティング（ｏｖｅｒｆｉｔｔｉｎｇ）に関する問題を引き起こすことなく、より一般的な品質評価の仕組みに取り入れることができる。

この方法の一実施形態においては、ω_１およびω_２を抽出するステップが、

を計算することによって実行され、
ここで、ｉ＝｛１，２｝であり、γおよびαは、学習される係数または実験的に決定される係数である。

を計算することによって実行され、
ここで、ｉ＝｛１，２｝であり、γおよびβは、学習される係数または実験的に決定される係数である。

に従ってω_１およびω_２を計算することによって実行され、
ここで、ｉ＝｛１，２｝であり、γ、α、およびβは、学習される係数または実験的に決定される係数である。

Ｑ_ＣＯＤを、

からＱ_ＣＯＤを抽出することによって決定することができ、
ここで、Ｎは、音声信号におけるフレームまたはブロックの数であり、Ｗは、周波数帯の数であり、ＮおよびＷは、コーデックのビットレートに関係し、ｎは、時間フレーム、フレームインデックス、またはフレームカウンタの値であり、ｆは、周波数カウンタまたは帯域インデックスの値であり、Ｐは、音声信号のパワースペクトルを表わしている。

Ｑを、本方法の一実施形態において、
通信ネットワークを監視して、不良のネットワークノードを検出し、
知覚品質が最良となるように通信ネットワークのネットワーク設定を最適化し、
音声コーデックを最適化し、
雑音抑制システムを最適化し、または
音声品質の評価手順の浮動点および固定点（ｆｌｏａｔｉｎｇａｎｄｆｉｘｅｄｐｏｉｎｔ）の実施を評価するために使用することができる。

さらに本発明は、音声品質の評価のためのコンピュータに関する。このコンピュータは、通信ネットワークへと接続されるように構成され、
音声信号についての、Ｑ_ＣＯＤ、ＢＷ、およびＰＬを決定するように構成された決定ユニットと、
Ｑ_ＣＯＤに依存するω_１およびω_２を抽出するように構成された抽出ユニットと、
Ｑ_ＣＯＤ＋ω_１・ＢＷ＋ω_２・ＰＬであるＱを計算するように構成された計算ユニットと、
Ｑを第２のコンピュータに保存すべく出力するように構成された出力ユニットと
を備える。

このコンピュータは、Ｑを使用して音声信号の音声品質を評価するように構成された音声品質評価ユニットを備えることができる。

このコンピュータは、元の信号および、元の信号の処理後の信号を受信するための入力ユニットを備えることができる。

このコンピュータの抽出ユニットを、ω_ｉ＝

を計算することによってω_１およびω_２を抽出するように構成でき、
ここで、ｉ＝｛１，２｝であり、γおよびαは、学習される係数または実験的に決定される係数である。

このコンピュータの抽出ユニットを、ω_ｉ＝

を計算することによってω_１およびω_２を抽出するように構成でき、
ここで、ｉ＝｛１，２｝であり、γおよびβは、学習される係数または実験的に決定される係数である。

さらに本発明は、音声品質の評価のためのコンピュータプログラムに関する。このコンピュータプログラムは、通信ネットワークに接続されたコンピュータにおいて実行されたときに、このコンピュータに
音声信号のＱ_ＣＯＤ、ＢＷ、およびＰＬを決定するステップと、
Ｑ_ＣＯＤに依存するω_１およびω_２を抽出するステップと、
Ｑ＝Ｑ_ＣＯＤ＋ω_１・ＢＷ＋ω_２・ＰＬであるＱを計算するステップと、
音声信号の品質の評価においてＱを使用するステップと
を実行させるコード手段を含む。

このコンピュータプログラムは、コンピュータにおいて実行されたときに、

に従ってω_１およびω_２を計算することによって、このコンピュータにω_１およびω_２を抽出させるコード手段を含むことができ、
ここで、ｉ＝｛１，２｝であり、γ、α、およびβは、学習される係数または実験的に決定される係数である。

このコンピュータプログラムは、コンピュータにおいて実行されたときに、このコンピュータに

からＱ_ＣＯＤを抽出することによって、Ｑ_ＣＯＤを決定させるコード手段を含むことができ、
ここで、Ｎは、音声信号におけるフレームまたはブロックの数であり、Ｗは、周波数帯の数であり、ＮおよびＷは、コーデックのビットレートに関係し、ｎは、時間フレーム、フレームインデックス、またはフレームカウンタの値であり、ｆは、周波数カウンタまたは帯域インデックスの値であり、Ｐは、音声信号のパワースペクトルを表わしている。

さらに本発明は、コンピュータによって読み取り可能なコード手段と、このコンピュータにとって読み取り可能な手段に保存されたコンピュータプログラムとを含むコンピュータプログラム製品に関する。

本発明の目的、利点、および効果、ならびに特徴が、本発明の例示的実施形態についての以下の詳細な説明から、添付の図面と併せて検討することによって、より容易に明らかになるであろう。

提示レベルが７３ｄＢＳＰＬである信号（上側）、および提示レベルが６３ｄＢＳＰＬである信号（下側）を示している。ＩＲＳ処理された信号（１５０Ｈｚ未満および３５００Ｈｚ超の周波数を減衰させている）、および１４ｋＨｚまでの周波数を有する元の信号を示している。音声相関雑音の存在における帯域幅の制限の影響を示している。音声相関雑音の存在における提示レベルの変化の影響を示している。音声品質評価システムの実施形態を示している。音声品質評価システムの別の実施形態を示している。Ｑを計算するための工程の流れ図を示している。信号品質の評価のためのコンピュータの実施形態を示している。信号品質の評価のためのコンピュータの実施形態を示している。

本発明は、さまざまな変更および代案を包含するが、本発明のいくつかの実施形態が図面に示され、以下で詳しく説明される。しかしながら、特定の説明および図面が、本発明を開示される特定の形態に限定しようとするものではないことを理解すべきである。むしろ、請求される本発明の技術的範囲は、添付の特許請求の範囲に表わされるとおりの本発明の技術的思想および技術的範囲に包含されるすべての変更および代案を含むものである。

提示レベルの変化および帯域幅の制限は、音声通信システム／電気通信ネットワークにおける典型的なひずみである。符号化ひずみが存在するとき、帯域幅および提示レベルの低下と知覚品質との間の関係が、非線形になる。これが、図３および図４に示されており、両方の図の品質は、ＭＯＳ（平均オピニオン評点）を尺度にして示されており、符号化ひずみは、ＭＮＲＵ（被変調雑音基準ユニット）でモデル化されている。クリーンな元の信号（上側の曲線）において、より広い帯域幅がより高い品質を意味する一方で、相関雑音を有する信号においては、この作用が逆になる（下側の曲線）。図３には、３つの典型的な信号、すなわち４ｋＨｚよりも上の周波数成分を持たないＮＢ信号と、７ｋＨｚよりも上の周波数成分を持たないＷＢ（広帯域）信号と、１４ｋＨｚよりも上の周波数成分を持たないＳＷＢ（超広帯域）信号とが描かれている。これらはすべて、帯域幅の定義およびそれぞれの上側のカットオフ周波数４、７ｋＨｚ、または１４ｋＨｚから得られる。図４に示されるとおり、より大きい音の信号は、クリーンな元の信号においてはより高い品質を意味するが、相関雑音を有する信号においては、より大きい音の信号がより低い品質を意味している。ＳＰＬ（音圧レベル）は、所定の強度レベルに対する音響強度レベルの対数である。

ＭＯＳは、［８］ＩＴＵ−ＴＲｅｃ．Ｐ．８００（０８／９６）、ＭｅｔｈｏｄｓｆｏｒＳｕｂｊｅｃｔｉｖｅＤｅｔｅｒｍｉｎａｔｉｏｎｏｆＴｒａｎｓｍｉｓｓｉｏｎＱｕａｌｉｔｙに記載の聴き取りテストである。聴き手が、信号の品質を１〜５の尺度（意味は、１（非常に悪い）、２（悪い）、３（普通）、４（良い）、５（非常によい）である）で格付けする。ＭＮＲＵは、音声信号に制御された品質低下を導入するための方法であり、典型的には聴き取りテストにおいてアンカ状態として用いられる。音声信号の品質が、所定のレベルの音声相関雑音を混合することによって下げられる。これは、知覚的には、音声圧縮システムによって導入される量子化雑音の影響を模擬している。この方法は、［９］ＩＴＵ−ＴＰ．８１０（０２／９６）、ＴｅｌｅｐｈｏｎｅＴｒａｎｓｍｉｓｓｉｏｎＱｕａｌｉｔｙ，ＭｅｔｈｏｄｓｆｏｒＯｂｊｅｃｔｉｖｅａｎｄＳｕｂｊｅｃｔｉｖｅａｓｓｅｓｓｍｅｎｔｏｆＱｕａｌｉｔｙ，ＭｏｄｕｌａｔｅｄＮｏｉｓｅＲｅｆｅｒｅｎｃｅＵｎｉｔ（ＭＮＲＵ）に説明されている。

上述した既存の技術的解決策においては、種々の品質次元の間の非線形な相互作用が、まったく取り込まれておらず（文献［２］〜［５］）、あるいは文献［６］のように人工ニューラルネットワークによって盲目的にモデル化されている。これらの影響を無視し、あるいは単純な線型モデルを使用することは、図３および図４に示されているとおり、上手くいかない。文献［６］のような複雑な分類器の自動的な学習は、未知の種類のデータにおける性能の低下という代償をともなう。実際に、文献［６］に記載の方法の性能が、文献［２］〜［５］に開示のはるかに単純なモデルよりも低くなる可能性すら存在する。

したがって、本発明によれば、帯域幅に関係したひずみパラメータ（ＢＷ）および提示レベルのひずみパラメータ（ＰＬ）を、音声品質の評価の結果に算入することが提案される。この算入により、線型モデル／モデル化の可能性の多くが維持され、結果として音声品質の評価システムに安定性の向上がもたらされる。ＢＷおよびＰＬは、符号化ひずみパラメータＱ_ＣＯＤのレベルに依存する係数ω_ｉ（ここで、ｉ＝｛１，２｝）を有する半線型モデルにて信号品質指標（Ｑ）の全体的な品質に寄与する。式（１）および（２）を参照されたい。
Ｑ＝Ｑ_ＣＯＤ＋ω_１ＢＷ＋ω_２ＰＬ（１）

ここで、係数γ_ｉ、β_ｉ、およびα_ｉは、主観的データに対して学習される係数／例えば聴き取りテストからの品質の格付けによって実験的に決定される係数である。係数ω_１、ω_２の範囲は、Ｑ_ＣＯＤ、ＰＬ、およびＢＷの範囲に依存する。例として、｛Ｑ_ＣＯＤ、ＰＬ、ＢＷ｝が０〜１の間である場合、係数ω_１、ω_２は、−１〜１の間であってもよい。係数ω_１、ω_２は、元の品質と予測による品質との間の予測精度を最大にするように最適化される。最適化を、当業者にとって知られた種々のやり方で実行することができるが、一例は、客観的品質と主観的品質との間の平均平方誤差を最小にすることであり、客観的品質は、コンピュータによる計算から得られる値であり、主観的品質は、人間が品質を判断するテストによって得られる値である。

式（２）から、帯域幅および提示レベルの低下が、符号化雑音のレベルに基づいて正または負に寄与しうることを見て取ることができる。符号化ひずみＱ_ＣＯＤを、符号化のビットレートから決定でき、文献［２］のＰＥＳＱなどの知覚モデルから決定でき、または例えば平均スペクトル平坦度を通じて音声信号について直接測定することができる。式（３）を参照されたい。

Ｑ_ＣＯＤは、全体としての符号化ひずみを表わすことができ、または雑音度、スペクトルの異常値、などといった特定の品質次元だけを表わしてもよい。式（３）において、Ｎは、音声信号におけるフレーム／ブロックの数であり、Ｗは、周波数帯の数であり、ＮおよびＷは、コーデックのビットレートに関係し、ｎは、時間フレーム／フレームインデックス／フレームカウンタの値であり、ｆは、周波数カウンタ／帯域インデックスの値であり、Ｐは、音声信号のパワースペクトルを表わしている。

図５は、音声品質評価システム５００を備える実施形態を示している。音声品質評価システム５００は、電気通信ネットワーク５４０と、ここでは音声品質評価サーバ（ＳＱＥＳ）の形態である、音声品質の評価のためのコンピュータ７００とを備える。ＳＱＥＳは、ここでは電気通信ネットワーク５４０における２つの点に接続され、すなわちＳＱＥＳが、元の信号（ＯＳ）５１０および処理済みの信号（ＰＳ）５２０を入力として受信する。処理済みの信号は、ＢＷおよびＰＬの変化を生じさせる電気通信ネットワーク５４０の少なくとも１つのノード（例えば、送信装置または圧縮装置）によって処理されている。ＯＳ５１０が、ＳＱＥＳおよび電気通信ネットワーク５４０に供給される。ＰＳ５２０は、電気通信ネットワーク５４０から出力される。ＳＱＥＳは、Ｑ５３０を出力するが、Ｑ５３０は、単独または当技術分野で知られた他の信号品質値との組み合わせにおいて、信号品質の全体としての指標であってもよい。Ｑ５３０は、式（１）を使用して導出することができる。換言すると、Ｑ５３０は、｛Ｑ_ＣＯＤ、ＰＬ、ＢＷ｝の重み付け和または｛Ｑ_ＣＯＤ、ＰＬ、ＢＷ｝の写像である。後述のフロー６００が、Ｑ５３０の生成に関する工程を示している。さらに図５は、ここでは通信ネットワーク５４０に配置された第２のコンピュータ５５０を開示している。第２のコンピュータは、例えばｄＢ値または当業者に知られた任意の派生値の形態で、Ｑを受信して、随意により保存するように構成されている。受信したＱに基づいて、第２のコンピュータ５５０は、内部のプロセスを開始または調節でき、あるいは通信ネットワーク５４０の他のノードによって実行される外部のプロセスの調節または起動を開始することができる。

Ｑ５３０の値を、
通信ネットワーク５４０を監視して、不良のネットワークノードを検出し、
知覚品質が最良となるようにネットワークの設定を最適化し、
音声コーデック、雑音抑制システムなどを最適化し、
音声品質の評価手順の実施を評価し、すなわち浮動点および固定点の実施を評価するために使用することができる。

図５ａは、音声品質評価システム５００の別の実施形態を示している。電気通信ネットワーク５４０において、ＯＳ５１０が、種々のサブシステム／ネットワークノード（すなわち、Ｎ１、Ｎ２、・・・、Ｎｍ）においてトランスコード／変更される可能性があり、結果として生成された信号ＰＳ１、ＰＳ２、・・・、ＰＳｍを、コンピュータ７００へと供給することができる。これにより、電気通信ネットワーク５４０の種々の／個々のサブシステム（すなわち、Ｎ１、Ｎ２、・・・、Ｎｍ）についてのＱｊ５３０（ここで、ｊ＝１、２、・・・、ｍ）がもたらされる。すなわち、ＯＳ５１０が、ＳＱＥＳへと供給され、電気通信ネットワーク５４０のサブシステムＮ１にも供給される。したがって、出力Ｑ１５３０は、電気通信ネットワーク５４０のサブシステムＮ１の信号品質の指標である。これを、サブシステムＮ２、・・・、Ｎｍについて繰り返すことができる。後述のフロー６００が、Ｑ５３０の生成に関する工程が、図５ａに関して上述したサブシステムについての手順の繰り返しを含むことができることを示している。

図６は、上述の音声品質評価システム５００の実施形態に従ってＱ５３０を計算するための手順の各工程を示している。第１の工程６０５において、コンピュータ７００が、ＯＳ５１０およびＰＳ５２０を受信する。第２の工程６１０において、コンピュータ７００は、音声信号の第１の組のパラメータを決定し、この第１の組のパラメータは、符号化ひずみパラメータＱ_ＣＯＤ、ＢＷ、およびＰＬを含む。上述のように、例えば式（３）を用いる計算によってＱ_ＣＯＤを決定するためのさまざまなやり方が存在する。提示レベルは、文献［１］のチャプタ５．１〜５．３のとおりに計算される有効音声レベル、または文献［１］のチャプタ６に記載の任意の適当な同等物として決定することができる。換言すると、当業者に知られたとおり、ＰＬは、瞬時のパワーに比例する量を該当の音声が存在する時間の全体について積分し、総エネルギーを有効時間で除算したものに比例する商を、基準に対するデシベルで表現することによって測定される有効音声レベルに関係する。ＰＬは、本発明の一実施形態においては、基準信号の提示レベルと音声信号の提示レベルとの間の差であり、すなわち図５および５ａに示した「クリーン」な元の信号ＯＳと処理済みの信号ＰＳとの間の差である。ＢＷは、基準信号および音声信号の帯域幅の値の間の差として決定でき、すなわち元の信号ＯＳと処理済みの信号ＰＳとの間の帯域幅の差として決定できる。音声信号の帯域幅の値を、文献［６］におけるＭｏｄｅｌＯｕｔｐｕｔＶａｒｉａｂｌｅＢａｎｄｗｉｄｔｈＴｅｓｔ_Ｂと同じやり方で計算することができ、すなわち文献［６］のチャプタ４．４．１．に説明されているやり方で計算することができる。第３の工程６２０において、コンピュータ７００が、例えば式（２）による計算によって該第１の組のパラメータから第２の組のパラメータ（ここでは、ω_１、ω_２）を抽出する。第４の工程６３０において、コンピュータ７００が、第１の組のパラメータおよび第２の組のパラメータからＱ５３０を計算するが、該信号品質の指標は、式（１）から導出され、該音声信号のＱ５３０を使用する音声信号の品質の評価を改善する。随意による第５の工程６４０において、コンピュータが、品質評価システムにおいてＱ５３０を使用し、すなわち従来技術の品質値よりも優れた品質の指標として使用する。Ｑは、当然ながら、いくつかの実施形態においては、さらなる品質値の計算の一部、例えば複数の品質指標の和（知られた方法によって生成される他の品質指標との和）（例えば、重み付け和）である第２の信号品質指標であってもよい。換言すると、コンピュータ７００が、音声品質評価システム５００における信号品質の指標を改善する。随意による第６の工程６４５において、Ｑ５３０を出力信号として出力することができる。出力信号を、コンピュータ７００に保存でき、例えばコンピュータプログラム製品７１０（図８を参照）などの揮発メモリまたは不揮発メモリに保存することができる。出力信号を、当然ながら音声品質評価システム５００において音声品質の評価にも使用できるコンピュータ５５０に保存してもよい。あるいは、出力信号の一部をコンピュータ７００に保存し、一部を第２のコンピュータ５５０に保存してもよい。いくつかの実施形態においては、第６の工程６４５が、第５の工程６４０を実行することなく行われ、すなわちいくつかの実施形態においては、コンピュータ７００が、Ｑ５３０を第２のコンピュータ５５０へと送信し、第２のコンピュータ５５０がＱ５３０を音声信号の品質の評価に使用する。随意による第７の工程６５０において、図５ａにおけるサブシステムＮ１、Ｎ２、・・・、Ｎｍに関する実施形態によれば、工程６１０〜工程６４５を、先に述べたサブシステムにおける音声品質を改善するためにｍ回繰り返すことができる。

図７は、ＳＱＥＳの形態のコンピュータ７００の実施形態を概略的に示している。ＳＱＥＳは、
工程６１０を実行する決定ユニット７２０と、
工程６２０を実行する抽出ユニット７３０と、
工程６３０を実行する計算ユニット７４０と、
工程６４０を実行する音声品質評価ユニット７５０と、
入力ユニット７６０および出力ユニット７７０と
を有する。

図７に関連して開示されたそれぞれのユニットは、コンピュータ７００における物理的に別々のユニットとして開示されているが、いずれもＡＳＩＣ（特定用途向け集積回路）などの専用の回路であってもよく、本発明は、一部またはすべてのユニットが汎用のプロセッサ上で動作するコンピュータ・プログラム・モジュールとして実現されるコンピュータ７００の実施形態を包含する。そのような実施形態が、図８に関連して開示される。

図８は、図７に示したＳＱＥＳの実施形態を開示する別のやり方であってもよいＳＱＥＳの形態のコンピュータ７００の実施形態を概略的に示している。ここで、ＳＱＥＳは、例えばＤＳＰ（デジタル信号プロセッサ）を有する処理ユニット７１３と、エンコーディング／デコーディングモジュールとを備える。処理ユニット７１３は、本明細書に記載の手順の種々の工程を実行するための単一のユニットまたは複数のユニットであってもよい。さらにＳＱＥＳは、ＯＳ５１０およびＰＳ５２０を受信するための入力ユニット７６０と、上述の工程６４５においてＱ５３０を出力するための出力ユニット７７０とを備える。入力ユニット７６０および出力ユニット７７０を、ＳＱＥＳのハードウェアにおいて１つのユニットとして構成することができ、すなわち単一のポートとして構成することができる。

さらに、ＳＱＥＳは、例えばＥＥＰＲＯＭ（電気的に消去可能なプログラマブル読み出し専用メモリ）、フラッシュメモリ、およびディスクドライブなどの不揮発メモリの形態の少なくとも１つのコンピュータプログラム製品７１０を備える。コンピュータプログラム製品７１０は、ＳＱＥＳ上で実行されたときにＳＱＥＳに図６に関連して上述した手順の各工程を実行させることができるコード手段を含むコンピュータプログラム７１１を含む。したがって、上述の例示的実施形態において、ＳＱＥＳのコンピュータプログラム７１１のコード手段が、Ｑ_ＣＯＤ、ＢＷ、およびＰＬを含む第１の組のパラメータを決定するための決定モジュール７１１ａと、該第１の組のパラメータからω_１、ω_２を含む第２の組のパラメータを抽出するための抽出モジュール７１１ｂと、該音声信号のＱ５３０を決定するための計算モジュール７１１ｃと、少なくともＱ５３０に基づいて品質の評価を改善するための音声品質評価モジュール７１１ｄとを備える。モジュール７１１ａ〜７１１ｄは、基本的に、図７に記載のコンピュータ７００を実現すべく処理ユニット７１３において実行されるときにフロー６００の各工程を実行する。換言すると、種々のモジュール７１１ａ〜７１１ｄは、処理ユニット７１３上で実行されるときに、図７の該当のユニット７２０、７３０、７４０、および７５０に相当する。

図８に関連して開示した上記実施形態におけるコード手段は、ＳＱＥＳ上で実行されたときに、ＳＱＥＳに上述の図に関連して上述した各工程を実行させるコンピュータ・プログラム・モジュールとして実現されているが、他の実施形態においては、コード手段のうちの少なくとも１つを、少なくとも部分的にハードウェア回路として実現してもよい。

ＢＷおよびＰＬの低下の影響を取り入れるための上述の仕組みは、未知のデータにおける安定な性能を保証する品質評価アルゴリズムにおける半線型モデルの維持を可能にする。上述の仕組みを、文献［２］におけるＰＥＳＱ、文献［６］におけるＰＥＡＱ（ＯｂｊｅｃｔｉｖｅＭｅａｓｕｒｅｍｅｎｔｓｏｆＰｅｒｃｅｉｖｅｄＡｕｄｉｏＱｕａｌｉｔｙ）、文献［４］におけるＭＮＢ（ＭｅａｓｕｒｉｎｇＮｏｒｍａｌｉｚｉｎｇＢｌｏｃｋ）、および文献［５］におけるＰ．５６３などの音声品質の評価のための既存の規格のいずれかの拡張として使用することができる。

本発明のさらなる実施形態は、例えばＳＱＥＳの形態の音声品質評価コンピュータを備える音声品質評価システムにおける方法に関する。この方法は、音声品質評価コンピュータによって実行される以下のステップ、すなわち
信号についての符号化ひずみパラメータＱ_ＣＯＤ、帯域幅関連のひずみパラメータＢＷ、および提示レベルのひずみパラメータＰＬを含む第１の組のパラメータを決定するステップと、
該第１の組のパラメータから第２の組のパラメータω_１、ω_２を抽出するステップと、
第１の組のパラメータおよび第２の組のパラメータから、
Ｑ_ＣＯＤ＋ω_１・ＢＷ＋ω_２・ＰＬ
で導出される信号品質指標Ｑを計算するステップと、
該信号についてのＱを使用して信号の品質評価を改善するステップと
を含む。

正のω_１、ω_２の値において、該信号のＱは、ひずみの和が減少するにつれて改善／増加する。負のω_１、ω_２の値において、該信号のＱは、ひずみの和が減少するにつれて減少／低下する。

本発明の別の実施形態においては、通信ネットワークへと接続されるように構成された音声品質評価コンピュータ、例えば、ＳＱＥＳを備える装置が提供される。
音声品質評価コンピュータは、
信号についての、符号化ひずみパラメータＱ_ＣＯＤ、帯域幅関連のひずみパラメータＢＷ、および提示レベルのひずみパラメータＰＬを含む第１の組のパラメータを決定するための決定ユニットと、
該第１の組のパラメータから第２の組のパラメータω_１、ω_２を抽出するための抽出ユニットと、
第１の組のパラメータおよび第２の組のパラメータから、
Ｑ_ＣＯＤ＋ω_１・ＢＷ＋ω_２・ＰＬ
で導出される信号品質指標Ｑを計算するための計算ユニットと、
該信号についてのＱを使用して信号の品質評価を改善するための改善ユニットと
を備える。

本発明の別の実施形態においては、音声品質の評価のためのコンピュータプログラムが提供され、このコンピュータプログラムが、通信ネットワークに接続された音声品質評価コンピュータ上で実行されたときにこの音声品質評価コンピュータに、
信号についての符号化ひずみパラメータＱ_ＣＯＤ、帯域幅関連のひずみパラメータＢＷ、および提示レベルのひずみパラメータＰＬを含む、第１の組のパラメータ（Ｑ_ＣＯＤ、ＢＷ、ＰＬ）を決定するステップと、
該第１の組のパラメータから第２の組のパラメータω_１、ω_２を抽出するステップと、
第１の組のパラメータおよび第２の組のパラメータから、
Ｑ_ＣＯＤ＋ω_１・ＢＷ＋ω_２・ＰＬ
で導出される信号品質指標Ｑを計算するステップと、
該信号についてのＱを使用して信号の品質の評価を改善するステップと
を実行させるコード手段を含む。

Claims

音声品質の評価のためのコンピュータによって実行される方法であって、
音声信号についての符号化ひずみパラメータ（Ｑ_ＣＯＤ）、帯域幅関連のひずみパラメータ（ＢＷ）、および提示レベルのひずみパラメータ（ＰＬ）を決定するステップと、
前記符号化ひずみパラメータ（Ｑ_ＣＯＤ）に依存する第１の係数（ω_１）および第２の係数（ω_２）を抽出するステップと、
Ｑ_ＣＯＤ＋ω_１・ＢＷ＋ω_２・ＰＬである信号品質指標（Ｑ）を計算するステップと、
前記音声信号の品質評価において前記信号品質指標（Ｑ）を使用するステップと
を含む方法。
前記第１の係数（ω_１）および前記第２の係数（ω_２）を抽出する前記ステップが、

に等しいω_ｉを計算することによって実行され、
ここで、ｉ＝｛１，２｝であり、γおよびαは、学習される係数または実験的に決定される係数である請求項１に記載の方法。
前記第１の係数（ω_１）および前記第２の係数（ω_２）を抽出する前記ステップが、

に等しいω_ｉを計算することによって実行され、
ここで、ｉ＝｛１，２｝であり、γおよびβは、学習される係数または実験的に決定される係数である請求項１に記載の方法。
前記第１の係数（ω_１）および前記第２の係数（ω_２）を抽出する前記ステップが、

に従って前記第１の係数（ω_１）および前記第２の係数（ω_２）を計算することによって実行され、
ここで、ｉ＝｛１，２｝であり、γ、α、およびβは、学習される係数または実験的に決定される係数である請求項１に記載の方法。
前記符号化ひずみパラメータ（Ｑ_ＣＯＤ）が、

から前記符号化ひずみパラメータ（Ｑ_ＣＯＤ）を抽出することによって決定され、
ここで、Ｎは、前記音声信号におけるフレームまたはブロックの数であり、Ｗは、周波数帯の数であり、前記Ｎおよび前記Ｗは、コーデックのビットレートに関係し、ｎは、時間フレーム、フレームインデックス、またはフレームカウンタの値であり、ｆは、周波数カウンタまたは帯域インデックスの値であり、Ｐは、前記音声信号のパワースペクトルを表わしている請求項１〜４のいずれか一項に記載の方法。
前記信号品質指標（Ｑ）が、
通信ネットワーク（５４０）を監視して、不良のネットワークノード（Ｎ１〜Ｎｍ）を検出し、
知覚品質が最良となるように前記通信ネットワーク（５４０）のネットワーク設定を最適化し、
音声コーデックを最適化し、
雑音抑制システムを最適化し、または
音声品質の評価手順の浮動点および固定点の実施を評価するために使用される請求項１〜５のいずれか一項に記載の方法。
通信ネットワーク（５４０）へと接続されるように構成された音声品質の評価のためのコンピュータ（７００）であって、
音声信号についての符号化ひずみパラメータ（Ｑ_ＣＯＤ）、帯域幅関連のひずみパラメータ（ＢＷ）、および提示レベルのひずみパラメータ（ＰＬ）を決定するように構成された決定ユニット（７２０）と、
前記符号化ひずみパラメータ（Ｑ_ＣＯＤ）に依存する第１の係数（ω_１）および第２の係数（ω_２）を抽出するように構成された抽出ユニット（７３０）と、
Ｑ_ＣＯＤ＋ω_１・ＢＷ＋ω_２・ＰＬである信号品質指標（Ｑ）を計算するように構成された計算ユニット（７４０）と、
前記信号品質指標（Ｑ）を第２のコンピュータ（５５０）に保存すべく出力するように構成された出力ユニット（７７０）と
を備えるコンピュータ（７００）。
前記信号品質指標（Ｑ）を使用して前記音声信号の音声品質を評価するように構成された音声品質評価ユニット（７５０）を備える請求項７に記載のコンピュータ（７００）。
元の信号（５１０）および前記元の信号（５１０）の処理後の信号（５２０）を受信するための入力ユニット（７６０）を備える請求項７または請求項８に記載のコンピュータ（７００）。
前記抽出ユニット（７３０）が、前記第１の係数（ω_１）および前記第２の係数（ω_２）を、

に等しいω_ｉを計算することによって抽出するように構成されており、
ここで、ｉ＝｛１，２｝であり、γおよびαは、学習される係数または実験的に決定される係数である請求項７〜９のいずれか一項に記載のコンピュータ（７００）。
前記抽出ユニット（７３０）が、前記第１の係数（ω_１）および前記第２の係数（ω_２）を、

に等しいω_ｉを計算することによって抽出するように構成されており、
ここで、ｉ＝｛１，２｝であり、γおよびβは、学習される係数または実験的に決定される係数である請求項７〜１０のいずれか一項に記載のコンピュータ（７００）。
音声品質の評価のためのコンピュータプログラム（７１１）であって、
通信ネットワーク（５４０）に接続されたコンピュータ（７００）において実行されたときに前記コンピュータ（７００）に、
音声信号についての符号化ひずみパラメータ（Ｑ_ＣＯＤ）、帯域幅関連のひずみパラメータ（ＢＷ）、および提示レベルのひずみパラメータ（ＰＬ）を決定するステップと、
前記符号化ひずみパラメータに依存する第１の係数（ω_１）および第２の係数（ω_２）を抽出するステップと、
Ｑ_ＣＯＤ＋ω_１・ＢＷ＋ω_２・ＰＬである信号品質指標（Ｑ）を計算するステップと、
前記音声信号の品質評価において前記信号品質指標（Ｑ）を使用するステップと
を実行させるコード手段を含むコンピュータプログラム（７１１）。
前記コンピュータ（７００）において実行されたときに前記コンピュータ（７００）に、前記第１の係数（ω_１）および前記第２の係数（ω_２）を

に従って前記第１の係数（ω_１）および前記第２の係数（ω_２）を計算することによって抽出させるコード手段を含んでおり、
ここで、ｉ＝｛１，２｝であり、γ、α、およびβは、学習される係数または実験的に決定される係数である請求項１２に記載のコンピュータプログラム（７１１）。
前記コンピュータ（７００）において実行されたときに前記コンピュータ（７００）に、前記符号化ひずみパラメータ（Ｑ_ＣＯＤ）を

から前記符号化ひずみパラメータ（Ｑ_ＣＯＤ）を抽出することによって決定させるコード手段を含んでおり、
ここで、Ｎは、前記音声信号におけるフレームまたはブロックの数であり、Ｗは、周波数帯の数であり、前記Ｎおよび前記Ｗは、コーデックのビットレートに関係し、ｎは、時間フレーム、フレームインデックス、またはフレームカウンタの値であり、ｆは、周波数カウンタまたは帯域インデックスの値であり、Ｐは、前記音声信号のパワースペクトルを表わしている請求項１２または請求項１３に記載のコンピュータプログラム（７１１）。
コンピュータによって読み取り可能なコード手段と、前記コンピュータにとって読み取り可能な手段に保存された請求項１２〜１４のいずれか一項に記載のコンピュータプログラム（７１１）とを含むコンピュータプログラム製品（７１０）。