[go: up one dir, main page]

JP2013500498A - 音声品質の評価のための方法、コンピュータ、コンピュータプログラム、およびコンピュータプログラム製品 - Google Patents

音声品質の評価のための方法、コンピュータ、コンピュータプログラム、およびコンピュータプログラム製品 Download PDF

Info

Publication number
JP2013500498A
JP2013500498A JP2012521598A JP2012521598A JP2013500498A JP 2013500498 A JP2013500498 A JP 2013500498A JP 2012521598 A JP2012521598 A JP 2012521598A JP 2012521598 A JP2012521598 A JP 2012521598A JP 2013500498 A JP2013500498 A JP 2013500498A
Authority
JP
Japan
Prior art keywords
computer
coefficient
signal
cod
distortion parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2012521598A
Other languages
English (en)
Inventor
ヴォロージャ グランシャロヴ,
マッツ フォルケッソン,
Original Assignee
テレフオンアクチーボラゲット エル エム エリクソン(パブル)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by テレフオンアクチーボラゲット エル エム エリクソン(パブル) filed Critical テレフオンアクチーボラゲット エル エム エリクソン(パブル)
Publication of JP2013500498A publication Critical patent/JP2013500498A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/69Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本発明は、音声品質の評価のための方法、コンピュータ、コンピュータプログラム、およびコンピュータプログラム製品に関する。この方法は、音声信号についての符号化ひずみパラメータ(QCOD)、帯域幅関連のひずみパラメータ(BW)、および提示レベルのひずみパラメータ(PL)を決定するステップと、符号化ひずみパラメータに依存する第1の係数(ω)および第2の係数(ω)を抽出するステップと、QCOD+ω・BW+ω・PLである信号品質指標(Q)を計算するステップと、音声信号の品質の評価において信号品質指標を使用するステップとを含む。

Description

本発明は、音声品質の評価に関し、より具体的には、音声品質の評価のための方法、コンピュータプログラム、コンピュータプログラム製品、およびコンピュータに関する。
帯域幅の制限および信号の提示レベル(presentation level)の変化が、音声品質の全体としての知覚に影響を及ぼす。提示レベルは、聴き手側における有効音声レベル(active speech level)である。有効音声レベルの測定方法は、[1]ITU−T Rec.P.56(03/93) Objective measurement of Active Speech Levelにおいて説明されている。
帯域幅および提示レベルの変化が、品質低下の唯一の原因であるならば、それらを単純なやり方で音声品質に関連付けることが可能であり、より広い帯域幅およびより高い提示レベルの信号ほど、より高い品質を有し、その逆も然りである。しかしながら、典型的な符号化アーチファクトの場合には、この関係がきわめて非線形になり、信号の帯域幅の制限、および/または提示レベルの低下が、品質の向上につながる可能性もある。この効果は、下記の文献[2]〜[6]に開示されている仕組みなど、従来からの品質評価の仕組みでは獲得することが難しい。
[2]ITU−T Rec.P.862(02/2001)、Perceptual evaluation of speech quality(PESQ),an objective method for end−to−end speech quality assessment in narrow−band telephone networks and speech codecs、
[3]ITU−T Rec.P.862.2(11/2005)、Wideband extension to Recommendation P.862 for the assessment of wideband telephone networks and speech codecs、
[4]ANSI T1.518−1998(R2003)、Objective Measurement of Telephone Band Speech Quality Using Measuring Normalizing Blocks、
[5]ITU−T P.563(05/2004)、Single ended method for objective speech quality assessment in narrow−band telephony applications、
[6]ITU−R Rec.BS.1387−1(11/01)、Method for objective measurements of perceived audio quality。
提示レベルは、典型的には[1]に記載のITU−T Rec.P.56の音声レベルメータに従って測定される信号の音の大きさに関係する。種々の提示レベルの信号の例が、本出願の図1に示されている。
信号の帯域幅は、それを超えると周波数関数がゼロに近くなる(例えば、最大の周波数の値を10〜20dBも下回る)周波数の範囲である。NB(狭帯域)IRS(中間基準系)フィルタによって処理された超広帯域信号(50〜14000Hz)の例が、図2に示されている。IRSは、NBコーデックおよび他のNB系の送信/受信特性を規定している。IRSは、300Hz未満および3400Hz超を減衰させる、[7]ITU−T Rec.P.48、Telephone Transmission Quality,Transmission Standards,Specification for an Intermediate Reference Systemに記載の帯域通過フィルタを規定している。
本発明の目的は、音声品質の評価を改善すること、すなわち音声信号の音声品質の評価を改善することである。
本発明は、音声品質の評価のためのコンピュータによって実行される方法に関する。この方法は、
音声信号についての符号化ひずみパラメータQCOD、帯域幅関連のひずみパラメータBW、および提示レベルのひずみパラメータPLを決定するステップと、
CODに依存する第1の係数ωおよび第2の係数ωを抽出するステップと、
COD+ω・BW+ω・PLである信号品質指標Qを計算するステップと、
音声信号の品質評価においてQを使用するステップと
を含む。
これにより、帯域幅の制限および提示レベルの変化が考慮に入れられる。本発明は、符号化雑音と、帯域幅の変化と、提示レベルの変化との間の非線形関係を獲得することができるが、依然として単純であり、したがって未知のデータに、より良好に適合する仕組みを提供する。このやり方で、BWおよびPLの影響を、データの過剰フィッティング(overfitting)に関する問題を引き起こすことなく、より一般的な品質評価の仕組みに取り入れることができる。
この方法の一実施形態においては、ωおよびωを抽出するステップが、
Figure 2013500498

を計算することによって実行され、
ここで、i={1,2}であり、γおよびαは、学習される係数または実験的に決定される係数である。
この方法の一実施形態においては、ωおよびωを抽出するステップが、
Figure 2013500498

を計算することによって実行され、
ここで、i={1,2}であり、γおよびβは、学習される係数または実験的に決定される係数である。
この方法の一実施形態においては、ωおよびωを抽出するステップが、
Figure 2013500498

に従ってωおよびωを計算することによって実行され、
ここで、i={1,2}であり、γ、α、およびβは、学習される係数または実験的に決定される係数である。
CODを、
Figure 2013500498

からQCODを抽出することによって決定することができ、
ここで、Nは、音声信号におけるフレームまたはブロックの数であり、Wは、周波数帯の数であり、NおよびWは、コーデックのビットレートに関係し、nは、時間フレーム、フレームインデックス、またはフレームカウンタの値であり、fは、周波数カウンタまたは帯域インデックスの値であり、Pは、音声信号のパワースペクトルを表わしている。
Qを、本方法の一実施形態において、
通信ネットワークを監視して、不良のネットワークノードを検出し、
知覚品質が最良となるように通信ネットワークのネットワーク設定を最適化し、
音声コーデックを最適化し、
雑音抑制システムを最適化し、または
音声品質の評価手順の浮動点および固定点(floating and fixed point)の実施を評価するために使用することができる。
さらに本発明は、音声品質の評価のためのコンピュータに関する。このコンピュータは、通信ネットワークへと接続されるように構成され、
音声信号についての、QCOD、BW、およびPLを決定するように構成された決定ユニットと、
CODに依存するωおよびωを抽出するように構成された抽出ユニットと、
COD+ω・BW+ω・PLであるQを計算するように構成された計算ユニットと、
Qを第2のコンピュータに保存すべく出力するように構成された出力ユニットと
を備える。
このコンピュータは、Qを使用して音声信号の音声品質を評価するように構成された音声品質評価ユニットを備えることができる。
このコンピュータは、元の信号および、元の信号の処理後の信号を受信するための入力ユニットを備えることができる。
このコンピュータの抽出ユニットを、ω
Figure 2013500498

を計算することによってωおよびωを抽出するように構成でき、
ここで、i={1,2}であり、γおよびαは、学習される係数または実験的に決定される係数である。
このコンピュータの抽出ユニットを、ω
Figure 2013500498

を計算することによってωおよびωを抽出するように構成でき、
ここで、i={1,2}であり、γおよびβは、学習される係数または実験的に決定される係数である。
さらに本発明は、音声品質の評価のためのコンピュータプログラムに関する。このコンピュータプログラムは、通信ネットワークに接続されたコンピュータにおいて実行されたときに、このコンピュータに
音声信号のQCOD、BW、およびPLを決定するステップと、
CODに依存するωおよびωを抽出するステップと、
Q=QCOD+ω・BW+ω・PLであるQを計算するステップと、
音声信号の品質の評価においてQを使用するステップと
を実行させるコード手段を含む。
このコンピュータプログラムは、コンピュータにおいて実行されたときに、
Figure 2013500498

に従ってωおよびωを計算することによって、このコンピュータにωおよびωを抽出させるコード手段を含むことができ、
ここで、i={1,2}であり、γ、α、およびβは、学習される係数または実験的に決定される係数である。
このコンピュータプログラムは、コンピュータにおいて実行されたときに、このコンピュータに
Figure 2013500498

からQCODを抽出することによって、QCODを決定させるコード手段を含むことができ、
ここで、Nは、音声信号におけるフレームまたはブロックの数であり、Wは、周波数帯の数であり、NおよびWは、コーデックのビットレートに関係し、nは、時間フレーム、フレームインデックス、またはフレームカウンタの値であり、fは、周波数カウンタまたは帯域インデックスの値であり、Pは、音声信号のパワースペクトルを表わしている。
さらに本発明は、コンピュータによって読み取り可能なコード手段と、このコンピュータにとって読み取り可能な手段に保存されたコンピュータプログラムとを含むコンピュータプログラム製品に関する。
本発明の目的、利点、および効果、ならびに特徴が、本発明の例示的実施形態についての以下の詳細な説明から、添付の図面と併せて検討することによって、より容易に明らかになるであろう。
提示レベルが73dB SPLである信号(上側)、および提示レベルが63dB SPLである信号(下側)を示している。 IRS処理された信号(150Hz未満および3500Hz超の周波数を減衰させている)、および14kHzまでの周波数を有する元の信号を示している。 音声相関雑音の存在における帯域幅の制限の影響を示している。 音声相関雑音の存在における提示レベルの変化の影響を示している。 音声品質評価システムの実施形態を示している。 音声品質評価システムの別の実施形態を示している。 Qを計算するための工程の流れ図を示している。 信号品質の評価のためのコンピュータの実施形態を示している。 信号品質の評価のためのコンピュータの実施形態を示している。
本発明は、さまざまな変更および代案を包含するが、本発明のいくつかの実施形態が図面に示され、以下で詳しく説明される。しかしながら、特定の説明および図面が、本発明を開示される特定の形態に限定しようとするものではないことを理解すべきである。むしろ、請求される本発明の技術的範囲は、添付の特許請求の範囲に表わされるとおりの本発明の技術的思想および技術的範囲に包含されるすべての変更および代案を含むものである。
提示レベルの変化および帯域幅の制限は、音声通信システム/電気通信ネットワークにおける典型的なひずみである。符号化ひずみが存在するとき、帯域幅および提示レベルの低下と知覚品質との間の関係が、非線形になる。これが、図3および図4に示されており、両方の図の品質は、MOS(平均オピニオン評点)を尺度にして示されており、符号化ひずみは、MNRU(被変調雑音基準ユニット)でモデル化されている。クリーンな元の信号(上側の曲線)において、より広い帯域幅がより高い品質を意味する一方で、相関雑音を有する信号においては、この作用が逆になる(下側の曲線)。図3には、3つの典型的な信号、すなわち4kHzよりも上の周波数成分を持たないNB信号と、7kHzよりも上の周波数成分を持たないWB(広帯域)信号と、14kHzよりも上の周波数成分を持たないSWB(超広帯域)信号とが描かれている。これらはすべて、帯域幅の定義およびそれぞれの上側のカットオフ周波数4、7kHz、または14kHzから得られる。図4に示されるとおり、より大きい音の信号は、クリーンな元の信号においてはより高い品質を意味するが、相関雑音を有する信号においては、より大きい音の信号がより低い品質を意味している。SPL(音圧レベル)は、所定の強度レベルに対する音響強度レベルの対数である。
MOSは、[8]ITU−T Rec.P.800(08/96)、Methods for Subjective Determination of Transmission Qualityに記載の聴き取りテストである。聴き手が、信号の品質を1〜5の尺度(意味は、1(非常に悪い)、2(悪い)、3(普通)、4(良い)、5(非常によい)である)で格付けする。MNRUは、音声信号に制御された品質低下を導入するための方法であり、典型的には聴き取りテストにおいてアンカ状態として用いられる。音声信号の品質が、所定のレベルの音声相関雑音を混合することによって下げられる。これは、知覚的には、音声圧縮システムによって導入される量子化雑音の影響を模擬している。この方法は、[9]ITU−T P.810(02/96)、Telephone Transmission Quality,Methods for Objective and Subjective assessment of Quality,Modulated Noise Reference Unit(MNRU)に説明されている。
上述した既存の技術的解決策においては、種々の品質次元の間の非線形な相互作用が、まったく取り込まれておらず(文献[2]〜[5])、あるいは文献[6]のように人工ニューラルネットワークによって盲目的にモデル化されている。これらの影響を無視し、あるいは単純な線型モデルを使用することは、図3および図4に示されているとおり、上手くいかない。文献[6]のような複雑な分類器の自動的な学習は、未知の種類のデータにおける性能の低下という代償をともなう。実際に、文献[6]に記載の方法の性能が、文献[2]〜[5]に開示のはるかに単純なモデルよりも低くなる可能性すら存在する。
したがって、本発明によれば、帯域幅に関係したひずみパラメータ(BW)および提示レベルのひずみパラメータ(PL)を、音声品質の評価の結果に算入することが提案される。この算入により、線型モデル/モデル化の可能性の多くが維持され、結果として音声品質の評価システムに安定性の向上がもたらされる。BWおよびPLは、符号化ひずみパラメータQCODのレベルに依存する係数ω(ここで、i={1,2})を有する半線型モデルにて信号品質指標(Q)の全体的な品質に寄与する。式(1)および(2)を参照されたい。
Q=QCOD+ωBW+ωPL (1)
Figure 2013500498
ここで、係数γ、β、およびαは、主観的データに対して学習される係数/例えば聴き取りテストからの品質の格付けによって実験的に決定される係数である。係数ω、ωの範囲は、QCOD、PL、およびBWの範囲に依存する。例として、{QCOD、PL、BW}が0〜1の間である場合、係数ω、ωは、−1〜1の間であってもよい。係数ω、ωは、元の品質と予測による品質との間の予測精度を最大にするように最適化される。最適化を、当業者にとって知られた種々のやり方で実行することができるが、一例は、客観的品質と主観的品質との間の平均平方誤差を最小にすることであり、客観的品質は、コンピュータによる計算から得られる値であり、主観的品質は、人間が品質を判断するテストによって得られる値である。
式(2)から、帯域幅および提示レベルの低下が、符号化雑音のレベルに基づいて正または負に寄与しうることを見て取ることができる。符号化ひずみQCODを、符号化のビットレートから決定でき、文献[2]のPESQなどの知覚モデルから決定でき、または例えば平均スペクトル平坦度を通じて音声信号について直接測定することができる。式(3)を参照されたい。
Figure 2013500498
CODは、全体としての符号化ひずみを表わすことができ、または雑音度、スペクトルの異常値、などといった特定の品質次元だけを表わしてもよい。式(3)において、Nは、音声信号におけるフレーム/ブロックの数であり、Wは、周波数帯の数であり、NおよびWは、コーデックのビットレートに関係し、nは、時間フレーム/フレームインデックス/フレームカウンタの値であり、fは、周波数カウンタ/帯域インデックスの値であり、Pは、音声信号のパワースペクトルを表わしている。
図5は、音声品質評価システム500を備える実施形態を示している。音声品質評価システム500は、電気通信ネットワーク540と、ここでは音声品質評価サーバ(SQES)の形態である、音声品質の評価のためのコンピュータ700とを備える。SQESは、ここでは電気通信ネットワーク540における2つの点に接続され、すなわちSQESが、元の信号(OS)510および処理済みの信号(PS)520を入力として受信する。処理済みの信号は、BWおよびPLの変化を生じさせる電気通信ネットワーク540の少なくとも1つのノード(例えば、送信装置または圧縮装置)によって処理されている。OS510が、SQESおよび電気通信ネットワーク540に供給される。PS520は、電気通信ネットワーク540から出力される。SQESは、Q530を出力するが、Q530は、単独または当技術分野で知られた他の信号品質値との組み合わせにおいて、信号品質の全体としての指標であってもよい。Q530は、式(1)を使用して導出することができる。換言すると、Q530は、{QCOD、PL、BW}の重み付け和または{QCOD、PL、BW}の写像である。後述のフロー600が、Q530の生成に関する工程を示している。さらに図5は、ここでは通信ネットワーク540に配置された第2のコンピュータ550を開示している。第2のコンピュータは、例えばdB値または当業者に知られた任意の派生値の形態で、Qを受信して、随意により保存するように構成されている。受信したQに基づいて、第2のコンピュータ550は、内部のプロセスを開始または調節でき、あるいは通信ネットワーク540の他のノードによって実行される外部のプロセスの調節または起動を開始することができる。
Q530の値を、
通信ネットワーク540を監視して、不良のネットワークノードを検出し、
知覚品質が最良となるようにネットワークの設定を最適化し、
音声コーデック、雑音抑制システムなどを最適化し、
音声品質の評価手順の実施を評価し、すなわち浮動点および固定点の実施を評価するために使用することができる。
図5aは、音声品質評価システム500の別の実施形態を示している。電気通信ネットワーク540において、OS510が、種々のサブシステム/ネットワークノード(すなわち、N1、N2、・・・、Nm)においてトランスコード/変更される可能性があり、結果として生成された信号PS1、PS2、・・・、PSmを、コンピュータ700へと供給することができる。これにより、電気通信ネットワーク540の種々の/個々のサブシステム(すなわち、N1、N2、・・・、Nm)についてのQj530(ここで、j=1、2、・・・、m)がもたらされる。すなわち、OS510が、SQESへと供給され、電気通信ネットワーク540のサブシステムN1にも供給される。したがって、出力Q1 530は、電気通信ネットワーク540のサブシステムN1の信号品質の指標である。これを、サブシステムN2、・・・、Nmについて繰り返すことができる。後述のフロー600が、Q530の生成に関する工程が、図5aに関して上述したサブシステムについての手順の繰り返しを含むことができることを示している。
図6は、上述の音声品質評価システム500の実施形態に従ってQ530を計算するための手順の各工程を示している。第1の工程605において、コンピュータ700が、OS510およびPS520を受信する。第2の工程610において、コンピュータ700は、音声信号の第1の組のパラメータを決定し、この第1の組のパラメータは、符号化ひずみパラメータQCOD、BW、およびPLを含む。上述のように、例えば式(3)を用いる計算によってQCODを決定するためのさまざまなやり方が存在する。提示レベルは、文献[1]のチャプタ5.1〜5.3のとおりに計算される有効音声レベル、または文献[1]のチャプタ6に記載の任意の適当な同等物として決定することができる。換言すると、当業者に知られたとおり、PLは、瞬時のパワーに比例する量を該当の音声が存在する時間の全体について積分し、総エネルギーを有効時間で除算したものに比例する商を、基準に対するデシベルで表現することによって測定される有効音声レベルに関係する。PLは、本発明の一実施形態においては、基準信号の提示レベルと音声信号の提示レベルとの間の差であり、すなわち図5および5aに示した「クリーン」な元の信号OSと処理済みの信号PSとの間の差である。BWは、基準信号および音声信号の帯域幅の値の間の差として決定でき、すなわち元の信号OSと処理済みの信号PSとの間の帯域幅の差として決定できる。音声信号の帯域幅の値を、文献[6]におけるModel Output Variable Bandwidth Testと同じやり方で計算することができ、すなわち文献[6]のチャプタ4.4.1.に説明されているやり方で計算することができる。第3の工程620において、コンピュータ700が、例えば式(2)による計算によって該第1の組のパラメータから第2の組のパラメータ(ここでは、ω、ω)を抽出する。第4の工程630において、コンピュータ700が、第1の組のパラメータおよび第2の組のパラメータからQ530を計算するが、該信号品質の指標は、式(1)から導出され、該音声信号のQ530を使用する音声信号の品質の評価を改善する。随意による第5の工程640において、コンピュータが、品質評価システムにおいてQ530を使用し、すなわち従来技術の品質値よりも優れた品質の指標として使用する。Qは、当然ながら、いくつかの実施形態においては、さらなる品質値の計算の一部、例えば複数の品質指標の和(知られた方法によって生成される他の品質指標との和)(例えば、重み付け和)である第2の信号品質指標であってもよい。換言すると、コンピュータ700が、音声品質評価システム500における信号品質の指標を改善する。随意による第6の工程645において、Q530を出力信号として出力することができる。出力信号を、コンピュータ700に保存でき、例えばコンピュータプログラム製品710(図8を参照)などの揮発メモリまたは不揮発メモリに保存することができる。出力信号を、当然ながら音声品質評価システム500において音声品質の評価にも使用できるコンピュータ550に保存してもよい。あるいは、出力信号の一部をコンピュータ700に保存し、一部を第2のコンピュータ550に保存してもよい。いくつかの実施形態においては、第6の工程645が、第5の工程640を実行することなく行われ、すなわちいくつかの実施形態においては、コンピュータ700が、Q530を第2のコンピュータ550へと送信し、第2のコンピュータ550がQ530を音声信号の品質の評価に使用する。随意による第7の工程650において、図5aにおけるサブシステムN1、N2、・・・、Nmに関する実施形態によれば、工程610〜工程645を、先に述べたサブシステムにおける音声品質を改善するためにm回繰り返すことができる。
図7は、SQESの形態のコンピュータ700の実施形態を概略的に示している。SQESは、
工程610を実行する決定ユニット720と、
工程620を実行する抽出ユニット730と、
工程630を実行する計算ユニット740と、
工程640を実行する音声品質評価ユニット750と、
入力ユニット760および出力ユニット770と
を有する。
図7に関連して開示されたそれぞれのユニットは、コンピュータ700における物理的に別々のユニットとして開示されているが、いずれもASIC(特定用途向け集積回路)などの専用の回路であってもよく、本発明は、一部またはすべてのユニットが汎用のプロセッサ上で動作するコンピュータ・プログラム・モジュールとして実現されるコンピュータ700の実施形態を包含する。そのような実施形態が、図8に関連して開示される。
図8は、図7に示したSQESの実施形態を開示する別のやり方であってもよいSQESの形態のコンピュータ700の実施形態を概略的に示している。ここで、SQESは、例えばDSP(デジタル信号プロセッサ)を有する処理ユニット713と、エンコーディング/デコーディングモジュールとを備える。処理ユニット713は、本明細書に記載の手順の種々の工程を実行するための単一のユニットまたは複数のユニットであってもよい。さらにSQESは、OS510およびPS520を受信するための入力ユニット760と、上述の工程645においてQ530を出力するための出力ユニット770とを備える。入力ユニット760および出力ユニット770を、SQESのハードウェアにおいて1つのユニットとして構成することができ、すなわち単一のポートとして構成することができる。
さらに、SQESは、例えばEEPROM(電気的に消去可能なプログラマブル読み出し専用メモリ)、フラッシュメモリ、およびディスクドライブなどの不揮発メモリの形態の少なくとも1つのコンピュータプログラム製品710を備える。コンピュータプログラム製品710は、SQES上で実行されたときにSQESに図6に関連して上述した手順の各工程を実行させることができるコード手段を含むコンピュータプログラム711を含む。したがって、上述の例示的実施形態において、SQESのコンピュータプログラム711のコード手段が、QCOD、BW、およびPLを含む第1の組のパラメータを決定するための決定モジュール711aと、該第1の組のパラメータからω、ωを含む第2の組のパラメータを抽出するための抽出モジュール711bと、該音声信号のQ530を決定するための計算モジュール711cと、少なくともQ530に基づいて品質の評価を改善するための音声品質評価モジュール711dとを備える。モジュール711a〜711dは、基本的に、図7に記載のコンピュータ700を実現すべく処理ユニット713において実行されるときにフロー600の各工程を実行する。換言すると、種々のモジュール711a〜711dは、処理ユニット713上で実行されるときに、図7の該当のユニット720、730、740、および750に相当する。
図8に関連して開示した上記実施形態におけるコード手段は、SQES上で実行されたときに、SQESに上述の図に関連して上述した各工程を実行させるコンピュータ・プログラム・モジュールとして実現されているが、他の実施形態においては、コード手段のうちの少なくとも1つを、少なくとも部分的にハードウェア回路として実現してもよい。
BWおよびPLの低下の影響を取り入れるための上述の仕組みは、未知のデータにおける安定な性能を保証する品質評価アルゴリズムにおける半線型モデルの維持を可能にする。上述の仕組みを、文献[2]におけるPESQ、文献[6]におけるPEAQ(Objective Measurements of Perceived Audio Quality)、文献[4]におけるMNB(Measuring Normalizing Block)、および文献[5]におけるP.563などの音声品質の評価のための既存の規格のいずれかの拡張として使用することができる。
本発明のさらなる実施形態は、例えばSQESの形態の音声品質評価コンピュータを備える音声品質評価システムにおける方法に関する。この方法は、音声品質評価コンピュータによって実行される以下のステップ、すなわち
信号についての符号化ひずみパラメータQCOD、帯域幅関連のひずみパラメータBW、および提示レベルのひずみパラメータPLを含む第1の組のパラメータを決定するステップと、
該第1の組のパラメータから第2の組のパラメータω、ωを抽出するステップと、
第1の組のパラメータおよび第2の組のパラメータから、
COD+ω・BW+ω・PL
で導出される信号品質指標Qを計算するステップと、
該信号についてのQを使用して信号の品質評価を改善するステップと
を含む。
正のω、ωの値において、該信号のQは、ひずみの和が減少するにつれて改善/増加する。負のω、ωの値において、該信号のQは、ひずみの和が減少するにつれて減少/低下する。
本発明の別の実施形態においては、通信ネットワークへと接続されるように構成された音声品質評価コンピュータ、例えば、SQESを備える装置が提供される。
音声品質評価コンピュータは、
信号についての、符号化ひずみパラメータQCOD、帯域幅関連のひずみパラメータBW、および提示レベルのひずみパラメータPLを含む第1の組のパラメータを決定するための決定ユニットと、
該第1の組のパラメータから第2の組のパラメータω、ωを抽出するための抽出ユニットと、
第1の組のパラメータおよび第2の組のパラメータから、
COD+ω・BW+ω・PL
で導出される信号品質指標Qを計算するための計算ユニットと、
該信号についてのQを使用して信号の品質評価を改善するための改善ユニットと
を備える。
本発明の別の実施形態においては、音声品質の評価のためのコンピュータプログラムが提供され、このコンピュータプログラムが、通信ネットワークに接続された音声品質評価コンピュータ上で実行されたときにこの音声品質評価コンピュータに、
信号についての符号化ひずみパラメータQCOD、帯域幅関連のひずみパラメータBW、および提示レベルのひずみパラメータPLを含む、第1の組のパラメータ(QCOD、BW、PL)を決定するステップと、
該第1の組のパラメータから第2の組のパラメータω、ωを抽出するステップと、
第1の組のパラメータおよび第2の組のパラメータから、
COD+ω・BW+ω・PL
で導出される信号品質指標Qを計算するステップと、
該信号についてのQを使用して信号の品質の評価を改善するステップと
を実行させるコード手段を含む。

Claims (15)

  1. 音声品質の評価のためのコンピュータによって実行される方法であって、
    音声信号についての符号化ひずみパラメータ(QCOD)、帯域幅関連のひずみパラメータ(BW)、および提示レベルのひずみパラメータ(PL)を決定するステップと、
    前記符号化ひずみパラメータ(QCOD)に依存する第1の係数(ω)および第2の係数(ω)を抽出するステップと、
    COD+ω・BW+ω・PLである信号品質指標(Q)を計算するステップと、
    前記音声信号の品質評価において前記信号品質指標(Q)を使用するステップと
    を含む方法。
  2. 前記第1の係数(ω)および前記第2の係数(ω)を抽出する前記ステップが、
    Figure 2013500498

    に等しいωを計算することによって実行され、
    ここで、i={1,2}であり、γおよびαは、学習される係数または実験的に決定される係数である請求項1に記載の方法。
  3. 前記第1の係数(ω)および前記第2の係数(ω)を抽出する前記ステップが、
    Figure 2013500498

    に等しいωを計算することによって実行され、
    ここで、i={1,2}であり、γおよびβは、学習される係数または実験的に決定される係数である請求項1に記載の方法。
  4. 前記第1の係数(ω)および前記第2の係数(ω)を抽出する前記ステップが、
    Figure 2013500498

    に従って前記第1の係数(ω)および前記第2の係数(ω)を計算することによって実行され、
    ここで、i={1,2}であり、γ、α、およびβは、学習される係数または実験的に決定される係数である請求項1に記載の方法。
  5. 前記符号化ひずみパラメータ(QCOD)が、
    Figure 2013500498

    から前記符号化ひずみパラメータ(QCOD)を抽出することによって決定され、
    ここで、Nは、前記音声信号におけるフレームまたはブロックの数であり、Wは、周波数帯の数であり、前記Nおよび前記Wは、コーデックのビットレートに関係し、nは、時間フレーム、フレームインデックス、またはフレームカウンタの値であり、fは、周波数カウンタまたは帯域インデックスの値であり、Pは、前記音声信号のパワースペクトルを表わしている請求項1〜4のいずれか一項に記載の方法。
  6. 前記信号品質指標(Q)が、
    通信ネットワーク(540)を監視して、不良のネットワークノード(N1〜Nm)を検出し、
    知覚品質が最良となるように前記通信ネットワーク(540)のネットワーク設定を最適化し、
    音声コーデックを最適化し、
    雑音抑制システムを最適化し、または
    音声品質の評価手順の浮動点および固定点の実施を評価するために使用される請求項1〜5のいずれか一項に記載の方法。
  7. 通信ネットワーク(540)へと接続されるように構成された音声品質の評価のためのコンピュータ(700)であって、
    音声信号についての符号化ひずみパラメータ(QCOD)、帯域幅関連のひずみパラメータ(BW)、および提示レベルのひずみパラメータ(PL)を決定するように構成された決定ユニット(720)と、
    前記符号化ひずみパラメータ(QCOD)に依存する第1の係数(ω)および第2の係数(ω)を抽出するように構成された抽出ユニット(730)と、
    COD+ω・BW+ω・PLである信号品質指標(Q)を計算するように構成された計算ユニット(740)と、
    前記信号品質指標(Q)を第2のコンピュータ(550)に保存すべく出力するように構成された出力ユニット(770)と
    を備えるコンピュータ(700)。
  8. 前記信号品質指標(Q)を使用して前記音声信号の音声品質を評価するように構成された音声品質評価ユニット(750)を備える請求項7に記載のコンピュータ(700)。
  9. 元の信号(510)および前記元の信号(510)の処理後の信号(520)を受信するための入力ユニット(760)を備える請求項7または請求項8に記載のコンピュータ(700)。
  10. 前記抽出ユニット(730)が、前記第1の係数(ω)および前記第2の係数(ω)を、
    Figure 2013500498

    に等しいωを計算することによって抽出するように構成されており、
    ここで、i={1,2}であり、γおよびαは、学習される係数または実験的に決定される係数である請求項7〜9のいずれか一項に記載のコンピュータ(700)。
  11. 前記抽出ユニット(730)が、前記第1の係数(ω)および前記第2の係数(ω)を、
    Figure 2013500498

    に等しいωを計算することによって抽出するように構成されており、
    ここで、i={1,2}であり、γおよびβは、学習される係数または実験的に決定される係数である請求項7〜10のいずれか一項に記載のコンピュータ(700)。
  12. 音声品質の評価のためのコンピュータプログラム(711)であって、
    通信ネットワーク(540)に接続されたコンピュータ(700)において実行されたときに前記コンピュータ(700)に、
    音声信号についての符号化ひずみパラメータ(QCOD)、帯域幅関連のひずみパラメータ(BW)、および提示レベルのひずみパラメータ(PL)を決定するステップと、
    前記符号化ひずみパラメータに依存する第1の係数(ω)および第2の係数(ω)を抽出するステップと、
    COD+ω・BW+ω・PLである信号品質指標(Q)を計算するステップと、
    前記音声信号の品質評価において前記信号品質指標(Q)を使用するステップと
    を実行させるコード手段を含むコンピュータプログラム(711)。
  13. 前記コンピュータ(700)において実行されたときに前記コンピュータ(700)に、前記第1の係数(ω)および前記第2の係数(ω)を
    Figure 2013500498

    に従って前記第1の係数(ω)および前記第2の係数(ω)を計算することによって抽出させるコード手段を含んでおり、
    ここで、i={1,2}であり、γ、α、およびβは、学習される係数または実験的に決定される係数である請求項12に記載のコンピュータプログラム(711)。
  14. 前記コンピュータ(700)において実行されたときに前記コンピュータ(700)に、前記符号化ひずみパラメータ(QCOD)を
    Figure 2013500498

    から前記符号化ひずみパラメータ(QCOD)を抽出することによって決定させるコード手段を含んでおり、
    ここで、Nは、前記音声信号におけるフレームまたはブロックの数であり、Wは、周波数帯の数であり、前記Nおよび前記Wは、コーデックのビットレートに関係し、nは、時間フレーム、フレームインデックス、またはフレームカウンタの値であり、fは、周波数カウンタまたは帯域インデックスの値であり、Pは、前記音声信号のパワースペクトルを表わしている請求項12または請求項13に記載のコンピュータプログラム(711)。
  15. コンピュータによって読み取り可能なコード手段と、前記コンピュータにとって読み取り可能な手段に保存された請求項12〜14のいずれか一項に記載のコンピュータプログラム(711)とを含むコンピュータプログラム製品(710)。
JP2012521598A 2009-07-24 2010-07-26 音声品質の評価のための方法、コンピュータ、コンピュータプログラム、およびコンピュータプログラム製品 Pending JP2013500498A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US22821209P 2009-07-24 2009-07-24
US61/228,212 2009-07-24
PCT/SE2010/050867 WO2011010962A1 (en) 2009-07-24 2010-07-26 Method, computer, computer program and computer program product for speech quality estimation

Publications (1)

Publication Number Publication Date
JP2013500498A true JP2013500498A (ja) 2013-01-07

Family

ID=43499278

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012521598A Pending JP2013500498A (ja) 2009-07-24 2010-07-26 音声品質の評価のための方法、コンピュータ、コンピュータプログラム、およびコンピュータプログラム製品

Country Status (4)

Country Link
US (1) US8655651B2 (ja)
EP (1) EP2457233A4 (ja)
JP (1) JP2013500498A (ja)
WO (1) WO2011010962A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7580495B2 (ja) 2020-05-29 2024-11-11 フラウンホファー ゲセルシャフト ツール フェールデルンク ダー アンゲヴァンテン フォルシュンク エー.ファオ. 初期オーディオ信号を処理するための方法および装置

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010140940A1 (en) * 2009-06-04 2010-12-09 Telefonaktiebolaget Lm Ericsson (Publ) A method and arrangement for estimating the quality degradation of a processed signal
US8350500B2 (en) * 2009-10-06 2013-01-08 Cree, Inc. Solid state lighting devices including thermal management and related methods
WO2011146002A1 (en) * 2010-05-17 2011-11-24 Telefonaktiebolaget Lm Ericsson (Publ) Method and arrangement for processing of speech quality estimate
KR101746178B1 (ko) * 2010-12-23 2017-06-27 한국전자통신연구원 광대역 음성 코덱을 사용하는 인터넷 프로토콜 기반 음성 전화 단말의 품질 측정 장치 및 방법
US9396738B2 (en) * 2013-05-31 2016-07-19 Sonus Networks, Inc. Methods and apparatus for signal quality analysis
US9685173B2 (en) * 2013-09-06 2017-06-20 Nuance Communications, Inc. Method for non-intrusive acoustic parameter estimation
US9870784B2 (en) 2013-09-06 2018-01-16 Nuance Communications, Inc. Method for voicemail quality detection
CN104517613A (zh) * 2013-09-30 2015-04-15 华为技术有限公司 语音质量评估方法及装置
JP6708122B2 (ja) 2014-06-30 2020-06-10 日本電気株式会社 誘導処理装置及び誘導方法
CN106816158B (zh) * 2015-11-30 2020-08-07 华为技术有限公司 一种语音质量评估方法、装置及设备
RU2757860C1 (ru) * 2021-04-09 2021-10-21 Общество с ограниченной ответственностью "Специальный Технологический Центр" Способ автоматической оценки качества речевых сигналов с низкоскоростным кодированием

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009089922A1 (en) * 2008-01-14 2009-07-23 Telefonaktiebolaget Lm Ericsson (Publ) Objective measurement of audio quality

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
NL9500512A (nl) * 1995-03-15 1996-10-01 Nederland Ptt Inrichting voor het bepalen van de kwaliteit van een door een signaalbewerkingscircuit te genereren uitgangssignaal, alsmede werkwijze voor het bepalen van de kwaliteit van een door een signaalbewerkingscircuit te genereren uitgangssignaal.
US6609092B1 (en) * 1999-12-16 2003-08-19 Lucent Technologies Inc. Method and apparatus for estimating subjective audio signal quality from objective distortion measures
NL1014075C2 (nl) * 2000-01-13 2001-07-16 Koninkl Kpn Nv Methode en inrichting voor het bepalen van de kwaliteit van een signaal.
EP1206104B1 (en) * 2000-11-09 2006-07-19 Koninklijke KPN N.V. Measuring a talking quality of a telephone link in a telecommunications network
EP1241663A1 (en) * 2001-03-13 2002-09-18 Koninklijke KPN N.V. Method and device for determining the quality of speech signal
EP1244094A1 (de) * 2001-03-20 2002-09-25 Swissqual AG Verfahren und Vorrichtung zur Bestimmung eines Qualitätsmasses eines Audiosignals
US7499856B2 (en) * 2002-12-25 2009-03-03 Nippon Telegraph And Telephone Corporation Estimation method and apparatus of overall conversational quality taking into account the interaction between quality factors
US7305341B2 (en) * 2003-06-25 2007-12-04 Lucent Technologies Inc. Method of reflecting time/language distortion in objective speech quality assessment
DE102004008207B4 (de) * 2004-02-19 2006-01-05 Opticom Dipl.-Ing. Michael Keyhl Gmbh Verfahren und Vorrichtung zur Qualitätsbeurteilung eines Audiosignals und Vorrichtung und Verfahren zum Erhalten eines Qualitätsbeurteilungsergebnisses
EP1792304B1 (en) 2004-09-20 2008-08-20 Nederlandse Organisatie voor Toegepast-Natuuurwetenschappelijk Onderzoek TNO Frequency compensation for perceptual speech analysis
US7801280B2 (en) * 2004-12-15 2010-09-21 Verizon Laboratories Inc. Methods and systems for measuring the perceptual quality of communications
US20060200346A1 (en) * 2005-03-03 2006-09-07 Nortel Networks Ltd. Speech quality measurement based on classification estimation
US7856355B2 (en) * 2005-07-05 2010-12-21 Alcatel-Lucent Usa Inc. Speech quality assessment method and system
EP1980089A4 (en) 2006-01-31 2013-11-27 Ericsson Telefon Ab L M Non-intrusive signal quality evaluation
TWI294618B (en) * 2006-03-30 2008-03-11 Ind Tech Res Inst Method for speech quality degradation estimation and method for degradation measures calculation and apparatuses thereof
EP2410516B1 (en) * 2007-09-11 2013-02-13 Deutsche Telekom AG Method and system for the integral and diagnostic assessment of listening speech quality
JP5204904B2 (ja) * 2009-01-30 2013-06-05 テレフオンアクチーボラゲット エル エム エリクソン(パブル) オーディオ信号品質予測
US8660281B2 (en) * 2009-02-03 2014-02-25 University Of Ottawa Method and system for a multi-microphone noise reduction

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009089922A1 (en) * 2008-01-14 2009-07-23 Telefonaktiebolaget Lm Ericsson (Publ) Objective measurement of audio quality

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JPN6014034825; Y.Hu et al.: 'Evaluation of Objective Quality Measures for Speech Enhancement' IEEE Transactions on Audio, Speech, and Language Processing Volume 16, Issue 1, 200801, p229-238, IEEE *
JPN7014002491; N.Cote et al.: 'Influence of Loudness Level on the Overall Quality of Transmitted Speech' proceedings of the 123rd Audio Engineering Society Convention , 20071001, AES *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7580495B2 (ja) 2020-05-29 2024-11-11 フラウンホファー ゲセルシャフト ツール フェールデルンク ダー アンゲヴァンテン フォルシュンク エー.ファオ. 初期オーディオ信号を処理するための方法および装置

Also Published As

Publication number Publication date
US20120116759A1 (en) 2012-05-10
EP2457233A1 (en) 2012-05-30
EP2457233A4 (en) 2016-11-16
US8655651B2 (en) 2014-02-18
WO2011010962A1 (en) 2011-01-27

Similar Documents

Publication Publication Date Title
JP2013500498A (ja) 音声品質の評価のための方法、コンピュータ、コンピュータプログラム、およびコンピュータプログラム製品
CN112397078B (zh) 用于在多个消费者装置上提供个性化音频重放的系统和方法
US9025780B2 (en) Method and system for determining a perceived quality of an audio system
JP5542206B2 (ja) オーディオ・システムの知覚品質を判定する方法およびシステム
CN106663450B (zh) 用于评估劣化语音信号的质量的方法及装置
CN104919525B (zh) 用于评估退化语音信号的可理解性的方法和装置
BR112021012308A2 (pt) Aparelho e método para separação de fonte com o uso de uma estimativa e controle de qualidade de som
JP2011501206A (ja) オーディオ送信システムの音声理解度測定方法およびシステム
JP4570609B2 (ja) 音声伝送システムの音声品質予測方法及びシステム
US8566082B2 (en) Method and system for the integral and diagnostic assessment of listening speech quality
EP2143104A2 (en) Method and system for speech quality prediction of the impact of time localized distortions of an audio trasmission system
EP2438591B1 (en) A method and arrangement for estimating the quality degradation of a processed signal
CN101770778A (zh) 一种预加重滤波器、感知加权滤波方法及系统
EP2572356A1 (en) Method and arrangement for processing of speech quality estimate
EP2780910A1 (en) Method of and apparatus for evaluating intelligibility of a degraded speech signal
JP4309749B2 (ja) 帯域制限を考慮した音声品質客観評価装置
RU2782364C1 (ru) Устройство и способ отделения источников с использованием оценки и управления качеством звука
WO2024083809A1 (en) Apparatus and method for quality determination of audio signals
Shin et al. Speech reinforcement based on partial masking effect
Harsha Kumari et al. A Novel Objective Audio Quality Measure

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130628

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140819

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20150203