JP3878482B2 - 音声検出装置および音声検出方法 - Google Patents
音声検出装置および音声検出方法 Download PDFInfo
- Publication number
- JP3878482B2 JP3878482B2 JP2001540759A JP2001540759A JP3878482B2 JP 3878482 B2 JP3878482 B2 JP 3878482B2 JP 2001540759 A JP2001540759 A JP 2001540759A JP 2001540759 A JP2001540759 A JP 2001540759A JP 3878482 B2 JP3878482 B2 JP 3878482B2
- Authority
- JP
- Japan
- Prior art keywords
- voice
- quality
- signal
- speech
- frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/69—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Mobile Radio Communication Systems (AREA)
- Time-Division Multiplex Systems (AREA)
- Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
Description
また、このような通信システムの送信端では、伝送帯域の圧縮や無線周波数の有効利用に併せて、消費電力の節減を目的として、上述した音声信号の無音区間と有音区間とを検出し、この有音区間に限って伝送路に対する送信を許容する音声検出装置が搭載されている。
図において、マイク41は音声検出装置42の入力と送受信部43の変調入力とに接続され、その送受信部43のアンテナ端子にはアンテナ44の給電端が接続される。音声検出装置42の出力は送受信部43の送信制御入力に接続され、その送受信部43の制御用の入出力には制御部45の対応する入出力ポートが接続される。制御部45の特定の出力ポートは音声検出装置42の制御入力に接続され、かつ送受信部43の復調出力はレシーバ46の入力に接続される。
制御部45は、その送受信部43と連係することによって、この無線伝送路の形成に要するチャネル制御を主導的に行う。
なお、上述した性質とは、例えば、下記の事項である。
・ 約55デシベルのダイナミックレンジを有する。
・ 振幅分布が標準的な確率密度関数で近似され得る。
・ エネルギーの密度と零交差回数とは、それぞれ無音区間と有音区間とにおいて異なる値となる。
すなわち、音声信号に伝送情報として有効な情報が含まれていない期間には、送受信部43が無用に送信することが規制される。したがって、消費電力の節減にあわせて、他の無線チャネルに介する干渉の抑制と無線周波数の有効利用とが図られる。
さらに、有音区間であっても子音区間には、一般に、音声信号の振幅は、母音区間に比べて小さい値に多く分布する。
また、上述した雑音のレベルが過大である場合には、その騒音が重畳された音声信号の大半を示す音声フレームに亘って送信が規制される可能性があった。
しかし、このような閾値が適用された場合には、無音区間であるにもかかわらず有音区間として識別される確率が増加し、かつその有音区間の時間率が過大となり得るために、既述の消費電力の節減、干渉の抑制および無線周波数の有効利用が十分に図られない可能性があった。
上述した目的は、音声フレーム毎に、有音区間に属する確率と品質とを求め、その確率をこの品質で重み付けて出力する点に特徴がある音声検出装置および音声検出方法によって達成される。
また、上述した目的は、音声フレーム毎に、有音区間に属する確率と品質とを求め、この確率が求められるべき音声フレームのレベルをその品質が大きいほど小さな値に設定する点に特徴がある音声検出装置および音声検出方法によって達成される。
さらに、上述した目的は、音声フレーム毎に、有音区間に属する確率と品質とが求められ、その品質が高いほど、この確率が求められるべき音声フレームの圧伸処理に適用されるべき圧伸特性の勾配あるいは閾値を大きな値に設定する点に特徴がある音声検出装置および音声検出方法によって達成される。
また、上述した目的は、音声フレーム毎に、有音区間と無音区間との双方あるいは何れか一方について特徴を求め、これらの特徴を品質として適用する点に特徴がある音声検出装置によって達成される。
さらに、上述した目的は、音声フレーム毎に、雑音推定パワーを求め、その雑音推定パワーを品質として適用する点に特徴がある音声検出装置および音声検出方法によって達成される。
また、上述した目的は、音声フレーム毎に、雑音推定パワーと、SN比の推定値とを求め、前者に対する単調非増加関数と後者に対する単調非減少関数として与えられる数を品質として適用する点に特徴がある音声検出装置によって達成される。
さらに、上述した目的は、雑音推定パワーに代えて標準化確率変数が適用される点で先行して記載された音声検出装置と異なる音声検出装置によって達成される。
また、上述した目的は、標準化確率変数が音声フレームの振幅分布とその振幅分布の最大値とに基づいて近似的に算出される点に特徴がある音声検出装置によって達成される。
このような構成の音声検出装置では、上述した標準化確率変数は、簡便な算術演算によって求められる。
このような構成の音声検出装置では、時系列の順に得られた音声信号の品質に伴い得る急峻な変動の成分が軽減され、あるいは抑圧される。
このような構成の音声検出装置では、先行して与えられた音声フレームの品質が高く、あるいはその品質が高かった時間率が大きいほど、後続して与えられる音声フレームが有音区間である確度が大きな値で得られる。
図1に示す音声検出装置は、区間推定手段11と、品質監視手段12と、区間判定手段13とから構成される。
本発明にかかわる第1の音声検出装置の原理は、下記の通りである。
区間推定手段11は、音声信号として時系列の順に与えられる音声フレーム毎に、その音声信号に含まれる音声と雑音のそれぞれの成分の特徴に基づいて有音区間に属する可能性の大きさを示す確度を求める。また、品質監視手段12は、音声フレーム毎に音声信号の品質を監視する。
このような音声検出装置では、個々の音声フレームは、音声信号の品質が良好であるほど、高い確率で有音区間として識別され、反対に無音区間として識別される確率が小さくなる。
図2は、本発明の第2の原理ブロック図である。
図2に示す音声検出装置は、区間判定手段15、15Aと、品質監視手段16とから構成される。
区間判別手段15は、音声信号として時系列の順に与えられる音声フレーム毎に、その音声信号に含まれる音声と雑音のそれぞれの成分の特徴に基づいて有音区間に属する確度を求める。品質監視手段16は、これらの音声フレームについて、個別に上述した音声信号の品質を監視する。
このような音声検出装置では、音声フレーム毎に、品質が低いほど、区間判別手段15は、その音声フレームに含まれる個々の音声信号の瞬時値に大きな重み付けを行い、その結果として与えられる瞬時値の列として与えられる音声信号について、上述した有音区間に属する確度を求める。
本発明にかかわる第3の音声検出装置の原理は、下記の通りである。
品質監視手段16は、時系列の順に音声フレームの列として与えられる音声信号について、その音声フレーム毎に品質を監視する。
さらに、区間判定手段15Aは、上述した音声フレーム毎に、品質監視手段16によって監視された品質に対して音声の瞬時値の単調減少関数として与えられる圧伸特性を前記圧伸処理に適用する。
したがって、有音区間の内、例えば、子音区間のように音声信号の振幅が小さな領域に多く分布する区間については、その子音区間における音声信号の品質が低い場合であっても、有音区間であることを示す確度が大きな値で得られる。
品質監視手段12、16は、音声信号の有音区間と無音区間の少なくとも一方についてその信号成分の特徴を求め、求められた特徴から音声信号の品質を得る。
このような音声検出装置では、音声信号の品質は、音響分析あるいは音声分析を実現する多様な技術の適用の下で、上述した特徴として安定に得られる。
本発明にかかわる第5の音声検出装置の原理は、下記の通りである。
品質監視手段12、16は、音声フレーム毎に、雑音推定パワーを求め、その雑音推定パワーが大きいほど小さな値として音声信号の品質を得る。
したがって、既述の第1ないし第3の音声検出装置に比べて、処理量が削減され、あるいは応答性が高められる。
本発明にかかわる第6の音声検出装置の原理は、下記の通りである。
このような音声検出装置では、大きなレベルの雑音が重畳し、かつSN比が小さい音声フレームについても、有音区間に属することを示す確度が大きな値で得られる。
品質監視手段12、16は、音声フレーム毎に、標準化確率変数を求め、その標準化確率変数が大きいほど小さな値として音声信号の品質を得る。
このような音声検出装置では、標準化確率変数は、その絶対値が大きいほど、「音声フレームの振幅の先頭値が音声信号の標準的な振幅に比べて大きく、かつ大きなレベルの雑音がこの音声フレームに重畳されている可能性が高いこと」を意味し、反対に小さいほど、「音声フレームの振幅の先頭値が音声信号の標準的な振幅に比べて小さく、この音声フレームに重畳されている雑音のレベルも小さいこと」を意味する。
本発明にかかわる第8の音声検出装置の原理は、下記の通りである。
品質監視手段12、16は、音声フレーム毎に、標準化確率変数とSN比の推定値とを求め、前者が大きいほど小さく、かつ後者が大きいほど大きな値として音声信号の品質を得る。
本発明にかかわる第1の音声検出方法の原理は、下記の通りである。
第1の音声検出方法では、音声信号として時系列の順に与えられる音声フレーム毎に、その音声信号に含まれ得る音声と雑音との成分の特徴の相違に基づいて有音区間に属する可能性の大きさを示す確度が求められ、かつ特徴量に基づいてこの音声信号の品質が監視される。
このような音声検出方法では、個々の音声フレームは、音声信号の品質が良好であるほど、高い確率で有音区間として識別され、反対に無音区間として識別される確率が小さくなる。
本発明にかかわる第2の音声検出方法の原理は、下記の通りである。
第2の音声検出方法では、音声信号として時系列の順に与えられる音声フレーム毎に、その音声信号に含まれ得る音声と雑音との成分の特徴の相違に基づいて有音区間に属する確率が求められ、かつ特徴量に基づいてこの音声信号の品質が前記音声フレーム毎に監視される。
このような音声検出方法では、音声フレーム毎に、音声信号の品質が低いほど、その音声フレームに含まれる個々の音声信号の瞬時値に対して大きな重み付けが行われ、その結果として与えられる瞬時値の列として与えられる音声信号について、上述した有音区間に属する確度が求められる。
本発明にかかわる第3の音声検出方法の原理は、下記の通りである。
第3の音声検出方法では、時系列の順に与えられる個々の音声フレームについて、圧伸処理が施され、その結果として得られた音声信号の瞬時値の列がその音声信号の統計的な性質に基づいて解析されることによって、有音区間に属する確度が求められ、かつその音声信号の品質が監視される。
このような音声検出方法では、音声信号の品質が低いほど、個々の音声フレームに含まれる音声信号の瞬時値に対して大きな重み付けを行う処理は、上述した圧伸処理として、第二の音声検出方法と同様に行われる。
本発明によれば、精度よく、音声フレーム毎に有音区間である確度が得られる。
本発明によれば、所要する処理量が削減され、あるいは応答性が高められる。
図3は、本発明の実施形態1、3〜8を示す図である。
図において、図12に示すものと機能および構成が同じものについては、同じ符号を付与して示し、ここでは、その説明を省略する。
本実施形態と図12に示す従来例との構成の相違点は、音声検出装置42に代えて音声検出装置20が備えられた点にある。
[実施形態1]
以下、図3および図4を参照して本発明にかかわる実施形態1の動作を説明する。
音声検出装置20では、有音/無音識別部21は、マイク41を介して与えられる音声信号に、図12に示す音声検出装置42が行う処理と同じ処理を施すことによって、既述の音声フレーム毎に有音区間と無音区間との識別を行い、かつメモリ23と識別確度判定部22とに並行してこの識別の結果を示す2値情報Itを与える。
一方、識別確度判定部22は、有音/無音識別部21と並行して上述した音声信号を既述の音声フレームの列に変換する。さらに、識別確度判定部22は、有音/無音識別部21によって与えられる2値情報Itの論理値に応じて有音区間と無音区間とを識別し、これらの区間について、個々の音声フレームの特徴量Ft(ここでは、簡単のため、エネルギーと零交差回数との双方あるいは何れか一方であると仮定する。)の分布(平均値)を定常的に監視する。
なお、このような識別確度Rtの論理値については、上述した差分が閾値Fthを下回る程度に音声信号の品質が低い場合には「0」に設定され、反対にこの閾値Fthを上回る程度に音声信号の品質が良好である場合には「1」に設定されると仮定する。
最終判定部24は、このようにメモリ23に蓄積された2値情報Itと識別確度Rtとの個々の組み合わせに応じて、下記の処理を順次行う。
・ 識別確度Rtの論理値が「1」である場合には、論理値が2値情報Itの論理値に等しい2値信号を送受信部43に与える(図4(1))。
・ 識別確度Rtの論理値が「0」である場合には、論理値が「1」である2値信号を送受信部43に与える(図4(2))。
すなわち、音声信号の品質が良好である場合には、有音/無音識別部21によって与えられた2値情報Itが2値信号として送受信部43に与えられるが、その品質が良好でない場合には、この2値信号の論理値は、有音区間を示す「1」に設定される。
なお、本実施形態では、有音/無音識別部21と識別確度判定部22とが並行して個別に音声信号を音声フレームの列に変換する処理を行っている。
また、本実施形態では、有音/無音識別部21によって求められた2値情報Itと、識別確度判定部22によって求められた識別確度Rtとが音声フレーム毎に対応つけられてメモリ23に蓄積されている。
さらに、本実施形態では、送受信部43は、音声フレーム単位に音声検出装置20によって行われる処理の演算所要時間に等しい遅延を与えることによって、この音声検出装置20との同期を維持している。
また、本実施形態では、識別確度判定部22によって既述の識別確度Rtが求められている。
しかし、識別確度判定部22と最終判定部24とは、例えば、その識別確度判定部22が下記の処理の何れかのみを行うことによって、如何なる形態で機能分散が図られてもよい。
・ 既述の音声フレームが与えられる時点あるいは期間に、有音区間と無音区間とにおける上述した特徴量Ftの分布(平均値)を求める。
・ その特徴量Ftの分布(平均値)を求め、この隔たり(差分)が所定の閾値Fthを下回るか否かの判別を行う。
しかし、本発明は、このような構成に限定されず、例えば、有音区間と無音区間との何れか一方の特徴量が所望の確度で既知の値として与えられる場合には、他方の特徴量のみが求められ、その特徴量と規定の閾値との大小関係に基づいて、音声信号の伝送品質の良否が判別されてもよい。
図5は、本発明の実施形態2を示す図である。
図において、図3に示すものと機能および構成が同じものについては、同じ符号を付与して示し、ここでは、その説明を省略する。
本実施形態と既述の実施形態1との構成の相違点は、音声検出装置20に代えて音声検出装置30が備えられた点にある。
以下、図5および図6を参照して本発明にかかわる実施形態2の動作を説明する。
本実施形態と実施形態1との相違点は、識別条件調整部31が行う下記の処理と、有音/無音識別部21Aがその処理の下で与えられる閾値に基づいて既述の2値情報Itを求める点とにある。
有音/無音識別部21Aは、マイク41を介して与えられる音声信号に、図12に示す従来例に搭載された音声検出装置42が行う処理と同じ処理を施し、その処理の過程でこの音声信号の統計的な性質にかかわる閾値(以下、「区間識別閾値」という。)として、識別条件調整部31によって与えられる値を適用することによって、2値情報Itを求める。
・ 識別確度Rtの論理値が「1」である場合には、その有音/無音識別部21に、『上述した音声信号の品質が良好である期間に2値情報Itを求める過程で、有音/無音識別部21Aが適用すべき標準的な区間識別閾値(以下、「標準閾値」という。)』を与える(図6(1))。なお、標準閾値については、識別条件調整部31に予め与えられていると仮定する。
・ 識別確度Rtの論理値が「0」である場合には、先行して有音/無音識別部21Aに与えらた区間識別閾値(上述した「標準閾値」であってもよい。)を下記の何れかの値に更新し、あるいは設定する(図6(2))。
−有音/無音識別部21Aが後続する音声フレームを有音区間に属する音声フレームと識別する可能性が高い値
−有音/無音識別部21Aが後続する音声フレームを有音区間に属する音声フレームとして確実に識別する値
さらに、送受信部43は、有音/無音識別部21Aによって与えられる2値情報Itの列を既述の2値信号として取り込み、既述の実施形態1と同様に音声検出装置30との同期を維持する。
したがって、本実施形態によれば、識別確度Rtの如何にかかわらず音声信号の統計的な性質のみに基づいて有音区間と無音区間との識別が行われる従来例に比べて、品質が悪い有音区間が無音区間として識別されることに起因する伝送品質の劣化が緩和され、あるいは回避される。
しかし、本発明は、このような構成に限定されず、例えば、有音/無音識別部21Aに音声信号を線形領域で増幅する可変利得増幅器が搭載され、かつ有音区間と無音区間との識別の基準がその音声信号のレベルである場合には、上述した区間識別閾値に代えてこの可変利得増幅器の利得が可変されてもよい。
本実施形態と実施形態1との構成の相違点は、識別確度判定部22に代えて識別確度判定部22Aが備えられた点にある。
図7は、実施形態3の動作フローチャートである。
以下、図3および図7を参照して本実施形態の動作を説明する。
識別確度判定部22Aは、有音/無音識別部21と並行して音声信号を音声フレームの列に変換し(図7(1))、かつ個々の音声フレームについて下記の処理を施す。
なお、以下では、個々の音声フレームは、簡単のため、時系列t(=0〜N)の順に(N+1)個の瞬時値x(t)の列として与えられると仮定する。
1.下式(1)で示される算術演算を行うことによって、フレームパワーPtを算出し、時系列tの順に蓄積する(図7(2))。
2.先行する音声フレームについて同様にして算出され、かつ蓄積されている先行フレームパワーPt−1を取得する(図7(3))。
3.規定の時定数α(<1)に対して下式(2)で示される算術演算を行うことによって、雑音推定パワーPNtを指数平滑法に基づいて算出する(図7(4))。
4.この雑音推定パワーPNtと、その雑音推定パワーPNtについて既述の閾値Fthと同様に予め設定された閾値Pthとを比較することによって、前者が後者を上回るか否かの判別を行い(図7(5))、その判別の結果を示す2値の識別確度Rtを求める(図7(6))。
このように本実施形態によれば、上式(1)、(2)に示す単純な算術演算によって通話信号の品質が簡便に求められ、かつ上述した判別の結果が偽である期間は、有音/無音識別部21によって与えられた2値情報の論理値Itの如何にかかわらず、高い確度で、あるいは確実に有音期間として識別される。
本実施形態と実施形態1との構成の相違点は、識別確度判定部22に代えて識別確度判定部22Bが備えられた点にある。
図8は、実施形態4の動作フローチャートである。
以下、図3および図8を参照して本実施形態の動作を説明する。
識別確度判定部22Bは、有音/無音識別部21と並行して音声信号を音声フレームの列に変換し(図8(1))、かつ個々の音声フレームについて下記の処理を施す。
1.既述の実施形態3において識別確度判定部22Aによって行われる処理の手順と同じ手順に基づいてフレームパワーPtと、雑音推定パワーPNtとを算出する(図8(2))。
2.下式(3)で示される算術演算を行うことによって、この音声フレームのSN比の推定値(以下、単に、「SN推定値」という。)SNtを算出する(図8(3))。
3.このSN推定値SNtがそのSN推定値SNtについて既述の閾値Fthと同様に予め設定された閾値SNthを上回るか否かの判別(以下、「SN判別」という。)を行う(図8(4))。
4.上述した雑音推定パワーPNtが既述の閾値Pthを下回るか否かの判別(以下、「雑音判別」という。)を行う(図8(5))。
5.これらの判別の結果の組み合わせに応じて、下記の通りに識別確度Rtを求め、かつ出力する。
(1) SN判別の結果が真である場合と、そのSN判別の結果が偽であり、かつ雑音判別の結果が真である場合とには、この雑音判別の結果を示す2値を識別確度Rtとして出力する(図8(6))。
(2) SN判別の結果が偽であり、かつ雑音判別の結果が偽である場合には、論理値が「0」である識別確度Rtを出力する(図8(7)。
本実施形態と実施形態1との構成の相違点は、識別確度判定部22に代えて識別確度判定部22Cが備えられた点にある。
図9は、実施形態5の動作フローチャートである。
以下、図3および図9を参照して本実施形態の動作を説明する。
識別確度判定部22Cは、有音/無音識別部21と並行して音声信号を音声フレームの列に変換し(図9(1))、かつ個々の音声フレームについて、雑音推定パワーPNtを算出する処理に代えて以下の処理を行う。
A) 時系列tの順に与えられる個々の音声フレームで示される音声信号の振幅の先頭値sPtと平均値smtとを求めて蓄積する。
B) 最新の音声フレームが与えられる度に、所定の数Mに対してその音声フレームに先行する時点で時系列tの順にそれぞれ与えられたM個の音声フレームについて、同様に蓄積された先頭値sPtと平均値smtとを取得する。
C) これらの先頭値および平均値を下式(4)に代入することによって行われる算術演算の結果として、該当する音声フレームで示される音声信号の振幅の標準偏差σtを算出する。
D) 最新の音声フレームで示される音声信号の振幅の先頭値xを求める。
E) これらの標準偏差σtと先頭値xとに対して下式(5)で示される算術演算を行うことによって、上述した音声信号の振幅の標準化確率変数Prtを算出する(図9(2))。
さらに、標準化確率変数Prtは、その絶対値が大きいほど、「最新の音声フレームの振幅の先頭値が音声信号の標準的な振幅に比べて大きく、かつ大きなレベルの雑音がこの音声フレームに重畳されている可能性が高いこと」を意味し、反対に小さいほど、「最新の音声フレームの振幅の先頭値が音声信号の標準的な振幅に比べて小さく、この音声フレームに重畳されている雑音のレベルが小さいこと」を意味する。
さらに、識別確度判定部22Cは、上述した標準化確率変数Prtが規定の閾値Prthを下回るか否かの判別(以下、「変数判別」という。)を行う(図9(5))。
また、識別確度判定部22Cは、これらの判別の結果の組み合わせに応じて、下記の通りに識別確度Rtを求めて出力する。
I. SN判別の結果が真である場合と、変数判別の結果が真である場合とには、この変数判別の結果を示す2値を識別確度Rtとして出力する(図9(6))。
II.SN判別の結果が偽であり、かつ変数判別の結果が偽である場合には、論理値が「0」である識別確度Rtを出力する(図9(7))。
[実施形態6]
本実施形態と実施形態5との構成の相違点は、識別確度判定部22に代えて識別確度判定部22Dが備えられた点にある。
以下、図3および図10を参照して本実施形態の動作を説明する。
本実施形態と実施形態5との相違点は、識別確度判定部22Dが識別確度判定部22Cに代えて、後述する手順に基づいて標準化確率変数Prtを算出する点にある。
音声信号の振幅分布を示す確率密度関数は、一般に、ガンマ分布やラプラス分布で近似が可能である。
ところで、個々の音声フレームに含まれ、かつサンプリングされて所定のディジタル信号処理が施される標本値の数K(ここでは、簡単のため、「1000」であると仮定する。)は、一般に、既知の値として与えられる。
識別確度判定部22Dは、この確率(=1/K)が上式(6)に適用されることによって得られる下記の式で示される算術演算を行い、その結果結果として|x|の値を求める(図10(1))。
したがって、本実施形態によれば、実施形態5に比べて所望の応答性が得られるために確保されるべき処理量の削減、あるいはその応答性の向上が可能となる。
なお、本実施形態では、識別確度判定部22Dは、単位音声フレーム毎に既述の処理を行なっている。
なお、実施形態3〜実施形態6は、実施形態1の構成に既述の変更が施されることによって構成されている。
しかし、これらの実施形態については、実施形態2の構成に同様の発明が適用されることによって構成されてもよい。
本実施形態の構成は、既述の実施形態1〜実施形態6の構成の何れと同じであってもよい。
図11は、実施形態7および実施形態8の動作フローチャートである。
以下、図3、図5および図11を参照して、本実施形態の動作を説明する。
なお、以下では、簡単のため、識別確度判定部22、22A〜22Dの内、識別確度判定部22のみに着目することとする。
識別確度判定部22は、新たな識別確度Rtが求められても、その識別確度Rtをメモリ23に直接格納せず、時系列の順に所定の重み付けを行いつつ積分することによって得られた積分値(以下、「積分識別確度RIt」という。)を求め(図11(1))、その積分識別確度RItを識別確度Rtに代えてメモリに格納する(図11(2))。
したがって、本実施形態によれば、音声信号に伴い得る多様な騒音に対する柔軟な適応が可能となり、かつ実施形態1〜実施形態6の何れについても、本発明が適用されることによって、性能の安定化が図られる。
しかし、このような算術演算の過程では、先行して所定の数Cに亘って得られた識別確度Rtに移動平均法、指数平滑法その他の如何なるアルゴリズムおよび重みによる積分処理が行われてもよい。
本実施形態の構成は、既述の実施形態1〜7の構成と基本的に同じである。
以下、図3、図5および図11を参照して本実施形態の動作を説明する。
本実施形態の特徴は、識別確度判定部22,21A〜22Dが行う下記の処理の手順にある。
なお、以下では、簡単のため、識別確度判定部22、22A〜22Dの内、識別確度判定部22のみに着目することとする。
識別確度判定部22は、新たな積分識別確度RItが求められても、メモリ23は、その積分識別確度RItを直接格納しない。
また、識別確度判定部22は、この積分識別確度RItが後述する閾値RIthを上回るか否かを判別し(図11(b))、その判別の結果を示す2値情報RBtをその積分識別確度RItに代えてメモリ23に格納する(図11(c))。
・ 上述したレジスタに保持された積分識別確度RItの値が大きいほど、小さな値に設定する。
・ 反対に、その積分識別確度RItの値が小さいほど、大きな値に設定する。
なお、上述した各実施形態では、
・ 有音/無音識別部21、21Aが求める2値情報It、
・ 識別確度判定部22、22A〜22Dが求める2値の識別確度Rt、積分識別確度RItおよび2値情報RItの何れか、
・ 最終判定部24によって送受信部43に与えられる2値信号の値、の何れもが2値情報となっている。
さらに、上述した各実施形態では、無線伝送系の送信部に本発明が適用されている。
しかし、本発明は、このような無線伝送系に限定されず、有線伝送系の送信部、あるいは音声に応答して所定の処理(パターン認識を含む。)や動作を行う多様な電子機器にも同様に適用が可能である。
なお、下記の各「追加開示請求の範囲」の原理ブロック図は、図1および図2に示す通りである。
(追加開示請求の範囲1)
請求の範囲7ないし請求の範囲12の何れか1項に記載の音声検出装置において、
品質監視手段12、16は、
音声フレーム毎に、個別に含まれる音声信号の瞬時値の先頭値を求め、その音声信号の振幅分布を近似する確率密度関数に、これらの瞬時値の数と先頭値が出現する確率とを適用することによって、この確率密度関数の標準偏差で正規化された振幅を算出すると共に、その振幅と先頭値との比として標準化確率変数を求める
ことを特徴とする音声検出装置。
(追加開示請求の範囲2)
請求の範囲1ないし請求の範囲18および追加開示請求の範囲1の何れか1項に記載の音声検出装置において、
品質監視手段12、16は、
得られた音声信号の品質を順次積分し、その結果を正規の品質として適用する
ことを特徴とする音声検出装置。
(追加開示請求の範囲3)
請求の範囲1ないし請求の範囲18および追加開示請求の範囲1、2の何れか1項に記載の音声検出装置において、
品質監視手段12、16は、
得られた音声信号の品質を順次積分し、その結果の単調増加関数あるいは単調非減少関数として得られる値をこの品質として適用する
ことを特徴とする音声検出装置。
追加開示請求の範囲1にかかわる音声検出装置では、品質監視手段12、16は、音声フレーム毎に、個別に含まれる音声信号の瞬時値の先頭値を求め、その音声信号の振幅分布を近似する確率密度関数に、これらの瞬時値の数と先頭値が出現する確率とを適用することによって、この確率密度関数の標準偏差で正規化された振幅を算出すると共に、その振幅と先頭値との比として標準化確率変数を求める。
したがって、上述した第五の音声検出装置に比べて、所望の応答性が得られるために確保されるべき処理量の削減、あるいはその応答性の向上が可能となる。
追加開示請求の範囲2にかかわる音声検出装置では、品質監視手段12、16は、得られた音声信号の品質を順次積分し、その結果を正規の品質として適用する。
したがって、本発明にかかわる音声検出装置は、音声信号に伴い得る多様な騒音に柔軟に適応し、かつ性能の安定化が図られる。
追加開示請求の範囲3にかかわる音声検出装置では、品質監視手段12、16は、得られた音声信号の品質を順次積分し、その結果の単調増加関数あるいは単調非減少関数として得られる値をこの品質として適用する。
本発明にかかわる第4の音声検出装置では、第1ないし第3の音声検出装置に比べて、音声フレーム毎に有音区間である確度が精度よく得られる。
本発明にかかわる第6および第7の音声検出装置では、大きなレベルの雑音が重畳し、かつSN比が小さい音声フレームについても、有音区間に属することを示す確度が大きな値で得られる。
したがって、これらの発明が適用された通信機器その他の電子機器では、音声信号を発する音響−電気変換手段が配置される音響的な環境、あるいはその音響信号の情報源の特性や性能に柔軟に適応しつつ、この音声信号の有音区間と無音区間との峻別が確度高く、安定に実現され、その峻別の結果に適応した所望の性能の達成と、資源の有効利用とが的確に図られる。
12,16 品質監視手段
13,15,15A 区間判定手段
20,30 音声検出装置
21,21A 有音/無音識別部
22,22A,22B,22C,22D 識別確度判定部
23 メモリ
24 最終判定部
31 識別条件調整部
41 マイク
42 音声検出装置
43 送受信部
44 アンテナ
45 制御部
46 レシーバ
Claims (14)
- 音声信号として時系列の順に与えられる音声フレーム毎に、その音声信号に含まれる音声と雑音のそれぞれの成分の特徴に基づいて有音区間に属する可能性の大きさを示す確度を求める区間推定手段と、
前記音声フレーム毎に前記音声信号の品質を監視する品質監視手段と、
前記音声信号として時系列の順に与えられる個々の音声フレームについて、前記区間推定手段によって求められた確度に、前記品質監視手段によって監視された品質が低いほど音声である確率が高くなるように重みを付け前記有音区間である確度を得る区間判定手段と
を備えたことを特徴とする音声検出装置。 - 音声信号として時系列の順に与えられる音声フレーム毎に、その音声信号に含まれる音声と雑音のそれぞれの成分の特徴に基づいて有音区間に属する確度を求める区間判定手段と、
前記音声フレーム毎に前記音声信号の品質を監視する品質監視手段とを備え、
前記区間判定手段は、
前記音声フレーム毎に、個別に含まれる前記音声信号の瞬時値の列に、前記品質監視手段によって監視された品質が高くなるほど単調減少する又は、品質が低くなるほど単調非増加する重みによる重み付けを行う
ことを特徴とする音声検出装置。 - 請求の範囲1に記載の音声検出装置において、
前記品質監視手段は、
音声信号の有音区間と無音区間の少なくとも一方についてその信号成分の特徴を求め、求められた特徴から音声信号の品質を得る
ことを特徴とする音声検出装置。 - 請求の範囲2に記載の音声検出装置において、
前記品質監視手段は、
音声信号の有音区間と無音区間の少なくとも一方についてその信号成分の特徴を求め、求められた特徴から音声信号の品質を得る
ことを特徴とする音声検出装置。 - 請求の範囲1に記載の音声検出装置において、
前記品質監視手段は、
音声フレーム毎に、雑音推定パワーを求め、その雑音推定パワーが大きいほど小さな値として音声信号の品質を得る
ことを特徴とする音声検出装置。 - 請求の範囲2に記載の音声検出装置において、
前記品質監視手段は、
音声フレーム毎に、雑音推定パワーを求め、その雑音推定パワーが大きいほど小さな値として音声信号の品質を得る
ことを特徴とする音声検出装置。 - 請求の範囲1に記載の音声検出装置において、
前記品質監視手段は、
音声フレーム毎に、雑音推定パワーとSN比の推定値とを求め、前者が大きいほど小さく、かつ後者が大きいほど大きな値として前記音声信号の品質を得る
ことを特徴とする音声検出装置。 - 請求の範囲2に記載の音声検出装置において、
前記品質監視手段は、
音声フレーム毎に、雑音推定パワーとSN比の推定値とを求め、前者が大きいほど小さく、かつ後者が大きいほど大きな値として前記音声信号の品質を得る
ことを特徴とする音声検出装置。 - 請求の範囲1に記載の音声検出装置において、
前記品質監視手段は、
音声フレーム毎に、標準化確率変数を求め、その標準化確率変数が大きいほど小さな値として前記音声信号の品質を得る
ことを特徴とする音声検出装置。 - 請求の範囲2に記載の音声検出装置において、
前記品質監視手段は、
音声フレーム毎に、標準化確率変数を求め、その標準化確率変数が大きいほど小さな値として前記音声信号の品質を得る
ことを特徴とする音声検出装置。 - 請求の範囲1に記載の音声検出装置において、
前記品質監視手段は、
音声フレーム毎に、標準化確率変数とSN比の推定値とを求め、前者が大きいほど小さく、かつ後者が大きいほど大きな値として前記音声信号の品質を得る
ことを特徴とする音声検出装置。 - 請求の範囲2に記載の音声検出装置において、
前記品質監視手段は、
音声フレーム毎に、標準化確率変数とSN比の推定値とを求め、前者が大きいほど小さく、かつ後者が大きいほど大きな値として前記音声信号の品質を得る
ことを特徴とする音声検出装置。 - 音声信号として時系列の順に与えられる音声フレーム毎に、前記音声信号に含まれ得る音声と雑音との成分の特徴の相違に基づいて有音区間に属する可能性の大きさを示す確度を求め、
前記音声フレームの特徴量に基づいて前記音声信号の品質を前記音声フレーム毎に監視し、
前記音声信号として時系列の順に与えられる個々の音声フレームについて、前記求められた確度に、前記監視された品質を重みとして重み付けする
ことを特徴とする音声検出方法。 - 音声信号として時系列の順に与えられる音声フレーム毎に、前記音声信号に含まれ得る音声と雑音との成分の特徴の相違に基づいて有音区間に属する確率を求め、
前記音声フレームの特徴量に基づいて前記音声信号の品質を前記音声フレーム毎に監視し、
前記音声フレーム毎に、個別に含まれる前記音声信号の瞬時値の列に、前記監視された品質が高いほど小さな重みで重み付けする
ことを特徴とする音声検出方法。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP1999/006539 WO2001039175A1 (fr) | 1999-11-24 | 1999-11-24 | Procede et appareil de detection vocale |
Publications (1)
Publication Number | Publication Date |
---|---|
JP3878482B2 true JP3878482B2 (ja) | 2007-02-07 |
Family
ID=14237370
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001540759A Expired - Fee Related JP3878482B2 (ja) | 1999-11-24 | 1999-11-24 | 音声検出装置および音声検出方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US6490554B2 (ja) |
JP (1) | JP3878482B2 (ja) |
WO (1) | WO2001039175A1 (ja) |
Families Citing this family (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7072833B2 (en) * | 2000-06-02 | 2006-07-04 | Canon Kabushiki Kaisha | Speech processing system |
US6765971B1 (en) * | 2000-08-08 | 2004-07-20 | Hughes Electronics Corp. | System method and computer program product for improved narrow band signal detection for echo cancellation |
US6993481B2 (en) * | 2000-12-04 | 2006-01-31 | Global Ip Sound Ab | Detection of speech activity using feature model adaptation |
EP1391106B1 (en) * | 2001-04-30 | 2014-02-26 | Polycom, Inc. | Audio conference platform with dynamic speech detection threshold |
US7027982B2 (en) * | 2001-12-14 | 2006-04-11 | Microsoft Corporation | Quality and rate control strategy for digital audio |
US7383180B2 (en) | 2003-07-18 | 2008-06-03 | Microsoft Corporation | Constant bitrate media encoding techniques |
US7343291B2 (en) | 2003-07-18 | 2008-03-11 | Microsoft Corporation | Multi-pass variable bitrate media encoding |
JP4527369B2 (ja) | 2003-07-31 | 2010-08-18 | 富士通株式会社 | データ埋め込み装置及びデータ抽出装置 |
US20060018457A1 (en) * | 2004-06-25 | 2006-01-26 | Takahiro Unno | Voice activity detectors and methods |
US20060136201A1 (en) * | 2004-12-22 | 2006-06-22 | Motorola, Inc. | Hands-free push-to-talk radio |
US20060184363A1 (en) * | 2005-02-17 | 2006-08-17 | Mccree Alan | Noise suppression |
EP1861846B1 (en) * | 2005-03-24 | 2011-09-07 | Mindspeed Technologies, Inc. | Adaptive voice mode extension for a voice activity detector |
KR100745977B1 (ko) | 2005-09-26 | 2007-08-06 | 삼성전자주식회사 | 음성 구간 검출 장치 및 방법 |
KR100800873B1 (ko) | 2005-10-28 | 2008-02-04 | 삼성전자주식회사 | 음성 신호 검출 시스템 및 방법 |
JP5446874B2 (ja) * | 2007-11-27 | 2014-03-19 | 日本電気株式会社 | 音声検出システム、音声検出方法および音声検出プログラム |
US8325800B2 (en) | 2008-05-07 | 2012-12-04 | Microsoft Corporation | Encoding streaming media as a high bit rate layer, a low bit rate layer, and one or more intermediate bit rate layers |
US8379851B2 (en) | 2008-05-12 | 2013-02-19 | Microsoft Corporation | Optimized client side rate control and indexed file layout for streaming media |
JP4327886B1 (ja) * | 2008-05-30 | 2009-09-09 | 株式会社東芝 | 音質補正装置、音質補正方法及び音質補正用プログラム |
JP4327888B1 (ja) * | 2008-05-30 | 2009-09-09 | 株式会社東芝 | 音声音楽判定装置、音声音楽判定方法及び音声音楽判定用プログラム |
US8370887B2 (en) | 2008-05-30 | 2013-02-05 | Microsoft Corporation | Media streaming with enhanced seek operation |
JP5239594B2 (ja) * | 2008-07-30 | 2013-07-17 | 富士通株式会社 | クリップ検出装置及び方法 |
US8265140B2 (en) | 2008-09-30 | 2012-09-11 | Microsoft Corporation | Fine-grained client-side control of scalable media delivery |
TWI384423B (zh) * | 2008-11-26 | 2013-02-01 | Ind Tech Res Inst | 以聲音事件為基礎之緊急通報方法與系統以及行為軌跡建立方法 |
GB0919672D0 (en) | 2009-11-10 | 2009-12-23 | Skype Ltd | Noise suppression |
WO2012020717A1 (ja) * | 2010-08-10 | 2012-02-16 | 日本電気株式会社 | 音声区間判定装置、音声区間判定方法および音声区間判定プログラム |
CN102740215A (zh) * | 2011-03-31 | 2012-10-17 | Jvc建伍株式会社 | 声音输入装置、通信装置、及声音输入装置的动作方法 |
US10332543B1 (en) * | 2018-03-12 | 2019-06-25 | Cypress Semiconductor Corporation | Systems and methods for capturing noise for pattern recognition processing |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5788497A (en) * | 1980-11-21 | 1982-06-02 | Hitachi Ltd | Recognizer for sound |
JPS57177197A (en) * | 1981-04-24 | 1982-10-30 | Hitachi Ltd | Pick-up system for sound section |
US5195138A (en) * | 1990-01-18 | 1993-03-16 | Matsushita Electric Industrial Co., Ltd. | Voice signal processing device |
JPH04340598A (ja) * | 1991-05-16 | 1992-11-26 | Ricoh Co Ltd | 音声認識装置 |
JPH05130067A (ja) * | 1991-10-31 | 1993-05-25 | Nec Corp | 可変閾値型音声検出器 |
US5509102A (en) * | 1992-07-01 | 1996-04-16 | Kokusai Electric Co., Ltd. | Voice encoder using a voice activity detector |
US5459814A (en) * | 1993-03-26 | 1995-10-17 | Hughes Aircraft Company | Voice activity detector for speech signals in variable background noise |
FI100840B (fi) * | 1995-12-12 | 1998-02-27 | Nokia Mobile Phones Ltd | Kohinanvaimennin ja menetelmä taustakohinan vaimentamiseksi kohinaises ta puheesta sekä matkaviestin |
US6202046B1 (en) * | 1997-01-23 | 2001-03-13 | Kabushiki Kaisha Toshiba | Background noise/speech classification method |
US6104993A (en) * | 1997-02-26 | 2000-08-15 | Motorola, Inc. | Apparatus and method for rate determination in a communication system |
DE69831991T2 (de) * | 1997-03-25 | 2006-07-27 | Koninklijke Philips Electronics N.V. | Verfahren und Vorrichtung zur Sprachdetektion |
US6122610A (en) * | 1998-09-23 | 2000-09-19 | Verance Corporation | Noise suppression for low bitrate speech coder |
US6321194B1 (en) * | 1999-04-27 | 2001-11-20 | Brooktrout Technology, Inc. | Voice detection in audio signals |
-
1999
- 1999-11-24 WO PCT/JP1999/006539 patent/WO2001039175A1/ja active Application Filing
- 1999-11-24 JP JP2001540759A patent/JP3878482B2/ja not_active Expired - Fee Related
-
2002
- 2002-03-28 US US10/112,470 patent/US6490554B2/en not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
US6490554B2 (en) | 2002-12-03 |
WO2001039175A1 (fr) | 2001-05-31 |
US20020138255A1 (en) | 2002-09-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3878482B2 (ja) | 音声検出装置および音声検出方法 | |
US9047878B2 (en) | Speech determination apparatus and speech determination method | |
US8909522B2 (en) | Voice activity detector based upon a detected change in energy levels between sub-frames and a method of operation | |
KR100636317B1 (ko) | 분산 음성 인식 시스템 및 그 방법 | |
US5867581A (en) | Hearing aid | |
US9224395B2 (en) | Voice detection for automatic volume controls and voice sensors | |
KR100944252B1 (ko) | 오디오 신호 내에서 음성활동 탐지 | |
JP2010061151A (ja) | 雑音環境のための音声活動検出器及び有効化器 | |
US9280982B1 (en) | Nonstationary noise estimator (NNSE) | |
EP1229520A2 (en) | Silence insertion descriptor (sid) frame detection with human auditory perception compensation | |
CN111149370A (zh) | 会议系统中的啸叫检测 | |
US20230253010A1 (en) | Voice activity detection (vad) based on multiple indicia | |
CN110556128B (zh) | 一种语音活动性检测方法、设备及计算机可读存储介质 | |
KR20090080777A (ko) | 신호 검출 방법 및 장치 | |
US6842526B2 (en) | Adaptive noise level estimator | |
US8788265B2 (en) | System and method for babble noise detection | |
KR20190064384A (ko) | 서버인식 결과를 이용하여 호출어를 인식하는 장치 및 방법 | |
US7672839B2 (en) | Detecting audio signal activity in a communications system | |
WO2010002405A1 (en) | Voice detection for automatic volume controls and voice sensors | |
JPH11133997A (ja) | 有音無音判定装置 | |
CN118675541B (zh) | 一种复杂环境下音频数据安全传输方法及系统 | |
JP2019090962A (ja) | 音声検知システム及び音声検知方法 | |
AU2024266987A1 (en) | Acoustic loudspeaker detection for media identification | |
CN116564357A (zh) | 基于多标记的语音活动检测 | |
EP1551006A1 (en) | Apparatus and method for voice activity detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20040310 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060418 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060619 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060808 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20061006 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20061031 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20061102 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101110 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101110 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111110 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111110 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121110 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121110 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131110 Year of fee payment: 7 |
|
LAPS | Cancellation because of no payment of annual fees |