JP3878482B2

JP3878482B2 - 音声検出装置および音声検出方法

Info

Publication number: JP3878482B2
Application number: JP2001540759A
Authority: JP
Inventors: 香緒里鈴木; 恭士大田
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1999-11-24
Filing date: 1999-11-24
Publication date: 2007-02-07
Anticipated expiration: 2019-11-24
Also published as: US6490554B2; WO2001039175A1; US20020138255A1

Description

本発明は、音声信号を取り込み、その音声信号の有音区間と無音区間とを識別する音声検出装置と、その音声検出装置に適用された音声検出方法に関する。

近年、ディジタル信号処理技術が高度に進展し、かつ移動通信システムその他の通信システムにおいては、これらのディジタル信号処理技術が適用されることによって、伝送情報である音声信号に実時間で多様な信号処理が施されている。
また、このような通信システムの送信端では、伝送帯域の圧縮や無線周波数の有効利用に併せて、消費電力の節減を目的として、上述した音声信号の無音区間と有音区間とを検出し、この有音区間に限って伝送路に対する送信を許容する音声検出装置が搭載されている。

図１２は、音声検出装置が搭載された無線端末装置の構成例を示す図である。
図において、マイク４１は音声検出装置４２の入力と送受信部４３の変調入力とに接続され、その送受信部４３のアンテナ端子にはアンテナ４４の給電端が接続される。音声検出装置４２の出力は送受信部４３の送信制御入力に接続され、その送受信部４３の制御用の入出力には制御部４５の対応する入出力ポートが接続される。制御部４５の特定の出力ポートは音声検出装置４２の制御入力に接続され、かつ送受信部４３の復調出力はレシーバ４６の入力に接続される。

このような構成の無線端末装置では、送受信部４３はマイク４１とレシーバ４６とを介して送受されるべき伝送情報である音声信号と、アンテナ４４を介してアクセスが可能な無線伝送路（図示されない。）との無線インタフェースをとる。
制御部４５は、その送受信部４３と連係することによって、この無線伝送路の形成に要するチャネル制御を主導的に行う。

音声検出装置４２は、所定の周期で上述した音声信号をサンプリングすることによって音声フレームの列を生成する。さらに、音声検出装置４２は、これらの個々の音声フレームについて、音声信号の性質に基づいて、有音区間と無音区間との何れに該当するかの識別を行い、その識別の結果を示す２値信号を出力する。
なお、上述した性質とは、例えば、下記の事項である。
・約５５デシベルのダイナミックレンジを有する。
・振幅分布が標準的な確率密度関数で近似され得る。
・エネルギーの密度と零交差回数とは、それぞれ無音区間と有音区間とにおいて異なる値となる。

送受信部４３は、その２値信号の論理値が上述した無音区間を意味するする期間には、送信を見合わせる。
すなわち、音声信号に伝送情報として有効な情報が含まれていない期間には、送受信部４３が無用に送信することが規制される。したがって、消費電力の節減にあわせて、他の無線チャネルに介する干渉の抑制と無線周波数の有効利用とが図られる。

しかし、このような従来例では、マイク４１を介して与えられる音声信号に大きなレベルの雑音が重畳している期間には、有音区間と無音区間との間における特徴量（例えば、上述した零交差回数）の差が小さな値となる。
さらに、有音区間であっても子音区間には、一般に、音声信号の振幅は、母音区間に比べて小さい値に多く分布する。

したがって、子音区間は無音区間として識別される可能性が高く、上述したように誤って識別された子音（有音）区間には、該当する音声フレームの送信が行われず、通話品質が無用に劣化する可能性が高かった。
また、上述した雑音のレベルが過大である場合には、その騒音が重畳された音声信号の大半を示す音声フレームに亘って送信が規制される可能性があった。

なお、これらの問題点については、例えば、有音区間としての識別がされ易い値にその識別の基準となる特徴量等の閾値が設定されることによって、改善され得る。
しかし、このような閾値が適用された場合には、無音区間であるにもかかわらず有音区間として識別される確率が増加し、かつその有音区間の時間率が過大となり得るために、既述の消費電力の節減、干渉の抑制および無線周波数の有効利用が十分に図られない可能性があった。

本発明は、音声信号とその音声信号に重畳され得る雑音との多様な特徴に柔軟に適応し、かつ確度高く有音区間と無音区間とを識別できる音声検出装置および音声検出方法を提供することを目的とする。
上述した目的は、音声フレーム毎に、有音区間に属する確率と品質とを求め、その確率をこの品質で重み付けて出力する点に特徴がある音声検出装置および音声検出方法によって達成される。

このような構成の音声検出装置および音声検出方法では、個々の音声フレームは、品質が良好であるほど、高い確率で有音区間として識別され、反対に無音区間として識別される確率が小さくなる。
また、上述した目的は、音声フレーム毎に、有音区間に属する確率と品質とを求め、この確率が求められるべき音声フレームのレベルをその品質が大きいほど小さな値に設定する点に特徴がある音声検出装置および音声検出方法によって達成される。

このような構成の音声検出装置および音声検出方法では、品質が低いほど、個々の音声フレームに含まれる個々の音声信号の瞬時値に対して大きな重み付けが行われるために、その結果である瞬時値の列として与えられる音声信号が上述した有音区間に属する確度が高い値で求められる。
さらに、上述した目的は、音声フレーム毎に、有音区間に属する確率と品質とが求められ、その品質が高いほど、この確率が求められるべき音声フレームの圧伸処理に適用されるべき圧伸特性の勾配あるいは閾値を大きな値に設定する点に特徴がある音声検出装置および音声検出方法によって達成される。

このような構成の音声検出装置および音声検出方法では、音声信号の品質が低いほど個々の音声フレームに含まれる瞬時値に対して大きな重み付けを行う処理は、圧伸処理として行われる。
また、上述した目的は、音声フレーム毎に、有音区間と無音区間との双方あるいは何れか一方について特徴を求め、これらの特徴を品質として適用する点に特徴がある音声検出装置によって達成される。

このような構成の音声検出装置では、音声信号の品質は、音響分析あるいは音声分析を実現する多様な技術の適用の下で安定に得られる。
さらに、上述した目的は、音声フレーム毎に、雑音推定パワーを求め、その雑音推定パワーを品質として適用する点に特徴がある音声検出装置および音声検出方法によって達成される。

このような構成の音声検出装置では、上述した雑音推定パワーの算出は、一般に、単純な算術演算によって達成される。
また、上述した目的は、音声フレーム毎に、雑音推定パワーと、ＳＮ比の推定値とを求め、前者に対する単調非増加関数と後者に対する単調非減少関数として与えられる数を品質として適用する点に特徴がある音声検出装置によって達成される。

このような構成の音声検出装置では、重畳している雑音のレベルが大きく、かつＳＮ比が小さい音声フレームについても、有音区間に属することを示す確度が大きな値で得られる。
さらに、上述した目的は、雑音推定パワーに代えて標準化確率変数が適用される点で先行して記載された音声検出装置と異なる音声検出装置によって達成される。

このような構成の音声検出装置では、標準化確率変数は、その絶対値が大きいほど、「音声フレームの振幅の先頭値が音声信号の標準的な振幅に比べて大きく、かつ大きなレベルの雑音がこの音声フレームに重畳されている可能性が高いこと」を意味し、反対に小さいほど、「音声フレームの振幅の先頭値が音声信号の標準的な振幅に比べて小さく、この音声フレームに重畳されている雑音のレベルも小さいこと」を意味する。

したがって、標準化確率変数は、上述した雑音推定パワーに代替し得る。
また、上述した目的は、標準化確率変数が音声フレームの振幅分布とその振幅分布の最大値とに基づいて近似的に算出される点に特徴がある音声検出装置によって達成される。
このような構成の音声検出装置では、上述した標準化確率変数は、簡便な算術演算によって求められる。

さらに、上述した目的は、音声フレームの単位に先行して得られた品質が時系列の順に積分され、その結果が品質として適用される点に特徴がある音声検出装置によって達成される。
このような構成の音声検出装置では、時系列の順に得られた音声信号の品質に伴い得る急峻な変動の成分が軽減され、あるいは抑圧される。

また、上述した目的は、音声フレームの単位に先行して得られた品質が時系列の順に積分され、その結果が大きいほどこの結果が小さく重み付けされて得られた値が品質として適用される点に特徴がある音声検出装置によって達成される。
このような構成の音声検出装置では、先行して与えられた音声フレームの品質が高く、あるいはその品質が高かった時間率が大きいほど、後続して与えられる音声フレームが有音区間である確度が大きな値で得られる。

図１は、本発明の第１の原理ブロック図である。
図１に示す音声検出装置は、区間推定手段１１と、品質監視手段１２と、区間判定手段１３とから構成される。
本発明にかかわる第１の音声検出装置の原理は、下記の通りである。
区間推定手段１１は、音声信号として時系列の順に与えられる音声フレーム毎に、その音声信号に含まれる音声と雑音のそれぞれの成分の特徴に基づいて有音区間に属する可能性の大きさを示す確度を求める。また、品質監視手段１２は、音声フレーム毎に音声信号の品質を監視する。

区間判定手段１３は、上述したように音声信号として時系列の順に与えられる個々の音声フレームについて、区間推定手段によって求められた確度に、品質監視手段１２によって監視された品質が低いほど音声である確率が高くなるように重みを付け有音区間である確度を得る。
このような音声検出装置では、個々の音声フレームは、音声信号の品質が良好であるほど、高い確率で有音区間として識別され、反対に無音区間として識別される確率が小さくなる。

したがって、有音区間の内、例えば、子音区間のように音声信号の振幅が小さな領域に多く分布する区間については、その子音区間における音声信号の品質が低い場合であっても有音区間である確度が大きな値で得られる。
図２は、本発明の第２の原理ブロック図である。
図２に示す音声検出装置は、区間判定手段１５、１５Ａと、品質監視手段１６とから構成される。

本発明にかかわる第２の音声検出装置の原理は、下記の通りである。
区間判別手段１５は、音声信号として時系列の順に与えられる音声フレーム毎に、その音声信号に含まれる音声と雑音のそれぞれの成分の特徴に基づいて有音区間に属する確度を求める。品質監視手段１６は、これらの音声フレームについて、個別に上述した音声信号の品質を監視する。

また、区間判定手段１５は、上述した音声フレーム毎に、個別に含まれる音声信号の瞬時値の列に、品質監視手段１６によって監視された品質が高くなるほど単調減少する又は、品質が低くなるほど単調非増加する重みによる重み付けを行う。
このような音声検出装置では、音声フレーム毎に、品質が低いほど、区間判別手段１５は、その音声フレームに含まれる個々の音声信号の瞬時値に大きな重み付けを行い、その結果として与えられる瞬時値の列として与えられる音声信号について、上述した有音区間に属する確度を求める。

したがって、有音区間の内、例えば、子音区間のように音声信号の振幅が小さな領域に多く分布する区間については、その子音区間における音声信号の品質が低い場合であっても有音区間である確度が大きな値で得られる。
本発明にかかわる第３の音声検出装置の原理は、下記の通りである。
品質監視手段１６は、時系列の順に音声フレームの列として与えられる音声信号について、その音声フレーム毎に品質を監視する。

区間判定手段１５Ａは、これらの音声フレームに個別に圧伸処理を施し、その結果として得られた音声信号の瞬時値の列をその音声信号の統計的な性質に基づいて解析することによって、有音区間に属する確度を求める。
さらに、区間判定手段１５Ａは、上述した音声フレーム毎に、品質監視手段１６によって監視された品質に対して音声の瞬時値の単調減少関数として与えられる圧伸特性を前記圧伸処理に適用する。

このような音声検出装置では、音声信号の品質が低いほど、個々の音声フレームに含まれる音声信号の瞬時値に対して大きな重み付けを行う処理は、上述した圧伸処理として、既述の第２の音声検出装置と同様に行われる。
したがって、有音区間の内、例えば、子音区間のように音声信号の振幅が小さな領域に多く分布する区間については、その子音区間における音声信号の品質が低い場合であっても、有音区間であることを示す確度が大きな値で得られる。

本発明にかかわる第４の音声検出装置の原理は、下記の通りである。
品質監視手段１２、１６は、音声信号の有音区間と無音区間の少なくとも一方についてその信号成分の特徴を求め、求められた特徴から音声信号の品質を得る。
このような音声検出装置では、音声信号の品質は、音響分析あるいは音声分析を実現する多様な技術の適用の下で、上述した特徴として安定に得られる。

したがって、既述の第１ないし第３の音声検出装置に比べて、音声フレーム毎に有音区間である確度が精度よく得られる。
本発明にかかわる第５の音声検出装置の原理は、下記の通りである。
品質監視手段１２、１６は、音声フレーム毎に、雑音推定パワーを求め、その雑音推定パワーが大きいほど小さな値として音声信号の品質を得る。

このような音声検出装置では、雑音推定パワーの算出は、一般に、単純な算術演算によって達成される。
したがって、既述の第１ないし第３の音声検出装置に比べて、処理量が削減され、あるいは応答性が高められる。
本発明にかかわる第６の音声検出装置の原理は、下記の通りである。

品質監視手段１２、１６は、音声フレーム毎に、雑音推定パワーとＳＮ比の推定値とを求め、前者が大きいほど小さく、かつ後者が大きいほど大きな値として音声信号の品質を得る。
このような音声検出装置では、大きなレベルの雑音が重畳し、かつＳＮ比が小さい音声フレームについても、有音区間に属することを示す確度が大きな値で得られる。

本発明にかかわる第７の音声検出装置の原理は、下記の通りである。
品質監視手段１２、１６は、音声フレーム毎に、標準化確率変数を求め、その標準化確率変数が大きいほど小さな値として音声信号の品質を得る。
このような音声検出装置では、標準化確率変数は、その絶対値が大きいほど、「音声フレームの振幅の先頭値が音声信号の標準的な振幅に比べて大きく、かつ大きなレベルの雑音がこの音声フレームに重畳されている可能性が高いこと」を意味し、反対に小さいほど、「音声フレームの振幅の先頭値が音声信号の標準的な振幅に比べて小さく、この音声フレームに重畳されている雑音のレベルも小さいこと」を意味する。

したがって、既述の第６の音声検出装置と同様に、重畳している雑音のレベルが高く、かつＳＮ比が小さい音声フレームについても、有音区間に属することを示す確度が大きな値で得られる。
本発明にかかわる第８の音声検出装置の原理は、下記の通りである。
品質監視手段１２、１６は、音声フレーム毎に、標準化確率変数とＳＮ比の推定値とを求め、前者が大きいほど小さく、かつ後者が大きいほど大きな値として音声信号の品質を得る。

このような音声検出装置では、大きなレベルの雑音が重畳し、かつＳＮ比が小さい音声フレームについても、有音区間に属することを示す確度が大きな値で得られる。
本発明にかかわる第１の音声検出方法の原理は、下記の通りである。
第１の音声検出方法では、音声信号として時系列の順に与えられる音声フレーム毎に、その音声信号に含まれ得る音声と雑音との成分の特徴の相違に基づいて有音区間に属する可能性の大きさを示す確度が求められ、かつ特徴量に基づいてこの音声信号の品質が監視される。

さらに、音声信号として時系列の順に与えられる個々の音声フレームについては、上述したように求められた確度に、監視された品質を重みとして重み付けられることによって、有音区間である確度が得られる。
このような音声検出方法では、個々の音声フレームは、音声信号の品質が良好であるほど、高い確率で有音区間として識別され、反対に無音区間として識別される確率が小さくなる。

したがって、有音区間の内、例えば、子音区間のように音声信号の振幅が小さな領域に多く分布する区間については、その子音区間における音声信号の品質が低い場合であっても有音区間である確度が大きな値で得られる。
本発明にかかわる第２の音声検出方法の原理は、下記の通りである。
第２の音声検出方法では、音声信号として時系列の順に与えられる音声フレーム毎に、その音声信号に含まれ得る音声と雑音との成分の特徴の相違に基づいて有音区間に属する確率が求められ、かつ特徴量に基づいてこの音声信号の品質が前記音声フレーム毎に監視される。

さらに、音声フレーム毎に、個別に含まれる音声信号の瞬時値の列については、上述したように監視された品質が高いほど小さな重みで重み付けが行われる。
このような音声検出方法では、音声フレーム毎に、音声信号の品質が低いほど、その音声フレームに含まれる個々の音声信号の瞬時値に対して大きな重み付けが行われ、その結果として与えられる瞬時値の列として与えられる音声信号について、上述した有音区間に属する確度が求められる。

したがって、有音区間の内、例えば、子音区間のように音声信号の振幅が小さな領域に多く分布する区間については、その子音区間における音声信号の品質が低い場合であっても有音区間である確度が大きな値で得られる。
本発明にかかわる第３の音声検出方法の原理は、下記の通りである。
第３の音声検出方法では、時系列の順に与えられる個々の音声フレームについて、圧伸処理が施され、その結果として得られた音声信号の瞬時値の列がその音声信号の統計的な性質に基づいて解析されることによって、有音区間に属する確度が求められ、かつその音声信号の品質が監視される。

さらに、上述した圧伸処理の過程では、音声フレーム毎に、このようにして監視された品質の単調減少関数として与えられる圧伸特性が適用される。
このような音声検出方法では、音声信号の品質が低いほど、個々の音声フレームに含まれる音声信号の瞬時値に対して大きな重み付けを行う処理は、上述した圧伸処理として、第二の音声検出方法と同様に行われる。

したがって、有音区間の内、例えば、子音区間のように音声信号の振幅が小さな領域に多く分布する区間については、その子音区間における音声信号の品質が低い場合であっても有音区間である確度が大きな値で得られる。

本発明によれば、有音区間の内、例えば、子音区間のように音声信号の振幅が小さい領域に多く分布する区間について、音声信号の品質が低い場合であっても有音区間である確度が大きな値で得られる。
本発明によれば、精度よく、音声フレーム毎に有音区間である確度が得られる。
本発明によれば、所要する処理量が削減され、あるいは応答性が高められる。

本発明によれば、重畳している雑音のレベルが大きく、かつＳＮ比が小さい音声フレームについても、有音区間に属することを示す確度が大きな値で得られる。

以下、図面に基づいて本発明の実施形態について詳細に説明する。
図３は、本発明の実施形態１、３〜８を示す図である。
図において、図１２に示すものと機能および構成が同じものについては、同じ符号を付与して示し、ここでは、その説明を省略する。
本実施形態と図１２に示す従来例との構成の相違点は、音声検出装置４２に代えて音声検出装置２０が備えられた点にある。

音声検出装置２０は、初段に備えられた有音／無音識別部２１と、その有音／無音識別部２１のモニタ出力に直結されたモニタ端子を有し、この有音／無音識別部２１と共に初段に備えられた識別確度判定部２２と、これらの有音／無音識別部２１および識別確度判定部２２の出力にそれぞれ接続された２つのポートを有するメモリ２３と、そのメモリ２３の出力に直結されると共に、最終段として備えられた最終判定部２４とから構成される。

図４は、実施形態１の動作フローチャートである。
［実施形態１］
以下、図３および図４を参照して本発明にかかわる実施形態１の動作を説明する。
音声検出装置２０では、有音／無音識別部２１は、マイク４１を介して与えられる音声信号に、図１２に示す音声検出装置４２が行う処理と同じ処理を施すことによって、既述の音声フレーム毎に有音区間と無音区間との識別を行い、かつメモリ２３と識別確度判定部２２とに並行してこの識別の結果を示す２値情報Ｉｔを与える。

なお、この２値情報Ｉｔの論理値については、簡単のため、有音区間には「１」に設定され、反対に無音区間には「０」に設定されると仮定する。
一方、識別確度判定部２２は、有音／無音識別部２１と並行して上述した音声信号を既述の音声フレームの列に変換する。さらに、識別確度判定部２２は、有音／無音識別部２１によって与えられる２値情報Ｉｔの論理値に応じて有音区間と無音区間とを識別し、これらの区間について、個々の音声フレームの特徴量Ｆｔ（ここでは、簡単のため、エネルギーと零交差回数との双方あるいは何れか一方であると仮定する。）の分布（平均値）を定常的に監視する。

さらに、識別確度判定部２２は、個々の音声フレームが与えられる期間に、有音区間と無音区間とにおける上述した特徴量Ｆｔの分布（平均値）の差分が所定の閾値Ｆｔｈを下回るか否かの判別を行い、その判別の結果を示す２値の識別確度Ｒｔを求める。
なお、このような識別確度Ｒｔの論理値については、上述した差分が閾値Ｆｔｈを下回る程度に音声信号の品質が低い場合には「０」に設定され、反対にこの閾値Ｆｔｈを上回る程度に音声信号の品質が良好である場合には「１」に設定されると仮定する。

また、メモリ２３には、有音／無音識別部２１によって与えられた２値情報Ｉｔと、識別確度判定部２２によって求められた識別確度Ｒｔとが上述した音声フレームの単位に対応付けられて蓄積される。
最終判定部２４は、このようにメモリ２３に蓄積された２値情報Ｉｔと識別確度Ｒｔとの個々の組み合わせに応じて、下記の処理を順次行う。
・識別確度Ｒｔの論理値が「１」である場合には、論理値が２値情報Ｉｔの論理値に等しい２値信号を送受信部４３に与える（図４（１））。
・識別確度Ｒｔの論理値が「０」である場合には、論理値が「１」である２値信号を送受信部４３に与える（図４（２））。

また、送受信部４３は、制御部４５が行うチャネル制御の下で割り付けられた無線チャネルに、マイク４１によって与えられる音声信号で変調された送信波信号を送信する過程には、上述したように、音声フレーム単位に音声検出装置２０で行われる処理の演算所要時間に等しい遅延を与えることによって、この音声検出装置２０との同期を維持する。
すなわち、音声信号の品質が良好である場合には、有音／無音識別部２１によって与えられた２値情報Ｉｔが２値信号として送受信部４３に与えられるが、その品質が良好でない場合には、この２値信号の論理値は、有音区間を示す「１」に設定される。

したがって、本実施形態によれば、識別確度Ｒｔの如何にかかわらず音声信号の統計的な性質のみに基づいて有音区間と無音区間との識別が行われる従来例に比べて、その音声信号の品質が悪い有音区間が無音区間として識別されることが確度高く回避され、かつ伝送品質の劣化が緩和される。
なお、本実施形態では、有音／無音識別部２１と識別確度判定部２２とが並行して個別に音声信号を音声フレームの列に変換する処理を行っている。

しかし、このような処理は、有音／無音識別部２１と識別確度判定部２２との何れか一方によって主導的に行われ、あるいはこれらの有音／無音識別部２１と識別確度判定部２２との前段に配置された手段によって行われてもよい。
また、本実施形態では、有音／無音識別部２１によって求められた２値情報Ｉｔと、識別確度判定部２２によって求められた識別確度Ｒｔとが音声フレーム毎に対応つけられてメモリ２３に蓄積されている。

しかし、メモリ２３は、有音／無音識別部２１、識別確度判定部２２および最終判定部２４によって行われるべき既述の処理の所要時間に伴い得る変動分が許容される程度に小さい場合には、備えられなくてもよい。
さらに、本実施形態では、送受信部４３は、音声フレーム単位に音声検出装置２０によって行われる処理の演算所要時間に等しい遅延を与えることによって、この音声検出装置２０との同期を維持している。

しかし、このような遅延は、上述した同期が所望の確度で維持される程度に小さい場合には、何ら与えられなくてもよい。
また、本実施形態では、識別確度判定部２２によって既述の識別確度Ｒｔが求められている。
しかし、識別確度判定部２２と最終判定部２４とは、例えば、その識別確度判定部２２が下記の処理の何れかのみを行うことによって、如何なる形態で機能分散が図られてもよい。
・既述の音声フレームが与えられる時点あるいは期間に、有音区間と無音区間とにおける上述した特徴量Ｆｔの分布（平均値）を求める。
・その特徴量Ｆｔの分布（平均値）を求め、この隔たり（差分）が所定の閾値Ｆｔｈを下回るか否かの判別を行う。

さらに、本実施形態では、有音区間と無音区間との特徴量Ｆｔの差分と閾値Ｆｔｈとの大小関係に基づいて、音声信号の品質の良否が判別されている。
しかし、本発明は、このような構成に限定されず、例えば、有音区間と無音区間との何れか一方の特徴量が所望の確度で既知の値として与えられる場合には、他方の特徴量のみが求められ、その特徴量と規定の閾値との大小関係に基づいて、音声信号の伝送品質の良否が判別されてもよい。

［実施形態２］
図５は、本発明の実施形態２を示す図である。
図において、図３に示すものと機能および構成が同じものについては、同じ符号を付与して示し、ここでは、その説明を省略する。
本実施形態と既述の実施形態１との構成の相違点は、音声検出装置２０に代えて音声検出装置３０が備えられた点にある。

音声検出装置３０と音声検出装置２０との構成の相違点は、有音／無音識別部２１に代えて有音／無音識別部２１Ａが備えられ、最終判定部２４に代えて識別条件調整部３１が備えられ、その識別条件調整部３１の出力は送受信部４３の対応する制御入力に代わる有音／無音識別部２１Ａの閾値入力に接続され、その制御入力に有音／無音識別部２１Ａの出力が接続された点にある。

図６は、実施形態２の動作フローチャートである。
以下、図５および図６を参照して本発明にかかわる実施形態２の動作を説明する。
本実施形態と実施形態１との相違点は、識別条件調整部３１が行う下記の処理と、有音／無音識別部２１Ａがその処理の下で与えられる閾値に基づいて既述の２値情報Ｉｔを求める点とにある。

なお、以下では、有音／無音識別部２１Ａ、識別確度判定部２２およびメモリ２３が連係することによって行われる処理の手順については、既述の実施形態１と基本的に同じであるので、ここでは、その説明を省略する。
有音／無音識別部２１Ａは、マイク４１を介して与えられる音声信号に、図１２に示す従来例に搭載された音声検出装置４２が行う処理と同じ処理を施し、その処理の過程でこの音声信号の統計的な性質にかかわる閾値（以下、「区間識別閾値」という。）として、識別条件調整部３１によって与えられる値を適用することによって、２値情報Ｉｔを求める。

また、識別条件調整部３１は、このようにして求められた２値情報Ｉｔと識別確度判定部２２によって求められた識別確度Ｒｔとの組み合わせを順次メモリ２３を介して取り込み、かつ下記の処理を行う。
・識別確度Ｒｔの論理値が「１」である場合には、その有音／無音識別部２１に、『上述した音声信号の品質が良好である期間に２値情報Ｉｔを求める過程で、有音／無音識別部２１Ａが適用すべき標準的な区間識別閾値（以下、「標準閾値」という。）』を与える（図６（１））。なお、標準閾値については、識別条件調整部３１に予め与えられていると仮定する。
・識別確度Ｒｔの論理値が「０」である場合には、先行して有音／無音識別部２１Ａに与えらた区間識別閾値（上述した「標準閾値」であってもよい。）を下記の何れかの値に更新し、あるいは設定する（図６（２））。
−有音／無音識別部２１Ａが後続する音声フレームを有音区間に属する音声フレームと識別する可能性が高い値
−有音／無音識別部２１Ａが後続する音声フレームを有音区間に属する音声フレームとして確実に識別する値
さらに、送受信部４３は、有音／無音識別部２１Ａによって与えられる２値情報Ｉｔの列を既述の２値信号として取り込み、既述の実施形態１と同様に音声検出装置３０との同期を維持する。

このように本実施形態によれば、音声信号の品質が良好である場合には、有音／無音識別部２１Ａによって与えられた２値情報Ｉｔが２値信号として送受信部４３に与えられるが、その品質が良好でない場合には、区間識別閾値が適宜更新されることによって、『有音区間を示す「１」にこの２値信号の論理値が設定される確率』が高められる。
したがって、本実施形態によれば、識別確度Ｒｔの如何にかかわらず音声信号の統計的な性質のみに基づいて有音区間と無音区間との識別が行われる従来例に比べて、品質が悪い有音区間が無音区間として識別されることに起因する伝送品質の劣化が緩和され、あるいは回避される。

なお、本実施形態では、区間識別閾値は、識別条件調整部３１によって適宜更新され、あるいは設定されている。
しかし、本発明は、このような構成に限定されず、例えば、有音／無音識別部２１Ａに音声信号を線形領域で増幅する可変利得増幅器が搭載され、かつ有音区間と無音区間との識別の基準がその音声信号のレベルである場合には、上述した区間識別閾値に代えてこの可変利得増幅器の利得が可変されてもよい。

［実施形態３］
本実施形態と実施形態１との構成の相違点は、識別確度判定部２２に代えて識別確度判定部２２Ａが備えられた点にある。
図７は、実施形態３の動作フローチャートである。
以下、図３および図７を参照して本実施形態の動作を説明する。

本実施形態の特徴は、識別確度判定部２２Ａが行う下記の処理の手順にある。
識別確度判定部２２Ａは、有音／無音識別部２１と並行して音声信号を音声フレームの列に変換し（図７（１））、かつ個々の音声フレームについて下記の処理を施す。
なお、以下では、個々の音声フレームは、簡単のため、時系列ｔ（＝０〜Ｎ）の順に（Ｎ＋１）個の瞬時値ｘ（ｔ）の列として与えられると仮定する。
１．下式（１）で示される算術演算を行うことによって、フレームパワーＰｔを算出し、時系列ｔの順に蓄積する（図７（２））。
２．先行する音声フレームについて同様にして算出され、かつ蓄積されている先行フレームパワーＰｔ−１を取得する（図７（３））。
３．規定の時定数α（＜１）に対して下式（２）で示される算術演算を行うことによって、雑音推定パワーＰＮｔを指数平滑法に基づいて算出する（図７（４））。
４．この雑音推定パワーＰＮｔと、その雑音推定パワーＰＮｔについて既述の閾値Ｆｔｈと同様に予め設定された閾値Ｐｔｈとを比較することによって、前者が後者を上回るか否かの判別を行い（図７（５））、その判別の結果を示す２値の識別確度Ｒｔを求める（図７（６））。

なお、このような識別確度Ｒｔの論理値については、上述した判別の結果が真である場合には「０」（通話信号の品質が低いことを意味する。）に設定され、反対に偽である場合には「１」（通話信号の品質が良好であることを意味する。）に設定されると仮定する。

また、最終判定部２４は、既述の実施形態１と同様にこの識別確度Ｒｔを参照することによって２値信号を生成し、その２値信号を送受信部４３に順次与える。
このように本実施形態によれば、上式（１）、（２）に示す単純な算術演算によって通話信号の品質が簡便に求められ、かつ上述した判別の結果が偽である期間は、有音／無音識別部２１によって与えられた２値情報の論理値Ｉｔの如何にかかわらず、高い確度で、あるいは確実に有音期間として識別される。

［実施形態４］
本実施形態と実施形態１との構成の相違点は、識別確度判定部２２に代えて識別確度判定部２２Ｂが備えられた点にある。
図８は、実施形態４の動作フローチャートである。
以下、図３および図８を参照して本実施形態の動作を説明する。

本実施形態の特徴は、識別確度判定部２２Ｂが行う下記の処理の手順にある。
識別確度判定部２２Ｂは、有音／無音識別部２１と並行して音声信号を音声フレームの列に変換し（図８（１））、かつ個々の音声フレームについて下記の処理を施す。
１．既述の実施形態３において識別確度判定部２２Ａによって行われる処理の手順と同じ手順に基づいてフレームパワーＰｔと、雑音推定パワーＰＮｔとを算出する（図８（２））。
２．下式（３）で示される算術演算を行うことによって、この音声フレームのＳＮ比の推定値（以下、単に、「ＳＮ推定値」という。）ＳＮｔを算出する（図８（３））。
３．このＳＮ推定値ＳＮｔがそのＳＮ推定値ＳＮｔについて既述の閾値Ｆｔｈと同様に予め設定された閾値ＳＮｔｈを上回るか否かの判別（以下、「ＳＮ判別」という。）を行う（図８（４））。
４．上述した雑音推定パワーＰＮｔが既述の閾値Ｐｔｈを下回るか否かの判別（以下、「雑音判別」という。）を行う（図８（５））。
５．これらの判別の結果の組み合わせに応じて、下記の通りに識別確度Ｒｔを求め、かつ出力する。
(1) ＳＮ判別の結果が真である場合と、そのＳＮ判別の結果が偽であり、かつ雑音判別の結果が真である場合とには、この雑音判別の結果を示す２値を識別確度Ｒｔとして出力する（図８（６））。
(2) ＳＮ判別の結果が偽であり、かつ雑音判別の結果が偽である場合には、論理値が「０」である識別確度Ｒｔを出力する（図８（７）。

すなわち、ＳＮ推定値ＳＮｔが小さく、かつ上述した雑音推定パワーＰＮｔが大きい場合に、有音／無音識別部２１によって行われた識別の確度が著しく低下した状態であっても、最終判定部７４によって有音区間が無音区間と識別されることが確度高く回避される。

［実施形態５］
本実施形態と実施形態１との構成の相違点は、識別確度判定部２２に代えて識別確度判定部２２Ｃが備えられた点にある。
図９は、実施形態５の動作フローチャートである。
以下、図３および図９を参照して本実施形態の動作を説明する。

本実施形態と既述の実施形態４との相違点は、識別確度判定部２２Ｃが行う下記の処理の手順にある。
識別確度判定部２２Ｃは、有音／無音識別部２１と並行して音声信号を音声フレームの列に変換し（図９（１））、かつ個々の音声フレームについて、雑音推定パワーＰＮｔを算出する処理に代えて以下の処理を行う。
Ａ）時系列ｔの順に与えられる個々の音声フレームで示される音声信号の振幅の先頭値ｓＰｔと平均値ｓｍｔとを求めて蓄積する。
Ｂ）最新の音声フレームが与えられる度に、所定の数Ｍに対してその音声フレームに先行する時点で時系列ｔの順にそれぞれ与えられたＭ個の音声フレームについて、同様に蓄積された先頭値ｓＰｔと平均値ｓｍｔとを取得する。
Ｃ）これらの先頭値および平均値を下式（４）に代入することによって行われる算術演算の結果として、該当する音声フレームで示される音声信号の振幅の標準偏差σｔを算出する。
Ｄ）最新の音声フレームで示される音声信号の振幅の先頭値ｘを求める。
Ｅ）これらの標準偏差σｔと先頭値ｘとに対して下式（５）で示される算術演算を行うことによって、上述した音声信号の振幅の標準化確率変数Ｐｒｔを算出する（図９（２））。

なお、標準化確率変数Ｐｒｔは、最新の音声フレームに含まれる音声信号の振幅の先頭値ｓＰｔと、その振幅の分布との相関関係を意味する。
さらに、標準化確率変数Ｐｒｔは、その絶対値が大きいほど、「最新の音声フレームの振幅の先頭値が音声信号の標準的な振幅に比べて大きく、かつ大きなレベルの雑音がこの音声フレームに重畳されている可能性が高いこと」を意味し、反対に小さいほど、「最新の音声フレームの振幅の先頭値が音声信号の標準的な振幅に比べて小さく、この音声フレームに重畳されている雑音のレベルが小さいこと」を意味する。

また、識別確度判定部２２Ｃは、実施形態４と同様にしてＳＮ推定値ＳＮｔを求め（図９（３））、かつ「ＳＮ判定」を行う（図９（４））。
さらに、識別確度判定部２２Ｃは、上述した標準化確率変数Ｐｒｔが規定の閾値Ｐｒｔｈを下回るか否かの判別（以下、「変数判別」という。）を行う（図９（５））。
また、識別確度判定部２２Ｃは、これらの判別の結果の組み合わせに応じて、下記の通りに識別確度Ｒｔを求めて出力する。
Ｉ．ＳＮ判別の結果が真である場合と、変数判別の結果が真である場合とには、この変数判別の結果を示す２値を識別確度Ｒｔとして出力する（図９（６））。
ＩＩ．ＳＮ判別の結果が偽であり、かつ変数判別の結果が偽である場合には、論理値が「０」である識別確度Ｒｔを出力する（図９（７））。

すなわち、識別確度Ｒｔの論理値は、標準化確率変数Ｐｒｔの値が大きい場合には、有音／無音識別部２１によって行われる識別の確度が著しく低下した状態であっても、最終判定部７４によって有音区間を無音区間と識別することが確度高く回避される。
［実施形態６］
本実施形態と実施形態５との構成の相違点は、識別確度判定部２２に代えて識別確度判定部２２Ｄが備えられた点にある。

図１０は、実施形態６の動作フローチャートである。
以下、図３および図１０を参照して本実施形態の動作を説明する。
本実施形態と実施形態５との相違点は、識別確度判定部２２Ｄが識別確度判定部２２Ｃに代えて、後述する手順に基づいて標準化確率変数Ｐｒｔを算出する点にある。
音声信号の振幅分布を示す確率密度関数は、一般に、ガンマ分布やラプラス分布で近似が可能である。

また、この確率密度関数Ｐ（ｘ）は、例えば、上述したラプラス分布で近似された場合には、標準偏差で正規化された音声の振幅ｘに対して、下記の式で定義される。

したがって、標準偏差で正規化された音声の振幅ｘの絶対値は、

の式で与えられる。
ところで、個々の音声フレームに含まれ、かつサンプリングされて所定のディジタル信号処理が施される標本値の数Ｋ（ここでは、簡単のため、「１０００」であると仮定する。）は、一般に、既知の値として与えられる。

また、このような場合には、個々の音声フレームに含まれる音声フレームに振幅の先頭値が出現する確率は、（１／Ｋ）で与えられる。
識別確度判定部２２Ｄは、この確率（＝１／Ｋ）が上式（６）に適用されることによって得られる下記の式で示される算術演算を行い、その結果結果として｜ｘ｜の値を求める（図１０（１））。

さらに、識別確度判定部２２Ｄは、該当する音声フレームで与えられる音声信号の振幅の瞬時値ｐを求め（図１０（２））、その瞬時値ｐと上述した｜ｘ｜の値とに対して、

の式で示される算術演算を行うことによって標準偏差σｔを算出する（図１０（３））と共に、この標準偏差σｔの値を既述の式（５）に代入することによって標準化確率変数Ｐｒｔを求める（図１０（４））。

すなわち、実施形態５において行われる既述の処理Ａ）〜Ｅ）に比べて簡便な算術演算に基づいて標準化確率変数Ｐｒｔが求められる。
したがって、本実施形態によれば、実施形態５に比べて所望の応答性が得られるために確保されるべき処理量の削減、あるいはその応答性の向上が可能となる。
なお、本実施形態では、識別確度判定部２２Ｄは、単位音声フレーム毎に既述の処理を行なっている。

しかし、このような処理については、時系列の順に与えられる所望の複数の音声フレーム毎に同様の処理が行われることによって、誤差の圧縮が図られてもよい。
なお、実施形態３〜実施形態６は、実施形態１の構成に既述の変更が施されることによって構成されている。
しかし、これらの実施形態については、実施形態２の構成に同様の発明が適用されることによって構成されてもよい。

［実施形態７］
本実施形態の構成は、既述の実施形態１〜実施形態６の構成の何れと同じであってもよい。
図１１は、実施形態７および実施形態８の動作フローチャートである。
以下、図３、図５および図１１を参照して、本実施形態の動作を説明する。

本実施形態の特徴は、既述の識別確度判定部２２、２２Ａ〜２２Ｄの何れかによって行われる下記の処理の手順にある。
なお、以下では、簡単のため、識別確度判定部２２、２２Ａ〜２２Ｄの内、識別確度判定部２２のみに着目することとする。
識別確度判定部２２は、新たな識別確度Ｒｔが求められても、その識別確度Ｒｔをメモリ２３に直接格納せず、時系列の順に所定の重み付けを行いつつ積分することによって得られた積分値（以下、「積分識別確度ＲＩｔ」という。）を求め（図１１（１））、その積分識別確度ＲＩｔを識別確度Ｒｔに代えてメモリに格納する（図１１（２））。

このような積分の過程では、時系列の順に求められた識別確度Ｒｔに伴い得る急峻な変動の成分は、上述した重み付けに適用された重みに応じて軽減され、あるいは抑圧される。
したがって、本実施形態によれば、音声信号に伴い得る多様な騒音に対する柔軟な適応が可能となり、かつ実施形態１〜実施形態６の何れについても、本発明が適用されることによって、性能の安定化が図られる。

なお、本実施形態では、上述した重みだけではなく、積分を実現する算術演算の形態やアルゴリズムが具体的に示されていない。
しかし、このような算術演算の過程では、先行して所定の数Ｃに亘って得られた識別確度Ｒｔに移動平均法、指数平滑法その他の如何なるアルゴリズムおよび重みによる積分処理が行われてもよい。

［実施形態８］
本実施形態の構成は、既述の実施形態１〜７の構成と基本的に同じである。
以下、図３、図５および図１１を参照して本実施形態の動作を説明する。
本実施形態の特徴は、識別確度判定部２２，２１Ａ〜２２Ｄが行う下記の処理の手順にある。

本実施形態と既述の実施形態７との相違点は、識別確度判定部２２，２１Ａ〜２２Ｄが下記の処理を行う点にある。
なお、以下では、簡単のため、識別確度判定部２２、２２Ａ〜２２Ｄの内、識別確度判定部２２のみに着目することとする。
識別確度判定部２２は、新たな積分識別確度ＲＩｔが求められても、メモリ２３は、その積分識別確度ＲＩｔを直接格納しない。

さらに、識別確度判定部２２は、新たな積分識別確度ＲＩｔが求められると、その積分識別確度ＲＩｔを内部に備えられたレジスタ（図示されない。）に保持する（図１１（ａ））。
また、識別確度判定部２２は、この積分識別確度ＲＩｔが後述する閾値ＲＩｔｈを上回るか否かを判別し（図１１（ｂ））、その判別の結果を示す２値情報ＲＢｔをその積分識別確度ＲＩｔに代えてメモリ２３に格納する（図１１（ｃ））。

さらに、識別確度判定部２２は、下記の処理を行うことによって、後続して与えられる音声フレームに施される同様の処理に適用されるべき閾値ＲＩｔｈを確定する（図１１（ｄ））。
・上述したレジスタに保持された積分識別確度ＲＩｔの値が大きいほど、小さな値に設定する。
・反対に、その積分識別確度ＲＩｔの値が小さいほど、大きな値に設定する。

すなわち、識別確度Ｒｔ、積分識別確度ＲＩｔに代えて、メモリ２３を介して最終判定部２４あるいは識別条件調整部３１に与えられるべき２値情報ＲＢｔの論理値は、先行して与えられた音声フレームの品質が高く、あるいはその品質が高かった時間率が大きいほど、後続して与えられる音声フレームが有音区間として識別される確率が高くなる値に設定される。

したがって、本実施形態によれば、実施形態１〜実施形態７に比べて、有音区間が無音区間として識別されることに起因する伝送品質の低下が確度高く回避される。
なお、上述した各実施形態では、
・有音／無音識別部２１、２１Ａが求める２値情報Ｉｔ、
・識別確度判定部２２、２２Ａ〜２２Ｄが求める２値の識別確度Ｒｔ、積分識別確度ＲＩｔおよび２値情報ＲＩｔの何れか、
・最終判定部２４によって送受信部４３に与えられる２値信号の値、の何れもが２値情報となっている。

しかし、これらの値については、既述の目的が達成される限り、多値の情報として与えられ、かつ閾値との大小関係の判別に代えて量子化が行われ、あるいは適宜重み付けが施されてもよい。
さらに、上述した各実施形態では、無線伝送系の送信部に本発明が適用されている。
しかし、本発明は、このような無線伝送系に限定されず、有線伝送系の送信部、あるいは音声に応答して所定の処理（パターン認識を含む。）や動作を行う多様な電子機器にも同様に適用が可能である。

以下、既述の実施形態として開示された発明の内、請求の範囲１ないし請求の範囲２１として記載された発明以外の発明を順次「追加開示請求の範囲」として列記する。
なお、下記の各「追加開示請求の範囲」の原理ブロック図は、図１および図２に示す通りである。
（追加開示請求の範囲１）
請求の範囲７ないし請求の範囲１２の何れか１項に記載の音声検出装置において、
品質監視手段１２、１６は、
音声フレーム毎に、個別に含まれる音声信号の瞬時値の先頭値を求め、その音声信号の振幅分布を近似する確率密度関数に、これらの瞬時値の数と先頭値が出現する確率とを適用することによって、この確率密度関数の標準偏差で正規化された振幅を算出すると共に、その振幅と先頭値との比として標準化確率変数を求める
ことを特徴とする音声検出装置。
（追加開示請求の範囲２）
請求の範囲１ないし請求の範囲１８および追加開示請求の範囲１の何れか１項に記載の音声検出装置において、
品質監視手段１２、１６は、
得られた音声信号の品質を順次積分し、その結果を正規の品質として適用する
ことを特徴とする音声検出装置。
（追加開示請求の範囲３）
請求の範囲１ないし請求の範囲１８および追加開示請求の範囲１、２の何れか１項に記載の音声検出装置において、
品質監視手段１２、１６は、
得られた音声信号の品質を順次積分し、その結果の単調増加関数あるいは単調非減少関数として得られる値をこの品質として適用する
ことを特徴とする音声検出装置。

以下、追加開示請求の範囲１〜３の作用・効果を順次記述する。
追加開示請求の範囲１にかかわる音声検出装置では、品質監視手段１２、１６は、音声フレーム毎に、個別に含まれる音声信号の瞬時値の先頭値を求め、その音声信号の振幅分布を近似する確率密度関数に、これらの瞬時値の数と先頭値が出現する確率とを適用することによって、この確率密度関数の標準偏差で正規化された振幅を算出すると共に、その振幅と先頭値との比として標準化確率変数を求める。

このような音声検出装置では、上述した標準化確率変数は、既述の第５の音声検出装置に比べて、簡便な算術演算に基づいて求められる。
したがって、上述した第五の音声検出装置に比べて、所望の応答性が得られるために確保されるべき処理量の削減、あるいはその応答性の向上が可能となる。
追加開示請求の範囲２にかかわる音声検出装置では、品質監視手段１２、１６は、得られた音声信号の品質を順次積分し、その結果を正規の品質として適用する。

このような音声検出装置では、時系列の順に得られた音声信号の品質に伴い得る急峻な変動の成分が軽減され、あるいは抑圧される。
したがって、本発明にかかわる音声検出装置は、音声信号に伴い得る多様な騒音に柔軟に適応し、かつ性能の安定化が図られる。
追加開示請求の範囲３にかかわる音声検出装置では、品質監視手段１２、１６は、得られた音声信号の品質を順次積分し、その結果の単調増加関数あるいは単調非減少関数として得られる値をこの品質として適用する。

このような音声検出装置では、先行して与えられた音声フレームの品質が高く、あるいはその品質が高かった時間率が大きいほど、後続して与えられる音声フレームが有音区間である確度が大きな値で得られる。

産業上の利用の可能性

本発明にかかかわる第１、第２および第３の音声検出装置では、有音区間の内、例えば、子音区間のように音声信号の振幅が小さな領域に多く分布する区間については、その子音区間における音声信号の品質が低い場合であっても、有音区間であることを示す確度が大きな値で得られる。
本発明にかかわる第４の音声検出装置では、第１ないし第３の音声検出装置に比べて、音声フレーム毎に有音区間である確度が精度よく得られる。

本発明にかかわる第５の音声検出装置では、第１ないし第３の音声検出装置に比べて、処理量が削減され、あるいは応答性が高められる。
本発明にかかわる第６および第７の音声検出装置では、大きなレベルの雑音が重畳し、かつＳＮ比が小さい音声フレームについても、有音区間に属することを示す確度が大きな値で得られる。

本発明にかかわる第１ないし第３の音声検出方法では、有音区間の内、例えば、子音区間のように音声信号の振幅が小さな領域に多く分布する区間については、その子音区間における音声信号の品質が低い場合であっても、有音区間であることを示す確度が大きな値で得られる。
したがって、これらの発明が適用された通信機器その他の電子機器では、音声信号を発する音響−電気変換手段が配置される音響的な環境、あるいはその音響信号の情報源の特性や性能に柔軟に適応しつつ、この音声信号の有音区間と無音区間との峻別が確度高く、安定に実現され、その峻別の結果に適応した所望の性能の達成と、資源の有効利用とが的確に図られる。

本発明の第１の原理ブロック図である。本発明の第２の原理ブロック図である。本発明の実施形態１、３〜８を示す図である。実施形態１の動作フローチャートである。本発明の実施形態２を示す図である。実施形態２の動作フローチャートである。実施形態３の動作フローチャートである。実施形態４の動作フローチャートである。実施形態５の動作フローチャートである。実施形態６の動作フローチャートである。実施形態７および実施形態８の動作フローチャートである。音声検出装置が搭載された無線端末装置の構成例を示す図である。

符号の説明

１１区間推定手段
１２，１６品質監視手段
１３，１５，１５Ａ区間判定手段
２０，３０音声検出装置
２１，２１Ａ有音／無音識別部
２２，２２Ａ，２２Ｂ，２２Ｃ，２２Ｄ識別確度判定部
２３メモリ
２４最終判定部
３１識別条件調整部
４１マイク
４２音声検出装置
４３送受信部
４４アンテナ
４５制御部
４６レシーバ

Claims

音声信号として時系列の順に与えられる音声フレーム毎に、その音声信号に含まれる音声と雑音のそれぞれの成分の特徴に基づいて有音区間に属する可能性の大きさを示す確度を求める区間推定手段と、
前記音声フレーム毎に前記音声信号の品質を監視する品質監視手段と、
前記音声信号として時系列の順に与えられる個々の音声フレームについて、前記区間推定手段によって求められた確度に、前記品質監視手段によって監視された品質が低いほど音声である確率が高くなるように重みを付け前記有音区間である確度を得る区間判定手段と
を備えたことを特徴とする音声検出装置。
音声信号として時系列の順に与えられる音声フレーム毎に、その音声信号に含まれる音声と雑音のそれぞれの成分の特徴に基づいて有音区間に属する確度を求める区間判定手段と、
前記音声フレーム毎に前記音声信号の品質を監視する品質監視手段とを備え、
前記区間判定手段は、
前記音声フレーム毎に、個別に含まれる前記音声信号の瞬時値の列に、前記品質監視手段によって監視された品質が高くなるほど単調減少する又は、品質が低くなるほど単調非増加する重みによる重み付けを行う
ことを特徴とする音声検出装置。
請求の範囲１に記載の音声検出装置において、
前記品質監視手段は、
音声信号の有音区間と無音区間の少なくとも一方についてその信号成分の特徴を求め、求められた特徴から音声信号の品質を得る
ことを特徴とする音声検出装置。
請求の範囲２に記載の音声検出装置において、
前記品質監視手段は、
音声信号の有音区間と無音区間の少なくとも一方についてその信号成分の特徴を求め、求められた特徴から音声信号の品質を得る
ことを特徴とする音声検出装置。
請求の範囲１に記載の音声検出装置において、
前記品質監視手段は、
音声フレーム毎に、雑音推定パワーを求め、その雑音推定パワーが大きいほど小さな値として音声信号の品質を得る
ことを特徴とする音声検出装置。
請求の範囲２に記載の音声検出装置において、
前記品質監視手段は、
音声フレーム毎に、雑音推定パワーを求め、その雑音推定パワーが大きいほど小さな値として音声信号の品質を得る
ことを特徴とする音声検出装置。
請求の範囲１に記載の音声検出装置において、
前記品質監視手段は、
音声フレーム毎に、雑音推定パワーとＳＮ比の推定値とを求め、前者が大きいほど小さく、かつ後者が大きいほど大きな値として前記音声信号の品質を得る
ことを特徴とする音声検出装置。
請求の範囲２に記載の音声検出装置において、
前記品質監視手段は、
音声フレーム毎に、雑音推定パワーとＳＮ比の推定値とを求め、前者が大きいほど小さく、かつ後者が大きいほど大きな値として前記音声信号の品質を得る
ことを特徴とする音声検出装置。
請求の範囲１に記載の音声検出装置において、
前記品質監視手段は、
音声フレーム毎に、標準化確率変数を求め、その標準化確率変数が大きいほど小さな値として前記音声信号の品質を得る
ことを特徴とする音声検出装置。
請求の範囲２に記載の音声検出装置において、
前記品質監視手段は、
音声フレーム毎に、標準化確率変数を求め、その標準化確率変数が大きいほど小さな値として前記音声信号の品質を得る
ことを特徴とする音声検出装置。
請求の範囲１に記載の音声検出装置において、
前記品質監視手段は、
音声フレーム毎に、標準化確率変数とＳＮ比の推定値とを求め、前者が大きいほど小さく、かつ後者が大きいほど大きな値として前記音声信号の品質を得る
ことを特徴とする音声検出装置。
請求の範囲２に記載の音声検出装置において、
前記品質監視手段は、
音声フレーム毎に、標準化確率変数とＳＮ比の推定値とを求め、前者が大きいほど小さく、かつ後者が大きいほど大きな値として前記音声信号の品質を得る
ことを特徴とする音声検出装置。
音声信号として時系列の順に与えられる音声フレーム毎に、前記音声信号に含まれ得る音声と雑音との成分の特徴の相違に基づいて有音区間に属する可能性の大きさを示す確度を求め、
前記音声フレームの特徴量に基づいて前記音声信号の品質を前記音声フレーム毎に監視し、
前記音声信号として時系列の順に与えられる個々の音声フレームについて、前記求められた確度に、前記監視された品質を重みとして重み付けする
ことを特徴とする音声検出方法。
音声信号として時系列の順に与えられる音声フレーム毎に、前記音声信号に含まれ得る音声と雑音との成分の特徴の相違に基づいて有音区間に属する確率を求め、
前記音声フレームの特徴量に基づいて前記音声信号の品質を前記音声フレーム毎に監視し、
前記音声フレーム毎に、個別に含まれる前記音声信号の瞬時値の列に、前記監視された品質が高いほど小さな重みで重み付けする
ことを特徴とする音声検出方法。