[go: up one dir, main page]

JP3878482B2 - 音声検出装置および音声検出方法 - Google Patents

音声検出装置および音声検出方法 Download PDF

Info

Publication number
JP3878482B2
JP3878482B2 JP2001540759A JP2001540759A JP3878482B2 JP 3878482 B2 JP3878482 B2 JP 3878482B2 JP 2001540759 A JP2001540759 A JP 2001540759A JP 2001540759 A JP2001540759 A JP 2001540759A JP 3878482 B2 JP3878482 B2 JP 3878482B2
Authority
JP
Japan
Prior art keywords
voice
quality
signal
speech
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2001540759A
Other languages
English (en)
Inventor
香緒里 鈴木
恭士 大田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Application granted granted Critical
Publication of JP3878482B2 publication Critical patent/JP3878482B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/69Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Time-Division Multiplex Systems (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)

Description

本発明は、音声信号を取り込み、その音声信号の有音区間と無音区間とを識別する音声検出装置と、その音声検出装置に適用された音声検出方法に関する。
近年、ディジタル信号処理技術が高度に進展し、かつ移動通信システムその他の通信システムにおいては、これらのディジタル信号処理技術が適用されることによって、伝送情報である音声信号に実時間で多様な信号処理が施されている。
また、このような通信システムの送信端では、伝送帯域の圧縮や無線周波数の有効利用に併せて、消費電力の節減を目的として、上述した音声信号の無音区間と有音区間とを検出し、この有音区間に限って伝送路に対する送信を許容する音声検出装置が搭載されている。
図12は、音声検出装置が搭載された無線端末装置の構成例を示す図である。
図において、マイク41は音声検出装置42の入力と送受信部43の変調入力とに接続され、その送受信部43のアンテナ端子にはアンテナ44の給電端が接続される。音声検出装置42の出力は送受信部43の送信制御入力に接続され、その送受信部43の制御用の入出力には制御部45の対応する入出力ポートが接続される。制御部45の特定の出力ポートは音声検出装置42の制御入力に接続され、かつ送受信部43の復調出力はレシーバ46の入力に接続される。
このような構成の無線端末装置では、送受信部43はマイク41とレシーバ46とを介して送受されるべき伝送情報である音声信号と、アンテナ44を介してアクセスが可能な無線伝送路(図示されない。)との無線インタフェースをとる。
制御部45は、その送受信部43と連係することによって、この無線伝送路の形成に要するチャネル制御を主導的に行う。
音声検出装置42は、所定の周期で上述した音声信号をサンプリングすることによって音声フレームの列を生成する。さらに、音声検出装置42は、これらの個々の音声フレームについて、音声信号の性質に基づいて、有音区間と無音区間との何れに該当するかの識別を行い、その識別の結果を示す2値信号を出力する。
なお、上述した性質とは、例えば、下記の事項である。
・ 約55デシベルのダイナミックレンジを有する。
・ 振幅分布が標準的な確率密度関数で近似され得る。
・ エネルギーの密度と零交差回数とは、それぞれ無音区間と有音区間とにおいて異なる値となる。
送受信部43は、その2値信号の論理値が上述した無音区間を意味するする期間には、送信を見合わせる。
すなわち、音声信号に伝送情報として有効な情報が含まれていない期間には、送受信部43が無用に送信することが規制される。したがって、消費電力の節減にあわせて、他の無線チャネルに介する干渉の抑制と無線周波数の有効利用とが図られる。
しかし、このような従来例では、マイク41を介して与えられる音声信号に大きなレベルの雑音が重畳している期間には、有音区間と無音区間との間における特徴量(例えば、上述した零交差回数)の差が小さな値となる。
さらに、有音区間であっても子音区間には、一般に、音声信号の振幅は、母音区間に比べて小さい値に多く分布する。
したがって、子音区間は無音区間として識別される可能性が高く、上述したように誤って識別された子音(有音)区間には、該当する音声フレームの送信が行われず、通話品質が無用に劣化する可能性が高かった。
また、上述した雑音のレベルが過大である場合には、その騒音が重畳された音声信号の大半を示す音声フレームに亘って送信が規制される可能性があった。
なお、これらの問題点については、例えば、有音区間としての識別がされ易い値にその識別の基準となる特徴量等の閾値が設定されることによって、改善され得る。
しかし、このような閾値が適用された場合には、無音区間であるにもかかわらず有音区間として識別される確率が増加し、かつその有音区間の時間率が過大となり得るために、既述の消費電力の節減、干渉の抑制および無線周波数の有効利用が十分に図られない可能性があった。
本発明、音声信号とその音声信号に重畳され得る雑音との多様な特徴に柔軟に適応し、かつ確度高く有音区間と無音区間とを識別できる音声検出装置および音声検出方法を提供することを目的とする
上述した目的は、音声フレーム毎に、有音区間に属する確率と品質とを求め、その確率をこの品質で重み付けて出力する点に特徴がある音声検出装置および音声検出方法によって達成される。
このような構成の音声検出装置および音声検出方法では、個々の音声フレームは、品質が良好であるほど、高い確率で有音区間として識別され、反対に無音区間として識別される確率が小さくなる。
また、上述した目的は、音声フレーム毎に、有音区間に属する確率と品質とを求め、この確率が求められるべき音声フレームのレベルをその品質が大きいほど小さな値に設定する点に特徴がある音声検出装置および音声検出方法によって達成される。
このような構成の音声検出装置および音声検出方法では、品質が低いほど、個々の音声フレームに含まれる個々の音声信号の瞬時値に対して大きな重み付けが行われるために、その結果である瞬時値の列として与えられる音声信号が上述した有音区間に属する確度が高い値で求められる。
さらに、上述した目的は、音声フレーム毎に、有音区間に属する確率と品質とが求められ、その品質が高いほど、この確率が求められるべき音声フレームの圧伸処理に適用されるべき圧伸特性の勾配あるいは閾値を大きな値に設定する点に特徴がある音声検出装置および音声検出方法によって達成される。
このような構成の音声検出装置および音声検出方法では、音声信号の品質が低いほど個々の音声フレームに含まれる瞬時値に対して大きな重み付けを行う処理は、圧伸処理として行われる。
また、上述した目的は、音声フレーム毎に、有音区間と無音区間との双方あるいは何れか一方について特徴を求め、これらの特徴を品質として適用する点に特徴がある音声検出装置によって達成される。
このような構成の音声検出装置では、音声信号の品質は、音響分析あるいは音声分析を実現する多様な技術の適用の下で安定に得られる。
さらに、上述した目的は、音声フレーム毎に、雑音推定パワーを求め、その雑音推定パワーを品質として適用する点に特徴がある音声検出装置および音声検出方法によって達成される。
このような構成の音声検出装置では、上述した雑音推定パワーの算出は、一般に、単純な算術演算によって達成される。
また、上述した目的は、音声フレーム毎に、雑音推定パワーと、SN比の推定値とを求め、前者に対する単調非増加関数と後者に対する単調非減少関数として与えられる数を品質として適用する点に特徴がある音声検出装置によって達成される。
このような構成の音声検出装置では、重畳している雑音のレベルが大きく、かつSN比が小さい音声フレームについても、有音区間に属することを示す確度が大きな値で得られる。
さらに、上述した目的は、雑音推定パワーに代えて標準化確率変数が適用される点で先行して記載された音声検出装置と異なる音声検出装置によって達成される。
このような構成の音声検出装置では、標準化確率変数は、その絶対値が大きいほど、「音声フレームの振幅の先頭値が音声信号の標準的な振幅に比べて大きく、かつ大きなレベルの雑音がこの音声フレームに重畳されている可能性が高いこと」を意味し、反対に小さいほど、「音声フレームの振幅の先頭値が音声信号の標準的な振幅に比べて小さく、この音声フレームに重畳されている雑音のレベルも小さいこと」を意味する。
したがって、標準化確率変数は、上述した雑音推定パワーに代替し得る。
また、上述した目的は、標準化確率変数が音声フレームの振幅分布とその振幅分布の最大値とに基づいて近似的に算出される点に特徴がある音声検出装置によって達成される。
このような構成の音声検出装置では、上述した標準化確率変数は、簡便な算術演算によって求められる。
さらに、上述した目的は、音声フレームの単位に先行して得られた品質が時系列の順に積分され、その結果が品質として適用される点に特徴がある音声検出装置によって達成される。
このような構成の音声検出装置では、時系列の順に得られた音声信号の品質に伴い得る急峻な変動の成分が軽減され、あるいは抑圧される。
また、上述した目的は、音声フレームの単位に先行して得られた品質が時系列の順に積分され、その結果が大きいほどこの結果が小さく重み付けされて得られた値が品質として適用される点に特徴がある音声検出装置によって達成される。
このような構成の音声検出装置では、先行して与えられた音声フレームの品質が高く、あるいはその品質が高かった時間率が大きいほど、後続して与えられる音声フレームが有音区間である確度が大きな値で得られる。
図1は、本発明の第1の原理ブロック図である。
図1に示す音声検出装置は、区間推定手段11と、品質監視手段12と、区間判定手段13とから構成される。
本発明にかかわる第1の音声検出装置の原理は、下記の通りである。
区間推定手段11は、音声信号として時系列の順に与えられる音声フレーム毎に、その音声信号に含まれる音声と雑音のそれぞれの成分の特徴に基づいて有音区間に属する可能性の大きさを示す確度を求める。また、品質監視手段12は、音声フレーム毎に音声信号の品質を監視する。
区間判定手段13は、上述したように音声信号として時系列の順に与えられる個々の音声フレームについて、区間推定手段によって求められた確度に、品質監視手段12によって監視された品質が低いほど音声である確率が高くなるように重みを付け有音区間である確度を得る。
このような音声検出装置では、個々の音声フレームは、音声信号の品質が良好であるほど、高い確率で有音区間として識別され、反対に無音区間として識別される確率が小さくなる。
したがって、有音区間の内、例えば、子音区間のように音声信号の振幅が小さな領域に多く分布する区間については、その子音区間における音声信号の品質が低い場合であっても有音区間である確度が大きな値で得られる。
図2は、本発明の第2の原理ブロック図である。
図2に示す音声検出装置は、区間判定手段15、15Aと、品質監視手段16とから構成される。
本発明にかかわる第2の音声検出装置の原理は、下記の通りである。
区間判別手段15は、音声信号として時系列の順に与えられる音声フレーム毎に、その音声信号に含まれる音声と雑音のそれぞれの成分の特徴に基づいて有音区間に属する確度を求める。品質監視手段16は、これらの音声フレームについて、個別に上述した音声信号の品質を監視する。
また、区間判定手段15は、上述した音声フレーム毎に、個別に含まれる音声信号の瞬時値の列に、品質監視手段16によって監視された品質が高くなるほど単調減少する又は、品質が低くなるほど単調非増加する重みによる重み付けを行う。
このような音声検出装置では、音声フレーム毎に、品質が低いほど、区間判別手段15は、その音声フレームに含まれる個々の音声信号の瞬時値に大きな重み付けを行い、その結果として与えられる瞬時値の列として与えられる音声信号について、上述した有音区間に属する確度を求める。
したがって、有音区間の内、例えば、子音区間のように音声信号の振幅が小さな領域に多く分布する区間については、その子音区間における音声信号の品質が低い場合であっても有音区間である確度が大きな値で得られる。
本発明にかかわる第3の音声検出装置の原理は、下記の通りである。
品質監視手段16は、時系列の順に音声フレームの列として与えられる音声信号について、その音声フレーム毎に品質を監視する。
区間判定手段15Aは、これらの音声フレームに個別に圧伸処理を施し、その結果として得られた音声信号の瞬時値の列をその音声信号の統計的な性質に基づいて解析することによって、有音区間に属する確度を求める。
さらに、区間判定手段15Aは、上述した音声フレーム毎に、品質監視手段16によって監視された品質に対して音声の瞬時値の単調減少関数として与えられる圧伸特性を前記圧伸処理に適用する。
このような音声検出装置では、音声信号の品質が低いほど、個々の音声フレームに含まれる音声信号の瞬時値に対して大きな重み付けを行う処理は、上述した圧伸処理として、既述の第2の音声検出装置と同様に行われる。
したがって、有音区間の内、例えば、子音区間のように音声信号の振幅が小さな領域に多く分布する区間については、その子音区間における音声信号の品質が低い場合であっても、有音区間であることを示す確度が大きな値で得られる。
本発明にかかわる第4の音声検出装置の原理は、下記の通りである。
品質監視手段12、16は、音声信号の有音区間と無音区間の少なくとも一方についてその信号成分の特徴を求め、求められた特徴から音声信号の品質を得る。
このような音声検出装置では、音声信号の品質は、音響分析あるいは音声分析を実現する多様な技術の適用の下で、上述した特徴として安定に得られる。
したがって、既述の第1ないし第3の音声検出装置に比べて、音声フレーム毎に有音区間である確度が精度よく得られる。
本発明にかかわる第5の音声検出装置の原理は、下記の通りである。
品質監視手段12、16は、音声フレーム毎に、雑音推定パワーを求め、その雑音推定パワーが大きいほど小さな値として音声信号の品質を得る。
このような音声検出装置では、雑音推定パワーの算出は、一般に、単純な算術演算によって達成される。
したがって、既述の第1ないし第3の音声検出装置に比べて、処理量が削減され、あるいは応答性が高められる。
本発明にかかわる第6の音声検出装置の原理は、下記の通りである。
品質監視手段12、16は、音声フレーム毎に、雑音推定パワーとSN比の推定値とを求め、前者が大きいほど小さく、かつ後者が大きいほど大きな値として音声信号の品質を得る。
このような音声検出装置では、大きなレベルの雑音が重畳し、かつSN比が小さい音声フレームについても、有音区間に属することを示す確度が大きな値で得られる。
本発明にかかわる第7の音声検出装置の原理は、下記の通りである。
品質監視手段12、16は、音声フレーム毎に、標準化確率変数を求め、その標準化確率変数が大きいほど小さな値として音声信号の品質を得る。
このような音声検出装置では、標準化確率変数は、その絶対値が大きいほど、「音声フレームの振幅の先頭値が音声信号の標準的な振幅に比べて大きく、かつ大きなレベルの雑音がこの音声フレームに重畳されている可能性が高いこと」を意味し、反対に小さいほど、「音声フレームの振幅の先頭値が音声信号の標準的な振幅に比べて小さく、この音声フレームに重畳されている雑音のレベルも小さいこと」を意味する。
したがって、既述の第6の音声検出装置と同様に、重畳している雑音のレベルが高く、かつSN比が小さい音声フレームについても、有音区間に属することを示す確度が大きな値で得られる。
本発明にかかわる第8の音声検出装置の原理は、下記の通りである。
品質監視手段12、16は、音声フレーム毎に、標準化確率変数とSN比の推定値とを求め、前者が大きいほど小さく、かつ後者が大きいほど大きな値として音声信号の品質を得る。
このような音声検出装置では、大きなレベルの雑音が重畳し、かつSN比が小さい音声フレームについても、有音区間に属することを示す確度が大きな値で得られる。
本発明にかかわる第1の音声検出方法の原理は、下記の通りである。
第1の音声検出方法では、音声信号として時系列の順に与えられる音声フレーム毎に、その音声信号に含まれ得る音声と雑音との成分の特徴の相違に基づいて有音区間に属する可能性の大きさを示す確度が求められ、かつ特徴量に基づいてこの音声信号の品質が監視される。
さらに、音声信号として時系列の順に与えられる個々の音声フレームについては、上述したように求められた確度に、監視された品質を重みとして重み付けられることによって、有音区間である確度が得られる。
このような音声検出方法では、個々の音声フレームは、音声信号の品質が良好であるほど、高い確率で有音区間として識別され、反対に無音区間として識別される確率が小さくなる。
したがって、有音区間の内、例えば、子音区間のように音声信号の振幅が小さな領域に多く分布する区間については、その子音区間における音声信号の品質が低い場合であっても有音区間である確度が大きな値で得られる。
本発明にかかわる第2の音声検出方法の原理は、下記の通りである。
第2の音声検出方法では、音声信号として時系列の順に与えられる音声フレーム毎に、その音声信号に含まれ得る音声と雑音との成分の特徴の相違に基づいて有音区間に属する確率が求められ、かつ特徴量に基づいてこの音声信号の品質が前記音声フレーム毎に監視される。
さらに、音声フレーム毎に、個別に含まれる音声信号の瞬時値の列については、上述したように監視された品質が高いほど小さな重み重み付けが行われる。
このような音声検出方法では、音声フレーム毎に、音声信号の品質が低いほど、その音声フレームに含まれる個々の音声信号の瞬時値に対して大きな重み付けが行われ、その結果として与えられる瞬時値の列として与えられる音声信号について、上述した有音区間に属する確度が求められる。
したがって、有音区間の内、例えば、子音区間のように音声信号の振幅が小さな領域に多く分布する区間については、その子音区間における音声信号の品質が低い場合であっても有音区間である確度が大きな値で得られる。
本発明にかかわる第3の音声検出方法の原理は、下記の通りである。
第3の音声検出方法では、時系列の順に与えられる個々の音声フレームについて、圧伸処理が施され、その結果として得られた音声信号の瞬時値の列がその音声信号の統計的な性質に基づいて解析されることによって、有音区間に属する確度が求められ、かつその音声信号の品質が監視される。
さらに、上述した圧伸処理の過程では、音声フレーム毎に、このようにして監視された品質の単調減少関数として与えられる圧伸特性が適用される。
このような音声検出方法では、音声信号の品質が低いほど、個々の音声フレームに含まれる音声信号の瞬時値に対して大きな重み付けを行う処理は、上述した圧伸処理として、第二の音声検出方法と同様に行われる。
したがって、有音区間の内、例えば、子音区間のように音声信号の振幅が小さな領域に多く分布する区間については、その子音区間における音声信号の品質が低い場合であっても有音区間である確度が大きな値で得られる。
本発明によれば、有音区間の内、例えば、子音区間のように音声信号の振幅が小さい領域に多く分布する区間について、音声信号の品質が低い場合であっても有音区間である確度が大きな値で得られる。
発明によれば、精度よく、音声フレーム毎に有音区間である確度が得られる
発明によれば、所要する処理量が削減され、あるいは応答性が高められる
発明によれば、重畳している雑音のレベルが大きく、かつSN比が小さい音声フレームについても、有音区間に属することを示す確度が大きな値で得られる
以下、図面に基づいて本発明の実施形態について詳細に説明する。
図3は、本発明の実施形態1、3〜8を示す図である。
図において、図12に示すものと機能および構成が同じものについては、同じ符号を付与して示し、ここでは、その説明を省略する。
本実施形態と図12に示す従来例との構成の相違点は、音声検出装置42に代えて音声検出装置20が備えられた点にある。
音声検出装置20は、初段に備えられた有音/無音識別部21と、その有音/無音識別部21のモニタ出力に直結されたモニタ端子を有し、この有音/無音識別部21と共に初段に備えられた識別確度判定部22と、これらの有音/無音識別部21および識別確度判定部22の出力にそれぞれ接続された2つのポートを有するメモリ23と、そのメモリ23の出力に直結されると共に、最終段として備えられた最終判定部24とから構成される。
図4は、実施形態1の動作フローチャートである。
[実施形態1]
以下、図3および図4を参照して本発明にかかわる実施形態1の動作を説明する。
音声検出装置20では、有音/無音識別部21は、マイク41を介して与えられる音声信号に、図12に示す音声検出装置42が行う処理と同じ処理を施すことによって、既述の音声フレーム毎に有音区間と無音区間との識別を行い、かつメモリ23と識別確度判定部22とに並行してこの識別の結果を示す2値情報Itを与える。
なお、この2値情報Itの論理値については、簡単のため、有音区間には「1」に設定され、反対に無音区間には「0」に設定されると仮定する。
一方、識別確度判定部22は、有音/無音識別部21と並行して上述した音声信号を既述の音声フレームの列に変換する。さらに、識別確度判定部22は、有音/無音識別部21によって与えられる2値情報Itの論理値に応じて有音区間と無音区間とを識別し、これらの区間について、個々の音声フレームの特徴量Ft(ここでは、簡単のため、エネルギーと零交差回数との双方あるいは何れか一方であると仮定する。)の分布(平均値)を定常的に監視する。
さらに、識別確度判定部22は、個々の音声フレームが与えられる期間に、有音区間と無音区間とにおける上述した特徴量Ftの分布(平均値)の差分が所定の閾値Fthを下回るか否かの判別を行い、その判別の結果を示す2値の識別確度Rtを求める。
なお、このような識別確度Rtの論理値については、上述した差分が閾値Fthを下回る程度に音声信号の品質が低い場合には「0」に設定され、反対にこの閾値Fthを上回る程度に音声信号の品質が良好である場合には「1」に設定されると仮定する。
また、メモリ23には、有音/無音識別部21によって与えられた2値情報Itと、識別確度判定部22によって求められた識別確度Rtとが上述した音声フレームの単位に対応付けられて蓄積される。
最終判定部24は、このようにメモリ23に蓄積された2値情報Itと識別確度Rtとの個々の組み合わせに応じて、下記の処理を順次行う。
・ 識別確度Rtの論理値が「1」である場合には、論理値が2値情報Itの論理値に等しい2値信号を送受信部43に与える(図4(1))。
・ 識別確度Rtの論理値が「0」である場合には、論理値が「1」である2値信号を送受信部43に与える(図4(2))。
また、送受信部43は、制御部45が行うチャネル制御の下で割り付けられた無線チャネルに、マイク41によって与えられる音声信号で変調された送信波信号を送信する過程には、上述したように、音声フレーム単位に音声検出装置20で行われる処理の演算所要時間に等しい遅延を与えることによって、この音声検出装置20との同期を維持する。
すなわち、音声信号の品質が良好である場合には、有音/無音識別部21によって与えられた2値情報Itが2値信号として送受信部43に与えられるが、その品質が良好でない場合には、この2値信号の論理値は、有音区間を示す「1」に設定される。
したがって、本実施形態によれば、識別確度Rtの如何にかかわらず音声信号の統計的な性質のみに基づいて有音区間と無音区間との識別が行われる従来例に比べて、その音声信号の品質が悪い有音区間が無音区間として識別されることが確度高く回避され、かつ伝送品質の劣化が緩和される。
なお、本実施形態では、有音/無音識別部21と識別確度判定部22とが並行して個別に音声信号を音声フレームの列に変換する処理を行っている。
しかし、このような処理は、有音/無音識別部21と識別確度判定部22との何れか一方によって主導的に行われ、あるいはこれらの有音/無音識別部21と識別確度判定部22との前段に配置された手段によって行われてもよい。
また、本実施形態では、有音/無音識別部21によって求められた2値情報Itと、識別確度判定部22によって求められた識別確度Rtとが音声フレーム毎に対応つけられてメモリ23に蓄積されている。
しかし、メモリ23は、有音/無音識別部21、識別確度判定部22および最終判定部24によって行われるべき既述の処理の所要時間に伴い得る変動分が許容される程度に小さい場合には、備えられなくてもよい。
さらに、本実施形態では、送受信部43は、音声フレーム単位に音声検出装置20によって行われる処理の演算所要時間に等しい遅延を与えることによって、この音声検出装置20との同期を維持している。
しかし、このような遅延は、上述した同期が所望の確度で維持される程度に小さい場合には、何ら与えられなくてもよい。
また、本実施形態では、識別確度判定部22によって既述の識別確度Rtが求められている。
しかし、識別確度判定部22と最終判定部24とは、例えば、その識別確度判定部22が下記の処理の何れかのみを行うことによって、如何なる形態で機能分散が図られてもよい。
・ 既述の音声フレームが与えられる時点あるいは期間に、有音区間と無音区間とにおける上述した特徴量Ftの分布(平均値)を求める。
・ その特徴量Ftの分布(平均値)を求め、この隔たり(差分)が所定の閾値Fthを下回るか否かの判別を行う。
さらに、本実施形態では、有音区間と無音区間との特徴量Ftの差分と閾値Fthとの大小関係に基づいて、音声信号の品質の良否が判別されている。
しかし、本発明は、このような構成に限定されず、例えば、有音区間と無音区間との何れか一方の特徴量が所望の確度で既知の値として与えられる場合には、他方の特徴量のみが求められ、その特徴量と規定の閾値との大小関係に基づいて、音声信号の伝送品質の良否が判別されてもよい。
[実施形態2]
図5は、本発明の実施形態2を示す図である。
図において、図3に示すものと機能および構成が同じものについては、同じ符号を付与して示し、ここでは、その説明を省略する。
本実施形態と既述の実施形態1との構成の相違点は、音声検出装置20に代えて音声検出装置30が備えられた点にある。
音声検出装置30と音声検出装置20との構成の相違点は、有音/無音識別部21に代えて有音/無音識別部21Aが備えられ、最終判定部24に代えて識別条件調整部31が備えられ、その識別条件調整部31の出力は送受信部43の対応する制御入力に代わる有音/無音識別部21Aの閾値入力に接続され、その制御入力に有音/無音識別部21Aの出力が接続された点にある。
図6は、実施形態2の動作フローチャートである。
以下、図5および図6を参照して本発明にかかわる実施形態2の動作を説明する。
本実施形態と実施形態1との相違点は、識別条件調整部31が行う下記の処理と、有音/無音識別部21Aがその処理の下で与えられる閾値に基づいて既述の2値情報Itを求める点とにある。
なお、以下では、有音/無音識別部21A、識別確度判定部22およびメモリ23が連係することによって行われる処理の手順については、既述の実施形態1と基本的に同じであるので、ここでは、その説明を省略する。
有音/無音識別部21Aは、マイク41を介して与えられる音声信号に、図12に示す従来例に搭載された音声検出装置42が行う処理と同じ処理を施し、その処理の過程でこの音声信号の統計的な性質にかかわる閾値(以下、「区間識別閾値」という。)として、識別条件調整部31によって与えられる値を適用することによって、2値情報Itを求める。
また、識別条件調整部31は、このようにして求められた2値情報Itと識別確度判定部22によって求められた識別確度Rtとの組み合わせを順次メモリ23を介して取り込み、かつ下記の処理を行う。
・ 識別確度Rtの論理値が「1」である場合には、その有音/無音識別部21に、『上述した音声信号の品質が良好である期間に2値情報Itを求める過程で、有音/無音識別部21Aが適用すべき標準的な区間識別閾値(以下、「標準閾値」という。)』を与える(図6(1))。なお、標準閾値については、識別条件調整部31に予め与えられていると仮定する。
・ 識別確度Rtの論理値が「0」である場合には、先行して有音/無音識別部21Aに与えらた区間識別閾値(上述した「標準閾値」であってもよい。)を下記の何れかの値に更新し、あるいは設定する(図6(2))。
−有音/無音識別部21Aが後続する音声フレームを有音区間に属する音声フレームと識別する可能性が高い値
−有音/無音識別部21Aが後続する音声フレームを有音区間に属する音声フレームとして確実に識別する値
さらに、送受信部43は、有音/無音識別部21Aによって与えられる2値情報Itの列を既述の2値信号として取り込み、既述の実施形態1と同様に音声検出装置30との同期を維持する。
このように本実施形態によれば、音声信号の品質が良好である場合には、有音/無音識別部21Aによって与えられた2値情報Itが2値信号として送受信部43に与えられるが、その品質が良好でない場合には、区間識別閾値が適宜更新されることによって、『有音区間を示す「1」にこの2値信号の論理値が設定される確率』が高められる。
したがって、本実施形態によれば、識別確度Rtの如何にかかわらず音声信号の統計的な性質のみに基づいて有音区間と無音区間との識別が行われる従来例に比べて、品質が悪い有音区間が無音区間として識別されることに起因する伝送品質の劣化が緩和され、あるいは回避される。
なお、本実施形態では、区間識別閾値は、識別条件調整部31によって適宜更新され、あるいは設定されている。
しかし、本発明は、このような構成に限定されず、例えば、有音/無音識別部21Aに音声信号を線形領域で増幅する可変利得増幅器が搭載され、かつ有音区間と無音区間との識別の基準がその音声信号のレベルである場合には、上述した区間識別閾値に代えてこの可変利得増幅器の利得が可変されてもよい。
[実施形態3]
本実施形態と実施形態1との構成の相違点は、識別確度判定部22に代えて識別確度判定部22Aが備えられた点にある。
図7は、実施形態3の動作フローチャートである。
以下、図3および図7を参照して本実施形態の動作を説明する。
本実施形態の特徴は、識別確度判定部22Aが行う下記の処理の手順にある。
識別確度判定部22Aは、有音/無音識別部21と並行して音声信号を音声フレームの列に変換し(図7(1))、かつ個々の音声フレームについて下記の処理を施す。
なお、以下では、個々の音声フレームは、簡単のため、時系列t(=0〜N)の順に(N+1)個の瞬時値x(t)の列として与えられると仮定する。
1.下式(1)で示される算術演算を行うことによって、フレームパワーPtを算出し、時系列tの順に蓄積する(図7(2))。
2.先行する音声フレームについて同様にして算出され、かつ蓄積されている先行フレームパワーPt−1を取得する(図7(3))。
3.規定の時定数α(<1)に対して下式(2)で示される算術演算を行うことによって、雑音推定パワーPNtを指数平滑法に基づいて算出する(図7(4))。
4.この雑音推定パワーPNtと、その雑音推定パワーPNtについて既述の閾値Fthと同様に予め設定された閾値Pthとを比較することによって、前者が後者を上回るか否かの判別を行い(図7(5))、その判別の結果を示す2値の識別確度Rtを求める(図7(6))。
Figure 0003878482
なお、このような識別確度Rtの論理値については、上述した判別の結果が真である場合には「0」(通話信号の品質が低いことを意味する。)に設定され、反対に偽である場合には「1」(通話信号の品質が良好であることを意味する。)に設定されると仮定する。
また、最終判定部24は、既述の実施形態1と同様にこの識別確度Rtを参照することによって2値信号を生成し、その2値信号を送受信部43に順次与える。
このように本実施形態によれば、上式(1)、(2)に示す単純な算術演算によって通話信号の品質が簡便に求められ、かつ上述した判別の結果が偽である期間は、有音/無音識別部21によって与えられた2値情報の論理値Itの如何にかかわらず、高い確度で、あるいは確実に有音期間として識別される。
[実施形態4]
本実施形態と実施形態1との構成の相違点は、識別確度判定部22に代えて識別確度判定部22Bが備えられた点にある。
図8は、実施形態4の動作フローチャートである。
以下、図3および図8を参照して本実施形態の動作を説明する。
本実施形態の特徴は、識別確度判定部22Bが行う下記の処理の手順にある。
識別確度判定部22Bは、有音/無音識別部21と並行して音声信号を音声フレームの列に変換し(図8(1))、かつ個々の音声フレームについて下記の処理を施す。
1.既述の実施形態3において識別確度判定部22Aによって行われる処理の手順と同じ手順に基づいてフレームパワーPtと、雑音推定パワーPNtとを算出する(図8(2))。
2.下式(3)で示される算術演算を行うことによって、この音声フレームのSN比の推定値(以下、単に、「SN推定値」という。)SNtを算出する(図8(3))。
3.このSN推定値SNtがそのSN推定値SNtについて既述の閾値Fthと同様に予め設定された閾値SNthを上回るか否かの判別(以下、「SN判別」という。)を行う(図8(4))。
4.上述した雑音推定パワーPNtが既述の閾値Pthを下回るか否かの判別(以下、「雑音判別」という。)を行う(図8(5))。
5.これらの判別の結果の組み合わせに応じて、下記の通りに識別確度Rtを求め、かつ出力する。
(1) SN判別の結果が真である場合と、そのSN判別の結果が偽であり、かつ雑音判別の結果が真である場合とには、この雑音判別の結果を示す2値を識別確度Rtとして出力する(図8(6))。
(2) SN判別の結果が偽であり、かつ雑音判別の結果が偽である場合には、論理値が「0」である識別確度Rtを出力する(図8(7)。
Figure 0003878482
すなわち、SN推定値SNtが小さく、かつ上述した雑音推定パワーPNtが大きい場合に、有音/無音識別部21によって行われた識別の確度が著しく低下した状態であっても、最終判定部74によって有音区間が無音区間と識別されることが確度高く回避される。
[実施形態5]
本実施形態と実施形態1との構成の相違点は、識別確度判定部22に代えて識別確度判定部22Cが備えられた点にある。
図9は、実施形態5の動作フローチャートである。
以下、図3および図9を参照して本実施形態の動作を説明する。
本実施形態と既述の実施形態4との相違点は、識別確度判定部22Cが行う下記の処理の手順にある。
識別確度判定部22Cは、有音/無音識別部21と並行して音声信号を音声フレームの列に変換し(図9(1))、かつ個々の音声フレームについて、雑音推定パワーPNtを算出する処理に代えて以下の処理を行う。
A) 時系列tの順に与えられる個々の音声フレームで示される音声信号の振幅の先頭値sPtと平均値smtとを求めて蓄積する。
B) 最新の音声フレームが与えられる度に、所定の数Mに対してその音声フレームに先行する時点で時系列tの順にそれぞれ与えられたM個の音声フレームについて、同様に蓄積された先頭値sPtと平均値smtとを取得する。
C) これらの先頭値および平均値を下式(4)に代入することによって行われる算術演算の結果として、該当する音声フレームで示される音声信号の振幅の標準偏差σtを算出する。
D) 最新の音声フレームで示される音声信号の振幅の先頭値xを求める。
E) これらの標準偏差σtと先頭値xとに対して下式(5)で示される算術演算を行うことによって、上述した音声信号の振幅の標準化確率変数Prtを算出する(図9(2))。
Figure 0003878482
なお、標準化確率変数Prtは、最新の音声フレームに含まれる音声信号の振幅の先頭値sPtと、その振幅の分布との相関関係を意味する。
さらに、標準化確率変数Prtは、その絶対値が大きいほど、「最新の音声フレームの振幅の先頭値が音声信号の標準的な振幅に比べて大きく、かつ大きなレベルの雑音がこの音声フレームに重畳されている可能性が高いこと」を意味し、反対に小さいほど、「最新の音声フレームの振幅の先頭値が音声信号の標準的な振幅に比べて小さく、この音声フレームに重畳されている雑音のレベルが小さいこと」を意味する。
また、識別確度判定部22Cは、実施形態4と同様にしてSN推定値SNtを求め(図9(3))、かつ「SN判定」を行う(図9(4))。
さらに、識別確度判定部22Cは、上述した標準化確率変数Prtが規定の閾値Prthを下回るか否かの判別(以下、「変数判別」という。)を行う(図9(5))。
また、識別確度判定部22Cは、これらの判別の結果の組み合わせに応じて、下記の通りに識別確度Rtを求めて出力する。
I. SN判別の結果が真である場合と、変数判別の結果が真である場合とには、この変数判別の結果を示す2値を識別確度Rtとして出力する(図9(6))。
II.SN判別の結果が偽であり、かつ変数判別の結果が偽である場合には、論理値が「0」である識別確度Rtを出力する(図9(7))。
すなわち、識別確度Rtの論理値は、標準化確率変数Prtの値が大きい場合には、有音/無音識別部21によって行われる識別の確度が著しく低下した状態であっても、最終判定部74によって有音区間を無音区間と識別することが確度高く回避される。
[実施形態6]
本実施形態と実施形態5との構成の相違点は、識別確度判定部22に代えて識別確度判定部22Dが備えられた点にある。
図10は、実施形態6の動作フローチャートである。
以下、図3および図10を参照して本実施形態の動作を説明する。
本実施形態と実施形態5との相違点は、識別確度判定部22Dが識別確度判定部22Cに代えて、後述する手順に基づいて標準化確率変数Prtを算出する点にある。
音声信号の振幅分布を示す確率密度関数は、一般に、ガンマ分布やラプラス分布で近似が可能である。
また、この確率密度関数P(x)は、例えば、上述したラプラス分布で近似された場合には、標準偏差で正規化された音声の振幅xに対して、下記の式で定義される。
Figure 0003878482
したがって、標準偏差で正規化された音声の振幅xの絶対値は、
Figure 0003878482
の式で与えられる。
ところで、個々の音声フレームに含まれ、かつサンプリングされて所定のディジタル信号処理が施される標本値の数K(ここでは、簡単のため、「1000」であると仮定する。)は、一般に、既知の値として与えられる。
また、このような場合には、個々の音声フレームに含まれる音声フレームに振幅の先頭値が出現する確率は、(1/K)で与えられる。
識別確度判定部22Dは、この確率(=1/K)が上式(6)に適用されることによって得られる下記の式で示される算術演算を行い、その結果結果として|x|の値を求める(図10(1))。
Figure 0003878482
さらに、識別確度判定部22Dは、該当する音声フレームで与えられる音声信号の振幅の瞬時値pを求め(図10(2))、その瞬時値pと上述した|x|の値とに対して、
Figure 0003878482
の式で示される算術演算を行うことによって標準偏差σtを算出する(図10(3))と共に、この標準偏差σtの値を既述の式(5)に代入することによって標準化確率変数Prtを求める(図10(4))。
すなわち、実施形態5において行われる既述の処理A)〜E)に比べて簡便な算術演算に基づいて標準化確率変数Prtが求められる。
したがって、本実施形態によれば、実施形態5に比べて所望の応答性が得られるために確保されるべき処理量の削減、あるいはその応答性の向上が可能となる。
なお、本実施形態では、識別確度判定部22Dは、単位音声フレーム毎に既述の処理を行なっている。
しかし、このような処理については、時系列の順に与えられる所望の複数の音声フレーム毎に同様の処理が行われることによって、誤差の圧縮が図られてもよい。
なお、実施形態3〜実施形態6は、実施形態1の構成に既述の変更が施されることによって構成されている。
しかし、これらの実施形態については、実施形態2の構成に同様の発明が適用されることによって構成されてもよい。
[実施形態7]
本実施形態の構成は、既述の実施形態1〜実施形態6の構成の何れと同じであってもよい。
図11は、実施形態7および実施形態8の動作フローチャートである。
以下、図3、図5および図11を参照して、本実施形態の動作を説明する。
本実施形態の特徴は、既述の識別確度判定部22、22A〜22Dの何れかによって行われる下記の処理の手順にある。
なお、以下では、簡単のため、識別確度判定部22、22A〜22Dの内、識別確度判定部22のみに着目することとする。
識別確度判定部22は、新たな識別確度Rtが求められても、その識別確度Rtをメモリ23に直接格納せず、時系列の順に所定の重み付けを行いつつ積分することによって得られた積分値(以下、「積分識別確度RIt」という。)を求め(図11(1))、その積分識別確度RItを識別確度Rtに代えてメモリに格納する(図11(2))。
このような積分の過程では、時系列の順に求められた識別確度Rtに伴い得る急峻な変動の成分は、上述した重み付けに適用された重みに応じて軽減され、あるいは抑圧される。
したがって、本実施形態によれば、音声信号に伴い得る多様な騒音に対する柔軟な適応が可能となり、かつ実施形態1〜実施形態6の何れについても、本発明が適用されることによって、性能の安定化が図られる。
なお、本実施形態では、上述した重みだけではなく、積分を実現する算術演算の形態やアルゴリズムが具体的に示されていない。
しかし、このような算術演算の過程では、先行して所定の数Cに亘って得られた識別確度Rtに移動平均法、指数平滑法その他の如何なるアルゴリズムおよび重みによる積分処理が行われてもよい。
[実施形態8]
本実施形態の構成は、既述の実施形態1〜7の構成と基本的に同じである。
以下、図3、図5および図11を参照して本実施形態の動作を説明する。
本実施形態の特徴は、識別確度判定部22,21A〜22Dが行う下記の処理の手順にある。
本実施形態と既述の実施形態7との相違点は、識別確度判定部22,21A〜22Dが下記の処理を行う点にある。
なお、以下では、簡単のため、識別確度判定部22、22A〜22Dの内、識別確度判定部22のみに着目することとする。
識別確度判定部22は、新たな積分識別確度RItが求められても、メモリ23は、その積分識別確度RItを直接格納しない。
さらに、識別確度判定部22は、新たな積分識別確度RItが求められると、その積分識別確度RItを内部に備えられたレジスタ(図示されない。)に保持する(図11(a))。
また、識別確度判定部22は、この積分識別確度RItが後述する閾値RIthを上回るか否かを判別し(図11(b))、その判別の結果を示す2値情報RBtをその積分識別確度RItに代えてメモリ23に格納する(図11(c))。
さらに、識別確度判定部22は、下記の処理を行うことによって、後続して与えられる音声フレームに施される同様の処理に適用されるべき閾値RIthを確定する(図11(d))。
・ 上述したレジスタに保持された積分識別確度RItの値が大きいほど、小さな値に設定する。
・ 反対に、その積分識別確度RItの値が小さいほど、大きな値に設定する。
すなわち、識別確度Rt、積分識別確度RItに代えて、メモリ23を介して最終判定部24あるいは識別条件調整部31に与えられるべき2値情報RBtの論理値は、先行して与えられた音声フレームの品質が高く、あるいはその品質が高かった時間率が大きいほど、後続して与えられる音声フレームが有音区間として識別される確率が高くなる値に設定される。
したがって、本実施形態によれば、実施形態1〜実施形態7に比べて、有音区間が無音区間として識別されることに起因する伝送品質の低下が確度高く回避される。
なお、上述した各実施形態では、
・ 有音/無音識別部21、21Aが求める2値情報It、
・ 識別確度判定部22、22A〜22Dが求める2値の識別確度Rt、積分識別確度RItおよび2値情報RItの何れか、
・ 最終判定部24によって送受信部43に与えられる2値信号の値、の何れもが2値情報となっている。
しかし、これらの値については、既述の目的が達成される限り、多値の情報として与えられ、かつ閾値との大小関係の判別に代えて量子化が行われ、あるいは適宜重み付けが施されてもよい。
さらに、上述した各実施形態では、無線伝送系の送信部に本発明が適用されている。
しかし、本発明は、このような無線伝送系に限定されず、有線伝送系の送信部、あるいは音声に応答して所定の処理(パターン認識を含む。)や動作を行う多様な電子機器にも同様に適用が可能である。
以下、既述の実施形態として開示された発明の内、請求の範囲1ないし請求の範囲21として記載された発明以外の発明を順次「追加開示請求の範囲」として列記する。
なお、下記の各「追加開示請求の範囲」の原理ブロック図は、図1および図2に示す通りである。
(追加開示請求の範囲1)
請求の範囲7ないし請求の範囲12の何れか1項に記載の音声検出装置において、
品質監視手段12、16は、
音声フレーム毎に、個別に含まれる音声信号の瞬時値の先頭値を求め、その音声信号の振幅分布を近似する確率密度関数に、これらの瞬時値の数と先頭値が出現する確率とを適用することによって、この確率密度関数の標準偏差で正規化された振幅を算出すると共に、その振幅と先頭値との比として標準化確率変数を求める
ことを特徴とする音声検出装置。
(追加開示請求の範囲2)
請求の範囲1ないし請求の範囲18および追加開示請求の範囲1の何れか1項に記載の音声検出装置において、
品質監視手段12、16は、
得られた音声信号の品質を順次積分し、その結果を正規の品質として適用する
ことを特徴とする音声検出装置。
(追加開示請求の範囲3)
請求の範囲1ないし請求の範囲18および追加開示請求の範囲1、2の何れか1項に記載の音声検出装置において、
品質監視手段12、16は、
得られた音声信号の品質を順次積分し、その結果の単調増加関数あるいは単調非減少関数として得られる値をこの品質として適用する
ことを特徴とする音声検出装置。
以下、追加開示請求の範囲1〜3の作用・効果を順次記述する。
追加開示請求の範囲1にかかわる音声検出装置では、品質監視手段12、16は、音声フレーム毎に、個別に含まれる音声信号の瞬時値の先頭値を求め、その音声信号の振幅分布を近似する確率密度関数に、これらの瞬時値の数と先頭値が出現する確率とを適用することによって、この確率密度関数の標準偏差で正規化された振幅を算出すると共に、その振幅と先頭値との比として標準化確率変数を求める。
このような音声検出装置では、上述した標準化確率変数は、既述の第5の音声検出装置に比べて、簡便な算術演算に基づいて求められる。
したがって、上述した第五の音声検出装置に比べて、所望の応答性が得られるために確保されるべき処理量の削減、あるいはその応答性の向上が可能となる。
追加開示請求の範囲2にかかわる音声検出装置では、品質監視手段12、16は、得られた音声信号の品質を順次積分し、その結果を正規の品質として適用する。
このような音声検出装置では、時系列の順に得られた音声信号の品質に伴い得る急峻な変動の成分が軽減され、あるいは抑圧される。
したがって、本発明にかかわる音声検出装置は、音声信号に伴い得る多様な騒音に柔軟に適応し、かつ性能の安定化が図られる。
追加開示請求の範囲3にかかわる音声検出装置では、品質監視手段12、16は、得られた音声信号の品質を順次積分し、その結果の単調増加関数あるいは単調非減少関数として得られる値をこの品質として適用する。
このような音声検出装置では、先行して与えられた音声フレームの品質が高く、あるいはその品質が高かった時間率が大きいほど、後続して与えられる音声フレームが有音区間である確度が大きな値で得られる。
産業上の利用の可能性
本発明にかかかわる第1、第2および第3の音声検出装置では、有音区間の内、例えば、子音区間のように音声信号の振幅が小さな領域に多く分布する区間については、その子音区間における音声信号の品質が低い場合であっても、有音区間であることを示す確度が大きな値で得られる。
本発明にかかわる第4の音声検出装置では、第1ないし第3の音声検出装置に比べて、音声フレーム毎に有音区間である確度が精度よく得られる。
本発明にかかわる第5の音声検出装置では、第1ないし第3の音声検出装置に比べて、処理量が削減され、あるいは応答性が高められる。
本発明にかかわる第6および第7の音声検出装置では、大きなレベルの雑音が重畳し、かつSN比が小さい音声フレームについても、有音区間に属することを示す確度が大きな値で得られる。
本発明にかかわる第1ないし第3の音声検出方法では、有音区間の内、例えば、子音区間のように音声信号の振幅が小さな領域に多く分布する区間については、その子音区間における音声信号の品質が低い場合であっても、有音区間であることを示す確度が大きな値で得られる。
したがって、これらの発明が適用された通信機器その他の電子機器では、音声信号を発する音響−電気変換手段が配置される音響的な環境、あるいはその音響信号の情報源の特性や性能に柔軟に適応しつつ、この音声信号の有音区間と無音区間との峻別が確度高く、安定に実現され、その峻別の結果に適応した所望の性能の達成と、資源の有効利用とが的確に図られる。
本発明の第1の原理ブロック図である。 本発明の第2の原理ブロック図である。 本発明の実施形態1、3〜8を示す図である。 実施形態1の動作フローチャートである。 本発明の実施形態2を示す図である。 実施形態2の動作フローチャートである。 実施形態3の動作フローチャートである。 実施形態4の動作フローチャートである。 実施形態5の動作フローチャートである。 実施形態6の動作フローチャートである。 実施形態7および実施形態8の動作フローチャートである。 音声検出装置が搭載された無線端末装置の構成例を示す図である。
符号の説明
11 区間推定手段
12,16 品質監視手段
13,15,15A 区間判定手段
20,30 音声検出装置
21,21A 有音/無音識別部
22,22A,22B,22C,22D 識別確度判定部
23 メモリ
24 最終判定部
31 識別条件調整部
41 マイク
42 音声検出装置
43 送受信部
44 アンテナ
45 制御部
46 レシーバ

Claims (14)

  1. 音声信号として時系列の順に与えられる音声フレーム毎に、その音声信号に含まれる音声と雑音のそれぞれの成分の特徴に基づいて有音区間に属する可能性の大きさを示す確度を求める区間推定手段と、
    前記音声フレーム毎に前記音声信号の品質を監視する品質監視手段と、
    前記音声信号として時系列の順に与えられる個々の音声フレームについて、前記区間推定手段によって求められた確度に、前記品質監視手段によって監視された品質が低いほど音声である確率が高くなるように重みを付け前記有音区間である確度を得る区間判定手段と
    を備えたことを特徴とする音声検出装置。
  2. 音声信号として時系列の順に与えられる音声フレーム毎に、その音声信号に含まれる音声と雑音のそれぞれの成分の特徴に基づいて有音区間に属する確度を求める区間判定手段と、
    前記音声フレーム毎に前記音声信号の品質を監視する品質監視手段とを備え、
    前記区間判定手段は、
    前記音声フレーム毎に、個別に含まれる前記音声信号の瞬時値の列に、前記品質監視手段によって監視された品質が高くなるほど単調減少する又は、品質が低くなるほど単調非増加する重みによる重み付けを行う
    ことを特徴とする音声検出装置。
  3. 請求の範囲1に記載の音声検出装置において、
    前記品質監視手段は、
    音声信号の有音区間と無音区間の少なくとも一方についてその信号成分の特徴を求め、求められた特徴から音声信号の品質を得る
    ことを特徴とする音声検出装置。
  4. 請求の範囲2に記載の音声検出装置において、
    前記品質監視手段は、
    音声信号の有音区間と無音区間の少なくとも一方についてその信号成分の特徴を求め、求められた特徴から音声信号の品質を得る
    ことを特徴とする音声検出装置。
  5. 請求の範囲1に記載の音声検出装置において、
    前記品質監視手段は、
    音声フレーム毎に、雑音推定パワーを求め、その雑音推定パワーが大きいほど小さな値として音声信号の品質を得る
    ことを特徴とする音声検出装置。
  6. 請求の範囲2に記載の音声検出装置において、
    前記品質監視手段は、
    音声フレーム毎に、雑音推定パワーを求め、その雑音推定パワーが大きいほど小さな値として音声信号の品質を得る
    ことを特徴とする音声検出装置。
  7. 請求の範囲1に記載の音声検出装置において、
    前記品質監視手段は、
    音声フレーム毎に、雑音推定パワーとSN比の推定値とを求め、前者が大きいほど小さく、かつ後者が大きいほど大きな値として前記音声信号の品質を得る
    ことを特徴とする音声検出装置。
  8. 請求の範囲2に記載の音声検出装置において、
    前記品質監視手段は、
    音声フレーム毎に、雑音推定パワーとSN比の推定値とを求め、前者が大きいほど小さく、かつ後者が大きいほど大きな値として前記音声信号の品質を得る
    ことを特徴とする音声検出装置。
  9. 請求の範囲1に記載の音声検出装置において、
    前記品質監視手段は、
    音声フレーム毎に、標準化確率変数を求め、その標準化確率変数が大きいほど小さな値として前記音声信号の品質を得る
    ことを特徴とする音声検出装置。
  10. 請求の範囲2に記載の音声検出装置において、
    前記品質監視手段は、
    音声フレーム毎に、標準化確率変数を求め、その標準化確率変数が大きいほど小さな値として前記音声信号の品質を得る
    ことを特徴とする音声検出装置。
  11. 請求の範囲1に記載の音声検出装置において、
    前記品質監視手段は、
    音声フレーム毎に、標準化確率変数とSN比の推定値とを求め、前者が大きいほど小さく、かつ後者が大きいほど大きな値として前記音声信号の品質を得る
    ことを特徴とする音声検出装置。
  12. 請求の範囲2に記載の音声検出装置において、
    前記品質監視手段は、
    音声フレーム毎に、標準化確率変数とSN比の推定値とを求め、前者が大きいほど小さく、かつ後者が大きいほど大きな値として前記音声信号の品質を得る
    ことを特徴とする音声検出装置。
  13. 音声信号として時系列の順に与えられる音声フレーム毎に、前記音声信号に含まれ得る音声と雑音との成分の特徴の相違に基づいて有音区間に属する可能性の大きさを示す確度を求め、
    前記音声フレームの特徴量に基づいて前記音声信号の品質を前記音声フレーム毎に監視し、
    前記音声信号として時系列の順に与えられる個々の音声フレームについて、前記求められた確度に、前記監視された品質を重みとして重み付けする
    ことを特徴とする音声検出方法。
  14. 音声信号として時系列の順に与えられる音声フレーム毎に、前記音声信号に含まれ得る音声と雑音との成分の特徴の相違に基づいて有音区間に属する確率を求め、
    前記音声フレームの特徴量に基づいて前記音声信号の品質を前記音声フレーム毎に監視し、
    前記音声フレーム毎に、個別に含まれる前記音声信号の瞬時値の列に、前記監視された品質が高いほど小さな重みで重み付けする
    ことを特徴とする音声検出方法。
JP2001540759A 1999-11-24 1999-11-24 音声検出装置および音声検出方法 Expired - Fee Related JP3878482B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP1999/006539 WO2001039175A1 (fr) 1999-11-24 1999-11-24 Procede et appareil de detection vocale

Publications (1)

Publication Number Publication Date
JP3878482B2 true JP3878482B2 (ja) 2007-02-07

Family

ID=14237370

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001540759A Expired - Fee Related JP3878482B2 (ja) 1999-11-24 1999-11-24 音声検出装置および音声検出方法

Country Status (3)

Country Link
US (1) US6490554B2 (ja)
JP (1) JP3878482B2 (ja)
WO (1) WO2001039175A1 (ja)

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7072833B2 (en) * 2000-06-02 2006-07-04 Canon Kabushiki Kaisha Speech processing system
US6765971B1 (en) * 2000-08-08 2004-07-20 Hughes Electronics Corp. System method and computer program product for improved narrow band signal detection for echo cancellation
US6993481B2 (en) * 2000-12-04 2006-01-31 Global Ip Sound Ab Detection of speech activity using feature model adaptation
EP1391106B1 (en) * 2001-04-30 2014-02-26 Polycom, Inc. Audio conference platform with dynamic speech detection threshold
US7027982B2 (en) * 2001-12-14 2006-04-11 Microsoft Corporation Quality and rate control strategy for digital audio
US7383180B2 (en) 2003-07-18 2008-06-03 Microsoft Corporation Constant bitrate media encoding techniques
US7343291B2 (en) 2003-07-18 2008-03-11 Microsoft Corporation Multi-pass variable bitrate media encoding
JP4527369B2 (ja) 2003-07-31 2010-08-18 富士通株式会社 データ埋め込み装置及びデータ抽出装置
US20060018457A1 (en) * 2004-06-25 2006-01-26 Takahiro Unno Voice activity detectors and methods
US20060136201A1 (en) * 2004-12-22 2006-06-22 Motorola, Inc. Hands-free push-to-talk radio
US20060184363A1 (en) * 2005-02-17 2006-08-17 Mccree Alan Noise suppression
EP1861846B1 (en) * 2005-03-24 2011-09-07 Mindspeed Technologies, Inc. Adaptive voice mode extension for a voice activity detector
KR100745977B1 (ko) 2005-09-26 2007-08-06 삼성전자주식회사 음성 구간 검출 장치 및 방법
KR100800873B1 (ko) 2005-10-28 2008-02-04 삼성전자주식회사 음성 신호 검출 시스템 및 방법
JP5446874B2 (ja) * 2007-11-27 2014-03-19 日本電気株式会社 音声検出システム、音声検出方法および音声検出プログラム
US8325800B2 (en) 2008-05-07 2012-12-04 Microsoft Corporation Encoding streaming media as a high bit rate layer, a low bit rate layer, and one or more intermediate bit rate layers
US8379851B2 (en) 2008-05-12 2013-02-19 Microsoft Corporation Optimized client side rate control and indexed file layout for streaming media
JP4327886B1 (ja) * 2008-05-30 2009-09-09 株式会社東芝 音質補正装置、音質補正方法及び音質補正用プログラム
JP4327888B1 (ja) * 2008-05-30 2009-09-09 株式会社東芝 音声音楽判定装置、音声音楽判定方法及び音声音楽判定用プログラム
US8370887B2 (en) 2008-05-30 2013-02-05 Microsoft Corporation Media streaming with enhanced seek operation
JP5239594B2 (ja) * 2008-07-30 2013-07-17 富士通株式会社 クリップ検出装置及び方法
US8265140B2 (en) 2008-09-30 2012-09-11 Microsoft Corporation Fine-grained client-side control of scalable media delivery
TWI384423B (zh) * 2008-11-26 2013-02-01 Ind Tech Res Inst 以聲音事件為基礎之緊急通報方法與系統以及行為軌跡建立方法
GB0919672D0 (en) 2009-11-10 2009-12-23 Skype Ltd Noise suppression
WO2012020717A1 (ja) * 2010-08-10 2012-02-16 日本電気株式会社 音声区間判定装置、音声区間判定方法および音声区間判定プログラム
CN102740215A (zh) * 2011-03-31 2012-10-17 Jvc建伍株式会社 声音输入装置、通信装置、及声音输入装置的动作方法
US10332543B1 (en) * 2018-03-12 2019-06-25 Cypress Semiconductor Corporation Systems and methods for capturing noise for pattern recognition processing

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5788497A (en) * 1980-11-21 1982-06-02 Hitachi Ltd Recognizer for sound
JPS57177197A (en) * 1981-04-24 1982-10-30 Hitachi Ltd Pick-up system for sound section
US5195138A (en) * 1990-01-18 1993-03-16 Matsushita Electric Industrial Co., Ltd. Voice signal processing device
JPH04340598A (ja) * 1991-05-16 1992-11-26 Ricoh Co Ltd 音声認識装置
JPH05130067A (ja) * 1991-10-31 1993-05-25 Nec Corp 可変閾値型音声検出器
US5509102A (en) * 1992-07-01 1996-04-16 Kokusai Electric Co., Ltd. Voice encoder using a voice activity detector
US5459814A (en) * 1993-03-26 1995-10-17 Hughes Aircraft Company Voice activity detector for speech signals in variable background noise
FI100840B (fi) * 1995-12-12 1998-02-27 Nokia Mobile Phones Ltd Kohinanvaimennin ja menetelmä taustakohinan vaimentamiseksi kohinaises ta puheesta sekä matkaviestin
US6202046B1 (en) * 1997-01-23 2001-03-13 Kabushiki Kaisha Toshiba Background noise/speech classification method
US6104993A (en) * 1997-02-26 2000-08-15 Motorola, Inc. Apparatus and method for rate determination in a communication system
DE69831991T2 (de) * 1997-03-25 2006-07-27 Koninklijke Philips Electronics N.V. Verfahren und Vorrichtung zur Sprachdetektion
US6122610A (en) * 1998-09-23 2000-09-19 Verance Corporation Noise suppression for low bitrate speech coder
US6321194B1 (en) * 1999-04-27 2001-11-20 Brooktrout Technology, Inc. Voice detection in audio signals

Also Published As

Publication number Publication date
US6490554B2 (en) 2002-12-03
WO2001039175A1 (fr) 2001-05-31
US20020138255A1 (en) 2002-09-26

Similar Documents

Publication Publication Date Title
JP3878482B2 (ja) 音声検出装置および音声検出方法
US9047878B2 (en) Speech determination apparatus and speech determination method
US8909522B2 (en) Voice activity detector based upon a detected change in energy levels between sub-frames and a method of operation
KR100636317B1 (ko) 분산 음성 인식 시스템 및 그 방법
US5867581A (en) Hearing aid
US9224395B2 (en) Voice detection for automatic volume controls and voice sensors
KR100944252B1 (ko) 오디오 신호 내에서 음성활동 탐지
JP2010061151A (ja) 雑音環境のための音声活動検出器及び有効化器
US9280982B1 (en) Nonstationary noise estimator (NNSE)
EP1229520A2 (en) Silence insertion descriptor (sid) frame detection with human auditory perception compensation
CN111149370A (zh) 会议系统中的啸叫检测
US20230253010A1 (en) Voice activity detection (vad) based on multiple indicia
CN110556128B (zh) 一种语音活动性检测方法、设备及计算机可读存储介质
KR20090080777A (ko) 신호 검출 방법 및 장치
US6842526B2 (en) Adaptive noise level estimator
US8788265B2 (en) System and method for babble noise detection
KR20190064384A (ko) 서버인식 결과를 이용하여 호출어를 인식하는 장치 및 방법
US7672839B2 (en) Detecting audio signal activity in a communications system
WO2010002405A1 (en) Voice detection for automatic volume controls and voice sensors
JPH11133997A (ja) 有音無音判定装置
CN118675541B (zh) 一种复杂环境下音频数据安全传输方法及系统
JP2019090962A (ja) 音声検知システム及び音声検知方法
AU2024266987A1 (en) Acoustic loudspeaker detection for media identification
CN116564357A (zh) 基于多标记的语音活动检测
EP1551006A1 (en) Apparatus and method for voice activity detection

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040310

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060418

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060619

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060808

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061006

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20061031

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20061102

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101110

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101110

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111110

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111110

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121110

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121110

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131110

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees