JP3109978B2 - 音声区間検出装置 - Google Patents
音声区間検出装置Info
- Publication number
- JP3109978B2 JP3109978B2 JP07106650A JP10665095A JP3109978B2 JP 3109978 B2 JP3109978 B2 JP 3109978B2 JP 07106650 A JP07106650 A JP 07106650A JP 10665095 A JP10665095 A JP 10665095A JP 3109978 B2 JP3109978 B2 JP 3109978B2
- Authority
- JP
- Japan
- Prior art keywords
- voice
- section
- power
- average
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Landscapes
- Time-Division Multiplex Systems (AREA)
Description
【0001】
【産業上の利用分野】本発明は、音声区間のみを符号化
して伝送する音声符号化装置で使用される、音声区間検
出装置に関するものである。
して伝送する音声符号化装置で使用される、音声区間検
出装置に関するものである。
【0002】
【従来の技術】従来、入力音声を予め定められた長さの
フレームに分割し、そのフレームが音声区間であるか否
かを検出する音声区間検出装置が知られている。本明細
書において、入力音声はその性質により次のように分類
するものとする。音声区間とは、入力音声のうち音声と
して伝送すべき何らかの情報を有しており、音声符号化
装置により符号化する必要がある部分を示す。非音声区
間とは、入力音声から上記音声区間を除いた部分であ
り、符号化する必要が無い部分である。有音区間とは、
入力音声のうち音声信号が定められたしきい値以上に存
在する部分を示す。有音区間における音声信号には伝送
すべき情報が含まれているか否かは問わない。つまり、
単に雑音でもかまわない。無音区間とは入力音声のう
ち、上記有音区間を除いた部分を示す。
フレームに分割し、そのフレームが音声区間であるか否
かを検出する音声区間検出装置が知られている。本明細
書において、入力音声はその性質により次のように分類
するものとする。音声区間とは、入力音声のうち音声と
して伝送すべき何らかの情報を有しており、音声符号化
装置により符号化する必要がある部分を示す。非音声区
間とは、入力音声から上記音声区間を除いた部分であ
り、符号化する必要が無い部分である。有音区間とは、
入力音声のうち音声信号が定められたしきい値以上に存
在する部分を示す。有音区間における音声信号には伝送
すべき情報が含まれているか否かは問わない。つまり、
単に雑音でもかまわない。無音区間とは入力音声のう
ち、上記有音区間を除いた部分を示す。
【0003】音声区間を検出する最も基本的な方法は、
フレーム毎の平均音声パワを予め定められたしきい値と
比較し、平均音声パワがしきい値よりも大きいフレーム
を有音区間と判定し、有音区間をそのまま音声区間とみ
なす方法である。背景雑音が無いか、あるいはレベルが
非常に低い条件では、音声区間と有音区間はほぼ一致す
るため、正確な音声区間の検出が可能である。一方、背
景雑音のレベルが高い条件では、有音区間と判定される
区間が多くなり、音声区間を正しく検出できなくなる。
あるいは有音区間を判定するしきい値を上げて有音区間
と判定される区間を減らすと、音声区間を無音区間と判
定することにより、音切れが発生するという問題があ
る。さらに、入力音声のスペクトルパラメータの安定性
や線形予測分析に基づく予測誤差、入力音声のゼロクロ
ス数等の入力音声が有する特徴量をしきい値として用い
る方法、または有音区間および無音区間の平均音声パワ
を基に有音区間を判定するしいき値を可変化する方法に
より、ホワイトノイズ等の定常的な背景雑音に対して
は、例えば背景雑音がSN比で20dB程度と高いレベ
ルで存在していても、音声区間を正しく検出することが
できる装置が開発されている。
フレーム毎の平均音声パワを予め定められたしきい値と
比較し、平均音声パワがしきい値よりも大きいフレーム
を有音区間と判定し、有音区間をそのまま音声区間とみ
なす方法である。背景雑音が無いか、あるいはレベルが
非常に低い条件では、音声区間と有音区間はほぼ一致す
るため、正確な音声区間の検出が可能である。一方、背
景雑音のレベルが高い条件では、有音区間と判定される
区間が多くなり、音声区間を正しく検出できなくなる。
あるいは有音区間を判定するしきい値を上げて有音区間
と判定される区間を減らすと、音声区間を無音区間と判
定することにより、音切れが発生するという問題があ
る。さらに、入力音声のスペクトルパラメータの安定性
や線形予測分析に基づく予測誤差、入力音声のゼロクロ
ス数等の入力音声が有する特徴量をしきい値として用い
る方法、または有音区間および無音区間の平均音声パワ
を基に有音区間を判定するしいき値を可変化する方法に
より、ホワイトノイズ等の定常的な背景雑音に対して
は、例えば背景雑音がSN比で20dB程度と高いレベ
ルで存在していても、音声区間を正しく検出することが
できる装置が開発されている。
【0004】
【発明が解決しようとする課題】しかしながら、上記従
来の装置では、一般的な環境雑音、例えば工場内雑音や
街頭雑音等は、平均音声パワおよび音声特徴量が共に変
動が激しく、判定値がしきい値周辺で頻繁に上下するな
どの問題が発生するため、音声区間を正しく検出するこ
とが難しいという問題があった。
来の装置では、一般的な環境雑音、例えば工場内雑音や
街頭雑音等は、平均音声パワおよび音声特徴量が共に変
動が激しく、判定値がしきい値周辺で頻繁に上下するな
どの問題が発生するため、音声区間を正しく検出するこ
とが難しいという問題があった。
【0005】本発明は、このような従来の問題を解決す
るものであり、変動の激しい環境雑音が、例えばSN比
で20dB程度と高いレベルで存在する条件下でも、入
力音声中の音声区間を正しく検出することのできる音声
区間検出装置を提供することを目的とする。
るものであり、変動の激しい環境雑音が、例えばSN比
で20dB程度と高いレベルで存在する条件下でも、入
力音声中の音声区間を正しく検出することのできる音声
区間検出装置を提供することを目的とする。
【0006】
【課題を解決するための手段】本発明は、上記目的を達
成するために、入力音声を分析して周期性を検出する周
期性検出手段と、入力音声のパワ情報に基づいて有音区
間を検出する有音区間検出手段と、これら2つの検出手
段の現在および過去の検出結果から、予め定めた音声区
間と非音声区間を判定する規則に従って音声区間を検出
する音声区間判定手段とを備え、前記有音区間検出手段
が、入力音声のフレーム毎の平均音声パワを算出する平
均音声パワ算出手段と、前フレームの平均音声パワと現
フレームの平均音声パワとの比を算出する短時間パワ比
算出手段と、フレーム毎の平均音声パワをさらにmフレ
ームにわたって平均した長時間平均音声パワと現フレー
ムの平均音声パワとの比を算出する長時間パワ比算出手
段とを備え、前記音声区間判定手段が、入力音声の状態
を示す状態カウンタを有し、予め定めた規則に従って状
態カウンタの更新を行なう状態カウンタ更新手段と、前
記規則を納めた判定マップと、前記状態カウンタの値を
予め定めたしきい値とを比較して音声区間の判定を行な
う比較判定手段とを備えたものである。
成するために、入力音声を分析して周期性を検出する周
期性検出手段と、入力音声のパワ情報に基づいて有音区
間を検出する有音区間検出手段と、これら2つの検出手
段の現在および過去の検出結果から、予め定めた音声区
間と非音声区間を判定する規則に従って音声区間を検出
する音声区間判定手段とを備え、前記有音区間検出手段
が、入力音声のフレーム毎の平均音声パワを算出する平
均音声パワ算出手段と、前フレームの平均音声パワと現
フレームの平均音声パワとの比を算出する短時間パワ比
算出手段と、フレーム毎の平均音声パワをさらにmフレ
ームにわたって平均した長時間平均音声パワと現フレー
ムの平均音声パワとの比を算出する長時間パワ比算出手
段とを備え、前記音声区間判定手段が、入力音声の状態
を示す状態カウンタを有し、予め定めた規則に従って状
態カウンタの更新を行なう状態カウンタ更新手段と、前
記規則を納めた判定マップと、前記状態カウンタの値を
予め定めたしきい値とを比較して音声区間の判定を行な
う比較判定手段とを備えたものである。
【0007】本発明はまた、状態カウンタ更新手段が、
周期性判定手段からの周期性判定値と、短時間パワ比算
出手段からの短時間パワ比と、長時間パワ比算出手段か
らの長時間パワ比と、過去の判定結果に基づき現在の入
力音声の状態を推定する値を保持している状態カウンタ
の値をもとに、状態カウンタの増減値を決定する規則を
納めた判定マップを参照して状態カウンタの値を更新す
ることを特徴とするものである。
周期性判定手段からの周期性判定値と、短時間パワ比算
出手段からの短時間パワ比と、長時間パワ比算出手段か
らの長時間パワ比と、過去の判定結果に基づき現在の入
力音声の状態を推定する値を保持している状態カウンタ
の値をもとに、状態カウンタの増減値を決定する規則を
納めた判定マップを参照して状態カウンタの値を更新す
ることを特徴とするものである。
【0008】
【作用】本発明は、上記構成により、入力音声に変動の
激しい環境雑音が、例えばSN比で20dB程度と高い
レベルで存在する条件でも、音声区間を正しく検出する
ことができる。
激しい環境雑音が、例えばSN比で20dB程度と高い
レベルで存在する条件でも、音声区間を正しく検出する
ことができる。
【0009】
【実施例】以下、本発明の一実施例を図面を用いて説明
する。図1は本発明の一実施例における音声区間検出装
置の構成を示すブロック図である。図1において、10
1は入力音声の周期性を検出する周期性検出手段、10
2は入力音声のフレーム毎の平均音声パワを算出する平
均音声パワ算出手段、103は前フレームの平均音声パ
ワと現フレームの平均音声パワとの比を算出する短時間
パワ比算出手段、104はフレーム毎の平均音声パワを
さらにmフレームにわたって平均した長時間平均音声パ
ワを算出し、長時間平均音声パワと現フレームの平均音
声パワとの比を算出する長時間パワ比算出手段、105
は入力音声の状態を示す状態カウンタを有して予め定め
た規則に従って状態カウンタの更新を行なう状態カウン
タ更新手段、106は予め定めた規則を納めた判定マッ
プ、107は状態カウンタの値と予め定めたしきい値と
を比較して音声区間の判定を行なう比較判定手段であ
る。また、108は入力音声、109は周期性判定値、
110は現フレームの平均音声パワ、111は短時間パ
ワ比、112は長時間パワ比、113は状態カウンタ
値、114は判定結果の音声区間判定である。そして、
平均音声パワ算出手段102と短時間パワ比算出手段1
03と長時間パワ比算出手段104とで有音区間検出手
段115を構成し、状態カウンタ更新手段105と判定
マップ106と比較手段107とで音声区間判定手段1
16を構成する。
する。図1は本発明の一実施例における音声区間検出装
置の構成を示すブロック図である。図1において、10
1は入力音声の周期性を検出する周期性検出手段、10
2は入力音声のフレーム毎の平均音声パワを算出する平
均音声パワ算出手段、103は前フレームの平均音声パ
ワと現フレームの平均音声パワとの比を算出する短時間
パワ比算出手段、104はフレーム毎の平均音声パワを
さらにmフレームにわたって平均した長時間平均音声パ
ワを算出し、長時間平均音声パワと現フレームの平均音
声パワとの比を算出する長時間パワ比算出手段、105
は入力音声の状態を示す状態カウンタを有して予め定め
た規則に従って状態カウンタの更新を行なう状態カウン
タ更新手段、106は予め定めた規則を納めた判定マッ
プ、107は状態カウンタの値と予め定めたしきい値と
を比較して音声区間の判定を行なう比較判定手段であ
る。また、108は入力音声、109は周期性判定値、
110は現フレームの平均音声パワ、111は短時間パ
ワ比、112は長時間パワ比、113は状態カウンタ
値、114は判定結果の音声区間判定である。そして、
平均音声パワ算出手段102と短時間パワ比算出手段1
03と長時間パワ比算出手段104とで有音区間検出手
段115を構成し、状態カウンタ更新手段105と判定
マップ106と比較手段107とで音声区間判定手段1
16を構成する。
【0010】次に、上記実施例の動作について説明す
る。図1において、入力音声108は、周期性検出手段
101と平均音声パワ算出手段102に入力される。周
期性検出手段101は、入力音声を分析して周期性判定
値109を出力する。周期性判定値109は、周期性の
有無を示す2値情報であっても、周期性の度合いを示す
連続値情報であってもよい。平均音声パワ算出手段10
2は、現フレームの平均音声パワ110を算出し、出力
する。短時間パワ比算出手段103は、平均音声パワ1
10と保持している前フレームの平均音声パワとの比を
算出し、短時間パワ比111として出力する。その後保
持している前フレームの平均音声パワを現フレームの平
均音声パワによって更新する。同様に、長時間パワ比算
出手段104は、平均音声パワ110と、保持している
過去mフレームの平均音声パワをさらに平均した長時間
平均パワとの比を算出し、長時間パワ比112として出
力する。その後、保持している過去mフレームの平均音
声パワを現フレームの平均音声パワ110によって更新
する。状態カウンタ更新手段105は、周期性判定値1
09、短時間パワ比111、長時間パワ比112と、過
去の判定結果に基づき現在の入力音声の状態を推定する
値を保持している状態カウンタの値をもとに、状態カウ
ンタの増減値を決定する規則を納めた判定マップ106
を参照し、状態カウンタを更新する。比較判定手段10
7は、更新された状態カウンタ値113と予め定められ
たしきい値を比較し、現フレームが音声区間であるか非
音声区間であるかを判定する。
る。図1において、入力音声108は、周期性検出手段
101と平均音声パワ算出手段102に入力される。周
期性検出手段101は、入力音声を分析して周期性判定
値109を出力する。周期性判定値109は、周期性の
有無を示す2値情報であっても、周期性の度合いを示す
連続値情報であってもよい。平均音声パワ算出手段10
2は、現フレームの平均音声パワ110を算出し、出力
する。短時間パワ比算出手段103は、平均音声パワ1
10と保持している前フレームの平均音声パワとの比を
算出し、短時間パワ比111として出力する。その後保
持している前フレームの平均音声パワを現フレームの平
均音声パワによって更新する。同様に、長時間パワ比算
出手段104は、平均音声パワ110と、保持している
過去mフレームの平均音声パワをさらに平均した長時間
平均パワとの比を算出し、長時間パワ比112として出
力する。その後、保持している過去mフレームの平均音
声パワを現フレームの平均音声パワ110によって更新
する。状態カウンタ更新手段105は、周期性判定値1
09、短時間パワ比111、長時間パワ比112と、過
去の判定結果に基づき現在の入力音声の状態を推定する
値を保持している状態カウンタの値をもとに、状態カウ
ンタの増減値を決定する規則を納めた判定マップ106
を参照し、状態カウンタを更新する。比較判定手段10
7は、更新された状態カウンタ値113と予め定められ
たしきい値を比較し、現フレームが音声区間であるか非
音声区間であるかを判定する。
【0011】次に、上記実施例において使用する音声の
特徴量である周期性判定値109、平均音声パワ11
0、短時間パワ比111、長時間パワ比112を用いた
音声区間検出の原理について以下に説明する。
特徴量である周期性判定値109、平均音声パワ11
0、短時間パワ比111、長時間パワ比112を用いた
音声区間検出の原理について以下に説明する。
【0012】図2は上記実施例におけるSN比20dB
の街頭雑音を付加した音声を入力したときの各音声特徴
量の変化を示し、201はフレーム毎の平均音声パワ1
10、202は短時間パワ比111、203は長時間パ
ワ比112、204は周期性判定値109の変化をそれ
ぞれ示す。201、202、203は値をデシベル[d
B]表示したものであり、204は周期性があると判定
した区間(定常区間)を山、周期性が無いと判定した区
間(非定常区間)を谷で表したものである。なお、入力
音声のフレーム長は20ms、長時間平均音声パワを算
出するフレーム数mは5とした。短時間パワ比111と
長時間パワ比112は、ともに平均音声パワ110が大
きく変化する部分、すなわち音声の立上がりおよび立下
がり部分で大きく変化する。したがって、短時間パワ比
111と長時間パワ比112は、音声の立上がりおよび
立下がりを検出するのに適した特徴量であるといえる。
短時間パワ比111と長時間パワ比112の相違は、短
時間パワ比111が、平均音声パワが短時間に急激な変
化を繰りかえしても追従するかわりに、変化が激しすぎ
る傾向があるのに対して、長時間パワ比112は、変化
は安定しているが急激な変化の繰り返しには追従できな
い傾向を持つ点である。両者の特性を組み合わせて利用
することによって、背景雑音が無い条件だけではなく、
例えばSN比が20dB程度の変動の激しい雑音が付加
された条件においても、より正確な音声の立上がり立下
がり部分を検出することができる。また、周期性判定値
109は、音声中の定常な部分を検出するのに有効な特
徴量である。
の街頭雑音を付加した音声を入力したときの各音声特徴
量の変化を示し、201はフレーム毎の平均音声パワ1
10、202は短時間パワ比111、203は長時間パ
ワ比112、204は周期性判定値109の変化をそれ
ぞれ示す。201、202、203は値をデシベル[d
B]表示したものであり、204は周期性があると判定
した区間(定常区間)を山、周期性が無いと判定した区
間(非定常区間)を谷で表したものである。なお、入力
音声のフレーム長は20ms、長時間平均音声パワを算
出するフレーム数mは5とした。短時間パワ比111と
長時間パワ比112は、ともに平均音声パワ110が大
きく変化する部分、すなわち音声の立上がりおよび立下
がり部分で大きく変化する。したがって、短時間パワ比
111と長時間パワ比112は、音声の立上がりおよび
立下がりを検出するのに適した特徴量であるといえる。
短時間パワ比111と長時間パワ比112の相違は、短
時間パワ比111が、平均音声パワが短時間に急激な変
化を繰りかえしても追従するかわりに、変化が激しすぎ
る傾向があるのに対して、長時間パワ比112は、変化
は安定しているが急激な変化の繰り返しには追従できな
い傾向を持つ点である。両者の特性を組み合わせて利用
することによって、背景雑音が無い条件だけではなく、
例えばSN比が20dB程度の変動の激しい雑音が付加
された条件においても、より正確な音声の立上がり立下
がり部分を検出することができる。また、周期性判定値
109は、音声中の定常な部分を検出するのに有効な特
徴量である。
【0013】本実施例による音声区間検出装置は、短時
間パワ比と長時間パワ比の組み合わせによる音声の立上
がりおよび立下がり部分の検出と、周期性検出による音
声の定常区間の検出を行ない、両者の総合判定によって
音声区間を検出することを動作原理としており、この動
作原理を用いた音声区間検出の一例について以下に説明
する。ここでは、図1における状態カウンタ更新手段1
05が保持する状態カウンタの取る値の範囲は0から1
8までとし、状態カウンタの値が0から5の範囲にある
とき音声区間であると判定することとする。
間パワ比と長時間パワ比の組み合わせによる音声の立上
がりおよび立下がり部分の検出と、周期性検出による音
声の定常区間の検出を行ない、両者の総合判定によって
音声区間を検出することを動作原理としており、この動
作原理を用いた音声区間検出の一例について以下に説明
する。ここでは、図1における状態カウンタ更新手段1
05が保持する状態カウンタの取る値の範囲は0から1
8までとし、状態カウンタの値が0から5の範囲にある
とき音声区間であると判定することとする。
【0014】図3は判定マップ106の一例を示すもの
であり、短時間パワ比を縦軸、長時間パワ比を横軸に取
った平面を、領域1から領域9までの9つのマップ領域
301に分割したもので、各領域には状態カウンタの増
減値302が割り当てられている。状態カウンタ更新手
段105は、保持している更新前の状態カウンタ値が非
音声区間を示しているときには、受け取った短時間パワ
比111と長時間パワ比112が判定マップ106上の
どの領域に属するかを参照し、対応する状態カウンタの
増減値によって状態カウンタを更新する。更新後の状態
カウンタ値が0から5の範囲内にあれば現フレームは音
声区間と判定される。すなわち、音声区間の立上がりが
検出される。また、更新前の状態カウンタ値が音声区間
を示しているときには、周期性判定値109による定常
区間検出を行ない、定常区間と判定されれば状態カウン
タを0にクリアし、非定常区間と判定されれば、状態カ
ウンタ値が非音声区間を示しているときと同様に判定マ
ップ106を参照し、状態カウンタを更新する。更新後
の状態カウンタ値が6から18の範囲内にあれば、現フ
レームは非音声区間と判定される。すなわち、音声区間
の立下がりが検出される。
であり、短時間パワ比を縦軸、長時間パワ比を横軸に取
った平面を、領域1から領域9までの9つのマップ領域
301に分割したもので、各領域には状態カウンタの増
減値302が割り当てられている。状態カウンタ更新手
段105は、保持している更新前の状態カウンタ値が非
音声区間を示しているときには、受け取った短時間パワ
比111と長時間パワ比112が判定マップ106上の
どの領域に属するかを参照し、対応する状態カウンタの
増減値によって状態カウンタを更新する。更新後の状態
カウンタ値が0から5の範囲内にあれば現フレームは音
声区間と判定される。すなわち、音声区間の立上がりが
検出される。また、更新前の状態カウンタ値が音声区間
を示しているときには、周期性判定値109による定常
区間検出を行ない、定常区間と判定されれば状態カウン
タを0にクリアし、非定常区間と判定されれば、状態カ
ウンタ値が非音声区間を示しているときと同様に判定マ
ップ106を参照し、状態カウンタを更新する。更新後
の状態カウンタ値が6から18の範囲内にあれば、現フ
レームは非音声区間と判定される。すなわち、音声区間
の立下がりが検出される。
【0015】図4は本実施例の音声区間検出装置による
音声区間の検出結果を示す図であり、401はSN比が
20dBの街頭雑音を付加した音声の平均音声パワの変
化を示し、402はSN比が20dBの街頭雑音を付加
した音声から音声区間を検出した結果を示し、403は
背景雑音を付加しない音声の平均音声パワの変化を示
し、404は背景雑音を付加しない音声から音声区間を
検出した結果を示す。402と404においては、山の
部分が音声区間、谷の部分が非音声区間を示している。
図に示すとおり、検出区間にある程度の差異は認められ
るが、背景雑音の有無に関わらず安定して音声区間を検
出していることがわかる。
音声区間の検出結果を示す図であり、401はSN比が
20dBの街頭雑音を付加した音声の平均音声パワの変
化を示し、402はSN比が20dBの街頭雑音を付加
した音声から音声区間を検出した結果を示し、403は
背景雑音を付加しない音声の平均音声パワの変化を示
し、404は背景雑音を付加しない音声から音声区間を
検出した結果を示す。402と404においては、山の
部分が音声区間、谷の部分が非音声区間を示している。
図に示すとおり、検出区間にある程度の差異は認められ
るが、背景雑音の有無に関わらず安定して音声区間を検
出していることがわかる。
【0016】なお、上記実施例における音声のフレーム
は、組み合わせる音声符号化装置の音声フレームと必ず
しも一致している必要性はなく、遅延が許される条件で
あれば、音声区間検出装置のフレームを音声符号化装置
のフレームに先行させてずらして配置し、入力音声を先
読みすることにより、入力音声のパワ変化をより早く検
出し、さらに正確な音声区間の検出が可能となる。
は、組み合わせる音声符号化装置の音声フレームと必ず
しも一致している必要性はなく、遅延が許される条件で
あれば、音声区間検出装置のフレームを音声符号化装置
のフレームに先行させてずらして配置し、入力音声を先
読みすることにより、入力音声のパワ変化をより早く検
出し、さらに正確な音声区間の検出が可能となる。
【0017】また、上記実施例においては、音声区間の
検出に用いる特徴量として、平均音声パワを直接使用し
ていないため、入力音声の入力レベルの影響をほとんど
受けずに音声区間を検出できるいう特徴がある。したが
って、入力レベルが非常に低い条件でも音声区間の検出
が可能であるが、用途によっては平均音声パワが予め定
められたしきい値以下の区間を非音声区間と判定する必
要が生じる。このような用途に用いるためには、平均音
声パワに直接依存する判定規則を判定マップに追加し、
平均音声パワが予め定められたしきい値以下ならば非音
声区間と判定するようにすれば良い。
検出に用いる特徴量として、平均音声パワを直接使用し
ていないため、入力音声の入力レベルの影響をほとんど
受けずに音声区間を検出できるいう特徴がある。したが
って、入力レベルが非常に低い条件でも音声区間の検出
が可能であるが、用途によっては平均音声パワが予め定
められたしきい値以下の区間を非音声区間と判定する必
要が生じる。このような用途に用いるためには、平均音
声パワに直接依存する判定規則を判定マップに追加し、
平均音声パワが予め定められたしきい値以下ならば非音
声区間と判定するようにすれば良い。
【0018】なお、本発明の音声区間検出装置をCEL
P(Code Excited Linear Prediction coding:符号励振
線形予測符号化) やMBE(Multi Band Excitation:マ
ルチバンド励振符号化) 等の、一般にピッチ抽出と呼ば
れる音声の周期性を検出する手段を有する音声符号化装
置と組み合わせて使用すれば、周期性判定値は音声符号
化の過程で得られるピッチ情報を用いれば良く、独立に
周期性検出手段を持つ必要がなくなり、音声区間検出に
要する演算量が大幅に減少する。したがって、本発明の
音声区間検出装置はピッチ抽出手段を有する音声符号化
装置と組み合わせるのに非常に適している。
P(Code Excited Linear Prediction coding:符号励振
線形予測符号化) やMBE(Multi Band Excitation:マ
ルチバンド励振符号化) 等の、一般にピッチ抽出と呼ば
れる音声の周期性を検出する手段を有する音声符号化装
置と組み合わせて使用すれば、周期性判定値は音声符号
化の過程で得られるピッチ情報を用いれば良く、独立に
周期性検出手段を持つ必要がなくなり、音声区間検出に
要する演算量が大幅に減少する。したがって、本発明の
音声区間検出装置はピッチ抽出手段を有する音声符号化
装置と組み合わせるのに非常に適している。
【0019】
【発明の効果】以上のように、本発明によれば、入力音
声を予め定められた長さのフレームに分割し、そのフレ
ームが音声区間であるか否かを検出する音声区間検出装
置において、入力音声を分析して周期性を検出する周期
性検出手段と、入力音声のパワ情報に基づいて有音区間
を検出する有音区間検出手段と、これら2つの検出手段
の現在および過去の検出結果から、予め定めた音声区間
と非音声区間を判定する規則に従って音声区間を検出す
る音声区間判定手段とを備えているので、背景雑音のレ
ベルが高く、かつ変動が激しい条件においても、音声区
間を正確に検出することができる。
声を予め定められた長さのフレームに分割し、そのフレ
ームが音声区間であるか否かを検出する音声区間検出装
置において、入力音声を分析して周期性を検出する周期
性検出手段と、入力音声のパワ情報に基づいて有音区間
を検出する有音区間検出手段と、これら2つの検出手段
の現在および過去の検出結果から、予め定めた音声区間
と非音声区間を判定する規則に従って音声区間を検出す
る音声区間判定手段とを備えているので、背景雑音のレ
ベルが高く、かつ変動が激しい条件においても、音声区
間を正確に検出することができる。
【図1】本発明の一実施例における音声区間検出装置の
構成を示すブロック図
構成を示すブロック図
【図2】本発明の一実施例における音声の特徴量を示す
特性図
特性図
【図3】本発明の一実施例における判定マップを示す模
式図
式図
【図4】本発明の一実施例における音声区間の検出結果
を示す特性図
を示す特性図
101 周期性検出手段 102 平均音声パワ算出手段 103 短時間パワ比算出手段 104 長時間パワ比算出手段 105 状態カウンタ更新手段 106 判定マップ 107 比較判定手段 108 入力音声 109 周期性判定値 110 現フレームの平均音声パワ 111 短時間パワ比 112 長時間パワ比 113 状態カウンタ値 114 判定結果 115 有音区間検出手段 116 音声区間判定手段 201 平均音声パワ 202 短時間パワ比 203 長時間パワ比 204 周期性判定値 301 判定マップ上のマップ領域 302 状態カウンタの増減値 401 背景雑音を付加した音声の平均音声パワ 402 背景雑音を付加した音声からの音声区間を検出
結果 403 背景雑音を付加しない音声の平均音声パワ 404 背景雑音を付加しない音声からの音声区間検出
結果 403 背景雑音を付加しない音声の平均音声パワ 404 背景雑音を付加しない音声からの音声区間検出
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 平2−238493(JP,A) 特開 昭60−200300(JP,A) 特開 平1−159697(JP,A) 特開 昭60−57396(JP,A) 特開 昭60−499(JP,A) 特開 昭63−235999(JP,A) 特開 昭63−163495(JP,A) 特開 平1−255897(JP,A) 特許2648779(JP,B2) 特公 平1−21519(JP,B2) 特公 平4−64074(JP,B2) 日本音響学会平成元年度春季研究発表 会講演論文集▲I▼,3−7−15,滝沢 由実外「耐雑音音声認識装置の開発 (1)−区間検出方法について−」, p.117−118(平成元年3月14日発行) (58)調査した分野(Int.Cl.7,DB名) G10L 11/00 - 21/06
Claims (2)
- 【請求項1】 入力音声を予め定められた長さのフレー
ムに分割し、そのフレームが音声区間であるか否かを検
出する音声区間検出装置において、入力音声を分析して
周期性を検出する周期性検出手段と、入力音声のパワ情
報に基づいて有音区間を検出する有音区間検出手段と、
これら2つの検出手段の現在および過去の検出結果か
ら、予め定めた音声区間と非音声区間を判定する規則に
従って音声区間を検出する音声区間判定手段とを備え、
前記有音区間検出手段が、入力音声のフレーム毎の平均
音声パワを算出する平均音声パワ算出手段と、前フレー
ムの平均音声パワと現フレームの平均音声パワとの比を
算出する短時間パワ比算出手段と、フレーム毎の平均音
声パワをさらにmフレームにわたって平均した長時間平
均音声パワと現フレームの平均音声パワとの比を算出す
る長時間パワ比算出手段とを備え、前記音声区間判定手
段が、入力音声の状態を示す状態カウンタを有し、予め
定めた規則に従って状態カウンタの更新を行なう状態カ
ウンタ更新手段と、前記規則を納めた判定マップと、前
記状態カウンタの値を予め定めたしきい値とを比較して
音声区間の判定を行なう比較判定手段とを備えたことを
特徴とする音声区間検出装置。 - 【請求項2】 状態カウンタ更新手段が、周期性判定手
段からの周期性判定値と、短時間パワ比算出手段からの
短時間パワ比と、長時間パワ比算出手段からの長時間パ
ワ比と、過去の判定結果に基づき現在の入力音声の状態
を推定する値を保持している状態カウンタの値をもと
に、状態カウンタの増減値を決定する規則を納めた判定
マップを参照して状態カウンタの値を更新することを特
徴とする請求項1記載の音声区間検出装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP07106650A JP3109978B2 (ja) | 1995-04-28 | 1995-04-28 | 音声区間検出装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP07106650A JP3109978B2 (ja) | 1995-04-28 | 1995-04-28 | 音声区間検出装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH08305388A JPH08305388A (ja) | 1996-11-22 |
JP3109978B2 true JP3109978B2 (ja) | 2000-11-20 |
Family
ID=14438999
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP07106650A Expired - Fee Related JP3109978B2 (ja) | 1995-04-28 | 1995-04-28 | 音声区間検出装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3109978B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0655942U (ja) * | 1992-05-07 | 1994-08-02 | 株式会社ワークスベル | 自動車のステアリング・ハブ |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002091470A (ja) * | 2000-09-20 | 2002-03-27 | Fujitsu Ten Ltd | 音声区間検出装置 |
FR2825826B1 (fr) * | 2001-06-11 | 2003-09-12 | Cit Alcatel | Procede pour detecter l'activite vocale dans un signal, et codeur de signal vocal comportant un dispositif pour la mise en oeuvre de ce procede |
GB2384670B (en) * | 2002-01-24 | 2004-02-18 | Motorola Inc | Voice activity detector and validator for noisy environments |
US7143028B2 (en) | 2002-07-24 | 2006-11-28 | Applied Minds, Inc. | Method and system for masking speech |
JP4736699B2 (ja) * | 2005-10-13 | 2011-07-27 | 株式会社ケンウッド | 音声信号圧縮装置、音声信号復元装置、音声信号圧縮方法、音声信号復元方法及びプログラム |
JP5050698B2 (ja) * | 2007-07-13 | 2012-10-17 | ヤマハ株式会社 | 音声処理装置およびプログラム |
WO2011077924A1 (ja) * | 2009-12-24 | 2011-06-30 | 日本電気株式会社 | 音声検出装置、音声検出方法、および音声検出プログラム |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2648779B2 (ja) | 1987-08-26 | 1997-09-03 | 日本電気株式会社 | 通話信号識別装置 |
-
1995
- 1995-04-28 JP JP07106650A patent/JP3109978B2/ja not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2648779B2 (ja) | 1987-08-26 | 1997-09-03 | 日本電気株式会社 | 通話信号識別装置 |
Non-Patent Citations (1)
Title |
---|
日本音響学会平成元年度春季研究発表会講演論文集▲I▼,3−7−15,滝沢由実外「耐雑音音声認識装置の開発(1)−区間検出方法について−」,p.117−118(平成元年3月14日発行) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0655942U (ja) * | 1992-05-07 | 1994-08-02 | 株式会社ワークスベル | 自動車のステアリング・ハブ |
Also Published As
Publication number | Publication date |
---|---|
JPH08305388A (ja) | 1996-11-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3197155B2 (ja) | ディジタル音声コーダにおける音声信号ピッチ周期の推定および分類のための方法および装置 | |
EP2089877B1 (en) | Voice activity detection system and method | |
US4821325A (en) | Endpoint detector | |
US5794195A (en) | Start/end point detection for word recognition | |
CN1828722B (zh) | 用于音频信号的改进的语音/噪音分类的复合信号激活探测 | |
KR101437830B1 (ko) | 음성 구간 검출 방법 및 장치 | |
US8116463B2 (en) | Method and apparatus for detecting audio signals | |
EP1521238A1 (en) | Voice activity detection | |
JP2573352B2 (ja) | 音声検出装置 | |
JPH08505715A (ja) | 定常的信号と非定常的信号との識別 | |
WO2001086633A1 (en) | Voice activity detection and end-point detection | |
JP3105465B2 (ja) | 音声区間検出方法 | |
JP3109978B2 (ja) | 音声区間検出装置 | |
KR100220377B1 (ko) | 정상신호와 비정상신호 판별방법 및 장치 | |
US8442817B2 (en) | Apparatus and method for voice activity detection | |
US7254532B2 (en) | Method for making a voice activity decision | |
JP3418005B2 (ja) | 音声ピッチ検出装置 | |
JPH0756598A (ja) | 有声音・無声音判別装置 | |
JP3413862B2 (ja) | 音声区間検出方法 | |
US6539350B1 (en) | Method and circuit arrangement for speech level measurement in a speech signal processing system | |
JP3160228B2 (ja) | 音声区間検出方法およびその装置 | |
JP2656069B2 (ja) | 音声検出装置 | |
US6157906A (en) | Method for detecting speech in a vocoded signal | |
JPH11133997A (ja) | 有音無音判定装置 | |
JPH07109559B2 (ja) | 音声区間検出方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
LAPS | Cancellation because of no payment of annual fees |