JP3744934B2 - 音響区間検出方法および装置 - Google Patents
音響区間検出方法および装置 Download PDFInfo
- Publication number
- JP3744934B2 JP3744934B2 JP2005505039A JP2005505039A JP3744934B2 JP 3744934 B2 JP3744934 B2 JP 3744934B2 JP 2005505039 A JP2005505039 A JP 2005505039A JP 2005505039 A JP2005505039 A JP 2005505039A JP 3744934 B2 JP3744934 B2 JP 3744934B2
- Authority
- JP
- Japan
- Prior art keywords
- section
- value
- harmonic structure
- band number
- acoustic feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000001514 detection method Methods 0.000 title claims description 82
- 238000000034 method Methods 0.000 claims description 125
- 238000000605 extraction Methods 0.000 claims description 76
- 238000011156 evaluation Methods 0.000 claims description 54
- 238000004364 calculation method Methods 0.000 claims description 28
- 238000012937 correction Methods 0.000 claims description 23
- 238000006243 chemical reaction Methods 0.000 claims description 21
- 230000002123 temporal effect Effects 0.000 claims description 8
- 230000002688 persistence Effects 0.000 claims description 5
- 238000012935 Averaging Methods 0.000 claims 1
- 238000012545 processing Methods 0.000 description 78
- 238000001228 spectrum Methods 0.000 description 71
- 230000008569 process Effects 0.000 description 59
- 238000010586 diagram Methods 0.000 description 51
- 230000003595 spectral effect Effects 0.000 description 39
- 230000014509 gene expression Effects 0.000 description 25
- 230000007704 transition Effects 0.000 description 18
- 239000011295 pitch Substances 0.000 description 16
- 230000000737 periodic effect Effects 0.000 description 14
- 230000008859 change Effects 0.000 description 13
- 239000000284 extract Substances 0.000 description 12
- 230000005236 sound signal Effects 0.000 description 10
- 230000006870 function Effects 0.000 description 9
- 210000001260 vocal cord Anatomy 0.000 description 8
- 239000013598 vector Substances 0.000 description 7
- 230000001755 vocal effect Effects 0.000 description 7
- 102100021066 Fibroblast growth factor receptor substrate 2 Human genes 0.000 description 6
- 101000818410 Homo sapiens Fibroblast growth factor receptor substrate 2 Proteins 0.000 description 6
- 239000006185 dispersion Substances 0.000 description 6
- 230000001186 cumulative effect Effects 0.000 description 5
- 210000000056 organ Anatomy 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 238000007796 conventional method Methods 0.000 description 4
- 238000005314 correlation function Methods 0.000 description 4
- 230000007613 environmental effect Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 2
- 230000008034 disappearance Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000001629 suppression Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000005311 autocorrelation function Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000002459 sustained effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
- G10L2025/932—Decision in previous or following frames
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
- G10L2025/937—Signal energy in various frequency bands
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Electrophonic Musical Instruments (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Description
【0001】
本発明は、入力音響信号から調波構造を有する信号とくに音声が含まれる区間を音声区間として検出する調波構造信号区間および調波構造性音響信号区間検出方法に関し、特に、環境雑音下における調波構造信号および調波構造性音響信号区間検出方法に関する。
【背景技術】
【0002】
人間の音声は、声帯の振動と発声器官の共振によって形成されており、音の大きさや音の高低を区別するために声帯を制御して振動の周波数を変化させたり,鼻や舌などの発声器官の位置つまり声道形状を変動させたりすることで、人はさまざまな音を発声していることが知られている。このように生成される音声を、音響信号として捕えると、その特徴は、周波数とともに緩やかに変化する成分である、スペクトル包絡と、短時間の周期的(有声母音などの場合)にまたは非周期的に変化する成分(子音や無声母音の場合)である、スペクトル微細構造から構成されていることが知られている。前者のスペクトル包絡成分が発声器官の共振特性を表しており、人間の喉や口の形をあらわす特徴量として用いられ、たとえば音声認識の特徴量としても用いられている。一方、後者のスペクトル微細構造は、音源の周期性を表しており、声帯の基本周期(ピッチ)、音の高低を表す特徴量として用いられている。音声信号のスペクトルは、これら2つの要素の積で表現されている。とくに母音部などにおいて、後者の基本周期およびその高調波成分をよく残している信号は、音声の調波構造とも呼ばれている。
【0003】
従来、入力音響信号から音声区間を検出する手法は、様々提案されている。それらを大きく分類すると、入力音響信号の帯域パワーやスペクトルの概形を示すスペクトル包絡などの振幅情報を用いて識別する方法(以下、「方法1」という。)、口映像を動画像解析することにより、その開閉を検出する方法(以下、「方法2」という。)、音声や雑音を表現する音響モデルと入力音響信号の音響特徴量とを比較することにより音声区間を検出する方法(以下、「方法3」という。)、および音声の調音器官の特徴である声道形状によって形成されるスペクトル包絡形状や声帯振動によって形成される調波構造に着目して音声区間を決定する方法(以下、「方法4」という。)などがある。
【0004】
しかし、方法1では、もともと振幅情報だけで音声と雑音とを識別することが難しいという問題を含んでいる。このため、方法1では、音声区間と雑音区間とを仮定し、音声区間と雑音区間とを区別するために設定したしきい値を再学習することにより、音声区間の検出を行なっている。したがって、学習過程において雑音区間の振幅が音声区間の振幅に対して大きくなる(すなわち音声雑音比(以下、「SNR」という。)が0dB程度まで低下する)と、雑音区間であるか音声区間であるかの仮定そのものの精度が性能に影響し、しきい値学習の精度が劣化してしまう。その結果として、音声区間検出の性能が劣化するという問題がある。
【0005】
また、方法2では、例えば音入力を用いずに画像だけを用いて口が開いたことを検出するようにすれば、その音声区間検出推定精度は、SNRとは無関係に一定に保つことが可能である。しかし、画像解析処理は音声信号の解析処理に比べて、コストが高いことと、口がカメラの方向に向いていない場合には音声区間の検出ができないという問題がある。
【0006】
さらに、方法3では、想定した環境雑音下での性能は確保されるものの、雑音を想定することそのものが難しいため、この方法を使用できる環境は限定的となってしまう。その場の雑音環境を学習する手法も提案されているが、振幅情報を利用する方法(方法1)と同様に、学習方法の精度に依存して性能が劣化するという問題もある。
【0007】
一方、音声の調音器官の特徴である、声道形状によって形成されるスペクトル包絡形状や声帯振動によって形成される調波構造に着目して音声区間を決定する方法(方法4)も提案されてきた。
【0008】
スペクトル包絡形状を利用した方法には、帯域パワー例えばケプストラムの連続性を評価する方法などがあるが、SNRが低下した状況では雑音のオフセット成分との区別がつきにくくなるため、性能が劣化する。
【0009】
調波構造に着目した方法として、ピッチ検出法はその手法の一つであり、時間軸上の自己相関や高次ケフレンシーを抽出する方法、周波数軸上の自己相関を行なう方法等が提案されている。しかし、これらの方法は、対象とする信号が単一のピッチ(高調波の基本周波数)を持つ信号でない場合には音声区間の抽出が困難であり、環境雑音によって抽出誤りが発生し易い等の問題がある。
【0010】
また、複数種類の音響信号が混在した音響信号から、人の音声や特定の楽器音等の調波構造を持った音響信号を強調したり、抑圧したり、分離抽出したりする技術が知られている。例えば音声信号に対しては、雑音と音声信号とが混在した音響信号から雑音のみを抑圧する雑音抑圧装置(たとえば、特開平9−153769号公報参照。)が、また音楽に対しては演奏に含まれる旋律の分離方法や除去方法(たとえば、特開平11−143460号公報参照。)が、それぞれ提案されている。
【0011】
しかし、特開平9−153769号公報に記載の方法では、入力信号の線形予測残差信号を帯域ごとに観察することで音声および非音声の検出を行っている。したがって、線形予測がうまく機能しない低SNRの非定常雑音下では性能が劣化するという問題がある。
【0012】
また、特開平11−143460号公報に記載の方法は、同一の音程の音が一定時間持続するという音楽の旋律特有の性質を利用した方法である。このため、この方法を、音声と雑音との区別にそのまま用いることは困難であるという問題がある。音響の分離や除去を目的としない場合には、その処理量の多さが問題となる。
【0013】
調波構造を表現する音響特徴量そのものを評価関数に用いる手法(たとえば、特開2001―222289号公報参照。)も提案されている。図32は、特開2001―222289号公報で提案されている方法を用いた音声区間決定装置の概略構成を示すブロック図である。
【0014】
図32に示される音声区間検出装置10は、入力信号中の音声区間を決定する装置であり、FFT(Fast Fourier Transform)部100と、調波構造評価部101と、調波構造ピーク検出部102と、ピッチ候補検出部103と、フレーム間振幅差分調波構造評価部104と、音声区間決定部105とを備える。
【0015】
FFT部100は、入力信号に対し、フレーム(たとえば、1フレームは、10msec)ごとにFFT処理を行ない、入力信号を周波数変換し、各種の分析を行なう。調波構造評価部101は、FFT部100より得られた周波数分析結果より、フレームごとに調波構造を有するか否かの評価を行なう。調波構造ピーク検出部102は、調波構造評価部101で抽出された調波構造をローカルピーク形状に変換し、ローカルピークを検出する。
【0016】
ピッチ候補検出部103は、調波構造ピーク検出部102で検出されたローカルピークを時間軸方向(フレーム方向)にトラッキングすることによりピッチ検出を行なう。ピッチとは、調波構造の基本周波数のことである。
【0017】
フレーム間振幅差分調波構造評価部104は、FFT部100における周波数分析の結果得られた振幅をフレーム間で差分し、差分値を求め、その差分値より着目しているフレームが調波構造を有するか否かの評価を行なう。
【0018】
音声区間決定部105は、ピッチ候補検出部103で検出されたピッチと、フレーム間振幅差分調波構造評価部104の評価結果とを総合的に判断し、音声区間を決定する。
【0019】
したがって、図32に示される音声区間検出装置10では、単一のピッチのみを有する音響信号のみならず、複数のピッチを有する音響信号であっても、音声区間を決定できる。
【0020】
しかしながら、ピッチ候補検出部103において、ローカルピークをトラッキングする際には、ローカルピークの出現や消滅などを考慮しなければならず、これらを考慮しつつ、高精度でピッチを検出するのは困難である。
【0021】
また、ピークという極大値を扱う性質上、雑音に対する耐性もあまり期待できない。さらに、時間的な変動を評価するために、フレーム間振幅差分調波構造評価部104においては、フレーム間差分に対して調波構造の有無を評価しているが、単に、振幅の差分を用いているため、調波構造の有する情報が失われてしまうだけではなく、例えば突発雑音が生じた場合には、差分値として突発雑音の音響特徴量がそのまま評価されてしまうという問題がある。
【0022】
そこで、本発明は上述の課題を解決するためになされたものであり、入力信号のレベル変動に依存せず、精度良く音声区間を検出可能な調波構造性音響信号区間検出方法および装置を提供することを目的とする。
【0023】
また、リアルタイム性に優れた調波構造性音響信号区間検出方法および装置を提供することも目的とする。
【発明の開示】
【0024】
本発明のある局面に係る調波構造性音響信号区間検出方法は、入力音響信号から調波構造を有する信号とくに音声が含まれる区間を音声区間として検出する調波構造性音響信号区間検出方法であって、前記入力音響信号に対し、所定の時間で区切られたフレーム単位で音響特徴量を抽出する音響特徴量抽出ステップと、前記音響特徴量の持続性を評価し、評価結果に従って音声区間を決定する区間決定ステップとを含むことを特徴とする。
【0025】
このように、音響特徴量の持続性を評価することにより、音声区間の決定を行なっている。このため、ローカルピークをトラッキングする従来の方法のようにローカルピークの出現や消滅など、入力信号のレベル変動を考慮する必要がなく、精度よく音声区間を決定することができる。
【0026】
好ましくは、前記音響特徴量抽出ステップでは、前記入力音響信号に対しフレーム単位で周波数変換を行ない、前記周波数変換の結果より調波構造のみを強調し、前記音響特徴量を抽出することを特徴とする。
【0027】
音声(特に母音)には、調波構造が見られる。このため、調波構造を強調した音響特徴量を用いて音声区間を決定することにより、さらに精度よく音声区間を決定することができる。
【0028】
さらに好ましくは、前記音響特徴量抽出ステップでは、さらに、前記周波数変換の結果より調波構造を抽出し、当該調波構造を含む所定の帯域の周波数変換の結果を、前記音響特徴量とすることを特徴とする。
【0029】
調波構造が保たれている帯域のみからなる音響特徴量を用いて音声区間を決定することにより、さらに精度よく音声区間を決定することができる。
【0030】
さらに好ましくは、前記区間決定ステップでは、前記音響特徴量のフレーム間における相関値に基づいて、前記持続性を評価することを特徴とする。
【0031】
このように、調波構造の持続性をフレーム間の音響特徴量の相関値により評価している。このため、フレーム間での振幅差分を取り調波構造の持続性を評価する従来方法に比べ、調波構造の有する情報を残した評価が可能である。よって、短いフレームにわたる突発雑音が生じたような場合であっても、そのような突発雑音を音声区間として検出することがなくなり、精度よく音声区間を決定することができる。
【0032】
さらに好ましくは、前記区間決定ステップは、前記音響特徴量の持続性を評価する評価値を算出する評価ステップと、前記評価値の時間的な連続性を評価し、評価結果に従って音声区間を決定する音声区間決定ステップとを含むことを特徴とする。
【0033】
音声区間決定ステップでの処理は、実施の形態に述べるように、時間的に連続する有声区間(評価値のみから求められた音声区間)を連結して音声区間を検出する処理に相当する。このように、時間的に連続する有声区間を連結し、音声区間を決定することにより、母音に比べ調波構造性評価値が小さい子音をも音声区間と決定することができる。
【0034】
さらに、調波構造を有する区間を、詳細に評価することにより、音声か非音声である音楽かどうかを判定することが可能である。調波構造を有すると判定されたフレームにおいて、フレーム内部で最大あるいは最小の調波構造性値が検出された帯域の番号指数を連続的に評価することで、その検出が可能である。
【0035】
また、フレーム間における調波構造持続性評価値を用いて、調波構造があるとみなされた区間において、該評価値の分散を用いて、音声あるいは音楽など調波構造が持続した区間からの変移なのか、調波構造を持つ突発的なノイズなのかを判別することが可能である。
【0036】
また、上記調波構造に関する特徴を有する区間以外の区間に対しては、無音とみなせるほど入力信号が小さい区間あるいは調波構造を有しない非調波構造の区間を判定することができる。
【0037】
また、実施の形態5で示すように、音入力しながらフレーム単位で調波構造性の判定を行なう方法を開示する。
【0038】
さらに好ましくは、前記区間決定ステップは、さらに、所定数のフレームにわたる前記評価ステップにおいて算出される前記評価値と第1の所定しきい値との比較に基づいて、前記入力音響信号の音声雑音比を推定するステップと、推定された前記音声雑音比が第2の所定しきい値以上の場合には、前記評価ステップにおいて算出される前記評価値に基づいて前記音声区間を決定するステップとを含み、前記音声区間決定ステップでは、前記音声雑音比が前記第2の所定しきい値未満の場合に、前記評価値の時間的な連続性を評価し、評価結果に従って前記音声区間を決定することを特徴とする。
【0039】
これにより、入力音響信号の推定音声雑音比が良好な場合には、音響特徴量の持続性を評価する評価値の時間的な連続性を評価し、前記音声区間を決定する処理を省略することができる。このため、リアルタイム性に優れた音声区間の検出が可能になる。
【0040】
なお、本発明は、以上のような調波構造性音響信号区間検出方法として実現することができるだけでなく、そのステップを手段とする調波構造性音響信号区間検出装置として実現したり、調波構造性音響信号区間検出方法の各ステップをコンピュータに実行させるためのプログラムとして実現したりすることもできる。そのようなプログラムは、CD−ROM等の記録媒体やインターネット等の伝送媒体を介して配信することができるのはいうまでもない。
【0041】
以上のように、本発明に係る調波構造性音響信号区間検出方法および装置によると、音声区間と雑音区間との精度良い選別が可能となり、特に、音声認識方法の前処理として本発明を適用することにより、音声認識率を向上させることができ、その実用的価値は極めて高い。また、IC(Integrated Circuit)レコーダなどに使用することにより音声区間のみを録音したりすることにより、記録容量の効率利用も可能である。
【発明を実施するための最良の形態】
【0042】
(実施の形態1)
以下、図面を参照しながら本発明の実施の形態1に係る音声区間検出装置について説明する。図1は、本実施の形態に係る音声区間検出装置20のハードウェア構成を示すブロック図である。
【0043】
音声区間検出装置20は、入力音響信号(以下、単に「入力信号」という。)の中から人間が発声している区間である音声区間を決定する装置であり、FFT部200と、調波構造抽出部201と、有声評価部210と、音声区間決定部205とを備える。
【0044】
FFT部200は、入力信号にFFTを施し、フレームごとにパワースペクトル成分を求める。ここで、1フレームあたりの時間は10msecとするが、この時間に限定されるものではない。
【0045】
調波構造抽出部201は、FFT部200で抽出されたパワースペクトル成分から雑音成分等を取り除き、調波構造のみを残したパワースペクトル成分を抽出する。
【0046】
有声評価部210は、調波構造抽出部201で抽出された調波構造のみを残したパワースペクトル成分のフレーム間での相関性を評価することにより、母音の区間であるか否かを評価し、有声区間を抽出する装置であり、特徴量保存部202と、特徴量フレーム間相関値算出部203と、差分処理部204とを備える。なお、調波構造は、母音の発声区間内のパワースペクトル分布において主に見られる性質であり、子音の発声区間内のパワースペクトル分布においては、母音ほどの調波構造は見られない。
【0047】
特徴量保存部202は、調波構造抽出部201より出力されるパワースペクトルを所定数のフレーム分保存する。特徴量フレーム間相関値算出部203は、調波構造抽出部201より出力されるパワースペクトルと、特徴量保存部202に保存されている一定フレーム前のパワースペクトルとの相関値を算出する。差分処理部204は、特徴量フレーム間相関値算出部203で求められた相関値のある一定期間における平均値を求め、特徴量フレーム間相関値算出部203より出力される相関値から平均値を引き、相関値と平均値との平均差分による補正相関値を求める。
【0048】
音声区間決定部205は、差分処理部204より出力される平均差分による補正相関値に基づいて、音声区間を決定する。
【0049】
以上のように構成された音声区間検出装置20の動作について以下に説明する。図2は、音声区間検出装置20が実行する処理のフローチャートである。
【0050】
FFT部200は、調波構造を抽出するために使用する音響特徴量として、入力信号にFFTを施すことにより、パワースペクトル成分を求める(S2)。より具体的には、FFT部200は、入力信号を所定のサンプリング周波数Fs(たとえば、11.025kHz)でサンプリングし、1フレーム(たとえば、10msec)ごとに、所定のポイント(たとえば、1フレームあたり128ポイント)でFFTのスペクトル成分を求める。FFT部200は、各ポイントで求められたスペクトル成分を対数化することによりパワースペクトル成分を求める。以下、パワースペクトル成分を、適宜単にスペクトル成分と表記する。
【0051】
次に、調波構造抽出部201は、FFT部200で抽出されたパワースペクトル成分から雑音成分等を取り除き、調波構造のみを残したパワースペクトル成分を抽出する(S4)。
【0052】
FFT部200で算出されたパワースペクトル成分には、雑音によるオフセットや声道形状によって形成されるスペクトル包絡形状が含まれており、それぞれが時間変動を起こしている。このため、調波構造抽出部201は、これらの成分を取り除き、声帯振動によって形成される調波構造のみを残したパワースペクトル成分をとりだす。これにより、より効果的に有声区間検出が行なわれる。
【0053】
調波構造抽出部201による処理(S4)を図3および図4を参照しながらより詳細に説明する。図3は、調波構造抽出部201による調波構造抽出処理のフローチャートであり、図4は、各フレームにおけるスペクトル成分から調波構造のみを残したスペクトル成分を抽出する過程を模式的に示す図である。
【0054】
図4(a)に示されるように、調波構造抽出部201は、各フレームのスペクトル成分S(f)より、その極大値をピークホールドした値Hmax(f)を算出し(S22)、スペクトル成分S(f)の極小値をピークホールドした値Hmin(f)を算出する(S24)。
【0055】
図4(b)に示されるように、調波構造抽出部201は、スペクトル成分S(f)から極小値のピークホールド値Hmin(f)を引くことにより、スペクトル成分S(f)に含まれるフロア成分を除去する(S26)。これにより、雑音オフセット成分およびスペクトル包絡に起因する変動成分が除去される。
【0056】
図4(c)に示されるように、調波構造抽出部201は、極大値のピークホールド値Hmax(f)と極小値のピークホールド値Hmin(f)との差分値を求め、ピーク変動量を算出する(S28)。
【0057】
図4(d)に示されるように、調波構造抽出部201は、ピーク変動量を周波数方向に微分し、その変化量を算出する(S30)。これは、調波構造成分を有する帯域では、ピーク変動量の変化が小さいという仮定に基づいて、調波構造の検出を行なうことを目的としている。
【0058】
図4(e)に示されるように、調波構造抽出部201は、上記仮定が反映されるような重みW(f)を算出する(S32)。すなわち、調波構造抽出部201は、ピーク変動量の変化量の絶対値と所定のしきい値とを比較し、当該変化量の絶対値が所定のしきい値θ以下であれば重みW(f)を1とし、所定のしきい値θ以上であれば当該変化量の絶対値の逆数を重みW(f)とする。これにより、ピーク変動量の変化が大きい部分の重みを小さくし、ピーク変動量の変化が小さい部分の重みを大きくすることができる。
【0059】
図4(f)に示されるように、調波構造抽出部201は、フロア成分が除去されたスペクトル成分(S(f)−Hmin(f))に重みW(f)を掛け合わせ、スペクトル成分S’(f)を求める(S34)。この処理により、ピーク変動量の変化の大きい非調波構造成分を除去することが可能となる。
【0060】
再度、図2に示される音声区間検出装置20の動作説明を続ける。調波構造抽出処理(図2のS4、図3)の後、特徴量フレーム間相関値算出部203は、調波構造抽出部201より出力されるスペクトル成分と、特徴量保存部202に保存されている所定フレーム前のスペクトル成分との間の相関値を算出する(S6)。
【0061】
ここでは、着目しているフレームをj番目のフレームとした場合、隣接するフレームのスペクトル成分を用いて相関値E1(j)を求める方法について説明する。相関値E1(j)は、次式(1)〜(5)に従い求められる。すなわち、iフレームおよびi−1フレームの128ポイントにおけるパワースペクトル成分P(i)およびP(i−1)を次式(1)および(2)でそれぞれ表すものとする。また、パワースペクトル成分P(i)およびP(i−1)の相関関数xcorr(P(j−1),P(j))の値を次式(3)で表すものとする。すなわち、相関関数xcorr(P(j−1),P(j))の値は、各ポイントにおける内積値からなるベクトル量である。z1(i)を次式(4)に示されるようにxcorr(P(j−1),P(j))のベクトルの要素の最大値を求める。これをjフレームの相関値E1(j)としてもよいし、次式(5)で表されるようにたとえば3フレーム分加算した値を用いても良い。
【数1】
【数2】
【数3】
【数4】
【数5】
【0062】
相関値E1(j)の一例を図5に示すグラフを用いて説明する。図5は、入力信号を処理することにより得られる信号を表すグラフである。図5(a)は入力信号の波形を示している。この波形は、掃除機の雑音(SNR=0.5dB)がある環境において、約1200〜3000msecの間に「アールアンドビーホテルヒガシニホン」と発音している場合の波形である。この入力信号には、約500msecの箇所に掃除機を動かした際の「カタッ」という突発音が含まれ、2800msec頃に掃除機のモータの回転速度を弱から強に変更し、掃除機の音のレベルが大きくなっている。図5(b)は、図5(a)に示される入力信号にFFTを施した場合のパワーを示しており、図5(c)は、相関値算出処理(S6)で求められた相関値の遷移を示している。
【0063】
ここで、相関値E1(j)の算出は、以下に示すような知見に基づいて算出される。すなわち、フレーム間の音響特徴量の相関値は、時間的に連続するフレームにおいて調波構造が連続していることに基づいている。このため、この調波構造を時間的に近いフレーム同士で相関をとることで、有声検出が行なわれる。調波構造が時間的に持続するのは主に母音区間である。このため、母音区間では相関値は大きくなり、子音区間では母音区間よりも相関値は小さくなるものと想定される。このように、調波構造に着目しフレーム間でパワースペクトル成分の相関値をとることによって、非周期的な雑音区間においては、相関値が小さくなるものと考えられる。このため、有声区間がより際立って識別可能となる。
【0064】
また、一般的な発話スピードにおいて母音区間の持続時間は50〜150msec(5〜15フレーム)と言われており、その持続時間内であれば、フレーム間の相関係数の値は隣接するフレームでなくとも高くなるものと想定できる。この仮定が正しければ、やはり非周期的な雑音の影響を受けにくい評価関数であるということがいえる。相関値E1(j)を算出する際に、数フレームにわたる相関関数の値の和を用いているのは、突発的に生じる雑音の影響を除去するためと、母音であれば、上記のように50〜150msecの持続時間があるという知見によるものである。従って、図5(c)に示されるように、50フレームの近傍で発声する突発音に対しては反応せずに、相関値は小さいままである。
【0065】
次に、差分処理部204は、特徴量フレーム間相関値算出部203で算出された相関値の一定時間にわたる平均値を求め、各フレームにおける相関値から当該平均値を減算し、平均差分による補正相関値を求める(S8)。なぜならば、相関値から平均値を引くことにより、長時間にわたり生じている周期性の雑音の影響を取り除くことができると考えられるためである。ここでは、5秒程度の相関値の平均値を求めており、図5(c)では、平均値を実線502で示している。すなわち、実線502よりも上の部分に相関値が存在する区間が上記平均差分による補正相関値が正の区間である。
【0066】
次に、音声区間決定部205は、主に有音区間を検出する相関値E1(j)の差分処理部204で算出された平均差分による補正相関値に基づいて、後述する、相関値による選別、区間の持続長、子音区間や促音区間を加味した区間の連結、の3つの区間補正方法に従い音声区間を決定する(S10)。
【0067】
ここで、音声区間決定部205による音声区間決定処理(図2のS10)についてより詳細に説明する。図6は、一発声単位で音声区間決定する処理の詳細を示すフローチャートである。
【0068】
まず、第一の区間の補正方法である相関値による区間の判定について述べる。音声区間決定部205は、着目しているフレームについて、差分処理部204で求められた補正相関値が所定のしきい値よりも大きいか否かを調べる(S44)。たとえば、所定のしきい値を0とした場合には、図5(c)に示される相関値が相関値の平均値(実線502)よりも大きいか否かを調べることと等価である。
【0069】
補正相関値が所定のしきい値よりも大きい場合には(S44でYES)、当該着目フレームは音声フレームであると判断し(S46)、補正相関値が所定のしきい値以下の場合には(S44でNO)、当該着目フレームは非音声フレームであると判断する(S48)。以上の音声判断処理(S44〜S48)を音声区間検出対象となっているすべてのフレームについて繰返す(S42〜S50)。以上の処理により、図5(d)に示されるようなグラフが得られ、音声フレームが連続する区間が有声区間として検出される。
【0070】
このように、補正相関値の値がしきい値以下である場合には、そのフレームを非音声フレームであると判断する。ただし、騒音のレベルの影響や、音響特徴量のさまざまな条件に応じて、検出区間において期待される補正相関値が異なる。このため、音声フレームと非音声(雑音)フレームとを区別するためのしきい値は、事前の実験を通じて適宜定め用いることも可能である。この処理により調波構造性を有する信号の選別基準を厳しくすることにより、平均差分を求めた時間長より短い、例えば500ms程度の周期雑音を非音声フレームとすることが期待できる。
【0071】
次に、第二の区間の補正方法である隣接有声区間の連結法について述べる。音声区間決定部205は、着目している有声区間と、当該有声区間に隣接する有声区間との間の距離が所定フレーム数未満であるかを調べる(S54)。たとえば、ここでは所定フレーム数を30フレームとする。当該距離が30フレーム未満の場合には(S54でYES)、隣接する2つの有声区間を連結する(S56)。以上の処理(S54〜S56)をすべての有声区間について行なう(S52〜S58)。以上の有声区間連結処理により、図5(e)に示されるようなグラフが得られ、近接する有声区間が連結されていることが分かる。
【0072】
有声区間の連結をするのは、以下のような理由による。すなわち、子音区間、特に破裂音(/k/,/c/,/t/,/p/)や摩擦音などの無声子音の区間においては、調波構造が表れにくいため、相関値が小さく、有声区間として検出されにくい。しかし、子音の近傍には母音が存在するため、母音が連続する区間は有声区間とみなされるという理由による。これにより、子音部分も有声区間とすることが可能になる。
【0073】
最後に、第三の区間の補正方法である区間持続時間について述べる。音声区間決定部205は、着目している有声区間について、その持続時間が所定時間よりも長いか否かを調べる(S62)。たとえば、所定時間は、50msecであるとする。持続時間が50msecよりも長い場合には(S62でYES)、当該有声区間を音声区間と決定し(S64)、持続時間が50msec以下の場合には(S62でNO)、当該有声区間を非音声区間と決定する(S66)。以上の処理(S62〜S66)をすべての有声区間について行なうことにより音声区間が決定される(S60〜S68)。以上説明した処理により、図5(f)に示すようなグラフが得られ、110〜280フレームあたりに音声区間が検出される。また、図5(e)のグラフに存在していた325フレームあたりに存在していた周期性ノイズに対する有声区間は、非音声区間と決定されていることが分かる。このように、有声区間の持続時間により有声区間を選別する処理では、相関値が高い短時間の周期的雑音を取り除くことができる。
【0074】
以上説明したように本実施の形態によれば、調波構造を有するスペクトル成分のフレーム間での持続性を評価することにより、有声区間を決定している。このため、ローカルピークをトラッキングする従来の方法に比べ、精度よく音声区間を決定することができる。
【0075】
特に、調波構造の持続性をフレーム間のスペクトル成分の相関値により評価している。このため、フレーム間での振幅差分を取り調波構造の持続性を評価する従来方法に比べ、調波構造の有する情報を残した評価が可能である。よって、短いフレームにわたる突発雑音が生じたような場合であっても、突発雑音を有声区間として検出することがない。
【0076】
また、時間的に隣接する有声区間を連結することにより音声区間と決定している。このため、母音に比べ調波構造が小さい子音をも音声区間と決定することが可能である。また、有声区間の持続時間を評価することにより、周期性を有する雑音を除去することが可能になる。
【0077】
(実施の形態2)
以下、図面を参照しながら本発明の実施の形態2に係る音声区間検出装置について説明する。本実施の形態に係る音声区間検出装置では、入力信号のSNRがよい場合には、フレーム間でのスペクトル成分の相関性のみから音声区間を決定する点が実施の形態1に係る音声区間検出装置とは異なる。
【0078】
図7は、本実施の形態に係る音声区間検出装置30のハードウェア構成を示すブロック図である。実施の形態1に係る音声区間検出装置20と同一の構成要素については、同一の参照番号を付す。その名称および機能も同一であるため、適宜説明を省略する。なお、以下の実施の形態においても同様に適宜説明を省略する。
【0079】
音声区間検出装置30は、入力信号の中から人間が発声している区間である音声区間を決定する装置であり、FFT部200と、調波構造抽出部201と、有声評価部210と、SNR推定部206と、音声区間決定部205とを備える。
【0080】
有声評価部210は、有声区間を抽出する装置であり、特徴量保存部202と、特徴量フレーム間相関値算出部203と、差分処理部204とを備える。
【0081】
SNR推定部206は、差分処理部204より出力される平均差分による補正相関値に基づいて、入力信号のSNRを推定する。SNR推定部206は、SNRが悪いと推定される場合には、差分処理部204より出力される補正相関値を音声区間決定部205に出力し、SNRがよいと推定される場合には、音声区間決定部205への補正相関値の出力は行なわずに、差分処理部204より出力される補正相関値より音声区間を決定する。これは、入力信号のSNRが良好な場合には、音声区間と非音声区間との相関値の差がはっきりとしているという性質があるためである。
【0082】
次に、SNR推定部206による入力信号のSNRの推定方法について説明する。SNR推定部206は、差分処理部204で求められる相関値の平均値が所定のしきい値未満の場合には、SNRが良好であると推定し、当該平均値が所定のしきい値以上の場合には、SNRが悪いと推定する。これは、以下のような理由に基づく。すなわち、相関値の平均値を、一発声の持続時間よりも十分に長い時間(たとえば、5秒間)にわたって求めると、SNRが良好な環境下においては、雑音区間における相関値が小さくなるため、相関値の平均値が小さくなる。これに対し、周期性の雑音を有するようなSNRが悪い環境下においては、雑音区間における相関値が大きくなるため、相関値の平均値が大きくなる。このように、相関値の平均値とSNRとが連動しているという性質を用いることにより、既に計算済みの一つのパラメータを評価するだけで簡単にSNRを推定することが可能である。
【0083】
以上のように構成された音声区間検出装置30の動作について以下に説明する。図8は、音声区間検出装置30が実行する処理のフローチャートである。
【0084】
FFT部200によるFFT処理(S2)から差分処理部204による補正相関値算出処理(S8)までは、図2に示した実施の形態1における音声区間検出装置20の動作と同様である。そのため、その詳細な説明はここでは繰返さない。
【0085】
次に、SNR推定部206は、上記方法に従い、入力信号のSNRを推定する(S12)。SNRが良好であると推定される場合には(S14でYES)、所定のしきい値を超える補正相関値を音声区間として決定する(S16)。SNRが悪いと推定される場合には(S14でNO)、図2および図6を参照して説明した実施の形態1に係る音声区間決定部205による音声区間決定処理(図2のS10)と同様の処理を実行し、音声区間を決定する(S10)。
【0086】
以上説明したように、本実施の形態によると、実施の形態1に記載の効果に加え、入力信号のSNRが良好な場合には、有声区間の連続性および持続時間による音声区間決定処理を行なう必要がなくなる。このため、リアルタイム性に優れた音声区間の検出が可能になる。
【0087】
(実施の形態3)
以下、図面を参照しながら本発明の実施の形態3に係る音声区間検出装置について説明する。本実施の形態に係る音声区間検出装置では、調波構造性を有する音声区間を決定するのみならず、音声区間の中から特に、音楽と人間の音声とを識別することができる。
【0088】
図9は、本実施の形態に係る音声区間検出装置40のハードウェア構成を示すブロック図である。音声区間検出装置40は、入力信号の中から人間が発声している区間である音声区間と、音楽の区間である音楽区間とを決定する装置であり、FFT部200と、調波構造抽出部401と、音声・音楽区間決定部402とを備える。
【0089】
調波構造抽出部401は、FFT部200で抽出されたパワースペクトル成分に基づいて、調波構造性を示す値を出力する処理部である。音声・音楽区間決定部402は、差分処理部204より出力された調波構造性を示す値に基づいて、音声区間および音楽区間を決定する処理部である。
【0090】
以上のように構成された音声区間検出装置40の動作について以下に説明する。図10は、音声区間検出装置40が実行する処理のフローチャートである。
【0091】
FFT部200は、調波構造を抽出するために使用する音響特徴量として、入力信号にFFTを施すことにより、パワースペクトル成分を求める(S2)。
【0092】
次に、調波構造抽出部401は、FFT部200で抽出されたパワースペクトル成分から、調波構造性を示す値を抽出する(S82)。調波構造抽出処理(S82)については、後に詳述する。
【0093】
調波構造抽出部401は、調波構造性を示す値に基づいて、音声区間および音楽区間を決定する(S84)。音声・音楽区間決定処理(S84)については、後に詳述する。
【0094】
次に、上述した調波構造抽出処理(S82)について、詳細に説明する。調波構造抽出処理(S82)では、パワースペクトル成分を複数の帯域に分割した際に、帯域間の相関を取ることにより、調波構造性を示す値を求める。このような方法により調波構造性を示す値を求めるのは、以下のような理由による。すなわち、調波構造性は、その発生源である声帯振動における信号の影響がよく残されている帯域に見られると仮定すると、隣接帯域との間で、パワースペクトル成分の相関性が高いという推測が成立するからである。すなわち、図11に示すように、横軸に示す各フレームにおいて、縦軸に示すパワースペクトル成分を複数の帯域(この図において、帯域数は8)に区切った場合には、調波構造性を有する帯域間(例えば、帯域608と帯域606との間)においては、相関性が高いが、調波構造性を有しない帯域間(例えば、帯域602と帯域604との間)においては、相関性が低い。
【0095】
図12は、調波構造抽出処理(S82)の詳細を示すフローチャートである。調波構造抽出部401は、各フレームについて、上述のように、各帯域間で帯域間相関値C(i,k)を算出する(S92)。帯域間相関値C(i,k)は次式(6)で表される。
【数6】
【0096】
ここで、P(i,x:y)はフレームiのパワースペクトルにおける周波数成分x:y(x以上、y以下)での、ベクトル列を示す。また、Lは帯域幅を示し、max(Xcorr(・))はベクトル列間の相関係数の最大値を示す。
【0097】
調波構造性を有する帯域では、隣接帯域との相関性が高いため、帯域間相関値C(i,k)が大きな値を示す。逆に、調波構造性を有しない帯域では、隣接帯域との相関性が低いため、帯域間相関値C(i,k)が小さな値を示す。
【0098】
なお、帯域間相関値C(i,j)は次式(7)により求めてもよい。
【数7】
【0099】
なお、式(6)は、帯域608および帯域606間、または帯域604および帯域602間のように、同一フレーム内の隣接する帯域間でのパワースペクトルの相関を示しているのに対し、式(7)は、帯域608および帯域610間のように、隣接するフレーム間であり、かつ隣接する帯域間でのパワースペクトルの相関を示している。式(7)のように、隣接フレーム間でも相関を取ることにより、帯域間の相関とフレーム間の相関とを同時に計算することができる。
【0100】
さらに、帯域間相関値C(i,k)は次式(8)により求めてもよい。
【数8】
式(8)は、隣接フレームの同一帯域間でのパワースペクトルの相関を示している。
【0101】
次に、フレームiにおける調波構造性を示す調波構造性値R(i)および帯域番号N(i)の組[R(i),N(i)]を求める(S94)。[R(i),N(i)]は、次式(9)に従い表される。
【数9】
【0102】
ただし、R1(i),R2(i)は以下のようにあらわされる。
【数10】
【数11】
【0103】
また、N1(i)およびN2(i)は、C(i,k)が最大となる帯域番号および最小となる帯域番号をそれぞれ示す。式(9)に示される調波構造性値は、同一フレーム内での帯域間相関値の最大値から最小値を引くことにより求められる。このため、調波構造性のあるフレームではその値が大きくなり、調波構造性の無いフレームではその値が小さくなる。また、最大値から最小値を引くことにより、帯域間相関値を正規化している効果もある。このため、図2のS8の処理のように、平均相関値との差分処理を行なうことなく、1つのフレームにおいて正規化処理を行なうことができる。
【0104】
次に、調波構造抽出部401は、帯域番号N(i)をその過去Xcフレームにおける分散で重み付けした補正帯域番号Nd(i)を算出する(S96)。また、調波構造抽出部401は、補正帯域番号Nd(i)の過去Xcフレームにおける最大値Ne(i)を求める(S98)。最大値Ne(i)を以下では重み付き帯域番号と称する。
【0105】
補正帯域番号Nd(i)および重み付き帯域番号Ne(i)はXc=5とした場合、以下の式により求められる。
【数12】
【数13】
【0106】
調波構造性のない区間では、帯域番号N(i)の分散が大きくなる。このため、補正帯域番号Nd(i)の値が小さな値(例えば、負の値)になり、これに伴ない、重み付き帯域番号Ne(i)も小さな値になる。
【0107】
さらに、調波構造抽出部401は、調波構造性値R(i)を重み付き帯域番号Ne(i)で補正し、補正調波構造性値R’(i)を算出する(S100)。補正調波構造性値R’(i)は、次式(14)に従い求められる。なお、ここで用いる調波構造性値R(i)は、S8で算出した値を用いてもよい。
【数14】
【0108】
図13〜図15は、上述の調波構造抽出処理(S82)の実験結果を示す図である。
【0109】
図13は、掃除機のノイズがある環境下(SNR=10dB)で人間が音声を発声している場合の実験結果を示す図である。40フレーム近傍には、掃除機を動かした際の「カタッ」という突発音が発生しており、およそ280フレーム前後で、掃除機のモーターの回転速度を弱から強に変更したために、掃除機の音のレベルが大きくなり、周期性ノイズが発せられているものとする。また、人間は80フレームあたりから280フレームあたりまでの間に音声を発声しているものとする。
【0110】
図13(a)は入力信号のパワースペクトルを示しており、図13(b)は調波構造性値R(i)を示しており、図13(c)は帯域番号N(i)を示しており、図13(d)は重み付き帯域番号Ne(i)を示しており、図13(e)は補正調波構造性値R’(i)を示している。なお、図13(c)に示す帯域番号は、図を見やすくするために実際の帯域番号に−1を掛けているため、0に近いほど周波数が小さい。
【0111】
図13(c)に示すように、突発音や周期性ノイズが発生している部分(図中破線で囲った部分)では、帯域番号N(i)の変動が大きくなっている。このため、図13(d)に示すように、その部分の重み付き帯域番号Ne(i)は小さな値を示し、それに伴ない、図13(e)に示すように、補正調波構造性値も小さくなっている。
【0112】
図14は、掃除機のノイズがほとんどない環境下(SNR=40dB)で、図13と同じ音声を発生した場合の実験結果を示す図である。このような環境下においても図13と同様に、調波構造性のない部分の補正調波構造性値R’(i)は小さくなっている(図14(e))。
【0113】
図15は、ボーカルの無い音楽に対する実験結果を示す図である。音楽では和音が出力されるため調波構造性を有するが、ドラムによりビートを刻む区間などでは調波構造性を有しない。図15(a)は入力信号のパワースペクトルを示しており、図15(b)は調波構造性値R(i)を示しており、図15(c)は帯域番号N(i)を示しており、図15(d)は重み付き帯域番号Ne(i)を示しており、図15(e)は補正調波構造性値を示している。なお、図15(c)に示す帯域番号は、図13(c)と同じ理由により、0に近いほど周波数が小さい。図15(c)の破線で囲っている部分では、ドラムによりビートが刻まれることにより、調波構造性が失われている。尾のため、その部分では、図15(d)に示すように重み付き帯域番号Ne(i)が小さくなっている。したがって、図15(e)に示すように重み付き調波構造性値R’(i)も小さくなっている。また、無声区間においても同様に調波構造性値R’(i)が小さくなっている。
【0114】
なお、S94の処理において、フレームiにおける調波構造性を示す調波構造性値R(i)および帯域番号N(i)の組[R(i),N(i)]を次式(15)に従い求めてもよい。
【数15】
【0115】
ただし、R1(i),R2(i)は以下のようにあらわされる。
【数16】
【数17】
【0116】
また、N1(i)およびN2(i)は、C(i,k)が最大となる帯域番号および最小となる帯域番号をそれぞれ示す。
【0117】
なお、R1(i)またはR2(i)を調波構造性値R(i)としてもよい。
図16は、式(15)に従い重み付き調波構造性値R’(i)を求めた実験結果である。図16は、掃除機のノイズがかなりある環境下(SNR=0dB)で人間が音声を発生している場合の実験結果を示す図である。なお、人間が音声を発生するタイミング、掃除機の突発音および周期性ノイズの発生タイミングは、図13に示したものと同じである。ここでは、式(15)において、L=16、NSP=2としたときの値を示している。
【0118】
この場合においても、人間が発声しているフレームの重み付き調波構造性値R’(i)は大きい値を示し、突発音および周期性ノイズが発生しているフレームにおいては、重み付き調波構造性値R’(i)は小さい値を示している。
【0119】
次に、音声・音楽区間決定処理(図10のS84)について詳細に説明する。図17は、音声・音楽区間決定処理(図10のS84)の詳細なフローチャートである。
【0120】
音声・音楽区間決定部402は、フレームiについて、パワースペクトルP(i)が所定の閾値Pminよりも大きいか否かを調べる(S112)。所定の閾値Pmin以下の場合には(S112でNO)、そのフレームは無音のフレームであると判断する(S126)。パワースペクトルP(i)が所定の閾値Pminよりも大きい場合には(S112でYES)、補正調波構造性値R’(i)が所定の閾値Rminよりも大きいか否かを判断する(S114)。
【0121】
補正調波構造性値R’(i)が所定の閾値Rmin以下の場合には(S114でNO)、フレームiが調波構造性の無い音のフレームであると判断する(S124)。補正調波構造性値R’(i)が所定の閾値Rminよりも大きい場合には(S114でYES)、音声・音楽区間決定部402は、重み付き帯域番号Ne(i)の単位時間平均値ave_Ne(i)を算出し(S116)、当該単位時間平均値ave_Ne(i)が所定の閾値Ne_minよりも大きいか否かを調べる(S118)。ここでave_Ne(i)は以下の式に従い求められる。すなわち、フレームiを含むdフレーム(ここでは50フレームとした)におけるNe(i)の平均値を示している。
【数18】
【0122】
ave_Ne(i)が所定の閾値Ne_minよりも大きい場合には(S118でYES)、音楽と判断し(S120)、それ以外の場合には(S118でNO)、人間の音声のような調波構造性を有する音であると判断する(S122)。以上の処理(S112〜S126)をすべてのフレームについて繰り返す(S110〜S128)。
【0123】
なお、以上のようにave_Ne(i)の大きさにより調波構造性を有する音の中から音楽と音声とを分離したのは以下のような考え方に基づく。すなわち、音楽も音声も信号そのものには調波構造性を有する音であるが、音声は、有声音と無声音とが繰り返し出現される音であることより、調波構造性値が有声音の部分では大きく、無声音の部分では小さくなり、それらが短い周期で交互に繰り返される。一方、音楽は、和音が連続的に出力されるため調波構造性を有する期間が比較的長い時間連続し、調波構造性値が大きい状態が一定する。したがって、調波構造性値が音楽ではあまり変動しないものの、音声では変動することを示している。換言すれば、重み付き帯域番号Ne(i)の単位時間平均値ave_Ne(i)は、音楽の方が音声よりも大きくなる。
【0124】
なお、調波構造性値の時間的連続性に着目して音声と音楽とを判別するようにしてもよい。すなわち、単位時間内に調波構造性値が小さくなるフレーム数がどの程度あるかを調べるようにしてもよい。そのため、例えば、重み付き帯域番号Ne(i)が単位時間あたり負になる個数を数えるようにしてもよい。単位時間(例えば、着目しているフレームiを含む過去50フレーム)のうち、重み付き帯域番号Ne(i)が負になるフレーム数をNe_count(i)とした場合に、S116でave_Ne(i)の代わりにNe_count(i)を算出し、S118でフレーム数Ne_count(i)が所定の閾値よりも大きい場合に音声とし、小さい場合に音楽とするようにしてもよい。
【0125】
以上説明したように、本実施の形態では、各フレームにおけるパワースペクトル成分を複数の帯域に区切り、帯域間で相関を取っている。このため、声帯振動における信号の影響が良く残されている帯域を抽出することができ、調波構造を確実に抽出することができる。
【0126】
また、調波構造の変動や、調波構造の連続性に基づいて調波構造を有する音が音楽であるのか音声であるのかを判定することができる。
【0127】
(実施の形態4)
次に、図面を参照しながら本発明の実施の形態4に係る音声区間検出装置について説明する。本実施の形態にかかる音声区間検出装置では、調波構造性値の分散に基づいて調波構造を有する音声区間を決定する。
【0128】
図18は、本実施の形態に係る音声区間検出装置50のハードウェア構成を示すブロック図である。音声区間検出装置50は、入力信号の中から調波構造性を有する音声区間を検出する装置であり、FFT部200と、調波構造抽出部501と、SNR推定部206と、音声区間決定部502とを備える。
【0129】
調波構造抽出部501は、FFT部200より出力されたパワースペクトル成分に基づいて、調波構造性を示す値を出力する処理部である。音声区間決定部502は、調波構造性を示す値および推定されたSNRに基づいて、音性区間を決定する処理部である。
【0130】
以上のように構成された音声区間検出装置50の動作について以下に説明する。図19は、音声区間検出装置50が実行する処理のフローチャートである。FFT部200は、調波構造を抽出するために使用する音響特徴量として、入力信号にFFTを施すことにより、パワースペクトル成分を求める(S2)。
【0131】
次に、調波構造抽出部501は、FFT部200で抽出されたパワースペクトル成分から、調波構造性を示す値を抽出する(S140)。調波構造処理(S140)については、後述する。
【0132】
SNR推定部206は、調波構造性を示す値に基づいて、入力信号のSNRを推定する(S12)。SNRの推定方法は、実施の形態2と同様である。このため、その詳細な説明はここでは繰り返さない。
【0133】
音声区間決定部502は、調波構造性を示す値および推定されたSNRに基づいて音声区間を決定する(S142)。音声区間決定処理(S142)については、後に詳述する。
【0134】
本実施の形態では、有声音と無声音との間の遷移区間に対して評価を加えることにより、音声区間決定の制度を向上させる。図6に示した音声区間決定方法では、(1)音声区間間の距離が所定フレーム未満であれば、音声区間を連結し(S52)、(2)連結後の音声区間の持続時間が所定時間以下であればその区間を非音声区間としていた(S60)。すなわち、無声音に対しては、(1)の処理において、S42において有声音と判断された音声の区間の間のフレームに対してなんら評価を行うことなく、(2)の処理により連結されることを暗に期待する方法である。
【0135】
音声区間を詳細にみると、有声音、無声音および騒音(非音声区間)の遷移関係から次の3つのグループ(Aグループ、BグループおよびCグループ)に分類できるものと考えられる。
【0136】
Aグループは有声音のグループであり、有声音から有声音への遷移、騒音から有声音への遷移、有声音から騒音への遷移が考えられる。
【0137】
Bグループは、有声音と無声音が混在する音のグループであり、有声音から無声音への遷移と、無声音から有声音への遷移が考えられる。
【0138】
Cグループは非有声音のグループであり、無声音から無声音への遷移、無声音から騒音への遷移、騒音から無声音への遷移、騒音から騒音への遷移が考えられる。
【0139】
Aグループに含まれる音については、調波構造性を示す値の精度に依存して有音区間のみが決定されるものである。これに対して、Bグループに含まれる音については、有声区間の周辺での音の遷移を評価することができれば、無声音区間をも抽出することが期待できるものと考えられる。Cグループに含まれる音については、無声音区間だけを騒音下で抽出することは非常に難しいと考えられる。これは、騒音の性質が簡単には規定できないため、または、無声音の騒音に対するSNRが悪い場合が多いためである。
【0140】
したがって、本実施の形態では、Aグループのみを抽出して音声区間を決定していた図6の方法に加えて、有声音と無声音との間の遷移を評価することにより、Bグループの音の抽出を行なう。このことにより、音声区間の決定精度を向上させることができるものと考える。また、無声音から有声音への遷移区間および有声音から無声音への遷移区間において、調波構造性を示す値は大から小および小から大へとそれぞれ大きく変化していると仮定できる。このため、調波構造性を示す値を用いて有音区間と判断された区間周辺について、調波構造性を示す値の分散に基づく尺度を用いることより、この調波構造性の値の変化を捉えることができる。ここで、調波構造性を示す値の分散を重み付き分散Veと呼ぶ。
【0141】
次に、調波構造抽出処理(図19のS140)について、詳細に説明する。図20は、調波構造抽出処理(S140)の詳細を示すフローチャートである。
【0142】
調波構造抽出部501は、各フレームについて、帯域間相関値C(i,k)を算出する(S150)。帯域間相関値C(i,k)の算出は、図12のS92と同様である。このため、その詳細な説明はここでは繰り返さない。
【0143】
次に、調波構造抽出部501は、帯域間相関値C(i,k)を用いて重み付き分散Ve(i)を次式に従い算出する(S152)。
【数19】
ここで、Xc:フレーム幅(=16)
L:帯域数(=16)
th_var_change:閾値
である。
【0144】
また、関数var()は括弧内の値の分散を示す関数であり、関数count()は、カッコ内の条件を満たす個数をカウントする関数であるものとする。
【0145】
最後に、調波構造抽出部501は、調波構造性値R(i)を算出する(S154)。この算出方法は、図12のS94と同様である。このため、その詳細な説明はここでは繰り返さない。
【0146】
次に、図21を参照して、音声区間決定処理(図19のS142)について説明する。音声区間決定部502は、フレームiについてR(i)が閾値Th_Rより大きくかつVe(i)が閾値Th_Veより大きいか否かを判断する(S182)。上述の条件を満たす場合には(S182でYES)、音声区間決定部502は、フレームiを音声フレームであると判断し、満たさない場合には(S182でNO)、非音声フレームであると判断する(S186)。音声区間決定部502は、以上の処理をすべてのフレームについて行なう(S180〜S188)。次に、音声区間決定部502は、SNR推定部206で推定されたSNRが悪いか否かを判断し(S190)、推定SNRが悪い場合には、ループBおよびループCの処理を実行する(S52〜S68)。ループBおよびループCの処理は図6に示したものと同様である。このため、その詳細な説明はここでは繰り返さない。
【0147】
なお、推定SNRがよい場合には(S190でNO)、ループBを省略し、ループCの処理(S60〜S68)のみを実行する。
【0148】
図22および図23は、音声区間検出装置50の実行する処理の結果を示す図である。図22は、掃除機のノイズがある環境下(SNR=10dB)で人間が音声を発声している場合の実験結果を示す図である。40フレーム近傍は、掃除機を動かした際の「カタッ」という突発音が発生しており、およそ280フレーム前後で、掃除機のモーターの回転速度を弱から強に変更したために、掃除機の音のレベルが大きくなり、周期性ノイズが発せられているものとする。また、人間は80フレームあたりから280フレームあたりまでの間に音声を発声しているものとする。
【0149】
図22(a)は入力信号のパワースペクトルを示しており、図22(b)は調波構造性値R(i)を示しており、図22(c)は、重み付き分散Ve(i)を示しており、図22(d)は連結前の音声区間を示しており、図22(e)は連結後の音声区間を示している。
【0150】
図22(d)において、実線は、調波構造性値R(i)を閾値処理(図6のループA(S42〜S50))することにより得られる音声区間を示しており、破線は、調波構造性値R(i)および重み付き分散Ve(i)を閾値処理(図21のループA(S180〜S188))することにより得られる音声区間を示している。また、図22(e)において、破線は区間連結処理(図21のS190〜S68)に従い、図22(d)の破線で示した音声区間を連結した後の処理結果を示しており、実線は区間連結処理(図6のS52〜S68)に従い、図22(d)の実線で示した音声区間を連結した後の処理結果を示している。図22(e)に示されるように、重み付き分散Ve(i)を用いることにより、正確に音声区間を抽出することができている。
【0151】
図23は、掃除機のノイズがほとんどない環境下(SNR=40dB)で、図22と同じ音声を発生した場合の実験結果を示す図である。図23(a)〜図23(e)のグラフの意味は、図22(a)〜図22(e)のグラフの意味と同様である。図23から、区間連結前の図23(d)と区間連結後の図23(e)とを比較すると、図23(d)の破線で示されるS180の結果は、図23(e)の実線と同様に音声区間が精度良く連結されていることを示している。したがって、推定SNRが非常によい場合には、図21のS190の判定処理により、S52〜S58の処理を行なわずに、音声区間が決定されても音声区間の検出性能を維持することが可能である。
【0152】
以上説明したように、本実施の形態によると、重み付き分散Veを用いて無声音と有声音との遷移区間を評価することにより、上述のBグループに属する音を抽出することができるようになった。このため、推定SNRを用いてSNRがよいと判断された場合には区間連結を行わずとも音声区間が正確に抽出できるようになった。また、SNRが悪く、区間連結が必要な場合であっても、連結時の所定フレーム数(図21のS54)を小さくすることができるため、ノイズ区間を音声区間として誤検出することが少なくなった。
【0153】
なお、以下に示すように調波構造性値R(i)の代わりに補正調波構造性値R’(i)を算出し、重み付き分散Ve(i)と補正調波構造性値R’(i)とから音声区間を検出するようにしてもよい。図24は、調波構造抽出処理(図19のS140)の他の一例を示すフローチャートである。
【0154】
調波構造抽出部501は、帯域間相関値C(i,k)、重み付き分散Ve(i)および調波構造性値R(i)を算出する(S160〜S164)。これらの算出方法は、図20と同様であるため、その詳細な説明はここでは繰り返さない。次に、調波構造抽出部501は、重み付き調波構造性値Re(i)を算出する(S166)。重み付き調波構造性値Re(i)は、次式に従い算出される。これらの式とS96/S98において算出される式との違いは、S94において算出されるフレームiにおける調波構造性値R(i)を用いるかその帯域番号N(i)を用いるかの違いにある。これらの式は、ともに、重み付き分散により補正されることにより、調波構造性を強調する指標となる。
【数20】
【数21】
【0155】
ここで、関数median()は、括弧内の中央値を示す。
【0156】
調波構造抽出部501は、補正調波構造性値R’(i)を算出する(S168)。補正調波構造性値R’(i)は以下の式に従い算出される。
【数22】
【数23】
【0157】
図25および図26は、図24に示したフローチャートに従い処理された処理結果を示す図である。図25は、掃除機のノイズが無い環境下(SNR=40dB)で人間が音声を発声している場合の実験結果を示しており、図26は、掃除機のノイズがある状況下(SNR=10dB)で人間が音声を発声している場合の実験結果を示している。この実験では、図23と同じ音声を発生するものとし、突発音と周期性ノイズの発生タイミングも同じであるものとする。
【0158】
図25(a)は入力信号を示し、図25(b)は入力信号のパワースペクトルを示しており、図25(c)は調波構造性値R(i)を示しており、図25(d)は重み付き調波構造性値Re(i)を示しており、図25(e)は補正調波構造性値R’(i)を示している。図26(a)〜図26(e)も図25(a)〜図25(e)とそれぞれ同様のグラフを示している。
【0159】
補正調波構造性値R’(i)は、調波構造性値R(i)自身の分散に基づいて算出されている。このため、調波構造性を有する部分には当該分散が大きく、調波構造性を有しない部分では当該分散が小さいという性質を利用して、調波構造性を有する部分を適切に抽出することができる。
【0160】
(実施の形態5)
上述した実施の形態1〜4に記載の音声区間決定装置では、入力信号が予めファイル等に記録されている音声に対して区間決定を行なうものである。このような処理方法は、例えば、録音済みのデータに対して処理を行なう際には、有効であるが、音声を入力しながら区間決定を行なうには不向きである。そこで、本実施の形態においては、音声の入力に同期しながら音声区間をリアルタイムで決定する音声区間決定装置について説明する。
【0161】
図27は、本発明の実施の形態に係る音声区間検出装置60の構成を示すブロック図である。音声区間検出装置60は、入力信号から調波構造性を有する音声区間(調波構造性区間)を検出する装置であり、FFT部200と、調波構造抽出部601と、調波構造性区間確定部602と、制御部603とを備えている。
【0162】
図28は、音声区間検出装置60の実行する処理のフローチャートである。制御部603は、FR、FRS、FRE、RH、RM、CH、CMおよびCNを0にセットする(S200)。ここで、FRは、後述する調波構造性値R(i)を未算出のフレームの先頭フレーム番号を示す。また、FRSは、調波構造性区間か否かが未確定の区間の先頭フレーム番号を示す。FREは、後述する調波構造性フレーム仮判定処理を行なった最終フレームのフレーム番号を示す。RHおよびRMは調波構造性値の累積値を示す。CH、CMおよびCNはカウンタである。
【0163】
FFT部200は、入力フレームをFFT変換する。調波構造抽出部601は、FFT部200で抽出されたパワースペクトル成分に基づいて、調波構造性値R(i)を抽出する。以上の処理を開始フレームFRから現在時刻のフレームFRNまで行なう(S202〜S210、ループA)。ループ処理が1回実行されるごとに、カウンタiが1つずつインクリメントされ、開始フレームFRにカウンタiの値が代入される(S210)。
【0164】
次に、調波構造性区間確定部602は、ここまでで求められた調波構造性値R(i)に基づいて、調波構造性を有する区間を仮判定する調波構造性フレーム仮判定処理を実行する(S212)。調波構造性フレーム仮判定処理については後述する。
【0165】
調波構造性区間確定部602は、S212の処理の後、隣接する調波構造性区間が見つかったか否か、すなわち非調波構造性区間長CNが0より大きいか否かを調べる(S214)。非調波構造性区間長CNは、図29(a)に図示するように、調波構造性区間の最終フレームと次の調波構造性区間の開始フレームとの間のフレーム長を示す。
【0166】
隣接する調波構造性区間が見つかった場合には、非調波構造性区間長CNが所定の閾値よりも小さいか否かを調べる(S216)。非調波構造性区間長CNが所定の閾値THよりも小さければ(S216でYES)、調波構造性区間確定部602は、図29(b)に示すように調波構造性区間を連結し、フレームFRS2からフレーム(FRS2+CN)までを調波構造性区間であると仮判定する(S218)。ここで、FRS2とは、非調波構造性区間であると仮判定された最初のフレーム番号を示す。
【0167】
非調波構造性区間長CNが所定の閾値TH以上の場合には(S216でNO)、図29(c)に示されるように調波構造性区間は連結されることなく、調波構造性区間確定部602が、後述する調波構造性区間確定処理を実行する(S220)。その後、制御部603は、FSRにFREを代入し、RH、Rm、CH、CMおよびCNに0を代入する(S222)。調波構造性区間確定処理(S220)については後述する。
【0168】
隣接する調波構造性区間が見つからなかった場合(S214でNO、図29(d))、S218の処理の後、またはS222の処理の後、制御部603は、音声信号の入力が終了したか否かを判断する(S224)。音声信号の入力が終了していなければ(S224でNO)、S202以降の処理が繰り返される。音声信号の入力が終了していれば(S224でYES)、調波構造性区間確定部602は、調波構造性区間確定処理(S226)を実行し、処理を終了する。調波構造性区間確定処理(S226)については、後述する。
【0169】
次に、調波構造性フレーム仮判定処理(図28のS212)について説明する。図30は、調波構造性フレーム仮判定処理の詳細なフローチャートである。調波構造性区間確定部602は、調波構造性値R(i)が予め定められた調波構造性閾値1よりも大きいか否かを判断し(S232)、大きい場合には(S232でYES)、着目しているフレームiを調波構造性を有するフレームであると仮判断する。そして、累積調波構造性値RHに調波構造性値R(i)を加算し、カウンタCHを1つインクリメントする(S234)。
【0170】
次に、調波構造性区間確定部602は、調波構造性値R(i)が調波構造性閾値2よりも大きいか否かを判断し(S236)、大きい場合には(S236でYES)、着目しているフレームiを調波構造性を有する音楽のフレームであると仮判断する。そして、累積音楽調波構造性値RMに調波構造性値R(i)を加算し、カウンタCMを1つインクリメントする(S236)。以上の処理をフレームFREからフレームFRNまで繰り返す(S230〜S238)。
【0171】
次に、調波構造性区間確定部602は、フレームFRS2をフレームFRSとした後に、着目しているフレームiの調波構造性値R(i)が調波構造性閾値1よりも大きいか否かを判断し(S242)、大きい場合にはフレームFRS2をフレームiとする(S244)。以上の処理をフレームFRSからフレームFRNまで繰り返す(S240〜S246)。
【0172】
次に、調波構造性区間確定部602は、カウンタCNを0にセットした後に、着目しているフレームiの調波構造性値R(i)が調波構造性閾値1以下であるか否かを判断し(S250)、調波構造性閾値1以下である場合には(S250でYES)、フレームiを非調波構造性区間であると仮判断し、カウンタCNを1つインクリメントする(S252)。以上の処理をフレームFRS2からフレームFRNまで繰り返す(S248〜S254)。以上の処理により、調波構造性を有する区間、音楽の調波構造性を有する区間および非調波構造性区間が仮判断される。
【0173】
次に、調波構造性区間確定処理(図28のS220、S226)について詳細に説明する。図31は、調波構造性区間確定処理(図28のS220、S226)の詳細なフローチャートである。
【0174】
調波構造性区間確定部602は、調波構造性を有するフレーム数を示したカウンタCHの値が調波構造性フレーム長閾値1より大きく、かつ累積調波構造性値RHが(FRS−FRE)×調波構造性閾値3よりも大きいか否かを判断する(S260)。上記条件を満たす場合には(S260でYES)、フレームFRSからフレームFREまでを調波構造性フレームであると判断する(S262)。
【0175】
調波構造性区間確定部602は、音楽調波構造性を有するフレーム数を示したカウンタCMの値が調波構造性フレーム長閾値2より大きく、かつ累積音楽調波構造性値RMが(FRS−FRE)×調波構造性閾値4よりも大きいか否かを判断する(S264)。上記条件を満たす場合には(S264でYES)、フレームFRSからフレームFREまでを音楽調波構造性フレームであると判断する(S266)。
【0176】
S260の条件を満たさない場合(S260でNO)、またはS264でNOの場合、音楽調波構造は有しないが、調波構造を有するフレームであると判断できる。このため、フレームFRSからフレームFREまでを非調波構造性フレームと判断し、カウンタCHに0を代入し、カウンタCNにCN+FRE−FRSを代入する(S268)。
【0177】
フレームワイズに調波性判断を行なう場合には調波構造性仮判定の判断を用い、より正確に調波性判断を行なう場合には調波構造性区間決定の結果を用いることにより、場合によりこれらを切り替えて使用するなどの自由度の高い選択が可能である。
【0178】
上述したような処理を行なうことにより、調波構造性フレームと、音楽調波構造性フレームと、非調波構造性フレームと確定を行なうことができる。
【0179】
以上説明したように、本実施の形態によると、入力される音声信号に対し、リアルタイムに調波構造性を有するか否かの判断を行なうことができる。このため、携帯電話などにおいて、所定フレーム遅れで非調波性のノイズを除去したりすることができる。また、音声と音楽とを見分けることができるため、携帯電話などを用いた通信において、音声部分と音楽部分とを異なる方法により符号化して通信を行なったりすることができる。
【0180】
上述の実施の形態によると、環境雑音下で発声を行なった場合であっても、入力信号のレベル変動に依存せず、精度よく音声区間を決定することができる。また、突発雑音や周期性雑音の影響を取り除き、精度良く音声区間を検出することができる。さらに、リアルタイムで音声区間を検出することができる。さらにまた、調波構造が小さい子音部分をも音声区間として精度良く検出することができる。また、入力信号を周波数変換したスペクトル成分にローカットフィルタをかけることにより、スペクトル包絡成分を除去することができる。
【0181】
以上、本発明に係る音声区間検出装置について実施の形態1〜5に基づいて説明したが、本発明はこれらの実施の形態に限定されるものではない。
【0182】
(FFT部200の変形例)
たとえば、上述の実施の形態では、音響特徴量としてFFTパワースペクトル成分を用いる方法について述べたが、FFTスペクトル成分そのものや、フレーム単位での自己相関関数や、時間軸上での線形予測残差のFFTパワースペクトル成分を用いてもよい。また、FFTスペクトルからFFTパワースペクトルを求める前に、各スペクトル成分を二乗するなどの方法により、極大値および極小値の差を拡大させ、調波構造を強調させてもよい。さらに、FFTスペクトルの対数を取り、FFTパワースペクトルを求める代わりに、FFTスペクトルの平方根を求め、FFTパワースペクトルとしてもよい。さらにまた、FFTスペクトル成分を求める前に、時間軸データに対して、フレームごとにハミング窓などの係数をかけてもよいし、プリエンファシス処理(1−z−1)を行なうことで、高域強調を行ってもよい。また、音響特徴量として線スペクトル周波数(LSF)を用いてもよい。また、周波数変換演算として、FFTに限られるものではなく、DFT(Discrete Fourier Transform)、DCT(Discrete Cosine Transform)、DST(Discrete Sine Transform)を用いても良い。
【0183】
(調波構造抽出部201の変形例)
また、調波構造抽出部201によるスペクトル成分S(f)に含まれるフロア成分の除去処理(図3のS26)の代わりに、スペクトル成分S(f)にローカットフィルタを通過させるようにしてもよい。各フレームのスペクトル成分S(f)を周波数軸方向に並べた波形とみなすと、スペクトル包絡成分は、調波構造に比べゆっくりした変動である。このため、スペクトル成分にローカットフィルタをかけることにより、スペクトル包絡成分を除去することができる。この手法は時間軸上でローカットフィルタを用いて低周波数成分を取り除くことに相当するが、帯域パワーやスペクトル包絡などの情報と調音構造とを同時に評価することができる点において、周波数軸上で処理する方法の方が好ましいといえる。ただし、このようなローカットフィルタを用いて算出されたスペクトル成分は、調音構造に起因する変動の他に、非周期雑音や電子音などの単一周波数を有する音声以外の音を含んでいる可能性がある。しかし、これらの音は、有声評価部210や音声区間決定部205の処理により除去される。
【0184】
その他のフロア成分除去の方法としては、各スペクトル成分のうち、所定の基準値以下のスペクトル成分は利用しないようにする方法がある。基準値の算出方法としては、全フレームのスペクトル成分の平均値を基準値に用いる方法、一発声の持続時間よりも十分に長い時間(たとえば、5秒間)におけるスペクトル成分の平均値を基準値に用いる方法、スペクトル成分をいくつかの帯域に予め分割しておき、帯域ごとにスペクトル成分の平均値を求める基準値とする方法などがある。特に、静かな環境からうるさい環境へ変化するなどの環境の変動がある場合には、基準値として、全フレームのスペクトル成分の平均値を利用するよりも、現在検出しようとしているフレームを含む数秒程度の区間のスペクトル成分の平均値を用いるのがよい。
【0185】
(特徴量フレーム間相関値算出部203の変形例)
また、特徴量フレーム間相関値算出部203は、相関関数として、式(3)の代わりに、次式(24)を用いて相関値E1(j)を求めるようにしてもよい。ここで、式(24)は、P(i−1)およびP(i)を128次元ベクトル空間中のベクトルとした場合の2つのベクトルP(i−1)およびP(i)がなす角の余弦を示している。 また、特徴量フレーム間相関値算出部203は、相関値E1(j)の代わりにフレームjと4フレーム離れたフレーム間相関値を特徴とさせて、次式(25)および(26)に従い相関値E2(j)を求めるようにしてもよいし、8フレーム離れたフレーム間相関値を特徴として、次式(27)および(28)に従い相関値E3(j)を求めるようにしてもよい。このように、離れたフレーム間で相関値を求めることにより、突発的な環境雑音に強い相関値を得ることができるという特徴がある。
【0186】
さらに、次式(29)〜(31)に従い、相関値E1(j)、相関値E2(j)、相関値E3(j)の大小関係に応じた相関値E4(j)を求めるようにしてもよいし、次式(32)に従い相関値E1(j)、相関値E2(j)、相関値E3(j)を加算した相関値E5(j)を求めるようにしてもよいし、次式(33)に従い、相関値E1(j)、相関値E2(j)、相関値E3(j)のうちの最大値を相関値E6(j)を求めるようにしてもよい。
【数24】
【数25】
【数26】
【数27】
【数28】
【数29】
【数30】
【数31】
【数32】
【数33】
【0187】
なお、相関値は、上述のE1(j)〜E6(j)の6つに限定されるわけではなく、これらの相関値を組み合わせて、新たな相関値を算出するようにしてもよい。たとえば、過去に推定された入力音響信号のSNRから、SNRが小さい場合には、相関値E1(j)を使用し、SNRが大きい場合には、相関値E2(j)またはE3(j)を使用するようにしてもよい。
【0188】
(音声区間決定部205の変形例)
図6を用いて説明した音声区間決定部205の処理は、相関値による有声区間決定処理(S42〜S50)、有声区間の連結処理(S52〜S58)、および有声区間の持続時間による音声区間決定処理(S60〜S68)の3つの処理に大きく分類されるが、これら3つの処理を図6に示される順序で実行する必要はなく、他の順序で実行するようにしてもよい。また、3つの処理のうち、1つまたは2つの処理のみを実行するようにしてもよい。また、図6は、一発声単位で処理を行なう例であるが、たとえば注目フレームごとに相関値による有声区間決定処理のみを行なうことで、フレーム単位で音声区間を決定補正してもよい。さらに、リアルタイム性が要求されることを想定して、フレーム単位の相関値による音声区間を速報値として出力しておき、別途、定期的に、一発声等長い単位で補正決定された音声区間を確定値として出力することで、リアルタイム性にも、検出区間性能にも対応可能な、音声検出器として作用させてもよい。
【0189】
(SNR推定部206の変形例)
また、SNR推定部206は、入力信号から直接SNRを推定するようにしてもよい。たとえば、差分処理部204で算出された補正相関値が正の部分をS(シグナル)部分とし、S部分のパワーを求め、補正相関値が負の部分をN(ノイズ)部分とし、N部分のパワーを求め、SNRを求めるようにする。
【0190】
(その他の変形例)
さらに、上述の音声区間検出処理を前処理とし、音声区間のみについて音声認識を行なう音声認識装置に音声区間検出装置を使用してもよい。
【0191】
また、上述の音声区間検出処理を前処理として、音声区間のみについて録音を行なうIC(Integrated Circuit)レコーダなどの音声録音装置に音声区間検出装置を使用しても良い。このように、音声区間のみを録音することにより、ICレコーダの記憶領域を効率的に利用することが可能となる。再生時には、音声区間のみを抽出し、話速変換機能を用いて、効率的な再生も可能となる。
【0192】
また、音声区間以外の区間の入力信号をカットして雑音を抑制する雑音抑制装置に音声認識装置を利用してもよい。
【0193】
さらにまた、VTR(Video Tape Recorder)等で撮影された映像から、音声区間の映像を抽出するのに、上述の音声区間検出処理を用いてもよく、映像を編集するオーサリングツールなどにも適用可能である。
【0194】
また、図4(f)に示されるパワースペクトル成分S’(f)のうち、調波構造が最もよく保たれている帯域を1つ以上抽出し、その帯域のみを用いて処理を行なうようにしてもよい。
【0195】
また、非音声区間を検出することにより、非音声区間内でノイズの特徴を学習し、ノイズ除去のためのフィルタリング係数、ノイズ決定のパラメータ等を決めたりするようにしてもよい。このようにすることにより、ノイズ除去のための装置を作成することができる。
【0196】
また、上述した実施の形態における各種調波構造性値または各種相関値と、各種音声区間決定方法との組み合わせは、上述した実施の形態に限定されない。
【産業上の利用可能性】
【0197】
本発明に係る音声区間検出装置は、音声区間と雑音区間との精度よい選別が可能となるため、音声認識装置の前処理装置、音声区間のみを録音するICレコーダ、音声区間と音楽区間とを異なる符号化方法で符号化する通信装置等に有用である。
【図面の簡単な説明】
【0198】
【図1】図1は、本発明の実施の形態1に係る音声区間検出装置のハードウェア構成を示すブロック図である。
【図2】図2は、実施の形態1に係る音声区間検出装置が実行する処理のフローチャートである。
【図3】図3は、調波構造抽出部による調波構造抽出処理のフローチャートである。
【図4】図4(a)〜図4(f)は、各フレームにおけるスペクトル成分から調波構造のみを残したスペクトル成分を抽出する過程を模式的に示す図である。
【図5】図5(a)〜図5(f)は、本発明による入力信号の変換の遷移を示す図である。
【図6】図6は、音声区間決定処理のフローチャートである。
【図7】図7は、本発明の実施の形態2に係る音声区間検出装置のハードウェア構成を示すブロック図である。
【図8】図8は、実施の形態2に係る音声区間検出装置が実行する処理のフローチャートである。
【図9】図9は、実施の形態3に係る音声区間検出装置のハードウェア構成を示すブロック図である。
【図10】図10は、音声区間検出装置が実行する処理のフローチャートである。
【図11】図11は、調波構造抽出処理を説明するための図である。
【図12】図12は、調波構造抽出処理の詳細を示すフローチャートである。
【図13】図13(a)は、入力信号のパワースペクトルを示す図である。図13(b)は、調波構造性値R(i)を示す図である。図13(c)は帯域番号N(i)を示す図である。図13(d)は重み付き帯域番号Ne(i)を示す図である。図13(e)は補正調波構造性値R’(i)を示す図である。
【図14】図14(a)は、入力信号のパワースペクトルを示す図である。図14(b)は、調波構造性値R(i)を示す図である。図14(c)は帯域番号N(i)を示す図である。図14(d)は重み付き帯域番号Ne(i)を示す図である。図14(e)は補正調波構造性値R’(i)を示す図である。
【図15】図15(a)は、入力信号のパワースペクトルを示す図である。図15(b)は、調波構造性値R(i)を示す図である。図15(c)は帯域番号N(i)を示す図である。図15(d)は重み付き帯域番号Ne(i)を示す図である。図15(e)は補正調波構造性値R’(i)を示す図である。
【図16】図16(a)は、入力信号のパワースペクトルを示す図である。図16(b)は、調波構造性値R(i)を示す図である。図16(c)は帯域番号N(i)を示す図である。図16(d)は重み付き帯域番号Ne(i)を示す図である。図16(e)は補正調波構造性値R’(i)を示す図である。
【図17】図17は、音声・音楽区間決定処理の詳細なフローチャートである。
【図18】図18は、実施の形態4に係る音声区間検出装置のハードウェア構成を示すブロック図である。
【図19】図19は、音声区間検出装置が実行する処理のフローチャートである。
【図20】図20は、調波構造抽出処理の詳細を示すフローチャートである。
【図21】図21は、音声区間決定処理の詳細を示すフローチャートである。
【図22】図22(a)は入力信号のパワースペクトルを示す図である。図22(b)は調波構造性値R(i)を示す図である。図22(c)は、重み付き分散Ve(i)を示す図である。図22(d)は連結前の音声区間を示す図である。図22(e)は連結後の音声区間を示す図である。
【図23】図23(a)は入力信号のパワースペクトルを示す図である。図23(b)は調波構造性値R(i)を示す図である。図23(c)は、重み付き分散Ve(i)を示す図である。図23(d)は連結前の音声区間を示す図である。図23(e)は連結後の音声区間を示す図である。
【図24】図24は、調波構造抽出処理の他の一例を示すフローチャートである。
【図25】図25(a)は入力信号を示す図である。図25(b)は入力信号のパワースペクトルを示す図である。図25(c)は調波構造性値R(i)を示す図である。図25(d)は重み付き調波構造性値Re(i)を示す図である。図25(e)は補正調波構造性値R’(i)を示す図である。
【図26】図26(a)は入力信号を示す図である。図26(b)は入力信号のパワースペクトルを示す図である。図26(c)は調波構造性値R(i)を示す図である。図26(d)は重み付き調波構造性値Re(i)を示す図である。図26(e)は補正調波構造性値R’(i)を示す図である。
【図27】図27は、実施の形態5に係る音声区間検出装置60の構成を示すブロック図である。
【図28】図28は、音声区間検出装置の実行する処理のフローチャートである。
【図29】図29(a)〜図29(d)は、調波構造性区間の連結を説明するための図である。
【図30】図30は、調波構造性フレーム仮判定処理の詳細なフローチャートである。
【図31】図31は、調波構造性区間確定処理の詳細なフローチャートである。
【図32】図32は、従来の音声区間決定装置の概略のハードウェア構成を示す図である。
Claims (10)
- 入力音響信号から音声が含まれる区間を音声区間として検出する調波構造性音響信号区間検出方法であって、
前記入力音響信号に対し、所定の時間で区切られたフレーム単位で音響特徴量を抽出する音響特徴量抽出ステップと、
前記音響特徴量の持続性を評価し、評価結果に従って音声区間を決定する区間決定ステップとを含み、
前記音響特徴量抽出ステップは、
所定の時間で区切られたフレーム単位で前記入力音響信号を周波数変換する周波数変換ステップと、
フレーム単位の周波数変換の結果を所定の周波数帯域幅ごとに分割し、同一フレーム内または隣接フレーム間の所定の周波数帯域間で、前記周波数変換の結果の相関値を算出する相関値算出ステップと、
同一フレーム内または隣接フレーム間における相関値のうち、最大値をとる周波数帯域の識別子と最小値をとる周波数帯域の識別子との差を示す帯域番号を算出する帯域番号算出ステップと、
所定フレームにおける前記帯域番号の分散に基づいて、前記帯域番号を補正した補正帯域番号を算出する補正帯域番号算出ステップと、
所定フレーム内における前記補正帯域番号の最大値である重み付き帯域番号を算出する重み付き帯域番号算出ステップと、
前記相関値算出ステップで算出された相関値に、前記重み付き帯域番号を乗じることにより、調波構造を尺度化した音響特徴量を抽出する調波構造音響特徴量抽出ステップとを含み、
前記区間決定ステップでは、前記音響特徴量の同一フレーム内における相関値または前記音響特徴量の異なるフレーム間における相関値に基づいて、音声区間を決定する
ことを特徴とする調波構造性音響信号区間検出方法。 - 前記調波構造音響特徴量抽出ステップでは、前記相関値算出ステップで算出された前記同一フレーム内または隣接フレーム間における相関値のうちの最大値と最小値との差に、前記重み付き帯域番号を乗じることにより、調波構造を尺度化した音響特徴量を抽出する
ことを特徴とする請求の範囲第1項に記載の調波構造性音響信号区間検出方法。 - 前記音響特徴量の持続性を評価する評価値を算出する評価ステップと、
前記評価値の時間的な連続性を評価し、評価結果に従って音声区間を決定する音声区間決定ステップとを含む
ことを特徴とする請求の範囲第1項に記載の調波構造性音響信号区間検出方法。 - 前記区間決定ステップは、さらに、
所定数のフレームにわたる、音響特徴量抽出ステップにおいて算出される音響特徴量または、前記評価ステップにおいて算出される前記評価値と、第1の所定しきい値との比較に基づいて、前記入力音響信号の音声雑音比を推定するステップと、
推定された前記音声雑音比が第2の所定しきい値以上の場合には、前記評価ステップにおいて算出される前記評価値に基づいて前記音声区間を決定するステップとを含み、
前記音声区間決定ステップでは、前記音声雑音比が前記第2の所定しきい値未満の場合に、前記評価値の時間的な連続性を評価し、評価結果に従って前記音声区間を決定する
ことを特徴とする請求の範囲第3項に記載の調波構造性音響信号区間検出方法。 - 前記区間決定ステップは、
前記音響特徴量の持続性を評価する評価値を算出する評価ステップと、
前記評価値の時間的な連続性を評価し、評価結果に従って調波構造を有するが音声ではない非音声調波構造区間を決定する非音声調波構造区間決定ステップとを含む
ことを特徴とする請求の範囲第1項に記載の調波構造音響調波構造性音響信号区間検出方法。 - 前記区間決定ステップでは、前記音響特徴量のフレーム間における相関値と、前記相関値を所定フレーム数にわたり平均した平均値との補正相関値に基づいて、前記持続性を評価する
ことを特徴とする請求の範囲第1項に記載の調波構造性音響信号区間検出方法。 - 入力音響信号から音声が含まれる区間を音声区間として検出する調波構造性音響信号区間検出装置であって、
前記入力音響信号に対し、所定の時間で区切られたフレーム単位で音響特徴量を抽出する音響特徴量抽出手段と、
前記音響特徴量の持続性を評価し、評価結果に従って音声区間を決定する区間決定手段とを含み、
前記音響特徴量抽出手段は、
所定の時間で区切られたフレーム単位で前記入力音響信号を周波数変換する周波数変換手段と、
フレーム単位の周波数変換の結果を所定の周波数帯域幅ごとに分割し、同一フレーム内または隣接フレーム間の所定の周波数帯域間で、前記周波数変換の結果の相関値を算出する相関値算出手段と、
同一フレーム内または隣接フレーム間における相関値のうち、最大値をとる周波数帯域の識別子と最小値をとる周波数帯域の識別子との差を示す帯域番号を算出する帯域番号算出手段と、
所定フレームにおける前記帯域番号の分散に基づいて、前記帯域番号を補正した補正帯域番号を算出する補正帯域番号算出手段と、
所定フレーム内における前記補正帯域番号の最大値である重み付き帯域番号算出する重み付き帯域番号算出手段と、
前記相関値算出手段で算出された相関値に、前記重み付き帯域番号を乗じることにより、調波構造を尺度化した音響特徴量を抽出する調波構造音響特徴量抽出手段とを備え、
前記区間決定手段は、前記音響特徴量の同一フレーム内における相関値または前記音響特徴量の異なるフレーム間における相関値に基づいて、音声区間を決定する
ことを特徴とする調波構造性音響信号区間検出装置。 - 入力音響信号に含まれる音声を認識する音声認識装置であって、
前記入力音響信号に対し、所定の時間で区切られたフレーム単位で音響特徴量を抽出する音響特徴量抽出手段と、
前記音響特徴量の持続性を評価し、評価結果に従って音声区間を決定する区間決定手段と、
前記区間決定手段で決定された音声区間において音声認識を行なう認識手段とを備え、
前記音響特徴量抽出手段は、
所定の時間で区切られたフレーム単位で前記入力音響信号を周波数変換する周波数変換手段と、
フレーム単位の周波数変換の結果を所定の周波数帯域幅ごとに分割し、同一フレーム内または隣接フレーム間の所定の周波数帯域間で、前記周波数変換の結果の相関値を算出する相関値算出手段と、
同一フレーム内または隣接フレーム間における相関値のうち、最大値をとる周波数帯域の識別子と最小値をとる周波数帯域の識別子との差を示す帯域番号を算出する帯域番号算出手段と、
所定フレームにおける前記帯域番号の分散に基づいて、前記帯域番号を補正した補正帯域番号を算出する補正帯域番号算出手段と、
所定フレーム内における前記補正帯域番号の最大値である重み付き帯域番号を算出する重み付き帯域番号算出手段と、
前記相関値算出手段で算出された相関値に、前記重み付き帯域番号を乗じることにより、調波構造を尺度化した音響特徴量を抽出する調波構造音響特徴量抽出手段とを備え、
前記区間決定手段は、前記音響特徴量の同一フレーム内における相関値または前記音響特徴量の異なるフレーム間における相関値に基づいて、音声区間を決定する
ことを特徴とする音声認識装置。 - 入力音響信号に含まれる音声を録音する音声録音装置であって、
前記入力音響信号に対し、所定の時間で区切られたフレーム単位で音響特徴量を抽出する音響特徴量抽出手段と、
前記音響特徴量の持続性を評価し、評価結果に従って音声区間を決定する区間決定手段と、
前記区間決定手段で決定された音声区間における入力音響信号を録音する録音手段とを備え、
前記音響特徴量抽出手段は、
所定の時間で区切られたフレーム単位で前記入力音響信号を周波数変換する周波数変換手段と、
フレーム単位の周波数変換の結果を所定の周波数帯域幅ごとに分割し、同一フレーム内または隣接フレーム間の所定の周波数帯域間で、前記周波数変換の結果の相関値を算出する相関値算出手段と、
同一フレーム内または隣接フレーム間における相関値のうち、最大値をとる周波数帯域の識別子と最小値をとる周波数帯域の識別子との差を示す帯域番号を算出する帯域番号算出手段と、
所定フレームにおける前記帯域番号の分散に基づいて、前記帯域番号を補正した補正帯域番号を算出する補正帯域番号算出手段と、
所定フレーム内における前記補正帯域番号の最大値である重み付き帯域番号を算出する重み付き帯域番号算出手段と、
前記相関値算出手段で算出された相関値に、前記重み付き帯域番号を乗じることにより、調波構造を尺度化した音響特徴量を抽出する調波構造音響特徴量抽出手段とを備え、
前記区間決定手段は、前記音響特徴量の同一フレーム内における相関値または前記音響特徴量の異なるフレーム間における相関値に基づいて、音声区間を決定する
ことを特徴とする音声録音装置。 - 入力音響信号に対し、所定の時間で区切られたフレーム単位で音響特徴量を抽出する音響特徴量抽出ステップと、
前記音響特徴量の持続性を評価し、評価結果に従って音声区間を決定する区間決定ステップとをコンピュータに実行させ、
前記音響特徴量抽出ステップは、
所定の時間で区切られたフレーム単位で前記入力音響信号を周波数変換する周波数変換ステップと、
フレーム単位の周波数変換の結果を所定の周波数帯域幅ごとに分割し、同一フレーム内または隣接フレーム間の所定の周波数帯域間で、前記周波数変換の結果の相関値を算出する相関値算出ステップと、
同一フレーム内または隣接フレーム間における相関値のうち、最大値をとる周波数帯域の識別子と最小値をとる周波数帯域の識別子との差を示す帯域番号を算出する帯域番号算出ステップと、
所定フレームにおける前記帯域番号の分散に基づいて、前記帯域番号を補正した補正帯域番号を算出する補正帯域番号算出ステップと、
所定フレーム内における前記補正帯域番号の最大値である重み付き帯域番号を算出する重み付き帯域番号算出ステップと、
前記相関値算出ステップで算出された相関値に、前記重み付き帯域番号を乗じることにより、調波構造を尺度化した音響特徴量を抽出する調波構造音響特徴量抽出ステップとを含み、
前記区間決定ステップでは、前記音響特徴量の同一フレーム内における相関値または前記音響特徴量の異なるフレーム間における相関値に基づいて、音声区間を決定する
ことを特徴とするプログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003165946 | 2003-06-11 | ||
JP2003165946 | 2003-06-11 | ||
PCT/JP2004/008051 WO2004111996A1 (ja) | 2003-06-11 | 2004-06-03 | 音響区間検出方法および装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP3744934B2 true JP3744934B2 (ja) | 2006-02-15 |
JPWO2004111996A1 JPWO2004111996A1 (ja) | 2006-07-20 |
Family
ID=33549240
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005505039A Expired - Fee Related JP3744934B2 (ja) | 2003-06-11 | 2004-06-03 | 音響区間検出方法および装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US7567900B2 (ja) |
JP (1) | JP3744934B2 (ja) |
WO (1) | WO2004111996A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011253133A (ja) * | 2010-06-04 | 2011-12-15 | International Business Maschines Corporation | 音声特徴量を出力するための音声信号処理システム、音声信号処理方法、及び音声信号処理プログラム |
Families Citing this family (54)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3673507B2 (ja) * | 2002-05-16 | 2005-07-20 | 独立行政法人科学技術振興機構 | 音声波形の特徴を高い信頼性で示す部分を決定するための装置およびプログラム、音声信号の特徴を高い信頼性で示す部分を決定するための装置およびプログラム、ならびに擬似音節核抽出装置およびプログラム |
JP2006119723A (ja) * | 2004-10-19 | 2006-05-11 | Canon Inc | 画像処理装置、画像処理方法 |
JP4729927B2 (ja) * | 2005-01-11 | 2011-07-20 | ソニー株式会社 | 音声検出装置、自動撮像装置、および音声検出方法 |
JP2006301134A (ja) * | 2005-04-19 | 2006-11-02 | Hitachi Ltd | 音楽検出装置、音楽検出方法及び録音再生装置 |
US7742111B2 (en) * | 2005-05-06 | 2010-06-22 | Mavs Lab. Inc. | Highlight detecting circuit and related method for audio feature-based highlight segment detection |
US8170875B2 (en) * | 2005-06-15 | 2012-05-01 | Qnx Software Systems Limited | Speech end-pointer |
US8311819B2 (en) * | 2005-06-15 | 2012-11-13 | Qnx Software Systems Limited | System for detecting speech with background voice estimates and noise estimates |
JP2007114413A (ja) * | 2005-10-19 | 2007-05-10 | Toshiba Corp | 音声非音声判別装置、音声区間検出装置、音声非音声判別方法、音声区間検出方法、音声非音声判別プログラムおよび音声区間検出プログラム |
JP4876245B2 (ja) * | 2006-02-17 | 2012-02-15 | 国立大学法人九州大学 | 子音加工装置、音声情報伝達装置及び子音加工方法 |
KR100827153B1 (ko) * | 2006-04-17 | 2008-05-02 | 삼성전자주식회사 | 음성 신호의 유성음화 비율 검출 장치 및 방법 |
JP4935165B2 (ja) * | 2006-04-17 | 2012-05-23 | 日本精工株式会社 | 異常診断装置及び異常診断方法 |
US7809559B2 (en) * | 2006-07-24 | 2010-10-05 | Motorola, Inc. | Method and apparatus for removing from an audio signal periodic noise pulses representable as signals combined by convolution |
JP4827661B2 (ja) * | 2006-08-30 | 2011-11-30 | 富士通株式会社 | 信号処理方法及び装置 |
JP4757158B2 (ja) * | 2006-09-20 | 2011-08-24 | 富士通株式会社 | 音信号処理方法、音信号処理装置及びコンピュータプログラム |
JP4282704B2 (ja) * | 2006-09-27 | 2009-06-24 | 株式会社東芝 | 音声区間検出装置およびプログラム |
KR100930584B1 (ko) * | 2007-09-19 | 2009-12-09 | 한국전자통신연구원 | 인간 음성의 유성음 특징을 이용한 음성 판별 방법 및 장치 |
JP4599420B2 (ja) * | 2008-02-29 | 2010-12-15 | 株式会社東芝 | 特徴量抽出装置 |
JP4950930B2 (ja) * | 2008-04-03 | 2012-06-13 | 株式会社東芝 | 音声/非音声を判定する装置、方法およびプログラム |
WO2010061505A1 (ja) * | 2008-11-27 | 2010-06-03 | 日本電気株式会社 | 発話音声検出装置 |
WO2010061506A1 (ja) * | 2008-11-27 | 2010-06-03 | 日本電気株式会社 | 信号補正装置 |
KR101022519B1 (ko) * | 2009-04-17 | 2011-03-16 | 고려대학교 산학협력단 | 모음 특징을 이용한 음성구간 검출 시스템 및 방법과 이에 사용되는 음향 스펙트럼 유사도 측정 방법 |
WO2011010384A1 (ja) * | 2009-07-24 | 2011-01-27 | 富士通株式会社 | 睡眠時無呼吸症候群の検査装置及びプログラム |
KR101332143B1 (ko) | 2009-08-28 | 2013-11-21 | 인터내셔널 비지네스 머신즈 코포레이션 | 음성 특징량 추출 장치, 음성 특징량 추출 방법, 및 음성 특징량 추출 프로그램 |
ES2371619B1 (es) * | 2009-10-08 | 2012-08-08 | Telefónica, S.A. | Procedimiento de detección de segmentos de voz. |
GB0919672D0 (en) | 2009-11-10 | 2009-12-23 | Skype Ltd | Noise suppression |
KR101690252B1 (ko) * | 2009-12-23 | 2016-12-27 | 삼성전자주식회사 | 신호 처리 방법 및 장치 |
JP5696828B2 (ja) * | 2010-01-12 | 2015-04-08 | ヤマハ株式会社 | 信号処理装置 |
EP2362375A1 (en) * | 2010-02-26 | 2011-08-31 | Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. | Apparatus and method for modifying an audio signal using harmonic locking |
JP5870476B2 (ja) | 2010-08-04 | 2016-03-01 | 富士通株式会社 | 雑音推定装置、雑音推定方法および雑音推定プログラム |
JP5605204B2 (ja) * | 2010-12-15 | 2014-10-15 | ソニー株式会社 | 呼吸信号処理装置およびその処理方法ならびにプログラム |
KR101251373B1 (ko) | 2011-10-27 | 2013-04-05 | 한국과학기술연구원 | 음원 분류 장치 및 그 방법 |
US20130282373A1 (en) * | 2012-04-23 | 2013-10-24 | Qualcomm Incorporated | Systems and methods for audio signal processing |
JP2014016423A (ja) * | 2012-07-06 | 2014-01-30 | Nippon Telegr & Teleph Corp <Ntt> | 音楽検出通知装置、方法、及びプログラム |
CN105103230B (zh) * | 2013-04-11 | 2020-01-03 | 日本电气株式会社 | 信号处理装置、信号处理方法、信号处理程序 |
US9484044B1 (en) | 2013-07-17 | 2016-11-01 | Knuedge Incorporated | Voice enhancement and/or speech features extraction on noisy audio signals using successively refined transforms |
US9530434B1 (en) * | 2013-07-18 | 2016-12-27 | Knuedge Incorporated | Reducing octave errors during pitch determination for noisy audio signals |
US9208794B1 (en) | 2013-08-07 | 2015-12-08 | The Intellisis Corporation | Providing sound models of an input signal using continuous and/or linear fitting |
US9224402B2 (en) * | 2013-09-30 | 2015-12-29 | International Business Machines Corporation | Wideband speech parameterization for high quality synthesis, transformation and quantization |
JP6299140B2 (ja) * | 2013-10-17 | 2018-03-28 | ヤマハ株式会社 | 音響処理装置および音響処理方法 |
JP6160519B2 (ja) * | 2014-03-07 | 2017-07-12 | 株式会社Jvcケンウッド | 雑音低減装置 |
CN104934032B (zh) * | 2014-03-17 | 2019-04-05 | 华为技术有限公司 | 根据频域能量对语音信号进行处理的方法和装置 |
US9830925B2 (en) * | 2014-10-22 | 2017-11-28 | GM Global Technology Operations LLC | Selective noise suppression during automatic speech recognition |
CN104409081B (zh) * | 2014-11-25 | 2017-12-22 | 广州酷狗计算机科技有限公司 | 语音信号处理方法和装置 |
US9965685B2 (en) * | 2015-06-12 | 2018-05-08 | Google Llc | Method and system for detecting an audio event for smart home devices |
WO2016208000A1 (ja) * | 2015-06-24 | 2016-12-29 | Pioneer DJ株式会社 | 表示制御装置、表示制御方法および表示制御プログラム |
CN106328169B (zh) | 2015-06-26 | 2018-12-11 | 中兴通讯股份有限公司 | 一种激活音修正帧数的获取方法、激活音检测方法和装置 |
JP6759927B2 (ja) * | 2016-09-23 | 2020-09-23 | 富士通株式会社 | 発話評価装置、発話評価方法、および発話評価プログラム |
CN108447472B (zh) * | 2017-02-16 | 2022-04-05 | 腾讯科技(深圳)有限公司 | 语音唤醒方法及装置 |
CN109239456B (zh) * | 2018-08-03 | 2020-12-25 | 福州大学 | 一种基于动态规划时间序列相似性算法的谐波溯源方法 |
CN109065051B (zh) * | 2018-09-30 | 2021-04-09 | 珠海格力电器股份有限公司 | 一种语音识别处理方法及装置 |
CN111883182B (zh) * | 2020-07-24 | 2024-03-19 | 平安科技(深圳)有限公司 | 人声检测方法、装置、设备及存储介质 |
CN112967738B (zh) * | 2021-02-01 | 2024-06-14 | 腾讯音乐娱乐科技(深圳)有限公司 | 人声检测方法、装置及电子设备和计算机可读存储介质 |
CN115774539A (zh) * | 2021-09-06 | 2023-03-10 | 北京字跳网络技术有限公司 | 和声处理方法、装置、设备及介质 |
CN114141246A (zh) * | 2021-12-10 | 2022-03-04 | 北京百度网讯科技有限公司 | 用于识别语音的方法、用于训练模型的方法及装置 |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4277644A (en) * | 1979-07-16 | 1981-07-07 | Bell Telephone Laboratories, Incorporated | Syntactic continuous speech recognizer |
JPS5921039B2 (ja) * | 1981-11-04 | 1984-05-17 | 日本電信電話株式会社 | 適応予測符号化方式 |
JPS60114900A (ja) | 1983-11-25 | 1985-06-21 | 松下電器産業株式会社 | 有音・無音判定法 |
US4628529A (en) * | 1985-07-01 | 1986-12-09 | Motorola, Inc. | Noise suppression system |
JP3141450B2 (ja) * | 1991-09-30 | 2001-03-05 | ソニー株式会社 | オーディオ信号処理方法 |
DE19538187A1 (de) * | 1995-10-13 | 1997-04-17 | Sel Alcatel Ag | Verfahren und Schaltungsanordnung zur Detektion von Sprache eines fernen Sprechers in einem Fernsprechendgerät |
JPH09153769A (ja) * | 1995-11-28 | 1997-06-10 | Nippon Telegr & Teleph Corp <Ntt> | 騒音抑圧装置 |
US6058359A (en) * | 1998-03-04 | 2000-05-02 | Telefonaktiebolaget L M Ericsson | Speech coding including soft adaptability feature |
JP3508981B2 (ja) * | 1997-11-12 | 2004-03-22 | 日本電信電話株式会社 | 音楽演奏に含まれる旋律の分離方法、分離抽出方法および分離除去方法 |
JP2000066691A (ja) | 1998-08-21 | 2000-03-03 | Kdd Corp | オーディオ情報分類装置 |
JP3435357B2 (ja) | 1998-09-07 | 2003-08-11 | 日本電信電話株式会社 | 収音方法、その装置及びプログラム記録媒体 |
US6272460B1 (en) * | 1998-09-10 | 2001-08-07 | Sony Corporation | Method for implementing a speech verification system for use in a noisy environment |
JP4438144B2 (ja) | 1999-11-11 | 2010-03-24 | ソニー株式会社 | 信号分類方法及び装置、記述子生成方法及び装置、信号検索方法及び装置 |
JP4419249B2 (ja) | 2000-02-08 | 2010-02-24 | ヤマハ株式会社 | 音響信号分析方法及び装置並びに音響信号処理方法及び装置 |
JP2001236085A (ja) * | 2000-02-25 | 2001-08-31 | Matsushita Electric Ind Co Ltd | 音声区間検出装置、定常雑音区間検出装置、非定常雑音区間検出装置、及び雑音区間検出装置 |
JP2002162982A (ja) * | 2000-11-24 | 2002-06-07 | Matsushita Electric Ind Co Ltd | 有音無音判定装置及び有音無音判定方法 |
US6775629B2 (en) * | 2001-06-12 | 2004-08-10 | National Instruments Corporation | System and method for estimating one or more tones in an input signal |
JP3751001B2 (ja) * | 2002-03-06 | 2006-03-01 | 株式会社東芝 | オーディオ信号再生方法および再生装置 |
-
2004
- 2004-06-03 WO PCT/JP2004/008051 patent/WO2004111996A1/ja active Application Filing
- 2004-06-03 US US10/542,931 patent/US7567900B2/en active Active
- 2004-06-03 JP JP2005505039A patent/JP3744934B2/ja not_active Expired - Fee Related
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011253133A (ja) * | 2010-06-04 | 2011-12-15 | International Business Maschines Corporation | 音声特徴量を出力するための音声信号処理システム、音声信号処理方法、及び音声信号処理プログラム |
US8566084B2 (en) | 2010-06-04 | 2013-10-22 | Nuance Communications, Inc. | Speech processing based on time series of maximum values of cross-power spectrum phase between two consecutive speech frames |
Also Published As
Publication number | Publication date |
---|---|
US7567900B2 (en) | 2009-07-28 |
US20060053003A1 (en) | 2006-03-09 |
WO2004111996A1 (ja) | 2004-12-23 |
JPWO2004111996A1 (ja) | 2006-07-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3744934B2 (ja) | 音響区間検出方法および装置 | |
US9093056B2 (en) | Audio separation system and method | |
US8880409B2 (en) | System and method for automatic temporal alignment between music audio signal and lyrics | |
US9020816B2 (en) | Hidden markov model for speech processing with training method | |
US6541691B2 (en) | Generation of a note-based code | |
JP5621783B2 (ja) | 音声認識システム、音声認識方法および音声認識プログラム | |
JP3913772B2 (ja) | 音識別装置 | |
JPH0990974A (ja) | 信号処理方法 | |
EP1569200A1 (en) | Identification of the presence of speech in digital audio data | |
CN104123934A (zh) | 一种构音识别方法及其系统 | |
WO2007046267A1 (ja) | 音声判別システム、音声判別方法及び音声判別用プログラム | |
JP4858663B2 (ja) | 音声認識方法及び音声認識装置 | |
JP4696418B2 (ja) | 情報検出装置及び方法 | |
Zhao et al. | A processing method for pitch smoothing based on autocorrelation and cepstral F0 detection approaches | |
Ouzounov | A robust feature for speech detection | |
JP2008015388A (ja) | 歌唱力評価方法及びカラオケ装置 | |
JP6969597B2 (ja) | 音響信号処理装置、方法及びプログラム | |
JP6599408B2 (ja) | 音響信号処理装置、方法及びプログラム | |
KR20050003814A (ko) | 음정 인식 장치 | |
Lipeika | Optimization of formant feature based speech recognition | |
JP6653687B2 (ja) | 音響信号処理装置、方法及びプログラム | |
JP4576612B2 (ja) | 音声認識方法および音声認識装置 | |
JP2019028301A (ja) | 音響信号処理装置、方法及びプログラム | |
Amrous et al. | Robust Arabic speech recognition in noisy environments using prosodic features and formant | |
JP2010096808A (ja) | 音響分析パラメータ生成方法とその装置と、プログラムと記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20051109 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20051115 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 3744934 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091202 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091202 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101202 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111202 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111202 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121202 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121202 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131202 Year of fee payment: 8 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |