JP2005275010A - 音声伸張装置、音声伸張方法及びプログラム - Google Patents
音声伸張装置、音声伸張方法及びプログラム Download PDFInfo
- Publication number
- JP2005275010A JP2005275010A JP2004088533A JP2004088533A JP2005275010A JP 2005275010 A JP2005275010 A JP 2005275010A JP 2004088533 A JP2004088533 A JP 2004088533A JP 2004088533 A JP2004088533 A JP 2004088533A JP 2005275010 A JP2005275010 A JP 2005275010A
- Authority
- JP
- Japan
- Prior art keywords
- waveform
- section
- similar
- audio
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 24
- 230000006837 decompression Effects 0.000 claims description 10
- 230000005236 sound signal Effects 0.000 abstract description 14
- 230000006866 deterioration Effects 0.000 abstract description 6
- 230000008569 process Effects 0.000 description 13
- 238000010586 diagram Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Images
Abstract
【課題】 音声伸張処理による音声波形の劣化を減少させることを目的とする。
【解決手段】 音声処理装置100は、入力装置12を介して指示された倍率で音声信号を伸張する。制御部110は、音声信号をフレーム単位で伸張する。制御部110は、まず注目した音声フレームと前後の音声フレームとの(自己)相関を計算する。算出した相関係数の大小を比較し、前後の音声フレームのうちの相関係数が大きな方を選択する。選択された音声フレームと注目された音声フレームとを、所定の重み係数を用いて重み付け加算し、音声フレームを生成する。生成した音声フレームを注目された音声フレームと選択された音声フレームとの間に挿入する。
【選択図】 図1
【解決手段】 音声処理装置100は、入力装置12を介して指示された倍率で音声信号を伸張する。制御部110は、音声信号をフレーム単位で伸張する。制御部110は、まず注目した音声フレームと前後の音声フレームとの(自己)相関を計算する。算出した相関係数の大小を比較し、前後の音声フレームのうちの相関係数が大きな方を選択する。選択された音声フレームと注目された音声フレームとを、所定の重み係数を用いて重み付け加算し、音声フレームを生成する。生成した音声フレームを注目された音声フレームと選択された音声フレームとの間に挿入する。
【選択図】 図1
Description
本発明は、音声信号を時間領域で処理して音声信号を伸張する音声伸張装置、音声伸張方法及びプログラムに関する。
音声信号を変形する処理の1つとして、処理対象の音声信号の振幅や周波数特性を変更することなく、処理対象の音声信号の長さ(サンプル数)を伸張する処理がある。この処理は、例えば、英会話教材で聞き取りにくい部分をゆっくり再生するような場面に適用可能である。この処理方式の1つとして、TDHS(Time Domain Harmonic Scaling)方式がある(例えば、特許文献1)。
TDHS方式では、処理対象の音声信号をm/n倍(m、nは自然数)に伸張する場合、現在の処理を行っている場所から長さmTの波形区間(Tは波形区間の1単位あたりの長さとする)の波形と、現在の場所から(n−m)Tの場所から長さmTの波形区間の波形とを重み付け加算し、生成した長さmTの波形で、現在の場所から長さnTの部分を置き換える。
この場合、重み付け加算の対象となっている2つの波形区間のうち、時間的に過去側の波形区間の波形には重みW(k)が、時間的に未来側の波形区間の波形には重み1−W(k)が乗算される。ここで、W(k)の値は波形区間の先頭のサンプル位置から末尾のサンプル位置に向かって、値0から値1まで変化する。重み係数W(k)及び1−W(k)を用いることで、連続性を保持しながら波形を伸張する。
特開平8−146993号公報(第3−5頁、図12−15)
音声信号が定常波形を含むだけであれば、ある周期Tでその定常波形が繰り返されるので、伸張処理によっても、元の定常波形の繰り返し回数が増えるだけである。それゆえ、伸張した音声信号の波形は劣化しない。一方、定常波形を含まない部分では、重み付け加算により生成した波形は、処理対象の音声信号と比較して劣化し、再生時に雑音が発生する。英会話教材で聞き取りにくい部分をゆっくり再生する場面を例に説明すると、ある母音から別の母音への過渡期に雑音が発生する。
本発明は、上記問題点に鑑みてなされたもので、音声伸張による音声波形の劣化を減少させる音声伸張装置、音声伸張方法及びプログラムを提供することを目的とする。
本発明の第1の観点にかかる音声伸張装置は、
音声波形中の複数の波形区間について、波形区間単位で該波形区間の波形とその近傍の波形区間の波形とに基づいて波形を生成し、生成した波形に基づいて伸張波形を出力する音声伸張装置であって、
波形区間単位で、波形区間の直前直後の波形区間のうち、該波形区間の波形とより類似する波形を有する波形区間を判別する判別手段と、
前記波形区間を含む区間の波形と、前記判別手段において該波形区間の波形とより類似する波形を有していると判別された波形区間を含む区間の波形との所定の重み付け加算を求め、波形を生成する生成手段と、
前記生成手段が生成した波形を、前記波形区間と前記より類似する波形を有していると判別された波形区間との間に挿入する波形接続手段と、
伸張波形を出力する手段と、
を具備し、
前記波形区間を含む区間と前記判別手段において該波形区間の波形とより類似する波形を有していると判別された波形区間を含む区間とは、前記波形区間と前記判別手段において該波形区間の波形とより類似する波形を有していると判別された波形区間との境界部分で接していること、
を特徴とする。
音声波形中の複数の波形区間について、波形区間単位で該波形区間の波形とその近傍の波形区間の波形とに基づいて波形を生成し、生成した波形に基づいて伸張波形を出力する音声伸張装置であって、
波形区間単位で、波形区間の直前直後の波形区間のうち、該波形区間の波形とより類似する波形を有する波形区間を判別する判別手段と、
前記波形区間を含む区間の波形と、前記判別手段において該波形区間の波形とより類似する波形を有していると判別された波形区間を含む区間の波形との所定の重み付け加算を求め、波形を生成する生成手段と、
前記生成手段が生成した波形を、前記波形区間と前記より類似する波形を有していると判別された波形区間との間に挿入する波形接続手段と、
伸張波形を出力する手段と、
を具備し、
前記波形区間を含む区間と前記判別手段において該波形区間の波形とより類似する波形を有していると判別された波形区間を含む区間とは、前記波形区間と前記判別手段において該波形区間の波形とより類似する波形を有していると判別された波形区間との境界部分で接していること、
を特徴とする。
本発明によれば、波形区間の直前直後の波形区間のうち、該波形区間の波形とより類似する波形を有する波形区間を判別し、より類似する波形を有していると判別された波形区間の波形と前記波形区間の波形との重み付け加算を求める。このため、生成する波形の劣化を減少させることができる。
上記音声伸張装置において、
前記判別手段は、
波形区間と該波形区間の直前直後の波形区間との相関係数を求め、
求めた相関係数に基づいて、該波形区間の直前直後の波形区間のうち、前記波形区間の波形により類似する波形を有する波形区間を判別することが望ましい。
前記判別手段は、
波形区間と該波形区間の直前直後の波形区間との相関係数を求め、
求めた相関係数に基づいて、該波形区間の直前直後の波形区間のうち、前記波形区間の波形により類似する波形を有する波形区間を判別することが望ましい。
上記音声伸張装置において、
前記生成手段は、例えば、
前記波形区間と前記より類似する波形を有していると判別された波形区間との前後関係を判別し、
時間的に未来の波形に1から始まり0で終わる重み係数と、時間的に過去の波形に0から始まり1で終わる重み係数とをそれぞれ用いて、重み付け加算する。
前記生成手段は、例えば、
前記波形区間と前記より類似する波形を有していると判別された波形区間との前後関係を判別し、
時間的に未来の波形に1から始まり0で終わる重み係数と、時間的に過去の波形に0から始まり1で終わる重み係数とをそれぞれ用いて、重み付け加算する。
上記音声伸張装置において、
処理対象である音声波形から前記複数の波形区間に分割する音声分割手段をさらに具備してもよい。
処理対象である音声波形から前記複数の波形区間に分割する音声分割手段をさらに具備してもよい。
上記音声伸張装置は、
音声波形を伸張する部分の指定を受け付ける受け付け手段をさらに具備してもよい。
この場合、音声伸張装置は、前記受け付け手段で指定された部分のみを伸張し、他の部分の伸張を行わない。
音声波形を伸張する部分の指定を受け付ける受け付け手段をさらに具備してもよい。
この場合、音声伸張装置は、前記受け付け手段で指定された部分のみを伸張し、他の部分の伸張を行わない。
本発明の第2の観点にかかる音声伸張方法は、
音声波形中の複数の波形区間について、波形区間単位で該波形区間の波形とその近傍の波形区間の波形とに基づいて波形を生成し、生成した波形に基づいて伸張波形を出力する音声伸張方法であって、
波形区間単位で、波形区間の直前直後の波形区間のうち、該波形区間の波形とより類似する波形を有する波形区間を判別する判別ステップと、
前記波形区間を含む区間の波形と、前記判別ステップにおいて該波形区間の波形とより類似する波形を有していると判別された波形区間を含む区間の波形との所定の重み付け加算を求め、波形を生成する生成ステップと、
前記生成ステップが生成した波形を、前記波形区間と前記より類似する波形を有していると判別された波形区間との間に挿入する波形接続ステップと、
伸張波形を出力するステップと、
を具備し、
前記波形区間を含む区間と前記判別ステップにおいて該波形区間の波形とより類似する波形を有していると判別された波形区間を含む区間とは、前記波形区間と前記判別ステップにおいて該波形区間の波形とより類似する波形を有していると判別された波形区間との境界部分で接していること、
を特徴とする。
音声波形中の複数の波形区間について、波形区間単位で該波形区間の波形とその近傍の波形区間の波形とに基づいて波形を生成し、生成した波形に基づいて伸張波形を出力する音声伸張方法であって、
波形区間単位で、波形区間の直前直後の波形区間のうち、該波形区間の波形とより類似する波形を有する波形区間を判別する判別ステップと、
前記波形区間を含む区間の波形と、前記判別ステップにおいて該波形区間の波形とより類似する波形を有していると判別された波形区間を含む区間の波形との所定の重み付け加算を求め、波形を生成する生成ステップと、
前記生成ステップが生成した波形を、前記波形区間と前記より類似する波形を有していると判別された波形区間との間に挿入する波形接続ステップと、
伸張波形を出力するステップと、
を具備し、
前記波形区間を含む区間と前記判別ステップにおいて該波形区間の波形とより類似する波形を有していると判別された波形区間を含む区間とは、前記波形区間と前記判別ステップにおいて該波形区間の波形とより類似する波形を有していると判別された波形区間との境界部分で接していること、
を特徴とする。
本発明の第3の観点にかかるプログラムは、
コンピュータを
音声波形中の波形区間単位で、波形区間の直前直後の波形区間のうち、該波形区間の波形とより類似する波形を有している波形区間を判別し、
前記波形区間を含む区間の波形と、該波形区間の波形とより類似する波形を有していると判別された波形区間を含む区間であって、前記波形区間と前記より類似する波形を有してしていると判別された波形区間との境界部分で接している区間の波形との所定の重み付け加算を求めて、波形を生成し、
生成した波形を、前記波形区間と前記より類似する波形を有していると判別された波形区間との間に挿入し、
伸張波形を出力する、
音声伸張装置として機能させる。
コンピュータを
音声波形中の波形区間単位で、波形区間の直前直後の波形区間のうち、該波形区間の波形とより類似する波形を有している波形区間を判別し、
前記波形区間を含む区間の波形と、該波形区間の波形とより類似する波形を有していると判別された波形区間を含む区間であって、前記波形区間と前記より類似する波形を有してしていると判別された波形区間との境界部分で接している区間の波形との所定の重み付け加算を求めて、波形を生成し、
生成した波形を、前記波形区間と前記より類似する波形を有していると判別された波形区間との間に挿入し、
伸張波形を出力する、
音声伸張装置として機能させる。
本発明によれば、音声波形を伸張する場合に、伸張後の音声波形の劣化を減少させる。
本発明にかかる実施形態を、以下図面を参照して説明する。図1は、本発明の実施形態にかかる音声処理装置の構成を示すブロック図である。
図1に示すように、音声処理装置100は、例えば、コンピュータなどの情報処理装置から構成される。入力装置12と出力装置13と記録媒体17とが音声処理装置100に接続される。音声処理装置100は、入力装置12から指示を受けて、記録媒体17から入力された音声波形データを指定された倍数の長さに伸張し、記録媒体17に出力する。
ここで、音声波形データとは、アナログ音声が所定のサンプリング周波数(例えば、8kHz)で量子化されているサンプル値データである。
記録媒体17は、例えば、CD−RW(Compact Disk ReWritable)ディスクなどであり、音声波形データを格納する。
音声処理装置100は、制御部110と、入力制御部120と、出力制御部130と、プログラム格納部140と、記憶部150と、データ記録部170とを備える。
制御部110は、例えば、CPU(Central Processing Unit:中央演算処理装置)、RAM(Random Access Memory)等を備え、プログラム格納部140に予め格納されている動作プログラムに基づいて、音声処理装置100の各部を制御したり、データ記録部170を介して、記録媒体17に格納されている音声波形データを読み出したり、伸張した音声波形データを記録媒体17に書き込んだり、後述する波形伸張処理などを実行したりする。
制御部110は、記憶部150に一時記憶された音声波形データに対して、波形伸張処理を行い、伸張後の音声波形データを記憶部150に格納する。波形伸張処理において、制御部110は、音声波形データを繰り返し単位でいくつかの部分(以下、音声フレームと称する)に分割し、各部分を当該部分とその前後の部分のうちの一方とに基づいて、指定の倍数となるよう音声フレームを生成して挿入する。
制御部110は、音声フレームを生成する時に、その前後の音声フレームのうち、注目している音声フレームとの相関が高い方を判別する。相関が高いということは、2つの音声フレームが類似しているということである。より類似する音声フレームから音声フレームを生成すればするほど、得られる伸張波形の劣化を抑えることができる。
ここで、注目している音声フレームのサンプル値列を{xk,xk+1,・・・,xk+N−1}、この音声フレームの前の音声フレームのサンプル値列を{xk−N,xk−N+1,・・・,xk−1}、そして、この音声フレームの後の音声フレームのサンプル値列を{xk+N,xk+N+1,・・・,xk+2N−1}とすると、注目している音声フレームとその前の区間の音声フレームとの相関係数caは数1に示す式を用いて求められ、注目している音声フレームとその後の区間の音声フレームとの相関係数cbは数2に示す式を用いて求められる。制御部110は、ca,cbの値のうち大きな方に対応する音声フレームが他方の音声フレームよりも相関が高いと判別する。
数1及び数2に示した式は2つの音声フレームの相互相関をとっているが、これらの音声フレームは元々同じ音声波形データから取り出されたものである。このため、結局、数1及び数2に示した式は、音声波形データの自己相関をとっている。
入力制御部120は、例えば、キーボードやポインティングデバイス、等の入力装置12を接続し、入力装置12から入力された制御部110への指示などを受け付けて制御部110に伝達する。
出力制御部130は、例えば、ディスプレイやスピーカ、等の出力装置13を接続し、制御部110の処理結果などを必要に応じて出力装置13に出力する。
プログラム格納部140は、ROM(Read Only Memory)などによって構成され、制御部110が実行するプログラムを格納する。
記憶部150は、例えば、ハードディスク装置やRAM(Random Access Memory)などの記憶装置から構成され、データ記録部170から送られてきた音声波形データ、及び波形伸張処理後の音声波形データを一時記憶する。記憶部150は、一時記憶した音声波形データをデータ記録部170または制御部110に送り出す。
データ記録部170は、例えば、CD−RWドライブなどであって、制御部110からの指示に従って、記録媒体17に格納されている音声波形データを読み出す。また、伸張された音声波形データを記録媒体17に書き込む。
以下、図面を参照して波形伸張処理を説明する。図2はこの波形伸張処理のフローチャートである。ここでは、入力装置12から音声波形データを2倍に伸張することを指示された場面を例に説明する。従って、制御部110は音声波形データのサンプル数を2倍にして出力する。
まず、制御部110は音声波形データをサンプル数N個の音声フレームに分割する(ステップS101)。そして、最初の音声フレームを注目する音声フレームとする。
次に、制御部110は注目している音声フレーム(サンプル値列を{xk,xk+1,・・・,xk+N−1}とおく)とその前の区間の音声フレーム(サンプル値列を{xk−N,xk−N+1,・・・,xk−1}とおく)との相関係数caを数1に示す式を用いて計算し、注目している音声フレームとその後の区間の音声フレーム(サンプル値列を{xk+N,xk+N+1,・・・,xk+2N−1}とおく)との相関係数cbを数2に示す式を用いて計算する(図2:ステップS102)。
そして、制御部110はステップS102で計算したcaとcbとの大小を判別し、注目している音声フレームとの相関が高い方の音声フレームを判別する(ステップS103)。
過去側の音声フレームの相関が未来側の音声フレームの相関よりも高い場合(ステップS103:過去側(前))、制御部110は次の数3に示す式に従って、音声フレームを生成する(ステップS104)。
(数3)
si=(i/N−1)×xk−N+i+((N−1−i)/N−1)×xk+i
(iは0からN−1)
(数3)
si=(i/N−1)×xk−N+i+((N−1−i)/N−1)×xk+i
(iは0からN−1)
数3で示した式は、過去側の音声フレームと注目区間の音声フレームの各サンプル値を重み付け加算していることを示している。過去側の音声フレームの重み係数(i/N−1)は0から始まり1で終わる。そして、注目区間の音声フレームの重み係数((N−1−i)/N−1)は1で始まり0で終わる。
次に、制御部110は生成した音声フレームを前の音声フレームと注目している音声フレームとの間に接続し(ステップS105)、ステップS108に進む。
従って、ステップS104、S105の処理で得られる音声波形のサンプル値の並びは、{・・・,xk−1,s0,s1,・・・,sN−1,xk,xk+1,・・・,xk+N−1,・・・}となる。
一方、未来側の音声フレームの相関が過去側の音声フレームの相関よりも高い場合(図2:ステップS103:未来側(後))、制御部110は次の数4に示す式に従って、音声フレームを生成する(ステップS106)。
(数4)
si=(i/N−1)×xk+i+((N−1−i)/N−1)×xk+N+i
(iは0からN−1)
(数4)
si=(i/N−1)×xk+i+((N−1−i)/N−1)×xk+N+i
(iは0からN−1)
次に、制御部110は生成した音声フレームを注目している音声フレームと後の音声フレームとの間に接続する(ステップS107)。
従って、ステップS106、S107の処理で得られる音声波形のサンプル値の並びは、{・・・,xk,xk+1,・・・,xk+N−1,s0,s1,・・・,sN−1,xk+N,・・・}となる。
最後に、制御部110は、まだ波形伸張処理を施していない音声フレームがあるか否かを判別する(ステップS108)。すべての音声フレームに対して、波形を伸張させたと判別した場合は(ステップS108:YES)、波形伸張処理を終了する。波形伸張処理を施していない音声フレームがあると判別した場合は(ステップS108:NO)、注目する音声フレームを次の音声フレームに変更し、ステップS102に戻る。
なお、注目する音声フレームが先頭あるいは末尾の音声フレームである場合は、前の音声フレームあるいは後の音声フレームの一方しか存在しない。この場合、制御部110は注目する音声フレームと相関係数をとる対象となっている音声フレームとから音声フレームを生成するしかない。ここで、注目する音声フレームが先頭である場合を説明すると、先頭の音声フレームとその次の音声フレームとから音声フレームを生成する。このような場合、制御部110は、ステップS102ではサンプル値が無いことを理由として、一方の相関係数を計算することなく、ステップS103で判別を行うことができる。
ただし、対応するサンプル値が無い場合に相関係数を適宜定めることはできる。例えば、注目する音声フレームが先頭の場合、caは該当するサンプル値が無いため数1では求められない。しかし、ca≦−√(x0 2+x1 2+・・・+xN−1 2)を満たす適当な値をcaに設定すれば、ステップS103においてca≦cbが成立し、後(未来側)の音声フレームの方が相関が高いと判別できる。なぜなら、数1を計算すると、caは−√(x0 2+x1 2+・・・+xN−1 2)未満にならないからである。
このような構成によれば、過去側と未来側とのうち、相関が高い側の音声フレームと、注目している音声フレームとに基づいて音声フレームを生成し、これら2つの音声フレームの間に挿入する。このため、特に過渡期の音声波形を再生する際に、波形の劣化を減少させることができる。また、2つの音声フレームのうち、過去側の音声フレームに対し、0から始まり1で終わるような重み係数を乗算し、未来側の音声フレームに対し、1から始まり0で終わるような重み係数を乗算する。このため、生成した音声フレームは、波形の連続性を保った状態でこれら2つの音声フレームと接続される。
なお、本発明は上記実施形態に限定されず、種々の変形及び応用が可能である。
例えば、上記実施形態では音声信号を2倍にする例を説明したが、3倍、4倍など任意の整数倍で伸張することができる。m倍に伸張する場合は、制御部110は伸張波形を生成するための部分音声波形を次のように選択する。ここで、注目している部分音声波形の先頭位置を0と置き、処理単位の長さをNとする。
1)過去側の相関が未来側の相関より大きい場合
(1−m)Nから0までの部分音声波形と0から(m−1)Nまでの部分音声波形
2)未来側の相関が過去側の相関より大きい場合
(2−m)NからNまでの部分音声波形とNからmNまでの部分音声波形
例えば、上記実施形態では音声信号を2倍にする例を説明したが、3倍、4倍など任意の整数倍で伸張することができる。m倍に伸張する場合は、制御部110は伸張波形を生成するための部分音声波形を次のように選択する。ここで、注目している部分音声波形の先頭位置を0と置き、処理単位の長さをNとする。
1)過去側の相関が未来側の相関より大きい場合
(1−m)Nから0までの部分音声波形と0から(m−1)Nまでの部分音声波形
2)未来側の相関が過去側の相関より大きい場合
(2−m)NからNまでの部分音声波形とNからmNまでの部分音声波形
そして、数3及び数4の重み係数は、i/(N−1)の代わりにi/((m−1)N−1)とし、(N−1−i)/(N−1)の代わりに((m−1)N−1−i)/((m−1)N−1)とする。なお、相関係数caを(1−m)Nから0までの部分音声波形と0から(m−1)Nまでの部分音声波形とから、相関係数cbを(2−m)NからNまでの部分音声波形とNからmNまでの部分音声波形とから求めることが望ましい。
また、上述した数3及び数4で用いている重み係数は、一例であり、0から始まり1で終わるようなN個の数列ak(上記実施形態ではi/(N−1))、及び1から始まり0で終わるN個の数列bk(上記実施形態では(N−1−i)/(N−1))であればどのようなものでもよい。ただし、各k(0からN−1まで)に対し、ak+bk=1なる関係を満たしている必要がある。
また、処理対象の音声波形データすべてを伸張するのではなく、一部分だけを伸張するようにしてもよい。この場合、音声処理装置100は、入力装置12を介して、伸張する倍数と共に伸張する部分の指定を受け付け、制御部110で指定された部分だけを指定された倍数に伸張し、残りの部分はそのままとする。そして、処理結果を記憶部150に格納したり、データ記録部170を介して記録媒体17に格納したりする。
また、音声処理装置100は、飛び飛びの波形区間に対してのみ波形伸張処理を行ってもよい。この場合、制御部110は、例えば、波形区間の先頭からの位置をカウントし、、カウンタ値が2で割り切れるときだけ、波形伸張処理を行う。
また、上記実施形態では、波形区間は長さNの音声フレームであったが、波形区間は固定長で無くてもよい。例えば、高速フーリエ変換を用いたスペクトル解析やケプストラム法などの既知の手法により音声波形が有するピッチを抽出し、音声波形データをそのピッチに応じた長さの波形区間に分割した上で上述の波形伸張処理を行うようにしてもよい。この場合には、制御部110が記憶部150に格納されている音声波形データからピッチを抽出し、制御部110は抽出したピッチの周波数に対応する長さを波形区間の長さとして波形伸張処理を行う。なお、例えば、音声信号の途中でピッチが変化する場合は、制御部110は同一のピッチが連続する部分ごとに波形伸張処理を行う。
また、音声処理装置100はアナログ音声の入力を受け付けるようにしてもよい。この場合、音声処理装置100は、アナログ音声データをPCM(Pulse Code Modulation)などの方式により、サンプリングする音声サンプリング部をさらに備える。また、音声処理装置100は伸張した音声信号をD/A変換して出力するようにしてもよい。
また、音声処理装置100は、インターネット等の通信ネットワークを介して他の装置と通信を行う通信制御部をさらに備えてもよく、この通信制御部を介して、伸張した音声波形データを他の装置に送信するようにしてもよい。また、この通信制御部を介して、音声波形データを他の装置から受信し、伸張を行うようにしてもよい。
なお、本発明の実施形態にかかる音声処理装置100を実現するための情報処理装置は、専用のシステムによらず、通常のコンピュータシステムを用いて実現可能である。例えば、汎用コンピュータに、上述の動作を実行するためのプログラムを格納したコンピュータ読み取り可能な記録媒体(FD、CD−ROM、DVD等)に格納して配布し、該プログラムをコンピュータにインストールすることにより、上述の処理を実行する音声処理装置100を構成することができる。また、インターネット等の通信ネットワーク上のサーバ装置が有するディスク装置に格納しておき、例えばコンピュータにダウンロード等するようにしてもよい。
また、OSが上述の処理の一部を分担する場合、あるいは、OSが本願発明の構成要素の一部を構成するような場合には、記録媒体には、その部分を除いたプログラムを格納して配布してもよく、また、コンピュータにダウンロード等してもよい。この場合も、その記録媒体には、コンピュータが実行する各機能または各ステップを実行するためのプログラムが格納されている。
100…音声処理装置、110…制御部、120…入力制御部、12…入力装置、130…出力制御部、13…出力装置、140…プログラム格納部、150…記憶部、170…データ記録部、17…記録媒体
Claims (7)
- 音声波形中の複数の波形区間について、波形区間単位で該波形区間の波形とその近傍の波形区間の波形とに基づいて波形を生成し、生成した波形に基づいて伸張波形を出力する音声伸張装置であって、
波形区間単位で、波形区間の直前直後の波形区間のうち、該波形区間の波形とより類似する波形を有する波形区間を判別する判別手段と、
前記波形区間を含む区間の波形と、前記判別手段において該波形区間の波形とより類似する波形を有していると判別された波形区間を含む区間の波形との所定の重み付け加算を求め、波形を生成する生成手段と、
前記生成手段が生成した波形を、前記波形区間と前記より類似する波形を有していると判別された波形区間との間に挿入する波形接続手段と、
伸張波形を出力する手段と、
を具備し、
前記波形区間を含む区間と前記判別手段において該波形区間の波形とより類似する波形を有していると判別された波形区間を含む区間とは、前記波形区間と前記判別手段において該波形区間の波形とより類似する波形を有していると判別された波形区間との境界部分で接していること、
を特徴とする音声伸張装置。 - 前記判別手段は、
波形区間と該波形区間の直前直後の波形区間との相関係数を求め、
求めた相関係数に基づいて、該波形区間の直前直後の波形区間のうち、前記波形区間の波形により類似する波形を有する波形区間を判別すること、
を特徴とする請求項1に記載の音声伸張装置。 - 前記生成手段は、
前記波形区間と前記より類似する波形を有していると判別された波形区間との前後関係を判別し、
時間的に未来の波形に1から始まり0で終わる重み係数と、時間的に過去の波形に0から始まり1で終わる重み係数とをそれぞれ用いて、重み付け加算すること、
を特徴とする請求項1または2に記載の音声伸張装置。 - 処理対象である音声波形から前記複数の波形区間に分割する音声分割手段をさらに具備することを特徴とする請求項1、2または3に記載の音声伸張装置。
- 前記音声伸張装置は、
音声波形を伸張する部分の指定を受け付ける受け付け手段をさらに具備し、
前記受け付け手段で指定された部分のみを伸張し、他の部分の伸張を行わないこと、
を特徴する請求項1乃至4の何れか1項に記載の音声伸張装置。 - 音声波形中の複数の波形区間について、波形区間単位で該波形区間の波形とその近傍の波形区間の波形とに基づいて波形を生成し、生成した波形に基づいて伸張波形を出力する音声伸張方法であって、
波形区間単位で、波形区間の直前直後の波形区間のうち、該波形区間の波形とより類似する波形を有する波形区間を判別する判別ステップと、
前記波形区間を含む区間の波形と、前記判別ステップにおいて該波形区間の波形とより類似する波形を有していると判別された波形区間を含む区間の波形との所定の重み付け加算を求め、波形を生成する生成ステップと、
前記生成ステップが生成した波形を、前記波形区間と前記より類似する波形を有していると判別された波形区間との間に挿入する波形接続ステップと、
伸張波形を出力するステップと、
を具備し、
前記波形区間を含む区間と前記判別ステップにおいて該波形区間の波形とより類似する波形を有していると判別された波形区間を含む区間とは、前記波形区間と前記判別ステップにおいて該波形区間の波形とより類似する波形を有していると判別された波形区間との境界部分で接していること、
を特徴とする音声伸張方法。 - コンピュータを、
音声波形中の波形区間単位で、波形区間の直前直後の波形区間のうち、該波形区間の波形とより類似する波形を有している波形区間を判別し、
前記波形区間を含む区間の波形と、該波形区間の波形とより類似する波形を有していると判別された波形区間を含む区間であって、前記波形区間と前記より類似する波形を有してしていると判別された波形区間との境界部分で接している区間の波形との所定の重み付け加算を求めて、波形を生成し、
生成した波形を、前記波形区間と前記より類似する波形を有していると判別された波形区間との間に挿入し、
伸張波形を出力する、
音声伸張装置として機能させることを特徴とするプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004088533A JP2005275010A (ja) | 2004-03-25 | 2004-03-25 | 音声伸張装置、音声伸張方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004088533A JP2005275010A (ja) | 2004-03-25 | 2004-03-25 | 音声伸張装置、音声伸張方法及びプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005275010A true JP2005275010A (ja) | 2005-10-06 |
Family
ID=35174751
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004088533A Pending JP2005275010A (ja) | 2004-03-25 | 2004-03-25 | 音声伸張装置、音声伸張方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2005275010A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014186347A (ja) * | 2007-08-22 | 2014-10-02 | Nec Corp | 話者速度変換システムおよびその方法ならびに速度変換装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06222794A (ja) * | 1993-01-25 | 1994-08-12 | Matsushita Electric Ind Co Ltd | 音声速度変換方法 |
JPH0713596A (ja) * | 1993-06-21 | 1995-01-17 | Matsushita Electric Ind Co Ltd | 音声速度変換方法 |
JPH11289599A (ja) * | 1998-04-03 | 1999-10-19 | Nippon Hoso Kyokai <Nhk> | 信号処理装置、信号処理方法および信号処理プログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP2000200100A (ja) * | 1999-01-07 | 2000-07-18 | Yamaha Corp | アナログ信号中の類似波形検出装置及び同信号の時間軸伸長圧縮装置 |
JP2003345397A (ja) * | 2002-03-19 | 2003-12-03 | Matsushita Electric Ind Co Ltd | 再生速度変換装置 |
-
2004
- 2004-03-25 JP JP2004088533A patent/JP2005275010A/ja active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06222794A (ja) * | 1993-01-25 | 1994-08-12 | Matsushita Electric Ind Co Ltd | 音声速度変換方法 |
JPH0713596A (ja) * | 1993-06-21 | 1995-01-17 | Matsushita Electric Ind Co Ltd | 音声速度変換方法 |
JPH11289599A (ja) * | 1998-04-03 | 1999-10-19 | Nippon Hoso Kyokai <Nhk> | 信号処理装置、信号処理方法および信号処理プログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP2000200100A (ja) * | 1999-01-07 | 2000-07-18 | Yamaha Corp | アナログ信号中の類似波形検出装置及び同信号の時間軸伸長圧縮装置 |
JP2003345397A (ja) * | 2002-03-19 | 2003-12-03 | Matsushita Electric Ind Co Ltd | 再生速度変換装置 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014186347A (ja) * | 2007-08-22 | 2014-10-02 | Nec Corp | 話者速度変換システムおよびその方法ならびに速度変換装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP0910065A1 (en) | Speaking speed changing method and device | |
JP2000322099A (ja) | オーディオ信号の時間軸圧伸方法及び装置 | |
JP2007003682A (ja) | 話速変換装置 | |
JP2612868B2 (ja) | 音声の発声速度変換方法 | |
KR100656968B1 (ko) | 음속변환장치와 음속변환방법 및 컴퓨터 독출가능기록매체 | |
JP2003108178A (ja) | 音声合成装置及び音声合成用素片作成装置 | |
JP2005275010A (ja) | 音声伸張装置、音声伸張方法及びプログラム | |
JP3379348B2 (ja) | ピッチ変換器 | |
JP4461985B2 (ja) | 音声波形伸張装置、波形伸張方法、音声波形縮小装置、波形縮小方法、プログラム、並びに音声処理装置 | |
US5886277A (en) | Electronic musical instrument | |
JPH0962298A (ja) | 音声信号時間軸圧縮装置及び音声信号時間軸伸長装置並びに該装置を用いた音声符号・復号化装置 | |
JP4538705B2 (ja) | ディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体 | |
JPH03233500A (ja) | 音声合成方式およびこれに用いる装置 | |
JP2002287758A (ja) | 波形編集方法および波形編集装置 | |
JP2001282246A (ja) | 波形データ時間伸張圧縮装置 | |
JP4872690B2 (ja) | 音声合成方法、音声合成プログラム、音声合成装置 | |
JP6125808B2 (ja) | データ圧縮装置、データ圧縮プログラム、データ圧縮システム、およびデータ圧縮方法 | |
JP3226716B2 (ja) | 音声認識装置 | |
JP2014202777A (ja) | マスカー音信号の生成装置、生成方法およびプログラム | |
JP7162579B2 (ja) | 音声合成装置、方法及びプログラム | |
JP5228300B2 (ja) | 音声伸張装置、音声伸張方法、及び、プログラム | |
JP5322793B2 (ja) | 音声合成装置及び音声合成方法 | |
JP2005024794A (ja) | 音声合成方法と装置および音声合成プログラム | |
JP2002041078A (ja) | 音声認識装置および音声認識方法、並びに、プログラム記録媒体 | |
JP2002049395A (ja) | ディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20061225 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20090617 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090630 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20091104 |