JP2005275010A

JP2005275010A - 音声伸張装置、音声伸張方法及びプログラム

Info

Publication number: JP2005275010A
Application number: JP2004088533A
Authority: JP
Inventors: Hiroyasu Ide; 博康井手
Original assignee: Casio Computer Co Ltd
Current assignee: Casio Computer Co Ltd
Priority date: 2004-03-25
Filing date: 2004-03-25
Publication date: 2005-10-06

Abstract

【課題】音声伸張処理による音声波形の劣化を減少させることを目的とする。
【解決手段】音声処理装置１００は、入力装置１２を介して指示された倍率で音声信号を伸張する。制御部１１０は、音声信号をフレーム単位で伸張する。制御部１１０は、まず注目した音声フレームと前後の音声フレームとの（自己）相関を計算する。算出した相関係数の大小を比較し、前後の音声フレームのうちの相関係数が大きな方を選択する。選択された音声フレームと注目された音声フレームとを、所定の重み係数を用いて重み付け加算し、音声フレームを生成する。生成した音声フレームを注目された音声フレームと選択された音声フレームとの間に挿入する。
【選択図】図１

Description

本発明は、音声信号を時間領域で処理して音声信号を伸張する音声伸張装置、音声伸張方法及びプログラムに関する。

音声信号を変形する処理の１つとして、処理対象の音声信号の振幅や周波数特性を変更することなく、処理対象の音声信号の長さ（サンプル数）を伸張する処理がある。この処理は、例えば、英会話教材で聞き取りにくい部分をゆっくり再生するような場面に適用可能である。この処理方式の１つとして、ＴＤＨＳ（Time Domain Harmonic Scaling）方式がある（例えば、特許文献１）。

ＴＤＨＳ方式では、処理対象の音声信号をｍ／ｎ倍（ｍ、ｎは自然数）に伸張する場合、現在の処理を行っている場所から長さｍＴの波形区間（Ｔは波形区間の１単位あたりの長さとする）の波形と、現在の場所から（ｎ−ｍ）Ｔの場所から長さｍＴの波形区間の波形とを重み付け加算し、生成した長さｍＴの波形で、現在の場所から長さｎＴの部分を置き換える。

この場合、重み付け加算の対象となっている２つの波形区間のうち、時間的に過去側の波形区間の波形には重みＷ（ｋ）が、時間的に未来側の波形区間の波形には重み１−Ｗ（ｋ）が乗算される。ここで、Ｗ（ｋ）の値は波形区間の先頭のサンプル位置から末尾のサンプル位置に向かって、値０から値１まで変化する。重み係数Ｗ（ｋ）及び１−Ｗ（ｋ）を用いることで、連続性を保持しながら波形を伸張する。
特開平８−１４６９９３号公報（第３−５頁、図１２−１５）

音声信号が定常波形を含むだけであれば、ある周期Ｔでその定常波形が繰り返されるので、伸張処理によっても、元の定常波形の繰り返し回数が増えるだけである。それゆえ、伸張した音声信号の波形は劣化しない。一方、定常波形を含まない部分では、重み付け加算により生成した波形は、処理対象の音声信号と比較して劣化し、再生時に雑音が発生する。英会話教材で聞き取りにくい部分をゆっくり再生する場面を例に説明すると、ある母音から別の母音への過渡期に雑音が発生する。

本発明は、上記問題点に鑑みてなされたもので、音声伸張による音声波形の劣化を減少させる音声伸張装置、音声伸張方法及びプログラムを提供することを目的とする。

本発明の第１の観点にかかる音声伸張装置は、
音声波形中の複数の波形区間について、波形区間単位で該波形区間の波形とその近傍の波形区間の波形とに基づいて波形を生成し、生成した波形に基づいて伸張波形を出力する音声伸張装置であって、
波形区間単位で、波形区間の直前直後の波形区間のうち、該波形区間の波形とより類似する波形を有する波形区間を判別する判別手段と、
前記波形区間を含む区間の波形と、前記判別手段において該波形区間の波形とより類似する波形を有していると判別された波形区間を含む区間の波形との所定の重み付け加算を求め、波形を生成する生成手段と、
前記生成手段が生成した波形を、前記波形区間と前記より類似する波形を有していると判別された波形区間との間に挿入する波形接続手段と、
伸張波形を出力する手段と、
を具備し、
前記波形区間を含む区間と前記判別手段において該波形区間の波形とより類似する波形を有していると判別された波形区間を含む区間とは、前記波形区間と前記判別手段において該波形区間の波形とより類似する波形を有していると判別された波形区間との境界部分で接していること、
を特徴とする。

本発明によれば、波形区間の直前直後の波形区間のうち、該波形区間の波形とより類似する波形を有する波形区間を判別し、より類似する波形を有していると判別された波形区間の波形と前記波形区間の波形との重み付け加算を求める。このため、生成する波形の劣化を減少させることができる。

上記音声伸張装置において、
前記判別手段は、
波形区間と該波形区間の直前直後の波形区間との相関係数を求め、
求めた相関係数に基づいて、該波形区間の直前直後の波形区間のうち、前記波形区間の波形により類似する波形を有する波形区間を判別することが望ましい。

上記音声伸張装置において、
前記生成手段は、例えば、
前記波形区間と前記より類似する波形を有していると判別された波形区間との前後関係を判別し、
時間的に未来の波形に１から始まり０で終わる重み係数と、時間的に過去の波形に０から始まり１で終わる重み係数とをそれぞれ用いて、重み付け加算する。

上記音声伸張装置において、
処理対象である音声波形から前記複数の波形区間に分割する音声分割手段をさらに具備してもよい。

上記音声伸張装置は、
音声波形を伸張する部分の指定を受け付ける受け付け手段をさらに具備してもよい。
この場合、音声伸張装置は、前記受け付け手段で指定された部分のみを伸張し、他の部分の伸張を行わない。

本発明の第２の観点にかかる音声伸張方法は、
音声波形中の複数の波形区間について、波形区間単位で該波形区間の波形とその近傍の波形区間の波形とに基づいて波形を生成し、生成した波形に基づいて伸張波形を出力する音声伸張方法であって、
波形区間単位で、波形区間の直前直後の波形区間のうち、該波形区間の波形とより類似する波形を有する波形区間を判別する判別ステップと、
前記波形区間を含む区間の波形と、前記判別ステップにおいて該波形区間の波形とより類似する波形を有していると判別された波形区間を含む区間の波形との所定の重み付け加算を求め、波形を生成する生成ステップと、
前記生成ステップが生成した波形を、前記波形区間と前記より類似する波形を有していると判別された波形区間との間に挿入する波形接続ステップと、
伸張波形を出力するステップと、
を具備し、
前記波形区間を含む区間と前記判別ステップにおいて該波形区間の波形とより類似する波形を有していると判別された波形区間を含む区間とは、前記波形区間と前記判別ステップにおいて該波形区間の波形とより類似する波形を有していると判別された波形区間との境界部分で接していること、
を特徴とする。

本発明の第３の観点にかかるプログラムは、
コンピュータを
音声波形中の波形区間単位で、波形区間の直前直後の波形区間のうち、該波形区間の波形とより類似する波形を有している波形区間を判別し、
前記波形区間を含む区間の波形と、該波形区間の波形とより類似する波形を有していると判別された波形区間を含む区間であって、前記波形区間と前記より類似する波形を有してしていると判別された波形区間との境界部分で接している区間の波形との所定の重み付け加算を求めて、波形を生成し、
生成した波形を、前記波形区間と前記より類似する波形を有していると判別された波形区間との間に挿入し、
伸張波形を出力する、
音声伸張装置として機能させる。

本発明によれば、音声波形を伸張する場合に、伸張後の音声波形の劣化を減少させる。

本発明にかかる実施形態を、以下図面を参照して説明する。図１は、本発明の実施形態にかかる音声処理装置の構成を示すブロック図である。

図１に示すように、音声処理装置１００は、例えば、コンピュータなどの情報処理装置から構成される。入力装置１２と出力装置１３と記録媒体１７とが音声処理装置１００に接続される。音声処理装置１００は、入力装置１２から指示を受けて、記録媒体１７から入力された音声波形データを指定された倍数の長さに伸張し、記録媒体１７に出力する。

ここで、音声波形データとは、アナログ音声が所定のサンプリング周波数（例えば、８ｋＨｚ）で量子化されているサンプル値データである。

記録媒体１７は、例えば、ＣＤ−ＲＷ（Compact Disk ReWritable）ディスクなどであり、音声波形データを格納する。

音声処理装置１００は、制御部１１０と、入力制御部１２０と、出力制御部１３０と、プログラム格納部１４０と、記憶部１５０と、データ記録部１７０とを備える。

制御部１１０は、例えば、ＣＰＵ（Central Processing Unit：中央演算処理装置）、ＲＡＭ（Random Access Memory）等を備え、プログラム格納部１４０に予め格納されている動作プログラムに基づいて、音声処理装置１００の各部を制御したり、データ記録部１７０を介して、記録媒体１７に格納されている音声波形データを読み出したり、伸張した音声波形データを記録媒体１７に書き込んだり、後述する波形伸張処理などを実行したりする。

制御部１１０は、記憶部１５０に一時記憶された音声波形データに対して、波形伸張処理を行い、伸張後の音声波形データを記憶部１５０に格納する。波形伸張処理において、制御部１１０は、音声波形データを繰り返し単位でいくつかの部分（以下、音声フレームと称する）に分割し、各部分を当該部分とその前後の部分のうちの一方とに基づいて、指定の倍数となるよう音声フレームを生成して挿入する。

制御部１１０は、音声フレームを生成する時に、その前後の音声フレームのうち、注目している音声フレームとの相関が高い方を判別する。相関が高いということは、２つの音声フレームが類似しているということである。より類似する音声フレームから音声フレームを生成すればするほど、得られる伸張波形の劣化を抑えることができる。

ここで、注目している音声フレームのサンプル値列を｛ｘ_ｋ，ｘ_ｋ＋１，・・・，ｘ_{ｋ＋Ｎ−１}｝、この音声フレームの前の音声フレームのサンプル値列を｛ｘ_ｋ−Ｎ，ｘ_{ｋ−Ｎ＋１}，・・・，ｘ_ｋ−１｝、そして、この音声フレームの後の音声フレームのサンプル値列を｛ｘ_ｋ＋Ｎ，ｘ_{ｋ＋Ｎ＋１}，・・・，ｘ_{ｋ＋２Ｎ−１}｝とすると、注目している音声フレームとその前の区間の音声フレームとの相関係数ｃ_ａは数１に示す式を用いて求められ、注目している音声フレームとその後の区間の音声フレームとの相関係数ｃ_ｂは数２に示す式を用いて求められる。制御部１１０は、ｃ_ａ，ｃ_ｂの値のうち大きな方に対応する音声フレームが他方の音声フレームよりも相関が高いと判別する。

数１及び数２に示した式は２つの音声フレームの相互相関をとっているが、これらの音声フレームは元々同じ音声波形データから取り出されたものである。このため、結局、数１及び数２に示した式は、音声波形データの自己相関をとっている。

入力制御部１２０は、例えば、キーボードやポインティングデバイス、等の入力装置１２を接続し、入力装置１２から入力された制御部１１０への指示などを受け付けて制御部１１０に伝達する。

出力制御部１３０は、例えば、ディスプレイやスピーカ、等の出力装置１３を接続し、制御部１１０の処理結果などを必要に応じて出力装置１３に出力する。

プログラム格納部１４０は、ＲＯＭ（Read Only Memory）などによって構成され、制御部１１０が実行するプログラムを格納する。

記憶部１５０は、例えば、ハードディスク装置やＲＡＭ（Random Access Memory）などの記憶装置から構成され、データ記録部１７０から送られてきた音声波形データ、及び波形伸張処理後の音声波形データを一時記憶する。記憶部１５０は、一時記憶した音声波形データをデータ記録部１７０または制御部１１０に送り出す。

データ記録部１７０は、例えば、ＣＤ−ＲＷドライブなどであって、制御部１１０からの指示に従って、記録媒体１７に格納されている音声波形データを読み出す。また、伸張された音声波形データを記録媒体１７に書き込む。

以下、図面を参照して波形伸張処理を説明する。図２はこの波形伸張処理のフローチャートである。ここでは、入力装置１２から音声波形データを２倍に伸張することを指示された場面を例に説明する。従って、制御部１１０は音声波形データのサンプル数を２倍にして出力する。

まず、制御部１１０は音声波形データをサンプル数Ｎ個の音声フレームに分割する（ステップＳ１０１）。そして、最初の音声フレームを注目する音声フレームとする。

次に、制御部１１０は注目している音声フレーム（サンプル値列を｛ｘ_ｋ，ｘ_ｋ＋１，・・・，ｘ_{ｋ＋Ｎ−１}｝とおく）とその前の区間の音声フレーム（サンプル値列を｛ｘ_ｋ−Ｎ，ｘ_{ｋ−Ｎ＋１}，・・・，ｘ_ｋ−１｝とおく）との相関係数ｃ_ａを数１に示す式を用いて計算し、注目している音声フレームとその後の区間の音声フレーム（サンプル値列を｛ｘ_ｋ＋Ｎ，ｘ_{ｋ＋Ｎ＋１}，・・・，ｘ_{ｋ＋２Ｎ−１}｝とおく）との相関係数ｃ_ｂを数２に示す式を用いて計算する（図２：ステップＳ１０２）。

そして、制御部１１０はステップＳ１０２で計算したｃ_ａとｃ_ｂとの大小を判別し、注目している音声フレームとの相関が高い方の音声フレームを判別する（ステップＳ１０３）。

過去側の音声フレームの相関が未来側の音声フレームの相関よりも高い場合（ステップＳ１０３：過去側（前））、制御部１１０は次の数３に示す式に従って、音声フレームを生成する（ステップＳ１０４）。
（数３）
ｓ_ｉ＝（ｉ／Ｎ−１）×ｘ_{ｋ−Ｎ＋ｉ}＋（（Ｎ−１−ｉ）／Ｎ−１）×ｘ_ｋ＋ｉ
（ｉは０からＮ−１）

数３で示した式は、過去側の音声フレームと注目区間の音声フレームの各サンプル値を重み付け加算していることを示している。過去側の音声フレームの重み係数（ｉ／Ｎ−１）は０から始まり１で終わる。そして、注目区間の音声フレームの重み係数（（Ｎ−１−ｉ）／Ｎ−１）は１で始まり０で終わる。

次に、制御部１１０は生成した音声フレームを前の音声フレームと注目している音声フレームとの間に接続し（ステップＳ１０５）、ステップＳ１０８に進む。

従って、ステップＳ１０４、Ｓ１０５の処理で得られる音声波形のサンプル値の並びは、｛・・・，ｘ_ｋ−１，ｓ_０，ｓ_１，・・・，ｓ_Ｎ−１，ｘ_ｋ，ｘ_ｋ＋１，・・・，ｘ_{ｋ＋Ｎ−１}，・・・｝となる。

一方、未来側の音声フレームの相関が過去側の音声フレームの相関よりも高い場合（図２：ステップＳ１０３：未来側（後））、制御部１１０は次の数４に示す式に従って、音声フレームを生成する（ステップＳ１０６）。
（数４）
ｓ_ｉ＝（ｉ／Ｎ−１）×ｘ_ｋ＋ｉ＋（（Ｎ−１−ｉ）／Ｎ−１）×ｘ_{ｋ＋Ｎ＋ｉ}
（ｉは０からＮ−１）

次に、制御部１１０は生成した音声フレームを注目している音声フレームと後の音声フレームとの間に接続する（ステップＳ１０７）。

従って、ステップＳ１０６、Ｓ１０７の処理で得られる音声波形のサンプル値の並びは、｛・・・，ｘ_ｋ，ｘ_ｋ＋１，・・・，ｘ_{ｋ＋Ｎ−１}，ｓ_０，ｓ_１，・・・，ｓ_Ｎ−１，ｘ_ｋ＋Ｎ，・・・｝となる。

最後に、制御部１１０は、まだ波形伸張処理を施していない音声フレームがあるか否かを判別する（ステップＳ１０８）。すべての音声フレームに対して、波形を伸張させたと判別した場合は（ステップＳ１０８：ＹＥＳ）、波形伸張処理を終了する。波形伸張処理を施していない音声フレームがあると判別した場合は（ステップＳ１０８：ＮＯ）、注目する音声フレームを次の音声フレームに変更し、ステップＳ１０２に戻る。

なお、注目する音声フレームが先頭あるいは末尾の音声フレームである場合は、前の音声フレームあるいは後の音声フレームの一方しか存在しない。この場合、制御部１１０は注目する音声フレームと相関係数をとる対象となっている音声フレームとから音声フレームを生成するしかない。ここで、注目する音声フレームが先頭である場合を説明すると、先頭の音声フレームとその次の音声フレームとから音声フレームを生成する。このような場合、制御部１１０は、ステップＳ１０２ではサンプル値が無いことを理由として、一方の相関係数を計算することなく、ステップＳ１０３で判別を行うことができる。

ただし、対応するサンプル値が無い場合に相関係数を適宜定めることはできる。例えば、注目する音声フレームが先頭の場合、ｃ_ａは該当するサンプル値が無いため数１では求められない。しかし、ｃ_ａ≦−√（ｘ_０ ^２＋ｘ_１ ^２＋・・・＋ｘ_Ｎ−１ ^２）を満たす適当な値をｃ_ａに設定すれば、ステップＳ１０３においてｃ_ａ≦ｃ_ｂが成立し、後（未来側）の音声フレームの方が相関が高いと判別できる。なぜなら、数１を計算すると、ｃ_ａは−√（ｘ_０ ^２＋ｘ_１ ^２＋・・・＋ｘ_Ｎ−１ ^２）未満にならないからである。

このような構成によれば、過去側と未来側とのうち、相関が高い側の音声フレームと、注目している音声フレームとに基づいて音声フレームを生成し、これら２つの音声フレームの間に挿入する。このため、特に過渡期の音声波形を再生する際に、波形の劣化を減少させることができる。また、２つの音声フレームのうち、過去側の音声フレームに対し、０から始まり１で終わるような重み係数を乗算し、未来側の音声フレームに対し、１から始まり０で終わるような重み係数を乗算する。このため、生成した音声フレームは、波形の連続性を保った状態でこれら２つの音声フレームと接続される。

なお、本発明は上記実施形態に限定されず、種々の変形及び応用が可能である。
例えば、上記実施形態では音声信号を２倍にする例を説明したが、３倍、４倍など任意の整数倍で伸張することができる。ｍ倍に伸張する場合は、制御部１１０は伸張波形を生成するための部分音声波形を次のように選択する。ここで、注目している部分音声波形の先頭位置を０と置き、処理単位の長さをＮとする。
１）過去側の相関が未来側の相関より大きい場合
（１−ｍ）Ｎから０までの部分音声波形と０から（ｍ−１）Ｎまでの部分音声波形
２）未来側の相関が過去側の相関より大きい場合
（２−ｍ）ＮからＮまでの部分音声波形とＮからｍＮまでの部分音声波形

そして、数３及び数４の重み係数は、ｉ／（Ｎ−１）の代わりにｉ／（（ｍ−１）Ｎ−１）とし、（Ｎ−１−ｉ）／（Ｎ−１）の代わりに（（ｍ−１）Ｎ−１−ｉ）／（（ｍ−１）Ｎ−１）とする。なお、相関係数ｃ_ａを（１−ｍ）Ｎから０までの部分音声波形と０から（ｍ−１）Ｎまでの部分音声波形とから、相関係数ｃ_ｂを（２−ｍ）ＮからＮまでの部分音声波形とＮからｍＮまでの部分音声波形とから求めることが望ましい。

また、上述した数３及び数４で用いている重み係数は、一例であり、０から始まり１で終わるようなＮ個の数列ａ_ｋ（上記実施形態ではｉ／（Ｎ−１））、及び１から始まり０で終わるＮ個の数列ｂ_ｋ（上記実施形態では（Ｎ−１−ｉ）／（Ｎ−１））であればどのようなものでもよい。ただし、各ｋ（０からＮ−１まで）に対し、ａ_ｋ＋ｂ_ｋ＝１なる関係を満たしている必要がある。

また、処理対象の音声波形データすべてを伸張するのではなく、一部分だけを伸張するようにしてもよい。この場合、音声処理装置１００は、入力装置１２を介して、伸張する倍数と共に伸張する部分の指定を受け付け、制御部１１０で指定された部分だけを指定された倍数に伸張し、残りの部分はそのままとする。そして、処理結果を記憶部１５０に格納したり、データ記録部１７０を介して記録媒体１７に格納したりする。

また、音声処理装置１００は、飛び飛びの波形区間に対してのみ波形伸張処理を行ってもよい。この場合、制御部１１０は、例えば、波形区間の先頭からの位置をカウントし、、カウンタ値が２で割り切れるときだけ、波形伸張処理を行う。

また、上記実施形態では、波形区間は長さＮの音声フレームであったが、波形区間は固定長で無くてもよい。例えば、高速フーリエ変換を用いたスペクトル解析やケプストラム法などの既知の手法により音声波形が有するピッチを抽出し、音声波形データをそのピッチに応じた長さの波形区間に分割した上で上述の波形伸張処理を行うようにしてもよい。この場合には、制御部１１０が記憶部１５０に格納されている音声波形データからピッチを抽出し、制御部１１０は抽出したピッチの周波数に対応する長さを波形区間の長さとして波形伸張処理を行う。なお、例えば、音声信号の途中でピッチが変化する場合は、制御部１１０は同一のピッチが連続する部分ごとに波形伸張処理を行う。

また、音声処理装置１００はアナログ音声の入力を受け付けるようにしてもよい。この場合、音声処理装置１００は、アナログ音声データをＰＣＭ（Pulse Code Modulation）などの方式により、サンプリングする音声サンプリング部をさらに備える。また、音声処理装置１００は伸張した音声信号をＤ／Ａ変換して出力するようにしてもよい。

また、音声処理装置１００は、インターネット等の通信ネットワークを介して他の装置と通信を行う通信制御部をさらに備えてもよく、この通信制御部を介して、伸張した音声波形データを他の装置に送信するようにしてもよい。また、この通信制御部を介して、音声波形データを他の装置から受信し、伸張を行うようにしてもよい。

なお、本発明の実施形態にかかる音声処理装置１００を実現するための情報処理装置は、専用のシステムによらず、通常のコンピュータシステムを用いて実現可能である。例えば、汎用コンピュータに、上述の動作を実行するためのプログラムを格納したコンピュータ読み取り可能な記録媒体（ＦＤ、ＣＤ−ＲＯＭ、ＤＶＤ等）に格納して配布し、該プログラムをコンピュータにインストールすることにより、上述の処理を実行する音声処理装置１００を構成することができる。また、インターネット等の通信ネットワーク上のサーバ装置が有するディスク装置に格納しておき、例えばコンピュータにダウンロード等するようにしてもよい。

また、ＯＳが上述の処理の一部を分担する場合、あるいは、ＯＳが本願発明の構成要素の一部を構成するような場合には、記録媒体には、その部分を除いたプログラムを格納して配布してもよく、また、コンピュータにダウンロード等してもよい。この場合も、その記録媒体には、コンピュータが実行する各機能または各ステップを実行するためのプログラムが格納されている。

本発明の実施形態にかかる音声処理装置のブロック図である。本発明の実施形態にかかる波形伸張処理を説明するためのフローチャートである。

符号の説明

１００…音声処理装置、１１０…制御部、１２０…入力制御部、１２…入力装置、１３０…出力制御部、１３…出力装置、１４０…プログラム格納部、１５０…記憶部、１７０…データ記録部、１７…記録媒体

Claims

音声波形中の複数の波形区間について、波形区間単位で該波形区間の波形とその近傍の波形区間の波形とに基づいて波形を生成し、生成した波形に基づいて伸張波形を出力する音声伸張装置であって、
波形区間単位で、波形区間の直前直後の波形区間のうち、該波形区間の波形とより類似する波形を有する波形区間を判別する判別手段と、
前記波形区間を含む区間の波形と、前記判別手段において該波形区間の波形とより類似する波形を有していると判別された波形区間を含む区間の波形との所定の重み付け加算を求め、波形を生成する生成手段と、
前記生成手段が生成した波形を、前記波形区間と前記より類似する波形を有していると判別された波形区間との間に挿入する波形接続手段と、
伸張波形を出力する手段と、
を具備し、
前記波形区間を含む区間と前記判別手段において該波形区間の波形とより類似する波形を有していると判別された波形区間を含む区間とは、前記波形区間と前記判別手段において該波形区間の波形とより類似する波形を有していると判別された波形区間との境界部分で接していること、
を特徴とする音声伸張装置。
前記判別手段は、
波形区間と該波形区間の直前直後の波形区間との相関係数を求め、
求めた相関係数に基づいて、該波形区間の直前直後の波形区間のうち、前記波形区間の波形により類似する波形を有する波形区間を判別すること、
を特徴とする請求項１に記載の音声伸張装置。
前記生成手段は、
前記波形区間と前記より類似する波形を有していると判別された波形区間との前後関係を判別し、
時間的に未来の波形に１から始まり０で終わる重み係数と、時間的に過去の波形に０から始まり１で終わる重み係数とをそれぞれ用いて、重み付け加算すること、
を特徴とする請求項１または２に記載の音声伸張装置。
処理対象である音声波形から前記複数の波形区間に分割する音声分割手段をさらに具備することを特徴とする請求項１、２または３に記載の音声伸張装置。
前記音声伸張装置は、
音声波形を伸張する部分の指定を受け付ける受け付け手段をさらに具備し、
前記受け付け手段で指定された部分のみを伸張し、他の部分の伸張を行わないこと、
を特徴する請求項１乃至４の何れか１項に記載の音声伸張装置。
音声波形中の複数の波形区間について、波形区間単位で該波形区間の波形とその近傍の波形区間の波形とに基づいて波形を生成し、生成した波形に基づいて伸張波形を出力する音声伸張方法であって、
波形区間単位で、波形区間の直前直後の波形区間のうち、該波形区間の波形とより類似する波形を有する波形区間を判別する判別ステップと、
前記波形区間を含む区間の波形と、前記判別ステップにおいて該波形区間の波形とより類似する波形を有していると判別された波形区間を含む区間の波形との所定の重み付け加算を求め、波形を生成する生成ステップと、
前記生成ステップが生成した波形を、前記波形区間と前記より類似する波形を有していると判別された波形区間との間に挿入する波形接続ステップと、
伸張波形を出力するステップと、
を具備し、
前記波形区間を含む区間と前記判別ステップにおいて該波形区間の波形とより類似する波形を有していると判別された波形区間を含む区間とは、前記波形区間と前記判別ステップにおいて該波形区間の波形とより類似する波形を有していると判別された波形区間との境界部分で接していること、
を特徴とする音声伸張方法。
コンピュータを、
音声波形中の波形区間単位で、波形区間の直前直後の波形区間のうち、該波形区間の波形とより類似する波形を有している波形区間を判別し、
前記波形区間を含む区間の波形と、該波形区間の波形とより類似する波形を有していると判別された波形区間を含む区間であって、前記波形区間と前記より類似する波形を有してしていると判別された波形区間との境界部分で接している区間の波形との所定の重み付け加算を求めて、波形を生成し、
生成した波形を、前記波形区間と前記より類似する波形を有していると判別された波形区間との間に挿入し、
伸張波形を出力する、
音声伸張装置として機能させることを特徴とするプログラム。