JP4212253B2

JP4212253B2 - 話速変換装置

Info

Publication number: JP4212253B2
Application number: JP2001098735A
Authority: JP
Inventors: 健生井上
Original assignee: Sanyo Electric Co Ltd
Current assignee: Sanyo Electric Co Ltd
Priority date: 2001-03-30
Filing date: 2001-03-30
Publication date: 2009-01-21
Anticipated expiration: 2021-03-30
Also published as: JP2002297200A

Description

【０００１】
【発明の属する技術分野】
本発明は、音声信号の話速を変える話速変換装置に関し、例えば、映像を伴うテレビ、レーザディスク、ＶＴＲ、ハードディスクレコーダ等の音声の早聞きまたは遅聞きを行なう音声再生装置、聴覚障害者や高齢者のために、放送される音声信号をゆっくりした聞きやすい音声に変換する聴覚補助装置及び該装置を備えた電話機等の機器、さらにはネイティブスピードで話された英語音声をゆっくりした聞きやすい音声に変換する英語学習装置等、種々の機器にて利用が可能な話速変換装置に関する。
【０００２】
尚、話速変換とは、音声信号の時間軸を圧縮してその再生速度を本来の速度よりも速くしたり、あるいは逆に音声信号の時間軸を伸長してその再生速度を本来の速度よりも遅くしたりすることを言う。
【０００３】
【従来の技術】
従来、例えば特開平７−１９２３９２号公報に開示されているように、ＶＴＲの高速再生時において、ビデオテープから読み取られた音声信号のうち、無音区間の音声信号を削除し、有音区間の音声信号をそのピッチ周期に基づいて時間軸上において伸長し、有音区間の音声をユーザによって設定されたＶＴＲの再生速度よりゆっくり再生する話速変換装置が知られており、また、このような話速変換装置を搭載したＶＴＲが実用化されている。
【０００４】
そして、このような話速変換装置においては、近年、処理後の音声出力の高品質化が強く求められるようになってきている。
【０００５】
ところが、上述した従来の装置においては、再生される音声信号がモノラル信号である場合にはその信号を、また、ステレオ信号である場合にはいずれか一方のチャンネルの音声信号を対象として話速変換処理を行っており、ステレオ及び多チャンネルの音声信号に対する話速変換処理が行われておらず、音声出力の品質が低かった。
【０００６】
これに対し、例えば、各チャンネルの音声信号を順次話速変換処理すること、または、従来の音声処理装置を複数用いることにより、各チャンネルの音声信号を並列的に処理することが考えられる。
【０００７】
【発明が解決しようとする課題】
しかしながら、いずれの場合も、各チャンネルの音声信号が独立して処理されるため、各チャンネルの音声信号が異なる場合には、話速変換処理後の音声信号のデータ量に差が生じてしまう。これにより、再生される音声信号の同期がとれなくなり、ユーザに対して違和感を与えてしまうという問題が生じる。
【０００８】
そこで本発明は、このような課題に鑑みてなされたものであって、再生される音声信号の同期を維持しつつ、多チャンネルの音声信号について適切な話速変換処理を行うことができる話速変換装置を提供することを目的とする。
【０００９】
【課題を解決するための手段】
本発明の請求項１における話速変換装置は、音声再生装置より入力される複数チャンネルの入力音声信号をそれら入力音声信号から得られるピッチ周期に基づいて話速変換処理する話速変換装置であって、複数チャンネルの入力音声信号から処理区間毎に各チャンネル共通のピッチ周期を算出するピッチ周期算出手段と、得られたピッチ周期に基づいてその処理区間における各チャンネルの入力音声信号を時間軸圧縮する時間軸圧縮伸長手段とを備えているものである。
【００１０】
また、請求項２は、請求項１における話速変換装置において、処理区間が、ピッチ周期算出手段にて算出されるピッチ周期に応じて変化するものである。
【００１１】
また、請求項３は、請求項１または２における話速変換装置において、ピッチ周期算出手段が、複数チャンネルの入力音声信号を処理区間毎に加算する加算手段を備え、その加算手段にて得られた加算入力音声信号からピッチ周期を算出するものである。
【００１２】
また、請求項４は、請求項１または２における話速変換装置において、ピッチ周期算出手段が、複数チャンネルの入力音声信号から処理区間毎に最大の信号強度を有する方のチャンネルを検出する最大信号強度検出手段を備え、その最大信号強度検出手段にて検出されたチャンネルの入力音声信号からピッチ周期を算出するものである。この信号強度は、例えば、信号のパワー、振幅平均値、または振幅累積値を意味する。
【００１３】
また、請求項４は、請求項１または２における話速変換装置において、ピッチ周期算出手段が、複数チャンネルの入力音声信号から処理区間毎に最大の自己相関値を有する方のチャンネルを検出する最大自己相関値検出手段を備え、その最大自己相関値検出手段にて検出されたチャンネルの入力音声信号からピッチ周期を算出するものである。
【００１４】
本発明の請求項６における話速変換装置は、音声再生装置より入力される複数チャンネルの入力音声信号をそれら入力音声信号から得られるピッチ周期に基づいて話速変換処理する話速変換装置であって、複数チャンネルの入力音声信号を第１の処理区間毎に加算する加算手段と、その加算手段にて得られた加算入力音声信号に基づいてその処理区間が有音区間であるか無音区間であるかを判定する区間判定手段と、その区間判定手段にて無音区間であると判定された処理区間における各チャンネルの入力音声信号を削除する無音区間削除手段と、区間判定手段にて有音区間であると判定された加算入力音声信号から第２の処理区間毎に単一のピッチ周期を算出するピッチ周期算出手段と、そのピッチ周期算出手段にて得られたピッチ周期に基づいてその処理区間における各チャンネルの入力音声信号を時間軸圧縮する時間軸圧縮伸長手段とを備えているものである。
【００１５】
本発明の請求項７における話速変換装置は、音声再生装置から入力される複数チャンネルの入力音声信号を話速変換処理する話速変換処理手段と、その話速変換処理手段にて処理された音声信号が書き込まれる音声メモリと、その音声メモリから音声信号を読み出す読出手段とを備えた話速変換装置であって、話速変換処理手段が、複数チャンネルの入力音声信号から第１の処理区間毎に最大の信号強度を有する方のチャンネルを検出する最大信号強度検出手段と、その最大信号強度検出手段にて検出されたチャンネルの入力音声信号に基づいてその処理区間が有音区間であるか無音区間であるかを判定する区間判定手段と、その区間判定手段にて無音区間であると判定された処理区間における各チャンネルの入力音声信号を削除する無音区間削除手段と、区間判定手段にて有音区間であると判定されたチャンネルの入力音声信号から第２の処理区間毎に単一のピッチ周期を算出するピッチ周期算出手段と、そのピッチ周期算出手段にて得られたピッチ周期に基づいてその処理区間における各チャンネルの入力音声信号を時間軸圧縮する時間軸圧縮伸長手段とを備えているものである。
【００１６】
本発明の請求項８における話速変換装置は、音声再生装置から入力される複数チャンネルの入力音声信号を話速変換処理する話速変換処理手段と、その話速変換処理手段にて処理された音声信号が書き込まれる音声メモリと、その音声メモリから音声信号を読み出す読出手段とを備えた話速変換装置であって、話速変換処理手段が、複数チャンネルの入力音声信号から第１の処理区間毎に最大の自己相関値を有するチャンネルを検出する最大自己相関値検出手段と、その最大自己相関値検出手段にて検出されたチャンネルの入力音声信号に基づいてその処理区間が有音区間であるか無音区間であるかを判定する区間判定手段と、その区間判定手段にて無音区間であると判定された処理区間における各チャンネルの入力音声信号を削除する無音区間削除手段と、区間判定手段にて有音区間であると判定されたチャンネルの入力音声信号から第２の処理区間毎に単一のピッチ周期を算出するピッチ周期算出手段と、そのピッチ周期算出手段にて得られたピッチ周期に基づいてその処理区間における各チャンネルの入力音声信号を時間軸圧縮する時間軸圧縮伸長手段とを備えているものである。
【００１７】
また、請求項９は、請求項６ないし８の何れかの話速変換装置において、第２の処理区間が、ピッチ周期算出手段にて算出されるピッチ周期に応じて変化するものである。
【００１８】
【発明の実施の形態】
以下、図面を参照して、本発明の実施の形態について説明する。
〔１〕第１の実施の形態
図１は、本実施の形態における話速変換装置の構成を示す概略ブロック図である。なお、以下の説明において、圧縮率とは、時間軸圧縮伸長部１４への入力信号の時間長（データ量）をＰ、上記入力信号に対して時間軸圧縮伸長部１４から出力される出力信号の時間長（データ量）をＱとすると、Ｐ／Ｑで定義されるものとする。また、音声メモリ１５内の未読み出しの音声信号の蓄積率とは、音声メモリ１５に記憶できる音声信号の総データ量に対する未読み出しの音声信号の蓄積量の割合〔％〕とし、以下単に蓄積率というものとする。
【００１９】
同図において、１０はハードディスクドライブであり、映像信号と、ステレオ音声再生するために必要な左チャンネル及び右チャンネルの音声信号とが、それぞれの信号の種類を表すヘッダ情報と共に記録されているものとする。なお、左チャンネルと、それに続く右チャンネルの音声信号は、互いに時間的に対応している。
【００２０】
例えば、ＭＰＥＧ方式で符号化されているデジタルテレビ放送を対象とする場合には、受信した放送信号のＴＳ（Transport Stream）について、各パケットの識別情報を参照することにより、映像信号を持つ映像パケットと、ステレオ再生するために必要な左チャンネル及び右チャンネルの音声信号を持つ音声パケットとを分離抽出し、得られた各信号をそれぞれＭＰＥＧ復号処理した後、各信号の種類に応じたヘッダ情報を付けてハードディスクドライブ１０に記録すればよい。このとき、音声信号は、右チャンネルの音声信号と左チャンネルの音声信号とが１データずつ交互に記録されている。
【００２１】
ハードディスクドライブ１０から読み出された信号は、フレームメモリ１１に蓄積される。フレームメモリ１１に蓄積された信号は、信号分析部１２内に設けた信号分離部１２１に送られ、そこでヘッダ情報に基づいて映像信号と音声信号とに分離される。分離された映像信号は、図示しないモニタに送られ、そこで表示される。
【００２２】
一方、信号分離部１２１にて分離された左チャンネル及び右チャンネルの音声信号は、信号加算部１２２に送られる。
【００２３】
信号加算部１２２は、信号分離部１２１より入力される左チャンネル及び右チャンネルの音声信号を順次加算し、両チャンネルの１フレーム分の音声信号が加算された時点で、その加算音声信号を出力する。
【００２４】
区間判定部１２３は、信号加算部１２２より入力される１フレーム分の加算音声信号について、そのパワー、振幅平均値、振幅累積値等の信号強度を求め、得られた値に基づいて入力された加算音声信号が有音区間であるか、無音区間であるかを判定する。ここでは、信号強度として信号のパワーを用いるものとする。
【００２５】
パワーＰは、１フレーム内の加算音声信号の振幅値をｉ₀、ｉ₁、…ｉ_N-1とすると、次式数１によって求められる。
【００２６】
【数１】

【００２７】
上記数１により得られたパワーの平均値Ｐは、予め設定された閾値Ｔｈと比較され、パワーの平均値Ｐが閾値Ｔｈ以上（Ｐ≧Ｔｈ）か、閾値Ｔｈより小さい（Ｐ＜Ｔｈ）かが判定される。そして、区間判定部１２３からは、パワーの平均値Ｐが閾値Ｔｈ以上（Ｐ≧Ｔｈ）のときには現フレームが有音区間であることを示す信号が、また、パワーの平均値Ｐが閾値Ｔｈより小さい（Ｐ＜Ｔｈ）ときには現フレームが無音区間であることを示す信号が出力される。
【００２８】
無音区間削除部１３は、区間判定部１２３より入力される信号に基づいて、無音区間であると判定された区間の加算音声信号を生成する元となった左チャンネルの音声信号及びそれに続く右チャンネルの音声信号を共に削除し、有音区間であると判定された区間の加算音声信号を生成する元となった左チャンネルの音声信号及びそれに続く右チャンネルの音声信号を出力する。
【００２９】
これにより、無音区間として削除されるフレームは、左チャンネル及び右チャンネルの音声信号が互いに時間的に対応するフレームとなるため、有音区間における左チャンネル及び右チャンネルの音声信号についてフレーム単位の同期が維持される。
【００３０】
また、加算音声信号における無音区間は、左チャンネル及び右チャンネルの音声信号の信号強度が共に弱いフレームであることから、両チャンネルの音声信号について適切に無音区間の判定が行われる。
【００３１】
一方、再生音の品質の高い時間軸圧縮伸長処理を行うための方法として、音声信号をそのピッチ周期単位で時間軸圧縮伸長処理する方法が知られており、ここではその方法を用いる。
【００３２】
このため本実施の形態における話速変換装置は、ピッチ周期算出部１２４を備えている。ピッチ周期算出部１２４は、信号加算部１２２より入力される加算音声信号からピッチ周期を算出し、出力する。ここでは、ピッチ周期の算出方法として自己相関を利用する。
【００３３】
自己相関を用いたピッチ周期の算出方法には、信号が時間制限されていると仮定し、時間長Ｔsの区間内だけに信号が存在し、その時間長Ｔsの区間外では信号は常にゼロとして自己相関を求める短時間自己相関を用いる方法がある。これは、コロナ社発行「音声のディジタル信号処理」（上）−L.R.Rabiner＆R.W.Schafer著、鈴木久喜訳−p152-p152にも記載されているように、いま、音声波形をディジタル音声信号ｘ(ｎ)で表すと、前述の方法による短時間自己相関値Ｒｎ(ｋ)は以下のようになる。
【００３４】
【数２】

【００３５】
ここで、Ｔsは音声信号が存在すると仮定した時間区間、ｋは短時間自己相関値Ｒｎ(ｋ)を算出するときに音声波形を遅延させる際の遅延時間であり、Ｔs≫ｋの関係にある。そして、上記数２において、短時間自己相関値Ｒｎ(ｋ)が最大となるようなｋの値を求めると、その値がピッチ周期となる。得られたピッチ周期は、時間軸圧縮伸長部１４へ送られる。
【００３６】
時間軸圧縮伸長部１４は、無音区間削除部１３において無音区間の音声信号が削除された後の音声信号（有音区間の音声信号）について、ピッチ周期算出部１２４より入力されたピッチ周期を左チャンネルの音声信号及びそれに続く右チャンネルの音声信号共通のピッチ周期として、時間軸圧縮伸長処理を行う。なお、この時間軸圧縮伸長処理については、ピッチ周期算出部１２４にて得られたピッチ周期に応じて変化する処理単位で行われる。
【００３７】
この時間軸圧縮伸長部１４における時間軸圧縮処理は、例えば図２に示すように、処理対象となるピッチ周期２周期分の音声波形を切り出した後、ピッチ周期１周期分の波形Ａに１から０に直線的に変化する重み係数を乗じて波形Ａ´を生成し、また、残りの波形Ｂに０から１に直線的に変化する重み係数を乗じて波形Ｂ´を生成し、それぞれを足し合わせることによって、ピッチ周期１周期分の波形Ｃを得ることにより行われる。具体的に圧縮率が１．５倍の場合、図３に示すように、１ピッチ周期目の波形と２ピッチ周期目の波形を１つの波形に圧縮して１つ目の出力波形とし、次に３ピッチ周期目をそのまま２つ目の出力波形とし、更に４ピッチ周期目の波形と５ピッチ周期目の波形を１つの波形に圧縮し３つ目の出力波形とすればよい。
【００３８】
また、時間軸圧縮伸長部１４における時間軸圧縮伸長処理は、例えば図４に示すように、処理対象となるピッチ周期３周期分の音声波形を切り出した後、ピッチ周期２周期分の波形Ａに０から１に直線的に変化する重み係数乗じて波形Ａ´を生成し、また、ピッチ周期２周期分の波形Ｂに例えば１から０に直線的に変化する重み係数を乗じて波形Ｂ´を生成し、それぞれを足し合わせることによって、ピッチ周期１周期分の波形Ｄ及び波形Ｅそれぞれを得ることにより行われる。
【００３９】
このようなピッチ周期に基づく時間軸圧縮伸長処理においては、左チャンネル及び右チャンネルの音声信号について、互いに同一のピッチ周期を用いることにより、時間軸圧縮伸長処理後の音声信号について、左チャンネル及び右チャンネルの同期が維持される。
【００４０】
また、加算音声信号に基づいて得られたピッチ周期は、左チャンネル及び右チャンネルの音声信号にパワーの差がある場合、再生音声の品質に大きく影響するパワーの大きい方のチャンネルの音声信号のピッチ周期に近くなるため、パワーの大きい方のチャンネルの再生音声の品質が高くなる。このとき、パワーの小さい方のチャンネルの再生音声の品質は低くなるが、その影響は小さく、全体として、再生音声の品質が高くなる。例え左チャンネル及び右チャンネルの音声信号にパワーの差がない場合であっても、加算音声信号に基づいて得られたピッチ周期は、両チャンネルの音声信号におけるピッチ周期の中間的な値となるため、左チャンネル及び右チャンネルの音声信号が同程度の品質で再生され、一方のチャンネルに著しい再生音声の品質低下を生じさせることがない。
【００４１】
更に、ピッチ周期算出部１２４における演算処理が、左右２チャンネルの音声信号に対して１チャンネル分の処理量に削減されるため、演算処理にかかる負荷が軽減される。
【００４２】
そして、時間軸圧縮伸長部１４によって時間軸圧縮伸長処理が行われた音声信号は、一旦音声メモリ１５に蓄積され、そこから時間軸圧縮伸長処理における圧縮率に関係なく標準再生速度で読み出される。
【００４３】
この時間軸圧縮処理における圧縮率は、ユーザから指示される再生モードと音声メモリ１５の蓄積率とに応じて決定される。このため、本実施の形態における話速変換装置は、音声メモリ１５の蓄積率を算出する蓄積率算出部１６を備えている。蓄積率算出部１６によって算出された蓄積率は話速制御部１７に送られる。
【００４４】
話速制御部１７は、ユーザによって設定された再生モードと蓄積率とに基づいて時間軸圧縮伸長部１４で用いられる圧縮率を制御する。
【００４５】
例えば、ユーザが高速再生モードを設定したとする。この場合、ハードディスクドライブ１０から読み出されてモニタに出力される映像の再生速度（以下、設定再生速度と称する）は１．５倍となるが、音声はその設定再生速度と同じかそれより遅い速度で出力される。
【００４６】
表１は、高速再生モードにおける蓄積率と圧縮率との関係を示している。
【００４７】
【表１】

【００４８】
話速制御部１７は、上記表１の蓄積率と圧縮率との関係を記憶した蓄積率／圧縮率テーブルを備えており、蓄積率算出部１６から蓄積率が送られてくると、この蓄積率／圧縮率テーブルに基づいて、蓄積率算出部１６から送られてきた蓄積率に対応する圧縮率を読み出し、時間軸圧縮伸長部１４に設定する。
（１）蓄積率が０〜３０％（０以上且つ３０％未満）である場合
蓄積率が０〜３０％である場合には、圧縮率は１に設定される。この場合、ハードディスクドライブ１０から読み出された音声信号は、一旦フレームメモリ１１に格納され、そこから設定再生速度倍率１．５に応じた再生速度（４８ｋＨｚ）で読み出される。
【００４９】
フレームメモリ１１から読み出された音声信号は、無音区間削除部１３によって無音区間の信号が削除された後、時間軸圧縮伸長部１４において時間軸圧縮伸長処理は行われずに、音声メモリ１５に蓄積される。音声メモリ１５に蓄積された音声信号は、Ｌ／Ｒ分離部１８において左チャンネル及び右チャンネルの音声信号に分離された後、それぞれＤ／Ａ変換部１９１、１９２によって標準サンプリング周波数（３２ｋＨｚ）でサンプリングされて出力される。従って、出力音声の話速は、標準再生速度（１倍速再生時の再生速度）で再生されたときの出力音声の話速と等しくなる。
【００５０】
音声信号に無音区間の信号が少ない場合、音声メモリ１５への書き込み速度は、音声メモリ１５からのデータ読み出し速度より速いので、音声メモリ１５内の未読み出しのデータの蓄積量が増加していく。この未読み出しの音声信号の蓄積量が増加していく速度は、音声信号に無音区間の信号が少なくなる程、速くなる。一方、音声信号に無音区間の信号が多くなると、その無音区間のデータ量によっては、逆に音声メモリ１５内の未読み出しのデータの蓄積量が減少する。
【００５１】
なお、表１には記載していないが、音声メモリ１５の蓄積率が１０％未満となった場合、話速制御部１７から無音区間削除部１３に対して無音区間の削除を禁止する制御信号が出力され、その後音声メモリ１５の蓄積率が２０％を超えた場合、話速制御部１７から無音区間削除部１３に対して無音区間の削除を再開する制御信号が出力されることになっている。
（２）蓄積率が３０〜６０％（３０以上且つ６０％未満）である場合
蓄積率が３０〜６０％である場合には、圧縮率は１．２に設定される。この場合には、時間軸圧縮伸長部１４は、入力信号の時間長Ｐと出力信号の時間長Ｑとの比が１．２：１となるように、音声信号に対して時間軸圧縮伸長処理を行う。この結果、出力音声の話速は、標準再生速度（１倍速再生時の再生速度）で再生されたときの音声出力の話速よりも若干速くなる。一方、音声メモリ１５に入力される有音区間の音声データ量が低減されるので、上記（１）の場合に比べて、音声メモリ１５内の未読み出しのデータの蓄積量が増加していく速度が遅くなり、無音区間のデータ量によっては、逆に音声メモリ１５内の未読み出しのデータの蓄積量が減少する。
（３）蓄積率が６０〜９０％（６０以上且つ９０％未満）である場合
蓄積率が６０〜９０％である場合には、圧縮率は１．４に設定される。この場合には、時間軸圧縮伸長部１４は、入力信号の時間長Ｐと出力信号の時間長Ｑとの比が１．４：１となるように、入力信号に対して時間軸圧縮伸長処理を行う。この結果、出力音声の話速は、上記（２）の場合に比べて更に速くなる。
【００５２】
一方、音声メモリ１５に入力される有音区間のデータ量が上記（２）の場合に比べて更に低減されるので、音声メモリ１５内の未読み出しのデータの蓄積量が増加していく速度が遅くなり、無音区間のデータ量によっては、逆に音声メモリ１５内の未読み出しのデータの蓄積量が減少する。
（４）蓄積率が９０〜１００％（９０以上且つ１００％未満）である場合
蓄積率が９０〜１００％である場合には、圧縮率は１．５に設定される。この場合には、時間軸圧縮伸長部１４は、入力信号の時間長Ｐと出力信号の時間長Ｑとの比が１．５：１となるように、入力信号に対して時間軸圧縮伸長処理を行う。この結果、出力音声の話速は、上記（３）の場合に比べて更に速くなる。
【００５３】
一方、音声メモリ１５への書き込み速度は、音声メモリ１５からのデータ読み出し速度と等しいので、無音区間削除部１３によって削除された無音区間のデータ量だけ音声メモリ１５内の未読み出しのデータの蓄積量が減少する。音声メモリ１５内の未読み出しの音声信号の蓄積量が減少していく速度は、無音区間のデータ量が多くなる程、速くなる。
【００５４】
次に、標準再生速度で再生する場合において、音声がその再生速度と同じかそれより遅い速度で再生される遅聞きモードの動作について説明する。
【００５５】
表２は、遅聞き再生モードにおける蓄積率と圧縮率との関係を示している。
【００５６】
【表２】

【００５７】
話速制御部１７は、上記表２の蓄積率と圧縮率との関係を記憶した蓄積率／圧縮率テーブルを備えており、蓄積率算出部１６から蓄積率が送られてくると、この蓄積率／圧縮率テーブルに基づいて、蓄積率算出部１６から送られてきた蓄積率に対応する圧縮率を読み出し、時間軸圧縮伸長部１４に設定する。そして、上述した高速再生モードと同様に、時間軸圧縮伸長部１４において蓄積率に応じた圧縮率で時間軸圧縮伸長処理が行われる。
〔２〕第２の実施の形態
第１の実施の形態では、左チャンネル及び右チャンネルの音声信号を加算した加算音声信号を用いて、区間判定及びピッチ周期算出を行う場合について説明したが、本実施の形態では、左チャンネル及び右チャンネルの音声信号それぞれの信号強度に基づいて選択されるいずれか一方の音声信号を用いて、区間判定及びピッチ周期算出を行う場合について説明する。
【００５８】
図５は、第１の実施の形態における信号分析部１２の別の構成（信号分析部２２）を示す概略ブロック図である。なお、第１の実施の形態と同様の構成については同一の図番を付している。
【００５９】
同図において、２２１は信号強度算出部であり、フレームメモリ１１から信号分離部１２１を介して入力される左チャンネル及び右チャンネルの音声信号について、１フレーム分の信号強度を算出する。信号強度としては、第１の実施の形態において説明したとおり、信号のパワー、振幅平均値、振幅累積値等を用いることができる。
【００６０】
信号強度判定部２２２は、信号強度算出部２２１から入力される互いに時間的に対応する左チャンネル及び右チャンネルの音声信号についての信号強度を比較して、信号強度の強い方のチャンネルを示す信号が出力される。
【００６１】
音声信号選択部２２３は、信号強度判定部２２２より入力される信号に基づいて、信号強度が弱いと判定されたチャンネル側の音声信号を削除し、信号強度が強いと判定されたチャンネル側の音声信号を出力する。この結果、出力される音声信号は、互いに時間的に対応する左チャンネル及び右チャンネルの音声信号のうち信号強度の強い方のチャンネルの音声信号をフレーム単位で繋げた構成となる。
【００６２】
区間判定部１２３は、音声信号選択部２２３から入力される音声信号について、先に信号強度算出部２２１にて算出された信号強度の値を参照することにより入力された音声信号が有音区間であるか、無音区間であるかを判定する。
【００６３】
信号強度算出部２２１にて算出された信号強度は、予め設定された閾値と比較され、信号強度の値が閾値以上のときには現フレームが有音区間であることを示す信号が、また、信号強度の値が閾値より小さいときには現フレームが無音区間であることを示す信号が無音区間削除部１３に出力される。
【００６４】
無音区間削除部１３は、第１の実施の形態と同様に、区間判定部１２３より入力される信号に基づいて、無音区間であると判定された区間の左チャンネルの音声信号及びそれに続く右チャンネルの音声信号を共に削除し、有音区間であると判定された区間の左チャンネルの音声信号及びそれに続く右チャンネルの音声信号を出力する。
【００６５】
これにより、無音区間として削除されるフレームは、左チャンネル及び右チャンネルの音声信号が互いに時間的に対応するフレームとなるため、有音区間における左チャンネル及び右チャンネルの音声信号についてフレーム単位の同期が維持される。
【００６６】
また、左チャンネル及び右チャンネルの音声信号のうち信号強度の強い方をフレーム単位で選択することにより得られる音声信号における無音区間は、信号強度の弱い方の音声信号も無音区間となることから、両チャンネルの音声信号について適切に無音区間の判定が行われる。
【００６７】
一方、ピッチ周期算出部１２４は、音声信号選択部２２３から入力される音声信号について、第１の実施の形態と同様に、自己相関を用いてピッチ周期を算出し、時間軸圧縮伸長部１４に出力する。
【００６８】
時間軸圧縮伸長部１４は、ピッチ周期算出部１２４より入力される単一のピッチ周期に基づいて、有音区間であると判定された区間の左チャンネルの音声信号及びそれに続く右チャンネルの音声信号について、時間軸圧縮伸長処理を行い、出力する。
【００６９】
これにより、左チャンネル及び右チャンネルの音声信号は、ともに音声信号選択部２２３にて選択された左チャンネル及び右チャンネルのいずれか一方の音声信号から算出された共通のピッチ周期に基づいて時間軸圧縮伸長処理が行われるため、両チャンネルの同期が維持される。
【００７０】
また、左チャンネル及び右チャンネルのうち信号強度の強い方の音声信号に基づいてピッチ周期を算出しているため、例え、それが信号強度の弱い側の音声信号のピッチ周期と異なっている場合であっても、再生時における影響は小さく、全体としては、再生音声の品質が高くなる。
【００７１】
更に、ピッチ周期算出部１４における演算処理が、左右２チャンネルの音声信号に対して１チャンネル分の処理量に削減されるため、演算処理にかかる負荷が軽減される。
【００７２】
そして、時間軸圧縮伸長部１４によって時間軸圧縮伸長処理が行われた音声信号は、一旦音声メモリ１５に蓄積され、そこから読み出される。
〔３〕第３の実施の形態
第２の実施の形態では、左チャンネル及び右チャンネルの音声信号それぞれの信号強度に基づいて選択されるいずれか一方の音声信号を用いて、区間判定及びピッチ周期算出の算出を行う場合について説明したが、本実施の形態では、左チャンネル及び右チャンネルそれぞれの自己相関係数に基づいて選択されるいずれか一方の音声信号を用いて、区間判定及びピッチ周期算出の算出を行う場合について説明する。
【００７３】
図６は、第１の実施の形態における信号分析部１２の別の構成（信号分析部２３）を示す概略ブロック図である。なお、第１の実施の形態と同様の構成については同一の図番を付している。
【００７４】
同図において、２３１は自己相関係数算出部であり、フレームメモリ１１から信号分離部１２１を介して入力される左チャンネル及び右チャンネルの音声信号それぞれについて、第１の実施の形態におけるピッチ周期の演算と同様の手法により求められる自己相関値Ｒｎ(ｋ)を自己相関値Ｒ（０）で除算した自己相関係数の最大値を算出する。
【００７５】
自己相関判定部２３２は、自己相関係数算出部２３１から入力される互いに時間的に対応する左チャンネル及び右チャンネルの音声信号それぞれについての自己相関係数の最大値を比較し、その結果、自己相関係数の最大値の大きい方のチャンネルを示す信号が出力される。
【００７６】
音声信号選択部２３３は、自己相関判定部２３２より入力される信号に基づいて、相関が低い（自己相関係数の最大値が小さい）と判定されたチャンネル側の音声信号を削除し、相関が高い（自己相関係数の最大値が大きい）と判定されたチャンネル側の音声信号を出力する。この結果、出力された音声信号は、互いに時間的に対応する左チャンネル及び右チャンネルの音声信号のうち相関の高い方のチャンネルの音声信号をフレーム単位で繋げた構成となる。
【００７７】
一方、信号加算部２３４は、信号分離部１２１より入力される左チャンネル及び右チャンネルの音声信号を順次加算し、両チャンネルの１フレーム分のデータが加算された時点で、その加算音声信号を出力する。
【００７８】
区間判定部１２３は、信号加算部２３４から入力される音声信号について、信号強度を求め、得られた値に基づいて入力された音声信号が有音区間であるか、無音区間であるかを判定し、その信号を無音区間削除部１３に出力する。
【００７９】
無音区間削除部１３は、第１の実施の形態と同様に、区間判定部１２３より入力される信号に基づいて、無音区間であると判定された区間の左チャンネルの音声信号及びそれに続く右チャンネルの音声信号を共に削除し、有音区間であると判定された区間の左チャンネルの音声信号及びそれに続く右チャンネルの音声信号を出力する。
【００８０】
これにより、無音区間として削除されるフレームは、左チャンネル及び右チャンネルの音声信号が互いに時間的に対応するフレームとなるため、有音区間における左チャンネル及び右チャンネルの音声信号についてフレーム単位の同期が維持される。
【００８１】
また、加算音声信号における無音区間は、左チャンネル及び右チャンネルの音声信号の信号強度が共に弱いフレームであることから、両チャンネルの音声信号について適切に無音区間の判定が行われる。
【００８２】
一方、ピッチ周期算出部１２４は、先に自己相関係数算出部２３１にて算出された自己相関係数の最大値に対応するピッチ周期を求め、時間軸圧縮伸長部１４に出力する。
【００８３】
時間軸圧縮伸長部１４は、ピッチ周期算出部１２４より入力される単一のピッチ周期に基づいて、有音区間であると判定された区間の左チャンネルの音声信号及びそれに続く右チャンネルの音声データについて、時間軸圧縮伸長処理を行い、その結果を出力する。
【００８４】
これにより、左チャンネル及び右チャンネルの音声信号は、ともに音声信号選択部２３３にて選択された左チャンネル及び右チャンネルのいずれか一方の音声信号から算出された共通のピッチ周期に基づいて時間軸圧縮伸長処理が行われるため、両チャンネルの同期が維持される。
【００８５】
また、左チャンネル及び右チャンネルのうち相関の高い方の音声信号に基づいてピッチ周期を算出しているため、例え、それが、相関の低い側の音声信号のピッチ周期と異なっている場合であっても、再生時における影響は小さく、全体としては、再生音声の品質が高くなる。
【００８６】
そして、時間軸圧縮伸長部１４によって時間軸圧縮伸長処理が行われた音声信号は、一旦音声メモリ１５に蓄積され、そこから読み出される。
【００８７】
なお、上述した各実施の形態においては、入力される左チャンネル及び右チャンネルの音声信号全てを対象として無音区間の削除及び時間軸圧縮伸長処理を行ったが、互いに時間的に対応する左チャンネル及び右チャンネルの音声信号についてフレーム単位で減算し、得られた差分値に応じて、無音区間の削除及び時間軸圧縮伸長処理を行うか否かを判定する構成を設けてもよい。すなわち、差分値が予め定められた閾値以上の場合、両音声信号が相違しているため、無音区間の削除及び時間軸圧縮伸長処理を行わず、差分値が閾値より小さい場合、両音声信号が類似しているため、無音区間の削除及び時間軸圧縮伸長処理を行う。
【００８８】
この場合、時間的に対応する左チャンネル及び右チャンネルの音声信号が類似しているフレームだけに無音区間の削除及び時間軸圧縮伸長処理が行われるため、左チャンネル及び右チャンネルで共通のピッチ周期を用いても、これによる音質の劣化は極めて小さくなる。
【００８９】
また、上述した各実施の形態においては、ハードディスクドライブ１０から読み出される音声データが２チャンネルである場合について説明したが、３チャンネルもしくはそれ以上の場合においても同様の効果を得ることが可能である。
【００９０】
【発明の効果】
本発明によれば、複数チャンネルの入力音声信号に対し単一のピッチ周期で時間軸圧縮伸長処理を行っているため、再生される音声信号の同期を維持しつつ話速変換処理を行うことが可能となる。
【図面の簡単な説明】
【図１】本発明の第１の実施の形態における話速変換装置の構成を示す概略ブロック図である。
【図２】図１の話速変換装置における時間軸圧縮処理の原理を説明する説明図である。
【図３】図２の時間軸圧縮処理の原理を用いた時間軸圧縮処理の一例を説明する説明図である。
【図４】図１の話速変換装置における時間軸圧縮伸長処理の原理を説明する説明図である。
【図５】本発明の第２の実施の形態における話速変換装置の信号分析部の構成を示す概略ブロック図である。
【図６】本発明の第３の実施の形態における話速変換装置の信号部分析部の構成を示す概略ブロック図である。
【符号の説明】
１０：ハードディスクドライブ
１１：フレームメモリ
１２：信号解析部
１２１：信号分離部
１２２：信号加算部
１２３：区間判定部
１２４：ピッチ周期算出部
１３：無音区間削除部
１４：時間軸圧縮伸長部
１５：音声メモリ
１６：蓄積率算出部
１７：話速変換部
１８：Ｌ／Ｒ分離部
１９１：Ｄ／Ａコンバータ
１９２：Ｄ／Ａコンバータ

Claims

音声再生装置より入力される複数チャンネルの入力音声信号をそれら入力音声信号から得られるピッチ周期に基づいて話速変換処理する話速変換装置であって、
前記複数チャンネルの入力音声信号から処理区間毎に各チャンネル共通のピッチ周期を算出するピッチ周期算出手段と、得られたピッチ周期に基づいて当該処理区間における各チャンネルの入力音声信号を時間軸圧縮する時間軸圧縮伸長手段とを備え、
前記ピッチ周期算出手段が、前記複数チャンネルの入力音声信号から前記処理区間毎に最大の自己相関値を有する方のチャンネルを検出する最大自己相関値検出手段を備え、該最大自己相関値検出手段にて検出されたチャンネルの入力音声信号からピッチ周期を算出することを特徴とする話速変換装置。
前記処理区間が、前記ピッチ周期算出手段にて算出されるピッチ周期に応じて変化することを特徴とする請求項１記載の話速変換装置。
音声再生装置から入力される複数チャンネルの入力音声信号を話速変換処理する話速変換処理手段と、該話速変換処理手段にて処理された音声信号が書き込まれる音声メモリと、該音声メモリから音声信号を読み出す読出手段とを備えた話速変換装置であって、
前記話速変換処理手段が、前記複数チャンネルの入力音声信号から第１の処理区間毎に最大の自己相関値を有するチャンネルを検出する最大自己相関値検出手段と、該最大自己相関値検出手段にて検出されたチャンネルの入力音声信号に基づいて当該処理区間が有音区間であるか無音区間であるかを判定する区間判定手段と、該区間判定手段にて無音区間であると判定された処理区間における各チャンネルの入力音声信号を削除する無音区間削除手段と、前記区間判定手段にて有音区間であると判定されたチャンネルの入力音声信号から第２の処理区間毎に単一のピッチ周期を算出するピッチ周期算出手段と、該ピッチ周期算出手段にて得られたピッチ周期に基づいて当該処理区間における各チャンネルの入力音声信号を時間軸圧縮する時間軸圧縮伸長手段とを備えたことを特徴とする話速変換装置。
前記第２の処理区間が、前記ピッチ周期算出手段にて算出されるピッチ周期に応じて変化することを特徴とする請求項３記載の話速変換装置。