JP4212253B2 - 話速変換装置 - Google Patents
話速変換装置 Download PDFInfo
- Publication number
- JP4212253B2 JP4212253B2 JP2001098735A JP2001098735A JP4212253B2 JP 4212253 B2 JP4212253 B2 JP 4212253B2 JP 2001098735 A JP2001098735 A JP 2001098735A JP 2001098735 A JP2001098735 A JP 2001098735A JP 4212253 B2 JP4212253 B2 JP 4212253B2
- Authority
- JP
- Japan
- Prior art keywords
- pitch period
- signal
- channel
- section
- audio signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Images
Landscapes
- Electrically Operated Instructional Devices (AREA)
- Signal Processing For Digital Recording And Reproducing (AREA)
Description
【発明の属する技術分野】
本発明は、音声信号の話速を変える話速変換装置に関し、例えば、映像を伴うテレビ、レーザディスク、VTR、ハードディスクレコーダ等の音声の早聞きまたは遅聞きを行なう音声再生装置、聴覚障害者や高齢者のために、放送される音声信号をゆっくりした聞きやすい音声に変換する聴覚補助装置及び該装置を備えた電話機等の機器、さらにはネイティブスピードで話された英語音声をゆっくりした聞きやすい音声に変換する英語学習装置等、種々の機器にて利用が可能な話速変換装置に関する。
【0002】
尚、話速変換とは、音声信号の時間軸を圧縮してその再生速度を本来の速度よりも速くしたり、あるいは逆に音声信号の時間軸を伸長してその再生速度を本来の速度よりも遅くしたりすることを言う。
【0003】
【従来の技術】
従来、例えば特開平7−192392号公報に開示されているように、VTRの高速再生時において、ビデオテープから読み取られた音声信号のうち、無音区間の音声信号を削除し、有音区間の音声信号をそのピッチ周期に基づいて時間軸上において伸長し、有音区間の音声をユーザによって設定されたVTRの再生速度よりゆっくり再生する話速変換装置が知られており、また、このような話速変換装置を搭載したVTRが実用化されている。
【0004】
そして、このような話速変換装置においては、近年、処理後の音声出力の高品質化が強く求められるようになってきている。
【0005】
ところが、上述した従来の装置においては、再生される音声信号がモノラル信号である場合にはその信号を、また、ステレオ信号である場合にはいずれか一方のチャンネルの音声信号を対象として話速変換処理を行っており、ステレオ及び多チャンネルの音声信号に対する話速変換処理が行われておらず、音声出力の品質が低かった。
【0006】
これに対し、例えば、各チャンネルの音声信号を順次話速変換処理すること、または、従来の音声処理装置を複数用いることにより、各チャンネルの音声信号を並列的に処理することが考えられる。
【0007】
【発明が解決しようとする課題】
しかしながら、いずれの場合も、各チャンネルの音声信号が独立して処理されるため、各チャンネルの音声信号が異なる場合には、話速変換処理後の音声信号のデータ量に差が生じてしまう。これにより、再生される音声信号の同期がとれなくなり、ユーザに対して違和感を与えてしまうという問題が生じる。
【0008】
そこで本発明は、このような課題に鑑みてなされたものであって、再生される音声信号の同期を維持しつつ、多チャンネルの音声信号について適切な話速変換処理を行うことができる話速変換装置を提供することを目的とする。
【0009】
【課題を解決するための手段】
本発明の請求項1における話速変換装置は、音声再生装置より入力される複数チャンネルの入力音声信号をそれら入力音声信号から得られるピッチ周期に基づいて話速変換処理する話速変換装置であって、複数チャンネルの入力音声信号から処理区間毎に各チャンネル共通のピッチ周期を算出するピッチ周期算出手段と、得られたピッチ周期に基づいてその処理区間における各チャンネルの入力音声信号を時間軸圧縮する時間軸圧縮伸長手段とを備えているものである。
【0010】
また、請求項2は、請求項1における話速変換装置において、処理区間が、ピッチ周期算出手段にて算出されるピッチ周期に応じて変化するものである。
【0011】
また、請求項3は、請求項1または2における話速変換装置において、ピッチ周期算出手段が、複数チャンネルの入力音声信号を処理区間毎に加算する加算手段を備え、その加算手段にて得られた加算入力音声信号からピッチ周期を算出するものである。
【0012】
また、請求項4は、請求項1または2における話速変換装置において、ピッチ周期算出手段が、複数チャンネルの入力音声信号から処理区間毎に最大の信号強度を有する方のチャンネルを検出する最大信号強度検出手段を備え、その最大信号強度検出手段にて検出されたチャンネルの入力音声信号からピッチ周期を算出するものである。この信号強度は、例えば、信号のパワー、振幅平均値、または振幅累積値を意味する。
【0013】
また、請求項4は、請求項1または2における話速変換装置において、ピッチ周期算出手段が、複数チャンネルの入力音声信号から処理区間毎に最大の自己相関値を有する方のチャンネルを検出する最大自己相関値検出手段を備え、その最大自己相関値検出手段にて検出されたチャンネルの入力音声信号からピッチ周期を算出するものである。
【0014】
本発明の請求項6における話速変換装置は、音声再生装置より入力される複数チャンネルの入力音声信号をそれら入力音声信号から得られるピッチ周期に基づいて話速変換処理する話速変換装置であって、複数チャンネルの入力音声信号を第1の処理区間毎に加算する加算手段と、その加算手段にて得られた加算入力音声信号に基づいてその処理区間が有音区間であるか無音区間であるかを判定する区間判定手段と、その区間判定手段にて無音区間であると判定された処理区間における各チャンネルの入力音声信号を削除する無音区間削除手段と、区間判定手段にて有音区間であると判定された加算入力音声信号から第2の処理区間毎に単一のピッチ周期を算出するピッチ周期算出手段と、そのピッチ周期算出手段にて得られたピッチ周期に基づいてその処理区間における各チャンネルの入力音声信号を時間軸圧縮する時間軸圧縮伸長手段とを備えているものである。
【0015】
本発明の請求項7における話速変換装置は、音声再生装置から入力される複数チャンネルの入力音声信号を話速変換処理する話速変換処理手段と、その話速変換処理手段にて処理された音声信号が書き込まれる音声メモリと、その音声メモリから音声信号を読み出す読出手段とを備えた話速変換装置であって、話速変換処理手段が、複数チャンネルの入力音声信号から第1の処理区間毎に最大の信号強度を有する方のチャンネルを検出する最大信号強度検出手段と、その最大信号強度検出手段にて検出されたチャンネルの入力音声信号に基づいてその処理区間が有音区間であるか無音区間であるかを判定する区間判定手段と、その区間判定手段にて無音区間であると判定された処理区間における各チャンネルの入力音声信号を削除する無音区間削除手段と、区間判定手段にて有音区間であると判定されたチャンネルの入力音声信号から第2の処理区間毎に単一のピッチ周期を算出するピッチ周期算出手段と、そのピッチ周期算出手段にて得られたピッチ周期に基づいてその処理区間における各チャンネルの入力音声信号を時間軸圧縮する時間軸圧縮伸長手段とを備えているものである。
【0016】
本発明の請求項8における話速変換装置は、音声再生装置から入力される複数チャンネルの入力音声信号を話速変換処理する話速変換処理手段と、その話速変換処理手段にて処理された音声信号が書き込まれる音声メモリと、その音声メモリから音声信号を読み出す読出手段とを備えた話速変換装置であって、話速変換処理手段が、複数チャンネルの入力音声信号から第1の処理区間毎に最大の自己相関値を有するチャンネルを検出する最大自己相関値検出手段と、その最大自己相関値検出手段にて検出されたチャンネルの入力音声信号に基づいてその処理区間が有音区間であるか無音区間であるかを判定する区間判定手段と、その区間判定手段にて無音区間であると判定された処理区間における各チャンネルの入力音声信号を削除する無音区間削除手段と、区間判定手段にて有音区間であると判定されたチャンネルの入力音声信号から第2の処理区間毎に単一のピッチ周期を算出するピッチ周期算出手段と、そのピッチ周期算出手段にて得られたピッチ周期に基づいてその処理区間における各チャンネルの入力音声信号を時間軸圧縮する時間軸圧縮伸長手段とを備えているものである。
【0017】
また、請求項9は、請求項6ないし8の何れかの話速変換装置において、第2の処理区間が、ピッチ周期算出手段にて算出されるピッチ周期に応じて変化するものである。
【0018】
【発明の実施の形態】
以下、図面を参照して、本発明の実施の形態について説明する。
〔1〕第1の実施の形態
図1は、本実施の形態における話速変換装置の構成を示す概略ブロック図である。なお、以下の説明において、圧縮率とは、時間軸圧縮伸長部14への入力信号の時間長(データ量)をP、上記入力信号に対して時間軸圧縮伸長部14から出力される出力信号の時間長(データ量)をQとすると、P/Qで定義されるものとする。また、音声メモリ15内の未読み出しの音声信号の蓄積率とは、音声メモリ15に記憶できる音声信号の総データ量に対する未読み出しの音声信号の蓄積量の割合〔%〕とし、以下単に蓄積率というものとする。
【0019】
同図において、10はハードディスクドライブであり、映像信号と、ステレオ音声再生するために必要な左チャンネル及び右チャンネルの音声信号とが、それぞれの信号の種類を表すヘッダ情報と共に記録されているものとする。なお、左チャンネルと、それに続く右チャンネルの音声信号は、互いに時間的に対応している。
【0020】
例えば、MPEG方式で符号化されているデジタルテレビ放送を対象とする場合には、受信した放送信号のTS(Transport Stream)について、各パケットの識別情報を参照することにより、映像信号を持つ映像パケットと、ステレオ再生するために必要な左チャンネル及び右チャンネルの音声信号を持つ音声パケットとを分離抽出し、得られた各信号をそれぞれMPEG復号処理した後、各信号の種類に応じたヘッダ情報を付けてハードディスクドライブ10に記録すればよい。このとき、音声信号は、右チャンネルの音声信号と左チャンネルの音声信号とが1データずつ交互に記録されている。
【0021】
ハードディスクドライブ10から読み出された信号は、フレームメモリ11に蓄積される。フレームメモリ11に蓄積された信号は、信号分析部12内に設けた信号分離部121に送られ、そこでヘッダ情報に基づいて映像信号と音声信号とに分離される。分離された映像信号は、図示しないモニタに送られ、そこで表示される。
【0022】
一方、信号分離部121にて分離された左チャンネル及び右チャンネルの音声信号は、信号加算部122に送られる。
【0023】
信号加算部122は、信号分離部121より入力される左チャンネル及び右チャンネルの音声信号を順次加算し、両チャンネルの1フレーム分の音声信号が加算された時点で、その加算音声信号を出力する。
【0024】
区間判定部123は、信号加算部122より入力される1フレーム分の加算音声信号について、そのパワー、振幅平均値、振幅累積値等の信号強度を求め、得られた値に基づいて入力された加算音声信号が有音区間であるか、無音区間であるかを判定する。ここでは、信号強度として信号のパワーを用いるものとする。
【0025】
パワーPは、1フレーム内の加算音声信号の振幅値をi0、i1、…iN-1とすると、次式数1によって求められる。
【0026】
【数1】
【0027】
上記数1により得られたパワーの平均値Pは、予め設定された閾値Thと比較され、パワーの平均値Pが閾値Th以上(P≧Th)か、閾値Thより小さい(P<Th)かが判定される。そして、区間判定部123からは、パワーの平均値Pが閾値Th以上(P≧Th)のときには現フレームが有音区間であることを示す信号が、また、パワーの平均値Pが閾値Thより小さい(P<Th)ときには現フレームが無音区間であることを示す信号が出力される。
【0028】
無音区間削除部13は、区間判定部123より入力される信号に基づいて、無音区間であると判定された区間の加算音声信号を生成する元となった左チャンネルの音声信号及びそれに続く右チャンネルの音声信号を共に削除し、有音区間であると判定された区間の加算音声信号を生成する元となった左チャンネルの音声信号及びそれに続く右チャンネルの音声信号を出力する。
【0029】
これにより、無音区間として削除されるフレームは、左チャンネル及び右チャンネルの音声信号が互いに時間的に対応するフレームとなるため、有音区間における左チャンネル及び右チャンネルの音声信号についてフレーム単位の同期が維持される。
【0030】
また、加算音声信号における無音区間は、左チャンネル及び右チャンネルの音声信号の信号強度が共に弱いフレームであることから、両チャンネルの音声信号について適切に無音区間の判定が行われる。
【0031】
一方、再生音の品質の高い時間軸圧縮伸長処理を行うための方法として、音声信号をそのピッチ周期単位で時間軸圧縮伸長処理する方法が知られており、ここではその方法を用いる。
【0032】
このため本実施の形態における話速変換装置は、ピッチ周期算出部124を備えている。ピッチ周期算出部124は、信号加算部122より入力される加算音声信号からピッチ周期を算出し、出力する。ここでは、ピッチ周期の算出方法として自己相関を利用する。
【0033】
自己相関を用いたピッチ周期の算出方法には、信号が時間制限されていると仮定し、時間長Tsの区間内だけに信号が存在し、その時間長Tsの区間外では信号は常にゼロとして自己相関を求める短時間自己相関を用いる方法がある。これは、コロナ社発行「音声のディジタル信号処理」(上)−L.R.Rabiner&R.W.Schafer著、鈴木久喜訳−p152-p152にも記載されているように、いま、音声波形をディジタル音声信号x(n)で表すと、前述の方法による短時間自己相関値Rn(k)は以下のようになる。
【0034】
【数2】
【0035】
ここで、Tsは音声信号が存在すると仮定した時間区間、kは短時間自己相関値Rn(k)を算出するときに音声波形を遅延させる際の遅延時間であり、Ts≫kの関係にある。そして、上記数2において、短時間自己相関値Rn(k)が最大となるようなkの値を求めると、その値がピッチ周期となる。得られたピッチ周期は、時間軸圧縮伸長部14へ送られる。
【0036】
時間軸圧縮伸長部14は、無音区間削除部13において無音区間の音声信号が削除された後の音声信号(有音区間の音声信号)について、ピッチ周期算出部124より入力されたピッチ周期を左チャンネルの音声信号及びそれに続く右チャンネルの音声信号共通のピッチ周期として、時間軸圧縮伸長処理を行う。なお、この時間軸圧縮伸長処理については、ピッチ周期算出部124にて得られたピッチ周期に応じて変化する処理単位で行われる。
【0037】
この時間軸圧縮伸長部14における時間軸圧縮処理は、例えば図2に示すように、処理対象となるピッチ周期2周期分の音声波形を切り出した後、ピッチ周期1周期分の波形Aに1から0に直線的に変化する重み係数を乗じて波形A´を生成し、また、残りの波形Bに0から1に直線的に変化する重み係数を乗じて波形B´を生成し、それぞれを足し合わせることによって、ピッチ周期1周期分の波形Cを得ることにより行われる。具体的に圧縮率が1.5倍の場合、図3に示すように、1ピッチ周期目の波形と2ピッチ周期目の波形を1つの波形に圧縮して1つ目の出力波形とし、次に3ピッチ周期目をそのまま2つ目の出力波形とし、更に4ピッチ周期目の波形と5ピッチ周期目の波形を1つの波形に圧縮し3つ目の出力波形とすればよい。
【0038】
また、時間軸圧縮伸長部14における時間軸圧縮伸長処理は、例えば図4に示すように、処理対象となるピッチ周期3周期分の音声波形を切り出した後、ピッチ周期2周期分の波形Aに0から1に直線的に変化する重み係数乗じて波形A´を生成し、また、ピッチ周期2周期分の波形Bに例えば1から0に直線的に変化する重み係数を乗じて波形B´を生成し、それぞれを足し合わせることによって、ピッチ周期1周期分の波形D及び波形Eそれぞれを得ることにより行われる。
【0039】
このようなピッチ周期に基づく時間軸圧縮伸長処理においては、左チャンネル及び右チャンネルの音声信号について、互いに同一のピッチ周期を用いることにより、時間軸圧縮伸長処理後の音声信号について、左チャンネル及び右チャンネルの同期が維持される。
【0040】
また、加算音声信号に基づいて得られたピッチ周期は、左チャンネル及び右チャンネルの音声信号にパワーの差がある場合、再生音声の品質に大きく影響するパワーの大きい方のチャンネルの音声信号のピッチ周期に近くなるため、パワーの大きい方のチャンネルの再生音声の品質が高くなる。このとき、パワーの小さい方のチャンネルの再生音声の品質は低くなるが、その影響は小さく、全体として、再生音声の品質が高くなる。例え左チャンネル及び右チャンネルの音声信号にパワーの差がない場合であっても、加算音声信号に基づいて得られたピッチ周期は、両チャンネルの音声信号におけるピッチ周期の中間的な値となるため、左チャンネル及び右チャンネルの音声信号が同程度の品質で再生され、一方のチャンネルに著しい再生音声の品質低下を生じさせることがない。
【0041】
更に、ピッチ周期算出部124における演算処理が、左右2チャンネルの音声信号に対して1チャンネル分の処理量に削減されるため、演算処理にかかる負荷が軽減される。
【0042】
そして、時間軸圧縮伸長部14によって時間軸圧縮伸長処理が行われた音声信号は、一旦音声メモリ15に蓄積され、そこから時間軸圧縮伸長処理における圧縮率に関係なく標準再生速度で読み出される。
【0043】
この時間軸圧縮処理における圧縮率は、ユーザから指示される再生モードと音声メモリ15の蓄積率とに応じて決定される。このため、本実施の形態における話速変換装置は、音声メモリ15の蓄積率を算出する蓄積率算出部16を備えている。蓄積率算出部16によって算出された蓄積率は話速制御部17に送られる。
【0044】
話速制御部17は、ユーザによって設定された再生モードと蓄積率とに基づいて時間軸圧縮伸長部14で用いられる圧縮率を制御する。
【0045】
例えば、ユーザが高速再生モードを設定したとする。この場合、ハードディスクドライブ10から読み出されてモニタに出力される映像の再生速度(以下、設定再生速度と称する)は1.5倍となるが、音声はその設定再生速度と同じかそれより遅い速度で出力される。
【0046】
表1は、高速再生モードにおける蓄積率と圧縮率との関係を示している。
【0047】
【表1】
【0048】
話速制御部17は、上記表1の蓄積率と圧縮率との関係を記憶した蓄積率/圧縮率テーブルを備えており、蓄積率算出部16から蓄積率が送られてくると、この蓄積率/圧縮率テーブルに基づいて、蓄積率算出部16から送られてきた蓄積率に対応する圧縮率を読み出し、時間軸圧縮伸長部14に設定する。
(1)蓄積率が0〜30%(0以上且つ30%未満)である場合
蓄積率が0〜30%である場合には、圧縮率は1に設定される。この場合、ハードディスクドライブ10から読み出された音声信号は、一旦フレームメモリ11に格納され、そこから設定再生速度倍率1.5に応じた再生速度(48kHz)で読み出される。
【0049】
フレームメモリ11から読み出された音声信号は、無音区間削除部13によって無音区間の信号が削除された後、時間軸圧縮伸長部14において時間軸圧縮伸長処理は行われずに、音声メモリ15に蓄積される。音声メモリ15に蓄積された音声信号は、L/R分離部18において左チャンネル及び右チャンネルの音声信号に分離された後、それぞれD/A変換部191、192によって標準サンプリング周波数(32kHz)でサンプリングされて出力される。従って、出力音声の話速は、標準再生速度(1倍速再生時の再生速度)で再生されたときの出力音声の話速と等しくなる。
【0050】
音声信号に無音区間の信号が少ない場合、音声メモリ15への書き込み速度は、音声メモリ15からのデータ読み出し速度より速いので、音声メモリ15内の未読み出しのデータの蓄積量が増加していく。この未読み出しの音声信号の蓄積量が増加していく速度は、音声信号に無音区間の信号が少なくなる程、速くなる。一方、音声信号に無音区間の信号が多くなると、その無音区間のデータ量によっては、逆に音声メモリ15内の未読み出しのデータの蓄積量が減少する。
【0051】
なお、表1には記載していないが、音声メモリ15の蓄積率が10%未満となった場合、話速制御部17から無音区間削除部13に対して無音区間の削除を禁止する制御信号が出力され、その後音声メモリ15の蓄積率が20%を超えた場合、話速制御部17から無音区間削除部13に対して無音区間の削除を再開する制御信号が出力されることになっている。
(2)蓄積率が30〜60%(30以上且つ60%未満)である場合
蓄積率が30〜60%である場合には、圧縮率は1.2に設定される。この場合には、時間軸圧縮伸長部14は、入力信号の時間長Pと出力信号の時間長Qとの比が1.2:1となるように、音声信号に対して時間軸圧縮伸長処理を行う。この結果、出力音声の話速は、標準再生速度(1倍速再生時の再生速度)で再生されたときの音声出力の話速よりも若干速くなる。一方、音声メモリ15に入力される有音区間の音声データ量が低減されるので、上記(1)の場合に比べて、音声メモリ15内の未読み出しのデータの蓄積量が増加していく速度が遅くなり、無音区間のデータ量によっては、逆に音声メモリ15内の未読み出しのデータの蓄積量が減少する。
(3)蓄積率が60〜90%(60以上且つ90%未満)である場合
蓄積率が60〜90%である場合には、圧縮率は1.4に設定される。この場合には、時間軸圧縮伸長部14は、入力信号の時間長Pと出力信号の時間長Qとの比が1.4:1となるように、入力信号に対して時間軸圧縮伸長処理を行う。この結果、出力音声の話速は、上記(2)の場合に比べて更に速くなる。
【0052】
一方、音声メモリ15に入力される有音区間のデータ量が上記(2)の場合に比べて更に低減されるので、音声メモリ15内の未読み出しのデータの蓄積量が増加していく速度が遅くなり、無音区間のデータ量によっては、逆に音声メモリ15内の未読み出しのデータの蓄積量が減少する。
(4)蓄積率が90〜100%(90以上且つ100%未満)である場合
蓄積率が90〜100%である場合には、圧縮率は1.5に設定される。この場合には、時間軸圧縮伸長部14は、入力信号の時間長Pと出力信号の時間長Qとの比が1.5:1となるように、入力信号に対して時間軸圧縮伸長処理を行う。この結果、出力音声の話速は、上記(3)の場合に比べて更に速くなる。
【0053】
一方、音声メモリ15への書き込み速度は、音声メモリ15からのデータ読み出し速度と等しいので、無音区間削除部13によって削除された無音区間のデータ量だけ音声メモリ15内の未読み出しのデータの蓄積量が減少する。音声メモリ15内の未読み出しの音声信号の蓄積量が減少していく速度は、無音区間のデータ量が多くなる程、速くなる。
【0054】
次に、標準再生速度で再生する場合において、音声がその再生速度と同じかそれより遅い速度で再生される遅聞きモードの動作について説明する。
【0055】
表2は、遅聞き再生モードにおける蓄積率と圧縮率との関係を示している。
【0056】
【表2】
【0057】
話速制御部17は、上記表2の蓄積率と圧縮率との関係を記憶した蓄積率/圧縮率テーブルを備えており、蓄積率算出部16から蓄積率が送られてくると、この蓄積率/圧縮率テーブルに基づいて、蓄積率算出部16から送られてきた蓄積率に対応する圧縮率を読み出し、時間軸圧縮伸長部14に設定する。そして、上述した高速再生モードと同様に、時間軸圧縮伸長部14において蓄積率に応じた圧縮率で時間軸圧縮伸長処理が行われる。
〔2〕第2の実施の形態
第1の実施の形態では、左チャンネル及び右チャンネルの音声信号を加算した加算音声信号を用いて、区間判定及びピッチ周期算出を行う場合について説明したが、本実施の形態では、左チャンネル及び右チャンネルの音声信号それぞれの信号強度に基づいて選択されるいずれか一方の音声信号を用いて、区間判定及びピッチ周期算出を行う場合について説明する。
【0058】
図5は、第1の実施の形態における信号分析部12の別の構成(信号分析部22)を示す概略ブロック図である。なお、第1の実施の形態と同様の構成については同一の図番を付している。
【0059】
同図において、221は信号強度算出部であり、フレームメモリ11から信号分離部121を介して入力される左チャンネル及び右チャンネルの音声信号について、1フレーム分の信号強度を算出する。信号強度としては、第1の実施の形態において説明したとおり、信号のパワー、振幅平均値、振幅累積値等を用いることができる。
【0060】
信号強度判定部222は、信号強度算出部221から入力される互いに時間的に対応する左チャンネル及び右チャンネルの音声信号についての信号強度を比較して、信号強度の強い方のチャンネルを示す信号が出力される。
【0061】
音声信号選択部223は、信号強度判定部222より入力される信号に基づいて、信号強度が弱いと判定されたチャンネル側の音声信号を削除し、信号強度が強いと判定されたチャンネル側の音声信号を出力する。この結果、出力される音声信号は、互いに時間的に対応する左チャンネル及び右チャンネルの音声信号のうち信号強度の強い方のチャンネルの音声信号をフレーム単位で繋げた構成となる。
【0062】
区間判定部123は、音声信号選択部223から入力される音声信号について、先に信号強度算出部221にて算出された信号強度の値を参照することにより入力された音声信号が有音区間であるか、無音区間であるかを判定する。
【0063】
信号強度算出部221にて算出された信号強度は、予め設定された閾値と比較され、信号強度の値が閾値以上のときには現フレームが有音区間であることを示す信号が、また、信号強度の値が閾値より小さいときには現フレームが無音区間であることを示す信号が無音区間削除部13に出力される。
【0064】
無音区間削除部13は、第1の実施の形態と同様に、区間判定部123より入力される信号に基づいて、無音区間であると判定された区間の左チャンネルの音声信号及びそれに続く右チャンネルの音声信号を共に削除し、有音区間であると判定された区間の左チャンネルの音声信号及びそれに続く右チャンネルの音声信号を出力する。
【0065】
これにより、無音区間として削除されるフレームは、左チャンネル及び右チャンネルの音声信号が互いに時間的に対応するフレームとなるため、有音区間における左チャンネル及び右チャンネルの音声信号についてフレーム単位の同期が維持される。
【0066】
また、左チャンネル及び右チャンネルの音声信号のうち信号強度の強い方をフレーム単位で選択することにより得られる音声信号における無音区間は、信号強度の弱い方の音声信号も無音区間となることから、両チャンネルの音声信号について適切に無音区間の判定が行われる。
【0067】
一方、ピッチ周期算出部124は、音声信号選択部223から入力される音声信号について、第1の実施の形態と同様に、自己相関を用いてピッチ周期を算出し、時間軸圧縮伸長部14に出力する。
【0068】
時間軸圧縮伸長部14は、ピッチ周期算出部124より入力される単一のピッチ周期に基づいて、有音区間であると判定された区間の左チャンネルの音声信号及びそれに続く右チャンネルの音声信号について、時間軸圧縮伸長処理を行い、出力する。
【0069】
これにより、左チャンネル及び右チャンネルの音声信号は、ともに音声信号選択部223にて選択された左チャンネル及び右チャンネルのいずれか一方の音声信号から算出された共通のピッチ周期に基づいて時間軸圧縮伸長処理が行われるため、両チャンネルの同期が維持される。
【0070】
また、左チャンネル及び右チャンネルのうち信号強度の強い方の音声信号に基づいてピッチ周期を算出しているため、例え、それが信号強度の弱い側の音声信号のピッチ周期と異なっている場合であっても、再生時における影響は小さく、全体としては、再生音声の品質が高くなる。
【0071】
更に、ピッチ周期算出部14における演算処理が、左右2チャンネルの音声信号に対して1チャンネル分の処理量に削減されるため、演算処理にかかる負荷が軽減される。
【0072】
そして、時間軸圧縮伸長部14によって時間軸圧縮伸長処理が行われた音声信号は、一旦音声メモリ15に蓄積され、そこから読み出される。
〔3〕第3の実施の形態
第2の実施の形態では、左チャンネル及び右チャンネルの音声信号それぞれの信号強度に基づいて選択されるいずれか一方の音声信号を用いて、区間判定及びピッチ周期算出の算出を行う場合について説明したが、本実施の形態では、左チャンネル及び右チャンネルそれぞれの自己相関係数に基づいて選択されるいずれか一方の音声信号を用いて、区間判定及びピッチ周期算出の算出を行う場合について説明する。
【0073】
図6は、第1の実施の形態における信号分析部12の別の構成(信号分析部23)を示す概略ブロック図である。なお、第1の実施の形態と同様の構成については同一の図番を付している。
【0074】
同図において、231は自己相関係数算出部であり、フレームメモリ11から信号分離部121を介して入力される左チャンネル及び右チャンネルの音声信号それぞれについて、第1の実施の形態におけるピッチ周期の演算と同様の手法により求められる自己相関値Rn(k)を自己相関値R(0)で除算した自己相関係数の最大値を算出する。
【0075】
自己相関判定部232は、自己相関係数算出部231から入力される互いに時間的に対応する左チャンネル及び右チャンネルの音声信号それぞれについての自己相関係数の最大値を比較し、その結果、自己相関係数の最大値の大きい方のチャンネルを示す信号が出力される。
【0076】
音声信号選択部233は、自己相関判定部232より入力される信号に基づいて、相関が低い(自己相関係数の最大値が小さい)と判定されたチャンネル側の音声信号を削除し、相関が高い(自己相関係数の最大値が大きい)と判定されたチャンネル側の音声信号を出力する。この結果、出力された音声信号は、互いに時間的に対応する左チャンネル及び右チャンネルの音声信号のうち相関の高い方のチャンネルの音声信号をフレーム単位で繋げた構成となる。
【0077】
一方、信号加算部234は、信号分離部121より入力される左チャンネル及び右チャンネルの音声信号を順次加算し、両チャンネルの1フレーム分のデータが加算された時点で、その加算音声信号を出力する。
【0078】
区間判定部123は、信号加算部234から入力される音声信号について、信号強度を求め、得られた値に基づいて入力された音声信号が有音区間であるか、無音区間であるかを判定し、その信号を無音区間削除部13に出力する。
【0079】
無音区間削除部13は、第1の実施の形態と同様に、区間判定部123より入力される信号に基づいて、無音区間であると判定された区間の左チャンネルの音声信号及びそれに続く右チャンネルの音声信号を共に削除し、有音区間であると判定された区間の左チャンネルの音声信号及びそれに続く右チャンネルの音声信号を出力する。
【0080】
これにより、無音区間として削除されるフレームは、左チャンネル及び右チャンネルの音声信号が互いに時間的に対応するフレームとなるため、有音区間における左チャンネル及び右チャンネルの音声信号についてフレーム単位の同期が維持される。
【0081】
また、加算音声信号における無音区間は、左チャンネル及び右チャンネルの音声信号の信号強度が共に弱いフレームであることから、両チャンネルの音声信号について適切に無音区間の判定が行われる。
【0082】
一方、ピッチ周期算出部124は、先に自己相関係数算出部231にて算出された自己相関係数の最大値に対応するピッチ周期を求め、時間軸圧縮伸長部14に出力する。
【0083】
時間軸圧縮伸長部14は、ピッチ周期算出部124より入力される単一のピッチ周期に基づいて、有音区間であると判定された区間の左チャンネルの音声信号及びそれに続く右チャンネルの音声データについて、時間軸圧縮伸長処理を行い、その結果を出力する。
【0084】
これにより、左チャンネル及び右チャンネルの音声信号は、ともに音声信号選択部233にて選択された左チャンネル及び右チャンネルのいずれか一方の音声信号から算出された共通のピッチ周期に基づいて時間軸圧縮伸長処理が行われるため、両チャンネルの同期が維持される。
【0085】
また、左チャンネル及び右チャンネルのうち相関の高い方の音声信号に基づいてピッチ周期を算出しているため、例え、それが、相関の低い側の音声信号のピッチ周期と異なっている場合であっても、再生時における影響は小さく、全体としては、再生音声の品質が高くなる。
【0086】
そして、時間軸圧縮伸長部14によって時間軸圧縮伸長処理が行われた音声信号は、一旦音声メモリ15に蓄積され、そこから読み出される。
【0087】
なお、上述した各実施の形態においては、入力される左チャンネル及び右チャンネルの音声信号全てを対象として無音区間の削除及び時間軸圧縮伸長処理を行ったが、互いに時間的に対応する左チャンネル及び右チャンネルの音声信号についてフレーム単位で減算し、得られた差分値に応じて、無音区間の削除及び時間軸圧縮伸長処理を行うか否かを判定する構成を設けてもよい。すなわち、差分値が予め定められた閾値以上の場合、両音声信号が相違しているため、無音区間の削除及び時間軸圧縮伸長処理を行わず、差分値が閾値より小さい場合、両音声信号が類似しているため、無音区間の削除及び時間軸圧縮伸長処理を行う。
【0088】
この場合、時間的に対応する左チャンネル及び右チャンネルの音声信号が類似しているフレームだけに無音区間の削除及び時間軸圧縮伸長処理が行われるため、左チャンネル及び右チャンネルで共通のピッチ周期を用いても、これによる音質の劣化は極めて小さくなる。
【0089】
また、上述した各実施の形態においては、ハードディスクドライブ10から読み出される音声データが2チャンネルである場合について説明したが、3チャンネルもしくはそれ以上の場合においても同様の効果を得ることが可能である。
【0090】
【発明の効果】
本発明によれば、複数チャンネルの入力音声信号に対し単一のピッチ周期で時間軸圧縮伸長処理を行っているため、再生される音声信号の同期を維持しつつ話速変換処理を行うことが可能となる。
【図面の簡単な説明】
【図1】 本発明の第1の実施の形態における話速変換装置の構成を示す概略ブロック図である。
【図2】 図1の話速変換装置における時間軸圧縮処理の原理を説明する説明図である。
【図3】 図2の時間軸圧縮処理の原理を用いた時間軸圧縮処理の一例を説明する説明図である。
【図4】 図1の話速変換装置における時間軸圧縮伸長処理の原理を説明する説明図である。
【図5】 本発明の第2の実施の形態における話速変換装置の信号分析部の構成を示す概略ブロック図である。
【図6】 本発明の第3の実施の形態における話速変換装置の信号部分析部の構成を示す概略ブロック図である。
【符号の説明】
10 :ハードディスクドライブ
11 :フレームメモリ
12 :信号解析部
121:信号分離部
122:信号加算部
123:区間判定部
124:ピッチ周期算出部
13 :無音区間削除部
14 :時間軸圧縮伸長部
15 :音声メモリ
16 :蓄積率算出部
17 :話速変換部
18 :L/R分離部
191:D/Aコンバータ
192:D/Aコンバータ
Claims (4)
- 音声再生装置より入力される複数チャンネルの入力音声信号をそれら入力音声信号から得られるピッチ周期に基づいて話速変換処理する話速変換装置であって、
前記複数チャンネルの入力音声信号から処理区間毎に各チャンネル共通のピッチ周期を算出するピッチ周期算出手段と、得られたピッチ周期に基づいて当該処理区間における各チャンネルの入力音声信号を時間軸圧縮する時間軸圧縮伸長手段とを備え、
前記ピッチ周期算出手段が、前記複数チャンネルの入力音声信号から前記処理区間毎に最大の自己相関値を有する方のチャンネルを検出する最大自己相関値検出手段を備え、該最大自己相関値検出手段にて検出されたチャンネルの入力音声信号からピッチ周期を算出することを特徴とする話速変換装置。 - 前記処理区間が、前記ピッチ周期算出手段にて算出されるピッチ周期に応じて変化することを特徴とする請求項1記載の話速変換装置。
- 音声再生装置から入力される複数チャンネルの入力音声信号を話速変換処理する話速変換処理手段と、該話速変換処理手段にて処理された音声信号が書き込まれる音声メモリと、該音声メモリから音声信号を読み出す読出手段とを備えた話速変換装置であって、
前記話速変換処理手段が、前記複数チャンネルの入力音声信号から第1の処理区間毎に最大の自己相関値を有するチャンネルを検出する最大自己相関値検出手段と、該最大自己相関値検出手段にて検出されたチャンネルの入力音声信号に基づいて当該処理区間が有音区間であるか無音区間であるかを判定する区間判定手段と、該区間判定手段にて無音区間であると判定された処理区間における各チャンネルの入力音声信号を削除する無音区間削除手段と、前記区間判定手段にて有音区間であると判定されたチャンネルの入力音声信号から第2の処理区間毎に単一のピッチ周期を算出するピッチ周期算出手段と、該ピッチ周期算出手段にて得られたピッチ周期に基づいて当該処理区間における各チャンネルの入力音声信号を時間軸圧縮する時間軸圧縮伸長手段とを備えたことを特徴とする話速変換装置。 - 前記第2の処理区間が、前記ピッチ周期算出手段にて算出されるピッチ周期に応じて変化することを特徴とする請求項3記載の話速変換装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001098735A JP4212253B2 (ja) | 2001-03-30 | 2001-03-30 | 話速変換装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001098735A JP4212253B2 (ja) | 2001-03-30 | 2001-03-30 | 話速変換装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2002297200A JP2002297200A (ja) | 2002-10-11 |
JP4212253B2 true JP4212253B2 (ja) | 2009-01-21 |
Family
ID=18952357
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001098735A Expired - Lifetime JP4212253B2 (ja) | 2001-03-30 | 2001-03-30 | 話速変換装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4212253B2 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2003211073A1 (en) | 2003-02-14 | 2004-09-09 | Thomson Licensing S.A. | Automatic synchronization of audio and video based media services of media content |
JP4550652B2 (ja) * | 2005-04-14 | 2010-09-22 | 株式会社東芝 | 音響信号処理装置、音響信号処理プログラム及び音響信号処理方法 |
JP4680122B2 (ja) * | 2006-04-27 | 2011-05-11 | 三菱電機株式会社 | 話速変換装置及びテレビジョン受像機並びに話速変換方法 |
JP4940888B2 (ja) | 2006-10-23 | 2012-05-30 | ソニー株式会社 | オーディオ信号伸張圧縮装置及び方法 |
JP5412204B2 (ja) * | 2009-07-31 | 2014-02-12 | 日本放送協会 | 適応的な話速変換装置及びプログラム |
-
2001
- 2001-03-30 JP JP2001098735A patent/JP4212253B2/ja not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
JP2002297200A (ja) | 2002-10-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6925340B1 (en) | Sound reproduction method and sound reproduction apparatus | |
JP2955247B2 (ja) | 話速変換方法およびその装置 | |
JP4146489B2 (ja) | 音声パケット再生方法、音声パケット再生装置、音声パケット再生プログラム、記録媒体 | |
US10244271B2 (en) | Audio recording device, audio recording system, and audio recording method | |
JP3594409B2 (ja) | Mpegオーディオ再生装置およびmpeg再生装置 | |
JP4630876B2 (ja) | 話速変換方法及び話速変換装置 | |
JP3840928B2 (ja) | 信号処理装置および方法、記録媒体、並びにプログラム | |
JP3630609B2 (ja) | 音声情報再生方法ならびに装置 | |
JP4212253B2 (ja) | 話速変換装置 | |
US20150104158A1 (en) | Digital signal reproduction device | |
JP3378672B2 (ja) | 話速変換装置 | |
JP3162945B2 (ja) | ビデオテープレコーダ | |
JP2001056700A (ja) | 音声記録再生装置 | |
JP3081469B2 (ja) | 話速変換装置 | |
KR0183328B1 (ko) | 부호화 데이터 복호 장치와 그것을 이용한 화상 오디오다중화 데이터 복호 장치 | |
JP2000099097A (ja) | 信号再生装置及び方法、音声信号再生装置、並びに、音声信号の速度変換方法 | |
JPH07307674A (ja) | 圧縮情報再生装置 | |
JPH1056385A (ja) | デコーダおよびmpegオーディオデコーダ | |
JP3357742B2 (ja) | 話速変換装置 | |
JP5213630B2 (ja) | 映像信号再生装置 | |
JPH11167396A (ja) | 音声記録再生装置 | |
JPH0854895A (ja) | 再生装置 | |
JPH08237135A (ja) | 符号化データ復号装置およびそれを用いた画像オーディオ多重化データ復号装置 | |
JPH09146587A (ja) | 話速変換装置 | |
JP3639461B2 (ja) | 音声信号のピッチ周期抽出方法、及び音声信号のピッチ周期抽出装置、音声信号の時間軸圧縮装置、音声信号の時間軸伸長装置、音声信号の時間軸圧縮伸長装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050506 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20051227 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20070810 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070821 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20071022 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20080930 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20081028 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111107 Year of fee payment: 3 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 4212253 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111107 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111107 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121107 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131107 Year of fee payment: 5 |
|
EXPY | Cancellation because of completion of term |