JP3594409B2

JP3594409B2 - Ｍｐｅｇオーディオ再生装置およびｍｐｅｇ再生装置

Info

Publication number: JP3594409B2
Application number: JP16945496A
Authority: JP
Inventors: 英樹山内; 茂之岡田; 正幸飯田; 浩司田中
Original assignee: Sanyo Electric Co Ltd
Current assignee: Sanyo Electric Co Ltd
Priority date: 1995-06-30
Filing date: 1996-06-28
Publication date: 2004-12-02
Anticipated expiration: 2016-06-28
Also published as: JPH0973299A

Description

【０００１】
【発明の属する技術分野】
本発明はＭＰＥＧ（ＭｏｖｉｎｇＰｉｃｔｕｒｅＥｘｐｅｒｔＧｒｏｕｐ）オーディオ再生装置およびＭＰＥＧ再生装置に係り、詳しくは、話速変換機能を備えたＭＰＥＧオーディオ再生装置およびＭＰＥＧ再生装置に関するものである。
【０００２】
【従来の技術】
マルチメディアで扱われる情報は、膨大な量で且つ多種多様であり、これらの情報を高速に処理することがマルチメディアの実用化を図る上で必要となってくる。情報を高速に処理するためには、データの圧縮・伸長技術が不可欠となる。そのようなデータの圧縮・伸長技術として「ＭＰＥＧ」方式が挙げられる。このＭＰＥＧ方式は、ＩＳＯ（ＩｎｔｅｒｎａｔｉｏｎａｌＯｒｇａｎｉｚａｔｉｏｎｆｏｒＳｔａｎｄａｒｄｉｚａｔｉｏｎ）／ＩＥＣ（ＩｎｔａｒｎａｔｉｏｎａｌＥｌｅｃｔｒｏｔｅｃｈｎｉｃａｌＣｏｍｍｉｓｓｉｏｎ）傘下のＭＰＥＧ委員会（ＩＳＯ／ＩＥＣＪＴＣ１／ＳＣ２９／ＷＧ１１）によって標準化されつつある。
【０００３】
ＭＰＥＧは３つのパートから構成されている。パート１の「ＭＰＥＧシステムパート」（ＩＳＯ／ＩＥＣＩＳ１１１７２Ｐａｒｔ１：Ｓｙｓｔｅｍｓ）では、ビデオデータとオーディオデータの多重化構造（マルチプレクス・ストラクチャ）および同期方式が規定される。パート２の「ＭＰＥＧビデオパート」（ＩＳＯ／ＩＥＣＩＳ１１１７２Ｐａｒｔ２：Ｖｉｄｅｏ）では、ビデオデータの高能率符号化方式およびビデオデータのフォーマットが規定される。パート３の「ＭＰＥＧオーディオパート」（ＩＳＯ／ＩＥＣＩＳ１１１７２Ｐａｒｔ３：Ａｕｄｉｏ）では、オーディオデータの高能率符号化方式およびオーディオデータのフォーマットが規定される。
【０００４】
ＭＰＥＧビデオパートで取り扱われるビデオデータは動画に関するものであり、その動画は１秒間に数十個（例えば、３０個）のフレーム（静止画、コマ）によって構成されている。ビデオデータは、シーケンス（Ｓｅｑｕｅｎｃｅ）、ＧＯＰ（ＧｒｏｕｐＯｆＰｉｃｔｕｒｅｓ）、ピクチャ、スライス（Ｓｌｉｃｅ）、マクロブロック（Ｍａｃｒｏｂｌｏｃｋ）、ブロックの順に６層の階層構造から成る。
【０００５】
また、ＭＰＥＧには主にエンコードレートの違いにより、現在のところ、ＭＰＥＧ−１，ＭＰＥＧ−２の２つの方式がある。ＭＰＥＧ−１においてフレームはピクチャに対応している。ＭＰＥＧ−２においては、フレームまたはフィールドをピクチャに対応させることもできる。フィールドは、２個で１つのフレームを構成している。ピクチャにフレームが対応している構造はフレーム構造と呼ばれ、ピクチャにフィールドが対応している構造はフィールド構造と呼ばれる。
【０００６】
ＭＰＥＧでは、フレーム間予測と呼ばれる圧縮技術を用いる。フレーム間予測は、フレーム間のデータを時間的な相関に基づいて圧縮する。フレーム間予測では双方向予測が行われる。双方向予測とは、過去の再生画像（または、ピクチャ）から現在の再生画像を予測する順方向予測と、未来の再生画像から現在の再生画像を予測する逆方向予測とを併用することである。
【０００７】
この双方向予測は、Ｉピクチャ（Ｉｎｔｒａ−Ｐｉｃｔｕｒｅ），Ｐピクチャ（Ｐｒｅｄｉｃｔｉｖｅ−Ｐｉｃｔｕｒｅ），Ｂピクチャ（Ｂｉｄｉｒｅｃｔｉｏｎａｌｌｙｐｒｅｄｉｃｔｉｖｅ−Ｐｉｃｔｕｒｅ）と呼ばれる３つのタイプのピクチャを規定している。Ｉピクチャは、過去や未来の再生画像とは無関係に、独立して生成される。Ｐピクチャは順方向予測（過去のＩピクチャまたはＰピクチャからの予測）により生成される。Ｂピクチャは双方向予測により生成される。双方向予測においてＢピクチャは、以下に示す３つの予測のうちいずれか１つにより生成される。▲１▼順方向予測；過去のＩピクチャまたはＰピクチャからの予測、▲２▼逆方向予測；未来のＩピクチャまたはＰピクチャからの予測、▲３▼双方向予測；過去および未来のＩピクチャまたはＰピクチャからの予測。そして、これらＩ，Ｐ，Ｂピクチャがそれぞれエンコードされる。つまり、Ｉピクチャは過去や未来のピクチャが無くても生成される。これに対し、Ｐピクチャは過去のピクチャが無いと生成されず、Ｂピクチャは過去または未来のピクチャが無いと生成されない。
【０００８】
フレーム間予測では、まず、Ｉピクチャが周期的に生成される。次に、Ｉピクチャよりも数フレーム先のフレームがＰピクチャとして生成される。このＰピクチャは、過去から現在への一方向（順方向）の予測により生成される。続いて、Ｉピクチャの前、Ｐピクチャの後に位置するフレームがＢピクチャとして生成される。このＢピクチャを生成するとき、順方向予測，逆方向予測，双方向予測の３つの中から最適な予測方法が選択される。一般的に連続した動画では、現在の画像とその前後の画像とは良く似ており、異なっているのはその一部分に過ぎない。そこで、前のフレーム（例えば、Ｉピクチャ）と次のフレーム（例えば、Ｐピクチャ）とは同じであると仮定し、両フレーム間に変化があればその差分（Ｂピクチャ）のみを抽出して圧縮する。これにより、フレーム間のデータを時間的な相関に基づいて圧縮することができる。
【０００９】
ＭＰＥＧビデオパートに準拠してエンコードされたビデオデータのデータ列（ビットストリーム）は、ＭＰＥＧビデオストリーム（以下、ビデオストリームと略す）と呼ばれる。また、ＭＰＥＧオーディオパートに準拠してエンコードされたオーディオデータのデータ列は、ＭＰＥＧオーディオストリーム（以下、オーディオストリームと略す）と呼ばれる。そして、ビデオストリームとオーディオストリームは、ＭＰＥＧシステムパートに準拠して時分割多重化され、１本のデータ列としてのＭＰＥＧシステムストリーム（以下、システムストリームと略す）となる。システムストリームはマルチプレックスストリームとも呼ばれる。
【００１０】
ＭＰＥＧパートにおけるエンコードからデコードまでの流れは、以下のようになっている。ＭＰＥＧシステムエンコーダ（以下、システムエンコーダと略す）は、ビデオデータとオーディオデータのそれぞれを連係を保ちながら別個にエンコードを行い、ビデオストリームとオーディオストリームを生成する。次に、ＭＰＥＧシステムエンコーダに装備されたマルチプレクサ（ＭＵＸ；Ｍｕｌｔｉｐｌｅｘｅｒ）は、伝送媒体または記録媒体のフォーマットに適合するように、ビデオストリームとオーディオストリームの多重化を行い、システムストリームを生成する。そのシステムストリームは、伝送媒体を介してＭＵＸから伝送されるか、または記録媒体に記録される。
【００１１】
ＭＰＥＧシステムデコーダ（以下、システムデコーダと略す）に装備されたデマルチプレクサ（ＤＭＵＸ；ＤｅＭＵｌｔｉｐｌｅＸｅｒ）は、システムストリームをビデオストリームとオーディオストリームに分離する。次に、システムデコーダは各ストリームを個別にデコードして、ビデオのデコード出力（以下、ビデオ出力という）とオーディオのデコード出力（以下、オーディオ出力という）を生成する。ビデオ出力はディスプレイへ出力され、ディスプレイで動画が再生される。オーディオ出力はＤ／Ａ（Ｄｉｇｉｔａｌ／Ａｎａｌｏｇ）コンバータおよびオーディオアンプを介してスピーカへ出力され、スピーカから音声が再生される。
【００１２】
ところで、ＭＰＥＧ−１は主にビデオＣＤ（ＣｏｍｐａｃｔＤｉｓｃ），ＣＤ−ＲＯＭ（ＣＤ−ＲｅａｄＯｎｌｙＭｅｍｏｒｙ），ＤＶＤ（ＤｉｇｉｔａｌＶｉｄｅｏＤｉｓｃ）などの記録媒体を用いた蓄積メディアに対応しており、ＭＰＥＧ−２はＭＰＥＧ−１をも含む幅広い範囲のアプリケーションに対応している。
【００１３】
蓄積メディアにおいては、以下に示す２つの可変速再生が要求される。▲１▼動画を通常（標準）の再生速度より高速で再生（以下、高速再生という）する機能。▲２▼動画を通常の再生速度より低速で再生（以下、低速再生という）する機能。高速再生機能は、例えば、ユーザが短時間に動画を見るために早送り再生を行う際や、見たい動画を探索するために早送り再生または早送り逆転再生を行う際に用いられる。また、低速再生機能は、例えば、ユーザが動画を注意深く見る際などに用いられる。
【００１４】
記録媒体から読み出されたシステムストリームのビットレートは、読み出し速度に対応したものになる。従って、高速再生を行うには記録媒体からシステムストリームを高速で読み出し、低速再生を行うには記録媒体からシステムストリームを低速で読み出す。例えば、記録媒体としてビデオＣＤやＤＶＤを用いた場合には、ビデオＣＤやＤＶＤの回転速度を通常の再生時（標準再生時）よりも速くしたり遅くしたりすることで、システムストリームを所望の速度で読み出すようにする。
【００１５】
【発明が解決しようとする課題】
従来、ＭＰＥＧにおいては、前記したような動画の可変速再生については検討されていたものの、音声の可変速再生については何らの検討もなされていなかった。
【００１６】
オーディオストリームのビットレートはシステムストリームのそれと同一である。そのため、動画の高速再生時には、オーディオストリームのビットレートも大きくなり、再生される音声の音程（ピッチ）が上がるのに加えて、発声速度（話速）が速くなる。また、動画の低速再生時には、オーディオストリームのビットレートも小さくなり、再生される音声のピッチは変化しないものの、音声が途切れ途切れになる。このように、動画の可変速再生時には、音声が聞き苦しいものになるという問題があった。
【００１７】
ところで、近年、ピッチを変化させることなく話速を任意に制御する話速変換技術の開発が進められており、本出願人もＶＴＲやテープレコーダに利用可能な話速変換処理ＬＳＩを既に開発している（特開平７−１９２３９２号公報（Ｇ１１Ｂ２０／０２）、日経エレクトロニクス１９９４年１１月２１日号（Ｎｏ．６２２）Ｐ．９３〜９８．参照）。しかし、話速変換技術をＭＰＥＧに利用する試みはなされていない。
【００１８】
また、音声と動画（映像）の同期生成においては、「リップシンク」を考慮する必要がある。リップシンクとは、ディスプレイに映し出される人物の口の動きと、スピーカから発声される音声との同期がとれていることをいう。口の動きより音声の方が早くなったり、逆に遅くなったりする状態をリップシンクにずれがあるという。リップシンクのずれが人間の聴覚の許容範囲を外れると、視聴者は違和感を覚える。一般に、音声が動画より遅れることによって生じるリップシンクのずれとして許容できる時間は、約５０〜２５０ｍｓであるといわれている。
【００１９】
本発明は上記要求を満足するためになされたものであって、以下の目的を有するものである。
〔１〕可変速再生時においても自然で聞き易い音声を再生することが可能なＭＰＥＧオーディオ再生装置を提供する。
【００２０】
〔２〕上記〔１〕のＭＰＥＧオーディオ再生装置とＭＰＥＧビデオデコーダとを備えたＭＰＥＧ再生装置を提供する。
〔３〕上記〔１〕のＭＰＥＧオーディオ再生装置とＭＰＥＧビデオデコーダとを備え、音声と動画との時間ずれを低減することが可能なＭＰＥＧ再生装置を提供する。
【００２４】
【課題を解決するための手段】
請求項１に記載の発明は、記録媒体（２１）から読み出されたＭＰＥＧオーディオストリームをＭＰＥＧオーディオパートに準拠してデコードし、オーディオ信号を生成するＭＰＥＧオーディオデコーダ（３）と、オーディオ信号に対して話速変換処理を行う話速変換処理手段（２，４）とを備え、話速変換処理手段は、オーディオストリームのビットレートが通常時よりも大きい場合には、再生される各音声区間の時間長さを長くすると共に各無音区間の時間長さを短くするようにして話速変換処理を行い、オーディオストリームのビットレートが通常時よりも小さい場合には、再生される各音声区間の時間長さを長くすると共に各無音区間の時間長さを短くするか、または、各無音区間を削除して各音声区間をつなぎ合わせた後に無音区間を挿入するようにして話速変換処理を行うことをその要旨とする。
【００２５】
請求項２に記載の発明は、請求項１に記載のＭＰＥＧオーディオ再生装置において、話速変換処理手段（２，４）は、オーディオ信号を蓄積するリングメモリ（３２）と、リングメモリの蓄積量を検出する検出手段（３３）とを備え、リングメモリの蓄積量に応じて音声区間の時間長さの圧縮伸長率を調整することをその要旨とする。
【００２６】
請求項３に記載の発明は、請求項２に記載のＭＰＥＧオーディオ再生装置において、話速変換処理手段（２，４）は、オーディオ信号の音声区間と無音区間とを判別する音声判別部（４１）と、無音区間の削除処理または挿入処理を行う無音削除挿入部（４２）と、リングメモリ（３２）の蓄積量に基づいて音声区間の圧縮伸長処理を行うことで圧縮伸長率を調整する時間軸圧縮伸長部（４３）とを備えたことをその要旨とする。
【００２７】
請求項４に記載の発明は、請求項１〜３のいずれか１項に記載のＭＰＥＧオーディオ再生装置（１）と、記録媒体（２１）から読み出されたＭＰＥＧビデオストリームをＭＰＥＧビデオパートに準拠してデコードし、ビデオ信号を生成するＭＰＥＧビデオデコーダ（１２）とを備えたことをその要旨とする。
【００２８】
請求項５に記載の発明は、請求項２または請求項３に記載のＭＰＥＧオーディオ再生装置（１）と、記録媒体（２１）から読み出されたＭＰＥＧビデオストリームをＭＰＥＧビデオパートに準拠してデコードし、ビデオ信号を生成するＭＰＥＧビデオデコーダ（１２）と、リングメモリ（３２）に書き込まれる以前のオーディオ信号に、時刻に関する情報としてのインデックス信号を付加するインデックス付加回路（５１）と、リングメモリ（３２）から読み出されたオーディオ信号に付加されているインデックス信号を検出し、そのインデックス信号から得られる時刻情報と現在の時刻情報とから、話速変換処理手段（２，４）における信号遅延時間を検出し、その検出された遅延時間を示す信号をＭＰＥＧビデオデコーダ（１２）へ供給するインデックス検出回路（５２）とを備え、ＭＰＥＧビデオデコーダ（１２）は、前記遅延時間を示す信号に基づいて自己の動作のタイミングを制御することをその要旨とする。
【００２９】
請求項６に記載の発明は、請求項３に記載のＭＰＥＧオーディオ再生装置（１）と、記録媒体（２１）から読み出されたＭＰＥＧビデオストリームをＭＰＥＧビデオパートに準拠してデコードし、ビデオ信号を生成するＭＰＥＧビデオデコーダ（１２）と、音声判別部（４１）の処理結果と、オーディオストリームのビットレートとに基づいて、話速変換処理手段（２，４）における信号遅延時間を検出し、その検出された遅延時間を示す信号をＭＰＥＧビデオデコーダ（１２）へ供給する遅延時間検出回路（５３）とを備え、ＭＰＥＧビデオデコーダ（１２）は、前記遅延時間を示す信号に基づいて自己の動作のタイミングを制御することをその要旨とする。
【００３０】
請求項７に記載の発明は、請求項３に記載のＭＰＥＧオーディオ再生装置（１）と、記録媒体（２１）から読み出されたＭＰＥＧビデオストリームをＭＰＥＧビデオパートに準拠してデコードし、ビデオ信号を生成するＭＰＥＧビデオデコーダ（１２）と、リングメモリ（３２）の蓄積量に基づいて、話速変換処理済みのオーディオ信号とビデオ信号との同期を得るための制御信号を生成し、その制御信号をＭＰＥＧビデオデコーダ（１２）へ供給する制御回路（５４）とを備え、ＭＰＥＧビデオデコーダ（１２）は、前記制御信号に基づいて自己の動作のタイミングを制御することをその要旨とする。
【００３１】
請求項８に記載の発明は、請求項３に記載のＭＰＥＧオーディオ再生装置（１）と、記録媒体（２１）から読み出されたＭＰＥＧビデオストリームをＭＰＥＧビデオパートに準拠してデコードし、ビデオ信号を生成するＭＰＥＧビデオデコーダ（１２）と、音声判別部（４１）および時間軸圧縮伸長部（４３）の処理結果に基づいて、話速変換処理手段（２，４）における信号遅延時間を検出し、その検出された遅延時間を示す信号をＭＰＥＧビデオデコーダ（１２）へ供給する遅延時間検出回路（５５）とを備え、ＭＰＥＧビデオデコーダ（１２）は、前記遅延時間を示す信号に基づいて自己の動作のタイミングを制御することをその要旨とする。
【００３２】
【発明の実施の形態】
（第１実施形態）
以下、本発明を具体化した第１実施形態を図面に従って説明する。
【００３３】
図１に、本実施形態のブロック回路図を示す。
本実施形態のＭＰＥＧオーディオ再生装置１は、再生速度検出回路２、ＭＰＥＧオーディオデコーダ３、話速変換処理回路４、Ｄ／Ａコンバータ５、オーディオアンプ６から構成されている。尚、各回路２〜６は１チップのＬＳＩに搭載することもできる。
【００３４】
また、本実施形態のＭＰＥＧ再生装置２３は、ＭＰＥＧオーディオ再生装置１に加え、オーディオビデオパーサ（ＡＶパーサ）１１、ＭＰＥＧビデオデコーダ１２を備えている。
【００３５】
話速変換処理回路４は、例えば、ＤＳＰ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ）３１、リングメモリ３２、アップダウンカウンタ３３、読み出しクロック生成回路３６を備えている。尚、話速変換処理回路４の動作については、前記文献（日経エレクトロニクス１９９４年１１月２１日号（Ｎｏ．６２２）Ｐ．９３〜９８．）に詳述されている。
【００３６】
再生速度検出回路２は、ビデオＣＤやＤＶＤなどの記録媒体２１から読み出されたＭＰＥＧシステムストリームのビットレートに対応したデコードクロックを生成する。そのデコードクロックは各回路１２，３，４へ出力される。
【００３７】
ＡＶパーサ１１は、デマルチプレクサ（ＤＭＵＸ）１３を備えており、記録媒体２１から読み出されたＭＰＥＧシステムストリームを入力する。ＤＭＵＸ１３は、システムストリームをＭＰＥＧビデオストリームとＭＰＥＧオーディオストリームに分離する。ビデオストリームはビデオデコーダ１２へ出力され、オーディオストリームはオーディオデコーダ３へ出力される。
【００３８】
ビデオデコーダ１２は、ＭＰＥＧビデオパートに準拠してビデオストリームをデコードし、ビデオ出力（以下、ビデオ信号という）を生成する。そのビデオ信号はディスプレイ２２へ出力され、ディスプレイ２２で動画が再生される。
【００３９】
オーディオデコーダ３は、ＭＰＥＧオーディオパートに準拠してオーディオストリームをデコードし、ディジタル信号のオーディオ出力（以下、オーディオ信号という）を生成する。そのオーディオ信号は話速変換処理回路４へ出力される。話速変換処理回路４において信号処理されたオーディオ信号はＤ／Ａコンバータ５によってＤ／Ａ変換された後、オーディオアンプ６で増幅されてスピーカ２３へ送られる。そして、スピーカ２３から音声が再生される。
【００４０】
記録媒体２１から読み出されたシステムストリームのビットレートは、読み出し速度に対応したものになる。また、各回路３，４，１２の動作はデコードクロックによって規定される。
【００４１】
従って、ビデオデコーダ１２は、システムストリームのビットレートに対応したビデオ信号を生成する。すなわち、システムストリームのビットレートが、通常の再生時（標準再生時）よりも大きければディスプレイ２２では動画が高速再生され、通常の再生時よりも小さければディスプレイ２２では動画が低速再生される。
【００４２】
また、オーディオデコーダ３は、システムストリームのビットレートに対応したオーディオ信号を生成する。すなわち、システムストリームのビットレートが、通常の再生時よりも大きければオーディオ信号のビットレートも大きくなり、通常の再生時より小さければオーディオ信号のビットレートも小さくなる。
【００４３】
ところで、ビデオ信号とオーディオ信号とは、通常の再生時において同期生成されるようになっている。
ＤＳＰ３１は、フレームメモリ３４および話速変換部３５から構成されている。フレームメモリ３４は、適宜なフレーム数分（例えば、２フレーム分）のオーディオ信号を記憶する。話速変換部３５は、フレームメモリ３４に記憶されたオーディオ信号に対してフレーム単位で話速変換処理を行い、話速変換処理済みのオーディオ信号（以下、データという）を生成する。尚、１フレームは、適宜な数（例えば、２００個）のサンプリングデータから構成される。
【００４４】
フレームメモリ３４の内部は、２つの領域（以下、Ａ領域、Ｂ領域と記載して区別する）に分けられている。オーディオデコーダ３から出力されたオーディオ信号がＢ領域に書き込まれるのと同時に、Ａ領域に蓄積されている１フレーム分のオーディオ信号が読み出されて話速変換部３５へ転送される。そして、Ｂ領域に１フレーム分のオーディオ信号が蓄積されると、今度は、Ｂ領域に蓄積された１フレーム分のオーディオ信号が読み出されて話速変換部３５へ転送され、それと同時に、オーディオデコーダ３から出力されたオーディオ信号がＡ領域に書き込まれる。
【００４５】
話速変換部３５の生成したデータは、話速変換部３５が生成した書き込みクロックに従ってリングメモリ３２に書き込まれる。リングメモリ３２は、例えば、ＦＩＦＯ（Ｆｉｒｓｔ−Ｉｎ−Ｆｉｒｓｔ−Ｏｕｔ）構成のＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）から成る。
【００４６】
読み出しクロック生成回路３６は、デコードクロックに従って読み出しクロックを生成する。
リングメモリ３２に蓄積されたデータは、読み出しクロックに従って読み出され、その読み出されたデータはＤ／Ａコンバータ５へ出力される。Ｄ／Ａコンバータ５は、読み出しクロックをサンプリング周波数として用いる。
【００４７】
書き込みクロックはアップダウンカウンタ３３のアップカウント入力端子ＵＰに入力され、読み出しクロックはアップダウンカウンタ３３のダウンカウント入力端子ＤＯＷＮに入力される。アップダウンカウンタ３３は、書き込みクロックの総数と読み出しクロックの総数との差をカウントする。そのカウント値は、リングメモリ３２の蓄積量に対応する。つまり、アップダウンカウンタ３３は、書き込みクロックと読み出しクロックとに基づいて、リングメモリ３２の蓄積量を検出する。そのリングメモリ３２の蓄積量は話速変換部３５へ出力される。
【００４８】
図２に、話速変換部３５に内部構成を示す。
話速変換部３５は、音声判別部４１、無音削除挿入部４２、時間軸圧縮伸長部４３から構成されている。
【００４９】
音声判別部４１は、フレームメモリ３４から読み出されたオーディオ信号が、音声区間（音声が存在している区間）か、または、無音区間（音声が存在していない区間）かを判別する。尚、人間が発声する音声以外の背景雑音は無音区間として取り扱う。
【００５０】
無音削除挿入部４２は、音声判別部４１の判別した無音区間に対して、その無音区間の削除処理、または、新たな無音区間の挿入処理を行う。
時間軸圧縮伸長部４３は、音声判別部４１の判別した音声区間に対して、リングメモリ３２の蓄積量に基づいて圧縮処理または伸長処理を行う。
【００５１】
また、各部４２，４３は、その処理内容に対応した書き込みクロックを生成する。
次に、高速再生時における話速変換部３５の動作について説明する。
【００５２】
オーディオデコーダ３から出力されるオーディオ信号のビットレートは、オーディオストリームのそれと同一になる。従って、高速再生時には、通常の再生時に比べて、オーディオ信号のビットレートが大きくなる。通常の再生時よりもビットレートの大きなオーディオ信号をそのままＤ／Ａコンバータ５へ送った場合、通常の再生時に比べて、スピーカ２３から再生される音声のピッチは上がり話速は速くなる。
【００５３】
そこで、話速変換部３５において、スピーカ２３から再生される音声のピッチを通常の再生時とほぼ同一にし、且つ、スピーカ２３から再生される話速を通常の再生時に近づけるように話速変換処理を行う。
【００５４】
すなわち、無音削除挿入部４２は、音声判別部４１の判別した無音区間の継続長を算出し、その継続長が所定長以上の場合は無音区間を削除する。
また、時間軸圧縮伸長部４３は、音声判別部４１の判別した音声区間に対して、例えば、自己相関法を用いてピッチ抽出を行い、抽出したピッチ波形に対して圧縮処理を行う。その結果、高速再生時において、オーディオ信号のビットレートが大きくなった場合に、スピーカ２３から再生される音声区間の時間長さは伸長される。
【００５５】
尚、時間軸圧縮伸長部４３における圧縮処理に際しては、無音区間の状態とリングメモリ３２の蓄積量とに応じて動的に圧縮率を変化させる。
例えば、同一のピッチ周期をもつ３周期波形を２周期波形に圧縮することで、２／３倍の圧縮（圧縮率；２／３）を得る。具体的には、３周期波形から、時間軸方向で前にある２周期波形と、後ろにある２周期波形とをそれぞれ切り出す。そして、前の２周期波形に単調減少する三角窓関数を、後ろの２周期波形に単調増加する三角窓関数をそれぞれ乗じる。この二つの波形を加算することで出力波形を得る。
【００５６】
また、０．９倍の圧縮（圧縮率；０．９）を得るには、例えば、１０周期波形から９周期波形に圧縮する。この場合は、先頭の３周期波形に対して同様の処理を施す。つまり、入力の１０周期波形のうち、先頭の３周期波形を除いた７周期波形は処理に使わない。
【００５７】
このＭ周期波形からＮ周期波形に圧縮する組み合わせを色々と用意しておくことで、多種類の圧縮率を得る。ところで、無音区間が短い場合、圧縮率が低い（圧縮の度合いが大きい）とリングメモリ３２がオーバーフローする恐れがある。これを防ぐためには、リングメモリ３２の蓄積量に応じて、時間軸圧縮伸長部４３における圧縮率を動的に変化させればよい。また、背景雑音が存在する場合、音声区間やピッチの抽出誤りが生じる。これを防ぐためには、音声判別部４１における音声区間の検出レベルを雑音信号に応じて変化させればよい。
【００５８】
次に、低速再生時における話速変換部３５の動作について、図３および図４に従って説明する。
図３に、通常の再生時および０．５倍速再生時において再生される音声の例を示す。
【００５９】
低速再生時には、通常の再生時に比べて、オーディオ信号のビットレートが小さくなる。そのため、方法１に示すように、通常の再生時よりもビットレートの小さなオーディオ信号をそのままＤ／Ａコンバータ５へ送った場合、通常の再生時に比べて、スピーカ２３から再生される音声のピッチは変化しないものの、音声が途切れ途切れになる。つまり、各音声区間（「あ」「い」「う」「え」）の時間長さは通常の再生時のそれと変わらず、全く音の存在していない無音区間が各音声区間の間に挿入されるため、音声が途切れ途切れになり、ユーザは聴感上違和感を覚える。
【００６０】
そこで、話速変換部３５において、方法２または方法３に示すように話速変換処理を行う。尚、ＭＰＥＧオーディオでは、低速再生時に音声のピッチが変化しないため、高速再生時のように時間軸圧縮伸長部４３においてピッチを変える処理を行う必要はない。
【００６１】
（方法２）
方法２では、時間軸圧縮伸長部４３において各音声区間の長さを伸長させ、それと共に、無音削除挿入部４２において各無音区間の長さを短くすることで、音声の途切れを目立たなくする。
【００６２】
尚、時間軸圧縮伸長部４３において音声区間の長さを伸長させるには、音声判別部４１の判別した音声区間に対して、例えば、自己相関法を用いてピッチ抽出を行い、抽出したピッチ波形に対して伸長処理を行う。例えば、同一のピッチ周期をもつ２周期波形を３周期波形に伸長することで、３／２倍の伸長（伸長率；３／２）を得る。また、同一のピッチ周期をもつ３周期波形を４周期波形に伸長することで、４／３倍の伸長（伸長率；４／３）を得る。その結果、低速再生時において、オーディオ信号のビットレートが小さくなった場合に、スピーカ２３から再生される音声区間の時間長さは伸長される。
【００６３】
このとき、音声区間を伸長し過ぎると、音声区間が間延びして聞こえるため、音声の途切れは目立たなくなるものの、やはり不自然になる。これを防止するには、通常の再生時における音声区間の長さＬ１に対して、低速再生時における音声区間の長さＬ２を、例えば、以下の式に示すように設定する。
【００６４】
Ｌ２／Ｌ１≦１．４
尚、上記式は０．５倍速再生時だけでなく、あらゆる倍率の低速再生時に適用できる。ここで、時間軸圧縮伸長部４３における音声区間の伸長率は一定値にしてもよく、以下の▲１▼▲２▼に示すように可変にしてもよい。
【００６５】
▲１▼リングメモリ３２の蓄積量に対応して音声区間の伸長率を動的に変化させる。無音区間が短い場合、音声区間の伸長率が大きい（伸長の度合いが大きい）とリングメモリ３２がオーバーフローする恐れがある。これを防ぐためには、音声区間の伸長率を小さくすればよい。
【００６６】
▲２▼音声のピッチ変化に対応して音声区間の伸長率を動的に変化させる。つまり、図４に示すように、音声のピッチ変化に対応して音声区間の伸長率を変化させることで、話速を変化させる。この場合、音声の聞き易さをさらに向上させることができる。尚、音声のピッチ変化に対応して音声区間の伸長率を変化させることで話速を変化させる技術は公知である（信学技報ＳＰ９２−５６，ＨＣ９２−３３（１９９２−０９），Ｐ．４９〜５６．参照）。
【００６７】
（方法３）
方法３では、無音削除挿入部４２において、各無音区間を削除して各音声区間をつなぎ合わせた後で、音声区間に続いて新たに無音区間を挿入することで、音声の途切れを目立たなくする。尚、挿入する無音区間は、以下の▲１▼〜▲３▼のいずれであってもよい。
【００６８】
▲１▼全く音の存在しない無音区間。
▲２▼視聴者が違和感を覚えないような白色雑音を含む無音区間。尚、そのような白色雑音は、予め作成して別メモリ（図示略）に記憶しておく。
【００６９】
▲３▼音声判別部４１において無音区間と判別したオーディオ信号を別メモリ（図示略）に保持しておき、それを無音区間として挿入する。
このように、本実施形態によれば、以下の作用および効果を得ることができる。
【００７０】
（１）話速変換処理回路４を設けることで、高速再生時において、スピーカ２３から再生される音声のピッチを通常の再生時とほぼ同一にし、且つ、スピーカ２３から再生される話速を通常の再生時に近づけることが可能になり、自然で聞き易い音声を再生することができる。
【００７１】
ところで、ｍ倍速再生時（ｍ＞１）には、オーディオストリームおよびデコードクロックのビットレートは通常の再生時のｍ倍になる。このとき、話速変換部３５から出力されるデータのビットレートを通常の再生時とほぼ同一になるようにすれば、再生される音声のピッチを通常の再生時とほぼ同一にすることができる。すなわち、話速変換部３５においてビットレートをｍ→１に変換すれば、再生される音声のピッチは通常の再生時とほぼ同一になる。
【００７２】
（２）話速変換処理回路４を設けることで、低速再生時において再生される音声の途切れを目立たなくすることが可能になり、自然で聞き易い音声を再生することができる。
【００７３】
ところで、上記方法２と方法３とを、以下の（１）（２）に示すように併用してもよい。
（１）ＭＰＥＧオーディオ再生装置１のユーザが、方法２と方法３とを任意に切り換え選択できるようにする。このようにすれば、個々のユーザの聴覚特性に合わせることが可能になり、ユーザにとって聞き易い音声を再生することができる。
（２）低速再生の倍率に対応して方法２と方法３とが自動的に切り換え選択されるようにする。例えば、１〜０．５倍速再生時には方法３が選択され、０．５倍速以下の再生時には方法２が選択されるようにする。このようにすれば、再生速度に応じて、自然な音声を再生することができる。
【００７４】
（３）各回路２〜６を１チップのＬＳＩに搭載した場合には、ＭＰＥＧオーディオ再生装置１を小型化することができる。
（第２実施形態）
以下、本発明を具体化した第２実施形態を図面に従って説明する。尚、本実施形態において、第１実施形態と同じ構成部材については符号を等しくしてその詳細な説明を省略する。
【００７５】
図５に、本実施形態の要部ブロック回路図を示す。本実施形態において、第１実施形態と異なるのは、インデックス付加回路５１およびインデックス検出回路５２が設けられている点だけである。
【００７６】
インデックス付加回路５１は、フレームメモリ３４の前段（すなわち、ＭＰＥＧオーディオデコーダ３と話速変換処理回路４の間）に設けられている。インデックス付加回路５１は、デコードクロックに従って、オーディオデコーダ３の生成したオーディオ信号に一定周期でインデックス信号を付加する。そのインデックス信号が付加されたオーディオ信号は、フレームメモリ３４へ出力される。
【００７７】
インデックス検出回路５２は、リングメモリ３２から読み出されたデータに付加されているインデックス信号を検出し、そのインデックス信号から得られる時刻情報と現在時刻とから、話速変換処理回路４が信号処理に要する時間Δｔを算出し、その時間Δｔに関する検出信号をビデオデコーダ１２へ供給する。ビデオデコーダ１２は、その時間Δｔに関する検出信号に従って、自己の動作のタイミングを制御する。
【００７８】
このように、本実施形態によれば、第１実施形態の作用および効果に加えて、以下の作用および効果を得ることができる。
（１）前記したように、ビデオデコーダ１２の生成するビデオ信号と、オーディオデコーダ３の生成するオーディオ信号とは、通常の再生時において同期生成されるようになっている。そのため、オーディオデコーダ３とＤ／Ａコンバータ５の間に話速変換処理回路４を設けると、話速変換処理回路４における信号処理に要する時間分（すなわち、話速変換処理回路４における遅延時間分）だけ、オーディオ信号が遅延することになる。
【００７９】
そこで、インデックス付加回路５１を用いて、フレームメモリ３４へ入力されるオーディオ信号に予め一定周期でインデックス信号を付加する。
インデックス検出回路５２は、リングメモリ３２から読み出されたデータに付加されているインデックス信号を検出し、話速変換処理回路４が信号処理に要する時間Δｔを算出し、その時間Δｔに関する検出信号をビデオデコーダ１２へ供給する。ビデオデコーダ１２は、その時間Δｔに関する検出信号に従って、自己の動作のタイミングを制御する。また、インデックス検出回路５２が次にインデックス信号を検出したとき、ビデオデコーダ１２は、そのときに算出された時間と前回算出された時間との差だけ、自己の動作のタイミングを遅らせたり早めたりする。
【００８０】
その結果、話速変換処理回路４における遅延時間に関係なく、リングメモリ３２から読み出されたデータ（すなわち、話速変換処理済みのオーディオ信号）とビデオ信号との同期をとることができる。
【００８１】
（２）上記（１）より、スピーカ２３で再生される音声と、ディスプレイ２２で再生される動画との時間ずれを低減することが可能になり、リップシンクのずれを人間の聴覚の許容範囲内にすることができる。
【００８２】
（３）オーディオ信号に付加されたインデックス信号は、無音削除挿入部４２によって削除されることがある。しかし、インデックス信号を付加する周期を短くして、オーディオ信号に十分な数のインデックス信号を付加しておけば、そのインデックス信号の内のいくつかが無音削除挿入部４２によって削除されたとしても、リングメモリ３２から読み出されたデータには一定数以上のインデックス信号が残ることになる。その残ったインデックス信号により、上記（１）の作用および効果を得ることができる。
【００８３】
（第３実施形態）
以下、本発明を具体化した第３実施形態を図面に従って説明する。尚、本実施形態において、第２実施形態と同じ構成部材については符号を等しくしてその詳細な説明を省略する。
【００８４】
図６に、本実施形態の要部ブロック回路図を示す。本実施形態において、第２実施形態と異なるのは、インデックス付加回路５１が、フレームメモリ３４と音声判別部４１の間に設けられている点だけである。インデックス付加回路５１は、デコードクロックに従って、フレームメモリ３４から読み出されたオーディオ信号に一定周期でインデックス信号を付加する。そのインデックス信号が付加されたオーディオ信号は、音声判別部４１へ出力される。
【００８５】
前記したように、フレームメモリ３４が２フレーム分のオーディオ信号を蓄積する場合、フレームメモリ３４の記憶容量は、例えば、０．８Ｋバイト程度あれば十分である。このように、フレームメモリ３４の記憶容量が小さい場合には、話速変換処理回路４における遅延時間に比べて、フレームメモリ３４における書き込み動作および読み出し動作に要する時間（すなわち、フレームメモリ３４における遅延時間）は僅かであり、無視しても差し支えない。
【００８６】
従って、本実施形態によれば、第２実施形態と同様の作用および効果を得ることができる。
（第４実施形態）
以下、本発明を具体化した第４実施形態を図面に従って説明する。尚、本実施形態において、第２実施形態と同じ構成部材については符号を等しくしてその詳細な説明を省略する。
【００８７】
図７に、本実施形態の要部ブロック回路図を示す。本実施形態において、第２実施形態と異なるのは、インデックス付加回路５１が、音声判別部４１と無音削除挿入部４２および時間軸圧縮伸長部４３との間にそれぞれ設けられている点だけである。インデックス付加回路５１は、デコードクロックに従って、音声判別部４１における信号処理が済んだオーディオ信号に一定周期でインデックス信号を付加する。そのインデックス信号が付加されたオーディオ信号は、無音削除挿入部４２および時間軸圧縮伸長部４３へ出力される。
【００８８】
前記したように、フレームメモリ３４の記憶容量が小さい場合には、話速変換処理回路４における遅延時間に比べて、フレームメモリ３４における遅延時間は僅かであり、無視しても差し支えない。
【００８９】
また、音声判別部４１における信号処理に要する時間（すなわち、音声判別部４１における遅延時間）は、話速変換処理回路４における遅延時間に比べて僅かであり、無視しても差し支えない。
【００９０】
従って、本実施形態によれば、第２実施形態と同様の作用および効果を得ることができる。
（第５実施形態）
以下、本発明を具体化した第５実施形態を図面に従って説明する。尚、本実施形態において、第２実施形態と同じ構成部材については符号を等しくしてその詳細な説明を省略する。
【００９１】
図８に、本実施形態の要部ブロック回路図を示す。本実施形態において、第２実施形態と異なるのは、インデックス付加回路５１が、無音削除挿入部４２および時間軸圧縮伸長部４３とリングメモリ３２との間に設けられている点だけである。インデックス付加回路５１は、デコードクロックに従って、各部４２，４３における信号処理が済んだオーディオ信号に一定周期でインデックス信号を付加する。そのインデックス信号が付加されたオーディオ信号は、リングメモリ３２へ出力される。
【００９２】
前記したように、フレームメモリ３４の記憶容量が小さい場合には、話速変換処理回路４における遅延時間に比べて、フレームメモリ３４における遅延時間は僅かであり、無視しても差し支えない。
【００９３】
また、各部４１〜４３における信号処理に要する時間（すなわち、各部４１〜４３における遅延時間）は、話速変換処理回路４における遅延時間に比べて僅かであり、無視しても差し支えない。
【００９４】
つまり、話速変換処理回路４における遅延時間は、主に、リングメモリ３２における書き込み動作および読み出し動作に要する時間（すなわち、リングメモリ３２における遅延時間）によって決定される。
【００９５】
従って、本実施形態によれば、第２実施形態と同様の作用および効果を得ることができる。また、本実施形態によれば、第２実施形態のようにオーディオ信号に付加されたインデックス信号が無音削除挿入部４２によって削除されることがない。そのため、付加したインデックス信号が全て活用され、インデックス信号の数を減らすことが可能になることから、インデックス付加回路５１の回路規模を小さくすることができる。
【００９６】
（第６実施形態）
以下、本発明を具体化した第６実施形態を図面に従って説明する。尚、本実施形態において、第１実施形態と同じ構成部材については符号を等しくしてその詳細な説明を省略する。
【００９７】
図９に、本実施形態の要部ブロック回路図を示す。本実施形態において、第１実施形態と異なるのは、遅延時間検出回路５３が設けられている点だけである。
前記したように、音声判別部４１は、フレームメモリ３４から読み出されたオーディオ信号が、音声区間か又は無音区間かを判別する。つまり、音声判別部４１の処理結果には、オーディオ信号に音声が含まれているか否かという情報が含まれている。
【００９８】
また、デコードクロックは、システムストリームのビットレートに対応している。つまり、デコードクロックには、予めオーディオ信号の圧縮伸長率の情報が含まれている。
【００９９】
そこで、遅延時間検出回路５３は、オーディオ信号に音声が含まれているか否かという情報と圧縮伸長率の情報とに基づいて、話速変換処理回路４における遅延時間を検出し、その検出信号をビデオデコーダ１２へ供給する。ビデオデコーダ１２は、遅延時間検出回路５３の検出信号に基づいて、自己の動作のタイミングを制御する。その結果、話速変換処理回路４における遅延時間に関係なく、リングメモリ３２から読み出されたデータ（すなわち、話速変換処理済みのオーディオ信号）とビデオ信号との同期をとることができる。
【０１００】
このように、本実施形態によれば、第２実施形態と同様の効果を得ることができる。
（第７実施形態）
以下、本発明を具体化した第７実施形態を図面に従って説明する。尚、本実施形態において、第１実施形態と同じ構成部材については符号を等しくしてその詳細な説明を省略する。
【０１０１】
図１０に、本実施形態の要部ブロック回路図を示す。本実施形態において、第１実施形態と異なるのは、制御回路５４が設けられている点だけである。
制御回路５４は、アップダウンカウンタ３３の検出したリングメモリ３２の蓄積量に基づいて、ビデオデコーダ１２の動作速度を制御するための制御信号を生成し、その制御信号をビデオデコーダ１２へ供給する。ビデオデコーダ１２は、制御回路５４の制御信号に基づいて、自己の動作のタイミングを制御する。その結果、リングメモリ３２から読み出されたデータと、ビデオデコーダ１２の生成するビデオ信号との同期をとることができる。
【０１０２】
前記したように、話速変換処理回路４における遅延時間は、主にリングメモリ３２における遅延時間によって決定される。リングメモリ３２における遅延時間は、その蓄積量と相関関係があり、蓄積量が大きくなるほど遅延時間も大きくなる。従って、リングメモリ３２の蓄積量に基づいてビデオデコーダ１２の動作速度を制御すれば、リングメモリ３２から読み出されたデータ（すなわち、話速変換処理済みのオーディオ信号）とビデオ信号との同期をとることができる。
【０１０３】
このように、本実施形態によれば、第２実施形態と同様の効果を得ることができる。
（第８実施形態）
以下、本発明を具体化した第８実施形態を図面に従って説明する。尚、本実施形態において、第１実施形態と同じ構成部材については符号を等しくしてその詳細な説明を省略する。
【０１０４】
図１１に、本実施形態の要部ブロック回路図を示す。本実施形態において、第１実施形態と異なるのは、遅延時間検出回路５５が設けられている点だけである。
【０１０５】
前記したように、音声判別部４１の処理結果には、オーディオ信号に音声が含まれているか否かという情報が含まれている。
また、時間軸圧縮伸長部４３の処理結果には、オーディオ信号の圧縮伸長率の情報が含まれている。
【０１０６】
そこで、遅延時間検出回路５５は、オーディオ信号に音声が含まれているか否かという情報と圧縮伸長率の情報とに基づいて、話速変換処理回路４における遅延時間を検出し、その検出信号をビデオデコーダ１２へ供給する。ビデオデコーダ１２は、遅延時間検出回路５５の検出信号に基づいて、自己の動作のタイミングを制御する。その結果、話速変換処理回路４における遅延時間に関係なく、リングメモリ３２から読み出されたデータ（すなわち、話速変換処理済みのオーディオ信号）とビデオ信号との同期をとることができる。
【０１０７】
このように、本実施形態によれば、第２実施形態と同様の効果を得ることができる。
図１２に、可変速再生機能を備えたＭＰＥＧビデオデコーダ１２の要部ブロック回路を示す。
【０１０８】
ＭＰＥＧビデオデコーダ１２は、ビットバッファ２０２、ピクチャヘッダ検出回路２０３、ＭＰＥＧビデオデコードコア回路（以下、デコードコア回路と略す）２０４、可変閾値オーバーフロー判定回路（以下、判定回路と略す）２０５、ピクチャスキップ回路２０６、制御コア回路２０７から構成されている。尚、各回路２０３〜２０７は１チップのＬＳＩに搭載することもできる。
【０１０９】
制御コア回路２０７は各回路２〜６を制御する。
ＡＶパーサ１１から転送されてきたＭＰＥＧビデオストリームはビットバッファ２０２へ入力される。
【０１１０】
ビットバッファ２０２はＦＩＦＯ構成のＲＡＭから成るリングメモリによって構成され、転送されてくるビデオストリームをそのまま順次蓄積する。
ピクチャヘッダ検出回路２０３は、ビットバッファ２０２に蓄積されたビデオストリームの各ピクチャの先頭に付くピクチャヘッダを検出し、その各ピクチャヘッダに規定されているピクチャのタイプ（Ｉ，Ｐ，Ｂ）を検出する。
【０１１１】
制御コア回路２０７は、ピクチャヘッダ検出回路２０３の検出結果と後記する判定回路２０５の判定結果とに基づいて、ビットバッファ２０２から１フレーム期間毎に適宜なピクチャ分のビデオストリームを読み出す。尚、ビットバッファ２０２から読み出されたビデオストリームは、読み出された後もビットバッファ２０２にそのまま残される。
【０１１２】
ビットバッファ２０２から読み出された各ピクチャは、ピクチャスキップ回路２０６を介してデコードコア回路２０４へ転送される。
デコードコア回路２０４は、各ピクチャをＭＰＥＧビデオパートに準拠してデコードし、各ピクチャ毎のビデオ信号を生成する。
【０１１３】
ピクチャスキップ回路２０６は、制御コア回路２０７の制御に従って各ノード２０６ａ，２０６ｂ側への接続が切り換えられる。そして、ピクチャスキップ回路２０６がノード２０６ａ側に接続されると、ビットバッファ２０２から読み出されたピクチャはそのままデコードコア回路２０４へ転送される。また、ノード２０６ｂ側に接続されると、ビットバッファ２０２から読み出されたピクチャはデコードコア回路２０４へ転送されずにスキップされる。その結果、デコードコア回路２０４へ転送されるピクチャは、ピクチャスキップ回路２０６によってスキップされた分だけピクチャ単位で間引かれる。
【０１１４】
判定回路２０５は、再生速度検出回路２の生成したデコードクロックに基づいてビットバッファ２０２の占有量Ｂｍの閾値Ｂｔｈｎを設定し、ビットバッファ２０２の占有量Ｂｍと閾値Ｂｔｈｎとを比較する。尚、判定回路２０５では、再生速度検出回路２の生成した実際のデコードクロックの周波数と、通常の再生時のデコードクロックの周波数との比を求め、その比を再生速度の倍率ｎとする。従って、２倍速再生時には倍率ｎ＝２となり、閾値Ｂｔｈｎ＝Ｂｔｈ２となる。また、通常の再生時には倍率ｎ＝１となり、閾値Ｂｔｈｎ＝Ｂｔｈ１となる。
【０１１５】
そして、判定回路２０５は、ビットバッファ２０２の占有量Ｂｍが閾値Ｂｔｈｎを越えない場合には、ビットバッファ２０２がオーバーフローする恐れがなく正常であると判定する。この場合、制御コア回路２０７は、ビットバッファ２０２から１ピクチャ分のビデオストリームを読み出す。そして、制御コア回路２０７は、ピクチャスキップ回路２０６をノード２０６ａ側に接続し、そのビットバッファ２０２から読み出されたピクチャをデコードコア回路２０４へ転送させる。
【０１１６】
また、判定回路２０５は、ビットバッファ２０２の占有量Ｂｍが閾値Ｂｔｈｎを越えた場合には、ビットバッファ２０２がオーバーフローする恐れがあると判定する。この場合、制御コア回路２０７は、ビットバッファ２０２の占有量Ｂｍが閾値Ｂｔｈｎを下回るまで、ビットバッファ２０２から適宜なピクチャ分のビデオストリームを読み出す。そして、制御コア回路２０７は、ピクチャスキップ回路２０６をノード２０６ｂ側に接続し、そのビットバッファ２０２から読み出された適宜なピクチャ分のビデオストリームを全てスキップさせる。
【０１１７】
図１３に、ビットバッファ２０２の占有量Ｂｍの変化を示す。
ビットバッファ２０２の占有量ＢｍはビットレートＲＢをグラフの傾きとして上昇する。ビットレートＲＢは、シーケンスの先頭に付くシーケンスヘッダのＢＲ（ＢｉｔＲａｔｅ）に従って式（１）に示すように規定される。また、ＡＶパーサ１１から転送されてくるビデオストリームのピクチャレートＲＰはシーケンスヘッダのＰＲ（ＰｉｃｔｕｒｅＲａｔｅ）によって規定される。そして、ビットバッファ２０２の容量Ｂは、シーケンスヘッダのＶＢＶ（Ｖｂｖ［ＶｉｄｅｏＢｕｆｆｅｒｒｉｎｇＶｅｒｉｆｉｅｒ］ＢｕｆｆｅｒＳｉｚｅ）に従って式（２）に示すように規定される。そして、１フレーム期間毎に、デコードコア回路２０４がそのときデコードしようとする１ピクチャ分のビデオストリームが、ビットバッファ２０２から一気に読み出される。ここで、１フレーム期間にビットバッファ２０２に入力されるビデオストリームのデータ量Ｘは、ビットレートＲＢおよびピクチャレートＲＰに従って式（３）に示すように規定される。従って、ビットバッファ２０２から１ピクチャ分のビデオストリームが一気に読み出された直後のビットバッファ２０２の占有量Ｂｍ（＝Ｂ０〜Ｂ６）は、データ量Ｘとビットバッファ２０２の容量Ｂとに基づいて、式（４）に示す条件を満たすように規定される。
【０１１８】
ＲＢ＝４００×ＢＲ ………（１）
Ｂ＝１６×１０２４×ＶＢＶ ………（２）
Ｘ＝ＲＢ／ＲＰ ………（３）
０＜Ｂｍ＜Ｂ−Ｘ＝Ｂ−（ＲＢ／ＲＰ） ………（４）
式（４）に示す条件を満たすようにビットバッファ２０２の占有量Ｂｍが規定されていれば、ビットバッファ２０２がオーバーフローしたりアンダーフローしたりすることはない。逆に言えば、ビットバッファ２０２の占有量Ｂｍが閾値（Ｂ−Ｘ）を越えると、次の１フレーム期間にビットバッファ２０２に入力されるビデオストリームによってビットバッファ２０２がオーバーフローする可能性が極めて高くなる。
【０１１９】
ビデオデコーダ１２では、通常の再生時において、式（４）が満たされるように、ビットレートＲＢ、ピクチャレートＲＰ、容量Ｂの各値が規定されている。つまり、式（２）に示すようにビットバッファ２０２の容量Ｂを設定しておけば、ピクチャスキップ回路２０６の接続をノード２０６ａ側に固定しておいたとしても、理想的な状態ではビットバッファ２０２がオーバーフローしたりアンダーフローしたりすることはない。
【０１２０】
従って、通常の再生時において、ビットバッファ２０２から１ピクチャ分のデータが一気に読み出された直後の占有量Ｂｍ（＝Ｂ０〜Ｂ４）は、閾値Ｂｔｈ１に基づいて、式（５）に示す条件を満たすように規定される。尚、閾値Ｂｔｈ１は、式（４）に基づいて、式（６）に示すように設定される。
【０１２１】
０＜Ｂｍ＜Ｂｔｈ１＜Ｂ ………（５）
Ｂｔｈ１＝Ｂ−Ｘ＝Ｂ−（ＲＢ／ＲＰ） ………（６）
ところで、実際の状態では、式（２）に示すようにビットバッファ２０２の容量Ｂを設定しておいても、ピクチャスキップ回路２０６の接続をノード２０６ａ側に固定しておくと、ビットバッファ２０２がオーバーフローする恐れがある。
【０１２２】
しかし、ビデオデコーダ１２では、通常の再生時において、ビットバッファ２０２の占有量Ｂｍが閾値Ｂｔｈ１を越えた場合、ビットバッファ２０２がオーバーフローする恐れがあると判定される。すると、ビットバッファ２０２の占有量Ｂｍが閾値Ｂｔｈ１を下回るまで、ビットバッファ２０２から適宜なピクチャ分のビデオストリームが読み出される。そして、ピクチャスキップ回路２０６はノード２０６ｂ側に接続され、そのビットバッファ２０２から読み出された適宜なピクチャ分のビデオストリームは全てスキップされる。従って、ビデオデコーダ１２によれば、通常の再生時において、ビットバッファ２０２がオーバーフローすることはない。
【０１２３】
高速再生時におけるビットバッファ２０２の占有量Ｂｍはビットレートｎ×ＲＢをグラフの傾きとして上昇する。例えば、２倍速再生時におけるビットバッファ２０２の占有量Ｂｍはビットレート２×ＲＢをグラフの傾きとして上昇する。
【０１２４】
従って、高速再生時において、ビットバッファ２０２から１ピクチャ分のデータが一気に読み出された直後の占有量Ｂｍ（＝Ｂ０〜Ｂ４）は、閾値Ｂｔｈｎに基づいて、式（７）に示す条件を満たすように規定される。尚、閾値Ｂｔｈｎは式（８）に示すように設定される。
【０１２５】
０＜Ｂｍ＜Ｂｔｈｎ ………（７）
Ｂｔｈｎ＝Ｂ−ｎ×Ｘ＝Ｂ−（ｎ×ＲＢ／ＲＰ） ………（８）
高速再生時においては、ビットバッファ２０２の占有量Ｂｍが閾値Ｂｔｈｎを越えた場合、ビットバッファ２０２がオーバーフローする恐れがあると判定される。例えば、２倍速再生時には占有量Ｂｍが閾値Ｂｔｈ２（＝Ｂ−（２×ＲＢ／ＲＰ））を越えた場合、３倍速再生時には占有量Ｂｍが閾値Ｂｔｈ３（＝Ｂ−（３×ＲＢ／ＲＰ））を越えた場合に、ビットバッファ２０２がオーバーフローする恐れがあると判定される。すると、ビットバッファ２０２の占有量Ｂｍが閾値Ｂｔｈｎを下回るまでビットバッファ２０２から適宜なピクチャ分のビデオストリームが読み出され、そのビデオストリームは全てスキップされる。従って、ビデオデコーダ１２によれば、高速再生時において、ビットバッファ２０２がオーバーフローすることはない。
【０１２６】
デコードコア回路２０４において任意のピクチャをデコードしている途中でビットバッファ２０２がオーバーフローすると、デコード処理中のピクチャのビットバッファ２０２に残っている部分に対して、新たに入力されたビデオストリームが上書きされる。その結果、デコード処理中のピクチャのビットバッファ２０２に残っている部分が破壊されて失われる。すると、デコードコア回路２０４では、そのピクチャのデコードを完了することが不可能になり、そのピクチャのビデオ信号を生成することができなくなる。従って、デコードコア回路２０４において任意のピクチャをデコードしている途中でビットバッファ２０２がオーバーフローすることは絶対に避けなければならない。
【０１２７】
そのため、ビットバッファ２０２がオーバーフローする恐れがあるかどうかの判定は、デコードコア回路２０４において任意のピクチャのデコードを開始する前に行う必要がある。より正確には、ピクチャヘッダ検出回路２０３がピクチャヘッダを検出した時点で、ビットバッファ２０２がオーバーフローする恐れがあるかどうかを判定し、そのピクチャをピクチャスキップ回路２０６を介してスキップするかどうかを決定する必要がある。
【０１２８】
ところで、１つのピクチャのデータ量は０〜４０バイトであるが、そのデータ量はデコードコア回路２０４においてデコードが終了した時点でないとわからない。また、１つのピクチャのデコード処理時間は、そのピクチャのデータ量やデコードコア回路２０４の動作速度によって異なるが、通常、１フレーム期間の１／３〜３／４程度である。
【０１２９】
ビットバッファ２０２から読み出されたピクチャのデータ量が０バイトの場合、そのピクチャの読み出し前後でビットバッファ２０２の占有量Ｂｍは変化しないため、そのピクチャをスキップしたとしてもオーバーフローを回避することはできない。逆に言えば、ビットバッファ２０２から読み出されたピクチャのデータ量が０バイトの場合でも、ビットバッファ２０２に十分な空き容量があればオーバーフローすることはない。
【０１３０】
そこで、１フレーム期間にビットバッファ２０２に入力されるビデオストリームのデータ量分の空き容量を、ビットバッファ２０２に確保しておく。そうすれば、ビットバッファ２０２から読み出されたピクチャのデータ量が０バイトの場合でもオーバーフローすることはない。
【０１３１】
１フレーム期間にビットバッファ２０２に入力されるビデオストリームのデータ量は、（ｎ×Ｘ＝ｎ×ＲＢ／ＲＰ）になる。ビットバッファ２０２の空き容量がこのデータ量以上であればオーバーフローすることはない。従って、式（８）に示すように閾値Ｂｔｈｎを設定しておけば、ビットバッファ２０２のオーバーフローを確実に回避することができる。
【０１３２】
すなわち、判定回路２０５は、ピクチャヘッダ検出回路２０３がピクチャヘッダを検出した時点でビットバッファ２０２の空き容量をチェックし、十分な空き容量（ｎ×Ｘ＝ｎ×ＲＢ／ＲＰ）が確保されているかどうかを判定する。十分な空き容量が確保されていなければ、そのピクチャヘッダに基づいて制御コア回路２０７がビットバッファ２０２から読み出したピクチャを、ピクチャスキップ回路２０６を介してスキップする。続いて、判定回路２０５は、ピクチャヘッダ検出回路２０３が次のピクチャヘッダを検出した時点で、再びビットバッファ２０２の空き容量をチェックする。これらの処理に要する時間は、デコードコア回路２０４のデコード処理時間に比べてはるかに短いため、ビットバッファ２０２に十分な空き容量が確保できてからデコードコア回路２０４のデコード処理を開始しても十分に間に合う。
【０１３３】
ところで、ピクチャヘッダ検出回路２０３がピクチャヘッダを検出した時点や、デコードコア回路２０４がデコードを開始した後に、ビットバッファ２０２がアンダーフローすることがある。この場合は、ビデオストリームがビットバッファ２０２に入力され次第、ビットバッファ２０２から１ピクチャ分のビデオストリームを逐次読み出せばよいため、特に問題とはならない。
【０１３４】
以上詳述したように、ビデオデコーダ１２によれば、以下に示す効果を得ることができる。
▲１▼通常の再生時において、ビットバッファ２０２のオーバーフローを回避することができる。
【０１３５】
▲２▼高速再生時において、ビットバッファ２０２のオーバーフローを回避することができる。
▲３▼判定回路２０５およびピクチャスキップ回路２０６を設けることにより、ビットバッファ２０２のオーバーフローを回避することができる。上記したように判定回路２０５およびピクチャスキップ回路２０６の制御は簡単であるため、制御コア回路２０７はマイクロコンピュータを用いて構成する必要がない。そして、各回路２０３〜２０７を１チップのＬＳＩに搭載した場合には、ビデオデコーダ１２を小型化することができる。
【０１３６】
▲４▼ピクチャスキップ回路２０６のノード２０６ｂ側からスキップされるビデオストリームは、ピクチャ単位となる。そのため、デコードコア回路２０４へ転送されるピクチャの途中でデータが途切れることはない。従って、デコードコア回路２０４では、ＩピクチャだけでなくＰピクチャやＢピクチャについてもデコード可能になる。その結果、ディスプレイ２２で再生される動画に生じるコマ落ちが少なくなる。そのため、２〜４倍という比較的遅い高速再生時において、数コマ／秒の表示が可能になる。従って、高速再生時における動画の動きを滑らかにして画質を大幅に向上させることができる。
【０１３７】
ところで、上記したビデオデコーダ１２において、式（９）に示す規定を満たすように、２つの閾値Ｂ２ｔｈｎ，Ｂ３ｔｈｎを設定してもよい。尚、各閾値Ｂ２ｔｈｎ，Ｂ３ｔｈｎの値は、上記のように再生速度に応じて設定されると共に、ディスプレイ２２で再生される動画の画質を実際に検討して適宜に設定すればよい。
【０１３８】
０＜Ｂ３ｔｈｎ＜Ｂ２ｔｈｎ＜Ｂ ………（９）
判定回路２０５は、ビットバッファ２０２の占有量Ｂｍと各閾値Ｂｔｈｎ，Ｂ２ｔｈｎとを比較し、占有量Ｂｍが式（１０）〜（１２）に示すどの領域に含まれるかを判定する。
【０１３９】
Ｂｍ＜Ｂ３ｔｈｎ ………（１０）
Ｂ３ｔｈｎ＜Ｂｍ＜Ｂ２ｔｈｎ ………（１１）
Ｂ２ｔｈｎ＜Ｂｍ ………（１２）
判定回路２０５は、式（１０）に示すように、ビットバッファ２０２の占有量Ｂｍが閾値Ｂ３ｔｈｎを越えない場合には、ビットバッファ２０２がオーバーフローする恐れがなく正常であると判定する。この場合、制御コア回路２０７は、ビットバッファ２０２から１ピクチャ分のビデオストリームを読み出す。そして、制御コア回路２０７は、ピクチャスキップ回路２０６をノード２０６ａ側に接続し、そのビットバッファ２０２から読み出されたピクチャをデコードコア回路２０４へ転送させる。
【０１４０】
判定回路２０５は、式（１２）に示すように、ビットバッファ２０２の占有量Ｂｍが閾値Ｂ２ｔｈｎを越え且つ閾値Ｂｔｈｎを越えない場合に、ビットバッファ２０２から読み出されたピクチャがＩピクチャまたはＰピクチャならば、第１のフラグを立てる。また、式（１１）に示すように、ビットバッファ２０２の占有量Ｂｍが閾値Ｂ３ｔｈｎを越え且つ閾値Ｂ２ｔｈｎを越えない場合に、ビットバッファ２０２から読み出されたピクチャがＰピクチャならば、第２のフラグを立てる。第１または第２のフラグが立っている場合、式（１０）に示す場合でも、制御コア回路２０７は、ビットバッファ２０２から読み出されたピクチャがＢピクチャならば、ピクチャスキップ回路２０６をノード２０６ｂ側に接続し、そのピクチャをスキップさせる。
【０１４１】
図１３に、２つの閾値Ｂ２ｔｈｎ，Ｂ３ｔｈｎを設定した場合におけるビットバッファ２０２の占有量Ｂｍの変化を示す。
占有量Ｂｍが閾値Ｂ３ｔｈｎを越えた場合、ビットバッファ２０２から読み出されたピクチャがＢピクチャであればデコードせずにスキップする（図示※１）。ここで、Ｂピクチャのスキップ後に占有量Ｂｍがまだ閾値Ｂ３ｔｈｎを越えていても、ビットバッファ２０２から次に読み出されたピクチャがＩピクチャまたはＰピクチャであればデコードする（図示※２）。
【０１４２】
占有量Ｂｍが閾値Ｂ３ｔｈｎを越えた場合でも、ビットバッファ２０２から読み出されたピクチャがＩピクチャまたはＰピクチャであればデコードする（図示※３）。ここで、ＩピクチャまたはＰピクチャのデコード後に占有量Ｂｍがまだ閾値Ｂ３ｔｈｎを越えている場合、ビットバッファ２０２から次に読み出されたピクチャがＢピクチャであればデコードせずにスキップする（図示※４）。このＢピクチャのスキップは、占有量Ｂｍが閾値Ｂ３ｔｈｎを下回るまで繰り返し行う（図示※５）。
【０１４３】
占有量Ｂｍが閾値Ｂ２ｔｈｎを越えた場合、ビットバッファ２０２から読み出されたピクチャがＩピクチャまたはＰピクチャであれば、判定回路２０５は第１のフラグを立てる（図示※６）。第１のフラグが立っている場合、ビットバッファ２０２から次に読み出されたピクチャがＢピクチャであれば、占有量Ｂｍが閾値Ｂ３ｔｈｎを下回っていても、そのＢピクチャをスキップする（図示※７）。
【０１４４】
占有量Ｂｍが閾値Ｂ３ｔｈｎを越え且つ閾値Ｂ２ｔｈｎを越えない場合、ビットバッファ２０２から読み出されたピクチャがＰピクチャであれば、判定回路２０５は第２のフラグを立てる（図示※８）。第２のフラグが立っている場合、ビットバッファ２０２から次に読み出されたピクチャがＢピクチャであれば、占有量Ｂｍが閾値Ｂ３ｔｈｎを下回っていても、そのＢピクチャをスキップする（図示※９）。
【０１４５】
占有量Ｂｍが閾値Ｂ３ｔｈｎを越え且つ閾値Ｂ２ｔｈｎを越えない場合、ビットバッファ２０２から読み出されたピクチャがＩピクチャのときには、判定回路２０５は第２のフラグを立てない（図示※１０）。第２のフラグが立っていない場合、占有量Ｂｍが閾値Ｂ３ｔｈｎを下回っていれば、ビットバッファ２０２から次に読み出されたピクチャがＢピクチャであってもデコードする。
【０１４６】
以上のように、２つの閾値Ｂ２ｔｈｎ，Ｂ３ｔｈｎを設定した場合には、上記したビデオデコーダ１２の効果▲１▼〜▲３▼に加えて、以下の効果を得ることができる。
▲４▼ビットバッファ２０２の占有量Ｂｍが閾値Ｂ３ｔｈｎを越え且つ閾値Ｂｔｈｎを越えない場合、ＩピクチャおよびＰピクチャを可能な限りデコードすると共に、Ｂピクチャを優先してスキップする。
【０１４７】
Ｂピクチャは双方向予測によって生成されるため、その重要度はＩピクチャやＰピクチャに比べて低い。従って、重要度の低いＢピクチャを優先してスキップすることにより、ディスプレイ２２で再生される動画に生じるコマ落ちをさらに少なくすることができる。その結果、高速再生時における動画の動きをさらに滑らかにして画質をより向上させることができる。
【０１４８】
▲５▼第１のフラグを設定することで、ＩピクチャまたはＰピクチャのデコード後にビットバッファ２０２の占有量Ｂｍが閾値Ｂ３ｔｈｎを下回っても、余裕をみて次にビットバッファ２０２から読み出されるＢピクチャを予めスキップすることができる。また、第２のフラグを設定することで、Ｐピクチャのデコード後にビットバッファ２０２の占有量Ｂｍが閾値Ｂ３ｔｈｎを下回っても、余裕をみて次にビットバッファ２０２から読み出されるＢピクチャを予めスキップすることができる。
【０１４９】
このように、Ｂピクチャを予めスキップすることは、ビットバッファ２０２の次回のオーバーフローに対して予防措置を講ずることに他ならない。従って、ビットバッファ２０２のオーバーフローをより確実に回避することができる。
【０１５０】
▲６▼Ｉピクチャのデータ量はＰピクチャのそれの２〜３倍と多い。そのため、Ｐピクチャが読み出された場合に比べて、Ｉピクチャが読み出された場合の方がビットバッファ２０２の占有量Ｂｍの減少の度合いが大きい。従って、Ｐピクチャが読み出された後よりも、Ｉピクチャが読み出された後の方がビットバッファ２０２がオーバーフローする可能性が小さくなる。そこで、第１および第２のフラグを設定することにより、ＩピクチャとＰピクチャとで前記予防措置に差をつける。すなわち、Ｉピクチャに対する予防措置の閾値Ｂ２ｔｈｎを、Ｐピクチャに対する予防措置の閾値Ｂ３ｔｈｎよりも高い値に設定することで、Ｉピクチャに対する予防措置をＰピクチャのそれに比べて緩くすることが可能になる。その結果、Ｂピクチャの無駄なスキップを少なくすることができる。
【０１５１】
▲７▼以下のａ）ｂ）に示すＧＯＰ構成（ピクチャのタイプの並び）のビデオストリームがＡＶパーサ１１から転送されてきた場合についてシミュレーションしたところ、以下に示す結果が得られた。
【０１５２】
ａ）ＩＢＰＢＰＢＰＢＰ・・・
ｂ）ＩＢＢＰＢＢＰＢＢＰＢＢＰＢＢＩＢＰ・・・
［１］２倍速再生時；ａ）の場合、ＩピクチャおよびＰピクチャの全てがデコード可能であり、その結果、３０コマ／秒のフルレートで表示できる。ｂ）の場合、ＩピクチャおよびＰピクチャの全てとＢピクチャの一部がデコード可能であり、その結果、２５コマ／秒以上で表示できる。
【０１５３】
［２］４倍速再生時；ａ）ｂ）共に、Ｉピクチャおよびそれに続く３〜４枚のＰピクチャがデコード可能であり、その結果、１５コマ／秒以上で表示できる。
ところで、第２〜第３実施形態において、ビデオデコーダ１２の動作速度を制御するには、デコードコア回路２０４におけるデコード処理の速度を制御すればよい。
【０１５４】
尚、上記各実施形態は以下のように変更してもよく、その場合でも同様の作用および効果を得ることができる。
（１）リングメモリ３２を、ＤＳＰ３１の後段ではなく、ＤＳＰ３１の前段（すなわち、ＭＰＥＧオーディオデコーダ３とＤＳＰ３１の間）に設ける。
【０１５５】
（２）ＭＰＥＧ再生装置２３を構成する各回路１，１１，１２を１チップのＬＳＩに搭載する。このようにすれば、ＭＰＥＧ再生装置２３を小型化することができる。
【０１５６】
（３）第２〜第８実施形態において、ビデオデコーダ１２の動作速度を制御するのではなく、ビデオデコーダ１２とディスプレイ２２の間に遅延回路を挿入し、その遅延回路の遅延時間を制御する。
【０１５７】
（４）第２〜第８実施形態の内いずれか２つ以上の実施形態を適宜に組み合わせて実施する。このようにすれば、組み合わせた各実施形態の相乗作用によりさらに優れた効果を得ることができる。
【０１５８】
（５）第１〜第８実施形態をＣＰＵを用いたソフトウェア的な処理に置き代える。すなわち、各回路（１〜５５）における信号処理をＣＰＵを用いたソフトウェア的な信号処理に置き代える。
【０１５９】
（６）図１２に示したＭＰＥＧビデオデコーダ１２においては、説明を分かり易くするため、ピクチャスキップ回路２０６が各ノード２０６ａ，２０６ｂを有し、制御コア回路２０７の制御に従って各ノード２０６ａ，２０６ｂの接続が切り換えられる構成としたが、この構成に代えて、ピクチャスキップ回路２０６を、制御コア回路２０７の制御に従って、デコードコア回路２０４でデコードされるべきピクチャだけを通過させる論理回路によって構成してもよい。
【０１６０】
以上、本発明を具体化した各実施形態について説明したが、上記実施形態から把握できる請求項以外の技術的思想について、以下にそれらの効果と共に記載する。
（イ）請求項１〜３のいずれか１項に記載のＭＰＥＧオーディオ再生装置において、オーディオ信号をＤ／Ａ変換するＤ／Ａコンバータ（５）と、Ｄ／Ａコンバータの出力を増幅するオーディオアンプ（６）とを備えたＭＰＥＧオーディオ再生装置。
【０１６１】
このようにすれば、ディジタルのオーディオ信号からスピーカを駆動するためのアナログ信号を生成することができる。
（ロ）請求項４〜８のいずれか１項に記載のＭＰＥＧ再生装置において、記録媒体（２１）から読み出されたＭＰＥＧシステムストリームを、ＭＰＥＧオーディオストリームとＭＰＥＧビデオストリームとに分離するデマルチプレクサ（１３）を備えたＭＰＥＧ再生装置。
【０１６２】
このようにすれば、オーディオデコーダへオーディオストリームを、ビデオデコーダへビデオストリームをそれぞれ転送することができる。
【０１６３】
【発明の効果】
請求項１〜３のいずれか１項に記載の発明によれば、可変速再生時においても自然で聞き易い音声を再生することが可能なＭＰＥＧオーディオ再生装置を提供することができる。
【０１６４】
請求項４に記載の発明によれば、可変速再生時においても自然で聞き易い音声を再生することが可能なＭＰＥＧオーディオ再生装置とＭＰＥＧビデオデコーダとを備えたＭＰＥＧ再生装置を提供することができる。
【０１６５】
請求項５〜８のいずれか１項に記載の発明によれば、可変速再生時においても自然で聞き易い音声を再生することが可能なＭＰＥＧオーディオ再生装置とＭＰＥＧビデオデコーダとを備え、音声と動画との時間ずれを低減することが可能なＭＰＥＧ再生装置を提供することができる。
【図面の簡単な説明】
【図１】第１実施形態のブロック回路図。
【図２】第１実施形態の要部ブロック回路図。
【図３】第１実施形態の作用を説明するための模式図。
【図４】第１実施形態の作用を説明するための模式図。
【図５】第２実施形態の要部ブロック回路図。
【図６】第３実施形態の要部ブロック回路図。
【図７】第４実施形態の要部ブロック回路図。
【図８】第５実施形態の要部ブロック回路図。
【図９】第６実施形態の要部ブロック回路図。
【図１０】第７実施形態の要部ブロック回路図。
【図１１】第８実施形態の要部ブロック回路図。
【図１２】ＭＰＥＧビデオデコーダの要部ブロック回路図。
【図１３】ＭＰＥＧビデオデコーダの動作を説明するためのグラフ。
【図１４】ＭＰＥＧビデオデコーダの動作を説明するためのグラフ。
【符号の説明】
１…ＭＰＥＧオーディオ再生装置
２…話速変換手段としての再生速度検出回路
３…ＭＰＥＧオーディオデコーダ
４…話速変換手段としての話速変換処理回路
１２…ＭＰＥＧビデオデコーダ
２１…記録媒体
３２…リングメモリ
３３…検出手段としてのアップダウンカウンタ
４１…音声判別部
４２…無音削除挿入部
４３…時間軸圧縮伸長部
５１…インデックス付加回路
５２…インデックス検出回路
５３，５５…遅延時間検出回路
５４…制御回路

Claims

記録媒体から読み出されたＭＰＥＧオーディオストリームをＭＰＥＧオーディオパートに準拠してデコードし、オーディオ信号を生成するＭＰＥＧオーディオデコーダと、
オーディオ信号に対して話速変換処理を行う話速変換処理手段とを備え、
話速変換処理手段は、オーディオストリームのビットレートが通常時よりも大きい場合には、再生される各音声区間の時間長さを長くすると共に各無音区間の時間長さを短くするようにして話速変換処理を行い、オーディオストリームのビットレートが通常時よりも小さい場合には、再生される各音声区間の時間長さを長くすると共に各無音区間の時間長さを短くするか、または、各無音区間を削除して各音声区間をつなぎ合わせた後に無音区間を挿入するようにして話速変換処理を行うＭＰＥＧオーディオ再生装置。
請求項１に記載のＭＰＥＧオーディオ再生装置において、
話速変換処理手段は、
オーディオ信号を蓄積するリングメモリと、
リングメモリの蓄積量を検出する検出手段とを備え、
リングメモリの蓄積量に応じて音声区間の時間長さの圧縮伸長率を調整するＭＰＥＧオーディオ再生装置。
請求項２に記載のＭＰＥＧオーディオ再生装置において、
話速変換処理手段は、
オーディオ信号の音声区間と無音区間とを判別する音声判別部と、
無音区間の削除処理または挿入処理を行う無音削除挿入部と、
リングメモリの蓄積量に基づいて音声区間の圧縮伸長処理を行うことで圧縮伸長率を調整する時間軸圧縮伸長部とを備えたＭＰＥＧオーディオ再生装置。
請求項１〜３のいずれか１項に記載のＭＰＥＧオーディオ再生装置と、
記録媒体から読み出されたＭＰＥＧビデオストリームをＭＰＥＧビデオパートに準拠してデコードし、ビデオ信号を生成するＭＰＥＧビデオデコーダとを備えたＭＰＥＧ再生装置。
請求項２または請求項３に記載のＭＰＥＧオーディオ再生装置と、
記録媒体から読み出されたＭＰＥＧビデオストリームをＭＰＥＧビデオパートに準拠してデコードし、ビデオ信号を生成するＭＰＥＧビデオデコーダと、
リングメモリに書き込まれる以前のオーディオ信号に、時刻に関する情報としてのインデックス信号を付加するインデックス付加回路と、リングメモリから読み出されたオーディオ信号に付加されているインデックス信号を検出し、そのインデックス信号から得られる時刻情報と現在の時刻情報とから、話速変換処理手段における信号遅延時間を検出し、その検出された遅延時間を示す信号をＭＰＥＧビデオデコーダへ供給するインデックス検出回路とを備え、
ＭＰＥＧビデオデコーダは、前記遅延時間を示す信号に基づいて自己の動作のタイミングを制御するＭＰＥＧ再生装置。
請求項３に記載のＭＰＥＧオーディオ再生装置と、
記録媒体から読み出されたＭＰＥＧビデオストリームをＭＰＥＧビデオパートに準拠してデコードし、ビデオ信号を生成するＭＰＥＧビデオデコーダと、
音声判別部の処理結果と、オーディオストリームのビットレートとに基づいて、話速変換処理手段における信号遅延時間を検出し、その検出された遅延時間を示す信号をＭＰＥＧビデオデコーダへ供給する遅延時間検出回路とを備え、
ＭＰＥＧビデオデコーダは、前記遅延時間を示す信号に基づいて自己の動作のタイミングを制御するＭＰＥＧ再生装置。
請求項３に記載のＭＰＥＧオーディオ再生装置と、
記録媒体から読み出されたＭＰＥＧビデオストリームをＭＰＥＧビデオパートに準拠してデコードし、ビデオ信号を生成するＭＰＥＧビデオデコーダと、
リングメモリの蓄積量に基づいて、話速変換処理済みのオーディオ信号とビデオ信号との同期を得るための制御信号を生成し、その制御信号をＭＰＥＧビデオデコーダへ供給する制御回路とを備え、
ＭＰＥＧビデオデコーダは、前記制御信号に基づいて自己の動作のタイミングを制御するＭＰＥＧ再生装置。
請求項３に記載のＭＰＥＧオーディオ再生装置と、
記録媒体から読み出されたＭＰＥＧビデオストリームをＭＰＥＧビデオパートに準拠してデコードし、ビデオ信号を生成するＭＰＥＧビデオデコーダと、
音声判別部および時間軸圧縮伸長部の処理結果に基づいて、話速変換処理手段における信号遅延時間を検出し、その検出された遅延時間を示す信号をＭＰＥＧビデオデコーダへ供給する遅延時間検出回路とを備え、
ＭＰＥＧビデオデコーダは、前記遅延時間を示す信号に基づいて自己の動作のタイミングを制御するＭＰＥＧ再生装置。