JP3451921B2

JP3451921B2 - プロセッサ

Info

Publication number: JP3451921B2
Application number: JP08336898A
Authority: JP
Inventors: 岳人瓶子; 哲也田中; 信生桧垣; 秀一高山; 謙介小谷
Original assignee: Panasonic Corp; Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp; Panasonic Holdings Corp
Priority date: 1998-03-30
Filing date: 1998-03-30
Publication date: 2003-09-29
Anticipated expiration: 2018-03-30
Also published as: JPH11282674A

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、プロセッサに関
し、特に並列処理による実行サイクル数の削減とコード
効率の向上を図る技術に関する。

【０００２】

【従来の技術】近年のマイクロプロセッサ応用製品の高
機能化及び高速化に伴い、高い処理性能を持つマイクロ
プロセッサ（以下、単に「プロセッサ」という。）が望
まれている。そして、これを実現する技術の１つとして
１サイクルに複数の命令を同時に実行するものがあり、
ＶＬＩＷ（Very Long Instruction Word）方式のプロセ
ッサもその技術の１つである。

【０００３】このＶＬＩＷ方式のプロセッサは、実行コ
ード生成時にコンパイラ等により静的に命令間の依存関
係を解析し、命令コードの移動を行って実行効率の良い
命令ストリームを生成するものである。この方式は、動
的に命令間の依存関係を解析するスーパースカラ方式の
プロセッサと比べてハードウェアを簡略化でき、このた
め動作周波数を上げやすいという長所を有する。

【０００４】しかし、ＶＬＩＷ方式では、一般に命令を
固定長として取り扱うため、次のような問題がある。

【０００５】すなわち、長い定数を扱う命令の指定には
多くのビット数を必要とするが、レジスタ間演算命令の
指定にはそれほど多くのビット数を必要としない等、命
令毎に指定に必要なビット数にばらつきがある。ところ
が、ＶＬＩＷ方式では命令を固定長として取り扱うた
め、短いビット数しか必要としない命令を指定するのに
必要以上のビット数を用いざるを得ず、コードサイズが
大きくなってしまう。

【０００６】そして、この問題を解決する１つの手段と
して、命令長を可変とすることが考えられる。

【０００７】図１３は、１つの命令が１個または２個の
命令構成要素（ここでは「ユニット」と呼ぶ）にて構成
され、３つの命令を同時実行可能なプロセッサの命令レ
ジスタ周辺の構成を示すブロック図である。同図におい
て、破線は制御信号を表している。図１３においてユニ
ットキュー５０は、ユニットの並びであり、命令メモリ
等から供給された順にユニットを命令レジスタに転送し
ていく。

【０００８】この構成では、命令レジスタＡ５２ａと命
令レジスタＢ５２ｂ、命令レジスタＣ５２ｃと命令レジ
スタＤ５２ｄ、命令レジスタＥ５２ｅと命令レジスタＦ
５２ｆがそれぞれ対になっており、命令は常に命令レジ
スタＡ５２ａ、命令レジスタＣ５２ｃ又は命令レジスタ
Ｅ５２ｅの３つのレジスタのいずれかを先頭として命令
レジスタに格納され、２つのユニットを連結して１つの
命令を構成する場合にのみ、対となっているもう一方の
命令レジスタにユニットが転送される。したがって、命
令レジスタＡ５２ａに転送されたユニットがそのユニッ
ト単体で命令を構成する場合には、命令レジスタＢ５２
ｂにはユニットが転送されないことになる。

【０００９】図１３を見るとわかるように、この構成で
はユニットキュー５０の各ユニットがいずれの命令レジ
スタに転送されるのかが一意に決まっていない。また、
各命令レジスタへ転送されるユニットがユニットキュー
５０のいずれのユニットなのかが一意に決まっていな
い。そこで、セレクタ５１ａ〜５１ｄを制御して転送す
るユニットを選択することになる。さらに、これらのセ
レクタの制御は全体を一度に決定することができず、ま
ずセレクタ５１ａ、セレクタ５１ｂの制御が決定され、
命令レジスタＣへ転送されるユニットが決定してから、
このユニット内の命令長に関する情報を参照して、図中
破線で示すようにセレクタ５１ｃ、セレクタ５１ｄの制
御を決定する。

【００１０】

【発明が解決しようとする課題】しかしながら、上記従
来のプロセッサでは、ユニットキューから命令レジスタ
への転送の際の遅延が大幅に大きくなるという問題点が
あった。これは、先行する命令レジスタに転送されたユ
ニット内の命令長に関する情報を参照しなければ、当該
命令レジスタに関するセレクタの制御を決定できないか
らである。また、並列度が増すに従って、転送すべき命
令レジスタの数が増加するので、この遅延はさらに大き
くなっていく。

【００１１】一方、ユニットキュー内のユニットと命令
レジスタとの対応を一対一とし、図１３に示したプロセ
ッサで問題となっていたユニットキューから命令レジス
タへの転送におけるセレクタによる遅延の問題を解消す
る技術として、図１４に示すものがある。このプロセッ
サでは、命令を構成する可能性のある全てのユニットの
組み合わせについてデコードしておき、先行する命令デ
コーダから出力される命令長の情報によって、デコード
結果を選択して使用する。具体的には、図中破線で示す
ように、第１命令デコーダ５３ｄが出力する情報により
セレクタ５１ｅの制御を決定し、上記情報と第２命令デ
コーダ５３ｅまたは第３命令デコーダ５３ｆが出力する
情報によりセレクタ５１ｆの制御を決定する。

【００１２】ところが、３つの命令を同時実行するため
に、２ユニット長の命令を解読するデコーダを５つも必
要とし、ハードウェアが非常に大きくなるという問題点
がある。

【００１３】そこで、本発明はかかる問題点を鑑みてな
されたものであり、命令レベルの並列実行に際して、ハ
ードウェア複雑化の問題を克服しつつ、性能向上とコー
ド効率向上を両立するプロセッサを提供することを目的
とする。

【００１４】

【課題を解決するための手段】上記目的を達成するため
に請求項１記載のプロセッサは、可変長のビット長から
なる実行単位に含まれる可変長のビット長からなる単位
命令を並列実行できるプロセッサであって、命令を順次
フェッチし、出力する命令供給発行部と、複数の解読手
段を備え、前記命令供給発行部より出力された命令を解
読する解読部と、前記解読部により解読された命令を実
行する実行部とを備え、前記単位命令のうち最小のビッ
ト長の単位命令以外は、前記解読手段により解読される
部分と前記解読手段により解読されない部分とを有し、
前記実行単位の最大ビット長は、前記複数の解読手段の
合計のビット長よりも大きいことを特徴とする。

【００１５】請求項２記載のプロセッサは、前記実行単
位が最大ビット長の場合には、前記実行単位の最後の単
位命令が最大ビット長からなる単位命令であることを特
徴とする請求項１記載のプロセッサである。

【００１６】請求項３記載のプロセッサは、最大のビッ
ト長の前記単位命令は、最小のビット長の単位命令と同
じビット長のオペレーションを含んだ語素と定数のみで
構成された語素からなり、前記単位命令はビット長に関
わらず１つの解読手段によって前記最小のビット長の部
分が解読されることを特徴とする請求項１又は２記載の
プロセッサである。

【００１７】請求項４記載のプロセッサは、前記プロセ
ッサは、さらに、前記解読部によって解読する対象とな
る命令を格納する命令レジスタを有し、前記命令レジス
タと前記解読手段とは１対１に対応していることを特徴
とする請求項２から３いずれかに記載のプロセッサであ
る。

【００１８】請求項５記載のプロセッサは、前記解読手
段は、前記最大のビット長の単位命令を解読する場合に
は、前記定数を格納した前記命令レジスタに対応する解
読手段を無効化することを特徴とする請求項４記載のプ
ロセッサである。

【００１９】請求項６記載のプロセッサは、前記単位命
令が１または複数の語素から構成されることを特徴とす
る請求項１から５いずれかに記載のプロセッサである。

【００２０】請求項７記載のプロセッサは、前記命令発
行供給部は所定数の語素を単位として、前記解読部に命
令を出力し、前記単位命令の各々は、前記所定数の語素
における場所により、前記複数の解読手段のいずれに入
力されるかが一意に決まることを特徴とする請求項６記
載のプロセッサである。

【００２１】請求項８記載のプロセッサは、前記実行単
位に、並列度に関する情報が明示的に付与されることを
特徴とする請求項１から７いずれかに記載のプロセッサ
である。

【００２２】請求項９記載のプロセッサは、前記並列度
に関する情報が、前記実行単位の境界に関する情報であ
ることを特徴とする請求項８記載のプロセッサである。

【００２３】請求項１０記載のプロセッサは、単位命令
の長さに関する情報が、各々の単位命令中に明示的に付
与されることを特徴とする請求項１から９いずれかに記
載のプロセッサである。

【００２４】請求項１１記載のプロセッサは、前記解読
部が発行する解読結果の長さを制御する命令発行制御部
をさらに備えることを特徴とする請求項１から１０いず
れかに記載のプロセッサである。

【００２５】請求項１２記載のプロセッサは、前記解読
手段の各々の解読結果を有効とするか無効とするかを決
定する命令発行制御部をさらに備えることを特徴とする
請求項１から１１いずれかに記載のプロセッサである。

【００２６】請求項１３記載のプロセッサは、前記プロ
セッサが実行する命令列が、前記実行単位へと静的にス
ケジューリングされることを特徴とする請求項１から１
２いずれかに記載のプロセッサである

【００２７】請求項１４記載のプロセッサは、可変長の
ビット長からなる実行単位に含まれる可変長のビット長
からなる単位命令を最大Ｎ（Ｎ：２以上の整数）個並列
実行できるプロセッサであって、前記実行単位のビット
長は、命令フェッチする命令長には限られず可変であ
り、前記単位命令のうち最大のビット長のものをＮ個並
列実行する実行単位のビット長よりも短い所定のビット
長以下の実行単位のみを解読することを特徴とするプロ
セッサである。

【００２８】請求項１５記載のプロセッサは、前記命令
フェッチする命令長よりも長い実行単位を解読すること
が可能であることを特徴とする請求項１４記載のプロセ
ッサである。

【００２９】請求項１６記載のプロセッサは、可変長の
ビット長からなる実行単位に含まれる可変長のビット長
からなる単位命令を最大Ｎ（Ｎ：２以上の整数）個並列
実行できるプロセッサであって、前記実行単位には、並
列度に関する情報が明示的に付与されており、前記単位
命令のうち最大のビット長のものをＮ個並列実行する実
行単位のビット長よりも短い所定のビット長以下の実行
単位のみを解読することを特徴とするプロセッサであ
る。

【００３０】請求項１７記載のプロセッサは前記プロセ
ッサは命令を解読する解読部を有し、前記解読部には、
前記単位命令のうち最大のビット長のものをＮ個並列実
行する実行単位のビット長よりも短いビット長の命令が
供給されることを特徴とする請求項１４から１６いずれ
かに記載のプロセッサである。

【００３１】請求項１８記載のプロセッサは、可変長の
ビット長からなる実行単位に含まれる可変長のビット長
からなる単位命令を最大Ｎ個並列実行できるプロセッサ
であって、前記単位命令の長さは最大をＭビット（Ｍ：
２以上の整数）として複数通りあり、第１の固定長のビ
ット長を単位として命令フェッチし、第２の固定長のビ
ット長を単位として出力する命令供給発行部と、前記命
令供給発行部より出力された前記第２の固定長のビット
長のうち、可変長のビット長の解読結果を発行する解読
部とを備え、前記第２の固定長は、Ｍ×Ｎビットより短
い長さに制限されていることを特徴とするプロセッサで
ある。

【００３２】請求項１９記載のプロセッサは、前記第２
の固定長が前記第１の固定長よりも長いことを特徴とす
る請求項１８記載のプロセッサである。

【００３３】請求項２０記載のプロセッサは、前記プロ
セッサが並列に実行する前記単位命令のビット長の組み
合わせが所定の制限を満たすように、前記実行単位が静
的にスケジューリングされていることを特徴とする請求
項１９記載のプロセッサである。

【００３４】請求項２１記載のプロセッサは、前記所定
の制限は、前記第２の固定長のビット長を全て発行する
場合には、前記第２の固定長のビット長のうち最後尾に
はビット長がＭビットからなる単位命令が配置される制
限であることを特徴とする請求項２０記載のプロセッサ
である。

【００３５】請求項２２記載のプロセッサは、前記所定
の制限は、前記解読部へ出力されるビット長のうちオペ
コードが先頭から所定長以内に配置されるように設けら
れた制限であることを特徴とする請求項２０記載のプロ
セッサである。

【００３６】請求項２３記載のプロセッサは、前記実行
単位に、並列度に関する情報が明示的に付与されること
を特徴とする請求項１４または１８記載のプロセッサで
ある。

【００３７】請求項２４記載のプロセッサは、前記並列
度に関する情報が、前記実行単位の境界であることを特
徴とする請求項２３記載のプロセッサである。

【００３８】請求項２５記載のプロセッサは、単位命令
の長さに関する情報が、各々の単位命令中に明示的に付
与されることを特徴とする請求項１４から２４いずれか
に記載のプロセッサである。

【００３９】請求項２６記載のプロセッサは、前記解読
部が発行する解読結果の長さを制御する命令発行制御部
をさらに備えることを特徴とする請求項１７から２２い
ずれかに記載のプロセッサである。

【００４０】請求項２７記載のプロセッサは、前記プロ
セッサが実行する命令列が、前記実行単位へと静的にス
ケジューリングされることを特徴とする請求項１４から
２６いずれかに記載のプロセッサである。

【００４１】

【発明の実施の形態】以下、本発明に係るプロセッサの
実施の形態について、図面を用いて詳細に説明する。（命令フォーマットとアーキテクチャの概要）まず、本プロセッサが解読実行する命令（特許請求の範
囲に記載する「単位命令」に相当する。）の構造につい
て説明する。

【００４２】図１（ａ）〜図１（ｅ）は本プロセッサの
命令フォーマットを示す図である。

【００４３】本プロセッサの各命令は、２１ビットの命
令構成要素（ここでは「ユニット」と呼ぶ。特許請求の
範囲に記載する「語素」に相当する。）にて構成されて
おり、ユニット１つで構成される２１ビット命令とユニ
ット２つで構成される４２ビット命令の２種類の命令フ
ォーマットが存在する。各命令がいずれの長さの命令で
あるかは、１ビットのフォーマット情報１１によって決
定される。具体的には、フォーマット情報１１が“０”
の時はそのユニット単体で２１ビット命令となり、フォ
ーマット情報１１が“１”の時はそのユニットとそれに
後続するユニットとを連結して４２ビット命令となる。

【００４４】また、各命令には１ビットの並列実行境界
情報１０を持たせてある。この情報は、この命令とそれ
に後続する命令との間に並列実行の境界が存在するか否
かを示すものである。具体的には、並列実行境界情報１
０が“１”の時はその命令と後続命令の間に並列実行の
境界が存在し、並列実行境界情報１０が“０”の時には
並列実行の境界が存在しないことになる。この情報の利
用方法については後で述べる。

【００４５】各命令の命令長からフォーマット情報１１
と並列実行境界情報１０を除いた部分にてオペレーショ
ンを指定する。２１ビット命令では１９ビット、４２ビ
ット命令では４０ビットの長さを使用することができる
ことになる。具体的には、“Ｏｐ１”、“Ｏｐ２”、
“Ｏｐ３”のフィールドでは、オペレーションの種類を
表すオペコードを、“Ｒｓ”のフィールドでは、ソース
オペランドとなるレジスタのレジスタ番号を、“Ｒｄ”
のフィールドでは、デスティネーションオペランドとな
るレジスタのレジスタ番号を指定する。また、“ｉｍｍ
５”及び“ｉｍｍ３２”のフィールドでは、それぞれ５
ビットと３２ビットの演算用定数オペランドを指定す
る。そして、“ｄｉｓｐ１３”及び“ｄｉｓｐ３１”の
フィールドでは、それぞれ１３ビットと３１ビットの変
位（ディスプレースメント）を指定する。

【００４６】３２ビットの定数などの長い定数を扱う転
送命令や演算命令、大きなディスプレースメントを指定
する分岐命令は４２ビット命令で定義され、それらを除
くほとんどの命令は２１ビット命令で定義されている。
なお、図１を見てわかるように、４２ビット命令の構成
要素である２つのユニットのうち、後ろの方のユニット
すなわち２番目のユニットには、長い定数やディスプレ
ースメントの一部のみが配置され、オペコードは配置さ
れない。

【００４７】次に、本プロセッサのアーキテクチャの概
要について説明する。

【００４８】本プロセッサは、静的な並列スケジューリ
ングを前提としたプロセッサであって、命令の供給と発
行の概念は図２のようになる。

【００４９】命令の供給は、同図（ａ）に示すように毎
サイクル６４ビット固定長の命令供給単位（ここでは
「パケット」と呼ぶ。特許請求の範囲に記載する「複合
命令」に相当する。）でユニットを３個ずつ供給する。
ユニット３個分の長さは６３ビットであるが、残りの１
ビットについては使用しない。そして、命令の実行は、
同図（ｂ）に示すように１サイクルで並列実行の境界ま
でのユニット（ここでは「実行単位」と呼ぶ）を同時実
行する。つまり、各サイクルにおいて並列実行境界情報
１０が“１”である命令までの命令を並列実行すること
になる。供給されながら実行されずに残ったユニット
は、命令バッファに蓄積され、次のサイクル以降で実行
の対象となる。

【００５０】つまり、このアーキテクチャでは、固定長
のパケット単位で命令を供給しておき、静的に求めた情
報を元に、各サイクルにおいて並列度に応じた適切な数
のユニットを発行していく、ということになる。この手
法をとることにより、通常の固定長命令のＶＬＩＷ方式
で発生していた無動作命令（ｎｏｐ命令）が全く無くな
り、コードサイズを削減することができる。

【００５１】また、命令内のフォーマット情報１１の値
によって、２つのユニットを１命令として実行する場合
と１つのユニットを１命令として実行する場合がある。
この手法をとることにより、命令の指定に多くのビット
数を必要とする一部の命令に対してのみ長い命令フォー
マットを使用し、他のほとんどの命令については短い命
令フォーマットで指定することができるので、さらにコ
ードサイズを削減することができる。具体例については
後に述べる。（プロセッサのハードウェア構成）次に、本プロセッサのハードウェア構成を説明する。

【００５２】図３は、本発明に係るプロセッサのハード
ウェア構成を示すブロック図である。

【００５３】本プロセッサは、１サイクルに最大３つの
命令を並列実行するプロセッサであり、大きく分けて、
命令供給発行部２０、解読部３０、実行部４０から構成
される。

【００５４】命令供給発行部２０は、図示されていない
外部メモリから命令群を供給し、解読部３０に出力する
ものであり、命令フェッチ部２１、命令バッファ２２及
び命令レジスタ２３からなる。

【００５５】命令フェッチ部２１は、３２ビットのＩＡ
（インストラクションアドレス）バス及び６４ビットの
ＩＤ（インストラクションデータ）バスを通じて図示さ
れていない外部メモリからユニットのブロックをフェッ
チし、内部の命令キャッシュに保持すると共に、ＰＣ部
４２から出力されたアドレスに相当するユニット群を命
令バッファ２２に供給する。

【００５６】命令バッファ２２は、６３ビットのバッフ
ァを２個備えており、命令フェッチ部２１によって供給
されたユニットを蓄積しておくために用いられる。命令
バッファ２２へは、命令フェッチ部２１から６４ビット
単位でパケットが供給される。ここで、パケットの最上
位の１ビットの情報は使用されない。命令バッファ２２
に蓄積されたユニットは、命令レジスタ２３の適切なレ
ジスタに出力される。なお、命令バッファ２２について
は、別の図面においてさらに詳細な構成を示している。

【００５７】命令レジスタ２３は、４個の２１ビットレ
ジスタからなり、命令バッファ２２から送られてきたユ
ニットを保持するためのものである。命令レジスタ２３
周辺については、別の図面においてさらに詳細な構成を
示している。

【００５８】解読部３０は、命令レジスタ２３に保持さ
れた命令を解読し、その解読結果に応じた制御信号を実
行部４０に出力するものであり、大きく分けて、命令発
行制御部３１と命令デコーダ３２からなる。

【００５９】命令発行制御部３１は、命令レジスタ２３
の４個のレジスタに保持されたユニットに対して、ユニ
ット内の並列実行境界情報１０とフォーマット情報１１
を参照することによって、２つのユニットを１つの命令
として扱うように制御したり、並列実行の境界を越えた
ユニットについては、そのユニットの発行を無効化した
りといった発行に関する制御を行う。なお、命令発行制
御部３１については、別の図面においてさらに詳細な動
作説明を行う。

【００６０】命令デコーダ３２は、命令レジスタ２３に
格納された命令群を解読する装置であり、第１命令デコ
ーダ３３、第２命令デコーダ３４及び第３命令デコーダ
３５からなる。これらのデコーダは、基本的に１サイク
ルに１つの命令を解読し、実行部４０に制御信号を与え
る。また、命令内に置かれた定数オペランドについて
は、各命令デコーダから実行部４０のデータバス４８に
転送される。

【００６１】実行部４０は、解読部３０での解読結果に
基づいて、最大３つの命令を並列実行する回路ユニット
であり、実行制御部４１、ＰＣ部４２、レジスタファイ
ル４３、第１演算部４４、第２演算部４５、第３演算部
４６、オペランドアクセス部４７及びデータバス４８、
４９からなる。

【００６２】実行制御部４１は、解読部３０での解読結
果に基づいて実行部４０の各構成要素４２〜４９を制御
する制御回路や配線の総称であり、タイミング制御、動
作許可禁止制御、ステータス管理、割り込み制御等の回
路を有する。

【００６３】ＰＣ（プログラムカウンタ）部４２は、次
に解読実行すべき命令が置かれている図示されていない
外部メモリ上のアドレスを命令供給発行部２０の命令フ
ェッチ部２１に出力する。

【００６４】レジスタファイル４３は、Ｒ０〜Ｒ３１の
３２個の３２ビットレジスタから構成される。これらの
レジスタに格納された値は、第１命令デコーダ３３、第
２命令デコーダ３４及び第３命令デコーダ３５での解読
結果に基づいて、データバス４８を経由して第１演算部
４４、第２演算部４５及び第３演算部４６に転送され、
そこで演算が施され、又はそこを単に通過した後に、デ
ータバス４９を経由してレジスタファイル４３またはオ
ペランドアクセス部４７に送られる。

【００６５】第１演算部４４、第２演算部４５及び第３
演算部４６は、それぞれ２個の３２ビットデータに対し
て算術論理演算を行うＡＬＵや乗算器と、シフト演算を
行うバレルシフタを内部に有し、実行制御部４１による
制御の下で演算を実行する。

【００６６】オペランドアクセス部４７は、レジスタフ
ァイル４３と図示されていない外部メモリとの間でオペ
ランドの転送を行う回路である。具体的には、例えば、
命令内で、オペコードとして“ｌｄ”（ロード）が置か
れていた場合には、外部メモリに置かれていた１ワード
（３２ビット）のデータがオペランドアクセス部４７を
経てレジスタファイル４３の指定されたレジスタにロー
ドされ、また、オペコードとして“ｓｔ”（ストア）が
置かれていた場合には、レジスタファイル４３の指定さ
れたレジスタの格納値が外部メモリにストアされる。上
記ＰＣ部４２、レジスタファイル４３、第１演算部４
４、第２演算部４５、第３演算部４６及びオペランドア
クセス部４７は、図示されるように、データバス４８
（Ｌ１バス、Ｒ１バス、Ｌ２バス、Ｒ２バス、Ｌ３バ
ス、Ｒ３バス）及びデータバス４９（Ｄ１バス、Ｄ２バ
ス、Ｄ３バス）で接続されている。なお、Ｌ１バス及び
Ｒ１バスはそれぞれ第１演算部４４の２つの入力ポート
に、Ｌ２バス及びＲ２バスはそれぞれ第２演算部４５の
２つの入力ポートに、Ｌ３バス及びＲ３バスはそれぞれ
第３演算部４６の２つの入力ポートに、Ｄ１バス、Ｄ２
バス及びＤ３バスはそれぞれ第１演算部４４、第２演算
部４５及び第３演算部４６の出力ポートに接続されてい
る。（命令バッファの詳細な構成）次に、命令バッファ２２の詳細な構成を説明する。

【００６７】図４は、命令バッファ２２の詳細な構成を
示すブロック図である。

【００６８】命令バッファ２２は命令バッファＡ２２１
及び命令バッファＢ２２２の２個の６３ビットのバッフ
ァからなり、それぞれ３個ずつのユニットを保持するこ
とができる。命令バッファＡ２２１はバッファＡ０、Ａ
１及びＡ２からなり、それぞれ１個ずつのユニットを保
持することができる。同様に、命令バッファＢはバッフ
ァＢ０、Ｂ１及びＢ２からなる。

【００６９】命令バッファ２２には、命令フェッチ部２
１から６４ビット単位でパケットが供給される。ただ
し、パケットの最上位の１ビットの情報は使用されな
い。この際、命令バッファＡ２２１と命令バッファＢ２
２２にまたがって供給されることはなく、いずれかのバ
ッファに６３ビット単位で供給されることになる。命令
バッファ２２に蓄えられたユニットは供給された順序を
保っており、その順序やいずれのバッファが有効である
かについては命令バッファ制御部２２３により、状態と
して管理されている。

【００７０】命令バッファ制御部２２３は、毎サイクル
バッファ内の有効なユニットを順に命令レジスタ２３に
転送するため、セレクタ２２４ａ〜２２４ｄの制御を行
う。この制御により、命令バッファ２２内の先頭の４つ
のユニットが命令レジスタ２３に転送される。さらに、
命令レジスタ２３に転送したユニットの中でどれだけの
ユニットが発行されずに残ったか、という解読部３０の
命令発行制御部３１からの情報と、命令フェッチ部２１
から転送されてきたユニットの内いずれのユニットが有
効かという情報とを元に、命令バッファ２２の状態の更
新を行う。

【００７１】具体的には、まず命令バッファ２２が空の
状態で、あるパケットの２番目のユニットに分岐した場
合には、命令フェッチ部２１からそのパケットが供給さ
れ、供給されたパケットは命令バッファＡ２２１に転送
される。そのパケットの先頭のユニットは無効なので、
命令バッファ制御部２２３の制御により、命令バッファ
２２の状態としてバッファＡ１及びバッファＡ２のみが
有効な状態となる。

【００７２】次のサイクルで命令バッファ２２から命令
レジスタ２３に転送したユニットが全く発行されず、命
令フェッチ部２１から６４ビットの有効なパケットが供
給された場合には、そのパケットは命令バッファＢ２２
２に転送され、命令バッファ２２の状態は、バッファＡ
１、Ａ２、Ｂ０、Ｂ１及びＢ２が有効な状態となる。

【００７３】さらに、次のサイクルでは、命令バッファ
２２に空きがないので、命令フェッチ部２１からの供給
は受け付けず、命令レジスタ２３へは、順にバッファＡ
１、バッファＡ２、バッファＢ０、バッファＢ１のユニ
ットを転送する。

【００７４】このように、命令バッファ２２に６３ビッ
ト単位で空きがある場合にのみ命令フェッチ部２１から
パケットの供給を行い、供給された順を管理しておき、
各サイクルにおいて、供給された順に先頭の４つのユニ
ットを命令レジスタ２３に転送していく。（命令レジスタ２３周辺の構成と命令発行制御部３１の
動作）次に、命令レジスタ２３周辺の構成を示し、命令発行制
御部３１の詳細な動作を説明する。

【００７５】図５は、命令レジスタ２３周辺の構成を示
すブロック図である。図中、破線の矢印は制御信号を表
す。

【００７６】命令レジスタ２３は命令レジスタＡ２３
１、命令レジスタＢ２３２、命令レジスタＣ２３３及び
命令レジスタＤ２３４の４個の２１ビットレジスタから
なる。命令レジスタ２３には、命令バッファ２２からユ
ニットが供給されるわけだが、わかりやすくするために
命令バッファ２２から供給されるユニットの並びである
ユニットキュー５０という概念を考える。そして、ここ
では命令レジスタ２３にはユニットキュー５０からユニ
ットが供給されると考える。

【００７７】図５を見るとわかるように、あるユニット
がいずれの命令レジスタ２３に転送されるかどうかは、
ユニットキュー５０での位置（順序）によって一意に決
まる。つまり、ユニット１は命令レジスタＡ２３１へ、
ユニット２は命令レジスタＢ２３２へ転送されることに
なる。これにより、ユニットキュー５０から命令レジス
タ２３への転送を行う際に、図１３の従来例において存
在したようなユニットの選択を行うセレクタが不要とな
り、ハードウェアが単純化されており、遅延も最小限に
抑えられている。

【００７８】図中３３〜３５の各命令デコーダは、２１
ビットのユニットを入力とし、それを解読して、そのユ
ニットが構成する命令の動作に関する制御信号を実行制
御部４１に出力するとともに、ユニット内に配置された
定数オペランドを出力する。図１の命令フォーマットか
らわかるように、４２ビット命令を構成する２つのユニ
ットのうち、２番目のユニットには定数オペランドの一
部しか配置されない。つまり、このユニットにはオペコ
ードが存在しないため、命令デコーダに入力する必要が
ない。そこで、各命令の定数オペランドは、図５に示さ
れるように、命令デコーダが出力したユニット内の定数
と、命令レジスタから無条件に直接転送された定数とを
連結したものということになる。図５の６０〜６２が各
命令の定数オペランドである。

【００７９】また、各命令デコーダには、制御信号とし
て１ビットの無動作命令フラグが入力される。このフラ
グを“１”にセットすると、そのデコーダは出力として
無動作命令を出力する。つまり、無動作命令フラグをセ
ットすることにより、その命令デコーダの命令としての
デコードを無効化することができる。

【００８０】ここで、命令レジスタ２３に格納されたユ
ニットを組み合わせて命令として発行する制御を行う命
令発行制御部３１の動作について説明する。

【００８１】命令発行制御部３１は、命令レジスタＡ２
３１及び命令レジスタＢ２３２に格納された各ユニット
の並列実行境界情報１０とフォーマット情報１１を参照
することにより命令デコーダの制御を行う。

【００８２】まず、これらの情報から、命令レジスタ２
３に格納されたユニットの内どこまでをこのサイクルで
発行するのかを求める。そして、どれだけのユニットが
発行されずに残ったのかの情報を命令バッファ２２内の
命令バッファ制御部２２３に伝達する。

【００８３】次に命令デコーダ３２を制御し、このサイ
クルで発行される命令についてのみ解読を行うように制
御する。図５からわかるように、命令としてデコードさ
れる可能性のあるユニットは、命令レジスタＡ２３１、
命令レジスタＢ２３２及び命令レジスタＣ２３３に格納
されたユニットのみである。そこで、ユニット内の情報
を参照して、これらのユニットの中で、４２ビット命令
の２ユニット目にあたるものや発行されずに残るものに
関しては、そのユニットの命令としてのデコードを無効
化する。４２ビット命令の２ユニット目にあたるユニッ
トは、直前のユニットが構成する命令の定数オペランド
の一部として直接出力される。

【００８４】具体的には、命令レジスタＡ２３１のユニ
ット（ユニット１）のフォーマット情報１１が“１”の
ときには、ユニット１と命令レジスタＢ２３２のユニッ
ト（ユニット２）とを連結して４２ビット命令となるの
で、ユニット２の命令としてのデコードを無効化する、
すなわち第２命令デコーダ３４の無動作命令フラグを
“１”にセットする。図５において、命令発行制御部３
１から第２命令デコーダ３４への破線がこの動作に相当
する。ユニット２は、ユニット１が構成する命令の定数
オペランド６０の一部として直接出力される。

【００８５】また、ユニット１のフォーマット情報１１
が“０”、ユニット２のフォーマット情報が“１”の時
は、ユニット２と命令レジスタＣ２３３のユニット（ユ
ニット３）とを連結して４２ビット命令となるので、ユ
ニット３の命令としてのデコードをキャンセルする、す
なわち第３命令デコーダ３５の無動作命令フラグを
“１”にセットする。図５において、命令発行制御部３
１から第３命令デコーダ３５への破線がこの動作に相当
する。ユニット３は、ユニット２が構成する命令の定数
オペランド６１の一部として直接出力される。

【００８６】このように、フォーマット情報１１を参照
することにより、必要に応じて命令デコーダの無動作フ
ラグを設定し、命令としてのデコードを無効化する。

【００８７】それから、ユニット１の並列実行境界情報
１０が“１”、フォーマット情報１１が“０”のとき
は、このサイクルではユニット１までしか発行されない
ので、ユニット２とユニット３の命令としてのデコード
を無効化する、すなわち第２命令デコーダ３４と第３命
令デコーダ３５の無動作命令フラグを共に“１”にセッ
トする。図５において、命令発行制御部３１から第２命
令デコーダ３４と第３命令デコーダ３５への破線がこの
動作に相当する。

【００８８】また、ユニット１の並列実行境界情報１０
が“０”、ユニット２の並列実行境界情報１０が
“１”、フォーマット情報１１が共に“０”のときは、
このサイクルではユニット２までしか発行されないの
で、ユニット３の命令としてのデコードを無効化する、
すなわち第３命令デコーダ３５の無動作命令フラグを共
に“１”にセットする。図５において、命令発行制御部
３１から第３命令デコーダ３５への破線がこの動作に相
当する。

【００８９】このように、並列実行境界情報１０を参照
することにより、必要に応じて命令デコーダの無動作フ
ラグを設定し、命令としてのデコードを無効化する。

【００９０】以上のような命令発行制御を実現する命令
発行制御部３１とその周辺回路の構成を図６に示す。

【００９１】前述のように命令発行制御部３１は命令レ
ジスタＡ２３１及び命令レジスタＢ２３２に格納された
ユニットの並列実行境界情報１０とフォーマット情報１
１を参照し、第２命令デコーダ３４及び第３命令デコー
ダ３５の命令としてのデコードを無効化するかどうかを
決定する無動作命令フラグとなる制御信号を出力する。

【００９２】図６のような回路構成をとることにより、
第２命令デコーダ３４は、命令レジスタＡ２３１に格納
されたユニットの並列実行境界情報１０が“１”である
か、またはそのユニットのフォーマット情報１１が
“１”であるときに無効化される。また、第３命令デコ
ーダ３５は、命令レジスタＡ２３１に格納されたユニッ
トもしくは命令レジスタＢ２３２に格納されたユニット
の並列実行境界情報１０が“１”であるか、または命令
レジスタＢ２３２に格納されたユニットのフォーマット
情報１１が“１”であるときに無効化される。

【００９３】このように、図１に示したような命令フォ
ーマットをとり、図６に示したような単純な回路を用意
するだけで、必要最低限の情報を参照して高速な命令発
行制御を行うことができる。

【００９４】以上で述べたような命令発行制御の方法を
とることにより、１サイクルで同時発行可能な命令の命
令長の組み合わせに多少の制限が生じる。本プロセッサ
で同時発行可能な命令の命令長の組み合わせを図７に示
す。

【００９５】図７を見るとわかるように、本プロセッサ
では、ユニットの並びの先頭から３つ目までのユニット
についてのみ命令としてデコードすることができる。つ
まり、図中（ａ）〜（ｈ）のパターンについて発行する
ことができる。最大で４つのユニットを同時に発行でき
ることになる。ただし、４つのユニットを発行するパタ
ーンの内、図中（ｉ）、（ｊ）のパターンについては同
時発行することができない。（従来の命令発行制御方法との比較）ここで、本実施形態のプロセッサと本発明によらない従
来のプロセッサとの比較を行う。

【００９６】まず、図１３に示した従来例において、ユ
ニットキュー５０から命令レジスタへの転送において、
セレクタによる遅延が問題となっていたが、本発明のプ
ロセッサでは、ユニットキュー５０内のユニットと各命
令レジスタが一対一に対応しているため、図１３におい
て存在していたセレクタ５１ａ〜５１ｄが不要となり、
上記遅延の問題が解決されている。

【００９７】また、図１３の構成では、並列度が増して
転送すべき命令レジスタが増加していくに従って、セレ
クタが増加し遅延がさらに大きくなっていくのに対し
て、本発明のプロセッサでは、ユニットキュー５０と命
令レジスタの対応は一対一なので、遅延が大きくなるこ
とはない。

【００９８】一方、この可変長命令方式をスーパースカ
ラ方式にて並列実行を行うプロセッサに適用したものも
提案されている。例えば、論文 The Approach to Multi
pleInstruction Execution in the GMICRO/400 Process
or （PROCEEDINGS, The Eighth TRON Project Symposiu
m(International), 1991参照）にて開示されているＧＭ
ＩＣＲＯ／４００がある。この技術は、図１４の概念を
とりながらもハードウェアを削減するために制限を設け
ている。

【００９９】図１５は、ＧＭＩＣＲＯ／４００で採用さ
れている命令発行制御方法をとった場合の命令レジスタ
周辺の構成を示すブロック図である。図１５において、
破線は制御信号を表し、５４ａ及び５４ｂは命令内に指
定された定数オペランドを表す。命令デコーダは、入力
された命令を解読し、その結果その命令の実行を制御す
る信号を実行制御部に出力すると共に、命令内に指定さ
れた定数オペランドを出力する。

【０１００】ＧＭＩＣＲＯ／４００の命令発行制御方法
では、ユニット１とユニット２を連結したもの、ユニッ
ト２及びユニット３をそれぞれ一旦デコードしておき、
第１命令デコーダ５３ｉの解読によって１番目の命令が
１ユニット長の命令なのか２ユニット長の命令なのかが
判明した時点で、セレクタ５１ｇおよびセレクタ５１ｈ
を制御することにより、第２命令デコーダ５３ｊもしく
は第３命令デコーダ５３ｋの解読結果を選択して使用す
る。

【０１０１】図１５を見るとわかるように、ＧＭＩＣＲ
Ｏ／４００では、図１４の構成に対して、同時実行可能
な命令数を３から２に減らすことにより、第４命令デコ
ーダ５３ｇと第５命令デコーダ５３ｈを削除している。
また、第２命令デコーダ５３ｊと第３命令デコーダｋ
は、入力ビット幅を１ユニット長とし、ハードウェア削
減を図っている。しかし、これによって、同時実行され
る２番目の命令は１ユニット長の命令のみという制限が
発生する。

【０１０２】以上のようなハードウェア削減を図って
も、２命令同時発行を可能にするために３つの命令デコ
ーダを必要としており、依然としてハードウェア量が多
いという問題点がある。

【０１０３】また、図１５の構成では、第１命令デコー
ダ５３ｉの解読が完了するまでセレクタ５１ｇ、５１ｈ
の制御を決定することができない。このセレクタの制御
が決定するまで、２番目の命令として第２命令デコーダ
５３ｊと第３命令デコーダ５３ｋのいずれの解読結果を
用いるかを決定できず、オペランドとなるレジスタの格
納値の読み出しを開始できない。オペランドとなる可能
性のある全てのレジスタの格納値を先行的に読み出して
おき、それを選択して使用する方法も考えられるが、レ
ジスタファイルの読み出しポート数が増加するため実用
的ではない。このように、図１５の構成では読み出すレ
ジスタを確定するまでの遅延が大きくなる。実際、ＧＭ
ＩＣＲＯ／４００では命令解読ステージの直後のステー
ジでは演算の実行は行わず、オペランドを読み出すステ
ージとしている。

【０１０４】さらに、図１５の構成にて並列度が増して
同時発行可能なユニット数が増加していくと、セレクタ
の数が増し、制御が複雑化するという問題点がある。

【０１０５】以上に述べたように、スタティックスケジ
ューリングによってさらなる並列化を実現し、性能向上
を図ることができるが、コードサイズが大きくなるとい
う問題点がある。また、コードサイズを削減する手段と
して可変長命令方式があるが、ハードウェアが複雑にな
るという問題点がある。

【０１０６】そして、図１５に示したＧＭＩＣＲＯ／４
００の例においては、命令デコーダを３つ用意しても最
大２命令しが同時実行できないのに対して、本発明のプ
ロセッサの命令発行制御方法を用いると、３つの命令デ
コーダにて最大３命令を同時実行することができる。逆
に、本発明において、最大２命令を同時発行する構成を
想定した場合、２個の命令デコーダにて構成することが
できる。具体的な命令レジスタ周辺の構成は図１６のよ
うになる。これにより、ハードウェアを削減することが
できる。

【０１０７】また、図１５の構成では、第１命令デコー
ダ５３ｉの解読が完了するまでセレクタ５１ｇ、５１ｈ
の制御を決定することができず、２番目の命令として第
２命令デコーダ５３ｊと第３命令デコーダ５３ｋのいず
れの解読結果を用いるかを決定できない。そのため、オ
ペランドとなるレジスタを確定するまでの遅延が大きく
なる。これに対して、本発明のプロセッサの構成では、
他のデコーダの解読結果を待たずに、オペランドとなる
レジスタを確定することができるため、解読ステージの
前半にオペランドとなるレジスタの読み出しを開始する
ことができる。その結果、解読ステージの完了時点で、
オペランドとなるレジスタの読み出しも完了させておく
ことができる。これによって、解読ステージの直後のス
テージで演算を実行することができ、実行効率を高める
ことができる。

【０１０８】さらに、本発明の構成では、同時発行可能
なユニット数が増加しても単純にデコーダの数を増して
いけばよいのに対して、図１５の構成では、同時発行可
能なユニット数が増加していくと、セレクタの数が増し
て制御が複雑化するという問題点がある。

【０１０９】それから、命令フォーマットの違いによる
差異として次のものがある。本発明では図１のように、
２ユニット長の命令の２番目のユニットには定数オペラ
ンドの一部のみが配置されるため、図５のように２番目
のユニットは命令デコーダには入力されずに直接オペラ
ンドとして出力される。このため、すべての命令デコー
ダは１ユニット長の命令を解読するだけでよい。これに
対して、ＧＭＩＣＲＯ／４００では、２ユニット長の命
令の２番目のユニットにもオペコードが配置されるた
め、図１５の構成で第１命令デコーダ５３ｉは２ユニッ
ト長の命令を解読する必要があり、本発明の構成に比べ
てハードウェアが増加している。（プロセッサの動作）次に、具体的な命令を解読実行した場合の本実施形態の
プロセッサの動作について説明する。

【０１１０】図８は、３２ビットの定数を扱う処理の一
例を示すフローチャートである。

【０１１１】本図に示されている処理は、３２ビットの
定数“０ｘ８７６５４３２１”をレジスタＲ１に転送し
（ステップＳ１００）、レジスタＲ５の格納値をレジス
タＲ０に転送し（ステップＳ１０１）、レジスタＲ０の
格納値にレジスタＲ１の格納値を加え（ステップＳ１０
２）、レジスタＲ３の格納値にレジスタＲ２の格納値を
加え（ステップＳ１０３）、レジスタＲ０の格納値をメ
モリ内のレジスタＲ４の格納値で示されるアドレスに格
納し（ステップＳ１０４）、レジスタＲ０の格納値をレ
ジスタＲ６に転送し（ステップＳ１０５）、最後にレジ
スタＲ３の格納値をレジスタＲ７に転送する（ステップ
Ｓ１０６）というものである。

【０１１２】図９は、図８に示された処理を本プロセッ
サに行わせるプログラムの実行コードの例と実行イメー
ジを示す図である。

【０１１３】このプログラムは、７個の命令で構成され
ており、命令供給単位としては３個のパケット７０〜７
２から構成されている。各命令の処理内容は、実行コー
ドの各フィールドに置かれたニーモニックで表現されて
いる。具体的には、ニーモニック“ｍｏｖ”は、定数及
びレジスタの格納値のレジスタへの転送を表し、ニーモ
ニック“ａｄｄ”は、定数及びレジスタの格納値とレジ
スタの格納値との加算を表し、ニーモニック“ｓｔ”
は、レジスタの格納値のメモリへの転送を表している。

【０１１４】なお、定数は１６進数で表現されている。
また、“Ｒｎ（ｎ＝０〜３１）”はレジスタファイル４
３の中の一つのレジスタを示す。そして、各命令の並列
実行境界情報１０とフォーマット情報１１についても
“０”又は“１”で示してある。

【０１１５】図９（ｂ）を用いて、図８に示された処理
における各実行単位ごとの本プロセッサの動作を説明す
る。（実行単位１）パケット７０がメモリから供給され、パケット７０内の
ユニットが順に命令レジスタ２３に転送される。次に、
命令発行制御部３１が各ユニットの並列実行境界情報１
０とフォーマット情報１１を参照して発行を制御する。
具体的には、１番目のユニットのフォーマット情報１１
が“１”であるので、１番目のユニットと２番目のユニ
ットを連結して１つの命令として扱う。つまり、第２命
令デコーダ３４の無動作命令フラグを“１”にセットし
て、命令としてのデコードを無効化する。また、１番目
のユニットの並列実行境界情報１０が“０”であり、３
番目のユニットの並列実行境界情報１０が“１”である
ので、３番目のユニットまでの２個の命令を発行する。
供給されたすべてのユニットを発行するため、命令バッ
ファ２２にはユニットは蓄積されない。

【０１１６】実行部４０では、レジスタＲ１に定数“０
ｘ８７６５４３２１”が転送され、レジスタＲ５の格納
値がレジスタＲ０に転送される。（実行単位２）パケット７１がメモリから供給され、パケット７１内の
ユニットが順に命令レジスタ２３に転送される。３個の
ユニット共フォーマット情報１１が“０”であるので、
いずれのユニットも２１ビット命令となる。また、１番
目のユニットの並列実行境界情報１０が“０”であり、
２番目のユニットの並列実行境界情報１０が“１”であ
るので、２番目のユニットまでの２個の命令を発行す
る。３番目のユニットは、発行されずに残ったので命令
バッファ２２に蓄積される。

【０１１７】実行部４０では、レジスタＲ０の格納値に
レジスタＲ１の格納値が加えられてレジスタＲ０に格納
され、レジスタＲ３の格納値にレジスタＲ２の格納値が
加えられてレジスタＲ３に格納される。（実行単位３）パケット７２がメモリから供給され、命令バッファ２２
に蓄積されていた１個のユニットとパケット７２内の２
個のユニットとが順に命令レジスタ２３に転送される。
３個のユニット共フォーマット情報１１が“０”である
ので、いずれのユニットも２１ビット命令となる。ま
た、１番目のユニットの並列実行境界情報１０と２番目
のユニットの並列実行境界情報が“０”であり、３番目
のユニットの並列実行境界情報１０が“１”であるの
で、３番目のユニットまでの３個の命令を発行する。こ
れで、供給されたユニットはすべて発行されたことにな
る。

【０１１８】実行部４０では、レジスタＲ０の格納値が
メモリ内のレジスタＲ４の格納値で示されるアドレスに
転送され、レジスタＲ０の格納値がレジスタＲ６に転送
され、レジスタＲ３の格納値がレジスタＲ７に転送され
る。

【０１１９】以上のようにして、本プロセッサにおいて
図８に示した処理を行うプログラムは３つの実行単位で
実行される。実行コードは、４２ビット命令が１個と２
１ビット命令が６個で構成されていたので、コードサイ
ズは１６８ビットである。（従来の固定長ＶＬＩＷ方式のプロセッサとの比較）次に、図８に示した処理を、従来技術の１つとして挙げ
た命令長が固定のＶＬＩＷ方式のプロセッサに行わせた
場合を仮定して、本発明に係るプロセッサの場合と比較
する。

【０１２０】毎サイクル固定長の命令を固定個数発行す
る単純なＶＬＩＷ方式では、３２ビットの定数を転送す
る命令を１命令で指定できるような命令長にすると、非
常にコードサイズが大きくなってしまうため、命令長は
３２ビットとし、３２ビットの定数の転送は１６ビット
ずつ２命令に分けて行うことにする。

【０１２１】図１０は、図８に示された処理を、命令長
が３２ビット固定のＶＬＩＷ方式のプロセッサに行わせ
るプログラムの実行コードの例と実行イメージを示す図
である。

【０１２２】このプログラムは、４個のパケット７３〜
７６から構成されている。各命令の処理内容は、図９に
示したコードと同様に、各フィールドに置かれたニーモ
ニックで表現されている。ただし、ニーモニック“ｓｅ
ｔｈｉ”は、１６ビットの定数をレジスタの上位１６ビ
ットに格納することを表し、ニーモニック“ｓｅｔｌ
ｏ”は、１６ビットの定数をレジスタの下位１６ビット
に格納することを表し、ニーモニック“ｎｏｐ”は、何
もしない命令であることを表している。

【０１２３】図１０（ａ）の実行コードと同図（ｂ）の
実行イメージとを比較するとわかるように、ＶＬＩＷ方
式では、各サイクル供給された命令がそのまま発行され
る。つまり、毎サイクル３２ビット命令が３個発行され
ることになる。並列実行可能な命令が存在しない場合
は、あらかじめソフトウェアで“ｎｏｐ”命令を挿入し
ておく必要がある。そのため、この例でも４個の“ｎｏ
ｐ”命令が挿入されて、コードサイズは３２ビット命令
が１２個なので３８４ビットとなっており、本発明に係
るプロセッサの場合のコードサイズよりも大幅に大きい
ものになっている。

【０１２４】また、３２ビットの定数のレジスタへの転
送を２命令に分けて行っているために新たな依存関係が
生じ、実行単位の数が４つとなっている。どのような命
令並べ替えを行っても実行単位の数を減らすことはでき
ない。これによって、本発明に係るプロセッサの場合に
比べて実行サイクル数が１サイクル増加する。（従来の並列実行境界の情報を固定長命令内に持つプロ
セッサとの比較）次に、図８に示した処理を、従来技術の１つとして挙げ
た命令長が固定であり並列実行の境界であるか否かの情
報を命令内に持つ方式のプロセッサに行わせた場合を仮
定して、本発明に係るプロセッサの場合と比較する。

【０１２５】この方式では、命令長が３２ビットのモデ
ルと４０ビットのモデルを考える。命令長が３２ビット
のモデルでは、図１０のＶＬＩＷ方式の場合と同様に、
３２ビットの定数のレジスタへの転送は２命令に分けて
行う。それに対して命令長が４０ビットのモデルでは、
３２ビットの定数のレジスタへの転送を含むすべての種
類の演算を１命令で指定することができる。

【０１２６】図１１は、図８に示された処理を、命令長
が３２ビット固定であり並列実行の境界の情報を命令内
に持つ方式のプロセッサに行わせるプログラムの実行コ
ードの例と実行イメージを示す図である。

【０１２７】このプログラムは、８個の命令で構成され
ており、命令供給単位としては３個のパケット７７〜７
９から構成されている。各命令の処理内容は、実行コー
ドの各フィールドに置かれたニーモニックで表現されて
いる。３２ビットの定数のレジスタへの転送は、図１０
の命令長３２ビット固定のＶＬＩＷ方式の場合と同様に
１６ビットずつ２個の命令に分けて行う。

【０１２８】図１１を見ると分かるように、このモデル
でも図１０のＶＬＩＷ方式の場合と同様に３２ビットの
定数のレジスタへの転送を２命令に分けて実行している
ため、新たな依存関係が生じ、実行サイクル数が本発明
に係るプロセッサの場合に比べて１サイクル増加してい
る。

【０１２９】コードサイズに関しては、“ｎｏｐ”命令
の挿入が発生しないため、図１０のＶＬＩＷ方式の場合
のコードサイズから丁度“ｎｏｐ”命令の分だけ削減さ
れており、３２ビット命令が８個で２５６ビットとなっ
ている。しかし、依然として本発明に係るプロセッサの
場合のコードサイズに比べる・BR>ニ大きい。

【０１３０】次に、命令長を４０ビット固定としたモデ
ルとの比較を行う。

【０１３１】図１２は、図８に示された処理を、命令長
が４０ビット固定であり並列実行の境界の情報を命令内
に持つ方式のプロセッサに行わせるプログラムの実行コ
ードの例と実行イメージを示す図である。

【０１３２】このプログラムは、７個の命令で構成され
ており、命令供給単位としては３個のパケット８０〜８
２から構成されている。各命令の処理内容は、実行コー
ドの各フィールドに置かれたニーモニックで表現されて
いる。３２ビットの定数のレジスタへの転送について
も、１命令で指定することが可能である。

【０１３３】図１２を見ると分かるように、このモデル
では３２ビットの定数のレジスタへの転送を１命令で指
定することができるため、実行単位の数は３つであり、
実行サイクル数は本発明に係るプロセッサの場合と同じ
である。

【０１３４】命令数は本発明に係るプロセッサの場合と
同じだが、本発明に係るプロセッサの場合は長いビット
数を必要としない命令については２１ビット命令で指定
できるのに対し、このモデルではすべての命令を４０ビ
ット命令で指定する必要があるため、コードサイズは４
０ビット命令が７個で２８０ビットとなっており、本発
明に係るプロセッサの場合に比べて大きくなっている。

【０１３５】以上、本発明に係るプロセッサについて、
実施形態に基づいて説明したが、本発明はこれらの実施
形態に限られないことは勿論である。即ち、（１）上記
実施の形態では、静的なスケジューリングを前提として
いたが、本発明はこれに限定されるものではない。つま
り、スーパースカラ方式のように動的なスケジューリン
グを行うプロセッサにも適用することができる。この場
合は、命令フォーマット内の並列実行境界情報を無く
し、解読部の中に動的に並列実行可能か否かを検出する
並列実行可否検出装置を持たせ、本実施形態において命
令発行制御部にて並列実行境界情報を参照して行ってい
た制御を、並列実行可否検出装置の出力を参照して行え
ばよい。このような構成にしても、可変長命令方式にお
いてハードウェアを簡単化できるという本発明の有意性
は保たれる。（２）上記実施の形態では、３個の命令を同時実行する
ように構成していたが、本発明はこの同時実行命令数に
限定されるものではない。例えば、２個の命令を同時発
行する構成にしてもよい。この場合は、解読部と命令レ
ジスタ周辺の構成を図１６のブロック図に示すように変
更し、実行部の演算器の構成を適宜変更すればよい。（３）上記実施の形態では、図１の命令フォーマットか
らわかるように、ユニット１個または２個にて１個の命
令を構成していたが、本発明はこのユニット数に限定さ
れるものではない。つまり、３個以上のユニットを連結
して１個の命令を構成するような命令フォーマットを定
義してもよい。例えば、１〜４個の単位命令にて命令を
構成する場合には、命令内のフォーマット情報を２ビッ
トにすればよい。（４）上記実施の形態では、図１の命令フォーマットか
らわかるように、ユニット１個または２個にて１個の命
令を構成していたが、必ずしもユニット単体で構成され
る命令が存在する必要はない。例えば、１命令が２個ま
たは３個のユニットから構成されるとしてもよい。この
場合には、命令レジスタと命令デコーダおよび定数オペ
ランドを結ぶ配線を変更すればよい。（５）上記実施の形態では、図１の命令フォーマットか
らわかるように、命令内に並列実行の境界であるか否か
の情報を持たせていたが、この情報は必ずしも必要では
ない。つまり、命令内にはフォーマットに関する情報の
みをもち、並列実行可能な命令が存在しない場合には
“ｎｏｐ”命令を配置するという方法をとってもよい。
この場合においても、各命令の指定に必要な長さの命令
フォーマットにて命令を指定することができるという本
発明の有意性が保たれる。（６）上記実施の形態では、図１の命令フォーマットか
らわかるように、４２ビット命令を構成する２つのユニ
ットのうち２番目のユニットには定数オペランドの一部
のみを配置するようになっていたが、このユニットにオ
ペコードを配置しても構わない。そのためには、図５に
おいて直接定数オペランドの一部として出力していたユ
ニットを命令デコーダへ入力するように変更し、命令デ
コーダの入力ビット幅を増加させればよい。（７）上記実施の形態では、命令バッファの構成として
図４に示すものとしたが、本発明はこの構成およびバッ
ファのサイズに限定されるものではない。例えば、一本
の単純なキュー構造の命令バッファを用いてもよい。

【０１３６】

【発明の効果】以上の説明から明らかなように、本発明
のプロセッサによって、命令レベルの並列実行に際し
て、ハードウェア複雑化の問題を克服しつつ、性能向上
とコード効率向上を両立することが可能になる。

【図面の簡単な説明】

【図１】本発明の実施形態に係るプロセッサが実行する
命令の構造を示す図

【図２】同プロセッサにおける命令の供給と発行の概念
を示す図

【図３】同プロセッサのハードウェア構成を示すブロッ
ク図

【図４】同プロセッサの命令バッファ２２の詳細な構成
を示すブロック図

【図５】同プロセッサの命令レジスタ２３周辺の構成を
示すブロック図

【図６】同プロセッサの命令発行制御部３１とその周辺
の回路構成を示す図

【図７】同プロセッサが同時発行可能な命令群の命令長
の組み合わせを示す図

【図８】３２ビットの定数を扱う処理の一例を示すフロ
ーチャート

【図９】図８に示された処理を図３のプロセッサに行わ
せるプログラムの実行コードの例と実行イメージを示す
図

【図１０】図８に示された処理を命令長が３２ビット固
定のＶＬＩＷ方式の従来のプロセッサに行わせるプログ
ラムの実行コードの例と実行イメージを示す図

【図１１】図８に示された処理を、命令長３２ビット固
定で命令内に並列実行境界の情報を持たせる方式の従来
のプロセッサに行わせるプログラムの実行コードの例と
実行イメージを示す図

【図１２】図８に示された処理を、命令長４０ビット固
定で命令内に並列実行境界の情報を持たせる方式の従来
のプロセッサに行わせるプログラムの実行コードの例と
実行イメージを示す図

【図１３】従来のプロセッサにおける命令レジスタ周辺
の構成を示すブロック図

【図１４】従来のプロセッサにおける命令レジスタ周辺
の構成を示すブロック図

【図１５】従来のプロセッサの一例であるＧＭＩＣＲＯ
／４００における命令レジスタ周辺の構成を示すブロッ
ク図

【図１６】本発明の別の実施形態のプロセッサにおける
命令レジスタ２３周辺の構成を示すブロック図

【符号の説明】

１０並列実行境界情報１１フォーマット情報２０命令供給発行部２１命令フェッチ部２２命令バッファ２３命令レジスタ３０解読部３１命令発行制御部３２命令デコーダ３３第１命令デコーダ３４第２命令デコーダ３５第３命令デコーダ４０実行部４１実行制御部４２ＰＣ部４３レジスタファイル４４第１演算部４５第２演算部４６第３演算部４７オペランドアクセス部４８、４９データバス５０ユニットキュー２２１命令バッファＡ２２２命令バッファＢ２２３命令バッファ制御部２２４ａ〜２２４ｄセレクタ２３１命令レジスタＡ２３２命令レジスタＢ２３３命令レジスタＣ２３４命令レジスタＤ

───────────────────────────────────────────────────── フロントページの続き (72)発明者高山秀一大阪府門真市大字門真1006番地松下電器産業株式会社内 (72)発明者小谷謙介大阪府門真市大字門真1006番地松下電器産業株式会社内 (56)参考文献特開平９−26878（ＪＰ，Ａ) 特開平３−147021（ＪＰ，Ａ) 特開平３−53325（ＪＰ，Ａ) 特開平５−289870（ＪＰ，Ａ) (58)調査した分野(Int.Cl.⁷，ＤＢ名) G06F 9/30 - 9/42

Claims

(57)【特許請求の範囲】

【請求項１】可変長のビット長からなる実行単位に含ま
れる可変長のビット長からなる単位命令を並列実行でき
るプロセッサであって、命令を順次フェッチし、出力する命令供給発行部と、複数の解読手段を備え、前記命令供給発行部より出力さ
れた命令を解読する解読部と、前記解読部により解読された命令を実行する実行部とを
備え、前記単位命令のうち最小のビット長の単位命令以外は、
前記解読手段により解読される部分と前記解読手段によ
り解読されない部分とを有し、前記実行単位の最大ビット長は、前記複数の解読手段の
合計のビット長よりも大きいことを特徴とするプロセッ
サ。
【請求項２】前記実行単位が最大ビット長の場合には、
前記実行単位の最後の単位命令が最大ビット長からなる
単位命令であることを特徴とする請求項１記載のプロセ
ッサ。
【請求項３】最大のビット長の前記単位命令は、最小の
ビット長の単位命令と同じビット長のオペレーションを
含んだ語素と定数のみで構成された語素からなり、前記単位命令はビット長に関わらず１つの解読手段によ
って前記最小のビット長の部分が解読されることを特徴
とする請求項１又は２記載のプロセッサ。
【請求項４】前記プロセッサは、さらに、前記解読部に
よって解読する対象となる命令を格納する命令レジスタ
を有し、前記命令レジスタと前記解読手段とは１対１に対応して
いることを特徴とする請求項２から３のいずれかに記載
のプロセッサ。
【請求項５】前記解読手段は、前記最大のビット長の単
位命令を解読する場合には、前記定数を格納した前記命
令レジスタに対応する解読手段を無効化することを特徴
とする請求項４記載のプロセッサ。
【請求項６】前記単位命令が１または複数の語素から構
成されることを特徴とする請求項１から５いずれかに記
載のプロセッサ。
【請求項７】前記命令発行供給部は所定数の語素を単位
として、前記解読部に命令を出力し、前記単位命令の各々は、前記所定数の語素における場所
により、前記複数の解読手段のいずれに入力されるかが
一意に決まることを特徴とする請求項６記載のプロセッ
サ。
【請求項８】前記実行単位に、並列度に関する情報が明
示的に付与されることを特徴とする請求項１から７いず
れかに記載のプロセッサ。
【請求項９】前記並列度に関する情報が、前記実行単位
の境界に関する情報であることを特徴とする請求項８記
載のプロセッサ。
【請求項１０】単位命令の長さに関する情報が、各々の
単位命令中に明示的に付与されることを特徴とする請求
項１から９いずれかに記載のプロセッサ。
【請求項１１】前記解読部が発行する解読結果の長さを
制御する命令発行制御部をさらに備えることを特徴とす
る請求項１から１０いずれかに記載のプロセッサ。
【請求項１２】前記解読手段の各々の解読結果を有効と
するか無効とするかを決定する命令発行制御部をさらに
備えることを特徴とする請求項１から１１いずれかに記
載のプロセッサ。
【請求項１３】前記プロセッサが実行する命令列が、前
記実行単位へと静的にスケジューリングされることを特
徴とする請求項１から１２いずれかに記載のプロセッ
サ。
【請求項１４】可変長のビット長からなる実行単位に含
まれる可変長のビット長からなる単位命令を最大Ｎ
（Ｎ：２以上の整数）個並列実行できるプロセッサであ
って、前記実行単位のビット長は、命令フェッチする命令長に
は限られず可変であり、前記単位命令のうち最大のビット長のものをＮ個並列実
行する実行単位のビット長よりも短い所定のビット長以
下の実行単位のみを解読することを特徴とするプロセッ
サ。
【請求項１５】前記命令フェッチする命令長よりも長い
実行単位を解読することが可能であることを特徴とする
請求項１４記載のプロセッサ。
【請求項１６】可変長のビット長からなる実行単位に含
まれる可変長のビット長からなる単位命令を最大Ｎ
（Ｎ：２以上の整数）個並列実行できるプロセッサであ
って、前記実行単位には、並列度に関する情報が明示的に付与
されており、前記単位命令のうち最大のビット長のものをＮ個並列実
行する実行単位のビット長よりも短い所定のビット長以
下の実行単位のみを解読することを特徴とするプロセッ
サ。
【請求項１７】前記プロセッサは命令を解読する解読部
を有し、前記解読部には、前記単位命令のうち最大のビット長の
ものをＮ個並列実行する実行単位のビット長よりも短い
ビット長の命令が供給されることを特徴とする請求項１
４から１６いずれかに記載のプロセッサ。
【請求項１８】可変長のビット長からなる実行単位に含
まれる可変長のビット長からなる単位命令を最大Ｎ個並
列実行できるプロセッサであって、前記単位命令の長さは最大をＭビット（Ｍ：２以上の整
数）として複数通りあり、第１の固定長のビット長を単位として命令フェッチし、
第２の固定長のビット長を単位として出力する命令供給
発行部と、前記命令供給発行部より出力された前記第２の固定長の
ビット長のうち、可変長のビット長の解読結果を発行す
る解読部とを備え、前記第２の固定長は、Ｍ×Ｎビットより短い長さに制限
されていることを特徴とするプロセッサ。
【請求項１９】前記第２の固定長が前記第１の固定長よ
りも長いことを特徴とする請求項１８記載のプロセッ
サ。
【請求項２０】前記プロセッサが並列に実行する前記単
位命令のビット長の組み合わせが所定の制限を満たすよ
うに、前記実行単位が静的にスケジューリングされてい
ることを特徴とする請求項１９記載のプロセッサ。
【請求項２１】前記所定の制限は、前記第２の固定長の
ビット長を全て発行する場合には、前記第２の固定長の
ビット長のうち最後尾にはビット長がＭビットからなる
単位命令が配置される制限であることを特徴とする請求
項２０記載のプロセッサ。
【請求項２２】前記所定の制限は、前記解読部へ出力さ
れるビット長のうちオペコードが先頭から所定長以内に
配置されるように設けられた制限であることを特徴とす
る請求項２０記載のプロセッサ。
【請求項２３】前記実行単位に、並列度に関する情報が
明示的に付与されることを特徴とする請求項１４または
１８記載のプロセッサ。
【請求項２４】前記並列度に関する情報が、前記実行単
位の境界であることを特徴とする請求項２３記載のプロ
セッサ。
【請求項２５】単位命令の長さに関する情報が、各々の
単位命令中に明示的に付与されることを特徴とする請求
項１４から２４いずれかに記載のプロセッサ。
【請求項２６】前記解読部が発行する解読結果の長さを
制御する命令発行制御部をさらに備えることを特徴とす
る請求項１７から２２いずれかに記載のプロセッサ。
【請求項２７】前記プロセッサが実行する命令列が、前
記実行単位へと静的にスケジューリングされることを特
徴とする請求項１４から２６いずれかに記載のプロセッ
サ。