JP2816248B2

JP2816248B2 - データプロセッサ

Info

Publication number: JP2816248B2
Application number: JP2279006A
Authority: JP
Inventors: 誠花輪; 忠彦西向井
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1989-11-08
Filing date: 1990-10-19
Publication date: 1998-10-27
Anticipated expiration: 2013-10-27
Also published as: KR0178078B1; EP0427245A2; EP0427245B1; JPH03218523A; KR910010304A; DE69032174D1; DE69032174T2; EP0427245A3; US5269007A

Description

【発明の詳細な説明】〔産業上の利用分野〕本発明は主にマイクロプロセッサ（MPU）の如きデー
タプロセッサに係り、特に、32ビットRISCプロセッサの
２命令同時実行の処理方式に関する。

〔従来の技術〕

本発明に関係する公知例としては、「MIPS RISC ARCH
ITECTURE」:1988,Prentice−Hall,pp A−39およびＡ−5
8、「1989 IEEE International Solid−State Circuits
Conference DIGEST OF TECHNICAL PAPERS」,pp54−55
および杉原英文「100万トランジスタを集積し科学技術
計算、ビジユアル化をねらうマイクロプロセッサ8086
0」日経エレクトロニクス 1989.4.3（no.470）pp199−
209,を挙げることができる。

最近の高性能なプロセッサシステムでは、RISC（Redu
ced Instruction Set Computer）アーキテクチャを採用
している。このRISCプロセッサでは、命令の長さは32ビ
ットに固定されている。従って、32ビット長のイミディ
エイトデータ（即値）を扱う場合、２つの命令に分解し
て実行する必要がある。例えば以下のようになる。

LUI rt, ＜upper 16 bits＞ ORI rt,rt,＜lower 16 bits＞ここで、第１の命令はロード・アッパー・イミデイエ
イト（Load Upper Immediate）命令で、命令中に示され
た16ビットのイミディエイトデータを左に16ビット分シ
フトして、32ビットのデータにしたものをｔ番目のレジ
スタrtに格納する命令である。

第２の命令はオア・イミディエイト（Or Immediate）
命令であって、命令中に示された16ビットのイミディエ
イトデータの上位に16ビット分の「０」を拡張したもの
とｔ番目のレジスタrtの内容の論理和をレジスタrtに格
納する命令である。

上記２命令の実行の結果、レジスタrtに32ビット長の
イミディエイトデータをセットすることができる。

このようなプロセッサの仕様について、米国ミップス
社の32ビットマイクロプロセッサR2000のアーキテクチ
ャマニユアルに記載されている。

〔発明が解決しようとする課題〕

以上述べてきたように、従来のRISCプロセッサでは、
32ビットのイミディエイトデータを扱う場合、２つの命
令に分け、実行には２サイクルを要していた。

一方、最近では、バスのデータ幅と64ビット化して、
バスのバンド幅拡張による処理性能の向上を目指したプ
ロセッサが発表されている。例えば、1989年のISSCC（I
EEE International Solid−State Circuits Conferenc
e）ではインテル社らが64ビットデータバスを持つマイ
クロプロセッサを発表している。

しかし、上記のマイクロプロセッサにおいても、コー
ド効率等を考慮して、命令のフォーマットは32ビットに
固定されている。したがつて、64ビット分の命令を１度
にフェッチできるにもかかわらず、32ビット長のイミデ
ィエイトデータは、従来通り、２つの命令に分割され、
２サイクルを要して実行されている。

また、上記インテル社のマイクロプロセッサでは、64
ビットバスを利用して１サイクルで２つの命令をフェッ
チし、それらの命令が整数演算命令と浮動小数点演算命
令の組合せならば、それらを同時に実行する処理方式を
とつている。これは、整数演算命令では整数の汎用レジ
スタを操作し、浮動小数点命令では浮動小数点レジスタ
を操作するので、これらの命令の間では命令間の依存関
係がないことを利用している。従って、上記の制御手法
は、整数演算命令を２つ同時に実行する処理方式には適
用できない。

従って、本発明の目的は、命令間の依存関係を考慮し
つつ、２つの命令を同時に実行することの可能なデータ
プロセッサを提供することにある。

〔課題を解決するための手段〕

本願において開示される発明のうち、代表的な実施例
によるマイクロプロセッサの概要は下記の通りである。

すなわち、本発明の代表的な実施例によるマイクロプ
ロセッサは、（１）所定のビット幅（32ビット）の命令長の第１及び
第２の命令をメモリからフェッチし、上記第１及び第２
の命令を並行に出力する命令フェッチユニット（640）
と、（２）その入力に上記命令フェッチユニット（640）か
ら出力される上記第１の命令のオペレーションコードが
供給される第１の命令デコーダ（644）と、（３）その入力に上記命令フェッチユニット（640）か
ら出力される上記第２の命令のオペレーションコードが
供給される第２の命令デコーダ（645）と、（４）少なくともレジスタファイル（650）、演算器（6
51）およびシフタ（652）を含み、上記第１の命令デコ
ーダ（644）のデコード結果および上記第２の命令デコ
ーダ（645）のデコード結果の少なくともいずれかによ
って制御される命令実行ユニットと、（５）上記命令フェッチユニット（640）から出力され
る上記第１の命令のデスティネーションフィールド（11
2）の情報と上記命令フェッチユニット（640）から出力
される上記第２の命令の第１ソースフィールド（123）
の情報とを比較する第１の比較器（132）と、（６）上記命令フェッチユニット（640）から出力され
る上記第１の命令のデスティネーションフィールド（11
2）の情報と上記命令フェッチユニット（640）から出力
される上記第２の命令のデスティネーションフィールド
（122）の情報とを比較する第２の比較器（131）を具備
してなり、上記レジスタファイル（650）は複数のレジスタ（R0,
R1,R2,R3…R31）からなり、上記第１の比較器（132）の出力と上記第２の比較器
（131）の出力とによる制御条件に従って上記第１の命
令のイミディエイトデータ（114）に関係した上記シフ
タ（652）の上記出力を上記レジスタファイル（650）を
バイパスして上記演算器（651）の入力（656）に供給す
るための信号伝達経路をさらに具備するものである（第
１図（ａ）参照）。

〔作用〕

１サイクルでメモリ（620）から第１と第２の命令が
命令フェッチユニット（640）によってフェッチされ、
このフェッチされた第１と第２の命令は第１と第２のデ
コーダ（644,645）によってデコードされる。

第１と第２のデコーダ（644,645）のデコード結果に
従って、命令実行ユニット（650,651,652）が制御され
る。

上記レジスタファイル（650）をバイパスしてこの信
号伝達経路を介して上記シフタ（652）の上記出力を上
記演算器（651）の上記入力（656）に供給する条件は、
命令フェッチユニット（640）から出力される第１の命
令が演算器（651）と本来は無関係に該第１の命令のイ
ミディエイトデータ（114）に関係したシフタ（652）の
出力を該第１の命令のデスティネーションフィールド
（112）の情報によって指定されるレジスタファイル（6
50）中の選択されたひとつのレジスタ（R3）に本来はセ
ットする命令（LUI命令）であり、また命令フェッチユ
ニット（640）から出力される第２の命令が上記シフタ
（652）と本来は無関係に該第２の命令の第１ソースフ
ィールド（123）の情報によって指定されるレジスタフ
ァイル（650）中の選択されたひとつのレジスタ（R3）
の情報と該第２の命令の第２ソースフィールド（124）
に関係した情報とを演算器（651）で処理し該処理結果
を該第２の命令のデスティネーションフィールド（12
2）の情報によって指定されるレジスタファイル（650）
中の選択されたひとつのレジスタ（R3）にセットする命
令である場合、第１の比較器（132）の両比較入力（11
2、123）が互いに一致すると言う条件である。

この条件では、第１の命令と第２の命令とは基本的に
同時実行されることができ、さらにレジスタファイル
（650）をバイパスして第１の命令のイミディエイトデ
ータ（114）に関係したシフタ（652）の出力が第２の命
令の第１ソースフィールド（123）の情報として高速に
演算器（651）の入力（656）に供給されることが可能と
なる。

このようなレジスタファイル（650）をバイパスする
と言う手法を採用しないとすれば、レジスタファイル
（650）を構成するレジスタ（R0,R1,R2,R3…R31）の数
が大きい場合に、シフタ（652）の出力がレジスタファ
イル（650）を介して演算器（651）の入力（656）に伝
達される際の遅延時間は大きなものとなってしまう。か
かる遅延時間の低減の点でも、本発明の代表的な実施例
は好適なものである。

第１の比較器（132）の両比較入力（112,123）が互い
に一致すると言う条件に加えて、また第２の比較器（13
1）の両比較入力（112,122）が互いに一致する条件（言
い替えると、第１と第２の命令のデスティネーションフ
ィールド（112,122）の両情報さらには第２の命令の第
１ソースフィールド（123）の情報が互いに一致する場
合）では、本来の通り先行する第１の命令（LUI命令）
によってシフタ（652）のデータをR3レジスタにセット
したとしても、R3レジスタにセットされたこのデータは
後続の第２の命令（ORI命令）による演算器（651）の処
理結果データによって更新されてしまうので、先行する
第１の命令（LUI命令）によるシフタ（652）のデータの
R3レジスタへのセットは無意味となるばかりか、データ
更新に無駄な時間を消費することとなる。

これに対して本発明の代表的な実施例によれば、第１
の比較器（132）の両比較入力（112,123）が互いに一致
すると言う条件に加えて、また第２の比較器（131）の
両比較入力（112,122）が互いに一致する条件では、第
１の命令であるLUI命令によるバレルシフタ652のシフト
結果は、レジスタファイル650にセットされることな
く、第２の命令であるORI命令を実行するための演算器6
51の一方の入力（656）に直接かつ高速に供給される。
一方、演算器651の他方の入力（655）には第２の命令の
イミディエイトデータ124の32ビット拡張データが供給
される。かくして、第１の命令であるLUI命令と第２の
命令であるORI命令の２つの命令を１サイクルで高速に
実行することができる。

本発明のその他の目的と特徴は、以下の実施例の説明
から明らかとなろう。

〔実施例〕

以下、本発明の一実施例を図面に、沿って説明する。

データプロセッサの概要第６図は本発明の一実施例であるデータプロセッサの
ブロック図である。このデータプロセッサの基本構成は
大きく分類すると、プロセッサ部610,プログラムメモリ
620、及び、データメモリ630から構成されている。

プログラムメモリ620は、命令アドレスバス621及び命
令データバス622によって、プロセッサ610と接続されて
いる。

命令アドレスバス621は32ビット幅で、4G（ギガ）バ
イトまでアドレッシング可能である。

命令データバス622は64ビット幅で、１回の転送で２
命令を同時にプログラムメモリ620からフェッチされる
ことができる。

データメモリ630は、オペランドアドレスバス631及び
オペランドデータバス632によって、プロセッサ610と接
続されている。

オペランドアドレスバス631は、32ビット幅で4G（ギ
ガ）バイトまでアドレッシング可能である。

オペランドデータバス632は、32ビット幅で、１回の
転送で１ワードのデータがデータメモリ630から又はデ
ータメモリ630にフェッチ又はストアされることができ
る。

また、プログラムメモリ620およびデータメモリ630
は、それぞれ、命令キャッシュメモリとデータキャッシ
ュメモリであり、メインメモリ（図示せず）の命令およ
びデータの一部のコピーを保持するものである。

プロセッサの内部構造プロセッサ610は命令のアドレスを計算するプログラ
ムカウンタ643,プリフェッチした命令を保持するプリフ
ェッチバッファ640,第１命令レジスタ641,第２命令レジ
スタ642,第１命令デコーダ644,第２命令デコーダ645,レ
ジスタファイル650,演算器651,バレルシフタ652,メモリ
アドレスレジスタ（MAR）653,メモリデータレジスタ（M
DR）654から成る。

プリフェッチユニットプリフェッチユニットであるプリフェッチバッファ64
0は、64ビット幅で、プログラムメモリ620から１度にフ
ェッチしてきた２命令を保持することができる。

プリフェッチバッファ640の内容は、第１命令レジス
タ641、及び、第２命令レジスタ642に空きができた時点
で、左側命令は第１命令レジスタ641へ、右側の命令は
第２命令レジスタ642へ転送される。

本実施例ではビッグエンディアンのアドレス付けを採
用しており、プリフェッチバッファ640に保持された２
つの命令の内、左側の命令が先に実行され、その次に右
側の命令が実行される。

レジスタファイルレジスタファイル650は32ビット幅のレジスタ、32本R
0、R1,R2,…,R31から成り、３ポートの読み出し及び３
ポートの書き込みが同時に可能である。

命令実行ユニット命令実行ユニットは、演算器651とバレルシフタ652か
ら構成されている。

演算器651は、それぞれ32ビットのＡ側入力655とＢ側
入力656を持ち、２入力の算術論理演算を行なうALU（Ar
ithmetic and Logic Unit）により構成されており、バ
レルシフタ652はＢ側入力をＡ側入力の桁だけシフトす
る機能を有する。

命令のフォーマット第２図は、本発明の一実施例である第１図のデータプ
ロセッサのための命令のフォーマットを説明するための
図である。

第２図に示すように、１つの命令は32ビットの固定長
であって、左端より６ビット,5ビット,5ビット,16ビッ
トのフィールドに分割されている。

左端の６ビットのフィールド210は、命令の種類を示
すオペレーションコード（OPコード）である。

次の５ビットのフィールド220は、命令の実行結果を
格納するレジスタを指定するデスティネーションフィー
ルドである。

さらに次の５ビットのフィールド230は、命令の入力
レジスタの一方を指定する第１ソースフィールドであ
る。

右端の16ビットのフィールド240はもう一方の入力を
指定する第２ソースフィールドである。第２ソースフィ
ールド240は第２図（ａ）に示すように16ビットのイミ
ディエイトデータとして用いられる場合と、第２図
（ｂ）に示すように、右端の５ビット250によってレジ
スタを指定する場合がある。第２ソースフィールドを上
記のどちらの使い方にするかは、OPコード210の左端の
ビットで指定され、「０」のとき（ａ）、「１」のとき
（ｂ）のように使われる。（ａ）の形式の命令をイミデ
ィエイト命令と呼び、（ｂ）の形式の命令をレジスタ命
令と呼ぶ。

なお、本実施例ではレジスタファイル650のレジスタ
の数は32本であり、レジスタを指定する場合には上記の
ように５ビットを必要とする。

第５図はOPコード210のビット割り当てを示したもの
である。

LUI（ロード・アッパー・イミディエイト）命令510
は、第２ソースフィールド240の16ビットのイミディエ
イトデータの右側に16ビット分の「０」を連結し、32ビ
ットのイミディエイトにして、デスティネーションフィ
ールド220に示されるレジスタに格納する命令である。

ADDI（アッド・イミディエイト）命令512は、第２ソ
ースフィールド240の16ビットのイミディエイトデータ
の左側に第２ソースフィールド240の最上位ビットと同
じ値を16ビット分、連結して、32ビットのイミディエイ
トに符号拡張した後、第１ソースフィールド230で示さ
れるレジスタの内容と加算して、デスティネーションフ
ィールド220に示されるレジスタに格納する命令であ
る。

SUBI（サブトラクト・イミディエイト）命令514は、
第２ソースフィールド240をADDI命令512と同様に32ビッ
トのイミディエイトに符号拡張した後、第１ソースフィ
ールド230で示されるレジスタの内容から減算して、デ
スティネーシヨンフィールド220に示されるレジスタに
格納する命令である。

ANDI（アンド・イミディエイト）命令516は、第２ソ
ースフィールド240の16ビットのイミディエイトデータ
の左側に16ビット分の「０」を連結して、32ビットのイ
ミディエイトに拡張した後、第１ソースフィールド230
で示されるレジスタの内容との間で各ビットごとの論理
積を求めて、その結果をデスティネーションフィールド
220に示されるレジスタに格納する命令である。

ORI（オア・イミディエイト）命令518、及び、EORI
（イクスクルーシブ・オア・イミディエイト）命令520
は、ANDI命令516と同様に、それぞれ、論理和，排他的
論理和を求める命令である。

SLLI（シフト・レフト・ロジカル・イミディエイト）
命令522は、第１ソースフィールド230で示されるレジス
タの内容を第２ソースフィールド240の16ビットのイミ
ディエイトデータの数だけ左にシフトして、その結果を
デスティネーションフィールド220に示されるレジスタ
に格納する命令である。このとき、右端からシフトイン
される値は「０」である。

SRLI（シフト・ライト・ロジカル・イミディエイト）
命令524は、SLLI命令522とは逆に右にシフトする命令で
ある。このとき、左端からシフトインされる値は「０」
である。

SRAI（シフト・ライト・アリスメツテイツク・イミデ
ィエイト）命令526は、SRLI命令524と同様に右にシフト
する命令であるが、左端からシフトインされる値は
「０」ではなく、第１ソースフィールド230で示される
レジスタの右端のビットと同じ値である。

LD（ロード）命令530は、第２ソースフィールド240を
ADDI命令512と同様に32ビットのイミディエイトに符号
拡張した後、第１ソースフィールド230で示されるレジ
スタの内容と加算した結果をアドレスとし、そのアドレ
スで示されたデータメモリの内容をデスティネーション
フィールド220に示されるレジスタに格納する命令であ
る。

ST（ストア）命令532は、LD命令530と同様にアドレス
を求め、デスティネーションフィールド220に示される
レジスタの内容を、そのアドレスで示されたデータメモ
リに格納する命令である。

JUMP（ジャンプ）命令534は、無条件分岐命令で、LD
命令530と同様にアドレスを求め、そのアドレスへプロ
グラムの流れを変える命令である。

Bcc（ブランチ）命令536は、条件付き分岐命令で、条
件が成立したとき、第２ソースフィールド240の16ビッ
トのイミディエイトデータの左側に第２ソースフィール
ド240の最上位ビットと同じ値を16ビット分、連結し
て、32ビットのイミディエイトに符号拡張した値と、現
在の命令のアドレスを示すPC（プログラムカウンタ）
の値を加算したアドレスへ、プログラムの流れを変える
命令である。なお、このときの分岐条件はデスティネー
ションフィールド220の５ビットによって指定される。

ADD命令552からSRA命令566までは、それぞれADDI命令
512からSRAI命令526において、第２ソースオペランドと
してレジスタの内容を用いる命令である。

２命令同時実行のためのアーキテクチァ第１図は、本発明の一実施例の特徴である２つの命令
同時実行のための特徴的な構成と動作を第６図に追加し
て示すものである。

第１図（ａ）は、本発明の一実施例の特徴であるLUI
命令（その命令実行のために演算器651を使用せず、本
来はバレルシフタ652によるシフト結果をレジスタファ
イル650のひとつのレジスタにセットする命令）と他の
命令（その命令実行のためにバレルシフタ652を使用せ
ず、演算器651とレジスタファイル650のLUI命令の使用
レジスタとを使用する命令）を同時に実行するための構
成の動作を示す図である。

LUI命令が64ビット命令データバス622の左側でフェッ
チされ、ORI命令が右側でフェッチされた場合である。

従って、LUI命令で、本来はイミディエイトデータ114
をバレルシフタ652で左シフトした後、レジスタファイ
ル650のR3レジスタにセットする。次のORI命令で、本来
は直前のLUI命令でR3レジスタにセットされた左シフト
後のイミディエイトデータ114と32ビットに拡張された
イミディエイトデータ124との論理和のデータをR3レジ
スタに再びセットするものである。

しかしながら、本来の通り先行するLUI命令によって
バレルシフタ652による左シフトデータをR3レジスタに
セットしたとしても、R3レジスタにセットされたこのデ
ータは後続のORI命令による論理和のデータによって更
新されてしまうので、先行するLUI命令による左シフト
データのR3レジスタへのセットは無意味となる。

これに対して第１図（ａ）の本実施例によれば、LUI
命令によるバレルシフタ652のシフト結果はレジスタフ
ァイル650にセットされることなく、ORI命令を実行する
ための演算器651の一方の入力656に供給される。演算器
651の他方の入力655には32ビットに拡張されたイミディ
エイトデータ124が供給される。かくして、第１図
（ａ）の実施例によれば、LUI命令とORI命令の２つの命
令を１サイクルで実行することができる。

なお、ここでR3レジスタにセットされた32ビット長の
イミディエイトデータは、後の命令において、32ビット
長の定数として、算術演算命令（ADD,SUB等）や、論理
演算命令（AND,OR,EOR等）に利用される。また、32ビッ
ト長のアドレスとして、メモリ操作命令（LD,ST）や分
岐命令（Jump）に利用されることもある。

以下、この２つの命令の同時実行について、詳細に説
明する。

64ビット命令データバス622の左側でフェッチされたL
UI命令は第１命令レジスタ641にセットされ、同時に64
ビット命令データバス622の右側でフェッチされたORI命
令は第２命令レジスタ642にセットされる。

第１命令デコーダ644は第１命令レジスタ641のOPコー
ドフィールド111を解読してLUI命令であることを検出す
ると、第２命令デコーダ645を有効にして、第２命令レ
ジスタにセットされている命令を解読し、LUI命令の実
行と同じサイクルで並列に実行を開始する。

つまり、LUI命令の動作として、第１命令レジスタ641
の第２ソースフィールド114の16ビットイミディエイト
の右側に「０」を16ビット分連結して32ビット長に拡張
したものをシフタ652で求める。尚、シフタ652は、第１
命令レジスタ641のOPコード111を解読する第１デコーダ
644によって制御される。

なおこの時、比較器131によって第１命令レジスタ641
のデスティネーションフィールド112と第２命令レジス
タ642のデスティネーションフィールド122を比較し、同
一でない場合は、第１命令レジスタ641のデスティネー
ションフィールド112で示されるR3レジスタへ、シフタ6
52の結果を格納する。第１図（ａ）の場合は、同一であ
るので、シフタ652の結果のR3レジスタへの格納は行な
わない。

また同時に、ORI命令の動作としては、第２ソースフ
ィールド124の16ビットイミディエイトを32ビット長に
拡張する。また、比較器132によって第１命令レジスタ6
41のデスティネーションフィールド112と第２命令レジ
スタ642の第１ソースフィールド123を比較し、同一であ
る（つまり、LUI命令のデスティネーションレジスタとO
RI命令のソースレジスタが同一である）場合は、第１ソ
ースフィールド123に従つたR3レジスタからの読み出し
を抑止し、代わりに、シフタ652の結果を用いて32ビッ
トに拡張されたイミディエイトデータ124との論理和演
算を行う。これら２つのデータの論理和を演算器651で
求め、その結果をデスティネーションフィールド122で
示されるR3レジスタへ格納する。なお、演算器651は、
第２命令レジスタ642のOPコード121を解読する第２デコ
ーダ645によって制御される。また、第２ソースフィー
ルド124のイミディエイトの拡張も第２デコーダ645によ
って制御される。

次に実行する命令は、プリフェッチバッファ640に保
持されている命令であるので、この命令を第１命令レジ
スタ641及び第２命令レジスタ642へ転送して、以下同様
に実行する。

第１図（ｂ）は本発明の特徴であるLUI命令（その命
令実行のために演算器651を使用せず、本来はバレルシ
フタ652によるシフト結果をレジスタファイル650のひと
つのレジスタにセットする命令）と他の命令（その命令
実行のためにバレルシフタ652を使用せず、演算器651を
使用しレジスタファイル650のLUI命令によるセット・レ
ジスタと異なるレジスタにセットを実行する命令）を同
時に実行する時のもう一つの動作を示す図である。

ADD命令が64ビット命令データバス622の左側でフェッ
チされ、LUI命令が右側でフェッチされた場合である。A
DD命令でR1レジスタの内容とR2レジスタの内容を加算
し、R3レジスタに格納し、LUI命令でイミディエイトデ
ータをR4レジスタの上位ビットにセットする。この場
合、レジスタファイル650の使用レジスタの間で使用に
関する競合が生じることが無いので、ADD命令とLUI命令
の２つの命令を１サイクルで実行することができる。

以下、第１図（ｂ）の動作について、詳細に説明す
る。

まず、64ビット命令データバス622の左側でフェッチ
されたADD命令は第１命令レジスタ641にセットされ、同
時に64ビット命令データバス622の右側でフェッチされ
たLUI命令は第２命令レジスタ642にセットされる。第２
命令デコーダ645は第２命令レジスタ642のOPコードフィ
ールド151を解読してLUI命令であることを検出すると、
第２命令デコーダ645を有効にして、第１命令レジスタ
にセットされている命令の実行と同じサイクルで並行に
LUI命令の実行を開始する。

まず、ADD命令の動作として、第１命令レジスタ641の
第１ソースフィールド143に従つて、R1レジスタの内容
を読み出し、また、第２ソースフィールド144に従つ
て、R2レジスタの内容を読み出す。これら２つのデータ
の積を演算器651で求め、その結果をデスティネーショ
ンフィールド142で示されるR3レジスタへ格納する。な
お、演算器651は、第１命令レジスタ641のOPコード141
を解読する第１デコーダ644によって制御される。なお
この時、比較器131によって第１命令レジスタ641のデス
ティネーションフィールド142と第２命令レジスタ642の
デスティネーションフィールド152を比較し、同一であ
る（つまり、ADD命令のデスティネーションレジスタとL
UI命令のデスティネーションレジスタが同一である）場
合は、上記ADD命令の実行結果のR3レジスタへの格納を
抑止し、代わりに、LUI命令の実行結果をレジスタR3へ
格納する。

また同時に、LUI命令の動作として、第２命令レジス
タ642の第２ソースフィールド154の16ビットイミディエ
イトの右側に「０」を16ビット分連結して32ビット長に
拡張したものをシフタ652で求め、その結果をデスティ
ネーションフィールド152で示されるR4レジスタへ格納
する。なお、シフタ652は、第２命令レジスタ642のOPコ
ード151を解読する第２デコーダ645によって制御され
る。

遅延分岐とディレイスロット分岐命令において、遅延分岐の手法が使われることが
よくある。この手法では、分岐命令の次の１サイクルを
ディレイスロットと呼び、RISCプロセッサのためにコン
パイルされたプログラムの分岐命令の直後の命令をこの
サイクルに実行する。この分岐命令の直後の命令の実行
の後、実際の分岐を行なう。

このRISCプロセッサのためにコンパイルされたプログ
ラムの分岐命令の直後の命令は、CISC（Complex Instru
ction Set Computer）プロセッサの如き通常のデータ・
プロセッサのためにコンパイルされたプログラムの分岐
命令の直前の命令に対応している。

一方、上述の如く、RISCプロセッサにおいては、分岐
命令の直後の命令（CISCプロセッサの場合の分岐命令の
直前の命令）を先に実行し、しかる後、分岐命令を実行
する。

遅延分岐およびディレイスロットに関しては、Gerry
Kane著による「MIPS RISC ARCHITECHTURE」第１−９頁
乃至第１−11頁（1988年）に詳しく記載されている。

すなわち、通常のプロセッサは命令フェッチ、命令デ
コード、命令実行の多段のパイプラインによる命令の並
列処理を実行している。

このパイプライン並列処理のため、分岐命令による分
岐先アドレス計算を行っている間に、命令フェッチユニ
ットは分岐命令に続く命令を次々とフェッチする処理を
続行する。

従来のCISCプロセッサでは、分岐を実行する時には、
先行的にフェッチした分岐命令に続く命令を無効化し
て、分岐先命令を新たにフェッチし、命令デコード、命
令実行するものである。従って、CISCプロセッサでは、
その実行に２サイクルを必要とする分岐命令の後に、自
動的に何も作業をしない１サイクル（No Operationのサ
イクル）が挿入されてしまう。

一方、RISCプロセッサでは、分岐を実行する時には、
先行的にフェッチした分岐命令に続く命令（CISCプロセ
ッサの場合の分岐命令の直前の命令）を無効化しない
で、先にこの命令を実行し、しかる後に分岐命令を実行
し、新たに分岐先命令をフェッチするものである。

この様に、RISCプロセッサでは分岐命令の後に、無効
化されることのない有効な命令をプログラム中で配置す
ることによって、このサイクルを有効に活用することが
できる。このような分岐命令の仕様は遅延分岐と呼ば
れ、分岐命令の後の１サイクルはディレイスロットと呼
ばれている。

ディレイスロットとLUI命令の処理従って、本発明の一実施例によるRISCプロセッサにお
いて、遅延分岐のディレイスロットと関係してLUI命令
がある場合の処理の手法について以下に説明する。

まず、第１の命令が分岐命令で第２の命令がLUI命令
である場合、第１の手法としては、LUI命令を分岐命令
と同時に実行してしまい、遅延分岐のディレイスロット
では次の第３の命令を実行することが考えられる。第２
の手法として、さらに第１の手法に加え、第３の命令も
LUI命令の場合は、第４の命令も同時にディレイスロッ
トで実行できる。また逆に、第３の命令が通常の命令
で、第４の命令がLUI命令の場合にも、第３の命令と第
４の命令を同時にディレイスロットで実行することがで
きる。第３の手法としては、遅延分岐のディレイスロッ
トにLUI命令が入っている場合には、上記の処理方式を
抑止して、このLUI命令を分岐命令と同時に実行せず、
ディレイスロットでLUI命令を実行することも考えられ
る。

また、第１の命令がLUI命令で、第１の命令の直前の
命令が分岐命令の場合、第４の手法としては、ディレイ
スロット内で第１のLUI命令と分岐命令の直後の第２の
通常の命令を同時に実行することも考えられる。第５の
手法としては、上記第３の手法と同様に、LUI命令と次
の命令の同時実行を抑止して、ディレイスロットのLUI
命令を単独に実行することが考えられる。

以上の様にディレイスロットに関係してLUI命令があ
る時の処理方法には各種の方式が考えられるので、予め
ソフトウエア（特にコンパイラ）との間で、明確に決め
ておく必要がある。

従って、上記第１図（ａ）の説明では、LUI命令の直
前の命令は分岐命令ではない場合について説明した。直
前の命令が分岐命令の場合は、第１図（ａ）の本実施例
ではLUI命令は分岐命令のディレイスロットで実行さ
れ、ORI命令はLUI命令とは同時に実行されない。

なお、上記第１図（ｂ）の説明では、LUI命令の直前
の命令はADD命令で、分岐命令ではない場合について説
明した。直前の命令（左側の命令）が分岐命令の場合
は、第１図（ｂ）の本実施例ではLUI命令は分岐命令の
ディレイスロットで実行され、LUI命令は左側の命令
（分岐命令）とは同時に実行されない。

２命令の直列実行次に、第１図もしくは第６図に示したデータプロセッ
サが２つの命令を同時実行できず、２つの命令を直列に
実行する場合について、第３図（ａ），（ｂ），
（ｃ），（ｄ）を参照して説明する。

第３図（ａ）は、R1レジスタの内容とR2レジスタの内
容を加算してR3レジスタへ格納するADD命令を実行する
時の動作を示す図である。尚、この命令は64ビット命令
データバス622の左側でフェッチされたものとする。

第１命令レジスタ641の第１ソースフィールド311及び
第２ソースフィールド312に従って、R1レジスタ及びR2
レジスタの内容を読み出し、演算器651で加算した結果
を、デスティネーションフィールド313で示されるR3レ
ジスタへ格納する。

尚、演算器651は、第１命令レジスタ641のOPコード31
4を解読する第１デコーダ644によって制御される。

次に実行する命令は、第２命令レジスタ642に保持さ
れている命令であるので、この命令を第１命令レジスタ
641へ転送して、以下同様に実行する。

第３図（ｂ）は、1Rレジスタの内容とイミディエイト
とを加算してR3レジスタへ格納するADDI命令を実行する
時の動作を示す図である。尚、この命令は64ビット命令
データバス622の左側でフェッチされたものとする。第
１命令レジスタ641の第１ソースフィールド321に従っ
て、R1レジスタの内容を読み出し、また、第２ソースフ
ィールド322の16ビットイミディエイトを32ビット長に
符号拡張する。これら２つのデータを演算器651で加算
し、その結果をデスティネーションフィールド323で示
されるR3レジスタへ格納する。尚、演算器651は、第１
命令レジスタ641のOPコード324を解読する第１デコーダ
644によって制御される。また、第２ソースフィールド3
22のイミディエイトの符号拡張も第１デコーダ644によ
って制御される。次に実行する命令は、第２命令レジス
タ642に保持されている命令であるので、この命令を第
１命令レジスタ641へ転送して、以下同様に実行する。

第３図（ｃ）は、R1レジスタの内容とイミディエイト
を加算した値をアドレスとするデータメモリの内容をR3
レジスタへ格納するLD命令を実行する時の動作を示す図
である。尚、この命令は64ビット命令データバス622の
左側でフェッチされたものとする。第１命令レジスタ64
1の第１ソースフィールド331に従ってR1レジスタの内容
を読み出し、また、第２ソースフィールド332の16ビッ
トイミディエイトを32ビット長に符号拡張する。これら
２つのデータを演算器651で加算し、その結果をMAR653
へ転送し、データメモリ630をアクセスする。

データメモリ630から読み出されたデータはMDR654を
経由して、デスティネーションフィールド313で示され
るR3レジスタへ格納される。次に実行する命令は、第２
命令レジスタ642に保持されている命令であるので、こ
の命令を第１命令レジスタ641へ転送して、以下同様に
実行する。

第３図（ｄ）は、R1レジスタの内容とイミディエイト
を加算した値をアドレスとするデータメモリ630の領域
へR3レジスタの内容を格納するST命令を実行する時の動
作を示す図である。尚、この命令は64ビット命令データ
バス622の左側でフェッチされたものとする。第１命令
レジスタ641の第１ソースフィールド341に従ってR1レジ
スタの内容を読み出し、また、第２ソースフィールド34
2の16ビットイミディエイトを32ビット長に符号拡張す
る。これら２つのデータを演算器651で加算し、その結
果をMAR653へ転送し、データメモリ630をアクセスす
る。一方、書き込みデータはデスティネーションフィー
ルド343で示されるR3レジスタから読み出され、MDR654
を経由してデータメモリ630へ転送され、格納される。
次に実行する命令は、第２命令レジスタ642に保持され
ている命令であるので、この命令を第１命令レジスタ64
1へ転送して、以下同様に実行する。

パイプライン処理次に、第１図および第６図の実施例によるデータプロ
セッサのパイプライン処理について、詳細に説明する。

第４図（ａ）は本実施例のプロセッサにおいて２つの
命令を直列実行する時のパイプライン処理について示し
た図である。尚、命令ＡからＦが第４図（ｃ）に示すよ
うにプログラムメモリ620に格納されていたとする。

まず、第４図（ａ）の１つの箱は各パイプラインステ
ージの１クロックサイクルの動作に対応する。パイプラ
インのステージは、IF（命令フェッチ）,ID（命令デコ
ード）,EX（実行）,W（結果の格納）の４つのステージ
からなる。以下、各クロックサイクル毎に説明する。

［１クロックサイクル目］プログラムメモリ620から64ビット分の命令（Ａと
Ｂ）をフェッチして、プリフェッチバッファ640にセッ
トする。

［２クロックサイクル目］プリフェッチバッファ640に保持している２つの命令
（ＡとＢ）をそれぞれ第１命令レジスタ641及び第２命
令レジスタ642にセットし、第１命令デコーダ644及び第
２命令デコーダ645で解読を行う。なおこの時、レジス
タの読み出し及びイミディエイトのデータ拡張が必要な
場合にはこのサイクルで行う。

また、プログラムメモリ620から次の64ビット分の命
令（ＣとＤ）をフェッチして、プリフェッチバッファ64
0にセットする。

［３クロックサイクル目］第１命令デコーダ644で解読した命令Ａを実行し、次
に第２命令レジスタ642の命令Ｂを第１命令レジスタ641
にセットし、第１命令デコーダ644で解読を行う。なお
この時、レジスタの読み出し及びイミディエイトのデー
タ拡張が必要な場合にはこのサイクルで行う。

［４クロックサイクル目］命令Ａの実行結果をレジスタに格納し、第１命令デコ
ーダ644で解読した命令Ｂを実行する。同時にプリフェ
ッチバッファ640に保持している２つの命令（ＣとＤ）
をそれぞれ第１命令レジスタ641及び第２命令レジスタ6
42にセットし、第１命令デコーダ644及び第２命令デコ
ーダ645で解読を行う。なおこの時、レジスタの読み出
し及びイミディエイトのデータ拡張が必要な場合にはこ
のサイクルで行う。また、プログラムメモリ620から次
の64ビット分の命令（ＥとＦ）をフェッチして、プリフ
ェッチバッファ640にセットする。

以下同様に動作する。

第４図（ｂ）は本実施例のプロセッサにおいて本発明
の特徴である２つの命令を同時に実行する時のパイプラ
イン処理について示した図である。尚、命令ＡからＦが
第４図（ｃ）に示すようにプログラムメモリ620に格納
されていたとする。ここで、命令ＡがLUI命令であると
する。以下、各クロックサイクル毎に説明する。

［２クロックサイクル目］プリフェッチバッファ640に保持している２つの命令
（ＡとＢ）をそれぞれ第１命令レジスタ641及び第２命
令レジスタ642にセットし、第１命令デコーダ644及び第
２命令デコーダ645で解読を行う。その結果命令ＡがLUI
命令であることが分かるので、次のサイクルでこの２つ
の命令を同時に実行する準備を行う。なおこの時、レジ
スタの読み出し及びイミディエイトのデータ拡張が必要
な場合にはこのサイクルで行う。また、プログラムメモ
リ620から次の64ビット分の命令（ＣとＤ）をフェッチ
して、プリフェッチバッファ640にセットする。

［３クロックサイクル目］第１命令デコーダ644で解読した命令Ａ（LUI命令）及
び第２命令デコーダ645で解読した命令Ｂを同時実行
し、プリフェッチバッファ640に保持している２つの命
令（ＣとＤ）を第１命令レジスタ641及び第２命令レジ
スタ642にセットし、第１命令デコーダ644及び第２命令
デコーダ645で解読を行う。なおこの時、レジスタの読
み出し及びイミディエイトのデータ拡張が必要な場合に
はこのサイクルで行う。

また、プログラムメモリ620から次の64ビット分の命
令（ＥとＦ）をフェッチして、プリフェッチバッファ64
0にセットする。

［４クロックサイクル目］命令Ａ（LUI命令）及び命令Ｂの実行結果をレジスタ
に格納し、第１命令デコーダ644で解読した命令Ｃを実
行する。第２命令レジスタ642の命令Ｄを第１命令レジ
スタ641にセットし、第１命令デコーダ644で解読を行
う。なおこの時、レジスタの読み出し及びイミディエイ
トのデータ拡張が必要な場合にはこのサイクルで行う。

以下同様に動作する。

なお、第４図（ｂ）では命令ＡがLUI命令の場合につ
いて説明したが、第１図（ｂ）で説明したように命令Ａ
が他の命令で命令ＢがLUI命令の場合も同様にこの２つ
の命令を同時に実行できることが分かる。

以上説明してきた本実施例によれば、各命令のフォー
マットが限定されているため、命令の解読が容易にで
き、命令デコーダを２個に増加しても、回路規模はそれ
ほど増大することはない。

また、本実施例によれば、イミディエイトデータを操
作する命令のOPコードはレジスタを操作する命令のOPコ
ードと左端の１ビットだけが違うだけなので、演算器65
1等のための制御信号生成等のための命令解読がどちら
の命令でも共通化でき命令デコーダの簡略化が可能であ
る。

また、イミディエイトを操作するか否かはOPコードの
左端の１ビットだけ判断できるので、イミディエイト生
成回路の制御信号などの生成するための命令デコーダの
簡略化が可能である。

従って、本実施例によれば、データ幅の広いバスを用
いて１サイクルでフェッチした２つの命令を同時に実行
できるので、パイプラインステージ間の負荷を均一にで
き、ハードウエア回路の有効利用が可能になる。

特に、本実施例によれば、従来の命令フォーマットを
変えることなく、32ビット長のイミディエイトを１サイ
クルで操作できるようになり、互換性を維持しつつ性能
向上を図ることができる。

また、本実施例では、LUI命令が分岐命令のディレイ
スロットにある場合には、他の命令との同時実行を抑止
しているので、従来のプログラムをそのまま実行して
も、悪影響を与えることはなく、互換性を維持すること
ができる。

〔発明の効果〕

以上述べてきたように本発明によれば、前後の依存関
係を考慮しながら、２つの命令を同時に実行する命令制
御方式を容易に実現できる。

従って、ピーク時には従来の２倍の処理性能を持つデ
ータプロセッサを容易に実現できる。

【図面の簡単な説明】

第１図（ａ）及び（ｂ）は本発明の一実施例の特徴であ
る２つの命令同時実行を可能とするデータプロセッサの
ブロックダイアグラムを示す図であり、第２図（ａ）及び（ｂ）は本発明の一実施例のデータプ
ロセッサのための命令のフォーマットを示す図であり、第３図（ａ）及至（ｄ）は本発明の一実施例のデータプ
ロセッサが２つの命令の直列に実行する際のブロックダ
イアグラムを示す図であり、第４図（ａ）乃至（ｃ）は本発明の一実施例のデータプ
ロセッサのパイプライン処理の動作を示す図であり、第５図は本発明の一実施例のデータプロセッサのための
命令のオペレーションコードのビット割当てを示す表図
であり、第６図は第１図のデータプロセッサの基本的なシステム
構成を示すブロックダイアグラムである 610……プロセッサ、620……プログラムメモリ、630…
…データメモリ、640……プリフェッチバッファ、641,6
42……命令レジスタ、644,645……命令デコーダ、650…
…レジスタフアイル、651……演算器、652……シフタ、
131,132……レジスタ番号比較器。

Claims

(57)【特許請求の範囲】

【請求項１】（１）所定のビット幅の命令長の第１及び
第２の命令をメモリからフェッチし、上記第１及び第２
の命令を並行に出力する命令フェッチユニットと、（２）その入力に上記命令フェッチユニットから出力さ
れる上記第１の命令のオペレーションコードが供給され
る第１の命令デコーダと、（３）その入力に上記命令フェッチユニットから出力さ
れる上記第２の命令のオペレーションコードが供給され
る第２の命令デコーダと、（４）少なくともレジスタファイル、演算器およびシフ
タを含み、上記第１の命令デコーダのデコード結果およ
び上記第２の命令デコーダのデコード結果の少なくとも
いずれかによって制御される命令実行ユニットと、（５）上記命令フェッチユニットから出力される上記第
１の命令のデスティネーションフィールドの情報と上記
命令フェッチユニットから出力される上記第２の命令の
第１ソースフィールドの情報とを比較する第１の比較器
と、（６）上記命令フェッチユニットから出力される上記第
１の命令のデスティネーションフィールドの情報と上記
命令フェッチユニットから出力される上記第２の命令の
デスティネーションフィールドの情報とを比較する第２
の比較器を具備してなり、上記レジスタファイルは複数のレジスタからなり、上記第１の比較器の出力と上記第２の比較器の出力とに
よる制御条件に従って上記第１の命令のイミディエイト
データに関係した上記シフタの上記出力を上記レジスタ
ファイルをバイパスして上記演算器の入力に供給するた
めの信号伝達経路をさらに具備することを特徴とするデ
ータプロセッサ。
【請求項２】上記命令フェッチユニットから出力される
上記第１の命令が上記演算器と本来は無関係に該第１の
命令のイミディエイトデータに関係した上記シフタの出
力を該第１の命令のデスティネーションフィールドの情
報によって指定される上記レジスタファイル中の選択さ
れたひとつのレジスタに本来はセットする命令であり、
また上記命令フェッチユニットから出力される上記第２
の命令が上記シフタと本来は無関係に該第２の命令の第
１ソースフィールドの情報によって指定される上記レジ
スタファイル中の選択されたひとつのレジスタの情報と
該第２の命令の第２ソースフィールドに関係した情報と
を上記演算器で処理し該処理結果を該第２の命令のデス
ティネーションフィールドの情報によって指定される上
記レジスタファイル中の選択されたひとつのレジスタに
セットする命令である場合、上記第１の比較器の両比較
入力が互いに一致すると言う条件で、上記レジスタファイルをバイパスして上記信号伝達経路
を介して上記シフタの上記出力が上記演算器の上記入力
に供給されることを特徴とする請求項１記載のデータプ
ロセッサ。
【請求項３】上記第１の比較器の上記両比較入力が互い
に一致すると言う上記条件に加えて、また上記第２の比
較器の上記両比較入力が互いに一致する条件では、上記第１の命令の上記イミディエイトデータに関係した
上記シフタの上記出力は、上記レジスタファイルにセッ
トされることなく、上記信号伝達経路を介して上記演算
器の上記入力に供給されることを特徴とする請求項２記
載のデータプロセッサ。