JPH09114734A

JPH09114734A - ストアバッファ装置

Info

Publication number: JPH09114734A
Application number: JP7266947A
Authority: JP
Inventors: Motohisa Ito; 元久伊藤; Eiki Kamata; 栄樹釜田; Toshiko Isobe; 敏子磯部; Takashi Yamamoto; 敬山本; Katsutoshi Uehara; 克利上原
Original assignee: Hitachi Ltd; Hitachi Computer Engineering Co Ltd
Current assignee: Hitachi Ltd; Hitachi Computer Engineering Co Ltd
Priority date: 1995-10-16
Filing date: 1995-10-16
Publication date: 1997-05-02
Also published as: US5845321A

Abstract

(57)【要約】【課題】キャッシュのヒット判定とデータ書き込みを
分離することでキャッシュのヒット判定をパイプライン
的に実行し、キャッシュのヒット判定の実行ピッチとス
トアバッファへの入力ピッチを一致させ、また、キャッ
シュヒットするストア命令のみストアバッファに入力す
ることにより、ストアバッファに空きがなくなる状態の
発生を低減する。【解決手段】ストアバッファを前段ストアバッファ１
ａと、後段ストアバッファ２ａに分離し、前段ストアバ
ッファ１ａと後段ストアバッファ２ａの間でキャッシュ
のヒット判定３をパイプライン的に行う。キャッシュヒ
ットするストア命令のみを後段ストアバッファ２ａに入
力する。データアレイ６への書き込みは後段ストアバッ
ファ２ａから行う。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、キャッシュメモリ
を持ち、演算処理装置から主記憶装置及びキャッシュメ
モリに書き込まれるストアアドレスとストアデータを記
憶するストアバッファ装置に関する。

【０００２】

【従来の技術】ストア命令が発行されると、キャッシュ
メモリのヒット判定を行い、キャッシュヒットしたデー
タがキャッシュメモリに書き込まれる。この従来の方式
では、キャッシュのヒット判定の時間が必要なため、書
き込み動作のピッチが長くなり、その結果、ストア命令
が連続すると中央演算処理装置(以下、ＣＰＵと呼ぶ)の
性能が低下する。

【０００３】この問題点を解決する方法として、データ
をストアバッファに一旦保持して、キャッシュメモリへ
の書き込み動作はストアバッファへの書き込みをもって
終了し、これによりＣＰＵは、データが実際にキャッシ
ュメモリに書き込まれるのを待たずに次の命令の処理に
移ることができるキャッシュメモリ制御方法がある（特
開平４ー３７９３５号公報を参照）。

【０００４】上記した従来手法では、最後に書き込んだ
ストアアドレスとキャッシュヒットの判定結果を記憶し
ておく。そして、後続のストアアドレスと記憶しておい
たストアアドレスとを比較し、一致する場合には、キャ
ッシュのヒット判定を行わずに、記憶しておいたキャッ
シュヒット判定結果を使用する。このようにして、キャ
ッシュのヒット判定を省略することで、書き込み動作の
ピッチを短くして性能の向上を図っている。

【０００５】

【発明が解決しようとする課題】上記公報に記載された
方法では、非連続なアドレスにストアする場合、後続の
ストアアドレスと記憶しておいたストアアドレスが一致
せず、記憶しているキャッシュヒット判定を使用するこ
とができない。この場合には、改めてキャッシュのヒッ
ト判定をしなければならず、書き込みの動作ピッチは向
上しない。そのため、ストアバッファは常に空きがない
状態になり、バッファとして機能しなくなる。このよう
な状態になると、ストアバッファに空きができるまで、
ＣＰＵはその実行を待ち合わせるため、ＣＰＵの性能が
低下するという問題がある。

【０００６】また、上記した従来の方法では、ストアバ
ッファから出力される段階で、キャッシュのヒット判定
が行われるので、キャッシュミスになるストア命令もス
トアバッファに保持されていて、ストアバッファのエン
トリが有効に使用されていない。

【０００７】さらに、非連続なアドレスにストアする場
合、主記憶への書き込み動作ピッチも長くなり、主記憶
につながるバスが有効に使用されないという問題もあ
る。

【０００８】本発明の目的は、連続アドレスに対するス
トアと非連続のアドレスに対するストアの動作ピッチを
同じにして、ストアバッファの入力と出力のピッチを一
致させ、ストアバッファに空きがなくなる状態の発生を
低減させることで、ＣＰＵの性能を低下させないように
したストアバッファ装置を提供することにある。

【０００９】本発明の他の目的は、ストアバッファに入
力する前にキャッシュのヒット判定を行い、キャッシュ
ヒットするストア命令のみストアバッファに入力するこ
とで、ストアバッファの使用効率を向上させたストアバ
ッファ装置を提供することにある。

【００１０】本発明のさらに他の目的は、複数のストア
バッファエントリのデータを同時にキャッシュに書き込
むことで、出力スループットを向上させたストアバッフ
ァ装置を提供することにある。

【００１１】本発明のさらに他の目的は、キャッシュの
ヒット判定をパイプライン的におこなうことで、主記憶
への書き込みピッチとキャッシュのヒット判定のピッチ
を一致させ、主記憶につながるバスを有効に使用するス
トアバッファ装置を提供することにある。

【００１２】

【課題を解決するための手段】前記目的を達成するため
に、請求項１記載の発明では、演算実行部から出力さ
れ、主記憶装置およびキャッシュメモリに書き込むスト
アアドレスとストアデータとの対を一時保持する複数エ
ントリからなる第１のバッファ手段と、該第１のバッフ
ァ手段から取り出したストアアドレスとストアデータと
の対が入力され、前記キャッシュメモリとのヒット判定
をパイプライン的に行うヒット判定手段と、該ヒット判
定の結果、キャッシュヒットと判定されたストアアドレ
スとストアデータとの対を一時保持する複数エントリか
らなる第２のバッファ手段とを備えたことを特徴として
いる。

【００１３】請求項２記載の発明では、前記第１、第２
のバッファ手段の１エントリ全てを使用しないデータ長
のストアデータを保持するために、該第１、第２のバッ
ファ手段のエントリ内で有効なデータ位置を示す情報を
記憶した手段と、前記第２のバッファ手段に入力される
第１のストアデータが、該第２のバッファ手段に既に存
在する第２のストアデータと同一エントリに併合可能で
あるか否かを判定する手段と、該手段により併合可能と
判定されたとき、該第１のストアデータを該第２のスト
アデータと併合して該同一エントリに書き込む手段と、
該書き込みに応じて、前記記憶された、第２のバッファ
手段のエントリ内で有効なデータ位置を示す情報を更新
する手段とを備えたことを特徴としている。

【００１４】請求項３記載の発明では、前記第２のバッ
ファ手段に入力される第１のストアデータが、該第２の
バッファ手段に既に存在する第２のストアデータと連結
可能であるか否かを判定する手段と、該手段により連結
可能と判定されたとき、連結する前記各ストアデータの
エントリ番号を記憶する手段と、該記憶されたエントリ
番号を基に、前記第２のバッファ手段内の複数エントリ
のストアデータを連結して前記キャッシュメモリに掃き
出す手段とを備えたことを特徴としている。

【００１５】上記したように、キャッシュのヒット判定
とキャッシュへのデータ書き込みを分離したことによ
り、後段ストアバッファへの入力と、後段ストアバッフ
ァからの出力のピッチが一致し、後段ストアバッファに
空きがなくなる状態の発生を低減することができる。ま
た、キャッシュのヒット判定を後段ストアバッファ入力
時に行い、キャッシュヒットするストア命令のみ後段ス
トアバッファに入力することで、後段ストアバッファの
使用効率を向上することができる。また、後段ストアバ
ッファの複数のエントリを同時に掃き出せるようにした
ことで、後段ストアバッファに空きがなくなる状態の発
生を低減することができる。さらに、キャッシュのヒッ
ト判定をパイプライン的に行うことで、主記憶にデータ
を書き込むピッチとキャッシュのヒット判定のピッチが
一致し、主記憶につながるバスを有効に使用することが
できる。

【００１６】

【発明の実施の形態】以下、本発明の一実施例を図面を
用いて具体的に説明する。以下の説明では、２進数を
“ ”で囲って表すことにする。図２５は、本発明の実
施対象となる情報処理装置の構成を示す。図中、７４は
ＣＰＵ、７５はストアスルー方式の２次キャッシュメモ
リ(以下、ＳＣＭと呼ぶ)、４は主記憶装置である。７１
はプログラムを実行する命令実行部、７２はＣＰＵ内蔵
の１次キャッシュメモリ(以下、ＦＣＭと呼ぶ)、７３は
ストアバッファである。６はＳＣＭのデータアレイ、７
はＳＣＭのアドレスアレイである。１０８はストアアド
レスとデータ、１０６は主記憶にデータを書き込むパス
である。１０１はＳＣＭアドレスアレイ７を参照するア
ドレス、１０２はＳＣＭアドレスアレイ７の内容、１０
４はＳＣＭストアアドレス、１０５はＳＣＭストアデー
タである。

【００１７】情報処理装置において、メモリアクセスの
高速化のためにキャッシュメモリを用いるのが一般的で
ある。ＣＰＵチップ内に設けたＦＣＭ７２は、高速に動
作するが容量を大きくするのは難しい。そこで、ＦＣＭ
７２の他に、ＣＰＵチップ外にＳＣＭ７５を設けること
がある。このＳＣＭ７５は、速度はＦＣＭ７２に劣る
が、大容量化が可能である。図２５は、ＣＰＵ７４の外
にＳＣＭ７５を設けた場合の構成例である。ＳＣＭ７５
は、データアレイ６とアドレスアレイ７からなる。デー
タアレイ６にデータを書き込み、アドレスアレイ７で内
容の管理を行う。

【００１８】ストア命令の実行は、ＦＣＭヒットならば
ＦＣＭ７２にデータを書き込み、同時にストアバッファ
７３に書き込む。ストアバッファ７３にデータが書き込
まれた段階でストア命令の実行は終了し、命令実行部７
１は次の命令の処理に移る。ストアバッファに保持され
たストア命令は、命令実行部７１の動作とは非同期に、
主記憶４とＳＣＭ７５に書き込む。ただし、ＳＣＭミス
ならば、ＳＣＭ７５には書き込まない。

【００１９】〈実施例１〉図１は、本発明の実施例１の
構成であり、ストアバッファ、ＳＣＭ、主記憶の書き込
みに関係する部分を示す。図１において、１ａは前段ス
トアバッファ、２ａは後段ストアバッファ、３はＳＣＭ
ヒット判定論理、４は主記憶、５ａはセット信号生成論
理である。本発明では、図２５のストアバッファ７３
を、前段ストアバッファ１ａと後段ストアバッファ２ａ
に分割し、前段ストアバッファ１ａと後段ストアバッフ
ァ２ａとの間にＳＣＭヒット判定論理３を設けて構成し
たものである。

【００２０】ＳＣＭヒット判定論理３は、パイプライン
遅延論理８、アドレス比較器９、ＳＣＭアドレスアレイ
７の参照アドレスを保持するラッチ９１ｄ、読み出した
アドレスアレイの内容を保持するラッチ９１ｅからな
る。パイプライン遅延論理８は、ストアアドレスとデー
タをパイプライン的に遅延させるためのラッチ９１ａ〜
ｃで構成されている。

【００２１】１０３はセット信号生成論理５ａから出力
されるセット信号、１０７はキャッシュヒット判定結果
である。１０９は前段ストアバッファ１ａから出力され
るストアアドレスとデータであり、１１０はパイプライ
ン遅延論理８で遅延されたストアアドレスとデータであ
る。１１１は、指定されたエントリを後段ストアバッフ
ァ２ａからデータアレイ６に掃きだすための掃き出し要
求である。

【００２２】図１に示す実施例１の特徴は、ストアバッ
ファが前後２段に分かれていて、前段ストアバッファ１
ａと後段ストアバッファ２ａの間のＳＣＭヒット判定論
理３内でパイプライン的にＳＣＭヒット判定を行い、Ｓ
ＣＭヒットしたストア命令のみを後段ストアバッファ２
ａに入力することにある。

【００２３】図２は、実施例１の前段ストアバッファ１
ａの構成を示す。主記憶４に書き込む順序を保障するた
め、前段ストアバッファ１ａは、先入れ先出し型(ＦＩ
ＦＯ)のバッファで構成されている。図２において、前
段ストアバッファ１ａは、本実施例では８段のエントリ
からなり、各エントリは、本実施例では３２ビットのア
ドレスフィールド５３、３２ビットのデータフィールド
５４ａからなる。５５はリードライトポインタ、１２２
はライトエントリ、１２３はリードエントリである。

【００２４】ストアアドレスとデータ１０８は、ライト
エントリ１２２が示すエントリに書き込まれ、リードエ
ントリ１２３が示すエントリのアドレスとデータをセレ
クタ６０ａで選択して、１０９に出力する。

【００２５】前段ストアバッファ１ａから出力したスト
アアドレスとデータは、主記憶４に送られ、ストアアド
レスにデータが書き込まれ、それと同時にＳＣＭヒット
判定論理３に入力される。ＳＣＭヒット判定論理３は、
パイプライン的にＳＣＭヒット判定を行う。

【００２６】なお、本実施例のＳＣＭのアドレスマッピ
ングは、例えばダイレクトマッピング法を用いる。図２
６は、ダイレクトマッピング法を説明する図である。３
２ビットのストアアドレスの内、上位の例えば１２ビッ
ト（Ａ０〜Ａ１１、タグ）が比較器の一方に入力され
る。また、例えばストアアドレスＡ１２〜Ａ２７の１６
ビット（インデックス）がアドレスアレイ７の参照アド
レスとなって１ＭブロックのＳＣＭが参照される。そし
て、下位のＡ２８〜Ａ３１の４ビットがブロック内のア
ドレスとなる。ここでは、１ブロックが１６バイトで構
成されている。

【００２７】アドレスアレイ７には上位１２ビット（タ
グ）が格納され、参照アドレスで読み出される上位１２
ビットが比較器の他方の入力となる。ストアアドレス中
のインデックスを用いてアドレスアレイ７のエントリを
指定し、該エントリのタグを読み出す。ストアアドレス
中のタグとアドレスアレイ７のタグが比較され（このと
き、タグに付けられている有効ビットもチェックされ
る）、一致したとき、１ブロックまたは、ストアアドレ
ス中のブロック内アドレスで指定された１バイトが読み
出される。また、タグが一致しないときは、主記憶をア
クセスする。

【００２８】図３は、ＳＣＭヒット判定論理３の動作例
を示す。ラッチ９１ａ〜ｃで構成されたパイプライン遅
延論理８で、ストアアドレスとデータをパイプライン的
に遅延する。また、ラッチ９１ｄは、アドレスアレイ７
の参照アドレス（つまり、上記したインデックス）を保
持する。ＳＣＭの一実施例として、図３に示すように、
アドレスアレイ参照アドレスを与えてから、３サイクル
後にアドレスアレイ７の内容（つまり、上記したタグ）
が読み出されるＳＣＭを考える。このＳＣＭは、２サイ
クルピッチでアドレスを与えることで連続してデータの
読み出しが可能なラッチ付きスタチックラム(Ｌａｔｃ
ｈｅｄＳＲＡＭ)で構成されているものとする。アド
レスアレイ７の内容がラッチ９１eに読み出されるま
で、ストアアドレスはラッチ９１ａ〜ｂで遅延する。ラ
ッチ９１ｂのストアアドレス（タグ）とラッチ９１ｅの
アドレスアレイ７の内容（タグ）をアドレス比較器９で
比較し、ＳＣＭヒット判定を行う。ＳＣＭヒット判定結
果１０７は、ＳＣＭヒット：“１” ＳＣＭミス：“０” の値になる。ＳＣＭヒット判定結果１０７＝“１”(Ｓ
ＣＭヒット)ならば、セット信号生成論理５ａで後段ス
トアバッファ２ａのセット信号１０３を生成する。

【００２９】このように、本発明ではＳＣＭヒット判定
をパイプライン的に行っているので、アドレスアレイ７
からアドレスアレイの内容１０２が出力されると、直ち
に前段ストアバッファ１ａから次のストア命令をＳＣＭ
ヒット判定論理３に投入することができ、この結果、従
来のものに比べてキャッシュのビジー率が低下する。

【００３０】図４は、セット信号１０３を生成するセッ
ト信号生成論理５ａの構成を示す図である。５１は後段
ストアバッファ２ａのライトポインタ用ラッチ、５２は
更新論理である。ラッチ５１は０から７の値を取り、更
新論理５２はラッチ５１の値を＋１する。なお、ラッチ
５１の値が７のとき、更新論理５２は０を出力する。６
９はデコーダで、ラッチ５１の値により以下の値を出力
する。

【００３１】１０３は、後段ストアバッファ２ａに入力するセット信
号である。セット信号１０３は、本実施例では後段スト
アバッファ２ａが８段エントリであるので８ビットで構
成され，“１”が立っている後段ストアバッファ２ａの
エントリにストアアドレスとストアデータ、および有効
ビットが入力される。つまり、セット信号１０３の０ビ
ット目は０番エントリに入力することを示し、以下順
に、７ビット目が７番エントリに入力することを示す。
例えば、３番エントリに入力するセット信号１０３は、
“０００１００００”になる。セット信号１０３がオー
ル“０”のときは、後段ストアバッファ２ａのどのエン
トリにも入力されない。このセット信号１０３は、以下
のように生成される。

【００３２】（１）ＳＣＭヒット判定結果１０７＝
“１”（ＳＣＭヒット）のとき、セレクタは更新論理５
２を選択し、従ってセット信号１０３としてデコーダ６
９の出力がアンドゲートを介して出力される。また、ラ
ッチ５１の値は更新論理５２により更新される。

【００３３】（２）ＳＣＭヒット判定結果１０７＝
“０”（ＳＣＭミス）のとき、セレクタは“０”を選択
し、従ってセット信号１０３としてオール“０”が出力
され、ラッチ５１の値は更新されない。

【００３４】図５は、前段ストアバッファ１ａ内のリー
ドライトポインタ５５の構成を示す図である。５６ａは
ライトポインタ用ラッチ、５６ｂはリードポインタ用ラ
ッチ、５２は前述した更新論理、６９は前述したデコー
ダである。１２８は命令実行部からのライト要求信号、
１２９は命令実行部からのリード要求信号である。

【００３５】本実施例では前段ストアバッファ１ａが８
段のエントリからなるので、ライトポインタ用ラッチ５
６ａ、リードポインタ用ラッチ５６ｂともに０から７の
値をとる。ライト要求信号１２８が“１”になるたび
に、前段ストアバッファ１ａにストアアドレス、データ
が書き込まれ、ライトポインタ用ラッチ５６ａは次の値
を示すように更新される。また、リード要求信号１２９
が“１”になるたびに、前段ストアバッファ１ａからス
トアアドレス、データが掃き出され、リードポインタ用
ラッチ５６ｂは次の値を示すように更新される。なお、
更新論理５２は、ライトポインタ用ラッチ５６ａ、ある
いは、リードポインタ用ラッチ５６ｂの値が７のときは
０を出力する。

【００３６】図６は、実施例１の後段ストアバッファ２
ａの構成を示す図である。図６において、本実施例では
後段ストアバッファ２ａは、８段のエントリからなり、
各エントリは、本実施例では３０ビットのアドレスフィ
ールド５７ａ、３２ビットのデータフィールド５８a、
１ビットの有効ビット５９からなる。

【００３７】アドレスフィールドが前段ストアバッファ
１ａと同じ３２ビット構成でないのは、本実施例ではデ
ータフィールド５８ａが３２ビット構成（４バイト）で
あり、かつ、アライン（アドレス調整）されているの
で、ストアアドレスの下位２ビット（３０、３１ビット
目）はＳＣＭ書き込み時に使用しないためである。つま
り、データアレイの１ブロックが４バイト構成されてい
る。

【００３８】６１は後段ストアバッファ２ａのリードポ
インタ、６２はリードポインタ用ラッチ、５２は前述し
た更新論理、６９は前述したデコーダである。ラッチ６
２は０から７の値をとり、更新論理５２はラッチ６２の
値を＋１する。なお、ラッチ６２の値が７のとき、更新
論理５２は０を出力する。

【００３９】１０３は前述したセット信号生成論理５ａ
からのセット信号、１１１は命令実行部からの掃き出し
要求信号、１０４はＳＣＭデータアレイの書き込みアド
レス、１０５はＳＣＭデータアレイの書き込みデータで
ある。

【００４０】パイプライン遅延論理３で遅延したストア
アドレスとデータは、信号線１１０から入力され、スト
アアドレスはアドレスフィールド５７ａ内のセット信号
１０３で示すエントリに入力され、データはデータフィ
ールド５８ａ内のセット信号１０３で示すエントリに入
力される。同時に、当該エントリの有効ビット５９を
“１”にセットする。セット信号１０３がオール“０”
ならば、どのエントリにもストアアドレスとデータは入
力しない。このとき、有効ビット５９は変化しない。す
なわち、ＳＣＭミスになるストア命令は、後段ストアバ
ッファ２ａには入力されない。

【００４１】一方、後段ストアバッファ２ａからＳＣＭ
への掃き出しは、掃き出しエントリ３０６の示すエント
リから行われる。掃き出しエントリ３０６は、本実施例
では前段ストアバッファ２ａが８段のエントリから構成
されているので、８ビットで構成される。掃き出しエン
トリ３０６の１ビット目は１番エントリを掃き出すこと
を示し、以下順に、７ビット目が７番エントリから掃き
出すことを示す。例えば、０番エントリを掃き出す掃き
出しエントリ３０６の値は“１０００００００”にな
る。掃き出しエントリ３０６は、以下のように生成され
る。

【００４２】（１）デコーダ６９の出力＝“１” かつ、有効ビット５９＝“１”（有効）、かつ、掃き出し要求１１１＝“１”（有効）、ならば、掃き出しエントリ３０６の該当ビット＝“１” （２）上記以外掃き出しエントリ３０６の該当ビット＝“０” セレクタ６０ｃは、掃き出しエントリ３０６が示すエン
トリのアドレスフィールド５７ａからストアアドレスを
選択して信号線１０４に出力し、データフィールド５８
ａからデータを選択して信号線１０５に出力する。掃き
出しエントリ３０６がオール“０”ならばどのエントリ
も出力しない。ストアアドレスとデータの掃き出しと同
時に、掃き出したエントリの有効ビット５９をリセット
する。さらに、ラッチ６２の値は更新論理５２により更
新する。

【００４３】掃き出し要求１１１は、後段ストアバッフ
ァａにストア命令があり、かつ、ＳＣＭが動作していな
いときに、ＳＣＭコントローラ（図１には記載さていな
い）から出力する。このＳＣＭコントローラは公知技術
で実現可能である。

【００４４】図７は、図１の実施例１において、連続し
てストア命令を処理するときのタイムチャートを示す。
本実施例１では、ストア命令は、Ｓｔｏｒｅ−１からＳ
ｔｏｒｅ−３まで３命令を連続して前段ストアバッファ
１ａから掃き出す場合を例にしている。そして、Ｓｔｏ
ｒｅ−１、３はＳＣＭヒットし、Ｓｔｏｒｅ−２はＳＣ
Ｍミスしたものとする。また、本実施例では信号線１０
６は、２サイクルピッチで主記憶へのストア命令を受け
付け可能であるものとする。

【００４５】以下、実施例１の動作を説明すると、主記
憶に書き込むのと同じピッチで、ラッチ９１ａにストア
アドレスとデータが入力され、ラッチ９１ｄにアドレス
アレイの参照アドレス（ストアアドレス中のインデック
ス）が入力される。インデックスで指定されたアドレス
アレイ７の内容（つまり、タグ）は、３サイクル後にラ
ッチ９１ｅに読み出される。すなわち、ラッチ９１ｅの
値は２サイクルピッチで変化する。

【００４６】ラッチ９１ｅのアドレスアレイの内容（タ
グ）とラッチ９１ｃの遅延したストアアドレス中のタグ
をアドレス比較器９で比較して、ＳＣＭヒット判定結果
１０７が生成される。その結果、セット信号１０３、ラ
ッチ５５の値は以下のように変化する。

【００４７】Ｓｔｏｒｅ−１ＳＣＭヒット：セット信号１０３＝“１０００００００”：ラッチ５５＝１Ｓｔｏｒｅ−２ＳＣＭミス：セット信号１０３＝“００００００００”：ラッチ５５＝１Ｓｔｏｒｅ−３ＳＣＭヒット：セット信号１０３＝“０１００００００”：ラッチ５５＝２従って、Ｓｔｏｒｅ−１のストアアドレスとデータは、
セット信号１０３が指示する後段ストアバッファ２ａ内
の、０番目のエントリのアドレスフィールド５７ａ、デ
ータフィールド５８ａにそれぞれ保持され（また、同時
に有効ビット５９もセットされる）、同様に、Ｓｔｏｒ
ｅ−３のストアアドレスとデータは、後段ストアバッフ
ァ２ａ内の１番目のエントリに保持され、ラッチ５５の
値は２になる。

【００４８】後段ストアバッファ２ａに保持されている
ストア命令は、命令実行部からの掃き出し要求１１１に
よって、後段ストアバッファ２ａからＳＣＭのデータア
レイ６に書き込まれる。すなわち、リードポインタ６１
によって指定されたエントリがセレクタ６０ｃで選択さ
れる。選択されたエントリのアドレスフィールド５７ａ
がデータアレイ書き込みアドレスとなってデータアレイ
６をアクセスする。ここで、データアレイ書き込みアド
レスは、下位２ビットを除く上位３０ビットであり、該
アドレスで指定されたブロック内に、先のリードポイン
タ６１で指定されたエントリのデータ（３２ビット）が
書き込まれる。なお、図１のＳＣＭは、図２６のキャッ
シュメモリと異なり、アドレスアレイ７とデータアレイ
６に分離しているので、データアレイ６にはアドレスが
割り付けられている。

【００４９】〈実施例２〉次に、実施例２について説明
する。通常、整数型のデータは４バイト（３２ビット）
幅であることが多いが、浮動小数点データは、倍精度で
あると８バイト（６４ビット）の幅が必要である。浮動
小数点データを１エントリに格納できるように、データ
フィールドの幅を８バイトにすると、整数型のデータを
格納する際に空きができて無駄が生じる。

【００５０】そこで、データフィールドの幅を８バイト
にし、さらに、同じエントリを使用するストア命令は、
併合して１つのエントリを使用するようにすれば、浮動
小数点データを１エントリに格納できるうえに、整数型
のデータを格納する際の無駄が生じない。同じエントリ
を使用するストア命令を併合して１つのエントリを使用
することを、本実施例ではデータの併合と呼ぶことにす
る。そして、データの併合は、後段ストアバッファに対
して行う。つまり、既に後段ストアバッファに存在する
ストアデータと、後段ストアバッファに入力されるスト
アデータが同一エントリに併合可能であるとき、データ
の併合を行う。

【００５１】データが併合可能か否かは、データフィー
ルドが８バイトであるから、下位３ビットを除く、スト
アアドレスの上位２９ビット（０〜２８ビット）を比較
することによって同一のエントリであるか否かが判明す
る。ストアアドレスの比較の結果、データ併合が可能な
らば、既存のデータフィールドに新しいストアデータを
書き込む。ただし、主記憶４に書き込む順番を保障する
目的を持つ前段ストアバッファ１ｂは、データフィール
ドの幅を８バイトにしてもデータの併合を行わない。

【００５２】データフィールドの幅を８バイトに拡張し
たので、データフィールド内のどこに有効なデータが存
在するかを表す情報を記憶しておく必要が生じる。そこ
で、有効なデータが存在するバイト位置を表す情報をデ
ータフィールドの各エントリ毎に設ける。これをバイト
マスクと呼ぶ。

【００５３】バイトマスクの値は， “１”：有効なデータが存在する “０”：有効なデータが存在しないである。例えば、０バイト目から３バイト目まで有効な
データが存在する場合のバイトマスクは、“１１１１０
０００”となる。

【００５４】図８は、本発明の実施例２の構成を示す。
実施例１の構成に、前段バイトマスクバッファ１１、後
段バイトマスクバッファ１２、バイトマスク遅延論理１
３、バイトマスク更新論理１４、アドレス一致検出論理
１５ａを付加して構成されている。

【００５５】図９は、実施例２の前段ストアバッファ１
ｂの構成を示す図である。主記憶４に書き込む順序を保
障するため、前段ストアバッファ１ｂは先入れ先出し型
（ＦＩＦＯ）のバッファで構成され、本実施例では８段
のエントリを持つ。そして、データフィールド５４ｂ
は、本実施例では８バイト（６４ビット）幅である。信
号線１２２と信号線１２３は，前段バイトマスクバッフ
ァ１１の書き込み、あるいは掃き出しに使用する。ま
た、信号線１２８、１２９は、命令実行部からのライト
要求、リード要求である。リードライトポインタ５５、
セレクタ６０ｂは、実施例１で説明したものと同様の機
能を持つ。

【００５６】図１０は、前段バイトマスクバッファ１１
の構成を示す図である。データフィールド５４ｂは、本
実施例では１エントリ８バイト構成であるので、バイト
マスクの１エントリは８ビットで構成される。そして、
前段ストアバッファ１ｂと同じ８段のエントリを持つ。
信号線１１２から入力されたバイトマスクは、ライトエ
ントリ１２２の示すエントリに入力される。掃き出し
は、前段ストアバッファ１ｂの掃き出しと同時に、セレ
クタ６０ｆでリードエントリ１２３の示すエントリのバ
イトマスクを選択する。

【００５７】前段バイトマスクバッファ１１から掃き出
したバイトマスク１１３は、バイトマスク遅延論理１３
でＳＣＭヒット判定が終わるまで遅延させ、バイトマス
ク更新論理１４を通過した後、後段バイトマスクバッフ
ァ１２に入力される。

【００５８】図１１は、バイトマスク更新論理１４の構
成を示す図である。１１４はバイトマスク遅延論理１３
で遅延させたバイトマスク、１１６−０〜７は、後段バ
イトマスクバッファ１２に保持されたバイトマスクで、
１１６−０は０番エントリのバイトマスク、以下順に、
１１６−７が７番エントリのバイトマスクである。１１
５−０〜１１５−７は後段バイトマスク１２の入力であ
る。１１５−０は０番エントリの入力であり、以下順
に、１１５−７が７番エントリの入力である。１２１は
データ併合の有無を示す信号で、 “０”：併合なし、 “１”：併合あり、を表す。

【００５９】データ併合の有無に応じて、後段バイトマ
スクバッファ１２の入力１１５−０〜７を以下のように
生成する。すなわち、（１）信号線１２１＝“０”（データ併合なし）後段バイトマスク１２の入力＝ストアデータのバイトマ
スク１１４（２）信号線１２１＝“１”（データ併合あり）後段バイトマスク１２の入力＝ストアデータのバイトマ
スク１１４ｏｒ（論理和）既存のバイトマスク１１６
−０〜７図１２は、後段バイトマスクバッファ１２の構成を示す
図である。後段バイトマスクバッファ１２は、本実施例
では、８エントリで構成され、各エントリは８ビット
で，データフィールド５８ｂ内の有効なデータが存在す
るバイト位置を示す。１１５−０〜７は各エントリの入
力であり、１１６−０〜７は各エントリの出力である。
前段バイトマスクバッファ１１と違い、入力は共通では
なく各エントリ毎に個別になっている。そして、セット
信号１０３の示すエントリのバイトマスクのみが書き込
まれ、その他のエントリのバイトマスクは変化しない。

【００６０】図１３は、実施例２の後段ストアバッファ
２ｂの構成を示す図である。各エントリは本実施例２で
は、２９ビットのアドレスフィールド５７ｂ、６４ビッ
ト（８バイト）のデータフィールド５８ｂ、１ビットの
有効ビット５９からなる。アドレスフィールドが３２ビ
ット構成でないのは、データフィールド５８ｂが６４ビ
ット構成であるので、つまり、ＳＣＭデータアレイの１
ブロックが６４ビット（８バイト）であり、ブロックエ
ントリがストアアドレスの上位２９ビットで指定され、
下位３ビット（２９〜３１ビット目）がＳＣＭデータア
レイの書き込み時に使用されないからである。

【００６１】６０ｄは、アドレスフィールド５７ｂ、デ
ータフィールド５８ｂから掃き出すエントリを選択する
セレクタ、６３ａは、有効なデータが存在するバイト位
置のストアデータを取り出すバイトセレクタである。

【００６２】１０３はセット信号、１０４はデータアレ
イ書き込みアドレス、１０５は書き込みデータである。
１１０はパイプライン遅延論理３で遅延したストアアド
レスとデータ、１１４はバイトマスク遅延論理１４の出
力、１１１は掃き出し要求である。１１６−０〜７は後
段バイトマスクバッファ１２の内容である。１１９−０
〜９はアドレスフィールド５７ｂの内容である。１２４
−０〜７は有効ビット５９の値である。

【００６３】データフィールド５８ｂは、バイト毎にス
トアデータをセット可能なように構成され、データフィ
ールド５８ｂのセット信号３０７−０〜７は、セット信
号３０７−０が０バイト目のセット信号であり、以下順
に、セット信号３０７−７が７バイト目のセット信号で
ある。

【００６４】パイプライン遅延論理３で遅延されたスト
アアドレスとデータは、信号線１１０から入力され、ス
トアアドレスはセット信号１０３で示すアドレスフィー
ルド５７ｂのエントリに入力され、データはセット信号
３０７−０〜７で示すデータフィールド５８ｂのエント
リのバイト位置に入力される。ストアアドレスとデータ
が入力されると同時に、当該エントリの有効ビット５９
が“１”にセットされる。セット信号１０３がオール
“０”ならば、どのエントリにもストアアドレスとデー
タは保持されず破棄される。このとき、有効ビット５９
は変化しない。すなわち、ＳＣＭミスになるストア命令
は、後段ストアバッファ２ｂに入力されない。

【００６５】一方、後段ストアバッファ２ｂからの掃き
出しは、掃き出しエントリ３０６が示すエントリからお
こなわれる。セレクタ６０ｄは掃き出しエントリ３０６
を基に、アドレスフィールド５７ｂからストアアドレス
を選択して信号線１０４に出力し、データフィールド５
８ｂからデータを選択して信号線３０１に出力する。ス
トアアドレスとデータの掃き出しと同時に、掃き出した
エントリの有効ビット５９をリセットする。さらに、ラ
ッチ６２の値は更新論理５２により更新する。バイトセ
レクタ６３ａは、有効なストアデータを取り出し信号線
１０５に出力する。

【００６６】掃き出し要求信号１１１は、後段ストアバ
ッファ２ｂにストア命令があり、かつ、ＳＣＭが動作し
ていないときに、前述の公知技術であるＳＣＭコントロ
ーラ（図８には示されていない）から出力する。

【００６７】図１４は、バイトセレクタ６３ａの構成を
示す図である。６０ｇは掃き出しエントリ３０６を基
に、後段バイトマスクバッファの内容１１６−０〜７か
ら掃き出すエントリのバイトマスク３０８を取り出すセ
レクタである。このバイトマスク３０８を基にセレクタ
６０ｈは、ストアデータ３０１から有効なデータを取り
出す。

【００６８】図１５は、データの併合を検査するための
アドレス一致検出論理１５ａの構成を示す図である。６
４−０〜７は、２９ビットのアドレス比較器である。１
１７は後段ストアバッファ２ｂに入力可能なストアデー
タのストアアドレス、１１９−０〜７は、後段ストアバ
ッファ２ｂに既に存在するストアデータのアドレスフィ
ールド５７ｂの内容、１２４−０〜７は有効ビット５９
の内容である。

【００６９】２９ビットのストアアドレス１１７が、各
アドレス比較器６４−０〜７の一方に入力され、各アド
レス比較器６４−０〜７の他方にはそれぞれアドレスフ
ィールド５７ｂの内容Ａ０〜Ａ７が１１９−０〜７とし
て入力され、ストアアドレス１１７を持つストアデータ
が、後段ストアバッファ２ｂに既に存在するどのストア
データと併合が可能であるか否かを調べる。１１８−０
〜７は、アドレスが一致しデータ併合可能なことを示
す。つまり、１１８−０は、ストアアドレス１１７を持
つストアデータが、後段ストアバッファ２ｂの０番エン
トリのデータと併合可能であることを示し、以下順に、
１１８−７は７番エントリとデータ併合可能であること
を示す。

【００７０】ただし、アドレス比較器６４−０〜７は、
ｅｎａｂｌｅ（有効ビット５９）が“１”（有効）であ
るとき、ストアアドレス１１７の０〜２８ビットと、ア
ドレスフィールド５７ｂの内容１１９−０〜７をそれぞ
れ比較する。そして、アドレスが一致したならば、
“１”を出力し、不一致ならば“０”を出力する。ｅｎ
ａｂｌｅ（有効ビット５９）が“０”（無効）であると
きは“０”を出力する。

【００７１】図１６は、実施例２のセット信号生成論理
５ｂの構成を示す図である。１２１は、図１５のデータ
併合可能なことを示す信号１１８−０〜７をＯＲゲート
２０１を介した信号であり、“１”のときデータ併合が
あり、“０”のときデータ併合がないことを示す。

【００７２】セット信号生成論理５ｂは、条件により以
下のように動作する。すなわち、（１）信号線１０７＝“１”（ＳＣＭヒット）、かつ、信号線１２１＝“０”(データ併合なし）ならば、アンドゲート２０２の出力“１”によって、セレクタ２
０３は更新論理５２側の出力を選択する。ラッチ５１の
値がデコーダ６９で出力され、アンドゲート２０４、オ
アゲート２０５を介して信号１０３に出力される。この
場合はデータの併合がないので、実施例１と同様に、信
号１０３で指示された後段ストアバッファ２ｂのエント
リに入力される。また、この入力時に、前段バイトマス
クバッファ１１からのバイトマスク１１４が後段ストア
バッファ２ｂにアンドゲート４０１を介して入力される
ので、そのバイトマスク１１４で指示されたバイト位置
に入力される。また、ラッチ５１の値は更新論理５２に
より更新される。

【００７３】（２）信号線１０７＝“１”（ＳＣＭヒット）、かつ、信号線１２１＝“１”(データ併合あり）ならば、アンドゲート２０２の出力は“０”となり、セレクタ２
０３は“０”を選択し、デコーダ６９はオール“０”と
なる。また、アンドゲート２０４の出力が“０”とな
る。従って、信号１０３としては、エントリ番号を示す
信号１１８−０〜７がオアゲート２０５を介して出力さ
れる。

【００７４】エントリ番号を示す信号１０３は、図１３
の後段ストアバッファ２ｂに入力され、これと同時にス
トアデータのバイトマスク１１４が入力される。これに
より、併合されるストアデータは、信号１０３で指示さ
れたエントリ中の、バイトマスク１１４で指示されたバ
イト位置のデータフィールド５８ｂに入力される。

【００７５】なお、併合時に、入力ストアデータが、後
段ストアバッファ２ｂに存在する併合相手のストアデー
タと同じバイト位置に書き込まれ、つまり上書きされる
こともあるが、同一エントリに対するストア命令が連続
したとき、最後のストア命令が後段ストアバッファ２ｂ
に保持され、その後、ＳＣＭに最新のデータが掃きださ
れればよいので、何ら問題ではない。

【００７６】（３）信号線１０７＝“０”（ＳＣＭミス）ならば、アンドゲート２０２の出力は“０”となり、セレクタ２
０３は“０”を選択し、デコーダ６９はオール“０”と
なる。従って、信号線１０３はオール“０”、ラッチ５
１の値は更新されない。

【００７７】〈実施例３〉次に実施例３について説明す
る。ＳＣＭへの書き込みデータ幅を広くすれば、データ
書き込みの効率はよくなる。そこで、本実施例ではＳＣ
Ｍへの書き込みデータ幅を２倍の１２８ビット（１６バ
イト）に広げ、後段ストアバッファの２エントリを連結
して掃き出すようにする。連結可能であるか否かは（つ
まり、２エントリのアドレスが連続しているか否か
は）、書き込みデータ幅が１６バイトであるから、スト
アアドレスの上位２８ビット（０〜２７ビット目）を比
較すれば判明する。

【００７８】図１７は、本発明の実施例３の構成を示し
た図である。２ｃは後段ストアバッファであり、１５ｂ
はアドレス一致検出論理である。１６は連結エントリバ
ッファである。連結エントリバッファ１６は、後段スト
アバッファ２ｃの複数のエントリを連結して掃き出すと
き、どのエントリと連結するかを示す。

【００７９】実施例３の特徴は、２エントリを連結して
同時に後段ストアバッファ２ｃから掃き出す制御方法に
ある。まず、どのエントリと連結可能であるかを示す連
結エントリバッファ１６を持つ。また、ストアアドレス
を比較して連結可能なエントリを判定するアドレス一致
検出論理１５ｂを持つ。さらに、任意の２エントリを同
時に掃き出し可能な後段ストアバッファ２ｃを持つ。

【００８０】図１８は、連結エントリバッファ１６の構
成を示す図である。連結エントリバッファ１６は、後段
ストアバッファ２ｃと同じ数のエントリを持ち、本実施
例では８段のエントリから構成され、各エントリは８ビ
ットの連結エントリフィールドＭＥｎからなる。

【００８１】連結エントリフィールドＭＥｎは、ｎ番エ
ントリと連結可能なエントリを示し、０ビット目が０番
エントリと連結可能であることを示し、以下順に、７ビ
ット目が７番エントリと連結可能であることを示す。

【００８２】例えば、１番エントリと３番エントリが連
結可能ならば、連結エントリフィールドＭＥ１には、３
番エントリと連結可能であることを示す、ＭＥ１＝
“０００１００００”が格納され、連結エントリフィー
ルドＭＥ３には、１番エントリと連結可能であることを
示す、ＭＥ３＝“０１００００００”が格納される。
また、どのエントリとも連結できないときは、ＭＥｎ＝
オール“０”になる。１２５−０〜７は、アドレス一致
検出論理１５ｂの出力であり、連結可能な既存のエント
リを示し、１２５−０は０番エントリと連結可能を示
し、以下順に、１２５−７が７番エントリと連結可能を
示す。

【００８３】図１８中の表は、入力Ａ（信号１０３）、
Ｂ（信号１２５−０〜７）による出力Ｏの値を示す。例
えば、ＡＢ＝“００”のとき、Ｏ＝０になり、ＡＢ＝
“０１”のとき、Ｏ＝１になる。Ｏ＝０、１、２に応じ
て、セレクタ５０１は入力“０”、入力“１”（１０
３）、入力“２”（１２５−０〜７）を選択する。

【００８４】１０３（０）は、信号線１０３の０ビット
目を表し、以下順に、（７）は７ビット目を表す。信号
線１０３は、セット信号生成論理５ｂ（図１７）から出
力されるもので、前述した実施例２と同様に（図１
６）、後段ストアバッファ２ｃに入力されるストアデー
タのエントリの番号が出力される。例えば、信号線１０
３の０ビット目が“１”であるときは、入力ストアデー
タは、データフィールド５８ｂの０番エントリに入力さ
れる。

【００８５】ＭＥｎの値は、上記したセット信号１０
３、信号線１２５−０〜７の値により以下のようにセッ
トされる。なお、！＝は等しくないことを表す。（１）信号線１０３＝オール“０”（つまり、後段スト
アバッファに入力がない）このとき、信号線１２５−０〜７＝オール“０”、すな
わち、ＡＢ＝“００”によって、Ｏ＝“０”となり、Ｍ
Ｅｎは過去の値を保持する。（２）信号線１０３！＝オール“０”かつ、信号線１２
５−０〜７＝オール“０”（つまり、後段ストアバッフ
ァに入力があり、連結エントリがない場合) （ａ）信号線１０３＝“１”のエントリは、ＡＢ＝“１
０”であるから、Ｏ＝２となり、セレクタ５０１は、信
号線１２５−０〜７の値を選択し、従って、ＭＥｎ＝オ
ール“０”となる。（ｂ）信号線１０３＝“０”のエントリは、ＡＢ＝“０
０”であるから、Ｏ＝０となり、セレクタ５０１は、
“０”を選択し、ＭＥｎは過去の値を保持する。（３）信号線１０３!＝オール“０”、かつ、信号線１
２５−０〜７！＝オール“０”（つまり、後段ストアバ
ッファに入力があり、連結エントリがある場合）（ａ）信号線１０３＝“１”のエントリは、ＡＢ＝“１
０”であるから、Ｏ＝２となり、セレクタ５０１は、信
号線１２５−０〜７の値を選択し、従って、ＭＥｎは連
結エントリを保持する。例えば、信号線１０３(０)＝
“１”、つまり０番エントリが“１”であるとき、ＭＥ
０が選択されて、例えば信号線１２５−１が“１”（つ
まり、連結可能なエントリが１番エントリ）であれば、
ＭＥ０には、ＭＥ０＝“０１００００００”がセットさ
れる。（ｂ）信号線１０３＝“０”かつ、信号線１２５−０〜
７＝“０”のエントリは、ＡＢ＝“００”であるから、
Ｏ＝０となり、セレクタ５０１は、“０”を選択し、Ｍ
Ｅｎは過去の値を保持する。（ｃ）信号線１０３＝“０”かつ、信号線１２５−０〜
７！＝“０”のエントリは、ＡＢ＝“０１”であるか
ら、Ｏ＝１となり、セレクタ５０１は、セット信号１０
３−０〜７を選択し、ＭＥｎにセット信号１０３−０〜
７を保持する。上記した（３）の（ａ）の例では、信号
線１２５−１＝“１”であるので、１番エントリのＭＥ
１が選択され、ＭＥ１にセット信号１０３（０）、つま
り０番エントリがセットされ、ＭＥ１＝“１０００００
００”となる。

【００８６】この結果、上記した例では、連結エントリ
バッファ１６には、ＭＥ０＝“０１００００００” ＭＥ１＝“１０００００００” がセットされ、０番エントリと１番エントリが連結可能
であることが示される。

【００８７】図１９は、実施例３のアドレス一致検出論
理１５ｂの構成を示す図である。データ併合が可能であ
るか否かはストアアドレスの上位２９ビットを比較すれ
ばよい。また、データ書き込み幅が本実施例では１２８
ビット（１６バイト）であるので、連結可能であるか否
かはストアアドレスの上位２８ビットを比較すればよ
い。

【００８８】６４−０〜７は、データ併合が可能である
か否かを判定する２９ビットのアドレス比較器、６５−
０〜７は、連結可能であるか否かを判定する２８ビット
のアドレス比較器である。１１７はストアアドレス、１
１９−０〜７は、アドレスフィールド５７ｂの内容、１
２４−０〜７は有効ビット５９の内容である。１１８−
０〜７は、アドレスが一致しデータ併合が可能なエント
リを示す。１２５−０〜７は、アドレスが一致し連結可
能なエントリを示す。

【００８９】アドレス比較器６４−０〜７は、ｅｎａｂ
ｌｅ（１２４−０〜７）が“１”（有効）であるとき、
ストアアドレス１１７の０〜２８ビットと、アドレスフ
ィールド５７ｂの内容１１９−０〜７をそれぞれ比較す
る。アドレスが一致したならば、“１”を出力し、不一
致ならば“０”を出力する。ｅｎａｂｌｅが“０”（無
効）の時は“０”を出力する。

【００９０】同様に、アドレス比較器６５−０〜７は、
ｅｎａｂｌｅ（１２４−０〜７）が“１”（有効）であ
るとき、ストアアドレス１１７の０〜２７ビットと、ア
ドレスフィールド５７ｂの内容１１９-０〜７の０〜２
７ビットをそれぞれ比較する。アドレスが一致したなら
ば、“１”、不一致ならば“１”を出力する。ｅｎａｂ
ｌｅが“０”（無効）の時は“０”を出力する。

【００９１】図２０は、実施例３の後段ストアバッファ
２ｃの構成を示す図である。実施例２の構成にさらに、
データセレクタ６８と、バイトセレクタ６３ｂを付加し
て構成されている。データセレクタ６８への入力１０４
（２８）は、信号線１０４（ＳＣＭストアアドレス）の
２８ビット目を表す。

【００９２】図２１は、データセレクタ６８の構成を示
す図である。６０ｋ、６０ｌは、データフィールド５８
ｂの出力３０５を選択するセレクタであり、６０ｍは連
結エントリのセレクタであり、６７はリードポインタ入
れ換え論理である。１０４（２８）はストアアドレス１
０４の２８ビット目の値（“１”または“０”）であ
る。３０２−０〜１は選択されたストアデータ、３０３
−０〜１は、データセレクタ６８内のリードポインタで
あり、３０３−０が下位側のリードポインタ、３０３−
１が上位側のリードポインタである。

【００９３】同時に２つのエントリを掃き出し可能なよ
うに、データセレクタは２個設けられている。すなわ
ち、データセレクタ６０ｋは下位アドレスのデータを選
択し、データセレクタ６０ｌは上位アドレスのデータを
選択する。

【００９４】同時に掃き出すエントリは、掃き出しエン
トリ３０６が示すエントリ（これは掃き出し要求１１１
によって決まる）と、そのエントリ３０６と連結可能な
エントリである。セレクタ６０ｍは、掃き出しエントリ
３０６の値を基に信号線１２６−０〜７を選択して、当
該エントリと連結可能なエントリ番号を出力する。つま
り、掃き出しエントリ３０６の値を持つ連結エントリフ
ィールドＭＥｎを参照して、掃き出しエントリ３０６と
連結可能なエントリ番号を出力する。

【００９５】本実施例では、ＳＣＭのデータ書き込みパ
スは１２８ビット（１６バイト）幅であり、後段ストア
バッファ２ｃのデータフィールドが６４ビット（８バイ
ト）幅であるので、ストアアドレスによってデータをＳ
ＣＭのデータ書き込みパスの上位側アドレスに載せる場
合と、下位側アドレスに載せる場合がある。

【００９６】掃き出しエントリ３０６が示すエントリの
ストアアドレスは、図２０に示すセレクタ６０ｊによっ
て選択され、ストアアドレス１０４に出力される。この
ストアアドレス１０４の２８ビット目の信号線１０４
（２８）の値が“１”のとき、掃き出しエントリ３０６
のデータを上位側に載せる。そして、連結エントリ（信
号線１２６−０〜７）が示すエントリのデータは下位側
に載せる。

【００９７】逆に、信号線１０４（２８）の値が“０”
ならば、掃き出しエントリ３０６が示すエントリのデー
タを下位側に、連結エントリが示すエントリのデータを
上位側に載せる。

【００９８】リードポインタ入れ換え論理６７は、上記
の条件に基づいてデータセレクタ６８内のリードポイン
タ３０３−０〜１を生成する。連結エントリは、前述し
たように、セレクタ６０ｍによって掃き出しエントリ３
０６を基に、連結エントリバッファ１６の出力１２６−
０〜７を選択する。リードポインタ入れ換え論理６７の
動作は以下の通りである。

【００９９】（１）信号線１０４（２８）＝“１”のと
き（入力３０６、１２６−０〜７の“１”側の入力を選
択）リードポインタ３０３−０には、セレクタ６０ｍの出力
（連結エントリ１２６−０〜７）が選択され、セレクタ
６０ｋに出力され、リードポインタ３０３−１には、掃
き出しエントリ３０６が選択されてセレクタ６０ｌに出
力される。従って、掃き出しエントリ３０６のデータ５
８ｂがセレクタ６０ｌで選択されて上位側に置かれ、連
結エントリのデータ５８ｂがセレクタ６０ｋで選択され
て下位側に置かれ、データ３０２−０〜１となる。

【０１００】（２）信号線１０４（２８）＝“０”のと
き（入力３０６、１２６−０〜７の“０”側の入力を選
択）リードポインタ３０３−０には、掃き出しエントリ３０
６が選択されてセレクタ６０ｋに出力され、リードポイ
ンタ３０３−１には、セレクタ６０ｍの出力(連結エン
トリ)が選択されてセレクタ６０ｌに出力される。従っ
て、掃き出しエントリ３０６のデータが下位側に置か
れ、連結エントリのデータが上位側に置かれて、データ
３０２−０〜１となる。

【０１０１】図２２は、バイトセレクタ６３ｂの構成を
示す図である。６０ｒ、６０ｑは、リードポインタ３０
３−０〜１を基に、後段バイトマスクバッファの内容１
１６−０〜７から掃き出すエントリのバイトマスク３０
４−０〜１を取り出すセレクタである。６０ｎ、６０ｐ
は、バイトマスク３０４−０〜１の値を基に有効なバイ
ト位置のデータを取り出すセレクタである。

【０１０２】例えば、掃き出しエントリ３０６のデータ
５８ｂが上位側にあるときは、リードポインタ３０３−
１によってセレクタ６０ｒが働き、掃き出しエントリ３
０６に対応するバイトマスクを選択し、セレクタ６０ｐ
に出力する。セレクタ６０ｐは、掃き出しエントリ３０
６のデータ５８ｂの内、バイトマスク３０４−１で指示
された有効なバイト位置のデータを取り出し、ＳＣＭス
トアデータ１０５として出力する。

【０１０３】〈実施例４〉次に、実施例４について説明
する。キャッシュミスにより処理が止まることを回避す
る目的で、キャッシュメモリからではなく直接主記憶か
らデータを読み込み、ロードデータの到着を待たずに次
の処理に移ることができるロード命令を導入する。本実
施例では、このロード命令をｐｒｅｌｏａｄ命令と呼ぶ
ことにする。ｐｒｅｌｏａｄ命令は大量のデータを扱う
場合に有利である。

【０１０４】しかし、同じアドレスに対するストア命令
とｐｒｅｌｏａｄ命令があった場合、前のストア命令を
ｐｒｅｌｏａｄ命令が追い越してしまうと、ｐｒｅｌｏ
ａｄ命令は間違ったデータを読み込んでしまう。そこ
で、主記憶を参照する命令間の順序性を保障する必要が
ある。

【０１０５】図２３は、本発明の実施例４の構成を示す
図である。１７は本実施例によって設けられたロードス
トアバッファである。ロードストアバッファ１７は、ｐ
ｒｅｌｏａｄ命令とストア命令を保持するＦＩＦＯ型の
バッファである。

【０１０６】図２４は、ロードストアバッファの構成を
示す図である。６６は命令フィールドＯＰである。命令
フィールド６６は、当該エントリの命令がｐｒｅｌｏａ
ｄ命令かストア命令かを示す。

【０１０７】ロードストアバッファ１７は、本実施例で
は、８段のエントリからなり、各エントリは３２ビット
のアドレスフィールド、６４ビットのデータフィール
ド、命令フィールドＯＰからなる。ストアアドレスとデ
ータは信号線１０８から入力され、命令は信号線１２７
から入力され、ライトエントリ１２２の示すエントリに
書き込む。このとき、ｐｒｅｌｏａｄ命令ならば、デー
タフィールドの値は意味を持たない。一方、ロードスト
アバッファ１７からの掃き出しは、リードエントリ１２
３の示すエントリの、アドレス、データ、命令をセレク
タ６０ｅで選択する。

【０１０８】選択した命令がｐｒｅｌｏａｄ命令なら
ば、主記憶に対して該命令が出力されるだけで、パイプ
ライン遅延論理３には出力されない。ストア命令なら
ば、前述した実施例と同様に、主記憶に書き込むと同時
に、パイプライン遅延論理３に送りＳＣＭヒット判定を
行う。

【０１０９】

【発明の効果】以上、説明したように、本発明によれ
ば、ストアバッファの入力と出力のピッチを一致させる
ことができるので、ストアバッファに空きがなくなる状
態の発生を低減することができ、その結果、ＣＰＵの性
能低下を防ぐ効果がある。また、キャッシュヒットする
ストア命令のみストアバッファに入力するので、ストア
バッファを効率よく使用できる効果がある。さらに、複
数のストア命令によるデータ書き込みを同時に処理でき
るので、スループットを向上する効果がある。また、ス
トアスルー方式のキャッシュメモリを採用した場合、ス
トアバッファへの入力と主記憶への書き込みピッチが一
致するので、主記憶に繋がるバスを効率よく使用できる
効果がある。

【図面の簡単な説明】

【図１】本発明の実施例１の構成を示す図である。

【図２】実施例１の前段ストアバッファの構成を示す図
である。

【図３】ＳＣＭヒット判定論理の動作例を示す図であ
る。

【図４】実施例１のセット信号生成論理の構成を示す図
である。

【図５】リードライトポインタの構成を示す図である。

【図６】実施例１の後段ストアバッファの構成を示す図
である。

【図７】実施例１の動作例を示す図である。

【図８】本発明の実施例２の構成を示す図である。

【図９】実施例２の前段ストアバッファの構成を示す図
である。

【図１０】実施例２の前段バイトマスクバッファの構成
を示す図である。

【図１１】バイトマスク更新論理の構成を示す図であ
る。

【図１２】後段バイトマスクバッファの構成を示す図で
ある。

【図１３】実施例２の後段ストアバッファの構成を示す
図である。

【図１４】バイトセレクタの構成を示す図である。

【図１５】アドレス一致論理の構成を示す図である。

【図１６】実施例２のセット信号生成論理の構成を示す
図である。

【図１７】本発明の実施例３の構成を示す図である。

【図１８】連結エントリバッファの構成を示す図であ
る。

【図１９】実施例３のアドレス一致論理の構成を示す図
である。

【図２０】実施例３の後段ストアバッファの構成を示す
図である。

【図２１】データセレクタの構成を示す図である。

【図２２】バイトセレクタの構成を示す図である。

【図２３】本発明の実施例４の構成を示す図である。

【図２４】ロードストアバッファの構成を示す図であ
る。

【図２５】本発明の実施対象となる情報処理装置の構成
図である。

【図２６】ダイレクトマッピング法を説明する図であ
る。

【符号の説明】

１ａ〜ｂ前段ストアバッファ２ａ〜ｃ後段ストアバッファ３ＳＣＭヒット判定論理４主記憶５ａ、ｂセット信号生成論理６データアレイ７アドレスアレイ８パイプライン遅延論理９アドレス比較器１１前段バイトマスクバッファ１２後段バイトマスクバッファ１３バイトマスク遅延論理１４バイトマスク更新論理１５ａ、ｂアドレス一致検出論理１６連結エントリバッファ１７ロードストアバッファ５１後段ストアバッファライトポインタ５２更新論理５３アドレスフィールド５４ａ、ｂデータフィールド５５リードライトポインタ５６ａライトポインタ用ラッチ５６ｂリードポインタ用ラッチ５７ａ、ｂ後段ストアバッファアドレスフィールド５８ａ、ｂ後段ストアバッファデータフィールド５９有効ビット６０ａ〜ｒセレクタ６１後段ストアバッファリードポインタ６２後段ストアバッファリードポインタ用ラッチ６３ａ、ｂバイトセレクタ６４、６５アドレス比較器６６命令フィールド６７リードポインタ入れ換え論理６８データセレクタ６９デコーダ７１命令実行部７２１次キャッシュメモリ（ＦＣＭ）７３ストアバッファ７４ＣＰＵ７５２次キャッシュメモリ（ＳＣＭ）９１ａ〜ｆラッチ１０１ＳＣＭアドレスアレイ参照アドレス１０２ＳＣＭアドレスアレイの内容１０３セット信号１０４ＳＣＭストアアドレス１０５ＳＣＭストアデータ１０６主記憶書き込みアドレスとデータ１０７ＳＣＭヒット判定結果１０８ストアアドレスとデータ１０９前段ストアバッファから出力したストアアドレ
スとデータ１１０遅延したストアアドレスとデータ１１１掃き出し要求１１２前段バイトマスク入力１１３前段バイトマスク出力１１４バイトマスク遅延論理出力１１５−０〜７後段バイトマスク入力１１６−０〜７後段バイトマスク出力１１７アドレス一致入力１１８−０〜７アドレス一致出力１１９−０〜７アドレスフィールドの内容１２１データ併合の有無１２２ライトエントリ１２３リードエントリ１２４−０〜７有効ビット１２５−０〜７連結エントリ１２６−０〜７連結エントリバッファ出力１２７命令１２８ライト要求１２９リード要求３０１、３０２セレクトしたデータ３０３セレクト信号３０５データフィールド３０６掃き出しエントリ３０７データフィールドセット信号３０８選択したバイトマスク

───────────────────────────────────────────────────── フロントページの続き (72)発明者釜田栄樹神奈川県秦野市堀山下１番地株式会社日立製作所汎用コンピュータ事業部内 (72)発明者磯部敏子神奈川県秦野市堀山下１番地日立コンピュータエンジニアリング株式会社内 (72)発明者山本敬神奈川県秦野市堀山下１番地株式会社日立製作所汎用コンピュータ事業部内 (72)発明者上原克利神奈川県秦野市堀山下１番地株式会社日立製作所汎用コンピュータ事業部内

Claims

【特許請求の範囲】

【請求項１】演算実行部から出力され、主記憶装置お
よびキャッシュメモリに書き込むストアアドレスとスト
アデータとの対を一時保持する複数エントリからなる第
１のバッファ手段と、該第１のバッファ手段から取り出
したストアアドレスとストアデータとの対が入力され、
前記キャッシュメモリとのヒット判定をパイプライン的
に行うヒット判定手段と、該ヒット判定の結果、キャッ
シュヒットと判定されたストアアドレスとストアデータ
との対を一時保持する複数エントリからなる第２のバッ
ファ手段と、を備えたことを特徴とするストアバッファ
装置。
【請求項２】前記第１、第２のバッファ手段の１エン
トリ全てを使用しないデータ長のストアデータを保持す
るために、該第１、第２のバッファ手段のエントリ内で
有効なデータ位置を示す情報を記憶した手段と、前記第
２のバッファ手段に入力される第１のストアデータが、
該第２のバッファ手段に既に存在する第２のストアデー
タと同一エントリに併合可能であるか否かを判定する手
段と、該手段により併合可能と判定されたとき、該第１
のストアデータを該第２のストアデータと併合して該同
一エントリに書き込む手段と、該書き込みに応じて、前
記記憶された、第２のバッファ手段のエントリ内で有効
なデータ位置を示す情報を更新する手段と、を備えたこ
とを特徴とする請求項１記載のストアバッファ装置。
【請求項３】前記第２のバッファ手段に入力される第
１のストアデータが、該第２のバッファ手段に既に存在
する第２のストアデータと連結可能であるか否かを判定
する手段と、該手段により連結可能と判定されたとき、
連結する前記各ストアデータのエントリ番号を記憶する
手段と、該記憶されたエントリ番号を基に、前記第２の
バッファ手段内の複数エントリのストアデータを連結し
て前記キャッシュメモリに掃き出す手段と、を備えたこ
とを特徴とする請求項１記載のストアバッファ装置。