JPH10232779A

JPH10232779A - 命令並列処理方法及び装置

Info

Publication number: JPH10232779A
Application number: JP4848098A
Authority: JP
Inventors: Laurence R Simar; アール．シマーローレンス; Natarajan Seshan; セスハンナタラジャン; Reid E Tatge; イー．タトゲレイド; Alan L Davis; エル．デービスアラン
Original assignee: Texas Instruments Inc
Current assignee: Texas Instruments Inc
Priority date: 1997-01-24
Filing date: 1998-01-23
Publication date: 1998-09-02
Also published as: EP0855648A3; EP0855648A2

Abstract

(57)【要約】【課題】命令の一部を検査して、命令を並列実行する
か逐次実行するかを指定できるデータ処理システムを開
示する。【解決手段】データ処理回路１１には、１組の命令を
発生させる回路（プログラムカウンタ２１，プログラム
メモリ２３，メモリ２５）があり、各命令の１部分に、
その１組の命令の中の別の命令と、その命令とを同時に
実行できるか否かを示す指定が含まれている。プログラ
ム実行回路２９は、その１組の命令を受信し、命令の１
部分に選択的に応答して、その命令の１部分によって示
される複数の命令を同時に実行する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、一般にデータ処理
に関し、より詳細には、プログラム命令の並列実行およ
び逐次実行の両方を備えたデータ処理に関する。

【０００２】

【発明が解決しようとする課題】データ処理システムお
よびデータプロセッサは、実際上生活のあらゆる側面に
影響を与える多数の用途で使用されている。関連する処
理システムおよびデータプロセッサの速度およびスルー
プットを速くすることにより、これらの多数の用途の有
用性を向上させることができるのが普通である。

【０００３】速度およびスループットを向上させること
が可能な場合の１つの方法は、プログラム命令を逐次的
に実行するよりむしろ並列に実行することである。この
点に関する公知の方法の１つは、プログラム命令の並列
実行または逐次実行を指定する特殊なモードの命令を使
用することである。この点に関する公知の別の方法は、
並列型パケットにヌル命令を指定するためにマスクを使
用することである。この点に関する公知の別の解決方法
は、並列モードだけでデータ処理を実行することであ
る。

【０００４】前述の手法は速度およびスループットを改
善することができるが、実現することがかなり難しいた
めに望ましくない上、処理に伴うオーバーヘッドの点で
費用がかかるという欠点がある。

【０００５】したがって、上に説明した方法に付随する
実現上の困難と、処理に伴うオーバーヘッドとが減少す
るように、プログラム命令を並列で実行できるようにす
ることが望ましい。

【０００６】本発明の目的は、与えられたプログラム命
令の一部を利用して、その命令を他のプログラム命令と
同時に実行することができるか否かを決定することであ
る。

【０００７】

【課題を解決するための手段】一般に、そしてまた本発
明の形式においては、１組の命令を発生する回路をもつ
データ処理装置が用意されており、これらの命令には、
それぞれ該当する命令を、その複数の命令の中の別の命
令と同時に実行できるか否かを示す命令の１部分が含ま
れている。このデータ処理回路には、前記発生回路に接
続されていて、その１組の命令を受信すると、インジケ
ータ部に応答して複数の命令を同時に実行するプログラ
ム実行回路が含まれている。

【０００８】本発明の別の形式では、データ処理装置の
中の中央処理装置（ＣＰＵ）を動作させる方法は、それ
ぞれ該当する命令を同時に実行できるか否かを示すた
め、１組の命令にそれぞれの命令の１部分を与えるステ
ップと、その命令の１部分から複数の命令を同時に実行
できるか否かを決定するステップとから構成されてい
る。

【０００９】本発明の別の実施例は、説明および図面か
ら明らかになるであろう。

【００１０】

【発明の実施の形態】添付の図面において、異なる図面
および表における対応する番号と符号は、とくに断りの
ない限り対応する部品を示している。

【００１１】図１は、本発明によるデータ処理システム
１０のブロック図である。データ処理システム１０には
データ処理回路１１および周辺回路１３，１５，１７，
１９が含まれている。図１の代表的実施例において、デ
ータ処理回路１１は、データ処理回路１１と周辺回路１
３，１５，１７，１９との間で情報を転送するため、周
辺回路１３，１５，１７，１９のそれぞれに接続されて
いる。しかし、以下の説明から明らかになるとおり、本
発明によるデータ処理システムは、この説明の前で後で
も当業者ならば想像できるように、相互に接続されかつ
データ処理回路１１に接続されるいかなる量の、また
（たとえば周辺装置１３，１５，１７，１９など）いか
なる形式の周辺回路および周辺装置が含まれていてもよ
い。

【００１２】図２は、図１のデータ処理回路１１の１つ
の代表的実施例の一部を示している。図２において、取
り出し回路２３が、プログラムカウンタ２１によって指
定されるアドレスでメモリ２５にアクセスすると、命令
パケットがそのアドレスで命令レジスタ２７にロードさ
れる。プログラム実行回路２９は、命令レジスタ２７に
保持されているその命令パケットの中の複数の命令を復
号化して実行する。

【００１３】図３は、メモリ２５から取り出された命令
パケットの基本フォーマットを示している。開示した代
表的実施例においては、命令パケットには４個の３２ビ
ット命令Ａ，Ｂ，Ｃ，Ｄが含まれている。図３に示すよ
うに、命令Ａ，Ｂ，Ｃ，Ｄはメモリ２５の連続したアド
レスに格納されている。したがって、正常のプログラム
命令の逐次実行中、命令Ａが最初に実行され、命令Ｂ，
Ｃ，Ｄが順番に続いて実行される。

【００１４】図３の各命令のビット０はｐ- ビットと呼
ばれている。ｐ- ビットは、命令の実行方法を定義す
る。図３の命令パケットのｐ- ビットは、プログラム実
行回路２９によって左から右に検査される。ある命令の
ｐ- ビットが論理１に等しい場合、そのパケットの中の
次の順番の命令が、最初に言及した命令と同時に実行さ
れる。グラム実行回路２９は、その命令パケットの中の
ｐ- ビットが論理０に等しい命令に到達するまでこの規
則を適用する。

【００１５】ある命令のｐ- ビットが０の場合、その命
令の後に（そしてその命令と並列に実行されるすべての
命令の後に）続いて次の順番の命令が実行される。プロ
グラム実行回路２９は、命令パケットの中のｐ- ビット
が論理１の命令に到達するまでこの規則を適用する。

【００１６】図４から図１９は、上に説明したｐ- ビッ
トの規則の応用例を示している。

【００１７】図４は、すべてのｐ- ビットが０の命令パ
ケットを示している。したがって、命令Ａから命令Ｄは
図５に示すとおり、順番に連続して実行される。

【００１８】図６は、命令Ａ，Ｂ，Ｃのｐ- ビットが１
に等しく、命令Ｄのｐ- ビットが０の命令パケットを示
している。したがって、命令Ａ，Ｂ，Ｃ，Ｄは同時に実
行される。すなわち、図７に示すとおり並列で同時に実
行される。

【００１９】図８の命令においては、命令Ｃのｐ- ビッ
トだけが１にセットされているので、図９の実行順序に
なる。すなわち、命令Ａ，Ｂが逐次実行され、並列に実
行される命令Ｃ，Ｄが、その後に続いて実行される。

【００２０】図システム１０の命令パケットにおいて
は、命令Ｂのｐ- ビットだけが１にセットされているの
で、図１１の実行順序になる。すなわち、命令Ａが実行
され、それに続いて命令Ｂ，Ｃが並列に実行され、その
後に続いて命令Ｄが実行される。

【００２１】図１２の命令パケットにおいては、命令
Ｂ，Ｃのｐ- ビットが１にセットされ、命令Ａ，Ｄのｐ
- ビットはゼロである。このようになっていると、図１
３に示す命令順になる。すなわち、命令Ａが実行され、
それに続いて命令Ｂ，Ｃ，Ｄが並列に実行される。

【００２２】図システム１４の命令パケットにおいて
は、命令Ａのｐ- ビットだけが論理１にセットされてい
るので、図１５の実行順序になる。すなわち、命令Ａ，
Ｂが並列で実行され、その後に続いて命令Ｃが実行さ
れ、最後に命令Ｄが実行される。

【００２３】図１６の命令パケットにおいては、命令
Ａ，Ｃのｐ- ビットが１にセットされ、命令Ｂ，Ｄのｐ
- ビットはゼロになっているので、図１７に示す実行順
序になる。すなわち、命令Ａ，Ｂが並列に実行され、そ
れに続いて命令Ｃ，Ｄが並列に実行される。

【００２４】図１８の命令パケットにおいては、命令
Ａ，Ｂのｐ- ビットが１にセットされ、命令Ｃ，Ｄのｐ
- ビットはゼロである。このようになっていると、図１
９に示す実行順序になる。すなわち、命令Ａ，Ｂ，Ｃが
並列に実行され、その後に続いて命令Ｄが実行される。

【００２５】開示した例の中の命令パケットには、４個
のプログラム命令が含まれているので、プログラムコン
パイラは常に命令Ｄ（４番目の命令）に、０のｐ- ビッ
トを与えてもよい。コンパイラは、命令Ａ，Ｂを並列で
実行する規則（propriety ）、命令Ｂ，Ｃを並列で実行
する規則、命令Ａ，Ｂ，Ｃを並列で実行する規則に基づ
いて、命令Ａ，Ｂ，Ｃの残りのｐ- ビットの値を決定す
る。たとえば、命令Ｂの実行に、命令Ａの実行結果が必
要な場合、コンパイラは、命令Ｂが命令Ａの後に実行さ
れるように、命令Ａに０のｐ- ビットを与えるであろ。
別の例として、命令Ｂ，Ｃが同一レジスタをアクセスす
る場合、コンパイラは、命令Ｂ，Ｃが並列ではなく、逐
次的に実行されることを保証するため、命令Ｂに０のｐ
- ビットを与えるであろう。

【００２６】図２０は、本発明の一実施例を使用するマ
イクロプロセッサ１のブロック図である。マイクロプロ
セッサ１は、ＶＬＩＷディジタル信号プロセッサ（”Ｄ
ＳＰ”）である。明瞭にするため、図２０は、マイクロ
プロセッサ１の、本発明の実施例を理解するために関連
する部分だけを示している。ＤＳＰの一般的な構造の詳
細は公知であり、どこかほかでも容易に調べ出すことが
できるであろう。たとえば、Frederick Boutaud ほかに
発行された米国特許第5,072,418 号は、ＤＳＰを詳細に
説明している。ここでこの特許に言及することにより、
この特許の開示内容を本願に組み入れることにする。Ga
ry Swobodaほかに発行された米国特許第5,329,471 号
は、ＤＳＰのテストとエミュレーションの方法を詳細に
説明している。ここでこの特許に言及することにより、
この特許の開示内容を本願に組み入れることにする。マ
イクロプロセッサ技術に関する当業者が本発明を評価し
て使用できるようにするため、マイクロプロセッサ１
の、本発明に関連する部分を以下に十分詳細に説明す
る。

【００２７】マイクロプロセッサ１には、中央処理装置
（ＣＰＵ）１０、データメモリ２２、プログラムメモリ
２３、周辺回路６０およびダイレクトメモリアクセス
（ＤＭＡ）を備えた外部メモリインタフェース（ＥＭＩ
Ｆ）６１がある。さらにＣＰＵ１０には、命令取り出し
／復号化ユニット１０ａ〜１０ｃ、演算およびロード／
ストアユニットＤ１、乗算器Ｍ１、ＡＬＵ／シフターユ
ニットＳ１、演算論理ユニット（" ＡＬＵ" ）Ｌ１、デ
ータを読み出しかつデータを書き込む共用マルチポート
レジスタファイル２０ａを含む複数の実行ユニットがあ
る。復号化された命令は、示されていないいろいろな制
御ラインの組を介して、命令取り出し／復号化ユニット
１０ａ〜１０ｃから、機能ユニットＤ１，Ｍ１，Ｓ１，
Ｌ１に与えられる。データは、第１組のバス３２ａを介
してロード／ストアユニットＤ１と、第２組のバス３４
ａを介して乗算器Ｍ１と、第３組のバス３６ａを介して
ＡＬＵ／シフターユニットＳ１と、第４組のバス３８ａ
を介してＡＬＵＬ１と、レジスタファイル２０ａとの間
で送受される。データは、第５組のバス４０ａを介し
て、メモリ２２とロード／ストアユニットＤ１との間で
送受される。上に説明した全データ経路は、レジスタフ
ァイル２０ｂおよび実行ユニットＤ２，Ｍ２，Ｓ２，Ｌ
２と２重化されていることに注意されたい。命令は、１
組のバス４１を介して、取り出しユニット１０ａによっ
て、命令メモリ２３から取り出される。外部のテストシ
ステム５１によって制御されうるエミュレーションユニ
ット５０は、集積回路の内部動作にアクセスできるよう
にする。

【００２８】メモリ２２，２３は、マイクロプロセッサ
１の集積回路の一部として図２０に示されており、その
範囲はボックス４２で示されていることに注意された
い。メモリ２２，２３は、マイクロプロセッサ１の集積
回路４２の外部にあってもよいし、あるいはメモリの一
部が集積回路４２の内部にあり、そしてメモリの一部が
集積回路４２の外部にあってもよい。また別の数の実行
ユニットを使用してもよい。

【００２９】マイクロプロセッサ１がデータ処理システ
ムに組み込まれると、図１に示すように、メモリまたは
周辺装置を追加してマイクロプロセッサ１に接続するこ
とができる。たとえば、外部バス７３を介して、ランダ
ムアクセスメモリ（ＲＡＭ）７０、読み出し専用メモリ
（ＲＯＭ）７１およびディスク７２が接続されているこ
とが示されている。バス７３は、マイクロプロセッサ４
２の内部の機能ブロック６１の重要な部分である外部メ
モリインタフェース（ＥＭＩＦ）に接続されている。ダ
イレクトメモリアス（ＤＭＡ）コントローラもブロック
６１に含まれている。ＤＭＡコントローラは、一般にマ
イクロプロセッサ１の内部のメモリと周辺回路との間で
データを転送するために使用されるとともにメモリと、
マイクロプロセッサ１の外部にある周辺装置との間でデ
ータを転送するために使用される。

【００３０】本発明の側面から利点を得ることができる
いくつかの代表的なシステムは、その開示内容を本願に
組み入れた米国特許第5,072,418 号に、特にこの特許の
図２から図１８を参照して説明されている。米国特許第
5,072,418 号に説明されているシステムをさらに改善す
るため、性能を改善しかつ原価を低減するため本発明の
側面を組み入れたマイクロプロセッサを使用してもよ
い。そのようなシステムには、工業におけるプロセス制
御、自動車（automotive vehicle）システム、モータ制
御、ロボット制御システム、衛星通信システム、反響消
去システム、モデム、ビデオ映像システム、音声認識シ
ステム、暗号付きボコーダ−モデムシステムなどが含ま
れるが、それらに限定されるものではない。

【００３１】図２０のマイクロプロセッサの各種アーキ
テクチャの特徴は、共同譲渡された特許出願シリアル番
号60/036,482（ＴＩ控え番号T-25311)に説明されてい
る。図２０のマイクロプロセッサの命令の完全な命令セ
ットも、共同譲渡された特許出願シリアル番号60/086,4
82（ＴＩ控え番号T-25311)に説明されている。

【００３２】図２１は、図２０のマイクロプロセッサの
実行ユニットおよびレジスタファイルのブロック図であ
り、各種機能ユニットを接続するバスの詳細な図を示し
ている。本図において、特に注意しない限り、全データ
バスは３２ビット幅である。バス４０ａには、マルチプ
レクサ２００ａによって駆動されるアドレスバスＤＡ１
がある。このため、ロード／ストアユニットＤ１または
Ｄ２によって発生したアドレスを、レジスタファイル２
０ａに対するロードまたはストアのアドレスにすること
ができる。データバスＬＤ１は、アドレスバスＤＡ１に
よって指定されたメモリのアドレスからのデータを、ロ
ードユニットＤ１のレジスタにロードする。ユニットＤ
１は、与えられたデータをレジスタファイル２０ａにス
トアする前に操作（manipulate）する。同様にデータバ
スＳＴ１は、レジスタファイル２０ａからのデータをメ
モリにストアする。ロード／ストアユニットＤ１は次の
演算、すなわち、３２ビットの加算、３２ビットの減
算、線形および循環アドレス計算（linear and circula
r address calculations）を実行する。ロード／ストア
ユニットＤ２は、アドレスを選択するマルチプレクサ２
００ｂの支援により、Ｄ１と同様に動作する。

【００３３】ＡＬＵユニットＬ１は次のタイプの演算、
すなわち、３２／４０ビット数値演算および比較演算、
３２ビットの最左端の１ビットおよび０ビットの計数
（leftmost 1, 0, bit counting for 32 bits）、３２
ビットおよび４０ビットの正規化回数の計数および論理
演算を実行する。ＡＬＵＬ１には、３２ビットのソー
スオペランドに対する入力src1と、第２の３２ビットの
ソースオペランドに対する入力src2とがある。入力msb
src は、４０ビットのソースオペランドを生成するため
に使用される８ビットの値である。ＡＬＵＬ１には、
32ビットの宛先オペランドに対する出力dst がある。出
力msb dst は、４０ビット宛先オペランドを形成するた
めに使用される８ビットの値である。レジスタファイル
２０ａの中にある２つの３２ビットレジスタは、４０ビ
ットのオペランドを保持するために連結されている。マ
ルチプレクサ２１１は入力src1に接続されており、３２
ビットのオペランドが、バス３８ａを介してレジスタフ
ァイル２０ａから、またはバス２１０を介してレジスタ
ファイル２０ｂから取得されることを可能にしている。
マルチプレクサ２１２は入力src2に接続されており、３
２ビットオペランドが、バス３８ａを介してレジスタフ
ァイル２０ａから取得されること、またはバス２１０を
介してレジスタファイル２０ｂから取得されることを可
能にしている。ＡＬＵユニットＬ２はユニットＬ１と同
様に動作する。

【００３４】ＡＬＵ／シフターユニットＳ１は次のタイ
プの演算、すなわち、３２ビット数値演算、３２／４０
ビットシフトおよび３２ビットビットフィールド演算、
３２ビット論理演算、分岐および定数の発生を実行す
る。ＡＬＵＳ１には、３２ビットのソースオペランド
に対する入力src1と、第２の３２ビットのソースオペラ
ンドに対する入力src2とがある。入力msb src は、４０
ビットのソースオペランドを形成するために使用される
８ビットの値である。ＡＬＵＬ１には、４０ビットの
宛先オペランドに対する出力ｄｓｔがある。出力msb ds
t は、４０ビットの宛先オペランドを生成するために使
用される８ビットの値である。マルチプレクサ２１３
は、入力src2に接続されており、３２ビットのオペラン
ドが、バス３６ａを介してレジスタファイル２０ａから
取得されること、またはバス２１０を介してレジスタフ
ァイル２０ｂから取得されることを可能にしている。Ａ
ＬＵＳ２は、ユニットＳ１と同様に動作するが、これに
加えて制御レジスタファイル１０２との間の両方向でレ
ジスタ転送を実行する。

【００３５】乗算器Ｍ１は１６×１６の乗算を実行す
る。ＡＬＵＳ１には、３２ビット宛先オペランドに対
する出力dst がある。乗算器Ｍ１には、３２ビットのソ
ースオペランドに対する入力src1と、３２ビットの宛先
オペランドに対する入力src2とがある。マルチプレクサ
２１４は入力ｓｒｃ２に接続されており、３２ビットオ
ペランドが、バス３４ａを介してレジスタファイル２０
ａから取得されること、またはバス２１０を介してレジ
スタファイル２０ｂから取得されることを可能にしてい
る。乗算器Ｍ２は、乗算器Ｍ１と同様に動作する。

【００３６】図２２は、図１のマイクロプロセッサにお
ける命令実行パイプラインの処理フェーズを示す図表で
ある。各フェーズは、システムクロックのクロックサイ
クルにほぼ対応している。たとえば、マイクロプロセッ
サ１が２００メガヘルツで動作している場合、各フェー
ズは通常５ナノ秒である。しかし、ＲＡＭ７０のような
メモリあるいは周辺装置からデータが期待されている場
合、期待されているときにデータが用意されていないと
パイプラインはストール(stall）する。パイプラインが
ストールすると、いくつかのシステムクロックサイクル
の間、あるパイプラインフェーズになっている。

【００３７】図２２において、命令を処理する第１フェ
ーズは、フェーズＰＧでプログラムアドレスを発生させ
ることである。これは、制御レジスタファイル１０２に
配置されているプログラム取り出しカウンタＰＦＣをロ
ーディングすることにより実行される。第２の命令処理
フェーズＰＳ中に、バス４１の役割の１つであるプログ
ラムアドレスバスＰＡＤＤＲを介して、命令取り出しパ
ケットのアドレスがプログラムメモリ２３に送られる。
第３のフェーズＰＷは、メモリ２３におけるアクセス時
間を考慮するための待ち合わせフェーズである。第４の
フェーズＰＲ中に、バス４１の一部であるデータバスＰ
ＤＡＴＡ＿Ｉを介してプログラムメモリ２３からプログ
ラム取り出しパケットを使用することができる。第５の
処理フェーズＤＰ中に命令の並列性が検出されると、実
行できる命令が適切な機能ブロックにディスパッチされ
る。パイプライン動作のこの側面については、後の節で
さらに詳細に説明する。第６の処理フェーズＤＣ中に、
実行可能な命令が復号化され、制御信号が発生して、各
種データ経路と機能ユニットとを制御する。

【００３８】図２３は、図１のマイクロプロセッサ１に
おける命令実行パイプラインの実行フェーズを示す図表
である。第１の実行フェーズＥ１中に、" ＩＳＣ" と呼
ぶ１サイクル命令と、" ＢＲ" と呼ぶ分岐命令が終了す
る。指定された実行ユニットは、制御回路１００によっ
て指示されるとおり、図２３に示す演算を実行する。第
２の実行フェーズＥ２中に、制御回路１００の制御によ
って指定された実行ユニットにより、次の命令、すなわ
ち、整数の乗算（ＩＭＰＹ）、プログラムストア命令
（ＳＴＰ）およびデータストア命令（ＳＴＤ）を終了さ
せる。第３の実行フェーズＥ３中に、データメモリシス
テム（ＤＭＳ）からのデータをラッチすることにより、
指示されたとおり、ロードデータ命令（ＬＤ）の実行を
継続する。第４の実行フェーズＥ４中に、実行ユニット
Ｄ１または実行ユニットＤ２のデータ入力レジスタＤＤ
ＡＴＡ＿Ｉに、Ｅ３でラッチされたデータが転送され
る。第５の実行フェーズＥ５中に、レジスタＤＤＡＴＡ
＿Ｉのデータを操作して、その操作したデータを、レジ
スタファイル２０ａまたは２０ｂの中の指定されたレジ
スタに書き込むことにより、ＬＤ命令が終了する。

【００３９】図２４は、図２２の処理フェーズ中に命令
取り出しパケットを処理するタイミングの詳細と、図２
３の実行フェーズ中の実行パケットの実行とを示すタイ
ミング図である。フェーズＰＳではプログラムメモリレ
ディ信号ＰＲＤＹがローのため、フェーズＰＷにパイプ
ストールが示され、フェーズＥ２ではデータメモリレデ
ィ信号ＤＲＤＹがローのため、フェーズＥ３に第２のパ
イプストールが示されていることに注意されたい。

【００４０】図２５は、図２０のマイクロプロセッサに
おける命令のディスパッチ動作を示すブロック図であ
る。本実施例において、命令取り出しパケットは８つの
命令を含んでいる。命令取り出しパケット１７１０は、
図示の通り８つの実行ユニットにディスパッチされて復
号化される。取り出しパケット１７２０は分岐命令１７
２５を含んでいる。取り出しパケット１７３０は３つの
命令実行パケットを含んでいる。第１の実行パケット
は、２つの命令、ＺＥＲＯ、ＳＨＬを含んでおり、これ
らの命令は、分岐命令１７２５に関する第１遅延スロッ
トにおける処理を開始する。第２の実行パケットは、４
つの命令、ＡＤＤ，ＳＩＢ，ＳＴＷ，ＳＴＷを含んでお
り、これらの命令は、分岐命令１７２５に関する第２遅
延スロットにおける処理を開始する。第３の実行パケッ
トは、２つの命令、ＡＤＤＫ，ＢＲを含んでおり、これ
らの命令は、分岐命令１７２５の第３遅延スロットの処
理を開始する。

【００４１】並列演算命令は常に１度に８つ取り出される。これが１つの取り
出しパケットを構成する。取り出しパケットの基本フォ
ーマットは、図２６に示されている。取り出しパケット
の実行のグループ化は、各命令のビット０のｐ- ビット
によって指定される。取り出しパケットは８語に揃えら
れている。

【００４２】ｐ- ビットは、命令の並列実行を制御す
る。ｐ- ビットは左から右へ（低いアドレスから高いア
ドレスへ）走査される。命令ｉのｐ- ビットが１の場
合、命令ｉ＋１は命令ｉと（命令ｉと同じサイクルで）
並列に実行されることになる。命令ｉのｐ- ビットが０
の場合、命令ｉの後のサイクルで命令ｉ＋１が実行され
る。並列で実行する全命令は、１つの実行パケットを構
成する。１つの実行パケットは最大８つの命令を含むこ
とができる。実行パケットの中の全命令は独自の機能ユ
ニットを使用なければならない。

【００４３】実行パケットは、８語の境界を横切ること
はできない。したがって、取り出しパケットの最後のｐ
- ビットは常に０にセットされており、各取り出しパケ
ットは、新しい実行パケットを開始させる。図４から図
１９について考察したとおり、取り出しパケットに対し
て３タイプのｐ- ビットのパターンがある。これらの３
つのｐ- ビットパターンは、次に示す８つの命令の実行
順序になる。すなわち、完全シリアル、完全並列、部分
的シリアルの３つである。

【００４４】並列符号の例文字" ｜｜" は、命令が直前の命令と並列に実行される
ことを表している。図２７の取り出しパケットにおい
て、この符号は次のように表示される。

【表１】

【００４５】実行パケットの中間に対する分岐動作実行パケットの中間に対する分岐が発生すると、それよ
りも低いアドレスの全命令は無視される。図２７の例に
おいて、命令Ｄを含むアドレスに対する分岐が発生する
と、ＤおよびＥだけが実行される。命令Ｃも同一実行パ
ケットの中にあるが、命令Ｃは無視される。また命令
Ａ，Ｂは時間的に前の方の実行パケットにあるから、命
令Ａ，Ｂも無視される。

【００４６】資源の制約同一実行パケットの中のどの２つの命令も同一資源を使
用することはできない。また、どの２つの命令も、同一
サイクル中に同一レジスタに書き込むことはできない。
以下の節において、命令が使用できる資源のそれぞれに
ついて説明する。

【００４７】機能ユニット同一機能ユニットを使用する２つの命令を同一実行パケ
ットで発行することはできない。

【００４８】次の実行パケットは無効である。

【表２】 ADD S1 A0,A1,A2 ；＼ .S1が両命令に使用されている。｜｜ SHR .S1 A3,15,A4 ；／

【００４９】次の実行パケットは有効である。

【表３】 ADD L1 A0,A1,A2 ；＼２つの異なる機能ユニットが｜｜ SHR .S1 A3,15,A4 ；／使用されている。

【００５０】相互経路(Cross Paths）（１Ｘおよび２
Ｘ）実行ユニットごとの（Ｓ，Ｌ，Ｍのいずれか）１つのユ
ニットは、データ経路ごとに相互経路（１Ｘおよび２
Ｘ）を介してその反対側のレジスタファイルからソース
オペランドを読み出すことができる。たとえば、Ｓ１
は、Ａレジスタファイルから両方のオペランドを読み出
すことができるか、あるいは１Ｘ相互経路を使用して、
Ｂレジスタファイルから１つのオペランドを読み出すこ
とができる。このことは、ユニット名の後にくるＸによ
って表示される。

【００５１】ＡからＢの間およびＢからＡの間には、そ
れぞれ１つの経路しかないのであるから、レジスタファ
イル間で同一Ｘ相互経路を使用する２つの命令を同一実
行パケットで発行することはできない。

【００５２】次の実行パケットは無効である。

【表４】 ADD.L1X A0,B1,A1 ；＼両命令に対して１Ｘ相互経路が｜｜ MPY.M1X A4,B4,A5 ；／使用されている。

【００５３】次の実行パケットは有効である。

【表５】 ADD.L1X A0,B1,A1 ；＼これらの命令は、１Ｘおよび２Ｘ｜｜ MPY.M2X A4,B4,132 ；／相互経路を使用している。

【００５４】命令フィールドのｘビットがセットされて
いる場合、オペランドは宛先と反対のレジスタファイル
から来る。

【００５５】ロード経路およびストア経路ロードおよびストアは、他のレジスタファイルへのロー
ドまたは他のレジスタファイルからのストアを実行しな
がら、１つのレジスタファイルからのアドレスポインタ
を使用することができる。同一レジスタファイルからの
アドレスポインタを使用する２つのロードおよび／ある
いはストアを同一実行パケットで発行することはできな
い。

【００５６】次の実行パケットは無効である。

【表６】 LDW D1 ^*A0,A1 ；＼同一レジスタファイルからの｜｜ LDW.D1 ^*A2,B2 ；／アドレスレジスタである。次の実行パケットは有効である。

【表７】 LDW D1 ^*A0,A1 ；＼異なるレジスタファイルからの｜｜ LDW.D2 ^*B0,B2 ；／アドレスレジスタである。

【００５７】同一レジスタファイルにロード中の、およ
び／あるいは同一レジスタファイルからストア中の２つ
のロードおよびストアを、同一実行パケットで発行する
ことはできない。

【００５８】次の実行パケットは無効である。

【表８】 LDW D1 ^*A4,A5 ；＼同一レジスタファイルとのロード｜｜ STW.D2 A6,^*B4 ；／およびストアである。

【００５９】次の実行パケットは有効である。

【表９】 LDW D1 ^*A4,B5 ；＼異なるレジスタファイルとのロード｜｜ STW.D2 A6,^*B4 ；／およびストアである。

【００６０】長い経路(Long Path）１サイクル当たり、１つだけの長い結果(long result）
を両側のレジスタファイルに書き込むことができる。Ｓ
ユニットおよび. Ｌユニットは、長いソースオペランド
の読み出しレジスタポートと、長い結果の書き込みレジ
スタポートとを共用しているので、実行パケットで、１
側に１つだけこの種命令を発行してもよい。

【００６１】次の実行パケットは無効である。

【表１０】 ADD.L1 A5:A4,A1,A3:A2 ；＼Ａレジスタファイルへの｜｜ SHL.S1 A8,A9,A7:A6 ；／長い書き込みが２つある。次の実行パケットは有効である。

【表１１】 ADD.L1 A5:A4,A1,A3:A2 ；＼各レジスタファイルへの｜｜ SHL.S2 B8,B9,B7:B6 ；／長い書き込みが１つある。

【００６２】. Ｌユニットおよび. Ｓユニットは、スト
アポートと、これら両ユニット用の長い読み出しレジス
タを共用しているので、ストアと同じ実行パケットで、
長い値を読み出す演算を. Ｌユニットおよび／あるい
は. Ｓユニットに発行することはできない。

【００６３】次の実行パケットは無効である。

【表１２】 ADD.L1 A5:A4,A1,A3:A2 ；＼長い読み出し演算｜｜ STW.D1 A8, ^*A9 ；／とストアがある。次の実行パケットは有効である。

【表１３】 ADD.L1 A4,A1,A3:A2 ；＼ストアと一緒の長い｜｜ STW.D1 AB, ^*A9 ；／読み出しがない。

【００６４】レジスタ読み出し同一サイクルで、同一レジスタに対する４回以上の読み
出しを発生させることはできない。条件付きレジスタは
この回数に含まれていない。

【００６５】次のコードシーケンスは無効である。

【表１４】 MPY .M1 A1,A1,A4 ；レジスタＡ１を５回｜｜ ADD .L1 A1,A1,A5 読出している。｜｜ SUB .D1 A1,A2,A3

【００６６】一方このコードシーケンスは有効である。

【表１５】 MPY .M1 A1,A1,A4 ；レジスタＡ１を４回｜｜ [A1] ADD .L1 A0,A1,A5 だけ読出している。 SUB .D1 A1,A2,A3

【００６７】レジスタ書き込み同一レジスタに書き込む命令であって、異なる待ち合わ
せ時間をもつ命令が、異なるサイクルに発行される場
合、同一サイクルで、同一レジスタに複数回の書き込み
が発生することがある。たとえば、サイクルｉ＋１のＡ
ＤＤの前のサイクルｉで発行されたＭＰＹは、同一レジ
スタに書き込みをすることができない。その理由は、両
命令がサイクルｉ＋１で結果を書き込むからである。し
たがって、次のコードシーケンスは無効である。

【表１６】

【００６８】書き込み競合（conflict）の検出可能性次の実行パケットのシーケンスは、異なる複数の書き込
みの競合を示している。たとえば、実行パケットＬ１の
中のＡＤＤおよびＳＵＢは、同一レジスタに書き込む。
この競合は容易に検出できる。

【表１７】 L1: ADD.L2 B5,B6,B7 ；検出可能、競合する｜｜ SUB.S2 B8;B9,B7 L2: MPY.M2 B0,B1,B2 ；＼検出不可能 L3: ADD.L2 B3,B4,B2 ；／ L4: [!B1] ADD.L2 B5,B6,B7 ；検出可能、競合しない｜｜ [B0] SUB.S2 B8,B9,B7 L5: [!B1] ADD.L2 B5,B6,B7 ；＼検出不可能｜｜ [B0] SUB.S2 B8,B9,B7 ；／

【００６９】パケットＬ２のＭＰＹとパケットＬ３のＡ
ＤＤは、共に同時にＢ２に書き込むが、分岐命令のた
め、Ｌ２の後の実行パケットが、Ｌ３以外の何らかのパ
ケットになると、これは競合にならないであろう。した
がって、Ｌ２およびＬ３における潜在的な競合は、アセ
ンブラによって検出されないかもしれない。Ｌ４の中の
命令は書き込み競合を構成しない。何故かというと、こ
れらの命令は相互に排他的だからである。対照的に、Ｌ
５の中の命令は相互に排他的であることが明確でないか
ら、アセンブラは競合を決定することができない。同一
レジスタに対して書き込みを複数回実行するコマンドを
パイプラインが受信すると、その結果は定義されていな
い。

【００７０】本発明の模範的な例が上に説明されている
が、この実施例は本発明を限定するものではない。本発
明は、多様な実施例の中で実現されうる。

【００７１】関連特許に対する相互参照本願は、本願と同時に出願され、共通譲渡された特許出
願シリアル番号第60/036,482号（ＴＩ控え番号ＴＩ−２
１３５）に関連している。ここでこの特許出願に言及す
ることにより、この特許出願の開示内容を本願に組み入
れることにする。

【図面の簡単な説明】

【図１】本発明によるデータ処理システムのブロック
図。

【図２】図１のデータ処理回路の一部のブロック図。

【図３】本発明で使用されている命令パケットの基本フ
ォーマットを示す図。

【図４】図３のフォーマットによる命令パケットの一例
を示す図。

【図５】図４の命令パケットによって定義される実行順
序を示す図。

【図６】図３のフォーマットによる命令パケットの別の
例を示す図。

【図７】図６の命令パケットによって定義される実行順
序を示す図。

【図８】図３のフォーマットによる命令パケットの別の
例を示す図。

【図９】図８の命令パケットによって定義される実行順
序を示す図。

【図１０】図３のフォーマットによる命令パケットの別
の例を示す図。

【図１１】図１０の命令パケットによって定義される実
行順序を示す図。

【図１２】図３のフォーマットによる命令パケットの別
の例を示す図。

【図１３】図１２の命令パケットによって定義される実
行順序を示す図。

【図１４】図３のフォーマットによる命令パケットの別
の例を示す図。

【図１５】図１４の命令パケットによって定義される実
行順序を示す図。

【図１６】図３のフォーマットによる命令パケットの別
の例を示す図。

【図１７】図１６の命令パケットによって定義される実
行順序を示す図。

【図１８】図３のフォーマットによる命令パケットの別
の例を示す図。

【図１９】図１８の命令パケットによって定義される実
行順序を示す図。

【図２０】本発明の実施例を使用するマイクロプロセッ
サのブロック図。

【図２１】図２０のマイクロプロセッサの実行ユニット
およびレジスタファイルのブロック図。

【図２２】図２０のマイクロプロセッサにおける命令実
行パイプラインの処理フェーズを示す図表。

【図２３】図２０のマイクロプロセッサにおける命令実
行パイプラインの処理フェーズを示す図表。

【図２４】図２２の処理フェーズ中に命令取り出しパケ
ットを処理するタイミングと、図２３の実行フェーズ中
の実行パケットの実行とを示すタイミング図。

【図２５】図２０のマイクロプロセッサにおける命令の
ディスパッチを示すブロック図。

【図２６】図２０のマイクロプロセッサの命令取り出し
パケットの基本フォーマットを示す図。

【図２７】部分的に並列な８語取り出しパケットを示す
図。

【符号の説明】

１マイクロプロセッサ１０データ処理システム／中央処理装置（ＣＰＵ）１０ａ命令取り出し１０ｂ命令ディスパッチユニット１０ｃ復号化ユニット１１データ処理回路１３，１５，１７，１９周辺回路１２ａ，１２ｂ演算およびロード／ストアユニット１４ａ．１４ｂ乗算器１６ａ．１６ｂＡＬＵ／シフターユニット１８ａ，１８ｂ数値・論理演算ユニット２０ａ、２０ｂレジスタファイル２１プログラムカウンタ２２データメモリ２３，１７２３プログラムメモリ２３取り出し回路２５メモリ２７命令レジスタ２９プログラム実行回路３２ａ，３４，３６ａ、３８ａ．４０ａバス４１バス４２マイクロプロセッサの範囲を示すボックス５０エミュレーションユニット５１外部テストシステム６０周辺回路６１ダイレクトメモリアクセス（ＤＭＡ）付き外部メ
モリインタフェース７３外部バス７０ＲＡＭ７１ＲＯＭ７２ディスク装置１００制御論理／制御回路１０２制御レジスタファイル２００ａ，２００ｂ，２１１，２１２，２１３，２１４
マルチプレクサ１７１０，１７２０，１７３０，１７４０命令取り出
しパケット１７２５，１７３８分岐命令

───────────────────────────────────────────────────── フロントページの続き (72)発明者レイドイー．タトゲアメリカ合衆国テキサス州リッチモンド，コッパーウッドレーン 1707 (72)発明者アランエル．デービスアメリカ合衆国テキサス州シュガーランド，マラナサドライブ 3739

Claims

【特許請求の範囲】

【請求項１】それぞれの命令を同時に実行することが
できるか否かを示す、それぞれの命令の１部分を含む１
組の命令を発生する回路を有するデータ処理回路を含む
データ処理システムであって、前記データ処理回路は、前記発生回路に接続され、前記
１組の命令を受信するプログラム実行回路を含みかつ前
記命令の１部分に選択的に応答して前記命令の１部分に
よって示される複数の前記命令を同時に実行するデータ
処理システム。
【請求項２】データ処理システムにおいてプログラム
命令を処理する方法であって、その命令の中の別の命令と同時にそれぞれの命令を実行
できるか否かを示すそれぞれの命令の１部分を、１組の
命令に供給するステップと、複数の前記命令を同時に実行できるか否かを、前記命令
の１部分から決定するステップと、を含む方法。
【請求項３】データ処理システムによって実行するた
め、プログラムをコンパイルする方法であって、プログラムの中の第１のプログラム命令の直後に続く第
２のプログラム命令と同時に、その第１のプログラム命
令を実行できるか否かを決定するステップと、第１の命令を第２の命令と同時に実行できるか否かを示
す命令の１部分を、その第１の命令に供給するステップ
と、を具備する方法。