JPH06507990A

JPH06507990A - コンピュータのための最適化コンパイラ

Info

Publication number: JPH06507990A
Application number: JP5500496A
Authority: JP
Inventors: ノーゼンチャック，ダニエル・マーク
Original assignee: ブリティッシュ・テクノロジー・グループ・ユーエスエイ・インコーポレーテッド
Priority date: 1991-05-24
Filing date: 1992-05-20
Publication date: 1994-09-08
Also published as: CA2109799A1; US5442790A; WO1992022029A1; EP0586557A1; AU2158692A; EP0586557A4

Abstract

(57)【要約】本公報は電子出願前の出願データであるため要約のデータは記録されません。

Description

【発明の詳細な説明】コンピュータのための最適化コンパイラ発明の分野本発明はソースコートコンパイラに関し、より詳細には、ソースコードを中間コードに変換し、緊急の際に、この中間コードを再構成して中間コードが目的コードに変換される前にその性能を最適化するためのシステムに関する。

発明の背景コンパイラは、ソースコートを機械（目的）コードに変換するための多重ルー・チンを含むプログラムである。一般的に、コンパイラは高レベルソース言語（例、Ｃ１フォートラン等）を取り、これを順次の中間フォーマットコートに翻訳する。

依存性解析（ｄｅｐｅｎｄｅｎｃｙ　ａｎａｌｙｓｉｓ）が中間コードステートメントについて実行される。この解析は、与えられた結果を生じるにはどのオペランドが必要かを決定し、処理オペレーションの期間中の正しいシーケンスにおいて且つ正しい時間においてこれらのオペランドが使用可能になるようにせしめる。これに続いて、コンパイラは中間コードステートメントをよりコンパクトなフォーマットを特徴とする副中間フオームに変換する一般の最適化ルーチンを実行する。例えば、”デッ）”（ｄｅａｄ）”コードは除去され、共通副次式（ＣＯｍｍｏｎ　５ｕｂｅｘｐｒｅｓｓｉｏｎｓ）は消され、他の圧縮技術が実行される。これらの最適化処置は、コードがある手順にかけられ、次に最適化の効率性を決定するための中間試験を何ら行うことなく次の最適化手順に進むという意味において、基本的に開ループである。これに続いて、最適化されたコードステートメントは機械言語（目的コート）に変換される。一般的に、斯がるコンパイル済みコートは直接実行され、結果として生じるコードの効率を決定するためにパフォーマンス測定（ｐｅｒｆｏｒｍａｎｃｅ　ｍｅａｓｕｒｅ）にはかけられない。　要約すれば、コンパイテ最適化手順は、中間コードストリングの中の個別ステートメントを選択し、これらのステートメントを最適化手順のリストを通過せしめるという意味で、基本的に開ループである。一旦これらの手順が完成されると、コードは目的コードに変換され、更なるパフォーマンス測定にはかけられない。最近、高度な並列式コンピュータの出現により、コンパイルタスクはより複雑になっている。金玉コンパイラは、並列処理ハードウェアにより、はぼ無競合条件で、メモリにおけるデータの効率的な記憶とメモリからのそのデータの直後の可用性との両方を保証する必要がある。従ってコンパイラはベクトル／並列コード構成の識別及び形成に関連するのと同程度の注意をもってメモリサブシステムからの取り出しとデータ構造記憶の基本的問題を処理しなければならない。

ベクトルプロセッサ及びシストリックアレイ（ｓｙｓｔｏｌｉｃ　ａｒｒａｙ）は、データがこれらのユニットの両端においで転送渋滞にまきこまれる場合は、はとんど使い物にならない。はぼ無競合のアクセスを達成するために、中間コードを最適化手順を通して実行して、その性能特徴が改良されたと希望”するのは十分ではない。更に、複雑なソースコードリストを完全にコンパイル／最適化して、次に、所望性能レベルを達成するのに付加的なコード変換が必要か否かを決定する前に、その結果生じる目的コードのパフォーマンスをパフォーマンス測定に対して比較することを要求されることは不十分である。

コンパイテ最適化に関する先行技術は、ここ数年にわたって現れて来た以下の論ステートメントによって特徴付けられている。シュネック他は”フォートランからフォートランへの最適化コンパイラ”　（コンピュータジャーナル、第１６巻、１６号、３２２−３３０頁、１９７２年）の中で、機械コードレベルではな（ソースコードレベルにおけるプログラムパフォーマンスの改良を目的とする初期のコンパイラについて記載している。１９７４年に、カック他は′通常フォートランプログラムにおける並列性の測定”　（コンピュータ、１９７４年１月、３７−４６頁）の中で、一つのプログラムから出来るだけ多くの同時実施可能オペレーションを抽出する幾つかの初期の努力についで記載している。この処置の目的は、そのオペレーションの特定のものを並列に実効せしめることによりフォートランプログラムのパフォーマンスを改良することであった。

順次マイクロコードを並列又は水平マイクロコードに変換するための最適化手順がご　トレーススケジューリング　グローバルマイクロコード４７８４９０のための技術”にフィッシャーによって述べられている。そのための高度に並列化されたマルチプロセッサ及びコンパイル技術がフィッシャによって“ＶＬＩＷ機械　科学的コートをコンパイルするためのマルチプロセッサ”　（コンピュータ、１９８４年７月、４５−５３頁）に且つギュプタ他によって”再構成可能ＬＩＷアーキテクチュアのためのコンパイル技術”　（ザ、ジャーナルオブスーパーコンピューティング、第３巻、２７１−３０４頁、１９８９年）に述べられている。

フィッシャ及びギュプタ他は両者共、非常に長い命令ワードが用いられている高度に並列化されたアーキテクチュアにおける最適化の諸問題を扱っている。ギュプタ他は、改良されたパフォーマンスを達成するために領域スケジューリング、システムの再構成のための世代コード、及びメモリ割り当て技術等のコンパイル技術について述べている。この点に関して、レフ他は”多次元シストリックアレイへのマツピングネスティングループアルゴリズム”　（並列及び分布システムについてのＩＥＥＥ会報、第１巻、１号、１９９０年１月２５日、６４−７６頁）の中で、コンパイル手順の一部として、ループアルゴリズムが如何にしてシストリックＶＬＳＩアレイにマツピングされ得るかについて述べている。

上記に引用された先行技術は開ループ手順について述べている。詳細には、一旦コードが”最適化”されると、目的コードに変換され、次に機械実施のために出力される。

＆盟９１杓ソースコードリストを目的コードリストにコンパイルする（ｃｏｍｐｉｌｉｎｇ）ための方法が記載されており、この方法は、ソースコートリストからソースコードステートメント（ｓｔａｔｅｍｅｎｔｓ）のブロックを抽出する段階、ブロックにおける各ソースコードステートメントを目的の形のワイド中間コード（ｗｌｃ）ステートメントすなわちソースコードステートメントによって要求された諸機能を実行するために一組の機械処置を確定するＷＩＣステートメントにマツピングする段階、ブロックにおける各ＷＩＣステートメントの初期近似シミュＬｉ−’ｉヨンヲ実行し、各ＷＩＣステートメントのシミュレーション及びＷＩＣステートメントのブロックからパフォーマンス結果（ｐｅｒｆｏｒｍａｎｃｅｒｅｓｕｌｔｓ）を引き出す段階、パフォーマンス結果に依存して、コードのパフォーマンスを改良することを試みてブロックにおけるＷＩＣステートメントを一重のコード変換アルゴリズム及びヒユーリスティックの一つに従って修正する段階、及びパフォーマンス結果が改良されているか否かを決定するために近似シミュレーションを反復し、改良されている場合、決定点に達するまで、ＷＩＣステートメントの更なる修正を可能にするべくこれらのアルゴリズムの別のアルゴリズムに進み、斯かる時間において、修正されたＷＩＣステートメントを目的コードの形で生成する段階、を含んでいる。

図面の説明図１は、演算部を構成する下部構造の構成における変化を可能にする先行技術の演算部パイプライン組織及びスイッチングネットワークの部分ブロック図である。

図２は、図１のシステムに用いられている”三重構造“処理下部構造のブロック図である。

図３は、図１のシステムに用いられている”二重構造”処理下部構造のブロック図である。

図４は、図１のシステムに用いられている”−重構造”処理下部構造のブロック図である。

図５−８は、本発明の方法の高レベルフロー図を示す。

＆咀の詳鯉を脱里ここに開示されているコンパイラ発明の方法の詳細を説明するに先立ち、先ず、特にこの方法を実施するに構成されたコンピュータの構造を検討することにする。

記載されようとしているコンピュータの詳細がノーゼンチャック他による且つ本出願と同じ譲り受け人に譲り受けられた米国特許第４．８１１．２１４号に記載されている。この米国特許第４．８１１．２１４号の開示は本明細書に参照として引用されている。

該米国特許第４．８１１．２１４号において、同時に作動する少数の強力なノートを用いている高度に並列化されたコンピュータが記載されている。任意の与えられたノート（ｎｏｄｅ）内では、コンピュータは、多くの機能ユニット（例、浮動小数点演算プロセッサ、整数演算／論理プロセッサ、特殊目的プロセッサ等）を用いており、これらの機能ユニットは、これらの機能ユニットの、全てではなくても、大部分が与えられたノートの各クロックサイクルの期間中に能動状態になるように同期的な力学的に再構成可能なパイプラインに組織されている。

コンピュータの各ノートは、再構成可能演算／論理ユニット（ＡＬＵ）、多面メモリ、及びメモリ平面と再構成可能ＡＬＵとの間のデータのルーティング（ｒｏｕｔｉｎｇ）のためのメモリーＡＬＵネットワークスイッチを含む。図１において、高レベルフロー図は特別に要求されたパイプライン処理構造を提供するために組織され得る複数の再構成可能下部構造と共に典型的なＡＬＵパイプラインスイッチングネットワークを示している。各再構成可能パイプラインプロセッサは、種々の階級の処理エレメント（又は下部構造）及びスイッチングネットワーク１１から構成されている。３つの永久的に配線された下部構造１２．１４、及び１６がＡＬＵパイプラインプロセッサにおいて各々特定の回数反復されており、それらの相対的相互接続をスイッチングネットワーク１１によって変化せしめるように構成されている。

下部構造１２は、図２のブロック図レベルにおいて更に詳細に示されており、これ以降、三重構造と呼ばれる。各三重構造は、３つのレジスタファイル２ｏ、２２、及び２４．３つの浮動小数点ユニット２６．２訳及び３０．並びに一つの整数論理ユニット３２を含んでいる。この三重構造には４つの入力があり、その内２つは各々レジスタファイル浮動小数点ユニット対（例、２ｏ、２６及び２２．２８）についている。唯一っの出力３４が存在する。この三重構造への入力はスイッチ１１を通過する（図１）が、メモリあるいは別の演算／論理構造の出力から来得る。各三重構造からの出力はスイッチ１１に至り、ここから別の演算、／論理構造の入力にあるいはメモリに送られ得る。

他の処理下部構造が図３及び４に示されており、図３は二重下部構造３６を示しており、図４は一重下部構造３８を示している。上記の下部構造の各々は図２に示されている三重構造の部分集合であり、一つ少ない入力を各々許容することが分かる。

米国特許第４．８１１．２１４号に記載されているコンピュータは何方ものフィールドを有する非常に長い命令ワード（ＶＬＩＷ）について作動する。各ＶＬＩＷの緒フィールドの諸部分はコンピュータの各処置に対して構成されるように要求されている処理構造を画定している。実際、ＶＬＩＷ命令のこれらの部分は所要処理機能が行われるようにするためにシステムの再構成を形成する。

上記に述べたように、コンピュータはかなりの数の独立プロセッサを含んでおり、これらの独立プロセッサの各々はサブルーチン全体あるいはサブルーチンの一部分のどちらかを他のプロセッサと並列に扱う。その結果、ＶＬＩＷ構造と組合わさった各コンピュータノードの高度に再構成可能な特性により、複雑な問題の処理の取り扱いに高いフレキシビリティが得られることが分かる。しかしながら、このフレキシビリティと共に、コストが、即ち、コンピュータがそのコードを最小の消費時間で実施することを保証する難しさが出て来る。このシステムの目的コードの構築は図５−８のフローチャートに広（示されている方法を実行するコンパイラによって達成される。

ここで図５のフローチャートについて説明すると、コンパイラはソースコードリスト（ボックス５０）及び特定のシステム並びに作動パラメータを画定するデータを入力として受ける。ボックス５２に示されているように、システムアーキテクチュアパラメータは、コンパイラへの一つの入力を形成しており、各ノードに対して、使用可能システム（ａｖａｉｌａｂｌｅ　ｓｙｓｔｅｍ）及びこれに関する特定の規定を画定する。例えば、メモリはその組織（例えば、平面の数）、それらが物理的かあるいは仮想的かということ、キャッシュの容量、キャッシュの組織及びその作動アルゴリズム、クロック当たりの読みだしの数、クロック当たりの書き込みの数、並びにクロック当たりのアクセスの数について画定される。

更に、各プロセッサは、そのために使用可能な一重構造、二重構造及び三重構造の数（例えば、それぞれ４．８、及び４）、レジスタファイル及び各々におけるレジスタの数、アクセスの種類、及びプロセッサに何らかの特殊な機能が配設されているか否かを画定したであろう。明かに、付加的なアーキテクチュアパラメータが配設されているが、上記は、当業者にシステム資産及びそれらの作動特徴を画定する情報の種類の即座の理解を提供する。

他の規定の中で、中断が生じ且つ終了が命令される前に、最適化サブル　−チンが通過されるべき回数を示す最適化パラメータがコンパイラへの入力（ボックス５４）として配設されている。

このソースコートリストは、パーサ−と字句分析プログラムから構成されている初期メモリマツプサブルーチン（ボックス５６）にかけられる。これらのサブルーチンは、予備最適化記号−テーブル発生器と共に、入力メモリアレイのメモリ記憶位置を割り当て、これらの記憶位置を規定するテーブルを構築する。より詳細には、アレイ寸法を画定するソースコードステートメントが受けられると、大きなアレイが、後続のメモリ参照競合を避けることを初期に試みて、様々な物理的記憶位置（領域）に割り当てられる（分解される）。

これ以降、ソースコードリストはシストリックＤｏループステートメント（Ｓｙｓｔｏｌｉｃ　ｄｏ−１ｏｏｐ　ｓｔａｔｅｍｅｎｔｓ）だけでなく、スカラーステートメントのリストの両方を含むと仮定される。これ以降、”ブロック“の用語は一重のスカラーステートメントあるいはＤｏ小ループ例えば、シストリックコードブロック）を含むステートメントのどちらかに言及し得る。公知のように、各Ｄｏ小ループ、−組のオペランドについて実行される反復性オペレーションを画定するベクトルプロセスである。このコンパイラは入来ソースコード入カ流からＤｏ小ループ抽出しくボックス５８）、その中の各ソースコードステートメントをワイド中間コード（ＷＩＣ）ステートメントに変換する（ボックス６０）。このワイド中間コードは、フォーマットが順次コードについての通常の場合よりも高いレベルの規定を表しているという意味でご従来の”ベクトル化コンパイラによって発生されたコードとは異なり、即座の局部依存性はＷＩＣ内で実施されている。

各ＷＩＣステートメントはソースコードステートメントによって要求された機能を実行するために一組の機械処置を画定する。各ＷＩＣステートメントは目的コードの形にあり、ソースコードステートメントによって要求された処１を実質的に画定する一連の記号、トークン（ｔｏｋｅｎＬ等を含んでいる。これは、特定のリンキング情報に欠けているため、この段階ではコンピュータによって実施可能ではない。　基本的に、ＷＩＣのフォーマットは元のソースコードにおいて見いだされた局部並列及びシストリック構造及び依存性を固有的に維持する。

オペランドフェッチ、複雑な中間オペレーション、及び結果記憶の間の本来の相関関係はＷＩＣステートメント内に保存される。ＷＩＣコードの唯一っのラインはソースコードにおける対応ラインに直接関係する。後続の解析にかがる可能な並列あるいはシストリック実施を抽出する負担が低減する。

ＷＩＣは、通常単純な負荷、移動、作動、記憶シーケンスによって特徴つけられる偏在性順次内部コートフォーマット（ｕｂｉｑｕｉｔｏｕｓ　５ｅｑｕｅｎｔｉａｌ　１ｎｔｅｒｎａｌ　ｃｏｄｅ−ｆｏｒｍａｔｓ）とは対照的である。

この後者のフォーマットは元のソースコードにおいて明確であった明白な並列コートエレメントの多（を再構成しなければならない並列コート解析器に更なる負担をかける。

このＷＩＣコートはソースプログラムによって指示された処置の全てを具象する。加うるに、ＷＩＣコートは記号−テーブル属性及び局部データ依存性を維持する。　ＷＩＣステートメントの基本フォーマットの一例は、ｔｊＪ４　＝　（Ｏｐｅｒｌθ、　０ｐｅｒ２）θ２（Ｏｐｅｒ３θ３０ｐｅｒ４）ここで、θは任意高レベルオペレーション、例えば、＝、Ｘ、十等を意味し、０ｐｅｒはメモリ、レジスタ、あるいは先行の計算の結果からのオペランドを意味する。この例において、ＷＩＣは、局部依存性（挿入的な順序付けに基ずく）を示し、ここで８．及びθ３はθ２による後続の処理と並列に実施し得る。シストリック実施は、その出力が後続のプロセッサ入力に直接供給される処理エレメントのアレイにエンタするデータ流を考慮することにより作動的に画定される。かくして、データは、中間記憶の必要性なしにアセンブリラインの様式で処理される。　中間コートのフォーマットの一例を示すために、シストリックオペレーションがテストプログラムから抽出され且つ以下のようにフォートランで表現されると考慮せよ。

ｚ　＝　ｃｏｎｓｔｌ零ｂ（Ｄ（ｃｏｎｓｔ２零ａ（ｉ）＋ｃｏｎｓｔ３本ｃ（ｉｊ））上記のフォートランステートメントに対応するＷＩＣステートメントは以下の通りである。

ｐｏｏ：＝＄８＄１ＩＲ３本＄１＃５ＭＡｌ＋＄！Ｊ＃１１２Ｓ本＄４＃８ＭＡ１　％　ｃａｌｃｕｌａｔｅｃ２零ａ（ｉ）＋ｃ３＊ｃ（ｉＤ＝−＄１３：１２ＭＡｌ−＄７＄１１Ｒ３本＄２＃６１ＡＩ−ｐｏｏ　％　ｃａｌｃｕｌａｔｅ　ｚ・〉％ｅｎｄ　ｄ。

上記でＷＩＣを形成する依存性解析器（ｄｅｐｅｎｄｅｎｃｙ　ａｎａｌｙｚｅｒ）は、ソースコートのフォーマットに密接に従う。ＷＩＣは、特にコンパイラのこの実施に対して記号−テーブルニーモニック（ｍｎｅｍｏｎ　ｉ　ｃｓ）　を用いる。多重独立メモリ平面のポテンシャルがトークンの構造に反映される。

データー構造記号テーブルトークンのフォーマットが表１に記載されている。

データー構造記号テーブルトークン　＄！ｘｘ＃ｍｐ　５ｔｏｒ　ｏｃｃ、　ここで尺号　脱灰＄　データエレメント！　分散／多重記憶表示子ｘｘ　可変参照数＃ｍｐ　メモリ平面数ｓ　ｔｏｒ　以下によって与えられる変数の変位：ＭＡ　メモリ基アレイＭＳ、メモリ基スカラーＲＡ：レジスタ基スカラーＲ３レジスタ基スカラーｏｃｃ　可変成員数表１゜データ構造記号トークンのフォーマット上記の例に示されているように、ＷＩＣは、入れ子式内部依存性ノード（ループ内）から構成されている。（ループへラダコードは簡潔性のために削除されている）。ここで、無端子内部ノードｐ００はシストリック句を示している。句中断は、ソースに示されている挿入的順序付けによって駆動される。＝＝に境界を接するトークンは局部依存性ツリーの根である。かくして、この例によって示されているように、ＷＩＣはそれ自身を比較的率直な後続の解析及び並列実施に適するようにせしめる中間及び最終結果の本来の順序付けを与えらる。

引き継がれた属性はかなり細かく解析することが出来、限度内で、従来の順次中間コードが、上で論じられたように、生じる。しかしながら、これは並列コード解析器から増大した仕事を要求し、ＷＩＣ解析器によって予想されるパフォーマンスよりも低いパフォーマンスをもたらし得る。ＷＩＣ順序付けは最適化器によって実行される付加的シストリック及び並列コード発生を有意に抑制するものではないことが、銘記されるべきである。

ここで図５に戻ると、各ＤＯ小ループＩＣステートメントが構成された後（ボックス６０）、このステートメント内の内部依存性が見いだされ且つ記録される。

ボックス６４．６６、及び６８から分かるように、スカラーソースコードステートメントのブロックに関して同様の処ｌが行われる。しかしながら、この例において、ブロック寸法は、連続するＤＯシル−間のコードのラインの数、あるいはコードのラインの予め画定された最大数のどちらかの最小となる。

一旦、Ｄｏ小ループびスカラーステートメントのブロックがＷＩＣステートメントに変換されると、これらのステートメントはリストに併合される（ボックス７０）。すると、各ＷＩＣステートメントが解析されて、それを機能せしめるにはどのアーキテクチュア資産が必要であるか決定される。次にこれらの資産は割り当てられ（図６のボックス７２）　、ＷＩＣステートメントがアーキテクチュアユニットにマツピングされてこのステートメントを処理することの出来る必要なシストリック又はスカラーアレイを生成する（ボックス７４）。

この段階において、コンパイラは割り当てられたアーキテクチュア資産と組合わさって、ＷＩＣステートメントを実行するために計算システムの構成を可能にするマツプを発生している。

しかしながら、ＷＩＣステートメントをシミュレートするのに不十分な資産しか得られない場合（決定ボックス７３参照）、これらの使用可能資産を収容するためにＷＩＣステートメントを修正しなければならない（ボックス７３）。これは、ステートメント切り捨て、分割あるいはＷＩＣステートメントオペレーションを後続の段階に分割して、各段階で要求される資産を減する他の特定の手順の形を取り得る。

ＷＩＣステートメントに対して十分な資産が見いだされた場合、資産のアレイがアセンブルされ、このステートメントはその上にマツピングされる（ボックス７５）。

ここでシミュレーションサブルーチン（ボックス７６）がアクセスされ、アセンブルされたアーキテクチュアユニットの”近似”シミュレーションをマツピングされたＷＩＣステートメントに従って実行する。このシミュレーション（及び後続の最適化）の目的は、コンピュータのピーク理論速度の規定された分数において、あるいはこれよりも高い速度で実行する目的コードを発生することにある。

これは、各ＷＩＣステートメントが如何に効率的に実施するかについての近似的な計量を得て、次にそのパフォーマンスを改良することを試みてＷＩＣステートメントを修正することにより達成される。この結果を得るために各ＷＩＣステートメントを完全にシミュレートすることは不必要であることが見いだされている。

従って実際、各ＷＩＣステートメントについて比較的粗いシミュレーションが実行され、斯かるシミュレーションでもコンパイラはその実施効率の度合いを得ることが可能である。

実際の（シミュレーションしない）オペレーションでは、各ＷＩＣステートメント及びそこから発生したコートはデータの大きなアレイに作用する。

このシミュレーションサブルーチンはこの大きなアレイから後続のシミュレーションのための入力として作用するその部分集合を選択する。これにより、シミュレータは統計的有効性を提示するパフォーマンス基準を引き出すのに必要な多（の量のデータを取り扱う必要の結果として動きが取れなくなることを防ぐ。シミュレーションに用いられるべきデータアレイは、ユーザ規定（あるいは規定がない場合は、ディフォルト部分集合）である。

この近似シミュレータは、各ＷＩＣステートメントに対して、全ての要求されたメモリ参照を”実施”する。メモリ参照は、読みだしあるいは書き込みであっても、メモリにおける各記憶に対する全ての参照を含んでいる。加つるに、ＷＩＣステートメントによって要求された計算処置はシミュレーションされるが、部分的にのみである。例えば、メモリ参照の計算に関する計算処置はシミュレーションされる。シミュレーションは一般的に、後続のメモリ参照に至るステートメントあるいは次の条件テストにかけられる何らかのステートメントを実施するだけである。

一例として、計算されなければならないが、間接計算に依存するメモリの別の部分に記憶されているアドレスに対する参照を考慮せよ。この例において、アドレスは値ｊによってアレイＡ内に規定され、ここでｉは間接メモリ参照について言及している。ここで、ｉの値の計算がシミュレーションされるが、Ａの値はシミュレーションされない。これは、Ａが単に”結果”であり、このシミュレーションがＡ（１）の計算が如何にして機械のパフォーマンスに影響するかについてのみ関連し、計算に対する答えの結果ではないからである。しかしながら、Ａの値が次の条件テストを条件とする場合（例えば、Ａが１よりも大きいか小さい場合）、これは計算される。

このンミュレーンヨンプログラムが実行すると（図７のボックス７８参照）、これはメモリ参照の数、実行される原始的演算／論理オペレーションの数演算／論理オペレーションの数、及び生じるメモリ競合の数を記録する。原始的演算／論理オペレーションは、加算、減算、乗算、又は論理比較である。より複雑なオペレーションは別の原始的演算／論理オペレーションの比例案ステートメントされた値である。例えば、加算オペレーションは１に等しく、除算オペレーションは４に等しい。

メモリバンク内での記憶されたアレイの後続の再割り当てを可能にするべくメモリの各ブロックに対してメモリ競合の数が記録される。シミュレータによって発生され得る他の統計量は平面当たりのフェッチ／リストアの数に対する相対的な平面当たりのキャッシュ不明、条件的パイプラインフラッシュの数、及び条件的ステートメント実施の関数としての再構成の数、等を含んでいる。

実際、シミュレーションは、最終的数値あるいは論理的結果に到達するためにではな（、コンピュータのオペレーション及び各ＷＩＣステートメントにおけるその割り当てられた資産を計量するために実行される。か（して、シミュレーションの結果は、−組の統計的に信頼出来る近似的パフォーマンス特徴である。一旦、ＷＩＣステートメントの粗いシミュレーションが終了すると、アルゴリズムはブロック又はＤＯ小ループ終了したか否か（即ち、シミュレーションされていないＷＩＣステートメントが他に存在するか？）を試験する（ボックス８０）。ステートメントが確かにシミュレーションされずに残っている場合、プログラムは再循環してシミュレーションを達成する。ブロック又はＤｏ小ループおけるＷＩＣステートメントがシミュレーションされている場合、プログラムは進行して、他の指示の中に、ブロック又はＤＯ小ループための演算計数、そのブロック又はＤＯ小ループおける各ＷＩＣステートメントに対する演算計数、及び各々に対するメモリバンク及び競合のリストを含むメモリ参照競合の計数を出力する（ボックス８２）。図８の決定ボックス８４に示されているように、これらの出力は次に（最適化パラメータからアクセスされた、図５のボックス５４参照）予め画定された作動基準と比較される。スカラーステートメントのブロックまたはＤｏ小ループこの作動基準より高い効率レヘルで実施することが分かった場合、このＷＩＣステートメントは目的コートに変換される（ボックス８６）。このプログラムは、処理されるＷＩＣステートメントがもはや存在しない場合、終了しく決定ボックス８８）、そうでない場合、この方法は再循環して次のＷＩＣステートメントを取り扱う。一方、これらの出力が呼び出されたパラメータより低いパフォーマンス効率を示す場合（決定ボックス８４）、このパフォーマンス効率が最後の”試行（ｔｒｙ）”に対して改善されているか否かが決定される（決定ボックス９０）。何らパフォーマンス改善がもたらされていない場合、最後の最適化処置が逆転され（ボックス９２）、未試行の最適化処置が試みられる。パフォーマンス効率改善が見られた場合（ボックス９０）、この方法は別の未試行最適化処置に進む（ボックス９４）。

コンパイラは、場合により、スカラーＷＩＣコードの各ブロック又はＤｏ小ループついて個別最適化処置を実行することにより最適化器サブルーチンに進む。

コンパイラはコート変換及びコードヒユーリスティックの両方を直列様式で実行する。例えば、全体的な共通副次式の削除、ループヘッダオペレーションの後続のスカラー処理、等の公知のコート変換が実行される。コンパイラは又、未使用処理情報の再分布を可能にするためのループ融合、メモリ競合を最小限にするためのループ交換、競合を低減するためのメモリ中のデータの動的再分布、独立的且つ並列的サブループ実施を可能にするためのループ分割等を含み得るが、これらに限定されない、コートヒユーリスティック（ｃｏｄｅ　ｈｅｕｒｉｓｔｉｃＳ）を実行する。

各個別最適化処置が達成された後（ボックス９４）、スカラーステートメントのＤｏ小ループはブロックにおける修正されたＷＩＣステートメントは近似シミュレーションサブルーチンを用いて再びシミュレーションされる。かくして、Ｗ■ Ｃステートメントの各Ｄｏ小ループはブロックは、予め画定された作動基準との比較のために新しい組の出力を得るべく、上記の如く、その実施をシミュレーションせしめた。次に、最適化器ルーチン（ｏｐｔｉｍｉｚｅｒ　ｒｏｕｔｉｎｅ）の数が限度に等しいか否かが決定され（決定ボックス９６）、等しい場合、最適化器ルーチンは停止して、終了し、そしてＷＩＣステートメントは目的コードに変換される。実行の数が等しくなかった場合、ルーチンは戻って継続する。

上記から分かるように、このコンパイラによって、スカラーステートメントの個別ＤＯ小ループびブロックは粗いシミュレーションを用いて個別に試験され得る。これらの最適化されたコードステートメントは、コードのパフォーマンスを更に改良する試みで、付加的な最適化サブルーチンにかけられる。各最適化サブルーチンの直後に、各ブロック及び／又はＤＯ小ループ記録された内部依存性が変更されたＷＩＣステートメントに従って再試験され且つ再調節されなければならないことが当業者には明白であろう。この手順はコード及びＤｏ小ループ個別ブロックを最適化するだけではな（、コード構造全体に全体的な効果をもたらし得る。例えば、幾つかのＤＯ小ループ一つのループに”融合”された場合、これらのＤＯループ内及び中での依存性が考慮され必要に応じて変更される。また、データの再分布又は再マツピングは同様の全体的な効果をもたらす。かくして、採用されたコード変換及びヒユーリスティックに基ずいて、コンパイラによって生成されている目的コードが生成出来る程、最適となることを保証するべく、各段階において、試験された実時間の最適化が行われる。

上記の説明は本発明を例示するだけであることを了解すべきである。本発明から逸脱することな（、種々の変更及び修正が当業者によって考案され得る。従って、本発明は、付記された請求の範囲に属する全ての斯かる変更、修正及び変異を含むと意図される。

ＦＩＧ、　２ＦＩＧ、　３ＦＩＧ、　４最適化コンパイラＦＩＧ、７手続補正書

Claims

【特許請求の範囲】

１．ソースコードリストを目的コードリストにコンパイルする方法であって、そのオペレーションを制御するコンパイラソフトウエアを有するコンピュータによって実行される方法において、ａ．上記ソースコードリストからソースコードステートメントを抽出する段階、ｂ．上記ブロックにおける各ソースコードステートメントを中間コードフォーマットにマッピングする段階であって、上記フォーマットが上記ソースコードステートメントによって呼び出されたファンクションを実行するために依存した一連の機械処置を画定している段階、ｃ．上記ブロックにおける上記中間コードフォーマットの初期近似シミュレーションを実行し、上記シミュレーションからパフォーマンス結果を引き出す段階、ｄ．上記パフォーマンス結果に依存して、上記パフォーマンス結果を改良することを試みて、上記中間コードフォーマットを修正する段階、ｅ．斯かる処置を終端する決定点に到達するまで、段階ｃ及びｄを反復する段階を含むことを特徴とする方法。
２．上記中間コードフォーマットがワイド中間コード（ＷＩＣ）ステートメントを含み、段階（ｃ）が各ＷＩＣステートメント及びＷＩＣステートメントの各ブロックの近似シミュレーションを実行することを特徴とする請求項１の方法。
３．段階ｄにおける上記修正が一群のコード変換及びヒューリスティックからのルーチンに従って上記ＷＩＣステートメントについて実行されることを特徴とする請求項２の方法。
４．段階ｂが、ｂ１．上記ブロック中の各上記ＷＩＣステートメント内の依存性を決定し、上記初期近似シミュレーションを上記依存性に従って作動せしめる更なる段階を含むことを特徴とする請求項３の方法。
５．段階ｃが更に、ｃ１．上記コンピュータにおける使用可能エレメントを画定するアーキテクチュアパラメータのリストを配設する段階、ｃ２．ＷＩＣステートメントを実施するために一組の上記使用可能エレメントを割り当てる段階、及びｃ３．上記ＷＩＣステートメントを上記の割り当てられた処理エレメントを通じて処理するために近似シミュレーションルーチンを作動する段階を含むことを特徴とする請求項４の方法。
６．上記近似シミュレーションルーチンが各ＷＩＣステートメントの粗いシミュレーションを行い、上記シミュレーションが、演算／論理原始的オペレーションのクロックサイクル当たり、ＷＩＣステートメント当たりの数、ＷＩＣステートメント当たりのメモリ参照競合の数の測定を可能にし、且つ更に、各ブロックに対する上記オペレーション及び競合の数の蓄積を可能するのに少なくとも十分であることを特徴とする請求項５の方法。
７．段階ｄが更に、ｄ１．上記パフォーマンス結果を上記コンピュータのための作動基準に対して比較し、上記比較の結果が上記結果が上記作動基準と少なくとも等しいことを示さない場合、段階ｅを実行する段階を含むことを特徴とする請求項６の方法。
８．段階ｄが更に、ｄ２．上記ＷＩＣステートメントを修正した後、上記決定された依存性を上記修正されたＷＩＣステートメントに従って更新する段階を含むことを特徴とする請求項７の方法。
９．段階ｄが更に、ｄ３．メモリ参照競合を低減することを試みて、上記ＷＩＣステートメントのブロックのためのメモリアドレス割り当てを修正する段階を含むことを特徴とする請求項８の方法。
１０．段階ｄが更に、ｄ４．使用可能エレメントによる上記原始的オペレーションのストリングの並列的実施を可能にするベく上記のオペレーションのストリングを分割する段階を含むことを特徴とする請求項９の方法。
１１．段階ｄが更に、ｄ５．上記ＷＩＣステートメントの修正に続いて、上記の修正されたＷＩＣステートメントを実施するのに十分な非割り当て処理エレメントが使用可能か否かを評価し、使用可能でない場合、上記ＷＩＣステートメントを修正して使用可能処理エレメントを利用できるようにする段階を含むことを特徴とする請求項１０の方法。
１２．段階（ｅ）における上記決定点がユーザによってエンタされたパラメータであることを特徴とする請求項１１の方法。