JPH06236392A

JPH06236392A - パラレル型計算機向け超行列演算方式

Info

Publication number: JPH06236392A
Application number: JP2223493A
Authority: JP
Inventors: Yushi Mochizuki; 祐志望月; Naoki Nishi; 直樹西; Toshikazu Takada; 俊和高田
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1993-02-10
Filing date: 1993-02-10
Publication date: 1994-08-23

Abstract

(57)【要約】【目的】パラレル化方式によって、超行列の積和演算処
理についてＣＰＵ台数に応じたスケーラブルな加速を得
ることができるパラレル型計算機向け超行列演算方式の
提供。【構成】２つ以上の多重添字を持つ超行列量に関する積
和、Ｚ_I ^(R)＝Σ_JΣ_rstu・・Ｑ_IJ ^rstu・・Ｓ_rstu・・Ｃ_J ^(R)
（１）の演算処理において、積和添字群rstu・・に関する部分を
２つ以上に分割し、Ｚ_I ^(R)＝Σ_rs・・（Σ_JΣ_tu・・Ｑ_IJ ^rstu・・Ｓ_rstu・・Ｃ_J
^(R)）（２）などとして、分割された添字群rs・・、及び積和に直接関
与せずベクトル列を指定する添字R を複合的に組み合わ
せてパラレル処理のために制御変数とし、式（２）の括
弧内の部分演算処理をパラレル型計算機を構成する個々
のＣＰＵに実行させる。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、例えば分子軌道法にお
ける配置間相互作用（ＣＩ：configurationinteraction
）計算の緩和反復による求解過程などに現れる２つ以
上の多重添字を持つ超行列量に関する積和演算を、複数
のＣＰＵを有するパラレル型計算機上で実行することに
より、処理に要する演算時間を短縮できるパラレル型計
算機向け超行列演算方式に関する。

【０００２】

【従来の技術】例えば、図３に示す分子軌道法における
配置間相互作用計算の緩和反復による求解過程では、２
つ以上の多重添字を持つ超行列に関する積和の一般化表
現である下式（４’）Ｚ_I ^(R)＝Σ_JΣ_rstu・・Ｑ_IJ ^rstu・・Ｓ_rstu・・Ｃ_J ^(R) （４’）の添字を４つとした、Ｚ_I ^(R)＝Σ_JΣ_rstuＱ_IJ ^rstuＳ_rstuＣ_J ^(R) （４）なる積和が繰り返し計算され、この演算時間が求解に要
する全ＣＰＵ時間を支配している。

【０００３】ここで、Ｃ_J ^(R)は緩和反復により更新中
のR 番目の解ベクトル、Ｚ_I ^(R)は積和演算（式
（４））により構成されるR 番目の作業ベクトルであ
り、ＣベクトルとＺベクトル個々の要素は添字IJで指定
される。Ｓ_rstuは分子軌道の添字rstuによって指定され
る２電子分子積分、またＱ_IJ ^rstuはIJによって特定され
る電子配置とスピン結合によって決まる積和係数であ
る。

【０００４】上記の配置間相互作用計算に限らず、一般
式（４’）で表される超行列の積和演算は、構造解析、
熱伝導解析等に用いられる有限要素計算などでも現れ、
その処理は求解に要する全ＣＰＵ時間を支配しているた
め、アルゴリズムの改良等による高速化の最重要ポイン
トである。

【０００５】従来技術では、式（４’）の積和演算は図
２の流れにそって実行され、その高速化アルゴリズムの
工夫は、最深部ループの実行長を出来る限り長く取る
等、単一のベクトル型ＣＰＵを持つ計算機での実行を前
提として主に行われてきた。最近では、ベクトル型ＣＰ
Ｕを数台〜十数台程度まとめた小規模のパラレル型計算
機も利用可能ではあるが、アルゴリズム的には新たな工
夫がなされていないため十分な加速は得られない。

【０００６】一方、科学技術計算のための高速機（いわ
ゆるスーパーコンピュータ）の進化の観点から考えれ
ば、単一〜十数台のベクトル型ＣＰＵ構成の計算機では
もはや劇的な性能向上は望めないことは明かであり、テ
ラフロップス（TFLOPS）超級の処理速度を達成するため
にも、今後は数百台〜数千台規模の複数のベクトル型Ｃ
ＰＵ、ないしは高速スカラー型ＣＰＵを有するパラレル
型計算機が実行のプラットフォームとなることが予測さ
れる。

【０００７】パラレル型計算機では、単一ベクトル型計
算機と異なり、直接アーキテクチャー的に時間軸上の処
理が３次元空間に展開されるため、ベクトル機の場合の
最深ループ長の長大化の工夫に加えて、メモリー構成や
その内容の整合性、あるいは通信頻度などの問題を合わ
せて考慮しなければ有効な高速化アルゴリズムは考案出
来ない。しかし、これまでのところ、式（４’）の積和
処理を高速化するパラレル型計算機向けの方式は提案さ
れていない。

【０００８】

【発明が解決しようとする課題】従来技術においては、
式（４’）の積和処理を単一のベクトル型ＣＰＵを持つ
計算機で実行する場合、例えばtuに関する２重ループを
１重ループにまとめるなどして最深ループ長を、ベクト
ル処理に先立つ前処理のオーバーヘッドによって理論処
理速度よりも低下する領域を越えるように、出来る限り
長く取るなどの工夫が高速処理アルゴリズムの骨格を成
していた。

【０００９】しかし、tuの添字長が実行機の理論ベクト
ル性能を与える長さ（ｌ_Tとする）以上に達している場
合、それ以上の速度向上は望めず、tuの過剰長、及びそ
の外側を取り巻くrsやJ などtu以外の添字に関する多重
処理ループは、そのまま全処理時間の増加因子となって
しまう。そのため、積和添字の変数長が理論ベクトル性
能長に比べて非常に長い大規模計算は、ベクトル化によ
る加速をもってしても高速化は依然困難な状況にあると
いう問題点がある。

【００１０】また、現存の数台〜十数台までの小規模パ
ラレル型計算機での式（４’）の実行において、単純に
式中のベクトル列を指定する添字R をパラレル化の変数
とすることも出来るが、ベクトル列の数が数本と小さい
場合はＣＰＵ台数を活かした有効な加速が得られず、よ
りＣＰＵ台数の多いパラレル型計算機では、ＣＰＵの有
効利用率の悪さはより深刻となるはずで、処理方式は根
本的に見直さなければならないという問題点がある。

【００１１】

【課題を解決するための手段】本発明のパラレル型計算
機向け超行列演算方式は、２つ以上の多重添字を持つ超
行列量に関する積和、Ａ_I ^(R)＝Σ_JΣ_rstu・・Ｘ_IJ ^rstu・・Ｙ_rstu・・Ｂ_J ^(R) （１）の演算処理において、積和添字群rstu・・に関する部分を
２つ以上に分割し、Ａ_I ^(R)＝Σ_rs・・（Σ_JΣ_tu・・Ｘ_IJ ^rstu・・Ｙ_rstu・・Ｂ_J ^(R)）（２）などとして、分割された添字群rs・・、及び積和に直接関
与せずベクトル列を指定する添字R を複合的に組み合わ
せてパラレル処理のために制御変数とし、式（２）の括
弧内の部分演算処理をパラレル型計算機を構成する個々
のＣＰＵに実行させることを特徴としている。

【００１２】

【作用】第１の発明によれば、式（２）において添字群
rs・・及びR を複合的に組み合わせてパラレル化すること
が出来るので、数台〜数千台のＣＰＵを有するパラレル
型計算機に対して有効な加速を得ることが可能である。

【００１３】独立性のある添字R に関しては、パラレル
化に伴う積和値整合性保持、いわゆる排他制御の問題は
生じないが、分割された積和添字群rs・・に関するパラレ
ル化では排他制御の必要がある。排他制御にはＣＰＵ間
での通信が伴い、台数が増加した際のパラレル化加速効
率の低下要因となることが知られている（スケーラビリ
ティ（scalability ）の低下）。そこで、第２の発明に
より、ある（rs・・，R ）対について式（２）の括弧内の
積和処理の終えた個々のＣＰＵは、式（３）に従って部
分生成された積和値をマスターコピーに移し、続けて新
しい（r's'・・，R'）対について処理を進め、以下全ての
パラレル化変数対についての処理が終わるまで連続的に
この操作を続ける。

【００１４】これによって単位時間あたりの各ＣＰＵの
負荷分散が図られるので、与えられたＣＰＵ資源を有効
に利用することが出来る。すなわち、第２の発明のパラ
レル化方法によって超行列の積和処理に関して排他制御
に関わる通信頻度を低減し、パラレル化効率の低下を抑
え、スケーラブルな加速を得ている。

【００１５】rs・・及びR の複合パラレル化の実際の制御
については、第３の発明によりマスターとスレーブのよ
うにＣＰＵ群を階層化して行う方法、第４の発明により
広域メモリー上に置かれる制御テーブルを各ＣＰＵが参
照しながら行う方法、の２方式を挙げる。

【００１６】パラレル化変数であるrs・・が指定されれ
ば、式（２）の括弧内の積和を実行すべき各ＣＰＵは、
積和処理の対象である超行列Ｘ_IJ ^rstu・・、Ｙ_rstu・・の全
体ではなく、積和添字群tu・・に関する部分だけを参照す
れば良い。

【００１７】すなわち、各ＣＰＵに随伴する局所メモリ
ー上には、tu・・に関する超行列の１部分が存在すれば積
和処理が出来る。

【００１８】各ＣＰＵがこれらの部分超行列を局所メモ
リー上に準備するには、外部ファイルから競合的に読む
方法もあるが、第５の発明では直接計算して生成する。

【００１９】この第５の発明の直接生成法では、競合読
み込みのＩ／Ｏによるパラレル化効率の低下が回避出来
るだけでなく、ファイル容量の制限からも解放されるの
で、添字長の長い大規模計算に本質的に有利となる。

【００２０】

【実施例】本発明の一実施例として、図３の流れにそっ
て実行される前述の分子軌道法における配置間相互作用
計算を例に取り説明する。

【００２１】配置間相互作用法では、分子系の多電子の
波動関数Φを配置関数（CSF:configuration state func
tion）Ψ_Iの線形結合、 Φ＝Σ_IＣ_IΨ_I （５）で表す。添字Ｉは、実際には種々の電子配置とスピン結
合の様式の組み合わせによって指定される。

【００２２】展開係数であるＣベクトルは、変分原理に
よって固有値問題、 Σ_JＨ_IJＣ_J−ＥＣ_I＝０，Ｈ_IJ＝∫Ψ_IＦΨ_Jｄτ （６）を解くことにより固有ベクトルとして得られ、固有値で
あるＥがエネルギーとなる。

【００２３】式（６）で、Ｆは１体（運動エネルギーと
核引力）と２体（電子間反発）の演算子から成る、系の
電子エネルギーを記述するハミルトニアン演算子であ
る。

【００２４】これに対応して、ハミルトニアン行列（エ
ネルギー行列）の要素Ｈ_IJは、１電子、２電子の分子積
分から構成されるが、演算量とデータ量の観点からは分
子軌道の添字を４つ持つ２電子の分子積分Ｓ_rstuの処理
が問題となる。そこで、以下では２電子積分の扱いのみ
を説明する。

【００２５】ハミルトニアン行列の対角化だが、その次
元数、すなわち配置関数の総数が容易に１０⁴以上に達
すること、求解数が高々数個であることなどから、図３
に示すように逐次緩和に基づく反復解法が用いられる。

【００２６】反復対角化では、Ｚ_I ^(R)＝Σ_JＨ_IJＣ_J ^(R) （７）が解の収束まで繰り返し計算され、求解に要する計算時
間を支配する。

【００２７】ここで、添字R は求めるべき解ベクトル部
分と解ベクトルを改良するための補正ベクトル部分を含
めたベクトルセット全体を指定する。

【００２８】式（７）は、ハミルトニアン行列要素をあ
らわに構成しない直接（Direct-CI）法（B.O.Roos, Che
m.Phys.Lett.,15(1972)p153) 型の解法では、２電子積
分部分に関連して式（４）に還元される。つまり、式
（４）の計算がパラレル化によって高速化すべき対象と
なる。

【００２９】図１に従ってパラレル化を行うと、分子軌
道の４添字rstuは、rs分子軌道対（総数を#Pと書く) と
tu分子軌道対に分かれ、前者がパラレル化処理の変数と
なる。つまり、Ｚ_I ^(R)＝Σ_rs（Σ_JΣ_tuＱ_IJ ^rstuＳ_rstuＣ_J ^(R)）（８）となる。

【００３０】例として、マスターとスレーブにＣＰＵを
階層付けしてパラレル化を制御するとすれば、パラレル
化の階層木は図４のように書かれる。すなわち、広域メ
モリーを有するマスターＣＰＵがrs対とベクトルの列の
添字R （総数を#Vと書く）を組み合わせて、局所メモリ
ーを有するスレーブＣＰＵに個別にＺベクトル要素の部
分生成のための積和処理を発行する形態になる。ここ
で、スレーブＣＰＵはベクトル実行が可能であり、Ｚベ
クトルとＣベクトルのマスターコピーは広域メモリー上
に置かれているとする。

【００３１】Ｚベクトル要素生成のパラレル処理につい
てさらに説明する前に、分子軌道のタイプ分け、及びそ
れから導かれる配置関数（CSF ）と分子積分のタイプ分
けについて述べる。

【００３２】まず分子軌道のタイプ分けについてだが、
本実施例では内部軌道、活性軌道、外部軌道の３つに分
類する。汎用の配置間相互作用計算は適当な参照電子配
置CSF 群を基準にして行われ、内部、活性の両軌道が電
子の入った占有軌道となる。参照CSF では、内部軌道が
常に２電子占有され、活性軌道は種々の占有パターンを
持つ。

【００３３】占有軌道の１個ないし２個の電子が外部軌
道に励起されることによって励起CSF 群が作られ、参照
CSF 群と合わせて系の波動関数が張られる。CSF は、添
字Iに応じる電子配置が３つに分類された分子軌道の添
字を幾つづつ含むかによってN_T種に分類される。従っ
て、ＣベクトルとＺベクトルのセットの構造は模式的に
図５のように表される。

【００３４】分子軌道のタイプ分けによって、積分も４
つの添字の帰属によってタイプ分けされる。CSF タイプ
間の非零の相互作用、すなわち非零のハミルトニアン行
列要素を与える組み合わせが決まれば、その非零要素に
寄与する積分タイプ群は自動的に決まる。逆に言えば、
ある積分タイプについて関連するCSF タイプ間に相互作
用群は特定される。

【００３５】さて、本実施例によるＺベクトル生成のパ
ラレル処理のネスト構造について述べる。図６にネスト
構造を与える。図６において、rs分子軌道対とベクトル
列R に関する外側２つのグランドループ部分は、マスタ
ーＣＰＵによって駆動される。スレーブＣＰＵは与えら
れた１つのrs対に対して全てのtu対を持つように分子積
分を準備して、１つ内側のCSF 間の相互作用に関するグ
ランドループをバッチ的に処理する。

【００３６】処理の前に広域メモリーから局所メモリー
に必要なＣベクトルのブロックが転送され、対応するＺ
ベクトルのバッファー領域が局所メモリー上に確保され
る。

【００３７】このＺベクトルのバッファリングにより、
積和演算処理中のメモリー参照は個々の局所メモリー内
で済ませられ、広域メモリーとの間の通信頻度を減ら
し、スケーラビリティの低下を回避することが出来る。

【００３８】マスターＣＰＵは式（３）の一般式に従
い、処理の終了した局所メモリー上のＺベクトルのバッ
ファーから広域メモリー上のマスターコピーに整合性を
保持しつつまとめて加算する。

【００３９】マスターＣＰＵは、処理の終了したスレー
ブＣＰＵに対して次々に新しい（rs,R）を割当て連続的
に実行させる。これによって、各スレーブＣＰＵに対す
る単位時間あたりの負荷を均等化し、与えられる台数を
有効に活かすことが出来る。

【００４０】図６において、CSF タイプ間の相互作用が
異なると、ベクトル実行すべき最深のtu分子軌道対に関
するループはもちろん、明記はしていないがその外側の
電子配置、及びスピン結合様式の組み合わせに関する多
重ループの構造も全て異なるので、個々のスレーブＣＰ
Ｕが異なるプログラム命令を実行するMIMD（multi inst
ruction stream multi data ）的処理形態となる。

【００４１】本実施例の配置間相互作用法のパラレル処
理では、式（８）中のＪに関する積和ループ、及びベク
トル要素の添字Ｉに関するループは、こうした非零の相
互作用のバッチ処理の中に暗に組み込まれ、あらわな形
では表れることがない。なお、CSF 間の相互作用群をス
レーブＣＰＵがバッチ的に束ねて処理することも、通信
頻度を減らしスケーラビリティを確立することに役立
つ。

【００４２】次に、外部ファイルから競合的に読み込む
のではなく、スレーブＣＰＵが分子積分を直接生成する
場合を考える。処理はスレーブＣＰＵに渡った段階でrs
分子軌道対は決まっているので、各ＣＰＵは全tu対につ
いて２電子分子積分Ｓ_{"rs" tu}を準備すればよい。ここ
で、 ""は添字が固定されていることを示す。rs対を固
定された２電子分子積分は基底関数ベースの積分Ｓ_mnop
から、Ｓ_{"rs" tu}＝Σ_mnopＶ_mrＶ_nsＶ_otＶ_puＳ_mnop ( 全てのtu対に対して) （９）の線形変換によって作られる。ここで、Ｖ行列は基底関
数による分子軌道の展開係数行列である。

【００４３】基底関数積分の調達についてだが、マスタ
ーＣＰＵが代表して作り分配することも考えられるが、
通信頻度を考えると不利である。

【００４４】そこで、本実施例では、図７のようにスレ
ーブＣＰＵ群を適当にグループとしてまとめておき（グ
ループ数は G_n）さらに下位の基底関数積分生成専用の
ＣＰＵと局所メモリーを設定しておき、そこから分配す
る。

【００４５】この方式により、２電子積分に関連したフ
ァイル容量、通信頻度などのＩ／Ｏ問題から解放され、
軌道数の多い大型分子の配置間相互作用計算が可能とな
る。

【００４６】次に、本発明の他の実施例である２次の多
体摂動論によるエネルギー計算のパラレル化について述
べる。

【００４７】系の電子状態が単一の閉殻スレーター（Sl
ater）行列式で定性的に正しく記述されている場合、２
次の摂動論による相関エネルギー補正Ｅ_corr.は、Ｅ_corr.＝Σ_abijＩ_aibj［２Ｓ_aibj−Ｓ_ajbi］× ［ε_i＋ε_j−ε_a−ε_b］^-1 （１０）で与えられる。ここで、添字ijは占有軌道、abは非占有
軌道を指定し、ε_i、ε_j、…等は分子軌道の軌道エネ
ルギーを表す。

【００４８】式（１０）は式（４’）の一般式の添字IJ
及びR を取り、スカラー化したものに相当する。本実施
例によるパラレル化に従えば、式（１０）の４重の積和
はabとijに分割され、abをパラレル化変数、ijをベクト
ル化の変数（あるいはab、ijを入れ換えても可）として
計算される。

【００４９】各ＣＰＵにおけるijの積和において、上で
述べた２電子分子積分の直接生成法を組み合わせれるこ
とにより、大型分子に対する摂動エネルギーの計算が可
能である。

【００５０】なお、本実施例の摂動計算のパラレル化
は、３次、４次等の高次の摂動エネルギー、開殻系ある
いは多参照配置系の摂動エネルギー、及びグリーン（Gr
een ）関数法における自己エネルギーについても同様に
適用出来る。

【００５１】

【発明の効果】以上、配置間相互作用計算の緩和和反復
による求解、及び２次の摂動論による相関エネルギー計
算を例に詳述したように、本発明によるパラレル化方式
によって、超行列の積和演算処理についてＣＰＵ台数に
応じたスケーラブルな加速を得ることができるという効
果を有する。

【図面の簡単な説明】

【図１】パラレル化による超行列の積和演算の流れ図で
ある。

【図２】パラレル化によらない超行列の積和演算の流れ
図である。

【図３】配置間相互作用計算における反復解法の流れ図
である。

【図４】配置間相互作用計算の緩和反復による求解を、
ＣＰＵをマスターとスレーブに階層化してパラレル化す
る場合の処理階層を表す木構造である。

【図５】配置間相互作用計算の緩和反復による求解で現
れるベクトルセットの構造の模式図である。

【図６】配置間相互作用計算の緩和反復による求解のパ
ラレル処理のネスト構造の模式図である。

【図７】分子積分を各ＣＰＵが直接生成する際に、元と
なる基底関数積分を供給する方法を示す概念図である。

【符号の説明】

特になし

Claims

【特許請求の範囲】

【請求項１】２つ以上の多重添字を持つ超行列量に関
する積和、Ａ_I ^(R)＝Σ_JΣ_rstu・・Ｘ_IJ ^rstu・・Ｙ_rstu・・Ｂ_J ^(R) （１）の演算処理において、積和添字群rstu・・に関する部分を
２つ以上に分割し、Ａ_I ^(R)＝Σ_rs・・（Σ_JΣ_tu・・Ｘ_IJ ^rstu・・Ｙ_rstu・・Ｂ_J ^(R)）（２）などとして、分割された添字群rs・・、及び積和に直接関
与せずベクトル列を指定する添字R を複合的に組み合わ
せてパラレル処理のために制御変数とし、式（２）の括
弧内の部分演算処理をパラレル型計算機を構成する個々
のＣＰＵに実行させることを特徴とするパラレル型計算
機向け超行列演算方式。
【請求項２】式（２）の分割された添字群rs・・に関す
る積和のパラレル処理において、最終的に生成されるＡ
_I ^(R) の値を保証するために、台数L の個々のＣＰＵが
式（２）の括弧内の演算処理中に部分生成値を前記各Ｃ
ＰＵに付随するバッファーメモリー上に保持し、処理終
了後に、Ａ_I ^(R)＝Ａ_I ^(R)(CPU₁) + Ａ_I ^(R)(CPU₂)+…+ Ａ_I ^(R)(CPU_L) （３）としてマスターコピーにまとめて加算する積和値の整合
制御を含むことを特徴とする請求項１記載のパラレル型
計算機向け超行列演算方式。
【請求項３】積和添字群rs・・、及び独立性のある添字
R に関する複合パラレル化の制御をマスターＣＰＵが行
い、式（２）の括弧内の演算処理はマスターＣＰＵより
も下位に階層付けられたスレーブＣＰＵ群が行う、多重
階層管理による請求項１または２記載のパラレル型計算
機向け超行列演算方式。
【請求項４】積和添字群rs・・、及び独立性のある添字
R に関す複合パラレル化の制御情報テーブルを、個々の
ＣＰＵが共通に読める広域メモリー上に置き、式（２）
の括弧内の演算処理は各ＣＰＵがテーブルを参照して行
う、単一階層管理による請求項１または２記載のパラレ
ル型計算機向け超行列演算方式。
【請求項５】添字rs・・部分を指定された式（２）の括
弧内の積和対象要素Ｘ_IJ ^rstu・・、Ｙ_rstu・・を、積和処理
を実行する個々のＣＰＵが、外部ファイルから読み込ん
で調達するのではなく、ＣＰＵが直接計算することによ
って生成する請求項１、２、３または４記載のパラレル
型計算機向け超行列演算方式。