JP2002163239A

JP2002163239A - マルチプロセッサシステムおよびその制御方法

Info

Publication number: JP2002163239A
Application number: JP2000356237A
Authority: JP
Inventors: Shigehiro Asano; 滋博浅野; Mitsuo Saito; 光男斎藤
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2000-11-22
Filing date: 2000-11-22
Publication date: 2002-06-07
Also published as: US20020062352A1; EP1209573A2; US6820187B2; EP1209573A3

Abstract

(57)【要約】【課題】マスタプロセッサの負荷の増大を招くことな
く、マルチプロセッサシステムのスループットの向上を
図る。【解決手段】プロセッサエレメント（ＰＥ）にはそれぞ
れ複数のコマンドを蓄積可能なコマンドプーリングバッ
ファ１２１が設けられ、またＤＭＡコントローラにもそ
れぞれ複数のコマンドを蓄積可能なコマンドプーリング
バッファ１３１が設けられている。マスタプロセッサ
（ＭＰ）１１からＤＭＡコントローラや各プロセッサエ
レメント（ＰＥ）へのコマンドは複数まとめて発行する
ことができ、先に送ったコマンドに対する応答を待たず
に次のコマンドを発行することができる。さらに、発行
済みで応答が返ってきてないコマンドの数の管理はカウ
ンタアレイ１１１によって行われ、すべての発行済みの
コマンドに対して応答が返ってきたときにそのことがマ
スタプロセッサ（ＭＰ）１１に通知される。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明はマルチプロセッサシ
ステムおよびその制御方法に関し、特にグローバルメモ
リと各プロセッサエレメントのローカルメモリとの間で
データ／プログラムの転送をＤＭＡ転送によって行うマ
ルチプロセッサシステムおよびその制御方法に関する。

【０００２】

【従来の技術】従来より、マルチプロセッサ方式は計算
機を高速化する手法として広く知られている。マルチプ
ロセッサ方式には、メモリを共有する共有メモリ方式
（密結合マルチプロセッサ方式）と、メモリをプロセッ
サに分散して持つ疎結合マルチプロセッサ方式とがあ
る。

【０００３】共有メモリ方式では共有メモリを通してプ
ロセッサ間の通信を行うことができるのでプログラミン
グが簡単な反面、データの整合性を保持した状態で各プ
ロセッサが共有メモリを参照できるようにするための共
有メモリアクセスに関する特別な仕組みが必要となり、
ハードウェアが複雑になるという欠点がある。また、疎
結合マルチプロセッサ方式では共有メモリを用いたプロ
セッサ間通信は行われないのでハードウェアはその分簡
単化できるが、プロセッサ間通信のための機能をプロセ
ッサ毎にそれを制御するプログラムによって提供する必
要があり、プログラム作成が困難であるという問題があ
る。

【０００４】そこで、疎結合マルチプロセッサ方式の制
御を容易に行うために、各プロセッサの制御を行うため
のマスタプロセッサを設け、そのマスタプロセッサが他
の各プロセッサエレメントにコマンドを送る方法が知ら
れている。マスタプロセッサ上で他の各プロセッサエレ
メントに送るコマンドの順序およびタイミングを制御す
ることで、マルチプロセッサシステム全体の動作を容易
に制御することが可能となる。

【０００５】

【発明が解決しようとする課題】ところで、疎結合マル
チプロセッサ方式では各プロセッサエレメントがローカ
ルなメモリを持つが、疎結合マルチプロセッサ方式であ
っても各プロセッサエレメントで共通に使用可能なメモ
リ（グローバルメモリ）が存在した方がプログラミング
は容易であり、また各ローカルメモリのメモリサイズの
縮小化を図ることもできる。

【０００６】しかし、一般にローカルメモリに比べ、グ
ローバルメモリに対するアクセスにはバス調停やその他
の要因で多くの時間を要する。メモリアクセスのために
プロセッサ資源が長い間専有されてしまうことはスルー
プットの低下をもたらすことになる。

【０００７】これを改善するため、最近では、グローバ
ルメモリと各プロセッサエレメントのローカルメモリと
の間のデータ／プログラムの転送をＤＭＡコントローラ
によって行う仕組みが考えられている。

【０００８】この場合、マスタプロセッサで実行される
プログラムは各プロセッサエレメントおよびＤＭＡコン
トローラを制御する手順を記述したものになる。このプ
ログラムをマルチスレッドで記述することにより、複数
のプロセッサエレメントを効率よく使用することができ
る。

【０００９】ところが、個々のプロセッサエレメントの
処理時間およびＤＭＡにかかる時間は既知ではないの
で、マスタプロセッサ上で実行されるマルチスレッドプ
ログラムで各プロセッサエレメントおよびＤＭＡコント
ローラを制御する場合でも、各スレッドに対応する処理
動作を該当するプロセッサエレメントに無駄無く割り当
てるのは実際上困難である。空いているプロセッサエレ
メントの時間を減らすためには、次の二つの問題点を解
決しなければならない。

【００１０】第１の問題点は、ＤＭＡとプロセッサエレ
メントの処理には依存性があるので、この依存性を制御
するためにマスタプロセッサを用いるが、ＤＭＡおよび
プロセッサエレメントの処理の終了の度にマスタプロセ
ッサへ割り込みやスレッドの切り替えを起こしたのでは
マスタプロセッサの動作が非効率的であるということで
ある。特に、マスタプロセッサによって制御すべきプロ
セッサエレメントの数が増えると、マスタプロセッサへ
割り込みやスレッドの切り替えの処理が頻繁に発生し、
処理効率が低下することになる。

【００１１】第２の問題点は、マスタプロセッサ上で実
行される２以上のスレッドに対応する処理動作をあるプ
ロセッサエレメントに実行させる場合、あるスレッドの
制御でローカルメモリにＤＭＡ転送したデータを、別の
スレッドに対応する処理で使ってしまうということが起
こり得る点である。

【００１２】例えば、スレッドＡとスレッドＢがマスタ
プロセッサ上で並列実行されており、それらスレッドそ
れぞれの制御でプロセッサエレメントがローカルメモリ
上のデータを処理する場合を考える。この場合、スレッ
ドＡとスレッドＢの切り換えのタイミングやＤＭＡおよ
びプロセッサエレメントの処理時間との関係によって
は、グローバルメモリからローカルメモリにＤＭＡ転送
されたスレッドＡ用のデータがスレッドＡに対応するプ
ロセッサエレメントの処理動作で実際に処理される前
に、スレッドＡからスレッドＢへの切り換えが行われ、
プロセッサエレメントのスレッドＢに対応する処理動作
でスレッドＡ用のデータが使われてしまうことがある。
これにより、扱うデータに不整合が生じる。

【００１３】本発明は上述の事情を考慮してなされたも
のであり、マスタプロセッサの負荷の増大や、扱うデー
タの不整合に関する問題を招くことなく、空いているプ
ロセッサエレメントの時間を減らしてスループットの向
上を図ることが可能なマルチプロセッサシステムおよび
その制御方法を提供することを目的とする。

【００１４】

【課題を解決するための手段】上述の課題を解決するた
め、本発明は、マスタプロセッサと、ローカルメモリを
各々が有し前記マスタプロセッサからのコマンドに従っ
てそれぞれ制御される複数のプロセッサエレメントと、
前記複数のプロセッサエレメントに共有されるグローバ
ルメモリとを具備するマルチプロセッサシステムにおい
て、前記マスタプロセッサからのコマンドに従って、前
記グローバルメモリと前記各プロセッサエレメントのロ
ーカルメモリとの間のＤＭＡ転送を行うＤＭＡ実行手段
と、前記マスタプロセッサが各コマンドに対する応答を
待つことなく次のコマンドを発行できるように前記ＤＭ
Ａ実行手段および前記各プロセッサエレメントにそれぞ
れ対応して設けられたコマンド蓄積用バッファと、発行
済みで応答が返ってきてないコマンドの数を管理し、す
べての発行済みのコマンドに対して応答が返ってきたと
きにそれを前記マスタプロセッサに通知する未応答コマ
ンド数管理手段とを具備することを特徴とする。

【００１５】この発明によれば、ＤＭＡ実行手段および
各プロセッサエレメントにそれぞれコマンド蓄積用バッ
ファが設けられているので、マスタプロセッサからＤＭ
Ａ実行手段や各プロセッサエレメントへのコマンドは複
数まとめて発行することができ、先に送ったコマンドに
対する応答を待たずに次のコマンドを発行することがで
きる。さらに、発行済みで応答が返ってきてないコマン
ドの数の管理が行われ、すべての発行済みのコマンドに
対して応答が返ってきたときにそれがマスタプロセッサ
に通知される。この通知により、はじめてマスタプロセ
ッサにスレッド切り替え等の動作をとらせれば、ＤＭＡ
と各プロセッサエレメントの処理の依存性を考慮しつ
つ、マスタプロセッサの負荷を低減することができる。
よって、個々のコマンド発行およびそれに対する応答の
度にスレッドの切り換えが行われるシステムに比べ、シ
ステム全体のスループットを向上させることができる。
もちろん、マスタプロセッサ上のプログラムがシングル
スレッドで動作している場合であっても、割り込み処理
等の回数を減らすことが可能となり、マスタプロセッサ
の負荷を低減することができる。

【００１６】また、スレッド毎に固有の識別子を設け、
その識別子と共にコマンドを発行し、コマンドに対する
応答も識別子と共に返すようにすることが好ましい。そ
して、発行済みで応答が返ってきてないコマンドの数を
スレッド毎に個々に管理し、すべての発行済みのコマン
ドに対して応答が返ってきたスレッドに対してコマンド
処理の完了を通知することにより、スレッド間の切り換
えをよりスムーズに行うことが可能となる。

【００１７】また、本発明は、マスタプロセッサと、ロ
ーカルメモリを各々が有し前記マスタプロセッサからの
コマンドに従ってそれぞれ制御される複数のプロセッサ
エレメントと、前記複数のプロセッサエレメントに共有
されるグローバルメモリとを具備するマルチプロセッサ
システムにおいて、前記マスタプロセッサからのコマン
ドに従って、前記グローバルメモリと前記各プロセッサ
エレメントのローカルメモリとの間のＤＭＡ転送を行う
ＤＭＡ実行手段と、前記マスタプロセッサが各コマンド
に対する応答を待つことなく次のコマンドを発行できる
ように前記ＤＭＡ実行手段および前記各プロセッサエレ
メントにそれぞれ対応して設けられたコマンド蓄積用バ
ッファと、発行済みで応答が返ってきてないコマンドの
数を管理し、すべての発行済みのコマンドに対して応答
が返ってきたときにそれを前記マスタプロセッサに通知
する手段と、前記マスタプロセッサ上で並列実行される
複数のスレッドそれぞれに固有の識別子を用いて、前記
各コマンドをその発行元のスレッドの識別子と共に前記
マスタプロセッサから前記ＤＭＡ実行手段または前記各
プロセッサエレメントに発行する手段と、前記発行され
たコマンドに対応する応答を該当するスレッドの識別子
と共に前記ＤＭＡ実行手段または前記各プロセッサエレ
メントから前記マスタプロセッサに発行する手段と、前
記複数のスレッドそれぞれの識別子を用いて、前記ロー
カルメモリの各記憶領域毎にどのスレッドに対応するプ
ログラムまたはデータが格納されているかを管理する管
理テーブルとを具備し、前記ＤＭＡ実行手段および前記
各プロセッサエレメントは、それぞれ対応するコマンド
蓄積用バッファに蓄積されている前記各スレッドからの
コマンドの中で、実行可能なコマンドを前記管理テーブ
ルを参照して特定し、その特定したコマンドを実行する
ことを特徴とする。

【００１８】この構成によれば、ローカルメモリの各記
憶領域毎にどのスレッドに対応するプログラムまたはデ
ータが格納されているかを管理する管理テーブルが設け
られており、上述の効果に加え、扱うデータの不整合に
関する問題を解消することができる。さらに、ＤＭＡ実
行手段および各プロセッサエレメントは、それぞれ対応
するコマンド蓄積用バッファに蓄積されている各スレッ
ドからのコマンドの中で、実行可能なコマンドを管理テ
ーブルを参照して特定できるので、実行可能なコマンド
から順に正しく実行することが可能となり、ＤＭＡ実行
手段および各プロセッサエレメントの空き時間を減らす
ことが可能となる。

【００１９】

【発明の実施の形態】以下、図面を参照して本発明の実
施形態を説明する。［実施形態１］図１には、本発明の第１実施形態に係る
マルチプロセッサシステムの構成が示されている。この
マルチプロセッサシステムは疎結合方式のマルチプロセ
ッサシステムであり、図示のように、バス１０、マスタ
プロセッサ（ＭＰ）１１、および２つのプロセッサエレ
メント（ＰＥ）１２−１，１２−２を備えている。マス
タプロセッサ（ＭＰ）１１は２つのプロセッサエレメン
ト（ＰＥ）１２−１，１２−２を制御するためのもので
あり、プロセッサエレメント（ＰＥ）１２−１，１２−
２による処理動作は全てマスタプロセッサ（ＭＰ）１１
から発行されるコマンドに従って実行される。

【００２０】２つのプロセッサエレメント（ＰＥ）１２
−１，１２−２の各々はそれぞれ処理対象のプログラム
およびデータを格納するためのローカルメモリを持つ。
プログラムメモリ（ＰＬＳ：ＰｒｏｇｒａｍＬｏｃａ
ｌＳｔｏｒａｇｅ）１３−１およびデータローカルメ
モリ（ＤＬＳ：ＤａｔａＬｏｃａｌＳｔｏｒａｇ
ｅ）１４−１はプロセッサエレメント（ＰＥ）１２−１
のローカルメモリであり、プログラムローカルメモリ
（ＰＬＳ）１３−１にはプロセッサエレメント（ＰＥ）
１２−１に実行させるべきプログラムが格納され、また
データローカルメモリ（ＤＬＳ）１４−１にはプロセッ
サエレメント（ＰＥ）１２−１によって処理させるべき
データ等が格納される。同様に、プログラムメモリ（Ｐ
ＬＳ：ＰｒｏｇｒａｍＬｏｃａｌＳｔｏｒａｇｅ）
１３−２およびデータローカルメモリ（ＤＬＳ：Ｄａｔ
ａＬｏｃａｌＳｔｏｒａｇｅ）１４−２はプロセッ
サエレメント（ＰＥ）１２−２のローカルメモリであ
り、プログラムローカルメモリ（ＰＬＳ）１３−２には
プロセッサエレメント（ＰＥ）１２−２に実行させるべ
きプログラムが格納され、またデータローカルメモリ
（ＤＬＳ）１４−２にはプロセッサエレメント（ＰＥ）
１２−２によって処理させるべきデータ等が格納され
る。

【００２１】さらに、バス１０にはＤＭＡコントローラ
１５−１，１５−２が接続されると共に、メモリコント
ローラ１６を介してグローバルメモリ（ＧＭ）１７が接
続されている。グローバルメモリ（ＧＭ）１７はプロセ
ッサエレメント（ＰＥ）１２−１，１２−２が共通に使
用可能な一種の共有メモリであり、ここにはマスタプロ
セッサ（ＭＰ）１１によって実行されるプログラムおよ
び処理データが格納されるほか、プロセッサエレメント
（ＰＥ）１２−１，１２−２によって実行されるプログ
ラムおよび処理データも格納される。このグローバルメ
モリ（ＧＭ）１７から必要なプログラムをプログラムロ
ーカルメモリ（ＰＬＳ）１３−１，１３−２にそれぞれ
転送することにより、プログラムローカルメモリ（ＰＬ
Ｓ）１３−１，１３−２のメモリサイズを大きくせず
に、比較的大きなプログラムでもそれをプロセッサエレ
メント（ＰＥ）１２−１，１２−２にそれぞれ実行させ
ることができる。

【００２２】また、グローバルメモリ（ＧＭ）１７とデ
ータローカルメモリ（ＤＬＳ）１４−１，１４−２それ
ぞれとの間のデータ転送により、処理対象のデータをグ
ローバルメモリ（ＧＭ）１７からデータローカルメモリ
（ＤＬＳ）１４−１，１４−２に転送してプロセッサエ
レメント（ＰＥ）１２−１，１２−２にそれぞれ処理さ
せたり、それぞれの処理結果のデータをデータローカル
メモリ（ＤＬＳ）１４−１，１４−２からグローバルメ
モリ（ＧＭ）１７に転送するなどの制御を容易に行うこ
とができる。

【００２３】ＤＭＡコントローラ１５−１，１５−２
は、それぞれマスタプロセッサ（ＭＰ）１１からのコマ
ンドに従って、対応するローカルメモリとグローバルメ
モリ（ＧＭ）１７との間でデータ／プログラムのＤＭＡ
転送を実行する。これらＤＭＡコントローラ１５−１，
１５−２の存在により、プロセッサエレメント１２−
１，１２−２およびマスタプロセッサ（ＭＰ）１１の資
源を専有することなく、ローカルメモリとグローバルメ
モリ（ＧＭ）１７との間のデータ／プログラムの転送を
効率よく行うことができる。

【００２４】上述したように、プロセッサエレメント１
２−１，１２−２の処理およびＤＭＡコントローラ１５
−１，１５−２の動作は全てマスタプロセッサ（ＭＰ）
１１によって制御される。この制御処理は、マスタプロ
セッサ（ＭＰ）１１上で実行されるマルチスレッドプロ
グラムによって実行される。マルチスレッドプログラム
を構成する複数のスレッドはマスタプロセッサ（ＭＰ）
１１上で並列に実行され、それらスレッド毎に必要な演
算処理等がプロセッサエレメント１２−１または１２−
２を用いて実行される。つまり、各スレッドはＤＭＡコ
ントローラ１５−１または１５−２、およびプロセッサ
エレメント１２−１または１２−２に送るコマンドの順
序およびタイミングを制御することで、必要な演算処理
をプロセッサエレメントに実行させ、その処理結果をグ
ローバルメモリ（ＧＭ）１７上に転送させることができ
る。基本的には、以下の手順で処理が行われる。

【００２５】１）グローバルメモリ（ＧＭ）からプログ
ラムローカルメモリ（ＰＬＳ）へのプログラムのＤＭＡ
転送２）グローバルメモリ（ＧＭ）からデータローカルメモ
リ（ＤＬＳ）への処理対象データのＤＭＡ転送３）プロセッサエレメントによる処理４）データローカルメモリ（ＤＬＳ）からグローバルメ
モリ（ＧＭ）への処理結果データの転送本マルチプロセッサシステムは例えば産業用または家庭
用機器への組み込みコンピュータとして使用される。こ
の場合、図１に示した複数の機能モジュールのうち、グ
ローバルメモリ（ＧＭ）１７を除く他の全てのモジュー
ルは１チップＬＳＩ上に集積形成することができる。

【００２６】さらに、本マルチプロセッサシステムで
は、一連の制御に必要な幾つかのコマンドをまとめて扱
えるようにするために、プロセッサエレメント（ＰＥ）
１２−１，１２−２にはそれぞれ複数のコマンドを蓄積
可能なコマンドプーリングバッファ１２１が設けられ、
またＤＭＡコントローラ１５−１，１５−２にもそれぞ
れ複数のコマンドを蓄積可能なコマンドプーリングバッ
ファ１３１が設けられている。これらコマンドプーリン
グバッファ１２１，１３１の各々は追い越し制御可能な
一種のコマンドキュー（プール）である。

【００２７】これらコマンドプーリングバッファ１２
１，１３１の存在により、マスタプロセッサ（ＭＰ）１
１からＤＭＡコントローラ１５−１，１５−２や各プロ
セッサエレメント（ＰＥ）へのコマンドは複数まとめて
発行することができ、先に送ったコマンドに対する応答
を待たずに次のコマンドを発行することができる。さら
に、発行済みで応答が返ってきてないコマンドの数の管
理はマスタプロセッサ（ＭＰ）１１に設けられたカウン
タアレイ１１１によって行われ、すべての発行済みのコ
マンドに対して応答が返ってきたときにそのことがマス
タプロセッサ（ＭＰ）１１に通知される。この通知によ
り、はじめてマスタプロセッサ（ＭＰ）１１にスレッド
切り替え等の動作をとらせることにより、ＤＭＡと各プ
ロセッサエレメント１２−１，１２−２の処理の依存性
を考慮しつつ、マスタプロセッサ（ＭＰ）１１の負荷を
低減することができる。この場合、実際には、スレッド
間の切り換えをよりスムーズに行うために、発行済みで
応答が返ってきてないコマンドの数の管理はスレッド毎
に行うことが好ましい。

【００２８】すなわち、本実施形態では、スレッドごと
に固有の識別子ＶＴＩＤ（ＶｉｒｔｕａｌＴｈｒｅａ
ｄＩＤ）を付ける。さらに、カウンタアレイ１１１に
はＶＴＩＤごとに固有のカウンタを設け、マスタプロセ
ッサ（ＭＰ）１１からのコマンドの発行で該当するカウ
ンタをインクリメントする。ＤＭＡコントローラ１５−
１，１５−２やプロセッサエレメント（ＰＥ）１２−
１，１２−２へはコマンドと共にＶＴＩＤを送出するよ
うにし、ＤＭＡコントローラ１５−１，１５−２やプロ
セッサエレメント（ＰＥ）１２−１，１２−２からの応
答には対応したＶＴＩＤを共に返すようにする。マスタ
プロセッサ（ＭＰ）１１では応答と共に返ってきたＶＴ
ＩＤに対応したカウンタをデクリメントする。カウンタ
が０になれば、はじめて該当するスレッドにそれを通知
してスリープ状態から実行状態に起こすことにより、実
行スレッドの切り換えをよりスムーズに行うことが可能
となる。図２にこの様子を示す。

【００２９】図２（ａ）は従来の場合に相当するもので
あり、マスタプロセッサ（ＭＰ）１１上で実行されてい
るスレッドはプロセッサエレメント（ＰＥ）へ２回コマ
ンドを発行したことで２回の応答を受けている。この例
ではコマンドを発行したときにスレッドをスリープさ
せ、応答があったときコマンドを再び起こしているが、
これは割り込みであったり、スリープの代わりにビジー
ウェイトであっても構わない。

【００３０】図２（ｂ）は本実施形態の場合であり、マ
スタプロセッサ（ＭＰ）１１上で実行されているスレッ
ドからプロセッサエレメント（ＰＥ）に最初にコマンド
をなげた時点でカウンタの値が１になる。その後、２個
目のコマンドをプロセッサエレメント（ＰＥ）に投げて
このスレッドをスリープさせる。この時、カウンタの値
は２になっている。その後、プロセッサエレメント（Ｐ
Ｅ）より最初のコマンドに対する応答が返ってきてカウ
ンタの値は１になる。最後にプロセッサエレメント（Ｐ
Ｅ）より２個目のコマンドに対応する応答が返ってきて
カウンタの値が０になり、スリープしていたスレッドを
起こす。

【００３１】あるスレッドがスリープしている間は他の
スレッドがマスタプロセッサ（ＭＰ）１１上で実行され
るので、一連の処理に必要な幾つかのコマンド処理待ち
の間にマスタプロセッサ（ＭＰ）１１は他の処理を行う
ことができる。コマンドをいくつ発生してからスリープ
するかについては各スレッドの記述によって決まる。

【００３２】以上のようにカウンタという簡単なハード
ウェアを設けることにより、マスタプロセッサ（ＭＰ）
１１上のスレッドをスリープさせたり再び起こしたりす
るオーバーヘッドが削減される。もちろん、割り込み
や、ビジーウェイトなどを使った場合も同様にオーバー
ヘッドは削減される。

【００３３】このような仕組みを実現するためのハード
ウェアは以下の図３のような構成が考えられる。

【００３４】図３ではマスタプロセッサ（ＭＰ）１１と
それにつながるバス１０を示している。マスタプロセッ
サ（ＭＰ）１１は図示のようにプロセッサモジュール２
０１、バスコントローラ２０２、およびカウンタアレイ
２０３を備えている。このカウンタアレイ２０３は図１
のカウンタアレイ１１１と同じものである。

【００３５】プロセッサモジュール２０１からコマンド
を発行するとき、コマンドは発行元のスレッドのＶＴＩ
Ｄと共にバスコントローラ２０２に送られる。また、プ
ロセッサモジュール２０１からカウンタアレイ２０３に
はＶＴＩＤが与えられる。カウンタアレイ２０３ではＶ
ＴＩＤに対応したカウンタをインクリメントする。一
方、バス１０を介してＶＴＩＤとともに応答が返ってく
ると、カウンタアレイ２０３の対応するカウンタをデク
リメントする。カウンタが０になった場合はプロセッサ
モジュール２０１への通知が行われ、該当するＶＴＩＤ
のスレッドが起こされ、すべての発行済みのコマンドに
対して応答が返ってきたスレッドに対してコマンド処理
の完了が通知される。

【００３６】次に、図４および図５のフローチャートを
参照して、マスタプロセッサ（ＭＰ）１１上で実行され
る各スレッドの動作と、各スレッドからのコマンドで制
御されるＤＭＡコントローラおよびプロセッサエレメン
トの動作について説明する。

【００３７】図４は、マスタプロセッサ（ＭＰ）１１上
で実行される各スレッドの動作を示している。まず、ス
レッドはＤＭＡコントローラ１５−１，１５−２やプロ
セッサエレメント（ＰＥ）１２−１，１２−２に対し
て、ＶＴＩＤとコマンドの組をＮ個順次発行する（ステ
ップＳ１０１）。この後、スレッドは、対応するＶＴＩ
ＤのカウンタをＮにセットした後（ステップＳ１０
２）、スリープ状態に移行される（ステップＳ１０
３）。そして、カウンタアレイ２０３から通知が来る
と、カウンタ値が０になったカウンタに対応するＶＴＩ
Ｄのスレッドがスリープ状態から起こされ（ステップＳ
１０４）、その起こされたスレッドによる処理が続行さ
れる。

【００３８】図５は、ＤＭＡコントローラ１５−１，１
５−２およびプロセッサエレメント（ＰＥ）１２−１，
１２−２の動作を示している。

【００３９】ＤＭＡコントローラまたはプロセッサエレ
メントでマスタプロセッサ（ＭＰ）１１からのコマンド
が受け付けられると（ステップＳ１１１）、まずそのコ
マンドに対応するＶＴＩＤがセーブされた後（ステップ
Ｓ１１２）、コマンド処理が実行される（ステップＳ１
１３）。このコマンド処理では、ＤＭＡコントローラ１
５−１，１５−２の場合にはコマンドで指定されたＤＭ
Ａ転送が実行され、プロセッサエレメントの場合にはコ
マンドで指定されたプログラム実行処理が行われること
になる。

【００４０】コマンド処理が終了すると、そのコマンド
を実行したＤＭＡコントローラまたはプロセッサエレメ
ントは、そのコマンドに対する応答として、セーブして
おいたＶＴＩＤと共にコマンド完了通知をマスタプロセ
ッサ（ＭＰ）１１に発行する（ステップＳ１１４）。

【００４１】以上のように、本マルチプロセッサシステ
ムによれば、スレッドごとの識別子ＶＴＩＤとマスタプ
ロセッサ（ＭＰ）１１に設けたＶＴＩＤごとのカウンタ
によって発行済みで応答のないコマンド数をスレッドご
とに管理し、発行済みのコマンド処理がすべて終わった
ときにマスタプロセッサ（ＭＰ）１１にそれを通知して
スレッド間切り換えなどのトリガとなるインタラクショ
ンを起こすことで、マスタプロセッサ（ＭＰ）１１を効
果的に使用することができる。

【００４２】なお、本実施形態の仕組みを用いることに
より、マスタプロセッサ（ＭＰ）１１上のプログラムが
シングルスレッドで動作している場合であっても割り込
み処理等の回数を減らすことが可能となり、マスタプロ
セッサ（ＭＰ）１１の負荷を低減することができる。

【００４３】［実施形態２］次に、本発明の第２実施形
態として、ＤＭＡ及び各ＰＥの制御に関する具体的な手
順およびローカルメモリ管理のための仕組みについて説
明する。図６には、本第２実施形態のマルチプロセッサ
システムの構成が示されている。本マルチプロセッサシ
ステムでは、ローカルメモリを管理するためのテーブル
を設け、どのＶＴＩＤに対応したプログラムやデータが
ローカルメモリに入っているかを管理する。これにより
上述の第１実施形態の効果に加え、扱うデータの不整合
に関する問題を解消することができる。また、ＤＭＡコ
ントローラやプロセッサエレメントは、対応するローカ
ルメモリの管理テーブルを参照することにより、コマン
ドのプール中より実行可能なものを特定できるので、実
行可能なコマンドから順に正しく実行することが可能と
なる。以下、具体的に説明する。

【００４４】図６に示されているように、ＤＭＡコント
ローラ１５−１には、プロセッサエレメント（ＰＥ）１
２−１のローカルメモリを管理する管理テーブルとして
ＰＬＳ管理テーブル３０１とＤＬＳ管理テーブル３０２
が設けられている。

【００４５】ＰＬＳ管理テーブル３０１はプログラムロ
ーカルメモリ（ＰＬＳ）１３−１の記憶領域毎にどのス
レッドに対応するプログラムが格納されているかを管理
し、またＤＬＳ管理テーブル３０２はデータローカルメ
モリ（ＤＬＳ）１４−１の記憶領域毎にどのスレッドに
対応するデータが格納されているかを管理する。

【００４６】また、ＤＭＡコントローラ１５−１に設け
られたＰＬＳコマンドテーブル３０３およびＤＬＳコマ
ンドテーブル３０４は図１のコマンドプーリングバッフ
ァ１５１に相当するものであり、ＰＬＳコマンドテーブ
ル３０３にはプログラムローカルメモリ（ＰＬＳ）１３
−１とグローバルメモリ（ＧＭ）１７との間のＤＭＡ転
送に関するコマンドが蓄積され、またＤＬＳコマンドテ
ーブル３０４にはデータローカルメモリ（ＤＬＳ）１４
−１とグローバルメモリ（ＧＭ）１７との間のＤＭＡ転
送に関するコマンドが蓄積される。

【００４７】プロセッサエレメント（ＰＥ）１２−１に
設けられたＰＥコマンドテーブル３０５は、図１のコマ
ンドプーリングバッファ１２１に相当し、ここにはプロ
セッサエレメント（ＰＥ）１２−１に対するコマンドが
蓄積される。

【００４８】同様に、ＤＭＡコントローラ１５−２に
も、プロセッサエレメント（ＰＥ）１２−２のローカル
メモリを管理する管理テーブルとしてＰＬＳ管理テーブ
ル４０１とＤＬＳ管理テーブル４０２が設けられてい
る。ＰＬＳ管理テーブル４０１はプログラムローカルメ
モリ（ＰＬＳ）１３−２の記憶領域毎にどのスレッドに
対応するプログラムが格納されているかを管理し、また
ＤＬＳ管理テーブル４０２はデータローカルメモリ（Ｄ
ＬＳ）１４−２の記憶領域毎にどのスレッドに対応する
データが格納されているかを管理する。また、ＤＭＡコ
ントローラ１５−２に設けられたＰＬＳコマンドテーブ
ル４０３およびＤＬＳコマンドテーブル４０４は図１の
コマンドプーリングバッファ１５１に相当するものであ
り、ＰＬＳコマンドテーブル４０３にはプログラムロー
カルメモリ（ＰＬＳ）１３−２とグローバルメモリ（Ｇ
Ｍ）１７との間のＤＭＡ転送に関するコマンドが蓄積さ
れ、またＤＬＳコマンドテーブル４０４にはデータロー
カルメモリ（ＤＬＳ）１４−２とグローバルメモリ（Ｇ
Ｍ）１７との間のＤＭＡ転送に関するコマンドが蓄積さ
れる。プロセッサエレメント（ＰＥ）１２−２に設けら
れたＰＥコマンドテーブル４０５は、図１のコマンドプ
ーリングバッファ１２１に相当し、ここにはプロセッサ
エレメント（ＰＥ）１２−２に対するコマンドが蓄積さ
れる。

【００４９】なお、ＤＭＡコントローラは必ずしも２つ
設ける必要はなく、図７に示すように一個のＤＭＡコン
トローラ１５のみをバス１０に接続し、そのＤＭＡコン
トローラ１５によってプロセッサエレメント（ＰＥ）１
２−１，１２−２それぞれのローカルメモリとグローバ
ルメモリ（ＧＭ）１７との間のＤＭＡ転送を行うように
しても良い。これは第１実施形態についても同様であ
る。

【００５０】また、一個のＤＭＡコントローラ１５のみ
を使用する場合には、プロセッサエレメント（ＰＥ）１
２−１側に対応するＰＬＳ管理テーブル３０１、ＤＬＳ
管理テーブル３０２、ＰＬＳコマンドテーブル３０３、
ＤＬＳコマンドテーブル３０４と、プロセッサエレメン
ト（ＰＥ）１２−２側に対応するＰＬＳ管理テーブル４
０１、ＤＬＳ管理テーブル４０２、ＰＬＳコマンドテー
ブル４０３、ＤＬＳコマンドテーブル４０４が全てＤＭ
Ａコントローラ１５に設けられることになる。また、Ｐ
Ｅコマンドテーブル３０５，４０５の実際の実装位置に
ついても必ずしもプロセッサエレメント（ＰＥ）１２−
１，１２−２にする必要はなく、ＤＭＡコントローラ１
５に設けても良い。第１実施形態についても同様であ
る。

【００５１】次に、各テーブルの具体的な構成について
説明する。本第２実施形態では、複数のスレッドが同じ
プロセッサエレメント（ＰＥ）およびそのローカルメモ
リＰＬＳ，ＤＬＳを使用しながら並列動作することを前
提としている。その為に、プロセッサエレメント（Ｐ
Ｅ）１２−１のプログラムローカルメモリ（ＰＬＳ）１
３−１およびデータローカルメモリ（ＤＬＳ）１４−１
についてはそれぞれＰＬＳ管理テーブル３０１およびＤ
ＬＳ管理テーブル３０２によってその使用領域をスレッ
ド毎に管理し、またプロセッサエレメント（ＰＥ）１２
−２のプログラムローカルメモリ（ＰＬＳ）１３−２お
よびデータローカルメモリ（ＤＬＳ）１４−２について
はそれぞれＰＬＳ管理テーブル４０１およびＤＬＳ管理
テーブル４０２によってその使用領域をスレッド毎に管
理している。

【００５２】これらテーブルの構造はプロセッサエレメ
ント（ＰＥ）１２−１，１２−２のどちらについても同
じであるので、以下ではプロセッサエレメント（ＰＥ）
１２−１および１２−２について共通に説明することに
する。

【００５３】ＰＬＳ管理テーブルとＤＬＳ管理テーブル
はハードウェア簡単化のため、ページ単位で管理され
る。例えば、ページサイズが４ＫｂｙｔｅでＰＬＳ，Ｄ
ＬＳのサイズがそれぞれ６４Ｋｂｙｔｅであれば、それ
ぞれ１６ページとして管理されることになる。この場
合、ＰＬＳ管理テーブルはページに対応する１６のエン
トリを持ち、それぞれのエントリがそのページに入って
いるプログラムのＶＴＩＤを示すことになる。図８にＰ
ＬＳ管理テーブルの例を示す。

【００５４】図８では、ページ１，２，３にＶＴＩＤ４
４のプログラムが入っていてその他のページは使われて
いない様子が示されている。

【００５５】次に各プロセッサエレメント（ＰＥ）で処
理されるデータまたは処理された結果のデータが入るＤ
ＬＳを管理するためのＤＬＳ管理テーブルについて説明
する。図９はＤＬＳ管理テーブルの例である。

【００５６】図９（ａ）ではページ０，１はＶＴＩＤ４
４のデータが入っている（Ｄは処理されるべきデータが
入っていることを示す）。またページ２，３はＶＴＩＤ
４４のために領域が予約されていることを示している
（Ｒは予約されている領域であることを示す）。領域の
予約は、対応するプロセッサエレメント（ＰＥ）がこの
領域を処理結果データの書き込みのために使用すること
を示している。予約されたページはプロセッサエレメン
ト（ＰＥ）がデータを書き込むとさらにＤの部分にビッ
トが立ち図９（ｂ）のようになる。

【００５７】次に、ＰＬＳコマンドテーブルの構成を図
１０に示す。ＰＬＳコマンドテーブルはグローバルメモ
リ（ＧＭ）１７よりプログラムローカルメモリ（ＰＬ
Ｓ）に転送するＤＭＡのコマンドを入れておくテーブル
である。マスタプロセッサ（ＭＰ）１１は、プロセッサ
エレメント（ＰＥ）に実行させるプログラムをグローバ
ルメモリ（ＧＭ）１７より制御対象のプロセッサエレメ
ント（ＰＥ）のプログラムローカルメモリ（ＰＬＳ）に
転送するためにこのテーブルにＤＭＡのコマンドを登録
する。

【００５８】図１０では、ＰＬＳコマンドテーブルに二
つのエントリが存在している、一つはＶＴＩＤ４４でグ
ローバルメモリ（ＧＭ）１７のアドレス０×１２０００
０からプログラムローカルメモリ（ＰＬＳ）のページ
０，１，２に転送するコマンド、もう一つは、ＶＴＩＤ
５０でグローバルメモリ（ＧＭ）１７のアドレス０×１
４００００からプログラムローカルメモリ（ＰＬＳ）の
ページ１４，１５に転送するコマンドである。ＰＬＳコ
マンドテーブルの内容はＰＬＳ管理テーブルと比較さ
れ、転送先ページが空いている場合にはそのエントリに
入っているコマンドのＤＭＡが実行され、ＤＭＡが実行
されるとそのエントリは消去される。複数のエントリが
ＤＭＡ実行可能であるときは先入れ先出しし方式で実行
される。エントリの数にはハードウェア的な制約がある
のでエントリがいっぱいのときはマスタプロセッサ（Ｍ
Ｐ）１１のコマンド発行元のスレッドがスリープする
か、エントリが空くまで待つなどの処理を行う。

【００５９】ＰＬＳコマンドに対するＤＭＡコントロー
ラの処理手順を図１１に示す。ＤＭＡコントローラは、
まず、ＰＬＳコマンドテーブルからコマンドを取得し
（ステップＳ１２１）、そのコマンドで指定される転送
先ページがプログラムローカルメモリ（ＰＬＳ）上で空
いているか否かをＰＬＳ管理テーブルを参照して判断す
る（ステップＳ１２２）。空いていない場合には、次の
コマンドエントリに対する処理が行われる。一方、空い
ている場合には、ＤＭＡコントローラはその取得したコ
マンドの処理、つまりグローバルメモリ（ＧＭ）１７か
らプログラムローカルメモリ（ＰＬＳ）へのプログラム
のＤＭＡ転送、を実行する（ステップＳ１２３）。次い
で、ＤＭＡコントローラは、ＰＬＳ管理テーブルの該当
エントリにＤのフラグをセットしてその内容を更新し
（ステップＳ１２４）、そしてＰＬＳコマンドテーブル
から該当するコマンドエントリの内容を削除した後に
（ステップＳ１２５）、実行したコマンドに対応するＶ
ＴＩＤと共にコマンド完了通知をマスタプロセッサ（Ｍ
Ｐ）１１に発行する（ステップＳ１２６）。

【００６０】このようにして、ＤＭＡコントローラは、
ＰＬＳコマンドテーブルに蓄積されている複数のコマン
ドを、実行可能なものから順次実行する。

【００６１】次にＤＬＳコマンドテーブルの構成を図１
２に示す。ＤＬＳコマンドテーブルはグローバルメモリ
（ＧＭ）１７よりデータローカルメモリ（ＤＬＳ）にデ
ータを転送するＤＭＡのコマンドおよびデータローカル
メモリ（ＤＬＳ）からグローバルメモリ（ＧＭ）１７に
データを転送するコマンドを、マスタプロセッサ（Ｍ
Ｐ）１１より受け取っていれておくためのテーブルであ
る。

【００６２】図１２ではＤＬＳコマンドテーブルに二つ
のエントリがある。一つはＶＴＩＤ４４でグローバルメ
モリ（ＧＭ）１７のアドレス０×２００００からデータ
ローカルメモリ（ＤＬＳ）へ転送することを示してい
る。方向フィールドはＤＭＡ転送の方向を示す。「Ｄ」
がグローバルメモリ（ＧＭ）１７からデータローカルメ
モリ（ＤＬＳ）への転送、「Ｇ」がデータローカルメモ
リ（ＤＬＳ）よりグローバルメモリ（ＧＭ）１７への転
送を示している。また、転送ページのフィールドにおけ
る「Ｄ」はデータが転送される領域を、「Ｒ」はプロセ
ッサエレメント（ＰＥ）による処理結果データの書き込
みに使用すべき予約領域を示している。例ではページ
０，１にＧＭよりデータが転送され、ページ２，３は書
き込みのために予約されている。

【００６３】二つ目のエントリにはＰＥにより書き込ま
れた処理結果データをグローバルメモリ（ＧＭ）１７へ
転送するためのコマンドが入っている。同じＶＴＩＤ４
４のスレッドで扱われるのでＶＴＩＤは４４である。グ
ローバルメモリ（ＧＭ）１７のアドレスは０×４０００
０で今度は転送の方向は「Ｇ」となり、データローカル
メモリ（ＤＬＳ）よりグローバルメモリ（ＧＭ）１７へ
の転送を示している。転送ページのフィールドではペー
ジ２，３が転送されることを示している。

【００６４】ＰＬＳコマンドテーブルと同様に、エント
リの数にはハードウェア的な制約があるのでエントリが
いっぱいのときはマルチプロセッサ（ＭＰ）のコマンド
発行元のスレッドがスリープするか、エントリが空くま
で待つなどの処理を行う。ＤＬＳコマンドテーブルから
ＤＭＡコマンドが実行されるのは、次のような条件にな
る。

【００６５】（１）方向フィールドがＤの時：転送ペ
ージで示すＤおよびＲがＤＬＳ管理テーブルで空いてお
り、かつＰＬＳ管理テーブルに同じＶＴＩＤが存在する
時。つまり、ＤＭＡを実行した後、プロセッサエレメン
ト（ＰＥ）が処理するプログラムがすでにプログラムロ
ーカルメモリ（ＰＬＳ）に入っていて、しかもデータを
入れたり出したりするデータローカルメモリ（ＤＬＳ）
の領域が他のスレッドとぶつからないことを保障してい
る。

【００６６】（２）方向フィールドがＧのとき：転送
ページで示すＤにＤＬＳ管理テーブルのＤにビットがた
っており、またＶＴＩＤが一致していること。すなわち
ＶＴＩＤで示すスレッドのプロセッサエレメント（Ｐ
Ｅ）の処理が終わってデータがすでにデータローカルメ
モリ（ＤＬＳ）に書き込まれてグローバルメモリ（Ｇ
Ｍ）１７に転送すべきデータが揃ったことを保障してい
る。

【００６７】ＤＬＳコマンドテーブルは同じＶＴＩＤに
対しては先入れ先出しで処理されるが、違うＶＴＩＤで
の順序は保障する必要はない。

【００６８】ＤＬＳコマンドに対するＤＭＡコントロー
ラの処理手順を図１３に示す。ＤＭＡコントローラは、
まず、ＤＬＳコマンドテーブルからコマンドを取得し
（ステップＳ１３１）、そのコマンドで指定される方向
フィールドをチェックする（ステップＳ１３２）。方向
フィールドがＤ、つまりデータローカルメモリ（ＤＬ
Ｓ）への転送を示すコマンドであれば、ＤＭＡコントロ
ーラは、その取得したコマンドで指定されるＤ，Ｒの転
送先ページがデータローカルメモリ（ＤＬＳ）上で空い
ているか否かをＤＬＳ管理テーブルを参照して判断する
（ステップＳ１３３）。空いている場合には、さらに、
取得したコマンドのＶＴＩＤと同じＶＴＩＤを持つプロ
グラムがプログラムローカルメモリ（ＰＬＳ）に既に存
在しているか否かをＰＬＳ管理テーブルを参照して判断
する（ステップＳ１３４）。同じＶＴＩＤを持つプログ
ラムがプログラムローカルメモリ（ＰＬＳ）に存在して
いる場合には、上述の（１）の条件が満たされているの
で、ＤＭＡコントローラは取得したコマンドの処理、つ
まりグローバルメモリ（ＧＭ）１７からデータローカル
メモリ（ＤＬＳ）へのデータのＤＭＡ転送、を実行する
（ステップＳ１３５）。次いで、ＤＭＡコントローラ
は、ＤＬＳ管理テーブルの該当エントリにＤ，Ｒのフラ
グをセットしてその内容を更新し（ステップＳ１３
６）、そしてＤＬＳコマンドテーブルから該当するコマ
ンドエントリの内容を削除した後に（ステップＳ１３
７）、実行したコマンドに対応するＶＴＩＤと共にコマ
ンド完了通知をマスタプロセッサ（ＭＰ）１１に発行す
る（ステップＳ１３８）。

【００６９】上述の（１）の条件が満たされていない場
合、つまり、取得したコマンドで指定されるＤ，Ｒの転
送先ページが空いていない場合や、空いていても同じＶ
ＴＩＤのプログラムが存在しない場合には、コマンド処
理は行われず、次のコマンドエントリに対する処理が行
われる。

【００７０】一方、取得したコマンドで指定される方向
フィールドがＧ、つまりグローバルメモリ（ＧＭ）１７
への転送を示すコマンドであれば、ＤＭＡコントローラ
は、その取得したコマンドのＤの転送ページで指定され
るデータローカルメモリ（ＤＬＳ）上の位置にデータが
既に存在するか否かをＤＬＳ管理テーブルを参照して判
断する（ステップＳ１３９）。存在する場合には、その
データに対応するＶＴＩＤＴが取得したコマンドのＶＴ
ＩＤＴと一致しているかどうかが判断される（ステップ
Ｓ１４０）。ＶＴＩＤが一致する場合には、上述の
（２）の条件が満たされているので、ＤＭＡコントロー
ラは取得したコマンドの処理、つまりデータローカルメ
モリ（ＤＬＳ）からグローバルメモリ（ＧＭ）１７への
データのＤＭＡ転送、を実行する（ステップＳ１４
１）。次いで、ＤＭＡコントローラは、ＤＬＳ管理テー
ブルの該当エントリのＤフラグをリセットしてその内容
を更新し（ステップＳ１４２）、そしてＤＬＳコマンド
テーブルから該当するコマンドエントリの内容を削除し
た後に（ステップＳ１４３）、実行したコマンドに対応
するＶＴＩＤと共にコマンド完了通知をマスタプロセッ
サ（ＭＰ）１１に発行する（ステップＳ１４４）。

【００７１】上述の（２）の条件が満たされていない場
合、つまり、取得したコマンドで指定されるＤの転送ペ
ージが存在しない場合や、存在してもＶＴＩＤが異なる
場合には、コマンド処理は行われず、次のコマンドエン
トリに対する処理が行われる。

【００７２】このようにして、ＤＭＡコントローラは、
ＤＬＳコマンドテーブルに蓄積されている複数のコマン
ドを、実行可能なものから順次実行する。

【００７３】以上で述べたような構造は、ＤＭＡコント
ローラ内にあり、ステートマシンで管理更新されてい
る。

【００７４】次にＰＥコマンドテーブルの構成を図１４
に示す。ＰＥコマンドテーブルはマスタプロセッサ（Ｍ
Ｐ）１１からプロセッサエレメント（ＰＥ）へのコマン
ドを入れておくためのテーブルである。

【００７５】図１４では１番目のエントリがＶＴＩＤ４
４で開始ページは０。これはプロセッサエレメント（Ｐ
Ｅ）がプログラムの実行を始めるべきプログラムローカ
ルメモリ（ＰＬＳ）上のページがかかれている。使用ペ
ージフィールドはプログラムローカルメモリ（ＰＬＳ）
上のページ毎にデータローカルメモリ（ＤＬＳ）上のど
のページのデータを使うかが示されている。例では０と
１ページのデータを使うことが示されている。ＰＥコマ
ンドテーブル内のコマンドが実際に実行されるのはＰＥ
コマンドテーブルにある使用ページがＤＬＳ管理テーブ
ルのＤで示されているページと一致し、且つＶＴＩＤが
一致する場合である。すなわち、プロセッサエレメント
（ＰＥ）で実行するデータがデータローカルメモリ（Ｄ
ＬＳ）に揃っていることを意味する。データローカルメ
モリ（ＤＬＳ）にプロセッサエレメント（ＰＥ）で使用
するデータが揃っているということはすでにプログラム
ローカルメモリ（ＰＬＳ）には対応するプログラムが用
意されているということなのですぐに実行が始められ
る。プロセッサエレメント（ＰＥ）で実行が終了したら
ＰＥコマンドテーブルから対応するコマンドを消し、Ｄ
ＬＳ管理テーブルを更新する（ＲのところにＤも立て
る）。また、このＶＴＩＤではプログラムローカルメモ
リ（ＰＬＳ）に入れたプログラムを必要としないのであ
れば、対応するＰＬＳ管理テーブルも更新する。必要と
するかどうかはプログラム中で明示的に指定するものと
する。

【００７６】ＰＥコマンドテーブルは同じＶＴＩＤに対
しては先入れ先出し方式で処理されるが、違うＶＴＩＤ
での順序は保障する必要はない。ＤＬＳコマンドテーブ
ルは同じＶＴＩＤに対しては先入れ先出し方式で処理さ
れるが、違うＶＴＩＤでの順序は保障する必要はない。

【００７７】ＰＥコマンドに対するプロセッサエレメン
ト（ＰＥ）の処理手順を図１５に示す。プロセッサエレ
メント（ＰＥ）は、まず、ＰＥコマンドテーブルからコ
マンドを取得し（ステップＳ１５１）、そのコマンドで
指定される使用ページがデータローカルメモリ（ＤＬ
Ｓ）に存在しているか否かをＤＬＳ管理テーブルを参照
して判断する（ステップＳ１５２）。存在する場合に
は、そのデータのＶＴＩＤが取得したコマンドのＶＴＩ
Ｄに一致するかどうかが判断される（ステップＳ１５
３）。一致するならば、プロセッサエレメント（ＰＥ）
は、取得したコマンドで指定される処理、つまりプログ
ラムローカルメモリ（ＰＬＳ）のプログラムの実行処理
を行う（ステップＳ１５４）。このプログラム実行によ
り処理されたデータは該当するデータローカルメモリ
（ＤＬＳ）上の位置に格納され、ＤＬＳ管理テーブルの
更新が行われる（ＲのところにＤも立てる）。そして、
実行したコマンドに対応するＶＴＩＤと共にコマンド完
了通知をマスタプロセッサ（ＭＰ）１１に発行する（ス
テップＳ１５５）。

【００７８】このようにして、プロセッサエレメント
（ＰＥ）は、ＰＥコマンドテーブルに蓄積されている複
数のコマンドを、実行可能なものから順次実行する。

【００７９】図１６には、ＤＭＡコントローラおよびプ
ロセッサエレメント（ＰＥ）と各テーブルとの関係が示
されている。ここでは、プロセッサエレメント（ＰＥ）
１２−１側に着目して説明するが、プロセッサエレメン
ト（ＰＥ）１２−２側についても同様である。

【００８０】図１６で示すように、マスタプロセッサ
（ＭＰ）よりＰＬＳコマンドテーブル３０３、ＤＬＳコ
マンドテーブル３０４、ＰＥコマンドテーブル３０５に
コマンドが登録され、ＤＭＡコントローラ１５−１およ
びプロセッサエレメント（ＰＥ）１２−１によるコマン
ドの実行に応じてＰＬＳ管理テーブル３０１およびＤＬ
Ｓ管理テーブル３０２が更新される。ＰＬＳ管理テーブ
ル３０１およびＤＬＳ管理テーブル３０２がローカルメ
モリの管理を適切に行っているため、実行中のデータが
他のスレッドにより書き換えられたりすることはないよ
うに制御される。

【００８１】また、プロセッサエレメント（ＰＥ）１２
−１に関しては、処理すべきデータが存在する時だけ対
応するプログラムが動作するようになっている。すなわ
ち、本発明によってＤＭＡとプロセッサエレメント（Ｐ
Ｅ）の処理の依存関係が適切に表現されており、マスタ
プロセッサ（ＭＰ）の介在無しに、ＤＭＡとプロセッサ
エレメント（ＰＥ）を正しい順序関係で動作させること
ができ、マスタプロセッサ（ＭＰ）への負荷を減らすこ
とができる。さらに、複数のスレッドが資源を共有する
ことによって、例えばＤＭＡ転送によって処理データを
ローカルメモリに用意している間にプロセッサエレメン
ト（ＰＥ）を他のスレッドによるプログラム処理で使う
などの効率的な動作が可能になる。この方法は、ローカ
ルメモリをダブルバッファの構造にし、一つのスレッド
に片方のバッファの処理をもう一つのスレッドにもう一
方のバッファの処理を行わせることで特に有効になる。

【００８２】図１７には、本マルチプロセッサシステム
全体の動作の様子が模式的に示されている。

【００８３】マスタプロセッサ（ＭＰ）上で実行される
あるスレッドは、まず、そのスレッドのＶＴＩＤ（ここ
ではＶＴＩＤ＝１）と一緒にプロセッサエレメントＰＥ
＃１に対応するＰＥテーブルにコマンド（ＰＥコマン
ド）を登録する。次いで、そのスレッドは、プロセッサ
エレメントＰＥ＃１に実行させるべきプログラムをデー
タローカルメモリ（ＤＬＳ）に全て転送するのに必要な
幾つかのコマンド（ＰＬＳコマンド）をＶＴＩＤ（ここ
ではＶＴＩＤ＝１）と一緒にＰＬＳコマンドテーブルに
登録する。この後、そのスレッドは、プロセッサエレメ
ントＰＥ＃１に処理させるべきデータをデータローカル
メモリ（ＤＬＳ）に全て転送するのに必要な幾つかのコ
マンド（ＤＬＳコマンド方向Ｄ）をＶＴＩＤ（ここで
はＶＴＩＤ＝１）と一緒にＤＬＳコマンドテーブルに登
録し、また処理結果データをグローバルメモリ（ＧＭ）
に全て転送させるために必要な幾つかのコマンド（ＤＬ
Ｓコマンド方向Ｇ）をＶＴＩＤ（ここではＶＴＩＤ＝
１）と一緒にＤＬＳコマンドテーブルに登録する。これ
で、スレッドはコマンド処理待ちとなり、スリープ状態
に移行し、他のスレッドがマスタプロセッサ（ＭＰ）上
で実行される。もちろん、一連のコマンド登録が途中で
きなくなった場合には、その時点でスレッドの切り換え
を行っても良い。

【００８４】ＤＭＡコントローラ＃１によりプログラム
ローカルメモリ（ＰＬＳ）へのプログラムのＤＭＡ転
送、およびデータローカルメモリ（ＤＬＳ）への処理対
象データのＤＭＡ転送が行われると、プロセッサエレメ
ントＰＥ＃１によるＰＥコマンドの処理が可能となり、
ＰＬＳ上のプログラムがプロセッサエレメントＰＥ＃１
によって実行され、処理結果データがＤＬＳに書き込ま
れる。これにより、ＤＭＡコントローラ＃１によるコマ
ンド（ＤＬＳコマンド方向Ｇ）の処理が可能となり、
処理結果データがグローバルメモリにＤＭＡ転送され
る。この時点で、ＶＴＩＤ＝１に関する未応答のコマン
ドが無くなり、ＶＴＩＤ＝１のスレッドが再び起こされ
る。

【００８５】以上のように、本プロセッサシステムによ
れば、ローカルメモリの各記憶領域毎にどのスレッドに
対応するプログラムまたはデータが格納されているかを
管理することにより、扱うデータの不整合に関する問題
を解消することができる。さらに、ＤＭＡコントローラ
および各プロセッサエレメント（ＰＥ）は、それぞれ対
応するコマンド蓄積用バッファに蓄積されている各スレ
ッドからのコマンドの中で、実行可能なコマンドを特定
できるので、実行可能なコマンドから順に正しく実行す
ることが可能となり、ＤＭＡコントローラおよび各プロ
セッサエレメント（ＰＥ）の空き時間を減らすことが可
能となる。

【００８６】なお、ここでは本システムを第１実施形態
と第２実施形態に分けて説明したが、各実施形態の機能
は適宜組み合わせて使用することができる。また、マス
タプロセッサ（ＭＰ）によって実行されるプログラムは
マルチスレッド型のものであることが最も好ましいが、
並列実行可能な複数のプログラム実行単位の各々が、必
要な演算処理などをプロセッサエレメントを用いて実行
する構成であればよい。さらに、スレッド切り換えなど
の機能はマスタプロセッサ（ＭＰ）上で実行されるオペ
レーティングシステムのカーネルに組み込んだり、或い
は専用のプログラムを用いてスレッド切り換えの機能を
実現してもよい。

【００８７】また、本発明は、上記各実施形態に限定さ
れるものではなく、実施段階ではその要旨を逸脱しない
範囲で種々に変形することが可能である。更に、上記実
施形態には種々の段階の発明が含まれており、開示され
る複数の構成要件における適宜な組み合わせにより種々
の発明が抽出され得る。例えば、実施形態に示される全
構成要件から幾つかの構成要件が削除されても、発明が
解決しようとする課題の欄で述べた課題の少なくとも１
つが解決でき、発明の効果の欄で述べられている効果が
得られる場合には、この構成要件が削除された構成が発
明として抽出され得る。

【００８８】

【発明の効果】以上詳述した如く本発明によれば、マス
タプロセッサの負荷の増大や、扱うデータの不整合に関
する問題を招くことなく、空いているプロセッサエレメ
ントの時間を減らしてスループットの向上を図ることが
可能となる。

【図面の簡単な説明】

【図１】本発明の第１実施形態に係るマルチプロセッサ
システムの構成を示すブロック図。

【図２】同実施形態における未応答コマンド数に応じた
スレッドの状態遷移制御を説明するための図。

【図３】同実施形態におけるマスタプロセッサの構成を
示すブロック図。

【図４】同実施形態におけるマスタプロセッサ上で実行
されるスレッドの動作を示すフローチャート。

【図５】同実施形態におけるＤＭＡコントローラおよび
プロセッサエレメントの動作を示すフローチャート。

【図６】本発明の第２実施形態に係るマルチプロセッサ
システムの構成を示すブロック図。

【図７】同実施形態のマルチプロセッサシステムの他の
構成例を示すブロック図。

【図８】同実施形態におけるＰＬＳ管理テーブルの構成
を示す図。

【図９】同実施形態におけるＤＬＳ管理テーブルの構成
を示す図。

【図１０】同実施形態におけるＰＬＳコマンドテーブル
の構成を示す図。

【図１１】同実施形態におけるＰＬＳコマンドに対する
ＤＭＡコントローラの処理手順を示すフローチャート。

【図１２】同実施形態におけるＤＬＳコマンドテーブル
の構成を示す図。

【図１３】同実施形態におけるＤＬＳコマンドに対する
ＤＭＡコントローラの処理手順を示すフローチャート。

【図１４】同実施形態におけるＰＥコマンドテーブルの
構成を示す図。

【図１５】同実施形態におけるＰＥコマンドに対するプ
ロセッサエレメントの処理手順を示すフローチャート。

【図１６】同実施形態におけるＤＭＡコントローラおよ
びプロセッサエレメントと各テーブルとの関係を示す
図。

【図１７】同実施形態におけるマルチプロセッサシステ
ム全体の動作の様子を模式的に示す図。

【符号の説明】

１０…バス１１…マスタプロセッサ（ＭＰ）１２−１，１２−２…プロセッサエレメント（ＰＥ）１３−１，１３−２…プログラムローカルメモリ（ＰＬ
Ｓ）１４−１，１４−２…データローカルメモリ（ＤＬＳ）１５−１，１５−２…ＤＭＡコントローラ１６…メモリコントローラ１７…グローバルメモリ（ＧＭ）１１１…カウンタアレイ１２１，１５１…コマンドプーリングバッファ２０１…プロセッサモジュール２０２…バスコントローラ２０３…カウンタアレイ３０１，４０１…ＰＬＳ管理テーブル３０２，４０２…ＤＬＳ管理テーブル３０３，４０３…ＰＬＳコマンドテーブル３０４，４０４…ＤＬＳコマンドテーブル３０５，４０５…ＰＥコマンドテーブル

───────────────────────────────────────────────────── フロントページの続きＦターム(参考） 5B045 BB48 BB54 DD01 GG06 5B061 DD12 GG16 PP05 QQ01 5B098 AA03 AA10 GA05 GB01 GB13 GC16 GD03 GD12 GD14

Claims

【特許請求の範囲】

【請求項１】マスタプロセッサと、ローカルメモリを
各々が有し前記マスタプロセッサからのコマンドに従っ
てそれぞれ制御される複数のプロセッサエレメントと、
前記複数のプロセッサエレメントに共有されるグローバ
ルメモリとを具備するマルチプロセッサシステムにおい
て、前記マスタプロセッサからのコマンドに従って、前記グ
ローバルメモリと前記各プロセッサエレメントのローカ
ルメモリとの間のＤＭＡ転送を行うＤＭＡ実行手段と、前記マスタプロセッサが各コマンドに対する応答を待つ
ことなく次のコマンドを発行できるように前記ＤＭＡ実
行手段および前記各プロセッサエレメントにそれぞれ対
応して設けられたコマンド蓄積用バッファと、発行済みで応答が返ってきてないコマンドの数を管理
し、すべての発行済みのコマンドに対して応答が返って
きたときにそれを前記マスタプロセッサに通知する未応
答コマンド数管理手段とを具備することを特徴とするマ
ルチプロセッサシステム。
【請求項２】前記マスタプロセッサ上で並列実行され
る複数のスレッドそれぞれに固有の識別子を用いて、前
記各コマンドをその発行元のスレッドの識別子と共に前
記マスタプロセッサから前記ＤＭＡ実行手段または前記
各プロセッサエレメントに発行する手段と、前記発行されたコマンドに対応する応答を該当するスレ
ッドの識別子と共に前記ＤＭＡ実行手段または前記各プ
ロセッサエレメントから前記マスタプロセッサに発行す
る手段とをさらに具備し、前記未応答コマンド数管理手段は発行済みで応答が返っ
てきてないコマンドの数を前記スレッド毎に個々に管理
し、すべての発行済みのコマンドに対して応答が返って
きたスレッドに対してコマンド処理の完了を通知するよ
うに構成されていることを特徴とする請求項１記載のマ
ルチプロセッサシステム。
【請求項３】マスタプロセッサと、ローカルメモリを
各々が有し前記マスタプロセッサからのコマンドに従っ
てそれぞれ制御される複数のプロセッサエレメントと、
前記複数のプロセッサエレメントに共有されるグローバ
ルメモリとを具備するマルチプロセッサシステムにおい
て、前記マスタプロセッサからのコマンドに従って、前記グ
ローバルメモリと前記各プロセッサエレメントのローカ
ルメモリとの間のＤＭＡ転送を行うＤＭＡ実行手段と、前記マスタプロセッサが各コマンドに対する応答を待つ
ことなく次のコマンドを発行できるように前記ＤＭＡ実
行手段および前記各プロセッサエレメントにそれぞれ対
応して設けられたコマンド蓄積用バッファと、発行済みで応答が返ってきてないコマンドの数を管理
し、すべての発行済みのコマンドに対して応答が返って
きたときにそれを前記マスタプロセッサに通知する手段
と、前記マスタプロセッサ上で並列実行される複数のスレッ
ドそれぞれに固有の識別子を用いて、前記各コマンドを
その発行元のスレッドの識別子と共に前記マスタプロセ
ッサから前記ＤＭＡ実行手段または前記各プロセッサエ
レメントに発行する手段と、前記発行されたコマンドに対応する応答を該当するスレ
ッドの識別子と共に前記ＤＭＡ実行手段または前記各プ
ロセッサエレメントから前記マスタプロセッサに発行す
る手段と、前記複数のスレッドそれぞれの識別子を用いて、前記ロ
ーカルメモリの各記憶領域毎にどのスレッドに対応する
プログラムまたはデータが格納されているかを管理する
管理テーブルとを具備し、前記ＤＭＡ実行手段および前記各プロセッサエレメント
は、それぞれ対応するコマンド蓄積用バッファに蓄積さ
れている前記各スレッドからのコマンドの中で、実行可
能なコマンドを前記管理テーブルを参照して特定し、そ
の特定したコマンドを実行することを特徴とするマルチ
プロセッサシステム。
【請求項４】前記各プロセッサエレメントは、前記管
理テーブルを参照することにより、対応するコマンド蓄
積用バッファに蓄積されている各スレッドからのコマン
ドの中で、ローカルメモリ内に該当するスレッドの処理
対象データが用意されたコマンドから順に処理を開始す
ることを特徴とする請求項３記載のマルチプロセッサシ
ステム。
【請求項５】前記管理テーブルは、前記ローカルメモ
リ内に前記プロセッサエレメントのコマンド処理で得ら
れた処理結果のデータが用意されたか否かをスレッド毎
に示す情報を含み、前記ＤＭＡ実行手段は、前記管理テーブルを参照するこ
とにより、コマンド蓄積用バッファに蓄積されている前
記各スレッドからのコマンドの中で、前記ローカルメモ
リ内に該当するスレッドの処理結果のデータが用意され
たコマンドから順に処理を開始して、前記ローカルメモ
リから前記グローバルメモリへのＤＭＡ転送を行うこと
を特徴とする請求項４記載のマルチプロセッサシステ
ム。
【請求項６】マスタプロセッサと、ローカルメモリを
各々が有し前記マスタプロセッサからのコマンドに従っ
てそれぞれ制御される複数のプロセッサエレメントと、
前記複数のプロセッサエレメントに共有されるグローバ
ルメモリとを具備するマルチプロセッサシステムの動作
を制御するための制御方法であって、前記マルチプロセッサシステムには、前記マスタプロセ
ッサからのコマンドに従って、前記グローバルメモリと
前記各プロセッサエレメントのローカルメモリとの間の
ＤＭＡ転送を行うＤＭＡ実行手段、及び前記ＤＭＡ実行
手段および前記各プロセッサエレメントにはそれぞれ前
記マスタプロセッサが各コマンドに対する応答を待つこ
となく次のコマンドを発行できるように複数のコマンド
を蓄積可能なコマンド蓄積用バッファが設けられてお
り、前記マスタプロセッサから前記ＤＭＡ実行手段および前
記各プロセッサエレメントに対して、各コマンドに対す
る応答を待つことなく次のコマンドを発行するステップ
と、発行済みで応答が返ってきてないコマンドの数を管理
し、すべての発行済みのコマンドに対して応答が返って
きたときにそれを前記マスタプロセッサに通知するステ
ップとを具備することを特徴とするマルチプロセッサシ
ステムの制御方法。
【請求項７】マスタプロセッサと、ローカルメモリを
各々が有し前記マスタプロセッサからのコマンドに従っ
てそれぞれ制御される複数のプロセッサエレメントと、
前記複数のプロセッサエレメントに共有されるグローバ
ルメモリとを具備するマルチプロセッサシステムの動作
を制御するための制御方法であって、前記マルチプロセッサシステムには、前記マスタプロセ
ッサからのコマンドに従って、前記グローバルメモリと
前記各プロセッサエレメントのローカルメモリとの間の
ＤＭＡ転送を行うＤＭＡ実行手段、及び前記ＤＭＡ実行
手段および前記各プロセッサエレメントにはそれぞれ前
記マスタプロセッサが各コマンドに対する応答を待つこ
となく次のコマンドを発行できるように複数のコマンド
を蓄積可能なコマンド蓄積用バッファが設けられてお
り、発行済みで応答が返ってきてないコマンドの数を管理
し、すべての発行済みのコマンドに対して応答が返って
きたときにそれを前記マスタプロセッサに通知するステ
ップと、前記マスタプロセッサ上で並列実行される複数のスレッ
ドそれぞれに固有の識別子を用いて、前記各コマンドを
その発行元のスレッドの識別子と共に前記マスタプロセ
ッサから前記ＤＭＡ実行手段または前記各プロセッサエ
レメントに発行するステップと、前記発行されたコマンドに対応する応答を該当するスレ
ッドの識別子と共に前記ＤＭＡ実行手段または前記各プ
ロセッサエレメントから前記マスタプロセッサに発行す
るステップと、前記複数のスレッドそれぞれの識別子を用いて、前記ロ
ーカルメモリの使用領域を管理テーブルによってスレッ
ド毎に管理するステップとを具備し、前記ＤＭＡ実行手段および前記各プロセッサエレメント
は、それぞれ対応するコマンド蓄積用バッファに蓄積さ
れている前記各スレッドからのコマンドの中で、実行可
能なコマンドを前記管理テーブルを参照して特定し、そ
の特定したコマンドを実行することを特徴とするマルチ
プロセッサシステムの制御方法。