JPH04267466A

JPH04267466A - 連想並列処理システム

Info

Publication number: JPH04267466A
Application number: JP3278900A
Authority: JP
Inventors: W Diffenderfer James; ジェームス・ワレン・ディフェンデルフアー; Peter M Kogge; ピーター・マイケル・コゲ; Paul Amba Wilkinson; ポール・アンバ・ウイルキンソン; J Schoonover Nicholas; ニコラス・ジェローム・スクーノバー
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1990-11-13
Filing date: 1991-10-01
Publication date: 1992-09-24
Also published as: PL167329B1; SK344091A3; KR960016880B1; HU215139B; CA2050166A1; BR9104603A; CZ344091A3; DE69131272T2; DE69131272D1; PL292368A1; HU913542D0; EP0485690B1; ATE180586T1; EP0485690A2; CN1061482A; TW229289B; CN1050919C; EP0485690A3; US5822608A; RU2084953C1

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、複数のプロセツサによ
り並列計算するシステム、より具体的に言えば、空冷式
のチツプに適し、単純化されたアーキテクチヤであつて
、バイトを直列に処理するＳＩＭＤアーキテクチヤによ
つて構成された複数プロセツサの並列計算システム及び
その方法に関する。

【０００２】

【従来の技術】米国特許第３５３７０７４号には、並列
のプロセツサと、１つだけのプログラムによつて制御さ
れる制御装置と、片割れのベクトルをストアするための
複数個のレジスタと、マスク・レジスタと、ベクトル・
レジスタ中のデータに同時に動作するための１つ、また
はそれ以上の制御ユニツトのインストラクシヨンのシー
ケンスに応答する手段とを有するアレイ・コンピユータ
を記載しており、１９７０年代に、この米国特許に記載
された並列プロセツサは、ＳＩＭＤ（Ｓｉｎｇｌｅ　Ｉ
ｎｓｔｒｕｃｔｉｏｎ　Ｍｕｌｔｉｐｌｅ　Ｄａｔａ）
マシンとして知られるようになつた。また、このマシンは、並列プロセツサのアレイを駆動す
るプログラム可能な制御ユニツトで構成されているよう
に記載されており、各プロセツサは、メモリ部分、算術
演算ユニツト、プログラムのデコード部分及び入／出力
部分を持つている。これらのシステムは、或る場合には
ホスト・コンピユータと関連された大きな箱体であつた
。ＳＩＭＤと、通常のプロセツサとを比較すると、ＳＩ
ＭＤマシンのシステムにおいて、すべてのＳＩＭＤプロ
セツサは関連するプロセツサとは異なつたデータの組を
持つており、ＳＩＭＤのすべてのプロセツサは共通のコ
ントローラによつて管理されていることが両者の間の重
要な相異である。また、ＳＩＭＤコンピユータは、各イ
ンストラクシヨンが１つの演算子ではなく、データのベ
クトルで動作すると言う点で、通常のフオン・ノイマン
型のプロセツサとは異なつている。

【０００３】最も平凡なタイプのマルチ・プロセツサは
、各プロセツサが別々のデータ・セツトに動作する別々
のプログラムを実行する複数のインストラクシヨンの複
数のデータ・システム（Ｍｕｌｔｉｐｌｅ　Ｉｎｓｔｒ
ｕｃｔｉｏｎ　Ｍｕｌｔｉｐｌｅ　Ｄａｔａ　Ｓｙｓｔ
ｅｍ−ＭＩＭＤ）である。ＭＩＭＤシステムの中のプロ
セツサは、別個に分かれたタスクを遂行するか、または
、共通の主たるタスクの異なつたサブ・タスクを遂行す
る。

【０００４】ＳＩＭＤ並列プロセツサの考え方が進歩す
るにつれて、米国特許第４４３５７５８号に記載されて
いるように、遂行されるべきシステムのタスクの間に高
い独立性があり、自由に競合できる場合には、ＳＩＭＤ
モードで動作する同期プロセツサのネツトワークが表示
されると考えられていた。実際、米国特許第４４３５７
５８号は、その問題と改善方法とを記載しており、そし
て、条件付きブランチの実行を与えるために、米国特許
第４１０１９６０号に記載された技術の改良をしなけれ
ばならなかつた。

【０００５】並列プロセツシングの国際会議の会報の「
多形態の大円環のネツトワーク（Ｐｏｌｙｍｏｒｐｈｉ
ｃ−Ｔｏｒｕｓ　Ｎｅｔｗｏｒｋ）」と題するリー（Ｈ
．Ｌｉ）等の報告書の４１１頁乃至４１４頁に記載され
ているように、新型の殆どのＳＩＭＤマシンを記載する
ことが通例になつてきた。１９８９年８月のＩＢＭテク
ニカル・デイスクロージヤ・ブレテイン第３２巻３Ａ号
には、ベクトルに対して粗のマトリツクスの積算におけ
る実行の速度を改善するために、再編成の目的のために
他のスイツチング・ネツトワークによつて重ねられたメ
ツシユ・ネツトワークを有し、かつ、リー等によつて記
載されたメツシユ・トポロジーによつて物理的に接続さ
れたＮ×Ｎ個のプロセツサの大量用の並列アーキテクチ
ヤのためのマトリツクス・ベクトル積算法が記載されて
いる。

【０００６】与えられた行中のすべてのプロセツサは全
く同じインストラクシヨンを実行するけれども、各行は
異なつてプログラムされているような複数の行のプロセ
ツサによつて動作するＳＩＭＤマシン及びＳＩＭＤ／Ｍ
ＩＭＤマシンを作るための考えを示した１９９０年の刊
行物がある。１９９０年１月のＩＢＭテクニカル・デイ
スクロージヤ・ブレテイン、第３２巻８Ｂ号のリー（Ｈ
．Ｌｉ）、ドム（Ｂ．Ｄｏｍ）等の発明には、特別の繰
り返し動作を行なうメモリ・インスペクシヨン機能を処
理するための並列的なローカル演算子エンジン（Ｐａｒ
ａｌｌｅｌ　Ｌｏｃａｌ　Ｏｐｅｒａｔｏｒ　Ｅｎｇｉ
ｎｅ−ＰＬＯＥ）と称される構造を持つアーキテクチヤ
が記載されている。

【０００７】このアプリケーシヨンは、ＳＩＭＤマシン
に割り当てることができるばかりでなく、フオン・ノイ
マンのマシンにも割り当てることができるタスクとを、
新しく作られたアーキテクチヤにより形成されたチツプ
で遂行することができるシステムであつて、現在の技術
で製造することのできる空冷式のシステムを想定するこ
とができる。

【０００８】背景の技術を振り返つてみると、他の技術
は、例えば米国特許第４９４２５１６号に記載されてい
るように、１つのシリコン・チツプ上にデータをストア
し、アクセスするための静的なインストラクシヨン用の
ＲＯＭ及びレジスタを持つプロセツサを使用することに
関連しているが、この種類のものは、ＳＩＭＤタイプの
複雑なアプリケーシヨンには無関係である。

【０００９】本発明のシステムも目指しているような手
段、即ち、異なつたタスクを遂行するための種々の手段
を記載した他の刊行物がある。例えば、マトリツクス乗
算は並列演算することができることは知られている。本
発明のシステムを使用することができるアプリケーシヨ
ンは、人工頭脳に関するアプリケーシヨンがある。内容
がアドレス可能である（図３を参照）か、または連想メ
モリ（ａｓｓｏｃｉａｔｉｖｅ　ｍｅｍｏｒｙ）は、大
学の研究室レベルにおける種々の処理チツプでアドレス
される。或る場合におけるＡＩアプリケーシヨンに対し
て、行ロジツクによつて前のサーチ動作の結果に関して
行選択を基礎にすることは有用であることが知られてい
る。これに関しては、クルウワー・アカデミツク出版社
（Ｋｌｕｗｅｒ　Ａｃａｄｅｍｉｃ　Ｐｕｂｌｉｓｈｅ
ｒｓ）１９８９年刊行のデルガド（Ｊ．Ｇ．Ｄｅｌｇａ
ｄｏ）他１名著の「人工頭脳のためのＶＬＳＩ」の９５
頁乃至１０８頁のピーター・コゲ（ＰｅｔｅｒＫｏｇｇ
ｅ））等の「ＶＬＳＩ及びルール・ベースのシステム」
と題する記載を参照されたい。然しながら、その他の提
案は、本発明が指向する方向とは異なつた方向を目指す
技術である。１つの提案は、１９８８年１２月の「ＶＬ
ＳＩシステム・デザイン」に記載された大量の並列化に
用いるためのオクスフオードの「インテリジエント・メ
モリ」である。他の技術としては、再構成可能の完全並
列の連想処理方式を実行するために適するＶＬＳＩ連想
メモリ・チツプを開示するために、ＶＬＳＩ連想メモリ
の並列処理を試みた刊行物がある。古典的な連想メモリ
・アーキテクチヤの使用を教示したこのアプローチは、
関連するデータ転送に対して莫大な数の出力ピンを必要
とする。これについては、カリフオルニヤ大学の電気及
びコンピユータ・エンジニヤリング部の報告書＃ＥＣＳ
−ｈ４０４６２７を参照されたい。

【００１０】米国特許出願第０７／５１９３３２号は、
ＭＩＭＤプロセツサのように複雑ではなく、多額の費用
を要することなく、より柔軟性を以て並列処理を遂行す
ることのできる多次元アレイの処理エレメントの技術が
開示されている。この特許出願は上述のヨーロツパ特許
出願よりも早く公開されている。この米国特許出願に記
載されたシステムは、種々の並列処理エレメント中の制
御ロジツクを接続するバスに沿つてローカル・ビツトを
直列に実行するための大域インストラクシヨンを送り、
修正されたビツトはデコードされるローカル・ビツト・
ライン上に使用するために大域インストラクシヨンの選
択されたビツトをプログラム的に修正する。

【００１１】また、バイト幅のＳＩＭＤプロセツサに関
して、１９８９年５月のＩＥＥＥ会報第１３６巻に「Ｓ
ＩＭＤマイクロプロセツサ・アレイのデザイン」と題す
るジエスホープ（Ｃ．Ｒ．Ｊｅｓｓｈｏｐｅ）等の論文
がある。この論文は、ＳＩＭＤのアーキテクチヤの学術
的な研究論文である。幾つかの項目は、本発明の目的と
同じことを指向しており、バイト幅のＳＩＭＤアーキテ
クチヤを持つプロセツサが記載されている。この論文は
、ＲＡＭボード（１キロバイト）及び１チツプ当り複数
（４個）の処理エレメント（ＰＥ）に限定された８ビツ
ト処理の累算器のアーキテクチヤのエレメントと、或る
程度大きなローカルな独立性とを有する処理エレメント
を提案している。然しながら、このような提案された構
造を使用しているけれども、連想処理は与えられていな
い。提案されている構造は、本発明において与えられて
いる、隣接ユニツトとのバイト幅のコミユニケーシヨン
を与えていない。従つて、並列処理の従来技術を進歩さ
せるために、集積回路チツプ上に実行可能な本発明の技
術が必要である。この他に、１９９０年２月のＩＥＥＥ
の「コンピユータ」中に記載されたダンカン（Ｒ．Ｄｕ
ｎｃａｎ）の「並列コンピユータのアーキテクチヤのサ
マリー」を参照されたい。

【００１２】（定義）本明細書において使用されている
主な用語を以下に定義する。

【００１３】ピケツト　　−　　１クロツク・サイクル
の中でビツト並列のバイト情報を処理するためにローカ
ル・メモリと処理エレメントとの組み合わせで構成され
るのが好ましい処理アレイの中の１個のエレメント。

【００１４】ピケツト・チツプ　　−　　１個のピケツ
ト・チツプは単一のシリコン・チツプ上に複数個のピケ
ツトを含んでいる。

【００１５】ピケツト・プロセツサ・システム（または
、サブシステム）　　−　　ピケツトのアレイと、コミ
ユニケーシヨン・ネツトワークと、Ｉ／Ｏシステムと、
マイクロプロセツサで構成されたＳＩＭＤコントローラ
と、キヤンド・ルーチン・プロセツサと、アレイを動作
するマイクロプロセツサとを含む全体のシステム。

【００１６】ピケツトのアーキテクチヤ　　−　　以下
のような問題を含み、幾つかの雑多な種類の問題に適合
するフイーチヤを持つＳＩＭＤアーキテクチヤの良好な
実施例。−　　セツト連想処理　　　　　　　　　　−
　　並列的な数字の集中的な処理−　　イメージ処理と
類似した物理的なアレイの処理

【００１７】ピケツトのアレイ　　−　　幾何学的な順
序で配列されたピケツトの集合。用語「ピケツト」は、
軍事用の言葉のピケツト・ライン、つまり防衛線に機能
的には類似しているけれども、この用語は、トム・ソー
ヤーと彼の白い柵からきている。

【００１８】

【発明が解決しようとする課題】従来の技術によつて複
雑なアプリケーシヨンをコンパクトなプロセツサで実行
しようとする包括的な問題を解決するためには、従来の
技術において、１つの処理エレメント当り数千ビツト程
度までの容量で、しかもビツト直列で動作するメモリで
実行しなければならないことと、半導体チツプ１個当り
数個の処理エレメントだけでは不充分であると言うこと
とが問題である。このため、非常に高い密度で製造する
ことができ、しかも、空冷の冷却方式に適した構造であ
り、かつ、軽量でコンパクトな装置に適している半導体
チツプのアーキテクチヤの出現が望まれている。本発明
は、バイト幅のポートを持つ各処理ユニツトが、十分な
量のバイト幅のメモリ及び制御ロジツクに接続され、そ
して、処理ユニツトのＮ次元アレイを形成することによ
つて、上述の問題を解決している。幾つかの処理ユニツ
トを含む仕切り可能なセクシヨンのアレイがシリコン・
チツプに含まれている。これについては、以下に詳細に
述べられる。このような解決方法により生じた付加的な
問題も、本発明により解決されている。これらの解決方
法は、処理ユニツトを独立して実行することを可能とし
た。このことに関しては、アレイ中の各処理ユニツトが
入力を取り出すエレメントを選択することが可能な処理
アレイを開示している上述のヨーロツパ特許出願第Ａ−
２０８１２７号を参照されたい。

【００１９】

【課題を解決するための手段】本発明に従つて、「ピケ
ツト」アーキテクチヤと称されるアーキテクチヤが与え
られる。本発明に従つたこのアーキテクチヤは、従来の
ＳＩＭＤ処理エレメント（ＰＥ）と或る程度類似してい
る処理エレメント構造を使用しており、本発明の処理エ
レメントは、ピケツト・ライン（防衛線）が必要な時に
一致し、そして、独立してフオン・ノイマン型の動作を
行なうことができるように改良されている。このアーキ
テクチヤは、ピケツトと呼ばれる処理ユニツトの各々の
中に制御ロジツクを有し、そして並列処理をするために
配列された処理ユニツトのＮ次元アレイを使用するよう
に開発されたものである。

【００２０】本発明のシステムは、単一インストラクシ
ヨンの複数データ（ＳＩＭＤ）ストリームのマシンのよ
うな計算能力を有しており、しかも、並列処理エレメン
トの配列によつて性能が改良されている。本発明はデー
タ依存（ｄａｔａ　ｄｅｐｅｎｄｅｎｃｙ）により生じ
る問題を除去することができる。ＳＩＭＤ動作において
、本発明のプロセツサ、または処理エレメントの機能は
、１つの処理エレメントに対して異なつたマシン・サイ
クル数を必要とさせるようなデータ依存がない。。

【００２１】本発明に従つたアーキテクチヤは、１つの
処理エレメントを連想処理で遂行するのに適している各
ピケツトを連想動作の方法の下で、情報を並列に処理す
る処理エレメントに接続されたローカル・メモリを含ん
でいるビツト並列で動作する処理エレメントを持つ複数
個のピケツト・ユニツト、即ち全体的な「ピケツト」で
構成されるシステムを形成する。本発明の１実施例にお
いて、各ピケツトを水平方向に関連させた方法が示され
ている。従つて、このように配列されたピケツトのアレ
イは、セツト連想メモリを構成している。

【００２２】１つのチツプ上のセツト連想並列処理シス
テムの本発明は、連想処理が遂行できるように、メモリ
から取り出される大きなデータの組から、小さなデータ
の組を形成することができる。通常は比較動作そのもの
である連想動作は、「ピケツト」のメモリ及び実行ユニ
ツトを用いて、並列のデータの組全体に遂行される。

【００２３】この「ピケツト」アレイにおいて、各ピケ
ツトは、より大きな組からのデータの一部を持つている
。加えて、各ピケツトはその一部のデータからデータの
一部分を選択する。従つて、一組のピケツトの各ピケツ
トの中のデータの一部分は、データの組を構成し、並列
に配列されたすべてのピケツトによつて、そのデータの
組に対して連想動作が遂行される。

【００２４】現在の技術で達成可能な設計によつて、１
個のチツプ上に設けられるエレメントは、データ・フロ
ー及び制御ロジツクに関する５００００個のゲートと、
数メガバイトのＤＲＡＭメモリまでが限度であろう。こ
れらの各チツプは複数個のピケツト、即ち処理ユニツト
を含むように構成される。グラフイツク処理に使用可能
なテキスト処理のための本発明の実施例において、１つ
のピケツト・チツプ上に、各ピケツト用の３２キロバイ
トのＤＲＡＭメモリを持つ１６個のピケツトがあり、そ
して、このシステムは、１０２４個の処理エレメントの
アレイを作るために、上述のピケツト・チツプを６４個
含んでいる。このピケツト・アーキテクチヤは、ＣＭＯ
Ｓ技術で製造することが可能であり、このＣＭＯＳ技術
は、１つのチツプの上に繰り返しパターンで配列された
四百万ビツトのＤＲＡＭを作ることが可能であり、そし
て、チツプ上で利用可能な残りのチツプ表面領域は、チ
ツプ上にピケツトを形成するために、データ・フロー及
び制御ロジツクを形成することのできる五万個までの論
理エレメントを用いた標準的な論理セルで満たされてい
る。本発明の実施例において、ピケツトは、ローカル（
地域的）に独立してデータを処理することができるよう
に、システムが配列されており、また、離隔したピケツ
トの間の接続は「スライド」によつて行なわれる。

【００２５】本発明のピケツト技術は拡張可能であり、
例えば、１つのピケツト（１６メガビツトのＤＲＡＭメ
モリ・チツプ）の各々に１２８キロバイトのＤＲＡＭを
持ち、このピケツト・アーキテクチヤは、現在の８ビツ
トのカラー・グラフイツク、または白黒のグラフイツク
が上述の実施例で処理するのと同様の方法で、２４ビツ
トのフル・カラー・グラフイツクを処理することができ
る。実験的な製造技術の結果によると、上述の高い密度
を持ち、空冷式の冷却で動作することのできる均一な製
品を製造することが可能であることが判つている。カラ
ー・グラフイツクに対して、本発明の良好なピケツト・
アーキテクチヤは、１つのチツプ当り１６個のピケツト
の使用にとどめて、１ピケツト当り１２８キロバイトに
、チツプ上のＤＲＡＭの量を増加することができる。代案として、９６キロバイトのメモリを有し、１ピケツ
ト・チツプ当り２４ピケツト・ユニツトのアーキテクチ
ヤがフル・カラー・グラフイツク処理に使用することが
できる。

【００２６】

【実施例】図１は、ヨーロツパ特許出願第８８３０７８
５５／８８−Ａ号及びイギリス特許出願第Ａ−１４４５
７１４号に細部が示された代表的な従来のＳＩＭＤシス
テムが示されている。このような従来の装置において、
ＳＩＭＤコンピユータは、各プロセツサが複数個のＳＩ
ＭＤメモリ装置の１つと関連しており、並列にリンクさ
れているビツト直列の複数個のプロセツサを含む並列ア
レイ・プロセツサを有する単一インストラクシヨンの複
数データのコンピユータである。入力／出力のＩ／Ｏシ
ステムは、ＳＩＭＤユニツトに対するステージング・シ
ステムとして動作し、そして、ホスト・コンピユータ（
これはメーン・フレーム、またはマイクロプロセツサで
もよい）と、ＳＩＭＤコンピユータとの間のデータの双
方向の２次元転送をする一時記憶域を含んでいる。Ｉ／
Ｏシステムは、通常、バツフア・セクシヨンで構成され
るか、または、大きなメモリの一部として構成される複
数個のＳＩＭＤメモリ装置と一時記憶域との間のデータ
の流れを制御するために、ホスト・コンピユータ及び一
時記憶域の間のデータ流を制御する入力／出力処理手段
とを含んでいる。従つて、Ｉ／Ｏシステムの入力動作は
、ホスト・コンピユータから一時記憶域へのデータ転送
と、第２ステツプにおいて、一時記憶域から、ＳＩＭＤ
メモリ装置へのデータ転送とを含んでおり、また、出力
動作は、ホスト・コンピユータとＳＩＭＤコンピユータ
との間のデータを、２次元のバスを介して転送する２段
階の処理である。Ｉ／Ｏ転送用の入力／出力システムは
、別個のユニツト、即ち、ホスト・コンピユータのサブ
・ユニツトでもよいし、ＳＩＭＤコントローラが一時的
Ｉ／Ｏバツフア・ストレージの制御として動作する場合
には、ＳＩＭＤコンピユータ中の１つのユニツトでもよ
い。

【００２７】ＳＩＭＤコンピユータそれ自身は、複数個
の処理エレメントを有するプロセツサ・アレイと、個々
の処理エレメントを接続するネツトワークと、従来通り
に分離された複数個のＳＩＭＤメモリ・デバイスとを含
んでいる。ＳＩＭＤコンピユータは並列にリンクされ動
作される多数の独立した処理エレメントを有する並列ア
レイ・プロセツサである。ＳＩＭＤコンピユータはイン
ストラクシヨンの流れを発生する制御ユニツトを含み、
そしてまた、コンピユータに対して必要なタイミング信
号を与える。種々の処理エレメントを相互接続するネツ
トワークは、独立した処理エレメントの相互接続体系の
或る種の形式を含んでおり、そして、相互接続は、メツ
シユ（ｍｅｓｈ）、多形態の大円環（ｐｏｌｙｍｉｒｐ
ｈｉｃ−ｔｏｕｒｓ）及び超立体（ｈｙｐｅｒｃｕｂｅ
）のようなトポロジーを取ることができる。複数個のメ
モリ・デバイスは、個々の処理エレメントのビツト・デ
ータを直接にストアするストレージであり、そして、大
容量メモリを仕切つたパテイシヨン式のバツフアであつ
てもよいメモリ・デバイスの数と、処理エレメントの数
との間には１対１の対応関係がある。

【００２８】例えば、図１に示されたようなシステムに
おいては、ホスト・プロセツサ２８が与えられている。このプロセツサは、アレイ・コントローラ１４（これは
一時的バツフア・ストレージを含んでいる）にマイクロ
コードをロードするのに用いられ、そして、ホスト・コ
ントローラのデータ・バス３０と、アドレス及び制御バ
ス３１とを介して、データをアレイ・コントローラ１４
と交換し、かつアレイ・コントローラ１４の状態を監視
する。この例におけるホスト・プロセツサは、メインフ
レーム・コンピユータ、またはパーソナル・コンピユー
タのような任意の汎用目的のコンピユータであつてよい
。この従来例において、プロセツサ・アレイは、２次元
（２Ｄ）ベースで説明されているが、このアレイは異な
つた配列、例えば３次元（３Ｄ）、あるいは４次元（４
Ｄ）のクラスタ配列として構成することができる。ＳＩＭＤアレイ・プロセツサは、処理エレメント（ｉ，
ｊ）のアレイと、処理エレメントＰ（ｉ，ｊ）への大域
インストラクシヨンの流れを発生するためのアレイ・コ
ントローラ１４とを含んでいる。図１に示してはいない
が、この従来例は、一時に１個のビツトを処理する処理
エレメントを持つており、そして、処理エレメントに関
連したメモリのパテイシヨンであるストレージのブロツ
クに関連している。処理エレメントは、双方向ビツト・
ラインによつてそれらの関連する隣の処理エレメントに
、所謂、ＮＥＷＳ（北、東、西、南）ネツトワークによ
つて接続される。従つて、処理エレメントＰ（ｉ，ｊ）
は、北方、西方、東方及び南方の方向に夫々、処理エレ
メントＰ（ｉ−１，ｊ）、Ｐ（ｉ，ｊ＋１）、Ｐ（ｉ，
ｊ−１）及びＰ（ｉ＋１，ｊ）に接続されている。この
代表的な例においては、ＮＥＷＳネツトワークは、北方
及び南方の辺が双方向に相互接続され、かつ、西方及び
東方のエツジが同様に相互接続されるように、トロイダ
ル的に接続される。データをプロセツサのアレイに入力
し、そして、データをプロセツサから出力するために、
コントローラのアレイのデータ・バス２６はＮＥＷＳネ
ツトワークに接続される。図示されているように、それ
は、アレイの西方−東方の境界に接続されるが、付加的
な接続として、トロイダルの東方−西方ＮＥＷＳ接続に
接続された双方向のトリステイト（３状態）ドライバに
よつて、北方−南方の境界に接続することができる。若
し、処理エレメントの数が、図示のような１６×１６の
マトリツクスの代わりに、３２×３２のマトリツクスに
すれば、後述される良好な実施例において、１０２４個
の処理エレメントが従来の技術で達成することができる
。図示の例において、１本のラインは１個のビツト・ラ
インに使用されるが、機能的なエレメントに接続した２
本のラインは、バスの複数本のラインを表わすのに用い
られている。

【００２９】この従来例において、アレイ・コントロー
ラはインストラクシヨン・バス１８を通つて処理エレメ
ントに並列にインストラクシヨンを発生し、そして、行
選択ライン２０及び列選択ライン２２を介して行選択信
号及び列選択信号を発生する。これらのインストラクシ
ヨンは、処理エレメントに対して、ストレージからのデ
ータをロードさせ、データを処理させ、そして、ストレ
ージ中に再度データをストアさせる。従つて、論理的に
は、アレイ・プロセツサの主メモリは、１０２４個の処
理エレメントのアレイに対して１０２４個のパテイシヨ
ンのスライス（区画）に分離される。このことは、転送
ステツプにおいて、一度に、３２個の３２ビツト・ワー
ドがストレージ中に転送されるか、またはストレージか
ら転送されることを意味する。読み取り、または書き込
み動作を遂行するために、メモリは、アドレス・バス２
４を介してメモリ・アドレス・ラインに供給されるイン
デツクス・アドレスによつてアドレスされ、そして、読
み取り、または書き込み動作は、各処理エレメントに並
列に供給される。読み取り動作の間において、行及び列
選択ライン上の行及び列選択信号は、どの処理エレメン
トが動作を行なうかを特定する。従つて、ここで説明し
ている例においては、アレイが３２×３２である場合、
選択された行中の３２個の処理エレメント中に、メモリ
から１つの３２ビツト・ワードを読み取ることが可能で
ある。処理エレメントは、１ビツト幅であるメモリ（ｉ
，ｊ）のスライス、即ちブロツクに関連される。区画付
けされたメモリ、つまりメモリのブロツクは、論理的に
言つて、関連した個々の処理メモリに１対１の関係で関
連されているが、メモリのブロツクは通常、他のチツプ
の上に物理的に分離されている。上述のようなアレイプ
ロセツサの従来のアーキテクチヤがどのようにして作ら
れるのかは、ここでは述べないけれども、単一のチツプ
上にプロセツサのアレイと十分なメモリとを有する本発
明のピケツトがどのようにして作られるかについては以
下に説明される。

【００３０】従来例の処理エレメントＰ（ｉ，ｊ）それ
自身は、各レジスタが単一ビツトの情報をストアするこ
とができ、そして、繰り上げを含む入力レジスタ及び出
力レジスタと、ＡＬＵ（算術演算論理ユニツト）とを含
むものとして理解するのがよい。これは、ＡＬＵの入力
、出力に接続され、そしてまた、個々の処理エレメント
Ｐ（ｉ，ｊ）と関連されたメモリ（ｉ，ｊ）のスライス
の双方向のデータ・ポートに接続されたマルチプレクサ
でもある。

【００３１】別々のインストラクシヨン・バス及びデー
タ・バスがあり、そして、アレイ・コントローラは、マ
イクロコードのストレージを持つており、このストレー
ジにおいて、アレイによつて遂行されるべき処理を決め
るマイクロコードがデータ・バス３０と、アドレス及び
制御バス３１とを使用したホスト・プロセツサ２８によ
つてロードされる。アレイ・コントローラの動作がホス
ト・プロセツサ２８によつて開始された後、アレイ・コ
ントローラ１４の中のマイクロコード・ストレージに接
続されたマイクロコード制御ユニツトによつて、マイク
ロコードの順序付けが制御される。アレイ・コントロー
ラのＡＬＵ及びレジスタ・バンクは、アレイ・メモリの
アドレスと、ループ計数と、ジヤンプ・アドレス計算と
、アレイ・コントローラのアドレス・バス上の出力であ
る汎用目的レジスタの動作との発生に用いられる。また
、アレイ・コントローラは、行及び列マスク・コードを
デコードするためのマスク・レジスタを有し、そして、
特定のオペレーシヨン・コードが、情報バスを通つて処
理エレメントに通過する。この例において、アレイ・コ
ントローラは、アレイ・コントローラの中にあつて、機
能的には、ホスト・コントローラのデータ・バスとコン
トローラのアレイのデータ・バスとの間にあるデータ・
バツフアを持つことができる。データは、コントロール
・ストレージ中のマイクロコードの制御の下で、このバ
ツフアから、プロセツサのアレイの中にロードされ、あ
るいは、プロセツサのアレイから、このバツフアの中に
ロードされる。この目的のために、このバツフアは、ア
レイ・コントローラ中のマイクロコードの制御の下で双
方向性のＦＩＦＯ（最初に入力したものを最初に出力す
る）バツフアとして配列されている。この従来のシステ
ムに関するより細部については、上述の例、特に米国特
許出願第０７／５１９３３２号のＳＩＭＤアレイ・プロ
セツサを参照されたい。

【００３２】上述の従来の装置と本発明の実施例とを比
較することができる。図２は、１クロツク・サイクルで
、１バイトの情報を処理するための処理エレメントに接
続されたローカル・メモリ１０２と組み合わされた処理
エレメントＡＬＵ１０１を含む基本的なピケツト・ユニ
ツト１００を示す図である。図２に示されているように
、複数個のローカル・メモリを有するピケツト処理アレ
イが、シリコン・ベースのチツプの上に形成され、１バ
イト幅で処理するデータ・フローが、右隣の位置及び左
隣の位置の２方向にデータを通過する隣位置コミユニケ
ーシヨン・バスの論理行、即ちリニヤ・アレイに配列さ
れるように、横方向の隣位置のピケツト（図２において
左側及び右側のピケツト）と共にリニヤ・アレイを形成
するピケツト・ユニツトが、シリコン・ベースのチツプ
、即ち「ピケツト・チツプ」上に形成される。「ピケツ
ト・チツプ」中のピケツトの集合は、チツプ上で水平方
向が望ましい、幾何学的順序で配列されている。図２は
、各ピケツトの処理エレメント及びメモリの間にコミユ
ニケーシヨン通路を含む複数のメモリ及びデータ・フロ
ーを持ち、１つのピケツト・チツプ上に２つのピケツト
のピケツト・アレイを示した代表的な実施例を示してい
る。本発明の実施例において、アレイ中の処理エレメン
トと１対１の関係を持つメモリの間のデータ・コミユニ
ケーシヨン通路は、１バイト幅であり、そして、左隣の
位置、または右隣の位置と交差しており、そして、離れ
たピケツトの処理エレメントとのコミユニケーシヨンは
、「スライド」により行なわれる。

【００３３】「スライド」とは、送られているメツセー
ジに対してピケツトが透過でなければ、通常その情報を
受け取ることができるピケツトのアドレス・ロケーシヨ
ンを通過して、最も近くの隣の位置のアクテイブのピケ
ツト・ユニツトにデータが到着し、そして受け取られる
まで、隣ではない位置に、１サイクルで情報を転送する
手段である。従つて、スライドは、「オフに転じた」ピ
ケツトを通過して、隣の位置ではない離れた位置に情報
を送る機能を持つている。ピケツト「Ａ」が、離れたピ
ケツト「Ｇ」に情報を転送することを望んでいるものと
仮定する。そのサイクルの前に介入した「Ａ」と「Ｇ」
の間にあるピケツトは、これらの「Ｂ」乃至「Ｆ」ピケ
ツトがオフになることによつて透過にされる。次に、次
の１つのサイクルにおいて、ピケツト「Ａ」は、右側へ
そのメツセージを送り、このメツセージを転送している
間において、オフに転じて透過になつたピケツト「Ｂ」
乃至「Ｆ」を通つて上述のメツセージを通過させ、そし
て、ピケツト「Ｇ」は未だオンなので、ピケツト「Ｇ」
がメツセージを受け取る。「スライド」の通常の使用に
おいて、情報はアレイの格子（ラテイス）を通つてリニ
ヤに転送されるが、スライドのアプローチは、２次元的
なメツシユにより動作することもできるし、或は、多次
元的なアレイの中で動作することもできる。

【００３４】本発明の良好な実施例における処理エレメ
ントのアクセスは、ビツトに対して直列による動作では
なく、バイトに対して直列な動作（従つて、ビツトに対
して並列な動作）で行なわれる。各プロセツサは、ロー
カル・メモリのブロツク、及び関連したパテイシヨン、
またはそのページにアクセスするのではなく、それ自身
に接続されたメモリにアクセスする。１ビツトのバスの
代わりに、１キヤラクタ（文字）の幅、または複数キヤ
ラクタの幅のバスが与えられる。１クロツク・サイクル
において、情報を１ビツト毎に処理するのではなく、１
クロツク・サイクルで１バイトが処理される（または、
他の実施例のシステムにおいては、複数のキヤラクタ・
バイトを重複して動作させる）。従つて、関連したメモ
リの幅にマツチするために、８ビツト、１６ビツト、ま
たは３２ビツトを、各ピケツト処理エレメントの間で転
送することができる。本発明の良好な実施例においては
、各ピケツト・チツプは、３２キロ・バイトの８（９）
ビツト幅を持ち、好ましくは、リニヤ・アレイのピケツ
ト・ノード毎にこの３２キロ・バイトを持つ１６個のピ
ケツトを持つのが望ましい。本発明の１実施例において
、各関連メモリは、ＤＲＡＭとしてのＣＭＯＳであり、
キヤラクタ・バイトは９ビツトである（自己チエツク機
能を持つ８ビツト・キヤラクタとして機能する）。

【００３５】ピケツトの間、そして、処理エレメントの
間の並列通路でバイト幅のバスのデータ・フローは、従
来のシステムの直列ビツト構成を超えて大きく改良され
るけれども、このことはまた、この改良によつて強化さ
れた並列方式が、更に次の問題を生じており、新規に開
発されたアーキテクチヤが暗に含む問題を理解すること
が必要である。これに対する重要な解決法について以下
に説明する。

【００３６】ここで考慮される特徴は、左隣及び右隣へ
の転送と、図面を参照して説明したスライドのメカニズ
ムとに加えて、２バイト幅のブロードキヤスト・バスを
与えているので、すべてのピケツトは同じデータを同時
に見ることができる。ピケツト制御及びアドレスの転送
は、このブロードキヤスト・バスにより転送される。ま
た、このバスは、セツト結合動作及び他の比較動作、ま
たは同期式マツチ動作を遂行する時に、比較データを供
給する。

【００３７】１つのインストラクシヨン・ストリームの
制御の下で、ピケツト・データ処理エレメント内の処理
を与える高度の並列データ構成を持つタスクは、人工知
能のパターン・マツチング、マルチ・センサの最適割り
当てにおけるセンサ及びトラツクの融合、コンテクスト
検索及びイメージ処理のアプリケーシヨンを含んでいる
。然しながら、現在入手可能なこれら多くのアプリケー
シヨンは、１つのクロツク時間内で、ビツト毎に直列に
行なう処理をしているので、ＳＩＭＤ処理は使用されて
いない。例えば、従来の通常の直列処理エレメントのＳ
ＩＭＤマシンは、各ＡＤＤ（加算）処理サイクル毎に１
ビツトを実行するのとは対照的に、３２ビツト並列のマ
シンは、１つの加算サイクルに３２ビツトを実行するこ
とができる。

【００３８】各処理エレメント毎に３２キロバイトを持
つ構造において、各処理エレメントに対して論理的に利
用可能なメモリは、通常のＳＩＭＤマシンが与えるメモ
リの数よりも遥かに多数のメモリを与える。

【００３９】本発明に従つて、チツプの回路の中に入り
、そしてチツプの回路から出るデータは最小限に維持さ
れているので、チツプ上のピン接触子は少数である。このＤＲＡＭメモリは、メモリ・アレイの裏側の列デマ
ルチプレクシングを除去することによつて「行−列」ア
クセスをサポートし、そして、並列にされたデータ・フ
ローに対してメモリ・アレイの行を読み取る行アドレス
を与えるような通常のメモリのＣＭＯＳアレイである。

【００４０】このメモリは、データに加えて、「トリ・
ビツト（ｔｒｉ−ｂｉｔ）」、即ち「トリツト（ｔｒｉ
ｔ）」を含んでおり、これは、ロジツク１か、ロジツク
０の何れかである通常のバイナリ・デイジツトではなく
、「ロジツク１」か、「ロジツク０」か、または「ドン
トケア（ｄｏｎ’ｔ　ｃａｒｅ）（無視）」かの何れか
のロジツクによつて認識される３状態を持つている。マ
ツチ・フイールド中のドントケアはロジツク１か、また
はロジツク０の何れかとマツチする。トリツトはストレ
ージ・アレイ中の相次ぐストレージ・ロケーシヨンに含
まれている。マスクは、ピケツト処理エレメントのマス
ク・レジスタに差し向けられたメモリの中にストアされ
たデータの他のフオームである。

【００４１】ストレージ・アレイはコマンドを含むこと
ができ、このことは、１つのピケツトは他のピケツトと
は異なつた動作をすることが可能であることを意味する
。すべてのピケツトであることは必要ではないが、大部
分のピケツトに含まれている動作の間での個々のピケツ
トのオン・チツプの制御が、独特なＳＩＭＤ動作を実現
するのを可能とする。ピケツトに与えられた１つの簡単
な制御機能は、ステータス出力が特別な状態を満足した
すべてのピケツトの動作を中断する機能である。従つて
、ゼロでない状態がドーズ（ｄｏｚｅ）を意味する。ド
ーズは、ピケツトが動作を一時停止した状態であり、そ
して、ピケツトを不活性に転ずるが、ステータスは覚え
ている状態である。ピケツトに与えられる他のコマンド
は、ピケツトの状態に基づくか、または、スライド動作
の前にバスに与えられたコマンドに基づいて、メモリへ
の書き込みを禁止したり、あるいは、メモリへの書き込
みを許容するコマンドである。

【００４２】夫々が３２キロバイトのメモリを持つ１６
個の強力なピケツトを１つのピケツト・チツプに適用す
ることによつて、たつた６４個のチツプが１０２４個の
プロセツサと、３２７６８キロバイトのメモリを与える
。ピケツトのアレイは、一組の連想メモリを含んでいる
。また、本発明は数字を集中処理するイメージ分析及び
ベクトル処理に使用することができる。この強力なピケ
ツト処理アレイは、現在、たつた２枚の小さなカードに
実装することができる。数千のピケツトが、より小型で
低電力に実装されたパツケージとすることができ、例え
ば、飛行中の航空機において、大きな積載量を考えるこ
となしに、ビデオのフレーム時間内か、小さな遅延時間
でイメージ処理のアプリケーシヨンの実行を可能にする
。

【００４３】このピケツトの力は、狭い空間に実装され
た大容量の連想メモリ・システムを作成する可能性があ
り、そして、システムの設計者がこのような新しいシス
テムの使用に慣れた後には、この処理能力を種々のアプ
リケーシヨンに使用することができる。

【００４４】図３は、完全連想メモリと呼ばれているメ
モリを示しており、これは、関連することが要求された
時、すべてのメモリ・ロケーシヨンに対して比較値が与
えられ、そして、メモリの一致ライン（比較の一致を表
わす出力ライン）上に、メモリのすべてのロケーシヨン
が、同時に応答するようなメモリである。連想メモリそ
れ自身は公知である。メモリ及び処理エレメントの並列
ピケツトを使用して、サーチを行なうためにバイト転送
を持つ本発明のシステムにおいて、Ｎ個のワードを含む
メモリの中でワードＫをサーチするために、データの入
力と、サーチをするためのマスクとがある。一致したす
べてのピケツトがステータス・ラインを上昇し、次に、
他の動作が最初に一致したＫを読み取る、即ち一致した
Ｋを選択する。通常、セツト連想動作と言われているこ
の動作は、相次ぐワードに対してピケツトのメモリをサ
ーチすることによつて繰り返し行なうことができる。同
様に、上昇された選択ラインが参加を表示し、そしてブ
ロードキヤスト・データが選択されたすべてのピケツト
にコピーされるブロードキヤスト動作によつて、書き込
み動作が行なわれる。

【００４５】他の実施例は、図３に示したタイプの完全
連想メモリの部分を含ませるために、各ピケツトに利用
可能なＤＲＡＭメモリの数を減らしている。若し、例え
ば５１２バイトの完全連想メモリが含まれていれば、す
べてのピケツトは一組のサーチ・インデツクスを含むこ
とができ、そして、１回の動作で、５１２掛ける１０２
４個のピケツトは、１動作毎に約５１２０００回の比較
、つまり、１マイクロ秒の比較動作において、毎秒５１
２ギガ回の比較を行なうことができる。この考えを延長
すれば、１マイクロ秒で数テラ回の比較動作回数の範囲
にまで応用することができる。この実施例は、現在の計
算能力を遥かに超えた高度の能力によつて情報の集中的
なサーチを行なう連想タスクを強化するものである。

【００４６】別のアルゴリズムのアプリケーシヨン、あ
るいは別の動作をするアプリケーシヨンや、人工知能の
試みや、ＳＩＭＤの環境で試みられる並列的なプログラ
ミングなどに加えて、図２に示されたようなメモリ及び
バイト幅の処理エレメントを連想動作に用いると、現在
利用可能なアプリケーシヨンにおいて、ＳＩＭＤの環境
にある上述のチツプ構成を持つマシンにより動作するこ
とができるアプリケーシヨンは多数のものがある。

【００４７】マトリツクス掛け算を含んで単純に並列化
可能な算術演算のタスク及びこの特別なメモリ・マシン
で行なうことができる他のタスクは、フオン・ノイマン
型のマシンで遂行することができるが、例えば、３次元
イメージのパターン・マツチングのような膨大な並列化
に適用可能なアプリケーシヨンによつて非常に高速化す
ることができるイメージ・マッチング及びイメージ処理
や、データベースの質問機能や、人工知能の分野におけ
るパターン・マツチングや、ネツトワークのブリツジの
他の側のユーザに行くメツセージを迅速に識別するため
のブリツジ中のネツトワーク制御や、ゲート・レベルの
シミユレーシヨンや、ＶＬＳＩの基本ルールの違反の検
査装置などである。

【００４８】メモリ・バンク及び関連した処理エレメン
トの利益を享受する処理の仕事は、アプリケーシヨン・
プログラマが新しいシステム・アーキテクチヤのパワー
の利益を受けるよう新しい開発をする時に、アプリケー
シヨン・プログラマが担う仕事である。

【００４９】デイジタル・システムの記述を保持する処
理は、ピケツト１００個毎に１つのゲート、または１つ
のロジツク素子に対して、１個のアレイを使用すること
によつて強化することができる。そのようなシステムに
おいて、その処理は、ゲート入力として受け取つた信号
のリストとして各ゲートの記述を割り当て、そして、ゲ
ートが発生した信号を名付けることによつて開始される
。信号が変化するたびに、バス１０３によりその名前が
すべてのピケツトへブロードキヤストされ、そして、予
測されている入力信号の名前と並列に比較される。若し
、その比較の一致が見い出されると、データ・フロー・
レジスタのビツト中の信号の新しい値をピケツト中に記
録する。全ての信号変化が記録された時、すべてのピケ
ツトは、並列に制御ワードを読み出し、制御ワードは、
入力の現在の組を何のようにして使用するかをそれらの
データ・フローに知らせる。これらの計算を並列に遂行
させ、その結果をローカル・ゲートからの古い値と比較
する。出力が変化したピケツトのすべてのゲートをデー
タ・フロー・ステータス・ビツトに記録する。外部のコ
ントローラは、すべてのピケツトを質問し、そして、変
化された次のゲートを求める。次に、ピケツトから他の
すべてのピケツトに該当する信号名と値をブロードキヤ
ストし、そして、もはや信号が変化しないか、または、
この処理が停止されるまで、このサイクルが繰り返され
る。

【００５０】他の処理は辞書の名前の検索である。全て
の辞書の名前の最初の文字を、ブロードキヤスト・デー
タ・アドレス・バス１０３上の所望のブロードキヤスト
名と比較することができるように、辞書の名前がピケツ
トのメモリ１０２中にストアされる。マツチしない全て
のピケツトは所定の制御信号によつてオフに転じられる
。次に、第２の文字が比較され、上述と同じプロシージ
ヤが行なわれ、以下同様に、アクテイブなピケツト・ユ
ニツトがなくなつた時点、つまり、辞書の名前の最後の
文字に到達するまで、同じ比較動作及びオフに転じるプ
ロシージヤが、後続する文字に対して繰り返される。辞書の名前の最後の文字が処理された時点において、残
つたピケツト・ユニツトは質問され、所望のデータのイ
ンデツクスがシーケンサによつて読み取られる。

【００５１】図４は、このようなシステムの制御ストラ
クチヤを示すＳＩＭＤサブシステムとして構成すること
ができる並列アレイの一部として単一のシリコン・チツ
プ上で、行に配列されたピケツト・ユニツトに対して並
列に接続された複数個のプロセツサ及びメモリと、ピケ
ツト・ユニツトとの基本的ピケツト構造を示す図である
。また、この基本的ピケツト構造は制御プロセツサと管
理用マイクロプロセツサとを示している。メモリ及び並
列の処理エレメントが示された図４において、図４の中
の同じチツプ上のロジツクは、セクシヨン・ラベルが付
された「ピケツトのアレイ」中に示されている。各メモ
リは、８（９）ビツトの文字幅が好ましいｎビツト幅を
持つているが、概念的には、複数バイト幅のメモリのワ
ード幅を持つている。従つて、並列のピケツト・プロセ
ツサ・エレメントのメモリ部分は８（９）ビツト幅か、
または１６ビツト、もしくは３２ビツト幅が望ましい。現在の好ましいＣＭＯＳ技術によつて、各ピケツトは処
理エレメントを有する８ビツト（自己チエツクを持つ場
合は９ビツト幅）か、またはキヤラクタ幅の連想メモリ
を使用するのが望ましい。メモリは結合された処理エレ
メントと１対１で直接に関連されており、結合された処
理エレメントは、ＡＬＵと、マスク・レジスタ（マスク
動作のために用いるＡ＆Ｑ）と、ラツチ１０４（図４の
ＳＲ）と、そして、ピケツトの細部を示した図２に示さ
れているステータス・レジスタ１０７と、データ・フロ
ーＡレジスタ１０５及びＱレジスタ１０６（図４のＤＦ
）とを含んでいる。チツプそれ自身の上の複数ビツト幅
のＤＲＡＭメモリと、処理エレメントとの間は１対１で
関連されているので、ＤＲＡＭ及び各ピケツト・プロセ
ツサのロジツクは、ネツトワークの接続を行なうのに何
等の負担をかけない。

【００５２】図４において、Ｂレジスタのラツチ（ＳＲ
）１０４のラツチは、メモリと、処理エレメントのＡＬ
Ｕの関連したロジツクとの間に論理的に置かれており、
そして、そのラツチは、ピケツトのアレイに沿つた各処
理エレメントのための接続ポートの主要部になることは
注意を要する。各ピケツト・チツプは、ピケツト制御と
コミユニケーシヨンをするために、直線（一直線のバス
として示されている）に配列された複数個の並列ピケツ
ト処理エレメントを含んでいる。ベクトル・アドレス・
バスはメモリに対して共通であり、データ・ベクトル・
アドレス・レジスタは、どのデータが各メモリを通過す
るかを制御する。

【００５３】また、図４は、本発明の１実施例において
、ＩＢＭのＰＳ／２システムとして構成されたインテル
社製の３８６マイクロプロセツサを有する主プロセツサ
、即ちマイクロプロセツサＭＰのカードと、サブシステ
ム・コントローラとの間を相互接続しており、そして、
マイクロプロセツサＭＰは、大域インストラクシヨンを
、サブシステム・コントローラを通してキヤンド・ルー
チン・プロセツサＣＲＰに送り、キヤンド・ルーチン・
プロセツサＣＲＰは、インストラクシヨン・シーケンサ
４０２及び実行制御４０３にインストラクシヨンを与え
、実行制御４０３は　　インストラクシヨン・シーケン
サによつて呼び出された特別のマイクロコードを実行す
ることが示されている。このインストラクシヨン・シー
ケンサ４０２は、機能的にはコントローラと類似してい
る。然しながら、実施例のキヤンド・ルーチン・プロセ
ツサＣＲＰの中にはローカル・レジスタ４０５が与えら
れており、ローカル・レジスタ４０５は、ローカル・レ
ジスタＡＬＵ（図示せず）と協働して、ピケツトのアレ
イ４０６の中のすべてのピケツトにブロードキヤストす
るすべてのアドレツシングの基礎を与える。このように
して、ピケツトのリソースや、ピケツトの実行サイクル
を用いることなく、１つのＡＬＵの中のすべてのピケツ
トに対するアドレス計算が遂行される。この重要な付加
的な機能は、ピケツトのアレイに対する制御の柔軟性を
与えて、遂行される特別のタスクに対してドーズ機能、
禁止機能、またはその他の機能を可能とし、また、すべ
てのブロードキヤストインストラクシヨン、またはデー
タの機能からピケツトを分離するのを可能とする。

【００５４】ピケツトのアレイの中に含まれるデータに
対してＳＩＭＤ処理を行なうために、ロードされたマイ
クロコード４０７を持つインストラクシヨン・シーケン
サ４０２は、主プログラムのマイクロプロセツサＭＰと
、キヤンド・ルーチン・プロセツサＣＲＰのラン・タイ
ム・ライブラリ４０８のキヤンド・ルーチンとによつて
決められたＳＩＭＤインストラクシヨン・シーケンスの
下で実行することをピケツトのアレイにブロードキヤス
トする。

【００５５】サブシステムのインターフエースを介して
マイクロプロセツサＭＰに与えられるインストラクシヨ
ンは、マイクロプロセツサのサブシステム・コントロー
ラによつてマイクロプロセツサに送られる「Ｓｔａｒｔ
　　Ｐｒｏｃｅｓｓ」、「Ｗｒｉｔｅ　　Ｏｂｓｅｒ．
」及び「Ｒｅａｄ　　Ｒｅｓｕｌｔ」を含む高レベルの
処理コマンドである。マイクロプロセツサＭＰは、図４
、図５、図６及び図７中に示されたサブシステム配列の
中のメーン・システム、即ち制御プロセツサであるとし
て考えることができる。この装置は、また、キーボード
のような周辺入力装置（図示せず）及びデイスプレー・
ユニツト等の付加的装置を持つ独立したユニツトでもよ
いことには注意を払う必要がある。この独立構成におい
て、マイクロプロセツサＭＰのシステムは、図７に示さ
れた線に沿つて挿入されるシーケンサ・カード（それは
キヤンド・ルーチン・プロセツサを構成する）と、プロ
セツサのアレイのカードとを含む市販のＩＢＭのＰＳ／
２であると考えることができる。ルーチン・ライブラリ
４１１は、ＣＡＬＬ（，）、Ｋａｌｍａｎ、Ｃｏｎｖｏ
ｌｖｅ、及びＮａｖ．Ｕｐｄａｔｅのようなプロセスの
全体の制御に対するルーチンのシーケンスを含むことが
できる。これらのルーチンの選択は、ユーザのプログラ
ムの選択に属しているので、全体の処理は、外部のホス
ト・プロセツサの制御の下か、またはＭＰ中にあるユー
ザのプログラム４１２の制御の下で行なわれる。データ
・バツフア４１３は、並列ピケツト・プロセツサ・シス
テムへのデータの転送、または、並列ピケツト・プロセ
ツサ・システムからのデータを転送するために、ＭＰの
メモリ中に与えられている。インストラクシヨン・シー
ケンサ４０２は、マイクロプロセツサからの制御信号の
ストリームと、キヤンド・ルーチン・ラン・タイム・ラ
イブラリ・メモリ４０８中にストアされているキヤンド
・ルーチンとを実行するように構成されている。これら
のルーチンの内のあるものは、キヤンド・ルーチン・ラ
ン・タイム・ライブラリ４０８によつて与えられるキヤ
ンド・ルーチンからのＣＡＬＬ（，）、Ｌｏａｄ　　Ｂ
ｌｏｃｋ、Ｓｉｎ、Ｃｏｓ、Ｆｉｎｄ、Ｍｉｎ、Ｒａｎ
ｇｅ　　Ｃｏｐｍ及びＭａｔｒｉｘＭｕｌｔｉｐｌｙを
含んでいる。

【００５６】また、キヤンド・ルーチン・プロセツサＣ
ＲＰの中には、「ロード」、「読み取り」、「加算」、
「掛け算」及び「マツチ」機能のような低レベルの実行
を制御するためのマイクロコード４０７がある。

【００５７】このシステムにおいて、ＦＯＲ／ＮＥＸＴ
の外部制御を、各処理ユニツトに与えるのが望ましい。また、１実施例において、決定論的な（ｄｅｔｅｒｍｉ
ｎｉｓｔｉｃ）浮動小数点バイトの正規化動作が与えら
れている。

【００５８】本発明の実施例に与えられたシステムのマ
クロの改善の決定論的なアプローチを使用することによ
つて、ピケツトのグループ化と、「グループ」制御とを
可能としている。個々のピケツトの処理の変化に適合す
るために、ローカルなドーズ機能が与えられる。

【００５９】ユーザのプログラムがプロセツサのアレイ
による実行を必要とする場合には、原始的なコマンド、
アドレス及びブロードキヤスト・データがピケツト・プ
ロセツサのアレイに与えられる。

【００６０】システムの各部分が使用する特定の機能は
、遂行されるべきタスクによつて決定され、そして、ユ
ーザのプログラムのコンパイル動作の時に割り当てられ
る。

【００６１】サブシステムの柔軟性は、むしろ共通問題
によつて説明することができる。例えば、マトリツク乗
算の問題．．．．［ｘ］＊［ｙ］＝［ｚ］を取り上げる
。

【００６２】これは、以下の問題として表わすことがで
きる。

【００６３】

【００６４】これは、以下に示すようなパス（ｐａｓｓ
）の数を示した近くのステートメントと、この例の場合
に与えられた１回のパス当りのクロツク・サイクルの数
が述べられているステートメントとによつて解くことが
できる。

【００６５】　　　　　　　　　　　　　　　　　　　　　　　　　
　　　　　　　　　　　　　　　　　　　　　　　　　
　　　　　　　　　　ｃｙｃｌｅｓ／　　　　　　　　
　　　　　　　　　　　　　　　　　　　　　　　　　
　　　　　　　　　　　　　　　　　ｐａｓｓｅｓ　　
　　　　ｐａｓｓ０１　　　　Ｃａｌｌ　Ｍａｔｒｉｘ
　Ｍｕｌｔ　Ｆｘ　　　　　　　　　　　　　　　　　
　　　　　　　　　　１　　　　　　　　　　ｃ　　　
　　　　　　　　　（Ｒ，Ｍ，Ｃ，Ｘａｄｄｅｒ，　Ｙ
ａｄｄｒ，　Ｚａｄｄｒ）０２　　　　ｘＳＵＢ　＝　
ｙＳＵＢ　＝　ｚＳＵＢ　＝　１　　　　　　　　　　
　　　　　　　　　　　　　　１　　　　　　　　　　
３０３　　　　ＤＯ　Ｉ　＝　１　ｔｏ　Ｃ　　　　　
　　　　　　　　　　　　　　　　　　　　　　　　　
　　　１　　　　　　　　　　３０４　　　　　　ＤＯ
　Ｊ　＝　１　ｔｏ　Ｒ　　　　　　　　　　　　　　
　　　　　　　　　　　　　　　　　Ｃ　　　　　　　
　　　３０５　　　　　　　ｚ　＝　０　　　　　　　
　　　　　　　　　　　　　　　　　　　　　　　　　
　　　　　　ＣｘＲ　　　　　　　５／６＊０６　　　
　　　　ＤＯ　Ｋ　＝　１　ｔｏ　Ｍ　　　　　　　　
　　　　　　　　　　　　　　　　　　　　　　ＣｘＲ
　　　　　　　　３０７　　　　＊＊＊Ａｓｓｉｇｎ　
ｔｏ　ａｓｓｏｃｉａｔｉｖｅ　ｐａｒａｌｌｅｌ　ｐ
ｒｏｃｅｓｓｏｒ＊＊＊０８　　　　　　　　　　Ｚｚ
　＝　Ｘｘ　ｘ　Ｙｙ　＋　Ｚｚ　　　　　　　　　　
　　　　　　　　　　　　　ＣｘＲｘＭ　　　２０４／
３４５＊０９　　　　　　　　　　　　　　　　＊＊＊
Ｒｅｔｕｒｎ　ｒｅｓｕｌｔ＊＊＊１０　　　　　　　
　　　ｘＳＵＢ　＝　ｘＳＵＢ　＋　Ｒ　　　　　　　
　　　　　　　　　　　　　　　　　　ＣｘＲｘＭ　　
　　　　２１１　　　　　　　　　　ｙＳＵＢ　＝　ｙ
ＳＵＢ　＋　１　　　　　　　　　　　　　　　　　　
　　　　　　　ＣｘＲｘＭ　　　　　　２１２　　　　
　　　ＮＥＸＴ　Ｋ　　　　　　　　　　　　　　　　
　　　　　　　　　　　　　　　　　　　　　ＣｘＲｘ
Ｍ　　　　　　３１３　　　　　　　ｘＳＵＢ　＝　ｘ
ＳＵＢ　−　ＭｘＲ　＋　１　　　　　　　　　　　　
　　　　　　　　　　ＣｘＲ　　　　　　　　２１４　
　　　　　　ｙＳＵＢ　＝　ｙＳＵＢ　−　Ｍ　　　　
　　　　　　　　　　　　　　　　　　　　　　　　Ｃ
ｘＲ　　　　　　　　２１５　　　　　　　ｚＳＵＢ　
＝　ａＳＵＢ　＋　１　　　　　　　　　　　　　　　
　　　　　　　　　　　　　ＣｘＲ　　　　　　　　２
１６　　　　　　ＮＥＸＴ　Ｊ　　　　　　　　　　　
　　　　　　　　　　　　　　　　　　　　　　　　　
　　ＣｘＲ　　　　　　　　３１７　　　　　　ｘＳＵ
Ｂ　＝　１　　　　　　　　　　　　　　　　　　　　
　　　　　　　　　　　　　　　　Ｃ　　　　　　　　
　　２１８　　　　ＮＥＸＴ　ｚ　　　　　　　　　　
　　　　　　　　　　　　　　　　　　　　　　　　　
　　　　　Ｃ　　　　　　　　　　３１９　　　ＥＮＤ
　Ｃａｌｌ　　　　　　　　　　　　　　　　　　　　
　　　　　　　　　　　　　　　　　　　１　　　　　
　　　　　１　　　　註　　＊固定小数点（４バイト）
／浮動小数点（１＋４バイト）

【００６６】上述の例を
吟味すると、上述のステートメント０８で表示されたタ
スクは、サイクル時間の約９８％を必要としていること
が判る。従つて、そのタスクは並列ピケツト・プロセツ
サのＳＩＭＤ構造に割り当てられる。他の処理はサイク
ル時間のたつた２％しか取らず、マイクロプロセツサの
中のアーキテクチヤの中で維持される。

【００６７】従つて、マトリツクス乗算のこの例を吟味
して、「マイクロ・プロセツサ」ＭＰ、「キヤンド・ル
ーチン・プロセツサ」ＣＲＰ、「ローカル・レジスタ」
ＬＲ、または「ピケツト・アレイ」の何れかによる実行
が割り当てられる。

【００６８】マトリツクス乗算の上述の例において、ス
テートメント０１はメーン・プロセツサＭＰの中で実行
するように割り当てられ、ステートメント０２、０５、
１０、１１、１３、１４、１５及び１７はローカル・レ
ジスタＬＲの中で実行するように割り当てられ、ステー
トメント０３、０４、０６、１２、１６、１８及び１９
はキヤンド・ルーチン・プロセツサＣＲＰの中で実行す
るよう割り当てられるが、時間を浪費する他のマトリツ
クス処理は、単一のインストラクシヨンの下で、ピケツ
トのアレイで実行するよう割り当てられ、従つて、ステ
ートメント０８の実行はピケツトのアレイに割り当てら
れる。

【００６９】図５は、複数個の並列ピケツト・プロセツ
サを組み込んだ複数並列式ピケツト・プロセツサ装置５
１０を示す図である。図５に示した装置は、複数のター
ゲツトの追跡、センサ及びデータの融合、信号処理、人
工頭脳、サテライト・イメージ処理、パターン／ターゲ
ツト認識、リード・ソロモン・エンコード／デコード動
作のようなアプリケーシヨンに使用される装置であつて
、１０２４個のプロセツサに対して２枚乃至４枚のＳＥ
Ｍ　　Ｅカード５１１（図５では、１システム当り４枚
のカードとして表わされている）を持つ１０２４個の並
列プロセツサを有するＳＩＭＤシステムとして構成され
ている。個々のカード５１２はウエツジロツク・スライ
ド（くさびにより固定する案内溝）を有するカード架装
着用仕切り５１３の中に挿抜可能に装着されており、そ
して、それらのカードには挿抜用のレバー５１６が設け
られているので、カバー５１７が閉じられた時に、３２
メガバイト、または６４ギガバイトのストレージを有し
、架台中にマウント可能な１秒間に約２０億回の動作を
行う能力があるシステムを効果的に収容する。このシス
テムはコンパクトであり、複数個のピケツトのアレイは
、複数枚のカードの相互接続を可能とし、論理回路を有
するバツクパネル・ボード５１８の中に差し込まれる。３２メガバイトのストレージを持つプロセツサは４枚の
ＳＥＭ　　Ｅカード上に形成されており、この装置の重
量は僅か約１３．６キログラム（約３０ポンド）しかな
い。電力は、図示されたように電源装置５１９により与
えられる。この空冷式のプロセツサのために必要な電力
は、約２８０ワツトである。各ＳＩＭＤシステムは、関
連するメーンフレーム・コンピユータとのチヤンネル・
アダプタ・コミユニケーシヨン用、つまり、外部回路と
の接続のために２つのＩ／Ｏポート５２０を持つている
。夫々のプロセツサが４つのロジツク・ページで構成さ
れ、標準的な航空工学用のパツケージ方法を用い、そし
て外部メモリに接続するためのバス構造を有する図示の
複数並列式ピケツト・プロセツサは、主たる任務を遂行
するプロセツサのメモリ・バスに、Ｉ／Ｏポートを通し
て接続することができ、そして、主たる任務遂行用のプ
ロセツサのメモリ容量の拡張用として見ることができる
。

【００７０】図示された複数並列式ピケツト・プロセツ
サは１０２４個の並列接続された処理エレメントを含ん
でおり、各プロセツサは３２４キロバイトのローカル・
メモリを有し、並列ピケツト・プロセツサは、並列で８
ビツト幅、または、キヤラクタ幅（９ビツト幅）である
。

【００７１】各ピケツト中のプロセツサは、隣のプロセ
ツサとデータの交換を行い、そして、クロスバーが望ま
しいが、代案として、スライド・クロスバー、シヤツフ
ル・ネツトワーク（Ｓｈｕｆｆｌｅ　Ｎｅｔｗｏｒｋ）
、ベース３のＮキユーブ（Ｂａｓｅ　３　Ｎ−Ｃｕｂｅ
）、またはベース８のＮキユーブ（Ｂａｓｅ　８　Ｎ−
Ｃｕｂｅ）のバツクプレート相互接続ネツトワークを介
してページの間でデータの交換を行う。

【００７２】システムの個々のピケツト・プロセツサは
４枚のカードの内の２枚のカード・パツク内に含まれて
おり、ＰＳ／２マイクロプロセツサは１枚のカード上に
あり、キヤンド・ルーチン・プロセツサ・シーケンサは
、図６及び図７に模式的に示されているシステムに含ま
れている４枚のカードの内の他方のカードに含まれてい
る。個々のピケツト１００、即ちピケツトのカード５１
２は、ラツチ・アーキテクチヤ１０４と、シーケンサの
カード７０３の実行制御に結合されたローカル・レジス
タ４０５とによつて制御されるデータ状態に基づく動作
に入るか、または動作を除くために、キヤンド・ルーチ
ン・プロセツサＣＲＰによつて構成することができる。従つて、ピケツト・プロセツサは、整列と、浮動小数点
演算に関連した正規化動作とを独立して遂行することが
できる。

【００７３】以下に説明されるように、プロセツサは共
通のシーケンサによつて並列に制御される。シーケンサ
のカード７０３は、ピケツト・プロセツサのコントロー
ラＣＲＰを含み、そして、古典的なビツト直列の処理と
同様なバイト直列方式のＳＩＭＤプロセツサのアレイで
実行するためにコード化されたインストラクシヨンの単
一スレツドを、ピケツト・プロセツサに実行させる。こ
のコントローラは３つの層を持つている。ピケツトのた
めのマイクロ・コントロールは、近代的なプロセツサと
同様にマイクロプログラム化されている。マイクロコン
トロール及びピケツトは同じクロツク・システムＣＬＫ
で同期されているので、シーケンサによつて制御される
機能は同じクロツク時間で実行することができる。マイ
クロコントロールのシーケンサにコマンドを送ることは
、キヤンド・ルーチン・プロセツサの機能である。この
シーケンサ・カード７０３は、殆どの機能の間で、ルー
プ制御コマンドを実行するコントローラであり、新しい
マイクロコントロールの順序を最初から開始する。キヤ
ンド・ルーチン・ライブラリ４０８と、そのルーピング
機能とを持つこのコントローラは、良好に送られたピケ
ツトを保持し、結合されたコマンドを保持しない。キヤ
ンド・ルーチン・プロセツサのコントローラＣＲＰは、
サブシステムにおいて、一次管理ピケツト・コントロー
ラとして動作するメーン・システムによつて呼び出され
たマクロの大量の集合を含んでいる。これは、ピケツト
・アレイのトツプ制御システムである。これは、ピケツ
トのアレイの活動を管理する３８６マイクロプロセツサ
である。任意の瞬間において、プロセツサのサブセツト
は、制御フローに独立して反応するが、アレイのすべて
のピケツトは、同じインストラクシヨンを実行する。

【００７４】個々の反応の幾つかの変化があるので、各
ピケツトのバイト制御機能（ドーズ機能、禁止機能等）
によつて、プログラミングが利用し、そして、プログラ
ムのコンパイル動作の間でシステムの制御の下で行われ
るローカルな独立性を持つている。

【００７５】加えて、既に説明したように、ローカル・
メモリをアドレスする動作に対して独立性を持つている
。ＳＩＭＤコントローラのシーケンサは、使用するすべ
てのピケツトに対する共通のアドレスを供給する。各ピ
ケツトは、データに依存するメモリ・アドレスを行なう
能力を強化するために、ローカルにアドレスすることを
増進することができる。

【００７６】加えて、ピケツトは、ローカルの状態に依
存してアレイの活動に参画させ、または参画させないこ
とができる。

【００７７】この特徴があるので、１つ、またはそれ以
上のグループに各ピケツトを割り当てる手段によつて、
ＳＩＭＤ処理にグループの概念を導入することが可能で
あり、構成の変更を発生することができる場合、処理は
、これらのグループ化に基づいて進行することができる
。１実施例において、ただ１つのグループか、またはグ
ループの組み合わせは、一度に活性化することができ、
夫々のグループが同じＳＩＭＤインストラクシヨンのス
トリームを実行する。或る種の動作は、サブセツト、ま
たはピケツトのグループの動作だけを必要とする。プロ
グラミングは、この能力を利用することができる。ロー
カルの参画の独立性はそのように仕事に適合させる。ピ
ケツトが多ければ多い程、計算速度が早くなるのは明ら
かである。

【００７８】参画するピケツトの数を増加するための１
つの方法は、各ピケツトに、ピケツト自身のインストラ
クシヨン・ストリームを実行させることである。これは
、実質的にＳＩＭＤ内のＭＩＭＤである。同じＳＩＭＤ
マシンをＭＩＭＤマシン、または、異なつた構成のマシ
ンとして構成することが可能である。この理由は、ピケ
ツトを、インストラクシヨンそれ自身の順序で動作する
ようにプログラムすることが可能なためである。

【００７９】各ピケツトは、それ自身の順序を持たせる
ことができ、ピケツト・レベルでのインストラクシヨン
の非常に簡単な組をデコードすることが可能であり、こ
のことは、より強力なローカルな処理を行うことが可能
となる。この機能が最初のアプリケーシヨンを見い出す
可能性がある場合には、この領域は複雑な意志決定を行
い、単純な固定小数点処理は、プログラマに対して他の
興味ある領域である。

【００８０】そのような単純なプログラムは、約二千を
越えない数のピケツト・プログラムのブロツクをピケツ
ト・メモリ１０２の中にロードすることができ、そして
、これらのブロツクは、ＳＩＭＤコントローラのカード
７０３が特定されたｘｙｚアドレスで始まる実行制御に
よつてローカルな実行を開始した時に、実行することが
できる。これは、コントローラが、余りにも多くのクロ
ツク数を計数した時か、または、図４のステータス・フ
アンネル（ＳＦ）レジスタによつて、タスク完了信号を
テストした時かの何れかまで連続される。

【００８１】ステータス・フアンネル・レジスタ（図４
のＳＦ）は、各ピケツトのラツチ１０４を使用する。各
ピケツトは、ピケツトのステータス状態を反映するため
にロードすることが出来るラツチ１０４を持つている。ＳＩＭＤコントローラは、アレイ・ステータス・ライン
を監視することによつて、これらのラツチ（１つのピケ
ツト当り１つのラツチ）中の合計値をテストすることが
できる。このアレイ・ステータス・ラインは、各ピケツ
ト・ステータス・ラツチからの値の論理的組み合わせで
ある。

【００８２】以下の例において、５００以内で２５０よ
りも大きな数を、数式、５００＞ｘ＞＝２５０で表わす
範囲に調節したいものと仮定する。以下のルーチンは、
タスクが達成されたことを検出するためにステータス・
フアンネルを使用する。

【００８３】　　　　Ｉｆ　　ＶＡＬＵＥ　　＜　　５００　　ｔｈ
ｅｎ　　ＴＵＲＮ　　ＹＯＵＲ　　ＰＩＣＫＥＴ　　Ｏ
ＦＦ　　　　ＳＴＡＴ　　＜　　−　ＰＩＣＫＥＴ　　ＯＦ
Ｆ　　ＣＯＮＤＩＴＩＯＮ　　　　ＩＦ　　ＳＴＡＴ　
　ＦＵＮＮＥＬ　　＝　　ＯＦＦ　　ｔｈｅｎ　　ｆｉ
ｎｉｓｈｅｄ　−　−　−　− 　　　　ＶＡＬＵＥ　　＜　　−　　ＶＡＬＵＥ　　−
　　２５０　　　　Ｒｅｐｅａｔ

【００８４】従つて、多数並列式ピケツト・プロセツサ
の構成は種々の態様のＳＩＭＤプロセツサとして構成す
ることができる。良好な実施例におけるそのようなＳＩ
ＭＤマシンは、古典的な態様でインストラクシヨンの単
一のスレツドを実行するためにプログラムされ、そして
、ＳＩＭＤコントローラ、または、シーケンサの全般的
な制御の下で、古典的なプロセツサと同様なシーケンス
方式でＳＩＭＤプロセツサのアレイに実行するためにコ
ード化される。アプリケーシヨン・レベルにおいて、こ
れは、ベクトル及びインストラクシヨンのようなベクト
ルによつて達成され、これらのベクトルはプロセツサの
中で進ませることも、プロセツサを通して進ませること
もできる。ベクトル・インストラクシヨンは、通常、６
個乃至１０個のベクトル・インストラクシヨンをマイク
ロインストラクシヨンに加えることができる。

【００８５】図６は、並列プロセツサのサブシステムの
実施例の機能的なブロツク図である。システムのＩ／Ｏ
ポートを通して、ホスト・インターフエース制御４１３
によつて制御された時、サブシステムのシーケンサは、
処理エレメントの機能を制御する高機能のマクロを持つ
ＳＩＭＤプログラムと同様に機能する。メモリをアドレ
スする動作は、８ビツト幅、即ちバイト幅のデータ・フ
ローで可能であり、そして、８モジユロの算術ロジツク
が、複数の機能（論理機能、積算機能及び除算機能）の
ために使用されている。浮動小数点のフオーマツトと、
個々のスリープ、ドーズ・モード及び分離アドレツシン
グを持つ独立したピケツト動作とが与えられている。

【００８６】サブシステムのコントローラの配列が図７
に示されている。プロセツサのアレイ・カード５１２（
このサブシステムの例では４枚のカードとして示されて
いるが、２枚のＳＥＭ　　Ｅカードに減らすことが可能
である）は、サブシステム・コントローラ７０２に接続
されているシーケンサＣＲＰ７０３に接続されており、
サブシステム・コントローラ７０２は、次に、メーン・
メモリ・システムか、または、関連したマイクロチヤン
ネル・バス７０６にインターフエースするチツプ７０５
を経た構成の他のサブシステムかの何れかに接続されて
いる。良好な実施例において、サブシステムのコントロ
ーラはＩＢＭ社のＰＳ／２（ＩＢＭ社の商標）の汎用の
マイクロプロセツサ・ユニツトであり、インテル社の３
８６プロセツサ・チツプと４メガバイトのメモリとを用
いている。このパーソナル・コンピユータのマイクロプ
ロセツサＭＰ７０２は、サブシステム中のマイクロチヤ
ンネル・タイプのバス７０５、７０６を介してシーケン
サのカードに接続されている。

【００８７】

【発明の効果】本発明は、ビツトに対して並列でバイト
に対して直列に処理することのできるＳＩＭＤマシンの
並列計算能力を有し、非常に高い密度で製造することが
でき、しかも、空気冷却式に適した構造を持つ半導体チ
ツプを与え、これにより、軽量で、コンパクトな複数並
列式のプロセツサ装置を作ることができる。

【図面の簡単な説明】

【図１】従来の技術に基づいて構成された最近のＳＩＭ
Ｄプロセツサを説明するための模式図である。

【図２】シリコン・ベースのチツプ上で、プロセツサ、
メモリ、制御ロジツク及び連想メモリで構成された１対
の基本的なピケツト・ユニツトであつて、ピケツト連想
メモリがアレイ中の他のピケツトとバイト単位のコミユ
ニケーシヨンをするピケツト・ユニツトを示す図である
。

【図３】連想メモリの処理動作を説明するための図であ
る。

【図４】マイクロプロセツサのコントローラと、キヤン
ド・ルーチンのための金属配線されたシーケンス・コン
トローラと、ピケツトのアレイとを使用し、そして、独
立した１個の単体として作ることができ、基本的な並列
ピケツト処理システムとして形成されたＳＩＭＤサブシ
ステムのための基本的な１６（ｎ）個のピケツト構成を
説明するための図である。

【図５】複数個の図４のピケツト・プロセツサを使用し
た複数ピケツト・プロセツサの装置を示す図である。

【図６】複数個の図４のピケツト・プロセツサを組み入
れた複数ピケツト処理システムを示す図である。

【図７】図５に示したカードを持つサブシステム・コン
トローラの配列を示す図である。

【符号の説明】

１４　　アレイ・コントローラ２０　　行選択ライン２２　　列選択ライン２４　　アドレス・バス２８　　ホスト・プロセツサ３０　　データ・バス３１　　制御バス１００　　ピケツト・ユニツト１０１　　ＡＬＵ（算術演算ユニツト）１０２　　ロー
カル・メモリ１０３　　ブロードキヤスト・データ・アドレス・バス
１０４　　Ｂレジスタ１０５　　Ａレジスタ１０６　　Ｑレジスタ１０７　　ステータス・レジスタ４０２　　インストラクシヨン・シーケンサ４０３　　
実行制御４０５　　ローカル・レジスタ４０６　　ピケツトのアレイ４０７　　マイクロコード４０８　　キヤンド・ルーチン（ラン・タイム・ライブ
ラリ）４１１　　ルーチン・ライブラリ４１２　　ユーザ・プログラム４１３　　データ・バツフア５１０　　複数並列式ピケツト・プロセツサ装置７０２
　　サブシステム・コントローラ７０３　　シーケンサ
・カード

Claims

【特許請求の範囲】

【請求項１】　　各ピケツト・ユニツトが１つの処理エ
レメントに対して連想処理を行なう連想式の動作方法に
おいて、すべてのピケツト・ユニツト中の情報を並列に
処理するための処理エレメントに接続されているローカ
ル・メモリが組み合わされているビツト並列の処理エレ
メントを有するピケツト・ユニツトを複数個含む並列処
理システム。
【請求項２】　　上記複数個のピケツト・ユニツトのメ
モリはアレイに配列されており、それらのメモリを持つ
ピケツト・ユニツトのアレイはセツト連想メモリを構成
することを特徴とする請求項１に記載の並列処理システ
ム。
【請求項３】　　シリコン・ベースのチツプ上に複数の
メモリを有するピケツトの処理エレメントのアレイが形
成され、各処理エレメントの１つが２つのピケツト・ユ
ニツトの間で２方向にデータを通過する隣位置コミユニ
ケーシヨン通路によつて、バイト幅の列内容でアドレス
可能であり、論理行に、即ちアレイに配列されたメモリ
として動作することができるように、シリコン・ベース
のチツプ上に形成され、且つ、両側に隣接するピケツト
・ユニツトと共にアレイを形成している複数個のピケツ
ト・ユニツトを含むことを特徴とする請求項１に記載の
並列処理システム。
【請求項４】　　複数個のピケツト・ユニツト及びメモ
リを有することと、各ピケツトの処理エレメント及びメ
モリの間と、ピケツト・ユニツトの間とにデータ・フロ
ーの通路を有するピケツト処理アレイのメモリ・チツプ
が与えられていることとを特徴とする請求項１に記載の
並列処理システム。
【請求項５】　　アレイに配列された複数個のピケツト
・ユニツトが与えられ、各処理エレメントに対して１対
１で結合されたメモリを有するピケツト・ユニツトの間
でデータを転送する通路は、隣りのピケツト・ユニツト
の方向の左側若しくは右側に通じるか、または、スライ
ド・コミユニケーシヨンを与えるスライド手段によつて
離隔したピケツト・ユニツトに通じることを特徴とする
請求項１に記載の並列処理システム。
【請求項６】　　上記スライド手段は、送られるメツセ
ージに対してピケツト・ユニツトが透過でなければ、通
常はその情報を受け取ることのできるピケツトのアドレ
ス・ロケーシヨンを通過して、最も近くにあるアクテイ
ブなピケツト・ユニツトにメツセージが到着して受け取
られるまで、隣ではないピケツト・ユニツト位置に１サ
イクルで情報を転送するのを可能とすることを特徴とす
る請求項５に記載の並列処理システム。
【請求項７】　　上記スライド手段は、転送サイクルの
前に、割り込みピケツトが割込みピケツト・ユニツトを
オフにすることによつて透過にされ、そして、転送サイ
クルにおいて、制御手段が離隔したピケツト・ユニツト
の到達位置に、第１のピケツト・ユニツトにその情報を
送らせた時に、第１のピケツト・ユニツトから離隔した
ピケツト・ユニツトへの情報の転送が可能となるように
、「ターン・オフ」にされたピケツトを通過して、隣で
はない位置に情報を送ることによつて、スライド機能を
可能とすることを特徴とする請求項６に記載の並列処理
システム。
【請求項８】　　２次元アレイを通る格子を直線的に通
つてメツセージを転送し、または、アレイ中の３次元方
向にメツセージを転送する手段が与えられたことを特徴
とする請求項６に記載の並列処理システム。
【請求項９】　　各ピケツト・ユニツトはプロセツサに
接続されたローカル・メモリにアクセスするプロセツサ
を有し、そして、キヤラクタ幅、またはキヤラクタ幅の
倍数の幅のデータ及びインストラクシヨンがシステムの
１クロツク・サイクルでピケツト・ユニツトの間を通過
することを特徴とする請求項１に記載の並列処理システ
ム。
【請求項１０】　　各ピケツト・チツプはそれ自身のロ
ーカル・メモリを有することと、各ローカル・メモリは
、少なくとも３２キロバイトのストレージを持つピケツ
ト・ユニツトのアレイ中にキヤラクタ幅のセツト連想メ
モリが与えられていることと、リニヤ・サブアレイのノ
ードとして１６ピケツト・ユニツトが与えられているこ
ととを特徴とする請求項１に記載の並列処理システム。
【請求項１１】　　すべてのピケツト・ユニツトが同時
に同じデータを見ることができるように、ピケツト・ユ
ニツトの間のコミユニケーシヨンに対してブロードキヤ
スト・バスが与えられていることを特徴とする請求項２
に記載の並列処理システム。
【請求項１２】　　ピケツト・ユニツトのローカル・メ
モリは、メモリ・アレイの中でＣＭＯＳのＤＲＡＭ型メ
モリであり、メモリ・アレイの裏側の列デマルチプレキ
シングを削除することによつて行−列アクセスをサポー
トし、そして、メモリ・アレイの行から、並列にデータ
・フローを読み出させる行アドレスを与えることを特徴
とする請求項２に記載の並列処理システム。
【請求項１３】　　ロジツク１か、またはロジツク０か
、またはドントケアの何れかを表示するロジツクによつ
て、３つの状態があり、且つ、セツト連想メモリのスト
レージ・アレイの中の相次ぐストレージ・ロケーシヨン
に、トリビツト（トリツト）が含まれるように、メモリ
はデータに加えて、「トリツト」を含むことを特徴とす
る請求項２に記載の並列処理システム。
【請求項１４】　　ピケツト・ユニツトによる個々の動
作に対して制御機能を与えるためのピケツト・ユニツト
制御手段が与えられていることを特徴とする請求項１に
記載の並列処理システム。
【請求項１５】　　上記ローカル・メモリは複数ビツト
のバイナリ参照ストレージ・アドレスを有することを特
徴とする請求項１に記載の並列処理システム。
【請求項１６】　　特別の状態に一致するステータス出
力を持つピケツト・ユニツトにおいて個々のピケツト・
ユニツト内の動作を一時中止させる制御機能用の制御手
段及び外部制御ストアが与えられ、上記制御機能は、ド
ーズ機能及び禁止機能を与え、ピケツト・ユニツトの状
態に基いてメモリを書き込み可能とし、上記外部制御ス
トアからの信号を受け取つた後に、ピケツト・ユニツト
に与えられた制御機能を可能とすることを特徴とする請
求項１に記載の並列処理システム。
【請求項１７】　　上記各ローカル・メモリ及びピケツ
ト・ユニツトの処理エレメントは、バイト転送手段と、
メモリ中の情報の位置のマスクと、データを入力する手
段とが与えられ、更に、サーチを行なうためにメモリを
アドレスする手段と、メモリ中のＮ個のワード中の１つ
のワードをサーチするために、サーチ用のマスク及びデ
ータの入力用の手段とが与えられ、サーチで一致した位
置は一致信号ラインを上昇し、別の動作が第１の一致を
選択し、上昇された選択ラインが参画を表示し、そして
、ブロードキヤスト・データが選択されたすべてのワー
ド位置にコピーされるブロードキヤスト動作を行なうブ
ロードキヤスト手段が設けられていることとを特徴とす
る請求項２に記載の並列処理システム。
【請求項１８】　　外部コントローラと、論理ゲート及
びレジスタを持つ複数個の処理ユニツトと、メモリとを
含む並列処理システム中で、デイジタル・システムの記
述を保持するための方法において、記述されたゲートが
発生した信号をその入力及び名前として記述し、受け取
つた信号のリストとしてデイジタル・システムの各ゲー
トの記述を割り当てるステツプと、上記信号が変化する
たびに、その名前がすべての処理ユニツトにブロードキ
ヤストされ、そして、予想されている入力信号の名前と
並列に比較されることを要求するステツプと、上記比較
の一致が見い出されたか否かを続け、そして、データフ
ロー・レジスタの新しい値を処理ユニツト中に記録する
ステツプと、すべての上記信号変化が記録されるまで続
行し、次に、出力を計算するために入力の現在の組をど
のように使用するかをそれらのデータフローに通知する
制御ワードをすべての処理ユニツトに並列に読み出させ
るステツプと、これらの計算を並列に行なわせて、その
結果をローカル・ゲートからの古い値と比較するステツ
プと、出力が変化した処理ユニツトのすべてのゲートを
データ・フローのステータス・レジスタ中に記録し、そ
して、外部コントローラにより、すべての処理ユニツト
に対して質問させて、変化した次のゲートを求めるステ
ツプと、上記処理ユニツトからの該当信号名及び値を、
他のすべての処理ユニツトに対してブロードキヤストし
、そして、信号変化が最早や発生しないか、または処理
が停止されるまで、上述のサイクルが繰り返されること
を含むデイジタル・システムの記述を保持する方法。
【請求項１９】　　処理ユニツト及びメモリの間でデー
タ及び制御信号を転送するために接続された複数個の処
理ユニツト及びローカル・メモリを持つ並列処理システ
ムを使用するデータの比較方法において、すべての辞書
名の最初の文字が、並列処理システムの複数個の処理ユ
ニツトにブロードキヤストされる所定のブロードキヤス
ト名の最初の文字と比較することができるように、処理
ユニツトのメモリ中に辞書の名前をストアすることと、
一致しないすべての処理ユニツトは与えられた制御特性
によつてオフにされ、次に、辞書名の第２の文字が比較
され、その後、アクテイブな処理ユニツトが無くなるか
、または辞書名の最終文字に達するまで、処理ユニツト
をオフにするプロシージヤが繰り返され、次に、上記処
理ユニツトに質問が与えられ、その後、処理ユニツトか
ら読み取られるべき所望のデータを索引することからな
るデータの比較方法。
【請求項２０】　　処理ユニツトは、各処理ユニツトに
対して１対１の関係でローカル・メモリに結合されてい
るＡＬＵ、マスク・レジスタ、ラツチ、ステータス・レ
ジスタ（ＳＲ）及びデータ・フロー・レジスタ（ＤＦ）
を含む請求項１に記載の並列処理システム。
【請求項２１】　　上記ローカル・メモリは複数ビツト
幅のダイナミツク・ランダム・アクセス・メモリであり
、各ピケツト処理ユニツトのロジツクは、ダイナミツク
・ランダム・アクセス・メモリのローカル・メモリと同
じシリコン・チツプ基体上に形成されており、そして、
ローカル・メモリとその処理エレメントとの間には１対
１の直接の結合関係があり、セルを有する上記ローカル
・メモリは複数ビツト・アドレスを持つていることを特
徴とする請求項１に記載の並列処理システム。
【請求項２２】　　各処理ユニツトはマスク・レジスタ
とラツチが与えられており、上記ラツチは、上記複数個
の処理ユニツトに対して共通であるコミユニケーシヨン
・ラインに沿つて各処理ユニツトの接続ポートとして機
能するように設けられていることを特徴とする請求項１
に記載の並列処理システム。
【請求項２３】　　上記システムの個々のピケツト処理
ユニツトの状態を制御するために、外部制御シーケンサ
及びローカル制御レジスタ手段を有することを特徴とす
る請求項１に記載の並列処理システム。
【請求項２４】　　上記複数個のピケツト・ユニツトは
ローカルな独立性を持ち、そして、上記ピケツト・ユニ
ツトの結合ユニツト・アレイとして構成可能であること
を特徴とする請求項２３に記載の並列処理システム。
【請求項２５】　　上記システムはＳＩＭＤ及びＭＩＭ
Ｄとして構成することができ、そして、上記複数個の処
理ユニツトはプログラム可能な構成に割り当てされ、シ
ステムの個々の処理ユニツトは妥当なローカルな独立性
を持つていることを特徴とする請求項２４に記載の並列
処理システム。
【請求項２６】　　バスを介して上記外部制御レジスタ
とコミユニケートし、大域インストラクシヨンを並列処
理システムによつて実行させる手段を持つているメーン
・プロセツサ・システムを有することを特徴とする請求
項２３に記載の並列処理システム。
【請求項２７】　　上記外部制御シーケンサはマイクロ
コード・メモリに接続され、上記マイクロコード・メモ
リは機能用のキヤンド・ルーチンによつてプログラム可
能であることを特徴とする請求項２３に記載の並列処理
システム。
【請求項２８】　　上記シーケンサは、バスにより上記
シーケンサに接続された処理ユニツトの機能を制御する
ための高い機能マクロが与えられており、システムのロ
ーカル・メモリのメモリ・アドレツシングは、バイト幅
のデータ・フローと、論理機能、加算、乗算及び除算機
能に使用されるモジユロ８の算術演算ロジツクを可能と
し、そして、上記並列ユニツトの中で浮動小数点動作と
、個々のピケツト処理ユニツトの別々のアドレツシング
によつて独立したスリープ及びドーズ・モードとが与え
られていることを特徴とする請求項２６に記載の並列処
理システム。
【請求項２９】　　機能の動作は、上記メーン・プロセ
ツサ・システム、キヤンド・ルーチンを持つ上記外部制
御シーケンサ、上記ローカル・レジスタ手段、または上
記複数個のピケツト処理ユニツトにおいてプログラム的
に割り当てすることが可能であり、複数データの拡張処
理を必要とする単一インストラクシヨンは、ＳＩＭＤ処
理のために構成された上記複数個の処理ユニツトに割り
当てられていることを特徴とする請求項２６に記載の並
列処理システム。
【請求項３０】　　システムの処理ユニツトは、プログ
ラム可能なローカルな独立性を持つ処理ユニツトのアレ
イによつて処理ユニツトのアレイに接続されており、ピ
ケツト処理ユニツトは、インストラクシヨンのそれ自身
のシーケンスによつて動作され、そして、データの状態
に基いて他の処理ユニツトに結合された動作に入るか、
または他の処理ユニツトに結合された動作から抜け出る
ことができ、そして、システムの処理ユニツトは浮動小
数点動作と関連した整列及び正規化動作を独立して行な
うことができることを特徴とする請求項２４に記載の並
列処理システム。
【請求項３１】　　上記外部制御シーケンサは、キヤン
ド・ルーチン・ライブラリによつて与えられるキヤンド
・ルーチンによつて、ＣＡＬＬ（，）、Ｌｏａｄ、Ｂｌ
ｏｃｋ、Ｓｉｎ、Ｃｏｓ、Ｆｉｎｄ、Ｍｉｎ、Ｒａｎｇ
ｅ及びＭａｔｒｉｘＭｕｌｔｉｐｌｙ等の動作を遂行す
るように構成されたことを特徴とする請求項２３に記載
の並列処理システム。
【請求項３２】　　上記キヤンド・ルーチンはＬｏａｄ
、Ｒｅａｄ、Ａｄｄ、Ｍｕｌｔｉｐｌｙ及びＭａｔｃｈ
機能の実行制御が与えられていることを特徴とする請求
項３１に記載の並列処理システム。
【請求項３３】　　上記処理エレメントは上記アレイの
隣の処理ユニツトのアレイ中のデータ及び相互接続ネツ
トワークを介して上記システム中のページの間のデータ
を交換することを特徴とする請求項２に記載の並列処理
システム。
【請求項３４】　　上記ピケツト・アレイのために外部
制御プロセツサが与えられており、マイクロ・コードは
上記アレイの中の上記ピケツト・プロセツサのグループ
中のすべてのピケツトに対して並列に転送され、そして
、ピケツト処理ユニツトは、外部制御プロセツサが同じ
クロツク時間で実行できるように、同じクロツク・シス
テムに同期されていることを特徴とする請求項２に記載
の並列処理システム。
【請求項３５】　　ピケツト・アレイ用の上記外部制御
プロセツサの上に、マイクロ・チヤンネル・バスを通つ
て外部制御プロセツサに接続されたトツプ制御システム
・マイクロプロセツサがあり、そして、プロセツサのサ
ブセツトは制御フローに対して独立して応答するけれど
も、任意の時間において、アレイのすべてのピケツト処
理ユニツトが同じインストラクシヨンを実行するように
、システムが結合されていることを特徴とする請求項３
４に記載の並列処理システム。
【請求項３６】　　複数個で並列なピケツト処理ユニツ
トが外部ピケツト・コントローラとコミユニケートする
アドレス・バスに沿つて配列されており、ピケツト・シ
ステムのローカル・メモリに対して共通のベクトル・ア
ドレスがあり、そして、ピケツト・システムの各ローカ
ル・メモリに対してどのデータを通過するかを制御する
ためのデータ・ベクトル・アドレス・レジスタ手段があ
ることを特徴とする請求項１に記載の並列処理システム
。
【請求項３７】　　１つのピケツトから他のピケツトに
メツセージを通過する接続通路を準備している間に、ア
レイ中の他のすべてのピケツトと、ビツトに対して並列
にコミユニケートするための方法及び手段を与えるため
に、アレイに配列された複数個のピケツト・ユニツトと
、コミユニケーシヨン通路を持つピケツト・ユニツトの
間のデータ・フロー用の通路とを設けたことを特徴とす
る請求項２に記載の並列処理システム。
【請求項３８】　　ワイヤ−オア、またはドツトで接続
されたピケツトを使用して動作するＮ次元アレイを介し
て一方から他方にメツセージを通過することを特徴とす
る請求項３７に記載の並列処理システム。
【請求項３９】　　ローカル・メモリの小さなセクシヨ
ンの中のすべてのロケーシヨンが、与えられたパターン
に対して一致比較動作を行なうようにしたことを特徴と
する請求項２に記載の並列処理システム。