JPH05274279A - Parallel processing apparatus and method - Google Patents
Parallel processing apparatus and methodInfo
- Publication number
- JPH05274279A JPH05274279A JP4073702A JP7370292A JPH05274279A JP H05274279 A JPH05274279 A JP H05274279A JP 4073702 A JP4073702 A JP 4073702A JP 7370292 A JP7370292 A JP 7370292A JP H05274279 A JPH05274279 A JP H05274279A
- Authority
- JP
- Japan
- Prior art keywords
- processor
- connection
- parallel
- group
- switch network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012545 processing Methods 0.000 title claims abstract description 113
- 238000000034 method Methods 0.000 title claims description 24
- 230000015654 memory Effects 0.000 claims abstract description 109
- 239000000872 buffer Substances 0.000 claims abstract description 48
- 230000005540 biological transmission Effects 0.000 claims abstract description 33
- 238000012546 transfer Methods 0.000 claims abstract description 19
- 230000008859 change Effects 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 6
- 238000003672 processing method Methods 0.000 claims 6
- 230000010365 information processing Effects 0.000 claims 1
- 230000004044 response Effects 0.000 claims 1
- 230000006866 deterioration Effects 0.000 abstract description 4
- 239000007853 buffer solution Substances 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 38
- 230000006870 function Effects 0.000 description 24
- 238000004891 communication Methods 0.000 description 19
- 238000004364 calculation method Methods 0.000 description 6
- 230000009977 dual effect Effects 0.000 description 6
- 239000011159 matrix material Substances 0.000 description 3
- 239000013256 coordination polymer Substances 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 208000010378 Pulmonary Embolism Diseases 0.000 description 1
- 230000000712 assembly Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000008054 signal transmission Effects 0.000 description 1
- 239000012536 storage buffer Substances 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
Landscapes
- Advance Control (AREA)
- Multi Processors (AREA)
- Bus Control (AREA)
Abstract
(57)【要約】
【目的】並列処理装置のプロセッサ間のデータ伝送速度
及び効率を向上させる。
【構成】送信側プロセッサと受信側プロセッサにそれぞ
れデータ送信用及びデータ受信用のFIFOメモリを設
け、この間を連接することにより、プロセッサ間の実効
的データ伝送速度向上を可能とした。さらに、受信側プ
ロセッサに受信用交替バッファ方式メモリを設け、受信
用FIFOメモリよりの受信データを上記受信用バッフ
ァメモリの一方にDMA方式で転送する。また、処理フ
ェーズごとにFIFOメモリからDMAデータ転送する転送
先バッファメモリを交替することにより、プロセッサ間
データ伝送によるプロセッサの処理能力低下を排除して
いる。
(57) [Abstract] [Purpose] To improve data transmission speed and efficiency between processors of a parallel processing device. A transmission side processor and a reception side processor are provided with FIFO memories for data transmission and data reception, respectively, and by connecting these memories, an effective data transmission rate between the processors can be improved. Further, a receiving alternate buffer system memory is provided in the receiving side processor, and the received data from the receiving FIFO memory is transferred to one of the receiving buffer memories by the DMA system. Further, by replacing the transfer destination buffer memory for transferring the DMA data from the FIFO memory for each processing phase, the deterioration of the processing capability of the processor due to the data transfer between the processors is eliminated.
Description
【0001】[0001]
【産業上の利用分野】本発明は、並列処理装置及び方法
に係り、特に、高速性,柔軟性に留意した並列処理装置
及び方法に関する。BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a parallel processing apparatus and method, and more particularly to a parallel processing apparatus and method in which high speed and flexibility are taken into consideration.
【0002】[0002]
【従来の技術】プロセッサを複数用いて並列演算装置を
構成し、高速処理を実現する点については、従来より各
種提案されている。例えば、特開平3−174646 号公報で
は、複数プロセッサを専用の結合線により接続する方法
が開示されている。2. Description of the Related Art Various proposals have heretofore been made to realize high-speed processing by configuring a parallel arithmetic unit using a plurality of processors. For example, Japanese Patent Application Laid-Open No. 3-174646 discloses a method of connecting a plurality of processors with a dedicated coupling line.
【0003】[0003]
【発明が解決しようとする課題】高速処理を実現方法す
るには、プロセッサ間のデータ伝送速度および効率を向
上させることが性能向上に重要であり、また、プロセッ
サ間のデータ伝送路の構造の柔軟性が演算装置の汎用性
を確保するために重要であるが、上記従来技術では、プ
ロセッサ間データ伝送速度向上と接続構造の柔軟性向上
が強く求められていた。In order to realize high-speed processing, it is important to improve the data transmission speed and efficiency between the processors to improve the performance, and the structure of the data transmission path between the processors is flexible. Although it is important to ensure the versatility of the arithmetic unit, in the above-mentioned conventional technique, it has been strongly demanded to improve the data transmission rate between processors and the flexibility of the connection structure.
【0004】本発明の目的は、プロセッサ間のデータ伝
送速度及び効率を向上させる並列処理装置及び方法を提
供することである。It is an object of the present invention to provide a parallel processing apparatus and method for improving the data transmission rate and efficiency between processors.
【0005】本発明の他の目的は、演算装置の汎用性を
確保するためにプロセッサ間のデータ伝送路構造に柔軟
性を付与する並列処理装置及び方法を提供することであ
る。Another object of the present invention is to provide a parallel processing apparatus and method for providing flexibility to a data transmission path structure between processors in order to ensure versatility of an arithmetic unit.
【0006】[0006]
【課題を解決するための手段】上記目的達成のための本
発明の特徴点は、次の通りである。The features of the present invention for achieving the above object are as follows.
【0007】(1)プロセッサ間データ伝送の実効速度
を向上させるために、送信側プロセッサと受信側プロセ
ッサにそれぞれデータ送信用及びデータ受信用のFIF
O(First−in First−out)メモリを設け、この間を連
接することにより、プロセッサ間の実効的データ伝送速
度向上を可能とした。(1) In order to improve the effective speed of data transmission between processors, the transmitting side processor and the receiving side processor respectively have a data transmission FIFO and a data reception FIFO.
By providing an O (First-in First-out) memory and connecting these, it is possible to improve the effective data transmission rate between the processors.
【0008】(2)さらに上記受信側プロセッサに受信
用交替バッファ方式メモリを設け、受信用FIFOメモ
リよりの受信データを上記受信用バッファメモリの一方
にDMA(Direct Memory Access)方式で転送する。ま
た、処理フェーズごとにFIFOメモリからDMAデー
タ転送する転送先バッファメモリを交替することによ
り、プロセッサ間データ伝送によるプロセッサの処理能
力低下を排除している。(2) Further, the reception side processor is provided with a reception alternate buffer system memory, and the reception data from the reception FIFO memory is transferred to one of the reception buffer memories by a DMA (Direct Memory Access) system. Further, by replacing the transfer destination buffer memory for transferring the DMA data from the FIFO memory for each processing phase, it is possible to eliminate the deterioration of the processing capability of the processor due to the data transfer between the processors.
【0009】(3)複数のプロセッサ間の接続部分に任
意に接続を切り替えられるスイッチ網を挿入することに
より並列処理装置の構造を自由に変更可能とした。(3) The structure of the parallel processing device can be freely changed by inserting a switch network capable of arbitrarily switching the connection in the connection portion between the plurality of processors.
【0010】(4)複数のプロセッサ間の接続構造を階
層化し、かつ各階層の構造を同一にし、階層の段数を増
加させることによって接続するプロセッサを事実上無制
限に増やすことを可能とした。(4) The connection structure between a plurality of processors is hierarchized, the structures of the respective hierarchies are the same, and the number of hierarchies of the hierarchies is increased, thereby making it possible to increase the number of processors to be connected virtually unlimitedly.
【0011】上記及び上記以外の本発明の特徴点につい
ては、以下の記載より、さらに明確とされる。The features of the present invention other than the above and the above are further clarified from the following description.
【0012】[0012]
【作用】本発明によれば、データ伝送を行なう2つのプ
ロセッサにそれぞれ送信用FIFOメモリと受信用FIFO
メモリを設け、その間を連接し、さらに受信側プロセッ
サに交替バッファ構成の受信データメモリ領域を設け、
受信FIFOメモリから受信バッファにDMA方式でデ
ータ転送を行なう。一つの処理フェーズでは、一方の受
信バッファに受信FIFOメモリよりデータが転送さ
れ、もう一方の受信バッファの内容が読みだされて演算
に使用される。次の処理フェーズでは交替バッファを切
り替え、受信FIFOメモリから書き込んであるデータ
を演算用に読みだすことができる。According to the present invention, a transmission FIFO memory and a reception FIFO are respectively provided to two processors for data transmission.
A memory is provided, the space between them is connected, and a receiving data memory area having a replacement buffer configuration is further provided in the receiving processor.
Data is transferred from the reception FIFO memory to the reception buffer by the DMA method. In one processing phase, data is transferred from the reception FIFO memory to one reception buffer, and the contents of the other reception buffer are read out and used for calculation. In the next processing phase, the alternate buffer can be switched and the written data can be read out from the reception FIFO memory for calculation.
【0013】このような方法で2つのプロセッサ間のデ
ータ伝送が行なわれるので、データの流れからみて上流
のプロセッサが一つ前の処理フェーズで計算した結果を
一つ下流のプロセッサがメモリアクセスにより参照でき
る。データの流れの向きにそってパイプライン形式の並
列処理を実施する場合には、プロセッサ間のデータ伝送
に必要な時間は高速メモリに対するハードウェア的なア
クセス時間のみである。Since data is transmitted between the two processors by such a method, one downstream processor refers to the result calculated by the upstream processor in the previous processing phase in terms of data flow by memory access. it can. When pipeline-type parallel processing is performed according to the direction of data flow, the time required for data transmission between processors is only the hardware access time to the high-speed memory.
【0014】この結果、プロセッサ間の情報伝達量を従
来方式に較べて10ないし100倍向上させることがで
き、該並列処理装置の処理能力が向上する。As a result, the amount of information transmitted between the processors can be improved 10 to 100 times as compared with the conventional system, and the processing capacity of the parallel processing device is improved.
【0015】さらに、接続する複数プロセッサ間の送受
信FIFOメモリ間に交換接続用スイッチ網を挿入し、
その接続状態を任意に変更できるので該並列処理装置を
構成するプロセッサ群の接続を処理内容に適応して効率
のよい構造に設定、汎用性のある演算を実施することが
できる。Further, a switch network for exchange connection is inserted between transmission / reception FIFO memories between a plurality of processors to be connected,
Since the connection state can be arbitrarily changed, the connection of the processor group forming the parallel processing device can be set to an efficient structure by adapting to the processing content, and a versatile operation can be performed.
【0016】また、複数のプロセッサ間の接続構造を階
層化し、かつ各階層の構造を同一にしてあるので、階層
の段数を増減することによって接続するプロセッサを任
意に増減することが可能であり、目的に合致した処理性
能の演算能力を実現することができる。Further, since the connection structure between a plurality of processors is hierarchized and the structure of each hierarchy is the same, it is possible to arbitrarily increase or decrease the number of processors to be connected by increasing or decreasing the number of stages of the hierarchy. It is possible to realize the computing power of the processing performance that matches the purpose.
【0017】[0017]
【実施例】本発明は音響,画像,映像をはじめとする各
種信号処理に見られる如く、まとまったデータの集合に
対し、順次処理を行なうことにより最終的な結果が得ら
れるパイプライン処理に向いている。これらの処理は自
然界で2次元的あるいは3次元的広がりを持つデータを
対象としており、パイプライン処理と同時に並列処理が
可能なものである。本発明はこれら並列かつパイプライ
ン処理が可能な処理対象に対し、その対象に最も適した
構造の並列あるいはパイプラインあるいはその双方の組
合わせによる処理(以下、「並列・パイプライン処理」
と称す)装置及び方法を提供し、高速演算を実現するも
のである。このため、並列処理装置としての処理能力が
高いだけでなく、対象に対応して任意に並列・パイプラ
インの処理構造を変更できる点に特徴がある。以下、本
発明の実施例を図面を用いて説明する。以下、プロセッ
サエレメントをPE,プロセッサエレメント群をPE
群,プロセッサエレメント群集合体をPE群集合体と称
す。BEST MODE FOR CARRYING OUT THE INVENTION The present invention is suitable for pipeline processing in which a final result is obtained by sequentially processing a set of data, as is found in various signal processing such as sound, image and video. ing. These processes are intended for data having a two-dimensional or three-dimensional spread in the natural world, and are capable of parallel processing simultaneously with pipeline processing. The present invention deals with these parallel and pipeline-processable processing targets by a parallel or pipeline having a structure most suitable for the target or a combination of both (hereinafter, “parallel / pipeline processing”).
Device) and method for realizing high-speed operation. Therefore, not only is the processing capability as a parallel processing device high, but the parallel / pipeline processing structure can be arbitrarily changed according to the target. Embodiments of the present invention will be described below with reference to the drawings. Hereinafter, PE is a processor element and PE is a processor element group.
A group and a processor element group aggregate are called a PE group aggregate.
【0018】図1は、並列処理装置の構成要素たる群集
合体の構成例を示すものである。PE群((1)〜(2のm
乗−1))4が並列・パイプライン処理を担当するプロセ
ッサの集合であり、各々複数個のPEより構成されてい
る。CPU1は、本PE群集合体の全体動作を制御統括
するものであり、一般のマイクロプロセッサボードを用
いることができる。メモリ2は、該CPU1の処理プロ
グラムとデータ格納、作業領域に使用するものである。
外部インターフェイス部3は、本PE群集合体が外部の
制御計算機等と連結して使用する場合にデータ交信する
ためのものであり、外部インターフェイス信号線8はイ
ーサネット等業界標準のものである。スイッチ網/同期
制御部6は並列・パイプライン処理を行なう複数のPE
群4に対し、PE接続制御網制御信号線12を介して、
処理開始のタイミング制御とPE間接続制御を行なう。
該処理開始タイミングは本PE群集合体の内部処理状態
から求められる場合と、外部同期信号線15により外部
同期による場合がある。PE群接続交換スイッチ網7
は、PE群間リンケージ信号線11で接続された該複数
PE群4間の接続形態を柔軟に変更でき、所望の並列接
続,パイプライン接続、またはそれらの組合わせの形態
で相互に接続される並列・パイプライン処理構造を実現
する。スイッチ網/同期制御部6は、処理対象のアルゴ
リズムに対応して決定されたPE群間の接続形態を実現
するように、PE群接続交換スイッチ網制御信号線13
を介して、PE群接続交換スイッチ網7の内部接続状況
を制御する。CPUバス9は、CPU1が処理の進行状
態あるいは外部よりの指令に基づきPE群リンケージ部
5,スイッチ網/同期制御部6等、CPUバス9に接続
されている装置を制御するためのデータ経路で、業界標
準のバスでよい。PE群リンケージ部5は、CPU−P
E群間リンケージ信号線10を介してPE群4に接続さ
れる。図1のPE群集合体は、PE群集合体間リンケー
ジ信号線14を経由して他のPE群集合体へ接続され
る。FIG. 1 shows an example of the structure of a group aggregate which is a constituent element of the parallel processing device. PE group ((1) ~ (2 m
-1)) 4 is a set of processors in charge of parallel / pipeline processing, each of which is composed of a plurality of PEs. The CPU 1 controls and controls the entire operation of the PE group assembly, and a general microprocessor board can be used. The memory 2 is used for storing a processing program of the CPU 1 and data, and a work area.
The external interface section 3 is for data communication when the PE group assembly is used by being connected to an external control computer or the like, and the external interface signal line 8 is an industry standard such as Ethernet. The switch network / synchronization control unit 6 includes a plurality of PEs that perform parallel / pipeline processing.
For the group 4, through the PE connection control network control signal line 12,
Timing control of processing start and connection control between PEs are performed.
The processing start timing may be obtained from the internal processing state of the PE group assembly or may be externally synchronized by the external synchronization signal line 15. PE group connection exchange switch network 7
Can flexibly change the connection form between the plurality of PE groups 4 connected by the PE group linkage signal line 11, and are connected to each other in a desired parallel connection, pipeline connection, or a combination thereof. A parallel / pipeline processing structure is realized. The switch network / synchronization control unit 6 implements the PE group connection switching switch network control signal line 13 so as to realize the connection form between the PE groups determined corresponding to the algorithm to be processed.
The internal connection status of the PE group connection exchange switch network 7 is controlled via the. The CPU bus 9 is a data path for the CPU 1 to control the devices connected to the CPU bus 9, such as the PE group linkage unit 5, the switch network / synchronization control unit 6, etc., based on the progress of processing or an external command. , An industry standard bus will do. The PE group linkage unit 5 is a CPU-P.
It is connected to the PE group 4 via the linkage signal line 10 between the E groups. The PE group aggregate of FIG. 1 is connected to another PE group aggregate via the inter-PE group aggregate linkage signal line 14.
【0019】図2は、図1のPE群4の構造を説明する
構成図である。複数のPEがPE間リンケージ信号線1
7によりPE接続交換スイッチ網18に接続されてい
る。FIG. 2 is a block diagram for explaining the structure of the PE group 4 of FIG. Linkage signal line 1 between PEs
7 is connected to the PE connection exchange switch network 18.
【0020】図3は、図2における各PE((1)〜(2の
n乗−1))16の内部構成例であり、演算処理部19
に、メモリバスA28,メモリバスB29,DMAチャ
ネル(1〜N)24が接続されている。メモリバスA28
には入力FIFOメモリ25,出力FIFOメモリ26
と通信ポート制御部27が接続されており、ポート制御
部27よりプロセッサエレメント間リンケージ信号線3
0により他PEとの連接が可能となっている。通信ポー
ト及び入出力FIFOメモリを複数メモリバスA28に
接続し、複数のPEとの連接が可能である。メモリバス
B29には、プログラムメモリ20,データ/ワークメ
モリ21を接続し、さらに各々の通信ポートに対応して
一組の入力バッファA22と出力バッファB23を接続
する。DMAチャネル24は各通信ポートに対応して設
けられ、DMAチャネル制御信号線31を介した演算処
理部19の制御信号により、入力FIFOメモリに受信
したデータを演算処理部19の処理負荷となることな
く、入力バッファA22または入力バッファB23にD
MA転送する。FIG. 3 shows an internal configuration example of each PE ((1) to (2 to the nth power −1)) 16 in FIG.
Further, a memory bus A28, a memory bus B29, and a DMA channel (1 to N) 24 are connected. Memory bus A28
Has an input FIFO memory 25 and an output FIFO memory 26.
Is connected to the communication port control unit 27, and the linkage signal line 3 between processor elements is connected from the port control unit 27.
With 0, connection with other PE is possible. A communication port and an input / output FIFO memory can be connected to a plurality of memory buses A28 to connect with a plurality of PEs. A program memory 20 and a data / work memory 21 are connected to the memory bus B29, and a set of an input buffer A22 and an output buffer B23 are connected to each communication port. The DMA channel 24 is provided corresponding to each communication port, and the data received in the input FIFO memory becomes a processing load of the arithmetic processing unit 19 by the control signal of the arithmetic processing unit 19 via the DMA channel control signal line 31. D in input buffer A22 or input buffer B23
MA transfer.
【0021】図4は、PEの他の内部構成例であり、図
3のメモリバスB29をメモリバスB29とメモリバス
C32の独立構成としたものである。この構成では、各
通信ポートに対応する入力バッファA22と入力バッフ
ァB23を別のメモリバスに接続するので、演算処理部
19が入力バッファA22の内容をメモリバスB29経
由でアクセスしている処理フェーズでは入力FIFOメ
モリ25よりメモリバスA28,メモリバスC32経由
で入力バッファB23にDMAデータ転送を実施し、以
下処理フェーズごとに入力バッファメモリをきりかえ
る。従って、演算処理部19による入力バッファアクセ
スとDMA転送に使用するメモリバスを別に並行して行
なうことができ、バス競合による処理能力低下を防止す
ることができる。FIG. 4 shows another example of the internal structure of the PE, in which the memory bus B29 shown in FIG. 3 has an independent structure of the memory bus B29 and the memory bus C32. In this configuration, since the input buffer A22 and the input buffer B23 corresponding to each communication port are connected to different memory buses, in the processing phase where the arithmetic processing unit 19 is accessing the contents of the input buffer A22 via the memory bus B29. DMA data transfer is performed from the input FIFO memory 25 to the input buffer B23 via the memory bus A28 and the memory bus C32, and the input buffer memory is switched for each processing phase. Therefore, the input buffer access by the arithmetic processing unit 19 and the memory bus used for the DMA transfer can be separately performed in parallel, and the deterioration of the processing capacity due to the bus competition can be prevented.
【0022】図2のPE接続交換スイッチ網18は、図
3または図4の通信ポートと連接するPE間リンケージ
信号線30を各通信ポートにつき、また各PEにつき接
続するものである。PE接続交換スイッチ網18はPE
の各通信ポートに対応してポート数だけの同一構造のも
のから構成される。該同一構造の一つにつき、その構成
例を示したものが図5である。The PE connection exchange switching network 18 of FIG. 2 connects the PE-to-PE linkage signal line 30 connected to the communication port of FIG. 3 or 4 to each communication port and to each PE. PE connection exchange switch network 18 is PE
Each communication port has the same structure as the number of ports. FIG. 5 shows a configuration example of one of the same structures.
【0023】図5に示すように、接続交換スイッチ網の
機能は、PE群を構成するPEに対し、その相互接続の
自由を実現することにある。スイッチ網部33は接続交
換スイッチ網入力信号線37と接続交換スイッチ網出力
信号線38間の交換接続を実現するものであり、接続交
換スイッチ網入力信号線37は各PEのPE間リンケー
ジ信号線30と接続され、接続交換スイッチ網出力信号
線38は各PEの別のPE間リンケージ信号線30と接
続される。スイッチ網部33はスイッチ素子36を接続
し構成される。接続交換スイッチ網入力信号線37は各
PEの数に外部接続用の1チャネルを加えた数だけ用意
され、その数は接続交換の効率化を図るため2のべき乗
数に選定するのがよい。図5における構成は、接続可能
なPE数が8の例を示している。スイッチ網部33の交
換機能部は、接続先PEに対応したPE0からPE7ま
での行と、第0段から第3段までの列より構成され、各
スイッチ素子の状態を制御することにより接続交換スイ
ッチ網入力信号線37のPEと接続交換スイッチ網出力
信号線38の任意のPEを接続することができる。As shown in FIG. 5, the function of the connection exchange switch network is to realize the freedom of interconnection between PEs forming a PE group. The switch network unit 33 realizes exchange connection between the connection exchange switch network input signal line 37 and the connection exchange switch network output signal line 38, and the connection exchange switch network input signal line 37 is a PE-PE linkage signal line of each PE. The connection switching switch network output signal line 38 is connected to another PE inter-PE linkage signal line 30 of each PE. The switch net portion 33 is configured by connecting switch elements 36. The connection exchange switch network input signal line 37 is prepared by adding the number of each PE plus one channel for external connection, and the number is preferably selected as a power of 2 in order to improve the efficiency of connection exchange. The configuration in FIG. 5 shows an example in which the number of connectable PEs is eight. The exchange function unit of the switch network unit 33 includes rows from PE0 to PE7 corresponding to the connection destination PE and columns from the 0th stage to the 3rd stage, and the connection exchange is performed by controlling the state of each switch element. The PE of the switch network input signal line 37 and any PE of the connection switching switch network output signal line 38 can be connected.
【0024】一般に2のn乗個のPEが存在するとき、
第0段から第n段のバススイッチを、行数が2のn乗
個,列数がn+1となるように行列で配置し、各行列の
バススイッチ素子の接続先を次の(1)(2)(3)の原則
で決定する。Generally, when there are 2n PEs,
The 0th to nth stage bus switches are arranged in a matrix so that the number of rows is 2 to the nth power and the number of columns is n + 1, and the connection destinations of the bus switch elements of each matrix are as follows (1) ( 2) Determined according to the principle of (3).
【0025】(1)PEに0から(2のn乗)−1まで
の順序数iを割り当てる。(1) An ordinal number i from 0 to (2 to the nth power) -1 is assigned to PE.
【0026】(2)iを2進数で表現すると、2の(n
−1)乗から2の0乗までのn桁の2進数となる。(2) When i is represented by a binary number, (n of 2)
It is an n-digit binary number from the power of 1 to the power of 2 0.
【0027】(3)(2)で2のk乗ビットが0のとき i行(k+1)列の素子と(i+2のk乗)行k列の素
子 i行(k+1)列の素子とi行k列の素子 を接続する。(3) When the bit of the 2nd power of k is 0 in (2): The element of the i-th row (k + 1) th column and the element of the (i + 2kth) -th row kth column The element of the i-th row (k + 1) th column and the i-th row Connect the elements in column k.
【0028】(2)で2のk乗ビットが1のとき i行(k+1)列の素子と(i−2のk乗)行k列の素
子 i行(k+1)列の素子とi行k列の素子 を接続する。In (2), when the k-th power of 2 is 1, the element in the i-th row (k + 1) th column and the element in the (i-2th k-th) -th row k-th column The element in the i-th row (k + 1) th column and the i-th row k Connect the elements in a row.
【0029】以上、(2)(3)をk=0からn−1ま
で、i=0から(2のn乗)−1までについて1きざみ
で実施する。As described above, (2) and (3) are carried out in steps of 1 from k = 0 to n-1 and from i = 0 to (2 to the nth power) -1.
【0030】n−1列から1列までのスイッチ素子間接
続路はPE間の接続状況により重複使用されることがあ
るので必要に応じ多重化する。スイッチ網部33の接続
状態は各スイッチ素子36の接続状態を切り替えること
により制御可能である。切り替え制御部34はPE接続
交換スイッチ網制御信号線12を介してCPU1より制
御され、接続状態メモリ35に選択しうる接続状態を事
前に格納しておき、CPU1よりの選択信号により接続
パターンを選択しスイッチ素子36の状態を制御する。Since the connection paths between the switch elements from the (n-1) th column to the 1st column may be used in duplicate depending on the connection status between PEs, they are multiplexed as necessary. The connection state of the switch network 33 can be controlled by switching the connection state of each switch element 36. The switching control unit 34 is controlled by the CPU 1 via the PE connection exchange switch network control signal line 12, stores a connection state that can be selected in the connection state memory 35 in advance, and selects a connection pattern by a selection signal from the CPU 1. Then, the state of the switch element 36 is controlled.
【0031】切り替え制御部34は各行列のスイッチ素
子状態をPE接続交換スイッチ網制御線12を経由して
接続状態メモリ35に記憶する。スイッチ網/同期制御
部6より接続切り替え指令があった場合はまず切り替え
制御部34が接続切り替え指令を受信する。次に、接続
状態メモリ35の内容から選択されたスイッチ接続状態
に基づきスイッチ素子状態を規定する。CPU−PE間
リンケージ信号線10は第4段または第5段のスイッチ
素子36により各PEに接続可能であり、CPU1よりの初
期プログラムローディング及びデータ転送に使用され
る。The switching control unit 34 stores the switch element states of each matrix in the connection state memory 35 via the PE connection exchange switch network control line 12. When there is a connection switching command from the switch network / synchronization control unit 6, the switching control unit 34 first receives the connection switching command. Next, the switch element state is defined based on the switch connection state selected from the contents of the connection state memory 35. The CPU-PE linkage signal line 10 can be connected to each PE by the fourth or fifth stage switch element 36, and is used for initial program loading from the CPU 1 and data transfer.
【0032】図6に、各々のスイッチ素子36の機能の
一例を示す。スイッチ素子入力信号線39を介した2入
力のバス入力とスイッチ素子出力信号線40を介した2
出力のバス出力間で外部制御信号に基づき交換接続を行
ない、スイッチ信号制御信号線41を介した指令によ
り、(a)(b)のいずれかの状態をとる。FIG. 6 shows an example of the function of each switch element 36. 2 inputs bus input via switch element input signal line 39 and 2 inputs via switch element output signal line 40
Exchange connection is made between the output bus outputs based on an external control signal, and one of the states (a) and (b) is set by a command via the switch signal control signal line 41.
【0033】図7は、スイッチ素子36の構成の一例を
示したものである。ANDゲート42,ORゲート4
3,NOTゲート44を組み合わせることにより実現す
ることができる。FIG. 7 shows an example of the structure of the switch element 36. AND gate 42, OR gate 4
3, can be realized by combining the NOT gates 44.
【0034】図8は、隣接接続されたPE(a)45及
びPE(b)53の動作を関連づけて説明するための構
成図である。PE45は、演算プロセッサ(a)46,
入力バッファa−A47,入力バッファa−B48,入
力FIFO(a)49,出力FIFO(a)50,DM
Aチャネル(a)51を含む。PE(b)53は、演算
プロセッサ(b)54,入力バッファb−A55,入力
バッファb−B56,入力FIFO(b)57,出力F
IFO(b)58,DMAチャネル(b)59を含み、
通信ポート出力(a)52,接続交換スイッチ網62及
び通信ポート入力(b)60を介して、PE45に接続
される。PE(b)53は、さらに、通信ポート出力
(b)61を介して、更に、他のPEに接続される。FIG. 8 is a block diagram for explaining the operations of the PE (a) 45 and the PE (b) 53 connected to each other in association with each other. The PE 45 includes an arithmetic processor (a) 46,
Input buffer a-A47, input buffer a-B48, input FIFO (a) 49, output FIFO (a) 50, DM
A channel (a) 51 is included. The PE (b) 53 includes an arithmetic processor (b) 54, an input buffer b-A55, an input buffer b-B56, an input FIFO (b) 57, and an output F.
Including IFO (b) 58 and DMA channel (b) 59,
It is connected to the PE 45 via the communication port output (a) 52, the connection exchange switch network 62 and the communication port input (b) 60. The PE (b) 53 is further connected to another PE via the communication port output (b) 61.
【0035】図9は、図8のように隣接接続されたPE
(a)45及びPE(b)53の動作の一例を、タイム
チャートで記したものである。ここで、並列・パイプラ
イン処理の対象となる一まとまりの処理を一フェーズの
処理と呼ぶことにする。FIG. 9 shows PEs connected adjacently as shown in FIG.
An example of the operation of (a) 45 and PE (b) 53 is shown in a time chart. Here, a group of processes that are targets of the parallel / pipeline process will be referred to as one-phase process.
【0036】フェーズ1の処理では、演算プロセッサ
(a)46は出力FIFOメモリ(a)50に演算結果を
格納する。図2におけるPE接続交換スイッチ網18の
論理的動作を接続された2組のPE間に着目してみると
図8の接続交換スイッチ網62ように単純化できる。フ
ェーズ1では出力FIFOメモリ(a)50に格納され
た演算結果データはPE接続スイッチ網62経由でPE
(b)53の入力FIFOメモリ(b)57に直ちに転送
される。入力FIFOメモリ(b)57のデータはDM
Aチャネル(b)59により入力バッファb−A55に
DMA転送される。In the processing of phase 1, the arithmetic processor
(a) 46 stores the operation result in the output FIFO memory (a) 50. Focusing on the logical operation of the PE connection exchange switch network 18 in FIG. 2 between the two sets of connected PEs, the connection exchange switch network 62 in FIG. 8 can be simplified. In phase 1, the operation result data stored in the output FIFO memory (a) 50 is transferred to the PE via the PE connection switch network 62.
(b) Immediately transferred to the input FIFO memory (b) 57 of 53. The data in the input FIFO memory (b) 57 is DM
DMA transfer is performed to the input buffer b-A55 by the A channel (b) 59.
【0037】フェーズ2の処理では、入力バッファb−
A55が演算プロセッサ(b)54に接続され、入力バ
ッファb−B56に入力FIFOメモリ(b)57より
のデータがDMA転送される。フェーズ1の演算結果は
入力バッファb−A55に格納されたままフェーズ2で
は演算プロセッサ(b)54がアクセス可能となり、演
算プロセッサ(b)54はその内容に従って次の段階の
処理をパイプラインで実施することができる。フェーズ
2ではこの間、演算プロセッサ(a)46がフェーズ1
の次の演算を実施し、その結果をPE接続交換スイッチ
網62経由で入力バッファb−B56に格納している。In the processing of phase 2, the input buffer b-
A55 is connected to the arithmetic processor (b) 54, and the data from the input FIFO memory (b) 57 is DMA-transferred to the input buffer b-B56. The operation result of the phase 1 is stored in the input buffer b-A 55, and the operation processor (b) 54 can access it in the phase 2 and the operation processor (b) 54 executes the process of the next stage according to the contents in the pipeline. can do. In Phase 2, during this time, the arithmetic processor (a) 46 is in Phase 1
Is executed and the result is stored in the input buffer b-B56 via the PE connection exchange switch network 62.
【0038】図10(a)及び図10(b)は、7個の
PEよりなる並列処理装置の接続実現例である。図2の
PE接続交換スイッチ網18の接続を切り替えることに
よりPE間の任意の接続を実現することができる。PE
接続交換スイッチ網18は、この場合8個のPEを接続
交換することが可能であるが、図5に示す接続交換スイ
ッチ網入力信号線37及び接続交換スイッチ網出力信号
線38の各々PE1個分についてはPEを割当てずに外
部接続用に残し、7個のPEを接続したものである。一
重線63による接続と二重線64による接続及び点線6
5はそれぞれ別個のPE接続交換網スイッチ網による接
続を示す。例えば、図11は、PE接続交換スイッチ網
(aその1)の接続機能図である。図12は、PE接続
交換スイッチ網(aその2)の接続機能図である。図1
3は、PE接続交換スイッチ網(aその3)の接続機能
図である。図14は、PE接続交換スイッチ網(bその
1)の接続機能図である。図15は、PE接続交換スイ
ッチ網(bその2)の接続機能図である。図16は、P
E接続交換スイッチ網(bその3)の接続機能図であ
る。10 (a) and 10 (b) are examples of connecting and implementing a parallel processing device composed of seven PEs. By switching the connection of the PE connection exchange switch network 18 of FIG. 2, an arbitrary connection between PEs can be realized. PE
In this case, the connection exchange switch network 18 can connect and exchange eight PEs. However, one PE of each of the connection exchange switch network input signal line 37 and the connection exchange switch network output signal line 38 shown in FIG. In the case of, the PEs are not allocated and are left for external connection, and seven PEs are connected. Connection by single line 63, connection by double line 64 and dotted line 6
Reference numeral 5 indicates a connection by a separate PE connection switching network switch network. For example, FIG. 11 is a connection function diagram of the PE connection exchange switch network (a part 1). FIG. 12 is a connection function diagram of the PE connection exchange switch network (a-2). Figure 1
3 is a connection function diagram of the PE connection exchange switch network (a-3). FIG. 14 is a connection function diagram of the PE connection exchange switch network (b-1). FIG. 15 is a connection function diagram of the PE connection exchange switch network (b-2). FIG. 16 shows P
It is a connection function diagram of E connection exchange switch network (b 3).
【0039】図10(a)の例では、図5のPE接続交
換スイッチ網を3組用い、一重線63の部分をPE接続
交換スイッチ網(aその1)の接続機能図(図11)中
の太線部分を接続するように設定し、二重線64の部分
をPE接続交換スイッチ網(aその2)の接続機能図
(図12)中の太線部分を接続するように設定し、さら
に点線65の部分をPE接続交換スイッチ網(aその
3)の接続機能図(図13)中の太線部分を接続するよ
うに設定することにより実現できる。In the example of FIG. 10A, three sets of PE connection exchange switch networks of FIG. 5 are used, and the portion of the single line 63 is a connection function diagram of PE connection exchange switch network (a 1) (FIG. 11). Of the PE connection exchange switch network (a 2) is connected to the thick line portion of the PE connection exchange switch network (FIG. 12), and the dotted line is further connected. This can be realized by setting the portion 65 to connect the thick line portion in the connection function diagram (FIG. 13) of the PE connection exchange switch network (a 3).
【0040】また、図10(b)の例では、同様に図5
のPE接続交換スイッチ網を3組用い、一重線63の部
分をPE接続交換スイッチ網(bその1)の接続機能図
(図14)中の太線部分を接続するように設定し、二重
線64の部分をPE接続交換スイッチ網(bその2)の
接続機能図(図15)中の太線部分を接続するように設
定し、さらに点線65の部分をPE接続交換スイッチ網
(bその3)の接続機能図(図16)中の太線部分を接
続するように設定することにより実現できる。図10に
なる接続は例であり、処理対象の並列・パイプライン処
理構造に対応してCPU1がPE接続パターンを設定
し、スイッチ網/同期制御部6に指令を与える。PE接
続指令は演算の開始にあたり1回のみPE接続パターン
を指定し、以降その演算が終了するまで同一の接続を保
持してもよく、また必要に応じ演算途中で処理フェーズ
の開始に先立ち接続を変更してもよい。Further, in the example of FIG.
3 sets of PE connection exchange switch networks, and the single line 63 is set to connect the thick line portion in the connection function diagram (FIG. 14) of the PE connection exchange switch network (FIG. 14). The portion 64 is set to connect the thick line portion in the connection function diagram (FIG. 15) of the PE connection exchange switch network (b-2), and the portion of the dotted line 65 is the PE connection exchange switch network (b-3). It can be realized by setting so that the thick line portion in the connection function diagram (FIG. 16) is connected. The connection shown in FIG. 10 is an example, and the CPU 1 sets a PE connection pattern corresponding to the parallel / pipeline processing structure of the processing target, and gives a command to the switch network / synchronization control unit 6. The PE connection command may specify the PE connection pattern only once at the start of the calculation, and may keep the same connection until the calculation is completed. If necessary, the PE connection command may be connected before the start of the processing phase during the calculation. You may change it.
【0041】各PE群4を構成する各PEを所期のプロ
グラムとデータに従って動作させるには各PEにプログ
ラムとデータを必要なタイミングでローディングする必
要がある。図1におけるPE群リンケージ部5は各PE
群4に対してこの目的で存在するものであり、PE群リ
ンケージ部5の一方はCPUバス9に接続され、もう一
方はPE群4に接続される。In order to operate each PE which constitutes each PE group 4 according to a desired program and data, it is necessary to load the program and data into each PE at a necessary timing. The PE group linkage portion 5 in FIG.
This group exists for this purpose with respect to the group 4, one of the PE group linkage parts 5 is connected to the CPU bus 9, and the other is connected to the PE group 4.
【0042】図17は、図1のPE群リンケージ部5の
構成例であり、演算処理部66にメモリバスA75とメ
モリバスB76が接続され、さらにDMAチャネル制御
線79を介してDMAチャネル70が接続されている。
メモリバスB76には入力FIFOメモリ71,出力F
IFOメモリ72、およびポート制御部73より構成さ
れる通信ポートが接続される。一方、メモリバスA75
にはプログラムメモリ78,データ/ワークメモリ6
7,デュアルポートメモリ68、及びバッファメモリ6
9が接続されている。CPU1とはCPUバス9,CP
Uバスインタフェース信号線74経由でデュアルポート
メモリ68が接続され、PEにローディングすべきプロ
グラム及びデータをCPU1からデュアルポートメモリ
74に書き込む。PE群4を構成する各PE16とはP
Eリンケージ信号線77を経由して連接されている。デ
ュアルポートメモリ68に書き込まれた情報は、DMA
チャネル70の制御により出力FIFOメモリ72に書
き込まれポート制御部73より連接先の各PEに伝送さ
れる。PE群リンケージ部5の主目的は効率よく各PE
にCPU1より情報を伝送することであるから、PEに
連接する通信ポートは情報伝送能力が許すかぎり可能な
だけ多くすることが好ましい。この目的でDMAチャネ
ル70が設けられ、演算処理部66に負荷をかけること
なくデュアルポートメモリ68または、バッファ69に
転送格納された情報を接続先PEに配分伝送する。バッ
ファ69は接続先のPEごとに設け、伝送データの格納
バッファエリアとして用いてもよく、またPEリンケー
ジ信号線77,入力FIFOメモリ経由で接続先PEよ
り情報を取り込む際のDMAチャネル70の転送先とし
て用いてもよい。FIG. 17 shows an example of the configuration of the PE group linkage unit 5 of FIG. 1, in which the memory bus A75 and the memory bus B76 are connected to the arithmetic processing unit 66, and the DMA channel 70 is connected via the DMA channel control line 79. It is connected.
An input FIFO memory 71 and an output F are provided on the memory bus B76.
A communication port including the IFO memory 72 and the port control unit 73 is connected. On the other hand, memory bus A75
Program memory 78, data / work memory 6
7, dual port memory 68, and buffer memory 6
9 is connected. CPU1 means CPU bus 9, CP
The dual port memory 68 is connected via the U-bus interface signal line 74, and the program and data to be loaded into the PE are written from the CPU 1 to the dual port memory 74. What is each PE 16 that constitutes the PE group 4?
They are connected via an E linkage signal line 77. The information written in the dual port memory 68 is DMA
It is written in the output FIFO memory 72 under the control of the channel 70 and transmitted from the port control unit 73 to each PE to which it is connected. The main purpose of the PE group linkage section 5 is to efficiently use each PE.
Since the information is transmitted from the CPU 1, it is preferable to increase the number of communication ports connected to the PE as much as the information transmission capability allows. A DMA channel 70 is provided for this purpose, and the information transferred and stored in the dual port memory 68 or the buffer 69 is distributed and transmitted to the connection destination PEs without imposing a load on the arithmetic processing unit 66. The buffer 69 may be provided for each connection destination PE and used as a storage buffer area for transmission data. Also, the transfer destination of the DMA channel 70 at the time of fetching information from the connection destination PE via the PE linkage signal line 77 and the input FIFO memory. You may use as.
【0043】図1におけるPE接続交換スイッチ網7は
各PE群4に含まれる各PE間の接続を任意に制御して
データ伝送を行なうための接続交換スイッチ網である。
各PE群4とはPE群間リンケージ信号線11で接続さ
れるが、最終的には同じく図2に示されるように、PE
群間リンケージ信号線11はPE接続交換スイッチ網1
2を介して各PEに交換接続される。The PE connection exchange switch network 7 in FIG. 1 is a connection exchange switch network for arbitrarily controlling the connection between the PEs included in each PE group 4 to perform data transmission.
Each PE group 4 is connected by a PE group linkage signal line 11, but finally, as shown in FIG.
The inter-group linkage signal line 11 is the PE connection exchange switch network 1.
2 is exchange-connected to each PE.
【0044】図18に、PE接続交換スイッチ網7の構
造を示す。PE群接続交換スイッチ網7の構造は図2に
おけるPE接続交換スイッチ網18と同一の構造を持
つ。ただしPE群接続交換スイッチ網7の場合にはPE
接続交換スイッチ網18と異なり、CPU1より各PE
にプログラム及びデータを転送する必要はないから、C
PU−PE間リンケージ信号線10は省略してよい。P
E群接続交換スイッチ網7の接続状態制御は、PE群接
続交換スイッチ網制御信号線13を経由してスイッチ網
/同期制御部6よりCPU1の指示に従い実施される。
図18の装置をもってすると、図2のPE群において各
PEに対して実施した接続交換制御と同一の制御をPE
群に対して実行することができる。すなわち、図1に示
されたPE群集合体はその内部に2階層に階層化された
接続制御可能なPEのグループを保有しているのであ
る。図18のPE群接続交換スイッチ網では、PE群を
接続して複数のPE群より構成される図1のごときPE
群集合体を構築すると同時にPE群集合体間リンケージ
信号線14を介してさらに複数のPE群集合体を接続す
ることができる。PE群内におけるPE間の接続は今日
の集積技術、実装技術をもってすれば、同一のプリント
板上で実現可能であるが、PE群,PE群集合体、さら
に複数のPE群集合体により構成される並列処理装置と
PEグループの階層が上がるに従い、接続交換スイッチ
網に接続する信号線の距離が長くなる。図18における
EO/OE変換部80は接続距離のかかる増大に対処す
るために長距離伝送部を光伝送に変換し、伝送速度の低
下を防止するためのものである。FIG. 18 shows the structure of the PE connection exchange switch network 7. The PE group connection exchange switch network 7 has the same structure as the PE connection exchange switch network 18 in FIG. However, in the case of PE group connection exchange switch network 7, PE
Unlike the connection exchange switch network 18, each PE from the CPU 1
There is no need to transfer programs and data to
The PU-PE linkage signal line 10 may be omitted. P
The connection state control of the E group connection switching switch network 7 is performed by the switch network / synchronization control unit 6 via the PE group connection switching switch network control signal line 13 in accordance with an instruction from the CPU 1.
With the device shown in FIG. 18, the same control as the connection exchange control performed for each PE in the PE group shown in FIG.
Can be performed on a group. That is, the PE group aggregate shown in FIG. 1 has a group of PEs capable of connection control which is hierarchically divided into two layers. In the PE group connection exchange switch network of FIG. 18, the PE groups are connected to each other and configured by a plurality of PE groups.
At the same time that the group assembly is constructed, a plurality of PE group assemblies can be connected via the inter-PE group assembly linkage signal line 14. The connection between PEs within a PE group can be realized on the same printed board with today's integration technology and mounting technology, but it is composed of PE groups, PE group aggregates, and multiple PE group aggregates in parallel. As the hierarchy of the processing device and the PE group increases, the distance of the signal line connected to the connection exchange switch network becomes longer. The EO / OE conversion unit 80 in FIG. 18 converts the long-distance transmission unit into optical transmission in order to cope with the increase in the connection distance, and prevents a decrease in transmission speed.
【0045】図19に示すのは、PE群集合体を複数接
続して構成した並列演算装置(または並列演算機構)の
構成例である。PE群集合体((1)〜(2のl乗−
1))81の詳細は図1に示す通りであり、外部インタ
ーフェイス部3を介して外部インターフェイス信号線8
でリンケージバス86と接続する。ここで、前記lは英
文字エルの小文字を表す。制御計算機82はPE群集合
体内のCPU1に指令を出すほか、ビデオ端末84を介
してプログラム開発、マンマシンコミュニケーション、
並列演算装置全体の動作状況表示を実施する。また、制
御計算機82の動作記録をプリンタ83に記録させるこ
ともできる。PE群集合体81間はPE群集合体間リン
ケージ信号線14を経由してPE群集合体接続交換スイ
ッチ網85により接続交換される。FIG. 19 shows a configuration example of a parallel computing device (or parallel computing mechanism) configured by connecting a plurality of PE group aggregates. PE group aggregate ((1) to (2 to the power 1-
The details of 1)) 81 are as shown in FIG. 1, and the external interface signal line 8 is provided via the external interface section 3.
To connect with the linkage bus 86. Here, 1 represents the lowercase letter of the English letter L. The control computer 82 issues a command to the CPU 1 in the PE group assembly, and also executes program development, man-machine communication, through the video terminal 84.
The operation status of the entire parallel computing device is displayed. Further, the operation record of the control computer 82 can be recorded in the printer 83. The PE group aggregates 81 are connected and exchanged by the PE group aggregate connection exchange switch network 85 via the PE group aggregate linkage signal line 14.
【0046】図20に、図19のPE群集合体接続交換
スイッチ網85の構成例を示す。PE群集合体接続交換
スイッチ網88の構造は、図2におけるPE接続交換ス
イッチ網18、及び図18におけるPE群接続交換スイ
ッチ網7と同一構造であり、同一の接続交換制御機能を
有するものである。PE群集合体接続交換スイッチ網制
御信号線89は図18におけるPE群接続交換スイッチ
網制御信号線と同一のものである。従って、図19に示
すPE群集合体81のいずれかに接続し、該PE群集合
体に対するPE接続交換スイッチ網18と同様に制御す
ればよい。PE群集合体接続交換スイッチ網85に接続
される並列演算装置間リンケージ信号線87は、複数の
PE群集合体よりなる図19のごとき並列演算装置をさ
らに連接交換するために使用する。並列演算装置間リン
ケージ信号線87はPE群集合体間リンケージ信号線1
4と論理的にまったく同一の構造を有する。なおEO/
OE変換部はPE群集合体間の信号伝送の距離が長くな
るため、伝送性能の劣化を防ぐために光信号による伝送
に変換するための変換器である。FIG. 20 shows a configuration example of the PE group aggregate connection / switching switch network 85 of FIG. The PE group aggregate connection switching switch network 88 has the same structure as the PE connection switching switch network 18 in FIG. 2 and the PE group connection switching switch network 7 in FIG. 18, and has the same connection switching control function. .. The PE group aggregate connection exchange switch network control signal line 89 is the same as the PE group connection exchange switch network control signal line in FIG. Therefore, it may be connected to any one of the PE group aggregates 81 shown in FIG. 19 and controlled similarly to the PE connection switching network 18 for the PE group aggregates. The linkage signal line 87 between parallel arithmetic units connected to the PE group aggregate connecting / switching switch network 85 is used for further connecting and exchanging the parallel arithmetic units as shown in FIG. The linkage signal line 87 between parallel processing devices is the linkage signal line 1 between PE group aggregates.
It has the same structure as 4 logically. EO /
The OE converter is a converter for converting to transmission by an optical signal in order to prevent deterioration of transmission performance because the distance of signal transmission between PE group aggregates becomes long.
【0047】図21に、図1におけるスイッチ網/同期
制御部6の同期制御機能を示した。本発明になる並列演
算装置は、処理フェーズ毎に同期しながら演算を行なう
ことを特徴としているので、各PEは同期して処理フェ
ーズを開始する必要があり、PE同期指令93をスイッ
チ網/同期制御部6がフェーズ開始時点毎に各PEに対
して送信する。同期信号の発生方法は、外部同期信号線
96の信号をそのまま用いてもよく、また同期タイマー
設定値91によりプログラマブルタイマー94を設定
し、周期的にPE同期指令93を発生してもよい。ここ
で同期タイマー設定値91は、各PEが1フェーズの処
理を終了するに必要な最も長い時間以上にCPU1より
指定することができる。とくに各PEのフェーズ毎の処
理時間が変動する場合には、各PEの処理終了信号90
をAND論理95に入力し、すべてのPEの処理終了が
成り立った時点でPE同期指令93を出力する必要があ
る。図21では、上記3種類の同期方法を同期方式選択
信号92により選択可能としているが、3種類の同期方
法のうち1種または2種のみをスイッチ網/同期制御部
6に持たせてもよい。なお同期方式選択信号92はCP
U1または制御計算機82より設定してもよい。FIG. 21 shows the synchronization control function of the switch network / synchronization control unit 6 in FIG. Since the parallel arithmetic device according to the present invention is characterized by performing arithmetic operations in synchronization with each processing phase, it is necessary for each PE to synchronously start the processing phase, and the PE synchronization command 93 is transmitted to the switch network / synchronization. The control unit 6 transmits to each PE at each phase start time. As a method of generating the synchronization signal, the signal of the external synchronization signal line 96 may be used as it is, or the PE synchronization command 93 may be periodically generated by setting the programmable timer 94 by the synchronization timer setting value 91. Here, the synchronization timer set value 91 can be specified by the CPU 1 for the longest time required for each PE to finish the processing of one phase. Especially when the processing time for each phase of each PE changes, the processing end signal 90 of each PE
Must be input to the AND logic 95, and the PE synchronization command 93 must be output when the processing of all PEs is completed. In FIG. 21, the three types of synchronization methods are selectable by the synchronization method selection signal 92, but the switch network / synchronization control unit 6 may have only one or two types of the three types of synchronization methods. .. The synchronization method selection signal 92 is CP
It may be set from U1 or the control computer 82.
【0048】図22に、各PEの処理終了信号90によ
り同期指令93を発生する場合のタイムチャートを示
す。PE0からPEnまでの全PEの処理が終了する
と、スイッチ網/同期制御部6がCPU1に報告する。
この報告に基づき交換接続スイッチ網の接続変更が必要
な場合にはスイッチ網/同期制御部6に変更指令を発す
る。接続変更がない場合には直に次の処理フェーズの開
始を各PEに指令する。FIG. 22 shows a time chart when the synchronization command 93 is generated by the processing end signal 90 of each PE. When the processing of all PEs from PE0 to PEn is completed, the switch network / synchronization control unit 6 reports to the CPU1.
If it is necessary to change the connection of the switching connection switch network based on this report, a change command is issued to the switch network / synchronization control unit 6. When there is no change in connection, each PE is directly instructed to start the next processing phase.
【0049】図23は、図2のPE群のプリント板10
0上への実装例を示したものである。プロセッサ97は
高速処理能力のあるものがよく、例えばDSP(ディジ
タル・シグナル・プロセッサを採用する。図3に示すP
Eのうち、演算処理部19,複数のDMAチャネル2
4,入力FIFO25,出力FIFO26、及び制御ポ
ート27より構成される複数の通信ポートを1チップに
集積化したDSPをプロセッサ97として使用すること
によりPE間のリンケージに関わる周辺回路を大幅に省
略することができる。メモリ98は、高集積かつ高速で
あるものが適しており、現在の技術水準では4Mビット
SRAMが好ましい。スイッチ網素子99はプロセッサ
間のリンケージ信号線を最短距離で結び、かつ自由に接
続を外部よりプログラムで制御できなくてはならない。
この目的から図5に対応する接続交換スイッチ網を集積
回路化し、スイッチ部の信号の伝搬遅延を最小化する。
また集積化により同時に回路の小型化を実現して1枚の
プリント板上に極力多数のPEを配置することにより、
PE相互間のリンケージ性能を向上させる。プロセッサ
97の配置は相互間の距離が最短になるように、スイッ
チ網素子99を取り囲んでプリント板中央部に集中させ
ている。プリント板接続部101は、図12のCPU−
PE群間リンケージ信号線10,PE群間リンケージ信
号線11、及びPE接続交換スイッチ網制御信号線12
をプリント板外に引きだし、他のプリント板と接続する
ためのものである。ここで言う他のプリント板とは、自
分以外のPE群,PE群リンケージ部,PE群接続交換
スイッチ網、及びスイッチ網/同期制御部である。FIG. 23 shows a printed board 10 of the PE group shown in FIG.
0 shows an example of implementation on 0. The processor 97 preferably has a high-speed processing capability, for example, a DSP (digital signal processor is adopted. P shown in FIG. 3 is used.
Of E, the arithmetic processing unit 19 and the plurality of DMA channels 2
4, the peripheral circuit related to the linkage between PEs is largely omitted by using as the processor 97 a DSP in which a plurality of communication ports composed of an input FIFO 25, an output FIFO 26, and a control port 27 are integrated on one chip. You can A highly integrated and high-speed memory is suitable for the memory 98, and 4 Mbit SRAM is preferable in the current state of the art. The switch network element 99 must connect the linkage signal lines between the processors in the shortest distance, and can freely control the connection from the outside by a program.
For this purpose, the connection exchange switch network corresponding to FIG. 5 is integrated into a circuit to minimize the signal propagation delay of the switch section.
Moreover, by realizing the miniaturization of the circuit at the same time by integration and arranging as many PEs as possible on one printed board,
Improves linkage performance between PEs. The processors 97 are arranged so as to be concentrated in the central portion of the printed board by surrounding the switch network elements 99 so that the distance between them is minimized. The printed board connecting portion 101 is the CPU-in FIG.
PE group linkage signal line 10, PE group linkage signal line 11, and PE connection exchange switch network control signal line 12
Is to be pulled out of the printed board and connected to another printed board. The other printed boards referred to here are a PE group other than itself, a PE group linkage unit, a PE group connection / switch network, and a switch network / synchronization control unit.
【0050】図25は、図18のPE群接続交換スイッ
チ網及び図20のPE群集合体接続交換スイッチ網のプ
リント板への実装例を示したものである。PE群及びP
E群集合体の外部に対するリンケージ信号線の論理構造
は、PEの場合と同一であり、FIFO間の接続であ
る。PE群及びPE群集合体の外部から見た論理仕様で
はPEの場合と同一となるため、図2のPE接続交換ス
イッチ網と同一のプリント板上に実装を行なうことがで
きる。すなわち、図23のスイッチ網素子99をそのま
ま適用し、プロセッサ97及びメモリ素子98を除去す
ると同時にプリント板の外部との信号インターフェース
による電気信号レベルの低下を保証するために必要に応
じてドライバ部102をプリント板外部との信号接続を
行なうプリント板接続部101との間に設置する。PE
群集合体接続交換スイッチ網の場合には、ユニット構造
をとるPE群集合体間の接続であるため距離が長くな
る。必要に応じプリント板接続部101の先にE/O変
換器,O/E変換器を接続してもよい。プリント板接続
部101は、PE群間リンケージ信号線11あるいはP
E群集合体間リンケージ信号線14、及びPE接続交換
スイッチ網制御信号線12をプリント板外に引きだし、
他のプリント板またはユニットと接続するためのもので
ある。ここで言う他のプリント板またはユニットとは、
接続先のPE群または、接続先のPE群集合体である。FIG. 25 shows an example of mounting the PE group connection exchange switch network of FIG. 18 and the PE group aggregate connection exchange switch network of FIG. 20 on a printed board. PE group and P
The logical structure of the linkage signal line to the outside of the E group aggregate is the same as that of the PE, and is the connection between the FIFOs. Since the logical specifications of the PE group and the PE group assembly from the outside are the same as those of the PE, they can be mounted on the same printed circuit board as the PE connection exchange switch network of FIG. That is, the switch network element 99 of FIG. 23 is applied as it is, the processor 97 and the memory element 98 are removed, and at the same time, the driver unit 102 is necessary as necessary to guarantee the reduction of the electric signal level due to the signal interface with the outside of the printed board. Is installed between the board and the printed board connecting portion 101 for signal connection with the outside of the board. PE
In the case of a group aggregate connection exchange switch network, the distance is long because it is a connection between PE group aggregates having a unit structure. If necessary, an E / O converter and an O / E converter may be connected to the end of the printed board connecting portion 101. The printed board connecting portion 101 is connected to the PE group linkage signal line 11 or P.
The linkage signal line 14 between the E group aggregates and the PE connection exchange switch network control signal line 12 are drawn out of the printed board,
It is for connecting to another printed board or unit. The other printed boards or units mentioned here are
The PE group of the connection destination or the PE group aggregate of the connection destination.
【0051】図24は、本発明になる並列演算装置に含
まれるPE間の関係を概念的に示した図である。PEは
3段階に階層化され、PEを相互に連接したものがPE
群であり、1つのPE群は全体として1つのPEと同様
の外部リンケージ信号線を持っている。PE群を複数集
め、相互に連接したものがPE群集合体である。さらに
PE群集合体を複数集め、相互に連接したものが並列演
算装置(または並列演算機構とも称す)である。FIG. 24 is a diagram conceptually showing the relationship between PEs included in the parallel arithmetic unit according to the present invention. PEs are layered in 3 stages, and PEs are connected to each other.
One PE group has the same external linkage signal line as one PE as a whole. A PE group aggregate is formed by collecting a plurality of PE groups and connecting them to each other. Further, a group of a plurality of PE group aggregates that are connected to each other is a parallel computing device (also referred to as a parallel computing mechanism).
【0052】すなわち、並列演算装置に対するPE群集
合体の論理的関係,PE群集合体に対するPE群の論理
的関係,PE群に対するPEの論理的関係はすべて同一
構造である。この関係(階層レベル/接続する要素/要
素間リンケージ)は、 1)並列演算装置/PE群集合体/PE群集合体間リン
ケージ信号線 2)PE群集合体/PE群/PE群間リンケージ信号線 3)PE群/PE/PE間リンケージ信号線 となる。このような論理構造を持たすことにより、複数
のPEを3階層を越えて積み重ねて接続することにつき
論理的制約はなく、事実上、任意の規模の並列演算装置
を実現することが可能となる。とくに、本発明になる並
列演算装置ではPE間のリンケージにつき、上位階層を
経る度合が少ないほどリンケージ信号線の実装距離、及
び経由する論理ゲート段数が少なく、高速大容量のデー
タ伝送が可能であり、論理的に密接な関係のPE間から
論理的に疎遠な関係のPE間まで段階的に情報伝送能力
を割り当てることが可能である。That is, the logical relationship of the PE group aggregate to the parallel computing device, the logical relationship of the PE group to the PE group aggregate, and the logical relationship of the PE to the PE group are all the same structure. This relationship (hierarchical level / connected elements / linkage between elements) is 1) parallel arithmetic unit / PE group aggregate / PE group aggregate linkage signal line 2) PE group aggregate / PE group / PE group linkage signal line 3) It becomes a linkage signal line between PE group / PE / PE. By having such a logical structure, there is no logical restriction in stacking and connecting a plurality of PEs over three layers, and it is possible to realize a parallel arithmetic device of practically any scale. In particular, in the parallel computing device according to the present invention, as regards the linkage between PEs, the smaller the degree of passing through the upper hierarchy, the smaller the mounting distance of the linkage signal line and the number of logic gate stages to pass through, which enables high-speed and large-capacity data transmission. It is possible to allocate the information transmission capacity stepwise from PEs that are in a logically close relationship to PEs that are in a logically distant relationship.
【0053】以上述べたように、複数のプロセッサ間を
FIFOにより接続し、かつ交替バッファ構造の受信用
メモリ領域と受信用FIFO間をDMA転送とするの
で、送受信両プロセッサともプロセッサ間の転送データ
についてメモリサイクルで読み書きが可能となり、プロ
セッサ間のデータ伝送速度,効率が向上する。この結
果、該並列演算装置の処理能力が向上する。さらに、プ
ロセッサ間の接続状態を接続交換スイッチ網により任意
に変更できるので、広汎な用途の処理内容に適応して効
率のよい演算を実施することができる。As described above, since a plurality of processors are connected by the FIFO and DMA transfer is performed between the receiving memory area of the alternate buffer structure and the receiving FIFO, the transfer data between the processors of both the transmitting and receiving processors Data can be read and written in memory cycles, improving the data transmission speed and efficiency between processors. As a result, the processing capability of the parallel computing device is improved. Further, since the connection state between the processors can be arbitrarily changed by the connection exchange switch network, it is possible to perform efficient calculation by adapting to the processing contents of a wide range of applications.
【0054】[0054]
【発明の効果】本発明によれば、プロセッサ間のデータ
伝送速度及び効率を向上させる並列処理装置及び方法を
提供することができる。According to the present invention, it is possible to provide a parallel processing apparatus and method for improving the data transmission rate and efficiency between processors.
【0055】また、本発明によれば、演算装置の汎用性
を確保するためにプロセッサ間のデータ伝送路構造に柔
軟性を付与した並列処理装置及び方法を提供することが
できる。Further, according to the present invention, it is possible to provide a parallel processing apparatus and method in which flexibility is imparted to a data transmission path structure between processors in order to ensure versatility of an arithmetic unit.
【図1】本発明の一実施例のPE群集合体の構成図であ
る。FIG. 1 is a configuration diagram of a PE group aggregate according to an embodiment of the present invention.
【図2】本発明の一実施例のPE群の構成図である。FIG. 2 is a configuration diagram of a PE group according to an embodiment of the present invention.
【図3】本発明の一実施例のPEの内部構成図である。FIG. 3 is an internal configuration diagram of a PE according to an embodiment of the present invention.
【図4】本発明の一実施例のPEの内部構成の他の例を
示した図である。FIG. 4 is a diagram showing another example of the internal configuration of the PE according to the embodiment of the present invention.
【図5】本発明の一実施例のPE接続交換スイッチ網の
構成図である。FIG. 5 is a configuration diagram of a PE connection exchange switch network according to an embodiment of the present invention.
【図6】図5のスイッチ素子の機能の一例を示した図で
ある。FIG. 6 is a diagram showing an example of the function of the switch element of FIG.
【図7】図5のスイッチ素子の構成の一例を示した図で
ある。FIG. 7 is a diagram showing an example of the configuration of the switch element of FIG.
【図8】本発明の一実施例の隣接したPE間の接続構成
図である。FIG. 8 is a connection configuration diagram between adjacent PEs according to an embodiment of the present invention.
【図9】図8に示された構成の動作の一例を示したタイ
ムチャートである。9 is a time chart showing an example of the operation of the configuration shown in FIG.
【図10】本発明の一実施例のPEの接続実現例を示し
た図である。FIG. 10 is a diagram showing a connection implementation example of a PE according to an embodiment of the present invention.
【図11】本発明の一実施例のPE接続交換スイッチ網
(aその1)の接続機能図である。FIG. 11 is a PE connection exchange switch network according to an embodiment of the present invention.
It is a connection function diagram of (a 1).
【図12】本発明の一実施例のPE接続交換スイッチ網
(aその2)の接続機能図である。FIG. 12 is a PE connection exchange switch network according to an embodiment of the present invention.
It is a connection function diagram of (a2).
【図13】本発明の一実施例のPE接続交換スイッチ網
(aその3)の接続機能図である。FIG. 13 is a PE connection exchange switch network according to an embodiment of the present invention.
It is a connection function diagram of (a3).
【図14】本発明の一実施例のPE接続交換スイッチ網
(bその1)の接続機能図である。FIG. 14 is a PE connection exchange switch network according to an embodiment of the present invention.
It is a connection function diagram of (b 1).
【図15】本発明の一実施例のPE接続交換スイッチ網
(bその2)の接続機能図である。FIG. 15 is a PE connection exchange switch network according to an embodiment of the present invention.
It is a connection function diagram of (b 2).
【図16】本発明の一実施例のPE接続交換スイッチ網
(bその3)の接続機能図である。FIG. 16 is a PE connection exchange switch network according to an embodiment of the present invention.
It is a connection function diagram of (b 3).
【図17】本発明の一実施例のPE群リンケージ部の接
続構成図である。FIG. 17 is a connection configuration diagram of a PE group linkage unit according to an embodiment of the present invention.
【図18】本発明の一実施例のPE群接続交換スイッチ
網の構成図である。FIG. 18 is a configuration diagram of a PE group connection exchange switch network according to an embodiment of the present invention.
【図19】本発明の一実施例の並列演算装置の構成図で
ある。FIG. 19 is a configuration diagram of a parallel arithmetic device according to an embodiment of the present invention.
【図20】図19のPE群集合体接続交換スイッチ網の
構成例を示す図である。20 is a diagram showing a configuration example of the PE group aggregate connection / switching switch network of FIG. 19;
【図21】本発明の一実施例の同期制御機能の一例を示
す図である。FIG. 21 is a diagram showing an example of a synchronization control function according to an embodiment of the present invention.
【図22】図21の同期制御のタイムチャートの一例を
示す図である。22 is a diagram showing an example of a time chart of the synchronization control shown in FIG.
【図23】本発明の一実施例におけるPE群のプリント
板への実装例を示す図である。FIG. 23 is a diagram showing an example of mounting a PE group on a printed board according to an embodiment of the present invention.
【図24】本発明の一実施例の並列演算装置の階層構造
例を示す概念図である。FIG. 24 is a conceptual diagram showing an example of a hierarchical structure of a parallel arithmetic device in one embodiment of the present invention.
【図25】本発明の一実施例におけるPE群接続交換ス
イッチ網及びPE群集合体接続交換スイッチ網のプリン
ト板への実装例を示す図である。FIG. 25 is a diagram showing an example of mounting a PE group connection exchange switch network and a PE group aggregate connection exchange switch network on a printed board according to an embodiment of the present invention.
1…CPU、2…メモリ、3…外部インターフェイス
部、4…PE群、5…PE群リンケージ部、6…スイッ
チ網/同期制御部、7…PE群接続交換スイッチ網、8
…外部インターフェイス信号線、9…CPUバス、10
…CPU−PE群間リンケージ信号線、11…PE群間
リンケージ信号線、12…PE接続交換スイッチ網制御
信号線、13…PE群接続交換スイッチ網制御信号線、
14…PE群集合体間リンケージ信号線、15…外部同
期信号線、16…PE、17…PE間リンケージ信号
線、18…PE接続交換スイッチ網、19…演算処理
部、20…プログラムメモリ、21…データ/ワークメ
モリ、22…入力バッファA、23…入力バッファB、
24…DMAチャネル、25…入力FIFO、26…出
力FIFO、27…入出力ポート制御部、28…メモリ
バスA、29…メモリバスB、30…プロセッサエレメ
ント間リンケージ信号線、31…DMAチャネル制御信
号線、32…メモリバスC、33…スイッチ網部、34
…切り替え制御部、35…接続状態メモリ、36…スイ
ッチ素子、37…接続交換スイッチ網入力信号線、38
…接続交換スイッチ網出力信号線、39…スイッチ素子
入力信号線、40…スイッチ素子出力信号線、41…ス
イッチ素子制御信号線、42…ANDゲート、43…O
Rゲート、44…NOTゲート、45…PE(a)、4
6…演算プロセッサ(a)、47…入力バッファa−
A、48…入力バッファa−B、49…入力FIFO
(a)、50…出力FIFO(a)、51…DMAチャ
ネル(a)、52…通信ポート出力(a)、53…PE
(b)、54…演算プロセッサ(b)、55…入力バッ
ファb−A、56…入力バッファb−B、57…入力F
IFO(b)、58…出力FIFO(b)、59…DM
Aチャネル(b)、60…通信ポート入力(b)、61
…通信ポート出力(b)、62…接続交換スイッチ網、
63…一重線、64…二重線、65…点線、66…演算
処理部、67…データ/ワークメモリ、68…デュアル
ポートメモリ、69…バッファメモリ、70…DMAチ
ャネル、71…入力FIFO、72…出力FIFO、7
3…ポート制御部、74…CPUバスインタフェース信
号線、75…メモリバスA、76…メモリバスB、77
…PEリンケージ信号線、78…プログラムメモリ、7
9…DMAチャネル制御線、80…EO/OE変換部、
81…PE群集合体、82…制御計算機、83…プリン
タ、84…ビデオ端末、85…PE群集合体接続交換ス
イッチ網、86…リンケージバス、87…並列演算装置
間リンケージ信号線、88…PE群集合体接続交換スイ
ッチ網、89…PE群集合体接続交換スイッチ網制御信
号線、90…PE処理終了信号、91…同期タイマー設
定値、92…同期方式選択信号、93…PE同期指令、
94…プログラマブルタイマ、95…AND論理、96
…外部同期信号線、97…プロセッサ、98…メモリ素
子、99…スイッチ網素子、100…プリント板、10
1…プリント板接続部、102…スイッチ網ドライバ
部。1 ... CPU, 2 ... Memory, 3 ... External interface section, 4 ... PE group, 5 ... PE group linkage section, 6 ... Switch network / synchronization control section, 7 ... PE group connection / switching switch network, 8
... external interface signal line, 9 ... CPU bus, 10
... CPU-PE group linkage signal line, 11 ... PE group linkage signal line, 12 ... PE connection exchange switch network control signal line, 13 ... PE group connection exchange switch network control signal line,
Reference numeral 14 ... PE group aggregate linkage signal line, 15 ... External synchronization signal line, 16 ... PE, 17 ... PE linkage signal line, 18 ... PE connection exchange switch network, 19 ... Arithmetic processing unit, 20 ... Program memory, 21 ... Data / work memory, 22 ... Input buffer A, 23 ... Input buffer B,
24 ... DMA channel, 25 ... Input FIFO, 26 ... Output FIFO, 27 ... I / O port controller, 28 ... Memory bus A, 29 ... Memory bus B, 30 ... Processor element linkage signal line, 31 ... DMA channel control signal Line, 32 ... memory bus C, 33 ... switch network part, 34
... switching control unit, 35 ... connection state memory, 36 ... switch element, 37 ... connection exchange switch network input signal line, 38
Connection switching switch network output signal line, 39 switch element input signal line, 40 switch element output signal line, 41 switch element control signal line, 42 AND gate, 43 O
R gate, 44 ... NOT gate, 45 ... PE (a), 4
6 ... Arithmetic processor (a), 47 ... Input buffer a-
A, 48 ... Input buffer a-B, 49 ... Input FIFO
(A), 50 ... Output FIFO (a), 51 ... DMA channel (a), 52 ... Communication port output (a), 53 ... PE
(B), 54 ... Arithmetic processor (b), 55 ... Input buffer b-A, 56 ... Input buffer b-B, 57 ... Input F
IFO (b), 58 ... Output FIFO (b), 59 ... DM
A channel (b), 60 ... Communication port input (b), 61
... communication port output (b), 62 ... connection exchange switch network,
63 ... Single line, 64 ... Double line, 65 ... Dotted line, 66 ... Arithmetic processing section, 67 ... Data / work memory, 68 ... Dual port memory, 69 ... Buffer memory, 70 ... DMA channel, 71 ... Input FIFO, 72 … Output FIFO, 7
3 ... Port control unit, 74 ... CPU bus interface signal line, 75 ... Memory bus A, 76 ... Memory bus B, 77
... PE linkage signal line, 78 ... Program memory, 7
9 ... DMA channel control line, 80 ... EO / OE converter,
81 ... PE group aggregate, 82 ... Control computer, 83 ... Printer, 84 ... Video terminal, 85 ... PE group aggregate connection / switch network, 86 ... Linkage bus, 87 ... Parallel processing unit linkage signal line, 88 ... PE group aggregate Connection exchange switch network, 89 ... PE group assembly connection exchange switch network control signal line, 90 ... PE processing end signal, 91 ... synchronization timer set value, 92 ... synchronization method selection signal, 93 ... PE synchronization instruction,
94 ... Programmable timer, 95 ... AND logic, 96
... external synchronization signal line, 97 ... processor, 98 ... memory element, 99 ... switch network element, 100 ... printed board, 10
1 ... Printed board connection part, 102 ... Switch network driver part.
Claims (19)
力FIFOメモリと、信号出力側に設けられた出力FI
FOメモリとを具備するプロセッサエレメントを含む並
列処理装置において、該プロセッサエレメントを複数有
し、前記プロセッサエレメント間のデータ伝送を、プロ
セッサエレメント接続交換スイッチ網を介して行なうプ
ロセッサエレメント群を含むことを特徴とした並列処理
装置。1. An arithmetic processing unit, an input FIFO memory provided on a signal input side, and an output FI provided on a signal output side.
A parallel processing device including a processor element having an FO memory, comprising a plurality of processor elements, and including a processor element group for performing data transmission between the processor elements via a processor element connection switching network. Parallel processing device.
ントは、前記演算処理部と前記入力FIFOメモリ及び
/又は前記出力FIFOメモリとを接続する第1のバス
と、前記第1のバスとは異なる第2のバスにより前記演
算処理部へ接続された入力バッファと、前記入力バッフ
ァと前記FIFOメモリとの間でデータのDMA転送を
行なう手段とをさらに具備することを特徴とした並列処
理装置。2. The processor element according to claim 1, wherein the processor element is different from a first bus connecting the arithmetic processing unit and the input FIFO memory and / or the output FIFO memory, and a first bus different from the first bus. The parallel processing apparatus further comprising: an input buffer connected to the arithmetic processing unit by a second bus; and means for performing DMA transfer of data between the input buffer and the FIFO memory.
複数有し、前記プロセッサエレメント群間のデータ伝送
をプロセッサエレメント群接続交換スイッチ網を介して
行なうプロセッサエレメント群集合体を含むことを特徴
とした並列処理装置。3. A parallel structure comprising a plurality of processor element groups according to claim 1, and including a processor element group aggregate for performing data transmission between the processor element groups via a processor element group connection switching network. Processing equipment.
ント群集合体は、前記プロセッサエレメント群接続交換
スイッチ網を制御する管理プロセッサを有することとし
た並列処理装置。4. The parallel processing device according to claim 1, wherein the processor element group aggregate has a management processor for controlling the processor element group connection switching network.
合体を複数有し、プロセッサエレメント群集合体間のデ
ータ伝送を行なうプロセッサエレメント群集合体間リン
ケージ信号線を用いて相互に連接したことを特徴とする
並列処理装置。5. A parallel arrangement comprising a plurality of processor element group aggregates according to claim 4, and connecting the processor element group aggregates with each other using a linkage signal line between the processor element group aggregates for transmitting data between the processor element group aggregates. Processing equipment.
ント接続交換スイッチ網が、任意のプロセッサエレメン
ト間の接続を可能とする構造を有することを特徴とする
並列処理装置。6. The parallel processing apparatus according to claim 1, wherein the processor element connection exchange switch network has a structure that enables connection between arbitrary processor elements.
は、処理対象に対応して、スイッチ網接続制御部を介し
て、前記プロセッサエレメント接続交換スイッチ網の接
続状態を、制御できることを特徴とする並列処理装置。7. The parallel processor according to claim 4, wherein the management processor can control a connection state of the processor element connection switching switch network via a switch network connection control unit in accordance with a processing target. Processing equipment.
は、処理の進行状態に対応して、スイッチ網接続制御部
を介して、前記プロセッサエレメント接続交換スイッチ
網の接続状態を、制御できることを特徴とする並列処理
装置。8. The management processor according to claim 4, wherein the management processor can control the connection state of the processor element connection exchange switch network via a switch network connection control unit in accordance with the progress of processing. Parallel processing device.
メモリより構成される複数のプロセッサエレメントと、
前記伝送チャネルの一部または全部を外部制御により任
意に接続制御可能なスイッチ網を同一のプリント板上に
配置し、同一プリント板上の複数のプロセッサ間で相互
に情報を連関させて処理することを特徴とする並列処理
装置。9. A plurality of processor elements each including a computing unit having a plurality of transmission channels and a main memory,
A switch network capable of arbitrarily controlling connection of some or all of the transmission channels by external control is arranged on the same printed board, and a plurality of processors on the same printed board associate and process information with each other. Parallel processing device characterized by.
のプロセッサを配置し、前記各プロセッサに2m個(m
は自然数)のチャネルを設け、前記各プロセッサからの
1個の入力チャネルとなりうるチャネルと1個の出力チ
ャネルとなりうるチャネルを接続するm組のスイッチ網
を設け、各組のスイッチ網は任意のプロセッサの入力チ
ャネルと任意のプロセッサの出力チャネルを外部よりの
制御に応じて1対1に接続可能とすることを特徴とする
並列処理装置。10. n pieces (n is a natural number) on the same printed board
2m units (m
Is a natural number), and m sets of switch networks that connect channels that can be one input channel and channels that can be one output channel from each processor are provided. The parallel processing device is characterized in that the input channel of the above and the output channel of an arbitrary processor can be connected in a one-to-one correspondence according to control from the outside.
間の前記スイッチ網をその入力側からその出力側まで同
一の集積回路上に構成し、かつ必要に応じて前記m組の
スイッチ網を各組ごとに分割し別個の集積回路として構
成し、かつ必要に応じ、入力および出力チャネルを特定
のビット数ごとグループ化して分割し、1組のスイッチ
網を前記グループに対応してビットスライスで複数の集
積回路に集積することを特徴とする並列処理装置。11. The switch network between a plurality of processors according to claim 10, wherein the input side to the output side of the switch network are formed on the same integrated circuit, and each of the m switch networks is formed as required. The input and output channels are grouped by a specific number of bits and divided, and a set of switch networks is divided into a plurality of bit slices corresponding to the groups. A parallel processing device characterized by being integrated in an integrated circuit.
2kである数に選び、n個のプロセッサに対して接続し
うるスイッチ網を設けたうえで、n−1個のプロセッサ
を配置し、1個のプロセッサは配置せずに前記不配置プ
ロセッサに対する入力チャネル群を同一構造を有するも
う1つの並列演算装置の不配置プロセッサに対する出力
チャネル群にそれぞれ1対1に接続し、前記不配置プロ
セッサに対する出力チャネル群を同一構造を有するもう
1つの並列演算装置の不配置プロセッサに対する入力チ
ャネル群にそれぞれ1対1に接続することにより2組の
並列演算装置内のプロセッサ間で相互に接続が可能であ
る構造を有する並列処理装置。12. A system according to claim 10, wherein n is selected to be a power of 2 2k, a switch network capable of connecting to n processors is provided, and n-1 processors are arranged. Without arranging one processor, the input channel group for the non-allocated processor is connected to the output channel group for the non-allocated processor of another parallel arithmetic device having the same structure in a one-to-one correspondence, By connecting the output channel groups to the input channel groups to the non-arranged processors of another parallel arithmetic unit having the same structure to each other in a one-to-one relationship, the processors in the two parallel arithmetic units can be mutually connected. A parallel processing device having a structure.
2kである数に選び、n個のプロセッサに対して接続し
うるスイッチ網を設けたうえで、n−1個のプロセッサ
を配置し、1個のプロセッサは配置せずに前記不配置プ
ロセッサに対する入力チャネル群と出力チャネル群を外
部接続用に有する並列演算装置をn個集めた集合体に対
し、前記n組の外部接続用入出力チャネル群に対し、並
列演算装置内の各プロセッサを接続したのと同一の構造
のスイッチ網で接続し、n組の並列演算装置内の各プロ
セッサが相互に接続可能である構造を有する並列処理装
置。13. A system according to claim 10, wherein n is selected to be a power of 2 2k, and a switch network capable of connecting to n processors is provided, and then n-1 processors are arranged. N sets of external connection input / outputs for an aggregate of n parallel arithmetic devices having an input channel group and an output channel group for external connection without arranging one processor A parallel processing device having a structure in which channel groups are connected by a switch network having the same structure as the processors in the parallel processing device are connected, and the processors in the n sets of parallel processing devices can be connected to each other. ..
算装置を接続したスイッチ網において、n−1個の並列
演算装置を接続し、1個の並列演算装置は接続せずに前
記不接続並列演算装置に対する入力チャネル群と出力チ
ャネル群を外部接続用に有する並列演算装置集合体をn
個まで集めた集合体に対し、前記n組の外部接続用入出
力チャネル群に対し、並列演算装置内の各プロセッサを
接続したのと同一の構造のスイッチ網で接続し、n組の
並列演算装置集合体内の各プロセッサが相互に接続可能
である構造を有する並列処理装置。14. The switch network to which the n parallel arithmetic devices are connected according to claim 13, wherein n−1 parallel arithmetic devices are connected and one parallel arithmetic device is not connected and the non-connection is made. N parallel computing device aggregates having an input channel group and an output channel group for the parallel computing device for external connection
To the aggregate of up to n pieces, the n sets of external connection input / output channel groups are connected by a switch network having the same structure as that of each processor in the parallel operation device, and n sets of parallel operations are connected. A parallel processing device having a structure in which processors in a device assembly can be connected to each other.
入力FIFOメモリと、信号出力側に設けられた出力F
IFOメモリと前記演算処理部と前記FIFOメモリと
を接続する第1のバスと、前記第1のバスとは異なる第
2のバスにより前記演算処理部へ接続された入力バッフ
ァと、前記入力バッファと前記FIFOメモリとの間で
データのDMA転送を行なう手段とを具備するプロセッ
サエレメントを有するもの情報処理方法において、 複数のプロセッサエレメント間でデータ転送を行なう場
合に、送信側演算処理部から送信側出力FIFOメモリ
に直接データを書き込み、受信側入力FIFOメモリへ
情報を伝送する場合、 受信側入力FIFOメモリよりDMA転送する受信側入
力バッファを受信側入力FIFOメモリごとに一対用意
し、交替バッファメモリとして構成し、 第一のフェーズでは、前記一対の交替バッファメモリの
うち一方を前記入力FIFOメモリからのDMA転送先
とし、交替バッファメモリのうち他方を受信側演算処理
部の処理対象データ領域とする、 第二のフェーズでは、前記交替バッファメモリのうち他
方を前記入力FIFOメモリからのDMA転送先とし、
前記交替バッファメモリのうち一方を受信側演算処理部
の処理対象データ領域とすることを特徴とする並列処理
方法。15. An arithmetic processing unit, an input FIFO memory provided on a signal input side, and an output F provided on a signal output side.
A first bus connecting the IFO memory, the arithmetic processing unit, and the FIFO memory; an input buffer connected to the arithmetic processing unit by a second bus different from the first bus; An information processing method having a processor element including means for performing DMA transfer of data to and from the FIFO memory, wherein in the case of performing data transfer between a plurality of processor elements, an output from a transmitting side arithmetic processing unit When writing data directly to the FIFO memory and transmitting information to the receiving side input FIFO memory, a pair of receiving side input buffers for DMA transfer from the receiving side input FIFO memory are prepared for each receiving side input FIFO memory, and configured as an alternate buffer memory. Then, in the first phase, one of the pair of alternate buffer memories is The DMA transfer destination from the input FIFO memory is used, and the other of the replacement buffer memories is set as a processing target data area of the reception side arithmetic processing unit. In the second phase, the other of the replacement buffer memories is transferred from the input FIFO memory. As a DMA transfer destination,
A parallel processing method, wherein one of the replacement buffer memories is used as a processing target data area of a reception side arithmetic processing unit.
ッサエレメント各々がそれぞれ一まとまりの処理業務を
分担するに際し、 一フェーズの処理を実行するのに必要な時間のうち最も
長いもの以上のタイミングで発生される同期信号を前記
プロセッサエレメントに出力する同期信号発生手段を設
け、 前記プロセッサエレメントは、前記同期信号発生手段か
らの同期信号が発生された時点で一つのフェーズの処理
を開始し、次の同期信号が発生された時点で次のフェー
ズの処理を開始することを特徴とする並列処理方法。16. The method according to claim 15, wherein when each of the plurality of processor elements shares a group of processing tasks, it occurs at a timing longer than the longest time required to execute one phase of processing. A synchronization signal generating means for outputting a synchronization signal to the processor element, wherein the processor element starts the processing of one phase at the time when the synchronization signal is generated from the synchronization signal generating means, and executes the next synchronization. A parallel processing method characterized in that the processing of the next phase is started when a signal is generated.
手段は、前記プロセッサ群の各プロセッサが全て一フェ
ーズの処理を終了したことを検知し、その結果に基づき
前記同期信号を発生することを特徴とする並列処理方
法。17. The synchronizing signal generating means according to claim 15, wherein the synchronizing signal generating means detects that all the processors of the processor group have completed one-phase processing, and generates the synchronizing signal based on the result. And parallel processing method.
手段は、前記プロセッサ群の各プロセッサが全て一フェ
ーズの処理を完了するに必要な時間のうち最も長いもの
以上の周期で前記同期信号を発生することを特徴とする
並列処理方法。18. The synchronization signal generating means according to claim 15, wherein the synchronization signal generating means generates the synchronization signal at a cycle longer than the longest time required for all the processors of the processor group to complete one-phase processing. A parallel processing method characterized by:
手段は、前記管理プロセッサからの指令により前記同期
信号の発生周期を変更できることを特徴とする並列処理
方法。19. The parallel processing method according to claim 15, wherein said synchronization signal generating means can change the generation period of said synchronization signal in response to a command from said management processor.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP4073702A JPH05274279A (en) | 1992-03-30 | 1992-03-30 | Parallel processing apparatus and method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP4073702A JPH05274279A (en) | 1992-03-30 | 1992-03-30 | Parallel processing apparatus and method |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH05274279A true JPH05274279A (en) | 1993-10-22 |
Family
ID=13525815
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP4073702A Pending JPH05274279A (en) | 1992-03-30 | 1992-03-30 | Parallel processing apparatus and method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH05274279A (en) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6662203B1 (en) | 1998-11-16 | 2003-12-09 | Telefonaktiebolaget Lm Ericsson (Publ) | Batch-wise handling of signals in a processing system |
US6714961B1 (en) | 1998-11-16 | 2004-03-30 | Telefonaktiebolaget Lm Ericsson (Publ) | Multiple job signals per processing unit in a multiprocessing system |
US7167559B2 (en) | 2001-03-28 | 2007-01-23 | Matsushita Electric Industrial Co., Ltd. | Information security device, exponentiation device, modular exponentiation device, and elliptic curve exponentiation device |
JP2008310832A (en) * | 2001-06-11 | 2008-12-25 | Texas Instruments Inc | Apparatus and method for distributing signal from high level data link controller to a plurality of digital signal processor cores |
JP2012164259A (en) * | 2011-02-09 | 2012-08-30 | Fujitsu Ltd | Calculation system, configuration management device and configuration management program |
JP2013502015A (en) * | 2009-08-13 | 2013-01-17 | クゥアルコム・インコーポレイテッド | Apparatus and method for efficient data processing |
US8762532B2 (en) | 2009-08-13 | 2014-06-24 | Qualcomm Incorporated | Apparatus and method for efficient memory allocation |
US8788782B2 (en) | 2009-08-13 | 2014-07-22 | Qualcomm Incorporated | Apparatus and method for memory management and efficient data processing |
-
1992
- 1992-03-30 JP JP4073702A patent/JPH05274279A/en active Pending
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6662203B1 (en) | 1998-11-16 | 2003-12-09 | Telefonaktiebolaget Lm Ericsson (Publ) | Batch-wise handling of signals in a processing system |
US6714961B1 (en) | 1998-11-16 | 2004-03-30 | Telefonaktiebolaget Lm Ericsson (Publ) | Multiple job signals per processing unit in a multiprocessing system |
US7167559B2 (en) | 2001-03-28 | 2007-01-23 | Matsushita Electric Industrial Co., Ltd. | Information security device, exponentiation device, modular exponentiation device, and elliptic curve exponentiation device |
JP2008310832A (en) * | 2001-06-11 | 2008-12-25 | Texas Instruments Inc | Apparatus and method for distributing signal from high level data link controller to a plurality of digital signal processor cores |
JP2013502015A (en) * | 2009-08-13 | 2013-01-17 | クゥアルコム・インコーポレイテッド | Apparatus and method for efficient data processing |
US8762532B2 (en) | 2009-08-13 | 2014-06-24 | Qualcomm Incorporated | Apparatus and method for efficient memory allocation |
US8788782B2 (en) | 2009-08-13 | 2014-07-22 | Qualcomm Incorporated | Apparatus and method for memory management and efficient data processing |
US9038073B2 (en) | 2009-08-13 | 2015-05-19 | Qualcomm Incorporated | Data mover moving data to accelerator for processing and returning result data based on instruction received from a processor utilizing software and hardware interrupts |
JP2012164259A (en) * | 2011-02-09 | 2012-08-30 | Fujitsu Ltd | Calculation system, configuration management device and configuration management program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3628706B2 (en) | Memory interface unit, shared memory switch system and related methods | |
JP2770603B2 (en) | Parallel computer | |
EP0460599B1 (en) | Massively parallel processor including queue-based message delivery system | |
JP2842522B2 (en) | ATM switch and control method thereof | |
JPH09502818A (en) | Multiport shared memory interface and related methods | |
JP2004517386A (en) | Method and apparatus | |
US4524428A (en) | Modular input-programmable logic circuits for use in a modular array processor | |
JPH09224041A (en) | Device and method for data packing by addition | |
JPH05274279A (en) | Parallel processing apparatus and method | |
US20020196745A1 (en) | Method for the broadcasting of a data packet within a switched network based on an optimized calculation of the spanning tree | |
US7218638B2 (en) | Switch operation scheduling mechanism with concurrent connection and queue scheduling | |
JP3364937B2 (en) | Parallel processing unit | |
CN101695023A (en) | Parallel expanded type multi-path audio exchange mixing system | |
US7313146B2 (en) | Transparent data format within host device supporting differing transaction types | |
US20040081158A1 (en) | Centralized switching fabric scheduler supporting simultaneous updates | |
US7142515B2 (en) | Expandable self-route multi-memory packet switch with a configurable multicast mechanism | |
CN115328832A (en) | Data scheduling system and method based on PCIE DMA | |
JP3103298B2 (en) | ATM switch address generation circuit | |
US5513364A (en) | Data transfer device and multiprocessor system | |
CN201557161U (en) | Parallel expansion multi-path audio switching mixing device | |
Joshi et al. | Multi-core image processing system using network on chip interconnect | |
JP3209630B2 (en) | Data transfer device and multiprocessor system | |
JPH05108586A (en) | Parallel operation mechanism and parallel operation method | |
JP2976700B2 (en) | Synchronous control method between processors | |
JPH06187311A (en) | Multiprocessor system and interprocessor communication method |