[go: up one dir, main page]

JPH05101031A - Neural network device - Google Patents

Neural network device

Info

Publication number
JPH05101031A
JPH05101031A JP3261907A JP26190791A JPH05101031A JP H05101031 A JPH05101031 A JP H05101031A JP 3261907 A JP3261907 A JP 3261907A JP 26190791 A JP26190791 A JP 26190791A JP H05101031 A JPH05101031 A JP H05101031A
Authority
JP
Japan
Prior art keywords
ring register
ring
neurons
axis direction
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP3261907A
Other languages
Japanese (ja)
Inventor
Takeshi Nagabori
剛 長堀
Masanori Mizoguchi
正典 溝口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP3261907A priority Critical patent/JPH05101031A/en
Publication of JPH05101031A publication Critical patent/JPH05101031A/en
Pending legal-status Critical Current

Links

Landscapes

  • Complex Calculations (AREA)

Abstract

PURPOSE:To accelerate a propagation arithmetic operation and to save memory capacity when local coupling is used by inserting a delay element to a ring register bus, and applying mapping by concentrating a matrix element with value 0 in a specific column. CONSTITUTION:The delay elements (variable delay first-in/first-out memory) 50-52, 61, and 62 to the ring register buses 1, 2. For example, when the product of transposed matrix and a vector is computed, the ring register 1 and internal registers in the delay elements 50-52 are used as accumulators. In such a way. the mapping in which the matrix element with value O is concentrated in the specific column can be performed. Thereby, the number of times of operations required for computation can be reduced. Also, the capacity of memory devices 41-43 for coupling load can be saved. Furthermore, the setting of input data can be performed by using another ring register bus 1 or 2 while a sum of products arithmetic operation is being performed by using a certain ring register bus 1 or 2. Therefore. a time required for such setting can be ignored.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】本発明は、画像認識,音声認識等
に利用されているニューラルネットワーク装置に関す
る。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a neural network device used for image recognition, voice recognition and the like.

【0002】[0002]

【従来の技術】ニューラルネットワークのバックプロパ
ゲーション等の積和演算を高速に行うための並列アーキ
テクチャとしてリングレジスタバスが知られており、信
学技報NC89−76で述べられている。従来のリング
レジスタバス型ニューラルネットワーク装置の構成と動
作について簡単に述べる。
2. Description of the Related Art A ring register bus is known as a parallel architecture for performing high-speed product-sum calculation such as back propagation of a neural network, and is described in Technical Report NC89-76. The structure and operation of a conventional ring register bus type neural network device will be briefly described.

【0003】図10は、従来のリングレジスタバス型ニ
ューラルネットワーク装置の構成を示すブロック図であ
る。図10に示すように、複数のリングレジスタ11〜
15と演算装置(PE)31〜33、そして記憶装置4
1〜43から構成される。リングレジスタ11〜15は
転送機能をもつレジスタで、両隣のリングレジスタと接
続されて全体でリングレジスタバス1を構成し、各演算
装置とのデータの収集と供給を行う。リングレジスタ1
1〜15のいくつかには演算装置31〜33が接続され
ており、それらには乗算器と加算器が内蔵されている。
また、同演算装置31〜33には各々記憶装置41〜4
3が接続されている。基本的にニューロン1個に対して
演算装置を1個割り当て、複数の層はソフトウェアによ
る時分割逐次実行で実現する。なお、演算装置が結合し
ていないリングレジスタは、ファースト・イン・ファー
スト・アウト(FIFO)メモリで代用することができ
る。
FIG. 10 is a block diagram showing the configuration of a conventional ring register bus type neural network device. As shown in FIG. 10, a plurality of ring registers 11 to 11
15, processing units (PE) 31 to 33, and storage device 4
1 to 43. The ring registers 11 to 15 are registers having a transfer function, and are connected to the ring registers on both sides to form the ring register bus 1 as a whole, and collect and supply data with each arithmetic unit. Ring register 1
The arithmetic units 31 to 33 are connected to some of the units 1 to 15, and a multiplier and an adder are built therein.
Further, the arithmetic units 31 to 33 have storage devices 41 to 4 respectively.
3 is connected. Basically, one arithmetic unit is assigned to one neuron, and a plurality of layers are realized by time-division sequential execution by software. The ring register to which the arithmetic unit is not connected can be replaced with a first-in-first-out (FIFO) memory.

【0004】このアーキテクチャの動作を、図面を参照
して説明する。図11は、行列とベクトルの積WXの演
算の際の動作を示すタイミング図、図12は、転置行列
とベクトルの積WT δの演算の際の動作を示すタイミン
グ図である。ただし、行列Wは4×3行列、ベクトル
X,ベクトルδは、それぞれ4要素,3要素のベクトル
としている。行列Wは、各演算装置31から33に接続
された記憶装置41〜43に、Wの各対角要素が先頭に
来るようにマッピングされている。
The operation of this architecture will be described with reference to the drawings. FIG. 11 is a timing chart showing the operation at the time of calculating the product WX of a matrix and a vector, and FIG. 12 is a timing chart showing the operation at the time of calculating the product W T δ of a transposed matrix and a vector. However, the matrix W is a 4 × 3 matrix, and the vector X and the vector δ are vectors of 4 elements and 3 elements, respectively. The matrix W is mapped in the storage devices 41 to 43 connected to the respective arithmetic devices 31 to 33 such that each diagonal element of W is at the head.

【0005】WXの計算時には、図11に示すように、
Xの各要素はリングレジスタ11〜14に置かれてリン
グレジスタバス1上を移動する。プロセッサi の内部の
レジスタをアキュムレータacci として用いる。時刻
1 には、PEi はXi をリングレジスタ11〜13か
ら、wi i を記憶装置41〜43から各々取り出して
掛け合わせ、積をアキュムレータacci に加える。こ
の直後に、入力データXi は反時計方向に1リングレジ
スタ分だけ回転する。次の時刻T2 には、PEi はX
i+1 をリングレジスタ11〜13から、wi i+1 を記
憶装置41〜43から各々取り出して掛け合わせ、積を
アキュムレータに加える。以下同様に進み、入力データ
i がリングレジスタバス1上を1周したT4 の後には
acci には積和Σwijj が得られる。一般に、m×
n行列の積和演算を行う場合、n個の演算装置を用いる
ことにより、Tm 後に積和が得られる。演算装置の数が
行数に満たない場合には、入力データXi をリングレジ
スタバス1上で2周以上回転させる。演算装置の数が行
数の1/kしかない場合には、k周回転させればよく、
したがって、Tk.m 後に積和が得られる。
When calculating WX, as shown in FIG.
Each element of X is placed in the ring registers 11 to 14 and moves on the ring register bus 1. A register inside the processor i is used as an accumulator acc i . At time T 1 , PE i fetches X i from ring registers 11 to 13 and w i and i from storage devices 41 to 43 and multiplies them, and adds the product to accumulator acc i . Immediately after this, the input data X i rotates counterclockwise by one ring register. At the next time T 2 , PE i becomes X.
i + 1 is taken out from the ring registers 11 to 13, w i and i + 1 are taken out from the storage devices 41 to 43, respectively, and multiplied, and the product is added to the accumulator. After that, in the same manner, after T 4 when the input data X i makes one round on the ring register bus 1, the product sum Σw ij X j is obtained in acc i . In general, mx
When performing the n-matrix product-sum operation, the product-sum is obtained after T m by using n arithmetic units. When the number of arithmetic units is less than the number of rows, the input data X i is rotated on the ring register bus 1 for two or more rounds. If the number of arithmetic units is only 1 / k of the number of rows, it is sufficient to rotate k rounds.
Therefore, sum-of-products is obtained after T k. M.

【0006】WT δの計算時には、リングレジスタ11
〜14の内部のレジスタをアキュムレータacc1 〜a
cc4 として用いる。図12に示すように、リングレジ
スタ11〜14に置き、リングレジスタバス1上を移動
させる。この場合も同様に、入力でδj がリングレジス
タバス1上を1周したT4 の後にはacci には積和Σ
IJδj が得られる。m×n行列の積和演算の場合、n
個の演算装置を用いることにより、Tm 後に積和が得ら
れること、演算装置の数が行数の1/kしかない場合に
は、k周回転したTkm後に積和が得られることは、WX
の計算時と同様である。このとき、WT の各要素がWX
の計算時と同じ位置に格納されていることがこのネット
ワーク装置の特徴である。
When calculating W T δ, the ring register 11
The internal registers of -14 accumulator acc 1 ~a
Used as cc 4 . As shown in FIG. 12, the ring registers 11 to 14 are placed and moved on the ring register bus 1. In this case as well, after T 4 when δ j makes one round on the ring register bus 1 at the input, the sum of products Σ is added to acc i.
w IJ δ j is obtained. In the case of multiply-add operation of m × n matrix, n
By using this number of arithmetic units, the sum of products can be obtained after T m , and if the number of arithmetic units is only 1 / k of the number of rows, the sum of products can be obtained after T km rotated k times. , WX
The same as when calculating At this time, each element of W T is WX
It is a feature of this network device that it is stored in the same position as when the calculation was performed.

【0007】次に、リングレジスタ型ニューラルネット
ワーク装置の第2の従来例について述べる。第2の従来
例と同様に、複数のリングレジスタと演算装置,記憶装
置を用いてネットワーク装置を構成し、かつ、各演算装
置に接続された記憶装置に、転置行列WT の各対角要素
が先頭に来るように行列Wをマッピングしても、行列と
ベクトルの積WX、転置行列とベクトルの積WT δの両
方の計算が可能であり、信学技報NM88−134で述
べられている。しかし、バックプロパゲーションに適用
した際の実際の計算時間が長くなる。バックプロパゲー
ションでは、1回の学習につき5サイクルの積和演算が
行われ、うち1サイクルは転置行列に対して行われる。
図10に示したマッピングでは、アキュムレータをリン
グレジスタに置く行列計算が1サイクルであるのに対
し、転置行列WT の各対角要素が先頭に来るマッピング
では、アキュムレータをリングレジスタに置く行列計算
が4サイクルとなる。アキュムレータをリングレジスタ
に置く演算は、アキュムレータを演算装置に置く演算と
比較し、1ステップあたり3倍程度の演算時間を要する
から、アキュムレータをリングレジスタに置く演算を少
なくするマッピングが有利である。
Next, a second conventional example of the ring register type neural network device will be described. Similar to the second conventional example, a network device is configured using a plurality of ring registers, an arithmetic unit, and a memory device, and each diagonal element of the transpose matrix W T is stored in the memory device connected to each arithmetic device. Even if the matrix W is mapped so that is at the top, both the matrix-vector product WX and the transposed matrix-vector product W T δ can be calculated, as described in IEICE Technical Report NM88-134. There is. However, the actual calculation time when applied to backpropagation becomes long. In backpropagation, 5 cycles of product-sum operation are performed for each learning, and 1 cycle is performed for the transposed matrix.
In the mapping shown in FIG. 10, the matrix calculation in which the accumulator is placed in the ring register is one cycle, whereas in the mapping in which each diagonal element of the transposed matrix W T is at the head, the matrix calculation in which the accumulator is placed in the ring register is performed. It becomes 4 cycles. The operation of placing the accumulator in the ring register requires about three times the operation time per step as compared with the operation of placing the accumulator in the arithmetic unit. Therefore, the mapping in which the number of the operations placing the accumulator in the ring register is small is advantageous.

【0008】入力データとして画像等を扱う場合、ネッ
トワークとしては、2次元の入力データを扱う2次元ニ
ューラルネットワークとなる。リングレジスタ型ニュー
ラルネットワーク装置を2次元ニューラルネットワーク
装置に適用する場合、入出力ベクトルおよび結合荷重を
1次元展開して用いる。
When images and the like are used as input data, the network is a two-dimensional neural network that handles two-dimensional input data. When the ring register type neural network device is applied to the two-dimensional neural network device, the input / output vector and the connection weight are one-dimensionally expanded and used.

【0009】[0009]

【発明が解決しようとする課題】画像等を取り扱うニュ
ーラルネットワークでは、層間の全ニューロンが結合さ
れた完全結合ではなく、近傍のニューロンのみが結合さ
れている局所結合でも十分な効果が得られることが知ら
れている。局所結合のネットワークを用いることによ
り、積和演算の演算量が大幅に削減される。
In a neural network that handles images and the like, it is possible to obtain a sufficient effect even with local connection in which only neighboring neurons are connected instead of complete connection in which all neurons between layers are connected. Are known. By using the locally connected network, the calculation amount of the product-sum calculation is significantly reduced.

【0010】しかしながら、従来のリングレジスタ型ニ
ューラルネットワーク装置では、積和演算の対象とする
ネットワークとして、完全結合のネットワークの代わり
に積和演算の演算量の少ない局所結合のネットワークを
用いても、演算時間がさほど短縮されないという欠点が
あった。
However, in the conventional ring register type neural network device, even if a locally connected network with a small amount of product-sum operation is used as the network for the product-sum operation, instead of the fully-connected network, the operation is performed. There was a drawback that the time was not shortened so much.

【0011】図5は、1次元データを入力データとする
局所結合ニューラルネットワークの模式図である。図5
は入力層5aと中間層6aとの結合状態を示しているも
のであり、入力層5aのニューロン数はN、中間層6a
のニューロン数はLである。中間層6aの各ニューロン
には、入力層5aのうちのn個のニューロンのみが結合
している。このn個の領域を局所領域と呼ぶ。隣接する
局所領域間のオーバーラップも局所結合の状態を示す重
要なパラメータであり、図5では、vと表している。
FIG. 5 is a schematic diagram of a locally connected neural network using one-dimensional data as input data. Figure 5
Indicates a connection state between the input layer 5a and the intermediate layer 6a, the number of neurons in the input layer 5a is N, and the intermediate layer 6a is
The number of neurons in is L. Only n neurons in the input layer 5a are connected to each neuron in the intermediate layer 6a. These n areas are called local areas. The overlap between adjacent local regions is also an important parameter indicating the state of local coupling, and is represented by v in FIG.

【0012】図7は、図5で示した1次元局所結合ニュ
ーラルネットの結合荷重行列Wの模式図であり、この行
列は疎行列となる。図8は、この行列の演算装置の記憶
装置へのマッピング状態を示すマッピング図である。こ
こで、Nは入力層5aのニューロン数、Lは中間層6a
のニューロン数、nは局所領域の大きさである。図7お
よび図8では、斜線部に結合荷重を示す有限値の行列要
素が存在し、他の部分は結合が存在しない、すなわち行
列要素の値が常に0であることを示している。リングレ
ジスタ型ニューラルネットワーク装置では、マッピング
された行列の各列ごとに積和演算が並列に行われる。演
算装置の数が行列Wの行数に等しい場合、積和演算に必
要な最小のステップ数は、0でない行列要素の総数と行
数との商となる。しかるに、図8に示すマッピングで
は、値が常に0である行列要素と有限の値をもつ行列要
素とが混在している列が存在するため、積和演算に必要
なステップ数が、0でない行列要素の総数と行数との商
を大幅に上回るという欠点があった。また、記憶装置に
マッピングされる結合荷重行列の要素の数が実際の結合
の数を大幅に上回るため、記憶装置に膨大な記憶容量が
必要とされるという欠点があった。
FIG. 7 is a schematic diagram of the connection weight matrix W of the one-dimensional locally connected neural network shown in FIG. 5, and this matrix is a sparse matrix. FIG. 8 is a mapping diagram showing a mapping state of this matrix to the storage device of the arithmetic unit. Here, N is the number of neurons in the input layer 5a, and L is the intermediate layer 6a.
, N is the size of the local region. In FIG. 7 and FIG. 8, there are finite-valued matrix elements indicating the coupling load in the shaded area, and in other parts, there is no coupling, that is, the matrix element value is always 0. In the ring register type neural network device, the product-sum operation is performed in parallel for each column of the mapped matrix. When the number of arithmetic units is equal to the number of rows of the matrix W, the minimum number of steps required for the product-sum operation is the quotient of the total number of nonzero matrix elements and the number of rows. However, in the mapping shown in FIG. 8, there is a column in which matrix elements each having a value of 0 and matrix elements each having a finite value coexist, so that a matrix in which the number of steps required for the product-sum operation is not 0 is used. It had the drawback that it would greatly exceed the quotient of the total number of elements and the number of lines. Further, since the number of elements of the connection weight matrix mapped to the storage device greatly exceeds the number of actual connections, there is a disadvantage that the storage device requires a huge storage capacity.

【0013】図6は、2次元データを入力データとした
場合のニューラルネットワークの模式図である。図6で
は、入力層5bのニューロン数M×N、中間層6bのニ
ューロン数K×L、局所領域のニューロン数m×nであ
る。オーバーラップは、X軸方向でu、y軸方向でvで
ある。
FIG. 6 is a schematic diagram of a neural network when two-dimensional data is used as input data. In FIG. 6, the number of neurons in the input layer 5b is M × N, the number of neurons in the intermediate layer 6b is K × L, and the number of neurons in the local region is m × n. The overlap is u in the X-axis direction and v in the y-axis direction.

【0014】リングレジスタを図6のような2次元ニュ
ーラルネットに適用する場合、入出力ベクトル、結合荷
重を1次元展開して用いる。図9は、1次元展開された
2次元局所結合の結合荷重行列Wの模式図である。この
行列は、図9に示すように1次元局所結合ニューラルネ
ットの行列Wと類似している。すなわち、図6のX軸方
向の結合を示すN×L行列を行列要素とし、y軸方向の
結合を示すM×K行列状に配した疎行列となる。2次元
の場合、1次元局所結合ニューラルネットの場合以上に
値0の行列要素が分散しているため、積和演算に必要な
ステップ数が、0でない行列要素の総数と行数との商を
上回る度合がさらに著しい。
When the ring register is applied to the two-dimensional neural network as shown in FIG. 6, the input / output vector and the connection weight are expanded one-dimensionally and used. FIG. 9 is a schematic diagram of the one-dimensionally expanded two-dimensional locally combined connection weight matrix W. This matrix is similar to the matrix W of the one-dimensional locally connected neural network as shown in FIG. That is, the matrix is an sparse matrix in which the N × L matrix indicating the coupling in the X-axis direction in FIG. In the case of two dimensions, since the matrix elements with the value 0 are distributed more than in the case of the one-dimensional locally connected neural network, the number of steps required for the product-sum calculation is the quotient of the total number of matrix elements and the number of rows The degree to exceed is even more remarkable.

【0015】さらに、リングレジスタ型ニューラルネッ
トワーク装置では、通常、入力データはリングレジスタ
バスの一端から、リングレジスタバス上を1ステップず
つ回転させながら供給される。このため、入力データの
設定に多大な時間を要するという欠点があった。
Further, in the ring register type neural network device, the input data is normally supplied from one end of the ring register bus while rotating on the ring register bus step by step. Therefore, there is a drawback that it takes a lot of time to set the input data.

【0016】本発明の目的は、局所結合ニューラルネッ
トワークのバックプロパゲーション演算を極めて高速
で、かつ、少ない記憶装置の記憶容量で実行可能なニュ
ーラルネットワーク装置を提供することにある。
It is an object of the present invention to provide a neural network device capable of performing backpropagation operation of a locally connected neural network at extremely high speed and with a small memory capacity.

【0017】[0017]

【課題を解決するための手段】上記目的を達成するた
め、転送機能を持つ複数のリングレジスタを環状に接続
して構成したリングレジスタバスと、前記リングレジス
タのうちの一部のリングレジスタに少なくとも1基ずつ
接続された複数の演算装置と、前記演算装置の各々に接
続された複数の記憶装置を含んで構成されるニューラル
ネットワーク装置において、前記リングレジスタバス
が、前記演算装置に接続された前記リングレジスタと、
前記演算装置に接続された前記リングレジスタ間に挿入
された遅延素子とを含んでニューラルネットワーク装置
を構成する。
In order to achieve the above object, at least a ring register bus constituted by connecting a plurality of ring registers having a transfer function in a ring shape and at least some of the ring registers. In a neural network device including a plurality of arithmetic devices connected to each one and a plurality of storage devices connected to each of the arithmetic devices, the ring register bus is connected to the arithmetic device. A ring register,
A neural network device is configured including a delay element inserted between the ring registers connected to the arithmetic unit.

【0018】上記目的を達成するため、演算対象たるネ
ットワークが1次元局所結合であり、任意の第1の層の
ニューロン数がN、前記第1の次段の第2の層のニュー
ロン数がL、前記第2の層の1つのニューロンに接続さ
れた前記第1の層の局所領域のニューロン数がN、隣接
する前記局所領域間で重なり合うニューロン数がuであ
るとき、前記遅延素子の遅延量を、局所領域の大きさn
と隣合う局所領域間のオーバーラップvの差から1を減
じた値と、前記リングレジスタバス上に配されたデータ
が前記リングレジスタバス上を1ステップ回転するのに
要する時間Tとの積、 (n−v−1)T に設定してニューラルネットワーク装置を構成する。
To achieve the above object, the network to be operated is a one-dimensional local connection, the number of neurons in an arbitrary first layer is N, and the number of neurons in the second layer of the first next stage is L. When the number of neurons in the local region of the first layer connected to one neuron of the second layer is N and the number of neurons overlapping between adjacent local regions is u, the delay amount of the delay element Is the size of the local region n
And a value obtained by subtracting 1 from the difference in the overlap v between the adjacent local areas and the time T required for the data arranged on the ring register bus to rotate one step on the ring register bus, (Nv-1) T to set the neural network device.

【0019】上記目的を達成するため、演算対象たるネ
ットワークが2次元局所結合であり、任意の第1の層の
x軸方向のニューロン数がN、y軸方向のニューロン数
がM、前記第1の層の次段の第2の層のx軸方向のニュ
ーロン数がL、y軸方向のニューロン数がK、前記第2
の層の1つのニューロンに接続された前記第1の層の局
所領域のx軸方向のニューロン数がn、y軸方向のニュ
ーロン数がm、隣接する前記局所領域間で重なり合うx
軸方向のニューロン数がv、y軸方向のニューロン数が
uであるとき、演算装置が接続されたリングレジスタを
L個ずつ、(L−1)個の第1の遅延素子と交互に接続
してK個のリングレジスタ群を構成し、このリングレジ
スタ群間に第2の遅延素子を挿入し、前記第1の遅延素
子の遅延量を、局所領域のx軸方向の大きさnと隣合う
局所領域間のx軸方向のオーバーラップvの差から1を
減じた値と、前記リングレジスタバス上に配されたデー
タが前記リングレジスタバス上を1ステップ回転するの
に要する時間Tとの積、 (n−v−1)T に設定し、前記第2の遅延素子の遅延量を、局所領域の
y軸方向の大きさmと隣合う局所領域間のy軸方向のオ
ーバーラップuの差から1を減じた値をN倍した値と前
記リングレジスタバス上に配されたデータが前記リング
レジスタバス上を1ステップ回転するのに要する時間T
の積と、前記第1の遅延素子群における遅延量との和、 {N(m−u−1)+(n−v−1)}T に設定してニューラルネットワーク装置を構成する。
To achieve the above object, the network to be operated is a two-dimensional local connection, the number of neurons in the x-axis direction is N, the number of neurons in the y-axis direction is M, and the first layer is arbitrary in the first layer. The number of neurons in the x-axis direction of the second layer next to the layer of L is L, the number of neurons in the y-axis direction is K, and the second layer
The number of neurons in the x-axis direction in the local region of the first layer connected to one neuron in the layer of n is n, the number of neurons in the y-axis direction is m, and x overlaps between adjacent local regions.
When the number of neurons in the axial direction is v and the number of neurons in the y-axis direction is u, L ring registers to which the arithmetic unit is connected are alternately connected to (L-1) first delay elements. Form K ring register groups, insert a second delay element between the ring register groups, and make the delay amount of the first delay element adjacent to the size n of the local region in the x-axis direction. The product of a value obtained by subtracting 1 from the difference in the overlap v in the x-axis direction between the local regions and the time T required for the data arranged on the ring register bus to rotate one step on the ring register bus. , (N−v−1) T, and the delay amount of the second delay element is the difference between the size m of the local region in the y-axis direction and the overlap u in the y-axis direction between adjacent local regions. The value obtained by subtracting 1 from N and the value multiplied by N are distributed on the ring register bus. Time T data is required for one step rotation of said ring register on the bus
And the delay amount in the first delay element group, {N (m−u−1) + (n−v−1)} T, to construct a neural network device.

【0020】上記目的を達成するため、転送機能を持つ
複数のリングレジスタを環状に接続して構成したリング
レジスタバスと、前記リングレジスタのうちの一部のリ
ングレジスタに少なくとも1基ずつ接続された複数の演
算装置と、前記演算装置の各々に接続された複数の記憶
装置を含んで構成されるニューラルネットワーク装置に
おいて、前記リングレジスタバスを複数個配してニュー
ラルネットワーク装置を構成する。
To achieve the above object, at least one ring register bus is constructed by connecting a plurality of ring registers having a transfer function in a ring shape, and at least one ring register bus is connected to each of the ring registers. In a neural network device including a plurality of arithmetic units and a plurality of storage devices connected to each of the arithmetic units, a plurality of the ring register buses are arranged to form a neural network unit.

【0021】上記目的を達成するため、リングレジスタ
に保持されているデータが、リングレジスタバス上の任
意の回転位置において、前記リングレジスタバスごとに
一括して、他の少なくとも1つのリングレジスタバスの
各々のリングレジスタに転送可能とする。
In order to achieve the above-mentioned object, the data held in the ring register is collectively stored in each ring register bus at any rotation position on the ring register bus and stored in at least one other ring register bus. It is possible to transfer to each ring register.

【0022】[0022]

【作用】遅延素子をリングレジスタバス中に挿入するこ
とにより、値0の行列要素を特定の列に集約するマッピ
ングが可能となる。このため、演算に必要な回数が短縮
される。また、結合荷重を記憶する記憶装置の容量も節
約できる。
By inserting the delay element into the ring register bus, it becomes possible to perform mapping in which the matrix elements having the value 0 are aggregated in a specific column. Therefore, the number of times required for calculation is shortened. In addition, the capacity of the storage device that stores the coupling load can be saved.

【0023】あるリングレジスタバスを用いて積和演算
を行っている間に、他のリングレジスタバスを用いて入
力データの設定ができる。このため、入力データの設定
に必要な時間を無視することができる。
While performing a sum of products operation using one ring register bus, input data can be set using another ring register bus. Therefore, the time required to set the input data can be ignored.

【0024】[0024]

【実施例】本発明の実施例について、図面を参照して説
明する。図1は本発明の第1の実施例の構成を示すブロ
ック図である。本実施例では、入力層のニューロン数
7、中間層のニューロン数3、局所領域の大きさ3の局
所結合ネットワークの積和演算を対象としている。
Embodiments of the present invention will be described with reference to the drawings. FIG. 1 is a block diagram showing the configuration of the first embodiment of the present invention. In the present embodiment, the product-sum calculation of a locally connected network having 7 neurons in the input layer, 3 neurons in the intermediate layer, and 3 local regions is targeted.

【0025】リングレジスタバス1、リングレジスタバ
ス2は、それぞれ、演算装置11〜13および可変遅延
装置ファースト・イン・ファースト・アウト・メモリ
(FIFO)51,52、演算装置21〜23および可
変遅延装置ファースト・イン・ファースト・アウト・メ
モリ61,62が交互に配されており、入力データの供
給兼用の可変遅延装置ファースト・イン・ファースト・
アウト・メモリ50とで2重のリングレジスタバスを構
成している。可変遅延装置ファースト・イン・ファース
ト・アウト・メモリ51,52,61,62における遅
延は、局所領域の大きさnと隣合う局所領域間のオーバ
ーラップuの差から1を減じた値(n−u−1)、すな
わち1と、リングレジスタバス1,2上に配されたデー
タが前記リングレジスタバス上を1ステップ回転するの
に要する時間Tとの積1Tに設定しておく。リングレジ
スタバス1上のリングレジスタ11〜13には、演算装
置31〜33がそれぞれ接続されており、演算装置31
〜33には結合荷重Wijを記憶させておく記憶装置41
〜43が接続されている。リングレジスタバス2上を回
転するデータは、任意の回転位置でリングレジスタバス
1上に、一括して転送可能である。
The ring register bus 1 and the ring register bus 2 are provided with arithmetic units 11 to 13 and variable delay units first-in-first-out memory (FIFO) 51 and 52, arithmetic units 21 to 23 and variable delay unit, respectively. First-in first-out memories 61 and 62 are alternately arranged, and a variable delay device first-in-first
A double ring register bus is constructed with the out memory 50. The delay in the variable delay device first-in-first-out memory 51, 52, 61, 62 is a value obtained by subtracting 1 from the difference between the size n of the local area and the overlap u between adjacent local areas (n- u-1), that is, the product of 1 and the time T required for the data arranged on the ring register buses 1 and 2 to rotate one step on the ring register buses 1T. The arithmetic units 31 to 33 are connected to the ring registers 11 to 13 on the ring register bus 1, respectively.
The ~ 33 stores the connection weights W ij to keep the storage device 41
~ 43 are connected. Data rotating on the ring register bus 2 can be collectively transferred onto the ring register bus 1 at an arbitrary rotation position.

【0026】図3および図4を用いて次の演算を行う場
合の動作を示す。
The operation for performing the following calculation will be described with reference to FIGS. 3 and 4.

【0027】[0027]

【数1】 [Equation 1]

【0028】図3は、行列とベクトルの積WXの演算の
際の動作を示すタイミング図、図4は、転置行列とベク
トルの積WT δの演算の際の動作を示すタイミング図で
ある。
FIG. 3 is a timing chart showing the operation in the calculation of the product WX of the matrix and vector, and FIG. 4 is a timing chart showing the operation in the calculation of the product W T δ of the transposed matrix and vector.

【0029】WXの計算時には、図3に示すように、X
の各要素はリングレジスタバス1上を移動する。演算装
置11〜13の内部のレジスタをアキュムレータacc
1 からacc3 として用いる。時刻T1 には、演算装置
31はx1 をリングレジスタ11から、w11を記憶装置
41から各々取り出して掛け合わせ、積をアキュムレー
タacc1 に加える。同様に、演算装置32はx3 をリ
ングレジスタ12から、w23を記憶装置42から各々取
り出して掛け合わせ、積をアキュムレータacc2 に加
え、演算装置33はx5 をリングレジスタ13から、w
35を記憶装置43から各々取り出して掛け合わせ、積を
アキュムレータacc3 に加える。この直後に、リング
は反時計方向に1リングレジスタ分だけ回転する。次の
時刻T2 には演算装置31はx2 をリングレジスタ11
から、w12を記憶装置41から各々取り出して掛け合わ
せ、積をアキュムレータacc1 に加える。以下同様に
進み、T3 の後にはacci には積和Σwijj が得ら
れる。
When calculating WX, as shown in FIG.
Each element of the above moves on the ring register bus 1. Registers in the arithmetic units 11 to 13 are used as accumulators acc.
Used from 1 to acc 3 . At time T 1 , the arithmetic unit 31 fetches x 1 from the ring register 11 and w 11 from the storage unit 41 and multiplies them, and adds the product to the accumulator acc 1 . Similarly, the arithmetic unit 32 takes x 3 from the ring register 12 and w 23 from the storage unit 42 and multiplies them, adds the product to the accumulator acc 2 , and the arithmetic unit 33 puts x 5 from the ring register 13 into w.
Each 35 is taken out from the storage device 43 and multiplied, and the product is added to the accumulator acc 3 . Immediately after this, the ring rotates counterclockwise by one ring register. At the next time T 2 , the arithmetic unit 31 sets x 2 to the ring register 11
, W 12 are taken out from the storage device 41 and multiplied, and the product is added to the accumulator acc 1 . Similarly, the product sum Σw ij x j is obtained for acc i after T 3 .

【0030】WT δの計算時には、リングレジスタ11
〜14および可変遅延ファースト・イン・ファースト・
アウト・メモリ51〜54の内部のレジスタをアキュム
レータacc1 〜acc7 として用いる。図4に示すよ
うに、アキュムレータacc1 〜acc4 を、リングレ
ジスタバス1上で移動させる。この場合も同様に、T3
の後にはacci には積和Σwijδj が得られる。
When calculating W T δ, the ring register 11
~ 14 and variable delay first in first
Registers inside the out memories 51 to 54 are used as accumulators acc 1 to acc 7 . As shown in FIG. 4, the accumulators acc 1 to acc 4 are moved on the ring register bus 1. In this case as well, T 3
After, the sum of products Σ w ij δ j is obtained in acc i .

【0031】リングレジスタバス1を用いて積和演算を
行っている間に、入力データをリングレジスタバス2上
で回転することによって、入力データをファースト・イ
ン・ファースト・アウト・メモリ50からリングレジス
タバス2上にセットする。積和演算が完了し、次の積和
演算に移行する場合には、リングレジスタバス2上の入
力データをリングレジスタバス1上に一括して転送す
る。
By rotating the input data on the ring register bus 2 while performing the multiply-accumulate operation using the ring register bus 1, the input data is transferred from the first-in-first-out memory 50 to the ring register. Set on bus 2. When the product-sum calculation is completed and the next product-sum calculation is to be performed, the input data on the ring register bus 2 is transferred to the ring register bus 1 all at once.

【0032】次に、第2の実施例を示す。図2は、本発
明の第2の構成を示すブロック図である。2次元局所結
合の場合には、図6におけるx軸方向の結合に対応した
リングレジスタバス(ただし、環状接続はしない)を構
成し、これをy軸方向の入力信号ベクトルの次元数Mだ
け縦続接続している。
Next, a second embodiment will be shown. FIG. 2 is a block diagram showing the second configuration of the present invention. In the case of two-dimensional local coupling, a ring register bus (but not circular connection) corresponding to the coupling in the x-axis direction in FIG. 6 is configured, and this is cascaded by the dimension number M of the input signal vector in the y-axis direction. Connected.

【0033】ファースト・イン・ファースト・アウト・
メモリの遅延は、第1のファースト・イン・ファースト
・アウト・メモリ511,512,…,5M(R−
1)、611,612,…,6M(R−1)において
は、局所領域のx軸方向の大きさnと隣合う局所領域間
のx軸方向のオーバーラップvの差から1を減じた値
と、リングレジスタバス1上に配されたデータがリング
レジスタバス1上を1ステップ回転するのに要する時間
Tとの積、 (n−v−1)T に設定している。また、第2のファースト・イン・ファ
ースト・アウト・メモリ51,52,…,5(M−
1)、61,62,…,6(M−1)においては、局所
領域のy軸方向の大きさmと隣合う局所領域間のy軸方
向のオーバーラップuの差から1を減じた値をN倍した
値と、リングレジスタバス1上に配されたデータがリン
グレジスタバス1上を1ステップ回転するのに要する時
間Tの積と、第1のファースト・イン・ファースト・ア
ウト・メモリ511,512,…,5M(R−1)、6
11,612,…,6M(R−1)における遅延量との
和、 {N(m−u−1)+(n−v−1)}T に設定している。
First In First Out
The memory delay is the first first-in-first-out memory 511, 512, ..., 5M (R-
1), 611, 612, ..., 6M (R-1), a value obtained by subtracting 1 from the difference between the size n of the local region in the x-axis direction and the overlap v in the x-axis direction between adjacent local regions. And the time T required for the data arranged on the ring register bus 1 to rotate one step on the ring register bus 1 are set to (n−v−1) T. Further, the second first-in-first-out memories 51, 52, ..., 5 (M-
1), 61, 62, ..., 6 (M−1), a value obtained by subtracting 1 from the difference between the size m of the local region in the y-axis direction and the overlap u of the adjacent local regions in the y-axis direction. Is multiplied by N and the time T required for the data arranged on the ring register bus 1 to rotate on the ring register bus 1 by one step, and the first first-in-first-out memory 511. , 512, ..., 5M (R-1), 6
The sum of the delay amounts of 11, 612, ..., 6M (R-1), {N (mu-1) + (nv-1)} T, is set.

【0034】第2の実施例を、9×11画素の英数字認
識に適用した。このニューラルネットでは、入力層,中
間層はともに2次元であり、ニューロン数はそれぞれ、
9×11,3×4である。入力層と中間層は局所結合さ
れており、局所領域の大きさは5×5である。中間層と
出力層は完全結合されており、出力層のニューロン数は
5である。演算装置として、TI社の32ビット浮動小
数点演算用DSP:TMS320C30を用いている。
このDSPには、加算器と乗算器が各1台搭載されてお
り、積和演算が1マシンサイクルで実行可能である。ま
た、内部RAMの容量は、1kW×2である。マシンサ
イクル,クロックサイクルは、それぞれ、60ns,3
0nsである。同一のDSPを用いて構成した従来のリ
ングレジスタ型ニューラルネットワーク装置では、学習
速度が15.4MCUPSであるのに対し、第2の実施
例を用いた場合には28.9MCUPSとなり、学習速
度が約1.9倍に高められている。
The second example was applied to the alphanumeric recognition of 9 × 11 pixels. In this neural network, both the input layer and the intermediate layer are two-dimensional, and the number of neurons is
9 × 11 and 3 × 4. The input layer and the intermediate layer are locally coupled, and the size of the local region is 5 × 5. The middle layer and the output layer are completely connected, and the number of neurons in the output layer is 5. A 32-bit floating point arithmetic DSP: TMS320C30 manufactured by TI Co. is used as an arithmetic unit.
This DSP is equipped with one adder and one multiplier, and the product-sum operation can be executed in one machine cycle. The capacity of the internal RAM is 1 kW × 2. Machine cycle and clock cycle are 60ns and 3 respectively.
It is 0 ns. In the conventional ring register type neural network device configured by using the same DSP, the learning speed is 15.4 MCUPS, whereas when the second embodiment is used, it becomes 28.9 MCUPS, and the learning speed is about 1.9 times higher.

【0035】本発明のニューラルネットワーク装置で
は、局所領域間のオーバーラップが少なく、中間層ニュ
ーロン数の多い2次元ネットで特に有効であり、10倍
以上の高速化と記憶装置容量の削減も可能である。した
がって、本発明は、通常の3層構造のニューラルネット
ワークのみならず、バイオロジカル・サイバネティック
ス(Biological Cybernetics)
第36巻(1980年)193頁〜202頁で述べられ
ている、ネオコグニトロンの様な多段ネットにおいて局
所領域間のオーバーラップが少ない場合に特に有効とな
る。
The neural network device of the present invention is particularly effective for a two-dimensional net having a large number of hidden neurons, with a small overlap between local regions, and it is possible to increase the speed by 10 times or more and reduce the storage device capacity. is there. Therefore, the present invention is applicable not only to a normal three-layered neural network, but also to Biological Cybernetics.
It is particularly effective when there is little overlap between local regions in a multistage net such as neocognitron described in Vol. 36 (1980), pages 193 to 202.

【0036】[0036]

【発明の効果】以上述べてきたように、本発明によれ
ば、局所結合ニューラルネットワークのバックプロパゲ
ーション演算を極めて高速で、かつ、少ない記憶装置の
記憶容量で実行可能なニューラルネットワーク装置を提
供することが可能となり、極めて有効である。
As described above, according to the present invention, there is provided a neural network apparatus capable of performing backpropagation operation of a locally connected neural network at an extremely high speed and with a small memory capacity. It is possible and extremely effective.

【図面の簡単な説明】[Brief description of drawings]

【図1】第1の実施例の構成を示すブロック図である。FIG. 1 is a block diagram showing a configuration of a first embodiment.

【図2】第2の実施例の構成を示すブロック図である。FIG. 2 is a block diagram showing a configuration of a second exemplary embodiment.

【図3】第1の実施例において、行列とベクトルの積W
Xの演算の際の動作を示すタイミング図である。
FIG. 3 shows the product W of a matrix and a vector in the first embodiment.
FIG. 6 is a timing chart showing an operation when X is calculated.

【図4】第1の実施例において、転置行列とベクトルの
積WT δの演算の際の動作を示すタイミング図である。
FIG. 4 is a timing chart showing an operation in calculating a product W T δ of a transposed matrix and a vector in the first embodiment.

【図5】1次元局所結合ネットワークの模式図である。FIG. 5 is a schematic diagram of a one-dimensional locally connected network.

【図6】2次元局所結合ネットワークの模式図である。FIG. 6 is a schematic diagram of a two-dimensional locally connected network.

【図7】1次元局所結合ニューラルネットワークの結合
荷重行列Wの模式図である。
FIG. 7 is a schematic diagram of a connection weight matrix W of a one-dimensional locally connected neural network.

【図8】1次元局所結合ニューラルネットワークの結合
荷重行列Wの、記憶装置へのマッピング状態を示す、マ
ッピング図である。
FIG. 8 is a mapping diagram showing a mapping state of a connection weight matrix W of a one-dimensional locally connected neural network onto a storage device.

【図9】1次元展開された2次元局所結合ニューラルネ
ットワークの結合荷重行列Wの模式図である。
FIG. 9 is a schematic diagram of a connection weight matrix W of a one-dimensional expanded two-dimensional locally connected neural network.

【図10】従来例の構成を示すブロック図である。FIG. 10 is a block diagram showing a configuration of a conventional example.

【図11】従来例において、行列とベクトルの積WXの
演算の際の動作を示すタイミング図である。
FIG. 11 is a timing chart showing an operation when a product WX of a matrix and a vector is calculated in a conventional example.

【図12】従来例において、転置行列とベクトルの積W
T δの演算の際の動作を示すタイミング図である。
FIG. 12 is a product W of a transposed matrix and a vector in the conventional example.
FIG. 6 is a timing chart showing an operation when calculating T δ.

【符号の説明】[Explanation of symbols]

1,2 リングレジスタバス 5a,5b 入力層 6a,6b 中間層 11〜15,111〜111MR,21〜23,211
〜2MR リングレジスタ 31〜33,311〜3MR 演算装置 41〜43,411〜4MR 記憶装置 50,51〜5(M−1),61〜6(M−1),51
1〜5M(R−1),611〜6M(R−1) 可変遅
延ファースト・イン・ファースト・アウト・メモリ
1, 2 Ring register bus 5a, 5b Input layer 6a, 6b Intermediate layer 11-15, 111-111MR, 21-23, 211
-2MR ring register 31-33, 311-3MR arithmetic device 41-43, 411-4MR storage device 50, 51-5 (M-1), 61-6 (M-1), 51
1-5M (R-1), 611-6M (R-1) variable delay first-in-first-out memory

Claims (5)

【特許請求の範囲】[Claims] 【請求項1】転送機能を持つ複数のリングレジスタを環
状に接続して構成したリングレジスタパスと、前記リン
グレジスタのうちの一部のリングレジスタに少なくとも
1基ずつ接続された複数の演算装置と、前記演算装置の
各々に接続された複数の記憶装置とを備えるニューラル
ネットワーク装置において、 前記リングレジスタパスが、前記演算装置に接続された
前記リングレジスタと、前記演算装置に接続された前記
リングレジスタ間に挿入された遅延素子とを有すること
を特徴とするニューラルネットワーク装置。
1. A ring register path configured by connecting a plurality of ring registers having a transfer function in a ring shape, and a plurality of arithmetic units connected to at least one of the ring registers. A neural network device including a plurality of storage devices connected to each of the arithmetic devices, wherein the ring register path includes the ring register connected to the arithmetic device, and the ring register connected to the arithmetic device. A neural network device having a delay element inserted between them.
【請求項2】請求項1記載のニューラルネットワーク装
置において、 演算対象たるネットワークが1次元局所結合であり、任
意の第1の層のニューロン数がN、前記第1の層の次段
の第2の層のニューロン数がL、前記第2の層の1つの
ニューロンに接続された前記第1の層の局所領域のニュ
ーロン数がn、隣接する前記局所領域間で重なり合うニ
ューロン数がuであるとき、 前記遅延素子の遅延量が、局所領域の大きさnと隣合う
局所領域間のオーバーラップvの差から1を減じた値
と、前記リングレジスタパス上に配されたデータが前記
リングレジスタパス上を1ステップ回転するのに要する
時間Tとの積、 (n−v−1)T であることを特徴とするニューラルネットワーク装置。
2. The neural network device according to claim 1, wherein the network to be operated is one-dimensional local connection, the number of neurons in an arbitrary first layer is N, and the number of neurons in the second stage next to the first layer is N. The number of neurons in the layer is L, the number of neurons in the local region of the first layer connected to one neuron in the second layer is n, and the number of neurons overlapping between adjacent local regions is u. , The delay amount of the delay element is a value obtained by subtracting 1 from the difference between the size n of the local area and the overlap v between the adjacent local areas, and the data arranged on the ring register path is A product of (n−v−1) T and a time T required to rotate the upper part by one step, which is (n−v−1) T.
【請求項3】請求項1記載のニューラルネットワーク装
置において、 演算対象たるネットワークが2次元局所結合であり、任
意の第1の層のx軸方向のニューロン数がN、y軸方向
のニューロン数がM、前記第1の層の次段の第2の層の
x軸方向のニューロン数がL、y軸方向のニューロン数
がK、前記第2の層の1つのニューロンに接続された前
記第1の層の局所領域のx軸方向のニューロン数がn、
y軸方向のニューロン数がm、隣接する前記局所領域間
で重なり合うx軸方向のニューロン数がv、y軸方向の
ニューロン数がuであるとき、 前記演算装置が接続された前記リングレジスタをL個ず
つ、(L−1)個の第1の遅延素子と交互に接続してK
個のリングレジスタ群が構成され、このリングレジスタ
群間に第2の遅延素子が挿入されており、 前記第1の遅延素子の遅延量が、局所領域のx軸方向の
大きさnと隣合う局所領域間のx軸方向のオーバーラッ
プvの差から1を減じた値と、前記リングレジスタバス
上に配されたデータが前記リングレジスタバス上を1ス
テップ回転するのに要する時間Tとの積、 (n−v−1)T であり、 前記第2の遅延素子の遅延量が、局所領域のy軸方向の
大きさmと隣合う局所領域間のy軸方向のオーバーラッ
プuの差から1を減じた値をN倍した値と前記リングレ
ジスタバス上に配されたデータが前記リングレジスタバ
ス上を1ステップ回転するのに要する時間Tの積と、前
記第1の遅延素子群における遅延量との和、 {N(m−u−1)+(n−v−1)}T であることを特徴とするニューラルネットワーク装置。
3. The neural network device according to claim 1, wherein the network to be operated is a two-dimensional local connection, and the number of neurons in the x-axis direction of an arbitrary first layer is N and the number of neurons in the y-axis direction is M, the number of neurons in the x-axis direction of the second layer next to the first layer is L, the number of neurons in the y-axis direction is K, and the first neuron connected to one neuron of the second layer The number of neurons in the x-axis direction in the local region of the layer is n,
When the number of neurons in the y-axis direction is m, the number of neurons in the x-axis direction overlapping between the adjacent local regions is v, and the number of neurons in the y-axis direction is u, the ring register connected to the arithmetic unit is set to L. Each of them is alternately connected to the (L-1) first delay elements and K
Each ring register group is configured, and the second delay element is inserted between the ring register groups, and the delay amount of the first delay element is adjacent to the size n of the local region in the x-axis direction. The product of a value obtained by subtracting 1 from the difference in the overlap v in the x-axis direction between the local regions and the time T required for the data arranged on the ring register bus to rotate one step on the ring register bus. , (N−v−1) T, and the delay amount of the second delay element is calculated from the difference between the size m of the local region in the y-axis direction and the overlap u in the y-axis direction between adjacent local regions. A value obtained by multiplying the value obtained by subtracting 1 by N and the time T required for the data arranged on the ring register bus to rotate one step on the ring register bus, and the delay in the first delay element group. Sum with quantity, {N (mu-1) + ( -v-1)} neural network system, characterized in that the T.
【請求項4】転送機能を持つ複数のリングレジスタを環
状に接続して構成したリングレジスタバスと、前記リン
グレジスタのうちの一部のリングレジスタに少なくとも
1基ずつ接続された複数の演算装置と、前記演算装置の
各々に接続された複数の記憶装置を含んで構成されるニ
ューラルネットワーク装置において、 前記リングレジスタバスが複数個であることを特徴とす
るニューラルネットワーク装置。
4. A ring register bus configured by connecting a plurality of ring registers having a transfer function in a ring shape, and a plurality of arithmetic units connected to at least one of the ring registers. A neural network device including a plurality of storage devices connected to each of the arithmetic units, wherein the neural network device has a plurality of ring register buses.
【請求項5】請求項4記載のニューラルネットワーク装
置において、 前記リングレジスタに保持されているデータが、前記リ
ングレジスタバス上の任意の回転位置において、前記リ
ングレジスタバスごとに一括して、他の少なくとも1つ
のリングレジスタバスの各々のリングレジスタに転送可
能であることを特徴とするニューラルネットワーク装
置。
5. The neural network device according to claim 4, wherein the data held in the ring register is collectively stored for each ring register bus at any rotation position on the ring register bus. A neural network device capable of transferring to each ring register of at least one ring register bus.
JP3261907A 1991-10-09 1991-10-09 Neural network device Pending JPH05101031A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3261907A JPH05101031A (en) 1991-10-09 1991-10-09 Neural network device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3261907A JPH05101031A (en) 1991-10-09 1991-10-09 Neural network device

Publications (1)

Publication Number Publication Date
JPH05101031A true JPH05101031A (en) 1993-04-23

Family

ID=17368405

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3261907A Pending JPH05101031A (en) 1991-10-09 1991-10-09 Neural network device

Country Status (1)

Country Link
JP (1) JPH05101031A (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016526854A (en) * 2013-07-12 2016-09-05 クゥアルコム・インコーポレイテッドQualcomm Incorporated Parallel processing of horizontal and vertical conversion
CN107710238A (en) * 2015-06-29 2018-02-16 微软技术许可有限责任公司 Deep neural network processing on hardware accelerator with stacked memory
JP2022514680A (en) * 2018-12-21 2022-02-14 ウェイモ エルエルシー Neural network processor

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016526854A (en) * 2013-07-12 2016-09-05 クゥアルコム・インコーポレイテッドQualcomm Incorporated Parallel processing of horizontal and vertical conversion
CN107710238A (en) * 2015-06-29 2018-02-16 微软技术许可有限责任公司 Deep neural network processing on hardware accelerator with stacked memory
JP2022514680A (en) * 2018-12-21 2022-02-14 ウェイモ エルエルシー Neural network processor

Similar Documents

Publication Publication Date Title
EP0421639B1 (en) Parallel data processing system
US20220292049A1 (en) Neural processing accelerator
US5274832A (en) Systolic array for multidimensional matrix computations
JP7315317B2 (en) Processors and how they transfer data
US5617512A (en) Triangular scalable neural array processor
CN111291323B (en) Matrix multiplication processor based on systolic array and data processing method thereof
EP0186958B1 (en) Digital data processor for matrix-vector multiplication
US5226171A (en) Parallel vector processing system for individual and broadcast distribution of operands and control information
US4996661A (en) Single chip complex floating point numeric processor
EP0504932A2 (en) A parallel data processing system
US5081573A (en) Parallel processing system
US5812993A (en) Digital hardware architecture for realizing neural network
JPH03131965A (en) Two-dimensional contraction array and method for neural network
JP3136088B2 (en) Data processing device and data processing method
JPH07117948B2 (en) Computer equipment
JPH06502265A (en) Calculation circuit device for matrix operations in signal processing
Strader et al. A canonical bit-sequential multiplier
JPH05101031A (en) Neural network device
JPH05346914A (en) Neuro processor
JPH0816903B2 (en) Multiply-accumulate operation circuit
JP7548710B2 (en) Neural network processing device and neural network processing method
Amin et al. Two-ring systolic array network for artificial neural networks
JPH07239843A (en) Parallel arithmetic processors
JPH04364525A (en) parallel computing device
CN118114733A (en) LSTM forward propagation acceleration method based on pulse array