JP2000514230A

JP2000514230A - ニューラル・プロセッサ、飽和ユニット、計算ユニットおよび加算器回路

Info

Publication number: JP2000514230A
Application number: JP11556597A
Authority: JP
Inventors: ウラディミールミハイロヴィッチチェルニコフ; パベルエブゲンヤヴィッチヴィクスネ; ドミトリーヴィクトロヴィッチフォミン; パベルアレクサンドロヴィッチシェブチェンコ; ミハイルフェドロヴィッチヤフラコブ
Original assignee: ザクリートアアクツィオナーノアオブチェストボノーチノ―テクニチェスキーセンタモジュール
Priority date: 1998-06-16
Filing date: 1998-12-31
Publication date: 2000-10-24
Also published as: EP1014274A1; RU2131145C1; EP1014274A4; WO1999066419A1; AU2191999A; KR20010020446A; KR100336266B1; US6539368B1

Abstract

(57)【要約】本発明のグループは、コンピュータ・サイエンスの分野に関し、そしてニューラル・ネットワークのエミュレーションおよびディジタル信号処理のために使うことができる。ニューラル・プロセッサの性能の増加は、プログラム・モードにおいて結果のワード長を変更するための機能の手段によって達成される。このニューラル・プロセッサは、６つのレジスタと、シフト・レジスタと、ＡＮＤゲートと、２つのＦＩＦＯと、スイッチと、マルチプレクサと、２つの飽和ユニットと、計算ユニットと、そしてプログラム可能なワード長のデータのベクトルについての演算を実行するための加算器回路とを含む。飽和ユニットの性能の増加は、プログラム可能なワード長の入力オペランド・ベクトルを一度に処理するための機能の手段によって達成される。前記ユニットは、キャリー・ルック・アヘッド回路と、キャリー伝播回路とを含み、また、２つのマルチプレクサによって、１つの排他的ＯＲゲートと、１つの等価ゲートと、１つのＮＡＮＤゲートと、１つの反転入力付きＡＮＤゲートとを各ビットの中に含む。計算ユニットの機能が拡張されている。この計算ユニットは遅延要素と、Ｎ／２個の反転入力付きＡＮＤゲートと、Ｎ／２個の乗算ビットのデコーダと、Ｎビットのシフト・レジスタとを含み、シフト・レジスタは、各ビットが反転入力付きＡＮＤゲートと、マルチプレクサおよびトリガと、乗算器アレイとから構成され、乗算器アレイはＮカラム×Ｎ／２のセルを含み、各セルが２つのトリガ、反転入力付きＡＮＤゲート、１ビット部分積発生回路と、１ビット加算器と、マルチプレクサとから構成されている。加算器回路の性能の向上はプログラム可能なワード長の入力オペランドの２つのベクトルを加算するための機能の手段によって達成される。その加算器回路はキャリー・ルック・アヘッド回路と、また、２つの反転入力付きＡＮＤゲートによって、１つの半加算器と、１つの排他的ＯＲゲートとを各ビットの中に含む。

Description

【発明の詳細な説明】ニューラル・プロセッサ、飽和ユニット、計算ユニットおよび加算器回路発明の属する技術分野本発明のグループは、コンピュータ・サイエンスの分野に関し、ニューラル・ネットワークのエミュレーションおよびリアルタイムのディジタル信号処理のために使うことができる。発明の背景一つのニューラル・プロセッサが知られており［ＰｒｉｎｃｉｐａｌＤｉｒｅｃｔｉｏｎｓｏｆＨａｒｄｗａｒｅＤｅｖｅｌｏｐｍｅｎｔｏｆＮｅｕｒａｌＮｅｔｗｏｒｋＡｌｇｏｒｉｔｈｍｓＩｍｐｌｅｍｅｎｔａｔｉｏｎ（ニューラル・ネットワーク・アルゴリズムの実装のハードウェア開発の基本的方向）／Ｙ．Ｐ．イワノフ（Ｉｖａｎｏｖ）他、第２ロシア学会《ＮｅｕｒａｌＣｏｍｐｕｔｅｒｓＡｎｄＴｈｅｉｒＡｐｐｌｉｃａｔｉｏｎ》（ニューラル・コンピュータおよびそれらの応用）、モスクワ，１９９６年２月１４日のレポートからのもの）Ｎｅｕｒｏｃｏｍｐｕｔｅｒ（ニューロコンピュータ）‐１９９６‐１，２‐ｐｐ．４７‐４９］、それは入力データ・レジスタおよび４つのニューラル・ユニットを含み、各ニューラル・ユニットはシフト・レジスタ、重み係数レジスタ、４つの乗算器、マルチオペランド合計演算回路および、しきい値関数計算のためのブロックから構成されている。そのようなニューラル・プロセッサは入力データ値の実際の範囲およびそれらの重み係数には関係なく、各クロック・サイクルにおいて固定の数のニューロンに対して固定の量の入力データの重み付けられた合計演算を実行する。この場合、すべての重み係数以外に、すべての入力データがニューラル・プロセッサのハードウェア・ユニットのビット長によって決定される固定のワード長のオペランドの形式で示される。その最も近いものは３つのレジスタ、マルチプレクサ、ＦＩＦＯ、累積された結果の加算を伴う、プログラム可能なワード長データの２つのベクトルのドット積を計算するための計算ユニット、および非線形ユニットを含んでいる［米国特許第５２７８９４５号、Ｕ．Ｓ．Ｃｌ．３９５／２７，１９９４］である。入力データ・ベクトルおよびそれらの重み係数がそのようなニューラル・プロセッサの入力に対して印加される。各クロック・サイクルにおいて、ニューラル・プロセッサは、その重み係数ベクトルによる入力データのドット積を計算する手段によって、１つのニューロンに対していくつかの入力データの重み付けられた合計演算を実行する。さらに、そのニューラル・プロセッサは、別々の要素のワード長をプログラム・モードにおいて固定された値の集合から選択することができるベクトルの処理をサポートする。入力データおよび重み係数のワード長を減らすことによって、各ベクトル内のそれらの数が増加し、したがって、ニューラル・プロセッサの性能が改善される。しかし、得られる結果のワード長は固定されており、そのニューラル・プロセッサのハードウェア・ユニットのビット長によって決定される。ある数値の絶対値によって決定される飽和領域を伴う飽和のための一つのディジタル・ユニットが知られており［ロシア特許第６９０４７７号，Ｉｎｔ．Ｃｌ．Ｇ０６Ｆ７／３８，１９７９］、３つのレジスタ、１つの加算器、２つのコード変換器、２つの符号解析ブロック、補正ブロック、２グループのＡＮＤゲートおよび１グループのＯＲゲートを含んでいる。そのようなユニットによって２Ｎクロック・サイクル当たりにＮ個の入力オペランドを伴うベクトルに対する飽和関数を計算することができる。最も近いものはマルチプレクサ、コンパレータおよび２つの飽和の指示子を含んでいる飽和ユニット［米国特許第５６４４５１９号、Ｕ．Ｓ．Ｃｌ．３６４／７３６．０２，１９９７］である。そのようなユニットによってＮサイクル当たりにＮ個の入力オペランドを伴うベクトルに対する飽和関数を計算することができる。乗算器、加算器、レジスタ、マルチプレクサおよびＦＩＦＯを含んでいる一つの計算ユニットが知られている［米国特許第５２７８９４５号、Ｕ．Ｓ．Ｃｌ．３９５／２７，１９９４］。前記ユニットは２つのベクトルのドット積を計算することができ、そのベクトルはそれぞれＭ個のオペランドを１クロック・サイクル当たりに含み、Ｎサイクル当たりにＭ個のオペランドから構成されているベクトルによってＮ×Ｍ個のオペランドを含んでいる行列の乗算を行うことができる。それに最も近いものは、３Ｎ／２個のＡＮＤゲート、ブースのアルゴリズムのベースで乗算器をデコードするためのＮ／２個のデコーダ、乗算のためのＮカラム× Ｎ／２セルのセル・アレイ（ここで、各セルはブースのアルゴリズムのベースで、そして１ビット加算器のベースで１ビットの部分積を発生するための回路から構成される）、２Ｎビット加算器、Ｎ／２乗算器、ブースのアルゴリズムのベースで１ビットの部分積を発生するためのＮ／２個の追加の回路およびＮ／２個のインプリケータを含んでいる計算ユニット［米国特許第４８２５４０１号、Ｕ．Ｓ．Ｃｌ．３６４／７６０，１９８９］である。前記ユニットによって２つのＮビットのオペランドを乗算すること、あるいは２つの（Ｎ／２）ビットのオペランドの要素ごとの乗算をそれぞれ１クロック・サイクルで実行することができる。ワード長がプログラム可能なオペランドでのベクトルの合計演算のためのユニットが知られており［米国特許第５０４７９７５号、Ｕ．Ｓ．Ｃｌ．３６４／７８６，１９９１］、加算器およびインバート入力のＡＮＤゲートを含んでいる。それに最も近いものは、キャリー論理およびそのすべてのビットに、半加算器および排他的ＯＲゲートを含んでいる加算器［米国特許第４６７５８３７号、Ｕ．Ｓ．Ｃｌ．３６４／７８８，１９８７］である。前記加算器によって、それぞれＮ個のオペランドで構成されている二つのベクトルをＮサイクルで加算することができる。発明の開示本発明のニューラル・プロセッサは第１、第２、第３、第４、第５および第６のレジスタと、シフト・レジスタと、ＡＮＤゲートと、第１および第２のＦＩＦＯと、第１および第２の飽和ユニットと、計算ユニットと、加算器回路と、１つの３から２へのスイッチと、マルチプレクサとを含み、計算ユニットは、第１オペランド・ベクトルのビットの入力と、第２オペランド・ベクトルのビットの入力と、第３オペランド・ベクトルのビットの入力と、第１オペランド・ベクトルおよび結果のベクトルに対するデータ境界設定の入力と、第２オペランド・ベクトルに対するデータ境界設定の入力と、第３オペランド・ベクトルに対するデータ境界設定の入力と、第１メモリ・ブロックへの第３オペランド・ベクトルのロード制御の第１および第２の入力と、第１メモリ・ブロックから第２メモリ・ブロックへの第３オペランド行列の再ロードの入力と、第２メモリ・ブロックの中に格納されている第３オペランド行列による第２オペランド・ベクトルの乗算の積と第１オペランド・ベクトルの加算の結果の第１および第２の加算されたベクトルのビットの出力の再ロード制御の入力とを組み込んでおり、そして３から２へのスイッチのビットの第１データ入力と、第１のＦＩＦＯのデータ入力と、第１、第２、第３および第４のレジスタの入力と、シフト・レジスタの並列データ入力とが結合されて、ニューラル・プロセッサの第１入力バスのそれぞれのビットに対してビットごとに接続され、ニューラル・プロセッサは、第２入力バスの各ビットが３から２へのスイッチのそれぞれのビットの第２データ入力に接続され、３から２へのスイッチは、各ビットの第１出力が第１飽和ユニットの入力オペランド・ベクトルのそれぞれのビットの入力に接続され、第１飽和ユニットは、すべてのビットの制御入力が第２レジスタの対応しているビットの出力に接続され、３から２へのスイッチの各ビットの第２出力が第２飽和ユニットの入力オペランド・ベクトルのそれぞれのビットの入力に接続され、第２飽和ユニットは、各ビットの制御入力が第３レジスタのそれぞれのビットの出力に接続され、第１レジスタの各ビットの出力がマルチプレクサのそれぞれのビットの第１データ入力に接続され、マウチプレクサは、各ビットの第２データ入力が第１飽和ユニットの結果ベクトルのそれぞれのビットの出力に接続され、マルチプレクサの各ビットの出力が計算ユニットの第１オペランド・ベクトルのそれぞれのビットの入力に接続され、計算ユニットは、第２オペランド・ベクトルの各ビットの入力が第２飽和ユニットの結果ベクトルのそれぞれのビットの出力に接続され、第１のＦＩＦＯのデータ出力が計算ユニットの第３オペランド・ベクトルのそれぞれの入力に接続され、計算ユニットは、第１オペランド・ベクトルと第２オペランド・ベクトルの第２メモリ・ブロックの中に格納されている第３オペランド行列による乗算の積との加算の結果の第１の被加算値ベクトルの各ビットの出力が、加算器回路の第１の被加算値ベクトルのそれぞれのビットの入力に接続され、加算器回路は、第２の被加算値ベクトルの各ビットの入力が、第１オペランド・ベクトルと、第２オペランド・ベクトルの、計算ユニットの第２メモリ・ブロックの中に格納されている第３オペランド行列による乗算の積との加算の結果の第２被加算値ベクトルのそれぞれのビットの出力に接続され、計算ユニットは、第１オペランド・ベクトルおよび結果ベクトルに対するデータ境界設定の各入力が、第５レジスタのそれぞれのビットの出力に対して、そして加算器回路の被加算値ベクトルと和のベクトルに対するデータ境界設定のそれぞれの入力に接続され、加算器回路は、和のベクトルの各ビットの出力が第２のＦＩＦＯのそれぞれのデータ入力に接続され、第２のＦＩＦＯは各データ出力がニューラル・プロセッサの出力バスのそれぞれのビットに対して、そして３から２へのスイッチのそれぞれのビットの第３入力に接続され、第４レジスタの各ビットの出力が第５レジスタのそれぞれのビットのデータ入力に対して、そして計算ユニットの第３オペランド・ベクトルに対するデータ境界設定のそれぞれの入力に接続され、計算回路は、第２オペランド・ベクトルに対するデータ境界設定の各入力が第６レジスタのそれぞれのビットの出力に接続され、第６レジスタは、各ビットのデータ入力がシフト・レジスタのそれぞれのビットの出力に接続され、シフト・レジスタは、シーケンシャル・データの入力および出力が結合されて、計算ユニットの第１メモリ・ブロックの中への第３オペランド・ベクトルのロード制御の第１入力に対して、そしてＡＮＤゲートの第１入力に対して接続され、ＡＮＤゲートは、出力が第１のＦＩＦＯの読出し制御入力に接続され、ＡＮＤゲートの第２入力と、シフト・レジスタのシフト制御入力と、計算ユニットの第１メモリ・ブロックへの第３オペランド・ベクトルのロード制御の第２入力とが結合されて、ニューラル・プロセッサのそれぞれの制御入力に対して接続され、計算ユニットの第１メモリ・ブロックから第２メモリ・ブロックへの第３オペランド行列の再ロード制御の入力と、第５および第６のレジスタの制御入力とが結合されて、ニューラル・プロセッサのそれぞれの制御入力に対して接続され、３から２へのスイッチの、マルチプレクサの、そして第１、第２、第３および第４のレジスタの制御入力と、シフト・レジスタの、そして第１のＦＩＦＯの書込み制御入力と、第２のＦＩＦＯの読出しおよび書込み制御入力とが、ニューラル・プロセッサのそれぞれの制御入力であり、第１および第２のＦＩＦＯの状態出力がニューラル・プロセッサの状態出力である。ニューラル・プロセッサはすべてのＮビット・ベクトル・オペランド上でＪビットの算術的左シフトを実行して記憶するシフト・レジスタ（ここで、Ｊは計算ユニットの第２オペランド・ベクトルにおけるデータのワード長の整除部分である最小限の値）と、１つの遅延要素と、シーケンシャルな入力ポートおよびＮビットのデータを格納するためのＮ／Ｊ個のセルを含んでいる第１メモリ・ブロックと、Ｎビットのデータを格納するためのＮ／Ｊ個のセルを含んでいる第２メモリ・ブロックと、プログラム可能なワード長のデータのＮビット・ベクトルをＪビットの乗数でそれぞれ乗算するＮ／Ｊ個の乗算器ブロックと、Ｎ／Ｊ＋１個のプログラム可能なワード長のデータ・ベクトルの合計演算の部分積を発生するベクトル加算回路とを含んでいる計算ユニットを含むことができ、そして計算ユニットの第３オペランド・ベクトルのビットの入力がシフト・レジスタのデータ入力に接続され、シフト・レジスタは、出力が第１メモリ・ブロックのデータ入力に接続され、第１メモリ・ブロックは、各セルの出力が第２メモリ・ブロックのそれぞれのセルのデータ入力に接続され、第２メモリ・ブロックは、各セルの出力がそれぞれの乗算器ブロックの被乗数ベクトルのビットの入力に接続され、乗算器ブロックは乗数入力ビットが計算ユニットの第２オペランド・ベクトルのそれぞれのＪビット・グループの入力に接続され、各乗算器ブロックの出力がベクトル加算回路のそれぞれの被加算値ベクトルのビットの入力に接続され、ベクトル加算回路は、（Ｎ／Ｊ＋１）番目の被加算値ベクトルの入力が計算ユニットの第１オペランド・ベクトルのビットの入力に接続され、計算ユニットは、第３オペランド・ベクトルに対するデータ境界設定の入力がシフト・レジスタのオペランド・ベクトルに対するデータ境界設定のそれぞれの入力に接続され、シフト・レジスタは、モード選択入力が計算ユニットの第１メモリ・ブロックへの第３オペランド・ベクトルのロード制御の第１入力に接続され、計算ユニットは、第１メモリ・ブロックへの第３オペランドのロード制御の第２入力がシフト・レジスタのクロック入力に対して、そして遅延要素の入力に対して接続され、遅延要素は、出力が第１メモリ・ブロックの書込み制御入力に接続され、第２メモリ・ブロックの書込み制御入力が計算ユニットの第１メモリ・ブロックから第２メモリ・ブロックへの第３オペランド行列の再ロード制御の入力に接続され、計算ユニットは、第２オペランド・ベクトルに対するデータ境界設定のすべての入力がそれぞれの乗算器ブロックの符号訂正の入力に接続され、計算ユニットの第１オペランド・ベクトルに対する、そして結果ベクトルに対するデータ境界設定の入力が、各乗算器ブロックの被乗数ベクトルに対する、そしてデータ境界設定の入力に対して、結果ベクトルに対する、そしてベクトル加算回路の被加算値ベクトルおよび結果ベクトルに対するデータ境界設定の入力に接続され、ベクトル加算回路の結果の第１および第２の被加算値ベクトルのビットの出力が計算ユニットのそれぞれの出力である。上記ニューラル・プロセッサにおいて、各飽和ユニットは、データ入力が前記ユニットの入力オペランド・ベクトルのそれぞれのビットの入力である１つの入力データ・レジスタを含むことができ、計算ユニットは、データ入力が計算ユニットの第１および第２のオペランド・ベクトルのそれぞれのビットの入力である１つの入力データ・レジスタを含むことができ、加算器回路は、データ入力が加算器回路のそれぞれの入力の入力である１つの入力データ・レジスタを含むことができる。飽和ユニットはキャリー伝播回路と、キャリー・ルック・アヘッド回路とを含み、そして前記ユニットのＮ個の各ビットは、第１および第２のマルチプレクサと、排他的ＯＲゲートと、等価（ＥＱＵＩＶＡＬＥＮＣＥ）ゲートと、ＮＡＮＤゲートと、反転入力付きＡＮＤゲートとを含み、第１および第２のマルチプレクサの第２データ入力と、前記ユニットの各ビットの排他的ＯＲゲートの第１入力とが結合されて、前記ユニットの入力オペランド・ベクトルのそれぞれの入力に接続され、前記ユニットは、結果ベクトルの各ビットの出力が前記ユニットのそれぞれのビットの第１マルチプレクサの出力に接続され、前記ユニットの各ビットの反転入力付きＡＮＤゲートの非反転入力と、ＮＡＮＤゲートおよび等価ゲートの第１入力とが結合されて、前記ユニットのそれぞれの制御入力に接続され、等価ＯＲゲートの第１入力と前記ユニットのｑ番目のビットの反転入力付きＡＮＤゲートの非反転入力とが、それぞれ前記ユニットの（ｑ−１）番目のビットの排他的ＯＲゲートの第２入力に対して、そして反転入力付きＡＮＤゲートの反転入力に対してそれぞれ接続され、その第２マルチプレクサの第１データ入力がキャリー伝播回路の（Ｎ−ｑ＋２）番目のビット（ここで、ｑ＝２，３，．．．，Ｎ）に対するキャリーの出力に接続され、前記ユニットのｎ番目のビットのＮＡＮＤゲートの出力がキャリー・ルック・アヘッド回路の（Ｎ−ｎ＋１）番目のビットを通してキャリー伝播の入力に接続され、キャリー・ルック・アヘッド回路は、（Ｎ−ｎ＋２）番目のビットに対するキャリーの出力が前記ユニットのｎ番目の第１マルチプレクサの制御入力に接続され、その反転入力付きＡＮＤゲートの出力が前記ユニットの同じビットの第２マルチプレクサの制御入力に対して、キャリー・ルック・アヘッド回路の（Ｎ−ｎ＋１）番目のキャリー発生入力に対して、そしてキャリー伝播回路の（Ｎ−ｎ＋１）番目のビットを通してキャリー伝播の反転入力に接続され、キャリー伝播回路は、（Ｎ−ｎ＋１）番目のビットからのキャリー入力が前記ユニットのｎ番目の（ここで、ｎ＝１，２，．．．，Ｎ）ビットの第２マルチプレクサの出力に接続され、キャリー伝播回路の、そしてキャリー・ルック・アヘッド回路の初期キャリー入力と、排他的ＯＲゲートの第２入力と、反転入力付きＡＮＤゲートの反転入力と、前記ユニットのＮ番目のビットの第２マルチプレクサの第１データ入力とが結合されて「０」に接続され、前記ユニットの各ビットにおいて、第２マルチプレクサの出力が等価ゲートの第２入力に接続され、等価ゲートは、出力が第１マルチプレクサの第１データ入力に接続され、排他的ＯＲゲートの出力が前記ユニットの同じビットのＮＡＮＤゲートの第２入力に接続されている。飽和ユニットの使用の特定のケースにおいては、ハードウエアの費用を最小化するための厳しい要求がある時、ｑ番目のビットに対するキャリーの出力がキャリー伝播回路の中の（ｑ−１）番目のビットからのキャリー入力に接続され（ここで、ｑ＝１，２，．．．Ｎ）、そしてキャリー・ルック・アヘッド回路は両方ともＮ個のＡＮＤゲートおよびＯＲゲートを含み、そしてキャリー・ルック・アヘッド回路のそれぞれのビットを通してキャリー伝播の各ビットがそれぞれのＡＮＤゲートの第１入力に接続され、ＡＮＤゲートは、出力がそれぞれのＯＲゲートの第１入力に接続され、ＯＲゲートは、第２の入力および出力がそれぞれ、キャリー・ルック・アヘッド回路のそれぞれのビットのキャリー発生入力に対して、そしてキャリー・ルック・アヘッド回路の同じビットに対するキャリーの出力に対してそれぞれ接続され、第１のＡＮＤゲートの第２入力はキャリー・ルック・アヘッド回路の初期キャリー入力であり、ｑ番目のＡＮＤゲートの第２入力が（ｑ−１）番目のＯＲゲートの出力に接続されている（ここで、ｑ＝２，３，．．．，Ｎ）である。計算ユニットはＮ／２個の乗数ビットのデコーダと、Ｎ／２個の反転入力付きＡＮＤゲートと、１つの遅延要素と、１つのＮビット・シフト・レジスタとを含み、シフト・レジスタは、各ビットが１つの反転入力付きＡＮＤゲートと、マルチプレクサおよびトリガと、およびＮカラム×Ｎ／２セルの乗算器アレイから構成され、各セルは、１つの反転入力付きＡＮＤゲートと、１つの１ビット部分積発生回路と、１つの１ビット加算器と、１つのマルチプレクサと、第１および第２のトリガとから構成されていて、前記ユニットのそれぞれ第１および第２のメモリ・ブロックのメモリ・セルとして機能し、そして、前記ユニットの第１オペランド・ベクトルの各ビットの入力が乗算器アレイのそれぞれのカラムの第１セルの１ビット加算器の第２入力に接続され、その各セルの１ビット加算器の第１入力が乗算器アレイの同じセルの１ビット部分積発生回路の出力に接続され、その各カラムのすべてのセルのマルチプレクサの制御入力および反転入力付きＡＮＤゲートの反転入力の制御入力が結合されて、前記ユニットの第１オペランド・ベクトルに対する、そして結果ベクトルに対するデータ境界設定のそれぞれの入力に接続され、前記ユニットは、第２オペランド・ベクトルに対するデータ境界設定の各入力がそれぞれの反転入力付きＡＮＤゲートの反転入力に接続され、その出力が乗数ビットのそれぞれのデコーダの第１入力に接続され、乗算器アレイのすべてのカラムのｉ番目のセルの１ビット部分積発生回路のそれぞれの制御入力が乗数ビットのｉ番目のデコーダのそれぞれの出力に結合されて接続され、その第２および第３の入力が前記ユニットの第２オペランド・ベクトルの（２ｉ−１）番目および（２ｉ）番目のビットのそれぞれの入力に接続され（ここで、ｉ＝１，２，．．．，Ｎ／２）、ｊ番目の反転入力付きのＡＮＤゲートの非反転入力が乗数ビットの（ｊ−１）番目のデコーダの第３入力に接続され（ここで、ｊ＝２，３，．．．Ｎ／２）、前記ユニットの第３オペランド・ベクトルの各ビットの入力がシフト・レジスタのそれぞれのビットの乗算器の第２入力データに接続され、シフト・レジスタは、第１データ入力がシフト・レジスタの同じビットの反転入力付きＡＮＤゲートの出力に接続され、その第１の反転入力が前記ユニットの第３オペランド・ベクトルに対するデータ境界設定のそれぞれの入力に接続され、シフト・レジスタのｑ番目のビットの反転入力付きＡＮＤゲートの第２反転入力がシフト・レジスタの（ｑ−１）番目のビットの反転入力付きＡＮＤゲートの第１の反転入力に接続され（ここで、ｑ＝２，３，．．．Ｎ）、シフト・レジスタのｒ番目のビットの反転入力付きＡＮＤゲートの非反転入力がシフト・レジスタの（ｒ−２）番目のビットのトリガ出力に接続され（ここで、ｒ＝３，４，．．．，Ｎ）、すべてのシフト・レジスタのビットのマルチプレクサの制御入力が結合されて前記ユニットの第１メモリ・ブロックへの第３オペランド・ベクトルのロード制御の第１入力に接続され、すべてのシフト・レジスタのビットのトリガのクロック入力、および遅延要素の入力が第１メモリ・ブロックへの第３オペランドのロード制御の第２入力に対して結合されて接続され、各シフト・レジスタのビットのマルチプレクサの出力がそのシフト・レジスタの同じビットのトリガのデータ入力に接続され、シフト・レジスタは、出力が乗算器アレイのそれぞれのカラムの最後のセルの第１のトリガのデータ入力に接続され、各乗算器アレイのカラムのｊ番目の第１のトリガの出力が同じ乗算器アレイのカラムの（ｊ−１）番目のセルの第１のトリガのデータ入力に接続され（ここで、ｊ＝２，３，．．．，Ｎ／２）、すべての乗算器アレイ・セルの第１のトリガがのクロック入力が遅延要素の出力に接続され、すべての乗算器アレイのセルの第２のトリガのクロック入力が結合されて、第１メモリ・ブロックから第２メモリ・ブロックへの第３オペランド行列の再ロード制御の入力に接続され、乗算器アレイのｑ番目のカラムのｉ番目のセルの１ビット部分積発生回路の第２データ入力が、乗算器アレイの（ｑ−１）番目のカラムのｉ番目のセルの反転入力付きＡＮＤゲートの出力に接続され（ここで、ｉ＝１，２，．．．，Ｎ／２、そしてｑ＝２．３，．．．，Ｎ）、乗算器アレイの各カラムのｊ番目のセルの１ビット加算器の第２入力が同じ乗算器アレイのカラムの（ｊ−１）番目のセルの１ビット加算器の和の出力に接続され（ここで、ｊ＝２，３．．．．，Ｎ／２）、乗算器アレイのｑ番目のカラムのｊ番目のセルの１ビット加算器の第３入力が乗算器アレイの（ｑ−１）番目のカラムの（ｊ−１）番目のセルの乗算器の出力に接続され（ここで、ｊ＝２，３，．．．，Ｎ／２，そしてｑ＝２，３，．．．，Ｎ）、乗算器アレイの第１カラムのｊ番目のセルの１ビット加算器の第３入力が乗数ビットの（ｊ−１）番目のデコーダの第３出力に接続され（ここで、ｊ＝２，３，．．．，Ｎ／２）、乗算器アレイの各カラムの最後のセルの１ビット加算器の和の出力が前記ユニットの結果の第１の被加算値ベクトルのそれぞれのビットの出力であり、乗算器アレイの（ｑ −１）番目のカラムの最後のセルのマルチプレクサの出力が前記ユニットの結果の第２の被加算値ベクトルのｑ番目のビットの出力であり（ここで、ｑ＝２，３，．．．Ｎ）、前記ユニットは、結果の第２の被加算値ベクトルの第１のビットが乗数ビットの（Ｎ／２）番目のデコーダの第３出力に接続され、第１ビットの反転入力付きＡＮＤゲートの第２の反転入力および非反転入力と、シフト・レジスタの第２ビットの反転入力付きＡＮＤゲートの非反転入力と、乗算器アレイの第１カラムのすべてのセルの１ビット部分積発生回路の第２データ入力と、乗算器アレイのすべてのカラムの第１セルの１ビット加算器の第３入力と、第１の反転入力付きＡＮＤゲートの非反転入力とが結合されて「０」に接続され、そして各乗算器アレイにおいて、第１のトリガの出力が第２のトリガのデータ入力に接続され、第２のトリガは、出力が反転入力付きＡＮＤゲートの非反転入力に対して、そして１ビット部分積発生回路の第１データ入力に接続され、１ビット部分積発生回路は、第３制御入力がマルチプレクサの第２データ入力に接続され、マルチプレクサは、第１データ入力が乗算器アレイの同じセルの１ビット加算器のキャリー出力に接続されている。加算器回路はキャリー・ルック・アヘッド回路と、そのＮ個の各ビットにおいて、１つの半加算器と、１つの排他的ＯＲゲートと、第１および第２の反転入力付きＡＮＤゲートとを含み、加算器回路の第１の被加算値ベクトルの各ビットの入力と、加算器回路の第２の被加算値ベクトルのそれぞれのビットの入力とが、加算器回路のそれぞれのビットの半加算器の第１および第２の入力に対してそれぞれ接続され、加算器回路の各ビットの第１および第２の反転入力付きＡＮＤゲートの反転入力が結合されて、被加算値ベクトルに対するデータ境界設定のそれぞれの入力に対して接続され、加算器回路の各ビットの排他的ＯＲゲートの出力が加算器回路の和のベクトルのそれぞれのビットの出力であり、加算器回路の各ビットの第１の反転入力付きＡＮＤゲートの出力が、キャリー・ルック・アヘッド回路のそれぞれのビットを通じてキャリー伝播入力に接続され、キャリー・ルック・アヘッド回路は、各ビットのキャリー伝播入力が加算器回路のそれぞれのビットの第２の反転入力付きＡＮＤゲートの出力に接続され、加算器回路のｑ番目のビットの排他的ＯＲゲートの第２の入力がキャリー・ルック・アヘッド回路のｑ番目のビットの出力に接続され（ここで、ｑ＝２，３，．．．，Ｎ）、その初期キャリー入力と加算器回路の第１ビットの排他的ＯＲゲートの第２入力とが「０」に接続され、そして加算器回路の各ビットにおいて、半加算器の和の出力が排他的ＯＲゲートの第１入力に対して、そして第１の反転入力付きＡＮＤゲートの非反転入力に接続され、そして半加算器のキャリー出力が加算器回路の同じビットの第２の反転入力付きＡＮＤゲートの非反転入力に接続されている。図面の簡単な説明図１は、ニューラル・プロセッサのブロック図である。図２は、飽和ユニットの機能を示している。図３は、ニューラル・プロセッサによってエミュレートされる、ニューラル・ネットワーク層のモデルである。図４は、計算ユニットのブロック図である。図５は、プログラム可能なワード長のデータのベクトルの飽和ユニットのブロック図である。図６は、飽和ユニットの中で適用することができる、キャリー・ルック・アヘッド回路のブロックである。図７は、計算ユニットのブロック図である。図８は、計算ユニットの中で適用されるブースのアルゴリズムのベースでの乗数ビットのデコーダおよび１ビット部分積発生回路の実施形態を示している。図９は、プログラム可能なワード長のデータのベクトルの加算器回路のブロック図である。発明を実施するための最良の形態ブロック図が図１に示されているニューラル・プロセッサは、第１（１）、第２（２）、第３（３）、第４（４）、第５（５）および第６（６）のレジスタと、シフト・レジスタ７と、ＡＮＤゲート８と、第１（９）および第２（１０）のＦＩＦＯと、３から２へのスイッチ１１と、マルチプレクサ１２と、第１（１３）および第２（１４）の飽和ユニット（それぞれが入力のオペランド・ベクトル１５のビットの入力と、制御入力１６と、結果ベクトルのビットの出力１７とを備えている）と、計算ユニット１８（第１（１９）の、第２（２０）の、そして第３（２１）のオペランド・ベクトルのビットの入力と、第１オペランド・ベクトルおよび結果のベクトルに対する入力（２２）、第２オペランド・ベクトルに対する入力（２３）、そして第３オペランド・ベクトルに対する入力（２４）データ境界設定の入力と、第１メモリ・ブロックへの第３オペランド・ベクトルのロード制御の第１（２５）および第２（２６）の入力と、第１メモリ・ブロックから第２メモリ・ブロックへの第３オペランド行列の再ロード制御の入力２７と、第１オペランド・ベクトルと、第２メモリ・ブロックの中に格納されている第３オペランド行列による第２オペランド・ベクトルの乗算の積との加算の結果の第１（２８）および第２（２９）の被加算値ベクトルのビットの出力とを含んでいる）と、加算器回路３０（第１（３１）および第２（３２）の被加算値ベクトルのビットの入力と、被加算値ベクトルに対する、そして和のベクトルに対するデータ境界設定の入力（３３）と、和のベクトルのビットの出力３４とを含んでいる）とを含む。ニューラル・プロセッサは第１（３５）および第２（３６）の入力バスと、出力バス３７とを備えている。３から２へのスイッチ１１の制御入力３８と、マルチプレクサ１２の制御入力３９と、第１レジスタ１の制御入力４０と、第２レジスタ２の制御入力４１と、第３レジスタ３の制御入力４２と、第４レジスタの制御入力４３と、シフト・レジスタ７の書込み制御入力４４と、第１のＦＩＦＯ９の書込み制御入力４５と、第２のＦＩＦＯ１０の書込み（４６）および読出し（４７）の制御入力と、計算ユニット１８の上記の制御入力２６および２７が、ニューラル・プロセッサのそれぞれの制御入力であり、そして第２のＦＩＦＯ１０の状態出力４９がニューラル・プロセッサの状態出力である。ニューラル・プロセッサによって実施される、飽和機能の一般的な概念が図２に示されている。ニューラル・プロセッサによって実施される、ニューラル・ネットワーク層のモデルが図３に示されている。図４は、プログラム可能なワード長のデータのベクトルに対して演算を実行するための計算ユニット１８の可能な実装のブロック図を示しており、それはシフト・レジスタ５０（その中に格納されているＮビットのすべてのベクトル・オペランドについてＪビットの算術的左シフトが実行され、ここで、Ｊは計算ユニット１８の第２オペランド・ベクトルにおけるデータ・ワード長の整除部分である最小限の値）と、遅延要素５１と、第１のメモリ・ブロック５２（シーケンシャルな入力ポートと、Ｎビットのデータを格納するためのＮ／Ｊ個のセルとを含んでいる）と、第２のメモリ・ブロック５３（Ｎビットを格納するためのＮ／Ｊ個のセルを含んでいる）と、Ｎ／Ｊ個の乗算器ブロック５４（各乗算器がプログラム可能なワード長データのＮビットのベクトルをＪビットの乗数で乗算する）と、ベクトル加算回路５５（Ｎ／Ｊ＋１個のプログラム可能なワード長のデータ・ベクトルの加算演算の部分積を発生する）とを含んでいる。ブロック図が図５に示されている飽和ユニットは、入力オペランド・ベクトル１５のビットの入力と、制御入力１６と、結果ベクトルの出力１７のビットとを備えている。前記ユニットのＮ個の各ビット５６は、第１（５７）および第２（５８）のマルチプレクサと、排他的ＯＲゲート５９と、等価ゲート６０と、ＮＡＮＤゲート６１と、反転入力付きＡＮＤゲート６６とを含む。また、前記ユニットはキャリー伝播回路６３（初期キャリー入力６４と、別のビットによるキャリー伝播の反転入力６５と、別のビットからのキャリー入力６６と、別の入力に対するキャリーの出力６７とを含んでいる）と、キャリー・ルック・アヘッド回路６８（初期キャリー入力６９と、別のビットによるキャリー伝播の入力７０と、別のビットのキャリー発生入力７１と、別のビットへのキャリーの出力７２とを含んでいる）とを含む。飽和ユニットの中の回路６３および６８として、並列乗算器において応用される各種のキャリー伝播回路およびキャリー・ルック・アヘッド回路を使うことができる。キャリー伝播回路６３の最も単純な変形版の実装においては、ｑ番目のビット６７に対するキャリーの出力が（ｑ−１）番目のビット６６からのキャリー入力に接続される（ここで、ｑ＝１，２，．．．，Ｎ）。図６は、ＡＮＤゲート７３およびＯＲゲート７４を両方ともＮ個を含んでいる最も単純なキャリー・ルック・アヘッド回路を開示している。前記回路のそれぞれのビットを通してのキャリー伝播の各入力７０がそれぞれのＡＮＤゲート７３の第１入力に接続され、ＡＮＤゲート７３の出力がそれぞれのＯＲゲート７４の第１入力に接続され、ＯＲゲート７４の第２入力および出力がそれぞれのビットのキャリー発生入力７１に対して、および前記回路の同じビットに対するキャリーの出力７２に接続されている。第１のＡＮＤゲート７３の第２入力は、前記回路の初期キャリー入力６９であり、ｑ番目のＡＮＤゲート７３の第２入力は、（ｑ−１）番目のＯＲゲート７４（ここで、ｑ＝２，３，．．．，Ｎ）の出力に接続されている。ブロック図が図７に示されている計算ユニットは、第１（１９）、第２（２０）および第３（２１）のオペランド・ベクトルのビットの入力と、第１オペランド・ベクトルおよび結果ベクトルに対する（２２）、第２オペランド・ベクトルに対する（２３）、そして第３オペランド・ベクトルに対する（２４）境界設定の入力とを、第１のメモリ・ブロックへの第３オペランド・ベクトルのロード制御の第１（２５）および第２（２６）の入力と、結果の第１の被加算値ベクトルの（２８）および結果の第２の被加算値ベクトルの値（２９）のビットの出力とを含む。前記ユニットはシフト・レジスタ５０と、遅延要素５１と、Ｎ／２個の反転入力付きＡＮＤゲート７５と、Ｎ／２個の乗数ビットのデコーダ７６と、Ｎカラム×各カラム内のＮ／２個のセルの乗算器アレイ７７とを含む。シフト・レジスタ５０のどのビットも反転入力付きＡＮＤゲート７８と、マルチプレクサ７９と、トリガ８０とから構成されている。乗算器アレイ７７の各セルは、前記ユニットのそれぞれ第１および第２のメモリ・ブロックのメモリ・セルとして機能する第１（８１）および第２（８２）のトリガと、反転入力付きＡＮＤゲート８３と、１ビット部分積発生回路８４と、１ビット乗算器８５と、マルチプレクサ８６とから構成されている。図７において、乗算器アレイ７７のセルのカラムは右から左へ番号が付けられており、乗算器アレイ７７のカラムのセルは、トップから下の方に向かって番号が付けられている。図８は、乗数ビットのデコーダ７６およびブースのアルゴリズムのベースでの１ビット部分積発生回路８４の実施形態を示している。乗数ビットのデコーダ７６は排他的ＯＲゲート８７と、等価ゲート８８と、ＮＯＲゲート８９とを含む。１ビット部分積発生回路８４はＡＮＤゲート９０および９１と、ＯＲゲート９２と、排他的ＯＲゲート９３とを含む。ブロック図が図９に示されている加算器回路は、第１の被加算値ベクトルの（３１）、そして第２の被加算値ベクトルの（３２）ビットの入力と、被加算値ベクトルおよび和のベクトルに対するデータ境界設定の入力３３と、和のベクトルのビットの出力３４とを備えている。加算器回路のＮ個の各ビット９４は半加算器９５と、排他的ＯＲゲート９６と、第１（９７）および第２（９８）の反転入力付きＡＮＤゲートとを含む。また、加算器回路はキャリー・ルック・アヘッド回路９９を含む。本発明の実行の変形版ブロック図が図１に示されているニューラル・プロセッサは、第１（１）、第２（２）、第３（３）、第４（４）、第５（５）および第６（６）のレジスタと、シフト・レジスタ７と、ＡＮＤゲート８と、第１（９）および第２（１０）のＦＩＦＯと、３から２へのスイッチ１１と、マルチプレクサ１２と、それぞれが入力オペランド・ベクトルの入力１５と、制御入力１６および結果ベクトルの出力１７とを備えている第１（１３）および第２（１４）の飽和ユニットと、計算ユニット１８（第１（１９）、第２（２０）および第３（２１）のオペランド・ベクトルのビットの入力と、第１オペランド・ベクトルおよび結果ベクトル２２に対する、第２オペランド・ベクトル２３に対する、そして第３オペランド・ベクトル２４に対するデータ境界設定の入力と、第１のメモリ・ブロックへの第３オペランド・ベクトルのロード制御の第１（２５）および第２（２６）の入力と、第１のメモリ・ブロックから第２のメモリ・ブロックへの第３オペランド行列の再ロード制御の入力２７と、第２のメモリ・ブロックに格納されている、第１オペランド・ベクトルと第３オペランド行列による第２オペランド・ベクトルの乗算の積との加算の結果の第１（２８）および第２（２９）の被加算値ベクトルの出力とを含んでいる）と、加算器回路３０（第１（３１）および第２（３２）の被加算値ベクトルのビットの入力と、被加算値ベクトルおよび和のベクトルに対するデータ境界設定入力３３と、和のベクトルのビットの出力３４とを含んでいる）とを含む。ニューラル・プロセッサは第１（３５）および第２（３６）の入力バスと、出力バス３７とを備えている。３から２へのスイッチ１１の制御入力３８と、マルチプレクサ１２の制御入力３９と、第１レジスタ１の制御入力４０と、第２レジスタ２の制御入力４１と、第３レジスタ３の制御入力４２と、第４レジスタの制御入力４３と、シフト・レジスタ７の書込み制御入力４４と、第１のＦＩＦＯ９の制御入力４５と、第２のＦＩＦＯ１０の書込み（４６）および読出し（４７）の制御入力と、計算ユニット１８の上記の制御入力２６および２７とがそれぞれニューラル・プロセッサの制御入力である。第１のＦＩＦＯ９の状態出力４８と、第２のＦＩＦＯ１０の状態出力４９がニューラル・プロセッサの状態出力である。３から２へのスイッチ１１のビットの第１データ入力と、第１のＦＩＦＯ９のデータ入力と、第１（１）、第２（２）、第３（３）および第４（４）のレジスタのデータ入力と、シフト・レジスタ７の並列データ入力とが結合されて、ニューラル・プロセッサの第１入力バス３５に接続され、ニューラル・プロセッサは、第２入力バス３６のビットが３から２へのスイッチ１１のそれぞれのビットの第２データ入力に接続されている。３から２へのスイッチ１１のビットの第１出力が第１の飽和ユニット１３の入力オペランド・ベクトルのそれぞれのビットの入力１５に接続され、そのビットの制御入力１６が対応している第２レジスタ２のビットの出力に接続されている。３から２へのスイッチ１１のビットの第２出力が第２飽和ユニット１４の入力オペランド・ベクトルのそれぞれのビットの入力１５に接続され、そのビットの制御入力１６が第３レジスタ３のそれぞれの出力に接続されている。第１レジスタ１のビットの出力がマルチプレクサ１２のそれぞれのビットの第１データ入力に接続され、そのビットの第２データ入力が第１の飽和ユニットの１３のそれぞれの結果ベクトルの出力１７に接続されている。マルチプレクサ１２のビットの出力が計算ユニット１８の第１オペランド・ベクトルのそれぞれビットの入力１９に接続され、その第２オペランド・ベクトルのビットの入力２０が第２の飽和ユニット１４の結果ベクトルのそれぞれのビットの出力１７に接続されている。第１のＦＩＦＯ９のデータ出力は計算ユニット１８の第３オペランド・ベクトルのそれぞれのビットの入力２１に接続され、その結果の第１の被加算値ベクトルのビットの出力２８が加算器回路３０の第１の被加算値ベクトルのそれぞれのビットの入力３１に接続され、その第２の加算されるの値のベクトルのビットの入力３２が計算ユニット１８の結果の第２の被加算値ベクトルのそれぞれのビットの出力２９に接続され、その第１オペランド・ベクトルおよび結果ベクトルに対するデータ境界設定の入力２２が第５レジスタ５のそれぞれのビットの出力に対して、そして、加算器回路３０の被加算値ベクトルおよび和のベクトルに対するデータ境界設定のそれぞれの入力３３に接続され、その和のベクトルのビットの出力３４が第２のＦＩＦＯ１０のそれぞれのデータ入力に接続され、そのデータ出力がニューラル・プロセッサの出力バス３７のそれぞれのビットに対して、そして３から２へのスイッチ１１のそれぞれのビットの第３入力に接続されている。第４レジスタ４のビットの出力が、第５レジスタ５のそれぞれのビットのデータ入力に対して、そして計算ユニット１８の第３オペランド・ベクトルに対するデータ境界設定のそれぞれの入力２４に接続され、その第２オペランド・ベクトルに対するデータ境界設定の入力２３が第６レジスタ６のそれぞれのビットの出力に接続され、第６レジスタは、データ入力がシフト・レジスタ７のそれぞれのビットの出力に接続され、シフト・レジスタ７は、シーケンシャルなデータ入力および出力が計算ユニット１８の第１メモリ・ブロックへの第３オペランド・ベクトルのロード制御の第１入力２５に対して、そしてＡＮＤゲート８の第１入力に対して結合されて接続され、ゲート８の出力が第１のＦＩＦＯ９の読出し制御入力に接続されている。シフト・レジスタ７のシフト制御入力がＡＮＤゲート８の第２入力に対して、そして計算ユニット１８の第１メモリ・ブロックへの第３オペランド・ベクトルのロード制御の入力２６に接続され、計算ユニットは、第１メモリ・ブロックから第２メモリ・ブロックへの第３オペランド行列の再ロード制御の入力２７が、第５（５）および第６（６）のレジスタの制御入力に接続されている。ニューラル・プロセッサの実行ユニットは第１（１３）および第２（１４）の飽和ユニット、計算ユニット１８および加算器回路３０である。これらの各ユニットはプログラム可能なワード長のデータのベクトルについて２の補数での演算を実行する。ニューラル・プロセッサの動作の各クロック・サイクルにおいて、計算ユニット１８はベクトルＹ＝（Ｙ₁ Ｙ₂ Λ Ｙ_K）の乗算の部分積を発生し、その部分積のビットが計算ユニット１８の入力２０に対して、第２メモリ・ブロックの中に以前にロードされて格納され、これがベクトルＸ＝（Ｘ₁ Ｘ₂ Λ Ｘ_M）の得られた積に対する加算を伴い、ベクトルＸのビットが計算ユニット１８の入力１９に対して供給される。そして、計算ユニット１８の出力２８および２９において、Ａ＝（Ａ₁ Ａ₂ Λ Ａ_M）およびＢ（Ｂ₁ Ｂ₂ Λ Ｂ_M）のベクトルのビットが発生され、その和がＸ＋Ｙ× Ｚの演算の結果である。すなわち、ベクトルＡおよびＢのｍ番目の要素の和が次の式によって定義される。ベクトルＸは２の補数表示でのこのベクトルの要素であるＭ個のパックされたデータの１つのＮビット・ワードである。そしてベクトルＸの最下位ビットは第１のデータＸ₁のビットであり、その次に第２データＸ₂のビットが続く。以下同様である。ベクトルＸの最上位ビットはＭ番目のＸ_Mのビットである。そのようなパッキングにのビットであり、ここで、Ｎ_mはベクトルＸのｎ番目のデータＸ_mのワード長であり、Ｖ＝１，２，．．．，Ｎ_m（ｍ＝１，２，．．．，Ｍ）である。ベクトルＸの中のデータＭの数およびこのベクトルのｍ番目のＸ_mの中のビットＮ_mの数は１からＮまでの任意の整数値であってよい。ここで、ｍ＝１，２，．．．，Ｍである。唯一の制限は１つのベクトルＸの中にパックされているすべてのデータの合計のワード長がそのワード長に等しくなければならないことである。ベクトルＹはこのベクトルの要素であるＫ個のパックされたデータの２の補数表示でのＮビット・ワードである。ベクトルＹのフォーマットはベクトルＸのフォーマットと同じである。しかし、これらのベクトルは、これらのベクトルの中にパックされている要素の数および別々のデータのワード長において異なる可能性がある。ベクトルＹの中にパックされている各データの最小限のワード長Ｊは、計算ユニット１８の中の乗算のハードウェア実装によって定義される。部分積のアルゴリズムが実装されている時、Ｊは１に等しく、修正されたブースのアルゴリズムが実装されている時は、Ｊは２に等しい。ベクトルＹのｋ番目のデータＹ_Kの中のビットＮ’_kの数はＪの倍数であるＪからＮまでの任意の整数値であってよい。ここで、ｋ＝１，２，．．．，Ｋである。ベクトルＹの中のデータの数Ｋは１からＮ／Ｊまでの任意の整数であってよい。しかし、１つのベクトルＹの中にパックされるすべてのデータの合計ワード長はそのワード長に等しくなければならない。行列Ｚのｋ番目のロウはデータ・ベクトルＺ_K＝（Ｚ_K,1 Ｚ_K,2 ＫＺ_k,M）であり、ここで、ｋ＝１，２，．．．，Ｋである。そして、Ｚ₁，Ｚ₂，．．．，Ｚ_Kの各ベクトルは、フォーマットがベクトルＸのフォーマットと同じでなければならない。計算ユニット１８の出力２８および２９において発生されるベクトルＡおよびＢのフォーマットはベクトルＸのフォーマットと同じである。必要なフォーマットのベクトルを処理するための計算ユニット１８のハードウェアのチューニングは、第５レジスタ５に対してＮビットの制御ワードＨをロードする手段によって行われ、レジスタ５の出力は計算ユニット１８の入力２２に接続され、そして（Ｎ／Ｊ）ビットの制御ワードＥは第６レジスタ６に接続され、レジスタ６の出力は計算ユニット１８の入力２６に接続されている。ワードＨのｎ番目のビットｈ_nの値が１であることは、計算ユニット１８が各ベクトルＸ，Ｚ₁，Ｚ₂，．．．，Ｚ_Kのｎ番目のビットを、このベクトルの対応している要素の最上位（符号）ビットとみなすことを意味する。ワードｈの中で値が１であるビットの数は各ベクトルＸ，Ｚ₁，Ｚ₂，．．．，Ｚ_Kの中の要素の数に等しい。ワードＥのｉ番目のビットｅ₁の値が１であることは、計算ユニット１８がベクトルＹのｉ番目のＪビット・グルーブを、このベクトルの対応している要素の最下位ビットのグルーブとみなすことを意味する。ワードＥの中の値が１であるビットの数はベクトルＹの中の要素の数に等しい。計算ユニット１８が上記のように動作できる前に、マトリックスＺを計算ユニット１８の第２メモリブロックへの挿入と制御ワードＨおよびＥの第５および第６のレジスタへの挿入の手順がそれぞれ実行されなければならない。この手順はいくつかの段に対して実行される。最初、ベクトルＺ₁，Ｚ₂，．．．，Ｚ_Kが、ニューラル・プロセッサの第１入力バス３５から第１のＦＩＦＯ９に対して順次書き込まれる。行列Ｚの全体がＫクロック・サイクルで第１のＦＩＦＯ９に対してロードされ、それらの各々において、第１のＦＩＦＯ９の書込み制御のアクティブ信号がニューラル・プロセッサの入力４５に対して印加される。次に、制御ワードＨがニューラル・プロセッサの第１入力バス３５から第４レジスタ４へロードされ、そしてそれを行うために、第４レジスタ４に対する書込みをイネーブルするアクティブ信号が１クロック・サイクルの間、ニューラル・プロセッサの入力４３に対して印加される。次のクロック・サイクルにおいて、制御ワードＥがニューラル・プロセッサの第１入力バス３５からシフト・レジスタ７へロードされ、それを行うために、シフト・レジスタ７に対する書込みをイネーブルするアクティブ信号が１クロック・サイクルの間、ニューラル・プロセッサの入力４４に印加される。次のＮ／Ｊ個のクロック・サイクルの間に行列Ｚが第１のＦＩＦＯ９から計算ユニット１８の第１メモリ・ブロックに対して転送される。これらのＮ／Ｊ個の各クロック・サイクルにおいて、アクティブな制御信号がニューラル・プロセッサの制御入力に対して、シフト・レジスタ７のシフト制御入力に対して、ＡＮＤゲート８の入力の１つに対して、そして計算ユニット１８の入力２６に接続される。各クロック・サイクルにおいて、この信号はシフト・レジスタ７の内容の１ビット右シフトを起動し、したがって、制御ワードＥの次のビットをそのシリアル出力へ送り出す。シフト・レジスタのシリアル出力からの信号が、計算ユニット１８の制御入力２５に対して、そしてＡＮＤゲート８の入力の１つに対して印加される。この信号の値が１である場合、アクティブな信号がＡＮＤゲート８の出力において発生され、それは第１のＦＩＦＯ９の読出し制御入力を供給する。その結果として、ベクトルＺ₁，Ｚ₂，．．．，Ｚ_kのうちの１つが第１のＦＩＦＯ９から計算ユニット１８の入力２１に対して印加され、そしてこのベクトルが計算ユニット１８の第１メモリ・ブロックに対して書き込られる。１つのベクトルＺ_Kをロードするのに必要なクロック・サイクルの数は、ベクトルＹの中に含まれているオペランドＹ_kのワード長Ｎ’_kに依存し、そしてＮ’_k／Ｊ（ｋ＝１，２，．．．，Ｋ）に等しい。計算ユニット１８の第１メモリ・ブロックへの行列Ｚのローディングの間に、第４レジスタ４の中にこの時常に記憶されている制御ワードＨが、必要なフォーマットのベクトルＺ₁，Ｚ₂，．．．，Ｚ_kを受信するためのそのハードウェアをチューニングする目的で、計算ユニット１８の入力２４に対して印加される。シフト・レジスタ７のシリアル出力からの信号はそのシリアル・データ入力に対しても印加されるので、そしてシフト・レジスタ７のワード長がＮ／Ｊ個に等しいので、計算ユニット１８の第１メモリ・ブロックへの行列Ｚのローディングのプロセスが完了した時、シフト・レジスタ７はこの手順の前と同じデータ、すなわち、制御ワードＥを含んでいることになる。その後、アクティブ信号が計算ユニットの制御入力２７に対して印加され、そして第５および第６レジスタの制御入力に対して、そしてニューラル・プロセッサの制御入力に対して接続される。その結果として、行列Ｚが計算ユニットの第１メモリ・ブロックから第２メモリ・ブロックへロードされ、制御ワードＨが第４レジスタ４から第５レジスタ５に対して再び書き込まれ、制御ワードＥがシフト・レジスタ７から第６レジスタ６へ１クロック・サイクルで再び書き込まれる。次のクロック・サイクルからスタートして、計算ユニット１８が上記の演算を毎クロック・サイクルにおいて実行する。Ａ＋Ｂ＝Ｘ＋Ｙ×Ｚ加算器回路３０は計算ユニット１８の出力２８および２９からその入力３１および３２に対して印加されているベクトルＡとＢとの加算を各クロック・サイクルにおいて実行する。そして加算器回路３０の出力３４において、ベクトルＳ＝（Ｓ₁ Ｓ₂ Λ Ｓ_M）が発生され、そのｍ番目の要素がベクトルＡとＢのｍ番目の要素の和に等しい。Ｓ_m＝Ａ_m＋Ｂ_m （ｍ＝１，２，．．．，Ｍ）そしてベクトルＳのフォーマットはベクトルＡおよびＢのフォーマットと同じになる。所望のフォーマットのベクトルを処理するための加算器回路３０のハードウェアのチューニングは第５レジスタ５の中に格納されている制御ワードＨを、加算器回路３０の入力３３に対して供給する手段によって提供される。したがって、計算ユニット１８と加算器回路３０とのシーケンシャルな接続によって、プログラム可能なワード長のデータのベクトルについての演算Ｓ＝Ｘ＋Ｙ×Ｚを、各クロック・サイクルにおいて実行することができる。異なる組の入力オペランド・ベクトルについてのこの演算の結果が、中間結果のアキュムレータとして機能する第２のＦＩＦＯ１０に対して書き込まれ、そしてそれを行うために、第２のＦＩＦＯ１０に対する書込みをイネーブルする信号がニューラル・プロセッサの入力４６に印加される。計算ユニット１８および加算器回路３０は、計算ユニット１８の入力２０に印加されている１つのＮビット・ベクトルＹの中にパックされているＫ個のデータの、加算器回路３０の出力３４において発生されるＮビット・ベクトルＳの中にパックされているＭ個のデータに対する１サイクル・スイッチとして使うことができる。そのようなスイッチングは演算Ｓ＝Ｘ＋Ｙ×Ｚの実行の手段によって行われ、ここで、ベクトルＸは計算ユニット１８の入力１９に対して印加され、このベクトルのすべてのビットの値は０であり、そして計算ユニット１８の第２メモリ・ブロックの中に行列Ｚが格納され、それがスイッチングの規則を定義する。また、行列Ｚは次の条件を満足する必要がある。すなわち、行列Ｚのｋ番目のロウとｍ番目のカラムの交点にある要素Ｚ_k,mが、ベクトルＳのｍ番目の要素ＳｍがベクトルＹのｋ番目の要素Ｙ_kに等しいことが要求される場合に、値が１‐００．．．０１）ｂでなければならず、それ以外の場合はその値は０‐００．．．００）ｂでなければならないこと；行列Ｚのｋ番目のロウであるＺ_kのフォーマットがベクトルＳのフォーマットと同じであること；そして行列Ｚの各カラムが、値が１である要素を２つ以上は含まないこと（ｋ＝１，２，．．．，Ｋ；ｍ＝１，２，．．．，Ｍ）である。ベクトルＳの必要なフォーマットを定義している制御ワードＨを第５のレジスタ５に対して、ベクトルＹの必要なフォーマットを定義している制御ワードＥを第６レジスタ６に対して、そして交換規則を定義している行列Ｚを計算ユニット１８の第２メモリ・ブロックに対してロードする上記手順がスイッチング動作の前に前もって行われる必要がある。演算Ｓ＝Ｘ＋Ｙ×Ｚは１クロック・サイクルで実行され、一方、計算ユニット１８の第１メモリ・ブロックへの行列Ｚのローディングのプロセスは、Ｎ／Ｊ個のクロック・サイクル以上を占める。したがって、ニューラル・プロセッサのコンピューティング・リソースの効果的な使用は、データ・ベクトルのパッケージが処理される時、そしてそれをサポートするために、第２メモリ・ブロックが計算ユニット１８に対して組み込まれ、１つのレジスタではなく、２ポートのＦＩＦＯが中間結果のアキュムレータの１０として使われている時だけ達成される。パッケージ処理において、計算ユニット１８の入力１９および２０のそれぞれに対してシーケンシャルに印加される入力オペランド・ベクトルの組が、次々に処理されるサブセット（パッケージ）に分割される。計算ユニット１８の入力１９および２０のそれぞれに対してシーケンシャルに印加され、そしてτ番目のパッケージに対して含められる入力オペランド・ベクトルの組を次のデータ・ベクトルの形式で表すことができる。ここで、Ｔ_τはすべてのτ番目のパッケージの中に含められているベクトルの数である。また、１つのパッケージの中のすべてのベクトルのフォーマットが同じである必要がある。すなわち、第５および第６のレジスタの内容は１つのパッケージの処理中には変化せずに残っている必要がある。 τ番目のパッケージＸ^τおよびＹ^τの処理はＴ_τクロック・サイクルで実行される。そしてｔ番目のクロック・サイクルにおいて、計算ユニット１８および加算器回路３０は次の演算を実行する。ここで、Ｚ^τは計算ユニット１８の第２メモリ・ブロックの内容であり、それは τ番目のパッケージＸ^τおよびＹ^τの処理の間、変わらずに残っている必要がある。τ番目のパッケージＸ^τおよびＹ^τの処理の全体プロセスは、結果の累積を伴うデータ行列Ｚ^τによるデータ行列Ｙ^τの乗算の手順とみなすことができる。 τ番目のベクトルのパッケージ処理と同時に、（τ＋１）番目のパッケージＸ^τ+1 のベクトルのフォーマットを定義している制御ワードＨ^τ1の第４レジスタ４へのローディング、（τ＋１）番目のパッケージＹ^τ+1のベクトルのフォーマットを定義している制御ワードＥ^τ+1のシフト・レジスタ７に対するローディング、および第１のＦＩＦＯ９から計算ユニット１８の第１メモリ・ブロックへの行列Ｚ^τ+1の転送の上記の手順が次々に実行される。（τ＋１）番目のパッケージＸ^τ+1のベクトルのフォーマットがτ番目のパッケージＸ^τのフォーマットと異なっている時だけ第４レジスタ４に対して新しい値をロードすることが必要であり、そして（τ＋１）番目のパッケージＹ^τ+1のベクトルのフォーマットが τ番目のパッケージＹ^τのベクトルのフォーマットと異なっている場合にのみ、シフト・レジスタ７に対して新しい値をロードする必要がある。この手順はＮ／Ｊ＋２より多いクロック・サイクルは占有しない。上記のプロセスの両方が完了すると、第４レジスタ４から第５レジスタ５へのワードＨ^τ+1の転送、シフト・レジスタ７から第６レジスタ６へのワードＥ^τ+1 の転送、そして計算ユニット１８の第１メモリ・ブロックから第２メモリ・ブロックへの行列Ｚ^τ+1の転送を同時に開始するアクティブ信号が、ニューラル・プロセッサの制御入力２７に印加される。これらの転送はすべて１クロック・サイクルで実行される。すべてのτ番目のパッケージにおけるベクトルＴ_τの数はプログラム・モードにおいて決定されるが、それは第２のＦＩＦＯ１０の中のセルの数に等しい値Ｔ_maxを超えてはならない。他方、Ｔ_τがＮ／Ｊ＋２より小さいベクトルのパッケージを使うことは得策ではない。というのは、この場合、ニューラル・プロセッサのコンピューティング・ファシリティが効率的に使われないからである。第１のＦＩＦＯ９から計算ユニット１８の第１メモリ・ブロックへの行列Ｚ^τ+1 の転送と同時に、ニューラル・プロセッサ第１入力バス３５から第１のＦＩＦＯ９への行列Ｚ^τ+2，Ｚ^τ+3などを構成する第３オペランド・ベクトルの次々のローディングを実行することができる。その同時プロセスはすべてニューラル・プロセッサの出力４８および４９に対して印加される第１（９）および第２（１０）のＦＩＦＯの状態の信号を解析する手段によって、そしてニューラル・プロセッサの対応している入力に対して印加される制御信号の手段によって同期化される。３から２へのスイッチ１１およびマルチプレクサ１２は交換システムを形成し、そのために、第２のＦＩＦＯ１０の内容またはニューラル・プロセッサの入力バス３５または３６の１つから供給されるデータを、計算ユニット１８の第２オペランド・ベクトルの入力２０に対するように、第１オペランド・ベクトルの入力１９に対して印加することができる。さらに、ニューラル・プロセッサの制御入力４０に対するアクティブ信号の供給によって、ニューラル・プロセッサの第１入力バス３５から以前に書き込まれたレジスタ１の内容を、計算ユニット１８の入力１９に印加することができる。計算ユニット１８の入力１９および２０に対して印加されるデータのソースの選択は、ニューラル・プロセッサの制御入力３８および３９上に信号のある種の組合せを設定する手段によって行われる。そしてデータのソースが第２のＦＩＦＯ１０であった場合、第２のＦＩＦＯ１０から読み出すことをイネーブルする信号がニューラル・プロセッサの制御入力４７に印加される必要がある。計算ユニット１８の入力１９および２０に対して、第２のＦＩＦＯ１０から、あるいはニューラル・プロセッサの入力バス３５または３６のうちの１つから印加されるデータのベクトルは飽和ユニット１３および１４を通過する。ユニット１３および１４はそれぞれ１クロック・サイクルにおいて、このデバイスの入力１５に印加されるベクトルＤ＝（Ｄ₁ Ｄ₂ Λ Ｄ_L）の各要素から飽和関数を計算する。ベクトルＤはこのベクトルの要素であるＬ個のパックされたデータの２の補数表示でのＮビットのワードである。ベクトルＤのフォーマットは上記のベクトルＸのフォーマットと同じである。しかし、これらのベクトルはそれらの中にパックされている要素の個数および別々のデータのワード長において異なる可能性がある。ベクトルＤを構成しているデータの最小限のワード長は２に等しい。ベクトルＤの中のデータの数Ｌは１からＮ／２までの任意の整数値であってよい。しかし、１つのベクトルＤの中にパックされるすべてのデータの合計ワード長は、次の式で示されるようにそのワード長に等しい必要がある。飽和ユニット１３または１４の出力１７において、ベクトルＦ＝（Ｆ₁ Ｆ₂ Λ Ｆ_L）が発生され、そのフォーマットはベクトルＤのフォーマットと同じである。そしてベクトルＦのλ番目の要素Ｆ_λはベクトルＤのλ番目のオペランドＤ_λについて次のように飽和関数を計算した結果である。ここで、Ｑ_λはオペランド・ベクトルＤ_λ（λ＝１，２，．．．，Ｌ）に対して計算される飽和関数のパラメータである。ユニット１３および１４によって計算される飽和関数の一般的な概念が図２に示されており、次の式によって記述することができる。符号ビットを考慮しない場合のベクトルＦの要素Ｆ_λの中の意味のあるビットの数はパラメータＱ_λ（λ＝１，２，．．．，Ｌ）の値に等しい。値Ｑ_λはオペランドＤ_λおよびＦ_λのワード長Ｎ”_λより小さい必要がある。ベクトルＤおよびＦの必要なフォーマットに対して、また、実装されている飽和関数のパラメータの必要な値に対して飽和ユニット１３または１４のそれぞれのハードウェアをチューニングすることは、前記ユニットの制御入力１６に対してＮビットの制御ワードＵを設定する手段によって行われる。そしてワードＵのビットは次の値を有する必要がある。第１ビットから（Ｑ₁ ）番目のビットまではそれぞれ値が０であり、（Ｑ₁＋１）番目から（Ｎ₁”）番目のビットまではそれぞれ値が１であり、（Ｎ₁”＋１）番目から（Ｎ₁”＋Ｑ₂ ）番目までのビットはそれぞれ値が０であり、（Ｎ₁”＋Ｑ₂＋１）番目から（Ｎ₁ ”＋Ｎ₂”）番目までのビットはそれぞれ値が１であり、以下同様である。一般的なケースにおいては、までのビットは、それぞれ値が１でなければならない（λ＝１，２，．．．，Ｌ）。ワードＵのｎ番目のビットの値が１に等しく（ｕ_n＝１）、そして（ｎ＋１）番目のビットの値が０に等しい（ｕ_n+1＝０）場合、飽和ユニット１３または１４はベクトルＤのｎ番目のビットをこのベクトルの対応している要素の最上位（符号）ビットとみなす。ワードＵの中の０のビットの数は結果のベクトルＦのすべての要素の中の意味のあるビットの合計数に等しい。Ｕ＝（１００．．．０）ｂであった場合、飽和ユニット１３または１４の入力１５からのデータは変化せずに出力１７へ通過する（Ｆ＝Ｄ）。第１の飽和ユニット１３の制御ワードはニューラル・プロセッサの第１入力バス３５から第２レジスタ２にロードされる。レジスタ２の出力は飽和ユニット１３の制御入力１６に接続されている。このロードは第２レジスタ２の制御入力４１に印加されるアクティブ信号の手段によって１クロック・サイクルで実行される。第２の飽和ユニット１４の制御ワードはニューラル・プロセッサの第１入力バス３５から第３レジスタ３へロードされ、レジスタ３の出力は飽和ユニット１４の制御入力１６に接続されている。このロードは第３レジスタ３の制御入力４２に印加されるアクティブ信号の手段によって１クロック・サイクルで実行される。飽和ユニット１３および１４は、入力のオペランド・ベクトルが処理される時に算術的オーバフローを防止するために有効な媒体である。１３または１４の各飽和ユニットによって、処理されるデータ・ベクトルの要素の中の意味のあるビットの数だけを減らすことができる。そのデータ・ベクトルの別々の要素のワード長およびそのフォーマットは不変のままである。同時に、ある場合には、この要素の符号ビットの拡張であるすべての上位ビットを捨てる手段によって、結果ベクトルのすべての要素のワード長を減らしてデータ・ベクトルの要素に対する飽和関数を計算することが得策である。飽和ユニット１４の出力１７において発生される、ベクトルＦ＝（Ｆ₁ Ｆ₂ Λ Ｆ_L）の要素のそのようなワード長の削減および、この削減によるベクトル内での要素の再パッケージ化は、計算ユニット１８および加算器回路３０の手段によって１クロック・サイクルで実行することができ、それは２ＬのダイレクションからＬ＋１へのデータのスイッチとして動作する。一例として、加算器回路３０の出力３４において発生されるベクトルＦのベクトルＳ＝（Ｓ₁ Ｓ₂ Λ Ｓ_L+1）への変換が以下に説明される。ここで、λ番目の要素Ｓ_λはベクトルＦのλ番目（λ＝１，２，．．．，Ｌ）の要素Ｆ_λの下位（意味のある）ビットのＱ_λ＋１であり、ベクトルＳの最上位ビットにある（Ｌ＋１）番目の要素Ｓ_L+1は（００．．．０）ｂに等しい。ユニット１４の出力１７において発生されるベクトルＦは、計算ユニット１８の入力２０に対して印加されるベクトルＹ＝（Ｙ₁ Ｙ₂ Λ Ｙ_2L）の形式で表すことができ、ここで、要素のλ番目のペアの第１の要素Ｙ₂ _λ-1および第２の要素Ｙ₂ _λは、それぞれベクトルＦのλ番目の要素Ｎ_λ”との要素Ｆ_λの下位のＱ_λ＋１および最上位のＮ_λ”−Ｑ_λ−１のビットである（ λ＝１，２，．．．，Ｌ）。データ・スイッチング・モードにおいては、０の値が計算ユニット１８の入力１９に対して印加され、そしてこのことによって計算ユニット１８の第２メモリ・ブロックの中に格納されるベクトルＹに行列Ｚを乗算した結果が、加算器回路３０の出力３４において発生される。この結果は、上記のベクトルＳのフォーマットを定義している制御ワードＨが第５レジスタ５の中に格納され、上記のベクトルＹのフォーマットを定義している制御ワードＥが第６レジスタ６の中に格納され、そして２Ｌ個のロウのそれぞれの中にＬ＋１個の要素お含んでいる行列Ｚが計算ユニット１８の第２メモリ・ブロックの中に格納されている場合、要求されたフォーマットのベクトルＳとなる。また、行列Ｚは次の条件を満足する必要がある。すなわち、行列Ｚのλ番目のカラムの各要素のワード長はＱ_λ＋１に等しくなければならない；行列Ｚの（2λ−1）番目のロウとλ番目のカラムとの交点にある要素Ｚ₂ _λ-1、λの値は１‐（００．．．０１）ｂでなければならず、そして行列Ｚの残りの要素の値は０‐（００．．．００）ｂ（λ＝１，２，．．．，Ｌ）でなければならない。飽和ユニット１４の出力１７において発生される、ベクトルＦの転送の上記の動作の実行において、ベクトルＸ＝（Ｘ₁ Ｘ₂ Λ Ｘ_M+1）が計算ユニット１８の入力１９に印加され、その第１要素Ｘ₁が０に等しく、そのワード長が出力３４において発生され、ここで、λ番目の要素Ｓ_λはベクトルＦのλ番目の（λ＝１，２，．．．，Ｌ）要素Ｆ_λの下位（意味のある）ビットのＱ_λ＋１であり、（Ｌ＋ｍ）番目の要素はベクトルＸのｍ＋１番目の要素Ｘ_m+1（ｍ＝１，２，．．．，Ｍ）に等しい。したがって、ニューラル・プロセッサによって入力データ・ベクトルの要素についての飽和を実行すること、そしてその得られた結果を別の入力データ・ベクトルに対して１クロック・サイクルでパックすることができる。ニューラル・プロセッサの主な機能は各種のニューラル・ネットワークのエミュレーションである。一般の場合において、１つのニューラル・ネットワーク層は、Ω個のニューロンから構成され、Θ個のニューラル入力を備えている。そしてω番目のニューロンはそのニューロンのバイアスＶωを考慮に入れて、それぞれのニューラル入力に対して印加されるΘ個のデータＣ₁，Ｃ₂，．．．，Ｃ_Θの重み付けられた合計演算を次の式のように実行する。２，．．．，Θ；ω１，２，．．．，Ω）である。次に、ω番目のニューロンは重み付けられた合計演算の結果Ｇωについて飽和関数Ψ_Q _ωを次のように計算する。ニューラル・プロセッサによって実施される飽和関数の一般的な概念が図２に示されている。入力データ、重み係数バイアス値および結果はすべて２の補数として表されている。提案されているニューラル・プロセッサの特異性は、ブログラム・モードにおいて次のニューラル・ネットワーク・パラメータをユーザが設定できることである。それらは、層の数、各層におけるニューロンおよびニューラル入力の数、各ニューラル入力におけるデータのワード長、各重み係数のワード長、各ニューロンの出力値のワード長および、各ニューロンに対する飽和関数のパラメータである。１つのニューラル・プロセッサが、実際的に無制限のサイズのニューラル・ネットワークをエミュレートすることができる。ニューラル・ネットワークは層ごとに（層から層へシーケンシャルに）エミュレートされる。各ニューラル・ネットワーク層は順次処理されるフラグメントに分割されている。この分割は次の方法で行われる。１つの層のニューラル入力の集合がグループに分けられ、各グループの入力のすべての入力に対して印加されるデータの合計ワード長が、そのニューラル・プロセッサのワード長Ｎに等しいようにされる。１つの層のニューロンの集合は、ニューロンのグループに分けられ、各ニューロン・グループに対するすべての入力データの重み付けられた合計演算の結果の合計ワード長が、そのニューラル・プロセッサのワード長Ｎに等しいようにされる。また、ニューラル・ネットワーク層全体が機能の異なる２つのタイプのフラグメントに分割される。第１のタイプの各フラグメントは、１つのニューロン・グループからのすべてのニューロンに対して、入力の１つのグループの中に含められるすべてのニューラル入力に対して印加されたデータの重み付けられた合計演算を実行する。第２のタイプの各フラグメントはすべての入力データの重み付けられた合計演算の結果についての飽和関数の計算の手段によって、１つのニューロン・グループからのすべてのニューロンに対する出力値を発生する。図３は上記のニューラル・ネットワーク層のフラグメントへの分割の例として使うことができる。このために、図３に示されている各ブロックが、Ｎビットのデータ・ベクトルについて演算を実行すると考えること、そしてこの図の中の指定を次のように扱うことが必要である。印加されるデータのベクトル。Ｖ_ω‐ω番目のニューロン・グループ（ω＝１，２，．．．，Ω）のバイアス値のベクトル。入力データの重み係数の行列。Ｇ_ω‐ω番目のニューロン・グループ（ω＝１，２，．．．，Ω）の中の入力データの重み付けられた合計演算の結果のベクトル。Ｒ_ω‐ω番目のニューロン・グループ（ω＝１，２，．．．，Ω）の出力値のベクトル。図３において、乗算および加算を実行している一対のデバイスは、第１のタイプの各フラグメントに対応し、そして１つの飽和ユニットが第２タイプの各フラグメントに対応する。１つのニューラル・プロセッサ上でのニューラル・ネットワーク全体のエミュレーションのプロセスはΩ個の連続的に実行される手順の形式で示すことができ、それらの各手順は１つのニューロン・グループをエミュレートし、Θ＋１個の次々に実行されるマクロ演算から構成され、それらの各演算は１つのニューラル・ネットワーク層目のグループに対して印加されたデータの、結果の累積を伴う重み付けられた合計演のタイプのフラグメントをエミュレートし、それは対応しているニューロン・グループに対して、すべてのニューラル入力に対して印加されたデータの重み付けられた合計値について飽和関数を実行する。ニューラル・ネットワーク層のエミュレーションの間に実行される各マクロ演算は、準備のフェーズおよび実行のフェーズを有している。ニューラル入力に対して印加されたデータは、パッケージ・モードで、各パッケージにおいてＴ個の入力データごとに処理される。ニューロンのエミュレーション手順のω番目のグループの最初のマクロ演算の準備フェーズの間に、次の演算が次々に実行される。ベクトルＶωがニューラル・プロセッサの第１入力バス３５から第１レジスタ１へロードされる。ニューラル・プロセッサの第１入力バス３５から第４レジスタ４へ制御ワードがロードされ、それはすべてベクトルＶωとすべての部分和のフォーマットを定義する。１つの制御ワードがニューラル・プロセッサの第１入力バス３５からシフト・レジスタ７へロードされ、それはニューラル入力の第１グループに印加されるデータ・ベクトルのフォーマットを定義する。行列Ｗ_1, _ωが第１のＦＩＦＯ９から転送され、ここで、この行列はニューラル・プロセッサの第１入力バス３５から、計算ユニット１８の第１メモリ・ブロックへ以前にロードされていなければならない。 ω番目のニューロン・グループのエミュレーション手順の第１のマクロ演算の実行フェーズのｔ番目のクロック・サイクルごとに、Ｖωが第１レジスタ１から計算ユニット１８の第１オペランド・ベクトル１９の入力に印加され、そして、入力データのｔ番目の組であるベクトルＣ^t ₁が、その層のニューラル入力の第１グループから供給されてニューラル・プロセッサの第２入力バス３６から計算ユニット１８の第２オペランド・ベクトル２０の入力に対して印加される（ｔ＝１，２，．．．，Ｔ）。また、計算ユニット１８および加算器回路３０は次の部分積ベクトルを発生する。これは第２のＦＩＦＯ１０へ書き込まれる。そして、第２のニューロン・グループのエミュレーションの手順かスタートして、この演算と同時にニューラル・プロセッサの出力バス３７経由で第２のＦＩＦＯ１０のセルの１つの内容の外部メモリへの転送が各クロック・サイクルにおいて実行される。 ω番目のニューロンのエミュレーション手順のθ番目のマクロ演算（θ＝２，３，．．．．，Θ）の準備のフェーズの間に、次の演算が次々に実行される。１つの制御ワードがニューラル・プロセッサの第１入力バス３５からシフト・レジスタ７へロードされ、それはニューラル入力のθ番目のグループに対して印加されるデータ・ベクトルのフォーマットを定義する。行列Ｗ_θ,ωが第１のＦＩＦＯ９から転送され、ここで、この行列はニューラル・プロセッサの第１入力バス３５から、計算ユニット１８の第１メモリ・ブロックへ以前にロードされていなければならない。 ω番目のニューロン・グループのエミュレーション手順のθ番目のマクロ演算（θ＝２，３，．．．，Θ）の実行フェーズのｔ番目のクロック・サイクルごとに、前のマクロ演算の結果として発生された部分積ベクトルＧ^t _θ-1,ωが第２のＦＩＦＯ１０から計算ユニット１８の第１オペランド・ベクトルの入力１９へ印加され、そして入力データのｔ番目の組であるベクトルＣ^t _θが、その層のニューロン入力のθ番目のグループを提供し、ニューラル・プロセッサの第２入力バス３６から計算ユニット１８の第２オペランド・ベクトルの入力２０へ印加される（ｔ＝１，２，．．．，Ｔ）。また、計算ユニット１８および加算器回路３０は次の部分積ベクトルを形成する。これが第２のＦＩＦＯ１０へ書き込まれる。ニューロン・グループのすべてのエミュレーション手順のうちのΘ個の第１のマクロ演算の実行において、入力データの重み付けられた合計演算の間の算術的オーバフローの可能性を排除するため、部分和の値を制限するために、飽和ユニット１３を使うことができる。この場合、マクロ演算の準備のフェーズはニューラル・プロセッサの第１入力バス３５からの第２レジスタ２への制御ワードのロードを含む必要がある。 ω番目のニューロン・グループのエミュレーション手順の（Θ＋１）番目のマクロ演算（θ＝２，３，．．．，Θ）の準備フェーズの間に次の演算が次々に実行される。１つの制御ワードがニューラル・プロセッサの第１入力バス３５から第３レジスタ３へロードされ、それはω番目のニューロン・グループに対して計算される飽和関数のパラメータを定義する。次に、その飽和関数の計算の結果の圧縮およびパッキグングの実行のために必要な制御データが、第４レジスタ４に対して、シフト・レジスタ７に対して、そして計算ユニット１８の第１メモリ・ブロックに対してロードされる。 ω番目のニューロン・グループのエミュレーションの手順の（Θ＋１）番目のマクロ演算の実行フェーズのｔ番目のクロック・サイクルごとに、部分和ベクトルＧ^t _Θ,ωが飽和ユニット１４の入力１５に対して第２のＦＩＦＯ１０から印加され、そして、この結果として、次のベクトルが飽和ユニット１４の出力１７において発生される。これは次に計算ユニット１８の入力２０に印加される。計算ユニット１８および加算器回路３０はベクトルＲ^t _ωのすべての要素から、符号ビットの拡張であるすべてのビットを除去する手段によって、ベクトルＲ^t _ωを圧縮する。この場合、０のベクトルが計算ユニット１８の入力１９に印加されるのではなく、ニューラル・プロセッサの入力バス３５または３６のうちの１つからデータ・ベクトルが印加された場合、ベクトルＲ^t _ωの圧縮の結果はその入力データ・ベクトルに対してパックされることになる。（ω−１）番目のニューロン・グループのエミュレーション手順の（Θ＋１）番目のマクロ演算の実行フェーズのｔ番目のクロック・サイクルにおいて得られ、そして外部メモリに格納された結果を、そのようなベクトルとして使うことができる。その結果が第２のＦＩＦＯ１０へ記録される。ニューラル・ネットワークのフラグメントのエミュレーションの任意のマクロ演算が実行中である時、準備フェーズから実行フェーズへの切り換わりが、実行フェーズの第１クロック・サイクルに先立って１クロック・サイクルにおいてニューラル・プロセッサの制御入力２７に対してアクティブ信号を供給することによって発生する。そして、第４レジスタ４の内容が第５レジスタ５へ書き直され、シフト・レジスタ７の内容が第６レジスタ６へ書き直され、そして計算ユニット１８の第１メモリ・ブロックの内容がその第２メモリ・ブロックへ転送される。マクロ演算の次々の実行がパイプライン・モードでニューラル・プロセッサによって実行され、その中で現在のマクロ演算の実行フェーズが次のマクロ演算の準備フェーズと同時に実行される。マクロ演算の準備フェーズのすべての動作の実行に必要なクロック・サイクルの数は、ニューラル・プロセッサのレジスタにロードされている制御ワードの数に依存して、Ｎ／ＪからＮ／Ｊ＋４までの範囲内にある。任意のマクロ演算の実行フェーズに対して必要なクロック・サイクルの数は、ユーザによって割り当てられた処理された入力データ・セットＴの数に等しい。したがって、マクロ演算の実行の最小限の周期は準備フェーズの持続時間によって決定され、Ｎ／Ｊ個のプロセッサ・クロック・サイクルの持続時間に等しい。Ｎ／Ｊに等しい値を選択するのが得策である。というのは、Ｔより小さい値では、ニューラル・プロセッサ・ユニットは効率的には使われず、Ｔより大きい値では、ニューラル入力における次のデータ・セットに対するニューラル・プロセッサの反応時間が増加し、そのことはリアルタイムのニューラル・ネットワークのエミュレーションにとっては望ましくない。一般のケースにおいては、ニューラル・ネットワーク層のエミュレーションのプロセスはΩ×（Θ＋１）個のフラグメントに分割され、Ｔ個の入力データ・セットに対してΩ×（Θ＋１）×Ｔ個のクロック・サイクルで、ただし、Ω×（Θ ＋１）×Ｎ／Ｊ個のクロック・サイクルより少なくないサイクルで、１つのニューラル・プロセッサ上で実行される。すべてのニューラル入力に対して印加されるデータの合計ワード長、およびすべてのニューロンに対する重み付けられた合計演算の結果の合計ワード長が、そのニューラル・プロセッサのビット長Ｎをそれぞれ超えないような小規模なニューラル・ネットワークは、２つのマクロ演算の実行によってエミュレートされる。第１のマクロ演算はその層のすべてのニューロンに対するすべての入力データの重み付けられた合計演算をエミュレートし、そして第２のマクロ演算は、その層のすべてのニューロンに対する飽和関数の計算をエミュレートする。ニューラル・プロセッサにおいて２つの入力バス３５おび３６と、１つの出力バス３７が存在することによって、それに基づいて効果的なマルチプロセッサ・システムを生成することができる。Ξ個のニューラル・プロセッサから構成されているシステムは１つのニューラル・プロセッサのシステムおりΞ倍速くニューラル・ネットワーク層をエミュレートする。極端なケースにおいては、すべての層のすべてのフラグメントを別々のニューラル・プロセッサによってエミュレートすることができる。ニューラル・プロセッサのメインのユニットは計算ユニット１８である。図４はプログラム可能なワード長のデータについて演算を実行するための計算ユニット１８の可能な実装の１つのブロック図を開示しており、すべてのＮビット・ベクトル・オペランド上でＪビットの算術的左シフトを実行してそれをその中に格納するシフト・レジスタ５０（その中に格納されているすべてのＮビットのベクトル・オペランドについてＪビットの算術的左シフトを実行し、ここで、Ｊは計算ユニット１８の第２オペランド・ベクトルの中のデータ・ワード長の整除部分である最小限の値である）と、遅延要素５１と、第１メモリ・ブロック５２（シーケンシャル入力ポートと、Ｎビットのデータを格納するためのＮ／Ｊ個のセルとを含んでいる）と、第２メモリ・ブロック５３（Ｎビットのデータを格納するためのＮ／Ｊ個のセルを含んでいる）と、Ｎ／Ｊの乗算器ブロック５４（その各乗算器がブログラム可能なワード長のデータのＮビットのベクトルをＪビットの乗数で乗算する）と、ベクトル加算回路５５（Ｎ／Ｊ個のプログラム可能なワード長のデータ・ベクトルの合計値の部分積を発生する）とを含んでいる。計算ユニット１８の第３オペランド・ベクトルの入力２１は、シフト・レジスタ５０のデータ入力に接続され、シフト・レジスタ５０の出力は第１メモリ・ブロック５２のデータ入力に接続され、第１メモリ・ブロック５２は、各セルの出力が、第２メモリ・ブロック５３のそれぞれのセルのデータ入力に接続され、第２メモリ・ブロック５３の各セルの出力がそれぞれの乗算器ブロック５４の被乗数ベクトルのビットの入力に接続され、乗算器ブロック５４の乗数ビットの入力が計算ユニット１８の第２オペランド・ベクトルのビットのそれぞれのＪビット・グループの入力２０に接続されている。各乗算器ブロック５４の出力がベクトル加算回路５５のそれぞれの被加算値ベクトルのビットの入力に接続され、ベクトル加算回路５５は被加算値ベクトルのビットの（Ｎ／Ｊ＋１）番目の入力が計算ユニット１８の第１オペランド・ベクトルの入力１９に接続され、計算ユニット１８の第３オペランド・ベクトルに対するデータ境界設定の入力２４がシフト・レジスタ５０のオペランド・ベクトルに対するデータ境界設定のそれぞれの入力に接続され、シフト・レジスタ５０は、モード選択入力が計算ユニット１８の第１メモリ・ブロックへの第３オペランド・ベクトルのロード制御の第１入力２５に接続され、計算ユニット１８は、第１メモリ・ブロックへの第３オペランド・ベクトルのロード制御の第２入力２６がシフト・レジスタ５０のクロック入力に対して、そして遅延要素５１の入力に接続され、遅延要素５１の出力が第１メモリ・ブロック５２の書込み制御入力に接続されている。第２メモリ・ブロック５３の書込み制御入力が、計算ユニット１８の第１メモリ・ブロックから第２メモリ・ブロックへの第３オペランド行列の再ロード制御の入力２７に接続され、計算ユニット１８の第２オペランド・ベクトルに対するデータ境界設定のすべての入力２３が、それぞれの乗算器ブロック５４の符号訂正の入力に接続されている。計算ユニット１８の第１オペランド・ベクトルに対する、そして結果ベクトルに対するデータ境界設定の入力２２が、各乗算器ブロック５４の被乗数ベクトルに対する、そして結果ベクトルに対するデータ境界設定の入力に対して、そしてベクトル加算回路５５の被加算値ベクトルおよび結果ベクトルに対するデータ境界設定の入力に接続され、ベクトル加算回路５５は、結果の第１および第２の被加算値ベクトルのビットの出力がそれぞれ計算ユニット１８の出力２８および２９となっている。計算ユニット１８は次のように動作する。計算ユニット１８の第２メモリ・ブロック５３に対する行列Ｚのローディングの手順は、２つのステージにおいて実行される。最初に、Ｎ／Ｊ個のクロック・サイクルごとに、行列Ｚがメモリ・ブロック５２に対してロードされる。そして行列Ｚ’のｉ番目のロウはデータ・ベクトルＺ’_i＝（Ｚ’_i,1，Ｚ’_i,2ＫＺ’_i,M）であり、それは次にベクトルＹのビットのｉ番目のＪビット・グループによって乗算される（ｉ＝１，２，．．．，Ｎ／Ｊ）。すべてのベクトルＺ’₁，Ｚ’₂，．．．，Ｚ’_N/JのフォーマットはベクトルＺ₁，Ｚ₂，．．．，Ｚ_kのすべてのフォーマットと同じである。行列Ｚは、行列Ｚのｋ番目のロウＺ_k（ｋ＝１，２，．．．，Ｋ）を、次の式に従って発生される行列Ｚ’のＮ’_k／Ｊ個のロウＺ’_Ik-1＋₁，Ｚ’_Ik-1 ＋₂，．．．，Ｚ’_Ik-1＋_N'k/Jで置き換えることによって、行列Ｚ’に変換される。ここで、Ｉ_kは、ベクトルＹのｋ個の第１オペランドの中のビットのＪビット・グループの合計数であり、Ｎ’_kはベクトルＹのｋ番目の要素Ｙ_kのワード長である。上記の式から、Ｚ’₁＝Ｚ₁,Ｚ’_N,k/J+1＝Ｚ₂，Ｚ’_{(N'1+N'2)/J+1}＝Ｚ₃、などの関係がある。それは行列Ｚのすべてのロウが行列Ｚ’の中に存在するが、規則として他の位置に存在することを意味する。行列Ｚはシフト・レジスタ５０の手段によって、Ｎ／Ｊ個のクロック・サイクルごとに行列Ｚ’に変換される。これらのＮ／Ｊ個の各クロック・サイクルにおいて、クロック信号が計算ユニット１８の制御入力２６に印加され、そしてこのクロック信号がシフト・レジスタ５０のクロック入力を供給し、そして上記のＮビットの制御ワードＨが計算ユニット１８の入力２４に対して連続的に印加され、そしてこの制御ワードがシフト・レジスタ５０のオペランド・ベクトルに対するデータ境界設定の入力を供給する。ｉ番目のクロック・サイクル（ｉ＝１，２，．．．，Ｎ／Ｊ）において、上記の（Ｎ／Ｊ）ビットの制御ワードＥのｉ番目のビットｅ_iが計算ユニット１８の制御入力２５に印加される。この信号はシフト・レジスタ５０のモード選択入力を供給する。（Ｉ_k-1＋１）番目のクロック・サイクルにおいて（ｋ＝１，２，．．．，Ｋ）、ワードＥの値が１であるビットが計算ユニット１８の入力２５に対して印加されると、シフト・レジスタ５０はそのモードを計算ユニット１８の入力２１に対して印加されているベクトルＺ_kのロードへ変更する。残りのＮ／Ｊ−Ｋ個の各クロック・サイクルにおいて、ワードＥの値が０であるビットが計算ユニット１８の入力２５に対して印加され、シフト・レジスタ５０は、その中に格納されているデータ・ベクトルについてＪビットの算術的左シフトを実行する。したがって、行列Ｚを行列Ｚ’に変換するブロセスのｉ番目のクロック・サイクル（ｉ＝１，２，．．．，Ｎ／Ｊ）が終了すると、ベクトルｚ’_iがシフト・レジスタ５０の中に格納される。シフト・レジスタ５０の出力からのデータが、シーケンシャル入力ポートを含んでいる第１メモリ・ブロック５２のデータ入力に対して印加される。行列Ｚを行列Ｚ’へ変換するプロセス全体の間の各クロック・サイクルにおいて計算ユニット１８の入力２６に印加されるクロック信号は、遅延要素５１（普通のインバート・ゲートであってよい）を通過して、計算ユニット１８の第１メモリ・ブロック５２の書込み制御入力に入る。したがって、行列Ｚ’の計算ユニット１８の第１メモリ・ブロック５２に対するローディングが、行列Ｚの行列Ｚ ’の変換と同時に発生する。そのローディングのプロセスの終わりにおいて、ベクトルＺ’_i（ｉ＝１，２，．．．，Ｎ／Ｊ）が計算ユニット１８の第１メモリ・ブロック５２のｉ番目のセルの中に格納される。その後、クロック信号が１クロック・サイクルごとに計算ユニット１８の制御入力２７に印加され、この信号によって第１メモリ・ブロック５２のすべてのセルの内容が計算ユニット１８の第２メモリ・ブロック５３の対応しているセルに対して再書込みされる。したがって、行列Ｚ’は計算ユニット１８の第１メモリ・ブロック５２から第２メモリ・ブロック５３へ１クロック・サイクルで転送される。次のクロック・サイクルからスタートして、計算ユニット１８の実行ユニット（それらは乗算器ブロック５４およびベクトル加算回路５５である）が、演算Ｘ＋Ｙ×Ｚの部分積を各クロック・サイクルにおいて発生する。そしてｉ番目の乗算器ブロック５４は、計算ユニット１８の第２メモリ・ブロック５３のｉ番目のセルの中に格納されているベクトルＺ’_iの、計算ユニット１８の入力２０に対して印加されているベクトルＹのビットＹ’_iのｉ番目のグループによる乗算の部分積を発生するために使用する。制御ワードＥが計算ユニット１８の入力２３に印加され、そしてこのワードのｊ番目のビットｅ_jが（ｊ−１）番目の乗算器ブロック５４（ｊ＝＝１，２，．．．，Ｎ／Ｊ）の符号訂正入力を供給する。制御ワードＥの最下位ビットｅ₁が（Ｎ／Ｊ）番目の乗算器ブロック５４の符号訂正入力に印加される。したがって、ベクトルＹの要素の１つの最上位ビットのグループが乗数ビットの入力に対して印加される、各乗算器ブロック５４がその乗算を２の補数表示で実行することになる。残りのＮ／Ｊ−Ｋ個の乗算器ブロック５４は、符号および絶対値の表示で動作する。ベクトル加算回路５５は部分積Ｐ₁，Ｐ₂，．．．，Ｐ_N/Jの、そして計算ユニット１８の入力１９に印加されているベクトルＸの合計演算の部分積を発生する。この回路はキャリー・セーブ加算器回路のベースで設計することができる。制御ワードＨが計算ユニット１８の入力２２に印加され、そしてこの制御ワードは、すべての乗算器ブロック５４の被乗数ベクトルに対するデータ境界設定の入力および、ベクトル加算回路５５の被加算値ベクトルに対するデータ境界設定の入力を供給する。この場合、計算ユニット１８の各実行ユニットにおいて、入力ベクトルの異なる要素を処理するこれらのユニットのビット間のキャリー伝播がロックされる。ベクトル加算回路５５の出力において、ベクトルＡおよびＢが発生され、それらの和が次の式で与えられる。部分積をグループ化し、ベクトルＹの別々の要素を参照して、最後の式は次の形式で示すことができる。入れて、前の式は次のように変換される。したがって、演算Ｘ＋Ｙ×Ｚの部分積が、計算ユニットの出力２８および２９において発生される。一般的なケースにおいて、クロック・サイクル・タイムは３から２へのスイッチ１１、飽和ユニット１４、計算ユニット１８および加算器回路３０を次々に接続した合計の伝播遅延時間によって定義される。飽和ユニット１３および１４（データ入力がこれらのユニットの入力１５に接続されている、入力データ・レジスタを含んでいる）と、計算ユニット１８（データ入力が、計算ユニットの入力１９および２０に接続されている、入力データ・レジスタを含んでいる）と、加算器回路３０（データ入力がその加算器回路の入力３１、３２および３３に接続されている、入力データ・レジスタを含んでいる）とを使う場合に、ニューラル・プロセッサの性能を本質的に増大させることができる。ニューラル・プロセッサの実行ユニットの中にそのようなレジスタが存在することによって、データをパイプライン・モードで処理することができ、そのモードは各クロック・サイクルにおいて次の３つのプロセス、すなわち、現在のデータ・セットの重み付けられた合計値の部分積を計算ユニット１８によって発生するプロセス、加算器回路３０において前のデータ・セットの重み付けられた合計値の部分積を加算するプロセス、そしてユニット１３および１４において入力オペランドの次の組に対して飽和関数を計算するプロセスの並列実行を提供する。飽和ユニット１３および１４の、計算ユニット１８の、そして加算器回路３０の最大限の伝播遅延時間がほぼ等しいので、パイプライン・レジスタを組み込むことによって、ニューラル・プロセッサのクロック・レートを実質的に３倍増加させることができる。ブロック図が図５に示されている飽和ユニットは、入力オペランド・ベクトル１５のビットの入力と、制御入力１６および結果ベクトルの出力１７のビットとを備えている。前記ユニットのＮ個の各ビット５６は、第１（５７）および第２（５８）のマルチプレクサを、排他的ＯＲゲート５９と、等価ゲート６０と、ＮＡＮＤゲート６１と、反転入力付きＡＮＤゲート６６とを含む。また、前記ユニットは、キャリー伝播回路６３（初期キャリー入力６４と、別々のビット６５からのキャリー伝播の反転入力と、別々のビット６６からのキャリー入力と、別々のビットに対するキャリーの出力６７とを含んでいる）と、キャリー・ルック・アヘッド回路６８（初期キャリー入力６９と、別々のビットからのキャリー伝播の入力７０と、別々のビット７１のキャリー発生入力と、別々のビットに対するキャリーの出力７２とを含んでいる）とを含む。第１（５７）および第２（５８）のマルチプレクサの第２データ入力および前記ユニットの各ビット５６の排他的ＯＲゲート５９の第１入力が結合されて、前記ユニットの入力オペランド・ベクトルのそれぞれのビットの入力１５に接続され、そのユニットの結果ベクトルの各ビットの出力１７が、前記ユニットのそれぞれのビット５６の第１マルチプレクサの出力５７に接続されている。反転入力付きＡＮＤゲート６２の非反転入力および前記ユニットの各ビット５６のＮＡＮＤゲート６１および等価ゲート６０の第１入力が結合されて、前記ユニットのそれぞれの制御入力１６に対して接続されている。前記ユニットのｑ番目のビット５６の排他的ＯＲゲート５９の第１入力および反転入力付きＡＮＤゲートの非反転入力６２は、それぞれ前記ユニットの（ｑ−１）番目のビットの排他的ＯＲゲート５９の第２入力に対して、そして反転入力付きＡＮＤゲート６２の反転入力に対して接続され、その第２マルチプレクサ５８の第１データがキャリー伝播回路６３の（Ｎ−ｑ＋２）番目のビットに対するキャリーの出力６７（ここで、ｑ＝２，３，．．．，Ｎ）に接続されている。前記ユニットのｎ番目のビット５６のＮＡＮＤゲート６１の出力がキャリー・ルック・アヘッド回路６８の（Ｎ−ｎ＋１）番目のビットを通じてのキャリー伝播の入力７０に接続され、（Ｎ−ｎ＋２）番目のビットに対するキャリーの出力７２が前記ユニットのｎ番目のビット５６の第１マルチプレクサの制御入力５７に接続され、前記ユニットの反転入力付きＡＮＤゲート６２の出力が前記ユニットの同じビット５６の第２マルチプレクサ５８の制御出力に対して、キャリー・ルック・アヘッド回路６８の（Ｎ−ｎ＋１）番目のビットのキャリー発生入力７１に対して、そしてキャリー伝播回路６３の（Ｎ−ｎ＋１）番目のビットからのキャリー伝播の反転入力６５に接続され、キャリー伝播回路の、（Ｎ−ｎ＋１）番目のビットからのキャリー入力６６が前記ユニットのｎ番目のビット５６の第２マルチプレクサ５８の出力に接続されている（ここで、ｎ＝１，２，．．．，Ｎ）。前記ユニットの各ビット５６において、第２マルチプレクサ５８の出力が等価ゲート６０の第２入力に接続され、等価ゲート６０の出力が第１マルチプレクサ５７の第１データ入力に接続され、そして排他的ＯＲゲート５９の出力がＮＡＮＤゲート６１の第２入力に接続されている。排他的ＯＲゲート５９の第２入力と、反転入力付きＡＮＤゲート６２の反転入力と、前記ユニットのＮ番目のビット５６の第２マルチプレクサ５８の第１データ入力と、キャリー伝播回路６３の初期キャリー入力６４と、キャリー・ルック・アヘッド回路の初期キャリー入力６９とが結合されて「０」に接続されている。飽和ユニットの中の回路６３および６８ととして、並列加算器に適用される各種のキャリー伝播回路およびキャリー・ルック・アヘッド回路を使うことができる。キャリー伝播回路６３の最も単純な変形版の実装においては、ｑ番目のビットに対するキャリーの出力６７が（ｑ−１）番目のビットからのキャリー入力６６に接続されている（ここで、ｑ＝１，２，．．．，Ｎ）。飽和ユニットは次のように動作する。入力オペランド・ベクトルＤ＝（Ｄ₁ Ｄ₂ Λ Ｄ_L）のビットが、前記ユニットの入力１５に印加される。ベクトルＤはこのベクトルの要素であるＬ個のパックされたデータの２の補数表示でのＮビット・ワードである。そしてベクトルＤの最下位ビットが第１データＤ₁のビットであり、次に第２データＤ₂のビットが続き、以下同様である。ベクトルＤの最上位ビットはＬ番目のデータＤ_Lのビットである。そのようなパッキングによって、λ番目のデータＤ_λのｖ番目のビットは、のλ番目のデータＤ_λのワード長であり、ｖ＝１，２，．．．，Ｎ_λ（λ＝１，２，．．．，Ｌ）である。ベクトルＤを構成しているデータの最小限のワード長は２に等しい。一般的なケースにおいては、ベクトルＤのλ番目のデータＤ_λの中のビットの数Ｎ_λは２からＮまでの任意の整数であってよく（λ＝１，２，．．．，Ｌ）、そして、このベクトルの中にパックされるデータの数Ｌは１からＮ／２までの数であってよい。唯一の制限は１つのベクトルＤの中パックされるすべてのデータの合計ワード長がそのワード長に等しくなければならないことである。そのユニットは出力１７上にベクトルＦ＝（Ｆ₁ Ｆ₂ Λ Ｆ_L）を発生することを目的しており、Ｆはλ番目の要素Ｆ_λがベクトルＤのλ番目のオペランドＤ_λの飽和関数の結果であるベクトルである。ここで、Ｑ_λは、オペランドＤ_λ（λ＝１，２，．．．，Ｌ）に対して計算される飽和関数のパラメータである。前記ユニットによって計算される飽和関数の一般的な概念が図２に示されており、次の式によって記述することができる。ベクトルＦのフォーマットはベクトルＤのフォーマットと同じである。ベクトルＦの要素Ｆ_λの中の符号ビットを考慮しない意味のあるビットの数はパラメータＱ_λの値に等しく、それはオペランドＤ_λおよびＦ_λのワード長Ｎ_λより小さくなければならない（λ＝１，２，．．．，Ｌ）。前記ユニットのハードウェアをベクトルＤおよびＦの必要なフォーマットに対して、そして実装されている飽和関数のパラメータの必要な値に対してチューニングすることは、前記ユニットの制御ユニット１６に対してＮビットの制御ワードＵを設定する手段によって行われる。また、ワードＵの値は次のようになっていなければならない。すなわち、最初からＱ₁番目までのビットの値はそれぞれ０であり、（Ｑ₁＋１）番目からＮ₁番目までのビットの値はそれぞれ１であり、（Ｎ₁＋１）番目から（Ｎ₁＋Ｑ₂）番目までのビットの値はそれぞれ０であり、（Ｎ₁＋Ｑ₂＋１）番目から（Ｎ₁＋Ｎ₂ ）番目までのビットの値はそれぞれ１であり、以下同様である。一般的なケースにおいては番目までの値はそれぞれ１でなければならない（λ＝１，２，．．．，Ｌ）。ワードＵのｎ番目のビットの値が１に等しく（ｕ_n＝１）、そして（ｎ＋１）番目の値が０に等しい（ｕ_n+1＝０）場合、前記ユニットはベクトルＤのｎ番目のビットをこのベクトルの対応している要素の最上位（符号）ビットとみなす。ワードＵの中の０のビットの数は結果のベクトルＦのすべての要素の中の意味のあるビットの合計数に等しい。前記ユニットのｎ番目のビット５６の反転入力付きＡＮＤゲート６２は信号Ｄを構成している入力オペランドの１つの符号ビットを処理することの指示子である（これ以降ではｎ＝１，２，．．．，Ｎ）。前記ユニットのｎ番目のビット５６の入力オペランドの符号（最上位）ビットの値を有し、そのビットは、ベクトルＤのｎ番目のビットｄ_nである。前記ユニットのすべてのビット５６に対する信号ｖ_nの発生を加速する目的で、キャリー伝播回路６３が使われ、この回路は通常の並列加算器に適用される、シーケンシャルまたはルック・アヘッドのキャリーを備えた任意の既知の回路であってよい。信号ｖ_nが入力および出力のキャリー信号として使われ、そして信号ｇ_nの反転された値が別々のビットを通してキャリー伝播の信号として使われることは、この提案されているユニットにおけるキャリー伝播回路６３の特性である。この場合、キャリーは前記ユニットの最上位ビットから最下位ビットヘ伝播される。前記ユニットのｎ番目のビット５６の排他的ＯＲゲート５９およびＮＡＮＤゲートルＤのｎ番目のビットｄ_nの値がその入力オペランドに対するワードＵによって決定されている飽和領域の超過につながらないことを示し、そのビットはベクトルＤのｎ番目のビットｄ_nである。キャリー・ルック・アヘッド回路６８は前記ユニットのｎ番目のすべてのビット５６に対して信号ｃ_n＝ｃ_n+1∧ｐ_n∨ｇ_nを発生し、その信号はｎ番目のビットｄ_nから入力オペランドの最上位ビットまでのベクトルＤのすべてのビットの値（そのビットはベクトルＤのｎ番目のビットｄ_nである）が、この入力オペランドに対してワードＵによって決定されている飽和領域の超過につながらないことを示す。通常の並列加算器において適用される任意の既知のシーケンシャルな、あるいはグループ・キャリー発生回路を回路６８として使うことができる。信号ｇ_nが入力７１に印加されるキャリー発生信号として使われ、信号ｐ_nが入力７０に対して印加されるキャリー伝播信号として使われ、そして信号ｃ_nがキャリー出力７２において発生されることは、この提案されているユニットの中のキャリー・ルック・アヘッド回路６８の特性である。この場合、そのキャリーは前記回路の最上位ビットから最下位ビットへ向かって伝播される。前記ユニットのｎ番目のビット５６の等価ゲート６０および第１マルチプレクサ５の値を発生する。ｃ_n＝１の場合、第１マルチプレクサ５７の出力において、ベクトルＤのビットｄ_nの値が設定される。Ｃ_n＝０であって、ｕ_n＝１の場合、第１のマルチプレクサ５７の出力において、ベクトルＤの対応しているオペランドの符号ビット（ｖ_n）の反転されていない値がセットされ、ｃ_n＝０であって、ｕ_n＝０の場合、第１のマルチプレクサ５７の出力において、ベクトルＤの対応しているオペランドのにおいて得られる結果ベクトルのビットが前記ユニットの出力１７を供給する。制御ワードＵ＝（１００．．．０）ｂが前記ユニットの入力１６に印加された場合、前記ユニットの入力１５からのデータが変化せずに（Ｆ＝Ｄ）その出力を通過することに注意する必要がある。したがって、提案されている飽和ユニットは２つのＮビットの数値の通常の並列加算器の伝播遅延時間にほぼ等しい伝播遅延時間を有する。この場合、前記ユニットによって、ワード長をユーザがプログラムできるいくつかのデータに対する飽和関数を同時に計算することができる。ブロック図が図７に示されている計算ユニットは、第１（１９）、第２（２０）および第３（２１）のオペランド・ベクトルのビットの入力と、第１オペランド・ベクトルおよび結果ベクトル２２に対する、第２オペランド・ベクトル２３に対する、そして第３オペランド・ベクトル２４に対する境界設定の入力と、第１メモリ・ブロックへの第３オペランド・ベクトルのロード制御の第１（２５）および第２（２６）の入力と、第１のメモリ・ブロックから第２のメモリ・ブロックへの第３オペランド行列の再ロード制御の入力２７と、結果の第１の被加算値ベクトルのビットの出力２８と、結果の第２の被加算値ベクトルの出力２９とを含む。前記のユニットはシフト・レジスタ５０と、遅延要素５１と、Ｎ／２個の反転入力付きＡＮＤゲート７５と、Ｎ／２個の乗数ビットのデコーダ７６と、Ｎカラム×各カラム内のＮ／２個のセルの乗算器アレイ７７とを含む。シフト・レジスタ５０のどのビットも、反転入力付きＡＮＤゲート７８と、マルチプレクサ７９と、トリガ８０とから構成されている。乗算器アレイ７７の各セルは第１（８１）および第２（８２）のトリガ（前記ユニットの第１および第２のメモリ・ブロックのそれぞれのメモリ・セルとして機能する）と、反転入力付きＡＮＤゲート８３と、１ビット部分積発生回路８４と、１ビット加算器８５と、マルチプレクサ８６とから構成されている。図７において、乗算器アレイ７７のセルのカラムには右から左へ番号が付けられており、そして乗算器アレイ７７のカラムのセルには上から下へ番号が付けられている。前記ユニットの第１オペランド・ベクトル１９の各ビットの入力が乗算器アレイ７７のそれぞれのカラムの第１セルの１ビット加算器８５の第２入力に接続され、乗算器アレイ７７の各セルの１ビット加算器８５の第１入力が乗算器アレイ７７の同じセルの１ビット部分積発生回路８４の出力に接続され、乗算器アレイ７７の各カラムのすべてのセルのマルチプレクサ８６の制御入力および反転入力付きＡＮＤゲート８３の反転入力が、前記ユニットの第１オペランド・ベクトルに対する、そして結果ベクトルに対するデータ境界設定のそれぞれの入力２２に接続されている。前記ユニットの第２オペランド・ベクトルに対するデータ境界設定の各入力２３がそれぞれの反転入力付きＡＮＤゲート７５の反転入力に接続され、ゲート７５の出力が乗数ビットのそれぞれのデコーダ７６の第１入力に接続されている。乗算器アレイ７７のすべてのカラムのｉ番目のセルの１ビット部分積発生回路８４のそれぞれの制御入力が結合されて乗数ビットのｉ番目のデコーダのそれぞれの出力７６に接続され、デコーダ７６の第２および第３の入力は前記ユニットの第２オペランド・ベクトル２０の（２ｉ−１）番目および（２ｉ）番目のビットのそれぞれの入力に接続されている（ここで、ｉ＝１，２，．．．，Ｎ／２）。ｊ番目の反転入力付きＡＮＤゲート７５の非反転入力が乗数ビット７６の（ｊ−１）番目のデコーダの第３入力に接続されている（ｊ＝２，３，．．．，Ｎ／２）。前記ユニットの第３オペランド・ベクトルの各ビットの入力２１が、シフト・レジスタ５０のそれぞれのビットのマルチプレクサ７９の第２データ入力に接続され、シフト・レジスタ５０の第１データ入力がシフト・レジスタ５０の同じビットの反転入力付きＡＮＤゲート７８の出力に接続されている。ＡＮＤゲート７８の第１の反転入力は前記ユニットの第３オペランド・ベクトルに対するデータ境界設定のそれぞれの入力２４に接続されている。シフト・レジスタ５０のｑ番目のビットの反転入力付きＡＮＤゲート７８の第２の反転入力が、シフト・レジスタ５０の（ｑ−１）番目のビットの反転入力付きＡＮＤゲートの第１の反転入力に接続されている（ここで、ｑ＝２，３，．．．，Ｎ）。シフト・レジスタ５０のｒ番目のビットの反転入力付きＡＮＤゲート７８の非反転入力が、シフト・レジスタ５０の（ｒ−２）番目のトリガ８０の出力に接続されている（ここで、ｒ＝３，４，．．．，Ｎ）。すべてのシフト・レジスタ５０のビットのマルチプレクサ７９の制御入力が結合されて、前記ユニットの第１メモリ・ブロックへの第３オペランド・ベクトルのロード制御の第１入力２５に接続されている。すべてのシフト・レジスタ５０のビットのトリガ８０のクロック入力および遅延要素５１の入力が結合されて、前記ユニットの第１メモリ・ブロックへの第３オペランド・ベクトルのロード制御の第２入力２６に接続されている。各シフト・レジスタ５０のマルチプレクサ７９の出力が、シフト・レジスタ５０の同じビットのトリガ８０のデータ入力に接続され、トリガ８０の出力は乗算器アレイ７７のそれぞれのカラムの最後のセルの第１のトリガ８１のデータ入力に接続されている。各乗算器アレイ７７のカラムのｊ番目のセルの第１のトリガ８１の出力が同じ乗算器アレイ７７のカラムの（ｊ−１）番目のセルの第１のトリガ８１のデータ入力に接続されている（ここで、ｊ＝２，３，．．．，Ｎ／２）。乗算器アレイ７７のすべてのセルの第１のトリガ８１のクロック入力が結合されて遅延要素５１の出力に接続されている。乗算器アレイ７７のすべてのセルの第２のトリガ８２のクロック入力が結合されて、前記ユニットの第１メモリ・ブロックから第２メモリ・ブロックへの第３オペランド行列の再ロード制御の入力２７に接続されている。乗算器アレイ７７のｑ番目のカラムのｉ番目のセルの１ビット部分積発生回路８４の第２データ入力が、乗算器アレイ７７の（ｑ−１）番目のカラムのｉ番目のセルの反転入力付きＡＮＤゲート８３の出力に接続されている（ここで、ｉ＝１，２，．．．，Ｎ／２）、そしてｑ＝２，３，．．．，Ｎ）。乗算器アレイ７７の各カラムのｊ番目のセルの１ビット加算器８５の第２入力が、乗算器アレイ７７の同じカラムの（ｊ−１）番目のセルの１ビット加算器８５の和の出力に接続されている（ここで、ｊ＝２，３，．．．，Ｎ／２）。乗算器アレイ７７のｑ番目のカラムのｊ番目のセルの１ビット加算器８５の第３入力が、乗算器アレイ７７の（ｑ−１）番目のカラムの（ｊ−１）番目のセルのマルチプレクサ８６の出力に接続され（ここで、ｊ＝２，３，．．．，Ｎ／２、ｑ＝２，３，．．．，Ｎ）、そして乗算器アレイ７７の第１カラムのｊ番目のセルの１ビット加算器８５の第３入力が乗数ビット７６の（ｊ−１）番目のデコーダの第３入力に接続されている（ここで、ｊ＝２，３，．．．，Ｎ／２）。乗算器アレイ７７の各カラムの最後のセルの１ビット加算器８５の和の出力が前記ユニットの結果の第１の被加算値ベクトルのそれぞれのビットの出力２８である。乗算器アレイ７７の（ｑ−１）番目のカラムの最後のセルのマルチプレクサ８６の出力が、前記ユニットの結果の第２の被加算値ベクトルのｑ番目のビットの出力であり（ここで、ｑ＝２，３，．．．，Ｎ）、その結果の第２の被加算値ベクトル２９の第１ビットが乗数ビット７６の（Ｎ／２）番目のデコーダの第３出力に接続されている。シフト・レジスタの第１ビットの反転入力付きＡＮＤゲート７８の第２の反転入力および非反転入力およびシフト・レジスタの第２ビットの反転入力付きＡＮＤゲート７８の非反転入力と、乗算器アレイ７７の第１カラムのすべてのセルの１ビット部分積発生回路８４の第２データ入力と、乗算器アレイ７７のすべてのカラムの第１セルの１ビット加算器８５の第３入力と、第１の反転入力付きＡＮＤゲート７５の非反転入力とが結合されて「０」に接続されている。乗算器アレイ７７の各セルにおいて、第１のトリガ８１の出力が第２のトリガ８２のデータ入力に接続され、第２のトリガ８２の出力が反転入力付きＡＮＤゲート８３の非反転入力に対して、そして１ビット部分積発生回路８４の第１データ入力に接続され、その第３制御入力がマルチプレクサ８５の第２データ入力に接続され、マルチプレクサ８６の第１データ入力が乗算器アレイ７７の同じセルの１ビット加算器８５のキャリー出力に接続されている。計算ユニットは第２オペランド・ベクトルＹ＝（Ｙ₁ Ｙ₂ Λ Ｙ_K）の乗算の部分積を発生することを目的としており、このベクトルのビットは、前記ユニットの第２メモリ・ブロックの中に以前にロードされて格納されていた対して供給され、第１のオペランド・ベクトルＸ＝（Ｘ₁ Ｘ₂ Λ Ｘ_M）の得られた積に対する加算を伴い、Ｘのビットは前記ユニットの入力１９に対して供給されている。各クロック・サイクルにおいて、前記ユニットの出力２８および２９上で、ベクトルＡ＝（Ａ₁ Ａ₂ Λ Ａ_M）およびＢ＝（Ｂ₁ Ｂ₂ Λ Ｂ_M ）が発生され、その和が演算X＋Ｙ×Ｚの結果である。すなわち、ベクトルＡおよびＢのｍ番目の要素の和は次の式によって定義される。ベクトルＸはこのベクトルの要素であるＭ個のパックされたデータの２の、補数表示でのＮビット・ワードである。そしてベクトルＸの最下位ビットは第１データＸ₁のビットであり、次に第２データＸ₂のビットが続き、以下同様である。ベクトルＸの最上位ビットはＭ番目のデータＸ_Mのビットである。そのようなパッキングによっビットであり、ここで、Ｎ_mはベクトルＸのｍ番目のデータＸ_mのワード長であり、ｖ＝１，２，．．．，Ｎ_m（ｍ＝１，２，．．．，Ｍ）である。ベクトルＸの中のデータの数Ｍおよびこのベクトルの各ｍ番目のデータＸ_mの中のビットの数Ｎ_m（ｍ＝１，２，．．．，Ｍ）は、１からＮまでの任意の整数値であってよい。唯一の制限は、１つのベクトルＸの中にパックされるすべてのデータの合計ワード長が、そのワード長に等しくなければならないということである。ベクトルＹはこのベクトルの要素であるＫ個のパックされたデータの２の補数表示でのＮビット・ワードである。ベクトルＹのフォーマットはベクトルＸのフォーマットと同じである。しかし、これらのベクトルは、要素の数およびこれらのベクトルの中にパックされている別々のデータのワード長において異なる可能性がある。ベクトルＹのｋ番目のデータＹ_k（ｋ＝１，２，．．．，Ｋ）の中のビットの数Ｎ’_kは、２からＮまでの任意の整数値であってよい。ベクトルＹの中のデータの数Ｋは、１からＮ／２までの任意の整数値であってよい。しかし、１つのベクトルＹの中にパックされるすべてのデータの合計ワード長がそのワード長に等しくなければならない。行列Ｚのｋ番目のロウは、データ・ベクトルＺ_k＝（Ｚ_K,1 Ｚ_K,2 ＫＺ_K,M ）であり、ここで、ｋ＝１，２，．．．，Ｋである。また、Ｚ₁，Ｚ₂，．．．，Ｚ_Kの各ベクトルのフォーマットは、ベクトルＸのフォーマットと同じでなければならない。前記ユニットの出力２８および２９において発生されるベクトルＡおよびＢのフォーマットは、ベクトルＸのフォーマットと同じである。必要なフォーマット乗算ベクトル処理するための計算ユニットのハードウェアのチューニングは、前記ユニットの第１オペランド・ベクトルおよび結果ベクトルに対するデータ境界設定の入力２２に対するＮビットの制御ワードＨのローディングおよび、前記ユニットの第２オペランド・ベクトルに対するデータ境界設定の入力２３に対する（Ｎ／２）ビットの制御ワードＥのローディングの手段によって行われる。ワードＨのｎ番目のビットｈ_nの値が１であることは、前記ユニットがベクトルＸ，Ｚ₁，Ｚ₂，．．．，Ｚ_Kのそれぞれのｎ番目のビットをこのベクトルのそれぞれの要素の最上位ビットとみなすことを意味する。ワードＨの中で値が１であるビットの個数はＸ，Ｚ₁，Ｚ₂，．．．，Ｚ_Kの各ベクトルの中の要素の数に等しい。ワードＥのｉ番目のｅ_iの値が１であることは、前記ユニットがベクトルＹのｉ番目のペアのビットを、このベクトルのそれぞれの要素の最下位ビットのグループとみなすことを意味する。ワードＥの中で値が１であるビットの数は、ベクトルＹの中の要素の数に等しい。上記の演算が実行される前に、前記ユニットの第２メモリ・ブロックへの行列Ｚのローディングの手順（前記ユニットのメモリ・セルの機能は、乗算器アレイ７７のセルの第２のトリガ８２によって実行される）が先に行われなければならない。前記手順は２つのステージにおいて実行される。先ず最初に、Ｎ／２個のクロック・サイクルごとに、行列Ｚがメモリ・ブロックへロードされる。そして、行列Ｚ’のｉ番目のロウは、データ・ベクトルＺ’_i＝（Ｚ’_i,1 Ｚ’_i,2 ＫＺ’_iM）であり、これはベクトルＹのビットのi番目のペア（ｉ＝１，２，．．．，Ｎ／２）で乗算される。すべてのベクトルＺ’₁，Ｚ’₂，．．．，Ｚ'_N/2のフォーマットは任意のベクトルＺ₁，Ｚ₂，．．．，Ｚ_Kのフォーマットと同じである。行列Ｚは、行列Ｚのｋ番目のロウＺ_k（ｋ＝１，２，．．．，Ｋ）の、次の式に従って発生される、行列Ｚ’のＮ’_k／２個のロウＺ’_Ik-1＋₁，Ｚ’_Ik-1＋₂，．．．，Ｚ’_Ik-1＋_N'k/2での置き換えによって、行列Ｚ’に変換される。ここで、Ｉ_kは、ベクトルＹの最初のｋ個のオペランドの中のビットのＪビット・ペアの合計数であり、それは次の式の値に等しい。上記の式から、Ｚ’₁＝Ｚ₁，Ｚ’_N'1/2+1＝Ｚ₂、Ｚ’_{(N'1+N'2)/2+1}＝Ｚ₃であり、以下同様である。すなわち、行列Ｚのすべてのロウが行列Ｚ’の中に存在することになるが、規則として他の位置にある。行列Ｚは、シフト・レジスタ５０の手段によって行列Ｚ’に変換される。シフト・レジスタ５０は、２つの動作モードを備えている。ロード・モードにおいては、値１が前記ユニットの制御入力２５に印加され、シフト・レジスタ５０のすべてのマルチプレクサ７９が、前記ユニットの入力２１に印加されているデータ・ベクトルのビットをシフト・レジスタ５０のトリガ８０のデータ入力に対して渡し始める。シフト・モードにおいては、値０が前記ユニットの制御入力２５に印加され、そしてシフト・レジスタ５０のすべてのマルチプレクサ７９がシフト・レジスタ５０の対応している反転入力付きＡＮＤゲート７８の出力からのデータをシフト・レジスタ５０のトリガ８０のデータ入力に対して渡し始める。シフト・レジスタ５０のｒ番目のビット（ｒ＝３，４，．．．，Ｎ）の反転入力付きＡＮＤゲート７８の出力において、信号番目のビットのトリガ８０の中に格納されているデータであり、そしてｈ_rは、Ｎビットの制御ワードＨのｒ番目のビットの値であり、制御ワードＨは前記ユニットの入力２４に印加されていて、処理中のベクトルの中のデータ境界を設定する。反転入力付きＡＮＤゲート７８は、シフト・レジスタ５０に以前にロードされたデータ・ベクトルの異なる要素のビットを格納していて、シフト・レジスタ５０のビット間のデータの伝播を防止する。シフト・レジスタ２つの下位ビットの反転入力付きＡＮＤゲート７８の出力において、０の値の信号が一定して発生される。というのは、それぞれの非反転入力が「０」に接続されているからである。したがって、シフト・モードにあるシフト・レジスタ５０はその中に格納されているデータ・ベクトルについて２ビットの算術的左シフトを実行する。それはこのベクトルの４による乗算と等価である。行列ＺはＮ／２個のクロック・サイクルごとに行列Ｚ’に変換される。これらのＮ／２個の各クロック・サイクルにおいて、クロック信号が前記ユニットの制御入力２６に印加され、そしてこのクロック信号がシフト・レジスタ５０のトリガ８０のクロック入力を供給し、そして上記のＮビットの制御ワードＨが前記ユニットの第３オペランド・ベクトルに対するデータ境界設定の入力２４に対して連続して印加されており、そしてこの制御ワードが行列Ｚのロード後のＸ＋Ｙ× Ｚ演算の実行時に前記ユニットの入力２２を供給する。ｉ番目のクロック・サイクル（ｉ＝１，２，．．．，Ｎ／２）において、上記の（Ｎ／２）ビットの制御ワードＥのｉ番目のビットｅ_iが前記ユニットの制御入力２５に対して印加され、この制御ワードが行列Ｚの変換およびロードの後のＸ＋Ｙ×Ｚの演算の実行時に前記ユニットの入力２３を供給する。（Ｉ_k-1＋１）番目のクロック・サイクル（ｋ＝１，２，．．．，Ｋ）において、ワードＥの１の値のビットが前記ユニットの入力２５に印加されると、ベクトルＺ_kのビットが前記ユニットの入力２１に印加され、そしてこのベクトルが変更なしにシフト・レジスタ５０のトリガ８０に対して書き込まれる。残りのＮ／２−Ｋ個の各クロック・サイクルにおいて、ワードＥの０の値のビットが前記ユニットの入力２５に印加され、シフト・レジスタ５０の中に格納されているデータ・ベクトルの要素の４倍に増加した値がシフト・レジスタ５０のトリガ８０に対して書き込まれる。したがって、行列Ｚの行列Ｚ’への変換のプロセスのｉ番目のクロック・サイクル（ｉ＝１，２，．．．，Ｎ／２）が終了すると、ベクトルｚ’_iがシフト・レジスタ５０のトリガ８０の中に格納される。シフト・レジスタ５０の出力からのデータが前記ユニットの第１メモリ・ブロック５２（乗算器アレイ７７のセルの第１のトリガ８１によって実装されている）のデータ入力に対して印加される。Ｎ×Ｎ／２のトリガ８１の行列は、Ｎ個の並列接続された（Ｎ／２）ビットのシフト・レジスタを含み、それらの各々が乗算器アレイ７７のカラムの１つのセルの中に含まれているＮ／２個の直列に接続されたトリガ８１から構成されている。したがって、トリガ８１の行列は、それぞれがＮビット・ワードの記憶を提供するＮ／２個のメモリ・セルを含んでいる、シーケンシャル入力ポート付きのメモリ・ブロックとみなすことができる。第１メモリ・ブロックのｉ番目のセルの機能が、乗算器アレイ７７のｉ番目のセルのトリガ８１によって実行される（ｉ＝１，２，．．．，Ｎ／２）。行列Ｚの行列Ｚ’への変換のプロセス全体の間に、各クロック・サイクルにおいて前記ユニットの入力２６に印加されるクロック信号は、遅延要素５１（これは通常のインバート・ゲートであってよい）を通過し、乗算器アレイ７７のすべてのセルの第１のトリガ８１のクロック入力に達する。したがって、前記ユニットの第１メモリ・ブロックへの行列Ｚ’のローディングが、行列Ｚの行列Ｚ’への変換と同時に発生する。そのローディング・プロセスの終りにおいて、Ｚ’_i が乗算器アレイ７７のｉ番目のロウの第１のトリガ８１の中に格納される（ｉ＝１，２，．．．，Ｎ／Ｊ）。その後、クロック信号が１クロック・サイクルごとに前記ユニットの制御入力２７に印加され、そしてこの信号によって、乗算器アレイ７７のすべてのセルの第１のトリガ８１の内容が乗算器アレイ７７の同じセルの第２のトリガ８２に書き換えられる。Ｎ×Ｎ／２のトリガ８２の行列はそれぞれがＮビット・ワードの記憶を提供するＮ／２個のメモリ・セルを含んでいる第２メモリ・ブロックとみなすことができる。第２メモリ・ブロックのｉ番目のセルの機能が、乗算器アレイ７７のｉ番目のロウ（ｉ＝１，２，．．．，Ｎ／２）のトリガ８２によって実行される。したがって、行列Ｚ’は、１クロック・サイクルごとに前記ユニットの第１メモリ・ブロックから第２メモリ・ブロックへ転送される。次のクロック・サイクルからスタートして、計算ユニットの実行ユニット（それは反転入力付きＡＮＤゲート７５、乗数ビット７６のデコーダ、およびこれも乗算器アレイ７７のセルの中に含まれている反転入力付きＡＮＤゲート８３、１ビット部分積発生回路８４、１ビット加算器８５およびマルチプレクサ８６である）が上記の演算を各クロック・サイクルにおいて実行する。Ａ＋Ｂ＝Ｘ＋Ｙ×Ｚこの場合、乗数ビットのｉ番目のデコーダ７６と、ｉ番目反転入力付きＡＮＤゲート７５と、乗算器アレイ７７のｉ番目のロウのセルに含まれている反転入力付きＡＮＤゲート８３と、回路８４とが、乗算器アレイのｉ番目ロウのセルの第２のトリガ８２の中に格納されているベクトルＺ’_iの、ベクトルＹのｉ番目のペアのビットＹ’_iによる乗算の部分積（これ以降ではｉ＝１，２，．．．，Ｎ／２）のビットを発生するために使われる。すべての部分積は修正されたブースのアルゴリズムのベースで計算され、それに従って、ベクトルＹの２ｉ番目および（２ｉ−１）番目のビットの値および隣接している低位のペアの乗数ビットからのキャリー信号ｃ_iの値が次のように部分積Ｐ_iの値を決定する。ｙ_2i＝０，ｙ_2i-1＝０そしてｃ_i＝０の場合、あるいはｙ_2i＝１，ｙ_2i-1＝１そしてｃ_i＝１の場合、Ｐ_i＝０；ｙ_2i＝０，ｙ_2i-1＝０そしてｃ_i＝１の場合、あるいはｙ_2i＝０，ｙ_2i-1＝１そしてｃ_i＝０の場合、Ｐ_i＝Ｚ’_i；ｙ_2i＝０，ｙ_2i-1＝１の場合、そしてｃ_i＝１の場合、Ｐ_i＝２×Ｚ’_i；ｙ_2i＝１，ｙ_2i-1＝０そしてｃ_i＝０の場合，Ｐ_i＝−２×Ｚ’_i；ｙ_2i＝１，ｙ_2i-1＝０そしてｃ_i＝１の場合、あるいはｙ_2i＝１、ｙ_2i-1＝１、そしてｃ_i＝０の場合、Ｐ_i＝−Ｚ’_i ブースのアルゴリズムのベースで動作している普通の２オペランド乗算器においては、（２ｉ−２）番目の乗数ビットがキャリー信号ｃ_iとして使われる。提案されているユニットにおいては、被乗数はプログラム可能なワード長のオペランド・ベクトルであり、そのキャリー信号ｃ_iは次に記述されるように、ｉ番目の反転入力付きＡＮＤゲート７５の出力において発生され、次のように記述される。ここで、ｙ２ｉ−２はベクトルＹの（２ｉ−２）番目のビットであり、ｅ_iは制御ワードＥのｉ番目のビットである。反転入力付きＡＮＤゲート７５を使うことによって、そのベクトルの異なる要素に対して含まれているベクトルＹのビットのペア間のキャリー伝播をロックすることができる。乗算ビットのｉ番目のデコーダ７６において、次の信号が発生される。これらの信号は乗算器アレイ７７のｉ番目のロウのセルの１ビット部分積発生回路８４を制御し、乗算器アレイ７７の第１データ入力に対して、乗算器アレイ７７のｉ番目のロウのセルの第２のトリガ８２の出力から、Ｚ’_iのビットが印加され、そして乗算器アレイ７７のセルの反転入力付きＡＮＤゲート８３の出力から第２データ入力に対してＺ”のビットが印加される。乗算器アレイ７７のｎ番目のカラムのｉ番目のセルの反転入力付きＡＮＤゲート８３が次の式に従ってベクトルＺ”_iの（ｎ＋１）番目のＺ”_i.n+1を発生する。ここで、Ｚ’_i,nは、乗算器アレイ７７のｎ番目のカラムのｉ番目のセルのトリガ８２の中に格納されているベクトルＺ’_iのｎ番目のビットであり、ｈ_nは制御ワードＨのｎ番目のビットである（ｉ＝１，２，．．．，Ｎ／２、ｎ＝１，２，．．．，Ｎ）。前記の式から、ベクトルＺ”_iが２×Ｚ’_iに等しく、そしてそのフォーマットはベクトルｚ’_iのフォーマットと同じであることになる。乗算器アレイ７７のｉ番目のロウのセルの１ビット部分積発生回路８４の要素であるＡＮＤゲート９０および９１およびＯＲゲート９２はＮビットのスイッチとして動作し、その出力に対して、ｏｎｅ_i＝１そしてｔｗｏ_i＝０の時にベクトルｚ’_iが通過し、ｏｎｅ_i＝１そしてｔｗｏ_i＝０の時、ベクトルＺ”_iが通過し、そしてｏｎｅ_i＝０そしてｔｗｏ_i＝０の時は、その各ビットにおいて値が０のベクトルが通過する。したがって、前記スイッチの出力において、ベクトルＰ’_i が発生され、そのベクトルはｓｕｂ_i＝０の時は、部分積のベクトルＰ’_iに等しく、ｓｕｂ_i＝０の時は−Ｐ_iに等しい。ｓｕｂ_i＝１の時にベクトルＰ_iを得るために必要なベクトルＰ’_iの各要素の符号の変更は、ベクトルＰ’_iの各ビットを反転し、そして反転されたベクトルの各要素に対して値１を加算する手段によって実行することができる。乗算器アレイ７７のｉ番目のセルの１ビット部分積発生回路８４の要素である、排他的ＯＲゲート９３は、信号ｓｕｂ_iによって制御されるインバータとして動作する。ｓｕｂ_i＝０の時、ベクトルＰ’_iは排他的ＯＲゲート９３を通って変更なしに乗算器アレイ７７のｉ番目のロウのセルの１ビット部分積発生回路８４の出力まで通過する。ｓｕｂ_i＝１の時、排他的ＯＲゲート９３は、このベクトルの各ビットを反転する。したがって、乗算器アレイ７７のｉ番目のロウのセルの１ビット部分積発生回路８４の出力において、ＮビットのベクトルＰ”が発生され、そのフォーマットはベクトルＸ，Ｚ’₁，Ｚ’₂，．．．，Ｚ’_N/2のフォーマットに等しく、次の式を満足する。ここで、ＳＵＢ_iは、Ｎビットのベクトルであり、そのｍ番目の要素がＮ_mビットのオペランド（００．．．０ｓｕｂ_i）ｂであり、その最下位ビットがｓｕｂ_i に等しく、そして残りのビットの値はそれぞれ０である。乗算器アレイ７７のセルの１ビット加算器８５およびマルチプレクサ８６は、ベクトルＸ，Ｐ”₁，Ｐ”₂，．．．，Ｐ”_N/2，ＳＵＢ₁，ＳＵＢ₂，．．．，ＳＵＢ_N/2の合計値の部分積を発生するために使われる。前記ユニットにおいて、キャリー・セーブ加算器のベースで設計されている通常のＮ／２＋１オペランドの合計演算回路と同様に、１ビット加算器８５の手段によって合計演算だけが実行される。マルチプレクサ８６は信号ｓｕｂ₁，ｓｕｂ₂，．．．，ｓｕｂ_N/2によってベクトルの異なる要素の実行された合計演算の１ビット加算器８５のカラム間のキャリー信号を置き換えるために使われる。制御ワードＨの（ｑ−１）番目のビットｈ_q-1 の値が０に等しかった場合、乗算器アレイ７７の（ｑ−１）番目のカラムのセルのマルチプレクサ８６が乗算器アレイ７７の（ｑ−１）番目のカラムのセルの１ビット加算器８５のキャリー出力からの信号を乗算器アレイ７７のｑ番目のカラムのセルの１ビット加算器８５のそれぞれの入力に対して渡す（ｑ＝２，３，．．．，Ｎ）。制御ワードＨの（ｑ−１）番目のビットｈ_q-1の値が１に等しかった場合、乗算器アレイ７７の（ｑ−１）番目のカラムのセルのマルチプレクサ８６は乗数ビット７６のデコーダの出力から信号ｓｕｂ₁，ｓｕｂ₂，．．．，ｓｕｂ_N/2を乗算器アレイ７７のｑ番目のカラムのセルの１ビット加算器８５のそれぞれの入力に対して渡す（ｑ＝２，３，．．．，Ｎ）。この結果として、前記ユニットの出力２８および２９においてベクトルＡおよびＢが発生され、そしてそれらの和は次の値に等しい。ベクトルＹの別々の要素を参照して、部分積をグループ化し、前記の式は次の形式で表すことができる。事実を考慮に入れて、前の式は次のように変換される。したがって、演算Ｘ＋Ｙ×Ｚの部分積は前記ユニットの出力２８および２９において発生される。計算ユニットはデータのベクトルのパッケージ処理に向けられている。それによって、前記ユニットの各入力１９および２０に対して順次印加される入力オペランド・ベクトルの組が、次々に処理されるサブセット（パッケージ）に分割される。前記ユニットの１９および２０の各入力に対して印加される、そしてτ番目のパッケージに対して含められる入力オペランド・ベクトルの組をデータ・ベクトルのベクトルの形式で次のように示すことができる。ここで、Ｔ_τはすべてのτ番目のパッケージの中に含められるベクトルの数である。また、１つのパッケージの中のすべてのベクトルのフォーマットは、同じでなければならない。すなわち、前記ユニットの制御入力２２および２３に対して印加される情報は、１つのパッケージの処理の間中不変のままでなければならない。 τ番目のパッケージＸ^τおよびＹ^τの処理は、Ｔ_τクロック・サイクルごとに実行される。そして、ｔ番目のクロック・サイクルにおいて、計算ユニットは次の演算を実行する。ここで、Ｚ^τは、前記ユニットの第２メモリ・ブロックの内容であり、それはτ 番目のパッケージＸ^τおよびＹ^τの処理の間不変のままでなければならない。 τ番目のベクトル・パッケージの処理と同時に、前記ユニットの入力２１から前記ユニットの第１メモリ・ブロックへのベクトルＺ₁ ^τ+1，Ｚ₂ ^τ+1，．．．，Ｚ_k ^τ+1の次々のローディングの前記手順が実行される。この手順はＮ／２個のクロック・サイクルを占める。上記のプロセスの両方が完了すると、前記ユニットの第１メモリ・ブロックから第２メモリ・ブロックへの行列Ｚ^τ+1の転送を起動するアクティブな信号がニューラル・プロセッサの制御入力２７に印加される。前記転送は、１クロック・サイクルで実行される。その後、前記ユニットはベクトルＸ^τ+1およびＹ^τ+1の（τ＋１）番目のパッケージとを処理し、行列Ｚ^τ+2をロードする。各τ番目のパッケージの中のベクトルの数Ｔ_τをブログラム・モードにおいて設定することができる。また、ベクトルの数がＮ／Ｊ＋２より少ないベクトルのパッケージを使うことは得策ではない。というのは、この場合、ニューラル・プロセッサのコンピューティング・ファシリティが有効に使われないからである。ブロック図が図９に示されている加算器回路は、第１の被加算値ベクトル３１および第２の被加算値ベクトル３２の入力と、被加算値ベクトルと、和のベクトルに対するデータ境界設定の入力３３と、和のベクトルのビットの出力３４とを備えている。この加算器回路のＮ個の各ビット９４は、半加算器９５と排他的ＯＲゲート９６と、第１（９７）および第２（９８）の反転入力付きＡＮＤゲート９８とを含む。また、この加算器回路はキャリー・ルック・アヘッド回路９９を含む。加算器回路の第１の被加算値ベクトルの入力３１および加算器回路の第２の被加算値ベクトルのビットの入力３２は、それぞれ加算器回路のビット９４の半加算器９５の第１および第２の入力にそれぞれ接続されている。加算器回路の各ビット９４の第１の（９７）および第２の（９８）の反転入力付きＡＮＤゲートの反転入力が結合されて、加算器回路の被加算値ベクトルおよび和のベクトルに対するデータ境界設定のそれぞれの入力３３に接続されている。加算器回路のビット９４の排他的ＯＲゲート９６の出力は、加算器回路の和のベクトルの出力３４である。加算器回路の各ビット９４の第１の反転入力付きＡＮＤゲート９７の出力が、キャリー・ルック・アヘッド回路９９のそれぞれのビットを通してキャリー伝播入力に接続され、キャリー・ルック・アヘッド回路の各ビットにおけるキャリー生入力が加算器回路のそれぞれのビット９４の第２の反転入力付きＡＮＤゲートの出力に接続されている。加算器回路のｑ番目のビット９４の排他的ＯＲゲート９６の第２入力が、キャリー・ルック・アヘッド回路９９に接続され、ここで、ｑ＝１，２，．．．，Ｎ）、キャリー・ルック・アヘッド回路９９の初期キャリー入力および加算器回路の第１のビット９４の排他的ＯＲゲート９６の第２入力が「０」に接続されている。加算器回路の各ビット９４において、半加算器９５の和の出力が排他的ＯＲゲート９６の第１入力に対して、そして第１の反転入力付きＡＮＤゲート９７の非反転入力に接続され、そして半加算器９５のキャリー出力が第２の反転入力付きＡＮＤゲート９８の非反転入力に接続されている。加算器回路は次のように動作する。第１の被加算値ベクトルＡ＝（Ａ₁ Ａ₂ Λ Ａ_M）のビットが加算器回路の入力３１に印加される。ベクトルＡはこのベクトルの要素であるＭ個のパックされたデータの２の補数表現でのＮビット・ワードである。そしてベクトルＡの最下位ビットが第１データＡ₁のビットであり、次に第２データＡ₂のビットが続き、以下同様である。ベクトルＡの最上位ビットは、Ｍ番目のデータＡ_Mのビットである。そのようなパッキングによって、ｍ番目のデータＡ_Mのｖ番目のビットがｍ番目のデータＡ_M、ｖ＝１，２，．．．，Ｎ_m（ｍ＝１，２，．．．，Ｍ）である。ベクトルＡの中のデータの数Ｍおよびこのベクトルのｍ番目の各データＡ_m の中のビットの数Ｎ_mは、１からＮまでの任意の整数値であってよい（ｍ＝１，２，．．．，Ｍ）。唯一の制限は１つのベクトルＡの中にパックされるすべてのデータの合計ワード長がそのワード長に等しくなければならないということである。第２の被加算値ベクトルＢ（Ｂ₁ Ｂ₂ Λ Ｂ_M）のビットが、加算器回路の入力３２に印加され、このベクトルのフォーマットはベクトルＡのフォーマットと同じである。必要なフォーマットのベクトルを処理するための加算器回路のハードウェアのチューニングは、その入力３３に対してＮビットの制御ワードＨをロードする手段によって行われる。そして、ワードＨのｎ番目のｈ_nの値が１であることは、その加算器回路がＡおよびＢの各ベクトルのｎ番目のビットをこのベクトルの対応している要素の最上位ビットとみなすことを意味する。ワードＨの中の１の値のビットの個数はＡおよびＢの各ベクトルの中の要素の個数に等しい（これ以降ではｎ＝１，２，．．．，Ｎ）。前記回路のｎ番目のビット９４において、ベクトルＡのｎ番目のａ_nおよびベクトルＢのｎ番目のビットｂ_nが半加算器９５の入力に印加される。この半加算器９５の和およびキャリーの出力において、加算器回路のこのビットに対してキャリー伝播ｐ_nおよびキャリー発生ｇ_nの補助的信号が発生される。信号ｐ_nおよびｇ_nは第１（９７）および第２（９８）の反転入力付きＡＮＤゲートのそれぞれの非反転入力を供給し、これらのＡＮＤゲートの反転入力に対して制御ワードＨのｎ番目のビットｈ_nが印加される。ベクトルＡおよびＢのｎ番目のビットａ_nおよびｂ_nが、これらのベクトルを構成している次々の要素の符号ビットでない場合、ｈ_n＝０であり、そして信号ｐ_nおよびｇ_nは変化せずに反転入力付きＡＮＤゲート９７および９８の出力へ通過する。ベクトルＡおよびＢのｎ番目のビットａ_nおよびｂ_nが、これらのベクトルの要素の符号ビットである場合、ｈ_n＝１であり、０の値の信号が反転入力付きＡＮＤゲート９７および９８の出力に対して設定される。したがって、反転入力付きＡＮＤゲート９７および９８は、前記回路のこれらのビット９４の中にキャリー伝播の、そしてキャリー発生の信号をロックするために使われ、前記回路は入力ベクトルＡおよびＢの次々の要素の最上位ビットを処理する。反転入力付きＡＮＤゲート９７および９８の出力からの信号が、加算器回路の次々のビットに対するキャリー信号発生を加速するために使われる回路９９のキャリー伝播およびキャリー発生の入力に対して印加される。通常の２オペランド加算器に適用される任意の既知のシーケンシャル、グループ、またはルック・アヘッドのキャリー発生回路を回路９９として使うことができる。回路９９の出力において、加算器回路の次々のビットに対するキャリーの信号が、式ｃ_n+1＝ｇ_n∨ｐ_n∧ｃ_nに従って発生される。したがって、ｈ_n＝１の場合、ｐ_n＝ｇ_n＝０であり、回路９９は信号ｃ_n+1＝０を発生する。回路９９によって発生されたキャリー信号は、加算器回路のそれぞれのビット９４の排他的ＯＲゲート９６の入力に対して印加され、ゲート９６の他の入力に対しては半加算器９５の和の出力からキャリー伝播の信号が印加される。加算器回路のｎ番目れる。したがって、加算器回路の出力３４において、ベクトルＳ＝（Ｓ₁ Ｓ₂ Λ Ｓ_M）が発生され、このベクトルの各要素はベクトルＡおよびＢのそれぞれの要素の和に等しい。そしてベクトルＳのフォーマットは、ベクトルＡおよびＢのフォーマットと同じになる。産業上の利用可能性本発明の達成可能な技術的結果は入力オペランドのワード長として、結果のワード長として、プログラム・モードにおいて変更する機能の手段によってニューラル・プロセッサの性能を増加させることにある。提案されているニューラル・プロセッサの特異性は次のニューラル・ネットワークのパラメータをブログラム・モードでユーザが設定できることである。それらは層の数、各層におけるニューロンおよびニューラル入力の数、各ニューラル入力におけるデータのワード長、各重み係数のワード長、各ニューロンの出力値のワード長、各ニューロンに対する飽和関数のパラメータである。１つのニューラル・プロセッサは、実際的に無制限のサイズのニューラル・ネットワークをエミュレートすることができる。ニューラル・ネットワークは層ごとに（層ごとにシーケンシャルに）エミュレートされる。すべてのニューラル・ネットワーク層はシーケンシャルに処理されるフラグメントに分割される。各フラグメントは１クロック・サイクルで実行される。入力データの、そして重み係数のワード長を減らすことによって、より大きいニューラル・ネットワークのフラグメントが１クロック・サイクルで実行される。少数のニューラル・プロセッサを使って１つのニューラル・ネットワークをエミュレートすることができる。そのニューラル・ネットワークによって、エミュレーション・プロセスの持続時間を何分の１かに減らすことができる。実現可能な技術的な結果は各飽和ユニットの中に、計算ユニットの中に、そして加算器回路の中に、入力データ・レジスタを挿入することによって、クロック・サイクル・タイムを減らす手段によって強化することができる。これらのレジスタはパイプライン・レジスタとして動作し、それによってニューラル・プロセッサのクロック・サイクル・タイムを実際的に３分の１に減らすことができる。ニューラル・プロセッサの実行ユニットは、飽和ユニット、計算ユニットおよび加算器回路である。各実行ユニットはプログラム可能なワード長のデータのベクトルについて演算を実行する。さらに、これらの実行ユニットを提案されているニューラル・プロセッサの中でのように、そしてベクトル・データの処理の他のユニットの中で使うことができる。本発明の実現可能な技術的結果はプログラム可能なワード長の入力オペランド・ベクトルを一度に処理するための機能の手段によって飽和ユニットの性能を増加させることにある。飽和ユニットにおいて、キャリー・ルック・アヘッドおよびキャリー伝播回路が使われ、そしてその結果として、前記ユニットの伝播遅延時間が通常の２オペランド加算器回路の伝播遅延時間にほぼ等しくなる。本発明の実現可能な技術的結果は計算ユニットの機能の拡張にある。前記ユニットはプログラム可能なワード長のデータのベクトルによるデータの行列の乗算を実行することができる。この演算は、１クロック・サイクルで実行され、その周期は普通の２オペランドのアレイ乗算器の伝播遅延時間に等しい。本発明の実現可能な技術的結果は、その演算セットの中にプログラム可能なワード長のデータのベクトルについての算術演算を含める手段によって加算器回路の性能を増加させることにある。既知のデータ・ベクトル加算回路と対照区別して、提案されている加算器回路においては、入力ベクトルの隣接しているオペランドを処理した加算器回路のビット間のキャリーの信号のロックがキャリー発生およびキャリー伝播の補助機能の形成のレベルにおいて実施されることである。これによって、加算器回路において普通の２オペランド加算器回路の中で適用されるキャリー伝播回路を使うことができる。したがって、プログラム可能なワード長のベクトルの合計演算を目的とした提案されている加算器回路は、２オペランド加算器と同じ伝播遅延時間を実質的に有する。提案されているニューラル・プロセッサは、再帰的および非再帰的畳み込みの計算のため、アダマール（Ｈａｄａｍａｒｄ）変換、高速およびディスクリートのフーリエ変換の実行のため、そしてまた他のディジタル信号処理アルゴリズムの実行のために効率的に使うことができる。このニューラル・プロセッサは、独立のマイクロ回路として、あるいはコンピュータ・システムにおけるコプロセッサとして実装することができる。

───────────────────────────────────────────────────── フロントページの続き (81)指定国ＥＰ(ＡＴ，ＢＥ，ＣＨ，ＣＹ，ＤＥ，ＤＫ，ＥＳ，ＦＩ，ＦＲ，ＧＢ，ＧＲ，ＩＥ，ＩＴ，ＬＵ，ＭＣ，ＮＬ，ＰＴ，ＳＥ)，ＥＡ(ＡＭ，ＡＺ，ＢＹ，ＫＧ，ＫＺ，ＭＤ，ＲＵ，ＴＪ，ＴＭ)，ＡＴ，ＡＵ，ＢＹ，ＣＡ，ＣＨ，ＣＮ，ＣＺ，ＤＥ，ＤＫ，ＥＥ，ＥＳ，ＦＩ，ＧＢ，ＨＵ，ＩＬ，ＪＰ，ＫＲ，ＬＴ，ＬＵ，ＬＶ，ＮＯ，ＮＺ，ＰＴ，ＲＯ，ＳＥ，ＳＧ，ＴＲ，ＵＡ，ＵＳ (72)発明者ヴィクスネパベルエブゲンヤヴィッチロシア 111396 モスクワゼレニーピーアールディー64 ケーダブリュー148 (72)発明者フォミンドミトリーヴィクトロヴィッチロシア 115547 モスクワユーエルバーユレブスカヤディー58―３ケーダブリュー1270 (72)発明者シェブチェンコパベルアレクサンドロヴィッチロシア 125167 モスクワユーエルプラネトナヤディー14 ケーダブリュー８ (72)発明者ヤフラコブミハイルフェドロヴィッチロシア 123622 モスクワプヤトニトスコーショッセディー42 ケーダブリュー64 【要約の続き】この計算ユニットは遅延要素と、Ｎ／２個の反転入力付きＡＮＤゲートと、Ｎ／２個の乗算ビットのデコーダと、Ｎビットのシフト・レジスタとを含み、シフト・レジスタは、各ビットが反転入力付きＡＮＤゲートと、マルチプレクサおよびトリガと、乗算器アレイとから構成され、乗算器アレイはＮカラム×Ｎ／２のセルを含み、各セルが２つのトリガ、反転入力付きＡＮＤゲート、１ビット部分積発生回路と、１ビット加算器と、マルチプレクサとから構成されている。加算器回路の性能の向上はプログラム可能なワード長の入力オペランドの２つのベクトルを加算するための機能の手段によって達成される。その加算器回路はキャリー・ルック・アヘッド回路と、また、２つの反転入力付きＡＮＤゲートによって、１つの半加算器と、１つの排他的ＯＲゲートとを各ビットの中に含む。

Claims

【特許請求の範囲】１．第１、第２および第３のレジスタと、第１のＦＩＦＯと、マルチプレクサとを含んでいるニューラル・プロセッサであって、前記マルチプレクサの第１データ入力のすべてのビットが、前記第１レジスタのそれぞれのビットの出力に接続され、前記第２レジスタのすべてのビットのデータ入力が、前記ニューラル・プロセッサの第１入力バスのそれぞれのビットに接続され、第１、第２および第３のレジスタの制御入力が、前記ニューラル・プロセッサのそれぞれの制御入力であるニューラル・プロセッサにおいて、第４、第５および第６のレジスタと、シフト・レジスタと、ＡＮＤゲートと、第２のＦＩＦＯと、３から２へのスイッチと、２つの飽和ユニットと、加算器回路と、計算回路とを組み込んでいて、前記計算回路は第１オペランド・ベクトルのビットの入力と、第２オペランド・ベクトルのビットの入力と、第３オペランド・ベクトルのビットの入力と、第１オペランド・ベクトルおよび結果ベクトルに対するデータ境界設定の入力と、第２オペランド・ベクトルに対するデータ境界設定の入力と、第３オペランド・ベクトルに対するデータ境界設定の入力と、第１メモリ・ブロックへの第３オペランド・ベクトルのロード制御の第１および第２の入力と、第１メモリ・ブロックから第２メモリ・ブロックへの第３オペランド行列の再ロード制御の入力と、第２メモリ・ブロックの中に格納されている第３オペランド行列による第２オペランド・ベクトルの乗算の結果と第１オペランド・ベクトルとの加算の結果の第１および第２の被加算値ベクトルの出力とを含んでいて、前記３から２へのスイッチのビットの第１データ入力と、前記ＦＩＦＯの、第１、第３および第４のレジスタのデータ入力およびシフト・レジスタの並列データ入力がビットごとに結合されて前記ニューラル・プロセッサの第１入力バスのそれぞれのビットに接続され、前記ニューラル・プロセッサの第２入力バスの各ビットが前記３から２へのスイッチのそれぞれのビットの第２データ入力に接続され、前記スイッチの各ビットの第１出力が前記第１の飽和ユニットの入力オペランド・ベクトルのそれぞれのビットの入力に接続され、前記第１の飽和ユニットがすべてのビットの制御入力が前記第２レジスタの対応しているビットの出力に接続され、前記３から２へのスイッチの各ビットの第２出力が前記第２の飽和ユニットの入力オペランド・ベクトルのそれぞれのビットの入力に接続され、前記第２の飽和ユニットはその各ビットの制御入力が前記第３レジスタのそれぞれのビットの出力に接続され、前記第１の飽和ユニットの結果ベクトルの各ビットの出力が、前記マルチプレクサのそれぞれのビットの第２データ入力に接続され、前記マルチプレクサは各ビットの出力が前記計算ユニットの第１オペランド・ベクトルのそれぞれのビットの入力に接続され、前記計算ユニットは、第２オペランド・ベクトルの各ビットの入力が前記第２飽和ユニットの結果ベクトルのそれぞれのビットの出力に接続され、前記第１のＦＩＦＯの出力が前記計算ユニットの第３オペランド・ベクトルのそれぞれのビットの入力に接続され、前記計算ユニットは、第１オペランド・ベクトルと、第２メモリ・ブロックの中に格納されている第３オペランド行列による第２オペランド・ベクトルの乗算の積との加算の結果の第１の被加算値の各ビットの出力が前記加算器回路の第１の被加算値ベクトルのそれぞれのビットの入力に接続され、前記加算器回路は、第２の被加算値ベクトルの各ビットが、第２メモリ・ブロックの中に格納される、第１オペランド・ベクトルと、第３オペランド行列による第２オペランド・ベクトルの乗算の積との加算の結果の第２の被加算値ベクトルのそれぞれのビットの出力に接続され、計算ユニットは、第１オペランド・ベクトルおよび結果ベクトルに対するデータ境界設定の各入力が第５レジスタのそれぞれのビットの出力に対して、そして前記加算器回路の被加算値ベクトルおよび和のベクトルに対するデータ境界設定のそれぞれの入力に接続され、加算器回路は和のベクトルの各ビットの出力が第２のＦＩＦＯのそれぞれのデータ入力に接続され、第２のＦＩＦＯは各データ出力がニューラル・プロセッサの出力バスのそれぞれのビットに対して、そして３から２へのスイッチのそれぞれのビットの第３入力に接続され、第４レジスタの各ビットの出力が、第５レジスタのそれぞれのビットのデータ入力に対して、そして計算ユニットの第３オペランド・ベクトルに対するデータ境界設定のそれぞれの入力に接続され、計算ユニットは第２オペランド・ベクトルに対するデータ境界設定の各入力が前記第６レジスタのそれぞれのビットの出力に接続され、前記第６レジスタは各ビットのデータ入力が前記シフト・レジスタのそれぞれのビットの出力に接続され、前記シフト・レジスタはシーケンシャル・データ入力および出力が結合されて第３オペランド・ベクトルのロード制御の第１入力に接続されて前記計算ユニットの前記第１メモリ・ブロックの中に入り、そして前記ＡＮＤゲートの第１入力に接続され、前記ＡＮＤゲートは出力が前記第１のＦＩＦＯの読出し制御入力に接続され、前記ＡＮＤゲートの第２入力と前記シフト・レジスタのシフト制御入力と、前記計算ユニットの前記第１メモリ・ブロックへの第３オペランド・ベクトルのロード制御の第２入力とが結合されて前記ニューラル・プロセッサのそれぞれの制御入力に接続され、前記計算ユニットの前記第１メモリ・ブロックから前記第２メモリ・ブロックへの第３オペランド行列の再ロード制御の入力と、第５および第６のレジスタの制御入力とが結合されてニューラル・プロセッサのそれぞれの制御入力に接続され、前記３から２へのスイッチの、前記マルチプレクサの、そして第４レジスタの制御入力、前記シフト・レジスタの、そして前記第１のＦＩＦＯの書込み制御入力と、前記第２のＦＩＦＯの読出しおよび書込み制御入力とが前記ニューラル・プロセッサのそれぞれの制御入力であり、第１および第２のＦＩＦＯの状態出力が前記ニューラル・プロセッサの状態出力であるようになっていることを特徴とするニューラル・プロセッサ。２．請求項１に記載のニューラル・プロセッサにおいて、前記計算ユニットがシフト・レジスタを含み、前記シフト・レジスタは、その中に格納されているすべてのＮビットのベクトル・オペランドについてＪビットの算術的左シフトを実行し、ここで、Ｊは前記計算ユニットの第２オペランド・ベクトルの中のデータのワード長の整除部分である最小限の値であり、前記計算ユニットはさらに遅延要素と、Ｎビットのデータを格納するためのシーケンシャル入力ポートと、Ｎ／Ｊ個のセルとを含んでいる第１メモリ・ブロックと、Ｎビットのデータを格納するためのＮ／Ｊ個のセルを含んでいる第２メモリ・ブロックと、Ｎ／Ｊ個の乗算器ブロックとを含み、各乗算器がプログラム可能なワード長のデータのＮビットのベクトルをＪビットの乗数で乗算し、前記計算ユニットはさらにベクトル加算回路を含み、前記ベクトル加算回路はＮ／Ｊ＋１個のプログラム可能なワード長のデータ・ベクトルの合計値の部分積を発生し、そして前記計算ユニットの第３オペランド・ベクトルのビットの入力が前記シフト・レジスタのデータ入力に接続され、前記シフト・レジスタは出力が前記第１メモリ・ブロックのデータ入力に接続され、前記第１メモリ・ブロックは各セルの出力が前記第２メモリ・ブロックのそれぞれのセルのデータ入力に接続され、前記第２メモリ・ブロックは、各セルの出力がそれぞれの乗算器ブロックの被乗数ベクトルのビットの入力に接続され、前記乗算器ブロックは乗数ビットの入力が前記計算ユニットの第２オペランド・ベクトルのビットのそれぞれのＪビット・グループの入力に接続され、各乗算器ブロックの出力が前記ベクトル加算回路のそれぞれの被加算値ベクトルのビットの入力に接続され、前記ベクトル加算回路は、（Ｎ／Ｊ＋１）番目の被加算値ベクトルのビットの入力が前記計算ユニットの第１オペランド・ベクトルのビットの入力に接続され、前記計算ユニットは第３オペランド・ベクトルに対するデータ境界設定の入力が前記シフト・レジスタのオペランド・ベクトルに対するデータ境界設定のそれぞれの入力に接続され、前記シフト・レジスタは、モード選択入力が前記計算ユニットの前記第１メモリ・ブロックへの第３オペランド・ベクトルのロード制御の第１入力に接続され、、前記計算ユニットは、前記第１メモリ・ブロックへの第３オペランド・ベクトルのロード制御の第２入力が前記シフト・レジスタのクロック入力に対して、そして前記遅延要素の入力に接続され、前記遅延要素は出力が前記第１メモリ・ブロックの書込み制御入力に接続され、前記第２メモリ・ブロックの書込み制御入力が前記計算ユニットの前記第１メモリ・ブロックから前記第２メモリ・ブロックへの第３オペランド行列の再ロード制御の入力に接続され、前記計算ユニットは第２オペランド・ベクトルに対するデータ境界設定のすべての入力がそれぞれの乗算器ブロックの符号訂正の入力に接続され、前記計算ユニットの第１オペランド・ベクトルに対する、そして結果ベクトルに対するデータ境界設定の入力が各乗算器ブロックの被乗数ベクトルに対する、そして結果ベクトルに対する入力に対して、そして前記ベクトル加算回路の被加算値ベクトルおよび結果ベクトルに対するデータ境界設定の入力に接続され、前記ベクトル加算回路は結果の第１および第２の被加算値ベクトルのビットの出力がそれぞれ前記計算ユニットの出力となっていることを特徴とするニューラル・プロセッサ。３．請求項１に記載のニューラル・プロセッサにおいて、各飽和ユニットが入力データ・レジスタを含み、この入力データ・レジスタのデータ入力が前記ユニットの入力オペランド・ベクトルのそれぞれのビットの入力であり、前記演算ユニットは入力データ・レジスタを含み、この入力データ・レジスタのデータ入力が前記ユニットの第１および第２のオペランド・ベクトルのそれぞれのビットの入力であり、前記加算器回路は入力データ・レジスタを含み、この入力データ・レジスタのデータ入力が前記加算器回路のそれぞれの入力の入力であることを特徴とするニューラル・プロセッサ。４．飽和ユニットであって、Ｎ個の各ビットにおいて第１の乗算器を含み、前記第１乗算器は第２データ入力が前記ユニットの入力オペランド・ベクトルのそれぞれのビットの入力に接続され、前記ユニットは結果ベクトルの各ビットの出力が前記ユニットのそれぞれのビットの第１乗算器の出力に接続されていて、前記ユニットはキャリー伝播回路およびキャリー・ルック・アヘッド回路を組み込んでいて、その各ビットが第２のマルチプレクサと排他的ＯＲゲートと、等価ゲートと、ＮＡＮＤゲートと、反転入力付きＡＮＤゲートとを組み込んでいて、前記ユニットの各ビットの前記反転入力付きＡＮＤゲートの非反転入力および前記等価ゲートの第１入力が結合されて前記ユニットのそれぞれの制御入力に接続され、前記ユニットのｎ番目のビットのＮＡＮＤゲートの出力が前記キャリー・ルック・アヘッド回路の（Ｎ−ｎ＋１）番目のビットを通じてキャリー伝播の入力に接続され、前記キャリー・ルック・アヘッド回路は（Ｎ−ｎ＋２）番目のビットに対するキャリーの出力が前記ユニットのｎ番目のビットの第１マルチプレクサの制御入力に接続され、前記反転入力付きＡＮＤゲートの出力が前記ユニットの同じビットの第２マルチプレクサの制御入力に対して、前記キャリー・ルック・アヘッド回路の（Ｎ−ｎ＋１）番目のキャリー発生入力に対して、そして前記キャリー伝播回路の（Ｎ−ｎ＋１）番目のビットを通じてキャリー伝播の反転入力に接続され、前記キャリー伝播回路は、（Ｎ−ｎ＋１）番目のビットからのキャリー入力が前記ユニットのｎ番目のビットの第２マルチプレクサの出力に接続され（ここで、Ｎ＝１，２，．．．，Ｎ）、前記ユニットの排他的ＯＲゲートの第１入力および反転入力付きＡＮＤゲートの非反転入力が前記ユニットの（ｑ− １）番目のビットの排他的ＯＲゲートの第２入力に対して、そして反転入力付きＡＮＤゲートの反転入力に対してそれぞれ接続され、前記ユニットの前記第２マルチプレクサの第１データ入力が前記キャリー伝播回路の（Ｎ−ｑ＋２）番目のビットに接続され（ここで、ｑ＝２，３，．．．，Ｎ）、前記キャリー伝播回路の、そしてキャリー・ルック・アヘッド回路の初期キャリー入力、前記排他的ＯＲゲートの第２入力、前記反転入力付きＡＮＤゲートの反転入力および前記ユニットのＮ番目のビットの前記第２マルチプレクサの第１データ入力が結合されて「０」に接続され、そして前記ユニットの各ビットにおいて、前記第２マルチプレクサの出力が前記等価ゲートの第２入力に接続され、前記等価ゲートの出力が前記第１マルチプレクサの第１データ入力に接続され、前記第１マルチプレクサは、第２データ入力が前記第２マルチプレクサの第２データ入力に対して、そして前記排他的ＯＲゲートの第１入力に接続され、前記排他的ＯＲゲートは出力が前記ユニットの同じビットのＮＡＮＤゲートの第２入力に接続されていることを特徴とする飽和ユニット。５．請求項４に記載のユニットにおいて、ｑ番目のビットに対するキャリーの出力が前記キャリー伝播回路の中の（ｑ− １）番目のビットからのキャリー入力に接続されている（ここで、ｑ＝１，２，．．．，Ｎ）ことを特徴とするユニット。６．請求項４に記載のユニットにおいて、前記キャリー・ルック・アヘッド回路がＡＮＤゲートおよびＯＲゲートを両方ともＮ個を含み、そして前記回路のそれぞれのビットを通して前記キャリーの伝播の各入力がそれぞれのＡＮＤゲートの第１入力に接続され、前記ＡＮＤゲートは出力がそれぞれのＯＲゲートの第１入力に接続され、前記ＯＲゲートは、第２入力および出力がそれぞれ前記回路のそれぞれのビットのキャリー発生入力に対して、そして前記回路の同じビットに対するキャリーの出力に接続され、前記第１のＡＮＤゲートの第２入力が前記回路の初期キャリー入力であり、ｑ番目のＡＮＤゲートの第２入力が（ｑ−１）番目のＯＲゲートの出力に接続されている（ここで、ｑ＝２，３，．．．，Ｎ）ことを特徴とするユニット。７．計算ユニットであって、乗数ビットのＮ／２のデコーダと、Ｎカラム×Ｎ／２セルの乗算器アレイとを含んでいて、各乗算器が１ビット部分積発生回路と１ビット加算器とから構成され、前記乗算器アレイのすべてのカラムのｉ番目のセルの前記１ビット部分積発生回路のそれぞれの制御入力が結合されて、乗数ビットのｉ番目のデコーダのそれぞれの出力に接続され（ここで、ｉ＝１，２，．．．，Ｎ／２）、前記乗算器アレイの各セルの前記１ビット加算器の第１入力が前記乗算器アレイの同じセルの前記１部分積発生回路の出力に接続されていて、それはＮ／２個の反転入力付きＡＮＤゲートと、遅延要素と、Ｎビットのシフト・レジスタとを組込みんでいて、前記シフト・レジスタの各ビットは反転入力付きＡＮＤゲートと、乗算器と、トリガとから構成され、そして前記乗算器アレイの各セルが前記ユニットの第１および第２のメモリ・ブロックのそれぞれのメモリ・セルとして機能し、反転入力付きＡＮＤゲートと、マルチプレクサとを含み、そして前記ユニットの第１オペランド・ベクトルの各ビットの入力が前記乗算器アレイのそれぞれのカラムの第１セルの前記１ビット加算器の第２入力に接続され、マルチプレクサの制御入力および前記乗算器アレイの各カラムのすべてのセルの反転入力付きＡＮＤゲートの反転入力が結合されて、前記ユニットの第１オペランド・ベクトルに対する、そして結果ベクトルに対するデータ境界設定のそれぞれの入力に接続され、前記ユニットは第２オペランド・ベクトルに対するデータ境界設定の各入力がそれぞれの反転入力付きＡＮＤゲートの反転入力に接続され、前記反転入力付きＡＮＤゲートは、出力が乗算器のビットのそれぞれのデコーダの第１入力に接続され、乗数ビットのｉ番目のデコーダの第２および第３の入力が前記ユニットのそれぞれ（２ｉ−１）番目および（２ｉ）番目のビットの入力に接続され（ここで、ｉ＝１，２，．．．，Ｎ／２）、ｊ番目の反転入力付きＡＮＤゲートの非反転入力が乗数ビットの（ｊ−１）番目のデコーダの第３入力に接続され（ここで、ｊ＝２，３，．．．，Ｎ／２）、前記ユニットの第３オペランド・ベクトルの各ビットの入力が前記シフト・レジスタのそれぞれのビットのマルチプレクサの第２データ入力に接続され、前記シフト・レジスタは第１データ入力が前記シフト・レジスタの同じビットの反転入力付きＡＮＤゲートの出力に接続され、前記シフト・レジスタは第１の反転入力が前記ユニットの第３オペランド・ベクトルに対するデータ境界設定のそれぞれの入力に接続され、前記シフト・レジスタのｑ番目のビットの反転入力付きＡＮＤゲートの第２の反転入力が、前記シフト・レジスタの（ｑ−１）番目のビットの反転入力付きＡＮＤゲートの第１の反転入力に接続され（ここで、ｑ＝２，３，．．．，Ｎ）、前記シフト・レジスタのｒ番目のビットの反転入力付きＡＮＤゲートの非反転入力が前記シフト・レジスタの（ｒ−２）番目のビットのトリガ出力に接続され（ここで、ｒ＝３，４，．．．，Ｎ）、シフト・レジスタのすべてのビットのマルチプレクサの制御入力が結合されて前記ユニットの第１メモリ・ブロックへの第３オペランド・ベクトルのロード制御の第１入力に接続され、シフト・レジスタのすべてのビットのトリガのクロック入力および前記遅延要素の入力が結合されて前記第１メモリ・ブロックへの第３オペランド・ベクトルのロード制御の第２入力に接続され、各シフト・レジスタのビットの前記マルチプレクサの出力が前記シフト・レジスタの同じビットの前記トリガのデータ入力に接続され、シフト・レジスタは出力が前記乗算器アレイのそれぞれのカラムの最後のセルの第１のトリガのデータ入力に接続され、各乗算器アレイのカラムのｊ番目のセルの第１のトリガの出力が同じ乗算器アレイのカラムの（ｊ−１）番目のセルの第１のトリガのデータ入力に接続され（ここで、ｊ＝２，３，．．．，Ｎ／２）、乗算器アレイのすべてのセルの第１のトリガのクロック入力が結合されて前記遅延要素の出力に接続され、乗算器アレイのすべてのセルの第２のトリガのクロック入力が結合されて第１メモリ・ブロックから第２メモリ・ブロックへの第３オペランド行列の再ロード制御の入力に接続され、乗算器アレイのｑ番目のカラムのｉ番目のセルの前記１ビット部分積発生回路の第２データ入力が乗算器アレイの（ｑ− １）番目のカラムのｉ番目のセルの反転入力付きＡＮＤゲートの出力に接続され（ここで、ｉ＝１，２，．．．，Ｎ／２、ｑ＝２，３，．．．，Ｎ）、乗算器アレイの各カラムのｊ番目のセルの前記１ビット加算器の第２入力が乗算器アレイの同じカラムの（ｊ−１）番目のセルの前記１ビット加算器の和の出力に接続され（ここで、ｊ＝２，３，．．．，Ｎ／２）、乗算器アレイのｑ番目のカラムのｊ番目のセルの前記１ビット加算器の第３入力が、乗算器アレイの（ｑ−１）番目のカラムの（ｊ−１）番目のセルの前記マルチプレクサの出力に接続され（ここで、ｊ＝２，３，．．．，Ｎ／２、ｑ＝２，３，．．．，Ｎ）、乗算器アレイの第１カラムのｊ番目のセルの前記１加算器の第３入力が（ｊ−１）番目の乗数ビットのデコーダの第３入力に接続され（ここで、ｊ＝２，３，．．．，Ｎ／２）、乗算器アレイの各カラムの最後のセルの前記１加算器の和の出力が前記ユニットの結果の第１の被加算値ベクトルのそれぞれのビットの出力であり、乗算器アレイの（ｑ−１）番目のカラムの最後のセルの前記マルチプレクサの出力が前記ユニットの結果の第２の被加算値ベクトルの出力であり（ここで、ｑ＝２，３，．．．，Ｎ）、結果の第２の被加算値ベクトルの第１ビットが乗数ビットの（Ｎ／２）番目のデコーダの第３出力に接続され、前記シフト・レジスタの、第１ビットの反転入力付きＡＮＤゲートの第２の反転および非反転入力および、第２ビットの反転入力付きＡＮＤゲートの非反転入力と、前記乗算器アレイの第１カラムのすべてのセルの前記１ビット部分積発生回路の第２データ入力と、乗算器アレイのすべてのカラムの第１セルの１ビット加算器の第３入力と、第１の反転入力付きＡＮＤゲートの非反転入力とが結合されて「０」に接続され、そして各乗算器アレイにおいて、第１のトリガが第２のトリガのデータ入力に接続され、第２のトリガが出力が前記１ビット部分積発生回路の反転入力付きＡＮＤゲートの非反転入力に対して、そして第１のデータ入力に接続され、前記１ビット部分積発生回路は第３制御入力が前記マルチプレクサの第２データ入力に接続され、前記マルチプレクサは、第１データ入力が前記乗算器アレイの同じセルの前記１ビット加算器のキャリー出力に接続されていることを特徴とする計算回路。８．加算器回路であって、Ｎ個のその各ビットの中にキャリー・ルック・アヘッド回路と、半加算器と、排他的ＯＲゲートとを含み、前記加算器回路の第１の被加算値ベクトルの各ビットの入力と、前記加算器回路の第２の被加算値ベクトルのそれぞれのビットの入力とが、それぞれ前記加算器回路のそれぞれのビットの半加算器の第１および第２の入力に対して接続され、前記加算器回路は、和の出力が前記加算器回路の同じビットの排他的ＯＲゲートの第１入力に接続され、前記加算器回路は出力が前記加算器回路の和のベクトルのそれぞれのビットの出力であり、前記加算器回路のｑ番目のビットの排他的ＯＲゲートの第２入力が前記キャリー・ルック・アヘッド回路のｑ番目のビットに対するキャリーの出力に接続され（ここで、ｑ＝２，３，．．．，Ｎ）、前記キャリー・ルック・アヘッド回路は、前記加算器回路の第１ビットの排他的ＯＲゲートの初期キャリー入力および第２入力が「０」に接続されている加算器回路において、第１および第２の反転入力付きＡＮＤゲートが、その各ビットの中に組み込まれており、そして前記加算器回路の各ビットの前記半加算器の和の出力が前記加算器回路の同じビットの第１の反転入力付きＡＮＤゲートの非反転入力に接続され、前記加算器回路は出力が前記キャリー・ルック・アヘッド回路のそれぞれのビットを通してキャリー伝播入力に接続され、前記加算器回路の各ビットの前記半加算器のキャリー出力が前記加算器回路の同じビットの第２の反転入力付きＡＮＤゲートの非反転入力に接続され、前記加算器回路は、出力が前記キャリー・ルック・アヘッド回路のそれぞれのビットのキャリー発生入力に接続され、前記加算器回路の各ビットの第１および第２の反転入力付きＡＮＤゲートの反転入力が結合されて、被加算値ベクトルおよび和のベクトルに対するデータ境界設定のそれぞれの入力に接続されていることを特徴とする加算器回路。