JP7023149B2

JP7023149B2 - 半導体装置

Info

Publication number: JP7023149B2
Application number: JP2018054284A
Authority: JP
Inventors: 大輔宮下
Original assignee: Kioxia Corp
Current assignee: Kioxia Corp
Priority date: 2018-03-22
Filing date: 2018-03-22
Publication date: 2022-02-21
Anticipated expiration: 2038-03-22
Also published as: JP2019168783A; US10802799B2; US20190294414A1

Description

本発明の実施形態は、半導体装置に関する。

従来より、行列と行列の乗算（以降、「行列積」と呼ぶ）を行なう半導体装置が知られている。行列積は、画像処理等のデジタル信号処理で必要とされる基本的な演算である。ディープニューラルネットワーク（ＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋ）の計算も大部分は、行列積である。ディープニューラルネットワークにおいて、行列積に要求される精度は、他の行列積の演算に要求される精度に比べて低い。また、ディープニューラルネットワークの処理の中でも、行列積に要求される精度は、使われる場面によって変化する。

例えば、学習のときよりも、推論のときの方が、行列積に要求される精度は低いことが知られている。また、同じ推論のときであっても、ディープニューラルネットワークの層によって要求される精度が違ったり、同じ層の中でも演算によって要求される精度が違うこともある。

一方、行列積は、それぞれ独立した乗算および加算の組み合わせで処理されるため、並列化が容易である。従って、複数の演算器を用いて並列に処理することも、低電力化や高速化などの効率改善に効果的である。

"ＢｉｎａｒｉｚｅｄＮｅｕｒａｌＮｅｔｗｏｒｋｓ：ＴｒａｉｎｉｎｇＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋｓｗｉｔｈＷｅｉｇｈｔｓａｎｄＡｃｔｉｖａｔｉｏｎｓＣｏｎｓｔｒａｉｎｅｄｔｏ＋１ｏｒ－１" ２０１８年２月２１日検索、インターネットＵＲＬ＜ｈｔｔｐｓ：／／ａｒｘｉｖ．ｏｒｇ／ａｂｓ／１６０２．０２８３０＞

データ処理の効率化を図ることができる半導体装置を提供する。

実施形態の半導体装置は、第１の入力端子と、第２の入力端子と、第１の入力端子から入力された値と、第２の入力端子から入力された値との積を計算する乗算器と、乗算器の出力を積算して出力するアキュームレータと、を備える演算回路を複数具備する。複数の演算回路は、複数行と複数列による二次元配列状に配置され、前記複数行の各行における第１数の演算回路のそれぞれの前記第１の入力端子には、第１入力データの行方向のビット数のうち前記第１数のビット数の第１ビットデータが共通に入力され、前記複数列の各列における第２数の演算回路のそれぞれの前記第２の入力端子には、第２入力データの列方向のビット数のうち前記第２数のビット数の第２ビットデータが共通に入力される。実施形態の半導体装置は、前記複数の演算回路の前記アキュームレータの出力にそれぞれ係数をかけた結果を足し合わせて積和演算結果を求める処理回路をさらに具備する。

実施形態に係る半導体装置１００を示す図である。実施形態に係る半導体装置１００の積和演算回路１の第１の例を示す図である。実施形態に係る半導体装置１００の積和演算回路１ａの第２の例を示す図である。実施形態に係る半導体装置１００の積和演算回路１ｂの第３の例を示す図である。図５Ａ及び図５Ｂ共に、入力される入力データｗ、ｘと演算器ｕ_０，０～ｕ_{１５，１５}との関係を示す図である。図５Ａ及び図５Ｂ共に、入力される入力データｗ、ｘと演算器ｕ_０，０～ｕ_{１５，１５}との関係を示す図である。ＬＵＴ４を示す図である。第４の例の積和演算回路１に対する後処理演算を説明するためのフローチャートである。

以下、実施の形態について、図面を参照して説明する。
１半導体装置の構成
図１は、実施形態に係る半導体装置１００を示す図である。

図１に示すように、積和演算回路１には、メモリ２及び後処理回路３が接続されている。積和演算回路１には、メモリ２に記憶された２つのデータ（データＸ、Ｗ）が入力される。

データＸは、ｔ行ｒ列の行列形式で表現されるデータであり、データＷは、ｍ行ｔ列の行列形式で表現されるデータである（ｔ，ｒ，ｍは０又は正の整数）。実施形態では、ｔは時刻（読み出しサイクル）であるものとする。

２つの行列を
Ｗ＝｛ｗ_ｍ，ｔ｝_{０≦ｍ≦Ｍ-1，０≦ｔ≦Ｔ-1}，
Ｘ＝｛ｘ_ｔ，ｒ｝_{０≦ｔ≦Ｔ－１，０≦ｒ≦Ｒ－１}
とする。

ここで、Ｔ－１は読み出しサイクルの最大値、Ｒ－１はデータＸの行列の最大列数、Ｍ－１はデータＷの行列の最大行数である。

積和演算回路１は、メモリ２から入力される２つのデータ（Ｗ，Ｘ）の行列演算を行ない、その計算結果を後処理回路３に出力する。具体的には、積和演算回路１は、複数の演算器を有し、これら各演算器は乗算器とアキュームレータとを有し、アレイ状に配置されている。

計算する行列をＹ＝ＷＸとすると、Ｙ＝｛ｙ_ｍ，ｒ｝_{０≦ｍ≦Ｍ－１，０≦ｒ≦Ｒ－１}の各要素に対する演算は、次のような積和演算の形となる。

すなわち、積和演算回路１は、積和演算結果を、後処理回路３に出力する。

メモリ２は、ＳＲＡＭ、ＤＲＡＭ、ＳＤＲＡＭ、ＮＡＮＤフラッシュメモリ、３次元構造のフラッシュメモリ、ＭＲＡＭ、レジスタ、ラッチ回路、を含む、半導体メモリであればよい。

後処理回路３は、積和演算回路１からのｍ行ｒ列に対応する時刻Ｔ－１での各演算器の出力に対して、各演算器に対して設定され得る所定の係数を使用して演算を行い、演算結果に出力インデックスを付してプロセッサ５に出力する。このとき、後処理回路３は、必要に応じて、ルックアップテーブル（ＬＵＴ）４から所定の係数及び出力インデックスを取得する。

なお、後処理が必要とされない場合には、後処理回路３を設ける必要なく、積和演算回路１からの出力はプロセッサ５に出力される。

ＬＵＴ４は、積和演算回路１の各演算器に対する所定の係数及び出力インデックスを格納する。なお、ＬＵＴ４は、記憶回路であっても良い。

プロセッサ５は、後処理回路３により処理された各演算器の積和演算結果を受信する。また、プロセッサ５は、ＬＵＴ４に格納され、各演算器に対して設定される所定の係数や出力インデックスを設定可能である。
２積和演算回路１の構成及び半導体装置の動作
２－１第１の例の積和演算回路（ビット限定なしの積和演算回路）
図２は、実施形態に係る半導体装置１００の積和演算回路１の第１の例を示す図である。

図２に示すように、Ｍ×Ｒ個の各演算器ｕ_０，０～ｕ_{Ｍ－１，Ｒ－１}がアレイ状に並列に配置される。演算器ｕ_ｍ，ｒは、ｍ行ｒ列に位置する演算器を表わす。各演算器ｕ_０，０～ｕ_{Ｍ－１，Ｒ－１}は、乗算器１１、加算器１２及びレジスタ１３を有する。

各演算器ｕ_０，０～ｕ_{Ｍ－１，Ｒ－１}の乗算器１１は第１の入力端子及び第２の入力端子を有する。演算器ｕ_ｍ，ｒの乗算器１１の第１の入力端子は、ｍ行に配置された他の演算器と共有のデータ線に接続され、第２の入力端子は、ｒ列に配置された他の演算器と共有のデータ線に接続される。

すなわち、演算器ｕ_ｍ，ｒの一部の乗算器１１の第１の入力端子から入力される第１入力は、データｗ_ｍ，ｔのデータ線を行方向で共有し、乗算器１１の第２の入力端子から入力される第２入力は、データｘ_ｔ，ｒのデータ線を列方向で共有する。

従って、時刻ｔにおいて、演算器ｕ_０，０、ｕ_０，１、…、ｕ_{０，Ｒ－１}の乗算器１１の第１入力はデータｗ_０，ｔの値を共有し、演算器ｕ_１，０、ｕ_１，１、…、ｕ_{１，Ｒ－１}の乗算器１１の第１入力はデータｗ_１，ｔの値を共有し、・・・・、演算器ｕ_{Ｍ－１，０}、ｕ_{Ｍ－１，１}、…、ｕ_{Ｍ－１，Ｒ－１}の乗算器１１の第１入力はデータｗ_{Ｍ－１，ｔ}の値を共有する。

同様に、時刻ｔにおいて、演算器ｕ_０，０、ｕ_１，０、・・・、ｕ_{Ｍ－１，０}の乗算器１１の第２入力はデータｘ_ｔ，０の値を共有し、演算器ｕ_０，１、ｕ_１，１、…、ｕ_{Ｍ－１，１}の乗算器１１の第２入力はデータｘ_ｔ，１の値を共有し、・・・・、演算器ｕ_{０，Ｒ－１}、ｕ_{１，Ｒ－１}、…、ｕ_{Ｍ－１，Ｒ－１}の乗算器１１の第２入力はデータＸ_{ｔ，Ｒ－１}の値を共有する。

各演算器ｕ_０，０～ｕ_{Ｍ－１，Ｒ－１}の乗算器１１は、第１入力に入力されたデータと、第２入力に入力されたデータとを乗算して、その乗算結果を加算器１２に出力する。

従って、時刻ｔにおける演算器ｕ_０，０、ｕ_０，１、…、ｕ_{０，Ｒ－１}の各乗算器１１は、それぞれ第１入力のデータｗ_０，ｔの値と第２入力のデータｘ_ｔ，０、ｘ_ｔ，１、・・・ｘ_{ｔ，Ｒ－１}とを乗算した各乗算結果を出力する。

また、時刻ｔにおける演算器ｕ_０，０、ｕ_１，０、…、ｕ_{Ｍ－１，０}の各乗算器１１は、それぞれ第２入力のデータｘ_ｔ，０の値と第１入力のデータｗ_０，ｔ、ｗ_１，ｔ、・・・ｗ_{Ｍ－１，ｔ}とを乗算した各乗算結果を出力する。

各演算器ｕ_０，０～ｕ_{Ｍ－１，Ｒ－１}の加算器１２とレジスタ１３とは、アキュームレータを構成する。各演算器ｕ_０，０～ｕ_{Ｍ－１，Ｒ－１}の加算器１２は、乗算器１１からの乗算結果と、レジスタ１３に格納された時刻ｔ－１（時刻ｔの１サイクル前）でのレジスタ１３の値（アキュームレータの値）とを加算する。

レジスタ１３は、時刻ｔ－１における加算器１２からの乗算結果を保持し、時刻ｔのサイクルで加算器１２から出力された加算結果を保持する。

このように、Ｍ×Ｒ個の演算器がアレイ状に並列に配置され、時刻ｔに、ｍ行にあるｒ個の演算器Ｕに対してｗ_ｍ，ｔが入力され、ｒ列にあるｍ個の演算器に対してｘ_ｔ，ｒが入力される。この結果、第ｍ行、第ｒ列の演算器では、時刻ｔに以下の計算が実行される。

ｙ_{ｍ、ｒ、ｔ} ＝ｙ_{ｍ、ｒ、ｔ－１} ＋ｗ_ｍ，ｔ × ｘ_ｔ，ｒ
…（２）
ここで、ｙ_{ｍ、ｒ、ｔ}は、時刻ｔに演算器ｕ_ｍ，ｒのレジスタ１３に新たに格納された値である。この結果Ｔサイクルで、（１）式の演算が完了する。つまり、Ｍ×Ｒ個の演算器が、それぞれＴサイクルかけてｙ_ｍ，ｒを計算することで、行列式Ｙ＝Ｍ×Ｘを計算することができる。

各演算器ｕ_ｍ，ｒの時刻ｔにおけるレジスタ１３の値は、後処理回路３に出力される。第１の例では、積和演算回路１から出力された各演算器ｕ_ｍ，ｒの出力は、後処理が行なわれずにプロセッサ５に出力される。
２－２第２の例の積和演算回路（乗算器１１が１ビットの積和演算回路１）
図３は、実施形態に係る半導体装置１００の積和演算回路１ａの第２の例を示す図である。第２の例の積和演算回路１ａは、乗算器１１が１ビットである場合を示す。

図３は、図２に示した乗算器１１が１ビットの乗算器である場合を示す図である。１ビットの乗算器は、０×０＝０、０×１＝０、１×０＝０、１×１＝１の４通りの計算ができればよいが、これは２入力ＡＮＤの論理そのものである。第２の例では、各演算器ｕａ_ｍ，ｒの積和演算回路１ａの乗算器にＡＮＤ論理ゲート２１を使用する。

図３において、各演算器ｕａ_ｍ，ｒの積和演算回路１ａのＡＮＤ論理ゲート２１の２つの入力は１ビットであり、１ビットのデータｗ_ｍ，ｔ及びｘ_ｔ，ｒが入力される。ＡＮＤ論理ゲート２１の出力は１ビットであり、データｗ_ｍ，ｔ及びｘ_ｔ，ｒのＡＮＤ論理が出力される。

加算器１２の１つの入力は１ビットであり、ＡＮＤ論理ゲート２１からの１ビットの出力データが入力される。加算器１２の他の入力は多ビットであり、レジスタ１３からの時刻ｔ－１における多ビットのレジスタ１３の値が入力される。加算器１２は、ＡＮＤ論理ゲート２１からの１ビットの出力データと、レジスタ１３からの時刻ｔ－１における多ビットのレジスタ１３の値とを加算した多ビットのデータを出力する。

レジスタ１３の入力は多ビットであり、時刻ｔにおける、加算器１２からの１ビットの出力データが加算器１２で加算された多ビットの出力データを保持する。時刻Ｔ（サイクル）における各演算器ｕａ_ｍ，ｒの積和演算回路１ａのレジスタ１３の値は、後処理回路３に出力される。

第２の例では、積和演算回路１ａから出力された各演算器ｕａ_ｍ，ｒの出力は、後処理が行なわれずにプロセッサ５に出力される。

なお、１ビットのデータｗ_ｍ，ｔ及びｘ_ｔ，ｒが（１，０）で表現される場合には、ＡＮＤ論理ゲート２１はＡＮＤ論理ゲートであるが、（＋１，－１）で表現される場合には、ＡＮＤ論理ゲート２１はＸＮＯＲ論理ゲートとなる。

また、ＡＮＤ論理ゲート２１と、ＸＮＯＲ論理ゲート（図示せず）と、レジスタの設定によりＡＮＤ論理ゲート２１及びＸＮＯＲ論理ゲートの何れかを選択する選択回路（図示せず）と、を各演算器ｕａ_ｍ，ｒに設けても良い。

また、入力が１ビットのアキュームレータは、図３に示すように、加算器１２及びレジスタ１３で構成しても良いが、非同期カウンタを使用しても良い。
２－３第３の例の積和演算回路（多ビットの場合１：入力されるデータｗ_ｍ，ｔ，ｘ_ｔ，ｒが３ビットの場合の積和演算回路）
図４は、実施形態に係る半導体装置１００の積和演算回路１ｂの第３の例を示す図である。第３の例の積和演算回路１ｂは、入力される各データｗ_０，ｔ，ｘ_ｔ，０が３ビットの場合を示す。演算器ｕｂ_０，０～ｕ_２，２の構成は、図３に示した演算器ｕａと同じである。

図４に示すように、入力されるデータｗ_０，ｔ，ｘ_ｔ，０が３ビットの場合の積和演算回路１は、データｗ_０，ｔ ^（０）のデータ線にはデータｗ_０，ｔの０ビット目（ＬＳＢ）の値が入力され、データｗ_０，ｔ ^（１）のデータ線にはデータｗ_０，ｔの１ビット目の値が入力され、データｗ_０，ｔ ^（２）のデータ線にはデータｗ_０，ｔの２ビット目（ＭＳＢ）の値が入力される。

また、データｘ_ｔ，０ ^（０）のデータ線にはデータｘ_ｔ，０の０ビット目（ＬＳＢ）の値が入力され、データｘ_ｔ，０ ^（１）のデータ線にはデータｘ_ｔ，０の１ビット目の値が入力され、データｘ_ｔ，０ ^（２）のデータ線にはデータｘ_ｔ，０の２ビット目（ＭＳＢ）の値が入力される。

例えば、時刻ｔにおいて、データｗ_０，ｔが３ビットで「０１１_ｂ」で表わされる場合、データｗ_０，ｔ ^（０）のデータ線には「１」、データｗ_０，ｔ ^（１）のデータ線には「１」、データｗ_０，ｔ ^（２）のデータ線には「０」が入力される。

また、時刻ｔにおいて、データｘ_ｔ，０が３ビットで「１１０_ｂ」で表わされる場合、データｘ_ｔ，０ ^（０）のデータ線には「０」、データｘ_ｔ，０ ^（１）のデータ線には「１」、データｘ_ｔ，０ ^（２）のデータ線には「１」が入力される。

すなわち、データｗ_ｍ，ｔ、ｘ_ｔ，ｒが３ビットの場合、以下のように表現することができる。なお、ここでは、出力の１要素のみに注目することとし、これまでの説明で使ったｍ，ｒの添え字は省略する。ｗ_ｔ ^（２）等の値は、全て１ビットの値（０又は１）である。

ｗ_ｔ＝ｗ_ｔ ^（２）×２^２＋ｗ_ｔ ^（１）×２^１＋ｗ_ｔ ^（０）×２^０
…（３）
ｘ_ｔ＝ｘ_ｔ ^（２）×２^２＋ｘ_ｔ ^（１）×２^１＋ｘ_ｔ ^（０）×２^０
…（４）
このとき、（１）式は、次のようになる。

（５）式を見ると、１行目の３つのシグマではｗ_（ｔ） ^（２）が、２行目の３つのシグマではｗ_（ｔ） ^（１）が、３行目の３つのシグマではｗ_（ｔ） ^（０）が利用されている。また、１列目の３つのシグマにはｘ_（ｔ） ^（２）が、２列目の３つのシグマにはｘ_（ｔ） ^（１）が、３列目の３つのシグマにはｘ_（ｔ） ^（０）が利用されている。すなわち、図４に示した演算器ｕｂ_０，０～ｕ_２，２の構成は、（５）式における各シグマの項の演算に相当する。
各演算器ｕｂ_０，０～ｕ_２，２の出力は、後処理回路３に出力される。後処理回路３では、各シグマにそれぞれ対応する２のべき乗の係数を掛けて足し合わせることで、最終的な多ビットの積和演算の結果が得られる。なお、後処理回路３における２のべき乗の係数を掛ける処理は、シフト演算で容易に実行することができる。

ディープニューラルネットワークを含め多くの場合、Ｔは１００を超えるような比較的大きな値である。そのためシグマの項の１ビットの積和演算に対して、最後に２のべき乗の係数をかけてシグマ同士を足し合わせる処理（後処理と呼ぶ）は、低頻度でしか実行されない。後処理の実行方法については、例えば逐次的に実行する等、適宜選択しても良い。
・負の数の取り扱いについて
データの値を２の補数表現で扱う場合、（３）、（４）式は次のようになる。

ｗ_ｔ＝－ｗ_ｔ ^（２）×２^２＋ｗ_ｔ ^（１）×２^１＋ｗ_ｔ ^（０）×２^０
…（３’）
ｘ_ｔ＝－ｘ_ｔ ^（２）×２^２＋ｘ_ｔ ^（１）×２^１＋ｘ_ｔ ^（０）×２^０
…（４’）
この時、（５）式は次のようになる。

つまり、後処理回路３における後処理の際に、係数を負にすれば良く、図４と同様の構成を利用することができる。
２－４第４の例の積和演算回路（多ビットの場合２：入力されるデータｗ_ｍ，ｔ，が異なるビット、ｘ_ｔ，ｒが４ビットの場合の積和演算回路）
次に、第４の例の積和演算回路１について説明する。

第４の例では、積和演算回路１が１６×１６の構成の演算器アレイの場合について説明する。

入力データであるＸは３２行４列の行列とし、全ての要素が４ビットで表現されているとする。入力データであるＷは１５行３２列の行列とし、各行の要素のビット幅がそれぞれ｛１，２，４，２，２，１，２，３，２，２，３，２，１，３，２｝であるとする。つまり、例えば、０行目の３２要素は１ビット、１行目の３２要素は２ビット、２行目の３２要素は４ビット、３行目の３２要素は２ビット、・・・、ということを表す。

行列積Ｙ＝ＷＸは１５行４列の行列となる。図５Ａ及び図５Ｂは入力データＷ、Ｘの各値をどのように演算器アレイに入力するかを示している。両図中のｕ_０，０～ｕ_{１５，１５}はそれぞれ１個の演算器を示している。ｘ_ｔ，ｒ ^（ｂ）は、Ｘのｔ行ｒ列のｂビット目の値を意味し、ｗ_ｍ，ｔ ^（ｂ）は、Ｗのｍ行ｔ列のｂビット目の値を意味する。すなわち、ｔ＝０は、Ｘの０行目且つＷの０列目に対応し、ｔ＝３１は、Ｘの３１行目且つＷの３１列目に対応する。

図５Ａのとおり、Ｘは４列×４ビットがちょうど演算器の列数１６に収まっているが、Ｗは７行目の２ビット目と１ビット目までで演算器ｕの行数１６を使い切っていることがわかる。従って、７行目の０ビット目を含むＷの残りの行については後で計算を行なう。

ｔは初期値が０で、３１になるまで１サイクルに１ずつインクリメントする。ｙ（ｕ_ｍ，ｒ）を、演算器ｕ_ｍ，ｒのアキューミュレータ出力とすると、例えば、３２サイクル後には、ｙ_０，０に含まれるｙ（ｕ_０，０）からｙ（ｕ_０，３）は、（６）式に示す値となる。

これらに対して、後処理回路３において、以下の演算を行なうことで、ｙ_０，０を求めることができる。

ｙ_０，０＝２^３×ｙ（ｕ_０，０）＋２^２×ｙ（ｕ_０，１）＋２^１×ｙ（ｕ_０，２）＋２^０×ｙ（ｕ_０，３）
同様に、３２サイクル後には、ｙ_１，０に含まれるｙ（ｕ_１，０）からｙ（ｕ_２，３）は、（７）式に示す値となる。

これから、ｙ_１，０を以下のように計算することができる。
ｙ_１，０＝２^４×ｙ（ｕ_１，０）＋２^３×ｙ（ｕ_１，１）＋２^２×ｙ（ｕ_１，２）＋２^１×ｙ（ｕ_１，３）
＋２^３×ｙ（ｕ_２，０）＋２^２×ｙ（ｕ_２，１）＋２^１×ｙ（ｕ_２，２）＋２^０×ｙ（ｕ_２，３）
…（８）
このように、各演算器ｕ_ｍ，ｒの結果それぞれに対する、係数（２のべき乗）の値及び出力のどの要素に対応するか（インデックス）は、互いに異なる。例えば、係数の値と、出力インデックスを以下のように設定する。

ｙ（ｕ_０，０）：係数＝２^３、出力インデックス＝（０，０）
ｙ（ｕ_０，１）：係数＝２^２、出力インデックス＝（０，０）
ｙ（ｕ_０，２）：係数＝２^１、出力インデックス＝（０，０）
ｙ（ｕ_０，３）：係数＝２^０、出力インデックス＝（０，０）
ｙ（ｕ_１，０）：係数＝２^４、出力インデックス＝（１，０）
ｙ（ｕ_１，１）：係数＝２^３、出力インデックス＝（１，０）
ｙ（ｕ_１，２）：係数＝２^２、出力インデックス＝（１，０）
ｙ（ｕ_１，３）：係数＝２^１、出力インデックス＝（１，０）
ｙ（ｕ_１，０）：係数＝２^３、出力インデックス＝（１，０）
ｙ（ｕ_１，１）：係数＝２^２、出力インデックス＝（１，０）
ｙ（ｕ_１，２）：係数＝２^１、出力インデックス＝（１，０）
ｙ（ｕ_１，３）：係数＝２^０、出力インデックス＝（１，０）
…（９）
つまり、実施形態では、（ｍ，ｒ）をアドレスとする係数と出力インデックスを格納したＬＵＴ４を用意する。図６は、ＬＵＴ４を示す図である。

図６に示すように、ＬＵＴ４には、ｃｏｅｆ［ｍ，ｒ］及びｉｎｄｅｘ［ｍ，ｒ］が格納される。ｃｏｅｆ［ｍ，ｒ］はｍ行ｒ列の乗算器ｕ_ｍ，ｒの出力ｙ（_{ｕ（ｍ，ｒ）}）に乗ぜられる係数、ｉｎｄｅｘ［ｍ，ｒ］は乗算器ｕ_ｍ，ｒの出力ｙ（_{ｕ（ｍ，ｒ）}）に付される出力インデックスである。

図５Ａに示すように、ｗ_７，ｔは、１の演算器ｕにより１回の演算で、３ビットのうちの上位２ビットしか計算することができない。この上位２ビットの一部であり、ｙ_７，０に含まれるｙ（ｕ_１４，０）からｙ（ｕ_１５，３）に対応する係数と出力インデックスは以下の通りである。

ｙ（ｕ_１４，０）：係数＝２^５、出力インデックス＝（７，０）
ｙ（ｕ_１４，１）：係数＝２^４、出力インデックス＝（７，０）
ｙ（ｕ_１４，２）：係数＝２^３、出力インデックス＝（７，０）
ｙ（ｕ_１４，３）：係数＝２^２、出力インデックス＝（７，０）
ｙ（ｕ_１５，０）：係数＝２^４、出力インデックス＝（７，０）
ｙ（ｕ_１５，１）：係数＝２^３、出力インデックス＝（７，０）
ｙ（ｕ_１５，２）：係数＝２^２、出力インデックス＝（７，０）
ｙ（ｕ_１５，３）：係数＝２^１、出力インデックス＝（７，０）
…（１０）
従って、ｙ_７，０は以下の値となる。

ｙ_７，０＝２^５×ｙ（ｕ_１４，０）＋２^４×ｙ（ｕ_１４，１）＋２^３×ｙ（ｕ_１４，２）＋２^２×ｙ（ｕ_１４，３）＋２^４×ｙ（ｕ_１５，０）＋２^３×ｙ（ｕ_１５，１）＋２^２×ｙ（ｕ_１５，２）＋２^１×ｙ（ｕ_１５，３）
…（１１）
残りの１ビットは、図５Ａに示した演算が完了した後に、今度は、図５Ｂに示すｗを演算器ｕ_０，０～ｕ_{１５，１５}に入力する。この例では、ｘは図５Ａと同じである。ｙ_７，０の残りの下位１ビットに該当するｙ（ｕ_０，０）からｙ（ｕ_０，３）に対応する係数と出力インデックスは以下の通りである。

ｙ（ｕ_０，０）：係数＝２^３，出力インデックス＝（７，０）
ｙ（ｕ_０，１）：係数＝２^２，出力インデックス＝（７，０）
ｙ（ｕ_０，２）：係数＝２^１，出力インデックス＝（７，０）
ｙ（ｕ_０，３）：係数＝２^０，出力インデックス＝（７，０）
これらの値を使って、係数と出力インデックスに基づくアルゴリズムに従って後処理を行なうと、（１１）式の結果と合わせて、（１２）式となる。

ｙ_７，０＝２^５×ｙ（ｕ_１４，０）＋２^４×ｙ（ｕ_１４，１）＋２^３×ｙ（ｕ_１４，２）＋２^２×ｙ（ｕ_１４，３）＋２^４×ｙ（ｕ_１５，０）＋２^３×ｙ（ｕ_１５，１）＋２^２×ｙ（ｕ_１５，２）＋２^１×ｙ（ｕ_１５，３）＋２^３×ｙ（ｕ_０，０）＋２^２×ｙ（ｕ_０，１）＋２^１×ｙ（ｕ_０，２）＋２^０×ｙ（ｕ_０，３）
…（１２）
これにより、図５Ａに示した処理において途中であったｙ_７，０の計算が完了する。

図７は、第４の例の積和演算回路１に対する後処理演算を説明するためのフローチャートである。

図７に示すように、後処理回路３は、時刻ｔ（開始時はｔ＝０である）の各演算器ｕ_ｍ，ｒのアキュームレータの出力を受信する（Ｓ１）。後処理回路３は、各演算器ｕ_ｍ，ｒの出力ｙ（ｕ_ｍ，ｒ）に、各演算器ｕ_ｍ，ｒ出力に対応し、ＬＵＴ４に格納された係数を乗じ、出力インデックスを付加する後処理を実行する（Ｓ２）。

その後、時刻ｔ＝３１までの全ての演算器ｕ_０，０～ｕ_{１５，１５}のアキュームレータの出力について、後処理演算が終了したか否かが判断される（Ｓ３）。終了していないと判断された場合（Ｓ３のＮｏ）には、Ｓ１に戻り、後処理回路３は、時刻ｔ＝１以降の残りの演算器ｕ_０，０～ｕ_{１５，１５}のアキュームレータの出力について、後処理演算を行う。

一方、Ｓ３において、時刻ｔ＝３１までの全ての演算器ｕ_０，０～ｕ_{１５，１５}のアキュームレータの出力について、後処理演算が終了したと判断された場合（Ｓ３のＹｅｓ）、後処理回路３は、後処理演算の処理結果をプロセッサ５に送信し（Ｓ４）、処理を終了する。
３半動作体装置の効果
実施形態の半導体装置１００の積和演算回路１の構成によれば、ＳＲＡＭ等のメモリから積和演算回路１の演算器アレイへのデータ移動を少なくできる。その結果、半導体装置１００のデータ処理の効率化を図ることができる。

図２に示した例の場合、総積和演算回数はＭ×Ｒ×Ｔである。仮に、演算器が１個の場合は、１回の積和演算を行うために２個のデータを１回メモリから演算器へ移動する必要があるので、全体では２×Ｍ×Ｒ×Ｔのデータ移動が必要である。実施形態の図２に示した構成では、データｗ_ｍ，ｔ，ｘ_ｔ，ｒのデータ線を演算器ｕ_０，０～ｕ_{Ｍ－１，Ｒ－１}に対して、各行列毎に共通にしているので、データ移動は、（Ｍ＋Ｒ）×Ｔとなる。例えば、Ｍ＝Ｒの場合であって、図２の構成を採用しない場合に比べて、データ移動は、｛（Ｍ＋Ｒ）×Ｔ｝／｛２×Ｍ×Ｒ×Ｔ）＝１／Ｍとなる。

実施形態の第３の例及び第４の例の多ビットの場合の半導体装置１００によれば、入力されるデータＷ，Ｘのビット幅に応じて、ＬＵＴ４に適切な係数と出力インデックス設定し、上述の後処理アルゴリズムを適用することで、ＸやＷのビット数がばらばらであっても処理が可能である。

また、第４の例で示したｙ_７のケースのように、１つの値が分断されるケースでも問題ない。この特徴により、演算器アレイを無駄なく使い切ることが可能であり、これは演算器の高効率化、高速化に寄与する。

例えば、複数の１ビットの演算器を並列に動作させる半導体装置では、２ビット以上の精度が要求される場合に対応できない。実施形態の第３の例及び第４の例の１ビット×１ビットの積和演算は、同程度に高速に処理できる上に、多ビットの入力にも対応することができる。

また、多ビット×多ビット専用回路（ＧＰＵなど）とを比較する。１つの演算器が多ビット×多ビットに対応している場合、演算器ごとの回路規模は、１つの演算器が１ビット×１ビットの場合よりも大きくなる。

従って、並列数と演算器の演算１回当たりの処理時間が同じ場合、１ビット×１ビットの積和演算では、処理速度は同じで、回路規模が実施形態の第３の例及び第４の例の積和演算回路の方が小さくなる。

つまり、多ビット×多ビット専用の演算器を使って、１ビット×１ビットの演算をする場合には、使われない回路が存在することになり無駄が大きく効率が悪い。

例えば演算器が１６×１６個ある場合、１ビット×１ビットの積和演算は１６×１６＝２５６並列で実行することができる。同じ構成を使って４ビット×４ビットの積和演算を（１６／４）×（１６／４）＝１６並列で実行することができる。また２つの行列のビット幅は同じである必要はなく、２ビット×８ビットの積和演算を（１６／２）×（１６／８）＝１６並列で実行することも可能である。

実施形態の第３の例及び第４の例では、入力のビット幅によらず、演算器を効率よく使い切ることができるので、このような無駄がない。多ビット×多ビットの積和演算を行う場合は、並列数が同じ場合で比較すると、多ビット×多ビット専用の演算器で１つで行う計算を、実施形態では複数の演算器を使って行うことになるので、等価的に並列数が少なくなり、実施形態の第３の例及び第４の例の積和演算回路の方が処理速度が遅くなる。

しかし、１つの演算器の回路規模は実施形態の方が多ビット×多ビット専用の演算器よりも小さいので、同じ回路規模であれば、実施形態の方が演算器の並列数を大きくすることが可能である。

その結果、入力のビット幅が小さい場合は、実施形態の方が高速、入力のビット幅が大きい場合は、実施形態の方が低速となる。例えば、ディープラーニングの処理では、層によって要求される入力のビット幅が異なるが、大部分は小さいビット幅で良く、一部のみ大きなビット幅が要求されることがある。このように、入力のビット幅が小さい演算の割合が大きい場合、全体としては、実施形態の半導体装置１００の方が高速となる。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１…積和演算回路、２…メモリ、３…後処理回路、４…ＬＵＴ、５…プロセッサ、１１…、乗算器、１２…加算器、１３…レジスタ、２１…ＡＮＤ論理ゲート、ｘ、ｗ…入力データ、ｕ_ｍ，ｒ…演算器。

Claims

第１の入力端子と、
第２の入力端子と、
前記第１の入力端子から入力された値と、前記第２の入力端子から入力された値との積を計算する乗算器と、
前記乗算器の出力を積算して出力するアキュームレータと、
を備える演算回路を複数具備し、
前記複数の演算回路は、複数行と複数列による二次元配列状に配置され、
前記複数行の各行における第１数の演算回路のそれぞれの前記第１の入力端子には、第１入力データの行方向のビット数のうち前記第１数のビット数の第１ビットデータが共通に入力され、
前記複数列の各列における第２数の演算回路のそれぞれの前記第２の入力端子には、第２入力データの列方向のビット数のうち前記第２数のビット数の第２ビットデータが共通に入力され、
前記複数の演算回路の前記アキュームレータの出力にそれぞれ係数をかけた結果を足し合わせて積和演算結果を求める処理回路と、
をさらに具備する半導体装置。
前記第１の入力端子のそれぞれに入力される第１の値及び前記第２の入力端子のそれぞれに入力される第２の値はそれぞれ１ビットであり、
前記乗算器は、ＡＮＤ論理ゲートである、
請求項１記載の半導体装置。
前記アキュームレータは、非同期カウンタである、請求項１記載の半導体装置。
前記第１の入力端子のそれぞれに入力される第１の値及び前記第２の入力端子のそれぞれに入力される第２の値はそれぞれ１ビットであり、
前記乗算器は、ＸＮＯＲ論理ゲートである、
請求項１記載の半導体装置。
前記第１の入力端子のそれぞれに入力される第１の値及び前記第２の入力端子のそれぞれに入力される第２の値はそれぞれ１ビットであり、
前記乗算器は、ＡＮＤ論理ゲートと、ＸＮＯＲ論理ゲートと、前記ＡＮＤ論理ゲート及び前記ＸＮＯＲ論理ゲートのいずれかを選択する選択回路と、をさらに具備する、
請求項１記載の半導体装置。
前記複数の演算回路毎に、前記演算回路の出力に対する係数及びインデックス値を記憶する記憶回路をさらに具備し、
前記処理回路は、前記記憶回路を参照して、求められた積和演算結果に、前記演算回路に対応するインデックス値を付加する、
請求項１記載の半導体装置。
第１の入力端子と、
第２の入力端子と、
前記第１の入力端子から入力された値と、前記第２の入力端子から入力された値との積を計算する乗算器と、
前記乗算器の出力を積算して出力するアキュームレータと、
を備える演算回路を複数具備し、
前記複数の演算回路は、
それぞれの前記第１の入力端子に共通の第１の値が入力される第１のグループと、
それぞれの前記第２の入力端子に共通の第２の値が入力される第２のグループと、
を有し、
前記第１の値及び前記第２の値はそれぞれ１ビットであり、
前記乗算器は、
ＡＮＤ論理ゲートと、ＸＮＯＲ論理ゲートと、前記ＡＮＤ論理ゲート及び前記ＸＮＯＲ論理ゲートのいずれかを選択する選択回路と、
を有する
半導体装置。
メモリと、
前記メモリから読み出された行列形式で表現される第１データと、第２データとの積和演算を行う積和演算回路と、
前記積和演算回路による前記積和演算の結果を受信するプロセッサと、
を具備し、
前記積和演算回路は、
第１の入力端子と、
第２の入力端子と、
前記第１の入力端子から入力された値と、前記第２の入力端子から入力された値との積を計算する乗算器と、
前記乗算器の出力を積算して出力するアキュームレータと、
を備える演算回路を複数具備し、
前記複数の演算回路は、複数行と複数列による二次元配列状に配置され、
前記複数行の各行における第１数の演算回路のそれぞれの前記第１の入力端子には、第１入力データの行方向のビット数のうち前記第１数のビット数の第１ビットデータが共通に入力され、
前記複数列の各列における第２数の演算回路のそれぞれの前記第２の入力端子には、第２入力データの列方向のビット数のうち前記第２数のビット数の第２ビットデータが共通に入力され、
前記複数の演算回路の前記アキュームレータの出力にそれぞれ係数をかけた結果を足し合わせて積和演算結果を求める処理回路と、
をさらに具備するメモリシステム。
メモリと、
前記メモリから読み出された行列形式で表現される第１データと、第２データとの積和演算を行う積和演算回路と、
前記積和演算回路による前記積和演算の結果を受信するプロセッサと、
を具備し、
前記積和演算回路は、
第１の入力端子と、
第２の入力端子と、
前記第１の入力端子から入力された値と、前記第２の入力端子から入力された値との積を計算する乗算器と、
前記乗算器の出力を積算して出力するアキュームレータと、
を備える演算回路を複数具備し、
前記複数の演算回路は、
それぞれの前記第１の入力端子に前記第１データの一部であって、且つ共通の第１の値が入力される第１のグループと、
それぞれの前記第２の入力端子に前記第２データの一部であって、且つ共通の第２の値が入力される第２のグループと、
を有し、
前記第１の値及び前記第２の値はそれぞれ１ビットであり、
前記乗算器は、
ＡＮＤ論理ゲートと、ＸＮＯＲ論理ゲートと、前記ＡＮＤ論理ゲート及び前記ＸＮＯＲ論理ゲートのいずれかを選択する選択回路と、
を有する、
メモリシステム。