WO2024195694A1

WO2024195694A1 - プロセッサ装置および演算方法

Info

Publication number: WO2024195694A1
Application number: PCT/JP2024/010054
Authority: WO
Inventors: 修作内堀
Original assignee: 日本電気株式会社
Priority date: 2024-03-14
Filing date: 2024-03-14
Publication date: 2024-09-26

Abstract

プロセッサ装置は、メモリとの入出力を行う入出力手段と、列状に記憶素子を配置した領域であるベクトル格納手段と、行ベクトルと列ベクトルとの演算を行う演算手段と、行列状に記憶素子を配置した領域である行列格納手段と、を備え、前記ベクトル格納手段は、前記メモリから前記入出力手段によってロードされた行ベクトルと列ベクトルを格納し、前記演算手段は、前記ベクトル格納手段に格納された行ベクトルと列ベクトルとの演算を行い、前記行列格納手段は、前記演算の結果を格納する。

Description

プロセッサ装置および演算方法

　この開示は、プロセッサ装置および演算方法に関する。

　プロセステクノロジの進歩により、同一チップ面積のＬＳＩ（大規模集積回路）に実装可能な演算器の数は、面積に比例するため２乗で増加するのに対し、ＬＳＩのＩ／Ｏを経由するメモリ帯域は、ＬＳＩの辺の長さに比例して増加する。演算量に必要なデータ量は、演算器の数に比例して増加するため、メモリ帯域のボトルネック化が加速している。

　例えば、近年、成長著しい生成ＡＩの分野においてＬＬＭ（Large Language Model）が利用されている。ＬＬＭにおいては、数千行×数千列といった大規模な行列同士の乗算である行列行列積（以下、「行列積」と記載する。）が、演算量の大部分を占める。

　Ｌ行×Ｌ列正方行列同士の行列積は、Ｌ×Ｌ×Ｌ＝Ｌ^３の乗算および約Ｌ^３の加算からなり、約２×Ｌ^３の演算量となる。一方、行列積に必要な入力行列データをメモリからロードする際のデータ量は、２×Ｌ^２である。したがって、演算強度＝演算量/データ量＝約Ｌとなり、Ｌ×Ｌの行列サイズＬを大きくして行列演算器を大きくすることにより、演算量に対するデータのロード量の比率（約１／Ｌ）を小さくすることができ、プロセステクノロジの進歩に比例して増加する演算量に必要なデータ量を相殺することができる。

　ＬＬＭにおいては、数千行×数千列といった大規模な行列積が、演算量の大部分を占めており、このような行列積を効率良く実行する演算装置および演算方法が開発されている。また、行列積を実行可能なプロセッサも開発されている。しかしながら、既存の一般的なプロセッサ装置では、大規模な行列積での演算強度大という特徴を活かせておらず、プロセステクノロジの進歩に比例して加速するデータ量に対し、メモリ帯域のボトルネック化という課題に応えることができていない。

　特許文献１には、大規模な行列とベクトルの演算を高速化する技術として、演算器に対応する入力記憶回路と係数記憶回路のリングバッファに、演算されるべき順番に従って演算に用いるデータを格納し、当該演算器の演算に必要な入力ベクトルの要素と係数行列を構成する行または列ベクトルの要素のみを演算されるべき順番で準備しておく演算回路が開示されている。この演算回路によれば、演算器からデータアクセス要求に対し、入力ベクトルの要素の並べ替えを行わずに演算することができるので高速な演算が可能となる。しかし、特許文献１の技術は、メモリ帯域のボトルネック化を解消するものではない。

　上述の通り、演算強度＝演算量/データ量＝約Ｌとなり、Ｌ×Ｌの行列サイズＬを大きくして行列演算器を大きくすることにより、演算量に対するデータのロード量の比率（１／Ｌ）を小さくすることができる。しかし、ＧＰＧＰＵ等では、４×４の行列といった小さなサイズの行列積演算器を大量に搭載し、演算量に対するロード量の比率が大きくなり、メモリ帯域がボトルネックとなっている。

国際公開第２０１９／０７７９３３号

　この開示は、演算量に対するメモリへのデータのロード量の比率を小さくする技術の提供を目的の一つとする。

　この開示は、上述の課題を解決することのできるプロセッサ装置および演算方法を提供する。

　この開示の一態様によれば、プロセッサ装置は、メモリとの入出力を行う入出力手段と、列状に記憶素子を配置した領域であるベクトル格納手段と、行ベクトルと列ベクトルとの演算を行う演算手段と、行列状に記憶素子を配置した領域である行列格納手段と、を備え、前記ベクトル格納手段は、前記メモリから前記入出力手段によってロードされた行ベクトルと列ベクトルを格納し、前記演算手段は、前記ベクトル格納手段に格納された行ベクトルと列ベクトルとの演算を行い、前記行列格納手段は、前記演算の結果を格納する。

　この開示の一態様によれば、演算方法は、メモリからロードされた行ベクトルと列ベクトルとを、プロセッサ装置が備える、列状に記憶素子を配置した領域であるベクトルレジスタに格納し、前記プロセッサ装置が前記行ベクトルと前記列ベクトルの演算を行い、前記演算の結果を、前記プロセッサ装置が備える、行列状に記憶素子を配置した領域である行列レジスタに格納し、前記プロセッサ装置が、前記行列レジスタに格納された前記演算の結果を前記メモリへ出力する。

　本開示のプロセッサ装置および演算方法によれば、演算量に対するメモリへのデータのロード量の比率を小さくすることができる。

プロセッサ装置の一例を示す概略構成図である。プロセッサ装置の一例を示す詳細構成図である。行列積和演算の一例を示す図である。ベクトル外積演算の一例を示す図である。行列演算器と行列レジスタの一例を示す図である。行列演算器と行列レジスタの操作について説明する第１図である。行列演算器と行列レジスタの操作について説明する第２図である。行列演算器と行列レジスタの操作について説明する第３図である。行列演算器と行列レジスタの操作について説明する第４図である。プロセッサ装置の一例を示す第２の概略構成図である。プロセッサ装置の一例を示す第３の概略構成図である。プロセッサ装置の動作の一例を示すフローチャートである。

　以下、本開示の各実施形態に係るプロセッサ装置について図面を参照して説明する。以下の説明に用いる図面において本開示に関係ない部分の構成については、記載を省略し、図示しない場合がある。すべての図面において同一または相当する構成には同一の符号を付し、共通する説明は省略する場合がある。

＜第１実施形態＞
（構成）
　図１は、プロセッサ装置１の一例を示す概略構成図である。
　プロセッサ装置１は、行列拡張制御部１０と、ベクトルレジスタ長Ｌのベクトルプロセッサ装置２０と、を備える。

　行列拡張制御部１０は、Ｌ行Ｌ列の行列レジスタ１１０と、行列演算器１２０を備える。行列レジスタ１１０は、ベクトルレジスタ３１０がＬ列の場合には、Ｌ行×Ｌ列の行列を格納する。行列演算器１２０は、Ｌ列の積和演算器を備えている。行列演算器１２０と行列レジスタ１１０は、ｉ列目の積和演算器とｉ列目の行列レジスタ１１０は対応し、これらは接続されている。演算器インタフェース制御部１５０は、行列拡張制御部１０とベクトル拡張制御部３０にまたがって設けられている。行列演算器１２０は、演算器インタフェース制御部１５０によって、ベクトルプロセッサ装置２０のベクトル拡張制御部３０のベクトルレジスタ３１０と接続されている。行列レジスタアクセス制御部１６０は、行列拡張制御部１０とベクトル拡張制御部３０にまたがって設けられている。行列レジスタ１１０は、行列レジスタアクセス制御部１６０によって、ベクトルプロセッサ装置２０のベクトル拡張制御部３０のベクトルレジスタ３１０と接続されている。以下、行列拡張制御部１０が、１つの行列レジスタ１１０を備える場合を例に説明を行うが、行列拡張制御部１０は、複数の行列レジスタ１１０を備えていてもよい。

　ベクトルプロセッサ装置２０は、ベクトル拡張制御部３０と、ＲＩＳＣ（reduced instruction set computer）型のスカラプロセッサ４０とを備える。スカラプロセッサ４０は、プログラム命令を実行する命令制御部４９０と、プログラム命令に応じて動作する、スカラレジスタ４１０とスカラ演算器４２０とロードストア制御部４８０を備え、ロードストア制御部４８０は、外部メモリ６０に接続される。ベクトル拡張制御部３０は、レジスタ長Ｌ（Ｌ列）のベクトルレジスタ３１０を複数と、ベクトル演算器３２０と、を備え、複数のベクトルレジスタ３１０は、ロードストア制御部４８０と接続される。ベクトル拡張制御部３０は、ベクトル命令に応じて命令制御部４９０により制御される。ベクトルプロセッサ装置２０、構成要素であるＲＩＳＣ型のスカラプロセッサ４０およびベクトル拡張制御部３０の構成は、一般的なプロセッサ装置が備える公知技術である。これに対し、一般的なプロセッサ装置は、行列拡張制御部１０、行列レジスタアクセス制御部１６０、演算器インタフェース制御部１５０の構成を備えない。

　図２に、プロセッサ装置１の詳細構成を示す。行列レジスタ１１０は、Ｌ行×Ｌ列に並べられたＬ×Ｌ個のレジスタ１１１を備える。行列演算器１２０は、Ｌ列の積和演算器１２１を備える。１つのベクトルレジスタ３１０は、Ｌ列のレジスタ３１１を備える。ベクトル演算器３２０は、１つの積和演算器３２１を備える。

　後述するように、本実施形態では、行列演算器１２０において２つのベクトル長Ｌのベクトルデータ（例えば、図４のａｉｊの列ベクトルとｂｉｊの行ベクトル）からＬ行×Ｌ列の行列であるベクトルの外積を演算し、行列レジスタ１１０に行列積の中間結果を蓄積することにより（後に図６～図９で説明する。）、行列積の演算量に対するデータ量の比率を理論上最小の１/Ｌにし、メモリ帯域効率の向上を図る。

　次にプロセッサ装置１の動作を説明することにより、上記の構成によってメモリ帯域効率が向上することを説明する。

（一般的な動作：スカラ演算）
　まず、図１を参照して、ベクトルプロセッサ装置２０の一般的な動作の説明をする。スカラプロセッサ４０はＲＩＳＣ型のプロセッサであり、スカラ演算に必要なスカラデータは、スカラロード命令により、メモリ６０の接続６１を通じてロードストア制御部４８０によってロードされ、接続４６１を通じてスカラレジスタ４１０へ格納される。スカラ演算器４２０は、演算に使用するスカラデータを、接続４５１を通じてスカラレジスタ４１０から読み込んで演算を行い、その演算結果を、接続４５２を通じてスカラレジスタ４１０へ格納する。最終的な演算結果のデータは、スカラストア命令により、ロードストア制御部４８０が、スカラレジスタ４１０の接続４６２を通じて読み込み、接続６２によってメモリ６０へ格納する。

（一般的な動作：ベクトル演算）
　次にベクトル拡張制御部３０の一般的な動作の説明をする。ベクトル命令（ベクトル演算の命令）であるかどうかは、命令制御部４９０により判断される。ベクトルデータは、ベクトルレジスタ３１０のレジスタ長Ｌで定義される最大Ｌ個のデータである。ベクトル命令と判断されると、まず、ベクトル演算に必要なベクトルデータは、ロードストア制御部４８０のベクトルロード命令により、メモリ６０の接続６１を通じてロードされ、接続４６１を通じて、ベクトルレジスタ３１０へ格納される。ベクトル演算器３２０は、演算に使用するＬ個のデータを、接続３５１を通じてベクトルレジスタ３１０から連続して読み込み、Ｌ個の演算を行い、その演算結果を、接続３５２を通じてベクトルレジスタ３１０へ格納する。演算結果のＬ個のベクトルデータは、ベクトルストア命令によりベクトルレジスタ３１０の接続４６２を通じてロードストア制御部４８０により読み込まれ、接続６２を通じてメモリ６０へＬ個のデータが格納される。ここで説明したベクトルプロセッサ装置２０、構成要素であるＲＩＳＣ型のスカラプロセッサ４０およびベクトル拡張制御部３０の動作は、公知技術である。

（本実施形態に係る動作）
　図１及び詳細図２を参照して、本実施形態の行列拡張制御部１０の動作の説明について説明する。
　最初に、本実施形態に係る行列拡張制御部１０、行列レジスタアクセス制御部１６０、演算器インタフェース制御部１５０に関連する命令として以下の３つを定義する。これらは、命令制御部４９０によって指令される。
（１）ベクトル外積命令（ＶＯＰ）：ＶＯＰは、ベクトルレジスタ３１０の２つのＬ個のベクトルデータと行列レジスタ１１０の１つのＬ×Ｌ行列データから演算を行い、結果のＬ×Ｌ行列を行列レジスタ１１０へ書き込むことを指示する命令である。
（２）ベクトル行列ストア命令（ＶＳＴＭ）：ＶＳＴＭは、ベクトルレジスタ３１０の１つのベクトルデータを行列レジスタ１１０のＬ×Ｌ行列の行または列へ書き込む命令である。
（３）ベクトル行列ロード命令（ＶＬＤＭ）：ＶＬＤＭは、行列レジスタ１１０のＬ×Ｌ行列の行または列からベクトルレジスタ３１０のベクトルデータへ書き込む命令である。

　次に行列積演算の具体例を挙げて本実施形態のプロセッサ装置１の動作説明を行う。図３に示すように、Ａ、Ｂ、Ｃ、ＤをそれぞれＬ行×Ｌ列の行列とし、各行列のｉ行ｊ列の要素をそれぞれａｉｊ、ｂｉｊ、ｃｉｊ、ｄｉｊとし、行列積和演算Ｄ＝Ａ×Ｂ＋Ｃを演算する場合の動作を例に説明を行う。メモリ６０には、行列Ａ、Ｂ、Ｃが格納されているとする。

（全体の流れ）
　まず、ベクトルロード命令によりメモリ６０から、ベクトルレジスタ３１０へ、行列Ｃの１列目のベクトルデータＶＣ１（ｃ１１、ｃ２１、ｃ３１、・・・、ｃＬ１）をロードする。次にベクトル行列ストア命令（ＶＳＴＭ）により、ベクトルデータＶＣ１をベクトルレジスタ３１０から接続１６１を通じて行列レジスタ１１０の１列目に書き込む。以降、同様にして、以下の（ａ）、（ｂ）の処理を繰り返し、行列Ｃのデータを行列レジスタ１１０へ書き込む。（ａ）行列Ｃのｊ列目のベクトルデータＶＣｊ（ｃ１ｊ、ｃ２ｊ、ｃ３ｊ、…、ｃＬｊ）をベクトルレジスタ３１０へロードする。（ｂ）次に、ベクトル行列ストア命令（ＶＳＴＭ）により、ベクトルデータＶＣｊをベクトルレジスタ３１０から行列レジスタ１１０のｊ列目に接続１６１を通じて書き込む。

　次に、ベクトルロード命令によりメモリ６０から、ベクトルレジスタ３１０へ、行列Ａの１列目のベクトルデータＶＡ１（ａ１１、ａ２１、ａ３１、・・・、ａＬ１）、および、行列Ｂの１行目のベクトルデータＶＢ１（ｂ１１、ｂ１２、ｂ１３、・・・、ｂ１Ｌ）をロードする。ベクトルデータＶＡ１、ＶＢ１はそれぞれ別々のベクトルレジスタ３１０へロードされる。次にベクトル外積命令（ＶＯＰ）により、行列演算器１２０が、接続１５１を通じてベクトルレジスタ３１０からＶＡ１、ＶＢ１を通じて読み込み、さらに、接続１５３を通じて行列レジスタ１１０から行列Ｃを読み込み、ベクトル外積演算（ｃｉｊ＝ａｉ１×ｂ１ｊ＋ｃｉｊ）を実行する。図４にベクトル外積演算の概略を示す。中間結果は、接続１５４を通じて行列レジスタ１１０へ書き込まれる。以降、ベクトルロード命令により、メモリ６０から、ベクトルレジスタ３１０へ、行列Ａのｋ列目のベクトルデータＶＡｋ（ａ１ｋ、ａ２ｋ、ａ３ｋ、・・・、ａＬｋ）、および、行列Ｂのｋ行目のベクトルデータＶＢｋ（ｂｋ１、ｂｋ２、ｂｋ３、・・・、ｂｋＬ）をロードする。ベクトル外積命令（ＶＯＰ）により、接続１５１を通じてベクトルレジスタ３１０から行列演算器１２０へＶＡｋ、ＶＢｋを読み込み、さらに、接続１５３を通じて行列レジスタ１１０から行列演算器１２０へ中間結果行列Ｃ（元々のＣの要素とベクトル外積演算の中間結果ｃｉｊが混在する）を読み込み、ベクトル外積演算（ｃｉｊ＝ａｉｋ×ｂｋｊ＋ｃｉｊ）を実行する。中間結果は、接続１５４で行列レジスタ１１０へ書き込まれる。ｋをＬまで変化させて都度、ベクトル外積演算を実行することで、行列積Ｄ＝Ａ×Ｂ＋Ｃが得られる。

　結果行列Ｄのメモリ６０への書き込みは、ベクトル行列ロード命令（ＶＬＤＭ）により、行列レジスタ１１０の行列Ｄの１列目のベクトルデータＶＤ１（ｄ１１、ｄ２１、ｃ３１、・・・、ｄＬ１）を、接続１６２を通じてベクトルレジスタ３１０へ取り込み、ベクトルストア命令により、ベクトルレジスタ３１０からメモリ６０へ接続６２を通じてベクトルデータＶＤ１を書き込む。以降、ベクトル行列ロード命令（ＶＬＤＭ）により、行列レジスタ１１０の行列Ｄのｊ列目のベクトルデータＶＤｊ（ｄ１ｊ、ｄ２ｊ、ｃ３ｊ、・・・、ｄＬｊ）をベクトルレジスタ３１０へ取り込み、ベクトルストア命令により、ベクトルレジスタ３１０からベクトルデータＶＤｊをメモリ６０へ書き込む。この処理をＬ列目まで繰り返すことで、行列Ｄをメモリ６０に書き込むことができる。

（詳細な動作）
　Ｌ＝３の場合を例に、行列演算器１２０および行列レジスタ１１０の動作の詳細を図５～図９を参照して説明する。図５に、Ｌ=３の場合の行列演算器１２０および行列レジスタ１１０を示す。図５の行列拡張制御部１０は、３×３のレジスタを備える行列レジスタ１１０と、それぞれの列のレジスタに対応する１つずつの計３列の積和演算器を備える行列演算器１２０と、を備える。以下の説明では、便宜的に紙面左側の列に１、中央列に２、右側の列に３の列番を付して各構成を示す。例えば、行列演算器の左側の列を行列演算器１、行列演算器１の積和演算器を積和演算器１のように記載する。また、積和演算器１には３つの入力レジスタＡ１、Ｂ１、Ｃ１と、１つの出力レジスタＤ１が接続されている。同様に、中央列の積和演算器２には入力レジスタＡ２、Ｂ２、Ｃ２と出力レジスタＤ２が接続され、右側列の積和演算器３には入力レジスタＡ３、Ｂ３、Ｃ３と出力レジスタＤ３が接続されている。積和演算器１～３は、ｄ＝ａ×ｂ＋ｃの演算を実行する。図５では、既に行列Ｃが行列レジスタ１１０に格納され、行列Ａの１列目のベクトルデータＶＡ１（ａ１１、ａ２１、ａ３１）および行列Ｂの１行目のベクトルデータＶＢ１（ｂ１１、ｂ１２、ｂ１３）がそれぞれ別々のベクトルレジスタ３１０に格納されている状態であるとする。図６～図９では、符号を省略している。

（１サイクル目の動作：ステップ１）
　図６の左側に１サイクル目の動作（ステップ１）を示す。行列演算器１の入力レジスタＡ１にベクトルデータＶＡ１の１要素目ａ１１、入力レジスタＢ１にベクトルデータＶＢ１の１要素目ｂ１１、入力レジスタＣ１に行列Ｃの１列目１行目のｃ１１が入力される。

（２サイクル目の動作：ステップ２）
　図６の中央付近に２サイクル目の動作（ステップ２）を示す。行列演算器１の入力レジスタＡ１にベクトルデータＶＡ１の２要素目ａ２１が入力され、入力レジスタＢ１はベクトルデータＶＢ１の１要素目ｂ１１を保持し、入力レジスタＣ１に行列Ｃの１列目２行目のｃ２１が入力される。また、行列演算器１の積和演算器１は、ステップ１にて各入力レジスタＡ１、Ｂ１、Ｃ１に格納されたデータａ１１、ｂ１１、ｃ１１から積和演算ｄ１１＝ａ１１×ｂ１１＋ｃ１１を実行し、結果データｄ１１を出力レジスタＤ１に格納する。そして、行列演算器２の入力レジスタＡ２にベクトルデータＶＡ１の１要素目であり、行列演算器１列目の入力レジスタＡ１に格納されているデータａ１１を入力され、入力レジスタＢ２にベクトルデータＶＢ１の２要素目ｂ１２が入力され、入力レジスタＣ２に行列Ｃの２列目１行目のｃ１２が入力される。

（３サイクル目の動作：ステップ３）
　図６の右側に３サイクル目の動作（ステップ３）を示す。行列演算器１の入力レジスタＡ１にベクトルデータＶＡ１の３要素目ａ３１が入力され、入力レジスタＢ１はベクトルデータＶＢ１の１要素目ｂ１１を保持し、入力レジスタＣ１に行列Ｃの１列目３行目のｃ３１が入力される。また、行列演算器１の積和演算器１は、ステップ２にて各入力レジスタに格納されたデータａ２１、ｂ１１、ｃ２１から積和演算ｄ２１＝ａ２１×ｂ１１＋ｃ２１を実行し、結果データｄ２１を出力レジスタＤ１に格納する。また、行列演算器１の積和演算器１の出力レジスタＤ１に格納されている結果データｄ１１を、行列レジスタ１１０の行列Ｄの１列１行目に格納する。

　行列演算器２の入力レジスタＡ２にベクトルデータＶＡ１の２要素目であり、行列演算器１の入力レジスタＡ１に格納されているデータａ２１が入力され、入力レジスタＢ２はベクトルデータＶＢ１の１要素目ｂ１２を保持し、入力レジスタＣ２に行列Ｃの２列目２行目のｃ２２が入力される。また、行列演算器２の積和演算器２は、ステップ２にて各入力レジスタＡ２、Ｂ２、Ｃ２に格納されたデータａ１１、ｂ１２、ｃ１２から積和演算ｄ１２＝ａ１１×ｂ１２＋ｃ１２を実行し、結果データｄ１２を出力レジスタＤ２に格納する。

　行列演算器３の入力レジスタＡ３にベクトルデータＶＡ１の１要素目であり、行列演算器２の入力レジスタに格納されているデータａ１１が入力され、入力レジスタＢ３にベクトルデータＶＢ１の３要素目ｂ１３が入力され、入力レジスタＣ３に行列Ｃの３列目１行目のｃ１３が入力される。

（４サイクル目の動作：ステップ４）
　図７の左側に４サイクル目の動作（ステップ４）を示す。ステップ４では、行列Ａの２列目のベクトルデータＶＡ２（ａ１２、ａ２２、ａ３２）および行列Ｂの２行目のベクトルデータＶＢ２（ｂ２１、ｂ２１、ｂ２３）がベクトルレジスタ３１０に格納されているものとする。行列演算器１の入力レジスタＡ１にベクトルデータＶＡ２の１要素目ａ１２、入力レジスタＢ１にベクトルデータＶＢ２の１要素目ｂ２１、入力レジスタＣ１に行列レジスタ１１０の１列目１行目のｄ１１が入力される。ｄ１１は、ステップ３で格納したものである。また、行列演算器１の積和演算器１は、ステップ３にて、各入力レジスタＡ１、Ｂ１，Ｃ１に格納されたデータａ３１、ｂ１１、ｃ３１から積和演算ｄ３１＝ａ３１×ｂ１１＋ｃ３１を実行し、結果データｄ３１を出力レジスタＤ１に格納する。また、ステップ３にて行列演算器１の積和演算器１の出力レジスタＤ１に格納した結果データｄ２１を行列レジスタ１１０の１列２行目に格納する。

　行列演算器２の入力レジスタＡ２にベクトルデータＶＡ１の３要素目であり、行列演算器１の入力レジスタＡ１に格納されているデータａ３１が入力され、入力レジスタＢ２はベクトルデータＶＢ１の２要素目ｂ１２を保持し、入力レジスタＣ２に行列Ｃの２列目３行目のｃ３２が入力される。また、行列演算器２の積和演算器２は、ステップ３にて各入力レジスタに格納されたデータａ２１、ｂ１２、ｃ２２から積和演算ｄ２２＝ａ２１×ｂ１２＋ｃ２２を実行し、結果データｄ２２を出力レジスタＤ２に格納する。また、行列演算器の２列目の積和演算器２の出力レジスタＤ２に格納されている結果データｄ１２を行列レジスタ１１０の２列１行目に格納する。

　行列演算器３の入力レジスタＡ３にベクトルデータＶＡ１の２要素目であり、行列演算器２の入力レジスタＡ２に格納されているデータａ２１が入力され、入力レジスタＢ３はベクトルデータＶＢ１の３要素目ｂ１３を保持し、入力レジスタＣ３に行列レジスタ１１０の３列目２行目の行列Ｃの要素ｃ２３が入力される。また、行列演算器３の積和演算器３は、ステップ３にて各入力レジスタに格納されたデータａ１１、ｂ１３、ｃ１３から積和演算ｄ１３＝ａ１１×ｂ１３＋ｃ１３を実行し、結果データｄ１３を出力レジスタＤ３に格納する。

（５サイクル目の動作：ステップ５）
　図７の中央付近に５サイクル目の動作（ステップ５）を示す。行列演算器１の入力レジスタＡ１にベクトルデータＶＡ２の２要素目ａ２２を入力し、入力レジスタＢ１はベクトルデータＶＢ２の１要素目ｂ２１を保持し、入力レジスタＣ１に行列レジスタ１１０の１列目２行目のｄ２１が入力される。ｄ２１は、ステップ４で格納したものである。また、行列演算器１の積和演算器１は、前ステップで各入力レジスタに格納されたデータａ１２、ｂ２１、ｄ１１から積和演算ｅ１１＝ａ１２×ｂ２１＋ｄ１１を実行し、結果データｅ１１を出力レジスタＤ１に格納する。また、行列演算器１の積和演算器１の出力レジスタＤ１に格納されている結果データｄ３１を行列レジスタ１１０の１列３行目に格納する。

　行列演算器２の入力レジスタＡ２にベクトルデータＶＡ２の１要素目であり、行列演算器１列目の入力レジスタＡ１に格納されているデータａ１２が入力され、入力レジスタＢ２にベクトルデータＶＢ２の２要素目ｂ２２が入力され、入力レジスタＣ２に行列Ｃの２列目１行目のｄ１２が入力される。また、行列演算器２の積和演算器２は、前ステップで各入力レジスタに格納又は保持されたデータａ３１、ｂ１２、ｃ３２から積和演算ｄ３２＝ａ３１×ｂ１２＋ｃ３２を実行し、結果データｄ３２を出力レジスタＤ２に格納する。また、行列演算器２の積和演算器２の出力レジスタＤ２に格納されている結果データｄ２２を行列レジスタ１１０の２列２行目に格納する。

　行列演算器３の入力レジスタＡ３にベクトルデータＶＡ１の３要素目であり、行列演算器２の入力レジスタＡ２に格納されているデータａ３１が入力され、入力レジスタＢ３はベクトルデータＶＢ１の３要素目ｂ１３を保持し、入力レジスタＣ３に行列Ｃの３列目３行目のｃ３３が入力される。また、行列演算器３の積和演算器３は、各入力レジスタに格納されたデータａ２１、ｂ１３、ｃ２３から積和演算ｄ２３＝ａ２１×ｂ１３＋ｃ２３を実行し、結果データｄ２３を出力レジスタＤ３に格納する。また、行列演算器１２０は、行列演算器３の積和演算器３の出力レジスタＤ３に格納されている結果データｄ１３を行列レジスタの行列Ｄの３列１行目に格納する。

　以下同様にして６サイクル目以降の動作が実行される。図７の右側に６サイクル目の動作（ステップ６）を示す。図８の左側に７サイクル目の動作（ステップ７）を示し、中央付近に８サイクル目の動作（ステップ８）を示し、右側に９サイクル目の動作（ステップ９）を示す。ステップ７～ステップ９では、行列Ａの３列目のベクトルデータＶＡ３（ａ１３、ａ２３、ａ３３）および行列Ｂの３行目のベクトルデータＶＢ３（ｂ３１、ｂ３２、ｂ３３）がベクトルレジスタ３１０に格納されているものとする。動作は上記と同様である。

　図９の左側に１０サイクル目の動作（ステップ１０）を示し、中央左側に１１サイクル目の動作（ステップ１１）を示し、中央右側に１２サイクル目の動作（ステップ１２）を示し、右側に１３サイクル目の動作（ステップ１３）を示す。ステップ１０以降では、入力行列である行列Ａおよび行列Ｂのすべてのデータが入力され、行列演算器の１列目の入力データに新たなデータは入力されない。つまり、ステップ１０～ステップ１３では、行列Ａの３列目のベクトルデータＶＡ３（ａ１３、ａ２３、ａ３３）および行列Ｂの３行目のベクトルデータＶＢ３（ｂ３１、ｂ３２、ｂ３３）がベクトルレジスタ３１０に格納されている。最終的に、ステップ１３で、行列演算器３の積和演算器３の出力レジスタＤ３に格納されている結果データｆ３３が行列レジスタ１１０の３列３行目に格納され、行列積演算Ａ×Ｂ＋Ｃが完了する。

（まとめ）
　図１０に図１、図２の構成をさらに簡略化したプロセッサ装置１の概略構成図の一例を示す。図１０に示すプロセッサ装置１は、メモリ６０に格納されているＭ行Ｋ列の行列ＡおよびＫ行Ｎ列の行列Ｂを読み出し、行列Ａと行列Ｂの行列積を演算し、その演算結果であるＭ行Ｎ列の行列Ｃをメモリ６０に格納する。ここで、Ｌ≧Ｍ、Ｋ、Ｎとすると、プロセッサ装置１は、Ｌ個の積和演算器を備える行列演算器１２０と、演算結果の行列を保持するＬ行Ｌ列のレジスタを備える行列レジスタ１１０と、を備え、メモリ６０とメモリインタフェース６１および６２で接続される。プロセッサ装置１では、ＬＳＩのトランジスタ資源を行列レジスタ１１０と行列演算器１２０に使用することで、メモリ帯域の効率と演算性能を向上することができる。プロセッサ装置１は、メモリ６０に格納されているＭ行Ｋ列の行列ＡおよびＫ行Ｎ列の行列Ｂをメモリインタフェース６１でロードし、行列Ａと行列Ｂの行列積を行列演算器１２０で演算し、Ｍ行Ｎ列の行列Ｃを行列レジスタ１１０に格納する。そして、演算結果の行列Ｃを、メモリインタフェース６２を通じてメモリ６０にストアする。より詳細には、プロセッサ装置１は行列ＡのＭ行１列のベクトルと行列Ｂの１行Ｎ列のベクトルをロードし、２つのベクトルの外積を演算し、行列レジスタ１１０に行列積の中間結果を積算する。この処理をＫ回繰り返すことで、行列Ａと行列Ｂの行列積が演算される。ここで、一般的なベクトルプロセッサ装置２０内で行列積を実行することを考えると、ベクトルレジスタ３１０がＬ列しかない為、Ｌ個の演算結果しか格納できない。この場合、例えば、演算結果を出力するために、行列Ａと行列Ｂの行列積を完了するまでの間でベクトルレジスタ３１０とメモリ６０とのＩ／Ｏが何度も発生し、メモリとプロセッサ装置とのＩＯがボトルネックとなりやすい。これに対し、本実施形態のプロセッサ装置１であれば、Ｌ行×Ｌ列の行列レジスタ１１０を備えるため、演算結果のＭ行Ｎ列の行列Ｃの各要素の値を行列レジスタ１１０に格納しておくことができる。また、Ｌ列の積和演算器を備える行列演算器１２０を備え、並行して演算を行うことができるため、ベクトル演算器３２０だけで演算を行う場合と比べ、行列積演算を高速化することができる。

　また、演算器の数がＬＳＩ面積に比例し、メモリ帯域はＬＳＩの辺の長さに比例することに基づいて、演算量に対するデータのロード量の比率が論理的には１／Ｌとなることに関し、本実施形態によれば、Ｌ列の列ベクトルとＬ行の行ベクトルをメモリ６０から読み出す処理を、行列演算器１２０での行列積演算を行いつつ、Ｌ回繰り返し、行列積の演算が完了すると、行列レジスタ１１０に格納された演算結果を１列ずつメモリ６０へ格納する処理をＬ回繰り返す。これ以外にメモリ６０とのＩＯが生じないため、必要最低限のＩ／Ｏによりメモリ帯域を効率的に使用することができ、行列積の演算量に対するデータ量の比率を理論上最小の１/Ｌにすることができる。つまり、本実施形態によれば、演算量に対するメモリへのデータのロード量の比率を小さくすることができる。また、Ｌを集積回路に応じて大きくすることにより、メモリ帯域効率と演算性能を向上することができる。

（効果）
　以上説明したとおり、本実施形態に係るプロセッサ装置１では、Ｌ行Ｌ列の行列積演算を実行するために、行列積の演算量に対するデータ量の比率を小さくし、理論上最小の１/Ｌにすることを可能とし、行列積で生じるメモリ帯域不足を解消することができる。また、プロセステクノロジの進化により、ＬＳＩのサイズが１/Ａ倍になった場合、同一面積のＬＳＩに集積可能なトランジスタはＡ^２倍になり、メモリ帯域はＡ倍になるが、ＬをＡ倍にすることでＡＬ行ＡＬ列の行列レジスタおよびＡ^２×Ｌの積和演算器が実装可能となり、演算性能はＡ^２倍となる。このように本実施形態によれば、演算量に対するデータ量の比率を小さくしてメモリ帯域不足の解消を図るとともに、プロセステクノロジの進化に見合った演算性能の向上を実現することができる。

　なお、上記実施形態では行列レジスタ１１０が１個の場合を例に説明を行ったが、行列拡張制御部１０は、複数の行列レジスタ１１０を備えていてもよい。行列レジスタ１１０が複数の場合、さらに効率的に行列積を演算することができる。例えば、行列レジスタが２個（Ｃ、Ｄ）あれば、ある行列積を計算した後、行列レジスタＣの計算結果をメモリ６０に転送している間に、行列レジスタＤに対して行列積を計算することができる。例えば、行列積の結果の行列Ａとメモリにある行列Ｂの行列積Ａ×Ｂを計算することもできる。この場合、行列Ｂの行ベクトルのみメモリ６０からロードするため、メモリ帯域は半分でよい。行列積Ｂ×Ａについても同様である。行列レジスタ１１０が３個あれば、行列積の結果の行列Ａと行列積の結果の行列Ｂとの行列積Ａ×Ｂをメモリアクセス無しに演算でき、メモリ帯域のボトルネック化をより効果的に回避することができる。

＜第２実施形態＞
　図１１は、プロセッサ装置の一例を示す第３の概略構成図である。プロセッサ装置８００は、メモリとの入出力を行う入出力手段８０１と、列状又は行状に記憶素子を配置した領域であるベクトル格納手段８０２と、行ベクトルと列ベクトルとの演算を行う演算手段８０３と、行列状に記憶素子を配置した領域である行列格納手段８０４と、を備え、前記ベクトル格納手段８０２は、前記メモリから前記入出力手段によってロードされた行ベクトルと列ベクトルを格納し、前記演算手段８０３は、前記ベクトル格納手段に格納された行ベクトルと列ベクトルとの演算を行い、前記行列格納手段８０４は、前記演算の結果を格納する。

　図１２は、プロセッサ装置の動作の一例を示すフローチャートである。
　プロセッサ装置８００による演算処理では、メモリからロードされた行ベクトルと列ベクトルとを、プロセッサが備える、列状に記憶素子を配置した領域であるベクトルレジスタに格納し（ステップＳ８０１）、前記プロセッサが前記行ベクトルと前記列ベクトルの演算を行い（ステップＳ８０２）、前記演算の結果を、前記プロセッサが備える、行列状に記憶素子を配置した領域である行列レジスタに格納し（ステップＳ８０３）、前記プロセッサ装置が、前記行列レジスタに格納された前記演算の結果を前記メモリへ出力する（ステップＳ８０４）。

　以上のとおり、この開示に係るいくつかの実施形態を説明したが、これら全ての実施形態は、例として提示したものであり、発明の範囲を限定することを意図していない。これらの実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で種々の省略、置き換え、変更を行うことができる。これらの実施形態及びその変形は、発明の範囲や要旨に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

＜付記＞
　実施形態に記載のプロセッサ装置および演算方法は、例えば以下のように把握される。

（１）第１の態様に係るプロセッサ装置は、メモリとの入出力を行う入出力手段と、列状又は行状に記憶素子を配置した領域であるベクトル格納手段と、行ベクトルと列ベクトルとの演算を行う演算手段と、行列状に記憶素子を配置した領域である行列格納手段と、を備え、前記ベクトル格納手段は、前記メモリから前記入出力手段によってロードされた行ベクトルと列ベクトルを格納し、前記演算手段は、前記ベクトル格納手段に格納された行ベクトルと列ベクトルとの演算を行い、前記行列格納手段は、前記演算の結果を格納する。

（２）第２の態様に係るプロセッサ装置は、（１）に記載のプロセッサ装置であって、前記演算手段は、前記行列格納手段の列数と同じ数の積和演算器を備え、前記積和演算器と、前記行列格納手段における前記積和演算器と同じ列に配置された前記記憶素子は接続されている。

（３）第３の態様に係るプロセッサ装置は、（１）～（２）の何れかに記載のプロセッサ装置であって、前記行列格納手段は、前記ベクトル格納手段が格納できる前記列ベクトルの列数以上の列数および行数の前記記憶素子を備える。

（４）第４の態様に係るプロセッサ装置は、（１）～（３）の何れかに記載のプロセッサ装置であって、前記行列格納手段は、前記ベクトル格納手段が格納できる前記列ベクトルの最大の列数と同数の列数および行数の前記記憶素子を備える。

（５）第５の態様に係るプロセッサ装置は、（１）～（４）の何れかに記載のプロセッサ装置であって、前記演算は、行列行列積である。

（６）第６の態様に係るプロセッサ装置は、（１）～（５）の何れかに記載のプロセッサ装置であって、前記ベクトル格納手段と前記行列格納手段は接続されていて、前記行列格納手段に格納された演算結果は、前記ベクトル格納手段へ出力されて前記ベクトル格納手段に格納され、前記入出力手段によって、前記ベクトル格納手段から前記メモリへ出力される。

（７）第７の態様に係るプロセッサ装置は、（１）～（６）の何れかに記載のプロセッサ装置であって、前記演算は、行列ＡをＭ行Ｋ列の行列、行列ＢをＫ行Ｎ列の行列とした場合、行列Ａ×行列Ｂであって、前記ベクトル格納手段によって、前記入出力手段によってロードした前記行列Ａの１列を格納して前記演算手段へ出力し、続いて、前記入出力手段によってロードした前記行列Ｂの１行を格納して前記演算手段へ出力し、前記演算手段によって、前記行列Ａの１列と前記行列Ｂの１行の積を演算して、その演算結果を前記行列格納手段に格納する処理を、行列Ａ×行列Ｂの演算が完了するまで繰り返す。

（８）第８の態様に係るプロセッサ装置は、（１）～（７）の何れかに記載のプロセッサ装置であって、前記ベクトル格納手段と前記行列格納手段は接続されていて、前記メモリからロードされて前記ベクトル格納手段に格納された列ベクトルを、前記ベクトル格納手段から前記行列格納手段へ出力して前記行列格納手段に格納する。

（９）第９の態様に係るプロセッサ装置は、（８）のプロセッサ装置であって、前記演算は、行列Ａ，行列Ｂ，行列ＣのそれぞれをＬ行Ｌ列の行列とした場合、行列Ａ×行列Ｂ＋行列Ｃであって、前記入出力手段は、１列ずつ行列Ｃの列ベクトルを前記ベクトル格納手段へロードし、前記行列格納手段は、ロードされた前記行列Ｃの列ベクトルを前記行列格納手段へ出力して格納する処理をＬ回繰り返して、前記行列Ｃを前記行列格納手段へ格納し、前記ベクトル格納手段によって、前記入出力手段によってロードした前記行列Ａの１列を格納して前記演算手段へ出力し、続いて、前記入出力手段によってロードした前記行列Ｂの１行を格納して前記演算手段へ出力し、前記演算手段によって、前記行列Ａの１列と前記行列Ｂの１行の積と行列Ｃの和を演算して、その演算結果を前記行列格納手段に格納する処理を行列Ａ×行列Ｂ＋行列Ｃの演算が完了するまで繰り返す。

（１０）第１０の態様に係るプロセッサ装置は、（１）～（９）の何れかに記載のプロセッサ装置であって、前記ベクトル格納手段にロードされた２つのベクトルデータと、前記行列格納手段に格納された行列データと、を用いた演算を行い、その演算結果を前記行列格納手段に格納することを指示する第１命令と、ベクトル行列ストア命令（ＶＳＴＭ）：ＶＳＴＭは、前記ベクトル格納手段に格納された１つのベクトルデータを前記行列格納手段の行または列へ書き込む第２命令と、前記行列格納手段の何れかの行または列から前記ベクトル格納手段へベクトルデータを書き込む第３命令と、を備える。

（１１）第１１の態様に係る演算方法は、メモリからロードされた行ベクトルと列ベクトルとを、プロセッサ装置が備える、列状に記憶素子を配置した領域であるベクトルレジスタに格納し、前記プロセッサ装置が前記行ベクトルと前記列ベクトルの演算を行い、前記演算の結果を、前記プロセッサ装置が備える、行列状に記憶素子を配置した領域である行列レジスタに格納し、前記プロセッサ装置が、前記行列レジスタに格納された前記演算の結果を前記メモリへ出力する。

　上記したプロセッサ装置および演算方法によれば、演算量に対するメモリへのデータのロード量の比率を小さくすることができる。

１・・・プロセッサ装置
１０・・・行列拡張制御部
２０・・・ベクトルプロセッサ装置
３０・・・ベクトル拡張制御部
４０・・・スカラプロセッサ
６０・・・メモリ
１１０・・・行列レジスタ
１１１・・・レジスタ
１２０・・・行列演算器
１２１・・・積和演算器
１５０・・・演算器インタフェース制御部
１６０・・・行列レジスタアクセス制御部
３１０・・・ベクトルレジスタ
３１１・・・レジスタ
３２０・・・ベクトル演算器
３２１・・・積和演算器
４１０・・・スカラレジスタ
４２０・・・スカラ演算器
４８０・・・ロードストア制御部
４９０・・・命令制御部
８００・・・プロセッサ装置
８０１・・・入出力手段
８０２・・・ベクトル格納手段
８０３・・・演算手段
８０４・・・行列格納手段

Claims

　メモリとの入出力を行う入出力手段と、
　列状に記憶素子を配置した領域であるベクトル格納手段と、
　行ベクトルと列ベクトルとの演算を行う演算手段と、
　行列状に記憶素子を配置した領域である行列格納手段と、
　を備え、
　前記ベクトル格納手段は、前記メモリから前記入出力手段によってロードされた行ベクトルと列ベクトルを格納し、
　前記演算手段は、前記ベクトル格納手段に格納された行ベクトルと列ベクトルとの演算を行い、
　前記行列格納手段は、前記演算の結果を格納する、
　プロセッサ装置。
　前記演算手段は、前記行列格納手段の列数と同じ数の積和演算器を備え、
　前記積和演算器と、前記行列格納手段における前記積和演算器と同じ列に配置された前記記憶素子は接続されている、
　請求項１に記載のプロセッサ装置。
　前記行列格納手段は、
　前記ベクトル格納手段が格納できる前記列ベクトルの最大の列数以上の列数および行数の前記記憶素子を備える、
　請求項１または請求項２に記載のプロセッサ装置。
　前記行列格納手段は、
　前記ベクトル格納手段が格納できる前記列ベクトルの列数と同数の列数および行数の前記記憶素子を備える、
　請求項１または請求項２に記載のプロセッサ装置。
　前記演算は、行列行列積である、
　請求項１または請求項２に記載のプロセッサ装置。
　前記ベクトル格納手段と前記行列格納手段は接続されていて、前記行列格納手段に格納された演算結果は、前記ベクトル格納手段へ出力されて前記ベクトル格納手段に格納され、前記入出力手段によって、前記ベクトル格納手段から前記メモリへ出力される、
　請求項１または請求項２に記載のプロセッサ装置。
　前記演算は、行列ＡをＭ行Ｋ列の行列、行列ＢをＫ行Ｎ列の行列とした場合、行列Ａ×行列Ｂであって、
　前記ベクトル格納手段によって、前記入出力手段によってロードした前記行列Ａの１列と前記行列Ｂの１行を格納して前記演算手段へ出力し、
　前記演算手段によって、前記行列Ａの１列と前記行列Ｂの１行の積を演算して、その演算結果を前記行列格納手段に格納する処理を、行列Ａ×行列Ｂの演算が完了するまで繰り返す、
　請求項１または請求項２に記載のプロセッサ装置。
　前記ベクトル格納手段と前記行列格納手段は接続されていて、前記メモリからロードされて前記ベクトル格納手段に格納された列ベクトルを、前記ベクトル格納手段から前記行列格納手段へ出力して前記行列格納手段に格納する、
　請求項１または請求項２に記載のプロセッサ装置。
　前記演算は、行列Ａ，行列Ｂ，行列ＣのそれぞれをＬ行Ｌ列の行列とした場合、行列Ａ×行列Ｂ＋行列Ｃであって、
　前記入出力手段は、１列ずつ行列Ｃの列ベクトルを前記ベクトル格納手段へロードし、前記行列格納手段は、ロードされた前記行列Ｃの列ベクトルを前記行列格納手段へ出力して格納する処理をＬ回繰り返して、前記行列Ｃを前記行列格納手段へ格納し、
　前記ベクトル格納手段によって、前記入出力手段によってロードした前記行列Ａの１列と前記行列Ｂの１行を格納して前記演算手段へ出力し、
　前記演算手段によって、前記行列Ａの１列と前記行列Ｂの１行の積と行列Ｃの和を演算して、その演算結果を前記行列格納手段に格納する処理を、行列Ａ×行列Ｂ＋行列Ｃの演算が完了するまで繰り返す、
　請求項８に記載のプロセッサ装置。
　前記ベクトル格納手段にロードされた２つのベクトルデータと、前記行列格納手段に格納された行列データと、を用いた演算を行い、その演算結果を前記行列格納手段に格納することを指示する第１命令と、ベクトル行列ストア命令（ＶＳＴＭ）：ＶＳＴＭは、前記ベクトル格納手段に格納された１つのベクトルデータを前記行列格納手段の行または列へ書き込む第２命令と、前記行列格納手段の何れかの行または列から前記ベクトル格納手段へベクトルデータを書き込む第３命令と、
　を備える請求項１または請求項２に記載のプロセッサ装置。
　メモリからロードされた行ベクトルと列ベクトルとを、プロセッサ装置が備える、列状に記憶素子を配置した領域であるベクトルレジスタに格納し、
　前記プロセッサ装置が前記行ベクトルと前記列ベクトルの演算を行い、
　前記演算の結果を、前記プロセッサ装置が備える、行列状に記憶素子を配置した領域である行列レジスタに格納し、
　前記プロセッサ装置が、前記行列レジスタに格納された前記演算の結果を前記メモリへ出力する、
　演算方法。