KR20220091987A - 딥러닝 하드웨어 가속기를 구비하는 bspe 및 bspe 코어 - Google Patents
딥러닝 하드웨어 가속기를 구비하는 bspe 및 bspe 코어 Download PDFInfo
- Publication number
- KR20220091987A KR20220091987A KR1020200183290A KR20200183290A KR20220091987A KR 20220091987 A KR20220091987 A KR 20220091987A KR 1020200183290 A KR1020200183290 A KR 1020200183290A KR 20200183290 A KR20200183290 A KR 20200183290A KR 20220091987 A KR20220091987 A KR 20220091987A
- Authority
- KR
- South Korea
- Prior art keywords
- weight
- bspe
- bit serial
- bit
- core
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013135 deep learning Methods 0.000 title claims abstract description 17
- 238000012545 processing Methods 0.000 claims abstract description 16
- 210000002569 neuron Anatomy 0.000 claims abstract description 9
- 241001442055 Vipera berus Species 0.000 claims description 23
- 238000000034 method Methods 0.000 claims description 9
- 230000000295 complement effect Effects 0.000 claims description 4
- 230000006870 function Effects 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 15
- 230000004913 activation Effects 0.000 description 11
- 238000013527 convolutional neural network Methods 0.000 description 4
- 230000002194 synthesizing effect Effects 0.000 description 3
- 239000000047 product Substances 0.000 description 2
- 101150110971 CIN7 gene Proteins 0.000 description 1
- 101100286980 Daucus carota INV2 gene Proteins 0.000 description 1
- 101150110298 INV1 gene Proteins 0.000 description 1
- 101100397044 Xenopus laevis invs-a gene Proteins 0.000 description 1
- 101100397045 Xenopus laevis invs-b gene Proteins 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 239000011449 brick Substances 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000007429 general method Methods 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/06—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
- G06N3/063—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F7/00—Methods or arrangements for processing data by operating upon the order or content of the data handled
- G06F7/38—Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation
- G06F7/48—Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation using non-contact-making devices, e.g. tube, solid state device; using unspecified devices
- G06F7/52—Multiplying; Dividing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/22—Microcontrol or microprogram arrangements
- G06F9/28—Enhancement of operational speed, e.g. by using several microcontrol devices operating in parallel
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Computational Mathematics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Neurology (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Complex Calculations (AREA)
Abstract
본 발명에서는 딥러닝에서 수행되는 다수의 뉴런값 및 가중치의 곱셈을 수행하는 비트 시리얼 프로세싱 엘리먼트(Bit Serial Processing Element)로서, 뉴런값과 가중치 곱셈을 비트 시리얼 곱셈기로 처리하는 것을 특징으로 하는 비트 시리얼 프로세싱 엘리먼트가 개시된다.
본 발명에 따른 딥러닝 하드웨어 가속기를 구비하는 BSPE 코어에 의하면 종래 곱셈 알고리즘인 MBS보다 적은 하드웨어 자원과 전력을 소모하여 컨벌루션 연산을 수행할 수 있게 되었다.
Description
도 2는 본 발명에 따른 BSPE 코어의 일부 구성도.
도 3은 BSPE 코어를 구성하는 BSPE 구성 블록도.
도 4는 비트 시리얼 곱셈기의 일 예시도.
도 5는 본 발명에 따른 MOA(PSUM)를 구성하는 LOA의 회로도.
도 6은 데이터 프리패칭과 오버래핑 설명도.
도 7은 가변적 데이터 타일링을 통한 데이터 재사용을 설명하는 설명도.
도 8은 본 발명에 따른 일 실시예의 BSPE 코어 구성도.
MBS | BSPE | BSPE(LOA) | |
Total Power(mW) | 16.1067 | 9.1745 | 9.1508 |
Chip Area | 102968 | 63041 | 60106 |
Total Gates | 11,726 | 7,179 | 6,845 |
parameter | |
Activation precision | 8 |
Weight precision | 5 |
m | 25 |
BSPE Core | |
Total Power(mW) | 50.1152 |
Chip Area | 429822 |
Total Gates | 48,955 |
Claims (4)
- 딥러닝에서 수행되는 다수의 뉴런값 및 가중치의 곱셈을 수행하는 비트 시리얼 프로세싱 엘리먼트(Bit Serial Processing Element)로서,
뉴런값과 가중치 곱셈을 수행하는 비트 시리얼 곱셈기 및
가중치가 '0'인지 여부를 판별하는 제로판별기를 포함하는 것을 특징으로 하는 비트 시리얼 로 처리하는 것을 특징으로 하는 비트 시리얼 프로세싱 엘리먼트.
- 제1항에 있어서,
가중치의 최상위 비트, 제로판별기 및 비트 시리얼 곱셈기로부터 곱셈 결과를 입력받은 후, (1) 가중치가 '0'인 경우에는 '0'값을 출력하고, (2) 가중치가 '0'이 아니면서 가중치의 부호가 양인 경우에는 상기 비트 시리얼 곱셈기로부터 곱셈 결과를 그대로 출력하고, (3) 가중치가 '0'이 아니면서 가중치의 부호가 음인 경우에는 상기 비트 시리얼 곱셈기로부터 곱셈 결과를 1의 보수로 변환한 후 출력하는 1-보수기를 더 포함하는 것을 특징으로 하는 비트 시리얼 프로세싱 엘리먼트.
- 제1항 또는 제2항의 비트 시리얼 프로세싱 엘리먼트 및
상기 1-보수기의 출력값을 더하는 제1 애드 트리(adder tree)를 포함하고,
상기 제1 애드 트리는 상기 1-보수기의 출력값의 최하위 비트부터 p비트까지는 Or 게이트를 이용하여 근사값으로 더하고 나머지 p비트를 초과하는 상위비트는 전가산기(full adder)를 이용하여 더하는 LOA(Lower-part OR approximation Adder)로 구성되는 것을 특징으로 하는 비트 시리얼 프로세싱 엘리먼트 코어.
- 제3항에 있어서,
상기 1-보수기는 가중치가 '0'이 아니면서 가중치의 부호가 음인 경우에 '1'을 출력라인 INV로 출력하는 기능이 더 구비되고,
전가산기(full adder)로 구성되며, 상기 INV로부터 입력되는 값을 더하는 제2 애드 트리를 더 포함하는 것을 특징으로 하는 비트 시리얼 프로세싱 엘리먼트 코어.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020200183290A KR102549120B1 (ko) | 2020-12-24 | 2020-12-24 | 딥러닝 하드웨어 가속기를 구비하는 bspe 코어 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020200183290A KR102549120B1 (ko) | 2020-12-24 | 2020-12-24 | 딥러닝 하드웨어 가속기를 구비하는 bspe 코어 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20220091987A true KR20220091987A (ko) | 2022-07-01 |
KR102549120B1 KR102549120B1 (ko) | 2023-06-29 |
Family
ID=82397215
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020200183290A Active KR102549120B1 (ko) | 2020-12-24 | 2020-12-24 | 딥러닝 하드웨어 가속기를 구비하는 bspe 코어 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102549120B1 (ko) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20190074938A (ko) * | 2017-12-20 | 2019-06-28 | 연세대학교 산학협력단 | 인공 신경망을 위한 디지털 뉴런, 인공 뉴런 및 이를 포함하는 추론 엔진 |
KR20200079059A (ko) * | 2018-12-24 | 2020-07-02 | 삼성전자주식회사 | 비트 연산 기반의 뉴럴 네트워크 처리 방법 및 장치 |
-
2020
- 2020-12-24 KR KR1020200183290A patent/KR102549120B1/ko active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20190074938A (ko) * | 2017-12-20 | 2019-06-28 | 연세대학교 산학협력단 | 인공 신경망을 위한 디지털 뉴런, 인공 뉴런 및 이를 포함하는 추론 엔진 |
KR20200079059A (ko) * | 2018-12-24 | 2020-07-02 | 삼성전자주식회사 | 비트 연산 기반의 뉴럴 네트워크 처리 방법 및 장치 |
Non-Patent Citations (1)
Title |
---|
Abdelouahab, Kamel, Maxime Pelcat, and Francois Berry. "The chalenge of multi-operand adders in CNNs on FPGAs: how not to solve it!." Proceedings of the 18th International Conference on Embeded Computer Systems: Architectures, Modeling, and Simulation. 2018. |
Also Published As
Publication number | Publication date |
---|---|
KR102549120B1 (ko) | 2023-06-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Samimi et al. | Res-DNN: A residue number system-based DNN accelerator unit | |
US4737926A (en) | Optimally partitioned regenerative carry lookahead adder | |
Aizaz et al. | Area and power efficient truncated booth multipliers using approximate carry-based error compensation | |
CN112434801B (zh) | 一种按照比特精度进行权重拆分的卷积运算加速方法 | |
Raveendran et al. | Inexact signed Wallace tree multiplier design using reversible logic | |
Venkatachalam et al. | Approximate sum-of-products designs based on distributed arithmetic | |
KR20210059623A (ko) | 이진 및 삼진 신경망 추론을 위한 전자 장치 및 방법 | |
US7912891B2 (en) | High speed low power fixed-point multiplier and method thereof | |
Pathak et al. | Low power Dadda multiplier using approximate almost full adder and Majority logic based adder compressors | |
US20250123804A1 (en) | Rank-based dot product circuitry | |
Bhattacharya et al. | A high performance binary to BCD converter for decimal multiplication | |
Ahmed et al. | Improved designs of digit-by-digit decimal multiplier | |
JP3556950B2 (ja) | 高速算術演算装置のけた上げ先見加算器段の数を減少させる構造及び方法 | |
CN114341796A (zh) | 带符号多字乘法器 | |
EP3610367B1 (en) | Energy-efficient variable power adder and methods of use thereof | |
US20050228845A1 (en) | Shift and recode multiplier | |
Zahid et al. | Energy-efficient approximate booth multipliers for convolutional neural networks | |
KR102549120B1 (ko) | 딥러닝 하드웨어 가속기를 구비하는 bspe 코어 | |
CN111492369B (zh) | 人工神经网络中移位权重的残差量化 | |
Kumar et al. | Complex multiplier: implementation using efficient algorithms for signal processing application | |
Kumar et al. | Design and implementation of low power, high-speed configurable approximation 8-bit booth multiplier | |
US9563400B2 (en) | Optimized structure for hexadecimal and binary multiplier array | |
US20060277242A1 (en) | Combining circuitry | |
El Atre et al. | Design and implementation of new delay-efficient/configurable multiplier using FPGA | |
US7461107B2 (en) | Converter circuit for converting 1-redundant representation of an integer |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PA0109 | Patent application |
Patent event code: PA01091R01D Comment text: Patent Application Patent event date: 20201224 |
|
PA0201 | Request for examination | ||
PG1501 | Laying open of application | ||
E902 | Notification of reason for refusal | ||
PE0902 | Notice of grounds for rejection |
Comment text: Notification of reason for refusal Patent event date: 20221015 Patent event code: PE09021S01D |
|
E701 | Decision to grant or registration of patent right | ||
PE0701 | Decision of registration |
Patent event code: PE07011S01D Comment text: Decision to Grant Registration Patent event date: 20230622 |
|
GRNT | Written decision to grant | ||
PR0701 | Registration of establishment |
Comment text: Registration of Establishment Patent event date: 20230626 Patent event code: PR07011E01D |
|
PR1002 | Payment of registration fee |
Payment date: 20230627 End annual number: 3 Start annual number: 1 |
|
PG1601 | Publication of registration |