CN111966405B

CN111966405B - 一种基于GPU的Polar码高速并行译码方法

Info

Publication number: CN111966405B
Application number: CN202010629868.3A
Authority: CN
Inventors: 李舒
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2020-07-03
Filing date: 2020-07-03
Publication date: 2022-07-26
Anticipated expiration: 2040-07-03
Also published as: CN111966405A

Abstract

本发明公开了一种基于GPU的Polar码高速并行译码方法，整个译码过程可以分为三个阶段：初始化阶段、译码阶段、结果回传阶段，具体包括：步骤1：主机初始化；步骤2：GPU初始化；步骤3：译码内核函数进行若干次循环迭代，最大循环次数由程序预先设定；步骤4：对于因子图p_good的所有线程块的0号线程，将其共享内存中的Local_L[][0]+Local_R[][0]经过逆置换后，作为译码结果；步骤5：主机将译码结果从GPU传回到主机。本发明方法包括了三个层次的并行，即多子图之间、多线程块之间和多线程之间的并行。此外，本发明方法最大限度地降低了内核函数的启动开销；提高了访存效率和运行速度。

Description

一种基于GPU的Polar码高速并行译码方法

技术领域

本发明属于通信技术领域，涉及一种基于GPU(Graphics Processing Unit，图形处理器)的Polar码高速并行译码方法。

背景技术

Polar码由Erdal Arikan于2008年提出(参考文献[1]:Erdal Arikan,“ChannelPolarization:A Method for Constructing Capacity-Achieving Codes”,IEEEISIT2008)，是目前唯一能够被严格证明可以达到香农极限的信道编码方法。Polar码已经被5G标准化组织正式采纳。Polar码的译码方法可以分为两类：基于串行抵消的方法和基于置信传播的方法。基于串行抵消的方法运算量较小，但是算法本质上是串行的，因此译码延迟较大；对于基于置信传播的方法来说，为了保证Polar码译码的纠错性能，通常采用置信传播列表算法，即基于多个置换因子图的迭代算法，因此这种译码方法运算量很大，但是置信传播列表算法具有并行实现的潜力。

另一方面，近年来GPU技术得到了迅猛的发展，一张商业级的GPU卡上可以拥有超过4000个并行处理的核心，这为并行计算提供了高性价比的硬件基础。

发明内容

本发明的目的在于提供一种基于GPU的Polar码高速并行译码方法，以实现低延迟、高吞吐量的译码。

本发明提出了一种基于GPU的Polar码高速并行译码方法。本方法包括三个层次的并行，可以充分利用GPU上的核资源。本发明还设计了高效的分布式存储方法，提高了访存效率和运行速度。整个译码过程可以分为三个阶段：初始化阶段、译码阶段、结果回传阶段。初始化阶段包括以下步骤1和步骤2，译码阶段包括以下步骤3和步骤4，以下步骤5是结果回传阶段。

步骤1：主机初始化。依次包括：为信息比特标志、因子图置换和逆置换信息、接收机接收到的信号、译码的结果即源比特的对数似然比分配内存空间，信息和变量的初始化，存储接收到的信号并计算编码比特对数似然比。

步骤2：GPU初始化。依次包括：GPU全局内存分配，主机将数据发送给GPU，启动GPU的并行译码线程，GPU分配共享内存，初始化共享内存，根据全局内存给共享内存的数组赋值。

步骤3：译码内核函数进行若干次循环迭代，最大循环次数由程序预先设定。每次循环依次包括：L1阶段、L1-L2阶段间交换线程块共享内存、L2阶段、R1阶段、R1-R2阶段间交换线程块共享内存、R2阶段和循环终止条件判断。如果在循环过程中有因子图满足早期终止条件，或者已达到最大循环次数，则设置变量p_good，并终止循环，跳转到步骤4。

步骤4：对于因子图p_good的所有线程块的0号线程，即线程((p_good,b),0)，其中b＝0,1,...,N1-1，

N为Polar码的码长，将其共享内存中的Local_L[][0]+Local_R[][0]经过逆置换后，作为译码结果。

步骤5：主机将译码结果从GPU传回到主机。

其中，步骤3循环迭代的每次循环包括以下步骤：

步骤3.1：向左迭代的第一阶段，即L1阶段，包括第n-1,...,n-n1级迭代，其中n＝log₂N，n1＝log₂N1；

步骤3.2：每个因子图的线程块之间通过全局内存交换共享内存中的Local_L[][n-n1+1]；

步骤3.3：向左迭代的第二阶段，即L2阶段，包括第n-n1-1,...,0级迭代；

步骤3.4：向右迭代的第一阶段，即R1阶段，包括第0,...,n-n1-1级迭代；

步骤3.5：每个因子图的线程块之间通过全局内存交换共享内存中的Local_R[][n-n1]；

步骤3.6：向右迭代的第二阶段，即R2阶段，包括第n-n1,...,n-1级迭代；

步骤3.7：判断是否有因子图满足早期终止条件或者已达到最大循环次数，并设置变量p_good。

其中，步骤3所述的L1阶段、L2阶段、R1阶段和R2阶段，每个阶段都包括三个层次的并行具体如下：

第一个层次是多因子图之间的并行，每个因子图由N1个线程块负责。因为不同因子图在迭代过程没有数据依赖关系，所以不同因子图的线程块可以自然地并行运行。

第二个层次是同一因子图多线程块的并行。当Polar码的码长N较大时，GPU上一个流多处理器的核资源和共享内存资源不能支持一个因子图充分并行化的需求。为此，在本发明中，由N1个线程块负责一个因子图的迭代。本发明将每次迭代的向左传播和向右传播各分为两个阶段，共四个阶段。向左传播包括第n-1,..,1,0级的迭代，分为两个阶段：第一阶段为第n-1级到第n-n1级，称为L1阶段；第二阶段为第n-n1-1级到第0级，称为L2阶段。向右传播和向左传播的方向相反，包括第0,1,...,n-1级的迭代，分为两个阶段：第一阶段为第0级到第n-n1-1级，称为R1阶段；第二阶段为第n-n1级到第n-1级，称为R2阶段。

第三个层次是同一线程块内的多线程并行。每个线程块在每一级的计算可以分为N/N1/2＝2^n-n1-1个子任务，各子任务之间没有数据依赖关系，各子任务被分成min(T,2^n-n1-1)组，每组子任务由线程块内的一个线程负责，各线程可以并行执行；每个线程完成所负责的这组子任务后，进行线程块内的线程同步。

其中，第二个层次所述的同一因子图多线程块的并行和第三个层次所述的同一线程块内的多线程并行(即多个子任务)的分工细节如下：

(1)在L1阶段，不同线程块的数据之间没有依赖关系，各线程块可以并行运行，即L1阶段同一因子图多线程块并行；同一线程块在第s级的各子任务之间没有数据依赖关系，将这些子任务分配到线程块内的多个线程并行执行，即L1阶段同一线程块内多线程并行；

(2)在L2阶段，不同线程块的数据之间没有依赖关系，各线程块可以并行运行，即L2阶段同一因子图多线程块并行；同一线程块在第s级的各子任务之间没有数据依赖关系，将这些子任务分配到线程块内的多个线程并行执行，即L2阶段同一线程块内多线程并行；

(3)在R1阶段，不同线程块的数据之间没有依赖关系，各线程块可以并行运行，即R1阶段同一因子图多线程块并行；同一线程块在第s级的各子任务之间没有数据依赖关系，将这些子任务分配到线程块内的多个线程并行执行，即R1阶段同一线程块内多线程并行；

(4)在R2阶段，不同线程块的数据之间没有依赖关系，各线程块可以并行运行，即R2阶段同一因子图多线程块并行；同一线程块在第s级的各子任务之间没有数据依赖关系，将这些子任务分配到线程块内的多个线程并行执行，即R2阶段同一线程块内多线程并行；

其中，步骤2在GPU初始化时，译码过程中使用的L和R数组分布式存储在各线程块共享内存，即在一次完整的循环过程中，只需要通过全局内存在线程块之间交换共享内存2次，其他所有操作都可以使用线程块内的共享内存。具体如下：

GPU上的存储空间主要包含全局内存和线程块内共享内存(简称为块内共享内存或共享内存)。共享内存访问速度快，但是容量相对较小；全局内存空间大，访问速度较慢。

Polar码置信传播译码的主要数据为矩阵L和R，这两个矩阵的大小都是N*(n+1)。当码长N较大时，L和R所需的存储空间较大。为了提高访存速度，本发明将计算过程中的L和R进行分割后，存放在N个线程块的块内共享内存中的二维数组Local_L和Local_R中，Local_L的第一维和第二维大小分别为N/N1和n+1，Local_R的大小和Local_L相同。矩阵L和R分布式存储在各线程块内的共享内存方法如下：

(1)对于0<＝j<＝n-n1，L_{b*(N/N1)+d2*N1+d1,j}和R_{b*(N/N1)+d2*N1+d1,j}分别存放在第b个线程块的共享内存中的Local_L[d2*N1+d1][j]和Local_R[d2*N1+d1][j]，其中b＝0,1,...,N1-1；d2＝0,1,...,N/(N1*N1)-1；d1＝0,1,...,N1-1；

(2)对于n-n1<＝j<＝n，L_{b*(N/N1)+d2*N1+d1,j}和R_{b*(N/N1)+d2*N1+d1,j}存放在第d1个线程块的共享内存中的Local_L[d2*N1+b][j+1]和Local_R[d2*N1+b][j+1]，其中b＝0,1,...,N1-1；d2＝0,1,...,N/(N1*N1)-1；d1＝0,1,...,N1-1。

根据上述的分布式存储方法，在L1阶段的各级(s＝n-1,...,n-n1-1)，L和R分布式存储在各线程块的方案相同，所以各线程块在L1阶段内的各级迭代中使用块内共享内存即可，不需要在线程块之间交换数据。同理，在L2、R1和R2各阶段内的迭代，也不需要在线程块之间交换数据。L1和L2阶段的分布式存储方案不同，所以在完成L1阶段和开始L2阶段之间，需要通过全局内存在线程块之间交换数据；L2和R1阶段的分布式存储方案相同，所以在完成L2阶段和开始R1阶段之间，不需要通过全局内存在线程块之间交换数据。同理，在完成R1阶段和开始R2阶段之间，需要通过全局内存在线程块之间交换数据；在完成R2阶段和开始下一次迭代的L1阶段之间，不需要通过全局内存在线程块之间交换数据。由此可见，本发明在一次完整的循环(即包括4个阶段，共2n级迭代)过程中，只需要通过全局内存在线程块之间交换共享内存2次，其他所有操作都可以使用线程块内的共享内存。

其中，步骤2所述的GPU全局内存分配，为了提高访存的局部性，本发明做了如下优化：

(1)全局内存包括所有因子图的公共数据和每个因子图的专有数据。每个因子图使用的全局内存是连续存放的。第p个线程块使用的全局内存为结构体graph_info[p]，其成员包括：因子图置换数组、逆置换数组和用于线程块交换共享内存的全局内存空间。

(2)用于线程块之间交换共享内存的graph_info[p].swap按照线程块读取的顺序连续存放，即每个线程块从graph_info[p].swap读取时，其地址空间是连续的。

本发明的优点与积极效果在于：

(1)本发明的并行译码包括了三个层次的并行：第一个层次是多因子图之间的并行，每个因子图由若干个线程块负责。因为不同因子图在迭代过程没有数据依赖关系，所以不同因子图的线程块可以自然地并行运行；第二个层次是同一因子图多线程块的并行，在本发明中，一个因子图的迭代由N1个线程块负责，本发明设计的线程块分工保证了同一阶段内(即L1、L2、R1、R2)，线程块之间没有数据依赖，从而这N1个线程块可以并行执行；第三个层次是同一线程块内的多线程并行，本发明将同一线程块在每一级的迭代分为N/2N1个相互之间没有依赖的子任务，然后将这些子任务分配给线程块内的多个线程并行执行，每个线程执行完本级所负责的所有子任务后，进行线程块内的同步。这种方法可以充分利用GPU的并行核资源，计算效率高。而且本发明的同步开销小：在一次完整的循环(即包括4个阶段，共2n级迭代)过程中，本发明只需要使用2次线程块之间的同步，其余2n-2级之间都使用线程块内的同步机制，同步开销小。此外，GPU上整个译码过程使用一个内核函数，最大限度地降低了内核函数的启动开销。

(2)本发明将迭代中的主要数据分布式存储在各线程块内的共享内存，从而提高了访存效率和运行速度。本发明在一次完整的循环(即包括4个阶段，共2n级迭代)过程中，只需要通过全局内存在线程块之间交换共享内存2次，其他所有操作都可以使用线程块内的共享内存。此外，在本发明使用的全局空间中，同一个因子图的专有数据连续存放，且用于线程块之间交换共享内存的全局内存空间按照线程块读取的顺序连续存放，从而优化了存储的局部性，提高了访存效率和运行速度。

附图说明

图1为本发明所述的基于GPU的Polar码高速并行译码方法的流程图。

具体实施方式

下面结合附图对本发明进行详细说明。

本发明提供了一种基于GPU的Polar码高速并行译码方法，采用的是基于置信传播列表的译码算法。所述的译码方法包含三个阶段：初始化阶段、译码阶段、结果回传阶段。初始化阶段包括下述步骤1和步骤2，译码阶段包括下述步骤3和步骤4，下述步骤5是结果回传阶段，整个译码流程如图1所示，具体如下：

步骤1：主机初始化。依次包括：为信息比特标志、因子图置换和逆置换信息、接收机接收到的信号、译码的结果即源比特的对数似然比分配内存空间(步骤1.1)，信息和变量的初始化(步骤1.2)，存储接收到的信号并计算编码比特对数似然比(步骤1.3)；具体如下：

步骤1.1：分配主机内存空间，依次包括：信息比特标志数组InfoBitFlags，接收机接收到的信号数组y，编码比特的对数似然比数组cLLR。

步骤1.2：主机初始化信息比特标志数组InfoBitFlags，因子图置换数组Perm，根据因子图置换数组计算逆置换数组InvPerm。

步骤1.3：主机将接收机接收到的信号存放在数组y，信道的信噪比存放在变量SNR中。主机根据接收信号和信噪比计算编码比特对数似然比数组cLLR＝y*SNR。

步骤2：GPU初始化。依次包括：GPU全局内存分配，主机将数据发送给GPU，启动GPU的并行译码线程，GPU分配共享内存，初始化共享内存，根据全局内存给共享内存的数组赋值；具体过程如下：

步骤2.1：分配GPU上的全局内存。包括所有因子图的公共数据和每个因子图的专有数据。所有因子图的公共数据包括编码比特对数似然比数组cLLR、信息比特标志数组InfoBitFlags、译码结果即源比特对数似然比数组uLLR。每个因子图的专有数据连续存放，第p个因子图的专有数据存放在结构体graph_info[p]中，其成员包括：因子图置换数组Perm、逆置换数组InvPerm和用于线程块交换共享内存的全局内存空间swap。

步骤2.2：将主机内存的信息比特标志数组、因子图置换数组和逆置换数组、编码比特对数似然比数组发送给GPU，其中因子图置换数组和逆置换数组是因子图专有数据，存放在结构体graph_info[p]中。

步骤2.3：主机启动GPU的并行译码线程，共P*N1个线程块，每个线程块包含T个线程，其中T等于每个流多处理器包含的核心数。所有的线程执行相同的译码内核函数，线程之间通过线程索引来区分，每个线程的索引为((p,b),t)，其中(p,b)为线程块索引，t为线程块内的线程索引。

步骤2.4：GPU的线程分配线程块内的共享内存，包括二维数组Local_L[N/N1][n+2]和Local_R[N/N1][n+2]，所有元素初始化为0。

步骤2.5：GPU上每个线程块的0号线程，即线程((p,b),0)(p＝0,1,...,P-1；b＝0,1,...,2ⁿ¹-1)根据信息比特标志和编码比特对数似然比给Local_L[][n+2]和Local_R[][0]赋值。

在程序中，可以用一重循环来实现本步骤，具体流程如下：

(1)循环索引变量为d，d＝0,1,...,N/N1-1

(2)计算dd＝(d％N1)*N1+(d/N1)

(3)局部内存中的Local_L[d][n+2]对应的全局内存地址为dd*N1+b，在原因子图(即置换前的因子图)的索引为graph_info[p].InvPerm[dd*N1+b]，因此将cLLR[graph_info[p].InvPerm[dd*N1+b]]的值赋给Local_L[d][n+2]。

(4)局部内存中的Local_R[d][0]对应的全局内存地址为b*N1+d，在原因子图(即置换前的因子图)的索引为graph_info[p].InvPerm[b*N1+d]。如果信息比特标志InfoBitFlags[graph_info[p].InvPerm[b*N1+d]]为0，将Local_R[d][0]置为1e+30。

示例程序如下：

索引为((p,b),0)，p＝0,1,...,P-1；b＝0,1,...,2ⁿ¹-1的线程共有P*2ⁿ¹个，这P*2ⁿ¹线程可以并行执行。

步骤3：译码内核函数进行若干次循环迭代，最大循环次数由程序预先设定。每次循环包括L1阶段(步骤3.1)、L1-L2阶段间交换线程块共享内存(步骤3.2)、L2阶段(步骤3.3)、R1阶段(步骤3.4)、R1-R2阶段间交换线程块共享内存(步骤3.5)、R2阶段(步骤3.6)和判断是否有因子图满足早期终止条件或者已达到最大循环次数，并设置变量p_good(步骤3.7)。

步骤3.1：向左迭代的第一阶段，即L1阶段，级编号s＝n-1,...,n-n1.

每一级包含三个层次的并行：

(1)多因子图之间的并行：第p个因子图由索引为(p,0),...,(p,2ⁿ¹-1)的线程块负责，p＝0,1,...,P-1。各因子图的线程块之间相互独立，可以并行进行；

(2)同一因子图多线程块的并行：每个因子图由2ⁿ¹个线程块负责计算，第b(b＝0,1,...,2ⁿ¹-1)个线程块使用的L和R的第一维索引集合为L1_Block(b)＝{ia*2ⁿ¹+b,ia＝0,...,2^n-n1-1}，因此各线程块之间没有数据依赖，可以并行运行。

(3)同一因子图线程块内的多线程并行：每个线程块在每一级的计算可以分解为N/N1/2＝2^n-n1-1个子任务。编号为i(i＝0,1,...,2^n-n1-1-1)的子任务在第s级使用的L和R的第一维索引集合为：

L1_Task(b,i,s)＝{floor(i/2^s-n1)*2^s+1+a*2^s+(i％2^s-n1)*2ⁿ¹+b:a＝0,1}；

因此同一线程块内各子任务之间没有数据依赖关系，所以可以将这些子任务分成min(T,2^n-n1-1)组，每组子任务由线程块内的一个线程负责，各线程可以并行执行。每个线程完成所负责的这组子任务后，进行线程块内的线程同步。

根据本发明的线程和子任务分工方案，线程块(p,b)在第s级的第i个子任务需要计算：

L_up,s＝f(L_down,s+1+R_down,s,L_up,s+1)

L_down,s＝L_down,s+1+f(L_up,s+1,R_up,s)

其中

up＝floor(i/2^s-n1)*2^s+1+(i％2^s-n1)*2ⁿ¹+b

down＝floor(i/2^s-n1)*2^s+1+2^s+(i％2^s-n1)*2ⁿ¹+b

根据本发明的分布式存储方案，在L1阶段，up和down在共享内存中的索引分别为Local_up和Local_down,s和s+1在共享内存中的索引分别为s+1和s+2，其中Local_up＝floor(i’/2^j)*2^j+1+(i’％2^j),Local_down＝floor(i’/2^j)*2^j+1+2^j+(i’％2^j),i’＝(i％2ⁿ ^-2n1)*2^n-2n1+floor(i/2^n-2n1),i’＝0,1,...,2^n-n1-1-1,j＝s-n+n1，Local_up和Local_down是线程块(p,b)的共享内存地址。

因此以上运算用程序可以表示为：

Local_L[Local_up][s+1]＝f(Local_L[Local_down][s+2]+Local_R[Local_down][s+1],Local_L[up][s+2])；

Local_L[Local_down][s+1]＝Local_L[Local_down][s+2]+f(Local_L[Local_up][s+2],Local_R[up][s+1])；

函数f的定义为：f(x,y)＝2tanh^-1(tanh(x/2)tanh(y/2))，在实际计算中，通常用f(x,y)≈0.9375sgn(x)sgn(y)min(|x|,|y|)来近似。

在程序中，可以用两重循环来实现本步骤，具体流程如下：

(1)第一重循环的循环索引变量为s，s＝n-1,...,n-n1。(注意在这个循环里，循环索引变量s每次递减1。)

(2)计算j＝s-n+n1。

(3)第二重循环的循环索引变量为i，i＝t,t+T,...,t+(floor(2^n-n1-1-1-t)/T)*T。

(4)i的二进制表示包含n-n1-1位，将i的低j位，即i％(2^j)赋给变量i_LSB；并将i的高(n-n1-1-j)位，即floor(i/(2^j))赋给变量i_MSB。

(5)计算共享内存地址Local_up和Local_down，其中Local_up＝(i_MSB<<(j+1))+i_LSB，Local_down＝Local_up+(1<<j)。

(6)计算Local_L[Local_up][s+1]和Local_L[Local_down][s+1]，其中前者的值为f(Local_L[Local_down][s+2]+Local_R[Local_down][s+1],Local_L[up][s+2])，后者的值为Local_L[Local_down][s+1]＝Local_L[Local_down][s+2]+

f(Local_L[Local_up][s+2],Local_R[up][s+1])。

(7)第二重循环结束后，调用__syncthreads()进行线程块内的各线程同步。

示例程序如下：

步骤3.2：每个因子图的线程块之间通过全局内存交换共享内存中的Local_L[][n-n1+1]，即L1-L2阶段间交换线程块共享内存；具体如下：

步骤3.2.1每个线程块的0号线程，即线程((p,b),0)(p＝0,1,...,P-1；b＝0,1,...,2ⁿ¹-1)将线程块(p,b)共享内存中的Local_L[d2*2ⁿ¹+d1][n-n1+1]写入全局内存中的graph_info[p].swap[d1*2^n-n1+d2*2ⁿ¹+b],其中d1＝0,1,...,2ⁿ¹-1；d2＝0,1,...,2^n-2n1-1。编号为((p,b),0)，p＝0,1,...,P-1；b＝0,1,...,2ⁿ¹-1的线程共有P*2ⁿ¹个。因为各线程写入swap的地址之间没有重叠，所以这P*2ⁿ¹线程可以并行执行。

步骤3.2.2每个因子图的2ⁿ¹个线程块进行线程块之间的同步。不同因子图的线程块之间不需要同步。

步骤3.2.3线程块(p,d1)的0号线程((p,d1),0)将全局内存中的graph_info[p].swap[d1*2^n-n1+d2*2ⁿ¹+b]写入线程块(p,d1)共享内存中的Local_L[d2*2ⁿ¹+b][n-n1],其中b＝0,1,...,2ⁿ¹-1；d1＝0,1,...,2ⁿ¹-1；d2＝0,1,...,2^n-2n1-1。编号为((p,d1),0)，p＝0,1,...,P-1；d1＝0,1,...,2ⁿ¹-1的线程共有P*2ⁿ¹个，这P*2ⁿ¹线程可以并行执行。

步骤3.3：向左迭代的第二阶段，即L2阶段，级编号s＝n-n1-1,...,0.

每一级也包含三个层次的并行：

(1)多因子图之间的并行：第p个因子图由编号为(p,0),...,(p,2ⁿ¹-1)的线程块负责，p＝0,1,...,P-1。各因子图的线程块之间相互独立，可以并行进行；

(2)同一因子图多线程块的并行：每个因子图由2ⁿ¹个线程块负责计算，第b(b＝0,1,...,2ⁿ¹-1)个线程块使用的L和R的第一维索引集合为L2_Block(b)＝{b*2^n-n1+ia,ia＝0,...,2^n-n1-1}，因此各线程块之间没有数据依赖，可以并行运行。

(3)同一因子图线程块内的多线程并行：每个线程块在每一级的计算可以分解为N/N1/2＝2^n-n1-1个子任务。编号为i(i＝0,1,...,2^n-n1-1-1)的子任务在第s级使用的L和R的第一维索引集合为

L2_Task(b,i,s)＝{b*2^n-n1+floor(i/2^s)*2^s+1+a*2^s+(i％2^s):a＝0,1}

L_up,s＝f(L_down,s+1+R_down,s,L_up,s+1)

L_down,s＝L_down,s+1+f(L_up,s+1,R_up,s)

其中，

up＝b*2^n-n1+floor(i/2^s)*2^s+1+(i％2^s)

down＝b*2^n-n1+floor(i/2^s)*2^s+1+2^s+(i％2^s)

根据本发明的分布式存储方案，在L2阶段，up和down在共享内存中的索引分别为Local_up和Local_down,s和s+1在共享内存中的索引分别为s和s+1，其中Local_up＝floor(i/2^s)*2^s+1+(i％2^s),Local_down＝floor(i/2^s)*2^s+1+2^s+(i％2^s)，Local_up和Local_down是线程块(p,b)的共享内存地址。

因此以上运算用程序可以表示为：

Local_L[Local_up][s]＝f(Local_L[Local_down][s+1]+Local_R[Local_down][s],Local_L[up][s+1])；

Local_L[Local_down][s]＝Local_L[Local_down][s+1]+f(Local_L[Local_up][s+1],Local_R[up][s])；

在程序中，可以用两重循环来实现本步骤，具体流程如下：

(1)第一重循环的循环索引变量为s，s＝n-n1,n-n1-1,...,0。(注意在这个循环里，循环索引变量s每次递减1。)

(2)第二重循环的循环索引变量为i，i＝t,t+T,...,t+(floor(2^n-n1-1-1-t)/T)*T。

(3)i的二进制表示包含n-n1-1位，将i的低s位，即i％(2^s)赋给变量i_LSB；并将i的高(n-n1-1-s)位，即floor(i/(2^j))赋给变量i_MSB。

(4)计算共享内存地址Local_up和Local_down，其中Local_up＝(i_MSB<<(s+1))+i_LSB，Local_down＝Local_up+(1<<s)。

(5)计算Local_L[Local_up][s]和Local_L[Local_down][s]，其中前者的值为f(Local_L[Local_down][s+1]+Local_R[Local_down][s],Local_L[Local_up][s+1])，后者的值为Local_L[Local_down][s+1]＝L[Local_down][Local_s+1]+

f(L[Local_up][s+1],Local_R[Local_up][s])。

(6)第二重循环结束后，调用__syncthreads()进行线程块内的各线程同步。

示例程序如下：

步骤3.4：向右迭代的第一阶段，即R1阶段，级编号s＝0,...,n-n1-1.

每一级也包含三个层次的并行：

(2)同一因子图多线程块的并行：每个因子图由2ⁿ¹个线程块负责计算，第b(b＝0,1,...,2ⁿ¹-1)个线程块使用的L和R的第一维索引集合为R1_Block(b)＝{b*2^n-n1+ia,ia＝0,...,2^n-n1-1}，因此各线程块之间没有数据依赖，可以并行运行。

(3)同一因子图线程块内的多线程并行：每个线程块在每一级的计算可以分解为N/N1/2＝2^n-n1-1个子任务。编号为i(i＝0,1,...,2^n-n1-1-1)的子任务在第s级使用的L和R的第一维索引集合为R1_Task(b,i,s)＝{b*2^n-n1+floor(i/2^s)*2^s+1+a*2^s+(i％2^s):a＝0,1}

R_up,s+1＝f(L_down,s+1+R_down,s,R_up,s)

R_down,s+1＝R_down,s+f(L_up,s+1,R_up,s)

其中，

up＝b*2^n-n1+floor(i/2^s)*2^s+1+(i％2^s)

down＝b*2^n-n1+floor(i/2^s)*2^s+1+2^s+(i％2^s)

根据本发明的分布式存储方案，在R1阶段，up和down在共享内存中的索引分别为Local_up和Local_down,s和s+1在共享内存中的索引分别为s和s+1，其中Local_up＝floor(i/2^s)*2^s+1+(i％2^s),Local_down＝floor(i/2^s)*2^s+1+2^s+(i％2^s)，Local_up和Local_down是线程块(p,b)的共享内存地址。

因此以上运算用程序可以表示为：

Local_R[Local_up][s+1]＝

f(Local_L[Local_down][s+1]+Local_R[Local_down][s],R[Local_up][s])；

Local_R[Local_down][s+1]＝Local_R[Local_down][s]+

f(L[Local_up][s+1],R[Local_up][s])；

在程序中，可以用两重循环来实现本步骤，具体流程如下：

(1)第一重循环的循环索引变量为s，s＝0,1,n-n1,...,n-n1-1。

(3)i的二进制表示包含n-n1-1位，将i的低s位，即i％(2^s)赋给变量i_LSB；并将i的高(n-n1-1-s)位，即floor(i/(2^s))赋给变量i_MSB。

(4)计算共享内存地址Local_up和Local_down，其中Local_up＝(i_MSB<<

(s+1))+i_LSB，Local_down＝Local_up+(1<<s)。

(5)计算Local_L[Local_up][s+1]和Local_L[Local_down][s+1]，其中前者的值为f(Local_L[Local_down][s+1]+Local_R[Local_down][s],Local_R[Local_up][s])，后者的值为Local_R[Local_down][s]+f(L[Local_up][s+1],R[Local_up][s])。

示例程序如下：

步骤3.5：每个因子图的线程块之间通过全局内存交换共享内存中的Local_R[][n-n1]，即R1-R2阶段间交换线程块共享内存，具体如下：

步骤3.5.1每个线程块的0号线程，即线程((p,b),0)(p＝0,1,...,P-1；b＝0,1,...,2ⁿ¹-1)将线程块(p,b)共享内存中的Local_R[d2*2ⁿ¹+d1][n-n1]写入全局内存中的graph_info[p].swap[d1*2^n-n1+d2*2ⁿ¹+b],其中d1＝0,1,...,2ⁿ¹-1；d2＝0,1,...,2^n-2n1-1。编号为((p,b),0)，p＝0,1,...,P-1；b＝0,1,...,2ⁿ¹-1的线程共有P*2ⁿ¹个。因为各线程写入swap的地址之间没有重叠，所以这P*2ⁿ¹线程可以并行执行。

步骤3.5.2每个因子图的2ⁿ¹个线程块进行线程块之间的同步。不同因子图的线程块之间不需要同步。

步骤3.5.3线程块(p,d1)的0号线程((p,d1),0)将全局内存中的graph_info[p].swap[d1*2^n-n1+d2*2ⁿ¹+b]写入线程块共享内存中的Local_R[d2*2ⁿ¹+b][n-n1+1],其中b＝0,1,...,2ⁿ¹-1；d1＝0,1,...,2ⁿ¹-1；d2＝0,1,...,2^n-2n1-1。编号为((p,d1),0)，p＝0,1,...,P-1；d1＝0,1,...,2ⁿ¹-1的线程共有P*2ⁿ¹个，这P*2ⁿ¹线程可以并行执行。

步骤3.6：向右迭代的第二阶段，即R2阶段，级编号s＝n-n1,...,n-1.

每一级也包含三个层次的并行：

(2)同一因子图多线程块的并行：每个因子图由2ⁿ¹个线程块负责计算，第b(b＝0,1,...,2ⁿ¹-1)个线程块使用的L和R的第一维索引集合为R2_Block(b)＝{ia*2ⁿ¹+b,ia＝0,...,2^n-n1-1}，因此各线程块之间没有数据依赖，可以并行运行。

R2_Task(b,i,s)＝{floor(i/2^s-n1)*2^s+1+a*2^s+(i％2^s-n1)*2ⁿ¹+b:a＝0,1}

R_up,s+1＝f(L_down,s+1+R_down,s,R_up,s)

R_down,s+1＝R_down,s+f(L_up,s+1,R_up,s)

其中，

up＝floor(i/2^s-n1)*2^s+1+(i％2^s-n1)*2ⁿ¹+b

down＝floor(i/2^s-n1)*2^s+1+2^s+(i％2^s-n1)*2ⁿ¹+b

根据本发明的分布式存储方案，在R2阶段，up和down在共享内存中的索引分别为Local_up和Local_down,s和s+1在共享内存中的索引分别为s+1和s+2，其中Local_up＝floor(i’/2^j)*2^j+1+(i’％2^j),Local_down＝floor(i’/2^j)*2^j+1+2^j+(i’％2^j),i’＝(i％2ⁿ ^-2n1)*2^n-2n1+floor(i/2^n-2n1),i’＝0,1,...,2^n-n1-1-1,j＝s-n+n1，Local_up和Local_down是线程块(p,b)的共享内存地址。

因此以上运算用程序可以表示为：

Local_R[Local_up][s+2]＝f(Local_L[Local_down][s+2]+Local_R[Local_down][s+1],[Local_up][s+1])；

Local_R[Local_down][s+2]＝Local_R[Local_down][s+1]+

f(L[Local_up][s+2],R[Local_up][s+1])；

在程序中，可以用两重循环来实现本步骤，具体流程如下：

(1)第一重循环的循环索引变量为s，s＝n-n1,...,n-1。

(2)计算j＝s-n+n1。

(6)计算Local_L[Local_up][s+2]和Local_L[Local_down][s+2]，其中前者的值为f(Local_L[Local_down][s+2]+Local_R[Local_down][s+1],Local_R[Local_up][s+1])，后者的值为Local_R[Local_down][s+1]+f(L[Local_up][s+2],Local_R[Local_up][s+1])。

示例程序如下：

步骤3.7：判断每个因子图的迭代结果是否符合早期终止条件。如果至少有一个因子图满足条件，将这个因子图的编号p记录在变量p_good中(如果有多个因子图满足条件，将任一满足条件的p记录在变量p_good中)，循环终止即跳转到步骤4。否则，即所有因子图都不满足条件，判断是否已经达到预设的最大循环次数，如果已达到最大循环次数，令p_good＝0(对应第一个因子图)，循环终止即跳转到步骤4；如果未达到预设的最大循环次数，继续循环，即跳转到步骤3.1。其中，所述的早期终止条件可以有多种条件，例如迭代没有改进，通过附加的CRC校验等。其中，最大循环次数可以选择和Polar码置信传播译码的串行化实现相同的最大循环次数，通常为50-200之间。

步骤4：因子图p_good的所有线程块的0号线程，即线程((p_good,b),0)，其中b＝0,1,...,N1-1，将其共享内存中的Local_L[][0]+Local_R[][0]经过逆置换后，作为译码结果，存放在uLLR中。有N1个索引为((p_good,b),0)的线程，这些线程可以并行执行。

在程序中，可以用一重循环来实现本步骤，具体流程如下：

(1)循环索引变量为d，d＝0,1,...,N/N1-1

(2)局部内存中的Local[L][0]和Local_R[d][0]对应的全局内存地址为b*N1+d，在原因子图(即置换前的因子图)的索引为graph_info[p_good].InvPerm[b*N1+d]。将Local_L[d][0]和Local_R[d][0]相加，并将结果存放到uLLR[graph_info[p_good].InvPerm[b*N1+d]]中。

示例程序如下：

for(d＝0；d<N/N1；d++)

uLLR[graph_info[p_good].InvPerm[b*N1+d]]＝

Local_L[d][0]+Local_R[d][0]；

步骤5：主机将译码结果即源比特的对数似然比uLLR从GPU传回到主机。

Claims

1.一种基于GPU的Polar码高速并行译码方法，其特征在于：整个译码过程分为三个阶段：初始化阶段、译码阶段、结果回传阶段，其中初始化阶段包括以下步骤1和步骤2，译码阶段包括以下步骤3和步骤4，以下步骤5是结果回传阶段：

步骤1：主机初始化

依次包括：为信息比特标志、因子图置换和逆置换信息、接收机接收到的信号、译码的结果即源比特的对数似然比分配内存空间，信息和变量的初始化，存储接收到的信号并计算编码比特对数似然比；

步骤2：GPU初始化

依次包括：GPU全局内存分配，主机将数据发送给GPU，启动GPU的并行译码线程，GPU分配共享内存，初始化共享内存，根据全局内存给共享内存的数组赋值；

步骤3：译码内核函数进行若干次循环迭代，最大循环次数由程序预先设定

每次循环依次包括：L₁阶段、L_1-L₂阶段间交换线程块共享内存、L₂阶段、R₁阶段、R₁-R₂阶段间交换线程块共享内存、R₂阶段和循环终止条件判断：如果在循环过程中有因子图满足早期终止条件，或者已达到最大循环次数，则设置变量p_good，并终止循环，跳转到步骤4；

步骤4：对于变量p_good的所有线程块的0号线程，即线程((p_good,b),0)，其中b＝0,1,...,N₁-1，

N为Polar码的码长，将其共享内存中的Local_L[][0]+Local_R[][0]经过逆置换后，作为译码结果；

步骤5：主机将译码结果从GPU传回到主机。

2.根据权利要求1所述的一种基于GPU的Polar码高速并行译码方法，其特征在于：所述步骤2在GPU初始化时，译码过程中使用的L和R数组分布式存储在各线程块共享内存，即在一次完整的循环过程中，只需要通过全局内存在线程块之间交换共享内存2次，其他所有操作都使用线程块内的共享内存。

3.根据权利要求1所述的一种基于GPU的Polar码高速并行译码方法，其特征在于：步骤2所述的全局内存的分配，具体为：同一个因子图使用的全局内存连续存放，并且用于线程块之间交换共享内存的全局内存空间按照线程块读取的顺序连续存放，即每个线程块从交换空间读取时，其读取的地址空间是连续的。

4.根据权利要求1所述的一种基于GPU的Polar码高速并行译码方法，其特征在于：所述步骤3循环迭代的每次循环包括以下步骤：

步骤3.1：向左迭代的第一阶段，即L₁阶段，包括第n-1,...,n-n₁级迭代，其中n₁＝log₂N₁；

步骤3.2：每个因子图的线程块之间通过全局内存交换共享内存中的Local_L[][n-n₁+1]；

步骤3.3：向左迭代的第二阶段，即L₂阶段，包括第n-n₁-1,...,0级迭代；

步骤3.4：向右迭代的第一阶段，即R₁阶段，包括第0,...,n-n₁-1级迭代；

步骤3.5：每个因子图的线程块之间通过全局内存交换共享内存中的Local_R[][n-n₁]；

步骤3.6：向右迭代的第二阶段，即R₂阶段，包括第n-n₁,...,n-1级迭代；

5.根据权利要求4所述的一种基于GPU的Polar码高速并行译码方法，其特征在于：步骤3所述的L₁阶段、L₂阶段、R₁阶段和R₂阶段，每个阶段都包括三个层次的并行：

第一个层次是多因子图之间的并行，每个因子图由N₁个线程块负责，各因子图的线程块之间相互独立，不同因子图的线程块并行运行；

第二个层次是同一因子图多线程块的并行，每个因子图由N₁个线程块负责计算，不同线程块之间没有数据依赖，并行运行；

第三个层次是同一线程块内的多线程并行，每个线程块在每一级的计算分为

个子任务，各子任务之间没有数据依赖关系，各子任务被分成

组,其中T是GPU上每个流多处理器包含的核心数，每组子任务由线程块内的一个线程负责，各线程并行执行；每个线程完成所负责的这组子任务后，进行线程块内的线程同步。

6.根据权利要求5所述的一种基于GPU的Polar码高速并行译码方法，其特征在于：第二个层次所述的同一因子图多线程块的并行和第三个层次所述的同一线程块内的多线程并行的分工细节如下：

(1)在L₁阶段，不同线程块的数据之间没有依赖关系，各线程块并行运行，即L₁阶段同一因子图多线程块并行；同一线程块在第s级的各子任务之间没有数据依赖关系，将这些子任务分配到线程块内的多个线程并行执行，即L₁阶段同一线程块内多线程并行；

(2)在L₂阶段，不同线程块的数据之间没有依赖关系，各线程块并行运行，即L₂阶段同一因子图多线程块并行；同一线程块在第s级的各子任务之间没有数据依赖关系，将这些子任务分配到线程块内的多个线程并行执行，即L₂阶段同一线程块内多线程并行；

(3)在R₁阶段，不同线程块的数据之间没有依赖关系，各线程块并行运行，即R₁阶段同一因子图多线程块并行；同一线程块在第s级的各子任务之间没有数据依赖关系，将这些子任务分配到线程块内的多个线程并行执行，即R₁阶段同一线程块内多线程并行；

(4)在R₂阶段，不同线程块的数据之间没有依赖关系，各线程块并行运行，即R₂阶段同一因子图多线程块并行；同一线程块在第s级的各子任务之间没有数据依赖关系，将这些子任务分配到线程块内的多个线程并行执行，即R₂阶段同一线程块内多线程并行。