CN110086591B

CN110086591B - 一种大规模天线系统中的导频污染抑制方法

Info

Publication number: CN110086591B
Application number: CN201910399212.4A
Authority: CN
Inventors: 朱禹涛; 洪军华; 连永进; 胡志明; 刘泽民
Original assignee: Yingtan Taier Internet Of Things Research Center
Current assignee: Yingtan Taier Internet Of Things Research Center
Priority date: 2019-05-14
Filing date: 2019-05-14
Publication date: 2021-10-22
Anticipated expiration: 2039-05-14
Also published as: CN110086591A

Abstract

本申请公开了一种大规模天线系统中的导频污染抑制方法，涉及无线通信技术领域。本申请的主要技术方案为为优化目标建立最优化问题模型；将最优化问题模型分解为导频分配子模型和功率控制子模型；循环迭代导频分配子模型和功率控制子模型的求解算法，得到最优化问题模型的近似最优解，确定抑制导频污染的导频分配和功率控制。采用本申请提供的导频污染的抑制方法，提高了大规模天线系统用户上行和速率，有效地抑制了导频污染问题。

Description

一种大规模天线系统中的导频污染抑制方法

技术领域

本申请涉及无线通信技术领域，尤其涉及一种大规模天线系统中的导频污染抑制方法。

背景技术

随着无线通信网络的发展和物联网、机器对机器通信、电子学习、电子银行等新兴业务的出现，移动用户和移动设备数量快速增加，对移动数据流量的需求呈现爆炸式增长。预计未来十年各种新兴业务对移动流量的需求将比目前的需求增加数千个数量级，与现有无线网络相比，需要具有更高容量的新技术。虽然传统多输入多输出技术通过增加基站端和用户端的天线数量来提高系统的可靠性和有效性。然而传统多天线系统的基站天线数量较少，系统的性能远不能满足未来社会对高数据速率的新兴业务需求。大规模天线系统是一种新的通信系统，其中具有几百个天线阵列的基站(BS)在相同的时频资源中同时服务于多个用户终端(UE)，每个用户终端具有单个或多个天线，具有多个天线的基站同时向多个终端发送独立的数据流。

研究表明，大规模天线系统通过利用其阵列增益支持更多用户的空间复用传输，可以大幅度地提高系统的频谱效率和能量效率。并且，当基站端的天线数趋向于无穷大时，多用户多小区大规模天线系统会呈现出许多优良的特性：不同用户间的信道向量趋于正交，相同小区内用户间的干扰趋近于零；系统中不相关噪声的影响逐渐消失，信道的小尺度衰落被平均化。

在大规模天线系统中，准确的信道状态信息估计至关重要，否则将严重影响上下行链路的通信质量，目前信道状态信息获取主要分为两类：基于导频的信道估计和基于子空间的信道估计。大规模天线系统采用常见的块衰落模型，信道状态信息可以认为在一段相干时间内保持不变，超过了相干时间间隔则需要重新进行信道估计。基于子空间的信道估计方式误码率较高，并且进行一次信道估计的时间较长，远大于系统的信道相干时间，所以利用正交的导频序列进行信道估计是目前获取信道状态信息的主要方式，而正交导频序列受到信道相干时间的限制，数量非常有限，不能满足日益增长的移动用户数目，所以大规模天线系统中小区内用户需要发送相同或非正交的导频训练序列进行信道估计，导致用户受到使用相同导频或非正交导频用户的干扰，这一现象称为导频污染。

对导频进行随机分配会导致小区间的用户复用非正交导频会带来干扰，影响准确的信道估计。合理的导频分配是有效抑制导频污染的方法之一。基于导频分配的导频污染抑制研究大多默认各个用户上行导频传输功率相同，只考虑不同的导频分配方案对导频污染的抑制效果，然而不同的导频传输功率控制方案也会对系统吞吐量造成影响。已有部分研究从导频功率控制的角度提出抑制大规模天线系统导频污染的方法，但是多为启发式设计，没有给出导频功率控制对系统性能增益的上限。

发明内容

本申请提供一种大规模天线系统中的导频污染抑制方法，其特征在于，包括：为优化目标建立最优化问题模型；将最优化问题模型分解为导频分配子模型和功率控制子模型；循环迭代导频分配子模型和功率控制子模型的求解算法，得到最优化问题模型的近似最优解，确定抑制导频污染的最优导频分配和功率控制。

如上的，其中，为优化目标建模，得到最优化问题模型为：

其中，i的取值为1～L，表示大规模天线系统中的第i个小区，L为小区总数；k的取值为1～K，表示小区内的第k个用户终端，K为小区内的用户终端的总数量；

为导频分配方式，

代表所有(K！)^L种导频分配方案，s表示导频集，共包括k个正交导频；p_ik表示第i个小区基站中第k个用户终端的上行导频发射功率，p_jk′表示第j个小区中第k′个用户终端的上行导频发射功率，p＝{p_ik}_L×K为所有用户的上行导频发射功率构成的L行K列的矩阵；

h_iik表示第i个小区中第k个用户终端的信号增益，

为h_iik的共轭转置；

h_ijk′表示第j个小区中第k′个用户终端到第i个小区基站的信道增益，

为h_ijk′的共轭转置；

β_ijk为大尺度衰落因子，g_ijk为小尺度衰落因子，

表示复数集合，

表示M+1维的复向量；c_ik表示第i个小区中第k个用户终端使用的导频序列，c_jk′表示第j个小区中第k′个用户终端使用的导频序列；σ²为高斯白噪声的标准差。

如上的，其中，当大规模天线系统中的天线数增多时，根据大规模天线系统的特性，将小尺度衰落因子忽略不计，将优化目标的最优化问题模型简化为：

其中，s.t.表示该简化的最优化问题模型受限于0＜p_ik≤P_max，P_max表示用户上行链路的最大发射功率。

如上的，其中，功率控制子模型的求解算法采用连续凸近似算法，得到凸近似问题如下：

其中，p为所有用户的上行导频发射功率构成的矩阵；a_ik表示

b_ik表示

如上的，其中，在采用连续凸近似算法求解过程中通过迭代方法最大化收紧原优化目标的下界，具体包括如下子步骤：

依据初始化用户功率获得最优化问题的值；

循环求解优化问题，当优化问题的解满足设定条件时，输出第t次的功率分配结果p^(t)，即优化问题的最优解以及最优解对应的最优化问题的值。

如上的，其中，循环求解优化问题输出优化问题的最优解，具体为：在计算完优化问题的初始解Φ[0]后，t自加1，若计算

则t继续自加1，再次求解该优化问题，得到第t次的功率分配结果p^(t)，返回继续比较

与ε，直至

输出计算得到的功率分配结果。

如上的，其中，导频分配子模型的求解算法采用基于分布式Q学习的导频分配算法，结合Q学习算法对导频分配子问题进行建模，具体包括：

虚拟智能体：将大规模天线系统中的L个小区基站作为虚拟智能体；

动作：每个智能体都有一个动作集合A，第i个智能体动作

其中

是第i个小区中每个用户的导频分配，每个智能体的动作有K！个，K为小区中用户终端总数量；

状态：将由L个六边形蜂窝小区组成的时分双工多小区多用户大规模天线系统作为与智能体进行交互的环境，每个智能体都有各自的状态向量，代表每个小区中用户导频分配状态；

奖惩信号：智能体选择动作作用于环境，环境通过奖惩信号影响智能体的学习过程，将智能体的回报函数定为大规模天线系统基站选取某种导频分配方案后理想状态中的系统和速率；智能体根据回报函数更新各自的Q值表，在Q表更新之后，各智能体需要利用ε贪婪策略进行动作选择，以概率ε在动作空间中随机选择动作向量，或者以概率1-ε的概率选择动作。

如上的，其中，导频分配子模型的求解算法采用基于分布式Q学习的导频分配算法，具体包括如下子步骤：

初始化导频、功率、智能体动作集和Q值表；

依次遍历每个智能体：

若为每个智能体生成的随机数小于概率ε，则从智能体动作集中为该智能体任意选择一个动作；若为每个智能体生成的随机数大于或等于概率ε，根据Q值表选择动作a_i，执行动作向量a_i，遍历每个智能体i，根据状态和上次动作获取回报函数，根据回报函数更新Q值表。

如上的，其中，根据导频分配子模型和功率控制子模型的求解算法构造联合功率控制和导频分配的导频污染抑制主算法，获得用于系统和速率最大化问题的次优联合导频分配和功率控制解决方法，具体包括如下子步骤：

初始化各个用户终端的功率为等功率分配；

根据用户终端的功率计算系统和速率的值，当第i+1次系统和速率的值与第i次结果差值大于或等于误差值ε时，依次交替迭代基于分布式Q学习的导频分配算法和连续凸近似算法；当第i+1次系统和速率的值与第i次结果差值小于误差值ε时，结束迭代过程，算法结束。

如上的，其中，依次交替迭代基于分布式Q学习的导频分配算法和连续凸近似算法，具体为：设定误差值ε，当第i+1次系统和速率的值与第i次结果差值小于ε，或i＝0时，循环执行操作：根据基于分布式Q学习的导频分配算法和p^(i-1)获得a⁽ⁱ⁾，再根据连续凸近似算法和a⁽ⁱ⁾获得p⁽ⁱ⁾，更新R⁽ⁱ⁾；直至第i+1次系统和速率的值与第i次结果差值大于或等于ε。

本申请实现的有益效果如下：采用本申请提供的导频污染的抑制方法，提高了大规模天线系统用户上行和速率，有效地抑制了导频污染问题。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1为大规模天线模型示意图；

图2为本申请实施例提供的导频污染抑制方法流程图；

图3为基于分布式Q学习的导频分配算法流程图；

图4为凸优化问题求解过程中为收紧原优化目标下界而采用的迭代方法流程图；

图5为联合功率控制和导频分配的导频污染抑制算法流程图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请先对大规模天线模型进行描述，如图1所示，在多小区多用户大规模天线系统(MIMO系统)中，每个小区包含有一个配置了M根天线的基站和K个单天线用户终端(UE)，基站位于小区中心，单天线用户终端在小区内均匀分布，M根天线与K个单天线用户终端之间具有互易性，即在单一激励的情况下，当激励端口和响应端口互换位置时，响应不因这种互换而有所改变。

由于导频数量受到信道相干时间的限制，所以无法为所有用户分配正交的导频训练序列；在本申请实施例中，设定同一小区中的用户发射相互正交的导频，不同小区的用户复用同一套导频集。在导频分配的基础上，为了进一步抑制导频污染，以最大化系统用户上行和速率为目标，考虑导频传输功率对大规模天线系统性能的影响，尽可能提高大规模天线系统的上行传输和效率，本申请提出了一种联合功率控制和导频分配的导频污染抑制方法。

实施例一

如图2所示，所述导频污染抑制方法包括：

步骤110、为优化目标建立最优化问题模型；

为优化目标建模，得到如下所示的最优化问题模型：

在公式(1)中，i的取值为1～L，表示大规模天线系统中的第i个小区，L为小区总数；k的取值为1～K，表示小区内的第k个用户终端，K为小区内的用户终端的总数量；

为导频分配方式，

h_iik表示第i个小区中第k个用户终端的信号增益，

为h_iik的共轭转置；

为h_ijk′的共轭转置；

β_ijk为大尺度衰落因子，g_ijk为小尺度衰落因子，

表示复数集合，

表示M+1维的复向量；c_ik表示第i个小区中第k个用户终端使用的导频序列，c_jk′表示第j个小区中第k′个用户终端使用的导频序列；σ²为高斯白噪声的标准差；

当大规模天线系统中的天线数逐渐增多时，根据大规模天线系统的特性，小尺度衰落因子g_ijk被平均化，约等于0，忽略不计，将优化目标的最优化问题模型简化为：

在公式(2)中，“s.t.”指subject to，表示公式(2)受限制于0＜p_ik≤P_max，P_max表示用户上行链路的最大发射功率，且c_ik属于导频集s；

由公式(2)可知，在正交导频集和上行链路最大发射功率的限制下，优化目标不仅与导频分配方式

有关，也受每个用户的上行传输功率p影响；大规模天线系统的系统和速率(即系统中所有用户的上行速率之和)表示为包含导频分配方式

和功率p两个变量的函数

根据导频分配方式

和功率p的函数

将最优化问题模型简化为：

在公式(4)中，“s.t.”指subject to，表示公式(2)受限制于0＜p_ik≤P_max，P_max表示用户上行链路的最大发射功率；

为全称量词，表示任意小区中的任意用户终端。

返回参见图1，步骤120、将最优化问题模型分解为导频分配子模型和功率控制子模型；

由于优化目标建模得到的最优化问题模型为

和p的组合集合，属于组合优化问题，无法获得联合问题的最优解，因此，本申请将最优化问题模型分解为导频分配子模型和功率控制子模型，将原优化问题分解为导频分配子问题和功率控制子问题进行处理。

步骤130、循环迭代导频分配算法和功率控制算法，得到最优问题模型的近似最优解，确定抑制导频污染的导频分配和功率控制。

具体地，通过给定用户功率分配的情况下，优化导频分配子问题，并通过给定导频分配的情况下，优化功率控制子问题，然后将两个子问题的求解算法进行循环迭代，获得最优化问题模型的近似最优解，得到可以有效抑制导频污染的导频分配和功率控制方案。

导频分配子模型：

具体地，在给定用户功率分配的情况下，优选利用基于分布式Q学习的导频分配算法求解导频分配子问题，具体包括：将导频分配子问题转化为L个并行的基站联合利用多智能体Q学习算法求解最优导频分配方案问题；

需要说明的是，多智能体Q学习算法分为集中式Q学习和分布式Q学习两种；集中式Q学习将所有参加学习的智能体动作统一维护，对该问题而言，联合动作总量也就是穷举后的分配方案数量，导致算法复杂度过高，学习过程可能无法实现。因此在此问题中，本申请优选采用以各个基站为智能体的分布式Q学习算法。

在本申请采用的分布式Q学习的过程中，每个基站维护各自的Q值表，结合Q学习算法的五大要素对导频分配子问题进行建模：

动作：每个智能体都有一个动作集合

第i个智能体动作

其中

是第i个小区中每个用户的导频分配，所有L个智能体的动作之和构成优化目标中的解空间

状态：将由L个六边形蜂窝小区组成的TDD(Time Division Duplexing，时分双工)多小区多用户大规模天线系统作为与智能体进行交互的环境，每个智能体都有各自的状态向量，第i个智能体的状态向量为

代表每个小区中用户导频分配状态；

奖惩信号：智能体选择动作作用于环境，环境通过奖惩信号影响智能体的学习过程，即基站选择某个导频分配方案对MIMO系统产生了作用，根据该作用是否对系统造成正面影响对基站的此次选择进行反馈，进而影响基站下一次的导频分配方案选择；为了实现系统上行和速率最大化，智能体需要在某个状态下采取一定动作后的系统上行和速率，具体为：

在时刻t时，智能体基站i感知到当前MIMO系统环境处在导频分配状态s，该基站选取相应的动作

对本小区内的用户进行导频分配，该动作对系统的上行和速率产生影响，环境状态从s变为s′，并向智能体基站i反馈回报函数

s^t表示t时刻下当前系统的状态，

表示t时刻下智能体i做出的动作，

表示第i个智能体在t时刻下的回报函数；

考虑到不同智能体之间的互相影响，回报函数由各个智能体协同动作决定，因此将第i个智能体在t时刻下状态s^t时选用动作

的回报函数

定为基站i在t时刻选取某种导频分配方案后理想状态中的系统和速率，如下式所示：

在Q学习过程中，智能体根据回报函数更新各自的Q值表，当t+1时刻，新的Q值大于之前t时刻的Q值时，Q值表进行更新，否则不发生变化，Q值计算如下式所示；

在公式(6)中，Q_i ^t+1(s，a_i)为t+1时刻的Q值，Q_i ^t(s，a_i)为t时刻的Q值；α∈(0，1]，表示学习速率，用于衡量Q学习收敛的速度，当α取值较小时，学习耗时较大，反之，算法可能会不收敛；γ为折扣因子，代表回报函数值的衰减程度；

表示t时刻Q值最大的动作，s′_i，a′_i是第i个智能体t时刻的状态和动作选择，A是智能体所有可能采取的动作的有限集合，即各个基站可以采用的导频分配方案，本申请优选设置不同智能体的有限集合相同；

在Q表更新之后，各智能体利用ε贪婪策略进行动作选择，以概率ε在动作空间中随机选择动作向量，或者以概率1-ε的概率选择动作a_i，

ε为[0，1]的随机数，一般情况取0.1；在此过程中智能体i不断优化动作选择策略，该策略代表环境与动作的映射关系，不同的环境状态对应不同的动作选择。

如图3所示，基于分布式Q学习的导频分配算法，具体包括：

步骤210：初始化导频、功率、智能体动作集和Q值表；

具体地，定义每个小区中每个用户终端的导频为c_ik、功率为p_ik，并规定每个智能体的动作集，初始化Q值表，使每个智能体的Q_i(s_i，a_i)＝0。

步骤220：依次遍历每个智能体，并判断为每个智能体生成的随机数是否小于概率ε，如果是，则从智能体动作集中为该智能体任意选择一个动作，否则执行步骤230：

定义每个智能体为i，为第i个智能体产生随机数ξ_i∈[0，1]，若(ξ_i＜ε)，则从智能体动作集中为第i个智能体任意选择一个动作，若(ξ_i≥ε)，则执行步骤230。

步骤230：根据Q值表选择动作a_i，执行动作向量a_i；

定义智能体i在t时刻的Q值为Q^t(s_i，a_i)，根据计算得到的Q值更新Q值表，当第i个智能体产生的随机数(ξ_i≥ε)时，从Q值表中选择动作

并执行动作向量a_i。

步骤240：遍历每个智能体i，根据状态和上次动作获取回报函数R_i(s_i，a_i)，根据回报函数更新Q值表Q_i ^t+1(s_i，a_i)。

本申请采用基于多智能体Q学习的导频分配算法大大降低了算法复杂度，考虑到不同智能体之间的互相影响，回报函数目标由各个智能体协同动作决定，即导频分配子问题的优化目标。

功率控制子模型：

具体地，在给定导频分配方式的情况下，由于优化目标为对数形式，因此优选利用连续凸近似(SCA)算法对目标函数进行转化；对于任意非负数γ和γ₀，满足下式：

log(1+γ)≥f(γ，a，b)＝alog(γ)+b (7)

其中，对于特定值γ₀，

f(γ，a，b)为以γ，a，b为自变量的函数，即：

在公式(8)中，当γ＝γ₀时取等号，式(8)为以γ为变量的一元函数，通过移项求导证明该不等式成立。令

对该式求导可得

当γ＞γ₀时f(γ)递增，当γ＜γ₀时，f(γ)递减，当γ＝γ₀时f(γ)取得极小值0，所以不等式成立。

因此，

在公式(9)中，

a_ik表示

b_ik表示

根据上述凸性近似，使用速率下界近似方法，将优化目标近似为如下优化问题：

推导得到的公式(10)为凸优化问题，利用标准的凸优化工具(如cvx工具)直接求解；需要说明的是，虽然通过连续凸近似方法将优化问题转化为凸优化问题，求解出近似优化问题，但如公式(10)的近似问题仅仅是最大化原优化目标的下界，因此为了进一步提高结果的准确性，在求解过程中通过迭代方式尽可能收紧原优化目标的下界，具体包括，如图4所示：

步骤310：依据初始化用户功率获得最优化问题的值；

本申请采用基于SCA的功率控制算法，输入导频分配方案c_ik，定义每个用户终端到各个基站的大尺度衰落因子β_ijk；定义每个用户的功率p_ik＝P_max，初始化t＝0，定义初始化时优化问题解为p⁽⁰⁾，记Φ[0]为优化问题的解p⁽⁰⁾所对应的最优化问题的值。

步骤320：循环求解优化问题，当优化问题的解满足设定条件时，输出第t次的功率分配结果p^(t)，即优化问题的最优解，以及最优解所对应的最优化问题的值Φ[t]。

t自加1，求解该优化问题，得到第t次的功率分配结果p^(t)与Φ[t]；若计算

与ε，直至

输出计算得到的功率分配结果。

本申请将优化问题分解为两个子问题，得到基于分布式Q学习的导频分配算法和连续凸近似(SCA)算法，根据上述两个算法构造主算法，即联合功率控制和导频分配的导频污染抑制算法，获得用于系统和速率最大化问题的次优联合导频分配和功率控制解决方法，具体包括，如图5所示：

步骤410：初始化各个用户终端的功率；

具体地，将p⁽⁰⁾初始化为等功率分配，定义i＝0，R⁽⁰⁾＝0；

步骤420：根据用户终端的功率计算系统和速率的值，当第i+1次系统和速率的值与第i次结果差值大于或等于误差值ε时，依次交替迭代基于分布式Q学习的导频分配算法和连续凸近似(SCA)算法；

其中，利用基于分布式Q学习的导频分配算法进行导频分配，在导频分配基础上利用连续凸近似(SCA)算法进行功率分配，在该功率分配的基础上再次进行导频分配，依次进行交替迭代，具体为设定误差值ε，当第i+1次系统和速率的值与第i次结果差值小于ε，或i＝0时，循环执行操作：根据基于分布式Q学习的导频分配算法和p^(i-1)获得a⁽ⁱ⁾，再根据连续凸近似(SCA)算法和a⁽ⁱ⁾获得p⁽ⁱ⁾，更新R⁽ⁱ⁾；直至第i+1次系统和速率的值与第i次结果差值大于或等于ε。

步骤430：当第i+1次系统和速率的值与第i次结果差值小于误差值ε时，结束迭代过程，算法结束。

本申请实现的有益效果如下：

(1)采用本申请提供的导频污染的抑制方法，提高了大规模天线系统用户上行和速率，有效地抑制了导频污染问题；

(2)本申请采用对最优化目标建模及对该目标的拆分，实现对无法直接求得最优解的组合优化问题进行分解，获得优化目标的近似最优方案；

(3)利用多智能体分布式Q学习方法进行求解导频分配子问题，将优化问题映射到Q学习过程中，大大降低了算法复杂度，而且考虑到不同智能体之间的互相影响，回报函数目标由各个智能体协同动作决定，得到导频分配子问题的优化目标。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种大规模天线系统中的导频污染抑制方法，其特征在于，包括：

为优化目标建立最优化问题模型；

将最优化问题模型分解为导频分配子模型和功率控制子模型；

循环迭代导频分配子模型和功率控制子模型的求解算法，得到最优化问题模型的近似最优解，确定抑制导频污染的最优导频分配和功率控制；

功率控制子模型的求解算法采用连续凸近似算法，得到凸近似问题如下：

s.t.0＜p_ik≤P_max

其中，p为所有用户的上行导频发射功率构成的矩阵；i的取值为1～L，表示大规模天线系统中的第i个小区，L为小区总数；k的取值为1～K，表示小区内的第k个用户终端，K为小区内的用户终端的总数量；a_ik表示

b_ik表示

p_ik表示第i个小区基站中第k个用户终端的上行导频发射功率，P_max表示用户上行链路的最大发射功率；p_jk′表示第j个小区中第k′个用户终端的上行导频发射功率；c_ik表示第i个小区中第k个用户终端使用的导频序列，c_jk′表示第j个小区中第k′个用户终端使用的导频序列；σ²为高斯白噪声的标准差；

在采用连续凸近似算法求解过程中通过迭代方法最大化收紧原优化目标的下界，具体包括如下子步骤：

依据初始化用户功率获得最优化问题的值；

循环求解优化问题，当优化问题的解满足设定条件时，输出第t次的功率分配结果p^(t)，即优化问题的最优解以及最优解对应的最优化问题的值；

循环求解优化问题输出优化问题的最优解，具体为：在计算完优化问题的初始解Φ[0]后，t自加1，若计算

与ε，直至

输出计算得到的功率分配结果；

导频分配子模型的求解算法采用基于分布式Q学习的导频分配算法，结合Q学习算法对导频分配子问题进行建模，具体包括：

动作：每个智能体都有一个动作集合A，第i个智能体动作

其中

奖惩信号：智能体选择动作作用于环境，环境通过奖惩信号影响智能体的学习过程，将智能体的回报函数定为大规模天线系统基站选取某种导频分配方案后理想状态中的系统和速率；智能体根据回报函数更新各自的Q值表，在Q表更新之后，各智能体需要利用ε贪婪策略进行动作选择，以概率ε在动作空间中随机选择动作向量，或者以概率1-ε的概率选择动作；

导频分配子模型的求解算法采用基于分布式Q学习的导频分配算法，具体包括如下子步骤：

初始化导频、功率、智能体动作集和Q值表；

依次遍历每个智能体：

若为每个智能体生成的随机数小于概率ε，则从智能体动作集中为该智能体任意选择一个动作；若为每个智能体生成的随机数大于或等于概率ε，根据Q值表选择动作a_i，执行动作向量a_i，遍历每个智能体i，根据状态和上次动作获取回报函数，根据回报函数更新Q值表；

根据导频分配子模型和功率控制子模型的求解算法构造联合功率控制和导频分配的导频污染抑制主算法，获得用于系统和速率最大化问题的次优联合导频分配和功率控制解决方法，具体包括如下子步骤：

初始化各个用户终端的功率为等功率分配；

根据用户终端的功率计算系统和速率的值，当第i+1次系统和速率的值与第i次结果差值大于或等于误差值ε时，依次交替迭代基于分布式Q学习的导频分配算法和连续凸近似算法；当第i+1次系统和速率的值与第i次结果差值小于误差值ε时，结束迭代过程，算法结束；

依次交替迭代基于分布式Q学习的导频分配算法和连续凸近似算法，具体为：设定误差值ε，当第i+1次系统和速率的值与第i次结果差值小于ε，或i＝0时，循环执行操作：根据基于分布式Q学习的导频分配算法和p^(i-1)获得a⁽ⁱ⁾，再根据连续凸近似算法和a⁽ⁱ⁾获得p⁽ⁱ⁾，更新R⁽ⁱ⁾；直至第i+1次系统和速率的值与第i次结果差值大于或等于ε。

2.根据权利要求1所述的大规模天线系统中的导频污染抑制方法，其特征在于，为优化目标建模，得到最优化问题模型为：