CN110428115A - 基于深度强化学习的动态环境下的最大化系统效益方法 - Google Patents
基于深度强化学习的动态环境下的最大化系统效益方法 Download PDFInfo
- Publication number
- CN110428115A CN110428115A CN201910741705.1A CN201910741705A CN110428115A CN 110428115 A CN110428115 A CN 110428115A CN 201910741705 A CN201910741705 A CN 201910741705A CN 110428115 A CN110428115 A CN 110428115A
- Authority
- CN
- China
- Prior art keywords
- uav
- user
- terminal
- mobile
- unmanned plane
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
- G06Q10/047—Optimisation of routes or paths, e.g. travelling salesman problem
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Human Resources & Organizations (AREA)
- Theoretical Computer Science (AREA)
- Economics (AREA)
- General Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Biomedical Technology (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- Development Economics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Operations Research (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本发明设计了一种基于深度强化学习的移动边缘计算架构下为动态用户提供低延时高可靠的计算服务的无人机路径规划方法。考虑无人驾驶飞机具有便捷的基础设施,且可在偏远或灾难区域快速搭建通信渠道,也可架栽计算资源为终端移动用户提供服务,因此考虑将无人机当作移动计算服务器,在终端移动用户的上方为其提供高效的交互服务。本发明考虑到终端用户的实时移动,将其建模成高斯‑马尔科夫移动模型,再通过对用户位置状态、无人机位置状态、无人机电池量状态以及无人机与用户之间的信道状态进行建模,结合深度强化学习算法规划无人机路径最大化系统长期效益。
Description
技术领域
本发明涉及通信行业的移动边缘计算领域,现在正在兴起的无人机领域,以及计算机行业的基于神经网络的深度强化学习算法领域。
背景技术
随着通信技术的高速发展,为了给终端实时移动用户提供高质量服务,坐落于网络系统边缘区域的移动边缘技术(Mobile Edge Computing,MEC)应运而生,其可利用无线接入网络就近提供终端移动用户所需的高性能、低延迟与高带宽服务,让终端用户享有不间断的高质量网络体验。然而,近年来随着终端用户智能设备的指数级增长,其产生的数据服务请求数量也随之激增,传统的移动边缘计算服务已无法为终端用户提供所需的计算服务。同时,可利用无线电遥控设备和自备的程序控制装置操纵的不载人飞机—无人机(Unmanned Aerial Vehicle,UAV)引起广泛关注。基于无人机的移动边缘计算框架能够在敌对环境中提供更加灵活、成本更低的计算服务,它不需要其他基础设施便可作为移动云层设备,所以基于无人机的移动边缘技术架构能够为用终端移动户提供更好的计算服务。
本发明将对基于终端用户实时移动,并考虑用户公平性约束和无人机能量约束的无人机协助的移动边缘计算架构的最大化系统长期奖励方法,合理规划无人机路径算法进行说明。
发明内容
发明目的:基于终端用户实时移动性的无人机路劲规划算法,考虑终端移动用户的公平性约束和无人机的能量约束两种限制条件,本发明设计了一种基于深度强化学习的最大化系统长期奖励。
技术方案:本发明提出的无人机路径规划方法,主要包括以下几个步骤。
步骤一:建立用户移动模型(Gauss-Markov Random Model,GMRM)
本发明的系统模型中包含N个初始位置随机分布的用户,考虑高斯-马尔科夫移动模型,第n个用户的速度vn(t)与角度θn(t)分别为:
其中κ1,κ2用来调整先前状态对当前时刻状态的影响程度。所以,第t时刻的din个用户的位置状态为:
此外,无人机仅可在空中的M个固定感知接入点(Fixed Perceptual AccessPoints,FPAPs)盘旋为终端移动用户提供计算服务,因此第t时刻无人机的位置状态为:
步骤二:建立无人机能量消耗模型
无人机在消耗完一次自身电池量服务终端移动用户之前,每次服务都会产生三种能量消耗:
·无人机飞行能耗:考虑无人机固定飞行速度V以及飞行功率Pf,第t时刻的无人机飞行能耗只与无人机每个时隙的从一个FPAP给到另一个FPAP的飞行距离相关
·无人机盘旋能耗:第t时刻,无人机在第m个固定点服务第n个终端移动用户,考虑他们之间的信道为Line-of-sight,则用户上传任务量μi(t)的速度为:
其中Pt为用户端固定传输功率。考虑无人机飞行固定高度H,ρ0为每米的信道增益,则信道增益cnm(t)为
且每个任务的比特数为Nb,所以无人机的在t时刻的盘旋能耗为
·无人机计算能耗:
第t时刻,考虑有效电容CPU转速C,无人机计算频率fc,所以无人机计算能耗为
ec(t)=γcC(fC)2μn(t)Nb
因此,在t时刻,无人机的总能耗为W(t)=ef(t)+eh(t)+ec(t)
则无人机的剩余能量为b(t)=b(t-1)-W(t)
步骤三:约束条件
·无人机能量约束:无人机在服务终端移动用户期间所消耗的能量必须小于自身所有的电池总量B
·终端移动用户公平性约束:为保证所有终端用户都能被无人机服务到,本发明设定了每个用户必须迁移的任务量最低阈值Z
步骤四:将问题建立成马尔科夫过程
·系统状态集S:每个时刻的状态包含所有终端用户位置,当前时刻无人机位置,无人机与终端用户之间的信道状态以及无人机能量状态,则当前系统的状态空间为
·系统动作集A:考虑到无人机与用户关联,每个时刻无人机采取的决策包含先决定服务哪个终端移动用户,再决定飞往哪个点为其提供计算迁移服务,则当前系统的动作空间为At={at|at=an,m(t)}
·系统即时奖励函数R:
(1)无人机处理终端移动用户迁移上来的任务量会获得正奖励
(2)同时将无人机产生的能耗W(t)作为系统负奖励
因此,系统的即时奖励定义为Rt+1=U(μn(t))-ψW(t)
解决方法-深度强化学习(Double Deep Q-Network,DDQN)
因系统状态及动作集较大,本发明采用神经网络近似状态动作值函数,再结合基于值迭代的强化学习算法做出最优策略,从而规划无人机路径。
由于基于Q表查询的值迭代强化学习算法在系统状态集和动作集服从大的情况下,及其消耗内存且极其耗时,因此本发明采用神经网络架构近似该系统的状态动作值函数,以便基于值迭代的强化学习算法在选择动作时依据该值函数进行动作选择。同时,基于神经网络的深度强化学习算法如Deep Q-Network(DQN),由于每次动作选择时会有大概率选择当前状态下对应Q值最大的动作,一般会存在过估计问题。因此,本设计中采用DoubleDeep Q-Network(DDQN),其中包含两个独立的神经网络模块,解决DQN存在的过拟合问题。
基于深度强化学习的最大化系统长期奖励算法的流程如下:
·初始化神经网络参数以及动作选择策略参数
·初始化系统状态s
·根据动作选择策略选择动作a
·得到当前状态动作对的及时奖励,并且转移到下一个状态s'
·将当前状态转移对(s,a,r,s’)存在记忆库中
·从记忆库中抽取小样本训练神经网络更新参数近似状态动作值函数
附图说明
图1是方法流程图,
图2是系统模型图,
图3是DDQN流程图。
具体实施方式
下面将结合附图中的本设计的方法流程图、系统模型图、以及具体算法框架图,进一步阐明本发明的相关内容,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域方法人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
本发明着重于基于深度强化学习算法为边缘计算架构中将无人机当作移动边缘服务器为终端实时移动用户提供高可靠低时延的计算服务时的无人机进行合理高效路径规划设计。
作为一种实施例,所述方法中需考虑:
■终端实时移动用户的移动模型——模拟真实用户在移动时的速度、角度变化;
■无人机的能耗模型——合理建立飞行能耗模型、盘旋能耗模型和计算能耗模型;
■合理建立目标方程与用户任务量以及无人机能耗之间的关系;
■将优化问题建模成马尔科夫决策过程,再利用深度强化学习算法求解最优策略;
■深度强化学习算法中,先用神经网络近似系统的状态当作值函数,再结合基于值迭代的强化学习算法基于每个时刻的状态动作值做出最优决策,从而最大化系统长期奖励以做出最合理高效的无人机路劲规划。
Claims (2)
1.基于深度强化学习的动态环境下的最大化系统效益方法,其特征在于:考虑终端用户的实时移动性,将其建模成高斯-马尔科夫移动模型,合理考虑终端用户的实时移动,在此基础上考虑无人机路径规划问题为其提供计算服务,考虑用户端的相对公平性和无人机的能量约束,无人机在每个时隙所做出的决策都合理分配自身的能量在满足用户公平性的前提下服务用户,从而最大化系统长期奖励。
2.如权利要求1所述的基于深度强化学习的动态环境下的最大化系统效益方法,其特征在于:采用强化学习的方法寻找最优解,先将问题建模成马尔科夫决策过程,再用神经网络去近似状态动作值函数,然后基于强化学习求解最优策略,从而规划无人机路径。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910741705.1A CN110428115A (zh) | 2019-08-13 | 2019-08-13 | 基于深度强化学习的动态环境下的最大化系统效益方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910741705.1A CN110428115A (zh) | 2019-08-13 | 2019-08-13 | 基于深度强化学习的动态环境下的最大化系统效益方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110428115A true CN110428115A (zh) | 2019-11-08 |
Family
ID=68415660
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910741705.1A Pending CN110428115A (zh) | 2019-08-13 | 2019-08-13 | 基于深度强化学习的动态环境下的最大化系统效益方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110428115A (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111123963A (zh) * | 2019-12-19 | 2020-05-08 | 南京航空航天大学 | 基于强化学习的未知环境自主导航系统及方法 |
CN111506104A (zh) * | 2020-04-03 | 2020-08-07 | 北京邮电大学 | 一种规划无人机位置的方法及装置 |
CN111552313A (zh) * | 2020-04-29 | 2020-08-18 | 南京理工大学 | 基于边缘计算动态任务到达的多无人机路径规划方法 |
CN111585637A (zh) * | 2020-04-17 | 2020-08-25 | 长沙理工大学 | 一种基于边缘计算系统的无人机任务卸载和资源分配方法 |
CN111625360A (zh) * | 2020-05-26 | 2020-09-04 | 多伦科技股份有限公司 | 一种基于平面分离的车辆大数据边缘计算卸载方法 |
CN112118556A (zh) * | 2020-03-02 | 2020-12-22 | 湖北工业大学 | 基于深度强化学习的无人机轨迹及功率联合优化方法 |
CN113032904A (zh) * | 2021-03-22 | 2021-06-25 | 北京航空航天大学杭州创新研究院 | 模型构建方法、任务分配方法、装置、设备及介质 |
CN113255218A (zh) * | 2021-05-27 | 2021-08-13 | 电子科技大学 | 无线自供电通信网络的无人机自主导航及资源调度方法 |
CN113938830A (zh) * | 2021-09-24 | 2022-01-14 | 北京邮电大学 | 无人机基站部署方法及装置 |
CN114268986A (zh) * | 2021-12-14 | 2022-04-01 | 北京航空航天大学 | 一种无人机计算卸载与充电服务效能优化方法 |
CN114372612A (zh) * | 2021-12-16 | 2022-04-19 | 电子科技大学 | 面向无人机移动边缘计算场景的路径规划和任务卸载方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109655066A (zh) * | 2019-01-25 | 2019-04-19 | 南京邮电大学 | 一种基于Q(λ)算法的无人机路径规划方法 |
WO2019085430A1 (zh) * | 2017-11-03 | 2019-05-09 | 深圳市道通智能航空技术有限公司 | 无人飞行器的控制方法和终端 |
-
2019
- 2019-08-13 CN CN201910741705.1A patent/CN110428115A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019085430A1 (zh) * | 2017-11-03 | 2019-05-09 | 深圳市道通智能航空技术有限公司 | 无人飞行器的控制方法和终端 |
CN109655066A (zh) * | 2019-01-25 | 2019-04-19 | 南京邮电大学 | 一种基于Q(λ)算法的无人机路径规划方法 |
Non-Patent Citations (2)
Title |
---|
JUN LI 等: "Task Offloading for UAV-based Mobile Edge Computing via Deep Reinforcement Learning", 《2018 IEEE/CIC INTERNATIONAL CONFERENCE ON COMMUNICATIONS IN CHINA (ICCC)》 * |
SUVADIP BATABYAL 等: "Mobility Models, Traces and Impact of Mobility on Opportunistic Routing Algorithms: A Survey", 《IEEE COMMUNICATION SURVEYS & TUTORIALS》 * |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111123963A (zh) * | 2019-12-19 | 2020-05-08 | 南京航空航天大学 | 基于强化学习的未知环境自主导航系统及方法 |
CN112118556A (zh) * | 2020-03-02 | 2020-12-22 | 湖北工业大学 | 基于深度强化学习的无人机轨迹及功率联合优化方法 |
CN112118556B (zh) * | 2020-03-02 | 2022-11-18 | 湖北工业大学 | 基于深度强化学习的无人机轨迹及功率联合优化方法 |
CN111506104B (zh) * | 2020-04-03 | 2021-10-01 | 北京邮电大学 | 一种规划无人机位置的方法及装置 |
CN111506104A (zh) * | 2020-04-03 | 2020-08-07 | 北京邮电大学 | 一种规划无人机位置的方法及装置 |
CN111585637A (zh) * | 2020-04-17 | 2020-08-25 | 长沙理工大学 | 一种基于边缘计算系统的无人机任务卸载和资源分配方法 |
CN111552313A (zh) * | 2020-04-29 | 2020-08-18 | 南京理工大学 | 基于边缘计算动态任务到达的多无人机路径规划方法 |
CN111552313B (zh) * | 2020-04-29 | 2022-06-28 | 南京理工大学 | 基于边缘计算动态任务到达的多无人机路径规划方法 |
CN111625360A (zh) * | 2020-05-26 | 2020-09-04 | 多伦科技股份有限公司 | 一种基于平面分离的车辆大数据边缘计算卸载方法 |
CN111625360B (zh) * | 2020-05-26 | 2023-09-05 | 多伦科技股份有限公司 | 一种基于平面分离的车辆大数据边缘计算卸载方法 |
CN113032904B (zh) * | 2021-03-22 | 2021-11-23 | 北京航空航天大学杭州创新研究院 | 模型构建方法、任务分配方法、装置、设备及介质 |
CN113032904A (zh) * | 2021-03-22 | 2021-06-25 | 北京航空航天大学杭州创新研究院 | 模型构建方法、任务分配方法、装置、设备及介质 |
CN113255218B (zh) * | 2021-05-27 | 2022-05-31 | 电子科技大学 | 无线自供电通信网络的无人机自主导航及资源调度方法 |
CN113255218A (zh) * | 2021-05-27 | 2021-08-13 | 电子科技大学 | 无线自供电通信网络的无人机自主导航及资源调度方法 |
CN113938830A (zh) * | 2021-09-24 | 2022-01-14 | 北京邮电大学 | 无人机基站部署方法及装置 |
CN114268986A (zh) * | 2021-12-14 | 2022-04-01 | 北京航空航天大学 | 一种无人机计算卸载与充电服务效能优化方法 |
CN114372612A (zh) * | 2021-12-16 | 2022-04-19 | 电子科技大学 | 面向无人机移动边缘计算场景的路径规划和任务卸载方法 |
CN114372612B (zh) * | 2021-12-16 | 2023-04-28 | 电子科技大学 | 面向无人机移动边缘计算场景的路径规划和任务卸载方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110428115A (zh) | 基于深度强化学习的动态环境下的最大化系统效益方法 | |
Yu et al. | Multi-objective optimization for UAV-assisted wireless powered IoT networks based on extended DDPG algorithm | |
Chen et al. | Deep reinforcement learning based resource allocation in multi-UAV-aided MEC networks | |
US11703853B2 (en) | Multiple unmanned aerial vehicles navigation optimization method and multiple unmanned aerial vehicles system using the same | |
Liu et al. | Path planning for UAV-mounted mobile edge computing with deep reinforcement learning | |
Do et al. | Deep reinforcement learning for energy-efficient federated learning in UAV-enabled wireless powered networks | |
WO2020147456A1 (zh) | 无人机路径优化方法、设备及存储介质 | |
CN113395654A (zh) | 一种边缘计算系统的多无人机任务卸载和资源分配的方法 | |
CN114690799A (zh) | 基于信息年龄的空天地一体化无人机物联网数据采集方法 | |
CN115659803A (zh) | 一种无人机孪生网络映射误差情况下计算任务智能卸载方法 | |
CN114020024B (zh) | 基于蒙特卡洛树搜索的无人机路径规划方法 | |
CN113254188B (zh) | 调度优化方法和装置、电子设备及存储介质 | |
CN109885088A (zh) | 边缘计算网络中基于机器学习的无人机飞行轨迹优化方法 | |
CN110794965B (zh) | 一种基于深度强化学习的虚拟现实语言任务卸载方法 | |
CN110458283A (zh) | 基于深度强化学习的静态环境下的最大化全局吞吐量方法 | |
CN114339842B (zh) | 基于深度强化学习无人机集群在时变场景下动态轨迹设计方法和装置 | |
CN113852994A (zh) | 一种用于应急通信中的高空基站集群辅助边缘计算方法 | |
WO2024169204A1 (zh) | 一种物联网中基于信息年龄的无人机辅助数据采集方法 | |
Liu et al. | Task offloading optimization of cruising UAV with fixed trajectory | |
CN113485409A (zh) | 一种面向地理公平性的无人机路径规划分配方法及系统 | |
Wang et al. | Trajectory optimization and power allocation scheme based on DRL in energy efficient UAV‐aided communication networks | |
CN117647995A (zh) | 基于深度强化学习的物流无人机轨迹设计方法及系统 | |
Shi et al. | Energy-efficient UAV-enabled computation offloading for industrial internet of things: a deep reinforcement learning approach | |
Yang et al. | RS-DRL-based offloading policy and UAV trajectory design in F-MEC systems | |
CN114594793B (zh) | 一种基站无人机的路径规划方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191108 |