CN115985514B - 一种基于双通道强化学习的败血症治疗系统 - Google Patents
一种基于双通道强化学习的败血症治疗系统Info
- Publication number
- CN115985514B CN115985514B CN202310025880.7A CN202310025880A CN115985514B CN 115985514 B CN115985514 B CN 115985514B CN 202310025880 A CN202310025880 A CN 202310025880A CN 115985514 B CN115985514 B CN 115985514B
- Authority
- CN
- China
- Prior art keywords
- patient
- value
- neural network
- reward
- treatment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Abstract
本发明涉及一种基于双通道强化学习的败血症治疗系统,属于生物医学技术领域。该系统结合了一个全连接神经网络和一个长短期记忆神经网络,其中全连接神经网络用于捕获患者当前的生理状态,长短期记忆神经网络用于代表患者的治疗历史,包括状态、行动和奖励;该系统包括:马尔可夫决策模块、双通道数据流模块、深度强化学习模块、离线策略评估模块;马尔可夫决策模块将整个疾病治疗过程构建为马尔可夫决策过程,选择患者的历史治疗病历构建强化学习模型的输入数据库,包括状态值、动作值和奖励函数。与现有技术相比,本系统通过学习患者的历史和当前时刻的生理信息,可以更好的捕获患者生理特征的动态变化,丰富寻找最优策略的学习过程,性能更优。
Description
技术领域
本发明属于生物医学技术领域,涉及一种基于双通道强化学习的败血症治疗系统。
背景技术
败血症,又称败血症,是一种由感染破坏人体器官引起而危及患者生命的疾病,是重症监护病房(ICU)患者死亡的主要原因。它已成为全球最致命的疾病之一,其死亡率为高达20%的。目前,静脉注射液体(IV)和最大血管加压药(VP)是治疗败血症的主要药物。不幸的是,对于如何处理药物的时间、剂量或类型,目前还没有普遍的共识。此外,不同败血症患者的身体素质的不同,往往导致治疗上更显著的差异。即使是同一个败血症患者,在败血症的不同阶段给予的治疗药物也是不同的。因此,医生甚至是那些有经验的医生,为败血症患者制定最佳的治疗指南仍然是一项重大的挑战。
为了应对这一挑战,深度强化学习已经被应用在制定败血症的最佳治疗策略中,并取得了显著的结果。强化学习(RL)技术将疾病治疗过程形式化为一个序列决策过程,通过与环境互动或仅使用以前的经验来学习最佳策略。近年来,一些基于强化学习的个性化治疗策略被提出,目的是通过在治疗过程中动态调整药物管理,提供最佳的治疗指南。例如,一些工作将治疗过程构建为马尔科夫决策过程,基于患者当前时刻的生理信息,制定最佳的治疗策略。也有一些工作使用不同的编码方式对患者的历史生理信息进行编码,旨在学习一个有效的生理特征。然而,这些方法仅根据患者当前的状态或整个病史来制定治疗策略。因此,它可能会在学习过程中导致数据信息的丢失。
因此,有必要重点解决如何高效构建一个丰富的患者信息表示,以捕获患者治疗过程中的不确定性。
发明内容
有鉴于此,本发明的目的在于提供一种基于双通道强化学习的败血症治疗系统,该系统通过考虑当前的生理状态和历史决策信息,构建一个更好的包含丰富信息的表示,以捕获患者状态的不确定性。
为达到上述目的,本发明提供如下技术方案:
一种基于双通道强化学习的败血症治疗系统,该系统结合了一个全连接(FC)神经网络和一个长短期记忆(LSTM)神经网络,其中全连接神经网络用于捕获患者当前的生理状态,长短期记忆(LSTM)神经网络用于代表患者的治疗历史,包括状态、行动和奖励;该系统具体包括:马尔可夫决策模块、双通道数据流模块、深度强化学习模块、离线策略评估模块;所述马尔可夫决策模块将整个疾病治疗过程构建为马尔可夫决策过程,选择患者的历史治疗病历构建强化学习模型的输入数据库,包括状态值、动作值和奖励函数;所述双通道数据流模块选取多个批次(batch)的数据,并将当前时刻的状态值输入到全连接(FC)神经网络中,上一个时刻的状态值、动作值和奖励值输入到长短期记忆(LSTM)神经网络中,来构建双通道数据流机制;所述深度强化学习模块进行决策学习,通过输入双通道数据流模块数据,更好捕获患者每一时刻的生理变;所述离线策略评估模块对深度强化学习模块的策略进行评估,减少Q值方差较大的影响,并对于测试集中的每个患者的轨迹,计算学习策略的值和平均结果的无偏估计。
进一步,系统中马尔可夫决策模块将整个疾病治疗过程构建为马尔可夫决策过程,选择患者的历史治疗病历构建强化学习模型的输入数据库,包括状态值、动作值和奖励函数;其中状态值是收集患者在治疗每一时刻的48维生理特征,动作值是静脉输液IV和最大血管加压药VP的联合使用,在给定的4小时窗口内将IV和VP分散到5个箱子中,得到一个5×5的离散动作空间,奖励函数是使用顺序器官衰竭评估(SOFA)评分和患者乳酸水平作为强化学习优化的中间目标,以跟踪患者随时间的生理健康变化,同时在整个治疗结束对生存患者添加+15的奖励,对死亡患者添加-15的奖励。
进一步,本系统使用的数据是患者的治疗病历,分别提取患者每一时刻的生理特征信息、治疗策略和对应的生理指标变化值如连续性器官衰竭评估值(SOFA)和乳酸水平,构建状态值s,动作值a和奖励函数r;
所述奖励函数定义如下:
其中和表示t时刻的SOFA评分和乳酸水平,C0=-0.025,C1=-0.125,C2=-2;对于最终奖励,对最终存活的患者使用+15正奖励,对死亡患者使用-15负奖励。
进一步,所述双通道数据流模块,用于从患者当前和历史的治疗决策信息序列中学习最佳的治疗策略,具体来说,使用全连接(FC)神经网络来学习患者的当前状态,使用长短期记忆(LSTM)神经网络来学习在t-1时刻的生理信息,最后,将两个网络的输出作为最终Q值;假设在t时刻,状态为st,动作为at,奖励函数为rt,则双通道DRL的Q值为:
Q(st,at;θ,μ)=Qf(st,at;θ)+Ql(st-1,at-1,rt-1;μ) (2)
其中θ和μ分别表示全连接(FC)神经网络和长短期记忆(LSTM)神经网络的权值参数。
进一步,本系统为加速学习,采用优先经验回放技术,该技术对之前观察到的错误样本进行了优先级排序,该网络的损失函数为:
L(θ)=E[[(Qtarget-Q(s,a;θ,μ))2] (3)
其中
Qtarget=r+γQ(s′,argmaxa'Q(s′,a′;θ,μ);θ′,μ′) (4)
其中θ和θ′为FC的权重参数,μ和μ′为LSTM的权重参数;此外,为了鼓励网络模型在每个给定状态下学习最优Q值,在标准Q网络的损失函数中添加了一个正则化项λ,以惩罚超过奖励阈值Rmax的Q值,最后的损失函数为:
L(θ)=E[{(Qtarget-Q(s,a;θ))2]+λ·|Q(s,a;θ)-Rmax| (5)
其中Rmax=±15是在一个终端时间步长上的奖励或惩罚的绝对值。
本发明的有益效果在于:
与现有的技术相比,本系统通过学习患者的历史和当前时刻的生理信息,可以更好的捕获患者生理特征的动态变化,丰富寻找最优策略的学习过程,性能明显优于现有其他技术。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
图1为本发明的框架示意图;
图2为测试数据中预期回报与死亡率风险之间的关系示意图,奖励的值范围为-15到15,值越高表示死亡率越高,值越低表示死亡率越;
图3为不同模型在测试集上可能采取的所有操作的比较结果图,横坐标和纵坐标分别表示血管升压药和静脉输液的药物剂量,其中0表示未给药,4表示给药的最大剂量。
具体实施方式
下面结合附图对本发明技术方案进行详细说明。
本发明框架如图1所示。系统首先对数据进行预处理,提取需要使用的数据信息,然后构建基于双通道数据流机制的强化学习模型来从数据信息中学习策略,最后使用离线策略评估器对学习的策略进行评估。
在本实施例中,使用的数据是患者的治疗病历,分别提取患者每一时刻的生理特征信息、治疗策略和对应的生理指标变化值如连续性器官衰竭评估值(SOFA)和乳酸水平,构建状态值s,动作值a和奖励函数r。
奖励函数定义如下:
其中和表示t时刻的SOFA评分和乳酸水平,C0=-0.025,C1=-0.125,C2=-2。对于最终奖励,对最终存活的患者使用+15正奖励,对死亡患者使用-15负奖励。
本发明所提出的双通道DRL模块,用于从患者当前和历史的治疗决策信息序列中学习最佳的治疗策略。具体来说,使用FC网络来学习患者的当前状态,使用LSTM网络来在学习在t-1时刻的生理信息。最后,将FC和LSTM网络的输出作为最终Q值。假设在t时刻,状态为st,动作为at,奖励函数为rt,则双通道DRL的Q值为:
Q(st,at;θ,μ)=Qf(st,at;θ)+Ql(st-1,at-1,rt-1;μ) (2)
其中θ和μ分别表示FC和LSTM的权值参数。
为了加速学习,本系统采用了优先经验回放技术,该技术对之前观察到的错误样本进行了优先级排序。该网络的损失函数为:
L(θ)=E[[(Qtarget-Q(s,a;θ,μ))2] (3)
其中
Qtarget=r+γQ(s′,argmaxa'Q(s′,a′;θ,μ);θ′,μ′) (4)
其中θ和θ′为FC的权重参数,μ和μ′为LSTM的权重参数。此外,为了鼓励网络模型在每个给定状态下学习最优Q值,本系统在标准Q网络的损失函数中添加了一个正则化项λ,以惩罚超过奖励阈值Rmax的Q值。最后的损失函数是:
L(θ)=E[{(Qtarget-Q(s,a;θ))2]+λ·|Q(s,a;θ)-Rmax| (5)
其中Rmax=±15是在一个终端时间步长上的奖励或惩罚的绝对值。
本实施例中,本发明使用了来自重症监护医疗(MIMIC-III V1.4)数据集的数据,这是一个免费获得的数据,包括2001年至2012年在ICU住院的患者的治疗记录。遵循之前工作的指南,生成了一个符合败血症-3标准的数据队列,共获得19653例患者。提取的主要标准包括年龄在18岁至89岁之间,住院时间超过24小时的患者。此外,收集了患者的48维生理特征,并剔除缺失值大于20%的变量,以确保数据计算的准确性。还记录了患者在治疗期间的给药情况和死亡率。在这项工作中,关注住院死亡率,因为患者出院后的死亡率可能会受到其他未观察到的因素的影响。
数据集被随机打乱,并按70%、10%和20%的比例随机分为训练集、验证集和测试集。本发明提出的模型的体系结构由循环的LSTM和FC神经网络层组成。LSTM有1层,隐藏单元数为128个。FC有两个隐藏层,每个层有128个神经元,在上一层的激活函数后使用批归一化。此外,使用Adam优化器来解决优化问题,学习速率为0.0001。批处理大小和历元分别设置为32和60000。
为了找到临床医生对患者的不同给药策略和治疗结果之间的映射关系,本发明使用SARSA来估计医生政策的预期回报与患者死亡风险之间的关系。具体来说,从-15到+15,将它划分为多个步长的离散桶。SRASA在测试集上获得的Q值分布到离散桶中,在患者死亡的情况下,为每个Q值标记为1,否则标记为0。最后,如图2所示,计算每个箱子中的平均死亡率,以得到患者死亡率与预期结果之间的关系。测试集中的预期回报与患者的死亡风险成反比,如预期的那样,预期值越大,死亡几率就越低。如表1所示,使用图2中得到的值来计算基于四种政策的平均预期回报和相应的死亡率。
表1在SARSA、Dueling DDQN、AD-DDQN和本发明下的预期回报和估计死亡率的比较。
方法 | 预期回报 | 死亡率(%) |
SARSA | 7.17 | 12.12±0.5 |
Dueling DDQN | 10.71 | 12.28±0.5 |
AD-DDQN | 9.98 | 12.28±0.5 |
Our method(本发明) | 14.04 | 5.45±0.5 |
医生政策的估计值为7.17,相应的死亡率为12.12%。Dueling DDQN和AD-DDQN通过在连续状态空间中保留更多的患者生理信息,可以获得更高的预期回报,但相应的死亡率较低。从表1中可以看出,本发明的性能优于其他方案,预期回报率为14.04,死亡率为5.45%。与医生的政策相比,本发明减少了6.67%的死亡率。这些结果表明,本发明学习的学习患者的历史治疗信息与当前生理信息可以产生更高的预期回报。
图3显示了不同模型在测试集上可能采取的所有操作的比较结果。动作(0,0)表示血管加压药和静脉输液的剂量为0,数字指数值越大表示对应的药物剂量越高,其中数字指数值用0-4的整数值表示。如图3所示,医生推断出的最佳治疗策略是动作(0,0),即不给予血管升压药和静脉输液。这一结果是可靠的,因为在使用的数据中,轻症患者的比例比重症患者更显著。在实际治疗中,过度使用静脉输液,特别是血管升压药,会对败血症患者的造成不可逆的损害。只有当患者病情恶化时,医生才会建议患者使用更高剂量的血管升压药。通过Dueling DDQN到的最佳治疗策略是作用(0,3),而通过本发明发现的最佳药物组合是动作(0,3),两者都可以学习到不需要血管升压药物的治疗策略。这些结果表明,本发明可以充分利用状态特征提供的丰富信息,推断出接近医生的最优策略。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (2)
1.一种基于双通道强化学习的败血症治疗系统,其特征在于:该系统结合了一个全连接神经网络和一个长短期记忆神经网络,其中全连接神经网络用于捕获患者当前的生理状态,长短期记忆神经网络用于代表患者的治疗历史,包括状态、行动和奖励;
该系统具体包括:马尔可夫决策模块、双通道数据流模块、深度强化学习模块、离线策略评估模块;所述马尔可夫决策模块将整个疾病治疗过程构建为马尔可夫决策过程,选择患者的历史治疗病历构建强化学习模型的输入数据库,包括状态值、动作值和奖励函数;所述双通道数据流模块选取多个批次的数据,并将当前时刻的状态值输入到全连接神经网络中,上一个时刻的状态值、动作值和奖励值输入到长短期记忆神经网络中,来构建双通道数据流机制;所述深度强化学习模块进行决策学习,通过输入双通道数据流模块数据,更好捕获患者每一时刻的生理状态变化;所述离线策略评估模块对深度强化学习模块的策略进行评估,减少Q 值方差较大的影响,并对于测试集中的每个患者的轨迹,计算学习策略的值和平均结果的无偏估计;
所述马尔可夫决策模块将整个疾病治疗过程构建为马尔可夫决策过程,选择患者的历史治疗病历构建强化学习模型的输入数据库,包括状态值、动作值和奖励函数;其中状态值是收集患者在治疗每一时刻的48 维生理特征,动作值是静脉输液IV 和最大血管加压药VP的联合使用,在给定的4 小时窗口内将IV 和VP分散到5 个箱子中,得到一个5×5 的离散动作空间,奖励函数是使用顺序器官衰竭评估评分和患者乳酸水平作为强化学习优化的中间目标,以跟踪患者随时间的生理健康变化,同时在整个治疗结束对生存患者添加+15 的奖励,对死亡患者添加-15 的奖励;
所述本系统使用的数据是患者的治疗病历,分别提取患者每一时刻的生理特征信息、治疗策略和对应的生理指标变化值如连续性器官衰竭评估值和乳酸水平,构建状态值s,动作值a 和奖励函数r;
所述奖励函数定义如下:
其中和表示t 时刻的SOFA 评分和乳酸水平,C0=-0.025,C1=-0.125,C2=-2;对于最终奖励,对最终存活的患者使用+15 正奖励,对死亡患者使用-15负奖励;
所述双通道数据流模块,用于从患者当前和历史的治疗决策信息序列中学习最佳的治疗策略,具体来说,使用全连接神经网络来学习患者的当前状态,使用长短期记忆神经网络来学习在t-1 时刻的生理信息,最后,将两个网络的输出作为最终Q 值;假设在t 时刻,状态为st,动作为at,奖励函数为rt,则双通道DRL 的Q 值为:
其中θ和μ分别表示全连接神经网络和长短期记忆神经网络的权值参数。
2.根据权利要求1所述的基于双通道强化学习的败血症治疗系统,其特征在于: 本系统为加速学习,采用优先经验回放技术,该技术对之前观察到的错误样本进行了优先级排序,该网络的损失函数为:
其中
其中θ和θ′为FC 的权重参数,μ和μ′为LSTM 的权重参数;此外,为了鼓励网络模型在每个给定状态下学习最优Q 值,在标准Q 网络的损失函数中添加了一个正则化项λ,以惩罚超过奖励阈值Rmax 的Q 值,最后的损失函数为:
其中Rmax=±15 是在一个终端时间步长上的奖励或惩罚的绝对值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310025880.7A CN115985514B (zh) | 2023-01-09 | 一种基于双通道强化学习的败血症治疗系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310025880.7A CN115985514B (zh) | 2023-01-09 | 一种基于双通道强化学习的败血症治疗系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115985514A CN115985514A (zh) | 2023-04-18 |
CN115985514B true CN115985514B (zh) | 2025-04-01 |
Family
ID=
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109886347A (zh) * | 2019-02-28 | 2019-06-14 | 泉州师范学院 | 基于rbf和lstm模型的多因素网络的血压预测方法 |
CN114496235A (zh) * | 2022-04-18 | 2022-05-13 | 浙江大学 | 一种基于深度强化学习的血透患者干体重辅助调节系统 |
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109886347A (zh) * | 2019-02-28 | 2019-06-14 | 泉州师范学院 | 基于rbf和lstm模型的多因素网络的血压预测方法 |
CN114496235A (zh) * | 2022-04-18 | 2022-05-13 | 浙江大学 | 一种基于深度强化学习的血透患者干体重辅助调节系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Tejedor et al. | Reinforcement learning application in diabetes blood glucose control: A systematic review | |
Kang et al. | Development of a prediction model for hypotension after induction of anesthesia using machine learning | |
US20250014752A1 (en) | Methods and systems for severity calculator | |
Kilic et al. | Machine learning approaches to analyzing adverse events following durable LVAD implantation | |
Zampieri et al. | Conditional treatment effect analysis of two infusion rates for fluid challenges in critically ill patients: a secondary analysis of balanced solution versus saline in intensive care study (BaSICS) trial | |
CN116230158B (zh) | 一种疼痛评估及用药预测系统及其使用方法 | |
CN114732402A (zh) | 一种基于大数据的糖尿病数字化健康管理系统 | |
CN115985514B (zh) | 一种基于双通道强化学习的败血症治疗系统 | |
CN116564487A (zh) | 一种医疗评测的方法及装置、电子设备和存储介质 | |
Yang et al. | A deep learning method for intraoperative age-agnostic and disease-specific cardiac output monitoring from arterial blood pressure | |
Celik et al. | Deep learning approaches for type-1 diabetes: Blood glucose prediction | |
Barry et al. | Predicting glaucoma surgical outcomes using neural networks and machine learning on electronic health records | |
CN118366604A (zh) | 一种基于在线强化学习的血糖调控方法 | |
Mohamed et al. | Evidence-based prediction of Atrial Fibrillation using physiological signals | |
CN115985514A (zh) | 一种基于双通道强化学习的败血症治疗系统 | |
CN117174274A (zh) | 一种糖尿病足介入手术后患者智能访问系统 | |
Mollura et al. | Optimal fluid and vasopressor interventions in septic icu patients through reinforcement learning model | |
Aknin et al. | Harnessing digital pathology and causal learning to improve eosinophilic esophagitis dietary treatment assignment | |
CN116246752A (zh) | 一种全身麻醉术后恶心呕吐预测模型的生成和使用方法 | |
Peleg et al. | Reasoning with effects of clinical guideline actions using OWL: AL amyloidosis as a case study | |
Ramegowda et al. | “Smart” Fluid Management Using Closed-Loop Systems: The Futuristic Standard in Perioperative Patient Care | |
Do et al. | Application of Deep Recurrent Q Network with Dueling Architecture for Optimal Sepsis Treatment Policy | |
Zhang et al. | Depth of anesthesia control with fuzzy logic | |
CN118486453B (zh) | 基于人工智能的疾病预警系统 | |
Shi et al. | Fuzzy neural networks to detect cardiovascular diseases hierarchically |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |