[go: up one dir, main page]

CN112102945B - 一种用于预测covid-19病患重症化的装置 - Google Patents

一种用于预测covid-19病患重症化的装置 Download PDF

Info

Publication number
CN112102945B
CN112102945B CN202011235506.2A CN202011235506A CN112102945B CN 112102945 B CN112102945 B CN 112102945B CN 202011235506 A CN202011235506 A CN 202011235506A CN 112102945 B CN112102945 B CN 112102945B
Authority
CN
China
Prior art keywords
feature
input
module
data
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN202011235506.2A
Other languages
English (en)
Other versions
CN112102945A (zh
Inventor
罗嘉庆
周凌云
冯韵宇
陈子蝶
郭姝瑾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202011235506.2A priority Critical patent/CN112102945B/zh
Publication of CN112102945A publication Critical patent/CN112102945A/zh
Application granted granted Critical
Publication of CN112102945B publication Critical patent/CN112102945B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Primary Health Care (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Epidemiology (AREA)
  • Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Algebra (AREA)
  • Pure & Applied Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明公开了一种用于预测COVID‑19病患重症化的装置,属于对医学数据的智能处理技术。本发明包括:输入模块,用于输入病患信息;数据预处理模块,对输入模块输出的数据进行数据预处理,若为训练数据,则将处理结果发送给特征选择模块,若为待预测数据,则将处理结果发送给预测处理模块;特征选择模块,从输入特征中选择一定数量的特征作为输入特征选择结果的;预测处理模块,将病患的特征信息输入预设的预测模型,并将预测结果发送给预测结果输出模块进行可视化输出。本发明从病患的血液检测结果中选择关键特征以保障对COVID‑19病患重症化的预测准确性,实现对快速分流患有COVID‑19的患者的医疗辅助,有助于优化医疗资源并及时进行医疗干预。

Description

一种用于预测COVID-19病患重症化的装置
技术领域
本发明属于对医学数据的智能处理技术领域,具体涉及一种用于预测COVID-19病患重症化的装置。
背景技术
当前,全世界有超过2000万人感染了新冠病毒SARS-Cov-2,并且有600万人正在接受治疗。这对全世界人民的健康和生命构成了巨大威胁,也给医疗系统带来了前所未有的压力。
大多数COVID-19患者属于轻度/中度病例,可以自行康复。但是,约有14%的患者为重症病例,而5%的患者为危重症病例。重症/危重症病例通常在感染后2周内发展为急性呼吸窘迫综合征(ARDS)或多器官功能不全综合征(MODS),这会消耗大量医疗资源并导致较高的病死率(高达49%)。早期预测COVID-19的严重程度可以快速分流患有COVID-19的患者(即家庭隔离,住院或ICU分配等),这有助于优化医疗资源的使用并及时进行医疗干预。
大多数有可疑症状的患者首先会去社区医院的发烧诊所。他们通常接受4种初始测试:SARS-Cov-2 RNA测试,血液测试,血液生化测试和胸部计算机断层扫描(CT)扫描。第一个测试用于确定患者是否感染了SARS-Cov-2。后3个测试用于预测COVID-19的严重程度。但是,由于社区医院的资源有限,在短时间内完成所有四项检查存在很多限制(例如,候诊室的容量,检查结果的等待时间和检查仪器的消毒等)。因此,如何使用最简单,最快的测试来进行准确的预测是一个非常紧迫和具有挑战性的问题。
在所有初始测试中,血液测试是最常见的,并且通常会在2小时内出结果。本发明的发明人在实现本发明时发现,可以尝试从血液检测结果中选择关键特征,以快速准确地预测COVID-19患者的严重程度,从而助于优化医疗资源的使用并及时进行医疗干预。
发明内容
本发明的发明目的在于:针对上述存在的问题,提供一种用于预测COVID-19病患重症化的装置,以便于实现快速分流患有COVID-19的患者的医疗辅助效果,助于优化医疗资源的使用并及时进行医疗干预。
本发明的用于预测COVID-19病患重症化的装置,包括输入模块、数据预处理模块、特征选择模块、预测处理模块和预测结果输出模块;
其中,输入模块用于输入病患信息,若当前数据为训练数据,则输入的病患信息包括病患个人信息、血液检测信息和重症度;若当前为待预测数据,则输入的病患信息包括病患个人信息和血液检测信息;
数据预处理模块,用于对输入模块输出的数据进行数据预处理,对训练数据和待预测数据进行不同的处理,并将训练数据的处理结果发送给特征选择模块,将待预测数据的处理结果发送给预测处理模块;
特征选择模块,从输入特征中选择T个特征作为输入特征选择结果,其中T≥1;
预测处理模块,将病患的特征信息输入预设的预测模型,并将预测结果发送给预测结果输出模块;
所述预测结果输出模块用于对预测结果进行可视化输出;
其中,数据预处理模块对训练数据和待预测数据的具体处理为:
若当前数据为训练数据,则执行下列预处理步骤:
将病患的个人信息中的指定项分别作为一个输入特征项,以及将血液检测信息中的每一项分别作为一个输入特征项,并将重症度作为输出特征项;基于所有输入特征项和输出特征项得到特征表;
定义x表示输入特征索引,X表示输入特征索引集,y表示输出特征索引,Y表示输出特征索引集;
计算特征表中的任意两个特征之间的相关值,得到相关矩阵R;
计算特征表中的任意两个特征之间的p值,得到p值矩阵P;
对相关矩阵R进行预处理:
若矩阵P的元素满足x∈X和y∈Y,P[x,y]=P[y,x]>α时,则令R[x,y]=R[y,x]=0;
对于i,x∈X,若P[x,i]=P[i,x]>α,则令R[x,i]=R[i,x]=1;其中,阈值α为预设值;
将多个病患的特征表、输入特征索引集X、输出特征索引集Y和预处理后的相关矩阵R发送给特征选择模块;
若当前数据为待预测数据,则执行下列预处理步骤:
基于特征选择模块发送的输入特征选择结果,从待预测数据中读取匹配的信息生成当前病患的特征信息,并将病患的特征信息发送给预测处理模块。
进一步,特征选择模块在确定输入特征选择结果时,将特征选择定义为输入特征之间的相关性以及输入和输出特征之间的相关性的多标准决策问题,再基于该多标准决策问题的求解得到输入特征选择结果。
进一步的,特征选择模块确定输入特征选择结果具体为:
步骤1:获取标记特征集L:
步骤T1:初始化标记特征集L为空集;
步骤T2:判断输入特征索引集X是否为空;若否,则执行步骤T3;若是,则基于当前标记特征集L执行步骤2;
步骤T3:更新标记特征集L:
步骤T301:判断是否|X|>min{m-1,⌈β×m⌉},若是,则对标记特征集L和输出特征 索引集Y的并集的元素升序排序,得到序列
Figure 43408DEST_PATH_IMAGE001
并执行步骤T302;其中,m表示输入特 征项数,n表示输出特征项数,参数β的取值范围为[0.6,0.8]:
否则,直接对集合L的元素升序排序,形成序列
Figure 823538DEST_PATH_IMAGE002
并执行步骤T302;
步骤T302:对输入特征索引集X的元素升序排序,形成序列
Figure 472695DEST_PATH_IMAGE003
步骤T303:从相关矩阵R中提取一个子矩阵E,子矩阵E的元素为:E[i,j]=R[ri,cj];
且元素E[i,j]的最差条件wi和最佳条件bi分别为:
Figure 679554DEST_PATH_IMAGE004
计算矩阵E的每列的相似度sj,并将最大相似度sj对应的列标识符记为j*,将元素cj*添加到标记特征集L中,同时从输入特征索引集X中删除元素c j*,再返回步骤T2;
所述相似度sj的具体计算方式为:
Figure 947724DEST_PATH_IMAGE005
其中,第一欧式距离
Figure 864252DEST_PATH_IMAGE006
第二欧式距离
Figure 418730DEST_PATH_IMAGE007
参数k、q分别表示矩阵E的行数和列数;
步骤2:对标记特征集L中的特征进行选择处理:
从标记特征集L的第一个特征开始,并按序每次增加一个特征的方式进行组合,得到多种组合特征;然后根据预设的分类器模型,对每种组合的特征进行分类性能测试,选取分类性能测试最好的组合作为输入特征筛选结果。
进一步的,特征选择模块采用朴素贝叶斯分类对每种组合的特征进行分类性能测试。
进一步的,所述特征选择模块将输入特征选择结果设置为:年龄、白细胞计数和淋巴细胞计数,或者设置为:年龄、中性粒细胞计数和淋巴细胞计数。
进一步的,特征选择模块基于分类准确率对每种组合的特征进行分类性能测试,选取分类准确率最高的组合作为输入特征筛选结果。
综上所述,由于采用了上述技术方案,本发明的有益效果是:
本发明从病患的血液检测结果中选择关键特征,以达到快速准确地预测COVID-19患者的严重程度的目的;本发明的预测COVID-19病患重症化的装置,基于对小样本数据的处理,并且可以得出相对稳定的结果,可以找出准确率较高的组合,同时特征选择的过程可视化和可解释性,符合医学临床的需求。
附图说明
图1为具体实施方式中,COVID-19数据集的相关矩阵R的示例图;
图2为具体实施方式中,数据集的p值(用来判定假设检验结果的一个参数,即当原假设为真时,比所得到的样本观察结果更极端的结果出现的概率)构成的矩阵P的示例图;
图3为具体实施方式中,预处理后的相关矩阵示例图;
图4为具体实施方式中,COVID-19数据集的特征排序过程示意图;
图5为具体实施方式中,特征排序示意图;
图6为具体实施方式中,本发明的预测性能评估示意图;
图7为具体实施方式中,平均特征数示意图;
图8为具体实施方式中,平均性能表现比较示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面结合实施方式和附图,对本发明作进一步地详细描述。
本发明为了通过对COVID-19的严重程度的早期预测,从而实现对病患的快速分流,进而提升医疗资源的利用并提供及时的医疗干预至关重要。本发明的用于预测COVID-19病患重症化的装置(简称重症化预测装置)从血液检测结果中选择关键特征,以达到快速准确地预测COVID-19患者的严重程度。本发明首先将特征选择定义为考虑输入特征之间的相关性以及输入和输出特征之间的相关性的多标准决策(MCDM)问题,然后将“基于理想解的相似性的优先顺序技术”(TOPSIS)和朴素贝叶斯(NB)分类器结合以实现用最少的功能实现最高的预测准确性。初步结果表明,即使考虑到数据集不确定性对机器学习模型预测的影响,本发明也只有3个特征(即年龄、白细胞计数(WBC)/中性粒细胞计数( NEUT)和淋巴细胞计数(LYMC))。
本具体实施方式中,采集了2020年2月1日至2020年3月15日在武汉红十字会医院根据WHO(World Health Organization)指南诊断的COVID-19病例。如表1所示,数据集包含9个特征,包括8个输入特征(年龄,性别,白细胞计数(WBC),淋巴细胞计数(LYMC),淋巴细胞比率(LYMPH),中性粒细胞计数(NEUT),中性粒细胞比率(NEU)和中性粒细胞与淋巴细胞比率(NLR))和1个输出特征(重症度)。
表1:COVID-19病例的临床特征
Figure 50569DEST_PATH_IMAGE008
根据国家卫生委员会《中国COVID-19感染诊治计划指南》第5版,该病例分为4种类型:
(1)轻度病例:临床症状轻微但没有肺炎的影像学表现;
(2)中度病例:伴有发烧,呼吸道症状和肺炎影像表现;
(3)重症病例:以下任何一种:呼吸商RR>30次/分钟的呼吸窘迫,静止时的氧饱和度<93%或PaO2/FiO2<300mmHg(ImmHg=0.133kPa);
(4)危重症病例:具有以下任何一种情况:需要机械通气、电击的呼吸衰竭或需要ICU重症监护的其他器官衰竭。
在本发明的重症化预测装置中,为了减少预测处理的时间开销,提升对COVID-19严重性(轻度/中度还是重度/危重度的病例)的预测准确度,本具体实施方式中将重症化类型简化为两类:第一类为:轻度和/或中度;第二类为:重症和/或危重症;即基于本发明的重症化预测装置可以实现对COVID-19病患是否为重症(包括危重症)的快速预测。
本发明的重症化预测装置包括输入模块、数据预处理模块、特征选择模块、预测处理模块和预测结果输出模块;其中,输入模块用于输入病患信息,若当前数据为训练数据,则输入的病患信息包括病患个人信息(姓名、年龄、性别等)、血液检测信息和重症度(即基于病人疾病的严重程度进行分类,并分别为每种类型设置一个对应的重症度量值);若当前为待预测数据,则输入的病患信息包括病患个人信息和血液检测信息;数据预处理模块,用于对输入模块输出的数据进行数据预处理,对训练数据和待预测数据进行不同的处理,对训练数据,主要是对收集的原始数据进行细化处理以对其进行消噪的过程;对待预测数据,则是从待预测数据中提取部分信息(姓名、血液检测信息中与输入特征选择结果相匹配的项的信息)生成当前病患的特征信息,并将病患的特征信息发送给预测处理模块;特征选择模块,用于特征的排序以及筛选,其中特征排序即通过某些评分功能的值对特征进行排序的过程,通常会测量其特征相关性;特征选择旨在通过去除不相关,多余或嘈杂的特征从原始特征中选择一小部分相关特征。预测处理及输出,预测处理模块将病患的特征信息输入其预置的预测模型(学习训练好的),并将预测结果发送给预测结果输出模块进行可视化输出;即基于所选定的特征和设置好的预测模型对当前输入的待预测信息进行重症化的二分类预测处理,并将预测结果进行可视化的输出。同时,为了验证本发明的重症化预测装置的预测性能,还通过统计量度(准确率(ACC)、灵敏度(TPR)、假阳率(FPR)和F1分数(模型准确率和召回率的一种加权平均,其最大值为1,最小值为0,值越大意味着模型越好))来衡量本发明的重症化预测装置的二元分类的性能。
本发明的预测处理以及预测性能评估的具体实现过程如下:
(1)预处理。
本具体实施方式中,将数据集随机分为2个子集:训练集(50%)和测试集(50%)。在本具体实施方式的四个阶段中,仅将测试集用于性能评估。
假设有m个输入特征和n个输出特征,令X={x|1≤x≤m}为输入特征集,而Y={y|m+1≤y≤m+n}为输出特征集,元素x和y是特征的索引。特征集为F=X∪Y={i|1≤i≤m+n}。计算并可视化了一个(m+n)×(m+n)的相关矩阵R和一个(m+n)×(m+n)的p值矩阵P,以显示所有不同特征对之间的相关性。
为了简化数据处理量,分两步对相关矩阵R进行了预处理。
步骤1:忽略R[i,j]的正负号,令R[i,j]=|R[i,j]|因此R[i,j]的范围从[-1,1]变为[0,1],其中i,j∈F。
步骤2:通过P过滤R。
对于x∈X和y∈Y,若P[x,y]=P[y,x]>α,则R[x,y]和R[y,x]可以忽略,即令R[x,y]=R[y,x]=0。对于i,x∈X,若P[x,i]=P[i,x]>α,则令R[x,i]=R[i,x]=1。通常,阈值α的取值范围可以是0.01或0.05,优选取值为0.05。
基于表1所给出的病患个人信息(性别和年龄)、血液检测信息和严重程度(是否为重症),可以得到,输入特征数m=8,输出特征数n=1,进而得到如图1所示的9×9的相关矩阵R,和如图2所示的9×9的p值矩阵P。
再对该相关矩阵R进行预处理后,可以得到如图3所示的预处理后的相关矩阵R的各元素R[i,j]的具体值,其中,i,j∈F,R[i,j]的取值范围变为[0,1]。
由于P[1,9]=P[9,1]=0.3865>0.05,P[3,9]=P[9,3]=0.1055>0.05,所以R[1,9],R[9,1],R[3,9]和R[9,3]可以忽略,即取值均为0。从图3还可以看到,R[1,9]=R[9,1]=R[3,9]=R[9,3]=0,R[1,1:8]=R[3,1:8]=单位向量(1,8),R[1:8,1]=R[1:8,3]=单位向量(8,1)。
(2)特征排序。
定义一个标记特征集L并初始化为L=∅。
对输入特征x∈X进行排序的过程进行迭代,并将每个排序中的第一个从X移至L。排序标准包括2个评估项:
评估项1(EVAL1):输入特征x∈X与输出特征y∈Y,R[x,y]或R[y,x]。
评估项2(EVAL2):输入特征x∈X与标记特征v∈L,R[x,v]或R[v,x]之间的相关性。从而实现对决策中的多个冲突标准的评估处理。
本发明基于所提出的通过使用与理想解决方案相似的偏好顺序技术(TOPSIS)解决此多准则决策(MCDM)问题的处理,这是一种补偿性聚合方法,首先,创建一个包含k个条件和q个替代项的评估矩阵E,以对输入要素进行排名。根据帕累托原理,将x分为以下2种类型:
类型1:
如果|X|>min{m-1,⌈β×m⌉},则要标记的输入特征x是核心特征,应该具有评估项 2中最低的R[v,x],并且来自评估项1的最高R[y,x]。并以升序对集合L∪Y和X的元素进行排 序,以获得序列
Figure 715905DEST_PATH_IMAGE001
Figure 373475DEST_PATH_IMAGE003
。其中,参数β的取值范围为[0.6,0.8],优选取值为 0.8,即前20%的输入特征为核心特征。
令k=|L|+n,和q=|X|,从预处理后的相关矩阵R中提取一个k×q的子矩阵E,使得E[i,j]=R[ri,cj]。
且元素E[i,j]的最差条件wi和最佳条件bi分别为:
Figure 895592DEST_PATH_IMAGE004
参见图4,在该图示中,表示当|X|=8>min{8-1,⌈0.8×8⌉}=7时,L∪Y=∅∪{9}={9}。有(ri)1 i=1=(9),(cj)8 j=1=(1,…,8)。由于=|L|+n=1并且q=|X|=8,因此E是R的1×8的子矩阵。
类型2:
如果|X|≤min{m-1,⌈0.8×m⌉},要标记的x是辅助特征(其余80%),只需要具有最低的R[v,x]评估2。
并以升序对L和X集的元素进行排序,以获得序列
Figure 483568DEST_PATH_IMAGE009
Figure 17843DEST_PATH_IMAGE003
令k=|L|并且q=|X|,E是E[i,j]=R[ri,cj]的k×q的矩阵。
基于图4所给出的图示可知,当|X|=5<7时,L={2,6,4},并且X={1,3,5,7,8}时,(ri)3 i=1=(2,6,4),(cj)5 j=1=(1,3,5,7,8)。由于当前k=|L|=3并且q=|X|=5,E是R的3×5的子矩阵。
根据公式(1)计算目标替代j与最差条件之间的L2距离(欧式距离):
Figure 109295DEST_PATH_IMAGE006
(1)
然后根据公式(2)计算j条件与最佳条件之间的L2距离:
Figure 739997DEST_PATH_IMAGE007
(2)
再根据公式(3)计算与最差条件的相似度:
Figure 411674DEST_PATH_IMAGE010
(3)
仅当替代j的条件最佳时,sj=1;仅当替代j的条件最差的条件时,sj=0。令j*=argmaxj{sj},则X=X\{cj*},L=L∪{cj*}。
范例4:如图4所示,当|X|=8>7时,wi=1且bi=0。由公式(1)和公式(2)计算出dw2=0.5251,db2=0.4749。由公式(3),可以得到s2=0.5251。|X|=5<7时,wi=1,bi=0。通过公式(1)和公式(2),计算出dw8=0.9685,db8=0.8615。由公式(3),得到s2=0.5293。
即本发明中基于MCDM对病患的多个特征进行标记,并得到标记特征集的具体实现过程如下:
步骤S1:将采集的病患特征作为输入特征,将预测类型作为输出特征,基于所有输入特征和输出特征得到特征集合;
对特征集合中的任意两个特征,基于特征之间的相关值得到相关矩阵R,其中相关矩阵R的维度为(m+n)×(m+n),m表示输入特征个数,n表述输出特征个数;
对特征集合中的任意两个特征,基于特征之间的p值得到(m+n)×(m+n)维的矩阵P;
设置输入特征索引集合X={x|1≤x≤m},输出特征索引集合Y={y|m+1≤y≤m+n};
初始化标记特征集L为空集;
步骤S2:对相关矩阵R进行预处理:
将相关矩阵R的各元素设置为:R[i,j]=|R[i,j]|,其中,i,j分别表示相关矩阵R的行和列;
基于矩阵P对相关矩阵R进行过滤处理:对于x∈X和y∈Y,若P[x,y]=P[y,x]>0.05,则令R[x,y]=R[y,x]=0;对于u∈X和x∈X,若P[x,u]=P[u,x]>0.05,则令R[x,u]=R[u,x]=1;
步骤S3:判断集合X是否为空;若是则执行步骤S5;否则执行步骤S4;
步骤S4:更新标记特征集L:
步骤S401:判断是否|X|>min{m-1,⌈β×m⌉},若是,则对集合L∪Y和集合X的元素 升序排序,得到序列
Figure 684392DEST_PATH_IMAGE001
并执行步骤402;
即当集合X的元素数大于min{m-1,⌈β×m⌉}的值时,对L∪Y∪X的元素升序排序,形 成序列
Figure 568035DEST_PATH_IMAGE001
否则,直接对集合L的元素升序排序,形成序列
Figure 900796DEST_PATH_IMAGE002
并执行步骤402;
步骤S402:对集合X的元素升序排序,形成序列
Figure 466294DEST_PATH_IMAGE003
步骤S403:从相关矩阵R中提取一个子矩阵E,子矩阵E的元素为:E[i,j]=R[ri,cj];
计算矩阵E的每列的相似度sj,并将最大相似度sj对应的列标识符记为j*,将元素cj*添加到标记特征集L中,同时从输入特征索引集X中删除元素cj*,再返回步骤S3;
步骤S5:得到并输出标记特征集L。
参见图4,当前输入要素的标注顺序为(2,6,4,7,8,6,1,3)。如果仅考虑评估项1,即根据统计学上显著的R [x,y]对x∈X进行排序,将得到另一个序列(2,5,4,7,8,6),如图5所示。从图3中可以看出,尽管R[5,9]=0.3526>R[6,9]=0.2179,但R[5,2]=0.2471>R[6,2]=0.06803和R[5,4]=0.7023>R[6,4]=0.2827。这表明{2,5,4}可能包括冗余特征,并且不能独立地对预测做出贡献。
(3)特征选取。
特征子集选择的目标是找到最佳输入特征子集。逐渐增加标记特征的数量,并依次使用朴素贝叶斯分类器训练模型。为了找到最佳子集,在训练集上顺序测试训练模型的准确性。图5显示,当选择4个特征{2,5,4,7}时,评估项1的精度达到0.765的峰值。而使用较少的特征{2,6,4}时,评估项1加上评估项2的精度可以达到更高的0.816。
(4)预测处理及输出。
基于本发明的预测处理模块和预测结果输出模块实现。本发明的预测处理模块中预置了训练好的预测模型(例如在特征选取时所采用的分类器模型),只需要将病患的特征信息输入到该分类器模型中,从而基于其分类结果输出得到当前病患的重症化的预测结果;本发明对预测处理模块中的预测模型不做具体限定,可采用任一惯用的分类器模型,并对所采用的分类器模型进行学习训练得到满足训练需求的预测模型即可。预测结果输出模块可以以图形、文字和/或灯光等方式输出对应的预测结果。
(5)性能评估。
本具体实施方式中,基于所设置的测试集,将准确率(ACC)、灵敏度(TPR)、假阳率(FPR)和F1得分(F1 score)作为功预测性能的评估度量值。图6为使用不同条件进行预测所对应的预测性能。如图6所示,{2,6,4}具有最低数量的功能,但在多个性能指标中得分最高。同时,基于图6还可以看到{2,5,4,7,8,6},{2,5,4,7}和{2,6,4}的准确性分别为0.7959、0.8469和0.8673;以及{2,5,4,7,8,6},{2,5,4,7}和{2,6,4}的F1分数分别为0.7561、0.7761和0.806。
本具体实施方式中,将所采集的306例COVID-19病例分为两组:141例中度病例和165例重度/危重度病例。两组的血液检查结果统计见表1。
为了测试本发明的重症化预测装置预测稳定性并观察数据集不确定性对特征选择的影响,将数据集划分了100次(50%训练集和50%测试集)并重复运行。图7显示了通过3个不同标准选择的特征的平均数量,EVAL1,EVAL2(子集)和EVAL1+EVAL2(子集)分别为6.29(95%CI(Confidence Interval):6.13-6.45),3.11(95%CI:2.79-3.43)和2.98(95%CI:2.81-3.15)。从图8中可以看出,本发明的重症化预测装置所采用的标准EVAL1+EVAL2(子集)改善了大多数性能指标。EVAL1+EVAL2(子集)的指标(ACC,TPR,FPR和F1分数)分别为0.803(95%CI:0.794-0.812),0.685(95%CI:0.673-0.697),0.117(95%CI:0.104-0.131)和0.724(95%CI:0.71-0.739),而EVAL1分别是0.75(95%CI:0.741-0.76),0.599(95%CI:0.583-0.616),0.093(95%CI:0.083-0.103)和0.698(95%CI:0.688-0.708)。参考图8,尽管数据集不确定性会影响特征选择,但仍然有2个子集{Age,NEUT,LYMC}和{Age,WBC,LYMC}的选择率达31%,主导了特征选择。这两个子集可以以少量特征获得高精度。
此外,根据现有的治疗经验,在疾病发展的第一和第二周进行适当干预对于防止疾病恶化和降低病死率非常重要。先前的研究表明,COVID-19的严重程度与患者的年龄,基础疾病和全身免疫状态密切相关。本发明的重症化预测装置的输入仅需病患的年龄、以及血液测试结果,并基于所预设的特征选取方式,从血液测试结果中选取对应的特征(WBC/NEUT,LYMC)进行预测处理,进而输出当前病患的COVID-19的病患类型(轻度、中度、重症和危重),且可以达到80%以上的预测准确性。在COVID-19大流行期间,它更符合临床需求,并且易于在不同医疗水平的地区推广和使用。即本发明的重症化预测装置,从血液测试结果中选择有效特征,初步实验结果表明,只需选择3个关键特征(即年龄,白细胞计数(WBC)/中性粒细胞计数(NEUT)和淋巴细胞计数(LYMC))即可达到0.803的预测精度(95% CI: 0.794-0.812),其预测的高精度(平均80.3%)非常有利于COVID-19患者的快速分诊。仅使用最常用的血液检查,医疗机构就可以更好地确定家庭隔离、住院、ICU分配或COVID-19患者。
以上所述,仅为本发明的具体实施方式,本说明书中所公开的任一特征,除非特别叙述,均可被其他等效或具有类似目的的替代特征加以替换;所公开的所有特征、或所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以任何方式组合。

Claims (8)

1.一种用于预测COVID-19病患重症化的装置,其特征在于,包括输入模块、数据预处理模块、特征选择模块、预测处理模块和预测结果输出模块;
其中,输入模块用于输入病患信息,若当前数据为训练数据,则输入的病患信息包括病患个人信息、血液检测信息和重症度;若当前为待预测数据,则输入的病患信息包括病患个人信息和血液检测信息;
数据预处理模块,用于对输入模块输出的数据进行数据预处理,对训练数据和待预测数据进行不同的处理,并将训练数据的处理结果发送给特征选择模块,将待预测数据的处理结果发送给预测处理模块;
特征选择模块,从输入特征中选择T个特征作为输入特征选择结果,其中T≥1;
预测处理模块,将病患的特征信息输入预设的预测模型,并将预测结果发送给预测结果输出模块;
所述预测结果输出模块用于对预测结果进行可视化输出;
其中,数据预处理模块对训练数据和待预测数据的具体处理为:
若当前数据为训练数据,则执行下列预处理步骤:
将病患的个人信息中的指定项分别作为一个输入特征项,以及将血液检测信息中的每一项分别作为一个输入特征项,并将重症度作为输出特征项;基于所有输入特征项和输出特征项得到特征表;
定义x表示输入特征索引,X表示输入特征索引集,y表示输出特征索引,Y表示输出特征索引集;
计算特征表中的任意两个特征之间的相关值,得到相关矩阵R;
计算特征表中的任意两个特征之间的p值,得到p值矩阵P;
对相关矩阵R进行预处理:
若矩阵P的元素满足P[x,y]=P[y,x]>α时,则将相关矩阵R的元素R[x,y]的值置0;
对于i∈X和x∈X,若P[x,i]=P[i,x]>α,则令R[x,i]=R[i,x]=1;其中,阈值α为预设值;
将多个病患的特征表、输入特征索引集X、输出特征索引集Y和预处理后的相关矩阵R发送给特征选择模块;
若当前数据为待预测数据,则执行下列预处理步骤:
基于特征选择模块发送的输入特征选择结果,从待预测数据中读取匹配的信息生成当前病患的特征信息,并将病患的特征信息发送给预测处理模块。
2.如权利要求1所述的用于预测COVID-19病患重症化的装置,其特征在于,特征选择模块在确定输入特征选择结果时,将特征选择定义为输入特征之间的相关性以及输入和输出特征之间的相关性的多标准决策问题,再基于该多标准决策问题的求解得到输入特征选择结果。
3.如权利要求1所述的用于预测COVID-19病患重症化的装置,其特征在于,特征选择模块确定输入特征选择结果具体为:
步骤1:获取标记特征集L:
步骤T1:初始化标记特征集L为空集;
步骤T2:判断输入特征索引集X是否为空;若否,则执行步骤T3;若是,则基于当前标记特征集L执行步骤2;
步骤T3:更新标记特征集L:
步骤T301:判断是否|X|>min{m-1,⌈β×m⌉},若是,则对标记特征集L和输出特征索引 集Y的并集的元素升序排序,得到序列
Figure 31384DEST_PATH_IMAGE001
并执行步骤T302;其中,m表示输入特征项 数,n表示输出特征项数,参数β的取值范围为[0.6,0.8];
否则,直接对集合L的元素升序排序,形成序列
Figure 73158DEST_PATH_IMAGE002
并执行步骤T302;
步骤T302:对输入特征索引集X的元素升序排序,形成序列
Figure 384054DEST_PATH_IMAGE003
步骤T303:从相关矩阵R中提取一个子矩阵E,子矩阵E的元素为:E[i,j]=R[ri,cj];
且元素E[i,j]的最差条件wi和最佳条件bi分别为:
Figure 172405DEST_PATH_IMAGE004
计算矩阵E的每列的相似度sj,并将最大相似度sj对应的列标识符记为j*,将元素cj*添加到标记特征集L中,同时从输入特征索引集X中删除元素cj*,再返回步骤T2;
所述相似度sj的具体计算方式为:
Figure 908149DEST_PATH_IMAGE005
其中,第一欧式距离
Figure 183142DEST_PATH_IMAGE006
第二欧式距离
Figure 97178DEST_PATH_IMAGE007
参数k、q分别表示矩阵E的行数和列数;
步骤2:对标记特征集L中的特征进行选择处理:
从标记特征集L的第一个特征开始,并按序每次增加一个特征的方式进行组合,得到多种组合特征;然后根据预设的分类器模型,对每种组合的特征进行分类性能测试,选取分类性能测试最好的组合作为输入特征筛选结果。
4.如权利要求1所述的用于预测COVID-19病患重症化的装置,其特征在于,所述特征选择模块将输入特征选择结果设置为:年龄、白细胞计数和淋巴细胞计数,或者设置为:年龄、中性粒细胞计数和淋巴细胞计数。
5.如权利要求3所述的用于预测COVID-19病患重症化的装置,其特征在于,特征选择模块采用朴素贝叶斯分类对每种组合的特征进行分类性能测试。
6.如权利要求3所述的用于预测COVID-19病患重症化的装置,其特征在于,特征选择模块基于分类准确率对每种组合的特征进行分类性能测试,选取分类准确率最高的组合作为输入特征选择结果。
7.如权利要求1所述的用于预测COVID-19病患重症化的装置,其特征在于,设置阈值α的取值为0.01或0.05。
8.如权利要求3所述的用于预测COVID-19病患重症化的装置,其特征在于,设置参数β的取值为0.8。
CN202011235506.2A 2020-11-09 2020-11-09 一种用于预测covid-19病患重症化的装置 Expired - Fee Related CN112102945B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011235506.2A CN112102945B (zh) 2020-11-09 2020-11-09 一种用于预测covid-19病患重症化的装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011235506.2A CN112102945B (zh) 2020-11-09 2020-11-09 一种用于预测covid-19病患重症化的装置

Publications (2)

Publication Number Publication Date
CN112102945A CN112102945A (zh) 2020-12-18
CN112102945B true CN112102945B (zh) 2021-02-05

Family

ID=73785242

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011235506.2A Expired - Fee Related CN112102945B (zh) 2020-11-09 2020-11-09 一种用于预测covid-19病患重症化的装置

Country Status (1)

Country Link
CN (1) CN112102945B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10991190B1 (en) 2020-07-20 2021-04-27 Abbott Laboratories Digital pass verification systems and methods
CN112951413B (zh) * 2021-03-22 2023-07-21 江苏大学 一种基于决策树和改进smote算法的哮喘病诊断系统
CN113138250B (zh) * 2021-04-23 2021-12-17 西湖大学 特征尿蛋白对covid-19轻重级进行分型的非诊断方法及应用
CN112967810A (zh) * 2021-05-07 2021-06-15 四川大学华西医院 一种新冠病毒肺炎重症化预测系统及方法
CN113555118B (zh) * 2021-07-26 2023-03-31 内蒙古自治区人民医院 一种病症程度的预测方法、装置、电子设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2020100564A4 (en) * 2020-04-14 2020-05-21 Phan, Hung Thanh Mr CORONAVIRUS IMPACT ON THE WORLD ECONOMY PROBLEMS SOLVING: I invent the equation for solving the forecast of number of COVID-19 cases in the future so to help a country can re open the business as early as possible in the minimizes of COVID-19
CN111261302A (zh) * 2020-02-26 2020-06-09 汤一平 基于时空轨迹数据的流行传染病病毒场可视化方法及系统
CN111314360A (zh) * 2020-02-25 2020-06-19 贵州精准健康数据有限公司 一种院内云视讯系统
CN111462100A (zh) * 2020-04-07 2020-07-28 广州柏视医疗科技有限公司 基于新型冠状病毒肺炎ct检测的检测设备及其使用方法
CN111462101A (zh) * 2020-04-07 2020-07-28 广州柏视医疗科技有限公司 基于新型冠状病毒肺炎ct检测的分期设备及其使用方法
CN111653356A (zh) * 2020-04-20 2020-09-11 浙江大学 一种基于深度学习的新冠肺炎筛查方法及新冠肺炎筛查系统

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SG10201501889WA (en) * 2010-03-15 2015-05-28 Singapore Health Serv Pte Ltd Method of predicting the survivability of a patient
CN105787439B (zh) * 2016-02-04 2019-04-05 广州新节奏智能科技股份有限公司 一种基于卷积神经网络的深度图像人体关节定位方法
CN108829815B (zh) * 2018-06-12 2022-06-07 四川希氏异构医疗科技有限公司 一种医学影像图像筛选方法
CN110955809B (zh) * 2019-11-27 2023-03-31 南京大学 一种支持拓扑结构保持的高维数据可视化方法
CN110926655A (zh) * 2020-02-17 2020-03-27 深圳市刷新智能电子有限公司 基于可穿戴体温传感器的疫情监控方法和系统
CN111383728A (zh) * 2020-02-24 2020-07-07 华中科技大学同济医学院附属同济医院 用于新冠肺炎隔离管理的医学症状信息处理装置及隔离管理系统
KR20200032050A (ko) * 2020-03-05 2020-03-25 김승찬 COVID-19 바이러스 맞춤형 삼중 knockout DNA 치료제
CN111128397A (zh) * 2020-03-13 2020-05-08 赵志强 感温智能穿戴监控装置及其监控方法
CN111081316A (zh) * 2020-03-25 2020-04-28 元码基因科技(北京)股份有限公司 用于筛选新冠肺炎候选药物的方法及装置
CN111334868B (zh) * 2020-03-26 2023-05-23 福州福瑞医学检验实验室有限公司 新型冠状病毒全基因组高通量测序文库的构建方法以及用于文库构建的试剂盒
CN111161887B (zh) * 2020-03-30 2020-11-24 广州地理研究所 基于人口迁徙大数据的流行病疫区返程人群规模预测方法
AU2020100545A4 (en) * 2020-04-10 2020-05-28 Wholesale Group International Pty. Ltd. TOV 770 - An innovative ethyl alcohol, chlorite, hydrogen peroxide, tea tree oil extract (Melaleuca alternifolia) based anti- SARS-CoV-2 (severe acute respiratory syndrome coronavirus 2) viral surface sanitizer

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111314360A (zh) * 2020-02-25 2020-06-19 贵州精准健康数据有限公司 一种院内云视讯系统
CN111261302A (zh) * 2020-02-26 2020-06-09 汤一平 基于时空轨迹数据的流行传染病病毒场可视化方法及系统
CN111462100A (zh) * 2020-04-07 2020-07-28 广州柏视医疗科技有限公司 基于新型冠状病毒肺炎ct检测的检测设备及其使用方法
CN111462101A (zh) * 2020-04-07 2020-07-28 广州柏视医疗科技有限公司 基于新型冠状病毒肺炎ct检测的分期设备及其使用方法
AU2020100564A4 (en) * 2020-04-14 2020-05-21 Phan, Hung Thanh Mr CORONAVIRUS IMPACT ON THE WORLD ECONOMY PROBLEMS SOLVING: I invent the equation for solving the forecast of number of COVID-19 cases in the future so to help a country can re open the business as early as possible in the minimizes of COVID-19
CN111653356A (zh) * 2020-04-20 2020-09-11 浙江大学 一种基于深度学习的新冠肺炎筛查方法及新冠肺炎筛查系统

Also Published As

Publication number Publication date
CN112102945A (zh) 2020-12-18

Similar Documents

Publication Publication Date Title
CN112102945B (zh) 一种用于预测covid-19病患重症化的装置
Malik et al. CDC_Net: Multi-classification convolutional neural network model for detection of COVID-19, pneumothorax, pneumonia, lung Cancer, and tuberculosis using chest X-rays
Mansour et al. Accurate detection of Covid-19 patients based on Feature Correlated Naïve Bayes (FCNB) classification strategy
Sugumar Enhanced convolutional neural network enabled optimized diagnostic model for COVID-19 detection
CN111681219B (zh) 基于深度学习的新冠病毒感染ct图像分类方法、系统及设备
Malik et al. BDCNet: Multi-classification convolutional neural network model for classification of COVID-19, pneumonia, and lung cancer from chest radiographs
Kollias et al. Ai-enabled analysis of 3-d ct scans for diagnosis of covid-19 & its severity
Ahmed et al. Intelligent decision-making framework for evaluating and benchmarking hybridized multi-deep transfer learning models: managing COVID-19 and beyond
Zhang et al. Multi-relation graph convolutional network for Alzheimer’s disease diagnosis using structural MRI
Dhere et al. COVID detection from chest X-ray images using multi-scale attention
Ahmad et al. Lightweight ResGRU: a deep learning-based prediction of SARS-CoV-2 (COVID-19) and its severity classification using multimodal chest radiography images
Li et al. PNet: An efficient network for pneumonia detection
Goldstein et al. Covid-19 classification of x-ray images using deep neural networks
Shehzadi et al. Identifying covid-19 through x-ray and ct scan images using machine learning
Monowar et al. Lung opacity classification with Convolutional Neural Networks using chest X-rays
Islam et al. COVID-19 and Pneumonia detection and web deployment from CT scan and X-ray images using deep learning
Maharjan et al. Application of deep learning to identify COVID-19 infection in posteroanterior chest X-rays
Mei et al. Artificial intelligence for rapid identification of the coronavirus disease 2019 (COVID-19)
Mishra Deep transfer learning-based framework for COVID-19 diagnosis using chest CT scans and clinical information
Dawod et al. Hybrid approach for COVID-19 detection from chest radiography
CN117551760A (zh) 用于预测进展性结核和非进展性结核的生物标志物及其应用
Hammadah et al. A hybrid approach of Deep Learning Algorithms for Identification of COVID-19 disease using Chest X-Ray Images
Faris et al. Detection of pcos based on genetic algorithm coupled with svm
Dawod A new method based CNN combined with genetic algorithm and support vector machine for COVID-19 detection by analyzing X-ray images
Mayya et al. A novel medical support deep learning fusion model for the diagnosis of COVID-19

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20210205