CN109273096A - 一种基于机器学习的药品风险分级评估方法 - Google Patents
一种基于机器学习的药品风险分级评估方法 Download PDFInfo
- Publication number
- CN109273096A CN109273096A CN201811030444.4A CN201811030444A CN109273096A CN 109273096 A CN109273096 A CN 109273096A CN 201811030444 A CN201811030444 A CN 201811030444A CN 109273096 A CN109273096 A CN 109273096A
- Authority
- CN
- China
- Prior art keywords
- data
- drug
- particle
- classification
- risk
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H70/00—ICT specially adapted for the handling or processing of medical references
- G16H70/40—ICT specially adapted for the handling or processing of medical references relating to drugs, e.g. their side effects or intended usage
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Toxicology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medicinal Chemistry (AREA)
- Pharmacology & Pharmacy (AREA)
- Chemical & Material Sciences (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明公开了一种基于机器学习的药品风险分级评估方法,所述方法以中国药品不良反应(ADR)中的西药报告数据为基础,利用机器学习的算法研究药品风险分级的问题,以严重报告率、ADR伤害指数和ADR覆盖率三个主要指标作为分级标准,通过基于支持向量机的分类算法对西药不良反应进行风险分级评估,最终将药品按照不良反应风险分为A‑E五个安全等级。本发明对药品的不良反应风险评估提供重要的参考意义。
Description
技术领域
本发明涉及一种药品风险分级评估方法,具体构建基于药品不良反应特征进行药品风险分级的分级模型,属于机器学习技术领域。
背景技术
近年来,在药物警戒中,世界各国建立了基于网络的药品不良反应自发报告采集系统。但数据资源的利用和开发仍然不足。主要的研究集中在基于不平衡分析的信号检测方法改进与应用、信号挖掘比较分析、数据遮蔽效应的消除等方面,缺乏基于大数据的机器学习方法的应用研究。
而国内外有关于药品分级的研究,主要关注的是某类药品的风险,缺乏系统性评价,也不具有通用性。随着我国自发报告量的迅速增加,建立一种基于自发报告数据的药品风险分级指标体系和分级评估模型,为现有药品和新上市药品建立分险等级,可以为医生、患者和生产商在使用或生产中起到决策指导作用。
由于缺乏收益数据,只能完全依赖于自发报告的部分信息,很难开展基于风险收益率的评估研究。同时,也受到自发报告数据质量的影响。如果未来的研究能融合电子健康记录(electronic health records,EHR)数据,可以更好地完善我们对药物风险的分级评估。
发明内容
本发明所要解决的技术问题是提供一种基于机器学习的药品风险分级评估方法,基于我国自发报告数据,利用机器学习技术,构建一种用于药品风险分级评估的自动分类模型,为我国的药物警戒提供一种药品安全评价体系。
本发明为解决上述技术问题采用以下技术方案:一种基于机器学习的药品风险分级评估方法,包括以下步骤:
步骤1),获取原始ADR数据库,并进行数据处理:其中原始ADR数据库为国家中心的ADR数据;数据的处理包括对原始ADR数据库进行规整以及筛选报告频次大于等于3的数据;
步骤2),查阅资料,探索影响药品不良反应风险等级大小的相关因素;并按照以下三个因素作为评判标准:T1:严重报告率,T2:伤害度指数,T3:ADR覆盖率;
步骤3),对数据进行人工标注,至少结合临床专家经验、国家不良反应信息通报、病例报道、医学文献、国际药物警戒专业网站信息对部分的常规用药进行打分,分值为0-5分,拟分五个等级:[0,1]为A级;[1,2]为B级;[2,3]为C级;[3,4]为D级;[4,5]为E级;并将标注后的数据集作为训练数据;
步骤4),由步骤3中获得的训练数据建立风险等级评价指标T,T=α1T1+α2T2+α3T3,约束条件:α1+α2+α3=1且αi∈(0,1),i=1~3;
以标准数据集为参考目标,利用群体智能优化算法对指标中的三个参数α1,α2,α3进行优化,优化过程中需要将T规格化为[0,5]之间,得到最优权重;
步骤5),将三种可能因素T1,T2,T3按照权重公式进行定义,引入风险程度的概念,定义为T;以药品不良反应监测数据为基础,以优化后的指标T对总体数据进行标注,以“药品”为对象,以“不良反应”为特征,构建药品在不良反应特征空间分布的数据集D,用于机器学习;
步骤6),利用数据集D和多类分类技术进行分类学习,得到分类精度≥85%的分类模型;该分类模型可以对新上市药品的风险等级值进行预测。
本发明的进一步技术方案为,所述步骤1的详细步骤如下:
步骤1)
步骤1.1),获取原始ADR数据库,原始ADR数据从国家药品不良反应监测中心获得;本数据是国家药品评价中心药品不良反应自发呈报系统数据库2010~2011年采集的不良反应报告,作为分析数据;
步骤1.2),数据处理;
步骤1.2.1),针对原始数据存在缺项、重复、药品名称和不良反应名称不规范等问题,先将数据中的缺项进行删除,重复项做唯一化处理,将不规范的名称重新规范化;
步骤1.2.2),用Microsoft Visual FoxPro软件对数据进行预处理,筛选数据量≥3的西药数据,共有1763种药品以及对应的879种不良反应,按照品种名称和不良反应名称对应形成新的表格。
进一步的,所述步骤2的详细步骤如下:
步骤2),查阅资料,探索与药品不良反应风险相关的因素:
根据大量资料显示以及专家意见,现决定按照以下三个因素作为评判标准:T1:严重报告率,T2:ADR伤害指数,T3:ADR覆盖率;
评判指标为:
步骤2.1),T1:SRR指标,严重报告率
据2010-2011全国数据共1,209,342份,其中报告类型为“严重”的报告为59,220份,占4.9%,报告类型为“一般”为1,150,122份,占95.1%;
定义:假设某一药品D,其ADR报告总数量为R(D),其中严重报告数量为RS(D),那么,
步骤2.2),T2:DDI指标,伤害度指数
据2010~2011全国数据中1,209,342份报告,其中:5-死亡,为2,319例;4-有后遗症,为1,832例;3-未好转,为8例;2-好转,为681,097例;1-痊愈,为523,971例;0-不详,为115例;
按照伤害程度,一共分为五级,分值为5-1;
定义:假设某一药品D,其ADR报告总数量为R(D),其中对应第i个分值C(i)的伤害相关报告数量分别为f(i),i=1,2,...5。那么,
步骤2.3)T3:ACR指标,ADR覆盖率
据2010~2011全国数据中1,209,342份报告,其中包含2,386种不良反应,以其中一例药品为例,定义:假设某一药品D发生ADR的种类数为K(D),全部ADR种类数为M,那么,
进一步的,所述步骤3的详细步骤如下:
步骤3.1)选取数据库中某类别药物,通过专家评分的方法,并查阅相关资料作为补充,对此类药物的风险程度进行人工标注打分,将标注后的数据作为训练数据。
进一步的,所述步骤4的详细步骤如下:
步骤4.1),构建药品风险评估矩阵,
根据T指标和监测数据,计算出每个药品Di(i=1,2,3,...n)的三个因子(Ti1、Ti2、Ti3)的值,全部药品的风险评估矩阵可表示为以下形式:
步骤4.2),构建粒子群优化算法,即PSO算法,
步骤4.2.1),PSO算法的基本原理介绍:初始化为一群随机粒子,即随机解,通过迭代找到最优解;在每一次的迭代中,粒子通过跟踪两个“极值”:pbest,gbest来更新自己,在找到这两个最优值后,粒子通过下面的公式来更新自己的速度和位置;
在PSO求解最优化问题时,通常将所求问题的解设计为搜索空间中一个粒子,每个粒子由三部分组成:当前位置x、飞行速度v和粒子的适应度fitness组成,表示为P(x,v,fitness);
在迭代的过程中,粒子通过更新两个“极值”来更新自己:一个是粒子本身所找到的最优解,称之为粒子的自我认知能力,记为pbest;另一个是整个粒子群目前所找到的最优解,称之为粒子的社会认知能力,记为gbest;
在找到两个最优解以后,每一个粒子通过以下公式更新自己的速度和位置:
vi (t+1)=ωvi (t)+c1r1(pi (t)-xi (t))+c2r2(pg (t)-xi (t))
xi (t+1)=xi (t)+vi (t+1)
其中pi (t)为第i个粒子目前搜索到的最优解pbest,pg (t)为整个粒子群目前搜索到的最优解gbest;vi是第i个粒子当前飞行速度,c1为自身认知系数,c2为社会认知系数,r1、r2是[0,1]之间的随机数,ω为惯性权重,通常取0.9左右的数;
步骤4.2.2),基于PSO算法的药品指标模型设计,
根据PSO优化算法,将本方案中需要优化的三个参数α1,α2,α3设计为一个粒子在三维空间的位置x,通过大量粒子的位置迭代更新求出最优解;迭代过程中,当某个粒子的位置确定以后,可根据标准数据集的风险评估矩阵计算出每个药品的T指标值,并将T规格化为[0,5]之间的数,根据T值可求出每个药品新的风险等级值;优化目标函数或适应度fitness可依据新的风险等级值和标准数据集中已有的风险等级值的比较来进行度量,公式如下:
fitness=分级正确的药品数/标准数据中所有的药品数
整个粒子群优化算法的算法框架如下:
设群体规模为m,每一个粒子的位置x以一个3×1矩阵表示,其中的三个元素分别代表三个参数α1~α3,初始值为(0,1)之间的随机数;那么,整个初始粒子群构成一个3×m的矩阵;每个粒子的运动速度v为限制在(-1,1)之间的随机数,每个粒子按以下步骤在问题空间中运动:
Step1:更新速度:首次运行直接转Step3;否则,按照公式(1)更新粒子的速度,粒子的最大速度被限定在一定的范围内,如果更新后的速度大于1,则取1,如果小于-1,则取-1;
Step2:更新位置:根据公式(2)来更新粒子每一维的位置,由于每一维的位置值被限制在(0,1)之间,对于逃逸出问题空间的粒子的将被重新招回,将其位置赋给一个(0,1)之间的随机数;
Step3:更新pbest和gbest:根据公式(3)计算每个粒子的适应度fitness,求出每个粒子的最优解pbest,并计算整个粒子群的最优解gbest;对于每一个粒子,如果它目前的pbest比历史所经历的pbest好,则更新pbest,并且粒子返回原来的位置;对于整个粒子群,如果目前的gbest比历史所经历的gbest好,则更新gbest;
Step4:终止操作:如果已经满足迭代次数或gbest平均值已经不再发生变化,则算法终止;否则转Step1;
步骤4.3),以训练集为训练数据,利用群体智能优化算法对指标中的三个参数进行优化,得到最优解,根据约束条件:α1+α2+α3=1,且αi∈(0,1),i=1~3不断优化达到最佳精度使得最后收敛,得出收敛后的α1,α2,α3的值,作为三种分类因素的权重指数,并将T规范化后表示出来。
进一步的,所述步骤5的详细步骤如下:
步骤5.1),将三种可能因素T1,T2,T3按照权重公式进行定义,引入风险程度的概念,定义为T;
步骤5.2),以药品不良反应监测数据为基础,以优化后的指标T对总体数据进行标注,以“药品”为对象,以“不良反应”为特征,构建药品在不良反应特征空间分布的数据集D,用于机器学习;采用0,1分布的方式进行标注,其中矩阵中元素值为“1”代表在监测数据中存在该药品与该不良反应组合报告,值为“0”则代表在监测数据中不存在该药品与该不良反应组合报告。
进一步的,所述步骤6的详细步骤如下:
步骤6.1),基于支持向量机的多分类技术的介绍,
支持向量机的主要思想是:建立一个最优决策超平面,使得该平面两侧距离该平面最近的两类样本之间的距离最大化,从而对分类问题提供良好的泛化能力;对于一个多维的样本集,系统随机产生一个超平面并不断移动,对样本进行分类,直到训练样本中属于不同类别的样本点正好位于该超平面的两侧,满足该条件的超平面可能有很多个,SVM正式在保证分类精度的同时,寻找到这样一个超平面,使得超平面两侧的空白区域最大化,从而实现对线性可分样本的最优分类;
所述多分类技术采用一类对余类法,一对一分类法,二叉树法,纠错输出编码法以及DAGSVM法中的任意一种;
所述步骤6.1)中选用常一类对余类法建立分类模型;
(1)假设共有k个类别,那么就构建k个两分类支持向量机,其中第i个支持向量机把第i类同余下的各类划分开,在训练时第i个支持向量机标记训练集中的第i类+1,余下的类别点为-1进行训练;
(2)识别时,输入数据分别经过k个支持向量机共得到k个输出值f(x)=sgn(gi(x)),若只出现一个+1,则其对应类别为输入信号类别。若不只输出一个+1,或者没有一个输出值为+1,则比较输出值f(x)的大小,输出值最大者对应的类别为输入类别。
步骤6.2),基于药品风险分级的多分类模型应用,
Step1:将药品风险分类的实验数据分为5类,那么即为构建5个二分类支持向量机;
Step2:训练时依次把某个类别的样本归为一类,其他剩余的样本归为另一类,将未知样本分类为具有最大分类函数值的那类;本模型具有五类需划分,即具有5个Label,分别为A、B、C、D、E;
在抽取训练集的时候,分别抽取
(1)A所对应的向量作为正集,B,C,D,E所对应的向量作为负集;
(2)B所对应的向量作为正集,A,C,D,E所对应的向量作为负集;
(3)C所对应的向量作为正集,A,B,D,E所对应的向量作为负集;
(4)D所对应的向量作为正集,A,B,D,E所对应的向量作为负集;
(5)E所对应的向量作为正集,A,B,C,D所对应的向量作为负集;
Step3:在训练数据中,目标类标注为+1,其他类标注为-1,使用训练数据对支持向量机进行训练;使用这五个训练集分别进行训练,然后的得到五个训练结果文件;在测试的时候,把对应的测试向量分别利用这五个训练结果文件进行测试;最后每个测试都有一个结果f1(x),f2(x),f3(x),f4(x),f5(x);于是最终的结果便是这五个值中最大的一个作为分类结果;
Step4:计算并输出分类模型的分类准确度;
Step5:不断优化核函数,使得最终的分类精度≥85%,即可对即将上市的药物进行分类预测。
本发明采用以上技术方案与现有技术相比,具有以下技术效果:本发明提出的一种基于机器学习的药品风险分级评估方法,以中国药品不良反应(ADR)中的西药报告数据为基础,利用机器学习的算法研究药品风险分级的问题,以严重报告率、ADR伤害指数和ADR覆盖率三个主要指标作为分级标准,通过基于支持向量机的分类算法对西药不良反应进行风险分级评估,最终将药品按照不良反应风险分为A-E五个安全等级。本发明对药品的不良反应风险评估提供重要的参考意义。
附图说明
图1是本发明的流程示意图。
具体实施方式
下面结合附图对本发明的技术方案做进一步的详细说明:
如图1所示,本发明公开了一种基于机器学习的药品风险分级评估方法,包括以下步骤:
步骤1)
步骤1.1),获取原始ADR数据库,原始ADR数据从国家药品不良反应监测中心获得;本数据是国家药品评价中心药品不良反应自发呈报系统数据库2010~2011年采集的不良反应报告,作为分析数据;
步骤1.2),数据处理;
步骤1.2.1),原始数据可能存在缺项、重复、药品名称和不良反应名称名称不规范等问
题,先将数据中的缺项进行删除,重复项做唯一化处理,将不规范的名称重新规范化;
步骤1.2.2),用Microsoft Visual FoxPro软件对数据进行预处理,筛选数据量大于等于三的西药数据,按照品种名称和不良反应名称对应形成新的表格。共有1,763种药品以及对应的879种不良反应。
步骤2)
查阅资料,探索与药品不良反应风险相关的因素。
根据大量资料显示以及专家意见,现决定按照以下三个因素作为评判标准:T1:严重报告率,T2:伤害度指数,T3:ADR覆盖率。
附评判指标说明:
步骤2.1)T1:SRR指标,严重报告率(Serious Reporting Rate)
据2010-2011全国数据共1,209,342份,其中报告类型为“严重”的报告为59,220份(4.9%),“一般”为1,150,122份(95.1%)。
定义:假设某一药品D,其ADR报告总数量为R(D),其中严重报告数量为RS(D)。那么,
步骤2.2)T2:DDI,伤害度指数(Damage Degree Index)
据2010~2011全国数据中1,209,342份报告,其中:5-死亡(2,319例);4-有后遗症(1,832例);3-未好转(8例);2-好转(681,097例);1-痊愈(523,971例);0-不详(115例)。
按照伤害程度,一共分为五级,分值为5-1;
定义:假设某一药品D,其ADR报告总数量为R(D),其中对应第i个分值C(i)的伤害相关报告数量分别为f(i),i=1,2,...5。那么,
步骤2.3)T3:ACR,ADR覆盖率(ADR Coverage Rate)
据2010~2011全国数据中1,209,342份报告,其中包含2,386种不良反应,以其中一例药品为例,比如“左氧氟沙星”该类药品所引发了578种不良反应,约占全部种类的1/4。
定义:假设某一药品D发生ADR的种类数为K(D),全部ADR种类数为M。那么,
步骤3)
对数据进行人工标注,结合临床专家经验、国家不良反应信息通报、病例报道、医学文献、国际药物警戒专业网站等信息对部分的常规用药进行打分(0-5分)。拟分五个等级:[0,1]为A级;(1,2]为B级;(2,3]为C级;(3,4]为D级;(4,5]为E级。标注后的数据集作为训练数据。
步骤3.1)选取数据库中某类别药物,比如妇科用药,通过专家评分的方法,并查阅相关资料作为补充,对此类药物的风险程度进行人工标注打分,将标注后的数据作为训练数据。
步骤4)
以人工标注后的数据集作为训练数据,建立风险等级评价指标T,T=α1T1+α2T2+α3T3,约束条件:α1+α2+α3=1,且αi∈(0,1),i=1~3。以标准数据集为参考目标,利用群体智能优化(如PSO)算法对指标中的三个参数(α1,α2,α3)进行优化,优化过程中需要将T规格化为[0,5]之间,得到最优权重。
步骤4.1)构建药品风险评估矩阵
根据T指标和监测数据,可计算出每个药品Di(i=1,2,3,...n)的三个因子(Ti1、Ti2、Ti3)的值,那么全部药品的风险评估矩阵可表示为以下形式:
步骤4.2)构建粒子群优化算法(PSO算法)
步骤4.2.1)PSO算法的基本原理介绍:初始化为一群随机粒子(随机解),通过迭代找到最优解。在每一次的迭代中,粒子通过跟踪两个“极值”(pbest,gbest)来更新自己。在找到这两个最优值后,粒子通过下面的公式来更新自己的速度和位置。
在PSO求解最优化问题时,通常将所求问题的解设计为搜索空间中一个粒子,每个粒子由三部分组成:当前位置x、飞行速度v和粒子的适应度fitness组成,表示为P(x,v,fitness)。
在迭代的过程中,粒子通过更新两个“极值”来更新自己:一个是粒子本身所找到的最优解,称之为粒子的自我认知能力,记为pbest;另一个是整个粒子群目前所找到的最优解,称之为粒子的社会认知能力,记为gbest。在找到两个最优解以后,每一个粒子通过以下公式更新自己的速度和位置:
vi (t+1)=ωvi (t)+c1r1(pi (t)-xi (t))+c2r2(pg (t)-xi (t))
xi (t+1)=xi (t)+vi (t+1)
其中pi (t)为第i个粒子目前搜索到的最优解pbest,pg (t)为整个粒子群目前搜索到的最优解gbest。vi是第i个粒子当前飞行速度,c1为自身认知系数,c2为社会认知系数,r1、r2是[0,1]之间的随机数,ω为惯性权重,通常取0.9左右的数;
步骤4.2.2)基于PSO算法的药品指标模型设计
根据PSO优化算法,可以将本方案中需要优化的三个参数(α1,α2,α3)设计为一个粒子在三维空间的位置x,通过大量粒子的位置迭代更新求出最优解。迭代过程中,当某个粒子的位置确定以后,可根据标准数据集的风险评估矩阵计算出每个药品的T指标值,并将T规格化为[0,5]之间的数,根据T值可求出每个药品新的风险等级值。优化目标函数(或适应度fitness)可依据新的风险等级值和标准数据集中已有的风险等级值的比较来进行度量,公式如下:
fitness=分级正确的药品数/标准数据中所有的药品数
整个粒子群优化算法的算法框架如下:
设群体规模为m。每一个粒子的位置x以一个3×1矩阵表示,其中的三个元素分别代表三个参数(α1~α3),初始值为(0,1)之间的随机数。那么,整个初始粒子群构成一个3×m的矩阵。每个粒子的运动速度v为限制在(-1,1)之间的随机数。每个粒子按以下步骤在问题空间中运动:
Step1:更新速度:首次运行直接转Step3;否则,按照公式(1)更新粒子的速度,粒子的最大速度被限定在一定的范围内,如果更新后的速度大于1,则取1,如果小于-1,则取-1;
Step2:更新位置:根据公式(2)来更新粒子每一维的位置。由于每一维的位置值被限制在(0,1)之间,对于逃逸出问题空间的粒子的将被重新招回,将其位置赋给一个(0,1)之间的随机数;
Step3:更新pbest和gbest:根据公式(3)计算每个粒子的适应度fitness,求出每个粒子的最优解pbest,并计算整个粒子群的最优解gbest。对于每一个粒子,如果它目前的pbest比历史所经历的pbest好,则更新pbest,并且粒子返回原来的位置;对于整个粒子群,如果目前的gbest比历史所经历的gbest好,则更新gbest;
Step4:终止操作:如果已经满足迭代次数或gbest平均值已经不再发生变化,则算法终止;否则转Step1。
步骤4.3)以训练集为训练数据,利用群体智能优化(如PSO)算法对指标中的三个参数进行优化,得到最优解。根据约束条件:α1+α2+α3=1,且αi∈(0,1),i=1~3不断优化达到最佳精度使得最后收敛,得出收敛后的α1,α2,α3的值,作为三种分类因素的权重指数,并将T规范化后表示出来。
步骤5)
步骤5.1)将三种可能因素T1,T2,T3按照权重公式进行定义,引入风险程度的概念,定义为T。
步骤5.2)以药品不良反应监测数据为基础,以优化后的指标T对总体数据进行标注,以“药品”为对象,以“不良反应”为特征,构建药品在不良反应特征空间分布的数据集D,用于机器学习。采用0,1分布的方式进行标注,其中矩阵中元素值为“1”代表在监测数据中存在该药品与该不良反应组合报告,值为“0”则代表在监测数据中不存在该药品与该不良反应组合报告。
步骤6)
查阅相关资料,对机器学习涉及的各种方法进行优缺对比,选择最合适本文的方法进行分类;
利用多类分类技术(如SVM)进行学习,得到良好的分类模型(如分类精度≥85%)。该分类模型可以对新上市药品的风险等级进行预测。
构建向量空间模型,构建测试集以及训练集,利用基于向量机的分类算法构建分类器,求出分类精度,构建一种对未知标签的不良反应特征进行分类的模型。
步骤6.1)基于支持向量机的多分类技术的基本介绍
支持向量机的主要思想是:建立一个最优决策超平面,使得该平面两侧距离该平面最近的两类样本之间的距离最大化,从而对分类问题提供良好的泛化能力。对于一个多维的样本集,系统随机产生一个超平面并不断移动,对样本进行分类,直到训练样本中属于不同类别的样本点正好位于该超平面的两侧,满足该条件的超平面可能有很多个,SVM正式在保证分类精度的同时,寻找到这样一个超平面,使得超平面两侧的空白区域最大化,从而实现对线性可分样本的最优分类。
目前的多分类技术有多种方法:例如一类对余类法,一对一分类法,二叉树法,纠错输出编码法以及DAGSVM法等。本文选用常用的一类对余类法建立分类模型。
(1)假设共有k个类别,那么就构建k个两分类支持向量机,其中第i个支持向量机把第i类同余下的各类划分开,在训练时第i个支持向量机标记训练集中的第i类+1,余下的类别点为-1进行训练。
(2)识别时,输入数据分别经过k个支持向量机共得到k个输出值f(x)=sgn(gi(x)),若只出现一个+1,则其对应类别为输入信号类别。若不只输出一个+1,或者没有一个输出值为+1,则比较输出值f(x)的大小,输出值最大者对应的类别为输入类别。
步骤6.2)基于药品风险分级的多分类模型应用
Step1:将药品风险分类的实验数据分为5类,那么即为构建5个二分类支持向量机;
Step2:训练时依次把某个类别的样本归为一类,其他剩余的样本归为另一类,将未知样本分类为具有最大分类函数值的那类。如本模型有五类要划分(也就是5个Label),他们是A、B、C、D、E。
在抽取训练集的时候,分别抽取
(1)A所对应的向量作为正集,B,C,D,E所对应的向量作为负集;
(2)B所对应的向量作为正集,A,C,D,E所对应的向量作为负集;
(3)C所对应的向量作为正集,A,B,D,E所对应的向量作为负集;
(4)D所对应的向量作为正集,A,B,D,E所对应的向量作为负集;
(5)E所对应的向量作为正集,A,B,C,D所对应的向量作为负集;
Step3:在训练数据中,目标类标注为+1,其他类标注为-1,使用训练数据对支持向量机进行训练;使用这五个训练集分别进行训练,然后的得到五个训练结果文件。在测试的时候,把对应的测试向量分别利用这五个训练结果文件进行测试。最后每个测试都有一个结果f1(x),f2(x),f3(x),f4(x),f5(x)。于是最终的结果便是这五个值中最大的一个作为分类结果。
Step4:计算并输出分类模型的分类准确度。
Step5:不断优化核函数,使得最终的分类精度≥85%,即可对即将上市的药物进行分类预测。
Claims (9)
1.一种基于机器学习的药品风险分级评估方法,其特征在于:包括以下步骤:
步骤1),获取原始ADR数据库,并进行数据处理:其中原始ADR数据库为国家中心的ADR数据;数据的处理包括对原始ADR数据库进行规整以及筛选报告频次大于等于3的数据;
步骤2),查阅资料,探索影响药品不良反应风险等级大小的相关因素;并按照以下三个因素作为评判标准:T1:严重报告率,T2:伤害度指数,T3:ADR覆盖率;
步骤3),对数据进行人工标注,至少结合临床专家经验、国家不良反应信息通报、病例报道、医学文献、国际药物警戒专业网站信息对部分的常规用药进行打分,分值为0-5分,拟分五个等级:[0,1]为A级;[1,2]为B级;[2,3]为C级;[3,4]为D级;[4,5]为E级;并将标注后的数据集作为训练数据;
步骤4),由步骤3中获得的训练数据建立风险等级评价指标T,T=α1T1+α2T2+α3T3,约束条件:α1+α2+α3=1且αi∈(0,1),i=1~3;
以标准数据集为参考目标,利用群体智能优化算法对指标中的三个参数α1,α2,α3进行优化,优化过程中需要将T规格化为[0,5]之间,得到最优权重;
步骤5),将三种可能因素T1,T2,T3按照权重公式进行定义,引入风险程度的概念,定义为T;以药品不良反应监测数据为基础,以优化后的指标T对总体数据进行标注,以“药品”为对象,以“不良反应”为特征,构建药品在不良反应特征空间分布的数据集D,用于机器学习;
步骤6),利用数据集D和多类分类技术进行分类学习,得到分类精度≥85%的分类模型;该分类模型可以对新上市药品的风险等级值进行预测。
2.根据权利要求1所述的基于机器学习的药品风险分级评估方法,其特征在于,所述步骤1的详细步骤如下:
步骤1)
步骤1.1),获取原始ADR数据库,原始ADR数据从国家药品不良反应监测中心获得;本数据是国家药品评价中心药品不良反应自发呈报系统数据库2010~2011年采集的不良反应报告,作为分析数据;
步骤1.2),数据处理;
步骤1.2.1),针对原始数据存在缺项、重复、药品名称和不良反应名称不规范等问题,先将数据中的缺项进行删除,重复项做唯一化处理,将不规范的名称重新规范化;
步骤1.2.2),用Microsoft Visual FoxPro软件对数据进行预处理,筛选数据量≥3的西药数据,按照品种名称和不良反应名称对应形成新的表格。
3.根据权利要求2所述的基于机器学习的药品风险分级评估方法,其特征在于:所述步骤1.2.2)中共有1763种药品以及对应的879种不良反应。
4.根据权利要求1所述的基于机器学习的药品风险分级评估方法,其特征在于:所述步骤2的详细步骤如下:
步骤2),查阅资料,探索与药品不良反应风险相关的因素:
根据大量资料显示以及专家意见,现决定按照以下三个因素作为评判标准:T1:严重报告率,T2:ADR伤害指数,T3:ADR覆盖率;
评判指标为:
步骤2.1),T1:SRR指标,严重报告率
据2010-2011全国数据共1,209,342份,其中报告类型为“严重”的报告为59,220份,占4.9%,报告类型为“一般”为1,150,122份,占95.1%;
定义:假设某一药品D,其ADR报告总数量为R(D),其中严重报告数量为RS(D),那么,
步骤2.2),T2:DDI指标,伤害度指数
据2010~2011全国数据中1,209,342份报告,其中:5-死亡,为2,319例;4-有后遗症,为1,832例;3-未好转,为8例;2-好转,为681,097例;1-痊愈,为523,971例;0-不详,为115例;
按照伤害程度,一共分为五级,分值为5-1;
定义:假设某一药品D,其ADR报告总数量为R(D),其中对应第i个分值C(i)的伤害相关报告数量分别为f(i),i=1,2,...5,那么,
步骤2.3)T3:ACR指标,ADR覆盖率
据2010~2011全国数据中1,209,342份报告,其中包含2,386种不良反应,以其中一例药品为例,定义:假设某一药品D发生ADR的种类数为K(D),全部ADR种类数为M,那么,
5.根据权利要求1所述的基于机器学习的药品风险分级评估方法,其特征在于:所述步骤3的详细步骤如下:
步骤3.1)选取数据库中某类别药物,通过专家评分的方法,并查阅相关资料作为补充,对此类药物的风险程度进行人工标注打分,将标注后的数据作为训练数据。
6.根据权利要求1所述的基于机器学习的药品风险分级评估方法,其特征在于:所述步骤4的详细步骤如下:
步骤4.1),构建药品风险评估矩阵,
根据T指标和监测数据,计算出每个药品Di(i=1,2,3,...n)的三个因子(Ti1、Ti2、Ti3)的值,全部药品的风险评估矩阵可表示为以下形式:
步骤4.2),构建粒子群优化算法,即PSO算法,
步骤4.2.1),PSO算法的基本原理介绍:初始化为一群随机粒子,即随机解,通过迭代找到最优解;在每一次的迭代中,粒子通过跟踪两个“极值”:pbest,gbest来更新自己,在找到这两个最优值后,粒子通过下面的公式来更新自己的速度和位置;
在PSO求解最优化问题时,通常将所求问题的解设计为搜索空间中一个粒子,每个粒子由三部分组成:当前位置x、飞行速度v和粒子的适应度fitness组成,表示为P(x,v,fitness);
在迭代的过程中,粒子通过更新两个“极值”来更新自己:一个是粒子本身所找到的最优解,称之为粒子的自我认知能力,记为pbest;另一个是整个粒子群目前所找到的最优解,称之为粒子的社会认知能力,记为gbest;
在找到两个最优解以后,每一个粒子通过以下公式更新自己的速度和位置:
vi (t+1)=ωvi (t)+c1r1(pi (t)-xi (t))+c2r2(pg (t)-xi (t)) 公式(1)
xi (t+1)=xi (t)+vi (t+1) 公式(2)
其中pi (t)为第i个粒子目前搜索到的最优解pbest,pg (t)为整个粒子群目前搜索到的最优解gbest;vi是第i个粒子当前飞行速度,c1为自身认知系数,c2为社会认知系数,r1、r2是[0,1]之间的随机数,ω为惯性权重,通常取0.9左右的数;
步骤4.2.2),基于PSO算法的药品指标模型设计,
根据PSO优化算法,将本方案中需要优化的三个参数α1,α2,α3设计为一个粒子在三维空间的位置x,通过大量粒子的位置迭代更新求出最优解;迭代过程中,当某个粒子的位置确定以后,可根据标准数据集的风险评估矩阵计算出每个药品的T指标值,并将T规格化为[0,5]之间的数,根据T值可求出每个药品新的风险等级值;优化目标函数或适应度fitness可依据新的风险等级值和标准数据集中已有的风险等级值的比较来进行度量,公式如下:
fitness=分级正确的药品数/标准数据中所有的药品数 公式(3)
整个粒子群优化算法的算法框架如下:
设群体规模为m,每一个粒子的位置x以一个3×1矩阵表示,其中的三个元素分别代表三个参数α1~α3,初始值为(0,1)之间的随机数;那么,整个初始粒子群构成一个3×m的矩阵;每个粒子的运动速度v为限制在(-1,1)之间的随机数,每个粒子按以下步骤在问题空间中运动:
Step1:更新速度:首次运行直接转Step3;否则,按照公式(1)更新粒子的速度,粒子的最大速度被限定在一定的范围内,如果更新后的速度大于1,则取1,如果小于-1,则取-1;
Step2:更新位置:根据公式(2)来更新粒子每一维的位置,由于每一维的位置值被限制在(0,1)之间,对于逃逸出问题空间的粒子的将被重新招回,将其位置赋给一个(0,1)之间的随机数;
Step3:更新pbest和gbest:根据公式(3)计算每个粒子的适应度fitness,求出每个粒子的最优解pbest,并计算整个粒子群的最优解gbest;对于每一个粒子,如果它目前的pbest比历史所经历的pbest好,则更新pbest,并且粒子返回原来的位置;对于整个粒子群,如果目前的gbest比历史所经历的gbest好,则更新gbest;
Step4:终止操作:如果已经满足迭代次数或gbest平均值已经不再发生变化,则算法终止;否则转Step1;
步骤4.3),以训练集为训练数据,利用群体智能优化算法对指标中的三个参数进行优化,得到最优解,根据约束条件:α1+α2+α3=1,且αi∈(0,1),i=1~3不断优化达到最佳精度使得最后收敛,得出收敛后的α1,α2,α3的值,作为三种分类因素的权重指数,并将T规范化后表示出来。
7.根据权利要求1所述的基于机器学习的药品风险分级评估方法,其特征在于:所述步骤5的详细步骤如下:
步骤5.1),将三种可能因素T1,T2,T3按照权重公式进行定义,引入风险程度的概念,定义为T;
步骤5.2),以药品不良反应监测数据为基础,以优化后的指标T对总体数据进行标注,以“药品”为对象,以“不良反应”为特征,构建药品在不良反应特征空间分布的数据集D,用于机器学习;采用0,1分布的方式进行标注,其中矩阵中元素值为“1”代表在监测数据中存在该药品与该不良反应组合报告,值为“0”则代表在监测数据中不存在该药品与该不良反应组合报告。
8.根据权利要求1所述的基于机器学习的药品风险分级评估方法,其特征在于:所述步骤6的详细步骤如下:
步骤6.1),基于支持向量机的多分类技术的介绍,
支持向量机的主要思想是:建立一个最优决策超平面,使得该平面两侧距离该平面最近的两类样本之间的距离最大化,从而对分类问题提供良好的泛化能力;对于一个多维的样本集,系统随机产生一个超平面并不断移动,对样本进行分类,直到训练样本中属于不同类别的样本点正好位于该超平面的两侧,满足该条件的超平面可能有很多个,SVM正式在保证分类精度的同时,寻找到这样一个超平面,使得超平面两侧的空白区域最大化,从而实现对线性可分样本的最优分类;
所述多分类技术采用一类对余类法,一对一分类法,二叉树法,纠错输出编码法以及DAGSVM法中的任意一种;
步骤6.2),基于药品风险分级的多分类模型应用,
Step1:将药品风险分类的实验数据分为5类,那么即为构建5个二分类支持向量机;
Step2:训练时依次把某个类别的样本归为一类,其他剩余的样本归为另一类,将未知样本分类为具有最大分类函数值的那类;本模型具有五类需划分,即具有5个Label,分别为A、B、C、D、E;
在抽取训练集的时候,分别抽取
(1)A所对应的向量作为正集,B,C,D,E所对应的向量作为负集;
(2)B所对应的向量作为正集,A,C,D,E所对应的向量作为负集;
(3)C所对应的向量作为正集,A,B,D,E所对应的向量作为负集;
(4)D所对应的向量作为正集,A,B,D,E所对应的向量作为负集;
(5)E所对应的向量作为正集,A,B,C,D所对应的向量作为负集;
Step3:在训练数据中,目标类标注为+1,其他类标注为-1,使用训练数据对支持向量机进行训练;使用这五个训练集分别进行训练,然后的得到五个训练结果文件;在测试的时候,把对应的测试向量分别利用这五个训练结果文件进行测试;最后每个测试都有一个结果f1(x),f2(x),f3(x),f4(x),f5(x);于是最终的结果便是这五个值中最大的一个作为分类结果;
Step4:计算并输出分类模型的分类准确度;
Step5:不断优化核函数,使得最终的分类精度≥85%,即可对即将上市的药物进行分类预测。
9.根据权利要求8所述的基于机器学习的药品风险分级评估方法,其特征在于:所述步骤6.1)中选用常一类对余类法建立分类模型;
(1)假设共有k个类别,那么就构建k个两分类支持向量机,其中第i个支持向量机把第i类同余下的各类划分开,在训练时第i个支持向量机标记训练集中的第i类+1,余下的类别点为-1进行训练;
(2)识别时,输入数据分别经过k个支持向量机共得到k个输出值f(x)=sgn(gi(x)),若只出现一个+1,则其对应类别为输入信号类别。若不只输出一个+1,或者没有一个输出值为+1,则比较输出值f(x)的大小,输出值最大者对应的类别为输入类别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811030444.4A CN109273096B (zh) | 2018-09-05 | 2018-09-05 | 一种基于机器学习的药品风险分级评估方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811030444.4A CN109273096B (zh) | 2018-09-05 | 2018-09-05 | 一种基于机器学习的药品风险分级评估方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109273096A true CN109273096A (zh) | 2019-01-25 |
CN109273096B CN109273096B (zh) | 2021-07-13 |
Family
ID=65187707
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811030444.4A Active CN109273096B (zh) | 2018-09-05 | 2018-09-05 | 一种基于机器学习的药品风险分级评估方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109273096B (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109992663A (zh) * | 2019-03-11 | 2019-07-09 | 出门问问信息科技有限公司 | 意向评级模型及其构建方法、计算机设备及存储介质 |
CN110415825A (zh) * | 2019-08-19 | 2019-11-05 | 杭州思锐信息技术股份有限公司 | 一种基于机器学习的老人安全状态智能评估方法和系统 |
CN110459292A (zh) * | 2019-07-02 | 2019-11-15 | 南京邮电大学 | 一种基于聚类和pnn的药品风险分级方法 |
CN110782997A (zh) * | 2019-09-30 | 2020-02-11 | 南京邮电大学 | 一种基于不良反应监测报告的药品风险评估模型 |
CN111145845A (zh) * | 2019-12-20 | 2020-05-12 | 四川大学华西第二医院 | 基于区块链抗肿瘤药物分级管理及追踪用药依从性系统 |
CN112349431A (zh) * | 2020-11-09 | 2021-02-09 | 浙江太美医疗科技股份有限公司 | 药物警戒体系健康指数生成方法、系统和计算机可读介质 |
CN113074516A (zh) * | 2021-04-30 | 2021-07-06 | 开封迪尔空分实业有限公司 | 一种采用单塔的制氩方法 |
CN116153462A (zh) * | 2023-04-20 | 2023-05-23 | 南京引光医药科技有限公司 | 一种药物警戒系统及药物警戒反馈数据处理方法 |
CN116834563A (zh) * | 2023-09-01 | 2023-10-03 | 中国电建集团昆明勘测设计研究院有限公司 | 一种有轨电车的通行优化方法、装置、设备及存储介质 |
CN117332133A (zh) * | 2023-10-17 | 2024-01-02 | 四川奥诚科技有限责任公司 | 一种基于专家评分的数据分级方法 |
CN118471408A (zh) * | 2024-05-21 | 2024-08-09 | 暨南大学 | 一种药物临床试验susar报告质量评价的自动化评估系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080010232A1 (en) * | 2006-05-08 | 2008-01-10 | Shashi Kant | Apparatus and method for learning and reasoning for systems with temporal and non-temporal variables |
CN106021851A (zh) * | 2016-05-05 | 2016-10-12 | 北京快马互联科技有限公司 | 用于临床用药风险智能评估的方法 |
CN107341345A (zh) * | 2017-06-22 | 2017-11-10 | 厦门大学 | 一种基于电子病历大数据的临床合理用药风险评估方法 |
CN108122059A (zh) * | 2016-11-30 | 2018-06-05 | 沈阳药科大学 | 一种药品生产企业的生产风险识别的方法及自动预警系统 |
-
2018
- 2018-09-05 CN CN201811030444.4A patent/CN109273096B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080010232A1 (en) * | 2006-05-08 | 2008-01-10 | Shashi Kant | Apparatus and method for learning and reasoning for systems with temporal and non-temporal variables |
CN106021851A (zh) * | 2016-05-05 | 2016-10-12 | 北京快马互联科技有限公司 | 用于临床用药风险智能评估的方法 |
CN108122059A (zh) * | 2016-11-30 | 2018-06-05 | 沈阳药科大学 | 一种药品生产企业的生产风险识别的方法及自动预警系统 |
CN107341345A (zh) * | 2017-06-22 | 2017-11-10 | 厦门大学 | 一种基于电子病历大数据的临床合理用药风险评估方法 |
Non-Patent Citations (1)
Title |
---|
桂得权等: "药品不良反应严重程度分级评分模型的建立与应用", 《中国药房 》 * |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109992663A (zh) * | 2019-03-11 | 2019-07-09 | 出门问问信息科技有限公司 | 意向评级模型及其构建方法、计算机设备及存储介质 |
CN110459292A (zh) * | 2019-07-02 | 2019-11-15 | 南京邮电大学 | 一种基于聚类和pnn的药品风险分级方法 |
CN110459292B (zh) * | 2019-07-02 | 2022-09-20 | 南京邮电大学 | 一种基于聚类和pnn的药品风险分级方法 |
CN110415825A (zh) * | 2019-08-19 | 2019-11-05 | 杭州思锐信息技术股份有限公司 | 一种基于机器学习的老人安全状态智能评估方法和系统 |
CN110782997A (zh) * | 2019-09-30 | 2020-02-11 | 南京邮电大学 | 一种基于不良反应监测报告的药品风险评估模型 |
CN111145845A (zh) * | 2019-12-20 | 2020-05-12 | 四川大学华西第二医院 | 基于区块链抗肿瘤药物分级管理及追踪用药依从性系统 |
CN112349431B (zh) * | 2020-11-09 | 2024-02-02 | 浙江太美医疗科技股份有限公司 | 药物警戒体系健康指数生成方法、系统和计算机可读介质 |
CN112349431A (zh) * | 2020-11-09 | 2021-02-09 | 浙江太美医疗科技股份有限公司 | 药物警戒体系健康指数生成方法、系统和计算机可读介质 |
CN113074516A (zh) * | 2021-04-30 | 2021-07-06 | 开封迪尔空分实业有限公司 | 一种采用单塔的制氩方法 |
CN116153462A (zh) * | 2023-04-20 | 2023-05-23 | 南京引光医药科技有限公司 | 一种药物警戒系统及药物警戒反馈数据处理方法 |
CN116834563A (zh) * | 2023-09-01 | 2023-10-03 | 中国电建集团昆明勘测设计研究院有限公司 | 一种有轨电车的通行优化方法、装置、设备及存储介质 |
CN116834563B (zh) * | 2023-09-01 | 2023-11-10 | 中国电建集团昆明勘测设计研究院有限公司 | 一种有轨电车的通行优化方法、装置、设备及存储介质 |
CN117332133A (zh) * | 2023-10-17 | 2024-01-02 | 四川奥诚科技有限责任公司 | 一种基于专家评分的数据分级方法 |
CN117332133B (zh) * | 2023-10-17 | 2024-03-19 | 四川奥诚科技有限责任公司 | 一种基于专家评分的数据分级方法 |
CN118471408A (zh) * | 2024-05-21 | 2024-08-09 | 暨南大学 | 一种药物临床试验susar报告质量评价的自动化评估系统 |
Also Published As
Publication number | Publication date |
---|---|
CN109273096B (zh) | 2021-07-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109273096A (zh) | 一种基于机器学习的药品风险分级评估方法 | |
WO2019233189A1 (zh) | 一种传感网络异常数据检测方法 | |
CN111523603B (zh) | 一种船舶动力设备故障识别方法 | |
CN109597968B (zh) | 基于smt大数据的锡膏印刷性能影响因素分析方法 | |
CN108549954A (zh) | 风险模型训练方法、风险识别方法、装置、设备及介质 | |
CN106021771A (zh) | 一种故障诊断方法及装置 | |
CN116306323B (zh) | 一种数字孪生模型的确定方法、装置、终端设备及介质 | |
CN112037925B (zh) | 一种基于lstm算法的新发重大传染病预警方法 | |
CN113257425B (zh) | 一种优化LSTM和LightGBM参数的流感预测系统、存储介质和装置 | |
CN115619271B (zh) | 一种基于cnn和随机森林的充电桩状态评估方法及装置 | |
CN117171678B (zh) | 一种微生物修复过程中土壤微生物菌群调控方法及系统 | |
CN110020712A (zh) | 一种基于聚类的优化粒子群bp网络预测方法和系统 | |
Satoła et al. | Performance comparison of machine learning models used for predicting subclinical mastitis in dairy cows: Bagging, boosting, stacking, and super-learner ensembles versus single machine learning models | |
CN116702132A (zh) | 网络入侵检测方法及系统 | |
CN109886288A (zh) | 一种用于电力变压器的状态评价方法及装置 | |
CN111858568B (zh) | 一种基于集成学习与改变决策阈值的化验数据校验方法 | |
Araújo et al. | Appropriate search techniques to estimate Weibull function parameters in a Pinus spp. plantation | |
CN110059752A (zh) | 一种基于信息熵抽样估计的统计学习查询方法 | |
CN118114155A (zh) | 一种基于数据均衡及gbdt的油浸式变压器故障诊断方法 | |
Salleh | A fuzzy modelling of decision support system for crop selection | |
CN116796894A (zh) | 一种高效深度学习气象预测模型的构建方法 | |
CN114282726A (zh) | 制种田预测处理方法、装置、存储介质及电子装置 | |
CN113555124A (zh) | 一种基于机器学习的血常规样本差值核查方法 | |
CN113269217A (zh) | 基于Fisher准则的雷达目标分类方法 | |
CN110782997A (zh) | 一种基于不良反应监测报告的药品风险评估模型 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |