[go: up one dir, main page]

CN107301323B - 一种与银屑病相关的分类模型的构建方法 - Google Patents

一种与银屑病相关的分类模型的构建方法 Download PDF

Info

Publication number
CN107301323B
CN107301323B CN201710692864.8A CN201710692864A CN107301323B CN 107301323 B CN107301323 B CN 107301323B CN 201710692864 A CN201710692864 A CN 201710692864A CN 107301323 B CN107301323 B CN 107301323B
Authority
CN
China
Prior art keywords
psoriasis
data
classification
svm
susceptibility
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710692864.8A
Other languages
English (en)
Other versions
CN107301323A (zh
Inventor
孙良丹
张涛
甄琪
王文俊
钱文君
莫晓东
吴静
郑晓冬
李报
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BGI Shenzhen Co Ltd
First Affiliated Hospital of Anhui Medical University
Original Assignee
BGI Shenzhen Co Ltd
First Affiliated Hospital of Anhui Medical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BGI Shenzhen Co Ltd, First Affiliated Hospital of Anhui Medical University filed Critical BGI Shenzhen Co Ltd
Priority to CN201710692864.8A priority Critical patent/CN107301323B/zh
Publication of CN107301323A publication Critical patent/CN107301323A/zh
Application granted granted Critical
Publication of CN107301323B publication Critical patent/CN107301323B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Bioethics (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及医学检测技术领域,具体涉及一种与银屑病相关的分类模型的构建方法,包括以下步骤:(1)选取银屑病易感位点;(2)根据不同类型的易感位点,转化为输入数据;(3)利用Adaboost‑SVM模型进行数据的分类。目前的缺乏相关的技术来对银屑病数据进行分类和预测,只停留在判断位点有无来推断患病情况。本发明利用有效的机器学习分类器SVM进行分类,并通过了adaboost框架来集成SVM,提高分类器的准确性。该模型可以整合SNP、氨基酸和型别数据进行分类,综合考虑各个维度的信息,提高了数据了分类结果的准确性。

Description

一种与银屑病相关的分类模型的构建方法
技术领域
本发明涉及医学检测技术领域,具体涉及一种与银屑病相关的分类模型的构建方法。
背景技术
银屑病又称牛皮癣是一种常见的复杂疾病,有报道银屑病的发生与遗传因素相关,尤其是人类白细胞抗原区域(HLA),但真正相关的位点并未可知。
随着测序技术的发展和基因组研究的深入,在去年《自然遗传》上就有报道中国人MHC区域的高深度测序和精准变异检测,在其基因组关联分析中定位了数个银屑病的易感位点。但是目前尚缺乏基于HLA区域的易感位点的分类和预测模型。所以急需开发相关的分类预测工具利用HLA区域易感位点对数据进行分类预测。
银屑病与HLA最显著相关,但目前的技术缺乏对HLA区域针对性的运用。近期HLA区域进行精准变异检测得到突破,精准的定位了HLA上与银屑病相关的易感位点。本发明针对这些易感位点对其进行编码和再用机器学习模型Adaboost进行分类,可以整合利用HLA区域找到的易感位点信息。利用机器学习模型对数据进行综合分析,提高分类准确性,为银屑病的预防筛查提供依据。
发明内容
本发明的目的是解决上述现有技术的不足,基于对MHC区域的全覆盖找到与银屑病相关的生物标记,基于HLA区域独立相关的易感位点,利用SVM-Adaboost构建银屑病的分类模型,提供一种与银屑病相关的分类模型的构建方法,为银屑病的预防筛查提供依据。
本发明是通过以下技术方案实现的:
1 数据处理和转换
将各个样本的变异进行编码。通过高通量测序数据获得变异信息,包括HLA型别(C*06:02、C*07:04、DPB1*05:01),单核苷酸多态性位点(SNP位点)和氨基酸(snp31443520、B:Y33Y、B:Y91C、B:Y140S、snp32472030)。
然后对每样本,根据易感位点,转化为本发明所需要的输入数据。针对HLA型别采用编辑距离打分,SNP和氨基酸采用0/1打分。具体方法如下:①针对易感HLA型别,计算每个个体该型别与易感型别的编辑距离并打分;②针对SNP位点,如果突变存在记为1,不存在记为0;③针对氨基酸突变,如果突变存在记为1,不存在记为0。
打分完成后,将数据随机拆分,拆分为测试集和训练集,注意测试集和训练集数据没有重叠。样本数少的时候,可以按照5折交叉法(或10折交叉法)将数据分成5份(10份),每次取出1作为测试集,其余的作为训练集。
2 利用adaboost-SVM模型进行数据的分类
本发明利用adaboost方法来集成支持向量机(SVM)分类器,整合利用所有的易感位点信息,提高数据的分类的正确率。
2.1 关于分类模型的构建
2.1.1 子分类模型SVM
支持向量机模型SVM是经典的机器学习分类软件,属于有监督式学习。本发明首先利用的高斯核函数(公式1)将数据投射到高维度空间。
Figure BDA0001378328710000021
其中,x为空间中任意一点,y为所选空间中心,σ为宽度参数,K(x,y)为x到y的空间距离。
之后高维度空间中用SVM模型构建分隔平面。分隔平面构建主要是通过距离分隔平面最近的数个点来确定(如图1所示A点就是最近的点之一),并且将最近的点到分隔平面的连线称为支持向量,当支持向量达到最大化时候的平面就设为分隔平面,也即是通过分隔平面将数据最大地分开。本发明采用基于python 2的SVM模型(参考网站https://www.manning.com/books/machine-learning-in-action)。
2.1.2 分类模型集成算法Adaboost
Adaboost是一种基于错误提升分类器性能的集成方法,通过每一个样本多次训练,通过错误率反复修正分类器最后整合得到集成后的结果。具体方法:首先对样本赋予一样同等的权重。然后在训练数集数据上训练SVM并计算该分类器的错误率(ε,公式2)。
错误率ε=正确分类数目/总样本数目 (公式2)
然后调整高斯核函数σ,之后在同一数据集上再次SVM。在分类器的第二次训练当中,将会重新调整每个样本的权重(这里的权重是一个多维度的向量),其中分类正确样本的下次分类权重将会降低,分类错误的样本的下次权重将会提高。也就是说,最终达到分类正确时候的权重会比分类错误的权重占比要大。具体方法是根据错误率计算每个分类器的权重α。
Figure BDA0001378328710000031
计算出α之后可以对权重进行更新。
分类正确:
Figure BDA0001378328710000032
分类错误:
Figure BDA0001378328710000033
α为基本分类器在最终分类器中的权重,ε为分类器的错误率;(t)代表顺序,t代表本次,t+1代表下一次;Di为第i个训练样本权值。
计算权值D之后,开始进入下一轮迭代。不断地重复训练和调整权重的过程,直到训练错误率为0或者弱分类器的数目达到指定值。本发明采用基于python2的adaboost集成框架(参考网站https://www.manning.com/books/machine-learning-in-action)
3 对数据进行分类和评估
构建好输入训练集和测试集之后,代入构建的adaboost-SVM模型中进行分类。通过分类模型的结果与实际患病与否的情况进行比较。通过计算准确率和绘制ROC曲线来对结果进行评估。
ROC曲线是用于选择最佳的信号模型的方法。通常可计算ROC曲线下方面积(AUC)来判断分类模型好坏,具体参考表1。
表1
Figure BDA0001378328710000041
本发明的有益效果在于:
目前缺乏相关的技术来对银屑病数据进行分类和预测,只停留在判断位点有无来推断患病情况。本发明利用有效的机器学习分类器SVM进行分类,并通过了adaboost框架来集成SVM,提高分类器的准确性。该模型可以整合SNP、氨基酸和型别数据进行分类,综合考虑各个维度的信息,提高了数据了分类结果的准确性。
附图说明
图1为高维度空间中用SVM模型构建分隔平面的示意图;
图2为本发明训练集分类结果的ROC曲线;
图3为本发明测试集分类结果的ROC曲线。
具体实施方式
为更好理解本发明,下面结合实施例及附图对本发明作进一步描述,以下实施例仅是对本发明进行说明而非对其加以限定。
实施例1
选择了银屑病30岁以下样本进行研究共计5168例。利用基于python2语言的adaboost-SVM模型针对易感位点构建模型进行分类。
1 数据的处理和转换
本实施案例中,首先通过变异检测获得样本的变异信息ped和map文件。之后根据易感位点(表2)提取出HLA区域变异信息。其中型别(1、2、7)的打分按照编辑距离进行打分(打分矩阵见表3),氨基酸位点和SNP位点(3、4、5、6、8)按照存在与否进行打分,存在打分为1,不存在打分为0。
表2 易感位点
Figure BDA0001378328710000051
表3 编辑距离打分矩阵
Figure BDA0001378328710000052
得到数据列表,由于数据量5168例,所以本案选择2000例作为训练集,余下样本作为测试集。
2 代入模型
将处理好的数据代入本发明构建的adaboost-SVM模型中进行计算,本案设置9个SVM分类器,σ取值从30到3,从大到小逐次递减。
3 得到结果
如图2和3所示,本案分类错误率为23.9%,训练集AUC(ROC曲线下面积)为0.833,测试集AUC为0.868,说明本发明在本实施例中达到良好效果。
以上所述实施方式仅仅是对本发明的优选实施方式进行描述,并非对本发明的范围进行限定,在不脱离本发明设计精神的前提下,本领域普通技术人员对本发明的技术方案作出的各种变形和改进,均应落入本发明的权利要求书确定的保护范围内。

Claims (3)

1.一种与银屑病相关的分类模型的构建方法,其特征在于,包括以下步骤:
(1)选取银屑病易感位点;
(2)根据不同类型的易感位点,转化为输入数据;
(3)利用Adaboost-SVM模型进行数据的分类;
步骤(1)所述银屑病易感位点包括HLA型别、SNP位点和氨基酸中的至少一种;
所述HLA型别的易感位点包括C*06:02、C*07:04、DPB1*05:01中的至少一种;
所述SNP位点和氨基酸的易感位点包括snp31443520、B:Y33Y、B:Y91C、B:Y140S、snp32472030中的至少一种;
步骤(2)所述的转化方法为:针对HLA型别采用编辑距离打分,SNP和氨基酸采用0/1打分;具体方法如下:①针对易感HLA型别,计算每个个体该型别与易感型别的编辑距离并打分;②针对SNP位点,如果突变存在记为1,不存在记为0;③针对氨基酸突变,如果突变存在记为1,不存在记为0;
步骤(3)所述分类包括以下步骤:
(31)利用高斯核函数将数据投射到高维度空间,然后在高维度空间中用SVM模型构建分隔平面;
(32)对样本赋予一样同等的权重,然后在训练数集数据上训练SVM并计算分类器的错误率训练弱分类器,再将各个训练得到的弱分类器组合成强分类器;
(33)对数据进行分类和评估。
2.根据权利要求1所述的一种与银屑病相关的分类模型的构建方法,其特征在于,步骤(31)所述的高斯核函数的公式为:
Figure FDA0002644322990000021
其中,x为空间中任意一点,y为所选空间中心,σ为宽度参数,K(x,y)为x到y的空间距离。
3.根据权利要求1所述的一种与银屑病相关的分类模型的构建方法,其特征在于,步骤(33)所述评估方法为计算ROC曲线下方面积。
CN201710692864.8A 2017-08-14 2017-08-14 一种与银屑病相关的分类模型的构建方法 Active CN107301323B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710692864.8A CN107301323B (zh) 2017-08-14 2017-08-14 一种与银屑病相关的分类模型的构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710692864.8A CN107301323B (zh) 2017-08-14 2017-08-14 一种与银屑病相关的分类模型的构建方法

Publications (2)

Publication Number Publication Date
CN107301323A CN107301323A (zh) 2017-10-27
CN107301323B true CN107301323B (zh) 2020-11-03

Family

ID=60131823

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710692864.8A Active CN107301323B (zh) 2017-08-14 2017-08-14 一种与银屑病相关的分类模型的构建方法

Country Status (1)

Country Link
CN (1) CN107301323B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108052796B (zh) * 2017-12-26 2021-07-13 云南大学 基于集成学习的全球人类mtDNA发育树分类查询方法
CN108961207B (zh) * 2018-05-02 2022-11-04 上海大学 基于多模态超声图像的淋巴结良恶性病变辅助诊断方法
CN114371135B (zh) * 2021-10-25 2024-01-30 孙良丹 一种用于评价银屑病的评价系统及应用

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016183348A1 (en) * 2015-05-12 2016-11-17 The Johns Hopkins University Methods, systems and devices comprising support vector machine for regulatory sequence features
CN106778065A (zh) * 2016-12-30 2017-05-31 同济大学 一种基于多元数据预测dna突变影响蛋白互作的预测方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20030032395A (ko) * 2001-10-24 2003-04-26 김명호 서포트 벡터 머신을 이용한 다중 에스엔피(snp)와질병의 상관관계 분석 방법
EP3467123A3 (en) * 2008-11-17 2019-07-31 Veracyte, Inc. Methods and compositions of molecular profiling for disease diagnostics
CN106202936A (zh) * 2016-07-13 2016-12-07 为朔医学数据科技(北京)有限公司 一种疾病风险预测方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016183348A1 (en) * 2015-05-12 2016-11-17 The Johns Hopkins University Methods, systems and devices comprising support vector machine for regulatory sequence features
CN106778065A (zh) * 2016-12-30 2017-05-31 同济大学 一种基于多元数据预测dna突变影响蛋白互作的预测方法

Also Published As

Publication number Publication date
CN107301323A (zh) 2017-10-27

Similar Documents

Publication Publication Date Title
CN109273096B (zh) 一种基于机器学习的药品风险分级评估方法
US11837329B2 (en) Method for classifying multi-granularity breast cancer genes based on double self-adaptive neighborhood radius
WO2020199345A1 (zh) 一种基于GitHub的半监督异构软件缺陷预测算法
CN105069470A (zh) 分类模型训练方法及装置
CN105938523B (zh) 基于特征辨识度和独立性的基因选择方法
CN106778065B (zh) 一种基于多元数据预测dna突变影响蛋白互作的预测方法
CN103955628B (zh) 基于子空间融合的蛋白质‑维他命绑定位点预测方法
CN104866863B (zh) 一种生物标志物筛选方法
CN107301323B (zh) 一种与银屑病相关的分类模型的构建方法
CN108038352B (zh) 结合差异化分析和关联规则挖掘全基因组关键基因的方法
CN103617435A (zh) 一种主动学习图像分类方法和系统
CN105740914A (zh) 一种基于近邻多分类器集成的车牌识别方法及系统
CN110853756A (zh) 基于som神经网络和svm的食管癌风险预测方法
CN103617203B (zh) 基于查询驱动的蛋白质-配体绑定位点预测方法
CN103761426A (zh) 一种在高维数据中快速识别特征组合的方法及系统
US12272431B2 (en) Detecting false positive variant calls in next-generation sequencing
CN105825078A (zh) 基于基因大数据的小样本基因表达数据分类方法
CN102346817B (zh) 一种借助支持向量机建立过敏原家族特征肽的过敏原的预测方法
CN112102880A (zh) 品种鉴定的方法、其预测模型的构建方法和装置
CN117393042A (zh) 一种预测错义突变致病性的分析方法
CN111863135B (zh) 一种假阳性结构变异过滤方法、存储介质及计算设备
CN104200134A (zh) 一种基于局部线性嵌入算法的肿瘤基因表数据特征选择方法
CN107480441B (zh) 一种儿童脓毒性休克预后预测的建模方法及系统
CN109326329A (zh) 一种非平衡模式下基于集成学习的锌结合蛋白质作用位点预测方法
CN106951728A (zh) 一种基于粒子群优化和打分准则的肿瘤关键基因识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant