CN107301323B - 一种与银屑病相关的分类模型的构建方法 - Google Patents
一种与银屑病相关的分类模型的构建方法 Download PDFInfo
- Publication number
- CN107301323B CN107301323B CN201710692864.8A CN201710692864A CN107301323B CN 107301323 B CN107301323 B CN 107301323B CN 201710692864 A CN201710692864 A CN 201710692864A CN 107301323 B CN107301323 B CN 107301323B
- Authority
- CN
- China
- Prior art keywords
- psoriasis
- data
- classification
- svm
- susceptibility
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
Landscapes
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Bioethics (AREA)
- Genetics & Genomics (AREA)
- Molecular Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- Evolutionary Computation (AREA)
- Public Health (AREA)
- Software Systems (AREA)
- Investigating Or Analysing Biological Materials (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及医学检测技术领域,具体涉及一种与银屑病相关的分类模型的构建方法,包括以下步骤:(1)选取银屑病易感位点;(2)根据不同类型的易感位点,转化为输入数据;(3)利用Adaboost‑SVM模型进行数据的分类。目前的缺乏相关的技术来对银屑病数据进行分类和预测,只停留在判断位点有无来推断患病情况。本发明利用有效的机器学习分类器SVM进行分类,并通过了adaboost框架来集成SVM,提高分类器的准确性。该模型可以整合SNP、氨基酸和型别数据进行分类,综合考虑各个维度的信息,提高了数据了分类结果的准确性。
Description
技术领域
本发明涉及医学检测技术领域,具体涉及一种与银屑病相关的分类模型的构建方法。
背景技术
银屑病又称牛皮癣是一种常见的复杂疾病,有报道银屑病的发生与遗传因素相关,尤其是人类白细胞抗原区域(HLA),但真正相关的位点并未可知。
随着测序技术的发展和基因组研究的深入,在去年《自然遗传》上就有报道中国人MHC区域的高深度测序和精准变异检测,在其基因组关联分析中定位了数个银屑病的易感位点。但是目前尚缺乏基于HLA区域的易感位点的分类和预测模型。所以急需开发相关的分类预测工具利用HLA区域易感位点对数据进行分类预测。
银屑病与HLA最显著相关,但目前的技术缺乏对HLA区域针对性的运用。近期HLA区域进行精准变异检测得到突破,精准的定位了HLA上与银屑病相关的易感位点。本发明针对这些易感位点对其进行编码和再用机器学习模型Adaboost进行分类,可以整合利用HLA区域找到的易感位点信息。利用机器学习模型对数据进行综合分析,提高分类准确性,为银屑病的预防筛查提供依据。
发明内容
本发明的目的是解决上述现有技术的不足,基于对MHC区域的全覆盖找到与银屑病相关的生物标记,基于HLA区域独立相关的易感位点,利用SVM-Adaboost构建银屑病的分类模型,提供一种与银屑病相关的分类模型的构建方法,为银屑病的预防筛查提供依据。
本发明是通过以下技术方案实现的:
1 数据处理和转换
将各个样本的变异进行编码。通过高通量测序数据获得变异信息,包括HLA型别(C*06:02、C*07:04、DPB1*05:01),单核苷酸多态性位点(SNP位点)和氨基酸(snp31443520、B:Y33Y、B:Y91C、B:Y140S、snp32472030)。
然后对每样本,根据易感位点,转化为本发明所需要的输入数据。针对HLA型别采用编辑距离打分,SNP和氨基酸采用0/1打分。具体方法如下:①针对易感HLA型别,计算每个个体该型别与易感型别的编辑距离并打分;②针对SNP位点,如果突变存在记为1,不存在记为0;③针对氨基酸突变,如果突变存在记为1,不存在记为0。
打分完成后,将数据随机拆分,拆分为测试集和训练集,注意测试集和训练集数据没有重叠。样本数少的时候,可以按照5折交叉法(或10折交叉法)将数据分成5份(10份),每次取出1作为测试集,其余的作为训练集。
2 利用adaboost-SVM模型进行数据的分类
本发明利用adaboost方法来集成支持向量机(SVM)分类器,整合利用所有的易感位点信息,提高数据的分类的正确率。
2.1 关于分类模型的构建
2.1.1 子分类模型SVM
支持向量机模型SVM是经典的机器学习分类软件,属于有监督式学习。本发明首先利用的高斯核函数(公式1)将数据投射到高维度空间。
其中,x为空间中任意一点,y为所选空间中心,σ为宽度参数,K(x,y)为x到y的空间距离。
之后高维度空间中用SVM模型构建分隔平面。分隔平面构建主要是通过距离分隔平面最近的数个点来确定(如图1所示A点就是最近的点之一),并且将最近的点到分隔平面的连线称为支持向量,当支持向量达到最大化时候的平面就设为分隔平面,也即是通过分隔平面将数据最大地分开。本发明采用基于python 2的SVM模型(参考网站https://www.manning.com/books/machine-learning-in-action)。
2.1.2 分类模型集成算法Adaboost
Adaboost是一种基于错误提升分类器性能的集成方法,通过每一个样本多次训练,通过错误率反复修正分类器最后整合得到集成后的结果。具体方法:首先对样本赋予一样同等的权重。然后在训练数集数据上训练SVM并计算该分类器的错误率(ε,公式2)。
错误率ε=正确分类数目/总样本数目 (公式2)
然后调整高斯核函数σ,之后在同一数据集上再次SVM。在分类器的第二次训练当中,将会重新调整每个样本的权重(这里的权重是一个多维度的向量),其中分类正确样本的下次分类权重将会降低,分类错误的样本的下次权重将会提高。也就是说,最终达到分类正确时候的权重会比分类错误的权重占比要大。具体方法是根据错误率计算每个分类器的权重α。
计算出α之后可以对权重进行更新。
分类正确:
分类错误:
α为基本分类器在最终分类器中的权重,ε为分类器的错误率;(t)代表顺序,t代表本次,t+1代表下一次;Di为第i个训练样本权值。
计算权值D之后,开始进入下一轮迭代。不断地重复训练和调整权重的过程,直到训练错误率为0或者弱分类器的数目达到指定值。本发明采用基于python2的adaboost集成框架(参考网站https://www.manning.com/books/machine-learning-in-action)
3 对数据进行分类和评估
构建好输入训练集和测试集之后,代入构建的adaboost-SVM模型中进行分类。通过分类模型的结果与实际患病与否的情况进行比较。通过计算准确率和绘制ROC曲线来对结果进行评估。
ROC曲线是用于选择最佳的信号模型的方法。通常可计算ROC曲线下方面积(AUC)来判断分类模型好坏,具体参考表1。
表1
本发明的有益效果在于:
目前缺乏相关的技术来对银屑病数据进行分类和预测,只停留在判断位点有无来推断患病情况。本发明利用有效的机器学习分类器SVM进行分类,并通过了adaboost框架来集成SVM,提高分类器的准确性。该模型可以整合SNP、氨基酸和型别数据进行分类,综合考虑各个维度的信息,提高了数据了分类结果的准确性。
附图说明
图1为高维度空间中用SVM模型构建分隔平面的示意图;
图2为本发明训练集分类结果的ROC曲线;
图3为本发明测试集分类结果的ROC曲线。
具体实施方式
为更好理解本发明,下面结合实施例及附图对本发明作进一步描述,以下实施例仅是对本发明进行说明而非对其加以限定。
实施例1
选择了银屑病30岁以下样本进行研究共计5168例。利用基于python2语言的adaboost-SVM模型针对易感位点构建模型进行分类。
1 数据的处理和转换
本实施案例中,首先通过变异检测获得样本的变异信息ped和map文件。之后根据易感位点(表2)提取出HLA区域变异信息。其中型别(1、2、7)的打分按照编辑距离进行打分(打分矩阵见表3),氨基酸位点和SNP位点(3、4、5、6、8)按照存在与否进行打分,存在打分为1,不存在打分为0。
表2 易感位点
表3 编辑距离打分矩阵
得到数据列表,由于数据量5168例,所以本案选择2000例作为训练集,余下样本作为测试集。
2 代入模型
将处理好的数据代入本发明构建的adaboost-SVM模型中进行计算,本案设置9个SVM分类器,σ取值从30到3,从大到小逐次递减。
3 得到结果
如图2和3所示,本案分类错误率为23.9%,训练集AUC(ROC曲线下面积)为0.833,测试集AUC为0.868,说明本发明在本实施例中达到良好效果。
以上所述实施方式仅仅是对本发明的优选实施方式进行描述,并非对本发明的范围进行限定,在不脱离本发明设计精神的前提下,本领域普通技术人员对本发明的技术方案作出的各种变形和改进,均应落入本发明的权利要求书确定的保护范围内。
Claims (3)
1.一种与银屑病相关的分类模型的构建方法,其特征在于,包括以下步骤:
(1)选取银屑病易感位点;
(2)根据不同类型的易感位点,转化为输入数据;
(3)利用Adaboost-SVM模型进行数据的分类;
步骤(1)所述银屑病易感位点包括HLA型别、SNP位点和氨基酸中的至少一种;
所述HLA型别的易感位点包括C*06:02、C*07:04、DPB1*05:01中的至少一种;
所述SNP位点和氨基酸的易感位点包括snp31443520、B:Y33Y、B:Y91C、B:Y140S、snp32472030中的至少一种;
步骤(2)所述的转化方法为:针对HLA型别采用编辑距离打分,SNP和氨基酸采用0/1打分;具体方法如下:①针对易感HLA型别,计算每个个体该型别与易感型别的编辑距离并打分;②针对SNP位点,如果突变存在记为1,不存在记为0;③针对氨基酸突变,如果突变存在记为1,不存在记为0;
步骤(3)所述分类包括以下步骤:
(31)利用高斯核函数将数据投射到高维度空间,然后在高维度空间中用SVM模型构建分隔平面;
(32)对样本赋予一样同等的权重,然后在训练数集数据上训练SVM并计算分类器的错误率训练弱分类器,再将各个训练得到的弱分类器组合成强分类器;
(33)对数据进行分类和评估。
3.根据权利要求1所述的一种与银屑病相关的分类模型的构建方法,其特征在于,步骤(33)所述评估方法为计算ROC曲线下方面积。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710692864.8A CN107301323B (zh) | 2017-08-14 | 2017-08-14 | 一种与银屑病相关的分类模型的构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710692864.8A CN107301323B (zh) | 2017-08-14 | 2017-08-14 | 一种与银屑病相关的分类模型的构建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107301323A CN107301323A (zh) | 2017-10-27 |
CN107301323B true CN107301323B (zh) | 2020-11-03 |
Family
ID=60131823
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710692864.8A Active CN107301323B (zh) | 2017-08-14 | 2017-08-14 | 一种与银屑病相关的分类模型的构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107301323B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108052796B (zh) * | 2017-12-26 | 2021-07-13 | 云南大学 | 基于集成学习的全球人类mtDNA发育树分类查询方法 |
CN108961207B (zh) * | 2018-05-02 | 2022-11-04 | 上海大学 | 基于多模态超声图像的淋巴结良恶性病变辅助诊断方法 |
CN114371135B (zh) * | 2021-10-25 | 2024-01-30 | 孙良丹 | 一种用于评价银屑病的评价系统及应用 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016183348A1 (en) * | 2015-05-12 | 2016-11-17 | The Johns Hopkins University | Methods, systems and devices comprising support vector machine for regulatory sequence features |
CN106778065A (zh) * | 2016-12-30 | 2017-05-31 | 同济大学 | 一种基于多元数据预测dna突变影响蛋白互作的预测方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20030032395A (ko) * | 2001-10-24 | 2003-04-26 | 김명호 | 서포트 벡터 머신을 이용한 다중 에스엔피(snp)와질병의 상관관계 분석 방법 |
EP3467123A3 (en) * | 2008-11-17 | 2019-07-31 | Veracyte, Inc. | Methods and compositions of molecular profiling for disease diagnostics |
CN106202936A (zh) * | 2016-07-13 | 2016-12-07 | 为朔医学数据科技(北京)有限公司 | 一种疾病风险预测方法及系统 |
-
2017
- 2017-08-14 CN CN201710692864.8A patent/CN107301323B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016183348A1 (en) * | 2015-05-12 | 2016-11-17 | The Johns Hopkins University | Methods, systems and devices comprising support vector machine for regulatory sequence features |
CN106778065A (zh) * | 2016-12-30 | 2017-05-31 | 同济大学 | 一种基于多元数据预测dna突变影响蛋白互作的预测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN107301323A (zh) | 2017-10-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109273096B (zh) | 一种基于机器学习的药品风险分级评估方法 | |
US11837329B2 (en) | Method for classifying multi-granularity breast cancer genes based on double self-adaptive neighborhood radius | |
WO2020199345A1 (zh) | 一种基于GitHub的半监督异构软件缺陷预测算法 | |
CN105069470A (zh) | 分类模型训练方法及装置 | |
CN105938523B (zh) | 基于特征辨识度和独立性的基因选择方法 | |
CN106778065B (zh) | 一种基于多元数据预测dna突变影响蛋白互作的预测方法 | |
CN103955628B (zh) | 基于子空间融合的蛋白质‑维他命绑定位点预测方法 | |
CN104866863B (zh) | 一种生物标志物筛选方法 | |
CN107301323B (zh) | 一种与银屑病相关的分类模型的构建方法 | |
CN108038352B (zh) | 结合差异化分析和关联规则挖掘全基因组关键基因的方法 | |
CN103617435A (zh) | 一种主动学习图像分类方法和系统 | |
CN105740914A (zh) | 一种基于近邻多分类器集成的车牌识别方法及系统 | |
CN110853756A (zh) | 基于som神经网络和svm的食管癌风险预测方法 | |
CN103617203B (zh) | 基于查询驱动的蛋白质-配体绑定位点预测方法 | |
CN103761426A (zh) | 一种在高维数据中快速识别特征组合的方法及系统 | |
US12272431B2 (en) | Detecting false positive variant calls in next-generation sequencing | |
CN105825078A (zh) | 基于基因大数据的小样本基因表达数据分类方法 | |
CN102346817B (zh) | 一种借助支持向量机建立过敏原家族特征肽的过敏原的预测方法 | |
CN112102880A (zh) | 品种鉴定的方法、其预测模型的构建方法和装置 | |
CN117393042A (zh) | 一种预测错义突变致病性的分析方法 | |
CN111863135B (zh) | 一种假阳性结构变异过滤方法、存储介质及计算设备 | |
CN104200134A (zh) | 一种基于局部线性嵌入算法的肿瘤基因表数据特征选择方法 | |
CN107480441B (zh) | 一种儿童脓毒性休克预后预测的建模方法及系统 | |
CN109326329A (zh) | 一种非平衡模式下基于集成学习的锌结合蛋白质作用位点预测方法 | |
CN106951728A (zh) | 一种基于粒子群优化和打分准则的肿瘤关键基因识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |