CN109599157B - 一种精准智能诊疗大数据系统 - Google Patents
一种精准智能诊疗大数据系统 Download PDFInfo
- Publication number
- CN109599157B CN109599157B CN201811444715.0A CN201811444715A CN109599157B CN 109599157 B CN109599157 B CN 109599157B CN 201811444715 A CN201811444715 A CN 201811444715A CN 109599157 B CN109599157 B CN 109599157B
- Authority
- CN
- China
- Prior art keywords
- data
- patient
- drug response
- module
- marker
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000011282 treatment Methods 0.000 title claims abstract description 35
- 238000003745 diagnosis Methods 0.000 title claims abstract description 21
- 239000003814 drug Substances 0.000 claims abstract description 88
- 229940079593 drug Drugs 0.000 claims abstract description 72
- 230000004044 response Effects 0.000 claims abstract description 59
- 239000003550 marker Substances 0.000 claims abstract description 41
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 23
- 238000000605 extraction Methods 0.000 claims abstract description 10
- 238000000034 method Methods 0.000 claims abstract description 10
- 238000007781 pre-processing Methods 0.000 claims abstract description 7
- 206010028980 Neoplasm Diseases 0.000 claims description 26
- 201000011510 cancer Diseases 0.000 claims description 20
- 238000004422 calculation algorithm Methods 0.000 claims description 14
- 238000010586 diagram Methods 0.000 claims description 11
- 238000007726 management method Methods 0.000 claims description 11
- 238000013507 mapping Methods 0.000 claims description 9
- 230000007246 mechanism Effects 0.000 claims description 9
- 230000001413 cellular effect Effects 0.000 claims description 5
- 238000013523 data management Methods 0.000 claims description 5
- 230000004083 survival effect Effects 0.000 claims description 5
- 238000004458 analytical method Methods 0.000 claims description 4
- 239000000284 extract Substances 0.000 claims description 4
- 230000003834 intracellular effect Effects 0.000 claims description 4
- 239000011159 matrix material Substances 0.000 claims description 4
- 230000001394 metastastic effect Effects 0.000 claims description 4
- 206010061289 metastatic neoplasm Diseases 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 4
- 238000012706 support-vector machine Methods 0.000 claims description 4
- 230000004927 fusion Effects 0.000 claims description 3
- 239000000203 mixture Substances 0.000 claims description 3
- 206010063385 Intellectualisation Diseases 0.000 abstract 1
- 210000004027 cell Anatomy 0.000 description 15
- 201000010099 disease Diseases 0.000 description 15
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 15
- 206010006187 Breast cancer Diseases 0.000 description 14
- 208000026310 Breast neoplasm Diseases 0.000 description 13
- 230000002068 genetic effect Effects 0.000 description 7
- 238000011161 development Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 208000003174 Brain Neoplasms Diseases 0.000 description 5
- 206010059282 Metastases to central nervous system Diseases 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 238000002493 microarray Methods 0.000 description 5
- 238000003759 clinical diagnosis Methods 0.000 description 4
- 238000010276 construction Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 230000019491 signal transduction Effects 0.000 description 4
- 239000003560 cancer drug Substances 0.000 description 3
- 238000012512 characterization method Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 108020004999 messenger RNA Proteins 0.000 description 3
- 230000035772 mutation Effects 0.000 description 3
- 239000013610 patient sample Substances 0.000 description 3
- 238000005295 random walk Methods 0.000 description 3
- 239000000523 sample Substances 0.000 description 3
- 230000007067 DNA methylation Effects 0.000 description 2
- 206010058467 Lung neoplasm malignant Diseases 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000000857 drug effect Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 201000005202 lung cancer Diseases 0.000 description 2
- 208000020816 lung neoplasm Diseases 0.000 description 2
- 230000011987 methylation Effects 0.000 description 2
- 238000007069 methylation reaction Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000001575 pathological effect Effects 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 229940126585 therapeutic drug Drugs 0.000 description 2
- 101150042997 21 gene Proteins 0.000 description 1
- 101150094765 70 gene Proteins 0.000 description 1
- 101150111197 76 gene Proteins 0.000 description 1
- 206010069754 Acquired gene mutation Diseases 0.000 description 1
- 108020004414 DNA Proteins 0.000 description 1
- 206010013710 Drug interaction Diseases 0.000 description 1
- 101001012157 Homo sapiens Receptor tyrosine-protein kinase erbB-2 Proteins 0.000 description 1
- 206010027476 Metastases Diseases 0.000 description 1
- 108700011259 MicroRNAs Proteins 0.000 description 1
- 208000003445 Mouth Neoplasms Diseases 0.000 description 1
- 108010026552 Proteome Proteins 0.000 description 1
- 102100030086 Receptor tyrosine-protein kinase erbB-2 Human genes 0.000 description 1
- 108091023040 Transcription factor Proteins 0.000 description 1
- 102000040945 Transcription factor Human genes 0.000 description 1
- 230000005856 abnormality Effects 0.000 description 1
- 239000002671 adjuvant Substances 0.000 description 1
- 238000011226 adjuvant chemotherapy Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000031018 biological processes and functions Effects 0.000 description 1
- 238000001574 biopsy Methods 0.000 description 1
- 210000000481 breast Anatomy 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 229940121657 clinical drug Drugs 0.000 description 1
- 230000007012 clinical effect Effects 0.000 description 1
- 230000034994 death Effects 0.000 description 1
- 231100000517 death Toxicity 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 238000009509 drug development Methods 0.000 description 1
- 238000012362 drug development process Methods 0.000 description 1
- 238000007876 drug discovery Methods 0.000 description 1
- 238000009511 drug repositioning Methods 0.000 description 1
- 239000003596 drug target Substances 0.000 description 1
- 238000010201 enrichment analysis Methods 0.000 description 1
- 230000004049 epigenetic modification Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 230000012010 growth Effects 0.000 description 1
- 238000010562 histological examination Methods 0.000 description 1
- 238000001794 hormone therapy Methods 0.000 description 1
- 238000011337 individualized treatment Methods 0.000 description 1
- 208000012987 lip and oral cavity carcinoma Diseases 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 210000004072 lung Anatomy 0.000 description 1
- 210000001165 lymph node Anatomy 0.000 description 1
- 238000010339 medical test Methods 0.000 description 1
- 230000002503 metabolic effect Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000004879 molecular function Effects 0.000 description 1
- 239000003147 molecular marker Substances 0.000 description 1
- 230000009456 molecular mechanism Effects 0.000 description 1
- 230000003990 molecular pathway Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 239000002547 new drug Substances 0.000 description 1
- 230000000474 nursing effect Effects 0.000 description 1
- 231100000590 oncogenic Toxicity 0.000 description 1
- 230000002246 oncogenic effect Effects 0.000 description 1
- 230000008506 pathogenesis Effects 0.000 description 1
- 230000007170 pathology Effects 0.000 description 1
- 230000037361 pathway Effects 0.000 description 1
- 238000011338 personalized therapy Methods 0.000 description 1
- 238000004393 prognosis Methods 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 108020003175 receptors Proteins 0.000 description 1
- 102000005962 receptors Human genes 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 238000012502 risk assessment Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 210000001082 somatic cell Anatomy 0.000 description 1
- 230000037439 somatic mutation Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000001356 surgical procedure Methods 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
- 230000001225 therapeutic effect Effects 0.000 description 1
- 210000001519 tissue Anatomy 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H20/00—ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
- G16H20/10—ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to drugs or medications, e.g. for ensuring correct administration to patients
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Public Health (AREA)
- Medical Informatics (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Databases & Information Systems (AREA)
- Pathology (AREA)
- Medicinal Chemistry (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Chemical & Material Sciences (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Apparatus Associated With Microorganisms And Enzymes (AREA)
Abstract
本发明涉及一种精准智能诊疗大数据系统,该系统包括:数据集中管理模块:对多医疗机构临床电子病历数据与组学数据进行集中管理;数据预处理模块:对集中管理的数据进行预处理,建立基于生物医学特征的关系依存网;标志物提取模块:基于预处理后的数据,提取患者特征基因得到标志物集;亚型分类模块:对患者进行亚型分类,确定患者所对应的组别;药物反应预测模块:建立药物反应预测模型,根据药物反应预测模型预测患者对不同药物的反应。与现有技术相比,本发明能实现医疗数据的有效管理并进行药物反应预测,实现智能化。
Description
技术领域
本发明涉及大数据技术领域,尤其是涉及一种精准智能诊疗大数据系统。
背景技术
2015年我国癌症病人发病数和死亡数分别达429.2万和281.4万,占世界人口的22%及27%。造成巨大的社会负担和经济损失。肺癌、乳腺癌分别是我国男女患病人数最多的癌症类型。由于癌症等疾病的异质性、多变性,癌症药物的有效率仅有25%,个体化精准医疗成为进一步攻克癌症的必由之路。
“精准医疗”是指以个人基因组信息为基础,结合蛋白质组,代谢组等相关内环境信息,为病人量身设计出最佳治疗方案,以期达到治疗效果最大化和副作用最小化的一种定制医疗模式。现代基因组学的发展和进步,可以为医药行业提供最新的疾病病理学的遗传和分子依据,为高效药物的开发和个性化医疗提供技术支撑。特别在肿瘤治疗中,有别于基于肿瘤组织学检查进行病人分型和治疗方案制定的传统方法,新的分子检测方法,通过对个人基因、蛋白、信号转导和癌细胞突变的精密探测,可以更好地确定患者的疾病进程,从而提出最有效的治疗建议。从长远角度看,个性化精准医疗通过更精确的诊断,预测潜在疾病的风险,能提供更有效、更有针对性的治疗,预防某种疾病的发生,节约治疗成本。
全面广泛的群体基因组学研究、精确及时的分子标志物检测、综合临床特征与多组学特征的个体化精确诊断、针对特定分子生物学病理机制的靶点药物开发,是精准医疗的几大主要环节,而生物信息学与大数据技术则是支撑整个精准医疗体系的骨架。疾病治疗在分子生物学尺度的复杂性远远超出了传统医学统计和临床路径指南的表征能力范围,甚至对主要依赖医生经验的诊断模式也在一定程度上造成了挑战。从分子标志物的发现与优化,到疾病诊断与药物评估预测模型的建立,到靶向治疗药物的选取与新药物靶点的开发,建立在生物组学大数据与知识工程技术基础上的智慧辅助诊疗技术,都是精准医疗得以实现的重要支撑工具。近期发布的科技部精准医疗重大研发专项指导意见中,将“精准医疗大数据利用技术及共享平台建设”列为八大任务之一,表明建立一个强大的生物大数据与生物信息学支撑平台在精准医疗领域的重要性已经成为业界共识。
如何克服医疗数据的高度异构性及分散性、实现多医疗机构之间临床数据的有效共享及融合;如何从人类基因组的海量特征和相对有限的病人样本中进行有效的标志物筛选和特征建模,实现分子生物学层面的病人精准分类及治疗方案匹配评估;如何克服海量高维特征带来的计算复杂性,充分挖掘建立疾病-药物-基因组三者的联系规律,实现治疗用药效果的有效预测,是构建精准医学数据支撑平台的面临的三大主要挑战。
复杂疾病如癌症的亚型分类是精准医疗的一项核心任务。传统的亚型分类主要是基于组织学特异性,在临床上具有很大的局限性,尤其对晚期病人进行分型治疗的效果往往不佳。随着高通量实验的普及,科学家们重新开始基于基因组,转录组和表观遗传组对癌症进行分类。大型基因组项目如TCGA项目等采集了不同癌症类型的上万个肿瘤样本的分子和遗传学特征,这正标志着癌症病人细分类正在进入大革命时代。由于癌症组织是一个异质化、不断变异的动态体系,现有研究已经表明,分子和遗传学特征分型不能只局限于基于少量样本的静态分类,而需要基于大量病人样本的动态分析才能获得准确的诊断结果。因此,需要开发新型的大数据生物信息软件包来解决随之而来的挑战;包括临床数据的整合与共享,在具有清晰生物学和临床意义的特征空间和数据空间中都能反应此类异质关系,有效地筛选这些高维特征空间来测定强度并了解这些关系的属性,癌症亚型分类,药效评估,以及研发个性化治疗预测模型来利用了解到的知识服务个体化治疗。
实现面向个体患者的用药效果评估与预测是精准医学的另一项关键挑战。尽管靶向药物的开发在很大程度上提高了用药的个体针对性,然而,现有医疗制度下制药与诊断业务分离的模式,导致药品研发过程中涉及的临床人群规模非常有限,上市后在大规模人群上应用的效果往往与试验阶段有较大差异。从大量临床医学数据和基因数据的关联中获得基因表型特征与对药物的反应的个体差异和癌症预后紧密相关的潜在的分子机制,进而建立预测模型,根据每个病人的特点来优化临床诊断和治疗,是最终实现精准医疗的必由之路。指数级增长的生物医学大数据在各个方面提供了大量关于癌症患者对药物敏感性差异的细节,通过对这些信息的提取,可以很方便地对药物的服用效果进行多角度分析。获得有关用药适应性及临床作用的细节规律,为医院规范临床用药、医药厂商进行产品更新换代提供非常宝贵的信息。
临床电子病历详实记录了病人疾病发展过程中的各类临床特征和医学检验结果,是将基因组学数据与临床诊疗实现关联、获得精准诊疗一手数据的重要纽带。然而,现有医疗系统的电子病历普遍存在记录分散、格式不统一、难以共享等缺陷,“信息孤岛”现象严重;另一方面,信息挖掘利用的水平普遍较低,电子病历数据中的大量有用信息无法充分提取,造成了大量浪费;最后,大部分医院的信息化建设主要集中在医疗业务管理上,对科研用途的支持不足,特别是临床医疗数据库很难实现全方位的搜索功能,也难以融入医学本体语言对信息进行结构化提取。这些问题都限制了临床医疗数据库的在临床决策支持系统与临床试验系统的实现。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种精准智能诊疗大数据系统。
本发明的目的可以通过以下技术方案来实现:
一种精准智能诊疗大数据系统,该系统包括:
数据集中管理模块:对多医疗机构临床电子病历数据与组学数据进行集中管理;
数据预处理模块:对集中管理的数据进行预处理,建立基于生物医学特征的关系依存网;
标志物提取模块:基于预处理后的数据,提取患者特征基因得到标志物集;
亚型分类模块:对患者进行亚型分类,确定患者所对应的组别;
药物反应预测模块:建立药物反应预测模型,根据药物反应预测模型预测患者对不同药物的反应。
数据集中管理模块基于i2b2、SCILHS/SHRINE数据共享机制对多医疗机构临床电子病历数据与组学数据进行动态提取、动态融合和动态数据集生成,进而完成数据集中管理。
所述的基于生物医学特征的关系依存网为基于患者、细胞系和药物的三向异构图。
所述的标志物集中包括分子,细胞,细胞内,临床和人口学特点及事件。
亚型分类模块通过H-cube算法进行亚型分类。
H-cube算法进行亚型分类具体为:
(1)计算患者对应的标志物G-Score值并产生泛标志物集,所述的G-Score值表示一个标志物在一个基因集的富含度;
(2)基于标志物G-Score值和产生泛标志物集进行Hashing映射;
(3)基于Hashing映射结果构建Hasse树图;
(4)基于Hasse树图搜索和模糊匹配进行双向聚类完成患者亚型分类。
所述的药物反应预测模型为基于病人-细胞株-药物反应三向聚类图的药物反应预测模型。
基于病人-细胞株-药物反应三向聚类图的药物反应预测模型包括如下预测过程:
(1)采用以特征标记指导的非负矩阵分解算法进行药物反应分析,根据不同的药物反应来识别细胞系和药物;
(2)基于癌症的转移生存时间,将每个患者映射到适合的细胞系;
(3)利用穷举搜索支持向量机来发现和选择患者各自的特征标记,确定患者药物反应。
与现有技术相比,本发明具有如下优点:
(1)本发明系统能实现SHRINE架构下的医疗数据共享,实现大数据管理;
(2)本发明系统通过临床与组学大数据的疾病特征标记物知识发现与知识表示,由大量在线数据驱动分析实现高维异构生物医学数据环境下的疾病标志物关系网络知识发现,为实现疾病精准辅助诊疗奠定基础;
(3)本发明通过有监督与无监督的深度学习获得精准的疾病亚型分类结构,在考虑癌细胞异质性、动态变异以及多基因、多药物相互作用下,建立患者-细胞系-药物三者关系的知识结构,实现对病人的药物效果准确预测。
附图说明
图1为本发明精准智能诊疗大数据系统的结构框图。
其中,1为数据集中管理模块,2为数据预处理模块,3为标志物提取模块,4为亚型分类模块,5为药物反应预测模块。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。
实施例
如图1所示,一种精准智能诊疗大数据系统,该系统包括:
数据集中管理模块1:对多医疗机构临床电子病历数据与组学数据进行集中管理;
数据预处理模块2:对集中管理的数据进行预处理,建立基于生物医学特征的关系依存网;
标志物提取模块3:基于预处理后的数据,提取患者特征基因得到标志物集;
亚型分类模块4:对患者进行亚型分类,确定患者所对应的组别;
药物反应预测模块5:建立药物反应预测模型,根据药物反应预测模型预测患者对不同药物的反应。
一、数据集中管理模块1
数据集中管理模块1基于i2b2、SCILHS/SHRINE数据共享机制对多医疗机构临床电子病历数据与组学数据进行动态提取、动态融合和动态数据集生成,进而完成数据集中管理。
本实施例涉及TCGA数据库、维克森林大学(WFU)临床乳腺癌数据集和MDACC(MDAnderson癌症研究中心)数据集,实现多个数据库中数据的融合。
TCGA数据库:TCGA项目是美国国家重点项目之一,其目标是要通过人口信息学,临床记录及最新的生物技术、工艺来全面描述临床肿瘤样本。本实施例聚焦于所有公开发布的高层次乳腺癌,肺癌,口腔癌数据集(经过均值,分段,注释,描述的数据,或者通过与原始数据比较的交叉关联数据),其中包括:体细胞突变,DNA甲基化,基因拷贝数变异,DNA-Seq,mRNA-Seq,miRNA-SEQ,mRNA微阵列,人口学信息,临床诊断,治疗和跟踪记录。个体患者的多源异构生物数据将被用于药物重新定位,个性化医疗的优化和药物发现。
维克森林大学(WFU)临床乳腺癌数据集:该临床数据集涵盖了1954名乳腺癌患者,他们分属于15种以上的群体,并且具备10年护理经历。数据集具体包括:1)由AffymetrixU133基因芯片微阵列平台测定的基因表达图谱;2)临床诊断记录,包括受体状态,淋巴结状态,肿瘤大小,和组织学分级;3)治疗记录,包括治疗类型(手术,辅助激素治疗,辅助化疗);4)预后记录,包括无远端转移生存率(DMFS)的时间和事件;5)人口学记录(主要指患者年龄)。基于该数据集,已经开发了疾病特征和标志物提取原型,并进一步改进了个性化医疗方法,同时将利用它作为TCGA数据集的一个对照组。
公开的乳腺癌脑转移数据集Salhia 2014,它包括35例乳腺癌脑转移个案的mRNA微阵列(GEO:GSE5260),甲基化(Figshare:862978)和基因拷贝数变化(Figshare:855629)的数据。Silva 2010数据集,它包含mRNA微阵列数据(GEO:GSE14690),体细胞突变,以及39例原发性乳腺癌和与之匹配的脑转移情况的临床和病理特征。Duchnowska 2015HER2+数据集,该数据包含89例脑转移肿瘤和70例对照组。一共有153例乳腺癌脑转移个案被涵盖。
二、数据预处理模块2
本模块建立基于生物医学特征的关系依存网为基于患者、细胞系和药物的三向异构图。
临床大数据集展现出典型的局部密集和全局稀疏的数据形式,它们涵盖了不同的数据类型。为了说明数据集的这种特性,本实施例选择一个小的特征集(大约200个特征)作为预研究,它对应于44个特征。这些特征中有8个是分子标记物,其余的是人口统计学或诊断特征。这些特征分属于四种数据类型:数值型,序数型,名称型和二进制型。因此,该临床数据集很好地表明了特征的异构性。
基于解靴带的特征关系的配对和联合学习,该机制用来解决不同变量类型(数值型,二进制型,序数型和名称型)之间的关联性以及不同采样大小间的关联问题。两个特征间的关联度由一个数据比率来量度,该比率指同时在两个特征上有值的数据占总数据的比例。因此,与不同特征结合对相关的数据采样大小有着明显的变化。本实施例用对应于特定数据类型的方法来描述不同概念间的整体关联强度。本实施例中将五种不同的关联测量用于10组混合数据,每组都包含有4种数据类型。
三、标志物提取模块3
特征或标志物(Signature)简单地讲,就是一个特征基因,或一个信号通道上的特征基因集。本发明提出构建一个signatome,它是一个特征或标志物集,该特征集反映出当前对生物系统的理解。Signatome由代表性的特征知识库组成,其涵盖了分子,细胞,细胞内,临床和人口学特点及事件。因此,signatome提供了一个统一的“知识空间”,作为一种新型度量准则,该准则系统地和定量地描述了数据样本中的最新知识。signatome采用的特征来源于三个数据库:MSigDB分子特征集,和DrugSig,pLINDAW的特征集合数据库。signatome是可高度扩展的:最新知识可以不断地整合进signatome。这些特征代表了当前在分子层面上对生物医学系统的认识。其中的基因组将被用于组学数据的基因富集分析(GSEA)以确定患者样本中对应特征或标志物的重要性。
MSigDB特征是MIT-Harvard Broad Institute研究所维护着大量临床和科研采用的生物医学特征基因集和标志物集,它们称为分子特征数据库(MSigDB3.0)。该数据库中共有10295个特征,它们以基因组形式被用在前期研究里。其中包括:1)基于基因遗传学位置关系的基因集;2)主导型基因组,比如来自化学和遗传扰动,典型的分子通路,以及被数据库BioCarta,KEGG基因组和REACTOME列为主要的基因组;3)microRNA的目标基因和转录因子;4)通过计算得到的基因组,包括癌症近邻基因和癌症模块;5)与生物过程,细胞成分和分子功能相关的GO信号通道数据库基因集;6)oncogenic特征,它由NCBI GEO数据库的微阵列数据产生;7)人类免疫学项目联盟(HIPC)生产的免疫特征。
本实施例已经初步建立了标志物数据库:DrugSig和pLINDAW,他们包括了乳腺癌药物标志物,潜在的药物标靶,以及从NIH LINCS项目中计算出的各种化学物的标志物,和乳腺癌新陈代谢标志物,以及乳腺癌共有的内部的分子标志物如PAM50,Oncotype DXTM(21个基因的标志物),(70个基因的标志物),以及Rotterdam Signature(76个基因的标志物),以及文献中其他已经证明过的标志物。TCGA甲基化标志物methylationsignatures描述的是DNA methylation调节基因的功能,Copy number variation标志物,和突变标志物通常是癌症非常重要的标志。标志物集中包括分子,细胞,细胞内,临床和人口学特点及事件。
四、亚型分类模块4
患者亚型分类的目的是将病人分成不同的组,然后对每组患者提供面向患者的个性化医疗服务。传统的聚类算法通常是用患者的少量特征来确定几种亚型,并通常以最小化的亚型之间的重叠作为目标函数。这样“粗糙的”亚型没有足够特性来区分患者之间的重要区别。个性化药物的研究以及临床实践的快速进步需要更精细更丰富的亚型,以优化病人治疗和监控。要回答这一临床需求,本实施例采用H-cube算法进行亚型分类,它能在精细的尺度上用很多个不同性质的候选标志物去系统地识别患者亚组共享的相似特征。
H-cube算法需要解决的是:(1)发现“患者-标志物”的模式,因为有些标志物只是某些特定患者具有的,而不是所有的患者都有,这要求开发出“标志物--患者”的双向聚类(bi-clustering)方法;(2)通过探索巨大特征空间,对一种机理提供多个证据:因为一个亚型的潜在发病机制可能与多个证据如基因型和表型在不同的方面表达有关,如DNA异常,表观遗传修饰,基因表达模式相关联,信号通路活性,受体状态,诊断功能,群居性状,和治疗反应等;(3)双线性化地刻画主要复杂的特征和患者之间重叠的临床亚型的相似度:因为常见的几种亚型分享部分重要的特征,以及同一患者可能会同多个亚型相关联;(4)匹配不同的临床证据:不同的亚型可能有助于不同的临床实践,如诊断,风险评估,药物的选择,治疗和响应预测。将新发现的亚型翻译成有用的知识(knowledge)用到临床上,这将是至关重要的,因为只有这样才能确定这些亚型是否与临床应用有相关性,以及哪些知识适合哪些发现的亚型。
H-cube算法包括三个步骤:标志物的G-Score(度量一个标志物在一个基因集的富含度)计算和泛标志物signatome的产生,其中signatome是指来自不同的标志物的集合,以及将原始数据投影到signatome的知识空间;通过对泛标志物的病人子空间聚类达到识别重要的患者亚型;以及如何分析这些亚型之间的相似性。
由此,H-cube算法进行亚型分类具体为:
(1)计算患者对应的标志物G-Score值并产生泛标志物集,所述的G-Score值表示一个标志物在一个基因集的富含度;
(2)基于标志物G-Score值和产生泛标志物集进行Hashing映射;
(3)基于Hashing映射结果构建Hasse树图;
(4)基于Hasse树图搜索和模糊匹配进行双向聚类完成患者亚型分类。
五、药物反应预测模块5
该模块建立的药物反应预测模型为基于病人-细胞株-药物反应三向聚类图的药物反应预测模型,具体地:
本实施例采用如下措施:(1)为个体化药物反应预测研发的具有特征选择的三联异构图模型;(2)用GEO数据以及临床乳腺癌活检样本来验证模型对药物反应和潜在机制的预测力。此BDS4PM系统的成功将为癌症药物反应提供一个知识环境,转换当前生物医学研究和临床实践的模式,并促进生物医学大数据到个体化治疗的转换。从生物学上来说,通过特征标记可以全面的描述表型,及不同药物反应的相关机制。通过这些标记和药物反应在病人与某一类的细胞系之间的高度相关性,可以将患者用这一类型的细胞系来代表。在技术上来说,随着大数据时代的到来,患者和细胞系这两类数据,及相关特征标记的不断积累,从而能够有足够的数据来支撑,找出在患者和细胞系中的药物反应的关联性,并解释其中包含的机制。本实施例通过对乳腺癌细胞系和患者之间的相似性进行分析,成功的证实了上述基本原理。随后,本发明开发了一种新的三步预测模型,该模型包括:1)以特征标记指导的非负矩阵分解算法,根据不同的药物反应来识别细胞系和药物的双向模块;2)基于癌症的转移生存时间,将每个患者映射到最适合的细胞系模块上去;3)每个模块上穷举搜索支持向量机来发现和选择各自的特征标记。本发明提出了异构图上的随机游走,它是前期工作中双向聚类和特征选择思想的扩展:通过在特征空间中应用并行的multi-Deme遗传算法(PMDGA)和数据实体空间中用异构图上的随机游走,发现病人-细胞株-药物反应的三向聚类来建立个性化治疗模型。所提出的方法的目的是最大化每个识别的三向聚类的标准化纯度之和,并且以另一种更新的方式来完成,即:采用PMDGA进行特征选择;基于所选特征更新三向异构图;面向三向聚类的异构图随机游走;最后评估三向聚类的优劣以调整特征选择方案。综上,药物反应预测模型为基于病人-细胞株-药物反应三向聚类图的药物反应预测模型,其具体预测过程为:
(1)采用以特征标记指导的非负矩阵分解算法进行药物反应分析,根据不同的药物反应来识别细胞系和药物;
(2)基于癌症的转移生存时间,将每个患者映射到适合的细胞系;
(3)利用穷举搜索支持向量机来发现和选择患者各自的特征标记,确定患者药物反应。
Claims (6)
1.一种精准智能诊疗大数据系统,其特征在于,该系统包括:
数据集中管理模块(1):对多医疗机构临床电子病历数据与组学数据进行集中管理;
数据预处理模块(2):对集中管理的数据进行预处理,建立基于生物医学特征的关系依存网,所述的基于生物医学特征的关系依存网为基于患者、细胞系和药物的三向异构图;
标志物提取模块(3):基于预处理后的数据,提取患者特征基因得到标志物集;
亚型分类模块(4):对患者进行亚型分类,确定患者所对应的组别;
药物反应预测模块(5):建立药物反应预测模型,根据药物反应预测模型预测患者对不同药物的反应。
2.根据权利要求1所述的一种精准智能诊疗大数据系统,其特征在于,数据集中管理模块(1)基于i2b2、SCILHS/SHRINE数据共享机制对多医疗机构临床电子病历数据与组学数据进行动态提取、动态融合和动态数据集生成,进而完成数据集中管理。
3.根据权利要求1所述的一种精准智能诊疗大数据系统,其特征在于,所述的标志物集中包括分子,细胞,细胞内,临床和人口学特点及事件。
4.根据权利要求1所述的一种精准智能诊疗大数据系统,其特征在于,亚型分类模块(4)通过H-cube算法进行亚型分类,H-cube算法进行亚型分类具体为:
(1)计算患者对应的标志物G-Score值并产生泛标志物集,所述的G-Score值表示一个标志物在一个基因集的富含度;
(2)基于标志物G-Score值和产生泛标志物集进行Hashing映射;
(3)基于Hashing映射结果构建Hasse树图;
(4)基于Hasse树图搜索和模糊匹配进行双向聚类完成患者亚型分类。
5.根据权利要求1所述的一种精准智能诊疗大数据系统,其特征在于,所述的药物反应预测模型为基于病人-细胞株-药物反应三向聚类图的药物反应预测模型,所述的基于病人-细胞株-药物反应三向聚类图的药物反应预测模型确定患者与某一类型的细胞系的相关性,从而确定患者所对应的细胞系中的药物反应,将患者、细胞系和药物反应三者关联。
6.根据权利要求5所述的一种精准智能诊疗大数据系统,其特征在于,基于病人-细胞株-药物反应三向聚类图的药物反应预测模型包括如下预测过程:
(1)采用以特征标记指导的非负矩阵分解算法进行药物反应分析,根据不同的药物反应来识别细胞系和药物;
(2)基于癌症的转移生存时间,将每个患者映射到适合的细胞系;
(3)利用穷举搜索支持向量机来发现和选择患者各自的特征标记,确定患者药物反应。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811444715.0A CN109599157B (zh) | 2018-11-29 | 2018-11-29 | 一种精准智能诊疗大数据系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811444715.0A CN109599157B (zh) | 2018-11-29 | 2018-11-29 | 一种精准智能诊疗大数据系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109599157A CN109599157A (zh) | 2019-04-09 |
CN109599157B true CN109599157B (zh) | 2020-10-02 |
Family
ID=65959164
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811444715.0A Expired - Fee Related CN109599157B (zh) | 2018-11-29 | 2018-11-29 | 一种精准智能诊疗大数据系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109599157B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111966813B (zh) * | 2019-05-20 | 2024-12-24 | 阿里巴巴集团控股有限公司 | 一种信息挖掘方法及装置和信息推荐方法及装置 |
CN110782954B (zh) * | 2019-10-31 | 2021-05-04 | 哈尔滨工业大学 | 一种预测癌细胞株中药物反应的权重模块化映射方法 |
CN113284611B (zh) * | 2021-05-17 | 2023-06-06 | 西安交通大学 | 基于个体通路活性的癌症诊断和预后预测系统、设备及存储介质 |
CN113782130B (zh) * | 2021-08-24 | 2024-07-30 | 杭州翔毅科技有限公司 | 一种基因组学数据管理与诊疗系统及方法 |
WO2023141706A1 (en) * | 2022-01-25 | 2023-08-03 | Duke University | Systems and devices for coupling metabolomics data with digital monitors for precision health |
CN114255886B (zh) * | 2022-02-28 | 2022-06-14 | 浙江大学 | 基于多组学相似度引导的药物敏感性预测方法和装置 |
CN115938590B (zh) * | 2023-02-09 | 2023-05-02 | 四川大学华西医院 | 结直肠癌术后lars预测模型的构建方法及预测系统 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106529177B (zh) * | 2016-11-12 | 2019-05-03 | 杭州电子科技大学 | 一种基于医疗大数据的患者画像方法及装置 |
CN107103207B (zh) * | 2017-04-05 | 2020-07-03 | 浙江大学 | 基于病例多组学变异特征的精准医学知识搜索系统及实现方法 |
CN107609326A (zh) * | 2017-07-26 | 2018-01-19 | 同济大学 | 癌症精准医疗中的药物敏感性预测方法 |
-
2018
- 2018-11-29 CN CN201811444715.0A patent/CN109599157B/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
CN109599157A (zh) | 2019-04-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109599157B (zh) | 一种精准智能诊疗大数据系统 | |
Gao et al. | DeepCC: a novel deep learning-based framework for cancer molecular subtype classification | |
CN108198621B (zh) | 一种基于神经网络的数据库数据综合诊疗决策方法 | |
Ahn et al. | Personalized identification of altered pathways in cancer using accumulated normal tissue data | |
Wang et al. | Breast cancer patient stratification using a molecular regularized consensus clustering method | |
US20220215900A1 (en) | Systems and methods for joint low-coverage whole genome sequencing and whole exome sequencing inference of copy number variation for clinical diagnostics | |
CN108206056B (zh) | 一种鼻咽癌人工智能辅助诊疗决策终端 | |
CN108335756B (zh) | 鼻咽癌数据库及基于所述数据库的综合诊疗决策方法 | |
WO2021258026A1 (en) | Molecular response and progression detection from circulating cell free dna | |
CN108320807A (zh) | 一种鼻咽癌人工智能辅助诊疗决策云系统 | |
Li et al. | Integrative analysis of histopathological images and genomic data in colon adenocarcinoma | |
Pham et al. | Analysis of microarray gene expression data | |
Sethi et al. | Long Short-Term Memory-Deep Belief Network-Based Gene Expression Data Analysis for Prostate Cancer Detection and Classification | |
Munquad et al. | A deep learning–based framework for supporting clinical diagnosis of glioblastoma subtypes | |
Carenzo et al. | Gene expression clustering and selected head and neck cancer gene signatures highlight risk probability differences in oral premalignant lesions | |
Gifari et al. | Artificial intelligence toward personalized medicine | |
Wang et al. | Multi-scale pathology image texture signature is a prognostic factor for resectable lung adenocarcinoma: a multi-center, retrospective study | |
Yagin | Machine learning approaches for multi-omics data integration in medicine | |
CN108320797B (zh) | 一种鼻咽癌数据库及基于所述数据库的综合诊疗决策方法 | |
CN114974432A (zh) | 一种生物标志物的筛选方法及其相关应用 | |
Li et al. | SEPA: signaling entropy-based algorithm to evaluate personalized pathway activation for survival analysis on pan-cancer data | |
Sundar et al. | An intelligent prediction model for target protein identification in hepatic carcinoma using novel graph theory and ann model | |
US20240076744A1 (en) | METHODS AND SYSTEMS FOR mRNA BOUNDARY ANALYSIS IN NEXT GENERATION SEQUENCING | |
CN117457065A (zh) | 一种基于单细胞多组学数据识别表型相关细胞类型的方法和系统 | |
Wei et al. | CoGSPro-net: A graph neural network based on protein-protein interaction for classifying lung cancer-relatrd proteins |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20201002 |
|
CF01 | Termination of patent right due to non-payment of annual fee |