[go: up one dir, main page]

CN112102884A - 多基因位点联合疾病风险分析评估平台及方法 - Google Patents

多基因位点联合疾病风险分析评估平台及方法 Download PDF

Info

Publication number
CN112102884A
CN112102884A CN202010932647.3A CN202010932647A CN112102884A CN 112102884 A CN112102884 A CN 112102884A CN 202010932647 A CN202010932647 A CN 202010932647A CN 112102884 A CN112102884 A CN 112102884A
Authority
CN
China
Prior art keywords
assessment
data
risk
disease risk
gene
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010932647.3A
Other languages
English (en)
Inventor
董子平
周亚军
梁凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Rosetta Biotechnology Co ltd
Original Assignee
Suzhou Rosetta Biotechnology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Rosetta Biotechnology Co ltd filed Critical Suzhou Rosetta Biotechnology Co ltd
Priority to CN202010932647.3A priority Critical patent/CN112102884A/zh
Publication of CN112102884A publication Critical patent/CN112102884A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B45/00ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H15/00ICT specially adapted for medical reports, e.g. generation or transmission thereof
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Epidemiology (AREA)
  • Bioethics (AREA)
  • Primary Health Care (AREA)
  • Biomedical Technology (AREA)
  • Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明提供了多基因位点联合疾病风险分析评估平台及方法,针对健康人群,利用GWAS数据库、千人基因组数据库提供的信息和补充的文献数据,计算该基因疾病的患病风险并对其进行初步评估。待目标用户数据量的扩大,利用客户反馈系统进行学习和针对特定人群校正特定人群的风险评估标准。本发明可以有效提醒健康人群有效的规避或降低患病风险,实现通过基因解读来指导个体健康生活的目的。

Description

多基因位点联合疾病风险分析评估平台及方法
技术领域
本发明涉及多种疾病风险位点基因型数据处理领域,具体涉及多种疾病的多基因风险评估系统,特别涉及多基因位点联合疾病风险分析评估平台及方法。
背景技术
单核苷酸多态性(Single Nucleotide Polymorphism,SNP)指的是由单个核苷酸—A,T,C或G的改变而引起的DNA序列的改变,造成包括人类在内的物种之间染色体基因组的多样性。例如,来自两个不同个体的DNA片段,AAGCCTA和AAGCTTA为等位基因。几乎所有常见的单核苷酸多态性(SNP)位点只有两个等位基因。单核苷酸多态性(SNP)等位基因的频率在不同人群中具有差异性,因此,常见于某地区或民族的单核苷酸多态性(SNP)等位基因在其他的地区或民族则可能很少见。在人类基因组中,每隔100至300个碱基就会存在一处SNP位点,每3个SNP位点中有2个会是胞嘧啶(C)和胸腺嘧啶(T)的相互转变。人类遗传基因的各种差异,90%可归因于SNP引起的基因变异。
很多SNP都与疾病相关,少数一些与疾病风险相关,与疾病风险相关的基因,称为风险基因,当然这样就会出现与疾病高风险或低风险的等位基因,统一称与疾病高风险相关的等位基因为风险等位基因,因此在一个风险位点的等位基因数量可能为0、1或2。在人群中一般风险等位基因频率都比较常见,单个风险等位基因对疾病的影响较小,且风险等位点的OR(OddsRatio)值大于1,若是降低风险的位点OR值会介于0~1之间。
多基因风险评估(Genetic Risk Score,GRS)是计算多个独立风险SNP的累积效应,以下是用于评估个体疾病风险的三种最常用的遗传风险评估方法:
1)早期的多基因风险评估方法是非权重风险等位基因计算(GRS-RAC),简而言之就是在多个独立的风险SNP位点进行简单的相加,不考虑具体位点的OR值大小,因此评分会因为SNP的数量变化而变化。
2)考虑到风险位点具有一定的独立性且OR值也有差异,因此设计了相应的权重,该方法称为权重风险等位基因风险计算方法(GRS-wRAC)。显然该方法OR值越高的SNP赋予越高的权重,这种评分也会随着SNP数量的增加而增加,也常被称为多基因风险评分“polygenic risk scores(PRS)”,是GRS(Genetic Risk Scores)的一种拓展(Igo,R.P.,Kinzy,T.G.,&Cooke Bailey,J.N.(2019).Genetic Risk Scores.Current Protocols inHuman Genetics,104(1).doi:10.1002/cphg.95)。
3)人群标准化风险等位基因计数法(GRS-PS)(Conran CA,Na R,Chen H,etal.Population-standardized genetic risk score:the SNP-based method of choicefor inherited risk assessment of prostate cancer.Asian J Androl.2016;18(4):520-524.doi:10.4103/1008-682X.179527),除了引入权重计数外,每个SNP还要除上该位点在人群中的贡献。该方法不会随着SNP数量的增加而增加,因此该方法被越来越多的用于风险基因的计算当中。
然而目前的风险评估方法尚存在如下问题:第一,前期的评估非常依赖数据库的整理收集工作,结论会随着数据库升级会出现细微的变化,同时可信性存在人群的偏差;第二,要做人群较为精准的评估还需要结合确证的表型,因此需要收集大量客户的基因型数据和反馈数据才能校正特定人群风险评估的可信性。
发明内容
基于以上,本发明提供了多基因位点联合疾病风险分析评估平台及方法,旨在针对设计的多种疾病项目的独立风险位点的基因型进行快速的风险分析,并出具风险评估报告。本发明可以有效提醒健康人群有效的规避或降低患病风险,实现通过基因解读来指导个体健康生活的目的。
为了实现上述目的,本发明采用以下技术方案:
本发明提供了多基因位点联合疾病风险分析评估平台,包括:
样本预处理模块,用于对每个样本进行芯片测序并对测序数据进行预处理以获取疾病风险位点的基因型数据;
多基因风险评估模块,用于针对目标项目进行疾病风险位点定位并进行初步评估,以及根据数据分管处理模块反馈的数据对初步评估结果进行后期的数据学习和优化评估;
报告呈现及用户反馈模块,用于呈现评估报告、收集用户反馈并传送给数据分管处理模块;
数据分管处理模块,用于管理用户数据并反馈给多基因风险评估模块。
优选地,所述预处理包括采用芯片测序的默认值对测序数据进行质控,保证默认值能产出有效数据,不合格则重新测序,对合格样本进行后续处理,最后对VCF文件进行位点过滤提取得疾病风险位点。
优选地,所述初步评估是根据初始评估数据库计算得到疾病风险位点对应的患病风险值。
更优选地,所述初始评估数据库包括GWAS数据库和千人基因组数据库,计算方法包括GRS-wRAC和GRS-PS方法。
优选地,所述数据分管处理模块包括用户注册信息存储子模块和数据分类子模块,所述用户注册信息存储子模块用于存储注册用户的基本信息,所述数据分类子模块用于根据用户的基本信息对初步评估的结果数据进行特征分类并反馈给多基因风险评估模块。
更优选地,所述用户的基本信息包括用户的民族、性别、年龄和姓氏。
优选地,所述多基因风险评估模块通过初步评估得到初步评估报告并在报告呈现及用户反馈模块中呈现;所述多基因风险评估模块通过后期优化评估得到后期优化评估报告并在报告呈现及用户反馈模块中呈现。
本发明还提供了多基因位点联合疾病风险分析评估方法,包括以下步骤:
1)对每个样本进行芯片测序并对测序数据进行预处理,获取疾病风险位点的基因型数据;
2)针对目标项目进行疾病风险位点定位并进行初步评估,得到初步评估结果;
3)根据用户填写的基本信息对步骤2)初步评估的结果数据进行特征分类,并结合用户反馈对初步评估结果进行优化。
优选地,步骤2)中,所述初步评估包括:根据GWAS数据库和千人基因组数据库,采用GRS-wRAC和GRS-PS方法计算得到疾病风险位点对应的患病风险值。
优选地,上述方法还包括:将步骤2)得到的初步评估结果以及步骤3)优化后的评估结果通过手机APP以评估报告的方式呈现给用户。
可以理解的是,以上评估方法不适用于诊断,因为评估的结论是不会告诉受试者是否有患疾病,评分的高低也不代表未来是否肯定会患病;因此仅仅用于疾病的风险评估,也仅仅是评估个体未来疾病发生的风险或概率,评估的高低可以体现与正常人相比的患病风险,但未来患病与否的结果依然是不确定的。所以评估的结果与个体未来结果是不存在必然关系的,但是上升到人群样本的评估上其可靠性会提升很多,所以评估的结论对个体仅仅是提供一个未来的提醒和参考。
本发明的有益效果如下:
(一)本发明主要是针对健康人群进行针对性位点设计的定制芯片检测,使得该发明具备检测成本低、检测速度快、检测通量大、疾病种类多等特点。
(二)该发明最大的特点就是可以提示健康人群注意某些疾病的患病风险,特别是在本发明分析样本增加的基础上可以实现人群特征分类,大大提升风险人群区分度,有针对性的提供风险预警,从而实现较精准的人群疾病风险规避,提升人口生活质量。
(三)本发明特别开发了两套服务器服务体系:第一,针对用户基本注册数据采集和APP报告呈现;第二,针对用户样本测序、基因型数据分析等;具体功能上是相互独立,整体服务上又是统一的系统,在保证分工明确的同时还保证了样本处理的高效率以及报告的及时发布,实现报告从手机客户端APP的高效查阅。该分析平台集成了芯片测序技术、生物信息技术、计算机技术、无线通讯技术等,实现了从样本到报告的过程,即实现了对现有多项技术的优化整合,也在逐步实现对现有认知的拓展,使得单一风险位点的组合越来越具有实际应用价值。
附图说明
图1为本发明多基因位点联合疾病风险分析评估的整体技术架构图。
图2为本发明多基因位点联合疾病风险分析评估平台的结构示意图。
图3为本发明多基因位点联合疾病风险分析评估过程中数据处理流程图。
图4为本发明样本预处理过程示意图。
具体实施方式
为了便于理解本发明,以下将结合附图及实施例对本申请做进一步说明。
结合图1-3,本发明多基因位点联合疾病风险分析评估的实现主要包括以下几个部分:
1、样本预处理,包括样本收集建库、上机测序、数据质控等步骤,如图4所示。
其中,
个体样本收集、运输、保藏、目标DNA建库以及其他测序前预处理,均可通过本领域常规技术手段按标准SOP操作处理,在此不做具体描述。
DNA测序:该部分使用AffymetrixGeneTianTM芯片测序仪,涉及使用的测序芯片是通过与Affymetrix公司合作定制的芯片(Rosta_v1),涉及心脑血管疾病、遗传性肿瘤疾病和其他慢性疾病;功能板块包括了:
1)心脑血管疾病风险位点,具体项目:腹主动脉瘤[rs7025486…],高甘油三酯血症[rs7016880/rs1260326…],高血压[rs9810888/rs5051/rs4757391…],冠心病[rs7136259/rs3782889/rs3782886…],静脉栓塞[rs146922325],脑动脉瘤[rs12413409/rs700651…],脑卒中[rs556621/rs529565…],偏头痛[rs2078371/rs11172113/rs9349379…],心房颤动[rs2106261/rs6843082…],心肌梗死[rs4618210/rs3803915…];
2)部分单基因疾病位点;
3)肿瘤遗传风险位点,具体项目:肺癌[rs753955/rs4488809/rs36600…],肝癌[rs7574865/rs455804…],甲状腺癌[rs966423/rs965513…],慢性粒细胞白血病[rs4869742/rs4795519…],膀胱癌[rs798766/rs401681…],乳腺癌[rs4951011/rs10474352/rs9485372…],肾癌[rs7105934…],胃癌[rs80142782/rs9841504…],胰腺癌[rs372883/rs1547374/rs5768709…],子宫颈癌[rs13117307/rs4282438/rs9277952…]等;
4)其他疾病遗传风险位点,包括:1型糖尿病[rs1893217/rs3184504/rs3741208…],2型糖尿病[rs10229583/rs10886471/rs10906115…],阿尔茨海默氏症(晚发型)[rs11218343/rs429358…],白塞氏病[rs1495965/rs17810546/rs897200…],唇裂和腭裂[rs10512248/rs12543318/rs227731…],猝睡症[rs10995245/rs1551570…],毒性弥漫性甲状腺肿[rs1024161/rs12101261/rs1265883…],多囊卵巢综合征[rs10818854/rs12478601/rs13405728…],系统性红斑狼疮[rs10845606/rs10911390/rs1167796…],非梗阻性无精子症[rs10842262/rs12097821/rs2477686…],非酒精脂肪肝[rs11206226/rs2896019…],肺结核[rs2269497/rs4240897/rs6114027…],肺气肿[rs10411619…],肺纤维化[rs2076295…]等;
5)营养、运动、皮肤、遗传天赋和其他特质位点;
6)药物指南位点;
7)祖源分型分析位点。
通过特别设计项目位点可以大大提升项目评估效率以及报告的相对准确性,选取按照严格GWAS标准的SNP(p<5e-8或5e-6)位点立项。
具体的芯片操作和DNA提取严格按照该仪器使用的SOP进行操作。
相较于传统的高通量测序以及qPCR检测而言,虽然qPCR检测具备快速的优势但是检测通量却没有芯片的大、检测项目单一;同样NGS的panel检测虽然具备高通量大数据等特点,但前期设计panel的研发成本以及使用检测成本都会相对较高,并且随着样本量提升成本花销会大大提升,综合诸多因素考虑,本申请采用定制芯片检测。
下面对目前使用的检测手段做一个比较:
表1.不同检测手段对比
Figure BDA0002670776890000061
定制芯片的优势在于和目前的商用芯片比如Affymetrix的APMRA、PMDA芯片的价格上更便宜、检测目标位点探针数量相对商用芯片更多,检测准确度提升,同时还可以加入一些其他商用芯片检出不了的位点,如APOE的位点:rs429358、rs7412(这些是纯检测的位点,非风险位点),并设计相对较多的探针保证检出。
从芯片测序获得的原始数据经过预处理、质控等,最终获得VCF文件。芯片下机数据质控指标目前采用芯片测序的默认值,保证默认值能产出有效数据,不合格的需要重新测序,对合格样本进行后续处理,最后对VCF文件进行疾病风险位点过滤提取。
2、针对提取的疾病风险位点进行疾病项目定位,确定疾病项目的风险位点都能获得基因型,后续对基因型进行综合评估,评估使用的位点参考最新的GWAS数据库、千人基因组数据库,具体计算方法使用GRS-wRAC和GRS-PS方法。
1)核心算法一:GRS-PS(Population-standardized genetic risk score)
任意位点的三种基因型对应的OR值分别是
Figure BDA0002670776890000071
Figure BDA0002670776890000072
Figure BDA0002670776890000073
则可以求得该位点OR值的期望Ei为:
Figure BDA0002670776890000074
假设某样本的基因型为Gi,OR值为ORi,显然Gi∈{aai,abi,bbi},ORi
Figure BDA0002670776890000075
我们用期望来标准化ORi,标准化后的OR值
Figure BDA0002670776890000076
Figure BDA0002670776890000077
则此时对于这种表型的风险Risk通过如下公式计算:
Figure BDA0002670776890000078
OR值的全称是odds ratio、比值比,对于发病率很低的疾病来说,是相对危险度的精确估计值。OR值等于1,表示该因素对疾病的发生不起作用;OR值大于1,表示该因素是危险因素;OR值小于1,表示该因素是保护因素。
以上算法参考:Shi Z,Yu H,Wu Y,et al.Systematic evaluation of cancer-specific genetic risk score for 11types of cancer in The Cancer Genome Atlasand Electronic Medical Records and Genomics cohorts.Cancer Med.
2019;8(6):3196-3205.doi:10.1002/cam4.2143。
2)核心算法二:GRS-wRAC(加权遗传风险评分)
WGRS(Weighted Genetic Risk Score)用Risk等位基因个数Ci,Ci∈{0,1,2},对取loge后的Risk等位基因的Odd Ratio,即
Figure BDA0002670776890000079
进行加权来计算项目遗传风险WGRS:
Figure BDA00026707768900000710
以上算法参考:Conran CA,Na R,Chen H,et al.Population-standardizedgenetic risk score:the SNP-based method of choice for inherited riskassessment of prostate cancer.Asian J Androl.2016;18(4):520-524.doi:10.4103/1008-682X.179527。
最后,针对具体条目审核评估结果进行文献核对,明确所有结论都源自对应项目的文献。
3、针对目前位点频率数据来源于千人基因组数据库,考虑到亚洲人口数据在千人基因组数据库中的样本量较小,并且不具备各个具体的亚洲人群样本,因此后期会根据具体人群的信息进行分类,根据各种分类信息重新归类,反馈到步骤2的评估体系中,对评估结果进行人群频率数据的细化升级迭代,该步骤涉及到各种项目的决策,核心数据来源样本信息的收集、测序数据整理和APP的信息反馈,对收集数据进行归类分析、重决策。
本申请中,优化的是人群的基因型数据,根据样本的后期扩大会出现评估值的变化,主要体现在,包括:样本信息的性别、种族、年龄、姓氏等群体特征标量上。因此在后续样本库的建立扩大,评估值会随着人群的具体化细分进行升级和改进。使得评估值都附上自己独立的性别、种族、年龄、姓氏等群体特征标签,而不是初始的模糊人群。例如,初始评估的都是CHB/CHS(北方汉族/南方汉族)风险值标签。根据后续的数据收集能够具体体现差异,比如在汉族人群中某个疾病的风险要比我们初始评估的结论高,高出多少等,或者针对某一疾病男性的风险要比女性高,以及不同年龄对应的疾病风险,每个姓氏下面的风险,使得风险就落实到更加具体的人群中,从而进行升级、优化、改进、拓展。
4、最终从报告平台得到报告结论,针对对应的项目得到对应的评估结论,针对结论出具千人中涉及的CHB、CHS频率的评估值,后续逐步出具针对种族、姓氏、年龄等人群区分的频率数据权重后的评估值,使得能够具备针对性的出具具体人群的风险评估结论。
实施例
本申请中,可利用生物信息数据服务器进行的数据分析评估包括前期的评估数据库整理和评估模板的整理安装,初始数据库的整理以及评估分析程序的编写、配置、安装,设置好一切后测试该系统的结论出具,严格定制一些明确结论测试位点进行测试验证评估体系,确定评估在指定范围后确定系统初始化结束,可以根据数据基础知识库再在我们两项算法的评估下执行初始评估报告,后续随着样本量的提升会针对人群生成独立人群的基因频率数据,最终报告特殊人群的风险评估值。即,首先生成初始评估报告,后续随着样本增加生成种族人群信息评估报告。并且会根据反馈体系收集表型校正资料,校正人群评估值。
该发明针对的疾病较多,这里通过具体实施例展示一例疾病——高血压的设计位点评估分析流程:
1)该步骤始于数据预处理结束,即得到每个样本通过了芯片测序得到了疾病风险位点基因型数据。
2)首先根据我们限定项目位点——如高血压风险项目:下面是设计的高血压风险位点和演示基因型检测结果(实际的检测基因型是因人而异的),演示信息具体如下表。
表2.高血压风险项目位点基因型检测结果
Figure BDA0002670776890000091
3)根据前述核心算法一(GRS-PS)中涉及的风险评估方案得到评估结果0.8559,由先验数据可知全部正常的情况下评估值为0.3364,数据经过均一化处理后,评价结论是“和普通人群相比高于平均风险”,具体数值上体现:“高于平均风险5.65%”。这里在报告中会根据相关文献对风险提示进行专业的健康建议。
根据核心算法二(GRS-wRAC)中的计算风险评估结果是3.7352,这里的加权计算公式仅供参考和报告用,该公式计算的结果会随着独立位点的增加而增加,并且具有显著风险大的基因型导致的贡献大,致使数据的可比较性差,在使用中不便利,所以在这里显得意义不大,仅供与方法一对比参考使用。
针对一些单位点的项目该评估的结果意义会大一些。
4)步骤3)计算结果在系统初始化结束后计算,因此针对前期的样本出具的都是来源于千人基因组数据库的基因型频率数据,所以探讨的人群较窄,可信性也存在偏差,因此本申请根据数据分管处理平台设计了用户数据管理和报告升级系统,能根据用户填写的基本信息进行归类,规整到具体民族、性别、姓氏、年龄段的形式,逐步开放各个人群的特征风险报告结论,逐渐提升报告系统结论的可信度(当然,为尊重客户隐私所涉及的用户信息均采用加密处理)。
5)本实施例中报告呈现形式主要是手机APP程序,该APP部分已申请计算机软件著作权登记(登记号:2020SR0056897)。
对于本申请风险分析评估平台来说,该APP主要有两个功能模块:第一,用户数据管理界面,包括了用户注册信息存储数据库以及后台管理;第二,报告呈现界面和反馈界面,最终报告APP界面呈现阅读。此外,根据用户的反馈针对项目的热度和准确性可以做到后期的升级。

Claims (10)

1.多基因位点联合疾病风险分析评估平台,包括:
样本预处理模块,用于对每个样本进行芯片测序并对测序数据进行预处理以获取疾病风险位点的基因型数据;
多基因风险评估模块,用于针对目标项目进行疾病风险位点定位并进行初步评估,以及根据数据分管处理模块反馈的数据对初步评估结果进行后期的数据学习和优化评估;
报告呈现及用户反馈模块,用于呈现评估报告、收集用户反馈并传送给数据分管处理模块;
数据分管处理模块,用于管理用户数据并反馈给多基因风险评估模块。
2.根据权利要求1所述的多基因位点联合疾病风险分析评估平台,其特征在于,所述预处理包括采用芯片测序的默认值对测序数据进行质控,保证默认值能产出有效数据,不合格则重新测序,对合格样本进行后续处理,最后对VCF文件进行位点过滤提取得疾病风险位点。
3.根据权利要求1所述的多基因位点联合疾病风险分析评估平台,其特征在于,所述初步评估是根据初始评估数据库计算得到疾病风险位点对应的患病风险值。
4.根据权利要求3所述的多基因位点联合疾病风险分析评估平台,其特征在于,所述初始评估数据库包括GWAS数据库和千人基因组数据库,所述计算方法包括GRS-wRAC和GRS-PS方法。
5.根据权利要求1所述的多基因位点联合疾病风险分析评估平台,其特征在于,所述数据分管处理模块包括用户注册信息存储子模块和数据分类子模块,所述用户注册信息存储子模块用于存储注册用户的基本信息,所述数据分类子模块用于根据用户的基本信息对初步评估的结果数据进行特征分类并反馈给多基因风险评估模块。
6.根据权利要求5所述的多基因位点联合疾病风险分析评估平台,其特征在于,所述用户的基本信息包括用户的民族、性别、年龄和姓氏。
7.根据权利要求1所述的多基因位点联合疾病风险分析评估平台,其特征在于,所述多基因风险评估模块通过初步评估得到初步评估报告并在报告呈现及用户反馈模块中呈现;所述多基因风险评估模块通过后期优化评估得到后期优化评估报告并在报告呈现及用户反馈模块中呈现。
8.多基因位点联合疾病风险分析评估方法,包括以下步骤:
1)对每个样本进行芯片测序并对测序数据进行预处理,获取疾病风险位点的基因型数据;
2)针对目标项目进行疾病风险位点定位并进行初步评估,得到初步评估结果;
3)根据用户填写的基本信息对步骤2)初步评估的结果数据进行特征分类,并结合用户反馈对初步评估结果进行优化。
9.根据权利要求8所述的多基因位点联合疾病风险分析评估方法,其特征在于,步骤2)中,所述初步评估包括:根据GWAS数据库和千人基因组数据库,采用GRS-wRAC和GRS-PS方法计算得到疾病风险位点对应的患病风险值。
10.根据权利要求8所述的多基因位点联合疾病风险分析评估方法,其特征在于,还包括:将步骤2)得到的初步评估结果以及步骤3)优化后的评估结果通过手机APP以评估报告的方式呈现给用户。
CN202010932647.3A 2020-09-08 2020-09-08 多基因位点联合疾病风险分析评估平台及方法 Pending CN112102884A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010932647.3A CN112102884A (zh) 2020-09-08 2020-09-08 多基因位点联合疾病风险分析评估平台及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010932647.3A CN112102884A (zh) 2020-09-08 2020-09-08 多基因位点联合疾病风险分析评估平台及方法

Publications (1)

Publication Number Publication Date
CN112102884A true CN112102884A (zh) 2020-12-18

Family

ID=73751963

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010932647.3A Pending CN112102884A (zh) 2020-09-08 2020-09-08 多基因位点联合疾病风险分析评估平台及方法

Country Status (1)

Country Link
CN (1) CN112102884A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113403380A (zh) * 2021-06-11 2021-09-17 中国科学院北京基因组研究所(国家生物信息中心) 一种复杂疾病相关snp位点引物组合物及应用
CN117542526A (zh) * 2024-01-08 2024-02-09 深圳市早知道科技有限公司 一种基于生物遗传信息的疾病风险预测方法及系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113403380A (zh) * 2021-06-11 2021-09-17 中国科学院北京基因组研究所(国家生物信息中心) 一种复杂疾病相关snp位点引物组合物及应用
CN117542526A (zh) * 2024-01-08 2024-02-09 深圳市早知道科技有限公司 一种基于生物遗传信息的疾病风险预测方法及系统
CN117542526B (zh) * 2024-01-08 2024-04-26 深圳市早知道科技有限公司 一种基于生物遗传信息的疾病风险预测方法及系统

Similar Documents

Publication Publication Date Title
Uffelmann et al. Genome-wide association studies
Kachuri et al. Principles and methods for transferring polygenic risk scores across global populations
Fritsche et al. Association of polygenic risk scores for multiple cancers in a phenome-wide study: results from the Michigan Genomics Initiative
US10975445B2 (en) Integrated machine-learning framework to estimate homologous recombination deficiency
Fritsche et al. Cancer PRSweb: an online repository with polygenic risk scores for major cancer traits and their evaluation in two independent biobanks
US11164655B2 (en) Systems and methods for predicting homologous recombination deficiency status of a specimen
Buchanan et al. Issues surrounding the health economic evaluation of genomic technologies
JP4437050B2 (ja) 診断支援システム、診断支援方法および診断支援サービスの提供方法
KR101542529B1 (ko) 대립유전자의 바이오마커 발굴방법
KR101460520B1 (ko) 차세대 시퀀싱 데이터의 질병변이마커 검출 방법
US20030224394A1 (en) Computer systems and methods for identifying genes and determining pathways associated with traits
EP2335174A1 (en) Methods and systems for incorporating multiple environmental and genetic risk factors
EP2102651A2 (en) Genetic analysis systems and methods
EP2321753A1 (en) Methods and systems for personalized action plans
Wojcik et al. Opportunities and challenges for the use of common controls in sequencing studies
Schaid et al. Polygenic risk for prostate cancer: decreasing relative risk with age but little impact on absolute risk
KR20150024232A (ko) 질병에 대한 약물 내성 유전체로부터 내성 원인 마커의 발굴 방법
CN112102884A (zh) 多基因位点联合疾病风险分析评估平台及方法
Chen et al. Pruning and thresholding approach for methylation risk scores in multi-ancestry populations
Williams et al. Integrating Common and Rare Variants Improves Polygenic Risk Prediction Across Diverse Populations
Schwarzerova et al. A perspective on genetic and polygenic risk scores—advances and limitations and overview of associated tools
Tsuo et al. All of Us diversity and scale improve polygenic prediction contextually with greatest improvements for under-represented populations
Fundel et al. Normalization and gene p-value estimation: issues in microarray data processing
Nakase et al. Genome-wide polygenic risk scores predict risk of glioma and molecular subtypes
CN116469552A (zh) 一种用于乳腺癌多基因遗传风险评估的方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20201218