CN112102884A

CN112102884A - 多基因位点联合疾病风险分析评估平台及方法

Info

Publication number: CN112102884A
Application number: CN202010932647.3A
Authority: CN
Inventors: 董子平; 周亚军; 梁凯
Original assignee: Suzhou Rosetta Biotechnology Co ltd
Current assignee: Suzhou Rosetta Biotechnology Co ltd
Priority date: 2020-09-08
Filing date: 2020-09-08
Publication date: 2020-12-18

Abstract

本发明提供了多基因位点联合疾病风险分析评估平台及方法，针对健康人群，利用GWAS数据库、千人基因组数据库提供的信息和补充的文献数据，计算该基因疾病的患病风险并对其进行初步评估。待目标用户数据量的扩大，利用客户反馈系统进行学习和针对特定人群校正特定人群的风险评估标准。本发明可以有效提醒健康人群有效的规避或降低患病风险，实现通过基因解读来指导个体健康生活的目的。

Description

多基因位点联合疾病风险分析评估平台及方法

技术领域

本发明涉及多种疾病风险位点基因型数据处理领域，具体涉及多种疾病的多基因风险评估系统，特别涉及多基因位点联合疾病风险分析评估平台及方法。

背景技术

单核苷酸多态性(Single Nucleotide Polymorphism，SNP)指的是由单个核苷酸—A，T，C或G的改变而引起的DNA序列的改变，造成包括人类在内的物种之间染色体基因组的多样性。例如，来自两个不同个体的DNA片段，AAGCCTA和AAGCTTA为等位基因。几乎所有常见的单核苷酸多态性(SNP)位点只有两个等位基因。单核苷酸多态性(SNP)等位基因的频率在不同人群中具有差异性，因此，常见于某地区或民族的单核苷酸多态性(SNP)等位基因在其他的地区或民族则可能很少见。在人类基因组中，每隔100至300个碱基就会存在一处SNP位点，每3个SNP位点中有2个会是胞嘧啶(C)和胸腺嘧啶(T)的相互转变。人类遗传基因的各种差异，90％可归因于SNP引起的基因变异。

很多SNP都与疾病相关，少数一些与疾病风险相关，与疾病风险相关的基因，称为风险基因，当然这样就会出现与疾病高风险或低风险的等位基因，统一称与疾病高风险相关的等位基因为风险等位基因，因此在一个风险位点的等位基因数量可能为0、1或2。在人群中一般风险等位基因频率都比较常见，单个风险等位基因对疾病的影响较小，且风险等位点的OR(OddsRatio)值大于1，若是降低风险的位点OR值会介于0～1之间。

多基因风险评估(Genetic Risk Score，GRS)是计算多个独立风险SNP的累积效应，以下是用于评估个体疾病风险的三种最常用的遗传风险评估方法：

1)早期的多基因风险评估方法是非权重风险等位基因计算(GRS-RAC)，简而言之就是在多个独立的风险SNP位点进行简单的相加，不考虑具体位点的OR值大小，因此评分会因为SNP的数量变化而变化。

2)考虑到风险位点具有一定的独立性且OR值也有差异，因此设计了相应的权重，该方法称为权重风险等位基因风险计算方法(GRS-wRAC)。显然该方法OR值越高的SNP赋予越高的权重，这种评分也会随着SNP数量的增加而增加，也常被称为多基因风险评分“polygenic risk scores(PRS)”，是GRS(Genetic Risk Scores)的一种拓展(Igo,R.P.,Kinzy,T.G.,&Cooke Bailey,J.N.(2019).Genetic Risk Scores.Current Protocols inHuman Genetics,104(1).doi:10.1002/cphg.95)。

3)人群标准化风险等位基因计数法(GRS-PS)(Conran CA,Na R,Chen H,etal.Population-standardized genetic risk score:the SNP-based method of choicefor inherited risk assessment of prostate cancer.Asian J Androl.2016；18(4):520-524.doi:10.4103/1008-682X.179527)，除了引入权重计数外，每个SNP还要除上该位点在人群中的贡献。该方法不会随着SNP数量的增加而增加，因此该方法被越来越多的用于风险基因的计算当中。

然而目前的风险评估方法尚存在如下问题：第一，前期的评估非常依赖数据库的整理收集工作，结论会随着数据库升级会出现细微的变化，同时可信性存在人群的偏差；第二，要做人群较为精准的评估还需要结合确证的表型，因此需要收集大量客户的基因型数据和反馈数据才能校正特定人群风险评估的可信性。

发明内容

基于以上，本发明提供了多基因位点联合疾病风险分析评估平台及方法，旨在针对设计的多种疾病项目的独立风险位点的基因型进行快速的风险分析，并出具风险评估报告。本发明可以有效提醒健康人群有效的规避或降低患病风险，实现通过基因解读来指导个体健康生活的目的。

为了实现上述目的，本发明采用以下技术方案：

本发明提供了多基因位点联合疾病风险分析评估平台，包括：

样本预处理模块，用于对每个样本进行芯片测序并对测序数据进行预处理以获取疾病风险位点的基因型数据；

多基因风险评估模块，用于针对目标项目进行疾病风险位点定位并进行初步评估，以及根据数据分管处理模块反馈的数据对初步评估结果进行后期的数据学习和优化评估；

报告呈现及用户反馈模块，用于呈现评估报告、收集用户反馈并传送给数据分管处理模块；

数据分管处理模块，用于管理用户数据并反馈给多基因风险评估模块。

优选地，所述预处理包括采用芯片测序的默认值对测序数据进行质控，保证默认值能产出有效数据，不合格则重新测序，对合格样本进行后续处理，最后对VCF文件进行位点过滤提取得疾病风险位点。

优选地，所述初步评估是根据初始评估数据库计算得到疾病风险位点对应的患病风险值。

更优选地，所述初始评估数据库包括GWAS数据库和千人基因组数据库，计算方法包括GRS-wRAC和GRS-PS方法。

优选地，所述数据分管处理模块包括用户注册信息存储子模块和数据分类子模块，所述用户注册信息存储子模块用于存储注册用户的基本信息，所述数据分类子模块用于根据用户的基本信息对初步评估的结果数据进行特征分类并反馈给多基因风险评估模块。

更优选地，所述用户的基本信息包括用户的民族、性别、年龄和姓氏。

优选地，所述多基因风险评估模块通过初步评估得到初步评估报告并在报告呈现及用户反馈模块中呈现；所述多基因风险评估模块通过后期优化评估得到后期优化评估报告并在报告呈现及用户反馈模块中呈现。

本发明还提供了多基因位点联合疾病风险分析评估方法，包括以下步骤：

1)对每个样本进行芯片测序并对测序数据进行预处理，获取疾病风险位点的基因型数据；

2)针对目标项目进行疾病风险位点定位并进行初步评估，得到初步评估结果；

3)根据用户填写的基本信息对步骤2)初步评估的结果数据进行特征分类，并结合用户反馈对初步评估结果进行优化。

优选地，步骤2)中，所述初步评估包括：根据GWAS数据库和千人基因组数据库，采用GRS-wRAC和GRS-PS方法计算得到疾病风险位点对应的患病风险值。

优选地，上述方法还包括：将步骤2)得到的初步评估结果以及步骤3)优化后的评估结果通过手机APP以评估报告的方式呈现给用户。

可以理解的是，以上评估方法不适用于诊断，因为评估的结论是不会告诉受试者是否有患疾病，评分的高低也不代表未来是否肯定会患病；因此仅仅用于疾病的风险评估，也仅仅是评估个体未来疾病发生的风险或概率，评估的高低可以体现与正常人相比的患病风险，但未来患病与否的结果依然是不确定的。所以评估的结果与个体未来结果是不存在必然关系的，但是上升到人群样本的评估上其可靠性会提升很多，所以评估的结论对个体仅仅是提供一个未来的提醒和参考。

本发明的有益效果如下：

(一)本发明主要是针对健康人群进行针对性位点设计的定制芯片检测，使得该发明具备检测成本低、检测速度快、检测通量大、疾病种类多等特点。

(二)该发明最大的特点就是可以提示健康人群注意某些疾病的患病风险，特别是在本发明分析样本增加的基础上可以实现人群特征分类，大大提升风险人群区分度，有针对性的提供风险预警，从而实现较精准的人群疾病风险规避，提升人口生活质量。

(三)本发明特别开发了两套服务器服务体系：第一，针对用户基本注册数据采集和APP报告呈现；第二，针对用户样本测序、基因型数据分析等；具体功能上是相互独立，整体服务上又是统一的系统，在保证分工明确的同时还保证了样本处理的高效率以及报告的及时发布，实现报告从手机客户端APP的高效查阅。该分析平台集成了芯片测序技术、生物信息技术、计算机技术、无线通讯技术等，实现了从样本到报告的过程，即实现了对现有多项技术的优化整合，也在逐步实现对现有认知的拓展，使得单一风险位点的组合越来越具有实际应用价值。

附图说明

图1为本发明多基因位点联合疾病风险分析评估的整体技术架构图。

图2为本发明多基因位点联合疾病风险分析评估平台的结构示意图。

图3为本发明多基因位点联合疾病风险分析评估过程中数据处理流程图。

图4为本发明样本预处理过程示意图。

具体实施方式

为了便于理解本发明，以下将结合附图及实施例对本申请做进一步说明。

结合图1-3，本发明多基因位点联合疾病风险分析评估的实现主要包括以下几个部分：

1、样本预处理，包括样本收集建库、上机测序、数据质控等步骤，如图4所示。

其中，

个体样本收集、运输、保藏、目标DNA建库以及其他测序前预处理，均可通过本领域常规技术手段按标准SOP操作处理，在此不做具体描述。

DNA测序：该部分使用AffymetrixGeneTian^TM芯片测序仪，涉及使用的测序芯片是通过与Affymetrix公司合作定制的芯片(Rosta_v1)，涉及心脑血管疾病、遗传性肿瘤疾病和其他慢性疾病；功能板块包括了：

1)心脑血管疾病风险位点，具体项目：腹主动脉瘤[rs7025486…]，高甘油三酯血症[rs7016880/rs1260326…]，高血压[rs9810888/rs5051/rs4757391…]，冠心病[rs7136259/rs3782889/rs3782886…]，静脉栓塞[rs146922325]，脑动脉瘤[rs12413409/rs700651…]，脑卒中[rs556621/rs529565…]，偏头痛[rs2078371/rs11172113/rs9349379…]，心房颤动[rs2106261/rs6843082…]，心肌梗死[rs4618210/rs3803915…]；

2)部分单基因疾病位点；

3)肿瘤遗传风险位点，具体项目：肺癌[rs753955/rs4488809/rs36600…]，肝癌[rs7574865/rs455804…]，甲状腺癌[rs966423/rs965513…]，慢性粒细胞白血病[rs4869742/rs4795519…]，膀胱癌[rs798766/rs401681…]，乳腺癌[rs4951011/rs10474352/rs9485372…]，肾癌[rs7105934…]，胃癌[rs80142782/rs9841504…]，胰腺癌[rs372883/rs1547374/rs5768709…]，子宫颈癌[rs13117307/rs4282438/rs9277952…]等；

4)其他疾病遗传风险位点，包括：1型糖尿病[rs1893217/rs3184504/rs3741208…]，2型糖尿病[rs10229583/rs10886471/rs10906115…]，阿尔茨海默氏症(晚发型)[rs11218343/rs429358…]，白塞氏病[rs1495965/rs17810546/rs897200…]，唇裂和腭裂[rs10512248/rs12543318/rs227731…]，猝睡症[rs10995245/rs1551570…]，毒性弥漫性甲状腺肿[rs1024161/rs12101261/rs1265883…]，多囊卵巢综合征[rs10818854/rs12478601/rs13405728…]，系统性红斑狼疮[rs10845606/rs10911390/rs1167796…]，非梗阻性无精子症[rs10842262/rs12097821/rs2477686…]，非酒精脂肪肝[rs11206226/rs2896019…]，肺结核[rs2269497/rs4240897/rs6114027…]，肺气肿[rs10411619…]，肺纤维化[rs2076295…]等；

5)营养、运动、皮肤、遗传天赋和其他特质位点；

6)药物指南位点；

7)祖源分型分析位点。

通过特别设计项目位点可以大大提升项目评估效率以及报告的相对准确性，选取按照严格GWAS标准的SNP(p<5e-8或5e-6)位点立项。

具体的芯片操作和DNA提取严格按照该仪器使用的SOP进行操作。

相较于传统的高通量测序以及qPCR检测而言，虽然qPCR检测具备快速的优势但是检测通量却没有芯片的大、检测项目单一；同样NGS的panel检测虽然具备高通量大数据等特点，但前期设计panel的研发成本以及使用检测成本都会相对较高，并且随着样本量提升成本花销会大大提升，综合诸多因素考虑，本申请采用定制芯片检测。

下面对目前使用的检测手段做一个比较：

表1.不同检测手段对比

定制芯片的优势在于和目前的商用芯片比如Affymetrix的APMRA、PMDA芯片的价格上更便宜、检测目标位点探针数量相对商用芯片更多，检测准确度提升，同时还可以加入一些其他商用芯片检出不了的位点，如APOE的位点：rs429358、rs7412(这些是纯检测的位点，非风险位点)，并设计相对较多的探针保证检出。

从芯片测序获得的原始数据经过预处理、质控等，最终获得VCF文件。芯片下机数据质控指标目前采用芯片测序的默认值，保证默认值能产出有效数据，不合格的需要重新测序，对合格样本进行后续处理，最后对VCF文件进行疾病风险位点过滤提取。

2、针对提取的疾病风险位点进行疾病项目定位，确定疾病项目的风险位点都能获得基因型，后续对基因型进行综合评估，评估使用的位点参考最新的GWAS数据库、千人基因组数据库，具体计算方法使用GRS-wRAC和GRS-PS方法。

1)核心算法一：GRS-PS(Population-standardized genetic risk score)

任意位点的三种基因型对应的OR值分别是

和

则可以求得该位点OR值的期望E_i为：

假设某样本的基因型为G_i，OR值为OR_i，显然G_i∈{aa_i,ab_i,bb_i}，OR_i∈

我们用期望来标准化OR_i，标准化后的OR值

则此时对于这种表型的风险Risk通过如下公式计算：

OR值的全称是odds ratio、比值比，对于发病率很低的疾病来说，是相对危险度的精确估计值。OR值等于1，表示该因素对疾病的发生不起作用；OR值大于1，表示该因素是危险因素；OR值小于1，表示该因素是保护因素。

以上算法参考：Shi Z,Yu H,Wu Y,et al.Systematic evaluation of cancer-specific genetic risk score for 11types of cancer in The Cancer Genome Atlasand Electronic Medical Records and Genomics cohorts.Cancer Med.

2019；8(6):3196-3205.doi:10.1002/cam4.2143。

2)核心算法二：GRS-wRAC(加权遗传风险评分)

WGRS(Weighted Genetic Risk Score)用Risk等位基因个数C_i，C_i∈{0,1,2}，对取log_e后的Risk等位基因的Odd Ratio，即

进行加权来计算项目遗传风险WGRS：

以上算法参考：Conran CA,Na R,Chen H,et al.Population-standardizedgenetic risk score:the SNP-based method of choice for inherited riskassessment of prostate cancer.Asian J Androl.2016；18(4):520-524.doi:10.4103/1008-682X.179527。

最后，针对具体条目审核评估结果进行文献核对，明确所有结论都源自对应项目的文献。

3、针对目前位点频率数据来源于千人基因组数据库，考虑到亚洲人口数据在千人基因组数据库中的样本量较小，并且不具备各个具体的亚洲人群样本，因此后期会根据具体人群的信息进行分类，根据各种分类信息重新归类，反馈到步骤2的评估体系中，对评估结果进行人群频率数据的细化升级迭代，该步骤涉及到各种项目的决策，核心数据来源样本信息的收集、测序数据整理和APP的信息反馈，对收集数据进行归类分析、重决策。

本申请中，优化的是人群的基因型数据，根据样本的后期扩大会出现评估值的变化，主要体现在，包括：样本信息的性别、种族、年龄、姓氏等群体特征标量上。因此在后续样本库的建立扩大，评估值会随着人群的具体化细分进行升级和改进。使得评估值都附上自己独立的性别、种族、年龄、姓氏等群体特征标签，而不是初始的模糊人群。例如，初始评估的都是CHB/CHS(北方汉族/南方汉族)风险值标签。根据后续的数据收集能够具体体现差异，比如在汉族人群中某个疾病的风险要比我们初始评估的结论高，高出多少等，或者针对某一疾病男性的风险要比女性高，以及不同年龄对应的疾病风险，每个姓氏下面的风险，使得风险就落实到更加具体的人群中，从而进行升级、优化、改进、拓展。

4、最终从报告平台得到报告结论，针对对应的项目得到对应的评估结论，针对结论出具千人中涉及的CHB、CHS频率的评估值，后续逐步出具针对种族、姓氏、年龄等人群区分的频率数据权重后的评估值，使得能够具备针对性的出具具体人群的风险评估结论。

实施例

本申请中，可利用生物信息数据服务器进行的数据分析评估包括前期的评估数据库整理和评估模板的整理安装，初始数据库的整理以及评估分析程序的编写、配置、安装，设置好一切后测试该系统的结论出具，严格定制一些明确结论测试位点进行测试验证评估体系，确定评估在指定范围后确定系统初始化结束，可以根据数据基础知识库再在我们两项算法的评估下执行初始评估报告，后续随着样本量的提升会针对人群生成独立人群的基因频率数据，最终报告特殊人群的风险评估值。即，首先生成初始评估报告，后续随着样本增加生成种族人群信息评估报告。并且会根据反馈体系收集表型校正资料，校正人群评估值。

该发明针对的疾病较多，这里通过具体实施例展示一例疾病——高血压的设计位点评估分析流程：

1)该步骤始于数据预处理结束，即得到每个样本通过了芯片测序得到了疾病风险位点基因型数据。

2)首先根据我们限定项目位点——如高血压风险项目：下面是设计的高血压风险位点和演示基因型检测结果(实际的检测基因型是因人而异的)，演示信息具体如下表。

表2.高血压风险项目位点基因型检测结果

3)根据前述核心算法一(GRS-PS)中涉及的风险评估方案得到评估结果0.8559，由先验数据可知全部正常的情况下评估值为0.3364，数据经过均一化处理后，评价结论是“和普通人群相比高于平均风险”，具体数值上体现：“高于平均风险5.65％”。这里在报告中会根据相关文献对风险提示进行专业的健康建议。

根据核心算法二(GRS-wRAC)中的计算风险评估结果是3.7352，这里的加权计算公式仅供参考和报告用，该公式计算的结果会随着独立位点的增加而增加，并且具有显著风险大的基因型导致的贡献大，致使数据的可比较性差，在使用中不便利，所以在这里显得意义不大，仅供与方法一对比参考使用。

针对一些单位点的项目该评估的结果意义会大一些。

4)步骤3)计算结果在系统初始化结束后计算，因此针对前期的样本出具的都是来源于千人基因组数据库的基因型频率数据，所以探讨的人群较窄，可信性也存在偏差，因此本申请根据数据分管处理平台设计了用户数据管理和报告升级系统，能根据用户填写的基本信息进行归类，规整到具体民族、性别、姓氏、年龄段的形式，逐步开放各个人群的特征风险报告结论，逐渐提升报告系统结论的可信度(当然，为尊重客户隐私所涉及的用户信息均采用加密处理)。

5)本实施例中报告呈现形式主要是手机APP程序，该APP部分已申请计算机软件著作权登记(登记号：2020SR0056897)。

对于本申请风险分析评估平台来说，该APP主要有两个功能模块：第一，用户数据管理界面，包括了用户注册信息存储数据库以及后台管理；第二，报告呈现界面和反馈界面，最终报告APP界面呈现阅读。此外，根据用户的反馈针对项目的热度和准确性可以做到后期的升级。

Claims

1.多基因位点联合疾病风险分析评估平台，包括：

2.根据权利要求1所述的多基因位点联合疾病风险分析评估平台，其特征在于，所述预处理包括采用芯片测序的默认值对测序数据进行质控，保证默认值能产出有效数据，不合格则重新测序，对合格样本进行后续处理，最后对VCF文件进行位点过滤提取得疾病风险位点。

3.根据权利要求1所述的多基因位点联合疾病风险分析评估平台，其特征在于，所述初步评估是根据初始评估数据库计算得到疾病风险位点对应的患病风险值。

4.根据权利要求3所述的多基因位点联合疾病风险分析评估平台，其特征在于，所述初始评估数据库包括GWAS数据库和千人基因组数据库，所述计算方法包括GRS-wRAC和GRS-PS方法。

5.根据权利要求1所述的多基因位点联合疾病风险分析评估平台，其特征在于，所述数据分管处理模块包括用户注册信息存储子模块和数据分类子模块，所述用户注册信息存储子模块用于存储注册用户的基本信息，所述数据分类子模块用于根据用户的基本信息对初步评估的结果数据进行特征分类并反馈给多基因风险评估模块。

6.根据权利要求5所述的多基因位点联合疾病风险分析评估平台，其特征在于，所述用户的基本信息包括用户的民族、性别、年龄和姓氏。

7.根据权利要求1所述的多基因位点联合疾病风险分析评估平台，其特征在于，所述多基因风险评估模块通过初步评估得到初步评估报告并在报告呈现及用户反馈模块中呈现；所述多基因风险评估模块通过后期优化评估得到后期优化评估报告并在报告呈现及用户反馈模块中呈现。

8.多基因位点联合疾病风险分析评估方法，包括以下步骤：

9.根据权利要求8所述的多基因位点联合疾病风险分析评估方法，其特征在于，步骤2)中，所述初步评估包括：根据GWAS数据库和千人基因组数据库，采用GRS-wRAC和GRS-PS方法计算得到疾病风险位点对应的患病风险值。

10.根据权利要求8所述的多基因位点联合疾病风险分析评估方法，其特征在于，还包括：将步骤2)得到的初步评估结果以及步骤3)优化后的评估结果通过手机APP以评估报告的方式呈现给用户。