CN110211633B

CN110211633B - Mgmt基因启动子甲基化的检测方法、测序数据的处理方法及处理装置

Info

Publication number: CN110211633B
Application number: CN201910373154.8A
Authority: CN
Inventors: 闫慧婷; 洪媛媛; 于佳宁; 李彩琴; 李鑫; 宋小凤; 陈维之; 何骥
Original assignee: Wuxi Precision Medical Laboratory Co ltd
Current assignee: Wuxi Precision Medical Laboratory Co ltd
Priority date: 2019-05-06
Filing date: 2019-05-06
Publication date: 2021-08-31
Anticipated expiration: 2039-05-06
Also published as: CN110211633A

Abstract

本发明提供了一种MGMT基因启动子甲基化的检测方法、测序数据的处理方法及处理装置。该处理方法包括获取来源于MGMT基因启动子的甲基化测序数据，甲基化测序数据为双端测序序列；将甲基化测序数据与人类参考基因组序列进行比对得到比对结果，比对结果包括第一端第一匹配区、第一端第二匹配区、第二端第一匹配区以及第二端第二匹配区，其中，第一端第二匹配区与第二端第二匹配区重叠；去除比对结果中的第一端第二匹配区或者第二端第二匹配区得到待分析数据；对待分析数据中进行甲基化位点识别得到MGMT基因启动子的甲基化结果。该处理方法检测的甲基化位点准确性较高，通量也较高，利于从整体水平上对甲基化水平进行评估。

Description

MGMT基因启动子甲基化的检测方法、测序数据的处理方法及处理装置

技术领域

本发明涉及基因检测领域，具体而言，涉及一种MGMT基因启动子甲基化的检测方法、测序数据的处理方法及处理装置。

背景技术

MGMT是一种普遍存在于细胞内的DNA修复蛋白，能将O⁶鸟嘌呤复合物从DNA上移除，使损伤的鸟嘌呤恢复，保护染色体免受烷化剂的损伤。在此过程中，MGMT既作为甲基转移酶，又作为甲基受体蛋白，单独完成转移反应。

MGMT基因启动子甲基化状态与烷化剂药物的敏感性具有一定相关性。烷化剂替莫唑胺(TMZ)、嘧啶亚硝脲(ACNU)和双氯乙基亚硝脲(BCNU)等作为化疗药物广泛应用于人类肿瘤的治疗。这些烷化剂的一个重要作用位点为O⁶鸟嘌呤，而MGMT能够迅速移除O⁶鸟嘌呤上的烷基化合物，从而使烷化剂杀肿瘤的疗效降低，导致肿瘤耐药。

因此，检测MGMT基因启动子甲基化状态有助于预测肿瘤对烷化剂化疗药物敏感性，进而有助于指导制定化疗方案，避免耐药。

而目前MGMT启动子甲基化检测的常用方法有：亚硫酸氢盐测序PCR(BSP)、甲基化特异性PCR(MSP)、荧光定量法和甲基化敏感性高分辨率熔解曲线分析(MS-HRM)。

其中，亚硫酸氢盐测序PCR(BSP)法主要是通过PCR联合sanger测序技术来检测甲基化状态，但由于操作繁琐，检测周期长，因此不适合大批量检测。同时挑选克隆的数目可能会造成结果假阳性，因此BSP只能算是半定量法。

甲基化特异性PCR(MSP)法是使用PCR扩增来判断样本是否存在甲基化，该法实用并且应用较为广泛，但不能做到定量检测，而且存在较高的假阳性风险。

荧光定量法是基于MSP开发的技术，主要是在检测过程中加入了TaqMan探针，从而保证了较高的灵敏度和准确度，但是如果检测较多的甲基化位点，也只能做到整体化分析，同时探针成本较高，因此该法不适用于大量样本较多位点的检测。

甲基化敏感性高分辨率熔解曲线分析(MS-HRM)是通过将单碱基序列的差异转变为熔解曲线的差异，从而判断是否存在甲基化，但是这种方法对仪器的要求颇高，需要带HRM模块的荧光定量PCR仪，而且该法只能分析片段整体甲基化状态，而不能明确每个CpG位点的甲基化状态。

因此，针对该MGMT基因的甲基化状态的检测，仍需要提供一种高效且准确的检测方案。

发明内容

本发明的主要目的在于提供一种MGMT基因启动子甲基化的检测方法、测序数据的处理方法及处理装置，以解决现有技术中的检测准确性低的问题。

为了实现上述目的，根据本发明的一个方面，提供了一种MGMT基因启动子甲基化测序数据的处理方法，该处理方法包括：获取来源于MGMT基因启动子的甲基化测序数据，甲基化测序数据为双端测序序列；将甲基化测序数据与人类参考基因组序列进行比对，得到比对结果，比对结果包括第一端第一匹配区、第一端第二匹配区、第二端第一匹配区以及第二端第二匹配区，其中，第一端第二匹配区与第二端第二匹配区重叠；去除比对结果中的第一端第二匹配区或者第二端第二匹配区，得到待分析数据；对待分析数据中进行甲基化位点识别，得到MGMT基因启动子的甲基化结果。

进一步地，在将甲基化测序数据与人类参考基因组序列进行比对之前，该处理方法还包括：对人类参考基因组序列进行C到T的转化预处理；以及对双端测序序列进行C到T的转化预处理。

进一步地，在得到待分析数据之后，以及对待分析数据进行甲基化位点识别之前，处理方法还包括对待分析数据进行校正的步骤，对待分析数据进行校正的步骤包括：利用人类参考基因组序列、人类参考基因组序列的位置信息以及人群高频SNP位点对待分析数据进行校正。

进一步地，对待分析数据中进行甲基化位点识别，得到MGMT基因启动子的甲基化结果的步骤包括：对待分析数据中的甲基化位点进行初鉴定，得到初鉴定位点；对初鉴定位点进行可信度筛选，得到MGMT基因启动子的甲基化结果；优选地，可信度筛选的参数设置条件为：覆盖度＜3000000、最佳与次佳基因型可能性比率标准≥20、比对质量＞5。

为了实现上述目的，根据本发明的一个方面，提供了一种MGMT基因启动子甲基化测序数据的处理装置，该处理装置包括：获取模块，用于获取来源于MGMT基因启动子的甲基化测序数据，甲基化测序数据为双端测序序列；比对模块，用于将甲基化测序数据与人类参考基因组序列进行比对，得到比对结果，比对结果包括第一端第一匹配区、第一端第二匹配区、第二端第一匹配区以及第二端第二匹配区，其中，第一端第二匹配区与第二端第二匹配区重叠；去除模块，用于去除比对结果中的第一端第二匹配区或者第二端第二匹配区，得到待分析数据；甲基化识别模块，用于对待分析数据中进行甲基化位点识别，得到MGMT基因启动子的甲基化结果。

进一步地，上述处理装置还包括：第一预处理模块，用于对人类参考基因组序列进行C到T的转化预处理；以及第二预处理模块，用于对双端测序序列进行C到T的转化预处理。

进一步地，处理装置还包括校正模块，用于对待分析数据进行校正，校正模块用于利用人类参考基因组序列、人类参考基因组序列的位置信息以及人群高频SNP位点对待分析数据进行校正。

进一步地，甲基化识别模块包括：初鉴定模块，用于对待分析数据中的甲基化位点进行初鉴定，得到初鉴定位点；可信度筛选模块，用于对初鉴定位点进行可信度筛选，得到MGMT基因启动子的甲基化结果；优选地，可信度筛选的参数设置条件为：覆盖度＜3000000、最佳与次佳基因型可能性比率标准≥20、比对质量＞5。

根据本发明的另一方面，提供了一种检测MGMT基因启动子甲基化的方法，该方法包括：对待测样本的gDNA进行重亚硫酸盐转化，得到转化DNA；对转化DNA进行扩增子文库构建，得到扩增子文库；对扩增子文库进行测序，得到测序数据；采用任一种处理方法或者上述任一种处理装置对测序数据进行甲基化分析，得到MGMT基因启动子的甲基化结果。

进一步地，采用扩增引物对转化DNA进行扩增子文库构建，得到扩增子文库，其中，扩增引物包括上游序列和下游序列，上游序列为SEQ ID NO:1，下游序列为SEQ ID NO:2；优选地，扩增引物的工作浓度为5～15μM，优选为10μM；优选地，扩增引物的退火温度为45～55℃，优选为50℃；优选地，扩增引物扩增对转化DNA进行扩增子文库构建的过程中，对转化DNA进行扩增30～40个循环，优选为35个循环，得到扩增子文库。

应用本发明的技术方案，通过对甲基化测序数据的甲基化分析流程进行改进，不仅使得最终检测的甲基化位点准确性较高，而且所能检测的位点的通量也相应较高，从而利于从整体水平上对甲基化水平进行评估。

附图说明

构成本申请的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1示出了根据本发明的实施例的MGMT基因启动子甲基化测序数据的处理方法的流程示意图；

图2示出了本申请优选的实施例中的MGMT基因启动子甲基化测序数据的处理装置的示意图；

图3示出了实施例6中焦磷酸盐检测方法所检测到的各CpG位点的甲基化水平；

图4示出了实施例6中采用本申请的方法所检测到的各CpG位点的甲基化水平及各DNA模板分子上的甲基化水平。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将结合实施例来详细说明本发明。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为了便于描述，以下对本申请实施例涉及的部分名词或术语进行说明：

DNA的正链和负链：就是指两条反向互补的链。参考基因组给出的链即为所谓的正链(forword)，另一条链是反链(reverse)。

而正义链(sense strand)和反义链(antisense strand)：指两条互补的DNA中一套携带编号蛋白质信息的链称为正义链，又称编码链，其与RNA序列相同。另一条与之互补的称为反义链，其虽与RNA反向互补，但其是给RNA当模板的链，因此又称为模板链。

在一条包含若干基因的双链DNA分子中，各个基因的正义链并不都在同一条链上。也就是说，有的基因的正义链是正链(forward strand)，有的基因的正义链是反链(reverse strand),即DNA双链中的一条链对某些基因而言是正义链，对另一些基因而言则是反义链。

如背景技术所提到的，现有技术中对MGMT基因启动子的甲基化检测方法存在效率低或准确性低的缺陷，为了改善这一状况，发明人对现有的对MGMT基因启动子甲基化检测的方法进行了比较分析，发现现有的亚硫酸氢盐测序PCR(BSP)法在设计引物时，DNA序列在经亚硫酸盐处理后，其部分C碱基会转变为T，导致序列区域内CG含量和TM值发生较大程度的变异，进而影响常规引物设计软件在其序列上获得理想的引物序列。为了提供一种特异性更好，扩增效率更高的扩增引物，发明人设计了几十对针对该基因启动子位点的引物，并充分考虑了经亚硫酸盐处理后的DNA的特点，通过模拟C碱基转变为T后的GC含量和TM值，筛选出候选的目的引物，进一步通过实验验证，最终确定了一对扩增效率和特异性均最好的引物。并在该引物扩增产物的基础上尝试通过NGS的方法来进行甲基化检测，测序数据通过改进的甲基化分析流程发现，不仅最终检测的甲基化位点准确性较高，而且所能检测的位点的通量也相应较高，从而便于结合整体的甲基化位点信息对甲基化水平进行评估。

在上述研究结果的基础上，申请人提出了本申请的技术方案。在一种典型的实施方式中，提供了一种MGMT基因启动子甲基化测序数据的处理方法，图1示出的是本申请的实施例中的MGMT基因启动子甲基化测序数据的处理方法的流程图。如图1所示，该处理方法包括：

步骤S10，获取来源于MGMT基因启动子的甲基化测序数据，甲基化测序数据为双端测序序列；

步骤S30，将甲基化测序数据与人类参考基因组序列进行比对，得到比对结果，比对结果包括第一端第一匹配区、第一端第二匹配区、第二端第一匹配区以及第二端第二匹配区，其中，第一端第二匹配区与第二端第二匹配区重叠；

步骤S50，去除比对结果中的第一端第二匹配区或者第二端第二匹配区，得到待分析数据；

步骤S70，对待分析数据中进行甲基化位点识别，得到MGMT基因启动子的甲基化结果。

上述针对MGMT基因启动子的甲基化测序数据的处理方法，通过对比对结果中的两端测序数据均比对上的重叠区域的序列进行去重，使得在后续识别和统计甲基化水平时的结果更准确。

上述比对步骤中，采用现有的甲基化的比对策略即可。在一种优选的实施例中，在将甲基化测序数据与人类参考基因组序列进行比对之前，上述处理方法还包括：对人类参考基因组序列进行C到T的转化预处理；以及对双端测序序列进行C到T的转化预处理。

具体地，根据待处理的甲基化测序数据的扩增来源(来源于基因组的正链还是负链)，对相应的人类参考基因组序列的正链或负链对应的正义链和反义链分别进行C到T(或者G到A)的转化预处理后作为参考比对序列。相应地，对双端测序序列中每一端的测序序列分别进行C到T(或者G到A)的转化预处理。

在比对之前，双端测序的序列属于人类参考基因组序列的正链还是负链并不清楚，只有比对后，根据比对位置才可以确定。

为了使后续各位点的甲基化的水平相对更准确，在一种优选的实施例中，在得到待分析数据之后，以及对待分析数据进行甲基化位点识别之前，处理方法还包括对待分析数据进行校正的步骤，对待分析数据进行校正的步骤包括：利用人类参考基因组序列、人类参考基因组序列的位置信息以及人群高频SNP位点对待分析数据进行校正。

上述校正步骤可以去除一些低质量的位点，所谓的质量包括测序质量或比对质量。具体的校正软件可以采用BisSNP软件中的Bisulfite Count Covariates模块和Bisulfite Table Recalibration模块进行校正。进行上述校正步骤有利于提高鉴定准确性。

为了进一步提高各甲基化位点的可信度，在一种优选的实施例中，对待分析数据中进行甲基化位点识别，得到MGMT基因启动子的甲基化结果信息的步骤包括：对待分析数据中的甲基化位点进行初鉴定，得到初鉴定位点；对初鉴定位点进行可信度筛选，得到MGMT基因启动子的甲基化结果信息；优选地，可信度筛选的参数设置条件为：覆盖度＜3000000、最佳与次佳基因型可能性比率标准≥20、比对质量＞5。

具体地，上述初鉴定步骤可以采用BisSNP的Bisulfite Genotyper模块同时鉴定SNP/甲基化位点，分别得到SNP和CpG甲基化的初始vcf文件。然后通过BisSNP的sort ByRef And Cor模块，对初步鉴定的甲基化vcf文件按基因组位置排序，之后再采用BisSNP的VCF post process模块，对排序后的甲基化vcf文件中低可信度的甲基化位点进行过滤。具体的过滤条件采用上述软件模块的默认值即可。

需要说明的是，在上述流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本申请实施例还提供了一种MGMT基因启动子甲基化测序数据的处理装置，需要说明的是，本申请实施例的处理装置可以用于执行本申请实施例所提供的MGMT基因启动子甲基化测序数据的处理方法。以下对该处理装置进行介绍。

图2示出的是本申请的实施例中的MGMT基因启动子甲基化测序数据的处理装置的示意图。如图2所示，该处理装置包括：获取模块20、比对模块40、去除模块60以及甲基化识别模块80。

获取模块20，用于获取来源于MGMT基因启动子的甲基化测序数据，甲基化测序数据为双端测序序列；

比对模块40，用于将甲基化测序数据与人类参考基因组序列进行比对，得到比对结果，比对结果包括第一端第一匹配区、第一端第二匹配区、第二端第一匹配区以及第二端第二匹配区，其中，第一端第二匹配区与第二端第二匹配区重叠；

去除模块60，用于去除比对结果中的第一端第二匹配区或者第二端第二匹配区，得到待分析数据；

甲基化识别模块80，用于对待分析数据中进行甲基化位点识别，得到MGMT基因启动子的甲基化结果。

上述处理装置，通过获取模块获取目的片段的甲基化测序数据，然后执行比对模块得到比对结果，接着执行去除模块对比对结果中的两端测序数据均比对上的重叠区域的序列进行去重，进而使得甲基化识别模块对识别和统计的甲基化水平的结果更准确。

上述比对模块可以采用现有的甲基化的比对模块。在一种优选的实施例中，上述处理装置还包括：第一预处理模块，用于对人类参考基因组序列进行C到T的转化预处理；以及第二预处理模块，用于对双端测序序列进行C到T的转化预处理。

为了使后续各位点的甲基化的水平相对更准确，在一种优选的实施例中，上述处理装置还包括校正模块，用于对待分析数据进行校正，校正模块用于利用人类参考基因组序列、人类参考基因组序列的位置信息以及人群高频SNP位点对待分析数据进行校正。

上述校正模块可以去除一些低质量的位点，所谓的质量包括测序质量或比对质量。具体的校正软件可以采用BisSNP软件中的Bisulfite Count Covariates模块和Bisulfite Table Recalibration模块进行校正。进行上述校正模块有利于提高鉴定准确性。

为了进一步提高各甲基化位点的可信度，在一种优选的实施例中，上述甲基化识别模块包括：初鉴定模块，用于对待分析数据中的甲基化位点进行初鉴定，得到初鉴定位点；可信度筛选模块，用于对初鉴定位点进行可信度筛选，得到MGMT基因启动子的甲基化结果；优选地，可信度筛选的参数设置条件为：覆盖度＜3000000、最佳与次佳基因型可能性比率标准≥20、比对质量＞5。

在第三种典型的实施方式中，提供了一种检测MGMT基因启动子甲基化的方法，该方法包括：对待测样本的gDNA进行重亚硫酸盐转化，得到转化DNA；对转化DNA进行扩增子文库构建，得到扩增子文库；通过对扩增子文库进行测序，得到测序数据；采用上述任一种处理方法或处理装置对上述测序数据进行甲基化分析，得到MGMT基因启动子的甲基化结果信息。

本申请的检测方法，通过采用上述甲基化测序数据的处理流程，使得对MGMT基因启动子的甲基化的检测结果更准确。

在本申请对目的基因启动子的扩增引物进行改进使得扩增效率和特异性更好的基础上，本申请的检测方法还包括了改进的扩增子文库构建方案。在一种优选的实施例中，采用扩增引物对转化DNA进行扩增子文库构建，得到扩增子文库，其中，扩增引物包括上游序列和下游序列，上游序列为SEQ ID NO:1，下游序列为SEQ ID NO:2。

本申请所提供的上述检测方法，通过采用本申请改进的引物对目的区域进行扩增，不仅扩增效率高，而且特异性高，因而获得的目的区域的DNA状况相对更准确。然后进一步通过将扩增的目的区域构建为扩增子文库，进而通过高通量测序的方法来检测甲基化状况，从而提高了MGMT基因启动子甲基化位点的数量，即提高了检测通量和效率。

为了更有效地对目的基因的启动子区域进行扩增，发明人还对所设计的引物的工作浓度和退火温度进行了优化，从而提高扩增效率和特异性。因而在一种优选的实施例中，上述引物的工作浓度为5～15μM，优选为10μM；在另一种优选的实施例中，上述引物在扩增过程中的退火温度为45℃～55℃，优选为50℃。在另一些优选的实施例中，上述扩增引物扩增对转化DNA进行扩增子文库构建的过程中，对转化DNA进行扩增30～40个循环，优选为35个循环，得到上述扩增子文库。

下面将进一步结合具体的实施例来进一步说明本申请的有益效果。

以下实施例中所需试剂及厂家如下表1：

表1：

实施例1：检测MGMT基因启动子甲基化水平

该实施例所用的引物序列见下表2，通过金唯智公司合成，用去水稀释为5～10μM的工作浓度。

表2：

名称	SEQ ID NO:	序列(5’-3’)
			上游序列F	1	TYGYGTTTTGGATATGTTGG
下游序列R	2	CRAAAAAAAACTCCRCACTC

具体步骤如下：

一、提取待测样品的基因组DNA。

二、重亚硫酸盐转化基因组DNA。

2.1转化DNA起始量100ng，样品起始体积为20μL，不足20μL时，用水补足。

2.2取130μL Lightning Conversion Reagent加入DNA样本中，震荡混匀，短暂离心，置于PCR仪上，按下表3进行PCR反应：

表3：

温度	时间
		98℃	8min
54℃	60min
		4℃	20h

2.3向Zymo-Spin^TMIC Column中加入600μL M-Binding Buffer，将2.2步骤反应后的产物加入含有M-Binding Buffer的Zymo-Spin^TMIC Column中，用枪吹打混匀，静置2min。12000rpm离心1min。

2.4将收集管中的液体重新加回吸附柱中，静置2min，12000rpm离心1min，弃废液。

2.5加入100μL M-Wash Buffer，12000rpm离心1min，弃废液。

2.6加入200μL L-Desulphonation Buffer室温(20-30℃)孵育15-20min，孵育完成后，12000rpm离心1min，弃废液。

2.7加入200μL M-Wash Buffer，12000rpm离心1min，弃废液。

2.8重复2.7步骤，加入200μL M-Wash Buffer，12000rpm离心1min，弃废液。

2.9将吸附柱放回收集管中，12,000rpm离心2min，倒掉废液。将吸附柱开盖置于室温放置2-5min，以彻底晾干吸附材料中残余的漂洗液。

2.10将吸附柱转入一个干净的离心管中，向吸附膜的中间部位悬空滴加50℃预热的20μL洗脱缓冲液TE洗脱，室温放置2-5min，12000rpm离心1min。

2.11将收集管中的液体重新加回吸附柱中，室温放置2-5min，12000rpm离心1min，将收集有转化后DNA的离心管-20℃保存。

三、MGMT基因启动子扩增

3.1按照下表4配制混合物(Mix)，震荡混匀：

表4：

试剂	体积
		KAPA HiFi HS Uracil+RM	12.5μL
MGMT-F(SEQ ID NO:1)	1μL
		MGMT-R(SEQ ID NO:2)	1μL
转化后的DNA	5μL
		水	5.5μL
总体积	25μL

3.2将上一步转化后的DNA加入到按表3配制好的Mix中，震荡混匀。

3.3短暂离心，置于PCR仪上，按下表5进行PCR反应：

表5：

3.4磁珠纯化

将上步的PCR产物按DNA NGS文库构建方式(KAPA公司的KAPA Hyper Prep kit的制备步骤)进行建库及测序。

实施例2：检测MGMT基因启动子甲基化引物的退火温度、工作浓度和PCR循环数的扩增效果

一、临床样本组织DNA的提取。

二、重亚硫酸盐转化基因组DNA、MGMT扩增等步骤参考实施例1。

三、选择不同的引物退火温度、工作浓度和PCR循环数。

3.1引物退火温度的选择：40℃、45℃、50℃、55℃、60℃。

3.2引物工作浓度的选择：4μM、5μM、10μM、15μM、16μM。

3.3PCR循环数的选择：25个循环、30个循环、35个循环、40个循环、45个循环。

四、检测结果：

4.1引物退火温度的检测结果见表6：

表6：

退火温度	检测结果
		40℃	非特异性扩增较多
45℃	扩增出正确的目的条带
		50℃	扩增出正确的目的条带
55℃	扩增出正确的目的条带
		60℃	无扩增条带

4.2引物工作浓度的检测结果见表7：

表7：

工作浓度	检测结果
		4μM	无扩增条带
5μM	扩增出正确的目的条带
		10μM	扩增出正确的目的条带
15μM	扩增出正确的目的条带
		16μM	引物二聚体较多

4.3PCR循环数的检测结果见表8：

表8：

实施例3：MGMT基因甲基化测序数据的处理方法

一、比对

调用bismark将每一对fastq文件都作为paired reads比对到MGMT人类参考基因组序列，生成初始bam文件，参数设置“--phred33-quals”。

二、排序

调用SAM tools的sort模块，对初始bam文件按照染色体位置进行排序，默认参数。

三、添加Read Group信息

调用Picard的Add Or Replace Read Groups模块对排序后的bam文件添加ReadGroup信息，参数设置“VALIDATION_STRINGENCY＝LENIENT”。

四、去除双端序列间的重叠区间

调用Bam Util的clip Overlap模块，去除比对后bam文件中双端序列间的重叠序列，后续的分析时，不会过滤这部分重叠序列，会影响Beta值的计算。

五、建立索引

调用SAMtools的index模块对最终生成的bam文件建立索引，生成与去除重复后的bam文件配对的bai文件。

六、数据校正

先后使用BisSNP的Bisulfite Count Covariates模块和Bisulfite TableRecalibration模块对经过上述处理后的bam文件、bed文件(人工输入的一个文件，该文件记录的是人类参考基因组序列的位置信息)、人类参考基因组序列的fasta文件及已经人类高频出现vcf文件，进行校正以去除低质量(包括测序质量和/或比对质量)的位点，从而提高鉴定准确性。

七、SNP/甲基化位点联合鉴定

使用BisSNP的Bisulfite Genotyper模块同时鉴定SNP/甲基化位点，分别得到SNP(非关注位点，该部分数据可以不用)和甲基化(即CpG位点)的初始vcf文件。

八、甲基化位点排序

使用BisSNP的sort By Ref And Cor模块，对初步鉴定的甲基化vcf文件按基因组位置排序。

九、甲基化位点过滤

使用BisSNP的VCF post process，对排序后续的甲基化vcf文件做过滤。

十、数据整理

将过滤后的甲基化vcf文件整理成易读的文件格式，得到甲基化检测结果，具体见表9。

表9：

附：上表中阳性的判断标准为甲基化水平为10％以上判定为阳性。

实施例4：MGMT基因甲基化检测的重复性评估

一、样品制备

配制突变频率相同的3个批次的MGMT标准品(理论突变频率分别为10.00％、15％及20％)，对3个批次的样本进行重复性检测，统计3个批次的样本检测的甲基化频率。

二、对目的区域进行扩增并构建扩增子文库进行测序检测，具体的重亚硫酸盐转化基因组DNA、MGMT扩增等步骤参考实施例1，测序数据的分析流程参考实施例3。

三、检测结果：3个批次检测的甲基化频率结果见表10。

表10：

由表10可以看出，检测结果中3个批次间的CV(变异系数)值小，重复性好。

实施5：临床样本MGMT基因甲基化检测与焦磷酸检测的一致性

一、临床样本组织DNA的提取。

二、重亚硫酸盐转化基因组DNA、MGMT扩增等步骤参考实施例1，测序数据的分析流程参考实施例3。同时采用焦磷酸测序进行验证和进行对照比较。

三、临床样本甲基化水平检测及判断结果见表11。

表11：

附：需要说明的是，上述各样本的甲基化水平是以焦磷酸化检测的四个位点的平均甲基化水平来测定的，达到10％以上判定为阳性。

从表11可以看出，对临床样本进行检测，与焦磷酸测序检测方法对比后验证结果显示，采用本申请的MGMT NGS检测结果与焦磷酸测序的检测结果一致，表明本申请的引物扩增得到的扩增子通过高通量测序及改进的甲基化分析流程而检测到的MGMT基因启动子的甲基化状态，并未因测序通量的提高而降低了准确性。

实施例6：MGMT基因甲基化检测对比焦磷酸测序的优势

一、对两种不同方法所检测的甲基化位点进行了统计，统计结果见表12。

表12：MGMT NGS检测位点和焦磷酸检测位点

从表12可以看出，采用本申请的引物构建的扩增子文库及改进的测序数据的分析流程所检测到的甲基化位点数目显著多于目前焦磷酸盐检测方法所能检测到的位点数目。

二、对两种不同方法所检测的甲基化的维度进行了比较，比较结果见图3和图4。

图3示出的是焦磷酸盐检测方法所检测到的各CpG位点的甲基化水平，图4示出的是采用本申请的方法所检测到的各CpG位点的甲基化水平(同一位点竖直方向上比较)及各DNA模板分子上的甲基化水平(同一序列水平方向上比较)。从图3和图4可以看出，本申请的甲基化检测比焦磷酸测序能够体现更多的单倍体型位点信息。

从以上的描述中，可以看出，本发明上述的实施例实现了如下技术效果：通过采用本申请改进的引物对目的区域进行扩增，特异性高和扩增效率高，能够便于将扩增的目的区域构建为扩增子文库，并通过改进的分析流程来检测甲基化状况，从而提高了MGMT基因启动子甲基化位点的数量，不仅提高了检测通量和效率，而且提高了检测的准确性，为指导用药提供了更可靠的依据。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种MGMT基因启动子甲基化测序数据的处理方法，其特征在于，所述处理方法包括：

获取来源于MGMT基因启动子的甲基化测序数据，所述甲基化测序数据为双端测序序列；

将所述甲基化测序数据与人类参考基因组序列进行比对，得到比对结果，所述比对结果包括第一端第一匹配区、第一端第二匹配区、第二端第一匹配区以及第二端第二匹配区，其中，所述第一端第二匹配区与所述第二端第二匹配区重叠；

去除所述比对结果中的所述第一端第二匹配区或者所述第二端第二匹配区，得到待分析数据；

对所述待分析数据中进行甲基化位点识别，得到所述MGMT基因启动子的甲基化结果；

对所述待分析数据中进行甲基化位点识别，得到所述MGMT基因启动子的甲基化结果的步骤包括：

对所述待分析数据中的甲基化位点进行初鉴定，得到初鉴定位点；

对所述初鉴定位点进行可信度筛选，得到所述MGMT基因启动子的甲基化结果；

所述可信度筛选的参数设置条件为：覆盖度＜3000000、最佳与次佳基因型可能性比率标准≥20、比对质量＞5。

2.根据权利要求1所述的处理方法，其特征在于，在将所述甲基化测序数据与所述人类参考基因组序列进行比对之前，所述处理方法还包括：

对所述人类参考基因组序列进行C到T的转化预处理；以及

对所述双端测序序列进行C到T的转化预处理。

3.根据权利要求1所述的处理方法，其特征在于，在得到所述待分析数据之后，以及对所述待分析数据进行甲基化位点识别之前，所述处理方法还包括对所述待分析数据进行校正的步骤，对所述待分析数据进行校正的步骤包括：

利用所述人类参考基因组序列、所述人类参考基因组序列的位置信息以及人群高频SNP位点对所述待分析数据进行校正。

4.一种MGMT基因启动子甲基化测序数据的处理装置，其特征在于，所述处理装置包括：

获取模块，用于获取来源于MGMT基因启动子的甲基化测序数据，所述甲基化测序数据为双端测序序列；

比对模块，用于将所述甲基化测序数据与人类参考基因组序列进行比对，得到比对结果，所述比对结果包括第一端第一匹配区、第一端第二匹配区、第二端第一匹配区以及第二端第二匹配区，其中，所述第一端第二匹配区与所述第二端第二匹配区重叠；

去除模块，用于去除所述比对结果中的所述第一端第二匹配区或者所述第二端第二匹配区，得到待分析数据；

甲基化识别模块，用于对所述待分析数据中进行甲基化位点识别，得到所述MGMT基因启动子的甲基化结果；

所述甲基化识别模块包括：

初鉴定模块，用于对所述待分析数据中的甲基化位点进行初鉴定，得到初鉴定位点；

可信度筛选模块，用于对所述初鉴定位点进行可信度筛选，得到所述MGMT基因启动子的甲基化结果；

5.根据权利要求4所述的处理装置，其特征在于，所述处理装置还包括：

第一预处理模块，用于对所述人类参考基因组序列进行C到T的转化预处理；以及

第二预处理模块，用于对所述双端测序序列进行C到T的转化预处理。

6.根据权利要求4所述的处理装置，其特征在于，所述处理装置还包括校正模块，用于对所述待分析数据进行校正，所述校正模块用于利用所述人类参考基因组序列、所述人类参考基因组序列的位置信息以及人群高频SNP位点对所述待分析数据进行校正。

7.一种MGMT基因启动子甲基化的检测方法，其特征在于，所述检测方法包括：

对待测样本的gDNA进行重亚硫酸盐转化，得到转化DNA；

对所述转化DNA进行扩增子文库构建，得到扩增子文库；

对所述扩增子文库进行测序，得到测序数据；

采用权利要求1至3中任一项所述的处理方法或者权利要求4至6中任一项所述的处理装置对所述测序数据进行甲基化分析，得到所述MGMT基因启动子的甲基化结果。

8.根据权利要求7所述检测方法，其特征在于，采用扩增引物对所述转化DNA进行扩增子文库构建，得到所述扩增子文库，其中，所述扩增引物包括上游序列和下游序列，所述上游序列为SEQ ID NO:1，所述下游序列为SEQ ID NO:2。

9.根据权利要求8所述检测方法，其特征在于，所述扩增引物的工作浓度为5～15μM。

10.根据权利要求8所述检测方法，其特征在于，所述扩增引物的工作浓度为10μM。

11.根据权利要求8所述检测方法，其特征在于，所述扩增引物的退火温度为45～55℃。

12.根据权利要求8所述检测方法，其特征在于，所述扩增引物的退火温度为50℃。

13.根据权利要求8所述检测方法，其特征在于，所述扩增引物扩增对所述转化DNA进行扩增子文库构建的过程中，对所述转化DNA进行扩增30～40个循环，得到所述扩增子文库。

14.根据权利要求8所述检测方法，其特征在于，所述扩增引物扩增对所述转化DNA进行扩增子文库构建的过程中，对所述转化DNA进行扩增35个循环，得到所述扩增子文库。