[go: up one dir, main page]

CN118139990A - 测序方法、测序数据处理方法、设备和计算机设备 - Google Patents

测序方法、测序数据处理方法、设备和计算机设备 Download PDF

Info

Publication number
CN118139990A
CN118139990A CN202280070809.4A CN202280070809A CN118139990A CN 118139990 A CN118139990 A CN 118139990A CN 202280070809 A CN202280070809 A CN 202280070809A CN 118139990 A CN118139990 A CN 118139990A
Authority
CN
China
Prior art keywords
sequencing
nucleic acid
read
template
acid template
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202280070809.4A
Other languages
English (en)
Inventor
樊济才
金欢
陈美容
陈方
孙雷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Genemind Biosciences Co Ltd
Original Assignee
Genemind Biosciences Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Genemind Biosciences Co Ltd filed Critical Genemind Biosciences Co Ltd
Publication of CN118139990A publication Critical patent/CN118139990A/zh
Pending legal-status Critical Current

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6813Hybridisation assays
    • C12Q1/6834Enzymatic or biochemical coupling of nucleic acids to a solid phase
    • C12Q1/6837Enzymatic or biochemical coupling of nucleic acids to a solid phase using probe arrays or probe chips
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • C12Q1/6874Methods for sequencing involving nucleic acid arrays, e.g. sequencing by hybridisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/30Detection of binding sites or motifs
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/50Mutagenesis

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Engineering & Computer Science (AREA)
  • Organic Chemistry (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Molecular Biology (AREA)
  • Analytical Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Immunology (AREA)
  • Biochemistry (AREA)
  • Microbiology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本公开涉及测序数据处理方法、设备、计算设备和计算机可读介质。测序数据包括多个读段组,读段组包括多个读段,多个读段是通过对同一插入片段进行多轮测序而获得的,测序数据处理方法包括将多个读段与参考基因组进行全局比对,以便在参考基因组上确定与多个读段对应的多个匹配区域;和基于多个匹配区域之间的实际相对位置与预设位置要求的比较,对多个读段进行一次筛选,以便获得可拼接读段和过滤读段,其中,预设位置要求是由多轮测序的规则确定的,实际相对位置满足预设位置要求是读段作为可拼接读段的指示;和实际相对位置不满足预设位置要求是读段作为过滤读段的指示。能够有效地对来自同一插入片段多轮测序的读段进行筛选。

Description

测序方法、测序数据处理方法、设备和计算机设备
优先权信息
本申请请求2021年10月18日向中国国家知识产权局提交的专利申请202111209946.5的优先权和权益,并且通过参照将其全文并入此处。
技术领域
本公开涉及生物技术领域,具体的,本公开涉及测序技术领域,更具体的,本公开涉及测序方法、测序数据处理方法、设备、计算设备和计算机可读介质。
背景技术
DNA测序和随之而来的基因操作从根本上改变了生命科学,人类基因组序列的完成是这项工作的一个主要里程碑。据报道,二十世纪八十年代人们就提出了单分子测序的概念。2008年,Helicos公司的第一台测序仪HeliScope上市。
高通量测序仪采用全内反射的荧光CCD(Charge coupled Device,电荷耦合元件,又称为CCD图像传感器)、TIRF(Total Internal Reflection Fluorescence,全内反射荧光)等成像系统检测掺入的核苷酸,从而实现测序的目的。测序长度越长越有利于序列组装和分析,而在测序过程中,受荧光染料切除后碱基侧链留下的残基(Scar)累积等因素的影响,很难实现长读长测序。
因此,现有的测序技术及其相应的测序数据分析手段仍有待改进。
发明内容
本公开旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本公开一方面提供一种测序方法。根据本公开的实施方案,所述测序方法包括:
提供核酸模板,所述核酸模板直接或者间接连接在固相载体的表面;
利用第一核苷酸进行合成测序反应,以测定所述核酸模板的一部分,获得读段,所述第一核苷酸为带有可检测标记的可逆终止子;
利用第二核苷酸进行聚合反应,以合成所述核酸模板的一部分,获得预设长度的合成片段,所述第二核苷酸为不带有可检测标记的可逆终止子,所述读段和所述合成片段对应所述核酸模板上有重叠或者没有重叠的连续的部分。
本公开是发明人基于测序平台有限的测序读长尤其是短读长(如15~50bp的测序长度)不利于序列的组装和分析,或在模板量一定的情况下通过增加测序量可提高测序分析准确度的情况而作出的。
根据本公开的实施方案,所述读段的长度不短于所述合成片段的长度。
根据本公开的实施方案,所述合成片段的长度大于或等于1bp。
根据本公开的实施方案,所述合成片段的长度大于或等于10bp。
根据本公开的实施方案,所述合成片段的长度大于或等于10bp并且小于或等于20bp。
根据本公开的实施方案,所述核酸模板的长度小于或等于600bp。
根据本公开的实施方案,所述核酸模板大于或等于75bp且小于或等于400bp。
根据本公开的实施方案,所述第一核苷酸和/或所述第二核苷酸的糖的3'-OH被可逆阻断。
根据本公开的实施方案,所述第一核苷酸和/或所述第二核苷酸的糖的3'-OH为天然状态,并且所述第一核苷酸和/或所述第二核苷酸的碱基连接有可切割的阻断基团。
根据本公开的实施方案,所述可检测标记为荧光分子。
根据本公开的实施方案,在DNA聚合酶的作用下进行所述合成测序反应和/或所述聚合反应,所述DNA聚合酶选自Klenow片段、Bst、9°N、Pfu、KOD和Vent中的至少一种。
根据本公开的实施方案,在相同DNA聚合酶的作用下进行所述合成测序反应和所述聚合反应,所述DNA聚合酶为Klenow片段突变体。
根据本公开的实施方案,在相同DNA聚合酶的作用下进行所述合成测序反应和所述聚合反应,所述DNA聚合酶为9°N突变体。
根据本公开的实施方案,所述读段为第一读段,所述方法包括:
i)使所述核酸模板与第一引物杂交,所述第一引物的至少一部分与所述核酸模板的3'端互补,所述第一引物共价连接在所述固相载体的表面上;
ii)利用所述第一核苷酸进行所述合成测序反应,包括延伸所述第一引物合成所述核酸模板的互补链以测定所述核酸模板的第一部分,获得所述第一读段,定义所述核酸模板的互补链为第一模板;
iii)利用所述第二核苷酸进行所述聚合反应,包括继续延伸所述第一模板,获得所述合成片段;以及
iv)利用所述第一核苷酸进行所述合成测序反应,包括继续延伸所述第一模板以测定所述核酸模板的第二部分,获得第二读段,
所述第一读段、所述合成片段和所述第二读段对应所述核酸模板上三个没有重叠的连续的部分。
根据本公开的实施方案,所述读段为第一读段,所述方法包括:
i)加入第一引物并使所述核酸模板与所述第一引物杂交,所述第一引物的至少一部分与所述核酸模板的3'端互补,所述核酸模板共价连接在所述固相载体的表面上;
ii)利用所述第一核苷酸进行所述合成测序反应,包括延伸所述第一引物合成所述核酸模板的互补链以测定所述核酸模板的第一部分,获得所述第一读段,定义所述核酸模板的互补链为第一模板;
iii)利用所述第二核苷酸进行所述聚合反应,包括继续延伸所述第一模板,获得所述合成片段;以及
iv)利用所述第一核苷酸进行所述合成测序反应,包括继续延伸所述第一模板以测定所述核酸模板的第二部分,获得第二读段,
所述第一读段、所述合成片段和所述第二读段对应所述核酸模板上三个没有重叠的连续的部分。
根据本公开的实施方案,所述合成片段为第一合成片段,所述方法还包括:
v)去除所述核酸模板;
vi)加入第二引物并使该第二引物结合到所述第一模板,利用所述第二核苷酸进行所述聚合反应,包括延伸所述第二引物合成所述第一模板的互补链,获得预设长度的第二合成片段,所述第二引物的至少一部分与所述第一模板的3'端互补,定义所述第一模板的互补链为第二模板;以及
vii)利用所述第一核苷酸进行所述合成测序反应,包括继续延伸所述第二模板以测定所述核酸模板的第三部分,获得第三读段,
所述第二合成片段和所述第三读段对应所述核酸模板上两个连续的部分。
根据本公开的实施方案,所述方法还包括:重复iii)和iv)至少一次。
根据本公开的实施方案,所述方法还包括:重复vi)和vii)至少一次。
根据本公开的实施方案,所述第一读段、第一合成片段、第二读段、第二合成片段和第三读段之间的长度关系能使所述核酸模板的非末端部分的任一个位置的核苷酸被至少测定一次。
根据本公开的实施方案,所述方法还包括在iv)之后且v)之前,对所述固相载体表面上的至少一部分核酸分子进行封闭。
根据本公开的实施方案,所述方法还包括在在v)之后且vi)之前,对所述固相载体表面上的至少一部分核酸分子进行封闭。
根据本公开的实施方案,在DNA聚合酶的作用下使延伸反应阻断剂结合到所述第一模板实现所述封闭,所述延伸反应阻断剂选择ddNTP及其衍生物中的至少一种。
根据本公开的实施方案,在末端转移酶的作用下使延伸反应阻断剂结合到所述第一模板实现所述封闭,所述延伸反应阻断剂选择ddNTP及其衍生物中的至少一种。
根据本公开的实施方案,所述读段为第一读段,所述合成片段为第一合成片段,所述方法包括:
i)加入第一引物并使所述核酸模板与所述第一引物杂交,所述第一引物的至少一部分与所述核酸模板的3'端互补,所述核酸模板共价连接在所述固相载体的表面上;
ii)利用所述第一核苷酸进行所述合成测序反应,包括延伸所述第一引物合成所述核酸模板的互补链以测定所述核酸模板的第一部分,获得所述第一读段,定义所述核酸模板的互补链为第一模板;
iii)去除所述第一模板;
iv)加入所述第一引物并使该第一引物结合到所述核酸模板,利用所述第二核苷酸进行所述聚合反应,包括延伸所述第一引物合成所述核酸模板的互补链,获得所述第一合成片段,所述第一合成片段的长度不长于所述第一读段的长度,定义所述核酸模板的互补链为第一模板;以及
v)利用所述第一核苷酸进行所述合成测序反应,包括继续延伸所述第一模板以测定所述核酸模板的第二部分,获得第二读段。
根据本公开的实施方案,所述方法还包括:重复iii)-v)至少一次,并且使每个重复中的第一合成片段的长度不短于上一个重复中的第一合成片段的长度且不长于上一个重复中的第一合成片段和第二读段的长度之和。
根据本公开的实施方案,所述读段为第一读段,所述合成片段为第一合成片段,所述方法包括:
i)加入第一引物并使所述核酸模板与所述第一引物杂交,所述第一引物的至少一部分与所述核酸模板的3'端互补,所述核酸模板共价连接在所述固相载体的表面上;
ii)利用所述第二核苷酸进行所述聚合反应,包括延伸所述第一引物合成所述核酸模板的互补链,获得所述第一合成片段,定义所述核酸模板的互补链为第一模板;
iii)利用所述第一核苷酸进行所述合成测序反应,包括继续延伸所述第一模板以测定所述核酸模板的第一部分,获得所述第一读段;
iv)去除所述第一模板;以及
v)加入所述第一引物并使该第一引物结合到所述核酸模板,利用所述第一核苷酸进行所述合成测序反应,包括延伸所述第一引物合成所述核酸模板的互补链以测定所述核酸模板的第二部分,获得第二读段,所述第二读段的长度不短于所述第一合成片段的长度。
根据本公开的实施方案,所述读段为第一读段,所述方法包括:
i)使所述核酸模板与第一引物杂交,所述第一引物的至少一部分与所述核酸模板的3'端互补,所述第一引物共价连接在所述固相载体的表面上;
ii)利用所述第一核苷酸进行所述合成测序反应,包括延伸所述第一引物合成所述核酸模板的互补链以测定所述核酸模板的第一部分,获得所述第一读段,定义所述核酸模板的互补链为第一模板;
iii)利用所述第二核苷酸进行所述聚合反应,包括继续延伸所述第一模板,获得所述合成片段;
iv)去除所述核酸模板;
v)加入第二引物并使该第二引物结合到所述第一模板,利用所述第一核苷酸进行所述合成测序反应,包括延伸所述第二引物合成所述第一模板的互补链以测定所述核酸模板的第二部分,获得第二读段,所述第二引物的至少一部分与所述第一模板的3'端互补。
根据本公开的实施方案,,通过使单链核酸分子与探针杂交,并基于聚合反应延伸所述探针获得所述核酸模板,所述探针共价连接在所述固相载体的表面上,所述单链核酸分子的3'端与所述探针互补。
根据本公开的实施方案,所述方法还包括在ii)之后且iii)之前,对所述固相载体表面上的至少一部分核酸分子进行封闭。
根据本公开的实施方案,所述方法还包括在iii)之后且iv)之前,对所述固相载体表面上的至少一部分核酸分子进行封闭。
根据本公开的实施方案,在DNA聚合酶的作用下使延伸反应阻断剂结合到所述第一模板实现所述封闭,所述延伸反应阻断剂选择ddNTP及其衍生物中的至少一种。
根据本公开的实施方案,所述方法还包括在iii)之后且iv)之前,对所述固相载体表面上的至少一部分核酸分子进行封闭。
根据本公开的实施方案,所述方法还包括在iv)之后且v)之前,对所述固相载体表面上的至少一部分核酸分子进行封闭。
根据本公开的实施方案,在末端转移酶的作用下使延伸反应阻断剂结合到所述第一模板实现所述封闭,所述延伸反应阻断剂选择ddNTP及其衍生物中的至少一种。
根据本公开的实施方案,通过加入变性试剂解离所述核酸模板与所述第一模板,以去除所述核酸模板。
根据本公开的实施方案,通过加入变性试剂解离所述第一模板与所述核酸模板,以去除所述第一模板。
根据本公开的实施方案,所述变性试剂包含甲酰胺。
本公开另一方面提供一种测序数据处理方法。根据本公开的实施方案,所述测序数据包括多个读段组,所述读段组包括多个读段,所述多个读段是通过对同一插入片段进行多轮测序而获得的,所述方法包括针对每个所述读段组的所述多个读段进行下列处理:
将所述多个读段与参考基因组进行全局比对,以便在所述参考基因组上确定与所述多个读段对应的多个匹配区域; 和
基于所述多个匹配区域之间的实际相对位置与预设位置要求的比较,对所述多个读段进行一次筛选,以便获得可拼接读段和过滤读段,
其中,
所述预设位置要求是由所述多轮测序的规则确定的,
所述实际相对位置满足所述预设位置要求是所述读段作为所述可拼接读段的指示;和
所述实际相对位置不满足所述预设位置要求是所述读段作为所述过滤读段的指示。
根据本公开的实施方案,所述测序数据处理方法进一步包括:
对于所述过滤读段进行二次筛选,所述二次筛选包括:
将所述读段组的至少一个作为初步读段,并基于所述初步读段对应的所述匹配区域和所述预设位置要求确定所述参考基因组上的二次比对区域;和
将所述过滤读段的每一个所述读段分别与所述二次比对区域进行局部比对,并将满足预定阈值的所述读段和所述初步读段归类为可拼接读段。
根据本公开的实施方案,所述读段组的每一个所述读段均作为初步读段,进行所述二次筛选。
根据本公开的实施方案,所述测序数据处理方法进一步包括:
对所述可拼接读段按照所述多轮测序的规则进行拼接。
根据本公开的实施方案,所述多轮测序的规则包括选自下列的至少之一:双端测序、Jumping测序、Overlap测序、双端Jumping测序以及这些测序规则的组合。
根据本公开的实施方案,所述多轮测序的规则为双端测序,所述读段组包括两个读段,所述所述预设位置要求包括:
两个所述读段的匹配区域分别位于所述参考基因组的正链和反链上;和
两个所述读段的匹配区域在所述参考基因组上的距离不超过预定阈值,
其中,所述预定阈值是基于插入片段的长度确定的。
根据本公开的实施方案,所述多轮测序的规则为Jumping测序,所述所述预设位置要求包括:
多个所述读段的匹配区域位于所述参考基因组的相同链上;和
多个所述读段的匹配区域中相邻两个所述读段在所述参考基因组上的距离不超过预定距离阈值,
其中,所述预定阈值是基于部分延伸步骤的长度确定的,任选地,所述预定距离阈值不超过50bp,优选不超过20bp,进一步优选在5~20bp之间。
根据本公开的实施方案,所述多轮测序的规则为Overlap测序,所述所述预设位置要求包括:
多个所述读段的匹配区域位于所述参考基因组的相同链上;和
多个所述读段的匹配区域中相邻两个所述读段在所述参考基因组上的重叠区域长度在预定距离范围,
其中,所述预定距离范围是基于测序过程中的重叠区域长度确定的,
任选地,所述预定距离范围为5~10bp之间。
根据本公开的实施方案,所述多轮测序的规则为双端Jumping测序,所述所述预设位置要求包括:
多个所述读段的匹配区域的一部分位于所述参考基因组的正链,另一部分位于所述参考基因组的反链上;和
多个所述读段的匹配区域中相邻两个所述读段在所述参考基因组上的重叠区域长度在预定距离范围,
其中,所述预定距离范围是基于测序过程中部分延伸步骤的长度确定的,
任选地,所述预定距离阈值不超过50bp,优选不超过20bp,进一步优选在5~20bp之间。
根据本公开的实施方案,所述Jumping测序包括:
提供核酸模板,所述核酸模板直接或者间接连接在固相载体的表面;
采用第一核苷酸和第二核苷酸,与所述核酸模板发生多轮延伸反应,
其中,
所述第一核苷酸为带有可检测标记的可逆终止子,并且用于通过所述延伸反应获得多个读段;
所述第二核苷酸为不带有可检测标记的可逆终止子,并且用于通过所述延伸反应获得至少一个预设长度的合成片段。
根据本公开的实施方案,所述Overlap测序包括:
所述核酸模板直接或者间接连接在固相载体的表面;
采用第一测序接头和第二测序接头与所述核酸模板发生多轮延伸反应,以便获得多个读段,
其中,
所述第一测序接头产生的第一读段与所述第二测序接头产生的第二读段存在至少一个碱基的重叠区域,
可选的,
所述第一测序接头采用所述第一核苷酸进行所述延伸反应,以便获得所述第一读段;
所述第二测序接头产生首先采用第二核苷酸进行延伸反应,之后采用所述第一核苷酸进行多个所述延伸反应,以便获得所述第二读段。
根据本公开的实施方案,所述双端Jumping测序包括:
使所述核酸模板与第一引物杂交,所述第一引物的至少一部分与所述核酸模板的3'端互补,所述第一引物共价连接在所述固相载体的表面上;
采用所述第一核苷酸和所述第二核苷酸,基于所述第一引物与所述核酸模板发生多轮延伸反应,并获得第一引物延伸链;
去除所述核酸模板,并使第二引物与所述第一引物延伸链杂交;
采用所述第一核苷酸和所述第二核苷酸,基于所述第二引物与所述第一引物延伸链发生多轮延伸反应,;
其中,
所述第一核苷酸为带有可检测标记的可逆终止子,并且用于通过所述延伸反应获得多个读段;
所述第二核苷酸为不带有可检测标记的可逆终止子,并且用于通过所述延伸反应获得至少一个预设长度的合成片段。
本公开另一方面提供一种测序数据处理设备。根据本公开的实施方案,所述测序数据处理设备包括:多个读段,所述多个读段是通过对同一插入片段进行多轮测序而获得的,所述设备包括针对每个所述读段组的所述多个读段进行下列处理的多个模块:
全局比对模块,用于将所述多个读段与参考基因组进行全局比对,以便在所述参考基因组上确定与所述多个读段对应的多个匹配区域;和
一次筛选模块,用于基于所述多个匹配区域之间的实际相对位置与预设位置要求的比较,对所述多个读段进行一次筛选,以便获得可拼接读段和过滤读段,
其中,
所述预设位置要求是由所述多轮测序的规则确定的,
所述实际相对位置满足所述预设位置要求是所述读段作为所述可拼接读段的指示;和
所述实际相对位置不满足所述预设位置要求是所述读段作为所述过滤读段的指示。
根据本公开的实施方案,所述测序数据处理设备进一步包括二次筛选模块,用于对于所述过滤读段进行二次筛选,所述二次筛选包括:
将所述读段组的至少一个作为初步读段,并基于所述初步读段对应的所述匹配区域和所述预设位置要求确定所述参考基因组上的二次比对区域;和
将所述过滤读段的每一个所述读段分别与所述二次比对区域进行局部比对,并将满足预定阈值的所述读段和所述初步读段归类为可拼接读段。
本公开另一方面提出了一种计算设备。根据本公开的实施方案,所述计算设备包括:处理器和存储器;
所述存储器,用于存储计算机程序;
所述处理器,用于执行所述计算机程序以实现根据前面所述的测序数据处理方法。
本公开又一方面提供了一种计算机可读存储介质。根据本公开的实施方案,所述计算机可读存储介质包括计算机指令,当所述指令被计算机执行时,使得所述计算机实现前面所述的测序数据处理方法。
本公开的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本公开的实践了解到。
附图说明
本公开的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1是根据本公开一个实施例的测序数据处理方法的流程示意图;
图2是根据本公开另一个实施例的测序数据处理方法的流程示意图;
图3是根据本公开另一个实施例的二次筛选的流程示意图;
图4是根据本公开另一个实施例的测序数据处理方法的流程示意图;
图5是根据本公开一个实施例的测序数据处理设备的结构示意图;
图6是根据本公开一个实施例的测序数据处理设备的结构示意图;
图7是根据本公开一个实施例的测序数据处理设备的结构示意图;
图8是根据本公开一个实施例的双端测序的流程示意图;
图9是根据本公开一个实施例的Jumping测序的流程示意图;
图10是根据本公开一个实施例的Overlap测序的流程示意图;
图11是根据本公开一个实施例的双端jumping测序的流程示意图。
发明详细描述
下面详细描述本公开的实施例。下面描述的实施例是示例性的,仅用于解释本公开,而不能理解为对本公开的限制。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本公开的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本公开中,除非另有明确的规定和限定,术语“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可逆连接,可以是直接相连,也可以通过中间媒介间接相连,等,除非另有明确的限定。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本申请中的具体含义。
本公开中,术语“核酸模板”是指待测的核酸分子,表示一定长度的核苷酸的聚合物,核苷酸可以包括核糖核苷酸、脱氧核糖核苷酸、核糖核苷酸或脱氧核糖核苷酸的类似物或衍生物的一种或多种组成;包括单链或双链核酸分子。
在本公开中,术语“测序”又可称为“核酸测序”或“基因测序”,指核酸序列中碱基排列顺序的测定;包括双末端测序、单末端测序和/或配对末端测序等,所称的双末端测序或者配对末端测序可以指同一核酸分子的不完全重叠的任意两段或两个部分的读出;所称的测序包括使核苷酸(包括核苷酸类似物)结合到模板并采集相应的反应信号的过程。
在本公开中,“可逆终止子”指的是带有可逆修饰的4种天然核苷酸(dATP、dCTP、dGTP、dTTP)或其衍生物。天然核苷酸的衍生物指的是核苷酸的原子或原子团被其他原子或原子团取代所形成的化合物,天然核苷酸的衍生物可在聚合酶或者末端转移酶的作用下掺入到核酸链的3’端。3’端被可逆修饰的核苷酸的3’端去修饰后可继续与核苷酸进行磷酯反应,修饰基团可选择为含有叠氮基团的烷基,等。一旦将3’端被可逆修饰的核苷酸掺入到扩增链中,没有游离的3’羟基来进一步的序列延伸,因此聚合酶无法再添加另外的核苷酸。每进行一轮反应,扩增链只能添加一个核苷酸,当除去3’封闭才可以添加下一个核苷酸到扩增链中。
在本公开中,“核苷酸”指的4种天然核苷酸(dATP、dCTP、dGTP、dTTP)或其衍生物,除非另有明确的限定。
在本公开中,术语“核苷酸的糖”是指核糖或脱氧核糖。核糖的化学式为C 5H 10O 5,核糖有L-核糖和D-核糖两种构型,L-核糖的化学结构如下所示,L-核糖的3'位标示如下:
D-核糖的化学结构如下所示,D-核糖的3'位标示如下:
术语“脱氧核糖”又称为D-脱氧核糖、2-脱氧-D-核糖、胸腺糖,其化学式为C 4H 9O 3CHO(C 5H 10O 4),其化学结构如下所示,脱氧核糖的3'位标示如下:
在本公开中,术语“碱基”,又称核碱基、含氮碱基,包括天然碱基、非天然碱基和碱基类似物。其中,天然碱基包括腺嘌呤(A)、鸟嘌呤(G)、胞嘧啶(C)、胸腺嘧啶(T)、尿嘧啶(U);非天然碱基包括诸如锁定核酸(LNA)和桥接核酸(BNA);碱基类似物包括诸如次黄嘌呤、脱氮腺嘌呤、脱氮鸟嘌呤、脱氮次黄嘌呤、7-甲基鸟嘌呤、5,6-二氢尿嘧啶、5-甲基胞嘧啶、5-羟甲基胞嘧啶。本公开中,由于核苷酸类型通过碱基类型来确定,因此,本公开中可以采用碱基类型来表示核苷酸类型。
在本公开中,术语“引物”是指:可以与感兴趣的靶序列杂交的寡聚核苷酸或核酸分子;引物是单链寡核苷酸或多核苷酸。
在本公开中,术语“可检测标记”是指能够在合适的条件下产生能够被检测到的信号的标记物或基团。
在本公开中,术语“接头”指的是含有已知序列的核苷酸序列,可为单链核酸或双链核酸。接头可用作引物,也可用于连接在核酸片段的一端或两端。
在本公开中,术语“Jumping测序”是指一种测序方法。该测序方法包括:提供核酸模板,核酸模板直接或者间接连接在固相载体的表面;采用第一核苷酸和第二核苷酸,与核酸模板发生多轮延伸反应,其中,第一核苷酸为带有可检测标记的可逆终止子,并且用于通过延伸反应获得多个读段;第二核苷酸为不带有可检测标记的可逆终止子,并且用于通过延伸反应获得至少一个预设长度的合成片段。
在本公开中,术语“Overlap测序”是指一种测序方法。该测序方法包括:核酸模板直接或者间接连接在固相载体的表面;采用第一测序接头和第二测序接头与核酸模板发生多轮延伸反应,以便获得多个读段,其中,第一测序接头产生的第一读段与第二测序接头产生的第二读段存在至少一个碱基的重叠区域,可选的,第一测序接头采用第一核苷酸进行延伸反应,以便获得第一读段;第二测序接头产生首先采用第二核苷酸进行延伸反应,之后采用第一核苷酸进行多个延伸反应,以便获得第二读段。
根据本公开的一些具体的实施方案,本公开提出一种测序方法,包括:
(11)提供固相载体表面,固相载体表面连接有核酸模板和第一引物形成的核酸复合体,第一引物的至少一部分被配置为与核酸模板的3'端的至少一部分杂交,核酸模板连接在固相载体表面或者第一测序引物连接在固相载体表面。
在步骤(11)中,第一引物和核酸模板互补,形成核酸复合体,核酸复合体连接在固相载体表面,以实现核酸模板在固相载体表面的固定。
在一种可能的实施方式中,核酸复合体中的核酸模板连接在固相载体表面。此时,核酸模板连接在固相载体表面并不是指核酸模板通过第一引物连接在固相载体表面,而是核酸模板通过与固相载体表面的分子/基团共价键连接,从而实现核酸模板在固相载体表面的连接。
在一些实施方案中,步骤(11)可以通过下述方法实现:核酸模板共价连接在固相载体的表面,加入第一引物并使核酸模板与第一引物杂交,第一引物的至少一部分与所述核酸模板的3'端互补。
在另一种可能的实施方式中,核酸复合体中的第一引物连接在固相载体表面。即第一引物通过共价键连接在固相载体表面,核酸模板通过第一测序引物连接于固相载体表面。此时,核酸模板不与固相载体表面直接连接,而是通过与第一引物互补连接,间接连接在固相载体表面。在一个实施方案中,第一引物与固相载体表面的分子或基团通过共价键连接,从而实现第一引物在固相载体表面的连接。
在一些实施方案中,步骤(11)可以通过下述方法实现:第一引物共价连接在所述固相载体的表面,使核酸模板与第一引物杂交,第一引物的至少一部分与所述核酸模板的3'端互补。
在一些实施方案中,核酸模板的长度小于或等于600bp。在一个实施方案中,核酸模板大于或等于75bp且小于或等于400bp。示例性的,核酸模板为75~80bp、80~90bp、90~100bp、100~120bp、120~150bp、150~180bp、180~200bp、200~220bp、220~250bp、250~280bp、280~300bp、300~320bp、320~350bp、350~380bp、380~400bp等情形。
(21)使用第一核苷酸,在适于进行聚合反应的条件下,以核酸模板为模板,以第一引物为引物进行延伸反应,获得第一延伸片段,第一延伸片段的长度小于核酸模板的长度。
在步骤(21)中,第一核苷酸是不带有可检测标记的可逆终止子。在一个实施方案中,步骤(21)中加入的第一核苷酸为4种不带有可检测标记的可逆终止子。利用此种核苷酸,一方面可通过可逆终止子中的阻断基团有效控制第一延伸片段的长度,又可以第一核苷酸中没有引入荧光染料基团,从而可以有效避免荧光染料切除后残留在碱基上的基团对延伸反应的影响。
在步骤(21)反应中,适于进行聚合反应的条件中包含DNA聚合酶,即:在DNA聚合酶的作用下进行合成聚合反应。DNA聚合酶可选用任何可以进行DNA扩增的酶,如Taq酶、Klenow片段、Bst、9°N、Pfu、KOD和Vent中的至少一种。。
在一些实施方案中,第一延伸片段的长度的长度的长度不短于合成片段的长度。在一些实施方案中,第一延伸片段的长度大于或等于1bp。在一些实施方案中,第一延伸片段的长度大于或等于10bp。在一些实施方案中,第一延伸片段的长度大于或等于10bp并且小于或等于20bp。示例性的,第一延伸片段的长度为10~12bp、12~14bp、14~16bp、16~18bp、18~20bp等情形。
(31)使用第二核苷酸,在适于边合成边测序反应或者边连接边测序反应的条件下,以核酸模板为模板,以第一延伸片段为引物进行延伸循环来进行第一测序,形成第一新生测序链。
在步骤(31)中,第二核苷酸为带有可检测标记的可逆终止子。可逆终止子含有能够阻挡核苷酸的糖的3'位点发生反应的阻断基团,由此可以使得边合成边测序反应或者边连接边测序反应,只在核酸模板的互补链上引入一个第二核苷酸。
本公开实施例提供的可逆终止子,在核苷酸中引入阻断基团,以消除核苷酸的糖的3'位点的反应活性。上述第一封闭处理可采用不同的方法进行。
在一些实施方案中,可检测标记为荧光标记。根据本公开的实施方案,参与延伸反应的每种第一核苷酸可以携带不同的荧光标记,或者参与延伸反应的四种第一核苷酸中至少两种第一核苷酸携带不同的荧光标记。示例性的,四种第一核苷酸各自携带四种不同的荧光标记;四种第一核苷酸带三种荧光标记,其中,第一种和第三种核苷酸带不同的荧光基团,第四种核苷酸携带的荧光基团与前三种第一核苷酸中的一种携带的荧光基团相同,或第四种核苷酸不携带荧光基团,应当理解的是,第四种第一核苷酸的类型没有限制。示例性的,四种第一核苷酸携带两种荧光标记,如两种第一核苷酸携带一种相同的荧光标记,另两种第一核苷酸携带另一种相同的荧光标记。示例性的,四种核苷酸带一种荧光标记。
然而,可检测标记不一定为荧光标记。允许检测DNA序列中所掺入的核苷酸的种类的任何可检测标记都可以。
在步骤(31)反应中,适于进行边合成边测序反应或者边连接边测序反应的条件中包含DNA聚合酶,即:在DNA聚合酶的作用下进行边合成边测序反应或者边连接边测序反应。DNA聚合酶可选用任何可以进行DNA扩增的酶,如Taq酶、Klenow片段、Bst、9°N、Pfu、KOD和Vent中的至少一种。
在一个实施方案中,在相同DNA聚合酶的作用下进行步骤(21)的聚合反应和步骤(31)的合成边测序反应或者边连接边测序反应,其中,DNA聚合酶为Klenow片段突变体。
在一个实施方案中,在相同DNA聚合酶的作用下进行步骤(21)的聚合反应和步骤(31)的合成边测序反应或者边连接边测序反应,其中,DNA聚合酶为9°N突变体。
通过步骤(31)可获得第一测序数据。
应当理解的是,根据本公开的实施方案,使用第一核苷酸,在适于进行聚合反应的条件下,以核酸模板为模板,以第一引物为引物进行延伸反应,获得第一延伸片段的步骤(21)和使用第二核苷酸,在适于边合成边测序反应或者边连接边测序反应的条件下,以核酸模板为模板,以第一延伸片段为引物进行延伸循环来进行第一测序,形成第一新生测序链的步骤(31)的顺序可以调换。即可以先进行合成测序反应,以测定所述核酸模板的一部分,再利用第二核苷酸进行聚合反应,以合成所述核酸模板的一部分,获得预设长度的合成片段;也可以先利用第二核苷酸进行聚合反应,以合成所述核酸模板的一部分,获得预设长度的合成片段,再进行合成测序反应,以测定所述核酸模板的一部分。
根据本公开另一种具体的实施方案,本公开提出一种测序方法,包括第一测序方法,第一测序方法在上述测序方法的基础上还包括:
(41)去除固相载体表面的第一新生测序链。
(51)使用第二核苷酸,在适于边合成边测序反应或者边连接边测序反应的条件下,以核酸模板为模板,以第一引物为引物进行延伸循环来进行第二测序,形成第二新生测序链,获得第二测序数据。
步骤(51)中,适于边合成边测序反应或者边连接边测序反应的条件参考前文所述,为了节约篇幅,此处不再赘述。
根据本公开的实施方案,第二新生测序链的长度不小于第一延伸片段的长度。此时,第一测序数据和第二测序数据 具有部分重叠数据。利用部分重叠数据进行测序数据分析,更有利于对模板序列的组装分析及测序数据之间的相互校对,提高测序数据分析的准确性。在一些实施方案中,第二新生测序链的长度小于第一新生测序链和第一延伸片段的总长度。
在一个实施方案中,在步骤(51)之前,上述方法还包括:对残余在芯片表面的第一新生测序链的3’末端进行第一封闭处理。对残余的第一新生测序链的3’末端进行封闭能够有效地避免在进行第二测序过程中第一新生测序链继续延伸产生干扰信号。通过降低干扰信号产生的无效数据对信息分析的干扰,可以有效增加有效数据量,从而提高测序数据分析的准确性。
在一个实施方案中,上述第一封闭处理可采用不同的方法进行,如通过去除3’末端羟基和/或通过使3’末端羟基与延伸反应阻断剂相连而进行。其中,延伸反应阻断剂用以阻断3’末端羟基与磷酸基团的反应,延伸反应阻断剂可为烷基、ddNTP或其衍生物,等。在一个实施方案中,延伸反应阻断剂为ddNTP或其衍生物。
在一个实施方案中,上述第一封闭处理采用DNA聚合酶和末端转移酶的至少之一进行。DNA聚合酶以DNA链为模板,在待封闭的核酸链的3’末端添加ddNTP,从而达到使3’末端封闭的效果。末端转移酶可以直接在单链核酸的3’末端添加ddNTP达到3’末端封闭的效果。
在一个实施方案中,上述第一封闭处理通过聚合酶连接ddNTP或其衍生物。
根据本公开另一种具体的实施方案,本公开提出的测序方法包括第二测序方法,以第二种实现方式为例,第二种测序方法在本公开第二种实现方式提出的测序方法的基础上,进一步包括如下技术特征:
在步骤(11)之后步骤(21)之前,包括步骤:
(a)使用第二核苷酸,在适于边合成边测序反应或者边连接边测序反应的条件下,以核酸模板为模板,以第一测序引物为引物进行延伸循环来进行第三测序,形成第三新生测序链,获得第三测序数据;
步骤(a)中,核酸模板与固相载体的连接方式参考前文所述。在一些实施方案中,核酸模板通过共价键连接在固相载体表面。
在一些实施方案中,第三新生测序链的长度不小于第一延伸片段的长度。此时,第一测序数据和第三测序数据具有部分重叠数据。利用部分重叠数据进行数据分析,更有利于对模板序列的组装分析及测序数据之间的相互校对,提高测序数据分析的准确性。
(b)去除第三新生测序链。
在一个实施方案中,在步骤(b)之后,在步骤(21)之前,第三测序方法还包括步骤(c)对残余在芯片表面的第三新生测序链的3’末端进行第二封闭处理。对残余的第三新生测序链的3’末端进行封闭能够有效地避免残余的第三新生测序链在第一测序过程中继续延伸产生干扰信号。通过降低干扰信号产生的无效数据对的干扰,可以有效增加有效的测序数据量。由此,通过第二封闭处理能够通过增加有效的测序数据量而进一步提高测序数据分析的准确性。
在一个实施方案中,上述第二封闭处理可采用不同的方法进行,如通过去除3’末端羟基和/或通过使3’末端羟基与延伸反应阻断剂相连而进行。其中,延伸反应阻断剂用以阻断3’末端羟基与磷酸基团的反应,延伸反应阻断剂可为烷基、ddNTP或其衍生物,等。在一个实施方案中,延伸反应阻断剂为ddNTP或其衍生物。
在一个实施方案中,上述第二封闭处理采用DNA聚合酶和末端转移酶的至少之一进行。DNA聚合酶以DNA链为模板,在待封闭的核酸链的3’末端添加ddNTP,从而达到使3’末端封闭的效果。末端转移酶可以直接在单链核酸的3’末端添加ddNTP达到3’末端封闭的效果。
在一个实施方案中,上述第二封闭处理通过聚合酶连接ddNTP或其衍生物。
去除第三新生测序链,可通过物理方法或化学方法(如采用变性试剂)进行,物理方法如高温变性(如80℃-98℃),变性试剂如NaOH、甲酰胺等。在一个实施方案中,通过变性试剂如甲酰胺使第三新生测序链与核酸模板解离从而去除第三新生测序链。
在一个实施方案中,上述第一测序方法及其实施例,第三测序方法及其实施例中的核酸模板分别通过如下步骤获得:
(1-a)使测序文库中的文库分子与固相载体表面的接头进行杂交;
(1-b)利用文库分子作为初始模板,以固相载体表面的接头为引物合成初始模板的互补链以形成核酸模板;
(1-c)除去初始模板,并对芯片表面的核酸分子的3’末端进行第三封闭处理。
第三封闭用于封闭芯片表面的核酸分子,芯片表面的核酸分子包括接头、核酸模板、残余初始模板等。通过第三封闭,可有效避免在测序过程中芯片表面的核酸分子的3’末端连接含有检测信号的核苷酸产生干扰信号,通过降低干扰信号产生的无效数据对的干扰,可以有效增加有效的测序数据量。由此,通过第三封闭处理能够通过增加有效的测序数据量而进一步提高测序数据分析的准确性。
在一个实施方案中,测序文库为DNA文库,DNA文库中的文库分子含有多种单链DNA片段。
在一个实施方案中,上述第一种测序方法或第三种测序方法在(1-c)之前,进一步包括:
(1-b-1)对步骤(1-b)中延伸不完全的互补链的3’末端进行第四封闭处理。
第四封闭用于封闭模板链的互补链的3’末端,可有效避免互补链在测序过程中或扩增过程中继续延伸产生干扰信号,通过降低干扰信号产生的无效数据对的干扰,可以有效增加有效的测序数据量。由此,通过第四封闭处理能够通过增加有效的测序数据量而进一步提高测序数据分析的准确性。
在一个实施方案中,上述第三封闭处理和第四封闭处理可分别采用不同的方法进行,如分别独立地通过去除3’末端羟基和/或通过使3’末端羟基与延伸反应阻断剂相连而进行。其中,延伸反应阻断剂用以阻断3’末端羟基与磷酸基团的反应,延伸反应阻断剂可为烷基、ddNTP或其衍生物,等。在一个实施方案中,上述第一种测序方法及其实施例、第三种测序方法及其实施例中的延伸反应阻断剂分别为ddNTP或其衍生物。
在一个实施方案中,上述第三封闭处理和所述第四封闭处理分别独立地采用DNA聚合酶和末端转移酶的至少之一进行。DNA聚合酶以DNA链为模板,在待封闭的核酸链的3’末端添加ddNTP,从而达到使3’末端封闭的效果。末端转移酶可以直接在单链核酸的3’末端添加ddNTP达到3’末端封闭的效果。
在一个实施方案中,上述第四封闭处理分别独立地通过聚合酶连接ddNTP或其衍生物,上述第三封闭处理通过末端转移酶连接ddNTP或其衍生物。
根据本公开另一种具体的实施方案,本公开提出的测序方法还包括:
(12)提供固相载体表面,固相载体表面连接有核酸模板和第一引物形成的核酸复合体,第一引物的至少一部分被配置为与核酸模板的3'端的至少一部分杂交,核酸模板连接在固相载体表面或者第一测序引物连接在固相载体表面。
在步骤(12)中,第一引物和核酸模板互补,形成核酸复合体,核酸复合体连接在固相载体表面,以实现核酸模板在固相载体表面的固定。
在一种可能的实施方式中,核酸复合体中的核酸模板连接在固相载体表面。此时,核酸模板连接在固相载体表面不是指核酸模板通过第一引物连接在固相载体表面。在一个实施方案中,核酸模板通过与固相载体表面的分子/基团共价键连接,从而实现核酸模板在固相载体表面的连接。
在一些实施方案中,步骤(12)可以通过下述方法实现:核酸模板共价连接在固相载体的表面,加入第一引物并使核酸模板与第一引物杂交,第一引物的至少一部分与所述核酸模板的3'端互补。
在另一种可能的实施方式中,核酸复合体中的第一引物连接在固相载体表面。即第一引物通过共价键连接在固相载体表面,核酸模板通过第一测序引物连接于固相载体表面。此时,核酸模板不与固相载体表面直接连接,而是通过与第一引物互补连接,间接连接在固相载体表面。在一个实施方案中,第一引物与固相载体表面的分子或基团通过共价键连接,从而实现第一引物在固相载体表面的连接。
在一些实施方案中,步骤(12)可以通过下述方法实现:第一引物共价连接在所述固相载体的表面,使核酸模板与第一引物杂交,第一引物的至少一部分与所述核酸模板的3'端互补。
在一些实施方案中,核酸模板的长度小于或等于600bp。在一个实施方案中,核酸模板大于或等于75bp且小于或等于400bp。示例性的,核酸模板为75~80bp、80~90bp、90~100bp、100~120bp、120~150bp、150~180bp、180~200bp、200~220bp、220~250bp、250~280bp、280~300bp、300~320bp、320~350bp、350~380bp、380~400bp等情形。
(22)使用第三核苷酸,在适于边合成边测序反应或者边连接边测序反应的条件下,以核酸模板为模板,以第一引物为引物进行延伸循环来进行第一测序,形成第一新生测序链,第三核苷酸为带有可检测标记的可逆终止子。
在步骤(22)中,利用第三核苷酸作为合成测序反应的底物,第三核苷酸为带有可检测标记的可逆终止子。可逆终止子含有能够阻挡核苷酸的糖的3'位点发生反应的阻断基团,由此可以使得形成第一新生测序链的每一轮延伸反应,只在第一新生测序链上引入一个第三核苷酸。
根据本公开的实施方案,第三核苷酸为带有可检测标记。在一些实施方案中,可检测标记为荧光标记。根据本公开的实施方案,参与延伸反应的每种三核苷酸可以携带不同的荧光标记,或者参与延伸反应的四种第三核苷酸中至少两种第三核苷酸携带不同的荧光标记。示例性的,四种第三核苷酸各自携带四种不同的荧光标记;四种第三核苷酸带三种荧光标记,其中,第一种和第三种第三核苷酸带不同的荧光基团,第四种第三核苷酸携带的荧光基团与前三种第三核苷酸中的一种携带的荧光基团相同,或第四种第三核苷酸不携带荧光基团,应当理解的是,第四种第三核苷酸的类型没有限制。示例性的,四种第三核苷酸携带两种荧光标记,如两种第三核苷酸携带一种相同的荧光标记,另两种第三核苷酸携带另一种相同的荧光标记。示例性的,四种第三核苷酸带一种荧光标记。
然而,可检测标记不一定为荧光标记。允许检测DNA序列中所掺入的核苷酸的种类的任何可检测标记都可以。
由于第三核苷酸为带有可检测标记的可逆终止子,因此,在测序过程中,第三核苷酸在聚合酶的作用下掺入到核酸模板互补链的3’端,同时,由于第三核苷酸的糖的3’羟基的反应活性被阻断,无法进行进一步的序列延伸,使得聚每一轮延伸反应仅能在核酸模板互补链上引入一个第三核苷酸;通过检测到的检测标记以确定掺入的核苷酸种类;通过去除3’端封闭基团,可使核苷酸3’产生游离的羟基而恢复反应活性。
步骤(22)中,适于进行测序反应的条件中包含DNA聚合酶,即:在DNA聚合酶的作用下进行合成测序反应。DNA聚合酶可选用任何可以进行DNA扩增的酶,如Taq酶、Klenow片段、Bst、9°N、Pfu、KOD和Vent中的至少一种。
通过步骤(22),可以读取第一新生测序列的核苷酸类型和排序,获得第一新生测序列的序列信息。本公开中,序列确定的新生测序链,又称为读段,第一新生测序链又可称为第一读段,第二新生测序链又可称为第二读段。进一步的,该实施例中,由第一新生测序列的序列可以确定核酸模板的一部分的序列。
根据本公开的实施方案,第一新生测序链的长度小于核酸模板的长度。
(32)使用第四核苷酸,在适于进行聚合反应的条件下,以第一新生测序链为引物,以核酸模板为模板进行第一延伸,获得第一延伸片段,第四核苷酸为不带有可检测标记的核苷酸。
在步骤(32)中,第四核苷酸为不带有可检测标记的核苷酸,即核苷酸可选择天然核苷酸(dATP、dCTP、dGTP、dTTP)或其衍生物,也可选择不带有可检测标记的终止子,例如第四核苷酸选用不带有可检测标记的3’端被可逆修饰的核苷酸。在一个实施方案中,步骤(32)中加入的第四核苷酸为不带有可检测标记的3’端被可逆修饰的核苷酸。
在步骤(32)反应中,适于进行聚合反应的条件中包含DNA聚合酶,即:在DNA聚合酶的作用下进行合成聚合反应。DNA聚合酶可选用任何可以进行DNA扩增的酶,如Taq酶、Klenow片段、Bst、9°N、Pfu、KOD和Vent中的至少一种。
在一个实施方案中,在相同DNA聚合酶的作用下进行步骤(22)的合成测序反应和步骤(32)的聚合反应,其中,DNA聚合酶为Klenow片段突变体。
在一个实施方案中,在相同DNA聚合酶的作用下进行步骤(22)的合成测序反应和步骤(32)的聚合反应,其中,DNA聚合酶为9°N突变体。
根据本公开另一种具体的实施方案,本公开提出的测序方法包括第三种测序方法,其中第三测序方法在本公开的上述第二方面提出的测序方法的基础上,进一步包括:第一测序引物共价连接在固相载体表面,核酸模板通过第一测序引物连接于固相载体表面。
在一个实施方案中,上述第四核苷酸为天然核苷酸和/或其衍生物。
在一个实施方案中,在步骤(32)之后,上述第三测序方法还包括步骤:(42)去除核酸模板;(52)使用第三核苷酸,在适于边合成边测序反应或者边连接边测序反应的条件下,以核酸模板的互补链为模板,以第二测序引物为引物进行延伸循环来进行第二测序,形成第二新生测序链,获得第二测序数据;其中,核酸模板的互补链是由第一新生测序链和第一延伸片段共同形成。
在一个实施方案中,在步骤(42)之后且在步骤(52)之前,上述第三测序方法还包括:对芯片表面的核酸链3’末端进行第五封闭处理。
第五封闭用于封闭芯片表面的核酸链,芯片表面的核酸分子包括接头、互补链、残余初始模板等。通过第五封闭,可有效避免在测序过程中芯片表面的核酸分子的3’末端连接含有检测信号的核苷酸产生干扰信号,通过降低干扰信号产生的无效数据对的干扰,可以有效增加有效的测序数据量。由此,通过第五封闭处理能够通过增加有效的测序数据量而进一步提高测序数据分析的准确性。
对核酸链末端的封闭,可采用不同的方法,如通过去除3’末端羟基和/或通过使3’末端羟基与延伸反应阻断剂相连。在一个实施方案中,上述第五封闭通过使3’末端羟基与延伸反应阻断剂相连而进行的。其中,延伸反应阻断剂用以阻断3’末端羟基与磷酸基团的反应,延伸反应阻断剂可为烷基、ddNTP或其衍生物,等。在一个实施方案中,上述延伸反应阻断剂为ddNTP或其衍生物。
在一个实施方案中,第五封闭采用末端转移酶进行。末端转移酶可直接将ddNTP或其衍生物连接到核酸链的末端达到封闭3’末端封闭的效果。
去除核酸模板可通过物理方法或化学方法(如采用变性试剂)进行,物理方法如高温变性(如80℃-98℃),变性试剂如NaOH、甲酰胺等,在一个实施方案中,上述去除核酸模板是通过变性试剂甲酰胺使核酸模板链与其互补链解离进行的。
去除核酸模板,可通过物理方法或化学方法(如采用变性试剂)进行,物理方法如高温变性(如80℃-98℃),变性试剂如NaOH、甲酰胺等。在一个实施方案中,通过变性试剂如甲酰胺使核酸模板链与其互补链解解离从而去除核酸模板链。
根据本公开另一种具体的实施方案,本公开提出测序方法包括第四种测序方法,其中第四种测序方法是在上述第二方面提出的测序方法的基础上,进一步包括:第四核苷酸为不带有可检测标记的可逆终止子。利用此种核苷酸,一方面可通过可逆终止子中的阻断基团有效控制合成片段的长度,又可以避免引入荧光染料,从而避免荧光染料切除后残留在碱基上的基团对延伸反应的影响。
在一个实施方案中,上述第四测序方法还包括步骤(43):使用第三核苷酸,在适于边合成边测序反应或者边连接边测序反应的条件下,以核酸模板为模板,以第一延伸片段为引物进行延伸循环来进行第二测序,形成第二新生测序链,获得第二测序数据。
在一个实施方案中,上述第四测序方法还包括步骤(53):重复(32)和(43)步骤N-1次,获得第1~(N+1)新生测序链和第1~(N+1)测序数据,以及第1~N延伸片段,第1~(N+1)新生测序链和第1~N延伸片段共同形成第一新生链;第N延伸片段是通过使用第四核苷酸,在适于进行聚合反应的条件下,以核酸模板为模板,以第N新生测序链为引物进行延伸获得;第N+1新生测序链和第N+1测序数据,是通过使用第一核苷酸,在适于边合成边测序反应或者边连接边测序反应的条件下,以核酸模板为模板,以第N延伸片段为引物进行延伸循环来进行第N+1测序获得;N为大于等于1的正整数;第一新生链的长度不长于核酸模板链的长度。
N的最大值和核酸模板的长度有关,依据核酸模板的长度、新生测序链的长度及延伸片段的长度确定N的大小,N的最大值为核酸模板长度/(新生测序链的长度+延伸片段的长度)结果取整数-1,如核酸模板长度300bp,新生测序链的长度为25bp,延伸片段的长度为15bp时,N的最大值取6。当N=1时,得到第一、第二测序数据。
在一个实施方案中,在上述第四测序方法中,第1~N延伸片段的长度分别为10-20bp。经多次实验测试结果可知,当延伸片段长度为10-20bp时可有效间隔两次新生测序链,降低新生测序链对再次测序时分子构象的影响,从而保证再次测序的测序长度及测序效率。当延伸片段的长度低于10bp,再次测序时因分子构象受之前测序链的影响,再次测序的测序长度变短、测序效率降低。相对于延伸片段长度为10-20bp,当延伸片段大于20bp时,增加测序成本。
上述第四测序方法及实施例中,核酸模板可以是通过共价键直接固定在固相载体的表面,也可以通过与第一测序引物杂交固定在固相载体的表面,其中第一测序引物通过共价键连接在固相载体表面。在一个实施方案中,在上述第四种测序方法及实施例中,核酸模板通过共价键直接固定在固相载体的表面,核酸模板是通过如下步骤获得:
(1-a)使测序文库中的文库分子与固相载体表面的接头进行杂交;
(1-b)利用文库分子作为初始模板,以固相载体表面的接头为引物合成初始模板的互补链以形成核酸模板;
(1-c)除去初始模板,并对芯片表面的核酸分子的3’末端进行第六封闭处理。
第六封闭用于封闭芯片表面的核酸链,芯片表面的核酸分子包括接头、核酸模板、残余初始模板等。通过第六封闭,可有效避免芯片表面的核酸分子在测序中产生干扰信号,能够进一步提高测序结果的准确性。
去除核酸模板可通过物理方法或化学方法(如采用变性试剂)进行,物理方法如高温变性(如80℃-98℃),变性试剂如NaOH、甲酰胺等,在一个实施方案中,上述去除核酸模板是通过变性试剂甲酰胺使核酸模板链与其互补链解离进行的。
在一个实施方案中,在上述第四测序方法中,在(1-c)之前,进一步包括:(1-b-1)对步骤(1-b)中互补链的3’末端进行第七封闭处理。
第七封闭用于封闭互补链的3’末端,避免在测序过程中互补链的继续延伸产生干扰信号,从而可以有效增加有效数据量,降低无效数据对信息分析的干扰。由此,通过第七封闭处理能够进一步提高测序结果的准确性。
在一个实施方案中,在上述第四测序方法中,第六封闭处理和第七封闭处理分别独立地通过使3’末端羟基与延伸反应阻断剂相连而进行的。
对核酸链末端的封闭,可采用不同的方法,如通过去除3’末端羟基和/或通过使3’末端羟基与延伸反应阻断剂相连。在一个实施方案中,上述第五封闭通过使3’末端羟基与延伸反应阻断剂相连而进行的。其中,延伸反应阻断剂用以阻断3’末端羟基与磷酸基团的反应,延伸反应阻断剂可为烷基、ddNTP或其衍生物,等。在一个实施方案中,上述延伸反应阻断剂为ddNTP或其衍生物。
在一个实施方案中,在上述第四测序方法中,第六封闭处理和第七封闭处理分别独立地采用DNA聚合酶和末端转移酶的至少之一进行。DNA聚合酶以DNA链为模板,在待封闭的核酸链的3’末端添加ddNTP,从而达到使3’末端封闭的 效果。末端转移酶可以直接在单链核酸的3’末端添加ddNTP达到3’末端封闭的效果。
在一个实施方案中,当第一测序引物通过共价键连接在固相载体表面,核酸模板通过第一测序引物连接于固相载体表面时,上述第四测序方法还包括:
((6)使用第五核苷酸,在适于进行聚合反应的条件下,以核酸模板为模板,以第N+1新生测序链为引物进行延伸,形成核酸模板的互补链,第五核苷酸为天然核苷酸和/或其衍生物;
(7)去除核酸模板;
(8)使用第三核苷酸,在适于边合成边测序反应或者边连接边测序反应的条件下,以核酸模板的互补链为模板,以第三测序引物为引物进行延伸循环来进行第N+2测序,形成第N+2新生测序链,获得第N+2测序数据;
(9)使用第四核苷酸,在适于进行聚合反应的条件下,以核酸模板的互补链为模板,以第N+2新生测序链为引物进行延伸,形成第N+2延伸片段;
其中,第一测序引物通过共价键连接在固相载体表面,核酸模板通过第一测序引物连接于固相载体表面。
在一个实施方案中,在步骤(7)之后且在步骤(8)之前,上述第四测序方法还包含步骤(7-a):对芯片表面的核酸分子的3’末端进行第八封闭处理。
第八封闭用以封闭芯片表面的核酸分子。芯片表面的核酸分子包括核酸模板的互补链、第一测序引物、残留的模板等。通过封闭芯片表面的核酸分子,可避免在测序过程中互补链、第一测序引物的继续延伸产生干扰信号,从而可以有效增加有效数据量,降低无效数据对信息分析的干扰。由此,通过第八封闭处理能够进一步提高测序结果的准确性。
在一个实施方案中,上述第四测序方法还包含步骤(10):(10)使用第三核苷酸,在适于边合成边测序反应或者边连接边测序反应的条件下,以核酸模板的互补链为模板,以第N+2延伸片段为引物进行延伸循环来进行第N+3测序,形成第N+3新生测序链,获得第N+3测序数据。
在一个实施方案中,上述第四测序方法还包含步骤(11):(11)重复(9)和(10)步骤N-1次,获得第(N+2)~(2N+2)新生测序链和第(N+2)~(2N+2)测序数据,及第(N+2)~2N+1的延伸片段;第2N+1延伸片段,是通过使用第四核苷酸,在适于进行聚合反应的条件下,以核酸模板的互补链为模板,以第2N+1新生测序链为引物进行延伸获得;第2N+2新生测序链和第2N+2测序数据,是通过使用第三核苷酸,在适于边合成边测序反应或者边连接边测序反应的条件下,以核酸模板的互补链为模板,以第2N+1延伸片段为引物进行延伸循环获得。
对核酸链末端的封闭,可采用不同的方法,如通过去除3’末端羟基和/或通过使3’末端羟基与延伸反应阻断剂相连。在一个实施方案中,上述第四测序方法中的第八封闭通过使3’末端羟基与延伸反应阻断剂相连而进行的。其中,延伸反应阻断剂用以阻断3’末端羟基与磷酸基团的反应,延伸反应阻断剂可为烷基、ddNTP或其衍生物,等。在一个实施方案中,上述延伸反应阻断剂为ddNTP或其衍生物。
在一个实施方案中,在上述第四测序方法中,第八封闭处理采用末端转移酶进行。末端转移酶可以直接在单链核酸的3’末端添加ddNTP达到3’末端封闭的效果。
上述一实施例提供的测序方法,通过两次或多次测序获得同一模板和/或其互补链不同位置的测序数据,利用此测序方法一方面可提高测序数据量,另一方面可利用相同模板/互补链的不同位置的测序数据,尤其是利用具有重叠数据的测序数据对模板序列进行组装或校对,可提高测序数据组装效率和准确率。在一实施例提供的测序方法中,通过对互补链末端的封闭,和/或芯片表面的引物的封闭,和/或残余新生测序链的封闭等,可避免在后续测序过程中互补链、芯片表面固定的测序引物和/或新生测序链的继续延伸产生干扰信号。通过降低干扰信号产生的无效数据对信息分析的干扰,可以有效增加有效数据量,继而可提高测序结果的准确性。在一实施例提供的测序方法中,通过使用未标记的终止子控制延伸片段的长度,一方面为了降低测序链对再次测序事的分子构象的影响,另一方面可用于控制测序成本。当延伸片段长度控制在10-20bp时可有效间隔两次新生测序链,降低新生测序链对再次测序时分子构象的影响,从而保证再次测序的测序长度及测序效率。当延伸片段的长度低于10bp,再次测序时因分子构象受之前测序链的影响,再次测序的测序长度变短、测序效率降低。相对于延伸片段长度为10-20bp,当延伸片段大于20bp时,增加测序成本。
本公开的完成是基于发明人的下列发现而完成的:
如前,单分子测序设备例如HeliScope的读长比较短,究其原因在于在延伸反应的循环过程中,荧光染料切除后碱基侧链会留下残余(Scar),这些Scar的累积会对后续的延伸反应中荧光信号的检测产生显著的影响,因此,目前的现状是通过采用单分子测序设备例如HeliScope很难实现长读长(long read)测序,通常平均读长为40bp左右。为了实现对较长插入片段的测序,发明人提出了对同一插入片段进行不同位置多轮测序的方案,必要时通过采用不带有可检测标记的可逆终止子进行延伸反应,不带有可检测标记的可逆终止子可以合成一段核酸序列作为间隔,能够弱化Scar的累积对后 续延伸反应中荧光信号的干扰。从而可以延长针对同一插入片段的实际测序效率,实现了延长读长的效果。显然,目前的读段分析策略并不完全满足这类新型的测序技术,为此,发明人在提出这类测序技术之后,又进一步研究和完善了相应的读段分析策略,由此,完成了本公开,提出了一种新型的测序数据分析手段。
根据本公开的另一些具体的实施方案,本公开提出了一种测序数据处理方法,该测序数据是通过对通过分别对同一插入片段进行多轮测序的测序策略而产生的,因此,这里所提到的测序数据包括了多个读段组,每个读段组对应一个插入片段,每个读段组中包括了多个读段,对于同一个读段组中的多个读段,其是由针对同一插入片段的多轮测序而获得的,因此每个读段实际上对应一轮测序,例如对于双端测序,每个读段组包括两个读段(read),即Read1和Read2分别对应从每个末端的测序结果。
根据本公开的实施方案,在获得测序数据后,本领域技术人员可以通过常规手段,例如每个读段所对应的位点等,对测序数据中的读段进行分组,从而得到多个读段组,每个读段组对应相同的插入片段。进一步,分别针对每个读段组内的读段进行分析和处理,从大量读段中选择可以用于后续拼接的读段。
首先,需要说明的是,本领域技术人员能够理解的是,每个读段组对应一个插入片段,应做广义理解,可以是基于同一条插入片段的核酸模板链不同位置的延伸反应获得的,也可以是基于与该插入片段存在关联关系的其他核酸链的测序反应获得的,这类其他核酸链的例子包括但不限于互补链或者多个相同拷贝(例如通过滚环复制得到的多拷贝)。
如前,按照测序平台的指导,按照预定的测序策略,本领域技术人员容易完成对测序数据中的大量读段(read)进行分组,通常而言每个插入片段对应测序反应芯片上的特定位置,通过区分各读段所对应的芯片位置即可以实现读段的分组。
继续下来,针对每个读段组中的读段进行分析,从而得到可以进行拼接的读段。下面参考图1~3,针对每个读段组中的多个读段处理进行详细描述。
S110:将多个读段与参考基因组进行全局比对,以便在参考基因组上确定与多个读段对应的多个匹配区域。
在该步骤中,通过采用全局比对,将各读段与参考基因组进行比对,可以确定各读段在参考基因组序列上的匹配位置。
在本文中所使用的术语“全局比对”是指将参与比对的两条序列里面的所有字符进行比对。当然,在本文中是指将读段与参考基因组或其一部分进行比对,全局比对在全局范围内对两条序列进行比对打分,找出最佳比对,通常主要被用来寻找关系密切的序列。全局比对的代表性算法是Needleman-Wunsch算法。当然,也可以使用测序平台所提供的算法进行全局比对,例如参看CN107403075A记载的内容可以实现上述全局比对操作。
S120:基于多个匹配区域之间的实际相对位置与预设位置要求的比较,对多个读段进行一次筛选,以便获得可拼接读段和过滤读段,
在完成全局比对后,可以确定读段在参考基因组序列上的匹配(mapping)区域。其中,如果读段只能与参考基因组序列的一个区域比对上,即只有一个匹配区域,则该读段被称为唯一比对序列(唯一比对read)。
根据本公开的实施方案,在实施多轮测序反应时,采用了不同的测序策略,如参见图8~图11所显示的多种测序策略。显然,这些测序策略对应了多个读段之间的相对位置关系。因此,可以通过将多个读段的多个匹配区域的实际相对位置与预先设定的位置要求进行比较,满足该要求的读段可以作为可拼接组合,后续进行拼接使用。由此,根据本公开的实施方案,预设位置要求是由多轮测序的规则确定的,实际相对位置满足预设位置要求是读段作为可拼接读段的指示;实际相对位置不满足预设位置要求是读段作为过滤读段的指示。
通过根据本公开实施例的该测序数据处理方法,能够有效地对来自同一插入片段多轮测序的读段进行筛选,得到可以进行拼接的读段,从而能够有有效提高测序数据的后续处理效率,避免了由于读段过短造成的不利影响。
另外,根据本公开的实施方案,在前面通过一次筛选得到可拼接的读段和不满足预设位置要求而被过滤的过滤读段后,可以进一步对过滤读段进行二次筛选。由此,根据本公开的实施方案,进一步包括:
S130:对于过滤读段进行二次筛选。
由于全局比对有其自身的局限性,因此,在一次筛选中被过滤掉的过滤读段有可能仍然包含有用的读段,因此,通过进行二次筛选,可以将这些读段找出来。
具体的,根据本公开的实施方案,二次筛选的过程包括:
S210:将读段组的至少一个作为初步读段,并基于初步读段对应的匹配区域和预设位置要求确定参考基因组上的二次比对区域。
在该步骤中,将一个读段作为初步读段,这个初步读段并不限定一定是过滤读段,也可以是已经在一次筛选中被选 定为可拼接读段的读段。
在确定初步读段后,在该初步读段的周围一定范围内,划定二次比对区域,例如在初步读段两个末端向外扩大一定长度,例如100bp、200bp、300bp、500bp、1000bp甚至2000bp。在该二次比对区域中,寻找是否有可以比配上的过滤读段。这样,可以进一步提高测序结果的准确性,另外,也可以避免样本核酸突变所产生的读段信息。通常,因为样本核酸存在突变,因此,与这些突变对应的读段,与参考基因组的比对结果通常不能满足前面的预设位置要求。
S220:将过滤读段的每一个读段分别与二次比对区域进行局部比对,并将满足预定阈值的读段和初步读段归类为可拼接读段。
与全局比对不同,局部比对不必对两个完整的序列进行比对,而是在每个序列中使用某些局部区域片段进行比对。其产生的需求在于、人们发现有的蛋白序列虽然在序列整体上表现出较大的差异性,但是在某些局部区域能独立的发挥相同的功能,序列相当保守。这时候依靠全局比对明显不能得到这些局部相似序列的。其次,在真核生物的基因中,内含子片段表现出了极大变异性,外显子区域却较为保守,这时候全局比对表现出了其局限性,无法找出这些局部相似性序列。其代表是Smith-Waterman局部比对算法。
通过局部比对,可以在二次比对区域中,完成对过滤读段的二次筛选。这里所提到的预定阈值以及在本文中其他位置所提到的阈值,均可以通过对已知属性的样本进行统计分析获得。
由此,可以通过结合全局比对和局部比对,在经过一次比对不满足条件需要被去除的读段中获取可以用于拼接的读段,从而节省了测序资源,同时也提高了测序的准确性。
根据本公开的实施方案,将读段组的每一个读段均作为初步读段,进行二次筛选。由此,可以尽可能完成对所有读段的筛选。
根据本公开的实施方案,进一步包括:
S140:对可拼接读段按照多轮测序的规则进行拼接。
这里的拼接,可以按照多轮测序的规则,将可以拼接的读段,通过在未知位置添加N或者将重叠区域合并,必要时候还需要进行正链和反链之间的转换后进行拼接,这里不再赘述。
根据本公开的实施方案,多轮测序的规则包括选自下列的至少之一:双端测序、Jumping测序、Overlap测序、双端Jumping测序以及这些测序规则的组合。
根据本公开的实施方案,参考图8,多轮测序的规则为双端测序,读段组包括两个读段,预设位置要求包括:两个读段的匹配区域分别位于参考基因组的正链和反链上;和两个读段的匹配区域在参考基因组上的距离不超过预定阈值,其中,预定阈值是基于插入片段的长度确定的。本领域技术人员可以通过各种已知的方案进行双端测序,这里不再进行赘述。
根据本公开的实施方案,对双端测序的测序数据进行分析的方法具体包括:
首先,通过比对算法可以分别得到双端测序的序列文件Fa1、Fa2,并且两个文件中的序列是位置上对应的。所谓位置上对应指文件中相同序号的读段,来自测序反应芯片上的物理位置一致。由此Fa1、Fa2中相同序号的读段分别对应读段1和读段2,且对应双端测序示意图中的两次测序的读段。
对Fa1和Fa2分别使用全局比对算法将其比对到对应基因组上,分别得到比对后的结果文件Sam1和Sam2。全局比对算法可以选用第三方mapping软件或者使用GenoCare配套的DirectAlignment算法软件。
对Sam1和Sam2中的序列,根据其每个位置上对应的双端序列的比对结果可以分为三类。分别为:1.双端序列均唯一比对到基因组上;2.双端序列有且仅有一端序列唯一比对到基因组上;3.双端序列均没有唯一比对到基因组上。
对于类1,若双端序列唯一比对结果分别在正反链上,且比对位置在一定距离范围内(如300bp内),则判断该位置为正确的双端测序位置,且两端序列可以拼接为一段较长且更置信的序列。若双端序列唯一比对结果不在正反链上,或唯一比对位置较远(如大于1000bp),则不认为该位置是准确的双端测序位置。这时,分别在双端序列唯一比对位置的前后300bp范围内局部比对(在本文中也将局部比对称为“细致比对”)另一端读段,若另一端读段可以找到相应位置,则认为该位置为准确的双端测序位置。若双端序列唯一比对位置上均找不到另一端读段可以匹配的位置,则舍弃该双端序列。
对于类2,在唯一比对的位置前后300bp位置范围内细致比对另一端读段,若另一端读段可以找到相应位置,则认为该唯一比对位置为正确的双端测序位置。反之舍弃该双端序列。
对于类3,若双端序列均能够比对上基因组但不唯一比对到基因组上,则按照类1处理;若双端序列有且仅有一端比对上基因组但不唯一比对到基因组上,则按照类2处理;若双端均不能比对到基因组上,则舍弃该双端序列。
在本文中采用的局部比对算法包括但不限于Smith-Waterman算法。另外,“另一条读段可以找到相应位置”指Smith-Waterman比对结果中局部最优序列长度大于预设阈值且错误率低于预设阈值则认为找到相应位置。
接下来,将Sam1和Sam2中确认是双端位置的序列合并,并输出到统一的Sam文件中。合并方式是:若读段1和读段2有重合区域,则合并重合区域,拼接为一段更长序列。拼接策可以采用一致性碱基判断策略。若读段1和读段2没有重合区域,则使用N标志中间缺失长度,N的长度为两端读段距离的Base数。若Sam1和Sam2中读段没有找到正确的双端测序位置,则输出Sam1或Sam2中可以比对到(包括唯一比对)到基因组的读段结果。
根据本公开的实施方案,多轮测序的规则为Jumping测序,预设位置要求包括:多个读段的匹配区域位于参考基因组的相同链上;和多个读段的匹配区域中相邻两个读段在参考基因组上的距离不超过预定距离阈值,其中,预定阈值是基于部分延伸步骤的长度确定的,例如,预定距离阈值不超过50bp,例如不超过20bp,例如在5~20bp之间。参考图9,根据本公开的实施方案,Jumping测序包括:提供核酸模板,核酸模板直接或者间接连接在固相载体的表面;采用第一核苷酸和第二核苷酸,与核酸模板发生多轮延伸反应,其中,第一核苷酸为带有可检测标记的可逆终止子,并且用于通过延伸反应获得多个读段;第二核苷酸为不带有可检测标记的可逆终止子,并且用于通过延伸反应获得至少一个预设长度的合成片段。
根据本公开的实施方案,多轮测序的规则为Overlap测序,预设位置要求包括:多个读段的匹配区域位于参考基因组的相同链上;和多个读段的匹配区域中相邻两个读段在参考基因组上的重叠区域长度在预定距离范围,其中,预定距离范围是基于测序过程中的重叠区域长度确定的,例如,预定距离范围为5~10bp之间。参考图10,根据本公开的实施方案,Overlap测序包括:核酸模板直接或者间接连接在固相载体的表面;采用第一测序接头和第二测序接头与核酸模板发生多轮延伸反应,以便获得多个读段,其中,第一测序接头产生的第一读段与第二测序接头产生的第二读段存在至少一个碱基的重叠区域,可选的,第一测序接头采用第一核苷酸进行延伸反应,以便获得第一读段;第二测序接头产生首先采用第二核苷酸进行延伸反应,之后采用第一核苷酸进行多个延伸反应,以便获得第二读段。
根据本公开的实施方案,对于Overlap测序,其读段的分析过程如下:
参考前面针对双端测序的实施例,如前通过GenoCare配套的BaseCalling算法可以得到相应的测序序列文件Fa。本实例中可以实现N个Overlap测序序列的拼接。但为了表述方便,本实例中按照2次测序的结果处理,因此可以得到两次测序的序列文件Fa1和Fa2。
尽管通过实验过程中的参数设置可以将重叠的平均长度控制在5-10bp,但有时也会发生不出现重叠的情况。在拼接过程中,使用局部比对算法(如Smith-Waterman)可以找到两段序列中局部最相似的区域。在比对的结果中若相似区域长度小于预设阈值(如5bp)或相似区域的错误率大于预设阈值,则认为该拼接结果不置信。排除上述两种情况,可以通过相似区域将两段序列进行拼接。
接下来,将拼接结果整合输出到同一个Fa文件中。对于判断为“不置信”的拼接,则输出读段1和读段2中长度较长的读段到最终Fa文件中。
如步骤一中提到,若有多次Overlap测序,则将两两拼接得到的读段设为读段1,再重复步前面的操作,通过迭代则可得到更长读长读段,输出到最终的Fa文件中。
根据本公开的实施方案,多轮测序的规则为双端Jumping测序,预设位置要求包括:多个读段的匹配区域的一部分位于参考基因组的正链,另一部分位于参考基因组的反链上;和多个读段的匹配区域中相邻两个读段在参考基因组上的重叠区域长度在预定距离范围,其中,预定距离范围是基于测序过程中部分延伸步骤的长度确定的,例如,预定距离阈值不超过50bp,例如不超过20bp,例如在5~20bp之间。参考图11,根据本公开的实施方案,双端Jumping测序包括:使核酸模板与第一引物杂交,第一引物的至少一部分与核酸模板的3'端互补,第一引物共价连接在固相载体的表面上;采用第一核苷酸和第二核苷酸,基于第一引物与核酸模板发生多轮延伸反应,并获得第一引物延伸链;去除核酸模板,并使第二引物与第一引物延伸链杂交;采用第一核苷酸和第二核苷酸,基于第二引物与第一引物延伸链发生多轮延伸反应;其中,第一核苷酸为带有可检测标记的可逆终止子,并且用于通过延伸反应获得多个读段;第二核苷酸为不带有可检测标记的可逆终止子,并且用于通过延伸反应获得至少一个预设长度的合成片段。
根据本公开的实施方案,可以通过结合双端测序和Jumping测序的规则进行双端Jumping测序,并参考前面所描述的分析过程完成对双端Jumping测序结果的分析。其中,具体的,通过双端Jumping测序得到N个测序片段。对于同一位置上双端测序的不同测序片段分别表示为Reads1,1、Reads1,2、…、Reads1,N,Reads2,1、Reads2,2、…、Reads2,N。
对于双端Jumping测序得到的Reads拼接可以按照需要在实验设计中保证双端交错的序列片段有重叠区域。在Reads拼接中使用双端交错的序列,如Reads1,N-1和Reads2,1、Reads2,2进行拼接。在拼接开始前需要将Reads2的序列换成反 向互补序列。其余步骤不再赘述。最终,将拼接完成的序列输出到最终的Fa文件中。
根据本公开的另一些具体的实施方案,本公开提出一种测序数据处理设备,测序数据包括多个读段组,读段组包括多个读段,多个读段是通过对同一插入片段进行多轮测序而获得的,设备包括针对每个读段组的多个读段进行下列处理的多个模块:
全局比对模块110,用于将多个读段与参考基因组进行全局比对,以便在参考基因组上确定与多个读段对应的多个匹配区域;和一次筛选模块120,用于基于多个匹配区域之间的实际相对位置与预设位置要求的比较,对多个读段进行一次筛选,以便获得可拼接读段和过滤读段,其中,预设位置要求是由多轮测序的规则确定的,实际相对位置满足预设位置要求是读段作为可拼接读段的指示;和实际相对位置不满足预设位置要求是读段作为过滤读段的指示。
通过采用该测序数据处理设备,能够有效地实施前述第一方面所描述的测序数据处理方法。通过根据本公开实施例的该测序数据处理方法,能够有效地对来自同一插入片段多轮测序的读段进行筛选,得到可以进行拼接的读段,从而能够有有效提高测序数据的后续处理效率,避免了由于读段过短造成的不利影响。
根据本公开的实施方案,进一步包括
二次筛选模块130,用于对于过滤读段进行二次筛选,二次筛选包括:将读段组的至少一个作为初步读段,并基于初步读段对应的匹配区域和预设位置要求确定参考基因组上的二次比对区域;和将过滤读段的每一个读段分别与二次比对区域进行局部比对,并将满足预定阈值的读段和初步读段归类为可拼接读段。
根据本公开的实施方案,进一步包括:
拼接模块140,用于对可拼接读段按照多轮测序的规则进行拼接。
根据本公开的实施方案,多轮测序的规则包括选自下列的至少之一:双端测序、Jumping测序、Overlap测序、双端Jumping测序以及这些测序规则的组合。
根据本公开的另一些具体的实施方案,本公开提出一种计算设备,根据本公开的实施方案,其包括:处理器和存储器;存储器,用于存储计算机程序;处理器,用于执行计算机程序以实现前面所述的测序数据处理方法。
根据本公开的另一些具体的实施方案,本公开提出一种计算机可读存储介质,根据本公开的实施方案,存储介质包括计算机指令,当指令被计算机执行时,使得计算机实现前面所述的测序数据处理方法。
需要说明的是,前面针对测序方法、测序数据处理方法所描述的特征和优点同样适用于其他方面,在此不在赘述。
另外,为了方便理解,下面对可以与本公开的测序方法以及分析方法匹配的测序策略进行详细描述。
下面将结合实施例对本公开的方案进行解释。本领域技术人员将会理解,下面的实施例仅用于说明本公开,而不应视为限定本公开的范围。实施例中未注明具体技术或条件的,按照本领域内的文献所描述的技术或条件或者按照产品说明书进行。所用试剂或仪器未注明生产厂商者,均为可以通过市购获得的常规产品。
实施例
实施例中使用的Genocare单分子测序平台是使用TIRF成像系统检测掺入核苷酸种类的平台。Genocare测序过程有多种方式,第一种方式:四种核苷酸带有同种荧光信号,每轮反应加入一种核苷酸进行信号检测;第二种方式:四种核苷酸带有两种不同的荧光信号,每轮反应加入两种核苷酸进行信号检测;第三种方式:四种核苷酸带有四种不同的荧光信号,每轮反应加入四种核苷酸进行信号检测。具体测序过程可参看文章Single molecμLe targeted sequencing for cancer gene mutation detection,Scientific RepoRts|6:26110|DOI:10.1038/srep26110、专利申请CN201680047468.3、CN201910907555.7、CN201880077576.4和/或CN201911331502.1中测序过程的描述。
实施例中采用的试剂:
清洗液1组分包括:150mmol/L的氯化钠,15mmol/L的柠檬酸钠,150mmol/L的4-羟乙基哌嗪乙磺酸,0.1%的十二烷基硫酸钠。
清洗液2的组分包括:150mmol/L的氯化钠,150mmol/L的4-羟乙基哌嗪乙磺酸。
杂交液:3×SSC缓冲液,由20×SSC缓冲液(西格玛,#S6639-1L)用无核酸酶水(Rnase-free水)稀释而成。
Cold-dNTP:末端封闭的核苷酸,包含末端封闭的腺嘌呤核苷酸(Cold-dATP)、末端封闭的胸腺嘧啶核苷酸(Cold-dTTP)、末端封闭的胞嘧啶核苷酸(Cold-dCTP)、末端封闭的鸟嘌呤核苷酸Cold-dGTP。末端封闭的核苷酸购MyChem公司的核苷酸,其为3’OH被可逆封闭基团封闭的天然的dATP、dTTP、dCTP、dGTP。
表1:接头和测序引物序列
实施例1
1.文库构建
使用诺唯赞公司货号为ND606-01的DNA文库制备试剂盒( Universal DNA Library Prep Kit for Illumina V2)将D7-S1-T/D9-S2接头与DNA片段(100~300bp)进行连接,连接后无需进行PCR扩增,直接使用诺唯赞公司型号为N411-01的DNA纯化磁珠(VAHTS DNA Clean Beads)进行纯化获得目的文库。
具体地,本实施例中文库构建的步骤包括:
1)DNA片段进行末端修复和加A尾,反应体系与条件如表2所示:
表2:反应体系
H 2O (16.2-X)μL
末端修复体系(EndPrepMix) 3.8μL
DNA片段(总量50ng) XμL
总体积 20μL
反应条件为:20℃反应15分钟,接着在65℃条件下反应10分钟。
2)末端修复加A产物与接头进行连接,反应体系与条件如表3所示:
表3:反应体系
末端修复加A产物 20μL
D7-S1-T/D9-S2接头(20μmol/L) 5μL
连接混合体系(LigationMix) 25μL
总体积 50μL
反应条件为,混匀后室温放置15min。
4)连接产物纯化
纯化使用VAHTS DNA Clean Beads(N411-01)试剂盒并按试剂盒说明书所示步骤进行纯化,回收产物10μL,完成测序文库的构建。具体步骤如下:
a)将连接后的PCR体系转移至1.5mLEP管中,加入0.8×(40μL)磁珠,吹打混匀10次,室温放置3分钟;
b)将1.5mL EP管放置在磁力架上,静置2-3分钟,移去上清;
c)用200μL体积80%乙醇洗涤,漂洗磁珠,室温孵育30sec,小心移除上清;
d)开盖干燥磁珠约5-10分钟至残余乙醇完全挥发;
e)加入22μL体积的去离子水从磁力架上去取进行洗脱,充分混匀后室温静置3分钟,置于磁力架上3分钟,待液体澄清后,回收产物20μL,再加入1.2x(24μL)磁珠,吹打混匀10次,室温放置3分钟;
f)将1.5mLEP管放置在磁力架上,静置2-3分钟,移去上清;
g)重复步骤c)~d)一次;
h)加入11μL体积的去离子水从磁力架上取下进行洗脱,充分混匀后室温静置3分钟,置于磁力架上3分钟,待液体澄清后,回收产物10μL,完成测序文库构建。
5)定量及检测
使用Qubit 3.0仪器和Qubit dsDNA HS检测试剂盒对构建的文库进行浓度检测。
使用Labchip DNA HS检测试剂盒和LabChip仪器对构建的文库进行片段分布检测。
2.文库与芯片表面探针进行杂交
芯片选择:
所用的芯片为环氧基修饰的芯片,通过探针上的氨基和芯片表面的环氧基团反应的方法,例如参看公开号CN109610006A公开的内容来固定探针(序列:TTTTTTTTTTTCCTTGATACCTGCGACCATCCAGTTCCACTCAGATGTGTATAAGAGACAG)(SEQ ID NO:4)。
文库与芯片上探针杂交过程如下:
1)取3μL体积20nmol/L浓度的步骤一构建的测序文库,加入3μL的去离子水,混合均匀,于95℃热变性5分钟;
2)将变性文库迅速置于冰水混合物冷却2分钟以上;
3)加入24μL的杂交液,将文库稀释至2nmol/L的工作浓度。
4)将从步骤3)获得的30μL体积稀释的杂交文库通入从芯片的一条通道中,于42℃杂交反应30分钟,然后冷却至室温;
5)向测序通道中通入200μL的清洗液1,去除未杂交至芯片表面的文库;
6)向芯片测序通道通入200μL的清洗液2,去除清洗液1,完成文库与测序芯片表面接头的杂交。
实施例2双端测序
将实施例1中杂交可文库的芯片置于Genocare单分子测序仪中进行测序。测序步骤如下,测序流程示意图如图8所示。
2.1测序方法
2.1.1 Read1测序
利用Genocare单分子测序平台进行80个循环的测序,测序过程中采用四种核苷酸带有两种不同的荧光信号,每轮反应加入两种标记不同荧光信号的核苷酸进行信号检测的方式进行测序。
2.1.2合成初始模板完整的互补链
Read1测序结束后新生的测序链继续延伸合成初始模板完整的互补链,具体过程如下:
1)向芯片测序通道泵入750μL的延伸试剂,其中,延伸试剂组分为:120U/ml Bst DNA聚合酶(NEB,#M0275M),0.2mmol/L dNTP(dATP、dTTP、dCTP、dGTP各0.2μmol/L的混合物),1M甜菜碱,20mmol/L的三羟甲基氨基甲烷,10mmol/L的氯化钠,10mmol/L的氯化钾,10mmol/L的硫酸铵,3mmol/L的氯化镁,0.1%的Triton X-100,pH值为8.3;
2)将芯片升温至60±0.5℃,反应10分钟;
3)向芯片测序通道泵入220μL的清洗液1,去除延伸试剂;
4)向芯片测序通道泵入440μL的清洗液2,去除清洗液1,完成初始模板互补链的合成。
2.1.3去除初始模板
通过加入变性试剂去除初始模板,具体步骤如下:
1)将芯片降温至55±0.5℃
2)向芯片测序通中通入800μL体积的甲酰胺,变性2分钟;
3)通入220μL体积的清洗液1,去除变性后的初始模板;
4)重复步骤2)和步骤3)一次,完成对初始模板的去除。
2.1.4 3’OH封闭
利用封闭试剂封闭芯片表面核酸链的3’OH,具体过程如下:
1)将芯片降温至37±0.5℃;
2)向芯片测序通道中通入440μL体积的清洗液2,去除清洗液1;
3)通入750μL体积的封闭试剂2,反应15分钟。其中,封闭试剂2的组分为:100U/ml Terminal Transferase(NEB,M0315L),1×Terminal Transferase Buffer,0.25mmol/L氯化钴,100μmol/L ddNTP mix(ddATP、ddTTP、ddCTP、ddGTP各100μmol/L的混合物);
4)通入220μL体积的清洗液1,完成对芯片表面核酸链3’OH的封闭。
2.1.5 Read 2测序
相测序通道中加入测序引物并进行Read2测序,具体过程如下:
1)向测序通道中通入800μL体积的稀释的测序引物杂交液,杂交反应30分钟。稀释的测序引物杂交液为含有0.1μmol/L引物D7S1T-R2P的清洗液3;
2)将芯片在37±0.5℃条件下,保持90秒;
3)向测序通道中通入220μL体积的清洗液1,去除通道中未被杂交的测序引物;
4)向测序通道中通入440μL体积的清洗液2,去除清洗液1,完成测序引物的杂交。
采用本实施例步骤1相同的测序方式进行测序,获得Read2测序结果。
测序结果:利用该测序方法,获得有效的测序数据Read 1、Read 2用于测序分析。
2.2测序结果分析
2.2.1:获取双端测序序列
通过比对算法可以分别得到双端测序的序列文件Fa1、Fa2,并且两个文件中的序列是位置上对应的。所谓位置上对应指文件中相同序号的Reads,来自测序中的物理位置一致。
2.2.2:序列mapping
对Fa1和Fa2分别使用mapping算法将其比对到对应基因组上,分别得到比对后的结果文件Sam1和Sam2。Mapping算法可以选用已公开的方法。
2.2.3:分类处理双端序列
对Sam1和Sam2中的序列,根据其每个位置上对应的双端序列的比对结果可以分为三类。分别为:1.双端序列均Unique Mapping到基因组上;2.双端序列有且仅有一端序列Unique Mapping到基因组上;3.双端序列均没有Unique Mapping到基因组上。
对于类1,若双端序列Unique Mapping结果分别在正反链上,且mapping位置在一定距离范围内(如300bp内),则判断该位置为正确的双端测序位置,且两端序列可以拼接为一段较长且更置信的序列。若双端序列Unique Mapping结果不在正反链上,或Unique Mapping位置较远(如大于1000bp),则不认为该位置是准确的双端测序位置。这时,分别在双端序列Unique Mapping位置的前后300bp范围内细致比对另一端Reads,若另一端Reads可以找到相应位置,则认为该位置为准确的双端测序位置。若双端序列Unique位置上均找不到另一端Reads可以匹配的位置,则舍弃该双端序列。
对于类2,在Unique Mapping的位置前后300bp位置范围内细致比对另一端Reads,若另一端Reads可以找到相应位置,则认为该Unique Mapping位置为正确的双端测序位置。反之舍弃该双端序列。
对于类3,若双端序列均mapping但不Unique到基因组上,则按照类1处理;若双端序列有且仅有一端mapping但不Unique到基因组上,则按照类2处理;若双端均不mapping到基因组上,则舍弃该双端序列。
以上的“细致比对”指使用更加精细的局部比对算法,如Smith-Waterman算法。“另一条Reads可以找到相应位置”指Smith-Waterman比对结果中局部最优序列长度大于预设阈值且错误率低于预设阈值则认为找到相应位置。
2.2.4:输出最终Mapping结果
对于1.2.3中得到的结果,将Sam1和Sam2中确认是双端位置的序列合并,并输出到统一的Sam文件中。合并方式是:若Reads1和Reads2有重合区域,则merge重合区域,拼接为一段更长序列,拼接策略具体如下。若Reads1和Reads2没有重合区域,则使用NS标志中间缺失长度,N为两端Reads距离的Base数。若Sam1和Sam2中Reads没有找到正确的双端测序位置,则输出Sam1或Sam2中可以Mapping(包括Unique Mapping)到基因组的Reads结果。
拼接策略:将两条对应Reads相互配准,得到共同的一致性序列部分。其中两条序列配准使用Smith-Waterman算法,一致性序列指配准后通过在序列中增加、删除或修改部分Base,得到的局部最佳匹配序列。得到一致性序列后,根据构建的矫正模型逐个判断一致性序列中不一致的Base位置。根据该Base位置前后的碱基类型计算该位置出现Deletion或Insertion的概率。若Deletion的概率大于50%,则认为该位置所测Base不应该出现,从而删除该位置Base。反之,保留该位置上的Base。
本实施例中校正模型的过程包括:
1)使用python语言,提取获得的Reads1和Reads2序列中同一坐标两次测序读长均≥列中同一坐标的Reads,分别输出为T1(Read1)和T2(Read2)两个文件。其中同一坐标的对应方法是在生成Reads文件时将同一坐标Reads在不同文件中的Reads ID设置为一致;
2)将T1和T2中位置对应的Reads相互间做Align,在Align结果中标记两条Reads一致和不一致的Base,得到Common Reads。其中位置对应是通过比较两条Reads将的Reads ID是否一致实现;
3)分别将文件T1和T2和Reference做Mapping,得到Sam1和Sam2文件。将Sam1和Sam2中位置对应且mapping到同一位置的Reads,找到Reference中最长公共子串RefReads。公共子串指两条对应的Reads mapping后均覆盖的区域;
4)比较步骤2)中的Common Reads和步骤3)中的RefReads。对于Common Reads中不一致的Base,标记其是否真实存在于Reference中。若存在,对于没有测到的Reads则为Deletion。若不存在,对于测到的Reads则为Insertion;
5)统计步骤4)中的Deletion和Insertion情况,同时统计该不一致位置上前后Base的种类。因此得到在不同Base类型前或后引起Insertion或Deletion的概率。
具体地,本实例中运用的朴素贝叶斯模型如下:
其中:P(D|XY)表示对于某碱基在前后分别为X和Y碱基时发生Deletion的概率,X,Y∈[A,C,G,T]。P(D)表示对于某碱基发生Deletion的概率;P(I)表示对于某碱基发生Insertion的概率。
通过统计不同碱基下发生Deletion或Insertion时,前后碱基出现频率即可得到P(XY|D)和P(XY|I),从而可以计算得到P(D|XY)和P(I|XY)。
实施例3 Jumping测序
将实施例1获得的带有杂交文库的芯片置于测序仪中进行测序。测序步骤如下,测序流程示意图如图9所示:
3.1测序方法
3.1.1 Read1测序
利用测序平台进行80个循环的测序,测序过程中采用四种核苷酸带有两种不同的荧光信号,每轮反应加入两种标记不同荧光信号的核苷酸进行信号检测的方式进行测序。
3.1.2部分延伸
对初始模板互补链进行部分延伸的步骤包括:
1)将芯片升温至55℃±0.5℃
2)以1250μL/min的速度向Read1测序后的通道中通入440μL体积的延伸试剂2,反应2分钟。延伸试剂2的组分为:50mmol/L的三羟甲基氨基甲烷,50mmol/L的氯化钠,1mmol/L的乙二胺四乙酸,3mmol/L的硫酸镁,60mmol/L的硫酸铵,0.05%的吐温20,5%的二甲基亚砜,0.02mg/ml 9°N DNA聚合酶(NEB公司,货号M0260),5μmol/L的Cold-dNTPs(末端封闭核苷酸)(Cold-dATP、Cold-dTTP、Cold-dCTP、Cold-dGTP各5μmol/L的混合物),pH值9.0。
3)向测序通道泵入220μL体积的清洗液1,去除延伸试剂2。
4)向测序通道泵入400μL体积的切除试剂1,切除试剂1的组分为:75mmol/L的三羟甲基氨基甲烷,1M的氯化钠,0.05%的吐温20,10mmol/L的三(3-羟基丙基),pH=9.0。
5)将芯片升温至60℃±0.5℃,反应2分钟。
6)向测序通道泵入220μL体积的清洗液1,去除切除试剂1。
7)向测序通道泵入440μL体积的清洗液2,去除清洗液1。
8)重复步骤1)至步骤7)10至20个循环,完成对初始模板互补链的部分延伸。
3.1.3 Read2测序
采用与本实施例步骤1中Read1测序相同的方式进行测序,获得Read2测序结果。
测序结果:利用该测序方法,获得有效的测序数据Read1、Read2用于测序分析。
3.2测序结果分析
3.2.1:获取两段序列
同实施例2中2.2.1的步骤。
3.2.2:序列mapping
同实施例2中2.2.2的步骤。
3.2.3:分类处理两端序列
同实施例2中2.2.3的步骤。
判断是否是双端位置的标准由“双端序列mapping结果分别在正反链上”改为“两段序列均在同一方向链上”。
3.2.4:输出最终Mapping结果
同实施例2中2.2.4的步骤。
实施例4overlap测序
将实施例1获得的带有杂交文库的芯片置于Genocare单分子测序仪中进行测序。测序步骤如下,测序流程示意图如图10所示。
4.1测序方法
4.1.1初始模板的互补链合成
初始模板互补链合成的具体步骤如下:
1)向芯片测序通道泵入750μL体积的延伸试剂,其中,延伸试剂组分为:120U/ml Bst DNA聚合酶(NEB,#M0275M),0.2mmol/L dNTP(dATP、dTTP、dCTP、dGTP各0.2μmol/L的混合物),1M甜菜碱,20mmol/L的三羟甲基氨基甲烷,10mmol/L的氯化钠,10mmol/L的氯化钾,10mmol/L的硫酸铵,3mmol/L的氯化镁,0.1%的Triton X-100,pH值为8.3;
2)将芯片升温至60±0.5℃,反应10分钟;
3)向芯片测序通道泵入220μL体积的清洗液1,去除延伸试剂;
4)向芯片测序通道泵入440μL体积的清洗液2,去除清洗液1,完成初始模板互补链的合成。
4.1.2去除初始模板
通过加入变性试剂去除初始模板,具体步骤如下:
1)将芯片降温至55±0.5℃
2)向芯片测序通中通入800μL体积的甲酰胺,变性2分钟;
3)通入220μL体积的清洗液1,去除变性后的初始模板;
4)重复步骤2)和步骤3)一次,完成对初始模板的去除。
4.1.3 3’OH封闭
利用封闭试剂封闭芯片表面核酸链的3’OH,具体过程如下:
1)将芯片降温至37±0.5℃;
2)向芯片测序通道中通入440μL体积的清洗液2,去除清洗液1;
3)通入750μL体积的封闭试剂2,反应15分钟。其中,封闭试剂2的组分为:100U/ml Terminal Transferase(NEB,M0315L),1×Terminal Transferase Buffer,0.25mmol/L氯化钴,100μmol/L ddNTP mix(ddATP、ddTTP、ddCTP、ddGTP各100μmol/L的混合物);
4)通入220μL体积的清洗液1,完成对芯片表面核酸链3’OH的封闭。
4.1.4杂交测序引物D7S1T-R2P
1)将芯片升温至55±0.5℃,保持1分钟;
2)向测序通道中通入800μL体积的稀释的测序引物杂交液,杂交反应30分钟。稀释的测序引物杂交液为含有0.1μmol/L引物D7S1T-R2P的清洗液3,清洗液3组分包括:450mmol/L的氯化钠,45mmol/L的柠檬酸钠;
3)将芯片降温至37±0.5℃,保持90秒;
4)向测序通道中通入220μL体积的清洗液1,去除通道中未被杂交的测序引物;
5)向测序通道中通入440μL体积的清洗液2,去除清洗液1,完成测序引物的杂交。
4.1.5 Read1测序
利用Genocare单分子测序平台进行80个循环的测序,测序过程中采用四种核苷酸带有两种不同的荧光信号,每轮反应加入两种标记不同荧光信号的核苷酸进行信号检测的方式进行测序。
4.1.6变性去除新生测序链
通过加入变性试剂去除初始模板,具体步骤如下:
1)将芯片降温至55±0.5℃
2)向芯片测序通中通入800μL体积的甲酰胺,变性2分钟;
3)通入220μL体积的清洗液1,去除变性后的初始模板;
4)重复步骤2)和步骤3)一次,完成对初始模板的去除。
4.1.7封闭残余新生链的3’OH
残余新生链的3’OH封闭过程如下:
1)将芯片降温至37±0.5℃,维持90秒;
2)向测序通道中泵入750μL体积的封闭试剂1,反应10分钟。封闭试剂1的组分为:100U/ml Klenow DNA聚合酶大片段(3′→5′exo-,NEB,#M0212M)12.5μmol/L ddNTP mix(ddATP、ddTTP、ddCTP、ddGTP各12.5μmol/L的混合物),5mmol/L的氯化锰,20mmol/L的三羟甲基氨基甲烷,10mmol/L的氯化钠,10mmol/L的氯化钾,10mmol/L的硫酸铵,3mmol/L的氯化镁,0.1%的Triton X-100,pH值为8.3;
3)向测序通道中通入220μL体积的清洗液1,去除封闭反应后剩余的封闭液,完成对延伸不完全的新生链的3’OH的封闭。
4.1.8杂交测序引物D7S1T-R2P
测序引物的杂交过程同本实施例步骤4的相同。
4.1.9部分延伸
部分延伸的步骤包括:
1)将芯片升温至55℃±0.5℃
2)以1250μL/min的速度向Read1测序后的通道中通入440μL体积的延伸试剂2,反应2分钟。延伸试剂2的组分为:50mmol/L的三羟甲基氨基甲烷,50mmol/L的氯化钠,1mmol/L的乙二胺四乙酸,3mmol/L的硫酸镁,60mmol/L的硫酸铵,0.05%的吐温20,5%的二甲基亚砜,0.02mg/ml 9°N DNA聚合酶(NEB公司,货号M0260),5μmol/L的Cold-dNTPs(Cold-dATP、Cold-dTTP、Cold-dCTP、Cold-dGTP各5μmol/L的混合物),pH值9.0。
3)向测序通道泵入220μL体积的清洗液1,去除延伸试剂2。
4)向测序通道泵入400μL体积的切除试剂1,切除试剂1的组分为:75mmol/L的三羟甲基氨基甲烷,1M的氯化钠,0.05%的吐温20,10mmol/L的三(3-羟基丙基),pH=9.0。
5)将芯片升温至60℃±0.5℃,反应2分钟。
6)向测序通道泵入220μL体积的清洗液1,去除切除试剂1。
7)向测序通道泵入440μL体积的清洗液2,去除清洗液1。
8)重复步骤1)至步骤7)10至20个循环,完成对初始模板互补链的部分延伸。
4.1.10 Read2测序
采用与本实施例4.1.5中Read 1测序相同的方式进行测序,获得Read 2测序结果。
测序结果:利用该测序方法,获得有效的测序数据Read 1、Read 2用于测序分析。
4.2测序结果分析
4.2.1:获取测序序列
同实例1算法步骤一,通过GenoCare配套的BaseCalling算法可以得到相应的测序序列文件Fa。本实例中可以实现N测overlap测序序列的拼接。但为了表述方便,本实例中按照2次测序的结果处理,因此可以得到两次测序的序列文件Fa1和Fa2。
4.2.2:两段序列拼接
通过实验过程中的参数设置可以将overlap的平均长度控制在5-10bp,但是也不保证肯定有overlap的情况。在拼接过程中,使用局部比对算法(如Smith-Waterman)可以找到两段序列中局部最相似的区域。在比对的结果中若相似区域长度小于预设阈值(如5bp)或相似区域的错误率大于预设阈值,则认为该拼接结果不置信。
排除上述两种情况,可以通过相似区域将两段序列进行拼接。拼接过程中对于相似区域中不一致Base的取舍,具体操作如下:将两条对应Reads相互配准,得到共同的一致性序列部分。其中两条序列配准使用Smith-Waterman算法,一致性序列指配准后通过在序列中增加、删除或修改部分Base,得到的局部最佳匹配序列。得到一致性序列后,根据构建的矫正模型(详见2.2.4中的校正模型),逐个判断一致性序列中不一致的Base位置。根据该Base位置前后的碱基类型计算该位置出现Deletion或Insertion的概率。若Deletion的概率大于50%,则认为该位置所测Base不应该出现,从而删除该位置Base。反之,保留该位置上的Base。
4.2.3:输出拼接后序列
通过步骤二得到的拼接结果,将其整合输出到同一个Fa文件中。对于步骤二中判断“不置信”的拼接,则输出Reads1和Reads2中长度较长的Reads到最终Fa文件中。
如步骤一中提到,若有多次overlap测序,则将两两拼接得到的Reads设为Reads1,再重复步骤二操作和下一段序列拼接,通过迭代则可得到更长读长Reads,输出到最终的Fa文件中。
实施例5双端Jumping测序
将实施例1中带有杂交文库的芯片置于Genocare单分子测序仪中进行测序。测序步骤如下,测序流程示意图如图11所示。
5.1测序方法
5.1.1 Read1.1测序
利用双色单分子测序平台进行80个循环的测序,测序过程中采用四种核苷酸带有两种不同的荧光信号,每轮反应加入两种标记不同荧光信号的核苷酸进行信号检测的方式进行测序。
5.1.2部分延伸1.1
部分延伸的步骤包括:
1)将芯片升温至55℃±0.5℃
2)以1250μL/min的速度向Read1测序后的通道中通入440μL体积的延伸试剂2,反应2分钟。延伸试剂2的组分为:50mmol/Lmmol/Lol/L的三羟甲基氨基甲烷,50mmol/Lmmol/Lol/L的氯化钠,1mmol/Lmmol/Lol/L的乙二胺四乙酸,3mmol/Lmmol/Lol/L的硫酸镁,60mmol/Lmmol/Lol/L的硫酸铵,0.05%的吐温20,5%的二甲基亚砜,0.02mg/ml 9°N DNA聚合酶(NEB公司,货号M0260),5μmol/L的Cold-dNTPs(Cold-dATP、Cold-dTTP、Cold-dCTP、Cold-dGTP各5μmol/L的混合物),pH值9.0。
3)向测序通道泵入220μL体积的清洗液1,去除延伸试剂2。
4)向测序通道泵入400μL体积的切除试剂1,切除试剂1的组分为:75mmol/Lmmol/Lol/L的三羟甲基氨基甲烷,1M的氯化钠,0.05%的吐温20,10mmol/Lmmol/Lol/L的三(3-羟基丙基),pH=9.0。
5)将芯片升温至60℃±0.5℃,反应2分钟。
6)向测序通道泵入220μL体积的清洗液1,去除切除试剂1。
7)向测序通道泵入440μL体积的清洗液2,去除清洗液1。
8)重复步骤1)至步骤7)10至20个循环,完成对初始模板互补链的部分延伸。
5.1.3重复步骤5.1.1和步骤5.1.2若干次
根据初始模板长度设定重复次数。
5.1.4去除初始模板
通过加入变性试剂去除初始模板,具体步骤如下:
1)将芯片降温至55±0.5℃
2)向芯片测序通中通入800μL体积的甲酰胺,变性2分钟;
3)通入220μL体积的清洗液1,去除变性后的初始模板;
4)重复步骤2)和步骤3)一次,完成对初始模板的去除。
5.1.5 3’OH封闭
利用封闭试剂封闭芯片表面核酸链的3’OH,具体过程如下:
1)将芯片降温至37±0.5℃;
2)向芯片测序通道中通入440μL体积的清洗液2,去除清洗液1;
3)通入750μL体积的封闭试剂2,反应15分钟。其中,封闭试剂2的组分为:100U/ml Terminal Transferase(NEB,M0315L),1×Terminal Transferase Buffer,0.25mmol/Lmmol/Lol/L氯化钴,100μmol/L ddNTP mix(ddATP、ddTTP、ddCTP、ddGTP各100μmol/L的混合物);
4)通入220μL体积的清洗液1,完成对芯片表面核酸链3’OH的封闭。
5.1.6杂交测序引物D7S1T-R2P
1)将芯片升温至55±0.5℃,保持1分钟;
2)向测序通道中通入800μL体积的稀释的测序引物杂交液,杂交反应30分钟。稀释的测序引物杂交液为含有0.1μmol/L引物D7S1T-R2P的清洗液3,清洗液3组分包括:450mmol/Lmmol/Lol/L的氯化钠,45mmol/Lmmol/Lol/L的柠 檬酸钠;
3)将芯片降温至37±0.5℃,保持90秒;
4)向测序通道中通入220μL体积的清洗液1,去除通道中未被杂交的测序引物;
5)向测序通道中通入440μL体积的清洗液2,去除清洗液1,完成测序引物的杂交。
5.1.7 Read2的若干读段的测序
测序步骤与本实施例步骤1~3相同。
测序结果:利用该测序方法,获得有效的测序数据Read1、Read2用于测序分析。
5.2测序结果分析
5.2.1获取测序序列
同4.2.1步骤,得到双端测序N个测序片段。对于同一位置上双端测序的不同测序片段分别表示为Reads1,1、Reads1,2、…、Reads1,N,Reads2,1、Reads2,2、…、Reads2,N。
5.2.2:序列拼接
对于双端Jumping测序得到的Reads拼接需要在实验设计中保证双端交错的序列片段有overlap区域。在Reads拼接中使用双端交错的序列,如Reads1,N-1和Reads2,1、Reads2,2进行拼接。在拼接开始前需要将Reads2的序列换成反向互补序列。具体的拼接方法同4.2.2步骤。
5.2.3:输出拼接后序列
同4.2.3步骤,将5.2.2步骤中拼接完成的序列输出到最终的Fa文件中。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本公开的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本公开的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本公开的限制,本领域的普通技术人员在本公开的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (45)

  1. 一种测序方法,其中,其中包括:
    提供核酸模板,所述核酸模板直接或者间接连接在固相载体的表面;
    利用第一核苷酸进行合成测序反应,以测定所述核酸模板的一部分,获得读段,所述第一核苷酸为带有可检测标记的可逆终止子;
    利用第二核苷酸进行聚合反应,以合成所述核酸模板的一部分,获得预设长度的合成片段,所述第二核苷酸为不带有可检测标记的可逆终止子,所述读段和所述合成片段对应所述核酸模板上有重叠或者没有重叠的连续的部分。
  2. 根据权利要求1所述的测序方法,其中,所述读段的长度不短于所述合成片段的长度;
    任选地,所述合成片段的长度大于或等于1bp;
    任选地,所述合成片段的长度大于或等于10bp;
    任选地,所述合成片段的长度大于或等于10bp并且小于或等于20bp。
  3. 根据权利要求1或2所述的测序方法,其中,所述核酸模板的长度小于或等于600bp;
    任选地,所述核酸模板大于或等于75bp且小于或等于400bp。
  4. 根据权利要求1-3中任一项所述的测序方法,其中,所述第一核苷酸和/或所述第二核苷酸的糖的3'-OH被可逆阻断;
    任选地,所述第一核苷酸和/或所述第二核苷酸的糖的3'-OH为天然状态,并且所述第一核苷酸和/或所述第二核苷酸的碱基连接有可切割的阻断基团;
    任选地,所述可检测标记为荧光分子。
  5. 根据权利要求1-4中任一项所述的测序方法,在DNA聚合酶的作用下进行所述合成测序反应和/或所述聚合反应,所述DNA聚合酶选自Klenow片段、Bst、9°N、Pfu、KOD和Vent中的至少一种;
    任选地,在相同DNA聚合酶的作用下进行所述合成测序反应和所述聚合反应,所述DNA聚合酶为Klenow片段突变体;
    任选地,在相同DNA聚合酶的作用下进行所述合成测序反应和所述聚合反应,所述DNA聚合酶为9°N突变体。
  6. 根据权利要求1-5中任一项所述的测序方法,其中,所述读段为第一读段,所述方法包括:
    i)使所述核酸模板与第一引物杂交,所述第一引物的至少一部分与所述核酸模板的3'端互补,所述第一引物共价连接在所述固相载体的表面上;
    ii)利用所述第一核苷酸进行所述合成测序反应,包括延伸所述第一引物合成所述核酸模板的互补链以测定所述核酸模板的第一部分,获得所述第一读段,定义所述核酸模板的互补链为第一模板;
    iii)利用所述第二核苷酸进行所述聚合反应,包括继续延伸所述第一模板,获得所述合成片段;以及
    iv)利用所述第一核苷酸进行所述合成测序反应,包括继续延伸所述第一模板以测定所述核酸模板的第二部分,获得第二读段,
    所述第一读段、所述合成片段和所述第二读段对应所述核酸模板上三个没有重叠的连续的部分。
  7. 根据权利要求1-5中任一项所述的测序方法,其中,所述读段为第一读段,所述方法包括:
    i)加入第一引物并使所述核酸模板与所述第一引物杂交,所述第一引物的至少一部分与所述核酸模板的3'端互补,所述核酸模板共价连接在所述固相载体的表面上;
    ii)利用所述第一核苷酸进行所述合成测序反应,包括延伸所述第一引物合成所述核酸模板的互补链以测定所述核酸模板的第一部分,获得所述第一读段,定义所述核酸模板的互补链为第一模板;
    iii)利用所述第二核苷酸进行所述聚合反应,包括继续延伸所述第一模板,获得所述合成片段;以及
    iv)利用所述第一核苷酸进行所述合成测序反应,包括继续延伸所述第一模板以测定所述核酸模板的第二部分,获得第二读段,
    所述第一读段、所述合成片段和所述第二读段对应所述核酸模板上三个没有重叠的连续的部分。
  8. 根据权利要求6所述的测序方法,其中,所述合成片段为第一合成片段,所述方法还包括:
    v)去除所述核酸模板;
    vi)加入第二引物并使该第二引物结合到所述第一模板,利用所述第二核苷酸进行所述聚合反应,包括延伸所述第二引物合成所述第一模板的互补链,获得预设长度的第二合成片段,所述第二引物的至少一部分与所述第一模板的3'端互补,定义所述第一模板的互补链为第二模板;以及
    vii)利用所述第一核苷酸进行所述合成测序反应,包括继续延伸所述第二模板以测定所述核酸模板的第三部分,获得第三读段,
    所述第二合成片段和所述第三读段对应所述核酸模板上两个连续的部分。
  9. 根据权利要求6-8中任一项所述的测序方法,其中,还包括:重复iii)和iv)至少一次。
  10. 根据权利要求9所述的测序方法,其中,还包括:重复vi)和vii)至少一次。
  11. 根据权利要求10所述的测序方法,其中,所述第一读段、第一合成片段、第二读段、第二合成片段和第三读段之间的长度关系能使所述核酸模板的非末端部分的任一个位置的核苷酸被至少测定一次。
  12. 根据权利要求6、8-11中任一项所述的测序方法,其中,还包括在iv)之后且v)之前,对所述固相载体表面上的至少一部分核酸分子进行封闭。
  13. 根据权利要求6、8-12中任一项所述的测序方法,其中,还包括在v)之后且vi)之前,对所述固相载体表面上的至少一部分核酸分子进行封闭。
  14. 根据权利要求12所述的测序方法,其中,在DNA聚合酶的作用下使延伸反应阻断剂结合到所述第一模板实现所述封闭,所述延伸反应阻断剂选择ddNTP及其衍生物中的至少一种。
  15. 根据权利要求13所述的测序方法,其中,在末端转移酶的作用下使延伸反应阻断剂结合到所述第一模板实现所述封闭,所述延伸反应阻断剂选择ddNTP及其衍生物中的至少一种。
  16. 根据权利要求1-5中任一项所述的测序方法,其中,所述读段为第一读段,所述合成片段为第一合成片段,所述方法包括:
    i)加入第一引物并使所述核酸模板与所述第一引物杂交,所述第一引物的至少一部分与所述核酸模板的3'端互补,所述核酸模板共价连接在所述固相载体的表面上;
    ii)利用所述第一核苷酸进行所述合成测序反应,包括延伸所述第一引物合成所述核酸模板的互补链以测定所述核酸模板的第一部分,获得所述第一读段,定义所述核酸模板的互补链为第一模板;
    iii)去除所述第一模板;
    iv)加入所述第一引物并使该第一引物结合到所述核酸模板,利用所述第二核苷酸进行所述聚合反应,包括延伸所述第一引物合成所述核酸模板的互补链,获得所述第一合成片段,所述第一合成片段的长度不长于所述第一读段的长度,定义所述核酸模板的互补链为第一模板;以及
    v)利用所述第一核苷酸进行所述合成测序反应,包括继续延伸所述第一模板以测定所述核酸模板的第二部分,获得第二读段。
  17. 根据权利要求16所述的测序方法,其中,还包括:重复iii)-v)至少一次,并且使每个重复中的第一合成片段的长度不短于上一个重复中的第一合成片段的长度且不长于上一个重复中的第一合成片段和第二读段的长度之和。
  18. 根据权利要求1-5中任一项所述的测序方法,其中,所述读段为第一读段,所述合成片段为第一合成片段,所述方法包括:
    i)加入第一引物并使所述核酸模板与所述第一引物杂交,所述第一引物的至少一部分与所述核酸模板的3'端互补,所述核酸模板共价连接在所述固相载体的表面上;
    ii)利用所述第二核苷酸进行所述聚合反应,包括延伸所述第一引物合成所述核酸模板的互补链,获得所述第一合成片段,定义所述核酸模板的互补链为第一模板;
    iii)利用所述第一核苷酸进行所述合成测序反应,包括继续延伸所述第一模板以测定所述核酸模板的第一部分,获得所述第一读段;
    iv)去除所述第一模板;以及
    v)加入所述第一引物并使该第一引物结合到所述核酸模板,利用所述第一核苷酸进行所述合成测序反应,包括延伸所述第一引物合成所述核酸模板的互补链以测定所述核酸模板的第二部分,获得第二读段,所述第二读段的长度不短于所述第一合成片段的长度。
  19. 根据权利要求1-5中任一项所述的测序方法,其中,所述读段为第一读段,所述方法包括:
    i)使所述核酸模板与第一引物杂交,所述第一引物的至少一部分与所述核酸模板的3'端互补,所述第一引物共价连接在所述固相载体的表面上;
    ii)利用所述第一核苷酸进行所述合成测序反应,包括延伸所述第一引物合成所述核酸模板的互补链以测定所述核酸模板的第一部分,获得所述第一读段,定义所述核酸模板的互补链为第一模板;
    iii)利用所述第二核苷酸进行所述聚合反应,包括继续延伸所述第一模板,获得所述合成片段;
    iv)去除所述核酸模板;
    v)加入第二引物并使该第二引物结合到所述第一模板,利用所述第一核苷酸进行所述合成测序反应,包括延伸所述第二引物合成所述第一模板的互补链以测定所述核酸模板的第二部分,获得第二读段,所述第二引物的至少一部分与所述第一模板的3'端互补。
  20. 根据权利要求7、16-18中任一项所述的测序方法,其中,通过使单链核酸分子与探针杂交,并基于聚合反应延伸所述探针获得所述核酸模板,所述探针共价连接在所述固相载体的表面上,所述单链核酸分子的3'端与所述探针互补。
  21. 根据权利要求16或17所述的测序方法,其中,还包括在ii)之后且iii)之前,对所述固相载体表面上的至少一部分核酸分子进行封闭。
  22. 根据权利要求18或19所述的测序方法,其中,还包括在iii)之后且iv)之前,对所述固相载体表面上的至少一部分核酸分子进行封闭。
  23. 根据权利要求12所述的测序方法,其中,在DNA聚合酶的作用下使延伸反应阻断剂结合到所述第一模板实现所述封闭,所述延伸反应阻断剂选择ddNTP及其衍生物中的至少一种。
  24. 根据权利要求16、17、21或23所述的测序方法,其中,还包括在iii)之后且iv)之前,对所述固相载体表面上的至少一部分核酸分子进行封闭;
    任选地,还包括在iv)之后且v)之前,对所述固相载体表面上的至少一部分核酸分子进行封闭。
  25. 根据权利要求24所述的测序方法,其中,在末端转移酶的作用下使延伸反应阻断剂结合到所述第一模板实现所述封闭,所述延伸反应阻断剂选择ddNTP及其衍生物中的至少一种。
  26. 根据权利要求8-15、16、22-25任一所述的测序方法,其中,通过加入变性试剂解离所述核酸模板与所述第一模板,以去除所述核酸模板;
    任选地,通过加入变性试剂解离所述第一模板与所述核酸模板,以去除所述第一模板;
    任选地,所述变性试剂包含甲酰胺。
  27. 一种测序数据处理方法,其中,所述测序数据包括多个读段组,所述读段组包括多个读段,所述多个读段是通过对同一插入片段进行多轮测序而获得的,所述方法包括针对每个所述读段组的所述多个读段进行下列处理:
    将所述多个读段与参考基因组进行全局比对,以便在所述参考基因组上确定与所述多个读段对应的多个匹配区域;和
    基于所述多个匹配区域之间的实际相对位置与预设位置要求的比较,对所述多个读段进行一次筛选,以便获得可拼接读段和过滤读段,
    其中,
    所述预设位置要求是由所述多轮测序的规则确定的,
    所述实际相对位置满足所述预设位置要求是所述读段作为所述可拼接读段的指示;和
    所述实际相对位置不满足所述预设位置要求是所述读段作为所述过滤读段的指示。
  28. 根据权利要求27所述的测序数据处理方法,其中,进一步包括:
    对于所述过滤读段进行二次筛选,所述二次筛选包括:
    将所述读段组的至少一个作为初步读段,并基于所述初步读段对应的所述匹配区域和所述预设位置要求确定所述参考基因组上的二次比对区域;和
    将所述过滤读段的每一个所述读段分别与所述二次比对区域进行局部比对,并将满足预定阈值的所述读段和所述初步读段归类为可拼接读段。
  29. 根据权利要求28所述的测序数据处理方法,其中,将所述读段组的每一个所述读段均作为初步读段,进行所述二次筛选。
  30. 根据权利要求27-29中任一项所述的测序数据处理方法,其中,进一步包括:
    对所述可拼接读段按照所述多轮测序的规则进行拼接。
  31. 根据权利要求27-30中任一项所述的测序数据处理方法,其中,所述多轮测序的规则包括选自下列的至少之一:双端测序、Jumping测序、Overlap测序、双端Jumping测序以及这些测序规则的组合。
  32. 根据权利要求31所述的测序数据处理方法,其中,所述多轮测序的规则为双端测序,所述读段组包括两个读段,所述所述预设位置要求包括:
    两个所述读段的匹配区域分别位于所述参考基因组的正链和反链上;和
    两个所述读段的匹配区域在所述参考基因组上的距离不超过预定阈值,
    其中,所述预定阈值是基于插入片段的长度确定的。
  33. 根据权利要求31所述的测序数据处理方法,其中,所述多轮测序的规则为Jumping测序,所述所述预设位置要求包括:
    多个所述读段的匹配区域位于所述参考基因组的相同链上;和
    多个所述读段的匹配区域中相邻两个所述读段在所述参考基因组上的距离不超过预定距离阈值,
    其中,所述预定阈值是基于部分延伸步骤的长度确定的,任选地,所述预定距离阈值不超过50bp,优选不超过20bp,进一步优选在5~20bp之间。
  34. 根据权利要求31所述的测序数据处理方法,其中,所述多轮测序的规则为Overlap测序,所述所述预设位置要求包括:
    多个所述读段的匹配区域位于所述参考基因组的相同链上;和
    多个所述读段的匹配区域中相邻两个所述读段在所述参考基因组上的重叠区域长度在预定距离范围,
    其中,所述预定距离范围是基于测序过程中的重叠区域长度确定的,
    任选地,所述预定距离范围为5~10bp之间。
  35. 根据权利要求31所述的测序数据处理方法,其中,所述多轮测序的规则为双端Jumping测序,所述所述预设位置要求包括:
    多个所述读段的匹配区域的一部分位于所述参考基因组的正链,另一部分位于所述参考基因组的反链上;和
    多个所述读段的匹配区域中相邻两个所述读段在所述参考基因组上的重叠区域长度在预定距离范围,
    其中,所述预定距离范围是基于测序过程中部分延伸步骤的长度确定的,
    任选地,所述预定距离阈值不超过50bp,优选不超过20bp,进一步优选在5~20bp之间。
  36. 根据权利要求33所述的测序数据处理方法,其中,所述Jumping测序包括:
    提供核酸模板,所述核酸模板直接或者间接连接在固相载体的表面;
    采用第一核苷酸和第二核苷酸,与所述核酸模板发生多轮延伸反应,
    其中,
    所述第一核苷酸为带有可检测标记的可逆终止子,并且用于通过所述延伸反应获得多个读段;
    所述第二核苷酸为不带有可检测标记的可逆终止子,并且用于通过所述延伸反应获得至少一个预设长度的合成片段。
  37. 根据权利要求36所述的测序数据处理方法,其中,所述Overlap测序包括:
    所述核酸模板直接或者间接连接在固相载体的表面;
    采用第一测序接头和第二测序接头与所述核酸模板发生多轮延伸反应,以便获得多个读段,
    其中,
    所述第一测序接头产生的第一读段与所述第二测序接头产生的第二读段存在至少一个碱基的重叠区域,
    可选的,
    所述第一测序接头采用所述第一核苷酸进行所述延伸反应,以便获得所述第一读段;
    所述第二测序接头产生首先采用第二核苷酸进行延伸反应,之后采用所述第一核苷酸进行多个所述延伸反应,以便获得所述第二读段。
  38. 根据权利要求36所述的测序数据处理方法,其中,所述双端Jumping测序包括:
    使所述核酸模板与第一引物杂交,所述第一引物的至少一部分与所述核酸模板的3'端互补,所述第一引物共价连接在所述固相载体的表面上;
    采用所述第一核苷酸和所述第二核苷酸,基于所述第一引物与所述核酸模板发生多轮延伸反应,并获得第一引物延伸链;
    去除所述核酸模板,并使第二引物与所述第一引物延伸链杂交;
    采用所述第一核苷酸和所述第二核苷酸,基于所述第二引物与所述第一引物延伸链发生多轮延伸反应;
    其中,
    所述第一核苷酸为带有可检测标记的可逆终止子,并且用于通过所述延伸反应获得多个读段;
    所述第二核苷酸为不带有可检测标记的可逆终止子,并且用于通过所述延伸反应获得至少一个预设长度的合成片段。
  39. 根据权利要求27-38任一项所述的测序数据处理方法,所述测序数据由权利要求1-26任一项所述测序方法测得。
  40. 一种测序数据处理设备,所述测序数据包括多个读段组,所述读段组包括多个读段,所述多个读段是通过对同一插入片段进行多轮测序而获得的,所述设备包括针对每个所述读段组的所述多个读段进行下列处理的多个模块:
    全局比对模块,用于将所述多个读段与参考基因组进行全局比对,以便在所述参考基因组上确定与所述多个读段对应的多个匹配区域;和
    一次筛选模块,用于基于所述多个匹配区域之间的实际相对位置与预设位置要求的比较,对所述多个读段进行一次筛选,以便获得可拼接读段和过滤读段,
    其中,
    所述预设位置要求是由所述多轮测序的规则确定的,
    所述实际相对位置满足所述预设位置要求是所述读段作为所述可拼接读段的指示;和
    所述实际相对位置不满足所述预设位置要求是所述读段作为所述过滤读段的指示。
  41. 根据权利要求40所述的测序数据处理设备,其中,进一步包括二次筛选模块,用于对于所述过滤读段进行二次筛选,所述二次筛选包括:
    将所述读段组的至少一个作为初步读段,并基于所述初步读段对应的所述匹配区域和所述预设位置要求确定所述参考基因组上的二次比对区域;和
    将所述过滤读段的每一个所述读段分别与所述二次比对区域进行局部比对,并将满足预定阈值的所述读段和所述初步读段归类为可拼接读段。
  42. 根据权利要求40或41所述的测序数据处理设备,其中,进一步包括:
    拼接模块,用于对所述可拼接读段按照所述多轮测序的规则进行拼接。
  43. 根据权利要求40-42任一项所述的测序数据处理设备,其中,所述多轮测序的规则包括选自下列的至少之一:双端测序、Jumping测序、Overlap测序、双端Jumping测序以及这些测序规则的组合。
  44. 一种计算设备,其中,包括:处理器和存储器;
    所述存储器,用于存储计算机程序;
    所述处理器,用于执行所述计算机程序以实现根据权利要求27-39中任一项所述的测序数据处理方法。
  45. 一种计算机可读存储介质,其中,所述存储介质包括计算机指令,当所述指令被计算机执行时,使得所述计算机实现根据权利要求27-39中任一项所述的测序数据处理方法。
CN202280070809.4A 2021-10-18 2022-10-18 测序方法、测序数据处理方法、设备和计算机设备 Pending CN118139990A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN2021112099465 2021-10-18
CN202111209946 2021-10-18
PCT/CN2022/125967 WO2023066255A1 (zh) 2021-10-18 2022-10-18 测序方法、测序数据处理方法、设备和计算机设备

Publications (1)

Publication Number Publication Date
CN118139990A true CN118139990A (zh) 2024-06-04

Family

ID=86057923

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202280070809.4A Pending CN118139990A (zh) 2021-10-18 2022-10-18 测序方法、测序数据处理方法、设备和计算机设备

Country Status (2)

Country Link
CN (1) CN118139990A (zh)
WO (1) WO2023066255A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116403647B (zh) * 2023-06-08 2023-08-15 上海精翰生物科技有限公司 一种检测慢病毒整合位点的生物信息检测方法及其应用

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6803327B2 (ja) * 2014-08-06 2020-12-23 ニューゲン テクノロジーズ, インコーポレイテッド 標的化されたシークエンシングからのデジタル測定値
CN106156536B (zh) * 2015-04-15 2018-11-13 深圳华大基因科技有限公司 对样本免疫组库测序数据进行处理的方法和系统
WO2020126595A1 (en) * 2018-12-17 2020-06-25 Illumina Cambridge Limited Primer oligonucleotide for sequencing
CN113593636B (zh) * 2020-04-30 2024-05-03 深圳市真迈生物科技有限公司 测序结果分析方法、系统及计算机可读存储介质和电子设备
CN113293205B (zh) * 2021-05-24 2024-11-26 深圳市真迈生物科技有限公司 测序方法

Also Published As

Publication number Publication date
WO2023066255A1 (zh) 2023-04-27

Similar Documents

Publication Publication Date Title
JP7532458B2 (ja) 化学組成物とそれを利用する方法
US20220186309A1 (en) Methods and compositions for nucleic acid sequencing
EP4168578B1 (en) Compositions and methods for in situ single cell analysis using enzymatic nucleic acid extension
US20210363583A1 (en) Methods for assessing a genomic region of a subject
JP2023071981A (ja) 酵素不要及び増幅不要の配列決定
CN102648295B (zh) 用于多重基因分型的多样品索引
US20070207482A1 (en) Wobble sequencing
US20130059737A1 (en) Efficient shotgun sequencing methods
WO2007106509A2 (en) Methods and means for nucleic acid sequencing
CN110770354A (zh) 用于文库构建和序列分析的组合物和方法
CN113337576B (zh) 文库制备方法、试剂盒及测序方法
WO2011094646A1 (en) Methods and compositions for high yield, specific amplification
CN118139990A (zh) 测序方法、测序数据处理方法、设备和计算机设备
US20210017596A1 (en) Sequential sequencing methods and compositions
WO2008134867A1 (en) Methods, kits, and systems for nucleic acid sequencing by hybridization
CN115874291A (zh) 一种对样本中dna和rna分子进行标记并同时检测的方法
US20180100180A1 (en) Methods of single dna/rna molecule counting
CN116721701A (zh) 测序数据处理方法、设备、计算设备和计算机可读介质
CN113593637B (zh) 测序方法及其分析方法和系统、计算机可读存储介质和电子设备
US20250002973A1 (en) Methods and formulations for denaturing dna
US20230323451A1 (en) Selective amplification of molecularly identifiable nucleic 5 acid sequences
EP1756299A1 (en) Nucleic acid sequencing
WO2014033285A1 (en) Sequencing method for single-stranded polynucleotide which employs probe with recognition site for nuclease

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination