[go: up one dir, main page]

CN102272763A - 用于分析测序数据的方法和系统 - Google Patents

用于分析测序数据的方法和系统 Download PDF

Info

Publication number
CN102272763A
CN102272763A CN2009801543642A CN200980154364A CN102272763A CN 102272763 A CN102272763 A CN 102272763A CN 2009801543642 A CN2009801543642 A CN 2009801543642A CN 200980154364 A CN200980154364 A CN 200980154364A CN 102272763 A CN102272763 A CN 102272763A
Authority
CN
China
Prior art keywords
nucleic acid
nucleotide sequence
target nucleic
order
checking
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2009801543642A
Other languages
English (en)
Inventor
M·罗纳格希
H·A·埃尔陶基
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Illumina Inc
Original Assignee
Illumina Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Illumina Inc filed Critical Illumina Inc
Publication of CN102272763A publication Critical patent/CN102272763A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B10/00ICT specially adapted for evolutionary bioinformatics, e.g. phylogenetic tree construction or analysis

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本技术涉及用于分析测序数据的方法和系统。特别是,描述了用于表征靶核酸同时确定靶核酸的核苷酸序列的方法和系统。某些实施方式包括通过比较靶核酸的积累核苷酸序列与参照核苷酸序列群鉴定靶核酸来源的方法和系统。

Description

用于分析测序数据的方法和系统
相关申请的交叉参考
本申请是一项非临时申请,要求于2008年11月26日提交的美国临时申请系列号61/118,395(其完整公开内容在此引作参考)的优先权。
发明领域
本技术涉及分子科学,例如遗传学。更具体而言,本技术涉及用于分析测序数据的方法和系统。
背景技术
生物样品中存在的特异核苷酸序列的检测可用作微生物鉴定和分类、传染病诊断、遗传缺陷检测和表征、肿瘤相关遗传变异鉴定、研究疾病的遗传易感性和测量对多种类型治疗的反应的方法。生物样品中特定核酸序列检测常规技术是核酸测序。
核酸测序方法主要来源于由Maxam和Gilbert所使用的化学降解法和Sanger所使用的链延伸法。现今有几种测序方法可以允许在单个测序运行中同时处理数以千计的核酸。由此可见,单个测序运行所获得的信息无疑是庞大的。
发明内容
本技术涉及对即时生成的测序数据的分析。在本发明某些实施方式中,此分析允许在获得靶核酸完整序列之前或结束测序运行之前鉴定靶核酸的来源。在某些实施方式中,测序运行可以在反应完成之前终止。在这些及其它一些实施方式中,终止测序反应是基于数据分析(例如,数据数量、数据质量、数据提供的信息—比如数据中所包含的信息回答提出的问题的能力,等等)。在某些实施方式中,终止测序反应是基于数据分析,而该数据分析确定已经获得了充足的数据(例如足以鉴定物种的数据、足以完成测序的数据、足以鉴定所有目标标记的数据,等等)。充足的数据可以包括完成特定分析(例如物种鉴定、诊断、获得全序列,等等)所需的最小数据量,或者可以包括获得具有充足的冗余度的数据,来提高在完成该分析时所期望的可靠度。终止测序反应可以包括立即终止测序反应,运行特定(固定的或者可变的)量的进一步的测序反应,和/或启动终止程序(例如冲洗试剂、发送通知,等等)。除了在达到特定标准时终止测序反应以外,或者作为其替代方案,也可以采取其它操作。当获得指定的数据(例如,数据量足够作物种鉴定、诊断等等)时,通知可以发送给用户(例如,可以发送电子信息、指示器可以点亮或振动,等等),可以激活不同的系统(例如运行另一个检验、基于诊断或鉴定的物种采取修正动作,等等),和/或可以响应于已确定获得充足的和/或指定的数据而采取某些其它的动作。
本发明的某些实施方式中,描述了用于表征靶核酸,同时测定靶核酸的核苷酸序列的一部分的方法和系统。特定的实施方式包括用于鉴定靶核酸来源的方法和系统,该鉴定是通过将靶核酸的一部分的积累核苷酸序列或者多个靶核酸的部分的积累序列与参照核酸序列群进行比较。
这里所描述的某些实施方式包括鉴定靶核酸来源的方法。这些方法可包括步骤:(a)启动测序过程,以确定靶核酸或其片段的核苷酸序列,由此生成靶核酸至少一部分的核苷酸序列;(b)在终止测序过程之前,比较所述靶核酸至少一部分的核苷酸序列和来自指定生物的参照核苷酸序列群,以使用指定的阈值鉴定与所述靶核酸至少一部分的核苷酸序列相匹配的参照核苷酸序列亚群;和(c)确定该参照核苷酸序列的亚群是否允许充分鉴定靶核酸的来源,其中若参照核苷酸序列的亚群不允许充分鉴定靶核酸的来源,则继续进行该测序过程并重复步骤(b)和(c),其中若参照核苷酸序列的亚群允许充分鉴定靶核酸的来源,则终止测序过程。在某些实施方式中,在充分鉴定靶核酸的来源之后,但是在完成靶核酸测序之前或测序运行结束前,终止测序过程。在另一实施方式中,可以在充分鉴定靶核酸的来源的同时终止测序过程。
在某些实施方式中,可以采集测序数据以执行特定的检验(例如,在个体中鉴定遗传疾病和/或者遗传标记)。当能从数据中获得足够的信息用于完成分析时,可以终止进一步的测序反应。
在这里描述的方法的某些实施方式中,测序过程是自动化的过程。
在这里描述的方法的某些实施方式中,测序过程可以对单个靶核酸进行。在另外的实施方式中,测序过程可以同时对多个靶核酸进行。在这样的实施方式中,多个靶核酸可以包含具有不同核苷酸序列的靶核酸。
这里所描述的方法也可以涉及在阵列表面上对多个靶核酸平行地进行测序过程。在某些此类实施方式中,所述多个靶核酸可以包括具有不同核苷酸序列的靶核酸。在特定实施方式中,进行测序的靶核酸的一部分包括生物基因组区域的随机采样。因此,该方法尤其适用于一般用于全基因组测序的方法,具有在仅对全基因组的片段进行测序后即可鉴定该基因组的来源生物的优点。
当前所描述的方法的特点,尤其与从宏基因组样品获得的靶核酸的鉴定有关。如此,在优选的实施方式中,这里所描述的方法涉及鉴定从一个或更多个宏基因组样品获得的靶核酸的来源。在特定的实施方式中,此方法可用于鉴定足以从其它候选物种中区分和/或鉴定出(例如特异地鉴定物种、特异地鉴定亚种、鉴定一组种和/或亚种,等等)该生物物种的来源。在某些实施方式中,一组物种的鉴定足以(例如,如果该组中的每个物种和/或亚种应用常规方法修正或注释----例如用同一药物治疗、用同一技术根除,等等)进行“物种鉴定”。在另外的实施方式中,物种鉴定涉及物种的特异鉴定。
在这里所描述的方法的某些实施方式中,参照核苷酸序列群中的参照核苷酸序列与指定生物的特定种相关联在数据库中创建索引(index)。在另外的实施方式中,参照核苷酸序列与指定生物的特定亚种相关联在数据库中进一步创建索引。在其它的鉴定靶核酸来源的方法中,参照核苷酸序列群中的参照核苷酸序列与一组或多组生物相关联在数据库中创建索引。在某些实施方式中,参照核苷酸序列群中的参照核苷酸序列可以根据与多组生物的分级相关性(hierarchical association)在数据库中创建索引。再另外一种实施方式中,多组生物可能是系统发生相关的。在这里所描述的方法的某些实施方式中,靶核酸至少包括一种核酸的一部分,该核酸编码一种或多种已知系统发生关系的基因。这样的基因可以用来鉴定目标生物或者生物之间的关系。已经明确了系统发生关系的基因的例子包括但不限于RuBisCo、NifH、亚硫酸还原酶、线粒体核酸或者16SrRNA。在某些实施方式中,线粒体核酸包括细胞色素c氧化酶亚基I。
在当前所描述的方法的某些实施方式中,测序过程包括基于阵列的测序。在这个和其它的实施方式中,测序过程可以包括选自杂交测序、合成测序和连接测序的过程。在另外的实施方式中,其他的测序方法可以用于这里所描述的方法。
这里描述的某些方法也包括使用启发式算法将靶核酸至少一部分的核苷酸序列与参照核苷酸序列群作比较。在此类实施方式中,该算法可以包括,例如,BLAST算法或FASTA算法。
在这里描述的某些方法中,用于确定参照核苷酸序列的亚群是否和靶核酸至少一部分的核苷酸序列相匹配的阈值,包括用户指定的阈值。在某些实施方式中,一个或多个参数可以包括核苷酸同一性百分比。
在某些鉴定靶核酸来源的实施方式中,如果亚群内至少指定的百分比的参照核苷酸序列是来源于同一属的生物,则参照核苷酸序列的该亚群可以允许充分鉴定靶核酸的来源。在另外的实施方式中,如果亚群内至少指定的百分比的参照核苷酸序列是来源于同一种的生物,则参照核苷酸序列的该亚群可以允许充分鉴定靶核酸的来源。再其它的实施方式中,如果亚群内至少指定的百分比的参照核苷酸序列是来源于同一亚种的生物,则参照核苷酸序列的该亚群可以允许充分鉴定靶核酸的来源。
除这里所描述的方法之外,也描述了用于鉴定靶核酸来源的系统。此系统可能包括:带有存储器的计算机,该计算机与含有来自指定生物的参照核苷酸序列群的数据库对接;核酸测序仪,它配置为执行测序过程,以确定靶核酸或其片段的核苷酸序列,从而在所述存储器中生成靶核酸至少一部分的核苷酸序列;与所述计算机对接的第一程序模块,其中该第一程序模块配置为将靶核酸至少一部分的核苷酸序列与参照核苷酸序列群相比较,以在终止所述测序过程前使用指定的阈值鉴定与所述靶核酸至少一部分的核苷酸序列匹配的参照核苷酸序列亚群;以及与所述计算机对接的第二程序模块,其中该第二程序模块配置为确定参照核苷酸序列的亚群是否允许充分鉴定靶核酸的来源(例如,种、亚种、一组种或亚种,等等)。
在这里所描述的系统的某些实施方式中,第二程序模块可以进一步配置为如果参照核苷酸序列亚群不允许充分鉴定靶核酸的来源,则发出继续进行测序过程的指令。在另外的实施方式中,第二程序模块可以进一步配置为如果参照核苷酸序列亚群允许充分鉴定靶核酸的来源,则发出终止测序过程的指令。在这些实施方式中,可以在充分鉴定靶核酸的来源后,但是在靶核酸完全测序之前或者完成测序运行之前,发出终止测序过程的指令。在另外的实施方式中,可以在充分鉴定靶核酸来源的同时,发出终止测序过程的指令。
在这里所描述系统的某些实施方式中,第一和第二程序模块可以是同一模块。在某些实施方式中,可由计算机处理第一程序模块。在另外的实施方式中,第一和第二程序模块可以都由计算机处理。在另外别的实施方式中,数据库可以是远程数据库。在再另外的实施方式中,数据库可以是本地数据库。
在这里所描述系统的某些实施方式涉及由计算机控制的核酸测序仪。在其它的实施方式中,核酸测序仪可以处于独立控制下。在某些实施方式中,核酸测序仪可以和计算机位于同一地点,也可以位于远离计算机的地方。在某些实施方式中,测序过程可以是自动化的测序过程。在某些实施方式中,如对于上述方法所述,测序过程可以对单一靶核酸进行。在另外的实施方式中,测序过程可以同时对多个靶核酸进行。在这些实施方式中,多个靶核酸可以包括具有不同的核苷酸序列的靶核酸。
这里所描述的系统也可以涉及在阵列表面上平行地对多个靶核酸进行测序过程的核酸测序仪。在某些这样的实施方式中,多个靶核酸可以包括具有不同的核苷酸序列的靶核酸。
这里所描述的某些系统尤其适用于鉴定从宏基因组样品获得的靶核酸。如此,在优选的实施方式中,这里所描述的系统涉及鉴定从一个或多个宏基因组样品获得的靶核酸的来源。
在这里所描述的系统的某些实施方式中,参照核苷酸序列群中的参照核苷酸序列与指定生物的特定种相关联在数据库中创建索引。在另外的实施方式中,参照核苷酸序列与指定生物的特定亚种相关联在数据库中进一步创建索引。在其它的用于鉴定靶核酸来源的系统中,参照核苷酸序列群中的参照核苷酸序列与一组或多组生物相关联在数据库中创建索引。在某些实施方式中,参照核苷酸序列群中的参照核苷酸序列可以根据与多组生物的分级相关性在数据库中创建索引。再另外一些实施方式中,多组生物可能是系统发生相关的。在这里所描述的方法的某些实施方式中,靶核酸至少包括编码RuBisCo、NifH、亚硫酸还原酶、线粒体核酸或者16S rRNA的核酸的一部分。在某些实施方式中,线粒体核酸包括细胞色素c氧化酶亚基I。
在当前所描述的系统的某些实施方式中,测序过程包括基于阵列的测序。在这个和其它的实施方式中,测序过程可以包括选自杂交测序、合成测序和连接测序的过程。在另外的实施方式中,其他的测序方法可以用于这里所描述的系统。
这里描述的某些系统利用一种或者多种启发式算法来比较靶核酸至少一部分的核苷酸序列与参照核苷酸序列群。在此类实施方式中,算法可以包括,例如,BLAST算法或FASTA算法。
在这里描述的某些系统中,用于确定参照核苷酸序列的亚群是否和靶核酸至少一部分的核苷酸序列相匹配的阈值,可以包括用户指定的阈值。在某些实施方式中,一个或多个参数可以包括核苷酸同一性百分比。
在某些用于鉴定靶核酸来源的系统的实施方式中,如果亚群内至少指定的百分比的参照核苷酸序列是来源于同一属的生物,则参照核苷酸序列的该亚群可以允许充分鉴定靶核酸的来源。在另外的实施方式中,如果亚群内至少指定的百分比的参照核苷酸序列是来源于同一种的生物,则参照核苷酸序列的该亚群可以允许充分鉴定靶核酸的来源。再其它的实施方式中,如果亚群内至少指定的百分比的参照核苷酸序列是来源于同一亚种的生物,则参照核苷酸序列的该亚群可以允许充分鉴定靶核酸的来源。
附图说明
图1是用于鉴定靶核酸来源的系统的示意图。
详细描述
至少从部分意义上来讲,本发明起因于认识到尽管单个测序运行就可以快速生成大量测序数据,但是有些目标只能通过使用生成的测序数据的一部分才能实现。例如,方法和系统可用于仅仅使用从部分测序运行获得的部分数据鉴定靶核酸的来源。至少从部分意义上来讲,本发明起因于认识到若方法和/或系统能够发展为以有利的方式利用部分测序数据,例如在完成靶核酸测序之前或者在完成整个测序运行之前鉴定靶核酸的来源,则此方法和/或系统就可以节约测序试剂,节约时间和/或减少测序成本。另外,至少从部分意义上讲,本发明起因于认识到此方法和系统可以提供一种机制,利用该机制可以快速地鉴定靶核酸的来源,从而用于时效性极为重要的场合。
这里所描述的方法和系统的具体应用包括快速分析序列数据,包括但不限于一个或多个靶核酸的来源的鉴定。这些应用可以用于在患者医护点(point of patient care)鉴定病原体,例如,用于紧急诊断性检测。这样的病原体鉴定可以指导使用有效药物治疗鉴定的病原体。另外的应用还包括评估对于将要终止的测序运行,何时能够获得充足的数据,从而节约试剂,节省时间和/或节省成本。
这里所描述的方法和系统的各方面涉及到在完成靶核酸测序之前或者在完成测序运行之前,利用部分测序数据鉴定靶核酸的来源。这里所使用的“测序运行(sequencing run)”或者它的语法变体均指物理或化学步骤的一个重复过程,它在靶核酸上启动并进行,以获得指示靶核酸中的碱基顺序的信号。这个过程可以进行到其典型完成,此完成通常定义为来自该过程的信号不再能够以合理的确定性水平区分靶核酸的碱基时的点。测序运行可以对单个靶核酸分子进行,或同时对具有相同序列的靶核酸分子群进行,或同时对具有不同序列的靶核酸群进行。在某些实时方式中,当不再能从已经启动信号采集的一个或多个靶核酸分子获得信号时,则终止该测序运行。例如,可以对一个或多个存在于固相基底上的靶核酸分子启动测序运行,而且在基底上移去一个或多个靶核酸分子时终止,或者以其它方式停止检测在启动测序运行时存在于基底上的靶核酸来终止。
这里所使用的“序列判定(sequence calling)”、“碱基判定(basecalling)”和它们的语法同义词涉及基于测序运行所获得的数据确定核酸中碱基的顺序。序列判定的过程可以先于获得数据的测序运行结束前启动。
这里所使用的“测序过程”及其语法同义词是指进行测序运行和序列判定的组合动作。
在某些实时方式中,所描述的方法和系统用于在进行测序运行或检测靶核酸或其片段的一部分的核苷酸序列的同时鉴定靶核酸的来源或者以其它方式表征靶核酸。某些实施方式包括通过靶核酸或其片段的一部分的积累核苷酸序列与参照核苷酸序列群的比较鉴定靶核酸来源的方法和系统。这里所使用的“积累核苷酸序列(accumulating nucleotide sequence)”及其语法同义词是指在测序运行完成前由测序运行所生成的核苷酸序列。在某些实施方式中,在先前积累的序列被分析的同时测序运行可以继续积累信号。在上面所提到的每个实施方式中,靶核酸来源的鉴定可以先于靶核酸完全测序或测序运行完成之前进行。
这里描述了鉴定靶核酸来源的方法。此方法可以包括步骤(a)启动测序过程,以确定靶核酸或其片段的核苷酸序列,从而生成所述靶核酸至少一部分的核苷酸序列;(b)在终止测序过程之前,比较所述靶核酸至少一部分的核苷酸序列和指定生物的参照核苷酸序列群,以使用指定的阈值鉴定与所述靶核酸至少一部分的核苷酸序列相匹配的参照核苷酸序列亚群;和(c)确定参照核苷酸序列的亚群是否允许充分鉴定靶核酸的来源,其中若参照核苷酸序列的亚群不允许充分鉴定靶核酸的来源,则继续进行该测序过程并重复步骤(b)和(c),其中若参照核苷酸序列的亚群允许充分鉴定靶核酸的来源,则终止测序过程。
应当理解,终止测序过程可以在充分鉴定靶核酸来源后,但在靶核酸完全测序之前或者在测序运行完成之前发生。或者,在优选的方法中,测序过程可以在充分鉴定靶核酸来源的同时终止。
除了此处所述的方法以外,还提供了鉴定靶核酸来源的系统。这些系统可以包括:含有存储器的计算机;与含有来自指定生物的参照核苷酸序列群的数据库对接的计算机;核酸测序仪,其配置为进行测序过程以确定靶核酸或其片段的核苷酸序列,由此在所述存储器中产生所述靶核酸至少一部分的核苷酸序列;与所述计算机对接的第一程序模块,其中所述第一程序模块配置为比较所述靶核酸至少一部分的核苷酸序列与参照核苷酸序列群,从而在终止所述测序过程之前使用指定的阈值鉴定与所述靶核酸至少一部分的核苷酸序列相匹配的参照核苷酸序列亚群;和与所述计算机对接的第二程序模块,其中第二程序模块配置为确定该参照核苷酸序列亚群是否允许充分鉴定靶核酸的来源。
此处所述的系统中的一个或两个程序模块可以进一步配置为如果参照核苷酸序列亚群不允许充分鉴定靶核酸的来源,则提供继续测序过程的指令。此外,这些模块中的一个或两个可以进一步配置为如果参照核苷酸序列亚群允许充分鉴定靶核酸的来源,则提供终止测序过程的指令。终止测序过程的指令可以在充分鉴定靶核酸的来源之后,但是在靶核酸完全测序之前,或完成测序运行之前提供。或者,终止测序过程的指令可以在进行靶核酸来源的充分鉴定的同时提供。
应当理解,第一和第二程序模块提供的功能可以以多种方式分开或组合,只要模块的功能性得到保留。例如,第一和第二程序模块的所有功能可以在一个程序模块中实现。或者,这些模块的功能可以分配到三个或更多的程序模块中。
靶核酸
在此处所述的方法和系统中,靶核酸可以包括任何感兴趣的核酸。靶核酸可以包括DNA、RNA、肽核酸、吗啉代核酸、锁定核酸、乙二醇核酸、苏糖核酸、它们的混合物,和它们的杂合体。在优选的实施方式中,靶核酸从一个或多个来源生物获得。本文使用的术语“生物”是指现在存在或以前存在的任何活的或自主复制的颗粒。本文使用的术语“生物”不一定限于生物的特定种,而是可以用来指在任何分类水平上的活的或自主复制的颗粒。例如,术语“生物”可以用来概括地指沙门氏菌属内的所有种或真细菌界内的所有细菌。
靶核酸可以包含任何核苷酸序列。在一些实施方式中,核苷酸序列包含一种或多种蛋白质的全长编码序列。在其它实施方式中,核苷酸序列包含一种或多种蛋白质的编码序列的至少一部分。在再其它的实施方式中,核苷酸序列包含非编码序列的至少一部分。
用于核酸时,“至少一部分”的意思是至少5个核苷酸、至少10个核苷酸、至少15个核苷酸、至少20个核苷酸、至少25个核苷酸、至少30个核苷酸、至少35个核苷酸、至少40个核苷酸、至少45个核苷酸、至少50个核苷酸、至少60个核苷酸、至少70个核苷酸、至少80个核苷酸、至少90个核苷酸、至少100个核苷酸、至少125个核苷酸、至少150个核苷酸、至少175个核苷酸、至少200个核苷酸、至少250个核苷酸、至少300个核苷酸、至少350个核苷酸、至少400个核苷酸、至少450个核苷酸、至少500个核苷酸或多于500个核苷酸的连续序列。在优选的实施方式中,至少一部分的意思是介于至少大约20个核苷酸与至少大约250个核苷酸之间的连续序列。
示例性的靶核酸可以包括包含一个或多个核苷酸序列的核酸,该核苷酸序列包括线粒体或叶绿体DNA中存在的核苷酸序列的至少一部分。在某些实施方式中,线粒体或叶绿体DNA中存在的核苷酸序列的至少一部分是线粒体或叶绿体DNA特有的。其它靶核酸可以包括rRNA序列的至少一部分。再其它的靶核酸可以包括病毒或其它含核酸颗粒或成分中存在的核苷酸序列的至少一部分。
在一些实施方式中,靶核酸可以包含选择的序列。例如,这些序列可以包括编码RuBisCo、NifH、亚硫酸还原酶、线粒体核酸或16S rRNA的至少一部分的序列。在一些实施方式中,线粒体核酸包含细胞色素c氧化酶亚基I。在一些实施方式中,可以利用对靶核酸或其片段的一部分的测序鉴定靶核酸的来源。在其它实施方式中,基因组的特定基因或区域不需要测序,包括,例如,编码RuBisCo、NifH、亚硫酸还原酶、线粒体核酸如细胞色素c氧化酶亚基I或16SrRNA的至少一部分的序列。
一些实施方式可以使用单靶核酸。其它实施方式可以使用多个靶核酸。在这样的实施方式中,多个靶核酸可以包括多个相同的靶核酸、其中部分靶核酸相同的多个不同的靶核酸、或其中所有靶核酸都不同的多个靶核酸。在一些实施方式中,所述多个靶核酸可以包括特定生物的基因组的基本上全部。所述多个靶核酸可以包括特定生物的基因组的至少一部分,包括,例如,基因组的至少大约10%、15%、20%、25%、30%、35%、40%、45%、50%、55%、60%、65%、70%、75%、80%、85%、90%、95%或99%。
靶核酸可以从任何来源获得。例如,靶核酸可以由从一种生物获得的核酸分子制备,或者由从包括一种或多种生物的天然来源获得的核酸分子群制备。核酸分子的来源包括但不限于细胞器、细胞、组织、器官或生物体。可以用作靶核酸分子来源的细胞可以是原核的(细菌细胞,例如埃希氏菌属(Escherichia)、芽孢杆菌属(Bacillus)、沙雷氏菌属(Serratia)、沙门氏菌属(Salmonella)、葡萄球菌属(Staphylococcus)、链球菌属(Streptococcus)、梭菌属(Clostridium)、衣原体属(Chlamydia)、奈瑟氏菌属(Neisseria)、密螺旋体属(Treponema)、支原体属(Mycoplasma)、包柔氏螺旋体属(Borrelia)、军团菌属(Legionella)、假单胞菌属(Pseudomonas)、分支杆菌属(Mycobacterium)、螺杆菌属(Helicobacter)、欧文氏菌属(Erwinia)、土壤杆菌属(Agrobacterium)、根瘤菌属(Rhizobium)和、链霉菌属(Streptomyces));太古菌(archeaon),如泉古菌门(crenarchaeota)、纳古菌门(nanoarchaeota)或广古菌门(euryarchaeotia);或真核的,如真菌(例如酵母)、植物、原生动物和其它寄生虫,和动物(包括昆虫(例如果蝇属(Drosophila)的种)、线虫(例如秀丽隐杆线虫(Caenorhabditiselegans)),和哺乳动物(例如,大鼠、小鼠、猴、非人类灵长类动物和人类))。
在一些实施方式中,靶核酸可以从特定生物来源获得。在一个优选的实施方式中,靶核酸是从人获得的人核酸,例如,人组织的样品。在特别优选的实施方式中,靶核酸是人线粒体核酸。在另一个优选的实施方式中,核酸可以从宏基因组样品获得。在其它实施方式中,靶核酸可以从不再包含活生物的环境来源获得。
序列谱(sequence profile)
此处所述的方法和系统的某些实施方式具有特别的价值,甚至在多个靶核酸从包含多种生物的样品中获得的情况下。在一些实施方式中,这样的样品是宏基因组样品或未培养的样品。宏基因组样品可以从环境中的几乎任何区域获得。例如,宏基因组样品可以从海洋、垃圾堆、食品、动物如人的皮肤或肠、或医院中的表面等多种多样的地方获得。因为宏基因组样品中的靶核酸可以被测序或部分测序,可以建立样品的序列谱。任何特定宏基因组样品的序列谱可以与从同样的或类似的环境获得的一种或多种样品的序列谱比较,或者可以比较在不同时间点从相同环境或地点采集的样品的序列谱。
在比较从不同环境获得的序列谱的情况中,序列谱的差异可能与在不同环境发生的某些事件或状况相关。例如,发展中国家的儿童常常处于较差的卫生条件,导致病毒和细菌传播,引起严重的腹泻。从儿童肠中获得的样品中存在的菌群一般可能含有不同的微生物组成。严重腹泻与肠菌群失衡有关。如果肠微生物的序列谱从健康儿童人群中的儿童获得,则这些谱将具有一定水平的相似性。如果肠微生物的序列谱从患有腹泻的人群中的儿童获得,则序列谱通常不同于从健康儿童获得的序列谱。此外,从患有腹泻的儿童人群可以获得几种不同的谱。例如,可以从患有腹泻的人群获得多个不同的序列谱,其中一些彼此相似,但是都不与从健康儿童获得的序列谱相似。而且,具有不同谱的儿童可能对不同的治疗方案有反应。例如,具有A型谱的儿童可能对方案A有反应,具有B型谱的儿童可能对方案B有反应,等等。这样,病症和对该病症的治疗都可能与特定序列谱相关。如通过上述实例证明的,此处所述的方法可用于诊断多种病症或疾病中的任一种,无论是基于遗传学还是基于特定病原体的存在,还是基于这两者。
在比较随时间变化从相同环境或位置获得的序列谱的情况下,序列谱的差异可用于检测在该环境或位置发生的事件。例如,样品可以在不同时间点从医院表面获得,以确定是否发生菌群组成的改变。如果发生改变,该位置可被鉴定为具有一种或多种病原性生物的潜在接触点。
在此处所述的方法和系统的某些实施方式中,可以在宏基因组样品中的靶核酸完全测序之前,或在完成测序运行之前,鉴定序列谱。这允许为了诊断目的快速鉴定序列谱,这特别可用于时间要求严格的应用。
序列确定
在此处所述的一些方法和系统中,靶核酸或其片段的一部分的核苷酸序列可以利用多种方法和装置确定。测序方法的实例包括电泳、合成测序、连接测序、杂交测序、单分子测序和实时测序方法。在一些实施方式中,确定靶核酸的核苷酸序列的过程可以是自动化过程。
电泳测序方法包括Sanger测序方案和常规电泳技术(Sanger,F.,Nicklen,S.and  Coulson,A.R.(1977)DNA  sequencing withchain-terminating inhibitors.Proc.Natl.Acad.Sci.USA.74(12),5463-7;Swerdlow,H.,Wu,S.L.,Harke,H.& Dovichi,N.J.Capillary gelelectrophoresis for DNA sequencing.Laser-induced fluorescencedetection with the sheath flow cuvette.J.Chromatogr.516,61-67(1990);Hunkapiller,T.,Kaiser,R.J.,Koop,B.F.& Hood,L.Large-scale andautomated DNA sequence determination.Science 254,59-67(1991))。在这样的实施方式中,可以在微制造的装置上进行电泳(Paegel,B.M.,Blazej,R.G.& Mathies,R.A.Microfluidic devices for DNA sequencing:Sample preparation and electrophoretic analysis.Curr.Opin.Biotechnol.14,42-50(2003);Hong,J.W.& Quake,S.R.Integrated nanolitersystems.Nat.Biotechnol.21,1179-1183(2003),其公开内容在此全部引入作为参考)。
优选的实施方式包括合成测序(SBS)技术。SBS技术通常包括通过基于模板链重复添加核苷酸,新生核酸链的酶促延伸。每次核苷酸添加询问模板链的一个或几个碱基。在SBS的一个示例类型中,循环测序通过逐步添加可逆的终止核苷酸来完成,该终止核苷酸含有,例如,可切割的或光可漂白的染料标记。该方法被Solexa(现为Illumina)商业化,也在WO 91/06678中记载,该文献在此全部引入作为参考。其中终止可以被逆转和荧光标记物可被切割的荧光标记的终止剂的可获得性对于促进有效的循环可逆终止(CRT)测序是重要的。聚合酶也可以共同构建以有效掺入修饰的核苷酸,并从这些修饰的核苷酸延伸。在特定实施方式中,可逆终止剂/可切割的荧光剂(fluors)可以包括通过3′酯键连接到核糖部分上的荧光剂(Metzker,Genome Res.15:1767-1776(2005),其公开内容在此全部引入作为参考)。其它方法已经将终止剂化学与荧光标记的切割分开(Ruparel等人,Proc Natl Acad Sci USA 102:5932-7(2005),其公开内容在此全部引入作为参考)。Ruparel等人记载了可逆终止剂的开发,该可逆终止剂使用小3′烯丙基阻止延伸,但是通过用钯催化剂短期处理能够容易地解锁。荧光团通过光可切割的连接体连接到碱基上,通过暴露于长波长UV线30秒可以容易地切割该连接体。因此,二硫化物还原或光切割可以用作可切割的连接体。可逆终止的另外一种方法是使用天然终止,它在大染料放置在dNTP上之后发生。dNTP上带电荷的大染料的存在可以通过立体和/或静电阻碍作为有效的终止剂。一个掺入事件的存在阻止了进一步的掺入,除非该染料被去除。染料的切割除去荧光剂并有效地逆转了终止。修饰的核苷酸的实例也记载在美国专利No.7,427,673和美国专利No.7,057,026中,其公开内容在此全部引入作为参考。
其它检测核苷酸加入新生链的SBS技术包括焦磷酸测序技术。焦磷酸测序检测当特定核苷酸掺入新生链时,无机焦磷酸(PPi)的释放(Ronaghi,M.,Karamohamed,S.,Pettersson,B.,Uhlen,M.and Nyren,P.(1996)Real-time DNA sequencing using detection of pyrophosphaterelease.Analytical Biochemistry 242(1),84-9;Ronaghi,M.(2001)Pyrosequencing sheds light on DNA sequencing.Genome Res 11(1),3-11;Ronaghi,M.,Uhlen,M.and Nyren,P.(1998)A sequencingmethod based on real-time pyrophosphate.Science 281(5375),363),其公开内容在此全部引入作为参考)。在焦磷酸测序中,释放的PPi可以通过被ATP硫酸化酶直接转化为腺苷三磷酸(ATP)而被检测到,通过萤光素酶产生的光子检测产生的ATP的水平。
可以用于此处所述的方法和系统的其它示例性的SBS系统和方法记载在美国专利申请公开No.2007/0166705、美国专利申请公开No.2006/0188901、美国专利No.7057026、美国专利申请公开No.2006/0240439、美国专利申请公开No.2006/0281109、PCT公布WO05/065814,美国专利申请公开No.2005/0100900、PCT公布WO06/064199和PCT公布WO 07/010251中,其公开内容在此全部引入作为参考。
一些实施方式可以使用连接测序技术。这些技术利用DNA连接酶掺入核苷酸,并且鉴定这些核苷酸的掺入。可以用于此处所述的方法和系统的示例性的系统和方法记载在美国专利No 6969488、美国专利No.6172218和美国专利No.6306597中,其公开内容在此全部引入作为参考。连接测序可以包括单独的几组连接,其中每组使用从用于其它组的一个或多个引物偏移的引物启动,可以包括使用探针,其中标记代表从其它组的碱基偏移的碱基的身份,可以包括切割探针的大部分或一部分,可以使用外切核酸酶,和/或可以使用某些其它技术(包括这些技术的组合)。
某些实施方式包括利用杂交技术测序的方法。在这样的实施方式中,寡核苷酸探针的差异杂交可以用来解译靶DNA序列(Bains,W.and Smith,G.C.A novel method for nucleic acid sequencedetermination.Journal of Theoretical Biology 135(3),303-7(1988);Drmanac,S.等人,Accurate sequencing by hybridization for DNAdiagnostics and individual genomics.Nature Biotechnology 16,54-58(1998);Fodor,S.P.A.,Read,J.L.,Pirrung,M.C,Stryer,L.,Lu,A.T.and Solas,D.Light-directed,spatially addressable parallel chemicalsynthesis.Science 251(4995),767-773(1995);Southern,E.M.(1989)Analyzing polynucleotide sequences.WO 1989/10977),其公开内容在此全部引入作为参考)。靶DNA可以固定在固体支持体上,并且可以使用短探针寡核苷酸,例如,长度为5-8个核苷酸的寡核苷酸,进行系列杂交。特异性探针结合靶DNA的程度可以用来推断未知的序列。靶DNA也可以与高密度寡核苷酸阵列杂交(Lipshutz,R.J.等人,(1995)Using oligonucleotide probe arrays to access genetic diversity.Biotechniques 19,442-447,其公开内容在此全部引入作为参考)。
某些实施方式可以利用纳米孔测序(Deamer,D.W.& Akeson,M.″Nanopores and nucleic acids:prospects for ultrarapid sequencing.″Trends Biotechnol.18,147-151(2000);Deamer and Branton,2002″Characterization of nucleic acids by nanopore analysis.″Acc Chem Res.2002 35:817-25;和Li等人,″DNA molecules and configurations in asolid-state nanopore microscope.″Nat Mater.2(9):611-5(2003),其公开内容在此全部引入作为参考)。纳米孔测序是一种快速确定核酸分子的序列的方法。纳米孔测序基于在其穿过纳米孔的小孔(aperture)时,物理感测个体多核苷酸内的个体核苷酸(或核苷酸的环境如电流的物理变化)的性质。原则上,多核苷酸的序列可以从单分子确定。然而,多核苷酸序列从数据的统计学平均值确定,该数据获自相同分子的多代或具有相同的多核苷酸序列的多个分子的代。Kasianowicz等人(Proc.Natl.Acad.Sci.USA.93:13770 3,1996,在此全文引入作为参考)研究了膜通道在当分子通过小离子通道时表征多核苷酸的应用,其中是通过使用电场迫使单链RNA和DNA分子通过脂双层膜中的2.6nm直径的纳米孔小孔,即,离子通道。
因此,在某些这样的实施方式中,靶核酸通过纳米孔。纳米孔可以是合成孔或生物膜蛋白,如α-溶血素、短杆菌肽A、麦芽糖孔蛋白、OmpF、OmpC、PhoE、Tsx、F-菌毛、线粒体孔蛋白(VDAC)(美国专利No.6,015,714,在此全文引入作为参考)。在一些实施方式中,随着靶核酸通过纳米孔,可以通过测量该孔的电导率的波动鉴定每个碱基对(美国专利No.7,001,792;美国专利No.6,267,872;Soni,G.V.& Meller,A.Progress toward ultrafast DNA sequencing usingsolid-state nanopores.Clin.Chem.53,1996-2001(2007);Healy,K.Nanopore-based single-molecule DNA analysis.Nanomed.2,459-481(2007);和Cockroft,S.L.,Chu,J.,Amorin,M.& Ghadiri,M.R.Asingle-molecule nanopore device detects DNA polymerase activity withsingle-nucleotide resolution.J.Am.Chem.Soc.130,818-820(2008),其公开内容在此全部引入作为参考)。
可以用于聚合物(包括核酸)的纳米孔测序的装置的实例在美国专利No.7,238,485和7,189,503中记载,这些专利在此全文引入作为参考。在一些这样的实施方式中,用于纳米孔测序的装置和/或方法可以包括一个或多个下列部件:纳米孔小孔、邻近小孔设置的分子马达,其中该分子马达能够相对于小孔移动聚合物。在一些实施方式中,利用方法控制聚合物的移动速率。通过在聚合物移动时进行测量,可以表征聚合物。可以使用任何能够移动目标多核苷酸的分子马达。分子马达可以但不是必须包括一个或多个如下的理想的性质:(1)连续动作,例如每次添加或去除一个核苷酸;(2)没有沿目标多核苷酸的回溯(backtracking);(3)没有由用来驱动多核苷酸至马达的力如电场引起的马达在靶多核苷酸上的滑动;(4)当邻近纳米孔设置时保留催化功能;和(5)高持续能力(processivity),如保持与靶多核苷酸结合并在解离前进行至少1,000轮催化的能力。有用的分子马达的实例包括聚合酶如DNA聚合酶和RNA聚合酶、解旋酶、核糖体和外切核酸酶。在一些实施方式中,一个或多个分子马达可以位于孔之前、孔之后以及在孔中的一个或多个。在一个实施方式中,外切核酸酶与α-溶血素(或其它有机或固态)孔融合,使得该外切核酸酶逐个碱基地切割核酸,使得解离的碱基通过孔移动,并以等于外切核酸酶持续能力的速率引入。在其它实施方式中,聚合物完整地,而不是以解离碱基的形式通过孔(例如在孔的背面使用外切核酸酶,通过使用聚合酶,等等)。
一些实施方式可以利用包括实时监测DNA聚合酶活性的方法。在一些实施方式中,核苷酸掺入可以通过带有荧光团的聚合酶与γ-磷酸标记的核苷酸或零模式波导之间的荧光共振通量转移(FRET)相互作用检测。照明可以限制于表面束缚的聚合酶周围的仄升规模的体积,使得可以在低背景下观察到荧光标记的核苷酸的掺入(Levene,M.J.等人Zero-mode waveguides for single-molecule analysis at highconcentrations.Science 299,682-686(2003);Lundquist,P.M.等人.Parallel confocal detection of single molecules in real time.Opt.Lett.33,1026-1028(2008);Korlach,J.等人.Selective aluminum passivation fortargeted immobilization of single DNA polymerase molecules inzero-mode waveguide nanostructures.Proc.Natl.Acad.Sci.USA 105,1176-1181(2008);和Foquet,M.等人,″Improved fabrication ofzero-mode waveguides for single-molecule detection,J.Appl.Phys.103,03401(2008),其公开内容在此全部引入作为参考)。
在利用实时监测DNA聚合酶活性的更多实施方式中,可以使用零模式波导(ZMW)的阵列进行DNA测序。ZMW的一个例子包括基底上的室、洞、孔、凹陷,具有例如低于大约20仄升(10-21升)的容积。基底可以包含多个ZMW。基底的一个实例包括沉积在二氧化硅基底上的100nm金属膜。在这种实例中,每个ZMW可以提供纳米光子(nanophotonic)可视化室,提供检测体积,使得可以检测到单分子的活性。由于ZMW的大小较小,核苷酸去往和离开ZMW的扩散快速,因此可以达到低背景水平。当DNA聚合酶掺入互补核苷酸时,每个碱基可以在检测体积内保持数十毫秒,这个数量级长于核苷酸扩散到检测体积内和检测体积外花费的时间。在这个时间中,荧光团标记的核苷酸发出荧光,该荧光可对应于特定碱基,如“A”、“C”、“T”或“G”。聚合酶然后可以切割固定荧光团的键,并且染料扩散到检测体积之外。在掺入后,信号立即返回基线,并且重复该过程。DNA聚合酶可以继续掺入碱基。可以使用的聚合酶的实例包括φ29DNA聚合酶。在一些实例中,可以使用荧光标记的脱氧核糖核苷三磷酸(Eid等人,″Real-Time DNA sequencing from SinglePolymerase Molecules″Science 323:133-138(2009),其公开内容在此全部引入作为参考)。在另一个实例中,标记的核苷酸包括脱氧核糖核苷酸五磷酸,如Korlach,J.等人,″Long,processive enzymatic DNAsynthesis using 100% dye-labeled terminal phosphate-linkednucleotides.″Nucleosides,Nucleotides and Nucleic Acids,27:1072-1083(2008)中所述的,该文献在此全文引入作为参考。此处提供的方法可以使用的ZMW、方法和核苷酸的更多实例可见于美国专利No.7,563,574,美国专利No.7,485,424,美国专利7,292,742,美国专利7,056,676,其公开内容在此全部引入作为参考。
此处所述的一些实施方式涉及使用ZMW实时监测DNA聚合酶活性,该ZMW包括基底层、置于基底层上的覆层,和包括设置穿过覆层的孔的核心,其中所述孔设置为基本上阻止频率低于截止频率的电磁能进入核心,纵向地通过所述零模式波导传播。可以利用DNA聚合酶活性的实时监测的更多实施方式可以包括靶核酸分子的测序方法,该方法可以包括一个或多个以下的步骤:(a)在多种类型的核苷酸或核苷酸类似物的存在下,使靶核酸分子进行聚合反应,以产生正在延长的互补于靶核酸分子的核酸链,其中该靶核酸分子和/或核酸聚合酶附着到支持物上;和(b)确定在一定条件下,在互补于靶核酸的活性位点,向正在延长的核苷酸链内引入多种类型的核苷酸或核苷酸类似物的时间顺序,该条件允许确定所述聚合反应过程中每秒掺入的多个核苷酸或核苷酸类似物。在一些实施方式中,确定多种类型的核苷酸或核苷酸类似物的掺入的时间顺序包括光学确定。
在一些实施方式中,被监测和/或测序的核酸可以是单分子的形式(可以是天然分子、修饰分子如标记的分子,或包括核苷酸类似物的核酸)、序列的多联体(concatamer),等等),可以扩增(例如扩增为多联体、扩增为多个具有相同或相似序列的个体分子,等等),和/或可以为任何其它形式。
应当理解,上述任何测序过程都可以结合到此处所述的方法和/或系统中。此外,应当理解,可以容易地实施其它已知的测序过程,用于此处所述的方法和/或系统。
靶核酸的来源的鉴定
在此处所述的一些方法和系统中,在确定序列时可以分析靶核酸或其片段的积累的核苷酸序列数据。在优选的实施方式中,可以通过分析靶核酸的积累的核苷酸序列数据鉴定靶核酸的来源。在这样的实施方式中,分析可以包括比较靶核酸一部分的积累的核苷酸序列数据与参照核苷酸序列群,鉴定(或以其它方式产生或建立)参照核苷酸序列的亚群,以及确定该亚群是否允许充分鉴定靶核酸的来源。
应当理解,在只选择靶核酸的片段进行分析的情况下,靶核酸的一部分也包括靶核酸片段的一部分。
积累的核苷酸序列数据可以对应于靶核酸的核苷酸序列的至少一部分。在一些实施方式中,核苷酸序列的至少一部分可以具有至少5个核苷酸、至少10个核苷酸、至少20个核苷酸、至少30个核苷酸、至少40个核苷酸、至少50个核苷酸、至少60个核苷酸、至少70个核苷酸、至少80个核苷酸、至少90个核苷酸、至少100个核苷酸、至少110个核苷酸、至少120个核苷酸、至少130个核苷酸、至少140个核苷酸、至少150个核苷酸、至少200个核苷酸和至少500个核苷酸的长度。或者,在一些实施方式中,核苷酸序列的至少一部分可以具有至少5个核苷酸至大约200个核苷酸、至少10个核苷酸至大约150个核苷酸、至少20个核苷酸至大约150个、至少20个核苷酸至大约100个核苷酸、至少20个核苷酸至大约50个核苷酸、至少30个核苷酸至大约100个核苷酸或至少30个核苷酸至大约50个核苷酸的长度。在一些实施方式中,当确定序列时,积累的核苷酸序列数据可以含有或者可以不含不清楚的核苷酸判定。在一些实施方式中,可以分析积累的序列数据的至少一部分。在一些实施方式中,可以分析积累的序列数据的至少大约10%、15%、20%、25%、30%、35%、40%、45%、50%、55%、60%、65%、70%、75%、80%、85%、90%、95%或99%。
在一些实施方式中,核苷酸序列的至少一部分可以包括生物基因组的至少大约10%、15%、20%、25%、30%、35%、40%、45%、50%、55%、60%、65%、70%、75%、80%、85%、90%、95%或99%。该部分可以构成生物基因组的预先定义的区域或部分,无论是连续的还是非连续的,例如,从靶向测序技术获得的。可替代地或者另外,该部分可以构成生物基因组的一个或多个随机区域或部分,例如,从全基因组测序技术获得的。
应当理解,上述范围和最小核苷酸长度包括并入该范围内的所有整数或高于指定的最小长度的所有整数。
在优选的实施方式中,通过比较积累的核苷酸序列数据与参照核苷酸序列分析数据。可以利用多种方法比较序列。方法实例包括使用启发式算法,如基本局部序列比对搜索工具(Basic LocalAlignment Search Tool,BLAST)算法、BLAST-样比对工具(BLAT)算法或FASTA算法。可以用于此处所述的某些方法和系统的序列分析软件的实例包括GCG程序套装(Wisconsin Package Version 9.0,Genetics Computer Group(GCG),Madison,Wis.)、LASTP、BLASTN和BLASTX(Altschul等人,J.Mol.Biol.215:403-410(1990);BLAT(Kent,W James(2002).″BLAT-the BLAST-like alignment tool.″Genome research 12(4):656-64);DNASTAR(DNASTAR,Inc.1228 S.Park St.Madison;Wis.53715USA);和结合了Smith-Waterman算法的FASTA程序(W.R.Pearson,Comput.Methods Genome Res.,[Proc.Int.Symp.](1994),Meeting Date 1992,111-20.Editor(s):Suhai,Sandor.Publisher:Plenum,New York,N.Y.)。
此处所述的一些方法和系统包括数据库。数据库可以用于比较靶核酸的积累核苷酸序列数据与数据库序列群。数据库可以含有参照序列群。该群可以包括多种类型的参照序列,例如,核苷酸序列、多肽序列或其混合物。
尽管相对于数据库序列描述了靶核酸的积累核苷酸序列数据的许多分析,但是应当理解,不一定要比较积累的核苷酸序列数据与数据库中的序列群。在一些实施方式中,积累的核苷酸序列可以与一个或多个从任何来源获得的参照序列比较。例如,可以在产生积累核苷酸序列数据之前或与之平行地,将积累核苷酸序列与一个或多个通过对来自参照生物的核酸测序产生的序列进行比较。
在一些实施方式中,参照序列群可以创建索引。在优选的实施方式中,数据库可以预先创建索引以供此处所述的方法和系统使用。创建索引可以提高获得数据库中与这些序列相关的序列和/或属性的效率。可以利用每个序列的一个或多个特征从数据库序列群产生索引。这些特征可以是数据库序列固有的或非固有的。固有的特征可以包括序列的一级结构和序列的二级结构。多肽序列或核酸序列的二级结构可以通过本领域公知的方法确定,如通过使用预测性算法的方法确定。非固有的特征可以包括多种性状,例如,序列的来源和序列的功能。
在一个实施方式中,参照序列可以利用与其它参照序列的分级相关性根据特定特征创建索引。可以对参照序列的任何特征产生参照序列之间的分级相关性。例如,可以使用参照序列的一级结构,根据与其它参照序列的序列同一性将参照序列分组为至少亚组、组和超级组。
在一个优选的实施方式中,数据库序列群可以利用其它参照序列之间的分级相关性,根据参照序列的来源创建索引。在一个实施方式中,序列的来源可以使用系统发生性状表征,该性状包括其中可以发现该序列的生物的界、门、纲、目、科、属、种、亚种和株。
靶核酸来源的身份可以鉴定或者另外用一个或多个性状来表征,这些性状将随着此处所述的方法和系统的应用而不同。在一个实施方式中,序列的来源可以通过比较积累核苷酸测序数据与通过分级相关性分组的参照序列来鉴定。示例性的分级分组可以使用系统发生性状进行,该性状包括但不限于生物的界、门、纲、目、科、属、种、亚种和/或株。在这样的实施方式中,靶核酸来源的身份可以通过与任何水平的分级相关的相关性来鉴定。在其它实施方式中,不需要使用分级相关。在这样的实施方式中,靶核酸的鉴定可以通过比较该序列与一个或多个未分组或置于非分级组中的参照序列来进行。
在此处所述的一些实施方式中,使用特定基因作为靶核酸对靶核酸的积累测序数据进行特定系统发生内的特定分类。在从宏基因组样品获得靶核酸的实施方式中,来自靶核酸的积累的序列数据可以分析并用来构建加权系统树。在更多的实施方式中,来自靶核酸的积累序列数据可以用来确定积累序列数据在包括所有可能的生物的系统发生内的特定位置,一个例子参见Sundquist等人,BMC.Microbiol.(2007)7:108所述的将序列置于系统发生内的方法,方法学章节引入作为参考。
在一些实施方式中,靶核酸可以在生物组之间高度保守,但是仍然保留某些变异区。特定基因内的可变区可能比不同生物组之间相似的区域为确定靶核酸来源提供更多的信息。在优选的实施方式中,可变区可以用来区别不同生物之间,例如,门、纲、目、科、属或种之间的靶核酸的积累的测序数据。在一个示例性的实施方式中,细菌16S rDNA可以用作靶核酸。这种具体序列特别可用于分析宏基因组样品(Sundquist等人,Bacterial flora-typing with targeted,chip-based pyrosequencing,BMC.Microbiol.(2007)7:108,在此全文引入作为参考)。
在一些实施方式中,靶核酸的积累的核苷酸序列数据可以与参照核苷酸序列群比较,以鉴定参照核苷酸序列亚群。这种亚群可以在指定的阈值将特定参数与靶核酸的积累的核苷酸序列相匹配。一个或多个参数可以用来产生参照序列核苷酸的亚群。在一些实施方式中,指定的阈值和参数可以是用户定义的。
参数可以包括参照核苷酸序列的任何固有的或非固有的特征,或靶核酸的积累的核苷酸序列数据。参数可以是包含性的和排他性的。在一个优选的实施方式中,用来确定参照核苷酸序列群的亚群的参数可以是核苷酸序列同一性。在这样的实施方式中,核苷酸序列的亚群可以与靶核酸的积累核苷酸序列数据具有特定阈值以上的序列同一性百分比。序列同一性百分比可以是两个或多个核苷酸序列之间的关系,例如通过比较序列确定的。在一些实施方式中,序列的同一性可以是序列相关性的程度,例如通过这些序列串之间的匹配确定的。序列同一性可以通过已知的方法容易地计算,包括但不限于本文以及以下文献中所述的方法:Computational MolecularBiology(Lesk,A.M.,ed.)Oxford University Press,New York(1988);Biocomputing:Informatics and Genome Projects(Smith,D.W.,ed.)Academic Press,New York(1993);Computer Analysis of SequenceData,Part I(Griffin,A.M.,and Griffin,H.G.,eds.)Humana Press,NewJersey(1994);Sequence Analysis in Molecular Biology(von Heinje,G.,ed.)Academic Press(1987);和Sequence Analysis Primer(Gribskov,M.and Devereux,J.,eds.)Stockton Press,NY(1991),它们的公开内容在此全文引入作为参考)。
在一些实施方式中,可以检查参照核苷酸序列亚群以确定该亚群是否可以允许充分鉴定靶核酸的来源。在一个示例性实施方式中,可以通过检查参照核苷酸序列亚群的特定百分比是否具有至少一个特定的共同相关性来进行确定。例如,亚群可以允许充分鉴定靶核酸的来源,其中超过特定百分比的参照核苷酸序列亚群为相同的属、种或亚种。
这些实施方式中使用的特定百分比可以由用户选择,并且可能随此处所述的方法和系统的应用而不同。在一些实施方式中,具有至少一种共同相关性从而允许充分鉴定靶核酸来源的亚群的特定百分比可以是至少50%、至少60%、至少70%、至少80%、至少90%、至少95%、至少97%和至少99%。在优选的实施方式中,100%的参照核苷酸序列亚群的成员可以具有共同相关性,以允许充分鉴定靶核酸的来源。
参照核苷酸序列亚群之间的共同相关性可以是用来创建索引参照核苷酸序列的特定特征。例如,共同相关性可以是生物的界、门、纲、目、科、属、种、亚种或株,其中可以发现该数据库核苷酸序列亚群的特定序列。在优选的实施方式中,用来确定亚群是否允许充分鉴定靶核酸来源的共同相关性可以由用户选择。
在一个示例性的实施方式中,参照核苷酸序列亚群可以允许鉴定靶核酸来源,其中亚群的特定百分比具有生物的纲的共同相关性。在另一个示例性的实施方式中,参照核苷酸序列亚群可以允许鉴定靶核酸来源,其中亚群的特定百分比具有生物的科的共同相关性。在另一个示例性的实施方式中,参照核苷酸序列亚群可以允许鉴定靶核酸来源,其中亚群的特定百分比具有生物的属的共同相关性。在另一个示例性的实施方式中,参照核苷酸序列亚群可以允许鉴定靶核酸来源,其中亚群的特定百分比具有生物的种的共同相关性。在另一个示例性的实施方式中,参照核苷酸序列亚群可以允许鉴定靶核酸来源,其中亚群的特定百分比具有生物的株的共同相关性。
在亚群不允许鉴定靶核酸来源的优选的实施方式中,靶核酸的测序可以继续。在这样的实施方式中,积累的测序数据的分析也可以继续。
在其中亚群允许鉴定靶核酸来源的更优选的实施方式中,靶核酸的测序可以终止。在这样的实施方式中,测序的终止可以在靶核酸完全测序之前或完成测序运行之前。在进一步的实施方式中,测序的终止可以在积累测序数据变得对于分析来说太不清楚之前。
积累的测序数据的系统分析
此处所述的某些实施方式包括用于分析积累的核苷酸测序数据的系统。在优选实施方式中,系统包括用于鉴定靶核酸来源的序列数据的分析。这些系统可以包括计算机、核酸测序仪、第一程序模块和第二程序模块。也应当理解,此处所述的系统可以应用于更多聚合物序列,如多肽序列。多肽序列是众所周知的,比较和分析多肽序列的方法也是众所周知的。
参考图1,某些用于鉴定靶核酸来源的系统(10)可以包括含有存储器(30)和处理器(40)的计算机(20)。
计算机(20)可以与含有来自指定生物的参照核苷酸序列群的数据库(50)对接。相对于计算机(20),数据库(50)可以是远程的,或者可以是本地的。
在一些实施方式中,参照核苷酸序列群内的参照核苷酸序列可以被创建索引。参照核苷酸序列可以根据参照核苷酸序列的任何固有的和非固有的性状在数据库中创建索引。例如,参照核苷酸序列可以与指定生物的特定种或特定亚种相关联在数据库中创建索引。在更典型的实施方式中,参照核苷酸序列可以与一组或多组生物相关联在数据库中创建索引。在进一步的典型实施方式中,参照核苷酸序列群内的参照核苷酸序列可以根据与多组生物的分级相关性在数据库中创建索引。在一些这样的实施方式,多组生物可以是系统发生相关的。
计算机(20)可以与核酸测序仪(60)对接。应当理解,在某些系统中,核酸测序仪可以被替换为和/或包括其它类型的测序仪,如多肽测序仪、蛋白质测序仪等。核酸测序仪(60)可以配置为执行测序过程,以确定靶核酸或其片段的核苷酸序列。测序过程可以在存储器(30)中产生靶核酸至少一部分的核苷酸序列。在一些实施方式中,测序仪(60)可以在计算机(20)的控制下。在其它实施方式中,测序仪(60)可以被独立地控制。在更多的实施方式中,测序过程可以是自动化测序过程。测序过程可以包括多个处理,例如,基于阵列的测序、杂交测序、合成测序、连接测序、所述各种蛋白质测序技术的任一种,等等。
在一些实施方式中,靶核酸可以含有编码RuBisCo、NifH、亚硫酸还原酶、线粒体核酸或16S rRNA的核酸的至少一部分。在一些实施方式中,线粒体核酸包含细胞色素c氧化酶亚基I。在一些实施方式中,靶核酸可以从宏基因组样品获得。
计算机(20)可以与第一程序模块(70)对接。在一些实施方式中,第一程序模块(70)可以由计算机(20)处理或者在希望时可以在其它地方处理。
在一些实施方式中,数据库可以被替换为第二核酸测序仪,该测序仪从含有来自一个或多个参照生物的核酸的参照样品产生数据。在一些实施方式中,核酸测序仪可以是核酸测序仪(60),其中产生的序列信息的第一部分是从参照样品获得的,并且产生的序列信息的第二部分是从含有靶核酸的样品获得的。
第一程序模块(70)可以配置为比较靶核酸至少一部分的核苷酸序列与参照核苷酸序列群。这种比较可以在终止所述测序过程之前使用指定的阈值鉴定与所述靶核酸至少一部分的核苷酸序列匹配的参照核苷酸序列亚群。在一些实施方式中,指定的阈值可以是用户指定的阈值。在更多的实施方式中,指定的阈值可以是基于一个或多个参数计算的。
在一些实施方式中,第一程序模块(70)可以配置为使用启发式算法,例如,BLAST算法或FASTA算法,比较靶核酸或其片段的至少一部分的核苷酸序列与参照核苷酸序列群。
计算机(20)可以与第二程序模块(80)对接。第二程序模块(80)可以配置为确定参照核苷酸序列亚群是否允许充分鉴定靶核酸的来源。第二程序模块(80)可以进一步配置为,如果参照核苷酸序列亚群不允许充分鉴定靶核酸的来源,则提供继续测序过程的指令。在甚至更多的实施方式中,第二程序模块(80)可以进一步配置为如果参照核苷酸序列亚群允许充分鉴定靶核酸的来源,则提供终止测序过程的指令。在一些这样的实施方式中,在充分鉴定靶核酸的来源之后,但是在靶核酸完全测序或完成测序运行之前,提供终止测序过程的指令。
如上所述,应当理解,第一和第二程序模块可以是同一程序模块,或者第一和第二程序模块的功能可以分配在三个或更多个程序模块中。另外,应当理解,任何或全部程序模块的程序可以由计算机(20)处理或者如果希望可以在其它地方处理。
尽管提到的是计算机(20),但是这些公开内容可以同等地适用于任何处理回路(无论是整体式的、由多个部件构成的、和/或分布在诸如内联网或互联网等网络之间的),它们配置(例如通过编程指令和/或专用硬件的排布)为行使上述计算机(20)、程序模块(70)、程序模块(80)和/或数据库(50)的一个或多个功能。
处理回路可以包括微处理器、图像处理回路、显示器驱动器、NVM控制器、声卡驱动器(例如D/A转换器、A/D转换器、声频编码器和/或解码器(codec)、放大器等)和其它处理回路中的一个或多个。处理回路可以包括多种类型的、数字和/或模拟的处理电路,并且可以包括微处理器、微控制器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它配置为行使各种输入/输出、控制、分析和其它功能的电路中的一个或多个。在各种实施方式中,处理回路可以包括使用任何合适的处理器或逻辑装置的中央处理器(CPU),如通用处理器。处理回路可以包括,或者实施为,芯片多处理器(CMP)、专用处理器、嵌入式处理器、媒体处理器、输入/输出(I/O)处理器、协处理器、微处理器如复杂指令集计算机(CISC)微处理器、精简指令集计算(RISC)微处理器、和/或超长指令字(VLIW)微处理器、实现组合指令集的处理器、控制器、微控制器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、可编程逻辑器件(PLD)或根据所述实施方式的其它处理装置。
处理回路可以配置为将数据数字化、过滤数据、分析数据、组合数据、输出指令信号、和/或以某些其它方式处理数据。处理回路可以配置为进行数字-模拟转换(DAC)、模拟-数字转换(ADC)、调制、解调、编码、解码、加密、解密等。处理回路(例如微处理器)可以配置为执行多种软件程序,如应用程序和系统程序,以提供计算和处理操作。
处理回路也可以包括存储数据的存储器。处理回路可以只包括一种类型的一个部件(例如一个微处理器),或者可以含有多个该类型的部件(例如多个微处理器)。该处理回路可以包括多个单独的回路和分立回路元件。在一些实施方式中,处理回路可以基本上包括固态电子元件如微处理器(例如微控制器)。处理回路可以安装在一个位置的一个面板上,或者可以分散在多个位置,这些位置协同作为处理回路。处理回路的部件可以位于一个外壳内,或者可以设置在多个外壳内,这些外壳以一种方式组合,该方式允许行使处理回路的请求保护的功能。在一些实施方式中,处理回路可以位于一个位置,和/或请求保护的处理回路的所有部件都紧密连接。
在图中显示为单处理回路的部分的部件可以是权利要求涵盖的各种实施方式中的单独处理回路的部分,除非被权利要求限制为单处理回路。在一些实施方式中,处理回路的至少一部分(例如全部或一些)可以是生物材料分析装置(例如测序仪60)的部分(例如与该装置在共同的外壳中,和/或提供该装置的一些或全部控制和/或操作)。
此处所述的系统的一些实施方式也包括一个或多个额外的分析原始测序信号数据(例如,荧光信号强度)的程序模块。这些模块允许在测序数据积累的同时鉴定每轮测序产生的核苷酸碱基。这种程序模块可以包括一个或多个碱基判定程序和一个或多个错误校验或验证程序。在一些实施方式中,一个或多个碱基判定程序利用正在产生的测序信号数据,以鉴定在积累核苷酸序列的一个或多个序列位置处存在的核苷酸。在其它实施方式中,测序信号数据在分析之前被预处理或者转化。在这样的实施方式中,在靶核酸完全测序之前或完成测序运行之前分析测序信号数据。
在一些实施方式中,此处所述的系统可以是供患者医护点使用的手持式装置。
多肽测序
应当理解,尽管以上讨论包括核苷酸序列的应用,特定的实施方式也可以应用于多肽序列。例如,某些实施方式可以包括对多肽进行测序。一些实施方式可以进一步包括比较积累的序列数据与预先创建索引的多肽序列数据库。可以继续测序直到确定了该多肽的特定特征。多肽序列的特定特征的实例可以包括多肽的来源,例如,生物和/或病毒,可能与多肽相关的蛋白质的家族,可能与多肽相关的生物化学途径,可能将多肽与其它多肽序列相关的一级、二级和/或三级结构基序。
多肽的测序方法是众所周知的,包括质谱法和Edman降解。在使用质谱法进行多肽测序的方法的一个实例中,蛋白质被内切蛋白酶消化,得到的溶液通过高压液相色谱柱。在该柱的末端,溶液被从充有高正电势的狭窄的喷嘴喷出,进入质谱仪。小滴上的电荷使得它们片段化,直到只保留单离子。肽然后片段化,并测量这些片段的质荷比。分析这些片段的质谱图,并与以前测序的蛋白质的数据库进行比较,以确定这些片段的序列。
实施例
实施例1-在医护点细菌病原体的鉴定
从患者获得上皮样品,对该样品进行DNA提取。使用针对16SrDNA的通用引物对提取的DNA进行目标特异性PCR。启动对扩增的DNA的DNA测序。随着DNA测序数据的积累,通过使用BLAST算法比较积累的序列与预先创建索引的细菌16S rRNA序列的数据库,分析每个积累的核苷酸序列。该数据库按照细菌的系统发生预先创建索引。进一步分析每个积累的序列,至数据库序列的细菌系统发生内的希望的分类水平。
继续进行DNA测序和对积累序列数据的分析,直到确定样品中存在的一种或多种细菌的属。或者,可以继续测序,直到确定样品中存在的一种或多种细菌的种。作为另外一个替代方案,一旦确定了致病菌或可疑致病菌,可以继续测序至任何希望的鉴定水平。
实施例2-排放污水中病毒病原体的鉴定
获得排放污水的样品,并对该样品进行DNA提取。启动提取的DNA的基于阵列的DNA测序。随着DNA测序数据的积累,通过使用FASTA算法比较每个积累的序列与预先创建索引的含有细菌和病毒序列的数据库,分析每个积累的核苷酸序列。该数据库按照细菌和病毒系统发生预先创建索引。进一步分析每个积累的序列,至数据库序列的细菌和病毒系统发生内的希望的分类水平。
对特定积累核苷酸序列继续DNA测序和积累序列数据的分析过程,直到对积累的序列确定了一组病原性病毒,直到对积累的序列确定了病原性病毒的亚组,或者直到对积累的序列确定了特定的病原性病毒。
或者,在对积累的序列只确定了非病毒细菌序列时,对积累的序列只确定了非病毒埃希氏菌序列时,或者对积累的序列只确定了非病毒大肠杆菌序列时,终止DNA测序和分析过程。
实施例3-人组织样品中多态性标记的鉴定
例如从血液或口腔拭子获得人组织样品,从该样品中提取DNA。在流动池表面扩增基因组,并例如如Bentley等人,Nature456:53-59(2008)所述,对提取的DNA启动基于阵列的测序。随着DNA测序数据的积累,通过比较每个积累的序列与参照核苷酸序列群,分析每个积累的核苷酸序列。参照序列群包含多态性标记,包括疾病等位基因和等同的非疾病等位基因。
对特定多态性标记继续进行DNA测序和积累的序列数据的分析,直到确定了至少一个疾病等位基因或等同的非疾病等位基因的存在。
实施例4-食物来源和病原体的鉴定
获得食品的样品。对该食品样品启动DNA测序。随着测序数据积累,将数据与预先创建索引的核酸序列数据库进行比较。根据序列的来源,根据任何一个或多个以下参数的特征可以确定:界、门、纲、目、科、属、种。测序数据可以积累,直到获得特定特征,例如(对于食物材料的来源特征性的序列来源)生物的属。该生物可以是食物材料的成分和/或食物材料上或食物材料中存在的病原性生物。
实施例5-空气供给中病原体的鉴定
获得空气样品。浓缩空气中的有机材料,并从该有机材料获得序列信息。随着序列信息的积累,将序列数据与预先创建索引的含有病原性生物序列的序列数据库进行比较。序列信息可以积累,直到确定了序列的特征,如与序列来源相关的特定的门、纲、目、科、属、种。例如,序列信息可以积累,直到确定了特定病原性生物的属。
以上的说明书中公开了本发明的几种方法和系统。本发明可以方法和材料的改变,以及制造方法和装置的改变。考虑本申请的公开内容或此处公开的本发明的实践,本领域技术人员将会明白这些改变。因此,本发明并非意图限于此处公开的特定实施方式,它涵盖了在本发明的真正范围和精神内的所有改变和备选方案。
此处引用的所有参考文献,包括但不限于发表的和未发表的申请、专利和文献,都在此全文引入作为参考,并且构成本说明书的一部分。如果通过参考引入的出版物和专利或专利申请与本说明书中包含的公开内容相矛盾,本说明书将代替和/或优先于任何这样的矛盾材料。
此处使用的术语“包含”与“包括”、“含有”或“特征在于”同义,是包含式的或开放式的,并且不排除额外的、未引用的要素或方法步骤。

Claims (49)

1.一种鉴定靶核酸的来源的方法,所述方法包括以下步骤:
(a)启动测序过程以确定靶核酸或其片段的核苷酸序列,由此产生靶核酸至少一部分的核苷酸序列;
(b)在终止测序过程前,比较所述靶核酸至少一部分的核苷酸序列与来自指定生物的参照核苷酸序列群,从而使用指定的阈值鉴定与所述靶核酸至少一部分的核苷酸序列相匹配的参照核苷酸序列的亚群;和
(c)确定所述参照核苷酸序列亚群是否允许充分鉴定靶核酸的来源,其中如果参照核苷酸序列亚群不允许充分鉴定靶核酸的来源,则继续测序过程并重复步骤(b)和(c),并且如果参照核苷酸序列亚群允许充分鉴定靶核酸的来源,则终止测序过程。
2.权利要求1的方法,其中在充分鉴定靶核酸的来源之后,但是在靶核酸完全测序之前,终止所述测序过程。
3.权利要求1的方法,其中所述测序过程是自动化过程。
4.权利要求1的方法,其中所述测序过程对一个靶核酸进行。
5.权利要求1的方法,其中所述测序过程对多个靶核酸同时进行。
6.权利要求5的方法,其中所述多个靶核酸包含具有不同核苷酸序列的靶核酸。
7.权利要求1的方法,其中所述测序过程在阵列表面上对多个靶核酸平行地进行。
8.权利要求7的方法,其中所述多个靶核酸包含具有不同核苷酸序列的靶核酸。
9.权利要求1的方法,其中所述靶核酸从宏基因组样品获得。
10.权利要求1的方法,其中参照核苷酸序列群内的参照核苷酸序列与所述指定生物的特定种相关联在数据库中创建索引。
11.权利要求10的方法,其中参照核苷酸序列群内的参照核苷酸序列与所述指定生物的特定亚种相关联在数据库中进一步创建索引。
12.权利要求1的方法,其中所述参照核苷酸序列群内的参照核苷酸序列与一组或多组生物相关联在数据库中创建索引。
13.权利要求1的方法,其中所述参照核苷酸序列群内的参照核苷酸序列根据与多组生物的分级相关性在数据库中创建索引。
14.权利要求13的方法,其中所述多组生物是系统发生相关的。
15.权利要求1的方法,其中所述靶核酸包含编码RuBisCo、NifH、亚硫酸还原酶、线粒体核酸或16S rRNA的核酸的至少一部分。
16.权利要求1的方法,其中所述测序过程包括基于阵列的测序。
17.权利要求1的方法,其中所述测序过程包括选自杂交测序、合成测序和连接测序的过程。
18.权利要求1的方法,其中所述靶核酸至少一部分的核苷酸序列与参照核苷酸序列群的比较使用启发式算法进行。
19.权利要求18的方法,其中所述算法包括BLAST算法或FASTA算法。
20.权利要求1的方法,其中所述指定的阈值是用户指定的阈值。
21.权利要求1的方法,其中所述阈值使用一个或多个参数确定。
22.权利要求21的方法,其中所述一个或多个参数包括核苷酸序列同一性百分比。
23.权利要求1的方法,其中如果所述参照核苷酸序列亚群内的至少指定百分比的参照核苷酸序列来自相同属的生物,则该亚群允许充分鉴定靶核酸的来源。
24.权利要求1的方法,其中如果所述参照核苷酸序列亚群内的至少指定百分比的参照核苷酸序列来自相同种的生物,则该亚群允许充分鉴定靶核酸的来源。
25.权利要求1的方法,其中如果所述参照核苷酸序列亚群内的至少指定百分比的参照核苷酸序列来自相同亚种的生物,则该亚群允许充分鉴定靶核酸的来源。
26.一种用于鉴定靶核酸的来源的系统,所述系统包括:
包含存储器的计算机,所述计算机与包含来自指定生物的参照核苷酸序列群的数据库对接;
核酸测序仪,其配置为进行测序过程以确定靶核酸或其片段的核苷酸序列,由此在所述存储器中产生靶核酸至少一部分的核苷酸序列;
与所述计算机对接的第一程序模块,其中所述第一程序模块配置为比较所述靶核酸至少一部分的核苷酸序列与参照核苷酸序列群,以在终止所述测序过程之前,使用指定的阈值鉴定与所述靶核酸至少一部分的核苷酸序列匹配的参照核苷酸序列亚群;和
与所述计算机对接的第二程序模块,其中所述第二程序模块配置为确定所述参照核苷酸序列亚群是否允许充分鉴定靶核酸的来源。
27.权利要求26的系统,其中所述第二程序模块进一步配置为如果参照核苷酸序列亚群不允许充分鉴定靶核酸的来源,则提供继续测序过程的指令。
28.权利要求26的系统,其中所述第二程序模块进一步配置为如果参照核苷酸序列亚群允许充分鉴定靶核酸的来源,则提供终止测序过程的指令。
29.权利要求28的系统,其中所述终止测序过程的指令在充分鉴定靶核酸来源之后,但是在靶核酸完全测序之前提供。
30.权利要求26的系统,其中所述第一和第二程序模块是同一程序模块。
31.权利要求26的系统,其中所述第一程序模块由所述计算机处理。
32.权利要求26的系统,其中所述第一和第二程序模块均由所述计算机处理。
33.权利要求26的系统,其中所述数据库是远程数据库。
34.权利要求26的系统,其中所述数据库是本地数据库。
35.权利要求26的系统,其中所述核酸测序仪在所述计算机的控制下。
36.权利要求26的系统,其中所述测序过程是自动化测序过程。
37.权利要求26的系统,其中所述靶核酸从宏基因组样品获得。
38.权利要求26的系统,其中所述参照核苷酸序列群内的参照核苷酸序列与所述指定生物的特定种相关联在数据库中创建索引。
39.权利要求38的系统,其中所述参照核苷酸序列群内的参照核苷酸序列与所述指定生物的特定亚种相关联在数据库中进一步创建索引。
40.权利要求26的系统,其中所述参照核苷酸序列群内的参照核苷酸序列与一组或多组生物相关联在数据库中创建索引。
41.权利要求26的系统,其中所述参照核苷酸序列群内的参照核苷酸序列根据与多组生物的分级相关性在数据库中创建索引。
42.权利要求41的系统,其中所述多组生物是系统发生相关的。
43.权利要求26的系统,其中所述靶核酸包含编码RuBisCo、NifH、亚硫酸还原酶、线粒体核酸或16S rRNA的核酸的至少一部分。
44.权利要求26的系统,其中所述测序过程包括基于阵列的测序。
45.权利要求26的系统,其中所述测序过程包括选自杂交测序、合成测序和连接测序的过程。
46.权利要求26的系统,其中所述第一程序模块配置为使用启发式算法比较所述靶核酸或其片段至少一部分的核苷酸序列与参照核苷酸序列群。
47.权利要求46的系统,其中所述算法包括BLAST算法或FASTA算法。
48.权利要求26的系统,其中所述指定的阈值是用户指定的阈值。
49.权利要求26的系统,其中所述指定的阈值是基于一个或多个参数计算的。
CN2009801543642A 2008-11-26 2009-11-24 用于分析测序数据的方法和系统 Pending CN102272763A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US11839508P 2008-11-26 2008-11-26
US61/118,395 2008-11-26
PCT/US2009/065789 WO2010062913A2 (en) 2008-11-26 2009-11-24 Methods and systems for analysis of sequencing data

Publications (1)

Publication Number Publication Date
CN102272763A true CN102272763A (zh) 2011-12-07

Family

ID=42226370

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009801543642A Pending CN102272763A (zh) 2008-11-26 2009-11-24 用于分析测序数据的方法和系统

Country Status (6)

Country Link
US (1) US20110246084A1 (zh)
EP (1) EP2359289A4 (zh)
CN (1) CN102272763A (zh)
CA (1) CA2744821A1 (zh)
SG (1) SG171421A1 (zh)
WO (1) WO2010062913A2 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105069325A (zh) * 2012-07-28 2015-11-18 盛司潼 一种对核酸序列信息进行匹配的方法
CN107111690A (zh) * 2014-12-23 2017-08-29 皇家飞利浦有限公司 用于序列对齐的系统、方法、和装置
CN112739459A (zh) * 2019-02-04 2021-04-30 伊鲁米纳公司 微流体液滴发生器

Families Citing this family (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2010326349B2 (en) 2009-12-01 2015-10-29 Oxford Nanopore Technologies Limited Biochemical analysis instrument
US8965076B2 (en) 2010-01-13 2015-02-24 Illumina, Inc. Data processing system and methods
US20120078530A1 (en) * 2010-04-13 2012-03-29 Almo Steven C Method for determining receptor-ligand pairs
EP2952590B1 (en) 2010-06-11 2017-07-26 Life Technologies Corporation Alternative nucleotide flows in sequencing-by-synthesis methods
WO2012058459A2 (en) 2010-10-27 2012-05-03 Life Technologies Corporation Predictive model for use in sequencing-by-synthesis
US10273540B2 (en) 2010-10-27 2019-04-30 Life Technologies Corporation Methods and apparatuses for estimating parameters in a predictive model for use in sequencing-by-synthesis
CA2821299C (en) 2010-11-05 2019-02-12 Frank J. Steemers Linking sequence reads using paired code tags
EP2652659B1 (en) * 2010-12-14 2020-04-15 Life Technologies Corporation Systems and methods for run-time sequencing run quality monitoring
EP2659408B1 (en) 2010-12-29 2019-03-27 Life Technologies Corporation Time-warped background signal for sequencing-by-synthesis operations
US20130060482A1 (en) 2010-12-30 2013-03-07 Life Technologies Corporation Methods, systems, and computer readable media for making base calls in nucleic acid sequencing
US10146906B2 (en) 2010-12-30 2018-12-04 Life Technologies Corporation Models for analyzing data from sequencing-by-synthesis operations
WO2012092515A2 (en) 2010-12-30 2012-07-05 Life Technologies Corporation Methods, systems, and computer readable media for nucleic acid sequencing
BR112013020411B1 (pt) 2011-02-11 2021-09-08 Oxford Nanopore Technologies Limited Monômero de msp mutante, construto, polinucleotídeo, poro, kit e aparelho para caracterizar uma sequência de ácido nucleico alvo, e, método para caracterizar uma sequência de ácido nucleico alvo
EP3366782B1 (en) 2011-04-08 2021-03-10 Life Technologies Corporation Phase-protecting reagent flow orderings for use in sequencing-by-synthesis
US20130198182A1 (en) * 2011-08-12 2013-08-01 Sanofi Method, system and program for comparing claimed antibodies with a target antibody
US20150087537A1 (en) 2011-08-31 2015-03-26 Life Technologies Corporation Methods, Systems, Computer Readable Media, and Kits for Sample Identification
US10704164B2 (en) 2011-08-31 2020-07-07 Life Technologies Corporation Methods, systems, computer readable media, and kits for sample identification
KR102118211B1 (ko) 2012-04-03 2020-06-02 일루미나, 인코포레이티드 핵산 서열분석에 유용한 통합 광전자 판독 헤드 및 유체 카트리지
US9777049B2 (en) 2012-04-10 2017-10-03 Oxford Nanopore Technologies Ltd. Mutant lysenin pores
US9646132B2 (en) 2012-05-11 2017-05-09 Life Technologies Corporation Models for analyzing data from sequencing-by-synthesis operations
US10329608B2 (en) 2012-10-10 2019-06-25 Life Technologies Corporation Methods, systems, and computer readable media for repeat sequencing
US9116139B2 (en) 2012-11-05 2015-08-25 Illumina, Inc. Sequence scheduling and sample distribution techniques
EP2970951B1 (en) 2013-03-13 2019-02-20 Illumina, Inc. Methods for nucleic acid sequencing
US20140296080A1 (en) 2013-03-14 2014-10-02 Life Technologies Corporation Methods, Systems, and Computer Readable Media for Evaluating Variant Likelihood
GB201313477D0 (en) 2013-07-29 2013-09-11 Univ Leuven Kath Nanopore biosensors for detection of proteins and nucleic acids
US9926597B2 (en) 2013-07-26 2018-03-27 Life Technologies Corporation Control nucleic acid sequences for use in sequencing-by-synthesis and methods for designing the same
US10410739B2 (en) 2013-10-04 2019-09-10 Life Technologies Corporation Methods and systems for modeling phasing effects in sequencing using termination chemistry
WO2015088913A1 (en) 2013-12-09 2015-06-18 Illumina, Inc. Methods and compositions for targeted nucleic acid sequencing
EP3137627A1 (en) 2014-05-02 2017-03-08 Oxford Nanopore Technologies Limited Method of improving the movement of a target polynucleotide with respect to a transmembrane pore
JP6723981B2 (ja) * 2014-08-14 2020-07-15 コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. 感染伝達を追跡及び特定するシステム及び方法
JP7161291B2 (ja) 2014-09-01 2022-10-26 ブイアイビー ブイゼットダブリュ 変異体ポア
WO2016051298A1 (en) * 2014-09-29 2016-04-07 Koninklijke Philips N.V. Systems and methods for identifying and flagging samples of concern.
WO2016055778A1 (en) 2014-10-07 2016-04-14 Oxford Nanopore Technologies Limited Mutant pores
WO2016060974A1 (en) 2014-10-13 2016-04-21 Life Technologies Corporation Methods, systems, and computer-readable media for accelerated base calling
CN104715165A (zh) * 2014-12-19 2015-06-17 中国石油天然气集团公司 一种基于宏基因技术的石油污染海洋生态环境评价方法
AU2016219328B2 (en) 2015-02-10 2022-04-21 Illumina, Inc. Methods and compositions for analyzing cellular components
CN107969138B (zh) 2015-05-14 2022-04-12 生命科技公司 条形码序列和有关系统与方法
US10508305B2 (en) * 2016-02-28 2019-12-17 Damoun Nashtaali DNA sequencing and processing
US10619205B2 (en) 2016-05-06 2020-04-14 Life Technologies Corporation Combinatorial barcode sequences, and related systems and methods
KR102747205B1 (ko) 2016-12-29 2024-12-31 일루미나, 인코포레이티드 세포 구획 내의 생체분자에 대한 직교 접근 및 그의 태그부착을 위한 분석 시스템
FI3645997T3 (fi) * 2017-06-29 2023-11-01 Seegene Inc Menetelmä ja laite tunnistuskoostumuksen valmisteluinsturmentin ohjaamiseksi

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5064754A (en) * 1984-12-14 1991-11-12 Mills Randell L Genomic sequencing method
US7349808B1 (en) * 2000-09-06 2008-03-25 Egenomics, Inc. System and method for tracking and controlling infections
AU2002245350A1 (en) * 2001-01-26 2002-08-06 Technology Licensing Co. Llc Methods for determining the genetic affinity of microorganisms and viruses
WO2003025198A2 (en) * 2001-09-17 2003-03-27 International Genomics, Llc Regulatory single nucleotide polymorphisms and methods therefor
US20030200033A1 (en) * 2002-04-12 2003-10-23 Jonathan Segal High-throughput alignment methods for extension and discovery
US20060210967A1 (en) * 2004-07-02 2006-09-21 Agan Brian K Re-sequencing pathogen microarray
US7424371B2 (en) * 2004-12-21 2008-09-09 Helicos Biosciences Corporation Nucleic acid analysis
US8116988B2 (en) * 2006-05-19 2012-02-14 The University Of Chicago Method for indexing nucleic acid sequences for computer based searching
US7822782B2 (en) * 2006-09-21 2010-10-26 The University Of Houston System Application package to automatically identify some single stranded RNA viruses from characteristic residues of capsid protein or nucleotide sequences

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105069325A (zh) * 2012-07-28 2015-11-18 盛司潼 一种对核酸序列信息进行匹配的方法
CN105069325B (zh) * 2012-07-28 2018-10-09 盛司潼 一种对核酸序列信息进行匹配的方法
CN107111690A (zh) * 2014-12-23 2017-08-29 皇家飞利浦有限公司 用于序列对齐的系统、方法、和装置
CN112739459A (zh) * 2019-02-04 2021-04-30 伊鲁米纳公司 微流体液滴发生器
US11602722B2 (en) 2019-02-04 2023-03-14 Illumina, Inc. Microfluidic droplet generators

Also Published As

Publication number Publication date
US20110246084A1 (en) 2011-10-06
EP2359289A2 (en) 2011-08-24
WO2010062913A2 (en) 2010-06-03
EP2359289A4 (en) 2015-11-11
WO2010062913A3 (en) 2010-08-19
SG171421A1 (en) 2011-07-28
CA2744821A1 (en) 2010-06-03

Similar Documents

Publication Publication Date Title
CN102272763A (zh) 用于分析测序数据的方法和系统
Bharti et al. Current challenges and best-practice protocols for microbiome analysis
Tse et al. Genome-wide detection of cytosine methylation by single molecule real-time sequencing
Reif et al. Experimental construction of very large scale DNA databases with associative search capability
US20120102054A1 (en) Systems and Methods for Annotating Biomolecule Data
US9222134B2 (en) Molecule detection system on a solid support
Spinks et al. Assessing what is needed to resolve a molecular phylogeny: simulations and empirical data from emydid turtles
CN103168118A (zh) 用减少数量的转录物测量进行的基因表达概况分析
CN105154544A (zh) 基于基因检测的生物体身份认证方法及系统
Ntushelo Identifying bacteria and studying bacterial diversity using the 16S ribosomal RNA gene-based sequencing techniques: A review
Low et al. Introduction to next generation sequencing technologies
CN111549146A (zh) 一种两栖动物线粒体通用宏条形码扩增引物及其应用方法
Singh et al. Exome sequencing and advances in crop improvement
Shetty et al. Introduction to nucleic acid sequencing
US20240170101A1 (en) Spectral correlation analysis of layered evolutionary signals
Nair et al. Analyses of expressed sequence tags from Chironomus riparius using pyrosequencing: molecular ecotoxicology perspective
Kaikabo et al. Concepts of bioinformatics and its application in veterinary research and vaccines development
Silva et al. Transcriptome Analysis Using RNA-seq and scRNA-seq
Geli-Cruz et al. Benchmarking assembly free nanopore read mappers to classify complex millipede gut microbiota via Oxford Nanopore Sequencing Technology
Tyagi et al. Metagenomics, Microbial Diversity, and Environmental Cleanup
Zhang et al. Genotyping by alkaline dehybridization using graphically encoded particles
Thangadurai The Human Genome Project: the role of analytical chemists
Dongare et al. Harnessing Genetic Code: Futuristic Approach of Next-Generation Sequencing for Sustainable Future
Danjuma et al. Role of Next Generation Sequencing in Biomolecular Sciences: A Review
Ogundolie et al. Microbiome characterization and identification: key emphasis on molecular approaches

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20111207