[go: up one dir, main page]

CN119317964A - 碱基检出对流通池倾斜的依赖 - Google Patents

碱基检出对流通池倾斜的依赖 Download PDF

Info

Publication number
CN119317964A
CN119317964A CN202380044723.9A CN202380044723A CN119317964A CN 119317964 A CN119317964 A CN 119317964A CN 202380044723 A CN202380044723 A CN 202380044723A CN 119317964 A CN119317964 A CN 119317964A
Authority
CN
China
Prior art keywords
focus
base
image
equalizer
implementations
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202380044723.9A
Other languages
English (en)
Inventor
S·洪
M·加拉斯比
M·萧
J·高
A·杜塔
A·卡鲁纳卡兰
S·普兰斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inmair Ltd
Original Assignee
Inmair Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inmair Ltd filed Critical Inmair Ltd
Publication of CN119317964A publication Critical patent/CN119317964A/zh
Pending legal-status Critical Current

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • C12Q1/6874Methods for sequencing involving nucleic acid arrays, e.g. sequencing by hybridisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/10Signal processing, e.g. from mass spectrometry [MS] or from PCR
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Organic Chemistry (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Molecular Biology (AREA)
  • Zoology (AREA)
  • Analytical Chemistry (AREA)
  • Wood Science & Technology (AREA)
  • Artificial Intelligence (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Signal Processing (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Microbiology (AREA)
  • Immunology (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Genetics & Genomics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

在边合成边测序期间,流通池的倾斜和该流通池的平坦度变化引入了离焦。使用与碱基检出对流通池倾斜的依赖相关的技术,降低了该离焦的影响并且提高了碱基检出质量。例如,在整个流通池内测量流通池表面高度。在该测序期间,任选地自适应地一次或多次设定具有用于测序的传感器的成像器的焦点高度。将由该传感器捕获的每个图像例如基于焦点高度与跨该传感器的区域的测量流通池表面高度之间的差来进行分区。至少部分地基于该焦点高度与该图像的正针对离焦被校正的特定区域处的测量流通池表面高度之间的差来选择例如与离焦校正相关的滤波器。

Description

碱基检出对流通池倾斜的依赖
相关申请的交叉引用
本申请要求2022年6月9日提交的美国临时专利申请第63/350,776号的权益,该临时专利申请的全部公开内容特此以引用方式全文并入本文。
技术领域
本发明所公开的技术涉及通过对遗传序列的许多核苷酸进行并行碱基检出来并行确定遗传序列的边合成边测序。碱基检出通过依赖于保留遗传物质的部分的流通池的聚焦/倾斜来增强。碱基检出增强是相对于图像处理而言的。
引用合并
以下文献以引用方式并入,即如同在本文完整示出一样,以用于所有目的:
2013年4月16日提交的名称为“Focusing Methods and Optical Systems andAssemblies Using the Same”的美国非临时专利第U.S.8,422,031B2号。
2018年3月26日提交的名称为“DETECTION APPARATUS.HAVING AMICROFLUOROMETER,A FLUIDIC SYSTEM,AND A FLOW CELL LATCH CLAMP MODULE”的美国非临时申请第15/936,365号;
2019年9月11日提交的名称为“FLOW CELLS AND METHODS RELATED TO SAME”的美国非临时专利申请第16/567,224号;
2019年6月12日提交的名称为“DEVICE FOR LUMINESCENT IMAGING”的美国非临时专利申请第16/439,635号;
2017年5月12日提交的名称为“INTEGRATED OPTOELECTRONIC READ HEAD ANDFLUIDIC CARTRIDGE USEFUL FOR NUCLEIC ACID SEQUENCING”的美国非临时专利申请第15/594,413号;
2019年3月12日提交的名称为“ILLUMINATION FOR FLUORESCENCE IMAGING USINGOBJECTIVE LENS”的美国非临时专利申请第16/351,193号;
2009年12月15日提交的名称为“DYNAMIC AUTOFOCUS METHOD AND SYSTEM FORASSAY IMAGER”的美国非临时专利申请第12/638,770号;
2013年3月1日提交的名称为“KINETIC EXCLUSION AMPLIFICATION OF NUCLEICACID LIBRARIES”的美国非临时专利申请第13/783,43号;
2011年1月13日提交的名称为“DATA PROCESSING SYSTEM AND METHODS”的美国非临时专利申请第13/006,206号;
2014年10月31日提交的名称为“IMAGE ANALYSIS USEFUL FOR PATTERNEDOBJECTS”的美国非临时专利申请第14/530,299号;
2014年12月3日提交的名称为“METHODS AND SYSTEMS FOR ANALYZING IMAGEDATA”的美国非临时专利申请第15/153,953号;
2013年9月6日提交的名称为“CENTROID MARKERS FOR IMAGE ANALYSIS OF HIGHDENSITY CLUSTERS IN COMPLEX POLYNUCLEOTIDE SEQUENCING”的美国非临时专利申请第14/20,570号;
2014年10月31日提交的名称为“IMAGE ANALYSIS USEFUL FOR PATTERNEDOBJECTS”的美国非临时专利申请第14/530,299号;
2009年9月23日提交的名称为“METHOD AND SYSTEM FOR DETERMINING THEACCURACY OF DNA BASE IDENTIFICATIONS”的美国非临时专利申请第12/565,341号;
2007年3月30日提交的名称为“SYSTEMS AND DEVICES FOR SEQUENCE BYSYNTHESIS ANALYSIS”的美国非临时专利申请第12/295,337号;
2008年1月28日提交的名称为“IMAGE DATA EFFICIENT GENETIC SEQUENCINGMETHOD AND SYSTEM”的美国非临时专利申请第12/20,739号;
2013年3月15日提交的名称为“BIOSENSORS FOR BIOLOGICAL OR CHEMICALANALYSIS AND SYSTEMS AND METHODS FOR SAME”的美国非临时专利申请第13/833,619号(代理人案卷号IP-0626-US);
2016年6月7日提交的名称为“BIOSENSORS FOR BIOLOGICAL OR CHEMICALANALYSIS AND METHODS OF MANUFACTURING THE SAME”的美国非临时专利申请第15/175,489号(代理人案卷号IP-0689-US);
2013年4月26日提交的名称为“MICRODEVICES AND BIOSENSOR CARTRIDGES FORBIOLOGICAL OR CHEMICAL ANALYSIS AND SYSTEMS AND METHODS FOR THE SAME”的美国非临时专利申请第13/882,088号(代理人案卷号IP-0462-US);
2012年9月21日提交的名称为“METHODS AND COMPOSITIONS FOR NUCLEIC ACIDSEQUENCING”的美国非临时专利申请第13/624,200号(代理人案卷号IP-0538-US);
2021年5月4日提交的名称为“EQUALIZATION-BASED IMAGE PROCESSING ANDSPATIAL CROSSTALK ATTENUATOR”的美国非临时专利申请第17/308,35号(代理人案卷号ILLM 1032-2/IP-1991-US)。
2019年3月21日提交的名称为“Training Data Generation for ArtificialIntelligence-Based Sequencing”的美国临时专利申请第62/821,602号(代理人案卷号ILLM 1008-1/IP-1693-PRV);
2019年3月21日提交的名称为“Artificial Intelligence-Based Generation ofSequencing Metadata”的美国临时专利申请第62/821,618号(代理人案卷号ILLM 1008-3/IP-1741-PRV);
2019年3月21日提交的名称为“Artificial Intelligence-Based Base Calling”的美国临时专利申请第62/821,681号(代理人案卷号ILLM 1008-4/IP-1744-PRV);
2019年3月21日提交的名称为“Artificial Intelligence-Based QualityScoring”的美国临时专利申请第62/821,724号(代理人案卷号ILLM 1008-7/IP-1747-PRV);
2019年3月21日提交的名称为“Artificial Intelligence-Based Sequencing”的美国临时专利申请第62/821,766号(代理人案卷号ILLM 1008-9/IP-1752-PRV);
2019年6月14日提交的名称为“Training Data Generation for ArtificialIntelligence-Based Sequencing”的荷兰专利申请第2023310号(代理人案卷号ILLM1008-11/IP-1693-NL);
2019年6月14日提交的名称为“Artificial Intelligence-Based Generation ofSequencing Metadata”的荷兰专利申请第2023311号(代理人案卷号ILLM 1008-12/IP-1741-NL);
2019年6月14日提交的名称为“Artificial Intelligence-Based Base Calling”的荷兰专利申请第2023312号(代理人案卷号ILLM 1008-13/IP-1744-NL);
2019年6月14日提交的名称为“Artificial Intelligence-Based QualityScoring”的荷兰专利申请第2023314号(代理人案卷号ILLM 1008-14/IP-1747-NL);以及
2019年6月14日提交的名称为“Artificial Intelligence-Based Sequencing”的荷兰专利申请第2023316号(代理人案卷号ILLM 1008-15/IP-1752-NL)。
2020年3月20日提交的名称为“Training Data Generation for ArtificialIntelligence-Based Sequencing”的美国非临时专利申请第16/825,987号(代理人案卷号ILLM 1008-16/IP-1693-US);
2020年3月20日提交的名称为“Training Data Generation for ArtificialIntelligence-Based Sequencing”的美国非临时专利申请第16/825,991号(代理人案卷号ILLM 1008-17/IP-1741-US);
2020年3月20日提交的名称为“Artificial Intelligence-Based Base Calling”的美国非临时专利申请第16/826,126号(代理人案卷号ILLM 1008-18/IP-1744-US);
2020年3月20日提交的名称为“Artificial Intelligence-Based QualityScoring”的美国非临时专利申请第16/826,134号(代理人案卷号ILLM 1008-19/IP-1747-US);
2020年3月21日提交的名称为“Artificial Intelligence-Based Sequencing”的美国非临时专利申请第16/826,168号(代理人案卷号ILLM 1008-20/IP-1752-PRV);
2021年10月26日提交的名称为“Intensity Extraction with Interpolationand Adaptation for Base Calling”的美国非临时专利申请第17/511,483号(代理人案卷号ILLM 1053-1/IP-2214-US);
2022年3月4日提交的名称为“Artificial Intelligence-Based Base Callerwith Contextual Awareness”的美国非临时专利申请第17/687,586号(代理人案卷号ILLM1033-2/IP-2007-US);
2020年3月30日提交的名称为“Artificial Intelligence-Based Base Calling”的美国非临时专利申请第16/826,126号(代理人案卷号ILLM 1008-18/IP-1744-US);
2019年3月1日提交的名称为“Solid Inspection Apparatus and Method ofUse”的美国非临时专利第10,830,700B2号;
2021年2月18日提交的名称为“Data Compression for ArtificialIntelligence-Based Base Calling”的美国非临时专利申请第17/179,395号(代理人案卷号ILLM 1029-2/IP-1964-US);
2021年2月19日提交的名称为“Split Architecture for ArtificialIntelligence-Based Base Caller”的美国非临时专利申请第17/180,480号(代理人案卷号ILLM 1030-2/IP-1982-US);
2021年2月19日提交的名称为“Bus Network for Artificial Intelligence-Based Base Caller”的美国非临时专利申请第17/180,513号(代理人案卷号ILLM 1031-2/IP-1965-US);
2019年5月16日提交的名称为“Systems and Devices for Characterizationand Performance Analysis of Pixel-Based Sequencing”的美国临时专利申请第62/849,091号(代理人案卷号ILLM 1011-1/IP-1750-PRV);
2019年5月16日提交的名称为“Base Calling Using Convolutions”的美国临时专利申请第62/849,132号(代理人案卷号ILLM 1011-2/IP-1750-PR2);
2019年5月16日提交的名称为“Base Calling Using Compact Convolutions”的美国临时专利申请第62/849,133号(代理人案卷号ILLM 1011-3/IP-1750-PR3);
2020年2月20日提交的名称为“Artificial Intelligence-Based Base Callingof Index Sequences”的美国临时专利申请第62/979,384号(代理人案卷号ILLM 1015-1/IP-1857-PRV);
2020年2月20日提交的名称为“Artificial Intelligence-Based Many-To-ManyBase Calling”的美国临时专利申请第62/979,414号(代理人案卷号ILLM 1016-1/IP-1858-PRV);
2020年2月20日提交的名称为“Knowledge Distillation-Based Compression ofArtificial Intelligence-Based Base Caller”的美国临时专利申请第62/979,385号(代理人案卷号ILLM 1017-1/IP-1859-PRV);
2020年2月20日提交的名称为“Multi-Cycle Cluster Based Real TimeAnalysis System”的美国临时专利申请第62/979,412号(代理人案卷号ILLM 1020-1/IP-1866-PRV);
2020年2月20日提交的名称为“Data Compression for ArtificialIntelligence-Based Base Calling”的美国临时专利申请第62/979,411号(代理人案卷号ILLM 1029-1/IP-1964-PRV);
2020年2月20日提交的名称为“Squeezing Layer for ArtificialIntelligence-Based Base Calling”的美国临时专利申请第62/979,399号(代理人案卷号ILLM 1030-1/IP-1982-PRV);
2021年8月3日提交的名称为“Self-Learned Base Caller”的美国临时专利申请第63/228,954号(代理人案卷号ILLM 1021-1/IP-1856-PRV);
2022年1月18日提交的名称为“Dynamic Detilt Focus Tracking”的美国临时申请第63/300,531号(代理人案卷号IP-2205-PRV);以及
2020年8月28日提交的名称为“Detecting and Filtering Clusters Based onArtificial Intelligence-Predicted Base Calls”的美国临时专利申请第63/072,032号(代理人案卷号ILLM 1018-1/IP-1860-PRV)。
整体并入
与本临时专利申请一起提交的以下文档完全并入本临时专利申请,并且应当被认为是本临时专利申请的一部分:
附录,37页。
背景技术
本部分中讨论的主题不应当仅因为在本部分中有提及就被认为是现有技术。类似地,在本部分中提及的或与作为背景技术提供的主题相关联的问题不应当被认为先前在现有技术中已被认识到。本部分中的主题仅表示不同的方法,这些方法本身也可对应于受权利要求书保护的技术的具体实施。
生物或化学研究中的各种方案涉及在局部支撑表面上或在预定义的反应室内进行大量受控反应。然后可观察或检测到期望反应,并且随后的分析可有助于标识或揭示该反应中所涉及的化学物质的特性。例如,在一些多重测定中,具有可标识标签(例如,荧光标签)的未知分析物可在受控条件下暴露于数千种已知探针。可将每种已知探针放入微孔板的对应孔中。观察孔内的已知探针与未知分析物之间发生的任何化学反应可有助于标识或揭示分析物的特性。此类方案的其他示例包括已知的DNA测序过程,诸如边合成边测序或循环阵列测序。在循环阵列测序中,通过酶促操作的反复循环来对DNA特征(例如,模板核酸)的密集阵列进行测序。在每个循环之后,可捕获图像并随后将该图像与其他图像一起分析以确定DNA特征的序列。
作为第一具体示例,一种已知的DNA测序系统使用焦磷酸测序过程,并且包括具有熔接光纤面板的芯片,该光纤面板具有数百万个孔。将具有从感兴趣的基因组克隆扩增的sstDNA的单个捕获珠粒放入每个孔中。在将捕获珠粒放入孔中之后,通过使包含特定核苷酸的溶液沿着面板流动而将核苷酸按顺序添加到孔。孔内的环境使得如果流过特定孔的核苷酸与对应捕获珠粒上的DNA链互补,则该核苷酸被添加到DNA链。DNA链的群体(colony)被称为簇。核苷酸结合到簇中引发了最终生成化学发光的光信号的过程。该系统包括CCD相机,该相机定位在与面板直接相邻的位置并且被配置为检测来自孔中的DNA簇的光信号。对在整个焦磷酸测序过程中拍摄的图像的后续分析可确定感兴趣的基因组的序列。
然而,除了其他系统之外,上述焦磷酸测序系统可能具有某些限制。例如,光纤面板被酸蚀刻以形成数百万个小孔。尽管这些孔可彼此近似地间隔开,却难以知道一个孔相对于其他相邻孔的精确位置。当CCD相机定位在与面板直接相邻的位置时,孔沿着CCD相机的像素不均匀分布,因此,孔不以已知的方式与像素对准。空间串扰是相邻孔之间的孔间串扰,并且使得在随后的分析中难以将来自感兴趣孔的真实光信号与其他不需要的光信号区分开。而且,荧光发射是基本上各向同性的。随着分析物的密度增加,管理或解决来自相邻分析物的不需要的光发射(例如,串扰)变得越来越具有挑战性。因此,必须仔细分析在测序循环期间记录的数据。
作为与边合成边测序相关的第二具体示例,确定与DNA、RNA、蛋白质和/或具有碱基序列的其他遗传物质的样本相关联的遗传序列。遗传序列用于许多目的,包括疾病的诊断和治疗。
作为与边合成边测序相关的第三具体示例,流通池的倾斜和/或非平面性引入跨流通池的聚焦变化。聚焦和/或倾斜调整技术使得一些测序成像能够经由以下方式进行:为整个样本建立最佳拟合平面,使得整个样本保持在光学成像系统的DoF内。然而,诸如由于数值孔径(NA)的增大,可用DoF减小。因此,倾斜和/或高度的全局和/或局部变化导致样本的部分偏离到DoF之外,从而导致离焦的图像部分并且因此导致数据质量的下降和/或数据的丢失。因此,碱基检出准确性降低。
边合成边测序是一种用于确定遗传序列的并行技术,并且一次对样本的大量寡核苷酸(有时被称为寡聚物)进行并行操作,针对寡聚物中的每个寡聚物,一次一个碱基位置。边合成边测序的一些具体实施通过在基板(诸如载玻片和/或流通池)上克隆寡聚物进行操作,这些寡聚物例如布置在多个槽道中并且在每个槽道中作为相应区块进行成像。在一些具体实施中,克隆被布置来诸如优先诸如在图案化流通池的相应纳米孔中将多个起始寡聚物中的每个起始寡聚物克隆成寡聚物的相应簇。
边合成边测序在一系列测序循环(有时简称为循环)中进行。在每个测序循环中,存在化学反应、图像捕获和碱基检出动作。这些动作的结果是针对寡聚物中的每个寡聚物并行确定的碱基(例如,四个氨基酸:腺嘌呤(A)、鸟嘌呤(G)、胸腺嘧啶(T)和胞嘧啶(C)中的一者)。化学反应动作被设计为在每个循环中向每个簇中的每个克隆物(例如,寡聚物)添加一个染料标记的互补核苷酸(有时被称为荧光团)。图像捕获动作通常使成像器(例如,相机)相对于流通池的槽道的区块聚焦和对准,照射该区块(例如,利用一个或多个激光器)以刺激荧光团发荧光,并且捕获荧光的多个图像(例如,一至四个图像,每个图像对应于该区块并且各自具有不同波长)。碱基检出动作导致标识针对每个寡聚物并行确定的碱基(例如,A、G、T和C中的一者)。在一些具体实施中,图像捕获动作对应于离散的对准拍摄(point-and-shoot)操作,例如,将成像器和流通池相对于彼此移动,然后针对区块执行图像捕获动作。在一些具体实施中,图像捕获动作对应于连续扫描操作,例如,成像器和流通池相对于彼此连续移动并且在移动期间执行图像捕获。在各种连续扫描具体实施中,区块对应于样本的任何连续区域。
边合成边测序的一些具体实施使用荧光标记的核苷酸(诸如荧光标记的脱氧核糖核苷三磷酸(dNTP))作为荧光团。在每个测序循环期间,将单个荧光团并行添加到每个寡聚物。激发源诸如激光器刺激许多荧光团并行发荧光,并且经由一个或多个成像操作并行地对发荧光的荧光团进行成像。当在测序循环中添加的荧光团的成像完成时,将在测序循环中添加的荧光团移除和/或使其失活,并且测序前进到下一个测序循环。在下一个测序循环期间,将下一个单个荧光团并行添加到寡聚物中的每个寡聚物,激发源刺激在下一个测序循环中添加的许多荧光团并行发荧光,并且经由一个或多个成像操作对发荧光的荧光团进行并行成像。基于寡聚物中有多少碱基和/或其他终止条件,按需重复测序循环。
碱基检出的准确性对于高通量DNA测序和下游分析(诸如读段映射和基因组组装)至关重要。在各种场景中,流通池保持器或流通池或其元件(例如,流通池的玻璃/基板和/或流通池的图案化纳米孔)导致引起非最佳聚焦的倾斜和/或高度。在一些具体实施中,相邻簇之间的空间串扰和/或诸如由于流通池的倾斜和/或平坦度变化引起的聚焦变化是大部分测序误差的来源。因此,通过解决和/或校正簇强度数据中的空间串扰,和/或通过解决和/或校正诸如由于相对于图像的倾斜和/或非平面性引起的聚焦变化,有机会减少DNA测序误差和改善碱基检出准确性。
发明内容
本发明所公开的技术涉及通过对遗传序列的许多核苷酸进行并行碱基检出来确定遗传序列的边合成边测序。流通池保留遗传物质的部分。在该测序期间,流通池的倾斜和该流通池的平坦度变化引入了离焦。使用与碱基检出对流通池倾斜的依赖相关的技术,降低了该离焦的影响并且提高了碱基检出质量。例如,在整个流通池内测量流通池表面高度。在该测序期间,任选地自适应地一次或多次设定具有用于测序的传感器的成像器的焦点高度。将由该传感器捕获的每个图像例如基于焦点高度与跨该传感器的区域的测量流通池表面高度之间的差来进行分区。至少部分地基于该焦点高度与该图像的正针对离焦被校正的特定区域处的测量流通池表面高度之间的差来选择例如与离焦校正相关的滤波器。使用所选择的滤波器执行离焦校正,并且使用所得图像信息来执行碱基检出。
附图说明
本专利或专利申请文件包含至少一幅彩色附图。具有彩色附图的本专利或本专利申请公布的副本将在提出请求并支付必要费用后由专利局提供。彩色附图也可经由补充内容选项卡在PAIR中获得。
在附图中,在所有不同视图中,类似的参考符号通常是指类似的部件。另外,附图未必按比例绘制,而是总体上重点说明本发明所公开的技术的原理。在以下描述中,参考以下附图描述了本发明所公开的技术的各种具体实施,其中:
图1AA例示了碱基检出对流通池倾斜的依赖的示例。
图1AB例示了与如图1AA所描绘的碱基检出对流通池倾斜的依赖的示例相关的操作。
图1AC总体上例示了用于对流通池进行成像的元件,包括与流通池倾斜相关的所选择的细节。
图1AD例示了与流通池倾斜相关的所选择的细节。
图1AE例示了与流通池的非平面性相关的所选择的细节。
图1A示出了通过训练均衡器来生成查找表(LUT)/均衡器滤波器的一个具体实施。
图1B描绘了使用图1A的LUT/均衡器滤波器来衰减来自传感器像素的空间串扰以及使用串扰校正的传感器像素对簇进行碱基检出的一个具体实施。
图2可视化了包含流通池上的至少五个簇/孔的中心/点源的测序图像的一个示例。
图3可视化了从图2的测序图像提取像素补片(黄色),使得目标簇1(蓝色)的中心被包含在该像素补片的中心像素中的一个示例。
图4可视化了簇到像素信号的一个示例。
图5可视化了簇到像素信号重叠的一个示例。
图6可视化了簇信号模式的一个示例。
图7可视化了用于衰减来自图3的像素补片的空间串扰的子像素LUT网格的一个示例。
图8示出了基于簇/孔中心在像素内的子像素位置从图1B的LUT库中选择LUT/均衡器滤波器。
图9例示了一个具体实施,其中目标簇1(蓝色)的中心基本上不与像素的中心同心。
图10描绘了在所选择的LUT的集合之间进行插值并生成相应LUT权重的一个具体实施。
图11示出了使用LUT 12、7、8和13的计算出的权重来生成权重核的权重核生成器。
图12示出了逐元素乘法器将权重核的插值像素系数逐元素地与像素补片中的像素的强度值相乘,然后将乘法的中间乘积求和以产生输出。
图13A、图13B、图13C、图13D、图13E和图13F示出了LUT 12、7、8和13的系数的示例。
图14A描绘了权重核的一个示例。
图14B和图14C例示了由权重核生成器使用以从LUT 12、7、8和13的计算出的权重生成权重核的权重核生成逻辑的一个示例。
图15A和图15B展示了权重核的插值像素系数如何最大化信噪比并且从被来自簇2、3、4和5的串扰破坏的信号中恢复目标簇1的底层信号。
图16示出了逐碱基高斯拟合的一个具体实施,这些拟合在其中心处包含在训练期间用作误差计算的地面真值的逐碱基强度目标。
图17A是示例计算机系统的框图。
图17B例示了实现依赖于流通池倾斜的碱基检出的各方面的训练和生产元件。
图18示出了可用于训练均衡器的自适应均衡技术的一个具体实施。
图19A、图19B、图19C和图19D例示了本发明所公开的技术的各种性能度量。
图20A例示了基准示例。
图20B例示了各种聚焦上下文中的示例基准。
图20C例示了离散函数的示例互相关关系式。
图20D例示了示例评分关系式。
具体实施方式
呈现以下讨论以使得本领域的任何技术人员能够实现和使用本发明所公开的技术,并且在一个或多个特定应用及其相关联要求的上下文中提供以下讨论。对本发明所公开的具体实施的各种修改对于本领域的技术人员而言将是显而易见的,并且在不脱离本发明所公开的技术的实质和范围的情况下,本文所定义的一般原理可适用于其他具体实施和应用。因此,本发明所公开的技术并非旨在限于所公开的具体实施,而是旨在符合与本文所公开的原理和特征一致的最广范围。
以下参考附图进行详细描述。描述示例具体实施是为了例示本发明所公开的技术,而不是限制其范围,其范围由权利要求书限定。本领域的普通技术人员将认识到关于以下描述的多种等效变型。
所选择的术语的示例
根据具体实施,均衡器(例如,空间均衡器)的元件(诸如能够进行卷积、能够执行卷积和/或能够管理查找表信息的元件)以及层、损失函数和/或目标函数不同地对应于一个或多个硬件元件、一个或多个软件元件和/或硬件元件与软件元件的各种组合。对于第一示例,卷积元件(诸如N×M×D卷积元件)被实现为包括在专用集成电路(ASIC)中的硬件逻辑电路。对于第二示例,多个卷积层在因特网连接的服务器的集合上的TensorFlow机器学习框架中实现。对于第三示例,空间均衡器的第一一个或多个部分(诸如一个或多个卷积层)分别根据第一示例在硬件逻辑电路中实现,并且空间均衡器的第二一个或多个部分(诸如一个或多个卷积层)根据第二示例在因特网连接的服务器的集合上实现。设想到使用硬件元件和软件元件的各种组合来提供对应的价格点和性能点的各种具体实施。
实时分析(RTA)架构(例如均衡器,诸如空间均衡器)的示例具体实施包括根据RTA架构共同执行操作的软件元件和/或硬件元件的各种集合。各种RTA具体实施根据机器学习框架、编程语言、运行时系统、操作系统和底层硬件资源而变化。底层硬件资源不同地包括一个或多个计算机系统,诸如具有中央处理单元(CPU)、图形处理单元(GPU)、现场可编程门阵列(FPGA)、粗粒度可重构架构(FIELD)、专用集成电路(ASIC)、专用指令集处理器(ASIP)和数字信号处理器(DSP)的任何组合,以及一般的计算系统,例如,能够执行经由编程语言指定的编程指令的元件。各种RTA具体实施能够在非暂态计算机可读介质上存储编程信息(诸如代码和数据),并且进一步能够根据实现RTA架构的程序执行代码和引用数据。
编程语言、代码和/或数据库、和/或可用于实现碱基检出对流通池倾斜的依赖的(诸如与表达信号处理函数(例如,均衡和/或期望最大化)相关的)技术的操作环境的示例包括Python、Numpy、R、Java、Javascript、C#、C++、Julia、Shell、Go、TypeScript和Scala。
图像收集的示例是使用成像器来同时捕获由多个荧光标记的核苷酸在核苷酸响应于激发能量(诸如激光器激发能量)而发荧光时发射的光作为所收集图像。图像具有一个或多个维度,例如,一行像素或二维像素阵列。这些像素根据一个或多个值来表示。对于第一示例,每个像素由表示像素的强度(诸如灰度级)的单个整数(诸如8位整数)表示。对于第二示例,每个像素由多个整数(诸如三个24位整数)表示,并且这些整数中的每个整数表示根据相应波长带(诸如相应颜色)的像素的强度。
对焦的示例是正被成像的元素(例如,流通池的区块或流通池的部分)标称上与成像器的焦点平面重合,使得该元件在成像器的景深(DoF)内。对焦对应于元素的标称最大清楚度或标称最大清晰度。过焦的示例是元素在焦点平面上方,使得元素在DoF上方(例如,元素离成像器太近而无法对焦)。欠焦的示例是元素在焦点平面下方,使得元素在DoF下方(例如,元素离成像器太远而无法对焦)。
碱基检出对流通池倾斜的依赖
在本公开中,描述了训练上下文和生产上下文。在一些具体实施中,在训练上下文中使用实验室仪器(有时被称为生物测序仪器),并且并且在生产上下文中使用生产仪器(有时也被称为生物测序仪器)。在一些具体实施中,在训练上下文中使用实验室仪器以及生产仪器。训练上下文和生产上下文实现各种RTA相关处理(诸如涉及实现碱基检出对流通池倾斜的依赖的一个或多个均衡器函数)。在各种具体实施中,训练上下文的RTA相关处理的所有或任何部分在实验室仪器中的任何一个或多个实验室仪器、生产仪器中的任何一个或多个生产仪器和/或与实验室仪器和生产仪器分离的任何一个或多个计算机系统上不同地实现。在各种具体实施中,生产上下文的RTA相关处理的所有或任何部分在实验室仪器中的任何一个或多个实验室仪器、生产仪器中的任何一个或多个生产仪器和/或与实验室仪器和生产仪器分离的任何一个或多个计算机系统(诸如一个或多个服务器)上不同地实现。在各种具体实施中,实验室仪器的RTA相关处理的所有或任何部分由实验室仪器的一个或多个计算机系统执行。类似地,在各种具体实施中,生产仪器的RTA相关处理的所有或任何部分由生产仪器的一个或多个计算机系统执行。在各种具体实施中,实验室仪器的所有或任何部分主要用于图像收集,并且相关联训练上下文的RTA相关处理在与主要用于图像收集的实验室仪器分离的一个或多个计算机系统上执行。
碱基检出对流通池倾斜的依赖实现增强的边合成边测序,该增强的边合成边测序以与忽略流通池倾斜相比提高的准确性来确定遗传物质中的碱基序列。继而,提高的准确性实现提高的性能和/或降低的成本。边合成边测序针对附着到流通池的所有或任何部分的多个寡聚物中的每个寡聚物一次一个碱基并行进行。对多个寡聚物的每个相应碱基的处理包括:对流通池的区块进行成像以及使用依赖于流通池倾斜的碱基检出,以提高碱基检出的准确性。
回顾一下,边合成边测序部分地通过捕获和处理图像(例如,流通池的区块)来进行。考虑捕获流通池的一部分的图像的成像器,该图像具有多个部分。在一些场景中,在图像捕获期间使用的聚焦技术使这些部分中的一个部分清晰对焦,但由于有限的DoF和这些部分与成像器相距不同距离,一个或多个其他部分并不清晰对焦。在一些情况下,这些部分与成像器相距不同距离,因为流通池相对于成像器光学平面倾斜和/或流通池不是均匀平坦的(例如,不是均匀平面的)并且因此具有不同高度。倾斜和/或缺乏均匀平坦度导致单个图像的各部分之间、不同图像之间以及不同流通池的图像之间的聚焦的不均匀性。在一些场景中,聚焦的不均匀性导致碱基检出准确性的降低。
不同地,倾斜与成像器的扫描方向一致,与扫描方向正交,或与相对于扫描方向的任意角度斜对。不同地,倾斜是跨流通池基本上均匀的,跨流通池基本上可变的,或跨流通池在相对均匀和相对变化之间可变的。在各种场景中,流通池非平面性随着上述倾斜变化而变化。在一些具体实施中,倾斜被视为向量,具有量值(例如,存在多少倾斜)以及方向(例如,倾斜朝向哪个方向)。相反,高度是仅具有量值的标量(例如,流通池表面上的点与成像器图像平面相距多远)。在一些具体实施中,流通池表面的两个相应点处的两个高度测量可用于作为具有量值和方向的向量确定倾斜。
回顾一下,流通池相对于光学平面的倾斜由于流通池的不同位置与光学平面之间的不同距离而影响聚焦。对于第一示例,中心部分清晰对焦,并且边缘部分不清晰对焦。对于第二示例,中心部分清晰对焦,第一边缘部分过焦,并且与第一边缘部分正交相对定位的第二边缘部分欠焦。其他示例的特征在于各种部分对焦、过焦和欠焦。流通池制造出来便具有不同的平坦度公差。因此,在一些场景中,上述聚焦可变性部分地是由于流通池是不完全平坦的。此外,流通池的平坦度在各种流通池之间以及在单个流通池内变化。因此,在一些场景中,倾斜从一个流通池到另一个流通池以及从流通池的一个区块到流通池的另一个区块变化。
在一些情况下,减小流通池平坦度公差使得能够降低流通池的成本。减小的流通池平坦度增加了最大倾斜和/或倾斜可变性。在一些情况下,增加生产碱基检出通量需要增加流通池上的簇密度。在一些情况下,增加的簇密度导致DoF的减小(诸如由于增大的NA),因此增加了倾斜和/或流通池非平面性的影响。在一些情况下,增加的簇密度增加了光学串扰,因此增加了执行准确的碱基检出的难度。
一些成像器和/或成像系统能够测量和/或确定流通池的倾斜和/或高度。对于第一示例,多点聚焦跟踪器测量图像平面中的多个位置处的离焦。处理离焦测量以确定多个位置处的倾斜。对于第二示例,在流通池中包括分辨率特征(诸如隔离的纳米孔)的网格以使得能够监测离焦。处理所监测的离焦以确定网格的各位置处的倾斜。对于第三示例,将光学像差引入成像器的光学系统中(例如,使用相位掩模),使得点扩散函数在过焦和欠焦之间是不对称的,从而使得能够容易地在过焦离焦与欠焦离焦之间进行辨别。处理这些辨别以确定倾斜信息。对于第四示例,在多个位置处测量流通池的高度,并使用高度来创建表面图。处理表面图以确定多个位置处的倾斜。在各种使用场景中,流通池的高度在整个流通池、槽道和/或柱的测序期间保持稳定,从而使得能够分别使用表面图来处理整个流通池、槽道和/或柱。在一些具体实施中,经由高度测量和/或高度确定来评估流通池的非平面性。在各种具体实施中,根据前述技术的各种组合来测量和/或确定流通池的高度以测量和/或确定流通池的倾斜。
除了测量流通池的倾斜和/或高度的能力之外,碱基检出还可根据各种成像条件进行调适。各种成像条件包括簇在像素内的子像素位置、信号光与背景光的比率以及点扩散函数的大小和/或形状。发明人认识到,各种成像条件还包括变化的离焦程度,例如,碱基检出技术可进一步根据诸如在成像器的视场的不同部分内的变化的离焦程度进行调适。更具体地,发明人认识到,测量和/或确定流通池倾斜(诸如通过处理聚焦/离焦信息)以及提供流通池倾斜测量以通知碱基检出实现碱基检出的提高的准确性。
根据各种具体实施,在各种时间点收集流通池倾斜(和/或高度)的测量和/或用于确定流通池倾斜(和/或高度)的信息的测量。根据各种具体实施,在各种时间点确定流通池倾斜(和/或高度)的确定。根据各种具体实施,在各种时间点向碱基检出通知流通池倾斜(和/或高度)的测量和/或流通池倾斜(和/或高度)的确定。根据各种具体实施,任选地在各种时间点执行聚焦调整。任选地在各种时间点执行倾斜调整。各种时间点包括根据不同具体实施变化的在仪器寿命内的一个或多个时间、每边合成边测序运行的一个或多个时间、每边合成边测序循环的一个或多个时间、每流通池的一个或多个时间、流通池的每槽道的一个或多个时间、槽道的每柱的一个或多个时间、每区块的一个或多个时间、和/或流通池的每一个或多个部分的一个或多个时间。
在各种具体实施中,在第一时间集收集流通池倾斜(和/或高度)的测量和/或用于确定流通池倾斜(和/或高度)的信息的测量,在第二时间集确定流通池倾斜(和/或高度)的确定,并且在第三时间集向碱基检出通知流通池倾斜(和/或高度)的测量和/或流通池倾斜(和/或高度)的确定。一些具体实施针对第一时间集、第二时间集和第三时间集布置为彼此具有一定预先布置的关系。例如,在第一时间,例如在捕获任何图像之前,对流通池的整个表面进行绘图。然后,每个区块一次并且基于图,向碱基检出器通知区块的倾斜测量。另选地,每个区块四次,对应于区块的四个四分之一中的每一者,向碱基检出器通知区块的相应四分之一的倾斜测量。又如,在对每个区块进行成像时,针对每个区块确定倾斜,并且在碱基检出器处理每个区块时,向碱基检出器通知所测量倾斜。
根据各种具体实施,在前述时间点,与流通池倾斜(和/或高度)的测量协调地或者另选地在与流通池倾斜(和/或高度)的测量时间不同的时间点,不同地确定流通池倾斜(和/或高度)。
根据各种具体实施,在前述时间点,与流通池倾斜(和/或高度)的确定协调地或者另选地在与流通池倾斜(和/或高度)确定的那些时间点不同的时间点,不同地向碱基检出通知流通池倾斜(和/或高度)。
为了清楚说明,在基于空间均衡器并且在本文中统称为基于RTA的碱基检出的假设的碱基检出具体实施的上下文中描述碱基检出对流通池倾斜的依赖。然后,在单个碱基检出器的上下文中描述空间均衡器具体实施。根据具体实施,碱基检出对流通池倾斜的依赖的其他具体实施使用除了空间均衡器技术之外的技术。
多个碱基检出器
图1AA例示了碱基检出对流通池倾斜的依赖的示例。该图的上部部分例示了训练上下文(诸如使用实验室边合成边测序仪器),并且下部部分例示了生产上下文(诸如使用一个或多个边合成边测序生产仪器)。该图从左向右例示了流通池、成像和RTA部分。如图所例示,使用多个碱基检出器来实现RTA部分,每个碱基检出器被实现为具有相应均衡器和LUT(查找表)元件。
概念上,利用对流通池倾斜的了解来执行碱基检出。测量流通池倾斜(倾斜测量)和评估流通池倾斜(评估倾斜)。该评估确定流通池(或其任何部分,诸如槽道、柱、区块或其部分)是过焦、对焦还是欠焦。另选地,该评估确定图像的所有或任何区域(诸如补片,例如图像中的一个或多个簇、图像的像素的连续区域或图像的一个或多个规则分区的补片)是过焦、对焦还是欠焦。进一步另选地,该评估用于确定如何根据过焦、对焦或欠焦将图像分区成区域。基于倾斜评估从多个碱基检出器当中选择碱基检出器。
对于第一示例,如果图像区域被确定为对焦,则选择正被训练用于对焦区域或先前已被训练用于对焦区域的碱基检出器,并且利用对焦碱基检出器来处理图像区域。该图中的‘=碱基检出器’元件是对焦碱基检出器的示例。
对于第二示例,如果图像区域被确定为过焦,则选择正被训练用于过焦区域或先前已被训练用于过焦区域的碱基检出器,并且利用过焦碱基检出器来处理图像区域。该图中的‘+碱基检出器’元件是过焦碱基检出器的示例。
对于第三示例,如果图像区域被确定为欠焦,则选择正被训练用于欠焦区域或先前已被训练用于欠焦区域的碱基检出器,并且利用欠焦碱基检出器来处理图像区域。该图中的‘-碱基检出器’元件是欠焦碱基检出器的示例。
在训练期间,收集图像(例如,一个或多个流通池的多个区块中的每个区块一个图像),并且将图像与地面真值(GT)结合使用以学习训练上下文碱基检出器的参数(有时被称为权重),诸如以确定作为系数存储在LUT中的信息。根据具体实施,将每个图像作为单个元素进行处理,或者将每个图像分区为多个元素。该处理包括:评估与单个元素或多个元素中的每个相应元素相关联的倾斜。所评估的倾斜确定多个碱基检出器中的哪个碱基检出器是针对每个相应元素训练的。每个碱基检出器与相应GT集相关联,并且每个碱基检出器中包括相应LUT集。在训练期间,根据倾斜评估独立地训练每个碱基检出器。在训练完成之后,将LUT中的信息提供给生产上下文RTA碱基检出器以用于与没有训练益处的碱基检出相比改进碱基检出。
在生产期间,收集图像,诸如流通池的多个区块中的每个区块一个图像,然后处理图像以用于碱基检出。根据具体实施,将每个图像作为单个元素进行处理,或者将每个图像分区为多个元素。如同在训练中,该处理包括:评估与单个元素或多个元素中的每个相应元素相关联的倾斜。所评估的倾斜确定多个碱基检出器中的哪个碱基检出器被选择用于执行元素的碱基检出。由于每个碱基检出器包括相应LUT集,因此用于确定碱基检出的LUT集依赖于所评估的倾斜。
在一些具体实施中,在专用训练上下文中执行初始训练(有时被称为预训练),并且在生产上下文中执行附加训练,诸如对于每个生产仪器是唯一的。
训练碱基检出器并且在生产期间使用它们来执行碱基检出的另外的细节在本文别处在诸如关于图1A至图19D描述的单个碱基检出器的上下文中公开。评估倾斜的另外的细节在本文别处公开。
图1AB例示了与如图1AA所描绘的碱基检出对流通池倾斜的依赖的示例相关的操作。对流通池的所有区块重复这些操作。操作开始于捕获区块的图像以及与图像相关联的倾斜信息。任选地,将图像分区成多个部分。然后,如下作为图像区域处理整个图像(或者依次处理每个图像部分)。
根据具体实施,这些部分是例如:各种几何规则部分(诸如面积基本上相等的部分的2×2、3×3或4×4网格中的任一者);边缘部分对内部(非边缘)部分;和/或共同地形成整个图像的一个或多个连续区域,其中每个连续区域被确定为在相应倾斜范围内(和/或聚焦类别,诸如过焦、对焦和欠焦)。
(例如)基于区块的倾斜信息或如根据区块的倾斜信息确定的图像区域的倾斜信息来评估图像区域的倾斜和/或聚焦。
响应于图像被确定为对焦,选择对焦碱基检出技术(=碱基检出器)。适当地使用对焦碱基检出技术进行训练或生产,这取决于操作上下文。为了训练,使用对应于对焦上下文的GT集(=GT)来训练所选择的碱基检出器,从而导致对存储在所选择的碱基检出器的LUT(=LUT)中的系数的零个或多个更新。
响应于图像被确定为过焦,选择过焦碱基检出技术(+碱基检出器)。适当地使用过焦碱基检出技术进行训练或生产,这取决于操作上下文。为了训练,使用对应于过焦上下文的GT集(+GT)来训练所选择的碱基检出器,从而导致对存储在所选择的碱基检出器的LUT(+LUT)中的系数的零个或多个更新。
响应于图像被确定为欠焦,选择欠焦碱基检出技术(-碱基检出器)。适当地使用欠焦碱基检出技术进行训练或生产,这取决于操作上下文。为了训练,使用对应于欠焦上下文的GT集(-GT)来训练所选择的碱基检出器,从而导致对存储在所选择的碱基检出器的LUT(-LUT)中的系数的零个或多个更新。
图1AA和图1AB所涉及的前述具体实施是特定于流通池倾斜的,该流通池倾斜导致不同地是过焦影像、对焦影像和欠焦影像的影像。其他具体实施是特定于流通池高度的,该流通池高度导致不同地是过焦影像、对焦影像和欠焦影像的影像。概念上,图1AA的倾斜评估替代地是高度评估。高于DoF的高度使用(+碱基检出器)技术,在DoF内的高度使用(=碱基检出器)技术,并且低于DoF的高度使用(-碱基检出器)技术。另外的描述关于图1AE提供。
图1AC总体上例示了用于对流通池进行成像的元件,包括与流通池倾斜相关的所选择的细节。根据具体实施,包括倾斜测量元件,该倾斜测量元件在概念上表示一个或多个专用元件、非专用元件中存在的一个或多个能力、或两者的组合。根据具体实施,通过一个或多个直接和/或间接测量和/或基于一个或多个因素的确定来实现倾斜测量。这些因素包括倾斜、聚焦和/或距离。部分“确定倾斜、聚焦和/或距离”(位于本文别处)描述了测量和/或确定倾斜的各种技术。在一些具体实施中,倾斜测量元件包括涉及倾斜测量的能力以及针对高度测量的能力。另外的描述关于图1AE提供。
流通池通常是平面的并且包括多个大体上并行的槽道,这些槽道作为一系列区块被顺序地成像(对准拍摄),该一系列区块被组织为例如一个或多个柱,或另选地,这些槽道一系列一个或多个区块被连续地成像(连续扫描)并被处理。成像器包括传感器、半反射镜和物镜。在一些具体实施中,激光器和成像器以及被定位为将激光器的发射朝向半反射镜引导的镜被布置在模块中。
在一些具体实施中,成像器和流通池相对于彼此移动(诸如通过流通池沿着预先确定的路径在可移动平台上前进,或者通过在拍摄图像时成像器和激光器相对于流通池重新定位)。在连续扫描具体实施中,流通池的槽道的一部分的连续区域被成像并且对应于该一系列区块的元素。
在一些具体实施中,可移动平台(有时被称为台)包括能够支撑流通池的流通池接收表面。在一些具体实施中,控制器耦合到台和光学组件。控制器的一些具体实施被配置为以步进拍摄(step-and-shoot)方式(有时被称为步进稳定(step and settle)技术)使台和光学组件相对于彼此移动。在各种具体实施中,倾斜测量和/或高度测量的所有或各种部分在控制器中实现。在各种具体实施中,生物测序仪器(诸如实验室仪器或生产仪器)包括该图所描绘的元件的所有或任何部分。在各种具体实施中,生物测序仪器包括台、光学组件和/或控制器。
在操作中,将成像器和流通池相对于彼此移动,由此将成像器从与(前一)区块对准重新定位到与(当前)区块对准。通过操作激光器进行成像。激光器的发射从镜反射到半反射镜上,然后从半反射镜反射以照射流通池的区块,如指向的虚线箭头(‘功率’)所示。响应于照射,区块的荧光团发荧光。来自发荧光的光穿过用于聚焦的物镜并且继续穿过半反射镜,从而形成图像(‘图像’)。图像由传感器(‘传感器’)捕获。
例如,倾斜和/或非平面模糊(在该图中由弯曲的双箭头“倾斜”概念性地例示)是由成像器与正被成像的区块的各种区域之间的距离的差引入的。例如,标称上平面的流通池相对于成像器不光学对准(例如,倾斜),使得同一区块的不同部分(例如,一个或多个边缘)与成像器相距不同距离。因此,取决于成像器的DoF,这些部分中的一个部分被不恰当地聚焦并且因此降级。又如,原本标称上平面的流通池具有缺陷,使得区块的一个部分比区块的另一部分离成像器更近。
该图描绘了流通池的示例倾斜。流通池在左侧向上倾斜,并且在右侧向下倾斜。成像器相对于流通池的移动方向是从左向右。因此,倾斜是在与移动方向一致的方向上。其他场景也会发生,使得倾斜在相对于移动方向的任意方向上。回到该图和其中的倾斜方向,流通池的左侧条带过焦,流通池的中心条带锐对焦,并且流通池的右侧条带欠焦。过焦、锐对焦和欠焦条带在流通池的区块中以及在于传感器上形成的图像中例示。响应于测量、确定和/或评估图像的各种区域的倾斜和/或聚焦,碱基检出依赖于流通池倾斜。具体地,响应于图像区域过焦,针对该图像区域使用‘+碱基检出器’(在训练中使用以确定参数,以及在生产中使用以进行碱基检出)。响应于图像区域锐对焦,针对该图像区域使用‘=碱基检出器’。响应于图像区域欠焦,针对该图像区域使用‘-碱基检出器’。
成像器的一些具体实施使用收集一个或多个像素的相对较小的集合的点成像技术。成像器的一些具体实施使用收集诸如矩形(例如,正方形形状)中的像素的相对较大的集合的区域成像技术。成像器的一些具体实施使用收集诸如相对高纵横比的矩形区域中的像素的相对较大的集合的线成像技术。成像器的一些具体实施(诸如区域成像的一些变型)使用与收集区域共面的区域传感器,并且在发荧光的荧光团与区域传感器之间存在极少的光学部件。示例区域传感器基于半导体技术,诸如互补金属氧化物半导体(CMOS)芯片。
图1AD例示了与流通池倾斜相关的所选择的细节。图1AC和图1AD中类似命名的元件对应于彼此。该图的上部部分(俯视图)是从上方看传感器的视图,并且描绘了图像的各种聚焦条带:过焦、锐对焦和欠焦。该图的下部部分(侧视图)是从成像器的物镜侧观察的视图,并且流通池的一部分被成像。倾斜使得流通池表面在左侧高于图像平面并且在右侧低于图像平面。需注意,该图不是按比例绘制的,并且为了便于理解而放大了倾斜。需进一步注意,为了便于理解,将流通池例示为均匀平坦的。图像的锐对焦的条带对应于成像器的景深(DoF)。图像的在相对于图像平面的DoF之外(高于图像平面或低于图像平面)的图像条带是模糊的。如在图1AC中,响应于过焦的图像区域,使用‘+碱基检出器’。响应于锐对焦的图像区域,使用‘=碱基检出器’。响应于欠焦的图像区域,使用‘-碱基检出器’。在一些具体实施中,点扩散函数(PSF)关于过焦的模糊图像对比欠焦的模糊图像是不对称的,从而使得能够基于PSF的差将模糊图像分类为过焦或欠焦。
图1AE例示了与流通池的非平面性相关的所选择的细节。图1AC和图1AE中类似命名的元件对应于彼此。如在图1AD中,图1AE的上部部分(俯视图)是从上方看传感器的视图,并且描绘了图像的各种聚焦条带:过焦、锐对焦和欠焦。该图的下部部分(侧视图)是从成像器的物镜侧观察的视图,并且流通池的一部分被成像。流通池的非平面性使得(如在图1AD中)流通池表面在左侧高于图像平面并且在右侧低于图像平面。需注意,该图不是按比例绘制的,并且为了便于理解而放大了非平面性。需进一步注意,所描绘的流通池表面是三维对象(流通池)的二维横截面,并且为了易于理解,聚焦条带在第三维度中呈现均匀性。图像的锐对焦的条带对应于成像器的景深(DoF)。图像的在相对于图像平面的DoF之外(高于图像平面或低于图像平面)的图像条带是模糊的。如在图1AC中,响应于过焦的图像区域,使用‘+碱基检出器’。响应于锐对焦的图像区域,使用‘=碱基检出器’。响应于欠焦的图像区域,使用‘-碱基检出器’。在一些具体实施中,点扩散函数(PSF)关于过焦的模糊图像对比欠焦的模糊图像是不对称的,从而使得能够基于PSF的差将模糊图像分类为过焦或欠焦。
根据具体实施,类似于图1AC中包括倾斜测量元件,图1AD中包括高度测量元件,该高度测量元件在概念上表示一个或多个专用元件、非专用元件中存在的一个或多个能力、或两者的组合。根据具体实施,通过一个或多个直接和/或间接测量和/或基于一个或多个因素的确定来实现高度测量。这些因素包括倾斜、聚焦和/或距离。部分“确定倾斜、聚焦和/或距离”(位于本文别处)描述了测量和/或确定高度的各种技术。
图1AD例示了倾斜本身不足以确定影像是过焦影像、对焦影像还是欠焦影像。在该图中,倾斜在整个图像中是均匀的。然而,图像的第一部分过焦,图像的第二部分对焦,并且图像的第三部分欠焦。相比之下,图1AE例示了仅高度就足以确定影像是对焦的、欠焦的还是过焦的。图像的第一部分过焦,图像的第二部分对焦,并且图像的第三部分欠焦。
单个碱基检出器
前述描述假设基于空间均衡器并且在本文中一般地被称为基于RTA的碱基检出的碱基检出具体实施。下面描述使用空间均衡器实现基于RTA的碱基检出的特定技术。在各种具体实施中,图1A的均衡器碱基检出器104(有时被称为均衡器104)是图1AA至图1AD的‘+’、‘=’和‘-’碱基检出器元件的示例具体实施。图1A的地面真值碱基检出112是图1AA至图1AD的‘+’、‘=’和‘-’GT元件的示例。图1A的查找表106(有时被称为LUT 106或LUT组106)是图1AA至图1AD的‘+’、‘=’和‘-’LUT元件的示例具体实施。对应地,图1A的测序图像102对应于图1AA至图1AD的图像元素,并且图1A的训练器114对应于图1AA的训练器元件和图1AB的训练器元件。
查找表生成
图1A示出了通过训练均衡器104来生成查找表(LUT)(或LUT库)106的一个具体实施。均衡器104在本文也被称为基于均衡器的碱基检出器104。系统100A包括使用最小二乘估计来训练均衡器104的训练器114。关于均衡器和最小二乘估计的附加细节可在随本申请一起包括的附录中找到。
测序图像102在由测序仪器诸如Illumina的iSeq、HiSeqX、HiSeq 3000、HiSeq4000、HiSeq 2500、NovaSeq 6000、NextSeq 550、NextSeq 1000、NextSeq 2000、NextSeqDx、MiSeq和MiSeqDx进行的测序运行期间生成。在一个具体实施中,Illumina测序仪采用循环可逆终止(CRT)化学来进行碱基检出。该过程依赖于生长与具有荧光标记的核苷酸的模板链互补的新生链,同时跟踪每个新添加的核苷酸的发射信号。荧光标记的核苷酸具有锚定核苷酸类型的荧光团信号的3'可移除块。
测序在重复的循环中进行,每个循环包括三个步骤:(a)通过添加荧光标记的核苷酸延长新生链;(b)使用测序仪器的光学系统的一个或多个激光器激发荧光团,并通过光学系统的不同滤波器成像,从而产生测序图像;以及(c)裂解荧光团并移除3'块,以为下一个测序循环做准备。重复掺入和成像循环直至达到指定数目的测序循环,从而限定读段长度。使用该方法,每个循环询问沿着模板链的新位置。
Illumina测序仪的巨大能力源于其同时执行和感测数百万或甚至数十亿个经历CRT反应的分析物(例如,簇)的能力。簇包括模板链的近似一千个相同副本,但簇的大小和形状不同。在测序运行之前,通过对输入文库进行桥式扩增或排除扩增,使来自模板链的簇生长。扩增和簇生长的目的是增加发射信号的强度,因为成像设备不能可靠地感测单个链的荧光团信号。然而,簇内的链的物理距离较小,因此成像设备将链的簇感知为单个点。
测序发生在流通池(保持输入链的小载玻片)中。流通池连接到光学系统,该光学系统包括显微镜成像、激发激光器和荧光滤波器。流通池包括被称为槽道的多个腔室。槽道在物理上彼此分离,并且可包含不同的带标记的测序库,这些带标记的测序库可在无样本交叉污染的情况下进行区分。在一些具体实施中,流通池包括图案化表面。“图案化表面”是指固体载体的暴露层中或该暴露层上的不同区域的布置。例如,这些区域中的一个或多个区域可以是存在一种或多种扩增引物的特征。特征可由不存在扩增引物的间隙区域分离。在一些具体实施中,图案可为呈行和列形式的特征的x-y格式。在一些具体实施中,图案可为特征和/或间隙区域的重复布置。在一些具体实施中,图案可为特征和/或间隙区域的随机布置。可用于本文阐述的方法和组合物的示例性图案化表面在美国专利第8,778,849号、美国专利第9,079,148号、美国专利第8,778,848号和美国公布第2014/0243224号中有所描述,这些专利中的每一篇均以引用方式并入本文。
在一些具体实施中,流通池在表面中包括孔或凹陷的阵列。这可如本领域通常已知的那样使用多种技术来制造,这些技术包括但不限于光刻、压印技术、模制技术和微蚀刻技术。本领域的技术人员将会知道,所使用的技术将取决于阵列基板的组成和形状。
图案化表面中的特征可以是玻璃、硅、塑料或其他合适的具有图案化的且共价连接的凝胶诸如聚(N-(5-叠氮基乙酰氨基戊基)丙烯酰胺-共-丙烯酰胺)(PAZAM,参见例如美国公布第2013/184796号、第WO 2016/066586号和第WO 2015-002813号,这些公布中的每一篇均全文以引用方式并入本文)的固体载体上的孔阵列中的孔(例如,微孔或纳米孔)。该方法产生用于测序的凝胶垫,该凝胶垫在具有大量循环的测序运行中可为稳定的。聚合物与孔的共价连接有助于在多种用途期间以及在结构化基板的整个寿命期间将凝胶保持为结构化特征。然而,在许多具体实施中,凝胶无需共价连接到孔。例如,在一些条件下,未共价附着到结构化基板的任何部分的不含硅烷的丙烯酰胺(SFA,参见例如,美国专利第8,563,477号,其全文以引用方式并入本文)可用作凝胶材料。
在特定具体实施中,结构化基板可通过以下方法来制作:将固体载体材料图案化为具有孔(例如,微孔或纳米孔)、用凝胶材料(例如,PAZAM、SFA或其化学改性的变体,诸如SFA的叠氮化版本(叠氮-SFA))涂覆图案化载体,以及例如经由化学或机械抛光来抛光已涂覆凝胶的载体,从而将凝胶保持在孔中,而从结构化基板的表面上的孔之间的间隙区域移除基本上所有凝胶或使这里的基本上所有凝胶失活。可使引物核酸附着到凝胶材料。然后可使靶核酸(例如,片段化的人基因组)的溶液与已抛光的基板接触,使得各个靶核酸将经由与附着到凝胶材料的引物的相互作用而接种到各个孔中;然而,由于不存在凝胶材料或该凝胶材料失活,靶核酸将不占用间隙区域。靶核酸的扩增将被限制在孔中,因为间隙区域中不存在凝胶或凝胶失活会阻止生长的核酸群体向外迁移。该过程是可制造的,是可扩展的,并且利用常规的微米或纳米制造方法。
测序仪器的成像设备(例如,固态成像器件,诸如电荷耦合器件(CCD)或互补金属氧化物半导体(CMOS)传感器)在沿着槽道的多个位置处、在一系列非重叠区域(被称为区块)中拍摄快照。例如,每个槽道可存在六十四个区块或九十六个区块。区块容纳数十万至数百万的簇。
测序运行的输出是测序图像,每个测序图像均描绘了簇及其周围背景的强度发射。测序图像描绘了由于在测序期间核苷酸掺入序列中而产生的强度发射。这些强度发射来自相关联的分析物/簇及其周围背景。
测序图像102源自多个测序仪器、测序运行、循环、流通池、区块、孔和簇。在一个具体实施中,测序图像由均衡器104在成像通道的基础上处理。测序运行在每个测序循环产生对应于m个成像通道的m个图像。在一种具体实施中,每个成像通道对应于多个滤波器波长带中的一个滤波器波长带。在另一个具体实施中,每个成像通道对应于测序循环处的多个成像事件中的一个成像事件。在又一个具体实施中,每个成像通道对应于利用特定激光器照射和通过特定光学滤波器成像的组合。在不同具体实施诸如4通道化学法、2通道化学法和1通道化学法中,m为4或2。在其他具体实施中,m为1、3或大于4。
在另一个具体实施中,输入数据基于在分子扩展期间由氢离子的释放所诱导的pH变化。检测pH变化并将其转化为与引入的碱基的数目成比例的电压变化(例如,就IonTorrent而言)。在又一个具体实施中,输入数据根据纳米孔感测构造而成,该纳米孔感测使用生物传感器来测量当分析物穿过纳米孔或靠近其孔口时电流的中断,同时确定碱基的种类。例如,牛津纳米孔技术(ONT)测序基于以下概念:使单链DNA(或RNA)经由纳米孔穿过膜,并且跨膜施加电压差。孔中存在的核苷酸将影响孔的电阻,因此随时间推移的电流测量结果可指示DNA碱基穿过孔的序列。该电流信号(由于其在绘制时的外观而被称为‘波形曲线(squiggle)’)是由ONT测序器收集的原始数据。这些测量结果被存储为在(例如)4kHz频率下获得的16位整数数据采集(DAC)值。在DNA链速度为约450碱基对/秒的情况下,这给出了平均每种碱基近似九个原始观察结果。然后处理该信号,以标识开孔信号中对应于各个读段的中断。对这些原始信号段进行碱基检出,即将DAC值转换成DNA碱基序列的过程。在一些具体实施中,输入数据包括归一化或缩放的DAC值。关于基于非图像的测序数据的附加信息可在2019年5月16日提交的名称为“Base Calling Using Convolutions”的美国临时专利申请第62/849,132号(代理人案卷号ILLM 1011-2/IP-1750-PR2)、2019年5月16日提交的名称为“Base Calling Using Compact Convolutions”的美国临时专利申请第62/849,133号(代理人案卷号ILLM 1011-3/IP-1750-PR3)以及2020年3月21日提交的名称为“ArtificialIntelligence-Based Sequencing”的美国非临时专利申请第16/826,168号(代理人案卷号ILLM 1008-20/IP-1752-PRV)中找到。
训练
均衡器104生成具有多个LUT(均衡器滤波器)106的LUT库,这些LUT具有子像素分辨率。在一个具体实施中,由均衡器104为LUT库生成的LUT 106的数目取决于测序图像102的传感器像素被划分成或可被划分成的子像素的数目。例如,如果测序图像102的传感器像素各自能够被划分成n×n个子像素(例如,5×5个子像素),则均衡器104生成n2个LUT 106(例如,25个LUT)。
在训练的一个具体实施中,按孔子像素位置对来自测序图像的数据进行分箱。例如,对于5×5的LUT,1/25的孔的中心在箱(1,1)中(例如,传感器像素的左上角),1/25的孔在箱(1,2)中,依此类推。使用对来自每个箱中的孔的数据子集的最小二乘估计来确定每个孔中心箱的均衡器系数。均衡器104的输入是那些箱的测序图像的原始传感像素。所得的估计的均衡器系数对于每个箱是不同的。
每个LUT具有从训练中学习的多个系数。在一个具体实施中,LUT中系数的数目对应于用于对簇进行碱基检出的传感器像素的数目。例如,如果用于对簇进行碱基检出的传感器像素的局部网格(图像或像素补片)的大小为p×p(例如,9×9像素补片),则每个LUT具有p2个系数(例如,81个系数)。
训练产生均衡器系数,这些均衡器系数被配置为以最大化信噪比的方式混合/组合像素的强度值,这些像素描绘来自正被碱基检出的目标簇的强度发射和来自一个或多个相邻簇的强度发射。信噪比被最大化的信号是来自目标簇的强度发射,而信噪比被最小化的噪声是来自相邻簇的强度发射,即空间串扰,加上一些随机噪声(例如,以考虑背景强度发射)。均衡器系数用作权重,并且混合/组合包括执行均衡器系数与像素的强度值之间的逐元素乘法,以计算这些像素的强度值的加权和。
根据一个具体实施,在训练期间,均衡器104学习通过最小二乘估计来最大化信噪比。使用最小二乘估计,均衡器104被训练为从受试孔周围的像素强度和期望输出估计共享的均衡器系数。最小二乘估计非常适合于该目的,因为其输出使平方误差最小化并且考虑噪声放大的影响的系数。
当强度通道打开时,期望输出是孔位置(点源)处的脉冲,而当强度通道关闭时,期望输出是背景水平。在一些具体实施中,使用地面真值碱基检出112来生成期望输出。在一些具体实施中,修改地面真值碱基检出112以考虑最小二乘估计中所包括的每孔DC偏移量、放大系数、多克隆性程度和增益偏移量参数。在一个具体实施中,在训练期间,DC偏移量、即固定偏移量作为最小二乘估计的一部分计算。在推断期间,将DC偏移量作为偏差添加到每个均衡器计算结果。
在一个具体实施中,使用Illumina的实时分析(RTA)碱基检出器(其不使用均衡器)来估计期望输出。关于RTA的细节可在美国专利申请第13/006,206号中找到,该专利申请以引用方式并入,如同在本文完整阐述一样。由于RTA具有低的碱基检出误差率,因此使用RTA碱基检出器作为地面真值碱基检出112的来源。碱基检出误差跨许多训练示例被平均掉。在另一个具体实施中,地面真值碱基检出112是使用比对的基因组数据获得的,该数据具有较好的质量,因为比对的基因组数据可使用参考基因组和真值信息,该参考基因组和真值信息将从多个测序平台和测序运行获得的知识结合,以将噪声平均掉。
地面真值碱基检出112是分别可靠地表示碱基A、C、G和T的强度分布的碱基特异性强度值。碱基检出器(如RTA)通过处理测序图像102并且针对每次碱基检出产生逐颜色强度值/输出来对簇进行碱基检出。可将这些逐颜色强度值看作逐碱基强度值,因为取决于化学法的类型(例如,2色化学法或4色化学法),颜色映射到碱基A、C、G和T中的每一者。检出具有最接近匹配的强度分布的碱基。
图16示出了逐碱基高斯拟合的一个具体实施,这些拟合在其中心处包含在训练期间用作误差计算的地面真值的逐碱基强度目标。由碱基检出器针对训练数据中的大量碱基检出(例如,数十个、数百个、数千个或数百万个碱基检出)产生的逐碱基强度输出用于产生逐碱基强度分布。图16示出了具有四个高斯云的图表,这四个高斯云分别是碱基A、C、G和T的逐碱基强度输出的概率分布。在这四个高斯云的中心处的强度值被用作地面真值强度目标(假设分别为碱基A、C、G和T的地面真值碱基检出112),并且在本文中被称为强度目标。
考虑在训练期间,将馈送给均衡器104的输入图像数据用碱基“A”注释作为地面真值碱基检出。然后,均衡器104的目标/期望输出是图16中的绿色云的中心处的强度值,即,碱基A的强度目标。类似地,对于碱基“C”的地面真值碱基检出,均衡器104的期望输出是图16中的蓝色云的中心处的强度值,即,碱基C的强度目标。因此,在训练均衡器104期间的目标或期望输出是在训练数据中求平均之后相应碱基A、C、G和T的平均强度。在一个具体实施中,训练器114使用最小二乘估计来拟合均衡器104的系数,以针对这些强度目标来最小化均衡器输出误差。
在一个具体实施中,在训练期间,均衡器104将给定查找表(LUT)中的系数应用于测序图像中用给定碱基标记的像素。这包括将这些系数逐元素地与像素的强度值相乘,并生成强度值的加权和,其中这些系数充当/作为/用作权重。该加权和然后变成均衡器104的预测输出。然后,基于成本/误差函数(例如,误差平方和(SSE)),计算加权和与针对给定碱基确定的强度目标(例如,从对应的强度高斯拟合的中心,作为针对给定碱基观察到的平均强度)之间的误差(例如,最小平方误差、最小均方误差)。成本函数(诸如SSE)是用于使用自适应方法来估计均衡器系数的可微函数,因此可评估误差相对于系数的导数,然后使用这些导数,以使误差最小化的值来更新系数。重复该过程,直到更新的系数不再减小误差为止。在其他具体实施中,使用批量最小二乘方法来训练均衡器104。
在其他具体实施中,图16所示的逐碱基强度分布/高斯云可在“一个孔接一个孔”的基础上生成,并且通过添加DC偏移量、放大系数和/或相位调整参数来校正噪声。这样,取决于特定孔的孔位置,可使用对应的逐碱基高斯云来生成该特定孔的目标强度值。
在一个具体实施中,将偏差项添加到点积,从而产生均衡器104的输出。在训练期间,可使用用于学习均衡器系数的类似方法、即最小二乘法或最小均方(LMS)法来估计偏差参数。在一些具体实施中,偏差参数的值是等于1的恒定值,即,不随输入像素强度变化的值。每个均衡器系数集合均存在一个偏差。在训练期间学习该偏差,然后将其固定以供在推断期间使用。学习的偏差表示在推断期间在每次均衡器计算中与每个LUT的学习的系数一起使用的DC偏移量。该偏差考虑到由不同的簇尺寸、不同的背景强度、变化的刺激响应、变化的聚焦、变化的传感器灵敏度和变化的透镜像差引起的随机噪声。
在还有其他决策导向的具体实施中,假定均衡器104的输出对于训练目的是正确的。
在训练的另一个具体实施中,均衡器104针对一个箱仅生成单个LUT(均衡器滤波器),然后使用多个每箱插值滤波器108针对其余箱生成其余均衡器滤波器。在该具体实施中,对于每个训练示例,将围绕每个孔的传感器像素进行重新采样/插值到良好对准的空间中(即,这些孔在它们各自的像素补片/局部网格中居中)。然后,每个示例的重新采样的像素跨所有孔一致地对准。
然而,为了将由均衡器104产生的单个均衡器滤波器应用于真实的在线系统中进行碱基检出,我们需要预处理测序图像的原始传感器像素以回到良好对准的空间,即,对每个孔周围的原始像素执行插值,且插值参数根据给定孔的子像素位置而变化。为了避免这种插值过程,我们预先计算给定孔子像素位置的总响应。我们通过将原始像素强度插值到良好对准的像素空间中来计算良好对准的均衡器输入值。我们将插值响应和均衡器响应卷积在一起,以减少计算。由于插值滤波器随子像素孔位置而变化,因此这赋予每个子像素孔位置不同的均衡器系数集合/均衡器滤波器,从而针对其余箱生成其余LUT。因此,在训练的该具体实施中,在训练期间仅训练单个均衡器滤波器的系数,但预先计算过程通过将箱特定的插值滤波器108与单个均衡器滤波器结合应用来生成基于LUT的均衡器的库,其中LUT索引是子像素孔位置。
训练器114可训练均衡器104,并且使用多种训练技术生成LUT 106的受过训练的系数。训练技术的示例包括最小二乘估计、普通最小二乘法、最小均方法和递归最小二乘法。最小二乘技术调整函数的参数以最佳拟合数据集,使得平方残差的和最小化。这里可以找到关于最小二乘估计算法的附加细节—Least squares,https://en.wikipedia.org/w/index.php?title=Least_squares&oldid=951737821(最后访问日期:2020年4月28日),该网页以引用方式并入,如同在本文完整阐述一样。普通最小二乘法是一种用于在线性回归模型中进行估计的最小二乘法。这里可以找到关于普通最小二乘法算法的附加细节—Ordinary least squares,https://en.wikipedia.org/w/index.php?title=Ordinary_least_squares&oldid=951770366(最后访问日期:2020年4月28日),该网页以引用方式并入,如同在本文完整阐述一样。在其他具体实施中,可使用其他估计算法和自适应均衡算法来训练均衡器104。
均衡器104可在离线模式下训练。在离线模式下,根据一个具体实施,使用以下批量最小二乘均衡逻辑生成LUT 106的受过训练的系数:
在以上关系式中,LUT系数为βhat,像素强度为X,目标为y。还将DC项添加到像素强度和系数(例如,对于所有情况都固定为1的额外强度项)。然后,作为一个示例,认为X是大小82(=9×9输入强度加上常数DC项)×批次中的训练示例的数目的矩阵,Y是针对每个训练示例的目标输出,即,每个值是取决于训练示例真值的开/关云的强度中心。βhat则是使平方残差的和最小化的系数集合,并且还具有大小82(=9×9个系数加上1个DC项)。
均衡器104还可在在线模式下训练,以便在测序仪正在运行并且测序运行循环地进行时,调适LUT 106的系数以便在“一个区块接一个区块”或子区块的基础上跟踪温度(例如,光学畸变)、聚焦、化学性质、机器特定变化等的改变。在在线模式下,使用自适应均衡生成LUT 106的受过训练的系数。在线模式使用最小均方作为训练算法,该算法为随机梯度下降的形式。这里可以找到关于最小均方算法的附加细节-Least mean squares filter,https://en.wikipedia.org/w/index.php?title=Least_mean_squares_filter&oldid=941899198(最后访问日期:2020年4月28日),该网页以引用方式并入,如同在本文完整阐述一样。
最小均方技术使用平方误差相对于每个系数的梯度,以在使成本函数最小化的方向上移动这些系数,其中该成本函数是平方误差的预期值。这具有极低的计算成本,仅执行每个系数的乘法和累加运算。除系数之外,不需要长期存储。最小均方技术非常适合于处理巨量数据(例如,并行处理来自数十亿个簇的数据)。最小均方技术的扩展包括归一化的最小均方和频域最小均方,这些扩展也可在本文中使用。在一些具体实施中,最小均方技术可以决策导向的方式应用,其中假设我们的决策是正确的,即,我们的误差率非常低,并且小Mu值将过滤掉由于不正确的碱基检出而引起的任何受干扰的更新。
图18示出了可用于训练均衡器104的自适应均衡技术的一个具体实施。这里,均衡逻辑是y=x.h+d,其中x是输入像素强度,h是均衡器系数,d是DC偏移量。在一个具体实施中,x和h分别是长度为81的行向量和列向量。该向量模型等同于表示输入像素和系数的9×9矩阵的点积。成本是平方误差的预期值。梯度更新在减小平方误差的预期值的方向上移动每个系数。这导致以下更新:
对于大多数系统,期望函数E{x(n)e*(n)}必须进行近似。这可通过以下无偏估计量来进行
其中N指示用于该估计的样本数量。最简单的情况是N=1
对于该简单的情况,更新算法如下
实际上,这构成了LMS滤波器的更新算法。
在以上关系式中,h是均衡器系数(例如,9×9个均衡器系数)的向量,x是均衡器输入强度(例如,像素补片中的9×9个像素)的向量,e是使用x中的81个值执行的均衡器计算的误差,即,每个均衡器输出仅有1个误差项。
应用该更新生成9×9个均衡器系数的新估计,该新估计在(平均起来)减小均方误差(MSE)的方向上移动这些系数。有81个更新,每个均衡器系数一个。在一些具体实施中,Mu是用于改变自适应速率/收敛速度的小常数。DC项更新可以类似的方式计算。增益项更新也可以类似的方式计算。
系数集合可在例如区块、区块的区域、或流通池表面之间共享。这通过在输入数据改变时保存和恢复系数集合来实现。
在一些具体实施中,由于对系数集合应用线性插值,因此按以下方式略微不同地应用这些更新:
h(q,n+1)=h(q,n)+λ_q.mu.x(n).e(n)
在以上关系式中,h(q,n)是循环n处的权重q,λ_q是特定系数集合的线性插值权重,并且由于二维线性插值而可包括每均衡器输出四个更新。
递归最小二乘技术将最小二乘技术扩展到递归算法。这里可以找到关于递归最小二乘算法的附加细节—Recursive least squares filter,https://en.wikipedia.org/w/index.php?title=Recursive_least_squares_filter&oldid=916406502(最后访问日期:2020年4月28日),该网页以引用方式并入,如同在本文完整阐述一样。
在多域具体实施中,可沿着多个域生成LUT 106及其受过训练的系数。这些域的示例包括测序仪或测序仪器/机器(例如,Illumina的NextSeq、MiSeq、HiSeq和它们各自的模型)、测序方案和化学法(例如,桥式扩增、排除扩增)、测序运行(例如,正向和反向)、测序照明(例如,结构化、非结构化、成角度)、测序设备(例如,顶置CCD相机、底层CMOS传感器、一个激光器、多个激光器)、成像技术(单通道、双通道、四通道)、流通池(例如,图案化、非图案化、嵌入在CMOS芯片上、底层CCD相机),以及流通池上的空间分辨率(例如,在流通池内的不同区域或象限(例如,流通池上的不同区块(例如,对于较接近激光器或相机或流体系统的区块上的边缘孔))以及在区块内的不同区域处(例如,区块上的不同槽道(例如,对于较接近激光器或相机或流体系统的槽道上的边缘孔))。本领域的技术人员将会知道,类似地包括通常与测序相关联的其他可选择的域和参数(例如,图像处理算法、图像配准算法、地面真值注释方案(例如,连续标签如强度值、硬标签如独热编码、软标签如softmax评分)、温度、聚焦、透镜、测序试剂、测序缓冲液)。
使用这些域中的相应域生成的测序图像可用于针对相应域创建离散且不同的训练集合。这些离散训练集合可用于训练均衡器104,以生成具有针对对应域的受过训练的系数的LUT。根据在当前或正在进行的测序操作中使用哪个域或哪些域的组合,可在在线模式期间相应地存储和访问针对多个域中的相应域生成的受过专门训练的受过训练的系数。例如,对于测序操作,可使用更适合于流通池的边缘孔的第一系数集合,以及更适合于同一流通池的中心孔的第二系数集合。
在一个具体实施中,配置文件可指定这些域的不同组合,并且可在在线模式期间被分析以选择特定于由该配置文件标识的域的不同系数集合。
在多训练具体实施中,均衡器104经受预训练以及训练。也就是说,首先在预训练阶段期间使用第一训练技术训练LUT 106及其系数,然后在进一步的训练阶段期间使用第二训练技术重新训练或进一步训练LUT及其系数。第一训练技术和第二训练技术可以是上文列出的训练技术中的任一种。第一训练技术和第二训练技术可相同,或者它们可不同。例如,预训练阶段可以是使用批量普通最小二乘训练技术的离线模式,而训练阶段可以是使用迭代随机最小均方技术的在线模式。
在一些具体实施中,可将多域具体实施和多训练具体实施组合,使得域特定系数被预训练,然后以域特定方式被进一步训练。也就是说,进一步的训练(例如,在线模式)仅使用表示特定域并且类似于在预训练阶段中所使用的数据的数据来重新训练该特定域的系数。在其他知识转移具体实施中,预训练和训练可使用来自跨域的训练数据,例如,系数集合在预训练期间使用来自图案化流通池的图像生成,但是在后续的训练阶段期间使用来自非图案化流通池的图像进行重新训练。
空间串扰衰减器
图2描绘了使用图1A的受过训练的LUT/均衡器滤波器106来衰减来自传感器像素的空间串扰以及使用串扰校正的传感器像素对簇进行碱基检出的一个具体实施。受过训练的均衡器碱基检出器104在碱基检出发生时的推断阶段期间操作。在一些具体实施中,图2所示的动作在碱基检出阶段之前的预处理阶段执行,并且生成由碱基检出器用于碱基检出的串扰校正的图像数据。
在一个具体实施中,将均衡器系数应用于在成像通道基础和目标簇基础上从测序图像116提取的像素补片120(图像补片或传感器像素的局部网格)。关于成像通道基础,在一些具体实施中,每个测序图像均具有用于多个成像通道的图像数据。考虑Illumina测序仪的光学系统,其使用两个不同的成像通道:红色通道和绿色通道。然后,在每个测序循环中,该光学系统产生具有红色通道强度的红色图像和具有绿色通道强度的绿色图像,它们一起形成单个测序图像(如典型彩色图像的RGB通道)。
在训练期间,训练/配置系数以通过最小化预测/估计输出与期望/实际输出之间的误差来使信噪比(SNR)最大化。误差的一个示例是均方误差(MSE)或均方偏差(MSD)。信噪比被最大化的信号是来自正被碱基检出的目标簇(例如,在图像补片中居中的簇)的强度发射,而信噪比被最小化的噪声是来自一个或多个相邻簇的强度发射,即,空间串扰,加上其他噪声源(例如,以考虑背景强度发射)。将受过训练的系数逐元素地乘以图像补片的像素,以计算这些像素的强度值的加权和。然后使用该加权和来对目标簇进行碱基检出。
在一个具体实施中,补片提取器118从单个测序图像中提取来自红色通道的红色像素补片和绿色通道的绿色像素补片。在其他具体实施中,从受试测序循环的红色测序图像提取红色像素补片,并且从受试测序循环的绿色测序图像提取绿色像素补片。使用LUT106的系数生成红色像素补片的红色加权和以及绿色像素补片的绿色加权和。然后,使用红色加权和与绿色加权和两者来对目标簇进行碱基检出。图像补片120的尺寸为w×h,其中w(宽度)和h(高度)是在1至10,000范围内的任何数字(例如,3×3、5×5、7×7、9×9、15×15、25×25)。在一些具体实施中,w和h相同。在其他具体实施中,w和h不同。本领域的技术人员将会知道,可针对目标簇的每个测序循环生成一个、两个、三个、四个或更多个通道或图像的数据,并且分别提取一个、两个、三个、四个或更多个补片以分别生成一个、两个、三个、四个或更多个加权和,以用于对目标簇进行碱基检出。
关于从测序图像116中提取像素补片120的目标簇基础,像素提取器118基于这些簇/孔的中心在测序图像116上所处的位置来提取像素补片120,使得每个提取的像素补片的中心像素均包含目标簇/孔的中心。在一些具体实施中,补片提取器118在测序图像上定位簇/孔中心,标识测序图像中包含簇/孔中心的那些像素(即,中心像素),并且提取中心像素周围的连续相邻像素邻域的像素补片。
图2可视化了包含流通池上的至少五个簇/孔的中心/点源的测序图像200的一个示例。测序图像200的像素描绘了来自目标簇1(蓝色)的强度发射,以及来自附加的相邻簇2(紫色)、簇3(橙色)、簇4(棕色)和簇5(绿色)的强度发射。
图3可视化了从测序图像200中提取像素补片300(黄色),使得目标簇1(蓝色)的中心被包含在像素补片300的中心像素206中的一个示例。图3还示出了其他像素202、204、214和216,它们分别包含相邻簇2(紫色)、簇3(橙色)、簇4(棕色)和簇5(绿色)的中心。
图4可视化了簇到像素信号400的一个示例。在一个具体实施中,传感器像素(黄色)处于像素平面中。样本平面(例如,流通池)中的周期性分布的簇412引起空间串扰。在一个具体实施中,目标簇和附加的相邻簇以菱形形状周期性地分布在流通池上,并且固定在流通池的孔上。在另一个具体实施中,目标簇和附加的相邻簇以六边形形状周期性地分布在流通池上,并且固定在流通池的孔上。来自该簇的信号锥402通过至少一个透镜(例如,顶置或相邻CCD相机的一个或多个透镜)光学耦合到传感器像素(例如,像素补片300)的局部网格。
除了菱形形状和六边形形状之外,这些簇还能够以其他规则形状(诸如正方形、斜方形、三角形等)布置。在又其他具体实施中,这些簇以随机的、非周期性的布置布置在样本平面上。本领域的技术人员将会知道,根据特定测序具体实施的需要,可将这些簇以任何布置布置在样本平面上。
图5可视化了簇到像素信号重叠500的一个示例。信号锥402重叠并撞击在传感器像素上,从而产生空间串扰502。
图6可视化了簇信号模式600的一个示例。在一个具体实施中,簇信号模式600遵循衰减模式602,其中簇信号在簇中心处最强,并且随着其传播远离簇中心而衰减。
图6还示出了均衡器系数604的一个示例,这些均衡器系数被训练/配置为通过计算来自目标簇1的强度发射和来自相邻簇2、簇3、簇4和簇5的强度发射的加权和来使信噪比最大化。均衡器系数604充当权重。该加权和通过将包括均衡器系数604的第一矩阵逐元素地与包括像素强度值的第二矩阵相乘来计算,其中每个像素强度值是来自簇1、簇2、簇3、簇4和簇5中的一个或多个簇的发射加上系统中由像素传感器测量的其他噪声源的总和。
图7可视化了用于衰减来自像素补片300的空间串扰的子像素LUT网格700的一个示例。像素补片300中的每个像素可划分成多个子像素。在图7中,包含目标簇1(蓝色)的中心的像素206被划分成与受过训练的LUT 106的数目一样多的子像素。也就是说,像素206被分区成数目与在训练期间均衡器104针对其生成LUT 106的箱的数目相同的子像素。因此,像素206的每个子像素对应于LUT库中的相应LUT,该LUT库是由均衡器104使用决策导向的反馈和最小二乘估计产生的。
在图7所示的示例中,像素206(中心像素)被划分成5×5个子像素LUT网格700,以产生25个子像素,这些子像素分别对应于由自适应滤波器104作为训练结果生成的25个LUT(均衡器滤波器)。这25个LUT中的每一者均包括被配置为以最大化信噪比的方式混合/组合像素补片300中的像素的强度值的系数,这些像素描绘了来自目标簇1的强度发射以及来自相邻簇2、簇3、簇4和簇5的强度发射。信噪比被最大化的信号是来自目标簇的强度发射,而信噪比被最小化的噪声是来自相邻簇2、簇3、簇4和簇5的强度发射,即空间串扰,加上一些随机噪声(例如,以考虑背景强度发射)。这些LUT系数用作权重,并且混合/组合包括执行LUT系数与像素补片300中的像素的强度值之间的逐元素乘法,以计算这些像素的强度值的加权和。
这25个LUT的每一者中的系数的数目与像素补片300中的像素的数目相同,即,对于像素补片300中的9×9个像素,每个LUT中存在9×9个系数的网格。出现这种情况是因为这些系数与像素补片300中的像素逐元素相乘。
在一个具体实施中,像素-子像素转换器(图1B未示出)基于预设的像素除数参数(例如,每个子像素1/5个像素,以生成5×5个子像素的LUT网格700)将像素206划分成子像素LUT网格700。例如,像素可被划分成具有以下边界的五个子像素箱:-0.5、-0.3、-0.1、0.1、0.3、0.5。
在图7中,需注意,目标簇1(蓝色)的中心基本上与变换后的像素702的中心同心。出现这种情况是因为以通过以下方式对测序图像200并因此对像素补片300进行重新采样以使目标簇1(蓝色)的中心基本上与变换后的像素702的中心同心:(i)将测序图像200相对于模板图像配准,并且确定仿射变换参数和非线性变换参数,(ii)使用这些参数将目标簇1(蓝色)的位置坐标变换为测序图像200的图像坐标,以及(iii)使用目标簇1(蓝色)的变换后的位置坐标应用插值,以使其中心基本上与变换后的像素702的中心同心。样本平面中孔的位置是已知的,并且可用于计算特定孔的均衡器输入在原始像素空间中的位置。然后,我们可使用插值来从原始图像恢复那些位置处的强度。
图8示出了基于簇/孔中心在像素内的的子像素位置从LUT库106中选择LUT/均衡器滤波器。由于目标簇(蓝色)的中心落在子像素LUT网格700的特定子像素12中,并且像素206的特定子像素12对应于LUT库106中的LUT 12,因此LUT选择器122从LUT库106中选择LUT12及其系数,以应用于像素补片300的像素。然后,逐元素乘法器134将LUT 12的系数逐元素地乘以像素补片300中的像素的强度值,并且将乘法的乘积求和以产生输出(例如,加权和136)。该输出用于对目标簇1进行碱基检出(例如,通过将该输出作为输入馈送到碱基检出器138)。
当目标簇基本上与像素的中心同心时,如上文关于图7和图8所论述,均衡器104实施以下均衡逻辑:
在以上关系式中,孔中心坐标(m,n)是整数,以确保孔基本上与像素对准;p(i,j)是位置i,j处的像素强度;w(i,j)是位置i,j处的像素的均衡器权重;i,j是在围绕以p(m,n)为中心的孔的像素范围上起作用的求和限制,例如,-4<=i<=4,-4<=j<=4;并且输出是输入像素的加权平均值。
图9例示了一个具体实施,其中因为没有执行诸如关于图8所讨论的重新采样,目标簇1(蓝色)的中心基本上不与像素206的中心同心。在这种具体实施中,在所选择的LUT124的集合当中发生插值,以产生具有插值系数的插值LUT。具有插值系数的插值LUT在本文中也被称为权重核132。
首先,像在图8中那样,选择对应于目标簇1(蓝色)的中心落在其中的特定子像素的第一LUT,即LUT 12。然后,LUT选择器122从子像素查找表106库中选择附加的子像素查找表,该附加的子像素查找表对应于与特定子像素最连续相邻的子像素。在图9中,邻接特定子像素12的最近的连续相邻子像素是子像素7、8和13,并且因此LUT 7、8和13分别选自LUT库106。
图10描绘了在所选择的LUT的集合之间进行插值并生成相应LUT权重的一个具体实施。插值器126被配置为具有插值逻辑(例如,线性、双线性或双三次插值),该插值逻辑使用所选择的LUT 12、7、8和13的系数,并且针对LUT 12、7、8和13中的每一者生成权重128。
图13A、图13B、图13C、图13D、图13E和图13F示出了LUT 12、7、8和13的系数的示例。这些图还示出了被插值器126用来针对LUT 12、7、8和13计算权重128的插值逻辑的示例1312、1322和1332。这些图还示出了针对LUT 12、7、8和13计算的权重128的示例。这些图是Excel表格的快照,并且这些图中的蓝色箭头和颜色编码由Excel的跟踪优先级特征生成以展示插值逻辑。
图11示出了使用LUT 12、7、8和13的计算出的权重128来生成权重核132的权重核生成器130。图14A描绘了权重核132的一个示例。图14B和图14C例示了由权重核生成器130使用以从LUT 12、7、8和13的计算出的权重128生成权重核132的权重核生成逻辑的一个示例1402。权重核132包括被配置为以最大化信噪比的方式混合/组合像素补片300中的像素的强度值的插值像素系数1412,这些像素描绘了来自目标簇1的强度发射以及来自相邻簇2、簇3、簇4和簇5的强度发射。信噪比被最大化的信号是来自目标簇的强度发射,而信噪比被最小化的噪声是来自相邻簇2、簇3、簇4和簇5的强度发射,即空间串扰,加上一些随机噪声(例如,以考虑背景强度发射)。这些插值像素系数1412用作权重,并且混合/组合包括执行LUT系数与像素补片300中的像素的强度值之间的逐元素乘法,以计算这些像素的强度值的加权和。
图12示出了逐元素乘法器134将权重核132的插值像素系数1412逐元素地与像素补片300中的像素的强度值相乘,然后将乘法的中间乘积1202求和以产生加权和136。对于每个孔,光学系统在点源(孔中的簇强度)上以点扩展函数(光学系统的响应)进行操作。在一些具体实施中,将偏差添加到该操作,以考虑由不同的簇尺寸、不同的背景强度、变化的刺激响应、变化的聚焦、变化的传感器灵敏度和变化的透镜像差引起的噪声。捕获的图像是来自所有孔的响应的叠加。所选择的LUT将每个孔周围的系统响应均衡,以估计来自该孔的点源的强度,即,它处理传感器像素的局部邻域/网格上的PSF强度,以估计生成传感器像素的局部网格的点源的强度。该均衡器运算是局部网格中的传感器像素与均衡器系数的点积。
当目标簇基本上不与中心像素的中心同心时,如上文关于图9、图10、图11和图12所讨论,均衡器104实施以下均衡逻辑。当孔不在像素中居中时,均衡器104的输出被计算为从测序图像的像素的实际像素强度得到的虚拟像素强度p'(i,j)的函数:
(1)ym,n=∑i,jp′(m+i,n+j).w(i,j)
在以上关系式中,孔中心坐标(m,n)可具有小数部分。每个‘虚拟’均衡器输入p'(i,j)通过对像素邻域应用插值滤波器来生成。在一个具体实施中,使用窗口化sinc低通滤波器h(x,y)进行插值。在其他具体实施中,可使用一些其他滤波器,如双线性插值滤波器。
使用插值滤波器计算位置(i,j)处的虚拟像素,如下:
(2)p′(i,j)=∑u,vp(u,v).h(i-u,j-v)
通过将关系式(1)和(2)组合,均衡器104仅使用原始像素强度,如下:
在以上关系式中,在给定子像素偏移量frac(m),frac(n)的情况下,h是固定的;u,v指定用于插值以生成均衡器输入的像素的范围;并且i,j指定用作均衡器104的输入的虚拟像素的范围。
对于给定的子像素偏移量,发生变化的都是输入像素,而不是滤波器或权重。因此,对于每个分箱的子像素偏移量的中心,我们计算插值均衡器系数的固定集合。于是输出为:
在以上关系式中,hfm,fn表示具有分箱的小数子像素偏移量fm,fn的孔的LUT均衡器系数,其中(fm,fn)是LUT索引。
图15A和图15B展示了权重核的插值像素系数1412如何最大化信噪比并且从被来自簇2、3、4和5的串扰破坏的信号中恢复目标簇1的底层信号。
加权和136作为输入被馈送给碱基检出器138,以产生碱基检出140。碱基检出器138可以是基于非神经网络的碱基检出器或基于神经网络的碱基检出器,这两种碱基检出器的示例在以引用方式并入本文的申请(诸如美国专利申请第62/821,766号和第16/826,168号)中有所描述。
在又其他具体实施中,通过拥有大LUT来消除对插值的需要,其中每个LUT具有大量的子像素箱(例如,每个LUT具有50、75、100、150、200、300等个子像素箱)。
图19A使用来自NovaSeq测序仪的图像示出了表示碱基检出误差率的图。误差率在x轴上按循环示出。y轴上的0.004表示0.4%的碱基检出误差率。这里在将读段映射到Phi-X参考(其为高置信度地面真值集合)并且与之比对之后计算误差率。蓝线是传统碱基检出器。红线是本文所公开的改进的基于均衡器的碱基检出器104。以有限的额外计算为代价,总误差率降低了57%。由于系统中的额外噪声(例如,预定相/定相、簇变暗),随后的循环中的碱基误差率较高。随后的循环中的性能增益增加并且这是有价值的,因为这表明可支持更长的读段。循环之间的性能变化也显著减小。
图19B示出了本发明所公开的基于均衡器的碱基检出器104关于来自NovaSeq测序仪和Vega测序仪的测序数据的性能结果的另一个示例。对于NovaSeq测序仪,本发明所公开的基于均衡器的碱基检出器104将碱基检出误差率降低超过50%。对于Vega测序仪,本发明所公开的基于均衡器的碱基检出器104将碱基检出误差率降低超过35%。
图19C示出了本发明所公开的基于均衡器的碱基检出器104关于来自NextSeq2000测序仪的测序数据的性能结果的另一个示例。对于NextSeq2000测序仪,本发明所公开的基于均衡器的碱基检出器104将碱基检出误差率平均降低10%,而不影响通量。
图19D示出了本发明所公开的基于均衡器的碱基检出器104所需的计算资源的一个具体实施。如图所示,本发明所公开的基于均衡器的碱基检出器104可使用范围从两个至七个线程的少量CPU线程来运行。因此,本发明所公开的基于均衡器的碱基检出器104是计算上高效的碱基检出器,其显著降低了碱基误差率,并且因此可被集成到大多数现有的测序仪中,而不需要任何附加的计算资源或专用处理器如GPU、FPGA、ASIC等。
碱基检出对流通池倾斜的依赖—附加具体实施细节
在一些具体实施中,成像器能够确定正被成像的样本的表面平面诸如在X轴(有时被称为斜侧)、Y轴(有时被称为倾斜)和/或Z轴(有时被称为扭转)上的取向。在一些具体实施中,成像器,诸如与跟相对于成像器保持和/或移动流通池相关联的元件组合,能够使用所确定的取向来减少图像的原本将失焦的部分。失焦部分的减少例如通过控制X轴取向、Y轴取向和/或Z轴取向以增加图像的位于成像器的DoF内的部分来执行。取向控制根据各种具体实施通过例如一个或多个致动器和/或马达驱动器来实现。2022年1月18日提交的名称为“Dynamic Detilt Focus Tracking”的美国临时专利申请第63/300,531号(代理人案卷号IP-2205-PRV)中阐述了进一步的描述。尽管存在前述的失焦图像部分的减少,但是一些具体实施提供了对倾斜、聚焦和/或距离的测量和/或确定,这些测量和/或确定可用于实现本文别处描述的技术,以经由依赖于流通池倾斜的碱基检出来提高碱基检出准确性。
确定倾斜、焦点和/或距离
根据具体实施,倾斜、焦点和/或距离(例如,相对于正被成像的图像的一部分)的测量和/或确定经由各种技术进行。流通池和/或图像区域倾斜可通过测量投射点之间的距离、使用分辨率特征的网格和/或有目的地引入的光学像差来确定。跨流通池和/或一个或多个图像区域的多个倾斜值可经由对表面高度的图的创建和处理来确定。图像区域焦点可通过共轭透镜波束间隔来确定。图像区域的离焦可使用多点聚焦跟踪器来测量。
前述技术在以下更详细地描述。
根据点间隔测量进行的倾斜确定
在一些具体实施中,通过测量投射到正被成像的样本区域上的一对点之间的间隔来确定倾斜。在一些具体实施中,通过测量投射到样本图像区域(例如,正被成像和/或将被成像的区域)上的第一对点之间的第一间隔并且进一步通过测量投射到样本区域上的第二对点之间的第二间隔来确定倾斜。一对或多对点由光源投射。在一些具体实施中,倾斜确定根据一个维度进行,并且在一些其他具体实施中,倾斜确定根据多个维度(例如,基本上彼此垂直的两个维度)进行。在一些具体实施中,第一间隔用于确定第一样本高度,第二间隔用于确定第二样本高度,并且第一样本高度和第二样本高度用于确定对应的样本倾斜。在一些具体实施中,根据一对点与多个样本位置处的多个图像的多个间隔测量来确定倾斜图。2022年1月18日提交的名称为“Dynamic Detilt Focus Tracking”的美国临时专利申请第63/300,531号(代理人案卷号IP-2205-PRV)中阐述了进一步的描述。
根据共轭透镜波束间隔进行的聚焦确定
在一些具体实施中,通过将一对入射光束提供到共轭透镜来确定聚焦程度。共轭透镜将入射光束朝向聚焦区域引导。入射光束从样本图像区域(例如,正被成像和/或将被成像的区域)反射。反射光束返回到共轭透镜并传播通过共轭透镜。测量反射光束之间的相对间隔,并且使用相对间隔基于相对间隔来确定相对于样本的聚焦程度、工作距离和/或表面轮廓。2013年4月16日提交的名称为“Focusing Methods and Optical Systems andAssemblies Using the Same”的美国非临时专利第U.S.8,422,031B2号中阐述了进一步的描述。
分辨率特征的网格
在一些具体实施中,通过收集分辨率特征(诸如包括在流通池中的针孔阵列和/或多个隔离的纳米孔)的网格的图像的全焦距堆叠以及分析图像以确定倾斜来确定样本的倾斜。例如,通过在不同的X坐标处执行多个全焦距堆叠以及比较每个X坐标处的最佳焦点Z位置,倾斜可作为角度进行测量。附加地或另选地,通过使用自动对焦系统在多个X位置处检测可利用成像器观察的元素(诸如簇和/或基准)的Z位置,倾斜可作为角度进行测量。2019年3月1日提交的名称为“Solid Inspection Apparatus and Method of Use”的美国非临时专利第U.S.10,830,700B2号阐述了进一步的描述。
多点聚焦跟踪器
多点聚焦跟踪器测量图像平面中的多个位置处的离焦。处理离焦测量以确定多个位置处的倾斜。
光学像差
将光学像差引入成像器的光学系统中(例如,使用相位掩模),使得点扩散函数在过焦和欠焦之间是不对称的,从而使得能够容易地在过焦离焦和欠焦离焦之间进行辨别。处理这些辨别以确定倾斜信息。
表面图
在多个位置处测量流通池的高度,并使用高度来创建表面图。处理表面图以确定多个位置处的倾斜。
基准和目标
基准的示例是对象中或对象上的可区分的参考点。例如,参考点存在于对象的图像中,存在于通过检测对象得到的数据集中,或存在于适合于表达关于相对于对象的参考点的信息的对象的任何其他表示中。参考点可由对象的平面中的x和/或y坐标来指定。另选地或附加地,参考点可由正交于x-y平面的z坐标指定,例如,由对象和检测器的相对位置限定。参考点的一个或多个坐标可相对于对象或图像或从对象得到的其他数据集的一个或多个其他特征来指定。
图20A例示了基准示例。该图的上部部分是具有四个同心牛眼环的单个基准的特写。该图的下部部分是区块的图像,其中该图像中具有六个示例牛眼环基准。在各种具体实施中,各处的点中的每个点表示相应寡核苷酸簇、图案化流通池的相应纳米孔、或其中具有一个或多个寡核苷酸簇的相应纳米孔。在一些具体实施中,牛眼环基准包括由深色边界围绕的浅色环,以便增强对比度。基准可用作用于将被成像区块诸如与相同区块(例如,在各种波长下)的其他图像对准的参考点。例如,经由与参考虚拟基准的位置的互相关以及将该位置确定为使互相关分数最大化的位置来确定图像中的基准的位置。在一些具体实施中,使用用于离散函数的互相关关系式来执行互相关(参见例如图20C)。
图20B例示了各种聚焦上下文中的示例基准。使用选择性铬层以加号的形式构造示例基准,使得具有铬的区域呈现深色,并且没有铬的区域呈现白色。在一些上下文中,使用铬实现的基准被称为‘超级目标(Uber Target)’、铬目标或简称为目标。从上到下所例示,(例如,成像器的)相机在铬层上方聚焦、在铬层处聚焦和在铬层下方聚焦。当在铬层处聚焦时,铬的边缘看起来是清晰的。当在铬层上方或下方聚焦时,铬的边缘看起来是模糊的。在一些具体实施中,铬目标可用于执行聚焦表征。
根据如本文别处描述的各种具体实施,基准(如图20A和/或图20B所例示)可用作参考图像数据(例如,地面真值图像数据)。在一些具体实施中,使用评分关系式(参见例如图20D)来计算图像中的基准与虚拟基准之间的拟合的良好程度的量度。在各种具体实施中,各种图像对准操作使用基于评估一个或多个互相关关系式(例如,图20C所例示)和/或一个或多个评分关系式(例如,图20D所例示)的信息。在各种具体实施中,各种基准损失函数使用基于评估一个或多个互相关关系式(例如,图20C所例示)和/或一个或多个评分关系式(例如,图20D所例示)的信息。在各种具体实施中,各种基准质量评定使用基于评估一个或多个互相关关系式(例如,图20C所例示)和/或一个或多个评分关系式(例如,图20D所例示)的信息。
相对于图1AA的碱基检出对流通池倾斜的依赖的示例考虑图20B的基准的各种使用示例。作为第一示例,相机在铬层上方聚焦,如在图20B的上部部分中。图像是模糊的。在图1AA的训练上下文中,响应于图像(或其部分)过焦的确定,选择‘+碱基检出器’用于训练。针对过焦上下文,使用‘+GT’元件训练‘+LUT’元件。类似地,在图1AA的生产上下文中,响应于图像(或其部分)过焦的确定,选择‘+碱基检出器’用于生产。针对过焦上下文,使用‘+LUT’元件执行碱基检出。
作为第二示例,相机在铬层处聚焦,如在图20B的中部部分中。图像是清晰的。在图1AA的训练上下文中,响应于图像(或其部分)对焦的确定,选择‘=碱基检出器’用于训练。针对对焦上下文,使用‘=GT’元件训练‘=LUT’元件。类似地,在图1AA的生产上下文中,响应于图像(或其部分)对焦的确定,选择‘=碱基检出器’用于生产。针对对焦上下文,使用‘=LUT’元件执行碱基检出。
作为第三示例,相机在铬层下方聚焦,如在图20B的下部部分中。图像是模糊的。在图1AA的训练上下文中,响应于图像(或其部分)欠焦的确定,选择‘-碱基检出器’用于训练。针对欠焦上下文,使用‘-GT’元件训练‘-LUT’元件。类似地,在图1AA的生产上下文中,响应于图像(或其部分)欠焦的确定,选择‘-碱基检出器’用于生产。针对欠焦上下文,使用‘-LUT’元件执行碱基检出。
图20C例示了离散函数的示例互相关关系式。示例互相关关系式可用于例如使用示例评分关系式(参见例如图20D)来确定基准的位置(参见例如图20A)。
图20D例示了示例评分关系式。在示例评分关系式中,Minimum_CC是互相关的最大值,Maximum_CC是互相关的最大值,并且RunnerUp_CC是在例如距离Maximum_CC的位置的四个像素的半径之外的最大互相关值。
附加技术
在各种具体实施中,在涉及自学习碱基检出器的系统中使用与碱基检出对流通池倾斜的依赖相关的一种或多种技术。对于各种示例,基于神经网络和/或基于非神经网络的碱基检出器被训练并用于使用与碱基检出对流通池倾斜的依赖相关的一种或多种技术进行碱基检出。2021年8月3日提交的名称为“Self-Learned Base Caller”的美国临时专利申请第63/228,954号中阐述了另外的描述。
在各种具体实施中,根据流通池倾斜依赖来训练一个或多个锐化掩模。例如,如在2021年10月26日提交的名称为“Intensity Extraction with Interpolation andAdaptation for Base Calling”的美国非临时专利申请第17/511,483号(代理人案卷号ILLM 1053-1/IP-2214-US)中描述的锐化掩模的训练(以及随后的使用)适于针对多个聚焦上下文中的每个聚焦上下文训练和使用锐化掩模集。使用与过焦成像相关联的图像信息和/或地面真值信息来训练第一锐化掩模集。使用与对焦成像相关联的图像信息和/或地面真值信息来训练第二锐化掩模集。使用与欠焦成像相关联的图像信息和/或地面真值信息来训练第三锐化掩模集。在三个锐化掩模集的训练之后,在碱基检出期间使用掩模。在碱基检出期间,使用第一锐化掩模集锐化被确定为过焦的图像,使用第二锐化掩模集锐化被确定为对焦的图像,并且使用第三锐化掩模集锐化被确定为欠焦的图像。
图21例示了RTA管道具体实施的概述。在两个通道(例如,对应于图像1的第一波长和图像2的第二波长)中收集图像。图像的处理如图所示,从配准开始,并且通过拟合一个或多个高斯以确定最可能的碱基检出来进行。
在一些具体实施中,与图像锐化(例如,利用拉普拉斯掩模)相关联的处理适于使用如本文关于流通池倾斜依赖描述的各种技术。例如,一个或多个拉普拉斯掩模与第一倾斜条件(例如,基本上对焦)相关联,并且一个或多个其他拉普拉斯掩模与第二倾斜条件(例如,基本上不对焦)相关联。另选地,第一一个或多个拉普拉斯掩模与过焦的倾斜条件相关联,第二一个或多个拉普拉斯掩模与对焦的倾斜条件相关联,并且第三一个或多个拉普拉斯掩模与欠焦的倾斜条件相关联。
在一些具体实施中,与空间归一化子区块强度相关联的处理适于使用如本文关于流通池倾斜依赖描述的各种技术。例如,选择子区块的第一空间归一化用于与被确定为过焦的图像区域一起使用,选择子区块的第二空间归一化用于与被确定为对焦的图像区域一起使用,并且选择子区块的第三空间归一化用于与被确定为欠焦的图像区域一起使用。在一些具体实施中,根据流通池倾斜来训练空间归一化,诸如分别在过焦、对焦和欠焦图像的上下文中训练。在一些具体实施中,空间归一化使用诸如如图1AA所例示的均衡器的技术,该均衡器在过焦碱基检出器(‘+碱基检出器’)、对焦碱基检出器(‘=碱基检出器’)和欠焦碱基检出器(‘-碱基检出器’)中使用。
在碱基检出期间使用期望最大化的一些具体实施中,通过针对每个焦点上下文管理单独的独立的相应统计模型来引入流通池倾斜依赖。例如,使用过焦统计模型进行与过焦的图像区域相关联的处理,使用对焦统计模型进行与对焦的图像区域相关联的处理,并且使用欠焦统计模型进行与欠焦的图像区域相关联的处理。这些统计模型中的每个统计模型具有相同架构,但是相对于其他统计模型分别独立地进行EM优化。
一些具体实施不是基于两个聚焦类别(例如,对焦/清晰对比不对焦/模糊)或三个聚焦类别(例如,过焦、对焦和欠焦),而是基于一个、四个或更多个聚焦类别。例如,具体实施基于五个聚焦类别:很大程度上过焦、稍微过焦、对焦、稍微欠焦、以及很大程度上欠焦。其他具体实施基于其他数目的聚焦类别。
一些具体实施不是基于聚焦类别,而是基于倾斜,诸如基于倾斜的量值、倾斜的方向或倾斜的量值和方向。例如,考虑与图1AA和图1AB所描绘的具体实施类似的具体实施。倾斜评估不是评估倾斜以确定过焦、对焦和欠焦,而是确定对应于分别相对于扫描方向向上、水平和向下的倾斜向量的‘上坡’、‘平坦’和‘下坡’。参考对应GT来训练相应碱基检出器中的相应LUT。根据倾斜的分类,参考对应碱基检出器(包括相应LUT)来执行碱基检出。对于另一示例,考虑与前述类似、但具有多个向上类别(例如,很大程度上向上和稍微向上)以及多个向下类别(例如,很大程度上向下和稍微向下)的具体实施。对于又一示例,考虑与前述类似、但具有与倾斜方向相关的多个类别(例如,具有以相对于扫描方向的约0度、90度、180度和270度的中心角为中心的相应相等角度范围)的具体实施。对于又一示例,考虑将多个向上和向下的类别与倾斜方向的类别组合的具体实施。
一些具体实施在开始边合成边测序运行之前测量倾斜和/或高度。一些具体实施在边合成边测序运行期间选择性地多次测量倾斜和/或高度。一些具体实施在边合成边测序运行开始时测量一次倾斜和/或高度。一些具体实施(例如,诸如使用与流通池组合的区域传感器的一些具体实施)在边合成边测序运行期间既不测量倾斜也不测量高度。在边合成边测序运行期间既不测量倾斜也不测量高度的一些具体实施使用如关于图1AA和/或图1AB描述的技术。
一些具体实施在开始边合成边测序运行之前调整焦点和/或倾斜。一些具体实施在边合成边测序运行期间选择性地多次调整焦点和/或倾斜。一些具体实施在边合成边测序运行开始时调整一次焦点和/或倾斜。一些具体实施(例如,诸如使用与流通池组合的区域传感器的一些具体实施)在边合成边测序运行期间既不调整聚焦也不调整倾斜。在边合成边测序运行期间既不调整聚焦也不调整倾斜的一些具体实施使用如关于图1AA和/或图1AB描述的技术。
与在边合成边测序运行期间执行聚焦和/或倾斜调整的具体实施相比,在边合成边测序运行期间既不执行聚焦调整也不执行倾斜调整的一些具体实施在一些使用场景中实现增强的通量。考虑在边合成边测序运行期间既不执行聚焦调整也不执行倾斜调整的具体实施的第一具体示例。在训练期间,使用图像和相关联倾斜信息(例如,量值、方向或两者)来选择性地训练各种碱基检出器。图像和相关联倾斜信息是在没有聚焦和倾斜调整的益处的情况下收集的。通过使用与图像相关联的倾斜信息来选择针对该图像训练哪个碱基检出器,训练是选择性的。在生产期间,选择性地使用各种(受过训练的)碱基检出器来执行从图像和相关联倾斜信息进行的碱基检出。通过使用与图像相关联的倾斜信息来选择哪个碱基检出器要针对图像执行碱基检出,碱基检出是选择性的。
考虑在边合成边测序运行期间既不执行聚焦调整也不执行倾斜调整的具体实施的第二具体示例。第二具体示例类似于第一具体示例。然而,不是依赖于倾斜信息来选择碱基检出器,而是将倾斜信息直接用作用于训练和生产使用一个或多个碱基检出器的参数。根据具体实施,所使用的倾斜信息不同地是倾斜的量值、倾斜的方向或两者。
在根据前述具体示例的一些具体实施以及根据如关于图1AA和/或图1AB描述的技术的一些具体实施中,碱基检出器使用一种或多种人工智能(AI)技术,并且训练是在AI技术中的至少一些AI技术的上下文中进行的。使用一种或多种AI技术的一些具体实施被称为‘deepRTA’具体实施。关于DeepRTA的附加信息可在美国专利申请16/825,987;16/825,991;16/826,126;16/826,134;16/826,168;62/979,412;62/979,411;17/179,395;62/979,399;17/180,480;17/180,513;62/979,414;62/979,385;和63/072,032中找到。
在根据前述具体示例的一些具体实施以及根据如关于图1AA和/或图1AB描述的技术的一些具体实施中,碱基检出器使用除AI之外的技术。使用一种或多种除AI之外的技术的一些具体实施被称为‘RTA’具体实施。
在一些具体实施中,对于边合成边测序运行的的一个或多个边合成边测序循环,在样本的荧光成像期间或者在荧光成像之前和/或之后原位测量倾斜。在一些情形中(例如,流通池的一个或多个区域的倾斜在区块内相对恒定和/或随时间推移相对恒定),每边合成边测序循环测量或在一个边合成边测序循环内测量一次倾斜。在一些情形中(例如,流通池的一个或多个区域的倾斜随时间推移改变,诸如由于热波动),每边合成边测序循环或在多于一个边合成边测序循环内测量多于一次倾斜。
技术改进和术语
在本申请中,术语“簇”、“孔”、“样本”和“荧光样本”可互换使用,因为孔包含对应的簇/样本/荧光样本。如本文所定义,“样本”及其衍生物以其最广泛的意义使用,并且包括怀疑包括目标的任何标本、培养物等。在一些具体实施中,样本包括DNA、RNA、PNA、LNA、嵌合或杂交形式的核酸。样本可包括包含一种或多种核酸的任何基于生物、临床、外科、农业、大气或水生动植物的标本。该术语还包括任何分离的核酸样本,诸如基因组学DNA、新鲜冷冻或福尔马林固定石蜡包埋的核酸标本。还设想样本可来自:单个个体、来自遗传相关成员的核酸样本的集合、来自遗传不相关成员的核酸样本、来自单个个体的(与之匹配的)核酸样本(诸如肿瘤样本和正常组织样本),或者来自包含两种不同形式的遗传物质(诸如从母体受试者获得的母体DNA和胎儿DNA)的单个来源的样本,或者在包含植物或动物DNA的样本中存在污染性细菌DNA。在一些具体实施中,核酸物质的来源可包括从新生儿获得的核酸,例如通常用于新生儿筛检的核酸。
核酸样本可包括高分子量物质,诸如基因组学DNA(gDNA)。样本可包括低分子量物质,诸如从FFPE样本或存档的DNA样本获得的核酸分子。在另一个具体实施中,低分子量物质包括酶促片段化或机械片段化的DNA。样本可包括无细胞循环DNA。在一些具体实施中,该样本可包括从活检组织、肿瘤、刮取物、拭子、血液、黏液、尿液、血浆、精液、毛发、激光捕获显微解剖、手术切除和其他临床或实验室获得的样本获得的核酸分子。在一些具体实施中,该样本可以是流行病学样本、农业样本、法医学样本或病原性样本。在一些具体实施中,该样本可包括从动物诸如人或哺乳动物来源获得的核酸分子。在另一个具体实施中,该样本可包括从非哺乳动物来源(诸如植物、细菌、病毒或真菌)获得的核酸分子。在一些具体实施中,核酸分子的来源可以是存档或灭绝的样本或物种。
另外,本文所公开的方法和组合物可用于扩增具有低质量核酸分子的核酸样本,诸如来自法医学样本的降解的和/或片段化的基因组学DNA。在一个具体实施中,法医学样本可包括从犯罪现场获得的核酸、从失踪人员DNA数据库获得的核酸、从与法医调查相关联的实验室获得的核酸,或者包括由执法机关、一种或多种军事服务或任何此类人员获得的法医学样本。核酸样本可以是纯化的样本或包含粗DNA的溶胞产物,例如来源于口腔拭子、纸、织物或可用唾液、血液或其他体液浸渍的其他基板。因此,在一些具体实施中,核酸样本可包含少量DNA诸如基因组学DNA,或者DNA的片段化部分。在一些具体实施中,靶序列可存在于一种或多种体液中,其中体液包括但不限于血液、痰、血浆、精液、尿液和血清。在一些具体实施中,靶序列可获自受害者的毛发、皮肤、组织样本、尸体解剖或遗骸。在一些具体实施中,包括一种或多种靶序列的核酸可获自死亡的动物或人。在一些具体实施中,靶序列可包括从非人DNA(诸如微生物、植物或昆虫DNA)获得的核酸。在一些具体实施中,靶序列或扩增的靶序列涉及人类身份标识的目的。在一些具体实施中,本公开整体涉及用于标识法医学样本的特征的方法。在一些具体实施中,本公开整体涉及使用本文所公开的一种或多种靶特异性引物或用本文概述的引物设计标准设计的一种或多种靶特异性引物的人类身份标识方法。在一个具体实施中,包含至少一种靶序列的法医学样本或人类身份标识样本可使用本文所公开的任何一种或多种靶特异性引物或者使用本文概述的引物标准进行扩增。
如本文所用,术语“相邻”在关于两个反应位点使用时,意味着在这两个反应位点之间没有其他的反应位点。术语“相邻”在关于相邻检测路径和相邻光检测器使用时可具有类似的含义(例如,相邻光检测器之间没有其他的光检测器)。在一些情况下,一个反应位点可不与另一个反应位点相邻,但仍然可在该另一个反应位点的紧邻范围内。当来自第一反应位点的荧光发射信号被与第二反应位点相关联的光检测器检测到时,第一反应位点可紧邻第二反应位点。更具体地,当与第二反应位点相关联的光检测器检测到例如来自第一反应位点的串扰时,第一反应位点可紧邻第二反应位点。相邻反应位点可以是相连的,使得它们彼此邻接;或者相邻位点可以是非相接的,在它们之间具有间距空间。
本申请中引用的所有文献和类似材料,包括但不限于专利、专利申请、文章、书籍、论文和网页,无论这些文献和类似材料的格式如何,都明确地全文以引用方式并入。如果所并入文献和类似材料中的一者或多者与本申请不同或矛盾,包括但不限于所定义的术语、术语用法、所描述的技术等,则以本申请为准。关于术语的附加信息可在2020年3月21日提交的名称为“Artificial Intelligence-Based Sequencing”的美国非临时专利申请第16/826,168号(代理人案卷号ILLM 1008-20/IP-1752-PRV)和2019年3月21日提交的名称为“Artificial Intelligence-Based Sequencing”的美国临时专利申请第62/821,766号(代理人案卷号ILLM 1008-9/IP-1752-PRV)中找到。
本发明所公开的技术使用神经网络来改善可从核酸样本诸如核酸模板或其互补序列、例如DNA或RNA多核苷酸或其他核酸样本获得的核酸序列信息的质量和数目。因此,相对于先前可用的方法,本发明所公开的技术的某些具体实施提供更高通量的多核苷酸测序,例如更高的DNA或RNA序列数据收集速率、更高的序列数据收集效率和/或获得这种序列数据的更低成本。
本发明所公开的技术使用神经网络来标识固相核酸簇的中心并且分析在此类簇的测序期间生成的光信号,以明确地区分相邻、邻接或重叠的簇,以便将测序信号分配给单个离散源簇。因此,这些和相关具体实施允许从高密度簇阵列的区域检索有意义的信息诸如序列数据,其中由于重叠或非常紧密间隔的相邻簇的混杂效应,包括从其发出的重叠信号(例如,如在核酸测序中所用)的效应,先前无法从此类区域获得可用信息。
如下文更详细地描述,在某些具体实施中,提供了包含固体载体的组合物,该固体载体具有固定到其上的一个或多个如本文提供的核酸簇。每个簇包含多个相同序列的固定化核酸并且具有可标识中心,该可标识中心具有如本文所提供的可检测中心标记,通过该可检测中心标记可将可标识中心与簇中周围区域中的固定化核酸区分开。本文还描述了用于制造和使用具有可标识中心的此类簇的方法。
本发明所公开的具体实施将在许多情况下使用,其中从标识、确定、注释、记录或以其他方式分配簇内基本上中心位置的位置的能力中获得优势,诸如高通量核酸测序、用于将光学或其他信号分配给离散源簇的图像分析算法的开发,以及其中识别固定化核酸簇中心是期望的且有益的其他应用。
在某些具体实施中,本发明设想了涉及高通量核酸分析诸如核酸序列测定(例如,“测序”)的方法。示例性高通量核酸分析包括但不限于从头测序、重新测序、全基因组测序、基因表达分析、基因表达监测、表观遗传分析、基因组甲基化分析、等位基因特异性引物延伸(APSE)、遗传多样性分析、全基因组多态性发现和分析、单核苷酸多态性分析、基于杂交的序列测定方法等。本领域的技术人员将会知道,可使用本发明的方法和组合物分析多种不同的核酸。
虽然关于核酸测序描述了本发明的具体实施,但它们适用于分析在不同时间点、空间位置或其他时间或物理视角采集的图像数据的任何领域。例如,本文所述的方法和系统可用于分子和细胞生物学领域,其中在不同的时间点或视角采集来自微阵列、生物标本、细胞、生物体等的图像数据并进行分析。图像可使用本领域已知的任何数目的技术获得,包括但不限于荧光显微镜法、光学显微镜法、共聚焦显微镜法、光学成像、磁共振成像、断层扫描等。又如,可应用本文所述的方法和系统,其中在不同的时间点或视角采集通过监测、空中或卫星成像技术等获得的图像数据并进行分析。该方法和系统尤其可用于分析针对视野获得的图像,其中被观察的分析物在视野中相对于彼此保持在相同位置。然而,该分析物可能具有在单独图像中不同的特征,例如,该分析物可能在视野的单独图像中看起来不同。例如,就在不同图像中检测到的给定分析物的颜色、在不同图像中检测到的给定分析物的信号强度的变化、或者甚至在一个图像中检测到的给定分析物的信号出现以及在另一个图像中检测到的该分析物的信号消失而言,分析物可能看起来不同。
如本文所用,术语“分析物”旨在表示图案中的点或区域,其可根据相对位置区别于其他点或区域。单个分析物可包括一种或多种特定类型的分子。例如,分析物可包括具有特定序列的单个靶核酸分子,或者分析物可包括具有相同序列(和/或其互补序列)的若干核酸分子。位于图案的不同分析物处的不同分子可根据分析物在图案中的位置而彼此区分。示例分析物包括但不限于基板中的孔、基板中或基板上的小珠(或其他颗粒)、基板的突出部、基板上的脊、基板上的凝胶材料垫或基板中的通道。
待检测、表征或标识的多种目标分析物中的任一种可用于本文阐述的设备、系统或方法中。示例性分析物包括但不限于核酸(例如,DNA、RNA或它们的类似物)、蛋白质、多糖、细胞、抗体、表位、受体、配体、酶(例如,激酶、磷酸酶或聚合酶)、小分子候选药物、细胞、病毒、生物体等。
术语“分析物”、“核酸”、“核酸分子”和“多核苷酸”在本文中可互换使用。在各种具体实施中,核酸可用作如本文所提供的模板(例如,核酸模板,或与核酸模板互补的核酸互补序列)以用于特定类型的核酸分析,包括但不限于核酸扩增、核酸表达分析和/或核酸序列测定或它们的合适组合。在某些具体实施中,核酸包括例如3'-5'磷酸二酯或其他键中的脱氧核糖核苷酸的线性聚合物,诸如脱氧核糖核酸(DNA),例如单链和双链DNA、基因组DNA、拷贝DNA或互补DNA(cDNA)、重组DNA或任何形式的合成或修饰DNA。在其他具体实施中,核酸包括例如3'-5'磷酸二酯或其他键中的核糖核苷酸的线性聚合物,诸如核糖核酸(RNA),例如单链和双链RNA、信使(mRNA)、拷贝RNA或互补RNA(cRNA)、选择性剪接的mRNA、核糖体RNA、核仁小RNA(snoRNA)、微小RNA(miRNA)、小干扰RNA(sRNA)、piwi RNA(piRNA)或任何形式的合成或修饰的RNA。用于本发明的组合物和方法中的核酸的长度可变化,并且可以是完整的或全长的分子或片段或较大核酸分子的较小部分。在特定具体实施中,核酸可具有一种或多种可检测标记,如本文别处描述。
术语“分析物”、“簇”、“核酸簇”、“核酸群体”和“DNA簇”可互换使用,指附着到固体载体的核酸模板和/或其互补序列的多个拷贝。在一些具体实施中,核酸簇包含模板核酸和/或其互补序列的多个拷贝,该多个拷贝经由它们的5'末端附着到固体载体。构成核酸簇的核酸链的拷贝可为单链或双链形式。簇中存在的核酸模板的拷贝可在例如由于标记部分的存在而彼此不同的对应位置处具有核苷酸。对应的位置还可包含具有不同化学结构但具有相似Watson-Crick碱基配对属性的类似结构,诸如尿嘧啶和胸腺嘧啶的情况。
核酸群体也可称为“核酸簇”。核酸群体可任选地通过簇扩增或桥式扩增技术产生,如本文别处进一步详细阐述的。靶序列的多个重复可存在于单个核酸分子中,诸如使用滚环扩增程序产生的多联体。
根据所用的条件,本发明的核酸簇可具有不同的形状、大小和密度。例如,簇可具有基本上圆形、多边形、圆环形或环形的形状。核酸簇的直径可被设计成约0.2μm至约6μm、约0.3μm至约4μm、约0.4μm至约3μm、约0.5μm至约2μm、约0.75μm至约1.5μm或任何介于其间的直径。在特定具体实施中,核酸簇的直径为约0.5μm、约1μm、约1.5μm、约2μm、约2.5μm、约3μm、约4μm、约5μm或约6μm。核酸簇的直径可受到多个参数的影响,包括但不限于产生簇时进行的扩增循环数、核酸模板的长度或附着到其上形成有簇的表面的引物的密度。核酸簇的密度可被设计成通常在0.1/mm2、1/mm2、10/mm2、100/mm2、1,000/mm2、10,000/mm2至100,000/mm2的范围内。本发明还部分地设想了较高密度的核酸簇,例如100,000/mm2至1,000,000/mm2和1,000,000/mm2至10,000,000/mm2
如本文所用,“分析物”是标本或视野内的感兴趣区域。当与微阵列设备或其他分子分析设备结合使用时,分析物是指由类似或相同分子占据的区域。例如,分析物可以是扩增的寡核苷酸或具有相同或相似序列的任何其他组的多核苷酸或多肽。在其他具体实施中,分析物可为占据标本上的物理区域的任何元素或元素组。例如,分析物可以是一片土地、一片水域等。当对分析物成像时,每种分析物都会有一定的面积。因此,在许多具体实施中,分析物不仅仅是一个像素。
分析物之间的距离可用任意多种方式描述。在一些具体实施中,分析物之间的距离可被描述为从一种分析物的中心到另一种分析物的中心。在其他具体实施中,距离可被描述为从一种分析物的边缘到另一种分析物的边缘,或者在每种分析物的最外侧可标识点之间。分析物的边缘可被描述为芯片上的理论或实际物理边界,或分析物边界内的某个点。在其他具体实施中,距离可相对于标本上的固定点或标本的图像中的固定点来描述。
一般来讲,本文将关于分析方法来描述若干具体实施。应当理解,还提供了用于以自动化或半自动化的方式执行方法的系统。因此,本公开提供了基于神经网络的模板生成和碱基检出系统,其中这些系统可包括:处理器;存储设备;以及用于图像分析的程序,该程序包括用于执行本文阐述的方法中的一种或多种方法的指令。因此,本文阐述的方法可在例如具有本文阐述或本领域已知的部件的计算机上进行。
本文示出的方法和系统可用于分析多种对象中的任一种。尤其有用的对象是具有连接的分析物的固体载体或固相表面。当用于在xy平面中具有分析物的重复图案的对象时,本文示出的方法和系统提供优点。一个示例是具有细胞、病毒、核酸、蛋白质、抗体、碳水化合物、小分子(诸如候选药物)、生物活性分子或其他感兴趣的分析物的连接集合的微阵列。
已开发出越来越多的应用,用于具有生物分子(诸如核酸和多肽)的分析物的阵列。此类微阵列通常包括脱氧核糖核酸(DNA)或核糖核酸(RNA)探针。这些探针对人类和其他生物体中存在的核苷酸序列为特异性的。在某些应用中,例如,可将单个DNA或RNA探针连接到阵列的单个分析物上。可将诸如来自已知的人或生物体的试样暴露于阵列,使得靶核酸(例如,基因片段、mRNA或其扩增子)与阵列中相应分析物处的互补探针杂交。探针可在靶特异性过程中进行标记(例如,由于存在于靶核酸上的标记或由于在分析物中以杂交形式存在的探针或靶的酶标记)。然后可通过扫描分析物上具体频率的光来检查阵列,以标识样本中存在哪些靶核酸。
生物微阵列可用于遗传测序和类似应用。一般来讲,遗传测序包括确定靶核酸(诸如DNA或RNA的片段)的长度中的核苷酸顺序。相对短的序列通常在每种分析物处进行测序,并且所得的序列信息可用于各种生物信息学方法中以将序列片段逻辑地拟合在一起,从而可靠地确定从其衍生出片段的遗传物质的长度范围更广的序列。已开发出用于特征性片段的自动化的、基于计算机的算法,并且最近已将其用于基因组作图、基因及其功能的标识等。微阵列尤其可用于表征基因组含量,因为存在大量变体,并且这取代了对单个探针和靶进行许多实验的选择方案。微阵列是用于以实际方式进行此类研究的理想形式。
本领域已知的多种分析物阵列(也称为“微阵列”)中的任一种均可用于本文阐述的方法或系统中。典型的阵列包含分析物,每种分析物具有单独的探针或探针群。在后一种情况下,每种分析物处的探针群通常是同质的,具有单一种类的探针。例如,就核酸阵列而言,每种分析物可具有多个核酸分子,每个核酸分子具有共同的序列。然而,在一些具体实施中,阵列的每种分析物处的探针群可以是异质的。类似地,蛋白质阵列可具有含单个蛋白质或蛋白质群的分析物,单个蛋白质或蛋白质群通常但不总是具有相同的氨基酸序列。探针可例如通过探针与表面的共价键合或通过探针与表面的非共价相互作用附着到阵列的表面。在一些具体实施中,探针诸如核酸分子可经由凝胶层附着到表面,如例如在美国专利申请序列第13/784,368号和美国专利申请公布第2011/0059865A1号中描述,这些文献中的每一篇文献均以引用方式并入本文。
示例阵列包括但不限于得自Illumina公司(San Diego,Calif.)的BeadChip阵列或其他阵列,诸如其中探针附着到存在于表面上的小珠(例如,表面上的孔中的小珠)的那些阵列,诸如美国专利第6,266,459号;第6,355,431号;第6,770,441号;第6,859,570号;或第7,622,294号;或PCT公布第WO 00/63437号,这些专利申请中的每一篇均以引用方式并入本文。可使用的可商购获得的微阵列的其他示例包括,例如, 微阵列或根据有时称为VLSIPSTM(超大规模固定化聚合物合成)技术合成的其他微阵列。点状微阵列也可用于根据本公开的一些具体实施的方法或系统中。示例点状微阵列是得自Amersham Biosciences的CodeLinkTM阵列。可用的另一个微阵列是使用喷墨印刷方法(诸如得自Agilent Technologies的SurePrintTM技术)制造的微阵列。
其他可用的阵列包括用于核酸测序应用的阵列。例如,具有基因组片段扩增子的阵列(通常称为簇)是尤其有用的,诸如在以下中有所描述的那些情况:在Bentley等人,Nature 456:53-59(2008),WO 4/018497;WO 91/06678;WO 7/123744;美国专利第7,329,492号;第7,211,414号;第7,315,19号;第7,405,281号或第7,057,26号;或者美国专利申请公布第2008/0108082A1,这些文献中的每一篇文献均以引用方式并入本文。可用于核酸测序的另一种类型的阵列是由乳液PCR技术产生的颗粒的阵列。示例在Dressman等人,Proc.Natl.Acad.Sci.USA 100:8817-8822(2003)、WO 5/010145、美国专利申请公布第2005/0130173号;或美国专利申请公布第2005/0064460号中有所描述,这些文献中的每一篇均全文以引用方式并入本文。
用于核酸测序的阵列通常具有核酸分析物的随机空间模式。例如,得自Illumina公司(San Diego,Calif.)的HiSeq或MiSeq测序平台利用流通池,在该流通池上通过随机接种然后桥式扩增形成核酸阵列。然而,图案化阵列也可用于核酸测序或其他分析应用。示例图案化阵列、其制造方法及其使用方法阐述于美国序列号13/787,396;美国序列第13/783,43号;美国序列第13/784,368号;美国专利申请公布第2013/0116153A1号;和美国专利申请公布第2012/0316086A1号,这些文献中的每一篇文献均以引用方式并入本文。此类图案化阵列的分析物可用于捕获单个核酸模板分子以进行接种,随后例如经由桥式扩增形成同质群体。此类图案化阵列尤其可用于核酸测序应用。
可选择阵列(或本文的方法或系统中使用的其他对象)上的分析物的尺寸以适合特定应用。例如,在一些具体实施中,阵列的分析物可具有仅容纳单个核酸分子的尺寸。具有多个在该尺寸范围内的分析物的表面可用于构造分子阵列,从而以单分子分辨率进行检测。该尺寸范围内的分析物也可用于具有分析物的阵列中,这些分析物各自包含核酸分子的群体。因此,阵列的分析物可各自具有不大于约1mm2、不大于约500μm2、不大于约100μm2、不大于约10μm2、不大于约1μm2、不大于约500nm2、或不大于约100nm2、不大于约10nm2、不大于约5nm2或不大于约1nm2的面积。另选地或附加地,阵列的分析物将不小于约1mm2、不小于约500μm2、不小于约100μm2、不小于约10μm2、不小于约1μm2、不小于约500nm2、不小于约100nm2、不小于约10nm2、不小于约5nm2或不小于约1nm2。实际上,分析物可具有在选自上文所例示的那些上限和下限之间的范围内的尺寸。尽管已关于核酸和核酸的尺度举例说明了表面的分析物的若干尺寸范围,但应当理解,这些尺寸范围内的分析物可用于不包括核酸的应用。还应当理解,分析物的尺寸不必局限于核酸应用中使用的尺度。
对于包括具有多种分析物的对象(诸如,分析物的阵列)的具体实施而言,分析物可以是离散的,彼此之间有间隔。可用于本发明的阵列可具有由至多100μm、50μm、10μm、5μm、1μm、0.5μm或更小的边缘到边缘距离分离的分析物。另选地或附加地,阵列可具有由至少0.5μm、1μm、5μm、10μm、50μm、100μm或更大的边缘到边缘距离分离的分析物。这些范围可适用于分析物的平均边缘到边缘间距以及最小或最大间距。
在一些具体实施中,阵列的分析物不必是离散的,相反相邻的分析物可彼此邻接。无论分析物是否为离散的,分析物的尺寸和/或分析物的间距都可变化,使得阵列可具有期望密度。例如,规则图案中的平均分析物间距可为至多100μm、50μm、10μm、5μm、1μm、0.5μm或更小。另选地或附加地,规则图案中的平均分析物间距可为至少0.5μm、1μm、5μm、10μm、50μm、100μm或更大。这些范围也可适用于规则图案的最大或最小间距。例如,规则图案的最大分析物间距可为至多100μm、50μm、10μm、5μm、1μm、0.5μm或更小;并且/或者规则图案中的最小分析物间距可为至少0.5μm、1μm、5μm、10μm、50μm、100μm或更大。
阵列中分析物的密度也可根据每单位面积存在的分析物数目来理解。例如,阵列的平均分析物密度可为至少约1×103个分析物/mm2、1×104个分析物/mm2、1×105个分析物/mm2、1×106个分析物/mm2、1×107个分析物/mm2、1×108个分析物/mm2或1×109个分析物/mm2或更高。另选地或附加地,阵列的平均分析物密度可为至多约1×109个分析物/mm2、1×108个分析物/mm2、1×107个分析物/mm2、1×106个分析物/mm2、1×105个分析物/mm2、1×104个分析物/mm2或1×103个分析物/mm2或更低。
上述范围可适用于规则图案的全部或部分,包括例如分析物阵列的全部或部分。
图案中的分析物可具有多种形状中的任一种。例如,当在二维平面内诸如在阵列的表面上观察时,分析物可看起来为圆形、环形、椭圆形、矩形、正方形、对称的、不对称的、三角形、多边形等。分析物可以规则的重复图案布置,包括例如六边形或直线形图案。可选择图案以实现所需的填充水平。例如,圆形分析物以六边形布置进行最佳填充。当然,其他填充布置也可用于圆形分析物,并且反之亦然。
图案可根据在形成该图案的最小几何单元的子集中存在的分析物的数目来表征。该子集可包括例如至少约2、3、4、5、6、10种或更多种分析物。根据分析物的尺寸和密度,几何单元可占据小于1mm2、500μm2、100μm2、50μm2、10μm2、1μm2、500nm2、100nm2、50nm2、10nm2或更小的面积。另选地或附加地,几何单元可占据大于10nm2、50nm2、100nm2、500nm2、1μm2、10μm2、50μm2、100μm2、500μm2、1mm2或更大的面积。几何单元中的分析物的特征诸如形状、尺寸、间距等可选自本文针对阵列或图案中的分析物更一般地阐述的那些。
具有分析物的规则图案的阵列关于分析物的相对位置可为有序的,但关于每种分析物的一个或多个其他特征为随机的。例如,就核酸阵列而言,核酸分析物关于其相对位置可为有序的,但关于人们对存在于任何特定分析物处的核酸物质的序列的了解为随机的。作为更具体的示例,通过用模板核酸接种分析物的重复图案,并在每种分析物处扩增模板以在分析物处形成模板的拷贝(例如,通过簇扩增或桥式扩增)形成的核酸阵列将具有核酸分析物的规则图案,但关于核酸序列跨阵列的分布将是随机的。因此,通常在阵列上检测核酸物质的存在可产生分析物的重复图案,而序列特异性检测可产生信号跨阵列的非重复分布。
应当理解,本文对图案、顺序、随机性等的描述不仅涉及对象上的分析物,诸如阵列上的分析物,而且还涉及图像中的分析物。因此,图案、顺序、随机性等可用于存储、操纵或传达图像数据的多种格式中的任一种存在,包括但不限于计算机可读介质或计算机部件,诸如图形用户界面或其他输出设备。
如本文所用,术语“图像”旨在表示对象的全部或部分的表示。该表示可以是光学检测的再现。例如,可从荧光、发光、散射或吸收信号获得图像。存在于图像中的对象的部分可以是对象的表面或其他xy平面。通常,图像为2维表示,但在一些情况下,图像中的信息可来源于3个或更多个维度。图像不需要包括光学检测的信号。相反,可存在非光信号。图像可以计算机可读格式或介质提供,诸如在本文别处阐述的那些中的一者或多者。
如本文所用,“图像”是指标本或其他对象的至少一部分的再现或表示。在一些具体实施中,再现是例如由相机或其他光学检测器产生的光学再现。该再现可以是非光学再现,例如,从纳米孔分析物阵列获得的电信号的表示或从离子敏感型CMOS检测器获得的电信号的表示。在特定具体实施中,非光学再现可从本文阐述的方法或设备中排除。图像可具有能够区分以多种间距中的任一种存在的标本的分析物的分辨率,该间距包括例如分离小于100μm、50μm、10μm、5μm、1μm或0.5μm的那些间距。
如本文所用,“采集(acquiring/acquisition)”等术语是指获得图像文件的过程的任何部分。在一些具体实施中,数据采集可包括生成标本的图像,查找标本中的信号,指示检测设备查找或生成信号的图像,给出用于进一步分析或变换图像文件的指令,以及图像文件的任何数目的变换或操纵。
如本文所用,术语“模板”是指信号或分析物之间的位置或关系的表示。因此,在一些具体实施中,模板是具有对应于标本中的分析物的信号的表示的物理网格。在一些具体实施中,模板可以是指示与分析物对应的位置的图表、表格、文本文件或其他计算机文件。在本文呈现的具体实施中,生成模板以跨在不同参考点处捕获的标本的图像集跟踪标本的分析物的位置。例如,模板可以是x,y坐标的集合或描述一种分析物相对于另一种分析物的方向和/或距离的值集。
如本文所用,术语“标本”可指捕获图像的对象或对象的区域。例如,在拍摄地球表面的图像的具体实施中,一片土地可为标本。在流通池中进行生物分子的分析的其他具体实施中,流通池可被分成任何数目的子部分,每个子部分可为标本。例如,流通池可被分成各种流动通道或槽道,并且每个槽道可被进一步分成2、3、4、5、6、7、8、9、10、20、30、40、50、60、70、80、90、100、110、120、140、160、180、200、400、600、800、1000或更多个单独的成像区域。流通池的一个示例具有8个槽道,其中每个槽道被分成120个标本或区块。在另一个具体实施中,标本可由多个区块或甚至整个流通池组成。因此,每个标本的图像可表示较大表面的成像区域。
应当理解,本文所述的对范围和序数列表的引用不仅包括所枚举的数字,而且还包括所枚举的数字之间的所有实数。
如本文所用,“参考点”是指图像之间的任何时间或物理区别。在一些具体实施中,参考点是时间点。在其他具体实施中,参考点是测序反应期间的时间点或循环。然而,术语“参考点”可包括区分或分离图像的其他方面,诸如角度方面、旋转方面、时间方面或可区分或分离图像的其他方面。
如本文所用,“图像子集”是指集合内的图像集。例如,子集可包含1个、2个、3个、4个、6个、8个、10个、12个、14个、16个、18个、20个、30个、40个、50个、60个图像或选自图像集的任意数目个图像。在特定具体实施中,子集可包含不超过1个、2个、3个、4个、6个、8个、10个、12个、14个、16个、18个、20个、30个、40个、50个、60个图像或选自图像集的任意数目个图像。在一些具体实施中,从一个或多个测序循环获得图像,其中四个图像与每个循环相关。因此,例如,子集可以是通过四个循环获得的一组16个图像。
碱基是指如下核苷酸碱基或核苷酸,A(腺嘌呤)、C(胞嘧啶)、T(胸腺嘧啶)或G(鸟嘌呤)。本申请可互换使用“碱基”和“核苷酸”。
术语“染色体”是指活细胞的携带遗传性的基因载体,其来源于包含DNA和蛋白质组分(尤其是组蛋白)的染色质链。本文采用了常规的国际公认的个体人类基因组染色体编号系统。
术语“位点”是指参考基因组上的独特位置(例如,染色体ID、染色体位置和取向)。在一些具体实施中,位点可为残基、序列标签或片段在序列上的位置。术语“基因位点”可用于指核酸序列或多态性在参考染色体上的特定位置。
本文的术语“样本”是指通常来源于生物流体、细胞、组织、器官或生物体且包含核酸或核酸混合物的样本,该核酸或核酸混合物包含待测序和/或定相的至少一种核酸序列。此类样本包括但不限于痰/口腔液、羊水、血液、血液级分、细针活检样本(例如,外科活检、细针活检等)、尿液、腹膜液、胸膜液、组织外植体、器官培养物和任何其他组织或细胞制剂,或其级分或衍生物,或从其分离的级分或衍生物。虽然样本通常取自人类受试者(例如,患者),但样本可取自具有染色体的任何生物体,包括但不限于狗、猫、马、山羊、绵羊、牛、猪等。样本可按从生物来源获得的原样直接使用,或者经过预处理以改变样本的性质后使用。例如,此类预处理可包括由血液制备血浆、稀释粘性流体等。预处理的方法还可涉及但不限于过滤、沉淀、稀释、蒸馏、混合、离心、冷冻、冻干、浓缩、扩增、核酸片段化、干扰组分的灭活、添加试剂、裂解等。
术语“序列”包括或代表彼此偶联的核苷酸链。核苷酸可基于DNA或RNA。应当理解,一个序列可包括多个子序列。例如,单个序列(例如,PCR扩增子的序列)可具有350个核苷酸。样本读段可包括这350个核苷酸内的多个子序列。例如,样本读段可包括具有例如20-50个核苷酸的第一侧翼子序列和第二侧翼子序列。第一侧翼子序列和第二侧翼子序列可位于具有对应子序列(例如,40个-100个核苷酸)的重复片段的任一侧上。每个侧翼子序列可包括引物子序列(例如,10个-30个核苷酸)(或包括其部分)。为了便于阅读,术语“子序列”将被称为“序列”,但应当理解,两个序列不一定在共同链上彼此分离。为了区分本文所述的各种序列,可给序列赋予不同的标记(例如,靶序列、引物序列、侧翼序列、参考序列等)。其他术语诸如“等位基因”可被赋予不同的标记,以区分相似的对象。本申请可互换使用“读段”和“序列读段”。
术语“双端测序”是指对靶片段的两端进行测序的测序方法。双端测序可有助于检测基因组重排和重复片段,以及基因融合和新转录本。用于双端测序的方法在PCT公布WO07010252、PCT申请序列第PCTGB2007/003798号和美国专利申请公布U.S.2009/0088327中描述,这些专利中的每一篇均以引用方式并入本文。在一个示例中,可如下执行一系列操作;(a)生成核酸簇;(b)使核酸线性化;(c)使第一测序引物杂交,并如上阐述进行延伸、扫描和解封闭的重复循环;(d)通过合成互补拷贝“反转”流通池表面上的靶核酸;(e)使重新合成的链线性化;以及(f)使第二测序引物杂交,并如上阐述进行延伸、扫描和解封闭的重复循环。反转操作可通过将如上阐述的试剂递送用于桥式扩增的单个循环来进行。
术语“参考基因组”或“参考序列”是指可用于参考来自受试者的已标识序列的任何生物体的任何特定已知基因组序列,无论是部分的还是完整的。例如,可在ncbi.nlm.nih.gov的美国国家生物技术信息中心(National Center for BiotechnologyInformation)找到用于人类受试者以及许多其他生物体的参考基因组。“基因组”是指以核酸序列表达的生物体或病毒的完整遗传信息。基因组既包括基因又包括DNA的非编码序列。参考序列可大于与其比对的读段。例如,参考序列可为比对读段的至少约100倍大、或至少约1000倍大、或至少约10,000倍大、或至少约105倍大、或至少约106倍大、或至少约107倍大。在一个示例中,参考基因组序列是全长人类基因组的序列。在另一个示例中,参考基因组序列限于特定的人类染色体,诸如13号染色体。在一些具体实施中,参考染色体是来自人类基因组版本hg19的染色体序列。此类序列可称为染色体参考序列,但术语参考基因组旨在涵盖此类序列。参考序列的其他示例包括其他物种的基因组,以及任何物种的染色体、亚染色体区域(诸如链)等。在各种具体实施中,参考基因组是来源于多个个体的共有序列或其他组合。然而,在某些应用中,参考序列可取自特定个体。在其他具体实施中,“基因组”还涵盖所谓的“图形基因组”,其使用基因组序列的特定存储格式和表示。在一个具体实施中,图形基因组将数据存储在线性文件中。在另一个具体实施中,图形基因组是指其中另选序列(例如,具有小差异的染色体的不同拷贝)作为不同路径存储在图中的表示。关于图形基因组具体实施的附加信息可在https://www.biorxiv.org/content/biorxiv/early/2018/3/20/194530.full.pdf中找到,其内容据此全文以引用方式并入本文。
术语“读段”是指描述核苷酸样本或参考的片段的序列数据的集合。术语“读段”可指样本读段和/或参考读段。通常,尽管不是必须的,读段表示样本或参考中邻接碱基对的短序列。读段可由样本或参考片段的碱基对序列(ATCG形式)象征性地表示。读段可存储在存储器设备中并视情况进行处理,以确定该读段是匹配参考序列还是满足其他标准。读段可直接从测序装置获得或间接从所存储的关于样本的序列信息获得。在一些情况下,读段为足够长度(例如,至少约25bp)的DNA序列,其可用于标识更大的序列或区域,例如,其可被比对并特异性地分配给染色体或基因组区域或基因。
下一代测序方法包括例如边合成边测序技术(Illumina)、焦磷酸测序(454)、离子半导体技术(Ion Torrent测序)、单分子实时测序(Pacific Biosciences)和边连接边测序(SOLiD测序)。根据测序方法,每个读段的长度可在约30bp至超过10,000bp之间变化。例如,使用SOLiD测序仪的DNA测序方法产生约50bp的核酸读段。又如,Ion Torrent测序产生最多400bp的核酸读段并且454焦磷酸测序产生约700bp的核酸读段。又如,单分子实时测序方法可产生10,000bp至15,000bp的读段。因此,在某些具体实施中,核酸序列读段的长度为30bp-100bp、50bp-200bp或50bp-400bp。
术语“样本读段”、“样本序列”或“样本片段”是指来自样本的感兴趣的基因组序列的序列数据。例如,样本读段包含来自具有正向和反向引物序列的PCR扩增子的序列数据。序列数据可从任何选择的序列方法中获得。样本读段可例如来自边合成边测序(SBS)反应、边连接边测序反应或需要确定重复元件的长度和/或同一性的任何其他合适的测序方法。样本读段可以是来源于多个样本读段的共有(例如,平均或加权)序列。在某些具体实施中,提供参考序列包括基于PCR扩增子的引物序列标识感兴趣的基因位点。
术语“原始片段”是指感兴趣的基因组序列的一部分的序列数据,该序列数据与样本读段或样本片段中感兴趣的指定位置或次要位置至少部分地重叠。原始片段的非限制性示例包括双重拼接片段、单重拼接片段、双重未拼接片段和单重未拼接片段。术语“原始”用于表示原始片段包括与样本读段中的序列数据具有一些关系的序列数据,而不管原始片段是否表现出对应于并验证或确认样本读段中的潜在变异的支持变异。术语“原始片段”不表示该片段必然包括在样本读段中验证变异调用的支持变异。例如,当变异调用应用程序确定样本读段表现出第一变异时,变异调用应用程序可确定一个或多个原始片段缺少对应类型的“支持”变异,原本在给定样本读段中的变异的情况下可能预计会出现该“支持”变异。
术语“映射”、“比对(aligned、alignment或aligning)”是指将读段或标签与参考序列进行比较,从而确定参考序列是否包含该读段序列的过程。如果参考序列包含该读段,则该读段可映射到参考序列,或者在某些具体实施中,映射到参考序列中的特定位置。在一些情况下,比对简单地告知读段是否为特定参考序列的成员(即,该读段是否存在于该参考序列中)。例如,读段与人类13号染色体的参考序列的比对将告知该读段是否存在于13号染色体的参考序列中。提供该信息的工具可被称为集合成员资格测试仪(set membershiptester)。在一些情况下,比对另外指示读段或标签映射到的参考序列中的位置。例如,如果参考序列是人类全基因组序列,则比对可指示读段存在于13号染色体上,并且还可指示该读段存在于13号染色体的特定链和/或位点上。
术语“插入缺失”指生物体DNA中碱基的插入和/或缺失。微插入缺失表示导致1至50个核苷酸的净变化的插入缺失。在基因组的编码区中,除非插入缺失的长度是3的倍数,否则会产生移码突变。插入缺失可与点突变形成对比。插入缺失插入片段从序列中插入和缺失核苷酸,而点突变是置换其中一个核苷酸而不改变DNA中的核苷酸总数的置换形式。插入缺失也可与串联碱基突变(TBM)形成对比,该串联碱基突变可被定义为相邻核苷酸处的置换(主要是两个相邻核苷酸处的置换,但已观察到三个相邻核苷酸处的置换)。
术语“变异”是指与核酸参照物不同的核酸序列。典型的核酸序列变异包括但不限于单核苷酸多态性(SNP)、短缺失和插入多态性(Indel)、拷贝数变异(CNV)、微卫星标记或短串联重复序列和结构变异。体细胞变异调用是标识以低频率存在于DNA样本中的变异的工作。体细胞变异调用在癌症治疗的背景下是令人感兴趣的。癌症是由DNA中突变的积聚引起的。来自肿瘤的DNA样本通常是异质的,包括一些正常细胞、癌症进展早期的一些细胞(具有较少突变)和一些晚期细胞(具有较多突变)。由于这种异质性,当对肿瘤(例如,来自FFPE样本)测序时,体细胞突变将通常以低频率出现。例如,可在覆盖给定碱基的读段的仅10%中看到SNV。待由变异分类器分类为体细胞或种系的变异在本文中也被称为“待测变异”。
术语“噪声”是指由测序过程和/或变异检出应用中的一个或多个误差引起的误差变异检出。
术语“变异频率”表示等位基因(基因变异)在群体中特定基因位点处的相对频率,以分数或百分比表示。例如,分数或百分比可以是群体中所有携带该等位基因的染色体的分数。以举例的方式,样本变异频率表示等位基因/变异在沿着感兴趣的基因组序列的特定基因位点/位置处相对于“群体”的相对频率,群体对应于从个体获得的感兴趣的基因组序列的读段和/或样本的数目。又如,基线变异频率表示等位基因/变异在沿着一个或多个基线基因组序列的特定基因位点/位置处的相对频率,其中“群体”对应于从正常个体的群体获得的一个或多个基线基因组序列的读段和/或样本的数目。
术语“变异等位基因频率(VAF)”是指观察到的匹配变异的测序读段的百分比除以靶位置处的总体覆盖率。VAF是携带变异的测序读段的比例的量度。
术语“位置”、“指定位置”和“基因位点”是指核苷酸序列内的一个或多个核苷酸的位置或坐标。术语“位置”、“指定位置”和“基因位点”也指核苷酸序列中的一个或多个碱基对的位置或坐标。
术语“单倍型”指染色体上相邻位点处一起遗传的等位基因的组合。单倍型可为一个基因位点、多个基因位点或整个染色体,具体取决于在基因位点的给定集合之间发生的重组事件的数目(如果有的话)。
术语“阈值”在本文中是指用作表征样本、核酸或其部分(例如,读段)的截止值的数字或非数字值。阈值可基于经验分析而改变。可将阈值与测量值或计算值进行比较,以确定是否应当以特定方式对产生此类值的来源进行分类。阈值可根据经验或分析来标识。阈值的选择依赖于用户希望必须进行分类的置信水平。阈值可被选择用于特定目的(例如,以平衡灵敏度和选择性)。如本文所用,术语“阈值”指示可改变分析过程的点和/或可触发动作的点。阈值不需要是预定数目。相反,阈值可以是例如基于多个因素的函数。阈值可根据情况进行调整。此外,阈值可指示上限、下限或限值之间的范围。
在一些具体实施中,可将基于测序数据的度量或分数与阈值进行比较。如本文所用,术语“度量”或“分数”可包括由测序数据确定的值或结果,或者可包括基于由测序数据确定的值或结果的函数。与阈值一样,度量或分数可根据情况进行调整。例如,度量或分数可以是归一化值。作为分数或度量的示例,一个或多个具体实施可在分析数据时使用计数分数。计数分数可基于样本读段的数目。样本读段可能已经历一个或多个过滤阶段,使得样本读段具有至少一个共同的特征或质量。例如,用于确定计数分数的每个样本读段可能已与参考序列比对,或者可能被分配为潜在等位基因。可对具有共同特征的样本读段的数目进行计数以确定读段计数。计数分数可基于读段计数。在一些具体实施中,计数分数可以是等于读段计数的值。在其他具体实施中,计数分数可基于读段计数和其他信息。例如,计数分数可基于遗传位点的特定等位基因的读段计数和基因位点的读段总数。在一些具体实施中,计数分数可基于遗传位点的读段计数和先前获得的数据。在一些具体实施中,计数分数可以是预定值之间的归一化分数。计数分数还可以是来自样本的其他基因位点的读段计数的函数或来自与感兴趣的样本并行运行的其他样本的读段计数的函数。例如,计数分数可以是特定等位基因的读段计数和样本中其他基因位点的读段计数和/或来自其他样本的读段计数的函数。例如,来自其他基因位点的读段计数和/或来自其他样本的读段计数可用于归一化特定等位基因的计数分数。
术语“覆盖率”或“片段覆盖率”是指序列的相同片段的多个样本读段的计数或其他量度。读段计数可表示覆盖对应片段的读段数目的计数。另选地,可通过将读段计数乘以基于历史知识、样本知识、基因位点知识等的指定因子来确定覆盖率。
术语“读段深度”(通常为数字后跟“×”)是指在靶位置处具有重叠比对的序列读段的数目。这通常表示为区间(诸如外显子、基因或组)集合内的平均值或超过截止值的百分比。例如,临床报告可能说组平均覆盖率为1,105×,其中98%的靶碱基覆盖率>100×。
术语“碱基检出质量分数”或“Q分数”是指与单个测序碱基正确的概率成反比的0-50范围内的PHRED标度概率。例如,Q为20的T碱基检出被认为很可能是正确的,概率为99.99%。Q<20的任何碱基检出应当被认为是低质量的,并且在支持变体的相当大比例的测序读段具有低质量的情况下标识的任何变体应被认为是潜在假阳性的。
术语“变异读段”或“变异读段数目”是指支持变异存在的测序读段的数目。
关于“链型”(或DNA链型),DNA中的遗传信息可表示为字母A、G、C和T的字符串。例如,5’–AGGACA–3’。通常,序列沿此处所示的方向书写,即,5’端向左而3’端向右。DNA有时可以单链分子的形式出现(如在某些病毒中),但通常我们发现DNA为双链单元。它具有双螺旋结构,该结构具有两条逆平行链。在这种情况下,词语“逆平行”是指两条链平行延伸,但具有相反的极性。双链DNA通过碱基之间的配对保持在一起,并且配对总是使得腺嘌呤(A)与胸腺嘧啶(T)配对并且胞嘧啶(C)与鸟嘌呤(G)配对。这种配对被称为互补性,并且DNA的一条链被称为另一条链的互补序列。因此,双链DNA可表示为两个字符串,像这样:5’–AGGACA–3’和3’–TCCTGT–5’。注意,两条链具有相反的极性。因此,两条DNA链的链型可称为参考链及其互补链、正向链和反向链、顶部链和底部链、有义链和反义链或沃森链和克里克链。
读段比对(也称为读段映射)是找出序列在基因组中的位置的过程。一旦进行了比对,给定读段的“映射质量”或“映射质量分数(MAPQ)”对其在基因组上的位置正确的概率进行定量。映射质量以phred标度进行编码,其中P是比对不正确的概率。概率计算为:P=10(-MAQ/10),其中MAPQ是映射质量。例如,40的映射质量=10的-4次方,这意味着读段有0.01%的机会被不正确地比对。因此,映射质量与若干比对因素相关联,诸如读段的碱基质量、参考基因组的复杂性以及双端信息。关于第一个因素,如果读段的碱基质量低,则意味着观察到的序列可能是误差的,并且因此其比对是误差的。关于第二个因素,可映射性是指基因组的复杂性。重复区域更难以映射,并且落入这些区域中的读段通常获得低映射质量。在这种情况下,MAPQ反映了这样一个事实,即读段不是唯一比对的,它们的真正来源无法确定。关于第三个因素,在双端测序数据的情况下,一致的对更可能是良好比对的。映射质量越高,比对越好。以良好映射质量比对的读段通常意味着读段序列良好,并且在高可映射性区域中几乎没有错配地进行比对。MAPQ值可用作比对结果的质量控制。MAPQ高于20的所比对读段的比例通常用于下游分析。
如本文所用,“信号”是指可检测的事件,诸如,例如图像中的发射,诸如光发射。因此,在一些具体实施中,信号可表示在图像中捕获的任何可检测的光发射(即,“点”)。因此,如本文所用,“信号”可指来自标本的分析物的实际发射,并且可指与实际分析物不相关的杂散发射。因此,信号可能由噪声产生,并且由于不代表标本的实际分析物而可能随后被丢弃。
如本文所用,术语“丛”是指一组信号。在特定具体实施中,信号来源于不同的分析物。在一些具体实施中,信号丛是聚集在一起的一组信号。在其他具体实施中,信号丛表示被一个扩增的寡核苷酸覆盖的物理区域。每个信号丛在理想情况下应当被观察为若干信号(每个模板循环一个,并且可能由于串扰而更多)。因此,在来自同一信号丛的模板中包括两个(或更多个)信号的情况下,检测到重复信号。
如本文所用,术语诸如“最小”、“最大”、“最小化”、“最大化”及其语法变型可包括不是绝对最大值或最小值的值。在一些具体实施中,这些值包括接近最大值和接近最小值。在其他具体实施中,这些值可包括局部最大值和/或局部最小值。在一些具体实施中,这些值仅包括绝对最大值或最小值。
如本文所用,“串扰”是指在一个图像中检测到的信号也在单独的图像中检测到。在一些具体实施中,当在两个单独的检测通道中检测到发射的信号时,可发生串扰。例如,在发射信号以一种颜色出现的情况下,该信号的发射光谱可与另一种颜色的另一个发射信号重叠。在一些具体实施中,在单独的通道中检测用于指示核苷酸碱基A、C、G和T的存在的荧光分子。然而,因为A和C的发射光谱重叠,所以可在使用A颜色通道的检测期间检测C颜色信号中的一些。因此,A信号和C信号之间的串扰允许来自一个彩色图像的信号出现在另一个彩色图像中。在一些具体实施中,G和T串扰。在一些具体实施中,通道之间的串扰量是不对称的。应当理解,通道之间的串扰量可通过(除了别的以外)选择具有适当发射光谱的信号分子以及选择检测通道的尺寸和波长范围来控制。
如本文所用,“配准(register、registering、registration)”和类似术语是指将来自第一时间点或视角的图像或数据集中的信号与来自另一时间点或视角的图像或数据集中的信号相关联的任何过程。例如,配准可用于对准来自图像集的信号以形成模板。又如,配准可用于将来自其他图像的信号与模板对准。一个信号可直接或间接配准到另一个信号。例如,来自图像“S”的信号可直接配准到图像“G”。又如,来自图像“N”的信号可直接配准到图像“G”,或者另选地,来自图像“N”的信号可配准到先前已配准到图像“G”的图像“S”。因此,来自图像“N”的信号间接配准到图像“G”。
如本文所用,术语“基准”旨在表示对象中或对象上的可区分的参考点。参考点可以是例如标记、第二对象、形状、边缘、区域、不规则性、通道、凹坑、柱等。参考点可存在于对象的图像中或存在于从检测对象得到的另一数据集中。参考点可由对象平面中的x和/或y坐标来指定。另选地或附加地,参考点可由正交于xy平面的z坐标指定,例如由对象和检测器的相对位置限定。可相对于对象或图像或从对象得到的其他数据集的一个或多个其他分析物来指定参考点的一个或多个坐标。
如本文所用,术语“光信号”旨在包括例如荧光信号、发光信号、散射信号或吸收信号。可在电磁光谱的紫外(UV)范围(约200纳米至390纳米)、可见(VIS)范围(约391纳米至770纳米)、红外(IR)范围(约0.771微米至25微米)或其他范围内检测光信号。可以排除这些范围中的一个或多个的全部或部分的方式检测光信号。
如本文所用,术语“信号电平”旨在表示具有期望或预定义特征的检测到的能量或编码信息的量或数目。例如,光信号可通过强度、波长、能量、频率、功率、亮度等中的一者或多者来量化。其他信号可根据特征诸如电压、电流、电场强度、磁场强度、频率、功率、温度等进行量化。信号缺失被理解为信号电平为零或信号电平与噪声没有明显区别。
如本文所用,术语“模拟”旨在表示创建物理事物或动作的表示或模型,其预测该事物或动作的特征。在许多情况下,表示或模型可与事物或动作区分开来。例如,就一个或多个特征诸如颜色、从事物的全部或部分检测到的信号强度、尺寸或形状而言,表示或模型可与事物区分开来。在特定具体实施中,当与事物或动作相比时,表示或模型可以是理想化的、放大的、变暗的或不完整的。因此,在一些具体实施中,例如,就上述特征中的至少一个特征而言,模型的表示可与其所表示的事物或动作区分开来。该表示或模型可以计算机可读格式或介质提供,诸如在本文别处阐述的那些中的一者或多者。
如本文所用,术语“特定信号”旨在表示相对于其他能量或信息(诸如背景能量或信息)选择性地观察到的检测到的能量或编码信息。例如,具体信号可以是在特定强度、波长或颜色下检测到的光信号;在特定频率、功率或场强下检测到的电信号;或本领域已知的与光谱和分析检测有关的其他信号。
如本文所用,术语“扫描带”旨在表示对象的矩形部分。扫描带可为细长的条带,该细长的条带通过在平行于该条带的最长维度的方向上对象与检测器之间的相对移动来扫描。一般来讲,矩形部分或条带的宽度沿着其全长将是恒定的。对象的多个扫描带可彼此平行。对象的多个扫描带可彼此相邻、彼此重叠、彼此邻接或通过间隙区域彼此分离。
如本文所用,术语“方差”旨在表示预期值与观察值之间的差值或两个或更多个观察值之间的差值。例如,方差可以是期望值与测量值之间的差异。方差可使用统计函数来表示,诸如标准偏差、标准偏差的平方、变异系数等。
如本文所用,术语“xy坐标”旨在表示指定xy平面中的位置、尺寸、形状和/或取向的信息。该信息可以是例如笛卡尔系统中的数字坐标。坐标可相对于x轴和y轴中的一者或两者提供,或者可相对于xy平面中的另一个位置提供。例如,对象的分析物的坐标可指定分析物相对于对象的基准或其他分析物的位置的位置。
如本文所用,术语“xy平面”旨在表示由直线轴x和y限定的2维区域。当参考检测器和检测器所观察的对象使用时,该区域可被进一步指定为与检测器和所检测的对象之间的观察方向正交。
如本文所用,术语“z坐标”旨在表示指定沿着正交于xy平面的轴的点、线或区域的位置的信息。在特定具体实施中,z轴正交于检测器所观察的对象的区域。例如,光学系统的焦点方向可沿着z轴指定。
在一些具体实施中,使用仿射变换来变换所采集的信号数据。在一些此类具体实施中,模板生成利用颜色通道之间的仿射变换在运行之间是一致的这一事实。由于这种一致性,当确定标本中分析物的坐标时,可使用默认偏移量集合。例如,默认偏移文件可包含不同通道相对于一个通道(诸如A通道)的相对变换(移动、缩放、偏斜)。然而,在其他具体实施中,颜色通道之间的偏移在运行期间和/或运行之间漂移,使得偏移驱动的模板生成变得困难。在此类具体实施中,本文所提供的方法和系统可利用无偏移模板生成,这将在下文进一步描述。
在上述具体实施的一些方面,该系统可包括流通池。在一些方面,流通池包括区块的槽道或其他配置,其中至少一些区块包括一个或多个分析物阵列。在一些方面,分析物包含多个分子诸如核酸。在某些方面,流通池被配置为将标记的核苷酸碱基递送至核酸阵列,从而延伸与分析物内的核酸杂交的引物,以便产生对应于包含核酸的分析物的信号。在一些具体实施中,分析物内的核酸彼此相同或基本上相同。
在本文所述的一些图像分析系统中,图像集中的每个图像包括颜色信号,其中不同的颜色对应于不同的核苷酸碱基。在一些方面,该图像集中的每个图像包括具有选自至少四种不同颜色的单一颜色的信号。在一些方面,该图像集中的每个图像包括具有选自四种不同颜色的单一颜色的信号。在本文所述的一些系统中,可通过向分子阵列提供四种不同的标记核苷酸碱基来对核酸进行测序,从而产生四种不同的图像,每种图像包括具有单一颜色的信号,其中信号颜色对于四种不同图像中的每种图像都是不同的,从而产生对应于核酸中特定位置存在的四种可能核苷酸的四种颜色图像的循环。在某些方面,该系统包括流通池,该流通池被配置为将另外的标记核苷酸碱基递送到分子阵列,从而产生彩色图像的多个循环。
在一些具体实施中,本文提供的方法可包括确定处理器是否正在主动采集数据或处理器是否处于低活动状态。采集和存储大量高质量图像通常需要大量存储容量。附加地,一旦采集和存储,对图像数据的分析可能变为资源密集型,并且可能干扰其他功能的处理能力,诸如正在进行的附加图像数据的采集和存储。因此,如本文所用,术语低活动状态是指处理器在给定时间的处理能力。在一些具体实施中,当处理器未采集和/或存储数据时,低活动状态发生。在一些具体实施中,当进行一些数据采集和/或存储时,低活动状态发生,但是额外的处理能力保持不变,使得图像分析可在不干扰其他功能的情况下同时发生。
如本文所用,“标识冲突”是指标识多个进程竞争资源的情况。在一些此类具体实施中,一个进程被赋予比另一个进程更高的优先级。在一些具体实施中,冲突可能涉及为时间分配、处理能力、存储容量或被赋予优先级的任何其他资源赋予优先级的需要。因此,在一些具体实施中,当处理时间或能力要分布在两个进程(诸如分析数据集和采集和/或存储数据集)之间时,两个进程之间存在冲突,并且可通过赋予其中一个进程优先级来解决冲突。
本文还提供了用于执行图像分析的系统。该系统可包括处理器;存储容量;以及用于图像分析的程序,该程序包括用于处理用于存储的第一数据集和用于分析的第二数据集的指令,其中该处理包括在存储设备上采集和/或存储第一数据集,并且当处理器未采集第一数据集时分析第二数据集。在某些方面,该程序包括用于以下操作的指令:标识采集和/或存储第一数据集与分析第二数据集之间的冲突的至少一个实例;以及解决冲突以有利于采集和/或存储图像数据,使得采集和/或存储第一数据集被赋予优先级。在某些方面,第一数据集包括从光学成像设备获得的图像文件。在某些方面,系统还包括光学成像设备。在一些方面,光学成像设备包括光源和检测设备。
如本文所用,术语“程序”是指执行任务或进程的指令或命令。术语“程序”可与术语模块互换使用。在某些具体实施中,程序可以是在同一命令集下执行的各种指令的编译。在其他具体实施中,程序可指离散的批或文件。
下文阐述了利用本文阐述的用于执行图像分析的方法和系统的一些令人惊讶的效果。在一些测序具体实施中,测序系统效用的重要量度是其总体效率。例如,每天产生的可映射数据量以及安装和运行仪器的总成本是经济测序解决方案的重要方面。为了减少生成可映射数据的时间并提高系统的效率,可在仪器计算机上启用实时碱基检出,并且可与测序化学过程和成像同步运行。这允许许多数据处理和分析在测序化学过程结束之前完成。附加地,它可减少中间数据所需的存储,并限制需要跨网络传输的数据量。
虽然序列输出增加了,但从本文提供的系统传输到网络和辅助分析处理硬件的每次运行的数据已显著减少。通过在仪器计算机(采集计算机)上变换数据,显著降低了网络负载。如果没有这些机载的、离线的数据简化技术,一组DNA测序仪器的图像输出将使大多数网络瘫痪。
高通量DNA测序仪器的广泛采用部分是由于易于使用、对各种应用的支持以及对几乎任何实验室环境的适用性。本文介绍的高效算法允许将重要的分析功能添加到可控制测序仪器的简单工作站中。对计算硬件要求的这种降低具有若干实际益处,这些益处将随着对测序输出水平的不断提高而变得甚至更重要。例如,通过在简单塔上执行图像分析和碱基检出,将热量产生、实验室占地面积和功耗保持在最低水平。相比之下,其他商业测序技术最近已将其计算基础结构扩展到用于主要分析,处理能力高达五倍以上,从而导致热量输出和功耗的相应增加。因此,在一些具体实施中,本文提供的方法和系统的计算效率使得客户能够增加其测序通量,同时将服务器硬件费用保持在最小。
因此,在一些具体实施中,本文提出的方法和/或系统充当状态机,跟踪每个标本的单独状态,并且当其检测到标本准备前进到下一状态时,其进行适当的处理并使标本前进到该状态。根据特定具体实施,状态机如何监控文件系统以确定标本何时准备好前进到下一状态的更详细示例在下面的实施例1中阐述。
在一些具体实施中,本文提供的方法和系统是多线程的,并且可与可配置数目的线程一起工作。因此,例如在核酸测序的情况下,本文提供的方法和系统能够在实时分析的实时测序运行期间在后台工作,或者其可使用预先存在的图像数据集运行以用于离线分析。在某些具体实施中,方法和系统通过为每个线程赋予其自身所负责的标本的子集来处理多线程。这将线程争用的可能性降至最低。
本公开的方法可包括使用检测装置获得对象的目标图像的步骤,其中图像包括对象上分析物的重复图案。能够对表面进行高分辨率成像的检测装置尤其有用。在特定具体实施中,检测装置将具有足够的分辨率,从而以本文阐述的密度、间距和/或分析物尺寸来区分分析物。能够从表面获得图像或图像数据的检测装置尤其有用。示例检测器是被配置为在获得区域图像时使对象和检测器保持静态关系的那些检测器。也可使用扫描装置。例如,可使用获得顺序区域图像的装置(例如,所谓的“步进拍摄”检测器)。在对象的表面上连续扫描点或线以积累数据来构建表面图像的设备也是有用的。点扫描检测器可被配置为经由表面的x-y平面中的光栅运动来扫对象表面上的点(即,小的检测区域)。线扫描检测器可被配置为沿着对象表面的y维度扫描线,该线的最长维度沿着x维度出现。应当理解,可移动检测设备、对象或两者以实现扫描检测。尤其适用于例如核酸测序应用的检测装置在以下中有所描述:美国专利申请公布第2012/0270305A1号;第2013/0023422A1号;和第2013/0260372A1号;和美国专利第5,528,050号;第5,719,391号;第8,158,926号和第8,241,573号,这些专利中的每一篇均以引用方式并入本文。
本文所公开的具体实施可被实现为使用编程或工程技术来产生软件、固件、硬件或它们的任何组合的方法、装置、系统或制品。如本文所用,术语“制品”是指在硬件或计算机可读介质诸如光学存储设备和易失性或非易失性存储器设备中实现的代码或逻辑。此类硬件可包括但不限于现场可编程门阵列(FPGA)、粗粒度可重构架构(CGRA)、专用集成电路(ASIC)、复杂可编程逻辑器件(CPLD)、可编程逻辑阵列(PLA)、微处理器或其他类似的处理设备。在特定具体实施中,本文阐述的信息或算法存在于非暂态存储介质中。
在特定具体实施中,本文阐述的计算机实现的方法可在获得对象的多个图像时实时发生。此类实时分析尤其可用于核酸测序应用,其中核酸阵列经受流体和检测步骤的重复循环。测序数据的分析通常可能是计算密集型的,使得在进行其他数据采集或分析算法时实时或在后台执行本文阐述的方法可能是有益的。可与本发明方法一起使用的示例实时分析方法是用于可得自Illumina公司(San Diego,Calif.)和/或在美国专利申请公布第2012/0020537A1号中有所描述的MiSeq和HiSeq测序设备的那些方法,该专利申请公布以引用方式并入本文。
由一个或多个编程的计算机形成的示例数据分析系统,其中编程存储在一个或多个机器可读介质上,其中执行代码以进行本文所述的方法的一个或多个步骤。在一个具体实施中,例如,该系统包括被设计成允许系统联网到被配置为从目标对象采集数据的一个或多个检测系统(例如,光学成像系统)的接口。接口可在适当的地方接收和调节数据。在特定具体实施中,检测系统将输出数字图像数据,例如,代表单独的图片元素或像素的图像数据,它们共同形成阵列或其他对象的图像。处理器根据由处理代码定义的一个或多个例程来处理接收到的检测数据。处理代码可存储在各种类型的存储器电路中。
根据当前设想的具体实施,对检测数据执行的处理代码包括数据分析例程,该例程被设计成分析检测数据以确定在数据中可见或编码的单独分析物的位置和元数据,以及没有检测到分析物的位置(即,没有分析物的位置,或没有从现有分析物检测到有意义信号的位置)。在特定具体实施中,由于存在附着到成像分析物的荧光染料,阵列中的分析物位置通常将看起来比非分析物位置更亮。应当理解,例如,当探针在分析物处的靶不存在于被检测的阵列中时,分析物不需要看起来比其周围区域更亮。单独分析物出现的颜色可取决于所采用的染料以及成像系统用于成像目的所用的光的波长。靶不与之结合或以其他方式缺乏特定标记的分析物可根据其他特征(诸如它们在微阵列中的预期位置)进行标识。
一旦数据分析例程已在数据中定位单独分析物,就可进行值分配。一般来讲,值分配将基于由对应位置处的检测器组件(例如,像素)表示的数据的特征,将数字值分配给每个分析物。也就是说,例如当处理成像数据时,值分配例程可被设计成识别在特定位置处检测到特定颜色或波长的光,如由该位置处的像素组或簇所指示的。例如,在典型的DNA成像应用中,四种常见核苷酸将由四种独立且可区分的颜色表示。然后,可为每种颜色分配对应于该核苷酸的值。
如本文所用,术语“模块”、“系统”或“系统控制器”可包括操作以执行一个或多个功能的硬件和/或软件系统和电路。例如,模块、系统或系统控制器可包括基于存储在有形和非暂态计算机可读存储介质诸如计算机存储器上的指令来执行操作的计算机处理器、控制器或其他基于逻辑的设备。另选地,模块、系统或系统控制器可包括基于硬接线逻辑和电路来执行操作的硬接线设备。附图中所示的模块、系统或系统控制器可表示基于软件或硬接线指令来操作的硬件和电路、指导硬件执行操作的软件或它们的组合。模块、系统或系统控制器可包括或表示硬件电路或电路,该硬件电路或电路包括一个或多个处理器并且/或者与该一个或多个处理器连接,诸如一个或多个计算机微处理器。
如本文所用,术语“软件”和“固件”是可互换的,并且包括存储在存储器中以供计算机执行的任何计算机程序,包括RAM存储器、ROM存储器、EPROM存储器、EEPROM存储器和非易失性RAM(NVRAM)存储器。上述存储器类型仅为示例,因此不限制可用于存储计算机程序的存储器类型。
在分子生物学领域中,所使用的核酸测序方法中的一种方法是边合成边测序。该技术可应用于大规模并行测序项目。例如,通过使用自动化平台,可同时进行成千上万的测序反应。因此,本发明的具体实施中的一个具体实施涉及用于采集、存储和分析在核酸测序期间生成的图像数据的仪器和方法。
可采集和存储的数据量的巨大增益使得简化的图像分析方法甚至更加有益。例如,本文所述的图像分析方法允许设计者和最终用户有效地利用现有计算机硬件。因此,面对快速增加的数据输出,本文呈现了减少处理数据的计算负担的方法和系统。例如,在DNA测序领域中,在最近一年中产出已按比例缩放了15倍,并且现在可在DNA测序设备的单次运行中达到数百个十亿碱基。如果计算基础设施要求成比例增长,则大多数研究者将仍然无法实现大型基因组级实验。因此,生成更原始的序列数据将增加对二次分析和数据存储的需要,使得对数据传输和存储的优化极其有价值。本文呈现的方法和系统的一些具体实施可减少产生可用序列数据所需的时间、硬件、网络和实验室基础设施要求。
本公开描述了用于执行这些方法的各种方法和系统。方法中一些的示例被描述为一系列步骤。然而,应当理解,具体实施不限于本文所述的特定步骤和/或步骤顺序。可省略步骤,可修改步骤,并且/或者可添加其他步骤。此外,可组合本文所述的步骤,可同时执行步骤,可并行执行步骤,可将步骤分成多个子步骤,可以不同顺序执行步骤,或者可以迭代方式重新执行步骤(或一系列步骤)。此外,尽管本文阐述了不同方法,但应当理解,在其他具体实施中可组合这些不同方法(或这些不同方法的步骤)。
在一些具体实施中,“被配置为”执行任务或操作的处理单元、处理器、模块或计算系统可被理解为被特别地构造成执行任务或操作(例如,使存储在其上或与其结合使用的一个或多个程序或指令被定制成或旨在执行任务或操作,并且/或者使处理电路的布置被定制成或旨在执行任务或操作)。出于清楚和免生疑问的目的,除非或直到被特别编程或在结构上被修改以执行任务或操作,通用计算机(如果适当编程,则其可“被配置为”执行任务或操作)不“被配置为”执行任务或操作。
此外,本文所述的方法的操作可足够复杂,使得在商业上合理的时间段内这些操作无法由普通技术人员或本领域的普通技术人员实际执行。例如,这些方法可依赖于相对复杂的计算,使得人员无法在商业上合理的时间内完成这些方法。
在整个本申请中,已引用了各种公布、专利或专利申请。这些公布的公开内容据此全文以引用方式并入本申请中,以便更全面地描述与本发明有关的现有技术。
术语“包含”在本文中旨在为开放式的,不仅包括所列举的要素,而且还涵盖任何附加要素。
如本文所用,当参考项目的集合使用时,术语“每个”旨在标识集合中的单个项目,但不一定是指集合中的每个项目。如果明确公开或上下文另有明确规定,则可能会出现例外情况。
尽管已参考上文提供的示例描述了本发明,但应当理解,在不脱离本发明的前提下,可进行各种修改。
本申请中的模块可在硬件或软件中实现,并且不需要按如图所示那样精确地划分成相同的框。这些模块中的一些还可在不同的处理器或计算机上实现,或者在多个不同的处理器或计算机之间扩展。此外,应当理解,在不影响所实现的功能的情况下,可组合、同步操作或以与图中所示不同的序列操作模块中的一些。同样如本文所用,术语“模块”可包括“子模块”,“子模块”本身在本文中可被认为构成模块。图中被分配为模块的框也可被认为是方法中的流程图步骤。
如本文所用,信息项的“标识”不一定需要直接指定该信息项。通过简单地利用一个或多个间接层参考实际信息,或者通过标识一起足以确定实际信息项的一个或多个不同信息项,可在字段中“标识”信息。此外,术语“指定”在本文中用来指与“标识”相同的含义。
如本文所用,给定信号、事件或值“依赖于”先导信号、该先导信号的事件或值、受给定信号、事件或值影响的事件或值。如果存在居间处理元件、步骤或时间段,则给定信号、事件或值仍然可“依赖于”先导信号、事件或值。如果居间处理元件或步骤组合多于一个信号、事件或值,则处理元件或步骤的信号输出被认为“依赖于”信号、事件或值输入中的每一者。如果给定信号、事件或值与先导信号、事件或值相同,则这仅仅是其中给定信号、事件或值仍然被认为“依赖于”或“取决于”或“基于”先导信号、事件或值的简并情况。给定信号、事件或值对另一信号、事件或值的“响应性”以类似方式定义。
如本文所用,“并行”或“同步”不需要精确的同时性。如果这些个体中的一个的评估在这些个体中的另一个的评估完成之前开始,则就足够了。
计算机系统
图17A是示例计算机系统的框图。计算机系统包括由总线子系统互连的存储子系统、用户界面输入设备、CPU、网络接口、用户界面输出设备和任选的深度学习处理器(为简明起见,被例示为GPU、FPGA、CGRA)。存储系统包括存储器子系统和文件存储子系统。存储器子系统包括随机可存取读/写存储器(RAM)和只读存储器(ROM)。ROM和文件存储子系统元件包括例如用于存储和执行编程指令以实现本文别处描述的RTA功能的所有或任何部分的非暂态计算机可读介质能力。根据各种具体实施,深度学习处理器能够实现本文别处描述的RTA功能的所有或任何部分。在各种具体实施中,深度学习处理器元件包括CPU、GPU、FPGA、CGRAs、ASIC、ASIP和DSP的各种组合。
一般来讲,计算机系统1700可用于实现本发明所公开的技术。更具体地,计算机系统1700包括能够经由总线子系统1755与多个外围设备通信的至少一个中央处理单元(CPU)1772。外围设备不同地包括存储子系统1710、用户界面输入设备1738、用户界面输出设备1776和网络接口子系统1774,该存储子系统包括例如存储器设备和文件存储子系统1736。输入和输出设备实现与计算机系统1700的用户交互。网络接口子系统1774提供到外部网络的接口,包括到其他计算机系统中的对应接口设备的接口。
用户界面输入设备1738不同地包括:键盘;指向设备,诸如鼠标、轨迹球、触摸板和/或图形输入板;扫描仪;结合到显示器中的触摸屏;音频输入设备,诸如语音识别系统和麦克风;和其他类型的输入设备。一般来讲,使用术语“输入设备”旨在包括将信息输入到计算机系统1700中的所有可能类型的设备和方式。
用户界面输出设备1776不同地包括显示子系统、打印机、传真能力和/或非视觉显示器(诸如音频输出设备)。显示子系统不同地包括LED显示器、阴极射线管(CRT)、平板设备诸如液晶显示器(LCD)、投影设备或用于产生可见图像的某一其他机构。显示子系统任选地提供非视觉显示器,诸如音频输出设备。一般来讲,使用术语“输出设备”旨在包括将信息从计算机系统1700输出到用户或输出到另一个机器或计算机系统的所有可能类型的设备和方式。
存储子系统1710能够存储软件模块,该软件模块包括提供本文描述的一些或所有技术的功能性的编程结构和数据结构。软件模块通常由处理器1778执行。
处理器1778不同地包括图形处理单元(GPU)、现场可编程门阵列(FPGA)、专用集成电路(ASIC)和/或粗粒度可重构架构(CGRA)的任何组合。处理器1778可由深度学习云平台诸如Google Cloud PlatformTM、XilinxTM和CirrascaleTM托管。处理器1778的示例包括Google的Tensor Processing Unit(TPU)TM、Rackmount解决方案(如GX4 RackmountSeriesTM、GX17 Rackmount SeriesTM)、NVIDIA DGX-1TM、Microsoft的Stratix V FPGATM、Graphcore的Intelligent Processor Unit(IPU)TM、Qualcomm的具有SnapdragonprocessorsTM的Zeroth PlatformTM、NVIDIA的VoltaTM、NVIDIA的DRIVE PXTM、NVIDIA的JETSON TX1/TX2 MODULETM、Intel的NirvanaTM、Movidius VPUTM、Fujitsu DPITM、ARM的DynamicIQTM、IBM TrueNorthTM、具有Testa V100sTM的Lambda GPU服务器,等等。
存储子系统1710的存储器子系统1722不同地包括多个存储器,包括用于存储程序执行期间的指令和数据的主随机存取存储器(RAM)1732和用于存储固定信息诸如指令和常数的只读存储器(ROM)1734。文件存储子系统1736能够为程序文件和数据文件提供持久性存储,并且不同地包括硬盘驱动器、软盘驱动器以及相关联的可移动介质、CD-ROM驱动器、光盘驱动器和/或可移动介质磁带盘。实现某些具体实施的功能性的模块不同地由存储子系统1710中的文件存储子系统1736存储,或存储在处理器可访问的其他机器中。
总线子系统1755实现计算机系统1700的各种部件与子系统之间的通信。尽管总线子系统1755被示意性地例示为单条总线,但总线子系统的另选具体实施使用多条总线。
计算机系统1700本身根据具体实施具有不同类型,包括个人计算机、便携式计算机、工作站、计算机终端、网络计算机、电视机、主机、服务器群、广泛分布的松散联网的计算机的集合、或任何其他数据处理系统或用户设备。由于计算机和网络的不断变化的性质,对图17A所描绘的计算机系统1700的描述仅旨在作为用于说明本发明的各种具体实施的具体示例。计算机系统1700的许多其他配置是可能,其具有与图17A所描绘的计算机系统相比更多或更少的部件。
在各种具体实施中,均衡器碱基检出器104可通信地连接到存储子系统1710和/或用户界面输入设备1738。
在各种具体实施中,本文别处描述的实验室仪器和/或生产仪器中的一者或多者包括与该图的示例计算机系统相同或类似的一个或多个计算机系统。在各种具体实施中,训练上下文和/或生产上下文中的任一者或多者使用与该图的示例计算机系统相同或类似的任何一个或多个计算机系统来执行RTA相关处理,诸如作为与训练数据收集和/或处理以及生产数据收集和/或处理相关的一个或多个服务器来操作。
在各种具体实施中,存储器子系统和/或文件存储子系统能够存储与RTA相关联的信息,诸如与本文别处描述的各种均衡器和/或碱基检出器的GT和/或LUT元件相关联或与各种均衡器和/或碱基检出器相关联的信息的所有或任何部分。例如,所存储的信息的所有或任何部分不同地对应于在训练上下文中使用的均衡器的初始化信息、在训练上下文中使用的均衡器的受过训练的信息、和/或在生产上下文中使用的均衡器的受过训练的信息的任何组合。对于另一示例,所存储的信息的所有或任何部分对应于诸如与由训练上下文提供给生产上下文的信息相关的一个或多个中间表示,如本文别处例示和描述。
图17B例示了实现依赖于流通池倾斜的碱基检出的各方面的训练和生产元件。该图的上部部分例示了一个或多个训练上下文,并且下部部分例示了一个或多个生产上下文。训练上下文中的每个训练上下文包括一个或多个训练数据收集/处理能力,每个训练数据收集/处理能力具有相应的一个或多个训练服务器。训练服务器中的每个训练服务器能够存储相应训练数据,诸如通过经由一个或多个RTA相关活动进行的训练产生的信息。在一些具体实施中,训练上下文中的一个上下文的所有或任何部分对应于实验室仪器。生产上下文中的每个生产上下文包括一个或多个生产仪器。生产仪器中的每个生产仪器能够存储生产数据。
在各种具体实施中,存储器子系统和/或文件存储子系统能够存储图像和倾斜数据以及其表示,诸如图像的一个或多个区域的像素强度和/或实现倾斜确定的信息。在各种具体实施中,计算机系统能够实时处理图像,包括实时提取特定像素的强度。在基于实时像素强度提取的一些具体实施中,对应于所提取的区域的图像数据的所有或任何部分并不专门保存在文件存储子系统中。在各种具体实施中,计算机系统能够实时处理倾斜测量和/或与倾斜测量的确定相关的信息。在各种具体实施中,计算机系统能够实时处理图像和/或倾斜信息,以便实现实时碱基检出。
该图的训练上下文表示本文别处例示和描述的各种训练上下文。该图的生产上下文表示本文别处例示和描述的各种生产上下文。训练上下文使用收集和/或合成的训练数据来训练一个或多个RTA相关元件,诸如均衡器和/或与均衡器相关或包括在均衡器中的LUT。然后,如虚线箭头‘部署受过训练的信息’所示,将训练的结果提供给生产上下文以供我们例如提供依赖于倾斜的碱基检出。
作为第一具体示例,图17B的训练上下文中的一个训练上下文对应于图1AA的训练上下文,并且图17B的生产上下文中的对应的一个或多个生产上下文对应于图1AA的生产上下文的一个或多个实例。图17B的‘部署受过训练的信息’对应于将信息从在训练已完成之后图17B的训练上下文的LUT中的任何一个或多个LUT提供到图17B的生产上下文的对应LUT,以准备用于依赖于倾斜的生产碱基检出。
作为第二具体示例,图17B的训练上下文中的一个训练上下文在其用于训练时对应于图1A的系统100A,并且图17B的生产上下文中的一个生产上下文在其用于生产(例如,使用通过训练确定的并且存储在LUT 106中的信息来执行碱基检出)时对应于图1A的系统100A。
在一些具体实施中,在训练上下文和生产上下文中使用相同服务器。例如,用于实现图1AA的训练上下文的一个或多个服务器也用于实现图1AA的生产上下文。
特定具体实施
本发明所公开的技术使用基于均衡的图像处理技术来衰减来自传感器像素的空间串扰。本发明所公开的技术可作为系统、方法或制品来实践。具体实施的一个或多个特征可与基本具体实施组合。不互相排斥的具体实施被教导为可组合的。具体实施的一个或多个特征可与其他具体实施组合。本公开周期性地提醒用户这些选项。从一些具体实施中省略重复这些选项的表述不应当被视为限制前述部分中教导的组合,这些表述将据此以引用方式并入以下具体实施中的每个具体实施中。
在一个具体实施中,本发明所公开的技术提出一种衰减来自传感器像素的空间串扰的计算机实现的方法。
本发明所公开的技术解决了像素平面中的传感器像素上的由样本平面中周期性分布的荧光样本引起的空间串扰。来自荧光样本的信号锥通过至少一个透镜光学耦合到传感器像素的局部网格。信号锥重叠并撞击在传感器像素上,从而产生空间串扰。
本发明所公开的技术在至少一个子像素查找表中捕获通过透镜投射的特征信号锥的特征扩展,以及特征信号锥对由传感器像素的局部网格中的传感器像素检测到的荧光的所得到的贡献。传感器像素的局部网格基本上与特征信号锥的中心同心。
本发明所公开的技术在以子像素分辨率表示特征扩展的子像素查找表的集合之间进行插值,以基于目标荧光样本中心生成插值查找表。
本发明所公开的技术从目标荧光样本分离信号,该目标荧光样本通过将插值查找表与传感器像素的目标局部网格中的传感器像素卷积在一起而将信号锥的中心投射到该目标局部网格的大体中心上。
本发明所公开的技术使用分离信号的卷积贡献之和作为来自目标荧光样本的荧光强度。
本发明所公开的技术然后使用荧光强度对第一目标荧光样本进行碱基检出。确定多个成像通道中的每个成像通道的第一目标荧光样本的荧光强度。考虑四通道化学法,其使用四个成像通道在每个测序循环中生成四个图像。然后,对于第一目标荧光样本,如上所述,使用本发明所公开的技术测来确定四种荧光强度。接着,由碱基检出器处理这四种荧光强度,以对第一目标荧光样本进行碱基检出。类似地,对于双通道化学法,使用两种荧光强度来对第一目标荧光样本进行碱基检出。
在本发明所公开的技术的本部分和其他部分中描述的方法可包括以下特征中的一者或多者和/或结合本发明所公开的附加方法描述的特征。为了简洁起见,本申请中公开的特征的组合不是单独列举的,并且不与每个基本特征集一起重复。读者将理解在该方法中标识的特征可如何容易地与在本申请的其他部分中被标识为具体实施的基本特征集组合。
在一些具体实施中,周期性分布的荧光样本以菱形形状布置。在其他具体实施中,周期性分布的荧光样本以六角形形状布置。
在本部分中描述的方法的其他具体实施可包括存储指令的非暂态计算机可读存储介质,这些指令可由处理器执行以执行上述方法中的任一种方法。在本部分中描述的方法的又一具体实施可包括一种系统,该系统包括存储器和一个或多个处理器,该一个或多个处理器可操作以执行存储在存储器中的指令,以执行上述方法中的任一种方法。
在另一个具体实施中,本发明所公开的技术提出一种碱基检出的计算机实现的方法。
本发明所公开的技术访问其像素描绘来自目标簇的强度发射和来自附加相邻簇的强度发射的图像。这些像素包括中心像素,该中心像素包含目标簇的中心。这些像素中的每个像素能够被划分成多个子像素。
根据特定子像素,在包含目标簇中心的中心像素的多个子像素中,本发明所公开的技术从子像素查找表库中选择对应于该特定子像素的子像素查找表。所选择的子像素查找表包含被配置为接受来自目标簇的强度发射并且拒绝来自相邻簇的强度发射的像素系数。
本发明所公开的技术将像素系数逐元素地乘以图像中的像素的强度值,并且将乘法的乘积求和以产生输出。
本发明所公开的技术使用该输出来对目标簇进行碱基检出。
在该特定具体实施章节中讨论的用于其他具体实施的每个特征同样适用于该方法具体实施。如上所示,所有方法特征在这里不再重复,并且应当被视为以引用方式重复。
在一些具体实施中,本发明所公开的技术还包括:(i)从子像素查找表库中选择附加的子像素查找表,这些附加的子像素查找表对应于与特定子像素最连续相邻的子像素,(ii)在所选择的子像素查找表的像素系数和所选择的附加子像素查找表的像素系数之间进行插值,并且生成插值的像素系数,这些插值的像素系数被配置为接受来自目标簇的强度发射并且拒绝来自相邻簇的强度发射,(iii)将插值的像素系数逐元素地乘以图像中的像素的强度值,并且将乘法的乘积求和以产生输出,以及(iv)使用该输出对目标簇进行碱基检出。
在一些具体实施中,目标簇和附加的相邻簇以菱形形状周期性地分布在流通池上,并且固定在流通池的孔上。在其他具体实施中,目标簇和附加的相邻簇以六边形形状周期性地分布在流通池上,并且固定在流通池的孔上。
在一些具体实施中,该插值基于线性插值、双线性插值和双三次插值中的至少一者。
在一些具体实施中,子像素查找表库中的子像素查找表的像素系数作为使用决策导向的均衡来训练均衡器的结果而被学习。在一个具体实施中,决策导向的均衡使用最小二乘估计作为损失函数。在一个具体实施中,最小二乘估计使用地面真值碱基检出来最小化平方误差。在一个具体实施中,修改地面真值碱基检出来说明DC偏移量、放大系数和多克隆性程度。
在一些具体实施中,子像素查找表库中的子像素查找表的像素系数是从以下各项的组合得到的:(i)单个子像素查找表,其像素系数作为使用决策导向的均衡来训练均衡器的结果而被学习,和(iii)预先计算的插值滤波器集合。插值滤波器集合中的每个插值滤波器分别对应于多个子像素中的每个子像素。
本发明所公开的技术还包括通过以下方式使目标簇的中心基本上与中心像素的中心同心:(i)将图像相对于模板图像配准,并且确定仿射变换参数和非线性变换参数,(ii)使用这些参数将目标簇和附加相邻簇的位置坐标变换为图像的图像坐标,并且生成具有变换后的像素的变换后的图像,以及(iii)使用目标簇和附加相邻簇的变换后的位置坐标来应用插值,以使它们各自的簇中心基本上与包含簇中心的相应的变换后的像素的中心同心。
本发明所公开的技术还包括为在特定的测序循环中使用相应成像通道捕获的多个图像中的每个图像产生输出,并且使用为每个图像分别产生的输出来对目标簇进行碱基检出。
在本部分中描述的方法的其他具体实施可包括存储指令的非暂态计算机可读存储介质,这些指令可由处理器执行以执行上述方法中的任一种方法。在本部分中描述的方法的又一具体实施可包括一种系统,该系统包括存储器和一个或多个处理器,该一个或多个处理器可操作以执行存储在存储器中的指令,以执行上述方法中的任一种方法。
虽然通过参考上文详细描述的具体实施和示例公开了本发明,但是应当理解,这些示例旨在进行说明而非进行限制。可预期,本领域的技术人员将容易想到修改和组合,这些修改和组合将在本发明的实质和以下权利要求书的范围之内。

Claims (27)

1.一种对在测序期间收集的图像的对焦元素和离焦元素选择性地执行碱基检出的方法,所述方法包括:
使用具有景深(DoF)的传感器捕获流通池的一部分的图像;
至少部分地基于所述流通池部分的一个或多个倾斜测量来将所述图像的相应元素就与所述DoF的空间关系而言分类为对焦或离焦;
至少部分地基于标量倾斜测量来针对所述对焦类别和所述离焦类别中的每个类别选择一个或多个相应碱基检出器;以及
使用一个或多个所选择的碱基检出器中的每个碱基检出器来执行所述图像的碱基检出。
2.根据权利要求1所述的方法,其中所述离焦类别包括在所述DoF上方的离焦元素的过焦类别和在所述DoF下方的离焦元素的欠焦类别。
3.根据权利要求2所述的方法,其中针对所述对焦类别选择一个或多个碱基检出器包括:选择适于处理对焦影像的碱基检出器。
4.根据权利要求2所述的方法,其中针对所述离焦类别选择一个或多个碱基检出器包括:选择适于处理所述过焦类别中的相应元素的至少一部分的过焦影像的碱基检出器。
5.根据权利要求2所述的方法,其中针对所述离焦类别选择一个或多个碱基检出器包括:选择适于处理所述欠焦类别中的相应元素的至少一部分的欠焦影像的碱基检出器。
6.根据权利要求1所述的方法,其中所述图像是在边合成边测序期间收集的。
7.根据权利要求1所述的方法,其中用于所述离焦类别的所述一个或多个碱基检出器中的每个碱基检出器包括均衡器,所述均衡器适于基于多个查找表(LUT)中的每个查找表(LUT)中的受过训练的系数的集合来应用离焦校正。
8.根据权利要求7所述的方法,其中所述一个或多个碱基检出器的至少一个均衡器是至少部分地使用对应于欠焦上下文的地面真值(GT)来训练的。
9.根据权利要求7所述的方法,其中所述一个或多个碱基检出器的至少一个均衡器是至少部分地使用对应于过焦上下文的地面真值(GT)来训练的。
10.一种对在测序期间收集的图像的对焦元素和离焦元素选择性地执行基于均衡器的碱基检出的方法,所述方法包括:
使用具有景深(DoF)的传感器捕获流通池的一部分的图像;
至少部分地基于所述流通池部分的一个或多个倾斜测量来将所述图像的相应元素就与所述DoF的空间关系而言分类为对焦或离焦;
至少部分地基于标量倾斜测量来针对所述对焦类别和所述离焦类别中的每个类别选择一个或多个相应的基于均衡器的碱基检出器;以及
使用一个或多个所选择的基于均衡器的碱基检出器来执行所述图像的碱基检出,其中执行碱基检出包括:
将相应LUT中的系数集合应用于目标碱基的图像像素的对应集合的强度值,
基于所述系数集合的应用来确定所述图像像素的强度值的加权和,以及
输出所述加权和作为碱基检出预测。
11.根据权利要求10中任一项所述的方法,其中所述离焦类别包括过焦类别和欠焦类别。
12.根据权利要求11所述的方法,其中针对所述对焦类别选择一个或多个碱基检出器包括:选择适于处理对焦影像的碱基检出器。
13.根据权利要求11所述的方法,其中针对所述过焦类别选择一个或多个碱基检出器包括:选择适于处理过焦影像的碱基检出器。
14.根据权利要求11所述的方法,其中针对所述欠焦类别选择一个或多个碱基检出器包括:选择适于处理欠焦影像的基于均衡器的碱基检出器。
15.根据权利要求10所述的方法,其中所述图像是在边合成边测序期间收集的。
16.一种训练均衡器以对在测序期间收集的图像的对焦元素和离焦元素执行基于均衡器的碱基检出的方法,所述方法包括:
获得一个或多个流通池的相应部分的图像的训练数据集,其中每个图像包括基于相应流通池部分的倾斜测量的已知离焦区域;
将所述训练数据集输入所述均衡器中;
使所述均衡器对所述训练数据集中的已知离焦区域执行碱基检出,其中执行碱基检出包括:
将所述均衡器的相应LUT中的系数集合应用于目标碱基的图像像素的对应集合的强度值,
基于所述系数集合的应用来确定所述图像像素的强度值的加权和,
基于针对所述目标碱基确定的强度目标来计算所述加权和的误差,
使用所述误差的导数来用减小所述误差的值更新所述系数集合,
重复地使所述均衡器对已知离焦区域执行碱基检出,直到更新的系数集合不再减小所述误差。
17.根据权利要求16所述的方法,其中所述均衡器在训练上下文中被训练为执行基于均衡器的碱基检出,并且其中所述方法还包括:导出所述更新的系数集合以用于在生产上下文中在均衡器中使用。
18.根据权利要求16所述的方法,其中所述均衡器是在所述生产上下文中训练的。
19.一种用于对在测序期间收集的图像的对焦元素和离焦元素选择性地执行碱基检出的系统,所述方法包括:
至少一个处理器;和
至少一个存储器系统,所述至少一个存储器系统具有存储在其上的计算机可执行指令,所述计算机可执行指令在由所述处理器执行时使所述处理器:
接收使用具有景深(DoF)的传感器捕获的流通池的一部分的图像;
至少部分地基于所述流通池部分的一个或多个倾斜测量来将所述图像的相应元素的类别就与所述DoF的空间关系而言确定为对焦或离焦;
至少部分地基于标量倾斜测量来针对所述对焦类别和所述离焦类别中的每个类别选择一个或多个相应碱基检出器;以及
使一个或多个所选择的碱基检出器中的每个碱基检出器对所述图像的相应对焦元素和离焦元素选择性地执行碱基检出。
20.根据权利要求19所述的方法,其中所述离焦类别包括在所述DoF上方的离焦元素的过焦类别和在所述DoF下方的离焦元素的欠焦类别。
21.根据权利要求20所述的方法,其中所述计算机可执行指令在由所述处理器执行时使所述处理器针对所述对焦类别选择一个或多个碱基检出器,其中所述碱基检出器适于处理对焦影像。
22.根据权利要求20所述的方法,其中所述计算机可执行指令在由所述处理器执行时使所述处理器针对所述离焦类别选择一个或多个碱基检出器,其中所述碱基检出器适于处理过焦影像。
23.根据权利要求20所述的方法,其中所述计算机可执行指令在由所述处理器执行时使所述处理器针对所述离焦类别选择一个或多个碱基检出器,其中所述碱基检出器适于处理欠焦影像。
24.根据权利要求19所述的方法,其中流通池的一部分的所述图像是在边合成边测序期间收集的。
25.根据权利要求19所述的方法,其中用于所述离焦类别的所述一个或多个碱基检出器中的每个碱基检出器包括均衡器,所述均衡器适于基于多个查找表(LUT)中的每个查找表(LUT)中的受过训练的系数的集合来应用离焦校正。
26.根据权利要求25所述的方法,其中所述一个或多个碱基检出器的至少一个均衡器是至少部分地使用对应于欠焦上下文的地面真值(GT)来训练的。
27.根据权利要求25所述的方法,其中所述一个或多个碱基检出器的至少一个均衡器是至少部分地使用对应于过焦上下文的地面真值(GT)来训练的。
CN202380044723.9A 2022-06-09 2023-06-09 碱基检出对流通池倾斜的依赖 Pending CN119317964A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202263350776P 2022-06-09 2022-06-09
US63/350776 2022-06-09
PCT/US2023/024953 WO2023239917A1 (en) 2022-06-09 2023-06-09 Dependence of base calling on flow cell tilt

Publications (1)

Publication Number Publication Date
CN119317964A true CN119317964A (zh) 2025-01-14

Family

ID=87136676

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202380044723.9A Pending CN119317964A (zh) 2022-06-09 2023-06-09 碱基检出对流通池倾斜的依赖

Country Status (3)

Country Link
US (1) US20230407386A1 (zh)
CN (1) CN119317964A (zh)
WO (1) WO2023239917A1 (zh)

Family Cites Families (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1991006678A1 (en) 1989-10-26 1991-05-16 Sri International Dna sequencing
AU3963595A (en) 1994-12-08 1996-06-26 Molecular Dynamics, Inc. Fluorescence imaging system employing a macro scanning objective
US5528050A (en) 1995-07-24 1996-06-18 Molecular Dynamics, Inc. Compact scan head with multiple scanning modalities
US6327410B1 (en) 1997-03-14 2001-12-04 The Trustees Of Tufts College Target analyte sensors utilizing Microspheres
US6023540A (en) 1997-03-14 2000-02-08 Trustees Of Tufts College Fiber optic sensor with encoded microspheres
US7622294B2 (en) 1997-03-14 2009-11-24 Trustees Of Tufts College Methods for detecting target analytes and enzymatic reactions
US6355431B1 (en) 1999-04-20 2002-03-12 Illumina, Inc. Detection of nucleic acid amplification reactions using bead arrays
WO2000063437A2 (en) 1999-04-20 2000-10-26 Illumina, Inc. Detection of nucleic acid reactions on bead arrays
US6770441B2 (en) 2000-02-10 2004-08-03 Illumina, Inc. Array compositions and methods of making same
CN100462433C (zh) 2000-07-07 2009-02-18 维西根生物技术公司 实时序列测定
EP1354064A2 (en) 2000-12-01 2003-10-22 Visigen Biotechnologies, Inc. Enzymatic nucleic acid synthesis: compositions and methods for altering monomer incorporation fidelity
GB0127564D0 (en) 2001-11-16 2002-01-09 Medical Res Council Emulsion compositions
JP3581694B2 (ja) 2002-03-27 2004-10-27 Tdk株式会社 薄膜磁気ヘッドの製造方法
DK3363809T3 (da) 2002-08-23 2020-05-04 Illumina Cambridge Ltd Modificerede nukleotider til polynukleotidsekvensering
ATE448302T1 (de) 2003-01-29 2009-11-15 454 Corp Nukleinsäureamplifikation auf basis von kügelchenemulsion
EP2532745B1 (en) 2003-07-05 2015-09-09 The Johns Hopkins University Method and Compositions for Detection and Enumeration of Genetic Variations
EP3175914A1 (en) 2004-01-07 2017-06-07 Illumina Cambridge Limited Improvements in or relating to molecular arrays
GB0514910D0 (en) 2005-07-20 2005-08-24 Solexa Ltd Method for sequencing a polynucleotide template
US7405281B2 (en) 2005-09-29 2008-07-29 Pacific Biosciences Of California, Inc. Fluorescent nucleotide analogs and uses therefor
US7329860B2 (en) 2005-11-23 2008-02-12 Illumina, Inc. Confocal imaging methods and apparatus
WO2007123744A2 (en) 2006-03-31 2007-11-01 Solexa, Inc. Systems and devices for sequence by synthesis analysis
US7315190B1 (en) 2006-06-16 2008-01-01 Richtek Technology Corp. PWM circuit and PWM integrated circuit for use in PWM circuit
US7754429B2 (en) 2006-10-06 2010-07-13 Illumina Cambridge Limited Method for pair-wise sequencing a plurity of target polynucleotides
AU2007309504B2 (en) 2006-10-23 2012-09-13 Pacific Biosciences Of California, Inc. Polymerase enzymes and reagents for enhanced nucleic acid sequencing
US8039817B2 (en) 2008-05-05 2011-10-18 Illumina, Inc. Compensator for multiple surface imaging
WO2010003132A1 (en) 2008-07-02 2010-01-07 Illumina Cambridge Ltd. Using populations of beads for the fabrication of arrays on surfaces
US8965076B2 (en) 2010-01-13 2015-02-24 Illumina, Inc. Data processing system and methods
US8422031B2 (en) * 2010-02-01 2013-04-16 Illumina, Inc. Focusing methods and optical systems and assemblies using the same
US8951781B2 (en) 2011-01-10 2015-02-10 Illumina, Inc. Systems, methods, and apparatuses to image a sample for biological or chemical analysis
WO2012170936A2 (en) 2011-06-09 2012-12-13 Illumina, Inc. Patterned flow-cells useful for nucleic acid analysis
WO2013063382A2 (en) 2011-10-28 2013-05-02 Illumina, Inc. Microarray fabrication system and method
EP2636427B1 (en) 2012-01-16 2019-02-27 Greatbatch Ltd. Elevated hermetic feedthrough insulator adapted for side attachment of electrical conductors on the body fluid side of an active implantable medical device
ES2949570T3 (es) 2012-04-03 2023-09-29 Illumina Inc Cabezal integrado de lectura optoelectrónica y cartucho de fluidos útiles para la secuenciación de ácidos nucleicos
US9512422B2 (en) 2013-02-26 2016-12-06 Illumina, Inc. Gel patterned surfaces
DK3017065T3 (en) 2013-07-01 2018-11-26 Illumina Inc Catalyst-free Surface functionalization and polymer grafting
JP6759197B2 (ja) 2014-10-31 2020-09-23 イルミナ ケンブリッジ リミテッド 新規のポリマーおよびdnaコポリマーコーティング
TWI689720B (zh) 2017-01-07 2020-04-01 美商伊路米納有限公司 固態檢驗設備及使用方法
NL2018852B1 (en) * 2017-05-05 2018-11-14 Illumina Inc Optical distortion correction for imaged samples
NL2023316B1 (en) 2019-03-21 2020-09-28 Illumina Inc Artificial intelligence-based sequencing
NL2023312B1 (en) 2019-03-21 2020-09-28 Illumina Inc Artificial intelligence-based base calling
NL2023310B1 (en) 2019-03-21 2020-09-28 Illumina Inc Training data generation for artificial intelligence-based sequencing
NL2023311B9 (en) 2019-03-21 2021-03-12 Illumina Inc Artificial intelligence-based generation of sequencing metadata
NL2023314B1 (en) 2019-03-21 2020-09-28 Illumina Inc Artificial intelligence-based quality scoring
US11188778B1 (en) * 2020-05-05 2021-11-30 Illumina, Inc. Equalization-based image processing and spatial crosstalk attenuator

Also Published As

Publication number Publication date
US20230407386A1 (en) 2023-12-21
WO2023239917A1 (en) 2023-12-14

Similar Documents

Publication Publication Date Title
US11694309B2 (en) Equalizer-based intensity correction for base calling
JP7604232B2 (ja) 人工知能ベースの配列決定のための訓練データ生成
US20200302225A1 (en) Training Data Generation for Artificial Intelligence-Based Sequencing
WO2020205296A1 (en) Artificial intelligence-based generation of sequencing metadata
NL2023310B1 (en) Training data generation for artificial intelligence-based sequencing
NL2023311B1 (en) Artificial intelligence-based generation of sequencing metadata
US11989265B2 (en) Intensity extraction from oligonucleotide clusters for base calling
US20230407386A1 (en) Dependence of base calling on flow cell tilt
US20240362300A1 (en) Intensity extraction and spatial crosstalk attenuation for base calling
US20230087698A1 (en) Compressed state-based base calling
US20230298339A1 (en) State-based base calling
WO2023049215A1 (en) Compressed state-based base calling
ANTONIOS Optimization of cDNA microarray image analysis methods
Khojasteh Lakelayeh Quality filtering and normalization for microarray-based CGH data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication