CN117015603A

CN117015603A - 使用基于转座子的技术与用于误差校正的独特分子标识符制备定向标签化测序文库的方法

Info

Publication number: CN117015603A
Application number: CN202280022273.9A
Authority: CN
Inventors: 苏珊·C·维瑞蒂; 罗伯特·斯科特·库尔斯滕; 尼尔·安东尼·戈麦利; 安德鲁·B·肯尼迪; 萨拉·E·舒尔扎伯格; 安德鲁·斯莱特; 艾玛·贝尔; 塞巴斯蒂安·乔治·加布里埃尔·里科尔特; 格雷斯·德桑蒂斯; 菲奥娜·卡帕; 庄涵宇; 奥利弗·乔恩·米勒; 杰森·理查德·贝特利; 斯蒂芬·格罗斯; 马茨·埃克斯特朗
Original assignee: Illumina Cambridge Ltd; Illumina Inc
Current assignee: Illumina Cambridge Ltd; Illumina Inc
Priority date: 2021-03-31
Filing date: 2022-03-29
Publication date: 2023-11-07
Also published as: MX2023011218A; CA3211172A1; WO2022212402A1; US20240026348A1; KR20230164668A; JP2024511760A; AU2022249289A1; EP4314283A1; BR112023019945A2; IL307164A

Abstract

本文描述了制备用于下一代测序的核酸文库的材料和方法。描述了涉及在测序文库的制备中使用独特分子标识符与基于转座子的技术的多种方法。本文还描述了用于识别和校正扩增及测序误差的测序材料和方法。

Description

使用基于转座子的技术与用于误差校正的独特分子标识符制备定向标签化测序文库的方法

相关申请的交叉引用

本申请要求于2021年3月31日提交的美国临时申请63/168,802的优先权权益，该临时申请以引用方式全文并入本文以用于任何目的。

序列表

本申请与电子格式的序列表一起提交。序列表以创建于2022年3月29日的名称为“2022-03-29_01243-0024-00PCT_Sequence_Listing_ST25.txt”的文件提供，该文件大小为4字节。序列表的电子格式的信息以引用方式全文并入本文。

说明书

技术领域

本申请涉及使用基于转座子的技术以掺入增加低频变体的测序灵敏度的独特分子标识符(UMI)来制备DNA和RNA测序文库。

背景技术

下一代测序(NGS)已经使得癌症研究人员能够使用高度准确的测序数据在单个测定中评估许多基因。然而，任何基于合成的方法都涉及固有误差。尽管误差率足够低(小于0.5％)而能够成功地完成许多基于NGS的应用，但使用非侵入性或其他方法进行样品收集的导致靶核酸浓度较低的新方法可能需要更低的误差率。例如，无细胞DNA(cfDNA)的分析可用于检测血液中的体细胞变体而不需要活组织检查；然而，总cfDNA中低百分比的循环肿瘤DNA(ctDNA)导致变体等位基因频率接近现有方法的检测极限。可能由文库制备方法产生的假象可能被误认为低频变体，从而降低方法的灵敏度和可靠性。

基于转座子的技术可用于制备全基因组测序文库。例如，先前称为Nextera DNAFlex Library Prep的Illumina DNA Prep(RUO)支持宽的核酸输入范围(1ng至500ng)、多种样品类型以及小基因组和大基因组两者。在4小时内，可生成350个碱基对的片段的文库，并且通过用转座体复合物处理靶核酸，使得核酸同时被片段化并带标签(“标签化”)以用于测序。

根据基于转座子的技术制备的文库可通过掺入独特分子标识符(UMI)来改进，以降低NGS数据中的固有误差率。将UMI整合到测序文库中使得UMI误差校正应用程序能够识别来自相同靶分子的多个读段并将它们折叠成单个读段，从而减少最终变体检出中的误差。UMI与链状(即，叉形)文库的组合可解析测序数据中的各个链分子。本公开提供了使用基于转座子的技术制备UMI文库的材料和方法。

发明内容

本公开涉及使用基于转座子的技术制备包含UMI的核酸测序文库的材料、组合物和方法。

实施方案1是一种产生双链核酸文库的方法，其中所述文库中的每个片段包含独特分子标识符(UMI)，其中所述方法包括：(a)将包含双链靶核酸的样品施加到第一转座体复合物，所述第一转座体复合物包含：(i)第一转座酶，(ii)包含第一3'端转座子末端序列、第一衔接子序列和第一UMI的第一转座子，和(iii)包含与所述第一3'端转座子末端序列全部或部分互补的序列的第二转座子；(b)将所述双链靶核酸用所述第一转座体复合物标签化以产生标签化双链靶核酸片段，其中每个标签化双链靶核酸片段包含第一衔接子序列和第一UMI，(c)从所述第一转座体复合物释放所述标签化双链靶核酸片段，(d)任选地使所述标签化双链靶核酸片段延伸，(e)任选地将所述第一转座子与所述标签化双链靶核酸片段或与经延伸的标签化双链靶核酸片段连接，(f)产生标签化双链靶核酸片段，以及(g)扩增所述标签化双链靶核酸片段。

实施方案2是根据实施方案1所述的方法，其中所述第一转座子中的所述第一UMI位于所述第一衔接子序列与所述第一3'转座子末端序列之间。

实施方案3是根据实施方案1或2所述的方法，其中所述第一转座子中的第一衔接子序列位于所述第一UMI与所述第一3'转座子末端序列之间。

实施方案4是根据实施方案1-3中任一项所述的方法，还包括第二转座体复合物，所述第二转座体复合物包含：(a)第二转座酶，(b)包含第二衔接子序列和第二3'转座子末端序列的第三转座子，和(c)包含与所述第二3'端转座子末端序列全部或部分互补的序列的第四转座子。

实施方案5是根据实施方案4所述的方法，其中所述标签化步骤产生标签化双链靶核酸片段，所述标签化双链靶核酸片段包含：(a)包含所述第一衔接子序列和所述第一UMI的第一链，和(b)包含所述第二衔接子序列的第二链。

实施方案6是根据实施方案4或5所述的方法，其中(a)所述第三转座子还包含第二UMI，并且(b)所述第二衔接子序列位于所述第二UMI与所述第二3'转座子末端序列之间。

实施方案7是根据实施方案6所述的方法，其中所述标签化步骤产生双链靶核酸片段，所述双链靶核酸片段包含：(a)包含所述第一衔接子序列和所述第一UMI的第一链，和(b)包含所述第二衔接子序列和所述第二UMI的第二链。

实施方案8是一种产生双链核酸文库的方法，其中所述文库中的每个片段包含UMI，其中所述方法包括：(a)将包含双链靶核酸的样品施加到转座体复合物，所述转座体复合物包含：(i)转座酶，(ii)包含第一3'端转座子末端序列和第一衔接子序列的第一转座子，和(iii)包含与所述第一3'端转座子末端序列完全或部分互补的序列的第二转座子；(b)将所述双链靶核酸的第一链用所述转座体复合物标签化以产生标签化双链靶核酸片段，其中每个标签化双链靶核酸片段包含所述第一衔接子序列，(c)从所述转座体复合物释放所述标签化双链靶核酸片段，(d)使包含第二衔接子序列的多核苷酸、UMI和与所述第一3'端转座子序列全部或部分互补的序列杂交，(e)任选地使所述标签化双链靶核酸片段延伸，(f)任选地将所述多核苷酸与所述标签化双链靶核酸片段或与经延伸的标签化双链靶核酸片段连接，(g)产生包含所述UMI的标签化双链靶核酸片段，其中所述UMI直接位于插入DNA的3'端附近，以及(h)扩增包含所述UMI的所述标签化双链靶核酸片段。

实施方案9是一种产生双链核酸文库的方法，其中所述文库中的每个片段包含UMI，其中所述方法包括：(a)将包含双链靶核酸的样品施加到转座体复合物，所述转座体复合物包含：(i)转座酶，(ii)包含第一3'端转座子末端序列和第一衔接子序列的第一转座子，和(iii)包含与所述第一3'端转座子末端序列完全或部分互补的序列的第二转座子；(b)将所述双链靶核酸的第一链用所述转座体复合物标签化以产生标签化双链靶核酸片段，其中每个标签化双链靶核酸片段包含所述第一衔接子序列，(c)从转座体复合物释放所述标签化双链靶核酸片段，(d)使包含UMI的第一多核苷酸和第二衔接子序列杂交，(e)任选地添加包含与所述第一多核苷酸互补的区域的第二多核苷酸以产生双链衔接子，(f)任选地使所述标签化双链靶核酸片段的第二链延伸，(g)任选地将所述第二多核苷酸与经延伸的标签化双链靶核酸片段的所述第二链连接，(h)产生包含所述UMI的标签化双链靶核酸片段，其中所述UMI位于所述双链靶核酸片段与所述第二衔接子序列之间，以及(i)扩增包含所述UMI的所述标签化双链靶核酸片段。

实施方案10是根据实施方案9所述的方法，其中在所述杂交步骤之后，所述方法还包括(a)使所述双链靶核酸片段的第二链延伸，以及(b)拷贝所述第一多核苷酸。

实施方案11是一种产生双链核酸文库的方法，其中所述文库中的每个片段包含两个不同的UMI，其中所述方法包括(a)将包含双链靶核酸的样品施加到：(i)第一转座体复合物，所述第一转座体复合物包含：(1)第一转座酶和(2)第一叉形衔接子，所述第一叉形衔接子包含(a)在所述双链靶核酸片段的第一链上的第一转座子，和(b)第二转座子，其中所述第一转座子包含第一3'端转座子末端序列、第一衔接子序列的第一拷贝和第一UMI，并且所述第二转座子包含第二衔接子序列的第一拷贝、和与所述第一3'端转座子末端序列全部或部分互补的序列以及所述第一UMI；此外其中所述第一衔接子序列的所述第一拷贝是单链的，并且所述第二衔接子序列的所述第一拷贝包括双链部分；以及(ii)第二转座体复合物，所述第二转座体复合物包含：(1)第二转座酶和(2)第二叉形衔接子，所述第二叉形衔接子包含(a)在所述双链靶核酸片段的第二链上的第三转座子，和(b)第四转座子，其中所述第三转座子包含第二3'端转座子末端序列、所述第一衔接子序列的第二拷贝和第二UMI，并且所述第三转座子包含所述第二衔接子序列的第二拷贝、和与所述第二3'端转座子末端序列全部或部分互补的序列以及所述第二UMI；此外其中所述第一衔接子序列的所述第二拷贝是单链的，并且所述第二衔接子序列的所述第二拷贝包括双链部分；(b)将所述双链靶核酸用所述叉形衔接子标签化以产生标签化双链靶核酸片段，其中每个标签化双链靶核酸片段包含所述第一衔接子序列的第一拷贝和第二拷贝、所述第一UMI、所述第二衔接子序列的第一拷贝和第二拷贝以及所述第二UMI，(c)从所述转座体复合物释放所述标签化双链靶核酸片段，(d)任选地使所述标签化双链靶核酸片段延伸，(e)将所述第二转座子和所述第四转座子与所述双链靶核酸片段或与经延伸的标签化双链靶核酸片段连接，(f)产生标签化双链靶核酸片段，以及(g)扩增所述标签化双链靶核酸片段。

实施方案12是一种产生双链核酸文库的方法，其中所述文库中的每个片段包含四个不同的UMI，其中所述方法包括(a)将包含双链靶核酸的样品施加到：(i)第一转座体复合物，所述第一转座体复合物包含：(1)第一转座酶和(2)第一叉形衔接子，所述第一叉形衔接子包含(a)在所述双链靶核酸片段的第一链上的第一转座子，和(b)第二转座子，其中所述第一转座子包含第一3'端转座子末端序列、第一衔接子序列的第一拷贝、第一UMI的第一拷贝和第二衔接子序列的第一拷贝，并且所述第二转座子包含与所述第一3'端转座子末端序列完全或部分互补的序列、第三衔接子序列的第一拷贝、第二UMI的第一拷贝和第四衔接子序列；此外其中所述第一衔接子序列、所述第二衔接子序列和所述第三衔接子序列的所述第一拷贝是单链的，并且所述第四衔接子序列包括双链部分；以及(i)第二转座体复合物，所述第二转座体复合物包含：(1)第二转座酶和(2)第二叉形衔接子，所述第二叉形衔接子包含(a)在所述双链靶核酸片段的第二链上的第三转座子，和(b)第四转座子，其中所述第三转座子包含第二3'端转座子末端序列、第五衔接子序列的第一拷贝、第三UMI的第一拷贝和第六衔接子序列的第一拷贝；所述第四转座子包含与所述第二3'端转座子末端序列全部或部分互补的序列、第七衔接子序列的第一拷贝、第四UMI的第一拷贝和第八衔接子序列；此外其中所述第五衔接子序列、所述第六衔接子序列和所述第七衔接子序列的所述第一拷贝是单链的，并且所述第八衔接子序列包括双链部分；(b)将所述双链靶核酸用叉形衔接子标签化以产生标签化双链靶核酸片段，其中每个标签化双链靶核酸片段包含所述第一衔接子序列、所述第二衔接子序列、所述第三衔接子序列、所述第五衔接子序列、所述第六衔接子序列和所述第七衔接子序列的第一拷贝；所述第一UMI、所述第二UMI、所述第三UMI和所述第四UMI的所述第一拷贝；所述第六衔接子序列；以及所述第八衔接子序列，(c)从所述转座体复合物释放所述标签化双链靶核酸片段，(d)任选地使所述标签化双链靶核酸片段延伸，(e)将所述第二转座子和所述第四转座子与所述双链靶核酸片段或与经延伸的标签化双链靶核酸片段连接，(f)产生标签化双链靶核酸片段，以及(g)扩增所述标签化双链靶核酸片段。

实施方案13是根据实施方案6、7、11或12中任一项所述的方法，其中所述第一UMI、所述第二UMI、所述第三UMI和所述第四UMI可以是互补的或不同的序列。

实施方案14是根据实施方案1-13中任一项所述的方法，其中所述双链靶核酸是双链DNA。

实施方案15是根据实施方案1-13中任一项所述的方法，其中所述双链靶核酸是ctDNA。

实施方案16是根据实施方案1-13中任一项所述的方法，其中所述双链靶核酸是cfDNA。

实施方案17是根据实施方案1-13中任一项所述的方法，其中所述双链靶核酸是RNA。

实施方案18是根据实施方案1-13中任一项所述的方法，其中双链靶核酸是cDNA或由RNA生成的DNA:RNA双链体。

实施方案19是根据实施方案1-18中任一项所述的方法，其中所述第一衔接子序列是5'第一读段测序衔接子序列。

实施方案20是根据实施方案1-19中任一项所述的方法，其中所述第二衔接子序列是5'第二读段测序衔接子序列。

实施方案21是根据实施方案1-20中任一项所述的方法，其中所述第一衔接子序列和所述第二衔接子序列是5'第一读段测序衔接子序列和5'第二读段测序衔接子序列。

实施方案22是根据实施方案1-21中任一项所述的方法，其中所述5'第一读段测序衔接子序列和所述5'第二读段测序衔接子序列包含独特引物结合位点。

实施方案23是根据实施方案1、2、4-8或13-22中任一项所述的方法，其中所述第一UMI在所述标签化双链靶核酸片段的所述第一链上。

实施方案24是根据实施方案1、3、5-7、13-22中任一项所述的方法，其中所述第一UMI的第一拷贝在所述标签化双链靶核酸片段的所述第一链上并且所述第一UMI的第二拷贝在所述标签化双链靶核酸片段的所述第二链上。

实施方案25是根据实施方案1-7、13-22中任一项所述的方法，其中所述第一UMI在所述标签化双链靶核酸片段的所述第一链上，所述第二UMI在所述标签化双链靶核酸片段的所述第二链上。

实施方案26是根据实施方案1-25中任一项所述的方法，其中所述第一转座子、所述第二转座子、所述第三转座子或所述第四转座子还包含生物素标签。

实施方案27是根据实施方案1-26中任一项所述的方法，其中所述第一转座子、所述第二转座子、所述第三转座子或所述第四转座子还包含第一独特引物结合序列。

实施方案28是根据实施方案27所述的方法，其中所述第一转座子、所述第二转座子、所述第三转座子或所述第四转座子还包含第二独特引物结合序列。

实施方案29是根据实施方案27或28所述的方法，其中所述独特引物结合序列包含A2、A14和/或B15。

实施方案30是根据实施方案8-10或14-22中任一项所述的方法，其中所述杂交步骤生成叉形衔接子。

实施方案31是根据实施方案1-30中任一项所述的方法，还包括从所述双链靶核酸片段的3'端延伸到所述转座子的5'端。

实施方案32是根据实施方案1-7或11-31中任一项所述的方法，其中所述连接步骤包括将所述标签化双链靶核酸片段的3'端或经延伸的标签化双链靶核酸片段的3'端与所述第一转座子、所述第二转座子或所述第四转座子的5'端连接。

实施方案33是根据实施方案1-32中任一项所述的方法，其中所述延伸和/或连接步骤任选地在延伸连接混合物中进行。

实施方案34是根据实施方案8、15-22、26-33中任一项所述的方法，其中所述多核苷酸包含3'衔接子，所述3'衔接子包含：(a)发夹UMI，(b)发夹UMI和通用杂交尾，(c)夹板连接衔接子，或(d)3'模板转换寡核苷酸。

实施方案35是根据实施方案34所述的方法，其中所述发夹UMI在所述延伸步骤和/或所述连接步骤期间是稳定的，但在所述扩增步骤期间不是稳定的。

实施方案36是根据实施方案34或35所述的方法，其中所述发夹UMI包含3或4个碱基对的茎。

实施方案37是根据实施方案34-36中任一项所述的方法，其中所述通用杂交尾包含可与任何DNA核苷酸结合的核苷酸。

实施方案38是根据实施方案34-37中任一项所述的方法，其中所述连接步骤包括将所述标签化双链靶核酸片段的第二链的3'端与所述通用杂交尾的5'端连接。

实施方案39是根据实施方案34所述的方法，其中(a)所述多核苷酸包含含有发夹UMI的3'衔接子，并且(b)所述延伸步骤包括从所述标签化双链靶核酸片段的所述第二链的3'端延伸到所述发夹UMI的5'端。

实施方案40是根据实施方案39所述的方法，其中所述连接步骤包括将经延伸的标签化双链靶核酸片段的所述第二链的所述3'端与所述发夹UMI的所述5'端连接。

实施方案41是根据实施方案34所述的方法，其中(a)所述多核苷酸包含夹板连接衔接子，并且(b)所述延伸步骤包括从所述标签化双链靶核酸片段的所述第二链的3'端延伸到所述夹板连接衔接子的5'端。

实施方案42是根据实施方案41所述的方法，其中所述延伸步骤包括延伸9个碱基。

实施方案43是根据实施方案41或42所述的方法，其中所述连接步骤包括将经延伸的标签化双链靶核酸片段的所述第二链的所述3'端与所述夹板连接衔接子的第一链的5'端连接。

实施方案44是根据实施方案34中任一项所述的方法，其中(a)所述多核苷酸包含模板转换寡核苷酸，并且(b)所述延伸步骤包括通过拷贝所述标签化双链靶核酸片段的所述第一链从所述标签化双链靶核酸片段的所述第二链的3'端延伸到所述模板转换寡核苷酸中的接合点，(c)将模板从所述第一链转换到所述3'模板转换寡核苷酸的未配对区域，以及(d)将所述3'模板转换寡核苷酸的所述未配对区域从所述接合点拷贝到所述3'模板转换寡核苷酸的所述未配对区域的5'端。

实施方案45是根据实施方案44所述的方法，其中所述延伸、所述转换和所述拷贝是通过能够进行DNA指导的模板转换的聚合酶进行的。

实施方案46是根据实施方案44或45所述的方法，其中所述能够进行DNA指导的模板转换的聚合酶包括MMLV逆转录酶。

实施方案47是根据实施方案1-33中任一项所述的方法，其中所述连接步骤包括将所述标签化双链靶核酸片段的3'端与第一转座子、第二转座子或第四转座子的5'端连接。

实施方案48是根据实施方案1-33或47中任一项所述的方法，还包括在所述扩增步骤之后选择在一定尺寸范围内的扩增核酸片段。

实施方案49是根据实施方案1-48中任一项所述的方法，其中所述扩增步骤包括将寡核苷酸添加到所述标签化双链靶核酸片段的一端或两端用于将所述文库附接到固体载体。

实施方案50是根据实施方案1-49中任一项所述的方法，其中所述扩增步骤包括添加至少第一读段测序寡核苷酸和/或第二读段测序寡核苷酸。

实施方案51是根据实施方案1-50中任一项所述的方法，其中所述扩增步骤包括添加至少P5寡核苷酸和P7寡核苷酸。

实施方案52是根据实施方案1-51中任一项所述的方法，其中所述扩增步骤包括添加至少多种i5寡核苷酸和多种i7寡核苷酸。

实施方案53是根据实施方案1-52中任一项所述的方法，其中所述转座体复合物、所述第一转座体复合物和/或所述第二转座体复合物在固体载体上。

实施方案54是根据实施方案1-53中任一项所述的方法，其中所述转座体复合物、所述第一转座体复合物和/或所述第二转座体复合物在溶液中。

实施方案55是一种对双链核酸文库进行测序的方法，所述双链核酸文库通过根据实施方案1-54中任一项所述的方法产生，其中对所述UMI进行测序以在DNA测序中提供增加的灵敏度。

实施方案56是根据实施方案55所述的方法，包括结合具有类似解链温度的测序引物。

实施方案57是根据实施方案55或56所述的方法，包括结合测序引物，所述结合测序引物包含与独特引物结合序列全部或部分互补的序列。

实施方案58是根据实施方案55-57中任一项所述的方法，包括具有至少A2序列的测序引物。

实施方案59是根据实施方案55-57中任一项所述的方法，包括具有至少A14序列和B15序列的测序引物。

实施方案60是根据实施方案55-59中任一项所述的方法，包括具有至少桥接引物的测序引物。

实施方案61是根据实施方案55-60中任一项所述的方法，还包括暗循环，其中对于所述测序方法的一部分不记录数据。

实施方案62是根据实施方案55-60中任一项所述的方法，其中未被记录的数据是与所述3’转座子末端序列相关的序列数据。

实施方案63是根据实施方案55-60中任一项所述的方法，其中所述方法避免了对暗循环的需要。

实施方案64是根据实施方案1或9所述的方法，其中所述延伸步骤包括用以拷贝所述UMI或所述第一UMI以产生双链体UMI的聚合酶。

实施方案65是一种转座体复合物，包含：(a)转座酶，(b)包含3'转座子末端序列和5'衔接子序列的第一转座子，和(c)包含与所述第一3'转座子末端序列完全或部分互补的序列的第二转座子。

实施方案66是根据实施方案65所述的转座体复合物，其中所述第一转座子的所述5'衔接子序列包含A14序列(SEQ ID NO:4)、A2序列(SEQ ID NO:7)和/或B15序列(SEQ IDNO:5)。

实施方案67是根据实施方案65或66所述的转座体复合物，其中所述第一转座子还包含UMI序列。

实施方案68是根据实施方案65-67中任一项所述的转座体复合物，其中所述第一转座子或所述第二转座子包含A14-ME(SEQ ID NO:1)。

实施方案69是根据实施方案65-67中任一项所述的转座体复合物，其中所述第一转座子或所述第二转座子包含B15-ME(SEQ ID NO:2)。

实施方案70是根据实施方案65-67中任一项所述的转座体复合物，其中所述第一转座子的所述3'转座子末端序列包含ME(SEQ ID NO:6)或ME'(SEQ ID NO:3)。

实施方案71是根据实施方案65-67中任一项所述的转座体复合物，其中所述第二转座子的所述3'转座子末端序列包含ME(SEQ ID NO:6)或ME'(SEQ ID NO:3)。

实施方案72是根据实施方案67所述的转座体复合物，其中所述第二转座子还包含3'衔接子序列，其中所述第二转座子的所述3'衔接子序列与所述第一转座子的所述5'衔接子序列部分或完全互补。

实施方案73是根据实施方案67所述的转座体复合物，其中所述第二转座子还包含3'衔接子序列，其中所述第二转座子的所述3'衔接子序列没有哪个部分与所述第一转座子的所述5'衔接子序列互补。

实施方案74是根据实施方案72或73所述的转座体复合物，其中所述第二转座子的所述3'衔接子序列包含A14序列(SEQ ID NO:4)、A2序列(SEQ ID NO:7)、B15序列(SEQ IDNO:5)、X序列、Y'序列、A序列和/或B序列。

实施方案75是根据实施方案72或74所述的转座体复合物，其中所述第二转座子还包含与所述第一转座子的所述UMI序列互补的序列。

实施方案76是根据实施方案73或74所述的转座体复合物，其中所述第二转座子还包含UMI，其中所述第二转座子的所述UMI包含与所述第一转座子的所述UMI不同的序列。

实施方案77是根据实施方案75或76所述的转座体复合物，还包含与所述B15序列或所述A14序列互补的寡核苷酸。

实施方案78是根据实施方案76所述的转座体复合物，还包含：(a)与所述A14序列相邻的A衔接子序列，(b)与所述B15序列相邻的B衔接子序列，(c)与所述ME序列相邻的X衔接子序列，和/或(d)与所述ME序列相邻的Y'衔接子序列。

实施方案79是根据实施方案65-78中任一项所述的转座体复合物，其中所述转座体复合物经由所述第一转座子或所述第二转座子固定到固体载体。

实施方案80是根据实施方案77所述的转座体复合物，其中所述转座体复合物经由所述互补寡核苷酸固定到固体载体。

实施方案81是根据实施方案79或80所述的转座体复合物，其中所述固体载体是小珠。

实施方案82是一种试剂盒，所述试剂盒包括根据实施方案65-81中任一项所述的转座体复合物。

实施方案83是一种试剂盒，所述试剂盒用于生成根据实施方案65-81中任一项所述的转座体复合物。

另外的目的和优点将在下列描述中部分地示出，并且部分地将在描述中理解，或可通过实践获知。这些目的和优点将借助所附权利要求书中特别指出的元件和组合来实现和获得。

应当理解，上述一般描述和下述详细描述均仅作为示例和说明，并且不是对权利要求书的限制。

并入本说明书中并且构成本说明书的一部分的附图示出了一个(多个)实施方案，并且其与说明书一起用于解释本文所述的原理。

附图说明

图1示出了一个实施方案，其中使用小珠连接的转座体(BLT)将捕获寡核苷酸用于标签化DNA片段。

图2示出了使用A2衔接子掺入独特分子标识符(UMI)。该方法将BLT与Hyb2Y工作流程组合以产生适于具有双链体UMI误差校正益处的测序的标签化DNA文库。UMI可包括随机化序列。

图3A-E示出了如实施例1所述制备的双链体UMIDNA文库的测序。图3A示出了具有引物标准读段1、标准读段2、标准i5和标准i7的Illumina DNA Prep和Illumina DNA Prepwith Enrichment的标准测序。图3B示出了包括4个定制引物和19个暗循环的Nextera测序方法。灰色箭头指示定制引物退火的位置。图3C示出了示例性测序运行中每个循环的质量，表示为等于或大于Q30的可能性百分比。图3D示出了使用用于示例性测序运行的i7和i5引物的测序信号强度。图3E比较了BLT双链体UMI设计(在图2中描述)与TruSight UMI(TruSight双链体)方法的双链体家族百分比。

图4示出了用桥接引物再杂交对双链体UMIDNA文库的测序。

图5A和5B示出了UMI-BLT的转座体结构(图5A)和工作流程(图5B)。TsTn5＝转座酶。

图6A和6B示出了具有暗循环(图6A)和不具有暗循环(图6B)的双链体UMI文库测序。

图7示出了针对使用以下方法的测序运行的％Q30得分：IDPE、TruSeq^TM、具有暗循环的非叉形UMI-BLT和具有桥接引物再杂交的非叉形UMI-BLT。示出了读段1和读段2的％Q30得分。

图8示出了用于制备具有来自cfDNA的单个UMI的DNA文库的BLT和富集工作流程。在一些实施方案中，循环核酸试剂盒(Qiagen；目录号：55114)用于提取cfDNA。

图9示出了使用经典的Nextera衔接子掺入单个UMI。尽管该方法不允许样品索引，但标准测序方法可从索引读段中捕获掺入的UMI。在一些实施方案中，标准测序引物用于读段UMI。

图10示出了总读段％，其指示UMI成功地掺入标签化DNA片段中并均匀地分布在标签化文库中。

图11A和图11B显示单个UMI-BLT文库比TruSeq^TM文库具有更大的平均靶覆盖率和更高的cfDNA向文库的转化率(在图11A中示出为“无UMI”)。图11A示出了由读段折叠分析提供的去重平均靶覆盖率。图11B比较了TruSeq^TM方法和单一UMI-BLT方法(在图11B中示出为“eBBN”)。

图12示出了在BLT中使用叉形衔接子捕获寡核苷酸掺入双链体UMI，以产生与独特双索引(UDI)相容的用于测序的DNA文库。

图13示出了在BLT中使用叉形衔接子捕获寡核苷酸掺入双链体UMI，以产生与UDI相容的用于测序的DNA文库。

图14说明了Hyb2Y和用含有发夹-UMI和通用杂交5'尾(通用杂交尾)的3'衔接子的连接。该方法利用只有A14的Tn5。连接步骤发生在Hyb2Y之后；不需要延伸步骤。在一些实施方案中，通用杂交尾包含能够进行通用沃森-克里克碱基配对的肌苷碱基。在一些实施方案中，通用杂交尾可与A14和/或B15杂交。*标记连接接合点。在一些实施方案中，通用杂交5'可与A14和B15杂交。

图15说明了Hyb2Y、延伸和用含有发夹UMI的3’衔接子的连接。在Hyb2Y之后，进行延伸步骤，随后进行连接步骤。在一些实施方案中，为了稳定性，发夹茎包含3-4个碱基对。在一些实施方案中，发夹环包含约4个碱基。*标记连接接合点。

图16说明了Hyb2Y、延伸和用3’衔接子复合物的连接。该方法利用只有A14的Tn5。在一些实施方案中，夹板连接衔接子包含两个部分：夹板部分和尾部分。每个部分约50个核苷酸长。在一些实施方案中，A14'、ME和/或X可被截短或消除。*标记连接接合点。

图17说明了利用仅A14的Tn5模板转换掉ME-序列的方法。模板转换延伸步骤发生在杂交步骤之后。在一些实施方案中，可使用约70个核苷酸的长模板转换。在一些实施方案中，转换寡核苷酸可在其自身上形成二级结构(即，折叠)，这阻碍了其如实施方案中预期的那样起作用。转换寡核苷酸折叠可通过使用TruSeq^TM衔接子序列代替P7侧的ME(用***指示)来规避。在一些实施方案中，A14'可被截短或省略。**标记模板转换接合点。

图18A-D示出了使用聚合酶模板转换添加3’UMI和衔接子序列。用A14转座体进行靶DNA的标签化(图18A)。Hyb2Y用于添加单链聚合酶模板转换衔接子(图18B)。使用能够将模板从插入DNA转换到聚合酶模板转换衔接子的聚合酶来延伸插入DNA(图18C)。PCR用于使用样品索引和流通池引物从A14和B15扩增文库(图18D)。

图19A-D示出了使用5'衔接子序列和聚合酶延伸和邻近添加3’UMI。用A14转座体进行靶DNA的标签化(图19A)。Hyb2Y用于添加5'双链衔接子(图19B)。聚合酶延伸和邻近5'连接用于将UMI添加到插入DNA中(图19C)。PCR用于使用样品索引和流通池引物从A14和B15扩增文库(图19D)。

图20比较了添加与插入DNA串联(即相邻)的3’UMI的某些实施方案。在某些实施方案中，使用模板转换延伸。在某些实施方案中，使用延伸和连接。

图21A-C示出了将转座体复合物寡核苷酸附接到固体载体表面的某些实施方案。这些实施方案提供了帮助利用BLT与靶富集方法的选择，这些方法可能由于5'生物素化文库片段的存在而受损。图21A示出了通过衔接子中的互补碱基配对的Tsm衔接子的间接3'生物素附接。图21B示出了直接3'生物素化附接。图21C示出了直接5'生物素化附接。

序列描述

表1提供了本文引用的某些序列的列表。对于蛋白质和核酸序列，将所有序列分别写为N-末端至C-末端或5'至3'。表1中的某些序列表示来自序列文库的示例性序列。例如，如在以下部分II.A中所讨论的，“UMI”表示UMI序列的文库。在另一示例中，当与SEQ ID NO:6的示例性ME相比时，ME序列可包含序列变化。以相同方式，当与SEQ ID NO:1的示例性A14-ME相比时，A14-ME序列可包含序列变化。序列变化可包括例如核酸突变、核酸取代、核酸缺失、核酸添加、核酸插入、序列截短、更长的序列、更短的序列、UMI序列、引物序列、索引标签序列、捕获序列、条形码序列、切割序列、锚定序列、通用序列、间隔序列、转座子末端序列、测序相关序列以及它们的任何组合。在另一示例中，与测序相关的引物和衔接子可指引物和衔接子的文库。i5和i7序列的文库由Illumina Adapter Sequences Document#1000000002694v15提供，并且其全文据此以引用方式并入。在示例性定制引物诸如SEQ IDNO:10和11中，i5和i7部分可包含如Illumina Adapter Sequences Document#1000000002694v15提供的序列变化。

具体实施方式

I.定义

如本文所用，“杂交序列”或“HYB”是指可与互补杂交序列杂交的序列。一个文库产物中的HYB与另一个文库产物中的HYB’的杂交可导致杂交加合物，其中两个文库产物经由HYB/HYB’的杂交彼此退火。

如本文所用，“Hyb2Y”或“Hyb2Y工作流程”是指使用HYB/HYB'产生叉形衔接子结构(也称为Y形衔接子结构)。在一些情况但不是全部情况下，该过程还涉及用另一种寡核苷酸替换一种寡核苷酸。

在小珠连接的转座体(BLT)的上下文中，“Hyb2Y”，即使用HYB/HYB'产生叉形衔接子结构，导致从Tn5转座体产物复合物中去除非转移链，并且用另一种寡核苷酸替换它，该另一种寡核苷酸可含有其所替换的寡核苷酸的附加序列。这样做，可创建新的或维持正在使用的衔接子的现有叉形架构。

如本文所用，“插入序列”是指包含在多核苷酸中的靶核酸的区域。多核苷酸可包含多个插入序列。

如本文所用，“堆叠读段”涉及由单个多核苷酸生成的多个插入序列的测序读段。这些测序读段可以是连续的。例如，包含2个或更多个插入序列和2种或更多种引物序列的多核苷酸可用于生成堆叠读段。如本文所用，“堆叠读段文库”是指包含可用于生成堆叠读段的多个插入序列的多核苷酸的文库。

如本文所用，“边合成边测序”或“SBS”是指掺入多核苷酸中以改善读段引物的结合的序列。在由通过标签化产生的文库产物制备多核苷酸的实施方案中，SBS可以是嵌合端序列，SBS’可以是嵌合端序列的互补物，诸如ME和ME’。当使用TruSeq^TM方法(Illumina)产生文库产物时，SBS和SBS’序列也可包含在衔接子中。

II.使用基于转座子的技术制备UMI文库

独特分子标识符(UMI)是掺入双链核酸文库中用于识别和校正测序误差和PCR重复的核酸序列。当许多DNA分子一起测序时，UMI用于区分一种来源DNA分子与另一种来源DNA分子。UMI可用于帮助识别测序和PCR假象，以及来自链特异性DNA损伤的误差，诸如通常在福尔马林固定、石蜡包埋的FFPE组织中发现的那些。UMI允许减少来自PCR扩增和测序期间发生的误差的噪音，使得能够以<1％的等位基因频率检测单核苷酸变体(SNV)(例如在无细胞DNA、cfDNA中)。

本文所述的材料和方法可与基于转座子的技术一起使用以将UMI掺入双链核酸文库中。如本文所用，“UMI文库”是双链核酸片段的文库，其中每个片段包含至少一个UMI。在本文所述的某些实施方案中，每个片段可包含一个、两个或更多个UMI。

本文公开了与基于转座子的技术组合的用于生成测序文库的方法。在一些实施方案中，基于转座子的技术包括的DNA Prep系列产品的工作流程，以产生在片段末端用独特衔接子序列标记的双链核酸片段群体。公开了用于转座反应的多种HYB或HYB'序列。在一些实施方案中，这些方法在溶液混合物中进行。在一些实施方案中，使用固体载体诸如BLT。

在许多实施方案中，制备UMI文库的方法包括将具有双链靶核酸的样品应用到一个、两个或更多个转座体复合物的第一步骤。

在一些实施方案中，在第一步骤之后，制备UMI文库的方法还包括(1)将核酸标签化以产生包含UMI和衔接子序列的核酸片段，(2)从转座体复合物释放核酸片段，(3)将转座子或延伸的转座子与核酸片段连接，(4)产生包含UMI的核酸片段。在一些实施方案中，该方法在释放步骤后还包括任选的延伸步骤，其中使该双链靶核酸片段延伸。该延伸步骤也被称为缺口填充。

在一些实施方案中，在第一步骤之后，制备UMI文库的方法还包括(1)将核酸标签化以产生包含衔接子序列的核酸片段，(2)从转座体复合物释放核酸片段，(3)使包含衔接子序列的多核苷酸和UMI杂交以掺入UMI。多核苷酸还包含与3'端转座子序列完全或部分互补的序列。该方法还可包括任选的步骤，其中使该双链靶核酸片段的第二链延伸。该方法还可包括任选的步骤，其中连接多核苷酸或延伸的多核苷酸。在一些实施方案中，方法还包括产生具有UMI的双链靶核酸片段，其中该UMI直接位于插入DNA的3’端附近。

在一些实施方案中，在第一步骤之后，制备UMI文库的方法还包括(1)用转座子标签化双链靶核酸的第一链以产生包含第一衔接子序列的双链靶核酸片段，(2)从转座体复合物释放双链靶核酸片段，以及(3)使包含UMI的第一多核苷酸和第二衔接子序列杂交。在一些实施方案中，该方法还可包括任选的步骤用于(1)添加包含与该第一多核苷酸互补的区域的第二多核苷酸以产生双链衔接子，(2)使该双链靶核酸片段的第二链延伸，和/或(3)任选地将该双链衔接子与该双链靶核酸片段连接。

在一些实施方案中，在第一步骤之后，制备UMI文库的方法还包括(1)用叉形衔接子转座子标签化双链靶核酸以产生包含第一衔接子序列的第一拷贝和第二拷贝、第一UMI、第二衔接子序列的第一拷贝和第二拷贝以及第二UMI的双链靶核酸片段；(2)从该转座体复合物释放双链靶核酸片段；以及(3)将叉形衔接子转座子与双链靶核酸片段连接。在一些实施方案中，在释放步骤之后，使双链靶核酸片段延伸，在这种情况下，随后的连接步骤将延伸的叉形衔接子转座子与双链靶核酸片段连接。

在许多实施方案中，在产生UMI文库后，该方法还包括扩增UMI文库。

在一些实施方案中，在标签化期间使用转座子衔接子掺入UMI。在一些实施方案中，在标签化后使用多核苷酸衔接子掺入UMI。在一些实施方案中，通过延伸和/或连接多核苷酸衔接子来掺入UMI。在一些实施方案中，在文库扩增之前掺入UMI。

这些步骤中的每一者的方面在随后的部分中讨论。

A.独特分子标识符(UMI)

独特分子标识符(UMI)是应用于核酸分子或在核酸分子中识别的核苷酸序列，其可用于将各个核酸分子彼此区分。UMI可与它们所缔合的核酸分子一起测序，以确定读取序列是一种来源核酸分子的序列还是另一种来源核酸分子的序列。术语“UMI”在本文中可用于指多核苷酸的序列信息和物理多核苷酸本身两者。UMI类似于条形码，其通常用于将一个样品的读段与其他样品的读段区分，但当来自各个样品的许多片段一起测序时，UMI替代地用于将核酸模板片段与另一个区分。UMI可以许多方式定义，诸如WO 2019/108972和WO2018/136248中所述，其以引用方式并入本文。

UMI可以是单链或双链的，并且可以是至少5个碱基、至少6个碱基、至少7个碱基、至少8个碱基或更多。在某些实施方案中，UMI的长度为5-8个碱基、5-10个碱基、5-15个碱基、5-25个碱基、8-10个碱基、8-12个碱基、8-15个碱基或8-25个碱基等。此外，在某些实施方案中，UMI的长度不超过30个碱基、不超过25个碱基、不超过20个碱基、不超过15个碱基。应当理解，本文提供的UMI序列的长度可指序列的独特/可区分部分，并且可排除可用作测序引物且在具有不同标识符序列的多个UMI之间共用的相邻共用或衔接子序列(例如，p5、p7)。

UMI可以许多方式定义，诸如WO 2018/136248中所述，其以引用方式并入本文。UMI可以是随机的、伪随机的或部分随机的，或非随机的核苷酸序列，其被插入衔接子中或以其他方式掺入待测序的源DNA分子中。在一些实施方案中，UMI是独特的，每个UMI能够为存在于样品中的任何给定源DNA提供独特识别。如本文所述，转座子衔接子和多核苷酸衔接子可用于将UMI掺入待测序的靶核酸中，并且单个测序分子各自具有有助于将其与所有其他片段区分的UMI。在一些实施方案中，大量不同的物理UMI可用于唯一地识别样品中的DNA片段。在一些实施方案中，UMI具有足够的长度以确保每个源DNA的唯一性。

在一些实施方案中，UMI文库包含非随机序列。在一些实施方案中，针对特定实验或应用预定义非随机UMI(nrUMI)。在某些实施方案中，规则用于生成集合的序列或从该集合中选择样品以获得nrUMI。例如，可生成集合的序列，使得序列具有一个或多个特定模式。在一些具体实施中，每个序列与该集合中的每个其他序列相差特定数目的(例如，2、3或4个)核苷酸。即，通过替换少于特定数目的核苷酸，没有nrUMI序列可转化成任何其他可用的nrUMI序列。在一些具体实施中，在测序过程中使用的一组UMI包括少于给定特定序列长度的所有可能的UMI。例如，具有6个核苷酸的一组nrUMI可包括总共96个不同的序列，而不是总共4^A6＝4096个可能的不同序列。在一些实施方案中，UMI文库包含120个非随机序列。

在一些具体实施中，当nrUMI选自具有少于所有可能的不同序列的组时，nrUMI的数目少于，有时显著少于来源DNA分子的数目。在此类具体实施中，nrUMI信息可与其他信息(诸如虚拟UMI、参考序列上的读段位置和/或读段的序列信息)组合，以识别来源于相同来源DNA分子的序列读段。

“虚拟独特分子索引”或“虚拟UMI”是源DNA分子中的独特子序列。在一些具体实施中，虚拟UMI位于源DNA分子的末端或其附近。一个或多个此类独特末端位置可单独地或结合其他信息独特地识别源DNA分子。根据不同源DNA分子的数量和虚拟UMI中核苷酸的数量，一个或多个虚拟UMI可独特地识别样品中的源DNA分子。在一些情况下，需要两个虚拟的独特分子标识符的组合来识别源DNA分子。此类组合可能是极其罕见的，可能在样品中仅发现一次。在一些情况下，与一个或多个物理UMI组合的一个或多个虚拟UMI可一起独特地识别源DNA分子。在一些实施方案中，虚拟UMI位于从Nextera片段化过程产生的片段化端点处。

在一些实施方案中，UMI文库可包含随机UMI(rUMI)，其作为随机样品从由给定一个或多个序列长度的所有可能的不同寡核苷酸序列组成的一组UMI中在进行或不进行替换的情况下来选择。例如，如果该组UMI中的每个UMI具有n个核苷酸，则该组包括4^An个具有彼此不同的序列的UMI。从4^An个UMI中选择的随机样品构成rUMI。

在一些实施方案中，UMI文库是伪随机的或部分随机的，其可包含nrUMI和rUMI的混合物。

在许多实施方案中，在所述核酸的标签化期间或之后，使用寡核苷酸或多核苷酸将UMI添加到靶双链核酸。在许多实施方案中，在文库扩增步骤之前将UMI添加到靶双链核酸。

在一些实施方案中，根据本公开，可利用来自Oncology工作流程(Illumina目录号20024586)的UMI试剂。

在一些实施方案中，UMI文库中的双链核酸分子各自包含一个独特UMI序列，或单个UMI。在许多实施方案中，UMI可位于插入DNA的任一侧。在一些实施方案中，衔接子序列或其他核苷酸序列可存在于UMI与插入DNA之间。

在一些实施方案中，UMI文库包含双链体UMI，与使用单个UMI相比，这可降低误差检测的极限。尽管在测序反应中可能出现误差，双链体UMI使得技术人员能够将正链与其负链配对。此类测序错配在测序期间被识别，并且尽管具有错配，核酸片段的序列仍然可被正确地重建。在一些实施方案中，产生包含双链体UMI的UMI文库的方法包括叉形衔接子，如以下部分II.C中详细讨论的。在一些实施方案中，叉形衔接子是BLT叉形衔接子。

在一些实施方案中，UMI文库中的每个双链核酸片段包含两个、三个或四个UMI序列。UMI序列可具有彼此互补的序列，或者可各自具有不同的序列。

在一些实施方案中，衔接子序列或其他核苷酸序列可存在于每个UMI与插入DNA之间。

在一些实施方案中，UMI位于插入DNA的5'。在一些实施方案中，UMI位于插入DNA的3'。在一些实施方案中，代表一个或多个衔接子序列的核酸序列可位于UMI与插入DNA之间。在一些实施方案中，UMI位于衔接子序列与转座子末端序列之间。

在许多实施方案中，UMI可在双链靶核酸片段的第一链、第二链或两条链上。在一些实施方案中，UMI在第一链上。在一些实施方案中，UMI的第一拷贝在双链靶核酸片段的第一链上并且UMI的第二拷贝在双链靶核酸片段的第二链上。在一些实施方案中，第一UMI位于第一链上，并且第二UMI位于第二链上。

1.串联UMI

UMI可位于双链核酸分子的任何位置。在许多实施方案中，UMI在双链核酸上的位置将变化。在一些实施方案中，UMI直接与插入DNA相邻，即UMI是“串联UMI”。在一些实施方案中，串联UMI与插入DNA的3’端相邻。在一些实施方案中，串联UMI与插入DNA的5’端相邻。目前的BLT方法含有与靶插入物相邻的ME，这排除了Illumina连接衔接子与UMI的使用。虽然UMI可用于去除双链核酸中的PCR重复并且用于检测低频变体，但UDI可用于减轻由于文库测序和解复用中的索引跳跃引起的样本错误分配。UDI是添加到靶核酸两端的独特i5和i7索引序列，使得两端都含有UDI。UDI与模式流通池一起使用，诸如Illumina的NovaSeq6000系统(参见例如WO 2018/204423、WO 2018/208699、WO 201/9055715和WO2016/176091；这些专利的全文据此以引用方式并入本文)。本领域技术人员将理解，串联UMI允许UMI文库与利用UDI的标准下游文库制备物(诸如Illumina的TruSeq^TM和AmpliSeq^TM工作流程中的样品多重PCR和测序化学方案)相容。在一些实施方案中，用于串联UMI的测序方法不需要定制引物或定制读段。

在一些实施方案中，使用标准测序方法对具有串联UMI的UMI文库进行测序。在这些实施方案中，UMI与插入核酸的3'端相邻(图20)。因此，使用读段2捕获每个UMI和插入核酸序列，而不必在它们之间对ME序列进行测序。在这些实施方案中，测序方法不包括暗循环。暗循环在以下部分III.A中讨论。

在一些实施方案中，“串联UMI”位于插入DNA与衔接子序列之间。在一些实施方案中，衔接子序列为第二衔接子序列。

B.转座体复合物

通常，本发明的转座子复合物包含转座酶以及第一转座子和第二转座子，以及介导靶向一个或多个感兴趣的核酸序列的一种或多种组分。

如本文所用，“转座体复合物”由至少一种转座酶(或如本文所述的其他酶)和转座子识别序列构成。在一些此类体系中，转座酶结合转座子识别序列以形成能够催化转座反应的功能性复合物。在某些方面，转座子识别序列为双链转座子末端序列。转座酶结合靶核酸中的转座酶识别位点并将转座子识别序列插入到靶核酸中。在一些此类插入事件中，转座子识别序列(或端序列)的一条链被转移到靶核酸中，导致切割事件。可容易地适于与转座酶一起使用的示例性转座程序和系统。

在一些实施方案中，该方法包括一种、两种或更多种转座体复合物。每个转座体复合物可包含与也可用于相同方法的其他转座体复合物不同的转座酶和转座子。

在一些实施方案中，转座体复合物包含转座酶和一个、两个或多个转座子。

在一些实施方案中，转座体复合物包含转座酶和第一转座子，该第一转座子包含3’转座子末端序列和5’衔接子序列。第一转座子的5'衔接子序列可包含A14序列(SEQ IDNO:4)、A2序列(SEQ ID NO:7)和/或B15序列(SEQ ID NO:5)。在一些实施方案中，第一转座子还包含UMI序列。

在一些实施方案中，转座体复合物还包含第一转座子和第二转座子。第二转座子包含5’转座子末端序列。第二转座子的5’转座子末端序列可与第一转座子的3’转座子末端序列互补。

在一些实施方案中，第二转座子还包含3’衔接子序列。第二转座子的3'衔接子序列可与第一转座子的5'衔接子序列部分或完全互补。

在一些实施方案中，第二转座子的3’衔接子序列不包含与第一转座子的5’衔接子序列互补的部分。

在一些实施方案中，第二转座子的3'衔接子序列包含A14序列(SEQ ID NO:4)、A2序列(SEQ ID NO:7)、B15序列(SEQ ID NO:5)和/或与第一转座子的UMI序列互补的序列。

在一些实施方案中，第二转座子还包含UMI。第二转座子的UMI可以是与第一转座子的UMI相同的序列或不同的序列。

在一些实施方案中，转座体复合物包含一个、两个或更多个转座子，每个转座子具有包含A14-ME(SEQ ID NO:1)和/或B15-ME(SEQ ID NO:2)的序列。

在一些实施方案中，转座子复合物包含第一转座子，该第一转座子具有包含ME(SEQ ID NO:6)或ME'(SEQ ID NO:3)的3'转座子末端序列。在一些实施方案中，转座子复合物包含第二转座子，该第二转座子具有包含ME(SEQ ID NO:6)或ME'(SEQ ID NO:3)的3'转座子末端序列。

在一些实施方案中，转座体复合物包含与A14序列(SEQ ID NO:4)、A2序列(SEQ IDNO:7)、B15序列(SEQ ID NO:5)、ME序列(SEQ ID NO:6)和/或ME'序列(SEQ ID NO:3)相邻的附加衔接子序列。许多序列可用作附加衔接子序列，诸如在Illumina Adapter SequencesDocument#1000000002694v15中公开的那些序列，该文献以引用方式并入本文。在一些实施方案中，附加衔接子序列是A衔接子序列、B衔接子序列、X衔接子序列或Y'衔接子序列。

在一些实施方案中，转座体复合物包含与B15序列和/或A14序列互补的寡核苷酸。

在一些实施方案中，转座体复合物被固定到固体载体，诸如小珠或其他材料。在一些实施方案中，转座体复合物经由第一转座子或第二转座子固定。在一些实施方案中，转座体复合物经由与第一转座子或第二转座子的衔接子序列(诸如B15序列或A14序列)互补的寡核苷酸固定。

1.转座酶

“转座酶”意指一种酶，所述酶能够与包含转座子末端的组合物(例如，转座子、转座子末端、转座子末端组合物)形成功能性复合物，并且催化含转座子末端的组合物插入或转座到双链靶核酸中。如本文所示的转座酶还可包括来自逆转录转座子和逆转录病毒的整合酶。

可与本文提供的某些实施方案一起使用的示例性转座酶包括(或编码自)：Tn5转座酶、睡美人(Sleeping Beauty，SB)转座酶、哈氏弧菌(Vibrio harveyi)、MuA转座酶和包含R1和R2端序列的Mu转座酶识别位点、金黄色葡萄球菌(Staphylococcus aureus)Tn552、Ty1、Tn7转座酶、Tn/O和IS10、水手转座酶、Tc1、P元件、Tn3、细菌插入序列、逆转录病毒和酵母的逆转座子。更多示例包括IS5、Tn10、Tn903、IS911和转座酶家族酶的工程化版本。本文所述的方法还可包括转座酶的组合，而不仅仅是单一转座酶。

在一些实施方案中，转座酶是Tn5、Tn7、MuA或哈氏弧菌转座酶或其活性突变体。在其他实施方案中，转座酶是Tn5转座酶或其突变体。在其他实施方案中，转座酶是Tn5转座酶或其突变体。在其他实施方案中，转座酶是Tn5转座酶或其活性突变体。在一些实施方案中，Tn5转座酶是高活性Tn5转座酶或其活性突变体。在一些方面，Tn5转座酶是如PCT公布WO2015/160895中所述的Tn5转座酶，该专利以引用方式并入本文。在一些方面，Tn5转座酶是相对于野生型Tn5转座酶在具有第54、56、372、212、214、251和338位处的突变的高活性Tn5。在一些方面，Tn5转座酶是相对于野生型Tn5转座酶具有下列突变的高活性Tn5：E54K、M56A、L372P、K212R、P214R、G251R和A338V。在一些实施方案中，Tn5转座酶是融合蛋白质。在一些实施方案中，Tn5转座酶融合蛋白质包含融合的延长因子Ts(Tsf)标签。在一些实施方案中，Tn5转座酶是相对于野生型序列在氨基酸54、56和372处包含突变的超高活性Tn5转座酶。在一些实施方案中，超高活性Tn5转座酶是融合蛋白质，任选地，其中融合蛋白质是延长因子Ts(Tsf)。在一些实施方案中，识别位点是Tn5型转座酶识别位点(Goryshin和Reznikoff，J.Biol.Chem.,273:7367,1998)。在一个实施方案中，使用与超高活性Tn5转座酶形成复合物的转座酶识别位点(例如，EZ-Tn5TM转座酶，Epicentre Biotechnologies,Madison,Wis.)。在一些实施方案中，Tn5转座酶是野生型Tn5转座酶。

如通篇所用，术语转座酶是指一种酶，所述酶能够与包含转座子的组合物(例如，转座子、转座子组合物)形成功能性复合物，并且在体外转座反应中，催化含转座子的组合物插入或转座到与其一起温育的双链靶核酸中。所提供的方法的转座酶还可包括来自逆转录转座子和逆转录病毒的整合酶。可用于所提供的方法中的示例性转座酶包括野生型或突变形式的Tn5转座酶和MuA转座酶。

“转座反应”是其中一个或多个转座子在随机位点或几乎随机位点处插入靶核酸中的反应。转座反应中的基本组分是转座酶和DNA寡核苷酸，所述DNA寡核苷酸表现出转座子的核苷酸序列，包括转移的转座子序列及其互补序列(即，未转移的转座子末端序列)以及形成功能性转座或转座体复合物所需的其他组分。本公开的方法通过使用由超高活性Tn5转座酶和Tn5型转座子末端或由MuA或HYPERMu转座酶以及包含Rl和R2末端序列的Mu转座子末端形成的转座复合物来例示(参见例如Goryshin,I.和Reznikoff,W.S.,J.Biol.Chem.,273:7367,1998；和Mizuuchi,Cell,35:785,1983；Savilahti,H等人,EMBOJ.,14:4893,1995；这些文献全文以引用方式并入本文)。然而，能够以随机或几乎随机的方式以足够的效率插入转座子末端以使靶核酸带标签以用于其预期目的的任何转座体系均可用于所提供的方法。可用于所提供的方法的已知转座体系的其他示例包括但不限于金黄色葡萄球菌Tn552、Tyl、转座子Tn7、Tn/O和IS10、Mariner转座酶、Tel、P因子、Tn3、细菌插入序列、逆转录病毒和酵母的逆转录转座子(参见例如，Colegio O R等人,J.Bacteriol.,183:2384-8,2001；Kirby C等人,Mol.Microbiol.,43:173-86,2002；Devine S E和Boeke JD.,Nucleic Acids Res.,22:3765-72,1994；国际专利申请WO 95/23875；Craig,N L,Science.271:1512,1996；Craig,N L,综述于：Curr Top Microbiol Immunol.,204:27-48,1996；Kleckner N等人,Curr Top Microbiol Immunol.,204:49-82,1996；Lampe D J等人,EMBO J.,15:5470-9,1996；Plasterk R H,Curr Top Microbiol Immunol,204:125-43,1996；Gloor,G B,Methods Mol.Biol,260:97-1 14,2004；Ichikawa H和Ohtsubo E.,JBiol.Chem.265:18829-32,1990；Ohtsubo,F和Sekine,Y,Curr.Top.Microbiol.Immunol.204:1-26,1996；Brown P O等人,Proc Natl Acad SciUSA,86:2525-9,1989；Boeke J D和Corces VG,Annu Rev Microbiol.43:403-34,1989；这些文献全文以引用方式并入本文)。

用于将转座子插入靶序列中的方法可使用任何合适的转座子体系在体外进行，对于所述转座子体系，合适的体外转座体系是可用的或可基于本领域的知识开发。一般来讲，适用于本公开的方法的体外转座体系至少需要足够纯度、足够浓度和足够体外转座活性的转座酶以及转座子，转座酶与所述转座子形成功能性复合物，所述功能性复合物具有能够催化转座反应的相应转座酶。可使用的合适的转座酶转座子末端序列包括但不限于野生型、衍生型或突变型转座子末端序列，其与选自野生型、衍生型或突变型转座酶的转座酶形成复合物。

在一些实施方案中，转座酶包括Tn5转座酶。在一些实施方案中，Tn5转座酶是超高活性Tn5转座酶。

在一些实施方案中，转座体复合物包含转座酶的两个分子的二聚体。在一些实施方案中，转座体复合物是同源二聚体，其中转座酶的两个分子各自与相同类型的第一转座子和第二转座子结合(例如，与每个单体结合的两个转座子的序列是相同的，从而形成“同源二聚体”)。在一些实施方案中，本文所述的组合物和方法采用转座体复合物的两个群体。在一些实施方案中，每个群体中的转座酶是相同的。在一些实施方案中，每个群体中的转座体复合物是同源二聚体，其中第一群体在每个单体中具有第一衔接子序列，并且第二群体在每个单体中具有不同的衔接子序列。

术语“转座子末端”是指双链核酸分子，其仅表现出与在体外转座反应中起作用的转座酶或整合酶形成复合物所必需的核苷酸序列(“转座子末端序列”)。在一些实施方案中，该双链核酸分子为DNA。在一些实施方案中，转座子末端能够在转座反应中与转座酶形成功能性复合物。作为非限制性示例，转座子末端可包括由野生型或突变型Tn5转座酶识别的19-bp外端(“OE”)转座子末端、内端(“IE”)转座子末端、或“嵌合端”(“ME”)转座子末端，或如US2010/0120098的公开内容中所述的R1和R2转座子末端，其内容全文以引用方式并入本文。转座子末端可包含适用于在体外转座反应中与转座酶或整合酶形成功能性复合物的任何核酸或核酸类似物。例如，转座子末端可包含DNA、RNA、修饰碱基、非天然碱基、修饰主链，并且可在一条链或两条链中包含切口。尽管术语“DNA”在本公开中与转座子末端的组合物结合使用，但应当理解，任何合适的核酸或核酸类似物均可用于转座子末端。

2.转移链和非转移链

术语“转移链”是指两个转座子末端的转移部分。类似地，术语“非转移链”是指两个“转座子末端”的非转移部分。在体外转座反应中，转移链的3’末端接合或转移至靶DNA。在体外转座反应中，展现与转移的转座子末端序列互补的转座子末端序列的非转移链不接合或转移至靶DNA。

在一些实施方案中，转移链和非转移链共价接合。例如，在一些实施方案中，转移链序列和非转移链序列在单个寡核苷酸上提供，例如以发夹构型提供。因此，尽管非转移链的自由端未通过转座反应直接接合至靶DNA，但是非转移链间接地附接至DNA片段，因为非转移链通过发夹结构的环连接至转移链。转座体结构以及制备和使用转座体的方法的另外的示例可见于US2010/0120098的公开内容，其内容全文以引用方式并入本文。

在一些实施方案中，转座体复合物包含有包含3'转座子末端序列和5'衔接子序列的第一转座子。在一些实施方案中，转座体复合物包含有包含5'转座子末端序列的第二转座子，其中5'转座子末端序列与3'转座子末端序列互补。

因此，在一些实施方案中，标签化步骤产生双链靶核酸片段，其包含：(1)包含第一衔接子序列和第一UMI的第一链，和(2)包含第二衔接子序列的第二链。在一些实施方案中，第二链还可包含第二UMI。

3.标签化

如本文所用，“标签化”是指转座酶用于将核酸片段化并加标签。标签化包括通过转座体复合物修饰核酸，该转座体复合物包含与包含转座子末端序列(本文称为转座子)的一个或多个衔接子序列复合的转座酶。因此，标签化可导致DNA的片段化和衔接子与双链体片段的两条链的5’端的连接同时发生。

在许多实施方案中，标签化可包含多个转座体复合物，每个转座体复合物包含与包含转座子末端序列和衔接子序列的转座子复合的转座酶。在一些实施方案中，标签化是对称标签化，其中多个转座体复合物中的所有衔接子序列是相同的。在一些实施方案中，标签化是标准或非对称标签化，其中该多个转座体复合物包含两组不同的衔接子序列。衔接子序列在以下部分II.C中讨论。对称标签化和非对称标签化描述于WO 2015/168161和WO2017/040306中，其全文以引用方式并入本文。

在一些实施方案中，方法包括第一转座酶、第一转座子和第二转座子。在一些实施方案中，该方法还包括第二转座酶、第三转座子和第四转座子。

在许多实施方案中，标签化步骤产生具有可以几种方式排列的衔接子序列和/或UMI的双链靶核酸片段。衔接子序列和UMI的位置(或衔接子序列和UMI从5'至3'的顺序)取决于在标签化中使用的转座子衔接子。在一些实施方案中，标签化步骤产生包含第一衔接子序列和第一UMI的双链靶核酸片段。在一些实施方案中，第一衔接子序列和第一UMI在核酸片段的第一链上。

在一些实施方案中，标签化步骤产生包含第一衔接子序列、第一UMI和第二衔接子序列的双链靶核酸片段。在一些实施方案中，第一衔接子序列和第一UMI在核酸片段的第一链上，而第二衔接子序列在核酸片段的第二链上。

在一些实施方案中，标签化步骤产生包含第一衔接子序列、第一UMI、第二衔接子序列和第二UMI的双链。在一些实施方案中，第一衔接子序列和第一UMI在核酸片段的第一链上，而第二衔接子序列和第二UMI在核酸片段的第二链上。

在一些实施方案中，标签化步骤产生具有叉形衔接子转座子的双链靶核酸，以产生包含第一衔接子序列的第一拷贝和第二拷贝、第一UMI、第二衔接子序列的第一拷贝和第二拷贝以及第二UMI的双链靶核酸片段。

在一些实施方案中，标签化步骤产生还包含第三UMI和/或第四UMI的双链靶核酸片段。

在一些实施方案中，标签化步骤产生包含一个或多个衔接子序列而没有任何UMI的双链靶核酸。在一些实施方案中，该一个或多个衔接子序列在核酸片段的第一链上。

4.固定的转座体复合物

在这些方法中可使用许多不同类型的固定的转座体，如US 9683230中所述，其全文并入本文。在本文提出的方法和组合物中，转座体复合物固定到固体载体。在一些实施方案中，通过一种或多种多核苷酸，诸如包含转座子末端序列的多核苷酸，将转座体复合物和/或捕获寡核苷酸固定到载体。在一些实施方案中，转座体复合物可通过将转座酶偶联到固体载体的接头分子来固定。在一些实施方案中，转座酶和多核苷酸均固定到固体载体。当提及分子(例如，核酸)对固体载体的固定时，术语“固定的”和“附接的”在本文中可互换使用，并且除非另外明确地或通过上下文指明，否则这两个术语旨在涵盖直接或间接、共价或非共价附接。在一些实施方案中，可使用共价附接，但一般来讲全部所需的是分子(例如，核酸)在旨在使用载体的条件下(例如，在需要核酸扩增和/或测序的应用中)保持固定或附接到载体。

在一些实施方案中，使用包含生物素标签的转座子固定转座体。

在一些实施方案中，转座体复合物以至少10³、10⁴、10⁵或10⁶个复合物/mm²的密度存在于固体载体上。

在一些实施方案中，固定的文库中双链片段的长度通过增加或降低固体载体上的转座体复合物的密度来调节。

a)捕获寡核苷酸

在一些实施方案中，将捕获寡核苷酸固定在固体载体上。

在一些实施方案中，靶DNA的3'端结合到捕获寡核苷酸。

在一些实施方案中，靶RNA的3'端结合到捕获寡核苷酸。在一些实施方案中，捕获寡核苷酸可用于将靶RNA固定在固体载体上。

在一些实施方案中，捕获寡核苷酸包含聚T序列。

在一些实施方案中，靶RNA是mRNA，并且mRNA结合到包含聚T序列的捕获寡核苷酸。

在一些实施方案中，捕获寡核苷酸不包含聚T序列。

在一些实施方案中，捕获寡核苷酸经由P5或P7序列固定到小珠。

在一些实施方案中，捕获寡核苷酸包含也存在于固定转座体的第一多核苷酸中包含的第一标签中的标签。

b)固体载体

某些实施方案可利用由惰性基板或基质(例如，载玻片、聚合物小珠等)构成的固体载体，该惰性基板或基质已例如通过施加包含反应性基团的中间材料层或涂层被官能化，这些反应性基团允许共价附接到生物分子诸如多核苷酸。此类载体的示例包括但不限于负载在惰性基板(诸如玻璃)上的聚丙烯酰胺水凝胶，尤其是如WO 2005/065814和US2008/0280773中所述的聚丙烯酰胺水凝胶，这些文献的内容全文以引用方式并入本文。在此类实施方案中，生物分子(多核苷酸)可直接共价附接到中间材料(例如，水凝胶)，但该中间材料本身可非共价附接到基板或基质(例如，玻璃基板)。术语“共价附接到固体载体”应相应地被解释为涵盖这种类型的布置。

本文的术语“固体表面”、“固体载体”和其他语法等同形式物是指适于或可被修饰成适于转座体复合物的附接的任何材料。如本领域技术人员将会理解的，可能的基板的数量非常大。可能的基板包括但不限于玻璃和改性或官能化的玻璃、塑料(包括丙烯酸类、聚苯乙烯以及苯乙烯和其他材料的共聚物、聚丙烯、聚乙烯、聚丁烯、聚氨酯、Teflon^TM等)、多糖、尼龙或硝化纤维、陶瓷、树脂、二氧化硅或基于二氧化硅的材料(包括硅和改性硅)、碳、金属、无机玻璃、塑料、光纤束和各种其他聚合物。对于一些实施方案特别有用的固体载体和固体表面位于流通池装置内。示例性流通池在下文中进一步详细阐述。

在一些实施方案中，固体载体包括适于以有序图案固定转座体复合物的图案化表面。“图案化表面”是指在固体载体的暴露层中或该暴露层上的不同区域的布置。例如，这些区域中的一个或多个区域可以是存在一种或多种转座体复合物的特征部。特征部可由不存在转座体复合物的间隙区域隔开。在一些实施方案中，图案可以为呈行和列形式的特征部的x-y格式。在一些实施方案中，图案可以为特征部和/或间隙区域的重复布置。在一些实施方案中，图案可以为特征部和/或间隙区域的随机布置。在一些实施方案中，转座体复合物随机分布在固体载体上。在一些实施方案中，转座体复合物分布在图案化表面上。可用于本文所述的方法和组合物中的示例性图案化的表面描述于US13/661,524或US2012/0316086A1中，这些专利中的每一篇均以引用方式并入本文。

在一些实施方案中，固体载体在表面中包括孔或凹陷的阵列。这可如本领域通常已知的那样使用多种技术来制造，这些技术包括但不限于光刻、压印技术、模制技术和微蚀刻技术。本领域的技术人员将会知道，所使用的技术将取决于阵列基底的组成和形状。

固体载体的组成和几何形状可以随其用途而变化。在一些实施方案中，固体载体是平面结构，诸如载玻片、芯片、微芯片和/或阵列。因此，基板底的表面可以为平面层的形式。在一些实施方案中，固体载体包括流通池的一个或多个表面。如本文所用，术语“流通池”是指包括固体表面的室，一种或多种流体试剂可流过该固体表面。可容易地用于本公开的方法中的流通池以及相关流体系统和检测平台的示例描述于例如以下文献中：Bentley等人，Nature 456:53-59(2008)；WO 2004/018497、US 7,057,026、WO 1991/06678、WO2007/123744、US 7,329,492、US 7,211,414、US 7,315,019、US 7,405,281和US2008/0108082，其中每一篇均以引用方式并入本文。

在一些实施方案中，固体载体或其表面是非平面的，诸如管或容器的内表面或外表面。在一些实施方案中，固体载体包括微球或小珠。所谓“微球”或“小珠”或“颗粒”或语法等同形式在本文中是指小离散颗粒。合适的小珠组合物包括但不限于塑料、陶瓷、玻璃、聚苯乙烯、甲基苯乙烯、丙烯酸聚合物、顺磁性材料、氧化钍溶胶、碳石墨、二氧化钛、乳胶或交联葡聚糖(诸如琼脂糖凝胶)、纤维素、尼龙、交联胶束和特氟隆，以及本文概述的用于固体载体的任何其他材料都可使用。印第安纳州费舍尔的Bangs Laboratories的“MicrosphereSelection Guide”是有用的指南。在某些实施方案中，微球为磁性微球或小珠。

小珠无需为球形的；可使用不规则的颗粒。另选地或除此之外，小珠可为多孔的。小珠尺寸在纳米(即，100nm)至毫米(即，1mm)的范围内，其中小珠为0.2微米至200微米的，或0.5微米至5微米，但在一些实施方案中可使用更小或更大的小珠。

这些表面结合的转座体的密度可以通过改变第一多核苷酸的密度或者通过添加到固体载体的转座酶的量来调节。例如，在一些实施方案中，转座体复合物以至少103、104、105或106个复合物/mm2的密度存在于固体载体上。

核酸与载体的附接，无论刚性的还是半刚性的，可通过共价或非共价连接进行。示例性连接在US 6,737,236、US 7,259,258、US 7,375,234和US 7,427,678以及US No.2011/0059865Al中阐述，这些专利文献中的每一篇以引用方式并入本文。在一些实施方案中，核酸或其他反应组分可附接到凝胶或其他半固体载体，该凝胶或其他半固体载体又附接或粘附到固相载体。在此类实施方案中，核酸或其他反应组分应理解为固相。

在一些实施方案中，固体载体包括微粒、小珠、平面载体、图案化表面或孔。在一些实施方案中，平面载体是管的内表面或外表面。

在一些实施方案中，固体载体具有固定在其上制备的带标签的DNA片段文库。

在一些实施方案中，固体载体包含捕获寡核苷酸和固定在其上的第一多核苷酸，其中第一多核苷酸包含有包含转座子末端序列的3'部分和第一标签。

在一些实施方案中，固体载体还包含结合到第一多核苷酸以形成转座体复合物的转座酶。

在一些实施方案中，固体载体包含捕获寡核苷酸和固定在其上的第二多核苷酸，其中第二多核苷酸包含有包含转座子末端序列的3'部分和第二标签。

在一些实施方案中，固体载体还包含结合到第二多核苷酸以形成转座体复合物的转座酶。

在一些实施方案中，试剂盒包含如本文所述的固体载体。在一些实施方案中，试剂盒还包含转座酶。在一些实施方案中，试剂盒还包含逆转录酶聚合酶。在一些实施方案中，试剂盒还包含用于固定DNA的第二固体载体。

5.溶液相转座体复合物

转座体复合物可以是溶液相转座体复合物。这些溶液相转座体复合物可以是可移动的并且不固定到固体载体。在一些实施方案中，溶液相转座体复合物用于在溶液中生成带标签的片段。

此外，本方法可包括涉及溶液相转座体复合物的步骤。例如，本文提供的方法还可包括以下步骤：在溶液中提供转座体复合物，以及使溶液相转座体复合物与固定的片段在DNA被转座体复合物溶液片段化的条件下接触；以及从而获得在溶液中具有一端的固定的核酸片段。在一些实施方案中，溶液中的转座体复合物可包含第二标签，使得该方法产生具有第二标签的固定的核酸片段，该第二标签在溶液中。第一标签和第二标签可以不同或相同。

在一些实施方案中，该方法还包括使溶液相转座体复合物与双链核酸在DNA片段被溶液相转座体复合物进一步片段化的条件下接触；从而获得在溶液中具有一端的固定的核酸片段。

在一些实施方案中，溶液相转座体复合物包含第二标签，从而在溶液中产生具有第二标签的固定的核酸片段。在一些实施方案中，第一标签和第二标签是不同的。在一些实施方案中，至少50％、55％、60％、65％、70％、75％、80％、85％、90％、95％、96％、97％、98％或99％的溶液相转座体复合物包含第二标签。

在一些实施方案中，表面结合的转座体的一种形式主要存在于固体载体上。例如，在一些实施方案中，存在于所述固体载体上的至少50％、55％、60％、65％、70％、75％、80％、85％、90％、95％、96％、97％、98％或99％的标签包含相同的标签结构域。在此类实施方案中，在与表面结合的转座体的初始标签化反应后，至少50％、55％、60％、65％、70％、75％、80％、85％、90％、95％、96％、97％、98％或99％的桥结构在桥的每个末端包含相同的标签结构域。第二标签化反应可通过添加来自溶液的进一步使桥片段化的转座体来进行。在一些实施方案中，大部分或全部溶液相转座体包含与第一标签化反应中产生的桥结构上存在的标签结构域不同的标签结构域。例如，在一些实施方案中，存在于溶液相转座体中的至少50％、55％、60％、65％、70％、75％、80％、85％、90％、95％、96％、97％、98％或99％的标签包含与第一标签化反应中产生的桥结构上存在的标签结构域不同的标签结构域。

在一些实施方案中，模板的长度长于可以使用标准簇化学过程适当扩增的模板的长度。例如，在一些实施方案中，模板的长度为至少100bp、200bp、300bp、400bp、500bp、600bp、700bp、800bp、900bp、1000bp、1100bp、1200bp、1300bp、1400bp、1500bp、1600bp、1700bp、1800bp、1900bp、2000bp、2100bp、2200bp、2300bp、2400bp、2500bp、2600bp、2700bp、2800bp、2900bp、3000bp、3100bp、3200bp、3300bp、3400bp、3500bp、3600bp、3700bp、3800bp、3900bp、4000bp、4100bp、4200bp、4300bp、4400bp、4500bp、4600bp、4700bp、4800bp、4900bp、5000bp、10000bp、30000bp或100,000bp。在此类实施方案中，然后可通过添加来自溶液的进一步使桥片段化的转座体来进行第二标签化反应，如US 9683230中所述，其全文并入本文。第二标签化反应因此可移除桥的内部跨段，留下锚定于表面的短断端，该短断端可转化成准备用于进一步测序步骤的簇。在特定实施方案中，模板的长度可以在由选自上文例示的那些的上限和下限限定的范围内。

C.衔接子

如本文所用，“衔接子”是指针对一种或多种预期目的或应用表现出一种或多种“衔接子序列”的转座子或多核苷酸。衔接子可包含针对任何期望目的提供的任何序列。

衔接子可以是5'衔接子或3'衔接子。使用5’衔接子旨在连接到靶核酸分子的5’端。3'衔接子旨在连接到靶核酸分子的3'端。

在一些实施方案中，衔接子序列包含一个或多个适用于与用于扩增反应的引物杂交的区域。在一些实施方案中，衔接子序列包含一个或多个适用于与用于测序反应的引物杂交的区域。在一些实施方案中，衔接子序列包含一个或多个适用于与用于掺入UMI的多核苷酸杂交的区域。在此类实施方案中，可使用HYB/HYB’或Hyb2Y工作流程来掺入UMI。

在一些实施方案中，衔接子序列包含UMI、引物序列、索引标签序列、捕获序列、条形码序列、切割序列、锚定序列、通用序列、间隔区、转座子末端序列或测序相关序列或它们的组合。如本文所用，测序相关序列可以是与后续测序步骤相关的任何序列。测序相关序列可用于简化下游测序步骤。例如，测序相关序列可以是经由将衔接子连接到核酸片段的步骤掺入的序列。在一些实施方案中，衔接子序列包含P5或P7序列(或它们的互补序列)以促进在某些测序方法中与流通池结合。应当理解，任何其他合适的特征都可掺入衔接子中，并且衔接子序列可以任何组合使用并且以从5'至3'的任何顺序排列。在一些实施方案中，转座子末端序列为嵌合端序列(ME)。

衔接子可包含一个、两个或更多个读段测序衔接子序列。在一些实施方案中，衔接子序列是5'第一读段测序衔接子序列。在一些实施方案中，衔接子序列是5'第二读段测序衔接子序列。在一些实施方案中，第一读段测序衔接子序列和/或第二读段测序衔接子序列包含独特引物结合位点。

在一些实施方案中，衔接子序列包含长度为5bp至200bp的序列。在一些实施方案中，衔接子序列包含长度为10bp至100bp的序列。在一些实施方案中，衔接子序列包含长度为20bp至50bp的序列。在一些实施方案中，衔接子序列包含长度为5bp、6bp、7bp、8bp、9bp、10bp、20bp、30bp、40bp、50bp、60bp、70bp、80bp、90bp、100bp、150bp或200bp的序列。

尽管衔接子中可使用多种序列，但下文提供了可用于衔接子序列、独特引物结合位点、多核苷酸或转座子末端序列(ME)的某些序列。这些序列可以任何组合使用，并且可以5'至3'的顺序排列。A14-ME、ME、B15-ME、ME’、A14、B15和ME的示例性序列提供如下：

A14-ME：5’-TCGTCGGCAGCGTCAGATGTGTATAAGAGACAG-3’

(SEQ ID NO:1)

B15-ME：5’-GTCTCGTGGGCTCGGAGATGTGTATAAGAGACAG-3’

(SEQ ID NO:2)

ME’：5’-phos-CTGTCTCTTATACACATCT-3’(SEQ ID NO:3)

A14：5’-TCGTCGGCAGCGTC-3’(SEQ ID NO:4)

B15：5’-GTCTCGTGGGCTCGG-3’(SEQ ID NO:5)

ME：AGATGTGTATAAGAGACAG(SEQ ID NO:6)

A2：TCACTCAAGAACAGC(SEQ ID NO:7)

在一些实施方案中，在标签化期间掺入衔接子序列。在这些实施方案中，在标签化步骤中使用具有衔接子序列的转座子。

在一些实施方案中，在衔接子连接步骤期间掺入衔接子序列。在这些实施方案中，在连接步骤中使用具有衔接子序列的多核苷酸。在一些实施方案中，可使用一种、两种或更多种多核苷酸。

1.叉形衔接子

在一些实施方案中，衔接子可以是叉形衔接子，也称为Y形衔接子。基于叉形衔接子的技术可用于产生多核苷酸，例如，如TruSeq^TM样本制备试剂盒(Illumina,Inc.)的工作流程中所示例的。来自肿瘤试剂盒(Illumina,Inc.)的工作流程的试剂也可用于装配叉形衔接子。在许多实施方案中，HYB/HYB'工作流程用于产生叉形衔接子。

如本文所用，“叉形衔接子”是指包含两条核酸链的衔接子，其中这两条链各自包含与另一条链互补的区域和与另一条链不互补的区域。在一些实施方案中，叉形衔接子中的两条核酸链在连接之前一起退火，其中退火基于互补区。在一些实施方案中，互补区各自包含12个核苷酸。在一些实施方案中，叉形衔接子与双链DNA片段端处的两条链连接。在一些实施方案中，叉形衔接子连接到双链DNA片段的一端。在一些实施方案中，叉形衔接子连接到双链DNA片段的两端。在一些实施方案中，片段相对端上的叉形衔接子是不同的。在一些实施方案中，叉形衔接子的一条链在其5’处被磷酸化以促进与片段的连接。在一些实施方案中，叉形衔接子的一条链具有直接在3’T之前的硫代磷酸酯键。在一些实施方案中，3’T是突出端(即，不与叉形衔接子的另一条链中的核苷酸配对)。在一些实施方案中，3’T突出端可与文库片段上存在的A尾碱基配对。在一些实施方案中，硫代磷酸酯键阻断了3’T突出端的外切核酸酶消化。在一些实施方案中，在衔接子连接后使用具有部分互补引物的PCR来延伸末端并解析分叉。

在一些实施方案中，转座体复合物具有以下结构：

2.转座子衔接子

在一些实施方案中，在标签化步骤期间掺入UMI。在这些实施方案中，用于掺入UMI的衔接子是转座子。在一些实施方案中，UMI位于衔接子序列与3'转座子末端序列之间。在一些实施方案中，衔接子序列位于UMI与3'端转座子末端序列之间。在一些实施方案中，衔接子序列可包含与3'端转座子末端序列完全或部分互补的序列。

在一些实施方案中，转座子是叉形衔接子转座子。叉形衔接子可包含两条链。在一些实施方案中，叉形衔接子转座子的第一链包含3'端转座子末端序列、衔接子序列和UMI。在一些实施方案中，叉形衔接子转座子的第二链包含衔接子序列和与第一叉形衔接子转座子的第一链完全或部分互补的序列。第一链和第二链中完全或部分互补的序列允许两条链杂交形成叉形结构。

在一些实施方案中，可使用多于一个叉形衔接子转座子将多于一个UMI和多于一个衔接子序列掺入文库中。

在一些实施方案中，使用两个叉形衔接子转座子将两个UMI和四个衔接子序列掺入文库中。在一些实施方案中，用叉形衔接子转座子标签化双链核酸产生具有两个UMI、第一衔接子序列的第一拷贝和第二拷贝以及第二衔接子序列的第一拷贝和第二拷贝的双链靶核酸片段。

在一些实施方案中，使用两个叉形衔接子转座子将四个UMI和四个衔接子序列掺入文库中。在一些实施方案中，用叉形衔接子转座子标签化双链核酸产生具有四个UMI和四个衔接子序列的双链靶核酸片段。

在一些实施方案中，转座子还包含一个、两个、三个、四个或更多个独特引物结合序列。在一些实施方案中，独特引物结合序列用于Hyb2Y工作流程中。在一些实施方案中，独特引物结合序列用于退火定制测序引物中。在一些实施方案中，独特引物结合序列包含A2、A14和/或B15。

3.多核苷酸衔接子

在一些实施方案中，在标签化后掺入UMI。在这些实施方案中，用于掺入UMI的衔接子是多核苷酸。在一些实施方案中，该方法包括一种、两种或更多种多核苷酸。在一些实施方案中，多核苷酸包含UMI和一个、两个或更多个衔接子序列。在一些实施方案中，多核苷酸包含用于经由互补序列与其他多核苷酸或转座子杂交的区域。例如，多核苷酸可包含与3'端转座子序列完全或部分互补的序列。在一些实施方案中，在杂交步骤中处理一种或多种多核苷酸以生成叉形衔接子。

在一些实施方案中，多核苷酸的一部分可包含3'衔接子。3'衔接子可包含发夹UMI、通用杂交尾、夹板连接衔接子和/或模板转换寡核苷酸。

在一些实施方案中，多核苷酸包含发夹UMI。在这些实施方案的一些实施方案中，多核苷酸还包含通用杂交尾。在一些实施方案中，发夹UMI在延伸和/或连接步骤期间是稳定的，但在该方法的扩增步骤期间不是稳定的。在一些实施方案中，UMI包含3或4个碱基对的茎。在一些实施方案中，通用杂交尾包含可与任何DNA分子结合的核苷酸，诸如肌苷。

在一些实施方案中，多核苷酸包含夹板连接衔接子。

在一些实施方案中，多核苷酸包含模板转换寡核苷酸。

D.标签化后的延伸和连接步骤

在一些实施方案中，可使用延伸步骤填充在标签化事件之后留下的核酸序列中的缺口。通常，延伸步骤之后是连接步骤。使用合适的条件进行延伸和/或连接。在一些实施方案中，使用的缓冲液是延伸-连接混合缓冲液(例如，延伸-连接混合缓冲液3，ELM3)。聚合酶诸如T4 DNA pol Exo(New England BioLabs，目录号M0203S)或Ttaq608可用于所述延伸和/或连接步骤。Taq聚合酶或任何前述聚合酶的突变体、类似物或衍生物也可替代地用于该步骤中。

在一些实施方案中，延伸双链靶核酸片段。在一些实施方案中，使双链靶核酸片段的第二链延伸。

在一些实施方案中，使双链靶核酸片段的3'端延伸到转座子的5'端。

在一些实施方案中，延伸步骤包括从双链靶核酸片段的第二链的3'端延伸到发夹UMI的5'端。

在一些实施方案中，延伸步骤用链置换延伸反应进行，诸如包含Bst DNA聚合酶和dNTP混合物的反应。

在一些实施方案中，延伸步骤之后是连接。在这些实施方案中，方法可包括处理聚合酶和连接酶以延伸和连接核酸链以产生完全双链带标签的片段。

在一些实施方案中，延伸步骤包括延伸9个碱基。

在一些实施方案中，延伸步骤包括从双链靶核酸片段的第二链的3'端延伸到夹板连接衔接子的5'端。

在一些实施方案中，延伸步骤包括通过拷贝双链靶核酸片段的第一链从双链靶核酸片段的第二链的3'端延伸到模板转换寡核苷酸中的接合点。

在一些实施方案中，在转座事件后在核酸序列中没有留下缺口。在这些实施方案中，方法包括使用连接酶将转座子或多核苷酸与双链靶核酸片段连接，并且不使用延伸步骤。

包括衔接子连接步骤的多种文库制备方法是本领域已知的，诸如TruSeq和TruSight Oncology 500(参见，例如，RNA Sample Preparation v2 Guide,15026495Rev.F,Illumina,2014)。示例性连接的叉形衔接子在WO 2007/052006、美国专利公布号2020/0080145、US 9,868,982和WO 2020/144373中讨论，这些专利全文以引用方式并入本文。与其他连接方法一起使用的衔接子可用于本发明的方法中(参见，例如IlluminaAdapter Sequences,Illumina,2021)。特别地，与经由标签化标记片段的方法(其中衔接子序列在转座反应期间被掺入片段中)相比，衔接子连接可允许更灵活地掺入衔接子(诸如具有更长长度的衔接子)。在涉及标签化的一些方法中，可通过PCR反应掺入附加的衔接子序列，并且本方法可避免对掺入附加衔接子序列的附加PCR步骤的需要。

连接技术通常用于制备用于测序的NGS文库。在一些实施方案中，连接步骤使用酶将专门的衔接子连接至DNA片段的两端。在一些实施方案中，将A-碱基添加到每条链的平端，制备它们用于连接至测序衔接子。在一些实施方案中，每个衔接子含有T-碱基突出端，从而提供互补突出端用于将衔接子连接至A-尾片段化DNA。

已知衔接子连接方案具有优于其他方法的优点。例如，衔接子连接可用于生成用于单个、配对端和索引读段的测序引物杂交位点的完全互补。在一些实施方案中，衔接子连接消除了对添加索引标签和索引引物位点的附加PCR步骤的需要。

在一些实施方案中，连接步骤包括将双链靶核酸片段的3'端与转座子的5'端连接。

在一些实施方案中，连接步骤包括将双链靶核酸片段的第二链的3'端与通用杂交尾的5'端连接。

在一些实施方案中，连接步骤包括将延伸的双链靶核酸片段的第二链的3'端与夹板连接衔接子的第一链的5'端连接。

E.模板转换

在一些实施方案中，模板转换或链交换步骤可在核酸片段从转座体复合物释放后进行。在一些实施方案中，该模板转换步骤之后是缺口填充和连接。在一些实施方案中，该方法可在管中或在流通池中进行。

模板转换是指聚合酶停止延伸同时仍结合新合成的链并在另一核酸链处重新开始合成的能力。在一些实施方案中，步骤(1)延伸、(2)模板转换和(3)在标签化后重新开始合成通过能够进行DNA模板转换的聚合酶进行。在一些实施方案中，聚合酶是莫洛尼鼠白血病病毒(MMLV)逆转录酶。

在一些实施方案中，模板从第一链双链靶核酸片段转换到3'模板转换寡核苷酸的未配对区域。在一些实施方案中，模板转换步骤之后是拷贝步骤，以将3’转换寡核苷酸的未配对区域从模板转换寡核苷酸中的接合点拷贝到所述未配对区域的5'端。

F.扩增

UMI文库可任选地根据本领域已知的任何合适的扩增方法进行扩增，并用一种或多种测序引物进行测序。在一些实施方案中，在固体载体上扩增UMI文库。在一些实施方案中，固体载体与在其上发生BLT标签化的固体载体相同。在此类实施方案中，本文提供的方法和组合物允许在来自初始样本引入步骤的相同固体载体上通过扩增且任选地通过测序步骤进行样本制备。

例如，在一些实施方案中，使用簇扩增方法扩增UMI文库，如US 7,985,565和US 7,115,400的公开内容所例示，其中每一篇的内容全文以引用方式并入本文。US 7,985,565和US 7,115,400的并入材料描述了固相核酸扩增的方法，这些方法允许扩增产物固定在固体载体上以便形成由固定核酸分子的簇或“集群”构成的阵列。此类阵列上的每个簇或集群由多个相同的固定多核苷酸链和多个相同的固定互补多核苷酸链形成。如此形成的阵列在本文中通常被称为“成簇阵列”。固相扩增反应的产物(诸如US 7,985,565和US 7,115,400中描述的那些)是所谓的“桥接”结构，这些结构通过对成对的固定多核苷酸链和固定互补链(两条链在一些实施方案中经由共价附接在5’端固定在固体载体上)进行退火形成。簇扩增方法是其中固定核酸模板用于产生固定扩增子的方法的示例。也可使用其他合适的方法由根据本文提供的方法产生的UMI文库产生固定扩增子。例如，无论每对扩增引物中的一个或两个引物是否被固定，都可以经由固相PCR形成一个或多个簇或集群。

在其他实施方案中，在溶液中扩增UMI文库。例如，在一些实施方案中，核酸片段被切割或以其他方式从固体载体释放，然后扩增引物在溶液中与释放的分子杂交。在其他实施方案中，扩增引物与核酸片段杂交以进行一个或多个初始扩增步骤，然后在溶液中进行后续扩增步骤。因此，在一些实施方案中，固定核酸模板可以用于产生溶液相扩增子。

应当理解，本文所述的或本领域通常已知的扩增方法中的任一种方法可与通用引物或靶标特异性引物一起用于扩增UMI文库。合适的扩增方法包括但不限于聚合酶链反应(PCR)、链置换扩增(SDA)、转录介导的扩增(TMA)和基于核酸序列的扩增(NASBA)，如US 8,003,354中所述，该专利全文以引用方式并入本文。上述扩增方法可用于扩增一种或多种感兴趣核酸。例如，可利用PCR(包括多重PCR)、SDA、TMA、NASBA等扩增UMI文库。在一些实施方案中，在扩增反应中包括特异性针对感兴趣核酸的引物。

其他合适的核酸扩增方法可包括寡核苷酸延伸和连接、滚环扩增(RCA)(Lizardi等人，Nat.Genet.19:225-232(1998)，该文献以引用方式并入本文)和寡核苷酸连接测定(OLA)(通常参见US 7,582,420、US 5,185,243、US 5,679,524和US 5,573,907，EP 0 320308 B1，EP 0 336 731B1，EP 0 439 182 B1，WO 90/01069，WO 89/12696和WO 89/09835，所有这些专利以引用方式并入)技术。应当理解，这些扩增方法可被设计成用于扩增UMI文库。例如，在一些实施方案中，扩增方法可包括连接探针扩增或含有特异性针对感兴趣核酸的引物的寡核苷酸连接测定(OLA)反应。在一些实施方案中，扩增方法可包括引物延伸-连接反应，该引物延伸-连接反应包含特异性针对感兴趣核酸的引物。作为可被特别设计用于扩增感兴趣的核酸的引物延伸和连接引物的非限制性示例，扩增可包括用于GoldenGate测定(Illumina,Inc.,San Diego,CA)的引物，如US 7,582,420和US 7,611,869所示例，这两篇专利中的每一篇专利全文均以引用方式并入本文。

在本公开的方法中可使用的示例性等温扩增方法包括但不限于由例如Dean等人，Proc.Natl.Acad.Sci.USA 99:5261-66(2002)所示例的多重置换扩增(MDA)，或由例如US6,214,587所示例的等温链置换核酸扩增，这两篇文献中的每篇文献以引用方式全文并入本文。可用于本公开的其他非基于PCR的方法包括：例如链置换扩增(SDA)，其描述于例如Walker等人，Molecular Methods for Virus Detection,Academic Press,Inc.,1995；US5,455,166和US 5,130,238，以及Walker等人，Nucl.Acids Res，20:1691-96(1992)；或超支化链置换扩增，其描述于例如Lage等人，Genome Research，13:294-307(2003)中，这些文献中的每篇文献均全文以引用方式并入本文。等温扩增方法可与链置换Phi 29聚合酶或BstDNA聚合酶大片段5’->3’exo-一起用于基因组DNA的随机引物扩增。这些聚合酶的使用利用了它们的高持续合成能力和链置换活性。高持续合成能力允许聚合酶产生长度为10kb-20kb的片段。如上所述，可使用具有低持续合成能力和链置换活性的聚合酶(诸如Klenow聚合酶)在等温条件下产生较小的片段。对扩增反应、条件和组分的附加描述在US 7,670,810的公开内容中详细阐述，该专利以引用方式全文并入本文。

可用于本公开的另一种核酸扩增方法是带标签的PCR，其使用具有恒定5'区，接着是随机3'区的二结构域引物的群体，如例如Grothues等人，Nucleic Acids Res，21(5):1321-2(1993)中所述，该文献全文以引用方式并入本文。基于来自随机合成的3'区的单独杂交，进行第一轮扩增以允许大量启动热变性的DNA。由于3'区的性质，设想启动位点在整个基因组中是随机的。然后，可移除未结合的引物，并且可使用与恒定5'区互补的引物进行进一步的复制。

在一些实施方案中，扩增步骤包括将寡核苷酸添加到核酸片段的一端或两端用于将文库附接到固体载体。

在一些实施方案中，扩增步骤包括添加至少第一读段测序寡核苷酸和/或第二读段测序寡核苷酸。在一些实施方案中，扩增步骤包括添加至少P5寡核苷酸和P7寡核苷酸。在一些实施方案中，扩增步骤包括添加至少多种i5寡核苷酸和多种i7寡核苷酸。

在一些实施方案中，在扩增步骤之后，方法可包括在扩增步骤后选择在一定尺寸范围内的扩增核酸片段。

G.用于产生UMI文库的方法

虽然衔接子可以5'至3'的任何组合或顺序包含多于一个衔接子序列，但本公开提供了可用于多种实施方案中的衔接子。本公开还提供可与本文所述的衔接子一起使用的多种方法。本公开的方法可包括以下衔接子和方法中的一种或多种。

1.用于使用单个UMI产生UMI文库的方法

如图1所示，示例性衔接子在其第一链上从5'至3'包含以下衔接子序列：B15、A2、UMI和ME。在衔接子中，UMI位于A2与ME之间。UMI可包括nrUMI和/或rUMI。在其第二链上，衔接子包含与ME互补的序列。衔接子还包含生物素标签，使得衔接子可与固体载体一起使用。在其他实施方案中，不使用固体载体，并且研究者可采用液相转座体复合物。

如图2所示和实施例1所述，一种产生UMI文库的示例性方法包括(1)产生双链核酸文库，其中该文库中的每个片段包含UMI，其中该方法包括：(a)将包含双链靶核酸的样品施加到第一转座体复合物，该第一转座体复合物包含：(i)第一转座酶，(ii)包含第一3'端转座子末端序列、第一衔接子序列和第一UMI的第一转座子，和(iii)包含与该第一3'端转座子末端序列完全或部分互补的序列的第二转座子；(2)用第一转座子和第二转座子标签化双链靶核酸以产生包含第一衔接子序列和第一UMI的双链靶核酸片段，(3)从第一转座体复合物释放双链靶核酸片段，(4)任选地使双链靶核酸片段延伸，从而拷贝单UMI以产生双链体UMI，(5)将转座子或延伸的转座子与双链靶核酸片段连接，(6)产生包含UMI的双链靶核酸片段，以及(7)扩增双链靶核酸片段。

在该示例性方法中，第一转座子中的第一UMI位于第一衔接子序列与第一3'转座子末端序列之间。

如图3B所示和实施例2所述，一种对UMI文库进行测序的示例性方法包括19个暗循环(在以下部分III.A中讨论)。在该方法中，ME序列的19个碱基在19个暗循环期间不成像。该方法使用以下四种引物：定制引物1UMI+读段1、定制引物i5、定制引物i7和定制引物4UMI+读段2。

使用该示例性衔接子和方法，产生UMI文库，其中第一UMI在双链靶核酸片段的第一链上，第二UMI在双链靶核酸片段的第二链上。

可使用对UMI文库进行测序的另选示例性方法。如图4所示和实施例3所述，示例性方法包括以下6个定制引物：定制UMI 1读段(SEQ ID NO:8)、用于插入物1读段的定制桥接引物(SEQ ID NO:9)、定制i7读段(SEQ ID NO:10)、定制i5读段(SEQ ID NO:11)、定制UMI 2读段(SEQ ID NO:12)和用于插入物2读段的定制桥接引物(SEQ ID NO:13)。在该测序方法中，组合具有SEQ ID NO:1和5的引物，组合具有SEQ ID NO:3和4的引物，并且组合具有SEQID NO:2和6的引物。

2.用UMI-BLT产生UMI文库的方法

图5A中示出了两个示例性衔接子。第一衔接子在其第一链上从5'至3'包含以下序列：A15和ME。第一衔接子还在其第二链上包含与ME互补的序列。

第二衔接子在其第一链上从5'至3'包含以下序列：B15、A2、UMI和ME。该UMI位于A2与ME之间。第二衔接子还在其第二链上包含与ME互补的序列。第一衔接子和第二衔接子包含生物素标签。

如图5B所示和实施例4所述，一种产生UMI文库的示例性方法包括(1)产生双链核酸文库，其中该文库中的每个片段包含UMI，其中该方法包括：(a)将包含双链靶核酸的样品施加到第一转座体复合物，该第一转座体复合物包含：(i)第一转座酶，(ii)包含第一3'端转座子末端序列、第一衔接子序列和第一UMI的第一转座子，和(iii)包含与该第一3'端转座子末端序列完全或部分互补的序列的第二转座子；(2)用第一转座子和第二转座子标签化双链靶核酸以产生包含第一衔接子序列和第一UMI的双链靶核酸片段，(3)从第一转座体复合物释放双链靶核酸片段，(4)任选地使双链靶核酸片段延伸，(5)产生包含UMI的双链靶核酸片段，以及(7)扩增双链靶核酸片段。

该示例性方法还包括第二转座体复合物，该第二转座体复合物包含(1)第二转座酶，(2)包含第二衔接子序列和第二3'转座子末端序列的第三转座子，和(3)包含与该第二3'端转座子末端序列完全或部分互补的序列的第四转座子。

使用本文所述的示例性衔接子和方法，产生了UMI文库，其中第一UMI在双链靶核酸片段的第一链上。

如图6A所示和实施例5所述，一种对UMI文库进行测序的示例性方法包括暗循环和以下四种引物：标准插入物读段1、定制i7、标准i5和UMI+插入物读段2。

可使用对UMI文库进行测序的另选示例性方法。如图6B所示和实施例6所述，该示例性方法包括以下四种引物：标准插入物读段1、定制i7、标准i5、UMI引物和插入物读段2桥接引物。在该方法中，使用桥接引物再杂交步骤，其中UMI引物被插入物读段2桥接引物置换。

3.用于产生由无细胞DNA(cfDNA)制备的UMI文库的方法

两个示例性衔接子在图9中示出。第一衔接子在其第一链上从5'至3'包含以下序列：P5、UMI、A14和ME。第一衔接子还在其第二链上包含与ME互补的序列。该UMI位于P5与A14之间。

第二衔接子在其第一链上从5'至3'包含以下序列：P7、UMI、B15和ME。该UMI位于P7与B15之间。第二衔接子还在其第二链上包含与ME互补的序列。第一衔接子和第二衔接子包含生物素标签。

如图9所示和实施例7所述，一种产生UMI文库的示例性方法包括(1)产生双链核酸文库，其中该文库中的每个片段包含UMI，其中该方法包括：(a)将包含双链靶核酸的样品施加到第一转座体复合物，该第一转座体复合物包含：(i)第一转座酶，(ii)包含第一3'端转座子末端序列、第一衔接子序列和第一UMI的第一转座子，和(iii)包含与该第一3'端转座子末端序列完全或部分互补的序列的第二转座子；(2)用第一转座子和第二转座子标签化双链靶核酸以产生包含第一衔接子序列和第一UMI的双链靶核酸片段，(3)从第一转座体复合物释放双链靶核酸片段，(4)任选地使双链靶核酸片段延伸，(5)产生包含UMI的双链靶核酸片段，以及(7)扩增双链靶核酸片段。第一转座子中的第一衔接子序列位于第一UMI与第一3'转座子末端序列之间。

该方法还包括(1)第三转座子还包括第二UMI，并且(2)第二衔接子序列位于第二UMI与第二3'转座子末端序列之间。在该方法中，标签化步骤产生双链靶核酸片段，该双链靶核酸片段包含：(1)包含第一衔接子序列和第一UMI的第一链，和(2)包含第二衔接子序列和第二UMI的第二链。

使用本文所述的示例性衔接子和方法，产生了UMI文库，其中第一UMI的第一拷贝在双链靶核酸片段的第一链上并且第一UMI的第二拷贝在双链靶核酸片段的第二链上。

如图9所示和实施例8所述，一种对UMI文库进行测序的示例性方法包括以下四种引物：读段1(标准引物)、UMI读段(标准i7引物)、UMI读段(标准i5引物)和读段2(标准引物)。

4.用UDI和双链体UMI产生UMI文库的第一方法

两个示例性衔接子在图12中示出。第一衔接子和第二衔接子是叉形衔接子。

第一衔接子在其第一链上从5'至3'包含以下序列：A14、UMI-A和ME。第一衔接子还在其第二链上从5'至3'包含以下序列：ME'、UMI-A'和B15双链体，其中B15与B15'杂交。UMI-A位于A14与ME之间。UMI-A'位于ME'与B15双链体之间。

第二衔接子在其第一链上从5'至3'包含以下序列：A14、UMI-B和ME。第二衔接子还在其第二链上从5'至3'包含以下序列：ME'、UMI-B'和B15双链体。UMI-B位于A14与ME之间。

第一衔接子和第二衔接子各自包含生物素标签。

如图12所示和实施例9所述，一种产生UMI文库的示例性方法包括(1)将包含双链靶核酸的样品施加到第一转座体复合物和第二转座体复合物，(2)用叉形衔接子转座子标签化双链靶核酸以产生包含第一衔接子序列的第一拷贝和第二拷贝、第一UMI、第二衔接子序列的第一拷贝和第二拷贝以及第二UMI的双链靶核酸片段，(3)从转座体复合物释放双链靶核酸片段，(4)任选地使双链靶核酸片段延伸，(5)将叉形衔接子转座子或延伸的叉形衔接子转座子与双链靶核酸片段连接，(6)产生包含UMI的双链靶核酸片段，以及(7)扩增双链靶核酸片段。

在该方法中，第一转座体复合物包含(1)第一转座酶和(2)在双链靶核酸片段的第一链上的第一叉形衔接子转座子，其中(i)第一叉形衔接子转座子的第一链包含第一3'端转座子末端序列、第一衔接子序列的第一拷贝和第一UMI，并且(ii)第一叉形衔接子转座子的第二链包含第二衔接子序列的第一拷贝和与该第一叉形衔接子转座子的第一链全部或部分互补的序列。

此外，第二转座体复合物包含(1)第二转座体复合物，该第二转座体复合物包含：(i)第二转座酶和(ii)在双链靶核酸片段的第二链上的第二叉形衔接子转座子，其中(a)第二叉形衔接子转座子的第一链包含第二3'端转座子末端序列、第一衔接子序列的第二拷贝和第二UMI，并且(b)第二叉形衔接子转座子的第二链包含第二衔接子的第二拷贝和与该第二叉形衔接子转座子的第一链全部或部分互补的序列。

如图12所示和实施例10所述，一种对UMI文库进行测序的示例性方法包括暗循环和以下引物：A14读段、B15读段、i7读段和i5读段。

5.用UDI和双链体UMI产生UMI文库的第二方法

两个示例性衔接子在图13中示出。第一衔接子和第二衔接子是叉形衔接子。为了将双链体测序与这种产生UMI文库的方法一起使用，每个叉形衔接子内的退火的UMI对不是互补的。(参见图12进行比较。)

该方法中的每个衔接子是双链的并且含有两个UMI，每个链上具有一个UMI(图13)。两条链在ME区退火以产生具有非互补的双链体UMI的叉形衔接子。因为双链体UMI不含有互补序列，所以每个衔接子与另一个分开退火。

第一衔接子在其第一链上从5'至3'包含以下序列：A14、A、UMI-1、X和ME。第一衔接子还在其第二链上从5'至3'包含以下序列：ME'、Y、UMI-2'、B和B15双链体，其中B15与B15'杂交。UMI-1位于A与UMI-1之间。UMI-2'位于ME'与B之间。

第二衔接子在其第一链上从5'至3'包含以下序列：A14、A、UMI-4'、X和ME。第二衔接子还在其第二链上从5'至3'包含以下序列：ME'、Y'、UMI-3、B和B15双链体。UMI-4'位于A与X之间。UMI-3位于B与Y'之间。

第一衔接子和第二衔接子各自包含生物素标签。

如图13所示和实施例11所述，一种产生UMI文库的示例性方法包括(1)将包含双链靶核酸的样品施加到第一转座体复合物和第二转座体复合物，(2)用叉形衔接子转座子标签化双链靶核酸以产生包含第一衔接子序列的第一拷贝和第二拷贝、第一UMI、第二衔接子序列的第一拷贝和第二拷贝以及第二UMI的双链靶核酸片段，(3)从转座体复合物释放双链靶核酸片段，(4)任选地使双链靶核酸片段延伸，(5)将叉形衔接子转座子或延伸的叉形衔接子转座子与双链靶核酸片段连接，(6)产生包含UMI的双链靶核酸片段，以及(7)扩增双链靶核酸片段。

此外，(1)第一叉形衔接子转座子的第一链还包含第三衔接子序列，(2)第一叉形衔接子转座子的第二链还包含第四衔接子序列和第三UMI，并且(3)第二叉形衔接子转座子的第一链还包含与第三衔接子序列全部或部分互补的序列，(4)第二叉形衔接子转座子的第二链还包含与第四衔接子序列全部或部分互补的序列和第四UMI，并且(5)标签化步骤产生还包含第三UMI和第四UMI的双链靶核酸片段。

如图13所示和实施例12所述，一种对UMI文库进行测序的示例性方法包括暗循环和以下6个定制引物：定制1、定制UMI i7、定制i7、定制2、定制UMI i5和定制i5。

6.用于使用包含发夹UMI和通用杂交尾的衔接子产生串联UMI的方法

示例性3'衔接子在图14中示出并在实施例13中描述。衔接子从5'至3'包含以下：通用杂交尾、发夹UMI、ME'和B15。发夹UMI包含形成凸起的3或4个碱基对的茎结构。通用杂交尾包含可与任何DNA分子结合的肌苷，这允许与转移链的暴露的5'碱基杂交。

如实施例13所述，一种产生具有串联UMI的UMI文库的示例性方法包括(1)将包含双链靶核酸的样品施加到转座体复合物，该转座体复合物包含：(i)转座酶，和(ii)包含第一3'端转座子末端序列和第一衔接子序列的转座子；(2)用转座子标签化双链靶核酸的第一链以产生包含第一衔接子序列的双链靶核酸片段，(3)从转座体复合物释放双链靶核酸片段，(4)使包含第二衔接子序列的多核苷酸、UMI和与该第一3'端转座子序列完全或部分互补的序列杂交，(5)将多核苷酸与双链靶核酸片段连接，(6)产生包含UMI的双链靶核酸片段，其中该UMI直接位于插入DNA的3'端附近，以及(7)扩增双链靶核酸片段。

此外，连接步骤包括将双链靶核酸片段的第二链的3'端与通用杂交尾的5'端连接。

此外，发夹UMI在延伸步骤和/或连接步骤期间是稳定的，但在扩增步骤期间不是稳定的。

根据该方法，UMI在双链靶核酸片段的第一链上。

本文所述的示例性衔接子和方法产生了UMI文库，其中串联UMI与插入DNA的3'端相邻(图20)。使用标准测序方法，使用读段2捕获每个UMI和插入DNA序列，而不对ME序列进行测序。使用这种示例性衔接子和方法来产生UMI文库避免了在对UMI文库进行测序时对黑暗循环的需要。

7.用于产生包含发夹UMI的串联UMI的方法

示例性3'衔接子在图15中示出并在实施例14中描述。衔接子是从5'至3'包含以下的多核苷酸：发夹UMI、ME'和B15。发夹UMI包含形成凸起的3或4个碱基对的茎结构。

如实施例14所述，一种产生具有串联UMI的UMI文库的示例性方法包括(1)将包含双链靶核酸的样品施加到转座体复合物，该转座体复合物包含：(i)转座酶，和(ii)包含第一3'端转座子末端序列和第一衔接子序列的转座子；(2)用转座子标签化双链靶核酸的第一链以产生包含第一衔接子序列的双链靶核酸片段，(3)从转座体复合物释放双链靶核酸片段，(4)使包含第二衔接子序列的多核苷酸、UMI和与该第一3'端转座子序列完全或部分互补的序列杂交，(5)使双链靶核酸片段的第二链延伸，(6)将延伸的多核苷酸与双链靶核酸片段连接，(7)产生包含UMI的双链靶核酸片段，其中该UMI直接位于插入DNA的3'端附近，以及(8)扩增双链靶核酸片段。

此外，延伸步骤包括从双链靶核酸片段的第二链的3'端延伸到发夹UMI的5'端。

此外，连接步骤包括将双链靶核酸片段的第二链的3'端与发夹UMI的5'端连接。

根据该方法，UMI在双链靶核酸片段的第一链上。

本文所述的示例性衔接子和方法产生了UMI文库，其中UMI与插入DNA的3'端相邻(图20)。使用标准测序方法，使用读段2捕获每个UMI和插入DNA序列，而不对ME序列进行测序。使用这种示例性衔接子和方法来产生UMI文库避免了在对UMI文库进行测序时对黑暗循环的需要。

8.用于产生包含夹板连接衔接子的串联UMI的第一方法

示例性3'衔接子在图16中示出并在实施例15a中描述。衔接子是包含3'夹板连接衔接子复合物的多核苷酸，该复合物包含部分双链。衔接子的两个部分是夹板(参见图16，3'夹板连接衔接子，底部链)和尾(参见图16，3'夹板连接衔接子，顶部链)。夹板部分从5'至3'含有以下：ME、UMI'、ME'、截短的A14'。尾部分从5'至3'包含以下：UMI、ME'和B15。该复合物经由UMI和ME序列的杂交形成。

如实施例15a所述，一种产生具有串联UMI的UMI文库的示例性方法包括(1)将包含双链靶核酸的样品施加到转座体复合物，该转座体复合物包含：(i)转座酶，和(ii)包含第一3'端转座子末端序列和第一衔接子序列的转座子；(2)用转座子标签化双链靶核酸的第一链以产生包含第一衔接子序列的双链靶核酸片段，(3)从转座体复合物释放双链靶核酸片段，(4)使包含第二衔接子序列的多核苷酸、UMI和与该第一3'端转座子序列完全或部分互补的序列杂交，(5)将多核苷酸与双链靶核酸片段连接，(6)产生包含UMI的双链靶核酸片段，其中该UMI直接位于插入DNA的3'端附近，以及(7)扩增双链靶核酸片段。

此外，延伸步骤包括从双链靶核酸片段的第二链的3’端延伸9个碱基至夹板连接衔接子的5’端。

此外，连接步骤包括将延伸的双链靶核酸片段的第二链的3'端与夹板连接衔接子的第一链的5'端连接。

根据该方法，UMI在双链靶核酸片段的第一链上。

9.用于产生包含夹板连接衔接子的串联UMI的第二方法

示例性3'衔接子在图16中示出并在实施例15b中描述。衔接子是包含3'夹板连接衔接子复合物的多核苷酸，该复合物包含部分双链。衔接子的两个部分是夹板(参见图16，3'夹板连接衔接子，底部链)和尾(参见图16，3'夹板连接衔接子，顶部链)。夹板部分从5'至3'含有以下：X、UMI'、ME'、截短的A14'，其中X是3’TruSeq^TM衔接子序列，其可以是全长或截短的。尾部分从5'至3'包含以下：UMI、X’和B15。该复合物经由UMI和X序列的杂交形成。

如实施例15b所述，一种产生具有串联UMI的UMI文库的示例性方法包括(1)将包含双链靶核酸的样品施加到转座体复合物，该转座体复合物包含：(i)转座酶，和(ii)包含第一3'端转座子末端序列和第一衔接子序列的转座子；(2)用转座子标签化双链靶核酸的第一链以产生包含第一衔接子序列的双链靶核酸片段，(3)从转座体复合物释放双链靶核酸片段，(4)使包含第二衔接子序列的多核苷酸、UMI和与该第一3'端转座子序列完全或部分互补的序列杂交，(5)将多核苷酸与双链靶核酸片段连接，(6)产生包含UMI的双链靶核酸片段，其中该UMI直接位于插入DNA的3'端附近，以及(7)扩增双链靶核酸片段。

根据该方法，UMI在双链靶核酸片段的第一链上。

10.用于产生包含3'模板转换寡核苷酸的串联UMI的第一方法

示例性3'衔接子在图17中示出并在实施例16a中描述。衔接子是包含长度约70个核苷酸的模板转换寡核苷酸的多核苷酸，并且从5'至3'含有以下：B15'、ME或X、UMI'、ME'和A14'。

如实施例16a所述，一种产生具有串联UMI的UMI文库的示例性方法包括(1)将包含双链靶核酸的样品施加到转座体复合物，该转座体复合物包含：(i)转座酶，和(ii)包含第一3'端转座子末端序列和第一衔接子序列的转座子；(2)用转座子标签化双链靶核酸的第一链以产生包含第一衔接子序列的双链靶核酸片段，(3)从转座体复合物释放双链靶核酸片段，(4)使包含第二衔接子序列的多核苷酸、UMI和与该第一3'端转座子序列完全或部分互补的序列杂交，(5)将多核苷酸与双链靶核酸片段连接，(6)产生包含UMI的双链靶核酸片段，其中该UMI直接位于插入DNA的3'端附近，以及(7)扩增双链靶核酸片段。

此外，延伸步骤(1)通过拷贝双链靶核酸片段的第一链从双链靶酸片段的第二链的3'端延伸到模板转换寡核苷酸中的接合点，(2)将模板从第一链转换到3'模板转换寡核苷酸的未配对区域，以及(3)将3'模板转换寡核苷酸的未配对区域从接合点拷贝到3'模板转换寡核苷酸的未配对区域的5'端。

根据该方法，UMI在双链靶核酸片段的第一链上。

11.用于产生包含模板转换寡核苷酸的串联UMI的第二方法，其中该寡核苷酸在 A14'中包含修饰

示例性3'衔接子在图17中示出并在实施例16b中描述。衔接子是包含长度约70个核苷酸的模板转换寡核苷酸的多核苷酸，并且从5'至3'含有以下：B15'、ME或X、UMI'、ME'和任选的A14'的部分。A14’序列被截短或消除。因此，衔接子与以上II.G.10中讨论的衔接子相同，除了以上II.G.10中的衔接子具有A14'序列，而在该实施方案中，A14'序列被截短或消除。

如实施例16b所述，该示例性方法包括如以上II.G.10中公开的步骤。

根据该方法，UMI在双链靶核酸片段的第一链上。

12.用于产生包含5'双链衔接子串联UMI的方法、聚合酶延伸步骤和邻近连接步骤

示例性衔接子在图19B中示出。衔接子包含含有两种寡核苷酸的5'双链。第一寡核苷酸从5'至3'包含以下：B15、X和UMI。第二寡核苷酸从5'至3'包含以下：UMI、X’和B15。第一寡核苷酸和第二寡核苷酸杂交形成双链衔接子。

如实施例16d所述和图19A-C所示，一种产生具有串联UMI的UMI文库的示例性方法包括(1)将包含双链靶核酸的样品施加到转座体复合物，该转座体复合物包含：(i)转座酶，和(ii)包含第一3'端转座子末端序列和第一衔接子序列的转座子；(2)用转座子标签化双链靶核酸的第一链以产生包含第一衔接子序列的双链靶核酸片段，(3)从转座体复合物释放双链靶核酸片段，(4)使包含UMI的第一多核苷酸和第二衔接子序列杂交，(5)添加包含与第一多核苷酸互补的区域的第二多核苷酸以产生双链衔接子，(6)使双链靶核酸片段的第二链延伸，(7)将双链衔接子与双链靶核酸片段连接，(8)产生包含UMI的双链靶核酸片段，其中该UMI位于双链靶核酸片段与第二衔接子序列之间，以及(9)扩增双链靶核酸片段。上述连接步骤被称为“邻近连接”，因为(如图19B所示)被连接的5'磷酸和3'OH不与同一模板链杂交。

本文所述的示例性衔接子和方法产生了UMI文库，其中UMI与插入DNA的3'端相邻(图19d)。使用标准测序方法，使用读段2捕获每个UMI和插入DNA序列，而不对ME序列进行测序。使用这种示例性衔接子和方法来产生UMI文库避免了在对UMI文库进行测序时对黑暗循环的需要。

13.用于产生包含5'单链聚合酶模板转换寡核苷酸的串联UMI的方法

示例性衔接子在图18B中示出。衔接子包含从5'至3'具有以下的5'聚合酶模板转换寡核苷酸：B15、X和UMI。

如实施例16c所述和图18A-C所示，一种产生具有串联UMI的UMI文库的示例性方法包括(1)将包含双链靶核酸的样品施加到转座体复合物，该转座体复合物包含：(i)转座酶，和(ii)包含第一3'端转座子末端序列和第一衔接子序列的转座子；(2)用转座子标签化双链靶核酸的第一链以产生包含第一衔接子序列的双链靶核酸片段，(3)从转座体复合物释放双链靶核酸片段，(4)使包含UMI的第一多核苷酸和第二衔接子序列杂交，(5)使双链靶核酸片段的第二链延伸，(6)拷贝第一多核苷酸，(7)产生包含UMI的双链靶核酸片段，其中该UMI位于双链靶核酸片段与第二衔接子序列之间，以及(9)扩增双链靶核酸片段。上述延伸步骤涉及从靶核酸链到衔接子链的模板转换。

本文所述的示例性衔接子和方法产生了UMI文库，其中UMI与插入DNA的3'端相邻(图18d)。使用标准测序方法，使用读段2捕获每个UMI和插入DNA序列，而不对ME序列进行测序。使用这种示例性衔接子和方法来产生UMI文库避免了在对UMI文库进行测序时对黑暗循环的需要。

H.样品和靶核酸

根据本公开使用的生物样本可以是包含靶核酸的任何类型。然而，样本不需要完全纯化，并且可以包含例如与蛋白质、其他核酸物质、其他细胞组分和/或任何其他污染物混合的核酸。在一些实施方案中，生物样本包括以与体内发现的比例大致相同的比例存在的核酸、蛋白质、其他核酸物质、其他细胞组分和/或任何其他污染物的混合物。例如，在一些实施方案中，这些组分以与完整细胞中发现的相同比例存在。在一些实施方案中，生物样本具有小于或等于2.0、1.9、1.8、1.7、1.6、1.5、1.4、1.3、1.2、1.1、1.0、0.9、0.8、0.7或0.60的260/280吸光度比率。在一些实施方案中，生物样本具有至少2.0、1.9、1.8、1.7、1.6、1.5、1.4、1.3、1.2、1.1、1.0、0.9、0.8、0.7或0.60的260/280吸光度比率。因为本文所提供的方法允许核酸与固体载体结合，所以能够在表面结合的标签化发生后仅通过洗涤固体载体来移除其他污染物。生物样本可包括例如粗制细胞裂解物或全细胞。例如，在本文示出的方法中施加于固体载体的粗制细胞裂解物不需要经受传统上用于从其他细胞组分分离核酸的一个或多个分离步骤。示例性分离步骤在Maniatis等人，Molecular Cloning:A LaboratoryManual，第2版，1989年和Short Protocols in Molecular Biology，Ausubel等人编辑中示出，这些文献据此以引用方式并入。

在一些实施方案中，施加到固体载体上的样本具有小于或等于1.7的260/280吸光度比率。

因此，在一些实施方案中，生物样本可以包括例如血液、血浆、血清、淋巴液、粘液、痰液、尿液、精液、脑脊液、支气管抽吸液、粪便和浸软组织或其裂解物，或者任何其他包含核酸的生物标本。

在一些实施方案中，样本是血液。在一些实施方案中，样本是细胞裂解物。在一些实施方案中，细胞裂解物是粗细胞裂解物。在一些实施方案中，该方法还包括在将样本施加到固体载体后裂解样本中的细胞以产生细胞裂解物。

在一些实施方案中，样本是活检样本。在一些实施方案中，活检样本是液体或固体样本。在一些实施方案中，来自癌症患者的活检样本用于评估感兴趣的序列以确定受试者在预测基因中是否具有某些突变或变体。

本文提出的方法和组合物的一个优点是，可以将生物样本添加到流通池中，并且随后的裂解和纯化步骤可以都在流通池中进行，而无需进一步的转移或处理步骤，仅需通过使必要的试剂流入流通池中。

1.DNA

在一些实施方案中，样本包含靶双链DNA。在一些实施方案中，DNA是基因组DNA。在一些实施方案中，DNA是无细胞DNA(cfDNA)。在一些实施方案中，DNA是循环肿瘤DNA(ctDNA)。在一些实施方案中，DNA是DNA:RNA双链体，其在以下部分II.H.3中详细讨论。

2.RNA

在一些实施方案中，该样品包含靶RNA。在一些实施方案中，该样品包含RNA和DNA。在一些实施方案中，靶RNA是mRNA。在一些实施方案中，靶RNA包含译码、非翻译区(UTR)、内含子和/或基因间序列。

在一些实施方案中，靶RNA包含与捕获寡核苷酸中的一种或多种捕获寡核苷酸的至少一部分互补的序列。

在一些实施方案中，靶RNA是信使RNA(mRNA)、转移RNA(tRNA)或核糖体RNA(rRNA)。可以基于靶RNA的类型设计合适的捕获寡核苷酸。

在一些实施方案中，靶RNA的3'端结合到捕获寡核苷酸。

在一些实施方案中，靶RNA是mRNA。在一些实施方案中，靶RNA是聚腺苷酸化的(即，包含仅含有腺嘌呤碱基的一段RNA)。在一些实施方案中，mRNA包含聚A尾。在一些实施方案中，mRNA的3'端包含聚A尾。

在一些实施方案中，靶mRNA包含聚A序列并且结合到包含聚T序列的捕获寡核苷酸。

3.DNA:RNA双链体

在一些实施方案中，作为文库制备的第一步骤，从包含RNA的样品合成cDNA。换句话讲，在通过BLT进行标签化之前，可在溶液中生成DNA:RNA双链体。在一些实施方案中，然后通过捕获寡核苷酸将DNA:RNA双链体捕获在BLT上。在一些实施方案中，基于对包含在转座体复合物中的转座酶的亲和力，DNA:RNA双链体直接结合到BLT。

在一些实施方案中，通过逆转录酶进行cDNA合成。在一些实施方案中，该cDNA合成产生DNA:RNA双链体，其中生成可与RNA链杂交的DNA链。在一些实施方案中，在合成cDNA的条件下将逆转录酶聚合酶添加到包含RNA的样品中。在一些实施方案中，合成cDNA的条件包括存在可结合到RNA的核苷酸和/或引物(诸如聚T引物和/或随机引物)。

在一些实施方案中，逆转录酶仅从RNA制备DNA(而不生成DNA的附加拷贝以产生双链DNA)。

在一些实施方案中，然后可将溶液中生成的DNA:RNA双链体结合到BLT并进行标签化。如以上关于RNA的部分II.H.2中所述，靶RNA可包含与包含聚T序列的捕获寡核苷酸结合的聚A尾。

在一些实施方案中，DNA:RNA双链体的片段可用于生成靶RNA的译码序列、非翻译区(UTR)、内含子和/或基因间序列。

在一些实施方案中，从靶RNA制备标记的DNA:RNA片段的固定文库的方法包括在合成cDNA并生成DNA:RNA双链体的条件下，向包含靶RNA的样品中添加逆转录酶聚合酶；将DNA:RNA双链体固定到其上固定有转座体复合物的固体载体上，其中转座体复合物包含结合到第一多核苷酸的转座酶，该第一多核苷酸包含含有转座子末端序列的3'部分以及第一标签；其中在所述DNA:RNA双链体直接结合到捕获寡核苷酸或转座酶的条件下将所述样品应用于所述固体载体；以及在DNA:RNA双链体被标记在一条链的5’端上的条件下，用转座体复合物对DNA:RNA双链体进行片段化，从而产生DNA:RNA片段的固定文库，其中至少一条链用第一标签5’标记。在一些实施方案中，一条链的5'端是RNA链的5'端。在一些实施方案中，一条链的5'端是DNA链的5'端。

III.UMI文库测序的方法

本公开还涉及对根据本文提供的方法产生的UMI文库进行测序。可根据任何合适的测序方法对UMI文库进行测序，这些测序方法诸如直接测序，包括边合成边测序、边连接边测序、杂交测序、纳米孔测序等。在一些实施方案中，文库在固体载体上测序。在一些实施方案中，用于测序的固体载体与在其上发生表面结合的标签化的固体载体相同。在一些实施方案中，用于测序的固体载体与在其上发生扩增的固体载体相同。

一种示例性测序方法是边合成边测序(SBS)。在SBS中，监测核酸引物沿核酸模板(例如，靶核酸或其扩增子)的延伸，以确定模板中核苷酸的序列。基础化学过程可以是聚合(例如，由聚合酶催化)。在特定的基于聚合酶的SBS实施方案中，以模板依赖性方式将荧光标记的核苷酸添加到引物(从而使引物延伸)，使得对添加到引物中的核苷酸的顺序和类型的检测可以用于确定模板的序列。

流通池为容纳通过本公开的方法产生的扩增DNA片段提供了方便的固体载体。可以使这种格式的一种或多种扩增DNA片段经受SBS或涉及在循环中重复递送试剂的其他检测技术。例如，为了启动第一SBS循环，一个或多个标记的核苷酸、DNA聚合酶等可流入/通过容纳一个或多个扩增核酸分子的流通池。可以检测其中引物延伸引起标记核苷酸掺入的那些位点。任选地，核苷酸还可以包括一旦将核苷酸添加到引物就终止进一步的引物延伸的可逆终止属性。例如，可以将具有可逆终止子部分的核苷酸类似物添加到引物，使得后续的延伸直到递送解封闭剂以去除该部分才发生。因此，对于使用可逆终止的实施方案，可以将解封闭试剂递送到流通池(在检测发生之前或之后)。洗涤可以在各个递送步骤之间进行。然后可以重复该循环n次以使引物延伸n个核苷酸，从而检测长度为n的序列。可以容易地适于与通过本公开的方法产生的扩增子一起使用的示例性SBS程序、流体系统和检测平台在例如以下文献中描述：Bentley等人，Nature 456:53-59(2008)，WO 04/018497，US 7,057,026，WO 91/06678，WO 07/123744，US 7,329,492，US 7,211,414，US 7,315,019，US 7,405,281和US 2008/0108082，其中每一篇以引用方式并入本文。

可以使用利用循环反应的其他测序程序，诸如焦磷酸测序。焦磷酸测序检测当特定核苷酸掺入新生核酸链中时无机焦磷酸盐(PPi)的释放(Ronaghi等人，AnalyticalBiochemistry 242(1),84-9(1996)；Ronaghi，Genome Res.11(1),3-11(2001)；Ronaghi等人，Science 281(5375)，363(1998)；US 6,210,891、US 6,258,568和US 6,274,320，这些文献中的每一篇均以引用方式并入本文。在焦磷酸测序中，所释放的PPi可通过ATP硫酸化酶立即转化成三磷酸腺苷(ATP)来检测，并且所产生ATP的水平可经由荧光素酶产生的光子来检测。因此，可经由发光检测系统来监测测序反应。用于基于荧光的检测系统的激发辐射源不是焦磷酸测序程序所必需的。可适于对根据本公开产生的扩增子应用焦磷酸测序的可用流体系统、检测器和程序在例如WIPO专利申请序列号PCT/US11/57111、US2005/0191698A1、US 7,595,883和US 7,244,559中描述，这些文献中的每一篇以引用方式并入本文。

一些实施方案可利用涉及DNA聚合酶活性的实时监测的方法。例如，可以通过带有荧光团的聚合酶与γ-磷酸标记的核苷酸之间的荧光共振能量转移(FRET)相互作用或者利用零模式波导(ZMW)来检测核苷酸掺入。用于基于FRET的测序的技术和试剂在例如以下文献中描述：Levene等人，Science，299，682-686(2003)；Lundquist等人，Opt.Lett.33,1026-1028(2008)；Korlach等人，Proc.Natl.Acad.Sci.USA 105，1176-1181(2008)，这些文献的公开内容以引用方式并入本文。

一些SBS实施方案包括检测在核苷酸掺入延伸产物时释放的质子。例如，基于释放质子的检测的测序可使用可从Ion Torrent公司(Guilford,CT，它是Life Technologies子公司)商购获得的电检测器和相关技术或在US 2009/0026082A1、US2009/0127589 A1、US2010/0137143 A1或US 2010/0282617A1中所述的测序方法和系统，这些文献中的每一篇均以引用方式并入本文。本文阐述的使用动力学排阻来扩增靶核酸的方法可以容易地应用于用于检测质子的基板。更具体地，本文阐述的方法可以用于产生用于检测质子的扩增子克隆群体。

另一种有用的测序技术是纳米孔测序(参见例如Deamer等人，TrendsBiotechnol.18,147-151(2000)；Deamer等人，Acc.Chem.Res.35:817-825(2002)；Li等人，Nat.Mater.2:611-615(2003)，这些文献的公开内容以引用方式并入本文)。在一些纳米孔实施方案中，靶核酸或从靶核酸除去的单独核苷酸穿过纳米孔。当核酸或核苷酸穿过纳米孔时，可通过测量孔的电导率的波动来识别每种核苷酸类型。(US 7,001,792；Soni等人，Clin.Chem.53,1996-2001(2007)；Healy，Nanomed.2,459-481(2007)；Cockroft等人，J.Am.Chem.Soc.130,818-820(2008)，这些文献的公开内容以引用方式并入本文)。

可应用于根据本公开的检测的基于阵列的表达和基因分型分析的示例性方法描述于以下文献中：US 7,582,420、US 6,890,741、US 6,913,884或US 6,355,431或者美国专利公布号2005/0053980A1、2009/0186349A1或US2005/0181440A1，其中每一篇均以引用方式并入本文。

本文阐述的方法的优点是它们并行提供了对多个靶核酸的快速且有效检测。因此，本公开提供了能够使用本领域已知的技术(诸如上文所例示的那些)来制备和检测核酸的整合系统。因此，本公开的整合系统可以包括能够将扩增试剂和/或测序试剂递送到一个或多个核酸片段的流体部件，该系统包括诸如泵、阀、贮存器、流体管线等的部件。流通池在整合系统中可以被配置用于和/或用于检测靶核酸。示例性流通池描述于例如US 2010/0111768A1和US13/273,666中，其中每一篇以引用方式并入本文。如针对流通池所例示的，整合系统的一个或多个流体部件可以用于扩增方法和检测方法。以核酸测序实施方案为例，整合系统的一个或多个流体部件可以用于本文阐述的扩增方法以及用于在测序方法(诸如上文例示的那些)中递送测序试剂。另选地，整合系统可包括单独的流体系统以执行扩增方法并执行检测方法。能够产生扩增核酸并且还确定核酸序列的整合测序系统的示例包括但不限于MiSeq^TM平台(Illumina,Inc.,San Diego,CA)以及US13/273,666中所述的设备，该专利公布以引用方式并入本文。

在一些实施方案中，对本公开的UMI文库进行测序的方法包括对UMI进行测序，以在DNA测序中提供增加的灵敏度。在一些实施方案中，测序方法包括NextSeq 500/550(Illumina)。

A.暗循环

在一些实施方案中，使用NextSeq软件制备和选择定制测序方案，以包括暗循环，其用于跳过特定序列的记录。该序列的测序化学仍在进行，但该测序没有通过仪器成像。暗循环用于减轻与重复测序低多样性序列(诸如ME序列的文库)相关的定相/预定相问题，这些问题可使测序结果全面恶化。在暗循环之后，恢复序列的成像，使得记录靶核酸的插入序列。

定制测序方案包括修改标准方案以包括适当数量的暗循环以跨越待跳过的序列的长度。换句话讲，暗循环的数量等于打算跳过的碱基的数量。例如，如果待跳过的序列是19个碱基长的ME序列，则使用19个暗循环。在一些实施方案中，待跳过的序列是ME序列。在具有19个核苷酸长的ME的实施方案中，暗循环的数量是19。对于具有不同数量的核苷酸的ME，暗循环通常是核苷酸的数量。为了从暗循环获得最大益处，用户可跳过整个ME；然而，也可能跳过大部分ME结构域及其序列部分，忽略结果中的那些核苷酸。

在一些实施方案中，测序方法包括暗循环，其中对于测序方法的一部分不记录数据。在一些实施方案中，未被记录的数据是与3’转座子末端序列相关的序列数据。在一些实施方案中，未被记录的序列数据是ME序列。在一些实施方案中，暗循环包括19个循环。

在一些实施方案中，测序方法不包括暗循环。在这些实施方案中，制备UMI文库的方法避免了对暗循环的需要，因为每个UMI与插入核酸的3’端相邻，它们之间没有ME序列(图20)。

在一些实施方案中，使用定制引物以避免对暗循环的需要。在这些实施方案中，定制引物是包含与ME对准的序列的桥接引物(图4和图6B)。在这些实施方案中，ME序列未成像。

B.测序引物

可用于用Illumina文库制备试剂盒和测序平台例如Nextera、Illumina Prep、Ilumina PCR、AmpliSeq^TM、和TruSeq^TM对UMI文库进行测序的测序引物和衔接子序列如Illumina Adapter Sequences Document#1000000002694 v15中所公开，并且其全文据此以引用方式并入。这些测序引物和衔接子可根据本公开进行修饰。所述引物和衔接子的示例包括以下：读段1、读段2、索引1读段、索引2读段、索引1(i7)衔接子、索引2(i5)衔接子、索引衔接子1-27、TruSeq通用衔接子、索引PCR引物、多重衔接子、多重读段测序引物、多重索引读段测序引物和PCR引物索引序列1-12。

在一些实施方案中，测序方法包括结合具有类似解链温度的测序引物。

1.定制引物

定制引物可用于测序反应，以发挥不同的功能。

在一些实施方案中，在定制引物中包含UMI序列以允许引物与UMI结合。

在一些实施方案中，定制引物可包含用于延长引物和/或影响引物解链温度的序列。在一些实施方案中，可在同一反应中使用的定制测序引物和标准测序引物可具有类似的解链温度。

在一些实施方案中，定制引物是包含一个或多个间隔子的桥接引物。间隔子允许桥接引物与任何核酸序列对准。

在一些实施方案中，间隔子可与靶核酸序列结合。在一些实施方案中，间隔子包含通用杂交序列，诸如肌苷。

在一些实施方案中，间隔子可与靶核酸序列对准而不与其结合。在一些实施方案中，间隔子包含非核酸接头。

在一些实施方案中，间隔子与可变序列对准。在一些实施方案中，间隔子与UMI序列对准。在一些实施方案中，间隔子与UDI序列对准。

在一些实施方案中，测序引物包含与一个或多个独特引物结合序列完全或部分互补的序列。在一些实施方案中，测序引物包含至少A2序列、至少A14序列或至少B15序列。

在一些实施方案中，独特引物结合序列是A2、A14和/或B15。

a)间隔子

如本文所用，序列中的间隔区是指不携带已知基因功能的任何结构或编码信息的核酸序列。多核苷酸或寡核苷酸上的间隔区能够与不同的序列对准。在一些实施方案中，间隔区能够与一系列i5序列对准，这些序列公开于Illumina Adapter Sequences Document#1000000002694v15中并且以引用方式并入本文。在一些实施方案中，间隔区与UMI序列对准。在一些实施方案中，间隔区与ME序列对准。

在一些实施方案中，间隔区为通用序列。在一些实施方案中，间隔区为非DNA间隔子。在一些实施方案中，间隔区包含通用碱基，诸如肌苷或硝基吲哚。另选地，间隔子可包含合成接头。合成接头的示例包括C3间隔子、己二醇、1',2'-双脱氧核糖(dSpacer)、光可切割间隔子(PC间隔子)、间隔子9和间隔子18。C3间隔子是可掺入寡核苷酸的内部或5’端的C3间隔子亚磷酰胺。可在寡核苷酸的任一端添加多个C3间隔子以引入长的亲水性间隔臂，用于附接荧光团或其他侧基。己二醇是能够阻断DNA聚合酶延伸的6个碳乙二醇间隔子。这种3'修饰能够支持更长寡核苷酸的合成。dSpacer修饰可用于在寡核苷酸内引入稳定的脱碱基位点。PC间隔子可置于DNA碱基之间或寡核苷酸和5'-修饰基团之间。PC间隔子提供10个原子的间隔臂，其可通过暴露于300nm至350nm光谱范围内的UV光而被切割。切割释放具有5'-磷酸基团的寡核苷酸。间隔子9是三甘醇间隔子，其可掺入寡核苷酸的5'端或3'端或内部。可使用多次插入来产生长的间隔臂。间隔子18(iSp18)是18个原子的六乙二醇间隔子，并且可被认为是可作为单一修饰添加的最长间隔臂。

在一些实施方案中，间隔子包含iSp18接头。如本文所用，iSp18接头是具有C18间隔子(18个原子的六乙二醇间隔子)的标准修饰接头，并且长度等于4个碱基对。因此，2×sp18接头的长度等于8个碱基对。在一些实施方案中，间隔区包含2×iSp18合成接头。在一些实施方案中，间隔区包含一个或多个C18间隔子，诸如1、2、3、4、5、6或更多个C18间隔子。在一些实施方案中，间隔区包含两个C18间隔子(其长度等于8个核苷酸)。在一些实施方案中，间隔子为C9间隔子，长度等于2个碱基对。在一些实施方案中，间隔区包含一个或多个C9间隔子(三乙二醇间隔子)，诸如1、2、3、4、5、6或更多个C9间隔子。在一些实施方案中，间隔子是与现有索引一起使用的常规间隔子，诸如10碱基对间隔子。在一些实施方案中，间隔区是间隔子的组合，例如，一个或多个C18间隔子和一个或多个C9间隔子的组合，或本文所述的任何间隔子的任何组合。在一些实施方案中，间隔区的长度等于2、3、4、5、6、7、8、9、10、12、15、20或30个碱基对。在一些实施方案中，间隔区的长度大约等于8或10个碱基对或核苷酸。在一些实施方案中，间隔区被特别选择为与索引区相同的长度。在一些实施方案中，索引区为8个核苷酸长，并且间隔区包含两个C18间隔子。在一些实施方案中，索引区为10个核苷酸长，并且间隔区包含两个C18间隔子和一个C9间隔子。

在一些实施方案中，间隔子包含脱碱基核苷酸。可在间隔子的任何位置引入脱碱基核苷酸。具有脱碱基核苷酸的间隔子的示例包括dSpacer(1',2'-双脱氧核糖；DNA脱碱基)、rSpacer(即RNA脱碱基)和Abasic II。在一些实施方案中，dSpacer是脱碱基呋喃、四氢呋喃(THF)、THF衍生物或脱嘌呤/脱嘧啶(AP)核苷酸。

在一些实施方案中，间隔子包含摆动碱基。可在间隔子中的任何位置处引入摆动碱基。摆动碱基对是不遵循沃森-克里克碱基对规则的两个核苷酸之间的配对，诸如鸟嘌呤-尿嘧啶、次黄嘌呤-尿嘧啶、次黄嘌呤-腺嘌呤和次黄嘌呤-胞嘧啶。

IV.包括转座体复合物的试剂盒

在一些实施方案中，试剂盒包括本文公开的转座体复合物的组分。在一些实施方案中，试剂盒包括用于生成所述转座体复合物的组分，包括转座酶和包含转座子、5'和3'转座子末端序列、衔接子序列、UMI序列和/或其他HYB/HYB'序列的寡核苷酸。

试剂盒可包括多种衔接子中的任一种。在许多实施方案中，衔接子可选自3’衔接子、多核苷酸衔接子、叉形衔接子、发夹UMI衔接子、发夹UMI和通用杂交尾衔接子、夹板连接衔接子、模板转换寡核苷酸衔接子和任何合适的寡核苷酸。

在一些实施方案中，试剂盒可包含Hyb2Y的组分，诸如衔接子和缓冲液。

在一些实施方案中，试剂盒可包含固体载体诸如小珠。

在一些实施方案中，试剂盒可包含逆转录酶聚合酶。

在一些实施方案中，试剂盒可包含测序引物。

实施例

以下实施例描述了涉及制备具有UMI的DNA测序文库的方法。使用BLT方法(诸如Illumina DNA Prep(仅用于研究，RUO)，以前称为Nextera DNA Flex Library Prep，和Nextera XT DNA文库制备试剂盒)生成测序文库是与NGS文库制备工作流程相容的方便且有效的方法。对于这些中的许多，期望跟踪测序的DNA分子的相对取向和独特性(即，靶DNA的链型或定向性)并且能够生物信息学地解析它们。实施例中描述的方法涉及使用UMI来提供链型或定向性，这是当前一代BLT方法所不能提供的特征。不使用Illumina TruSeq^TM方法掺入UMI。以下实施例公开了掺入UMI的不同方式。

实施例1.使用UMI-BLT制备用于测序的DNA文库以实现双链体UMI误差校正

该实施例描述了用于制备具有独特双索引(UDI)和双链体UDI的DNA测序文库的非对称标签化BLT方法。该实施例描述了组合UDI与UDI用于误差校正的方法。使用单个UMI标签化DNA文库，随后拷贝单个UMI以产生双链体UMI。

该实施例的方法将BLT方法与Hyb2Y工作流程组合。在标签化步骤中，将第一UMI添加到靶DNA的第一链并且将第二UMI添加到靶DNA的第二链。

在该方法中，在BLT中将附加的A2衔接子序列添加到转座子臂，并使用Hyb2Y工作流程来拷贝UMI。向BLT衔接子添加A2序列有两个目的。首先，其允许可被延伸以在相对链上具有配对UMI的Hyb2Y寡核苷酸的退火。Hyb2Y寡核苷酸与A2的杂交允许更长的延伸，其可拷贝UMI和衔接子序列，而不是依赖于延伸最小的其他方法。第二，A2序列使得能够开发定制测序方案和用于测序的定制引物，其具有与标准测序引物相同的退火温度(Tm)。此外，根据该方法制备的文库减少了当使用叉形衔接子BLT设计时有时观察到的衔接子二聚体的量。通过规避衔接子二聚体，该方法还增加了文库产量。

A.材料

在该实施例中使用以下材料：(1)基因组DNA(gDNA)Horizon Tru-Q7参考标准物(Horizon目录号HD734)；(2)Illumina DNA Prep with Enrichment(IDPE；Illumina目录号20025523和20025524；以前称为Nextera Flex for Enrichment)；(3)TruSight OncologyUMI试剂(Illumina目录号20024586)；(4)TruSight Tumor 170试剂(Illumina目录号20028821)；(5)New Enrichment Blocker NHB2(Illumina参考号20031771)；(6)延伸连接混合物ELM3(Illumina目录号20019117)；(7)NextSeq 500/550 v2.5试剂盒(Illumina目录号20024906)；和(8)定制引物。

B.具有双链体UMI的BLT文库

在该方法中，首先用包含UMI-BLT的捕获寡核苷酸在反应混合物中制备用于标签化靶DNA片段的BLT(图1)。将用于标签化的靶DNA添加到含有UMI-BLT的反应混合物中(图2)。使用10ng和50ng的gDNA Horizon Tru-Q 7参考标准物作为靶DNA。

用以与IDPE中使用的eBLT类似的密度制备的BLT制备含有AB-长单个UMI的标签化文库。使用TruSight^TMTumor(TST170；Illumina)探针，根据IDPE方案指南制备文库。添加终止标签化缓冲液ST2以终止标签化过程。

将所得的标签化文库在55℃下加热5分钟以将标签化文库释放到溶液中。3'-生物素化的ME保持与小珠结合并且不被转移。将反应混合物在室温下孵育5分钟，并将反应混合物用标签化洗涤缓冲液(TWB)洗涤两次。

然后，添加Hyb2Y寡核苷酸(图2中的5'P-A2'A14'-3')并在65℃下退火10分钟。使反应混合物缓慢冷却至37℃。然后，取出该反应混合物的上清液，并与延伸-连接混合物ELM3混合用于缺口填充。

将三十四个碱基通过在ELM3中在37℃下延伸和连接30分钟进行缺口填充。在该步骤期间拷贝UMI序列，这使得能够通过允许人们使用UMI识别和分组顶部链和底部链来进行UMI双链体误差校正。然后，使用固相可逆固定小珠(SPRI)来净化反应混合物以产生具有标签化DNA的溶液。使用UDI引物进行九个循环的PCR以扩增标签化DNA。然后使用SPRI纯化PCR产物以捕获落入正确尺寸范围内的标签化DNA。最后，使用IDPE和TST170探针富集文库(约500ng DNA)。添加附加的阻断剂用于AB长BLT探针的杂交。

这些步骤产生具有双链体UMI的标准结构BLT文库。该文库包含A14和B15寡核苷酸序列，其可用于用Illumina UDI进行PCR扩增(图2)。

C.具有单个UMI的BLT文库

制备第二BLT文库。该文库包含单个UMI，并且使用A-B-短单个UMI产生。使用上述用于A-B-长单个UMI的步骤制备文库，除了不使用附加的阻断剂用于BLT杂交。

D.对照文库

为了比较，根据TruSight Tumor 170方案指南使用TruSight Oncology UMI试剂制备单独的标签化文库。

为了进一步比较，使用NFE制备不含UMI的文库。

实施例2.具有暗循环的对包含双链体UMI的DNA文库的测序

该实施例描述了对实施例1的DNA文库进行测序的方法。

A.材料

在该实施例中使用以下系统和材料：(1)使用NextSeq 500测序系统(Illumina文档号15046563)；以及(2)测序引物和定制引物，如果需要，特异于实施例1的文库(Illumina文档号15057456)。

B.方法

根据方案指南，将实施例1的文库合并、变性并添加到NextSeq 500测序盒中。按照NextSeq 500和NextSeq 550测序系统定制引物指南，将定制引物稀释并添加到盒中的相关位置。

将定制的测序方案加载到测序仪上并使用NextSeq软件进行选择。该方案包括修改标准方案以包括在ME区域上的19个暗循环。暗循环是没有成像的测序循环，其针对可能整体恶化测序结果的定相/预定相问题进行了校正。暗循环在以上部分III.A中详细讨论。在暗循环期间，ME区域的19个碱基未成像。暗循环后，重新开始成像并对插入序列成像。

样品表包括如在TruSight Oncology UMI试剂指南中发现的设置。

使用内部UMI折叠应用程序和Dragen富集应用程序在Basespace Sequence Hub上进行数据分析。

1.引物

所用的定制测序引物如图3B所示。4个定制引物包含与标准测序引物相容的解链温度(Tm)，并且因此可在相同的测序反应中混合和使用。如图3B所示，定制引物如下：(1)定制引物1UMI+读段1，(2)定制引物i5，(3)定制引物i7，和(4)定制引物4UMI+读段2。定制引物被设计为与它们相应的区域退火，如图3B中蓝色箭头所示。定制引物1UMI+读段1与A14-A2序列退火。定制引物i5与A14'-A2'序列退火。定制引物i7与A2'-B15'序列退火。定制引物4UMI+读段2与B15-A2序列退火。用定制引物1UMI+读段1和定制引物4UMI+读段2读取插入DNA的序列。

该测序方法使用了三个定制引物端口，总共含有六种引物。按照用于测序的标准操作程序，将i7和i5定制引物添加到一个定制引物端口。根据该实施例使用和制备的引物可能对测序盒上可用引物端口数量有限的本领域技术人员有用。例如，一些测序平台仅具有三个可用的引物端口。该方法允许在单个反应中混合不同的定制测序引物以在测序过程期间的不同时间使用，从而允许本领域技术人员最小化测序盒上所需的定制引物端口的数量。

任选地，该方法可替代地仅包括两种引物-定制引物1UMI+读段1和定制引物2UMI+读段2。这两种引物可预先混合并且仅需要两个定制引物端口。

C.结果

图3C示出了测序运行中每个循环的质量得分。简而言之，质量得分是对碱基检出中误差概率的预测。高质量得分表明碱基检出更为可靠，错误的可能性更低。对于质量得分为Q30的碱基检出，预计1,000个碱基检出中有一个错误。当测序质量达到Q30时，几乎所有的读段都将是完美的，没有误差和歧义。Q30被认为是下一代测序中质量的基准。

虽然图3C示出了≥Q30的％，但图3D示出了该实施例测序运行中每个循环的测序循环强度。暗循环用于加速测序并避免记录跨越衔接子序列的反应的无信息图像。与在插入物处开始新读段相比，暗循环(和亮循环)降低了后续测序的质量(图3C和图3D)。

在用50ng模版输入的测序反应中，TruSight UMI方法显示出优异的性能。可能的是，它们在实施例1中的Hyb2Y工作流程需要优化以实现改进的测序性能。

如图3E所示，TruSight UMI方法(TruSight-Duplex)在50ng模板输入的反应中显示出优异的性能。这可能是由于在实施例1中的延伸和连接步骤期间使用的聚合酶在UMI序列中引入了误差，导致UMI读段在分析的第一步被丢弃。在图3E中，不具有双链体UMI的设计被称为零。对叉形双链体文库的衔接子封闭也是次优的。无论如何，叉形双链体数据集已检出20％双链体家族。随着对实施例1的Hyb2Y工作流程中的生物化学的优化，这个数字应得到提高。可优化的参数的示例包括寡核苷酸浓度、杂交时间、杂交温度和用于杂交的序列的选择。

实施例3.用桥接引物再杂交对包含双链体UMI的DNA文库的测序

该实施例描述了对实施例1的DNA文库进行测序的方法。

A.材料

材料如上述实施例2中所述。

B.方法

该方法如上述实施例2中所述，但具有以下修改。

此处使用不包括暗循环的定制测序方案。该方案还包括在读段1和读段4期间进行附加的引物再杂交(图4)。

1.引物

该实施例中的定制引物如表2和图4中所提供。读段1和读段6的引物是桥接引物。

每个桥接引物包含：与A14-A2序列退火的序列，跨越UMI序列但不与UMI序列退火的两个间隔子，以及与ME序列退火的序列。在标签化文库中，A14-A2和ME序列是恒定序列，而UMI序列是变化的。在该实施例中，使用两个拷贝的iSp18作为引物2和6的每一者中的两个间隔子。

在该实施例的测序方法中，首先将引物1退火，然后将其去除以使引物2退火。类似地，引物5在其被去除以使引物6退火之前退火。用用于插入物1读段的定制桥接引物和用于插入物2读段的定制桥接引物来读取插入DNA的序列。

实施例4.使用UMI-BLT制备用于测序的DNA文库以实现双链体UMI误差校正

该实施例描述了用于制备具有UDI和双链体UDI以进行误差校正的DNA测序文库的非对称标签化BLT方法。材料如实施例1中所述。在标签化步骤中，将UMI添加到靶DNA的第一链；靶DNA的第二链不用UMI标签化。

在该方法中，用于标签化靶DNA的包含UMI-BLT的转座体结构如图5A所示。如图5B所示处理标签化DNA。用十二烷基硫酸钠(SDS)洗涤标签化DNA并去除转座酶TsTn5(示于图5A和5B中)。通过使用UDI引物进行PCR扩增标签化DNA文库。

实施例5.具有暗循环的对包含双链体UMI的DNA文库的测序

该实施例描述了对实施例4的DNA文库进行测序的方法，其包括暗循环(图6A)。

A.材料

材料如上述实施例2中所述。

B.方法

该方法如上述实施例2中所述，但具有以下修改。

1.引物

在该方法中，使用4种引物：(1)标准插入物读段1，(2)定制i7，(3)标准i5，和(4)UMI+插入物读段2。引物被设计成与它们相应的区域退火，如图6A中黑色箭头所示。标准插入物读段1与A14-ME序列退火。定制i7与A2’-B15’序列退火。标准i5与ME'-A14'序列退火。UMI+插入物读段2与B15-A2序列退火。

C.结果

将该实施例的测序方法(图6A)与使用TruSeq^TM方法或IDPE标准方法的测序运行(图3A)进行比较。如图7所示的当前方法的标准测序读段1和R4 UMI+插入物读段2的％Q30(“暗”)表明，尽管该方法的表现不如IDPE(“IDPE std”)和TruSeq^TM(“TruSeq std”)方法那样好，但当前方法是成功的。暗循环后也观察到％Q30得分的降低。该测序方法仅使用三种引物，并且当与具有可支持不超过三种引物的盒的测序仪器一起使用时可以是优选的方法。

实施例6.用桥接引物再杂交对包含双链体UMI的DNA文库的测序

该实施例描述了对实施例4的DNA文库测序的方法，其包括桥接引物再杂交而不是暗循环(图6B)。

A.材料

材料如上述实施例5中所述。

B.方法

该方法如上述实施例5中所述，但具有以下修改。

1.引物

在该方法中，使用5种引物：(1)标准插入物读段1，(2)定制i7，(3)标准i5，(4)UMI，和(5)插入物读段2桥接引物。引物被设计成与它们相应的区域退火，如图6B中黑色箭头所示。引物(1)至(4)与前述段落中描述的区域退火。引物5包含：与A2-B13序列退火的序列，跨越UMI序列但不与UMI序列退火的间隔子，以及与ME序列退火的序列。引物5避免了测序方法中对暗循环的需要。在该方法中，首先将引物4退火，然后将其去除以使引物5退火。用标准插入物读段1和插入物读段2桥接引物读取插入DNA的序列。

C.结果

将该实施例的测序方法(图6B)与使用TruSeq^TM方法或IDPE标准方法的测序运行(图3A)进行比较。如图7所示的当前方法的标准测序读段1和R5插入物读段2桥接引物的％Q30(“Rehyb”)表明，该方法与TruSeq^TM(“TruSeq std”)和IDPE(“IDPE std”)方法表现一样好，并且提供比具有暗循环(“暗”；也参见实施例5)的方法更好的测序质量。

实施例7.用UMI BLT从无细胞DNA(cfDNA)制备用于测序的DNA文库

该实施例描述了用于制备具有UDI和双链体UDI以进行误差校正的DNA测序文库的非对称标签化BLT方法。材料如实施例1中所述。在标签化步骤中，将第一UMI添加到靶DNA的第一链并且将第二UMI添加到靶DNA的第二链。

从来自单个患者的5mL血浆中提取cfDNA。使用无Mg²⁺的BLT Tn5提取cfDNA。如图8所示，cfDNA使用TruSeq^TM工作流程作为对照进行处理或使用该实施例中描述的方法(图8中的“eBBN”)进行处理。

首先，使用TruSeq^TM工作流程如下处理cfDNA：(1)末端修复30分钟，(2)A-加尾30分钟，(3)UMI连接30分钟，(4)衔接子连接30分钟，(5)SPRI清除，以及(6)通过PCR扩增。

根据如图9所示的当前方法的标签化工作流程，利用以下步骤处理cfDNA的单独样品：(1)用包含单个UMI衔接子的捕获寡核苷酸对cfDNA进行标签化5分钟，(2)终止标签化，(3)使用5-10分钟的洗涤液对标签化cfDNA即UMI文库进行洗涤，以及(4)通过PCR扩增产生的UMI文库。

在该方法中，将UDI添加到BLT捕获寡核苷酸中以代替UDI，这排除了使用UDI的附加索引。UMI不在与具有BLT捕获部分的链相同的链上；UMI在转移链上，而BLT捕获部分在非转移链上。

在i7位置使用十个UMI序列，并且在i5位置使用10个UMI序列。对标签化DNA片段进行缺口填充并使用P5和P7引物通过PCR进行扩增。该方法产生了具有A14和B15寡核苷酸序列的标准结构BLT文库，准备使用标准测序引物进行测序。

实施例8.对包含单个UMI的DNA文库的测序

该实施例描述了对实施例7的DNA文库进行测序的方法。

A.材料

材料如上述实施例2中所述。

B.方法

该方法如上述实施例2中所述，但具有以下修改。

1.引物

该实施例包括标准测序运行和标准测序引物Nextera读段引物1(NR1读段)、i7读段、i5读段和Nextera读段引物2(NR2读段)。引物被设计成与它们相应的区域退火，如图9中黑色箭头所示。因为i7和i5区域已被UMI侵占，所以UMI是从索引读段中捕获的。

C.结果

UMI读段在DNA文库中的均匀分布表明单个UMI被成功地掺入标签化DNA片段中(图10)。对测序读段进行读段折叠分析步骤，以将重复读段分组并将它们折叠成单个共有对准读段。所得读段即去重读段具有较高的每碱基质量和来自各种来源的较低噪音。当涉及UMI时，读段折叠是质量控制的有用度量。

如图11A和图11B所示，单个UMI-BLT文库(在图11B中示出为“eBBN”)比TruSeq^TM文库(在图11A中示出为“无UMI”)具有更大的去重平均靶覆盖率和更高的cfDNA向文库的转化率。

实施例9.使用双链体UMI-BLT制备具有UDI和双链体序列误差校正的用于测序的 DNA文库

该实施例描述了用于制备具有UDI和双链体UDI以进行误差校正的DNA测序文库的对称标签化BLT方法。材料如实施例1中所述。该方法包括用于BLT的叉形衔接子捕获寡核苷酸中的双链体UMI(图12)。在标签化步骤中，将UMI添加到靶DNA的两条链。

首先，形成包含120种不同UMI双链体的UMI库。分别制备每种UMI双链体，然后混合在一起形成UMI库。该库用于制备叉形衔接子捕获寡核苷酸，然后将其用于制备通用UMIBLT(通用UMI Tsm)。使用通用UMI Tsm标签化靶DNA片段。用ELM进行缺口填充和连接。使用Nextera索引引物通过PCR扩增标签化DNA并准备测序。

实施例10.对包含双链体UMI和UDI的DNA文库的测序

该实施例描述了对实施例9的包含双链体UMI和UDI的DNA文库进行测序的方法。该方法包括使用四种标准引物和暗循环以避免对ME区域成像。

A.材料

材料如上述实施例2中所述。

B.方法

该方法如上述实施例2中所述，但具有以下修改。

1.引物

该实施例包括具有19个暗循环和测序引物(1)A14读段、(2)i7读段、(3)B15读段和(4)i5读段的测序运行。引物被设计成与它们相应的区域退火，如图12中灰色箭头所示。

标准A14读段和B15读段引物与A14和B15区域退火。这些区域包含短核苷酸序列(即，14个碱基对)，这导致对A14读段和B15读段引物的低Tm设计。引物受益于修饰，诸如附加的10个碱基对，这增加了它们相应的Tm，使得它们的UMI序列可被读取。

实施例11.能够进行索引和双链体序列误差校正的用于测序的DNA文库的制备

该实施例描述了用于制备具有UDI和双链体UDI以进行误差校正的DNA测序文库的对称标签化BLT方法。材料如实施例1中所述。该方法包括用于BLT的叉形衔接子捕获寡核苷酸中的UMI(图13)。在标签化步骤中，将UMI添加到靶DNA的两条链。

制备UMI、BLT和标签化DNA的步骤如以上实施例9所述。

实施例12.对DNA文库的测序

该实施例描述了对实施例11的DNA文库测序的方法。

A.材料

材料如上述实施例2中所述。

B.方法

该方法如上述实施例2中所述，但具有以下修改。

1.引物

该实施例包含6种定制测序引物：(1)定制1，(2)定制UMIi7，(3)定制i7，(4)定制2，(5)定制UMIi5，和(6)定制i5。引物被设计成与它们相应的区域退火，如图13中黑色箭头所示。

实施例13.使用包含发夹UMI和通用杂交尾的3'衔接子制备用于测序的DNA文库

该实施例描述了用于制备具有UMI的DNA测序文库的非对称标签化BLT方法，其中UMI在标签化后掺入(图14)。包含发夹UMI和通用杂交尾的3'衔接子用于掺入UMI。

材料如实施例1中所述。

该方法包括用5'测序衔接子(5'衔接子)标签化靶DNA，然后使3'测序衔接子(3'衔接子)与5'衔接子ME序列杂交，使得UMI直接置于插入DNA的3'端附近。这产生串联UMI，其确保与标准的下游文库制备步骤(即，样品多重PCR)和测序化学方案的相容性。

用仅含有5'衔接子序列即A14的转座体对双链DNA进行标签化，并使非转移的Tn5-镶嵌末端序列ME变性。3'衔接子是含有3'通用杂交尾的寡核苷酸，其可包含能够进行通用沃森-克里克碱基配对的肌苷碱基。3'通用杂交尾还含有UMI发夹和ME'序列以及3'衔接子序列B15。

使用Hyb2Y使3'衔接子与5'衔接子ME杂交。通用杂交尾与转移链的暴露的5'碱基(与5'衔接子邻接)杂交。使用9个核苷酸的通用杂交尾，转移链的暴露的9个核苷酸完全杂交，并且通过大肠杆菌DNA连接酶将通用杂交尾的5'与非转移链的3'连接。使用少于9个核苷酸的通用杂交尾可能需要在连接前非转移链的附加延伸步骤。

使用标准测序方法(如实施例2所述和图3B和图20所示)，该实施例的文库可在读段2开始时或读段1结束时，分别在插入DNA之前和之前进行测序。由于插入物的质量和可变插入物长度，读段更可能在读段2开始时被捕获。

通用杂交尾寡核苷酸提供跟踪和解析每个(原始)DNA分子的独特拷贝(独特拷贝索引，UCI)的潜力。原始插入分子的不同拷贝可通过相同的UMI具有不同的9个核苷酸通用杂交尾序列。像UMI一样，UCI是串联的，在测序读段中具有预定的位置。因此，其可通过生物信息学识别。

实施例14.使用包含发夹UMI的3'衔接子制备用于测序的DNA文库

该实施例描述了用于制备具有串联UMI的DNA测序文库的非对称标签化BLT方法，其中UMI在标签化后掺入(图15)。包含发夹UMI的3'衔接子用于掺入UMI。

材料如实施例1中所述。

3'衔接子含有如实施例13所述的发夹UMI，但其不含有通用杂交尾。

如实施例13所述进行5'衔接子标签化和3'衔接子杂交步骤。在3'衔接子杂交后，非转移链的3'通过DNA聚合酶延伸直至它到达杂交的3'衔接子的5'端。(DNA聚合酶不含链置换并且不含5'至3'核酸外切酶活性)。这使得UMI发夹的5'端与3'衔接子的3'端非常邻近。

实施例15a.使用3'夹板连接衔接子制备用于测序的DNA文库

该实施例描述了用于制备具有串联UMI的DNA测序文库的非对称标签化BLT方法，其中UMI在标签化后掺入(图16)。使用3'夹板连接衔接子掺入UMI。

材料如实施例1中所述。

如实施例13所述进行5'衔接子标签化和3'衔接子杂交步骤。

3'夹板连接衔接子是部分双链复合物，其产生用于UMI-ME'-B15与非转移链之间连接的夹板(图16)。3'夹板连接衔接子的每条链形成衔接子的两个部分之一，并且每条链长约50个核苷酸。衔接子的两个部分是夹板(参见图16，3'夹板连接衔接子，底部链)和尾(参见图16，3'夹板连接衔接子，顶部链)。衔接子夹板部分从5'至3'含有以下区域：ME、UMI'、ME'、截短的A14'。ME和A14'序列均可被截短以提高期望的杂交特异性并降低衔接子寡核苷酸成本。例如，ME被截短以防止与5'至3'衔接子结合所需的完整ME'序列的分子内杂交。衔接子尾部分通过UMI和ME序列与衔接子夹板部分杂交，这可通过稳定5'衔接子与3'衔接子之间的杂交来提高效率。衔接子尾部分从5'至3'含有以下区域：UMI、ME'和B15。衔接子尾部分没有被截短。将靶DNA的非转移链延伸到衔接子尾部的5'端，并如根据实施例14所述的连接步骤所指定的那样进行连接。

使用标准测序方法(如实施例2所述和图3B和图20所示)，该实施例的文库可在读段2开始时或读段1结束时，分别在插入DNA之前和之前进行测序。

实施例15b.使用3'夹板连接衔接子制备用于测序的DNA文库

该实施例描述了用于制备具有串联UMI的DNA测序文库的非对称标签化BLT方法，其中UMI在标签化后掺入(图16)。使用3'夹板连接衔接子掺入UMI。该实施例描述了如实施例15a所提供的方法，但具有以下修改。

3'夹板连接衔接子如以上实施例15a所述，但具有以下修改。衔接子夹板部分从5'至3'含有以下区域：X、UMI'、ME'。与实施例15a的夹板部分相比，该实施例中的夹板部分不含A14'，因此3'夹板衔接子可促进珠上3'衔接子添加。X序列是3’TruSeq^TM衔接子序列的一部分，可将其截短以提高期望的杂交特异性并降低衔接子寡核苷酸成本。衔接子尾部分从5'至3'含有以下区域：UMI、X'和B15。

使用标准测序方法(如实施例2所述和图3B和图20所示)对该实施例的文库进行测序，但具有以下修改—需要定制读段2引物。

实施例16a.使用3'模板转换寡核苷酸制备用于测序的DNA文库

该实施例描述了用于制备具有串联UMI的DNA测序文库的非对称标签化BLT方法，其中UMI在标签化后掺入(图17)。3'模板转换寡核苷酸用于掺入UMI。

材料如实施例1中所述。

3'模板转换寡核苷酸长约70个核苷酸，并且从5'至3'含有以下区域：B15'、ME或X、UMI'、ME'和A14'。

如实施例13所述进行5'衔接子标签化和3'衔接子杂交步骤。杂交后，用能够进行DNA指导的模板转换的聚合酶，诸如鼠白血病病毒(MMLV)逆转录酶进行延伸。将非转移链延伸以拷贝转移链的5'端9个核苷酸。当到达模板转换接合点(图17中的**)时，聚合酶可从使用非转移的DNA链作为模板转换到3'模板转换寡核苷酸。以这种方式，从3'模板转换寡核苷酸拷贝UMI、ME'/X'和B15序列。

实施例16b.使用3'模板转换寡核苷酸制备用于测序的DNA文库

该实施例描述了用于制备具有串联UMI的DNA测序文库的非对称标签化BLT方法，其中UMI在标签化后掺入(图17)。3'模板转换寡核苷酸用于掺入UMI。该实施例描述了如实施例16a所提供的方法，其中在3'模板转换寡核苷酸中具有以下修饰。

3'模板转换寡核苷酸的A14'序列被截短或消除以促进3'模板转换寡核苷酸的珠上添加。

实施例16c.使用5’单链聚合酶模板转换寡核苷酸制备用于测序的DNA文库

该实施例描述了用于制备具有串联UMI的DNA测序文库的非对称标签化BLT方法，其中UMI在标签化后掺入(图18A-D)。5'聚合酶模板转换寡核苷酸用于掺入UMI。

材料如实施例1中所述。循环肿瘤DNA(ctDNA)用作靶DNA。

5'单链聚合酶模板转换寡核苷酸是从5'至3'具有以下区域的5'衔接子：B15、X和UMI(图18B)。

如实施例13所述进行标签化和衔接子杂交步骤(图18A-B)。在该实施例中，将5'衔接子附加到ME的5'上(图18B)。

然后，使用聚合酶模板转换将5'衔接子添加到DNA插入物上。聚合酶从使用插入DNA作为模板转换为使用附加的5'衔接子作为模板(图18C)。延伸完成后，B15、X和UMI序列与插入DNA的3'端融合，并可用作PCR反应中的模板以添加附加的流通池和样品索引衔接子元件(图18D)。

使用标准测序方法(如实施例2所述)对该实施例的文库进行测序。X区域用于延伸B15区域，以便在不存在ME的情况下达到用于从B15测序的合适Tm。

实施例16d.使用5'双链衔接子、聚合酶延伸和邻近连接制备用于测序的DNA文库

该实施例描述了用于制备具有串联UMI的DNA测序文库的非对称标签化BLT方法，其中UMI在标签化后掺入(图19A-D)。5'双链衔接子用于掺入UMI。

材料如实施例1中所述。循环肿瘤DNA(ctDNA)用作靶DNA。

在该实施例中，5'双链衔接子在其第一链上从5'至3'含有以下区域：B15、X和UMI。第二链含有互补序列，此处从5'至3'列出：UMI'、X'和B15'。当5'磷酸存在于5'衔接子的第二链上时，标签化衔接子上的ME'去磷酸化以防止ME'与5'衔接子连接(图19B)。

如实施例13所述进行标签化和衔接子杂交步骤(图19A-B)。将5'衔接子附加到ME的5'上(图19B)。在衔接子杂交期间，5'衔接子的第一链和第二链混合以形成双链。此外，将标签化衔接子上的ME'去磷酸化以防止与5'衔接子连接(图19B)。

然后，使用聚合酶诸如T4 DNA pol Exo-(New England BioLabs，目录号M0203S)或Ttaq608，从初始转座反应开始延伸跨过缺口(图19C)。Taq聚合酶或任何前述聚合酶的突变体、类似物或衍生物也可替代地用于该步骤中。所用的聚合酶缺乏链置换或核酸外切酶活性。缺口延伸终止于与ME'的接合点处。

然后，在3'延伸产物与5'衔接子的第二链之间发生邻近连接步骤(图19C)。

使用标准测序方法(如实施例2所述)对该实施例的文库(图19D)进行测序。X区域用于延伸B15区域，以便在不存在ME的情况下达到用于从B15测序的合适Tm。由于插入物的质量和可变插入物长度，读段更可能在读段2开始时被捕获。

实施例17.用于检测低频变体的DNA文库的制备

该实施例描述了用于制备用于检测低频单核苷酸变体(SNV)和结构变体(SV)的DNA测序文库的非对称标签化BLT方法。

使用上述实施例7所述的方法制备第一DNA文库。使用TruSeq^TM方法制备第二DNA文库。

使用含有特定量(即2％、0.5％和0.2％)的SNV和SV的DNA。

等同内容

上述书面说明书被认为足以使得本领域的技术人员能够实践实施方案。上述详细描述和实施例详述了某些实施方案，并且描述了发明人所设想的最佳模式。然而，应当理解，无论前述内容在文本中可能描述得多么详尽，该实施方案都可以多种方式实践，并且应当根据所附权利要求及所附权利要求的任何等同条款来解释。

如本文所用，术语“约”是指数值，包括例如整数、分数和百分比，无论是否明确指出。术语“约”通常是指本领域普通技术人员将认为等于所列举的值(例如，具有相同的功能或结果)的数值范围(例如，所列举范围的+/-5-10％)。当术语诸如“至少”和“约”在数值或范围的列表之前时，该术语修饰列表中提供的所有值或范围。在一些情况下，术语“约”可包括四舍五入到最近有效数字的数值。

序列表

<110> ILLUMINA公司（Illumina, Inc.）

ILLUMINA剑桥有限公司（Illumina Cambridge Limited）

<120> 使用基于转座子的技术与用于误差校正的独特分子标识符制备定向标签化测序

文库的方法

<130> 01243-0024-00PCT

<150> US 63/168,802

<151> 2021-03-31

<160> 15

<170> PatentIn 3.5版

<210> 1

<211> 33

<212> DNA

<213> 人工序列（Artificial Sequence）

<220>

<223> 示例性A14-ME

<400> 1

tcgtcggcag cgtcagatgt gtataagaga cag 33

<210> 2

<211> 34

<212> DNA

<213> 人工序列（Artificial Sequence）

<220>

<223> 示例性B15-ME

<400> 2

gtctcgtggg ctcggagatg tgtataagag acag 34

<210> 3

<211> 19

<212> DNA

<213> 人工序列（Artificial Sequence）

<220>

<223> 示例性ME';

<400> 3

ctgtctctta tacacatct 19

<210> 4

<211> 14

<212> DNA

<213> 人工序列（Artificial Sequence）

<220>

<223> 示例性A14

<400> 4

tcgtcggcag cgtc 14

<210> 5

<211> 15

<212> DNA

<213> 人工序列（Artificial Sequence）

<220>

<223> 示例性B15

<400> 5

gtctcgtggg ctcgg 15

<210> 6

<211> 19

<212> DNA

<213> 人工序列（Artificial Sequence）

<220>

<223> 示例性ME

<400> 6

agatgtgtat aagagacag 19

<210> 7

<211> 15

<212> DNA

<213> 人工序列（Artificial Sequence）

<220>

<223> 示例性A2

<400> 7

tcactcaaga acagc 15

<210> 8

<211> 29

<212> DNA

<213> 人工序列（Artificial Sequence）

<220>

<223> 示例性A14-A2定制UMI 1读段

<400> 8

tcgtcggcag cgtctcactc aagaacagc 29

<210> 9

<211> 50

<212> DNA

<213> 人工序列（Artificial Sequence）

<220>

<223> 用于插入物1读段的示例性A14-A2-间隔子-ME定制UMI桥接引物

<220>

<221> misc_feature

<222> (30)..(31)

<223> n是18个原子的六乙二醇间隔子

<400> 9

tcgtcggcag cgtctcactc aagaacagcn nagatgtgta taagagacag 50

<210> 10

<211> 30

<212> DNA

<213> 人工序列（Artificial Sequence）

<220>

<223> 示例性A2'-B15'定制i7读段

<400> 10

gctgttcttg agtgaccgag cccacgagac 30

<210> 11

<211> 29

<212> DNA

<213> 人工序列（Artificial Sequence）

<220>

<223> 示例性A2'-A14'定制i5读段

<400> 11

gctgttcttg agtgagacgc tgccgacga 29

<210> 12

<211> 30

<212> DNA

<213> 人工序列（Artificial Sequence）

<220>

<223> 示例性B15-A2定制UMI 2读段

<400> 12

gtctcgtggg ctcggtcact caagaacagc 30

<210> 13

<211> 51

<212> DNA

<213> 人工序列（Artificial Sequence）

<220>

<223> 用于插入物2

读段的示例性B15-A2-间隔子-ME定制桥接引物

<220>

<221> misc_feature

<222> (31)..(32)

<223> n是18个原子的六乙二醇间隔子

<400> 13

gtctcgtggg ctcggtcact caagaacagc nnagatgtgt ataagagaca g 51

<210> 14

<211> 28

<212> DNA

<213> 人工序列（Artificial Sequence）

<220>

<223> 示例性P5寡核苷酸（UDI/Nextera索引引物）

<400> 14

aatgatacgg cgaccaccga gactacac 28

<210> 15

<211> 24

<212> DNA

<213> 人工序列（Artificial Sequence）

<220>

<223> P7寡核苷酸（UDI/Nextera索引引物）

<220>

<221> misc_feature

<222> (22)..(22)

<223> g可以是经修饰的鸟嘌呤

<400> 15

caagcagaag acggcatacg agat 24

Claims

1.一种产生双链核酸文库的方法，其中所述文库中的每个片段包含独特分子标识符(UMI)，其中所述方法包括：

a.将包含双链靶核酸的样品施加到第一转座体复合物，所述第一转座体复合物包含：

i.第一转座酶，

ii.包含第一3'端转座子末端序列、第一衔接子序列和第一UMI的第一转座子，和

iii.包含与所述第一3'端转座子末端序列全部或部分互补的序列的第二转座子；

b.将所述双链靶核酸用所述第一转座体复合物标签化以产生标签化双链靶核酸片段，其中每个标签化双链靶核酸片段包含所述第一衔接子序列和所述第一UMI，

c.从所述第一转座体复合物释放所述标签化双链靶核酸片段，

d.任选地使所述标签化双链靶核酸片段延伸，

e.任选地将所述第一转座子与所述标签化双链靶核酸片段或与经延伸的标签化双链靶核酸片段连接，

f.产生标签化双链靶核酸片段，以及

g.扩增所述标签化双链靶核酸片段。

2.根据权利要求1所述的方法，其中所述第一转座子中的所述第一UMI位于所述第一衔接子序列与所述第一3'转座子末端序列之间。

3.根据权利要求1或2所述的方法，其中所述第一转座子中的所述第一衔接子序列位于所述第一UMI与所述第一3'转座子末端序列之间。

4.根据权利要求1-3中任一项所述的方法，还包括第二转座体复合物，所述第二转座体复合物包含：

a.第二转座酶，

b.包含第二衔接子序列和第二3'转座子末端序列的第三转座子，和

c.包含与所述第二3’端转座子末端序列全部或部分互补的序列的第四转座子。

5.根据权利要求4所述的方法，其中所述标签化步骤产生标签化双链靶核酸片段，所述标签化双链靶核酸片段包含：

a.包含所述第一衔接子序列和所述第一UMI的第一链，和

b.包含所述第二衔接子序列的第二链。

6.根据权利要求4或5所述的方法，其中

a.所述第三转座子还包含第二UMI，并且

b.所述第二衔接子序列位于所述第二UMI与所述第二3'转座子末端序列之间。

7.根据权利要求6所述的方法，其中所述标签化步骤产生双链靶核酸片段，所述双链靶核酸片段包含：

a.包含所述第一衔接子序列和所述第一UMI的第一链，和

b.包含所述第二衔接子序列和所述第二UMI的第二链。

8.一种产生双链核酸文库的方法，其中所述文库中的每个片段包含UMI，其中所述方法包括：

a.将包含双链靶核酸的样品施加到转座体复合物，所述转座体复合物包含：

i.转座酶，

ii.包含第一3’端转座子末端序列和第一衔接子序列的第一转座子，和

b.将所述双链靶核酸的第一链用所述转座体复合物标签化以产生标签化双链靶核酸片段，其中每个标签化双链靶核酸片段包含所述第一衔接子序列，

c.从所述转座体复合物释放所述标签化双链靶核酸片段，

d.使包含第二衔接子序列的多核苷酸、UMI和与所述第一3'端转座子序列全部或部分互补的序列杂交，

e.任选地使所述标签化双链靶核酸片段的第二链延伸，

f.任选地将所述多核苷酸与所述标签化双链靶核酸片段或与经延伸的标签化双链靶核酸片段连接，

g.产生包含所述UMI的标签化双链靶核酸片段，其中所述UMI直接位于插入DNA的3’端附近，以及

h.扩增包含所述UMI的所述标签化双链靶核酸片段。

9.一种产生双链核酸文库的方法，其中所述文库中的每个片段包含UMI，其中所述方法包括：

i.转座酶，

c.从转座体复合物释放所述标签化双链靶核酸片段，

d.使包含UMI的第一多核苷酸和第二衔接子序列杂交，

e.任选地添加包含与所述第一多核苷酸互补的区域的第二多核苷酸以产生双链衔接子，

f.任选地使所述标签化双链靶核酸片段的第二链延伸，

g.任选地将所述第二多核苷酸与经延伸的标签化双链靶核酸片段的所述第二链连接，

h.产生包含所述UMI的标签化双链靶核酸片段，其中所述UMI位于所述双链靶核酸片段与所述第二衔接子序列之间，以及i.扩增包含所述UMI的所述标签化双链靶核酸片段。

10.根据权利要求9所述的方法，其中在所述杂交步骤之后，所述方法还包括

a.使所述双链靶核酸片段的第二链延伸，以及

b.拷贝所述第一多核苷酸。

11.一种产生双链核酸文库的方法，其中所述文库中的每个片段包含两个不同的UMI，其中所述方法包括：

a.将包含双链靶核酸的样品施加到：

i.第一转座体复合物，所述第一转座体复合物包含：

1.第一转座酶和

2.第一叉形衔接子，所述第一叉形衔接子包含(a)在所述双链靶核酸片段的第一链上的第一转座子，和(b)第二转座子，其中

所述第一转座子包含第一3'端转座子末端序列、第一衔接子序列的第一拷贝和第一UMI，并且

所述第二转座子包含第二衔接子序列的第一拷贝、和与所述第一3'端转座子末端序列全部或部分互补的序列以及所述第一UMI；

此外其中所述第一衔接子序列的所述第一拷贝是单链的，并且所述第二衔接子序列的所述第一拷贝包括双链部分；以及

ii.第二转座体复合物，所述第二转座体复合物包含：

1.第二转座酶和

2.第二叉形衔接子，所述第二叉形衔接子包含(a)在所述双链靶核酸片段的第二链上的第三转座子，和(b)第四转座子，其中

所述第三转座子包含第二3'端转座子末端序列、所述第一衔接子序列的第二拷贝和第二UMI，并且

所述第三转座子包含所述第二衔接子序列的第二拷贝、和与所述第二3'端转座子末端序列全部或部分互补的序列以及所述第二UMI；

此外其中所述第一衔接子序列的所述第二拷贝是单链的，并且所述第二衔接子序列的所述第二拷贝包括双链部分；

b.将所述双链靶核酸用所述叉形衔接子标签化以产生标签化双链靶核酸片段，其中每个标签化双链靶核酸片段包含所述第一衔接子序列的所述第一拷贝和所述第二拷贝、所述第一UMI、所述第二衔接子序列的所述第一拷贝和所述第二拷贝以及所述第二UMI，

c.从所述转座体复合物释放所述标签化双链靶核酸片段，

d.任选地使所述标签化双链靶核酸片段延伸，

e.将所述第二转座子和所述第四转座子与所述双链靶核酸片段或与经延伸的标签化双链靶核酸片段连接，

f.产生标签化双链靶核酸片段，以及

g.扩增所述标签化双链靶核酸片段。

12.一种产生双链核酸文库的方法，其中所述文库中的每个片段包含四个不同的UMI，其中所述方法包括：

a.将包含双链靶核酸的样品施加到：

i.第一转座体复合物，所述第一转座体复合物包含：

1.第一转座酶和

所述第一转座子包含第一3'端转座子末端序列、第一衔接子序列的第一拷贝、第一UMI的第一拷贝和第二衔接子序列的第一拷贝，并且

所述第二转座子包含与所述第一3'端转座子末端序列全部或部分互补的序列、第三衔接子序列的第一拷贝、第二UMI的第一拷贝和第四衔接子序列；

此外其中所述第一衔接子序列、所述第二衔接子序列和所述第三衔接子序列的所述第一拷贝是单链的，并且所述第四衔接子序列包括双链部分；以及

ii.第二转座体复合物，所述第二转座体复合物包含：

1.第二转座酶和

所述第三转座子包含第二3'端转座子末端序列、第五衔接子序列的第一拷贝、第三UMI的第一拷贝和第六衔接子序列的第一拷贝；

所述第四转座子包含与所述第二3'端转座子末端序列全部或部分互补的序列、第七衔接子序列的第一拷贝、第四UMI的第一拷贝和第八衔接子序列；

此外其中所述第五衔接子序列、所述第六衔接子序列和所述第七衔接子序列的所述第一拷贝是单链的，并且所述第八衔接子序列包括双链部分；

b.将所述双链靶核酸用所述叉形衔接子标签化以产生标签化双链靶核酸片段，其中每个标签化双链靶核酸片段包含所述第一衔接子序列、所述第二衔接子序列、所述第三衔接子序列、所述第五衔接子序列、所述第六衔接子序列和所述第七衔接子序列的所述第一拷贝；所述第一UMI、所述第二UMI、所述第三UMI和所述第四UMI的所述第一拷贝；所述第六衔接子序列；以及所述第八衔接子序列，

c.从所述转座体复合物释放所述标签化双链靶核酸片段，

d.任选地使所述标签化双链靶核酸片段延伸，

f.产生标签化双链靶核酸片段，以及

g.扩增所述标签化双链靶核酸片段。

13.根据权利要求6、7、11或12中任一项所述的方法，其中所述第一UMI、所述第二UMI、所述第三UMI和所述第四UMI可以是互补的或不同的序列。

14.根据权利要求1-13中任一项所述的方法，其中所述双链靶核酸是双链DNA。

15.根据权利要求1-13中任一项所述的方法，其中所述双链靶核酸是ctDNA。

16.根据权利要求1-13中任一项所述的方法，其中所述双链靶核酸是cfDNA。

17.根据权利要求1-13中任一项所述的方法，其中所述双链靶核酸是RNA。

18.根据权利要求1-13中任一项所述的方法，其中所述双链靶核酸是cDNA或由RNA生成的DNA:RNA双链体。

19.根据权利要求1-18中任一项所述的方法，其中所述第一衔接子序列是5'第一读段测序衔接子序列。

20.根据权利要求1-19中任一项所述的方法，其中所述第二衔接子序列是5'第二读段测序衔接子序列。

21.根据权利要求1-20中任一项所述的方法，其中所述第一衔接子序列和所述第二衔接子序列是5'第一读段测序衔接子序列和5'第二读段测序衔接子序列。

22.根据权利要求1-21中任一项所述的方法，其中所述5'第一读段测序衔接子序列和所述5'第二读段测序衔接子序列包含独特引物结合位点。

23.根据权利要求1、2、4-8或13-22中任一项所述的方法，其中所述第一UMI在所述标签化双链靶核酸片段的所述第一链上。

24.根据权利要求1、3、5-7、13-22中任一项所述的方法，其中所述第一UMI的第一拷贝在所述标签化双链靶核酸片段的所述第一链上并且所述第一UMI的第二拷贝在所述标签化双链靶核酸片段的所述第二链上。

25.根据权利要求1-7、13-22中任一项所述的方法，其中所述第一UMI在所述标签化双链靶核酸片段的所述第一链上，所述第二UMI在所述标签化双链靶核酸片段的所述第二链上。

26.根据权利要求1-25中任一项所述的方法，其中所述第一转座子、所述第二转座子、所述第三转座子或所述第四转座子还包含生物素标签。

27.根据权利要求1-26中任一项所述的方法，其中所述第一转座子、所述第二转座子、所述第三转座子或所述第四转座子还包含第一独特引物结合序列。

28.根据权利要求27所述的方法，其中所述第一转座子、所述第二转座子、所述第三转座子或所述第四转座子还包含第二独特引物结合序列。

29.根据权利要求27或28所述的方法，其中所述独特引物结合序列包含A2、A14和/或B15。

30.根据权利要求8-10或14-22中任一项所述的方法，其中所述杂交步骤生成叉形衔接子。

31.根据权利要求1-30中任一项所述的方法，还包括从所述双链靶核酸片段的3'端延伸到所述转座子的5'端。

32.根据权利要求1-7或11-31中任一项所述的方法，其中所述连接步骤包括将所述标签化双链靶核酸片段的3'端或经延伸的标签化双链靶核酸片段的3'端与所述第一转座子、所述第二转座子或所述第四转座子的5'端连接。

33.根据权利要求1-32中任一项所述的方法，其中所述延伸和/或连接步骤任选地在延伸连接混合物中进行。

34.根据权利要求8、15-22、26-33中任一项所述的方法，其中所述多核苷酸包含3’衔接子，所述3’衔接子包含：

a.发夹UMI，

b.发夹UMI和通用杂交尾，

c.夹板连接衔接子，或

d.3'模板转换寡核苷酸。

35.根据权利要求34所述的方法，其中所述发夹UMI在所述延伸步骤和/或所述连接步骤期间是稳定的，但在所述扩增步骤期间不是稳定的。

36.根据权利要求34或35所述的方法，其中所述发夹UMI包含3或4个碱基对的茎。

37.根据权利要求34-36中任一项所述的方法，其中所述通用杂交尾包含能够与任何DNA核苷酸结合的核苷酸。

38.根据权利要求34-37中任一项所述的方法，其中所述连接步骤包括将所述标签化双链靶核酸片段的所述第二链的3'端与所述通用杂交尾的5'端连接。

39.根据权利要求34所述的方法，其中

a.所述多核苷酸包含含有发夹UMI的3'衔接子，并且

b.所述延伸步骤包括从所述标签化双链靶核酸片段的所述第二链的3'端延伸到所述发夹UMI的5'端。

40.根据权利要求39所述的方法，其中所述连接步骤包括将经延伸的标签化双链靶核酸片段的所述第二链的所述3'端与所述发夹UMI的所述5'端连接。

41.根据权利要求34所述的方法，其中

a.所述多核苷酸包含夹板连接衔接子，并且

b.所述延伸步骤包括从所述标签化双链靶核酸片段的所述第二链的3'端延伸到所述夹板连接衔接子的5'端。

42.根据权利要求41所述的方法，其中所述延伸步骤包括延伸9个碱基。

43.根据权利要求41或42所述的方法，其中所述连接步骤包括将经延伸的标签化双链靶核酸片段的所述第二链的所述3'端与所述夹板连接衔接子的第一链的5'端连接。

44.根据权利要求34中任一项所述的方法，其中

a.所述多核苷酸包含模板转换寡核苷酸，并且

b.所述延伸步骤包括通过拷贝所述标签化双链靶核酸片段的所述第一链，从所述标签化双链靶核酸片段的所述第二链的3'端延伸到所述模板转换寡核苷酸中的接合点，

c.将模板从所述第一链转换到所述3'模板转换寡核苷酸的未配对区域，以及

d.将所述3'模板转换寡核苷酸的所述未配对区域从所述连接点拷贝到所述3'模板转换寡核苷酸的所述未配对区域的5'端。

45.根据权利要求44所述的方法，其中所述延伸、所述转换和所述拷贝是通过能够进行DNA指导的模板转换的聚合酶进行的。

46.根据权利要求44或45所述的方法，其中所述能够进行DNA指导的模板转换的聚合酶包括MMLV逆转录酶。

47.根据权利要求1-33中任一项所述的方法，其中所述连接步骤包括将所述标签化双链靶核酸片段的3'端与第一转座子、第二转座子或第四转座子的5'端连接。

48.根据权利要求1-33或47中任一项所述的方法，还包括在所述扩增步骤之后选择在一定尺寸范围内的扩增核酸片段。

49.根据权利要求1-48中任一项所述的方法，其中所述扩增步骤包括将寡核苷酸添加到所述标签化双链靶核酸片段的一端或两端用于将所述文库附接到固体载体。

50.根据权利要求1-49中任一项所述的方法，其中所述扩增步骤包括添加至少第一读段测序寡核苷酸和/或第二读段测序寡核苷酸。

51.根据权利要求1-50中任一项所述的方法，其中所述扩增步骤包括添加至少P5寡核苷酸和P7寡核苷酸。

52.根据权利要求1-51中任一项所述的方法，其中所述扩增步骤包括添加至少多种i5寡核苷酸和多种i7寡核苷酸。

53.根据权利要求1-52中任一项所述的方法，其中所述转座体复合物、所述第一转座体复合物和/或所述第二转座体复合物在固体载体上。

54.根据权利要求1-53中任一项所述的方法，其中所述转座体复合物、所述第一转座体复合物和/或所述第二转座体复合物在溶液中。

55.一种对双链核酸文库进行测序的方法，所述双链核酸文库通过根据权利要求1-54中任一项所述的方法产生，其中对所述UMI进行测序以在DNA测序中提供增加的灵敏度。

56.根据权利要求55所述的方法，包括结合具有类似解链温度的测序引物。

57.根据权利要求55或56所述的方法，包括结合测序引物，所述结合测序引物包含与独特引物结合序列全部或部分互补的序列。

58.根据权利要求55-57中任一项所述的方法，包括具有至少A2序列的测序引物。

59.根据权利要求55-57中任一项所述的方法，包括具有至少A14序列和B15序列的测序引物。

60.根据权利要求55-59中任一项所述的方法，包括具有至少桥接引物的测序引物。

61.根据权利要求55-60中任一项所述的方法，还包括暗循环，其中对于所述测序方法的一部分不记录数据。

62.根据权利要求55-60中任一项所述的方法，其中未被记录的所述数据是与所述3’转座子末端序列相关的序列数据。

63.根据权利要求55-60中任一项所述的方法，其中所述方法避免了对暗循环的需要。

64.根据权利要求1或9所述的方法，其中所述延伸步骤包括用以拷贝所述UMI或所述第一UMI以产生双链体UMI的聚合酶。

65.一种转座体复合物，包含：

a.转座酶，

b.包含3’转座子末端序列和5’衔接子序列的第一转座子，和

c.包含与所述第一3’端转座子末端序列全部或部分互补的序列的第二转座子。

66.根据权利要求65的转座体复合物，其中所述第一转座子的所述5'衔接子序列包含A14序列(SEQ ID NO:4)、A2序列(SEQ ID NO:7)和/或B15序列(SEQ ID NO:5)。

67.根据权利要求65或66所述的转座体复合物，其中所述第一转座子还包含UMI序列。

68.根据权利要求65-67中任一项所述的转座体复合物，其中所述第一转座子或所述第二转座子包含A14-ME(SEQ ID NO:1)。

69.根据权利要求65-67中任一项所述的转座体复合物，其中所述第一转座子或所述第二转座子包含B15-ME(SEQ ID NO:2)。

70.根据权利要求65-67中任一项所述的转座体复合物，其中所述第一转座子的所述3'转座子末端序列包含ME(SEQ ID NO:6)或ME'(SEQ ID NO:3)。

71.根据权利要求65-67中任一项所述的转座体复合物，其中所述第二转座子的所述3'转座子末端序列包含ME(SEQ ID NO:6)或ME'(SEQ ID NO:3)。

72.根据权利要求67所述的转座体复合物，其中所述第二转座子还包含3'衔接子序列，其中

所述第二转座子的所述3'衔接子序列与所述第一转座子的所述5'衔接子序列部分或完全互补。

73.根据权利要求67所述的转座体复合物，其中所述第二转座子还包含3'衔接子序列，其中

所述第二转座子的所述3’衔接子序列没有哪个部分与所述第一转座子的所述5’衔接子序列互补。

74.根据权利要求72或73所述的转座体复合物，其中所述第二转座子的所述3'衔接子序列包含A14序列(SEQ ID NO:4)、A2序列(SEQ ID NO:7)、B15序列(SEQ ID NO:5)、X序列、Y'序列、A序列和/或B序列。

75.根据权利要求72或74所述的转座体复合物，其中所述第二转座子还包含与所述第一转座子的所述UMI序列互补的序列。

76.根据权利要求73或74所述的转座体复合物，其中所述第二转座子还包含UMI，其中所述第二转座子的所述UMI包含与所述第一转座子的所述UMI不同的序列。

77.根据权利要求75或76所述的转座体复合物，还包含与所述B15序列或所述A14序列互补的寡核苷酸。

78.根据权利要求76所述的转座体复合物，还包含：

a.与所述A14序列相邻的A衔接子序列，

b.与所述B15序列相邻的B衔接子序列，

c.与所述ME序列相邻的X衔接子序列，和/或

d.与所述ME’序列相邻的Y'衔接子序列。

79.根据权利要求65-78中任一项所述的转座体复合物，其中所述转座体复合物经由所述第一转座子或所述第二转座子固定到固体载体。

80.根据权利要求77所述的转座体复合物，其中所述转座体复合物经由所述互补寡核苷酸固定到固体载体。

81.根据权利要求79或80所述的转座体复合物，其中所述固体载体是小珠。

82.一种试剂盒，所述试剂盒包括根据权利要求65-81中任一项所述的转座体复合物。

83.一种试剂盒，所述试剂盒用于生成根据权利要求65-81中任一项所述的转座体复合物。