CN118019843A

CN118019843A - Ii类v型crispr系统

Info

Publication number: CN118019843A
Application number: CN202280060974.1A
Authority: CN
Inventors: 布莱恩·C·托马斯; 克利斯多佛·布朗; 辛迪·卡斯泰勒; 利萨·亚历山大; 利利安娜·冈萨雷斯-奥索里奥; 保拉·马瑟斯卡尔内瓦利; 多姆·卡斯坦佐
Original assignee: Macrogenomics
Current assignee: Macrogenomics
Priority date: 2021-09-08
Filing date: 2022-09-06
Publication date: 2024-05-10
Also published as: WO2023039377A1; US20250002881A1; EP4399290A1

Abstract

本文中描述了可用于基因编辑的衍生自未培养的微生物的方法、组合物和系统。

Description

II类V型CRISPR系统

相关申请交叉引用

本申请要求2021年9月8日提交的名称为“II类V型CRISPR系统(CLASS II、TYPE VCRISPR SYSTEMS)”的美国临时申请第63/241,932号的权益，该申请通过引用以其整体并入本文。

背景技术

Cas酶以及其相关的成簇的规则间隔的短回文重复序列(CRISPR)向导核糖核酸(RNA)似乎是原核免疫系统的普遍组分(约45％的细菌，约84％的古细菌)，用于通过CRISPR-RNA引导的核酸切割来保护此类微生物免受非自身核酸的侵害，如传染性病毒和质粒。虽然编码CRISPR RNA元件的脱氧核糖核酸(DNA)元件在结构和长度上可能相对保守，但其CRISPR相关(Cas)蛋白是高度多样化的，含有多种核酸相互作用结构域。虽然早在1987年就观察到CRISPR DNA元件，但CRISPR/Cas复合物的可编程核酸内切酶切割能力直到最近才被认识到，从而引起重组CRISPR/Cas系统在各种DNA操纵和基因编辑应用中的使用。

发明内容

在一些方面，本公开提供了一种工程化的核酸酶系统，其包括：(a)核酸内切酶，所述核酸内切酶包括RuvC结构域，其中所述核酸内切酶衍生自未培养的微生物，并且其中所述核酸内切酶不是Cas12a核酸内切酶；以及(b)工程化的向导RNA，其中所述工程化的向导RNA被配置成与所述核酸内切酶形成复合物，并且所述工程化的向导RNA包括被配置成与靶核酸序列杂交的间隔子序列。在一些方面，本公开提供了一种工程化的核酸酶系统，其包括：(a)核酸内切酶，所述核酸内切酶与SEQ ID NO:1-15中的任一者或其变体具有至少75％序列同一性；以及(b)工程化的向导RNA，其中所述工程化的向导RNA被配置成与所述核酸内切酶形成复合物，并且所述工程化的向导RNA包括被配置成与靶核酸序列杂交的间隔子序列。在一些实施方案中，所述核酸内切酶包括RuvCI、II或III结构域。在一些实施方案中，所述核酸内切酶与SEQ ID NO:1-15中的任一者或其变体的RuvCI、II或III结构域具有至少约20％、至少约25％、至少约30％、至少约35％、至少约40％、至少约45％、至少约50％、至少约55％、至少约60％、至少约65％、至少约70％、至少约75％、至少约80％、至少约85％、至少约90％、至少约91％、至少约92％、至少约93％、至少约94％、至少约95％、至少约96％、至少约97％、至少约98％、至少约99％同一性。在一些实施方案中，所述RuvCI结构域包括D催化残基。在一些实施方案中，所述RuvCII结构域包括E催化残基。在一些实施方案中，所述RuvCIII结构域包括D催化残基。在一些实施方案中，所述RuvC结构域不具有核酸酶活性。在一些实施方案中，所述核酸内切酶进一步包括与SEQ ID NO:1-15中的任一者或其变体的WED II结构域具有至少约20％、至少约25％、至少约30％、至少约35％、至少约40％、至少约45％、至少约50％、至少约55％、至少约60％、至少约65％、至少约70％、至少约75％、至少约80％、至少约85％、至少约90％、至少约91％、至少约92％、至少约93％、至少约94％、至少约95％、至少约96％、至少约97％、至少约98％、至少约99％同一性的WED II结构域。在一些实施方案中，所述向导RNA包括与SEQ ID NO:30-35中的任一者的非简并核苷酸具有至少80％序列同一性的序列。在一些方面，本公开提供了一种工程化的核酸酶系统，其包括：(a)工程化的向导RNA，所述工程化的向导RNA包括与SEQ ID NO:30-35中的任一者的非简并核苷酸具有至少80％序列同一性的序列，以及(b)2类V型Cas核酸内切酶，所述2类V型Cas核酸内切酶被配置成与所述工程化的向导RNA结合。在一些实施方案中，所述向导RNA包括与真核、真菌、植物、哺乳动物或人基因组多核苷酸序列互补的序列。在一些实施方案中，所述向导RNA的长度为30-250个核苷酸。在一些实施方案中，所述核酸内切酶包括接近核酸内切酶的N末端或C末端的一个或多个核定位序列(NLS)。在一些实施方案中，所述NLS包括与来自由SEQID NO:36-51组成的组的序列至少80％相同的序列。

在一些实施方案中，所述工程化的核酸酶系统进一步包括单链或双链DNA修复模板，所述单链或双链DNA修复模板从5'至3'包括：第一同源臂，所述第一同源臂包括位于所述靶脱氧核糖核酸序列的5'的至少20个核苷酸的序列；至少10个核苷酸的合成DNA序列；以及第二同源臂，所述第二同源臂包括位于靶序列的3'的至少20个核苷酸的序列。在一些实施方案中，所述第一同源臂或所述第二同源臂包括至少40个、80个、120个、150个、200个、300个、500个或1,000个核苷酸的序列。在一些实施方案中，所述第一同源臂或所述第二同源臂与原核生物、细菌、真菌或真核生物的基因组序列同源。在一些实施方案中，所述单链或双链DNA修复模板包括转基因供体。在一些实施方案中，所述工程化的核酸酶系统进一步包括包含侧接一个或两个单链DNA区段的双链DNA区段的DNA修复模板。在一些实施方案中，所述单链DNA区段与所述双链DNA区段的5'端缀合。在一些实施方案中，所述单链DNA区段与所述双链DNA区段的3'端缀合。在一些实施方案中，所述单链DNA区段的长度为4至10个核苷酸碱基。在一些实施方案中，所述单链DNA区段具有与间隔子序列内的序列互补的核苷酸序列。在一些实施方案中，双链DNA序列包括条形码、开放阅读框、增强子、启动子、蛋白质编码序列、miRNA编码序列、RNA编码序列或转基因。在一些实施方案中，双链DNA序列侧接核酸酶切割位点。在一些实施方案中，所述核酸酶切割位点包括间隔子和PAM序列。在一些实施方案中，所述系统进一步包括Mg²⁺的来源。在一些实施方案中，所述向导RNA包括包含至少8个、至少10个或至少12个碱基配对的核糖核苷酸的发夹。在一些实施方案中，所述发夹包括10个碱基配对的核糖核苷酸。在一些实施方案中：a)所述核酸内切酶包括与SEQ ID NO:1-3、11、13或15中的任一者或其变体至少75％、80％或90％相同的序列；并且b)所述向导RNA结构包括与SEQ ID NO:30-35中的任一者的非简并核苷酸至少80％或90％相同的序列。在一些实施方案中，所述序列同一性是通过BLASTP、CLUSTALW、MUSCLE、MAFFT算法或CLUSTALW算法使用史密斯-沃特曼同源性搜索算法参数来确定的。在一些实施方案中，所述序列同一性是通过BLASTP同源性搜索算法使用字长(W)为3、期望值(E)为10的参数以及BLOSUM62评分矩阵将空位罚分设置为存在为11，扩展为1并且使用条件组成评分矩阵调整来确定的。

在一些方面，本公开提供了一种工程化的向导RNA，其包括：a)DNA靶向区段，所述DNA靶向区段包括与靶DNA分子中的靶序列互补的核苷酸序列；以及b)蛋白质结合区段，所述蛋白质结合区段包括杂交以形成双链RNA(dsRNA)双链体的两个互补核苷酸延伸段，其中所述两个互补核苷酸延伸段与中间核苷酸彼此共价连接，并且其中所述工程化的向导核糖核酸多核苷酸能够与核酸内切酶形成复合物，所述核酸内切酶与SEQ ID NO:1-15中的任一者具有至少75％序列同一性，并将所述复合物靶向所述靶DNA分子的所述靶序列。在一些实施方案中，所述DNA靶向区段位于两个互补核苷酸延伸段中的两个互补核苷酸延伸段的3'处。在一些实施方案中，所述蛋白质结合区段包括与SEQ ID NO:30-35的非简并核苷酸具有至少70％、至少80％或至少90％同一性的序列。在一些实施方案中，所述双链RNA(dsRNA)双链体包括至少5个、至少8个、至少10个或至少12个核糖核苷酸。

在一些方面，本公开提供了一种脱氧核糖核酸多核苷酸，其编码本文所描述的工程化的向导核糖核酸多核苷酸。

在一些方面，本公开提供了一种核酸，其包括为在生物体中表达而优化的工程化的核酸序列，其中所述核酸编码2类V型Cas核酸内切酶，并且其中所述核酸内切酶衍生自未培养的微生物，其中所述生物体不是所述未培养的生物体。在一些实施方案中，所述核酸内切酶包括与SEQ ID NO:1-15中的任一者具有至少70％或至少80％序列同一性的变体。在一些实施方案中，所述核酸内切酶包括编码接近核酸内切酶的N末端或C末端的一个或多个核定位序列(NLS)的序列。在一些实施方案中，所述NLS包括选自SEQ ID NO:36-51的序列。在一些实施方案中，所述NLS包含SEQ ID NO:37。在一些实施方案中，所述NLS接近所述核酸内切酶的N末端。在一些实施方案中，所述NLS包含SEQ ID NO:36。在一些实施方案中，所述NLS接近所述核酸内切酶的C末端。在一些实施方案中，所述生物体是原核生物、细菌、真核生物、真菌、植物、哺乳动物、啮齿动物或人。

在一些方面，本公开提供了一种工程化的载体，其包括编码2类V型Cas核酸内切酶的核酸序列，其中所述核酸内切酶衍生自未培养的微生物。

在一些方面，本公开提供了一种工程化的载体，其包括本文所描述的核酸。

在一些方面，本公开提供了一种工程化的载体，其包括本文所描述的脱氧核糖核酸多核苷酸。在一些实施方案中，所述载体是质粒、微环、CELiD、腺相关病毒(AAV)源性病毒体、慢病毒或腺病毒。

在一些方面，本公开提供了一种细胞，其包括本文所描述的载体。

在一些方面，本公开提供了一种产生核酸内切酶的方法，其包括培养本文所描述的宿主细胞中的任何宿主细胞。

在一些方面，本公开提供了一种用于结合、切割、标记或修饰双链脱氧核糖核酸多核苷酸的方法，其包括：(a)使所述双链脱氧核糖核酸多核苷酸与2类V型Cas核酸内切酶接触，所述2类V型Cas核酸内切酶与工程化的向导RNA复合，所述工程化的向导RNA被配置成与所述核酸内切酶和所述双链脱氧核糖核酸多核苷酸结合；其中所述双链脱氧核糖核酸多核苷酸包括原间隔子相邻基序(PAM)；并且其中所述向导RNA结构包括与SEQ ID NO:30-35中的任一者的非简并核苷酸至少80％或90％相同的序列。在一些实施方案中，所述双链脱氧核糖核酸多核苷酸包括第一链和第二链，所述第一链包括与所述工程化的向导RNA的序列互补的序列，并且所述第二链包括所述PAM。在一些实施方案中，所述PAM直接邻近与所述工程化的向导RNA的所述序列互补的序列的5'端。在一些实施方案中，所述2类V型Cas核酸内切酶衍生自未培养的微生物。在一些实施方案中，所述双链脱氧核糖核酸多核苷酸是真核生物、植物、真菌、哺乳动物、啮齿动物或人双链脱氧核糖核酸多核苷酸。

在一些方面，本公开提供了一种修饰靶核酸基因座的方法，所述方法包括向靶核酸基因座递送本文所描述的工程化的核酸酶系统，其中核酸内切酶被配置成与工程化的向导核糖核酸结构形成复合物，并且其中所述复合物被配置成使得在所述复合物与所述靶核酸基因座结合时，所述复合物修饰所述靶核酸基因座。在一些实施方案中，修饰所述靶核酸基因座包括结合、切开、切割或标记所述靶核酸基因座。在一些实施方案中，所述靶核酸基因座包括脱氧核糖核酸(DNA)或核糖核酸(RNA)。在一些实施方案中，所述靶核酸包括基因组DNA、病毒DNA、病毒RNA或细菌DNA。在一些实施方案中，所述靶核酸基因座在体外。在一些实施方案中，所述靶核酸基因座在细胞内。在一些实施方案中，所述细胞是原核细胞、细菌细胞、真核细胞、真菌细胞、植物细胞、动物细胞、哺乳动物细胞、啮齿动物细胞、灵长类动物细胞、人细胞或原代细胞。在一些实施方案中，所述细胞是原代细胞。在一些实施方案中，所述原代细胞是T细胞。在一些实施方案中，所述原代细胞是造血干细胞(HSC)。在一些实施方案中，将所述工程化的核酸酶系统递送到所述靶核酸基因座包括递送本文所描述的核酸或本文所描述的载体。在一些实施方案中，将所述工程化的核酸酶系统递送到所述靶核酸基因座包括递送包括编码所述核酸内切酶的开放阅读框的核酸。在一些实施方案中，所述核酸包括编码所述核酸内切酶的所述开放阅读框可操作地连接的启动子。在一些实施方案中，将所述工程化的核酸酶系统递送到所述靶核酸基因座包括递送含有编码所述核酸内切酶的所述开放阅读框的封端mRNA。在一些实施方案中，将所述工程化的核酸酶系统递送到所述靶核酸基因座包括递送翻译的多肽。在一些实施方案中，将所述工程化的核酸酶系统递送到所述靶核酸基因座包括递送编码与核糖核酸(RNA)pol III启动子可操作地连接的所述工程化的向导RNA的脱氧核糖核酸(DNA)。在一些实施方案中，所述核酸内切酶在所述靶基因座处或附近诱导单链断裂或双链断裂。在一些实施方案中，所述核酸内切酶诱导所述靶基因座内或与位于所述靶基因座3'处的交错的单链断裂。

在一些方面，本公开提供了一种宿主细胞，其包括编码与SEQ ID NO:1-15中的任一者或其变体具有至少75％序列同一性的异源性核酸内切酶的开放阅读框。在一些实施方案中，所述核酸内切酶与SEQ ID NO:1-3、11、13或15中的任一者或其变体具有至少75％的序列同一性。在一些实施方案中，所述宿主细胞是大肠杆菌细胞或哺乳动物细胞。在一些实施方案中，所述宿主细胞是大肠杆菌细胞。在一些实施方案中，所述大肠杆菌细胞是λDE3溶素原，或者所述大肠杆菌细胞是BL21(DE3)菌株。在一些实施方案中，所述大肠杆菌细胞具有ompT lon基因型。在一些实施方案中，所述开放阅读框与以下可操作地连接：T7启动子序列、T7-lac启动子序列、lac启动子序列、tac启动子序列、trc启动子序列、ParaBAD启动子序列、PrhaBAD启动子序列、T5启动子序列、cspA启动子序列、araP_BAD启动子、来自噬菌体λ的强向左启动子(pL启动子)或其任何组合。在一些实施方案中，所述开放阅读框包括编码使用相同读框与编码所述核酸内切酶的序列连接的亲和标签的序列。在一些实施方案中，所述亲和标签是固定化金属亲和色谱法(IMAC)标签。在一些实施方案中，所述IMAC标签是聚组氨酸标签。在一些实施方案中，所述亲和标签是myc标签、人流感血凝素(HA)标签、麦芽糖结合蛋白(MBP)标签、谷胱甘肽S-转移酶(GST)标签、链霉亲和素标签、FLAG标签或其任何组合。在一些实施方案中，所述亲和标签通过编码蛋白酶切割位点的接头序列使用相同读框与编码所述核酸内切酶的所述序列连接。在一些实施方案中，所述蛋白酶切割位点是烟草蚀纹病毒(TEV)蛋白酶切割位点、蛋白酶切割位点、凝血酶切割位点、因子Xa切割位点、肠激酶切割位点或其任何组合。在一些实施方案中，所述开放阅读框被密码子优化以用于在所述宿主细胞中表达。在一些实施方案中，所述开放阅读框在载体上提供。在一些实施方案中，所述开放阅读框被整合到所述宿主细胞的基因组中。

在一些方面，本公开提供了一种培养物，其包括在相容性液体培养基中的本文所描述的宿主细胞中的任何宿主细胞。

在一些方面，本公开提供了一种产生核酸内切酶的方法，其包括在相容性生长培养基中培养本文所描述的宿主细胞中的任何宿主细胞。在一些实施方案中，所述方法进一步包括通过添加另外的化学剂或增加量的营养物来诱导所述核酸内切酶的表达。在一些实施方案中，另外的化学剂或增加量的营养物包括异丙基β-D-1-硫代半乳糖苷(IPTG)或另外量的乳糖。在一些实施方案中，所述方法进一步包括在所述培养之后分离所述宿主细胞，并且裂解所述宿主细胞以产生蛋白提取物。在一些实施方案中，所述方法进一步包括使所述蛋白提取物经受IMAC或离子亲和色谱法。在一些实施方案中，所述开放阅读框包含编码IMAC亲和标签的序列，所述IMAC亲和标签与编码所述核酸内切酶的序列框内连接。在一些实施方案中，所述IMAC亲和标签经由编码蛋白酶切割位点的接头序列与编码所述核酸内切酶的所述序列框内连接。在一些实施方案中，所述蛋白酶切割位点包括烟草蚀纹病毒(TEV)蛋白酶切割位点、蛋白酶切割位点、凝血酶切割位点、因子Xa切割位点、肠激酶切割位点或其任何组合。在一些实施方案中，所述方法进一步包括通过使对应于所述蛋白酶切割位点的蛋白酶与所述核酸内切酶接触来切割所述IMAC亲和标签。在一些实施方案中，所述方法进一步包括执行减材IMAC亲和色谱法以从包括所述核酸内切酶的组合物去除所述亲和标签。

在一些方面，本公开提供了一种破坏细胞中的基因座的方法，其包括使所述细胞与包括以下的组合物接触：(a)2类V型Cas核酸内切酶，所述2类V型Cas核酸内切酶与SEQ IDNO:1-15中的任一者或其变体具有至少75％同一性；以及(b)工程化的向导RNA，其中所述工程化的向导RNA被配置成与所述核酸内切酶形成复合物，并且所述工程化的向导RNA包括被配置成与所述基因座的区杂交的间隔子序列，其中所述2类V型Cas核酸内切酶具有与所述细胞中的spCas9至少等效的切割活性。在一些实施方案中，其中通过将所述核酸内切酶连同相容性向导RNA一起引入包括所述靶核酸的细胞并检测所述细胞中所述靶核酸序列的切割来体外测量所述切割活性。在一些实施方案中，所述组合物包括20pmole或更少的所述2类V型Cas核酸内切酶。在一些实施方案中，所述组合物包括1pmol或更少的所述2类V型Cas核酸内切酶。

对于本领域技术人员而言，通过以下具体实施方式，本公开的另外的方面和优点将变得显而易见，其中仅示出和描述了本公开的说明性实施方案。如将认识到，本公开能够具有其它不同的实施方案，并且其若干细节能够在各种明显的方面进行修改，所有这些都不脱离本公开。因此，附图和说明书本质上被视为是说明性的而非限制性的。

通过引用并入

本说明书中所提到的所有公开、专利和专利申请均通过相同的程度引用结合在此，如同特定且单独地指示每个单独的公开、专利或专利申请是通过引用并入的。

附图说明

本发明的新颖特征在所附权利要求书中具体阐述。通过参考阐述了说明性实施方案的以下详细说明，将获得对本发明的特征和优点的更好理解，在所述实施方案中利用了本发明的原理，并且在其附图中：

图1描绘了不同类别和类型的CRISPR/Cas基因座的组织。

图2A-2C描绘了MG119家族。图2A描绘了MG119效应子代表的多重比对，其示出了对双链DNA切割活性的功能至关重要的结构域组成和RuvC催化残基的保守性。图2B描绘了含有CRISPR的重叠群的表示，其中基因组背景围绕CRISPR阵列和Cas效应子(MG119-60的实例)。图2C描绘了MG119-60的直接重复序列的折叠。

图3A-3D描绘了MG90家族。图3A描绘了MG90效应子代表的多重比对，其示出了对双链DNA切割活性的功能至关重要的结构域组成和RuvC催化残基的保守性。图3B描绘了含有CRISPR的重叠群的表示，其中基因组背景围绕CRISPR阵列和Cas效应子(MG90-4的实例)。图3C描绘了MG90-4的直接重复序列的折叠。图3D描绘了设计用于MG90-4的单个向导RNA。

图4A-4C描绘了MG127家族。图4A描绘了MG127效应子代表的多重比对，其示出了对双链DNA切割活性的功能至关重要的结构域组成和RuvC催化残基的保守性。图4B描绘了含有CRISPR的重叠群的表示，其中基因组环境围绕CRISPR阵列和Cas效应子(MG127-1的实例)。图4C描绘了MG127-1的直接重复序列的折叠。

图5A-5C描绘了MG126家族。图5A描绘了MG126效应子代表的多重比对，其示出了对于双链DNA切割活性的功能至关重要的结构域组成和RuvC催化残基的保守性。图5B描绘了含有CRISPR的重叠群的表示，其中基因组背景围绕CRISPR阵列和Cas效应子(MG126-1的实例)。图5C描绘了MG126-1的直接重复序列的折叠。

图6A-6C描绘了MG118家族。图6A描绘了MG118效应子代表的多重比对，其示出了对于双链DNA切割活性的功能至关重要的结构域组成和RuvC催化残基的保守性。图6B描绘了含有CRISPR的重叠群的表示，其中基因组环境围绕CRISPR阵列和Cas效应子(MG118-2的实例)。图6C描绘了MG118-2的直接重复序列的折叠。

图7A-7C描绘了MG120家族。图7A描绘了MG120效应子代表的多重比对，其示出了对于双链DNA切割活性的功能至关重要的结构域组成和RuvC催化残基的保守性。图7B描绘了含有CRISPR的重叠群的表示，其中基因组环境围绕CRISPR阵列和Cas效应子(MG120-10的实例)。图7C描绘了MG120-10的直接重复序列的折叠。

序列表简要说明

随此提交的序列表提供了用于根据本公开的方法、组合物和系统的示例性多核苷酸和多肽序列。下文是其中的序列的示例性描述。

MG120

SEQ ID NO:1示出了MG120核酸酶的全长肽序列。

MG118

SEQ ID NO:2示出了MG118核酸酶的全长肽序列。

SEQ ID NO:22-23示出了MG118最小阵列的核苷酸序列。

SEQ ID NO:28-29示出了MG118靶CRISPR重复序列的核苷酸序列。

SEQ ID NO:30-31示出了MG118 crRNA的核苷酸序列。

MG90

SEQ ID NO:3-10示出了MG90核酸酶的全长肽序列。

SEQ ID NO:16-21示出了源自与MG90 Cas效应子相同基因座的MG90tracrRNA的核苷酸序列。

SEQ ID NO:24-27示出了MG90最小阵列的核苷酸序列。

SEQ ID NO:32-33示出了MG90靶CRISPR重复序列的核苷酸序列。

SEQ ID NO:34-35示出了MG90 sgRNA的核苷酸序列。

MG119

SEQ ID NO:11-12示出了MG119核酸酶的全长肽序列。

MG126

SEQ ID NO:13-14示出了MG126核酸酶的全长肽序列。

MG127

SEQ ID NO:15示出了MG127核酸酶的全长肽序列。

具体实施方式

虽然本文中已经示出并描述了本发明的各种实施方案，但是对于本领域的技术人员显而易见的是，这些实施方案仅作为实例提供。在不脱离本发明的情况下，本领域技术人员可以想到多种变化、改变和替换。应当理解，可以采用本文所述的本发明实施方案的各种替代方案。

除非另有指示，否则本文所公开的一些方法的实践采用免疫学、生物化学、化学、分子生物学、微生物学、细胞生物学、基因组学和重组DNA的技术。参见例如，Sambrook和Green等人,《分子克隆：实验室手册(Molecular Cloning:A Laboratory Manual)》,第4版(2012)；丛书《当代分子生物学实验指南(Current Protocols in Molecular Biology)》(F.M.Ausubel等人编辑)；丛书《酶学方法(Methods In Enzymology)》(学术出版社公司(Academic Press、Inc.))、《PCR 2：实用方法(PCR 2:A Practical Approach)》(M.J.MacPherson、B.D.Hames和G.R.Taylor编辑(1995))、Harlow和Lane编辑(1988)《抗体：实验室手册(Antibodies、A Laboratory Manual)》以及《动物细胞培养：基础技术和专门应用手册(Culture of Animal Cells:A Manual of Basic Technique and SpecializedApplications)》,第6版(R.I.Freshney编辑(2010))(所述文献通过引用整体并入本文)。

如本文所使用的，除非上下文另外清楚地指示，否则单数形式“一个/一种(a/an)”和“所述”也旨在包含复数形式。此外，在详细描述和/或权利要求中使用术语“包含(including)”、“包含(include)”、“具有(having)”、“具有(has)”、“具有(with)”或其变体的情况下，这种术语旨在以类似于术语“包括(comprising)”的方式是包含性的。

术语“约(about)”或“大约(approximately)”意指在如由本领域普通技术人员确定的特定值的可接受误差范围内，这将部分地取决于值是如何测量或确定的，即，测量系统的局限性。例如，“约”可以意指按照本领域的实践在一个或超过一个标准偏差内。可替代地，“约”可以意指给定值的至多20％、至多15％、至多10％、至多5％或至多1％的范围。

如本文所使用的，“细胞”通常是指生物细胞。细胞可以是活生物体的基本结构、功能和/或生物单位。细胞可以源自具有一个或多个细胞的任何生物体。一些非限制性实例包含：原核细胞、真核细胞、细菌细胞、古细菌细胞，单细胞真核生物体的细胞、原生动物细胞、来自植物(例如来自种植农作物、水果、蔬菜、谷物、大豆、玉米、玉蜀黍、小麦、种子、西红柿、大米、木薯、甘蔗、南瓜、干草、土豆、棉花、大麻、烟草、开花植物、针叶树、裸子植物、蕨类植物、石松、金鱼藻、地钱、苔藓的细胞)的细胞、藻细胞(例如，布朗葡萄藻(Botryococcusbraunii)、莱茵衣藻(Chlamydomonas reinhardti)、拟微球藻(Nannochloropsisgaditana)、蛋白核小球藻(Chlorella pyrenoidosa)、C.Agardh展枝马尾藻(Sargassumpatens C.Agardh)等)、海藻(例如海带)、真菌细胞(例如酵母细胞，来自蘑菇的细胞)、动物细胞、来自无脊椎动物(例如果蝇、刺胞动物、棘皮动物、线虫等)的细胞、来自脊椎动物(例如鱼、两栖动物、爬行动物、鸟、哺乳动物)的细胞、来自哺乳动物(例如猪、牛、山羊、绵羊、啮齿动物、大鼠、小鼠、非人灵长类动物、人等)的细胞等。有时，细胞并非源自天然生物体(例如，细胞可以是合成制造的，有时称为人工细胞)。

如本文所使用的，术语“核苷酸”通常是指碱基-糖-磷酸组合。核苷酸可以包括合成核苷酸。核苷酸可以包括合成核苷酸类似物。核苷酸可以是核酸序列(例如脱氧核糖核酸(DNA)和核糖核酸(RNA))的单体单元。术语核苷酸可以包含核糖核苷三磷酸、腺苷三磷酸(ATP)、尿苷三磷酸(UTP)、胞嘧啶三磷酸(CTP)、鸟苷三磷酸(GTP)和脱氧核糖核苷三磷酸如dATP、dCTP、dITP、dUTP、dGTP、dTTP或其衍生物。此类衍生物可以包含例如[αS]dATP、7-脱氮-dGTP和7-脱氮-dATP，以及赋予含有它们的核酸分子核酸酶抗性的核苷酸衍生物。如本文所使用的，术语核苷酸可以是指双脱氧核糖核苷三磷酸(ddNTP)和其衍生物。双脱氧核糖核苷三磷酸的说明性实例可以包含但不限于：ddATP、ddCTP、ddGTP、ddITP和ddTTP。核苷酸可以是未标记的或可检测标记的，如使用包括光学可检测部分(例如荧光团)的部分。也可以用量子点进行标记。可检测标记可以包含例如放射性同位素、荧光标记、化学发光标记、生物发光标记和酶标记。核苷酸的荧光标记可以包含但不限于荧光素、5-羧基荧光素(FAM)、2'7'-二甲氧基-4'5-二氯-6-羧基荧光素(JOE)、罗丹明、6-羧基罗丹明(R6G)、N,N,N',N'-四甲基-6-羧基罗丹明(TAMRA)、6-羧基-X-罗丹明(ROX)、4-(4'二甲氨基苯偶氮基)苯甲酸(DABCYL)、瀑布蓝、俄勒冈绿、德克萨斯红、青色素和5-(2'-氨乙基)氨基萘-1-磺酸(EDANS)。荧光标记的核苷酸的具体实例可以包含可从加利福尼亚州福斯特市的铂金埃尔默公司(Perkin Elmer、Foster City、Calif)获得的[R6G]dUTP、[TAMRA]dUTP、[R110]dCTP、[R6G]dCTP、[TAMRA]dCTP、[JOE]ddATP、[R6G]ddATP、[FAM]ddCTP、[R110]ddCTP、[TAMRA]ddGTP、[ROX]ddTTP、[dR6G]ddATP、[dR110]ddCTP、[dTAMRA]ddGTP和[dROX]ddTTP；可从伊利诺伊州阿灵顿高地的安玛西亚公司(Amersham、Arlington Heights、Il.)获得的FluoroLink脱氧核苷酸、FluoroLink Cy3-dCTP、FluoroLink Cy5-dCTP、FluoroLink FluorX-dCTP、FluoroLink Cy3-dUTP和FluoroLink Cy5-dUTP；可从印第安纳州印第安纳波利斯的宝灵曼公司(Boehringer Mannheim、Indianapolis、Ind.)获得的荧光素-15-dATP、荧光素-12-dUTP、四甲基-罗丹明-6-dUTP、IR770-9-dATP、荧光素-12-ddUTP、荧光素-12-UTP和荧光素-15-2'-dATP；以及可从俄勒冈州尤金的分子探针公司(Molecular Probes、Eugene或eg)获得的染色体标记的核苷酸、BODIPY-FL-14-UTP、BODIPY-FL-4-UTP、BODIPY-TMR-14-UTP、BODIPY-TMR-14-dUTP、BODIPY-TR-14-UTP、BODIPY-TR-14-dUTP、瀑布蓝-7-UTP、瀑布蓝-7-dUTP、荧光素-12-UTP、荧光素-12-dUTP、俄勒冈绿488-5-dUTP、罗丹明绿-5-UTP、罗丹明绿-5-dUTP、四甲基罗丹明-6-UTP、四甲基罗丹明-6-dUTP、德克萨斯红-5-UTP、德克萨斯红-5-dUTP和德克萨斯红-12-dUTP。核苷酸也可以通过化学修饰进行标记或标出。经化学修饰的单核苷酸可以是生物素-dNTP。生物素化dNTP的一些非限制性实例可以包含生物素-dATP(例如bio-N6-ddATP、生物素-14-dATP)、生物素-dCTP(例如生物素-11-dCTP、生物素-14-dCTP)和生物素-dUTP(例如生物素-11-dUTP、生物素-16-dUTP、生物素-20-dUTP)。

术语“多核苷酸”、“寡核苷酸”和“核酸”可互换使用以通常指代任何长度的核苷酸的聚合形式，脱氧核糖核苷酸或核糖核苷酸或其类似物，呈单链、双链或多链形式。多核苷酸对于细胞可以是外源性的或内源性的。多核苷酸可以存在于无细胞环境中。多核苷酸可以是基因或其片段。多核苷酸可以是DNA。多核苷酸可以是RNA。多核苷酸可以具有任何三维结构，并且可以进行任何功能。多核苷酸可以包括一种或多种类似物(例如，改变的主链、糖或核碱基)。如果存在，则可以在组装聚合物之前或之后赋予对核苷酸结构的修饰。类似物的一些非限制性实例包含：5-溴尿嘧啶、肽核酸、异源核酸、吗啉代、锁核酸、甘油核酸、苏糖核酸、双脱氧核苷酸、虫草素、7-脱氮-GTP、荧光团(例如，与糖连接的罗丹明或荧光素)、含硫醇的核苷酸、生物素连接的核苷酸、荧光碱基类似物、CpG岛、甲基-7-鸟苷、甲基化核苷酸、肌苷、硫尿苷、假尿苷、二氢尿苷、辫苷和怀俄苷。多核苷酸的非限制性实例包含基因或基因片段的编码或非编码区、根据连接分析定义的多个基因座(一个基因座)、外显子、内含子、信使RNA(mRNA)、转移RNA(tRNA)、核糖体RNA(rRNA)、短干扰RNA(siRNA)、短发夹RNA(shRNA)、微RNA(miRNA)、核酶、cDNA、重组多核苷酸、分支多核苷酸、质粒、载体、任何序列的分离的DNA、任何序列的分离的DNA、包含无细胞DNA(cfDNA)和无细胞RNA(cfRNA)的无细胞多核苷酸、核酸探针和引物。核苷酸序列可以间杂有非核苷酸组分。

术语“转染”或“转染的”通常指通过非病毒或基于病毒的方法将核酸引入细胞中。核酸分子可以是编码完整蛋白或其功能部分的基因序列。参见例如Sambrook等人(1989),《分子克隆：实验室手册》,18.1-18.88(所述文献通过引用整体并入本文)。

术语“肽”、“多肽”和“蛋白质”在本文中可互换使用以通常指代至少两个通过肽键连接的氨基酸残基的聚合物。此术语不表示聚合物的具体长度，也不旨在暗示或区分肽是使用重组技术、化学或酶促合成产生的还是天然存在的。所述术语适用于天然存在的氨基酸聚合物以及包括至少一种经修饰的氨基酸的氨基酸聚合物。在一些情况下，聚合物可以间杂有非氨基酸。所述术语包含任何长度的氨基酸链，包含全长蛋白质以及具有或不具有次级和/或三级结构(例如，结构域)的蛋白质。术语还涵盖已被修饰的氨基酸聚合物；例如通过二硫键形成、糖基化、脂化、乙酰化、磷酸化、氧化和任何其它操作，如与标记组分缀合。如本文所使用的，术语“氨基酸(amino acid)”和“氨基酸(amino acids)”通常是指天然和非天然氨基酸，包含但不限于经修饰的氨基酸和氨基酸类似物。经修饰的氨基酸可以包含已被化学修饰以包含非天然存在于氨基酸上的基团或化学部分的天然氨基酸和非天然氨基酸。氨基酸类似物可以指氨基酸衍生物。术语“氨基酸”包含D-氨基酸和L-氨基酸。

如本文所使用的，“非天然”通常可以指在天然核酸或蛋白质中未发现的核酸或多肽序列。非天然可以指亲和标签。非天然可以指融合物。非天然可以指天然存在的包括突变、插入和/或缺失的核酸或多肽序列。非天然序列可以表现出和/或编码也可以由与非天然序列融合的核酸和/或多肽序列表现出的活性(例如，酶活性、甲基转移酶活性、乙酰转移酶活性、激酶活性、泛素化活性等)。非天然核酸或多肽序列可以通过基因工程化与天然存在的核酸或多肽序列(或其变体)连接以产生嵌合核酸和/或编码嵌合核酸和/或多肽的多肽序列。

如本文所使用的，术语“启动子”通常是指控制基因的转录或表达并且可以位于与启动RNA转录的核苷酸或核苷酸的区域邻近或重叠的调节性DNA区域。启动子可以含有结合蛋白质因子(通常称为转录因子)的特定DNA序列，其促进RNA聚合酶与DNA的结合，从而导致基因转录。‘基础启动子’，也称为‘核心启动子’，通常可以指含有促进可操作连接的多核苷酸转录表达的所有基本必需元件的启动子。真核基础启动子通常(尽管不一定)含有TATA盒和/或CAAT盒。

如本文所使用的，术语“表达”通常是指从DNA模板转录核酸序列或多核苷酸(如转录为mRNA或其它RNA转录本)的过程和/或随后将经转录的mRNA翻译为肽、多肽、或蛋白质的过程。转录物和编码的多肽可以统称为“基因产物”。如果多核苷酸衍生自基因组DNA，则表达可以包含在真核细胞中的mRNA的剪接。

如本文所使用的，“可操作地连接”、“可操作连接”、“操作性地连接”或其语法等效物通常是指遗传元素，例如启动子、增强子、聚腺苷酸化序列等的并置，其中所述元素处于允许其以预期方式操作的关系中。例如，如果调节元件有助于启动编码序列的转录，则可以包括启动子和/或增强子序列的调节元件可操作地连接到编码区。只要维持这种功能关系，调节元件与编码区之间就会存在插入残基。

如本文所使用的，“载体”通常是指包括多核苷酸或与多核苷酸缔合并且可以用于介导多核苷酸到细胞的递送的大分子或大分子缔合物。载体的实例包含质粒、病毒载体、脂质体和其它基因递送媒剂。载体通常包括遗传元件，例如调节元件，其可操作地连接到基因以促进基因在靶标中的表达。

如本文所使用的，“表达盒”和“核酸盒”通常可互换使用以指代一起表达或可操作地连接用于表达的核酸序列或元件的组合。在一些情况下，表达盒是指调节元件和其可操作地连接用于表达的一个或多个基因的组合。

DNA或蛋白质序列的“功能片段”通常是指保留与全长DNA或蛋白质序列的生物活性基本上类似的生物活性(功能或结构)的片段。DNA序列的生物活性可能是其以归因于全长序列的已知方式影响表达的能力。

如本文所使用的，“工程化”对象通常表明所述对象已通过人为干预进行修饰。根据非限制性实例：核酸可以通过将其序列改变成自然界中不存在的序列来修饰；核酸可以通过将其连接到自然界中不与其缔合的核酸来修饰，使得连接产物具有原始核酸中不存在的功能；工程化的核酸可以用自然界不存在的序列在体外合成；可以通过将蛋白质的氨基酸序列改变为自然界中不存在的序列来修饰蛋白质；工程化的蛋白质可以获得新的功能或特性。“工程化的”系统包括至少一种工程化的组分。

如本文所使用的，“合成的”和“人工的”通常可以互换使用是指代与天然存在的人蛋白质具有低序列同一性(例如小于50％序列同一性、小于25％序列同一性、小于10％序列同一性、小于5％序列同一性、小于1％序列同一性)的蛋白质或其结构域。例如，VPR和VP64结构域是合成的反式激活结构域。

如本文所使用的，术语“Cas12a”通常指属于2类V-A型Cas核酸内切酶的Cas核酸内切酶家族，并且(a)使用相对较小的向导RNA(约42-44个核苷酸)，其在从CRISPR阵列转录后由核酸酶自身处理，以及(b)切割DNA以留下交错的切割位点。该酶家族的另外的特征可以在例如Zetsche B,Heidenreich M,Mohanraju P,等人《自然生物技术(Nat Biotechnol)》2017；35:31–34和Gootenberg JS,Abudayyeh OO等人,《细胞》2015；163:759–771中发现，所述文献通过引用并入本文。

如本文所使用的，“向导核酸”通常可以指可以与另一个核酸杂交的核酸。向导核酸可以是RNA。向导核酸可以是DNA。向导核酸可以被编程成与核酸序列位点特异性结合。待靶向的核酸或靶核酸可以包括核苷酸。向导核酸可以包括核苷酸。靶核酸的一部分可以与向导核酸的一部分互补。与向导核酸互补并杂交的双链靶多核苷酸的链可以称为互补链。双链靶多核苷酸的与互补链互补并且因此可能不与向导核酸互补的链可以被称为非互补链。向导核酸可以包括多核苷酸链，并且可以称为“单向导核酸”。向导核酸可以包括两条多核苷酸链，并且可以称为“双向导核酸”。如果没有另外说明，则术语“向导核酸”可以包含在内，指单一向导核酸和双向导核酸两者。向导核酸可以包括可以被称为“核酸靶向区段”或“核酸靶向序列”或“间隔子序列”的区段。核酸靶向区段可以包括子区段，所述子区段可以被称为“蛋白质结合区段”或“蛋白质结合序列”或“Cas蛋白质结合区段”。

在两个或更多个核酸或多肽序列的上下文中，术语“序列同一性”或“百分比同一性”通常是指当在局部或全局比较窗内进行比较和比对以获得最大对应性时，两个(例如，在成对比对中)或更多个(例如，在多序列比对中)相同或具有相同特定百分比的氨基酸残基或核苷酸的序列，如使用序列比较算法测量的。用于多肽序列的合适的序列比较算法包含例如使用字长(W)为3、期望值(E)为10的参数以及BLOSUM62评分矩阵将空位罚分设置为存在为11，扩展为1并且使用长于30个残基的多肽序列的条件组成评分矩阵调整的BLASTP；使用字长(W)为2、期望值(E)为1000000的参数以及PAM30评分矩阵(对于少于30个残基的序列，将空隙罚分设置为9来打开空隙，并且设置为1来扩展空隙)(这些是BLAST套件中BLASTP的默认参数，可在https://blast.ncbi.nlm.nih.gov获得)的BLASTP；具有参数的CLUSTALW；具有以下参数的CLUSTALW与Smith-Waterman同源性搜索算法：匹配为2、失配为-1并且间隙为-1；具有默认参数的MUSCLE；具有以下参数的MAFFT：retree为2并且maxiterations为1000；具有默认参数的Novafold；具有默认参数的HMMER hmmalign。

在两个或更多个核酸或多肽序列的上下文中，术语“最佳比对”通常是指已经与氨基酸残基或核苷酸的最大对应性比对的两个(例如，成对比对)或更多个(例如，在多序列比对中)序列，例如，如通过产生最高或“优化”百分比同一性评分的比对确定的。

本公开包含本文所描述的具有一个或多个保守氨基酸取代的酶中的任何酶的变体。此类保守取代可以在多肽的氨基酸序列中进行，而不破坏多肽的三维结构或功能。保守取代可以通过具有类似疏水性、极性和R链长度的氨基酸相互取代来完成。另外地或可替代地，通过比较来自不同物种的同源蛋白质的比对序列，可以通过在不改变经编码的蛋白质的基本功能的情况下定位物种(例如，非保守残基)之间突变的氨基酸残基来鉴定保守取代。此类保守取代的变体可以包含与本文所描述的核酸内切酶蛋白质序列中的任何一个核酸内切酶蛋白质序列(例如，本文所描述的MG90、MG118、MG119、MG120、MG126或MG127家族核酸内切酶，或本文所描述的任何其它家族核酸酶)具有至少约20％、至少约25％、至少约30％、至少约35％、至少约40％、至少约45％、至少约50％、至少约55％、至少约60％、至少约65％、至少约70％、至少约75％、至少约80％、至少约85％、至少约90％、至少约91％、至少约92％、至少约93％、至少约94％、至少约95％、至少约96％、至少约97％、至少约98％、至少约99％同一性的变体。在一些实施方案中，此类保守取代的变体是功能变体。此类功能变体可以涵盖具有取代的序列，使得核酸内切酶的一个或多个关键活性位点残基或向导RNA结合残基的活性不被破坏。在一些实施方案中，本文所描述的蛋白质中的任何蛋白质的功能变体缺乏图2A、3A、4A、5A或6A中所示的保守残基或功能残基中的至少一个的取代。在一些实施方案中，本文所描述的蛋白质中的任何蛋白质的功能变体缺乏图2A、3A、4A、5A或6A中所示的保守残基或功能残基中的全部的取代。

本公开还包括本文所描述的酶中的任何酶的变体，其取代一个或多个催化残基以降低或消除酶(例如，活性降低的变体)的活性。在一些实施方案中，作为本文所描述的蛋白质的活性降低的变体包括图2A、3A、4A、5A或6A中所示的至少一个、至少两个或所有三个催化残基的破坏性取代。

提供功能类似氨基酸的保守取代表可从各种参考文献中获得(参见例如Creighton,《蛋白质：结构与分子特性(Proteins:Structures and MolecularProperties)》(W H弗里曼出版社(W H Freeman&Co.)；第2版(1993年12月))。以下八个基团各自含有彼此保守取代的氨基酸：

1)丙氨酸(A)、甘氨酸(G)；

2)天冬氨酸(D)、谷氨酸(E)；

3)天冬酰胺(N)、谷氨酰胺(Q)；

4)精氨酸(R)、赖氨酸(K)；

5)异亮氨酸(I)、亮氨酸(L)、甲硫氨酸(M)、缬氨酸(V)；

6)苯丙氨酸(F)、酪氨酸(Y)、色氨酸(W)；

7)丝氨酸(S)、苏氨酸(T)；以及

8)半胱氨酸(C)、甲硫氨酸(M)

概述

具有独特功能和结构的新Cas酶的发现可能会提供进一步破坏脱氧核糖核酸(DNA)编辑技术的可能性，从而提高速度、特异性、功能和易用性。相对于微生物中成簇的规则间隔的短回文重复序列(CRISPR)系统的预测流行率和微生物物种的纯粹多样性，文献中存在功能表征的CRISPR/Cas酶相对较少。这部分是因为大量的微生物物种可能不容易在实验室条件下培养。来自含有大量微生物物种的自然环境生态位的宏基因组测序可能会提供大幅增加已知的新的CRISPR/Cas系统的数量，并且加速新寡核苷酸编辑功能的发现的可能性。这种方法富有成效的最近的实例通过2016年通过对天然微生物群落的宏基因组分析发现CasX/CasY CRISPR系统证明。

CRISPR/Cas系统是RNA引导的核酸酶复合物，其已描述为在微生物中充当适应性免疫系统。在CRISPR/Cas系统的自然背景中，所述CRISPR/Cas系统出现在CRISPR(成簇的规则间隔的短回文重复序列)操纵子或基因座中，其通常包括两部分：(i)由同样短的间隔子序列分隔的短重复序列阵列(30-40bp)，其编码基于RNA的靶向元件；以及(ii)编码Cas的ORF，所述Cas编码由基于RNA的靶向元件连同辅助蛋白/酶引导的核酸酶多肽。特定靶核酸序列的有效核酸酶靶向通常需要以下两者：(i)靶标(靶种子)的前6-8个核酸与crRNA向导之间的互补杂交；以及(ii)靶种子的定义附近内存在原间隔子相邻基序(PAM)序列(PAM通常是宿主基因组内不常表示的序列)。根据系统的确切功能和组织，CRISPR-Cas系统通常基于共享的功能特性和进化类似性被分为2种类别、5种类型和16种亚型(参见图1)。

I类CRISPR-Cas系统具有大的多亚基效应子复合物，并且包括I、III和IV型。II类CRISPR-Cas系统通常具有单多肽多结构域核酸酶效应子，并且包括II型、V型和VI型。

II型CRISPR-Cas系统在组分方面被认为是最简单的。在II型CRISPR-Cas系统中，将CRISPR阵列处理成成熟的crRNA不需要存在特殊的核酸内切酶亚基，而是需要小的反式编码的crRNA(tracrRNA)，其区域与阵列重复序列互补；tracrRNA与其对应的效应子核酸酶(例如Cas9)和重复序列相互作用以形成前体dsRNA结构，所述前体dsRNA结构被内源性RNA酶III切割，从而生成负载tracrRNA和crRNA两者的成熟的效应子酶。Cas II核酸酶被称为DNA核酸酶。2型效应子通常表现出由RuvC样核酸内切酶结构域组成的结构，所述RuvC样核酸内切酶结构域采用RNA酶H折叠，其中RuvC样核酸酶结构域的所述折叠内插入有不相关的HNH核酸酶结构域。RuvC样结构域负责靶(例如crRNA互补)DNA链的切割，而HNH结构域负责置换的DNA链的切割。

V型CRISPR-Cas系统的特征在于与包括RuvC样结构域的II型效应子的结构类似的核酸酶效应子(例如Cas12)结构。类似于II型，大多数(但不是全部)V型CRISPR系统使用tracrRNA将pre-crRNA处理成成熟的crRNA；然而，与需要RNA酶III将pre-crRNA切割成多个crRNA的II型系统不同，V型系统能够使用效应子核酸酶本身来切割pre-crRNA。与II型CRISPR-Cas系统一样，V型CRISPR-Cas系统再次被称为DNA核酸酶。与II型CRISPR-Cas系统不同，一些V型酶(例如Cas12a)似乎具有强大的由双链靶序列的第一个crRNA定向切割激活的单链非特异性脱氧核糖核酸酶活性。

CRISPR-Cas系统由于其靶向性和易用性，近年来已成为首选的基因编辑技术。最常用的系统是2类、II型SpCas9和2类、V-A型Cas12a(先前的Cpf1)。特别是V-A型系统正变得越来越广泛地使用，因为据其在细胞中的报告的特异性高于其它核酸酶，具有更少或没有脱靶作用。V-A系统的优点还在于，向导RNA小(42-44个核苷酸，相比之下SpCas9大约为100nt)，并且在从CRISPR阵列转录后由核酸酶自身处理，从而简化了多基因编辑的多重应用。此外，V-A系统具有交错的切割位点，这可能有助于定向修复途径，如微同源性依赖性靶向整合(MITI)。

最常用的V-A型酶需要在所选靶位点旁边有一个5'原间隔子相邻基序(PAM)：针对毛螺菌科细菌ND2006 LbCas12a和氨基酸球菌AsCas12a的5'-TTTV-3'；以及针对新凶手弗朗西斯菌FnCas12a的5'-TTV-3'。最近对直链同源物的探索揭示了具有较少限制性PAM序列的蛋白质，其在哺乳动物细胞培养例如，YTV、YYN或TTN中也具有活性。然而，这些酶并不完全涵盖V型生物多样性和靶向性，并且可能不代表所有可能的活性和PAM序列要求。在此，从大量的V型核酸酶的宏基因组中提取了数千个基因组片段。已知的V型酶的多样性可能已经扩大，并且新系统可能已经发展成为高度靶向、紧凑和精确的基因编辑剂。

MG酶

V型CRISPR系统正快速用于各种基因组编辑应用中。这些可编程核酸酶是适应性微生物免疫系统的一部分，其天然多样性在很大程度上尚未被探索。通过对从各种复杂环境中收集的宏基因组进行大规模分析来鉴定V型CRISPR酶的新家族，并将这些系统的代表开发到基因编辑平台中。这些系统中的大多数来自未培养的生物体，其中一些编码同一CRISPR操纵子内的发散V型效应子。

在一些方面，本公开提供了新的V型候选物。这些候选物可以表示一种或多种新的亚型，并且可能已经鉴定出一些亚家族。这些核酸酶的长度小于约900个氨基酸。这些新的亚型可能在与已知的V型效应子相同的CRISPR基因座中找到。RuvC催化残基可能已经鉴定为新的V型候选物，并且这些新的V型候选物可能不需要tracrRNA。

在一些方面，本公开提供了较小的V型效应子。此类效应子可以是小的推定效应子。这些效应子可以简化递送并且可以延伸治疗性应用。

在一些方面，本公开提供了新的V型效应子。此类效应子可以是如本文所描述的MG90(参见图3)。此类效应子可以是如本文所描述的MG118(参见图6)。此类效应子可以是如本文所描述的MG119(参见图2)。此类效应子可以是如本文所描述的MG120。此类效应子可以是如本文所描述的MG126(参见图5)。此类效应子可以是如本文所描述的MG127(参见图4)。

一方面，本公开提供了一种通过宏基因组测序发现的工程化的核酸酶系统。在一些情况下，对样品进行宏基因组测序。在一些情况下，可以从各种环境中收集样品。此类环境可以是人微生物组、动物微生物组、高温环境、低温环境。此类环境可以包含沉积物。

一方面，本公开提供了一种工程化的核酸酶系统，其包括核酸内切酶。在一些情况下，核酸内切酶是Cas核酸内切酶。在一些情况下，核酸内切酶是2类V型Cas核酸内切酶。在一些情况下，核酸内切酶是新的亚型的2类V型Cas核酸内切酶。在一些情况下，核酸内切酶衍生自未培养的微生物。核酸内切酶可以包括RuvC结构域。在一些情况下，工程化的核酸酶系统包括工程化的向导RNA。在一些情况下，工程化的向导RNA被配置成与核酸内切酶形成复合物。在一些情况下，工程化的向导RNA包括间隔子序列。在一些情况下，间隔子序列被配置成与靶核酸序列杂交。

一方面，本公开提供了一种工程化的核酸酶系统，其包括核酸内切酶。在一些情况下，核酸内切酶与SEQ ID NO:1-15中的任一者具有至少约70％的序列同一性。在一些情况下，核酸内切酶与SEQ ID NO:1-15中的任一者具有至少约20％、至少约25％、至少约30％、至少约35％、至少约40％、至少约45％、至少约50％、至少约55％、至少约60％、至少约65％、至少约70％、至少约75％、至少约80％、至少约85％、至少约90％、至少约91％、至少约92％、至少约93％、至少约94％、至少约95％、至少约96％、至少约97％、至少约98％或至少约99％同一性。

在一些情况下，核酸内切酶包括与SEQ ID NO:1-15中的任一者具有至少约20％、至少约25％、至少约30％、至少约35％、至少约40％、至少约45％、至少约50％、至少约55％、至少约60％、至少约65％、至少约70％、至少约75％、至少约80％、至少约85％、至少约90％、至少约91％、至少约92％、至少约93％、至少约94％、至少约95％、至少约96％、至少约97％、至少约98％或至少约99％同一性的变体。在一些情况下，所述核酸内切酶可以与SEQ IDNO:1-15中的任一者基本上相同。

在一些情况下，工程化的核酸酶系统包括工程化的向导RNA。在一些情况下，工程化的向导RNA被配置成与核酸内切酶形成复合物。在一些情况下，工程化的向导RNA包括间隔子序列。在一些情况下，间隔子序列被配置成与靶核酸序列杂交。在一些情况下，核酸内切酶被配置成与原间隔子相邻基序(PAM)序列结合。

在一些情况下，核酸内切酶是Cpf1或Cms1核酸内切酶。

在一些情况下，向导RNA包括与SEQ ID NO:30-35的前19个核苷酸或非简并核苷酸具有至少80％序列同一性的序列。在一些情况下，向导RNA包括与SEQ ID NO:30-35的前19个核苷酸或非简并核苷酸具有至少约20％、至少约25％、至少约30％、至少约35％、至少约40％、至少约45％、至少约50％、至少约55％、至少约60％、至少约65％、至少约70％、至少约75％、至少约80％、至少约85％、至少约90％、至少约91％、至少约92％、至少约93％、至少约94％、至少约95％、至少约96％、至少约97％、至少约98％或至少约99％同一性的序列。在一些情况下，向导RNA包括与SEQ ID NO:30-35的前19个核苷酸或非简并核苷酸具有至少约20％、至少约25％、至少约30％、至少约35％、至少约40％、至少约45％、至少约50％、至少约55％、至少约60％、至少约65％、至少约70％、至少约75％、至少约80％、至少约85％、至少约90％、至少约91％、至少约92％、至少约93％、至少约94％、至少约95％、至少约96％、至少约97％、至少约98％或至少约99％同一性的变体。在一些情况下，向导RNA包括与SEQ ID NO:30-35的前19个核苷酸或非简并核苷酸基本上相同的序列。

在一些情况下，向导RNA包括与SEQ ID NO:30-35的前19个核苷酸或非简并核苷酸具有至少约20％、至少约25％、至少约30％、至少约35％、至少约40％、至少约45％、至少约50％、至少约55％、至少约60％、至少约65％、至少约70％、至少约75％、至少约80％、至少约85％、至少约90％、至少约91％、至少约92％、至少约93％、至少约94％、至少约95％、至少约96％、至少约97％、至少约98％或至少约99％同一性的序列。在一些情况下，核酸内切酶被配置成与工程化的向导RNA结合。在一些情况下，Cas核酸内切酶被配置成与工程化的向导RNA结合。在一些情况下，2类Cas核酸内切酶被配置成与工程化的向导RNA结合。在一些情况下，2类V型Cas核酸内切酶被配置成与工程化的向导RNA结合。在一些情况下，2类V型新亚型Cas核酸内切酶被配置成与工程化的向导RNA结合。

在一些情况下，向导RNA包括与真核生物、真菌、植物、哺乳动物或人基因组多核苷酸序列互补的序列。在一些情况下，向导RNA包括与真核基因组多核苷酸序列互补的序列。在一些情况下，向导RNA包括与真菌基因组多核苷酸序列互补的序列。在一些情况下，向导RNA包括与植物基因组多核苷酸序列互补的序列。在一些情况下，向导RNA包括与哺乳动物基因组多核苷酸序列互补的序列。在一些情况下，向导RNA包括与人基因组多核苷酸序列互补的序列。

在一些情况下，向导RNA的长度为30-250个核苷酸。在一些情况下，向导RNA的长度为42-44个核苷酸。在一些情况下，向导RNA的长度为42个核苷酸。在一些情况下，向导RNA的长度为43个核苷酸。在一些情况下，向导RNA的长度为44个核苷酸。在一些情况下，向导RNA的长度为85-245个核苷酸。在一些情况下，向导RNA的长度为多于90个核苷酸。在一些情况下，向导RNA的长度为少于245个核苷酸。

在一些情况下，核酸内切酶可以包括具有一个或多个核定位序列(NLS)的变体。NLS可以接近核酸内切酶的N末端或C末端。NLS可以被附加到SEQ ID NO:36-51中的任一者的N末端或C末端，或者被附加到与SEQ ID NO:36-51中的任一者具有至少约20％、至少约25％、至少约30％、至少约35％、至少约40％、至少约45％、至少约50％、至少约55％、至少约60％、至少约65％、至少约70％、至少约75％、至少约80％、至少约85％、至少约90％、至少约91％、至少约92％、至少约93％、至少约94％、至少约95％、至少约96％、至少约97％、至少约98％或至少约99％同一性的变体。在一些情况下，NLS可以包括与SEQ ID NO:36-51中的任一者基本上相同的序列。

表1：可以与根据本公开的Cas效应子一起使用的示例性NLS序列。

在一些情况下，工程化的核酸酶系统进一步包括单链或双链DNA修复模板。在一些情况下，工程化的核酸酶系统进一步包括单链DNA修复模板。在一些情况下，工程化的核酸酶系统进一步包括双链DNA修复模板。在一些情况下，单链或双链DNA修复模板从5'至3'可以包括：第一同源臂，所述第一同源臂包括位于所述靶脱氧核糖核酸序列的5'的至少20个核苷酸的序列、至少10个核苷酸的合成DNA序列，以及第二同源臂，所述第二同源臂包括位于所述靶序列的3'的至少20个核苷酸的序列。

在一些情况下，第一同源臂包括至少40个、至少50个、至少60个、至少70个、至少80个、至少90个、至少100个、至少110个、至少120个、至少130个、至少140个、至少150个、至少175个、至少200个、至少250个、至少300个、至少400个、至少500个、至少750个或至少1000个核苷酸的序列。在一些情况下，第二同源臂包括至少40个、至少50个、至少60个、至少70个、至少80个、至少90个、至少100个、至少110个、至少120个、至少130个、至少140个、至少150个、至少175个、至少200个、至少250个、至少300个、至少400个、至少500个、至少750个或至少1000个核苷酸的序列。

在一些情况下，第一同源臂和第二同源臂与原核生物的基因组序列同源。在一些情况下，第一同源臂和第二同源臂与细菌的基因组序列同源。在一些情况下，第一同源臂和第二同源臂与真菌的基因组序列同源。在一些情况下，第一同源臂和第二同源臂与真核生物的基因组序列同源。

在一些情况下，工程化的核酸酶系统进一步包括DNA修复模板。DNA修复模板可以包括双链DNA区段。双链DNA区段可以侧接一个单链DNA区段。双链DNA区段可以侧接两个单链DNA区段。在一些情况下，单链DNA区段与双链DNA区段的5'端缀合。在一些情况下，单链DNA区段与双链DNA区段的3'端缀合。

在一些情况下，单链DNA区段的长度为1至15个核苷酸碱基。在一些情况下，单链DNA区段的长度为4至10个核苷酸碱基。在一些情况下，单链DNA区段的长度为4个核苷酸碱基。在一些情况下，单链DNA区段的长度为5个核苷酸碱基。在一些情况下，单链DNA区段的长度为6个核苷酸碱基。在一些情况下，单链DNA区段的长度为7个核苷酸碱基。在一些情况下，单链DNA区段的长度为8个核苷酸碱基。在一些情况下，单链DNA区段的长度为9个核苷酸碱基。在一些情况下，单链DNA区段的长度为10个核苷酸碱基。

在一些情况下，单链DNA区段具有与间隔子序列内的序列互补的核苷酸序列。在一些情况下，双链DNA序列包括条形码、开放阅读框、增强子、启动子、蛋白质编码序列、miRNA编码序列、RNA编码序列或转基因。

在一些情况下，工程化的核酸酶系统进一步包括Mg²⁺的来源。

在一些情况下，向导RNA包括包含至少8个碱基配对的核糖核苷酸的发夹。在一些情况下，向导RNA包括包含至少9个碱基配对的核糖核苷酸的发夹。在一些情况下，向导RNA包括包含至少10个碱基配对的核糖核苷酸的发夹。在一些情况下，向导RNA包括包含至少11个碱基配对的核糖核苷酸的发夹。在一些情况下，向导RNA包括包含至少12个碱基配对的核糖核苷酸的发夹。

I在一些情况下，核酸内切酶包括与SEQ ID NO:1-3、11、13或15中的任一者或其变体的变体至少70％相同的序列。在一些情况下，核酸内切酶包括与SEQ ID NO:1-3、11、13或15中的任一者或其变体的变体至少75％相同的序列。在一些情况下，核酸内切酶包括与SEQID NO:1-3、11、13或15中的任一者或其变体的变体至少80％相同的序列。在一些情况下，核酸内切酶包括与SEQ ID NO:1-3、11、13或15中的任一者或其变体的变体至少85％相同的序列。在一些情况下，核酸内切酶包括与SEQ ID NO:1-3、11、13或15中的任一者或其变体的变体至少90％相同的序列。在一些情况下，核酸内切酶包括与SEQ ID NO:1-3、11、13或15中的任一者或其变体的变体至少95％相同的序列。

在一些情况下，序列通过BLASTP、CLUSTALW、MUSCLE或MAFFT算法，或具有Smith-Waterman同源性搜索算法参数的CLUSTALW算法来测定。可以通过所述BLASTP同源性搜索算法使用字长(W)为3、期望值(E)为10的参数以及BLOSUM62评分矩阵将空位罚分设置为存在为11，扩展为1并且使用条件组成评分矩阵调整来确定序列同一性。

一方面，本公开提供了一种工程化的向导RNA，其包括DNA靶向区段。在一些情况下，DNA靶向区段包括与靶序列互补的核苷酸序列。在一些情况下，靶序列在靶DNA分子中。在一些情况下，工程化的向导RNA包括蛋白质结合区段。在一些情况下，蛋白质结合区段包括两个互补核苷酸延伸段。在一些情况下，两个互补核苷酸延伸段杂交以形成双链RNA(dsRNA)双链体。在一些情况下，两个互补核苷酸延伸段用中间核苷酸彼此共价连接。在一些情况下，工程化的向导核糖核酸多核苷酸能够与核酸内切酶形成复合物。在一些情况下，核酸内切酶与SEQ ID NO:1-15中的任一者具有至少约20％、至少约25％、至少约30％、至少约35％、至少约40％、至少约45％、至少约50％、至少约55％、至少约60％、至少约65％、至少约70％、至少约75％、至少约80％、至少约85％、至少约90％、至少约91％、至少约92％、至少约93％、至少约94％、至少约95％、至少约96％、至少约97％、至少约98％或至少约99％同一性。在一些情况下，复合物靶向靶DNA分子的靶序列。在一些情况下，DNA靶向区段位于两个互补核苷酸延伸段中的两个互补核苷酸延伸段的3'处。

在一些情况下，双链RNA(dsRNA)双链体包括至少8个核糖核苷酸。在一些情况下，双链RNA(dsRNA)双链体包括至少9个核糖核苷酸。在一些情况下，双链RNA(dsRNA)双链体包括至少10个核糖核苷酸。在一些情况下，双链RNA(dsRNA)双链体包括至少11个核糖核苷酸。在一些情况下，双链RNA(dsRNA)双链体包括至少12个核糖核苷酸。

在一些情况下，脱氧核糖核酸多核苷酸编码工程化的向导核糖核酸多核苷酸。

一方面，本公开提供了一种核酸，其包括工程化的核酸序列。在一些情况下，工程化的核酸序列经优化以在生物体中表达。在一些情况下，核酸编码核酸内切酶。在一些情况下，核酸内切酶是Cas核酸内切酶。在一些情况下，核酸内切酶是2类核酸内切酶。在一些情况下，核酸内切酶是2类V型Cas核酸内切酶。在一些情况下，核酸内切酶是2类V型新亚型Cas核酸内切酶。在一些情况下，核酸内切酶衍生自未培养的微生物。在一些情况下，生物体不是未培养的生物体。

在一些情况下，核酸内切酶包括与SEQ ID NO:1-15中的任一者具有至少约20％、至少约25％、至少约30％、至少约35％、至少约40％、至少约45％、至少约50％、至少约55％、至少约60％、至少约65％、至少约70％、至少约75％、至少约80％、至少约85％、至少约90％、至少约91％、至少约92％、至少约93％、至少约94％、至少约95％、至少约96％、至少约97％、至少约98％或至少约99％序列同一性的变体。

在一些情况下，核酸内切酶可以包括具有一个或多个核定位序列(NLS)的变体。NLS可以接近核酸内切酶的N末端或C末端。NLS可以被附加到SEQ ID NO:36-51中的任一者的N末端或C末端，或者被附加到与SEQ ID NO:36-51中的任一者具有至少约20％、至少约25％、至少约30％、至少约35％、至少约40％、至少约45％、至少约50％、至少约55％、至少约60％、至少约65％、至少约70％、至少约75％、至少约80％、至少约85％、至少约90％、至少约91％、至少约92％、至少约93％、至少约94％、至少约95％、至少约96％、至少约97％、至少约98％或至少约99％序列同一性的变体。

在一些情况下，生物体是原核生物。在一些情况下，生物体是细菌。在一些情况下，生物体是真核生物。在一些情况下，生物体是真菌。在一些情况下，生物体是植物。在一些情况下，生物体是哺乳动物。在一些情况下，生物体是啮齿动物。在一些情况下，生物体是人。

一方面，本公开提供了一种工程化的载体。在一些情况下，工程化的载体包括编码核酸内切酶的核酸序列。在一些情况下，核酸内切酶是Cas核酸内切酶。在一些情况下，核酸内切酶是2类Cas核酸内切酶。在一些情况下，核酸内切酶是2类V型Cas核酸内切酶。在一些情况下，核酸内切酶是2类V型新亚型Cas核酸内切酶。在一些情况下，核酸内切酶衍生自未培养的微生物。

在一些情况下，工程化的载体包括本文所描述的核酸。在一些情况下，本文所描述的核酸是本文所描述的脱氧核糖核酸多核苷酸。在一些情况下，载体是质粒、微环、CELiD、腺相关病毒(AAV)源性病毒体、慢病毒或慢病毒。

一方面，本公开提供了一种包括本文所描述的载体的细胞。

一方面，本公开提供了一种产生核酸内切酶的方法。在一些情况下，所述方法包括培养细胞。

一方面，本公开提供了一种用于结合、切割、标记或修饰双链脱氧核糖核酸多核苷酸的方法。所述方法可以包括使双链脱氧核糖核酸多核苷酸与核酸内切酶接触。在一些情况下，核酸内切酶是Cas核酸内切酶。在一些情况下，核酸内切酶是2类Cas核酸内切酶。在一些情况下，核酸内切酶是2类V型Cas核酸内切酶。在一些情况下，核酸内切酶是2类V型新亚型Cas核酸内切酶。在一些情况下，核酸内切酶与工程化的向导RNA复合。在一些情况下，工程化的向导RNA被配置成与核酸内切酶结合。在一些情况下，工程化的向导RNA被配置成与双链脱氧核糖核酸多核苷酸结合。在一些情况下，工程化的向导RNA被配置成与核酸内切酶和与双链脱氧核糖核酸多核苷酸结合。在一些情况下，双链脱氧核糖核酸多核苷酸包括原间隔子相邻基序(PAM)。

在一些情况下，双链脱氧核糖核酸多核苷酸包括第一链和第二链，所述第一链包含与工程化的向导RNA的序列互补的序列，并且所述第二链包括PAM。在一些情况下，PAM直接邻近与工程化的向导RNA的序列互补的序列的5'端。在一些情况下，核酸内切酶不是Cpf1核酸内切酶或Cms1核酸内切酶。在一些情况下，核酸内切酶衍生自未培养的微生物。在一些情况下，双链脱氧核糖核酸多核苷酸是真核生物、植物、真菌、哺乳动物、啮齿动物或人双链脱氧核糖核酸多核苷酸。

一方面，本公开提供了一种修饰靶核酸基因座的方法。所述方法可以包括将本文所描述的工程化的核酸酶系统递送到靶核酸基因座。在一些情况下，核酸内切酶被配置成与工程化的向导核糖核酸结构形成复合物。在一些情况下，复合物被配置成使得在复合物与靶核酸基因座结合时，复合物修饰靶核酸基因座。

在一些情况下，修饰靶核酸基因座包括结合、切开、切割或标记所述靶核酸基因座。在一些情况下，靶核酸基因座包括脱氧核糖核酸(DNA)或核糖核酸(RNA)。在一些情况下，靶核酸包括基因组DNA、病毒DNA、病毒RNA或细菌DNA。在一些情况下，靶核酸基因座在体外。在一些情况下，靶核酸基因座在细胞内。在一些情况下，细胞是原核细胞、细菌细胞、真核细胞、真菌细胞、植物细胞、动物细胞、哺乳动物细胞、啮齿动物细胞、灵长类动物细胞或人细胞。

在一些情况下，工程化的核酸酶系统向靶核酸基因座的递送包括递送本文所描述的核酸或本文所描述的载体。在一些情况下，工程化的核酸酶系统向靶核酸基因座的递送包括递送包含编码核酸内切酶的开放阅读框的核酸。在一些情况下，核酸包括启动子。在一些情况下，编码核酸内切酶的开放阅读框与启动子可操作地连接。

在一些情况下，工程化的核酸酶系统向靶核酸基因座的递送包括递送含有编码核酸内切酶的开放阅读框的封端mRNA。在一些情况下，工程化的核酸酶系统向靶核酸基因座的递送包括递送翻译的多肽。在一些情况下，工程化的核酸酶系统向靶核酸基因座的递送包括递送编码与核糖核酸(RNA)pol III启动子可操作地连接的工程化的向导RNA的脱氧核糖核酸(DNA)。

在一些情况下，核酸内切酶在靶基因座处或附近诱导单链断裂或双链断裂。在一些情况下，核酸内切酶诱导所述靶基因座内或位于所述靶基因座的3'处的交错的单链断裂。

在一些情况下，效应子重复序列基序用于为MG核酸酶的向导设计提供信息。例如，V型系统中的经处理的gRNA由CRISPR重复序列的最后20-22个核苷酸组成。可以将此序列合成为crRNA(连同间隔子)，并且连同合成的核酸酶一起在体外测试，用于在可能靶标的文库上切割。使用这种方法，可以确定PAM。在一些情况下，V型酶可以使用“通用”gRNA。在一些情况下，V型酶可能需要独特的gRNA。

本公开的系统可以用于各种应用，例如核酸编辑(例如基因编辑)、与核酸分子结合(例如序列特异性结合)。此类系统可以用于例如解决(例如，去除或替换)可能引起受试者的疾病的遗传突变，使基因灭活以便确定其在细胞中的功能，作为检测致病遗传元件的诊断工具(例如通过裂解逆转录病毒RNA或编码致病突变的扩增DNA序列)，作为灭活酶与探针结合以靶向和检测特定核苷酸序列(例如编码细菌抗生素抗性的序列)，通过靶向病毒基因组使病毒灭活或无法感染宿主细胞，添加基因或修改代谢途径来对生物体进行工程化以产生有价值的小分子、大分子或次级代谢物，建立用于进化选择的基因驱动元件，作为生物传感器检测外来小分子和核苷酸对细胞的干扰。

实例

根据IUPAC惯例，在各个实施例中使用以下缩写：

A＝腺嘌呤

C＝胞嘧啶

G＝鸟嘌呤

T＝胸腺嘧啶

R＝腺嘌呤或鸟嘌呤

Y＝胞嘧啶或胸腺嘧啶

S＝鸟嘌呤或胞嘧啶

W＝腺嘌呤或胸腺嘧啶

K＝鸟嘌呤或胸腺嘧啶

M＝腺嘌呤或胞嘧啶

B＝C、G或T

D＝A、G或T

H＝A、C或T

V＝A、C或G

实施例1-一种新蛋白质的宏基因组分析的方法

从沉积物、土壤和动物收集宏基因组样品。用Zymobiomics DNA微量制备型试剂盒提取脱氧核糖核酸(DNA)并在Illumina2500上测序。在产权所有者同意的情况下收集样品。来自公共来源的另外的原始序列数据包含动物微生物群、沉积物、土壤、温泉、深海热泉、海洋、泥炭沼泽、永久冻土和污水序列。使用基于包含II类V型Cas效应蛋白的已知Cas蛋白序列生成的隐马尔可夫模型来搜索宏基因组序列数据以鉴定新的Cas效应子。通过搜索鉴定的新型效应蛋白与已知蛋白质比对以鉴定潜在的活性位点。此宏基因组工作流导致本文所描述的MG90、MG118、MG119、MG120、MG126和MG127家族的描绘。

实施例2-CRISPR系统的MG90、MG118、MG119、MG120、MG126和MG127家族的发现

对来自实施例1的宏基因组分析的数据的分析揭示了先前未描述的推定CRISPR系统的新簇，其包括9个家族(MG90、MG118、MG119、MG120、MG126和MG127)。这些新酶及其示例性亚结构域的对应蛋白质和核酸序列如SEQ ID NO:1-15所示。

实施例3-用于转录和翻译的模板DNA

所有MG VU和CasPhi核酸酶的大肠杆菌密码子优化序列在具有T7启动子的质粒中排序(Twist Biosciences)。通过PCR从质粒扩增线性模板，以包括T7和核酸酶序列。从由T7启动子、天然重复序列、通用间隔子和天然重复序列组成的序列来扩增最小阵列线性模板，侧接用于扩增的衔接子序列。通用间隔子匹配8N靶文库中的间隔子，其中存在邻近间隔子的8N个混合碱基以用于PAM确定。从宏基因组重叠群鉴定ORF或CRISPR阵列附近的三个基因间序列，并且将其排序为具有用于扩增的侧接衔接子序列的gBlock(整合DNA技术)。

实施例4-crRNA、最小阵列和sgRNA的体外转录

RNA使用HiScribe^TMT7高产率RNA合成试剂盒通过体外转录产生，并且使用RNA清洁试剂盒(新英格兰生物实验室公司(New England Biolabs Inc.))纯化。用于T7转录的模板不同。对于crRNA，DNA寡核苷酸被设计成具有T7启动子、修剪的天然重复序列和通用间隔子。对于最小阵列，使用与上述相同的模板。对于sgRNA，DNA ultramer被设计成具有T7启动子、修剪的tracrRNA、GAAA四环、修剪的天然重复序列和通用间隔子。用衔接子引物扩增最小阵列模板。将crRNA和sgRNA模板作为反向补体排序，并且在95℃下用具有T7启动子序列的引物在1X IDT双链体缓冲液中退火两分钟，随后以0.1℃/秒冷却至22℃，以产生适合于转录的混合ds/ssDNA底物。在转录之后，但在清洁之前，将每个反应用DNA酶I处理并在37℃下温育15分钟。经由RNA Tapestation或经由变性脲PAGE凝胶来验证所有转录产物的产率和纯度。

实施例5-TXTL表达

使用Sigma 70主混合物试剂盒(Arbor生物科学公司)在转录翻译反应混合物中表达核酸酶、基因间序列和最小阵列。最终反应混合物含有5nM核酸酶DNA模板、12nM基因间DNA模板、15nM最小阵列DNA模板、0.1nM pTXTL-P70a-T7rnap和1X的Sigma 70主混合物。将反应在29℃下温育16小时，然后在4℃下储存。

实施例6-PURExpress表达

用体外蛋白质合成试剂盒(新英格兰生物实验室公司)在37℃下表达10nM的核酸酶PCR模板3小时，以用于用体外转录的RNA切割。这些反应用于按照与切割反应部分中所述的相同程序，用50nM sgRNA或最小阵列RNA测试体外切割。

实施例7-大肠杆菌表达

将编码效应子的质粒、来自基因组重叠群的基因间序列、天然重复序列和具有T7启动子的通用间隔子序列转化成BL21 DE3或T7表达lysY/Iq，并且在37℃下在补充有100μg/mL的氨苄西林(ampicillin)的60mL极品肉汤培养基中培养。在培养物达到0.5的OD_600nm并在16℃下温育过夜后，用0.4mM IPTG诱导表达。通过离心使25mL的细胞沉淀并重悬于1.5mL的裂解缓冲液(20mM Tris-HCl、500mM NaCl、1mM TCEP、5％甘油、具有Pierce蛋白酶抑制剂(Thermo Scientific^TM)的10mM MgCl2 pH 7.5)中。然后通过超声处理裂解细胞。通过离心分离上清液和细胞碎片。

实施例8-切割反应

质粒文库DNA切割反应通过在37℃下混合5nM的靶文库、TXTL或PURExpress表达的5倍稀释、10nM Tris-HCl、10nM MgCl₂和100mM NaCl持续2小时来进行。对于与大肠杆菌表达的反应，添加10μL澄清的裂解物。将反应停止并用HighPrep^TMPCR清洁珠(MAGBIO基因组公司)清洁，并且在Tris EDTApH 8.0缓冲液中洗脱。将3nM的切割产物端在25℃下用3.33μMdNTP、1X T4 DNA连接酶缓冲液和0.167U/μL的Klenow片段(新英格兰生物实验室公司)钝化15分钟。将1.5nM的切割产物与150nM衔接子、1X T4 DNA连接酶缓冲液(新英格兰生物实验室公司)、20U/μL T4 DNA连接酶(新英格兰生物实验室公司)在室温下连接20分钟。将经连接的产物用NGS引物通过PCR扩增，并且通过NGS测序以获得PAM。

实施例9-来自TXTL和大肠杆菌裂解物的基因间富集的RNAseq文库制备

使用Quick-RNA^TM微量制备型试剂盒(Zymo研究公司)从TXTL和细胞裂解物中提取RNA，并在30-50μL的水中洗脱。在Nanodrop、Tapestation和Qubit上测量转录物的总浓度。

使用Illumina的NEBNext小RNA文库制备装置(NEBNext Small RNA Library PrepSet)(新英格兰生物实验室公司)制备来自每个样品的100ng-1ug总RNA用于RNA测序。通过Tapeststation和Qubit定量150-300bp之间的扩增子，并合并至4nM的最终浓度。将12.5pM的最终浓度加载到MiSeq V3试剂盒中，并且在Miseq系统(Illumina)中测序176个总循环。RNAseq读段用于鉴定基因的tracr序列。

实施例10-预测的RNA折叠

使用Andronescu 2007的方法在37℃下计算活性单个RNA序列的预测的RNA折叠。碱基的着色对应于该碱基的碱基配对的概率。

实施例11-体外切割效率(预示性的)

在T7诱导型启动子下，在大肠杆菌蛋白酶缺陷型B菌株中表达蛋白质，使用超声处理来裂解细胞，并且使用HisTrap FF(通用生命科学公司)Ni-NTA亲和色谱法在AKTA AvantFPLC(通用生命科学公司)上纯化所关注的His标记的蛋白质。使用ImageLab软件(伯乐公司)中的密度测定法测定在SDS-PAGE和InstantBlue超高速(西格玛-奥德里奇公司)考马斯染色的丙烯酰胺凝胶(伯乐公司)上解析的蛋白质带的纯度。将蛋白质在由50mM Tris-HCl、300mM NaCl、1mM TCEP、5％甘油组成的储存缓冲液中脱盐；pH 7.5，并在-80℃下储存。

构建含有间隔子序列和经由NGS确定的PAM的靶DNA。在PAM中的简并碱基的情况下，选择单个代表性PAM进行测试。靶DNA是通过PCR扩增衍生自质粒的2200bp的线性DNA。PAM和间隔子位于距一端700bp处。成功的切割产生700和1500bp的片段。

将靶DNA、体外转录的单RNA和经纯化的重组蛋白在含有过量蛋白质和RNA的切割缓冲液(10mM Tris、100mM NaCl、10mM MgCl2)中组合，并温育5分钟至3小时，通常为1小时。将反应经由添加RNA酶A并在60℃下温育来停止。将反应在1.2％ TAE琼脂糖凝胶上解析，并且在ImageLab软件中定量切割的靶DNA的级分。

实施例12-大肠杆菌中的活性(预示性的)

为了测试细菌细胞中的核酸酶活性，用含有靶间隔子和对所关注的酶具有特异性的对应PAM序列的基因组序列构建菌株。然后用所关注的核酸酶转化工程化的菌株，并且随后使转化子具有化学能力，并且用50ng的对靶序列(在靶)具有特异性或对靶标(脱靶)不具有特异性的单个向导转化。在热冲击之后，在37℃下在SOC中将转化回收2小时，并且然后通过在诱导培养基上生长的5倍稀释系列来确定核酸酶效率。稀释系列一式三份地定量菌落。

实施例13-哺乳动物细胞中的活性(预示性的)

为了示出在哺乳动物细胞中的靶向和切割活性，将蛋白质序列克隆到2个哺乳动物表达载体中，一个具有C末端SV40 NLS和2A-GFP标签以及一个没有GFP标签和2个NLS序列(一个在N末端上并且一个在C末端上)。也可以使用的替代的NLS序列。蛋白质的DNA序列可以是天然序列、大肠杆菌密码子优化序列或哺乳动物密码子优化序列。具有所关注的基因靶标的单向导RNA序列也克隆到哺乳动物表达载体中。将两个质粒共转染到HEK293T细胞中。在共转染表达质粒和sgRNA靶向质粒72小时之后，提取DNA并用于制备NGS文库。在靶位点的测序中通过插入缺失测量NHEJ百分比，以证明酶在哺乳动物细胞中的靶向效率。选择至少10个不同的靶位点用于测试每个蛋白质的活性。

表2-本文提及的蛋白质和核酸序列

虽然已经在本文示出并描述了本发明的优选实施方案，但是对本领域的普通技术人员而言应该显而易见是此类实施方案仅以举例方式提供。本发明不旨在受说明书中提供的具体实施方案的限制。虽然已参考前述说明书描述本发明，但本文实施方案的描述和说明不打算以限制性意义进行。在不脱离本发明的情况下，所属领域的技术人员现在将意识到许多变型、变化和替代物。此外，应当理解，本发明的全部方面不限于本文所阐述的具体描述、配置或相对比例，其取决于各种条件和变量。应理解，本文所描述的本发明的实施方案的各个替代方案都可以用于实践本发明。因此，经考虑本发明应同样涵盖任何这类替代方案、修改、变型或等效物。所附权利要求书旨在限定本发明的范围，并且由此覆盖这些权利要求和其等效物的范围内的方法和结构。

Claims

1.一种工程化的核酸酶系统，其包括：

(a)核酸内切酶，所述核酸内切酶包括RuvC结构域，其中所述核酸内切酶衍生自未培养的微生物，并且其中所述核酸内切酶不是Cas12a核酸内切酶；以及

(b)工程化的向导RNA，其中所述工程化的向导RNA被配置成与所述核酸内切酶形成复合物，并且所述工程化的向导RNA包括被配置成与靶核酸序列杂交的间隔子序列。

2.一种工程化的核酸酶系统，其包括：

(a)核酸内切酶，所述核酸内切酶与SEQ ID NO:1-15中的任一者或其变体具有至少75％序列同一性；以及

3.根据权利要求1或权利要求2所述的工程化的核酸酶系统，其中所述向导RNA包括与SEQ ID NO:30-35中的任一者的非简并核苷酸具有至少80％序列同一性的序列。

4.一种工程化的核酸酶系统，其包括：

(a)工程化的向导RNA，所述工程化的向导RNA包括与SEQ ID NO:30-35中的任一者的非简并核苷酸具有至少80％序列同一性的序列，以及

(b)2类V型Cas核酸内切酶，所述2类V型Cas核酸内切酶被配置成与所述工程化的向导RNA结合。

5.根据权利要求1至4中任一项所述的工程化的核酸酶系统，其中所述向导RNA包括与真核生物、真菌、植物、哺乳动物或人基因组多核苷酸序列互补的序列。

6.根据权利要求1至5中任一项所述的工程化的核酸酶系统，其中所述向导RNA的长度为30-250个核苷酸。

7.根据权利要求1至6中任一项所述的工程化的核酸酶系统，其中所述核酸内切酶包括接近所述核酸内切酶的N末端或C末端的一个或多个核定位序列(NLS)。

8.根据权利要求1至7中任一项所述的工程化的核酸酶系统，其中所述NLS包括与来自由SEQ ID NO:36-51组成的组的序列至少80％相同的序列。

9.根据权利要求1至8中任一项所述的工程化的核酸酶系统，其进一步包括

单链或双链DNA修复模板，所述单链或双链DNA修复模板从5'至3'包括：第一同源臂，所述第一同源臂包括位于靶脱氧核糖核酸序列的5'的至少20个核苷酸的序列；至少10个核苷酸的合成DNA序列；以及第二同源臂，所述第二同源臂包括位于靶序列的3'的至少20个核苷酸的序列。

10.根据权利要求9所述的工程化的核酸酶系统，其中所述第一同源臂或所述第二同源臂包括至少40、80、120、150、200、300、500或1,000个核苷酸的序列。

11.根据权利要求9或权利要求10所述的工程化的核酸酶系统，其中所述第一同源臂和所述第二同源臂与原核生物、细菌、真菌或真核生物的基因组序列同源。

12.根据权利要求9至11中任一项所述的工程化的核酸酶系统，其中所述单链或双链DNA修复模板包括转基因供体。

13.根据权利要求1至12中任一项所述的工程化的核酸酶系统，其进一步包括包含侧接一个或两个单链DNA区段的双链DNA区段的DNA修复模板。

14.根据权利要求13所述的工程化的核酸酶系统，其中所述单链DNA区段与所述双链DNA区段的5'端缀合。

15.根据权利要求13所述的工程化的核酸酶系统，其中所述单链DNA区段与所述双链DNA区段的3'端缀合。

16.根据权利要求13至15中任一项所述的工程化的核酸酶系统，其中所述单链DNA区段具有4至10个核苷酸碱基的长度。

17.根据权利要求13至16中任一项所述的工程化的核酸酶系统，其中所述单链DNA区段具有与所述间隔子序列内的序列互补的核苷酸序列。

18.根据权利要求13至17中任一项所述的工程化的核酸酶系统，其中所述双链DNA序列包括条形码、开放阅读框、增强子、启动子、蛋白质编码序列、miRNA编码序列、RNA编码序列或转基因。

19.根据权利要求13至17中任一项所述的工程化的核酸酶系统，其中所述双链DNA序列侧接核酸酶切割位点。

20.根据权利要求19所述的工程化的核酸酶系统，其中所述核酸酶切割位点包括间隔子和PAM序列。

21.根据权利要求1至20中任一项所述的工程化的核酸酶系统，其中所述系统进一步包括Mg²⁺的来源。

22.根据权利要求1至21中任一项所述的工程化的核酸酶系统，其中所述向导RNA包括包含至少8个、至少10个或至少12个碱基配对的核糖核苷酸的发夹。

23.根据权利要求22所述的工程化的核酸酶系统，其中所述发夹包括10个碱基配对的核糖核苷酸。

24.根据权利要求1至23中任一项所述的工程化的核酸酶系统，其中：

a)所述核酸内切酶包括与SEQ ID NO:1-3、11、13或15中的任一者或其变体至少75％、80％或90％相同的序列；并且

b)所述向导RNA结构包括与SEQ ID NO:30-35中的任一者的非简并核苷酸至少80％或90％相同的序列。

25.根据权利要求2至24中任一项所述的工程化的核酸酶系统，其中所述序列同一性是通过BLASTP、CLUSTALW、MUSCLE、MAFFT算法或CLUSTALW算法使用史密斯-沃特曼同源性搜索算法参数(Smith-Waterman homology search algorithm parameter)来确定的。

26.根据权利要求25所述的工程化的核酸酶系统，其中所述序列同一性是通过所述BLASTP同源性搜索算法使用字长(W)为3、期望值(E)为10的参数以及BLOSUM62评分矩阵将空位罚分设置为存在11，扩展1并且使用条件组成评分矩阵调整来确定的。

27.一种工程化的向导RNA，其包括：

a)DNA靶向区段，所述DNA靶向区段包括与靶DNA分子中的靶序列互补的核苷酸序列；以及

b)蛋白质结合区段，所述蛋白质结合区段包括杂交以形成双链RNA(dsRNA)双链体的两个互补核苷酸延伸段，

其中所述两个互补核苷酸延伸段与中间核苷酸彼此共价连接，并且

其中所述工程化的向导核糖核酸多核苷酸能够与核酸内切酶形成复合物，所述核酸内切酶与SEQ ID NO:1-15中的任一者具有至少75％序列同一性，并将所述复合物靶向所述靶DNA分子的所述靶序列。

28.根据权利要求27所述的工程化的向导核糖核酸多核苷酸，其中所述DNA靶向区段位于所述两个互补核苷酸延伸段中的两个互补核苷酸延伸段的3'处。

29.根据权利要求27或28所述的工程化的向导核糖核酸多核苷酸，其中所述蛋白质结合区段包括与SEQ ID NO:30-35的非简并核苷酸具有至少70％、至少80％或至少90％同一性的序列。

30.根据权利要求27至29中任一项所述的工程化的向导核糖核酸多核苷酸，其中所述双链RNA(dsRNA)双链体包括至少5个、至少8个、至少10个或至少12个核糖核苷酸。

31.一种脱氧核糖核酸多核苷酸，其编码根据权利要求1至40中任一项所述的工程化的向导核糖核酸多核苷酸。

32.一种核酸，其包括为在生物体中表达而优化的工程化的核酸序列，其中所述核酸编码2类V型Cas核酸内切酶，并且其中所述核酸内切酶衍生自未培养的微生物，其中所述生物体不是所述未培养的生物体。

33.根据权利要求32所述的核酸，其中所述核酸内切酶包括与SEQ ID NO:1-15中的任一者具有至少70％或至少80％序列同一性的变体。

34.根据权利要求32或33所述的核酸，其中所述核酸内切酶包括编码接近所述核酸内切酶的N末端或C末端的一个或多个核定位序列(NLS)的序列。

35.根据权利要求34所述的核酸，其中所述NLS包含选自SEQ ID NO:36-51的序列。

36.根据权利要求34或35所述的核酸，其中所述NLS包含SEQ ID NO:37。

37.根据权利要求36所述的核酸，其中所述NLS接近所述核酸内切酶的所述N末端。

38.根据权利要求34或35所述的核酸，其中所述NLS包含SEQ ID NO:36。

39.根据权利要求38所述的核酸，其中所述NLS接近所述核酸内切酶的所述C末端。

40.根据权利要求32至39中任一项所述的核酸，其中所述生物体是原核生物、细菌、真核生物、真菌、植物、哺乳动物、啮齿动物或人。

41.一种工程化的载体，其包括编码2类V型Cas核酸内切酶的核酸序列，其中所述核酸内切酶衍生自未培养的微生物。

42.一种工程化的载体，其包括根据权利要求32至36中任一项所述的核酸。

43.一种工程化的载体，其包括根据权利要求31所述的脱氧核糖核酸多核苷酸。

44.根据权利要求41至43中任一项所述的工程化的载体，其中所述载体是质粒、微环、CELiD、腺相关病毒(AAV)源性病毒体、慢病毒或腺病毒。

45.一种细胞，其包括根据权利要求41至44中任一项所述的载体。

46.一种产生核酸内切酶的方法，其包括培养根据权利要求45所述的细胞。

47.一种用于结合、切割、标记或修饰双链脱氧核糖核酸多核苷酸的方法，其包括：

(a)使所述双链脱氧核糖核酸多核苷酸与与被配置成与所述核酸内切酶和所述双链脱氧核糖核酸多核苷酸结合的工程化的向导RNA复合的2类V型Cas核酸内切酶接触；

其中所述双链脱氧核糖核酸多核苷酸包括原间隔子相邻基序(PAM)；并且

其中所述向导RNA结构包括与SEQ ID NO:30-35中的任一者的非简并核苷酸至少80％或90％相同的序列。

48.根据权利要求47所述的方法，其中所述双链脱氧核糖核酸多核苷酸包括第一链和第二链，所述第一链包括与所述工程化的向导RNA的序列互补的序列，并且所述第二链包括所述PAM。

49.根据权利要求48所述的方法，其中所述PAM直接邻近与所述工程化的向导RNA的所述序列互补的所述序列的5'端。

50.根据权利要求47至49中任一项所述的方法，其中所述2类V型Cas核酸内切酶衍生自未培养的微生物。

51.根据权利要求47至50中任一项所述的方法，其中所述双链脱氧核糖核酸多核苷酸是真核生物、植物、真菌、哺乳动物、啮齿动物或人双链脱氧核糖核酸多核苷酸。

52.一种修饰靶核酸基因座的方法，所述方法包括向所述靶核酸基因座递送根据权利要求1至26中任一项所述的所述工程化的核酸酶系统，其中所述核酸内切酶被配置成与所述工程化的向导核糖核酸结构形成复合物，并且其中所述复合物被配置成使得在所述复合物与所述靶核酸基因座结合时，所述复合物修饰所述靶核酸基因座。

53.根据权利要求52所述的方法，其中修饰所述靶核酸基因座包括结合、切开、切割或标记所述靶核酸基因座。

54.根据权利要求52或53所述的方法，其中所述靶核酸基因座包括脱氧核糖核酸(DNA)或核糖核酸(RNA)。

55.根据权利要求52所述的方法，其中所述靶核酸包括基因组DNA、病毒DNA、病毒RNA或细菌DNA。

56.根据权利要求52至55中任一项所述的方法，其中所述靶核酸基因座在体外。

57.根据权利要求52至55中任一项所述的方法，其中所述靶核酸基因座在细胞内。

58.根据权利要求57所述的方法，其中所述细胞是原核细胞、细菌细胞、真核细胞、真菌细胞、植物细胞、动物细胞、哺乳动物细胞、啮齿动物细胞、灵长类动物细胞、人细胞或原代细胞。

59.根据权利要求57或58所述的方法，其中所述细胞是原代细胞。

60.根据权利要求59所述的方法，其中所述原代细胞是T细胞。

61.根据权利要求59所述的方法，其中所述原代细胞是造血干细胞(HSC)。

62.根据权利要求52至61中任一项所述的方法，其中将所述工程化的核酸酶系统递送到所述靶核酸基因座包括递送根据权利要求32至36中任一项所述的核酸或根据权利要求41至44中任一项所述的载体。

63.根据权利要求52至62中任一项所述的方法，其中将所述工程化的核酸酶系统递送到所述靶核酸基因座包括递送包括编码所述核酸内切酶的开放阅读框的核酸。

64.根据权利要求63所述的方法，其中所述核酸包括编码所述核酸内切酶的所述开放阅读框可操作地连接的启动子。

65.根据权利要求52至64中任一项所述的方法，其中将所述工程化的核酸酶系统递送到所述靶核酸基因座包括递送含有编码所述核酸内切酶的所述开放阅读框的封端mRNA。

66.根据权利要求52至65中任一项所述的方法，其中将所述工程化的核酸酶系统递送到所述靶核酸基因座包括递送翻译的多肽。

67.根据权利要求52至65中任一项所述的方法，其中将所述工程化的核酸酶系统递送到所述靶核酸基因座包括递送编码与核糖核酸(RNA)pol III启动子可操作地连接的所述工程化的向导RNA的脱氧核糖核酸(DNA)。

68.根据权利要求52至67中任一项所述的方法，其中所述核酸内切酶在所述靶基因座处或附近诱导单链断裂或双链断裂。

69.根据权利要求68所述的方法，其中所述核酸内切酶诱导所述靶基因座内或位于所述靶基因座的3'处的交错的单链断裂。

70.一种宿主细胞，其包括编码与SEQ ID NO:1-15中的任一者或其变体具有至少75％序列同一性的异源性核酸内切酶的开放阅读框。

71.根据权利要求70所述的宿主细胞，其中所述核酸内切酶与SEQ ID NO:1-3、11、13或15中的任一者或其变体具有至少75％序列同一性。

72.根据权利要求70或权利要求71所述的宿主细胞，其中所述宿主细胞是大肠杆菌细胞。

73.根据权利要求72所述的宿主细胞，其中所述大肠杆菌细胞是λDE3溶素原，或者所述大肠杆菌细胞是BL21(DE3)菌株。

74.根据权利要求72或73所述的宿主细胞，其中所述大肠杆菌细胞具有ompT lon基因型。

75.根据权利要求70至74中任一项所述的宿主细胞，其中所述开放阅读框与以下可操作地连接：T7启动子序列、T7-lac启动子序列、lac启动子序列、tac启动子序列、trc启动子序列、ParaBAD启动子序列、PrhaBAD启动子序列、T5启动子序列、cspA启动子序列、araP_BAD启动子、来自噬菌体λ的强向左启动子(pL启动子)或其任何组合。

76.根据权利要求70至75中任一项所述的宿主细胞，其中所述开放阅读框包含编码亲和标签的序列，所述亲和标签与编码所述核酸内切酶的序列框内连接。

77.根据权利要求76所述的方法，其中所述亲和标签是固定化金属亲和色谱法(IMAC)标签。

78.根据权利要求77所述的方法，其中所述IMAC标签是聚组氨酸标签。

79.根据权利要求76所述的方法，其中所述亲和标签是myc标签、人流感血凝素(HA)标签、麦芽糖结合蛋白(MBP)标签、谷胱甘肽S-转移酶(GST)标签、链霉亲和素标签、FLAG标签或其任何组合。

80.根据权利要求76至79中任一项所述的宿主细胞，其中所述亲和标签经由编码蛋白酶切割位点的接头序列与编码所述核酸内切酶的所述序列框内连接。

81.根据权利要求80所述的宿主细胞，其中所述蛋白酶切割位点是烟草蚀纹病毒(TEV)蛋白酶切割位点、蛋白酶切割位点、凝血酶切割位点、因子Xa切割位点、肠激酶切割位点或其任何组合。

82.根据权利要求70至81中任一项所述的宿主细胞，其中所述开放阅读框被密码子优化以用于在所述宿主细胞中表达。

83.根据权利要求70至82中任一项所述的宿主细胞，其中所述开放阅读框在载体上提供。

84.根据权利要求70至82中任一项所述的宿主细胞，其中所述开放阅读框被整合到所述宿主细胞的基因组中。

85.一种培养物，其包括在相容性液体培养基中的根据权利要求70至84中任一项所述的宿主细胞。

86.一种产生核酸内切酶的方法，其包括在相容性生长培养基中培养根据权利要求70至84中任一项所述的宿主细胞。

87.根据权利要求86所述的方法，其进一步包括通过添加另外的化学剂或增加量的营养物来诱导所述核酸内切酶的表达。

88.根据权利要求87所述的方法，其中另外的化学剂或增加量的营养物包括异丙基β-D-1-硫代半乳糖苷(IPTG)或另外量的乳糖。

89.根据权利要求86至88中任一项所述的方法，其进一步包括在所述培养之后分离所述宿主细胞，并且裂解所述宿主细胞以产生蛋白提取物。

90.根据权利要求89所述的方法，其进一步包括使所述蛋白提取物经受IMAC或离子亲和色谱法。

91.根据权利要求90所述的方法，其中所述开放阅读框包含编码IMAC亲和标签的序列，所述IMAC亲和标签与编码所述核酸内切酶的序列框内连接。

92.根据权利要求91所述的方法，其中所述IMAC亲和标签经由编码蛋白酶切割位点的接头序列与编码所述核酸内切酶的所述序列框内连接。

93.根据权利要求92所述的方法，其中所述蛋白酶切割位点包括烟草蚀纹病毒(TEV)蛋白酶切割位点、蛋白酶切割位点、凝血酶切割位点、因子Xa切割位点、肠激酶切割位点或其任何组合。

94.根据权利要求92至93中任一项所述的方法，其进一步包括通过使对应于所述蛋白酶切割位点的蛋白酶与所述核酸内切酶接触来切割所述IMAC亲和标签。

95.根据权利要求94所述的方法，其进一步包括执行减材IMAC亲和色谱法以从包括所述核酸内切酶的组合物中去除所述亲和标签。

96.一种破坏细胞中的基因座的方法，其包括使所述细胞与包括以下的组合物接触：

(a)2类V型Cas核酸内切酶，所述2类V型Cas核酸内切酶与SEQ ID NO:1-15中的任一者或其变体具有至少75％同一性；以及

(b)工程化的向导RNA，其中所述工程化的向导RNA被配置成与所述核酸内切酶形成复合物，并且所述工程化的向导RNA包括被配置成与所述基因座的区杂交的间隔子序列，

其中所述2类V型Cas核酸内切酶具有与所述细胞中的spCas9至少等效的切割活性。

97.根据权利要求96所述的方法，其中通过将所述核酸内切酶连同相容性向导RNA一起引入到包括所述靶核酸的细胞中并检测所述细胞中所述靶核酸序列的切割来体外测量所述切割活性。

98.根据权利要求96或权利要求97所述的方法，其中所述组合物包括20pmol或更少的所述2类V型Cas核酸内切酶。

99.根据权利要求98所述的方法，其中所述组合物包括1pmol或更少的所述2类V型Cas核酸内切酶。