发明内容
本发明旨在至少在一定程度上解决现有技术中存在的技术问题至少之一。
最近基于CRISPR技术(clustered regularly interspaced short palindromicrepeats,CRISPR)的发展为解决这一问题带来了新的曙光。特别是,CRISPR技术与同源重组的结合可以实现高效的基因缺失、整合和单核苷酸修饰。发明人发现转座子与CRISPR-Cas耦合系统,包括CRISPR、相关转座酶和通过RNA辅助引导的靶向插入转座元件,该系统能够无需同源重组实现基因组位点特异性DNA整合。
基于此,在本发明的第一方面,本发明提出了一种基因整合的系统。根据本发明的实施例,所述系统包括:第一载体,所述第一载体携带第一序列和第二序列,所述第一序列编码CRISPR-Cas系统,所述第二序列编码转座子系统;第二载体,所述第二载体携带第三序列,所述第三序列编码供体DNA系统。
本发明所述的系统,能够用于需钠弧菌体内基因的定点高效插入,可以实现一个位点或者多个位点的同时基因插入。插入位点准确且效率高,实验结果表明,单位点基因插入成功效率超过75%,多个位点同时插入成功效率超过54%。此外,本发明的系统为双载体系统,在实际的生产过程中具有极大的编辑快速菌株构建优势,可以仅仅通过更换第二载体中的供体DNA系统,便可以实现对多种基因的插入,避免了复杂大质粒载体的构建,极大提高基因工程效率。
根据本发明的实施例,所述基因整合的系统还可以进一步包括如下附加技术特征的至少之一:
根据本发明的实施例,所述第一序列的3’端与至少部分的所述第二序列的5’端相连;或所述第一序列的5’端与至少部分的所述第二序列的3’端相连。
根据本发明的实施例,所述CRISPR-Cas系统包括启动子序列、CRISPR阵列以及编码Cas蛋白的核酸序列。
根据本发明的实施例,所述启动子为J23119。
根据本发明的实施例,所述启动子具有SEQ ID NO:11所示的核苷酸序列。
TTGACAGCTAGCTCAGTCCTAGGTATAATACTAGC(SEQ ID NO:11)
需要说明的是,所述“CRISPR阵列”包括重复序列和间隔序列,所述重复序列具有SEQ ID NO:10所示的核苷酸序列,所述间隔序列不固定,其与要定点的目标基因的序列有关。CRISPR阵列可以通过转录得到crRNA。
GTGAACTGCCGAGTAGGTAGCTGATAAC(SEQ ID NO:10)
根据本发明的实施例,所述Cas蛋白选自Cas6、Cas7和Cas8的至少之一。
根据本发明的实施例,Cas6蛋白具有SEQ ID NO:34所示的氨基酸序列。Cas6蛋白的氨基酸序列可与SEQ ID NO:34所示的核苷酸序列具有约80%至约100%、至少或约70%、至少或约75%、至少或约80%、至少或约81%、至少或约82%、至少或约83%、至少或约84%、至少或约85%、至少或约86%、至少或约87%、至少或约88%、至少或约89%、至少或约90%、至少或约91%、至少或约92%、至少或约93%、至少或约94%、至少或约95%、至少或约96%、至少或约97%或约100%同一性。
MEQLQYFHISNTVLVPEDCTYVSFRRCQSIDKLTAAGLARKIRRLEKRALSRGEQFDPSSFAQKEHTAIAHYHSLGESSKQTNRNFRLNIRMLSEQPREGNSIFSSYGLSNSENSFQPVPLI(SEQ ID NO:34)
根据本发明的实施例,Cas7蛋白具有SEQ ID NO:35所示的氨基酸序列。Cas7蛋白的氨基酸序列可与SEQ ID NO:35所示的核苷酸序列具有约80%至约100%、至少或约70%、至少或约75%、至少或约80%、至少或约81%、至少或约82%、至少或约83%、至少或约84%、至少或约85%、至少或约86%、至少或约87%、至少或约88%、至少或约89%、至少或约90%、至少或约91%、至少或约92%、至少或约93%、至少或约94%、至少或约95%、至少或约96%、至少或约97%或约100%同一性。
MKLPTNLAYERSIDPSDVCFFVVWPDDRKTPLTYNSRTLLGQMEAASLAYDVSGQPIKSATAEALAQGNPHQVDFCHVPYGASHIECSFSVSFSSELRQPYKCNSSKVKQTLVQLVELYETKIGWTELATRYLMNICNGKWLWKNTRKAYCWNIVLTPWPWNGEKVGFEDIRTNYTSRQDFKNNKNWSAIVEMIKTAFSSTDGLAIFEVRATLHLPTNAMVRPSQVFTEKESGSKSKSKTQNSRVFQSTTIDGERSPILGAFKTGAAIATIDDWYPEATEPLRVGRFGVHREDVTCYRHPSTGKDFFSILQQAEHYIEVLSANKTPAQETINDMHFLMANLIKGGMFQHKGD(SEQ ID NO:35)
根据本发明的实施例,Cas8蛋白具有SEQ ID NO:36所示的氨基酸序列。Cas8蛋白的氨基酸序列可与SEQ ID NO:36所示的核苷酸序列具有约80%至约100%、至少或约70%、至少或约75%、至少或约80%、至少或约81%、至少或约82%、至少或约83%、至少或约84%、至少或约85%、至少或约86%、至少或约87%、至少或约88%、至少或约89%、至少或约90%、至少或约91%、至少或约92%、至少或约93%、至少或约94%、至少或约95%、至少或约96%、至少或约97%或约100%同一性。
MQTLKELIASNPDDLTTELKRAFRPLTPHIAIDGNELDALTILVNLTDKTDDQKDLLDRAKCKQKLRDEKWWASCINCVNYRQSHNPKFPDIRSEGVIRTQALGELPSFLLSSSKIPPYHWSYSHDSKYVNKSAFLTNEFCWDGEISCLGELLKDADHPLWNTLKKLGCSQKTCKAMAKQLADITLTTINVTLAPNYLTQISLPDSDTSYISLSPVASLSMQSHFHQRLQDENRHSAITRFSRTTNMGVTAMTCGGAFRMLKSGAKFSSPPHHRLNSKRSWLTSEHVQSLKQYQRLNKSLIPENSRIALRRKYKIELQNMVRSWFAMQDHTLDSNILIQHLNHDLSYLGATKRFAYDPAMTKLFTELLKRELSNSINNGEQHTNGSFLVLPNIRVCGATALSSPVTVGIPSLTAFFGFVHAFERNINRTTSSFRVESFAICVHQLHVEKRGLTAEFVEKGDGTISAPATRDDWQCDVVFSLILNTNFAQHIDQDTLVTSLPKRLARGSAKIAIDDFKHINSFSTLETAIESLPIEAGRWLSLYAQSNNNLSDLLAAMTEDHQLMASCVGYHLLEEPKDKPNSLRGYKHAIAECIIGLINSITFSSETDPNTIFWSLKNYQNYLVVQPRSINDETTDKSSL(SEQ ID NO:36)
根据本发明的实施例,编码Cas6的核酸具有SEQ ID NO:9所示的核苷酸序列。编码Cas6的核苷酸序列可与SEQ ID NO:9所示的核苷酸序列具有约80%至约100%、至少或约70%、至少或约75%、至少或约80%、至少或约81%、至少或约82%、至少或约83%、至少或约84%、至少或约85%、至少或约86%、至少或约87%、至少或约88%、至少或约89%、至少或约90%、至少或约91%、至少或约92%、至少或约93%、至少或约94%、至少或约95%、至少或约96%、至少或约97%或约100%同一性。
GTGAAATGGTATTATAAGACAATCACCTTTCTGCCAGAGTTGTGCAACAACGAGTCACTGGCT GCAAAGTGTCTCCGCGTTCTGCATGGATTTAACTATCAGTATGAGACACGAAATATCGGCGTTTCATTTCCGCTTTGGTGTGATGCAACGGTTGGAAAAAAGATTTCATTTGTCAGCAAGAACAAGATAGAACTCGACTTACTACTTAAACAACACTATTTCGTCCAAATGGAACAACTTCAATACTTTCATATATCCAACACTGTTCTCGTCCCAGAAGATTGTACATACGTTTCCTTTAGACGCTGTCAATCTATAGATAAGCTCACAGCAGCAGGGCTGGCAAGGAAAATCAGACGCCTGGAGAAACGTGCTCTATCTAGAGGCGAGCAATTTGACCCATCATCTTTTGCTCAAAAAGAGCATACTGCAATAGCGCACTACCACTCACTTGGGGAGTCCAGCAAACAGACGAACCGCAACTTTCGACTCAATATCAGGATGCTCTCGGAGCAACCCCGTGAGGGGAACTCGATTTTTAGTAGCTATGGCTTATCAAATTCAGAAAACTCGTTTCAGCCTGTACCCTTAATCTGA(SEQ ID NO:9)
根据本发明的实施例,编码Cas7的核酸具有SEQ ID NO:8所示的核苷酸序列。编码Cas7的核苷酸序列可与SEQ ID NO:8所示的核苷酸序列具有约80%至约100%、至少或约70%、至少或约75%、至少或约80%、至少或约81%、至少或约82%、至少或约83%、至少或约84%、至少或约85%、至少或约86%、至少或约87%、至少或约88%、至少或约89%、至少或约90%、至少或约91%、至少或约92%、至少或约93%、至少或约94%、至少或约95%、至少或约96%、至少或约97%或约100%同一性。
ATGAAACTACCGACAAATCTAGCCTATGAGCGCTCTATCGACCCATCAGATGTCTGTTTTTTTGTCGTCTGGCCCGATGATAGAAAAACACCTTTAACCTACAATTCTCGTACTCTGCTCGGGCAAATGGAAGCGGCATCATTAGCCTATGATGTCTCAGGTCAACCAATAAAAAGTGCCACCGCTGAGGCGTTAGCTCAAGGGAACCCTCATCAAGTTGATTTCTGCCACGTTCCATACGGTGCGAGTCATATTGAATGCAGTTTCTCCGTCTCGTTTTCTTCTGAACTACGTCAACCATATAAGTGTAACTCAAGCAAAGTTAAACAAACGCTAGTGCAATTAGTCGAGCTCTACGAAACGAAAATCGGCTGGACTGAGCTAGCAACCCGATATTTGATGAACATTTGCAACGGTAAATGGCTGTGGAAAAATACCCGTAAAGCCTATTGCTGGAACATTGTACTTACACCTTGGCCTTGGAACGGGGAAAAGGTTGGATTTGAAGATATTCGTACTAACTACACCTCACGGCAAGACTTTAAAAATAATAAAAATTGGTCTGCTATAGTTGAAATGATCAAAACCGCATTTTCTAGTACTGATGGGCTGGCGATATTTGAAGTCAGGGCCACCTTGCACTTGCCAACGAATGCTATGGTGCGGCCAAGCCAAGTTTTCACAGAAAAAGAAAGTGGCAGTAAAAGTAAATCTAAAACTCAAAACAGTCGAGTTTTTCAGAGTACAACTATTGATGGTGAACGATCGCCAATACTAGGGGCCTTTAAAACGGGAGCAGCTATTGCAACCATTGACGACTGGTATCCTGAAGCCACTGAGCCACTAAGGGTCGGACGGTTTGGGGTTCATCGCGAAGATGTCACTTGCTACCGTCATCCGTCTACCGGAAAAGATTTTTTCTCGATATTACAACAAGCAGAGCACTATATTGAAGTGTTGAGCGCCAACAAAACTCCCGCTCAAGAAACTATCAACGACATGCACTTTTTAATGGCTAACCTGATTAAGGGTGGGATGTTCCAGCATAAAGGAGACTG A(SEQ ID NO:8)
根据本发明的实施例,编码Cas8的核酸具有SEQ ID NO:7所示的核苷酸序列。编码Cas8的核苷酸序列可与SEQ ID NO:7所示的核苷酸序列具有约80%至约100%、至少或约70%、至少或约75%、至少或约80%、至少或约81%、至少或约82%、至少或约83%、至少或约84%、至少或约85%、至少或约86%、至少或约87%、至少或约88%、至少或约89%、至少或约90%、至少或约91%、至少或约92%、至少或约93%、至少或约94%、至少或约95%、至少或约96%、至少或约97%或约100%同一性。
ATGCAAACTCTGAAAGAACTAATCGCATCCAATCCTGACGACTTAACAACTGAACTTAAGAGAGCATTTCGTCCACTCACACCGCATATTGCAATTGATGGTAATGAACTTGACGCACTGACGATATTAGTCAATTTAACCGATAAGACTGATGATCAGAAAGACCTGCTCGATCGAGCCAAATGCAAGCAAAAACTTCGAGATGAAAAATGGTGGGCTAGCTGCATAAATTGCGTTAATTACAGACAAAGCCATAACCCAAAATTCCCGGATATACGTTCTGAAGGCGTGATTCGAACCCAAGCCCTGGGTGAATTACCGAGTTTCCTACTCTCGTCCTCAAAAATCCCACCATACCATTGGTCATATAGCCATGATTCAAAATACGTCAACAAAAGCGCATTCCTCACCAATGAGTTTTGTTGGGATGGTGAGATCTCATGTTTGGGTGAGCTTCTTAAAGATGCAGATCACCCACTTTGGAATACTTTGAAAAAGTTAGGTTGTTCTCAAAAAACTTGCAAAGCAATGGCAAAACAACTAGCTGATATTACTCTCACGACTATCAATGTCACACTCGCACCAAATTACCTGACTCAAATATCTCTCCCCGATAGTGATACATCCTACATTTCACTCTCTCCTGTTGCATCGCTATCGATGCAAAGCCACTTTCATCAGAGGCTCCAAGATGAAAATCGGCATAGCGCGATAACGCGGTTTAGCCGAACTACCAACATGGGGGTCACTGCGATGACATGTGGCGGCGCATTTAGAATGTTAAAGTCTGGCGCTAAGTTTTCCAGCCCCCCTCATCACCGATTAAACAGTAAACGAAGTTGGTTGACGTCAGAGCATGTTCAGTCATTAAAACAGTACCAGCGCCTCAACAAAAGCCTCATACCTGAAAACTCTCGGATTGCACTCCGTAGAAAATACAAAATCGAGCTTCAAAATATGGTCAGATCTTGGTTTGCAATGCAAGACCATACCCTTGATTCGAACATACTTATCCAACATTTGAATCATGACCTATCTTACTTAGGAGCCACAAAACGTTTTGCATACGATCCAGCGATGACCAAGCTCTTTACTGAGCTTTTGAAACGAGAGTTATCAAATTCAATCAATAATGGTGAGCAACACACTAATGGATCGTTTTTAGTCCTACCGAATATCAGGGTTTGTGGCGCAACAGCTTTAAGCTCCCCGGTAACGGTGGGGATTCCATCACTTACAGCTTTCTTTGGCTTCGTTCACGCATTTGAACGGAATATAAATCGCACCACCTCATCGTTTCGTGTTGAATCCTTTGCGATATGCGTCCATCAACTACATGTCGAGAAGCGAGGTTTGACAGCAGAGTTTGTGGAAAAAGGCGACGGGACTATATCCGCTCCCGCGACCCGGGATGACTGGCAGTGTGATGTCGTATTTAGCCTTATTTTGAACACCAACTTTGCTCAACATATTGACCAAGATACGTTAGTTACATCACTACCAAAGCGATTGGCTCGGGGTTCAGCAAAAATTGCGATTGATGACTTTAAACATATCAACTCATTCTCGACATTAGAAACAGCGATCGAATCTCTGCCAAT AGAAGCTGGTAGGTGGTTATCACTTTACGCACAGTCAAACAATAATCTAAGTGATCTATTAGCAGCCATGACAGAGGACCATCAGCTCATGGCAAGCTGCGTCGGTTACCACTTGTTAGAAGAGCCCAAAGATAAACCAAACTCCCTCAGAGGTTACAAACACGCTATCGCCGAGTGCATCATTGGACTCATTAACTCAATCACCTTTAGCTCAGAGACTGATCCCAACACAATCTTTTGGTCGCTAAAGAACTATCAAAACTACCTAGTGGTACAGCCAAGGAGTATCAACGATGAAACTACCGACAAATCTAGCCTATGA(SEQ ID NO:7)
根据本发明的实施例,所述Cas蛋白衍生自I型CRISPR-Cas系统。
根据本发明的实施例,所述I型CRISPR-Cas系统选自I-B型或I-F型。
需要说明的是,本发明所述的CRISPR-Cas系统为霍乱弧菌中I-F型CRISPR-Cas系统,主要为Cas6,Cas7,天然的Cas8-Cas5融合蛋白(下称Cas8)的复合体Cascade以及由重复序列和间隔序列组成的CRISPR阵列。CRISPR阵列转录得到一个长的前体crRNA,而后被Cas6核糖核酸内切酶在间隔序列上游八个碱基的位置剪切,最终得到短的成熟crRNA,成熟的crRNA保持与Cascade的相互作用,并引导其与目标序列结合。
根据本发明的实施例,所述转座子系统衍生自Tn7转座子系统。
根据本发明的实施例,所述转座子系统包括编码TnsA、TnsB、TnsC和TnsQ的核酸序列的至少之一。
根据本发明的实施例,所述TnsA蛋白具有SEQ ID NO:37所示的氨基酸序列。TnsA蛋白的氨基酸序列可与SEQ ID NO:37所示的核苷酸序列具有约80%至约100%、至少或约70%、至少或约75%、至少或约80%、至少或约81%、至少或约82%、至少或约83%、至少或约84%、至少或约85%、至少或约86%、至少或约87%、至少或约88%、至少或约89%、至少或约90%、至少或约91%、至少或约92%、至少或约93%、至少或约94%、至少或约95%、至少或约96%、至少或约97%或约100%同一性。
MATSLPTPSAITTSALEYAFHTPARNLTKSRGKNIHRYVSVKMSKRITVESTLECDACYHFDFEPSIVRFCAQPIRFLYYLNGQSHSYVPDFLVQFDTNEFVLYEVKSAYAKNKPDFDVEWEAKVKAATELGLELELVEESDIRDTVVLNNLKRMHRYASKDELNNVHNSLLKIIKYNGAQSARCLGEQLGLKGRTVLPILCDLLSRCLLDTRLDKPLSLESRFELASYG(SEQ ID NO:37)
根据本发明的实施例,所述TnsB蛋白具有SEQ ID NO:38所示的氨基酸序列。TnsB蛋白的氨基酸序列可与SEQ ID NO:38所示的核苷酸序列具有约80%至约100%、至少或约70%、至少或约75%、至少或约80%、至少或约81%、至少或约82%、至少或约83%、至少或约84%、至少或约85%、至少或约86%、至少或约87%、至少或约88%、至少或约89%、至少或约90%、至少或约91%、至少或约92%、至少或约93%、至少或约94%、至少或约95%、至少或约96%、至少或约97%或约100%同一性。
MAKKGFSSFHRKAVSSQDTLESIELVSSANCLESVTYQDISAFPETIAVEINFRLSILRFLARKCETIVAKSIEPHRVELQQNYSRKIPSAITIYRWWLAFRKSDYNPISLAPNIKDRGNRETKVSTVVDSIMEQAVERVISGRKVNVSSAYKRVRRKVRQYNLTHGTKYTYPKYESVRKRVKKKTPFELLAAGKGERVAKREFRRMGKKILTSSVLERVEIDHTVVDLFAVHEEYRIPLGRPWLTQLVDCYSKAVIGFYLGFEPPSYVSVSLALKNAIQRKDDLISSYESIENEWLCYGIPDLLVTDNGKEFLSKAFDQACESLLINVHQNKVETPDNKPHVERNYGTINTSLLDDLPGKSFSQYLQREGYDSVGEATLTLNEIREIYLIWLVDIYHKKPNQRGTNCPNVAWKKGCQEWEPEEFSGSKDELDFKFAIVDYKQLTKVGITVYKELSYSNDRLAEYRGKKGNHKVQFKYNPECMAVIWVLDEDMNEYFTVNAIDYEYASRVSLWQHKYNMKYQAELNSAEYDEDKEIDAEIKIEEIADRSIVKTNKIRARRRGARHQENSARAKSISNANPASIQKHEDEIVSADNDDWDIDYV(SEQ ID NO:38)根据本发明的实施例,所述TnsC蛋白具有SEQ ID NO:39所示的氨基酸序列。TnsC蛋白的氨基酸序列可与SEQ ID NO:39所示的核苷酸序列具有约80%至约100%、至少或约70%、至少或约75%、至少或约80%、至少或约81%、至少或约82%、至少或约83%、至少或约84%、至少或约85%、至少或约86%、至少或约87%、至少或约88%、至少或约89%、至少或约90%、至少或约91%、至少或约92%、至少或约93%、至少或约94%、至少或约95%、至少或约96%、至少或约97%或约100%同一性。
MSETREARISRAKRAFVSTPSVRKILSYMDRCRDLSDLESEPTCMMVYGASGVGKTTVIKKYLNQNRRESEAGGDIIPVLHIELPDNAKPVDAARELLVEMGDPLALYETDLARLTKRLTELIPAVGVKLIIIDEFQHLVEERSNRVLTQVGNWLKMILNKTKCPIVIFGMPYSKVVLQANSQLHGRFSIQVELRPFSYQGGRGVFKTFLEYLDKALPFEKQAGLANESLQKKLYAFSQGNMRSLRNLIYQASIEAIDNQHETITEEDFVFASKLTSGDKPNSWKNPFEEGVEVTEDMLRPPPKDIGWEDYLRHSTPRVSKPGRNKNFFE(SEQ ID NO:39)根据本发明的实施例,所述TnsQ蛋白具有SEQ ID NO:40所示的氨基酸序列。TnsQ蛋白的氨基酸序列可与SEQ ID NO:40所示的核苷酸序列具有约80%至约100%、至少或约70%、至少或约75%、至少或约80%、至少或约81%、至少或约82%、至少或约83%、至少或约84%、至少或约85%、至少或约86%、至少或约87%、至少或约88%、至少或约89%、至少或约90%、至少或约91%、至少或约92%、至少或约93%、至少或约94%、至少或约95%、至少或约96%、至少或约97%或约100%同一性。
MFLQRPKPYSDESLESFFIRVANKNGYGDVHRFLEATKRFLQDIDHNGYQTFPTDITRINPYSAKNSSSARTASFLKLAQLTFNEPPELLGLAINRTNMKYSPSTSAVVRGAEVFPRSLLRTHSIPCCPLCLRENGYASYLWHFQGYEYCHSHNVPLITTCSCGKEFDYRVSGLKGICCKCKEPITLTSRENGHEAACTVSNWLAGHESKPLPNLPKSYRWGLVHWWMGIKDSEFDHFSFVQFFSNWPRSFHSIIEDEVEFNLEHAVVSTSELRLKDLLGRLFFGSIRLPERNLQHNIILGELLCYLENRLWQDKGLIANLKMNALEATVMLNCSLDQIASMVE QRILKPNRKSKPNSPLDVTDYLFHFGDIFCLWLAEFQSDEFNRSFYVSRW(SEQ ID NO:40)
根据本发明的实施例,编码TnsA的核酸具有SEQ ID NO:1所示的核苷酸序列。编码TnsA的核苷酸序列可与SEQ ID NO:1所示的核苷酸序列具有约80%至约100%、至少或约70%、至少或约75%、至少或约80%、至少或约81%、至少或约82%、至少或约83%、至少或约84%、至少或约85%、至少或约86%、至少或约87%、至少或约88%、至少或约89%、至少或约90%、至少或约91%、至少或约92%、至少或约93%、至少或约94%、至少或约95%、至少或约96%、至少或约97%或约100%同一性。
ATGGCGACAAGTTTACCTACGCCCTCAGCAATTACGACTTCGGCGTTAGAGTATGCATTCCATACTCCCGCTCGCAATCTAACGAAATCTCGCGGAAAAAACATTCATCGTTATGTCAGTGTAAAGATGAGTAAGAGGATTACGGTAGAATCTACTCTAGAGTGTGATGCCTGCTATCACTTTGATTTTGAGCCAAGTATTGTTCGCTTTTGCGCTCAACCGATTCGATTTTTATATTATCTCAATGGTCAGTCTCACTCCTATGTTCCTGACTTTCTAGTTCAATTTGATACCAACGAGTTTGTTCTATATGAAGTAAAGTCAGCTTATGCTAAGAACAAACCTGATTTTGATGTTGAATGGGAGGCGAAAGTAAAAGCAGCAACTGAACTAGGGCTAGAATTGGAGCTTGTTGAAGAGAGTGATATTAGGGATACGGTTGTATTAAATAATCTTAAGCGCATGCATCGTTATGCTTCGAAAGATGAGCTGAATAACGTACATAACTCTCTCTTAAAAATAATAAAGTACAATGGCGCCCAATCTGCAAGATGCTTGGGAGAACAGTTGGGTTTAAAAGGCCGAACTGTTTTACCAATTTTGTGCGATTTGCTGTCAAGGTGTTTACTCGATACACGTTTGGATAAGCCTCTATCTCTTGAATCTCGATTTGAGTTGGCCAGTTATGGCTAA(SEQ ID NO:1)
根据本发明的实施例,编码TnsB的核酸具有SEQ ID NO:2所示的核苷酸序列。编码TnsB的核苷酸序列可与SEQ ID NO:2所示的核苷酸序列具有约80%至约100%、至少或约70%、至少或约75%、至少或约80%、至少或约81%、至少或约82%、至少或约83%、至少或约84%、至少或约85%、至少或约86%、至少或约87%、至少或约88%、至少或约89%、至少或约90%、至少或约91%、至少或约92%、至少或约93%、至少或约94%、至少或约95%、至少或约96%、至少或约97%或约100%同一性。
ATGGCTAAGAAAGGGTTCTCAAGTTTCCATAGAAAAGCAGTCTCTTCCCAAGATACGCTTGAATCGATAGAGCTTGTCTCTAGCGCTAATTGTCTAGAAAGTGTTACGTATCAAGATATATCAGCATTTCCCGAAACAATTGCGGTAGAGATTAATTTCCGATTAAGCATTCTTCGCTTTTTAGCGCGAAAGTGCGAAACCATTGTGGCCAAATCAATTGAACCACATCGTGTAGAGCTACAGCAAAACTATAGTAGAAAAATACCCAGTGCAATAACGATATATCGATGGTGGCTTGCTTTTCGAAAATCAGACTACAACCCCATTAGCTTAGCACCTAATATCAAGGATAGAGGTAATAGAGAGACAAAAGTGTCAACAGTTGTTGATTCTATTATGGAACAGGCAGTTGAAAGAGTTATATCTGGACGAAAAGTCAATGTTAGCTCTGCATATAAACGTGTT CGACGAAAAGTTCGTCAATACAATCTAACTCATGGAACGAAATACACGTATCCTAAGTACGAATCTGTAAGAAAGCGAGTAAAAAAGAAAACCCCATTTGAGTTATTAGCCGCAGGGAAAGGGGAGAGAGTAGCTAAGAGAGAGTTTCGCCGAATGGGAAAAAAGATCCTCACGTCTAGCGTGCTAGAGAGGGTTGAAATAGATCACACTGTCGTTGACCTTTTTGCAGTACACGAAGAGTATCGAATCCCATTGGGCCGACCTTGGCTTACTCAATTGGTTGATTGTTACAGTAAAGCTGTAATCGGTTTTTATTTAGGTTTCGAGCCTCCTAGCTATGTGTCGGTTTCCCTTGCACTTAAGAATGCAATACAACGCAAAGATGACTTAATCTCCTCGTATGAATCGATCGAGAATGAATGGCTATGTTATGGCATCCCAGACCTACTCGTAACTGATAATGGTAAAGAGTTTTTGTCGAAAGCATTTGATCAAGCATGTGAATCACTATTGATCAATGTGCATCAAAATAAAGTTGAGACGCCCGACAACAAACCTCATGTTGAACGTAACTACGGGACTATTAATACTTCTCTGTTAGACGATTTACCTGGGAAATCCTTCAGCCAGTACCTTCAAAGAGAAGGGTACGACTCTGTGGGAGAAGCTACCCTTACACTCAATGAGATTAGAGAAATTTACTTAATTTGGTTGGTGGATATTTATCATAAAAAACCCAATCAGAGAGGCACTAATTGTCCTAATGTTGCGTGGAAAAAGGGTTGTCAAGAATGGGAACCAGAGGAGTTCTCTGGTTCTAAAGACGAATTAGACTTTAAATTTGCTATTGTTGATTACAAACAACTTACTAAAGTAGGGATAACTGTCTACAAAGAACTGAGTTATAGCAATGACCGTTTAGCTGAATATAGAGGGAAGAAAGGAAACCATAAAGTTCAGTTCAAGTATAACCCTGAGTGTATGGCAGTTATTTGGGTGTTGGATGAGGATATGAATGAGTACTTTACAGTTAATGCGATTGACTACGAATATGCAAGTAGAGTATCACTTTGGCAACATAAATATAACATGAAATATCAAGCAGAACTAAATTCAGCAGAATATGATGAGGACAAGGAAATTGATGCAGAAATAAAAATTGAAGAAATCGCAGATCGTTCAATTGTTAAGACTAACAAAATCAGAGCTCGGAGGCGTGGCGCTAGGCATCAAGAGAATAGCGCAAGGGCTAAGTCAATCAGTAATGCGAACCCGGCCTCGATACAAAAACATGAAGATGAAATCGTTAGTGCAGATAATGACGATTGGGATATTGATTATGTCTGA(SEQID NO:2)
根据本发明的实施例,编码TnsC的核酸具有SEQ ID NO:3所示的核苷酸序列。编码TnsC的核苷酸序列可与SEQ ID NO:3所示的核苷酸序列具有约80%至约100%、至少或约70%、至少或约75%、至少或约80%、至少或约81%、至少或约82%、至少或约83%、至少或约84%、至少或约85%、至少或约86%、至少或约87%、至少或约88%、至少或约89%、至少或约90%、至少或约91%、至少或约92%、至少或约93%、至少或约94%、至少或约95%、至少或约96%、至少或约97%或约100%同一性。
ATGAGTGAAACGCGTGAGGCTCGTATATCAAGAGCTAAAAGGGCATTTGTATCCACACCGAGCGTTAGGAAAATCTTGAGTTACATGGATAGATGTAGAGATCTATCAGACCTAGAGTCTGAGCCTACATGCATGATGGTCTATGGTGCTTCGGGTGTAGGTAAAACGACCGTCATCAAGAAATACTTAAATCAAAACAGAAGAGAGTCCGAAGCCGGGGGCGATATAATACCGGTTTTGCATATTGAGTTGCCAGACAATG CGAAGCCAGTAGATGCAGCAAGGGAATTGCTGGTTGAAATGGGTGACCCGCTAGCACTTTATGAAACTGACTTAGCTAGATTGACGAAAAGACTGACTGAATTAATCCCTGCGGTCGGCGTGAAGCTGATTATTATCGATGAGTTCCAACATTTGGTGGAAGAAAGGTCAAATCGGGTTCTTACCCAAGTAGGTAATTGGCTAAAAATGATACTTAACAAAACGAAATGTCCAATTGTTATATTTGGTATGCCATACTCAAAAGTTGTACTGCAAGCAAACTCGCAACTTCACGGGCGATTTTCCATTCAGGTTGAACTGCGCCCCTTTAGCTACCAGGGAGGTAGAGGTGTATTTAAAACTTTTTTGGAATACCTTGATAAAGCCCTACCTTTTGAAAAACAGGCTGGCTTAGCCAACGAAAGTTTGCAGAAAAAATTGTATGCATTCTCTCAGGGAAACATGCGTTCGTTGAGAAACCTTATTTATCAAGCATCTATCGAAGCAATTGATAATCAGCATGAGACGATAACCGAAGAAGATTTCGTTTTTGCATCGAAGTTGACATCGGGCGATAAACCCAACTCATGGAAAAATCCTTTTGAGGAGGGTGTTGAGGTAACAGAAGATATGTTACGACCGCCACCAAAAGATATTGGTTGGGAGGACTATTTGAGACATTCAACCCCGAGAGTGAGTAAACCAGGTAGAAATAAAAACTTTTTCGAATAA(SEQ ID NO:3)
根据本发明的实施例,编码TnsQ的核酸具有SEQ ID NO:4所示的核苷酸序列。编码TnsQ的核苷酸序列可与SEQ ID NO:4所示的核苷酸序列具有约80%至约100%、至少或约70%、至少或约75%、至少或约80%、至少或约81%、至少或约82%、至少或约83%、至少或约84%、至少或约85%、至少或约86%、至少或约87%、至少或约88%、至少或约89%、至少或约90%、至少或约91%、至少或约92%、至少或约93%、至少或约94%、至少或约95%、至少或约96%、至少或约97%或约100%同一性。
ATGTTTTTGCAAAGACCTAAACCTTACAGCGATGAAAGTTTAGAAAGTTTCTTTATCCGAGTGGCTAACAAAAATGGCTACGGTGATGTCCATCGCTTCCTAGAAGCCACTAAACGATTCCTTCAAGACATTGACCATAATGGCTATCAAACCTTTCCGACTGATATAACTCGGATAAACCCATACTCAGCTAAAAACAGTTCCAGCGCACGAACTGCGTCATTCCTGAAACTTGCACAATTGACATTTAATGAACCGCCAGAGCTACTTGGGTTGGCAATTAACAGAACAAACATGAAATACTCGCCGTCAACTAGCGCGGTTGTTAGAGGTGCAGAAGTCTTTCCTCGCAGTTTACTACGGACGCACTCCATCCCCTGCTGTCCTTTGTGTCTGCGAGAAAATGGCTACGCCTCCTACCTTTGGCACTTTCAGGGGTACGAATACTGCCACAGCCATAACGTACCTTTAATTACCACTTGTAGCTGTGGTAAGGAGTTTGACTACCGAGTATCTGGGTTAAAGGGCATTTGCTGCAAATGCAAGGAGCCTATCACCTTAACCAGCAGGGAGAACGGTCATGAGGCAGCGTGTACTGTTTCAAACTGGCTTGCTGGCCATGAATCTAAACCTCTGCCAAATCTTCCTAAAAGCTACCGATGGGGTTTAGTTCATTGGTGGATGGGTATTAAAGATAGCGAGTTCGATCACTTTTCGTTCGTTCAATTTTTCTCAAACTGGCCAAGGTCATTCCACTCGATAATCGAAGATGAAGTAGAGTTCAACCTTGAGCATGCTGTTGTCAGCACGTCTGAATTACGACTAAAAGATCTTCTTGGTCGATTGTTTTTCGGTTCAATTCG GTTACCTGAGCGGAATCTTCAACACAATATCATCCTTGGTGAGCTTCTCTGCTATTTAGAAAATCGTTTATGGCAAGACAAGGGATTAATCGCCAACCTCAAAATGAACGCGTTAGAGGCGACTGTAATGTTAAATTGTAGCCTCGATCAGATTGCATCAATGGTTGAACAACGCATCTTGAAGCCAAATCGAAAAAGCAAGCCCAACAGCCCTCTTGATGTTACCGATTATCTATTTCATTTCGGCGATATTTTCTGTCTTTGGTTAGCTGAGTTCCAAAGCGATGAGTTTAACCGTTCGTTTTATGTGTCGAGGTGGTAA(SEQ ID NO:4)
需要说明的是,本发明中所述的Tn7转座子主要来自大肠杆菌,本发明中所述的TnsA和TnsB是催化酶,通过协调的双链断裂切除转座子供体;所述TnsB是逆转录病毒整合酶超家族的一员,催化DNA整合;所述TnsC是一种ATP酶,在TnsA、TnsB和TnsQ之间进行通信。TnsQ介导特定位点的Tn7转位。本发明中的TnsQ蛋白与Cascade复合为TnsQ-Cascade,主要是通过与Cas6亚基融合方式实现。TnsQ-Cascade复合蛋白通过外源的原型间隔序列邻近基序列(PAM序列)以及crRNA定位到目的位置,TnsQ通过TnsC作用,招募TnsA和TnsB蛋白,转座子在TnsA和TnsB引导下将目标基因转座到目标位置的下游从而实现定向基因插入的目的。
根据本发明的实施例,所述J23119的3’端与所述CRISPR阵列的5’端相连,所述CRISPR阵列的3’端与所述编码TnsQ的核酸的5’端相连,所述编码TnsQ的核酸的3’端与所述编码Cas8的核酸的5’端相连,所述编码Cas8的核酸的3’端与所述编码Cas7的核酸的5’端相连,所述编码Cas7的核酸的3’端与所述编码Cas6的核酸的5’端相连,所述编码Cas6的核酸的3’端与所述编码TnsA的核酸的5’端相连,所述编码TnsA的核酸的3’端与所述编码TnsB的核酸的5’端相连,所述编码TnsB的核酸的3’端与所述编码TnsC的核酸的5’端相连。
根据本发明的实施例,所述供体DNA系统包含运载物核酸序列以及第一转座子末端序列和第二转座子末端序列,其中:所述运载物核酸序列的5’端与所述第一转座子末端序列的3’端相连,所述运载物核酸序列的3’端与所述第二转座子末端序列的5’端相连。
需要说明的是,本发明所述的供体DNA可以是细菌质粒、噬菌体、植物病毒、逆转录病毒、DNA病毒、自主复制的染色体外DNA元件、线性质粒、线粒体或其它细胞器DNA、染色体DNA等的一部分。
根据本发明的实施例,所述第一转座子末端序列具有SEQ ID NO:5所示的核苷酸序列。
ATATCAACTTATGGTTGTTTTGTGAGATATCAATATATGGTTGTTTTGTGGTTAAGTTGCTGATTATAAATAATTATTAAATATCACTTTATGGTTGCATCAACA(SEQ ID NO:5)
根据本发明的实施例,所述第二转座子末端序列具有SEQ ID NO:6所示的核苷酸序列。
TGTTGGAACAACCATAAAATGATAATTACACCCATAAATTGATAATTATCACACCCATAAATTGA TATTGCCTCTTCATGGTCTAAACTTCAGTAAGTTTACGACATTTTCATGAAGAGGTCATTTCCGGGGA T(SEQ IDNO:6)
根据本发明的实施例,第一载体和第二载体不在同一载体上。
根据本发明的实施例,所述第一载体为pUC质粒。
根据本发明的实施例,所述第一载体为pUC KmR质粒。
根据本发明的实施例,所述第二载体为p15A质粒。
根据本发明的实施例,所述第二载体为p15A CmR质粒。
根据本发明的实施例,所述pUC质粒和所述p15A质粒含有sacB基因。
根据本发明的实施例,所述SacB蛋白具有SEQ ID NO:41所示的氨基酸序列。
MNIKKFAKQATVLTFTTALLAGGATQAFAKETNQKPYKETYGISHITRHDMLQIPEQQKNEKYQVPEFDSSTIKNISSAKGLDVWDSWPLQNADGTVANYHGYHIVFALAGDPKNADDTSIYMFYQKVGETSIDSWKNAGRVFKDSDKFDANDSILKDQTQEWSGSATFTSDGKIRLFYTDFSGKHYGKQTLTTAQVNVSASDSSLNINGVEDYKSIFDGDGKTYQNVQQFIDEGNYSSGDNHTLRDPHYVEDKGHKYLVFEANTGTEDGYQGEESLFNKAYYGKSTSFFRQESQKLLQSDKKRTAELANGALGMIELNDDYTLKKVMKPLIASNTVTDEIERANVFKMNGKWYLFTDSRGSKMTIDGITSNDIYMLGYVSNSLTGPYKPLNKTGLVLKMDLDPNDVTFTYSHFAVPQAKGNNVVITSYMTNRGFYADKQSTFAPSFLLNIKGKKTSVVKDSILEQGQLTVNK(SEQ ID NO:41)
根据本发明的实施例,编码SacB的核酸具有SEQ ID NO:12所示的核苷酸序列。
ATGAACATCAAAAAGTTTGCAAAACAAGCAACAGTATTAACCTTTACTACCGCACTGCTGGCAGGAGGCGCAACTCAAGCGTTTGCGAAAGAAACGAACCAAAAGCCATATAAGGAAACATACGGCATTTCCCATATTACACGCCATGATATGCTGCAAATCCCTGAACAGCAAAAAAATGAAAAATATCAAGTTCCTGAGTTCGATTCGTCCACAATTAAAAATATCTCTTCTGCAAAAGGCCTGGACGTTTGGGACAGCTGGCCATTACAAAACGCTGACGGCACTGTCGCAAACTATCACGGCTACCACATCGTCTTTGCATTAGCCGGAGATCCTAAAAATGCGGATGACACATCGATTTACATGTTCTATCAAAAAGTCGGCGAAACTTCTATTGACAGCTGGAAAAACGCTGGCCGCGTCTTTAAAGACAGCGACAAATTCGATGCAAATGATTCTATCCTAAAAGACCAAACACAAGAATGGTCAGGTTCAGCCACATTTACATCTGACGGAAAAATCCGTTTATTCTACACTGATTTCTCCGGTAAACATTACGGCAAACAAACACTGACAACTGCACAAGTTAACGTATCAGCATCAGACAGCTCTTTGAACATCAACGGTGTAGAGGATTATAAATCAATCTTTGACGGTGACGGAAAAACGTATCAAAATGTACAGCAGTTCATCGATGAAGGCAACTACAGCTCAGGCGACAACCATACGCTGAGAGATCCTCACTACGTAGAAGATAAAGGCCACAAATACTTAGTATTTGAAGCAAACACTGGAACTGAAGATGGCTACCAAGGCGAAGAATCTTTATTTAACAAAGCATACTATGGCAAAAGCACATCATTCTTCCGTCAAGAAAGTCAAAAACTTCTGCAAAGCGATAAAAAACGCACGGCTGAGTTAGCAAACGGCGCTCTCGGTATGATTGAGCTAAACGATGATTACACACTGAAAAAAGTGATGAAACCG CTGATTGCATCTAACACAGTAACAGATGAAATTGAACGCGCGAACGTCTTTAAAATGAACGGCAAATGGTATCTGTTCACTGACTCCCGCGGATCAAAAATGACGATTGACGGCATTACGTCTAACGATATTTACATGCTTGGTTATGTTTCTAATTCTTTAACTGGCCCATACAAGCCGCTGAACAAAACTGGCCTTGTGTTAAAAATGGATCTTGATCCTAACGATGTAACCTTTACTTACTCACACTTCGCTGTACCTCAAGCGAAAGGAAACAATGTCGTGATTACAAGCTATATGACAAACAGAGGATTCTACGCAGACAAACAATCAACGTTTGCGCCTAGCTTCCTGCTGAACATCAAAGGCAAGAAAACATCTGTTGTCAAAGACAGCATCCTTGAACAAGGACAATTAACAGTTAACAAATAA(SEQ ID NO:12)
在本发明的第二方面,本发明提出了一种制备第一方面所述的系统的方法。根据本发明的实施例,所述方法包括:将所述J23119、所述CRISPR阵列、所述Cas8、所述Cas7、所述Cas6、所述TnsQ、所述TnsA、所述TnsB、所述TnsC与第一空载体进行第一组合处理,得到第一组合物;将所述供体DNA系统与第二空载体进行第二组合处理,得到第二组合物。
采用本发明所述的方法制备得到的系统能够无需同源重组就实现基因组位点特异性DNA整合。该系统可以实现>75%的定点基因插入效率。此外可以在短时间里获取具有连续不同拷贝数的基因表达的重组后代,其中4个位点同时插入目标基因的效率为54.3%,极大提高基因工程效率。
根据本发明的实施例,所述制备第一方面所述的系统的方法还可以进一步包括如下附加技术特征的至少之一:
根据本发明的实施例,将所述第一组合物和所述第二组合物与受体细胞进行共孵育,以便得到所述的系统。
根据本发明的实施例,所述第一空载体为pUC空载体。
根据本发明的实施例,所述第一组装处理的方式、所述第二组装处理的方式分别独立地选自PCR和Gibson。
根据本发明的实施例,所述第一组合物为J23119-CRISPR阵列-TnsQ-Cas8-Cas7-Cas6-TnsA-TnsB-TnsC。
根据本发明的实施例,所述J23119的3’端与所述CRISPR阵列的5’端相连,所述CRISPR阵列的3’端与所述编码TnsQ的核酸的5’端相连,所述编码TnsQ的核酸的3’端与所述编码Cas8的核酸的5’端相连,所述编码Cas8的核酸的3’端与所述编码Cas7的核酸的5’端相连,所述编码Cas7的核酸的3’端与所述编码Cas6的核酸的5’端相连,所述编码Cas6的核酸的3’端与所述编码TnsA的核酸的5’端相连,所述编码TnsA的核酸的3’端与所述编码TnsB的核酸的5’端相连,所述编码TnsB的核酸的3’端与所述编码TnsC的核酸的5’端相连。
根据本发明的实施例,所述第二空载体为p15A空载体。
根据本发明的实施例,所述受体细胞选自大肠杆菌。
根据本发明的实施例,所述制备第一方面所述的系统的方法进一步包括将所述孵育后的受体细胞进行提取处理,以便得到所述的系统。
根据本发明的实施例,所述提取处理是采用质粒提取试剂盒进行的。
在本发明的第三方面,本发明提出了一种基因整合的系统。根据本发明的实施例,所述系统是通过第二方面所述的方法制备获得的。采用本发明所述的方法制备得到的系统能够无需同源重组就实现基因组位点特异性DNA整合。该系统可以实现>75%的定点基因插入效率。此外可以在短时间里获取具有连续不同拷贝数的基因表达的重组后代,其中4个位点同时插入目标基因的效率为54.3%,极大提高基因工程效率。
在本发明的第四方面,本发明提出了一种对需钠弧菌进行基因整合的方法。根据本发明的实施例,所述方法包括:向所述需钠弧菌中转入第一方面或第三方面所述的系统,所述运载物核酸序列携带待整合目的基因。采用本发明所述的方法能够无需同源重组就实现基因组位点特异性DNA整合,本发明的方法可以实现>75%的定点基因插入效率以及>54%的多个位点同时插入。此外,本发明的方法仅需更换供体DNA系统中的运载物核酸序列,便可以实现对多种基因的插入,避免了复杂大质粒载体的构建,极大提高基因工程效率。
根据本发明的实施例,所述第一载体选自pUC质粒。
根据本发明的实施例,所述第二载体选自p15A质粒。
根据本发明的实施例,所述pUC质粒和所述p15A质粒含有sacB。
根据本发明的实施例,SacB蛋白具有SEQ ID NO:41所示的氨基酸序列。
根据本发明的实施例,编码SacB的核酸具有SEQ ID NO:12所示的核苷酸序列。
根据本发明的实施例,向所述需钠弧菌中转入第一方面或第三方面所述的系统是通过如下方式进行的:将所述pUC质粒转入所述需钠弧菌;将转有所述pUC质粒的所述需钠弧菌在第一培养基中进行第一培养处理;将所述p15A质粒转入经过第一培养处理后的所述需钠弧菌中;将转入所述p15A质粒的所述需钠弧菌在所述第一培养基中进行第二培养处理。发明人在实验过程中发现,先转入p15A质粒,然后再转入pUC质粒,抗性板中长出的菌很少,转入效率很低,而在转入过程中先转入pUC质粒后转入p15A质粒能够显著提高质粒的转入效率,为后续实现单位点或多位点基因的成功插入奠定了基础。
根据本发明的实施例,将所述pUC质粒转入转入所述需钠弧菌的体系中,所述pUC质粒的质量与所述需钠弧菌的细胞数量比为1mg:(107~108)个。
根据本发明的实施例,将所述p15A质粒转入转入经过第一培养处理后的所述需钠弧菌的体系中,所述p15A质粒的质量与所述需钠弧菌的细胞数量比为1mg:(107~108)个。
根据本发明的实施例,所述第一培养基包括LB肉汤培养基、NaCl、MgCl2和KCl。
根据本发明的实施例,所述NaCl在所述第一培养基中的终浓度为190~210mM。
根据本发明的实施例,所述MgCl2在所述第一培养基中的终浓度为20~30mM。
根据本发明的实施例,所述KCl在所述第一培养基中的终浓度为3.5~5.5mM。
根据本发明的实施例,所述第一培养处理、所述第二培养处理是在37℃,200rpm的条件下进行的。
根据本发明的实施例,所述第一培养处理、所述第二培养处理的时间为0.5~1.5h。
根据本发明的实施例,所述第一培养处理、所述第二培养处理的时间为1h。
在本发明的第五方面,本发明提出了第一方面或第三方面所述的系统在用于整合需钠弧菌基因中的用途。
有益效果:
本发明提供了一种需钠弧菌可编辑、快速、无标记、定点的染色体多拷贝整合系统。所述系统包括CRISPR相关转座酶和通过RNA辅助引导的靶向插入转座元件,该系统能够无需同源重组实现基因组位点特异性DNA整合。该系统可以实现>75%的定点基因插入效率。此外可以在短时间里获取具有连续不同拷贝数的基因表达盒的重组后代,其中4个位点同时插入目标基因的效率为54.3%。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
具体实施方式
在某些实施方案中,本发明的系统和方法使用Tn7样转座子,其编码用于可编程的RNA引导的DNA整合的CRISPR-Cas系统。具体地,CRISPR-Cas系统指导Tn7转座子相关蛋白整合由crRNA识别的靶位点(例如,基因组靶位点)下游的DNA。
用于基因整合的RNA引导的转座酶机器不通过双链断裂(DSB)中间体进行,因此不会导致非同源末端连接(NHEJ)介导的插入或缺失。相反,DNA的靶向导致通过协同的酯交换反应的直接整合,而无任何脱离路径(off-pathway)的替代方案。由于靶向依赖于crRNA,因此本发明的方法和系统不需要为每个新的靶位点重新设计同源臂。
出于治疗目的,crRNA可被设计成靶向特定的基因或染色体区域,诸如与疾病、症状或疾患相关的基因或染色体区域。
本发明的系统和方法可产生任何期望的效果。在一个实施方案中,本发明的系统和方法可导致靶基因的转录减少。
本发明的系统和方法可以靶向任何靶位点,或在DNA内的任何位点,例如在编码或非编码区中、在基因内或基因附近(例如前导序列、拖尾序列或内含子),或在非转录区内(编码区的上游或下游)插入供体DNA。靶位点或靶序列可包含任何多核苷酸,诸如DNA或RNA多核苷酸。
本发明的RNA引导的DNA整合系统和方法允许在各种类型的细胞中进行DNA整合,所述细胞包括有丝分裂后细胞和非分裂细胞,诸如神经元和终末分化细胞。因此,还提供了包含本发明的RNA引导的DNA整合系统的细胞。
本发明系统和方法可来源于包含CRISPR-Cas系统的细菌或古细菌转座子,诸如Tn7样转座子。在一个实施方案中,Tn7样转座子系统来源于霍乱弧菌Tn6677。所述系统可包含功能获得性Tn7突变体(Lu等人EMBO 19(13):3446-3457(2000);美国专利公布第20020188105号)以及复制型Tn7转座突变体(May等人Science 272:401-404(1996))。Tn7样转座子包括但不限于霍乱弧菌的Tn6677转座子、Tn5090/Tn5053转座子、Tn6230转座子和Tn6022转座子。参见,Peters等人,Recruitment of CRISPR-Cas systems by Tn7-likettra nsposons,Proc Natl Acad Sci USA 114,E7358-E7366(2017)。Peters,J.E.Tn7.Microbiol Spectr 2(2014)。
在某些实施方案中,本发明系统和方法可包括I型CRISPR-Cas系统。I型系统可包括多亚单位效应子复合物,诸如Cascade或Csy复合物。在一个实施方案中,Cascade复合物来源于霍乱弧菌Tn7转座子,其包含I-F型Cascade和TnsQ蛋白。TnsQ可将CRISPR-Cas机器与Tn7相关DNA整合系统联系起来。本发明系统可能缺乏核酸酶。在一个实施方案中,Tn7相关I-F型系统可能缺乏Cas3核酸酶。
在一个实施方案中,Tn7样转座子包含I-F型变体CRISPR-Cas系统,其基因编码级联复合物。Tn7样转座子包含tnsA-tnsB-tnsC操纵子,而被称为TnsQ的tnsD同源物被编码在Cas8/Cas5融合物-Cas7-Cas6蛋白的操纵子内,所述蛋白共同形成了RNA引导的TnsQ-Cascade复合物。TnsA和TnsB蛋白产物介导转座子切除,而TnsB介导转座子整合到靶DNA中。
术语“转座子”涵盖具有顺式作用位点的DNA片段(其可包含异源DNA序列),以及编码反式作用蛋白的基因,所述反式作用蛋白作用于那些顺式作用位点,以动员由这些位点定义的DNA区段,而无论它们在DNA中是如何组织的。目前的转座子,诸如Tn7样转座子,也编码CRISPR-Cas系统。实施本发明方法不需要整个转座子。因此,如本文中所用,术语“转座子衍生物”、“可转座元件”或“可插入元件”也可以指最低程度包含顺式作用位点的DNA,反式作用蛋白质在所述顺式作用位点上作用以动员由这些位点定义的区段。还应理解,这些位点可包含异源DNA。蛋白质可以以核酸(编码该蛋白质的DNA或RNA)形式或蛋白质(例如,纯化的蛋白质)形式提供。
如本文中所用,术语“Tn7转座子”是指原核可转座因子Tn7,以及它们的修饰形式或与Tn7转座子共享同源性的转座子(“Tn7样转座子”)。Tn7最常在大肠杆菌中进行研究。“Tn7转座子”可涵盖明显不包含Tn7基因,但可通过使用Tn7基因产物TnsA和TnsB(所述TnsA和TnsB协同形成Tn7转座酶)将其进行转座的DNA形式,或其修饰。这种DNA被转座酶可识别的5’和3’DNA序列结合,所述5’和3’DNA序列可作为转座子末端序列。
如本文中所用,术语“转座酶”是指催化转座的酶。
如本文中所用,术语“转座”指复杂的遗传重排过程,包括DNA序列从一个位置移动并插入另一个位置,例如在基因组与DNA构建体(诸如质粒、杆粒(bacmid)、粘粒和病毒载体)之间。
如本文中所用,术语“载体”通常是指能够插入在合适的宿主中自我复制的核酸分子,其将插入的核酸分子转移到细胞或宿主中和/或细胞或宿主之间。所述载体可包括主要用于将DNA或RNA插入细胞中的载体、主要用于复制DNA或RNA的载体,以及主要用于DNA或RNA的转录和/或翻译的表达的载体。所述载体还包括具有多种上述功能的载体。所述载体可以是当转入合适的细胞或宿主时能够转录并翻译成多肽的多核苷酸。通常,通过培养包含所述载体的合适的细胞或宿主,所述载体可以产生期望的表达产物。
下面详细描述本发明的实施例。下面描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。实施例中未注明具体技术或条件的,按照本领域内的文献所描述的技术或条件或者按照产品说明书进行。所用试剂或仪器未注明生产厂商者,均为可以通过市购获得的常规产品。
实施例1需钠弧菌双质粒基因整合系统的构建
需钠弧菌双质粒基因整合系统示意图和整合机理示意图如图1所示,基因整合系统构建过程具体如下:
步骤1:基因合成带有启动子J23119(序列如SEQ ID NO:11所示)的CRISPR阵列,包括两个重复序列(序列如SEQ ID NO:10所示)和一个间隔序列,间隔序列中有两个BsaI酶切位点,具体序列如SEQ ID NO:13所示(SEQ ID NO:13:TTGACAGCTAGCTCAGTCCTAGGTATAATACTAGCGTCGACGTGGAGATATACCATGGGTGA ACTGCCGAGTAGGTAGCTGATAACGAGACCTCTGTCTTGTCAGCTAGGGTGGTCTCGTGAACTGCC GAGTAGGTAGCTGATAAC)。基因合成tnsQ(序列如SEQ ID NO:4所示)、cas8(序列如SEQ ID NO:7所示)、cas7(序列如SEQ ID NO:8所示)、cas6(序列如SEQ IDNO:9所示)、tnsA(序列如SEQ ID NO:1所示)、tnsB(序列如SEQ ID NO:2所示)、tnsC(序列如SEQ ID NO:3所示)、sacB(序列如SEQ ID NO:12所示)等基因序列;
步骤2:将步骤1中元件与实验室存储的pUC-KmR质粒骨架通过PCR以及Gibson的方式组装,得到质粒pHelper;
步骤3:基因合成具有转座子插入序列的基因片段,其中转座子中的左端插入序列如SEQ ID NO:5所示,转座子中的右端插入序列如SEQ ID NO:6所示;
步骤4:将步骤3中的元件与实验室存储的p15A-CmR质粒骨架通过PCR以及Gibson的方式组装,得到质粒pDonor;
步骤5:将步骤2和步骤4中获取的Gibson产物分别通过化转的方式转化到大肠杆菌感受态中(Turbo Competent E.coli),并分别利用含有卡那霉素和氯霉素的LB平板筛选阳性克隆;
步骤6:将步骤5中的阳性克隆通过质粒提取试剂盒提取质粒pHelper和pDonor,获得需钠弧菌双质粒基因整合系统。
实施例2需钠弧菌基因整合系统基因组特定位点gfp的插入
为了验证双质粒基因整合系统在需钠弧菌中的基因插入效果和特点,优先选取gfp绿色荧光蛋白基因作为cargo基因(需插入的基因),并且在需钠弧菌染色体1上选取不同位点进行基因定点插入。
(1)gfp作为cargo基因的基因整合系统质粒的构建,具体步骤如下:
步骤1:从实验室已有gfp基因的质粒中扩增含有J23119启动子引导的基因片段;
步骤2:将步骤1获取得到的的含有J23119启动子的gfp基因的质粒与实施例1中提取得到的pDonor骨架组合,使得目标基因gfp基因在转座子左右插入序列的之间,获取质粒pDonor-gfp;
步骤3:对需钠弧菌染色体1进行分析,选取三个插入位点S1、S2、S3,位点选取要求外源的原型间隔序列邻近基序列(PAM序列)位点为CC的32-bp序列(注:为了后续多位点同时插入提供便利,这里选取的位点相距>1Mb),保证需钠弧菌正常生长代谢,选取的位点为非编码区。并对这N32进行引物设计:S1-F/S1-R,S2-F/S2-R,S3-F/S3-R,具体序列如表1所示;
表1
步骤4:将步骤3中的S1-F/S1-R,S2-F/S2-R,S3-F/S3-R引物通过T4PNK酶,T4PNK酶序列为:VAZYME在PCR仪中进行寡核苷酸自连接获取oli-S1,oli-S2,oli-S3;
步骤5:将实施例1中的提取得到的pHelper通过BasI(NEB)酶切(3μg pHelper质粒,酶切3h),然后通过PCR提纯试剂盒进行纯化(E.Z.N.A.Cycle-Pure Kit,购自Omega)获取酶切产物;
步骤6:取步骤中4的oli-S1,oli-S2,oli-S3各3μl与步骤5的酶切产物(100ng)通过T4连接酶(购自Vazyme)进行连接;
步骤7:将步骤6中连接后的体系化学转化到大肠杆菌感受态Turbo中。具体的,将感受态大肠杆菌于冰中融化,将步骤6中连接后的体系加入感受态大肠杆菌中,经冰浴30min、42℃水浴90s、冰浴3min后,加入1mL LB培养基,然后在37℃,220rpm摇床中孵育1h,最后将孵育后的受体菌涂在含有卡那霉素的LB平板上,第二天验证阳性克隆,获取目标质粒pHelper-S1,pHelper-S2,pHelper-S3。
(2)需钠弧菌基因组S1,S2,S3位点gfp基因的插入,具体步骤如下:
步骤1:需钠弧菌生长培养基LBv2的制备:LB肉汤培养基外加204mM NaCl,23.14mMMgCl2和4.2mM KCl;感受态制备缓冲液的制备:1M山梨醇;
步骤2:需钠弧菌感受态的制备,具体的:
1)将需钠弧菌在50mL LBv2培养基中培养至OD600=0.4;
2)将培养至OD600=0.4的需钠弧菌收集,利用冷的1M山梨醇清洗三次,加入300μL1M山梨醇获取需钠弧菌感受态,然后将其分装为100μL/管,所有操作在4℃环境,将配置好的需钠弧菌感受态于-80℃储存。
步骤3:将获得的pHelper-S1,pHelper-S2,pHelper-S3分别利用电穿孔方法转入需钠弧菌感受态中,卡那霉素抗性板筛选,挑选阳性克隆。具体的,将需钠弧菌感受态置于冰中融化,加入500ng的pHelper-S1,pHelper-S2,pHelper-S3于需钠弧菌感受态中一起冰浴3min,然后在2.5kV的电压下电击5ms,随后加入1mL LBv2培养基,在37℃,220rpm摇床中孵育1h,最后将孵育后的需钠弧菌感受体涂在含有卡那霉素的LB平板上,第二天验证阳性克隆,获取得到V.NA-pHelper-S1,V.NA-pHelper-S2,V.NA-pHelper-S3;
步骤4:将获取的阳性克隆V.NA-pHelper-S1,V.NA-pHelper-S2,V.NA-pHelper-S3,再次按照步骤2制备感受态,获取对应的感受态。
步骤5:将本实施例(1)步骤2获取的pDonor-gfp用电穿孔方法转入需钠弧菌感受态V.NA-pHelper-S1,V.NA-pHelper-S2,V.NA-pHelper-S3中,卡那霉素、氯霉素平板进行阳性克隆筛选;
步骤6:对步骤5筛选得到的阳性克隆进行分子水平的验证。具体的,通过对插入位点S1、S2、S3上下游选取设计正、反向引物ck-S1-F/ck-S1-R、ck-S2-F/ck-S2-R、ck-S3-F/ck-S3-R,具体序列如表2所示,在cargo基因gfp上下游设计引物ck-gfp-R/ck-gfp-F,具体序列如表2所示。因为插入方向未知,所以在实际PCR应用中需要考虑LE/RE方向以及RE/LE的插入偏好性。最后将PCR验证产物进行二代测序进一步验证基因是否正确插入。
表2
步骤7:对步骤6中成功插入gfp的菌株进行质粒消除实验。具体的,利用含有10%蔗糖平板进行筛选,含有scaB基因的菌株将无法在平板上生存。
步骤8:对步骤7中去除完双质粒的工程菌株进行表型验证。具体的,对菌株培养24h,然后利用流式细胞仪对菌株进行绿色荧光测定。
图2显示的是双质粒系统均用sacB基因作为质粒消除手段的验证结果,可以看到,利用sacB基因对蔗糖致死的特性使得需钠弧菌对双质粒脱出率为100%。
图3显示的是双质粒基因整合系统对gfp在S1、S2、S3位点的插入情况。(a)显示三个位点所处位置;(b)和(c)为PCR验证插入效率,可以看到,双质粒基因整合系统可以实现gfp的成功插入,插入效率大于75%,此外,可以从(d)中看到该系统对基因插入的特点为:选取的三个位点均为偏好RE/LE方向的插入,此外,插入位点在crRNA下游51-52bp左右,并且保留了转座的特点,即靶位点存在短的约5bp的正向重复序列;(e)通过流式细胞仪的荧光测定显示了成功插入gfp基因的菌株在实际生长代谢中可以很好的表达插入的基因。
实施例3需钠弧菌基因整合系统基因组特定位点PHB合成基因簇的插入
插入序列往往对短片段具有较好的插入效果,而对长片段的插入往往不尽人意,为了验证双质粒基因整合系统在需钠弧菌中对大片段基因插入效果和特点,需要选取大片段基因或基因簇的插入。因此,选取了PHB合成基因簇作为cargo基因,基因簇片段大小约6kb。生物合成的PHB具有与塑料类似的性质,并且相比传统塑料难降解特性,PHB还具有生物相容性高、易降解的特点,它有望成为塑料的强有力替代品,发展PHB合成技术和应用有望减少化石燃料的使用和响应双碳政策,具有极大的环境价值。
与此同时,在需钠弧菌染色体2上选取靶点S1’进行基因插入实验,来验证该基因整合系统的普适性。
具体操作步骤与实施例2类似,需要注意的是:
选取的位点为需钠弧菌染色2上的位点S1’,设计的引物为S1’-F/S1’-R,具体序列如表3所示,并按照实施例2方式获取pHelper-S1’;
PHB合成基因簇为实验室已有基因片段,通过基因扩增和Gibson组装获取pDonor-PHB。
PHB合成基因簇的获取过程:
1.获取需钠弧菌基因组,通过基因组提取试剂盒获取;
2.利用正向引物F1=ATGAATAAAGTCGCTTTGATCACCGG,反向引物R1=ACATAACCATTTAAGGTCATTTCACAGG通过PCR方式扩增获取基因簇。
图4显示的是双质粒基因整合系统对PHB合成基因簇在S1’位点的插入情况。(a)显示位点所处位置;(b)为pDonor-PHB的示意图,展示了PHB合成基因簇包含的三个主要基因phaA、phaB、phaC,该基因簇基因长度~6kb;(c)从测序角度验证了大片段基因的成功插入,并且,该位点既有RE/LE方向插入,也有LE/RE方向的插入,靶位点存在短的约5bp的正向重复序列。(d)图利用尼罗红染色方式从荧光角度测定成功插入PHB合成基因簇的菌株在实际生长代谢中可以很好的表达插入的基因。
表3
实施例4需钠弧菌基因整合系统基因组多位点基因同时插入
在合成生物学领域,过表达质粒方式进行生物合成是一种常见方式,但是这种方式往往会引入抗生素抗性基因,并且在实际发酵过程往往需要抗生素的添加以确保外源质粒留存在细菌中。抗生素和抗生素抗性基因的引入会带来巨大的环境隐患,所以通常采用将合成基因插入到基因组的方式来保证外源基因长久留存。而基因整合系统提供了一种便捷的方式,此外,基因整合系统的插入是在crRNA的引导下进行的,如果在系统中增加crRNA那便可以实现多个位点的同时插入,极大的提高了基因插入效率,并且基因的拷贝数越多往往会增加代谢能力,为生物生产带来更大的经济利益。
在这里,利用gfp作为cargo基因,选取需钠弧菌4个特定位点,之间间距>1Mb,来探究基因整合系统在多位点同时插入基因领域的应用潜力。
具体操作步骤包括如下:
步骤1:基因合成含有多个与crRNA对应的基因序列的CRISPR阵列,序列如SEQ IDNO:42所示的核苷酸序列;
GTGAACTGCCGAGTAGGTAGCTGATAACAGCTTTATCCTAAATAAGAAGCTGAGCACCAAGTGAACTGCCGAGTAGGTAGCTGATAACGAGTACTGGGTACTCAGTTTATAATTGTAGTTGTGAACTGCCGAGTAGGTAGCTGATAACAATGTTAACGTGCTCAAATCTTTTGTCGCCTTGTGAACTGCCGAGTAGGTAGCTGATAACTCTGACAGAACCAAGTTCCGATATCAGAACGTGTGAACTGCCGAGTAGGTAGCTGATAAC(SEQ ID NO:42)
步骤2:将步骤1中的合成片段与pUC-KmR质粒骨架进行PCR扩增和Gibson获取pMHelper,质粒图谱如图5(a);
步骤3:按照实施例2实验步骤最终获取需钠弧菌含有pMHelper和pDonor-gfp双质粒;
步骤4:按照实施例2实验步骤对获取的阳性克隆进行PCR扩增验证以及表型验证。
图5(b)统计了成功编辑个数和对应的编辑效率,结果显示,双质粒基因整合系统可以实现四个位点基因的插入,且成功效率为54.3%。此外,对成功插入gfp基因数为1、2、3、4的菌株进行酶标仪的绿色荧光测试和统计,最终结果显示为图5(c),相比对照组,插入gfp基因的菌株的荧光强度有了极大的提升,且插入的拷贝数越多,荧光强度越强。
对比例双质粒转入顺序的选择
按照实施例2所述的方法进行整合系统基因的构建,不同的是,先将pDonor-gfp(p15A质粒)转入需钠弧菌感受态,后制备质粒pHelper-S1(pUC质粒),pHelper-S2,pHelper-S3,并将其转入已含有pDonor-gfp(p15A质粒)的需钠弧菌感受态中。实验结果如图6所示,虽然先转入p15A质粒的阳性克隆数量多于先转于pUC质粒的数量,但将两种质粒都转入需钠弧菌感受态中后,先转入pUC质粒得到的目标菌要多于先转入p15A质粒,为了获得更多的目标菌株,因此采用先转入pUC质粒后转入p15A质粒的策略。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。