[go: up one dir, main page]

CN111263810A - 使用多核苷酸指导的核酸内切酶的细胞器基因组修饰 - Google Patents

使用多核苷酸指导的核酸内切酶的细胞器基因组修饰 Download PDF

Info

Publication number
CN111263810A
CN111263810A CN201880068886.XA CN201880068886A CN111263810A CN 111263810 A CN111263810 A CN 111263810A CN 201880068886 A CN201880068886 A CN 201880068886A CN 111263810 A CN111263810 A CN 111263810A
Authority
CN
China
Prior art keywords
polynucleotide
organelle
sequence
rna
genome
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201880068886.XA
Other languages
English (en)
Inventor
哈吉米·萨凯
俞炳春
小艾米·迈耶·奥罗斯科
罗杰·怀斯
加内什·基肖尔
杰伊·基斯林
纳伦德拉·辛格·亚达夫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Napi Gene
Original Assignee
Napi Gene
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Napi Gene filed Critical Napi Gene
Publication of CN111263810A publication Critical patent/CN111263810A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/63Introduction of foreign genetic material using vectors; Vectors; Use of hosts therefor; Regulation of expression
    • C12N15/79Vectors or expression systems specially adapted for eukaryotic hosts
    • C12N15/82Vectors or expression systems specially adapted for eukaryotic hosts for plant cells, e.g. plant artificial chromosomes (PACs)
    • C12N15/8201Methods for introducing genetic material into plant cells, e.g. DNA, RNA, stable or transient incorporation, tissue culture methods adapted for transformation
    • C12N15/8213Targeted insertion of genes into the plant genome by homologous recombination
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N9/00Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
    • C12N9/14Hydrolases (3)
    • C12N9/16Hydrolases (3) acting on ester bonds (3.1)
    • C12N9/22Ribonucleases RNAses, DNAses
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/102Mutagenizing nucleic acids
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/11DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
    • C12N15/113Non-coding nucleic acids modulating the expression of genes, e.g. antisense oligonucleotides; Antisense DNA or RNA; Triplex- forming oligonucleotides; Catalytic nucleic acids, e.g. ribozymes; Nucleic acids used in co-suppression or gene silencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/63Introduction of foreign genetic material using vectors; Vectors; Use of hosts therefor; Regulation of expression
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/63Introduction of foreign genetic material using vectors; Vectors; Use of hosts therefor; Regulation of expression
    • C12N15/79Vectors or expression systems specially adapted for eukaryotic hosts
    • C12N15/82Vectors or expression systems specially adapted for eukaryotic hosts for plant cells, e.g. plant artificial chromosomes (PACs)
    • C12N15/8241Phenotypically and genetically modified plants via recombinant DNA technology
    • C12N15/8261Phenotypically and genetically modified plants via recombinant DNA technology with agronomic (input) traits, e.g. crop yield
    • C12N15/8287Phenotypically and genetically modified plants via recombinant DNA technology with agronomic (input) traits, e.g. crop yield for fertility modification, e.g. apomixis
    • C12N15/8289Male sterility
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2310/00Structure or type of the nucleic acid
    • C12N2310/10Type of nucleic acid
    • C12N2310/20Type of nucleic acid involving clustered regularly interspaced short palindromic repeats [CRISPRs]
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2310/00Structure or type of the nucleic acid
    • C12N2310/30Chemical structure
    • C12N2310/35Nature of the modification
    • C12N2310/351Conjugate
    • C12N2310/3513Protein; Peptide
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12YENZYMES
    • C12Y207/00Transferases transferring phosphorus-containing groups (2.7)
    • C12Y207/07Nucleotidyltransferases (2.7.7)
    • C12Y207/07049RNA-directed DNA polymerase (2.7.7.49), i.e. telomerase or reverse-transcriptase

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Engineering & Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Biomedical Technology (AREA)
  • Organic Chemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Biotechnology (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Microbiology (AREA)
  • Biochemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • Plant Pathology (AREA)
  • Cell Biology (AREA)
  • Medicinal Chemistry (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Micro-Organisms Or Cultivation Processes Thereof (AREA)

Abstract

本文提供了用于改变细胞器的基因组的方法和系统。在一些实施方案中,该方法包括将重组DNA构建体引入细胞器中,该重组DNA构建体包含编码至少一个指导RNA的第一多核苷酸和编码多核苷酸指导的多肽的第二多核苷酸;以及在第一多核苷酸和第二多核苷酸均表达的条件下使包含细胞器的细胞生长。

Description

使用多核苷酸指导的核酸内切酶的细胞器基因组修饰
序列表援引并入
本申请包含序列表,该序列表已经通过EFS-Web提交并通过引用全文并入于此。
交叉引用
本申请与2017年8月22日提交的美国临时专利申请第62/548,723号相关,该临时申请通过引用全文并入本文。
发明内容
在一方面,用于改变细胞器的基因组的方法可以包括:(a)向细胞器中引入包括以下项:(i)编码至少一个指导多核酸的第一多核苷酸,其中至少一个指导多核酸引导多核苷酸指导的多肽切割细胞器基因组中存在的至少一个靶序列;(ii)编码多核苷酸指导的多肽的第二多核苷酸,其中多核苷酸指导的多肽在与指导多核酸相关联时切割至少一个靶序列;(iii)任选地,编码至少一个同源细胞器DNA序列的第三多核苷酸,其中至少一个同源细胞器DNA具有足以进行同源重组的大小,其中将至少一个同源细胞器DNA序列整合到细胞器基因组中导致至少一个靶序列的去除;(iv)任选地,编码至少一个选择标记或至少一个筛选标记或两者的第四多核苷酸;其中第四多核苷酸可操作地连接至在细胞器中具有功能的启动子;和(v)任选地,编码在细胞器中具有功能的复制起点的第五多核苷酸;以及(b)在(i)的第一多核苷酸和(ii)的第二多核苷酸均表达的条件下使包含(a)的细胞器的细胞生长。
在另一方面,用于改变细胞器的基因组的方法可以包括:(a)将包含以下项的重组DNA构建体引入细胞器中:(i)编码至少一个指导多核酸的第一多核苷酸,其中至少一个指导多核酸引导多核苷酸指导的多肽切割细胞器基因组中存在的至少一个靶序列;(ii)编码多核苷酸指导的多肽的第二多核苷酸,其中多核苷酸指导的多肽在与指导多核酸相关联时切割至少一个靶序列;(iii)任选地,编码至少一个同源细胞器DNA序列的第三多核苷酸,其中至少一个同源细胞器DNA具有足以进行同源重组的大小,其中将至少一个同源细胞器DNA序列整合到细胞器基因组中导致至少一个靶序列的去除;(iv)任选地,编码至少一个选择标记或至少一个筛选标记或两者的第四多核苷酸;其中第四多核苷酸可操作地连接至在细胞器中具有功能的启动子;和(v)任选地,编码在细胞器中具有功能的复制起点的第五多核苷酸;以及(b)在(i)的第一多核苷酸和(ii)的第二多核苷酸均表达的条件下使包含(a)的细胞器的细胞生长
在一些实施方案中,该方法可以进一步包括步骤(c)——选择具有包含改变的基因组的细胞器的细胞。在一些实施方案中,该方法可以进一步包括步骤(d)——选择对于细胞器的改变的基因组是同质的细胞。
在一些实施方案中,该方法可以包括将(iii)的第三多核苷酸引入细胞器中,其中(iii)的第三多核苷酸可以包含第六多核苷酸和第七多核苷酸,其中第六多核苷酸和第七多核苷酸对应于细胞器基因组中两个同源的相邻区域,其中第六多核苷酸和第七多核苷酸被与细胞器DNA异源的序列隔开。在一些实施方案中,与细胞器DNA异源的序列可以包含选自以下的至少一项:第一多核苷酸、第二多核苷酸、第四多核苷酸、第八多核苷酸及其任何组合,其中第八多核苷酸编码与细胞器异源的RNA。
在另一个实施方案中,至少一个指导多核酸可以存在于多顺反子转录单元上。在一些实施方案中,在多顺反子转录单元转录后,可以通过使用选自以下的至少一项从多顺反子RNA加工出至少一个指导多核酸:RNA切割位点、Csy4切割位点、核酶切割位点、多核苷酸指导的多肽切割位点、tRNA序列的存在及其任何组合。在一些实施方案中,多顺反子RNA可以包含在至少一个指导RNA的5’的第一tRNA序列和在至少一个指导RNA的3’的第二tRNA序列。
在另一个实施方案中,该方法可以包括第八多核苷酸,其中第八多核苷酸可以编码选自以下的至少一项:除草剂耐受性蛋白、杀虫蛋白、与杀虫蛋白结合的辅助蛋白、dsRNA、siRNA、miRNA及其任何组合,其中dsRNA、siRNA和miRNA抑制植物害虫中存在的至少一个靶基因。在一些实施方案中,该方法可以包括第八多核苷酸,其中第八多核苷酸可以可操作地连接至在细胞器中有活性的至少一个调控元件。在一些实施方案中,至少一个调控元件可以是启动子。
在另一个实施方案中,选自以下的至少一项:第一多核苷酸、第二多核苷酸、第四多核苷酸、第五多核苷酸及其任何组合,可以位于以第六多核苷酸和第七多核苷酸为边界的区域之外。
在另一个实施方案中,该方法可以包括第四多核苷酸和第五多核苷酸,其中第四多核苷酸和第五多核苷酸均可以位于以第六多核苷酸和第七多核苷酸为边界的区域之外。
在另一个实施方案中,该方法可以包括第四多核苷酸,其中第四多核苷酸可以包含编码正选择标记的第一序列和编码负选择标记的第二序列,其中第一序列和第二序列可以各自可操作地连接至在细胞器中具有功能的启动子。
在另一个实施方案中,该方法可以包括第五多核苷酸,其中第五多核苷酸可以编码在质体(例如,叶绿体)中具有功能的复制起点,其中在质体中具有功能的复制起点可以对应于来自质体rRNA基因间区域的DNA序列。
在另一个实施方案中,该方法可以包括第五多核苷酸,其中第五多核苷酸可以编码在线粒体中具有功能的复制起点。
在一些实施方案中,多核苷酸指导的多肽可以选自:Cas9蛋白、MAD2蛋白、MAD7蛋白、CRISPR核酸酶、Cas蛋白的核酸酶结构域、Cpf1蛋白、Argonaute、其修饰形式及其任何组合。
在一些实施方案中,重组DNA构建体可以进一步包含彼此有至少100个核苷酸具有100%序列同一性的第九多核苷酸和第十多核苷酸,其中第九多核苷酸和第十多核苷酸作为直接重复序列排列在重组DNA构建体中。
在一些实施方案中,重组DNA构建体可以是线性的,并且进一步地,其中第九多核苷酸和第十多核苷酸可以存在于重组DNA构建体的5’和3’端
在另一个实施方案中,该方法可以包括重组DNA构建体,其包含选自以下的至少一项:第一多核苷酸、第二多核苷酸、第三多核苷酸、第四多核苷酸、第五多核苷酸及其任何组合。在一些实施方案中,该方法可以包括超过一个此类重组DNA构建体。
在另一个实施方案中,重组DNA构建体可以进一步包含第九多核苷酸和第十多核苷酸,其中第九多核苷酸和第十多核苷酸可以彼此具有100%序列同一性,并且进一步地,其中第九多核苷酸和第十多核苷酸可以作为直接重复序列排列在重组DNA构建体中。在一些实施方案中,第九多核苷酸和第十多核苷酸可以彼此有至少20、21、22、23、24、25、30、40、50、60、70、80、90或100个核苷酸具有100%的序列同一性。任选地,重组DNA构建体可以是线性的,并且第九多核苷酸和第十多核苷酸存在于重组DNA构建体的5’和3’端。
在另一个实施方案中,本文的任何方法均可以进一步涉及将编码至少一个选择标记的多核苷酸引入细胞器中,该至少一个选择标记选自:正选择标记、负选择标记及其任何组合。在一些实施方案中,正选择标记可以是除草剂耐受性蛋白。在一些实施方案中,除草剂耐受性蛋白可以是选自以下的至少一项:4-羟基苯丙酮酸双加氧酶(HPPD)、耐磺酰脲的乙酰乳酸合酶(ALS)、耐咪唑啉酮的乙酰乳酸合酶(ALS)、耐草甘膦的5-烯醇丙酮酰莽草酸-3-磷酸合酶(EPSPS)、耐草甘膦的草甘膦氧化还原酶(GOX)、草甘膦N-乙酰转移酶(GAT)、膦丝菌素乙酰转移酶(PAT)、原卟啉原氧化酶(PROTOX)、生长素酶或受体、P450多肽、乙酰辅酶A羧化酶(ACC酶)及其任何组合。
在一些实施方案中,该方法可以进一步涉及在正选择剂的存在下使细胞生长,并选择对于细胞器的改变的基因组是同质的细胞。在一些实施方案中,该方法可以进一步涉及在不存在正选择剂的情况下使细胞生长,然后选择缺乏非整合的重组DNA构建体的细胞。在一些实施方案中,该方法可以进一步涉及在不存在正选择剂的情况下使细胞生长,然后在负选择剂的存在下使细胞生长,然后选择缺乏非整合的重组DNA构建体的细胞。在一些实施方案中,细胞可以选自:酵母细胞、藻类细胞、植物细胞、昆虫细胞、非人类动物细胞、分离和纯化的人类细胞,以及哺乳动物组织培养物细胞。在一些实施方案中,在用于植物细胞的方法中,细胞器可以是质体(例如,叶绿体)或线粒体。在一些实施方案中,该方法可以进一步涉及从包含改变的细胞器基因组的植物细胞再生或生长植物。在一些实施方案中,植物细胞可以是单子叶植物细胞,例如,玉米细胞。植物细胞可以是双子叶植物细胞,例如,大豆细胞。
在一些实施方案中,细胞可以是植物细胞,其中细胞器是质体或线粒体,并且其中该方法进一步包括从包含改变的细胞器基因组的植物细胞再生植物。在一些实施方案中,细胞可以是酵母细胞或藻类细胞。在一些实施方案中,通过本文公开的方法产生的植物、种子、根、茎、叶、花、果实或豆可以包含具有改变的基因组的细胞器。
在另一个实施方案中,细胞器基因组的改变可以包括表达盒的插入。在一些实施方案中,表达盒可以是多顺反子表达盒。在一些实施方案中,多顺反子表达盒可以编码选择标记或筛选标记或两者。
另一方面,重组DNA构建体可以包含以下项:(i)编码至少一个指导多核酸的第一多核苷酸,其中至少一个指导多核酸引导多核苷酸指导的多肽切割细胞器基因组中存在的至少一个靶序列;(ii)编码多核苷酸指导的多肽的第二多核苷酸,其中多核苷酸指导的多肽在与指导多核酸相关联时切割至少一个靶序列;(iii)任选地,编码至少一个同源细胞器DNA序列的第三多核苷酸,其中至少一个同源细胞器DNA具有足以进行同源重组的大小,其中将至少一个同源细胞器DNA序列整合到细胞器基因组中导致至少一个靶序列的去除;(iv)任选地,编码至少一个选择标记或至少一个筛选标记或两者的第四多核苷酸;其中第四多核苷酸可操作地连接至在细胞器中具有功能的启动子;和(v)任选地,编码在细胞器中具有功能的复制起点的第五多核苷酸。在一些实施方案中,(iii)的第三多核苷酸可以包含第六多核苷酸和第七多核苷酸,其中第六多核苷酸和第七多核苷酸对应于细胞器基因组中两个同源的相邻区域,其中第六多核苷酸和第七多核苷酸被与细胞器DNA异源的序列隔开。在一些实施方案中,酵母细胞、藻类细胞、植物细胞、植物、种子、根、茎、叶、花、果实或豆可以包含重组DNA构建体。
另一方面,重组DNA构建体可以包含以下项:(i)编码至少一个指导RNA的第一多核苷酸,其中至少一个指导RNA引导多核苷酸指导的多肽切割细胞器基因组中存在的至少一个靶序列;(ii)编码多核苷酸指导的多肽的第二多核苷酸,其中多核苷酸指导的多肽在与指导RNA相关联时切割至少一个靶序列;(iii)包含第六多核苷酸和第七多核苷酸的第三多核苷酸,其中第六多核苷酸和第七多核苷酸对应于细胞器基因组中两个同源的相邻区域,其中第六多核苷酸和第七多核苷酸被与细胞器DNA异源的序列隔开,其中与细胞器DNA异源的序列包含选自以下的至少一项:第一多核苷酸、第二多核苷酸、第四多核苷酸、第八多核苷酸及其任何组合,其中第八多核苷酸编码与细胞器异源的RNA;(iv)任选地,编码至少一个选择标记或至少一个筛选标记或两者的第四多核苷酸;其中第四多核苷酸可操作地连接至在细胞器中具有功能的启动子;和(v)任选地,编码在细胞器中具有功能的复制起点的第五多核苷酸。
另一方面,用于改变细胞器的基因组的方法可以包括:(a)向细胞中引入:(i)编码包含可操作地连接至指导多核酸的靶向细胞器的RNA的RNA序列的多核苷酸,其中指导多核酸引导多核苷酸指导的多肽切割细胞器基因组中存在的靶序列,其中多核苷酸可操作地连接至至少一个调控元件;和(ii)编码修饰的多核苷酸指导的多肽的第二多核苷酸,其中第二多核苷酸可操作地连接至至少一个调控元件,并且其中修饰的多核苷酸指导的多肽包含可操作地连接至靶向细胞器的肽的多核苷酸指导的多肽;其中(i)的靶向细胞器的RNA和(ii)的靶向细胞器的肽均靶向同一细胞器;以及(b)在(i)的多核苷酸和(ii)的第二多核苷酸都表达的条件下使细胞生长。在一些实施方案中,该方法可以进一步包括步骤(c)——选择具有包含改变的基因组的细胞器的细胞。在一些实施方案中,该方法可以进一步包括步骤(d)——选择对于细胞器的改变的基因组是同质的细胞。
另一方面,用于改变细胞器的基因组的方法可以包括:(a)向细胞中引入:(i)编码包含可操作地连接至指导多核酸的靶向细胞器的RNA的RNA序列的多核苷酸,其中指导多核酸引导多核苷酸指导的多肽切割细胞器基因组中存在的靶序列,其中多核苷酸可操作地连接至至少一个调控元件;和(ii)第三多核苷酸,其中第三多核苷酸可操作地连接至至少一个调控元件,其中第三多核苷酸编码RNA分子,该RNA分子包含可操作地连接至编码多核苷酸指导的多肽的RNA序列的靶向细胞器的RNA;其中(i)的靶向细胞器的RNA和(ii)的靶向细胞器的RNA均靶向同一细胞器;以及(b)在(i)的多核苷酸和(ii)的第三多核苷酸都表达的条件下使细胞生长。在一些实施方案中,该方法可以进一步包括步骤(c)——选择具有包含改变的基因组的细胞器的细胞。在一些实施方案中,该方法可以进一步包括步骤(d)——选择对于细胞器的改变的基因组是同质的细胞。
在另一个实施方案中,本文的任何方法均可以进一步包括将包含至少一个供体多核苷酸(例如供体DNA)的多核苷酸引入细胞器中,其中至少一个供体多核苷酸(例如供体DNA)以相对于细胞器基因组的至少一个同源序列为边界,其中将至少一个供体多核苷酸的全部或部分整合到细胞器基因组中导致指导多核酸的靶位点的去除。在一些实施方案中,至少一个供体多核苷酸(例如供体DNA)可以包含与细胞器基因组异源的第一核酸序列,其中第一核酸序列以第二核酸序列和第三核酸序列为边界,其中第二核酸序列和第三核酸序列对应于细胞器基因组中两个同源的相邻区域。在一些实施方案中,第二核酸序列或第三核酸序列或两者可以包含至少一个改变的序列,其中至少一个改变的序列相对于细胞器基因组中的至少一个另外的靶位点被改变,其中至少一个改变的序列不被至少一个另外的指导多核酸识别,其中至少一个另外的指导多核酸可以引导多核苷酸指导的多肽切割细胞器基因组中的至少一个另外的靶位点。在一些实施方案中,细胞器基因组中的至少一个另外的靶位点可以存在于至少一个必需编码区中。在一些实施方案中,引入细胞器中的多核苷酸可以进一步包含第四核酸序列,其中第四核酸序列编码至少一个另外的指导多核酸。在一些实施方案中,至少一个另外的指导多核酸可以可操作地连接至在细胞器中有活性的启动子。
在一些实施方案中,引入细胞器中的多核苷酸进一步可以包含第四核酸序列,其中第四核酸序列编码至少一个另外的指导RNA,该至少一个另外的指导RNA可操作地连接至在细胞器中有活性的启动子。在一些实施方案中,通过本文公开的方法产生的细胞可以选自:酵母细胞、藻类细胞、植物细胞、昆虫细胞、非人类动物细胞、分离和纯化的人类细胞,以及哺乳动物组织培养物细胞。在一些实施方案中,通过本文公开的方法产生的植物、种子、根、茎、叶、花、果实或豆可以包含具有改变的基因组的细胞器。
另一方面,用于改变细胞器的基因组的方法可以包括:(a)向细胞的细胞器中引入以下项:(i)至少一个指导RNA,其中至少一个指导RNA引导多核苷酸指导的多肽切割细胞器基因组中存在的至少一个靶序列;(ii)多核苷酸指导的多肽,其中多核苷酸指导的多肽在与至少一个指导RNA相关联时切割至少一个靶序列;和(iii)替代DNA;以及(b)选择包含含有替代DNA的细胞器的细胞。在一些实施方案中,步骤(a)部分(iii)的替代DNA可以包含来自栽培种、品系、亚种和其他物种并且不同于步骤(a)的细胞器的基因组的细胞器DNA片段或完整细胞器DNA。在一些实施方案中,替代DNA可以缺少至少一个靶序列。在一些实施方案中,在步骤(a)部分(ii)之后并在步骤(a)部分(iii)之前,可以选择其中细胞器的基因组已被消除的细胞。在一些实施方案中,至少一个靶序列可以不存在于替代DNA中。
在一些实施方案中,本文所述的方法和物质组合物中的指导多核酸可以包含以下项:i)与靶多核酸的至少17个核苷酸互补的至少17个核苷酸,其中所述靶多核酸位于细胞器的基因组中;和ii)与多核苷酸指导的多肽接触的区域。指导多核酸可以包含一个或多个RNA碱基。在一些实施方案中,指导多核酸可以是指导RNA。指导多核酸可以是双指导RNA。在一些实施方案中,指导多核酸可以是单指导RNA。
在另一个实施方案中,本文所述的方法和物质组合物中的多核苷酸指导的多肽可以选自:Cas9蛋白、MAD2蛋白、MAD7蛋白、CRISPR核酸酶、Cas蛋白的核酸酶结构域、Cpf1蛋白、Argonaute、其修饰形式及其任何组合。在一些实施方案中,编码多核苷酸指导的多肽的序列可以对于人、酵母、藻类或植物物种是密码子优化的。
在另一个实施方案中,细胞可以是植物细胞,细胞器可以是质体(例如叶绿体)或线粒体,并且该方法可以进一步包括从包含改变的细胞器基因组的植物细胞再生或生长植物。
在另一个实施方案中,通过本文公开的任何方法产生的细胞可以选自:酵母细胞、藻类细胞、植物细胞、昆虫细胞、非人类动物细胞、分离和纯化的人类细胞,以及哺乳动物组织培养物细胞。
在另一个实施方案中,通过本文公开的任何方法产生的植物、种子、根、茎、叶、花、果实或豆可以包含具有改变的基因组的细胞器。
在另一个实施方案中,包含本文所述的任何重组DNA构建体的细胞可以选自:酵母细胞、藻类细胞、植物细胞、昆虫细胞、非人类动物细胞、分离和纯化的人类细胞,以及哺乳动物组织培养物细胞。
在另一个实施方案中,包含本文所述的任何重组DNA构建体的植物、种子、根、茎、叶、花、果实或豆可以包含具有改变的基因组的细胞器。
在一个实施方案中,多核苷酸可以包含:a)靶向细胞器的序列;和b)指导多核酸,其中指导多核酸包含i)与靶多核苷酸的至少17个核苷酸互补的至少17个核苷酸,其中所述靶多核酸位于细胞器的基因组中;和ii)与多核苷酸指导的多肽接触的区域,其中所述靶向细胞器的序列和所述指导多核酸序列可操作地连接。在另一个实施方案中,多核苷酸包含一个或多个RNA碱基。在另一个实施方案中,多核苷酸进一步包含编码多核苷酸指导的多肽的序列。在另一个实施方案中,所述多核苷酸指导的多肽是Cas9蛋白。在另一个实施方案中,所述多核苷酸指导的多肽是Argonaute蛋白。在另一个实施方案中,所述多核苷酸指导的多肽是CRISPR家族中的核酸酶。在另一个实施方案中,所述多核苷酸指导的多肽是Cpf1。在另一个实施方案中,编码所述多核苷酸指导的多肽的序列对于人是密码子优化的。在另一个实施方案中,编码所述多核苷酸指导的多肽的序列对于植物物种是密码子优化的。在另一个实施方案中,所述靶多核酸包含前间隔区邻近基序(PAM)序列。在另一个实施方案中,所述Cas9已经被工程化以与改变的PAM序列相关联。在另一个实施方案中,所述多核苷酸指导的多肽选择性地切割靶多核酸。在另一个实施方案中,所述多核苷酸指导的多肽选择性地诱导靶多核酸中的双链断裂。在另一个实施方案中,所述多核苷酸指导的多肽包含在靶多核酸中诱导切口的核酸酶结构域。在另一个实施方案中,多核苷酸包含两个或更多个不同的指导多核酸。在另一个实施方案中,指导多核酸由双指导RNA组成。在另一个实施方案中,指导多核酸是单指导RNA。在另一个实施方案中,指导多核酸由crRNA和trRNA组成,其中所述crRNA和所述trRNA任选地连接。在另一个实施方案中,所述指导多核酸包含被工程化为与细胞的细胞器中的靶多核酸的至少18个核苷酸互补的区域。在另一个实施方案中,所述指导多核酸被工程化为与细胞的细胞器中的靶多核酸的至少22个核酸基本互补。在另一个实施方案中,所述至少17个核苷酸是连续的。在另一个实施方案中,所述细胞器是线粒体。在另一个实施方案中,所述细胞器是质体。在另一个实施方案中,所述指导多核酸被工程化以与本文公开的靶基因的区域杂交。在另一个实施方案中,多核苷酸进一步包含修饰的RNA供体序列,其中修饰的RNA供体序列包含可操作地连接至供体RNA的靶向细胞器的RNA。
在另一个实施方案中。当被翻译成RNA时可以产生本公开内容的多核苷酸的DNA序列。
在另一个实施方案中,编码RNA序列的多核苷酸可以包含可操作地连接至指导RNA的靶向细胞器的RNA,其中指导RNA引导多核苷酸指导的多肽切割细胞器基因组中存在的靶序列。RNA序列可以进一步包含编码多核苷酸指导的多肽的序列,以及任选地,在指导RNA与编码多核苷酸指导的多肽的序列之间的RNA切割位点。
在另一个实施方案中,细胞器可以包含本公开内容的多核苷酸。在一些实施方案中,细胞器是线粒体。在一些实施方案中,细胞器是质体。
在另一个实施方案中,细胞可以包含本公开内容的任何多核苷酸。细胞可以进一步包含编码修饰的多核苷酸指导的多肽的多核苷酸,其中修饰的多核苷酸指导的多肽包含可操作地连接至靶向细胞器的肽的多核苷酸指导的多肽。
在另一个实施方案中,用于将指导多核酸引入细胞的细胞器中的方法可以包括:(a)将编码RNA序列的多核苷酸引入细胞中,该RNA序列包含可操作地连接至指导多核酸的靶向细胞器的RNA,其中指导多核酸引导多核苷酸指导的多肽切割细胞器基因组中存在的靶序列,进一步地,其中多核苷酸可操作地连接至至少一个调控元件;以及(b)在表达多核苷酸的条件下使细胞生长。
在另一个实施方案中,用于改变细胞器的基因组的方法可以包括:(a)向细胞中引入:(i)编码包含可操作地连接至指导多核酸的靶向细胞器的RNA的RNA序列的多核苷酸,其中指导多核酸引导多核苷酸指导的多肽切割细胞器基因组中存在的靶序列,其中多核苷酸可操作地连接至至少一个调控元件;和(ii)编码修饰的多核苷酸指导的多肽的第二多核苷酸,其中第二多核苷酸可操作地连接至至少一个调控元件,并且其中修饰的多核苷酸指导的多肽包含可操作地连接至靶向细胞器的肽的多核苷酸指导的多肽;其中(i)的靶向细胞器的RNA和(ii)的靶向细胞器的肽均靶向同一细胞器;以及(b)在(i)的多核苷酸和(ii)的第二多核苷酸都表达的条件下使细胞生长。
在另一个实施方案中,用于改变细胞器的基因组的方法可以包括:(a)向细胞中引入:(i)编码包含可操作地连接至指导多核酸的靶向细胞器的RNA的RNA序列的多核苷酸,其中指导多核酸引导多核苷酸指导的多肽切割细胞器基因组中存在的靶序列,其中多核苷酸可操作地连接至至少一个调控元件;和(ii)第三多核苷酸,其中第三多核苷酸可操作地连接至至少一个调控元件,其中第三多核苷酸编码RNA分子,该RNA分子包含可操作地连接至编码多核苷酸指导的多肽的RNA序列的靶向细胞器的RNA;其中(i)的靶向细胞器的RNA和(ii)的靶向细胞器的RNA均靶向同一细胞器;以及(b)在(i)的多核苷酸和(ii)的第三多核苷酸都表达的条件下使细胞生长。
在另一个实施方案中,用于改变细胞器的基因组的方法可以包括:(a)将编码RNA序列的多核苷酸引入细胞中,该RNA序列包含:(i)可操作地连接至指导多核酸的靶向细胞器的RNA,其中指导多核酸引导多核苷酸指导的多肽切割细胞器基因组中存在的靶序列,(ii)编码多核苷酸指导的多肽的序列,和(iii)在指导多核酸与编码多核苷酸指导的多肽的序列之间的RNA切割位点,其中多核苷酸可操作地连接至至少一个调控元件;以及(b)在表达(a)的多核苷酸的条件下使细胞生长。
在另一个实施方案中,本文的任何方法均可以进一步包括将包含至少一个供体多核苷酸(例如供体DNA)的多核苷酸引入细胞器中,其中至少一个供体多核苷酸(例如供体DNA)以相对于细胞器基因组的至少一个同源序列为边界,其中将至少一个供体多核苷酸的全部或部分整合到细胞器基因组中导致指导多核酸的靶位点的去除。至少一个供体多核苷酸(例如供体DNA)可以包含与细胞器基因组异源的第一核酸序列,其中第一核酸序列以第二核酸序列和第三核酸序列为边界,其中第二核酸序列和第三核酸序列对应于细胞器基因组中两个同源的相邻区域。另外,第二核酸序列或第三核酸序列或两者可以包含至少一个改变的序列,其中至少一个改变的序列相对于细胞器基因组中的至少一个另外的靶位点被改变,其中至少一个改变的序列不被至少一个另外的指导多核酸识别,其中至少一个另外的指导多核酸引导多核苷酸指导的多肽切割细胞器基因组中的至少一个另外的靶位点。细胞器基因组中的至少一个另外的靶位点可以存在于至少一个必需编码区中。引入细胞器中的多核苷酸可以进一步包含第四核酸序列,其中第四核酸序列编码可操作地连接至在细胞器中有活性的启动子的至少一个另外的指导多核酸。
在另一个实施方案中,多核苷酸可以编码修饰的RNA供体序列,其中修饰的RNA供体序列可以包含可操作地连接至供体RNA的靶向细胞器的RNA。修饰的RNA供体序列可以包含逆转录酶引物位点。另外,一种细胞,其包含多核苷酸,并且进一步包含编码修饰的逆转录酶的多核苷酸,其中修饰的逆转录酶包含可操作地连接至靶向细胞器的肽的逆转录酶。
在另一个实施方案中,改变细胞器的基因组的方法可以进一步包括将供体多核苷酸引入细胞器中,其中将供体多核苷酸引入细胞器中是通过:(a)将编码修饰的RNA供体序列的多核苷酸引入细胞中,其中多核苷酸可操作地连接至至少一个调控元件;(b)将编码修饰的逆转录酶的多核苷酸引入细胞中,其中修饰的逆转录酶包含可操作地连接至靶向细胞器的肽的逆转录酶,其中多核苷酸可操作地连接至至少一个调控元件,其中(a)的靶向细胞器的RNA和(b)的靶向细胞器的肽均靶向同一细胞器;以及(c)在(a)和(b)的多核苷酸都表达的条件下使细胞生长。
在另一个实施方案中,用于改变细胞器的基因组的方法可以包括:(a)将包含以下项的重组DNA构建体引入细胞器中:(i)编码至少一个指导多核酸的第一多核苷酸,其中至少一个指导多核酸引导多核苷酸指导的多肽切割细胞器基因组中存在的至少一个靶序列;(ii)编码多核苷酸指导的多肽的第二多核苷酸,其中多核苷酸指导的多肽在与指导多核酸相关联时切割至少一个靶序列;(iii)编码至少一个同源细胞器DNA序列的第三多核苷酸,其中至少一个同源细胞器DNA具有足以进行同源重组的大小,其中将至少一个同源细胞器DNA序列整合到细胞器基因组中导致至少一个靶序列的去除;(iv)任选地,编码至少一个选择标记的第四多核苷酸;其中第四多核苷酸可操作地连接至在细胞器中具有功能的启动子;和(v)任选地,编码在细胞器中具有功能的复制起点的第五多核苷酸;以及(b)在(i)的第一多核苷酸和(ii)的第二多核苷酸均表达的条件下使包含(a)的细胞器的细胞生长。(iii)的第三多核苷酸可以包含第六多核苷酸和第七多核苷酸,其中第六多核苷酸和第七多核苷酸对应于细胞器基因组中两个同源的相邻区域,其中第六多核苷酸和第七多核苷酸被与细胞器DNA异源的序列隔开,其中与细胞器DNA异源的序列包含选自以下的至少一项:第一多核苷酸、第二多核苷酸、第四多核苷酸和第八多核苷酸,其中第八多核苷酸编码与细胞器异源的RNA。
在另一个实施方案中,一种方法,其中选自以下的至少一项:第一多核苷酸、第二多核苷酸、第四多核苷酸和第五多核苷酸,可以位于以第六多核苷酸和第七多核苷酸为边界的区域之外。
在另一个实施方案中,一种方法,其中第四多核苷酸和第五多核苷酸均可以位于以第六多核苷酸和第七多核苷酸为边界的区域之外。
在另一个实施方案中,第四多核苷酸包含编码正选择标记的第一序列和编码负选择标记的第二序列,其中第一序列和第二序列各自可操作地连接至在细胞器中具有功能的启动子。
在另一个实施方案中,第五多核苷酸编码质体复制起点,其中质体复制起点对应于来自质体rRNA基因间区域的DNA序列。
在另一个实施方案中,第五多核苷酸编码线粒体复制起点。
在另一个实施方案中,重组DNA构建体进一步包含第八多核苷酸和第九多核苷酸,其中第八多核苷酸和第九多核苷酸彼此有至少100个核苷酸具有100%的序列同一性,其中第八多核苷酸和第九多核苷酸作为直接重复序列排列在重组DNA构建体中。任选地,重组DNA构建体是线性的,并且第八多核苷酸和第九多核苷酸存在于重组DNA构建体的5’和3’端。
在另一个实施方案中,重组DNA构建体是线性和单链的,并且重组DNA构建体可操作地连接至修饰的VirD2蛋白,其中修饰的VirD2蛋白包含可操作地连接至靶向细胞器的肽的VirD2蛋白,其中修饰的VirD2蛋白也已被修饰,使得VirD2蛋白的每个天然核定位序列不再具有功能。任选地,重组DNA构建体可操作地连接至至少一个修饰的VirE2蛋白,其中至少一个修饰的VirE2蛋白包含可操作地连接至靶向细胞器的肽的VirE2蛋白,其中至少一个修饰的VirE2蛋白也已被修饰,使得VirE2蛋白的每个天然核定位序列不再具有功能。任选地,重组DNA构建体可操作地连接至至少一个修饰的RecA蛋白,其中至少一个修饰的RecA蛋白包含可操作地连接至靶向细胞器的肽的RecA蛋白。任选地,重组DNA构建体可操作地连接至至少一个嵌合多肽,其中至少一个嵌合多肽包含靶向细胞器的肽和细胞穿透肽。
在另一个实施方案中,本文的任何方法均可以进一步涉及将编码至少一个选择标记的多核苷酸引入细胞器中,该至少一个选择标记选自:正选择标记、负选择标记及其任何组合。正选择标记可以是除草剂耐受性蛋白。除草剂耐受性蛋白可以是选自以下的至少一项:4-羟基苯丙酮酸双加氧酶(HPPD)、耐磺酰脲的乙酰乳酸合酶(ALS)、耐咪唑啉酮的乙酰乳酸合酶(ALS)、耐草甘膦的5-烯醇丙酮酰莽草酸-3-磷酸合酶(EPSPS)、耐草甘膦的草甘膦氧化还原酶(GOX)、草甘膦N-乙酰转移酶(GAT)、膦丝菌素乙酰转移酶(PAT)、原卟啉原氧化酶(PROTOX)、生长素酶或受体、P450多肽和乙酰辅酶A羧化酶(ACC酶)。该方法可以进一步涉及在正选择剂的存在下使细胞生长,并选择对于细胞器的改变的基因组是同质的细胞。任选地,该方法可以进一步涉及在不存在正选择剂的情况下使细胞生长,然后选择缺乏非整合的重组DNA构建体的细胞。可替代地,该方法可以进一步涉及在不存在正选择剂的情况下使细胞生长,然后在负选择剂的存在下使细胞生长,然后选择缺乏非整合的重组DNA构建体的细胞。在该方法中,细胞可以是植物细胞,细胞器可以是质体。该方法可以进一步涉及从包含改变的细胞器基因组的植物细胞再生植物。植物细胞可以是单子叶植物细胞,例如,玉米细胞。植物细胞可以是双子叶植物细胞,例如,大豆细胞。
在另一个实施方案中,在本文的用于将细胞器的基因组改变成含有异源多核苷酸的任何方法中,异源多核苷酸可以编码选自以下的至少一项:除草剂耐受性蛋白、杀虫蛋白、与杀虫蛋白结合的辅助蛋白、dsRNA、siRNA和miRNA,其中dsRNA、siRNA和miRNA抑制植物害虫中存在的至少一个靶基因。除草剂耐受性蛋白可以是选自以下的至少一项:4-羟基苯丙酮酸双加氧酶(HPPD)、耐磺酰脲的乙酰乳酸合酶(ALS)、耐咪唑啉酮的乙酰乳酸合酶(ALS)、耐草甘膦的5-烯醇丙酮酰莽草酸-3-磷酸合酶(EPSPS)、耐草甘膦的草甘膦氧化还原酶(GOX)、草甘膦N-乙酰转移酶(GAT)、膦丝菌素乙酰转移酶(PAT)、原卟啉原氧化酶(PROTOX)、生长素酶或受体、P450多肽和乙酰辅酶A羧化酶(ACC酶)。杀虫蛋白可以是选自以下的至少一项:Cry1Ac、Cyt1Aa、Cry1Ab、Cry2Aa、Cry1I、Cry1C、Cry1D、Cry1E、Cry1Be、Cry1Fa和Vip3A。与杀虫蛋白结合的辅助蛋白可以是选自以下的至少一项:20kDa辅助蛋白和19kDa辅助蛋白。dsRNA、siRNA和miRNA可以抑制选自以下的至少一个靶基因:蛋白酶体A型亚基肽(Pas-4)、ACT、SHR、EPIC2B和PnPMAI。异源多核苷酸可以可操作地连接至在细胞器中有活性的至少一个调控元件。至少一个调控元件可以选自:与玉米clpP 5’-UTR组合的玉米clpP启动子、与来自噬菌体T7的基因10的5’-UTR组合的玉米clpP启动子、与来自噬菌体T7的基因10的5’-UTR组合的番茄psbA启动子以及与修饰的accD 5’-UTR组合的番茄rrn16启动子。细胞可以是植物细胞,其中细胞器是质体,并且其中该方法进一步包括从包含改变的细胞器基因组的植物细胞再生植物。植物细胞可以是大豆细胞。
在另一个实施方案中,细胞可以包含具有改变的基因组的细胞器,其中细胞可通过任何上述方法产生。细胞可以选自:酵母细胞、藻类细胞、植物细胞、昆虫细胞、非人类动物细胞、分离和纯化的人类细胞,以及哺乳动物组织培养物细胞。
在另一个实施方案中,一种方法可以包括如上所述改变细胞中细胞器的基因组,其中细胞是植物细胞并且进一步地,其中植物从植物细胞再生,其中植物包含具有改变的基因组的细胞器。而且,从再生植物产生的植物(例如,后代植物)或种子,其中植物或种子包含具有改变的基因组的细胞器。
在另一个实施方案中,植物、种子、根、茎、叶、花、果实或豆可以通过本公开内容的方法产生。在一些实施方案中,植物、种子、根、茎、叶、花、果实或豆包含具有改变的基因组的细胞器。
在另一个实施方案中,植物、种子、根、茎、叶、花、果实或豆可以包含本公开内容的多核苷酸。
援引并入
本说明书中提及的所有出版物、专利和专利均通过引用并入本文,其程度如同特别地且单独地指出每个单独的出版物、专利或专利申请通过引用而并入。
附图说明
本发明的新颖特征在所附权利要求中具体阐述。通过参考以下对利用本发明原理的说明性实施方案加以阐述的详细描述和附图,将会获得对本发明的特征和优点的更好的理解,在这些附图中:
图1显示了从转化的酵母线粒体DNA中的替换的DNA基因座的PCR扩增获得的序列,该DNA通过编辑质粒方法修饰;并且
图2显示了从转化的衣藻(Chlamydomoas)质体DNA中的替换的DNA基因座的PCR扩增获得的序列,该DNA通过编辑质粒方法修饰。
序列表的简要说明
通过构成本申请的一部分的以下详细描述和序列表可以更全面地理解本公开内容。
SEQ ID NO:1对应于编码mCas9-A的核酸序列;即,包含ATP酶β线粒体靶向肽的Cas9。
SEQ ID NO:2对应于编码mCas9-B的核酸序列;即,包含70kD线粒体靶向肽的Cas9。
SEQ ID NO:3对应于编码指导RNA-tRNALys(tRK1)融合体的核酸序列(“N”残基指示指导RNA的可变靶向结构域)。
SEQ ID NO:4对应于编码指导RNA-tRNALys融合体的核酸序列(用于线粒体导入的tRK2-2形式;“N”残基指示指导RNA的可变靶向结构域)。
SEQ ID NO:5对应于编码具有改变的5’tRNA端的指导RNA-tRNALys融合体的核酸序列。
SEQ ID NO:6对应于编码指导RNA-tRNALys融合体的核酸序列(具有改变的5’端的修饰的tRK2形式;5’端的“N”残基指示指导RNA的可变靶向结构域)。
SEQ ID NO:7对应于编码嵌入在tRK2-2主链中的tRK2内含子中的gRNA的核酸序列(“N”残基的20聚体指示可变靶向结构域;“N”残基的3聚体与可变靶向结构域的前三个核苷酸互补,以保留用于剪接的二级结构)。
SEQ ID NO:8对应于编码嵌入在tRK1主链中的tRK2型内含子中的gRNA的核酸序列(“N”残基的20聚体指示可变靶向结构域;“N”残基的3聚体与指导RNA的前三个核苷酸互补,以保留用于剪接的二级结构)。
SEQ ID NO:9对应于编码与tRK1的后半部分融合的gRNA(B形式)的核酸序列。
SEQ ID NO:10对应于编码与指导RNA-B形式融合体共表达的一种tRK1形式的核酸序列。
SEQ ID NO:11对应于编码在D臂与F发夹结构之间构建的gRNA的核酸序列。
SEQ ID NO:12对应于编码与D臂融合的gRNA的核酸序列。
SEQ ID NO:13对应于编码与F发夹结构融合的gRNA的核酸序列。
SEQ ID NO:14对应于靶向线粒体中的细胞色素b基因的指导RNA的可变靶向结构域的核苷酸序列。
SEQ ID NO:15对应于靶向线粒体中的COX1基因的指导RNA的可变靶向结构域的核苷酸序列。
SEQ ID NO:16对应于靶向线粒体中的COX1基因的指导RNA的可变靶向结构域的核苷酸序列。
SEQ ID NO:17对应于靶向线粒体中的COX2基因的指导RNA的可变靶向结构域的核苷酸序列。
SEQ ID NO:18对应于与可变靶向结构域的3’端融合以产生用于Cas9的功能性指导RNA的核酸序列。
SEQ ID NO:19对应于编码SNR52启动子的核酸序列。
SEQ ID NO:20对应于编码SUP4终止子的核酸序列。
SEQ ID NO:21对应于用于巴龙霉素耐受性模板DNA的寡核苷酸引物的核酸序列。
SEQ ID NO:22对应于互补寡核苷酸引物的核酸序列,用于与SEQ ID NO:21的引物一起制备模板DNA。
SEQ ID NO:23对应于编码靶向线粒体中的15S rRNA基因的指导RNA的可变靶向结构域的核酸序列。
SEQ ID NO:24对应于编码为在酵母线粒体中表达而优化的Cas9基因的核酸序列。
SEQ ID NO:25对应于编码COX2启动子的核酸序列。
SEQ ID NO:26对应于编码COX2终止子的核酸序列。
SEQ ID NO:27对应于靶向酵母中的线粒体21S rRNA基因的指导RNA的可变靶向结构域的核苷酸序列。
SEQ ID NO:28对应于编码15S rRNA基因的启动子序列的核酸序列。
SEQ ID NO:29对应于编码15S rRNA基因的终止子序列的核酸序列。
SEQ ID NO:30对应于靶向线粒体中的COB基因的指导RNA的可变靶向结构域的核苷酸序列。
SEQ ID NO:31对应于靶向线粒体中的ATP9基因的指导RNA的可变靶向结构域的核苷酸序列。
SEQ ID NO:32对应于NDUFV2线粒体靶向肽的氨基酸序列。
SEQ ID NO:33对应于编码与衍生自NDUFV2的线粒体靶向肽融合的Cas9的核酸序列。
SEQ ID NO:34对应于柠檬酸合酶的线粒体靶向肽的氨基酸序列。
SEQ ID NO:35对应于编码与衍生自人柠檬酸合酶的线粒体信号肽融合的Cas9的核酸序列。
SEQ ID NO:36对应于编码用于线粒体导入的人5S rRNA基因的核酸序列(可以将4聚体“GTCT”替换为指导RNA)。
SEQ ID NO:37对应于靶向线粒体中的人COX3基因的gRNA序列的可变靶向结构域的核苷酸序列。
SEQ ID NO:38对应于利用人5S rRNA基因的启动子和终止子的指导RNA的表达盒的核酸序列。
SEQ ID NO:39对应于靶向小鼠线粒体DNA中的CAPR基因座的指导RNA的可变靶向结构域的核苷酸序列(CAPR等位基因在残基17处具有A至G置换)。
SEQ ID NO:40对应于具有CAPR突变的多核苷酸修饰模板的核苷酸序列(小鼠16SrRNA的一部分)。
SEQ ID NO:41对应于编码不具有NLS和FLAG结构域,但是具有马铃薯IV内含子的pcoCas9的核苷酸序列。该序列对于拟南芥(GenBank ID:KF264451)是密码子优化的。
SEQ ID NO:42对应于pcoCas9的氨基酸序列。
SEQ ID NO:43对应于AtRbcS(At1g67090)的转运肽的氨基酸序列。切割发生在位置54的“N”残基之后。
SEQ ID NO:44对应于AtCab(NP_001078288.1)的转运肽的氨基酸序列。切割发生在位置55的“P”残基之后。
SEQ ID NO:45对应于At DnaJ8(NP_178207.1)的转运肽的氨基酸序列。切割发生在位置47的“V”残基之后。
SEQ ID NO:46对应于编码具有AT-rbcS转运肽(具有马铃薯内含子)的pcoCas9的核苷酸序列。
SEQ ID NO:47对应于具有AT-rbcS叶绿体转运肽的pcoCas9的氨基酸序列。
SEQ ID NO:48对应于编码Vd 5’UTR(gi|301016157|gb|HM136583.1|的核苷酸序列。
SEQ ID NO:49对应于编码AteIF4E1全长cDNA的核苷酸序列。
SEQ ID NO:50对应于编码典型gRNA模块的核苷酸序列(“N”残基的5’末端20聚体对应于可变靶向结构域)。
SEQ ID NO:51对应于编码CSY4的核苷酸序列。
SEQ ID NO:52对应于Csy4多肽的氨基酸序列。
SEQ ID NO:53对应于Csy4识别位点的核苷酸序列。
SEQ ID NO:54对应于编码侧翼为Csy4识别位点的指导RNA的核苷酸序列(多聚体形式)。
SEQ ID NO:55对应于编码Nt_Chl_rpoB(烟草(Nicotiana tabacum)RNA聚合酶β链)的核苷酸序列。
SEQ ID NO:56对应于靶向来自烟草的质体rpoB基因的指导RNA的可变靶区域的核苷酸序列。
SEQ ID NO:57对应于靶向来自烟草的质体rpoB基因的指导RNA的可变靶区域的核苷酸序列。
SEQ ID NO:58对应于编码Nt_Cp_psbA(烟草光系统II蛋白D1)的核苷酸序列。
SEQ ID NO:59对应于靶向来自烟草的质体psbA基因的指导RNA的可变靶区域的核苷酸序列。
SEQ ID NO:60对应于靶向来自烟草的质体psbA基因的指导RNA的可变靶区域的核苷酸序列。
SEQ ID NO:61对应于编码Nt_Cp_rps15(烟草核糖体蛋白S15)的核苷酸序列。
SEQ ID NO:62对应于靶向来自烟草的质体rps15基因的指导RNA的可变靶区域的核苷酸序列。
SEQ ID NO:63对应于靶向来自烟草的质体rps15基因的指导RNA的可变靶区域的核苷酸序列。
SEQ ID NO:64对应于编码Nt_Cp_rpl33(烟草50S核糖体蛋白L33)的核苷酸序列。
SEQ ID NO:65对应于靶向来自烟草的质体rpl33基因的指导RNA的可变靶区域的核苷酸序列。
SEQ ID NO:66对应于靶向来自烟草的质体rpl33基因的指导RNA的可变靶区域的核苷酸序列。
SEQ ID NO:67对应于编码GlmaCp rpoB(大豆(Glycine max)RNA聚合酶β链)的核苷酸序列。
SEQ ID NO:68对应于靶向来自大豆的质体rpoB基因的指导RNA的可变靶区域的核苷酸序列。
SEQ ID NO:69对应于靶向来自大豆的质体rpoB基因的指导RNA的可变靶区域的核苷酸序列。
SEQ ID NO:70对应于编码GlmaCp psbA(大豆光系统II蛋白D1)的核苷酸序列。
SEQ ID NO:71对应于靶向来自大豆的质体psbA基因的指导RNA的可变靶区域的核苷酸序列。
SEQ ID NO:72对应于靶向来自大豆的质体psbA基因的指导RNA的可变靶区域的核苷酸序列。
SEQ ID NO:73对应于编码GlmaCp_rps15(大豆核糖体蛋白S15)的核苷酸序列。
SEQ ID NO:74对应于靶向来自大豆的质体rps15基因的指导RNA的可变靶区域的核苷酸序列。
SEQ ID NO:75对应于靶向来自大豆的质体rps15基因的指导RNA的可变靶区域的核苷酸序列。
SEQ ID NO:76对应于编码GlmaCp_rpl33(大豆50S核糖体蛋白L33)的核苷酸序列。
SEQ ID NO:77对应于靶向来自大豆的质体rpl33基因的指导RNA的可变靶区域的核苷酸序列。
SEQ ID NO:78对应于靶向来自大豆的质体rpl33基因的指导RNA的可变靶区域的核苷酸序列。
SEQ ID NO:79对应于编码具有内含子的本生烟(Nicotiana benthamiana)rps16的核苷酸序列(核糖体蛋白S16,GI:KC495035.1)。
SEQ ID NO:80对应于靶向来自本生烟的质体rps16基因的指导RNA的可变靶区域的核苷酸序列。
SEQ ID NO:81对应于靶向来自本生烟的质体rps16基因的指导RNA的可变靶区域的核苷酸序列。
SEQ ID NO:82对应于编码本生烟matK的核苷酸序列(成熟酶K,GI:AB040014)。
SEQ ID NO:83对应于靶向来自本生烟的质体matK基因的指导RNA的可变靶区域的核苷酸序列。
SEQ ID NO:84对应于靶向来自本生烟的质体matK基因的指导RNA的可变靶区域的核苷酸序列。
SEQ ID NO:85对应于靶向来自烟草的基因间区域(NtChrC;57408..57389)的指导RNA的可变靶区域的核苷酸序列。
SEQ ID NO:86对应于靶向来自烟草的基因间区域(NtChrC;59412..59393)的指导RNA的可变靶区域的核苷酸序列。
SEQ ID NO:87对应于靶向来自烟草的基因间区域(NtChrC;59622..59603)的指导RNA的可变靶区域的核苷酸序列。
SEQ ID NO:88对应于靶向来自烟草的基因间区域(NtChrC;65704..65723)的指导RNA的可变靶区域的核苷酸序列。
SEQ ID NO:89对应于靶向来自大豆的基因间区域(GlmaCp_NC_007942.1_59039-59058)的指导RNA的可变靶区域的核苷酸序列。
SEQ ID NO:90对应于靶向来自大豆的基因间区域(GlmaCp_NC_007942.1_59100-59119)的指导RNA的可变靶区域的核苷酸序列。
SEQ ID NO:91对应于靶向来自大豆的基因间区域(GlmaCp_NC_007942.1_62057-62038)的指导RNA的可变靶区域的核苷酸序列。
SEQ ID NO:92对应于靶向来自大豆的基因间区域(GlmaCp_NC_007942.1_62361-62380)的指导RNA的可变靶区域的核苷酸序列。
SEQ ID NO:93对应于质体psbA基因的靶位点的核苷酸序列。
SEQ ID NO:94对应于多核苷酸修饰模板的区域的核苷酸序列,该区域对应于质体psbA基因的靶位点。
SEQ ID NO:95对应于由SEQ ID NO:1编码的ATP酶β线粒体靶向肽的氨基酸序列。
SEQ ID NO:96对应于与由SEQ ID NO:1编码的ATP酶β线粒体靶向肽融合的Cas9多肽的氨基酸序列。
SEQ ID NO:97对应于由SEQ ID NO:2编码的70kD线粒体靶向肽的氨基酸序列。
SEQ ID NO:98对应于与由SEQ ID NO:2编码的70kD线粒体靶向肽融合的Cas9多肽的氨基酸序列。
SEQ ID NO:99对应于正向引物ZmPclpP-Forward的核苷酸序列,与clpP 5’-UTR结合(ZmPclpP:clpP)用于玉米clpP启动子的PCR扩增。该正向引物还可以与来自噬菌体T7的基因10的5’-UTR结合(ZmPclpP:G10)用于玉米clpP启动子的PCR扩增。
SEQ ID NO:100对应于反向引物ZmPclpP-Reverse的核苷酸序列,与clpP 5’-UTR结合(ZmPclpP:clpP)用于玉米clpP启动子的PCR扩增。
SEQ ID NO:101对应于与来自噬菌体T7的基因10的5’-UTR结合(ZmPclpP:G10)用于玉米clpP启动子的PCR扩增的反向引物的核苷酸序列。
SEQ ID NO:102对应于与来自噬菌体T7的基因10的5’-UTR结合(SlPsbA:T7g10)用于番茄psbA启动子的PCR扩增的正向引物的核苷酸序列。
SEQ ID NO:103对应于与来自噬菌体T7的基因10的5’-UTR结合(SlPsbA:T7g10)用于番茄psbA启动子的PCR扩增的反向引物的核苷酸序列。
SEQ ID NO:104对应于与accD-mod 5’-UTR结合用于番茄rrn16启动子的SIPrrn16启动子部分的PCR扩增的正向引物的核苷酸序列。
SEQ ID NO:105对应于与accD-mod 5’-UTR结合用于番茄rrn16启动子的SIPrrn16启动子部分的PCR扩增的反向引物的核苷酸序列。
SEQ ID NO:106对应于与accD-mod 5’-UTR结合用于番茄rrn16启动子的accD-mod5’-UTR部分的PCR扩增的正向引物的核苷酸序列。
SEQ ID NO:107对应于与accD-mod 5’-UTR结合用于番茄rrn16启动子的accD-mod5’-UTR部分的PCR扩增的反向引物的核苷酸序列。
SEQ ID NO:108对应于来自苏云金芽孢杆菌库斯塔克亚种(Bacillusthuringiensis kurstaki)血清变型HD73的核苷酸序列,其编码Cry1Acδ-内毒素(U89872)。
SEQ ID NO:109对应于由SEQ ID NO:108编码的Cry1Acδ-内毒素的氨基酸序列。
SEQ ID NO:110对应于来自苏云金芽孢杆菌库斯塔克亚种血清变型HD73的核苷酸序列,其编码具有杀虫活性的Cry1Acδ-内毒素的截短形式。
SEQ ID NO:111对应于来自苏云金芽孢杆菌以色列亚种血清变型的核苷酸序列,其编码Cyt1Aa蛋白(Gene ID:5759908)。
SEQ ID NO:112对应于来自苏云金芽孢杆菌以色列亚种血清变型的核苷酸序列(pBt024),其编码20kDa辅助蛋白。
SEQ ID NO:113对应于来自苏云金芽孢杆菌以色列亚种血清变型的核苷酸序列(pBt022),其编码19kDa辅助蛋白。
SEQ ID NO:114对应于编码本文称为Pas-4(US8067671)的大豆异皮线虫(Heterodera glycines)(SCN)特异性蛋白酶体A型亚基肽的开放阅读框的核苷酸序列。
SEQ ID NO:115对应于SEQ ID NO:114的核苷酸552-699。
SEQ ID NO:116对应于酿酒酵母(Saccharomyces cerevisiae)线粒体DNA的COX1基因中的第一指导RNA靶位点的核苷酸序列。最后三个核苷酸是PAM序列;这三个核苷酸在相应的指导RNA的可变靶向结构域中不存在。
SEQ ID NO:117对应于酿酒酵母线粒体DNA的COX1基因中的第二指导RNA靶位点的核苷酸序列。最后三个核苷酸是PAM序列;这三个核苷酸在相应的指导RNA的可变靶向结构域中不存在。
SEQ ID NO:118对应于酿酒酵母线粒体DNA的COX1基因中的第三指导RNA靶位点的核苷酸序列。最后三个核苷酸是PAM序列;这三个核苷酸在相应的指导RNA的可变靶向结构域中不存在。
SEQ ID NO:119对应于酿酒酵母线粒体DNA的COX1基因中的第四指导RNA靶位点的核苷酸序列。最后三个核苷酸是PAM序列;这三个核苷酸在相应的指导RNA的可变靶向结构域中不存在。该靶位点序列存在于基因序列的反向互补序列上。
SEQ ID NO:120对应于编码SpCas9的核苷酸序列,SpCas9是来自酿脓链球菌(Streptococcus pyogenes)的Cas9。编码序列被优化以在酵母线粒体中表达。
SEQ ID NO:121对应于酿酒酵母线粒体DNA的COX2基因的最小启动子和5’UTR的核苷酸序列。
SEQ ID NO:122对应于酿酒酵母线粒体DNA的COX2基因的最小终止子的核苷酸序列。
SEQ ID NO:123对应于编码tracrRNA的核苷酸序列,其用于产生靶向酿酒酵母的COX2基因的指导RNA。
SEQ ID NO:124对应于酿酒酵母线粒体DNA的COX3基因的最小启动子的核苷酸序列。
SEQ ID NO:125对应于编码来自酿酒酵母线粒体DNA的tF(GAA)基因的tRNA的核苷酸序列。
SEQ ID NO:126对应于编码来自酿酒酵母线粒体DNA的tW(UCA)基因的tRNA的核苷酸序列。
SEQ ID NO:127对应于来自酿酒酵母线粒体DNA的COX3基因的最小终止子的核苷酸序列。
SEQ ID NO:128对应于编码来自酿酒酵母线粒体DNA的tM(CAU)基因的tRNA的核苷酸序列。
SEQ ID NO:129对应于编码GFP的核苷酸序列。编码序列被优化以在酵母线粒体中表达。
SEQ ID NO:130对应于编码来自酿酒酵母的命名为HR1的同源区域的核苷酸序列,其与COX1基因中的第一指导RNA靶位点(SEQ ID NO:116)相邻。
SEQ ID NO:131对应于编码来自酿酒酵母的命名为HR2的同源区域的核苷酸序列,其与COX1基因中的第二指导RNA靶位点(SEQ ID NO:117)相邻。
SEQ ID NO:132对应于编码来自酿酒酵母的命名为HR3的同源区域的核苷酸序列,其与COX1基因中的第三指导RNA靶位点(SEQ ID NO:118)相邻。
SEQ ID NO:133对应于编码来自酿酒酵母的命名为HR4的同源区域的核苷酸序列,其与COX1基因中的第四指导RNA靶位点(SEQ ID NO:119)相邻。
SEQ ID NO:134对应于供体DNA中存在的核苷酸序列,该核苷酸序列编码COX1基因中的第一指导RNA靶位点(SEQ ID NO:116)的变体。该变体中七个核苷酸已被改变。
SEQ ID NO:135对应于供体DNA中存在的核苷酸序列,该核苷酸序列编码COX1基因中的第二指导RNA靶位点(SEQ ID NO:117)的变体。该变体中5’端的十六个核苷酸已被删除。
SEQ ID NO:136对应于供体DNA中存在的核苷酸序列,该核苷酸序列编码COX1基因中的第三指导RNA靶位点(SEQ ID NO:118)的变体。该变体中3’端的五个核苷酸已被删除。
SEQ ID NO:137对应于供体DNA中存在的核苷酸序列,该核苷酸序列编码COX1基因中的第四指导RNA靶位点(SEQ ID NO:119)的变体。该变体中3’端的十七个核苷酸已被删除。
SEQ ID NO:138对应于存在于酿酒酵母的COX1基因中的PCR引物C的核苷酸序列。
SEQ ID NO:139对应于存在于酿酒酵母的COX1基因中的PCR引物D的核苷酸序列。
SEQ ID NO:140对应于存在于酿酒酵母的COX1基因中的PCR引物E的核苷酸序列。
SEQ ID NO:141对应于存在于酿酒酵母的COX1基因中的PCR引物F的核苷酸序列。
SEQ ID NO:142对应于存在于供体DNA的GFP编码区中的PCR引物11的核苷酸序列。
SEQ ID NO:143对应于存在于供体DNA的GFP编码区中的PCR引物12的核苷酸序列。
SEQ ID NO:144对应于衍生自转化酵母线粒体DNA中GFP整合区域的PCR扩增产物的核苷酸序列。
SEQ ID NO:145对应于莱茵衣藻(Chlamydomonas reinhardtii)质体DNA的psaA基因中的第一指导RNA靶位点的核苷酸序列。最后三个核苷酸是PAM序列;这三个核苷酸在相应的指导RNA的可变靶向结构域中不存在。
SEQ ID NO:146对应于莱茵衣藻质体DNA的psaA基因中的第二指导RNA靶位点的核苷酸序列。最后三个核苷酸是PAM序列;这三个核苷酸在相应的指导RNA的可变靶向结构域中不存在。该靶位点序列存在于基因序列的反向互补序列上。
SEQ ID NO:147对应于莱茵衣藻质体DNA的psaA基因中的第三指导RNA靶位点的核苷酸序列。最后三个核苷酸是PAM序列;这三个核苷酸在相应的指导RNA的可变靶向结构域中不存在。
SEQ ID NO:148对应于莱茵衣藻质体DNA的psaA基因中的第四指导RNA靶位点的核苷酸序列。最后三个核苷酸是PAM序列;这三个核苷酸在相应的指导RNA的可变靶向结构域中不存在。该靶位点序列存在于基因序列的反向互补序列上。
SEQ ID NO:149对应于编码SpCas9的核苷酸序列,SpCas9是来自酿脓链球菌的Cas9。编码序列对于在衣藻叶绿体中表达是密码子优化的。
SEQ ID NO:150对应于SpCas9的氨基酸序列,SpCas9是来自酿脓链球菌的Cas9,其由SEQ ID NO:150和SEQ ID NO:120的核苷酸序列编码。
SEQ ID NO:151对应于莱茵衣藻质体DNA的psaA-外显子1基因的启动子和5’UTR的核苷酸序列。
SEQ ID NO:152对应于莱茵衣藻质体DNA的psbD基因的启动子和5’UTR的核苷酸序列。
SEQ ID NO:153对应于莱茵衣藻质体DNA的rbcL基因的终止子的核苷酸序列。
SEQ ID NO:154对应于莱茵衣藻质体DNA的trnW基因的启动子的核苷酸序列。
SEQ ID NO:155对应于莱茵衣藻质体DNA的trnW基因的3’UTR的核苷酸序列。
SEQ ID NO:156对应于编码莱茵衣藻质体DNA的trnW基因的tRNA的核苷酸序列。
SEQ ID NO:157对应于编码莱茵衣藻质体DNA的trnK基因的tRNA的核苷酸序列。
SEQ ID NO:158对应于编码莱茵衣藻质体DNA的trnL基因的tRNA的核苷酸序列。
SEQ ID NO:159对应于编码aadA选择标记的核苷酸序列。
SEQ ID NO:160对应于莱茵衣藻质体DNA的rbcL基因的启动子和5’UTR的核苷酸序列。
SEQ ID NO:161对应于莱茵衣藻质体DNA的psbA基因的3’UTR的核苷酸序列。
SEQ ID NO:162对应于编码GFP的核苷酸序列。编码序列对于在衣藻叶绿体中表达是密码子优化的。
SEQ ID NO:163对应于编码HR1的核苷酸序列,HR1是来自莱茵衣藻质体DNA的同源区域,存在于供体DNA中。
SEQ ID NO:164对应于编码HR2的核苷酸序列,HR2是来自莱茵衣藻质体DNA的同源区域,存在于供体DNA中。
SEQ ID NO:165对应于编码HR3的核苷酸序列,HR3是来自莱茵衣藻质体DNA的同源区域,存在于供体DNA中。
SEQ ID NO:166对应于编码HR4的核苷酸序列,HR4是来自莱茵衣藻质体DNA的同源区域,存在于供体DNA中。
SEQ ID NO:167对应于引物组1的正向引物(PS1 FWD引物)的核苷酸序列,该引物被设计用于扩增转化的莱茵衣藻质体DNA中的852bp GFP整合区域。PS1 FWD引物是叶绿体基因组区域特异性引物。
SEQ ID NO:168对应于引物组1的反向引物(PS1 REV引物)的核苷酸序列,该引物被设计用于扩增转化的莱茵衣藻质体DNA中的852bp GFP整合区域。PS1 REV引物是GFP基因特异性引物。
SEQ ID NO:169对应于引物组2的正向引物(PS2 FWD引物)的核苷酸序列,该引物被设计用于扩增转化的莱茵衣藻质体DNA中的712bp GFP整合区域。PS2 FWD引物是GFP基因特异性引物。
SEQ ID NO:170对应于引物组2的反向引物(PS2 REV引物)的核苷酸序列,该引物被设计用于扩增转化的莱茵衣藻质体DNA中的712bp GFP整合区域。PS2 REV引物是叶绿体基因组区域特异性引物。
SEQ ID NO:171对应于衍生自转化的莱茵衣藻质体DNA中GFP整合区域的PCR扩增产物的核苷酸序列。
SEQ ID NO:172对应于衍生自黑腹果蝇(Drosophila melanogaster)转录因子触足蛋白(Antennapaedia)的第三α螺旋的渗透肽的氨基酸序列。
具体实施方式
现在将在下文中更全面地描述本公开内容,但是不应将其解释为限于本文阐述的实施方案。
缩写的含义可以如下:“sec”可以表示秒,“min”可以表示分钟,“h”可以表示小时,“d”可以表示天,“μL”可以表示微升,“ml”可以表示毫升,“L”可以表示升,“μM”可以表示微摩尔,“mM”可以表示毫摩尔,“M”可以表示摩尔,“mmol”可以表示毫摩尔,“μmole”可以表示微摩尔,“g”可以表示克,“μg”可以表示微克,“ng”可以表示纳克,“U”可以表示单位,“nt”可以表示核苷酸;“bp”可以表示碱基对,“kb”可以表示千碱基,而“kbp”可以表示千碱基对。
“转基因”可以指任何细胞、细胞系、愈伤组织、组织、生物体部分或整个生物体(例如,植物),其基因组已被诸如重组DNA构建体的异源核酸的存在改变。转基因事件可以包括有性杂交或无性繁殖造成的事件。在一些实施方案中,术语“转基因”可以不包括由育种方法或由自然发生的事件(诸如随机异体受精、非重组病毒感染、非重组细菌转化、非重组转座或自发突变)造成的基因组改变(例如,染色体或染色体外的改变)。在一些实施方案中,术语“转基因”可以包括由育种方法或由自然发生的事件(诸如随机异体受精、非重组病毒感染、非重组细菌转化、非重组转座或自发突变)造成的基因组改变(例如,染色体或染色体外的改变)。
例如,细胞或整个生物体的“基因组”可以包括在细胞核内发现的染色体DNA(核DNA)和在细胞的亚细胞组分内发现的细胞器DNA(例如,线粒体DNA、质体DNA)。本公开内容的方法和组合物可用于编辑核基因组、细胞器基因组(例如,线粒体、叶绿体)或两者。
术语“完全互补序列”和“全长互补序列”在本文可以互换使用,并且可以指给定核苷酸序列的互补序列。在一些方面,互补序列和核苷酸序列包含相同数目的核苷酸。在一些方面,互补序列和核苷酸序列可以包括100%互补。互补序列和核苷酸序列的核苷酸数目可以不同。互补性(例如,互补序列与核苷酸序列之间)可以为至少约10%、至少约20%、至少约30%、至少约40%、至少约50%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约95%、至少约97%、至少约98%、至少约99%或100%。互补性(例如,互补序列与核苷酸序列之间)可以为至多约10%、至多约20%、至多约30%、至多约40%、至多约50%、至多约60%、至多约65%、至多约70%、至多约75%、至多约80%、至多约85%、至多约90%、至多约95%、至多约97%、至多约98%、至多约99%或100%。
可以互换使用的“多核苷酸”、“核酸”、“核酸序列”、“核苷酸序列”或“核酸片段”可以指核酸的聚合物(例如,RNA、DNA或两者,及其类似物),其可以是单链或双链的,任选地含有合成的、非天然的或改变的核苷酸碱基。核苷酸(例如,其5’-单磷酸形式)可通过其单字母名称表示,如下所示(分别用于RNA或DNA):“A”代表腺苷酸或脱氧腺苷酸,“C”代表胞苷酸或脱氧胞苷酸,“G”代表鸟苷酸或脱氧鸟苷酸,“U”代表尿苷酸,“T”代表脱氧胸苷酸,“R”代表基于嘌呤的核苷酸(A或G),“Y”代表基于嘧啶的核苷酸(C或T),“K”代表G或T,“H”代表A或C或T,“I”代表肌苷以及“N”代表任何核苷酸。
在本文中可以互换使用的“多肽”、“肽”、“氨基酸序列”和“蛋白质”可以指氨基酸残基的聚合物。该术语可以应用于其中一个或多个氨基酸残基可以是例如相应的天然存在的氨基酸和/或天然存在的氨基酸聚合物的人工化学类似物的氨基酸聚合物。术语“多肽”、“肽”、“氨基酸序列”和“蛋白质”可以包含修饰,修饰包括但不限于糖基化、脂质附接、硫酸化、谷氨酸残基的γ-羧化、羟基化和ADP-核糖基化。
多核苷酸或多肽的“功能片段”可以分别指连续核苷酸或连续氨基酸的任何子集,其中多核苷酸或多肽的原始(例如,野生型)活性(或基本相似的活性)可以保留。术语“功能片段”、“功能亚片段”、“功能上等同的片段”、“功能上等同的亚片段”、“功能等同片段”和“功能等同亚片段”在本文中可以互换使用。
术语“功能变体”、“功能上等同的变体”和“功能等同变体”在本文中可以互换使用。在多核苷酸或多肽的上下文中,这些术语可以分别指核酸序列或氨基酸序列的变体,其中多核苷酸或多肽的原始活性(或基本相似的活性)可以保留。片段和变体可以通过诸如定点诱变和合成构建等方法获得。
功能片段或功能变体的活性可以是,例如,大约:原始(例如,野生型)活性的100%、95%、90%、85%、80%、75%、70%、65%、60%、55%、50%、40%、30%、20%、10%或小于10%。
“RNA转录物”可以指RNA聚合酶催化的DNA序列转录所产生的产物。当RNA转录物是DNA序列的完美互补拷贝时,其可以称为初级转录物。RNA转录物可以称为成熟RNA,例如当其为衍生自初级转录物的转录后加工的RNA序列时。
“信使RNA”或“mRNA”可以指没有内含子并且可以由细胞翻译成蛋白质的RNA。
“有义”RNA可以指包括mRNA的RNA转录物。有义RNA可以在细胞内或体外翻译成蛋白质。
“反义RNA”可以指可以与靶RNA(例如,初级转录物或mRNA)的全部或部分互补的RNA转录物。反义RNA可用于阻断靶基因的表达。反义RNA的互补性可以是相对于特定基因转录物的任何部分,即,在5’非编码序列、3’非编码序列、内含子或编码序列处。“功能RNA”可以指反义RNA、核酶RNA,或其他可以不被翻译但对细胞过程有影响的RNA。例如关于mRNA转录物,术语“互补序列”和“反向互补序列”在本文中可以互换使用,并且可以用于定义信息的反义RNA。
“cDNA”可以指可以与mRNA模板互补并且使用逆转录酶从mRNA模板合成的DNA。cDNA可以是单链的或者使用DNA聚合酶I的Klenow片段转化为双链形式。
“编码区”可以指信使RNA的可以编码蛋白质或多肽的部分(或诸如DNA分子的另一核酸分子的相应部分)。“非编码区”可以指信使RNA或其他核酸分子的不是编码区的部分,包括但不限于例如启动子区、5’非翻译区(“UTR”)、3’UTR、内含子和终止子。术语“编码区”和“编码序列”在本文中可以互换使用。术语“非编码区”和“非编码序列”在本文中可以互换使用。
“编码序列”可以缩写为“CDS”。“开放阅读框”可以缩写为“ORF”。
“表达序列标签”(“EST”)可以是衍生自cDNA文库的DNA序列。EST可以是已转录的序列。EST可以通过cDNA插入片段的单次测序获得。整个cDNA插入片段的序列可以称为“完全插入序列”(“FIS”)。“重叠群”序列可以是由两个或更多个序列组成的序列,该两个或更多个序列可以选自但不限于EST、FIS和PCR序列。编码完整或功能蛋白质的序列可以称为“完整基因序列”(“CGS”)。CGS可以衍生自FIS或重叠群。
“基因”可以指可以表达诸如但不限于特定蛋白质的功能分子的核酸片段,包括:内含子、外显子、在编码序列之前的调控序列(5’非编码序列)和在编码序列之后的调控序列(3’非编码序列)。“天然基因”可以指在自然界中发现的基因,例如,具有其自身调控序列的基因。
“突变的基因”可以是相对于相应的天然存在基因已经改变的基因;例如,通过人工干预改变。这样的“突变的基因”可以具有通过至少一个核苷酸的添加、删除或置换而与相应的非突变基因的序列不同的序列。在本公开内容的某些实施方案中,突变的基因可以包含由本文公开的多核苷酸指导的多肽系统引起的改变。突变生物体可以是包含突变的基因的生物体;例如,具有包含突变的基因的细胞器基因组的突变植物。术语“突变的基因”和“突变基因”在本文中可以互换使用。
“沉默突变”可以指具有与野生型序列相同的功能的突变序列;例如,用可以编码相同氨基酸的同义密码子替换蛋白质编码区中的密码子。
如本文所用,“靶向突变”可以是在基因组中特定靶位点处或附近进行的DNA修饰。靶向突变可以与天然基因中的单个核苷酸变化一样小。靶向突变可涉及更大的DNA修饰,诸如插入一个或多个异源DNA;例如,异源调控元件、异源蛋白质编码序列或编码异源蛋白质或功能RNA的表达盒。靶向突变也可涉及靶位点的序列的变化。
术语“SDN”可以指“定点核酸酶”。以下是SDN诱导的突变的非限制性实例:(1)诱导位点特异性随机突变;(2)诱导特定基因的预定序列中的突变;和(3)整个基因的替换或插入。这些SDN诱导的突变可以分别称为SDN-1、SDN-2和SDN-3。
“密码子修饰的基因”或“密码子优选的基因”或“密码子优化的基因”可以是其密码子使用频率被设计为模拟宿主细胞在感兴趣的区室(例如核、线粒体或叶绿体)中的优选密码子使用频率的基因。
“成熟”蛋白质可以指翻译后加工的多肽;例如,已除去存在于初级翻译产物中的任何前体肽或前肽的多肽。
“前体”蛋白可以指mRNA翻译的初级产物;例如,前体肽和前肽仍然存在。例如,前体肽和前肽可以包含细胞内定位信号。
“分离的”可以指物质,诸如核酸分子、蛋白和细胞,其可以基本上不含或以其他方式除去在天然存在的环境中通常与物质伴随出现或相互作用的组分。分离的多核苷酸可以从天然存在它们的宿主细胞中纯化。核酸纯化方法可用于获得分离的多核苷酸。分离的多核苷酸可以包括,例如,重组多核苷酸和化学合成的多核苷酸。
例如,就序列而言,“异源”可以意指源自外来物种的序列,或者,如果来自同一物种,则是通过故意人为干预在组成和/或基因组基因座方面从其天然形式进行充分修饰的序列。术语“异源核苷酸序列”、“异源序列”、“异源核酸片段”和“异源核酸序列”在本文中可以互换使用。
“重组”可以指两个或更多个原本分开的序列片段的人工组合,例如通过化学合成或通过经由遗传工程技术来操作分离的核酸片段。“重组”也可以包括指代细胞或载体,例如已经通过引入异源核酸而被修饰的细胞或载体,或源自如此修饰的细胞的细胞。
“重组DNA构建体”可以指在自然界中通常不会一起发现的核酸片段的组合。重组DNA构建体可以包含,例如,衍生自不同来源的调控序列和编码序列,或衍生自相同来源的调控序列和编码序列。重组DNA构建体中的序列可以以不同于自然界通常发现的方式排列。术语“重组DNA构建体”、“重组DNA分子”、“重组构建体”、“DNA构建体”和“构建体”在本文中可以互换使用。
“表达”可以指功能产物的产生。例如,核酸片段的表达可以指核酸片段的转录(例如,产生mRNA或功能RNA的转录)和/或mRNA向前体或成熟蛋白质的翻译。
“表达盒”可以指含有例如多核苷酸、调控元件和允许该多核苷酸在宿主中表达的多核苷酸的构建体。术语“表达盒”和“表达构建体”在本文中可以互换使用。
术语“入门克隆”和“入门载体”在本文中可以互换使用。
“调控序列”可以指核苷酸序列,例如位于编码序列的上游(例如,5’非编码序列)、内部(例如,内含子)或下游(例如,3’非编码序列)的核苷酸序列。调控序列可以影响,例如,相关联的编码序列的转录、RNA加工或稳定性,或翻译。调控序列可以包括但不限于启动子、翻译前导序列、5’非翻译序列、3’非翻译序列、内含子、聚腺苷酸化靶序列、RNA加工位点、效应子结合位点和茎环结构。调控序列可以“顺式”或“反式”起作用。由调控序列调控的核酸分子不一定必须编码功能肽或多肽,例如,调控序列可以调节短干扰RNA或反义RNA的表达。术语“调控序列”和“调控元件”在本文中可以互换使用。
“启动子”可以指可以控制另一个核酸片段的转录的核酸片段。启动子可以包括核心启动子(也称为最小启动子)序列。核心启动子可以是直接转录起始的最小序列。核心启动子可以任选地包括增强子或其他调控元件。启动子可以整体地衍生自天然基因,或由衍生自自然界中发现的不同启动子的不同元件组成,或甚至包含合成的DNA片段。不同的启动子可以引导基因在不同的组织或细胞类型中、或在不同的发育阶段、或响应于不同的环境条件而表达。
“在植物中具有功能的启动子”可以是可以控制植物细胞中的转录的启动子。启动子可以来自任何合适的来源,该来源可以包括植物细胞和非植物细胞。
“组织特异性启动子”和“组织优选的启动子”可以互换使用,并且可以指主要在一种组织、一种器官或一种细胞类型中表达的启动子。组织特异性启动子可以不一定在一种组织、一种器官或一种细胞类型中独有。根优选的启动子包括例如以下项:大豆根特异性谷氨酰胺合酶基因;细胞溶质谷氨酰胺合酶(GS);菜豆(French bean)GRP 1.8基因中的根特异性控制元件;根癌农杆菌(A.tumefaciens)甘露碱合酶(MAS)的根特异性启动子;分离自糙叶山黄麻(Parasponia andersonii)和山黄麻(Trema tomentosa)的根特异性启动子;发根农杆菌(A.rhizogenes)rolC和rolD根诱导基因;农杆菌创伤诱导的TR1’和TR2’基因;VfENOD-GRP3基因启动子;和rolB启动子。种子优选的启动子包括在种子发育过程中有活性的种子特异性启动子,以及在种子发芽过程中有活性的种子发芽启动子。种子优选的启动子包括但不限于以下项:Cim1(细胞分裂素诱导的信息);cZ19B1(玉米19kDa玉米醇溶蛋白);milps(肌醇-1-磷酸合酶);END1;和END2。对于双子叶植物,种子优选的启动子包括但不限于以下项:豆β-菜豆素;油菜籽蛋白;β-伴大豆球蛋白(β-conglycinin);大豆凝集素;十字花科蛋白(cruciferin)等。对于单子叶植物,种子优选的启动子包括但不限于以下项:玉米15kDa玉米醇溶蛋白;22kDa玉米醇溶蛋白;27kDaγ玉米醇溶蛋白;waxy;shrunken 1;shrunken 2;球蛋白1;油质蛋白;nud;和玉米(Zea mays)-Rootmet2启动子。叶优选的启动子包括但不限于以下项:植物rbcS启动子,诸如大豆rbcS启动子和玉米rbcS启动子;玉米PEPC1启动子。
“发育调控的启动子”可以指其活性可以由发育事件决定的启动子。
“诱导型启动子”可以指响应于内源性或外源性刺激的存在而选择性表达可操作连接的DNA序列的启动子,该刺激是例如通过化学化合物(例如,化学诱导剂)或对环境、激素、化学和/或发育信号的响应。诱导型或调控的启动子包括,例如,受光、热、胁迫、洪水或干旱、植物激素、创伤或诸如乙醇、茉莉酸、水杨酸或安全剂的化学物质调控的启动子。病原体感染后诱导的病原体诱导型启动子包括但不限于调控PR蛋白、SAR蛋白、β-1,3-葡聚糖酶、几丁质酶等表达的启动子。胁迫诱导型启动子包括植物RAB17启动子,如玉米RAB17启动子。化学诱导型启动子包括但不限于以下项:由苯磺酰胺除草剂安全剂激活的玉米ln2-2启动子;由被用作发芽前除草剂的疏水性亲电子化合物激活的玉米GST启动子;以及由水杨酸激活的烟草PR-1a启动子。其他化学物质调控的启动子包括类固醇响应性启动子,例如糖皮质激素诱导型启动子,以及四环素诱导型和四环素抑制型启动子。
“组成型启动子”可以指在所有或大多数发育阶段在生物体的所有或大多数组织或细胞类型中有活性的启动子。与分类为“组成型”的其他启动子(例如泛素)一样,在不同组织或阶段之间可以存在绝对表达水平的一些变化。术语“组成型启动子”或“非组织依赖型启动子”在本文可以互换使用。组成型启动子包括以下项:Rsyn7启动子的核心启动子;核心CaMV 35S启动子;植物肌动蛋白启动子,诸如水稻肌动蛋白启动子和玉米肌动蛋白启动子;植物泛素启动子,诸如玉米泛素启动子和大豆泛素启动子;pEMU;MAS启动子;ALS启动子;植物GOS2启动子,诸如玉米GOS2启动子;大豆GM-EF1 A2启动子;植物U6聚合酶III启动子,诸如玉米U6聚合酶III启动子和大豆U6聚合酶III启动子(GM-U6-9.1和GM-U6-13.1)。
增强子元件可以是在功能性地连接至启动子时,无论其相对位置如何,都增加核酸分子转录的任何核酸分子。增强子可以是启动子的固有元件或是被插入以增强启动子的水平或组织特异性的异源元件。
阻遏物(有时在本文中也称为沉默子)可以定义为在功能性地连接至启动子时,无论相对位置如何,都抑制转录的任何核酸分子。
“翻译前导序列”可以指位于基因的启动子序列与编码序列之间的多核苷酸序列。翻译前导序列可以存在于在翻译起始序列上游的完全加工的mRNA中。翻译前导序列可以影响初级转录物向mRNA的加工、mRNA稳定性或翻译效率。
“转录终止子”、“终止序列”或“终止子”可以是指当可操作地连接至待表达的多核苷酸序列的3’端时,可以终止从多核苷酸序列的转录的DNA序列。转录终止可以指通过其可以停止经由RNA聚合酶的RNA合成并且RNA和酶都从DNA模板释放的过程。
“可操作地连接”可以指片段相关联在单个片段(例如,多核苷酸或多肽)中或单个复合物中,从而一个片段的功能可以被另一个片段调控。连接可以是共价的或非共价的。例如,对于核酸片段,如果启动子可以调控核酸片段的转录,该启动子可以与该核酸片段可操作地连接。例如,对于多肽,如果靶向细胞器的肽可以将多肽运输到相关细胞器中,该靶向细胞器的肽可以与该多肽可操作地连接。例如,对于复合物,如果指导RNA/Cas多肽复合物可以按照指导RNA的引导切割靶序列,该指导RNA可以可操作地连接至Cas多肽。
“表型”可以指细胞或生物体的可检测特性。
术语“引入”可以意指向细胞内提供多核酸(例如表达构建体)或蛋白。引入可以包括指代将核酸掺入到真核或原核细胞中,例如,其中该核酸可掺入到细胞的基因组中。引入可以包括指代向细胞瞬时提供核酸或蛋白质。引入可以包括指代稳定或瞬时转化方法。引入可以包括有性杂交。例如,在将核酸片段(例如重组DNA构建体)插入细胞中的情况下,引入可以包括“转染”或“转化”或“转导”。引入可以包括指代将核酸片段掺入到真核或原核细胞中,其中该核酸片段可掺入到细胞的基因组(例如,染色体、质粒、质体或线粒体DNA)中、转变为自主复制子或瞬时表达(例如,转染的mRNA)。
“转化的细胞”可以是已被引入核酸片段(例如,重组DNA构建体)的任何细胞。
如本文所用,“转化”可以指稳定转化。转化可以指瞬时转化。
“稳定转化”可以指将核酸片段引入宿主生物体的基因组中,导致遗传学上稳定的遗传。一旦稳定转化,核酸片段就可以稳定整合到宿主生物体的基因组和任何后续世代中。
“瞬时转化”可以指将核酸片段引入宿主生生物体的细胞核或含DNA细胞器中,导致基因表达而没有遗传学上稳定的遗传。
含有转化的核酸片段的宿主生物体可以被称为“转基因”生物体。
“转化盒”可以指具有促进特定宿主细胞的转化的元件的构建体。术语“转化盒”和“转化构建体”在本文中可以互换使用。
“等位基因”可以是占据染色体上给定基因座的基因的几种替代形式之一。当在二倍体植物中的一对同源染色体上的给定基因座上存在的等位基因相同时,该植物在该基因座上可以是纯合的。如果在二倍体植物中的一对同源染色体上的给定基因座上存在的等位基因不同,该植物在该基因座上可以是杂合的。如果在二倍体植物中的一对同源染色体之一上存在转基因,该植物在该基因座上可以是半合的。
“叶绿体转运肽”可以是可以将蛋白质引导至在细胞中存在的叶绿体或其他质体类型的氨基酸序列。叶绿体转运肽可以与可以在生成蛋白质的细胞中与该蛋白质共同翻译。术语“叶绿体转运肽”、“质体转运肽”、“叶绿体靶向肽”和“质体靶向肽”在本文中可以互换使用。“叶绿体转运序列”可以指可以编码叶绿体转运肽的核苷酸序列。
“信号肽”可以是可以将蛋白质引导至分泌系统的氨基酸序列。信号肽可以与蛋白质共同翻译。例如,如果将蛋白质引导至液泡,则可以进一步添加液泡靶向信号(同上),或者如果将蛋白质引导至内质网,则可以添加内质网保留信号(同上)。如果将蛋白质引导至核,则可以除去存在的任何信号肽并且可以包含核定位信号。
“线粒体信号肽”可以是可以将前体蛋白质引导至线粒体的氨基酸序列。术语“线粒体信号肽”、“线粒体转运肽”和“线粒体靶向肽”在本文中可以互换使用。
“靶向细胞器的多核苷酸”可以是可以引导多核苷酸导入细胞器中的核苷酸序列。术语“靶向细胞器的多核苷酸”、“靶向细胞器的核酸”和“靶向细胞器的核酸序列”在本文中可以互换使用。靶向细胞器的多核苷酸可以被引导至,例如,质体(“质体靶向多核苷酸”)或线粒体(“线粒体靶向多核苷酸”)。多核苷酸可以是RNA(“靶向细胞器的RNA”)、DNA(“靶向细胞器的DNA”)或RNA与DNA的组合。被引导至质体的靶向细胞器的RNA可以被称为“质体靶向RNA”。术语“质体靶向RNA”、“叶绿体靶向RNA”和“转运RNA”在本文可互换使用。被引导至线粒体的靶向细胞器的RNA可以被称为“线粒体靶向RNA”。
RNA可以被导入线粒体中。一种这样的线粒体靶向RNA可以是酵母tRNALys。酵母tRNALys及其变体可以被导入人线粒体中。另一种可以被导入线粒体中的RNA可以是5SrRNA。5S rRNA可以充当用于将异源RNA序列递送到例如线粒体(例如,人线粒体)中的载体。此类RNA可以与本公开内容的组合物和方法一起使用,例如,用于靶向细胞器(例如,线粒体)。
RNA可以被导入质体中。可以介导附接的异源RNA的导入的质体靶向RNA可以包括vd-5’UTR(例如,充当5’UTR的类病毒衍生的ncRNA序列,和eIF4E1 mRNA)。此类RNA可以与本公开内容的组合物和方法一起使用,用于靶向细胞器(例如,质体)。
如本文所用,“融合体”可以指包含一个或多个非天然序列(例如,部分)的蛋白质和/或核酸。可将本文所述的任何分子(例如,核酸、蛋白质、多肽、多核酸、Cas蛋白、指导多核苷酸)工程化为融合体。融合体可以包含一个或多个相同的非天然序列。融合体可以包含一个或多个不同的非天然序列。融合体可以是嵌合体。融合体可以包含核酸亲和标签。融合体可以包含条形码。融合体可以包含肽亲和标签。融合体可以提供定点多肽的亚细胞定位。融合体可以提供可用于追踪或纯化的非天然序列(例如,亲和标签)。融合体可以是诸如生物素的小分子,或染料,诸如alexa fluor染料、Cyanine3染料和Cyanine5染料。
融合体可以指具有功能作用的任何蛋白质。例如,融合蛋白可以包含脱氨酶活性、胞苷脱氨酶活性(美国专利公开号US20150166980,通过引用并入本文)、腺嘌呤脱氨酶活性(美国专利公开号US20180073012,通过引用并入本文)、尿嘧啶糖基化酶抑制剂活性(美国专利公开号US20170121693,通过引用并入本文)、甲基转移酶活性、脱甲基酶活性、歧化酶活性、烷化活性、脱嘌呤活性、氧化活性、嘧啶二聚体形成活性、整合酶活性、转座酶活性、重组酶活性、聚合酶活性、连接酶活性、解旋酶活性、光裂合酶活性或糖苷酶活性、乙酰转移酶活性、脱乙酰酶活性、激酶活性、磷酸酶活性、泛素连接酶活性、去泛素化活性、腺苷酸化活性、脱腺苷酸化活性、苏素化活性、去苏素化活性、核糖基化活性、去核糖基化活性、豆蔻酰化活性、重塑活性、蛋白酶活性、氧化还原酶活性、转移酶活性、水解酶活性、裂解酶活性、异构酶活性、合酶活性、合成酶活性或脱豆蔻酰化活性。效应蛋白可以修饰基因组基因座。融合蛋白可以是Cas蛋白中的融合体。Cas蛋白可以是具有切口酶活性的修饰形式或没有实质的核酸切割活性的修饰形式。融合蛋白可以是Cas蛋白中的非天然序列。
如本文所用,“核酸”可以指多核苷酸序列或其片段。核酸可以包含核苷酸。核酸对于细胞可以是外源的或内源的。核酸可以存在于无细胞的环境中。核酸可以是基因或其片段。核酸可以是DNA。核酸可以是RNA。核酸可以包括一个或多个类似物(例如改变的主链、糖或核碱基)。类似物的一些非限制性实例包括:5-溴尿嘧啶、肽核酸、异种核酸、吗啉基、锁核酸、乙二醇核酸、苏糖核酸、双脱氧核苷酸、虫草菌素、7-脱氮-GTP、荧光团(例如罗丹明或与糖连接的荧光素)、含硫醇的核苷酸、与生物素连接的核苷酸、荧光碱基类似物、CpG岛、甲基-7-鸟苷、甲基化的核苷酸、肌苷、硫尿苷、假尿苷、二氢尿苷、辫苷和怀俄苷。
基因表达的抑制
“抑制DNA构建体”可以是重组DNA构建体,当其被转化或稳定地整合到植物的基因组中时,可以导致靶基因的“沉默”(例如,在植物中)。靶基因可以对靶细胞(例如植物)是内源性或转基因的。
如本文所用,关于靶基因的“沉默”可以指抑制靶基因表达的mRNA或蛋白质/酶的水平,和/或酶活性或蛋白功能的水平。可以在本文中互换使用的术语“抑制”和“沉默”可以包括降低、缩减、下降、减少、抑制、消除或预防。“沉默”或“基因沉默”可以通过任何合适的机制发生。沉默的非限制性实例可以包括反义、共抑制、病毒抑制、发夹抑制、茎环抑制、基于RNAi的方法和基于小RNA的方法
抑制DNA构建体可以包含衍生自感兴趣靶基因的区域。抑制DNA构建体可以包含感兴趣靶基因的有义链(或反义链或两者)的全部或部分核酸序列。该区域可以与感兴趣基因的全部或部分有义链(或反义链或两者)100%相同或小于100%相同(例如,至少50%、51%、52%、53%、54%、55%、56%、57%、58%、59%、60%、61%、62%、63%、64%、65%、66%、67%、68%、69%、70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%或99%相同)。抑制DNA构建体可以包含感兴趣基因的有义链(或反义链或两者)的20、30、40、50、60、70、80、90、100、200、300、400、500、600、700、800、900或1000个连续核苷酸,及其组合。
例如一旦选择了感兴趣的靶基因,就可以容易地构建抑制DNA构建体。抑制DNA构建体可以包括但不限于共抑制构建体、反义构建体、病毒抑制构建体、发夹抑制构建体、茎环抑制构建体、产生双链RNA的构建体,以及更一般地,RNAi(RNA干扰)构建体和小RNA构建体,诸如siRNA(短干扰RNA)构建体和miRNA(微RNA)构建体。
基因表达的抑制也可以通过例如使用人工miRNA前体、核酶构建体和基因破坏来实现。可以使用修饰的植物miRNA前体,其中该前体已被修饰,例如用被设计用于产生导向感兴趣的核苷酸序列的miRNA的序列替代miRNA编码区。基因破坏可以通过使用可转座元件或通过使用引起位点特异性突变的化学剂来实现。
“反义抑制”可以指可以抑制靶基因或基因产物的表达的反义RNA转录物的产生。“反义RNA”可以指与靶标初级转录物或mRNA的全部或部分互补的RNA转录物。反义RNA可以阻断靶标分离的核酸片段的表达。反义RNA的互补性可以是相对于特定基因转录物的任何部分,即,在5’非编码序列、3’非编码序列、内含子或编码序列处。
“共抑制”可以指可以抑制靶基因或基因产物的表达的有义RNA转录物的产生。“有义”RNA可以指可以包括mRNA的RNA转录物。有义RNA可以在细胞内或体外翻译成蛋白质。植物中的共抑制构建体可以被设计成有义定向,例如通过聚焦于与天然mRNA具有同源性的核酸序列的过表达,这可以导致与过表达序列具有同源性的RNA的减少。
植物病毒序列可用于引导近端mRNA编码序列的抑制。
RNA干扰可以指由例如短干扰RNA(siRNA)介导的序列特异性转录后基因沉默的过程(例如,在动物中)。植物中的相应过程可以称为转录后基因沉默(PTGS)或RNA沉默,在真菌中还可以称为压抑。转录后基因沉默的过程可以是用于防止外源基因表达的进化保守的细胞防御机制。转录后基因沉默可以由不同的植物区系和门类共享。
小RNA在控制基因表达中可以发挥重要作用。小RNA可以通过与互补RNA或DNA靶序列进行碱基配对来发挥功能。当与RNA结合时,小RNA可以触发靶序列的RNA切割或翻译抑制。当与DNA靶序列结合时,小RNA可以介导靶序列的DNA甲基化。小RNA可以导致基因表达的抑制。
微RNA(miRNA)可以是长度为例如约19至约24个核苷酸(nt)的非编码RNA。微RNA可以存在于动物和植物中。可以从较长的前体转录物加工出miRNA,该较长的前体转录物的大小范围可以为例如从大约70到200nt。前体转录物可以形成稳定的发夹结构。
微RNA(miRNA)可以调控靶基因,例如通过结合位于靶基因所产生的转录物中的互补序列。miRNA可以进入例如靶基因调控的至少两种途径:(1)翻译抑制;和/或(2)RNA切割。进入RNA切割途径的微RNA可以类似于在动物的RNA干扰(RNAi)和植物的转录后基因沉默(PTGS)期间产生的21-25nt短干扰RNA(siRNA)。可以将这些进入RNA切割途径的微RNA掺入RNA诱导的沉默复合物(RISC)中,该复合物可以与见于RNAi的那些相似或相同。
术语“miRNA-星号序列”和“miRNA*序列”在本文中可以互换使用,并且可以指miRNA前体中可以与miRNA序列高度互补的序列。miRNA和miRNA*序列可以形成miRNA前体发夹结构的茎区域的一部分。
序列同一性、相似性和变化
序列比对和同一性或相似性百分比计算可以使用被设计用于检测同源序列的多种比较方法来确定,该方法包括但不限于LASERGENETM生物信息学计算套件(DNASTARTMInc.,Madison,Wl)的MEGALIGNTM程序。在一些实施方案中,在使用序列分析软件进行分析的情况下,分析的结果可以基于所指程序的“默认值”。如本文所用,“默认值”可以表示在首次初始化时最初随软件加载的任何一组值或参数。
“Clustal V比对方法”可以对应于被称为Clustal V的比对方法,并且例如,可以在LASERGENETM生物信息学计算套件(DNASTARTM Inc.,Madison,Wl)的MEGALIGNTM程序中找到。对于多重比对,默认值可以对应于空位罚分(GAP PENALTY)=10和空位长度罚分(GAPLENGTH PENALTY)=10。使用Clustal方法进行蛋白质序列的成对比对和同一性百分比计算的默认参数可以为,例如,K元组(KTUPLE)=1,空位罚分=3,窗口(WINDOW)=5和保存的对角线(DIAGONALS SAVED)=5。对于核酸,这些参数可以是例如K元组=2,空位罚分=5,窗口=4和保存的对角线=4。使用Clustal V程序进行序列比对后,可以通过查看同一程序中的“序列距离”表来获得“同一性百分比”和“分歧度”值。
“Clustal W比对方法”可以对应于被称为Clustal W的比对方法,并且例如,可以在LASERGENETM生物信息学计算套件(DNASTARTM Inc.,Madison,Wl)的MEGALIGNTM v6.1程序中找到。用于多重比对的默认参数可以对应于例如:空位罚分=10,空位长度罚分=0.2,延迟分歧度序列(Delay Divergence Sequences)=30%,DNA转换权重(DNA TransitionWeight)=0.5,蛋白质权重矩阵(Protein Weight Matrix)=Gonnet Series,DNA权重矩阵(DNA Weight Matrix)=IUB。使用Clustal W程序对序列进行比对后,可以通过查看同一程序中的“序列距离”表来获得“同一性百分比”值。
序列同一性/相似性值也可以使用GAP版本10(GCG,Accelrys,San Diego,CA)采用例如以下参数来获得:核苷酸序列的同一性%和相似性%,其使用空位产生罚分权重50和空位长度延伸罚分权重3以及nwsgapdna.cmp评分矩阵得到;氨基酸序列的同一性%和相似性%,其使用空位产生罚分权重8和空位长度延伸罚分2以及BLOSUM62评分矩阵得到。空位可以使用算法来查找两个完整序列的比对,该比对可以使匹配数最大化并使空位数最小化。空位可以考虑所有可能的比对和空位位置。空位可以使用例如以匹配碱基为单位的空位产生罚分和空位延伸罚分来创建具有最多匹配碱基数和最少空位的比对。
“BLAST”可以是由国家生物技术信息中心(NCBI)提供的搜索算法,其可以用于发现生物序列之间的相似性区域。该程序可以将核苷酸或蛋白质序列与序列数据库进行比较。该程序可以计算匹配的统计显著性,以识别与查询序列具有足够相似性的序列,使得相似性可以不被预测为随机发生。BLAST可以报告已识别的序列及其与查询序列的局部比对。
术语“保守结构域”或“基序”可以意指沿着进化相关蛋白质的比对序列在特定位置保守的一组氨基酸。尽管在同源蛋白质之间其他位置的氨基酸可以变化,但在特定位置高度保守的氨基酸可以指示,例如,对于蛋白质的结构、稳定性或活性必不可少的氨基酸。
保守结构域或基序可以通过它们在蛋白质同系物家族的比对序列中的高度保守来识别。保守结构域可以用作标识符或“签名”,例如,用于确定具有新确定的序列的蛋白质是否属于先前识别的蛋白质家族。
多核苷酸和多肽序列、其变体以及这些序列的结构关系可以通过在本文中可以互换使用的术语“同源性”、“同源”、“基本相同”、“基本相似”和“基本对应”来描述。这些术语可以指这样的多肽或核酸片段,其中一个或多个氨基酸或核苷酸碱基的变化可以不影响分子的功能,诸如介导基因表达或产生某种表型的能力。这些术语也可以指相对于初始的未修饰片段,可以基本上不改变所得核酸片段的功能特性的核酸片段的修饰。这些修饰可以包括核酸片段中一个或多个核苷酸的删除、置换和/或插入。
所涵盖的基本上相似的核酸序列可以通过它们与本文例示的序列或与本文公开的核苷酸序列的任何部分杂交(例如,在适度严格条件下,例如,0.5X SSC,0.1%SDS,60℃)的能力来定义。基本相似的核酸序列可以在功能上等同于本文公开的任何核酸序列。可以调整严格性条件以筛选适度相似的片段(诸如来自关系疏远的生物体的同源序列)到高度相似的片段(诸如复制来自关系紧密的生物体的功能酶的基因)。杂交后洗涤可以确定严格性条件。
术语“选择性杂交”可以包括指代例如在严格杂交条件下核酸序列与指定的核酸靶序列的杂交,该杂交的程度可检测地高于其与非靶核酸序列的杂交(例如,为背景的至少2倍)并且基本上排除非靶核酸。选择性杂交的序列可以彼此具有例如至少约80%的序列同一性,或90%的序列同一性,直至并包括100%的序列同一性(即,完全互补)。
术语“严格条件”或“严格杂交条件”可以包括指代在体外杂交测定中探针可以选择性地与其靶序列杂交的条件。严格条件可以是序列依赖性的。严格条件在不同情况下可以有所不同。通过控制杂交和/或洗涤条件的严格性,可以识别与探针100%互补的靶序列(同源探测)。
可替代地,可以调整严格性条件以允许序列中的一些错配,从而检测到较低的相似度(异源探测)。在一些实施方案中,探针的长度可以小于约1000个核苷酸,任选地长度小于500个核苷酸。
在一些实施方案中,严格条件可以是其中盐浓度小于约1.5M Na离子的条件,例如,在pH 7.0至8.3下约0.01至1.0M Na离子浓度(或其他盐),以及例如,对于短探针(例如,10至50个核苷酸)至少约30℃,以及例如,对于长探针(例如,大于50个核苷酸)至少约60℃。通过添加去稳定剂如甲酰胺也可以达到严格条件。示例性的低严格性条件可以包括例如在37℃下用30%至35%甲酰胺、1M NaCl、1%SDS(十二烷基硫酸钠)的缓冲溶液进行杂交,并在50℃至55℃下在1X至2X SSC(20X SSC=3.0M NaCl/0.3M柠檬酸三钠)中洗涤。示例性的适度严格性条件可以包括在37℃下在40%至45%甲酰胺、1M NaCl、1%SDS中杂交,并在55至60℃在0.5X至1X SSC中洗涤。示例性的高严格性条件可以包括例如在37℃下在50%甲酰胺、1M NaCl、1%SDS中杂交,并在60℃至65℃下在0.1X SSC中洗涤。
在核酸或多肽序列的情况下,“序列同一性”或“同一性”可以指两个序列中当在指定的比较窗口上比对成最大对应性时是相同的核酸碱基或氨基酸残基。
术语“序列同一性百分比”可以指通过在比较窗口上比较两个最佳比对的序列而确定的值。与参考序列(其可以或可以不包含添加或缺失)相比,比较窗口中的多核苷酸或多肽序列的部分可以包含添加或缺失(即,空位),以实现两个序列的最佳比对。百分比的计算可以通过例如确定在两个序列中出现相同的核酸碱基或氨基酸残基的位置数以产生匹配位置数,用匹配位置数除以在比较窗口中的位置总数并将结果乘以100可得出序列同一性的百分比。序列同一性百分比可以包括但不限于50%、55%、60%、65%、70%、75%、80%、85%、90%或95%或从50%至100%之间的任何百分比。序列同一性可以包括从50%到100%的整数百分比。可以使用本文所述的任何程序来确定这些同一性。
序列同一性可用于识别来自其他物种的多肽或天然或合成修饰的多肽,其中此类多肽具有相同或相似的功能或活性。同一性百分比可以包括但不限于50%、55%、60%、65%、70%、75%、80%、85%、90%或95%。序列同一性(例如,氨基酸序列同一性)可以包括从50%至100%的整数百分比。序列(例如,氨基酸)同一性可以包括例如约:50%、51%、52%、53%、54%、55%、56%、57%、58%、59%、60%、61%、62%、63%、64%、65%、66%、67%、68%、69%、70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或100%。
与植物相关的定义、性状和过程
“植物”可以包括指代完整植物、植物器官、植物组织、植物繁殖体、种子和植物细胞及其后代。植物细胞包括但不限于来自种子、悬浮培养物、胚胎、分生组织区域、愈伤组织、叶、根、芽、配子体、孢子体、花粉和小孢子的细胞。
“繁殖体”可以包括能够繁殖新植物的减数分裂和/或有丝分裂产物。繁殖体可以包括种子、孢子和可以用作营养繁殖手段的植物部分,诸如球茎、块茎、短匐茎或匍匐枝。繁殖体可以包括嫁接物,其中可以将植物的一部分嫁接到不同植物(甚至是不同物种的植物)的另一部分以产生活生物体。繁殖体可以包括通过克隆或将减数分裂产物聚集在一起,或使减数分裂产物聚集在一起以形成胚胎或受精卵(自然地或在人类干预下)而产生的植物和种子。
“后代”可以包括植物的任何后续世代。
术语“单子叶植物”和“单子叶的植物”在本文中可以互换使用。单子叶植物可以包括禾本科(Gramineae)。
术语“双子叶植物”和“双子叶的植物”在本文中可以互换使用。双子叶植物可以包括例如以下科:十字花科(Brassicaceae)、豆科(Leguminosae)和茄科(Solanaceae)。
“转基因植物”可以包括指代在其基因组中包含异源多核苷酸的植物。例如,异源多核苷酸可以稳定地整合在基因组(例如,核、质体、线粒体)内,使得该多核苷酸可以传递给连续的世代。异源多核苷酸可以单独或作为重组DNA构建体的一部分整合到基因组中。
“转基因植物”可以包括指代在其基因组内可以包含超过一个异源多核苷酸的植物。每个异源多核苷酸可以赋予转基因植物不同的性状。
可以将多种性状引入作物植物,并且这可以称为基因堆叠方法。基因堆叠可用于例如遗传改良的种质的开发。在这种方法中,可以将赋予不同感兴趣特性的多个基因引入植物。基因堆叠可以通过许多手段来完成,包括但不限于共转化、再转化以及与不同转基因的品系杂交。如本文所用,术语“堆叠的”可以包括在同一植物中存在多个性状(例如,两种性状都掺入到核基因组中,一种性状掺入到核基因组中并且一种性状掺入到细胞器的基因组中,或两种性状都整合到细胞器的基因组中。)
在本公开内容的情况下,术语“杂交的”或“杂交(cross)”可以指配子融合(例如,通过授粉)以产生后代(例如,细胞、种子或植物)。该术语可以涵盖有性杂交(例如,一株植物被另一株植物授粉)和自交(例如,自花传粉;当花粉和胚珠来自同一植物或遗传上相同的植物时)。
术语“母系遗传”可以指可以仅依赖于雌性配子基因组的特性的性状传递。
术语“父系遗传”可以指可以仅依赖于雄性配子基因组的特性的性状传递。
术语“渐渗现象”可以指遗传基因座的期望等位基因从一种遗传背景向另一种遗传背景的传递。例如,在特定基因座处的期望等位基因的渐渗现象可以通过两个亲本植物之间的有性杂交传递给至少一个后代植物,其中至少一个亲本植物在其基因组内具有期望的等位基因。可替代地,例如,等位基因的传递可通过两个供体基因组之间的重组发生,例如在融合的原生质体中,其中至少一个供体原生质体在其基因组中具有期望的等位基因。期望的等位基因可以是例如转基因,或标记或QTL的选定的等位基因。
“植物优化的核苷酸序列”可以是已被优化以增加植物中的表达的核苷酸序列,特别是增加在植物中或在一个或多个感兴趣的植物中的表达。例如,可以通过使用一个或多个用于增强表达的植物优选的密码子来修饰编码蛋白质(诸如,例如,本文公开的双链断裂诱导剂(例如,核酸内切酶))的核苷酸序列来合成植物优化的核苷酸序列。可以将宿主优选的密码子使用用于密码子优化。
可以合成植物优选的基因。另外的序列修饰可以增强在植物宿主中的基因表达。这些修饰可以包括,例如,消除:编码伪多腺苷酸化信号的一个或多个序列,一个或多个外显子-内含子剪接位点信号,一个或多个转座子样重复序列,以及可能对基因表达有害的序列。序列的G-C含量可以调整至例如给定植物宿主的平均水平,该平均水平通过参照宿主植物细胞中表达的基因来计算。如果可能的话,可以修饰该序列以避免一个或多个预测的发夹二级mRNA结构。因此,本公开内容的“植物优化的核苷酸序列”可以包含一个或多个这样的序列修饰。
“性状”可以指例如植物或特定植物物质或细胞的生理、形态、生化或物理特性。在一些情况下,该特性对于人眼来说可以是可见的,诸如种子或植物的大小,或者可以通过生化技术来测量,诸如检测种子或叶的蛋白质、淀粉或油含量,或者通过观察代谢或生理过程(例如通过测量对缺水或特定盐或糖浓度的耐受性),或者通过观察一个或多个基因的表达水平,或者通过农业观察,诸如渗透胁迫耐受性或产量。
“农艺特性”可以是可测量的参数,包括但不限于非生物胁迫耐受性、绿度、产量、生长速度、生物量、成熟时的鲜重、成熟时的干重、果实产量、种子产量、总植物氮含量、果实氮含量、种子氮含量、营养组织中的氮含量、总植物游离氨基酸含量、果实游离氨基酸含量、种子游离氨基酸含量、营养组织中的游离氨基酸含量、总植物蛋白质含量、果实蛋白质含量、种子蛋白质含量、营养组织中的蛋白质含量、耐旱性、氮素吸收、根系倒伏、收获指数、茎秆倒伏、株高、穗高、穗长、耐盐性、早期幼苗活力和低温胁迫下的出苗。
特定的表型可以包括但不限于籽粒数目、籽粒面积、谷粒重量和穗上谷粒的预测重量(基于籽粒面积相对于谷粒重量的校准)。
非生物胁迫可能是选自以下的至少一项条件:干旱、缺水、洪水、高光强、高温、低温、盐度、黄化、脱叶、重金属毒性、厌氧生活、缺素、养分过量、紫外线照射、大气污染(例如、臭氧)和暴露于诱导活性氧(ROS)产生的化学物质(例如,百草枯)。
植物的“增加的胁迫耐受性”可以相对于参照或对照植物来测量,并且可以是该植物在胁迫条件下存活较长时间的性状,而没有表现出相对于在相似胁迫条件下生长的参照或对照植物相同程度的生理或物理退化。
具有“增加的胁迫耐受性”的植物可表现出对一个或多个不同胁迫条件的耐受性增加。
多肽的“胁迫耐受性活性”可以表明相对于参照或对照植物,在转基因植物中该多肽的过表达可以赋予转基因植物增加的胁迫耐受性。
增加的生物量可以被测量为例如与对照植物相比植物高度、植物总叶面积、植物鲜重、植物干重或植物种子产量的增加。
增加植物的生物量或大小的能力可以具有若干重要的商业应用。可以生成可产生更大栽培种的作物物种,在例如植物的营养部分可用作食物、生物燃料或两者的植物中生成更高的产量。
可以通过本公开内容的方法和组合物产生增加的叶大小。叶生物量的增加可以用于增加植物衍生的药物或工业产品的产生。总植物光合作用的增加可以通过例如增加植物的叶面积来实现。可以使用附加的光合作用能力来增加源自特定植物组织(包括叶、根、果实或种子)的产量,或允许植物在降低的光强或高光强下生长。
对组织(诸如根组织)的生物量的修饰可用于改良植物在恶劣环境条件(包括干旱或营养缺乏)下的生长能力。较大的根可能会更好地到达水分或养分或吸收水分或养分。
例如对于某些观赏植物,提供更大品种的能力可以是非常需要的。对于许多植物,包括结果实的树木、用于木材生产的树木或用作风景或挡风屏的树木和灌木,材质增加可以以更高的产量或增强的屏蔽作用的形式提供增强的益处。
植物中的除草剂
“除草剂耐受性蛋白”或由“编码除草剂耐受性的核酸分子”的表达产生的蛋白质可以包括可以赋予细胞,例如,与不表达该蛋白的细胞相比,耐受更高浓度除草剂的能力的蛋白质。除草剂耐受性蛋白或由编码除草剂耐受性的核酸分子的表达产生的蛋白质可以包括可以赋予细胞,与不表达该蛋白质的细胞相比,更长时间地耐受除草剂浓度的能力的蛋白质。可以通过例如编码对除草剂的耐受性的基因将除草剂耐受性性状引入植物。编码对除草剂的耐受性的基因包括,例如,具有抑制乙酰乳酸合酶(ALS)作用的基因,诸如磺酰脲类除草剂,具有抑制谷氨酰胺合酶作用的基因,诸如膦丝菌素或basta(例如,bar基因),草甘膦(例如,EPSP合酶基因),HPPD抑制剂(例如,HPPD基因)。
除草剂耐受性蛋白可以包括以下项:4-羟基苯丙酮酸双加氧酶(HPPD)、耐磺酰脲的乙酰乳酸合酶(ALS)、耐咪唑啉酮的乙酰乳酸合酶(ALS)、耐草甘膦的5-烯醇丙酮酰莽草酸-3-磷酸合酶(EPSPS)、耐草甘膦的草甘膦氧化还原酶(GOX)、草甘膦N-乙酰转移酶(GAT)、膦丝菌素乙酰转移酶(PAT)、原卟啉原氧化酶(PROTOX)、生长素酶或受体、P450多肽和乙酰辅酶A羧化酶(ACC酶)。可用于赋予植物除草剂耐受性的基因的非限制性实例可以包括编码上述蛋白质的基因。
如本文所用,“羟基苯丙酮酸双加氧酶”和“HPPD”、“4-羟基苯丙酮酸(或丙酮酸)双加氧酶(4-HPPD)”和“对羟基苯丙酮酸(或丙酮酸)双加氧酶(p-OHPP)”可以是同义词并且可以指非血红素铁依赖性加氧酶,其催化4-羟基苯丙酮酸转化为尿黑酸。在降解酪氨酸的生物体中,HPPD催化的反应可以是该途径的第二步。在植物中,尿黑酸的形成对于合成可以用作氧化还原辅因子的质体醌和生育酚可能是必需的。编码羟基苯丙酮酸双加氧酶(HPPD)的多核苷酸分子可以提供对HPPD抑制剂的耐受性。
如本文所用,“HPPD抑制剂”可以包括可降低HPPD催化4-羟基苯丙酮酸转化成尿黑酸的能力的任何化合物或化合物的组合。在特定的实施方案中,HPPD抑制剂可以包括HPPD的除草剂抑制剂。HPPD抑制剂的非限制性实例包括三酮(诸如,硝磺草酮、磺草酮、苯唑草酮和环磺酮);异噁唑(诸如,磺酰草吡唑和异噁唑草酮);吡唑(诸如,吡草酮、苄草唑和吡唑特);和苯并双环酮。各种抑制剂的农业上可接受的盐可以包括用于形成农业或园艺用途的盐的盐(例如,阳离子或阴离子盐)。
“耐ALS抑制剂的多肽”可以包括任何在植物中表达时可以赋予对至少一种ALS抑制剂耐受性的多肽。ALS抑制剂包括,例如,磺酰脲、咪唑啉酮、三唑并嘧啶、嘧啶氧基(硫代)苯甲酸酯和/或磺酰氨基羰基三唑啉酮除草剂。就例如对磺酰脲、咪唑啉酮、三唑并嘧啶和嘧啶基(硫代)苯甲酸酯的耐受性而言,ALS突变可以分为不同的类别。ALS突变可以包括具有以下一项或多项特性的突变:(1)对所有这四组的广泛耐受性(例如,磺酰脲、咪唑啉酮、三唑并嘧啶和嘧啶基(硫代)苯甲酸酯);(2)对咪唑啉酮和嘧啶基(硫代)苯甲酸酯的耐受性;(3)对磺酰脲类和三唑并嘧啶的耐受性;和(4)对磺酰脲和咪唑啉酮的耐受性。
编码涉及除草剂耐受性的蛋白质的多核苷酸分子可以包括编码5-烯醇丙酮酰莽草酸-3-磷酸合酶(EPSPS)的多核苷酸分子,例如用以赋予草甘膦耐受性。
草甘膦耐受性也可以通过表达编码草甘膦氧化还原酶(GOX)或草甘膦-N-乙酰转移酶(GAT)的多核苷酸分子而获得。
编码外源的膦丝菌素乙酰转移酶的多核苷酸可以用于除草剂耐受性。含有外源的膦丝菌素乙酰转移酶的植物可以表现出对可以抑制例如谷氨酰胺合酶的草铵膦除草剂的耐受性增强。
赋予改变的原卟啉原氧化酶(protox)活性的多核苷酸可以用于除草剂耐受性。含有此类多核苷酸的植物可以表现出对可以靶向例如protox酶(也称为“protox抑制剂”)的多种除草剂的耐受性增强。
麦草畏单加氧酶可以用于提供麦草畏耐受性。
编码AAD12或编码AAD1的多核苷酸分子可以用于提供对例如生长素除草剂的耐受性。
P450序列可以用于赋予除草剂耐受性。P450序列可以通过例如除草剂的代谢提供对HPPD抑制剂的耐受性。这样的序列包括但不限于NSF1基因。
通过基因沉默在植物中产生抗虫性
“植物害虫”可以指可以直接或间接伤害任何植物或植物产物、对其造成损害或引起疾病的实体的任何生命阶段。植物害虫可以包括原生动物、非人类动物、寄生植物、细菌、真菌、病毒、类病毒、传染原、病原体或与其相似或相关的任何物体。
双链RNA(dsRNA)可以用于提供对植物害虫的耐受性。
植物害虫无脊椎动物可以包括但不限于有害线虫、有害软体动物(蛞蝓和蜗牛)和有害昆虫。植物病原体可以包括真菌和线虫。
植物病原体可以是真核植物病原体。这包括例如真菌病原体,诸如植物病原性真菌。
真菌植物病原体的非限制性实例包括,例如,引起白粉病、锈病、叶斑病和枯萎病、猝倒病、根腐病、冠腐病、棉花铃腐病、茎溃疡病、小枝溃疡病、维管萎蔫病、黑穗病或发霉的真菌,包括但不限于镰孢属(Fusarium spp.)、层锈菌属(Phakospora spp.)、丝核菌属(Rhizoctonia spp.)、曲霉属(Aspergillus spp.)、赤霉属(Gibberella spp.)、梨孢属(Pyricularia spp.)、链格孢属(Alternaria spp.)和疫霉属(Phytophthora spp.)。真菌植物病原体的具体实例包括豆薯层锈菌(Phakospora pachirhizi)(亚洲大豆锈病)、高粱柄锈菌(Puccinia sorghi)(玉米普通锈病)、多堆柄锈菌(Puccinia polysora)(玉米南方锈病)、尖镰孢(Fusarium oxysporum)和其他镰孢属、链格孢属、青霉属(Penicilliumspp.)、瓜果腐霉(Pythium aphanidermatum)和其他腐霉属(Pythium spp.)、立枯丝核菌(Rhizoctonia solani)、大斑病突脐蠕孢(Exserohilum turcicum)(玉米大斑病)、玉米双极蠕孢(Bipolaris maydis)(玉米小斑病)、玉米黑粉菌(Ustilago maydis)(玉米黑粉病)、禾谷镰孢(Fusarium graminearum)(玉米赤霉(Gibberella zeae))、轮状镰孢(Fusariumverticilliodes){串珠状赤霉(Gibberella moniliformis))、增生镰孢(F.proliferatum)(藤仓赤霉中间变种(G.fujikuroi var.intermedia))、半粘镰孢(F.subglutinous)(半粘赤霉(G.subglutinans))、玉米色二孢(Diplodia maydis)、丝轴团散黑粉菌(Sporisoriumholci-sorghi)、禾生刺盘孢(Colletotrichum graminicola)、大斑病毛球腔菌(Setosphaeria turcica)、玉米出芽短梗霉(Aureobasidium zeae)、致病疫霉(Phytophthora infestans)、大豆疫霉(Phytophthora sojae)、油菜核盘菌(Sclerotiniasclerotiorum)和真菌物种。
无脊椎害虫的非限制性实例可以包括胞囊线虫异皮线虫属(Heterodera spp.)如大豆异皮线虫、根瘤线虫根结线虫属(Meloidogyne spp.)、矛线虫纽带线虫属(Hoplolaimus spp.)、矮化线虫矮化线虫属(Tylenchorhynchus spp.)、螺旋形线虫螺旋线虫属(Helicotylenchus spp.)、根腐线虫短体线虫属(Pratylenchus spp.)、环形线虫环线虫属(Criconema spp.)、叶线虫真滑刃线虫属(Aphelenchus spp.)或滑刃线虫属(Aphelenchoides spp.)、玉米根虫、盲蝽属(Lygus spp.)、蚜虫和类似的吸取汁液的昆虫诸如葡萄根瘤蚜(Daktulosphaira vitifoliae)、玉米螟、切根虫、粘虫、叶蝉、日本甲虫、蝗虫和其他有害鞘翅目昆虫、双翅目昆虫和鳞翅目昆虫。无脊椎害虫的其他实例可以包括能够侵害作物植物根系的害虫,例如,北方玉米根虫(巴氏根萤叶甲(Diabrotica Barberi))、南方玉米根虫(黄瓜十一星根萤叶甲(Diabrotica undecimpunctata))、西方玉米根虫(玉米根萤叶甲(Diabrotica virgifera))、玉米根蚜(玉蜀黍根蚜(Anuraphismaidiradicis))、黑色切根虫(小地老虎(Agrotis ipsilon))、玻璃状切根虫(透翅切根夜蛾(Crymodes devastator))、脏切根虫(番茄褐夜蛾(Feltia ducens))、粘土状后背的切根虫(泥背地老虎(Agrotis gladiaria))、金针虫(梳爪叩头虫属(Melanotus spp.)、Aeolusmanllillus)、小麦金针虫(Aeolus mancus)、砂地金针虫(Horistonotus uhlerii)、玉米象甲(玉米尖隐喙象(Sphenophorus maidis))、梯牧草象甲(Sphenophorus zeae)、早熟禾象甲(牧草尖隐喙象(Sphenophorus parvulus))、南方玉米象甲(Sphenophorus callosus)、蛴螬(鳃角金龟(Phyllophaga spp.))、玉米种蝇(灰地种蝇(Delia platura))、葡萄肖叶甲(褐斑肖叶甲(Colaspis brunnea))、玉米籽步甲(Stenolophus slecontei)和玉米籽细步甲(Clivinia impressifrons)和寄生线虫。
感兴趣的靶基因(例如,用于基因沉默的靶基因)可以包括来自任何物种(包括但不限于,真核生物诸如真菌;植物,包括单子叶植物和双子叶植物,诸如作物植物、观赏植物和非家养植物或野生植物;无脊椎动物诸如节肢动物、环节动物、线虫和软体动物;和脊椎动物诸如两栖动物、鱼、鸟和哺乳动物)的任何编码或非编码序列。非编码序列的非限制性实例(例如,可以由基因表达元件诸如调控序列表达的非编码序列)包括但不限于5’非翻译区、启动子、增强子或其他非编码转录区域、3’非翻译区、终止子、内含子、微RNA、微RNA前体DNA序列、小干扰RNA、核糖体或核酶的RNA组分、小核仁RNA和其他非编码RNA。感兴趣基因的非限制性实例进一步包括但不限于可翻译的(编码)序列,诸如编码转录因子的基因和编码涉及感兴趣分子(诸如氨基酸、脂肪酸和其他脂质、糖和其他碳水化合物、生物聚合物以及包括生物碱、萜类化合物、聚酮化合物、非核糖体肽和混合生物合成来源的次生代谢产物)的生物合成或分解代谢的酶的基因。
靶基因(例如,用于基因沉默的靶基因)可以是植物害虫或植物病原体的必需基因。必需基因可以包括害虫或病原体发育为可繁殖的生殖成年可能所需的基因。必需基因可以包括当被沉默或抑制时可以导致生物体(例如,作为成年体或在任何发育阶段,包括配子)死亡或导致生物体无法成功繁殖(例如,雄性或雌性亲本不育或对合子、胚胎或幼虫致死)的基因。线虫必需基因的非限制性实例包括主要精子蛋白、RNA聚合酶II和几丁质合酶。在美国专利公开US20070271630中提供了另外的大豆异皮线虫必需基因,其通过引用并入本文。该基因可以是果蝇必需基因。该基因可以是真菌必需基因。
靶基因(例如,来自害虫的靶基因)可以包括用于主要精子蛋白、α微管蛋白、β微管蛋白、液泡ATP酶、甘油醛-3-磷酸脱氢酶、PvNA聚合酶ττ、几丁质合酶、细胞色素、miRNA、miRNA前体分子和miRNA启动子的无脊椎动物基因。靶基因(例如,来自病原体的靶基因)可以包括用于miRNA、miRNA前体分子、真菌微管蛋白、真菌液泡ATP酶、真菌几丁质合酶、真菌MAP激酶、真菌Pad Tyr/Thr磷酸酶、涉及营养物转运的酶(例如,氨基酸转运蛋白或糖转运蛋白)、涉及真菌细胞壁生物合成的酶、角质酶、黑色素生物合成酶、多聚半乳糖醛酸酶、果胶酶、果胶裂解酶、纤维素酶、蛋白酶的基因,与植物无毒力基因相互作用的基因以及在被感染的植物中涉及病原体入侵和复制的基因。
可用编码例如dsRNA、siRNA或miRNA的表达盒转化植物(例如,在核、细胞器或两者中转化)。dsRNA、siRNA或miRNA可以抑制植物害虫中存在的至少一个(例如,至少1个、至少2个、至少3个、至少4个、至少5个、至少6个、至少7个、至少8个、至少9个或至少10个)靶基因(例如,抑制其表达)。例如,dsRNA、siRNA或miRNA可以抑制植物害虫的1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、15个、20个或更多靶基因。抑制植物害虫中存在的靶基因可以提供针对该植物害虫的完全或几乎完全的保护。“完全保护”可以指植物害虫不会对植物造成(例如,基本的)损害。
可以将dsRNA、siRNA或miRNA设计为抑制选自以下的基因:蛋白酶体A型亚基肽(Pas-4)、ACT、SHR、EPIC2B和PnPMAI。
SEQ ID NO:114对应于编码大豆异皮线虫(SCN)特异性蛋白酶体A型亚基肽(其在本文中可称为Pas-4)的开放阅读框。SEQ ID NO:115对应于SEQ ID NO:114的核苷酸552-699。SEQ ID NO:115或SEQ ID NO:114可用于dsRNA介导的Pas-4抑制。ACT可以编码β-肌动蛋白,β-肌动蛋白可以是必需的细胞骨架蛋白。SHR可以编码Shrub(也称为Vps32或Snf7),Shrub可以是涉及用于囊泡转运的膜重塑的蛋白复合物的必需亚基。EPIC2B可以编码致病疫霉蛋白,该蛋白可以与新型木瓜蛋白酶样胞外Cys蛋白酶例如疫霉抑制的蛋白酶1相互作用并且/或者对其进行抑制,。来自寄生疫霉(Phytophthora parasitica)的PnPMA基因可以编码质膜H+ ATP酶。
植物的抗虫性
植物的抗虫性可以通过例如转基因控制来实现。例如,可以通过诸如来自苏云金芽孢杆菌的晶体(Cry)δ内毒素基因和/或营养期杀虫蛋白(VIP)的植物表达来实现对例如对昆虫害虫的植物内转基因控制。Cry毒素的非限制性实例包括例如“Cry”毒素的60个主要组(例如,Cry1-Cry59)和VIP毒素。Cry毒素可以包括Cry毒素的亚组,例如Cry1a。
可以使用例如Cry序列来构建用于转化(例如,进入细胞器)的表达盒。Cry序列可以包括例如编码选自以下的至少一种蛋白质的野生型(例如,天然)核酸序列:Cry1Ac、Cyt1Aa、Cry1Ab、Cry2Aa、Cry1I、Cry1C、Cry1D、Cry1E、Cry1Be、Cry1Fa和Vip3A。Cry序列可以包括例如编码选自以下的至少一种蛋白质的修饰的(例如,截短的或融合的)核酸序列:Cry1Ac、Cyt1Aa、Cry1Ab、Cry2Aa、Cry1I、Cry1C、Cry1D、Cry1E、Cry1Be、Cry1Fa和Vip3A。修饰的(如截短的)核酸序列可以编码可以保留杀虫活性的修饰的(如截短的)蛋白质片段。编码全长或修饰的(例如,截短的)蛋白质的核酸序列可以对于感兴趣的细胞器是密码子优化的。Cry蛋白可以是Cyt1Aa蛋白(例如,来自苏云金芽孢杆菌以色列亚种血清变型;Gene ID:5759908;SEQ ID NO:111)。
辅助蛋白,例如用于Cry蛋白的辅助蛋白,可以被引入细胞中(例如,进入细胞器)。例如,辅助蛋白可以增加例如Cry蛋白的表达、稳定性和/或功能。辅助蛋白的非限制性实例包括20kDa辅助蛋白(例如,来自苏云金芽孢杆菌以色列亚种血清变型)和19kDa辅助蛋白(例如,来自苏云金芽孢杆菌以色列亚种血清变型)。辅助蛋白可以是来自苏云金芽孢杆菌以色列亚种血清变型的20kDa辅助蛋白(pBt024;SEQ ID NO:112)。辅助蛋白可以是来自苏云金芽孢杆菌以色列亚种血清变型的19kDa辅助蛋白(pBt022;SEQ ID NO:113)。辅助蛋白可以作为多顺反子单元包含在表达盒中。辅助蛋白可以从单独的表达盒表达。
编码可用于赋予植物昆虫耐受性的蛋白质的多核苷酸可以作为多顺反子单元包含在表达盒中,或者可以从单独的表达盒表达。在一些实施方案中,这些多核苷酸可以编码以下项:(a)来自苏云金芽孢杆菌以色列亚种血清变型的Cyt1Aa蛋白(Gene ID:5759908;SEQ ID NO:111);(b)来自苏云金芽孢杆菌以色列亚种血清变型的20kDa辅助蛋白(pBt024;SEQ ID NO:112);和(c)来自苏云金芽孢杆菌以色列亚种血清变型的19kDa辅助蛋白(pBt022;SEQ ID NO:113)。
基因组修饰
本公开内容提供了可用于对例如生物体或细胞(例如,植物或植物细胞)的基因组(例如,质体或线粒体基因组)中的靶序列进行基因组修饰、用于选择修饰的生物体或细胞、用于基因编辑以及用于将供体多核苷酸插入生物体或细胞的基因组中的组合物和方法。该方法可以采用多核苷酸指导的多肽系统;例如,指导多核苷酸/Cas蛋白系统。Cas蛋白可以由指导多核苷酸指导以识别靶多核酸。Cas蛋白可以在特定靶位点将单链或双链断裂引入细胞的基因组。指导多核苷酸/Cas多肽系统可以提供用于修饰植物、植物细胞或种子的基因组内的靶位点的有效系统。
可以采用多种方法来进一步修饰靶位点以引入感兴趣的供体多核苷酸。待编辑的核苷酸序列(例如,感兴趣的核苷酸序列)可以位于被多核苷酸指导的多肽识别的靶位点之内或之外。
进一步提供了采用多核苷酸指导的多肽系统修饰细胞器基因组内的多个靶位点的方法和组合物。细胞器基因组内的多个靶位点的修饰可以促进同型转化事件的产生。
多核苷酸指导的多肽系统
多核苷酸指导的多肽可以是可以结合靶核酸的多肽。多核苷酸指导的多肽可以是核酸酶。多核苷酸指导的多肽可以是核酸内切酶。多核苷酸指导的多肽可以是Cas蛋白。多核苷酸指导的多肽可以是Argonaut蛋白。多核苷酸指导的多肽可以与指导多核苷酸形成复合物。多核苷酸指导的多肽可以被指导多核苷酸引导至靶核酸。多核苷酸指导的多肽可以与指导多核苷酸复合以识别靶核酸。多核苷酸指导的多肽可以在特定靶位点(例如,细胞的基因组)处引入单链或双链断裂。
a.CRISPR基因座
CRISPR基因座(成簇的规律间隔的短回文重复序列)(也称为SPIDRs-SPacer散布的直接重复序列)可以构成DNA基因座家族。CRISPR基因座可以由短而高度保守的DNA重复序列组成(例如,24至40bp,重复从1至140次——也称为CRISPR重复序列)。CRISPR DNA重复序列可以部分回文。重复序列(例如,通常对一个物种特异)可以由恒定长度的可变序列(例如,根据CRISPR基因座而定为20至58个)间隔开。
CRISPR基因座可存在于例如大肠杆菌(E.coli)、地中海富盐菌(Haloferaxmediterranei)、酿脓链球菌、项圈藻(Anabaena)和结核分枝杆菌(Mycobacteriumtuberculosis)中。CRISPR基因座可以包含短的规律间隔的重复序列(SRSR)。重复序列可以是可以成簇出现的短元件。重复序列可以由恒定长度的可变序列规律地隔开。
CRISPR系统可以属于不同的类别,具有不同的重复模式、基因集和物种范围。在给定的CRISPR基因座处,Cas基因的数目可能因物种而异。
b.Cas蛋白
Cas蛋白可以是CRISPR/Cas系统的蛋白。Cas蛋白可以是1类或2类Cas蛋白。Cas蛋白可以是I型、II型、III型、IV型、V型或VI型Cas蛋白。
“Cas基因”可以指编码Cas蛋白的基因。术语Cas蛋白和Cas多肽在本文中可以互换使用。Cas基因可以与侧翼CRISPR基因座偶联、相关联或与之接近或相邻。术语“Cas基因”、“CRISPR相关(Cas)基因”在本文中可以互换使用。
Cas蛋白可以结合靶核酸。Cas蛋白可以是Cas核酸酶。Cas蛋白可以是Cas核酸内切酶。Cas蛋白可以与指导多核苷酸复合。Cas蛋白可以被指导多核苷酸引导至靶核酸。Cas蛋白可以与指导多核苷酸复合以识别靶核酸。Cas蛋白可以在靶核酸序列(例如,DNA或RNA)处引入单链或双链断裂。指导多核苷酸可以使Cas蛋白在特定靶位点处识别并将单链或双链断裂引入到细胞基因组中。
Cas蛋白可以包含一个或多个结构域。结构域的非限制性实例包括指导核酸识别和/或结合结构域、核酸酶结构域(例如,DNA酶或RNA酶结构域、RuvC、HNH)、DNA结合结构域、RNA结合结构域、解旋酶结构域、蛋白质-蛋白质相互作用结构域和二聚化结构域。指导核酸识别和/或结合结构域可以与指导核酸相互作用。核酸酶结构域可以包含用于核酸切割的催化活性。核酸酶结构域可以缺乏催化活性以阻止核酸切割。Cas蛋白可以是与其他蛋白质或多肽融合的嵌合Cas蛋白。Cas蛋白可以是各种Cas蛋白的嵌合体,例如,包含来自不同Cas蛋白(例如,同系物)的结构域。
Cas蛋白的非限制性实例包括c2c1、C2c2、c2c3、Casl、CaslB、Cas2、Cas3、Cas4、Cas5、Cas5e(CasD)、Cas6、Cas6e、Cas6f、Cas7、Cas8a、Cas8al、Cas8a2、Cas8b、Cas8c、Cas9(Csnl或Csxl2)、Cas10、Cas10d、CaslO、CaslOd、CasF、CasG、CasH、Cpf1、Csyl、Csy2、Csy3、Csel(CasA)、Cse2(CasB)、Cse3(CasE)、Cse4(CasC)、Cscl、Csc2、Csa5、Csn2、Csm2、Csm3、Csm4、Csm5、Csm6、Cmrl、Cmr3、Cmr4、Cmr5、Cmr6、Csbl、Csb2、Csb3、Csxl7、Csxl4、CsxlO、Csxl6、CsaX、Csx3、Csxl、Csxl5、Csfl、Csf2、Csf3、Csf4和Cul966及其同系物或修饰形式。
Cas蛋白可以来自任何合适的生物体。非限制性实例包括酿脓链球菌、嗜热链球菌(Streptococcus thermophilus)、链球菌属(Streptococcus sp.)、金黄色葡萄球菌(Staphylococcus aureus)、达松维尔拟诺卡氏菌(Nocardiopsis dassonvillei)、始旋链霉菌(Streptomyces pristinae spiralis)、绿色产色链霉菌(Streptomycesviridochromo genes)、绿色产色链霉菌(Streptomyces viridochromogenes)、玫瑰链孢囊菌(Streptosporangium roseum)、玫瑰链孢囊菌(Streptosporangium roseum)、酸热脂环酸芽孢杆菌(Alicyclobacillus acidocaldarius)、假蕈状芽孢杆菌(Bacilluspseudomycoides)、硒还原芽孢杆菌(Bacillus selenitireducens)、西伯利亚微杆菌(Exiguobacterium sibiricum)、德氏乳杆菌(Lactobacillus delbrueckii)、唾液乳杆菌(Lactobacillus salivarius)、海洋微颤菌(Microscilla marina)、伯克氏菌目(Burkholderiales)细菌、食萘极单胞菌(Polaromonas naphthalenivorans)、单胞菌属(Polaromonas sp.)、瓦氏鳄球藻(Crocosphaera watsonii)、蓝丝菌属(Cyanothece sp.)、铜绿微囊藻(Microcystis aeruginosa)、铜绿假单胞菌(Pseudomonas aeruginosa)、聚球藻属(Synechococcus sp.)、阿拉伯糖醋盐杆菌(Acetohalobium arabaticum)、丹氏制氨菌(Ammonifex degensii)、热解纤维素菌(Caldicelulosiruptor becscii)、CandidatusDesulforudis、肉毒梭菌(Clostridium botulinum)、艰难梭菌(Clostridium difficile)、大芬戈尔德菌(Finegoldia magna)、嗜热盐碱厌氧菌(Natranaerobius thermophilus)、Pelotomaculum thermopropionicum、喜温嗜酸硫杆菌(Acidithiobacillus caldus)、氧化亚铁嗜酸硫杆菌(Acidithiobacillus ferrooxidans)、酒色别样着色菌(Allochromatiumvinosum)、海杆菌属(Marinobacter sp.)、嗜盐亚硝化细菌(Nitrosococcus halophilus)、瓦松亚硝化球菌(Nitrosococcus watsoni)、游海假交替单胞菌(Pseudoalteromonashaloplanktis)、消旋纤线杆菌(Ktedonobacter racemifer)、调查甲烷盐菌(Methanohalobium evestigatum)、多变鱼腥藻(Anabaena variabilis)、泡沫节球藻(Nodularia spumigena)、念珠藻属(Nostoc sp.)、极大节旋藻(Arthrospira maxima)、钝顶节旋藻(Arthrospira platensis)、节旋藻属(Arthrospira sp.)、鞘丝藻属(Lyngbyasp.)、喜泥微鞘藻(Microcoleus chthonoplastes)、颤藻属(Oscillatoria sp.)、运动石袍菌(Petrotoga mobilis)、非洲栖热腔菌(Thermosipho africanus)、Acaryochlorismarina、沙氏纤毛菌(Leptotrichia shahii)和新凶手弗朗西丝菌(Francisellanovicida)。在某些方面,该生物体可以是酿脓链球菌。
如本文所用,Cas蛋白可以是Cas蛋白的野生型或修饰形式。Cas蛋白可以是野生型或修饰的Cas蛋白的活性变体、无活性变体或片段。Cas蛋白可以包含相对于Cas蛋白的野生型形式的氨基酸变化,诸如缺失、插入、置换、变体、突变、融合体、嵌合体或其任何组合。Cas蛋白可以是与野生型示例性Cas蛋白(例如,来自酿脓链球菌的Cas9)具有至少约5%、10%、20%、30%、40%、50%、60%、70%、80%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或100%的序列同一性或序列相似性的多肽。Cas蛋白可以是与野生型示例性Cas蛋白具有至多约5%、10%、20%、30%、40%、50%、60%、70%、80%、90%、100%序列同一性和/或序列相似性的多肽。变体或片段可以包含与野生型或修饰的Cas蛋白或其部分的至少约5%、10%、20%、30%、40%、50%、60%、70%、80%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或100%的序列同一性或序列相似性。变体或片段可以与指导核酸复合地靶向核酸基因座,而缺乏核酸切割活性。
Cas蛋白可以包含一个或多个核酸酶结构域,诸如DNA酶结构域。例如,Cas9蛋白可以包含RuvC样核酸酶结构域和/或HNH样核酸酶结构域。RuvC和HNH结构域可以分别切割双链DNA的不同链以在DNA中形成双链断裂。Cas蛋白可以只包含一个核酸酶结构域(例如,Cpf1包含RuvC结构域但缺少HNH结构域)
Cas蛋白可以包含与野生型Cas蛋白的核酸酶结构域(例如,RuvC结构域、HNH结构域)具有至少约5%、10%、20%、30%、40%、50%、60%、70%、80%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或100%的序列同一性或序列相似性的氨基酸序列。
可以修饰Cas蛋白以优化活性,例如,切割、基因表达的调控。可以修饰Cas蛋白以增加或减少核酸结合亲和力、核酸结合特异性和/或酶活性。还可以修饰Cas蛋白以改变该蛋白质的任何其他活性或特性,诸如稳定性。例如,Cas蛋白的一个或多个核酸酶结构域可以被修饰、删除或灭活,或者Cas蛋白可以被截短以去除对于该蛋白质的功能非必需的结构域或优化(例如,增强或减弱)Cas蛋白的活性。
Cas蛋白可以是融合蛋白。例如,Cas蛋白可以与切割结构域、表观遗传修饰结构域、转录激活结构域或转录阻遏物结构域融合。Cas蛋白也可与提供增强或减弱的稳定性的异源多肽融合。融合的结构域或异源多肽可以位于Cas蛋白内的N端、C端或内部。
Cas蛋白可以包含易于追踪或纯化的异源多肽,诸如荧光蛋白、纯化标签或表位标签。荧光蛋白的实例包括绿色荧光蛋白(例如,GFP、GFP-2、tagGFP、turboGFP、eGFP、Emerald、AzamiGreen、Monomeric Azami Green、CopGFP、AceGFP、ZsGreenl)、黄色荧光蛋白(例如,YFP、eYFP、Citrine、Venus、YPet、PhiYFP、ZsYellowl)、蓝色荧光蛋白(例如eBFP、eBFP2、Azurite、mKalamal、GFPuv、Sapphire、T-sapphire)、蓝绿色荧光蛋白(例如eCFP、Cerulean、CyPet、AmCyanl、Midoriishi-Cyan)、红色荧光蛋白(mKate、mKate2、mPlum、DsRedmonomer、mCherry、mRFPl、DsRed-Express、DsRed2、DsRed-Monomer、HcRed-Tandem、HcRedl、AsRed2、eqFP611、mRaspberry、mStrawberry、Jred)、橙色荧光蛋白(mOrange、mKO、Kusabira-Orange、Monomeric Kusabira-Orange、mTangerine、tdTomato)和任何其他合适的荧光蛋白。标签的实例包括谷胱甘肽-S-转移酶(GST)、几丁质结合蛋白(CBP)、麦芽糖结合蛋白、硫氧还蛋白(TRX)、聚(NANP)、串联亲和纯化(TAP)标签、myc、AcV5、AU1、AU5、E、ECS、E2、FLAG、血凝素(HA)、nus、Softag 1、Softag 3、Strep、SBP、Glu-Glu、HSV、KT3、S、SI、T7、V5、VSV-G、组氨酸(His)、生物素羧基载体蛋白(BCCP)和钙调蛋白。
可以以任何形式提供Cas蛋白。例如,Cas蛋白可以以蛋白质的形式提供,诸如单独或与指导核酸复合的Cas蛋白。Cas蛋白可以以编码Cas蛋白的核酸的形式提供,诸如RNA(例如,信使RNA(mRNA))或DNA。
编码Cas蛋白的核酸对于在特定细胞、细胞器或生物体中有效翻译成蛋白质可以是密码子优化的。
编码Cas蛋白的核酸可以稳定地整合在细胞器或细胞的基因组中。编码Cas蛋白的核酸可以可操作地连接至在细胞中有活性的启动子。编码Cas蛋白的核酸可以可操作地连接至在表达构建体中的启动子。表达构建体可以包括可以引导基因或其他感兴趣核酸序列(例如,Cas基因)的表达的任何核酸构建体。表达构建体可以包括可以将这样的感兴趣核酸序列转移至靶细胞(例如,进入细胞器)的任何核酸构建体。
在一些方面,Cas蛋白可以是2类Cas蛋白。在一些方面,Cas蛋白可以是II型Cas蛋白。在一些方面,Cas蛋白可以是Cas9蛋白、Cas9蛋白的修饰形式或衍生自Cas9蛋白。
Cas9可以指与野生型示例性Cas9多肽(例如,来自酿脓链球菌的Cas9)具有至少约5%、10%、20%、30%、40%、50%、60%、70%、80%、90%、100%序列同一性和/或序列相似性的多肽。Cas9可以指与野生型示例性Cas9多肽(例如,来自酿脓链球菌)具有至多约5%、10%、20%、30%、40%、50%、60%、70%、80%、90%、100%序列同一性和/或序列相似性的多肽。Cas9可以指Cas9蛋白的野生型形式或指可以包含诸如缺失、插入、置换、变体、突变、融合体、嵌合体或其任何组合的氨基酸变化的修饰形式。
在一个实施方案中,多核苷酸指导的多肽基因可以是Cas9蛋白,诸如但不限于WO2007/025097的SEQ ID NO:462、474、489、494、499、505和518中列出并通过引用并入本文的Cas9序列。Cas9蛋白可以解开紧邻基因组靶位点的DNA双链体。当通过指导多核酸识别靶序列时,Cas9蛋白可以切割例如两条DNA链。在一些方面,仅当正确的前间隔区邻近基序(PAM)大约定向在靶序列的3’端时,Cas9核酸内切酶才可以进行切割。酿脓链球菌Cas9催化结构域的诱变可以产生“切口”酶(Cas9n),该酶可以诱导单链切口而不是双链断裂。
在另一个实施方案中,可以将编码多核苷酸指导的多肽的序列修饰成使用靶生物体优选的密码子,例如编码Cas(例如,Cas9)蛋白的植物、玉米或大豆的密码子优化的序列。在另一个实施方案中,编码多核苷酸指导的多肽的序列可以可操作地连接至编码核定位信号的一个或多个序列;例如,连接至Cas蛋白编码区上游的SV40核靶向信号和Cas蛋白编码区下游的二分VirD2核定位信号。
在另一个实施方案中,多核苷酸指导的多肽可以是Argonaute蛋白,例如格氏嗜盐碱杆菌(Natronobacterium gregoryi)Argonaute(“NgAgo”)。Argonaute蛋白可以是DNA引导的核酸内切酶。Argonaute蛋白可以结合指导DNA,如5’-磷酸化的单链指导DNA(gDNA)的例如24个核苷酸。当装载有gDNA时,Argonaute蛋白可以产生位点特异性靶核酸(例如,DNA)断裂(例如,双链断裂)。Argonaute蛋白–gDNA系统可以不需要前间隔区邻近基序(PAM)即可识别靶核酸。
在一些方面,多核苷酸指导的多肽可以是死亡的Cas蛋白。Cas蛋白可以是死亡的Cas蛋白。死亡的Cas蛋白可以是缺乏核酸切割活性的蛋白。
Cas蛋白可以包含野生型Cas蛋白的修饰形式。野生型Cas蛋白的修饰形式可以包含降低Cas蛋白的核酸切割活性的氨基酸变化(例如,缺失、插入或置换)。例如,Cas蛋白的修饰形式可以具有野生型Cas蛋白(例如,来自酿脓链球菌的Cas9)的小于90%、小于80%、小于70%、小于60%、小于50%、小于40%、小于30%、小于小于20%、小于10%、小于5%或小于1%的核酸切割活性。Cas蛋白的修饰形式可以没有实质的核酸切割活性。当Cas蛋白是没有实质的核酸切割活性的修饰形式时,其可以被称为无酶活性的和/或“死亡的”(缩写为“d”)。死亡的Cas蛋白(例如dCas,dCas9)可以与靶多核苷酸结合,但无法切割靶多核苷酸。在一些方面,死亡的Cas蛋白可以是死亡的Cas9蛋白。
无酶活性可以指可以以序列特异性方式结合多核苷酸中的核酸序列,但是无法切割靶多核苷酸的多肽。无酶活性的定点多肽可以包含无酶活性的结构域(例如核酸酶结构域)。无酶活性可以指无活性。无酶活性可以指实质上无活性。无酶活性可以指基本上无活性。无酶活性可以指与野生型示例性活性(例如,核酸切割活性、野生型Cas9活性)相比小于1%、小于2%、小于3%、小于4%、小于5%、小于6%、小于7%、小于8%、小于9%或小于10%的活性。
可以删除Cas蛋白的一个或多个核酸酶结构域(例如,RuvC、HNH)或使之突变,使得它们不再具有功能或包含降低的核酸酶活性。例如,在包含至少两个核酸酶结构域的Cas蛋白(例如,Cas9)中,如果其中一个核酸酶结构域被删除或突变,所得的Cas蛋白(称为切口酶)可以在双链DNA中的CRISPR RNA(crRNA)识别序列处产生单链断裂而不是双链断裂。这样的切口酶可以切割互补链或非互补链,但不能同时切割两者。如果Cas蛋白的所有核酸酶结构域(例如,Cas9蛋白中的RuvC和HNH核酸酶结构域;Cpf1蛋白中的RuvC核酸酶结构域)都被删除或突变,所得的Cas蛋白切割双链DNA的两条链的能力可能降低或消失。可以将Cas9蛋白转变成切口酶的突变的实例可以是来自酿脓链球菌的Cas9的RuvC结构域中的D10A(在Cas9的位置10上的天冬氨酸变成丙氨酸)突变。来自酿脓链球菌的Cas9的HNH结构域中的H939A(在氨基酸位置839上的组氨酸变成丙氨酸)或H840A(在氨基酸位置840上的组氨酸变成丙氨酸)可以将Cas9转变为切口酶。可以将Cas9蛋白转变为死亡的Cas9的突变的实例是RuvC结构域中的D10A(在Cas9的位置10位上的天冬氨酸变成丙氨酸)突变和在来自酿脓链球菌的Cas9的HNH结构域中的H939A(在氨基酸位置839上的组氨酸至丙氨酸)或H840A(在氨基酸位置840上的组氨酸变成丙氨酸)。
死亡的Cas蛋白相对于该蛋白的野生型可以包含一个或多个突变。突变可能导致在野生型Cas蛋白的多个核酸切割结构域的一个或多个中,核酸切割活性小于90%、小于80%、小于70%、小于60%、小于50%、小于40%、小于30%、小于20%、小于10%,小于5%或小于1%。突变可以导致多个核酸切割结构域中的一个或多个保留切割靶核酸的互补链的能力,但降低其切割靶核酸的非互补链的能力。突变可以导致多个核酸切割结构域中的一个或多个保留切割靶核酸的非互补链的能力,但降低其切割靶核酸的互补链的能力。突变可以导致多个核酸切割结构域中的一个或多个缺乏切割靶核酸的互补链和非互补链的能力。核酸酶结构域中待突变的残基可以对应于核酸酶的一个或多个催化残基。例如,野生型示例性酿脓链球菌Cas9多肽中的残基如Asp10、His840、Asn854和Asn856可以突变以使多个核酸切割结构域(例如,核酸酶结构域)中的一个或多个失活。例如,如通过序列和/或结构比对确定,Cas蛋白的核酸酶结构域中待突变的残基可以对应于野生型酿脓链球菌Cas9多肽中的残基Asp10、His840、Asn854和Asn856。
作为非限制性实例,残基D10、G12、G17、E762、H840、N854、N863、H982、H983、A984、D986和/或A987(或任何Cas蛋白的相应突变)可以是突变的。例如,D10A、G12A、G17A、E762A、H840A、N854A、N863A、H982A、H983A、A984A和/或D986A。除丙氨酸置换以外的突变可以是合适的。
D10A突变可以与H840A、N854A或N856A突变中的一个或多个结合以产生基本上缺乏DNA切割活性(例如,死亡的Cas9蛋白)的多核苷酸指导的多肽(例如,Cas9蛋白)。
在另一个实施方案中,多核苷酸指导的多肽可以是可以与赋予特异性的核酸(SCNA)形成可编程核蛋白分子复合物的多肽部分(例如,嵌合多肽)。可编程核蛋白分子复合物可以在体内、在靶细胞内或在细胞器内组装。可编程核蛋白分子复合物可以与预定的靶核酸序列相互作用。可编程核蛋白分子复合物可以包含编码嵌合多肽的多核苷酸分子。嵌合多肽可以包含可以修饰靶核酸位点的功能域。该功能域可以没有特异性核酸结合位点。嵌合多肽可以包含可以与SCNA相互作用的连接结构域。该连接结构域可以没有特异性靶核酸结合位点。SCNA可以包含与靶位点侧翼的靶核酸区域互补的核苷酸序列。SCNA可以包含可以特异性地附接至嵌合多肽的连接结构域的识别区。嵌合多肽和SCNA在靶细胞内的组装可以形成功能性核蛋白复合物。核蛋白复合物可以在靶位点特异性地修饰靶核酸。
在另一个实施方案中,多核苷酸指导的核酸内切酶基因可以是全长多核苷酸指导的核酸内切酶(例如,Cas核酸内切酶、Cas9核酸内切酶)或其任何功能片段或功能变体。
术语“功能片段”、“在功能上等同的片段”和“功能等同片段”在本文中可以互换使用。在编码多核苷酸指导的多肽的序列的情况下,这些术语可以指多核苷酸指导的多肽序列的一部分或子序列。该多核苷酸指导的多肽序列的一部分或子序列可以包含产生单链或双链断裂的能力。
术语“功能变体”、“功能上等同的变体”和“功能等同变体”在本文中可以互换使用。在多核苷酸指导的多肽的情况下,这些术语可以指多核苷酸指导的多肽的变体。该变体可以包含产生单链或双链断裂的能力。片段和变体可以通过诸如定点诱变和合成构建的方法获得。
在一个实施方案中,多核苷酸指导的多肽编码序列可以是植物密码子优化的酿脓链球菌Cas9编码序列。密码子优化的Cas9序列可以识别任何基因组序列,例如N(12-30)NGG形式的基因组序列。
在一个实施方案中,可以通过任何合适的方法将多核苷酸指导的多肽直接引入细胞中,例如但不限于瞬时引入方法、转染和/或局部施加。
本公开内容的组合物和方法可以使用核酸内切酶。核酸内切酶可以是在多核苷酸链内切割磷酸二酯键的酶。核酸内切酶可以包括在特定位点切割DNA而不会破坏碱基的限制性核酸内切酶。限制性核酸内切酶可以包括I型、II型、III型和IV型核酸内切酶,其可以进一步包括亚型。在I型和III型系统中,甲基化酶和限制性活性都可以包含在单个复合物中。核酸内切酶还可以包括大范围核酸酶,也称为归巢核酸内切酶(HE酶)。大范围核酸酶可以在特定的识别位点处结合并切割,该位点可以为约18bp或更大。根据保守的序列基序,大范围核酸酶可分为四个家族。大范围核酸酶家族可以是LAGLIDADG、GIY-YIG、H-N-H和His-Cys盒家族。这些基序可以参与金属离子的配位和磷酸二酯键的水解。HE酶可以具有长识别位点,并且可以耐受其DNA底物中的序列多态性。大范围核酸酶的命名约定可以类似于其他限制性核酸内切酶的命名约定。
大范围核酸酶还可以以分别用于由独立的ORF、内含子和内含肽编码的酶的前缀F-、I-或PI-为特征。重组过程中的一个步骤可以涉及在识别位点处或附近切割多核苷酸。该切割活性可用于产生双链断裂。在一些实例中,重组酶可以来自整合酶或解离酶家族。
本公开内容的组合物和方法可以使用转录激活因子样效应物核酸酶(TALEN;TAL效应物核酸酶),其可以是一类序列特异性核酸酶。TALEN可以用于在特异性靶序列(例如,在植物或其他生物体的基因组中的)处进行切割(例如,双链断裂)。TAL效应子核酸酶可以通过将天然或工程化的转录激活因子样(TAL)效应物或其功能部分与核酸内切酶(诸如,例如,FokI)的催化结构域融合而产生。独特的模块化TAL效应物DNA结合结构域可以允许设计具有潜在任何给定DNA识别特异性的蛋白质。
本公开内容的组合物和方法可以使用锌指核酸酶(ZFN)。ZFN可以是由锌指DNA结合结构域和双链断裂诱导剂结构域组成的工程化的切割(例如,双链断裂)诱导剂。锌指结构域可以赋予识别位点特异性,锌指结构域可以包括两个、三个或四个锌指,例如具有C2H2结构。锌指结构域可以适合于设计与选定的多核苷酸识别序列特异性结合的多肽。ZFN可以由连接至非特异性核酸内切酶结构域(例如,来自IIS型核酸内切酶(诸如FokI)的核酸酶结构域)的工程化的DNA结合锌指结构域组成。可以将另外的功能性与锌指结合结构域融合,包括转录激活因子结构域、转录阻遏物结构域和甲基化酶。在一些实例中,切割活性可能需要核酸酶结构域的二聚化。每个锌指可以识别例如靶DNA中的三个连续碱基对。例如,3指结构域识别9个连续核苷酸的序列,在核酸酶的二聚化需要下,两组锌指三联体可以用于结合18个核苷酸的识别序列。
c.指导多核酸
细菌和古细菌可以进化出称为成簇的规律间隔的短回文重复序列(CRISPR)/CRISPR相关的(Cas)系统的适应性免疫防御系统,其可以使用短RNA引导外源核酸的降解。来自细菌的II型CRISPR/Cas系统可以采用crRNA和tracrRNA来将Cas多肽引导至核酸靶标。crRNA(CRISPR RNA)可以包含与双链DNA靶标的一条链互补的区域。crRNA可以与tracrRNA(反式激活CRISPR RNA)碱基配对以形成RNA双链体,该双链体可以引导Cas多肽识别并任选地切割DNA靶标。
如本文所用,术语“指导多核苷酸”可以指可以与多核苷酸指导的多肽(例如,Cas蛋白)形成复合物的多核苷酸序列。指导多核苷酸可以引导多核苷酸指导的多肽识别并任选地切割(或切口)DNA靶位点。术语“指导多核苷酸”和“指导多核酸”在本文中可以互换使用。指导多核苷酸可以由单个分子(单分子)或两个分子(双分子)组成。指导多核苷酸序列可以是RNA序列、DNA序列或其组合(RNA-DNA组合序列)。任选地,指导多核苷酸可以包含至少一个核苷酸、磷酸二酯键或连接修饰,诸如但不限于锁核酸(LNA)、5-甲基dC,2,6-二氨基嘌呤、2’-氟A、2’-氟U、2’-O-甲基RNA、硫代磷酸酯键、与胆固醇分子的连接、与聚乙二醇分子的连接、与间隔区18(六乙二醇链)分子的连接或导致环化的5’至3’的共价连接。仅包含核糖核酸的指导多核苷酸也可以称为“指导RNA”(gRNA)。在一些实施方案中,指导多核酸可以是指导RNA。
如本文所用,术语“单指导RNA”(sgRNA)可以指两个RNA分子的合成融合体,这两个分子例如是包含可变靶向结构域的crRNA(CRISPR RNA)和tracrRNA。在一个实施方案中,指导RNA可以包含12至30个核苷酸序列的可变靶向结构域和可与Cas蛋白相互作用的RNA片段。
如本文所用,“crRNA”可以指与野生型示例性crRNA(例如,来自酿脓链球菌的crRNA)具有至少约5%、10%、20%、30%、40%、50%、60%、70%、80%、90%、100%序列同一性和/或序列相似性的核酸。crRNA可以指与野生型示例性crRNA(例如,来自酿脓链球菌的crRNA)具有至多约5%、10%、20%、30%、40%、50%、60%、70%、80%、90%、100%序列同一性和/或序列相似性的核酸。crRNA可以指可以包含诸如缺失、插入或置换、变体、突变或嵌合体等核苷酸变化的修饰的crRNA形式。crRNA可以是在至少6个连续核苷酸的一段序列上与野生型示例性crRNA(例如,来自酿脓链球菌的crRNA)序列具有至少约60%同一性的核酸。例如,crRNA序列可以在至少6个连续核苷酸的一段序列上与野生型示例性crRNA序列(例如,来自酿脓链球菌的crRNA)具有至少约60%同一性、至少约65%同一性、至少约70%同一性、至少约75%同一性、至少约80%同一性、至少约85%同一性、至少约90%同一性、至少约95%同一性、至少约98%同一性、至少约99%同一性或100%同一性。
如本文所用,“tracrRNA”可以指与野生型示例性tracrRNA序列(例如,来自酿脓链球菌的tracrRNA)具有至少约5%、10%、20%、30%、40%、50%、60%、70%、80%、90%、100%序列同一性和/或序列相似性的核酸。tracrRNA可以指与野生型示例性tracrRNA序列(例如,来自酿脓链球菌的tracrRNA)具有至多约5%、10%、20%、30%、40%、50%、60%、70%、80%、90%、100%序列同一性和/或序列相似性的核酸。tracrRNA可以指可以包含诸如缺失、插入或置换、变体、突变或嵌合体等核苷酸变化的修饰的tracrRNA形式。tracrRNA可以是指在至少6个连续核苷酸的一段序列上与野生型示例性tracrRNA(例如,来自酿脓链球菌的tracrRNA)序列可具有至少约60%同一性的核酸。例如,tracrRNA序列可以在至少6个连续核苷酸的一段序列上与野生型示例性tracrRNA(例如,来自酿脓链球菌的tracrRNA)序列具有至少约60%同一性、至少约65%同一性、至少约70%同一性、至少约75%同一性、至少约80%同一性、至少约85%同一性、至少约90%同一性、至少约95%同一性、至少约98%同一性、至少约99%同一性或100%同一性。
指导多核苷酸可以是双分子的(即,两个分子;也称为“两分子”、“双”或“双链体”指导多核苷酸),其包含例如与靶多核酸(例如,靶DNA)中的核苷酸序列互补的第一核苷酸序列结构域(称为可变靶向结构域或VT结构域)和与Cas多肽相互作用的第二核苷酸序列结构域(称为Cas核酸内切酶识别结构域或CER结构域)。VT结构域可以指指导多核酸的间隔区。VT结构域可以包含指导多核酸的间隔区。间隔区可以通过杂交(例如,碱基配对)以序列特异性的方式与靶核酸的前间隔区区域相互作用。双分子指导多核苷酸的CER结构域可以包含两个单独的分子,这两个分子可沿着互补性区域杂交以形成例如双链体或部分双链体。两个单独的分子可以是RNA、DNA和/或RNA-DNA组合序列。在一些实施方案中,包含连接至CER结构域的VT结构域的双链体指导多核苷酸的第一分子可以被称为“crDNA”(当由一段连续的DNA核苷酸组成时)或“crRNA”(当由一段连续的RNA核苷酸组成时)或“crDNA-RNA”(当由DNA核苷酸和RNA核苷酸的组合组成时)。cr核苷酸可以包含天然存在于细菌和古细菌中的crRNA的片段。在一个实施方案中,本文公开的cr核苷酸中可存在的在细菌和古细菌中天然存在的crRNA的片段大小的范围可以是但不限于2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20个或更多个核苷酸。在一些实施方案中,包含CER结构域的双链体指导多核苷酸的第二分子可以被称为“tracrRNA”(当由一段连续的RNA核苷酸组成时)或“tracrDNA”(当由一段连续的DNA核苷酸组成时)或“tracrDNA-RNA”(当由DNA核苷酸和RNA核苷酸的组合组成时)。在一个实施方案中,指导RNA/Cas9多肽复合物的RNA可以是包含双链体crRNA-tracrRNA的双链体RNA。
指导多核酸(例如,VT结构域、间隔区)与靶多核酸(例如,前间隔区)之间的互补性可以是完美互补、基本互补或充分互补的。两个核酸之间的完美互补性可以指两个核酸可以形成双链体,其中双链体中的每个碱基都可以通过Watson-Crick配对与互补碱基键合。基本或充分的互补可以指一条链中的序列可能没有与相对链中的序列彻底和/或完美互补,但是在两条链上的碱基之间发生足够的键合,从而在一组杂交条件(例如,盐浓度和温度)中形成稳定的杂交复合物。
指导多核苷酸还可以是单个分子的(即,单分子),其包含可以与靶多核酸(例如,靶DNA)中的核苷酸序列互补的第一核苷酸序列结构域(称为可变靶向结构域或VT结构域)和与Cas多肽相互作用的第二核苷酸结构域(称为Cas核酸内切酶识别结构域或CER结构域)。对于单个分子的指导多核苷酸,CER结构域可以由可以是RNA、DNA和/或RNA-DNA组合序列的一段连续的核苷酸形成。单指导多核苷酸的VT结构域和/或CER结构域可以包含RNA序列、DNA序列或RNA-DNA组合序列。在一些实施方案中,单指导多核苷酸包含连接至tracr核苷酸(包含CER结构域)的cr核苷酸(包含连接至CER结构域的VT结构域),其中该连接可以是包含RNA序列、DNA序列或RNA-DNA组合序列的核苷酸序列。由来自cr核苷酸和tracr核苷酸的序列组成的单指导多核苷酸可以被称为“单指导RNA”(sgRNA;当由一段连续的RNA核苷酸组成时)或“单指导DNA”(sgDNA;当由一段连续的DNA核苷酸组成时)或“单指导RNA-DNA”(sgDNA-RNA;当由DNA核苷酸和RNA核苷酸的组合组成时)。在本公开内容的一个实施方案中,单指导RNA(sgRNA)包含II型CRISPR/Cas系统的crRNA或crRNA片段和tracrRNA或tracrRNA片段,其可以与II型Cas多肽形成复合物,其中所述指导RNA/Cas多肽复合物可以将Cas多肽引导至植物基因组靶位点,从而使Cas多肽能够将双链断裂引入基因组靶位点。
术语“可变靶向结构域”或“VT结构域”在本文中可以互换使用,并且可以指可以存在于指导多核苷酸中的核苷酸序列。VT结构域可以与双链DNA靶位点的一条链互补。第一核苷酸序列结构域(VT结构域)与靶序列之间的互补百分比可以为至少50%、51%、52%、53%、54%、55%、56%、57%、58%、59%、60%、61%、62%、63%、63%、65%、66%、67%、68%、69%、70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或100%。可变靶向结构域的长度可以是至少12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29或30个核苷酸。在一些实施方案中,可变靶向结构域可以包含与靶多核酸的至少17个核苷酸互补的至少17个核苷酸。在一些实施方案中,可变靶向结构域可以包含与靶多核酸互补的一段连续的核苷酸。在一些实施方案中,与靶多核酸互补的指导多核酸的核苷酸可以是不连续的。在一些实施方案中,可变靶向结构域可以包含一段连续的12至30个核苷酸。可变靶向结构域可以由DNA序列、RNA序列、修饰的DNA序列、修饰的RNA序列或其任何组合组成。
靶多核苷酸可以通过在感兴趣区域内识别出前间隔区邻近基序(PAM)并选择在PAM上游或下游的所需大小的区域作为前间隔区来进行识别。可以通过确定前间隔区区域的互补序列来设计相应的间隔区序列。
指导多核苷酸的术语“Cas核酸内切酶识别结构域”或“CER结构域”在本文中可以互换使用,并且可以指与Cas多肽相互作用的核苷酸序列(诸如指导多核苷酸的第二核苷酸序列结构域)。CER结构域可以由DNA序列、RNA序列、修饰的DNA序列、修饰的RNA序列(例如参见本文所述的修饰)或其任何组合组成。
连接单指导多核苷酸的cr核苷酸和tracr核苷酸的核苷酸序列可以包含RNA序列、DNA序列或RNA-DNA组合序列。在一个实施方案中,连接单指导多核苷酸的cr核苷酸和tracr核苷酸的核苷酸序列的长度可以是至少3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99或100个核苷酸。在另一个实施方案中,连接单指导多核苷酸的cr核苷酸和tracr核苷酸的核苷酸序列可以包含四核苷酸环序列,诸如但不限于GAAA四核苷酸环序列。指导多核苷酸、VT结构域和/或CER结构域的核苷酸序列修饰可以选自但不限于5’帽、3’聚腺苷酸尾、核糖开关序列、稳定性控制序列、形成dsRNA双链体的序列、将指导多核苷酸靶向亚细胞位置的修饰或序列、提供追踪的修饰或序列、提供蛋白质的结合位点的修饰或序列、锁核酸(LNA)、5-甲基-2’-脱氧胞嘧啶核苷(5mdC)、2,6-二氨基嘌呤核苷酸、2’-氟腺苷核苷酸、2’-氟尿苷核苷酸;2’-O-甲基RNA核苷酸、硫代磷酸酯(PS)键、与胆固醇分子的连接、与聚乙二醇分子的连接、与间隔区18分子的连接、5’至3’共价连接或其任何组合。这些修饰可以产生至少一个附加的有益特征,其中该附加的有益特征可以选自:修饰或调控的稳定性、亚细胞靶向、追踪、荧光标记、蛋白质或蛋白质复合物的结合位点、对互补靶序列的修饰的结合亲和力、对细胞降解的修饰的耐受性和增加的细胞通透性。
在一个实施方案中,指导RNA和Cas多肽可以形成复合物,该复合物可使Cas多肽能够在DNA靶位点引入单链或双链断裂。
在一个实施方案中,可变靶向结构域的长度可以是12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29或30个核苷酸。
在一个实施方案中,指导RNA可以包含II型CRISPR/Cas系统的crRNA(或crRNA片段)和tracrRNA(或tracrRNA片段),该系统可以与II型Cas多肽形成复合物。指导RNA/Cas多肽复合物可以将Cas多肽引导至靶核酸位点(例如,DNA靶标)。Cas多肽可以将双链断裂引入DNA靶位点。
在一个实施方案中,可以使用任何合适的方法将指导多核酸直接引入细胞中,诸如但不限于粒子轰击或局部施加。
在另一个实施方案中,可以通过引入重组DNA分子来间接引入指导多核酸,该重组DNA分子包含编码可操作地连接至核启动子或细胞器启动子的指导多核酸的多核苷酸,该核启动子或细胞器启动子可以分别在所述核或细胞器中转录多核苷酸。
在一些实施方案中,可以通过重组DNA构建体的粒子轰击或农杆菌转化将指导多核酸引入植物细胞中,该重组DNA构建体包含编码可操作地连接至在植物中具有功能的的启动子(例如,植物U6聚合酶III启动子、CaMV 35S聚合酶II启动子)的指导多核酸的多核苷酸。
在一个实施方案中,指导多核酸可以是包含双链体crRNA-tracrRNA的双链体RNA。单指导多核酸(例如,单指导RNA)可能需要一个表达盒来表达单指导RNA。双链体crRNA-tracrRNA可能需要一个或多个所需的表达盒来表达双链体crRNA-tracrRNA。
可以将多个多核酸多重化以靶向多个靶核酸。例如,可以同时或迭代地靶向2、3、4、5、6、7、9、10个或超过10个靶核酸。作为非限制性实例,多重化可以用来生成大的基因组缺失、一次性修饰多个不同的序列和/或结合双切口酶来靶向基因。在一些实例中,可以递送多于一个的CRISPR/Cas系统以靶向两个或更多个核酸序列靶标。同源Cas蛋白可用于多重化应用。
基因组修饰的靶位点
术语“靶位点”、“靶序列”、“靶多核苷酸”、“靶多核酸”、“靶基因座”、“基因组靶位点”、“基因组靶序列”和“基因组靶基因座”在本文中可互换使用。靶多核酸可以指例如植物细胞的基因组(例如,质体或线粒体基因组)中的多核苷酸序列。靶多核酸可以指由指导多核酸识别的位点(例如,在基因组中)。靶多核酸可以指可以在其上诱导(例如,通过Cas多肽)单链或双链断裂的位点(例如,在基因组中)。靶位点可以是基因组中的内源位点。靶位点对于生物体可以是异源的,因此并未天然存在于基因组中。与其在天然存在的位置相比,靶位点可以在异源基因组位置中找到。如本文所用,术语“内源靶序列”和“天然靶序列”在本文中可以互换使用,并且可以指对于生物体基因组可以是内源的或天然的靶序列。内源靶序列可以出现在生物体基因组中该靶序列的内源或天然位置。
靶多核酸可以是DNA、RNA或两者。在一些实施方案中,靶多核酸可以是DNA(例如,靶DNA)。在一些实施方案中,靶多核酸可以是基因组DNA。在一些实施方案中,靶多核酸可以是核基因组DNA。在一些实施方案中,靶多核酸可以是细胞器基因组DNA。在一些实施方案中,靶多核酸可以是核基因组DNA和细胞器基因组DNA。
术语“人工靶位点”和“人工靶序列”在本文中可以互换使用,并且可以指已经引入植物基因组中的靶序列。此类人工靶序列在序列上可以与生物体基因组中的内源或天然靶序列相同,但是可以位于生物体基因组中的不同位置(即,非内源或非天然位置)。
“改变的靶位点”、“改变的靶序列”、“修饰的靶位点”、“修饰的靶序列”在本文中可以互换使用,并且可以指本文公开的与未改变的靶序列相比可以包含至少一个改变的靶序列。此类“改变”可以包括,例如:(i)至少一个核苷酸的替换,(ii)至少一个核苷酸的删除,(iii)至少一个核苷酸的插入,或(iv)(i)-(iii)的任何组合。
本文公开了用于修饰细胞器基因组靶位点的方法。
在一个实施方案中,一种用于修饰细胞器的基因组中的靶位点的方法可以包括将指导多核酸(例如,指导RNA、单指导RNA)引入植物细胞中。植物细胞可以包含多核苷酸指导的多肽(例如,Cas多肽)。指导多核酸和多核苷酸指导的多肽可以形成复合物,该复合体可以引导多核苷酸指导的多肽在靶位点引入单链或双链断裂。
还提供了一种用于修饰细胞器的基因组中的靶位点的方法。该方法可以包括将指导多核酸和多核苷酸指导的多肽(例如,Cas多肽)引入细胞器中。指导多核酸和多核苷酸指导的多肽可以形成复合物。该复合物可以引导多核苷酸指导的多肽在细胞器的基因组中的靶位点处引入单链或双链断裂。
进一步提供了一种用于修饰细胞器的基因组中的靶位点的方法。该方法可以包括将指导多核酸和供体多核苷酸(例如,供体DNA)引入细胞器中。细胞器可以包含多核苷酸指导的多肽(例如,Cas多肽)。指导多核酸和多核苷酸指导的多肽可以形成复合物,该复合物可以引导多核苷酸指导的多肽在靶位点引入单链或双链断裂。可以将供体多核苷酸插入基因组中的切割位点。
还提供了一种用于修饰细胞器的基因组中的靶位点的方法。该方法可以包括:a)将包含可变靶向结构域的指导多核酸和多核苷酸指导的多肽(例如,Cas多肽)引入细胞器中,其中所述指导多核酸和所述多核苷酸指导的多肽可以形成复合物,该复合物可以使多核苷酸指导的多肽在所述靶位点引入单链或双链断裂;以及b)识别在所述靶位点具有修饰的至少一个细胞器,其中该修饰包括在所述靶位点中的一个或多个核苷酸的至少一个删除或置换。
进一步提供了一种用于修饰细胞器的基因组中的靶多核酸(例如,靶DNA)序列的方法,该方法包括:a)将可表达指导多核酸的第一重组DNA构建体和可表达多核苷酸指导的多肽(例如,Cas多肽)的第二重组DNA构建体引入细胞器中,其中所述指导多核酸和所述多核苷酸指导的多肽可以形成复合物,该复合物可以使多核苷酸指导的多肽在所述靶位点引入单链或双链断裂;以及b)识别在所述靶位点具有修饰的至少一个细胞器,其中该修饰包括在所述靶位点中的一个或多个核苷酸的至少一个删除或置换。
靶位点的长度可以变化,并且包括例如长度为至少12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30个或更多个核苷酸的靶位点。靶位点可以是回文的,也就是说,一条链上的序列在互补链上的相反方向上读起来相同。切口/切割位点可以在靶序列内。切口/切割位点可以在靶序列外。在另一种变化中,切割可发生在直接彼此相对的核苷酸位置以产生平端切割,或者在其他情况下,切口可以交错以产生单链突出端,也称为“粘性末端”,其可以是5’突出端或3’突出端。
靶核酸序列可以是PAM的5’或3’。靶核酸序列可以是,例如,PAM的第一个核苷酸的5’紧邻的16、17、18、19、20、21、22或23个碱基。靶核酸序列可以是,例如,PAM的最后一个核苷酸的3’紧邻的16、17、18、19、20、21、22或23个碱基。靶核酸序列可以是PAM的第一个核苷酸5’紧邻的20个碱基。靶核酸序列可以是PAM的最后一个核苷酸的3’紧邻的20个碱基。
多核苷酸指导的多肽(例如,Cas蛋白)对靶核酸的位点特异性切割可发生在由指导核酸与靶核酸之间的碱基配对互补性确定的位置。多核苷酸指导的多肽(例如,Cas蛋白)对靶核酸的位点特异性切割可发生在由前间隔区邻近基序(PAM)确定的位置。例如,Cas(例如,Cas9)的切割位点可以是PAM序列上游或下游的约1至约25,或约2至约5,或约19至约23个碱基对(例如,3个碱基对)。在一些实施方案中,Cas(例如,Cas9)的切割位点可以是PAM序列上游的3个碱基对。在一些实施方案中,Cas(例如,Cpf1)的切割位点可以为在(+)链上的19个碱基和在(-)链上的23个碱基,从而产生长度为5nt的5’突出端。在一些情况下,切割可产生平端。在一些情况下,切割可产生具有5’突出端的交错或粘性末端。在一些情况下,切割可产生具有3’突出端的交错或粘性末端。
不同的生物体可以包含不同的PAM序列。不同的Cas蛋白可以识别不同的PAM序列。例如,在酿脓链球菌中,PAM可以是靶核酸中包含序列5’-XRR-3’的序列,其中R可以是A或G,其中X可以是任何核苷酸,并且X可以与间隔区序列所靶向的靶核酸序列的3’紧邻。酿脓链球菌Cas9(SpyCas9)的PAM序列可以是5’-XGG-3’,其中X可以是任何DNA核苷酸,并且可以与靶DNA非互补链的CRISPR识别序列的3’紧邻。Cpf1的PAM可以是5’-TTX-3’,其中X可以是任何DNA核苷酸,并且可以与CRISPR识别序列的5’紧邻。
也可以使用基因组靶位点的活性变体。此类活性变体可以包含与给定靶位点至少65%、70%、75%、80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或更多的序列同一性。活性变体可以保留生物学活性。活性变体可以被多核苷酸指导的多肽(例如,Cas蛋白)识别。活性变体可以被多核苷酸指导的多肽(例如,Cas蛋白)切割。可以使用测定法来测量由核酸内切酶产生的靶位点的双链断裂。测定法可以测量核酸内切酶对含有识别位点(例如,靶位点、活性变体)的DNA底物的总体活性和/或特异性。
整合供体多核苷酸的方法
本公开内容提供了获得包含供体多核苷酸的细胞器的方法。此类方法可以采用同源重组来提供多核苷酸在靶位点的整合。感兴趣的多核苷酸可以在供体DNA分子中提供给细胞器。
供体多核苷酸可以是可以整合到靶核酸(例如,细胞器基因组)中的核酸序列(例如DNA、RNA或两者)。供体多核苷酸可以插入基因组中,例如,在多核苷酸指导的多肽的切割位点处。供体多核苷酸可以通过同源重组插入基因组中。在一些实施方案中,供体多核苷酸可以包含DNA,并且可以被称为供体DNA。
可以将任何合适大小的供体多核苷酸整合到基因组中。在一些实施方案中,整合到基因组中的供体多核苷酸的长度可以小于3、为约3、3.5、4、4.5、5、5.5、6、6.5、7、7.5、8、8.5、9、9.5、10、10.5、11、11.5、12、12.5、13、13.5、14、14.5、15、16、17、18、19、20、25、30、35、40、45、50、100、150、200、250、300、350、400、450、500或大于500千碱基(kb)。在一些实施方案中,整合到基因组中的供体多核苷酸的长度可以为至少约2、2.5、3、3.5、4、4.5、5、5.5、6、6.5、7、7.5、8、8.5、9、9.5、10、10.5、11、11.5、12、12.5、13、13.5、14、14.5、15、16、17、18、19、20、25、30、35、40、45、50、100、150、200、250、300、350、400、450、500或大于500(kb)。在一些实施方案中,整合到基因组中的供体多核苷酸的长度可以为至多约3、3.5、4、4.5、5、5.5、6、6.5、7、7.5、8、8.5、9、9.5、10、10.5、11、11.5、12、12.5、13、13.5、14、14.5、15、16、17、18、19、20、25、30、35、40、45、50、100、150、200、250、300、350、400、450、500或大于500(kb)。
供体多核苷酸可以包含感兴趣的多核苷酸、多核苷酸修饰模板、异源表达盒或以上全部。供体多核苷酸(例如供体DNA)的侧翼可为第一和第二同源性区域。多核苷酸修饰模板可以是例如单个核苷酸改变,用以在细胞器基因组中产生不同的等位基因。供体多核苷酸(例如,供体DNA)的第一和第二同源性区域可以分别与存在于靶位点(例如,细胞器基因组的)中或侧翼的第一和第二基因组区域享有同源性。
“同源性”可以意指相似的DNA序列。同源性可以意指例如具有约:50%、55%、60%、65%、70%、75%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或100%的同源性或同一性的核酸序列。例如,“与基因组区域同源的区域”可以是具有与细胞器基因组中给定的“基因组区域”相似的序列的DNA区域。同源性区域可以具有能够足以促进在切割的靶位点处进行同源重组的任何长度。例如,同源性区域的长度可以包含至少5、10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、200、300、400、500、600、700、800、900、1000、1100、1200、1300、1400、1500、1600、1700、1800、1900、2000、2100、2200、2300、2400、2500、2600、2700、2800、2900、3000、3100或更多个碱基,使得同源性区域具有足够的同源性以与相应的基因组区域进行同源重组。“足够的同源性”可以指示两个多核苷酸序列可以具有足够的结构相似性以充当同源重组反应的底物。
供体多核苷酸(例如,供体DNA)可以包含表达盒(例如,编码感兴趣的异源多核苷酸)。供体多核苷酸可以包含多个表达盒。表达盒可以是多顺反子表达盒;例如,其中在单个启动子的控制下表达多个蛋白质编码区、功能RNA或两者的组合。
“供体RNA”可以是相应的RNA分子,其包含例如与供体DNA相同的核酸序列;即,用尿苷酸(“U”)代替脱氧胸苷酸(“T”)。“供体多核苷酸”可以是供体DNA或供体RNA,或DNA和RNA的组合。供体多核苷酸可以是单链或双链的。
修饰细胞器基因组的另一种方法可以是用“替代DNA”替换部分或全部细胞器DNA。可以通过使用位点特异性核酸内切酶如多核苷酸指导的多肽(例如,Cas多肽、Cas9多肽)来减少或消除内源细胞器DNA。同时或随后,可以引入替代DNA。术语“替代DNA”可以指当转化进入细胞器时可以表达新的基因型和相应的性状的细胞器DNA片段或完整细胞器DNA。术语“替代DNA”和“替代细胞器DNA”在本文中可以互换使用。在细胞器DNA片段的情况下,它们可以通过同源重组整合到剩余的内源细胞器DNA中。在完整细胞器DNA替换的情况下,可以从具有不同于受体细胞的内源细胞器DNA的DNA组合物的栽培种、品系、亚种和其他物种中分离替代DNA。在一些实施方案中,替代DNA可以包含在受体细胞器中具有DNA复制起点功能的DNA元件。
具有DNA复制起点功能的序列可以包含在本公开内容的组合物(例如,多核苷酸、构建体、盒)中。此类序列可以包括用于细胞器的复制起点。复制起点序列可以是质体复制起点(例如,质体rRNA基因间区域)序列。复制起点序列可以是线粒体复制起点序列。
如本文所用,“基因组区域”可以指例如细胞器的基因组中的染色体的片段。基因组区域可以存在于靶位点的任何一侧。基因组区域可以包含靶位点的一部分。基因组区域可以包含至少5、10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、200、300、400、500、600、700、800、900、1000、1100、1200、1300、1400、1500、1600、1700、1800、1900、2000、2100、2200、2300、2400、2500、2600、2700、2800、2900、3000、3100或更多碱基。基因组区域可以包含足够的同源性,以与相应的同源性区域进行同源重组。
供体多核苷酸、感兴趣的多核苷酸和/或性状可以在复杂性状基因座中堆叠在一起。指导多核苷酸/多肽系统可用于生成双链断裂并用于在复杂性状基因座中堆叠性状。
两个或更多个编码RNA和/或蛋白质的多核苷酸可以作为多顺反子单元包含在盒中。编码RNA的多核苷酸可以从单独的盒中表达。
在一个实施方案中,通过提供一个或多个指导多核苷酸、一个或多个多核苷酸指导的多肽(例如,Cas多肽)和任选的一个或多个针对植物细胞的供体多核苷酸(例如,供体DNA),可以使用指导多核苷酸/多肽系统将一个或多个供体多核苷酸或一个或多个感兴趣的性状引入一个或多个靶位点。可以从在细胞器DNA的所述一个或多个靶位点处包含改变的此细胞产生生物体,其中该改变可以选自:(i)至少一个核苷酸的替换,(ii)至少一个核苷酸的删除,(iii)至少一个核苷酸的插入,和(iv)(i)-(iii)的任何组合。
给定基因组区域与在供体多核苷酸(例如,供体DNA)侧翼的相应的同源性区域之间的结构相似性可以是允许同源重组发生的任何程度的序列同一性。例如,由在供体多核苷酸(例如,供体DNA)侧翼的“同源性区域”和植物基因组的“基因组区域”共享的同源性或序列同一性的量可以为至少50%、55%、60%、65%、70%、75%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或100%的序列同一性,以使这些序列进行同源重组
在供体多核苷酸(例如,供体DNA)侧翼的同源性区域可以与在靶位点侧翼的任何序列具有同源性。尽管在一些实施方案中,同源性区域与直接在靶位点的侧翼的基因组序列共享显著的序列同源性,但是同源性区域可以被设计为与在靶位点的更远的5’或3’处的区域具有足够的同源性。在其他实施方案中,同源性区域还可以与靶位点的片段以及下游基因组区域具有同源性。在一个实施方案中,第一同源性区域进一步包含靶位点的第一片段,而第二同源性区域包含靶位点的第二片段,其中第一片段和第二片段是不同的。
如本文所用,“同源重组”可以指在同源性位点处的两个DNA分子之间的DNA片段的交换。同源重组的频率可受许多因素影响。同源性区域的长度可以影响同源重组事件的频率,例如,同源性区域越长,频率越高。观察到同源重组所需的同源性区域的长度可以因物种而异。
分子间重组可以发生在质体中,例如,通过经由与转化载体上的侧翼序列进行同源重组而位点特异性地整合外源序列,可以形成转质体植物。
通过转化生成新的原质体系基因型可以依靠通过分子间同源重组(HR)的外源序列的整合。在机制上与基因转换相似,HR和修复途径可以参与随后的事件,这些事件产生同质的转质体细胞,并最终产生稳定的转质体植物。在野生型原质体系中重复序列之间的分子内或分子间重组可以,例如,当重复序列是回文时生成倒置,或当正向时生成缺失。HR蛋白质在损伤修复中的作用可能受到损害(例如,当引入外源DNA时)并且这是通过相关的组织培养和选择性压力,因为这些操作可能给重组机制带来额外的应激,从而导致意外事件。
在稻(Oryza)和拟南芥(Arabidopsis)的核基因组中识别出的DNA修复和重组基因中,分别约有19%和17%可以靶向质体。
质体定位的RecA(例如,来自豌豆(P.sativum))可以包含DNA链转移活性。RecA可与受损ptDNA的重组介导的修复有关。RecA1(AT1G79050)活性降低可导致ptDNA不稳定和减少。相对于野生型而言,突变品系中原质体系拷贝数的减少可表明RecA1可参与重组介导的复制。
本公开内容的方法可以使用任何合适的质体酶用于同源DNA重组途径。质体中同源重组的优势可以归因于单链DNA结合蛋白的whirly家族中定位于质体的成员对非常规重组的抑制。可以通过增加HR途径成员来优化细胞中的HR活性。
为了通过同源重组实现有效的外源序列整合,内源性原质体系序列可用于靶向插入。重组速率与序列同源性的长度和/或程度之间可以存在正相关。
用于质体转化的最小侧翼序列长度可以在表达盒的任一侧上小至400bp,并且足以以合理的频率获得转化。在表达盒的任一侧上,靶向序列可延伸1到1.5kb。
非同源末端连接(NHEJ)可以是真核细胞核中的主要DNA修复途径。NHEJ还可以在细菌和植物线粒体中具有活性。在一些情况下,NHEJ可以不出现在被子植物质体中。NHEJ产物可以在拟南芥中产生。在一些情况下,可以检测到I-CreII活性后低频率的NHEJ对DSB的修复。NHEJ修复事件占Whirly敲除品系中重排产物的17%。NHEJ可以发生在质体中。NHEJ可以是在数量上次要的途径。
本公开内容的方法可以使用同源性引导的修复(HDR)或NHEJ。在一些实施方案中,可以使用HDR。在一些实施方案中,可以通过例如增加HDR中涉及的蛋白质和酶的表达来增加HDR的效率。在一些实施方案中,可以通过例如靶向NHEJ中涉及的基因和/或蛋白质(例如,DNA连接酶)来降低NHEJ的效率。
在一些实施方案中,所公开的用于基因组工程化或修饰的方法的效率可以为约20%、25%、30%、35%、40%、45%、50%、55%、60%、65%、70%、75%、80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%、99.5%、99.9%或100%。
在本文提供的一个实施方案中,该方法可以包括使植物细胞的细胞器与供体多核苷酸(例如,供体DNA)、指导多核酸和多核苷酸指导的多肽接触。可以通过多核苷酸指导的多肽将至少一个单链或双链断裂引入靶位点,在供体多核苷酸(例如,供体DNA)侧翼的第一和第二同源性区域可以与其相应的基因组同源性区域进行同源重组,导致供体与基因组之间交换DNA。照此,所提供的方法可以导致供体多核苷酸(例如,供体DNA)整合到细胞器基因组的靶位点中的单链或双链断裂中,从而改变原始靶位点并产生改变的基因组靶位点。
供体多核苷酸(例如,供体DNA)可以通过任何合适的方式引入。例如,可以提供具有靶位点的植物。供体多核苷酸(例如,供体DNA)可以通过任何合适的转化方法提供,包括例如农杆菌介导的转化或生物弹射粒子轰击。供体多核苷酸(例如,供体DNA)可以瞬时存在于细胞中,或者可以通过病毒复制子引入。在指导多核苷酸(例如,指导RNA)、多核苷酸指导的多肽(例如,Cas多肽)和靶位点的存在下,可以将供体多核苷酸(例如,供体DNA)插入细胞器基因组中。
供体多核苷酸可以反映商业市场。供体多核苷酸可以反映用于作物生长的性状。感兴趣的作物和市场可以变化,并且随着发展中国家开放世界市场,新的作物和技术也可以出现。此外,随着对农艺性状和特性(诸如产量和杂种优势)的了解增加,用于转化的基因的选择也会随之改变。
调节基因表达的方法
在一些方面,提供了用于调节宿主细胞或细胞器中靶核酸(例如,基因)的表达(例如,转录)的方法。该方法可以涉及使靶核酸与无酶活性的Cas蛋白(例如,死亡的Cas)和指导多核酸接触。
在一些方面,本公开内容提供了选择性地调节靶核酸在宿主细胞中的转录的方法。该方法可以涉及将无酶活性的Cas蛋白(例如,死亡的Cas)和指导多核酸引入宿主细胞中。指导核酸和死亡的Cas蛋白可以在宿主细胞中形成复合物。该复合物可以选择性地调节在宿主细胞或细胞器中靶多核酸(例如,靶DNA)的转录。
在一些方面,本公开内容提供了在宿主细胞中靶核酸的选择性转录调节(例如,减少或增加)。靶核酸的转录的选择性调节可以减少或增加靶核酸的转录,但是可以不实质性地调节非靶核酸或脱靶核酸的转录,例如,与在不存在指导核酸/无酶活性或酶活降低的Cas蛋白复合物的条件下的非靶核酸的转录水平相比,非靶核酸的转录可以被调节小于1%、小于5%、小于10%、小于20%、小于30%、小于40%或小于50%。例如,与在不存在指导核酸/无酶活性或酶活降低的Cas蛋白复合物的条件下的靶核酸的转录水平相比,靶核酸的转录的选择性调节(例如,减少或增加)可以使靶核酸的转录减少或增加至少约10%、至少约20%、至少约30%、至少约40%、至少约50%、至少约60%、至少约70%、至少约80%、至少约90%或大于90%。
在一些方面,本公开内容提供了用于增加靶核酸的转录的方法。与在不存在指导核酸/无酶活性或酶活降低的Cas蛋白复合物的条件下的靶多核酸(例如,靶DNA)的转录水平相比,靶核酸的转录可以增加至少约1.1倍、至少约1.2倍、至少约1.3倍、至少约1.4倍、至少约1.5倍、至少约1.6倍、至少约1.7倍、至少约1.8倍、至少约1.9倍、至少约2倍、至少约2.5倍、至少约3倍、至少约3.5倍、至少约4倍、至少约4.5倍、至少约5倍、至少约6倍、至少约7倍、至少约8倍、至少约9倍、至少约10倍、至少约12倍、至少约15倍、至少约20倍、至少约50倍、至少约70倍或至少约100倍。选择性地增加靶核酸的转录会增加靶核酸的转录,但可以不实质性地增加非靶多核酸的转录,例如,与在不存在指导核酸/无酶活性或酶活降低的Cas蛋白复合物的条件下的非靶DNA的转录水平相比,非靶核酸的转录如有增加,则可增加小于约5倍、小于约4倍、小于约3倍、小于约2倍、小于约1.8倍、小于约1.6倍、小于约1.4倍、小于约1.2倍或小于约1.1倍。
在一些方面,本公开内容提供了用于减少靶核酸的转录的方法。与在不存在指导核酸/无酶活性或酶活降低的Cas蛋白复合物的条件下的靶多核酸(例如,靶DNA)的转录水平相比,靶核酸的转录可以减少至少约1.1倍、至少约1.2倍、至少约1.3倍、至少约1.4倍、至少约1.5倍、至少约1.6倍、至少约1.7倍、至少约1.8倍、至少约1.9倍、至少约2倍、至少约2.5倍、至少约3倍、至少约3.5倍、至少约4倍、至少约4.5倍、至少约5倍、至少约6倍、至少约7倍、至少约8倍、至少约9倍、至少约10倍、至少约12倍、至少约15倍、至少约20倍、至少约50倍、至少约70倍或至少约100倍。选择性地减少靶核酸的转录会减少靶核酸的转录,但可以不实质性地减少非靶DNA的转录,例如,与在不存在指导核酸/无酶活性或酶活降低的Cas蛋白复合物的条件下的非靶DNA的转录水平相比,非靶核酸的转录如有减少,则可减少小于约5倍、小于约4倍、小于约3倍、小于约2倍、小于约1.8倍、小于约1.6倍、小于约1.4倍、小于约1.2倍或小于约1.1倍。
可以通过将无酶活性的Cas蛋白与异源序列融合来实现转录调节。异源序列可以是合适的融合伴侣,例如,通过直接作用于靶核酸或作用于与靶核酸相关联的多肽(例如,组蛋白或其他DNA结合蛋白)而提供间接增加、减少或以其他方式调节转录的活性的多肽。合适的融合伴侣的非限制性实例包括提供甲基转移酶活性、脱甲基酶活性、乙酰转移酶活性、脱乙酰酶活性、激酶活性、磷酸酶活性、泛素连接酶活性、去泛素化活性、腺苷酸化活性、脱腺苷酸化活性、苏素化活性、去苏素化活性、核糖基化活性、去核糖基化活性、豆蔻酰化活性或脱豆蔻酰化活性的多肽。
合适的融合伴侣可以包括直接提供靶核酸的增加的转录的多肽。例如,转录激活因子或其片段、募集转录激活因子的蛋白质或其片段,或小分子/药物响应性转录调节因子。合适的融合伴侣可以包括直接提供靶核酸的减少的转录的多肽。例如,转录阻遏物或其片段、募集转录阻遏物的蛋白质或其片段,或小分子/药物响应性转录调节因子。
异源序列或融合伴侣可以与死亡的Cas蛋白的C-末端、N-末端或内部部分(即,除N-或C-末端以外的部分)融合。
递送方法
可以用任何合适的递送方法将本公开内容的组合物和分子引入宿主细胞或细胞器中。该组合物(例如,Cas蛋白、多核苷酸指导的多肽、指导多核酸、供体多核苷酸)可以同时或暂时单独地递送。基因修饰方法的选择可以取决于被转化的细胞的类型和/或发生转化的环境(例如,体外、离体或体内)。
一种递送方法可以涉及接触靶多核苷酸或将一个或多个包含编码本公开内容的组合物的核苷酸序列的核酸引入细胞(或细胞群)中。包含编码本公开内容的组合物的核苷酸序列的合适核酸可以包括表达载体,其中包含编码本公开内容的一个或多个组合物的核苷酸序列的表达载体可以是重组表达载体。
递送方法或转化的非限制性实例包括,例如,病毒或噬菌体感染、转染、缀合、原生质体融合、脂质转染、电穿孔、磷酸钙沉淀、聚乙烯亚胺(PEI)介导的转染、DEAE-葡聚糖介导的转染、脂质体介导的转染、粒子枪技术、磷酸钙沉淀、直接显微注射和纳米粒子介导的核酸递送。
在一些方面,本公开内容提供了包括方法,其包括将一个或多个多核苷酸,或本文所述的一个或多个载体,或其一个或多个转录物和/或从其转录的一个或多个蛋白质递送至宿主细胞或细胞器。在一些方面,本公开内容进一步提供了通过此类方法产生的细胞,以及包含此类细胞或由此类细胞产生的生物体(诸如动物、植物或真菌)和细胞器。在一些实施方案中,可以将与指导序列组合并且任选地与指导序列复合的Cas蛋白递送至细胞或细胞器。
基于病毒和非病毒的基因转移方法可用于引入核酸。此类方法可用于将编码本公开内容的组合物的核酸施用于培养中或宿主生物体中的细胞。非病毒载体递送系统可以包括DNA质粒、RNA(例如本文所述载体的转录物)、裸核酸以及与诸如脂质体的递送载体复合的核酸。病毒载体递送系统可以包括DNA和RNA病毒,其在递送至细胞后可以具有游离或整合的基因组。
核酸的非病毒递送的方法可以包括脂质转染、核转染、显微注射、生物弹射、病毒体、脂质体、免疫脂质体、聚阳离子或脂质:核酸缀合物、裸DNA、人工病毒粒子以及试剂增强的DNA吸收。可以使用适合于多核苷酸的有效受体识别脂质转染的阳离子脂质和中性脂质。可以递送至细胞(例如体外或离体施用)或靶组织(例如体内施用)。可以使用脂质:核酸复合物的制备,包括诸如免疫脂质复合物的靶向脂质体。
基于RNA或DNA病毒的系统可用于靶向特定细胞并将病毒有效负载运输至细胞的细胞器。病毒载体可以直接(体内)施用,或者其可以用于体外处理细胞,并且修饰的细胞可以任选地(离体)施用。基于病毒的系统可以包括用于基因转移的逆转录病毒、慢病毒、腺病毒、腺相关病毒和单纯疱疹病毒载体。采用逆转录病毒、慢病毒和腺相关病毒基因转移方法可以发生宿主基因组中的整合,从而导致插入的转基因长期表达。可以在许多不同的细胞类型和靶组织中观察到高转导效率。
可以通过掺入外源包膜蛋白来改变逆转录病毒的向性,从而扩大靶细胞的潜在靶群体。慢病毒载体是可以转导或感染非分裂细胞并产生高病毒滴度的逆转录病毒载体。逆转录病毒基因转移系统的选择可以取决于靶组织。逆转录病毒载体可以包含顺式作用的长末端重复序列,其包装能力为多达6-10kb的外源序列。最小顺式作用LTR可以足以复制和包装载体,其可用于将治疗性基因整合到靶细胞中以提供永久性转基因表达。逆转录病毒载体可以包括基于鼠白血病病毒(MuLV)、长臂猿白血病病毒(GaLV)、猿猴免疫缺陷病毒(SIV)、人免疫缺陷病毒(HIV)及其组合的载体。
可以使用基于腺病毒的系统。基于腺病毒的系统可以导致转基因的瞬时表达。基于腺病毒的载体可以在细胞中具有高转导效率,并且可以不需要细胞分裂。可以用基于腺病毒的载体获得较高的滴度和表达水平。腺相关病毒(“AAV”)载体可用于例如在核酸和肽的体外生产中以及在体内和离体基因治疗程序中用靶核酸转导细胞。
包装细胞可用于形成可感染宿主细胞的病毒颗粒。此类细胞可以包括293细胞(例如,用于包装腺病毒)和.psi.2细胞或PA317细胞(例如,用于包装逆转录病毒)。病毒载体可以由产生将核酸载体包装到病毒颗粒中的细胞系来生成。载体可以包含包装和随后整合入宿主中所需的最小病毒序列。载体可以包含由用于待表达的多核苷酸的表达盒替换的其他病毒序列。缺失的病毒功能可以通过包装细胞系反式提供。例如,AAV载体可以包含来自AAV基因组的ITR序列,该ITR序列是包装和整合到宿主基因组中所需要的。病毒DNA可以包装在细胞系中,该细胞系可以包含编码其他AAV基因(即rep和cap)而缺少ITR序列的辅助质粒。该细胞系也可以被作为辅助的腺病毒感染。辅助病毒可以促进AAV载体的复制和来自辅助质粒的AAV基因的表达。腺病毒的污染可以通过例如热处理来减少,腺病毒对热处理可能比AAV更敏感。可以使用用于将核酸递送至细胞的其他方法,例如US20030087817中所述的方法,其通过引用并入本文。
可以用本文所述的一个或多个载体瞬时或非瞬时地转染宿主细胞。细胞可以以自然发生在受试者体内的方式而被转染。细胞可以取自或衍生自受试者并被转染。细胞可以衍生自取自受试者的细胞,诸如细胞系。在一些实施方案中,用本文所述的一个或多个载体转染的细胞可用于建立包含一个或多个载体衍生的序列的新细胞系。在一些实施方案中,用本公开内容的组合物瞬时转染(诸如通过一个或多个载体的瞬时转染,或用RNA转染)并通过CRISPR复合物的活性修饰的细胞可用于建立包含含有修饰但缺乏任何其他外源序列的细胞的新细胞系。
与宿主细胞相容的任何合适的载体均可以与本公开内容的方法一起使用。载体的非限制性实例包括pXT1、pSG5(StratageneTM)、pSVK3、pBPV、pMSG和pSVLSV40(PharmaciaTM)。
在一些实施方案中,编码指导核酸和/或Cas蛋白的核苷酸序列可以可操作地连接至控制元件,例如,转录控制元件,诸如启动子。在一些实施方案中,编码指导核酸和/或Cas蛋白的核苷酸序列可以可操作地连接至多个控制元件,该多个控制元件允许编码指导核酸和/或Cas蛋白或嵌合体的核苷酸序列的表达。
取决于所使用的宿主/载体系统,可以在表达载体中使用许多合适的转录和翻译控制元件中的任何一种,包括组成型和诱导型启动子、转录增强子元件、转录终止子等(例如,U6启动子,H1启动子等;请参见上文)。
在一些实施方案中,本公开内容的组合物可以作为RNA提供。在此类情况下,本公开内容的组合物可以通过直接化学合成来产生,或者可以从DNA体外转录。可以使用RNA聚合酶(例如,T7聚合酶、T3聚合酶、SP6聚合酶等)在体外合成本公开内容的组合物。一旦合成,RNA可以直接接触靶多核酸(例如,靶DNA),或者可以使用用于将核酸引入细胞的任何合适的技术(例如,显微注射、电穿孔、转染等)引入细胞。
可以使用合适的转染技术将编码指导核酸(以DNA或RNA引入)和/或Cas蛋白(以DNA或RNA引入)的核苷酸提供给细胞。可以在载体或盒(例如,DNA载体)上提供编码本公开内容的组合物的核酸。可用于将核酸转移到靶细胞中的载体有多种,例如,质粒、粘粒、小环、噬菌体、病毒等。包含该核酸的载体可以维持游离,例如,作为质粒、小环DNA、病毒诸如巨细胞病毒、腺病毒等,或者它们可以通过同源重组或随机整合整合到靶细胞基因组中,例如逆转录病毒衍生的载体,诸如MMLV、HIV-1和ALV。
可以将Cas蛋白作为多肽提供给细胞。此类蛋白可以任选地与增加产物溶解度的多肽结构域融合。该结构域可以通过确定的蛋白酶切割位点连接至多肽,该切割位点是例如可以被TEV蛋白酶切割的TEV序列。接头也可以包括一个或多个柔性序列,例如,从1至10个甘氨酸残基。在一些实施方案中,融合蛋白的切割可以在维持产物的溶解度的缓冲液中进行,例如,在0.5至2M尿素的存在下,在增加溶解度的多肽和/或多核苷酸的存在下,等等。感兴趣的结构域包括内溶酶结构域,例如,流感HA域;和其他有助于生产的多肽,例如IF2域、GST域、GRPE域等。可以配制多肽以提高稳定性。例如,肽可以被聚乙二醇化,其中聚氧乙烯基团提供了在血流中延长的寿命。
本公开内容的组合物可以与多肽渗透结构域融合以促进细胞摄取。许多渗透结构域可用于本公开内容的非整合多肽,包括肽、模拟肽和非肽载体。例如,渗透肽可以衍生自黑腹果蝇转录因子触角足蛋白的第三α螺旋,其称为penetratin且包含氨基酸序列RQIKIWFQNRRMKWKK。作为另一个实例,渗透肽可以包含HIV-1tat碱性区域氨基酸序列,该序列可以包括例如天然存在的tat蛋白的氨基酸49-57。其他渗透结构域可以包括聚精氨酸基序,例如HIV-1rev蛋白的氨基酸34-56、九聚精氨酸和八聚精氨酸的区域。可以使用九聚精氨酸(R9)序列。可以选择可以进行融合的位点,以优化多肽的生物学活性、分泌或结合特性。
本公开内容的组合物可以在体外或由宿主细胞产生,并且可以通过展开例如热变性、DTT还原等来进一步加工,并且可以进一步重折叠。
可以通过体外合成来制备本公开内容的组合物。可以使用各种商业合成设备。通过使用合成仪,天然存在的氨基酸可以被非天然氨基酸置换。特定的顺序和制备方式可通过所需的便利性、经济性和纯度来确定。
本公开内容的组合物也可以根据重组合成方法来分离和纯化。可以制备表达宿主的裂解物,并使用HPLC、排阻色谱、凝胶电泳、亲和色谱或其他纯化技术纯化裂解物。相对于与产品制备和纯化方法有关的污染物,组合物可以占例如所需产物的至少20wt%、至少约75wt%、至少约95wt%,而用于治疗目的,则占例如至少约99.5wt%。百分比可以基于总蛋白。
本公开内容的组合物,无论是以核酸还是多肽形式引入,都可以提供至细胞持续约30分钟至约24小时,例如,1小时、1.5小时、2小时、2.5小时、3小时、3.5小时、4小时、5小时、6小时、7小时、8小时、12小时、16小时、18小时、20小时或从约30分钟至约24小时的其他任何时间段,其可以以每天至约每4天的频率重复,例如,以每1.5天、每2天、每3天或从约每天到约每4天的其他任何频率重复。可以将组合物一次或更多次提供至受试者细胞,例如一次、两次、三次或超过三次,并且在每次接触事件之后,允许细胞与试剂一起温育一段时间,例如16-24小时,此后可用新鲜介质替换该介质并进一步培养细胞。
在向细胞提供两种或更多种不同的靶向复合物(例如,与相同或不同的靶多核酸(例如,靶DNA)内的不同序列互补的两种不同的指导核酸)的情况下,该复合物可以同时提供(例如,作为两种多肽和/或核酸)或同时递送。可替代地,它们可以被相继地提供,例如首先提供靶向复合体,然后提供第二靶向复合体,依此类推,反之亦然。
可以将有效量的本公开内容的组合物提供至靶多核酸(例如,靶标DNA)或细胞。有效量可以是例如相对于阴性对照(例如与空载体或无关多肽接触的细胞),诱导出在两个同源序列之间观察到的靶核酸调节(例如,表达)的量的至少约2倍或更多的变化(增加或减少)的量。有效的量或剂量可以诱导靶基因调节(例如,表达)的例如约2倍的变化、约3倍的变化、约4倍的变化、约7倍、约8倍的增加、约10倍、约50倍、约100倍、约200倍、约500倍、约700倍、约1000倍、约5000倍或约10000倍的变化。靶基因调节的量可以通过任何合适的方法来测量。
使细胞与本公开内容的组合物接触可以在任何培养基中和在任何促进细胞存活的培养条件下发生。例如,细胞可以悬浮在任何合适的营养介质中。培养物可以包含细胞对其有响应的生长因子。生长因子可以是可以例如通过对跨膜受体的特异性作用来促进细胞(例如,在培养物中、在完整组织中)存活、生长和/或分化的分子。生长因子可以包括多肽和非多肽因子。
在许多实施方案中,所选择的递送系统可以靶向特定的细胞类型。在一些情况下,可以通过将递送系统与组织或细胞特异性标记物如细胞表面蛋白结合,来实现递送系统的组织或细胞靶向。可以定制病毒和非病毒递送系统,以靶向感兴趣的组织或细胞类型。
使用多核苷酸指导的多肽系统的基因组编辑
如本文所述,多核苷酸指导的多肽系统可以与共递送的多核苷酸修饰模板结合使用,以允许编辑感兴趣的细胞器核苷酸序列。同样,如本文所述,对于使用RNA指导的多肽系统的每个实施方案,可以部署相似的多核苷酸指导的多肽系统,其中指导多核苷酸可以不仅包含核糖核酸,而是其中指导多核苷酸包含RNA-DNA分子的组合或仅包含DNA分子。
基因组修饰方法可以依靠同源重组系统。同源重组(HR)可以提供用于寻找感兴趣的基因组DNA序列并根据实验规范对其进行修饰的分子手段。通过在选定的核酸内切酶靶位点引入双链断裂(DSB),可以增强同源重组。本文描述了多核苷酸指导的多肽系统的用途,该系统可以提供灵活的基因组切割特异性,并且可以在细胞器DNA靶位点导致高频率的双链断裂。该特异性切割可以实现对感兴趣的核苷酸序列的有效基因编辑。待编辑的感兴趣的核苷酸序列可以位于由多核苷酸指导的多肽(例如,Cas多肽)识别和/或切割的靶位点的内部或外部。
术语“多核苷酸修饰模板”可以指与待编辑的核苷酸序列相比可以包含至少一个核苷酸修饰的多核苷酸。核苷酸修饰可以是至少一个核苷酸置换、添加或缺失。通过使用多核苷酸修饰模板产生的较小基因组修饰的实例包括突变等位基因(例如,抗生素耐受性rRNA基因)的产生和用于多核苷酸指导的多肽的靶位点的去除。任选地,多核苷酸修饰模板的侧翼可以为同源核苷酸序列,其中侧翼的同源核苷酸序列可以提供与待编辑的期望核苷酸序列的足够同源性。多核苷酸修饰模板可以是供体多核苷酸。
在一个实施方案中,本公开内容提供了一种用于编辑细胞的细胞器基因组中的核苷酸序列的方法。该方法可以包括向细胞器提供指导多核苷酸(例如,指导RNA)、多核苷酸修饰模板和至少一个多核苷酸指导的多肽(例如,Cas多肽)。多核苷酸指导的多肽可以在细胞的细胞器基因组中的靶序列处引入单链或双链断裂。多核苷酸修饰模板可以包括所述核苷酸序列的至少一个核苷酸修饰。细胞包括但不限于通过本文所述的方法产生的人、动物、细菌、真菌、昆虫和植物的细胞,以及生物体和组织,例如植物和种子。细胞可以是分离和纯化的人细胞。待编辑的核苷酸可以位于由多核苷酸指导的多肽识别和切割的靶位点的内部或外部。在一个实施方案中,至少一个核苷酸修饰可以不是在由多核苷酸指导的多肽识别和切割的靶位点处的修饰。在另一个实施方案中,在至少一个待编辑的核苷酸与细胞器DNA靶位点之间可以存在至少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、30、40、50、100、200、300、400、500、600、700、900或1000个核苷酸。
在另一个实施方案中,本公开内容提供了一种用于编辑细胞的细胞器基因组中的核苷酸序列的方法。该方法可以包括向细胞器提供指导多核苷酸(例如,指导RNA)、多核苷酸修饰模板和至少一个多核苷酸指导的多肽(例如,Cas多肽),其中所述指导多核苷酸和所述多核苷酸指导的多肽可以形成复合物,该复合物可以使多核苷酸指导的多肽在细胞器靶位点处引入单链或双链断裂,其中所述多核苷酸修饰模板包含所述核苷酸序列的至少一个核苷酸修饰。
在另一个实施方案中,本公开内容提供了一种用于编辑植物细胞的细胞器基因组中的核苷酸序列的方法。该方法可以包括将指导多核苷酸(例如,指导RNA)、多核苷酸修饰模板和至少一个细胞器密码子优化的多核苷酸指导的多肽(例如,Cas9多肽)引入细胞器中,其中该细胞器优化的多核苷酸指导的多肽可以在细胞器靶序列处引入单链或双链断裂,其中所述多核苷酸修饰模板包含所述核苷酸序列的至少一个核苷酸修饰。
待编辑的核苷酸序列可以是对于被编辑的细胞可以是内源的、人工的、预先存在的或转基因的的序列。例如,细胞的细胞器基因组中的核苷酸序列可以是被稳定地掺入到细胞的细胞器基因组中的转基因。此类转基因的编辑可导致更期望的表型或基因型。细胞的基因组中的核苷酸序列也可以是突变的或预先存在的序列,其是内源的或人工的,来源于例如内源基因或感兴趣的突变基因。
在一个实施方案中,感兴趣的区域的侧翼可以为两个独立的指导多核苷酸/多肽靶序列。切割可以同时进行。删除事件可以是没有感兴趣区域的两个染色体末端的修复。替代的结果可以包括感兴趣区域的倒置、切割位点处的突变以及感兴趣区域的复制。
用于识别在细胞器基因组中包含整合在靶位点的感兴趣多核苷酸的至少一个植物细胞的方法。
进一步提供了用于识别在细胞器基因组中包含整合在靶位点的感兴趣多核苷酸的至少一个植物细胞的方法。供体多核苷酸可以包含感兴趣的多核苷酸。感兴趣的多核苷酸可以整合在细胞的靶位点(例如,基因组)处。在不使用筛选标记表型的情况下,可以使用多种方法来识别那些在基因组中的靶位点处或附近具有插入的植物细胞。此类方法可以看作直接分析靶序列以检测靶序列中的任何变化,包括但不限于PCR方法、测序方法、核酸酶消化、DNA印迹及其任何组合。
该方法还可以包括从包含整合到其细胞器基因组中的感兴趣多核苷酸的植物细胞恢复植物。该植物可以是不育的或可育的。任何感兴趣的多核苷酸均可以提供,在靶位点处整合到植物细胞器基因组中,并在植物中表达。
感兴趣的多核苷酸可以反映商业市场和参与该作物生长的人群的利益。感兴趣的作物和市场会变化,并且随着发展中国家开放世界市场,新的作物和技术也可以出现。此外,随着我们对农艺性状和特性(诸如产量、胁迫耐受性和杂种优势)的了解增加,用于转化的基因的选择也会随之改变。
感兴趣的多核苷酸/多肽包括但不限于除草剂耐受性编码序列、杀虫编码序列、杀线虫编码序列、抗微生物编码序列、抗真菌编码序列、抗病毒编码序列、非生物和生物胁迫耐受性编码序列,或修饰植物性状(诸如产量、谷粒品质、营养含量、淀粉质和量、氮固定和/或利用以及油含量和/或组成)的序列。感兴趣的多核苷酸可以包括但不限于提高作物产量的基因、提高作物理想性的多肽、编码赋予对非生物胁迫(诸如干旱、氮、温度、盐度、有毒金属或微量元素)的耐受性的蛋白质的基因,或赋予对毒素(诸如杀虫剂和除草剂)或生物胁迫(诸如真菌、病毒、细菌、昆虫和线虫的侵袭)以及与这些生物体有关的疾病的发展的耐受性的那些蛋白质的基因。感兴趣的基因可以包括,例如,涉及信息的那些基因,诸如锌指,涉及通讯的那些基因,诸如激酶,以及涉及持家的那些基因,诸如热休克蛋白。感兴趣的多核苷酸可以包括编码对于农业经济学、抗虫性、疾病耐受性、除草剂耐受性、可育性或不育性、谷粒特性和商业产品的重要性状的基因。感兴趣的基因通常可以包括涉及油、淀粉、碳水化合物或营养物质代谢的那些基因,以及影响光合作用、光呼吸和ATP代谢的那些基因。
商业性状也可通过编码在多核苷酸上的蛋白质的表达而获得。转化植物的商业用途可以是聚合物和生物塑料的产生。感兴趣的多核苷酸可以包括基因诸如β-酮硫解酶、PHB酶(聚羟基丁酸酯合酶)和乙酰乙酰辅酶A还原酶,其可以促进聚羟基脂肪酸酯(PHA)的表达。
可影响氨基酸生物合成的多核苷酸/多肽包括,例如,邻氨基苯甲酸合酶(AS;EC4.1.3.27),该酶可催化在植物、真菌和细菌中从芳香族氨基酸途径分支到色氨酸生物合成的第一反应。在植物中,色氨酸生物合成的化学过程可以局限在叶绿体中。另外的感兴趣的供体序列可以包括分支酸丙酮酸裂合酶(CPL),其可以指编码可以催化分支酸转化为丙酮酸和pHBA的酶的基因。CPL基因的一个实例来自大肠杆菌,并具有GenBank登录号M96268。
感兴趣的多核苷酸序列可以编码涉及提供疾病耐受性或抗虫性的蛋白质。“疾病耐受性”或“抗虫性”可以意指植物可以避免作为植物-病原体相互作用的结果的有害症状。抗虫性基因可以编码对具有高产量阻碍的害虫(诸如根虫、切根虫、欧洲玉米螟等)的耐受性。用于抗菌保护的疾病耐受性和抗虫性基因,诸如溶菌酶或天蚕素(cecropin),或用于抗真菌保护的蛋白质,诸如防卫素、葡聚糖酶或几丁质酶,或用于控制线虫或昆虫的苏云金芽孢杆菌内毒素、蛋白酶抑制剂、胶原酶、凝集素或糖苷酶都是有用的基因产物的实例。编码疾病耐受性性状的基因包括解毒基因,诸如针对烟曲霉毒素的解毒基因;无毒力(avr)和疾病耐受性(R)基因;等等。抗虫性基因可以编码对具有高产量阻碍的害虫(诸如根虫、切根虫、欧洲玉米螟等)的耐受性。此类基因包括,例如,苏云金芽孢杆菌毒性蛋白基因;等等。
“除草剂耐受性蛋白”或由“编码除草剂耐受性的核酸分子”的表达产生的蛋白质可以包括赋予细胞比不表达该蛋白质的细胞耐受更高浓度的除草剂的能力,或赋予比不表达该蛋白质的细胞耐受一定浓度的除草剂更长时间的能力的蛋白质。可以通过编码对具有抑制乙酰乳酸合酶(ALS)的作用的除草剂(例如磺酰脲类除草剂)具有耐受性的基因,编码对具有可以抑制谷氨酰胺合酶的作用的除草剂(诸如膦丝菌素或basta(例如,bar基因),草甘膦(例如,EPSP合酶基因和GAT基因)、HPPD抑制剂(例如,HPPD基因))具有耐受性的基因或其他此类基因,来将除草剂耐受性性状引入植物。bar基因可以编码对除草剂basta的耐受性,aadA可以编码对奇霉素和链霉素的耐受性,nptII基因可以编码对抗生素卡那霉素和遗传霉素的耐受性,而一些ALS基因突变体可以编码对除草剂氯磺隆的耐受性。
不育性基因也可以编码在表达盒中或整合到基因组中。不育性基因可以提供物理去雄的替代方法。以此类方式使用的基因的实例包括雄性可育性基因,诸如MS26、MS45或MSCA1。玉米植物(Zea mays L.)可以通过自花传粉和异花传粉技术进行育种。玉米可以在同一植物上有在雄穗上的雄花和在雌穗上的雌花。它可以自花传粉(“自交”)或异花传粉。当风将花粉从雄穗吹到从初生雌穗的顶部伸出的须时,玉米中可以发生自然授粉。授粉可以通过合适的方法容易地控制。玉米杂交种的开发可能需要开发纯合近交系,这些品系的杂交以及对杂交的评估。系谱育种和轮回选择是可用于从种群中开发近交系的两种育种方法。育种计划可以将来自两个或更多个近交系或广泛来源的理想性状组合到育种库中,通过自交和选择所需的表型而从中开发出新的近交系。玉米杂交品种可以是两个此类近交系的杂交,每个近交系可以具有一个或多个彼此缺乏或者可以相互补充的理想特性。新的近交系可以与其他近交系杂交,并且可以评估来自这些杂交的杂交种以确定哪些具有商业潜力。第一代的杂交后代可以称为F1。F1杂交种可能比其近交系亲本更有活力。这种杂交活力,或杂种优势,可以以多种方式体现出来,包括营养生长增加和产量提高。
可以通过结合有手动去雄的雄性不育系统产生杂交玉米种子。为了产生杂交种子,可以从正在生长的雌性近交系亲本中除去雄穗,该雌性近交系亲本可以与雄性近交系亲本以各种交替行模式种植。因此,如果与外来玉米花粉的来源有足够的隔离,雌性近交系的雌穗只能用雄性近交系的花粉受精。因此,所得种子可以是杂交种(F1),并且可以形成杂交植物。
影响植物发育的田间变化可以导致雌性亲本的手动去雄完成后的植物去雄。或者,在去雄过程中,雌性近交系植物雄穗可能无法完全去除。无论如何,结果可以是雌性植物可以成功散发花粉,并且一些雌性植物可以自花传粉。这可以导致雌性近交系的种子与可以正常产生的杂交种子一起被收获。雌性近交系种子可能没有杂种优势,因此可能不如F1种子高产。此外,雌性近交系种子的存在可以代表生产杂交种的公司的种质安全风险。
可替代地,雌性近交系可以通过机器机械去雄。机械去雄的可靠性可能与手动去雄大致相同,但是可以更快且成本更低。但是,大多数去雄机器可能对植物产生比手动去雄更大的伤害。因此,目前没有任何形式的去雄方法是完全令人满意的,并且对进一步降低生产成本并消除杂交种子生产中雌性亲本的自花传粉的替代方法的需求仍然存在。
一种在不进行机械去雄的情况下表达雄性不育的方法可以是使用细胞质雄性不育(CMS)基因。可以发现嵌合线粒体ORF导致雄性不育,从而产生单性雌性植物。本文所述的方法可用于将定制设计的CMS ORF引入玉米优良近交系的线粒体中。另外,这些方法可以提供将CMS系统引入其他作物(例如,水稻、小麦和大豆)的方法。
供体多核苷酸还可编码可与来自植物害虫或植物病原体的靶基因互补的RNA或双链RNA。减轻植物的害虫侵害的方法可以包括,例如,a)从所述害虫中识别对其存活、生长、增殖或繁殖可以是关键的DNA序列,b)将所述序列或其片段克隆至相对于一个或多个启动子的合适的载体中,在适当的转录因子与所述启动子结合后,该启动子可将所述序列转录成RNA或dsRNA,和/或c)将所述载体引入植物中。植物害虫可以是线虫。用于减轻害虫侵害的另一种方法可以包括,例如,提供:a)DNA序列,其在转录时产生可减少吸取植物汁液的昆虫的必需基因表达的双链RNA分子;b)使用此类DNA序列和用此类DNA序列转化的植物或植物细胞的方法;以及c)促进dsRNA或siRNA分子进入昆虫细胞(诸如吸取植物汁液的昆虫的细胞)的阳离子寡肽的使用。
供体多核苷酸可以包含和/或导致与用于感兴趣的靶基因序列(例如,来自植物害虫或植物病原体的靶基因)的信使RNA(mRNA)的至少一部分互补的反义序列的表达。可以构建反义核苷酸以与相应的mRNA杂交。可以靶向反义核苷酸,以结合前mRNA上的剪接位点并修饰mRNA的外显子含量,从而调节(例如破坏)靶基因的表达。
可以进行反义序列的修饰,只要该序列与相应的mRNA杂交并干扰相应的mRNA的表达即可。以此类方式,可以使用与相应的反义序列具有70%、80%或85%的序列同一性的反义构建体。此外,反义核苷酸的部分可用于破坏靶基因的表达。通常,可以使用至少50个核苷酸、100个核苷酸、200个核苷酸或更长的序列。
供体多核苷酸也可以是表型标记。表型标记可以是筛选标记或选择标记,包括视觉标记和无论是正选择标记还是负选择标记的选择标记。可以使用任何表型标记。具体地,选择标记或筛选标记可以包含DNA片段,该DNA片段可以允许例如在特定条件下识别或选择或不选择含有该标记的分子或细胞。这些标记可以编码活性,诸如但不限于RNA、肽或蛋白质的生产,或者可以提供RNA、肽、蛋白质、无机和有机化合物或组合物等的结合位点。
选择标记的实例包括但不限于包含限制酶位点的DNA区段;编码提供对原本有毒化合物的耐受性的产物的DNA片段,该化合物包括抗生素,诸如奇霉素、氨苄青霉素、卡那霉素、四环素、Basta、新霉素磷酸转移酶II(NEO)和潮霉素磷酸转移酶(HPT);编码受体细胞中原本缺乏的产物的DNA区段(例如tRNA基因、营养缺陷型标记);编码可以容易地识别的产物的DNA区段(例如,表型标记,诸如β-半乳糖苷酶,GUS;荧光蛋白,诸如绿色荧光蛋白(GFP)、蓝绿色荧光蛋白(CFP)、黄色荧光蛋白(YFP)、红色荧光蛋白(RFP)和细胞表面蛋白);用于PCR的新引物位点的生成(例如,先前未并列的两个DNA序列的并列)、由限制性核酸内切酶或其他DNA修饰酶、化学试剂等作用于或不作用于的DNA序列的包含;以及,允许其识别的特定修饰(例如,甲基化)所需的DNA序列的包含。
另外的选择标记包括可以赋予对除草剂化合物的耐受性的基因,该除草剂化合物诸如草甘膦、磺酰脲、草丙膦铵、溴苯腈、咪唑啉酮和2,4-二氯苯氧乙酸(2,4-D)。
商业性状也可以编码在一个或多个可以增加例如用于乙醇生产的淀粉或提供蛋白质表达的基因上。转化植物的另一种重要用途可以是聚合物和生物塑料的生产。诸如β-酮硫解酶、PHB酶(聚羟基丁酸酯合酶)和乙酰乙酰辅酶A还原酶的基因可以促进聚羟基脂肪酸酯(PHA)的表达。
外源产物包括植物的酶和产物以及来自包括原核生物和其他真核生物在内的其他来源的那些酶和产物。此类产物包括酶、辅因子、激素等。可以增加蛋白质的水平,特别是具有改善的氨基酸分布以改善植物的营养价值的修饰的蛋白质的水平。这可以通过表达具有增强的氨基酸成分的此类蛋白质来实现。
转基因、重组DNA分子、感兴趣的DNA序列和供体多核苷酸可以包含一个或多个用于对靶基因(例如,植物害虫或植物病原体中的靶基因)进行基因沉默的DNA序列。用于涉及植物中DNA序列表达的基因沉默的方法可以包括但不限于共抑制、反义抑制、双链RNA(dsRNA)干扰、发夹RNA(hpRNA)干扰、含内含子的发夹RNA(ihpRNA)干扰、转录基因沉默和微RNA(miRNA)干扰。
在一个实施方案中,靶向突变可涉及使用双链断裂诱导剂,其可以诱导靶序列的DNA中的双链断裂。
在一个实施方案中,靶向突变可以是如本文所述的指导多核苷酸/多肽诱导的基因编辑的结果。指导多核苷酸/多肽诱导的靶向突变可以发生在核苷酸序列中,该核苷酸序列可以位于可由多核苷酸指导的多肽识别和切割的基因组靶位点之内或之外。
在一些实施方案中,可育植物可以是可以产生有活力的雄配子和雌配子并且可以自体能育的植物。此类自体能育植物可以产生后代植物,而没有任何其他植物的配子和其中包含的遗传物质的贡献。其他实施方案可涉及使用可以不是自体能育的植物,例如,因为该植物无法产生有活力或以其他方式能够受精的雄配子或雌配子或两者。如本文所用,“雄性不育植物”可以是不产生有活力或以其他方式能够受精的雄配子的植物。如本文所用,“雌性不育植物”可以是不产生有活力或以其他方式能够受精的雌配子的植物。雄性不育植物和雌性不育植物分别可以是雌性可育的和雄性可育的。雄性可育(但雌性不育)植物与雌性可育植物杂交时可产生有活力的后代,并且雌性可育(但雄性不育)植物与雄性可育植物杂交时可产生有活力的后代。
育种方法和利用两组分RNA指导和Cas多肽系统选择植物的方法
本公开内容可用于包含一个或多个转基因性状的植物的育种。由于基于农杆菌、生物弹射或其他合适程序的转化系统,转基因性状可随机插入整个植物基因组中。可以使用定向转基因插入。位点特异性整合(SSI)可以使转基因靶向与先前插入的转基因相同的染色体位置。定制设计的大范围核酸酶和定制设计的锌指大范围核酸酶可用于设计靶向特定的染色体位置的核酸酶,并且这些试剂可允许将转基因靶向由这些核酸酶切割的染色体位点。
使用归巢核酸内切酶、大范围核酸酶、锌指核酸酶和转录激活因子样效应物核酸酶(TALEN)对真核生物基因组(例如植物基因组)的遗传工程化可能需要对每个新的靶基因座进行从头蛋白质工程化。本文所述的高度特异性多核苷酸指导的多肽系统(例如,指导RNA/Cas多肽系统)可以更易于定制,并且当目标是修饰许多不同靶序列时可以更有用。多核苷酸指导的多肽系统可以是两组分系统,例如,具有其恒定的蛋白质组分——多核苷酸指导的多肽(例如,Cas多肽),及其可变且易于重编程的靶向组分——指导多核苷酸(例如,指导RNA或crRNA)。
在核酸内切酶脱靶切割可能对靶细胞有毒性的情况下,本文所述的多核苷酸指导的多肽系统对于基因组工程化特别有用。在本文所述的多核苷酸指导的多肽系统的一个实施方案中,恒定组分,即编码靶向细胞器的多核苷酸指导的多肽的多核苷酸,可以稳定地整合到细胞的核基因组中。该多核苷酸可以编码修饰的多核苷酸指导的多肽,该多肽包含与细胞器转运序列(例如,线粒体靶向肽或叶绿体靶向肽)融合的具有酶活性的多核苷酸指导的多肽(例如,Cas多肽)。编码修饰的多核苷酸指导的多肽的多核苷酸的表达可以在启动子的控制下。该启动子可以是组成型启动子,组织特异性启动子或诱导型启动子,例如温度诱导型、胁迫诱导型、发育阶段诱导型或化学诱导型的启动子。在没有可变组分(例如,指导RNA或crRNA)的情况下,多核苷酸指导的多肽无法切割靶核酸。在没有可变组分(例如,指导RNA或crRNA)的情况下,植物细胞中多核苷酸指导的多肽的存在可以几乎没有后果。多核苷酸指导的多肽系统可用于产生和/或维持能够有效表达多核苷酸指导的多肽的细胞系或转基因生物体。多核苷酸指导的多肽在细胞系或转基因生物体中的表达可以对细胞活力几乎没有影响。为了在所需的基因组位点诱导切割以实现靶向遗传修饰,可以通过多种方法将指导多核苷酸(例如,指导RNA或crRNA)引入含有多核苷酸指导的多肽的稳定整合和表达的表达盒的细胞中。例如,指导多核苷酸(例如,指导RNA或crRNA)可以化学或酶促合成,并通过诸如粒子轰击或电穿孔的直接递送方法而引入表达多核苷酸指导的多肽的细胞中。指导多核酸可以与允许转运进入细胞器中的RNA分子融合。可替代地,指导多核酸可以与允许与促进转运进入细胞器的蛋白质结合的RNA分子融合。
可替代地,可以在靶细胞中有效表达指导多核苷酸(例如,指导RNA或crRNA)的基因可以化学合成,酶促合成或在生物系统中合成。这些基因可以例如通过诸如粒子轰击、电穿孔或生物递送方法(诸如农杆菌介导的DNA递送)的直接递送方法被引入表达多核苷酸指导的多肽的细胞中。
本公开内容的一个实施方案可以是用于选择在其细胞器基因组中包含改变的靶位点的植物的方法。该方法可以包括:a)获得第一植物,其可以包含至少一种可以被运输到细胞器中并且可以在细胞器基因组的靶位点引入单链或双链断裂的多核苷酸指导的多肽(例如,Cas多肽)。在一些情况下,多核苷酸指导的多肽(例如,死亡的Cas)可以不切割靶位点。该方法可以进一步包括b)获得第二植物,其包含可以被运输到细胞器中并且可以与(a)的多核苷酸指导的多肽形成复合物的指导多核苷酸(例如,指导RNA)。该方法可以进一步包括c)使(a)的第一植物与(b)的第二植物杂交。该方法可以进一步包括d)评估(c)的后代的靶位点中的改变。该方法可以进一步包括e)选择具有所述靶位点的所需改变的后代植物。当使用无酶活性的多核苷酸指导的多肽时,该方法可以包括评估和选择具有改变的靶基因调控或表达的后代。
本公开内容的另一个实施方案可以是用于选择在其细胞器基因组中包含改变的靶位点的植物的方法。该方法可以包括:a)获得第一植物,其包含至少一种可以被运输到细胞器中并且可以在细胞器基因组的靶位点引入单链或双链断裂的多核苷酸指导的多肽(例如,Cas多肽)。该方法可以进一步包括b)获得第二植物,其包含指导多核苷酸(例如,指导RNA)和供体多核苷酸(例如,供体DNA)。指导多核苷酸和供体多核苷酸(例如,供体DNA)可以被运输进入细胞器中。指导多核苷酸可以与(a)的多核苷酸指导的多肽形成复合物。该方法可以进一步包括c)使(a)的第一植物与(b)的第二植物杂交。该方法可以进一步包括d)评估(c)的后代的靶位点中的改变。该方法可以进一步包括e)选择包含插入在所述靶位点处的供体多核苷酸的后代植物。
本公开内容的另一个实施方案可以是用于选择在其细胞器基因组中包含改变的靶位点的植物的方法。该方法可以包括选择至少一种在其细胞器基因组的靶位点处包含改变的后代植物。后代植物可以是例如通过使表达至少一种可以被运输到细胞器中的多核苷酸指导的多肽(例如,Cas多肽)的第一植物与包含指导多核苷酸(例如,指导RNA)和任选的供体多核苷酸(例如,供体DNA)的第二植物而获得的植物,其中所述指导多核苷酸和所述供体多核苷酸(例如,供体DNA)可以被运输进入细胞器中,其中所述多核苷酸指导的多肽可以在所述靶位点处引入单链或双链断裂。
可以使用合适的方法来识别那些在靶位点处或附近具有改变的基因组的细胞,而无需使用筛选标记表型。此类方法可以看作直接分析靶序列以检测靶序列中的任何变化,包括但不限于PCR方法、测序方法、核酸酶消化、DNA印迹及其任何组合。
可以以多种方式改变蛋白质,包括氨基酸置换、删除、截短和插入。例如,可以通过DNA中的突变来制备蛋白质的氨基酸序列变体。可以使用用于诱变和核苷酸序列改变的方法。
可以确定关于不太可能影响蛋白质的生物学活性的氨基酸置换的指导。
可以进行保守置换,例如将一个氨基酸与具有相似特性的另一个氨基酸交换。保守的删除、插入和氨基酸置换可以不在蛋白质的特性上产生根本性的变化。任何置换、删除、插入或其组合的影响可以通过筛选测定法来评估。针对诱导双链断裂的活性的测定法可以测量例如试剂在含有靶位点的DNA底物上的总体活性和特异性。
足够的同源性或序列同一性可以指示两个多核苷酸序列具有足以充当同源重组反应的底物的结构相似性。结构相似性可以包括每个多核苷酸片段的全长,以及多核苷酸的序列相似性。序列相似性可以通过序列全长上的序列同一性百分比来描述,和/或通过包含局部相似性的保守区域(诸如具有100%序列同一性的连续核苷酸)以及在序列的一部分长度上的序列同一性百分比来描述。
靶标和供体多核苷酸共享的同源性或序列同一性的量可以变化。例如,序列同源性的长度可以是以下至少一项:20bp、50bp、100bp、150bp、250bp、300bp、400bp、500bp、600bp、700bp、800bp、900bp、1000bp、1250bp、1500bp、1750bp、2000bp、2.5kb、3kb、4kb、5kb、6kb、7kb、8kb、9kb或10kb。同源性的量还可以通过两个多核苷酸的完整比对长度上的序列同一性百分比来描述,其包括至少以下任意一项的序列同一性百分比:50%、55%、60%、65%、70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或100%。足够的同源性可以包括多核苷酸长度、总体序列同一性百分比以及任选的保守连续核苷酸区域或局部序列同一性百分比的任何组合,例如,足够的同源性可以被描述为与靶基因座的区域具有至少80%序列同一性的75-150bp的区域。足够的同源性也可以通过两个多核苷酸在高严格性条件下特异性杂交的预测能力来描述。
多种方法可用于将核苷酸序列和多肽引入生物体中,包括例如,转化、有性杂交以及将多肽、DNA或mRNA引入细胞中。用于将组合物接触、提供和/或引入各种生物体的方法可以包括但不限于稳定转化方法、瞬时转化方法、病毒介导的方法和有性繁殖。稳定转化可以指示,所引入的多核苷酸可以整合进入生物体的基因组中,并且可以被其后代遗传。瞬时转化可以指示,所引入的组合物只能在生物体中暂时地表达或存在。
用于将多核苷酸和多肽引入植物中的方案可以根据转化所靶向的植物或植物细胞的类型(诸如单子叶植物或双子叶植物)而改变。将多核苷酸和多肽引入植物细胞并随后插入植物基因组中的合适方法包括显微注射、分生组织转化、电穿孔、农杆菌介导的转化、直接基因转移和弹射粒子加速。
可替代地,可通过使植物与病毒或病毒核酸接触而将多核苷酸引入植物中。此类方法可以涉及将多核苷酸掺入病毒DNA或RNA分子中。在一些实例中,感兴趣的多肽可以作为病毒多蛋白的一部分首先合成,其随后可以在体内或体外通过蛋白水解而加工以产生所需的重组蛋白。用于将多核苷酸引入植物并表达其中编码的蛋白质的方法可以涉及病毒DNA或RNA分子。瞬时转化方法包括但不限于直接向生物体中引入多肽(诸如双链断裂诱导剂)、引入多核苷酸(诸如DNA和/或RNA多核苷酸),以及向生物体中引入RNA转录物(诸如编码双链断裂诱导剂的mRNA)。此类方法包括例如显微注射或粒子轰击。
细胞器基因组的DNA转化可以在例如质体和线粒体(例如,酵母)中进行。选择标记基因可以包括例如光合作用基因(atpB、tscA、psaA/B、petB、petA、ycf3、rpoA、rbcL)、抗生素耐受性基因(rrnS、rrnL、aadA、nptII、aphA-6)、除草剂耐受性基因(psbA、bar、AHAS(ALS)、EPSPS、HPPD)和代谢基因(BADH、codA、ARG9、ASA2)。
例如,通过开发可以在大肠杆菌和酵母中作为自主质粒复制的穿梭载体,可以促进例如酵母核基因组的DNA转化。载体系统可以包括低拷贝数的质粒和通过同源重组的整合DNA。
本发明的方法可以提供为例如至少约:1%、2%、5%、10%、20%、30%、40%、50%、60%、70%、80%、90%或100%的转换效率的向细胞器(例如,线粒体、质体)中的转换效率。
在一个实施方案中,本公开内容的表达构建体可以包含可操作地连接至编码Cas基因的核苷酸序列的启动子和可操作地连接至指导RNA的启动子。该启动子可以驱动细胞中可操作地连接的核苷酸序列的表达。
具有引入序列的细胞可以生长或再生为植物。然后可以生长这些植物,并用相同的转化株系或不同的转化或未转化株系授粉,并且识别出具有所需特性和/或包含引入的多核苷酸或更多肽的所得子代。可以生长两个或更多个世代,以确保多核苷酸可以稳定地维持和遗传,并收获种子。
可以使用任何植物,包括单子叶植物和双子叶植物。可以使用的单子叶植物的实例包括但不限于玉米(Zea mays)、水稻(Oryza sativa)、黑麦(Secale cereale)、高粱(Sorghum bicolor、Sorghum vulgare)、谷子(例如,珍珠粟(Penensetum glaucum)、黄米(Panicum miliaceum)、小米(Setaria italica)、龙爪稷(Eleusine coracana))、玉米、小麦(Triticum aestivum)、甘蔗(Saccharum spp.)、燕麦(Avena)、大麦(Hordeum)、柳枝稷(Panicum virgatum)、菠萝(Ananas comosus)、香蕉(Musa spp.)、棕榈、观赏植物、草坪草和其他草。可以使用的双子叶植物的实例包括但不限于大豆(Glycine max)、油菜(Brassica napus和B.campestris)、苜蓿(Medicago sativa)、烟草(Nicotiana tabacum)、拟南芥(Arabidopsis thaliana)、向日葵(Helianthus annuus)、棉花(Gossypiumarboreum)和花生(Arachis hypogaea)、番茄(Solanum lycopersicum)、马铃薯(Solanumtuberosum)等。
转基因、重组DNA分子、感兴趣的DNA序列和供体多核苷酸可以包含一个或多个感兴趣的基因。此类感兴趣的基因可以编码例如可以为植物提供农艺优势的蛋白质。
同样,如本文所述,对于引用指导RNA的每个实例或实施方案,可以设计相似的指导多核苷酸,其中指导多核苷酸不仅包含核糖核酸,而是其中指导多核苷酸包含RNA-DNA分子的组合,或仅包含DNA分子。
为了用多核苷酸指导的(例如,RNA指导的)方法编辑细胞器基因组,可以将两个分子组分,即多核苷酸指导的多肽(例如,Cas蛋白、Cas9)和指导多核苷酸(例如,指导RNA)引入细胞器中。这些组分的引入可以通过适当方法的组合来完成。一种方法可以是通过多核苷酸指导的多肽与可以允许蛋白质导入细胞器中的靶向细胞器的肽的翻译融合体来产生修饰的多核苷酸指导的多肽。另一种方法可以是产生指导多核酸与可被导入细胞器中的RNA分子的转录融合体。对于后者,可以设计导入的指导多核酸(例如,指导RNA)的构型以实现适当的功能,即,指导RNA的5’端可以是可及的,以与细胞器DNA上的靶位点结合。这两种组分的组合足以编辑细胞器基因组以产生小的缺失(例如,SDN1修饰)和在切割位点处添加一些核苷酸(例如,SDN2修饰)。为了用更广泛的SDN2和SDN3修饰实现细胞器基因组编辑,可以将多核苷酸修饰模板引入相应的细胞器中。
在细胞器DNA中产生设计上的改变后,下一步可以是在未修饰细胞器DNA的库中维持经编辑的细胞器DNA并改变细胞器DNA之间的平衡,从而有利于基因组经编辑的细胞器DNA的维持。这可以通过减少未修饰的细胞器DNA的扩增来实现。在一种方法中,可以为未修饰的细胞器基因组中的多个靶位点设计指导多核酸。可以设计供体多核苷酸(例如,供体DNA),使得这些靶位点已被改变成不再被相关的多核苷酸指导的多肽系统识别。多核苷酸指导的多肽的表达可导致将单链或双链断裂引入未修饰的细胞器DNA中,从而可增加修饰的基因组的比例。在一种变化中,可以用相关的多核苷酸指导的多肽系统预处理细胞以在细胞器DNA中引入切割。预处理可以减少可用于同源重组的细胞器DNA分子的数目。
实施方案可以涉及单指导RNA(sgRNA),即,其中可变靶向结构域可以与包含tracrRNA序列的多核苷酸融合。可替代地,实施方案可涉及双链体指导RNA,即,其中可变靶向结构域和tracrRNA序列存在于单独的RNA分子上。术语“双链体指导RNA”和“双指导RNA”在本文可互换使用。
在一些情况下,与在核中转化相比,在向细胞器(例如质体,线粒体)中转化时的蛋白质和/或RNA表达水平可以更高。例如,与核转化相比,在细胞器转化的情况下的蛋白质表达水平可以高至少约:1%、5%、10%、20%、30%、40%、50%、60%、70%、80%或90%。与核转化相比,在细胞器转化的情况下的转录物的表达稳定性更高。
实施方案
在一个实施方案中,编码RNA序列的多核苷酸可以包含可操作地连接至指导多核酸(例如,单指导RNA)的靶向细胞器的RNA,其中指导多核酸可以引导多核苷酸指导的多肽(例如,Cas多肽;Cas9多肽)切割细胞器基因组中存在的靶序列。指导多核酸可以是单指导RNA或双链体指导RNA;对于双链体RNA,每个组成RNA可操作地连接至靶向细胞器的RNA。RNA序列可以进一步包含编码多核苷酸指导的多肽(例如,Cas多肽;Cas9多肽)的序列。RNA序列可以进一步包含在指导多核酸与编码多核苷酸指导的多肽的序列之间的RNA切割位点。RNA切割位点可以是选自以下的至少一项:Csy4切割位点、C2c2切割位点、核酶切割位点、RNA酶III切割位点及其任何组合。
在另一个实施方案中,细胞可以包含本公开内容的任何多核苷酸。
在另一个实施方案中,细胞可以包含上述多核苷酸中的任何一个,其中该细胞进一步包含编码修饰的多核苷酸指导的多肽的多核苷酸,其中修饰的多核苷酸指导的多肽包含可操作地连接至靶向细胞器的肽的多核苷酸指导的多肽(例如,Cas多肽;Cas9多肽)。
在另一个实施方案中,用于将指导多核酸引入细胞的细胞器中的方法可以包括:(a)将任何上述多核苷酸引入细胞中,其中该多核苷酸可操作地连接至至少一个调控元件;以及(b)使细胞在表达该多核苷酸的条件下生长。该方法可以进一步包括(c)选择具有包含指导多核酸的细胞器的细胞。
在另一个实施方案中,用于改变细胞器的基因组的方法可以包括:(a)向细胞中引入:(i)编码包含可操作地连接至指导多核酸的靶向细胞器的RNA的RNA序列的第一多核苷酸,其中指导多核酸可以引导多核苷酸指导的多肽(例如,Cas多肽;Cas9多肽)切割细胞器基因组中存在的靶序列,其中多核苷酸可操作地连接至至少一个调控元件;和(ii)编码修饰的多核苷酸指导的多肽的第二多核苷酸,其中第二多核苷酸可操作地连接至至少一个调控元件,并且其中修饰的多核苷酸指导的多肽包含可操作地连接至靶向细胞器的肽的多核苷酸指导的多肽(例如,Cas多肽;Cas9多肽);其中(i)的靶向细胞器的RNA和(ii)的靶向细胞器的肽均靶向同一细胞器;以及(b)在(i)的第一多核苷酸和(ii)的第二多核苷酸都表达的条件下使细胞生长。该方法可以进一步包括(c)选择具有包含改变的基因组的细胞器的细胞。
在另一个实施方案中,用于改变细胞器的基因组的方法可以包括:(a)向细胞中引入:(i)编码包含可操作地连接至指导多核酸的靶向细胞器的RNA的RNA序列的第一多核苷酸,其中指导多核酸可以引导多核苷酸指导的多肽(例如,Cas多肽;Cas9多肽)切割细胞器基因组中存在的靶序列,其中多核苷酸可操作地连接至至少一个调控元件;和(ii)第三多核苷酸,其中第三多核苷酸可操作地连接至至少一个调控元件,其中第三多核苷酸编码包含可操作地连接至编码多核苷酸指导的多肽(例如,Cas多肽;Cas9多肽)的RNA序列的靶向细胞器的RNA的RNA分子;其中(i)的靶向细胞器的RNA和(ii)的靶向细胞器的RNA均靶向同一细胞器;以及(b)在(i)的多核苷酸和(ii)的第三多核苷酸都表达的条件下使细胞生长。该方法可以进一步包括(c)选择具有包含改变的基因组的细胞器的细胞。
在另一个实施方案中,用于改变细胞器的基因组的方法可以包括:(a)将编码RNA序列的多核苷酸引入细胞中,该RNA序列包含可操作地连接至指导多核酸的靶向细胞器的RNA,其中指导多核酸可以引导多核苷酸指导的多肽(例如,Cas多肽;Cas9多肽)切割细胞器基因组中存在的靶序列,其中RNA序列进一步包含编码多核苷酸指导的多肽(例如,Cas多肽;Cas9多肽)的第二RNA序列,其中多核苷酸可操作地连接至至少一个调控元件;以及(b)在表达(a)的多核苷酸的条件下使细胞生长。该方法可以进一步包括(c)选择具有包含改变的基因组的细胞器的细胞。
在上述任何一种用于改变细胞器的基因组的方法中,该方法可以进一步包括将包含至少一个供体多核苷酸(例如,供体DNA)的多核苷酸引入细胞器中,其中至少一个供体多核苷酸以相对于细胞器基因组的至少一个同源序列为边界,其中将至少一个供体多核苷酸的全部或部分整合到细胞器基因组中导致指导多核酸的靶位点的去除。至少一个供体多核苷酸可以包含与细胞器基因组异源的第一核酸序列,其中第一核酸序列以第二核酸序列和第三核酸序列为边界,其中第二核酸序列和第三核酸序列对应于细胞器基因组中两个同源的相邻区域。与细胞器基因组异源的第一核酸序列可以编码选择标记。选择标记可以是aadA,并且选择剂可以是奇霉素或链霉素。与细胞器基因组异源的第一核酸序列可以可操作地连接至在细胞器中有活性的至少一个调控元件。第二核酸序列或第三核酸序列或两者可以包含至少一个改变的序列,其中至少一个改变的序列相对于细胞器基因组中的至少一个另外的靶位点被改变,其中至少一个改变的序列不能被至少一个另外的指导多核酸切割,其中至少一个另外的指导多核酸可以引导多核苷酸指导的多肽(例如,Cas多肽;Cas9多肽)切割细胞器基因组中的至少一个另外的靶位点。细胞器基因组中的至少一个另外的靶位点可以存在于至少一个必需编码区中。引入细胞器中的多核苷酸可以进一步包含第四核酸序列,其中第四核酸序列编码可操作地连接至在细胞器中有活性的启动子的至少一个另外的指导多核酸。
在另一个实施方案中,多核苷酸可以编码修饰的RNA供体序列,其中修饰的RNA供体序列可以包含可操作地连接至供体RNA的靶向细胞器的RNA。修饰的RNA供体序列可以包含逆转录酶引物位点。
在另一个实施方案中,细胞可以包含编码修饰的RNA供体序列的多核苷酸,并且进一步包含编码修饰的逆转录酶的多核苷酸,其中修饰的逆转录酶包含可操作地连接至靶向细胞器的肽的逆转录酶。
在上述任何一种用于改变细胞器基因组的方法中,该方法可以进一步包括将包含至少一个供体多核苷酸(例如,供体DNA)的多核苷酸引入细胞器中,其中将供体多核苷酸引入细胞器中是通过:(a)将编码修饰的RNA供体序列的多核苷酸引入细胞中,其中修饰的RNA供体序列包含可操作地连接至供体RNA的靶向细胞器的RNA,其中修饰的RNA供体序列包含逆转录酶引物位点,并且其中多核苷酸可操作地连接至至少一个调控元件;(b)将编码修饰的逆转录酶的多核苷酸引入细胞中,其中修饰的逆转录酶包含可操作地连接至靶向细胞器的肽的逆转录酶,其中多核苷酸可操作地连接至至少一个调控元件,其中(a)的靶向细胞器的RNA和(b)的靶向细胞器的肽均靶向同一细胞器;以及(c)在(a)和(b)的多核苷酸都表达的条件下使细胞生长。该方法可以进一步包括(d)选择具有包含改变的基因组的细胞器的细胞。
在另一个实施方案中,用于改变细胞器的基因组的方法可以包括:(a)向细胞器中引入以下项:(i)编码至少一个指导多核酸的第一多核苷酸,其中至少一个指导多核酸可以引导多核苷酸指导的多肽(例如,Cas多肽;Cas9多肽)切割细胞器基因组中存在的至少一个靶序列;(ii)编码多核苷酸指导的多肽(例如,Cas多肽;Cas9多肽)的第二多核苷酸,其中多核苷酸指导的多肽在与指导多核酸(例如,指导RNA)相关联时可以切割至少一个靶序列;(iii)任选地,编码至少一个同源细胞器DNA序列的第三多核苷酸,其中至少一个同源细胞器DNA具有足以进行同源重组的大小,其中将至少一个同源细胞器DNA序列整合到细胞器基因组中导致至少一个靶序列的去除;(iv)任选地,编码至少一个选择标记或至少一个筛选标记或两者的第四多核苷酸,其中编码至少一个选择标记或者至少一个筛选标记或两者的序列可操作地连接至在细胞器中具有功能的启动子;和(v)任选地,编码在细胞器中具有功能的复制起点的第五多核苷酸;以及(b)在(i)的第一多核苷酸和(ii)的第二多核苷酸均表达的条件下使包含(a)的细胞器的细胞生长。该方法可以进一步包括步骤(c)——选择具有包含改变的基因组的细胞器的细胞。该方法可以进一步包括步骤(d)——选择对于细胞器的改变的基因组是同质的细胞。(iii)的第三多核苷酸可以包含第六多核苷酸和第七多核苷酸,其中第六多核苷酸和第七多核苷酸对应于细胞器基因组中两个同源的相邻区域,其中第六多核苷酸和第七多核苷酸被与细胞器DNA异源的序列隔开。与细胞器DNA异源的序列可以包含选自以下的至少一项:(i)的第一多核苷酸、(ii)的第二多核苷酸、(iv)的第四多核苷酸、第八多核苷酸及其任何组合,其中第八多核苷酸编码与细胞器异源的RNA或包含与细胞器异源的非编码序列(例如,调控序列,诸如启动子)或两者。与细胞器异源的RNA可以是选自以下的至少一项:mRNA、功能RNA及其任何组合。功能RNA可以是选自以下的至少一项:指导RNA、siRNA、miRNA、dsRNA、tRNA、rRNA及其任何组合。可以在以第六多核苷酸和第七多核苷酸为边界的区域之外定位选自以下的至少一项:(i)的第一多核苷酸、(ii)的第二多核苷酸、(iv)的第四多核苷酸、(v)的第五多核苷酸及其任何组合。(v)的第五多核苷酸可以编码质体复制起点、线粒体复制起点或两者。质体复制起点可以对应于来自质体rRNA基因间区域的DNA序列。
在本文所述的任何方法中,本文所述的一个或多个多核苷酸可以存在于重组DNA构建体上。
在本文所述的任何方法中,该方法可以包括超过一个此类重组DNA构建体。
在本文所述的任何方法中,重组DNA构建体可以进一步包含第九多核苷酸和第十多核苷酸,其中第九多核苷酸和第十多核苷酸彼此具有100%序列同一性,并且进一步地,其中第九多核苷酸和第十多核苷酸作为直接重复序列排列在重组DNA构建体中。第九多核苷酸和第十多核苷酸可以彼此有至少20、21、22、23、24、25、30、40、50、60、70、80、90或100个核苷酸具有100%的序列同一性。重组DNA构建体可以是线性的,并且第九多核苷酸和第十多核苷酸可以分别存在于重组DNA构建体的5’和3’端。
在本文所述的用于改变细胞器的基因组的任何方法中,重组DNA构建体可以是线性的、单链的并且可操作地连接至修饰的VirD2蛋白。修饰的VirD2蛋白可以包含可操作连接至靶向细胞器的肽的VirD2蛋白,其中修饰的VirD2蛋白也已被修饰,使得VirD2蛋白的至少一个天然核定位序列不再具有功能。
在上述改变细胞器的基因组的方法中,重组DNA构建体可以可操作地连接至至少一种修饰的VirE2蛋白。至少一种修饰的VirE2蛋白可以包含可操作连接至靶向细胞器的肽的VirE2蛋白,其中至少一种修饰的VirE2蛋白也已被修饰,使得VirE2蛋白的至少一个天然核定位序列不再具有功能。
在本文所述的用于改变细胞器的基因组的任何方法中,重组DNA构建体可以可操作地连接至至少一种修饰的RecA蛋白。至少一种修饰的RecA蛋白可以包含可操作地连接至靶向细胞器的肽的RecA蛋白。
在本文所述的用于改变细胞器的基因组的任何方法中,重组DNA构建体可以可操作地连接至至少一种嵌合多肽。至少一种嵌合多肽可以包含靶向细胞器的肽和细胞穿透肽,以及任选的DNA结合多肽。
在另一个实施方案中,用于改变细胞器的基因组的方法可以包括使用定点核酸酶(例如,TALENS、锌指核酸酶或大范围核酸酶)和多核苷酸指导的多肽。可以通过定点核酸酶(例如,TALENS、锌指核酸酶、大范围核酸酶)完成细胞器基因组的初始切割,以促进与供体多核苷酸的同源重组。供体多核苷酸可以包含不被多核苷酸指导的多肽识别的修饰的靶位点。通过用多核苷酸指导的多肽处理,在靶位点切割未修饰的细胞器基因组可以促进同质状态。在另一个实施方案中,任何的上述方法均可以进一步包括将编码至少一个标记的多核苷酸引入细胞器中,该标记选自:正选择标记、负选择标记、筛选标记及其任何组合。正选择标记可以是除草剂耐受性蛋白。除草剂耐受性蛋白可以是选自以下的至少一项:4-羟基苯丙酮酸双加氧酶(HPPD)、耐磺酰脲的乙酰乳酸合酶(ALS)、耐咪唑啉酮的乙酰乳酸合酶(ALS)、耐草甘膦的5-烯醇丙酮酰莽草酸-3-磷酸合酶(EPSPS)、耐草甘膦的草甘膦氧化还原酶(GOX)、草甘膦N-乙酰转移酶(GAT)、膦丝菌素乙酰转移酶(PAT)、原卟啉原氧化酶(PROTOX)、生长素酶或受体、P450多肽、乙酰辅酶A羧化酶(ACC酶)及其任何组合。该方法可以进一步涉及在正选择剂的存在下使细胞生长,并选择对于细胞器的改变的基因组是同质的细胞。任选地,该方法可以进一步涉及在不存在正选择剂的情况下使细胞生长,然后选择缺乏非整合的重组DNA构建体的细胞。可替代地,该方法可以进一步涉及在不存在正选择剂的情况下使细胞生长,然后在负选择剂的存在下使细胞生长,然后选择缺乏非整合的重组DNA构建体的细胞。在该方法中,细胞可以是植物细胞,细胞器可以是质体,并且该方法可以进一步涉及从包含改变的细胞器基因组的植物细胞再生植物。植物细胞可以是单子叶植物细胞,例如,玉米细胞。植物细胞可以是双子叶植物细胞,例如,大豆细胞。
在另一个实施方案中,用于改变细胞器的基因组的方法可以包括:(a)向细胞的细胞器中引入以下项:(i)至少一个指导RNA,其中至少一个指导RNA引导多核苷酸指导的多肽切割细胞器基因组中存在的至少一个靶序列;(ii)多核苷酸指导的多肽,其中多核苷酸指导的多肽在与至少一个指导RNA相关联时切割至少一个靶序列;和(iii)替代DNA;以及(b)选择包含含有替代DNA的细胞器的细胞。步骤(a)部分(iii)的替代DNA可以包含来自栽培种、品系、亚种和其他物种并且不同于步骤(a)的细胞器的基因组的细胞器DNA片段或完整细胞器DNA。替代DNA可以缺少至少一个靶序列。另外,在步骤(a)部分(ii)之后并在步骤(a)部分(iii)之前,可以选择其中细胞器的基因组已被消除的细胞。
在另一个实施方案中,本文所述的方法和物质组合物中的指导多核酸可以包含以下项:i)与靶多核酸的至少17个核苷酸互补的至少17个核苷酸,其中所述靶多核酸位于细胞器的基因组中;和ii)与多核苷酸指导的多肽接触的区域。指导多核酸可以包含一个或多个RNA碱基。指导多核酸可以是指导RNA。指导多核酸可以是双指导RNA。指导多核酸可以是单指导RNA。
在另一个实施方案中,本文所述的方法和物质组合物中的多核苷酸指导的多肽可以选自:Cas9蛋白、MAD2蛋白(美国专利号10,011,849;通过引用并入本文)、MAD7蛋白(美国专利号9,982,279;通过引用并入本文)、CRISPR核酸酶、Cas蛋白的核酸酶结构域、Cpf1蛋白、Argonaute、其修饰形式及其任何组合。编码多核苷酸指导的多肽的序列可以对于人、酵母、藻类或植物物种是密码子优化的。
在本文所述的用于改变细胞器的基因组的任何方法中,该方法可以进一步涉及在正选择剂的存在下使细胞生长,并选择对于细胞器的改变的基因组是同质的细胞。该方法可以进一步涉及:(i)在不存在正选择剂的情况下使细胞生长,然后选择缺乏非整合的重组DNA构建体的细胞;或(ii)在不存在正选择剂的情况下使细胞生长,然后在负选择剂的存在下使细胞生长,然后选择缺乏非整合的重组DNA构建体的细胞。
在本文所述的涉及指导多核酸和多核苷酸指导的多肽的任何方法中,与缺少指导多核酸、多核苷酸指导的多肽或两者都缺少的相应方法相比,该方法可以包括转化效率提高至少10%、20%、30%、40%、50%、60%、70%、80%、90%、100%、200%、300%、400%或500%。
在本文所述的涉及指导多核酸和多核苷酸指导的多肽的任何方法中,该方法可以包括减少达到同质状态所需的时间量,其中与缺少指导多核酸、多核苷酸指导的多肽或两者都缺少的相应方法所需的时间量相比,该减少为至少10%、20%、30%、40%、50%、60%、70%、80%或90%。
在另一个实施方案中,重组DNA构建体(例如,用于本文所述的任何方法)可以包含本文所述的任何一个或多个多核苷酸。
在另一个实施方案中,细胞可以包含细胞器,其中细胞器可以包含上述重组DNA构建体中的至少一种。细胞可以选自:酵母细胞、藻类细胞、植物细胞、昆虫细胞、非人类动物细胞以及哺乳动物组织培养物细胞。
在另一个实施方案中,植物或种子可以包含任何上述细胞器、细胞或重组DNA构建体。
在另一个实施方案中,包含具有改变的基因组的细胞器的细胞可以通过任何上述方法产生。细胞可以选自:酵母细胞、藻类细胞、植物细胞、昆虫细胞、非人类动物细胞以及哺乳动物组织培养物细胞。
在另一个实施方案中,一种方法可以改变细胞中细胞器的基因组,其中该细胞是植物细胞。此外,可以从包含具有改变的基因组的细胞器的植物细胞再生植物,其中再生的植物包括具有改变的基因组的细胞器。而且,可以从再生的植物产生植物(例如,后代植物)或种子,其中植物或种子包含具有改变的基因组的细胞器。
在涉及指导多核酸(例如,指导RNA)的任何上述实施方案中,指导多核酸可以是单指导RNA(单分子)或双链体指导RNA(双分子)。在涉及多个指导RNA的任何实施方案中,多个指导RNA可以是单指导RNA、双链体指导RNA或两者。
在任何上述实施方案中,多个指导RNA(和/或其他异源RNA)可以编码在单独的转录单元上或可以编码在多顺反子转录单元上。转录后,可以从多顺反子RNA加工出指导RNA;例如,通过使用RNA切割位点(例如,Csy4;C2c2)、核酶切割位点、多核苷酸指导的多肽切割位点或tRNA序列的存在。通过使指导RNA的5’具有第一tRNA序列并且使指导RNA的3’具有第二tRNA序列,可以从多顺反子RNA加工出指导RNA。多个指导RNA可以与多个tRNA序列(在每个指导RNA的5’和3’端)一起排列,以用于从多顺反子RNA加工。
在任何上述实施方案中,可以引入细胞器中的多核苷酸(例如,供体DNA、供体RNA)可以包含选自以下的至少一项:编码感兴趣的多核苷酸的表达盒和编码包含多个感兴趣的多核苷酸的多顺反子转录物的表达盒;例如,包含多个蛋白质编码区、多个功能RNA或两者的组合的多顺反子转录物。感兴趣的多核苷酸相对于细胞器的基因组可以是异源的。
在任何上述用于将细胞器的基因组改变成含有异源多核苷酸的任何方法中,异源多核苷酸可以编码选自以下的至少一项:除草剂耐受性蛋白、杀虫蛋白、与杀虫蛋白结合的辅助蛋白、dsRNA、siRNA、miRNA及其任何组合,其中dsRNA、siRNA和miRNA可以抑制植物害虫中存在的至少一个靶基因。除草剂耐受性蛋白可以是选自以下的至少一项:4-羟基苯丙酮酸双加氧酶(HPPD)、耐磺酰脲的乙酰乳酸合酶(ALS)、耐咪唑啉酮的乙酰乳酸合酶(ALS)、耐草甘膦的5-烯醇丙酮酰莽草酸-3-磷酸合酶(EPSPS)、耐草甘膦的草甘膦氧化还原酶(GOX)、草甘膦N-乙酰转移酶(GAT)、膦丝菌素乙酰转移酶(PAT)、原卟啉原氧化酶(PROTOX)、生长素酶或受体、P450多肽、乙酰辅酶A羧化酶(ACC酶)及其任何组合。杀虫蛋白可以是选自以下的至少一项:Cry1Ac、Cyt1Aa、Cry1Ab、Cry2Aa、Cry1I、Cry1C、Cry1D、Cry1E、Cry1Be、Cry1Fa和Vip3A。与杀虫蛋白结合的辅助蛋白可以是选自以下的至少一项:20kDa辅助蛋白和19kDa辅助蛋白。dsRNA、siRNA和miRNA可以抑制选自以下的至少一个靶基因:蛋白酶体A型亚基肽(Pas-4)、ACT、SHR、EPIC2B、PnPMAI及其任何组合。异源多核苷酸可以可操作地连接至在细胞器中有活性的至少一个调控元件。至少一个调控元件可以选自:与玉米clpP 5’-UTR组合的玉米clpP启动子、与来自噬菌体T7的基因10的5’-UTR组合的玉米clpP启动子、与来自噬菌体T7的基因10的5’-UTR组合的番茄psbA启动子、与修饰的accD 5’-UTR组合的番茄rrn16启动子及其任何组合。细胞可以是植物细胞,其中细胞器是质体(例如,叶绿体),并且其中该方法进一步包括从包含改变的细胞器基因组的植物细胞再生植物。植物细胞可以是大豆细胞。
在用于将细胞器的基因组改变成包含异源多核苷酸的任何上述方法中,异源多核苷酸的侧翼可以为直接重复序列。直接重复序列可以彼此有至少20、21、22、23、24、25、30、40、50、60、70、80、90、100、200、300、400、500或600个核苷酸具有100%的序列同一性。直接重复序列可以包含位点特异性重组酶位点(例如,loxP、attP、attB)。异源多核苷酸可以编码选自以下的至少一个标记:正选择标记、负选择标记、筛选标记及其任何组合。任选地,该方法可以进一步涉及在不存在正选择剂的情况下使细胞生长,然后选择对于缺乏异源多核苷酸的细胞器是同质的细胞。可替代地,该方法可以进一步涉及在存在负选择剂的情况下使细胞生长,然后选择对于缺乏异源多核苷酸的细胞器是同质的细胞。任选地,该方法可以涉及其中异源位点特异性重组酶(例如,Cre、phiC31、Bxb1)在细胞器中表达的条件下使细胞生长。
在上述实施方案中,靶细胞器可以是质体(例如,叶绿体)或线粒体。靶向细胞器的多核苷酸可以是tRNA、类病毒RNA或eIF4E RNA。
在上述实施方案中,抗生素标记基因的表达可以与抗生素选择结合使用,以获得(和选择)质体或线粒体转化事件(例如,同质事件)。包含供体多核苷酸(例如,供体DNA)的多核苷酸还可以包含用于抗生素标记基因的表达盒;表达盒可以在供体多核苷酸区域内(即,用于整合到细胞器基因组中)或在供体多核苷酸区域外。
实施例
在以下实施例中进一步定义本公开内容,除非另有说明,其中份数和百分数均以重量计,度数为摄氏度。应当理解,这些实施例虽然说明了实施方案,但仅以举例说明的方式给出。从上面的讨论和这些实施例中,本领域技术人员可以确定本公开内容的基本特征,并且在不脱离本公开内容的精神和范围的情况下,可以对本公开内容进行各种改变和修改以使其适应各种用途和条件。此类修改也意在落入所附权利要求的范围内。
实验通常涉及单指导RNA(sgRNA),即其中可变靶向结构域与含有tracrRNA序列的多核苷酸融合。可替代地,实验可以涉及双链体指导RNA,即其中可变靶向结构域和tracrRNA序列存在于单独的RNA分子上。
实施例1
将Cas9和指导RNA靶向至酵母线粒体中
为了产生用于线粒体基因组编辑的Cas9蛋白,通过在氨基末端融合线粒体靶向肽并删除任何NLS(核定位信号)元件来修饰在核基因组编辑中具有功能的蛋白质。将ATP酶β亚基的靶向细胞器的肽和70KD蛋白质用于修饰,分别产生mCas9-A(由SEQ ID NO:1编码)和mCas9-B(由SEQ ID NO:2编码)。将每个编码修饰的Cas9的多核苷酸克隆到酵母穿梭载体中,其中多核苷酸的表达处在Gal1启动子的控制下,该启动子的活性由作为介质中的碳源的半乳糖诱导。
为了产生用于线粒体基因组编辑的指导RNA,使用可被导入线粒体中的tRNALys(tRK1形式和修饰的tRK2形式)。制备了tRNA与指导RNA之间的几种形式的融合体RNA。一种方法是将指导RNA融合到tRNA的5’端(SEQ ID NO:3和4)。为了抑制RNA酶P的5’端切割,在替代构建体中修饰了tRNA的第一个碱基以防止与tRNA接纳茎上的相应碱基配对(SEQ ID NO:5和6)。第二种方法是通过在tRK2-2和tRK1的主链中进行有效的线粒体导入来替换tRK2的内含子(分别为SEQ ID NO:7和8)。第三种方法是利用tRK1(tRNALys)可以分裂为两个分子,它们一起保留线粒体导入的特性的事实。在这种情况下,指导RNA以保留tRNA剪接位点的二级结构的方式与tRK1后半部分的5’端在tRNA结构中被称为可变环的区域中融合(SEQ IDNO:9)。与B形式融合的指导RNA(SEQ ID NO:10)与A形式共表达以促进向线粒体中的共导入。
采用作为用于线粒体导入的有效媒介物的RNA产生合成的指导RNA的一种变型是使用tRK1的F发夹和D臂结构的组合。这些结构被证明有助于向线粒体中的导入。用此类方法,将指导RNA置于两个结构之间(SEQ ID NO:11)或在5’或3’端与它们之一融合(例如SEQID NO:12和13)。
对于位点特异性切割位点,以下线粒体序列被识别为用于指导RNA的靶位点;指导RNA可变靶向结构域如下所示:
1.ACTGATAGAAGTGTAGTAAG(细胞色素b基因)(SEQ ID NO:14)
2.ATGATTATTGCAATTCCAAC(COX1基因)(SEQ ID NO:15)
3.ATTCCACGATACTTACTACG(COX1基因)(SEQ ID NO:16)
4.TCAGCAACACCAAATCAAGA(COX2基因)(SEQ ID NO:17)
以上每个可变靶向结构域都位于PAM序列之前。SEQ ID NO:14–17分别位于以下PAM序列之前:AGG、AGG、TGG和AGG。
基于blast分析,被认为对Cas9靶位点识别至关重要的来自每个下划线序列(与PAM序列相邻)的3’端的11个核苷酸是酵母线粒体基因组所特有的。每个上述可变靶向结构域在3’端与tracrRNA序列融合,用于Cas9识别(SEQ ID NO:18)。编码每个工程化指导RNA的多核苷酸在SNR52启动子和SUP4终止元件的控制下在核中表达(分别为SEQ ID NO:19和20)。在该实验中,使用了用于转化的酵母穿梭载体。例如,将SNR52表达盒克隆到酵母表达载体诸如p416-Gal1(URA3+,购自ATCC的多拷贝质粒)中。将编码线粒体靶向的Cas9(“mCas9”)的表达盒克隆到着丝粒p415-galL载体(LEU+)的SalI-XhoI位点,该表达盒的表达处在GalL启动子的控制下,该启动子的活性由介质中作为唯一碳源的半乳糖诱导。将载体转化到允许增养作用(auxotropy)选择的酵母菌株(诸如BY4733(mat a)品系)中,并针对Leu和Ura独立生长进行选择。
在针对相应增养作用的选择性介质上选择mCas9与指导RNA构建体的每一种和/或组合的转化体作为单集落品系。通过将介质换为含有半乳糖作为唯一碳源的介质诱来导mCas9核酸内切酶的表达。源自单个集落的细胞在诱导介质中生长数个世代。分析这些品系在分子水平上的基因组编辑效率。将来自每种构建体和每种构建体组合的多个品系的细胞合并在一起,并通过使用标准DNA分离方案(诸如,通过使用来自TheromoFisher的酵母DNA提取试剂盒(目录号78870))分离其DNA。使用对相应的基因组编辑位点有特异性的PCR引物组,通过PCR反应扩增每个编辑位点的DNA。对PCR产物进行高通量测序,诸如通过使用由制造商提供的Illumina HiSeq方案。与相应的对照构建体相比,评估了每个靶位点处的位点特异性突变的频率。基因组编辑的功效也在功能水平上进行了分析。在获得单集落品系后,每个品系在非选择性葡萄糖介质中进一步生长另外若干世代,以促进线粒体基因组的同质状态。将酵母细胞铺板在葡萄糖介质如YD介质上。通过影印培养将各个集落转移至甘油介质诸如YG介质。通过无法在甘油介质上生长(即由于分别在cob、cox1和cox2基因中的突变而导致的呼吸缺陷)的集落的输出频率来评估基因组编辑的功效。
细胞器基因组编辑的下一步是在线粒体中创建经编辑DNA的显性和可持续状态,该线粒体最初含有多个(即使没有数百个)未编辑DNA的池。这可以通过延长细胞器中位点特异性修饰的酶反应时间来实现。取决于多种因素,诸如mCas9和指导RNA进入线粒体的导入效率,以及指导RNA、导入的Cas9与靶位点之间的亲和力,适合于每次细胞器修饰的延长时间的长度会有所不同。为了评估延长时间的影响,在数小时、数天和数周的时程中,将用适当的mCas9和指导RNA对转化的酵母品系在用于相应构建体的选择性介质中生长。然后,对每种培养物进行如上所述的在分子水平和功能水平上的评估。从时程实验中确定对经编辑线粒体基因组历经世代的维持和表型表达而言足够的酶状态时间。
实施例2
将Cas9、指导RNA和供体DNA靶向至酵母线粒体中
为了精确地在核苷酸水平上编辑细胞器基因组,将供体DNA(包含多核苷酸修饰模板)添加到位点特异性核酸内切酶系统。在一种方法中,将供体DNA与Cas9和指导RNA一起引入线粒体中;如实施例1中所述地将Cas9和指导RNA引入线粒体中。在该实施例中,设计供体DNA以在线粒体基因组中的15S rRNA基因中产生特异性突变,从而赋予巴龙霉素耐受性。位置1514的核苷酸置换(C至G)可以赋予巴龙霉素耐受性。为了产生具有耐受性等位基因的供体DNA,设计一对引物以进行相应的置换(SEQ ID NO:21)。通过使用引物组(SEQ ID NO:21和22)和酵母总DNA作为底物,按照标准PCR方案进行PCR扩增。所得模板DNA通过DNA转化程序(诸如生物弹射法)转化到线粒体中。为了用供体DNA转化,使用如实施例1中所述的表达Cas9和指导RNA的细胞,不同之处在于该指导RNA被设计为在线粒体DNA的巴龙霉素耐受性位点附近进行切割,如SEQ ID NO:23所示。指导RNA的这种设计使得切割位点被供体DNA覆盖,其中重叠序列足以在两端进行同源重组,但是供体DNA不被识别为位点特异性核酸内切酶活性的底物。例如,供体DNA被修饰为不包括由相应的指导RNA靶向的PAM序列。指导RNA的可变靶向结构域在3’端与tracrRNA序列融合,用于与Cas核酸内切酶相关联;通过使用实施例1中描述的tRNALys衍生的方法制备指导RNA表达构建体。
在用供体DNA转化后,将细胞合并在一起并在半乳糖介质中生长以诱导Cas9蛋白持续数个世代,随后通过在介质中逐渐添加增加量的巴龙霉素历经额外的世代,对工程化的DNA进行有利的扩增。将细胞铺板以制备单个集落。在存在和不存在巴龙霉素的情况下,将单个集落影印培养在以甘氨酸为唯一碳源的介质上,以识别巴龙霉素耐受性的集落。与未用供体DNA转化的对照细胞相比,产生的具有模板DNA的巴龙霉素耐受性细胞的比率增加表明了通过此方法进行基因组编辑的有效性。通过对工程化的位点进行测序来确认基因编辑。
进行随后的基因组编辑步骤以消除不携带设计的修饰的细胞器DNA。这可以通过几种方法中的任何一种来实现。一种方法是如上所述将细胞暴露在正选择压力下。另一种方法是消除或降低未修饰细胞器DNA的复制速率。这可以通过使用位点特异性核酸内切酶(诸如锌指蛋白、TALEN和Cas9系统)切割未修饰的DNA来实现。在Cas9方法中,特异性指导RNA的表达被用于切割未修饰的细胞器DNA,从而增加修饰的DNA的数量。
实施例3
内源细胞器DNA的替换
这是修饰细胞器基因组的替代方法。在此方法中,第一步是通过使用位点特异性核酸内切酶(诸如Cas9系统)减少或消除内源细胞器DNA。同时或随后,引入替代细胞器DNA。替代DNA可以是在转化到细胞器中时表达新的基因型和相应性状的细胞器DNA片段或完整细胞器DNA。在细胞器DNA片段的情况下,它们可以通过同源重组整合到剩余的细胞器DNA中。在完整细胞器DNA替换的情况下,可以从具有不同于受体细胞的内源细胞器DNA的DNA组成的栽培种、品系、亚种和其他物种中分离替代DNA。替代DNA的一个要求可以是含有在受体细胞器中具有DNA复制起点功能的DNA元件。替代DNA也可以部分和/或完全合成。当在体外产生替代DNA时,它可以是末端带有反向重复序列的线性DNA。该末端可以促进体外或体内的同源重组,以产生用于细胞中细胞器DNA复制的环状DNA。体外产生的DNA还可以包括外源DNA元件,诸如允许在细菌细胞中进行选择扩增的元件。
为了减少或消除线粒体DNA,将酵母细胞暴露于被设计用于如实施例1中所述被导入线粒体中或如实施例4中所述在细胞器中直接合成的指导RNA和Cas9蛋白的持久表达。靶位点被选择为是内源线粒体DNA特有的并且不存在于核基因组中,以减少采用实施例1中所述的方法时在核基因组上发生任何损害的机会。靶位点也被选择为不存在于替代DNA中。
多个切割位点提高了取代内源细胞器DNA的速率。这可以通过表达靶向内源线粒体DNA中的不同的独特序列的多个指导RNA来实现(例如,参见实施例1的靶位点)。经过Cas9/指导RNA处理后,通过缺乏呼吸、无法在以甘油作为唯一碳源的介质上生长以及缺少线粒体DNA来识别已丧失线粒体DNA的酵母细胞。也可以通过按照实施例1中所述的方法,通过在CsCl梯度中不存在线粒体DNA条带来确认所得的rho0条件。一旦线粒体DNA被删除,则用体外或体内产生的替代DNA转化细胞;例如,衍生自具有与受体细胞不同的性状的不同品系或物种的线粒体DNA。在该实施例中,通过使用实施例2中所述的转化方法,将来自抗生素耐受性品系(例如IL8-8C/R53)的线粒体DNA分离并转化到缺乏该耐受性性状的受体细胞中。用于转化的线粒体DNA也可以通过使用引物组对细胞器DNA进行PCR扩增而产生,该引物组的3’端彼此互补,足以在体内退火。所得的线性DNA分子被转化到线粒体中。存在于细胞器中的同源重组活性在转化时产生环状细胞器DNA。可替代地,可以以线性和环状形式合成产生用于转化的DNA。
实施例4
将供体DNA以及用于Cas9和指导RNA的表达盒引入酵母线粒体中
在该实例中,可在细胞器中复制并编码位点特异性核酸内切酶系统的组分(诸如Cas9、指导RNA和供体DNA)的DNA质粒(“编辑质粒”)被直接引入细胞器中。核酸和蛋白质的递送可以通过利用诸如轰击(“生物弹射”)、电穿孔和其他合适方法的方法来完成。
在酵母中,具有细菌载体序列(pBR322)的环状形式的DNA可以通过利用生物弹射方法转化到线粒体中。所得的细胞与线粒体DNA中携带点突变的品系杂交。它们表明,通过质粒DNA与线粒体DNA之间的重组可以使点突变恢复。为了有效地进行基因组编辑,使用为在线粒体中表达而定制的用于Cas9和指导RNA的表达盒来产生要转化到酵母线粒体中的质粒DNA。质粒DNA还含有供体DNA,以促进位点特异性基因组编辑。Cas9基因针对线粒体表达进行了优化(SEQ ID NO:24),并可操作地连接至COX2启动子和终止子(分别为SEQ ID NO:25和26)。通过将CTN密码子更改为TTA、将GGG/GGC更改为GGT、将GCG/GCC更改为GCT、将CGG/CGC更改为CGT、将CCG/CCC更改为CCT、将AGC更改为AGT、将AGG更改为AGA、将ACG/ACC更改为ACT、将TCG/TCC更改为TCT,和将GAG更改为GAA以及将TGA终止密码子更改为TAA来进行优化。编码含有针对线粒体21S rRNA基因设计的可变靶向结构域(SEQ ID NO:27)的指导RNA的多核苷酸可操作地连接至用于表达线粒体15S rRNA基因的启动子和终止子(分别为SEQID NO:28和29)。供体DNA片段携带具有氯霉素耐受性等位基因CR321的21S rRNA基因。线粒体21Sr RNA基因中的CR321突变可赋予酵母氯霉素耐受性。为了在线粒体中选择质粒,质粒还可以携带正选择标记,诸如具有上述巴龙霉素耐受性突变的活性15S rRNA基因。将该质粒与用于核转化的另一质粒一起转化到酵母品系(诸如MCC123[rho0])的线粒体中,以选择酵母中两个质粒的共转化事件。首先将转化的酵母细胞定殖在介质上,以允许选择核转化体。通过将定殖细胞影印培养在铺有携带相反交配型和野生型线粒体基因组的酵母品系的平板上,可以通过随后将交配细胞影印培养在不可发酵的介质(诸如具有氯霉素(4mg/ml)的YPGE)上来识别对氯霉素具有耐受性的集落。通过与由不具有Cas9和指导RNA的质粒产生的氯霉素耐受性集落的频率进行比较,证实了氯霉素耐受性集落的频率增加。通过对线粒体DNA中的经编辑位点进行测序,进一步证实了成功的基因组编辑。
实施例5
外源基因插入线粒体DNA中和消除未修饰的线粒体DNA
在该实施例中,类似于实施例4,用编辑质粒转化线粒体。编辑质粒含有允许在线粒体中复制的元件,以及位点特异性核酸内切酶系统(如Cas9)的另外组件,诸如指导RNA和供体DNA。供体DNA被设计成以与线粒体基因组同源的两个区域为边界,以进行由位点特异性DNA切割促进的同源重组。在两个同源区域之间展示了表达单元的插入,该单元由COXII启动子、编码GFP荧光蛋白的多核苷酸和终止子组成。供体DNA可以具有有或没有多顺反子表达的多个表达单元;即其中在一个启动子下表达多个编码区。
在一个展示中,Cas9-gRNA复合物靶向两个单独的位点。设计了COB基因中的一个Cas9切割位点(TGTCCCATTAAGACATAAGGTACTTCTACA SEQ ID NO:30的可变靶向结构域;其位于TGG PAM序列之前)和ATP9基因中的另一个切割位点(TGGAGCAGGTATCTCAACAATTGGTTTATTAGGAGC SEQ ID NO:31的可变靶向结构域;其位于AGG PAM序列之前)。包含多核苷酸的供体DNA的一端覆盖COB切割位点,而另一端覆盖ATP9基因,以促进供体DNA与线粒体DNA之间的同源重组。供体DNA在Cas9-gRNA切割位点附近的序列中携带突变,以消除同源重组事件后的后续DNA切割。这些突变被设计为“沉默的”,即突变的序列具有与野生型相同的功能,例如用编码相同氨基酸的同义密码子替换一个密码子。除了在切割位点进行修饰外,我们还设计了Cas9-gRNA复合物,该复合物可切割野生型线粒体DNA中两个主要靶位点之间的另外的位点,但不能切割供体DNA和由供体DNA同源重组产生的线粒体DNA。另外的切割位点促进了“基因组清扫”动作;即消除野生型线粒体DNA而不消除工程化的线粒体DNA。
在一个不同的展示中,供体DNA在GFP处含有编码乳铁蛋白的多核苷酸。
实施例6
哺乳动物线粒体DNA的基因组编辑
为了将Cas9导入哺乳动物的线粒体,将不具有核定位信号元件的Cas9蛋白与线粒体靶向肽融合。一种此类肽是具有32个氨基酸残基的NDUFV2 MTS,NH2-MFFSAALRARAAGLTAHWGRHVRNLHKTVMQN-COOH
(SEQ ID NO:32)。在此情况下,将NDUFV2信号序列与Cas9的氨基末端融合以得到修饰的Cas9(SEQ ID NO:33)。可替代地,可以在人细胞中起作用的另一种信号肽,例如来自柠檬酸合酶的一种信号肽(NH2-MALLTAAARLLGTKNASCLVLAARH-COOH;SEQ ID NO:34),可以用于产生修饰的Cas9(SEQ ID NO:35)。通过使用购自Sigma Aldrich的人转染载体pSF-CMV-Amp,将编码修饰的Cas9基因(具有线粒体靶序列)的多核苷酸可操作地连接至启动子元件如CMV,或将其可操作地连接至诱导型启动子,诸如可从Clontech购买的pTRE2hyg载体的TET诱导型启动子。
类似于其他实施例,指导RNA与线粒体靶向RNA融合;即允许RNA导入线粒体的序列。在该实验中,使用了可被导入人线粒体中的RNA。其中之一是酵母tRNALys。酵母tRNALys及其变体可以导入人线粒体中。使用的另一RNA是5S rRNA,其可以导入人线粒体中。在后一种情况下,将指导RNA克隆到对于线粒体导入可能是必不可少的环C中(SEQ ID NO:36)。
在该实验中,指导RNA被设计成靶向COX3基因(SEQ ID NO:37)。在指导RNA中,可变靶向结构域与tracrRNA序列以及线粒体靶向RNA融合。gRNA表达盒由编码可操作地连接至在人细胞中具有功能的启动子和终止子的指导RNA的多核苷酸组成。在该实施例中,使用了用于组成型表达的U6启动子。对于5S rRNA融合,还使用5S rRNA基因的启动子和终止子(SEQ ID NO:38)。将指导RNA表达盒克隆到携带Cas9表达盒的质粒中,或克隆到不同的转染载体中。将构建的质粒转染至人细胞系(诸如HeLa和HEK293以及HeLa和HepG2 Tet-Off细胞)中,以从基于pTRE2hyg的构建体中诱导型地表达Cas9。转染的细胞在潮霉素存在下进行选择。进行细胞培养物的制备和转染以用于诱导型表达。
转染三天后收获细胞,并使用DNA提取试剂盒提取约106个细胞的总DNA。进行PCR以扩增包含靶位点的区域,并且通过使用高通量测序仪(例如,MiSeq Illumina测序仪)对扩增的DNA进行深度测序。分析序列数据以确认在靶位点处的修饰。
实施例7
对哺乳动物线粒体DNA进行基因组编辑以赋予对氯霉素的耐受性
在针对哺乳动物细胞的该实施例中,通过16S rRNA基因中的核苷酸置换来编辑线粒体DNA以赋予氯霉素耐受性。为此目的,Cas9蛋白、指导RNA和供体DNA三个组分被靶向至线粒体。
小鼠细胞系中的氯霉素耐受性可以映射到线粒体16S rRNA基因中的单个核苷酸变化(CAPR)。指导RNA被设计为包含野生型16S rRNA基因的CAPR突变位点。还以将其按照识别野生型序列但不识别具有CAPR突变的供体DNA的方式设计(SEQ ID NO:39)。供体DNA通过PCR扩增小鼠CAPR细胞的16S rRNA区域产生或人工合成(SEQ ID NO:40)。
如实施例5中所述将Cas9和指导RNA靶向至线粒体。如上所述将具有Cas9和指导RNA表达盒的质粒转染到小鼠细胞系如NIH3H3中。供体DNA被转化到线粒体中。将转染的细胞培养在含有氯霉素(CAP)的介质上。在CAP上选择后,与对照相比,证实了通过基因组编辑产生耐受性细胞。最后,对CAPR细胞的16S rRNA进行测序,以在分子水平上确认基因组编辑。
实施例8
将供体DNA以及用于Cas9和指导RNA的表达盒引入哺乳动物线粒体中
在该实施例中,基因组编辑的包括供体DNA在内的所有组分都被克隆到质粒DNA中,该质粒DNA被引入哺乳动物的线粒体中。将质粒DNA以环状形式或以能够在线粒体中环化的线性形式引入线粒体中。质粒DNA含有允许在线粒体中自主复制的序列。它还可以编码至少一种选择标记,以允许在转化进入线粒体后进行选择。此选择标记可以是具有CAPR突变的活性16S rRNA基因。存在于质粒DNA上的线粒体中用于基因表达的rep/ori和其他元件可以衍生自不同于线粒体DNA编辑的靶物种的物种。如先前实施例中所述,可以为不同于供体DNA的野生型序列设计另外的DNA切割位点。
实施例9
将Cas核酸内切酶和指导RNA引入质体中
为了编辑叶绿体基因组,将Cas9修饰为在蛋白质的N-末端具有叶绿体靶向氨基酸序列(也称为转运肽,TP),并去除任何核定位信号。另外,Cas9的核苷酸序列对于植物物种是密码子优化的,以实现最佳表达(SEQ ID NO:41和42;分别用于核酸和氨基酸序列)。实验中使用了来自叶绿体靶向蛋白(诸如核酮糖二磷酸羧化酶/加氧酶小亚基(rbcS)、叶绿素a/b结合蛋白(Cab)和DnaJ8)的转运肽。每个修饰的Cas9被工程化成具有与Cas9的氨基末端翻译融合的转运肽,以产生TP-Cas9(SEQ ID NO:46)。编码此类融合蛋白的多核苷酸的表达处在在植物中具有功能的启动子诸如CaMV 35S启动子的控制下。没有转运肽的Cas9用作对照(SEQ ID NO:41和42)。
为了将指导RNA转运到叶绿体中,使用可以导入叶绿体中的RNA序列。可以介导附接的异源RNA的导入的这些质体靶向RNA(在本文中也称为“转运RNA”)包括vd-5’UTR(SEQID NO:48)和eIF4E1 mRNA(SEQ ID NO:49)。编码这些融合体转录物的多核苷酸的转录处在在植物中具有功能的核启动子的控制下,诸如35S CaMV启动子(例如,pBC-Yellow的1.3-kb35S启动子或U6启动子;染色体8玉米U6聚合酶III启动子)。没有质体靶向RNA的指导RNA用作对照(SEQ ID NO:50)。
作为产生gRNA的替代方法,使用序列特异性核糖核酸内切酶,诸如负责处理来自铜绿假单胞菌的CRISPR转录物的Csy4(SEQ ID NO:51-52,分别用于核酸和氨基酸序列)。Csy4识别序列是:5’-GTTCACTGCCGTATAGGCAG-3’(SEQ ID NO:53)。在初级转录物当中,gRNA序列的侧翼为Csy4识别序列(SEQ ID NO:54)。编码与5’质体靶向RNA融合的该序列的多核苷酸在核中从35S CaMV启动子或U6启动子转录,并靶向叶绿体中。为了将Csy4蛋白靶向叶绿体中,使用SEQ ID NO:43–45中列出的叶绿体转运肽之一作为与Csy4的N末端翻译融合体。
实施例10
将编码Cas核酸内切酶和指导RNA的RNA引入质体中
质体靶向RNA可以将异源RNA转运到质体中,该异源RNA然后由叶绿体翻译机制翻译。利用该特性将所有基因组编辑组分作为RNA分子转运到叶绿体中;转运的mRNA随后被翻译,并且产生的蛋白质参与编辑过程。在该方法中,制备包含可操作地连接至编码RNA的多核苷酸的启动子的表达盒,该RNA包含以下各项:质体靶向RNA、rbs(核糖体结合位点)、Cas9编码序列、rbs、Csy4编码序列、Csy4识别序列、gRNA和Csy4识别序列。该表达盒通过转化而整合到核基因组中。上述重组DNA构建体中的启动子是在植物中具有功能的启动子,诸如CaMV 35S启动子。所得的RNA分子被转运到叶绿体中。一旦其进入叶绿体,Cas9和Csy4蛋白就会由叶绿体翻译机制产生。由Csy4从转运的RNA分子加工而成的Cas9和gRNA的复合物在叶绿体基因组中找到并编辑靶位点。
实施例11
指导RNA靶位点选择
指导RNA靶位点选自叶绿体基因组的基因间区域以及基因区域。后者的实例包括rpoB、psbA、rps15和rpl33。rpoB基因的删除可以显示出光合作用缺陷的表型。psbA基因的删除可以产生光系统II缺陷。rps15和rpl33的双重删除可以在自养条件下导致合成致死性。使用基于网络的生物信息学程序APE(http://biologylabs.utah.edu/jorgensen/wayned/ape/)来促进针对gRNA靶位点的选择过程。
为了选择烟草的gRNA靶位点,使用烟草的叶绿体基因组序列。对于本生烟的gRNA靶位点,由于本生烟的总叶绿体基因组序列不可用,因此使用本生烟叶绿体基因组中的靶区域的公开序列保藏(public sequence deposition)或直接测序。另外,由于紧密相关的植物物种可以具有高度保守的叶绿体DNA序列,因此也将烟草叶绿体DNA序列用于设计本生烟的gRNA靶位点。同样,来自NCBI细胞器基因组资源的大豆(株系:William 82)叶绿体基因组序列被用作参考基因组,用于设计大豆叶绿体DNA中的试验性gRNA靶位点,尚待对转化的特定品系进行测序。
为了编辑指示的基因序列区域,选择以下序列用于可变靶向结构域。术语“Nt”对应于“烟草”,术语“Cp”对应于“叶绿体”,而术语“Glma”对应于“大豆”。当可变靶向结构域在基因序列的反向互补序列上时,指示术语“反向”。
用于NtCp_rpoB(RNA聚合酶β链)(SEQ ID NO:55)
1.TTAGAGGAAGAGCCAAACAG(SEQ ID NO:56)
2.CTTGCTATAGCCGAACGCGA(SEQ ID NO:57)
用于NtCp_psbA(光系统II蛋白D1)(SEQ ID NO:58)
1.GTTGATGAATGGTTATACAA(SEQ ID NO:59)
2.GATGATCCCTACCTTATTGA(SEQ ID NO:60)
用于NtCp_rps15(核糖体蛋白S15)(SEQ ID NO:61)
1.ATTTCTCAAGAAGAAAAGAG(SEQ ID NO:62)
2.TCAATTTCACCAATAAGATA(SEQ ID NO:63)
用于NtCp_rpl33(50S核糖体蛋白L33)(SEQ ID NO:64)
1.GATATATTACTCAAAAGAAC(SEQ ID NO:65)
2.AGTGTTGATAAGGTATCAAG(SEQ ID NO:66)
用于GlmaCp rpoB(RNA聚合酶β链)(SEQ ID NO:67)
1.TGTCTAAAACTACCTACAGG(SEQ ID NO:68)
2.AGCGGAATTTCGGTCTATAC(SEQ ID NO:69)(反向)
用于GlmaCp psbA(光系统II蛋白D1)(SEQ ID NO:70)
1.GGTGTAGCTGGTGTATTCGG(SEQ ID NO:71)
2.TCTAGATCTAGCTGCGATCG(SEQ ID NO:72)(反向)
用于GlmaCp_rps15(核糖体蛋白S15)(SEQ ID NO:73)
1.ATAGAATACGAAGACTTACT(SEQ ID NO:74)(反向)
2.TGTCAAAGAAAGATAGAATA(SEQ ID NO:75)
用于GlmaCp_rpl33(50S核糖体蛋白L33)(SEQ ID NO:76)
1.CGTTGTTGCAAACATACAAT(SEQ ID NO:77)(反向)
2.ACAGAATACGCCTAGTCGAT(SEQ ID NO:78)
用于本生烟rps16(核糖体蛋白S16)(SEQ ID NO:79)
1.TTGTGGATTTGTACATCCAC(SEQ ID NO:80)(反向)
2.TTGAACTGTTTGAAAGTTAT(SEQ ID NO:81)(反向)
用于本生烟matK(成熟酶K)(SEQ ID NO:82)
1.CTTGTGCTAGAACTTTAGCT(SEQ ID NO:83)
2.CGTTCATCTGGAAATCTTGG(SEQ ID NO:84)(反向)
为了编辑基因间区域,选择以下序列用于可变靶向结构域。
烟草:
1.AAGAACTTCCCCCTTGACAG(NtChrC;57408..57389)(SEQ ID NO:85)
2.TATACAGGATGGGTAGAAAG(NtChrC;59412..59393)(SEQ ID NO:86)
3.ATATAATTTTTAATAAAGGG(NtChrC;59622..59603)(SEQ ID NO:87)
4.CTAGTCTTCGACACAAGAAA(NtChrC;65704..65723)(SEQ ID NO:88)
大豆:
1.ATAACAGAAGTTAAAGAAGA
(GlmaCp_NC_007942.1_59039-59058)(SEQ ID NO:89)
2.ATCTGGAAACCATAGAACAG
(GlmaCp_NC_007942.1_59100-59119)(SEQ ID NO:90)
3.CTATTTCGACACAAACAAGA
(GlmaCp_NC_007942.1_62057-62038)(SEQ ID NO:91)
4.CTTTCTTTGACGAATTCGAG
(GlmaCp_NC_007942.1_62361-62380)(SEQ ID NO:92)
实施例12
用编码Cas核酸内切酶和指导RNA的多核苷酸进行转化
如上所述的编码(a)与转运肽融合的Cas9;和(b)与vd-5’UTR或eIF4E1 mRNA融合的gRNA的基因盒被亚克隆到二元载体(诸如如pPZP)中,并引入到植物中以进行瞬时表达或稳定表达。在一些实验中,与转运肽融合的编码Csy4的DNA也被转化到植物中。可以使用几种方法中的任何一种,用DNA序列来转化植物。这些方法包括农杆菌渗入法、生物弹射轰击和花浸泡法。
类似的方法也适用于其他植物物种,包括双子叶植物如油菜和单子叶植物如水稻、小麦和玉米。
实施例13
通过逆转录酶将供体DNA引入质体中
将供体DNA引入质体基因组中,以按照选自以下的至少一种方式编辑基因组:(1)在靶基因中产生点突变;(2)用异源DNA序列替换内源编码区或调控序列;以及(3)插入异源DNA序列(例如,用于表达异源蛋白或RNA;用于调节内源基因)。
在以上实施例中,提出了几种用于将Cas9和gRNA递送到叶绿体中的方法。在当前实施例中,供体DNA也被递送到叶绿体中。在一种方法中,通过RNA供体分子的逆转录而生成用于在叶绿体中进行同源重组的供体DNA,该RNA供体分子通过转运RNA指导的转运被转运到叶绿体中。从转化的核基因组转录的RNA供体分子含有以下项:(1)转运RNA,(2)用于同源重组的序列;(3)多核苷酸修饰模板序列,其具有以下至少一项:具有预期突变(例如,16SrRNA中的位点特异性突变)的内源序列和异源序列(例如,异源蛋白质编码序列);以及(4)用作逆转录酶的引发位点的序列。在同源DNA区域中,将另外的突变例如沉默点突变引入序列中,以将这些区域与叶绿体DNA上的另外的gRNA靶位点区分开。另外的gRNA靶位点用于切割叶绿体DNA的未转化拷贝。通过与SEQ ID NO:43-45中描述的任何质体靶向肽的翻译融合体,将逆转录酶蛋白靶向到叶绿体中。可替代地,将编码逆转录酶的mRNA分子(具有质体rbs)作为与SEQ ID NO:48-49中描述的任何一质体靶向RNA的融合体分子转运到叶绿体中,并通过内源翻译机制在叶绿体中翻译。
实施例14
通过与两个多核苷酸的共轰击将供体DNA引入质体中
另一种将供体DNA与Cas9和gRNA共同递送的方法是通过两个DNA分子的共轰击来实现的。在此方法中,编码Cas9和gRNA的第一DNA分子(采用先前实施例中描述的叶绿体转运方法)被靶向用于转化到核基因组中。具有供体DNA序列和同源重组序列的第二DNA分子被靶向用于转化到叶绿体基因组中。第二DNA分子也可以含有叶绿体复制起点。为了进行转化,两种DNA分子均通过生物弹射轰击递送至植物细胞。生物弹射颗粒的制备如下:(1)同时或依次用两种DNA分子包被颗粒;或(2)用每种DNA分子单独包被颗粒,然后以相同的摩尔比率混合。为了选择核转化,可以使用常用的抗生素标记(诸如nptII和bar)和/或荧光蛋白标记。为了选择叶绿体转化,使用抗生素标记(诸如aadA)和/或荧光蛋白标记。用于叶绿体转化选择标记的表达盒或是整合到质体基因组中的携带多核糖核酸的供体DNA的一部分,或位于供体DNA区域的之外,但保留在递送的DNA分子上而不整合到叶绿体基因组中。
在将多核苷酸修饰模板递送至叶绿体中的上述实施例的变型中,首先将编码Cas9和gRNA(具有或不具有Csy4)的多核苷酸转化到核基因组中。这些组分的基因表达在诱导型启动子的控制下。借助于选择标记(抗生素标记和/或荧光标记蛋白),选择稳定转化的植物。进行第二次转化,以用含有多核苷酸修饰模板DNA、同源重组序列和选择标记(诸如aadA和/或荧光标记蛋白)的DNA分子转化叶绿体DNA。在用于核和叶绿体转基因的选择剂的存在下,以及在核转基因上的诱导型启动子具有转录Cas9和gRNA(随后通过上述实施例中所述的机制将其转运到叶绿体中)的活性的条件下进行转化体的选择。
实施例15
通过农杆菌介导的转化将供体DNA引入质体中
供体DNA转运到叶绿体中还通过农杆菌介导的转化进行。如上所述,产生了稳定的转基因品系,其含有具有诱导型启动子的编码Cas9和gRNA的多核苷酸。然后用修饰的农杆菌菌株转化该品系,其中该修饰包括以下项:(1)添加与VirD2融合的叶绿体转运肽;(2)删除VirE2;以及(3)从VirD2去除核定位信号。构建在右边T-DNA边界与左边T-DNA边界之间具有多核苷酸修饰模板、同源重组序列和选择标记(诸如aadA和/或荧光标记蛋白)的二元载体,并将其转化到农杆菌中。为了进行转化,将具有编码Cas9和gRNA的多核苷酸的稳定转基因品系与农杆菌一起温育。与单链T-DNA共价连接的VirD2蛋白进入植物细胞,并通过N末端转运肽转运到叶绿体中。通过利用核标记(nptII)和叶绿体标记(aadA)的双重选择并在诱导型启动子具有转录编码Cas9和gRNA(随后通过上述实例中所述的机制将其转运到叶绿体中)的多核苷酸的活性的条件下进行转基因选择。
实施例16
将供体DNA以及用于Cas9和指导RNA的表达盒引入质粒中
在该实施例中,可在质体中复制并编码位点特异性核酸内切酶系统的组分(诸如Cas9、指导RNA和供体DNA)的DNA质粒(“编辑质粒”)被直接引入质体中。核酸和蛋白质的递送可以通过利用诸如轰击(生物弹射)、电穿孔和其他可用方法的方法来完成。此处显示了烟草叶绿体的一个实例。
烟草叶绿体的编辑质粒的构建如下。将编码Cas9和指导RNA的多核苷酸克隆到载体中,并可操作地连接至适当的启动子和终止子,以允许在烟草叶绿体中表达。可替代地,这两个编码区可以被连接并在一个启动子下多顺反子地转录。可以加工多顺反子RNA以产生用于基因组编辑的单独的功能RNA分子,一个用于Cas9翻译,另一个用于指导RNA。编码能够在叶绿体中选择质粒的选择标记(诸如赋予奇霉素耐受性的aadA基因)的多核苷酸也存在于质粒DNA上,与在叶绿体中有活性的合适的启动子和终止子可操作地连接。质粒上还存在编码负选择标记基因的表达盒以允许反向选择,即在编辑后选择没有编辑质粒的叶绿体,并随后实现野生型叶绿体DNA的消除。dao基因就是一种这样负选择标记基因。此外,载体中还存在允许编辑质粒复制的元件。此元件可以衍生自靶物种的叶绿体DNA,或者可替代地衍生自另一物种的叶绿体DNA,以及衍生自完全合成的来源。另外,供体DNA存在于载体上以允许精确的DNA编辑和/或异源DNA元件在叶绿体DNA中的特异性位点的精确插入。
作为一个实例,将烟草叶绿体DNA中的野生型psbA基因替换为携带赋予对除草剂三嗪的耐受性的单核苷酸置换的等位基因。此突变可以天然存在于耐受除草剂的植物中。为了在突变位点附近进行DNA切割,设计了指导RNA以靶向以下DNA序列。
Figure BDA0002461830960001431
Figure BDA0002461830960001441
PAM序列(TGG)为粗体。
供体DNA含有以下序列,其中五个突变以粗体显示。
Figure BDA0002461830960001442
阿特拉津耐受性突变(G)加下划线。存在不改变蛋白质序列的另外四个改变,以使该供体DNA免于作为设计用于内源野生型psbA序列的指导RNA的靶标。特别地,一个改变消除了对于指导RNA与靶多核酸(例如,靶DNA)位点配对至关重要的PAM序列。
为了促进同源重组,供体DNA在上述序列的上游和下游以更长的同源序列为边界。
如Chloroplast Biotechnology Methods and Protocols,Pal Maliga(编者),Methods in Molecular Biology,Springer,NewYork(2014)中所述,通过生物弹射方法将编辑质粒转化到烟草叶绿体中。在含有奇霉素的介质上选择具有转化的叶绿体的细胞。在选择介质上培养愈伤组织细胞后,将愈伤组织转移至含有阿特拉津的介质中,以评估用供体DNA编辑位点特异性基因组的频率。对该除草剂有耐受性的愈伤组织细胞的测序在分子水平上证实了成功的基因组编辑。
为了提高获得具有工程化DNA的同质叶绿体的速率,在野生型序列中设计了由与供体DNA相邻的相应同源区域覆盖的另外的靶位点。为了保护叶绿体中的供体DNA和经编辑DNA,供体DNA带有避免被Cas9核酸内切酶切割的沉默突变;例如,用编码相同氨基酸的同义密码子替换密码子。将编码对应于那些另外的靶位点的gRNA的表达盒克隆到编辑质粒载体中,以在叶绿体中表达。编辑质粒中也存在具有经突变的(保护免于Cas9核酸内切酶切割)另外的gRNA靶位点的供体DNA。
如上所述,将具有增加的基因组清扫活性的上述编辑质粒转化到烟草叶绿体中。在含有奇霉素的介质上选择具有转化的叶绿体的细胞。在选择介质上培养愈伤组织细胞后,将愈伤组织转移至含有阿特拉津的介质中,以评估用模板DNA编辑位点特异性基因组的频率。对该除草剂有耐受性的愈伤组织细胞的测序在分子水平上证实了成功的基因组编辑。
当实现经编辑细胞器DNA的稳定遗传时,可以在对编辑质粒的非选择性条件下在后代植物中分离出编辑质粒。可以通过使用编辑质粒中编码的负选择标记来促进分离过程,例如对dao基因的D-缬氨酸选择。
实施例17
质体基因表达的调控元件
可以构建具有在质体中有功能的启动子的表达盒,该启动子可操作地连接至以下任一项:(a)供体多核苷酸;或(b)作为多顺反子单元排列的多个供体多核苷酸。期望的5’-UTR也可以存在于表达盒中,可操作地连接至启动子的3’端。
在一个表达盒中,待转录的多核苷酸(或多个多核苷酸)可以可操作地连接至以下启动子::5’-UTR调控元件:
(a)与玉米clpP 5’-UTR组合的玉米clpP启动子;
(b)与来自噬菌体T7基因10的5’UTR组合的玉米clpP启动子;
(c)与T7g10 5’–UTR组合的番茄psbA启动子;和
(d)与accD-mod 5’–UTR组合的番茄rrn16启动子。
上述调控元件可以通过PCR扩增获得。
实施例18
用于在细胞器中表达的抗虫性基因
使用编码全长天然HD73 Cry1Acδ-内毒素(SEQ ID NO:109)的来自苏云金芽孢杆菌库斯塔克亚种血清变型的野生型核酸序列(U89872;SEQ ID NO:108)构建用于细胞器转化的表达盒。可替代地,使用编码有活性的截短Cry1Ac片段的截短天然核酸序列(SEQ IDNO:110)。另外,在一些情况下,编码全长或截短Cry1Ac蛋白的核酸序列对于感兴趣的细胞器是密码子优化的。
在一些情况下,将编码在赋予植物抗虫性方面有用的蛋白质的另外多核苷酸作为多顺反子单元包含在上述表达盒中,或从单独的表达盒表达。这些多核苷酸编码以下项:(a)来自苏云金芽孢杆菌以色列亚种血清变型的Cyt1Aa蛋白(GeneID:5759908;SEQ ID NO:111);(b)来自苏云金芽孢杆菌以色列亚种血清变型的20kDa辅助蛋白(pBt024;SEQ ID NO:112);以及(c)来自苏云金芽孢杆菌以色列亚种血清变型的19kDa辅助蛋白(pBt022;SEQ IDNO:113)。
实施例19
具有增强的抗虫性的工程化植物
在该实施例中,对植物(例如,大豆植物)进行工程化,以增强抗虫性。任选地,该植物还具有增强的对除草剂的耐受性。
本公开内容的位点特异性核酸内切酶系统(例如,Cas9、指导RNA和供体DNA)被用于将一个或多个杀虫蛋白引入植物细胞(例如,大豆细胞)的细胞器(例如,质体)基因组中。一个或多个杀虫蛋白或其片段选自:Cry1Ac、Cyt1Aa(例如,SEQ ID NO:109或SEQ ID NO:110)、Cry1Ab、Cry2Aa、Cry1I、Cry1C、Cry1D、Cry1E、Cry1Be、Cry1Fa和Vip3A。
在一些情况下,一个或多个辅助蛋白也被引入植物细胞的细胞体(例如,质体)基因组中。一个或多个辅助蛋白可以与杀虫蛋白结合,并选自:20kDa辅助蛋白和19kDa辅助蛋白。
另外或独立地,在一些情况下,位点特异性核酸内切酶系统(例如,Cas9、指导RNA和供体DNA)被用于将一个或多个编码dsRNA、siRNA和/或miRNA的异源供体多核苷酸引入植物细胞(例如,大豆细胞)的细胞器(例如,质体)基因组中,其中dsRNA、siRNA和miRNA可以抑制植物害虫中存在的至少一个靶基因。dsRNA、siRNA和miRNA可以抑制选自以下的至少一个靶基因:蛋白酶体A型亚基肽(Pas-4)、ACT、SHR、EPIC2B和PnPMAI。基于RNA干扰的机制可以用于保护工程化植物免遭害虫。
任选地,在一些情况下,还使用本公开内容的位点特异性核酸内切酶系统(例如,Cas9、指导RNA和供体DNA)将一个或多个除草剂耐受性蛋白引入植物细胞的细胞器(例如,质体)基因组中。除草剂耐受性蛋白可以是选自以下的至少一种:4-羟基苯丙酮酸双加氧酶(HPPD)、耐磺酰脲的乙酰乳酸合酶(ALS)、耐咪唑啉酮的乙酰乳酸合酶(ALS)、耐草甘膦的5-烯醇丙酮酰莽草酸-3-磷酸合酶(EPSPS)、耐草甘膦的草甘膦氧化还原酶(GOX)、草甘膦N-乙酰转移酶(GAT)、膦丝菌素乙酰转移酶(PAT)、原卟啉原氧化酶(PROTOX)、生长素酶或受体、P450多肽和乙酰辅酶A羧化酶(ACC酶)。
实施例20
通过编辑质粒方法对酵母线粒体DNA的遗传修饰
为了显示用我们的方法在酵母酿酒酵母中进行线粒体基因组编辑,设计了各种编辑质粒构建体。使用的参考序列是来自酿酒酵母基因组数据库(SGD)(https://www.yeastgenome.org/)的竞争线粒体基因组序列。靶基因是COX1基因(也称为oxi3基因)。先前已经显示该基因的突变体具有呼吸缺陷表型(https://www.yeastgenome.org/locus/S000007260)。使用了COX1基因中的以下四个指导RNA靶位点(当靶向序列位于基因序列的反向互补序列上时,指示术语“反向”):
1)TTCTTTGAAGTATCAGGAGGTGG(SEQ ID NO:116);
2)ATGATTATTGCAATTCCAACAGG(SEQ ID NO:117);
3)GCTATTTTTAGTGGTATGGCAGG(SEQ ID NO:118);和
4)ACCATGTAAATATTGTGAACCAGG(SEQ ID NO:119)(反向)。
每个序列中的最后三个核苷酸对应于PAM序列。第一个靶位点位于外显子5中,第二个位于外显子4中,第三个位于外显子1中,并且第四个位于线粒体COX1基因的外显子1的3’端的接点处。每个编辑质粒含有编码指导RNA的指导RNA表达盒,该指导RNA引导至四个COX1靶位点中的一个或两个。每个指导RNA的可变靶向结构域不含有上文列出的3核苷酸PAM序列。
按照Fox实验室开发的方案进行酵母线粒体转化(Fox等人,1988 Proc Natl AcadSci USA 85:7288-7292;Bonnefoy和Fox 2001 Methods Enzymol 350:97-111)。先前已经显示,衍生自pBR322的质粒能够在酵母线粒体中复制(Fox等人,1988)。使用衍生自pBR322的一种质粒pHD6,并且该质粒过去已经成功地转化到酵母线粒体中(Green-Willms等人,2001J Biol Chem 276:6392-6397)。除了COX3基因的基因组片段外,通过用PstI和HindIII消化的pHD6的所有克隆片段都被删除,剩下pBR322主链来产生我们的构建体。COX3片段(0.75kb PacI-MboI)以其挽救cox3缺失突变体cox3-10的能力被用作线粒体转化体的筛选标记,如Fox等人,1988中所述。编辑质粒构建体在pBR322主链中含有以下元件:Cas9表达盒、指导RNA表达盒,以及在DNA替换实验的情况下的供体DNA。Cas9表达盒具有针对在酵母线粒体中的表达而优化的Cas9编码序列(SEQ ID NO:120)。作为密码子优化的一部分,将在酵母线粒体中根本不使用或很少使用的Cas9密码子替换为经常使用的密码子。同样,许多色氨酸密码子被TGA替换,TGA是通用密码子表中的终止密码子,但在酵母线粒体中被翻译成色氨酸(Fox 1979 Proc Natl Acad Sci USA 76:6534-6538)。这被设计用于在微粒DNA转化后防止Cas9在核中表达。用具有5’UTR的最小启动子和COX2基因的终止子合成具有优化的Cas9 ORF的表达盒;这些调控元件分别以PstI和HindIII位点(SEQ ID NO:121和SEQID NO:122)为侧翼。选择长度分别为71bp和119bp的最小启动子和终止子(Mireau等人,2003 Mol Gen Genomics 270:1-8),目的是抑制该位点的同源重组,并避免整合进入线粒体基因组。在HindIII端包含几个独特的限制位点(XbaI、NotI和NcoI位点),以方便克隆另外的元件。此类元件之一是指导RNA表达盒。通过将每个靶向序列与tracrRNA序列(SEQ IDNO:123)融合来产生靶向上述COX1序列的指导RNA。每个指导RNA表达盒均编码一个或两个指导RNA,其被引导至四个COX1靶位点中的相应的一个或两个。
指导RNA表达盒以5’至3’方向含有以下元件:最小COX3启动子(SEQ ID NO:124);tRNA基因tF(GAA)(SEQ ID NO:125);被引导至COX1位点的单指导RNA;第二tRNA基因tW(UCA)(SEQ ID NO:126);和最小COX3终止子元件(SEQ ID NO:127)。通过将被引导至COX1位点1和位点2的指导RNA,以及被引导至位点3和位点4的指导RNA结合在一起产生具有两个指导RNA的构建体。当存在两个指导RNA编码序列时,第二个指导RNA直接融合在tW(UCA)序列之后,并且侧翼为在3’端处并在COX3终止子之前的第三tRNA基因tM(CAU)(SEQ ID NO:128)。合成具有启动子和终止子元件的指导RNA表达盒,其在5’端有NotI位点并且在3’端有NcoI位点,以允许定向克隆到携带Cas9表达盒的pBR322主链中。
对于DNA替换实验,合成携带GFP基因的供体DNA,并将其克隆到编码两个指导RNA的构建体的NcoI位点中。编码GFP的核苷酸序列(SEQ ID NO:129)对于在酵母线粒体中表达是密码子优化的,如对Cas9所做的那样(参见上文)。将色氨酸的几个密码子更改为TGA,以确保GFP仅在线粒体中表达。同样,将GFP编码区设计为与DNA替换后的COX1基因在同一框内。GFP ORF的两端在Cas9切割位点的外部接点处与COX1基因组序列融合。HR1-HR4对应于编辑质粒的构建中所使用的四个短同源性区域;它们各自紧邻相应的指导RNA靶位点。选择每一端的同源区域的长度为相对短,以尽可能减少在没有Cas9切割的情况下的内源同源重组,即与#1指导RNA位点相邻的144bp(HR1;SEQ ID NO:130)、与#2指导RNA位点相邻的115bp(HR2;SEQ ID NO:131)、与#3指导RNA位点相邻的64bp(HR3;SEQ ID NO:132)和与#4指导RNA位点相邻的93bp(HR4;SEQ ID NO:133)。该设计会促进由Cas9活性而非一般同源重组诱导的DNA替换。另外,编辑质粒会保持自主而不整合到基因组中。此外,在供体DNA内的指导RNA识别位点处包括序列变化,使得替换后的线粒体DNA将不再被指导RNA/Cas9复合物识别。这样做是为了防止从经基因编辑的线粒体基因组中删除替换的DNA。第一靶位点的变体在SEQID NO:134下列出,其中指导RNA识别位点中的20个核苷酸中的7个已被改变。通过删除识别位点5’端的16个核苷酸来产生第二位点的变体(SEQ ID NO:135)。通过删除最后五个核苷酸来修饰第三靶位点(SEQ ID NO:136)。通过删除5’端的14个核苷酸来修饰第四靶位点(SEQ ID NO:137)。
表1列出了为此实验制备的构建体。
表1
用于酵母线粒体的编辑质粒的组分
构建体 表达盒1* 表达盒2** 供体DNA
HS1 Cas9m tF:sgRNA-3:tW N/A
HS2 Cas9m tF:sgRNA-4:tW N/A
HS3 Cas9m tF:sgRNA-3:tW:sgRNA-4:tM N/A
HS4 Cas9m tF:sgRNA-3:tW:sgRNA-4:tM HR3:GFPm:HR4
HS5 Cas9m tF:sgRNA-3:tW:sgRNA-4:tM HR3:GFPm:HR4***
HS6 N/A tF:sgRNA-2:tW:sgRNA-1:tM HR1:GFPm:HR2
HS7 N/A tF:sgRNA-3:tW:sgRNA-4:tM HR3:GFPm:HR4
HS8 Cas9m tF:sgRNA-2:tW:sgRNA-1:tM HR1:GFPm:HR2
HS9 Cas9m tF:sgRNA-2:tW:sgRNA-1:tM N/A
HS10 Cas9m tF:sgRNA-1:tW N/A
HS11 Cas9m tF:sgRNA-2:tW N/A
*每个表达盒1均具有带有5’UTR的COX2启动子和COX2终止子。
**每个表达盒2均具有COX3启动子和COX3终止子。
***供体DNA相对于构建体HS4反向定向。
使用Bonnefoy和Fox,2001中所述的生物弹射微弹方法,将产生的构建体转化到缺少线粒体DNA(rho0)的酵母品系MCC109rho0(MATα ade2 ura3 kar1)中。与作为载体质粒的具有URA3选择标记的pYES2一起进行转化,使得URA+核转化体可以在补充物中缺乏尿嘧啶的基本培养基上被首先选择。为了识别线粒体转化体,测定了URA+集落通过与MCC125(MATalys2 rho+cox3-10)杂交来挽救cox3缺失突变体的能力。将该测定法重复至少两次以获得线粒体中具有编辑质粒的干净集落。然后将含有编辑质粒的分离的品系与含有野生型线粒体基因组的品系CUY563(MATa ura3 ade2 leu2 ade3 rho+)和NB80(MATa lys2 arg8 ura3leu2 rho+)杂交,以分析Cas9在靶位点处的基因组编辑作用。在经历双链断裂的核染色体中,可能会预期在靶位点处有高频的突变,诸如小缺失或插入。它们是由指导RNA依赖性Cas9活性触发的DNA切割的位点处的非同源末端连接(NHEJ)修复的结果。在酵母中,染色体中双链断裂的修复的90%通过同源重组发生(Ricchetti等人,1999 Nature 402:96-100)。在一个细胞器中存在多个拷贝的线粒体DNA的线粒体中,预期通过同源重组对dsDNA断裂的修复会比在核中明显更加频繁。在此情况下,在线粒体中由DNA末端重新连接引起的插入缺失突变的频率预期会极低。出于这一考虑,我们专注于检测由通过同源重组进行的修复导致的事件,即用人工供体DNA替换。
为了测定通过Cas9诱导的切割进行的DNA替换,如上所述地将构建体HS8及其对照构建体HS6各自转化到缺乏线粒体DNA的菌株中。每种构建体都携带具有GFP的供体DNA以及两个相应的指导RNA基因(#1和#2),但是HS6缺少Cas9表达盒。通过随后筛选其挽救cox3缺失突变体的能力来识别含有每种构建体的品系。然后将分离的线粒体转化体与携带野生型线粒体基因组的菌株CUY563和NB80杂交,以观察编辑质粒对线粒体基因组DNA的影响。在杂交后两天,通过对合并的细胞进行PCR扩增来分析切割位点处的DNA替换事件。使用引物组,其中一个引物来自切割位点附近的线粒体基因组区域,而另一个引物来自供体DNA区域,如此选择使得只能从线粒体基因组中正确替换的DNA扩增出所需的PCR产物,而无法从野生型线粒体DNA和编辑质粒中扩增出所需的PCR产物。使用了以下四个引物对:用于5’端接点的引物C和引物12;用于3’端接点的引物D和引物11、引物E和引物11以及引物F和引物11。引物C、D、E和F对于COX1基因的基因组区域是特异性的(分别为SEQ ID NO:138、139、140和141)。引物11和引物12对GFP基因是特异性的(分别为SEQ ID NO:142和143)。PCR扩增按以下步骤进行:步骤1:94℃持续7分钟,步骤2:94℃持续30秒,步骤3:52℃持续30秒,步骤4:60℃持续1分钟30秒,步骤5:步骤2进行39次,步骤6:60℃持续10分钟。选择延伸反应的低温以适应富含AT的基因组序列。PCR扩增后,通过使用上述四个不同的引物对,我们观察到了来自替换的DNA的两端的预期大小的DNA片段。在与携带对照构建体的品系杂交的细胞样品中,没有扩增出相应的DNA片段。
将扩增的DNA片段直接测序。图1显示了从通过编辑质粒方法修饰的经转化酵母线粒体DNA中的替换DNA基因座的PCR扩增获得的序列。在5’和3’端的下划线序列指示编辑质粒上不存在的野生型线粒体基因组序列。粗体的序列指示供体DNA中存在的并与相应的指导RNA靶位点相邻的短同源区域。带有双下划线的序列指示供体DNA中存在的修饰的指导RNA靶位点;改变的核苷酸以粗体显示。替换的DNA中的指导RNA靶位点已被修饰,以防止整合到线粒体基因组中后的核酸酶活性。密码子优化的GFP编码区以斜体显示。小写字母表示的序列对应于用于扩增替换的DNA基因座的引物C和引物F。同源重组按预期发生;即替换的DNA和周围的野生型线粒体DNA均无序列变化。
覆盖替换区域的序列(SEQ ID NO:144;图1)与构建体完全匹配。图1中也示出了在5’和3’端的序列(以下划线显示),其是编辑质粒上不存在的野生型线粒体基因组序列,与编辑质粒中存在的HR区域(以粗体显示)连续。总之,通过使用编码Cas9表达盒、多个指导RNA表达盒和供体DNA模板的编辑质粒,在酵母线粒体中观察到DNA替换。
此外,从携带编辑质粒的HS8品系与野生型菌株NB80之间的杂交中分离出单集落。当通过荧光显微镜观察时,从一部分集落确认了GFP信号。
为了显示编辑质粒在线粒体中的自主复制性质,我们尝试在上述杂交后从细胞中挽救质粒。每次杂交后取样1ml过夜细胞培养物,并进行总DNA分离。将通过使用Quick-DNAMiniprep Plus试剂盒(Zymo Research)获得的200ng总DNA用ApaI和SphI消化,以切割总DNA部分中的pYES2质粒DNA;HS8质粒由于不具有这些限制位点,应该会保持完整。在65℃将限制酶灭活20min后,该DNA被用于转化大肠杆菌细胞。识别了在含有羧苄青霉素的LB介质上生长的多个集落。分离DNA,用几种限制酶消化,并通过凝胶电泳分离消化产物。从两个独立的杂交中识别出许多质粒,其展示出与原始HS8构建体相同的消化模式,表明原始编辑质粒HS8的挽救是成功的。这表明在野生型线粒体DNA的存在下,编辑质粒作为自主复制DNA保留,而没有整合到细胞器基因组中。
实施例21
通过编辑质粒方法对莱茵衣藻叶绿体DNA的遗传修饰
指导RNA靶位点选自莱茵衣藻叶绿体基因组的基因区域。使用的参考序列是来自NCBI的竞争叶绿体基因组序列(登录号:NC_005353,版本号:NC_005353.1)。靶基因是psaA。先前已经显示该基因的突变体具有光合作用缺陷的表型(Redding等人,1999,JBiol.Chem.274:10466–10473)。为了帮助设计和选择指导RNA靶位点,使用了基于网络的生物信息学程序——CRISPOR(http://crispor.tefor.net/,Haeussler等人,2016GenomeBiology 17:148-159)。选择以下序列作为指导RNA靶向位点,用于编辑psaA基因中的外显子3。当靶向序列在基因序列的反向互补序列上时,指示术语“反向”。对于下面列出的每个23个核苷酸的靶位点,前20个核苷酸是每个相应的指导RNA中存在的靶向序列,而最后3个核苷酸是PAM序列。
1.GGTTTAAACCCTGTTACTGGTGG(SEQ ID NO:145)
2.CTTCACCTGTAAATGGACCACGG(SEQ ID NO:146)(反向)
3.TTTACAGGTGAAGGTCACGTTGG(SEQ ID NO:147)
4.GTAGCTAAATAAGGGTATGGAGG(SEQ ID NO:148)(反向)
图2显示了从通过用编辑质粒方法修饰的经转化衣藻质体DNA中的替换DNA基因座的PCR扩增获得的序列。在5’和3’端的下划线序列指示编辑质粒上不存在的野生型叶绿体基因组序列。粗体的序列指示编辑质粒上的供体DNA中存在的短同源区域。粗体并且带下划线的序列指示替换的DNA中存在的指导RNA靶位点。供体DNA中的指导RNA靶位点已被修饰,以防止整合到质体基因组中后的核酸酶活性。带有双下划线的序列指示在指导RNA位点3’侧的沉默突变,用以防止通过Cas9/sgRNA再次切割。密码子优化的GFP编码区以斜体显示。同源重组按预期发生;即替换的DNA和周围的野生型质体DNA均无序列变化。
衣藻叶绿体的编辑质粒的构建如下。将编码Cas9和指导RNA的多核苷酸克隆到载体中,并可操作地连接至适当的启动子和终止子,以允许在叶绿体中表达。载体是pBR322或pUC19,其各自含有先前已显示在叶绿体中复制的pMB1复制起点(Boynton等人,1988Science 240:1534-1538)。
编码SpCas9(SEQ ID NO:150)的核酸序列(SEQ ID NO:149)对于衣藻叶绿体表达是密码子优化的。使用基于网络的密码子使用数据库(Nakamura等人,2000Nucleic AcidsRes.28:292)进行优化。优化的基因通过GenScript(Piscataway,NJ)合成。用于Cas9基因表达的启动子是具有其5’UTR的衣藻psaA-外显子1启动子或具有其5’UTR的衣藻psbD启动子(分别为SEQ ID NO:151和SEQ ID NO:152)。用于Cas9基因表达的终止子是rbcL 3’UTR(SEQID NO:153)。
为了sgRNA的表达,从衣藻质体trnW基因基因座获得了tRNA启动子及其相应的3’UTR(分别为SEQ ID NO:154和SEQ ID NO:155)。为了在转录后对sgRNA进行适当加工,如Xie等人,2015(Proc Natl Acad Sci USA 112:3570–3575)中所述,使用内源性叶绿体tRNA加工系统。例如,为了一种指导RNA的表达,将sgRNA序列置于两个tRNA之间。构型为“tRNA-1–sgRNA–tRNA-2”。为了表达两个sgRNA,构型为“tRNA-1–sgRNA-1–tRNA-2–sgRNA-2–tRNA-3”。使用了来自衣藻质体DNA的以下tRNA序列:trnW(SEQ ID NO:156)、trnK(SEQ ID NO:157)和trnL(SEQ ID NO:158)。
在所有编辑质粒构建体上也存在用于提供奇霉素耐受性的针对aadA编码区(SEQID NO:159)的选择标记表达盒。用于选择标记表达盒的启动子和终止子分别是具有其5’UTR的衣藻rbcL启动子(SEQ ID NO:160)和衣藻psbA 3’UTR(SEQ ID NO:161)。构建仅携带Cas9表达盒和选择标记表达盒的质粒以用作对照。
为了DNA替换实验,设计了由被同源重组区域包围的GFP编码区组成的供体DNA。根据Franklin等人,2002(Plant J 30:733-744)的方法,将GFP编码序列(SEQ ID NO:162)设计成对于衣藻叶绿体基因表达是密码子优化的。为了在通过Cas9/双sgRNA产生双链断裂后进行供体DNA的同源重组,我们从衣藻叶绿体基因psaA-Exon3中的gRNA靶位点选择了各自74bp或76bp的同源区域(HR1-HR4;SEQ ID NO:163–SEQ ID NO:166)。选择较短的每个同源序列的长度(74或76bp),以尽可能减少在没有通过Cas9/指导RNA介导的双链断裂的情况下发生的内源同源重组(Dauvillee等人,2004 Photosynthesis Research 79:219–224)。供体DNA及其组分的构型是“1st HR–GFP–2nd HR”。GFP序列衍生自Franklin等人,2002(PlantJ.30:733-744)。为了保护供体DNA免受Cas9进一步切割并促进基因组清扫过程,同源重组序列在靶位点还含有阻止Cas9和指导RNA切割的沉默突变。设计同源重组以提供GFP与psaA基因产物的框内融合体。用于DNA替代实验的编辑质粒中的组分包括供体DNA以及前一节中所述的Cas9、双sgRNA和选择标记表达盒。同样,使用了与前一节相同的载体主链。作为阴性对照,使用缺少Cas9表达盒的质粒。
表2和表3列出了本节所述的构建体的组分。
表2
用于衣藻叶绿体的编辑质粒的组分
构建体 表达盒1* 表达盒2** 供体DNA
YP5 P<sub>psaA</sub>:Cas9co N/A N/A
YP7 P<sub>psaA</sub>:Cas9co 1X-sgRNA-1 N/A
YP8 P<sub>psaA</sub>:Cas9co 1X-sgRNA-2 N/A
YP9 P<sub>psaA</sub>:Cas9co 1X-sgRNA-3 N/A
YP10 P<sub>psaA</sub>:Cas9co 1X-sgRNA-4 N/A
YP11 P<sub>psaA</sub>:Cas9co 2X-sgRNA-1 N/A
YP12 P<sub>psaA</sub>:Cas9co 2X-sgRNA-2 N/A
YP13 P<sub>psaA</sub>:Cas9co 2X-sgRNA-1 HR1:GFPco:HR2
YP14 P<sub>psaA</sub>:Cas9co 2X-sgRNA-2 HR3:GFPco:HR4
YP6 P<sub>psbD</sub>:Cas9co N/A N/A
YP15 P<sub>psbD</sub>:Cas9co 1X-sgRNA-1 N/A
YP16 P<sub>psbD</sub>:Cas9co 1X-sgRNA-2 N/A
YP17 P<sub>psbD</sub>:Cas9co 1X-sgRNA-3 N/A
YP18 P<sub>psbD</sub>:Cas9co 1X-sgRNA-4 N/A
YP19 P<sub>psbD</sub>:Cas9co 2X-sgRNA-1 N/A
YP20 P<sub>psbD</sub>:Cas9co 2X-sgRNA-2 N/A
YP21 P<sub>psbD</sub>:Cas9co 2X-sgRNA-1 HR1:GFPco:HR2
YP22 P<sub>psbD</sub>:Cas9co 2X-sgRNA-2 HR3:GFPco:HR4
YP23 N/A 2X-sgRNA-1 HR1:GFPco:HR2
YP24 N/A 2X-sgRNA-2 HR3:GFPco:HR4
YP25 P<sub>psaA</sub>:Cas9co 2X-sgRNA-1 HR1:GFPco:HR2
YP26 P<sub>psaA</sub>:Cas9co 2X-sgRNA-2 HR3:GFPco:HR4
YP27 P<sub>psbD</sub>:Cas9co 2X-sgRNA-1 HR1:GFPco:HR2
YP28 P<sub>psbD</sub>:Cas9co 2X-sgRNA-2 HR3:GFPco:HR4
YP29 N/A 2X-sgRNA-1 HR1:GFPco:HR2
YP30 N/A 2X-sgRNA-2 HR3:GFPco:HR4
YP31 P<sub>psaA</sub>:Cas9co 2X-sgRNA-1 N/A
YP32 P<sub>psaA</sub>:Cas9co 2X-sgRNA-2 N/A
YP33 P<sub>psbD</sub>:Cas9co 2X-sgRNA-1 N/A
YP34 P<sub>psbD</sub>:Cas9co 2X-sgRNA-2 N/A
*每个表达盒1均使用rbcL终止子。
**每个表达盒2均编码一个(1X)或两个(2X)指导RNA。
表3
编码一个或两个指导RNA的表达盒2的组分
Figure BDA0002461830960001561
Figure BDA0002461830960001571
*每个表达盒2均使用trnW启动子和trnW终止子。
根据Barrera等人,2014(Methods Mol.Biol.1132:391-399)和Ramesh等人,2011(Methods Mol.Biol.684:313-320)的方法,将编辑质粒转化到野生型衣藻(CC-125)中。使用补充有100μg/ml奇霉素的Tris-醋酸-磷酸盐(TAP)介质来选择叶绿体转化体。
为了评估DNA替换事件,我们将含有供体DNA的编辑质粒YP13转化到CC-125(野生型莱茵衣藻)中,并随机选择奇霉素耐受性集落。对照构建体是YP23。根据Barrera等人,2014(Methods Mol.Biol.1132:391-399),使用合并的转化细胞系制备叶绿体DNA。用于YP13的池大小为20个独立集落,用于YP23的池大小为16个独立集落。为了靶重组区域的PCR扩增,我们使用由叶绿体基因组区域特异性引物和GFP基因特异性引物组成的引物组。引物组1(PS1)被设计用于扩增GFP整合区域的5’端,而引物组2(PS2)被设计用于扩增3’端。
1.PS1 FWD引物GCTGGTTGGTTCCACTACCAC(SEQ ID NO:167)
2.PS1 REV引物CACCTTCAAATTTTACTTCAGCACGTG(SEQ ID NO:168)
3.PS2 FWD引物CATACGGTGTACAATGTTTCAGTCG(SEQ ID NO:169)
4.PS2 REV引物GTGAGAAATAATAGCATCACGGTGAC(SEQ ID NO:170)
设计引物组以避免野生型叶绿体基因组或编辑质粒的扩增。使用上述引物组,每个扩增子的预期大小如下:852bp用于引物组1和712bp用于引物组2。PCR扩增后,我们成功地从用YP13转化的衣藻细胞系的两个独立池中获得了预期大小的扩增子。从没有Cas9表达盒的对照构建体YP23中没有扩增出相应的DNA片段。
我们对扩增的DNA片段进行了测序,以通过Cas9活性确认成功的DNA替换。我们获得了在经转化衣藻叶绿体DNA中包含供体DNA基因座的序列(参见图2)(SEQ ID NO:171)。基因组序列对应于来自供体DNA在两个Cas9切割位点的插入的预期序列。如图2所示,替换的DNA含有在供体DNA中编码的psaA基因中的两个修饰的指导RNA靶位点。另外,3-nt PAM序列不再与每个靶序列相邻存在,对应于供体DNA的确切序列。图2中也示出了在5’和3’端的序列(以下划线显示),其是编辑质粒上不存在的野生型叶绿体基因组序列,与编辑质粒中存在的HR区域(以粗体显示)连续。总之,通过使用编码Cas9表达盒、多个指导RNA表达盒和供体DNA模板的编辑质粒,在衣藻叶绿体中观察到正如设计的DNA替换。
一旦Cas9切割了叶绿体DNA位点,DNA修复应该能通过以下任何一项的存在来识别:核苷酸置换、小插入或小缺失。我们分析了用YP11和YP31编辑质粒构建体转化的奇霉素耐受性集落,用于证明此类DNA修复。我们将没有Cas9表达盒的构建体YP29包括在内作为对照。为了丰富编辑事件,我们利用了在Cas9/gRNA切割位点之一(SEQ ID NO:146,CTTCACCTGTAAATGGACCACGG)处AvaII识别序列(GGWCC,其中W为A或T)的存在。首先,我们从随机选择的衣藻集落(来自YP11转化体有15个集落,来自YP31转化体有10个集落,来自YP29转化体有5个集落)中提取DNA。然后,我们将提取的DNA合并,以用于含有靶位点的基因组区域的基于
Figure BDA0002461830960001581
高保真聚合酶的PCR扩增(New England BioLabs)(一个池含有来自五个集落的DNA)。我们使用了以下引物:PS1 FWD引物(SEQ ID NO:167)和PS2 REV引物(SEQ IDNO:170)。将扩增的DNA产物纯化,并进行AvaII消化过夜。在凝胶电泳后,从琼脂糖凝胶切出含有795bp的未消化DNA的对应于每个池的700–900bp的区域,并且提取DNA。然后根据制造商的方案(New England BioLabs,Ipswich,MA)将提取的DNA直接克隆到pMiniT2.0载体中。我们随机地从YP11和YP31转化体的每个池中选择12个大肠杆菌集落,并从对照YP29池中选择8个集落,并使用相同的引物对——PS1 FWD引物和PS2 REV引物进行PCR扩增。将PCR反应的等分试样再次用AvaII消化,以进一步选择用于DNA修复事件的候选物。从YP11构建体的两个池各识别出一个,从一个YP31转化体池识别出一个,从另一个YP31转化体池识别出四个,并且从YP29转化体识别出三个,并对它们进行Sanger测序,以推导每个候选克隆的核苷酸组成。另外,我们将从YP29对照池中随机选择的15个集落的PCR扩增子包括在内以用于测序。测序结果分析显示,分别来自不同池的两个YP11转化体和两个YP31转化体在靶位点处具有单核苷酸置换。相对于野生型序列GGACC,我们观察到以下两种类型的置换:G至A,产生GAACC;以及A至G,产生GGGCC。在来自两个构建体YP11和YP31的转化体中检测到这两种变化中的每一种;然而,来自对照YP29转化体的测序克隆均未在靶位点处显示任何变化(即,每个对照转化体均保留AvaII位点)。总而言之,我们已经显示,在指导RNA靶位点发生了四个独立的核苷酸置换事件,与Cas9切割和随后叶绿体中的DNA修复一致。
序列表
<110> 纳匹基因公司
哈吉米·萨凯
俞炳春
小艾米·迈耶·奥罗斯科
罗杰·怀斯
加内什·基肖尔
杰伊·基斯林
纳伦德拉·辛格·亚达夫
<120> 使用多核苷酸指导的核酸内切酶的细胞器基因组修饰
<130> 51090-701.601
<150> US 62/548,723
<151> 2017-08-22
<160> 172
<170> PatentIn版本3.5
<210> 1
<211> 4163
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 1
aaaaaagaat ggttctacca agactatata cagctacaag tcgtgctgct ctgtcgaccg 60
acaagaagta ctccattggg ctcgatatcg gcacaaacag cgtcggctgg gccgtcatta 120
cggacgagta caaggtgccg agcaaaaaat tcaaagttct gggcaatacc gatcgccaca 180
gcataaagaa gaacctcatt ggcgccctcc tgttcgactc cggggagacg gccgaagcca 240
cgcggctcaa aagaacagca cggcgcagat atacccgcag aaagaatcgg atctgctacc 300
tgcaggagat ctttagtaat gagatggcta aggtggatga ctctttcttc cataggctgg 360
aggagtcctt tttggtggag gaggataaaa agcacgagcg ccacccaatc tttggcaata 420
tcgtggacga ggtggcgtac catgaaaagt acccaaccat atatcatctg aggaagaagc 480
ttgtagacag tactgataag gctgacttgc ggttgatcta tctcgcgctg gcgcatatga 540
tcaaatttcg gggacacttc ctcatcgagg gggacctgaa cccagacaac agcgatgtcg 600
acaaactctt tatccaactg gttcagactt acaatcagct tttcgaagag aacccgatca 660
acgcatccgg agttgacgcc aaagcaatcc tgagcgctag gctgtccaaa tcccggcggc 720
tcgaaaacct catcgcacag ctccctgggg agaagaagaa cggcctgttt ggtaatctta 780
tcgccctgtc actcgggctg acccccaact ttaaatctaa cttcgacctg gccgaagatg 840
ccaagcttca actgagcaaa gacacctacg atgatgatct cgacaatctg ctggcccaga 900
tcggcgacca gtacgcagac ctttttttgg cggcaaagaa cctgtcagac gccattctgc 960
tgagtgatat tctgcgagtg aacacggaga tcaccaaagc tccgctgagc gctagtatga 1020
tcaagcgcta tgatgagcac caccaagact tgactttgct gaaggccctt gtcagacagc 1080
aactgcctga gaagtacaag gaaattttct tcgatcagtc taaaaatggc tacgccggat 1140
acattgacgg cggagcaagc caggaggaat tttacaaatt tattaagccc atcttggaaa 1200
aaatggacgg caccgaggag ctgctggtaa agcttaacag agaagatctg ttgcgcaaac 1260
agcgcacttt cgacaatgga agcatccccc accagattca cctgggcgaa ctgcacgcta 1320
tcctcaggcg gcaagaggat ttctacccct ttttgaaaga taacagggaa aagattgaga 1380
aaatcctcac atttcggata ccctactatg taggccccct cgcccgggga aattccagat 1440
tcgcgtggat gactcgcaaa tcagaagaga ccatcactcc ctggaacttc gaggaagtcg 1500
tggataaggg ggcctctgcc cagtccttca tcgaaaggat gactaacttt gataaaaatc 1560
tgcctaacga aaaggtgctt cctaaacact ctctgctgta cgagtacttc acagtttata 1620
acgagctcac caaggtcaaa tacgtcacag aagggatgag aaagccagca ttcctgtctg 1680
gagagcagaa gaaagctatc gtggacctcc tcttcaagac gaaccggaaa gttaccgtga 1740
aacagctcaa agaagactat ttcaaaaaga ttgaatgttt cgactctgtt gaaatcagcg 1800
gagtggagga tcgcttcaac gcatccctgg gaacgtatca cgatctcctg aaaatcatta 1860
aagacaagga cttcctggac aatgaggaga acgaggacat tcttgaggac attgtcctca 1920
cccttacgtt gtttgaagat agggagatga ttgaagaacg cttgaaaact tacgctcatc 1980
tcttcgacga caaagtcatg aaacagctca agaggcgccg atatacagga tgggggcggc 2040
tgtcaagaaa actgatcaat gggatccgag acaagcagag tggaaagaca atcctggatt 2100
ttcttaagtc cgatggattt gccaaccgga acttcatgca gttgatccat gatgactctc 2160
tcacctttaa ggaggacatc cagaaagcac aagtttctgg ccagggggac agtcttcacg 2220
agcacatcgc taatcttgca ggtagcccag ctatcaaaaa gggaatactg cagaccgtta 2280
aggtcgtgga tgaactcgtc aaagtaatgg gaaggcataa gcccgagaat atcgttatcg 2340
agatggcccg agagaaccaa actacccaga agggacagaa gaacagtagg gaaaggatga 2400
agaggattga agagggtata aaagaactgg ggtcccaaat ccttaaggaa cacccagttg 2460
aaaacaccca gcttcagaat gagaagctct acctgtacta cctgcagaac ggcagggaca 2520
tgtacgtgga tcaggaactg gacatcaatc ggctctccga ctacgacgtg gatcatatcg 2580
tgccccagtc ttttctcaaa gatgattcta ttgataataa agtgttgaca agatccgata 2640
aaaatagagg gaagagtgat aacgtcccct cagaagaagt tgtcaagaaa atgaaaaatt 2700
attggcggca gctgctgaac gccaaactga tcacacaacg gaagttcgat aatctgacta 2760
aggctgaacg aggtggcctg tctgagttgg ataaagccgg cttcatcaaa aggcagcttg 2820
ttgagacacg ccagatcacc aagcacgtgg cccaaattct cgattcacgc atgaacacca 2880
agtacgatga aaatgacaaa ctgattcgag aggtgaaagt tattactctg aagtctaagc 2940
tggtctcaga tttcagaaag gactttcagt tttataaggt gagagagatc aacaattacc 3000
accatgcgca tgatgcctac ctgaatgcag tggtaggcac tgcacttatc aaaaaatatc 3060
ccaagcttga atctgaattt gtttacggag actataaagt gtacgatgtt aggaaaatga 3120
tcgcaaagtc tgagcaggaa ataggcaagg ccaccgctaa gtacttcttt tacagcaata 3180
ttatgaattt tttcaagacc gagattacac tggccaatgg agagattcgg aagcgaccac 3240
ttatcgaaac aaacggagaa acaggagaaa tcgtgtggga caagggtagg gatttcgcga 3300
cagtccggaa ggtcctgtcc atgccgcagg tgaacatcgt taaaaagacc gaagtacaga 3360
ccggaggctt ctccaaggaa agtatcctcc cgaaaaggaa cagcgacaag ctgatcgcac 3420
gcaaaaaaga ttgggacccc aagaaatacg gcggattcga ttctcctaca gtcgcttaca 3480
gtgtactggt tgtggccaaa gtggagaaag ggaagtctaa aaaactcaaa agcgtcaagg 3540
aactgctggg catcacaatc atggagcgat caagcttcga aaaaaacccc atcgactttc 3600
tcgaggcgaa aggatataaa gaggtcaaaa aagacctcat cattaagctt cccaagtact 3660
ctctctttga gcttgaaaac ggccggaaac gaatgctcgc tagtgcgggc gagctgcaga 3720
aaggtaacga gctggcactg ccctctaaat acgttaattt cttgtatctg gccagccact 3780
atgaaaagct caaagggtct cccgaagata atgagcagaa gcagctgttc gtggaacaac 3840
acaaacacta ccttgatgag atcatcgagc aaataagcga attctccaaa agagtgatcc 3900
tcgccgacgc taacctcgat aaggtgcttt ctgcttacaa taagcacagg gataagccca 3960
tcagggagca ggcagaaaac attatccact tgtttactct gaccaacttg ggcgcgcctg 4020
cagccttcaa gtacttcgac accaccatag acagaaagcg gtacacctct acaaaggagg 4080
tcctggacgc cacactgatt catcagtcaa ttacggggct ctatgaaaca agaatcgacc 4140
tctctcagct cggtggagac tga 4163
<210> 2
<211> 4145
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 2
gatccatgaa aagcttcatt acaaggaaca agacagccat tgacaagaag tactccattg 60
ggctcgatat cggcacaaac agcgtcggct gggccgtcat tacggacgag tacaaggtgc 120
cgagcaaaaa attcaaagtt ctgggcaata ccgatcgcca cagcataaag aagaacctca 180
ttggcgccct cctgttcgac tccggggaga cggccgaagc cacgcggctc aaaagaacag 240
cacggcgcag atatacccgc agaaagaatc ggatctgcta cctgcaggag atctttagta 300
atgagatggc taaggtggat gactctttct tccataggct ggaggagtcc tttttggtgg 360
aggaggataa aaagcacgag cgccacccaa tctttggcaa tatcgtggac gaggtggcgt 420
accatgaaaa gtacccaacc atatatcatc tgaggaagaa gcttgtagac agtactgata 480
aggctgactt gcggttgatc tatctcgcgc tggcgcatat gatcaaattt cggggacact 540
tcctcatcga gggggacctg aacccagaca acagcgatgt cgacaaactc tttatccaac 600
tggttcagac ttacaatcag cttttcgaag agaacccgat caacgcatcc ggagttgacg 660
ccaaagcaat cctgagcgct aggctgtcca aatcccggcg gctcgaaaac ctcatcgcac 720
agctccctgg ggagaagaag aacggcctgt ttggtaatct tatcgccctg tcactcgggc 780
tgacccccaa ctttaaatct aacttcgacc tggccgaaga tgccaagctt caactgagca 840
aagacaccta cgatgatgat ctcgacaatc tgctggccca gatcggcgac cagtacgcag 900
accttttttt ggcggcaaag aacctgtcag acgccattct gctgagtgat attctgcgag 960
tgaacacgga gatcaccaaa gctccgctga gcgctagtat gatcaagcgc tatgatgagc 1020
accaccaaga cttgactttg ctgaaggccc ttgtcagaca gcaactgcct gagaagtaca 1080
aggaaatttt cttcgatcag tctaaaaatg gctacgccgg atacattgac ggcggagcaa 1140
gccaggagga attttacaaa tttattaagc ccatcttgga aaaaatggac ggcaccgagg 1200
agctgctggt aaagcttaac agagaagatc tgttgcgcaa acagcgcact ttcgacaatg 1260
gaagcatccc ccaccagatt cacctgggcg aactgcacgc tatcctcagg cggcaagagg 1320
atttctaccc ctttttgaaa gataacaggg aaaagattga gaaaatcctc acatttcgga 1380
taccctacta tgtaggcccc ctcgcccggg gaaattccag attcgcgtgg atgactcgca 1440
aatcagaaga gaccatcact ccctggaact tcgaggaagt cgtggataag ggggcctctg 1500
cccagtcctt catcgaaagg atgactaact ttgataaaaa tctgcctaac gaaaaggtgc 1560
ttcctaaaca ctctctgctg tacgagtact tcacagttta taacgagctc accaaggtca 1620
aatacgtcac agaagggatg agaaagccag cattcctgtc tggagagcag aagaaagcta 1680
tcgtggacct cctcttcaag acgaaccgga aagttaccgt gaaacagctc aaagaagact 1740
atttcaaaaa gattgaatgt ttcgactctg ttgaaatcag cggagtggag gatcgcttca 1800
acgcatccct gggaacgtat cacgatctcc tgaaaatcat taaagacaag gacttcctgg 1860
acaatgagga gaacgaggac attcttgagg acattgtcct cacccttacg ttgtttgaag 1920
atagggagat gattgaagaa cgcttgaaaa cttacgctca tctcttcgac gacaaagtca 1980
tgaaacagct caagaggcgc cgatatacag gatgggggcg gctgtcaaga aaactgatca 2040
atgggatccg agacaagcag agtggaaaga caatcctgga ttttcttaag tccgatggat 2100
ttgccaaccg gaacttcatg cagttgatcc atgatgactc tctcaccttt aaggaggaca 2160
tccagaaagc acaagtttct ggccaggggg acagtcttca cgagcacatc gctaatcttg 2220
caggtagccc agctatcaaa aagggaatac tgcagaccgt taaggtcgtg gatgaactcg 2280
tcaaagtaat gggaaggcat aagcccgaga atatcgttat cgagatggcc cgagagaacc 2340
aaactaccca gaagggacag aagaacagta gggaaaggat gaagaggatt gaagagggta 2400
taaaagaact ggggtcccaa atccttaagg aacacccagt tgaaaacacc cagcttcaga 2460
atgagaagct ctacctgtac tacctgcaga acggcaggga catgtacgtg gatcaggaac 2520
tggacatcaa tcggctctcc gactacgacg tggatcatat cgtgccccag tcttttctca 2580
aagatgattc tattgataat aaagtgttga caagatccga taaaaataga gggaagagtg 2640
ataacgtccc ctcagaagaa gttgtcaaga aaatgaaaaa ttattggcgg cagctgctga 2700
acgccaaact gatcacacaa cggaagttcg ataatctgac taaggctgaa cgaggtggcc 2760
tgtctgagtt ggataaagcc ggcttcatca aaaggcagct tgttgagaca cgccagatca 2820
ccaagcacgt ggcccaaatt ctcgattcac gcatgaacac caagtacgat gaaaatgaca 2880
aactgattcg agaggtgaaa gttattactc tgaagtctaa gctggtctca gatttcagaa 2940
aggactttca gttttataag gtgagagaga tcaacaatta ccaccatgcg catgatgcct 3000
acctgaatgc agtggtaggc actgcactta tcaaaaaata tcccaagctt gaatctgaat 3060
ttgtttacgg agactataaa gtgtacgatg ttaggaaaat gatcgcaaag tctgagcagg 3120
aaataggcaa ggccaccgct aagtacttct tttacagcaa tattatgaat tttttcaaga 3180
ccgagattac actggccaat ggagagattc ggaagcgacc acttatcgaa acaaacggag 3240
aaacaggaga aatcgtgtgg gacaagggta gggatttcgc gacagtccgg aaggtcctgt 3300
ccatgccgca ggtgaacatc gttaaaaaga ccgaagtaca gaccggaggc ttctccaagg 3360
aaagtatcct cccgaaaagg aacagcgaca agctgatcgc acgcaaaaaa gattgggacc 3420
ccaagaaata cggcggattc gattctccta cagtcgctta cagtgtactg gttgtggcca 3480
aagtggagaa agggaagtct aaaaaactca aaagcgtcaa ggaactgctg ggcatcacaa 3540
tcatggagcg atcaagcttc gaaaaaaacc ccatcgactt tctcgaggcg aaaggatata 3600
aagaggtcaa aaaagacctc atcattaagc ttcccaagta ctctctcttt gagcttgaaa 3660
acggccggaa acgaatgctc gctagtgcgg gcgagctgca gaaaggtaac gagctggcac 3720
tgccctctaa atacgttaat ttcttgtatc tggccagcca ctatgaaaag ctcaaagggt 3780
ctcccgaaga taatgagcag aagcagctgt tcgtggaaca acacaaacac taccttgatg 3840
agatcatcga gcaaataagc gaattctcca aaagagtgat cctcgccgac gctaacctcg 3900
ataaggtgct ttctgcttac aataagcaca gggataagcc catcagggag caggcagaaa 3960
acattatcca cttgtttact ctgaccaact tgggcgcgcc tgcagccttc aagtacttcg 4020
acaccaccat agacagaaag cggtacacct ctacaaagga ggtcctggac gccacactga 4080
ttcatcagtc aattacgggg ctctatgaaa caagaatcga cctctctcag ctcggtggag 4140
actga 4145
<210> 3
<211> 342
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<220>
<221> 杂项特性
<222> (1)..(20)
<223> n为a、c、g或t
<400> 3
nnnnnnnnnn nnnnnnnnnn gttttagagc tagaaatagc aagttaaaat aaggctagtc 60
cgttatcaac ttgaaaaagt ggcaccgagt cggtggtgcg ccttgttggc gcaatcggta 120
gcgcgtatga ctcttaatca taaggttagg ggttcgagcc cccatcaggg ctccattctt 180
ttttttttta aaacacgatg acataaattt cctttgtatg aaccgtaccc ttaataataa 240
aaggaaaaat catgctttag gtataagatt ttctgttata ttaaaattta gtatttattt 300
ttattatgct attatttttt tcggtctcaa atgttactta gt 342
<210> 4
<211> 343
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<220>
<221> 杂项特性
<222> (1)..(20)
<223> n为a、c、g或t
<400> 4
nnnnnnnnnn nnnnnnnnnn gttttagagc tagaaatagc aagttaaaat aaggctagtc 60
cgttatcaac ttgaaaaagt ggcaccgagt cggtggtgcg ccttgttagc tcagttggta 120
gagcgttcgg ctcttaaccg aaatgtcagg ggttcgagcc ccctatgagg cgccatttct 180
tttttttttt aaaacacgat gacataaatt tcctttgtat gaaccgtacc cttaataata 240
aaaggaaaaa tcatgcttta ggtataagat tttctgttat attaaaattt agtatttatt 300
tttattatgc tattattttt ttcggtctca aatgttactt agt 343
<210> 5
<211> 342
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<220>
<221> 杂项特性
<222> (1)..(20)
<223> n为a、c、g或t
<400> 5
nnnnnnnnnn nnnnnnnnnn gttttagagc tagaaatagc aagttaaaat aaggctagtc 60
cgttatcaac ttgaaaaagt ggcaccgagt cggtggtgct ccttgttggc gcaatcggta 120
gcgcgtatga ctcttaatca taaggttagg ggttcgagcc cccatcaggg ctccattctt 180
ttttttttta aaacacgatg acataaattt cctttgtatg aaccgtaccc ttaataataa 240
aaggaaaaat catgctttag gtataagatt ttctgttata ttaaaattta gtatttattt 300
ttattatgct attatttttt tcggtctcaa atgttactta gt 342
<210> 6
<211> 343
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<220>
<221> 杂项特性
<222> (1)..(20)
<223> n为a、c、g或t
<400> 6
nnnnnnnnnn nnnnnnnnnn gttttagagc tagaaatagc aagttaaaat aaggctagtc 60
cgttatcaac ttgaaaaagt ggcaccgagt cggtggtgct ccttgttagc tcagttggta 120
gagcgttcgg ctcttaaccg aaatgtcagg ggttcgagcc ccctatgagg cgccatttct 180
tttttttttt aaaacacgat gacataaatt tcctttgtat gaaccgtacc cttaataata 240
aaaggaaaaa tcatgcttta ggtataagat tttctgttat attaaaattt agtatttatt 300
tttattatgc tattattttt ttcggtctca aatgttactt agt 343
<210> 7
<211> 358
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<220>
<221> 杂项特性
<222> (39)..(58)
<223> n为a、c、g或t
<220>
<221> 杂项特性
<222> (138)..(140)
<223> n为a、c、g或t
<400> 7
gccttgttag ctcagttggt agagcgttcg gctcttaann nnnnnnnnnn nnnnnnnngt 60
tttagagcta gaaatagcaa gttaaaataa ggctagtccg ttatcaactt gaaaaagtgg 120
caccgagtcg gtggtgcnnn ttaagcaagg ataccgaaat gtcaggggtt cgagccccct 180
atgaggatcc attctttttt tttttaaaac acgatgacat aaatttcctt tgtatgaacc 240
gtacccttaa taataaaagg aaaaatcatg ctttaggtat aagattttct gttatattaa 300
aatttagtat ttatttttat tatgctatta tttttttcgg tctcaaatgt tacttagt 358
<210> 8
<211> 358
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<220>
<221> 杂项特性
<222> (37)..(56)
<223> n为a、c、g或t
<220>
<221> 杂项特性
<222> (136)..(138)
<223> n为a、c、g或t
<400> 8
gccttgttgg cgcaatcggt agcgcgtatg actcttnnnn nnnnnnnnnn nnnnnngttt 60
tagagctaga aatagcaagt taaaataagg ctagtccgtt atcaacttga aaaagtggca 120
ccgagtcggt ggtgcnnntt aagcaaggat aaatcataag gttaggggtt cgagccccca 180
tcagggctcc attctttttt tttttaaaac acgatgacat aaatttcctt tgtatgaacc 240
gtacccttaa taataaaagg aaaaatcatg ctttaggtat aagattttct gttatattaa 300
aatttagtat ttatttttat tatgctatta tttttttcgg tctcaaatgt tacttagt 358
<210> 9
<211> 293
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<220>
<221> 杂项特性
<222> (1)..(20)
<223> n为a、c、g或t
<400> 9
nnnnnnnnnn nnnnnnnnnn gttttagagc tagaaatagc aagttaaaat aaggctagtc 60
cgttatcaac ttgaaaaagt ggcaccgagt cggtggtgcg gggttcgagc ccccatcagg 120
gctccattct tttttttttt aaaacacgat gacataaatt tcctttgtat gaaccgtacc 180
cttaataata aaaggaaaaa tcatgcttta ggtataagat tttctgttat attaaaattt 240
agtatttatt tttattatgc tattattttt ttcggtctca aatgttactt agt 293
<210> 10
<211> 76
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 10
gccttgttgg cgcaatcggt agcgcgtatg actcttaatc ataattcttt ttttttttaa 60
aacacgatga cataaa 76
<210> 11
<211> 136
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<220>
<221> 杂项特性
<222> (18)..(37)
<223> n为a、c、g或t
<400> 11
gcgcaatcgg tagcgcannn nnnnnnnnnn nnnnnnngtt ttagagctag aaatagcaag 60
ttaaaataag gctagtccgt tatcaacttg aaaaagtggc accgagtcgg tggtgcgagc 120
cccctacagg gctctt 136
<210> 12
<211> 116
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<220>
<221> 杂项特性
<222> (18)..(37)
<223> n为a、c、g或t
<400> 12
gcgcaatcgg tagcgcannn nnnnnnnnnn nnnnnnngtt ttagagctag aaatagcaag 60
ttaaaataag gctagtccgt tatcaacttg aaaaagtggc accgagtcgg tggtgc 116
<210> 13
<211> 118
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<220>
<221> 杂项特性
<222> (1)..(20)
<223> n为a、c、g或t
<400> 13
nnnnnnnnnn nnnnnnnnnn gttttagagc tagaaatagc aagttaaaat aaggctagtc 60
cgttatcaac ttgaaaaagt ggcaccgagt cggtggtgcg agccccctac agggctct 118
<210> 14
<211> 17
<212> DNA
<213> 酿酒酵母
<400> 14
actgatagaa gtgtagt 17
<210> 15
<211> 20
<212> DNA
<213> 酿酒酵母
<400> 15
atgattattg caattccaac 20
<210> 16
<211> 20
<212> DNA
<213> 酿酒酵母
<400> 16
attccacgat acttactacg 20
<210> 17
<211> 20
<212> DNA
<213> 酿酒酵母
<400> 17
tcagcaacac caaatcaaga 20
<210> 18
<211> 79
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 18
gttttagagc tagaaatagc aagttaaaat aaggctagtc cgttatcaac ttgaaaaagt 60
ggcaccgagt cggtggtgc 79
<210> 19
<211> 269
<212> DNA
<213> 酿酒酵母
<400> 19
tctttgaaaa gataatgtat gattatgctt tcactcatat ttatacagaa acttgatgtt 60
ttctttcgag tatatacaag gtgattacat gtacgtttga agtacaactc tagattttgt 120
agtgccctct tgggctagcg gtaaaggtgc gcattttttc acaccctaca atgttctgtt 180
caaaagattt tggtcaaacg ctgtagaagt gaaagttggt gcgcatgttt cggcgttcga 240
aacttctccg cagtgaaaga taaatgatc 269
<210> 20
<211> 20
<212> DNA
<213> 酿酒酵母
<400> 20
tttttttgtt ttttatgtct 20
<210> 21
<211> 23
<212> DNA
<213> 酿酒酵母
<400> 21
actaatcact catcaggcgt tga 23
<210> 22
<211> 21
<212> DNA
<213> 酿酒酵母
<400> 22
caatggcatc cccttggacg c 21
<210> 23
<211> 20
<212> DNA
<213> 酿酒酵母
<400> 23
agttaccgta ggggaacctg 20
<210> 24
<211> 4107
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 24
atggacaaga agtactctat tggtttagat atcggtacaa acagtgtcgg ttgggctgtc 60
attactgacg aatacaaggt gcctagtaaa aaattcaaag ttttaggtaa tactgatcgt 120
cacagtataa agaagaactt aattggtgct ttattattcg actctggtga aactgctgaa 180
gctactcgtt taaaaagaac agcacgtcgt agatatactc gtagaaagaa tcgtatctgc 240
tacttacagg aaatctttag taatgaaatg gctaaggtgg atgactcttt cttccataga 300
ttagaagaat cttttttggt ggaagaagat aaaaagcacg aacgtcaccc aatctttggt 360
aatatcgtgg acgaagtggc ttaccatgaa aagtacccaa ctatatatca tttaagaaag 420
aagttagtag acagtactga taaggctgac ttgcgtttga tctatttagc tttagctcat 480
atgatcaaat ttcgtggaca cttcttaatc gaaggtgact taaacccaga caacagtgat 540
gtcgacaaat tatttatcca attagttcag acttacaatc agttattcga agaaaaccct 600
atcaacgcat ctggagttga cgctaaagca atcttaagtg ctagattatc taaatctcgt 660
cgtttagaaa acttaatcgc acagttacct ggtgaaaaga agaacggttt atttggtaat 720
ttaatcgctt tatcattagg tttaactcct aactttaaat ctaacttcga cttagctgaa 780
gatgctaagt tacaattaag taaagacact tacgatgatg atttagacaa tttattagct 840
cagatcggtg accagtacgc agacttattt ttggctgcaa agaacttatc agacgctatt 900
ttattaagtg atattttacg agtgaacact gaaatcacta aagctccttt aagtgctagt 960
atgatcaagc gttatgatga acaccaccaa gacttgactt tgttaaaggc tttagtcaga 1020
cagcaattac ctgaaaagta caaggaaatt ttcttcgatc agtctaaaaa tggttacgct 1080
ggatacattg acggtggagc aagtcaggaa gaattttaca aatttattaa gcctatcttg 1140
gaaaaaatgg acggtactga agaattatta gtaaagttaa acagagaaga tttattgcgt 1200
aaacagcgta ctttcgacaa tggaagtatc cctcaccaga ttcacttagg tgaattacac 1260
gctatcttaa gacgtcaaga agatttctac ccttttttga aagataacag agaaaagatt 1320
gaaaaaatct taacatttcg tataccttac tatgtaggtc ctttagctcg tggaaattct 1380
agattcgctt ggatgactcg taaatcagaa gaaactatca ctccttggaa cttcgaagaa 1440
gtcgtggata agggtgcttc tgctcagtct ttcatcgaaa gaatgactaa ctttgataaa 1500
aatttaccta acgaaaaggt gttacctaaa cactctttat tatacgaata cttcacagtt 1560
tataacgaat taactaaggt caaatacgtc acagaaggta tgagaaagcc agcattctta 1620
tctggagaac agaagaaagc tatcgtggac ttattattca agactaaccg taaagttact 1680
gtgaaacagt taaaagaaga ctatttcaaa aagattgaat gtttcgactc tgttgaaatc 1740
agtggagtgg aagatcgttt caacgcatct ttaggaactt atcacgattt attaaaaatc 1800
attaaagaca aggacttctt agacaatgaa gaaaacgaag acattttaga agacattgtc 1860
ttaactttaa ctttgtttga agatagagaa atgattgaag aacgtttgaa aacttacgct 1920
catttattcg acgacaaagt catgaaacag ttaaagagac gtcgatatac aggatggggt 1980
cgtttatcaa gaaaattaat caatggtatc cgagacaagc agagtggaaa gacaatctta 2040
gattttttaa agtctgatgg atttgctaac cgtaacttca tgcagttgat ccatgatgac 2100
tctttaactt ttaaggaaga catccagaaa gcacaagttt ctggtcaggg tgacagttta 2160
cacgaacaca tcgctaattt agcaggtagt ccagctatca aaaagggaat attacagact 2220
gttaaggtcg tggatgaatt agtcaaagta atgggaagac ataagcctga aaatatcgtt 2280
atcgaaatgg ctcgagaaaa ccaaactact cagaagggac agaagaacag tagagaaaga 2340
atgaagagaa ttgaagaagg tataaaagaa ttaggttctc aaatcttaaa ggaacaccca 2400
gttgaaaaca ctcagttaca gaatgaaaag ttatacttat actacttaca gaacggtaga 2460
gacatgtacg tggatcagga attagacatc aatcgtttat ctgactacga cgtggatcat 2520
atcgtgcctc agtctttttt aaaagatgat tctattgata ataaagtgtt gacaagatct 2580
gataaaaata gaggtaagag tgataacgtc ccttcagaag aagttgtcaa gaaaatgaaa 2640
aattattggc gtcagttatt aaacgctaaa ttaatcacac aacgtaagtt cgataattta 2700
actaaggctg aacgaggtgg tttatctgaa ttggataaag ctggtttcat caaaagacag 2760
ttagttgaaa cacgtcagat cactaagcac gtggctcaaa ttttagattc acgtatgaac 2820
actaagtacg atgaaaatga caaattaatt cgagaagtga aagttattac tttaaagtct 2880
aagttagtct cagatttcag aaaggacttt cagttttata aggtgagaga aatcaacaat 2940
taccaccatg ctcatgatgc ttacttaaat gcagtggtag gtactgcatt aatcaaaaaa 3000
tatcctaagt tagaatctga atttgtttac ggagactata aagtgtacga tgttagaaaa 3060
atgatcgcaa agtctgaaca ggaaataggt aaggctactg ctaagtactt cttttacagt 3120
aatattatga attttttcaa gactgaaatt acattagcta atggagaaat tcgtaagcga 3180
ccattaatcg aaacaaacgg agaaacagga gaaatcgtgt gggacaaggg tagagatttc 3240
gctacagtcc gtaaggtctt atctatgcct caggtgaaca tcgttaaaaa gactgaagta 3300
cagactggag gtttctctaa ggaaagtatc ttacctaaaa gaaacagtga caagttaatc 3360
gcacgtaaaa aagattggga ccctaagaaa tacggtggat tcgattctcc tacagtcgct 3420
tacagtgtat tagttgtggc taaagtggaa aaaggtaagt ctaaaaaatt aaaaagtgtc 3480
aaggaattat taggtatcac aatcatggaa cgatcaagtt tcgaaaaaaa ccctatcgac 3540
tttttagaag ctaaaggata taaagaagtc aaaaaagact taatcattaa gttacctaag 3600
tactctttat ttgaattaga aaacggtcgt aaacgaatgt tagctagtgc tggtgaatta 3660
cagaaaggta acgaattagc attaccttct aaatacgtta atttcttgta tttagctagt 3720
cactatgaaa agttaaaagg ttctcctgaa gataatgaac agaagcagtt attcgtggaa 3780
caacacaaac actacttaga tgaaatcatc gaacaaataa gtgaattctc taaaagagtg 3840
atcttagctg acgctaactt agataaggtg ttatctgctt acaataagca cagagataag 3900
cctatcagag aacaggcaga aaacattatc cacttgttta ctttaactaa cttgggtgct 3960
cctgcagctt tcaagtactt cgacactact atagacagaa agcgttacac ttctacaaag 4020
gaagtcttag acgctacatt aattcatcag tcaattactg gtttatatga aacaagaatc 4080
gacttatctc agttaggtgg agactaa 4107
<210> 25
<211> 1037
<212> DNA
<213> 酿酒酵母
<400> 25
tttatatata ttaaaataat attaataaat aattactcct cctagcagga ttcacatctc 60
cttcggccgg actccttcgg ggtccgcccc gcgggggcgg gccggactat tttattatta 120
ttaaatagat gttcattaaa taattataaa tataatttat cttttaaata tatatatata 180
atataatatt taaatatata ttataaataa ataaataaat aattaattaa taaaaacata 240
taatgtatat ttatctataa aaaatattaa ttaaattaat atattattac agttccgggg 300
gccggccacg ggagccggaa ccccgaagga gataaataaa taaataaata taaataattc 360
ttcttcttta aaattaaata aaataaaata aaaagggggg cggactcctt cggggtcccg 420
cccccctccg cggggcggac tattttattt ttaaatatat attatattaa taatataaat 480
ataagtcccc gccccggcgg ggaccccgaa ggagtataaa taaaaattaa taatatatta 540
tatatatatt atattaataa taataataat aataataata ataaataata actccttgct 600
tcataccttt ataaataagg taatcactaa tatattataa taataaaaat tatatatatt 660
atatataatc taaatattat atattttaat aaatattaat atatatgata tgaatattat 720
tagtttttgg gaagcgggaa tcccgtaagg agtgagggac ccctccctaa cgggaggagg 780
accgaaggag ttttagtatt tttttttttt taataaaata tatatttata tgattaataa 840
tattatatat attatttata aaaataatat ataattttaa ttatttttaa taaaaaaagg 900
tggggttgat aatataatat aatatttttt attttaattt ataatatata ataataaatt 960
ataaataaat tttaattaaa agtagtatta acatattata aatagacaaa agagtctaaa 1020
ggttaagatt tattaaa 1037
<210> 26
<211> 619
<212> DNA
<213> 酿酒酵母
<400> 26
ttaatattta cttattatta atatttttaa ttattaaaaa taataataat aataataatt 60
ataataatat tcttaaatat aataaagata tagatttata ttctattcaa tcaccttata 120
ttaaaaatat aaatattatt aaaagaggtt atcatacttc tttaaataat aaattaatta 180
ttgttcaaaa agataataaa aataataata agaataattt agaaatagat aatttttata 240
aatgattagt aggatttaca gatggagatg gtagttttta tattaaatta aatgataaaa 300
aatatttaag atttttttat ggttttagaa tacatattga tgataaagca tgtttagaaa 360
agattagaaa tatattaaat ataccttcta attttgaaga actacttaaa acaattatat 420
tagtaaattc acaaaagaaa tggttatatt ctaatattgt aactattttt gataagtatc 480
cttgtttaac aattaaatat tatagttatt ataaatgaaa aatagctata attaataatt 540
taaatggtat atcttataat aataaagatt tattaaatat taaaaataca attaataatt 600
atgaagtata atatccata 619
<210> 27
<211> 23
<212> DNA
<213> 酿酒酵母
<400> 27
gaggaaatgt tgagtcgaca tcg 23
<210> 28
<211> 1000
<212> DNA
<213> 酿酒酵母
<400> 28
taataaatat ttataaaaag aataatttat atttataata tataatttat atattttatt 60
tttattatac aattaatata aaatataaaa tattaaatat taaatattaa atattaaata 120
ttaaatatta atttttatag gggttatata ataattatat ttataattat ataatattaa 180
aaagggtatt tttataatta ttacattttt attttattta taaaaatatt aattttaata 240
agtattgaat actttatata atataaatat taattacata attaataatt aaataatatt 300
taataatatt atttaaattt attatttata attatttatt tataaaattc tatttttatt 360
attattattt ttattttatt attaaagatt aatataataa ttattaatat attaaaaatc 420
ttttattata ttaatattta taaaaaagta tttaataaaa aagatgtata aatttataaa 480
ttatataata ttattaattt atataataat aatattataa ctttgtgatt gtcaatttag 540
ttaatcattg ttattaataa aggaaagata taaaaaatat tctccttctt aaaaaggggt 600
tcggttcccc cccgtaaggg gggggtccct cactcctttg gtcggactcc ttcggggtcc 660
gccccgcggg ggcgggccgg actaatttaa cttttaatat taatattaat attatttata 720
tttttaatat ataaaaataa ataattttat ttttattaat agtatattat ataaacaata 780
aaatagtatt aattatataa aatttatata aaatatatat aaatttatta tatatatata 840
tattaatatt ttaataaagt ttttattata aatttattta tttatttatt ataatattaa 900
taatttattt attattatat aagtaataaa taatagtttt atataataat aataatatat 960
atatatatat attattatat tagttatata ataaggaaaa 1000
<210> 29
<211> 531
<212> DNA
<213> 酿酒酵母
<400> 29
taaatattaa tctaaatatt aatataaata ttaatattaa tagttccggg gcccggccac 60
gggagccgga accccgaaag gagaaatatt aatataaata taaatattaa tataaatata 120
aatataaata taaatatatt ttaatataat ataatataat atataatata ttatataaat 180
ataatatata aataatataa taaaatattt taatatatat ataatataat ataattatta 240
ttataattta atataaatta ttattataat ttaatataat aaataaataa ataattataa 300
ttataattat aattataatc tcaatatata aatgataaat tattataaat acaaaggaaa 360
taattgattt ttaaaatata tttaataaaa tatataatat aaattatact ttttttgtta 420
ttatataata attatattaa tatatttaat agaattaaac tccttcggcc ggactattat 480
tcattttata tattaatgat aaatcattaa ttattattaa taaatttatt t 531
<210> 30
<211> 30
<212> DNA
<213> 酿酒酵母
<400> 30
tgtcccatta agacataagg tacttctaca 30
<210> 31
<211> 36
<212> DNA
<213> 酿酒酵母
<400> 31
tggagcaggt atctcaacaa ttggtttatt aggagc 36
<210> 32
<211> 32
<212> PRT
<213> 智人
<400> 32
Met Phe Phe Ser Ala Ala Leu Arg Ala Arg Ala Ala Gly Leu Thr Ala
1 5 10 15
His Trp Gly Arg His Val Arg Asn Leu His Lys Thr Val Met Gln Asn
20 25 30
<210> 33
<211> 4200
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 33
atgttcttct ccgcggcgct ccgggcccgg gcggctggcc tcaccgccca ctggggaaga 60
catgtaagga atttgcataa gacagttatg caaaatgaca agaagtactc cattgggctc 120
gatatcggca caaacagcgt cggctgggcc gtcattacgg acgagtacaa ggtgccgagc 180
aaaaaattca aagttctggg caataccgat cgccacagca taaagaagaa cctcattggc 240
gccctcctgt tcgactccgg ggagacggcc gaagccacgc ggctcaaaag aacagcacgg 300
cgcagatata cccgcagaaa gaatcggatc tgctacctgc aggagatctt tagtaatgag 360
atggctaagg tggatgactc tttcttccat aggctggagg agtccttttt ggtggaggag 420
gataaaaagc acgagcgcca cccaatcttt ggcaatatcg tggacgaggt ggcgtaccat 480
gaaaagtacc caaccatata tcatctgagg aagaagcttg tagacagtac tgataaggct 540
gacttgcggt tgatctatct cgcgctggcg catatgatca aatttcgggg acacttcctc 600
atcgaggggg acctgaaccc agacaacagc gatgtcgaca aactctttat ccaactggtt 660
cagacttaca atcagctttt cgaagagaac ccgatcaacg catccggagt tgacgccaaa 720
gcaatcctga gcgctaggct gtccaaatcc cggcggctcg aaaacctcat cgcacagctc 780
cctggggaga agaagaacgg cctgtttggt aatcttatcg ccctgtcact cgggctgacc 840
cccaacttta aatctaactt cgacctggcc gaagatgcca agcttcaact gagcaaagac 900
acctacgatg atgatctcga caatctgctg gcccagatcg gcgaccagta cgcagacctt 960
tttttggcgg caaagaacct gtcagacgcc attctgctga gtgatattct gcgagtgaac 1020
acggagatca ccaaagctcc gctgagcgct agtatgatca agcgctatga tgagcaccac 1080
caagacttga ctttgctgaa ggcccttgtc agacagcaac tgcctgagaa gtacaaggaa 1140
attttcttcg atcagtctaa aaatggctac gccggataca ttgacggcgg agcaagccag 1200
gaggaatttt acaaatttat taagcccatc ttggaaaaaa tggacggcac cgaggagctg 1260
ctggtaaagc ttaacagaga agatctgttg cgcaaacagc gcactttcga caatggaagc 1320
atcccccacc agattcacct gggcgaactg cacgctatcc tcaggcggca agaggatttc 1380
tacccctttt tgaaagataa cagggaaaag attgagaaaa tcctcacatt tcggataccc 1440
tactatgtag gccccctcgc ccggggaaat tccagattcg cgtggatgac tcgcaaatca 1500
gaagagacca tcactccctg gaacttcgag gaagtcgtgg ataagggggc ctctgcccag 1560
tccttcatcg aaaggatgac taactttgat aaaaatctgc ctaacgaaaa ggtgcttcct 1620
aaacactctc tgctgtacga gtacttcaca gtttataacg agctcaccaa ggtcaaatac 1680
gtcacagaag ggatgagaaa gccagcattc ctgtctggag agcagaagaa agctatcgtg 1740
gacctcctct tcaagacgaa ccggaaagtt accgtgaaac agctcaaaga agactatttc 1800
aaaaagattg aatgtttcga ctctgttgaa atcagcggag tggaggatcg cttcaacgca 1860
tccctgggaa cgtatcacga tctcctgaaa atcattaaag acaaggactt cctggacaat 1920
gaggagaacg aggacattct tgaggacatt gtcctcaccc ttacgttgtt tgaagatagg 1980
gagatgattg aagaacgctt gaaaacttac gctcatctct tcgacgacaa agtcatgaaa 2040
cagctcaaga ggcgccgata tacaggatgg gggcggctgt caagaaaact gatcaatggg 2100
atccgagaca agcagagtgg aaagacaatc ctggattttc ttaagtccga tggatttgcc 2160
aaccggaact tcatgcagtt gatccatgat gactctctca cctttaagga ggacatccag 2220
aaagcacaag tttctggcca gggggacagt cttcacgagc acatcgctaa tcttgcaggt 2280
agcccagcta tcaaaaaggg aatactgcag accgttaagg tcgtggatga actcgtcaaa 2340
gtaatgggaa ggcataagcc cgagaatatc gttatcgaga tggcccgaga gaaccaaact 2400
acccagaagg gacagaagaa cagtagggaa aggatgaaga ggattgaaga gggtataaaa 2460
gaactggggt cccaaatcct taaggaacac ccagttgaaa acacccagct tcagaatgag 2520
aagctctacc tgtactacct gcagaacggc agggacatgt acgtggatca ggaactggac 2580
atcaatcggc tctccgacta cgacgtggat catatcgtgc cccagtcttt tctcaaagat 2640
gattctattg ataataaagt gttgacaaga tccgataaaa atagagggaa gagtgataac 2700
gtcccctcag aagaagttgt caagaaaatg aaaaattatt ggcggcagct gctgaacgcc 2760
aaactgatca cacaacggaa gttcgataat ctgactaagg ctgaacgagg tggcctgtct 2820
gagttggata aagccggctt catcaaaagg cagcttgttg agacacgcca gatcaccaag 2880
cacgtggccc aaattctcga ttcacgcatg aacaccaagt acgatgaaaa tgacaaactg 2940
attcgagagg tgaaagttat tactctgaag tctaagctgg tctcagattt cagaaaggac 3000
tttcagtttt ataaggtgag agagatcaac aattaccacc atgcgcatga tgcctacctg 3060
aatgcagtgg taggcactgc acttatcaaa aaatatccca agcttgaatc tgaatttgtt 3120
tacggagact ataaagtgta cgatgttagg aaaatgatcg caaagtctga gcaggaaata 3180
ggcaaggcca ccgctaagta cttcttttac agcaatatta tgaatttttt caagaccgag 3240
attacactgg ccaatggaga gattcggaag cgaccactta tcgaaacaaa cggagaaaca 3300
ggagaaatcg tgtgggacaa gggtagggat ttcgcgacag tccggaaggt cctgtccatg 3360
ccgcaggtga acatcgttaa aaagaccgaa gtacagaccg gaggcttctc caaggaaagt 3420
atcctcccga aaaggaacag cgacaagctg atcgcacgca aaaaagattg ggaccccaag 3480
aaatacggcg gattcgattc tcctacagtc gcttacagtg tactggttgt ggccaaagtg 3540
gagaaaggga agtctaaaaa actcaaaagc gtcaaggaac tgctgggcat cacaatcatg 3600
gagcgatcaa gcttcgaaaa aaaccccatc gactttctcg aggcgaaagg atataaagag 3660
gtcaaaaaag acctcatcat taagcttccc aagtactctc tctttgagct tgaaaacggc 3720
cggaaacgaa tgctcgctag tgcgggcgag ctgcagaaag gtaacgagct ggcactgccc 3780
tctaaatacg ttaatttctt gtatctggcc agccactatg aaaagctcaa agggtctccc 3840
gaagataatg agcagaagca gctgttcgtg gaacaacaca aacactacct tgatgagatc 3900
atcgagcaaa taagcgaatt ctccaaaaga gtgatcctcg ccgacgctaa cctcgataag 3960
gtgctttctg cttacaataa gcacagggat aagcccatca gggagcaggc agaaaacatt 4020
atccacttgt ttactctgac caacttgggc gcgcctgcag ccttcaagta cttcgacacc 4080
accatagaca gaaagcggta cacctctaca aaggaggtcc tggacgccac actgattcat 4140
cagtcaatta cggggctcta tgaaacaaga atcgacctct ctcagctcgg tggagactga 4200
<210> 34
<211> 25
<212> PRT
<213> 智人
<400> 34
Met Ala Leu Leu Thr Ala Ala Ala Arg Leu Leu Gly Thr Lys Asn Ala
1 5 10 15
Ser Cys Leu Val Leu Ala Ala Arg His
20 25
<210> 35
<211> 4227
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 35
atggctttac ttactgcggc cgcccggctc ttgggaacca agaatgcatc ttgtcttgtt 60
cttgcagccc ggcatatggc tttacttact gcggccgccc ggctcttggg aaccaagaat 120
gcagacaaga agtactccat tgggctcgat atcggcacaa acagcgtcgg ctgggccgtc 180
attacggacg agtacaaggt gccgagcaaa aaattcaaag ttctgggcaa taccgatcgc 240
cacagcataa agaagaacct cattggcgcc ctcctgttcg actccgggga gacggccgaa 300
gccacgcggc tcaaaagaac agcacggcgc agatataccc gcagaaagaa tcggatctgc 360
tacctgcagg agatctttag taatgagatg gctaaggtgg atgactcttt cttccatagg 420
ctggaggagt cctttttggt ggaggaggat aaaaagcacg agcgccaccc aatctttggc 480
aatatcgtgg acgaggtggc gtaccatgaa aagtacccaa ccatatatca tctgaggaag 540
aagcttgtag acagtactga taaggctgac ttgcggttga tctatctcgc gctggcgcat 600
atgatcaaat ttcggggaca cttcctcatc gagggggacc tgaacccaga caacagcgat 660
gtcgacaaac tctttatcca actggttcag acttacaatc agcttttcga agagaacccg 720
atcaacgcat ccggagttga cgccaaagca atcctgagcg ctaggctgtc caaatcccgg 780
cggctcgaaa acctcatcgc acagctccct ggggagaaga agaacggcct gtttggtaat 840
cttatcgccc tgtcactcgg gctgaccccc aactttaaat ctaacttcga cctggccgaa 900
gatgccaagc ttcaactgag caaagacacc tacgatgatg atctcgacaa tctgctggcc 960
cagatcggcg accagtacgc agaccttttt ttggcggcaa agaacctgtc agacgccatt 1020
ctgctgagtg atattctgcg agtgaacacg gagatcacca aagctccgct gagcgctagt 1080
atgatcaagc gctatgatga gcaccaccaa gacttgactt tgctgaaggc ccttgtcaga 1140
cagcaactgc ctgagaagta caaggaaatt ttcttcgatc agtctaaaaa tggctacgcc 1200
ggatacattg acggcggagc aagccaggag gaattttaca aatttattaa gcccatcttg 1260
gaaaaaatgg acggcaccga ggagctgctg gtaaagctta acagagaaga tctgttgcgc 1320
aaacagcgca ctttcgacaa tggaagcatc ccccaccaga ttcacctggg cgaactgcac 1380
gctatcctca ggcggcaaga ggatttctac ccctttttga aagataacag ggaaaagatt 1440
gagaaaatcc tcacatttcg gataccctac tatgtaggcc ccctcgcccg gggaaattcc 1500
agattcgcgt ggatgactcg caaatcagaa gagaccatca ctccctggaa cttcgaggaa 1560
gtcgtggata agggggcctc tgcccagtcc ttcatcgaaa ggatgactaa ctttgataaa 1620
aatctgccta acgaaaaggt gcttcctaaa cactctctgc tgtacgagta cttcacagtt 1680
tataacgagc tcaccaaggt caaatacgtc acagaaggga tgagaaagcc agcattcctg 1740
tctggagagc agaagaaagc tatcgtggac ctcctcttca agacgaaccg gaaagttacc 1800
gtgaaacagc tcaaagaaga ctatttcaaa aagattgaat gtttcgactc tgttgaaatc 1860
agcggagtgg aggatcgctt caacgcatcc ctgggaacgt atcacgatct cctgaaaatc 1920
attaaagaca aggacttcct ggacaatgag gagaacgagg acattcttga ggacattgtc 1980
ctcaccctta cgttgtttga agatagggag atgattgaag aacgcttgaa aacttacgct 2040
catctcttcg acgacaaagt catgaaacag ctcaagaggc gccgatatac aggatggggg 2100
cggctgtcaa gaaaactgat caatgggatc cgagacaagc agagtggaaa gacaatcctg 2160
gattttctta agtccgatgg atttgccaac cggaacttca tgcagttgat ccatgatgac 2220
tctctcacct ttaaggagga catccagaaa gcacaagttt ctggccaggg ggacagtctt 2280
cacgagcaca tcgctaatct tgcaggtagc ccagctatca aaaagggaat actgcagacc 2340
gttaaggtcg tggatgaact cgtcaaagta atgggaaggc ataagcccga gaatatcgtt 2400
atcgagatgg cccgagagaa ccaaactacc cagaagggac agaagaacag tagggaaagg 2460
atgaagagga ttgaagaggg tataaaagaa ctggggtccc aaatccttaa ggaacaccca 2520
gttgaaaaca cccagcttca gaatgagaag ctctacctgt actacctgca gaacggcagg 2580
gacatgtacg tggatcagga actggacatc aatcggctct ccgactacga cgtggatcat 2640
atcgtgcccc agtcttttct caaagatgat tctattgata ataaagtgtt gacaagatcc 2700
gataaaaata gagggaagag tgataacgtc ccctcagaag aagttgtcaa gaaaatgaaa 2760
aattattggc ggcagctgct gaacgccaaa ctgatcacac aacggaagtt cgataatctg 2820
actaaggctg aacgaggtgg cctgtctgag ttggataaag ccggcttcat caaaaggcag 2880
cttgttgaga cacgccagat caccaagcac gtggcccaaa ttctcgattc acgcatgaac 2940
accaagtacg atgaaaatga caaactgatt cgagaggtga aagttattac tctgaagtct 3000
aagctggtct cagatttcag aaaggacttt cagttttata aggtgagaga gatcaacaat 3060
taccaccatg cgcatgatgc ctacctgaat gcagtggtag gcactgcact tatcaaaaaa 3120
tatcccaagc ttgaatctga atttgtttac ggagactata aagtgtacga tgttaggaaa 3180
atgatcgcaa agtctgagca ggaaataggc aaggccaccg ctaagtactt cttttacagc 3240
aatattatga attttttcaa gaccgagatt acactggcca atggagagat tcggaagcga 3300
ccacttatcg aaacaaacgg agaaacagga gaaatcgtgt gggacaaggg tagggatttc 3360
gcgacagtcc ggaaggtcct gtccatgccg caggtgaaca tcgttaaaaa gaccgaagta 3420
cagaccggag gcttctccaa ggaaagtatc ctcccgaaaa ggaacagcga caagctgatc 3480
gcacgcaaaa aagattggga ccccaagaaa tacggcggat tcgattctcc tacagtcgct 3540
tacagtgtac tggttgtggc caaagtggag aaagggaagt ctaaaaaact caaaagcgtc 3600
aaggaactgc tgggcatcac aatcatggag cgatcaagct tcgaaaaaaa ccccatcgac 3660
tttctcgagg cgaaaggata taaagaggtc aaaaaagacc tcatcattaa gcttcccaag 3720
tactctctct ttgagcttga aaacggccgg aaacgaatgc tcgctagtgc gggcgagctg 3780
cagaaaggta acgagctggc actgccctct aaatacgtta atttcttgta tctggccagc 3840
cactatgaaa agctcaaagg gtctcccgaa gataatgagc agaagcagct gttcgtggaa 3900
caacacaaac actaccttga tgagatcatc gagcaaataa gcgaattctc caaaagagtg 3960
atcctcgccg acgctaacct cgataaggtg ctttctgctt acaataagca cagggataag 4020
cccatcaggg agcaggcaga aaacattatc cacttgttta ctctgaccaa cttgggcgcg 4080
cctgcagcct tcaagtactt cgacaccacc atagacagaa agcggtacac ctctacaaag 4140
gaggtcctgg acgccacact gattcatcag tcaattacgg ggctctatga aacaagaatc 4200
gacctctctc agctcggtgg agactga 4227
<210> 36
<211> 120
<212> DNA
<213> 智人
<400> 36
gcctacggcc ataccaccct gaacgcgccc gatctcgtct gatctcggaa gctaagcagg 60
gtcgggcctg gttagtactt ggatgggaga ccacctggga ataccgggtg ctgtaggctt 120
<210> 37
<211> 22
<212> DNA
<213> 智人
<400> 37
gtctggtgag tagtgcatgg ct 22
<210> 38
<211> 460
<212> DNA
<213> 智人
<400> 38
agccccgcgg ccccgggctg gcggtgtcgg ctgcaatccg gcgggcacgg ccgggccggg 60
ctgggctctt ggggcagcca ggcgcctcct tcagcgccta cggccatacc accctgaacg 120
cgcccgatct cgtctgatct cggaagctaa gcagggtcgg gcctggttag tacttggatg 180
ggagaccacc tgggaatacc gggtgctgta ggctttttct ttggcttttt gctgtttctt 240
tccttttctt ccagacggag tctcgccctc tcgcccaggc tggagtgcgg tggcgccatc 300
tcggctcact gcaagctccg cctcccgggt ccacgccatt ccccggcctc agcctcccga 360
gtagctgggc ctacaggcgc ccgccaccac gcccggccac tttgttctat ttttcctaga 420
gacgggcttt caccctgtta gccgggatgg tctggagctc 460
<210> 39
<211> 20
<212> DNA
<213> 小家鼠
<400> 39
gatgtcctga tccaacatcg 20
<210> 40
<211> 432
<212> DNA
<213> 小家鼠
<400> 40
tttcggttgg ggtgacctcg gagaataaaa aatcctccga atgattataa cctagactta 60
caagtcaaag taaaatcaac atatcttatt gacccagata tattttgatc aacggaccaa 120
gttaccctag ggataacagc gcaatcctat ttaagagttc atatcgacaa ttagggttta 180
cgacctcgac gttggatcag gacatcccaa tggtgtagaa gctattaatg gttcgtttgt 240
tcaacgatta aagtcctacg tgatctgagt tcagaccgga gcaatccagg tcggtttcta 300
tctatttacg atttctccca gtacgaaagg acaagagaaa tagagccacc ttacaaataa 360
gcgctctcaa cttaatttat gaataaaatc taaataaaat atatacgtac accctctaac 420
ctagagaagg tt 432
<210> 41
<211> 4296
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 41
atggataaga agtactctat cggacttgac atcggaacca actctgttgg atgggctgtt 60
atcaccgatg agtacaaggt tccatctaag aagttcaagg ttcttggaaa caccgataga 120
cactctatca agaagaacct tatcggtgct cttcttttcg attctggaga gaccgctgag 180
gctaccagat tgaagagaac cgctagaaga agatacacca gaagaaagaa cagaatctgc 240
taccttcagg aaatcttctc taacgagatg gctaaggttg atgattcttt cttccacaga 300
cttgaggagt ctttccttgt tgaggaggat aagaagcacg agagacaccc aatcttcgga 360
aacatcgttg atgaggttgc ttaccacgag aagtacccaa ccatctacca ccttagaaag 420
aagttggttg attctaccga taaggctgat cttagactta tctaccttgc tcttgctcac 480
atgatcaagt tcagaggaca cttccttatc gagggagacc ttaacccaga taactctgat 540
gttgataagt tgttcatcca gcttgttcag acctacaacc agcttttcga ggagaaccca 600
atcaacgctt ctggagttga tgctaaggct atcctttctg ctagactttc taagtctcgt 660
agacttgaga accttatcgc tcagcttcca ggagagaaga agaacggact tttcggaaac 720
cttatcgctc tttctcttgg acttacccca aacttcaagt ctaacttcga tcttgctgag 780
gatgctaagt tgcagctttc taaggatacc tacgatgatg atcttgataa ccttcttgct 840
cagatcggag atcagtacgc tgatcttttc cttgctgcta agaacctttc tgatgctatc 900
cttctttctg acatccttag agttaacacc gagatcacca aggctccact ttctgcttct 960
atgatcaaga gatacgatga gcaccaccag gatcttaccc ttttgaaggc tcttgttaga 1020
cagcagcttc cagagaagta caaggaaatc ttcttcgatc agtctaagaa cggatacgct 1080
ggatacatcg atggaggagc ttctcaggag gagttctaca agttcatcaa gccaatcctt 1140
gagaagatgg atggaaccga ggagcttctt gttaagttga acagagagga tcttcttaga 1200
aagcagagaa ccttcgataa cggatctatc ccacaccaga tccaccttgg agagcttcac 1260
gctatccttc gtagacagga ggatttctac ccattcttga aggataacag agagaagatc 1320
gagaagatcc ttaccttcag aatcccatac tacgttggac cacttgctag aggaaactct 1380
cgtttcgctt ggatgaccag aaagtctgag gagaccatca ccccttggaa cttcgaggag 1440
gtaagtttct gcttctacct ttgatatata tataataatt atcattaatt agtagtaata 1500
taatatttca aatatttttt tcaaaataaa agaatgtagt atatagcaat tgcttttctg 1560
tagtttataa gtgtgtatat tttaatttat aacttttcta atatatgacc aaaatttgtt 1620
gatgtgcagg ttgttgataa gggagcttct gctcagtctt tcatcgagag aatgaccaac 1680
ttcgataaga accttccaaa cgagaaggtt cttccaaagc actctcttct ttacgagtac 1740
ttcaccgttt acaacgagct taccaaggtt aagtacgtta ccgagggaat gagaaagcca 1800
gctttccttt ctggagagca gaagaaggct atcgttgatc ttcttttcaa gaccaacaga 1860
aaggttaccg ttaagcagtt gaaggaggat tacttcaaga agatcgagtg cttcgattct 1920
gttgaaatct ctggagttga ggatagattc aacgcttctc ttggaaccta ccacgatctt 1980
ttgaagatca tcaaggataa ggatttcctt gataacgagg agaacgagga catccttgag 2040
gacatcgttc ttacccttac ccttttcgag gatagagaga tgatcgagga gagactcaag 2100
acctacgctc accttttcga tgataaggtt atgaagcagt tgaagagaag aagatacacc 2160
ggatggggta gactttctcg taagttgatc aacggaatca gagataagca gtctggaaag 2220
accatccttg atttcttgaa gtctgatgga ttcgctaaca gaaacttcat gcagcttatc 2280
cacgatgatt ctcttacctt caaggaggac atccagaagg ctcaggtttc tggacaggga 2340
gattctcttc acgagcacat cgctaacctt gctggatctc cagctatcaa gaagggaatc 2400
cttcagaccg ttaaggttgt tgatgagctt gttaaggtta tgggtagaca caagccagag 2460
aacatcgtta tcgagatggc tagagagaac cagaccaccc agaagggaca gaagaactct 2520
cgtgagagaa tgaagagaat cgaggaggga atcaaggagc ttggatctca aatcttgaag 2580
gagcacccag ttgagaacac ccagcttcag aacgagaagt tgtaccttta ctaccttcag 2640
aacggaagag atatgtacgt tgatcaggag cttgacatca acagactttc tgattacgat 2700
gttgatcaca tcgttccaca gtctttcttg aaggatgatt ctatcgataa caaggttctt 2760
acccgttctg ataagaacag aggaaagtct gataacgttc catctgagga ggttgttaag 2820
aagatgaaga actactggag acagcttctt aacgctaagt tgatcaccca gagaaagttc 2880
gataacctta ccaaggctga gagaggagga ctttctgagc ttgataaggc tggattcatc 2940
aagagacagc ttgttgagac cagacagatc accaagcacg ttgctcagat ccttgattct 3000
cgtatgaaca ccaagtacga tgagaacgat aagttgatca gagaggttaa ggttatcacc 3060
ttgaagtcta agttggtttc tgatttcaga aaggatttcc agttctacaa ggttagagag 3120
atcaacaact accaccacgc tcacgatgct taccttaacg ctgttgttgg aaccgctctt 3180
atcaagaagt acccaaagtt ggagtctgag ttcgtttacg gagattacaa ggtttacgat 3240
gttagaaaga tgatcgctaa gtctgagcag gagatcggaa aggctaccgc taagtacttc 3300
ttctactcta acatcatgaa cttcttcaag accgagatca cccttgctaa cggagagatc 3360
agaaagagac cacttatcga gaccaacgga gagaccggag agatcgtttg ggataaggga 3420
agagatttcg ctaccgttag aaaggttctt tctatgccac aggttaacat cgttaagaaa 3480
accgaggttc agaccggagg attctctaag gagtctatcc ttccaaagag aaactctgat 3540
aagttgatcg ctagaaagaa ggattgggac ccaaagaagt acggaggatt cgattctcca 3600
accgttgctt actctgttct tgttgttgct aaggttgaga agggaaagtc taagaagttg 3660
aagtctgtta aggagcttct tggaatcacc atcatggagc gttcttcttt cgagaagaac 3720
ccaatcgatt tccttgaggc taagggatac aaggaggtta agaaggatct tatcatcaag 3780
ttgccaaagt actctctttt cgagcttgag aacggaagaa agagaatgct tgcttctgct 3840
ggagagcttc agaagggaaa cgagcttgct cttccatcta agtacgttaa cttcctttac 3900
cttgcttctc actacgagaa gttgaaggga tctccagagg ataacgagca gaagcagctt 3960
ttcgttgagc agcacaagca ctaccttgat gagatcatcg agcaaatctc tgagttctct 4020
aagagagtta tccttgctga tgctaacctt gataaggttc tttctgctta caacaagcac 4080
agagataagc caatcagaga gcaggctgag aacatcatcc accttttcac ccttaccaac 4140
cttggtgctc cagctgcttt caagtacttc gataccacca tcgatagaaa aagatacacc 4200
tctaccaagg aggttcttga tgctaccctt atccaccagt ctatcaccgg actttacgag 4260
accagaatcg atctttctca gcttggagga gattga 4296
<210> 42
<211> 1368
<212> PRT
<213> 人工序列
<220>
<223> 合成构建体
<400> 42
Met Asp Lys Lys Tyr Ser Ile Gly Leu Asp Ile Gly Thr Asn Ser Val
1 5 10 15
Gly Trp Ala Val Ile Thr Asp Glu Tyr Lys Val Pro Ser Lys Lys Phe
20 25 30
Lys Val Leu Gly Asn Thr Asp Arg His Ser Ile Lys Lys Asn Leu Ile
35 40 45
Gly Ala Leu Leu Phe Asp Ser Gly Glu Thr Ala Glu Ala Thr Arg Leu
50 55 60
Lys Arg Thr Ala Arg Arg Arg Tyr Thr Arg Arg Lys Asn Arg Ile Cys
65 70 75 80
Tyr Leu Gln Glu Ile Phe Ser Asn Glu Met Ala Lys Val Asp Asp Ser
85 90 95
Phe Phe His Arg Leu Glu Glu Ser Phe Leu Val Glu Glu Asp Lys Lys
100 105 110
His Glu Arg His Pro Ile Phe Gly Asn Ile Val Asp Glu Val Ala Tyr
115 120 125
His Glu Lys Tyr Pro Thr Ile Tyr His Leu Arg Lys Lys Leu Val Asp
130 135 140
Ser Thr Asp Lys Ala Asp Leu Arg Leu Ile Tyr Leu Ala Leu Ala His
145 150 155 160
Met Ile Lys Phe Arg Gly His Phe Leu Ile Glu Gly Asp Leu Asn Pro
165 170 175
Asp Asn Ser Asp Val Asp Lys Leu Phe Ile Gln Leu Val Gln Thr Tyr
180 185 190
Asn Gln Leu Phe Glu Glu Asn Pro Ile Asn Ala Ser Gly Val Asp Ala
195 200 205
Lys Ala Ile Leu Ser Ala Arg Leu Ser Lys Ser Arg Arg Leu Glu Asn
210 215 220
Leu Ile Ala Gln Leu Pro Gly Glu Lys Lys Asn Gly Leu Phe Gly Asn
225 230 235 240
Leu Ile Ala Leu Ser Leu Gly Leu Thr Pro Asn Phe Lys Ser Asn Phe
245 250 255
Asp Leu Ala Glu Asp Ala Lys Leu Gln Leu Ser Lys Asp Thr Tyr Asp
260 265 270
Asp Asp Leu Asp Asn Leu Leu Ala Gln Ile Gly Asp Gln Tyr Ala Asp
275 280 285
Leu Phe Leu Ala Ala Lys Asn Leu Ser Asp Ala Ile Leu Leu Ser Asp
290 295 300
Ile Leu Arg Val Asn Thr Glu Ile Thr Lys Ala Pro Leu Ser Ala Ser
305 310 315 320
Met Ile Lys Arg Tyr Asp Glu His His Gln Asp Leu Thr Leu Leu Lys
325 330 335
Ala Leu Val Arg Gln Gln Leu Pro Glu Lys Tyr Lys Glu Ile Phe Phe
340 345 350
Asp Gln Ser Lys Asn Gly Tyr Ala Gly Tyr Ile Asp Gly Gly Ala Ser
355 360 365
Gln Glu Glu Phe Tyr Lys Phe Ile Lys Pro Ile Leu Glu Lys Met Asp
370 375 380
Gly Thr Glu Glu Leu Leu Val Lys Leu Asn Arg Glu Asp Leu Leu Arg
385 390 395 400
Lys Gln Arg Thr Phe Asp Asn Gly Ser Ile Pro His Gln Ile His Leu
405 410 415
Gly Glu Leu His Ala Ile Leu Arg Arg Gln Glu Asp Phe Tyr Pro Phe
420 425 430
Leu Lys Asp Asn Arg Glu Lys Ile Glu Lys Ile Leu Thr Phe Arg Ile
435 440 445
Pro Tyr Tyr Val Gly Pro Leu Ala Arg Gly Asn Ser Arg Phe Ala Trp
450 455 460
Met Thr Arg Lys Ser Glu Glu Thr Ile Thr Pro Trp Asn Phe Glu Glu
465 470 475 480
Val Val Asp Lys Gly Ala Ser Ala Gln Ser Phe Ile Glu Arg Met Thr
485 490 495
Asn Phe Asp Lys Asn Leu Pro Asn Glu Lys Val Leu Pro Lys His Ser
500 505 510
Leu Leu Tyr Glu Tyr Phe Thr Val Tyr Asn Glu Leu Thr Lys Val Lys
515 520 525
Tyr Val Thr Glu Gly Met Arg Lys Pro Ala Phe Leu Ser Gly Glu Gln
530 535 540
Lys Lys Ala Ile Val Asp Leu Leu Phe Lys Thr Asn Arg Lys Val Thr
545 550 555 560
Val Lys Gln Leu Lys Glu Asp Tyr Phe Lys Lys Ile Glu Cys Phe Asp
565 570 575
Ser Val Glu Ile Ser Gly Val Glu Asp Arg Phe Asn Ala Ser Leu Gly
580 585 590
Thr Tyr His Asp Leu Leu Lys Ile Ile Lys Asp Lys Asp Phe Leu Asp
595 600 605
Asn Glu Glu Asn Glu Asp Ile Leu Glu Asp Ile Val Leu Thr Leu Thr
610 615 620
Leu Phe Glu Asp Arg Glu Met Ile Glu Glu Arg Leu Lys Thr Tyr Ala
625 630 635 640
His Leu Phe Asp Asp Lys Val Met Lys Gln Leu Lys Arg Arg Arg Tyr
645 650 655
Thr Gly Trp Gly Arg Leu Ser Arg Lys Leu Ile Asn Gly Ile Arg Asp
660 665 670
Lys Gln Ser Gly Lys Thr Ile Leu Asp Phe Leu Lys Ser Asp Gly Phe
675 680 685
Ala Asn Arg Asn Phe Met Gln Leu Ile His Asp Asp Ser Leu Thr Phe
690 695 700
Lys Glu Asp Ile Gln Lys Ala Gln Val Ser Gly Gln Gly Asp Ser Leu
705 710 715 720
His Glu His Ile Ala Asn Leu Ala Gly Ser Pro Ala Ile Lys Lys Gly
725 730 735
Ile Leu Gln Thr Val Lys Val Val Asp Glu Leu Val Lys Val Met Gly
740 745 750
Arg His Lys Pro Glu Asn Ile Val Ile Glu Met Ala Arg Glu Asn Gln
755 760 765
Thr Thr Gln Lys Gly Gln Lys Asn Ser Arg Glu Arg Met Lys Arg Ile
770 775 780
Glu Glu Gly Ile Lys Glu Leu Gly Ser Gln Ile Leu Lys Glu His Pro
785 790 795 800
Val Glu Asn Thr Gln Leu Gln Asn Glu Lys Leu Tyr Leu Tyr Tyr Leu
805 810 815
Gln Asn Gly Arg Asp Met Tyr Val Asp Gln Glu Leu Asp Ile Asn Arg
820 825 830
Leu Ser Asp Tyr Asp Val Asp His Ile Val Pro Gln Ser Phe Leu Lys
835 840 845
Asp Asp Ser Ile Asp Asn Lys Val Leu Thr Arg Ser Asp Lys Asn Arg
850 855 860
Gly Lys Ser Asp Asn Val Pro Ser Glu Glu Val Val Lys Lys Met Lys
865 870 875 880
Asn Tyr Trp Arg Gln Leu Leu Asn Ala Lys Leu Ile Thr Gln Arg Lys
885 890 895
Phe Asp Asn Leu Thr Lys Ala Glu Arg Gly Gly Leu Ser Glu Leu Asp
900 905 910
Lys Ala Gly Phe Ile Lys Arg Gln Leu Val Glu Thr Arg Gln Ile Thr
915 920 925
Lys His Val Ala Gln Ile Leu Asp Ser Arg Met Asn Thr Lys Tyr Asp
930 935 940
Glu Asn Asp Lys Leu Ile Arg Glu Val Lys Val Ile Thr Leu Lys Ser
945 950 955 960
Lys Leu Val Ser Asp Phe Arg Lys Asp Phe Gln Phe Tyr Lys Val Arg
965 970 975
Glu Ile Asn Asn Tyr His His Ala His Asp Ala Tyr Leu Asn Ala Val
980 985 990
Val Gly Thr Ala Leu Ile Lys Lys Tyr Pro Lys Leu Glu Ser Glu Phe
995 1000 1005
Val Tyr Gly Asp Tyr Lys Val Tyr Asp Val Arg Lys Met Ile Ala
1010 1015 1020
Lys Ser Glu Gln Glu Ile Gly Lys Ala Thr Ala Lys Tyr Phe Phe
1025 1030 1035
Tyr Ser Asn Ile Met Asn Phe Phe Lys Thr Glu Ile Thr Leu Ala
1040 1045 1050
Asn Gly Glu Ile Arg Lys Arg Pro Leu Ile Glu Thr Asn Gly Glu
1055 1060 1065
Thr Gly Glu Ile Val Trp Asp Lys Gly Arg Asp Phe Ala Thr Val
1070 1075 1080
Arg Lys Val Leu Ser Met Pro Gln Val Asn Ile Val Lys Lys Thr
1085 1090 1095
Glu Val Gln Thr Gly Gly Phe Ser Lys Glu Ser Ile Leu Pro Lys
1100 1105 1110
Arg Asn Ser Asp Lys Leu Ile Ala Arg Lys Lys Asp Trp Asp Pro
1115 1120 1125
Lys Lys Tyr Gly Gly Phe Asp Ser Pro Thr Val Ala Tyr Ser Val
1130 1135 1140
Leu Val Val Ala Lys Val Glu Lys Gly Lys Ser Lys Lys Leu Lys
1145 1150 1155
Ser Val Lys Glu Leu Leu Gly Ile Thr Ile Met Glu Arg Ser Ser
1160 1165 1170
Phe Glu Lys Asn Pro Ile Asp Phe Leu Glu Ala Lys Gly Tyr Lys
1175 1180 1185
Glu Val Lys Lys Asp Leu Ile Ile Lys Leu Pro Lys Tyr Ser Leu
1190 1195 1200
Phe Glu Leu Glu Asn Gly Arg Lys Arg Met Leu Ala Ser Ala Gly
1205 1210 1215
Glu Leu Gln Lys Gly Asn Glu Leu Ala Leu Pro Ser Lys Tyr Val
1220 1225 1230
Asn Phe Leu Tyr Leu Ala Ser His Tyr Glu Lys Leu Lys Gly Ser
1235 1240 1245
Pro Glu Asp Asn Glu Gln Lys Gln Leu Phe Val Glu Gln His Lys
1250 1255 1260
His Tyr Leu Asp Glu Ile Ile Glu Gln Ile Ser Glu Phe Ser Lys
1265 1270 1275
Arg Val Ile Leu Ala Asp Ala Asn Leu Asp Lys Val Leu Ser Ala
1280 1285 1290
Tyr Asn Lys His Arg Asp Lys Pro Ile Arg Glu Gln Ala Glu Asn
1295 1300 1305
Ile Ile His Leu Phe Thr Leu Thr Asn Leu Gly Ala Pro Ala Ala
1310 1315 1320
Phe Lys Tyr Phe Asp Thr Thr Ile Asp Arg Lys Arg Tyr Thr Ser
1325 1330 1335
Thr Lys Glu Val Leu Asp Ala Thr Leu Ile His Gln Ser Ile Thr
1340 1345 1350
Gly Leu Tyr Glu Thr Arg Ile Asp Leu Ser Gln Leu Gly Gly Asp
1355 1360 1365
<210> 43
<211> 80
<212> PRT
<213> 拟南芥
<400> 43
Met Ala Ser Ser Met Leu Ser Ser Ala Thr Met Val Ala Ser Pro Ala
1 5 10 15
Gln Ala Thr Met Val Ala Pro Phe Asn Gly Leu Lys Ser Ser Ala Ala
20 25 30
Phe Pro Ala Thr Arg Lys Ala Asn Asn Asp Ile Thr Ser Ile Thr Ser
35 40 45
Asn Gly Gly Arg Val Asn Cys Met Gln Val Trp Pro Pro Ile Gly Lys
50 55 60
Lys Lys Phe Glu Thr Leu Ser Tyr Leu Pro Asp Leu Thr Asp Ser Glu
65 70 75 80
<210> 44
<211> 80
<212> PRT
<213> 拟南芥
<400> 44
Met Ala Ser Asn Ser Leu Met Ser Cys Gly Ile Ala Ala Val Tyr Pro
1 5 10 15
Ser Leu Leu Ser Ser Ser Lys Ser Lys Phe Val Ser Ala Gly Val Pro
20 25 30
Leu Pro Asn Ala Gly Asn Val Gly Arg Ile Arg Met Ala Ala His Trp
35 40 45
Met Pro Gly Glu Pro Arg Pro Ala Tyr Leu Asp Gly Ser Ala Pro Gly
50 55 60
Asp Phe Gly Phe Asp Pro Leu Gly Leu Gly Glu Val Pro Ala Asn Leu
65 70 75 80
<210> 45
<211> 80
<212> PRT
<213> 拟南芥
<400> 45
Met Thr Ile Ala Leu Thr Ile Gly Gly Asn Gly Phe Ser Gly Leu Pro
1 5 10 15
Gly Ser Ser Phe Ser Ser Ser Ser Ser Ser Phe Arg Leu Lys Asn Ser
20 25 30
Arg Arg Lys Asn Thr Lys Met Leu Asn Arg Ser Lys Val Val Cys Ser
35 40 45
Ser Ser Ser Ser Val Met Asp Pro Tyr Lys Thr Leu Lys Ile Arg Pro
50 55 60
Asp Ser Ser Glu Tyr Glu Val Lys Lys Ala Phe Arg Gln Leu Ala Lys
65 70 75 80
<210> 46
<211> 4467
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 46
atggcttcct ctatgctctc ttccgctact atggttgcct ctccggctca ggccactatg 60
gtcgctcctt tcaacggact taagtcctcc gctgccttcc cagccacccg caaggctaac 120
aacgacatta cttccatcac aagcaacggc ggaagagtta actgcatgca ggtggataag 180
aagtactcta tcggacttga catcggaacc aactctgttg gatgggctgt tatcaccgat 240
gagtacaagg ttccatctaa gaagttcaag gttcttggaa acaccgatag acactctatc 300
aagaagaacc ttatcggtgc tcttcttttc gattctggag agaccgctga ggctaccaga 360
ttgaagagaa ccgctagaag aagatacacc agaagaaaga acagaatctg ctaccttcag 420
gaaatcttct ctaacgagat ggctaaggtt gatgattctt tcttccacag acttgaggag 480
tctttccttg ttgaggagga taagaagcac gagagacacc caatcttcgg aaacatcgtt 540
gatgaggttg cttaccacga gaagtaccca accatctacc accttagaaa gaagttggtt 600
gattctaccg ataaggctga tcttagactt atctaccttg ctcttgctca catgatcaag 660
ttcagaggac acttccttat cgagggagac cttaacccag ataactctga tgttgataag 720
ttgttcatcc agcttgttca gacctacaac cagcttttcg aggagaaccc aatcaacgct 780
tctggagttg atgctaaggc tatcctttct gctagacttt ctaagtctcg tagacttgag 840
aaccttatcg ctcagcttcc aggagagaag aagaacggac ttttcggaaa ccttatcgct 900
ctttctcttg gacttacccc aaacttcaag tctaacttcg atcttgctga ggatgctaag 960
ttgcagcttt ctaaggatac ctacgatgat gatcttgata accttcttgc tcagatcgga 1020
gatcagtacg ctgatctttt ccttgctgct aagaaccttt ctgatgctat ccttctttct 1080
gacatcctta gagttaacac cgagatcacc aaggctccac tttctgcttc tatgatcaag 1140
agatacgatg agcaccacca ggatcttacc cttttgaagg ctcttgttag acagcagctt 1200
ccagagaagt acaaggaaat cttcttcgat cagtctaaga acggatacgc tggatacatc 1260
gatggaggag cttctcagga ggagttctac aagttcatca agccaatcct tgagaagatg 1320
gatggaaccg aggagcttct tgttaagttg aacagagagg atcttcttag aaagcagaga 1380
accttcgata acggatctat cccacaccag atccaccttg gagagcttca cgctatcctt 1440
cgtagacagg aggatttcta cccattcttg aaggataaca gagagaagat cgagaagatc 1500
cttaccttca gaatcccata ctacgttgga ccacttgcta gaggaaactc tcgtttcgct 1560
tggatgacca gaaagtctga ggagaccatc accccttgga acttcgagga ggtaagtttc 1620
tgcttctacc tttgatatat atataataat tatcattaat tagtagtaat ataatatttc 1680
aaatattttt ttcaaaataa aagaatgtag tatatagcaa ttgcttttct gtagtttata 1740
agtgtgtata ttttaattta taacttttct aatatatgac caaaatttgt tgatgtgcag 1800
gttgttgata agggagcttc tgctcagtct ttcatcgaga gaatgaccaa cttcgataag 1860
aaccttccaa acgagaaggt tcttccaaag cactctcttc tttacgagta cttcaccgtt 1920
tacaacgagc ttaccaaggt taagtacgtt accgagggaa tgagaaagcc agctttcctt 1980
tctggagagc agaagaaggc tatcgttgat cttcttttca agaccaacag aaaggttacc 2040
gttaagcagt tgaaggagga ttacttcaag aagatcgagt gcttcgattc tgttgaaatc 2100
tctggagttg aggatagatt caacgcttct cttggaacct accacgatct tttgaagatc 2160
atcaaggata aggatttcct tgataacgag gagaacgagg acatccttga ggacatcgtt 2220
cttaccctta cccttttcga ggatagagag atgatcgagg agagactcaa gacctacgct 2280
caccttttcg atgataaggt tatgaagcag ttgaagagaa gaagatacac cggatggggt 2340
agactttctc gtaagttgat caacggaatc agagataagc agtctggaaa gaccatcctt 2400
gatttcttga agtctgatgg attcgctaac agaaacttca tgcagcttat ccacgatgat 2460
tctcttacct tcaaggagga catccagaag gctcaggttt ctggacaggg agattctctt 2520
cacgagcaca tcgctaacct tgctggatct ccagctatca agaagggaat ccttcagacc 2580
gttaaggttg ttgatgagct tgttaaggtt atgggtagac acaagccaga gaacatcgtt 2640
atcgagatgg ctagagagaa ccagaccacc cagaagggac agaagaactc tcgtgagaga 2700
atgaagagaa tcgaggaggg aatcaaggag cttggatctc aaatcttgaa ggagcaccca 2760
gttgagaaca cccagcttca gaacgagaag ttgtaccttt actaccttca gaacggaaga 2820
gatatgtacg ttgatcagga gcttgacatc aacagacttt ctgattacga tgttgatcac 2880
atcgttccac agtctttctt gaaggatgat tctatcgata acaaggttct tacccgttct 2940
gataagaaca gaggaaagtc tgataacgtt ccatctgagg aggttgttaa gaagatgaag 3000
aactactgga gacagcttct taacgctaag ttgatcaccc agagaaagtt cgataacctt 3060
accaaggctg agagaggagg actttctgag cttgataagg ctggattcat caagagacag 3120
cttgttgaga ccagacagat caccaagcac gttgctcaga tccttgattc tcgtatgaac 3180
accaagtacg atgagaacga taagttgatc agagaggtta aggttatcac cttgaagtct 3240
aagttggttt ctgatttcag aaaggatttc cagttctaca aggttagaga gatcaacaac 3300
taccaccacg ctcacgatgc ttaccttaac gctgttgttg gaaccgctct tatcaagaag 3360
tacccaaagt tggagtctga gttcgtttac ggagattaca aggtttacga tgttagaaag 3420
atgatcgcta agtctgagca ggagatcgga aaggctaccg ctaagtactt cttctactct 3480
aacatcatga acttcttcaa gaccgagatc acccttgcta acggagagat cagaaagaga 3540
ccacttatcg agaccaacgg agagaccgga gagatcgttt gggataaggg aagagatttc 3600
gctaccgtta gaaaggttct ttctatgcca caggttaaca tcgttaagaa aaccgaggtt 3660
cagaccggag gattctctaa ggagtctatc cttccaaaga gaaactctga taagttgatc 3720
gctagaaaga aggattggga cccaaagaag tacggaggat tcgattctcc aaccgttgct 3780
tactctgttc ttgttgttgc taaggttgag aagggaaagt ctaagaagtt gaagtctgtt 3840
aaggagcttc ttggaatcac catcatggag cgttcttctt tcgagaagaa cccaatcgat 3900
ttccttgagg ctaagggata caaggaggtt aagaaggatc ttatcatcaa gttgccaaag 3960
tactctcttt tcgagcttga gaacggaaga aagagaatgc ttgcttctgc tggagagctt 4020
cagaagggaa acgagcttgc tcttccatct aagtacgtta acttccttta ccttgcttct 4080
cactacgaga agttgaaggg atctccagag gataacgagc agaagcagct tttcgttgag 4140
cagcacaagc actaccttga tgagatcatc gagcaaatct ctgagttctc taagagagtt 4200
atccttgctg atgctaacct tgataaggtt ctttctgctt acaacaagca cagagataag 4260
ccaatcagag agcaggctga gaacatcatc caccttttca cccttaccaa ccttggtgct 4320
ccagctgctt tcaagtactt cgataccacc atcgatagaa aaagatacac ctctaccaag 4380
gaggttcttg atgctaccct tatccaccag tctatcaccg gactttacga gaccagaatc 4440
gatctttctc agcttggagg agattga 4467
<210> 47
<211> 1424
<212> PRT
<213> 人工序列
<220>
<223> 合成构建体
<400> 47
Met Ala Ser Ser Met Leu Ser Ser Ala Thr Met Val Ala Ser Pro Ala
1 5 10 15
Gln Ala Thr Met Val Ala Pro Phe Asn Gly Leu Lys Ser Ser Ala Ala
20 25 30
Phe Pro Ala Thr Arg Lys Ala Asn Asn Asp Ile Thr Ser Ile Thr Ser
35 40 45
Asn Gly Gly Arg Val Cys Met Gln Val Asp Lys Lys Tyr Ser Ile Gly
50 55 60
Leu Asp Ile Gly Thr Asn Ser Val Gly Trp Ala Val Ile Thr Asp Glu
65 70 75 80
Tyr Lys Val Pro Ser Lys Lys Phe Lys Val Leu Gly Asn Thr Asp Arg
85 90 95
His Ser Ile Lys Lys Asn Leu Ile Gly Ala Leu Leu Phe Asp Ser Gly
100 105 110
Glu Thr Ala Glu Ala Thr Arg Leu Lys Arg Thr Ala Arg Arg Arg Tyr
115 120 125
Thr Arg Arg Lys Asn Arg Ile Cys Tyr Leu Gln Glu Ile Phe Ser Asn
130 135 140
Glu Met Ala Lys Val Asp Asp Ser Phe Phe His Arg Leu Glu Glu Ser
145 150 155 160
Phe Leu Val Glu Glu Asp Lys Lys His Glu Arg His Pro Ile Phe Gly
165 170 175
Asn Ile Val Asp Glu Val Ala Tyr His Glu Lys Tyr Pro Thr Ile Tyr
180 185 190
His Leu Arg Lys Lys Leu Val Asp Ser Thr Asp Lys Ala Asp Leu Arg
195 200 205
Leu Ile Tyr Leu Ala Leu Ala His Met Ile Lys Phe Arg Gly His Phe
210 215 220
Leu Ile Glu Gly Asp Leu Asn Pro Asp Asn Ser Asp Val Asp Lys Leu
225 230 235 240
Phe Ile Gln Leu Val Gln Thr Tyr Asn Gln Leu Phe Glu Glu Asn Pro
245 250 255
Ile Asn Ala Ser Gly Val Asp Ala Lys Ala Ile Leu Ser Ala Arg Leu
260 265 270
Ser Lys Ser Arg Arg Leu Glu Asn Leu Ile Ala Gln Leu Pro Gly Glu
275 280 285
Lys Lys Asn Gly Leu Phe Gly Asn Leu Ile Ala Leu Ser Leu Gly Leu
290 295 300
Thr Pro Asn Phe Lys Ser Asn Phe Asp Leu Ala Glu Asp Ala Lys Leu
305 310 315 320
Gln Leu Ser Lys Asp Thr Tyr Asp Asp Asp Leu Asp Asn Leu Leu Ala
325 330 335
Gln Ile Gly Asp Gln Tyr Ala Asp Leu Phe Leu Ala Ala Lys Asn Leu
340 345 350
Ser Asp Ala Ile Leu Leu Ser Asp Ile Leu Arg Val Asn Thr Glu Ile
355 360 365
Thr Lys Ala Pro Leu Ser Ala Ser Met Ile Lys Arg Tyr Asp Glu His
370 375 380
His Gln Asp Leu Thr Leu Leu Lys Ala Leu Val Arg Gln Gln Leu Pro
385 390 395 400
Glu Lys Tyr Lys Glu Ile Phe Phe Asp Gln Ser Lys Asn Gly Tyr Ala
405 410 415
Gly Tyr Ile Asp Gly Gly Ala Ser Gln Glu Glu Phe Tyr Lys Phe Ile
420 425 430
Lys Pro Ile Leu Glu Lys Met Asp Gly Thr Glu Glu Leu Leu Val Lys
435 440 445
Leu Asn Arg Glu Asp Leu Leu Arg Lys Gln Arg Thr Phe Asp Asn Gly
450 455 460
Ser Ile Pro His Gln Ile His Leu Gly Glu Leu His Ala Ile Leu Arg
465 470 475 480
Arg Gln Glu Asp Phe Tyr Pro Phe Leu Lys Asp Asn Arg Glu Lys Ile
485 490 495
Glu Lys Ile Leu Thr Phe Arg Ile Pro Tyr Tyr Val Gly Pro Leu Ala
500 505 510
Arg Gly Asn Ser Arg Phe Ala Trp Met Thr Arg Lys Ser Glu Glu Thr
515 520 525
Ile Thr Pro Trp Asn Phe Glu Glu Val Val Asp Lys Gly Ala Ser Ala
530 535 540
Gln Ser Phe Ile Glu Arg Met Thr Asn Phe Asp Lys Asn Leu Pro Asn
545 550 555 560
Glu Lys Val Leu Pro Lys His Ser Leu Leu Tyr Glu Tyr Phe Thr Val
565 570 575
Tyr Asn Glu Leu Thr Lys Val Lys Tyr Val Thr Glu Gly Met Arg Lys
580 585 590
Pro Ala Phe Leu Ser Gly Glu Gln Lys Lys Ala Ile Val Asp Leu Leu
595 600 605
Phe Lys Thr Asn Arg Lys Val Thr Val Lys Gln Leu Lys Glu Asp Tyr
610 615 620
Phe Lys Lys Ile Glu Cys Phe Asp Ser Val Glu Ile Ser Gly Val Glu
625 630 635 640
Asp Arg Phe Asn Ala Ser Leu Gly Thr Tyr His Asp Leu Leu Lys Ile
645 650 655
Ile Lys Asp Lys Asp Phe Leu Asp Asn Glu Glu Asn Glu Asp Ile Leu
660 665 670
Glu Asp Ile Val Leu Thr Leu Thr Leu Phe Glu Asp Arg Glu Met Ile
675 680 685
Glu Glu Arg Leu Lys Thr Tyr Ala His Leu Phe Asp Asp Lys Val Met
690 695 700
Lys Gln Leu Lys Arg Arg Arg Tyr Thr Gly Trp Gly Arg Leu Ser Arg
705 710 715 720
Lys Leu Ile Asn Gly Ile Arg Asp Lys Gln Ser Gly Lys Thr Ile Leu
725 730 735
Asp Phe Leu Lys Ser Asp Gly Phe Ala Asn Arg Asn Phe Met Gln Leu
740 745 750
Ile His Asp Asp Ser Leu Thr Phe Lys Glu Asp Ile Gln Lys Ala Gln
755 760 765
Val Ser Gly Gln Gly Asp Ser Leu His Glu His Ile Ala Asn Leu Ala
770 775 780
Gly Ser Pro Ala Ile Lys Lys Gly Ile Leu Gln Thr Val Lys Val Val
785 790 795 800
Asp Glu Leu Val Lys Val Met Gly Arg His Lys Pro Glu Asn Ile Val
805 810 815
Ile Glu Met Ala Arg Glu Asn Gln Thr Thr Gln Lys Gly Gln Lys Asn
820 825 830
Ser Arg Glu Arg Met Lys Arg Ile Glu Glu Gly Ile Lys Glu Leu Gly
835 840 845
Ser Gln Ile Leu Lys Glu His Pro Val Glu Asn Thr Gln Leu Gln Asn
850 855 860
Glu Lys Leu Tyr Leu Tyr Tyr Leu Gln Asn Gly Arg Asp Met Tyr Val
865 870 875 880
Asp Gln Glu Leu Asp Ile Asn Arg Leu Ser Asp Tyr Asp Val Asp His
885 890 895
Ile Val Pro Gln Ser Phe Leu Lys Asp Asp Ser Ile Asp Asn Lys Val
900 905 910
Leu Thr Arg Ser Asp Lys Asn Arg Gly Lys Ser Asp Asn Val Pro Ser
915 920 925
Glu Glu Val Val Lys Lys Met Lys Asn Tyr Trp Arg Gln Leu Leu Asn
930 935 940
Ala Lys Leu Ile Thr Gln Arg Lys Phe Asp Asn Leu Thr Lys Ala Glu
945 950 955 960
Arg Gly Gly Leu Ser Glu Leu Asp Lys Ala Gly Phe Ile Lys Arg Gln
965 970 975
Leu Val Glu Thr Arg Gln Ile Thr Lys His Val Ala Gln Ile Leu Asp
980 985 990
Ser Arg Met Asn Thr Lys Tyr Asp Glu Asn Asp Lys Leu Ile Arg Glu
995 1000 1005
Val Lys Val Ile Thr Leu Lys Ser Lys Leu Val Ser Asp Phe Arg
1010 1015 1020
Lys Asp Phe Gln Phe Tyr Lys Val Arg Glu Ile Asn Asn Tyr His
1025 1030 1035
His Ala His Asp Ala Tyr Leu Asn Ala Val Val Gly Thr Ala Leu
1040 1045 1050
Ile Lys Lys Tyr Pro Lys Leu Glu Ser Glu Phe Val Tyr Gly Asp
1055 1060 1065
Tyr Lys Val Tyr Asp Val Arg Lys Met Ile Ala Lys Ser Glu Gln
1070 1075 1080
Glu Ile Gly Lys Ala Thr Ala Lys Tyr Phe Phe Tyr Ser Asn Ile
1085 1090 1095
Met Asn Phe Phe Lys Thr Glu Ile Thr Leu Ala Asn Gly Glu Ile
1100 1105 1110
Arg Lys Arg Pro Leu Ile Glu Thr Asn Gly Glu Thr Gly Glu Ile
1115 1120 1125
Val Trp Asp Lys Gly Arg Asp Phe Ala Thr Val Arg Lys Val Leu
1130 1135 1140
Ser Met Pro Gln Val Asn Ile Val Lys Lys Thr Glu Val Gln Thr
1145 1150 1155
Gly Gly Phe Ser Lys Glu Ser Ile Leu Pro Lys Arg Asn Ser Asp
1160 1165 1170
Lys Leu Ile Ala Arg Lys Lys Asp Trp Asp Pro Lys Lys Tyr Gly
1175 1180 1185
Gly Phe Asp Ser Pro Thr Val Ala Tyr Ser Val Leu Val Val Ala
1190 1195 1200
Lys Val Glu Lys Gly Lys Ser Lys Lys Leu Lys Ser Val Lys Glu
1205 1210 1215
Leu Leu Gly Ile Thr Ile Met Glu Arg Ser Ser Phe Glu Lys Asn
1220 1225 1230
Pro Ile Asp Phe Leu Glu Ala Lys Gly Tyr Lys Glu Val Lys Lys
1235 1240 1245
Asp Leu Ile Ile Lys Leu Pro Lys Tyr Ser Leu Phe Glu Leu Glu
1250 1255 1260
Asn Gly Arg Lys Arg Met Leu Ala Ser Ala Gly Glu Leu Gln Lys
1265 1270 1275
Gly Asn Glu Leu Ala Leu Pro Ser Lys Tyr Val Asn Phe Leu Tyr
1280 1285 1290
Leu Ala Ser His Tyr Glu Lys Leu Lys Gly Ser Pro Glu Asp Asn
1295 1300 1305
Glu Gln Lys Gln Leu Phe Val Glu Gln His Lys His Tyr Leu Asp
1310 1315 1320
Glu Ile Ile Glu Gln Ile Ser Glu Phe Ser Lys Arg Val Ile Leu
1325 1330 1335
Ala Asp Ala Asn Leu Asp Lys Val Leu Ser Ala Tyr Asn Lys His
1340 1345 1350
Arg Asp Lys Pro Ile Arg Glu Gln Ala Glu Asn Ile Ile His Leu
1355 1360 1365
Phe Thr Leu Thr Asn Leu Gly Ala Pro Ala Ala Phe Lys Tyr Phe
1370 1375 1380
Asp Thr Thr Ile Asp Arg Lys Arg Tyr Thr Ser Thr Lys Glu Val
1385 1390 1395
Leu Asp Ala Thr Leu Ile His Gln Ser Ile Thr Gly Leu Tyr Glu
1400 1405 1410
Thr Arg Ile Asp Leu Ser Gln Leu Gly Gly Asp
1415 1420
<210> 48
<211> 330
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 48
ttggcgaaac cccatttcga cctttcggtc tcatcagggg tggcacacac caccctatgg 60
ggagaggtcg tcctctatct ctcctggaag gccggagcaa tccaaaagag gtacacccac 120
ccatgggtcg ggactttaaa ttcggaggat tcgtccttta aacgttcctc caagagtccc 180
ttccccaaac ccttactttg taagtgtggt tcggcgaatg taccgtttcg tcctttcgga 240
ctcatcaggg aaagtacaca ctttccgacg gtgggttcgt cgacacctct ccccctccca 300
ggtactatcc cctttccagg atttgttccc 330
<210> 49
<211> 942
<212> DNA
<213> 拟南芥
<400> 49
acgagaggaa gtacattagt ttggagaaga gtaatagaca gagagataga gagaaagaga 60
agcagttcgg agaaacaatg gcggtagaag acactcccaa atctgttgta acggaagaag 120
ctaagcctaa ttcaatagag aatccgattg atcgatacca tgaggaaggt gatgatgccg 180
aagaaggaga gatcgccgga ggagaaggag acggaaacgt tgacgaatcg agcaaatccg 240
gtgttcctga atcgcatcct ctggaacatt catggacttt ctggttcgat aatcctgctg 300
tgaaatcgaa acaaacctct tggggaagtt ccttgcgacc cgtgtttacg ttttcaactg 360
ttgaggaatt ttggagtttg tacaacaaca tgaagcatcc gagcaagtta gctcacggag 420
ctgacttcta ctgtttcaaa cacatcattg aacctaagtg ggaggatcct atttgtgcta 480
atggaggaaa atggactatg actttcccta aggagaagtc tgataagagc tggctctaca 540
ctttgcttgc attgattgga gagcagtttg atcatggaga tgaaatatgt ggagcagttg 600
tcaacattag aggaaagcaa gaaaggatat ctatttggac taaaaatgct tcaaacgaag 660
ctgctcaggt gagcattgga aaacaatgga aggagtttct cgattacaac aacagcatag 720
gtttcatcat ccatgaggat gcgaagaagc tcgacaggaa tgcaaagaac gcttacaccg 780
cttgaaacct ctcaaatctt tgcattgttt caattacagt tttgtatgtg agagatctct 840
atttatctaa acatgacttg acagtctgtc tttgctagtg ttgattgttc acgaagctct 900
aacatttcat ttagtaatat attagtatgg ttcttcataa ta 942
<210> 50
<211> 96
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<220>
<221> 杂项特性
<222> (1)..(20)
<223> n为a、c、g或t
<400> 50
nnnnnnnnnn nnnnnnnnnn gttttagagc tagaaatagc aagttaaaat aaggctagtc 60
cgttatcaac ttgaaaaagt ggcaccgagt cggtgc 96
<210> 51
<211> 567
<212> DNA
<213> 铜绿假单胞菌
<400> 51
atgggtgatc attatctgga tattcggctg aggcctgatc cagagttccc acctgcgcag 60
ctgatgtctg tcctttttgg caaacttcat caggccctgg ttgcccaggg cggagatcgg 120
ataggggtaa gctttccaga cctcgacgaa agccggagcc gcctgggaga acgcctgcgg 180
atccacgctt ctgccgacga tctgagagcc ttgctggcaa ggccatggct tgaggggctc 240
cgggatcacc tgcagtttgg cgaacccgcc gttgttcccc acccaacccc ttatcggcag 300
gtgtctagag tgcaggccaa atctaatcca gaacggctgc gacggcgact catgcggcga 360
catgatctta gcgaggaaga ggcccgaaaa agaatccctg ataccgtggc ccgcgccctt 420
gacttgcctt ttgtcacact gcggtcccag agtacggggc agcatttcag acttttcatt 480
cgacacgggc cactgcaagt taccgccgaa gaaggaggct ttacttgtta tggactctcc 540
aagggaggtt tcgtgccctg gttttga 567
<210> 52
<211> 188
<212> PRT
<213> 铜绿假单胞菌
<400> 52
Met Gly Asp His Tyr Leu Asp Ile Arg Leu Arg Pro Asp Pro Glu Phe
1 5 10 15
Pro Pro Ala Gln Leu Met Ser Val Leu Phe Gly Lys Leu His Gln Ala
20 25 30
Leu Val Ala Gln Gly Gly Asp Arg Ile Gly Val Ser Phe Pro Asp Leu
35 40 45
Asp Glu Ser Arg Ser Arg Leu Gly Glu Arg Leu Arg Ile His Ala Ser
50 55 60
Ala Asp Asp Leu Arg Ala Leu Leu Ala Arg Pro Trp Leu Glu Gly Leu
65 70 75 80
Arg Asp His Leu Gln Phe Gly Glu Pro Ala Val Val Pro His Pro Thr
85 90 95
Pro Tyr Arg Gln Val Ser Arg Val Gln Ala Lys Ser Asn Pro Glu Arg
100 105 110
Leu Arg Arg Arg Leu Met Arg Arg His Asp Leu Ser Glu Glu Glu Ala
115 120 125
Arg Lys Arg Ile Pro Asp Thr Val Ala Arg Ala Leu Asp Leu Pro Phe
130 135 140
Val Thr Leu Arg Ser Gln Ser Thr Gly Gln His Phe Arg Leu Phe Ile
145 150 155 160
Arg His Gly Pro Leu Gln Val Thr Ala Glu Glu Gly Gly Phe Thr Cys
165 170 175
Tyr Gly Leu Ser Lys Gly Gly Phe Val Pro Trp Phe
180 185
<210> 53
<211> 20
<212> DNA
<213> 铜绿假单胞菌
<400> 53
gttcactgcc gtataggcag 20
<210> 54
<211> 272
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<220>
<221> 杂项特性
<222> (21)..(40)
<223> n为a、c、g或t
<220>
<221> 杂项特性
<222> (137)..(156)
<223> n为a、c、g或t
<400> 54
gttcactgcc gtataggcag nnnnnnnnnn nnnnnnnnnn gttttagagc tagaaatagc 60
aagttaaaat aaggctagtc cgttatcaac ttgaaaaagt ggcaccgagt cggtgcgttc 120
actgccgtat aggcagnnnn nnnnnnnnnn nnnnnngttt tagagctaga aatagcaagt 180
taaaataagg ctagtccgtt atcaacttga aaaagtggca ccgagtcggt gcgttcactg 240
ccgtataggc aggttcactg ccgtataggc ag 272
<210> 55
<211> 3213
<212> DNA
<213> 烟草
<400> 55
atgctcgggg atggaaatga gggaatatct acaatacctg gatttaatca gatacaattt 60
gaaggatttt gtaggttcat tgatcaaggt ttgacggaag aactttataa gtttccaaaa 120
attgaagata cagatcaaga aattgaattt caattatttg tggaaacata tcaattggtc 180
gaacccttga taaaggaaag agatgctgtg tatgaatcac tcacatattc ttctgaatta 240
tatgtatccg cgggattaat ttggaaaaac agtagggata tgcaagaaca aacaattttt 300
atcggaaaca ttcctctaat gaattccctg ggaacttcta tagtcaatgg aatatataga 360
attgtgatca atcaaatatt gcaaagtccc ggtatttatt accgatcaga attggaccat 420
aacggaattt cggtctatac cggcaccata atatcagatt ggggaggaag atcagaatta 480
gaaattgata gaaaagcaag gatatgggct cgtgtaagta ggaaacaaaa aatatctatt 540
ctagttctat catcagctat gggtttgaat ctaagagaaa ttctagagaa tgtttgctat 600
cctgaaattt ttttgtcttt tctgagtgat aaggagagaa aaaaaattgg gtcaaaagaa 660
aatgccattt tggagtttta tcaacaattt gcttgtgtag gtggcgatcc ggtattttct 720
gaatccttat gtaaggaatt acaaaagaaa ttctttcaac aaagatgtga attaggaagg 780
attggtcgac gaaatatgaa ccgaagactg aaccttgata taccccagaa caatacattt 840
ttgttaccac gagatatatt ggcagccgcc gatcatttga ttgggctgaa atttggaatg 900
ggtgcacttg acgatatgaa tcatttgaaa aataaacgta ttcgttctgt agcagatctt 960
ttacaagatc aattcggatt ggctctggtt cgtttagaaa atgtggttcg ggggactata 1020
tgtggagcaa ttcggcataa attgataccg acacctcaga atttggtaac ctcaactcca 1080
ttaacaacta cttatgaatc ctttttcggt ttacacccat tatctcaagt tttggatcga 1140
actaatccat tgacacaaat agttcatggg agaaaattaa gttatttggg ccctggagga 1200
ctgacagggc gcactgctag ttttcggata cgagatatcc atcctagtca ctatggacgt 1260
atttgcccaa ttgacacatc tgaaggaatc aatgttggac ttattggatc cttagcaatt 1320
catgcgagga ttggtcattg gggatctcta gaaagccctt tttatgaaat ttctgagagg 1380
tcaaccgggg tacggatgct ttatttatca ccaggtagag atgaatacta tatggtagcg 1440
gcaggaaatt ctttagcctt aaatcaggat attcaggaag aacaggttgt tccagctcga 1500
taccgtcaag aattcttgac tattgcatgg gaacaggttc atcttcgaag tatttttcct 1560
tttcaatatt tttctattgg agcttccctc attcctttta tcgaacataa tgatgcgaat 1620
cgagctttaa tgagttctaa tatgcaacgt caagcagttc ctctttctcg ctccgagaaa 1680
tgcattgttg gaactgggtt ggaacgacaa gcagctctag attcgggggc tcttgctata 1740
gccgaacgcg agggaagggt cgtttatacc aatactgaca agattctttt agcaggtaat 1800
ggagatattc taagcattcc attagttata tatcaacgtt ccaataaaaa tacttgtatg 1860
catcaaaaac tccaggttcc tcggggtaaa tgcattaaaa agggacaaat tttagcggat 1920
ggtgctgcta cggttggtgg cgaacttgct ttggggaaaa acgtattagt agcttatatg 1980
ccgtgggagg gttacaattc tgaagatgca gtacttatta gcgagcgttt ggtatatgaa 2040
gatatttata cttcttttca catacggaaa tatgaaattc agactcatgt gacaagccaa 2100
ggccctgaaa aagtaactaa tgaaataccg catttagaag cccatttact ccgcaattta 2160
gataaaaatg gaattgtgat gctgggatct tgggtagaga caggtgatat tttagtaggt 2220
aaattaacac cccaggtcgt gaaagaatcg tcgtatgccc cggaagatag attgttacga 2280
gctatacttg gtattcaggt atctacttca aaagaaactt gtctaaaact acctataggt 2340
ggcaggggtc gggttattga tgtgaggtgg atccagaaga ggggtggttc tagttataat 2400
cccgaaacga ttcgtgtata tattttacag aaacgtgaaa tcaaagtagg cgataaagta 2460
gctggaagac acggaaataa aggtatcatt tccaaaattt tgcctagaca agatatgcct 2520
tatttacaag atggaagatc cgttgatatg gtctttaacc cattaggagt accttcacga 2580
atgaatgtag gacagatatt tgaatgttca ctagggttag cagggagtct gctagacaga 2640
cattatcgaa tagcaccttt tgatgagaga tatgaacaag aagcttcgag aaaacttgtg 2700
ttttctgaat tatatgaagc cagtaagcaa acagcgaatc catgggtatt tgaacccgaa 2760
tatccaggaa aaagcagaat atttgatgga aggacgggga atccttttga acaacccgtt 2820
ataataggaa agccttatat cttgaaatta attcatcaag ttgatgataa aatccatggg 2880
cgctccagtg gacattatgc gcttgttaca caacaacccc ttagaggaag agccaaacag 2940
gggggacagc gggtaggaga aatggaggtt tgggctctag aagggtttgg ggttgctcat 3000
attttacaag agatgcttac ttataaatcg gatcatatta gagctcgcca ggaagtactt 3060
ggtactacga tcattggggg aacaatacct aatcccgaag atgctccaga atcttttcga 3120
ttgctcgttc gagaactacg atctttagct ctggaactga atcatttcct tgtatctgag 3180
aagaacttcc agattaatag gaaggaagct taa 3213
<210> 56
<211> 20
<212> DNA
<213> 烟草
<400> 56
ttagaggaag agccaaacag 20
<210> 57
<211> 20
<212> DNA
<213> 烟草
<400> 57
cttgctatag ccgaacgcga 20
<210> 58
<211> 1062
<212> DNA
<213> 烟草
<400> 58
atgactgcaa ttttagagag acgcgaaagc gaaagcctat ggggtcgctt ctgtaactgg 60
ataactagca ctgaaaaccg tctttacatt ggatggtttg gtgttttgat gatccctacc 120
ttattgacgg caacttctgt atttattatt gccttcattg ctgctcctcc agtagacatt 180
gatggtattc gtgaacctgt ttcagggtct ctactttacg gaaacaatat tatttccggt 240
gccattattc ctacttctgc agctataggt ttacattttt acccaatctg ggaagcggca 300
tccgttgatg aatggttata caacggtggt ccttatgaac taattgttct acacttctta 360
cttggcgtag cttgttacat gggtcgtgag tgggagctta gtttccgtct gggtatgcga 420
ccttggattg ctgttgcata ttcagctcct gttgcagctg ctaccgcagt tttcttgatc 480
tacccaattg gtcaaggaag tttttctgat ggtatgcctc taggaatctc tggtactttc 540
aatttcatga ttgtattcca ggctgagcac aacatcctta tgcacccatt tcacatgtta 600
ggcgtagctg gtgtattcgg cggctcccta ttcagtgcta tgcatggttc cttggtaact 660
tctagtttga tcagggaaac cacagaaaat gaatctgcta atgaaggtta cagattcggt 720
caagaggaag aaacttataa catcgtagcc gctcatggtt attttggccg attgatcttc 780
caatatgcta gtttcaacaa ctctcgttcg ttacacttct tcctagctgc ttggcctgta 840
gtaggtatct ggtttaccgc tttaggtatc agcactatgg ctttcaacct aaatggtttc 900
aatttcaacc aatctgtagt tgacagtcaa ggccgtgtaa ttaatacttg ggctgatatc 960
attaaccgtg ctaaccttgg tatggaagtt atgcatgaac gtaatgctca caacttccct 1020
ctagacctag ctgctatcga agctccatct acaaatggat aa 1062
<210> 59
<211> 20
<212> DNA
<213> 烟草
<400> 59
gttgatgaat ggttatacaa 20
<210> 60
<211> 20
<212> DNA
<213> 烟草
<400> 60
gatgatccct accttattga 20
<210> 61
<211> 264
<212> DNA
<213> 烟草
<400> 61
atggtaaaaa attctgtcat ttcagttatt tctcaagaag aaaagagagg atctgttgaa 60
tttcaagtat tcaatttcac caataagata cggagactta cttcacattt agaattgcac 120
aaaaaagact atttatctca gagaggtttg aagaaaattt tgggaaaacg tcaacgactc 180
ctagcttatt tgtcaaaaaa aaatagagta cgttataaag aattaattaa tcagttggac 240
attcgagaga caaaaactcg ttaa 264
<210> 62
<211> 20
<212> DNA
<213> 烟草
<400> 62
atttctcaag aagaaaagag 20
<210> 63
<211> 20
<212> DNA
<213> 烟草
<400> 63
tcaatttcac caataagata 20
<210> 64
<211> 201
<212> DNA
<213> 烟草
<400> 64
atggccaagg ggaaagatgt ccgagtaacg gtgattttgg aatgtactag ttgtgtccga 60
aacagtgttg ataaggtatc aagaggtatt tccagatata ttactcaaaa gaaccggcac 120
aatacgccta atcgattaga attgaaaaaa ttctgtccct attgttacaa acatacgatt 180
catggggaga taaagaaata g 201
<210> 65
<211> 20
<212> DNA
<213> 烟草
<400> 65
gatatattac tcaaaagaac 20
<210> 66
<211> 20
<212> DNA
<213> 烟草
<400> 66
agtgttgata aggtatcaag 20
<210> 67
<211> 3213
<212> DNA
<213> 大豆
<400> 67
atgcttgggg atggaaatga aggaatgtct acactacctg gattgaatca gatacaattt 60
gaagggtttt gtaggttcat tgatcggggc ttaccagaag ggctttttaa gtttccaaaa 120
attgaggata cagatcaaga aattgaattt caattatttg tagaaacata tcaattatta 180
gaacccttga taaacgaaaa agatgctgta tatgaatcgc ttacatattc tgctgaatta 240
tatgtatctg cgggattaat ttggaaaagt agtagggaca tacaagaaca aactattttt 300
gttggaaaca ttcctttaat gaattctctg ggaacttcta tagtaaatgg aatatacaga 360
attgtaatca atcaaatatt gcaaagccct ggtatttatt accgttcaga attggaccct 420
agcggaattt cggtctatac tggcaccata atatcagact gggggggtag attagaatta 480
gagattgata gaaaagcaag gatatgggct cgtgtgagta ggaaacagaa aatatctatt 540
ctagttttat catcagctat gggttcgaat ttaagcgaaa ttctagagaa tgtttgttat 600
cctgaaattt tcgtttcttt cctaaatgat aaggataaaa aaaaaatagg gtcaaaagaa 660
aatgccattt tggagtttta tcgacaattt gcttgtgttg gtggagatcc agtattttct 720
gaatctttat gtaaagaatt acaaaaaaaa ttttttcaac aaagatgtga attaggaagg 780
attggtcgac gaaatatgaa ccaaaagctt aatcttgata tacctcagaa caatacattt 840
ttgttaccac gagatatatt gacagctgcg gatcatttga ttggaatgaa atttggaatg 900
ggtatacttg acgatataaa tcatttgaaa aataaacgta ttcgttcggt agcagatcta 960
ttacaagatc aatttggatt ggccctggtt cgtttagaaa atatggttag aggaactata 1020
tgtggagcaa ttagacataa attgataccg actcctcaga atttggtgac ttcaactcca 1080
ttaacaacta cttatgaatc tttttttgga ttacatccat tatctcaagt tttggatcaa 1140
actaatccat tgacccaaat agttcatggg agaaaattga gttatttggg ccctggagga 1200
ttgacggggc gaactgctag ttttcggata cgagatatcc accctagtca ctatggacgc 1260
atttgtccaa ttgacacgtc ggaaggaatc aatgttggac ttattggatc tctagcaatt 1320
catgcgagga ttggtagttg ggggtccata gaaagtccat tttatgaaat atctgagaga 1380
tcaaaaagaa tacgcatgct ttatttatca ccaagtagag atgaatacta tatggtagca 1440
acaggaaatt ctttggcact taatcgagat attcaggagg aacagactgt tccagcccga 1500
taccgtcaag aatttcttac gattgcatgg gaacaggttc atcttcgaag tatttttccc 1560
ttccaatatt tttctattgg agcttctctg attcctttta ttgaacataa tgatgccaat 1620
cgagctttaa tgagttctaa tatgcaacgt caagcagttc cgctttctca gtccgaaaaa 1680
tgcattgttg gaactggatt ggaacgccaa gtagctttag attcaggggt ttccgctata 1740
gccgaacacg agggaaacat catttatacc aatactgaca ggatattttt atttggtaat 1800
ggagatactc taagcattcc attaactata tatcaacgtt ccaacaaaaa tacttgtatg 1860
catcaaaaac cccaggttcg ccgaggtaaa tgtataaaaa agggacaaat tttagcggat 1920
ggtgctgcta cagttgacgg cgaactcgct ttgggaaaaa acgtcttagt agcttatatg 1980
ccatgggaag gttacaattc tgaagatgct gtactcatta atgagcgtct ggtctatgaa 2040
gatatttata cttcttttca catacggaaa tatgaaattc agactcatat gacaagctat 2100
ggttctgaaa gaatcactaa taaaattcca catctagaag cccatttact cagaaattta 2160
gacaaaaatg gaattgtgat cctcgggtcg tgggtagaaa cgggtgatat tttagtgggt 2220
aaattaacac ctcaaatggc aaaagaatcc tcgtattccc ccgaagatag attattacga 2280
gctatacttg gcattcaggt atccacctca aaggaaactt gtctaaaact acctacaggc 2340
ggtaggggta gagttattga tgtgagatgg atccaaaaaa aggggggttc cagttataat 2400
ccagaaacga ttcgtatata tattttacag aaacgtgaaa ttaaagtagg agataaagtg 2460
gctgggagac atggaaataa aggtatcgtt tcaaaaattt tgtctagaca ggatatgcct 2520
tatttgcaag atggaagacc cgttgatatg gtcttcaatc cactaggggt accttcacga 2580
atgaatgtag gacaaatatt tgaatgctcg ctcgggttag caggaggtat gctagaaaga 2640
cattatcgaa taacaccttt tgatgagaga tatgaacaag aagcttcgag aaaactagtg 2700
ttttctgaat tatatgaagc cagtaaacaa acatctaatc catggatatt tgaacccgag 2760
tatccaggaa aaagcaaaat ctttgatgga agaacaggga attcttttaa acagcctgct 2820
ataatgggaa aaccttatat tttgaaatta attcatcaag ttgatgataa aatacatgga 2880
cgttccagtg gacattatgc acttgttaca caacaaccac ttagaggaag ggccaagcag 2940
ggaggacaac gggtaggcga aatggaggtt tgggccttgg aaggatttgg tgttgctcat 3000
attttacaag agatgcttac ttataaatct gatcatatta aaactcgcca agaagtactc 3060
gggactacga tcattggagg aacaatacct aaacctacag atgctccaga atcttttaga 3120
ttgctagttc gagaattacg atctttagct atggaactga atcatttcct tgtatccgag 3180
aagaacttcc ggattcatag gaaggaagct taa 3213
<210> 68
<211> 20
<212> DNA
<213> 大豆
<400> 68
tgtctaaaac tacctacagg 20
<210> 69
<211> 20
<212> DNA
<213> 大豆
<400> 69
agcggaattt cggtctatac 20
<210> 70
<211> 1062
<212> DNA
<213> 大豆
<400> 70
atgactgcaa ttttagagag acgcgagagc gaaagcctat ggggtcgctt ctgtaactgg 60
ataaccagca ccgaaaatcg tctttacatt ggatggtttg gtgttttgat gattcctact 120
ttattgaccg caacttctgt atttattatc gcttttattg ctgcccctcc agtagatatt 180
gatggtattc gtgagcctgt ttctggatct ctactttatg gaaacaatat catttctggt 240
gccattattc ctacttctgc ggctataggt ttgcactttt atcctatttg ggaagcggca 300
tctgttgatg aatggttata caacggcggt ccttatgaac taattgttct acacttctta 360
cttggtgtag cttgctacat ggggcgtgag tgggaactta gttttcgttt gggtatgcgt 420
ccttggattg ctgttgcata ttcagctcct gttgcagccg ctactgctgt tttcttgatc 480
tatcctattg gtcagggaag cttttcagat ggtatgcctc taggaatttc aggtactttc 540
aattttatga ttgtatttca ggctgagcat aatattctta tgcatccatt tcacatgtta 600
ggtgtagctg gtgtattcgg cggctcccta ttcagtgcta tgcatggttc cttggtaact 660
tctagtttga tcagggaaac cacagaaaat gaatctgcta atgaaggtta cagatttggt 720
caagaggaag aaacctataa tattgtagct gctcatggtt attttggccg attgatcttc 780
caatatgcaa gtttcaacaa ttctcgttct ttacatttct tcttagctgc ttggcctgta 840
gtaggtattt ggtttaccgc tttaggtatc agcactatgg ctttcaactt aaatggtttc 900
aatttcaacc aatccgtagt tgatagtcaa ggtcgtgtaa ttaatacctg ggctgatatt 960
attaaccgag ctaaccttgg tatggaagta atgcatgaac gtaatgctca taatttccct 1020
ctagatctag ctgcgatcga cgctccatct attaatggat aa 1062
<210> 71
<211> 20
<212> DNA
<213> 大豆
<400> 71
ggtgtagctg gtgtattcgg 20
<210> 72
<211> 20
<212> DNA
<213> 大豆
<400> 72
tctagatcta gctgcgatcg 20
<210> 73
<211> 273
<212> DNA
<213> 大豆
<400> 73
atggtaaaaa attcaattat acctgttatt tcacaagaaa aaaaagaaaa aaacccagga 60
tcggttgaat ttcaaatatt caaatttacc gatagaatac gaagacttac ttcacatttt 120
gaattgcacc gaaaagacta tttatctcaa agaggtttac gtaaaatttt gggaaaacga 180
caaagattgc tgtcttattt gtcaaagaaa gatagaatac ggtataaaaa attaataaat 240
cagtttgata ttcgagagtc acaaattcgt taa 273
<210> 74
<211> 20
<212> DNA
<213> 大豆
<400> 74
atagaatacg aagacttact 20
<210> 75
<211> 20
<212> DNA
<213> 大豆
<400> 75
tgtcaaagaa agatagaata 20
<210> 76
<211> 201
<212> DNA
<213> 大豆
<400> 76
atggccaaag gtaaagatat ccgagtaatt gttattttgg aatgtaccgg ttgtgataaa 60
aagagtgtta ataaggaatc aacgggtatt tctagatata taactaaaaa gaatcgacag 120
aatacgccta gtcgattgga attgagaaaa ttttgtcccc gttgttgcaa acatacaatt 180
cacgcagaaa taaagaaata g 201
<210> 77
<211> 20
<212> DNA
<213> 大豆
<400> 77
cgttgttgca aacatacaat 20
<210> 78
<211> 20
<212> DNA
<213> 大豆
<400> 78
acagaatacg cctagtcgat 20
<210> 79
<211> 864
<212> DNA
<213> 本生烟
<400> 79
gtgcgacttg aaggacagga tccgttgtgg atttgtacat ccaccatttt atgtaggaat 60
gaaggtgctc ttggctcgac atcattggtt ctgtttcatt agattagaac ccctcttttt 120
tgttgtcttg gaatgtaaat agtccatgat ggagctcgag tagaaagtat taatttattt 180
ctcggggcaa gagtctaggg ttaatgccaa tcaataaaaa aattggaaca acttcgtaaa 240
tgtattttcg gtatggaaat cgaaagaatc caattcgagc aagtttccaa ttcaaaaatt 300
tcttggaatt gatcaaactt tttcgatcca aagtgtttca cgcgggaatc catcgtctgt 360
aggattcttt catagaaatc gcaaaagggg tatgttgctg ccattttgaa aggattaaaa 420
agcaccgaag taatgtctaa acccaatgat ttaaaataaa acaaagataa aggatcccag 480
aacaaggaaa cacctttttt attgtcttaa taactggatc gaactgaaga atccaaatcc 540
attttaaacg agacaaacat aaaaggagga aagaccgctc aataaatgaa attgccgaaa 600
gattttcctt tgaactgttt gaaagttatc caacttgagt tatgagagta cgaatggttt 660
ctttttcatt ttcaggaaga aagaagaaaa aaaagactta catctttaat tgatttgatc 720
attttatgga cccagttgtc atttcttaga tagaattcca tacagagata aaacctcgaa 780
tcaatcattt ttctcgagcc gtacgaggag aaagcttcct atacgtttct agggggggtg 840
ttgttcatct acatctatcc caat 864
<210> 80
<211> 20
<212> DNA
<213> 本生烟
<400> 80
ttgtggattt gtacatccac 20
<210> 81
<211> 20
<212> DNA
<213> 本生烟
<400> 81
ttgaactgtt tgaaagttat 20
<210> 82
<211> 1578
<212> DNA
<213> 本生烟
<400> 82
tttcaaatgg aagaaatcca aagatattta cagccagata gatcgcaaca acacaacttc 60
ctatatccac ttatctttca ggagtatatt tatgcacttg ctcatgatca tggtttaaat 120
agaaacaagt cgattttgtt ggaaaatcca ggttataaca ataaatttag tttcctaatt 180
gtgaaacgtt taattacccg aatgtatcaa cagaatcatt ttcttatttc tactaatgat 240
tctaacaaaa attcattttt ggggtgcaac aagagtttgt attctcaaat gatatcagag 300
ggatttgcgt ttattgtgga aattccgttt tctctacgat taatatcttc tttatcttct 360
ttcgaaggca aaaaggtttt taaatctcat aatttacgat caattcattc aacatttcct 420
tttttagagg acaatttttc acatctaaat tatgtattag atatactaat accctacccc 480
gttcatctgg aaatcttggt tcaaactctt cgctattggg taaaagatgc ctcttcttta 540
catttattac gattctttct ccatgaatat tggaatttga atagtcttat tacttcaaag 600
aagcccggtt actccttttc aaaaaaaaat caaagattct tcttcttctt atataattct 660
tatgtatatg aatgcgaatc cactttcgtc tttctacgga accaatcttc tcatttacga 720
tcaacatctt ttggagccct tcttgaacga atatatttct atggaaaaat agaacgtctt 780
gtagaagtct ttgctaagga ttttcaggtt accctatggt tattcaagga tcctttcatg 840
cattatgtta ggtatcaagg aaaatccatt ctggcttcaa aagggacgtt tcttttgatg 900
aataaatgga aattttacct tgtcaatttt tggcaatgtc atttttctct gtgctttcac 960
acaggaagga tccatataaa ccaattatcc aatcattccc gtaactttat gggctatctt 1020
tcaagtgtgc gactaaatcc ttcaatggta cgtagtcaaa tgttagaaaa ttcatttcta 1080
atcaataatg caattaagaa gttcgatacc cttgttccaa ttattccttt gattggatca 1140
ttagctaaag caaacttttg taccgtatta gggcatccca ttagtaaacc ggtttggtcc 1200
gatttatcag attctgatat tattgaccga tttgggcgta tatgcagaaa tctttttcat 1260
tattatagcg gatcttccaa aaaaaagact ttatatcgaa taaagtatat acttcgactt 1320
tcttgtgcta gaactttagc tcggaaacac aaaagtactg tacgcacttt tttgaaaaga 1380
tcgggctcgg aattattgga agaattttta acgtcggaag aacaagttct ttctttgacc 1440
ttcccacgag cttcttctag tttgtgggga gtatatagaa gtcggatttg gtatttggat 1500
attttttgta tcaatgatct ggcgaattat caatgattca ttcttagatt ttctaaatat 1560
aaatttgttt ctaaatga 1578
<210> 83
<211> 20
<212> DNA
<213> 本生烟
<400> 83
cttgtgctag aactttagct 20
<210> 84
<211> 20
<212> DNA
<213> 本生烟
<400> 84
cgttcatctg gaaatcttgg 20
<210> 85
<211> 20
<212> DNA
<213> 烟草
<400> 85
aagaacttcc cccttgacag 20
<210> 86
<211> 20
<212> DNA
<213> 烟草
<400> 86
tatacaggat gggtagaaag 20
<210> 87
<211> 20
<212> DNA
<213> 烟草
<400> 87
atataatttt taataaaggg 20
<210> 88
<211> 20
<212> DNA
<213> 烟草
<400> 88
ctagtcttcg acacaagaaa 20
<210> 89
<211> 20
<212> DNA
<213> 大豆
<400> 89
ataacagaag ttaaagaaga 20
<210> 90
<211> 20
<212> DNA
<213> 大豆
<400> 90
atctggaaac catagaacag 20
<210> 91
<211> 20
<212> DNA
<213> 大豆
<400> 91
ctatttcgac acaaacaaga 20
<210> 92
<211> 20
<212> DNA
<213> 大豆
<400> 92
ctttctttga cgaattcgag 20
<210> 93
<211> 36
<212> DNA
<213> 烟草
<400> 93
acgagagttg ttgaaactag catattggaa gatcaa 36
<210> 94
<211> 36
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 94
acgagagtta ttgaatgtag catactgaaa gatcaa 36
<210> 95
<211> 14
<212> PRT
<213> 酿酒酵母
<400> 95
Met Val Leu Pro Arg Leu Tyr Thr Ala Thr Ser Arg Ala Ala
1 5 10
<210> 96
<211> 1384
<212> PRT
<213> 人工序列
<220>
<223> 合成构建体
<400> 96
Met Val Leu Pro Arg Leu Tyr Thr Ala Thr Ser Arg Ala Ala Leu Ser
1 5 10 15
Thr Asp Lys Lys Tyr Ser Ile Gly Leu Asp Ile Gly Thr Asn Ser Val
20 25 30
Gly Trp Ala Val Ile Thr Asp Glu Tyr Lys Val Pro Ser Lys Lys Phe
35 40 45
Lys Val Leu Gly Asn Thr Asp Arg His Ser Ile Lys Lys Asn Leu Ile
50 55 60
Gly Ala Leu Leu Phe Asp Ser Gly Glu Thr Ala Glu Ala Thr Arg Leu
65 70 75 80
Lys Arg Thr Ala Arg Arg Arg Tyr Thr Arg Arg Lys Asn Arg Ile Cys
85 90 95
Tyr Leu Gln Glu Ile Phe Ser Asn Glu Met Ala Lys Val Asp Asp Ser
100 105 110
Phe Phe His Arg Leu Glu Glu Ser Phe Leu Val Glu Glu Asp Lys Lys
115 120 125
His Glu Arg His Pro Ile Phe Gly Asn Ile Val Asp Glu Val Ala Tyr
130 135 140
His Glu Lys Tyr Pro Thr Ile Tyr His Leu Arg Lys Lys Leu Val Asp
145 150 155 160
Ser Thr Asp Lys Ala Asp Leu Arg Leu Ile Tyr Leu Ala Leu Ala His
165 170 175
Met Ile Lys Phe Arg Gly His Phe Leu Ile Glu Gly Asp Leu Asn Pro
180 185 190
Asp Asn Ser Asp Val Asp Lys Leu Phe Ile Gln Leu Val Gln Thr Tyr
195 200 205
Asn Gln Leu Phe Glu Glu Asn Pro Ile Asn Ala Ser Gly Val Asp Ala
210 215 220
Lys Ala Ile Leu Ser Ala Arg Leu Ser Lys Ser Arg Arg Leu Glu Asn
225 230 235 240
Leu Ile Ala Gln Leu Pro Gly Glu Lys Lys Asn Gly Leu Phe Gly Asn
245 250 255
Leu Ile Ala Leu Ser Leu Gly Leu Thr Pro Asn Phe Lys Ser Asn Phe
260 265 270
Asp Leu Ala Glu Asp Ala Lys Leu Gln Leu Ser Lys Asp Thr Tyr Asp
275 280 285
Asp Asp Leu Asp Asn Leu Leu Ala Gln Ile Gly Asp Gln Tyr Ala Asp
290 295 300
Leu Phe Leu Ala Ala Lys Asn Leu Ser Asp Ala Ile Leu Leu Ser Asp
305 310 315 320
Ile Leu Arg Val Asn Thr Glu Ile Thr Lys Ala Pro Leu Ser Ala Ser
325 330 335
Met Ile Lys Arg Tyr Asp Glu His His Gln Asp Leu Thr Leu Leu Lys
340 345 350
Ala Leu Val Arg Gln Gln Leu Pro Glu Lys Tyr Lys Glu Ile Phe Phe
355 360 365
Asp Gln Ser Lys Asn Gly Tyr Ala Gly Tyr Ile Asp Gly Gly Ala Ser
370 375 380
Gln Glu Glu Phe Tyr Lys Phe Ile Lys Pro Ile Leu Glu Lys Met Asp
385 390 395 400
Gly Thr Glu Glu Leu Leu Val Lys Leu Asn Arg Glu Asp Leu Leu Arg
405 410 415
Lys Gln Arg Thr Phe Asp Asn Gly Ser Ile Pro His Gln Ile His Leu
420 425 430
Gly Glu Leu His Ala Ile Leu Arg Arg Gln Glu Asp Phe Tyr Pro Phe
435 440 445
Leu Lys Asp Asn Arg Glu Lys Ile Glu Lys Ile Leu Thr Phe Arg Ile
450 455 460
Pro Tyr Tyr Val Gly Pro Leu Ala Arg Gly Asn Ser Arg Phe Ala Trp
465 470 475 480
Met Thr Arg Lys Ser Glu Glu Thr Ile Thr Pro Trp Asn Phe Glu Glu
485 490 495
Val Val Asp Lys Gly Ala Ser Ala Gln Ser Phe Ile Glu Arg Met Thr
500 505 510
Asn Phe Asp Lys Asn Leu Pro Asn Glu Lys Val Leu Pro Lys His Ser
515 520 525
Leu Leu Tyr Glu Tyr Phe Thr Val Tyr Asn Glu Leu Thr Lys Val Lys
530 535 540
Tyr Val Thr Glu Gly Met Arg Lys Pro Ala Phe Leu Ser Gly Glu Gln
545 550 555 560
Lys Lys Ala Ile Val Asp Leu Leu Phe Lys Thr Asn Arg Lys Val Thr
565 570 575
Val Lys Gln Leu Lys Glu Asp Tyr Phe Lys Lys Ile Glu Cys Phe Asp
580 585 590
Ser Val Glu Ile Ser Gly Val Glu Asp Arg Phe Asn Ala Ser Leu Gly
595 600 605
Thr Tyr His Asp Leu Leu Lys Ile Ile Lys Asp Lys Asp Phe Leu Asp
610 615 620
Asn Glu Glu Asn Glu Asp Ile Leu Glu Asp Ile Val Leu Thr Leu Thr
625 630 635 640
Leu Phe Glu Asp Arg Glu Met Ile Glu Glu Arg Leu Lys Thr Tyr Ala
645 650 655
His Leu Phe Asp Asp Lys Val Met Lys Gln Leu Lys Arg Arg Arg Tyr
660 665 670
Thr Gly Trp Gly Arg Leu Ser Arg Lys Leu Ile Asn Gly Ile Arg Asp
675 680 685
Lys Gln Ser Gly Lys Thr Ile Leu Asp Phe Leu Lys Ser Asp Gly Phe
690 695 700
Ala Asn Arg Asn Phe Met Gln Leu Ile His Asp Asp Ser Leu Thr Phe
705 710 715 720
Lys Glu Asp Ile Gln Lys Ala Gln Val Ser Gly Gln Gly Asp Ser Leu
725 730 735
His Glu His Ile Ala Asn Leu Ala Gly Ser Pro Ala Ile Lys Lys Gly
740 745 750
Ile Leu Gln Thr Val Lys Val Val Asp Glu Leu Val Lys Val Met Gly
755 760 765
Arg His Lys Pro Glu Asn Ile Val Ile Glu Met Ala Arg Glu Asn Gln
770 775 780
Thr Thr Gln Lys Gly Gln Lys Asn Ser Arg Glu Arg Met Lys Arg Ile
785 790 795 800
Glu Glu Gly Ile Lys Glu Leu Gly Ser Gln Ile Leu Lys Glu His Pro
805 810 815
Val Glu Asn Thr Gln Leu Gln Asn Glu Lys Leu Tyr Leu Tyr Tyr Leu
820 825 830
Gln Asn Gly Arg Asp Met Tyr Val Asp Gln Glu Leu Asp Ile Asn Arg
835 840 845
Leu Ser Asp Tyr Asp Val Asp His Ile Val Pro Gln Ser Phe Leu Lys
850 855 860
Asp Asp Ser Ile Asp Asn Lys Val Leu Thr Arg Ser Asp Lys Asn Arg
865 870 875 880
Gly Lys Ser Asp Asn Val Pro Ser Glu Glu Val Val Lys Lys Met Lys
885 890 895
Asn Tyr Trp Arg Gln Leu Leu Asn Ala Lys Leu Ile Thr Gln Arg Lys
900 905 910
Phe Asp Asn Leu Thr Lys Ala Glu Arg Gly Gly Leu Ser Glu Leu Asp
915 920 925
Lys Ala Gly Phe Ile Lys Arg Gln Leu Val Glu Thr Arg Gln Ile Thr
930 935 940
Lys His Val Ala Gln Ile Leu Asp Ser Arg Met Asn Thr Lys Tyr Asp
945 950 955 960
Glu Asn Asp Lys Leu Ile Arg Glu Val Lys Val Ile Thr Leu Lys Ser
965 970 975
Lys Leu Val Ser Asp Phe Arg Lys Asp Phe Gln Phe Tyr Lys Val Arg
980 985 990
Glu Ile Asn Asn Tyr His His Ala His Asp Ala Tyr Leu Asn Ala Val
995 1000 1005
Val Gly Thr Ala Leu Ile Lys Lys Tyr Pro Lys Leu Glu Ser Glu
1010 1015 1020
Phe Val Tyr Gly Asp Tyr Lys Val Tyr Asp Val Arg Lys Met Ile
1025 1030 1035
Ala Lys Ser Glu Gln Glu Ile Gly Lys Ala Thr Ala Lys Tyr Phe
1040 1045 1050
Phe Tyr Ser Asn Ile Met Asn Phe Phe Lys Thr Glu Ile Thr Leu
1055 1060 1065
Ala Asn Gly Glu Ile Arg Lys Arg Pro Leu Ile Glu Thr Asn Gly
1070 1075 1080
Glu Thr Gly Glu Ile Val Trp Asp Lys Gly Arg Asp Phe Ala Thr
1085 1090 1095
Val Arg Lys Val Leu Ser Met Pro Gln Val Asn Ile Val Lys Lys
1100 1105 1110
Thr Glu Val Gln Thr Gly Gly Phe Ser Lys Glu Ser Ile Leu Pro
1115 1120 1125
Lys Arg Asn Ser Asp Lys Leu Ile Ala Arg Lys Lys Asp Trp Asp
1130 1135 1140
Pro Lys Lys Tyr Gly Gly Phe Asp Ser Pro Thr Val Ala Tyr Ser
1145 1150 1155
Val Leu Val Val Ala Lys Val Glu Lys Gly Lys Ser Lys Lys Leu
1160 1165 1170
Lys Ser Val Lys Glu Leu Leu Gly Ile Thr Ile Met Glu Arg Ser
1175 1180 1185
Ser Phe Glu Lys Asn Pro Ile Asp Phe Leu Glu Ala Lys Gly Tyr
1190 1195 1200
Lys Glu Val Lys Lys Asp Leu Ile Ile Lys Leu Pro Lys Tyr Ser
1205 1210 1215
Leu Phe Glu Leu Glu Asn Gly Arg Lys Arg Met Leu Ala Ser Ala
1220 1225 1230
Gly Glu Leu Gln Lys Gly Asn Glu Leu Ala Leu Pro Ser Lys Tyr
1235 1240 1245
Val Asn Phe Leu Tyr Leu Ala Ser His Tyr Glu Lys Leu Lys Gly
1250 1255 1260
Ser Pro Glu Asp Asn Glu Gln Lys Gln Leu Phe Val Glu Gln His
1265 1270 1275
Lys His Tyr Leu Asp Glu Ile Ile Glu Gln Ile Ser Glu Phe Ser
1280 1285 1290
Lys Arg Val Ile Leu Ala Asp Ala Asn Leu Asp Lys Val Leu Ser
1295 1300 1305
Ala Tyr Asn Lys His Arg Asp Lys Pro Ile Arg Glu Gln Ala Glu
1310 1315 1320
Asn Ile Ile His Leu Phe Thr Leu Thr Asn Leu Gly Ala Pro Ala
1325 1330 1335
Ala Phe Lys Tyr Phe Asp Thr Thr Ile Asp Arg Lys Arg Tyr Thr
1340 1345 1350
Ser Thr Lys Glu Val Leu Asp Ala Thr Leu Ile His Gln Ser Ile
1355 1360 1365
Thr Gly Leu Tyr Glu Thr Arg Ile Asp Leu Ser Gln Leu Gly Gly
1370 1375 1380
Asp
<210> 97
<211> 12
<212> PRT
<213> 酿酒酵母
<400> 97
Met Lys Ser Phe Ile Thr Arg Asn Lys Thr Ala Ile
1 5 10
<210> 98
<211> 1379
<212> PRT
<213> 人工序列
<220>
<223> 合成构建体
<400> 98
Met Lys Ser Phe Ile Thr Arg Asn Lys Thr Ala Ile Asp Lys Lys Tyr
1 5 10 15
Ser Ile Gly Leu Asp Ile Gly Thr Asn Ser Val Gly Trp Ala Val Ile
20 25 30
Thr Asp Glu Tyr Lys Val Pro Ser Lys Lys Phe Lys Val Leu Gly Asn
35 40 45
Thr Asp Arg His Ser Ile Lys Lys Asn Leu Ile Gly Ala Leu Leu Phe
50 55 60
Asp Ser Gly Glu Thr Ala Glu Ala Thr Arg Leu Lys Arg Thr Ala Arg
65 70 75 80
Arg Arg Tyr Thr Arg Arg Lys Asn Arg Ile Cys Tyr Leu Gln Glu Ile
85 90 95
Phe Ser Asn Glu Met Ala Lys Val Asp Asp Ser Phe Phe His Arg Leu
100 105 110
Glu Glu Ser Phe Leu Val Glu Glu Asp Lys Lys His Glu Arg His Pro
115 120 125
Ile Phe Gly Asn Ile Val Asp Glu Val Ala Tyr His Glu Lys Tyr Pro
130 135 140
Thr Ile Tyr His Leu Arg Lys Lys Leu Val Asp Ser Thr Asp Lys Ala
145 150 155 160
Asp Leu Arg Leu Ile Tyr Leu Ala Leu Ala His Met Ile Lys Phe Arg
165 170 175
Gly His Phe Leu Ile Glu Gly Asp Leu Asn Pro Asp Asn Ser Asp Val
180 185 190
Asp Lys Leu Phe Ile Gln Leu Val Gln Thr Tyr Asn Gln Leu Phe Glu
195 200 205
Glu Asn Pro Ile Asn Ala Ser Gly Val Asp Ala Lys Ala Ile Leu Ser
210 215 220
Ala Arg Leu Ser Lys Ser Arg Arg Leu Glu Asn Leu Ile Ala Gln Leu
225 230 235 240
Pro Gly Glu Lys Lys Asn Gly Leu Phe Gly Asn Leu Ile Ala Leu Ser
245 250 255
Leu Gly Leu Thr Pro Asn Phe Lys Ser Asn Phe Asp Leu Ala Glu Asp
260 265 270
Ala Lys Leu Gln Leu Ser Lys Asp Thr Tyr Asp Asp Asp Leu Asp Asn
275 280 285
Leu Leu Ala Gln Ile Gly Asp Gln Tyr Ala Asp Leu Phe Leu Ala Ala
290 295 300
Lys Asn Leu Ser Asp Ala Ile Leu Leu Ser Asp Ile Leu Arg Val Asn
305 310 315 320
Thr Glu Ile Thr Lys Ala Pro Leu Ser Ala Ser Met Ile Lys Arg Tyr
325 330 335
Asp Glu His His Gln Asp Leu Thr Leu Leu Lys Ala Leu Val Arg Gln
340 345 350
Gln Leu Pro Glu Lys Tyr Lys Glu Ile Phe Phe Asp Gln Ser Lys Asn
355 360 365
Gly Tyr Ala Gly Tyr Ile Asp Gly Gly Ala Ser Gln Glu Glu Phe Tyr
370 375 380
Lys Phe Ile Lys Pro Ile Leu Glu Lys Met Asp Gly Thr Glu Glu Leu
385 390 395 400
Leu Val Lys Leu Asn Arg Glu Asp Leu Leu Arg Lys Gln Arg Thr Phe
405 410 415
Asp Asn Gly Ser Ile Pro His Gln Ile His Leu Gly Glu Leu His Ala
420 425 430
Ile Leu Arg Arg Gln Glu Asp Phe Tyr Pro Phe Leu Lys Asp Asn Arg
435 440 445
Glu Lys Ile Glu Lys Ile Leu Thr Phe Arg Ile Pro Tyr Tyr Val Gly
450 455 460
Pro Leu Ala Arg Gly Asn Ser Arg Phe Ala Trp Met Thr Arg Lys Ser
465 470 475 480
Glu Glu Thr Ile Thr Pro Trp Asn Phe Glu Glu Val Val Asp Lys Gly
485 490 495
Ala Ser Ala Gln Ser Phe Ile Glu Arg Met Thr Asn Phe Asp Lys Asn
500 505 510
Leu Pro Asn Glu Lys Val Leu Pro Lys His Ser Leu Leu Tyr Glu Tyr
515 520 525
Phe Thr Val Tyr Asn Glu Leu Thr Lys Val Lys Tyr Val Thr Glu Gly
530 535 540
Met Arg Lys Pro Ala Phe Leu Ser Gly Glu Gln Lys Lys Ala Ile Val
545 550 555 560
Asp Leu Leu Phe Lys Thr Asn Arg Lys Val Thr Val Lys Gln Leu Lys
565 570 575
Glu Asp Tyr Phe Lys Lys Ile Glu Cys Phe Asp Ser Val Glu Ile Ser
580 585 590
Gly Val Glu Asp Arg Phe Asn Ala Ser Leu Gly Thr Tyr His Asp Leu
595 600 605
Leu Lys Ile Ile Lys Asp Lys Asp Phe Leu Asp Asn Glu Glu Asn Glu
610 615 620
Asp Ile Leu Glu Asp Ile Val Leu Thr Leu Thr Leu Phe Glu Asp Arg
625 630 635 640
Glu Met Ile Glu Glu Arg Leu Lys Thr Tyr Ala His Leu Phe Asp Asp
645 650 655
Lys Val Met Lys Gln Leu Lys Arg Arg Arg Tyr Thr Gly Trp Gly Arg
660 665 670
Leu Ser Arg Lys Leu Ile Asn Gly Ile Arg Asp Lys Gln Ser Gly Lys
675 680 685
Thr Ile Leu Asp Phe Leu Lys Ser Asp Gly Phe Ala Asn Arg Asn Phe
690 695 700
Met Gln Leu Ile His Asp Asp Ser Leu Thr Phe Lys Glu Asp Ile Gln
705 710 715 720
Lys Ala Gln Val Ser Gly Gln Gly Asp Ser Leu His Glu His Ile Ala
725 730 735
Asn Leu Ala Gly Ser Pro Ala Ile Lys Lys Gly Ile Leu Gln Thr Val
740 745 750
Lys Val Val Asp Glu Leu Val Lys Val Met Gly Arg His Lys Pro Glu
755 760 765
Asn Ile Val Ile Glu Met Ala Arg Glu Asn Gln Thr Thr Gln Lys Gly
770 775 780
Gln Lys Asn Ser Arg Glu Arg Met Lys Arg Ile Glu Glu Gly Ile Lys
785 790 795 800
Glu Leu Gly Ser Gln Ile Leu Lys Glu His Pro Val Glu Asn Thr Gln
805 810 815
Leu Gln Asn Glu Lys Leu Tyr Leu Tyr Tyr Leu Gln Asn Gly Arg Asp
820 825 830
Met Tyr Val Asp Gln Glu Leu Asp Ile Asn Arg Leu Ser Asp Tyr Asp
835 840 845
Val Asp His Ile Val Pro Gln Ser Phe Leu Lys Asp Asp Ser Ile Asp
850 855 860
Asn Lys Val Leu Thr Arg Ser Asp Lys Asn Arg Gly Lys Ser Asp Asn
865 870 875 880
Val Pro Ser Glu Glu Val Val Lys Lys Met Lys Asn Tyr Trp Arg Gln
885 890 895
Leu Leu Asn Ala Lys Leu Ile Thr Gln Arg Lys Phe Asp Asn Leu Thr
900 905 910
Lys Ala Glu Arg Gly Gly Leu Ser Glu Leu Asp Lys Ala Gly Phe Ile
915 920 925
Lys Arg Gln Leu Val Glu Thr Arg Gln Ile Thr Lys His Val Ala Gln
930 935 940
Ile Leu Asp Ser Arg Met Asn Thr Lys Tyr Asp Glu Asn Asp Lys Leu
945 950 955 960
Ile Arg Glu Val Lys Val Ile Thr Leu Lys Ser Lys Leu Val Ser Asp
965 970 975
Phe Arg Lys Asp Phe Gln Phe Tyr Lys Val Arg Glu Ile Asn Asn Tyr
980 985 990
His His Ala His Asp Ala Tyr Leu Asn Ala Val Val Gly Thr Ala Leu
995 1000 1005
Ile Lys Lys Tyr Pro Lys Leu Glu Ser Glu Phe Val Tyr Gly Asp
1010 1015 1020
Tyr Lys Val Tyr Asp Val Arg Lys Met Ile Ala Lys Ser Glu Gln
1025 1030 1035
Glu Ile Gly Lys Ala Thr Ala Lys Tyr Phe Phe Tyr Ser Asn Ile
1040 1045 1050
Met Asn Phe Phe Lys Thr Glu Ile Thr Leu Ala Asn Gly Glu Ile
1055 1060 1065
Arg Lys Arg Pro Leu Ile Glu Thr Asn Gly Glu Thr Gly Glu Ile
1070 1075 1080
Val Trp Asp Lys Gly Arg Asp Phe Ala Thr Val Arg Lys Val Leu
1085 1090 1095
Ser Met Pro Gln Val Asn Ile Val Lys Lys Thr Glu Val Gln Thr
1100 1105 1110
Gly Gly Phe Ser Lys Glu Ser Ile Leu Pro Lys Arg Asn Ser Asp
1115 1120 1125
Lys Leu Ile Ala Arg Lys Lys Asp Trp Asp Pro Lys Lys Tyr Gly
1130 1135 1140
Gly Phe Asp Ser Pro Thr Val Ala Tyr Ser Val Leu Val Val Ala
1145 1150 1155
Lys Val Glu Lys Gly Lys Ser Lys Lys Leu Lys Ser Val Lys Glu
1160 1165 1170
Leu Leu Gly Ile Thr Ile Met Glu Arg Ser Ser Phe Glu Lys Asn
1175 1180 1185
Pro Ile Asp Phe Leu Glu Ala Lys Gly Tyr Lys Glu Val Lys Lys
1190 1195 1200
Asp Leu Ile Ile Lys Leu Pro Lys Tyr Ser Leu Phe Glu Leu Glu
1205 1210 1215
Asn Gly Arg Lys Arg Met Leu Ala Ser Ala Gly Glu Leu Gln Lys
1220 1225 1230
Gly Asn Glu Leu Ala Leu Pro Ser Lys Tyr Val Asn Phe Leu Tyr
1235 1240 1245
Leu Ala Ser His Tyr Glu Lys Leu Lys Gly Ser Pro Glu Asp Asn
1250 1255 1260
Glu Gln Lys Gln Leu Phe Val Glu Gln His Lys His Tyr Leu Asp
1265 1270 1275
Glu Ile Ile Glu Gln Ile Ser Glu Phe Ser Lys Arg Val Ile Leu
1280 1285 1290
Ala Asp Ala Asn Leu Asp Lys Val Leu Ser Ala Tyr Asn Lys His
1295 1300 1305
Arg Asp Lys Pro Ile Arg Glu Gln Ala Glu Asn Ile Ile His Leu
1310 1315 1320
Phe Thr Leu Thr Asn Leu Gly Ala Pro Ala Ala Phe Lys Tyr Phe
1325 1330 1335
Asp Thr Thr Ile Asp Arg Lys Arg Tyr Thr Ser Thr Lys Glu Val
1340 1345 1350
Leu Asp Ala Thr Leu Ile His Gln Ser Ile Thr Gly Leu Tyr Glu
1355 1360 1365
Thr Arg Ile Asp Leu Ser Gln Leu Gly Gly Asp
1370 1375
<210> 99
<211> 39
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 99
aaagagctcg gatcctctat gtattaatag aatctatag 39
<210> 100
<211> 33
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 100
aaaccatggt agattaatat tattaaattt aag 33
<210> 101
<211> 48
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 101
aaaccatggg tatatctcct tctttaaatt taagtaaaaa aactacac 48
<210> 102
<211> 80
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 102
aaaagagctc acatatacct tggttgacac gagtatataa gtcatgttat actgttgaat 60
gggagaccac aacggtttcc 80
<210> 103
<211> 37
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 103
ttttatgcat atgtatatct ccttcttaaa gttaaac 37
<210> 104
<211> 27
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 104
aaaagagctc gctcccccgc cgtcgtt 27
<210> 105
<211> 43
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 105
ctgaatctgg gggaacactt tcccagaaat atagtcatcc ctg 43
<210> 106
<211> 42
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 106
gggatgacta tatttctggg aaagtgttcc cccagattca ga 42
<210> 107
<211> 33
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 107
ttttatgcat agagttttct tgccccctat ttg 33
<210> 108
<211> 3537
<212> DNA
<213> 苏云金芽孢杆菌
<400> 108
atggataaca atccgaacat caatgaatgc attccttata attgtttaag taaccctgaa 60
gtagaagtat taggtggaga aagaatagaa actggttaca ccccaatcga tatttccttg 120
tcgctaacgc aatttctttt gagtgaattt gttcccggtg ctggatttgt gttaggacta 180
gttgatataa tatggggaat ttttggtccc tctcaatggg acgcatttct tgtacaaatt 240
gaacagttaa ttaaccaaag aatagaagaa ttcgctagga accaagccat ttctagatta 300
gaaggactaa gcaatcttta tcaaatttac gcagaatctt ttagagagtg ggaagcagat 360
cctactaatc cagcattaag agaagagatg cgtattcaat tcaatgacat gaacagtgcc 420
cttacaaccg ctattcctct ttttgcagtt caaaattatc aagttcctct tttatcagta 480
tatgttcaag ctgcaaattt acatttatca gttttgagag atgtttcagt gtttggacaa 540
aggtggggat ttgatgccgc gactatcaat agtcgttata atgatttaac taggcttatt 600
ggcaactata cagattatgc tgtacgctgg tacaatacgg gattagaacg tgtatgggga 660
ccggattcta gagattgggt aaggtataat caatttagaa gagaattaac actaactgta 720
ttagatatcg ttgctctgtt cccgaattat gatagtagaa gatatccaat tcgaacagtt 780
tcccaattaa caagagaaat ttatacaaac ccagtattag aaaattttga tggtagtttt 840
cgaggctcgg ctcagggcat agaaagaagt attaggagtc cacatttgat ggatatactt 900
aacagtataa ccatctatac ggatgctcat aggggttatt attattggtc agggcatcaa 960
ataatggctt ctcctgtcgg tttttcgggg ccagaattca cgtttccgct atatggaacc 1020
atgggaaatg cagctccaca acaacgtatt gttgctcaac taggtcaggg cgtgtataga 1080
acattatcgt ccactttata tagaagacct tttaatatag ggataaataa tcaacaacta 1140
tctgttcttg acgggacaga atttgcttat ggaacctcct caaatttgcc atccgctgta 1200
tacagaaaaa gcggaacggt agattcgctg gatgaaatac cgccacagaa taacaacgtg 1260
ccacctaggc aaggatttag tcatcgatta agccatgttt caatgtttcg ttcaggcttt 1320
agtaatagta gtgtaagtat aataagagct cctatgttct cttggataca tcgtagtgct 1380
gaatttaata atataattgc atcggatagt attactcaaa tccctgcagt gaagggaaac 1440
tttcttttta atggttctgt aatttcagga ccaggattta ctggtgggga cttagttaga 1500
ttaaatagta gtggaaataa cattcagaat agagggtata ttgaagttcc aattcacttc 1560
ccatcgacat ctaccagata tcgagttcgt gtacggtatg cttctgtaac cccgattcac 1620
ctcaacgtta attggggtaa ttcatccatt ttttccaata cagtaccagc tacagctacg 1680
tcattagata atctacaatc aagtgatttt ggttattttg aaagtgccaa tgcttttaca 1740
tcttcattag gtaatatagt aggtgttaga aattttagtg ggactgcagg agtgataata 1800
gacagatttg aatttattcc agttactgca acactcgagg ctgaatataa tctggaaaga 1860
gcgcagaagg cggtgaatgc gctgtttacg tctacaaacc aactagggct aaaaacaaat 1920
gtaacggatt atcatattga tcaagtgtcc aatttagtta cgtatttatc ggatgaattt 1980
tgtctggatg aaaagcgaga attgtccgag aaagtcaaac atgcgaagcg actcagtgat 2040
gaacgcaatt tactccaaga ttcaaatttc aaagacatta ataggcaacc agaacgtggg 2100
tggggcggaa gtacagggat taccatccaa ggaggggatg acgtatttaa agaaaattac 2160
gtcacactat caggtacctt tgatgagtgc tatccaacat atttgtatca aaaaatcgat 2220
gaatcaaaat taaaagcctt tacccgttat caattaagag ggtatatcga agatagtcaa 2280
gacttagaaa tctatttaat tcgctacaat gcaaaacatg aaacagtaaa tgtgccaggt 2340
acgggttcct tatggccgct ttcagcccaa agtccaatcg gaaagtgtgg agagccgaat 2400
cgatgcgcgc cacaccttga atggaatcct gacttagatt gttcgtgtag ggatggagaa 2460
aagtgtgccc atcattcgca tcatttctcc ttagacattg atgtaggatg tacagactta 2520
aatgaggacc taggtgtatg ggtgatcttt aagattaaga cgcaagatgg gcacgcaaga 2580
ctagggaatc tagagtttct cgaagagaaa ccattagtag gagaagcgct agctcgtgtg 2640
aaaagagcgg agaaaaaatg gagagacaaa cgtgaaaaat tggaatggga aacaaatatc 2700
gtttataaag aggcaaaaga atctgtagat gctttatttg taaactctca atatgatcaa 2760
ttacaagcgg atacgaatat tgccatgatt catgcggcag ataaacgtgt tcatagcatt 2820
cgagaagctt atctgcctga gctgtctgtg attccgggtg tcaatgcggc tatttttgaa 2880
gaattagaag ggcgtatttt cactgcattc tccctatatg atgcgagaaa tgtcattaaa 2940
aatggtgatt ttaataatgg cttatcctgc tggaacgtga aagggcatgt agatgtagaa 3000
gaacaaaaca accaacgttc ggtccttgtt gttccggaat gggaagcaga agtgtcacaa 3060
gaagttcgtg tctgtccggg tcgtggctat atccttcgtg tcacagcgta caaggaggga 3120
tatggagaag gttgcgtaac cattcatgag atcgagaaca atacagacga actgaagttt 3180
agcaactgcg tagaagagga aatctatcca aataacacgg taacgtgtaa tgattatact 3240
gtaaatcaag aagaatacgg aggtgcgtac acttctcgta atcgaggata taacgaagct 3300
ccttccgtac cagctgatta tgcgtcagtc tatgaagaaa aatcgtatac agatggacga 3360
agagagaatc cttgtgaatt taacagaggg tatagggatt acacgccact accagttggt 3420
tatgtgacaa aagaattaga atacttccca gaaaccgata aggtatggat tgagattgga 3480
gaaacggaag gaacatttat cgtggacagc gtggaattac tccttatgga ggaatag 3537
<210> 109
<211> 1178
<212> PRT
<213> 苏云金芽孢杆菌
<400> 109
Met Asp Asn Asn Pro Asn Ile Asn Glu Cys Ile Pro Tyr Asn Cys Leu
1 5 10 15
Ser Asn Pro Glu Val Glu Val Leu Gly Gly Glu Arg Ile Glu Thr Gly
20 25 30
Tyr Thr Pro Ile Asp Ile Ser Leu Ser Leu Thr Gln Phe Leu Leu Ser
35 40 45
Glu Phe Val Pro Gly Ala Gly Phe Val Leu Gly Leu Val Asp Ile Ile
50 55 60
Trp Gly Ile Phe Gly Pro Ser Gln Trp Asp Ala Phe Leu Val Gln Ile
65 70 75 80
Glu Gln Leu Ile Asn Gln Arg Ile Glu Glu Phe Ala Arg Asn Gln Ala
85 90 95
Ile Ser Arg Leu Glu Gly Leu Ser Asn Leu Tyr Gln Ile Tyr Ala Glu
100 105 110
Ser Phe Arg Glu Trp Glu Ala Asp Pro Thr Asn Pro Ala Leu Arg Glu
115 120 125
Glu Met Arg Ile Gln Phe Asn Asp Met Asn Ser Ala Leu Thr Thr Ala
130 135 140
Ile Pro Leu Phe Ala Val Gln Asn Tyr Gln Val Pro Leu Leu Ser Val
145 150 155 160
Tyr Val Gln Ala Ala Asn Leu His Leu Ser Val Leu Arg Asp Val Ser
165 170 175
Val Phe Gly Gln Arg Trp Gly Phe Asp Ala Ala Thr Ile Asn Ser Arg
180 185 190
Tyr Asn Asp Leu Thr Arg Leu Ile Gly Asn Tyr Thr Asp Tyr Ala Val
195 200 205
Arg Trp Tyr Asn Thr Gly Leu Glu Arg Val Trp Gly Pro Asp Ser Arg
210 215 220
Asp Trp Val Arg Tyr Asn Gln Phe Arg Arg Glu Leu Thr Leu Thr Val
225 230 235 240
Leu Asp Ile Val Ala Leu Phe Pro Asn Tyr Asp Ser Arg Arg Tyr Pro
245 250 255
Ile Arg Thr Val Ser Gln Leu Thr Arg Glu Ile Tyr Thr Asn Pro Val
260 265 270
Leu Glu Asn Phe Asp Gly Ser Phe Arg Gly Ser Ala Gln Gly Ile Glu
275 280 285
Arg Ser Ile Arg Ser Pro His Leu Met Asp Ile Leu Asn Ser Ile Thr
290 295 300
Ile Tyr Thr Asp Ala His Arg Gly Tyr Tyr Tyr Trp Ser Gly His Gln
305 310 315 320
Ile Met Ala Ser Pro Val Gly Phe Ser Gly Pro Glu Phe Thr Phe Pro
325 330 335
Leu Tyr Gly Thr Met Gly Asn Ala Ala Pro Gln Gln Arg Ile Val Ala
340 345 350
Gln Leu Gly Gln Gly Val Tyr Arg Thr Leu Ser Ser Thr Leu Tyr Arg
355 360 365
Arg Pro Phe Asn Ile Gly Ile Asn Asn Gln Gln Leu Ser Val Leu Asp
370 375 380
Gly Thr Glu Phe Ala Tyr Gly Thr Ser Ser Asn Leu Pro Ser Ala Val
385 390 395 400
Tyr Arg Lys Ser Gly Thr Val Asp Ser Leu Asp Glu Ile Pro Pro Gln
405 410 415
Asn Asn Asn Val Pro Pro Arg Gln Gly Phe Ser His Arg Leu Ser His
420 425 430
Val Ser Met Phe Arg Ser Gly Phe Ser Asn Ser Ser Val Ser Ile Ile
435 440 445
Arg Ala Pro Met Phe Ser Trp Ile His Arg Ser Ala Glu Phe Asn Asn
450 455 460
Ile Ile Ala Ser Asp Ser Ile Thr Gln Ile Pro Ala Val Lys Gly Asn
465 470 475 480
Phe Leu Phe Asn Gly Ser Val Ile Ser Gly Pro Gly Phe Thr Gly Gly
485 490 495
Asp Leu Val Arg Leu Asn Ser Ser Gly Asn Asn Ile Gln Asn Arg Gly
500 505 510
Tyr Ile Glu Val Pro Ile His Phe Pro Ser Thr Ser Thr Arg Tyr Arg
515 520 525
Val Arg Val Arg Tyr Ala Ser Val Thr Pro Ile His Leu Asn Val Asn
530 535 540
Trp Gly Asn Ser Ser Ile Phe Ser Asn Thr Val Pro Ala Thr Ala Thr
545 550 555 560
Ser Leu Asp Asn Leu Gln Ser Ser Asp Phe Gly Tyr Phe Glu Ser Ala
565 570 575
Asn Ala Phe Thr Ser Ser Leu Gly Asn Ile Val Gly Val Arg Asn Phe
580 585 590
Ser Gly Thr Ala Gly Val Ile Ile Asp Arg Phe Glu Phe Ile Pro Val
595 600 605
Thr Ala Thr Leu Glu Ala Glu Tyr Asn Leu Glu Arg Ala Gln Lys Ala
610 615 620
Val Asn Ala Leu Phe Thr Ser Thr Asn Gln Leu Gly Leu Lys Thr Asn
625 630 635 640
Val Thr Asp Tyr His Ile Asp Gln Val Ser Asn Leu Val Thr Tyr Leu
645 650 655
Ser Asp Glu Phe Cys Leu Asp Glu Lys Arg Glu Leu Ser Glu Lys Val
660 665 670
Lys His Ala Lys Arg Leu Ser Asp Glu Arg Asn Leu Leu Gln Asp Ser
675 680 685
Asn Phe Lys Asp Ile Asn Arg Gln Pro Glu Arg Gly Trp Gly Gly Ser
690 695 700
Thr Gly Ile Thr Ile Gln Gly Gly Asp Asp Val Phe Lys Glu Asn Tyr
705 710 715 720
Val Thr Leu Ser Gly Thr Phe Asp Glu Cys Tyr Pro Thr Tyr Leu Tyr
725 730 735
Gln Lys Ile Asp Glu Ser Lys Leu Lys Ala Phe Thr Arg Tyr Gln Leu
740 745 750
Arg Gly Tyr Ile Glu Asp Ser Gln Asp Leu Glu Ile Tyr Leu Ile Arg
755 760 765
Tyr Asn Ala Lys His Glu Thr Val Asn Val Pro Gly Thr Gly Ser Leu
770 775 780
Trp Pro Leu Ser Ala Gln Ser Pro Ile Gly Lys Cys Gly Glu Pro Asn
785 790 795 800
Arg Cys Ala Pro His Leu Glu Trp Asn Pro Asp Leu Asp Cys Ser Cys
805 810 815
Arg Asp Gly Glu Lys Cys Ala His His Ser His His Phe Ser Leu Asp
820 825 830
Ile Asp Val Gly Cys Thr Asp Leu Asn Glu Asp Leu Gly Val Trp Val
835 840 845
Ile Phe Lys Ile Lys Thr Gln Asp Gly His Ala Arg Leu Gly Asn Leu
850 855 860
Glu Phe Leu Glu Glu Lys Pro Leu Val Gly Glu Ala Leu Ala Arg Val
865 870 875 880
Lys Arg Ala Glu Lys Lys Trp Arg Asp Lys Arg Glu Lys Leu Glu Trp
885 890 895
Glu Thr Asn Ile Val Tyr Lys Glu Ala Lys Glu Ser Val Asp Ala Leu
900 905 910
Phe Val Asn Ser Gln Tyr Asp Gln Leu Gln Ala Asp Thr Asn Ile Ala
915 920 925
Met Ile His Ala Ala Asp Lys Arg Val His Ser Ile Arg Glu Ala Tyr
930 935 940
Leu Pro Glu Leu Ser Val Ile Pro Gly Val Asn Ala Ala Ile Phe Glu
945 950 955 960
Glu Leu Glu Gly Arg Ile Phe Thr Ala Phe Ser Leu Tyr Asp Ala Arg
965 970 975
Asn Val Ile Lys Asn Gly Asp Phe Asn Asn Gly Leu Ser Cys Trp Asn
980 985 990
Val Lys Gly His Val Asp Val Glu Glu Gln Asn Asn Gln Arg Ser Val
995 1000 1005
Leu Val Val Pro Glu Trp Glu Ala Glu Val Ser Gln Glu Val Arg
1010 1015 1020
Val Cys Pro Gly Arg Gly Tyr Ile Leu Arg Val Thr Ala Tyr Lys
1025 1030 1035
Glu Gly Tyr Gly Glu Gly Cys Val Thr Ile His Glu Ile Glu Asn
1040 1045 1050
Asn Thr Asp Glu Leu Lys Phe Ser Asn Cys Val Glu Glu Glu Ile
1055 1060 1065
Tyr Pro Asn Asn Thr Val Thr Cys Asn Asp Tyr Thr Val Asn Gln
1070 1075 1080
Glu Glu Tyr Gly Gly Ala Tyr Thr Ser Arg Asn Arg Gly Tyr Asn
1085 1090 1095
Glu Ala Pro Ser Val Pro Ala Asp Tyr Ala Ser Val Tyr Glu Glu
1100 1105 1110
Lys Ser Tyr Thr Asp Gly Arg Arg Glu Asn Pro Cys Glu Phe Asn
1115 1120 1125
Arg Gly Tyr Arg Asp Tyr Thr Pro Leu Pro Val Gly Tyr Val Thr
1130 1135 1140
Lys Glu Leu Glu Tyr Phe Pro Glu Thr Asp Lys Val Trp Ile Glu
1145 1150 1155
Ile Gly Glu Thr Glu Gly Thr Phe Ile Val Asp Ser Val Glu Leu
1160 1165 1170
Leu Leu Met Glu Glu
1175
<210> 110
<211> 1848
<212> DNA
<213> 苏云金芽孢杆菌
<400> 110
atggataaca atccgaacat caatgaatgc attccttata attgtttaag taaccctgaa 60
gtagaagtat taggtggaga aagaatagaa actggttaca ccccaatcga tatttccttg 120
tcgctaacgc aatttctttt gagtgaattt gttcccggtg ctggatttgt gttaggacta 180
gttgatataa tatggggaat ttttggtccc tctcaatggg acgcatttct tgtacaaatt 240
gaacagttaa ttaaccaaag aatagaagaa ttcgctagga accaagccat ttctagatta 300
gaaggactaa gcaatcttta tcaaatttac gcagaatctt ttagagagtg ggaagcagat 360
cctactaatc cagcattaag agaagagatg cgtattcaat tcaatgacat gaacagtgcc 420
cttacaaccg ctattcctct ttttgcagtt caaaattatc aagttcctct tttatcagta 480
tatgttcaag ctgcaaattt acatttatca gttttgagag atgtttcagt gtttggacaa 540
aggtggggat ttgatgccgc gactatcaat agtcgttata atgatttaac taggcttatt 600
ggcaactata cagattatgc tgtacgctgg tacaatacgg gattagaacg tgtatgggga 660
ccggattcta gagattgggt aaggtataat caatttagaa gagaattaac actaactgta 720
ttagatatcg ttgctctgtt cccgaattat gatagtagaa gatatccaat tcgaacagtt 780
tcccaattaa caagagaaat ttatacaaac ccagtattag aaaattttga tggtagtttt 840
cgaggctcgg ctcagggcat agaaagaagt attaggagtc cacatttgat ggatatactt 900
aacagtataa ccatctatac ggatgctcat aggggttatt attattggtc agggcatcaa 960
ataatggctt ctcctgtcgg tttttcgggg ccagaattca cgtttccgct atatggaacc 1020
atgggaaatg cagctccaca acaacgtatt gttgctcaac taggtcaggg cgtgtataga 1080
acattatcgt ccactttata tagaagacct tttaatatag ggataaataa tcaacaacta 1140
tctgttcttg acgggacaga atttgcttat ggaacctcct caaatttgcc atccgctgta 1200
tacagaaaaa gcggaacggt agattcgctg gatgaaatac cgccacagaa taacaacgtg 1260
ccacctaggc aaggatttag tcatcgatta agccatgttt caatgtttcg ttcaggcttt 1320
agtaatagta gtgtaagtat aataagagct cctatgttct cttggataca tcgtagtgct 1380
gaatttaata atataattgc atcggatagt attactcaaa tccctgcagt gaagggaaac 1440
tttcttttta atggttctgt aatttcagga ccaggattta ctggtgggga cttagttaga 1500
ttaaatagta gtggaaataa cattcagaat agagggtata ttgaagttcc aattcacttc 1560
ccatcgacat ctaccagata tcgagttcgt gtacggtatg cttctgtaac cccgattcac 1620
ctcaacgtta attggggtaa ttcatccatt ttttccaata cagtaccagc tacagctacg 1680
tcattagata atctacaatc aagtgatttt ggttattttg aaagtgccaa tgcttttaca 1740
tcttcattag gtaatatagt aggtgttaga aattttagtg ggactgcagg agtgataata 1800
gacagatttg aatttattcc agttactgca acactcgagg ctgaatag 1848
<210> 111
<211> 750
<212> DNA
<213> 苏云金芽孢杆菌
<400> 111
atggaaaatt taaatcattg tccattagaa gatataaagg taaatccatg gaaaacccct 60
caatcaacag caagggttat tacattacgt gttgaggatc caaatgaaat caataatctt 120
ctttctatta acgaaattga taatccgaat tatatattgc aagcaattat gttagcaaat 180
gcatttcaaa atgcattagt tcccacttct acagattttg gtgatgccct acgctttagt 240
atgccaaaag gtttagaaat cgcaaacaca attacaccga tgggtgctgt agtgagttat 300
gttgatcaaa atgtaactca aacgaataac caagtaagtg ttatgattaa taaagtctta 360
gaagtgttaa aaactgtatt aggagttgca ttaagtggat ctgtaataga tcaattaact 420
gcagcagtta caaatacgtt tacaaattta aatactcaaa aaaatgaagc atggattttc 480
tggggcaagg aaactgctaa tcaaacaaat tacacataca atgtcctgtt tgcaatccaa 540
aatgcccaaa ctggtggcgt tatgtattgt gtaccagttg gttttgaaat taaagtatca 600
gcagtaaagg aacaagtttt atttttcaca attcaagatt ctgcgagcta caatgttaac 660
atccaatctt tgaaatttgc acaaccatta gttagctcaa gtcagtatcc aattgcagat 720
cttactagcg ctattaatgg aaccctctaa 750
<210> 112
<211> 549
<212> DNA
<213> 苏云金芽孢杆菌
<400> 112
atgacagaaa atggagtgtt ttataaaata ttcacaacag aaaataataa tttttgtata 60
aatcctactt tgttagaaag ggtttttaaa aataatttag atgaatttga tttttcgcta 120
gtaaaaaaaa acttagaaca tgagaagaat tgtgtgatta cttctacaat gaatcaaaca 180
atttctttcg agaatatgaa tagtacagaa atggggcata agacatattc ttttttaaat 240
caaacagtat taaataataa ggggaattct tctttagagg aacaagtctc taatattttt 300
tatagatgtg tatatatgga agttggaaaa tcaagttcat atattaaacc tcttgagcag 360
gattctaata aaataaggta tgtttgtagt ttgctcttta tagtgcccta taagaataac 420
ataacatcaa ttattccagt aaatttacaa ctaacattat tatcgaaaaa tgtaaaacaa 480
tcctcttcta caaatatatt ttcaggagat atacatttta atatggtaac aatgacttat 540
ttaacttaa 549
<210> 113
<211> 540
<212> DNA
<213> 苏云金芽孢杆菌
<400> 113
atgaatatga attttgattt cgaggatcat gaaaataaga atttatctgt gcaggaggaa 60
catcaccatt gtagtgaagg aggggaacat aaaatagcat tttgttgtgt agtctcaatt 120
ccaaaaggtt ttaaatatgt tgcccattgt gatccgaaat ttgtatataa ccttgattgt 180
ctatccgttt caaaagaaaa atgccgtaag gttgttccta tagaaggatg tggatgtgca 240
gaggtagatt tacatgtatt aaaggtaaag ggatgcatct catttgtatc gaatatagaa 300
atagaaccta ttcatgaatg catgacctgc tcagcaaatc cacataaaga aaacattgct 360
gtgagttgcc aagatactgt ctgcgtagat caagttttgt attgcagtgt agattgtttg 420
ccagattgtg atattaattg tgataatgta aaaatttgcg atgtgagcat tgaaccaatt 480
ggagattgtg attgtcacgc ggtgaaaatt aaagggaaat tttcacttca ctataaataa 540
<210> 114
<211> 2155
<212> DNA
<213> 大豆异皮线虫
<400> 114
tattcttggg tctgcaacta acaaatccca aagaattttt ccggtagaaa catgttttgg 60
acacgttgga gaggaatcaa aatatgttgc tgtgatccaa ataagaaaac aaatttatat 120
caaacattta gatccaaatt caatcatttt ctaaacaaca gctgacaaat aattgaattc 180
atcaagaagt ttccatcggt ttctgttgtt cgataggccc aatttgactc aacagcgctc 240
caatcgcttc gacatttaaa atttgctgct cacaataccc aggctgaata gttacaacag 300
ttctgttagt atttattagc tttctaaaaa tgaacttgcc tccccattgg tgccatccac 360
ccatttgagc accttaaaaa tgaattgcta gtaaattaac gtgtattttt gtattcaccg 420
caatttcgat attctgcgcc cccgattgga ccactggggc taaagacttg agcatcagtt 480
taagcgtaga ctcctcatca gctgtgttgt cgttgccgta ttctttctcc agatactcct 540
tcacaatctt ttcatttcgc cctattgaac cggccaacaa ttcgtagtaa actccggacg 600
gttccgtctt gaaaagatga ggggtcccat cagaatcgaa gcctccgaca agcattgaaa 660
ttccaaaagg ccgacggcca gtggtttgag tgtatctcta aacaaacaaa aagttactca 720
gatgttgtaa gtcaattgac ctgttttata tcagctatga tgcgagagat atgcatgaca 780
gatacgcggt cctcaagcgt caatttgtaa ttttcgcatt caactcgagc acggtcgata 840
aggacgcgtg catcggcgct gagtccggcg aatgcgacca taacatgcta aacataggcg 900
tgcattgaag aggaataagg aatttaccga atccaatgca tgtattttac gaatggtacg 960
ttcgtcttgc agagtcggga tagatttctg caaaataaaa gttcaccaga acagtttaag 1020
caatttttat gtctgtgaat acactagcta aaaataattt actttttcga ctccaattac 1080
aacacaattt tttcctttca cggcaaccta aagcaatgca cattaatatt tttaaaaagc 1140
aataaaacgc accgctgttg agcccttctt cactgcttct tgcgcatagt caacttgaaa 1200
aagtctgcca tccggagaaa aaatcgtaat tgcacgatca taacgctcca tagtttattt 1260
gctaaaatca agcttacaaa aagcggttag gcatttaaaa tttaagctcc gtaaaaattc 1320
aattaaaaat catcacattt atttttttaa tttttcaatt tttaaatttt tcttttttgg 1380
cgaactgtct acccttgtaa cttctaaaaa aggagttgag actgaaatcc cgcgccagat 1440
cccgtcccga cctgtctctg ttttccatag tgaacaaata attattgttg tatttttact 1500
ctttcgctgc tccacacaca tctctttcat gaactttaga caaaaagtat tttaatgcgt 1560
cttgagaagt gttggttttg ttcatcaaca atttatccgg gccacggaat tcaattcgta 1620
cgtaacgacg caacggtgaa aacaatttat tgttatagta cataataaat taaaattttt 1680
gtttaggttt tcaagttttg taggtcaaaa tgcaacaaat tatttaaaaa gaagaagaac 1740
ccgcgcaaat tgaaatggac gaaggcatcg cggcgaattc ggggaaaagt tagtgtttga 1800
tttttgtttt tactctttta catttattgt aaatttaaat ttcttttact ctttaggaat 1860
tggtcaacga tgttactcaa gcgatggaaa ttcgcagaaa cgaaccgaca aaatatgata 1920
gaaacctttg ggaaactgca ggtaaatcgt ccatatatac caacaaaccg taacgacgaa 1980
aaaaagtacc ggaagggaga atccgcaaaa tctttgctct cggacactta aacatttttc 2040
ctgttttaaa tttttcatgg acgaaaaaac atatacagcg gttttcgcca aaaaaaaaat 2100
aaccaatttg ggtagacaag tatgtctaat aaatcttcca tttgaatttt gattt 2155
<210> 115
<211> 148
<212> DNA
<213> 大豆异皮线虫
<400> 115
tcatttcgcc ctattgaacc ggccaacaat tcgtagtaaa ctccggacgg ttccgtcttg 60
aaaagatgag gggtcccatc agaatcgaag cctccgacaa gcattgaaat tccaaaaggc 120
cgacggccag tggtttgagt gtatctct 148
<210> 116
<211> 23
<212> DNA
<213> 酿酒酵母
<400> 116
ttctttgaag tatcaggagg tgg 23
<210> 117
<211> 23
<212> DNA
<213> 酿酒酵母
<400> 117
atgattattg caattccaac agg 23
<210> 118
<211> 23
<212> DNA
<213> 酿酒酵母
<400> 118
gctattttta gtggtatggc agg 23
<210> 119
<211> 24
<212> DNA
<213> 酿酒酵母
<400> 119
accatgtaaa tattgtgaac cagg 24
<210> 120
<211> 4107
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 120
atggataaaa aatattcaat cggtttagat atcggtacaa attcagtagg ttgagctgta 60
atcacagatg aatataaagt accttcaaaa aaatttaaag tattaggtaa tacagataga 120
cattcaatca aaaaaaattt aatcggtgct ttattatttg attcaggtga aacagctgaa 180
gctacaagat taaaaagaac agctagaaga agatatacaa gaagaaaaaa tagaatctgt 240
tatttacaag aaatcttttc aaatgaaatg gctaaagtag atgattcatt tttccataga 300
ttagaagaat catttttagt tgaagaagat aaaaaacatg aaagacatcc tatctttggt 360
aatatcgtag atgaagtagc ttatcatgaa aaatatccta caatctatca tttaagaaaa 420
aaattagtag attcaactga taaagctgat ttaagattaa tctatttagc tttagctcat 480
atgatcaaat ttagaggtca tttcttaatc gaaggtgatt taaatcctga taattcagat 540
gtagataaat tattcatcca attagtacaa acatataatc aattatttga agaaaatcct 600
atcaatgctt caggtgtaga tgctaaagca atcttatcag ctagattatc aaaatcaaga 660
agattagaaa atttaatcgc tcaattacct ggagaaaaaa aaaatggttt atttggtaat 720
ttaatcgcat tatcattagg tttaactcct aatttcaaat caaatttcga tttagctgaa 780
gatgcaaaat tacaattatc taaagataca tatgatgatg atttagataa tttattagct 840
caaatcggtg atcaatatgc tgatttattc ttagctgcta aaaatttatc agatgctatc 900
ttattatcag atatcttaag agtaaataca gaaatcacaa aagcaccttt atcagcttca 960
atgatcaaaa gatatgatga acatcatcaa gatttaacat tattaaaagc tttagtaaga 1020
caacaattac cagaaaaata taaagaaatc ttctttgatc aatcaaaaaa tggttatgct 1080
ggttatatcg atggtggtgc ttctcaagaa gaattctata aattcatcaa acctatctta 1140
gaaaaaatgg atggtacaga agaattatta gtaaaattaa atagagaaga tttattaaga 1200
aaacaaagaa catttgataa tggttcaatc cctcatcaaa tccatttagg tgaattacat 1260
gcaatcttaa gaagacaaga agatttttat cctttcttaa aagataatag agaaaaaatc 1320
gaaaaaatct taacatttag aatcccttat tatgtaggtc ctttagctag aggtaattca 1380
agatttgctt gaatgacaag aaaatcagaa gaaacaatca caccttggaa ttttgaagaa 1440
gtagtagata aaggagcttc agcacaatca tttatcgaaa gaatgacaaa ttttgataaa 1500
aatttaccta atgaaaaagt tttacctaaa cattcattat tatatgaata tttcacagta 1560
tataatgaat taacaaaagt aaaatatgta acagaaggta tgagaaaacc tgctttttta 1620
tcaggtgaac aaaaaaaagc aatcgtagat ttattattta aaacaaatag aaaagtaaca 1680
gtaaaacaat taaaagaaga ttatttcaaa aaaatcgaat gttttgattc agtagaaatc 1740
tctggtgtag aagatagatt taatgcttct ttaggtacat atcatgattt attaaaaatc 1800
atcaaagata aagatttctt agataatgaa gaaaatgaag atatcttaga agatatcgta 1860
ttaacattaa ctttattcga agatagagaa atgatcgaag aaagattaaa aacatatgct 1920
catttatttg atgataaagt aatgaaacaa ttaaaaagaa gaagatatac tggttgaggt 1980
agattatcaa gaaaattaat caatggtatc agagataaac aatctggtaa aacaatctta 2040
gatttcttaa aatcagatgg ttttgctaat agaaatttca tgcaattaat ccatgatgat 2100
agtttaactt ttaaagaaga tatccaaaaa gctcaagtat caggtcaagg tgattcatta 2160
catgaacata tcgctaattt agctggttct cctgctatca aaaaaggtat cttacaaact 2220
gtaaaagttg tagatgaatt agttaaagtt atgggtagac ataaacctga aaatatcgta 2280
atcgaaatgg caagagaaaa tcaaacaaca caaaaaggac aaaaaaattc aagagaaaga 2340
atgaaaagaa tcgaagaagg tatcaaagaa ttaggttcac aaatcttaaa agaacatcct 2400
gtagaaaata cacaattaca aaatgaaaaa ttatatttat attatttaca aaatggtaga 2460
gatatgtatg tagatcaaga attagatatc aatagattat ctgattatga tgtagatcat 2520
atcgtacctc aatcattctt aaaagatgat tcaatcgata ataaagtatt aacaagatca 2580
gataaaaata gaggtaaaag tgataatgta ccttctgaag aagttgtaaa aaaaatgaaa 2640
aattattgaa gacaattatt aaatgctaaa ttaatcacac aaagaaaatt cgataattta 2700
acaaaagctg aaagaggtgg tttatcagaa ttagataaag ctggtttcat caaaagacaa 2760
ttagttgaaa caagacaaat cactaaacat gttgctcaaa tcttagatag tagaatgaat 2820
acaaaatatg atgaaaatga taaattaatc agagaagtaa aagtaatcac attaaaatct 2880
aaattagtat cagattttag aaaagatttt caattctata aagtaagaga aatcaataat 2940
tatcatcatg ctcatgatgc ttatttaaat gctgtagtag gtacagcttt aatcaaaaaa 3000
tatccaaaat tagaatcaga atttgtatat ggagattata aagtatatga tgttagaaaa 3060
atgatcgcta aatcagaaca agaaatcggt aaagctactg ctaaatattt cttttattca 3120
aatatcatga attttttcaa aactgaaatc actttagcta atggtgaaat cagaaaaaga 3180
cctttaatcg aaacaaatgg tgaaactggt gaaatcgtat gagataaagg tagagatttt 3240
gctacagtaa gaaaagtatt atcaatgcct caagtaaata tcgttaaaaa aactgaagta 3300
caaactggtg gtttttctaa agaatcaatc ttaccaaaaa gaaattcaga taaattaatc 3360
gctagaaaaa aagattgaga tccaaaaaaa tatggtggtt tcgattcacc tacagtagca 3420
tattcagtat tagtagtagc aaaagtagaa aaaggtaaat ctaaaaaatt aaaatcagta 3480
aaagaattat taggtatcac aatcatggaa agatcatcat tcgaaaaaaa tccaatcgat 3540
tttttagaag ctaaaggtta taaagaagtt aaaaaagatt taatcatcaa attacctaaa 3600
tatagtttat ttgaattaga aaatggaaga aaaagaatgt tagcatcagc tggtgaatta 3660
caaaaaggta atgaattagc attaccatct aaatatgtta atttcttata tttagcatca 3720
cattatgaaa aattaaaagg ttctcctgaa gataatgaac aaaaacaatt atttgtagaa 3780
caacataaac attatttaga tgaaatcatc gaacaaatct cagaattttc aaaaagagta 3840
atcttagcag atgcaaattt agataaagtt ttatctgctt ataataaaca tagagataaa 3900
cctatcagag aacaagcaga aaatatcatc catttattca cattaacaaa tttaggtgct 3960
cctgctgctt tcaaatattt cgatacaaca atcgatagaa aaagatatac ttcaacaaaa 4020
gaagtattag atgcaacatt aatccatcaa tcaatcacag gtttatatga aactagaatc 4080
gatttatctc aattaggtgg tgattaa 4107
<210> 121
<211> 88
<212> DNA
<213> 酿酒酵母
<400> 121
ctgcaggact agtaaataaa ttttaattaa aagtagtatt aacatattat aaatagacaa 60
aagagtctaa aggttaagat ttattaaa 88
<210> 122
<211> 148
<212> DNA
<213> 酿酒酵母
<400> 122
ttaatattta cttattatta atatttttaa ttattaaaaa taataataat aataataatt 60
ataataatat tcttaaatat aataaagata tagatttata ttctattcaa tcaccttatt 120
ctagaagcgg ccgcaccatg gaaagctt 148
<210> 123
<211> 97
<212> DNA
<213> 酿酒酵母
<400> 123
ttctttgaag tatcaggagg gttttagagc tagaaatagc aagttaaaat aaggctagtc 60
cgttatcaac ttgaaaaagt ggcaccgagt cggtgct 97
<210> 124
<211> 75
<212> DNA
<213> 酿酒酵母
<400> 124
tatatattat gtattattat ataaatatat atatatatta tattataagt aataataagt 60
attatattat atata 75
<210> 125
<211> 75
<212> DNA
<213> 酿酒酵母
<400> 125
gcttttatag cttagtggta aagcgataaa ttgaagattt atttacatgt agttcgattc 60
tcattaaggg caata 75
<210> 126
<211> 76
<212> DNA
<213> 酿酒酵母
<400> 126
aggagattag cttaattggt atagcattcg ttttacacac gaaagattat aggttcgaac 60
cctatatttc ctaaat 76
<210> 127
<211> 118
<212> DNA
<213> 酿酒酵母
<400> 127
ttattaataa ttaacaataa ttaatatatt ataatttata tatatatatt ttatattatt 60
ataataatat tcttacaaat ataattatta tatattattc cttcaaaact cctaacgg 118
<210> 128
<211> 76
<212> DNA
<213> 酿酒酵母
<400> 128
gagcttgtat agtttaattg gttaaaacat ttgtctcata aataaataat gtaaggttca 60
attccttcta caagta 76
<210> 129
<211> 744
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 129
atgacacatt tagaaagaag tagacaaatg tcaaaaggtg aagaattatt cactggagta 60
gtacctatct tagtagaatt agatggtgat gtaaatggtc ataaattctc agtatcaggt 120
gaaggtgaag gtgatgctac atatggtaaa ttaacattaa aattcatctg tacaacaggt 180
aaattacctg taccttgacc tacattagta acaacattcg gatatggagt acaatgtttc 240
gcaagatatc ctgatcatat gaaacaacat gatttcttca aatcagcaat gcctgaaggt 300
tacgtacaag aaagaacaat cttcttcaaa gatgatggta attataaaac aagagctgaa 360
gtaaaattcg aaggtgatac attagtaaat agaatcgagt taaaaggtat cgatttcaaa 420
gaagatggta atatcttagg tcataaatta gaatataatt ataattcaca taatgtatat 480
atcatggctg ataaacaaaa aaatggtatc aaagtaaatt tcaaaatcag acataatatc 540
gaagacggtt cagtacaatt agcagatcat tatcaacaaa atacacctat cggtgatggt 600
cctgtattat tacctgataa tcattactta agtacacaat cagctttatc aaaagatcct 660
aatgaaaaaa gagatcatat ggtattatta gaatttgtaa cagctgctgg tatcacacat 720
ggtatggatg aattatataa ataa 744
<210> 130
<211> 144
<212> DNA
<213> 酿酒酵母
<400> 130
atgagaacaa atggtatgac aatgcataaa ttaccattat ttgtatgatc aattttcatt 60
acagcgttct tattattatt atcattacct gtattatctg ctggtattac aatgttatta 120
ttagatagaa acttcaatac ttca 144
<210> 131
<211> 115
<212> DNA
<213> 酿酒酵母
<400> 131
aattaaaatt ttctcatgat taataaatcc ctttagcaag gataaaaata aaaataaaaa 60
taaaaagttg atcagaaatt atcaaaaaat aaataataat aatataataa aaaca 115
<210> 132
<211> 64
<212> DNA
<213> 酿酒酵母
<400> 132
aatggtacaa agatgattat attcaacaaa tgcaaaagat attgcagtat tatattttat 60
gtta 64
<210> 133
<211> 93
<212> DNA
<213> 酿酒酵母
<400> 133
aattcacaat tatttaatgg tgcgcctctc agtgcgtata tttcgttgat gcgtctagca 60
ttagtattat gaatcatcaa tagatactta aaa 93
<210> 134
<211> 23
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 134
tttttcggag tttctggtgg agg 23
<210> 135
<211> 23
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<220>
<221> 杂项特性
<222> (1)..(16)
<223> n为a、c、g或t
<400> 135
nnnnnnnnnn nnnnnncaac agg 23
<210> 136
<211> 23
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<220>
<221> 杂项特性
<222> (19)..(23)
<223> n为a、c、g或t
<400> 136
gctattttta gtggtatgnn nnn 23
<210> 137
<211> 24
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<220>
<221> 杂项特性
<222> (8)..(24)
<223> n为a、c、g或t
<400> 137
accatgtnnn nnnnnnnnnn nnnn 24
<210> 138
<211> 22
<212> DNA
<213> 酿酒酵母
<400> 138
ctattcaggc acattcagga cc 22
<210> 139
<211> 20
<212> DNA
<213> 酿酒酵母
<400> 139
ttttatcctt gctaaaggga 20
<210> 140
<211> 20
<212> DNA
<213> 酿酒酵母
<400> 140
tttgataatt tctgatcaac 20
<210> 141
<211> 23
<212> DNA
<213> 酿酒酵母
<400> 141
agaggtatac caacacaaga ttc 23
<210> 142
<211> 22
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 142
caggtgaagg tgaaggtgat gc 22
<210> 143
<211> 23
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 143
gatctgctaa ttgtactgaa ccg 23
<210> 144
<211> 1308
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 144
ctattcaggc acattcagga cctagtgtag atttagcaat ttttgcatta catttaacat 60
caatttcatc attattaggt gctattaatt tcattgtaac aacattaaat atgagaacaa 120
atggtatgac aatgcataaa ttaccattat ttgtatgatc aattttcatt acagcgttct 180
tattattatt atcattacct gtattatctg ctggtattac aatgttatta ttagatagaa 240
acttcaatac ttcatttttc ggagtttctg gtggaggtgg tggaatgaca catttagaaa 300
gaagtagaca aatgtcaaaa ggtgaagaat tattcactgg agtagtacct atcttagtag 360
aattagatgg tgatgtaaat ggtcataaat tctcagtatc aggtgaaggt gaaggtgatg 420
ctacatatgg taaattaaca ttaaaattca tctgtacaac aggtaaatta cctgtacctt 480
gacctacatt agtaacaaca ttcggatatg gagtacaatg tttcgcaaga tatcctgatc 540
atatgaaaca acatgatttc ttcaaatcag caatgcctga aggttacgta caagaaagaa 600
caatcttctt caaagatgat ggtaattata aaacaagagc tgaagtaaaa ttcgaaggtg 660
atacattagt aaatagaatc gagttaaaag gtatcgattt caaagaagat ggtaatatct 720
taggtcataa attagaatat aattataatt cacataatgt atatatcatg gctgataaac 780
aaaaaaatgg tatcaaagta aatttcaaaa tcagacataa tatcgaagac ggttcagtac 840
aattagcaga tcattatcaa caaaatacac ctatcggtga tggtcctgta ttattacctg 900
ataatcatta cttaagtaca caatcagctt tatcaaaaga tcctaatgaa aaaagagatc 960
atatggtatt attagaattt gtaacagctg ctggtatcac acatggtatg gatgaattat 1020
ataaataaca acaggaatta aaattttctc atgattaata aatcccttta gcaaggataa 1080
aaataaaaat aaaaataaaa agttgatcag aaattatcaa aaaataaata ataataatat 1140
aataaaaaca tatttaaata ataataatat aattataata aatatatata aaggtaattt 1200
atatgatatt tatccaagat caaatagaaa ttatattcaa ccaaataata ttaataaaga 1260
attagtagta tatggttata atttagaatc ttgtgttggt atacctct 1308
<210> 145
<211> 23
<212> DNA
<213> 莱茵衣藻
<400> 145
ggtttaaacc ctgttactgg tgg 23
<210> 146
<211> 23
<212> DNA
<213> 莱茵衣藻
<400> 146
cttcacctgt aaatggacca cgg 23
<210> 147
<211> 23
<212> DNA
<213> 莱茵衣藻
<400> 147
tttacaggtg aaggtcacgt tgg 23
<210> 148
<211> 23
<212> DNA
<213> 莱茵衣藻
<400> 148
gtagctaaat aagggtatgg agg 23
<210> 149
<211> 4107
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 149
atggacaaaa aatactcaat tggtttagat attggtacaa attcagttgg ttgggctgtt 60
attacagatg aatataaagt tccaagtaaa aaatttaaag ttttaggtaa tacagatcgt 120
cactcaatta agaaaaactt aattggtgct ttattatttg attcaggtga aacagctgaa 180
gctacacgtt taaaacgtac agctcgtcgt cgttatacac gtcgtaaaaa tcgtatttgt 240
tatttacaag aaattttctc aaatgaaatg gctaaagttg atgattcatt ttttcaccgt 300
ttagaagaat catttttagt tgaagaagat aaaaaacacg aacgtcaccc aatttttggt 360
aatattgttg atgaagttgc ttatcacgaa aaatatccaa caatttatca cttacgtaaa 420
aaattagttg attcaactga taaagctgat ttacgtttaa tttatttagc tttagctcac 480
atgattaaat tccgtggtca cttcttaatt gaaggtgatt taaacccaga taattcagat 540
gttgacaaat tattcattca attagttcaa acatataatc aattatttga agaaaatcca 600
attaatgctt caggtgttga tgctaaagca attttatcag ctcgtttatc aaaatcacgt 660
cgtttagaaa acttaattgc tcaattacca ggtgaaaaga aaaatggttt attcggtaac 720
ttaattgcat tatcattagg tttaacacca aatttcaaat caaacttcga tttagctgaa 780
gatgctaaat tacaattatc aaaagataca tacgatgatg atttagataa cttattagca 840
caaattggtg atcaatatgc tgatttattc ttagctgcta aaaacttatc agatgctatt 900
ttattatcag atattttacg tgttaataca gaaattacaa aagctccatt atcagcttca 960
atgattaaac gttatgatga acaccaccaa gatttaacat tattaaaagc tttagttcgt 1020
caacaattac ctgaaaaata caaagaaatt ttcttcgatc aatctaaaaa tggttatgct 1080
ggttatattg atggtggtgc ttcacaagaa gaattctata aattcattaa acctatttta 1140
gaaaaaatgg atggtacaga agaattatta gttaaattaa atcgtgaaga tttattacgt 1200
aaacaacgta catttgataa tggttcaatt cctcaccaaa ttcatttagg tgaattacac 1260
gcaattttac gtcgtcaaga agatttttat ccattcttaa aagataatcg tgaaaaaatt 1320
gaaaaaattt taacatttcg tattccatat tatgtaggtc cattagctcg tggtaattca 1380
cgtttcgctt ggatgacacg taaatctgaa gaaacaatta caccttggaa ttttgaagaa 1440
gttgttgata aaggtgctag tgctcaatca tttattgaac gtatgacaaa tttcgacaaa 1500
aacttaccaa atgaaaaagt tttaccaaaa cactcattat tatatgaata tttcacagtt 1560
tataatgaat taacaaaagt taaatatgtt acagaaggta tgcgtaaacc tgcattttta 1620
agtggtgaac aaaagaaagc tattgttgac ttattattca aaacaaatcg taaagttaca 1680
gttaaacaat taaaagaaga ttactttaag aaaattgaat gttttgattc agtagaaatt 1740
tcaggtgtag aagatcgttt caatgcttca ttaggtacat accacgattt attaaaaatt 1800
attaaagaca aagacttttt agataatgaa gaaaatgaag atattttaga agatattgtt 1860
ttaacattaa cattattcga agatcgtgaa atgattgaag aacgtttaaa aacatatgct 1920
cacttatttg atgataaagt tatgaaacaa ttaaaacgtc gtcgttacac aggttggggt 1980
cgtttatctc gtaaattaat taacggtatt cgtgacaaac aatcaggtaa aacaatttta 2040
gatttcttaa aatcagatgg ttttgctaat cgtaacttta tgcaattaat tcacgatgat 2100
tctttaacat tcaaagaaga tattcaaaaa gctcaagttt caggtcaagg tgattcatta 2160
cacgaacaca ttgctaactt agctggttct ccagctatta aaaaaggtat tttacaaaca 2220
gttaaagttg tagatgaatt agtaaaagta atgggtcgtc acaaaccaga aaacattgtt 2280
attgaaatgg cacgtgaaaa tcaaacaaca caaaaaggtc aaaagaactc acgtgaacgt 2340
atgaaacgta ttgaagaagg tattaaagaa ttaggttcac aaattttaaa agaacaccca 2400
gttgaaaata cacaattaca aaacgaaaaa ttatatttat actatttaca aaatggtcgt 2460
gatatgtatg tagatcaaga attagatatt aaccgtttat cagattatga tgttgatcac 2520
attgttccac aatctttctt aaaagacgat tcaattgata acaaagtttt aacacgttca 2580
gataaaaacc gtggtaaatc agataatgta ccatcagaag aagtagttaa gaaaatgaaa 2640
aactattggc gtcaattatt aaatgcaaaa ttaattacac aacgtaaatt cgataactta 2700
acaaaagctg aacgtggtgg tttatcagaa ttagacaaag ctggtttcat taaacgtcaa 2760
ttagtagaaa cacgtcaaat tactaaacac gttgctcaaa ttttagactc tcgtatgaat 2820
acaaaatatg atgaaaatga taaattaatt cgtgaagtta aagttattac attaaaatca 2880
aaattagtat cagatttccg taaagatttc caattctaca aagttcgtga aattaacaac 2940
tatcaccacg ctcacgatgc ttacttaaat gctgttgttg gtactgcatt aattaaaaaa 3000
tacccaaaat tagaatctga attcgtttat ggtgactata aagtttatga tgtacgtaaa 3060
atgattgcta aatcagaaca agaaattggt aaagctactg ctaaatactt tttctattca 3120
aacattatga atttctttaa aactgaaatt acattagcta acggtgaaat tcgtaaacgt 3180
ccattaattg aaactaatgg tgaaactggt gaaattgtat gggataaagg tcgtgatttc 3240
gctacagttc gtaaagtatt atcaatgcca caagttaata ttgttaaaaa aactgaagtt 3300
caaacaggtg gtttttcaaa agaatctatt ttacctaaac gtaactcaga caaattaatt 3360
gctcgtaaaa aagattggga tcctaaaaaa tatggtggtt tcgattcacc aacagtagct 3420
tattcagtat tagttgtagc taaagtagaa aaaggtaaat ctaaaaaatt aaaatcagta 3480
aaagaattat taggtattac aattatggaa cgttcatcat tcgagaaaaa cccaattgat 3540
ttcttagaag ctaaaggtta taaagaagtt aaaaaagatt taattattaa attaccaaaa 3600
tactctttat ttgaattaga aaacggtcgt aaacgtatgt tagcttctgc tggtgaatta 3660
caaaaaggta atgaattagc attaccatca aaatatgtaa atttcttata cttagcttca 3720
cactacgaaa aattaaaagg ttcaccagaa gataacgaac aaaaacaatt attcgttgaa 3780
caacataaac actatttaga tgaaattatt gaacaaattt cagaattttc aaaacgtgtt 3840
attttagctg atgctaattt agataaagtt ttatctgctt ataacaaaca ccgtgataaa 3900
cctattcgtg aacaagctga aaacattatt cacttattta cattaacaaa tttaggtgct 3960
ccagctgctt tcaaatattt cgatacaaca attgaccgta aacgttacac atcaacaaaa 4020
gaagttttag acgctacatt aattcatcaa tcaattacag gtttatatga aacacgtatt 4080
gatttaagtc aattaggtgg tgattaa 4107
<210> 150
<211> 1368
<212> PRT
<213> 酿脓链球菌
<400> 150
Met Asp Lys Lys Tyr Ser Ile Gly Leu Asp Ile Gly Thr Asn Ser Val
1 5 10 15
Gly Trp Ala Val Ile Thr Asp Glu Tyr Lys Val Pro Ser Lys Lys Phe
20 25 30
Lys Val Leu Gly Asn Thr Asp Arg His Ser Ile Lys Lys Asn Leu Ile
35 40 45
Gly Ala Leu Leu Phe Asp Ser Gly Glu Thr Ala Glu Ala Thr Arg Leu
50 55 60
Lys Arg Thr Ala Arg Arg Arg Tyr Thr Arg Arg Lys Asn Arg Ile Cys
65 70 75 80
Tyr Leu Gln Glu Ile Phe Ser Asn Glu Met Ala Lys Val Asp Asp Ser
85 90 95
Phe Phe His Arg Leu Glu Glu Ser Phe Leu Val Glu Glu Asp Lys Lys
100 105 110
His Glu Arg His Pro Ile Phe Gly Asn Ile Val Asp Glu Val Ala Tyr
115 120 125
His Glu Lys Tyr Pro Thr Ile Tyr His Leu Arg Lys Lys Leu Val Asp
130 135 140
Ser Thr Asp Lys Ala Asp Leu Arg Leu Ile Tyr Leu Ala Leu Ala His
145 150 155 160
Met Ile Lys Phe Arg Gly His Phe Leu Ile Glu Gly Asp Leu Asn Pro
165 170 175
Asp Asn Ser Asp Val Asp Lys Leu Phe Ile Gln Leu Val Gln Thr Tyr
180 185 190
Asn Gln Leu Phe Glu Glu Asn Pro Ile Asn Ala Ser Gly Val Asp Ala
195 200 205
Lys Ala Ile Leu Ser Ala Arg Leu Ser Lys Ser Arg Arg Leu Glu Asn
210 215 220
Leu Ile Ala Gln Leu Pro Gly Glu Lys Lys Asn Gly Leu Phe Gly Asn
225 230 235 240
Leu Ile Ala Leu Ser Leu Gly Leu Thr Pro Asn Phe Lys Ser Asn Phe
245 250 255
Asp Leu Ala Glu Asp Ala Lys Leu Gln Leu Ser Lys Asp Thr Tyr Asp
260 265 270
Asp Asp Leu Asp Asn Leu Leu Ala Gln Ile Gly Asp Gln Tyr Ala Asp
275 280 285
Leu Phe Leu Ala Ala Lys Asn Leu Ser Asp Ala Ile Leu Leu Ser Asp
290 295 300
Ile Leu Arg Val Asn Thr Glu Ile Thr Lys Ala Pro Leu Ser Ala Ser
305 310 315 320
Met Ile Lys Arg Tyr Asp Glu His His Gln Asp Leu Thr Leu Leu Lys
325 330 335
Ala Leu Val Arg Gln Gln Leu Pro Glu Lys Tyr Lys Glu Ile Phe Phe
340 345 350
Asp Gln Ser Lys Asn Gly Tyr Ala Gly Tyr Ile Asp Gly Gly Ala Ser
355 360 365
Gln Glu Glu Phe Tyr Lys Phe Ile Lys Pro Ile Leu Glu Lys Met Asp
370 375 380
Gly Thr Glu Glu Leu Leu Val Lys Leu Asn Arg Glu Asp Leu Leu Arg
385 390 395 400
Lys Gln Arg Thr Phe Asp Asn Gly Ser Ile Pro His Gln Ile His Leu
405 410 415
Gly Glu Leu His Ala Ile Leu Arg Arg Gln Glu Asp Phe Tyr Pro Phe
420 425 430
Leu Lys Asp Asn Arg Glu Lys Ile Glu Lys Ile Leu Thr Phe Arg Ile
435 440 445
Pro Tyr Tyr Val Gly Pro Leu Ala Arg Gly Asn Ser Arg Phe Ala Trp
450 455 460
Met Thr Arg Lys Ser Glu Glu Thr Ile Thr Pro Trp Asn Phe Glu Glu
465 470 475 480
Val Val Asp Lys Gly Ala Ser Ala Gln Ser Phe Ile Glu Arg Met Thr
485 490 495
Asn Phe Asp Lys Asn Leu Pro Asn Glu Lys Val Leu Pro Lys His Ser
500 505 510
Leu Leu Tyr Glu Tyr Phe Thr Val Tyr Asn Glu Leu Thr Lys Val Lys
515 520 525
Tyr Val Thr Glu Gly Met Arg Lys Pro Ala Phe Leu Ser Gly Glu Gln
530 535 540
Lys Lys Ala Ile Val Asp Leu Leu Phe Lys Thr Asn Arg Lys Val Thr
545 550 555 560
Val Lys Gln Leu Lys Glu Asp Tyr Phe Lys Lys Ile Glu Cys Phe Asp
565 570 575
Ser Val Glu Ile Ser Gly Val Glu Asp Arg Phe Asn Ala Ser Leu Gly
580 585 590
Thr Tyr His Asp Leu Leu Lys Ile Ile Lys Asp Lys Asp Phe Leu Asp
595 600 605
Asn Glu Glu Asn Glu Asp Ile Leu Glu Asp Ile Val Leu Thr Leu Thr
610 615 620
Leu Phe Glu Asp Arg Glu Met Ile Glu Glu Arg Leu Lys Thr Tyr Ala
625 630 635 640
His Leu Phe Asp Asp Lys Val Met Lys Gln Leu Lys Arg Arg Arg Tyr
645 650 655
Thr Gly Trp Gly Arg Leu Ser Arg Lys Leu Ile Asn Gly Ile Arg Asp
660 665 670
Lys Gln Ser Gly Lys Thr Ile Leu Asp Phe Leu Lys Ser Asp Gly Phe
675 680 685
Ala Asn Arg Asn Phe Met Gln Leu Ile His Asp Asp Ser Leu Thr Phe
690 695 700
Lys Glu Asp Ile Gln Lys Ala Gln Val Ser Gly Gln Gly Asp Ser Leu
705 710 715 720
His Glu His Ile Ala Asn Leu Ala Gly Ser Pro Ala Ile Lys Lys Gly
725 730 735
Ile Leu Gln Thr Val Lys Val Val Asp Glu Leu Val Lys Val Met Gly
740 745 750
Arg His Lys Pro Glu Asn Ile Val Ile Glu Met Ala Arg Glu Asn Gln
755 760 765
Thr Thr Gln Lys Gly Gln Lys Asn Ser Arg Glu Arg Met Lys Arg Ile
770 775 780
Glu Glu Gly Ile Lys Glu Leu Gly Ser Gln Ile Leu Lys Glu His Pro
785 790 795 800
Val Glu Asn Thr Gln Leu Gln Asn Glu Lys Leu Tyr Leu Tyr Tyr Leu
805 810 815
Gln Asn Gly Arg Asp Met Tyr Val Asp Gln Glu Leu Asp Ile Asn Arg
820 825 830
Leu Ser Asp Tyr Asp Val Asp His Ile Val Pro Gln Ser Phe Leu Lys
835 840 845
Asp Asp Ser Ile Asp Asn Lys Val Leu Thr Arg Ser Asp Lys Asn Arg
850 855 860
Gly Lys Ser Asp Asn Val Pro Ser Glu Glu Val Val Lys Lys Met Lys
865 870 875 880
Asn Tyr Trp Arg Gln Leu Leu Asn Ala Lys Leu Ile Thr Gln Arg Lys
885 890 895
Phe Asp Asn Leu Thr Lys Ala Glu Arg Gly Gly Leu Ser Glu Leu Asp
900 905 910
Lys Ala Gly Phe Ile Lys Arg Gln Leu Val Glu Thr Arg Gln Ile Thr
915 920 925
Lys His Val Ala Gln Ile Leu Asp Ser Arg Met Asn Thr Lys Tyr Asp
930 935 940
Glu Asn Asp Lys Leu Ile Arg Glu Val Lys Val Ile Thr Leu Lys Ser
945 950 955 960
Lys Leu Val Ser Asp Phe Arg Lys Asp Phe Gln Phe Tyr Lys Val Arg
965 970 975
Glu Ile Asn Asn Tyr His His Ala His Asp Ala Tyr Leu Asn Ala Val
980 985 990
Val Gly Thr Ala Leu Ile Lys Lys Tyr Pro Lys Leu Glu Ser Glu Phe
995 1000 1005
Val Tyr Gly Asp Tyr Lys Val Tyr Asp Val Arg Lys Met Ile Ala
1010 1015 1020
Lys Ser Glu Gln Glu Ile Gly Lys Ala Thr Ala Lys Tyr Phe Phe
1025 1030 1035
Tyr Ser Asn Ile Met Asn Phe Phe Lys Thr Glu Ile Thr Leu Ala
1040 1045 1050
Asn Gly Glu Ile Arg Lys Arg Pro Leu Ile Glu Thr Asn Gly Glu
1055 1060 1065
Thr Gly Glu Ile Val Trp Asp Lys Gly Arg Asp Phe Ala Thr Val
1070 1075 1080
Arg Lys Val Leu Ser Met Pro Gln Val Asn Ile Val Lys Lys Thr
1085 1090 1095
Glu Val Gln Thr Gly Gly Phe Ser Lys Glu Ser Ile Leu Pro Lys
1100 1105 1110
Arg Asn Ser Asp Lys Leu Ile Ala Arg Lys Lys Asp Trp Asp Pro
1115 1120 1125
Lys Lys Tyr Gly Gly Phe Asp Ser Pro Thr Val Ala Tyr Ser Val
1130 1135 1140
Leu Val Val Ala Lys Val Glu Lys Gly Lys Ser Lys Lys Leu Lys
1145 1150 1155
Ser Val Lys Glu Leu Leu Gly Ile Thr Ile Met Glu Arg Ser Ser
1160 1165 1170
Phe Glu Lys Asn Pro Ile Asp Phe Leu Glu Ala Lys Gly Tyr Lys
1175 1180 1185
Glu Val Lys Lys Asp Leu Ile Ile Lys Leu Pro Lys Tyr Ser Leu
1190 1195 1200
Phe Glu Leu Glu Asn Gly Arg Lys Arg Met Leu Ala Ser Ala Gly
1205 1210 1215
Glu Leu Gln Lys Gly Asn Glu Leu Ala Leu Pro Ser Lys Tyr Val
1220 1225 1230
Asn Phe Leu Tyr Leu Ala Ser His Tyr Glu Lys Leu Lys Gly Ser
1235 1240 1245
Pro Glu Asp Asn Glu Gln Lys Gln Leu Phe Val Glu Gln His Lys
1250 1255 1260
His Tyr Leu Asp Glu Ile Ile Glu Gln Ile Ser Glu Phe Ser Lys
1265 1270 1275
Arg Val Ile Leu Ala Asp Ala Asn Leu Asp Lys Val Leu Ser Ala
1280 1285 1290
Tyr Asn Lys His Arg Asp Lys Pro Ile Arg Glu Gln Ala Glu Asn
1295 1300 1305
Ile Ile His Leu Phe Thr Leu Thr Asn Leu Gly Ala Pro Ala Ala
1310 1315 1320
Phe Lys Tyr Phe Asp Thr Thr Ile Asp Arg Lys Arg Tyr Thr Ser
1325 1330 1335
Thr Lys Glu Val Leu Asp Ala Thr Leu Ile His Gln Ser Ile Thr
1340 1345 1350
Gly Leu Tyr Glu Thr Arg Ile Asp Leu Ser Gln Leu Gly Gly Asp
1355 1360 1365
<210> 151
<211> 279
<212> DNA
<213> 莱茵衣藻
<400> 151
tcttaattca acatttttaa gtaaatactg tttaatgtta tacttttacg aatacacata 60
tggtaaaaaa taaaacaata tctttaaaat aagtaaaaat aatttgtaaa ccaataaaaa 120
atatatttat ggtataatat aacatatgat gtaaaaaaaa ctatttgtct aatttaataa 180
ccatgcattt tttatgaaca cataataatt aaaagcgttg ctaatggtgt aaataatgta 240
tttattaaat taaataattg ttattataag gagaaatcc 279
<210> 152
<211> 414
<212> DNA
<213> 莱茵衣藻
<400> 152
aaatggatat ttggtacatt taattccaca aaaatgtcca atacttaaaa tacaaaatta 60
aaagtattag ttgtaaactt gactaacatt ttaaatttta aattttttcc taattatata 120
ttttacttgc aaaatttata aaaattttat gcatttttat atcataataa taaaaccttt 180
attcatggtt tataatataa taattgtgat gactatgcac aaagcagttc tagtcccata 240
tatataacta tatataaccc gtttaaagat ttatttaaaa atatgtgtgt aaaaaatgct 300
tatttttaat tttattttat ataagttata atattaaata cacaatgatt aaaattaaat 360
aataataaat ttaacgtaac gatgagttgt ttttttattt tggagataca cgca 414
<210> 153
<211> 258
<212> DNA
<213> 莱茵衣藻
<400> 153
tttttatttt tcatgatgtt tatgtgaata gcataaacat cgtttttatt tttatggtgt 60
ttaggttaaa tacctaaaca tcattttaca tttttaaaat taagttctaa agttatcttt 120
tgtttaaatt tgcctgtctt tataaattac gatgtgccag aaaaataaaa tcttagcttt 180
ttattataga atttatcttt atgtattata ttttataagt tataataaaa gaaatagtaa 240
catactaaag cggatgta 258
<210> 154
<211> 102
<212> DNA
<213> 莱茵衣藻
<400> 154
ttaacccatg attaacaact atatcaataa aatcaatttg tagtgaaata ctctgattga 60
cattaaaata ataccatgat aaaaattata ataacaaatt tt 102
<210> 155
<211> 101
<212> DNA
<213> 莱茵衣藻
<400> 155
tttttcctaa tgtactttgt tgtaaaagtg gctggtttaa cctttttagg tttcggattg 60
aacaataatg gcagttaaga gtcactaaag ctgctgtata g 101
<210> 156
<211> 73
<212> DNA
<213> 莱茵衣藻
<400> 156
acgtccttag ttcagtcggt agaacgcagg tttccaaaac ctgatgtcgt gggttcaatt 60
cctacagggc gtg 73
<210> 157
<211> 72
<212> DNA
<213> 莱茵衣藻
<400> 157
gggttgctaa ctcaatggta gagtactcgg ctcttaaccg ataagttctg ggttcgagtc 60
ccaggtaacc ca 72
<210> 158
<211> 82
<212> DNA
<213> 莱茵衣藻
<400> 158
gccttcgtga tggaactggt agacatcctg gttttaggaa ccagtgctga aaggcgtgcc 60
ggttcaaatc cggccgaagg ca 82
<210> 159
<211> 795
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 159
atggctcgtg aagcggttat cgccgaagta tcaactcaac tatcagaggt agttggcgtc 60
atcgagcgcc atctcgaacc gacgttgctg gccgtacatt tgtacggctc cgcagtggat 120
ggcggcctga agccacacag tgatattgat ttgctggtta cggtgaccgt aaggcttgat 180
gaaacaacgc ggcgagcttt gatcaacgac cttttggaaa cttcggcttc ccctggagag 240
agcgagattc tccgcgctgt agaagtcacc attgttgtgc acgacgacat cattccgtgg 300
cgttatccag ctaagcgcga actgcaattt ggagaatggc agcgcaatga cattcttgca 360
ggtatcttcg agccagccac gatcgacatt gatctggcta tcttgctgac aaaagcaaga 420
gaacatagcg ttgccttggt aggtccagcg gcggaggaac tctttgatcc ggttcctgaa 480
caggatctat ttgaggcgct aaatgaaacc ttaacgctat ggaactcgcc gcccgactgg 540
gctggcgatg agcgaaatgt agtgcttacg ttgtcccgca tttggtacag cgcagtaacc 600
ggcaaaatcg cgccgaagga tgtcgctgcc gactgggcaa tggagcgcct gccggcccag 660
tatcagcccg tcatacttga agctagacag gcttatcttg gacaagaaga agatcgcttg 720
gcctcgcgcg cagatcagtt ggaagaattt gtccactacg tgaaaggcga gatcactaag 780
gtagttggca aataa 795
<210> 160
<211> 189
<212> DNA
<213> 莱茵衣藻
<400> 160
catataccta aaggcccttt ctatgctcga ctgataagac aagtacataa atttgctagt 60
ttacattatt ttttatttct aaatatataa tatatttaaa tgtatttaaa atttttcaac 120
aatttttaaa ttatatttcc ggacagatta ttttaggatc gtcaaaagaa gttacattta 180
tttatataa 189
<210> 161
<211> 400
<212> DNA
<213> 莱茵衣藻
<400> 161
ttttttttta aactaaaata aatctggtta accatacctg gtttatttta gtttatacac 60
acttttcata tatatatact taatagctac cataggcagt tggcaggacg tccccttacg 120
ggacaaatgt atttattgtt gcctgccaac tgcctaatat aaatattagt ggacgtcccc 180
ttccccttac gggcaagtaa acttagggat tttaatgctc cgttaggagg caaataaatt 240
ttagtggcag ttgcctcgcc tatcggctaa caagttcctt cggagtatat aaatatcctg 300
ccaactgccg atatttatat actaggcagt ggcggtacca ctcgactaat atttatattc 360
cgtaagacgt cctccttcgg agtatgtaaa catgctaagt 400
<210> 162
<211> 717
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 162
atggctaaag gtgaagaatt attcacaggt gttgtaccta ttttagtaga attagacggt 60
gatgtaaacg gtcacaaatt ttcagtttct ggtgaaggtg aaggtgacgc aacttatggt 120
aaattaacac ttaaattcat ttgtactaca ggtaaattac cagtaccttg gccatcatta 180
gttacaactt ttacatacgg tgtacaatgt ttcagtcgtt accctgatca catgaaacaa 240
catgactttt tcaaatctgc tatgccagaa ggttatgttc aagaacgtac tatttttttc 300
aaagatgacg gtaattataa aacacgtgct gaagtaaaat ttgaaggtga tactttagtt 360
aaccgtattg aattaaaagg tattgacttc aaagaagatg gtaatatttt aggtcacaaa 420
cttgaatata actacaattc acataacgta tatattatgg cagacaaaca aaaaaatggt 480
attaaagtaa actttaaaat tcgtcataat atcgaggatg gttctgtaca attagctgac 540
cactatcaac aaaacacacc aattggtgat ggtcctgttt tacttccaga caatcattat 600
ttaagtactc aatctgcttt atcaaaagat cctaacgaaa aacgtgacca catggtatta 660
cttgaatttg ttacagcagc tggtattact cacggtatgg atgaattata caaataa 717
<210> 163
<211> 74
<212> DNA
<213> 莱茵衣藻
<400> 163
gctcctttct ttactttaaa ctggagtgaa tacagtgatt tcttaacatt taaaggtggt 60
ttaaaccctg ttac 74
<210> 164
<211> 76
<212> DNA
<213> 莱茵衣藻
<400> 164
tccatttaca ggtgaaggtc acgttggttt atatgaaatt ttaacaactt cttggcatgc 60
acaattagct attaac 76
<210> 165
<211> 76
<212> DNA
<213> 莱茵衣藻
<400> 165
gtactaactg gggtattggt cacagtatga aagaaatttt agaagctcac cgtggtccat 60
ttacaggtga aggtca 76
<210> 166
<211> 76
<212> DNA
<213> 莱茵衣藻
<400> 166
tacccttatt tagctactga ttacggtaca caattatcat tatttacaca ccacacatgg 60
attggtggtt tctgta 76
<210> 167
<211> 21
<212> DNA
<213> 莱茵衣藻
<400> 167
gctggttggt tccactacca c 21
<210> 168
<211> 27
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 168
caccttcaaa ttttacttca gcacgtg 27
<210> 169
<211> 25
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 169
catacggtgt acaatgtttc agtcg 25
<210> 170
<211> 26
<212> DNA
<213> 莱茵衣藻
<400> 170
gtgagaaata atagcatcac ggtgac 26
<210> 171
<211> 1408
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 171
gctggttggt tccactacca caaagctgct ccaaaactag aatggttcca aaacgttgaa 60
tcaatgttaa accaccactt aggtggtctt cttggtttag gtagtttagc ttgggctggt 120
caccaaattc acgtttcttt accagtaaac aaattattag atgctggtgt agatccaaaa 180
gaaattccac ttcctcatga tttattatta aatcgtgcta ttatggctga cttataccca 240
agttttgcta aaggtattgc tcctttcttt actttaaact ggagtgaata cagtgatttc 300
ttaacattta aaggtggttt aaaccctgtt acattatcag gttctgctgg ttcagcagct 360
ggtatggcta aaggtgaaga attattcaca ggtgttgtac ctattttagt agaattagac 420
ggtgatgtaa acggtcacaa attttcagtt tctggtgaag gtgaaggtga cgcaacttat 480
ggtaaattaa cacttaaatt catttgtact acaggtaaat taccagtacc ttggccatca 540
ttagttacaa cttttacata cggtgtacaa tgtttcagtc gttaccctga tcacatgaaa 600
caacatgact ttttcaaatc tgctatgcca gaaggttatg ttcaagaacg tactattttt 660
ttcaaagatg acggtaatta taaaacacgt gctgaagtaa aatttgaagg tgatacttta 720
gttaaccgta ttgaattaaa aggtattgac ttcaaagaag atggtaatat tttaggtcac 780
aaacttgaat ataactacaa ttcacataac gtatatatta tggcagacaa acaaaaaaat 840
ggtattaaag taaactttaa aattcgtcat aatatcgagg atggttctgt acaattagct 900
gaccactatc aacaaaacac accaattggt gatggtcctg ttttacttcc agacaatcat 960
tatttaagta ctcaatctgc tttatcaaaa gatcctaacg aaaaacgtga ccacatggta 1020
ttacttgaat ttgttacagc agctggtatt actcacggta tggatgaatt atacaaataa 1080
tccatttaca ggtgaaggtc acgttggttt atatgaaatt ttaacaactt cttggcatgc 1140
acaattagct attaacttag ctttatttgg ttcgttatca attattgtag ctcaccacat 1200
gtacgcaatg cctccatacc cttatttagc tactgattac ggtacacaat tatcattatt 1260
tacacaccac acatggattg gtggtttctg tattgttggt gctggtgctc acgcagctat 1320
tttcatggtt cgtgactacg atcctactaa taactacaac aacttattag accgtgtaat 1380
tcgtcaccgt gatgctatta tttctcac 1408
<210> 172
<211> 16
<212> PRT
<213> 黑腹果蝇
<400> 172
Arg Gln Ile Lys Ile Trp Phe Gln Asn Arg Arg Met Lys Trp Lys Lys
1 5 10 15

Claims (47)

1.一种用于改变细胞器的基因组的方法,所述方法包括:
a.将包含以下项的重组DNA构建体引入细胞器中:
i.编码至少一个指导RNA的第一多核苷酸,其中所述至少一个指导RNA引导多核苷酸指导的多肽切割细胞器基因组中存在的至少一个靶序列;
ii.编码多核苷酸指导的多肽的第二多核苷酸,其中所述多核苷酸指导的多肽在与所述指导RNA相关联时切割所述至少一个靶序列;
iii.任选地,编码至少一个同源细胞器DNA序列的第三多核苷酸,其中所述至少一个同源细胞器DNA具有足以进行同源重组的大小,其中将所述至少一个同源细胞器DNA序列整合到所述细胞器基因组中导致所述至少一个靶序列的去除;
iv.任选地,编码至少一个选择标记或至少一个筛选标记或两者的第四多核苷酸;其中所述第四多核苷酸可操作地连接至在所述细胞器中具有功能的启动子;和
v.任选地,编码在所述细胞器中具有功能的复制起点的第五多核苷酸;以及
b.在(i)的所述第一多核苷酸和(ii)的所述第二多核苷酸均表达的条件下使包含(a)的所述细胞器的细胞生长。
2.根据权利要求1所述的方法,其中所述方法进一步包括:(c)选择具有包含改变的基因组的细胞器的细胞。
3.根据权利要求2所述的方法,其中所述方法进一步包括:(d)选择对于所述细胞器的所述改变的基因组是同质的细胞。
4.根据权利要求3所述的方法,其中所述细胞器是质体。
5.根据权利要求3所述的方法,其中所述细胞器是线粒体。
6.根据权利要求1-5中任一项所述的方法,其包括(iii)的所述第三多核苷酸,其中(iii)的所述第三多核苷酸包含第六多核苷酸和第七多核苷酸,其中所述第六多核苷酸和所述第七多核苷酸对应于所述细胞器基因组中两个同源的相邻区域,其中所述第六多核苷酸和所述第七多核苷酸被与所述细胞器DNA异源的序列隔开。
7.根据权利要求6所述的方法,其中与所述细胞器DNA异源的所述序列包含选自以下的至少一项:所述第一多核苷酸、所述第二多核苷酸、所述第四多核苷酸、第八多核苷酸及其任何组合,其中所述第八多核苷酸编码与所述细胞器异源的RNA。
8.根据权利要求1-7中任一项所述的方法,其中所述至少一个指导RNA存在于多顺反子转录单元上。
9.根据权利要求8所述的方法,其中在所述多顺反子转录单元的转录之后,通过使用选自以下的至少一项从多顺反子RNA加工出所述至少一个指导RNA:RNA切割位点、Csy4切割位点、核酶切割位点、多核苷酸指导的多肽切割位点、tRNA序列的存在及其任何组合。
10.根据权利要求9所述的方法,其中所述多顺反子RNA包含在所述至少一个指导RNA的5’的第一tRNA序列和在所述至少一个指导RNA的3’的第二tRNA序列。
11.根据权利要求7-10中任一项所述的方法,其包括所述第八多核苷酸,其中所述第八多核苷酸编码选自以下的至少一项:除草剂耐受性蛋白、杀虫蛋白、与杀虫蛋白结合的辅助蛋白、dsRNA、siRNA、miRNA及其任何组合,其中所述dsRNA、所述siRNA和所述miRNA抑制植物害虫中存在的至少一个靶基因。
12.根据权利要求7-11中任一项所述的方法,其包括所述第八多核苷酸,其中所述第八多核苷酸可操作地连接至在细胞器中有活性的至少一个调控元件。
13.根据权利要求6-12中任一项所述的方法,其中选自以下的至少一项:所述第一多核苷酸、所述第二多核苷酸、所述第四多核苷酸、所述第五多核苷酸及其任何组合,位于以所述第六多核苷酸和所述第七多核苷酸为边界的区域之外。
14.根据权利要求13所述的方法,其包括所述第四多核苷酸和所述第五多核苷酸,其中所述第四多核苷酸和所述第五多核苷酸均位于以所述第六多核苷酸和所述第七多核苷酸为边界的区域之外。
15.根据权利要求1-14中任一项所述的方法,其包括所述第四多核苷酸,其中所述第四多核苷酸包含编码正选择标记的第一序列和编码负选择标记的第二序列,其中所述第一序列和所述第二序列各自可操作地连接至在所述细胞器中具有功能的启动子。
16.根据权利要求1-15中任一项所述的方法,其包括所述第五多核苷酸,其中所述第五多核苷酸编码在质体中具有功能的复制起点,其中在质体中具有功能的所述复制起点对应于来自质体rRNA基因间区域的DNA序列。
17.根据权利要求1-15中任一项所述的方法,其包括所述第五多核苷酸,其中所述第五多核苷酸编码在线粒体中具有功能的复制起点。
18.根据权利要求1-17中任一项所述的方法,其中所述多核苷酸指导的多肽选自:Cas9蛋白、MAD2蛋白、MAD7蛋白、CRISPR核酸酶、Cas蛋白的核酸酶结构域、Cpf1蛋白、Argonaute、其修饰形式及其任何组合。
19.根据权利要求1-18中任一项所述的方法,其中所述重组DNA构建体进一步包含彼此有至少100个核苷酸具有100%序列同一性的第九多核苷酸和第十多核苷酸,其中所述第九多核苷酸和所述第十多核苷酸作为直接重复序列排列在所述重组DNA构建体中。
20.根据权利要求19所述的方法,其中所述重组DNA构建体是线性的,并且进一步地,其中所述第九多核苷酸和所述第十多核苷酸存在于所述重组DNA构建体的5’和3’端。
21.根据权利要求1-20中任一项所述的方法,其中所述方法进一步包括将编码至少一个选择标记的多核苷酸引入所述细胞器中,所述至少一个选择标记选自:正选择标记、负选择标记及其任何组合。
22.根据权利要求21所述的方法,其中所述方法进一步涉及在正选择剂的存在下使所述细胞生长,并选择对于所述细胞器的所述改变的基因组是同质的细胞。
23.根据权利要求22所述的方法,其中所述方法进一步涉及在不存在所述正选择剂的情况下使所述细胞生长,然后选择缺乏非整合的重组DNA构建体的细胞。
24.根据权利要求22所述的方法,其中所述方法进一步涉及在不存在所述正选择剂的情况下使所述细胞生长,然后在负选择剂的存在下使所述细胞生长,然后选择缺乏非整合的重组DNA构建体的细胞。
25.根据权利要求1-24中任一项所述的方法,其中所述细胞是植物细胞,其中所述细胞器是质体或线粒体,并且其中所述方法进一步包括从包含改变的细胞器基因组的所述植物细胞再生植物。
26.根据权利要求1-24中任一项所述的方法,其中所述细胞是酵母细胞或藻类细胞。
27.根据权利要求6-26中任一项所述的方法,其中所述细胞器的基因组的改变包括表达盒的插入。
28.根据权利要求27所述的方法,其中所述表达盒是多顺反子表达盒。
29.根据权利要求28所述的方法,其中所述多顺反子表达盒编码选择标记或筛选标记或两者。
30.根据权利要求1-29中任一项所述的方法产生的细胞,其中所述细胞选自:酵母细胞、藻类细胞、植物细胞、昆虫细胞、非人类动物细胞、分离和纯化的人类细胞,以及哺乳动物组织培养物细胞。
31.根据权利要求1-29中任一项所述的方法产生的植物、种子、根、茎、叶、花、果实或豆,其中所述植物、种子、根、茎、叶、花、果实或豆包含具有改变的基因组的细胞器。
32.一种重组DNA构建体,其包含以下项:
i.编码至少一个指导RNA的第一多核苷酸,其中所述至少一个指导RNA引导多核苷酸指导的多肽切割细胞器基因组中存在的至少一个靶序列;
ii.编码多核苷酸指导的多肽的第二多核苷酸,其中所述多核苷酸指导的多肽在与所述指导RNA相关联时切割所述至少一个靶序列;
iii.第三多核苷酸,其包含第六多核苷酸和第七多核苷酸,其中所述第六多核苷酸和所述第七多核苷酸对应于所述细胞器基因组中两个同源的相邻区域,其中所述第六多核苷酸和所述第七多核苷酸被与细胞器DNA异源的序列隔开,其中与所述细胞器DNA异源的所述序列包含选自以下的至少一项:所述第一多核苷酸、所述第二多核苷酸、第四多核苷酸、第八多核苷酸及其任何组合,其中所述第八多核苷酸编码与所述细胞器异源的RNA;
iv.任选地,编码至少一个选择标记或至少一个筛选标记或两者的第四多核苷酸;其中所述第四多核苷酸可操作地连接至在所述细胞器中具有功能的启动子;以及
v.任选地,编码在所述细胞器中具有功能的复制起点的第五多核苷酸。
33.酵母细胞、藻类细胞、植物细胞、植物、种子、根、茎、叶、花、果实或豆,其包含根据权利要求32所述的重组DNA构建体。
34.一种用于改变细胞器的基因组的方法,所述方法包括:
a.向细胞中引入:
i.编码RNA序列的多核苷酸,所述RNA序列包含可操作地连接至指导多核酸的靶向细胞器的RNA,其中所述指导多核酸引导多核苷酸指导的多肽切割细胞器基因组中存在的靶序列,其中所述多核苷酸可操作地连接至至少一个调控元件;以及以下两项之一
ii.编码修饰的多核苷酸指导的多肽的第二多核苷酸,
其中所述第二多核苷酸可操作地连接至至少一个调控元件,并且其中所述修饰的多核苷酸指导的多肽包含可操作地连接至靶向细胞器的肽的多核苷酸指导的多肽;其中(i)的所述靶向细胞器的RNA和(ii)的所述靶向细胞器的肽均靶向同一细胞器;或者
iii.第三多核苷酸,其中所述第三多核苷酸可操作地连接至至少一个调控元件,其中所述第三多核苷酸编码RNA分子,所述RNA分子包含可操作地连接至编码多核苷酸指导的多肽的RNA序列的靶向细胞器的RNA;其中(i)的所述靶向细胞器的RNA和(iii)的所述靶向细胞器的RNA均靶向同一细胞器;以及
b.在(i)的所述多核苷酸和(ii)的所述第二多核苷酸或(iii)的所述第三多核苷酸都表达的条件下使所述细胞生长。
35.根据权利要求34所述的方法,其进一步包括将包含至少一个供体多核苷酸的多核苷酸引入所述细胞器中,其中所述至少一个供体多核苷酸包含相对于所述细胞器基因组的至少一个同源序列,其中将所述至少一个供体多核苷酸的全部或部分整合到所述细胞器基因组中导致所述指导多核酸的靶位点的去除。
36.根据权利要求35所述的方法,其中所述至少一个供体多核苷酸包含与所述细胞器基因组异源的第一核酸序列,其中所述第一核酸序列以第二核酸序列和第三核酸序列为边界,其中所述第二核酸序列和所述第三核酸序列对应于所述细胞器基因组中两个同源的相邻区域。
37.根据权利要求36所述的方法,其中所述第二核酸序列或所述第三核酸序列或两者包含至少一个改变的序列,其中所述至少一个改变的序列相对于所述细胞器基因组中的至少一个另外的靶位点被改变,其中所述至少一个改变的序列不被至少一个另外的指导多核酸识别,其中所述至少一个另外的指导多核酸引导多核苷酸指导的多肽切割所述细胞器基因组中的所述至少一个另外的靶位点。
38.根据权利要求37所述的方法,其中所述细胞器基因组中的所述至少一个另外的靶位点存在于至少一个必需编码区中。
39.根据权利要求37或38所述的方法,其中引入所述细胞器中的所述多核苷酸进一步包含第四核酸序列,其中所述第四核酸序列编码至少一个另外的指导RNA,所述至少一个另外的指导RNA可操作地连接至在所述细胞器中有活性的启动子。
40.根据权利要求34-39中任一项所述的方法产生的细胞,其中所述细胞选自:酵母细胞、藻类细胞、植物细胞、昆虫细胞、非人类动物细胞、分离和纯化的人类细胞,以及哺乳动物组织培养物细胞。
41.根据权利要求34-39中任一项所述的方法产生的植物、种子、根、茎、叶、花、果实或豆,其中所述植物、种子、根、茎、叶、花、果实或豆包含具有改变的基因组的细胞器。
42.一种用于改变细胞器的基因组的方法,所述方法包括:
(a)向细胞的细胞器中引入:
(i)至少一个指导RNA,其中所述至少一个指导RNA引导多核苷酸指导的多肽切割所述细胞器基因组中存在的至少一个靶序列;
(ii)多核苷酸指导的多肽,其中所述多核苷酸指导的多肽在与所述至少一个指导RNA相关联时切割所述至少一个靶序列;和
(iii)替代DNA;以及
(b)选择包含含有所述替代DNA的细胞器的细胞。
43.根据权利要求42所述的方法,其中步骤(a)部分(iii)的所述替代DNA包含来自栽培种、品系、亚种和其他物种并且不同于步骤(a)的所述细胞器基因组的细胞器DNA片段或完整细胞器DNA。
44.根据权利要求42或43所述的方法,其中所述至少一个靶序列不存在于所述替代DNA中。
45.根据权利要求42-44中任一项所述的方法,其中在步骤(a)部分(ii)之后并在步骤(a)部分(iii)之前,选择其中所述细胞器基因组已被消除的细胞。
46.根据权利要求42-45中任一项所述的方法产生的细胞,其中所述细胞选自:酵母细胞、藻类细胞、植物细胞、昆虫细胞、非人类动物细胞、分离和纯化的人类细胞,以及哺乳动物组织培养物细胞。
47.根据权利要求42-45中任一项所述的方法产生的植物、种子、根、茎、叶、花、果实或豆,其中所述植物、种子、根、茎、叶、花、果实或豆包含具有改变的基因组的细胞器。
CN201880068886.XA 2017-08-22 2018-08-22 使用多核苷酸指导的核酸内切酶的细胞器基因组修饰 Pending CN111263810A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201762548723P 2017-08-22 2017-08-22
US62/548,723 2017-08-22
PCT/US2018/047566 WO2019040645A1 (en) 2017-08-22 2018-08-22 MODIFICATION OF THE GENOME OF ORGANITIES USING A POLYNUCLEOTIDE GUIDED ENDONUCLEASE

Publications (1)

Publication Number Publication Date
CN111263810A true CN111263810A (zh) 2020-06-09

Family

ID=65439239

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880068886.XA Pending CN111263810A (zh) 2017-08-22 2018-08-22 使用多核苷酸指导的核酸内切酶的细胞器基因组修饰

Country Status (7)

Country Link
US (4) US20210054404A1 (zh)
EP (1) EP3673054A4 (zh)
CN (1) CN111263810A (zh)
AU (1) AU2018320864B2 (zh)
CA (1) CA3073662A1 (zh)
RU (1) RU2020111575A (zh)
WO (1) WO2019040645A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110592265A (zh) * 2019-10-29 2019-12-20 江西省农业科学院蔬菜花卉研究所 一种用于茄属植物快速鉴定的dna条形码及方法
CN113801955A (zh) * 2021-09-15 2021-12-17 湖北省农业科学院粮食作物研究所 检测甘薯单倍型的成套引物在甘薯母系溯源和品种鉴定中的应用

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111263810A (zh) 2017-08-22 2020-06-09 纳匹基因公司 使用多核苷酸指导的核酸内切酶的细胞器基因组修饰
GB2568255A (en) * 2017-11-08 2019-05-15 Evox Therapeutics Ltd Exosomes comprising RNA therapeutics
CN112654710A (zh) 2018-05-16 2021-04-13 辛瑟高公司 用于指导rna设计和使用的方法和系统
US20200017865A1 (en) * 2018-05-18 2020-01-16 The Regents Of The University Of California Methods for mitochondria and organelle genome editing
US20220251566A1 (en) * 2019-06-26 2022-08-11 The Research Foundation For The State University Of New York Cells engineered for oligonucleotide delivery, and methods for making and using thereof
WO2021003410A1 (en) * 2019-07-03 2021-01-07 Napigen, Inc. Organelle genome modification
WO2021081367A1 (en) * 2019-10-23 2021-04-29 Pairwise Plants Services, Inc. Compositions and methods for rna-templated editing in plants
CN114901302A (zh) 2019-11-05 2022-08-12 成对植物服务股份有限公司 Rna编码的dna置换等位基因的组合物和方法
CN112779266A (zh) * 2019-11-06 2021-05-11 青岛清原化合物有限公司 在生物体内创制新基因的方法及应用
BR112022016917A2 (pt) * 2020-02-24 2022-10-25 Pioneer Hi Bred Int Recombinação homóloga intragenômica
US11326177B2 (en) * 2020-07-31 2022-05-10 Inari Agriculture Technology, Inc. INIR12 transgenic maize
US11369073B2 (en) * 2020-07-31 2022-06-28 Inari Agriculture Technology, Inc. INIR12 transgenic maize
US20240011042A1 (en) 2020-07-31 2024-01-11 Inari Agriculture Technology, Inc. Excisable plant transgenic loci with signature protospacer adjacent motifs or signature guide rna recognition sites
US11214811B1 (en) 2020-07-31 2022-01-04 Inari Agriculture Technology, Inc. INIR6 transgenic maize
US11242534B1 (en) 2020-07-31 2022-02-08 Inari Agriculture Technology, Inc. INHT31 transgenic soybean
EP4388113A1 (en) * 2021-08-17 2024-06-26 Monsanto Technology LLC Methods for modifying plastid genomes
WO2023107902A1 (en) 2021-12-06 2023-06-15 Napigen, Inc. Phosphite dehydrogenase as a selectable marker for mitochondrial transformation
WO2023249934A1 (en) * 2022-06-20 2023-12-28 The Board Of Trustees Of The Leland Stanford Junior University Methods of genetically modifying cells for altered codon-anti-codon interactions
WO2024091540A1 (en) * 2022-10-26 2024-05-02 Biodrive, Inc. Methods for suppression of gene silencing in plants

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8697359B1 (en) * 2012-12-12 2014-04-15 The Broad Institute, Inc. CRISPR-Cas systems and methods for altering expression of gene products
CN104080462A (zh) * 2011-12-16 2014-10-01 塔尔盖特基因生物技术有限公司 用于修饰预定的靶核酸序列的组合物和方法
CN104854241A (zh) * 2012-05-25 2015-08-19 埃玛纽埃尔·沙尔庞捷 用于rna定向的靶dna修饰和用于rna定向的转录调节的方法和组合物
CN105602935A (zh) * 2014-10-20 2016-05-25 聂凌云 一种新型线粒体基因组编辑工具
CN105602993A (zh) * 2016-01-19 2016-05-25 上海赛墨生物技术有限公司 线粒体靶向的基因编辑系统及方法
CN106520830A (zh) * 2016-11-16 2017-03-22 福建师范大学 利用CRISPR/Cas9对线粒体基因组进行靶向编辑的方法
WO2017136520A1 (en) * 2016-02-04 2017-08-10 President And Fellows Of Harvard College Mitochondrial genome editing and regulation

Family Cites Families (115)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5094945A (en) 1983-01-05 1992-03-10 Calgene, Inc. Inhibition resistant 5-enolpyruvyl-3-phosphoshikimate synthase, production and use
US5352605A (en) 1983-01-17 1994-10-04 Monsanto Company Chimeric genes for transforming plant cells using viral promoters
US4761373A (en) 1984-03-06 1988-08-02 Molecular Genetics, Inc. Herbicide resistance in plants
US4810648A (en) 1986-01-08 1989-03-07 Rhone Poulenc Agrochimie Haloarylnitrile degrading gene, its use, and cells containing the gene
AU611080B2 (en) 1986-01-08 1991-06-06 Rhone-Poulenc Agrochimie Haloarylnitrile degrading gene, its use, and cells containing the same
ES2018274T5 (es) 1986-03-11 1996-12-16 Plant Genetic Systems Nv Celulas vegetales resistentes a los inhibidores de glutamina sintetasa, preparadas por ingenieria genetica.
US5637489A (en) 1986-08-23 1997-06-10 Hoechst Aktiengesellschaft Phosphinothricin-resistance gene, and its use
US5276268A (en) 1986-08-23 1994-01-04 Hoechst Aktiengesellschaft Phosphinothricin-resistance gene, and its use
US5273894A (en) 1986-08-23 1993-12-28 Hoechst Aktiengesellschaft Phosphinothricin-resistance gene, and its use
US5013659A (en) 1987-07-27 1991-05-07 E. I. Du Pont De Nemours And Company Nucleic acid fragment encoding herbicide resistant plant acetolactate synthase
US5378824A (en) 1986-08-26 1995-01-03 E. I. Du Pont De Nemours And Company Nucleic acid fragment encoding herbicide resistant plant acetolactate synthase
US5605011A (en) 1986-08-26 1997-02-25 E. I. Du Pont De Nemours And Company Nucleic acid fragment encoding herbicide resistant plant acetolactate synthase
US5015580A (en) 1987-07-29 1991-05-14 Agracetus Particle-mediated transformation of soybean plants and lines
EP0270496B1 (de) 1986-12-05 1993-03-17 Ciba-Geigy Ag Verbessertes Verfahren zur Transformation von pflanzlichen Protoplasten
US5322938A (en) 1987-01-13 1994-06-21 Monsanto Company DNA sequence for enhancing the efficiency of transcription
US5359142A (en) 1987-01-13 1994-10-25 Monsanto Company Method for enhanced expression of a protein
US5416011A (en) 1988-07-22 1995-05-16 Monsanto Company Method for soybean transformation and regeneration
US5106739A (en) 1989-04-18 1992-04-21 Calgene, Inc. CaMv 355 enhanced mannopine synthase promoter and method for using same
US5217902A (en) 1989-05-26 1993-06-08 Dna Plant Technology Corporation Method of introducing spectinomycin resistance into plants
US5302523A (en) 1989-06-21 1994-04-12 Zeneca Limited Transformation of plant cells
US5550318A (en) 1990-04-17 1996-08-27 Dekalb Genetics Corporation Methods and compositions for the production of stably transformed, fertile monocot plants and cells thereof
US7705215B1 (en) 1990-04-17 2010-04-27 Dekalb Genetics Corporation Methods and compositions for the production of stably transformed, fertile monocot plants and cells thereof
US6051753A (en) 1989-09-07 2000-04-18 Calgene, Inc. Figwort mosaic virus promoter and uses
ES2150900T3 (es) 1989-10-31 2000-12-16 Monsanto Co Promotor para plantas transgenicas.
US5641876A (en) 1990-01-05 1997-06-24 Cornell Research Foundation, Inc. Rice actin gene and promoter
US5484956A (en) 1990-01-22 1996-01-16 Dekalb Genetics Corporation Fertile transgenic Zea mays plant comprising heterologous DNA encoding Bacillus thuringiensis endotoxin
CA2074355C (en) 1990-01-22 2008-10-28 Ronald C. Lundquist Method of producing fertile transgenic corn plants
US5837848A (en) 1990-03-16 1998-11-17 Zeneca Limited Root-specific promoter
ES2173077T3 (es) 1990-06-25 2002-10-16 Monsanto Technology Llc Plantas que toleran glifosato.
US6403865B1 (en) 1990-08-24 2002-06-11 Syngenta Investment Corp. Method of producing transgenic maize using direct transformation of commercially important genotypes
US5633435A (en) 1990-08-31 1997-05-27 Monsanto Company Glyphosate-tolerant 5-enolpyruvylshikimate-3-phosphate synthases
US5384253A (en) 1990-12-28 1995-01-24 Dekalb Genetics Corporation Genetic transformation of maize cells by electroporation of cells pretreated with pectin degrading enzymes
US5767366A (en) 1991-02-19 1998-06-16 Louisiana State University Board Of Supervisors, A Governing Body Of Louisiana State University Agricultural And Mechanical College Mutant acetolactate synthase gene from Ararbidopsis thaliana for conferring imidazolinone resistance to crop plants
WO1994000977A1 (en) 1992-07-07 1994-01-20 Japan Tobacco Inc. Method of transforming monocotyledon
US6414222B1 (en) 1993-02-05 2002-07-02 Regents Of The University Of Minnesota Gene combinations for herbicide tolerance in corn
US5635055A (en) 1994-07-19 1997-06-03 Exxon Research & Engineering Company Membrane process for increasing conversion of catalytic cracking or thermal cracking units (law011)
US5633437A (en) 1994-10-11 1997-05-27 Sandoz Ltd. Gene exhibiting resistance to acetolactate synthase inhibitor herbicides
US5850019A (en) 1996-08-06 1998-12-15 University Of Kentucky Research Foundation Promoter (FLt) for the full-length transcript of peanut chlorotic streak caulimovirus (PCLSV) and expression of chimeric genes in plants
WO1998010080A1 (en) 1996-09-05 1998-03-12 Unilever N.V. Salt-inducible promoter derivable from a lactic acid bacterium, and its use in a lactic acid bacterium for production of a desired protein
BR9807488A (pt) 1997-01-20 2000-03-21 Plant Genetic Systems Nv Promotores de planta induzidos por agentes patogênicos.
US5981840A (en) 1997-01-24 1999-11-09 Pioneer Hi-Bred International, Inc. Methods for agrobacterium-mediated transformation
US5922564A (en) 1997-02-24 1999-07-13 Performance Plants, Inc. Phosphate-deficiency inducible promoter
US6040497A (en) 1997-04-03 2000-03-21 Dekalb Genetics Corporation Glyphosate resistant maize lines
US7105724B2 (en) 1997-04-04 2006-09-12 Board Of Regents Of University Of Nebraska Methods and materials for making and using transgenic dicamba-degrading organisms
IL122270A0 (en) 1997-11-20 1998-04-05 Yeda Res & Dev DNA molecules conferring to plants resistance to a herbicide and plants transformed thereby
ATE342985T1 (de) 1998-02-26 2006-11-15 Pioneer Hi Bred Int Mais alpha-tubulin 3-18 promoter
WO1999043819A1 (en) 1998-02-26 1999-09-02 Pioneer Hi-Bred International, Inc. Family of maize pr-1 genes and promoters
US6635806B1 (en) 1998-05-14 2003-10-21 Dekalb Genetics Corporation Methods and compositions for expression of transgenes in plants
US6307123B1 (en) 1998-05-18 2001-10-23 Dekalb Genetics Corporation Methods and compositions for transgene identification
JP2000083680A (ja) 1998-07-16 2000-03-28 Nippon Paper Industries Co Ltd 光誘導型プロモ―タ―の制御下に置かれた不定芽再分化遺伝子を選抜マ―カ―遺伝子とする植物への遺伝子導入方法及びこれに用いる植物への遺伝子導入用ベクタ―
US6121513A (en) 1998-07-20 2000-09-19 Mendel Biotechnology, Inc. Sulfonamide resistance in plants
US6534261B1 (en) 1999-01-12 2003-03-18 Sangamo Biosciences, Inc. Regulation of endogenous gene expression in cells using zinc finger proteins
EP1141346A2 (en) 1999-01-14 2001-10-10 Monsanto Co. Soybean transformation method
US6232526B1 (en) 1999-05-14 2001-05-15 Dekalb Genetics Corp. Maize A3 promoter and methods for use thereof
US6207879B1 (en) 1999-05-14 2001-03-27 Dekalb Genetics Corporation Maize RS81 promoter and methods for use thereof
US6194636B1 (en) 1999-05-14 2001-02-27 Dekalb Genetics Corp. Maize RS324 promoter and methods for use thereof
US6429357B1 (en) 1999-05-14 2002-08-06 Dekalb Genetics Corp. Rice actin 2 promoter and intron and methods for use thereof
US6849778B1 (en) 1999-10-15 2005-02-01 Calgene Llc Methods and vectors for site-specific recombination in plant cell plastids
US6613963B1 (en) 2000-03-10 2003-09-02 Pioneer Hi-Bred International, Inc. Herbicide tolerant Brassica juncea and method of production
NZ526148A (en) 2000-10-30 2005-09-30 Pioneer Hi Bred Int Novel glyphosate N-acetyltransferase (GAT) genes
US7151204B2 (en) 2001-01-09 2006-12-19 Monsanto Technology Llc Maize chloroplast aldolase promoter compositions and methods for use thereof
MXPA05000758A (es) 2002-07-18 2005-04-28 Monsanto Technology Llc Metodos para utilizar polinucleotidos artificiales y composiciones de los mismos para reducir el silenciamiento de los transgenes.
US20060142223A1 (en) 2002-09-06 2006-06-29 Schon Eric A Methods for xenotopic expression of nucleus-encoded plant and protist peptides and uses thereof
EP1554387B1 (en) * 2002-10-15 2012-01-25 Syngenta Participations AG Plastid transformation
BRPI0317579B1 (pt) 2002-12-18 2019-09-03 Athenix Corp vetor, célula hospedeira e métodos para conferir resistência a glifosato em uma planta e em uma célula de planta
CA2516221C (en) 2003-02-18 2014-05-13 Monsanto Technology Llc Glyphosate resistant class i 5-enolpyruvylshikimate-3-phosphate synthase (epsps)
WO2005003362A2 (en) 2003-03-10 2005-01-13 Athenix Corporation Methods to confer herbicide resistance
FR2878532B1 (fr) 2004-11-26 2007-03-02 Genoplante Valor Soc Par Actio Methode d'adressage d'acides nucleiques vers des plastes
US8088976B2 (en) 2005-02-24 2012-01-03 Monsanto Technology Llc Methods for genetic control of plant pest infestation and compositions thereof
EP1885173A4 (en) * 2005-05-27 2009-02-18 Univ Central Florida CHLOROPLASTE DEVELOPED FOR THE EXPRESSION OF PHARMACEUTICAL PROTEINS
CA2619833C (en) 2005-08-26 2017-05-09 Danisco A/S Use of crispr associated genes (cas)
AU2007267887B2 (en) 2006-05-25 2013-05-30 Sangamo Therapeutics, Inc. Variant Foki Cleavage Half-Domains
US8278428B2 (en) 2007-02-16 2012-10-02 John Guy Mitochondrial nucleic acid delivery systems
US8722410B2 (en) 2007-10-05 2014-05-13 Dow Agrosciences, Llc. Methods for transferring molecular substances into plant cells
FR2935987B1 (fr) 2008-09-16 2013-04-19 Centre Nat Rech Scient Importation d'un ribozyme dans les mitochondries vegetales par un pseudo-arnt aminoacylable par la valine.
GB2465748B (en) 2008-11-25 2012-04-25 Algentech Sas Plant cell transformation method
WO2011072246A2 (en) 2009-12-10 2011-06-16 Regents Of The University Of Minnesota Tal effector-mediated dna modification
US9238041B2 (en) 2011-05-03 2016-01-19 The Regents Of The University Of California Methods and compositions for regulating RNA import into mitochondria
US8883755B2 (en) 2012-04-11 2014-11-11 University of Pittsburgh—of the Commonwealth System of Higher Education Mitochondrial targeted RNA expression system and use thereof
WO2014128659A1 (en) 2013-02-21 2014-08-28 Cellectis Method to counter-select cells or organisms by linking loci to nuclease components
EP2796558A1 (en) 2013-04-23 2014-10-29 Rheinische Friedrich-Wilhelms-Universität Bonn Improved gene targeting and nucleic acid carrier molecule, in particular for use in plants
WO2014194190A1 (en) * 2013-05-30 2014-12-04 The Penn State Research Foundation Gene targeting and genetic modification of plants via rna-guided genome editing
WO2014199358A1 (en) 2013-06-14 2014-12-18 Cellectis Methods for non-transgenic genome editing in plants
JP7120717B2 (ja) 2013-07-09 2022-08-17 プレジデント アンド フェローズ オブ ハーバード カレッジ 多重rna誘導型ゲノム編集
BR112016003561B8 (pt) * 2013-08-22 2022-11-01 Du Pont Método para a produção de uma modificação genética, método para a introdução de um polinucleotídeo de interesse no genoma de uma planta, método para a edição de um segundo gene em um genoma de planta e método para gerar uma planta de milho resistente ao glifosato
US20160237455A1 (en) 2013-09-27 2016-08-18 Editas Medicine, Inc. Crispr-related methods and compositions
US20150166985A1 (en) 2013-12-12 2015-06-18 President And Fellows Of Harvard College Methods for correcting von willebrand factor point mutations
JP2017514513A (ja) 2014-03-20 2017-06-08 ユニベルシテ ラバル フラタキシンレベルを増加させるためのcrispr系の方法及び生成物、ならびにそれらの使用
WO2016106244A1 (en) 2014-12-24 2016-06-30 The Broad Institute Inc. Crispr having or associated with destabilization domains
US10913939B2 (en) 2015-04-01 2021-02-09 Monsanto Technology Llc Compositions and methods for expression of nitrogenase in plant cells
EP3095870A1 (en) 2015-05-19 2016-11-23 Kws Saat Se Methods for the in planta transformation of plants and manufacturing processes and products based and obtainable therefrom
CA3012607A1 (en) * 2015-06-18 2016-12-22 The Broad Institute Inc. Crispr enzymes and systems
WO2017024047A1 (en) 2015-08-03 2017-02-09 Emendobio Inc. Compositions and methods for increasing nuclease induced recombination rate in cells
CA3000917A1 (en) 2015-10-09 2017-04-13 Monsanto Technology Llc Rna-guided nucleases and uses thereof
MX2018004808A (es) 2015-10-20 2018-08-01 Pioneer Hi Bred Int Funcion restauradora para un producto genico no funcional mediante sistemas cas guiados y metodos de uso.
KR102761827B1 (ko) * 2015-10-22 2025-02-03 더 브로드 인스티튜트, 인코퍼레이티드 타입 vi-b crispr 효소 및 시스템
JP7067793B2 (ja) 2015-10-23 2022-05-16 プレジデント アンド フェローズ オブ ハーバード カレッジ 核酸塩基編集因子およびその使用
EP3871695A1 (en) 2015-12-07 2021-09-01 Arc Bio, LLC Methods and compositions for the making and using of guide nucleic acids
US20170175140A1 (en) 2015-12-16 2017-06-22 Regents Of The University Of Minnesota Methods for using a 5'-exonuclease to increase homologous recombination in eukaryotic cells
US9896696B2 (en) 2016-02-15 2018-02-20 Benson Hill Biosystems, Inc. Compositions and methods for modifying genomes
US11779657B2 (en) 2016-06-10 2023-10-10 City Of Hope Compositions and methods for mitochondrial genome editing
GB2568182A (en) 2016-08-03 2019-05-08 Harvard College Adenosine nucleobase editors and uses thereof
WO2018045321A1 (en) * 2016-09-02 2018-03-08 North Carolina State University Methods and compositions for modification of plastid genomes
WO2018093954A1 (en) * 2016-11-16 2018-05-24 Research Institute At Nationwide Children's Hospital Stem loop rna mediated transport of mitochondria genome editing molecules (endonucleases) into the mitochondria
WO2018103686A1 (zh) 2016-12-07 2018-06-14 中国科学院上海生命科学研究院 叶绿体基因组编辑方法
CN108220299B (zh) 2017-01-20 2020-12-04 江西省超级水稻研究发展中心 水稻线粒体不育基因及其应用
JP6935070B2 (ja) 2017-02-14 2021-09-15 国立大学法人 東京大学 植物ミトコンドリアゲノムの編集方法
US10011849B1 (en) 2017-06-23 2018-07-03 Inscripta, Inc. Nucleic acid-guided nucleases
US9982279B1 (en) * 2017-06-23 2018-05-29 Inscripta, Inc. Nucleic acid-guided nucleases
US10316324B2 (en) 2017-08-09 2019-06-11 Benson Hill Biosystems, Inc. Compositions and methods for modifying genomes
CN111263810A (zh) 2017-08-22 2020-06-09 纳匹基因公司 使用多核苷酸指导的核酸内切酶的细胞器基因组修饰
CN108359691B (zh) 2018-02-12 2021-09-28 中国科学院重庆绿色智能技术研究院 利用mito-CRISPR/Cas9系统敲除异常线粒体DNA的试剂盒及方法
US20200017865A1 (en) 2018-05-18 2020-01-16 The Regents Of The University Of California Methods for mitochondria and organelle genome editing
CN109456990B (zh) 2018-10-24 2022-01-07 湖南杂交水稻研究中心 一种利用基因组编辑技术提高叶绿体遗传转化效率的方法
WO2021003410A1 (en) 2019-07-03 2021-01-07 Napigen, Inc. Organelle genome modification

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104080462A (zh) * 2011-12-16 2014-10-01 塔尔盖特基因生物技术有限公司 用于修饰预定的靶核酸序列的组合物和方法
CN104854241A (zh) * 2012-05-25 2015-08-19 埃玛纽埃尔·沙尔庞捷 用于rna定向的靶dna修饰和用于rna定向的转录调节的方法和组合物
US8697359B1 (en) * 2012-12-12 2014-04-15 The Broad Institute, Inc. CRISPR-Cas systems and methods for altering expression of gene products
CN105602935A (zh) * 2014-10-20 2016-05-25 聂凌云 一种新型线粒体基因组编辑工具
CN105602993A (zh) * 2016-01-19 2016-05-25 上海赛墨生物技术有限公司 线粒体靶向的基因编辑系统及方法
WO2017136520A1 (en) * 2016-02-04 2017-08-10 President And Fellows Of Harvard College Mitochondrial genome editing and regulation
CN106520830A (zh) * 2016-11-16 2017-03-22 福建师范大学 利用CRISPR/Cas9对线粒体基因组进行靶向编辑的方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
FRANCIS QUÉTIER: "The CRISPR-Cas9 technology: Closer to the ultimate toolkit for targeted genome editing:", PLANT SCIENCE *
JO 等: "Efficient Mitochondrial Genome Editing by CRISPR/Cas9", BIOMED RESEARCH INTERNATIONAL *
杨庆先 等: "靶向核酸酶在线粒体基因组编辑中的应用", 基因组学与应用生物学 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110592265A (zh) * 2019-10-29 2019-12-20 江西省农业科学院蔬菜花卉研究所 一种用于茄属植物快速鉴定的dna条形码及方法
CN110592265B (zh) * 2019-10-29 2023-11-24 江西省农业科学院蔬菜花卉研究所 一种用于茄属植物快速鉴定的dna条形码及方法
CN113801955A (zh) * 2021-09-15 2021-12-17 湖北省农业科学院粮食作物研究所 检测甘薯单倍型的成套引物在甘薯母系溯源和品种鉴定中的应用
CN113801955B (zh) * 2021-09-15 2024-04-23 湖北省农业科学院粮食作物研究所 检测甘薯单倍型的成套引物在甘薯母系溯源和品种鉴定中的应用

Also Published As

Publication number Publication date
AU2018320864A1 (en) 2020-03-19
RU2020111575A (ru) 2021-09-23
AU2018320864B2 (en) 2024-02-22
US20230123175A1 (en) 2023-04-20
EP3673054A4 (en) 2021-06-02
US20240294930A1 (en) 2024-09-05
US20190136249A1 (en) 2019-05-09
CA3073662A1 (en) 2019-02-28
US20210054404A1 (en) 2021-02-25
RU2020111575A3 (zh) 2022-04-29
EP3673054A1 (en) 2020-07-01
US12173295B2 (en) 2024-12-24
US11920140B2 (en) 2024-03-05
WO2019040645A1 (en) 2019-02-28

Similar Documents

Publication Publication Date Title
CN111263810A (zh) 使用多核苷酸指导的核酸内切酶的细胞器基因组修饰
KR102613296B1 (ko) 신규한 crispr 효소 및 시스템
JP2022184892A (ja) ゲノムを改変するための組成物及び方法
AU2020264325A1 (en) Plant genome modification using guide rna/cas endonuclease systems and methods of use
KR20210104068A (ko) 게놈 편집을 위한 신규한 crispr-cas 시스템
CN101490267B (zh) 人工植物微染色体
CN110832074A (zh) CRISPR-Cas核酸内切酶在植物基因组工程中的应用
CN106687594A (zh) 用于产生对草甘膦除草剂具有抗性的植物的组合物和方法
KR20180002852A (ko) 가이드 RNA/Cas 엔도뉴클레아제 시스템
KR20230084505A (ko) Dna 변형 효소 및 그의 활성 단편 및 변이체 및 사용 방법
TW200815593A (en) Zinc finger nuclease-mediated homologous recombination
KR20230049100A (ko) 우라실 안정화 단백질 및 그의 활성 단편 및 변이체 및 사용 방법
US20220372523A1 (en) Organelle genome modification
TW202300649A (zh) Dna修飾酶及活性片段及其變體及使用方法
CN114846022A (zh) 通过阻抑基因的下调增强作物的疾病抗性
CN117337328A (zh) 沉默基因的方法
AU2015209181B2 (en) Zea mays regulatory elements and uses thereof
EP3052633B1 (en) Zea mays metallothionein-like regulatory elements and uses thereof
AU2014329590A1 (en) Zea mays metallothionein-like regulatory elements and uses thereof
KR20170136549A (ko) 트랜스젠 발현을 위한 식물 프로모터
JP4518741B2 (ja) 環境に安全なトランスジェニック生物を産生する方法
CN116648514A (zh) 玉米调节元件及其用途
CN117425402A (zh) 通过基因组编辑加快转基因作物的育种

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Ha Jimi.sakai

Inventor after: Yu Bingchun

Inventor after: Amy Meyer Orozco, Jr

Inventor after: Kajiki

Inventor after: Narendra Singh Yadav

Inventor before: Ha Jimi.sakai

Inventor before: Yu Bingchun

Inventor before: Amy Meyer Orozco, Jr

Inventor before: Luo Jie.huaisi

Inventor before: Kajiki

Inventor before: Jay Kisling

Inventor before: Narendra Singh Yadav

WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20200609