[go: up one dir, main page]

KR102703683B1 - Novel genome editing TaRGET system and uses thereof - Google Patents

Novel genome editing TaRGET system and uses thereof Download PDF

Info

Publication number
KR102703683B1
KR102703683B1 KR1020220128219A KR20220128219A KR102703683B1 KR 102703683 B1 KR102703683 B1 KR 102703683B1 KR 1020220128219 A KR1020220128219 A KR 1020220128219A KR 20220128219 A KR20220128219 A KR 20220128219A KR 102703683 B1 KR102703683 B1 KR 102703683B1
Authority
KR
South Korea
Prior art keywords
sequence
seq
region
cas12f1
nucleic acid
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
KR1020220128219A
Other languages
Korean (ko)
Other versions
KR20230051095A (en
Inventor
김용삼
김도연
Original Assignee
주식회사 진코어
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 진코어 filed Critical 주식회사 진코어
Publication of KR20230051095A publication Critical patent/KR20230051095A/en
Application granted granted Critical
Publication of KR102703683B1 publication Critical patent/KR102703683B1/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/102Mutagenizing nucleic acids
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/11DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
    • C12N15/113Non-coding nucleic acids modulating the expression of genes, e.g. antisense oligonucleotides; Antisense DNA or RNA; Triplex- forming oligonucleotides; Catalytic nucleic acids, e.g. ribozymes; Nucleic acids used in co-suppression or gene silencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/63Introduction of foreign genetic material using vectors; Vectors; Use of hosts therefor; Regulation of expression
    • C12N15/79Vectors or expression systems specially adapted for eukaryotic hosts
    • C12N15/85Vectors or expression systems specially adapted for eukaryotic hosts for animal cells
    • C12N15/86Viral vectors
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/87Introduction of foreign genetic material using processes not otherwise provided for, e.g. co-transformation
    • C12N15/90Stable introduction of foreign DNA into chromosome
    • C12N15/902Stable introduction of foreign DNA into chromosome using homologous recombination
    • C12N15/907Stable introduction of foreign DNA into chromosome using homologous recombination in mammalian cells
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N9/00Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
    • C12N9/10Transferases (2.)
    • C12N9/12Transferases (2.) transferring phosphorus containing groups, e.g. kinases (2.7)
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N9/00Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
    • C12N9/14Hydrolases (3)
    • C12N9/16Hydrolases (3) acting on ester bonds (3.1)
    • C12N9/22Ribonucleases [RNase]; Deoxyribonucleases [DNase]
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2310/00Structure or type of the nucleic acid
    • C12N2310/10Type of nucleic acid
    • C12N2310/20Type of nucleic acid involving clustered regularly interspaced short palindromic repeats [CRISPR]

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Engineering & Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Zoology (AREA)
  • Biomedical Technology (AREA)
  • Organic Chemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Wood Science & Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Biotechnology (AREA)
  • Molecular Biology (AREA)
  • Microbiology (AREA)
  • Biochemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • Plant Pathology (AREA)
  • Medicinal Chemistry (AREA)
  • Virology (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Cell Biology (AREA)
  • Mycology (AREA)
  • Micro-Organisms Or Cultivation Processes Thereof (AREA)

Abstract

본 발명은 새로운 초소형 유전자 편집 단백질인 Cas12f1 변이체 단백질 또는 이의 동족체 단백질 및 이를 포함하는 초소형 유전자 편집 시스템(Hypercompact TaRGET system)에 관한 것으로, 상기 초소형 유전자 편집 시스템은 유전자 편집 효율이 증가되었을 뿐만 아니라, 하나의 AAV 벡터에 패키징할 수 있어 세포 내의 표적 부위에 효율적으로 전달될 수 있는 효과가 있다.
본 발명의 핵산 편집을 위한 초소형 유전자 편집 시스템은 다양한 표적 유전자 및 핵산 형태에 적용가능한 유전자 편집 단백질 선택의 폭을 넓히고, 기존의 세포 내 전달이 어려운 큰 사이즈의 유전자 편집 시스템을 대체할 차세대 유전자 편집 시스템으로서, 핵산 편집을 통한 유전질환의 치료 및 연구 등에 유용하게 이용될 수 있다.
The present invention relates to a novel ultracompact gene editing protein, a Cas12f1 mutant protein or a homolog protein thereof, and an ultracompact gene editing system (Hypercompact TaRGET system) comprising the same. The ultracompact gene editing system not only has increased gene editing efficiency, but also can be packaged into a single AAV vector, so that it can be efficiently delivered to a target site in a cell.
The ultra-small gene editing system for nucleic acid editing of the present invention expands the range of gene editing protein selection applicable to various target genes and nucleic acid forms, and can be usefully utilized for the treatment and research of genetic diseases through nucleic acid editing as a next-generation gene editing system that replaces existing large-sized gene editing systems that are difficult to deliver into cells.

Description

유전자 편집을 위한 TaRGET 시스템 및 이의 용도{Novel genome editing TaRGET system and uses thereof} {Novel genome editing TaRGET system and uses thereof}

본 발명은 크기가 작은 Cas12f1 변이체 또는 이의 동족체 및 엔지니어링된 가이드 RNA를 이용하여 개발된 초소형 유전자 편집 기술인 TaRGET(Tiny nuclease-augment RNA-based Genome Editing Technology) 시스템에 관한 것이다. 특히, 기존의 Cas 엔도뉴클레아제와 비교하여 크기는 더 작으면서도 절단 효율이 개선된 Cas12f1 변이체 또는 이의 동족체 및 상기 변이체와 엔지니어링된 가이드 RNA를 이용한 유전자 편집 시스템에 관한 것이다. The present invention relates to a TaRGET (Tiny nuclease-augment RNA-based Genome Editing Technology) system, which is an ultra-small gene editing technology developed using a small-sized Cas12f1 variant or a homolog thereof and an engineered guide RNA. In particular, the present invention relates to a Cas12f1 variant or a homolog thereof which is smaller in size and has improved cleavage efficiency compared to existing Cas endonucleases, and a gene editing system using the variant and an engineered guide RNA.

생명체의 유전정보를 필요에 따라 자유롭게 교정하는 유전자 편집(Genome Editing) 기술은 박테리아, 효모, 식물 및 인간을 포함한 동물 세포 등에서 유전체가 원하는 유전정보를 갖도록 하는 변경을 가능하게 한다. 현재 유전자 편집 기술은 세포 엔지니어링(cell engineering), 모델 동물 제작, 형질전환 식물체 제작 및 암, 유전 질환, 감염 질환 등의 유전자 치료에의 이용 등 새로운 첨단 바이오 분야의 산업을 창출해 낼 핵심 기술로 평가받고 있다. 이에 따라, 유전자 편집 기술은 최근 급격하게 발전하고 있으며, 다양한 연구가 진행 중이다. Genome editing technology, which freely corrects the genetic information of living organisms as needed, enables changes to the genome to have the desired genetic information in bacteria, yeast, plants, and animal cells including humans. Currently, gene editing technology is evaluated as a core technology that will create new cutting-edge bio-field industries such as cell engineering, model animal production, transgenic plant production, and use in gene therapy for cancer, genetic diseases, and infectious diseases. Accordingly, gene editing technology has been rapidly developing recently, and various studies are being conducted.

유전자 편집은 표적 유전자 또는 표적 핵산 서열을 정확히 찾고 그 부위를 자르거나 변형시킬 수 있는 유전자 편집 시스템을 통해 수행되며 CRISPR/Cas 시스템이 대표적이다. 상기 유전자 편집 시스템은 Cas 엔도뉴클레아제(endonuclease)가 표적 유전자 서열을 인식하는 CRISPR RNA(crRNA)와 복합체를 형성한 것이며 경우에 따라 상기 Cas 엔도뉴클레아제에 결합하는 transactivating CRISPR RNA(tracrRNA)가 추가될 수 있다. 상기 crRNA와 tracrRNA를 링커로 연결한 싱글 가이드 RNA(single guide RNA, sgRNA) 형태가 주로 이용되고, 이 가이드 RNA는 유전자 편집 크리스퍼 시스템의 Cas 엔도뉴클레아제(endonuclease)가 자르거나 변형시켜야 할 표적 유전자의 이중가닥 DNA 염기서열로 정확하게 안내하는 역할을 한다. 표적 유전자 부위에 위치한 Cas 엔도뉴클레아제(endonuclease)는 표적 유전자 서열과 이웃하고 있는 프로토스페이서 인접 모티프(protospacer adjacent motif, PAM)를 인식한 후, 표적 핵산 서열의 내부 또는 외부 염기서열(base pair, bp)을 절단하거나 변형시키게 된다. Gene editing is performed through a gene editing system that can accurately find a target gene or target nucleic acid sequence and cut or modify that part, and the CRISPR/Cas system is a representative example. The gene editing system is a complex formed by Cas endonuclease and CRISPR RNA (crRNA) that recognizes the target gene sequence, and in some cases, a transactivating CRISPR RNA (tracrRNA) that binds to the Cas endonuclease may be added. A single guide RNA (sgRNA) in which the crRNA and tracrRNA are connected by a linker is mainly used, and this guide RNA accurately guides the Cas endonuclease of the gene editing CRISPR system to the double-stranded DNA base sequence of the target gene to be cut or modified. The Cas endonuclease located at the target gene site recognizes the protospacer adjacent motif (PAM) adjacent to the target gene sequence and then cleaves or modifies the internal or external base sequence (base pairs, bp) of the target nucleic acid sequence.

유전자 편집(Genome editing technology) 시스템에 의해 절단된 표적 핵산은 상동재조합(Homology directed repair, HDR) 또는 비상동말단연결(non-homologous end joining, NHEJ) 과정의 DNA 복구기작을 통해 복구가 일어난다. 비상동말단연결(NHEJ)의 DNA 복구기작을 통해서는 절단된 DNA 부위 사이에 무작위적 염기의 삽입(insertion) 또는 결실(deletion)이 일어나게 되고(insertion and deletion, indel), 그 결과 유전자의 코딩 부분에서 틀이동 변이(frameshift mutation) 또는 조기종결 변이(premature mutation)가 발생하여 표적 유전자가 제거(Knock-out)된다. 한편, 상동재조합(HDR)의 DNA 복구기작은 절단된 DNA를 복구하기 위하여 공여자 DNA(Donor DNA)를 필요로 하는데, 이 공여자 DNA의 서열을 주형으로 하여 내부의 목적 유전자의 서열이 정교하게 교체됨으로써, 유전자 편집이 완성된다(Jinek, M. et al., 2012). The target nucleic acid cut by the genome editing technology system is repaired through the DNA repair mechanism of homologous recombination (HDR) or non-homologous end joining (NHEJ). Through the DNA repair mechanism of non-homologous end joining (NHEJ), random base insertion (insertion and deletion, indel) occurs between the cut DNA regions, and as a result, frameshift mutation or premature mutation occurs in the coding part of the gene, and the target gene is removed (knocked out). Meanwhile, the DNA repair mechanism of homologous recombination (HDR) requires donor DNA to repair the cut DNA, and the sequence of the internal target gene is precisely replaced using the sequence of this donor DNA as a template, thereby completing gene editing (Jinek, M. et al., 2012).

자연계에는 다양한 종류의 유전자 편집 시스템 예를 들면, 크리스퍼(CRISPR/Cas) 시스템이 존재하고, 현재도 계속 새로운 크리스퍼 유전자가 발견되고 있다. 크리스퍼 유전자 편집 시스템(CRISPR Genome editing technology)의 유전자 편집을 위한 핵산분해효소인 Cas 단백질을 포함하는 단백질 복합체의 Cas 유전자 구성 및 개수에 따라, Class 1 과 Class 2로 크게 구분된다. Class 1은 type I, type III 및 type IV Cas 핵산분해 단백질을 포함하고, type II, type V 및 type VI Cas 핵산분해 단백질은 Class 2로 분류된다(Koonin et al., 2017, Makarova et al., 2020). 이 중 Class 2 CRISPR/Cas 시스템은 그 이펙터 복합체(effector complex)가 멀티 도메인을 가진 커다란 단일 단백질을 포함하는 것이 특징이다. 현재까지 가장 활발하게 연구되고 있는 스트렙토코커스 피오게네스(Streptococcus pyogenes) 유래의 Cas9(type II)와 유전자 편집 용도로 활발하게 연구되고 있는 CRISPR/Cpf1(type V)은 대표적인 Class 2의 핵산분해 단백질이다(Chylinski et al., 2014, Shmakov et al., 2015). There are various types of gene editing systems in nature, such as the CRISPR (CRISPR/Cas) system, and new CRISPR genes are continuously being discovered. Depending on the composition and number of Cas genes of the protein complex containing the Cas protein, which is a nuclease for gene editing of the CRISPR genome editing technology, it is largely divided into Class 1 and Class 2. Class 1 includes type I, type III, and type IV Cas nucleolytic proteins, and type II, type V, and type VI Cas nucleolytic proteins are classified into Class 2 (Koonin et al., 2017, Makarova et al., 2020). Among these, the Class 2 CRISPR/Cas system is characterized by its effector complex containing a large single protein with multiple domains. Cas9 (type II) derived from Streptococcus pyogenes , which has been most actively studied to date, and CRISPR/Cpf1 (type V), which is being actively studied for gene editing purposes, are representative Class 2 nucleolytic proteins (Chylinski et al., 2014, Shmakov et al., 2015).

하지만 현재까지 가장 연구가 활발하게 진행되었고 효율도 좋은 것으로 알려진 CRISPR/SpCas9 시스템은 해당 유전자의 사이즈가 매우 큰 것이 단점으로 지적되고 있다. SpCas9 유전자만 4.3kb가 넘으며 가이드 RNA와 다양한 유전자 발현 구성체인 프로모터 및 poly A 서열 등을 추가할 경우 5kb가 넘어간다. 이럴 경우 유전자치료제의 전달체로 안전성과 효율성에서 입증된 아데노-연관 바이러스(AAV)를 통해 전달할 수 없다는 문제점을 가지고 있다. 현재 대부분의 AAV가 전달할 수 있는 유전자의 크기는 4.7kb로 제한되어 있기 때문이다. However, the CRISPR/SpCas9 system, which has been the most actively studied and is known to be efficient to date, has been pointed out as a disadvantage that the size of the corresponding gene is very large. The SpCas9 gene alone is over 4.3 kb, and if you add the guide RNA and various gene expression components such as promoters and poly A sequences, it exceeds 5 kb. In this case, there is a problem that it cannot be delivered through adeno-associated virus (AAV), which has been proven to be safe and effective as a delivery vehicle for gene therapy. This is because the size of the gene that most AAVs can currently deliver is limited to 4.7 kb.

이러한 문제점을 극복하기 위해 SaCas9이나 CjCas9과 같은 비교적 작은 사이즈의 크리스퍼 시스템이 발견, 개발되어 유전자 편집 도구로 활용되고 있다. 하지만 이 두 유전자 편집 도구들은 SpCas9이나 Cpf1에 비해 비교적 열등한 유전자 편집 효율을 보이고 있는 점이 가장 큰 문제로 지적되고 있다. 뿐만 아니라, 이러한 크리스퍼 시스템을 이용하여 염기교정(base editing), 프라임에디팅(prime editing) 및 후성유전자조절(epigenetic regulation)에 확장이용하고자 할 경우에는 SpCas9과 같이 동일하게 AAV 전달한계의 문제에 봉착하게 된다. To overcome these problems, relatively small-sized CRISPR systems such as SaCas9 and CjCas9 have been discovered and developed and are being utilized as gene editing tools. However, the biggest problem pointed out is that these two gene editing tools show relatively inferior gene editing efficiency compared to SpCas9 or Cpf1. In addition, if these CRISPR systems are to be expanded to base editing, prime editing, and epigenetic regulation, they will face the same problem of AAV delivery limitations as SpCas9.

이에, 다양한 유전자 편집 기술에 적용하고 보다 높은 효율의 유전자 편집 시스템을 확보하는 것은 매우 중요한 과제로 남아 있다. 이 문제를 해결하기 위해서는 유전자 편집 효율이 우수하다고 알려진 Cas9 또는 Cpf1 단백질에 뒤떨어지지 않는 유전자 편집 효율을 가지면서도, 비교적 크기가 작은 핵산분해 단백질로 알려진 SaCas9 및 CjCas9 등 보다도 분자량은 더 작은 초소형의 새로운 유전자 편집 시스템이 절실히 필요한 실정이다. Therefore, it remains a very important task to apply various gene editing technologies and secure a gene editing system with higher efficiency. To solve this problem, a new ultra-small gene editing system is urgently needed that has a gene editing efficiency that is not inferior to that of Cas9 or Cpf1 proteins known to have excellent gene editing efficiency, but is smaller in molecular weight than SaCas9 and CjCas9, which are known as relatively small nucleolytic proteins.

KRKR 10-2015-001658810-2015-0016588 AA US 2020/0190494 A1US 2020/0190494 A1

Jinek, M. et al., A Programmable Dual-RNA-Guided DNA Endonuclease in Adaptive Bacterial Immunity, Science, Vol. 337, 816-821(2012) Jinek, M. et al., A Programmable Dual-RNA-Guided DNA Endonuclease in Adaptive Bacterial Immunity, Science, Vol. 337, 816-821(2012) Koonin, EV. et al., Mobile genetic elements and evolution of CRISPR-Cas system; All the way there and back, Genome Biol. Evol., Vol. 9, No. 10, 2812-2825(2017), Koonin, E.V. et al., Mobile genetic elements and evolution of CRISPR-Cas system; All the way there and back, Genome Biol. Evol., Vol. 9, No. 10, 2812-2825(2017), Makarova, KS. et al., Evolutionary classification of the CRISPR-Cas system: a burst of class 2 and derived variants, Nat. Rev. Microbiol., Vol. 18, 67-83(2020) Makarova, K.S. et al., Evolutionary classification of the CRISPR-Cas system: a burst of class 2 and derived variants, Nat. Rev. Microbiol., Vol. 18, 67-83(2020) Chylinski, K. et al., Classification and evolution of type II CRISPR-Cas system, Nucleic Acids Research, Vol. 42, No. 10, 6091-6105(2014) Chylinski, K. et al., Classification and evolution of type II CRISPR-Cas system, Nucleic Acids Research, Vol. 42, no. 10, 6091-6105(2014) Shmakov, S. et al., Discovery and Functional Characterization of diverse class 2 CRISPR-Cas system, Vol. 60, 385-397(2015) Shmakov, S. et al., Discovery and Functional Characterization of diverse class 2 CRISPR-Cas systems, Vol. 60, 385-397(2015) Karvelis, T. et al., PAM recognition by miniature CRISPR-Cas12f nucleases triggers programmable double-stranded DNA target cleavage, Nucleic Acids Research, Vol. 48, No. 9, 5016-5023(2020) Karvelis, T. et al., PAM recognition by miniature CRISPR-Cas12f nucleases triggers programmable double-stranded DNA target cleavage, Nucleic Acids Research, Vol. 48, no. 9, 5016-5023(2020) Harrington, LB. et al., Programmed DNA destruction by miniature CRISPR-Cas14 enzymes, Science, Vol. 362, 839-842(2018) Harrington, L.B. et al., Programmed DNA destruction by miniature CRISPR-Cas14 enzymes, Science, Vol. 362, 839-842(2018) Takeda, SN. et al., Structure of the miniature type V-F CRISPR-Cas effector enzyme, Molecular Cell 81, 1-13(2021) Takeda, S.N. et al., Structure of the miniature type V-F CRISPR-Cas effector enzyme, Molecular Cell 81, 1-13 (2021) Xiao, R. et al., Structural basis for the dimerization-dependent CRISPR-Cas12f nuclease, bioRxiv, 1-20(2020) Xiao, R. et al., Structural basis for the dimerization-dependent CRISPR-Cas12f nuclease, bioRxiv, 1-20 (2020) Wang, D. et al., Adeno-associated virus vector as a platform for gene therapy delivery, Nat. Rev. Drug Discov., Vol. 18, No. 5, 358-378(2019) Wang, D. et al., Adeno-associated virus vector as a platform for gene therapy delivery, Nat. Rev. Drug Discov., Vol. 18, no. 5, 358-378(2019)

본 발명은 상술한 문제점을 모두 해결하는 것을 그 목적으로 한다. The present invention aims to solve all of the problems described above.

본 발명은 종래 CRISPR 시스템과 연관되어 엔도뉴클레아제(endonuclease)로서 작용하는 Cas 단백질들과는 구분되는 Cas12f1에 대한 변이체(variant) 단백질, 이의 동족체(homolog) 단백질, 또는 이를 포함하는 소형 엔도뉴클레아제를 제공하는 것을 일 목적으로 한다. The present invention aims to provide a variant protein of Cas12f1, a homolog protein thereof, or a small endonuclease comprising the same, which is distinct from Cas proteins that act as endonucleases in connection with conventional CRISPR systems.

본 발명은 또한 상기 Cas12f1 변이체 단백질 또는 이의 동족체 단백질의 인델(Indel) 효율을 상승시켜줄 수 있는 가이드 RNA를 제공하는 것을 다른 목적으로 한다.Another object of the present invention is to provide a guide RNA capable of increasing the indel efficiency of the Cas12f1 mutant protein or a homolog protein thereof.

본 발명은 Cas12f1 변이체 단백질 기반의 유전자 편집 시스템을 제공하는 것을 또 다른 목적으로 한다.Another object of the present invention is to provide a gene editing system based on a Cas12f1 mutant protein.

본 발명은 Cas12f1 변이체 단백질 기반의 유전자 편집용 분자를 암호화하는 핵산 또는 이를 발현시키기 위한 벡터 시스템을 제공하는 것을 또 다른 목적으로 한다.Another object of the present invention is to provide a nucleic acid encoding a gene editing molecule based on a Cas12f1 mutant protein or a vector system for expressing the same.

본 발명은 Cas12f1 변이체 단백질 기반의 유전자 편집용 조성물을 제공하는 것을 또 다른 목적으로 한다.Another object of the present invention is to provide a gene editing composition based on a Cas12f1 mutant protein.

본 발명은 Cas12f1 변이체 단백질을 이용하여 유전자를 편집하는 방법을 제공하는 것을 또 다른 목적으로 한다.Another object of the present invention is to provide a method for editing a gene using a Cas12f1 mutant protein.

본 발명의 목적은 이상에서 언급한 목적으로 제한되지 않는다. 본 발명의 목적은 이하의 설명으로 보다 분명해질 것이며, 청구범위에 기재된 수단 및 그 조합으로 실현될 것이다. The purpose of the present invention is not limited to the purpose mentioned above. The purpose of the present invention will become more apparent from the following description, and will be realized by the means and combinations thereof described in the claims.

상기 목적을 달성하기 위한 본 발명의 대표적인 구성은 다음과 같다. A representative configuration of the present invention to achieve the above purpose is as follows.

본 발명의 일 태양에 따르면, Cas12f1 변이체(variant) 단백질 또는 이의 동족체(homolog) 단백질을 포함하는 소형 엔도뉴클레아제(tiny endonuclease) 및 이를 암호화하는 폴리뉴클레오티드가 제공된다.According to one aspect of the present invention, a tiny endonuclease comprising a Cas12f1 variant protein or a homolog protein thereof and a polynucleotide encoding the same are provided.

본 발명의 다른 태양에 따르면, Cas12f1 변이체 단백질 또는 이의 동족체 단백질을 포함하는 소형 엔도뉴클레아제; 및 가이드 RNA(guide RNA)를 포함하는 유전자 편집 시스템이 제공된다.According to another aspect of the present invention, a gene editing system is provided, comprising a small endonuclease comprising a Cas12f1 mutant protein or a homolog protein thereof; and a guide RNA.

본 발명의 또 다른 태양에 따르면, Cas12f1 변이체 단백질 또는 이의 동족체 단백질을 포함하는 소형 엔도뉴클레아제를 암호화하는 뉴클레오티드가 작동가능하게 연결된 제1 핵산 구조물; 및/또는 가이드 RNA를 암호화하는 뉴클레오티드 서열이 작동가능하게 연결된 제2 핵산 구조물을 포함하는 벡터 시스템이 제공된다. According to another aspect of the present invention, a vector system is provided comprising a first nucleic acid construct operably linked to a nucleotide sequence encoding a small endonuclease comprising a Cas12f1 variant protein or a homolog protein thereof; and/or a second nucleic acid construct operably linked to a nucleotide sequence encoding a guide RNA.

본 발명의 또 다른 태양에 따르면, 상기 유전자 편집 시스템, 상기 벡터 시스템, 또는 상기 두 시스템을 모두 포함하는 유전자 편집용 조성물이 제공된다.According to another aspect of the present invention, a gene editing composition comprising the gene editing system, the vector system, or both systems is provided.

본 발명의 또 다른 태양에 따르면, 상기 유전자 편집 시스템, 상기 벡터 시스템, 또는 상기 유전자 편집용 조성물을 표적 유전자 또는 표적 핵산과 접촉시키는 단계를 포함하는 유전자 편집 방법이 제공된다. According to another aspect of the present invention, a gene editing method is provided, comprising a step of contacting the gene editing system, the vector system, or the gene editing composition with a target gene or a target nucleic acid.

본 발명은 기존에 엔도뉴클레아제(endonuclease)로서 알려진 바 없는 새로운 Cas12f1 변이체 기반의 CRISPR 단백질 및 상기 변이체 단백질과 함께 사용되어 우수한 유전자 편집 효율을 나타내는 엔지니어링된 가이드 RNA(guide RNA)를 포함하는 초소형 유전자 편집 시스템("Hypercompact TaRGET system"이라 명명)을 제공한다. 본 발명의 초소형 유전자 편집 시스템은 하나의 아데노-연관 바이러스(AAV) 벡터에 표적하는 다양한 유전체의 편집에 요구되는 유전자 편집 도구들을 모두 탑재할 수 있는 장점을 가진다. 이에, 상기 초소형 유전자 편집 시스템은 기존에 염색체 편집을 위해 주로 이용되고 있는 Cas9 또는 Cpf1 등의 단백질을 포함하는 유전자 편집 시스템이 그 크기로 인해 임상적으로 검증된 세포 내 전달 수단인 AAV 벡터를 패키징 도구로 이용하는데 가지는 가장 큰 제약을 해결하는 새로운 유전자 편집 시스템을 제시하는 것이다. The present invention provides an ultra-small genome editing system (termed "Hypercompact TaRGET system") comprising a novel Cas12f1 mutant-based CRISPR protein, which has not been previously known as an endonuclease, and an engineered guide RNA that exhibits excellent genome editing efficiency when used together with the mutant protein. The ultra-small genome editing system of the present invention has the advantage of being able to load all genome editing tools required for editing various genomes targeted at one adeno-associated virus (AAV) vector. Accordingly, the ultra-small genome editing system presents a novel genome editing system that solves the biggest limitation of using AAV vectors, which are clinically proven intracellular delivery vehicles, as packaging tools due to their size in genome editing systems including proteins such as Cas9 or Cpf1, which have been mainly used for chromosome editing in the past.

무엇보다 본 발명에 따른 초소형 유전자 편집 시스템은 새로운 Cas12f1 기반 변이체 CRISPR 단백질 및 이에 적합하게 엔지니어링된 가이드 RNA를 포함함으로써 우수한 표적 유전자 편집 효율을 나타낸다. Above all, the ultra-small gene editing system according to the present invention exhibits excellent target gene editing efficiency by including a novel Cas12f1-based mutant CRISPR protein and a guide RNA suitably engineered therefor.

도 1은 본 발명의 일 구현예에 따른 엔지니어링된 가이드 RNA(이하 "augment RNA")를 위한 변형부위(Modification Site, MS) MS1 내지 MS5를 도시한다.
도 2a 및 도 2b는 본 발명의 구현예에 따른 엔지니어링된 싱글 가이드 RNA(sgRNA) 제작을 위한 다양한 변형부위를 나타내는 예시적 구조를 도시한다: 도 2a는 Cas12f1 변이체에 대한 canonical sgRNA의 예시적 변형부위를 도시한다. 도 2b는 본 발명의 일 구현예에 따라 엔지니어링된 Cas12f1 변이체에 대한 mature form sgRNA의 예시적 변형부위를 도시한다.
도 3a 내지 도 3d는 본 발명의 구현예에 따른 augment RNA에 의한 Cas12f1, Cas12f1 변이체, Cas12f1 변이체 v1, Cas12f1 변이체 v2, Cas12f1 변이체 v3, 및 Cas12f1 변이체(서열번호 1)의 N-말단 또는 C-말단에 아미노산이 추가된 Cas12f1 변이체의 인델(Indel) 효율을 나타낸 그래프이다(canonical sgRNA, 야생형 가이드 RNA; Cas12f1_ge3.0, MS1/MS2/MS3 augment RNA; Cas12f1_ge4.0, MS2/MS3/MS4 augment RNA; Cas12f1_ge4.1, MS2/MS3/MS4/MS5 augment RNA): 도 3a는 표적 서열인 Target-1에 대한 Cas12f1 변이체들의 인델(Indel) 효율을 측정한 결과를 도시한다. 도 3b는 표적 서열인 Target-2에 대한 Cas12f1 변이체들의 인델(Indel) 효율을 측정한 결과를 도시한다. 도 3c는 표적 서열인 Target-3에 대한 Cas12f1 변이체들의 인델(Indel) 효율을 측정한 결과를 도시한다. 도 3d는 N-말단 또는 C-말단에 아미노산이 추가된 Cas12f1 변이체 단백질의 표적 서열 Target-1 및 Target-2에 대한 인델(Indel) 효율을 측정한 결과를 도시한다. 가이드 RNA로는 Cas12f1_ge4.0이 사용되었다.
도 4는 기존 유전자 편집 단백질(SpCas9, AsCas12a)과 Cas12f1 변이체들의 세포 내 인델(Indel) 효율을 비교 측정한 결과를 도시한다.
도 5a 및 도 5b는 야생형 가이드 RNA의 각 영역에서 MS1 내지 MS5 중 하나 이상의 변형을 가지는 augment RNA 및 Cas12f1 변이체를 포함하는 초소형 유전자 편집 시스템의 인델(indel) 효율(%)을 측정한 결과를 도시한다: 도 5a는 표적 서열 Target-1에 대한 인델(indel) 효율(%)을 나타낸다. 도 5b는 표적 서열 Target-2에 대한 인델(indel) 효율(%)을 나타낸다.
도 6은 본 발명의 구현예에 따른 augment RNA 및 Cas12f1 변이체를 포함하는 초소형 유전자 편집 시스템의 표적 서열 Target-1에 대한 인델(indel) 효율(%)을 확인한 결과를 도시한다.
도 7a 내지 도 7d는 Mature form sgRNA의 각 영역에서 MS3 내지 MS5 중 하나 이상의 변형을 더 가지는 augment RNA 및 Cas12f1 변이체를 포함하는 초소형 유전자 편집 시스템의 인델(indel) 효율(%)을 측정한 결과를 도시한다: 도 7a 및 도 7b는 각각 표적 서열 Target-1에 대한 인델(indel) 효율(%)을 나타낸 그래프이다. 도 7c 및 도 7d는 각각 표적 서열 Target-2에 대한 인델(indel) 효율(%)을 나타낸 그래프이다.
도 8a 및 도 8b는 본 발명의 구현예에 따른 augment RNA 및 Cas12f1 변이체를 포함하는 초소형 유전자 편집 시스템의 표적 서열 Target-1에 대한 인델(indel) 효율(%)을 측정한 결과를 도시한다: 도 8a는 Mature form sgRNA에서 MS3-3, MS3-3/MS4-3 또는 MS3-3/MS4-3/MS5-3의 변형을 가지는 augment RNA를 사용한 경우의 인델(indel) 효율(%)을 나타낸 그래프이다. 도 8b는 Mature form sgRNA에서 MS3-3, MS3-3/MS4-3 또는 MS3-3/MS4-3/MS5-3의 변형 및 MS2의 변형을 가지는 augment RNA를 사용한 경우의 인델(indel) 효율(%)을 나타낸 그래프이다.
Figure 1 illustrates modification sites (MS) MS1 to MS5 for engineered guide RNA (hereinafter, “augment RNA”) according to one embodiment of the present invention.
FIGS. 2A and 2B illustrate exemplary structures representing various modification sites for producing engineered single guide RNAs (sgRNAs) according to embodiments of the present invention: FIG. 2A illustrates exemplary modification sites of a canonical sgRNA for a Cas12f1 variant. FIG. 2B illustrates exemplary modification sites of a mature form sgRNA for an engineered Cas12f1 variant according to an embodiment of the present invention.
FIGS. 3A to 3D are graphs showing the indel efficiency of Cas12f1, Cas12f1 variants, Cas12f1 variant v1, Cas12f1 variant v2, Cas12f1 variant v3, and Cas12f1 variants (SEQ ID NO: 1) having an amino acid added to the N-terminus or C-terminus by augment RNA according to an embodiment of the present invention (canonical sgRNA, wild-type guide RNA; Cas12f1_ge3.0, MS1/MS2/MS3 augment RNA; Cas12f1_ge4.0, MS2/MS3/MS4 augment RNA; Cas12f1_ge4.1, MS2/MS3/MS4/MS5 augment RNA): FIG. 3A shows the indel efficiency of Cas12f1 variants for the target sequence Target-1. The results of the measurement are shown. Fig. 3b shows the results of measuring the indel efficiency of Cas12f1 mutants for the target sequence Target-2. Fig. 3c shows the results of measuring the indel efficiency of Cas12f1 mutants for the target sequence Target-3. Fig. 3d shows the results of measuring the indel efficiency of Cas12f1 mutant proteins having an amino acid added to the N-terminus or C-terminus for the target sequences Target-1 and Target-2. Cas12f1_ge4.0 was used as the guide RNA.
Figure 4 shows the results of comparative measurements of the intracellular indel efficiency of existing gene editing proteins (SpCas9, AsCas12a) and Cas12f1 mutants.
Figures 5a and 5b illustrate the results of measuring the indel efficiency (%) of an ultra-small genome editing system comprising an augment RNA and a Cas12f1 variant having one or more modifications among MS1 to MS5 in each region of a wild-type guide RNA: Figure 5a shows the indel efficiency (%) for the target sequence Target-1. Figure 5b shows the indel efficiency (%) for the target sequence Target-2.
FIG. 6 illustrates the results of confirming the indel efficiency (%) for the target sequence Target-1 of the ultra-small gene editing system including augment RNA and Cas12f1 variant according to an embodiment of the present invention.
Figures 7a to 7d illustrate the results of measuring the indel efficiency (%) of the ultra-small genome editing system comprising an augment RNA and a Cas12f1 variant having one or more modifications among MS3 to MS5 in each region of the mature form sgRNA: Figures 7a and 7b are graphs showing the indel efficiency (%) for the target sequence Target-1, respectively. Figures 7c and 7d are graphs showing the indel efficiency (%) for the target sequence Target-2, respectively.
FIGS. 8A and 8B illustrate the results of measuring the indel efficiency (%) for the target sequence Target-1 of the ultra-small genome editing system comprising augment RNA and Cas12f1 variants according to embodiments of the present invention: FIG. 8A is a graph showing the indel efficiency (%) when augment RNA having a modification of MS3-3, MS3-3/MS4-3 or MS3-3/MS4-3/MS5-3 in mature form sgRNA was used. FIG. 8B is a graph showing the indel efficiency (%) when augment RNA having a modification of MS3-3, MS3-3/MS4-3 or MS3-3/MS4-3/MS5-3 and a modification of MS2 was used in mature form sgRNA.

후술하는 본 발명에 대한 상세한 설명은, 본 발명이 실시될 수 있는 특정 구현예에 관하여 특정 도면을 참조하여 기술될 것이지만, 본 발명은 이에 한정되지 않고, 적절하게 설명된다면, 그 청구항들이 주장하는 것과 균등한 모든 범위와 더불어 첨부된 청구항에 의해서만 한정된다. 본 발명의 다양한 구현예/실시예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 본 명세서에 기재되어 있는 특정 형상, 구조 및 특성은 본 발명의 기술적 사상과 범위를 벗어나지 않으면서 일 구현예/실시예에서 다른 구현예/실시예로 변경되거나 구현예/실시예들이 조합되어 구현될 수 있다. 본 명세서에 사용된 기술 및 학술 용어들은, 달리 정의되지 않는 한, 본 발명이 속하는 분야에서 일반적으로 사용되는 것과 같은 의미를 갖는다. 본 명세서를 해석할 목적으로 하기 정의들이 적용될 것이고, 단수로 사용된 용어는 적절한 경우에는 복수형을 포함할 것이며 그 반대도 마찬가지이다.The detailed description of the present invention which follows will be made with reference to specific embodiments in which the present invention may be practiced, with reference to the drawings, but the present invention is not limited thereto, but is limited only by the appended claims along with the full scope of equivalents to which such claims are entitled, if properly described. It should be understood that the various embodiments/embodiments of the present invention are different from each other, but are not necessarily mutually exclusive. For example, specific shapes, structures, and characteristics described herein may be changed from one embodiment/embodiment to another, or embodiments/embodiments may be combined, without departing from the spirit and scope of the present invention. Technical and scientific terms used herein, unless otherwise defined, have the same meaning as commonly used in the art to which this invention belongs. For the purpose of interpreting this specification, the following definitions will apply, and terms used in the singular will include the plural where appropriate, and vice versa.

I. 정의I. Definition

본 명세서에 사용된 용어 "유전자 편집(Genome editing) 단백질" 또는 "핵산분해 단백질"은 표적하는 핵산인 DNA 또는 RNA, 또는 표적 유전자 내의 프로토스페이서 인접 모티프(protospacer adjacent motif, PAM)를 인식한 후, 표적 핵산 서열의 내부 또는 외부 염기서열(base pair, bp)에서 DNA 이중가닥 절단(double strand breaks, DSB)이 일어나게 편집할 수 있는 (엔도)뉴클레아제((endo)nuclease)를 의미한다. 또한, 상기 유전자 편집(Genome editing) 단백질 또는 핵산분해 단백질은 유전자 편집 시스템 또는 유전자 편집을 위한 핵산 구조물(construct)을 구성하는 효과기(effector) 단백질로도 지칭한다. 여기서 효과기(effector) 단백질은 가이드 RNA(gRNA) 또는 엔지니어링된 RNA에 결합할 수 있는 핵산분해 단백질이나, 표적 핵산 또는 표적 유전자에 결합할 수 있는 펩티드 단편일 수 있다. The term "genome editing protein" or "nucleolytic protein" as used herein refers to an (endo)nuclease that can edit a target nucleic acid, DNA or RNA, or a protospacer adjacent motif (PAM) in a target gene so that double strand breaks (DSB) occur at an internal or external base sequence (base pair, bp) of the target nucleic acid sequence. In addition, the gene editing protein or nucleolytic protein is also referred to as an effector protein constituting a gene editing system or a nucleic acid construct for gene editing. Here, the effector protein may be a nucleolytic protein capable of binding to a guide RNA (gRNA) or an engineered RNA, or a peptide fragment capable of binding to a target nucleic acid or a target gene.

용어 "유전자 편집 크리스퍼/카스(CRISPR/Cas) 시스템" 또는 "유전자 편 집 시스템"은 유전자 편집 단백질 또는 Cas 엔도뉴클레아제(Cas endonuclease) 등의 핵산분해 효소 및 상기 핵산분해 효소에 대응하는 핵산 표적화 분자가 포함된 복합체로써, 표적 핵산 또는 표적 유전자에 결합하여 표적 핵산 또는 유전자의 표적 부위를 절단 또는 편집할 수 있는 복합체를 의미한다. 여기서 핵산 표적화 분자는 가이드 RNA(gRNA)로 대표될 수 있으나, 이에 제한되지는 않는다. The term "gene editing CRISPR/Cas system" or "gene editing system" refers to a complex comprising a gene editing protein or a nucleolytic enzyme such as Cas endonuclease and a nucleic acid targeting molecule corresponding to the nucleolytic enzyme, which can bind to a target nucleic acid or a target gene to cleave or edit a target nucleic acid or a target region of the gene. Here, the nucleic acid targeting molecule may be represented by a guide RNA (gRNA), but is not limited thereto.

용어 "초소형 유전자편집 시스템(Hypercompact TaRGET system)"은 초소형 유전자 편집 단백질 또는 소형 엔도뉴클레아제(tiny endonuclease) 등의 핵산분해 효소 및 상기 핵산분해 효소에 대응하는 핵산 표적화 분자가 포함된 복합체로써, 기존의 유전자편집 시스템과 차별되는 용어로 사용된다. 여기서 핵산 표적화 분자는 가이드 RNA(gRNA)로 대표될 수 있으나, 이에 제한되지는 않는다. 상기 시스템은 표적 핵산 또는 표적 유전자에 결합하여 표적 핵산 또는 유전자의 표적 부위를 절단 또는 편집할 수 있는 복합체를 의미한다. The term "Hypercompact TaRGET system" refers to a complex including a nucleolytic enzyme such as an ultracompact gene editing protein or a small endonuclease and a nucleic acid targeting molecule corresponding to the nucleolytic enzyme, and is used as a term to differentiate it from existing gene editing systems. Here, the nucleic acid targeting molecule may be represented by a guide RNA (gRNA), but is not limited thereto. The system refers to a complex capable of binding to a target nucleic acid or a target gene to cleave or edit a target region of the target nucleic acid or gene.

용어 "핵산 구조물(Nucleic acid construct)"은 유전자 편집(Genome editing) 단백질 또는 핵산분해 단백질을 암호화하는 뉴클레오티드 서열 및/또는 가이드 RNA를 암호화하는 뉴클레오티드 서열을 구성요소로 포함하는 구조물로서, 필요에 따라 다양한 종류의 (폴리)펩타이드 또는 링커를 암호화하는 뉴클레오티드 서열을 추가로 포함할 수 있다. 상기 핵산 구조물(Nucleic acid construct)은 본 발명의 유전자 편집을 위한 벡터 또는 초소형 유전자편집 시스템(Hypercompact TaRGET system)을 이루는 구성요소로 사용될 수 있다.The term "nucleic acid construct" refers to a structure comprising a nucleotide sequence encoding a genome editing protein or a nucleic acid decomposition protein and/or a nucleotide sequence encoding a guide RNA as components, and may additionally comprise a nucleotide sequence encoding various types of (poly)peptides or linkers as needed. The nucleic acid construct can be used as a component of a vector for gene editing of the present invention or a hypercompact TaRGET system.

용어 "표적 핵산(Target nucleic acid)" 또는 "표적 유전자(Target gene)"은 초소형 유전자편집 시스템(예를 들면, Hypercompact TaRGET system)에 의한 유전자 편집의 대상 또는 표적화 대상이 되는 유전자 또는 핵산을 의미한다. 표적 핵산 또는 표적 유전자는 혼용될 수 있으며, 서로 동일한 대상을 지칭할 수 있다. 상기 표적 유전자는 달리 기재되지 않은 한, 대상 세포가 가진 고유한 유전자 또는 핵산 혹은 외부 유래의 유전자 또는 핵산, 또는 인위적으로 합성된 핵산 또는 유전자일 수 있고, 단일가닥 DNA, 이중가닥 DNA 및/또는 RNA 모두를 의미할 수 있다. 상기 표적 유전자 또는 표적 핵산은 초소형 유전자편집 시스템에 의한 유전자 편집의 대상이 될 수 있다면 특별히 제한되지 않는다.The term "target nucleic acid" or "target gene" refers to a gene or nucleic acid that is a target or target of gene editing by an ultra-compact genome editing system (e.g., Hypercompact TaRGET system). The target nucleic acid or target gene may be used interchangeably and may refer to the same target. Unless otherwise specified, the target gene may be a unique gene or nucleic acid of a target cell, a gene or nucleic acid derived from an external source, or a nucleic acid or gene synthesized artificially, and may refer to all of single-stranded DNA, double-stranded DNA, and/or RNA. The target gene or target nucleic acid is not particularly limited as long as it can be a target of gene editing by an ultra-compact genome editing system.

용어 "표적 부위(Target region)" 또는 "표적 서열(Target sequence)"은 표적 핵산 또는 표적 유전자 내에 존재하는 서열로, 본 발명의 초소형 유전자편집 시스템이 표적 유전자 또는 표적 핵산을 절단하기 위해 인식하는 특정 서열을 의미한다. 상기 표적 부위 또는 표적 서열은 그 목적에 따라 적절히 선택될 수 있다. The term "target region" or "target sequence" refers to a sequence existing within a target nucleic acid or a target gene, and refers to a specific sequence that the ultra-small gene editing system of the present invention recognizes to cleave the target gene or target nucleic acid. The target region or target sequence may be appropriately selected depending on the purpose.

용어 "가이드 RNA(gRNA)"는 유전자 편집 단백질 또는 핵산분해 단백질과 복합체를 형성할 수 있고, 표적 핵산 서열과 혼성화할 수 있으며, 표적 핵산 서열에 대한 복합체의 서열-특이적 결합(sequence-specific binding)을 야기하기에 충분한 정도로 표적 핵산 서열과 상보성을 갖는 가이드(guide) 서열을 포함하는 RNA를 의미한다. 본 명세서에서 가이드 분자 또는 가이드 RNA는 상호 교환가능하게 사용된다. The term "guide RNA (gRNA)" refers to an RNA comprising a guide sequence capable of forming a complex with a gene editing protein or a nucleolytic protein, hybridizing with a target nucleic acid sequence, and having sufficient complementarity to the target nucleic acid sequence to cause sequence-specific binding of the complex to the target nucleic acid sequence. Guide molecule or guide RNA are used interchangeably herein.

용어 "스캐폴드(Scafold) 영역"은 가이드 RNA(gRNA) 중 유전자 편집(Genome editing) 단백질 또는 핵산분해 단백질과 상호작용할 수 있는 부분을 통틀어 지칭하며, 자연계에서 발견되는 가이드 RNA의 부분 중 스페이서를 제외한 나머지 부분을 지칭할 수 있다. The term "scaffold region" refers collectively to the portion of a guide RNA (gRNA) that can interact with a genome editing protein or a nucleolytic protein, and can refer to the remaining portion of a guide RNA found in nature, excluding the spacer.

용어 "스페이서 서열(spacer sequence)"은 초소형 유전자 편집 시스템에서 표적 서열 부분과 혼성화되는 폴리뉴클레오티드를 의미한다. 예컨대, 상기 스페이서 서열은 초소형 유전자편집 시스템에서 가이드 RNA의 crRNA의 3'-말단 부근의 10개 내지 50개의 연속된 뉴클레오티드를 지칭한다. The term "spacer sequence" refers to a polynucleotide that hybridizes with a portion of a target sequence in an ultra-small genome editing system. For example, the spacer sequence refers to 10 to 50 contiguous nucleotides near the 3'-end of a crRNA of a guide RNA in an ultra-small genome editing system.

용어 "tracrRNA" 및 "crRNA"는 유전자 편집 기술 분야에서 통상의 기술자가 인식할 수 있는 의미를 모두 포함한다. 이는 자연계에서 발견되는 듀얼 가이드 RNA(dual guide RNA)의 각 분자를 지칭하는 용어로 사용될 수 있고, 상기 tracrRNA 및 crRNA를 링커로 연결한 싱글 가이드 RNA(single guide RNA)의 각 해당 부분을 지칭하는데도 사용될 수 있다. 달리 서술하지 않는 한, tracrRNA 및 crRNA라고만 기재하는 경우 유전자 편집(Genome editing) 시스템을 구성하는 tracrRNA 및 crRNA를 의미한다.The terms "tracrRNA" and "crRNA" include all meanings that would be recognized by a person skilled in the art of genome editing technology. They can be used as terms referring to each molecule of a dual guide RNA found in nature, and can also be used to refer to each corresponding portion of a single guide RNA connecting the tracrRNA and crRNA with a linker. Unless otherwise stated, when they are written as tracrRNA and crRNA alone, they mean the tracrRNA and crRNA constituting the genome editing system.

용어 "벡터"는 달리 특정되지 않는 한, 유전 물질을 세포 내로 운반할 수 있는 모든 물질을 통틀어 일컫는다. 예를 들어, 벡터는 전달 대상이 되는 유전 물질인 유전자 편집(Genome editing) 시스템의 효과기(effector) 단백질을 암호화하는 핵산 및/또는 가이드 RNA(gRNA)를 암호화하는 핵산을 포함하는 DNA 분자일 수 있으나, 이에 제한되는 것은 아니다. 또한, 본 발명에서 "벡터"는 삽입된 유전자가 정상적으로 발현되도록 작동가능하게 연결된 필수적인 조절 요소를 포함하는 "발현 벡터" 일 수 있다. 용어 "작동 가능하게 연결된(operably linked)"은 유전자 발현 기술에 있어서, 특정 구성이 다른 구성과 연결되어, 상기 특정 구성이 의도된 방식대로 기능할 수 있도록 연결되어 있는 것을 의미한다. The term "vector", unless otherwise specified, refers to all materials capable of transporting genetic material into a cell. For example, the vector may be a DNA molecule containing a nucleic acid encoding an effector protein of a genome editing system, which is the genetic material to be delivered, and/or a nucleic acid encoding a guide RNA (gRNA), but is not limited thereto. In addition, the "vector" in the present invention may be an "expression vector" containing essential regulatory elements operably linked so that the inserted gene is normally expressed. The term "operably linked" means, in gene expression technology, that a specific structure is linked to another structure so that the specific structure can function in the intended manner.

용어 "엔지니어링된(Engineered)"은 자연계에 이미 존재하는 구성을 가진 물질, 분자 등과 구분하기 위해 사용하는 용어로, 상기 물질, 분자 등에 인위적인 변형이 가해진 것을 의미한다. 예를 들어, "엔지니어링된 가이드 RNA(engineered guide RNA)"의 경우, 자연계에 존재하는 가이드 RNA(gRNA)의 구성에 인위적인 변경이 가해진 가이드 RNA(gRNA)로 본 명세서 내에서 augment RNA로 지칭될 수 있다.The term "engineered" is a term used to distinguish it from substances, molecules, etc. that already have a composition that exists in nature, and means that an artificial modification has been applied to said substances, molecules, etc. For example, in the case of "engineered guide RNA", a guide RNA (gRNA) that has an artificial modification applied to the composition of a guide RNA (gRNA) that exists in nature may be referred to as augment RNA in this specification.

용어 "폴리뉴클레오타이드" 및 "핵산"은 상호 교환가능하게 사용될 수 있고, 리보뉴클레오타이드 또는 데옥시뉴클레오타이드 중 하나의 임의의 길이 뉴클레오타이드의 중합체 형태를 지칭한다. 따라서, 이 용어는 단일-, 이중-, 또는 다중-가닥 DNA 또는 RNA, 게놈 DNA, cDNA, DNA-RNA 혼성체, 또는 퓨린 및 피리미딘 염기 또는 다른 천연, 화학적 또는 생화학적으로 변형된, 비천연 또는 유도체화된 뉴클레오타이드 염기를 포함하는 중합체를 포함하지만, 이들로 제한되지 않는다. 용어 "폴리뉴클레오타이드" 및 "핵산"은 본 명세서에 기재되는 구현예에 적용 가능한, 단일-가닥(예컨대 센스 또는 안티센스) 및 이중-가닥 폴리뉴클레오타이드를 포함하는 것으로 이해되어야 한다.The terms "polynucleotide" and "nucleic acid" may be used interchangeably and refer to a polymeric form of nucleotides of any length, either ribonucleotides or deoxynucleotides. Thus, the terms include, but are not limited to, single-, double-, or multi-stranded DNA or RNA, genomic DNA, cDNA, DNA-RNA hybrids, or polymers comprising purine and pyrimidine bases or other natural, chemically or biochemically modified, unnatural or derivatized nucleotide bases. The terms "polynucleotide" and "nucleic acid" should be understood to include single-stranded (e.g., sense or antisense) and double-stranded polynucleotides, as applicable to the embodiments described herein.

용어 "폴리펩타이드", "펩타이드" 및 "단백질"은 상호 교환가능하게 사용되고, 유전적으로 암호화된 그리고 비유전적으로 암호화된 아미노산, 화학적으로 또는 생화학적으로 변형 또는 유도체화된 아미노산, 및 변형된 펩타이드 골격을 갖는 폴리펩타이드를 포함할 수 있는 임의의 길이의 아미노산의 중합체 형태를 지칭한다. 상기 용어는 N-말단의 메티오닌 잔기가 있거나 없는, 이종성 아미노산 서열과의 융합 단백질, 이종성 및 상동성 리더 서열과의 융합; 면역학적으로 태그된 단백질 등을 포함하지만, 이들로 제한되지 않는 융합 단백질을 포함한다. The terms "polypeptide", "peptide" and "protein" are used interchangeably and refer to a polymeric form of amino acids of any length which may include genetically encoded and non-genetically encoded amino acids, chemically or biochemically modified or derivatized amino acids, and polypeptides having modified peptide backbones. The terms include fusion proteins, including but not limited to, fusion proteins with heterologous amino acid sequences, with or without an N-terminal methionine residue, fusions with heterologous and homologous leader sequences; immunologically tagged proteins, and the like.

용어 "A, T, C, G 및 U"는 문맥 및 기술에 따라 DNA 또는 RNA 상에서 염기(Base), 뉴클레오시드(Nucleoside) 또는 뉴클레오티드(Nucleotide)로 적절히 해석될 수 있다. 예를 들어, 염기를 의미하는 경우는 각각 아데닌(adenine; A), 구아닌(guanine; G), 시토신(cytosine; C), 티민(tymine; T) 및 유라실(uracil; U) 중 선택된 하나로 해석될 수 있다. 뉴클레오시드를 의미하는 경우는 각각 아데노신(adenosine; A), 티미딘(thymidine; T), 시티딘(cytidine; C), 구아노신(guanosine; G) 또는 유리딘(uridine; U)으로 해석될 수 있으며, 서열에서 뉴클레오티드를 의미하는 경우는 상기 각각의 뉴클레오시드를 포함하는 뉴클레오티드를 의미하는 것으로 해석되어야 한다. The terms "A, T, C, G and U" may be appropriately interpreted as a base, a nucleoside or a nucleotide in DNA or RNA, depending on the context and technology. For example, when referring to a base, it may be interpreted as one selected from adenine (A), guanine (G), cytosine (C), thymine (T) and uracil (U), respectively. When referring to a nucleoside, it may be interpreted as adenosine (A), thymidine (T), cytidine (C), guanosine (G) or uridine (U), respectively, and when referring to a nucleotide in a sequence, it should be interpreted as meaning a nucleotide containing each of the above nucleosides.

용어 "약"은 참조 양, 수준, 값, 수, 빈도, 퍼센트, 치수, 크기, 양, 중량 또는 길이에 대해 30, 25, 20, 15, 10, 9, 8, 7, 6, 5, 4, 3, 2 또는 1% 정도로 변하는 양, 수준, 값, 수, 빈도, 퍼센트, 치수, 크기, 양, 중량 또는 길이를 의미한다. The term "about" means an amount, level, value, number, frequency, percent, dimension, size, quantity, weight or length that varies by 30, 25, 20, 15, 10, 9, 8, 7, 6, 5, 4, 3, 2 or 1 percent of the reference amount, level, value, number, frequency, percent, dimension, size, quantity, weight or length.

본 발명에서 사용되는 모든 기술용어는, 달리 정의되지 않는 이상 이 기술 분야의 통상의 기술자가 인식할 수 있는 의미를 모두 포함하고, 일반적으로 이해하는 바와 같은 의미로 사용되며, 문맥에 따라 적절히 해석될 수 있다. 또한, 본 명세서에는 바람직한 방법이나 시료가 기재되나, 이와 유사하거나 동등한 것들도 본 발명의 범주에 포함된다.All technical terms used in the present invention, unless otherwise defined, include all meanings that can be recognized by a person skilled in the art, are used with the same meaning as commonly understood, and can be appropriately interpreted according to the context. In addition, although preferred methods or samples are described in this specification, similar or equivalent ones are also included in the scope of the present invention.

II. 고효율의 초소형 유전자 편집 시스템/조성물II. High-efficiency, ultra-small gene editing system/composition

본 발명자들은 (박테리아 종) 유래의 전이효소(transposase)를 구성하는 인자로 알려진 TnpB 단백질이 Cas12f1 단백질과 유사한 아미노산 서열을 가지며, 현재까지 가장 많은 연구가 진행된 Cas9 단백질을 포함하는 기존 핵산분해 단백질들보다 분자량은 1/3 정도로 작고, 표적 핵산 또는 표적 유전자에 대한 핵산 절단 효율이 월등히 높은 것을 확인함으로써, 상기 단백질을 Cas12f1 변이체 단백질로 규정하고 상기 단백질이 고효율의 초소형 유전자 편집 단백질 활성을 나타내는 것을 처음으로 규명하였다. The present inventors have confirmed that the TnpB protein, known as a factor constituting the transposase derived from (bacterial species), has an amino acid sequence similar to the Cas12f1 protein, has a molecular weight about 1/3 smaller than that of existing nucleic acid-degrading proteins including the Cas9 protein, which has been studied the most to date, and has a much higher nucleic acid cleavage efficiency for target nucleic acids or target genes, thereby defining the protein as a Cas12f1 mutant protein and elucidating for the first time that the protein exhibits highly efficient ultra-small gene editing protein activity.

또한, 본 발명자들은 세포 내 표적 핵산 또는 표적 유전자를 편집하기 위해, 아데노-연관 바이러스(AAV) 벡터에 여유롭게 탑재가능하며 효과적으로 세포 내(in vivo) 전달이 가능한 시스템으로서, 초소형 유전자 편집 단백질인 Cas12f1 변이체 단백질 또는 이의 동족체 단백질을 포함하는 소형 엔도뉴클레아제; 및 이에 대해 높은 인델 효율을 나타내는 augment RNA를 포함하는 새로운 초소형 유전자 편집 시스템을 제작하였다. In addition, the present inventors have created a novel ultra-small gene editing system comprising a small endonuclease including a Cas12f1 mutant protein or a homolog protein thereof, which is an ultra-small gene editing protein, and an augment RNA showing high indel efficiency for the Cas12f1 mutant protein, as a system that can be easily loaded onto an adeno-associated virus (AAV) vector and can be effectively delivered into cells (in vivo) to edit target nucleic acids or target genes within a cell.

본 발명자들은 기존에 알려진 Cas9 또는 Cpf1 등의 Cas 엔도뉴클레아제(endonuclease)가 아닌, 새로운 초소형 유전자 편집 단백질 Cas12f1 변이체 단백질을 이용함으로써 보다 효율적이고 응용 범위가 증대된 유전자 편집이 가능함을 최초로 확인하였고, 상기 새로운 초소형 유전자 편집 시스템이 다양한 유전체 편집에 활용 가능함에 기초하여 본 발명을 완성하였다. The present inventors have confirmed for the first time that more efficient and applicable gene editing is possible by using a novel ultra-small gene editing protein, Cas12f1 mutant protein, rather than the previously known Cas endonuclease, such as Cas9 or Cpf1, and have completed the present invention based on the fact that the novel ultra-small gene editing system can be utilized for various genome editing.

따라서 본 발명은 표적 핵산 또는 표적 유전자를 특이적이고 고효율로 편집하는데 사용하기 위한, Cas12f1 변이체 단백질 또는 이의 동족체 단백질을 포함하는 소형 엔도뉴클레아제; 및 가이드 RNA를 포함하는 초소형 유전자 편집 시스템(Hypercompact TaRGET system)에 관한 것이다. Therefore, the present invention relates to an ultra-compact gene editing system (Hypercompact TaRGET system) comprising a small endonuclease comprising a Cas12f1 mutant protein or a homolog protein thereof; and a guide RNA, for use in specifically and highly efficiently editing a target nucleic acid or a target gene.

또한, 본 발명은 Cas12f1 변이체 단백질 또는 이의 동족체 단백질을 포함하는 소형 엔도뉴클레아제를 포함하는 초소형 핵산 편집을 위한 구조물 또는 벡터, 이를 이용하여 표적 핵산 또는 표적 유전자 내의 표적 부위를 편집하는 방법 및 이를 위한 조성물에 관한 것이다.Furthermore, the present invention relates to a construct or vector for ultra-small nucleic acid editing comprising a small endonuclease comprising a Cas12f1 mutant protein or a homolog protein thereof, a method for editing a target nucleic acid or a target site in a target gene using the same, and a composition therefor.

본 발명에 따른 상기 초소형 유전자 편집 시스템은 기존에 연구된 대부분의 Cas 엔도뉴클레아제 및 이를 포함하는 유전자가위 시스템이 그 크기로 인해서, 세포 내 전달 매개체로써 FDA 승인을 받은 아데노-연관 바이러스(AAV) 벡터에 탑재하는 제약을 해결한 의미 있는 결과이다.The above-described ultra-small gene editing system according to the present invention is a meaningful result that overcomes the limitation of loading most of the Cas endonucleases and gene scissors systems containing them, which have been studied previously, onto adeno-associated virus (AAV) vectors approved by the FDA as intracellular delivery vehicles due to their size.

나아가 상기 초소형 유전자 편집 시스템(Hypercompact TaRGET system)은 표적 핵산 또는 표적 유전자의 특정 표적 부위를 절단하는 유전자 편집 특이성 및 편집 효율이 높으므로, 본 발명에 따른 초소형 유전자 편집 시스템(Hypercompact TaRGET system)은 표적 핵산의 다양한 편집을 위한 편집 기술 연구 및 유전자 관련 질병의 새로운 치료제로서 그 적용 범위가 넓다. Furthermore, since the above-described ultra-compact gene editing system (Hypercompact TaRGET system) has high gene editing specificity and editing efficiency for cutting a specific target region of a target nucleic acid or a target gene, the ultra-compact gene editing system (Hypercompact TaRGET system) according to the present invention has a wide range of applications in editing technology research for various editing of target nucleic acids and as a new treatment for gene-related diseases.

이하, 본 발명에서 제공하는 초소형 유전자 편집 시스템/조성물의 각 구성요소 및 이의 제조방법을 상세히 설명한다. Hereinafter, each component of the ultra-small gene editing system/composition provided in the present invention and its manufacturing method are described in detail.

1. Cas12f1 변이체 단백질 및 이의 동족체 단백질1. Cas12f1 mutant protein and its homolog protein

본 발명의 일 태양에 따르면, 표적 핵산의 표적 부위 절단에 있어 우수한 활성을 나타내고 기존의 CRISPR/Cas9 시스템에 비하여 핵산분해 단백질의 크기가 1/3 정도로 현저히 작은 것을 특징으로 하는 Cas12f1 변이체 단백질 또는 이의 동족체 단백질 또는 이들을 포함하는 (소형) 엔도뉴클레아제가 제공된다. According to one aspect of the present invention, a Cas12f1 mutant protein or a homolog protein thereof or a (small) endonuclease comprising them is provided, which exhibits excellent activity in cleaving a target site of a target nucleic acid and is characterized in that the size of the nucleic acid-degrading protein is significantly smaller by about 1/3 compared to the existing CRISPR/Cas9 system.

Cas12f1 변이체 단백질은 자연계에서 발견되는 Cas12f1 변이체 또는 엔지니어링된 Cas12f1 변이체를 모두 포함한다. 구체적으로, Cas12f1 변이체 단백질은 서열번호 1의 아미노산 서열 또는 상기 서열을 기준으로 N-말단으로부터 1개 내지 28개의 아미노산이 제거 또는 치환된 아미노산 서열을 포함한다(단, 서열번호 5의 아미노산 서열로 이루어진 Cas12f1 단백질은 제외). The Cas12f1 variant protein includes both a Cas12f1 variant found in nature and an engineered Cas12f1 variant. Specifically, the Cas12f1 variant protein includes an amino acid sequence of SEQ ID NO: 1 or an amino acid sequence having 1 to 28 amino acids deleted or substituted from the N-terminus based on the sequence (except for a Cas12f1 protein consisting of an amino acid sequence of SEQ ID NO: 5).

일부 구현예에서, Cas12f1 변이체 단백질은 Class 2, type V CRISPR/핵산분해 단백질 중 V-F 서브타입에 속하는 Cas12f1 단백질과 크기가 유사한 IS200/IS605 family의 transposase accessory protein TnpB 단백질에서 유래된 서열이거나 이를 포함할 수 있다. TnpB 단백질은 종래에 전이효소(transposase)로 알려진 단백질이다. 현재까지 TnpB 단백질은 전이인자(transposon)을 암호화하는 핵산분해 단백질(transposon-encoded nuclease)로 알려져 있을 뿐, TnpB 단백질이 Cas 엔도뉴클레아제(endonuclease) 활성을 가지는지 알려진 바는 없다. 또한, TnpB 단백질에 대한 가이드 RNA도 알려진 바 없다. 본 발명은 부분적으로 TnpB 단백질 서열 기반의 Cas12f1 변이체 또는 엔지니어링된 Cas12f1 변이체가 핵산분해 단백질 중 분자량이 가장 작은 그룹에 속하는 Cas12f1 단백질과 그 크기가 유사하면서, 표적 핵산 또는 표적 유전자를 표적화하여 편집하는 탁월한 엔도뉴클레아제(endonuclease) 활성을 가지고 있음을 처음으로 확인하고, Cas12f1 변이체 단백질과 함께 사용되어 우수한 편집 효율을 나타내는 가이드 RNA(guide RNA)를 제작함으로써 완성되었다. Cas12f1 변이체 단백질은 현재 존재하는 핵산분해 단백질 중 분자량이 가장 작은 그룹에 속하며, 본 발명의 엔지니어링된 짧은 가이드 RNA(gRNA)와 복합체를 형성하여 표적 핵산 또는 표적 유전자를 표적화하여 편집하는 탁월한 효과를 가지고 있으므로, 세포 내 적용을 위한 초소형의 유전자 편집 시스템을 제작하는데 있어 큰 장점이 있다. 또한, 상기 초소형 유전자 편집 단백질인 Cas12f1 변이체 단백질 또는 이의 동족체 단백질은 5'-NGG-3'를 PAM으로 갖는 Cas9과 달리 5'-TTTA-3' 또는 5'-TTTG-3' 등과 같은 T-rich PAM을 PAM으로 갖기 때문에, 티민(T)이 많은 서열을 표적 핵산 또는 표적 유전자로 선택할 수 있게 하여, 유전체 편집을 위한 핵산분해 단백질의 선택 폭을 넓혀준다. In some embodiments, the Cas12f1 variant protein may be or include a sequence derived from a transposase accessory protein TnpB protein of the IS200/IS605 family, which is similar in size to the Cas12f1 protein belonging to the V-F subtype of Class 2, type V CRISPR/nucleolytic proteins. The TnpB protein is a protein conventionally known as a transposase. Until now, the TnpB protein has only been known as a transposon-encoded nuclease encoding a transposon, and it is not known whether the TnpB protein has Cas endonuclease activity. In addition, the guide RNA for the TnpB protein is also not known. The present invention was completed by first confirming that a Cas12f1 variant or an engineered Cas12f1 variant based in part on the TnpB protein sequence has excellent endonuclease activity for targeting and editing a target nucleic acid or a target gene while being similar in size to the Cas12f1 protein, which belongs to the group with the smallest molecular weight among nucleolytic proteins, and by producing a guide RNA that exhibits excellent editing efficiency when used together with the Cas12f1 variant protein. The Cas12f1 variant protein belongs to the group with the smallest molecular weight among the currently existing nucleolytic proteins, and forms a complex with the engineered short guide RNA (gRNA) of the present invention to have an excellent effect for targeting and editing a target nucleic acid or a target gene, and therefore has a great advantage in producing an ultra-small gene editing system for intracellular application. In addition, unlike Cas9 which has 5'-NGG-3' as a PAM, the Cas12f1 mutant protein or its homolog protein, which is an ultra-small gene editing protein, has a T-rich PAM such as 5'-TTTA-3' or 5'-TTTG-3' as a PAM, thereby enabling the selection of a sequence rich in thymine (T) as a target nucleic acid or target gene, thereby expanding the range of choices of nucleic acid-decomposing proteins for genome editing.

일부 구현예에서, Cas12f1 변이체 단백질은 서열번호 1의 아미노산 서열을 포함하거나 이로 이루어진 변이체 단백질일 수 있다. 또한, Cas12f1 변이체 단백질은 서열번호 1의 아미노산 서열의 N-말단에서 1개 내지 28개의 아미노산이 제거 또는 치환된 아미노산 서열을 포함하거나 이로 이루어진 Cas12f1 변이체 단백질일 수 있다. 이때, 서열번호 5의 아미노산 서열로 이루어진 Cas12f1 단백질은 포함되지 않는다. 구체적으로, Cas12f1 변이체 단백질은 서열번호 2 내지 서열번호 4로 이루어진 군에서 선택된 어느 하나의 아미노산 서열을 포함하거나 이로 이루어진 Cas12f1 변이체 단백질일 수 있다. In some embodiments, the Cas12f1 variant protein can be a variant protein comprising or consisting of the amino acid sequence of SEQ ID NO: 1. Furthermore, the Cas12f1 variant protein can be a Cas12f1 variant protein comprising or consisting of an amino acid sequence in which 1 to 28 amino acids are deleted or substituted at the N-terminus of the amino acid sequence of SEQ ID NO: 1. In this case, a Cas12f1 protein comprising the amino acid sequence of SEQ ID NO: 5 is not included. Specifically, the Cas12f1 variant protein can be a Cas12f1 variant protein comprising or consisting of any one amino acid sequence selected from the group consisting of SEQ ID NO: 2 to SEQ ID NO: 4.

다른 구현예에서, Cas12f1 변이체 단백질은 서열번호 5의 아미노산 서열로 이루어진 Cas12f1 단백질에 하나 이상의 아미노산이 더 포함된 것일 수 있다. 구체적으로, Cas12f1 변이체 단백질은 Cas12f1 단백질의 N-말단에 CasX의 N-말단 26aa를 포함하는 Cas12f1 변이체 v1 단백질(서열번호 2), 28aa 무작위 서열을 포함하는 Cas12f1 변이체 v2 단백질(서열번호 3) 또는 26aa 무작위 서열을 포함하는 Cas12f1 변이체 v3 단백질(서열번호 4)을 포함하거나 이로 이루어질 수 있다. In another embodiment, the Cas12f1 variant protein can be a Cas12f1 protein comprising an amino acid sequence of SEQ ID NO: 5, which further comprises one or more amino acids. Specifically, the Cas12f1 variant protein can comprise or consist of a Cas12f1 variant v1 protein (SEQ ID NO: 2) comprising an N-terminal 26aa of CasX at the N-terminus of the Cas12f1 protein, a Cas12f1 variant v2 protein (SEQ ID NO: 3) comprising a 28aa random sequence, or a Cas12f1 variant v3 protein (SEQ ID NO: 4) comprising a 26aa random sequence.

일부 구현예에서, Cas12f1 변이체 단백질의 동족체 단백질은 다양한 생물 종에서 유래한 TnpB 단백질이거나 이로부터 유래된 변이체를 포함할 수 있다. 구체적으로, 동족체 단백질은 서열번호 141 내지 서열번호 232로 이루어진 군에서 선택된 어느 하나의 아미노산 서열을 포함할 수 있다. 동족체 단백질은 Cas12f1 변이체 단백질과 동일한 생체 내 활성(즉, 엔도뉴클레아제 활성)을 공유하는 단백질을 의미하는 것으로서 이들의 서열 유사성(또는 동일성)과는 무관하게 공통 조상으로부터 유래된 특징이 소실되지 않고 보존되어 있는 단백질을 의미한다. In some embodiments, a homolog protein of a Cas12f1 variant protein can be a TnpB protein from a variety of organisms or a variant derived therefrom. Specifically, the homolog protein can comprise any one amino acid sequence selected from the group consisting of SEQ ID NO: 141 to SEQ ID NO: 232. A homolog protein means a protein that shares the same in vivo activity (i.e., endonuclease activity) as a Cas12f1 variant protein, and regardless of their sequence similarity (or identity), means a protein that has preserved characteristics derived from a common ancestor without being lost.

일부 구현예에서, Cas12f1 변이체 단백질은 서열번호 1의 아미노산 서열을 기준으로 N-말단 또는 C-말단에 1개 내지 600개의 아미노산이 추가된 아미노산 서열로 이루어진 것일 수 있다. 구체적으로, N-말단 또는 C-말단에 추가되는 아미노산 서열은 서열번호 233 또는 서열번호 234의 아미노산 서열일 수 있다. 추가 서열과 Cas12f1 변이체 단백질 사이에는 NLS 서열이 더 포함될 수 있다. In some implementations, the Cas12f1 variant protein may be comprised of an amino acid sequence having 1 to 600 amino acids added to the N-terminus or C-terminus based on the amino acid sequence of SEQ ID NO: 1. Specifically, the amino acid sequence added to the N-terminus or C-terminus may be the amino acid sequence of SEQ ID NO: 233 or SEQ ID NO: 234. An NLS sequence may further be included between the additional sequence and the Cas12f1 variant protein.

또한, Cas12f1 변이체 단백질은 야생형의 Cas12f1 단백질과 동종의 기능을 가지거나, 상기 야생형의 Cas12f1 단백질과 비교할 때, 기능이 변경된 것일 수 있다. 보다 구체적으로, 상기 변경은 전부 또는 일부 기능의 변형, 전부 또는 일부 기능의 상실 및/또는 부가적인 기능의 추가를 포함한다. Cas12f1 변이체 단백질은 통상의 기술자가 초소형 유전자 편집 시스템의 핵산분해 단백질에 적용할 수 있는 변경이라면, 특별히 제한 없이 임의의 변경을 포함할 수 있다. 예컨대, 상기 Cas12f1 변이체 단백질은 DNA 이중가닥을 절단하는 활성뿐만 아니라, 단일가닥 DNA 또는 RNA, 또는 DNA 및 RNA의 혼성 이중가닥을 절단하는 활성, 염기 교정 또는 프라임 교정을 수행하기 위한 것일 수 있다. In addition, the Cas12f1 variant protein may have the same function as the wild-type Cas12f1 protein, or may have a changed function compared to the wild-type Cas12f1 protein. More specifically, the change includes a modification of all or part of the function, a loss of all or part of the function, and/or the addition of an additional function. The Cas12f1 variant protein may include any change without particular limitation, as long as it is a change that a person skilled in the art can apply to the nucleolytic protein of the ultra-small genome editing system. For example, the Cas12f1 variant protein may have an activity to cleave a DNA double-strand, as well as an activity to cleave a single-stranded DNA or RNA, or a hybrid double-strand of DNA and RNA, and to perform base editing or prime editing.

일부 구현예에서, 본 발명의 초소형 유전자 편집 시스템은 표적 핵산 또는 표적 유전자의 표적 부위에서 핵산을 절단시키는 것이므로, 표적 부위가 세포의 핵 내에 위치하는 것을 특징으로 할 수 있다. 이에, 본 발명의 초소형 유전자 편집 시스템에 사용되는 Cas12f1 변이체 단백질 또는 이의 동족체 단백질은 이를 핵 내로 위치시키는 핵 위치 신호(nuclear localization signal, NLS) 서열을 1개 또는 2개 이상 포함할 수 있다. 예컨대, 하나 이상의 핵 위치 신호 서열은 상기 Cas12f1 변이체 단백질 또는 이의 동족체 단백질이 진핵세포(포유동물 세포 포함)의 핵에서 검출 가능한 양으로 핵 내로 표적되도록 유도하는 데 충분한 양 또는 활성을 강도를 가질 수 있다. 예컨대, 그 활성의 강도 차이는 상기 Cas12f1 변이체 단백질 또는 이의 동족체 단백질 내에 포함되는 NLS의 수, 사용되는 특정 NLS(들)의 종류 또는 이들 인자의 조합으로부터 야기될 수 있다. In some embodiments, since the miniature genome editing system of the present invention cleaves a nucleic acid at a target nucleic acid or a target site of a target gene, the target site may be characterized in that it is located in the nucleus of a cell. Accordingly, the Cas12f1 variant protein or a homolog thereof used in the miniature genome editing system of the present invention may include one or more nuclear localization signal (NLS) sequences that localize it into the nucleus. For example, the one or more nuclear localization signal sequences may have a sufficient amount or activity strength to induce the Cas12f1 variant protein or a homolog thereof to be targeted into the nucleus of a eukaryotic cell (including a mammalian cell) in a detectable amount in the nucleus. For example, the difference in the activity strength may result from the number of NLSs included in the Cas12f1 variant protein or a homolog thereof, the type of specific NLS(s) used, or a combination of these factors.

또한, 다른 구현예에서, 변이체 단백질 또는 이의 동족체는 단백질은 아미노-말단(N-term)에서 또는 그 근처에서 약 1, 2, 3, 4, 5, 6, 7, 8, 9 또는 10개 이상의 NLS, 카복시-말단(C-term)에서 또는 그 근처에서 약 1, 2, 3, 4, 5, 6, 7, 8, 9 또는 10개 이상의 NLS, 또는 이들의 조합으로 다양하게 선택될 수 있다. 예컨대, 아미노-말단(N-term)에서 0 또는 적어도 하나 이상의 NLS 서열 및/또는 카복시 말단(C-term)에서 0 또는 하나 이상의 NLS 서열을 포함할 수 있다. 하나 초과의 NLS 서열이 존재할 때, 단일 NLS가 하나 초과의 복제물에 존재할 수 있고, 하나 초과의 복제물에 존재하는 하나 초과의 다른 NLS와 조합하여 존재할 수 있도록 각각의 NLS 서열은 다른 것과 독립적으로 선택될 수 있다. Additionally, in other embodiments, the variant protein or an analog thereof can comprise variously selected from about 1, 2, 3, 4, 5, 6, 7, 8, 9 or 10 or more NLSs at or near the amino-terminus (N-term), about 1, 2, 3, 4, 5, 6, 7, 8, 9 or 10 or more NLSs at or near the carboxy-terminus (C-term), or combinations thereof. For example, the protein can comprise zero or at least one NLS sequence at the amino-terminus (N-term) and/or zero or one NLS sequence at the carboxy-terminus (C-term). When more than one NLS sequence is present, each NLS sequence can be selected independently of the others, such that a single NLS can be present in more than one copy, and can be present in combination with more than one other NLS that is present in more than one copy.

일부 구현예에서, NLS 서열은 단백질에 대해 이종성으로 하기의 NLS 서열이 예시되나 이에 제한되는 것은 아니다. 예컨대, 상기 NLS는 아미노산 서열 PKKKRKV(서열번호 54)를 갖는 SV40 바이러스 대형 T-항원의 NLS, 뉴클레오플라스민(nucleoplasmin)으로부터의 NLS 서열로서 KRPAATKKAGQAKKKK(서열번호 55)를 갖는 뉴클레오플라스민 이분(bipartite) NLS, 아미노산 서열 PAAKRVKLD(서열번호 56) 또는 RQRRNELKRSP(서열번호 57)를 갖는 c-myc NLS일 수 있다. 또한 hRNPA1 M9 NLS 서열, 임포틴-알파로부터의 IBB 도메인의 NLS 서열, 마이오마(myoma) T 단백질의 NLS 서열 및 인간 p53의 NLS 서열, 마우스 c-abl IV의 NLS 서열, 인플루엔자 바이러스 NS1의 NLS 서열, 간염 바이러스 델타 항원의 NLS 서열, 마우스 Mx1 단백질의 NLS 서열, 인간 폴리(ADP-리보스) 중합효소의 NLS 서열 또는 스테로이드 호르몬 수용체(인간) 글루코코르티코이드의 NLS 서열로부터 유래된 NLS 서열일 수 있다. In some embodiments, the NLS sequence is heterologous to the protein, including but not limited to the following NLS sequences. For example, the NLS can be the NLS of the SV40 virus large T-antigen having the amino acid sequence PKKKRKV (SEQ ID NO: 54), the nucleoplasmin bipartite NLS having the NLS sequence KRPAATKKAGQAKKKK (SEQ ID NO: 55) from nucleoplasmin, the c-myc NLS having the amino acid sequence PAAKRVKLD (SEQ ID NO: 56) or RQRRNELKRSP (SEQ ID NO: 57). Additionally, it may be an NLS sequence derived from the hRNPA1 M9 NLS sequence, the NLS sequence of the IBB domain from importin-alpha, the NLS sequence of myoma T protein, the NLS sequence of human p53, the NLS sequence of mouse c-abl IV, the NLS sequence of influenza virus NS1, the NLS sequence of hepatitis virus delta antigen, the NLS sequence of mouse Mx1 protein, the NLS sequence of human poly(ADP-ribose) polymerase or the NLS sequence of the steroid hormone receptor (human) glucocorticoid.

또한, Cas12f1 변이체 단백질 또는 이의 동족체 단백질은 세포 내의 유전자 발현 과정에 관여할 수 있는 다양한 효소(enzyme)가 융합된 것일 수 있다. 이때, 상기 효소가 융합된 Cas12f1 유사체 단백질은 세포 내 유전자 발현에 다양한 양적 및/또는 질적 변화를 초래할 수 있다. 예컨대, 상기 추가적으로 결합되는 다양한 효소는 DNMT, TET, KRAB, DHAC, LSD, p300, Moloney Murine Leukemia Virus(M-MLV) 역전사 효소 또는 그 변이체일 수 있다. 이 때, 상기 역전사 효소가 융합된 Cas12f1 변이체 단백질 또는 이의 동족체 단백질은 프라임 에디터로도 기능할 수 있다. In addition, the Cas12f1 variant protein or its homolog protein may be a fusion of various enzymes that can be involved in the gene expression process within a cell. At this time, the Cas12f1 analog protein to which the enzyme is fused may cause various quantitative and/or qualitative changes in gene expression within a cell. For example, the various enzymes to be additionally coupled may be DNMT, TET, KRAB, DHAC, LSD, p300, Moloney Murine Leukemia Virus (M-MLV) reverse transcriptase or a variant thereof. At this time, the Cas12f1 variant protein or its homolog protein to which the reverse transcriptase is fused may also function as a prime editor.

2. Cas12f1 변이체 단백질의 PAM 서열2. PAM sequence of Cas12f1 mutant protein

일부 구현예에서, 초소형 유전자 편집 시스템이 표적 핵산 또는 표적 유전자의 표적 부위에 위치하고 정확하게 표적 부위 핵산을 절단하기 위해서는 하기의 두 가지 조건이 필요하다. In some implementations, the following two conditions are required for the miniature gene editing system to be positioned at the target nucleic acid or target site of the target gene and to accurately cleave the target site nucleic acid.

먼저, 표적 핵산 또는 표적 유전자 내에 Cas12f1 변이체 단백질 또는 이의 동족체 단백질이 인식할 수 있는 일정 길이의 염기서열이 있어야 한다. 또한, 상기 일정 길이의 염기서열 주변에 Cas12f1 변이체 단백질 또는 이의 동족체 단백질에 대한 가이드 RNA(gRNA)에 포함된 스페이서 서열과 상보적으로 결합할 수 있는 서열이 있어야 한다. 다시 말해, Cas12f1 변이체 단백질 또는 이의 동족체 단백질이 상기 일정 길이의 염기서열을 인식하고, 가이드 RNA(gRNA)에 포함된 스페이서 서열 부분이 상기 일정 길이의 염기서열 주변 서열 부분과 상보적으로 결합할 때, 표적 핵산 또는 표적 유전자의 표적 부위 핵산을 정확하게 절단 또는 편집할 수 있다. 이때, Cas12f1 변이체 단백질 또는 이의 동족체 단백질에 의해 인식되는 일정 길이의 염기 서열을 프로토스페이스 인접 모티프(Protospacer Adjacent Motif, PAM)서열이라 한다. PAM 서열은 초소형 유전자 편집 단백질인 Cas12f1 변이체 단백질 또는 이의 동족체 단백질에 따라 정해지는 고유한 서열이다. 이는 초소형 유전자 편집 시스템 내의 Cas12f1 변이체 단백질 또는 이의 동족체 단백질 복합체의 표적 서열을 결정할 때, 상기 PAM 서열과 인접한 서열 내에서 표적 서열을 결정해야 하는 것을 의미한다. First, there must be a base sequence of a certain length that can be recognized by the Cas12f1 variant protein or its homolog protein in the target nucleic acid or target gene. In addition, there must be a sequence that can complementarily bind to a spacer sequence included in a guide RNA (gRNA) for the Cas12f1 variant protein or its homolog protein around the base sequence of the certain length. In other words, when the Cas12f1 variant protein or its homolog protein recognizes the base sequence of the certain length, and the spacer sequence portion included in the guide RNA (gRNA) complementarily binds to a sequence portion around the base sequence of the certain length, the target nucleic acid or the target site nucleic acid of the target gene can be accurately cut or edited. At this time, the base sequence of a certain length recognized by the Cas12f1 variant protein or its homolog protein is called a protospacer adjacent motif (PAM) sequence. The PAM sequence is a unique sequence determined by the Cas12f1 variant protein or its homolog protein, which is an ultra-small gene editing protein. This means that when determining the target sequence of the Cas12f1 variant protein or its homolog protein complex in the ultra-small gene editing system, the target sequence must be determined within the sequence adjacent to the PAM sequence.

Cas12f1 변이체 단백질 또는 이의 동족체 단백질의 PAM 서열은 T-rich 서열일 수 있다. 보다 구체적으로, 상기 Cas12f1 변이체 단백질 또는 이의 동족체 단백질의 PAM 서열은 5'-TTTN-3'일 수 있다. 이때, N은 디옥시티미딘(T), 디옥시아데노신(A), 디옥시사이티딘(C) 또는 디옥시구아노신(G) 중 하나이다. The PAM sequence of the Cas12f1 variant protein or a homolog protein thereof may be a T-rich sequence. More specifically, the PAM sequence of the Cas12f1 variant protein or a homolog protein thereof may be 5'-TTTN-3', wherein N is one of deoxythymidine (T), deoxyadenosine (A), deoxycytidine (C), or deoxyguanosine (G).

일 구현예로, Cas12f1 변이체 단백질 또는 이의 동족체 단백질의 PAM 서열은 5'-TTTA-3', 5'-TTTT-3', 5'-TTTC-3' 또는 5'-TTTG-3'일 수 있다. 바람직하게, Cas12f1 변이체 단백질 또는 이의 동족체 단백질의 PAM 서열은 5'-TTTA-3' 또는 5'-TTTG-3'일 수 있다. In one embodiment, the PAM sequence of the Cas12f1 variant protein or a homolog protein thereof can be 5'-TTTA-3', 5'-TTTT-3', 5'-TTTC-3' or 5'-TTTG-3'. Preferably, the PAM sequence of the Cas12f1 variant protein or a homolog protein thereof can be 5'-TTTA-3' or 5'-TTTG-3'.

다른 구현예로, Cas12f1 변이체 단백질 또는 이의 동족체 단백질의 PAM 서열은 야생형 Cas12f1 변이체 단백질(또는 TnpB로부터 유래한 서열로 이루어진 단백질)의 PAM 서열과는 다른 것일 수 있다.In another embodiment, the PAM sequence of the Cas12f1 variant protein or a homologous protein thereof may be different from the PAM sequence of the wild-type Cas12f1 variant protein (or a protein comprising a sequence derived from TnpB).

3. Cas12f1 변이체 단백질을 위한 엔지니어링된 가이드 RNA(augment RNA)3. Engineered guide RNA (augment RNA) for Cas12f1 mutant protein

(1) 개괄(1) Overview

본 발명의 구현예들은 종래 기술의 Cas9이 가지는 단백질 분자량에 따른 세포 내 전달의 한계점을 극복하기 위해 도출된 것이다. 따라서 본 발명의 초소형 유전자 편집 시스템에 포함되는 유전자 편집 단백질로서 분자량이 작은 Cas12f1 변이체 단백질 또는 이의 동족체 단백질을 선택하는 것에 추가하여, 상기 Cas12f1 변이체 또는 이의 동족체에 대한 가이드 RNA(gRNA)를 자연에 존재하는 것보다 훨씬 더 짧게 인위적으로 엔지니어링하여 크기의 최소화를 달성함과 동시에 표적에 대한 인델(Indel) 효율은 증가된 엔지니어링된 가이드 RNA(augment RNA)를 제작하였다. The embodiments of the present invention have been derived to overcome the limitations of intracellular delivery due to the protein molecular weight of the Cas9 of the prior art. Therefore, in addition to selecting a Cas12f1 variant protein or a homolog protein having a small molecular weight as a gene editing protein included in the ultra-small gene editing system of the present invention, a guide RNA (gRNA) for the Cas12f1 variant or a homolog thereof was artificially engineered to be much shorter than that existing in nature to achieve size minimization and at the same time produce an engineered guide RNA (augment RNA) with increased indel efficiency for the target.

먼저, 본 발명의 초소형 유전자 편집 단백질인 Cas12f1 변이체에 대하여 자연에 존재하는 가이드 RNA(gRNA)는 발견되지 않았으므로, 상기 Cas12f1 변이체 단백질에 대한 고효율의 표적 및 편집 활성을 나타내는 최적의 가이드 RNA(gRNA)를 제작하고자 하였다. 이러한 관점에서, Cas12f1 변이체 단백질에 대한 자연에 존재하는 가이드 RNA(gRNA)는 Cas12f 변이체 단백질과 크기가 유사한 Cas12f1 단백질에 대해 자연계에서 발견되는 가이드 RNA(gRNA)일 수 있다. 구체적으로, 가이드 RNA(gRNA)는 서열번호 6의 염기서열을 가지는 것일 수 있다. First, since a guide RNA (gRNA) existing in nature has not been found for the Cas12f1 mutant, which is an ultra-small gene editing protein of the present invention, an optimal guide RNA (gRNA) exhibiting high-efficiency targeting and editing activity for the Cas12f1 mutant protein was created. From this perspective, the guide RNA (gRNA) existing in nature for the Cas12f1 mutant protein may be a guide RNA (gRNA) found in nature for a Cas12f1 protein having a size similar to that of the Cas12f mutant protein. Specifically, the guide RNA (gRNA) may have a base sequence of SEQ ID NO: 6.

일 구현예로, Cas12f1 변이체 단백질에 대한 가이드 RNA(gRNA)는 자연계에서 발견되는 가이드 RNA(gRNA)에 새로운 구성을 추가하거나 그 구조 일부를 변형한 것으로, 가이드 RNA(gRNA)의 3'-말단에 새로운 구성인 U-rich tail을 포함하여 엔지니어링된 가이드 RNA(engineered gRNA 또는 augment RNA)인 것을 특징으로 한다. 일 예로, 가이드 RNA는 서열번호 6의 뉴클레오티드 서열로 이루어진 야생형 가이드 RNA에서 하나 이상의 뉴클레오티드 서열이 삭제, 치환 또는 추가되어 엔지니어링된 가이드 RNA이고, 표적 서열에 상보적인 엔지니어링된 가이드 RNA의 스페이서 부분은 15개 이상 50개 이하의 뉴클레오티드 서열로 이루어질 수 있다. In one embodiment, the guide RNA (gRNA) for the Cas12f1 mutant protein is characterized by being an engineered guide RNA (engineered gRNA or augmented RNA) that adds a new structure to a guide RNA (gRNA) found in nature or modifies part of its structure, and includes a new structure, a U-rich tail, at the 3'-terminus of the guide RNA (gRNA). As an example, the guide RNA is an engineered guide RNA in which one or more nucleotide sequences are deleted, substituted, or added to a wild-type guide RNA consisting of a nucleotide sequence of SEQ ID NO: 6, and the spacer portion of the engineered guide RNA complementary to the target sequence may be composed of a nucleotide sequence of 15 to 50 nucleotides.

일부 구현예에서, 엔지니어링된 가이드 RNA는 스캐폴드 제1 영역 내지 제4 영역을 포함하는 엔지니어링된 tracrRNA 서열 및/또는 스캐폴드 제5 내지 제6 영역을 포함하는 엔지니어링된 crRNA을 포함할 수 있다. 또한, 엔지니어링된 가이드 RNA는 crRNA의 3' 말단에 제7 영역인 U-rich tail 서열을 포함할 수 있다. 일부 구현예에서, 엔지니어링된 가이드 RNA는 변형부위 MS1 내지 MS5에서 선택된 하나 이상의 변형부위에서 엔지니어링된 것일 수 있다. 도 1은 본 발명의 구현예에 따른 엔지니어링된 가이드 RNA(engineered gRNA)가 포함하는 변형부위인 MS1 내지 MS5을 나타낸다. 또한, 엔지니어링된 가이드 RNA는 스캐폴드 제1 영역 내지 제4 영역 중 하나 이상의 영역이 변형된 스캐폴드를 포함하는 엔지니어링된 tracrRNA 서열, 스캐폴드 제5 영역 내지 제6 영역 중 하나 이상의 영역이 변형된 스캐폴드를 포함하는 엔지니어링된 crRNA 서열 및/또는 변형된 제7 영역인 U-rich tail 서열을 포함할 수 있다. tracrRNA의 제4 영역과 crRNA의 제5 영역은 서로 상보적으로 결합하는 부위로, 가이드 RNA(gRNA)의 변형부위 1(modification site 1, MS1) 및 변형부위 4(modification site 4, MS4)를 포함한다. 또한, 제7 영역인 U-rich tail 서열은 변형부위 2(modification site 2, MS2)에 해당한다. 제1 영역은 변형부위 3(modification site 3, MS3)이고, 제2 영역은 변형부위 5(modification site 5, MS5)를 포함한다. 엔지니어링된 가이드 RNA는 상기 MS1 내지 MS5 중 어느 하나에서의 변형을 포함하며, 이들 중에서 선택된 하나 이상의 변형의 임의의 조합을 포함할 수 있다. In some embodiments, the engineered guide RNA can comprise an engineered tracrRNA sequence comprising the first to fourth regions of the scaffold and/or an engineered crRNA comprising the fifth to sixth regions of the scaffold. In addition, the engineered guide RNA can comprise a seventh region, a U-rich tail sequence, at the 3' end of the crRNA. In some embodiments, the engineered guide RNA can be engineered at one or more modification sites selected from modification sites MS1 to MS5. Figure 1 illustrates modification sites MS1 to MS5 comprised by an engineered guide RNA (engineered gRNA) according to an embodiment of the present invention. In addition, the engineered guide RNA can comprise an engineered tracrRNA sequence comprising a scaffold in which one or more regions of the first to fourth regions of the scaffold are modified, an engineered crRNA sequence comprising a scaffold in which one or more regions of the fifth to sixth regions of the scaffold are modified, and/or a U-rich tail sequence which is a modified seventh region. The fourth region of tracrRNA and the fifth region of crRNA are complementary binding sites and include modification site 1 (MS1) and modification site 4 (MS4) of the guide RNA (gRNA). In addition, the seventh region, the U-rich tail sequence, corresponds to modification site 2 (MS2). The first region is modification site 3 (MS3), and the second region includes modification site 5 (MS5). The engineered guide RNA includes a modification in any one of MS1 to MS5, and may include any combination of one or more modifications selected from them.

일부 구현예에서, 초소형 유전자 편집 시스템은 가이드 RNA를 구성하는 tracrRNA 및 crRNA의 길이를 최적화하고, 고효율의 가이드 RNA를 제작하기 위해 불필요한 스캐폴드 서열이 제거되도록 조작된 것일 수 있다. 상기 스캐폴드 서열에서의 조작은 길이가 짧은 가이드 RNA를 제작을 가능하게 하였고, 그 결과 가이드 RNA 합성 비용 절감 및 바이러스 벡터에 삽입 시 추가의 적재 공간 확보가 달성되었다. 무엇보다도 본 발명의 Cas12f1 변이체 단백질에 최적화된 엔지니어링된 가이드 RNA를 포함하는 초소형 유전자 편집 시스템은 표적 핵산 또는 표적 유전자의 절단 또는 편집 효율을 크게 향상시켰으며, 나아가 아데노-연관 바이러스(AAV) 벡터에 적재시켜 치료제로 활용을 더욱 유리하게 한다. In some embodiments, the ultra-small genome editing system may be engineered to optimize the length of tracrRNA and crRNA constituting the guide RNA, and to remove unnecessary scaffold sequences to produce highly efficient guide RNAs. The manipulation in the scaffold sequence enables the production of short guide RNAs, resulting in reduced guide RNA synthesis costs and securing additional loading space when inserted into a viral vector. Above all, the ultra-small genome editing system comprising an engineered guide RNA optimized for the Cas12f1 variant protein of the present invention significantly improves the efficiency of cleavage or editing of a target nucleic acid or a target gene, and further makes it more advantageous to use it as a therapeutic agent by loading it into an adeno-associated virus (AAV) vector.

Cas12f1 변이체 단백질 또는 이의 동족체 단백질에 대한 자연에 존재하는 가이드 RNA가 될 수 있는 야생형 tracrRNA(서열번호 58; 5'-CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAUUUUUCCUCUCCAAUUCUGCACAA-3')는 내부에 연속된 다섯 개의 유리딘(U) 서열을 포함하고 있다. 이는 상기 야생형 tracrRNA을 세포 내에서 벡터 등을 이용하여 발현시키고자 할 때, 특정 조건에서는 상기 서열이 전사 종결 신호로써 작용하는 염기서열 상의 문제를 가지고 있다. 따라서 상기 연속된 다섯 개의 유리딘(U) 서열이 종결 신호로써 작동하게 되는 경우에는 상기 tracrRNA의 정상적인 발현을 억제되고, 정상적인 가이드 RNA의 형성 또한 저해하여 결과적으로 본 발명의 초소형 유전자 편집 시스템의 표적 핵산 또는 표적 유전자의 절단 또는 편집 효율을 감소시킨다. 일 구현예로, 본 발명자들은 상기 야생형 tracrRNA(서열번호 58)의 연속된 다섯 개의 유리딘 서열(U)을 중 적어도 하나의 유리딘(U) 염기를 다른 염기인 A, C, T 또는 G로 인위적으로 변형한 tracrRNA를 개발하였다. Wild-type tracrRNA (SEQ ID NO: 58; 5'-CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAUUUUUCCUCUCCAAUUCUGCACAA-3'), which can be a naturally occurring guide RNA for a Cas12f1 mutant protein or a homolog protein thereof, contains five consecutive uridine (U) sequences therein. This has a problem in that, when the wild-type tracrRNA is attempted to be expressed in a cell using a vector, etc., the sequence acts as a transcription termination signal under certain conditions. Therefore, when the five consecutive uridine (U) sequences function as a termination signal, the normal expression of the tracrRNA is suppressed, and the formation of normal guide RNA is also inhibited, resulting in a decrease in the cleavage or editing efficiency of the target nucleic acid or target gene of the ultra-small gene editing system of the present invention. In one embodiment, the inventors of the present invention developed a tracrRNA in which at least one uridine (U) base among the five consecutive uridine (U) sequences of the wild-type tracrRNA (SEQ ID NO: 58) was artificially modified to another base, A, C, T, or G.

또한, 일 구현예에서, 엔지니어링된 가이드 RNA는 자연계에서 발견되는 가이드 RNA에 새로운 구성을 추가하고 그 구조 일부를 제거하거나 변형한 것으로, 3'-말단에 새로운 구성인 U-rich tail을 포함하는 것을 특징으로 한다. 상기 U-rich tail을 포함하는 엔지니어링된 가이드 RNA는 초소형 유전자 편집 시스템의 표적 핵산 또는 표적 유전자에 대한 핵산 절단 또는 편집율을 높이는 역할을 한다. 본 발명자들은 상기 엔지니어링된 가이드 RNA(engineered gRNA) 중에서, Cas12f1 변이체 단백질 또는 이의 동족체 단백질과 복합체를 형성하여 표적 핵산 또는 표적 유전자의 절단 또는 편집 효율이 증가된 고효율의 가이드 RNA를 제작하였으며, 이를 포함하는 초소형 유전자 편집 시스템을 완성하였다. In addition, in one embodiment, the engineered guide RNA is characterized by adding a new structure to a guide RNA found in nature and removing or modifying part of its structure, and including a new structure, a U-rich tail, at the 3'-terminus. The engineered guide RNA including the U-rich tail serves to increase the nucleic acid cleavage or editing rate for a target nucleic acid or a target gene of an ultra-small gene editing system. The present inventors produced a highly efficient guide RNA having increased cleavage or editing efficiency of a target nucleic acid or a target gene by forming a complex with a Cas12f1 mutant protein or a homolog protein thereof, among the engineered guide RNAs (engineered gRNA), and completed an ultra-small gene editing system including the same.

다른 구현예에서, 엔지니어링된 가이드 RNA는 그 구성 중 Cas12f1 변이체 단백질과 상호작용하는 스캐폴드 영역의 적어도 일부가 변형된 것을 특징으로 한다. 상기 스캐폴드 영역은 tracrRNA 및 crRNA의 일부를 포함하며, 반드시 한 분자의 RNA를 지칭하는 것은 아니다. 예를 들어, 엔지니어링된 가이드 RNA의 서열은 스캐폴드 제1 영역 내지 제4 영역 중 하나 이상의 영역에 변형을 포함하는 엔지니어링된 tracrRNA 서열 및/또는 스캐폴드 제5 영역 내지 제6 영역 중 하나 이상의 영역에 변형을 포함하는 엔지니어링된 crRNA 서열을 포함하고 변형된 제7 영역인 U-rich tail 서열을 추가로 포함할 수 있다. In another embodiment, the engineered guide RNA is characterized in that at least a portion of the scaffold region that interacts with the Cas12f1 variant protein in its composition is modified. The scaffold region includes portions of the tracrRNA and the crRNA, and does not necessarily refer to one molecule of RNA. For example, the sequence of the engineered guide RNA can include an engineered tracrRNA sequence comprising a modification in one or more of the first to fourth regions of the scaffold and/or an engineered crRNA sequence comprising a modification in one or more of the fifth to sixth regions of the scaffold, and further include a modified seventh region, a U-rich tail sequence.

또한, 엔지니어링된 가이드 RNA는 필요에 따라 링커(linker) 또는 태그(Tag)를 더 포함할 수 있다. Additionally, the engineered guide RNA may further include a linker or tag as needed.

일 구현예에서, 엔지니어링된 스캐폴드 영역은, 자연계에서 발견되는 스캐폴드 영역에 전술한 제1 영역 내지 제7 영역 중 어느 하나 이상의 영역에서 변형이 조합된 것일 수 있다. 이 때, 엔지니어링된 tracrRNA는 연속된 다섯 개 이상의 유리딘 서열을 포함하지 않도록 변형(MS1 변형)된 tracrRNA일 수 있다. 또한, 엔지니어링된 tracrRNA는 연속된 다섯 개 이상의 유리딘 서열을 포함하지 않도록 변형되고, 야생형 tracrRNA보다 길이가 짧도록 변형된 tracrRNA일 수 있다. 또한, 엔지니어링된 tracrRNA는 제1 영역, 제2 영역, 제3 영역 및 제4 영역(MS1 변형 포함)을 5'-말단에서 3'-말단 방향으로 순서대로 포함할 수 있다. 또한, 엔지니어링된 crRNA는 제5 영역, 제6 영역 및 가이드 서열인 스페이서 서열을 5'-말단에서 3'-말단 방향으로 순서대로 포함할 수 있다. 제4 영역은 crRNA의 직접반복서열과 결합하기에 충분한 상보성을 갖는 임의의 폴리뉴클레오티드를 포함할 수 있다. In one embodiment, the engineered scaffold region may be a combination of modifications in any one or more of the first to seventh regions described above in a scaffold region found in nature. In this case, the engineered tracrRNA may be a tracrRNA that is modified not to include five or more consecutive uridine sequences (MS1 modification). In addition, the engineered tracrRNA may be a tracrRNA that is modified not to include five or more consecutive uridine sequences and is modified to be shorter than a wild-type tracrRNA. In addition, the engineered tracrRNA may include the first region, the second region, the third region, and the fourth region (including the MS1 modification) in the order from the 5'-end to the 3'-end. In addition, the engineered crRNA may include the fifth region, the sixth region, and the spacer sequence, which is a guide sequence, in the order from the 5'-end to the 3'-end. The fourth region can comprise any polynucleotide having sufficient complementarity to bind to the direct repeat sequence of the crRNA.

제1 영역(MS3 부분, 1-21 부위)은 5'-CUUCACUGAUAAAGUGGAGAA-3' (서열번호 7) 서열 또는 서열번호 7 서열의 일부 서열일 수 있다. 상기 서열번호 7 서열의 일부 서열은 서열번호 7 서열의 5'-말단의 서열이 순차적으로 제거되고 남은 3'-말단부에서 순차적인 일부 서열일 수 있다. 보다 구체적으로, 제1 영역은 5'-GAUAAAGUGGAGAA-3' (서열번호 8), 5'-UGGAGAA-3' 또는 5'-A-3'일 수 있다. 또는, 엔지니어링된 tracrRNA는 제1 영역(1-21 부위)에 해당하는 서열이 모두 제거된 것일 수 있다. The first region (MS3 portion, regions 1-21) can be a 5'-CUUCACUGAUAAAGUGGAGAA-3' (SEQ ID NO: 7) sequence or a partial sequence of the SEQ ID NO: 7 sequence. The partial sequence of the SEQ ID NO: 7 sequence can be a sequential partial sequence from the 3'-terminal end of the SEQ ID NO: 7 sequence, wherein the 5'-terminal sequence is sequentially removed. More specifically, the first region can be 5'-GAUAAAGUGGAGAA-3' (SEQ ID NO: 8), 5'-UGGAGAA-3' or 5'-A-3'. Alternatively, the engineered tracrRNA can be one in which the sequence corresponding to the first region (region 1-21) is completely removed.

제2 영역(MS5 부분, 22-71 부위)은 5'-CCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUG-3' (서열번호 9) 서열 또는 서열번호 9 서열의 일부 서열일 수 있다. 상기 서열번호 9 서열의 일부 서열은 서열번호 9 서열에서 상보적 결합을 형성하는 적어도 한 쌍 이상의 뉴클레오티드 및/또는 상보적 결합을 형성하지 않는 적어도 하나 이상의 뉴클레오티드가 삭제된 서열일 수 있다. 일 실시예에서, 상기 제2 영역은 5'-CCGCUUCACCAAUUAGUUGAGUGAAGGUG-3' (서열번호 10) 서열, 5'-CCGCUUCACCAAAAGCUUAGGAACUUGAGUGAAGGUG-3' (서열번호 11) 서열 또는 5'-CCGCUUCACCAAAAGCUGUUUAGAUUAGAACUUGAGUGAAGGUG-3' (서열번호 12) 서열일 수 있다. 이 때, 상기 서열번호 9 내지 서열번호 12 중 어느 하나의 서열 내에 포함된 루프 부분은 5'-UUAG-3' 서열이고, 이는 필요에 따라 5'-GAAA-3' 서열로 치환될 수 있다. The second region (MS5 portion, region 22-71) may be a 5'-CCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUG-3' (SEQ ID NO: 9) sequence or a partial sequence of the SEQ ID NO: 9 sequence. The partial sequence of the SEQ ID NO: 9 sequence may be a sequence in which at least one pair of nucleotides forming a complementary bond and/or at least one nucleotide not forming a complementary bond in the SEQ ID NO: 9 sequence is deleted. In one embodiment, the second region may be a 5'-CCGCUUCACCAAUUAGUUGAGUGAAGGUG-3' (SEQ ID NO: 10) sequence, a 5'-CCGCUUCACCAAAAGCUUAGGAACUUGAGUGAAGGUG-3' (SEQ ID NO: 11) sequence, or a 5'-CCGCUUCACCAAAAGCUGUUUAGAUUAGAACUUGAGUGAAGGUG-3' (SEQ ID NO: 12) sequence. In this case, the loop portion included in any one of the sequences of SEQ ID NO: 9 to SEQ ID NO: 12 is a 5'-UUAG-3' sequence, which may be replaced with a 5'-GAAA-3' sequence as needed.

제3 영역(MS4 앞 부분, 72-129 부위)은 5'-GGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAA-3' (서열번호 13) 서열 또는 서열번호 13의 서열과 적어도 70% 이상의 서열 동일성을 가지는 서열일 수 있다. The third region (front part of MS4, region 72-129) may be the sequence 5'-GGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAA-3' (SEQ ID NO: 13) or a sequence having at least 70% sequence identity to the sequence of SEQ ID NO: 13.

제4 영역(MS1을 포함하는 MS4 부분, 130-161 부위)은 5'-CAAAUUCANNNNNCCUCUCCAAUUCUGCACAA-3' (서열번호 14) 서열 또는 서열번호 14 서열의 일부 서열일 수 있다. 서열번호 14 서열에서 내부의 5'-NNNNN-3' 부위는 MS1 부분이고, 여기서 각각의 N은 A, C, G 또는 U일 수 있다. 일 실시예에서, 서열번호 14 서열의 일부 서열은 상기 서열번호 14 서열 중 5'-CAAAUUCANNNNN-3'(서열번호 15) 서열을 포함하면서 3'-말단부의 일부 서열이 포함하지 않는 서열일 수 있다. 구체적으로, 5'-CAAAUUCANNNNNCCUCUCCAAUUC-3' (서열번호 16) 서열, 5'-CAAAUUCANNNNNCCUCUC-3' (서열번호 17) 서열 또는 5'-CAAAUUCANNNNN-3' (서열번호 15) 서열일 수 있다. 또한, 제4 영역은 5'-NNNNN-3' 부위가 5'-NNNVN-3' 또는 5'-NVNNN-3'로 치환된 것을 포함할 수 있다. 여기서 각각의 N은 독립적으로 A, C, G 또는 U이고, V는 A, C 또는 G일 수 있다. 바람직하게, 제4 영역은 5'-CAAAUUCANNNCN-3' (서열번호 18) 서열을 포함하면서 3'-말단부의 일부 서열이 포함하지 않는 서열일 수 있다. 여기서 각각의 N은 독립적으로 A, C, G 또는 U이다. 일 실시예에서, crRNA는 야생형 crRNA 또는 엔지니어링된 crRNA일 수 있다. 상기 야생형 crRNA는 야생형 반복 서열(repeat sequence) 및 가이드 서열(guide sequence)인 스페이서 서열을 5'-말단에서 3'-말단 방향으로 순서대로 포함할 수 있다. 상기 야생형 반복 서열은 5'-GUUGCAGAACCCGAAUAGACGAAUGAAGGAAUGCAAC-3' (서열번호 19) 서열일 수 있다. The fourth region (MS4 portion including MS1, portions 130-161) can be a 5'-CAAAUUCANNNNNCCUCUCCAAUUCUGCACAA-3' (SEQ ID NO: 14) sequence or a portion of the SEQ ID NO: 14 sequence. In the SEQ ID NO: 14 sequence, the internal 5'-NNNNN-3' portion is the MS1 portion, wherein each N can be A, C, G or U. In one embodiment, the portion of the SEQ ID NO: 14 sequence can be a sequence including the 5'-CAAAUUCANNNNN-3' (SEQ ID NO: 15) sequence of the SEQ ID NO: 14 sequence but not including a portion of the 3'-terminal sequence. Specifically, it can be a 5'-CAAAUUCANNNNNCCUCUCCAAUUC-3' (SEQ ID NO: 16) sequence, a 5'-CAAAUUCANNNNNCCUCUC-3' (SEQ ID NO: 17) sequence or a 5'-CAAAUUCANNNNN-3' (SEQ ID NO: 15) sequence. In addition, the fourth region can include a 5'-NNNNN-3' site is replaced with 5'-NNNVN-3' or 5'-NVNNN-3', wherein each N is independently A, C, G or U, and V can be A, C or G. Preferably, the fourth region can be a sequence including a 5'-CAAAUUCANNNCN-3' (SEQ ID NO: 18) sequence but not including a portion of the 3'-terminal sequence. Wherein each N is independently A, C, G or U. In one embodiment, the crRNA can be a wild-type crRNA or an engineered crRNA. The above wild-type crRNA may include a spacer sequence, which is a wild-type repeat sequence and a guide sequence, in order from the 5'-terminal to the 3'-terminal. The wild-type repeat sequence may be a sequence of 5'-GUUGCAGAACCCGAAUAGACGAAUGAAGGAAUGCAAC-3' (SEQ ID NO: 19).

한편, 엔지니어링된 가이드 RNA는 엔지니어링된 tracrRNA(transactivating CRISPR RNA) 또는 엔지니어링된 crRNA(CRISPR RNA)를 포함하며, 엔지니어링된 tracrRNA는 연속된 다섯 개 이상의 유리딘 서열을 포함하지 않도록 변형되고, 야생형 tracrRNA보다 뉴클레오티드 서열의 길이가 짧도록 변형된 tracrRNA이고, 엔지니어링된 crRNA는 서열번호 19의 뉴클레오티드 서열 또는 이의 일부 서열을 포함할 수 있다.Meanwhile, the engineered guide RNA includes an engineered tracrRNA (transactivating CRISPR RNA) or an engineered crRNA (CRISPR RNA), wherein the engineered tracrRNA is a tracrRNA modified not to include five or more consecutive uridine sequences and having a shorter nucleotide sequence length than a wild-type tracrRNA, and the engineered crRNA may include the nucleotide sequence of SEQ ID NO: 19 or a portion thereof.

구체적으로, 엔지니어링된 crRNA에서 제5 영역은 5'- GUUGCAGAACCCGAAUAGNNNNNUGAAGGA-3' (서열번호 20) 서열 또는 서열번호 20 서열의 일부 서열일 수 있다. 각각의 N은 독립적으로 A, C, G 또는 U일 수 있다. 서열번호 20 서열의 일부 서열은 상기 서열번호 20 서열 중 5'-NNNNNUGAAGGA-3' (서열번호 21) 서열을 포함하면서 5'-말단부의 일부 서열(예를 들어, 적어도 1개, 2개, 3개, 4개, 5개, 6개, 7개, 8개, 9개, 10개, 11개, 12개, 13개, 14개, 15개, 16개 또는 17개의 뉴클레오티드 서열)을 포함하지 않는 서열일 수 있다. 바람직하게, 제5 영역은 5'-NBNNNUGAAGGA-3' (서열번호 22) 서열을 포함하는 것일 수 있다. 여기서 각각의 N은 독립적으로 A, C, G 또는 U일 수 있고, 상기 B는 U, C 또는 G일 수 있다. Specifically, in the engineered crRNA, the fifth region can be a 5'- GUUGCAGAACCCGAAUAGNNNNNUGAAGGA-3' (SEQ ID NO: 20) sequence or a portion of the SEQ ID NO: 20 sequence. Each N can independently be A, C, G or U. The portion of the SEQ ID NO: 20 sequence can be a sequence that includes the 5'-NNNNNUGAAGGA-3' (SEQ ID NO: 21) sequence of SEQ ID NO: 20 sequence but does not include a portion of the 5'-terminal sequence (e.g., at least 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16 or 17 nucleotide sequence). Preferably, the fifth region may comprise the sequence 5'-NBNNNUGAAGGA-3' (SEQ ID NO: 22), wherein each N may independently be A, C, G or U, and wherein B may be U, C or G.

또한, 제6 영역은 5'-AUGCAAC-3' (서열번호 23) 서열 또는 5'-AUGCAAC-3' 서열에 적어도 70% 이상의 서열 동일성 또는 서열 유사성을 가지는 서열일 수 있다. Additionally, the sixth region may be a 5'-AUGCAAC-3' (SEQ ID NO: 23) sequence or a sequence having at least 70% sequence identity or sequence similarity to the 5'-AUGCAAC-3' sequence.

또한, 엔지니어링된 crRNA는 crRNA의 3'-말단에 제7 영역으로써, U-rich tail 서열을 추가로 더 포함할 수 있다. U-rich tail 서열은 5'-(UaN)dUe-3' 서열, 5'-UaVUaVUe-3' 서열 또는 5'-UaVUaVUaVUe-3' 서열일 수 있다. 여기서, N은 각각 A, C, G 또는 U일 수 있고, V는 독립적으로 A, C 또는 G일 수 있다. 또한, a는 각각 0 내지 4의 정수일 수 있으며, d는 0 내지 3의 정수일 수 있다. e는 0 내지 10의 정수일 수 있다. 일 실시예에서, 제7 영역은 U4AU4 일 수 있다. Additionally, the engineered crRNA can further include a U-rich tail sequence as a seventh region at the 3'-end of the crRNA. The U-rich tail sequence can be a 5'-(UaN)dUe-3' sequence, a 5'-UaVUaVUe-3' sequence or a 5'-UaVUaVUaVUe-3' sequence. Here, N can be A, C, G or U, respectively, and V can be independently A, C or G. Additionally, a can be an integer from 0 to 4, and d can be an integer from 0 to 3. e can be an integer from 0 to 10. In one embodiment, the seventh region can be U 4 AU 4 .

또한, 일 실시예로, 엔지니어링된 crRNA는 제5 영역(MS1 변형 포함), 제6 영역 및 가이드 서열(스페이서 서열)을 5'-말단에서 3'-말단 방향으로 순서대로 포함할 수 있다. 구체적으로, 제5 영역은 5'-GUUGCAGAACCCGAAUAGNBNNNUGAAGGA-3' (서열번호 59) 서열 또는 서열번호 59 서열의 일부 서열일 수 있다. 여기서, N은 독립적으로 A, C, G 또는 U일 수 있고, B는 U, C 또는 G일 수 있다. 서열번호 59 서열의 일부 서열은 상기 서열번호 59 서열 중 5'-NBNNNUGAAGGA-3' (서열번호 60) 서열을 포함하면서 3'-말단부의 일부 서열이 포함하지 않는 서열일 수 있다. 이 때, N은 독립적으로 A, C, G 또는 U일 수 있다. B는 U, C 또는 G일 수 있다. Additionally, in one embodiment, the engineered crRNA can include a fifth region (including the MS1 modification), a sixth region, and a guide sequence (spacer sequence) in that order from the 5'-end to the 3'-end. Specifically, the fifth region can be a 5'-GUUGCAGAACCCGAAUAGNBNNNUGAAGGA-3' (SEQ ID NO: 59) sequence or a portion of the SEQ ID NO: 59 sequence. Here, N can independently be A, C, G, or U, and B can be U, C, or G. The portion of the SEQ ID NO: 59 sequence can be a sequence that includes the 5'-NBNNNUGAAGGA-3' (SEQ ID NO: 60) sequence among the SEQ ID NO: 59 sequences but does not include a portion of the 3'-end sequence. Here, N can independently be A, C, G, or U. B can be U, C, or G.

엔지니어링된 가이드 RNA(engineered gRNA)는 듀얼 가이드 RNA 또는 싱글 가이드 RNA일 수 있다. 엔지니어링된 가이드 RNA가 싱글 가이드 RNA일 때, 엔지니어링된 가이드 RNA는 링커(linker) 서열을 추가로 더 포함할 수 있다. 이때, 링커 서열은 엔지니어링된 tracrRNA와 crRNA 사이에 위치할 수 있고, 링커 서열은 엔지니어링된 tracrRNA와 crRNA 사이에 위치할 수 있고, 5'-GAAA-3' 또는 5'-UUAG-3' 일 수 있다. 보다 구체적으로, 엔지니어링된 tracrRNA는 5'-CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCANNNCNCCUCUCCAAUUCUGCACAA-3' (서열번호 24) 서열, 5'-ACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCANNNCNCCUCUCCAAUUCUGCACAA-3' (서열번호 25) 서열, 5'-CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAUUAGUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCANNNCNCCUCUCCAAUUCUGCACAA-3' (서열번호 26) 서열 또는 5'-ACCGCUUCACCAAUUAGUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCANNNCNCCUCUCCAAUUCUGCACAA-3' (서열번호 27)서열을 포함하거나 이로 이루어질 수 있다. The engineered guide RNA (engineered gRNA) can be a dual guide RNA or a single guide RNA. When the engineered guide RNA is a single guide RNA, the engineered guide RNA can further include a linker sequence. At this time, the linker sequence can be located between the engineered tracrRNA and the crRNA, and the linker sequence can be located between the engineered tracrRNA and the crRNA, and can be 5'-GAAA-3' or 5'-UUAG-3'. More specifically, the engineered tracrRNA has the sequence 5'-CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCANNNCNCCUCUCCAAUUCUGCACAA-3' (SEQ ID NO: 24), 5'-ACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCANNNCNCCUCUCCAAUUCUGCACAA-3' (SEQ ID NO: 25), 5'-CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAUUAGUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCANNNCNCCUCUCCAAUUCUGCACAA-3' (SEQ ID NO: 26) sequence or 5'-ACCGCUUCACCAAUUAGUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCANNNCNCCUCUCCAAUUCUGCACAA-3' (SEQ ID NO: 27).

또한, 엔지니어링된 crRNA는 5'-GUUGCAGAACCCGAAUAGNGNNNUGAAGGAAUGCAAC-3' (서열번호 28) 서열을 포함할 수 있다. 이때, 각각의 N은 독립적으로 A, C, G 또는 U일 수 있다. Additionally, the engineered crRNA can comprise the sequence 5'-GUUGCAGAACCCGAAUAGNGNNNUGAAGGAAUGCAAC-3' (SEQ ID NO: 28), wherein each N can independently be A, C, G, or U.

바람직하게, 엔지니어링된 tracrRNA는 서열번호 24(MS1), 서열번호 25(MS1/MS3), 서열번호 26(MS1/MS5-3) 또는 서열번호 27(MS1/MS3/MS5-3) 중 어느 하나의 염기서열에서 내부의 5'-NNNCN-3' 서열이 5'-GUGCU-3' 서열로 치환된 것으로, 서열번호 29 내지 서열번호 32 중 선택된 어느 하나의 염기서열을 포함하거나 이로 이루어진 것일 수 있다. Preferably, the engineered tracrRNA may comprise or consist of any one of the base sequences selected from SEQ ID NO: 29 to SEQ ID NO: 32, wherein the internal 5'-NNNCN-3' sequence is replaced with the 5'-GUGCU-3' sequence in any one of the base sequences of SEQ ID NO: 24 (MS1), SEQ ID NO: 25 (MS1/MS3), SEQ ID NO: 26 (MS1/MS5-3), or SEQ ID NO: 27 (MS1/MS3/MS5-3).

또한, 엔지니어링된 crRNA는 상기 5'-GUUGCAGAACCCGAAUAGNGNNNUGAAGGAAUGCAAC-3' (서열번호 28)의 염기서열 내부의 5'-NGNNN-3'서열이 5'-AGCAA-3' 서열로 치환된 5'-GUUGCAGAACCCGAAUAGAGCAAUGAAGGAAUGCAAC-3' (서열번호 33)의 염기서열을 포함하거나 이로 이루어진 것일 수 있다. Additionally, the engineered crRNA may include or consist of a base sequence of 5'-GUUGCAGAACCCGAAUAG NGNNN UGAAGGAAUGCAAC-3' (SEQ ID NO: 33), in which the 5'-NGNNN-3' sequence within the base sequence of 5'-GUUGCAGAACCCGAAUAG NGNNN UGAAGGAAUGCAAC-3' (SEQ ID NO: 28) is replaced with the 5'-AGCAA-3' sequence.

다른 일 예로, 엔지니어링된 tracrRNA는 5'-CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCANNNCNCCUCUC-3' (서열번호 34) 서열, 5'-ACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCANNNCNCCUCUC-3' (서열번호 35) 서열, 5'-CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAUUAGUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUG UCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCANNNCNCCUCUC-3' (서열번호 36) 서열 또는 5'-ACCGCUUCACCAAUUAGUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCANNNCNCCUCUC-3' (서열번호 37) 서열을 포함하거나 이로 이루어질 수 있다. As another example, the engineered tracrRNA has the sequence 5'-CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCANNNCNCCUCUC-3' (SEQ ID NO: 34), 5'-ACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCANNNCNCCUCUC-3' (SEQ ID NO: 35), 5'-CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAUUAGUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUG UCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCANNNCNCCUCUC-3' (SEQ ID NO: 36) sequence or 5'-ACCGCUUCACCAAUUAGUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCANNNCNCCUCUC-3' (SEQ ID NO: 37) sequence.

이 때, 엔지니어링된 crRNA는 5'-GAAUAGNGNNNUGAAGGAAUGCAAC-3' (서열번호 38) 서열 및 가이드 서열을 포함할 수 있다. 이때, 각각의 N은 독립적으로 A, C, G 또는 U일 수 있다. At this time, the engineered crRNA can include the sequence 5'-GAAUAGNGNNNUGAAGGAAUGCAAC-3' (SEQ ID NO: 38) and a guide sequence, wherein each N can independently be A, C, G, or U.

바람직하게, 엔지니어링된 tracrRNA는 서열번호 34(MS1/MS4-2), 서열번호 35(MS1/MS3/MS4-2), 서열번호 36(MS1/MS5-3/MS4-2) 또는 서열번호 37(MS1/MS3/MS5-3/MS4-2) 중 어느 하나의 염기서열에서 내부의 5'-NNNCN-3' 서열이 5'-GUGCU-3' 서열로 치환된 것으로, 서열번호 39 내지 서열번호 42 중 선택된 어느 하나의 염기서열을 포함하거나 이로 이루어진 것일 수 있다. Preferably, the engineered tracrRNA may comprise or consist of any one of the base sequences selected from SEQ ID NO: 39 to SEQ ID NO: 42, wherein the internal 5'-NNNCN-3' sequence is replaced with the 5'-GUGCU-3' sequence in any one of the base sequences of SEQ ID NO: 34 (MS1/MS4-2), SEQ ID NO: 35 (MS1/MS3/MS4-2), SEQ ID NO: 36 (MS1/MS5-3/MS4-2), or SEQ ID NO: 37 (MS1/MS3/MS5-3/MS4-2).

또한, 엔지니어링된 crRNA는 5'-GAAUAGNGNNNUGAAGGAAUGCAAC-3' (서열번호 38)의 염기서열 내부의 5'-NGNNN-3' 서열이 5'-AGCAA-3' 서열로 치환된 5'-GAAUAGAGCAAUGAAGGAAUGCAAC-3' (서열번호 43)의 서열을 포함하거나 이로 이루어진 것일 수 있다. Additionally, the engineered crRNA may comprise or consist of a sequence of 5'-GAAUAG AGCAA UGAAGGAAUGCAAC-3' (SEQ ID NO: 43), wherein the 5'-NGNNN-3' sequence within the base sequence of 5'-GAAUAG NGNNN UGAAGGAAUGCAAC-3' (SEQ ID NO: 38) is replaced with the sequence 5'-AGCAA-3'.

엔지니어링된 tracrRNA는 야생형 trcrRNA의 5'-말단으로부터 첫 번째의 스템-루프 구조 및/또는 두 번째의 스템-루프 구조(본 명세서에서 MS3 변형을 포함하는 제1 영역 및 MS5 변형을 포함하는 제2 영역)가 제거된 것일 수 있다. 여기서, 두 번째의 스템-루프 구조의 제거는 적어도 2개 이상의 뉴클레오티드로 구성된 적어도 하나 이상의 이중나선 듀플렉스 구조를 여전히 갖고, 루프 구조는 제거되지 않은 것일 수 있다. 또한, 상기 엔지니어링된 tracrRNA는 crRNA 서열과 결합하기에 충분한 상보성을 갖는 임의의 폴리뉴클레오티드 부위(본 명세서에서 MS1 및/또는 MS4 변형을 포함하는 제4 영역)에서 연속된 다섯 개 이상의 유리딘 서열을 포함하지 않도록 변형된 tracrRNA일 수 있다. 또한, 엔지니어링된 tracrRNA는 crRNA 서열과 결합하기에 충분한 상보성을 갖는 1개 내지 10개, 2개 내지 10개, 3개 내지 10개, 4개 내지 10개, 5개 내지 10개, 6개 내지 10개, 1개 내지 8개, 2개 내지 8개, 3개 내지 8개, 4개 내지 8개, 5개 내지 8개, 1개 내지 6개, 2개 내지 6개, 또는 3개 내지 6개(예를 들면, 1개, 2개, 3개 4개, 5개, 6개, 7개, 8개, 9개, 10개)의 임의의 뉴클레오티드 서열을 포함할 수 있다. The engineered tracrRNA may be a tracrRNA in which the first stem-loop structure and/or the second stem-loop structure (the first region comprising the MS3 modification and the second region comprising the MS5 modification herein) from the 5'-end of the wild-type tracrRNA is removed. Here, the removal of the second stem-loop structure may still have at least one double-stranded duplex structure composed of at least two or more nucleotides, and the loop structure may not be removed. In addition, the engineered tracrRNA may be a tracrRNA modified such that it does not contain five or more consecutive uridine sequences at any polynucleotide portion (the fourth region comprising the MS1 and/or MS4 modification herein) that has sufficient complementarity to bind to the crRNA sequence. Additionally, the engineered tracrRNA can comprise any nucleotide sequence of 1 to 10, 2 to 10, 3 to 10, 4 to 10, 5 to 10, 6 to 10, 1 to 8, 2 to 8, 3 to 8, 4 to 8, 5 to 8, 1 to 6, 2 to 6, or 3 to 6 (e.g., 1, 2, 3, 4, 5, 6, 7, 8, 9, 10) that has sufficient complementarity to bind to the crRNA sequence.

일 구현예에서, 엔지니어링된 가이드 RNA는 서열번호 44 내지 서열번호 48 및 서열번호 105 내지 서열번호 137로 이루어진 군에서 선택된 어느 하나의 뉴클레오티드 서열; 또는 서열번호 125 내지 137로 이루어진 군에서 선택된 어느 하나의 뉴클레오티드 서열에서 3'-말단에 U-rich tail 서열이 추가된 서열을 포함할 수 있다. 일 예로, 본 발명의 초소형 유전자 편집 단백질 Cas12f1 변이체 단백질 또는 이의 동족체 단백질에 대한 엔지니어링된 가이드 RNA(augment RNA)는 MS1에서 변형을 갖는 augment RNA(서열번호 44), MS1/MS2에서 변형을 갖는 augment RNA(서열번호 45), MS1/MS2/MS3에서 변형을 갖는 augment RNA Cas12f1_ge3.0(서열번호 46), MS2/MS3/MS4에서 변형을 갖는 augment RNA Cas12f1_ge4.0(서열번호 47) 및/또는 MS2/MS3/MS4/MS5에서 변형을 갖는 augment RNA Cas12f1_ge4.1(서열번호 48)일 수 있다. In one embodiment, the engineered guide RNA can comprise a sequence selected from the group consisting of SEQ ID NO: 44 to SEQ ID NO: 48 and SEQ ID NO: 105 to SEQ ID NO: 137; or a sequence selected from the group consisting of SEQ ID NO: 125 to 137, wherein a U-rich tail sequence is added to the 3'-end. For example, the engineered guide RNA (augment RNA) for the ultra-small gene editing protein Cas12f1 variant protein of the present invention or a homolog protein thereof may be an augment RNA having a modification in MS1 (SEQ ID NO: 44), an augment RNA having a modification in MS1/MS2 (SEQ ID NO: 45), an augment RNA Cas12f1_ge3.0 having a modification in MS1/MS2/MS3 (SEQ ID NO: 46), an augment RNA Cas12f1_ge4.0 having a modification in MS2/MS3/MS4 (SEQ ID NO: 47), and/or an augment RNA Cas12f1_ge4.1 having a modification in MS2/MS3/MS4/MS5 (SEQ ID NO: 48).

한편, 본 발명의 엔지니어링된 가이드 RNA(augment RNA)에 대한 사항은 PCT/KR2020/014961, PCT/KR2021/013923, PCT/KR2021/013933 및 PCT/KR2021/013898 출원에 개시된 엔지니어링된 가이드 RNA, 엔지니어링된 tracrRNA(transactivating CRISPR RNA) 및 엔지니어링된 crRNA(CRISPR RNA)와 관련된 내용이 모두 원용된다. 이하, 본 명세서에서 엔지니어링된 가이드 RNA(augment RNA)에 대한 내용을 서술할 때 상기 출원들에 개시된 모든 내용을 포함하는 것으로 이해해야 한다. Meanwhile, the contents related to the engineered guide RNA (augment RNA) of the present invention, the engineered guide RNA, the engineered tracrRNA (transactivating CRISPR RNA) and the engineered crRNA (CRISPR RNA) disclosed in the applications PCT/KR2020/014961, PCT/KR2021/013923, PCT/KR2021/013933 and PCT/KR2021/013898 are all cited. Hereinafter, when describing the contents of the engineered guide RNA (augment RNA) in the present specification, it should be understood that all contents disclosed in the above applications are included.

(2) 스캐폴드 영역(2) Scaffold area

(2-1) 구조 및 기능(2-1) Structure and function

본 발명의 구현예에 따른 엔지니어링된 가이드 RNA(engineered gRNA)의 서열을 기능적으로 나누어 보면, Cas12f1 변이체 단백질과 상호작용하여 가이드 RNA 및 Cas12f1 변이체 단백질 복합체를 형성하도록 하는 서열 부분, 가이드 RNA 및 Cas12f1 변이체 단백질 복합체가 표적 핵산을 찾아갈 수 있도록 하는 서열 부분 및 U-rich tail 서열 부분으로 나눌 수 있다. 이때, 상기 Cas12f1 변이체 단백질과 상호작용하여 가이드 RNA 및 Cas12f1 변이체 단백질 복합체를 형성하도록 하는 서열 부분을 스캐폴드 서열이라 할 수 있다. 구체적으로, 상기 스캐폴드 서열은 tracrRNA 및 crRNA인 두 분자 이상의 RNA의 서열을 포함할 수 있다.When the sequence of the engineered guide RNA according to the embodiment of the present invention is functionally divided, it can be divided into a sequence portion that interacts with the Cas12f1 variant protein to form a guide RNA and Cas12f1 variant protein complex, a sequence portion that allows the guide RNA and Cas12f1 variant protein complex to find a target nucleic acid, and a U-rich tail sequence portion. At this time, the sequence portion that interacts with the Cas12f1 variant protein to form a guide RNA and Cas12f1 variant protein complex may be referred to as a scaffold sequence. Specifically, the scaffold sequence may include sequences of two or more RNA molecules, namely, tracrRNA and crRNA.

일 구현예로, 엔지니어링된 가이드 RNA가 듀얼 가이드 RNA인 경우, 스캐폴드 서열은 augment RNA 서열 중 tracrRNA 서열 및 crRNA에 포함된 CRISPR RNA 반복 서열을 포함할 수 있다. 일 예로, tracrRNA 서열은 자연계에서 발견되는 tracrRNA 서열의 전부 또는 일부가 변형된 것일 수 있다. 또한, 상기 CRISPR RNA 반복 서열은 자연계에서 발견되는 CRISPR RNA 반복 서열의 전부 또는 일부가 변형된 것일 수 있다.In one embodiment, when the engineered guide RNA is a dual guide RNA, the scaffold sequence may include a tracrRNA sequence among the augment RNA sequences and a CRISPR RNA repeat sequence included in the crRNA. As an example, the tracrRNA sequence may be a modified version of all or a portion of a tracrRNA sequence found in nature. Additionally, the CRISPR RNA repeat sequence may be a modified version of all or a portion of a CRISPR RNA repeat sequence found in nature.

또한, 엔지니어링된 가이드 RNA가 싱글 가이드 RNA인 경우, 스캐폴드 서열은 엔지니어링된 tracrRNA 서열, 링커 서열 및 엔지니어링된 crRNA 서열에 포함된 CRISPR RNA 반복 서열을 포함할 수 있다. 일 구현예로, 상기 tracrRNA 서열은 자연계에서 발견되는 tracrRNA 서열의 전부 또는 일부가 변형된 것일 수 있다. Additionally, when the engineered guide RNA is a single guide RNA, the scaffold sequence may include the engineered tracrRNA sequence, the linker sequence, and the CRISPR RNA repeat sequence included in the engineered crRNA sequence. In one embodiment, the tracrRNA sequence may be a modified version of all or part of a tracrRNA sequence found in nature.

또한, 일 구현예에서, 스캐폴드 영역은 tracrRNA 및 crRNA의 일부를 포함하며, 반드시 한 분자의 RNA를 지칭하는 것은 아니다. 상기 스캐폴드 영역은 다시 제1 영역, 제2 영역, 제3 영역, 제4 영역, 제5 영역 및 제6 영역으로 세분화될 수 있다. 상기 세분화된 영역을 tracrRNA와 crRNA의 부위에 따라 서술하면, 제1 영역 내지 제4 영역은 tracrRNA에 포함되고, 제5 영역 내지 상기 제6 영역은 crRNA, 다시 말해 crRNA 반복 서열 부분에 포함된다. In addition, in one embodiment, the scaffold region includes a portion of tracrRNA and crRNA, and does not necessarily refer to one molecule of RNA. The scaffold region can be further subdivided into a first region, a second region, a third region, a fourth region, a fifth region, and a sixth region. When the subdivided regions are described according to the portions of tracrRNA and crRNA, the first to fourth regions are included in tracrRNA, and the fifth to sixth regions are included in crRNA, i.e., the crRNA repeat sequence portion.

일 구현예로, 엔지니어링된 스캐폴드 영역은 자연계에서 발견되는 가이드 RNA의 스캐폴드 영역과는 다른 것으로, 그 스캐폴드 부분의 일부가 변형된 것을 특징으로 한다. 일 예로, 엔지니어링된 스캐폴드 영역은 자연계에서 발견되는 가이드 RNA의 스캐폴드 영역 중 일부 영역이 제거된 것일 수 있다. 다른 예로, 엔지니어링된 스캐폴드 영역은 자연계에서 발견되는 가이드 RNA의 스캐폴드 영역에 포함된 하나 이상의 뉴클레오티드가 제거된 것일 수 있다. 스캐폴드 영역은 tracrRNA 및 crRNA의 일부를 포함하는 영역으로, Cas12f1 변이체 단백질 또는 이의 동족체 단백질과 상호작용하는 부분이다. In one embodiment, the engineered scaffold region is different from the scaffold region of a guide RNA found in nature, characterized in that a portion of the scaffold portion is modified. For example, the engineered scaffold region may be a scaffold region of a guide RNA found in nature with a portion of the scaffold region removed. In another example, the engineered scaffold region may be a scaffold region of a guide RNA found in nature with one or more nucleotides removed. The scaffold region is a region comprising a portion of tracrRNA and crRNA, which interacts with the Cas12f1 variant protein or a homolog protein thereof.

(2-2) 스캐폴드 제1 영역(2-2) Scaffold area 1

스캐폴드 제1 영역은 tracrRNA의 5'-말단을 포함하는 영역으로, 상기 제1 영역은 가이드 RNA 및 Cas12f1 변이체 단백질 복합체 내에서 Stem 구조를 형성하는 뉴클레오티드를 포함하고, 이와 인접한 뉴클레오티드를 포함할 수 있다. 제1 영역은 가이드 RNA 및 Cas12f1 변이체 단백질 복합체에서, Cas12f1 변이체 단백질과 상호작용하지 않는 영역(region)을 포함할 수 있다. The scaffold first region is a region including the 5'-end of tracrRNA, wherein the first region includes nucleotides forming a Stem structure within the guide RNA and Cas12f1 variant protein complex, and may include nucleotides adjacent thereto. The first region may include a region that does not interact with the Cas12f1 variant protein in the guide RNA and Cas12f1 variant protein complex.

일부 구현예에서, 제1 영역은 서열번호 58의 염기서열을 포함하는 야생형 tracrRNA의 5'-말단으로부터 1번째 뉴클레오티드부터 21번째 뉴클레오티드까지를 의미할 수 있다. 일 예로, 제1 영역의 서열은 5'-CUUCACUGAUAAAGUGGAGAA-3' (서열번호 7)일 수 있다. 또한, 제1 영역의 서열은 서열번호 7 서열의 일부 서열일 수 있다. 서열번호 7 서열의 일부 서열은 서열번호 7 서열의 5'-말단의 서열이 순차적으로 제거되고 남은 3'-말단부에서 순차적인 일부 서열일 수 있다. 보다 구체적으로, 제1 영역은 5'-GAUAAAGUGGAGAA-3' (서열번호 8), 5'-UGGAGAA-3' 또는 5'-A-3'일 수 있다. 또는, 엔지니어링된 tracrRNA는 제1 영역(1-21 부위)에 해당하는 서열이 모두 제거된 것일 수 있다.In some implementations, the first region can mean the 1st nucleotide to the 21st nucleotide from the 5'-terminus of a wild-type tracrRNA comprising a base sequence of SEQ ID NO: 58. For example, the sequence of the first region can be 5'-CUUCACUGAUAAAGUGGAGAA-3' (SEQ ID NO: 7). Additionally, the sequence of the first region can be a partial sequence of the sequence of SEQ ID NO: 7. The partial sequence of the sequence of SEQ ID NO: 7 can be a sequential partial sequence from the 3'-terminus of the sequence of SEQ ID NO: 7 after the sequence of the 5'-terminus of the sequence of SEQ ID NO: 7 is sequentially removed. More specifically, the first region can be 5'-GAUAAAGUGGAGAA-3' (SEQ ID NO: 8), 5'-UGGAGAA-3' or 5'-A-3'. Alternatively, the engineered tracrRNA can be one in which the sequence corresponding to the first region (region 1-21) is completely removed.

(2-3) 스캐폴드 제2 영역(2-3) Scaffold area 2

스캐폴드 제2 영역은 tracrRNA 내 제1 영역의 3'-말단 방향에 위치한 영역을 지칭한다. 제2 영역은 가이드 RNA 및 Cas12f1 변이체 단백질 복합체 내에서 Stem 구조를 형성하는 뉴클레오티드를 포함하고, 이와 인접한 뉴클레오티드를 포함할 수 있다. 이때, Stem 구조는 제1 영역에 포함된 Stem과는 다른 것이다. 제2 영역은 Stem 2 부분(Takeda et al., Structure of the miniature type V-F CRISPR-Cas effector enzyme, Molecular Cell 81, 1-13(2021))을 포함한다. 제2 영역은 Stem 2 부분과 인접한 하나 이상의 뉴클레오티드를 포함할 수 있다. 제2 영역은 가이드 RNA 및 Cas12f1 변이체 단백질 복합체에서 Cas12f1 변이체 단백질과 상호작용하지 않는 영역을 포함할 수 있다. The scaffold second region refers to a region located at the 3'-end of the first region in the tracrRNA. The second region comprises nucleotides that form a Stem structure within the guide RNA and the Cas12f1 variant protein complex, and may comprise nucleotides adjacent thereto. In this case, the Stem structure is different from the Stem included in the first region. The second region comprises a Stem 2 portion (Takeda et al., Structure of the miniature type V-F CRISPR-Cas effector enzyme, Molecular Cell 81, 1-13 (2021)). The second region may comprise one or more nucleotides adjacent to the Stem 2 portion. The second region may comprise a region that does not interact with the Cas12f1 variant protein in the guide RNA and the Cas12f1 variant protein complex.

일 구현예로, 제2 영역은 서열번호 58의 염기서열을 포함하는 야생형 tracrRNA의 5'-말단으로부터 22번째 뉴클레오티드부터 71번째 뉴클레오티드까지를 의미할 수 있다. 구체적으로, 제2 영역의 서열은 5'-CCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUG-3' (서열번호 9)일 수 있다. 또한, 제2 영역은 서열번호 9 서열의 일부 서열일 수 있다. 상기 서열번호 9 서열의 일부 서열은 서열번호 9 서열에서 상보적 결합을 형성하는 적어도 한 쌍 이상의 뉴클레오티드 및/또는 상보적 결합을 형성하지 않는 적어도 하나 이상의 뉴클레오티드가 삭제된 서열일 수 있다. 일 예로, 5'-CCGCUUCACCAAUUAGUUGAGUGAAGGUG-3' (서열번호 10) 서열, 5'-CCGCUUCACCAAAAGCUUAGGAACUUGAGUGAAGGUG-3' (서열번호 11) 서열 또는 5'-CCGCUUCACCAAAAGCUGUUUAGAUUAGAACUUGAGUGAAGGUG-3' (서열번호 12) 서열일 수 있다. 이 때, 서열번호 9 내지 12 중 어느 하나의 서열 내에 포함된 루프 부분은 5'-UUAG-3' 서열이고, 이는 필요에 따라 5'-GAAA-3' 서열로 치환될 수 있다.In one embodiment, the second region may refer to a region from the 22nd nucleotide to the 71st nucleotide from the 5'-end of a wild-type tracrRNA comprising a base sequence of SEQ ID NO: 58. Specifically, the sequence of the second region may be 5'-CCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUG-3' (SEQ ID NO: 9). In addition, the second region may be a partial sequence of the SEQ ID NO: 9 sequence. The partial sequence of the SEQ ID NO: 9 sequence may be a sequence in which at least one pair of nucleotides forming a complementary bond and/or at least one nucleotide not forming a complementary bond in the SEQ ID NO: 9 sequence is deleted. For example, the sequence may be 5'-CCGCUUCACCAAUUAGUUGAGUGAAGGUG-3' (SEQ ID NO: 10), 5'-CCGCUUCACCAAAAGCUUAGGAACUUGAGUGAAGGUG-3' (SEQ ID NO: 11) or 5'-CCGCUUCACCAAAAGCUGUUUAGAUUAGAACUUGAGUGAAGGUG-3' (SEQ ID NO: 12). In this case, the loop portion included in any one of the sequences of SEQ ID NOs: 9 to 12 is a 5'-UUAG-3' sequence, which may be substituted with a 5'-GAAA-3' sequence as needed.

(2-4) 스캐폴드 제3 영역(2-4) Scaffold 3rd area

스캐폴드 제3 영역은 tracrRNA 내 상기 제2 영역의 3'-말단 방향에 위치한 영역을 지칭한다. 제3 영역은 가이드 RNA 및 Cas12f1 단백질 복합체 내에서 Stem 구조를 형성하는 뉴클레오티드 및 crRNA에 포함된 일부 뉴클레오티드와 상보적인 결합을 형성하고 있는 뉴클레오티드를 포함하고, 이와 인접한 뉴클레오티드를 포함할 수 있다.The scaffold third region refers to a region located at the 3'-end of the second region in tracrRNA. The third region includes nucleotides that form a Stem structure within the guide RNA and Cas12f1 protein complex and nucleotides that form a complementary bond with some of the nucleotides included in crRNA, and may include nucleotides adjacent thereto.

일 구현예로, 제3 영역은 서열번호 58의 염기서열을 포함하는 야생형 tracrRNA의 5'-말단으로부터 72번째 뉴클레오티드에서 129번째 뉴클레오티드까지를 의미할 수 있다. 일 구현예로, 제3 영역의 서열은 5'-GGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAA-3' (서열번호 13) 서열 또는 서열번호 13 서열에 적어도 70% 이상의 서열 상동성을 가지는 서열일 수 있다.In one embodiment, the third region may refer to a region from the 72nd nucleotide to the 129th nucleotide from the 5'-terminus of the wild-type tracrRNA comprising the base sequence of SEQ ID NO: 58. In one embodiment, the sequence of the third region may be a sequence of 5'-GGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAA-3' (SEQ ID NO: 13) or a sequence having at least 70% sequence homology to the sequence of SEQ ID NO: 13.

(2-5) 스캐폴드 제4 영역(2-5) Scaffold Area 4

스캐폴드 제4 영역은 tracrRNA의 제3 영역의 3'-말단 방향에 위치한 영역을 지칭한다. 제4 영역은 가이드 RNA 및 Cas12f1 변이체 단백질 복합체 내에서 crRNA에 포함된 일부 뉴클레오티드와 상보적인 결합을 형성할 수 있는 뉴클레오티드를 포함하고, 이와 인접한 뉴클레오티드를 포함할 수 있다. 제4 영역은 crRNA의 제5 영역에 포함된 하나 이상의 뉴클레오티드와 상보적으로 결합하는 하나 이상의 뉴클레오티드를 포함할 수 있다. 제4 영역은 가이드 RNA 및 Cas12f1 변이체 단백질 복합체에서 Cas12f1 변이체 단백질과 상호작용하지 않는 영역을 포함할 수 있다. The fourth region of the scaffold refers to a region located at the 3'-end of the third region of tracrRNA. The fourth region comprises nucleotides capable of forming complementary bonds with some nucleotides included in the crRNA within the guide RNA and Cas12f1 variant protein complex, and may comprise nucleotides adjacent thereto. The fourth region may comprise one or more nucleotides that complementarily bind with one or more nucleotides included in the fifth region of the crRNA. The fourth region may comprise a region that does not interact with the Cas12f1 variant protein in the guide RNA and Cas12f1 variant protein complex.

일 구현예로, 제4 영역은 서열번호 58의 염기서열을 포함하는 야생형 tracrRNA의 5'-말단으로부터 130번째 뉴클레오티드에서 161번째 뉴클레오티드까지를 의미할 수 있다. 제4 영역은 MS1을 포함하는 MS4 부분으로 5'-CAAAUUCANNNNNCCUCUCCAAUUCUGCACAA-3' (서열번호 14) 서열 또는 서열번호 14 서열의 일부 서열일 수 있다. 서열번호 14 서열에서 내부의 5'-NNNNN-3' 부위는 MS1 부분이고, 상기 N은 각각 A, C, G 또는 U일 수 있다. 일 예로, 서열번호 14 서열의 일부 서열은 상기 서열번호 14 서열 중 5'-CAAAUUCANNNNN-3'(서열번호 15) 서열을 포함하면서 3'-말단부의 일부 서열이 포함하지 않는 서열일 수 있다. 구체적으로, 5'-CAAAUUCANNNNNCCUCUCCAAUUC-3' (서열번호 16) 서열, 5'-CAAAUUCANNNNNCCUCUC-3' (서열번호 17) 서열 또는 5'-CAAAUUCANNNNN-3' (서열번호 15) 서열일 수 있다. 또한, 제4 영역은 상기 5'-NNNNN-3' 부위가 5'-NNNVN-3' 또는 5'-NVNNN-3'로 치환된 것을 포함할 수 있다. 여기서, N은 각각 독립적으로 A, C, G 또는 U이고, V는 A, C 또는 G일 수 있다. 바람직하게, 제4 영역은 5'-CAAAUUCANNNCN-3' (서열번호 18) 서열을 포함하면서 3'-말단부의 일부 서열이 포함하지 않는 서열일 수 있다. 여기서, N은 각각 독립적으로 A, C, G 또는 U이다. In one embodiment, the fourth region may mean a region from the 130th nucleotide to the 161st nucleotide from the 5'-terminus of a wild-type tracrRNA including a base sequence of SEQ ID NO: 58. The fourth region may be an MS4 portion including MS1, a 5'-CAAAUUCANNNNNCCUCUCCAAUUCUGCACAA-3' (SEQ ID NO: 14) sequence or a partial sequence of the SEQ ID NO: 14 sequence. In the SEQ ID NO: 14 sequence, the internal 5'-NNNNN-3' portion is the MS1 portion, and each of the Ns may be A, C, G, or U. As an example, the partial sequence of the SEQ ID NO: 14 sequence may be a sequence including the 5'-CAAAUUCANNNNN-3' (SEQ ID NO: 15) sequence among the SEQ ID NO: 14 sequence, but not including a partial sequence of the 3'-terminal portion. Specifically, it may be a 5'-CAAAUUCANNNNNCCUCUCCAAUUC-3' (SEQ ID NO: 16) sequence, a 5'-CAAAUUCANNNNNCCUCUC-3' (SEQ ID NO: 17) sequence or a 5'-CAAAUUCANNNNN-3' (SEQ ID NO: 15) sequence. In addition, the fourth region may include a 5'-NNNNN-3' portion substituted with 5'-NNNVN-3' or 5'-NVNNN-3'. Here, N may each independently be A, C, G or U, and V may be A, C or G. Preferably, the fourth region may be a sequence including a 5'-CAAAUUCANNNCN-3' (SEQ ID NO: 18) sequence but not including a part of the 3'-terminal sequence. Here, N may each independently be A, C, G or U.

(2-6) 스캐폴드 제5 영역(2-6) Scaffold Area 5

스캐폴드 제5 영역은 crRNA의 5'-말단을 포함하는 영역을 지칭한다. 제5 영역은 가이드 RNA 및 Cas12f1 변이체 단백질 복합체 내에서 제4 영역의 하나 이상의 뉴클레오티드와 상보적인 결합을 형성하는 뉴클레오티드를 포함하며, 이와 인접한 뉴클레오티드를 포함할 수 있다. 제5 영역은 제4 영역에 포함된 하나 이상의 뉴클레오티드와 상보적으로 결합하는 하나 이상의 뉴클레오티드를 포함할 수 있다. 제5 영역은 가이드 RNA 및 Cas12f1 변이체 단백질 복합체에서, Cas12f1 변이체 단백질과 상호작용하지 않는 영역을 포함할 수 있다.The fifth region of the scaffold refers to a region comprising the 5'-end of the crRNA. The fifth region comprises a nucleotide that forms a complementary bond with one or more nucleotides of the fourth region within the guide RNA and Cas12f1 variant protein complex, and may comprise nucleotides adjacent thereto. The fifth region may comprise one or more nucleotides that complementarily bind with one or more nucleotides included in the fourth region. The fifth region may comprise a region that does not interact with the Cas12f1 variant protein in the guide RNA and Cas12f1 variant protein complex.

제5 영역은 서열번호 19의 염기서열을 포함하는 야생형 crRNA 반복 서열의 5'-말단으로부터 1번째 뉴클레오티드에서 30번째 뉴클레오티드까지를 의미할 수 있다. 일 예로, 엔지니어링된 crRNA에서 제5 영역은 5'- GUUGCAGAACCCGAAUAGNNNNNUGAAGGA-3' (서열번호 20) 서열 또는 서열번호 20 서열의 일부 서열일 수 있다. 여기서, N은 독립적으로 A, C, G 또는 U일 수 있다. 서열번호 20의 일부 서열은 서열번호 20의 염기서열 중 5'-NNNNNUGAAGGA-3' (서열번호 21) 서열을 포함하면서 5'-말단부의 일부 서열이 포함하지 않는 서열일 수 있다. 바람직하게, 제5 영역은 5'-NBNNNUGAAGGA-3' (서열번호 22) 서열을 포함하는 것일 수 있다. 여기서, N은 독립적으로 A, C, G 또는 U일 수 있고, B는 U, C 또는 G일 수 있다.The fifth region may refer to a region from the 1st nucleotide to the 30th nucleotide from the 5'-terminus of the wild-type crRNA repeat sequence including the base sequence of SEQ ID NO: 19. For example, in the engineered crRNA, the fifth region may be a 5'- GUUGCAGAACCCGAAUAGNNNNNUGAAGGA-3' (SEQ ID NO: 20) sequence or a partial sequence of the SEQ ID NO: 20 sequence. Here, N may independently be A, C, G, or U. The partial sequence of SEQ ID NO: 20 may be a sequence including the 5'-NNNNNUGAAGGA-3' (SEQ ID NO: 21) sequence among the base sequences of SEQ ID NO: 20 but not including a partial sequence of the 5'-terminal part. Preferably, the fifth region may include a 5'-NBNNNUGAAGGA-3' (SEQ ID NO: 22) sequence. Here, N can be independently A, C, G or U, and B can be U, C or G.

또한 제5 영역의 서열은 5'-GUUGCAGAACCCGAAUAGNBNNNUGAAGGA-3' (서열번호 59)일 수 있다. 여기서, N은 A, C, G 또는 U일 수 있고, B는 U, C, 또는 G일 수 있다. 바람직하게, 5'-GUUGCAGAACCCGAAUAGACGAAUGAAGGA-3' (서열번호 65)일 수 있다. 일 구현예로, 제5 영역은 서열번호 19의 염기서열을 포함하는 야생형 crRNA 반복 서열의 5'-말단으로부터 21번째 뉴클레오티드에서 30번째 뉴클레오티드까지를 의미할 수 있다. 일 구현예로, 제5 영역의 서열은 5'-GAAUGAAGGA-3' (서열번호 66)일 수 있다.Additionally, the sequence of the fifth region can be 5'-GUUGCAGAACCCGAAUAGNBNNNUGAAGGA-3' (SEQ ID NO: 59). Here, N can be A, C, G or U, and B can be U, C, or G. Preferably, it can be 5'-GUUGCAGAACCCGAAUAGACGAAUGAAGGA-3' (SEQ ID NO: 65). In one embodiment, the fifth region can mean the 21st nucleotide to the 30th nucleotide from the 5'-end of the wild-type crRNA repeat sequence including the base sequence of SEQ ID NO: 19. In one embodiment, the sequence of the fifth region can be 5'-GAAUGAAGGA-3' (SEQ ID NO: 66).

(2-7) 스캐폴드 제6 영역(2-7) Scaffold Area 6

스캐폴드 제6 영역은 crRNA 내 제5 영역의 3'-말단 방향에 위치한 영역을 지칭한다. 서열번호 19의 염기서열을 포함하는 야생형 crRNA 반복 서열의 5'-말단으로부터 31번째 뉴클레오티드에서 37번째 뉴클레오티드까지를 의미할 수 있다. The scaffold region 6 refers to a region located in the 3'-terminal direction of the region 5 in crRNA. It may mean from the 31st nucleotide to the 37th nucleotide from the 5'-terminus of the wild-type crRNA repeat sequence including the base sequence of SEQ ID NO: 19.

일 구현예로, 제6 영역은 5'-AUGCAAC-3' (서열번호 23) 서열 또는 5'-AUGCAAC-3'서열에 적어도 70% 이상의 서열 상동성을 가지는 서열일 수 있다. 제6 영역은 가이드 RNA 및 Cas12f1 변이체 단백질 복합체 내에서 제3 영역의 하나 이상의 뉴클레오티드와 상보적인 결합을 형성하는 뉴클레오티드를 포함하며, 이와 인접한 뉴클레오티드를 포함할 수 있다. In one embodiment, the sixth region can be a 5'-AUGCAAC-3' sequence (SEQ ID NO: 23) or a sequence having at least 70% sequence identity to the 5'-AUGCAAC-3' sequence. The sixth region comprises a nucleotide that forms a complementary bond with one or more nucleotides of the third region within the guide RNA and Cas12f1 variant protein complex, and can comprise nucleotides adjacent thereto.

(2-8) 스캐폴드 제7 영역(2-8) Scaffold Area 7

또한, 본 발명의 구현예에 따른 엔지니어링된 crRNA는 crRNA의 3'-말단에 제7 영역으로써, U-rich tail 서열을 추가로 더 포함할 수 있다. 이는 본 발명의 가이드 RNA 및 Cas12f1 변이체 단백질 복합체를 포함하는 초소형 유전자 편집 시스템의 유전자 편집 효율 향상을 위해 도입할 수 있는 엔지니어링된 스캐폴드 영역에 추가된 것이다. 엔지니어링된 스캐폴드 영역은 전술한 U-rich tail과 시너지를 일으켜, 엔지니어링된 가이드 RNA가 사용된 초소형 유전자 편집 시스템의 유전자 편집 효율을 향상시킨다. U-rich tail 서열은 5'-(UaN)dUe-3', 5'-UaVUaVUe-3' 또는 5'-UaVUaVUaVUe-3'일 수 있다. 여기서, N은 A, C, G 또는 U일 수 있고, V는 독립적으로 A, C 또는 G일 수 있다. 또한, a는 0 내지 4의 정수일 수 있고, d는 0 내지 3의 정수일 수 있으며, e는 0 내지 10의 정수일 수 있다. 일 예로, 제7 영역은 U4AU4 일 수 있다. In addition, the engineered crRNA according to the embodiment of the present invention can further include a U-rich tail sequence as a seventh region at the 3'-end of the crRNA. This is in addition to the engineered scaffold region that can be introduced to improve the gene editing efficiency of the ultra-small gene editing system including the guide RNA and Cas12f1 variant protein complex of the present invention. The engineered scaffold region synergizes with the above-mentioned U-rich tail to improve the gene editing efficiency of the ultra-small gene editing system using the engineered guide RNA. The U-rich tail sequence can be 5'-(UaN)dUe-3', 5'-UaVUaVUe-3' or 5'-UaVUaVUaVUe-3'. Here, N can be A, C, G or U, and V can be A, C or G independently. Additionally, a can be an integer from 0 to 4, d can be an integer from 0 to 3, and e can be an integer from 0 to 10. As an example, the seventh region can be U 4 AU 4 .

다른 구현예로, 엔지니어링된 가이드 RNA는 3'-말단 부분에 유리딘(U)이 풍부하게 포함된 U-rich tail을 포함할 수 있다. U-rich tail 서열은 기본적으로 유리딘을 풍부하게 포함하고 있으며, 유리딘이 하나 이상 연속된 서열을 포함한다. U-rich tail 서열은 엔지니어링된 초소형 유전자 편집 시스템의 실사용 환경 및 발현 환경, 예를 들어 진핵 세포 또는 원핵 세포 내부 환경에 따라 유리딘 외 추가적인 염기를 더 포함할 수 있다. In another embodiment, the engineered guide RNA may include a U-rich tail enriched with uridine (U) at the 3'-terminal portion. The U-rich tail sequence is basically enriched with uridine and includes a sequence of one or more consecutive uridines. The U-rich tail sequence may further include additional bases other than uridine depending on the actual usage environment and expression environment of the engineered miniature genome editing system, for example, the environment inside a eukaryotic cell or a prokaryotic cell.

본 발명의 구현예에서 제공되는 U-rich tail 서열은 보다 바람직하게, 유리딘(U)이 1개 내지 5개 반복될 때마다, 유리딘이 아닌 다른 리보뉴클레오시드(A, C, G)가 하나씩 포함된 변형된 유리딘 반복 서열을 포함할 수 있다. 상기 변형된 유리딘 연속 서열은 특히 엔지니어링된 crRNA를 발현하는 벡터를 설계할 때 유용하다. 일 구현예로, U-rich tail 서열은 UV, UUV, UUUV, UUUUV 및/또는 UUUUUV가 하나 이상 반복된 서열을 포함할 수 있다. 이때, 상기 V는 아데노신(A), 시티딘(C), 구아노신(G) 중 하나이다. In an embodiment of the present invention, the U-rich tail sequence provided may more preferably include a modified uridine repeat sequence in which one ribonucleoside other than uridine (A, C, G) is included for every 1 to 5 repetitions of uridine (U). The modified uridine contiguous sequence is particularly useful when designing a vector expressing an engineered crRNA. In one embodiment, the U-rich tail sequence may include a sequence in which UV, UUV, UUUV, UUUUV and/or UUUUUV are repeated one or more times. In this case, V is one of adenosine (A), cytidine (C), and guanosine (G).

일 구현예로, U-rich tail의 서열은 (UaN)bUc로 표현될 수 있다. 이때, N은 A, U, C, 또는 G 중 하나이며, a, b, c는 정수이고, a는 1 이상 5 이하, b는 0 이상 2 이하, c는 1 이상 10 이하일 수 있다. 일 구현예로, U-rich tail의 서열은 5'-U-3', 5'-UU-3', 5'-UUU-3', 5'-UUUU-3', 5'-UUUUU-3', 5'-UUUUUU-3', 5'-UUURUUU-3' (서열번호 67), 5'-UUURUUURUUU-3' (서열번호 68), 5'-UUUURU-3' (서열번호 69), 5'-UUUURUU-3' (서열번호 70), 5'-UUUURUUU-3' (서열번호 71), 5'-UUUURUUUU-3' (서열번호 72), 5'-UUUURUUUUU-3' (서열번호 73) 또는 5'-UUUURUUUUUU-3' (서열번호 74)일 수 있다. 여기서 R은 A 또는 G일 수 있다. In one implementation, the sequence of the U-rich tail can be represented as (UaN)bUc, where N is one of A, U, C, or G, a, b, and c are integers, a can be 1 or more and 5 or less, b can be 0 or more and 2 or less, and c can be 1 or more and 10 or less. In one embodiment, the sequence of the U-rich tail is 5'-U-3', 5'-UU-3', 5'-UUU-3', 5'-UUUU-3', 5'-UUUUU-3', 5'-UUUUU-3', 5'-UUUUUU-3', 5'-UUURUUU-3' (SEQ ID NO: 67), 5'-UUURUUUUU-3' (SEQ ID NO: 68), 5'-UUUURU-3' (SEQ ID NO: 69), 5'-UUUURUU-3' (SEQ ID NO: 70), 5'-UUUURUUU-3' (SEQ ID NO: 71), 5'-UUUURUUUU-3' (SEQ ID NO: 72), 5'-UUUURUUUUU-3' (SEQ ID NO: 73) or It can be 5'-UUUURUUUUU-3' (SEQ ID NO: 74), where R can be A or G.

바람직하게, U-rich tail의 서열은 서열번호 67 내지 74 중 어느 하나의 염기서열에서 R이 A인 것으로, 서열번호 75 내지 서열번호 82로 이루어진 군에서 선택된 어느 하나의 염기서열을 포함하거나 이로 이루어진 것일 수 있다. 또한, U-rich tail의 서열은 서열번호 67 내지 74 중 어느 하나의 염기서열에서 R이 G인 것으로, 서열번호 83 내지 서열번호 90으로 이루어진 군에서 선택된 어느 하나의 염기서열을 포함하거나 이로 이루어진 것일 수 있다. 가장 바람직하게, U-rich tail의 서열은 5'-UUUUAUUUU-3' (서열번호 80), 5'-UUUUAUUUUUU-3' (서열번호 82), 5'-UUUUGUUUUUU-3' (서열번호 90) 또는 5'-UUUUUU-3' (서열번호 91)일 수 있다. Preferably, the sequence of the U-rich tail may comprise or consist of any one base sequence selected from the group consisting of SEQ ID NOs: 75 to 82, wherein R is A in any one of the base sequences of SEQ ID NOs: 67 to 74. In addition, the sequence of the U-rich tail may comprise or consist of any one base sequence selected from the group consisting of SEQ ID NOs: 83 to 90, wherein R is G in any one of the base sequences of SEQ ID NOs: 67 to 74. Most preferably, the sequence of the U-rich tail may be 5'-UUUUAUUUU-3' (SEQ ID NO: 80), 5'-UUUUAUUUUUU-3' (SEQ ID NO: 82), 5'-UUUUGUUUUUU-3' (SEQ ID NO: 90) or 5'-UUUUUUU-3' (SEQ ID NO: 91).

(2-9) 스캐폴드 영역의 연결 관계(2-9) Connection relationship of scaffold area

일 구현예로, 스캐폴드 영역 내의 tracrRNA의 서열은 5'-CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAUUU-3' (서열번호 61) 또는 5'-CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCANNNNNCCUCUCCAAUUCUGCACAA-3' (서열번호 62)을 포함하거나 이로 이루어질 수 있다. 여기서, N은 A, C, G 또는 U일 수 있다. In one embodiment, the sequence of the tracrRNA within the scaffold region can comprise or consist of 5'-CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAUUU-3' (SEQ ID NO: 61) or 5'-CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCANNNNNCCUCUCCAAUUCUGCACAA-3' (SEQ ID NO: 62). Wherein, N can be A, C, G or U.

일 구현예로, tracrRNA는 제1 영역, 제2 영역, 제3 영역 및 제4 영역을 포함한다. 일 예로, tracrRNA는 5'-말단에서 3'-말단 방향으로, 제1 영역, 제2 영역, 제3 영역 및 제4 영역이 순서대로 연결된 것이다. In one embodiment, the tracrRNA comprises a first region, a second region, a third region, and a fourth region. In one embodiment, the tracrRNA comprises a first region, a second region, a third region, and a fourth region sequentially linked from the 5'-end to the 3'-end.

또한, 일 구현예로, 스캐폴드 영역 내의 crRNA의 서열은 crRNA 반복 서열 및 스페이서 서열을 포함한다. 이때, crRNA 반복 서열은 5'-GAAUGAAGGAAUGCAAC-3' (서열번호 63) 또는 5'-GGAAUGCAAC-3' (서열번호 64)일 수 있다. crRNA 반복 서열은 제5 영역 및 제6 영역을 포함할 수 있다. 스페이서 서열은 표적서열에 따라 달라질 수 있으며, 일반적으로 10 내지 50개의 뉴클레오티드를 포함한다. 일 구현예에서, crRNA는 5'-말단에서 3'-말단 방향으로, 제5 영역, 제6 영역 및 스페이서가 순서대로 연결된 것이다.Also, in one embodiment, the sequence of the crRNA in the scaffold region includes a crRNA repeat sequence and a spacer sequence. At this time, the crRNA repeat sequence can be 5'-GAAUGAAGGAAUGCAAC-3' (SEQ ID NO: 63) or 5'-GGAAUGCAAC-3' (SEQ ID NO: 64). The crRNA repeat sequence can include a fifth region and a sixth region. The spacer sequence can vary depending on the target sequence and generally includes 10 to 50 nucleotides. In one embodiment, the crRNA is a fifth region, a sixth region, and a spacer sequentially linked from the 5'-end to the 3'-end.

일 구현예로, crRNA는 야생형 crRNA 또는 엔지니어링된 crRNA일 수 있다. crRNA는 야생형 반복 서열(repeat sequence) 및 가이드 서열(guide sequence)인 스페이서 서열을 5'-말단에서 3'-말단 방향으로 순서대로 포함할 수 있다. 상기 야생형 반복 서열은 5'-GUUGCAGAACCCGAAUAGACGAAUGAAGGAAUGCAAC-3' (서열번호 19) 서열일 수 있다. In one embodiment, the crRNA can be a wild-type crRNA or an engineered crRNA. The crRNA can include a spacer sequence, which is a wild-type repeat sequence and a guide sequence, in order from the 5'-end to the 3'-end. The wild-type repeat sequence can be a sequence of 5'-GUUGCAGAACCCGAAUAGACGAAUGAAGGAAUGCAAC-3' (SEQ ID NO: 19).

(3) 스페이서 서열(3) Spacer sequence

스페이서 서열은 표적 핵산 또는 표적 유전자 내의 표적 부위 서열과 상보적인 서열이며, crRNA 반복 서열의 3'-말단 쪽에 연결된다. 스페이서 서열은 Cas12f1 변이체 단백질이 인식하는 PAM(Protospacer Adjacent Motif) 서열과 인접한 프로토스페이서 서열(protospacer sequence)과 상동성이 있는 서열로, 프로토스페이서 서열의 티미딘(T)이 유리딘(U)으로 치환된 서열을 가진다. 이때, 표적 서열 및 프로토스페이서 서열은 표적 핵산 내 포함된 상기 PAM 서열과 인접한 서열 내에서 결정되고, 이에 따라 스페이서 서열이 결정된다. The spacer sequence is a sequence complementary to a target site sequence in a target nucleic acid or a target gene, and is linked to the 3'-end of the crRNA repeat sequence. The spacer sequence is a sequence homologous to a protospacer sequence adjacent to a PAM (Protospacer Adjacent Motif) sequence recognized by the Cas12f1 variant protein, and has a sequence in which thymidine (T) of the protospacer sequence is substituted with uridine (U). At this time, the target sequence and the protospacer sequence are determined within the sequence adjacent to the PAM sequence included in the target nucleic acid, and the spacer sequence is determined accordingly.

일 구현예로, crRNA의 스페이서 서열 부분은 상기 표적 핵산과 상보적으로 결합할 수 있다. 일 구현예로, crRNA의 스페이서 서열 부분은 상기 표적 핵산의 표적 서열 부분과 상보적으로 결합할 수 있다. 일 예로, 표적 핵산이 이중가닥 DNA인 경우, 스페이서 서열은 이중가닥 DNA의 표적 가닥(Target strand)에 포함된 표적 서열과 상보적인 서열일 수 있다. 여기서, 표적 핵산이 이중가닥 DNA인 경우, 스페이서 서열은 상기 이중가닥 DNA의 비-표적가닥(Non-target strand)에 포함된 프로토스페이서 서열과 상동성인 서열을 포함할 수 있다. 구체적으로, 스페이서 서열은 프로토스페이서 서열과 동일한 염기 서열을 가지되, 상기 염기 서열에 포함된 티미딘(T) 각각이 모두 유리딘(U)으로 치환된 서열을 가질 수 있다. 일 예로, 스페이서 서열은 프로토스페이서의 DNA 서열에 상응하는 RNA 서열을 포함할 수 있다. In one embodiment, the spacer sequence portion of the crRNA can complementarily bind to the target nucleic acid. In one embodiment, the spacer sequence portion of the crRNA can complementarily bind to the target sequence portion of the target nucleic acid. For example, when the target nucleic acid is a double-stranded DNA, the spacer sequence may be a sequence complementary to a target sequence included in a target strand of the double-stranded DNA. Here, when the target nucleic acid is a double-stranded DNA, the spacer sequence may include a sequence homologous to a protospacer sequence included in a non-target strand of the double-stranded DNA. Specifically, the spacer sequence may have the same base sequence as the protospacer sequence, but may have a sequence in which each of the thymidines (T) included in the base sequence is substituted with uridine (U). For example, the spacer sequence may include an RNA sequence corresponding to the DNA sequence of the protospacer.

일 구현예로, 스페이서 서열의 길이는 10 뉴클레오티드 내지 50 뉴클레오티드 길이일 수 있다. 바람직하게, 스페이서 서열의 길이는 17 뉴클레오티드 내지 30 뉴클레오티드 길이일 수 있다. 보다 바람직하게, 스페이서 서열의 길이는 17 뉴클레오티드 내지 25 뉴클레오티드 길이일 수 있다. In one embodiment, the spacer sequence may be from 10 nucleotides to 50 nucleotides in length. Preferably, the spacer sequence may be from 17 nucleotides to 30 nucleotides in length. More preferably, the spacer sequence may be from 17 nucleotides to 25 nucleotides in length.

(4) 싱글 가이드 RNA 또는 듀얼 가이드 RNA(4) Single guide RNA or dual guide RNA

본 발명의 구현예에 따른 엔지니어링된 가이드 RNA는 싱글 가이드 RNA 또는 듀얼 가이드 RNA일 수 있다. 듀얼 가이드 RNA는 가이드 RNA가 tracrRNA 및 crRNA의 두 분자 RNA로 구성된 것을 의미한다. 싱글 가이드 RNA(sgRNA)는 엔지니어링된 tracrRNA의 3'-말단 및 엔지니어링된 crRNA의 5'-말단이 링커를 통해 연결된 것을 의미한다. The engineered guide RNA according to an embodiment of the present invention may be a single guide RNA or a dual guide RNA. Dual guide RNA means that the guide RNA is composed of two RNA molecules, tracrRNA and crRNA. Single guide RNA (sgRNA) means that the 3'-end of the engineered tracrRNA and the 5'-end of the engineered crRNA are connected via a linker.

일 구현예에서, 엔지니어링된 싱글 가이드 RNA(sgRNA)는 링커 서열을 추가적으로 더 포함하고, tracrRNA 서열 및 crRNA 서열이 링커 서열을 통해 연결될 수 있다. 바람직하게, 엔지니어링된 스캐폴드에 포함된 제4 영역의 3'-말단 및 제5 영역의 5'-말단이 링커를 통해 연결된 것을 포함할 수 있다. 보다 바람직하게, 제4 영역의 3'-말단 및 제5 영역의 5'-말단이 링커 5'-GAAA-3'로 연결될 수 있다. In one embodiment, the engineered single guide RNA (sgRNA) additionally comprises a linker sequence, and the tracrRNA sequence and the crRNA sequence can be connected via the linker sequence. Preferably, the 3'-terminus of the fourth region and the 5'-terminus of the fifth region included in the engineered scaffold can be connected via a linker. More preferably, the 3'-terminus of the fourth region and the 5'-terminus of the fifth region can be connected via a linker 5'-GAAA-3'.

일 구현예에서, 싱글 가이드 RNA의 서열은 5'-말단에서 3'-말단 방향으로, tracrRNA 서열, 링커 서열, crRNA 서열 및 U-rich tail 서열이 순차적으로 연결되어 있다. tracrRNA 서열의 일부 및 crRNA 서열에 포함된 CRISPR RNA 반복 서열의 전부 및 일부는 서로 상보적인 서열을 가진다. 보다 구체적으로, 상기 싱글 가이드 RNA는 서열번호 44 내지 48로 이루어진 군에서 선택된 서열을 가질 수 있다.In one embodiment, the sequence of the single guide RNA is sequentially connected from the 5'-end to the 3'-end, including a tracrRNA sequence, a linker sequence, a crRNA sequence, and a U-rich tail sequence. A portion of the tracrRNA sequence and all or a portion of the CRISPR RNA repeat sequence included in the crRNA sequence have sequences complementary to each other. More specifically, the single guide RNA may have a sequence selected from the group consisting of SEQ ID NOs: 44 to 48.

또한, 본 발명의 구현예에 따른 엔지니어링된 가이드 RNA는 tracrRNA 및 crRNA가 별개의 RNA 분자를 이루고 있는 듀얼 가이드 RNA일 수 있다. 이 때, tracrRNA의 일부 및 crRNA의 일부는 서로 상보적인 서열을 가져 이중가닥 RNA를 형성할 수 있다. 보다 구체적으로, 듀얼 가이드 RNA에서 tracrRNA의 3'-말단을 포함하는 일부 및 crRNA의 CRISPR RNA 반복 서열을 포함하는 일부가 이중가닥을 형성할 수 있다. 엔지니어링된 가이드 RNA는 Cas12f1 변이체 단백질과 결합하여 가이드 RNA 및 Cas12f1 변이체 단백질 복합체를 형성할 수 있으며, 상기 crRNA 서열에 포함된 스페이서 서열과 상보적인 표적 서열을 인식하여 상기 표적 서열을 포함하는 표적 핵산을 편집할 수 있도록 한다.In addition, the engineered guide RNA according to the embodiment of the present invention may be a dual guide RNA in which tracrRNA and crRNA form separate RNA molecules. At this time, a part of the tracrRNA and a part of the crRNA may have complementary sequences to each other to form a double-stranded RNA. More specifically, in the dual guide RNA, a part including the 3'-end of the tracrRNA and a part including the CRISPR RNA repeat sequence of the crRNA may form a double strand. The engineered guide RNA may bind to a Cas12f1 variant protein to form a guide RNA and Cas12f1 variant protein complex, and recognize a target sequence complementary to a spacer sequence included in the crRNA sequence to edit a target nucleic acid including the target sequence.

일 구현예로, tracrRNA의 서열은 상기 CRISPR RNA 반복 서열과 0개 내지 20개의 미스매치가 있는 상보적인 서열을 포함할 수 있다. 바람직하게, tracrRNA 서열은 CRISPR RNA 반복 서열과 0개 내지 8개 또는 8개 내지 12개의 미스매치가 있는 상보적인 서열을 포함할 수 있다.In one embodiment, the sequence of the tracrRNA can comprise a complementary sequence having 0 to 20 mismatches with the CRISPR RNA repeat sequence. Preferably, the tracrRNA sequence can comprise a complementary sequence having 0 to 8 or 8 to 12 mismatches with the CRISPR RNA repeat sequence.

(5) 싱글 가이드 RNA(sgRNA)를 만들기 위한 변형(5) Modification to create single guide RNA (sgRNA)

(5-1) 개괄(5-1) Overview

본 발명에서 제공하는 엔지니어링된 가이드 RNA는 한 분자의 싱글 가이드 RNA(sgRNA)일 수 있다. 이에, 엔지니어링된 스캐폴드 영역은 각 영역 중 하나 이상이 변형된 것이고, 추가적으로 tracrRNA 제4 영역의 3'-말단 및 crRNA 제5 영역의 5'-말단이 링커를 통해 연결된 것일 수 있다.The engineered guide RNA provided in the present invention may be a single guide RNA (sgRNA) molecule. Accordingly, the engineered scaffold region may have at least one of each region modified, and additionally, the 3'-end of the tracrRNA fourth region and the 5'-end of the crRNA fifth region may be connected via a linker.

일 구현예로, 엔지니어링된 스캐폴드 영역은 자연계에서 발견되는 스캐폴드 영역에서 한 군데 이상이 변형되고, 제4 영역의 3'-말단 및 제5 영역의 5'-말단이 링커를 통해 연결된 것일 수 있다. 이때, 링커는 5'-GAAA-3'일 수 있다. In one embodiment, the engineered scaffold region may be a scaffold region found in nature that is modified at one or more sites, and the 3'-end of the fourth region and the 5'-end of the fifth region may be connected via a linker, wherein the linker may be 5'-GAAA-3'.

또한 일 구현예로, 엔지니어링된 스캐폴드 영역은 자연계에서 발견되는 스캐폴드 영역의 각 부분에 대응하는 영역을 포함한다. 구체적으로, 엔지니어링된 스캐폴드 영역은 제1 영역, 제2 영역, 제3 영역, 제4 영역, 제5 영역 및 제6 영역을 포함하며, 이는 자연계에서 발견되는 스캐폴드 영역에 포함된 제1영역 내지 제6 영역에 각각 대응된다.Also, in one embodiment, the engineered scaffold region includes regions corresponding to each portion of a scaffold region found in nature. Specifically, the engineered scaffold region includes a first region, a second region, a third region, a fourth region, a fifth region, and a sixth region, which correspond to regions first to sixth included in a scaffold region found in nature, respectively.

다른 구현예로, 엔지니어링된 스캐폴드 영역은 자연계에서 발견되는 스캐폴드 영역 중 제1 영역 및/또는 제2 영역에 대응되는 영역을 포함하지 않을 수 있다. 구체적으로, 초소형 유전자 편집 시스템에서 초소형 유전자 편집 단백질은 서열번호 1 내지 서열번호 4로 이루어진 군에서 선택된 어느 하나의 아미노산 서열을 포함하거나 이로 이루어진 단백질인 것이고, 가이드 RNA는 서열번호 44 내지 서열번호 48로 이루어진 군에서 선택된 어느 하나의 염기서열을 포함하거나 이로 이루어진 것일 수 있다. In another embodiment, the engineered scaffold region may not include a region corresponding to the first region and/or the second region among the scaffold regions found in nature. Specifically, in the micro genome editing system, the micro genome editing protein may be a protein comprising or consisting of any one amino acid sequence selected from the group consisting of SEQ ID NO: 1 to SEQ ID NO: 4, and the guide RNA may comprise or consist of any one base sequence selected from the group consisting of SEQ ID NO: 44 to SEQ ID NO: 48.

바람직하게, 초소형 유전자 편집 단백질은 서열번호 1 내지 서열번호 4 로 이루어진 군에서 선택된 어느 하나의 아미노산 서열을 포함하거나 이로 이루어진 단백질이고, 가이드 RNA는 MS1에서 변형을 갖는 augment RNA(서열번호 44), MS1/MS2에서 변형을 갖는 augment RNA(서열번호 45), MS1/MS2/MS3에서 변형을 갖는 augment RNA Cas12f1_ge3.0(서열번호 46), MS2/MS3/MS4에서 변형을 갖는 augment RNA Cas12f1_ge4.0(서열번호 47) 및 MS2/MS3/MS4/MS5에서 변형을 갖는 augment RNA Cas12f1_ge4.1(서열번호 48)로 이루어진 군에서 선택된 어느 하나일 수 있다. Preferably, the ultra-small gene editing protein is a protein comprising or consisting of any one amino acid sequence selected from the group consisting of SEQ ID NO: 1 to SEQ ID NO: 4, and the guide RNA may be any one selected from the group consisting of augment RNA having a modification in MS1 (SEQ ID NO: 44), augment RNA having a modification in MS1/MS2 (SEQ ID NO: 45), augment RNA Cas12f1_ge3.0 having a modification in MS1/MS2/MS3 (SEQ ID NO: 46), augment RNA Cas12f1_ge4.0 having a modification in MS2/MS3/MS4 (SEQ ID NO: 47), and augment RNA Cas12f1_ge4.1 having a modification in MS2/MS3/MS4/MS5 (SEQ ID NO: 48).

일 예로, 가이드 RNA는 MS1/MS3-1 augment RNA(서열번호 105), MS1/MS3-2 augment RNA(서열번호 106), MS1/MS3-3 augment RNA(서열번호 107), MS1/MS4*-1 augment RNA(서열번호 108), MS1/MS4*-2 augment RNA(서열번호 109), MS1/MS4*-3 augment RNA(서열번호 110), MS1/MS5-1 augment RNA(서열번호 111), MS1/MS5-2 augment RNA(서열번호 112), MS1/MS5-3 augment RNA(서열번호 113), MS1/MS2/MS4*-2 augment RNA(서열번호 114), MS1/MS3-3/MS4*-2 augment RNA(서열번호 115), MS1/MS2/MS5-3 augment RNA(서열번호 116), MS1/MS3-3/MS5-3 sgRNA(서열번호 117), MS1/MS4*-2/MS5-3 augment RNA(서열번호 118), MS1/MS2/MS3-3/MS4*-2 augment RNA(서열번호 119), MS1/MS2/MS3-3/MS5-3 augment RNA(서열번호 120), MS1/MS2/MS4*-2/MS5-3 augment RNA(서열번호 121), MS1/MS3-3/MS4*-2/MS5-3 augment RNA(서열번호 122), 또는 MS1/MS2/MS3-3/MS4*-2/MS5-3 sgRNA(서열번호 123)일 수 있다. For example, the guide RNA is MS1/MS3-1 augment RNA (SEQ ID NO: 105), MS1/MS3-2 augment RNA (SEQ ID NO: 106), MS1/MS3-3 augment RNA (SEQ ID NO: 107), MS1/MS4 * -1 augment RNA (SEQ ID NO: 108), MS1/MS4 * -2 augment RNA (SEQ ID NO: 109), MS1/MS4 * -3 augment RNA (SEQ ID NO: 110), MS1/MS5-1 augment RNA (SEQ ID NO: 111), MS1/MS5-2 augment RNA (SEQ ID NO: 112), MS1/MS5-3 augment RNA (SEQ ID NO: 113), MS1/MS2/MS4 * -2 augment RNA (SEQ ID NO: 114), MS1/MS3-3/MS4 * -2 augment RNA (SEQ ID NO: 115), MS1/MS2/MS5-3 augment RNA (SEQ ID NO: 116), It can be MS1/MS3-3/MS5-3 sgRNA (SEQ ID NO: 117), MS1/MS4 * -2/MS5-3 augment RNA (SEQ ID NO: 118), MS1/MS2/MS3-3/MS4 * -2 augment RNA (SEQ ID NO: 119), MS1/MS2/MS3-3/MS5-3 augment RNA (SEQ ID NO: 120), MS1/MS2/MS4 * -2/MS5-3 augment RNA (SEQ ID NO: 121), MS1/MS3-3/MS4 * -2/MS5-3 augment RNA (SEQ ID NO: 122), or MS1/MS2/MS3-3/MS4 * -2/MS5-3 sgRNA (SEQ ID NO: 123).

또한, 가이드 RNA는 Mature form sgRNA인 5'-CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCuuagGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAUUUgaaaGAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNN-3'(서열번호 124)일 수 있다. Additionally, the guide RNA may be 5'-CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCuuagGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCA UUU gaaa GAA UGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNNNN-3' (SEQ ID NO: 124), which is a mature form sgRNA.

일 예로, 가이드 RNA는 상기 Mature form sgRNA에서 핵산 서열의 일부 변형을 가지는 augment RNA일 수 있다. 구체적으로, MS3-1 augment RNA(서열번호 125), MS3-2 augment RNA(서열번호 126), MS3-3 augment RNA(서열번호 127), MS4-1 augment RNA(서열번호 128), MS4-2 augment RNA(서열번호 129), MS4-3 augment RNA(서열번호 130), MS5-1 augment RNA(서열번호 131), MS5-2 augment RNA(서열번호 132), MS5-3 augment RNA(서열번호 133), MS3-3/MS4-3 augment RNA(서열번호 134), MS3-3/MS5-3 augment RNA(서열번호 135), MS4-3/MS5-3 augment RNA(서열번호 136) 또는 MS3-3/MS4-3/MS5-3 augment RNA(서열번호 137)일 수 있다. For example, the guide RNA may be an augment RNA having some modifications in the nucleic acid sequence of the Mature form sgRNA. Specifically, it may be MS3-1 augment RNA (SEQ ID NO: 125), MS3-2 augment RNA (SEQ ID NO: 126), MS3-3 augment RNA (SEQ ID NO: 127), MS4-1 augment RNA (SEQ ID NO: 128), MS4-2 augment RNA (SEQ ID NO: 129), MS4-3 augment RNA (SEQ ID NO: 130), MS5-1 augment RNA (SEQ ID NO: 131), MS5-2 augment RNA (SEQ ID NO: 132), MS5-3 augment RNA (SEQ ID NO: 133), MS3-3/MS4-3 augment RNA (SEQ ID NO: 134), MS3-3/MS5-3 augment RNA (SEQ ID NO: 135), MS4-3/MS5-3 augment RNA (SEQ ID NO: 136), or MS3-3/MS4-3/MS5-3 augment RNA (SEQ ID NO: 137).

또 다른 일 예로, 상기 Mature form sgRNA에서 핵산 서열의 일부 변형을 가지는 augment RNA는 서열번호 125 내지 137의 염기서열로 이루어진 엔지니어링된 augment RNA 각각에 본 발명의 MS2 변형이 추가된 augment RNA일 수 있다. 여기서, MS2 변형은 U-rich tail 서열로써, 상기 서열은 5'-(UaN)dUe-3' 서열, 5'-UaVUaVUe-3' 서열 또는 5'-UaVUaVUaVUe-3' 서열일 수 있다. 여기서 N은 A, C, G 또는 U일 수 있다. 각각의 V는 독립적으로 A, C 또는 G일 수 있다. 상기 a는 0 내지 4의 정수일 수 있다. d는 0 내지 3의 정수일 수 있으며, e는 0 내지 10의 정수일 수 있다. 바람직하게, U4AU4 일 수 있다.As another example, the augment RNA having a partial modification of the nucleic acid sequence in the Mature form sgRNA may be an augment RNA in which the MS2 modification of the present invention is added to each of the engineered augment RNAs consisting of the base sequences of SEQ ID NOS: 125 to 137. Here, the MS2 modification is a U-rich tail sequence, and the sequence may be a 5'-(UaN)dUe-3' sequence, a 5'-UaVUaVUe-3' sequence, or a 5'-UaVUaVUaVUe-3' sequence. Here, N may be A, C, G, or U. Each V may independently be A, C, or G. The a may be an integer from 0 to 4. d may be an integer from 0 to 3, and e may be an integer from 0 to 10. Preferably, it may be U 4 AU 4 .

이하 엔지니어링된 스캐폴드 영역에서의 그 변형을 자세히 설명한다. Below we detail the deformation in the engineered scaffold area.

(5-2) 스캐폴드 제1 영역에서의 변형(5-2) Deformation in the first area of the scaffold

일 구현예로, Cas12f1 변이체 단백질 또는 이의 동족체 단백질에 대한 엔지니어링된 가이드 RNA에 포함된 엔지니어링된 스캐폴드 영역은, 스캐폴드 영역 중 제1 영역에 포함된 하나 이상의 뉴클레오티드가 제거된 것을 포함할 수 있다. 보다 구체적으로, 상기 제거된 뉴클레오티드는 제1 영역 중 가이드 RNA 및 Cas12f1 변이체 단백질 복합체에서 Stem 구조를 형성하는 부분에 포함된 뉴클레오티드일 수 있다. In one embodiment, the engineered scaffold region comprised in the engineered guide RNA for the Cas12f1 variant protein or a homolog protein thereof can comprise one or more nucleotides from the first region of the scaffold region removed. More specifically, the removed nucleotide can be a nucleotide comprised in a portion of the first region that forms the Stem structure in the guide RNA and Cas12f1 variant protein complex.

일 구현예로, 상기 제거된 뉴클레오티드는 제1 영역 중 Stem 1 (Takeda et al., Structure of the miniature type V-F CRISPR-Cas effector enzyme, Molecular Cell 81, 1-13 (2021))에 속하는 뉴클레오티드일 수 있다. 일 예로, 상기 제거된 뉴클레오티드는 제1 영역 중 가이드 RNA 및 Cas12f1 변이체 단백질 복합체에서 Cas12f1 변이체 단백질과 상호작용하지 않는 뉴클레오티드일 수 있다. In one embodiment, the removed nucleotide may be a nucleotide belonging to Stem 1 (Takeda et al., Structure of the miniature type V-F CRISPR-Cas effector enzyme, Molecular Cell 81, 1-13 (2021)) in the first region. In one example, the removed nucleotide may be a nucleotide that does not interact with the Cas12f1 variant protein in the guide RNA and Cas12f1 variant protein complex in the first region.

일 구현예로, 상기 변형된 제1 영역은(MS3 부분, 1-21 부위)은 5'-CUUCACUGAUAAAGUGGAGAA-3' (서열번호 7) 또는 서열번호 7의 일부 서열일 수 있다. 서열번호 7의 일부 서열은 서열번호 7의 5'-말단으로부터 적어도 1개, 2개, 3개, 5개, 6개, 7개, 8개, 9개, 10개, 11개, 12개, 13개, 14개, 15개, 16개, 17개, 18개, 19개 또는 20개의 뉴클레오티드가 서열이 순차적으로 제거된 것일 수 있다. 보다 구체적으로, 5'-말단에서 3'-말단 방향으로, 5'-A-3', 5'-AA-3', 5'-GAA-3', 5'-AGAA-3', 5'-GAGAA-3', 5'-GGAGAA-3', 5'-UGGAGAA-3', 5'-GUGGAGAA-3', 5'-AGUGGAGAA-3' 와 같이, 상기 서열번호 7의 일부 서열은 서열번호 7 서열의 5'-말단의 서열이 순차적으로 제거되고 남은 3'-말단부에서 순차적인 일부 서열일 수 있다. 일 예로, 제1 영역은 5'-GAUAAAGUGGAGAA-3' (서열번호 8), 5'-UGGAGAA-3' 또는 5'-A-3'일 수 있다. 또는, 제1 영역 전체가 제거된 것일 수 있다. In one embodiment, the modified first region (MS3 portion, regions 1-21) can be 5'-CUUCACUGAUAAAGUGGAGAA-3' (SEQ ID NO: 7) or a portion of the sequence of SEQ ID NO: 7. The portion of the sequence of SEQ ID NO: 7 can be a sequence in which at least 1, 2, 3, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19 or 20 nucleotides are sequentially removed from the 5'-end of SEQ ID NO: 7. More specifically, from the 5'-terminal to the 3'-terminal, a portion of the sequence of SEQ ID NO: 7 may be a sequential portion of the sequence at the 3'-terminal end where the 5'-terminal sequence of SEQ ID NO: 7 is sequentially removed, such as 5'-A-3', 5'-AA-3', 5'-GAA-3', 5'-AGAA-3', 5'-GAGAA-3', 5'-GGAGAA-3', 5'-UGGAGAA-3', 5'-GUGGAGAA-3', 5'-AGUGGAGAA-3'. As an example, the first region may be 5'-GAUAAAGUGGAGAA-3' (SEQ ID NO: 8), 5'-UGGAGAA-3', or 5'-A-3'. Alternatively, the entire first region may be removed.

(5-3) 스캐폴드 제2 영역에서의 변형(5-3) Deformation in the second area of the scaffold

또 다른 일 구현예로, 엔지니어링된 스캐폴드 영역은 변형된 제2 영역을 포함할 수 있다. 이때, 상기 변형된 제2 영역은 스캐폴드 영역의 제2 영역에서 하나 이상의 뉴클레오티드가 제거된 것이다. 이때, 상기 제거된 뉴클레오티드는 가이드 RNA 및 Cas12f1 변이체 단백질 복합체에서 Stem 구조를 형성하는 영역에서 선택된 뉴클레오티드이다.In another embodiment, the engineered scaffold region can comprise a modified second region, wherein the modified second region has one or more nucleotides removed from the second region of the scaffold region, wherein the removed nucleotides are nucleotides selected from the region that forms the Stem structure in the guide RNA and Cas12f1 variant protein complex.

일 구현예로, 상기 뉴클레오티드의 제거는 상기 제2 영역 중 Stem 구조를 형성하는 부분에서 일어난 것이고, 뉴클레오티드가 염기쌍 단위로 제거된 것일 수 있다. 일 구현예로, 상기 제거된 뉴클레오티드는 상기 제2 영역 중 가이드 RNA 및 Cas12f1 변이체 단백질 복합체에서 Stem 구조를 형성하는 부분에 포함된 뉴클레오티드일 수 있다. In one embodiment, the removal of the nucleotide occurs in a portion forming the Stem structure in the second region, and the nucleotide may be removed in base pair units. In one embodiment, the removed nucleotide may be a nucleotide included in a portion forming the Stem structure in the guide RNA and Cas12f1 variant protein complex in the second region.

일 구현예로, 상기 엔지니어링된 스캐폴드 영역의 변형된 제2 영역(MS5 부분, 22-71 부위)은 5'-CCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUG-3' (서열번호 9) 서열 또는 서열번호 9 서열의 일부 서열일 수 있다. 자연계에서 발견되는 스캐폴드 영역의 제2 영역에서 1개 내지 50개의 뉴클레오티드가 제거된 것일 수 있다. In one embodiment, the modified second region (MS5 portion, region 22-71) of the engineered scaffold region can be the sequence 5'-CCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUG-3' (SEQ ID NO: 9) or a portion of the sequence SEQ ID NO: 9. It can be a second region of the scaffold region found in nature having 1 to 50 nucleotides removed.

서열번호 9의 일부 서열은 서열번호 9에서 상보적 결합을 형성하는 적어도 한 쌍 이상의 뉴클레오티드 및/또는 상보적 결합을 형성하지 않는 적어도 하나 이상의 뉴클레오티드가 삭제된 서열일 수 있다. 이때, 서열번호 9 서열의 일부 서열 내에 포함된 루프 부분의 5'-UUAG-3' 서열은 선택적으로 5'-GAAA-3' 서열로 치환될 수 있다. 또한, 상기 제2 영역은 루프가 제거된 것일 수 있다. A part of the sequence of SEQ ID NO: 9 may be a sequence in which at least one pair of nucleotides forming a complementary bond and/or at least one nucleotide not forming a complementary bond in SEQ ID NO: 9 is deleted. In this case, the 5'-UUAG-3' sequence of the loop portion included in the part of the sequence of SEQ ID NO: 9 may be optionally replaced with the 5'-GAAA-3' sequence. In addition, the second region may be one in which the loop is removed.

일 예로, 상기 변형된 제2 영역은 상기 자연계에서 발견되는 스캐폴드 영역의 제2 영역에서, 상기 서열번호 9의 염기서열을 기준으로, 5'-말단으로부터 1번째 내지 22번째 뉴클레오티드 및/또는 27번째 내지 50번째 뉴클레오티드 중 하나 이상이 제거된 것일 수 있다. 또한, 상기 변형된 제2 영역은 상기 자연계에서 발견되는 스캐폴드 영역의 제2 영역에서, 서열번호 11 서열 기준, 5'-말단으로부터 1번째 내지 22번째 뉴클레오티드, 및/또는 27번째 내지 50번째 뉴클레오티드 중 하나 이상이 제거되고, 23번째 내지 26번째 뉴클레오티드가 다른 것으로 치환된 것일 수 있다. 구체적으로, 5'-CCGCUUCACCAAUUAGUUGAGUGAAGGUG-3' (서열번호 10) 서열, 5'-CCGCUUCACCAAAAGCUUAGGAACUUGAGUGAAGGUG-3' (서열번호 11) 서열 또는 5'-CCGCUUCACCAAAAGCUGUUUAGAUUAGAACUUGAGUGAAGGUG-3' (서열번호 12) 서열일 수 있다. For example, the modified second region may be a second region of the scaffold region found in nature, in which at least one of the 1st to 22nd nucleotides and/or the 27th to 50th nucleotides from the 5'-end based on the base sequence of SEQ ID NO: 9 is removed. In addition, the modified second region may be a second region of the scaffold region found in nature, in which at least one of the 1st to 22nd nucleotides and/or the 27th to 50th nucleotides from the 5'-end based on the sequence of SEQ ID NO: 11 is removed, and the 23rd to 26th nucleotides are replaced with another one. Specifically, it may be a 5'-CCGCUUCACCAAUUAGUUGAGUGAAGGUG-3' (SEQ ID NO: 10) sequence, a 5'-CCGCUUCACCAAAAGCUUAGGAACUUGAGUGAAGGUG-3' (SEQ ID NO: 11) sequence, or a 5'-CCGCUUCACCAAAAGCUGUUUAGAUUAGAACUUGAGUGAAGGUG-3' (SEQ ID NO: 12) sequence.

또한, 본 발명에서 제공하는 엔지니어링된 스캐폴드 영역은 자연계에서 발견되는 스캐폴드 영역 중 제2 영역이 제거된 것일 수 있다. 일 구현예로, 엔지니어링된 스캐폴드 영역은 자연계에서 발견되는 스캐폴드 영역의 제2 영역과 대응되는 영역이 없는 것일 수 있다. 일 예로, 제2 영역이 제거된 엔지니어링된 스캐폴드 영역의 서열은 5'-CUUCACUGAUAAAGUGGAGAAGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAUUUGAAAGAAUGAAGGAAUGCAAC-3' (서열번호 92)일 수 있다. In addition, the engineered scaffold region provided by the present invention may be a scaffold region found in nature from which a second region is removed. In one embodiment, the engineered scaffold region may not have a region corresponding to the second region of a scaffold region found in nature. In one example, the sequence of the engineered scaffold region from which the second region is removed may be 5'-CUUCACUGAUAAAGUGGAGAAGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAUUUGAAAGAAUGAAGGAAUGCAAC-3' (SEQ ID NO: 92).

(5-4) 스캐폴드 제3 영역에서의 변형(5-4) Deformation in the third area of the scaffold

본 발명은 일 구현예에서, 엔지니어링된 스캐폴드 영역은 변형된 제3 영역을 포함할 수 있다. 이때, 상기 변형된 제3 영역은 자연계에서 발견되는 스캐폴드 영역의 제3 영역에서 하나 이상의 뉴클레오티드가 제거된 것이다. 이때, 상기 제거된 뉴클레오티드는 가이드 RNA 및 Cas12f1 변이체 단백질 복합체에서 Stem 구조를 형성하는 영역에서 선택된 뉴클레오티드이다.In one embodiment of the present invention, the engineered scaffold region can comprise a modified third region, wherein the modified third region is one or more nucleotides removed from the third region of the scaffold region found in nature. Wherein the removed nucleotides are nucleotides selected from the region forming the Stem structure in the guide RNA and Cas12f1 variant protein complex.

일 구현예로, 상기 엔지니어링된 스캐폴드 영역의 변형된 제3 영역(MS1 앞 부분, 72-129 부위)은 5'-GGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAA-3' (서열번호 13) 또는 서열번호 13에 적어도 70% 이상(예를 들어, 70%, 80% 또는 90%)의 서열 상동성을 가지는 서열일 수 있다. 자연계에서 발견되는 스캐폴드 영역의 제3 영역에서 1개 내지 20개의 뉴클레오티드가 제거된 것일 수 있다. 일 구현예로, 상기 변형된 제3 영역은 상기 자연계에서 발견되는 스캐폴드 영역의 제3 영역에서, 서열번호 13의 뉴클레오티드 서열을 기준으로 5'-말단으로부터 28번째 내지 37번째 뉴클레오티드 및/또는 42번째 내지 51번째 뉴클레오티드 중 1개, 2개, 3개, 4개, 5개, 6개, 7개, 8개, 9개 또는 10개의 연속된 뉴클레오티드가 제거된 것일 수 있다. 일 구현예로, 상기 변형된 제3 영역은 상기 자연계에서 발견되는 스캐폴드 영역의 제3 영역에서, 서열번호 13의 뉴클레오티드 서열을 기준으로 5'-말단으로부터 27번째 내지 36번째 뉴클레오티드, 및 42번째 내지 51번째 뉴클레오티드 중 가이드 RNA 및 Cas12f1 변이체 단백질 복합체에서 염기쌍(base pair)을 이루는 한 쌍 이상의 뉴클레오티드가 제거된 것일 수 있다. 일 구현예로, 상기 변형된 제3 영역은 자연계에서 발견되는 스캐폴드 영역의 제3 영역에서, 서열번호 13의 뉴클레오티드 서열을 기준으로 5'-말단으로부터 27번째 내지 36번째 뉴클레오티드 및 42번째 내지 51번째 뉴클레오티드 중 가이드 RNA 및 Cas12f1 변이체 단백질 복합체에서 염기쌍을 이루는 한 쌍 이상의 뉴클레오티드 및/또는 염기쌍을 이루지 않는 1개 이상의 뉴클레오티드가 제거된 것일 수 있다. 일 예에서, 상기 변형된 제3 영역은 5'-GCUGCUUGCAUCAGCCUAAUGUCGAG-3' (서열번호 93), 5'-UUCG-3', 및 5'-CUCGA-3' 서열을 포함하는 것을 특징으로 한다.In one embodiment, the modified third region (MS1 front portion, regions 72-129) of the engineered scaffold region can be 5'-GGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAA-3' (SEQ ID NO: 13) or a sequence having at least 70% (e.g., 70%, 80% or 90%) sequence identity to SEQ ID NO: 13. It can be a third region of the scaffold region found in nature having 1 to 20 nucleotides removed. In one embodiment, the modified third region may be a third region of the scaffold region found in nature, wherein 1, 2, 3, 4, 5, 6, 7, 8, 9, or 10 consecutive nucleotides are removed from the 5'-terminus among the 28th to 37th nucleotides and/or the 42nd to 51st nucleotides based on the nucleotide sequence of SEQ ID NO: 13. In one embodiment, the modified third region may be a third region of the scaffold region found in nature, wherein one or more pairs of nucleotides that form base pairs in the guide RNA and Cas12f1 variant protein complex are removed from the 27th to 36th nucleotides and the 42nd to 51st nucleotides based on the nucleotide sequence of SEQ ID NO: 13. In one embodiment, the modified third region may be a third region of a scaffold region found in nature, wherein one or more pairs of nucleotides that form base pairs and/or one or more nucleotides that do not form base pairs in the guide RNA and Cas12f1 variant protein complex are removed from the 27th to 36th nucleotides and the 42nd to 51st nucleotides from the 5'-end based on the nucleotide sequence of SEQ ID NO: 13. In one example, the modified third region is characterized by comprising the sequence 5'-GCUGCUUGCAUCAGCCUAAUGUCGAG-3' (SEQ ID NO: 93), 5'-UUCG-3', and 5'-CUCGA-3'.

(5-5) 스캐폴드 제4 영역 및/또는 제5 영역에서의 변형(5-5) Deformation in the 4th and/or 5th area of the scaffold

본 명세서에서 제공하는 엔지니어링된 스캐폴드 영역은 자연계에서 발견되는 스캐폴드 영역에서 제4 영역 및 제5 영역이 변형된 것일 수 있다. 제4 영역 및 제5 영역은 가이드 RNA 및 Cas12f1 변이체 단백질 복합체 내에서 서로 혼성화되어 Stem을 구성하는 부분을 포함하므로, 해당 부분이 같이 변형되어 엔지니어링된 스캐폴드 영역을 구성할 수 있다. 변형된 제4 영역은 자연계에서 발견되는 스캐폴드 영역의 제4 영역에서 하나 이상의 뉴클레오티드가 제거된 것을 특징으로 한다. 변형된 제5 영역은 자연계에서 발견되는 스캐폴드 영역의 제5 영역에서 하나 이상의 뉴클레오티드가 제거된 것을 특징으로 한다.The engineered scaffold region provided herein may be a scaffold region found in nature in which the fourth region and the fifth region are modified. Since the fourth region and the fifth region include a portion that hybridizes with each other within the guide RNA and the Cas12f1 variant protein complex to form the Stem, these portions may be modified together to form the engineered scaffold region. The modified fourth region is characterized in that one or more nucleotides are removed from the fourth region of the scaffold region found in nature. The modified fifth region is characterized in that one or more nucleotides are removed from the fifth region of the scaffold region found in nature.

일 구현예로, 변형된 제4 영역은 5'-말단 방향에 5'-CAAA-3' 또는 5'-AACAAA-3' 서열을 가지는 것을 특징으로 한다. 일 구현예로, 변형된 제5 영역은 3'-말단 방향에 5'-GGA-3' 서열을 가지는 것을 특징으로 한다. 일 구현예로, 엔지니어링된 스캐폴드 영역의 변형된 제4 영역은 자연계에서 발견되는 스캐폴드 영역의 제4 영역에서 1개 내지 7개의 뉴클레오티드가 제거된 것일 수 있다. 일 구현예로, 상기 엔지니어링된 스캐폴드 영역의 변형된 제4 영역은 자연계에서 발견되는 스캐폴드 영역의 제4 영역에서 1개 내지 28개의 뉴클레오티드가 제거된 것일 수 있다. In one embodiment, the modified fourth region is characterized by having a 5'-CAAA-3' or 5'-AACAAA-3' sequence in the 5'-terminal direction. In one embodiment, the modified fifth region is characterized by having a 5'-GGA-3' sequence in the 3'-terminal direction. In one embodiment, the modified fourth region of the engineered scaffold region can be a fourth region of a scaffold region found in nature that has 1 to 7 nucleotides removed. In one embodiment, the modified fourth region of the engineered scaffold region can be a fourth region of a scaffold region found in nature that has 1 to 28 nucleotides removed.

또한, 제4 영역에서의 변형은 자연계에서 발견되는 스캐폴드 영역의 제4 영역에서, 서열번호 27의 염기서열을 기준으로, 5'-말단으로부터 9번째 내지 15번째 뉴클레오티드 중 하나 이상이 제거된 것일 수 있다. 일 구현예로, 변형된 제4 영역은 상기 자연계에서 발견되는 스캐폴드 영역의 제4 영역에서, 서열번호 27의 염기서열을 기준으로, 5'-말단으로부터 9번째 내지 36번째 뉴클레오티드 중 하나 이상이 제거된 것일 수 있다. 구체적으로, 제4 영역에서의 변형은 상기 서열번호 14 중 5'-CAAAUUCANNNNN-3' (서열번호 15)을 포함하면서 3'-말단으로부터 일부 서열(예를 들어, 적어도 1개, 2개, 3개, 4개, 5개, 6개, 7개, 8개, 9개, 10개, 11개, 12개, 13개, 14개, 15개, 16개, 17개 또는 18개의 뉴클레오티드 서열)이 포함하지 않는 서열일 수 있다. 예를 들어, 5'-CAAAUUCANNNNNCCUCUCCAAUUC-3' (서열번호 16), 5'-CAAAUUCANNNNNCCUCUC-3' (서열번호 17) 또는 5'-CAAAUUCANNNNN-3' (서열번호 15)일 수 있다. 또한, 제4 영역은 상기 5'-NNNNN-3' 부위가 5'-NNNVN-3' 또는 5'-NVNNN-3'로 치환된 것을 포함할 수 있다. 여기서 상기 각각의 N은 독립적으로 A, C, G 또는 U이고, 상기 V는 A, C 또는 G일 수 있다. 바람직하게, 제4 영역은 5'-CAAAUUCANNNCN-3' (서열번호 18)을 포함하면서 3'-말단으로부터 일부 서열(예를 들어, 적어도 1개, 2개, 3개, 4개, 5개, 6개, 7개, 8개, 9개, 10개, 11개, 12개, 13개, 14개, 15개, 16개, 17개 또는 18개의 뉴클레오티드 서열)이 포함하지 않는 서열일 수 있다. 여기서 각각의 N은 독립적으로 A, C, G 또는 U이다.Additionally, the modification in the fourth region may be such that one or more of the 9th to 15th nucleotides from the 5'-terminus, based on the base sequence of SEQ ID NO: 27, in the fourth region of the scaffold region found in nature are removed. In one embodiment, the modified fourth region may be such that one or more of the 9th to 36th nucleotides from the 5'-terminus, based on the base sequence of SEQ ID NO: 27, in the fourth region of the scaffold region found in nature are removed. Specifically, the modification in the fourth region can be a sequence that includes 5'-CAAAUUCANNNNN-3' (SEQ ID NO: 15) of the above SEQ ID NO: 14, but does not include a portion of the sequence (e.g., at least 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17 or 18 nucleotide sequence) from the 3'-end. For example, it can be 5'-CAAAUUCANNNNNCCUCUCCAAUUC-3' (SEQ ID NO: 16), 5'-CAAAUUCANNNNNCCUCUC-3' (SEQ ID NO: 17) or 5'-CAAAUUCANNNNN-3' (SEQ ID NO: 15). Additionally, the fourth region may include a sequence in which the 5'-NNNNN-3' portion is replaced with 5'-NNNVN-3' or 5'-NVNNN-3', wherein each of said Ns is independently A, C, G or U, and wherein said V can be A, C or G. Preferably, the fourth region may be a sequence comprising 5'-CAAAUUCANNNCN-3' (SEQ ID NO: 18) and not including a portion of the sequence (for example, at least 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17 or 18 nucleotide sequence) from the 3'-end. Wherein each of said Ns is independently A, C, G or U.

일 구현예로, 변형된 제5 영역은 자연계에서 발견되는 스캐폴드 영역의 제5 영역에서, 서열번호 19의 염기서열을 기준으로, 5'-말단으로부터 1번째 내지 7번째 뉴클레오티드 중 하나 이상이 제거된 것일 수 있다. 일 구현예로, 변형된 제5 영역은 자연계에서 발견되는 스캐폴드 영역의 제5 영역에서, 서열번호 19의 뉴클레오티드 서열을 기준으로, 5'-말단으로부터 1번째 내지 27번째 뉴클레오티드 중 하나 이상이 제거된 것일 수 있다. In one embodiment, the modified fifth region may be a fifth region of a scaffold region found in nature, wherein one or more of the 1st to 7th nucleotides from the 5'-terminus, based on the nucleotide sequence of SEQ ID NO: 19, are removed. In one embodiment, the modified fifth region may be a fifth region of a scaffold region found in nature, wherein one or more of the 1st to 27th nucleotides from the 5'-terminus, based on the nucleotide sequence of SEQ ID NO: 19, are removed.

일 구현예로, 변형된 제4 영역 및 제5 영역은 상기 자연계에서 발견되는 스캐폴드 영역의 제4 영역 및 제5 영역에서, 서열번호 14의 뉴클레오티드 서열을 기준으로 5'-말단으로부터 9번째 내지 15번째 및 서열번호 19의 뉴클레오티드 서열을 기준으로 5'-말단으로부터 1번째 내지 7번째 뉴클레오티드 중 가이드 RNA 및 Cas12f1 변이체 단백질 복합체에서 염기쌍을 이루는 한 쌍 이상의 뉴클레오티드 및/또는 염기쌍을 이루지 않는 1개 이상의 뉴클레오티드가 제거된 것일 수 있다.In one embodiment, the modified fourth and fifth regions may be those in which one or more pairs of nucleotides that form base pairs and/or one or more non-base paired nucleotides in the guide RNA and Cas12f1 variant protein complex are removed from the fourth and fifth regions of the scaffold region found in nature, the 9th to 15th nucleotides from the 5'-terminus based on the nucleotide sequence of SEQ ID NO: 14 and the 1st to 7th nucleotides from the 5'-terminus based on the nucleotide sequence of SEQ ID NO: 19.

또한, 변형된 제4 영역 및 제5 영역은 자연계에서 발견되는 스캐폴드 영역의 제4 영역 및 제5 영역에서, 서열번호 14의 뉴클레오티드 서열을 기준으로 5'-말단으로부터 9번째 내지 15번째 및 서열번호 19의 뉴클레오티드 서열을 기준으로 5'-말단으로부터 1번째 내지 7번째 뉴클레오티드 중 가이드 RNA 및 Cas12f1 변이체 단백질 복합체에서 염기쌍을 이루는 한 쌍 이상의 뉴클레오티드 및/또는 미스매치인 한 쌍 이상의 뉴클레오티드가 제거된 것일 수 있다.In addition, the modified fourth and fifth regions may be those in which one or more pairs of nucleotides forming base pairs and/or one or more pairs of nucleotides that are mismatched in the guide RNA and Cas12f1 variant protein complex are removed from the 9th to 15th nucleotides from the 5'-terminus based on the nucleotide sequence of SEQ ID NO: 14 and from the 1st to 7th nucleotides from the 5'-terminus based on the nucleotide sequence of SEQ ID NO: 19 in the fourth and fifth regions of the scaffold region found in nature.

상기 변형된 제4 영역 및 제5 영역은 자연계에서 발견되는 스캐폴드 영역의 제4 영역 및 제5 영역에서, 서열번호 14의 뉴클레오티드 서열을 기준으로 5'-말단으로부터 9번째 내지 36번째 뉴클레오티드 및 서열번호 19의 뉴클레오티드 서열을 기준으로 1번째 내지 27번째 뉴클레오티드 중 가이드 RNA 및 Cas12f1 변이체 단백질 복합체에서 염기쌍을 이루는 한 쌍 이상의 뉴클레오티드 및/또는 염기쌍을 이루지 않는 1개 이상의 뉴클레오티드가 제거된 것일 수 있다.The above modified fourth and fifth regions may be those in which one or more pairs of nucleotides that form base pairs and/or one or more nucleotides that do not form base pairs in the guide RNA and Cas12f1 variant protein complex are removed from the 9th to 36th nucleotides from the 5'-end based on the nucleotide sequence of SEQ ID NO: 14 and from the 1st to 27th nucleotides based on the nucleotide sequence of SEQ ID NO: 19 in the fourth and fifth regions of the scaffold region found in nature.

일 구현예로, 변형된 제4 영역의 서열은 5'-AACAAA-3', 5'-AACAAAU-3', 5'-AACAAAUU-3', 5'-AACAAAUUC-3', 5'-AACAAAUUCA-3' (서열번호 94), 5'-AACAAAUUCAU-3' (서열번호 95), 5'-AACAAAUUCAUU-3' (서열번호 96), 5'-CAAA-3', 5'-CAAAU-3', 5'-CAAAUU-3', 5'-CAAAUUC-3', 5'-CAAAUUCA-3', 5'-CAAAUUCAU-3' 또는 5'-CAAAUUCAUU-3'이거나 이를 포함할 수 있다. In one embodiment, the sequence of the modified fourth region can be or comprises 5'-AACAAA-3', 5'-AACAAAU-3', 5'-AACAAAUU-3', 5'-AACAAAUUC-3', 5'-AACAAAUUCA-3' (SEQ ID NO: 94), 5'-AACAAAUUCAU-3' (SEQ ID NO: 95), 5'-AACAAAUUCAUU-3' (SEQ ID NO: 96), 5'-CAAA-3', 5'-CAAAU-3', 5'-CAAAUU-3', 5'-CAAAUUC-3', 5'-CAAAUUCA-3', 5'-CAAAUUCAU-3' or 5'-CAAAUUCAUU-3'.

또한, 변형된 제5 영역의 서열은 5'-GGA-3', 5'-AGGA-3', 5'-AAGGA-3', 5'-GAAGGA-3', 5'-UGAAGGA-3', 5'-AUGAAGGA-3' 또는 5'-AAUGAAGGA-3'이거나 이를 포함할 수 있다.Additionally, the sequence of the modified fifth region may be or include 5'-GGA-3', 5'-AGGA-3', 5'-AAGGA-3', 5'-GAAGGA-3', 5'-UGAAGGA-3', 5'-AUGAAGGA-3' or 5'-AAUGAAGGA-3'.

바람직하게, 제4 영역 및 제5 영역이 변형된 엔지니어링된 스캐폴드 영역은 5'-말단에서 3'-말단 방향으로, 5'-AACAAA-3', 5'-AACAAAU-3', 5'-AACAAAUU-3', 5'-AACAAAUUC-3', 5'-AACAAAUUCA-3' (서열번호 94), 5'-AACAAAUUCAU-3' (서열번호 95) 및 5'-AACAAAUUCAUU-3' (서열번호 96)로 이루어진 군에서 선택된 하나 이상의 서열; 및 5'-말단에서 3'말단 방향으로, 5'-GGA-3', 5'-AGGA-3', 5'-AAGGA-3', 5'-GAAGGA-3', 5'-UGAAGGA-3', 5'-AUGAAGGA-3' 및 5'-AAUGAAGGA-3'로 이루어진 군에서 선택된 하나 이상의 서열이 연결된 서열을 포함하는 핵산일 수 있다. Preferably, the engineered scaffold region wherein the fourth region and the fifth region are modified comprises, from the 5'-end to the 3'-end, one or more sequences selected from the group consisting of 5'-AACAAA-3', 5'-AACAAAU-3', 5'-AACAAAUU-3', 5'-AACAAAUUC-3', 5'-AACAAAUUCA-3' (SEQ ID NO: 94), 5'-AACAAAUUCAU-3' (SEQ ID NO: 95) and 5'-AACAAAUUCAUU-3' (SEQ ID NO: 96); And it may be a nucleic acid comprising a sequence in which, from the 5'-terminal to the 3'-terminal direction, at least one sequence selected from the group consisting of 5'-GGA-3', 5'-AGGA-3', 5'-AAGGA-3', 5'-GAAGGA-3', 5'-UGAAGGA-3', 5'-AUGAAGGA-3' and 5'-AAUGAAGGA-3' is linked.

(5-6) 스캐폴드 제6 영역에서의 변형(5-6) Deformation in the 6th area of the scaffold

본 발명의 구현예에 따른 엔지니어링된 스캐폴드에서 제6 영역은 PK(R:AR-1) 부분 중 crRNA에 속한 뉴클레오티드를 포함하는 영역이다. 엔지니어링된 스캐폴드의 제6 영역은 자연계에서 발견되는 스캐폴드의 제6 영역과 동일하거나, 제6 영역의 기능이 손상되지 않는 한도 내에서 변형된 것일 수 있다. 일 예로, 제6 영역은 5'-AUGCAAC-3' (서열번호 23) 또는 상기 서열에 적어도 70% 이상의 서열 상동성을 가지는 서열일 수 있다.In an engineered scaffold according to an embodiment of the present invention, the sixth region is a region comprising nucleotides belonging to crRNA in the PK(R:AR-1) portion. The sixth region of the engineered scaffold may be identical to the sixth region of a scaffold found in nature, or may be modified as long as the function of the sixth region is not impaired. As an example, the sixth region may be 5'-AUGCAAC-3' (SEQ ID NO: 23) or a sequence having at least 70% sequence homology thereto.

(5-7) 가이드 RNA의 제7 영역에서의 변형(5-7) Modification in the 7th region of the guide RNA

본 발명의 구현예에서, 가이드 RNA의 제7 영역에서의 변형은 본 발명의 유전자 편집 시스템의 유전자 편집 효율 향상을 위해 crRNA의 3'-말단에 U-rich tail 서열의 제공을 포함한다. 상기 U-rich tail 서열은 기본적으로 유리딘을 풍부하게 포함하고 있는 것을 특징으로 하며, 유리딘이 하나 이상 연속된 서열을 포함한다.In an embodiment of the present invention, the modification in the 7th region of the guide RNA includes providing a U-rich tail sequence at the 3'-end of the crRNA to improve the gene editing efficiency of the gene editing system of the present invention. The U-rich tail sequence is characterized by being basically rich in uridine and includes a sequence of one or more consecutive uridines.

일부 구현예에서, 엔지니어링된 crRNA는 crRNA의 3'-말단에 제7 영역으로써, U-rich tail 서열을 추가로 더 포함할 수 있다. 상기 U-rich tail 서열은 5'-(UaN)dUe-3', 5'-UaVUaVUe-3' 또는 5'-UaVUaVUaVUe-3'일 수 있다. N은 각각 A, C, G 또는 U일 수 있다. V는 각각 독립적으로 A, C 또는 G일 수 있다. 상기 a는 0 내지 4의 정수일 수 있다. d는 0 내지 3의 정수일 수 있다. e는 0 내지 10의 정수일 수 있다.In some implementations, the engineered crRNA can further comprise a U-rich tail sequence as a seventh region at the 3'-end of the crRNA. The U-rich tail sequence can be 5'-(UaN)dUe-3', 5'-UaVUaVUe-3' or 5'-UaVUaVUaVUe-3'. Each of N can be A, C, G or U. Each of V can independently be A, C or G. a can be an integer from 0 to 4. d can be an integer from 0 to 3. e can be an integer from 0 to 10.

일 구현예로, 상기 U-rich tail 서열은 1 내지 10개의 유리딘 반복 서열을 포함할 수 있다. 상기 U-rich tail 서열은 엔지니어링된 가이드 RNA를 포함하는 유전자 편집 시스템의 실제 사용 환경 및 발현 환경, 예를 들어, 진핵 세포 또는 원핵 세포 내부 환경에 따라 유리딘 외 추가적인 염기를 더 포함할 수 있다. 일 예로, 상기 U-rich tail 서열은 UV, UUV, UUUV 및/또는 UUUUV가 하나 이상 반복된 서열을 포함할 수 있다. 이때, V는 아데노신(A), 시티딘(C), 구아노신(G) 중 하나이다. U-rich tail 서열은 본 발명의 초소형 유전자 편집 시스템에 포함된 crRNA 서열의 3'-말단에 연결된 것을 특징으로 한다.In one embodiment, the U-rich tail sequence may include 1 to 10 uridine repeat sequences. The U-rich tail sequence may further include additional bases other than uridine depending on the actual usage environment and expression environment of the gene editing system including the engineered guide RNA, for example, the internal environment of a eukaryotic cell or a prokaryotic cell. As an example, the U-rich tail sequence may include a sequence in which UV, UUV, UUUV and/or UUUUV are repeated one or more times. In this case, V is one of adenosine (A), cytidine (C), and guanosine (G). The U-rich tail sequence is characterized in that it is linked to the 3'-end of the crRNA sequence included in the ultra-small gene editing system of the present invention.

상기 U-rich tail 서열은 본 발명에서 제공하는 augment RNA 및 Cas12f1 변이체 단백질 복합체의 표적 핵산에 대한 절단 효율을 높이는 역할을 한다. 이때, 상기 표적 핵산은 단일가닥 DNA, 이중가닥 DNA 및/또는 RNA일 수 있다. 본 명세서에서 사용되는 "tail 서열"이라는 용어는, 유리딘(U)이 풍부하게 포함된 RNA 서열 그 자체뿐 아니라, 이를 암호화하는 DNA 서열을 의미할 수도 있으며, 이는 문맥에 따라서 적절하게 해석된다. 본 발명자들은 U-rich tail 서열의 구조 및 그 효과에 대해 실험적으로 자세히 밝혔으며, 이하 구체적인 구현예로 더 자세히 설명한다.The above U-rich tail sequence serves to increase the cleavage efficiency of the augment RNA and Cas12f1 mutant protein complex provided in the present invention for the target nucleic acid. At this time, the target nucleic acid may be single-stranded DNA, double-stranded DNA, and/or RNA. The term "tail sequence" used herein may mean not only the RNA sequence itself rich in uridine (U) but also the DNA sequence encoding the same, and this is appropriately interpreted depending on the context. The present inventors have experimentally elucidated the structure and effect of the U-rich tail sequence in detail, which will be described in more detail below with specific implementation examples.

일 예로, U-rich tail 서열은 Ux로 표현될 수 있다. 상기 x는 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20일 수 있다. 일 구현예로, x는 바로 이전 문장에서 선택된 두 수치 범위 내의 정수일 수 있다. 예를 들어, x는 1 내지 6 사이의 정수일 수 있다. 또 다른 예를 들어, x는 1 내지 20 사이의 정수일 수 있다. 일 구현예로, x는 20 이상의 정수일 수 있다. For example, a U-rich tail sequence can be represented as Ux. Wherein x can be 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20. In one embodiment, x can be an integer within two numerical ranges selected in the immediately preceding sentence. For example, x can be an integer between 1 and 6. In another example, x can be an integer between 1 and 20. In one embodiment, x can be an integer greater than or equal to 20.

또한, 일 구현예로, 상기 U-rich tail 서열은 (UaN)nUb로 표현될 수 있다. 이때, N은 아데노신(A), 유리딘(U), 시티딘(C), 구아노신(G) 중 하나이다. 이때, a는 1 내지 5 사이의 정수이고, n은 0 이상의 정수이다. 일 구현예로, n은 0 내지 2 사이의 정수일 수 있다. 일 구현예로, b는 1, 2, 3, 4, 5, 6, 7, 8, 9, 또는 10일 수 있다. 일 구현예로, b는 바로 이전 문장에서 선택된 두 수치범위 내의 정수일 수 있다. 예를 들어, b는 1 내지 6 사이의 정수일 수 있다. Also, in one embodiment, the U-rich tail sequence can be represented as (UaN)nUb, where N is one of adenosine (A), uridine (U), cytidine (C), and guanosine (G). Wherein, a is an integer between 1 and 5, and n is an integer greater than or equal to 0. In one embodiment, n can be an integer between 0 and 2. In one embodiment, b can be 1, 2, 3, 4, 5, 6, 7, 8, 9, or 10. In one embodiment, b can be an integer within two numerical ranges selected in the immediately preceding sentence. For example, b can be an integer between 1 and 6.

일 구현예로, 상기 U-rich tail 서열은 (UaV)nUb로 표현될 수 있다. 이때, 상기 V는 아데노신(A), 시티딘(C), 구아노신(G) 중 하나이다. 이때, a는 1 내지 4 사이의 정수이고, n은 0 이상의 정수이다. 일 구현예로, n은 1 또는 2일 수 있다. 일 구현예로, b는 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20일 수 있다. 일 구현예로, b는 바로 이전 문장에서 선택된 두 수치범위 내의 정수일 수 있다. 예를 들어, b는 1 내지 6 사이의 정수일 수 있다. 또 다른 예를 들어, b는 1 내지 20 사이의 정수일 수 있다. 일 구현예로, b는 20 이상의 정수일 수 있다.In one embodiment, the U-rich tail sequence can be represented as (UaV)nUb, where V is one of adenosine (A), cytidine (C), and guanosine (G). Wherein, a is an integer from 1 to 4, and n is an integer greater than or equal to 0. In one embodiment, n can be 1 or 2. In one embodiment, b can be 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20. In one embodiment, b can be an integer within two numerical ranges selected in the immediately preceding sentence. For example, b can be an integer from 1 to 6. In another example, b can be an integer from 1 to 20. As an example implementation, b can be an integer greater than or equal to 20.

또한, 상기 U-rich tail 서열은 Ux로 표현되는 서열 및 (UaV)n로 표현되는 서열이 조합된 형태일 수 있다. 일 구현예로, 상기 U-rich tail 서열은 U)n1-V1-(U)n2-V2-Ux로 표현될 수 있다. 이때, V1 및 V2는 각각 아데닌(A), 시티딘(C), 구아닌(G) 중 하나이다. 이때, n1, 및 n2는 각각 1 내지 4 사이의 정수일 수 있다. 이때, 상기 x는 1 내지 20 사이의 정수일 수 있다.In addition, the U-rich tail sequence may be a combined form of a sequence represented by Ux and a sequence represented by (UaV)n. In one embodiment, the U-rich tail sequence may be represented by U)n1-V1-(U)n2-V2-Ux. At this time, V1 and V2 are each one of adenine (A), cytidine (C), and guanine (G). At this time, n1 and n2 may each be an integer between 1 and 4. At this time, x may be an integer between 1 and 20.

또한, 상기 U-rich tail 서열의 길이는 1nt, 2nt, 3nt, 4nt, 5nt, 6nt, 7nt, 8nt, 9nt, 10nt, 11nt, 12nt, 13nt, 14nt, 15nt, 16nt, 17nt, 18nt, 19nt, 또는 20nt일 수 있다. 일 구현예로, 상기 U-rich tail 서열의 길이는 20nt 이상일 수 있다.Additionally, the length of the U-rich tail sequence may be 1 nt, 2 nt, 3 nt, 4 nt, 5 nt, 6 nt, 7 nt, 8 nt, 9 nt, 10 nt, 11 nt, 12 nt, 13 nt, 14 nt, 15 nt, 16 nt, 17 nt, 18 nt, 19 nt, or 20 nt. In one embodiment, the length of the U-rich tail sequence may be 20 nt or longer.

일 구현예로, 상기 U-rich tail의 서열은 5'-U-3', 5'-UU-3', 5'-UUU-3', 5'-UUUU-3', 5'-UUUUU-3', 5'-UUUUUU-3', 5'-UUURUUU-3' (서열번호 67), 5'-UUURUUURUUU-3' (서열번호 68), 5'-UUUURU-3' (서열번호 69), 5'-UUUURUU-3' (서열번호 70), 5'-UUUURUUU-3' (서열번호 71), 5'-UUUURUUUU-3' (서열번호 72), 5'-UUUURUUUUU-3' (서열번호 73), 또는 5'-UUUURUUUUUU-3' (서열번호 74)일 수 있다. 여기서 R은 A 또는 G일 수 있다. 바람직하게, 상기 U-rich tail의 서열은 상기 서열번호 67 내지 74 중 어느 하나의 염기서열에서 상기 R이 A인 것으로, 서열번호 75 내지 서열번호 82 중 어느 하나의 염기서열을 포함하거나 이로 이루어진 것일 수 있다. In one embodiment, the sequence of the U-rich tail is 5'-U-3', 5'-UU-3', 5'-UUU-3', 5'-UUUU-3', 5'-UUUUU-3', 5'-UUUUU-3', 5'-UUUUUU-3', 5'-UUURUUU-3' (SEQ ID NO: 67), 5'-UUURUUUUU-3' (SEQ ID NO: 68), 5'-UUUURU-3' (SEQ ID NO: 69), 5'-UUUURUU-3' (SEQ ID NO: 70), 5'-UUUURUUU-3' (SEQ ID NO: 71), 5'-UUUURUUUU-3' (SEQ ID NO: 72), 5'-UUUURUUUUU-3' (SEQ ID NO: 73), or It may be 5'-UUUURUUUUU-3' (SEQ ID NO: 74). Here, R may be A or G. Preferably, the sequence of the U-rich tail may be one in which R is A in any one of the base sequences of SEQ ID NOs: 67 to 74, and may include or consist of any one of the base sequences of SEQ ID NOs: 75 to 82.

또한, 상기 U-rich tail의 서열은 상기 서열번호 67 내지 74 중 어느 하나의 염기서열에서 상기 R이 G인 것으로, 서열번호 83 내지 서열번호 90 중 어느 하나의 염기서열을 포함하거나 이로 이루어진 것일 수 있다. 가장 바람직하게, 상기 U-rich tail의 서열은 5'-UUUUAUUUU-3' (서열번호 80), 5'-UUUUAUUUUUU-3' (서열번호 82), 5'-UUUUGUUUUUU-3' (서열번호 90) 또는 5'-UUUUUU-3' (서열번호 91)일 수 있다. In addition, the sequence of the U-rich tail may be a sequence of any one of SEQ ID NOs: 67 to 74, wherein R is G, and may include or consist of any one of SEQ ID NOs: 83 to 90. Most preferably, the sequence of the U-rich tail may be 5'-UUUUAUUUU-3' (SEQ ID NO: 80), 5'-UUUUAUUUUUUU-3' (SEQ ID NO: 82), 5'-UUUUGUUUUUU-3' (SEQ ID NO: 90) or 5'-UUUUUUU-3' (SEQ ID NO: 91).

일 구현예에서, U-rich tail 서열은 서열번호 67 내지 서열번호 91로 이루어진 군에서 선택된 어느 하나의 뉴클레오티드 서열을 포함하거나 이로 이루어질 수 있다. In one embodiment, the U-rich tail sequence can comprise or consist of any one nucleotide sequence selected from the group consisting of SEQ ID NO: 67 to SEQ ID NO: 91.

(6) 추가 서열(additional sequence)(6) Additional sequence

본 발명의 상기 엔지니어링된 tracrRNA는 추가 서열(additional sequence)을 선택적으로 더 포함할 수 있다. 상기 추가 서열은 엔지니어링된 tracrRNA의 3'-말단에 위치할 수 있다. 상기 추가 서열은 제4 영역의 3'-말단에 위치할 수 있다. 또한, 상기 추가 서열은 또한 엔지니어링된 tracrRNA의 5'-말단에 위치할 수 있다. 예를 들어, 상기 추가 서열은 제1 영역의 5'-말단에 위치할 수 있다.The engineered tracrRNA of the present invention may optionally further comprise an additional sequence. The additional sequence may be located at the 3'-terminus of the engineered tracrRNA. The additional sequence may be located at the 3'-terminus of the fourth region. In addition, the additional sequence may also be located at the 5'-terminus of the engineered tracrRNA. For example, the additional sequence may be located at the 5'-terminus of the first region.

상기 추가 서열은 1개 내지 40개의 뉴클레오티드일 수 있다. 일 구현예로서, 상기 추가 서열은 임의의 뉴클레오티드 서열 또는 임의로 배열된 뉴클레오티드 서열일 수 있다. 예를 들어, 상기 추가 서열은 5'-AUAAAGGUGA-3' (서열번호 97) 서열일 수 있다. The additional sequence can be from 1 to 40 nucleotides. In one embodiment, the additional sequence can be any nucleotide sequence or any randomly arranged nucleotide sequence. For example, the additional sequence can be the sequence 5'-AUAAAGGUGA-3' (SEQ ID NO: 97).

또한, 상기 추가 서열은 공지된 뉴클레오티드 서열일 수 있다. 일 예로, 상기 추가 서열은 hammerhead ribozyme 뉴클레오티드 서열일 수 있다. 여기서, 상기 hammerhead ribozyme 뉴클레오티드 서열은 5'-CUGAUGAGUCCGUGAGGACGAAACGAGUAAGCUCGUC-3' (서열번호 98) 서열 또는 5'-CUGCUCGAAUGAGCAAAGCAGGAGUGCCUGAGUAGUC-3' (서열번호 99) 서열일 수 있다. 상기 예시는 단순 예시로, 이에 제한되지 않는다.Additionally, the additional sequence may be a known nucleotide sequence. For example, the additional sequence may be a hammerhead ribozyme nucleotide sequence. Here, the hammerhead ribozyme nucleotide sequence may be a 5'-CUGAUGAGUCCGUGAGGACGAAACGAGUAAGCUCGUC-3' (SEQ ID NO: 98) sequence or a 5'-CUGCUCGAAUGAGCAAAGCAGGAGUGCCUGAGUAGUC-3' (SEQ ID NO: 99) sequence. The above examples are merely illustrative and are not limiting.

(7) 화학적 변형(Chemical modification)(7) Chemical modification

일부 구현예에서, 상기 엔지니어링된 tracrRNA 또는 엔지니어링된 crRNA는 필요에 따라 적어도 하나 이상의 뉴클레오티드가 화학적 변형을 가질 수 있다. 이때, 상기 화학적 변형은 뉴클레오티드의 염기 및/또는 당에서 발생할 수 있는 다양한 공유 결합의 변형일 수 있다. In some embodiments, the engineered tracrRNA or engineered crRNA may optionally have at least one or more nucleotides with a chemical modification. The chemical modification may be a modification of various covalent bonds that may occur in the bases and/or sugars of the nucleotides.

일 예로, 상기 화학적 변형은 methylation, halogenation, acetylation, phosphorylation, phosphorothioate linkage, locked nucleic acid(LNA), 2'-O-methyl 3'phosphorothioate(MS) 또는 2'-O-methyl 3'thioPACE(MSP)일 수 있다. 상기 예시는 단순 예시로, 이에 제한되지 않는다.For example, the chemical modification may be methylation, halogenation, acetylation, phosphorylation, phosphorothioate linkage, locked nucleic acid (LNA), 2'-O-methyl 3'phosphorothioate (MS) or 2'-O-methyl 3'thioPACE (MSP). The above examples are merely illustrative and are not limiting.

본 발명의 augment RNA 및 Cas12f1 변이체 단백질 복합체를 포함하는 초소형 유전자 편집 시스템에 사용하는 경우, 자연계에서 발견되는 가이드 RNA를 사용하는 경우에 비해 세포 내에서 표적 핵산 또는 표적 유전자의 절단 또는 편집이 현저하게 향상되는 효과가 나타난다. When used in an ultra-small gene editing system comprising the augment RNA and Cas12f1 mutant protein complex of the present invention, the effect of significantly improving cleavage or editing of a target nucleic acid or target gene within a cell is exhibited compared to when using a guide RNA found in nature.

무엇보다 상기 엔지니어링된 가이드 RNA는 고효율을 나타내는 길이의 최적화와 이에 따른 가이드 RNA 합성 비용 절감, 바이러스 벡터에 삽입하는 경우에 추가 공간 또는 용량 확보, tracrRNA의 정상적인 발현, 작동가능한 가이드 RNA 발현의 증가, 가이드 RNA의 안정성(stability) 증가, 가이드 RNA와 Cas12f1 변이체 단백질 복합체의 안정성 증가, 고효율의 가이드 RNA 및 Cas12f1 변이체 단백질 복합체 형성 유도, 가이드 RNA 및 Cas12f1 변이체 단백질 복합체를 포함하는 초소형 유전자 편집 시스템에 의한 표적 핵산의 절단 효율 증가 및 상기 시스템에 의한 표적 핵산의 편집 효율 증가 효과를 수반할 수 있다. 이에 따라, Cas12f1 변이체 단백질 또는 이의 동족체 단백질에 대해 상술한 엔지니어링된 가이드 RNA를 사용하면 전술한 종래 기술의 한계점을 극복하여 세포 내에서 높은 효율로 유전자를 절단 또는 편집할 수 있다. Above all, the engineered guide RNA may have the following effects: optimization of the length showing high efficiency and reduction of the guide RNA synthesis cost accordingly, securing additional space or capacity when inserted into a viral vector, normal expression of tracrRNA, increase in the expression of operable guide RNA, increase in the stability of the guide RNA, increase in the stability of the guide RNA and Cas12f1 variant protein complex, induction of formation of a highly efficient guide RNA and Cas12f1 variant protein complex, increase in the cleavage efficiency of the target nucleic acid by the ultra-small gene editing system including the guide RNA and Cas12f1 variant protein complex, and increase in the editing efficiency of the target nucleic acid by the system. Accordingly, the use of the engineered guide RNA described above for the Cas12f1 variant protein or a homolog protein thereof can overcome the limitations of the above-mentioned conventional technology and can cleave or edit genes with high efficiency in cells.

또한, 엔지니어링된 가이드 RNA는 자연계에서 발견되는 가이드 RNA와 비교하여 짧은 길이를 가지므로 유전자 편집 기술 분야에서 그 응용 가능성이 높다. 상기 엔지니어링된 가이드 RNA를 사용하면 가이드 RNA 및 Cas12f1 변이체 단백질 복합체를 포함하는 초소형 유전자 편집 시스템의 크기가 매우 작고, 편집 효율이 우수하다는 장점은 다양한 유전자 편집 기술에 활용할 수 있게 된다.In addition, since the engineered guide RNA has a short length compared to guide RNAs found in nature, it has a high potential for application in the field of gene editing technology. Using the engineered guide RNA, the size of the ultra-small gene editing system containing the guide RNA and Cas12f1 variant protein complex is very small, and the editing efficiency is excellent, so that it can be utilized in various gene editing technologies.

4. 유전자 편집용 조성물4. Composition for gene editing

본 발명의 다른 태양에 따르면, 상술한 유전자 편집 시스템을 포함하는 유전자 편집용 조성물이 제공된다. 또한, 후술한 벡터 시스템 또는 상기 유전자 편집 시스템 및 벡터 시스템을 모두 포함하는 유전자 편집용 조성물이 제공된다.According to another aspect of the present invention, a gene editing composition comprising the gene editing system described above is provided. In addition, a gene editing composition comprising the vector system described below or both the gene editing system and the vector system is provided.

일 구현예로, 유전자 편집용 조성물은 Cas12f1 변이체 단백질 또는 이의 동족체 단백질을 포함하는 소형 엔도뉴클레아제 또는 상기 엔도뉴클레아제를 암호화하는 핵산; 및 가이드 RNA 또는 상기 가이드 RNA를 암호화하는 핵산을 포함할 수 있다. 상기 "Cas12f1 변이체 단백질", "동족체 단백질" 및 "가이드 RNA"에 관한 사항은 상술한 내용을 참조한다. In one embodiment, the composition for gene editing can comprise a small endonuclease comprising a Cas12f1 variant protein or a homolog protein thereof, or a nucleic acid encoding the endonuclease; and a guide RNA or a nucleic acid encoding the guide RNA. For the "Cas12f1 variant protein", "homolog protein" and "guide RNA", see above.

본 발명의 유전자 편집용 조성물은 상기 본 발명에 따른 초소형 유전자 편집 시스템의 각 구성요소 이외에, 유전자 편집 용도에 필요한 적절한 물질을 추가로 포함할 수 있음은 자명하다.It is obvious that the gene editing composition of the present invention may additionally contain, in addition to each component of the ultra-small gene editing system according to the present invention, an appropriate material necessary for the gene editing purpose.

III. 초소형 유전자 편집 시스템의 구성요소를 암호화하는 핵산III. Nucleic acids encoding components of a miniature gene editing system

본 발명에서 제공하는 초소형 유전자 편집 시스템의 각 구성요소는 세포 내에서 발현되도록 하는 것이므로, 본 발명의 일 태양에 따르면, 초소형 유전자 편집 시스템의 각 구성요소를 암호화하는 핵산 또는 폴리뉴클레오티드가 제공된다. Since each component of the ultra-small gene editing system provided in the present invention is intended to be expressed within a cell, according to one aspect of the present invention, a nucleic acid or polynucleotide encoding each component of the ultra-small gene editing system is provided.

구체적으로, 핵산 또는 폴리뉴클레오티드는 발현하고자 하는 상기 초소형 유전자 편집 시스템에 포함된 유전자 편집 단백질 및/또는 가이드 RNA를 암호화하는 핵산 서열을 포함한다. 이때, 상기 핵산 또는 폴리뉴클레오티드의 서열은 야생형의 유전자 편집 단백질 및 야생형의 가이드 RNA를 암호화하는 핵산 서열뿐만 아니라, 그 목적에 따라 엔지니어링된 augment RNA 및/또는 코돈 최적화된 유전자 편집 단백질을 암호화하는 핵산 서열, 엔지니어링된 유전자 편집 단백질을 암호화하는 핵산 서열, 또는 DNA 이중가닥 절단 활성이 상실되거나 감소된 유전자 편집 단백질을 암호화하는 핵산 서열을 포함할 수 있다. Specifically, the nucleic acid or polynucleotide comprises a nucleic acid sequence encoding a gene editing protein and/or guide RNA included in the ultra-small gene editing system to be expressed. At this time, the sequence of the nucleic acid or polynucleotide may include not only a nucleic acid sequence encoding a wild-type gene editing protein and a wild-type guide RNA, but also a nucleic acid sequence encoding an engineered augment RNA and/or a codon-optimized gene editing protein, a nucleic acid sequence encoding an engineered gene editing protein, or a nucleic acid sequence encoding a gene editing protein with lost or reduced DNA double-strand cleavage activity.

본 발명에서, 상기 핵산 또는 폴리뉴클레오티드는 초소형 유전자 편집 단백질인 Cas12f1 변이체 단백질 또는 이의 동족체 단백질을 발현하도록 구성된 서열을 포함할 수 있다. 여기서, 상기 Cas12f1 변이체 단백질 또는 이의 동족체 단백질은 DNA 이중가닥 또는 단일가닥을 절단하는 활성을 가지는 단백질일 수 있다. In the present invention, the nucleic acid or polynucleotide may include a sequence configured to express a Cas12f1 variant protein or a homolog protein thereof, which is an ultra-small gene editing protein. Here, the Cas12f1 variant protein or a homolog protein thereof may be a protein having an activity of cleaving a double-stranded or single-stranded DNA.

일 구현예로, 상기 핵산 또는 폴리뉴클레오티드는 Cas12f1 변이체 단백질을 발현하도록 구성된 서열을 포함할 수 있다. 여기서, 상기 야생형의 Cas12f1 변이체 단백질은 서열번호 1의 아미노산 서열로 이루어진 단백질일 수 있다. 또한, 본 발명에 따른 Cas12f1 변이체 단백질의 동족체는 서열번호 5의 아미노산 서열로 이루어진 Cas12f1 단백질의 N-말단에 1개 내지는 28개의 아미노산이 추가된 단백질일 수 있다. In one embodiment, the nucleic acid or polynucleotide may comprise a sequence configured to express a Cas12f1 variant protein. Here, the wild-type Cas12f1 variant protein may be a protein consisting of an amino acid sequence of SEQ ID NO: 1. In addition, an analog of the Cas12f1 variant protein according to the present invention may be a protein having 1 to 28 amino acids added to the N-terminus of a Cas12f1 protein consisting of an amino acid sequence of SEQ ID NO: 5.

또한, 상기 핵산 또는 폴리뉴클레오티드는 Cas12f1 변이체 단백질 또는 이의 동족체 단백질을 암호화하는 서열을 포함할 수 있다. 바람직하게, 상기 핵산 또는 폴리뉴클레오티드는 Cas12f1 변이체 단백질 또는 이의 동족체 단백질을 암호화하는 인간 코돈 최적화된 핵산 서열을 포함할 수 있다. 여기서, Cas12f1 변이체 단백질은 서열번호 1 내지 4로 이루어진 군에서 선택된 어느 하나의 아미노산 서열로 이루어진 단백질일 수 있고, 동족체 단백질은 서열번호 141 내지 서열번호 232로 이루어진 군에서 선택된 어느 하나의 아미노산 서열로 이루어진 단백질일 수 있다. Additionally, the nucleic acid or polynucleotide may comprise a sequence encoding a Cas12f1 variant protein or a homolog protein thereof. Preferably, the nucleic acid or polynucleotide may comprise a human codon optimized nucleic acid sequence encoding a Cas12f1 variant protein or a homolog protein thereof. Here, the Cas12f1 variant protein may be a protein consisting of any one amino acid sequence selected from the group consisting of SEQ ID NOs: 1 to 4, and the homolog protein may be a protein consisting of any one amino acid sequence selected from the group consisting of SEQ ID NOs: 141 to 232.

또한, 상기 핵산 또는 폴리뉴클레오티드는 변형된 Cas12f1 변이체 단백질 또는 Cas12f1 변이체 융합 단백질을 암호화하는 서열을 포함할 수 있다. 일 구현예로, 상기 핵산 또는 폴리뉴클레오티드는 표적 핵산의 이중가닥 중 하나의 가닥만 절단하도록 변경된 Cas12f1 변이체 단백질을 발현하도록 구성된 서열을 포함할 수 있다. 일 예로, 상기 변형된 Cas12f1 변이체 단백질은 표적 핵산의 이중가닥 중 하나의 가닥만 절단할 수 있고, 절단하지 않는 가닥에 대해 염기 교정(Base editing) 또는 프라임 교정(Prime editing)을 할 수 있도록 변경된 것일 수 있다. 또는, 상기 핵산 또는 폴리뉴클레오티드는 표적 핵산에 대해 염기 교정(Base editing) 또는 프라임 교정(Prime editing) 또는 유전자 발현 조절 기능을 할 수 있도록 변경된 Cas12f1 변이체 단백질을 암호화하는 서열을 포함할 수 있다.Additionally, the nucleic acid or polynucleotide may comprise a sequence encoding a modified Cas12f1 variant protein or a Cas12f1 variant fusion protein. In one embodiment, the nucleic acid or polynucleotide may comprise a sequence configured to express a Cas12f1 variant protein that is modified to cleave only one strand of a duplex of a target nucleic acid. In one example, the modified Cas12f1 variant protein may be modified to be able to cleave only one strand of a duplex of a target nucleic acid and perform base editing or prime editing on the strand that is not cut. Alternatively, the nucleic acid or polynucleotide may comprise a sequence encoding a Cas12f1 variant protein that is modified to be able to perform base editing or prime editing or gene expression regulation function on the target nucleic acid.

또한, 상기 핵산 또는 폴리뉴클레오티드는 Cas12f1 변이체에 대해 최적의 표적 효율을 가지도록 엔지니어링된 가이드 RNA(augment RNA)를 발현하도록 구성된 것이거나 또는 하나 또는 둘 이상의 서로 다른 엔지니어링된 가이드 RNA를 발현하도록 구성된 서열을 포함할 수 있다. 일 예로, 상기 augment RNA 서열은 스캐폴드 서열, 스페이서 서열 및 U-rich tail 서열을 포함할 수 있다. 구체적으로, 상기 augment RNA 서열은 변경된 tracrRNA 서열 및/또는 변경된 crRNA 서열을 포함하고, 여기에 U-rich tail 서열을 포함할 수 있다. 일 예로, 상기 U-rich tail 서열은 (UaN)nUb로 표현될 수 있다. 여기서, N은 아데노신(A), 유리딘(U), 시티딘(C), 구아노신(G) 중 하나이다. 여기서, a는 1 이상 4 이하의 한 정수이고, n은 0, 1, 2 중의 한 정수이며, b는 1 이상 10 이하의 한 정수다. 또 다른 구현예로, 상기 U-rich tail 서열은 (UaV)nUb로 표현될 수 있다. 이때, a, n, 및 b는 정수이며, a는 1 이상 4 이하, n은 0 이상이며, b는 1 이상 10 이하일 수 있다.In addition, the nucleic acid or polynucleotide may be configured to express an augmented guide RNA engineered to have optimal targeting efficiency for the Cas12f1 variant, or may comprise a sequence configured to express one or more different engineered guide RNAs. For example, the augmented RNA sequence may comprise a scaffold sequence, a spacer sequence, and a U-rich tail sequence. Specifically, the augmented RNA sequence may comprise a modified tracrRNA sequence and/or a modified crRNA sequence, and may comprise a U-rich tail sequence therein. For example, the U-rich tail sequence may be expressed as (UaN)nUb, wherein N is one of adenosine (A), uridine (U), cytidine (C), and guanosine (G). Here, a is an integer greater than or equal to 1 and less than or equal to 4, n is an integer greater than or equal to 0, 1, and 2, and b is an integer greater than or equal to 1 and less than or equal to 10. In another embodiment, the U-rich tail sequence can be represented as (UaV)nUb, where a, n, and b are integers, a can be 1 or more and 4 or less, n can be 0 or more, and b can be 1 or more and 10 or less.

IV. 초소형 유전자 폅집 시스템의 발현을 위한 벡터의 설계IV. Design of vector for expression of ultra-small gene-editing system

본 발명에서 제공하는 초소형 유전자 편집 시스템을 유전자 편집에 사용하기 위해서, 상기 유전자 편집 시스템의 각 구성을 암호화하는 서열을 포함하는 벡터를 표적 세포 내에 도입시키고, 표적 세포 내에서 상기 유전자 편집 시스템의 각 구성이 발현되도록 하는 방법이 이용될 수 있다. In order to use the ultra-small gene editing system provided by the present invention for gene editing, a method can be used in which a vector including a sequence encoding each component of the gene editing system is introduced into a target cell, and each component of the gene editing system is expressed in the target cell.

또한, 표적 핵산 또는 표적 유전자를 편집하기 위한 본 발명의 초소형 유전자 편집 시스템은 우수한 표적 효율을 달성하기 위해, 가이드 RNA 및 Cas12f1 변이체 단백질 복합체의 각 구성성분은 작동가능하게 연결되어 하나의 벡터로 포함되는 것이 바람직하다. 여기서, 핵산분해 단백질 또는 가이드 분자에는 필요에 따라 효과기 단백질이 연결되어 융합된 형태의 단백질을 이룰 수 있다. In addition, in order to achieve excellent targeting efficiency in the ultra-small gene editing system of the present invention for editing a target nucleic acid or a target gene, it is preferable that each component of the guide RNA and the Cas12f1 variant protein complex be operably linked and included as a single vector. Here, an effector protein may be linked to the nucleic acid-decomposing protein or the guide molecule as needed to form a fused protein.

일 예로, 상기 융합된 형태의 단백질은 박테리오파지 외피 단백질 내에 존재하는 직교 RNA-결합 단백질 또는 어댑터 단백질을 포함할 수 있다. 여기서, 외피 단백질은 MS2, Qβ, F2, GA, fr, JP501, M12, R17, BZ13, JP34, JP500, KU1, M11, MX1, TW18, VK, SP, FI, ID2, NL95, TW19, AP205, ΦCb5, ΦCb8r, ΦCb12r, ΦCb23r, 7s 및 PRR1등이 포함될 수 있다. 또한, 상기 융합된 형태의 단백질은 하나 이상의 지질 나노입자를 통해 전달될 수 있다. For example, the fused protein may include an orthogonal RNA-binding protein or an adaptor protein present in a bacteriophage coat protein. Here, the coat protein may include MS2, Qβ, F2, GA, fr, JP501, M12, R17, BZ13, JP34, JP500, KU1, M11, MX1, TW18, VK, SP, FI, ID2, NL95, TW19, AP205, ΦCb5, ΦCb8r, ΦCb12r, ΦCb23r, 7s, and PRR1. Additionally, the fused protein may be delivered via one or more lipid nanoparticles.

일 구현예로, 본 발명의 초소형 유전자 편집 시스템의 구성요소에 해당하는 초소형 유전자 편집 단백질인 Cas12f1 변이체 단백질 또는 이의 동족체 단백질은 이를 암호화하는 하나 이상의 가이드 RNA 또는 하나 이상의 mRNA 분자로서 세포에 전달될 수 있다. 이 때, 상기 RNA 분자는 하나 이상의 지질 나노입자를 통해 전달될 수 있다. In one embodiment, the Cas12f1 variant protein or a homolog protein thereof, which is a component of the ultra-small gene editing system of the present invention, can be delivered to a cell as one or more guide RNAs or one or more mRNA molecules encoding the same. In this case, the RNA molecules can be delivered via one or more lipid nanoparticles.

또한, 본 발명의 초소형 유전자 편집 시스템의 구성요소는 하나 이상의 DNA 분자형태일 수 있다. 여기서, 하나 이상의 DNA 분자는 유전자 편집 단백질 또는 가이드 분자를 발현시키도록 작동가능하게 구성된 하나 이상의 조절 요소를 포함할 수 있다. 필요에 따라 하나 이상의 조절 요소는 유도성 프로모터를 포함할 수 있다. Additionally, the components of the micro-gene editing system of the present invention may be in the form of one or more DNA molecules. Here, the one or more DNA molecules may include one or more regulatory elements operable to express a gene editing protein or a guide molecule. Optionally, the one or more regulatory elements may include an inducible promoter.

상기 초소형 유전자 편집 시스템을 구성하는 DNA 분자들은 하나 이상의 아데노-연관 바이러스(AAV) 벡터 내에 포함되어 세포 내로 전달될 수 있다. 바람직하게, 상기 DNA 분자들은 모두 하나의 아데노-연관 바이러스(AAV) 벡터 내에 포함되어 세포 내로 전달될 수 있다. The DNA molecules constituting the above ultra-small gene editing system can be delivered into a cell by being contained in one or more adeno-associated virus (AAV) vectors. Preferably, the DNA molecules can be delivered into a cell by being contained in a single adeno-associated virus (AAV) vector.

보다 구체적으로, 본 발명의 초소형 유전자 편집 시스템이 세포 내에서 발현되도록 하는 벡터의 구성 요소는 다음을 포함한다.More specifically, components of a vector that allows the ultra-small gene editing system of the present invention to be expressed in a cell include:

1. 초소형 유전자 편집 시스템의 구성요소를 암호화하는 핵산 구조물1. A nucleic acid structure encoding a component of a miniature gene editing system.

상기 벡터의 목적이 본 발명의 초소형 유전자 편집 시스템의 각 구성요소를 세포 내에서 발현되도록 하는 것이므로, 상기 벡터의 서열은 초소형 유전자 편집 시스템의 각 구성요소를 암호화하는 핵산 서열 중 하나 이상을 필수적으로 포함해야 한다. Since the purpose of the above vector is to express each component of the ultra-small gene editing system of the present invention within a cell, the sequence of the vector must essentially include at least one of the nucleic acid sequences encoding each component of the ultra-small gene editing system.

일 구현예로, 벡터 시스템은 Cas12f1 변이체 단백질 또는 이의 동족체 단백질을 포함하는 소형 엔도뉴클레아제를 암호화하는 뉴클레오티드가 작동가능하게 연결된 제1 핵산 구조물; 및 가이드 RNA(guide RNA)를 암호화하는 뉴클레오티드 서열이 작동가능하게 연결된 제2 핵산 구조물을 포함할 수 있다. 이때, 상기 제1 핵산 구조물 및 제2 핵산 구조물은 벡터 시스템의 동일한 벡터 상에 또는 상이한/별개의 벡터 상에 위치될 수 있다. 여기서, 상기 연결은 직접 또는 링커를 통해 연결될 수 있다. In one embodiment, the vector system can comprise a first nucleic acid construct operably linked to a nucleotide sequence encoding a small endonuclease comprising a Cas12f1 variant protein or a homolog protein thereof; and a second nucleic acid construct operably linked to a nucleotide sequence encoding a guide RNA. Wherein, the first nucleic acid construct and the second nucleic acid construct can be located on the same vector of the vector system or on different/separate vectors. Herein, the linkage can be directly linked or via a linker.

일 구현예로, 상기 핵산 구조물은 엔지니어링된 가이드 RNA(guide RNA)를 암호화하는 핵산을 포함할 수 있다. 여기서 엔지니어링된 가이드 RNA(guide RNA)는 엔지니어링된 tracrRNA 및/또는 엔지니어링된 crRNA를 포함할 수 있다. 이때, 상기 엔지니어링된 가이드 RNA는 앞서 설명한 엔지니어링된 가이드 RNA의 구현예와 동일한 구성을 가질 수 있다.In one embodiment, the nucleic acid construct can comprise a nucleic acid encoding an engineered guide RNA. The engineered guide RNA can comprise an engineered tracrRNA and/or an engineered crRNA. The engineered guide RNA can have the same composition as the engineered guide RNA embodiments described above.

구체적으로, 상기 가이드 RNA는 MS1에서 변형을 갖는 augment RNA(서열번호 44), MS1/MS2에서 변형을 갖는 augment RNA(서열번호 45), MS1/MS2/MS3에서 변형을 갖는 augment RNA Cas12f1_ge3.0(서열번호 46), MS2/MS3/MS4에서 변형을 갖는 augment RNA Cas12f1_ge4.0(서열번호 47) 및/또는 MS2/MS3/MS4/MS5에서 변형을 갖는 augment RNA Cas12f1_ge4.1(서열번호 48)을 암호화하는 핵산서열을 포함하거나/이루어진 것일 수 있다. 또한, 서열번호 105 내지 서열번호 137에서 선택된 어느 하나의 엔지니어링된 augment RNA 또는 상기 서열번호 125 내지 137의 염기서열로 이루어진 엔지니어링된 augment RNA 각각에 본 발명의 MS2 변형이 추가된 augment RNA를 암호화하는 핵산을 포함하거나/이루어진 것일 수 있다. Specifically, the guide RNA may include/be comprised of a nucleic acid sequence encoding an augment RNA having a modification in MS1 (SEQ ID NO: 44), an augment RNA having a modification in MS1/MS2 (SEQ ID NO: 45), an augment RNA Cas12f1_ge3.0 having a modification in MS1/MS2/MS3 (SEQ ID NO: 46), an augment RNA Cas12f1_ge4.0 having a modification in MS2/MS3/MS4 (SEQ ID NO: 47), and/or an augment RNA Cas12f1_ge4.1 having a modification in MS2/MS3/MS4/MS5 (SEQ ID NO: 48). In addition, the guide RNA may include/be comprised of a nucleic acid encoding an augment RNA in which the MS2 modification of the present invention is added to each of an engineered augment RNA selected from any one of SEQ ID NOs: 105 to 137 or an engineered augment RNA consisting of the base sequences of SEQ ID NOs: 125 to 137.

또한, 상기 핵산 구조물에서 새로운 초소형 유전자편집 단백질 Cas12f1 변이체 단백질은 서열번호 1 내지 서열번호 4로 이루어진 군에서 선택된 어느 하나의 아미노산 서열을 포함하는 단백질이고, 상기 핵산 구조물은 상기 단백질을 암호화하는 핵산 또는 상기 단백질의 코돈-최적화된 핵산을 포함할 수 있다. 바람직하게, 초소형 유전자 편집 단백질은 서열번호 1 내지 서열번호 4로 이루어진 군에서 선택된 어느 하나의 아미노산 서열로 이루어진 것을 특징으로 하는 유전자 편집 단백질일 수 있고, 이를 암호화하는 코돈-최적화된 핵산은 인간 코돈-최적화된 핵산으로서, 서열번호 101 내지 서열번호 104 중 선택된 어느 하나의 뉴클레오티드 서열로 이루어진 것일 수 있다.In addition, in the nucleic acid structure, the novel ultra-small gene editing protein Cas12f1 variant protein is a protein comprising any one amino acid sequence selected from the group consisting of SEQ ID NO: 1 to SEQ ID NO: 4, and the nucleic acid structure may comprise a nucleic acid encoding the protein or a codon-optimized nucleic acid of the protein. Preferably, the ultra-small gene editing protein may be a gene editing protein characterized by comprising any one amino acid sequence selected from the group consisting of SEQ ID NO: 1 to SEQ ID NO: 4, and the codon-optimized nucleic acid encoding the same may be a human codon-optimized nucleic acid consisting of any one nucleotide sequence selected from SEQ ID NO: 101 to SEQ ID NO: 104.

상기 핵산 구조물의 새로운 초소형 유전자편집 단백질인 Cas12f1 변이체 단백질 또는 이의 동족체 단백질은 일정한 길이의 펩타이드가 추가될 수 있다. 상기 펩타이드는 서열번호 49 내지 서열번호 51로 이루어진 군에서 선택된 어느 하나의 아미노산 서열을 암호화하는 핵산서열을 포함하거나 이로 이루어진 것일 수 있다. The novel ultra-small gene editing protein of the above nucleic acid structure, Cas12f1 variant protein or a homolog protein thereof, may have a peptide of a certain length added thereto. The peptide may comprise or consist of a nucleic acid sequence encoding any one amino acid sequence selected from the group consisting of SEQ ID NO: 49 to SEQ ID NO: 51.

또한, 상기 핵산 구조물은 N-말단 또는 C-말단에 핵 위치 신호(nuclear localization signal, NLS) 또는 핵 유출 신호(nuclear export signal, NES) 서열을 1개 이상 포함하는 것일 수 있다. NLS 서열은 핵 수송(nuclear transport) 작용으로 세포 핵 외부의 물질을 핵 내부로 수송할 때, 수송 대상인 단백질 등에 붙어 일종의 "태그" 역할을 하는 일정 길이의 펩티드 또는 그 서열을 의미한다. NES 서열은 핵 수송(nuclear transport) 작용으로 세포 핵 내부의 물질을 핵 외부로 수송할 때, 수송 대상인 단백질에 붙어 일종의 "태그" 역할을 하는 일정 길이의 펩타이드 또는 그 서열을 의미한다. In addition, the nucleic acid structure may include at least one nuclear localization signal (NLS) or nuclear export signal (NES) sequence at the N-terminus or C-terminus. The NLS sequence refers to a peptide of a certain length or its sequence that acts as a kind of "tag" by attaching to a protein, etc., which is a target of transport, when transporting a substance outside the cell nucleus into the nucleus by nuclear transport. The NES sequence refers to a peptide of a certain length or its sequence that acts as a kind of "tag" by attaching to a protein, which is a target of transport, when transporting a substance inside the cell nucleus into the nucleus by nuclear transport.

상기 NLS 서열은 서열번호 52 또는 서열번호 53의 뉴클레오티드 서열이거나, 서열번호 54 내지 서열번호 57 중 선택된 어느 하나의 아미노산 서열을 암호화하는 핵산서열을 포함하거나 이로 이루어진 것일 수 있다. The above NLS sequence may be a nucleotide sequence of SEQ ID NO: 52 or SEQ ID NO: 53, or may comprise or consist of a nucleic acid sequence encoding any one amino acid sequence selected from SEQ ID NO: 54 to SEQ ID NO: 57.

상기 벡터의 서열은 발현하고자 하는 상기 초소형 유전자 편집 시스템에 포함된 가이드 RNA 및/또는 유전자 편집 단백질을 암호화하는 핵산 서열을 포함한다. 상기 핵산 서열에 관련된 내용은 "III. 초소형 유전자 편집 시스템의 구성요소를 암호화하는 핵산"에 서술된 내용을 참조한다. The sequence of the above vector includes a nucleic acid sequence encoding a guide RNA and/or a gene editing protein included in the above ultra-small gene editing system to be expressed. For information regarding the nucleic acid sequence, refer to the contents described in “III. Nucleic Acids Encoding Components of the Ultra-small Gene Editing System.”

상기 벡터는 서로 다른 둘 이상의 엔지니어링된 가이드 RNA를 발현하도록 구성된 것일 수 있다. 일 구현예로, 상기 벡터는 제1 augment RNA 및 제2 augment RNA를 발현하도록 구성된 것일 수 있다. 일 구현예로, 상기 제1 augment RNA 서열은 제1 스캐폴드 서열, 제1 스페이서 서열 및 제1 U-rich tail 서열을 포함하고, 상기 제2 augment RNA 서열은 제2 스캐폴드 서열, 제2 스페이서 서열 및 제2 U-rich tail 서열을 포함할 수 있다.The vector may be configured to express two or more different engineered guide RNAs. In one embodiment, the vector may be configured to express a first augment RNA and a second augment RNA. In one embodiment, the first augment RNA sequence may comprise a first scaffold sequence, a first spacer sequence, and a first U-rich tail sequence, and the second augment RNA sequence may comprise a second scaffold sequence, a second spacer sequence, and a second U-rich tail sequence.

또한, 상기 벡터는 전술된 초소형 유전자 편집 시스템의 구성요소 이외에, 이 기술 분야의 통상의 기술자가 필요에 의해 발현시키고자 하는 부가 발현 요소를 암호화하는 핵산 서열을 포함하고 있을 수 있다. Additionally, the vector may contain, in addition to the components of the aforementioned miniature gene editing system, a nucleic acid sequence encoding additional expression elements that a person skilled in the art desires to express as needed.

일 예로, 상기 부가 발현 요소는 태그일 수 있다. 구체적으로, 상기 부가 발현 요소는, 글리포세이트(glyphosate), 글루포시네이트암모늄 (glufosinate ammonium) 또는 포스피노트리신(phosphinothricin)과 같은 제초제 저 항성 유전자, 암피실린(ampicillin), 카나마이신(kanamycin), G418, 블레오마이신(Bleomycin), 하이그로마이신(hygromycin), 클로람페니콜(chloramphenicol)과 같은 항생제 내성 유전자일 수 있다.For example, the additional expression element may be a tag. Specifically, the additional expression element may be a herbicide resistance gene such as glyphosate, glufosinate ammonium or phosphinothricin, an antibiotic resistance gene such as ampicillin, kanamycin, G418, Bleomycin, hygromycin or chloramphenicol.

2. 조절 및/또는 제어 구성요소2. Regulating and/or controlling components

상기 벡터를 세포 내에서 발현시키기 위해서는 하나 이상의 조절 및/또는 제어 구성요소를 포함해야 한다. 구체적으로, 상기 조절 및/또는 제어 구성요소는 프로모터, 인핸서, 인트론, 폴리아데닐화 신호, 코작 공통(Kozak consensus) 서열, 내부 리보솜 유입 부위(IRES, Internal Ribosome Entry Site), 스플라이스 억셉터, 2A 서열 및/또는 복제원점(replication origin)을 포함할 수 있으나, 이에 제한되는 것은 아니다. 여기서, 상기 복제원점은 f1 복제원점, SV40 복제원점, pMB1 복제원점, 아데노 복제원점, AAV 복제원점 및/또는 BBV 복제원점일 수 있으나, 이에 제한되는 것은 아니다.In order to express the above vector in a cell, it must include one or more regulatory and/or control elements. Specifically, the regulatory and/or control elements may include, but are not limited to, a promoter, an enhancer, an intron, a polyadenylation signal, a Kozak consensus sequence, an Internal Ribosome Entry Site (IRES), a splice acceptor, a 2A sequence and/or a replication origin. Here, the replication origin may be, but is not limited to, an f1 replication origin, an SV40 replication origin, a pMB1 replication origin, an adeno replication origin, an AAV replication origin and/or a BBV replication origin.

3. 프로모터3. Promoter

상기 벡터에 포함되어 있는 본 발명의 초소형 유전자 편집 시스템을 암호화하는 핵산 서열을 세포 내에서 발현시키기 위해서, 각 구성 요소를 암호화하는 서열에 프로모터 서열을 작동가능하게 연결시켜 세포 내에서 RNA 전사인자가 활성화될 수 있도록 해야 한다. 상기 프로모터 서열은 대응하는 RNA 전사인자 또는 발현 환경에 따라 달리 설계할 수 있으며, 초소형 유전자 편집 시스템(Hypercompact TaRGET system)의 구성요소를 세포 내에서 적절히 발현시킬 수 있는 것이라면 제한되지 않는다. In order to express the nucleic acid sequence encoding the hypercompact TaRGET system of the present invention contained in the above vector in a cell, a promoter sequence must be operably linked to the sequence encoding each component so that an RNA transcription factor can be activated in the cell. The promoter sequence can be designed differently depending on the corresponding RNA transcription factor or expression environment, and is not limited as long as it can appropriately express the components of the hypercompact TaRGET system in a cell.

일 예로, 상기 프로모터 서열은 RNA 중합효소 RNA Pol I, Pol II 또는 Pol III의 전사를 촉진시키는 프로모터일 수 있다. 구체적으로, 상기 프로모터는 SV40 초기 프로모터, mouse mammary tumor virus long terminal repeat(LTR) 프로모터, adenovirus major late 프로모터(Ad MLP), herpes simplex virus(HSV) 프로모터, CMV immediate early promoter region (CMVIE)와 같은 cytomegalovirus (CMV) 프로모터, rous sarcoma virus (RSV) 프로모터, human U6 small nuclear 프로모터(U6), enhanced U6 프로모터, 7SK 프로모터(7SK) 및 human H1 프로모터(H1) 중 하나 수 있다. For example, the promoter sequence may be a promoter that promotes transcription of RNA polymerase RNA Pol I, Pol II or Pol III. Specifically, the promoter may be one of the SV40 early promoter, the mouse mammary tumor virus long terminal repeat (LTR) promoter, the adenovirus major late promoter (Ad MLP), the herpes simplex virus (HSV) promoter, the cytomegalovirus (CMV) promoter such as the CMV immediate early promoter region (CMVIE), the rous sarcoma virus (RSV) promoter, the human U6 small nuclear promoter (U6), the enhanced U6 promoter, the 7SK promoter (7SK) and the human H1 promoter (H1).

4. 종결 신호4. End signal

상기 벡터 서열이 프로모터 서열을 포함하는 경우에 RNA 전사인자에 의해 상기 프로모터와 작동 가능하게 연결된 서열의 전사가 유도되는데, 이러한 RNA 전사 인자의 전사 종결을 유도하는 종결 신호가 포함될 수 있다. 상기 종결 신호는 프로모터 서열의 종류에 따라 달라질 수 있다. 구체적으로, 상기 프로모터가 U6, 또는 H1 프로모터일 경우, 상기 프로모터는 티미딘(T) 연속 서열인 TTTTT(T5) 또는 TTTTTT(T6) 서열을 종결 신호로 인식한다. When the above vector sequence includes a promoter sequence, transcription of a sequence operably linked to the promoter is induced by an RNA transcription factor, and a termination signal that induces termination of transcription of the RNA transcription factor may be included. The termination signal may vary depending on the type of the promoter sequence. Specifically, when the promoter is a U6 or H1 promoter, the promoter recognizes a TTTTT (T5) or TTTTTT (T6) sequence, which is a continuous sequence of thymidine (T), as a termination signal.

본 발명에서 제공하는 엔지니어링된 가이드 RNA의 서열은 그 3'-말단에 U-rich tail 서열을 포함한다. 이에 따라, 상기 엔지니어링된 가이드 RNA를 암호화하는 서열은 그 3'-말단에 U-rich tail 서열에 대응하는 T-rich 서열을 포함하게 된다. 전술한 바, 일부 프로모터 서열은 티미딘(T) 연속 서열, 예를 들어 티미딘(T)이 5개 이상 연속으로 연결된 서열을 종결 신호로 인식하므로, 경우에 따라 상기 T-rich 서열을 종결 신호로 인식하게 될 수 있다. The sequence of the engineered guide RNA provided in the present invention includes a U-rich tail sequence at its 3'-terminus. Accordingly, the sequence encoding the engineered guide RNA includes a T-rich sequence corresponding to the U-rich tail sequence at its 3'-terminus. As described above, some promoter sequences recognize a thymidine (T) sequence, for example, a sequence in which five or more thymidines (T) are connected in sequence, as a termination signal, and therefore, in some cases, the T-rich sequence may be recognized as a termination signal.

다시 말해, 본 명세서에서 제공하는 벡터 서열이 엔지니어링된 가이드 RNA를 암호화하는 서열을 포함하는 경우, 상기 augment RNA 서열에 포함된 U-rich tail 서열을 암호화하는 서열이 종결 신호로 사용될 수 있다. In other words, when the vector sequence provided herein includes a sequence encoding an engineered guide RNA, a sequence encoding a U-rich tail sequence included in the augment RNA sequence can be used as a termination signal.

일 구현예로, 상기 벡터 서열이 U6 또는 H1 프로모터 서열을 포함하고, 이와 작동가능하게 연결된 엔지니어링된 가이드 RNA를 암호화하는 서열을 포함할 때, 상기 augment RNA 서열에 포함된 U-rich tail 서열을 암호화하는 서열 부분이 종결 신호로 인식될 수 있다. 이때, 상기 U-rich tail 서열은 유리딘(U)이 5개 이상 연속으로 연결된 서열을 포함한다.In one embodiment, when the vector sequence comprises a U6 or H1 promoter sequence and a sequence encoding an engineered guide RNA operably linked thereto, a portion of the sequence encoding a U-rich tail sequence included in the augment RNA sequence can be recognized as a termination signal. In this case, the U-rich tail sequence comprises a sequence in which five or more uridines (U) are consecutively linked.

5. 부가 발현 요소5. Additional expression factors

상기 벡터는 필요에 따라, NLS, NES 및/또는 태그 단백질 등의 부가 구성 요소를 발현하도록 구성된 것일 수 있다. The above vector may be configured to express additional components, such as NLS, NES and/or tag proteins, as required.

일 구현예로, 상기 부가 구성 요소는 상기 Cas12f1 변이체 단백질, Cas12f1 변이체 단백질의 동족체 및/또는 Cas12f1 변이체에 대한 엔지니어링된 가이드 RNA(gRNA)와는 독립적으로 발현될 수 있다. In one embodiment, the additional component can be expressed independently of the Cas12f1 variant protein, a homolog of the Cas12f1 variant protein, and/or an engineered guide RNA (gRNA) for the Cas12f1 variant.

또 다른 구현예로, 상기 부가 구성 요소는 상기 Cas12f1 변이체 단백질, Cas12f1 변이체 단백질의 동족체 및/또는 Cas12f1 변이체에 대한 엔지니어링된 가이드 RNA(gRNA)와 직접 또는 링커로 연결되어 발현될 수 있다. In another embodiment, the additional component can be expressed directly or via a linker with the Cas12f1 variant protein, a homolog of the Cas12f1 variant protein, and/or an engineered guide RNA (gRNA) for the Cas12f1 variant.

일 예로, 본 발명에 따른 초소형 유전자 편집 시스템의 구성요소를 암호화하는 핵산 구조물은 N-말단 또는 C-말단에 핵 위치 신호(nuclear localization sequences, NLS) 서열을 1개 이상 포함하는 것을 특징으로 하는 핵산 구조물일 수 있다. 상기 NLS 서열은 서열번호 54 내지 서열번호 57 중 선택된 어느 하나의 아미노산 서열을 암호화하는 염기서열을 포함하거나/이루어진 것을 특징으로 하는 핵산 구조물일 수 있다. 여기서, 상기 부가 구성 요소는 초소형 유전자 편집 시스템을 발현시키고자 할 때 일반적으로 발현시키는 구성 요소일 수 있으며, 통상의 기술자에게 널리 인식되고 있는 공지기술을 참조할 수 있다.For example, a nucleic acid construct encoding a component of an ultra-small gene editing system according to the present invention may be a nucleic acid construct characterized in that it includes at least one nuclear localization sequence (NLS) sequence at the N-terminus or the C-terminus. The NLS sequence may be a nucleic acid construct characterized in that it includes/consists of a base sequence encoding any one amino acid sequence selected from SEQ ID NO: 54 to SEQ ID NO: 57. Here, the additional component may be a component that is generally expressed when it is desired to express an ultra-small gene editing system, and reference may be made to known technologies widely recognized by those skilled in the art.

또한, 본 발명은 일 구현예로, 본 발명에 따른 엔지니어링된 가이드 RNA(gRNA) 또는 이를 암호화하는 핵산 및/또는 초소형 유전자 편집 시스템의 구성 요소를 발현시키기 위해 벡터 등에 포함되는 핵산을 제공한다. 여기서, 상기 핵산은 자연계에 존재하는 DNA 또는 RNA일 수 있고, 상기 핵산의 일부 또는 전부에 화학적 변형이 일어난 변형된 핵산일 수 있다. 예를 들어, 상기 핵산은 하나 이상의 뉴클레오티드가 화학적으로 변형된 것일 수 있다. 이때, 상기 화학적 변형은 이 기술 분야의 통상의 기술자에게 알려진 핵산의 변형을 모두 포함할 수 있다. In addition, the present invention provides, as an embodiment, a nucleic acid included in a vector or the like for expressing an engineered guide RNA (gRNA) according to the present invention or a nucleic acid encoding the same and/or a component of a micro-gene editing system. Here, the nucleic acid may be DNA or RNA existing in nature, and may be a modified nucleic acid in which a part or all of the nucleic acid has been chemically modified. For example, the nucleic acid may be one in which one or more nucleotides have been chemically modified. In this case, the chemical modification may include all modifications of nucleic acids known to those skilled in the art.

6. 발현 벡터의 종류 및 형태6. Types and forms of expression vectors

본 발명에 따른 벡터는 바이러스 벡터일 수 있다. 보다 구체적으로, 상기 바이러스벡터는 레트로바이러스, 렌티바이러스, 아데노바이러스, 아데노-연관 바이러스, 백시니아바이러스, 폭스바이러스 및 단순포진 바이러스로 구성된 군에서 선택되는 하나 이상일 수 있다. 일 구현예로, 상기 바이러스 벡터는 아데노-연관 바이러스 벡터일 수 있다.The vector according to the present invention may be a viral vector. More specifically, the viral vector may be at least one selected from the group consisting of a retrovirus, a lentivirus, an adenovirus, an adeno-associated virus, a vaccinia virus, a poxvirus, and a herpes simplex virus. In one embodiment, the viral vector may be an adeno-associated virus vector.

또한, 본 발명에 따른 벡터는 비바이러스 벡터일 수 있다. 보다 구체적으로, 상기 비바이러스 벡터는 플라스미드, 파지(phage), 네이키드 DNA, DNA 복합체 및 mRNA로 구성된 군에서 선택되는 하나 이상일 수 있다. 일 구현예로, 상기 플라스미드는 pcDNA 시리즈, pSC101, pGV1106, pACYC177, ColE1, pKT230, pME290, pBR322, pUC8/9, pUC6, pBD9, pHC79, pIJ61, pLAFR1, pHV14, pGEX 시리즈, pET 시리즈, 및 pUC19으로 이루어진 군에서 선택된 것일 수 있다. 일 구현예로, 상기 파지는 M13일 수 있고, 상기 벡터는 PCR 앰플리콘(amplicon)일 수 있다.In addition, the vector according to the present invention may be a non-viral vector. More specifically, the non-viral vector may be at least one selected from the group consisting of a plasmid, a phage, naked DNA, a DNA complex, and mRNA. In one embodiment, the plasmid may be selected from the group consisting of pcDNA series, pSC101, pGV1106, pACYC177, ColE1, pKT230, pME290, pBR322, pUC8/9, pUC6, pBD9, pHC79, pIJ61, pLAFR1, pHV14, pGEX series, pET series, and pUC19. In one embodiment, the phage may be M13, and the vector may be a PCR amplicon.

본 발명에 따른 상기 벡터는 선형 또는 원형 벡터 형태로 설계될 수 있다. 상기 벡터가 선형 벡터인 경우, 상기 선형 벡터 서열이 종결 신호를 따로 포함하지 않더라도, 그 3'-말단에서 RNA 전사가 종결된다. 그러나 상기 벡터가 원형 벡터인 경우, 상기 원형 벡터 서열이 종결 신호를 따로 포함하지 않는다면, RNA 전사가 종결되지 않게 된다. 그러므로 상기 벡터로 원형 벡터를 사용하는 경우에는 의도한 대상을 발현하기 위해서는 각 프로모터 서열과 관련된 전사 인자에 대응하는 종결 신호가 포함되어야 한다.The vector according to the present invention can be designed in the form of a linear or circular vector. If the vector is a linear vector, RNA transcription is terminated at the 3'-end even if the linear vector sequence does not separately include a termination signal. However, if the vector is a circular vector, RNA transcription is not terminated if the circular vector sequence does not separately include a termination signal. Therefore, when using a circular vector as the vector, a termination signal corresponding to a transcription factor associated with each promoter sequence must be included in order to express the intended target.

V. 엔지니어링된 가이드 RNA를 이용한 유전자 편집 방법V. Gene editing method using engineered guide RNA

본 발명은 Cas12f1 변이체 단백질 또는 이의 동족체 단백질에 대해 최적의 표적 편집 활성을 갖게 하는 엔지니어링된 가이드 RNA(augment RNA)를 이용하여, 대상 세포 내 또는 시험관 내의 표적 핵산 또는 표적 유전자를 편집하거나 표적하는 방법을 제공한다. 상기 유전자 편집 방법은 표적 부위의 핵산을 절단하는 방법일 수 있다. 상기 표적 유전자 또는 표적 핵산은 표적 서열을 포함하고, 상기 표적 핵산은 단일가닥 DNA, 이중가닥 DNA 및/또는 RNA일 수 있다. The present invention provides a method for editing or targeting a target nucleic acid or target gene within a target cell or within a test tube using an engineered guide RNA (augment RNA) that has optimal target editing activity for a Cas12f1 mutant protein or a homolog protein thereof. The gene editing method may be a method for cleaving a nucleic acid at a target site. The target gene or target nucleic acid comprises a target sequence, and the target nucleic acid may be single-stranded DNA, double-stranded DNA, and/or RNA.

본 발명의 일 양태에 따르면, 본 발명의 유전자 편집 시스템, 본 발명의 벡터 시스템 또는 본 발명의 유전자 편집용 조성물을 표적 유전자 또는 표적 핵산과 접촉시키는 단계를 포함하는 유전자 편집 방법이 제공된다.According to one aspect of the present invention, a gene editing method is provided, comprising a step of contacting a gene editing system of the present invention, a vector system of the present invention, or a gene editing composition of the present invention with a target gene or a target nucleic acid.

일 구현예로, 상기 유전자 편집 방법은 Cas12f1 변이체에 대해 엔지니어링된 가이드 RNA(augment RNA) 및 Cas12f1 변이체 단백질 또는 이의 동족체 단백질, 또는 이들 각각을 암호화하는 핵산을 표적 핵산 또는 표적 유전자를 포함하고 있는 대상 세포 내에 전달하는 것을 포함한다. 그 결과, 상기 대상 세포 내에 엔지니어링된 가이드 RNA를 포함하는 가이드 RNA 및 Cas12f1 변이체 단백질 복합체가 주입되거나, 상기 가이드 RNA 및 Cas12f1 변이체 단백질 복합체의 형성이 유도되며, 상기 가이드 RNA 및 Cas12f1 변이체 단백질 복합체에 의해 표적 유전자가 편집된다. 유전자 편집은 표적 유전자 또는 표적 핵산 내의 표적 서열을 가지는 이중가닥 DNA, 단일가닥 DNA, 또는 DNA와 RNA 혼성 이중가닥의 핵산 절단을 포함한다. 여기서, 상기 Cas12f1 변이체 단백질은 야생형의 Cas12f1 변이체 단백질, 엔지니어링된 Caf12f1 변이체 단백질, 변형된 Cas12f1 변이체 단백질 또는 Cas12f1 변이체의 동족체 단백질일 수 있다.In one embodiment, the gene editing method comprises delivering an engineered guide RNA (augment RNA) for a Cas12f1 variant and a Cas12f1 variant protein or a homolog protein thereof, or a nucleic acid encoding each of them, into a target nucleic acid or a target cell containing the target gene. As a result, a guide RNA and Cas12f1 variant protein complex comprising the engineered guide RNA is injected into the target cell, or formation of the guide RNA and Cas12f1 variant protein complex is induced, and the target gene is edited by the guide RNA and Cas12f1 variant protein complex. The gene editing comprises nucleic acid cleavage of a double-stranded DNA, a single-stranded DNA, or a hybrid duplex of DNA and RNA having a target sequence in the target gene or target nucleic acid. Here, the Cas12f1 variant protein may be a wild-type Cas12f1 variant protein, an engineered Cas12f1 variant protein, a modified Cas12f1 variant protein, or a homolog protein of the Cas12f1 variant.

일 구현예로, 상기 유전자 편집 방법은 Cas12f1 변이체 단백질이나 이의 동족체 단백질을 암호화하는 핵산; 및 엔지니어링된 가이드 RNA(augment RNA) 또는 이를 암호화하는 핵산을 대상 세포 내에 전달하는 것을 포함할 수 있다. 이때, 상기 엔지니어링된 가이드 RNA(augment RNA) 서열은 변경된 스캐폴드 영역의 서열, 스페이서 서열 및 U-rich tail 서열을 포함한다. 여기서, 상기 변경된 스캐폴드 영역의 서열은 전술한 "3. 3. Cas12f1 변이체 단백질을 위한 엔지니어링된 가이드 RNA" 및 "(2) 스캐폴드 영역"섹션에서 서술된 것과 동일한 특징 및 구조를 가진 것일 수 있다.In one embodiment, the gene editing method may comprise delivering into a target cell a nucleic acid encoding a Cas12f1 variant protein or a homolog protein thereof; and an engineered guide RNA (augment RNA) or a nucleic acid encoding the same, wherein the engineered guide RNA (augment RNA) sequence comprises a sequence of a modified scaffold region, a spacer sequence, and a U-rich tail sequence. Here, the sequence of the modified scaffold region may have the same characteristics and structure as those described in the aforementioned sections “3. 3. Engineered Guide RNA for Cas12f1 Variant Protein” and “(2) Scaffold Region.”

일 예로, 상기 엔지니어링된 tracrRNA는 서열번호 29 내지 서열번호 32 중 선택된 어느 하나의 염기서열을 포함하거나/이루어진 것이고, 상기 엔지니어링된 crRNA는 서열번호 33의 염기서열을 포함하거나/이루어진 것일 수 있다. For example, the engineered tracrRNA may comprise/consist of any one base sequence selected from SEQ ID NO: 29 to SEQ ID NO: 32, and the engineered crRNA may comprise/consist of the base sequence of SEQ ID NO: 33.

다른 일 예로, 상기 엔지니어링된 tracrRNA는 서열번호 39 내지 서열번호 42 중 선택된 어느 하나의 염기서열을 포함하거나/이루어진 것이고, 상기 엔지니어링된 crRNA는 서열번호 43의 염기서열을 포함하거나/이루어진 것일 수 있다. As another example, the engineered tracrRNA may comprise/consist of any one base sequence selected from SEQ ID NO: 39 to SEQ ID NO: 42, and the engineered crRNA may comprise/consist of the base sequence of SEQ ID NO: 43.

일 구현예로, 상기 엔지니어링된 가이드 RNA는 서열번호 44 내지 서열번호 48 중 선택된 어느 하나의 염기서열을 포함하거나/이루어진 것일 수 있다. In one embodiment, the engineered guide RNA may comprise/consist of any one base sequence selected from SEQ ID NO: 44 to SEQ ID NO: 48.

또한, 상기 스페이서 서열은 상기 대상 세포 내에 포함된 표적 유전자, 또는 표적 핵산과 상보적으로 결합할 수 있고, 상기 U-rich tail 서열은 (UaV)nUb로 표현될 수 있다. 여기서, a, n 및 b는 정수이며, a는 1 이상 4 이하, n은 0 이상이며, b는 1 이상 10 이하다. 또 다른 구현예로, 상기 U-rich tail 서열은 (UaN)nUb로 표현될 수 있다. 여기서, N은 아데노신(A), 유리딘(U), 시티딘(C), 구아노신(G) 중 하나이다. 여기서, a는 1 이상 4 이하의 한 정수이고, n은 0, 1, 2 중의 한 정수이며, b는 1 이상 10 이하의 한 정수이다. 일 예로, 상기 U-rich tail의 서열은 5'-U-3', 5'-UU-3', 5'-UUU-3', 5'-UUUU-3', 5'-UUUUU-3', 5'-UUUUUU-3', 5'-UUURUUU-3'(서열번호 67), 5'-UUURUUURUUU-3'(서열번호 68), 5'-UUUURU-3'(서열번호 69), 5'-UUUURUU-3'(서열번호 70), 5'-UUUURUUU-3'(서열번호 71), 5'-UUUURUUUU-3'(서열번호 72), 5'-UUUURUUUUU-3'(서열번호 73), 또는 5'-UUUURUUUUUU-3'(서열번호 74)일 수 있다. 여기서, R은 A 또는 G일 수 있다. 이 경우, 상기 U-rich tail의 서열은 서열번호 75 내지 서열번호 90 중 어느 하나일 수 있다. 바람직하게, 상기 U-rich tail의 서열은 5'-UUUUAUUUU-3'(서열번호 80) 또는 5'-UUUUGUUUU-3'(서열번호 88)일 수 있다.In addition, the spacer sequence can complementarily bind to a target gene or a target nucleic acid included in the target cell, and the U-rich tail sequence can be expressed as (UaV)nUb. Here, a, n, and b are integers, a is 1 or more and 4 or less, n is 0 or more, and b is 1 or more and 10 or less. In another embodiment, the U-rich tail sequence can be expressed as (UaN)nUb. Here, N is one of adenosine (A), uridine (U), cytidine (C), and guanosine (G). Here, a is an integer of 1 or more and 4 or less, n is an integer of 0, 1, and 2, and b is an integer of 1 or more and 10 or less. For example, the sequence of the U-rich tail is 5'-U-3', 5'-UU-3', 5'-UUU-3', 5'-UUUU-3', 5'-UUUUU-3', 5'-UUUUUU-3', 5'-UUURUUU-3' (SEQ ID NO: 67), 5'-UUURUUUUU-3' (SEQ ID NO: 68), 5'-UUUURU-3' (SEQ ID NO: 69), 5'-UUUURUU-3' (SEQ ID NO: 70), 5'-UUUURUUU-3' (SEQ ID NO: 71), 5'-UUUURUUUU-3' (SEQ ID NO: 72), 5'-UUUURUUUUU-3' (SEQ ID NO: 73), or It can be 5'-UUUURUUUUU-3' (SEQ ID NO: 74). Here, R can be A or G. In this case, the sequence of the U-rich tail can be any one of SEQ ID NO: 75 to SEQ ID NO: 90. Preferably, the sequence of the U-rich tail can be 5'-UUUUAUUUU-3' (SEQ ID NO: 80) or 5'-UUUUGUUUU-3' (SEQ ID NO: 88).

이하, 엔지니어링된 가이드 RNA(augment RNA)를 이용한 유전자 편집 방법의 단계를 설명한다.Below, the steps of a gene editing method using engineered guide RNA (augment RNA) are described.

1. 유전자 편집의 대상, 표적 서열 및 스페이서 서열 결정1. Determination of target sequence, spacer sequence, and target of gene editing

본 발명의 초소형 유전자 편집 시스템(Hypercompact TaRGET system)으로 유전자 편집을 하고자 하는 대상은 시험관 내 핵산 또는 원핵 세포 또는 진핵 세포 내의 핵산일 수 있다. 보다 구체적으로, 상기 진핵 세포는 효모(yeast), 곤충 세포 식물 세포, 동물 세포 및/또는 인간 세포일 수 있으나, 이에 제한되지 않는다.The target of gene editing using the hypercompact TaRGET system of the present invention may be a nucleic acid in a test tube or a nucleic acid in a prokaryotic cell or a eukaryotic cell. More specifically, the eukaryotic cell may be, but is not limited to, yeast, an insect cell, a plant cell, an animal cell, and/or a human cell.

표적 핵산, 표적 유전자 또는 표적 서열은 유전자 편집의 목적, 편집 대상의 환경, Cas12f1 변이체 단백질 또는 이의 동족체 단백질이 인식하는 PAM 서열 및/또는 기타 변수를 고려하여 결정할 수 있다. 여기서, 표적 핵산 또는 표적 유전자 내에서 적절한 길이 또는 Cas12f1 변이체 단백질 또는 이의 동족체 단백질이 인식하는 PAM 서열을 가지고 있는 표적 서열을 결정할 수 있다면, 그 방법은 공지된 기술을 활용하여 특별히 제한되지 않게 수행될 수 있다. The target nucleic acid, target gene or target sequence can be determined in consideration of the purpose of gene editing, the environment of the target of editing, the PAM sequence recognized by the Cas12f1 variant protein or its homolog protein, and/or other variables. Here, if a target sequence having an appropriate length or a PAM sequence recognized by the Cas12f1 variant protein or its homolog protein can be determined within the target nucleic acid or target gene, the method can be performed without particular limitation by utilizing known techniques.

상기 표적 서열이 결정되고 나면, 이에 대응하는 가이드 RNA 내의 스페이서 서열을 설계한다. 상기 스페이서 서열은 상기 표적 서열과 결합할 수 있는 서열로 설계된다. Once the target sequence is determined, a spacer sequence in the corresponding guide RNA is designed. The spacer sequence is designed as a sequence that can bind to the target sequence.

일 구현예로, 상기 스페이서 서열은 상기 표적 핵산 또는 표적 유전자와 상보적으로 결합할 수 있는 서열로 설계된다. 구체적으로, 상기 스페이서 서열은 상기 표적 핵산 또는 표적 유전자의 표적 가닥 서열에 포함된 표적 서열과 상보적인 서열로 설계될 수 있다. In one embodiment, the spacer sequence is designed as a sequence capable of complementarily binding to the target nucleic acid or target gene. Specifically, the spacer sequence can be designed as a sequence complementary to a target sequence included in the target strand sequence of the target nucleic acid or target gene.

또한, 상기 스페이서 서열은 상기 표적 핵산의 비표적 가닥 서열에 포함된 프로토스페이서의 DNA 서열에 상응하는 RNA 서열로 설계될 수 있다. 구체적으로, 상기 스페이서 서열은 상기 프로토스페이서 서열과 동일한 염기서열을 가지며, 상기 염기서열에 포함된 티미딘(T) 각각이 모두 유리딘(U)으로 치환된 서열로 설계될 수 있다.In addition, the spacer sequence may be designed as an RNA sequence corresponding to the DNA sequence of the protospacer included in the non-target strand sequence of the target nucleic acid. Specifically, the spacer sequence may be designed as a sequence having the same base sequence as the protospacer sequence, and in which each of the thymidines (T) included in the base sequence is substituted with uridine (U).

일 구현예로, 상기 스페이서 서열은 상기 표적 서열과 60% 이상 서열 동일성을 가지는 상보적인 서열일 수 있다. 바람직하게, 상기 스페이서 서열은 상기 표적서열과 60% 내지 90%의 서열 상동성을 가지는 상보적인 서열일 수 있다. 보다 바람직하게, 상기 스페이서 서열은 상기 표적 서열과 90% 내지 100%의 서열 상동성을 가지는 상보적인 서열일 수 있다.In one embodiment, the spacer sequence may be a complementary sequence having at least 60% sequence identity with the target sequence. Preferably, the spacer sequence may be a complementary sequence having from 60% to 90% sequence identity with the target sequence. More preferably, the spacer sequence may be a complementary sequence having from 90% to 100% sequence identity with the target sequence.

또한 본 발명에 따른 상기 스페이서 서열은 상기 표적 서열과 0개, 1개, 2개, 3개, 4개, 5개, 6개, 7개, 8개, 9개 또는 10개의 미스매치를 가지는 상보적인 서열일 수 있다. 일 구현예로, 상기 스페이서 서열은 상기 표적 서열과 1개 내지 5개의 미스매치를 가질 수 있다. 또한, 상기 스페이서 서열은 상기 표적 서열과 6개 내지 10개의 미스매치를 기질 수 있다.In addition, the spacer sequence according to the present invention may be a complementary sequence having 0, 1, 2, 3, 4, 5, 6, 7, 8, 9 or 10 mismatches with the target sequence. In one embodiment, the spacer sequence may have 1 to 5 mismatches with the target sequence. In addition, the spacer sequence may have 6 to 10 mismatches with the target sequence.

2. 초소형 유전자 편집 시스템(Hypercompact TaRGET system)의 각 구성 요소의 세포 내 전달2. Intracellular delivery of each component of the hypercompact TaRGET system

본 명세서에서 제공하는 염기교정 및 유전자 편집 방법은 본 발명에 따른 초소형 유전자 편집 시스템(Hypercompact TaRGET system)이 표적 핵산 또는 표적 유전자에 대해 표적 서열을 인식하고 편집하는 활성을 가지는 점을 이용한다. The base correction and gene editing method provided in this specification utilizes the fact that the hypercompact TaRGET system according to the present invention has the activity of recognizing and editing a target sequence for a target nucleic acid or target gene.

본 명세서에서 제공하는 유전자 편집 방법은 대상 세포 내에서 Cas12f1 변이체에 대한 엔지니어링된 가이드 RNA(gRNA)를 포함하는 초소형 유전자 편집 시스템 또는 벡터가 표적 핵산 또는 표적 유전자의 표적 서열 부위에 접촉하는 것을 전제로 한다. The gene editing method provided herein presupposes that a miniature gene editing system or vector comprising an engineered guide RNA (gRNA) for a Cas12f1 variant is brought into contact with a target nucleic acid or a target sequence site of a target gene within a target cell.

이에, 본 발명의 유전자 편집 방법은 상기 초소형 유전자 편집 시스템이 대상 세포 내에서 효과적으로 전달하는 것을 포함한다. 바람직하게, 상기 초소형 유전자가의 핵산 구조물 및/또는 이를 포함하는 초소형 유전자 편집 시스템의 각 구성요소를 대상 세포 내 표적 핵산 또는 표적 유전자의 표적 서열 부위에 접촉하거나 접촉을 유도하는 것을 포함한다. Accordingly, the gene editing method of the present invention includes effectively delivering the ultra-small gene editing system within a target cell. Preferably, the method includes contacting or inducing contact of the nucleic acid structure of the ultra-small gene and/or each component of the ultra-small gene editing system comprising the same with a target nucleic acid or a target sequence site of a target gene within the target cell.

일 구현예로, 상기 유전자 편집 방법은 Cas12f1 변이체 단백질 또는 이의 동족체 단백질, 또는 이를 암호화하는 핵산; 및 엔지니어링된 가이드 RNA(augment RNA) 또는 이를 암호화하는 핵산을 대상 세포 내에 전달하는 것을 포함할 수 있다. 또한, 상기 유전자 편집 방법은 Cas12f1 변이체 단백질 또는 이의 동족체 단백질; 및 엔지니어링된 가이드 RNA(augment RNA)를 대상 세포 내에 전달하는 것을 포함할 수 있다. 다른 구현예로, 상기 유전자 편집 방법은 Cas12f1 변이체 단백질 또는 이의 동족체 단백질; 및 엔지니어링된 가이드 RNA(augment RNA)를 암호화하는 핵산을 대상 세포 내에 전달하는 것을 포함할 수 있다. 또 다른 구현예로, 상기 유전자 편집 방법은 Cas12f1 변이체 단백질 또는 이의 동족체 단백질을 암호화하는 핵산; 및 엔지니어링된 가이드 RNA(augment RNA)를 대상 세포 내에 전달하는 것을 포함할 수 있다. 또 다른 구현예로, 상기 유전자 편집 방법은 Cas12f1 변이체 단백질 또는 이의 동족체 단백질을 암호화하는 핵산; 및 엔지니어링된 가이드 RNA(augment RNA)를 암호화하는 핵산을 대상 세포 내에 전달하는 것을 포함할 수 있다. In one embodiment, the gene editing method may comprise delivering a Cas12f1 variant protein or a homolog thereof, or a nucleic acid encoding it; and an engineered guide RNA (augment RNA) or a nucleic acid encoding it into a target cell. In addition, the gene editing method may comprise delivering a Cas12f1 variant protein or a homolog thereof; and an engineered guide RNA (augment RNA) into a target cell. In another embodiment, the gene editing method may comprise delivering a Cas12f1 variant protein or a homolog thereof; and a nucleic acid encoding an engineered guide RNA (augment RNA) into a target cell. In yet another embodiment, the gene editing method may comprise delivering a nucleic acid encoding a Cas12f1 variant protein or a homolog thereof; and an engineered guide RNA (augment RNA) into a target cell. In yet another embodiment, the gene editing method may comprise delivering a nucleic acid encoding a Cas12f1 variant protein or a homolog thereof; and delivering a nucleic acid encoding an engineered guide RNA (augment RNA) into a target cell.

Cas12f1 변이체 단백질 또는 이의 동족체 단백질, 또는 이를 암호화하는 핵산; 및 엔지니어링된 가이드 RNA(augment RNA) 또는 이를 암호화하는 핵산은 다양한 전달 형태로, 다양한 전달 방법을 이용하여 대상 세포 내에 전달될 수 있다. 여기서, 상기 유도는 상기 Cas12f1 변이체에 대한 엔지니어링된 가이드 RNA(augment RNA)를 포함하는 초소형 유전자 편집 시스템 또는 초소형 유전자 편집 핵산 구조물이 세포 내에서 표적 핵산과 접촉하도록 하는 방법이라면 특별히 제한되지 않는다. The Cas12f1 variant protein or a homolog protein thereof, or a nucleic acid encoding the same; and an engineered guide RNA (augment RNA) or a nucleic acid encoding the same can be delivered into a target cell in various delivery forms using various delivery methods. Here, the induction is not particularly limited as long as it is a method by which the ultra-small gene editing system or ultra-small gene editing nucleic acid structure including the engineered guide RNA (augment RNA) for the Cas12f1 variant comes into contact with the target nucleic acid within the cell.

(1) 전달 형태(1) Transmission form

본 발명의 상기 방법을 위한 상기 초소형 유전자 편집 핵산 구조물 및 이를 포함하는 초소형 유전자 편집 시스템(Hypercompact TaRGET system)의 전달 형태는 세포 내로 Cas12f1 변이체 단백질 또는 이의 동족체 단백질, 또는 이를 암호화하는 핵산; 및 엔지니어링된 가이드 RNA(augment RNA) 또는 이를 암호화하는 핵산을 적절한 전달 형태로 세포 내로 전달할 수 있는 것이라면 특별히 제한되지 않는다.The delivery form of the ultra-small gene editing nucleic acid construct for the method of the present invention and the ultra-small gene editing system (Hypercompact TaRGET system) comprising the same is not particularly limited as long as it can deliver the Cas12f1 mutant protein or a homolog protein thereof, or a nucleic acid encoding the same; and the engineered guide RNA (augment RNA) or a nucleic acid encoding the same into a cell in an appropriate delivery form.

본 발명의 상기 방법을 위한 상기 초소형 유전자 편집 핵산 구조물 및 이를 포함하는 초소형 유전자 편집 시스템의 전달 형태로, Cas12f1 변이체에 대해 엔지니어링된 가이드 RNA 및 Cas12f1 변이체 단백질이 결합한 리보뉴클레오단백질 입자(Ribonucleoprotein particle, RNP)를 이용할 수 있다. As a delivery form of the ultra-small gene editing nucleic acid structure and the ultra-small gene editing system comprising the same for the method of the present invention, a ribonucleoprotein particle (RNP) in which a guide RNA engineered for a Cas12f1 variant and a Cas12f1 variant protein are bound can be used.

일 구현예로, 상기 유전자 편집 방법은 Cas12f1 변이체에 대해 엔지니어링된 가이드 RNA 및 Cas12f1 변이체 단백질이 결합한 가이드 RNA 및 Cas12f1 변이체 단백질 복합체를 대상 세포 내에 주입하는 것을 포함할 수 있다.In one embodiment, the gene editing method may comprise injecting into a target cell a complex of guide RNA and Cas12f1 variant protein, wherein the guide RNA and Cas12f1 variant protein are engineered for the Cas12f1 variant.

또 다른 전달 형태로, Cas12f1 변이체 단백질 또는 이의 동족체 단백질, 또는 이를 암호화하는 핵산; 및 엔지니어링된 가이드 RNA 또는 이를 암호화하는 핵산을 포함하는 비바이러스 벡터를 이용할 수 있다. In another delivery form, a nonviral vector may be used comprising a Cas12f1 variant protein or a homologous protein thereof, or a nucleic acid encoding the same; and an engineered guide RNA or a nucleic acid encoding the same.

일 구현예로, 상기 유전자 편집 방법은 Cas12f1 변이체 단백질을 암호화하는 핵산 서열 및 Cas12f1 변이체에 대해 엔지니어링된 가이드 RNA를 암호화하는 핵산 서열을 포함하는 비바이러스 벡터를 대상 세포 내에 주입하는 것을 포함할 수 있다. 구체적으로, 상기 비바이러스 벡터는 플라스미드, 네이키드 DNA, DNA 복합체, mRNA 또는 선형의 PCR 엠플리콘일 수 있으나, 이에 제한되는 것은 아니다. In one embodiment, the gene editing method can comprise introducing into a target cell a nonviral vector comprising a nucleic acid sequence encoding a Cas12f1 variant protein and a nucleic acid sequence encoding a guide RNA engineered for the Cas12f1 variant. Specifically, the nonviral vector can be, but is not limited to, a plasmid, naked DNA, a DNA complex, mRNA, or a linear PCR amplicon.

또 다른 구현예로, 상기 유전자 편집 방법은 Cas12f1 변이체 단백질을 암호화하는 핵산 서열을 포함하는 제1 비바이러스 벡터 및 Cas12f1 변이체에 대해 엔지니어링된 가이드 RNA를 암호화하는 핵산 서열을 포함하는 제2 비바이러스 벡터를 대상 세포 내에 주입하는 것을 포함할 수 있다. 구체적으로, 상기 제1 비바이러스 벡터 및 상기 제2 비바이러스 벡터는 각각 플라스미드, 네이키드 DNA, DNA 복합체, mRNA 및 선형의 PCR 엠플리콘으로 이뤄진 군에서 선택된 하나일 수 있으나, 이에 제한되는 것은 아니다.In another embodiment, the gene editing method can comprise introducing into a target cell a first nonviral vector comprising a nucleic acid sequence encoding a Cas12f1 variant protein and a second nonviral vector comprising a nucleic acid sequence encoding a guide RNA engineered for the Cas12f1 variant. Specifically, the first nonviral vector and the second nonviral vector can each be one selected from the group consisting of, but not limited to, a plasmid, a naked DNA, a DNA complex, an mRNA, and a linear PCR amplicon.

또 다른 전달 형태로, Cas12f1 변이체 단백질을 암호화하는 핵산 서열 및 Cas12f1 변이체에 대해 엔지니어링된 가이드 RNA를 암호화하는 핵산 서열을 포함하는 바이러스를 이용할 수 있다. Another delivery form may utilize a virus comprising a nucleic acid sequence encoding a Cas12f1 variant protein and a nucleic acid sequence encoding a guide RNA engineered for the Cas12f1 variant.

일 구현예로, 상기 유전자 편집 방법은 Cas12f1 변이체 단백질을 암호화하는 핵산 서열 및 Cas12f1 변이체에 대해 엔지니어링된 가이드 RNA를 암호화하는 핵산 서열을 포함하는 하나의 바이러스를 대상 세포 내에 주입하는 것을 포함할 수 있다. 구체적으로, 상기 바이러스는 레트로바이러스, 렌티바이러스, 아데노바이러스, 아데노-연관 바이러스, 백시니아바이러스, 폭스바이러스 및 단순포진 바이러스로 구성된 군에서 선택된 하나일 수 있으나, 이에 제한되는 것은 아니다. 바람직하게, 상기 바이러스는 아데노-연관 바이러스일 수 있다. In one embodiment, the gene editing method may comprise introducing into a target cell a virus comprising a nucleic acid sequence encoding a Cas12f1 variant protein and a nucleic acid sequence encoding a guide RNA engineered for the Cas12f1 variant. Specifically, the virus may be one selected from the group consisting of a retrovirus, a lentivirus, an adenovirus, an adeno-associated virus, a vaccinia virus, a poxvirus, and a herpes simplex virus, but is not limited thereto. Preferably, the virus may be an adeno-associated virus.

또 다른 일 예로, 상기 유전자 편집 방법은 Cas12f1 변이체 단백질 또는 이의 동족체 단백질을 암호화하는 핵산 서열을 포함하는 제1 바이러스 및 Cas12f1 변이체에 대해 엔지니어링된 가이드 RNA를 암호화하는 핵산 서열을 포함하는 제2 바이러스를 대상 세포 내에 주입하는 것을 포함할 수 있다. 구체적으로, 상기 제1 바이러스 벡터 및 제2 바이러스 벡터는 각각 레트로바이러스, 렌티바이러스, 아데노바이러스, 아데노-연관 바이러스, 백시니아바이러스, 폭스바이러스 및 단순포진 바이러스로 구성된 군에서 선택된 하나일 수 있으나, 이에 제한되는 것은 아니다.As another example, the gene editing method may comprise introducing into a target cell a first virus comprising a nucleic acid sequence encoding a Cas12f1 variant protein or a homolog protein thereof and a second virus comprising a nucleic acid sequence encoding a guide RNA engineered for the Cas12f1 variant. Specifically, the first viral vector and the second viral vector may each be selected from the group consisting of, but not limited to, a retrovirus, a lentivirus, an adenovirus, an adeno-associated virus, a vaccinia virus, a poxvirus, and a herpes simplex virus.

또한, 상기 전달 형태는 Cas12f1 변이체 단백질 또는 이의 동족체 단백질, 또는 이를 암호화하는 핵산; 및 Cas12f1 변이체에 대해 엔지니어링된 가이드 RNA 또는 이를 암호화하는 핵산을 나노파티클을 이용하여 전달하는 것일 수 있다. Additionally, the delivery form may be a method of delivering a Cas12f1 variant protein or a homolog protein thereof, or a nucleic acid encoding the same; and a guide RNA engineered for the Cas12f1 variant, or a nucleic acid encoding the same, using nanoparticles.

일 구현예로, 상기 전달 방법은 Cas12f1 변이체 단백질 또는 이를 암호화하는 핵산, Cas12f1 변이체에 대해 제1 엔지니어링된 가이드 RNA 또는 이를 암호화하는 핵산 및/또는 Cas12f1 변이체에 대해 제2 엔지니어링된 가이드 RNA 또는 이를 암호화하는 핵산을 나노파티클을 이용하여 전달하는 것일 수 있다. In one embodiment, the delivery method may be to deliver the Cas12f1 variant protein or a nucleic acid encoding it, the first engineered guide RNA for the Cas12f1 variant or a nucleic acid encoding it, and/or the second engineered guide RNA for the Cas12f1 variant or a nucleic acid encoding it using nanoparticles.

여기서, 상기 전달 방법은 양이온성 리포좀법, 초산 리튬-DMSO, 지질-매개 형질감염(transfection), 인산칼슘 침전법(precipitation), 리포펙션(lipofection), 전기천공법, 유전자총, 초음파천공법, 자기주입법(magnetofection), 및/또는 일시적인 세포 압축 또는 스퀴징PEI(Polyethyleneimine)-매개 형질감염, DEAE-dextran 매개 형질감염 또는 나노파티클-매개 핵산 전달일 수 있으나, 이에 제한되는 것은 아니다. Here, the delivery method may be, but is not limited to, cationic liposome method, lithium acetate-DMSO, lipid-mediated transfection, calcium phosphate precipitation, lipofection, electroporation, gene gun, sonoporation, magnetofection, and/or transient cell compression or squeezing, PEI (Polyethyleneimine)-mediated transfection, DEAE-dextran-mediated transfection or nanoparticle-mediated nucleic acid delivery.

또한, 본 발명에서 Cas12f1 변이체 단백질 또는 이의 동족체 단백질, 또는 이를 암호화하는 핵산; 및 Cas12f1 변이체에 대해 엔지니어링된 가이드 RNA 또는 이를 암호화하는 핵산을 세포 내로 전달하여 표적 유전자를 편집하는 방법의 전달 형태는 전술한 전달 형태들을 조합하여 수행할 수 있다. In addition, the delivery form of the method for editing a target gene by delivering into a cell a Cas12f1 variant protein or a homolog protein thereof, or a nucleic acid encoding the same; and a guide RNA engineered for the Cas12f1 variant or a nucleic acid encoding the same in the present invention can be performed by combining the aforementioned delivery forms.

일 구현예로, 상기 유전자 편집 방법은 Cas12f1 변이체 단백질 또는 이의 동족체 단백질, 또는 이를 암호화하는 핵산을 제1 전달 형태로 전달하고, Cas12f1 변이체에 대해 엔지니어링된 가이드 RNA 또는 이를 암호화하는 핵산은 제2 전달 형태로 전달하는 것을 포함할 수 있다. 이때, 상기 제1 전달 형태 및 상기 제2 전달 형태는 각각 전술한 전달 형태 중 어느 하나일 수 있다. In one embodiment, the gene editing method can comprise delivering the Cas12f1 variant protein or a homolog protein thereof, or a nucleic acid encoding it, in a first delivery form, and delivering the guide RNA engineered for the Cas12f1 variant or a nucleic acid encoding it in a second delivery form. In this case, the first delivery form and the second delivery form can each be any one of the delivery forms described above.

일 구현예로, 상기 유전자 편집 방법의 전달 형태는 하나의 벡터에 전달하고자 하는 본 발명에 따른 초소형 유전자 편집 핵산 구조물 또는 이를 포함하는 초소형 유전자 편집 시스템의 구성요소를 편집의 대상이 되는 표적 핵산 또는 표적 유전자이 존재하는 환경으로 전달시킬 수 있는 전달 형태라면 특별히 제한되지 않는다. In one embodiment, the delivery form of the gene editing method is not particularly limited as long as it is a delivery form that can deliver the ultra-small gene editing nucleic acid structure according to the present invention to be delivered in one vector or a component of the ultra-small gene editing system including the same to an environment where a target nucleic acid or target gene to be edited exists.

(2) 전달 순서(2) Order of delivery

상기 유전자 편집 방법은 Cas12f1 변이체 단백질 또는 이의 동족체 단백질, 또는 이를 암호화하는 핵산; 및 Cas12f1 변이체에 대해 엔지니어링된 가이드 RNA 또는 이를 암호화하는 핵산을 세포 내 전달하는 것을 포함하는데, 이때, 상기 구성이 세포 내에 동시에 전달될 수 있지만, 시간 차를 두고 순차적으로 전달될 수 있다.The above gene editing method comprises delivering into a cell a Cas12f1 variant protein or a homologous protein thereof, or a nucleic acid encoding the same; and a guide RNA engineered for the Cas12f1 variant, or a nucleic acid encoding the same, wherein the constructs can be delivered into the cell simultaneously, but can be delivered sequentially with a time difference.

일 구현예로, 상기 유전자 편집 방법은 Cas12f1 변이체 단백질 또는 이의 동족체 단백질, 또는 이를 암호화하는 핵산; 및 Cas12f1 변이체에 대해 엔지니어링된 가이드 RNA 또는 이를 암호화하는 핵산을 동시에 전달하는 것을 포함할 수 있다. In one embodiment, the gene editing method can comprise simultaneously delivering a Cas12f1 variant protein or a homolog protein thereof, or a nucleic acid encoding the same; and a guide RNA engineered for the Cas12f1 variant, or a nucleic acid encoding the same.

다른 구현예로, 상기 유전자 편집 방법은 Cas12f1 변이체 단백질 또는 이의 동족체 단백질, 또는 이를 암호화하는 핵산을 세포 내로 전달한 후, 시간 차를 두고 Cas12f1 변이체에 대해 엔지니어링된 가이드 RNA 또는 이를 암호화하는 핵산을 세포 내로 전달하는 것을 포함할 수 있다. In another embodiment, the gene editing method can comprise delivering into a cell a Cas12f1 variant protein or a homologous protein thereof, or a nucleic acid encoding the same, followed by, at a time interval, delivering into the cell a guide RNA engineered for the Cas12f1 variant, or a nucleic acid encoding the same.

또 다른 구현예로, 상기 유전자 편집 방법은 Cas12f1 변이체에 대해 엔지니어링된 가이드 RNA 또는 이를 암호화하는 핵산을 세포 내로 전달한 후, 시간 차를 두고 Cas12f1 변이체 단백질 또는 이의 동족체 단백질, 또는 이를 암호화하는 핵산을 세포 내로 전달하는 것을 포함할 수 있다. In another embodiment, the gene editing method can comprise delivering into a cell a guide RNA engineered for a Cas12f1 variant or a nucleic acid encoding the same, followed by timed delivery into the cell of the Cas12f1 variant protein or a homolog protein thereof, or a nucleic acid encoding the same.

또한, 본 발명에서 제공하는 유전자 편집 방법은 대상 세포 내에 Cas12f1 변이체 단백질 또는 이의 동족체 단백질, 또는 이를 암호화하는 핵산; 및 둘 이상의 Cas12f1 변이체에 대해 엔지니어링된 가이드 RNA 또는 이를 암호화하는 핵산을 전달하는 것을 포함할 수 있다. In addition, the gene editing method provided by the present invention may include delivering into a target cell a Cas12f1 variant protein or a homolog protein thereof, or a nucleic acid encoding the same; and a guide RNA engineered for two or more Cas12f1 variants, or a nucleic acid encoding the same.

상기 방법을 통해, 서로 다른 서열을 표적하는 둘 이상의 가이드 RNA 및 Cas12f1 변이체 단백질 복합체가 대상 세포 내에 주입되거나, 대상 세포 내에서 상기 둘 이상의 가이드 RNA 및 Cas12f1 변이체 단백질 복합체가 형성될 수 있다. 그 결과, 세포 내에 포함된 둘 이상의 표적 유전자 또는 표적 핵산이 편집될 수 있다. Through the above method, two or more guide RNA and Cas12f1 variant protein complexes targeting different sequences can be injected into a target cell, or two or more guide RNA and Cas12f1 variant protein complexes can be formed within the target cell. As a result, two or more target genes or target nucleic acids contained within the cell can be edited.

일 구현예로, 상기 유전자 편집 방법은 Cas12f1 변이체 단백질 또는 이를 암호화하는 핵산, Cas12f1 변이체에 대해 제1 엔지니어링된 가이드 RNA 또는 이를 암호화하는 핵산, 및 Cas12f1 변이체에 대해 제2 엔지니어링된 가이드 RNA 또는 이를 암호화하는 핵산을 표적 유전자 또는 표적 핵산을 포함하고 있는 대상 세포 내에 전달하는 것을 포함한다. 이때, 상기 각 구성요소는 전술한 전달 형태 및 전달 방법 중 하나 이상을 사용하여 세포 내로 전달될 수 있다. 여기서, 둘 이상의 구성요소가 세포 내에 동시에 전달될 수 있고, 시간차를 두고 순차적으로 전달될 수 있다.In one embodiment, the gene editing method comprises delivering a Cas12f1 variant protein or a nucleic acid encoding it, a first engineered guide RNA for the Cas12f1 variant or a nucleic acid encoding it, and a second engineered guide RNA for the Cas12f1 variant or a nucleic acid encoding it into a target cell comprising a target gene or a target nucleic acid. In this case, each of the components can be delivered into the cell using one or more of the aforementioned delivery forms and delivery methods. Here, two or more components can be delivered into the cell simultaneously or sequentially with a time difference.

또한, 일 구현예에서, 상기 초소형 유전자 편집 시스템(Hypercompact TaRGET system)은 Cas12f1 변이체 단백질 또는 이의 동족체 단백질에 대해서 그 표적 활성이나 유전자 편집 활성을 최대로 발휘하게 하는 엔지니어링된 가이드 RNA를 포함한다. Additionally, in one embodiment, the hypercompact TaRGET system comprises an engineered guide RNA that maximizes its targeting activity or gene editing activity for a Cas12f1 variant protein or a homolog protein thereof.

이는 전술한 "3. Cas12f1 변이체 단백질을 위한 엔지니어링된 가이드 RNA(augment RNA)" 및 "(2) 스캐폴드 영역" 섹션에 기재된 어느 하나 이상일 수 있다. 바람직하게, 상기 가이드 RNA는 MS1에서 변형을 갖는 augment RNA(서열번호 44), MS1/MS2에서 변형을 갖는 augment RNA(서열번호 45), MS1/MS2/MS3에서 변형을 갖는 augment RNA Cas12f1_ge3.0(서열번호 46), MS2/MS3/MS4에서 변형을 갖는 augment RNA Cas12f1_ge4.0(서열번호 47) 및/또는 MS2/MS3/MS4/MS5에서 변형을 갖는 augment RNA Cas12f1_ge4.1(서열번호 48)일 수 있다. 이는 단순한 예시로써, 이에 제한되지 않는다. This may be any one or more of those described in the above-mentioned “3. Engineered guide RNA for Cas12f1 variant protein (augment RNA)” and “(2) Scaffold region” sections. Preferably, the guide RNA may be an augment RNA having a modification in MS1 (SEQ ID NO: 44), an augment RNA having a modification in MS1/MS2 (SEQ ID NO: 45), an augment RNA Cas12f1_ge3.0 having a modification in MS1/MS2/MS3 (SEQ ID NO: 46), an augment RNA Cas12f1_ge4.0 having a modification in MS2/MS3/MS4 (SEQ ID NO: 47), and/or an augment RNA Cas12f1_ge4.1 having a modification in MS2/MS3/MS4/MS5 (SEQ ID NO: 48). These are merely examples and are not limiting.

또한, 본 발명의 유전자 편집용 조성물은 상기 본 발명에 따른 초소형 유전자 편집 시스템(Hypercompact TaRGET system)의 각 구성요소 이외에, 유전자 편집 용도에 필요한 적절한 물질을 추가로 포함할 수 있음은 자명하다.In addition, it is obvious that the gene editing composition of the present invention may additionally contain appropriate substances necessary for gene editing purposes in addition to each component of the ultracompact TaRGET system according to the present invention.

본 발명은 또한, 상기 본 발명에 따른 초소형 유전자 편집 시스템 또는 이를 포함하는 상기 조성물을 표적 서열과 접촉시키는 단계를 포함하는 핵산을 편집하는 방법을 제공한다. 여기서 상기 핵산 편집은 핵산 절단일 수 있다. 그 결과 표적 핵산 또는 표적 유전자 내의 임의의 염기가 결실 또는 추가되는 인델(indel)의 핵산 편집이 일어나게 된다. The present invention also provides a method of editing a nucleic acid, comprising the step of contacting a target sequence with the ultra-small gene editing system according to the present invention or the composition comprising the same. Here, the nucleic acid editing may be nucleic acid cleavage. As a result, nucleic acid editing of an indel occurs, in which any base in the target nucleic acid or target gene is deleted or added.

일 구현예로, 상기 유전자 편집 방법은 Cas12f1 변이체에 대해 엔지니어링된 가이드 RNA 및 본 발명에 따른 초소형 유전자 편집 단백질, Cas12f1 변이체 단백질 또는 이의 동족체 단백질이 결합한 리보뉴클레오단백질 입자 형태의 초소형 유전자 편집 시스템을 진핵 세포 내에 전달하는 것을 포함할 수 있다. 이때, 상기 전달은 전기천공법 또는 리포펙션(lipofection)을 이용한 것일 수 있다.In one embodiment, the gene editing method may comprise delivering an ultra-small gene editing system in the form of a ribonucleoprotein particle, wherein the ultra-small gene editing protein according to the present invention, the Cas12f1 variant protein or a homolog protein thereof is bound to a guide RNA engineered for a Cas12f1 variant, into a eukaryotic cell. In this case, the delivery may be performed using electroporation or lipofection.

또 다른 일 구현예로, 상기 유전자 편집 방법은 바람직하게 Cas12f1 변이체에 대해 엔지니어링된 가이드 RNA를 암호화하는 핵산 서열 및 Cas12f1 변이체 단백질 또는 이의 동족체 단백질을 암호화하는 핵산 서열을 모두 포함하는 하나의 아데노-연관 바이러스(AAV) 벡터를 이용하여 표적 핵산 또는 표적 유전자를 포함하는 세포 내에 전달하는 것을 포함할 수 있다.In another embodiment, the gene editing method can comprise delivering into a cell comprising a target nucleic acid or target gene using an adeno-associated virus (AAV) vector, preferably comprising both a nucleic acid sequence encoding a guide RNA engineered for a Cas12f1 variant and a nucleic acid sequence encoding a Cas12f1 variant protein or a homologous protein thereof.

이하, 실시예를 통해 본 명세서가 제공하는 발명에 대해 더욱 상세히 설명한다. 이들 실시예는 오로지 본 명세서에 의해 개시되는 내용을 예시하기 위한 것으로, 본 명세서에 의해 개시되는 내용의 범위가 이들 실시예에 의해 제한되는 것으로 해석되지 않는 것은 이 기술 분야에서 통상의 지식을 가진 자에게 있어서 자명할 것이다.Hereinafter, the invention provided by the present specification will be described in more detail through examples. It will be apparent to those skilled in the art that these examples are intended only to illustrate the content disclosed by the present specification, and that the scope of the content disclosed by the present specification is not limited by these examples.

실시예Example

실시예 1. 초소형 유전자 편집 시스템(Hypercompact TaRGET system)의 구성요소 제작Example 1. Fabrication of components of a hypercompact TaRGET system

실시예 1.1. 유전자 편집 단백질 및 이를 암호화하는 인간 코돈-최적화된 핵산Example 1.1. Gene editing protein and human codon-optimized nucleic acid encoding same

본 발명은 초소형 유전자 편집 시스템인 Hypercompact TaRGET(Tiny nuclease-augment RNA-based Genome Editing Technology) system을 구성하는 단백질로서, Cas12f1 변이체(variant) 단백질 또는 이의 동족체(homolog) 단백질을 포함한다. 바람직하게, Cas12f1 변이체 단백질은 서열번호 1의 아미노산 서열 또는 상기 서열을 기준으로 N-말단으로부터 1개 내지 28개의 아미노산이 제거 또는 치환된 아미노산 서열로 이루어진 단백질을 포함하며(단, 서열번호 5의 아미노산 서열로 이루어진 Cas12f1 단백질은 제외), 서열번호 1의 아미노산 서열을 기준으로 N-말단으로부터 1개 내지 28개의 아미노산이 제거 또는 치환된 아미노산 서열로 이루어진 Cas12f1 변이체 단백질(엔지니어링된 Cas12f 변이체 단백질)의 대표예로서 Cas12f1의 N-말단에 CasX의 N-말단 26aa를 포함하는 Cas12f1 변이체 v1 단백질(서열번호 2), 28aa 무작위 서열을 포함하는 Cas12f1 변이체 v2 단백질(서열번호 3) 또는 26aa 무작위 서열을 포함하는 Cas12f1 변이체 v3 단백질(서열번호 4)이 제공된다. 또한, Cas12f1 변이체 단백질은 서열번호 1의 아미노산 서열을 포함하거나 이로 이루어진 Cas12f1 변이체의 N-말단 또는 C-말단에 1개 내지 600개의 아미노산이 추가된 아미노산 서열로 이루어진 단백질을 포함한다. 여기서, N-말단 또는 C-말단에 추가되는 1개 내지 600개의 아미노산은 서열번호 233 또는 서열번호 234의 아미노산 서열을 포함하거나 이로 이루어질 수 있으며, 상기 추가되는 서열과 Cas12f1 변이체 단백질 사이에는 1개 이상의 NLS 서열이 더 포함될 수 있다. 또한, Cas12f1 변이체 단백질의 동족체(homolog)는 서열번호 141 내지 서열번호 232 중에서 선택된 어느 하나의 아미노산 서열을 포함하거나 이로 이루어진 단백질일 수 있다. The present invention relates to a protein constituting a Hypercompact TaRGET (Tiny nuclease-augment RNA-based Genome Editing Technology) system, which is an ultra-small gene editing system, and comprises a Cas12f1 variant protein or a homolog protein thereof. Preferably, the Cas12f1 variant protein comprises a protein consisting of the amino acid sequence of SEQ ID NO: 1 or an amino acid sequence in which 1 to 28 amino acids are deleted or substituted from the N-terminus based on the sequence (except for a Cas12f1 protein consisting of the amino acid sequence of SEQ ID NO: 5), and as a representative example of a Cas12f1 variant protein (engineered Cas12f variant protein) consisting of an amino acid sequence in which 1 to 28 amino acids are deleted or substituted from the N-terminus based on the amino acid sequence of SEQ ID NO: 1, a Cas12f1 variant v1 protein (SEQ ID NO: 2) comprising N-terminal 26aa of CasX at the N-terminus of Cas12f1, a Cas12f1 variant v2 protein (SEQ ID NO: 3) comprising a 28aa random sequence, or a Cas12f1 variant v3 protein (SEQ ID NO: 4) comprising a 26aa random sequence is provided. In addition, the Cas12f1 variant protein includes a protein consisting of an amino acid sequence having 1 to 600 amino acids added to the N-terminus or C-terminus of a Cas12f1 variant comprising or consisting of the amino acid sequence of SEQ ID NO: 1. Here, the 1 to 600 amino acids added to the N-terminus or C-terminus may include or consist of the amino acid sequence of SEQ ID NO: 233 or SEQ ID NO: 234, and one or more NLS sequences may be further included between the added sequence and the Cas12f1 variant protein. In addition, a homolog of the Cas12f1 variant protein may be a protein comprising or consisting of any one amino acid sequence selected from SEQ ID NO: 141 to SEQ ID NO: 232.

본 발명은 또한, 인간 세포에서 발현하는 초소형 유전자 편집 시스템(Hypercompact TaRGET system) 및 핵산 절단을 위한 초소형 유전자 편집 핵산 구조물을 구축하기 위해서, 코돈 최적화 프로그램을 이용하여 Cas12f1 변이체 단백질에 대한 인간 코돈-최적화된 유전자를 얻었다. The present invention also provides a human codon-optimized gene for a Cas12f1 mutant protein using a codon optimization program to construct a hypercompact TaRGET system expressed in human cells and a hypercompact nucleic acid construct for nucleic acid cleavage.

상기 코돈-최적화된 유전자의 5'-말단 및 3'-말단에는 NLS 서열로서, 5'-CCAAAGAAGAAGCGGAAGGTC-3' (서열번호 52) 및 5'-AAAAGGCCGGCGGCCACGAAAAAGGCCGGCCAGGCAAAAAAGAAAAAG-3' (서열번호 53)을 각각 추가하고, 5'-말단 NLS 서열과 Cas12f1 변이체의 시작 코돈 사이에 링커 5'-GGTATCCACGGAGTCCCAGCAGCC-3' (서열번호 100)가 연결된 유전자를 합성함으로써, 인간 코돈-최적화된 Cas12f1 변이체 유전자(서열번호 101)를 포함하는 핵산 구조물을 제작하였다. A nucleic acid construct including a human codon-optimized Cas12f1 variant gene (SEQ ID NO: 101) was produced by adding NLS sequences, 5'-CCAAAGAAGAAGCGGAAGGTC-3' (SEQ ID NO: 52) and 5'-AAAAGGCCGGCGGCCACGAAAAAGGCCGGCCAGGCAAAAAAGAAAAAG-3' (SEQ ID NO: 53), to the 5'-terminal and 3'-terminal of the codon-optimized gene, respectively, and synthesizing a gene in which a linker 5'-GGTATCCACGGAGTCCCAGCAGCC-3' (SEQ ID NO: 100) was connected between the 5'-terminal NLS sequence and the start codon of the Cas12f1 variant.

하기 표 1에는 위에서 제작된 Cas12f1 변이체 단백질을 암호화하는 인간 코돈-최적화된 Cas12f1 변이체 염기서열 및 Cas12f1 변이체 단백질의 아미노산 서열을 나타냈다. 또한, 표 2에는 Cas12f1 변이체 v1 내지 v3 단백질을 각각 암호화하는 인간 코돈-최적화된 핵산의 염기서열을 나타냈다. 이들은 본 발명에 따른 초소형 유전자 편집 시스템을 구성하는 유전자 편집 단백질을 암호화하는 핵산으로 사용되었다. Table 1 below shows the human codon-optimized Cas12f1 variant base sequence encoding the Cas12f1 variant protein produced above and the amino acid sequence of the Cas12f1 variant protein. In addition, Table 2 shows the base sequences of human codon-optimized nucleic acids encoding Cas12f1 variant v1 to v3 proteins, respectively. These were used as nucleic acids encoding the gene editing proteins constituting the ultra-small gene editing system according to the present invention.

LabelLabel Sequence (5' to 3')Sequence (5' to 3') SEQ IDSEQ ID
NO:NO:

Cas12f1 변이체 단백질

Cas12f1 mutant protein

MGEKSSRRRRNGKSGAWTAAITSCVGGKMAKNTITKTLKLRIVRPYNSAEVEKIVADEKNNREKIALEKNKDKVKEACSKHLKVAAYCTTQVERNACLFCKARKLDDKFYQKLRGQFPDAVFWQEISEIFRQLQKQAAEIYNQSLIELYYEIFIKGKGIANASSVEHYLSDVCYTRAAELFKNAAIASGLRSKIKSNFRLKELKNMKSGLPTTKSDNFPIPLVKQKGGQYTGFEISNHNSDFIIKIPFGRWQVKKEIDKYRPWEKFDFEQVQKSPKPISLLLSTQRRKRNKGWSKDEGTEAEIKKVMNGDYQTSYIEVKRGSKIGEKSAWMLNLSIDVPKIDKGVDPSIIGGIDVGVKSPLVCAINNAFSRYSISDNDLFHFNKKMFARRRILLKKNRHKRAGHGAKNKLKPITILTEKSERFRKKLIERWACEIADFFIKNKVGTVQMENLESMKRKEDSYFNIRLRGFWPYAEMQNKIEFKLKQYGIEIRKVAPNNTSKTCSKCGHLNNYFNFEYRKKNKFPHFKCEKCNFKENADYNAALNISNPKLKSTKEEP

MGEKSSRRRRNGKSGAWTAAITSCVGGKMAKNTITKTLKLRIVRPYNSAEVEKIVADEKNNREKIALEKNKDKVKEACSKHLKVAAYCTTQVERNACLFCKARKLDDKFYQKLRGQFPDAVFWQEISEIFRQLQKQAAEIYNQSLIELYYEIFIKGKGIANASSVEHYLSDVCYTRAAELFKNAAIASGLRSKIKSNFRLKELKNMKSGLPTTKSDNFPIPLVKQKGGQYTGFEISNHNSDFIIKIPFGRWQVKKEIDKYRPWEKFDFEQVQKSPKPISLLLSTQRRKRNKGWSKDEGTEAEIKKVMNGDYQTSYIEVKRGSKIGEKSAWMLNLSIDVPKIDKGVDPSIIGGIDVGVKSPLVCAINNAFSRYSISDNDLFHFNKKMFARRRILLKKNRHKRAGHGAKNKLKPITILTEKSERFRKKLIERWACEIADFFIKNKVGTVQMENLESMKRKEDSYFNIRLRGFWPYAEMQNKIEFKLKQYGIEIRKVAPNNTSKTCSKCGHLNNYFNFEYRKKNKFPHFKCEKCNFKENADYNAALNISNPKLKSTKEEP

1

1

Cas12f1 변이체 단백질을 암호화하는 인간 코돈-최적화된 핵산

Human codon-optimized nucleic acid encoding Cas12f1 mutant protein

ATGGGGGAGAAAAGTTCCCGCCGCCGACGGAATGGAAAAAGCGGTGCGTGGACTGCTGCTATAACAAGCTGTGTTGGGGGTAAGATGGCCAAGAACACAATTACAAAGACACTGAAGCTGAGGATCGTGAGACCATACAACAGCGCTGAGGTCGAGAAGATTGTGGCTGATGAAAAGAACAACAGGGAAAAGATCGCCCTCGAGAAGAACAAGGATAAGGTGAAGGAGGCCTGCTCTAAGCACCTGAAAGTGGCCGCCTACTGCACCACACAGGTGGAGAGGAACGCCTGTCTGTTTTGTAAAGCTCGGAAGCTGGATGATAAGTTTTACCAGAAGCTGCGGGGCCAGTTCCCCGATGCCGTCTTTTGGCAGGAGATTAGCGAGATCTTCAGACAGCTGCAGAAGCAGGCCGCCGAGATCTACAACCAGAGCCTGATCGAGCTCTACTACGAGATCTTCATCAAGGGCAAGGGCATTGCCAACGCCTCCTCCGTGGAGCACTACCTGAGCGACGTGTGCTACACAAGAGCCGCCGAGCTCTTTAAGAACGCCGCTATCGCTTCCGGGCTGAGGAGCAAGATTAAGAGTAACTTCCGGCTCAAGGAGCTGAAGAACATGAAGAGCGGCCTGCCCACTACAAAGAGCGACAACTTCCCAATTCCACTGGTGAAGCAGAAGGGGGGCCAGTACACAGGGTTCGAGATTTCCAACCACAACAGCGACTTTATTATTAAGATCCCCTTTGGCAGGTGGCAGGTCAAGAAGGAGATTGACAAGTACAGGCCCTGGGAGAAGTTTGATTTCGAGCAGGTGCAGAAGAGCCCCAAGCCTATTTCCCTGCTGCTGTCCACACAGCGGCGGAAGAGGAACAAGGGGTGGTCTAAGGATGAGGGGACCGAGGCCGAGATTAAGAAAGTGATGAACGGCGACTACCAGACAAGCTACATCGAGGTCAAGCGGGGCAGTAAGATTGGCGAGAAGAGCGCCTGGATGCTGAACCTGAGCATTGACGTGCCAAAGATTGATAAGGGCGTGGATCCCAGCATCATCGGAGGGATCGATGTGGGGGTCAAGAGCCCCCTCGTGTGCGCCATCAACAACGCCTTCAGCAGGTACAGCATCTCCGATAACGACCTGTTCCACTTTAACAAGAAGATGTTCGCCCGGCGGAGGATTTTGCTCAAGAAGAACCGGCACAAGCGGGCCGGACACGGGGCCAAGAACAAGCTCAAGCCCATCACTATCCTGACCGAGAAGAGCGAGAGGTTCAGGAAGAAGCTCATCGAGAGATGGGCCTGCGAGATCGCCGATTTCTTTATTAAGAACAAGGTCGGAACAGTGCAGATGGAGAACCTCGAGAGCATGAAGAGGAAGGAGGATTCCTACTTCAACATTCGGCTGAGGGGGTTCTGGCCCTACGCTGAGATGCAGAACAAGATTGAGTTTAAGCTGAAGCAGTACGGGATTGAGATCCGGAAGGTGGCCCCCAACAACACCAGCAAGACCTGCAGCAAGTGCGGGCACCTCAACAACTACTTCAACTTCGAGTACCGGAAGAAGAACAAGTTCCCACACTTCAAGTGCGAGAAGTGCAACTTTAAGGAGAACGCCGATTACAACGCCGCCCTGAACATCAGCAACCCTAAGCTGAAGAGCACTAAGGAGGAGCCCAAAAGGCCGGCGGCCACGAAAAAGGCCGGCCAGGCAAAAAAGAAAAAG

ATGGGGGAGAAAAGTTCCCGCCGCCGACGGAATGGAAAAAGCGGTGCGTGGACTGCTGCTATAACAAGCTGTGTTGGGGGTAAGATGGCCAAGAACACAATTACAAAGACACTGAAGCTGAGGATCGTGAGACCATACAACAGCGCTGAGGTCGAGAAGATTGTGGCTGATGAAAAGAACAACAGGGAAAAGATCGCCCTCGAGAAGAACAAGGATAAGGTGAAGGAGGCCTGCTCTAAGCACCTGAAAGTGGCCGCCTACTGCACCACACAGGTGGAGAGGAACGCCTGTCTGTTTTGTAAAGCTCGGAAGCTGGATGATAAGTTTTACCAGAAGCTGCGGGGCCAGTTCCCCGATGCCGTCTTTTGGCAGGAGATTAGCGAGATCTTCAGACAGCTGCAGAAGCAGGCCGCCGAGATCTACAACCAGAGCCTGATCGAGCTCTACTACGAGATCTTCATCAAGGGCAAGGGCATTGCCAACGCCTCCTCCGTGGAGCACTACCTGAGCGACGTGTGCTACACAAGAGCCGCCGAGCTCTTTAAGAACGCCGCTATCGCTTCCGGGCTGAGGAGCAAGATTAAGAGTAACTTCCGGCTCAAGGAGCTGAAGAACATGAAGAGCGGCCTGCCCACTACAAAGAGCGACAACTTCCCAATTCCACTGGTGAAGCAGAAGGGGGGCCAGTACACAGGGTTCGAGATTTCCAACCACAACAGCGACTTTATTATTAAGATCCCCTTTGGCAGGTGGCAGGTCAAGAAGGAGATTGACAAGTACAGGCCCTGGGAGAAGTTTGATTTCGAGCAGGTGCAGAAGAGCCCCAAGCCTATTTCCCTGCTGCTGTCCACACAGCGGCGGAAGAGGAACAAGGGGTGGTCTAAGGATGAGGGGACCGAGGCCGAGATTAAGAAAGTGATGAACGGCGACTACCAGACAAGCTACATCGAGGTCAAGCGGGGCAGTAAGATTGGCGAGAAGAGCGCCTGGATGCTGAACCTGAGCATTGACGTGCCAAAGATTGATAAGGGCGTGGATCCCAGCATCATCGGAGGGATCGATGTGGGGGTCAAGAGCCCCCTCGTGTGCGCCATCAACAACGCCTTCAGCAGGTACAGCATCTCCGATAACGACCTGTTCCACTTTAACAAGAAGATGTTCGCCCGGCGGAGGATTTTGCTCAAGAAGAACCGGCACAAGCGGGCCGGACACGGGGCCAAGAACAAGCTCAAGCCCATCACTATCCTGACCGAGAAGAGCGAGAGGTTCAGGAAGAAGCTCATCGAGAGATGGGCCTGCGAGATCGCCGATTTCTTTATTAAGAACAAGGTCGGAACAGTGCAGATGGAGAACCTCGAGAGCATGAAGAGGAAGGAGGATTCCTACTTCAACATTCGGCTGAGGGGGTTCTGGCCCTACGCTGAGATGCAGAACAAGATTGAGTTTAAGCTGAAGCAGTACGGGATTGAGATCCGGAAGGTGGCCCCCAACAACACCAGCAAGACCTGCAGCAAGTGCGGGCACCTCAACAACTACTTCAACTTCGAGTACCGGAAGAAGAACAAGTTCCCACACTTCAAGTGCGAGAAGTGCAACTTTAAGGAGAACGCCGATTACAACGCCGCCCTGAACATCAGCAACCCTAAGCTGAAGAGCACTAAGGAGGAGCCCAAAAGGCCGGCGGCCACGAAAAAGGCCGGCCAGGCAAAAAAGAAAAAG

101

101

LabelLabel Sequence (5' to 3')Sequence (5' to 3') SEQ IDSEQ ID
NO:NO:

Cas12f1 변이체 v1 단백질을 암호화하는 인간 코돈-최적화된 핵산

Human codon-optimized nucleic acid encoding Cas12f1 variant v1 protein

ATGGAAAAGAGAATCAACAAGATCAGGAAGAAGCTGAGCGCCGACAACGCCACCAAGCCTGTGTCAGGAGTGGCCCCCATGGCCAAGAACACAATTACAAAGACACTGAAGCTGAGGATCGTGAGACCATACAACAGCGCTGAGGTCGAGAAGATTGTGGCTGATGAAAAGAACAACAGGGAAAAGATCGCCCTCGAGAAGAACAAGGATAAGGTGAAGGAGGCCTGCTCTAAGCACCTGAAAGTGGCCGCCTACTGCACCACACAGGTGGAGAGGAACGCCTGTCTGTTTTGTAAAGCTCGGAAGCTGGATGATAAGTTTTACCAGAAGCTGCGGGGCCAGTTCCCCGATGCCGTCTTTTGGCAGGAGATTAGCGAGATCTTCAGACAGCTGCAGAAGCAGGCCGCCGAGATCTACAACCAGAGCCTGATCGAGCTCTACTACGAGATCTTCATCAAGGGCAAGGGCATTGCCAACGCCTCCTCCGTGGAGCACTACCTGAGCGACGTGTGCTACACAAGAGCCGCCGAGCTCTTTAAGAACGCCGCTATCGCTTCCGGGCTGAGGAGCAAGATTAAGAGTAACTTCCGGCTCAAGGAGCTGAAGAACATGAAGAGCGGCCTGCCCACTACAAAGAGCGACAACTTCCCAATTCCACTGGTGAAGCAGAAGGGGGGCCAGTACACAGGGTTCGAGATTTCCAACCACAACAGCGACTTTATTATTAAGATCCCCTTTGGCAGGTGGCAGGTCAAGAAGGAGATTGACAAGTACAGGCCCTGGGAGAAGTTTGATTTCGAGCAGGTGCAGAAGAGCCCCAAGCCTATTTCCCTGCTGCTGTCCACACAGCGGCGGAAGAGGAACAAGGGGTGGTCTAAGGATGAGGGGACCGAGGCCGAGATTAAGAAAGTGATGAACGGCGACTACCAGACAAGCTACATCGAGGTCAAGCGGGGCAGTAAGATTGGCGAGAAGAGCGCCTGGATGCTGAACCTGAGCATTGACGTGCCAAAGATTGATAAGGGCGTGGATCCCAGCATCATCGGAGGGATCGATGTGGGGGTCAAGAGCCCCCTCGTGTGCGCCATCAACAACGCCTTCAGCAGGTACAGCATCTCCGATAACGACCTGTTCCACTTTAACAAGAAGATGTTCGCCCGGCGGAGGATTTTGCTCAAGAAGAACCGGCACAAGCGGGCCGGACACGGGGCCAAGAACAAGCTCAAGCCCATCACTATCCTGACCGAGAAGAGCGAGAGGTTCAGGAAGAAGCTCATCGAGAGATGGGCCTGCGAGATCGCCGATTTCTTTATTAAGAACAAGGTCGGAACAGTGCAGATGGAGAACCTCGAGAGCATGAAGAGGAAGGAGGATTCCTACTTCAACATTCGGCTGAGGGGGTTCTGGCCCTACGCTGAGATGCAGAACAAGATTGAGTTTAAGCTGAAGCAGTACGGGATTGAGATCCGGAAGGTGGCCCCCAACAACACCAGCAAGACCTGCAGCAAGTGCGGGCACCTCAACAACTACTTCAACTTCGAGTACCGGAAGAAGAACAAGTTCCCACACTTCAAGTGCGAGAAGTGCAACTTTAAGGAGAACGCCGATTACAACGCCGCCCTGAACATCAGCAACCCTAAGCTGAAGAGCACTAAGGAGGAGCCC

ATGGAAAAGAGAATCAACAAGATCAGGAAGAAGCTGAGCGCCGACAACGCCACCAAGCCTGTGTCAGGAGTGGCCCCCATGGCCAAGAACACAATTACAAAGACACTGAAGCTGAGGATCGTGAGACCATACAACAGCGCTGAGGTCGAGAAGATTGTGGCTGATGAAAAGAACAACAGGGAAAAGATCGCCCTCGAGAAGAACAAGGATAAGGTGAAGGAGGCCTGCTCTAAGCACCTGAAAGTGGCCGCCTACTGCACCACACAGGTGGAGAGGAACGCCTGTCTGTTTTGTAAAGCTCGGAAGCTGGATGATAAGTTTTACCAGAAGCTGCGGGGCCAGTTCCCCGATGCCGTCTTTTGGCAGGAGATTAGCGAGATCTTCAGACAGCTGCAGAAGCAGGCCGCCGAGATCTACAACCAGAGCCTGATCGAGCTCTACTACGAGATCTTCATCAAGGGCAAGGGCATTGCCAACGCCTCCTCCGTGGAGCACTACCTGAGCGACGTGTGCTACACAAGAGCCGCCGAGCTCTTTAAGAACGCCGCTATCGCTTCCGGGCTGAGGAGCAAGATTAAGAGTAACTTCCGGCTCAAGGAGCTGAAGAACATGAAGAGCGGCCTGCCCACTACAAAGAGCGACAACTTCCCAATTCCACTGGTGAAGCAGAAGGGGGGCCAGTACACAGGGTTCGAGATTTCCAACCACAACAGCGACTTTATTATTAAGATCCCCTTTGGCAGGTGGCAGGTCAAGAAGGAGATTGACAAGTACAGGCCCTGGGAGAAGTTTGATTTCGAGCAGGTGCAGAAGAGCCCCAAGCCTATTTCCCTGCTGCTGTCCACACAGCGGCGGAAGAGGAACAAGGGGTGGTCTAAGGATGAGGGGACCGAGGCCGAGATTAAGAAAGTGATGAACGGCGACTACCAGACAAGCTACATCGAGGTCAAGCGGGGCAGTAAGATTGGCGAGAAGAGCGCCTGGATGCTGAACCTGAGCATTGACGTGCCAAAGATTGATAAGGGCGTGGATCCCAGCATCATCGGAGGGATCGATGTGGGGGTCAAGAGCCCCCTCGTGTGCGCCATCAACAACGCCTTCAGCAGGTACAGCATCTCCGATAACGACCTGTTCCACTTTAACAAGAAGATGTTCGCCCGGCGGAGGATTTTGCTCAAGAAGAACCGGCACAAGCGGGCCGGACACGGGGCCAAGAACAAGCTCAAGCCCATCACTATCCTGACCGAGAAGAGCGAGAGGTTCAGGAAGAAGCTCATCGAGAGATGGGCCTGCGAGATCGCCGATTTCTTTATTAAGAACAAGGTCGGAACAGTGCAGATGGAGAACCTCGAGAGCATGAAGAGGAAGGAGGATTCCTACTTCAACATTCGGCTGAGGGGGTTCTGGCCCTACGCTGAGATGCAGAACAAGATTGAGTTTAAGCTGAAGCAGTACGGGATTGAGATCCGGAAGGTGGCCCCCAACAACACCAGCAAGACCTGCAGCAAGTGCGGGCACCTCAACAACTACTTCAACTTCGAGTACCGGAAGAAGAACAAGTTCCCACACTTCAAGTGCGAGAAGTGCAACTTTAAGGAGAACGCCGATTACAACGCCGCCCTGAACATCAGCAACCCTAAGCTGAAGAGCACTAAGGAGGAGCCC

102

102

Cas12f1 변이체 v2 단백질을 암호화하는 인간 코돈-최적화된 핵산

Human codon-optimized nucleic acid encoding Cas12f1 variant v2 protein

ATGGCTGGCGGACCAGGCGCAGGTAGTGCTGCGCCAGTTTCTTCAACTTCCTCCCTGCCCCTGGCTGCGCTTAACATGCGCGTGATGGCCAAGAACACAATTACAAAGACACTGAAGCTGAGGATCGTGAGACCATACAACAGCGCTGAGGTCGAGAAGATTGTGGCTGATGAAAAGAACAACAGGGAAAAGATCGCCCTCGAGAAGAACAAGGATAAGGTGAAGGAGGCCTGCTCTAAGCACCTGAAAGTGGCCGCCTACTGCACCACACAGGTGGAGAGGAACGCCTGTCTGTTTTGTAAAGCTCGGAAGCTGGATGATAAGTTTTACCAGAAGCTGCGGGGCCAGTTCCCCGATGCCGTCTTTTGGCAGGAGATTAGCGAGATCTTCAGACAGCTGCAGAAGCAGGCCGCCGAGATCTACAACCAGAGCCTGATCGAGCTCTACTACGAGATCTTCATCAAGGGCAAGGGCATTGCCAACGCCTCCTCCGTGGAGCACTACCTGAGCGACGTGTGCTACACAAGAGCCGCCGAGCTCTTTAAGAACGCCGCTATCGCTTCCGGGCTGAGGAGCAAGATTAAGAGTAACTTCCGGCTCAAGGAGCTGAAGAACATGAAGAGCGGCCTGCCCACTACAAAGAGCGACAACTTCCCAATTCCACTGGTGAAGCAGAAGGGGGGCCAGTACACAGGGTTCGAGATTTCCAACCACAACAGCGACTTTATTATTAAGATCCCCTTTGGCAGGTGGCAGGTCAAGAAGGAGATTGACAAGTACAGGCCCTGGGAGAAGTTTGATTTCGAGCAGGTGCAGAAGAGCCCCAAGCCTATTTCCCTGCTGCTGTCCACACAGCGGCGGAAGAGGAACAAGGGGTGGTCTAAGGATGAGGGGACCGAGGCCGAGATTAAGAAAGTGATGAACGGCGACTACCAGACAAGCTACATCGAGGTCAAGCGGGGCAGTAAGATTGGCGAGAAGAGCGCCTGGATGCTGAACCTGAGCATTGACGTGCCAAAGATTGATAAGGGCGTGGATCCCAGCATCATCGGAGGGATCGATGTGGGGGTCAAGAGCCCCCTCGTGTGCGCCATCAACAACGCCTTCAGCAGGTACAGCATCTCCGATAACGACCTGTTCCACTTTAACAAGAAGATGTTCGCCCGGCGGAGGATTTTGCTCAAGAAGAACCGGCACAAGCGGGCCGGACACGGGGCCAAGAACAAGCTCAAGCCCATCACTATCCTGACCGAGAAGAGCGAGAGGTTCAGGAAGAAGCTCATCGAGAGATGGGCCTGCGAGATCGCCGATTTCTTTATTAAGAACAAGGTCGGAACAGTGCAGATGGAGAACCTCGAGAGCATGAAGAGGAAGGAGGATTCCTACTTCAACATTCGGCTGAGGGGGTTCTGGCCCTACGCTGAGATGCAGAACAAGATTGAGTTTAAGCTGAAGCAGTACGGGATTGAGATCCGGAAGGTGGCCCCCAACAACACCAGCAAGACCTGCAGCAAGTGCGGGCACCTCAACAACTACTTCAACTTCGAGTACCGGAAGAAGAACAAGTTCCCACACTTCAAGTGCGAGAAGTGCAACTTTAAGGAGAACGCCGATTACAACGCCGCCCTGAACATCAGCAACCCTAAGCTGAAGAGCACTAAGGAGGAGCCC

ATGGCTGGCGGACCAGGCGCAGGTAGTGCTGCGCCAGTTTCTTCAACTTCCTCCCTGCCCCTGGCTGCGCTTAACATGCGCGTGATGGCCAAGAACACAATTACAAAGACACTGAAGCTGAGGATCGTGAGACCATACAACAGCGCTGAGGTCGAGAAGATTGTGGCTGATGAAAAGAACAACAGGGAAAAGATCGCCCTCGAGAAGAACAAGGATAAGGTGAAGGAGGCCTGCTCTAAGCACCTGAAAGTGGCCGCCTACTGCACCACACAGGTGGAGAGGAACGCCTGTCTGTTTTGTAAAGCTCGGAAGCTGGATGATAAGTTTTACCAGAAGCTGCGGGGCCAGTTCCCCGATGCCGTCTTTTGGCAGGAGATTAGCGAGATCTTCAGACAGCTGCAGAAGCAGGCCGCCGAGATCTACAACCAGAGCCTGATCGAGCTCTACTACGAGATCTTCATCAAGGGCAAGGGCATTGCCAACGCCTCCTCCGTGGAGCACTACCTGAGCGACGTGTGCTACACAAGAGCCGCCGAGCTCTTTAAGAACGCCGCTATCGCTTCCGGGCTGAGGAGCAAGATTAAGAGTAACTTCCGGCTCAAGGAGCTGAAGAACATGAAGAGCGGCCTGCCCACTACAAAGAGCGACAACTTCCCAATTCCACTGGTGAAGCAGAAGGGGGGCCAGTACACAGGGTTCGAGATTTCCAACCACAACAGCGACTTTATTATTAAGATCCCCTTTGGCAGGTGGCAGGTCAAGAAGGAGATTGACAAGTACAGGCCCTGGGAGAAGTTTGATTTCGAGCAGGTGCAGAAGAGCCCCAAGCCTATTTCCCTGCTGCTGTCCACACAGCGGCGGAAGAGGAACAAGGGGTGGTCTAAGGATGAGGGGACCGAGGCCGAGATTAAGAAAGTGATGAACGGCGACTACCAGACAAGCTACATCGAGGTCAAGCGGGGCAGTAAGATTGGCGAGAAGAGCGCCTGGATGCTGAACCTGAGCATTGACGTGCCAAAGATTGATAAGGGCGTGGATCCCAGCATCATCGGAGGGATCGATGTGGGGGTCAAGAGCCCCCTCGTGTGCGCCATCAACAACGCCTTCAGCAGGTACAGCATCTCCGATAACGACCTGTTCCACTTTAACAAGAAGATGTTCGCCCGGCGGAGGATTTTGCTCAAGAAGAACCGGCACAAGCGGGCCGGACACGGGGCCAAGAACAAGCTCAAGCCCATCACTATCCTGACCGAGAAGAGCGAGAGGTTCAGGAAGAAGCTCATCGAGAGATGGGCCTGCGAGATCGCCGATTTCTTTATTAAGAACAAGGTCGGAACAGTGCAGATGGAGAACCTCGAGAGCATGAAGAGGAAGGAGGATTCCTACTTCAACATTCGGCTGAGGGGGTTCTGGCCCTACGCTGAGATGCAGAACAAGATTGAGTTTAAGCTGAAGCAGTACGGGATTGAGATCCGGAAGGTGGCCCCCAACAACACCAGCAAGACCTGCAGCAAGTGCGGGCACCTCAACAACTACTTCAACTTCGAGTACCGGAAGAAGAACAAGTTCCCACACTTCAAGTGCGAGAAGTGCAACTTTAAGGAGAACGCCGATTACAACGCCGCCCTGAACATCAGCAACCCTAAGCTGAAGAGCACTAAGGAGGAGCCC

103

103

Cas12f1 변이체 v3 단백질을 암호화하는 인간 코돈-최적화된 핵산

Human codon-optimized nucleic acid encoding Cas12f1 variant v3 protein

ATGGCTGGCGGACCAGGCGCAGGTAGTGCTGCGCCAGTTTCTTCAACTTCCTCCCTGCCCCTGGCTGCGCTTAACATGATGGCCAAGAACACAATTACAAAGACACTGAAGCTGAGGATCGTGAGACCATACAACAGCGCTGAGGTCGAGAAGATTGTGGCTGATGAAAAGAACAACAGGGAAAAGATCGCCCTCGAGAAGAACAAGGATAAGGTGAAGGAGGCCTGCTCTAAGCACCTGAAAGTGGCCGCCTACTGCACCACACAGGTGGAGAGGAACGCCTGTCTGTTTTGTAAAGCTCGGAAGCTGGATGATAAGTTTTACCAGAAGCTGCGGGGCCAGTTCCCCGATGCCGTCTTTTGGCAGGAGATTAGCGAGATCTTCAGACAGCTGCAGAAGCAGGCCGCCGAGATCTACAACCAGAGCCTGATCGAGCTCTACTACGAGATCTTCATCAAGGGCAAGGGCATTGCCAACGCCTCCTCCGTGGAGCACTACCTGAGCGACGTGTGCTACACAAGAGCCGCCGAGCTCTTTAAGAACGCCGCTATCGCTTCCGGGCTGAGGAGCAAGATTAAGAGTAACTTCCGGCTCAAGGAGCTGAAGAACATGAAGAGCGGCCTGCCCACTACAAAGAGCGACAACTTCCCAATTCCACTGGTGAAGCAGAAGGGGGGCCAGTACACAGGGTTCGAGATTTCCAACCACAACAGCGACTTTATTATTAAGATCCCCTTTGGCAGGTGGCAGGTCAAGAAGGAGATTGACAAGTACAGGCCCTGGGAGAAGTTTGATTTCGAGCAGGTGCAGAAGAGCCCCAAGCCTATTTCCCTGCTGCTGTCCACACAGCGGCGGAAGAGGAACAAGGGGTGGTCTAAGGATGAGGGGACCGAGGCCGAGATTAAGAAAGTGATGAACGGCGACTACCAGACAAGCTACATCGAGGTCAAGCGGGGCAGTAAGATTGGCGAGAAGAGCGCCTGGATGCTGAACCTGAGCATTGACGTGCCAAAGATTGATAAGGGCGTGGATCCCAGCATCATCGGAGGGATCGATGTGGGGGTCAAGAGCCCCCTCGTGTGCGCCATCAACAACGCCTTCAGCAGGTACAGCATCTCCGATAACGACCTGTTCCACTTTAACAAGAAGATGTTCGCCCGGCGGAGGATTTTGCTCAAGAAGAACCGGCACAAGCGGGCCGGACACGGGGCCAAGAACAAGCTCAAGCCCATCACTATCCTGACCGAGAAGAGCGAGAGGTTCAGGAAGAAGCTCATCGAGAGATGGGCCTGCGAGATCGCCGATTTCTTTATTAAGAACAAGGTCGGAACAGTGCAGATGGAGAACCTCGAGAGCATGAAGAGGAAGGAGGATTCCTACTTCAACATTCGGCTGAGGGGGTTCTGGCCCTACGCTGAGATGCAGAACAAGATTGAGTTTAAGCTGAAGCAGTACGGGATTGAGATCCGGAAGGTGGCCCCCAACAACACCAGCAAGACCTGCAGCAAGTGCGGGCACCTCAACAACTACTTCAACTTCGAGTACCGGAAGAAGAACAAGTTCCCACACTTCAAGTGCGAGAAGTGCAACTTTAAGGAGAACGCCGATTACAACGCCGCCCTGAACATCAGCAACCCTAAGCTGAAGAGCACTAAGGAGGAGCCC

ATGGCTGGCGGACCAGGCGCAGGTAGTGCTGCGCCAGTTTCTTCAACTTCCTCCCTGCCCCTGGCTGCGCTTAACATGATGGCCAAGAACACAATTACAAAGACACTGAAGCTGAGGATCGTGAGACCATACAACAGCGCTGAGGTCGAGAAGATTGTGGCTGATGAAAAGAACAACAGGGAAAAGATCGCCCTCGAGAAGAACAAGGATAAGGTGAAGGAGGCCTGCTCTAAGCACCTGAAAGTGGCCGCCTACTGCACCACACAGGTGGAGAGGAACGCCTGTCTGTTTTGTAAAGCTCGGAAGCTGGATGATAAGTTTTACCAGAAGCTGCGGGGCCAGTTCCCCGATGCCGTCTTTTGGCAGGAGATTAGCGAGATCTTCAGACAGCTGCAGAAGCAGGCCGCCGAGATCTACAACCAGAGCCTGATCGAGCTCTACTACGAGATCTTCATCAAGGGCAAGGGCATTGCCAACGCCTCCTCCGTGGAGCACTACCTGAGCGACGTGTGCTACACAAGAGCCGCCGAGCTCTTTAAGAACGCCGCTATCGCTTCCGGGCTGAGGAGCAAGATTAAGAGTAACTTCCGGCTCAAGGAGCTGAAGAACATGAAGAGCGGCCTGCCCACTACAAAGAGCGACAACTTCCCAATTCCACTGGTGAAGCAGAAGGGGGGCCAGTACACAGGGTTCGAGATTTCCAACCACAACAGCGACTTTATTATTAAGATCCCCTTTGGCAGGTGGCAGGTCAAGAAGGAGATTGACAAGTACAGGCCCTGGGAGAAGTTTGATTTCGAGCAGGTGCAGAAGAGCCCCAAGCCTATTTCCCTGCTGCTGTCCACACAGCGGCGGAAGAGGAACAAGGGGTGGTCTAAGGATGAGGGGACCGAGGCCGAGATTAAGAAAGTGATGAACGGCGACTACCAGACAAGCTACATCGAGGTCAAGCGGGGCAGTAAGATTGGCGAGAAGAGCGCCTGGATGCTGAACCTGAGCATTGACGTGCCAAAGATTGATAAGGGCGTGGATCCCAGCATCATCGGAGGGATCGATGTGGGGGTCAAGAGCCCCCTCGTGTGCGCCATCAACAACGCCTTCAGCAGGTACAGCATCTCCGATAACGACCTGTTCCACTTTAACAAGAAGATGTTCGCCCGGCGGAGGATTTTGCTCAAGAAGAACCGGCACAAGCGGGCCGGACACGGGGCCAAGAACAAGCTCAAGCCCATCACTATCCTGACCGAGAAGAGCGAGAGGTTCAGGAAGAAGCTCATCGAGAGATGGGCCTGCGAGATCGCCGATTTCTTTATTAAGAACAAGGTCGGAACAGTGCAGATGGAGAACCTCGAGAGCATGAAGAGGAAGGAGGATTCCTACTTCAACATTCGGCTGAGGGGGTTCTGGCCCTACGCTGAGATGCAGAACAAGATTGAGTTTAAGCTGAAGCAGTACGGGATTGAGATCCGGAAGGTGGCCCCCAACAACACCAGCAAGACCTGCAGCAAGTGCGGGCACCTCAACAACTACTTCAACTTCGAGTACCGGAAGAAGAACAAGTTCCCACACTTCAAGTGCGAGAAGTGCAACTTTAAGGAGAACGCCGATTACAACGCCGCCCTGAACATCAGCAACCCTAAGCTGAAGAGCACTAAGGAGGAGCCC

104

104

상기 제작된 초소형 유전자 편집 핵산 구조물을 다음의 방법으로 제조하였다. 본 발명에 사용된 상기 핵산 구조물은 인간 코돈-최적화된 Cas12f1 변이체(엔지니어링된 변이체 포함)의 유전자 서열을 포함한다. 상기 유전자 서열을 주형으로 PCR 증폭을 진행하고, Gibson assembly 방법에 의해 진핵 세포 시스템(Eukaryotic cell system)에서 발현이 가능한 프로모터와 poly(A) 신호 서열(signal sequence)을 가지는 벡터에 원하는 클로닝(cloning) 서열에 맞게 클로닝을 진행하였다. 클로닝 후, 얻어진 재조합 플라스미드 벡터의 서열은 생거 시퀀싱(Sanger sequencing) 방법을 통하여 최종 확인하였다. The above-mentioned ultra-small gene editing nucleic acid construct was manufactured by the following method. The nucleic acid construct used in the present invention includes the gene sequence of a human codon-optimized Cas12f1 variant (including an engineered variant). PCR amplification was performed using the gene sequence as a template, and cloning was performed in accordance with the desired cloning sequence into a vector having a promoter capable of expression in a eukaryotic cell system and a poly(A) signal sequence by the Gibson assembly method. After cloning, the sequence of the obtained recombinant plasmid vector was finally confirmed through the Sanger sequencing method.

실시예 1.2. 유전자 편집 단백질의 발현 및 정제Example 1.2. Expression and purification of gene editing proteins

상기 실시예 1.1에서 제조한 유전자를 발현시키고, 단백질을 정제하였다. The gene produced in Example 1.1 above was expressed and the protein was purified.

먼저 상기 핵산 구조물을 pMAL-c2 플라스미드 벡터에 클로닝하여 BL21(DE3) E. coli 세포에 형질전환하였다. 상기 형질전환된 E. coli 콜로니를 광학 밀도가 0.7에 도달할 때까지 37℃의 LB broth에서 성장시켰다. 상기 형질전환된 E. coli 세포들은 0.1 mM isopropylthio-β-D-galactoside 존재 하 18℃에서 하룻밤 배양되었다. 그 후, 상기 배양된 세포들을 3,500g에서 30분간 원심분리하여 수집하고, 수집된 세포들을 20 mM Tris-HCl(pH 7.6), 500 mM NaCl, 5 mM β-mercaptoethanol, 5% glycerol에 재현탁하였다. 상기 세포를 용해 버퍼에서 용해한 후, 음파처리(sonication)에 의해 파쇄하였다. 파쇄된 세포가 포함된 샘플을 15,000g로 30분 간 원심분리하여 수득한 상측액을 0.45 ㎛ 주사기 필터(Millipore)를 통해 여과하고, 여과된 상층액을 FPLC 정제 시스템(KTA Purifier, GE Healthcare)을 사용하여, Ni2+-친화성 컬럼에 로드하였다. 결합 분획(bound fractions)은 80-400 mM imidazole, 20 mM Tris-HCl(pH 7.5) 구배에서 용출되었다. First, the nucleic acid construct was cloned into the pMAL-c2 plasmid vector and transformed into BL21 (DE3) E. coli cells. The transformed E. coli colonies were grown in LB broth at 37°C until the optical density reached 0.7. The transformed E. coli cells were cultured overnight at 18°C in the presence of 0.1 mM isopropylthio-β-D-galactoside. Then, the cultured cells were collected by centrifugation at 3,500 g for 30 minutes, and the collected cells were resuspended in 20 mM Tris-HCl (pH 7.6), 500 mM NaCl, 5 mM β-mercaptoethanol, and 5% glycerol. The cells were lysed in a lysis buffer and then disrupted by sonication. The sample containing the disrupted cells was centrifuged at 15,000 g for 30 min, and the supernatant obtained was filtered through a 0.45 ㎛ syringe filter (Millipore), and the filtered supernatant was loaded onto a Ni 2+ -affinity column using an FPLC purification system (KTA Purifier, GE Healthcare). The bound fractions were eluted with a gradient of 80-400 mM imidazole, 20 mM Tris-HCl (pH 7.5).

상기 용출된 단백질을 TEV 프로테아제로 16시간 동안 처리하여 절단하였다. 절단된 단백질을 0.15-1.6 M NaCl 선형 농도구배의 Heparin 컬럼에서 정제하였다. Heparin 컬럼에서 정제된 재조합 Cas12f1 변이체 단백질은 20 mM Tris pH 7.6, 150 mM NaCl, 5 mM β-mercaptoethanol, 5% glycerol의 용액에서 투석되었다. 상기 투석된 단백질을 MBP 컬럼을 통과시켜 정제한 후, 0.5-1.2 M NaCl의 선형 구배로 monoS 컬럼(GE Healthcare) 또는 EnrichS에서 재정제하였다. The eluted protein was cleaved by treating with TEV protease for 16 h. The cleaved protein was purified on a Heparin column with a linear gradient of 0.15-1.6 M NaCl. The recombinant Cas12f1 mutant protein purified on the Heparin column was dialyzed against a solution of 20 mM Tris pH 7.6, 150 mM NaCl, 5 mM β-mercaptoethanol, and 5% glycerol. The dialyzed protein was purified by passing it through an MBP column, and then repurified on a monoS column (GE Healthcare) or EnrichS with a linear gradient of 0.5-1.2 M NaCl.

상기 재정제된 단백질들을 모아, 20 mM Tris pH 7.6, 150 mM NaCl, 5 mM β-mercaptoethanol, 5% glycerol의 용액으로 투석하여 본 발명에서 사용되는 초소형 유전자 편집 단백질(소형 엔도뉴클레아제)을 정제하였다. 상기 생산된 초소형 유전자 편집 단백질의 농도는 소 혈청 알부민(BSA)을 표준으로 사용하는 Bradford 정량법을 이용하여 정량하여 coomassie blue-stained SDS-PAGE 겔에서 전기영동적(electrophoretically)으로 측정되었다. The above purified proteins were collected and dialyzed against a solution of 20 mM Tris pH 7.6, 150 mM NaCl, 5 mM β-mercaptoethanol, and 5% glycerol to purify the ultra-small gene editing protein (small endonuclease) used in the present invention. The concentration of the produced ultra-small gene editing protein was quantified using the Bradford assay using bovine serum albumin (BSA) as a standard and measured electrophoretically on a coomassie blue-stained SDS-PAGE gel.

실시예 1.3. Cas12f1 변이체에 또는 이의 동족체에 대한 엔지니어링된 가이드 RNAExample 1.3. Engineered guide RNA for Cas12f1 variants or homologs thereof

본 실시예에서는 핵산 또는 유전자 편집을 위한 초소형 유전자 편집 시스템의 일 구성요소로써, Cas12f1 변이체 단백질 또는 이의 동족체에 대해 고효율의 표적화 활성 및 유전자 편집 활성을 갖게 하는 엔지니어링된 가이드 RNA(augment RNA)를 제작하였다. 핵산 또는 유전자 편집을 위한 초소형 유전자 편집 시스템의 활성은 상기 시스템을 구성하는 Cas12f1 변이체 단백질 또는 이의 동족체 단백질의 엔도뉴클레아제 활성도 중요하지만, 이에 더하여 상기 유전자 편집 단백질이 표적 핵산 또는 표적 유전자 부위에 결합하는 정도에 의해 그 활성에 큰 차이가 나타날 것으로 추정하였다. 이에, 하기와 같이 Cas12f1 변이체에 대한 엔지니어링된 augment RNA를 제작하였다.In this example, as a component of an ultra-small gene editing system for nucleic acid or gene editing, an engineered guide RNA (augment RNA) that has high-efficiency targeting activity and gene editing activity for a Cas12f1 mutant protein or a homolog thereof was produced. The activity of an ultra-small gene editing system for nucleic acid or gene editing is important for the endonuclease activity of the Cas12f1 mutant protein or a homolog thereof constituting the system, but it is estimated that a large difference in the activity will occur depending on the degree to which the gene editing protein binds to a target nucleic acid or a target gene region. Accordingly, an engineered augment RNA for a Cas12f1 mutant was produced as follows.

Cas12f1 변이체 단백질 또는 이의 동족체 단백질에 대한 augment RNA는 자연계에서 발견되는 가이드 RNA에 새로운 구성을 추가하거나 그 구조 중 일부를 삭제 또는 변형한 것으로, 3'-말단에 새로운 구성인 U-rich tail을 포함할 수 있다. 구체적으로, 상기 augment RNA은 변형된 스캐폴드 제1 영역 내지 제4 영역을 포함하는 엔지니어링된 tracrRNA 서열, 변형된 스캐폴드 제5 영역 내지 제6 영역을 포함하는 엔지니어링된 crRNA 서열 및/또는 변형된 제7 영역인 U-rich tail 서열을 포함하는 것을 특징으로 한다(도 2a 및 도 2b 참조). The augment RNA for the Cas12f1 mutant protein or its homolog protein is a guide RNA found in nature that adds a new structure or deletes or modifies part of its structure, and may include a new structure, a U-rich tail, at the 3'-terminus. Specifically, the augment RNA is characterized by including an engineered tracrRNA sequence including a modified first to fourth regions of the scaffold, an engineered crRNA sequence including a modified fifth to sixth regions of the scaffold, and/or a U-rich tail sequence which is a modified seventh region (see FIGS. 2A and 2B ).

상기 제4 영역 및 제5 영역은 서로 상보적으로 결합하는 부위로써, 변형부위 1(modification site 1, MS1) 및 변형부위 4(modification site 4, MS4)를 포함하고, 상기 제7 영역인 U-rich tail 서열은 변형부위 2(modification site 2, MS2)에 해당한다. 상기 제1 영역은 변형부위 3(modification site 3, MS3)이고, 상기 제2 영역은 변형부위 5(modification site 5, MS5)를 포함한다. The fourth region and the fifth region are complementary binding sites and include modification site 1 (MS1) and modification site 4 (MS4), and the seventh region, the U-rich tail sequence, corresponds to modification site 2 (MS2). The first region is modification site 3 (MS3), and the second region includes modification site 5 (MS5).

도 1은 Cas12f1 변이체에 대한 야생형 가이드 RNA 및 본 발명에서 제공하는 Cas12f1 변이체 단백질 및 이의 동족체에 대한 고효율의 augment RNA를 제작하기 위해 자연에 존재하는 가이드 RNA에서 변형을 수행하는 부위인 "변형부위(Modification Site, MS) MS1 내지 MS5"를 자세히 나타냈다. 도 2a 및 도 2b는 본 발명의 엔지니어링된 싱글 가이드 RNA(augment RNA) 제작을 위한 다양한 변형부위의 예시적 구조를 나타냈다. 도 2a는 Cas12f1 변이체에 대한 canonical sgRNA의 변형부위를 예시하고 있고, 도 2b는 엔지니어링된 Cas12f1 변이체에 대한 mature form sgRNA의 변형부위를 예시하고 있다. Figure 1 illustrates in detail the "modification site (MS) MS1 to MS5", which is a site where modification is performed in a naturally existing guide RNA to produce a wild-type guide RNA for a Cas12f1 mutant and a highly efficient augment RNA for the Cas12f1 mutant protein provided by the present invention and its homologues. Figures 2a and 2b illustrate exemplary structures of various modification sites for producing an engineered single guide RNA (augment RNA) of the present invention. Figure 2a illustrates a modification site of a canonical sgRNA for a Cas12f1 mutant, and Figure 2b illustrates a modification site of a mature form sgRNA for an engineered Cas12f1 mutant.

또한, 본 발명은 전술한 "II. 고효율의 초소형 유전자 편집 시스템/조성물" 섹션에서 "3. 초소형 유전자 편집 시스템을 위한 엔지니어링된 가이드 RNA" 및 "7. 싱글 가이드 RNA를 만들기 위한 변형"에 따라, Cas12f1 변이체에 대한 엔지니어링된 가이드 RNA(Cas12f1 변이체 augment RNA)들을 제작하였다. 다만, 이들 augment RNA들은 본 발명에서 사용하는 엔지니어링된 가이드 RNA의 대표적인 예시일 뿐, 본 발명의 Cas12f1 변이체 augment RNA가 예시된 서열로 제한되는 것은 아니다. In addition, the present invention produced engineered guide RNAs for Cas12f1 variants (Cas12f1 variant augment RNAs) according to “3. Engineered guide RNAs for ultra-small gene editing systems” and “7. Modifications for making single guide RNA” in the aforementioned “II. High-efficiency miniature genome editing system/composition” section. However, these augment RNAs are only representative examples of the engineered guide RNAs used in the present invention, and the Cas12f1 variant augment RNAs of the present invention are not limited to the exemplified sequences.

하기 표 3 및 표 4에 상기 예시적인 Cas12f1 변이체 augment RNA의 구체적인 염기서열을 자세히 나타내었다. 여기서, 5'-NNNNNNNNNNNNNNNNNNNN-3' 부분은 스페이서 서열로서, 15개 이상 50개 이하의 염기서열로 구성될 수 있다. The specific base sequences of the exemplary Cas12f1 variant augment RNA are detailed in Tables 3 and 4 below. Here, the 5'-NNNNNNNNNNNNNNNNNNNN-3' portion serves as a spacer sequence and may be composed of a base sequence of 15 to 50 bases.

sgRNAsgRNA Sequence (5' to 3')Sequence (5' to 3') SEQ IDSEQ ID
NO:NO:
Canonical
sgRNA
Canonical
sgRNA
CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCuuagGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAUUUUUCCUCUCCAAUUCUGCACAAgaaaGUUGCAGAACCCGAAUAGacgaaUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNNCUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCuuagGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAUUUUUCCUCUCCAAUUCUGCACAAgaaaGUUGCAGAACCCGAAUAGacgaaUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNNNN 66
MS1/MS2/MS3
(Cas12f1_ge3.0)
MS1/MS2/MS3
(Cas12f1_ge3.0)
ACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCCAAUUCUGCACAAgaaaGUUGCAGAACCCGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNNUUUUAUUUUUUACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCCAAUUCUGCACAAgaaaGUUGCAGAACCCGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNNUUUUAUUUUUU 4646
MS2/MS3/MS4
(Cas12f1_ge4.0)
MS2/MS3/MS4
(Cas12f1_ge4.0)
ACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAgaaaGGAAUGCAACNNNNNNNNNNNNNNNNNNNNUUUUAUUUUUUACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAgaaaGGAAUGCAACNNNNNNNNNNNNNNNNNNNNNNUUUUAUUUUUU 4747
MS2/MS3/MS4/MS5
(Cas12f1_ge4.1)
MS2/MS3/MS4/MS5
(Cas12f1_ge4.1)
ACCGCUUCACUUAGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAgaaaGGAAUGCAACNNNNNNNNNNNNNNNNNNNNUUUUAUUUUUUACCGCUUCACUUAGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAgaaaGGAAUGCAACNNNNNNNNNNNNNNNNNNNNNNNNUUUUAUUUUUU 4848

sgRNAsgRNA Sequence (5' to 3')Sequence (5' to 3') SEQ IDSEQ ID
NO:NO:
Canonical
sgRNA
Canonical
sgRNA
CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCuuagGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAUUUUUCCUCUCCAAUUCUGCACAAgaaaGUUGCAGAACCCGAAUAGacgaaUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNNCUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCuuagGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAUUUUUCCUCUCCAAUUCUGCACAAgaaaGUUGCAGAACCCGAAUAGacgaaUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNNNN 66
MS1MS1 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCCAAUUCUGCACAAgaaaGUUGCAGAACCCGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNNCUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCA GUGCU CCUCUCCAAUUCUGCACAAgaaaGUUGCAGAACCCGAAUAG AGCAA UGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNNNN 4444 MS1/MS2MS1/MS2 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCCAAUUCUGCACAAgaaaGUUGCAGAACCCGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNNUUUUAUUUUCUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCA GUGCU CCUCUCCAAUUCUGCACAAgaaaGUUGCAGAACCCGAAUAG AGCAA UGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNNUUUUAUUUU 4545 MS1/MS3-1MS1/MS3-1 GAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCCAAUUCUGCACAAgaaaGUUGCAGAACCCGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNNGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCA GUGCU CCUCUCCAAUUCUGCACAAgaaaGUUGCAGAACCCGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNNNN 105105 MS1/MS3-2MS1/MS3-2 UGGAGAACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCCAAUUCUGCACAAgaaaGUUGCAGAACCCGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNNUGGAGAACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCCAAUUCUGCACAAgaaaGUUGCAGAACCCGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNN 106106 MS1/MS3-3MS1/MS3-3 ACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCCAAUUCUGCACAAgaaaGUUGCAGAACCCGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNNACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCCAAUUCUGCACAAgaaaGUUGCAGAACCCGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNNNN 107107 MS1/MS4*-1MS1/MS4 * -1 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCCAAUUCgaaaGAACCCGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNNCUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCA GUGCU CCUCUCCAAUUCgaaaGAACCCGAAUAG AGCAA UGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNNNN 108108 MS1/MS4*-2MS1/MS4 * -2 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCgaaaGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNNCUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCA GUGCU CCUCUCgaaaGAAUAG AGCAA UGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNNNN 109109 MS1/MS4*-3MS1/MS4 * -3 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUgaaaAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNNCUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUCA GUGCU gaaa AGCAA UGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNN 110110 MS1/MS5-1MS1/MS5-1 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUuuagAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCCAAUUCUGCACAAgaaaGUUGCAGAACCCGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNNCUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUuuagAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCA GUGCU CCUCUCCAAUUCUGCACAAgaaaGUUGCAGAACCCGAAUAG AGCAA UGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNN 111111 MS1/MS5-2MS1/MS5-2 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCuuagGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCCAAUUCUGCACAAgaaaGUUGCAGAACCCGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNNCUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCuuagGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCA GUGCU CCUCUCCAAUUCUGCACAAgaaaGUUGCAGAACCCGAAUAG AGCAA UGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNNNN 112112 MS1/MS5-3MS1/MS5-3 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAuuagUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCCAAUUCUGCACAAgaaaGUUGCAGAACCCGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNNCUUCACUGAUAAAGUGGAGAACCGCUUCACCAAuuagUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCA GUGCU CCUCUCCAAUUCUGCACAAgaaaGUUGCAGAACCCGAAUAG AGCAA UGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNN 113113 MS1/MS2/MS3
(Cas12f1_ge3.0)
MS1/MS2/MS3
(Cas12f1_ge3.0)
ACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCCAAUUCUGCACAAgaaaGUUGCAGAACCCGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNNUUUUAUUUUUUACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCCAAUUCUGCACAAgaaaGUUGCAGAACCCGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNNUUUUAUUUUUU 4646
MS1/MS2/MS4*-2MS1/MS2/MS4 * -2 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCgaaaGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNNUUUUAUUUUCUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCA GUGCU CCUCUCgaaaGAAUAG AGCAA UGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNNUUUUUAUUUU 114114 MS1/MS3-3/MS4*-2MS1/MS3-3/MS4 * -2 ACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCgaaaGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNNACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCA GUGCU CCUCUCgaaaGAAUAG AGCAA UGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNNNN 115115 MS1/MS2/MS5-3MS1/MS2/MS5-3 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAuuagUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCCAAUUCUGCACAAgaaaGUUGCAGAACCCGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNNUUUUAUUUUCUUCACUGAUAAAGUGGAGAACCGCUUCACCAAuuagUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCA GUGCU CCUCUCCAAUUCUGCACAAgaaaGUUGCAGAACCCGAAUAG AGCAA UGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNNUUUUAUUUU 116116 MS1/MS3-3/MS5-3MS1/MS3-3/MS5-3 ACCGCUUCACCAAuuagUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCCAAUUCUGCACAAgaaaGUUGCAGAACCCGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNNACCGCUUCACCAAuuagUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCA GUGCU CCUCUCCAAUUCUGCACAAgaaaGUUGCAGAACCCGAAUAG AGCAA UGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNNNN 117117 MS1/MS4*-2/MS5-3MS1/MS4 * -2/MS5-3 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAuuagUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCgaaaGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNNCUUCACUGAUAAAGUGGAGAACCGCUUCACCAAuuagUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCA GUGCU CCUCUCgaaaGAAUAG AGCAA UGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNNNN 118118 MS1/MS2/MS3-3/
MS4*-2
MS1/MS2/MS3-3/
MS4 * -2
ACCGCUUCACCAAAAGCUGUCCCuuagGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCgaaaGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNNUUUUAUUUUACCGCUUCACCAAAAGCUGUCCCuuagGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCA GUGCU CCUCUCgaaaGAAUAG AGCAA UGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNNNNUUUUUAUUUU 119119
MS1/MS2/MS3-3/
MS5-3
MS1/MS2/MS3-3/
MS5-3
ACCGCUUCACCAAuuagUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCCAAUUCUGCACAAgaaaGUUGCAGAACCCGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNNUUUUAUUUUACCGCUUCACCAAuuagUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCA GUGCU CCUCUCCAAUUCUGCACAAgaaaGUUGCAGAACCCGAAUAG AGCAA UGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNNNNUUUUAUUUU 120120
MS1/MS2/MS4*-2/
MS5-3
MS1/MS2/MS4 * -2/
MS5-3
CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAuuagUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCgaaaGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNNUUUUAUUUUCUUCACUGAUAAAGUGGAGAACCGCUUCACCAAuuagUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCA GUGCU CCUCUCgaaaGAAUAG AGCAA UGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNNNNUUUUUAUUUU 121121
MS1/MS3-3/MS4*-2/
MS5-3
MS1/MS3-3/MS4 * -2/
MS5-3
ACCGCUUCACCAAuuagUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCgaaaGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNNACCGCUUCACCAAuuagUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCA GUGCU CCUCUCgaaaGAAUAG AGCAA UGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNNNN 122122
MS1/MS2/MS3-3/
MS4*-2/MS5-3
MS1/MS2/MS3-3/
MS4 * -2/MS5-3
ACCGCUUCACCAAuuagUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCgaaaGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNNUUUUAUUUUACCGCUUCACCAAuuagUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCA GUGCU CCUCUCgaaaGAAUAG AGCAA UGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNNNNUUUUAUUUU 123123

또한, Cas12f1 변이체 augment RNA에서 변형부위인 MS1에 의한 초소형 유전자 편집 시스템의 표적 핵산 또는 표적 유전자 절단 또는 편집 활성의 차이를 확인하고자 하였다. 이를 위해, Canonical sgRNA(서열번호 6)에서 MS1이 제거된 sgRNA를 제작하였으며, 이를 "mature form sgRNA"으로 명명하였다. 상기 mature form sgRNA는 서열번호 124의 염기서열로 이루어질 수 있으며, 여기서 상보적 쌍을 이루는 한 쌍 이상의 염기서열이 추가로 제거될 수 있다. 표 5에서 예시적인 Cas12f1 변이체 mature form sgRNA 및 이들의 구체적인 염기서열을 나타냈다.In addition, we attempted to confirm the difference in target nucleic acid or target gene cleavage or editing activity of the ultra-small gene editing system by the MS1, which is a modified portion in the Cas12f1 mutant augment RNA. To this end, we produced an sgRNA in which MS1 was removed from the canonical sgRNA (SEQ ID NO: 6), and named it "mature form sgRNA". The mature form sgRNA may be composed of a base sequence of SEQ ID NO: 124, and one or more pairs of base sequences forming a complementary pair may be additionally removed. Table 5 shows exemplary Cas12f1 mutant mature form sgRNAs and their specific base sequences.

sgRNAsgRNA Sequence (5' to 3')Sequence (5' to 3') SEQ IDSEQ ID
NO:NO:
Mature form sgRNAMature form sgRNA CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCuuagGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAUUUgaaaGAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNNCUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCuuagGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCA UUU gaaa GAA UGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNN 124124 MS3-1MS3-1 GAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCuuagGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAUUUgaaaGAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNNGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCuuagGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCA UUU gaaa GAA UGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNNNN 125125 MS3-2MS3-2 UGGAGAACCGCUUCACCAAAAGCUGUCCCuuagGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAUUUgaaaGAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNNUGGAGAACCGCUUCACCAAAAGCUGUCCCuuagGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCA UUU gaaa GAA UGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNNNN 126126 MS3-3MS3-3 ACCGCUUCACCAAAAGCUGUCCCuuagGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAUUUgaaaGAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNNACCGCUUCACCAAAAGCUGUCCCuuagGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCA UUU gaaa GAA UGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNNNN 127127 MS4-1MS4-1 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCuuagGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAUgaaaAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNNCUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCuuagGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCA U gaaa A UGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNNNN 128128 MS4-2MS4-2 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCuuagGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCgaaaGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNNCUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCuuagGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCgaaaGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNN 129129 MS4-3MS4-3 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCuuagGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAgaaaGGAAUGCAACNNNNNNNNNNNNNNNNNNNNCUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCuuagGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAgaaaGGAAUGCAACNNNNNNNNNNNNNNNNNNNNNN 130130 MS5-1MS5-1 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUuuagAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAUUUgaaaGAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNNCUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUuuagAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAUUCA UUU gaaa GAA UGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNNNN 131131 MS5-2MS5-2 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUuuagAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAUUUgaaaGAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNNCUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUuuagAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCA UUU gaaa GAA UGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNNNN 132132 MS5-3MS5-3 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAuuagUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAUUUgaaaGAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNNCUUCACUGAUAAAGUGGAGAACCGCUUCACCAAuuagUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCA UUU gaaa GAA UGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNNNN 133133 MS3-3/MS4-3MS3-3/MS4-3 ACCGCUUCACCAAAAGCUGUCCCuuagGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAgaaaGGAAUGCAACNNNNNNNNNNNNNNNNNNNNACCGCUUCACCAAAAGCUGUCCCuuagGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAgaaaGGAAUGCAACNNNNNNNNNNNNNNNNNNNN 134134 MS3-3/MS5-3MS3-3/MS5-3 ACCGCUUCACCAAuuagUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAUUUgaaaGAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNNACCGCUUCACCAAuuagUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCA UUU gaaa GAA UGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNN 135135 MS4-3/MS5-3MS4-3/MS5-3 CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAuuagUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAgaaaGGAAUGCAACNNNNNNNNNNNNNNNNNNNNCUUCACUGAUAAAGUGGAGAACCGCUUCACCAAuuagUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAgaaaGGAAUGCAACNNNNNNNNNNNNNNNNNNNNNN 136136 MS3-3/MS4-3/
MS5-3
MS3-3/MS4-3/
MS5-3
ACCGCUUCACCAAuuagUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAgaaaGGAAUGCAACNNNNNNNNNNNNNNNNNNNNACCGCUUCACCAAuuagUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAgaaaGGAAUGCAACNNNNNNNNNNNNNNNNNNNNNN 137137

상기 예시된 Cas12f1 변이체 augment RNA는 다음의 방법으로 제조하였다. 먼저, 상기 엔지니어링된 가이드 RNA는 이를 제조하기 위해 미리 설계한 가이드 RNA를 화학적으로 합성한 후, 상기 합성한 가이드 RNA 서열 및 T7 프로모터 서열을 포함하는 PCR 앰플리콘을 제조하였다. 엔지니어링된 Cas12f1 변이체 가이드 RNA의 3'-말단에 대한 U-rich tail 연결은 서열-변형된 primer 및 Cas12f1 변이체 가이드 RNA 플라스미드 벡터의 존재 하에서 Pfu PCR Master Mix5 (Biofact)를 사용하여 수행하였다. 상기 PCR 앰플리콘은 HiGeneTM Gel & PCR Purification System (Biofact)을 사용하여 정제하였다. The above-mentioned exemplified Cas12f1 mutant augment RNA was prepared by the following method. First, the engineered guide RNA was chemically synthesized from a pre-designed guide RNA to prepare the same, and then a PCR amplicon containing the synthesized guide RNA sequence and a T7 promoter sequence was prepared. U-rich tail ligation to the 3'-terminus of the engineered Cas12f1 mutant guide RNA was performed using Pfu PCR Master Mix5 (Biofact) in the presence of a sequence-modified primer and a Cas12f1 mutant guide RNA plasmid vector. The PCR amplicon was purified using the HiGene TM Gel & PCR Purification System (Biofact).

상기 엔지니어링된 Cas12f1 변이체 가이드 RNA의 엔지니어링된 스캐폴드 영역 중 제2 영역, 제4 영역 및 제5 영역의 변형은 ApoI 및 BamHI 제한 효소를 사용하여 선형화된 가이드 RNA 암호화 벡터에 변형된 서열을 전달하는 합성 올리고뉴클레오티드(Macrogen)를 클로닝하여 수행되었다. Modification of the second, fourth and fifth regions of the engineered scaffold regions of the engineered Cas12f1 mutant guide RNA was performed by cloning synthetic oligonucleotides (Macrogen) that delivered the modified sequences into the linearized guide RNA encoding vector using Apo I and Bam HI restriction enzymes.

또한, 상기 엔지니어링된 Cas12f1 변이체 가이드 RNA의 엔지니어링된 스캐폴드 영역 중 제1 영역의 변형은 tracrRNA의 5'-말단 부분을 표적으로 하는 정방향 프라이머(forward primer) 및 U6 프로모터 영역을 표적으로 하는 역방향 프라이머(reverse primer)를 사용하여 캐노니컬(canonical) 또는 엔지니어링된 주형 플라스미드 벡터의 PCR 증폭에 의해 수행되었다. 상기 PCR 증폭은 Q5 Hot Start high-fidelity DNA polymerase(NEB)에 의해 수행되었으며, PCR 산물은 KLD Enzyme Mix(NEB)를 사용하여 결찰시켰다. 상기 결찰된(ligated) PCR 산물을 DH5α E. coli 세포에 형질전환(transformed)시켰다. Sanger 시퀀싱 분석에 의해 변이(Mutagenesis)를 확인하였다. In addition, the modification of the first region among the engineered scaffold regions of the engineered Cas12f1 mutant guide RNA was performed by PCR amplification of the canonical or engineered template plasmid vector using a forward primer targeting the 5'-terminal portion of tracrRNA and a reverse primer targeting the U6 promoter region. The PCR amplification was performed by Q5 Hot Start high-fidelity DNA polymerase (NEB), and the PCR products were ligated using KLD Enzyme Mix (NEB). The ligated PCR products were transformed into DH5α E. coli cells. Mutagenesis was confirmed by Sanger sequencing analysis.

변형된 플라스미드 벡터는 NucleoBond® Xtra Midi EF kit (MN)를 사용하여 정제되었다. 정제된 플라스미드 1 마이크로그램이 T7 RNA polymerase(NEB) 및 NTPs(Jena Bioscience)를 사용한 mRNA 합성의 주형으로 사용되었다. 상기 제조된 Cas12f1 변이체에 대해 엔지니어링된 가이드 RNA를 Monarch® RNA cleanup kit (NEB)를 사용하여 정제하고, 극저온 바이알(cryogenic vials)에 분취하여 액체 질소에 보관하였다.The engineered plasmid vectors were purified using the NucleoBond® Xtra Midi EF kit (MN). One microgram of the purified plasmid was used as a template for mRNA synthesis using T7 RNA polymerase (NEB) and NTPs (Jena Bioscience). The engineered guide RNAs for the above-mentioned Cas12f1 variants were purified using the Monarch® RNA cleanup kit (NEB), aliquoted into cryogenic vials, and stored in liquid nitrogen.

다음으로, canonical 가이드 RNA 및 엔지니어링된 가이드 RNA의 앰플리콘을 제조하였다. 이를 위해, KAPA HiFi HotStart DNA polymerase(Roche) 또는 Pfu DNA polymerase(Biofact)를 이용하여, canonical 가이드 RNA의 주형 DNA 플라스미드 및 augment RNA 주형 DNA 플라스미드를 U6-상보적인 정방향 프라이머(complementary forward primer) 및 프로토스페이서 서열 상보적인 역방향 프라이머(protospacer sequence-complementary reverse primer)를 사용하여 PCR 증폭을 수행하였다. Next, amplicons of canonical guide RNA and engineered guide RNA were prepared. To this end, the canonical guide RNA template DNA plasmid and the augment RNA template DNA plasmid were subjected to PCR amplification using a U6-complementary forward primer and a protospacer sequence-complementary reverse primer using KAPA HiFi HotStart DNA polymerase (Roche) or Pfu DNA polymerase (Biofact).

상기 PCR 증폭 결과물을 HigeneTM Gel & PCR purification system (Biofact)를 사용하여 정제하여 canonical 가이드 RNA 및 augment RNA 앰플리콘을 수득하였다. The above PCR amplification results were purified using the Higene TM Gel & PCR purification system (Biofact) to obtain canonical guide RNA and augment RNA amplicons.

상기 PCR 앰플리콘을 주형으로, NEB T7 polymerase를 사용하여 시험관 내 전사(in vitro transcription)을 수행했다. 상기 in vitro transcription 수행 결과물에 DNase I(NEB)을 처리한 후, Monarch RNA Cleanup Kit(NEB)를 이용하여 정제한 후, 가이드 RNA를 수득했다. 이 후, 미리 설계한 가이드 RNA 서열 및 T7 프로모터 서열을 포함하는 플라스미드 벡터를 T-blunt 플라스미드(Biofact) 클로닝 방법에 따라 제조했다. Using the above PCR amplicon as a template, in vitro transcription was performed using NEB T7 polymerase. The in vitro transcription result was treated with DNase I (NEB), and then purified using Monarch RNA Cleanup Kit (NEB), to obtain guide RNA. Thereafter, a plasmid vector containing a pre-designed guide RNA sequence and a T7 promoter sequence was produced according to the T-blunt plasmid (Biofact) cloning method.

상기 벡터에서 T7 프로모터 서열을 포함하는 가이드 RNA 서열 양 끝을 절단(double cut)하여 정제한 후, 그 결과물에 T7 polymerase(NEB)를 사용하여 시험관 내 전사(in vitro transcription)을 수행했다. 상기 시험관 내 전사(in vitro transcription) 수행 결과물에 DNase I(NEB)를 처리한 후, Monarch RNA Cleanup Kit (NEB)를 이용하여 정제한 후, 가이드 RNA를 수득했다.After the guide RNA sequence including the T7 promoter sequence in the above vector was double cut and purified, in vitro transcription was performed on the resultant using T7 polymerase (NEB). After treating the resultant of the above in vitro transcription with DNase I (NEB), the guide RNA was obtained by purifying it using the Monarch RNA Cleanup Kit (NEB).

실시예 1.4. 리보뉴클레오단백질 입자(RNP) 제조Example 1.4. Preparation of ribonucleoprotein particles (RNPs)

초소형 유전자 편집 시스템은 엔지니어링된 가이드 RNA(augment RNA)와 하나의 Cas12f1 변이체 단백질 사이의 상호작용에 의해 형성된 리보뉴클레오단백질(ribonucleoprotein, RNP) 또는 엔지니어링된 가이드 RNA와 두 개의 Cas12f1 변이체 단백질 사이의 상호작용에 의해 형성된 RNP일 수 있다. The miniature genome editing system can be a ribonucleoprotein (RNP) formed by the interaction between an engineered guide RNA (augment RNA) and one Cas12f1 variant protein, or an RNP formed by the interaction between an engineered guide RNA and two Cas12f1 variant proteins.

이를 위해, 실시예 1.2에서 정제한 초소형 유전자 편집 단백질(소형 엔도뉴클레아제) 및 실시예 1.3에서 제조한 엔지니어링된 가이드 RNA를 각각 300 nM 및 900 nM 농도로 10분 동안 실온에서 함께 인큐베이션하여 리보뉴클레오단백질 입자(RNP)를 제조하였다.To this end, the ultra-small gene editing protein (small endonuclease) purified in Example 1.2 and the engineered guide RNA prepared in Example 1.3 were incubated together at concentrations of 300 nM and 900 nM for 10 minutes at room temperature to prepare ribonucleoprotein particles (RNPs).

실시예 2. 플라스미드 벡터 설계 및 제조Example 2. Design and production of plasmid vector

초소형 유전자 편집 단백질인 Cas12f1 변이체는 인간 세포에서 발현하기 위해 인간 코돈-최적화하였으며, 상기 코돈-최적화된 Cas12f1 변이체 유전자의 올리고뉴클레오티드를 제작하였다. A Cas12f1 variant, a tiny gene editing protein, was human codon-optimized for expression in human cells, and oligonucleotides of the codon-optimized Cas12f1 variant gene were constructed.

또한, 상기 제작된 Cas12f1 변이체 유전자의 염기서열을 포함하면서, 5'-말단 및 3'-말단 각각에 핵 위치 신호(nuclear localization signal, NLS) 서열과 링커 서열을 포함하는 올리고뉴클레오티드를 합성하여(Bionics), 본 발명의 표적 핵산 또는 표적 유전자 절단을 위한 인간 코돈-최적화된 Cas12f1 변이체 핵산 구조물의 폴리뉴클레오티드를 합성하였다. 상기 코돈-최적화된 Cas12f1 변이체 핵산 구조물의 폴리뉴클레오티드는 chicken β-actin(CBA) 프로모터 및 자가 절단 T2A 펩타이드(2A)가 연결된 eGFP를 인코딩하는 서열을 포함하는 플라스미드에 작동가능하게 연결되어 클로닝(cloning)되었다.In addition, an oligonucleotide including the base sequence of the above-mentioned Cas12f1 mutant gene and a nuclear localization signal (NLS) sequence and a linker sequence at each of the 5'-terminal and 3'-terminal was synthesized (Bionics), thereby synthesizing a polynucleotide of a human codon-optimized Cas12f1 mutant nucleic acid construct for cleavage of the target nucleic acid or target gene of the present invention. The polynucleotide of the codon-optimized Cas12f1 mutant nucleic acid construct was operably linked to a plasmid including a sequence encoding eGFP linked to a chicken β-actin (CBA) promoter and a self-cleavage T2A peptide (2A), and cloned.

또한, 본 실험에 사용된 canonical 가이드 RNA를 위한 주형 DNA를 합성하였고(Twist Bioscience), 이를 pTwist Amp 플라스미드 벡터에 클로닝하여 복제하였다. 엔지니어링된 가이드 RNA에 대한 주형 DNA는 엔자임클로닝 기법을 이용하여 제작되었으며, pTwist Amp 플라스미드에 클로닝되어 복제되었다. In addition, template DNA for the canonical guide RNA used in this experiment was synthesized (Twist Bioscience) and cloned into the pTwist Amp plasmid vector. Template DNA for the engineered guide RNA was produced using the enzyme cloning technique and cloned into the pTwist Amp plasmid.

상기 플라스미드를 주형으로 하여 U6-상보적인 정방향 프라이머(complementary forward primer) 및 프로토스페이서 서열 상보적인 역방향 프라이머(protospacer sequence-complementary reverse primer)를 사용하여, 상기 canonical 가이드 RNA 또는 엔지니어링된 가이드 RNA의 앰플리콘을 제조하였다. 필요에 따라, 제조한 앰플리콘을 T-blunt 플라스미드(Biofact)에 클로닝하여 복제하였다. Using the above plasmid as a template, a U6-complementary forward primer and a protospacer sequence-complementary reverse primer were used to prepare amplicons of the canonical guide RNA or engineered guide RNA. If necessary, the prepared amplicons were cloned into a T-blunt plasmid (Biofact) for replication.

또한, 엔지니어링된 듀얼 가이드 RNA(Engineered dual guide RNA)를 제조하기 위해 엔지니어링된 tracrRNA 및 엔지니어링된 crRNA를 암호화하는 올리고뉴클레오티드를 제한 효소 BamHI 및 HindIII(NEB)로 절단하여 pSilencer 2.0 벡터(ThermoFisher Scientific) 내로 클로닝하여 복제하였다.Additionally, oligonucleotides encoding engineered tracrRNA and engineered crRNA were cleaved with restriction enzymes BamHI and HindIII (NEB) and cloned into the pSilencer 2.0 vector (ThermoFisher Scientific) to produce engineered dual guide RNA.

Cas12f1 변이체에 대해 고효율을 나타내는 Cas12f1 변이체 augment RNA인 "Cas12f1_ge3.0", "Cas12f1_ge4.0" 및 "Cas12f1_ge4.1"을 각각 암호화하는 주형 DNA를 합성하였고, 이는 pTwist Amp 플라스미드 벡터(Twist Bioscience)에 클로닝되었다. 필요에 따라, 상기 벡터는 U6-상보적 정방향 프라이머 및 프로토스페이서-상보적 역방향 프라이머를 사용하여, 상기 가이드 RNA 암호화 서열의 증폭을 위한 주형으로 사용되었다. Template DNAs encoding "Cas12f1_ge3.0", "Cas12f1_ge4.0", and "Cas12f1_ge4.1", which are Cas12f1 variant augment RNAs showing high efficiency for Cas12f1 variants, were synthesized and cloned into the pTwist Amp plasmid vector (Twist Bioscience). If necessary, the vector was used as a template for amplification of the guide RNA encoding sequence using a U6-complementary forward primer and a protospacer-complementary reverse primer.

초소형 유전자 편집 시스템의 구성요소를 발현하는 벡터는 Gibson assembly를 사용하여 상기 인간 코돈-최적화된 Cas12f1 변이체 유전자 또는 이를 포함하는 핵산 구조물을 포함하는 벡터에 엔지니어링된 Cas12f1 변이체 augment RNA를 암호화하는 폴리뉴클레오티드를 클로닝함으로써 제조되었다. Vectors expressing components of the miniature genome editing system were prepared by cloning a polynucleotide encoding an engineered Cas12f1 variant augment RNA into a vector comprising the human codon-optimized Cas12f1 variant gene or a nucleic acid construct comprising the same using Gibson assembly.

구체적으로, 상기 초소형 유전자 편집 시스템을 발현하는 벡터로서, 1) chicken β-actin(CBA) 프로모터 및 자가 절단 T2A 펩타이드(2A)로 연결된 eGFP를 인코딩하는 서열, 2) Cas12f1 변이체 단백질 또는 이의 동족체 단백질을 암호화하는 인간 코돈-최적화된 핵산 구조물의 폴리뉴클레오티드 및 3) 본 발명에 따른 Cas12f1 변이체 augment RNA가 작동가능하게 연결된, 아데노-연관 바이러스 역 말단 반복(AAV inverted terminal repeat) 플라스미드 벡터(AAV vector)를 제조하였다. Specifically, as a vector expressing the above-described ultra-small gene editing system, an adeno-associated virus inverted terminal repeat (AAV) plasmid vector (AAV vector) was prepared, in which 1) a sequence encoding eGFP linked to a chicken β-actin (CBA) promoter and a self-cleavage T2A peptide (2A), 2) a polynucleotide of a human codon-optimized nucleic acid construct encoding a Cas12f1 variant protein or a homolog protein thereof, and 3) a Cas12f1 variant augment RNA according to the present invention are operably linked.

여기서, 상기 Cas12f1 변이체 단백질 또는 이의 동족체 단백질을 암호화하는 핵산 구조물 및 가이드 RNA의 전사는 각각 chicken β 및 U6 프로모터에 의해 촉진되었다. 또한, 상기 AAV 플라스미드 벡터(AAV vector)는 유전자 편집 또는 변형의 목적에 따라 eGFP, Cas12f1 변이체 augment RNA의 수 및/또는 효과기 단백질의 추가 등이 적절히 변경될 수 있다. Here, the transcription of the nucleic acid construct encoding the Cas12f1 variant protein or its homolog protein and the guide RNA were promoted by the chicken β and U6 promoters, respectively. In addition, the AAV plasmid vector (AAV vector) can be appropriately changed depending on the purpose of gene editing or modification, such as the number of eGFP, Cas12f1 variant augment RNA, and/or the addition of an effector protein.

상기 AAV 벡터를 대량 생산하기 위해, 상기 AAV 벡터 및 helper 플라스미드를 HEK 293T 세포에 형질도입하였다. 상기 형질도입된 HEK293 T세포는 2% FBS를 포함하는 DMEM 배지에서 배양하였다. PEIpro(Polyplus-transfection) 및 동일 몰 비율에서 플라스미드에 대한 삼중-형질주입(triple-transfection)를 사용한 PEI 공침(coprecipitation)을 사용하여 재조합 pseudotyped AAV vector 스톡을 생성하였다. 72시간의 배양 후, 상기 세포들을 용해시키고, iodixanol(Sigma-Aldrich) 단계 구배 초원심분리(step gradient ultra-centrifugation)에 의해 용해물로부터 상기 AAV 벡터를 정제하였다. To mass-produce the above AAV vector, the AAV vector and helper plasmid were transduced into HEK 293T cells. The transduced HEK293 T cells were cultured in DMEM medium containing 2% FBS. Recombinant pseudotyped AAV vector stocks were generated using PEI coprecipitation with PEIpro (Polyplus-transfection) and triple-transfection with plasmids at the same molar ratio. After 72 h of incubation, the cells were lysed, and the AAV vectors were purified from the lysate by iodixanol (Sigma-Aldrich) step gradient ultra-centrifugation.

실시예 3. 세포 형질주입(Transfection)Example 3. Cell Transfection

HEK 293T(ATCC CRL-11268), HeLa(ATCC CLL-2), U-2 OS(ATCC HTB-96) 및 K-562(ATCC CCL-243) 세포를 10% 열-비활성화 FBS, 1% 페니실린/스트렙토마이신 및 0.1 mM 비필수 아미노산들이 보충된 DMEM 배지에서, 37℃, 5% CO2 조건 하에서 배양하였다. HEK 293T (ATCC CRL-11268), HeLa (ATCC CLL-2), U-2 OS (ATCC HTB-96), and K-562 (ATCC CCL-243) cells were cultured in DMEM medium supplemented with 10% heat-inactivated FBS, 1% penicillin/streptomycin, and 0.1 mM nonessential amino acids at 37°C under 5% CO 2 conditions.

실시예 2에서 제작된 표적 핵산 또는 표적 유전자 절단을 위한 핵산 구조물, 이를 포함하는 벡터 또는 엔지니어링된 가이드 RNA를 암호화하는 DNA의 세포 형질 주입(transfection)을 위해, 1.0 × 105 HEK 293T 세포를 형질주입 1일 전에 분주하였다. 세포 형질주입은 전기천공법(electroporation) 또는 리포펙션(lipofection)으로 수행되었다. 전기천공법의 경우, 상기 핵산 구조물, 이를 포함하는 플라스미드 벡터 또는 엔지니어링된 가이드 RNA를 암호화하는 DNA 각 2-5 ㎍을 Neon transfection system(Invitrogen)을 사용하여 4 × 105 HEK-293 T세포에 형질주입(transfection) 하였다. 전기천공법의 경우 1300V, 10 mA, 3 pulse 조건으로 수행하였다. 리포펙션(lipofection)의 경우에는, 6-15 ㎕ FuGene 시약(Promega)을 2-5 ㎍의 Cas12f1 변이체 단백질을 암호화하는 플라스미드 벡터 및 1.5-5 ㎍의 PCR 앰플리콘과 15 분 동안 혼합하였다. 상기 혼합물(300 ㎕)은 형질주입 1일 전에 1 × 106 개의 세포가 플레이팅 된 1.5 ml DMEM 배지에 첨가되었다. 상기 세포들을 상기 혼합물의 존재 하에서 1 내지 10일 간 배양한 후, 수집하였다. 상기 세포의 게놈 DNA는 PureHelixTM genomic DNA preparation kit(NanoHelix)를 사용하거나, Maxwell RSC Cultured cells DNA Kit(Promega)를 사용하여 수작업으로 분리하였다.For cell transfection of the target nucleic acid or the nucleic acid construct for target gene cleavage produced in Example 2, the vector containing it, or DNA encoding engineered guide RNA, 1.0 × 10 5 HEK 293T cells were seeded 1 day before transfection. Cell transfection was performed by electroporation or lipofection. In the case of electroporation, 2-5 ㎍ each of the nucleic acid construct, the plasmid vector containing it, or DNA encoding engineered guide RNA was transfected into 4 × 10 5 HEK-293 T cells using the Neon transfection system (Invitrogen). Electroporation was performed under the conditions of 1300 V, 10 mA, and 3 pulses. For lipofection, 6-15 μl FuGene reagent (Promega) was mixed with 2-5 μg of plasmid vector encoding Cas12f1 mutant protein and 1.5-5 μg of PCR amplicon. The mixture (300 μl) was added to 1.5 ml DMEM medium on which 1 × 10 6 cells were plated 1 day before transfection. The cells were cultured in the presence of the mixture for 1 to 10 days and then collected. Genomic DNA of the cells was isolated manually using the PureHelix TM genomic DNA preparation kit (NanoHelix) or using the Maxwell RSC Cultured cells DNA Kit (Promega).

실시예 2에서 제작한 유전자 편집 단백질을 암호화하는 핵산 서열을 포함하는 AAV 벡터의 세포 형질 감염을 위해, 정량적 PCR에 의해 결정한 1, 5, 10, 50 및 100의 상이한 감염 다중도(MOI, multiplicity of Infection)에서 인간 HEK293T 세포를 상기 AAV 벡터로 감염시켰다. 상기 형질감염된 HEK293T 세포는 2% FBS를 포함하는 DMEM 배지에서 배양되었다. 서로 다른 시점에서, 예를 들어, 1일, 3일, 5일, 7일에 게놈 DNA의 분리를 위해 세포를 수집하였다. For cell transfection of the AAV vector containing the nucleic acid sequence encoding the gene editing protein constructed in Example 2, human HEK293T cells were infected with the AAV vector at different multiplicities of infection (MOI) of 1, 5, 10, 50 and 100 as determined by quantitative PCR. The transfected HEK293T cells were cultured in DMEM medium containing 2% FBS. Cells were harvested for isolation of genomic DNA at different time points, for example, on day 1, day 3, day 5 and day 7.

또한, 실시예 1.4에 따라 제조된 리보뉴클레오단백질 입자(RNP)를 전기천공법을 이용하여 세포에 형질주입하거나, 리포펙션(lipofection) 방법을 통하여 형질주입 후, 1일 후 실시예 1.3에 따라 제조된 엔지니어링된 가이드 RNA를 전기천공법을 사용하여 세포에 형질주입하였다. In addition, ribonucleoprotein particles (RNPs) manufactured according to Example 1.4 were transfected into cells using electroporation, or 1 day after transfection using the lipofection method, engineered guide RNAs manufactured according to Example 1.3 were transfected into cells using electroporation.

실시예 4. 결과 분석Example 4. Results Analysis

실시예 4.1. 핵산 절단 효율 분석Example 4.1. Analysis of nucleic acid cleavage efficiency

초소형 유전자 편집 시스템의 표적 핵산 또는 표적 유전자 절단 효율을 분석하기 위해, HEK 293T 세포로부터 분리된 게놈 DNA 중, 프로토스페이서를 포함하는 영역을 표적-특이적 프라이머를 사용하여 KAPA HiFi HotStart DNA polymerase(Roche)의 존재 하에서 PCR을 수행하였다. 증폭 방법은 제조사의 지침을 따랐다. Illumina TruSeq HT dual indexes를 포함하는 상기 증폭의 결과물인 PCR 앰플리콘을 Illumina iSeq 100를 사용하여 150-bp 페어 엔드 시퀀싱을 수행하였다. To analyze the target nucleic acid or target gene cleavage efficiency of the miniature genome editing system, the region including the protospacer among the genomic DNA isolated from HEK 293T cells was subjected to PCR using target-specific primers in the presence of KAPA HiFi HotStart DNA polymerase (Roche). The amplification method followed the manufacturer's instructions. The PCR amplicon resulting from the amplification, which contained Illumina TruSeq HT dual indexes, was subjected to 150-bp pair-end sequencing using Illumina iSeq 100.

인델(Indel) 빈도는 MAUND를 사용하여 계산되었다. 상기 MAUND는 https://github.com/ibscge/maund 에서 제공된다. Indel frequency was calculated using MAUND, which is available at https://github.com/ibscge/maund.

BioFACTTM Lamp Pfu DNA polymerase를 사용하여 PCR 산물을 얻었다. 상기 PCR 산물(100-300 ㎍)을 25 ㎍반응 혼합물에서 10 유닛(units)의 T7E1 효소(NEB)와 함께 37℃에서 30분 동안 반응시켰다. 20 ㎕ 반응 혼합물을 10% 아크릴아마이드(acrylamide) 겔에 직접 로딩시키고, 절단된 PCR 산물을 TBE 버퍼 시스템에서 작동시켰다. 겔 이미지를 브롬화에티듐(ethidium bromide) 용액으로 염색시킨 후, Printgraph 2 M gel imaging system(Atto)을 이용하여 디지털화하였다. 상기 디지털화한 결과물을 분석하여 유전자 편집 효율을 평가하였다.PCR products were obtained using BioFACT TM Lamp Pfu DNA polymerase. The PCR products (100-300 μg) were reacted with 10 units of T7E1 enzyme (NEB) in a 25 μg reaction mixture at 37°C for 30 min. 20 μl of the reaction mixture was directly loaded onto a 10% acrylamide gel, and the cleaved PCR products were run in a TBE buffer system. The gel image was stained with ethidium bromide solution and digitized using a Printgraph 2 M gel imaging system (Atto). The digitized results were analyzed to evaluate the gene editing efficiency.

실시예 4.2. 세포 내 핵산 절단 활성 분석Example 4.2. Analysis of intracellular nucleic acid cleavage activity

세포 내 표적 핵산 또는 표적 유전자의 표적 부위에 대한 초소형 유전자 편집 시스템의 절단 활성 분석은 하기와 같이 수행되었다. Analysis of the cleavage activity of the ultra-small gene editing system for the target nucleic acid or target site of the target gene in cells was performed as follows.

실시예 2에서 제작한 아데노-연관 바이러스(AAV) 벡터를 HEK 293T 세포에 형질도입시켰다. 3일, 5일 및 7일 후, 상기 형질감염된 HEK 293T 세포에서 게놈 DNA(genome DNA)를 수득하고, 이를 Genomic DNA prep kit (QIAGEN 사, 카탈로그 #: 69504)를 사용하여 정제하였다. 상기 정제물에서 표적 핵산 또는 표적 유전자의 표적 부위를 PCR로 증폭시킨 후, 최종 PCR 생성물을 타겟 딥 시퀀싱(targeted deep sequencing)을 사용하여 분석하였다. 라이브러리 생성을 위해 KAPA HiFi HotStart PCR 키트(KAPA Biosystem 사 #: KK2501)를 사용하여 타겟 부위를 증폭시켰다. 이 라이브러리는 TruSeq HT Dual Index 시스템(Illumina 사)의 MiniSeq을 사용하여 시퀀싱하였다.The adeno-associated virus (AAV) vector produced in Example 2 was transfected into HEK 293T cells. After 3, 5, and 7 days, genomic DNA was obtained from the transfected HEK 293T cells and purified using a Genomic DNA prep kit (QIAGEN, catalog #: 69504). The target nucleic acid or the target region of the target gene was amplified from the purified product by PCR, and the final PCR product was analyzed using targeted deep sequencing. The target region was amplified using the KAPA HiFi HotStart PCR kit (KAPA Biosystem, #: KK2501) for library generation. The library was sequenced using MiniSeq of the TruSeq HT Dual Index system (Illumina).

실시예 4.3. 통계 분석Example 4.3. Statistical Analysis

통계적 유의성 검증은 Sigma Plot software(ver. 14.0)를 이용하여 two-tailed Student's t-test에 의해 수행되었다. 0.05 미만의 p-value가 나타나는 경우 통계적으로 유의한 것으로 간주하였고, p-value는 각 도면에 도시되어 있다. 모든 데이터의 에러바들은 Sigmaplot을 사용하여 도시되었으며, 각 데이터의 표준편차 값을 의미한다. 통계적 방법을 기반으로 샘플 크기를 미리 결정하지는 않았다. 각 실험예 별 실험은 3회 반복 수행하였으며, 각 값의 평균값을 분석에 사용하였다.Statistical significance was verified by two-tailed Student's t-test using Sigma Plot software (ver. 14.0). A p-value less than 0.05 was considered statistically significant, and the p-value is shown in each figure. The error bars of all data were plotted using Sigmaplot and represent the standard deviation of each data. The sample size was not determined in advance based on statistical methods. Each experiment was repeated three times, and the average of each value was used for analysis.

실시예 5. 초소형 유전자 편집 시스템에 의한 핵산 절단 확인Example 5. Confirmation of nucleic acid cleavage by an ultra-small gene editing system

실시예 5.1. 표적 서열에 대한 Cas12f1 변이체의 인델(Indel) 활성 확인Example 5.1. Confirmation of Indel Activity of Cas12f1 Variants for Target Sequence

초소형 유전자 편집 시스템(Hypercompact TaRGET system)이 세포 내에서 표적 핵산 또는 유전자의 표적 서열을 절단하는 활성을 가지는지 여부 및 엔지니어링된 가이드 RNA의 종류에 따른 상기 초소형 유전자 편집 시스템의 표적 서열 절단 활성을 조사하였다. 표적 핵산 또는 표적 유전자 내에서 핵산 절단에 의한 인델(deletion and insertion; indel)이 발생할 수 있다. 상기 인델(Indel)은 이중가닥의 절단에 의해 형성된 2 개의 적합성 말단이 빈번한 접촉을 반복하여 DNA 내 이중가닥 파손을 수복 또는 수선하는 비-상동성 말단-결합(Non-homologous end joining, NHEJ)에 의해 발생하는데, NHEJ 수선 부위에 핵산 서열의 일부 삽입 및/또는 결실(삽입결실)을 초래한다. 결과적으로, 유전자 편집 시스템의 표적 핵산 절단에 의해서 표적 유전자 또는 표적 핵산 내에서 하나 이상의 염기가 결실 및/또는 추가되는 핵산 편집이 일어날 수 있다. Whether a hypercompact TaRGET system has an activity of cleaving a target nucleic acid or a target sequence of a gene in a cell and the target sequence cleavage activity of the hypercompact TaRGET system according to the type of engineered guide RNA were investigated. Indels (deletion and insertion; indel) may occur due to nucleic acid cleavage in a target nucleic acid or a target gene. The indels are generated by non-homologous end joining (NHEJ), in which two compatible ends formed by cleavage of a double-stranded DNA frequently contact each other to repair or repair a double-stranded break in DNA, resulting in partial insertion and/or deletion (insertion) of a nucleic acid sequence at a NHEJ repair site. As a result, nucleic acid editing in which one or more bases are deleted and/or added in a target gene or a target nucleic acid may occur due to the target nucleic acid cleavage of the gene editing system.

본 실시예에서 제작된 초소형 유전자 편집 시스템이 효과적인 핵산 절단 활성을 나타내는지 확인하기 위해서, Cas12f1 변이체 단백질 또는 이의 동족체 단백질이 절단하는 부위로 인식하는 "PAM 서열"을 포함하는 3개의 인간 내인성 DNA 표적 부위를 동정하였다. 실험에 사용한 표적(Target-1 내지 Target-3) 서열은 하기 표 6에 나타내었다.In order to verify whether the ultra-small gene editing system fabricated in this example exhibits effective nucleic acid cleavage activity, three human endogenous DNA target sites containing a "PAM sequence" recognized as a cleavage site by the Cas12f1 mutant protein or its homolog protein were identified. The target sequences (Target-1 to Target-3) used in the experiment are shown in Table 6 below.

Target nameTarget name Target sequence (5' to 3')Target sequence (5' to 3') SEQ ID NO:SEQ ID NO: Target-1Target-1 [TTTG]CACACACACAGTGGGCTACC[TTTG]CACACACACAGTGGGCTACC 138138 Target-2Target-2 [TTTG]CATCCCCAGGACACACACAC[TTTG]CATCCCCAGGACACACACAC 139139 Target-3Target-3 [TTTA]AGAACACATACCCCTGGGCC[TTTA]AGAACACATACCCCTGGGCC 140140

먼저, canonical sgRNA에서 변형부위 MS1 내지 MS5 중 하나 이상의 변형을 가지는 대표적 엔지니어링된 가이드 RNA(augment RNA)인 MS1/MS2/MS3 augment RNA(Cas12f1_ge3.0), MS2/MS3/MS4 augment RNA(Cas12f1_ge4.0) 및 MS2/MS3/MS4/MS5 augment RNA(Cas12f1_ge4.1)에 의한 표적 서열의 인델(Indel) 효율을 조사하였다. First, we investigated the indel efficiency of the target sequence by representative engineered guide RNAs (augment RNAs) having one or more modifications among the modification sites MS1 to MS5 in the canonical sgRNA, namely MS1/MS2/MS3 augment RNA (Cas12f1_ge3.0), MS2/MS3/MS4 augment RNA (Cas12f1_ge4.0), and MS2/MS3/MS4/MS5 augment RNA (Cas12f1_ge4.1).

그 결과, 도 3a 내지 도 3c에 나타난 바와 같이, 상기 표적 서열 Target-1 내지 Target-3 모두에 대해서 엔지니어링된 sgRNA 즉, MS1/MS2/MS3 augment RNA(Cas12f1_ge3.0), MS2/MS23/MS4 augment RNA(Cas12f1_ge4.0) 및 MS2/MS3/MS4/MS5 augment RNA(Cas12f1_ge4.1) 각각은 Cas12f1 변이체 단백질 또는 Cas12f1 변이체 v1 내지 v3 단백질이 표적 핵산을 90% 이상의 효율로 절단하도록 하여 모두 유사한 인델 효율을 나타냈다. As a result, as shown in FIGS. 3a to 3c, for all of the target sequences Target-1 to Target-3, each of the engineered sgRNAs, i.e., MS1/MS2/MS3 augment RNA (Cas12f1_ge3.0), MS2/MS23/MS4 augment RNA (Cas12f1_ge4.0), and MS2/MS3/MS4/MS5 augment RNA (Cas12f1_ge4.1), enabled the Cas12f1 mutant protein or the Cas12f1 mutant v1 to v3 proteins to cleave the target nucleic acid with an efficiency of 90% or higher, showing similar indel efficiencies.

이와는 대조적으로, 엔지니어링되지 않은 canonical sgRNA는 Cas12f1 변이체 단백질 및 Cas12f1 변이체 v1 내지 v3 단백질이 표적 핵산(Target-1 내지 Target-3)을 절단하는 인델 효과를 전혀 야기하기 못했다(도 3a 내지 도 3c). 더욱이, Cas12f1 변이체 단백질(wtTnpB)의 N-말단에 서열번호 233의 아미노산 서열 또는 Cas12f1 변이체 단백질의 C-말단에 서열번호 234의 아미노산 서열이 NLS 서열(서열번호 54; PKKKRKV)로 연결되어 아미노산이 추가된 Cas12f1 변이체(Cas12f1 variant-extension)의 경우에도 엔지니어링된 가이드 RNA[MS2/MS3/MS4/MS5 augment RNA(Cas12f1_ge4.1)]와 함께 Target-1 및 Target-2를 절단하는 인델 효율을 나타냈다(도 3d). In contrast, the non-engineered canonical sgRNA did not induce any indel effect for the Cas12f1 mutant proteins and Cas12f1 mutants v1 to v3 proteins to cleave the target nucleic acids (Target-1 to Target-3) (Figs. 3a to 3c). Moreover, in the case of the Cas12f1 mutants (Cas12f1 variant-extension) in which the amino acid sequence of SEQ ID NO: 233 at the N-terminus of the Cas12f1 mutant protein (wtTnpB) or the amino acid sequence of SEQ ID NO: 234 at the C-terminus of the Cas12f1 mutant protein was linked to the NLS sequence (SEQ ID NO: 54; PKKKRKV), the Cas12f1 mutants also showed indel efficiency for cleaving Target-1 and Target-2 together with the engineered guide RNA [MS2/MS3/MS4/MS5 augment RNA (Cas12f1_ge4.1)] (Fig. 3d).

이와 같은 결과는, 엔지니어링된 가이드 RNA(augment RNA)가 canonical sgRNA와 비교하여 Cas12f1 변이체 단백질이 표적 핵산의 절단을 가능하게 하는 고효율의 가이드 RNA이며, 이를 포함하는 본 발명의 초소형 유전자 편집 시스템(Hypercompact TaRGET system)은 우수한 핵산 편집 활성을 나타내는 새로운 유전자 편집 시스템임을 의미한다. These results imply that the engineered guide RNA (augment RNA) is a highly efficient guide RNA that enables the Cas12f1 mutant protein to cleave the target nucleic acid compared to the canonical sgRNA, and that the ultra-compact TaRGET system of the present invention including the same is a novel gene editing system that exhibits excellent nucleic acid editing activity.

실시예 5.2. 기존 유전자 편집 단백질과의 세포 내 인델(Indel) 효율 비교 Example 5.2. Comparison of Indel Efficiency in Cells with Existing Gene Editing Proteins

다음으로, 초소형 유전자 편집 단백질인 Cas12f1 변이체 단백질; 및 가장 짧은 길이를 가지도록 엔지니어링된 MS2/MS3/MS4/MS5 augment RNA(Cas12f1_ge4.1)를 포함하는 초소형 유전자 편집 시스템의 인델 효율을 기존에 우수한 인델 활성을 가지는 것으로 알려진 대표적 유전자 편집 시스템과 비교하였다. Next, the indel efficiency of the ultra-small gene editing system including Cas12f1 mutant proteins, which are ultra-small gene editing proteins; and MS2/MS3/MS4/MS5 augment RNAs (Cas12f1_ge4.1) engineered to have the shortest length, was compared with that of representative gene editing systems known to have excellent indel activity.

이를 위해, CRISPR/SpCas9 시스템, CRISPR/AsCas12a 시스템, CRISPR/Cas12f1 시스템 및 본 발명의 초소형 유전자 편집 시스템(Hypercompact TaRGET system)의 대표적인 Cas12f1 변이체 시스템, Cas12f1 변이체 v1 시스템 및 Cas12f1 변이체 v2 시스템을 각각 HEK 293T 세포에 형질감염시킨 후, 딥 시퀀싱(deep sequencing) 분석을 통해 5'-[TTTA]AGAACACATACCCCTGGGCC-3' (Target-3, 서열번호 140)인 내인성 유전자좌에서의 인델 효율을 확인하였다. To this end, the CRISPR/SpCas9 system, the CRISPR/AsCas12a system, the CRISPR/Cas12f1 system, and the representative Cas12f1 mutant system, Cas12f1 mutant v1 system, and Cas12f1 mutant v2 system of the ultra-small gene editing system (Hypercompact TaRGET system) of the present invention were transfected into HEK 293T cells, respectively, and then the indel efficiency at the endogenous locus of 5'-[TTTA]AGAACACATACCCCTGGGCC-3' (Target-3, SEQ ID NO: 140) was confirmed through deep sequencing analysis.

그 결과, CRISPR/SpCas9 시스템은 약 10%의 인델 효율을 나타낸 반면, Cas12f1 변이체 시스템, Cas12f1 변이체 v1 시스템 및 Cas12f1 변이체 v2 시스템은 각각 45%, 55% 및 38%의 인델 효율을 나타냈다(도 4). 이는 본 발명에 따른 초소형 유전자 편집 단백질 Cas12f1 변이체를 포함하는 초소형 유전자 편집 시스템(Hypercompact TaRGET system)이 앞서 설명한 작은 사이즈에서 기인한 다양한 유전자 편집을 위한 활용 범위 확장의 장점에 더불어, 표적 핵산의 절단에 있어서 기존에 가장 많은 연구가 진행되고 현재 CRISPR/Cas 시스템으로 사용되고 있는 것보다 표적 핵산 또는 표적 유전자 절단 효율이 현저히 증가된 것을 확인한 것이다. As a result, the CRISPR/SpCas9 system showed an indel efficiency of about 10%, while the Cas12f1 mutant system, the Cas12f1 mutant v1 system, and the Cas12f1 mutant v2 system showed indel efficiencies of 45%, 55%, and 38%, respectively (Fig. 4). This means that the ultra-compact genome editing system (Hypercompact TaRGET system) including the ultra-compact genome editing protein Cas12f1 mutant according to the present invention has the advantage of expanding the range of applications for various genome editing due to its small size as described above, and has been confirmed to have significantly increased target nucleic acid or target gene cleavage efficiency compared to the most widely studied and currently used CRISPR/Cas system in terms of cleavage of target nucleic acids.

실시예 5.3. augment RNA 및 Cas12f1 변이체의 조합에 따른 인델(Indel) 활성 분석Example 5.3. Analysis of Indel activity according to combination of augment RNA and Cas12f1 variants

실시예 5.3.1. augment RNA에 따른 인델(Indel) 활성 비교Example 5.3.1. Comparison of Indel Activity According to Augment RNA

본 실시예에서, 엔지니어링된 가이드 RNA(augment RNA)가 canonical sgRNA와 비교하여, Cas12f1 변이체 단백질(변이체 v1 내지 v3 포함)에 대한 우수한 표적 핵산 절단 활성을 야기하는 것을 확인하고자 하였다. 이를 위해, canonical sgRNA에서 변형부위 MS1 내지 MS5에 대해 각각을 3 구획으로 더 세분화하였다. 이들 중 하나 이상의 변형을 가지도록 조합하여 실시예 1.3에서 예시한 바와 같이, 다양하게 엔지니어링된 augment RNA를 제작하였다. 상기 제작된 엔지니어링된 augment RNA의 인델(Indel) 활성을 테스트하였다. In this example, we aimed to confirm that the engineered guide RNA (augment RNA) induces superior target nucleic acid cleavage activity for Cas12f1 mutant proteins (including mutants v1 to v3) compared to the canonical sgRNA. To this end, each of the modification sites MS1 to MS5 in the canonical sgRNA was further subdivided into three sections. By combining them to have one or more modifications, various engineered augment RNAs were produced as exemplified in Example 1.3. The indel activity of the engineered augment RNAs produced above was tested.

그 결과, 도 5a, 도 5b 및 도 6에 나타난 바와 같이, canonical sgRNA(full length) 및 Cas12f1 변이체 단백질을 포함하는 초소형 유전자 편집 시스템(Hypercompact TaRGET system)은 표적 가닥의 절단이 일어나지 않았지만, 테스트에 사용한 엔지니어링된 augment RNA는 그 염기서열 및 표적 서열(Target sequence)에 따라 Cas12f1 변이체 단백질의 표적 핵산에 대한 인델(Indel) 효율에 영향을 미쳤다. As a result, as shown in FIGS. 5A, 5B, and 6, the hypercompact TaRGET system including the canonical sgRNA (full length) and the Cas12f1 mutant protein did not cause cleavage of the target strand, but the engineered augment RNA used in the test affected the indel efficiency of the Cas12f1 mutant protein for the target nucleic acid depending on its base sequence and target sequence.

구체적으로, 표적 서열 5'-[TTTG]CACACACACAGTGGGCTACC-3'(Target-1, 서열번호 138)에 대해 Cas12f1 변이체 단백질을 포함하는 유전자 편집 시스템(Hypercompact TaRGET system)에서는, MS1/MS2/MS3 augment RNA, MS1/MS2/MS4*-2 augment RNA, MS1/MS3-3/MS4*-2 augment RNA 및 MS1/MS2/MS3-3/MS4*-2 augment RNA가 약 50% ~ 65%의 높은 인델(Indel) 효율을 나타냈고, MS1/MS3-3 augment RNA, MS1/MS2/MS5-3 augment RNA, MS1/MS2/MS3-3/MS5-3 augment RNA, MS1/MS2/MS4*-2/MS5-3 augment RNA 및 MS1/MS2/MS3-3/MS4*-2/MS5-3 augment RNA은 약 30% ~ 40%의 인델(Indel) 효율을 보였다(도 5a). Specifically, in the gene editing system (Hypercompact TaRGET system) containing the Cas12f1 mutant protein for the target sequence 5'-[TTTG]CACACACACAGTGGGCTACC-3' (Target-1, SEQ ID NO: 138), MS1/MS2/MS3 augment RNA, MS1/MS2/MS4 * -2 augment RNA, MS1/MS3-3/MS4 * -2 augment RNA, and MS1/MS2/MS3-3/MS4 * -2 augment RNA showed high indel efficiencies of about 50% to 65%, and MS1/MS3-3 augment RNA, MS1/MS2/MS5-3 augment RNA, MS1/MS2/MS3-3/MS5-3 augment RNA, MS1/MS2/MS4 * -2/MS5-3 augment RNA, and MS1/MS2/MS3-3/MS4 * -2/MS5-3 augment RNA showed indel efficiencies of about 30% to 65%. It showed an indel efficiency of 40% (Fig. 5a).

표적 서열 5'-[TTTG]CATCCCCAGGACACACACAC-3'(Target-2, 서열번호 139)에 대해 Cas12f1 변이체 단백질을 포함하는 유전자 편집 시스템(Hypercompact TaRGET system)에서는, MS1/MS2/MS3 augment RNA, MS1/MS2/MS3-3/MS4*-2 augment RNA, MS1/MS2/MS3-3/MS5-3 augment RNA 및 MS1/MS2/MS3-3/MS4*-2/MS5-3 augment RNA가 약 35% ~ 45%의 인델(Indel) 효율을 나타냈고, MS1/MS2/MS4*-2 augment RNA, MS1/MS3-3/MS4*-2 augment RNA, MS1/MS2/MS5-3 augment RNA, MS1/MS3-3/MS5-3 augment RNA, MS1/MS4*-2/MS5-3 augment RNA, MS1/MS2/MS4*-2/MS5-3 augment RNA 및 MS1/MS3-3/MS4*-2/MS5-3 augment RNA는 약 15% ~ 20%의 인델(Indel) 효율을 나타냈다(도 5b). In a gene editing system (Hypercompact TaRGET system) containing Cas12f1 mutant protein for the target sequence 5'-[TTTG]CATCCCCAGGACACACACAC-3' (Target-2, SEQ ID NO: 139), MS1/MS2/MS3 augment RNA, MS1/MS2/MS3-3/MS4 * -2 augment RNA, MS1/MS2/MS3-3/MS5-3 augment RNA, and MS1/MS2/MS3-3/MS4 * -2/MS5-3 augment RNA showed an indel efficiency of about 35% to 45%, and MS1/MS2/MS4 * -2 augment RNA, MS1/MS3-3/MS4 * -2 augment RNA, MS1/MS2/MS5-3 augment RNA, MS1/MS3-3/MS5-3 augment RNA, MS1/MS4 * -2/MS5-3 augment RNA, MS1/MS2/MS4 * -2/MS5-3 augment RNA and MS1/MS3-3/MS4 * -2/MS5-3 augment RNA showed indel efficiencies of approximately 15% to 20% (Fig. 5b).

실시예 5.3.2. 고효율의 augment RNA에 따른 Cas12f1 변이체의 인델(Indel) 활성 비교Example 5.3.2. Comparison of Indel Activity of Cas12f1 Variants According to High-Efficiency Augment RNA

고효율의 인델 효과를 나타낸 상기 MS1/MS2/MS3 augment RNA, MS1/MS2/MS4*-2 augment RNA, MS1/MS3-3/MS4*-2 augment RNA 또는 MS1/MS2/MS3-3/MS4*-2 augment RNA와 Cas12f1 변이체 단백질을 포함하는 초소형 유전자 편집 시스템의 표적 핵산에 대한 인델(Indel) 효율을 확인하였다. The indel efficiency for the target nucleic acid of the ultra-small gene editing system comprising the MS1/MS2/MS3 augment RNA, MS1/MS2/MS4 * -2 augment RNA, MS1/MS3-3/MS4 * -2 augment RNA or MS1/MS2/MS3-3/MS4 * -2 augment RNA showing high-efficiency indel effect and the Cas12f1 mutant protein was confirmed.

그 결과, Cas12f1 변이체 v2 및 Cas12f1 변이체 v3의 경우에는 Cas12f1 변이체 단백질의 경우와 유사하게 약 45% 내지 약 65%의 매우 우수한 인델 효율을 나타냈다(도 6). 다만, Cas12f1 변이체 v1의 경우에는 다소 낮은 약 15%의 인델 효율을 나타냈다. 그렇지만, canonical sgRNA에 의할 경우 인델 활성이 거의 없는 것과 비교하여 본 발명의 엔지니어링된 MS1/MS2/MS3 augment RNA, MS1/MS2/MS4*-2 augment RNA, MS1/MS3-3/MS4*-2 augment RNA 및 MS1/MS2/MS3-3/MS4*-2 augment RNA 모두는 Cas12f1 변이체 v1을 포함하는 유전자가위 시스템의 인델 효율을 현저하게 증가시킨 것이라고 할 수 있다(도 6). As a result, Cas12f1 mutant v2 and Cas12f1 mutant v3 showed excellent indel efficiencies of about 45% to about 65%, similar to the case of Cas12f1 mutant proteins (Fig. 6). However, Cas12f1 mutant v1 showed a somewhat lower indel efficiency of about 15%. However, compared to the almost no indel activity by canonical sgRNA, all of the engineered MS1/MS2/MS3 augment RNA, MS1/MS2/MS4 * -2 augment RNA, MS1/MS3-3/MS4 * -2 augment RNA, and MS1/MS2/MS3-3/MS4 * -2 augment RNA of the present invention can be said to have significantly increased the indel efficiency of the gene scissors system including Cas12f1 mutant v1 (Fig. 6).

실시예 5.3.3. Mature form sgRNA 기반의 augment RNA에 따른 Cas12f1 변이체의 인델(Indel) 활성 비교Example 5.3.3. Comparison of Indel Activity of Cas12f1 Variants According to Augment RNA Based on Mature Form sgRNA

다음으로, Cas12f1 변이체 단백질에 대한 고효율의 엔지니어링된 싱글 가이드 RNA(augment RNA)를 얻기 위해, Mature form sgRNA인 5'-CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCuuagGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAUUUgaaaGAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNN-3'(서열번호 124) 및 상기 Mature form sgRNA에서 핵산 서열의 일부 변형을 가지는 augment RNA를 제작하였고(표 5), 이들에 의한 본 발명의 초소형 유전자 편집 시스템(Hypercompact TaRGET system)의 인델(Indel) 효율을 측정하였다. Next, to obtain a highly efficient engineered single guide RNA (augment RNA) for the Cas12f1 mutant protein, the mature form sgRNA, 5'-CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCuuagGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCA UUU gaaa GAA UGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNN-3' (SEQ ID NO: 124) and the augment RNA having a partial modification of the nucleic acid sequence in the mature form sgRNA were prepared (Table 5), and the indel efficiency of the ultra-compact TaRGET system of the present invention was measured.

그 결과, 제작된 대부분의 엔지니어링된 augment RNA는 canonical sgRNA 보다 향상된 인델 효율을 나타냈고, 특히, MS3-3/MS4-3 augment RNA(서열번호 134)는 표적 서열 Target-1 및 Target-2에서 각각 약 40% 및 약 20%의 인델 효율을 나타냈다(도 7a 및 도 7c). As a result, most of the engineered augment RNAs produced showed improved indel efficiency than canonical sgRNA, and in particular, MS3-3/MS4-3 augment RNA (SEQ ID NO: 134) showed indel efficiency of about 40% and about 20% in target sequences Target-1 and Target-2, respectively (Figs. 7a and 7c).

또한, 상기 Mature form sgRNA에서 핵산 서열의 일부 변형을 가지는 augment RNA(서열번호 125 내지 137, 표 5) 각각의 3'-말단에 U4AU4인 MS2 변형이 추가된 augment RNA인 경우에는, Mature form sgRNA 보다도 인델 효율이 상승하였다(도 7b 및 도 7d). MS3-3/MS4-3 augment RNA(서열번호 134)의 3'-말단에 U4AU4인 MS2 변형이 추가된 경우에도, 표적 서열 Target-1 및 Target-2에서 각각 약 60% 및 약 50%의 인델 효율을 나타내어, 3'-말단에 MS2 변형의 추가가 인델 효율을 크게 상승시키는 것을 확인하였다(도 7b 및 도 7d). In addition, in the case of augment RNA having an MS2 modification of U 4 AU 4 added to the 3'-terminus of each of the augment RNAs (SEQ ID NOs: 125 to 137, Table 5) having partial modifications in the nucleic acid sequence in the Mature form sgRNA, the indel efficiency was higher than that of the Mature form sgRNA (Figs. 7b and 7d). Even when the MS2 modification of U 4 AU 4 was added to the 3'-terminus of MS3-3/MS4-3 augment RNA (SEQ ID NO: 134), the indel efficiencies were about 60% and about 50% in the target sequences Target-1 and Target-2, respectively, confirming that the addition of the MS2 modification to the 3'-terminus significantly increases the indel efficiency (Figs. 7b and 7d).

상기 Mature form sgRNA에서 추가의 변형을 가지는 엔지니어링된 augment RNA 중, 높은 인델 효과를 나타낸 상기 MS3-3 augment RNA(서열번호 127), MS3-3/MS4-3 augment RNA(서열번호 134) 또는 MS3-3/MS4-3/MS5-3 augment RNA(서열번호 137)와 Cas12f1 변이체 단백질을 포함하는 초소형 유전자 편집 시스템(Hypercompact TaRGET system)의 표적 핵산에 대한 인델(Indel) 효율을 확인하였다. Among the engineered augment RNAs having additional modifications in the above Mature form sgRNA, the MS3-3 augment RNA (SEQ ID NO: 127), MS3-3/MS4-3 augment RNA (SEQ ID NO: 134), or MS3-3/MS4-3/MS5-3 augment RNA (SEQ ID NO: 137) showing high indel effects and the indel efficiency of an ultra-compact gene editing system (Hypercompact TaRGET system) containing Cas12f1 mutant protein were confirmed for the target nucleic acid.

그 결과, 도 8에서 확인할 수 있는 바와 같이, Cas12f1 변이체 v1 내지 v3 단백질 모두는 Cas12f1 변이체 단백질의 경우와 유사하게 우수한 인델 효율을 나타냈다. 게다가, 상기 MS3-3 augment RNA(서열번호 127), MS3-3/MS4-3 augment RNA(서열번호 134) 또는 MS3-3/MS4-3/MS5-3 augment RNA(서열번호 137)의 3'-말단에 U4AU4인 MS2 변형이 추가된 엔지니어링된 augment RNA 또한, Cas12f1 변이체 단백질과 마찬가지로 Cas12f1 변이체 v1, Cas12f1 변이체 v2 및 Cas12f1 변이체 v3 단백질에 대해서도 훨씬 증가된 인델 효율을 나타냈다(도 8). As a result, as can be confirmed in FIG. 8, all of the Cas12f1 mutant v1 to v3 proteins exhibited excellent indel efficiency, similar to the case of the Cas12f1 mutant protein. In addition, the engineered augment RNA in which the MS2 modification U4AU4 was added to the 3'-terminus of the MS3-3 augment RNA (SEQ ID NO: 127), MS3-3/MS4-3 augment RNA (SEQ ID NO: 134), or MS3-3 / MS4-3 /MS5-3 augment RNA (SEQ ID NO: 137) also exhibited significantly increased indel efficiency for the Cas12f1 mutant v1, Cas12f1 mutant v2, and Cas12f1 mutant v3 proteins, similar to the Cas12f1 mutant proteins (FIG. 8).

상기 결과들을 종합하면, 본 발명의 Cas12f1 변이체 단백질(Cas12f 변이체 v1 내지 v3 단백질 포함) 및 이들과 동일한 생물학적 활성을 나타내는 Cas12f1 변이체 단백질의 동족체 단백질; 및 augment RNA를 포함하는 초소형 유전자 편집 시스템은 canonical 가이드 RNA를 포함하는 경우에 핵산 절단 활성이 거의 없는 것과 비교하여, 최소한 하나의 염기서열이 삭제되거나 치환된 변형을 가지는 augment RNA 또는 canonical 가이드 RNA의 3'-말단에 U-rich tail이 추가되는 변형에 의해 표적 핵산 또는 표적 유전자의 절단 활성이 증가된다는 결론에 도달한다. In summary of the above results, it is concluded that the ultra-small gene editing system comprising the Cas12f1 variant protein of the present invention (including Cas12f variant v1 to v3 proteins) and homolog proteins of the Cas12f1 variant protein exhibiting the same biological activity as these; and augment RNA has an increased cleavage activity of a target nucleic acid or a target gene by a modification in which at least one base sequence is deleted or substituted or by a modification in which a U-rich tail is added to the 3'-end of the canonical guide RNA, compared to the case in which the nucleic acid cleavage activity is almost absent when the canonical guide RNA is included.

상기 진술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술 분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다.The above description of the present invention is for illustrative purposes only, and those skilled in the art will understand that the present invention can be easily modified into other specific forms without changing the technical idea or essential characteristics of the present invention. Therefore, it should be understood that the embodiments described above are exemplary in all respects and not restrictive.

[서열목록 자유텍스트][Sequence List Free Text]

본 명세서에 첨부된 서열목록 전자파일에서 생략된 서열(skipped sequence, 정의된 핵산이 10개 미만; 서열번호 15, 18, 21, 22, 23, 60, 67, 69, 70, 71, 72, 75, 77, 78, 79, 80, 83, 85, 86, 87, 88 및 91)에 대한 서열 정보는 하기에 제공된다.Sequence information for skipped sequences (sequences having fewer than 10 defined nucleic acids; SEQ ID NOs: 15, 18, 21, 22, 23, 60, 67, 69, 70, 71, 72, 75, 77, 78, 79, 80, 83, 85, 86, 87, 88, and 91) in the electronic sequence listing file attached to this specification is provided below.

서열번호: 15Sequence number: 15

서열길이: 13Sequence length: 13

서열종류: RNASequence type: RNA

서열유래: Artificial SequenceSequence Origin: Artificial Sequence

서열명칭: The fourth region of tracrRNA for Cas12f1 variant gRNASequence name: The fourth region of tracrRNA for Cas12f1 variant gRNA

서열:order:

caaauucann nnncaaauucann nnn

서열번호: 18Sequence number: 18

서열길이: 13Sequence length: 13

서열종류: RNASequence type: RNA

서열유래: Artificial SequenceSequence Origin: Artificial Sequence

서열명칭: The fourth region of tracrRNA for Cas12f1 variant gRNASequence name: The fourth region of tracrRNA for Cas12f1 variant gRNA

서열:order:

caaauucann ncncaaauucann ncn

서열번호: 21Sequence number: 21

서열길이: 12Sequence length: 12

서열종류: RNASequence type: RNA

서열유래: Artificial SequenceSequence Origin: Artificial Sequence

서열명칭: The fifth region of crRNA for Cas12f1 variant gRNASequence name: The fifth region of crRNA for Cas12f1 variant gRNA

서열:order:

nnnnnugaag gannnnnugaag ga

서열번호: 22Sequence number: 22

서열길이: 12Sequence length: 12

서열종류: RNASequence type: RNA

서열유래: Artificial SequenceSequence Origin: Artificial Sequence

서열명칭: The fifth region of crRNA for Cas12f1 variant gRNASequence name: The fifth region of crRNA for Cas12f1 variant gRNA

서열:order:

nbnnnugaag ganbnnnugaag ga

서열번호: 23Sequence number: 23

서열길이: 7Sequence length: 7

서열종류: RNASequence type: RNA

서열유래: Artificial SequenceSequence Origin: Artificial Sequence

서열명칭: The sixth region of crRNA for Cas12f1 variant gRNASequence name: The sixth region of crRNA for Cas12f1 variant gRNA

서열:order:

augcaacaugcaac

서열번호: 60Sequence number: 60

서열길이: 12Sequence length: 12

서열종류: RNASequence type: RNA

서열유래: Artificial SequenceSequence Origin: Artificial Sequence

서열명칭: The fifth region of crRNA for Cas12f1 variant gRNASequence name: The fifth region of crRNA for Cas12f1 variant gRNA

서열:order:

nbnnnugaag ganbnnnugaag ga

서열번호: 67Sequence number: 67

서열길이: 7Sequence length: 7

서열종류: RNASequence type: RNA

서열유래: Artificial SequenceSequence Origin: Artificial Sequence

서열명칭: U-rich tail sequenceSequence name: U-rich tail sequence

서열:order:

uuuruuuuuuruuu

서열번호: 69Sequence number: 69

서열길이: 6Sequence length: 6

서열종류: RNASequence type: RNA

서열유래: Artificial SequenceSequence Origin: Artificial Sequence

서열명칭: U-rich tail sequenceSequence name: U-rich tail sequence

서열:order:

uuuuruuuuuru

서열번호: 70Sequence number: 70

서열길이: 7Sequence length: 7

서열종류: RNASequence type: RNA

서열유래: Artificial SequenceSequence Origin: Artificial Sequence

서열명칭: U-rich tail sequenceSequence name: U-rich tail sequence

서열:order:

uuuuruuuuuuruu

서열번호: 71Sequence number: 71

서열길이: 8Sequence length: 8

서열종류: RNASequence type: RNA

서열유래: Artificial SequenceSequence Origin: Artificial Sequence

서열명칭: U-rich tail sequenceSequence name: U-rich tail sequence

서열:order:

uuuuruuuuuuuruuu

서열번호: 72Sequence number: 72

서열길이: 9Sequence length: 9

서열종류: RNASequence type: RNA

서열유래: Artificial SequenceSequence Origin: Artificial Sequence

서열명칭: U-rich tail sequenceSequence name: U-rich tail sequence

서열: Sequence:

uuuuruuuuuuuuruuuu

서열번호: 75Sequence number: 75

서열길이: 7Sequence length: 7

서열종류: RNASequence type: RNA

서열유래: Artificial SequenceSequence Origin: Artificial Sequence

서열명칭: U-rich tail sequenceSequence name: U-rich tail sequence

서열:order:

uuuauuuuuuauuu

서열번호: 77Sequence number: 77

서열길이: 6Sequence length: 6

서열종류: RNASequence type: RNA

서열유래: Artificial SequenceSequence Origin: Artificial Sequence

서열명칭: U-rich tail sequenceSequence name: U-rich tail sequence

서열:order:

uuuuauuuuuau

서열번호: 78Sequence number: 78

서열길이: 7Sequence length: 7

서열종류: RNASequence type: RNA

서열유래: Artificial SequenceSequence Origin: Artificial Sequence

서열명칭: U-rich tail sequenceSequence name: U-rich tail sequence

서열:order:

uuuuauuuuuuuu

서열번호: 79Sequence number: 79

서열길이: 8Sequence length: 8

서열종류: RNASequence type: RNA

서열유래: Artificial SequenceSequence Origin: Artificial Sequence

서열명칭: U-rich tail sequenceSequence name: U-rich tail sequence

서열:order:

uuuuauuuuuuuuuu

서열번호: 80Sequence number: 80

서열길이: 9Sequence length: 9

서열종류: RNASequence type: RNA

서열유래: Artificial SequenceSequence Origin: Artificial Sequence

서열명칭: U-rich tail sequenceSequence name: U-rich tail sequence

서열:order:

uuuuauuuuuuuuuuuu

서열번호: 83Sequence number: 83

서열길이: 7Sequence length: 7

서열종류: RNASequence type: RNA

서열유래: Artificial SequenceSequence Origin: Artificial Sequence

서열명칭: U-rich tail sequenceSequence name: U-rich tail sequence

서열:order:

uuuguuuuuuguuu

서열번호: 85Sequence number: 85

서열길이: 6Sequence length: 6

서열종류: RNASequence type: RNA

서열유래: Artificial SequenceSequence Origin: Artificial Sequence

서열명칭: U-rich tail sequenceSequence name: U-rich tail sequence

서열:order:

uuuuguuuuugu

서열번호: 86Sequence number: 86

서열길이: 7Sequence length: 7

서열종류: RNASequence type: RNA

서열유래: Artificial SequenceSequence Origin: Artificial Sequence

서열명칭: U-rich tail sequenceSequence name: U-rich tail sequence

서열:order:

uuuuguuuuuuguu

서열번호: 87Sequence number: 87

서열길이: 8Sequence length: 8

서열종류: RNASequence type: RNA

서열유래: Artificial SequenceSequence Origin: Artificial Sequence

서열명칭: U-rich tail sequenceSequence name: U-rich tail sequence

서열:order:

uuuuguuuuuuuguuu

서열번호: 88Sequence number: 88

서열길이: 9Sequence length: 9

서열종류: RNASequence type: RNA

서열유래: Artificial SequenceSequence Origin: Artificial Sequence

서열명칭: U-rich tail sequenceSequence name: U-rich tail sequence

서열:order:

uuuuguuuuuuuuguuuu

서열번호: 91Sequence number: 91

서열길이: 6Sequence length: 6

서열종류: RNASequence type: RNA

서열유래: Artificial SequenceSequence Origin: Artificial Sequence

서열명칭: U-rich tail sequenceSequence name: U-rich tail sequence

서열:order:

uuuuuuuuuuuu

서열목록 전자파일 첨부Attach electronic file of sequence list

Claims (42)

서열번호 1 또는 서열번호 2로 표시되는 Cas12f1 변이체 단백질을 포함하는 엔도뉴클레아제 또는 상기 엔도뉴클레아제를 암호화하는 핵산; 및 하나 이상의 가이드 RNA 또는 상기 가이드 RNA를 암호화하는 핵산을 포함하는, 세포 내 표적 서열을 포함하는 핵산을 편집하기 위한 시스템. A system for editing a nucleic acid comprising a target sequence in a cell, comprising an endonuclease comprising a Cas12f1 variant protein represented by SEQ ID NO: 1 or SEQ ID NO: 2 or a nucleic acid encoding the endonuclease; and one or more guide RNAs or a nucleic acid encoding the guide RNAs. 제1항에 있어서,
상기 Cas12f1 변이체 단백질은 서열번호 1의 아미노산 서열로 이루어지는
시스템.
In the first paragraph,
The above Cas12f1 mutant protein consists of the amino acid sequence of sequence number 1.
System.
제1항에 있어서,
상기 Cas12f1 변이체 단백질은 융합 단백질의 일부인
시스템.
In the first paragraph,
The above Cas12f1 mutant protein is part of a fusion protein.
System.
제1항에 있어서,
상기 세포가 진핵세포인
시스템.
In the first paragraph,
The above cell is a eukaryotic cell
System.
제1항에 있어서,
상기 편집은 표적 핵산의 이중가닥 절단을 포함하는
시스템.
In the first paragraph,
The above editing includes double-strand cleavage of the target nucleic acid.
System.
제1항에 있어서,
상기 시스템은 둘 이상의 가이드 RNA를 포함하고, 상기 둘 이상의 가이드 RNA는 동일하거나 서로 다른 표적 서열을 표적하는
시스템.
In the first paragraph,
The system comprises two or more guide RNAs, wherein the two or more guide RNAs target the same or different target sequences.
System.
제1항에 있어서,
상기 가이드 RNA는 sgRNA인
시스템.
In the first paragraph,
The above guide RNA is sgRNA.
System.
제7항에 있어서,
상기 가이드 RNA는 3' 말단에 5'-(UaN)dUe-3', 5'-UaVUaVUe-3' 또는 5'-UaVUaVUaVUe-3'의 U-rich tail 서열을 포함하고,
N은 각각 A, C, G 또는 U이고,
V는 각각 독립적으로 A, C 또는 G이고,
a는 0 내지 5 사이의 정수이고,
d는 0 내지 4 사이의 정수이고,
e는 0 내지 10 사이의 정수인
시스템.
In Article 7,
The above guide RNA contains a U-rich tail sequence of 5'-(UaN)dUe-3', 5'-UaVUaVUe-3' or 5'-UaVUaVUaVUe-3' at the 3' end,
N is A, C, G or U respectively,
V is independently A, C or G,
a is an integer between 0 and 5,
d is an integer between 0 and 4,
e is an integer between 0 and 10
System.
제8항에 있어서,
상기 U-rich tail 서열은 서열번호 67 내지 서열번호 91로 이루어진 군에서 선택된 어느 하나의 뉴클레오티드 서열을 포함하는
시스템.
In Article 8,
The above U-rich tail sequence comprises any one nucleotide sequence selected from the group consisting of SEQ ID NO: 67 to SEQ ID NO: 91.
System.
제1항에 있어서,
상기 가이드 RNA는 연속된 5개 이상의 유리딘 서열을 포함하지 않는
시스템.
In the first paragraph,
The above guide RNA does not contain more than five consecutive uridine sequences.
System.
제1항에 있어서,
상기 가이드 RNA는 5'-3' 방향으로 제1 영역, 제2 영역, 제3 영역 및 제4 영역을 포함하는 tracrRNA, 제5 영역 및 제6 영역을 포함하는 crRNA, 스페이서 서열 및 제7 영역을 포함하고,
상기 제1 영역은 서열번호 7의 뉴클레오티드 서열 또는 서열번호 7의 5' 말단으로부터 순차적으로 1개 이상의 뉴클레오티드가 결실된 서열을 포함하거나, 상기 제1 영역은 존재하지 않고,
상기 제2 영역은 서열번호 9의 뉴클레오티드 서열 또는 이의 일부 서열을 포함하되, 상기 서열번호 9의 뉴클레오티드 서열에서 5'-UUAG-3' 서열은 5'-GAAA-3' 서열로 치환되거나 치환되지 않고, 상기 일부 서열은 서열번호 9의 뉴클레오티드 서열이 형성하는 스템-루프 구조에서 스템을 형성하는 한 쌍 이상의 뉴클레오티드 서열이 결실된 서열이고,
상기 제3 영역은 서열번호 13의 뉴클레오티드 서열 또는 상기 서열에 70% 이상 서열 동일성을 갖는 서열을 포함하고,
상기 제4 영역은 서열번호 14의 뉴클레오티드 서열 또는 상기 서열의 일부 서열을 포함하고, 상기 일부 서열은 서열번호 14 서열에서 5'-CAAAUUCANNNNN-3'(서열번호 15) 서열을 포함하되 3' 말단부의 일부 서열이 결실된 서열이고,
상기 제5 영역은 서열번호 20의 뉴클레오티드 서열 또는 상기 서열의 일부 서열을 포함하고, 상기 일부 서열은 서열번호 20의 염기서열 중 5'-NNNNNUGAAGGA-3'(서열번호 21) 서열을 포함하되 5' 말단부의 일부 서열이 결실된 서열이고,
상기 제6 영역은 5'-AUGCAAC-3'(서열번호 23) 서열 또는 5'-AUGCAAC-3'서열에 70% 이상의 서열 동일성을 갖는 서열을 포함하고,
상기 스페이서 서열은 상기 표적 서열에 혼성화되는 10개 내지 50개의 뉴클레오티드 서열을 포함하고,
상기 제7 영역은 존재하지 않거나, 5'-(UaN)dUe-3', 5'-UaVUaVUe-3' 또는 5'-UaVUaVUaVUe-3'의 U-rich tail 서열을 포함하고, 상기 서열에서 N은 각각 A, C, G 또는 U이고, V는 각각 독립적으로 A, C 또는 G이고, a는 0 내지 5 사이의 정수이고, d는 0 내지 4 사이의 정수이고, e는 0 내지 10 사이의 정수인
시스템.
In the first paragraph,
The above guide RNA comprises a tracrRNA comprising a first region, a second region, a third region and a fourth region in the 5'-3' direction, a crRNA comprising a fifth region and a sixth region, a spacer sequence and a seventh region,
The first region comprises a nucleotide sequence of SEQ ID NO: 7 or a sequence in which one or more nucleotides are sequentially deleted from the 5' end of SEQ ID NO: 7, or the first region is absent,
The second region comprises a nucleotide sequence of SEQ ID NO: 9 or a part thereof, wherein the 5'-UUAG-3' sequence in the nucleotide sequence of SEQ ID NO: 9 is substituted or not substituted with a 5'-GAAA-3' sequence, and the part of the sequence is a sequence in which one or more pairs of nucleotide sequences forming a stem in a stem-loop structure formed by the nucleotide sequence of SEQ ID NO: 9 are deleted.
The third region comprises a nucleotide sequence of sequence number 13 or a sequence having at least 70% sequence identity to the sequence,
The fourth region comprises a nucleotide sequence of SEQ ID NO: 14 or a part of the sequence, wherein the part of the sequence comprises a sequence of 5'-CAAAUUCANNNNN-3' (SEQ ID NO: 15) in the sequence of SEQ ID NO: 14, but a part of the sequence at the 3' end is deleted,
The above fifth region comprises a nucleotide sequence of SEQ ID NO: 20 or a part of the sequence, wherein the part of the sequence comprises the sequence 5'-NNNNNUGAAGGA-3' (SEQ ID NO: 21) among the base sequences of SEQ ID NO: 20, but a part of the sequence at the 5' end is deleted,
The above sixth region comprises a 5'-AUGCAAC-3' (SEQ ID NO: 23) sequence or a sequence having 70% or more sequence identity to the 5'-AUGCAAC-3' sequence,
The above spacer sequence comprises a sequence of 10 to 50 nucleotides that hybridizes to the target sequence,
The seventh region is absent or comprises a U-rich tail sequence of 5'-(UaN)dUe-3', 5'-UaVUaVUe-3' or 5'-UaVUaVUaVUe-3', wherein in the sequence, N is each A, C, G or U, V is each independently A, C or G, a is an integer from 0 to 5, d is an integer from 0 to 4 and e is an integer from 0 to 10.
System.
제11항에 있어서,
상기 제1 영역은 5'-GAUAAAGUGGAGAA-3'(서열번호 8), 5'-UGGAGAA-3' 또는
5'-A-3'인
시스템.
In Article 11,
The first region is 5'-GAUAAAGUGGAGAA-3' (SEQ ID NO: 8), 5'-UGGAGAA-3' or
5'-A-3'
System.
제11항에 있어서,
상기 제2 영역은 서열번호 10, 서열번호 11 또는 서열번호 12의 뉴클레오티드 서열을 포함하되, 상기 서열번호 10, 서열번호 11 또는 서열번호 12의 뉴클레오티드 서열에서 5'-UUAG-3' 서열은 5'-GAAA-3' 서열로 치환되거나 치환되지 않는
시스템.
In Article 11,
The second region comprises a nucleotide sequence of SEQ ID NO: 10, SEQ ID NO: 11 or SEQ ID NO: 12, wherein the 5'-UUAG-3' sequence in the nucleotide sequence of SEQ ID NO: 10, SEQ ID NO: 11 or SEQ ID NO: 12 is or is not replaced with a 5'-GAAA-3' sequence.
System.
제11항에 있어서,
상기 제4 영역 및 상기 제5 영역은 링커로 연결되는
시스템.
In Article 11,
The above fourth region and the above fifth region are connected by a linker.
System.
제1항에 있어서,
상기 가이드 RNA는 서열번호 6, 서열번호 44 내지 48, 서열번호 105 내지 123, 서열번호 124, 및 서열번호 125 내지 137로 이루어진 군에서 선택된 뉴클레오티드 서열을 포함하는
시스템.
In the first paragraph,
The above guide RNA comprises a nucleotide sequence selected from the group consisting of SEQ ID NO: 6, SEQ ID NOs: 44 to 48, SEQ ID NOs: 105 to 123, SEQ ID NO: 124, and SEQ ID NOs: 125 to 137.
System.
제1항에 있어서,
상기 가이드 RNA는 서열번호 46 내지 48로 이루어진 군에서 선택된 뉴클레오티드 서열을 포함하는
시스템.
In the first paragraph,
The above guide RNA comprises a nucleotide sequence selected from the group consisting of SEQ ID NOs: 46 to 48.
System.
제1항에 있어서,
상기 Cas12f1 변이체 단백질은 서열번호 1의 아미노산 서열로 이루어지고 상기 가이드 RNA는 서열번호 46 내지 48로 이루어진 군에서 선택된 뉴클레오티드 서열을 포함하는
시스템.
In the first paragraph,
The above Cas12f1 mutant protein comprises an amino acid sequence of SEQ ID NO: 1, and the guide RNA comprises a nucleotide sequence selected from the group consisting of SEQ ID NOs: 46 to 48.
System.
제1항에 있어서,
상기 Cas12f1 변이체 단백질과 상기 가이드 RNA는 리보뉴클레오단백질 입자를 형성하는
시스템.
In the first paragraph,
The above Cas12f1 mutant protein and the above guide RNA form a ribonucleoprotein particle.
System.
제1항에 있어서,
상기 시스템은 조성물인
시스템.
In the first paragraph,
The above system is a composition
System.
서열번호 1 또는 서열번호 2로 표시되는 Cas12f1 변이체 단백질을 포함하는 엔도뉴클레아제를 암호화하는 뉴클레오티드 서열이 작동가능하게 연결된 제1 핵산 구조물; 및 가이드 RNA를 암호화하는 뉴클레오티드 서열이 작동가능하게 연결된 제2 핵산 구조물을 포함하고, 상기 제1 핵산 구조물 및 상기 제2 핵산 구조물은 동일한 벡터 또는 상이한 벡터에 함유되는, 벡터 시스템. A vector system comprising a first nucleic acid construct operably linked to a nucleotide sequence encoding an endonuclease comprising a Cas12f1 variant protein represented by SEQ ID NO: 1 or SEQ ID NO: 2; and a second nucleic acid construct operably linked to a nucleotide sequence encoding a guide RNA, wherein the first nucleic acid construct and the second nucleic acid construct are contained in the same vector or in different vectors. 제20항에 있어서,
상기 벡터는 상기 가이드 RNA를 암호화하는 뉴클레오티드 서열을 위한 프로모터를 더 포함하는
벡터 시스템.
In Article 20,
The above vector further comprises a promoter for a nucleotide sequence encoding the guide RNA.
Vector system.
제21항에 있어서,
상기 프로모터는 U6 프로모터, H1 프로모터 또는 7SK 프로모터인
벡터 시스템.
In Article 21,
The above promoter is U6 promoter, H1 promoter or 7SK promoter.
Vector system.
제20항에 있어서,
상기 제1 핵산 구조물은 상기 Cas12f1 변이체 단백질을 암호화하는 코돈-최적화된 핵산을 포함하는
벡터 시스템.
In Article 20,
The first nucleic acid construct comprises a codon-optimized nucleic acid encoding the Cas12f1 variant protein.
Vector system.
제20항에 있어서,
상기 제1 또는 제2 핵산 구조물은 N-말단 또는 C-말단에 핵 위치 신호(nuclear localization signal, NLS) 또는 핵 유출 신호(nuclear export signal, NES) 서열을 1개 이상 포함하는
벡터 시스템.
In Article 20,
The first or second nucleic acid construct comprises at least one nuclear localization signal (NLS) or nuclear export signal (NES) sequence at the N-terminus or C-terminus.
Vector system.
제20항에 있어서,
상기 벡터는 mRNA, 플라스미드, 선형의 PCR 엠플리콘 또는 바이러스 벡터인
벡터 시스템.
In Article 20,
The above vector may be mRNA, plasmid, linear PCR amplicon or viral vector.
Vector system.
제25항에 있어서,
상기 바이러스 벡터는 레트로바이러스 벡터, 렌티바이러스 벡터, 아데노바이러스 벡터, 아데노-연관 바이러스 벡터, 백시니아바이러스 벡터, 폭스바이러스 벡터 또는 단순포진 바이러스 벡터인
벡터 시스템.
In Article 25,
The above viral vector is a retrovirus vector, a lentivirus vector, an adenovirus vector, an adeno-associated virus vector, a vaccinia virus vector, a poxvirus vector or a herpes simplex virus vector.
Vector system.
제20항에 있어서,
상기 가이드 RNA는 3' 말단에 5'-(UaN)dUe-3', 5'-UaVUaVUe-3' 또는 5'-UaVUaVUaVUe-3'의 U-rich tail 서열을 포함하고,
N은 각각 A, C, G 또는 U이고,
V는 각각 독립적으로 A, C 또는 G이고,
a는 0 내지 5 사이의 정수이고,
d는 0 내지 4 사이의 정수이고,
e는 0 내지 10 사이의 정수인
벡터 시스템.
In Article 20,
The above guide RNA contains a U-rich tail sequence of 5'-(UaN)dUe-3', 5'-UaVUaVUe-3' or 5'-UaVUaVUaVUe-3' at the 3' end,
N is A, C, G or U respectively,
V is independently A, C or G,
a is an integer between 0 and 5,
d is an integer between 0 and 4,
e is an integer between 0 and 10
Vector system.
제27항에 있어서,
상기 U-rich tail 서열은 서열번호 67 내지 서열번호 91로 이루어진 군에서 선택된 어느 하나의 뉴클레오티드 서열을 포함하는
벡터 시스템.
In Article 27,
The above U-rich tail sequence comprises any one nucleotide sequence selected from the group consisting of SEQ ID NO: 67 to SEQ ID NO: 91.
Vector system.
제20항에 있어서,
상기 가이드 RNA는 연속된 다섯 개 이상의 유리딘 서열을 포함하지 않는
벡터 시스템.
In Article 20,
The above guide RNA does not contain five or more consecutive uridine sequences.
Vector system.
제20항에 있어서,
상기 가이드 RNA는 5'-3' 방향으로 제1 영역, 제2 영역, 제3 영역 및 제4 영역을 포함하는 tracrRNA, 제5 영역 및 제6 영역을 포함하는 crRNA, 스페이서 서열 및 제7 영역을 포함하고,
상기 제1 영역은 서열번호 7의 뉴클레오티드 서열 또는 서열번호 7의 5' 말단으로부터 순차적으로 1개 이상의 뉴클레오티드가 결실된 서열을 포함하거나, 상기 제1 영역은 존재하지 않고,
상기 제2 영역은 서열번호 9의 뉴클레오티드 서열 또는 이의 일부 서열을 포함하되, 상기 서열번호 9의 뉴클레오티드 서열에서 5'-UUAG-3' 서열은 5'-GAAA-3' 서열로 치환되거나 치환되지 않고, 상기 일부 서열은 서열번호 9의 뉴클레오티드 서열이 형성하는 스템-루프 구조에서 스템을 형성하는 한 쌍 이상의 뉴클레오티드 서열이 결실된 서열이고,
상기 제3 영역은 서열번호 13의 뉴클레오티드 서열 또는 상기 서열에 70% 이상 서열 동일성을 갖는 서열을 포함하고,
상기 제4 영역은 서열번호 14의 뉴클레오티드 서열 또는 상기 서열의 일부 서열을 포함하고, 상기 일부 서열은 서열번호 14 서열에서 5'-CAAAUUCANNNNN-3'(서열번호 15) 서열을 포함하되 3' 말단부의 일부 서열이 결실된 서열이고,
상기 제5 영역은 서열번호 20의 뉴클레오티드 서열 또는 상기 서열의 일부 서열을 포함하고, 상기 일부 서열은 서열번호 20의 염기서열 중 5'-NNNNNUGAAGGA-3'(서열번호 21) 서열을 포함하되 5' 말단부의 일부 서열이 결실된 서열이고,
상기 제6 영역은 5'-AUGCAAC-3'(서열번호 23) 서열 또는 5'-AUGCAAC-3'서열에 70% 이상의 서열 동일성을 갖는 서열을 포함하고,
상기 스페이서 서열은 세포 내 표적 서열과 혼성화되는 10개 내지 50개의 뉴클레오티드 서열을 포함하고,
상기 제7 영역은 존재하지 않거나, 5'-(UaN)dUe-3', 5'-UaVUaVUe-3' 또는 5'-UaVUaVUaVUe-3'의 U-rich tail 서열을 포함하고, 상기 서열에서 N은 각각 A, C, G 또는 U이고, V는 각각 독립적으로 A, C 또는 G이고, a는 0 내지 5 사이의 정수이고, d는 0 내지 4 사이의 정수이고, e는 0 내지 10 사이의 정수인
벡터 시스템.
In Article 20,
The above guide RNA comprises a tracrRNA comprising a first region, a second region, a third region and a fourth region in the 5'-3' direction, a crRNA comprising a fifth region and a sixth region, a spacer sequence and a seventh region,
The first region comprises a nucleotide sequence of SEQ ID NO: 7 or a sequence in which one or more nucleotides are sequentially deleted from the 5' end of SEQ ID NO: 7, or the first region is absent,
The second region comprises a nucleotide sequence of SEQ ID NO: 9 or a part thereof, wherein the 5'-UUAG-3' sequence in the nucleotide sequence of SEQ ID NO: 9 is substituted or not substituted with a 5'-GAAA-3' sequence, and the part of the sequence is a sequence in which one or more pairs of nucleotide sequences forming a stem in a stem-loop structure formed by the nucleotide sequence of SEQ ID NO: 9 are deleted.
The third region comprises a nucleotide sequence of sequence number 13 or a sequence having at least 70% sequence identity to the sequence,
The fourth region above comprises a nucleotide sequence of SEQ ID NO: 14 or a part of the sequence, wherein the part of the sequence comprises a sequence of 5'-CAAAUUCANNNNN-3' (SEQ ID NO: 15) in the sequence of SEQ ID NO: 14, but a part of the sequence at the 3' end is deleted,
The above fifth region comprises a nucleotide sequence of SEQ ID NO: 20 or a part of the sequence, wherein the part of the sequence comprises the sequence 5'-NNNNNUGAAGGA-3' (SEQ ID NO: 21) among the base sequences of SEQ ID NO: 20, but a part of the sequence at the 5' end is deleted,
The above sixth region comprises a 5'-AUGCAAC-3' (SEQ ID NO: 23) sequence or a sequence having 70% or more sequence identity to the 5'-AUGCAAC-3' sequence,
The above spacer sequence comprises a sequence of 10 to 50 nucleotides that hybridizes with a target sequence in a cell,
The seventh region is absent or comprises a U-rich tail sequence of 5'-(UaN)dUe-3', 5'-UaVUaVUe-3' or 5'-UaVUaVUaVUe-3', wherein in the sequence, N is each A, C, G or U, V is each independently A, C or G, a is an integer from 0 to 5, d is an integer from 0 to 4 and e is an integer from 0 to 10.
Vector system.
제30항에 있어서,
상기 제1 영역은 5'-GAUAAAGUGGAGAA-3'(서열번호 8), 5'-UGGAGAA-3' 또는
5'-A-3'인
벡터 시스템.
In Article 30,
The first region is 5'-GAUAAAGUGGAGAA-3' (SEQ ID NO: 8), 5'-UGGAGAA-3' or
5'-A-3'
Vector system.
제30항에 있어서,
상기 제2 영역은 서열번호 10, 서열번호 11 또는 서열번호 12의 뉴클레오티드 서열을 포함하되, 상기 서열번호 10, 서열번호 11 또는 서열번호 12의 뉴클레오티드 서열에서 5'-UUAG-3' 서열은 5'-GAAA-3' 서열로 치환되거나 치환되지 않는
벡터 시스템.
In Article 30,
The second region comprises a nucleotide sequence of SEQ ID NO: 10, SEQ ID NO: 11 or SEQ ID NO: 12, wherein the 5'-UUAG-3' sequence in the nucleotide sequence of SEQ ID NO: 10, SEQ ID NO: 11 or SEQ ID NO: 12 is or is not replaced with a 5'-GAAA-3' sequence.
Vector system.
제30항에 있어서,
상기 제4 영역 및 상기 제5 영역은 링커로 연결되는
벡터 시스템.
In Article 30,
The above fourth region and the above fifth region are connected by a linker.
Vector system.
제20항에 있어서,
상기 가이드 RNA는 서열번호 6, 서열번호 44 내지 48, 서열번호 105 내지 123, 서열번호 124, 및 서열번호 125 내지 137로 이루어진 군에서 선택된 뉴클레오티드 서열을 포함하는
벡터 시스템.
In Article 20,
The above guide RNA comprises a nucleotide sequence selected from the group consisting of SEQ ID NO: 6, SEQ ID NOs: 44 to 48, SEQ ID NOs: 105 to 123, SEQ ID NO: 124, and SEQ ID NOs: 125 to 137.
Vector system.
제20항에 있어서,
상기 가이드 RNA는 서열번호 46 내지 48로 이루어진 군에서 선택된 뉴클레오티드 서열을 포함하는
벡터 시스템.
In Article 20,
The above guide RNA comprises a nucleotide sequence selected from the group consisting of SEQ ID NOs: 46 to 48.
Vector system.
제20항에 있어서,
상기 Cas12f1 변이체 단백질은 서열번호 1의 아미노산 서열로 이루어지고 상기 가이드 RNA는 서열번호 46 내지 48로 이루어진 군에서 선택된 뉴클레오티드 서열을 포함하는
벡터 시스템.
In Article 20,
The above Cas12f1 mutant protein comprises an amino acid sequence of SEQ ID NO: 1, and the guide RNA comprises a nucleotide sequence selected from the group consisting of SEQ ID NOs: 46 to 48.
Vector system.
제20항에 있어서,
상기 벡터 시스템은 가이드 RNA를 암호화하는 뉴클레오티드 서열이 작동가능하게 연결된 제3 핵산 구조물을 추가로 포함하고, 상기 제3 핵산 구조물과 상기 제2 핵산 구조물의 가이드 RNA는 세포 내 동일하거나 상이한 표적 서열을 표적화하고, 상기 제1 핵산 구조물 내지 상기 제3 핵산 구조물은 동일한 벡터 또는 상이한 벡터에 함유되는
벡터 시스템.
In Article 20,
The above vector system further comprises a third nucleic acid construct operably linked to a nucleotide sequence encoding a guide RNA, wherein the guide RNAs of the third nucleic acid construct and the second nucleic acid construct target the same or different target sequences in a cell, and the first nucleic acid construct to the third nucleic acid construct are contained in the same vector or in different vectors.
Vector system.
제1항 내지 제19항 중 어느 한 항의 시스템 또는 제20항 내지 제37항 중 어느 한 항의 벡터 시스템을 표적 유전자 또는 표적 핵산과 접촉시키는 단계를 포함하는, 시험관 내에서 수행되는 유전자 편집 방법.An in vitro gene editing method comprising the step of contacting a system according to any one of claims 1 to 19 or a vector system according to any one of claims 20 to 37 with a target gene or a target nucleic acid. 제38항에 있어서,
상기 유전자 편집은 표적 유전자 또는 표적 핵산 내의 표적 서열을 포함하는 이중가닥 DNA, 단일가닥 DNA, 또는 DNA와 RNA 혼성 이중가닥 핵산의 절단인
시험관 내에서 수행되는 유전자 편집 방법.
In Article 38,
The above gene editing is the cleavage of double-stranded DNA, single-stranded DNA, or hybrid double-stranded nucleic acid of DNA and RNA containing a target sequence within a target gene or target nucleic acid.
A gene editing method performed in a test tube.
제38항에 있어서,
상기 방법은 표적 핵산 또는 표적 유전자가 존재하는 원핵 세포 또는 진핵 세포 내에서 이루어지는
시험관 내에서 수행되는 유전자 편집 방법.
In Article 38,
The above method is performed in a prokaryotic or eukaryotic cell in which a target nucleic acid or target gene exists.
A gene editing method performed in a test tube.
제40항에 있어서,
상기 진핵 세포는 효모, 곤충 세포, 식물 세포, 비인간-동물 세포 또는 인간 세포인
시험관 내에서 수행되는 유전자 편집 방법.
In Article 40,
The above eukaryotic cell is a yeast, insect cell, plant cell, non-human animal cell or human cell.
A gene editing method performed in a test tube.
제38항에 있어서,
상기 유전자 편집 시스템 또는 상기 벡터 시스템은 레트로바이러스, 렌티바이러스, 아데노바이러스, 아데노-연관 바이러스, 백시니아바이러스, 폭스바이러스 및 단순포진 바이러스로 구성된 군에서 선택된 바이러스에 패키징되어 원핵 세포 또는 진핵 세포 내로 전달되는
시험관 내에서 수행되는 유전자 편집 방법.
In Article 38,
The above gene editing system or the vector system is packaged into a virus selected from the group consisting of retrovirus, lentivirus, adenovirus, adeno-associated virus, vaccinia virus, poxvirus and herpes simplex virus and delivered into a prokaryotic cell or a eukaryotic cell.
A gene editing method performed in a test tube.
KR1020220128219A 2021-10-06 2022-10-06 Novel genome editing TaRGET system and uses thereof Active KR102703683B1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20210132306 2021-10-06
KR1020210132306 2021-10-06

Publications (2)

Publication Number Publication Date
KR20230051095A KR20230051095A (en) 2023-04-17
KR102703683B1 true KR102703683B1 (en) 2024-09-09

Family

ID=85804529

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220128219A Active KR102703683B1 (en) 2021-10-06 2022-10-06 Novel genome editing TaRGET system and uses thereof

Country Status (2)

Country Link
KR (1) KR102703683B1 (en)
WO (1) WO2023059115A1 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4337701A4 (en) 2021-05-10 2025-04-09 Mammoth Biosciences, Inc. Effector proteins and methods of use
KR20230121569A (en) * 2022-02-09 2023-08-18 주식회사 진코어 TaRGET system for homology-directed repair and gene editing method using the same

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150016588A (en) 2012-05-25 2015-02-12 더 리젠츠 오브 더 유니버시티 오브 캘리포니아 Methods and compositions for rna-directed target dna modification and for rna-directed modulation of transcription
KR20180034402A (en) * 2015-06-18 2018-04-04 더 브로드 인스티튜트, 인코퍼레이티드 New CRISPR Enzymes and Systems
US20200190494A1 (en) 2018-12-14 2020-06-18 Pioneer Hi-Bred International, Inc. Novel crispr-cas systems for genome editing
KR20210041008A (en) * 2018-08-03 2021-04-14 빔 테라퓨틱스, 인크. Multi-effector nucleobase editor for modifying nucleic acid target sequences and methods of using the same
KR20210053228A (en) * 2019-10-29 2021-05-11 주식회사 진코어 An engineered guide RNA for the optimized CRISPR/Cas12f1 system and use thereof

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150016588A (en) 2012-05-25 2015-02-12 더 리젠츠 오브 더 유니버시티 오브 캘리포니아 Methods and compositions for rna-directed target dna modification and for rna-directed modulation of transcription
KR20180034402A (en) * 2015-06-18 2018-04-04 더 브로드 인스티튜트, 인코퍼레이티드 New CRISPR Enzymes and Systems
KR20210041008A (en) * 2018-08-03 2021-04-14 빔 테라퓨틱스, 인크. Multi-effector nucleobase editor for modifying nucleic acid target sequences and methods of using the same
US20200190494A1 (en) 2018-12-14 2020-06-18 Pioneer Hi-Bred International, Inc. Novel crispr-cas systems for genome editing
KR20210053228A (en) * 2019-10-29 2021-05-11 주식회사 진코어 An engineered guide RNA for the optimized CRISPR/Cas12f1 system and use thereof

Non-Patent Citations (13)

* Cited by examiner, † Cited by third party
Title
Chylinski, K. et al., Classification and evolution of type II CRISPR-Cas system, Nucleic Acids Research, Vol. 42, No. 10, 6091-6105(2014)
Harrington, LB. et al., Programmed DNA destruction by miniature CRISPR-Cas14 enzymes, Science, Vol. 362, 839-842(2018)
Jinek, M. et al., A Programmable Dual-RNA-Guided DNA Endonuclease in Adaptive Bacterial Immunity, Science, Vol. 337, 816-821(2012)
Karvelis, T. et al., PAM recognition by miniature CRISPR-Cas12f nucleases triggers programmable double-stranded DNA target cleavage, Nucleic Acids Research, Vol. 48, No. 9, 5016-5023(2020)
Koonin, EV. et al., Mobile genetic elements and evolution of CRISPR-Cas system; All the way there and back, Genome Biol. Evol., Vol. 9, No. 10, 2812-2825(2017),
Makarova, KS. et al., Evolutionary classification of the CRISPR-Cas system: a burst of class 2 and derived variants, Nat. Rev. Microbiol., Vol. 18, 67-83(2020)
Molecular Cell. vol. 81, no. 3, 558-570(2021.02.04.) *
Nature chemical biology. vol. 17, no. 11, 1132-1138(2021.10.07.) *
Nucleic Acids Research. vol. 48, no. 9, 5016-5023(2020)* *
Shmakov, S. et al., Discovery and Functional Characterization of diverse class 2 CRISPR-Cas system, Vol. 60, 385-397(2015)
Takeda, SN. et al., Structure of the miniature type V-F CRISPR-Cas effector enzyme, Molecular Cell 81, 1-13(2021)
Wang, D. et al., Adeno-associated virus vector as a platform for gene therapy delivery, Nat. Rev. Drug Discov., Vol. 18, No. 5, 358-378(2019)
Xiao, R. et al., Structural basis for the dimerization-dependent CRISPR-Cas12f nuclease, bioRxiv, 1-20(2020)

Also Published As

Publication number Publication date
WO2023059115A1 (en) 2023-04-13
KR20230051095A (en) 2023-04-17

Similar Documents

Publication Publication Date Title
JP7799912B2 (en) Artificial guide RNAs for optimized CRISPR/Cas12f1 systems and uses thereof
KR102690083B1 (en) An engineered guide RNA including a U-rich tail for the optimized CRISPR/Cas12f1 system and use thereof
EP4227412A1 (en) Engineered guide rna for increasing efficiency of crispr/cas12f1 (cas14a1) system, and use thereof
CN107922949A (en) Compounds and methods for for the genome editor based on CRISPR/CAS by homologous recombination
JP2023544817A (en) Engineered guide RNA and its applications to improve CRISPR/Cas12f1 system efficiency
AU2021357283B2 (en) Engineered guide RNA comprising U-rich tail for increasing efficiency of CRISPR/Cas12f1 system, and use thereof
KR102703683B1 (en) Novel genome editing TaRGET system and uses thereof
KR20230007218A (en) Hypercompact base editing systems and use thereof
Nan et al. Ligase-mediated programmable genomic integration (L-PGI): an efficient site-specific gene editing system that overcomes the limitations of reverse transcriptase-based editing systems
KR20250012711A (en) An engineered guide RNA for the optimized CRISPR/Cas12f1 system and use thereof
US20250215457A1 (en) Target system for homology-directed repair and gene editing method using same
EP4502153A1 (en) Gene editing system for treating usher syndrome
KR102638799B1 (en) An engineered guide RNA for the optimized CRISPR/Cas12f1(Cas14a1) system and use thereof
CN116568806A (en) Engineered guide RNAs for increasing the efficiency of the CRISPR/CAS12F1 (CAS14A1) system and uses thereof
TW202523841A (en) Type ii cas protein, crispr-cas system and uses thereof
KR20240034661A (en) An improved Campylobacter jejuni derived CRISPR/Cas9 gene-editing system by structure modification of a guide RNA
WO2025024285A1 (en) Compositions for the modification of the human c9orf72 gene
WO2024263707A1 (en) Compositions for the treatment of amyotrophic lateral sclerosis

Legal Events

Date Code Title Description
PA0109 Patent application

St.27 status event code: A-0-1-A10-A12-nap-PA0109

T11-X000 Administrative time limit extension requested

St.27 status event code: U-3-3-T10-T11-oth-X000

P11-X000 Amendment of application requested

St.27 status event code: A-2-2-P10-P11-nap-X000

P13-X000 Application amended

St.27 status event code: A-2-2-P10-P13-nap-X000

PG1501 Laying open of application

St.27 status event code: A-1-1-Q10-Q12-nap-PG1501

A201 Request for examination
PA0201 Request for examination

St.27 status event code: A-1-2-D10-D11-exm-PA0201

PA0302 Request for accelerated examination

St.27 status event code: A-1-2-D10-D17-exm-PA0302

St.27 status event code: A-1-2-D10-D16-exm-PA0302

E902 Notification of reason for refusal
PE0902 Notice of grounds for rejection

St.27 status event code: A-1-2-D10-D21-exm-PE0902

T11-X000 Administrative time limit extension requested

St.27 status event code: U-3-3-T10-T11-oth-X000

T11-X000 Administrative time limit extension requested

St.27 status event code: U-3-3-T10-T11-oth-X000

T11-X000 Administrative time limit extension requested

St.27 status event code: U-3-3-T10-T11-oth-X000

T11-X000 Administrative time limit extension requested

St.27 status event code: U-3-3-T10-T11-oth-X000

P11-X000 Amendment of application requested

St.27 status event code: A-2-2-P10-P11-nap-X000

P13-X000 Application amended

St.27 status event code: A-2-2-P10-P13-nap-X000

E701 Decision to grant or registration of patent right
PE0701 Decision of registration

St.27 status event code: A-1-2-D10-D22-exm-PE0701

R18-X000 Changes to party contact information recorded

St.27 status event code: A-3-3-R10-R18-oth-X000

GRNT Written decision to grant
PR0701 Registration of establishment

St.27 status event code: A-2-4-F10-F11-exm-PR0701

PR1002 Payment of registration fee

St.27 status event code: A-2-2-U10-U11-oth-PR1002

Fee payment year number: 1

PG1601 Publication of registration

St.27 status event code: A-4-4-Q10-Q13-nap-PG1601

R18-X000 Changes to party contact information recorded

St.27 status event code: A-5-5-R10-R18-oth-X000

P14 Amendment of ip right document requested

Free format text: ST27 STATUS EVENT CODE: A-5-5-P10-P14-NAP-X000 (AS PROVIDED BY THE NATIONAL OFFICE)

P14-X000 Amendment of ip right document requested

St.27 status event code: A-5-5-P10-P14-nap-X000

P14 Amendment of ip right document requested

Free format text: ST27 STATUS EVENT CODE: A-5-5-P10-P14-NAP-X000 (AS PROVIDED BY THE NATIONAL OFFICE)

P14-X000 Amendment of ip right document requested

St.27 status event code: A-5-5-P10-P14-nap-X000