KR100436869B1

KR100436869B1 - 징크 핑거 도메인 및 그 동정 방법

Info

Publication number: KR100436869B1
Application number: KR10-2001-0008021A
Authority: KR
Inventors: 김진수; 권영도; 김현원; 류은현; 황문선
Original assignee: 주식회사 툴젠
Priority date: 2000-02-18
Filing date: 2001-02-17
Publication date: 2004-06-23
Anticipated expiration: 2021-02-17
Also published as: KR20010084880A

Abstract

임의의 주어진 표적 부위를 인식하는 징크핑거 도메인을 동정하는 생체내 선별법을 공개한다. 또한, 특정 부위를 인식하는 징크핑거 도메인의 아미노산 서열을 공개한다.

Description

징크 핑거 도메인 및 그 동정 방법{Zinc Finger Domains and Method of Identifying Same}

본 발명은 전사인자와 같은 DNA-결합 단백질에 관한 것이다.

대부분의 유전자는 보통 프로모터 또는 인핸서 영역 내에 있는 특정 DNA 부위에 결합하는 폴리펩티드 전사인자에 의해 전사 수준에서 조절된다. 이들 단백질들은 프로모터 부위에서 RNA 폴리머라제에 의해 전사 개시를 활성화 또는 억제함으로써 표적 유전자의 발현을 조절한다. 활성화 인자든 억제 인자든 모두 전사인자는 구조적으로 단위모듈성(module)을 갖는다. 그러한 단위모듈은 구조적으로 별개의 도메인으로 폴딩 가능하며, DNA 결합, 이량체화(dimerization) 또는 전사 기구(transcriptional machinary)와의 상호작용과 같은 특수 기능을 가진다. 활성화 도메인 또는 억제 도메인과 같은 효과 도메인들은 이질적 전사인자의 DNA-결합 도메인과 연결되어도 그 기능을 유지한다[Brent 및 Ptashne, (1985)Cell43:729-36; Dawsonet al., (1995)Mol. Cell Biol.15:6923-31]. 징크 핑거 도메인(zinc finger domain), 호메오도메인(homeodomain), 및 헬릭스-턴-헬릭스(helix-turn-helix) 도메인을 포함하는 많은 DNA-결합 도메인의 3차 구조가 NMR 및 X-레이 결정 데이타로 결정되어 있다.

본 발명은 신속하고 대규모적으로 키메라 전사인자를 동정하고 제조하기 위한 세포적 방법을 제공한다. 그러한 키메라 전사인자는 생물의학 및 생물공학적 응용에서 내생 유전자의 발현을 변화시키기 위해 사용될 수 있다. 위 전사인자는 생체 내, 즉, 손상되지 않고 살아 있는 세포내에서 검사된다. 또한 본 발명은 본 발명의 방법을 유전체 서열(genomic sequence)의 스크리닝에 적용함으로써 발견될 수 있는 신규 핵산 결합 도메인을 포함한다.

본 발명은 DNA 상의 표적 부위를 인식하는 펩티드 도메인을 동정하는 방법에 관한 것이다. 이러한 동정 방법을 본원에서 때때로 "도메인 선별법" 또는 "생체내 스크리닝법"으로 지칭된다. 상기 방법은 (1) 리포터 구조물(reporter construct)을 함유하는 세포 및 (2) 다수의 하이브리드 핵산을 제공하는 것을 포함한다. 리포터 구조물은 프로모터에 작용가능하게 연결된 리포터 유전자를 갖고, 프로모터는 소집 부위(recruitment site) 및 표적 부위(target site)를 갖는다. 리포터 유전자는 전사인자가 프로모터의 소집 부위 및 표적 부위를 모두 인식하는 경우(즉, 기준을 넘는 정도의 결합시)에는 소정의 수준을 초과하여 발현되지만, 전사인자가 프로모터의 소집 부위만을 인식하는 경우에는 그러하지 아니하다. 다수의 하이브리드 핵산은, (i) 전사 활성화 도메인, (ii) 소집 부위를 인식하는 DNA 결합 도메인, 및 (iii) 시험 징크 핑거 도메인과 같은 요소를 포함하는 비천연적인 단백질을 코딩한다. 시험 징크 핑거 도메인의 아미노산 서열은 다수의 하이브리드 핵산 서로간에 서로 상이하다. 상기 선택 방법은 다음을 더 포함한다: (3) 다수의 하이브리드 핵산 중 하나 이상이 하나 이상의 세포에 들어갈 수 있게 하는 조건하에서 다수의 핵산을 세포와 접촉시키기; (4) 세포 내에서 하이브리드 핵산이 발현될 수 있게 하는 조건으로 세포를 유지하기; (5) 세포가 표적 부위를 인식하는 시험 징크 핑거 도메인을 코딩하는 하이브리드 핵산을 포함함을 나타내는, 리포터 유전자를 소정 수준 이상으로 발현시키는 세포를 동정하기.

DNA 결합 도메인, 즉, 소집 부위를 인식하고 다수의 하이브리드 구성원 중에서 변하지 않는 도메인은 예를 들면, 한 개, 두 개, 세 개, 또는 그 이상의 징크 핑거 도메인을 포함할 수 있다. 상기 방법에 이용되는 세포는 원핵 또는 진핵세포일 수 있다. 진핵세포의 예로는 사카로미세스 세레비지에(Saccharomyces cerevisiae), 쉬조사카로미세스 폼베(Schizosaccharomyces pombe), 또는, 피치아 파스테우리스(Pichia pasteuris)와 같은 효모 세포; Sf9 세포와 같은 곤충 세포; 및 섬유아세포 또는 림프구와 같은 포유동물 세포를 들 수 있다.

여기서 "소정 수준(given level)"은 전사인자가 소집 부위는 인식하지만, 표적 부위는 인식하지 않을 경우에 관찰되는 발현양이다. 어떤 경우에는 "소정 수준"은 0일 수 있다(적어도 사용되는 검정법의 검출 한도 내에서).

상기 방법은, 예를 들어 유전체 DNA, mRNA 혼합물, 또는 cDNA 혼합물과 같은 핵산으로부터 시험 징크 핑거 도메인을 코딩하는 핵산원(source nucleic acid)을 증폭하여 증폭된 단편을 생산하는 부가적인 단계를 포함할 수 있다. 핵산원은 올리고뉴클레오티드 프라이머를 사용하여 증폭할 수 있다. 올리고뉴클레오티드 프라이머는 도메인의 보존된 경계를 코딩하는 핵산에 결찰되는(annealing) 축중 올리고뉴클레오티드(예를 들면, 상이한 핵산 서열을 갖는 특정 올리고뉴클레오티드의 풀, 또는 이노신과 같은 비천연적 염기를 갖는 특정 올리고뉴클레오티드)의 세트 중 하나 일 수 있다. 또한, 상기 프라이머는 특정 올리고뉴클레오티드일 수 있다. 증폭된 단편은 상기 방법에 사용된 다수의 하이브리드 핵산에 포함되는 하이브리드 핵산을 생산하기 위해 이용된다.

상기 방법은 다음의 단계를 더 포함할 수 있다: (i) 후보 징크 핑거 도메인의 아미노산 서열을 서열 데이타베이스에서 확인하기; (ii) 후보 징크 핑거 도메인의 아미노산 서열을 코딩하는 후보 핵산을 제공하기; 및 (iii) 후보 핵산을 이용하여 전술한 방법에 사용된 다수의 하이브리드 핵산에 포함되는 하이브리드 핵산을 제작하기. 상기 데이타베이스는, 공지 및(또는) 예측되는 단백질과 같은 다수의 아미노산 서열에 관한 기록 뿐만 아니라 cDNA, ESTs, 유전체 DNA, 또는 예측되는 인트론을 제거하기 위해 컴퓨터 처리된 유전체 DNA와 같은 다수의 핵산 서열에 대한 기록을 포함할 수 있다.

원한다면, 상기 방법은 제2 표적 부위(예를 들면, 제1 시험 징크 핑거 도메인에 의해 인식되는 서열과 다른 서열)을 인식하는 제2 시험 징크 핑거 도메인을 동정하기 위해 반복될 수 있다. 후속적으로, 동정된 제1 및 제2 시험 징크 핑거 도메인을 모두 코딩하는 핵산을 제작할 수 있다. 생성되는 하이브리드 단백질은 제1 시험 징크 핑거 도메인의 표적 부위 및 제2 징크 핑거 도메인의 표적 부위를 모두 포함하는 표적 부위를 특이적으로 인식할 수 있을 것이다.

본 발명은 또한 시험 징크 핑거 도메인이 프로모터 내 표적 부위를 인식하는지를 결정하는 방법에 관한 것이다. 본원에서는 이 방법을 때때로 "부위 선별법"이라고 지칭한다. 상기 방법은 리포터 구조물 및 하이브리드 핵산을 제공하는 단계를 포함한다. 리포터 유전자는 소집 부위 및 표적 부위를 포함하는 프로모터에 작용가능하게 연결되고, 전사인자가 프로모터의 소집 부위 및 표적 부위를 모두 인식하는 경우 소정 수준을 초과하는 수준으로 리포터 유전자를 발현시키나 전사인자가 프로모터의 소집 부위만을 인식하는 경우에는 그러하지 아니하다. 하이브리드 핵산은, (i) 전사 활성화 도메인, (ii) 소집 부위를 인식하는 DNA 결합 도메인, 및 (iii) 시험 징크 핑거 도메인으로 이루어진 요소를 포함하는 비천연적 단백질을 코딩한다. 상기 방법은 다음과 같은 단계를 더 포함한다: 리포터 구조물이 세포 내에 들어갈 수 있게 하는 조건하에서 리포터 구조물을 세포와 접촉시키는 단계; 상기 단계 이전, 이후, 또는 상기 단계와 동시에, 하이브리드 핵산이 세포 내에 들어갈 수 있게 하는 조건하에서 하이브리드 핵산을 세포와 접촉시키는 단계; 상기 세포를 하이브리드 핵산이 세포내에서 발현될 수 있게 하는 조건 하에서 유지하는 단계; 및 세포 내 리포터 유전자의 발현을 검출하는 단계. 리포터 유전자의 발현이소정 수준보다 높다는 것은 시험 징크 핑거 도메인이 표적 부위를 인식한다는 지표이다.

상기 리포터 구조물 및 하이브리드 핵산은 별도의 플라스미드에 각각 포함될 수 있다. 두 개의 플라스미드는 세포 내에 동시에 또는 연속적으로 도입될 수 있다. 하나의 플라스미드 또는 두 플라스미드 모두는 선별 마커를 포함할 수 있다. 또한, 리포터 구조물과 하이브리드 핵산이 동일한 플라스미드 내에 포함될 수 있으며, 이 경우에는 리포터 구조물과 하이브리드 핵산을 세포 내로 도입하기 위해 단지 한 번의 접촉 단계만이 필요하다. 또다른 실시 태양에서는, 리포터 구조물 및 하이브리드 핵산 중 하나 또는 양자 모두가 세포의 유전체 내로 안전하게 삽입된다. 상기 방법의 경우, 본원에 기술된 임의의 생체내 방법에 있어서, 전사 활성화 도메인은 전사 억제 도메인으로 대체될 수 있으며, 이 경우에는 리포터 유전자의 발현 수준이 소정 수준 미만으로 감소하는 세포를 동정하게 된다.

본 발명의 또다른 방법에 의하면, 두 세포의 융합이 시험 징크 핑거 도메인의 결합 우선성의 신속한 결정을 용이하게 한다. 이 방법은, 리포터 유전자를 함유하는 제1 세포를 제공하는 단계; 하이브리드 핵산을 함유하는 제2 세포를 제공하는 단계; 제1 세포 및 제2 세포를 융합시켜 융합 세포를 제조하는 단계; 융합 세포를 융합 세포내에서 하이브리드 핵산의 발현을 가능하게 하는 조건하에서 유지하는 단계; 및 융합 세포 내 리포터 유전자의 발현을 검출하는 단계를 포함한다. 여기서 리포터 유전자의 발현 수준이 소정 수준보다 높다는 것은 시험 징크 핑거 도메인이 표적 부위를 인식함을 나타내는 지표이다. 예를 들어, 제1 세포 및 제2 세포는 조직 배양 세포 또는 진균 세포일 수 있다. 본 방법의 예시적인 일 실시 태양에서는 에스. 세레비지애(S. cerevisiae) 세포가 이용된다. 제1 세포는 제1 교배형(예를 들면, MATa)를 가지고, 제2 세포는 제1 교배형과 다른 교배형(예를 들면, MATα)를 가진다. 두 세포를 상호 접촉시키면, 효모 교배(yeast mating)에 의해 제1 세포 및 제2 세포 모두의 유전체를 함유하는 핵을 갖는 단일 세포(예를 들면, MATa/α)가 만들어진다. 본 방법에서는 각 제1 세포가 모두 동일한 제1 교배형이나 서로 다른 표적 부위를 가지는 리포터 구조물을 갖도록 제공된다. 다수의 제2 세포도 모두 동일한 제2 교배형이고 각각 서로 다른 시험 징크 핑거 도메인을 갖도록 제공된다. 모든 가능한 쌍 교배(pair-wise mating)와 같은 다수의 쌍 교배로 매트릭스를 만든다. 이러한 방법은 다수의 결합 부위(예를 들면, 가능한 표적 부위의 모든 완전한 집합)에 대한 다수의 시험 징크 핑거 도메인의 결합 우선성을 결정하는데 이용된다.

본 발명은 또한 시험 징크 핑거 도메인의 결합 우선성을 검사하는 방법을 제공한다. 본 방법은, (1) 본질적으로 모든 세포가 하이브리드 핵산을 함유하는 세포를 제공하는 단계 및 (2) 다수의 리포터 구조물을 제공하는 단계를 포함한다. 다수의 리포터 구조물 각각은 소집 부위 및 표적 부위를 포함하는 프로모터에 작용가능하게 결합된 리포터 유전자를 갖는다. 리포터 유전자는 전사인자가 프로모터의 소집 부위 및 표적 부위를 모두 인식할 경우에는 소정 수준을 초과하여 발현되지만, 전사인자가 단지 프로모터의 소집 부위에만 결합하는 경우는 그러하지 아니하다. 다수의 리포터 구조물 중 표적 부위는 다양하게 변화된다. 하이브리드 핵산은, (i) 전사 활성화 도메인, (ii) 소집 부위를 인식하는 DNA 결합 도메인, 및 (iii) 시험 징크 핑거 도메인과 같은 요소를 갖는 하이브리드 단백질을 코딩한다. 본 방법은 다음 단계를 더 포함한다: 다수의 리포터 구조물 중 하나 이상이 하나 이상의 세포에 들어갈 수 있게 하는 조건 하에서 다수의 리포터 구조물을 세포와 접촉시키는 단계; 세포 내 핵산 발현이 가능한 조건에서 세포를 유지하는 단계; 세포 내에 리포터 구조물을 함유하고 소정 수준 이상으로 리포터 구조물을 발현시키는 세포(리포터 구조물이 소정 수준 이상으로 발현된다는 것은 세포 내 리포터 구조물이 징크 핑거 도메인에 의해 인식되는 표적 부위를 갖는다는 것을 나타낸다)를 동정하는 단계.

시험 징크 핑거 도메인이 하나 이상의 표적 부위에 대하여 결합 우선성을 가질때, 각각 다른 표적 부위를 갖는 다수의 세포를 상기 방법에 의해 동정할 수 있다. 상기 방법은 최고 수준의 리포터 유전자 발현을 보이는 세포를 동정하는 것을 더 포함할 수 있다. 별법으로, 리포터 유전자 발현의 임계 수준(예를 들면, 리포터 유전자 발현이 2, 4, 8, 20, 50, 100, 1000배 또는 그 이상 증가하는 수준)을 결정하고, 임계 수준을 넘어서 리포터 유전자를 발현시키는 모든 세포를 선택하기도 한다.

표적 결합 부위는 예를 들어, 2 내지 6 뉴클레오티드의 길이일 수 있다. 다수의 리포터 구조물은 표적 결합 부위의 2, 3, 또는 4 또는 그 이상 위치에 A, T, G 및 C 뉴클레오티드의 모든 가능한 조합을 포함할 수 있다.

또다른 측면에서, 본 발명은 다수의 징크 핑거 도메인들을 동정하는 방법임을 그 특징으로 한다. 이 방법은 제1 시험 징크 핑거 도메인을 동정하기 위하여 도메인 선별법을 수행하고 다시 제1 시험 징크 핑거 도메인의 표적 부위와는 다른 표적 부위를 인식하는 제2 시험 징크 핑거 도메인을 동정하기 위하여 도메인 선별법을 재수행하는 것을 포함한다. 또다른 특징은 키메라 징크 핑거 단백질을 코딩하는 핵산을 생성하는 방법이며, 이 방법은 제1 및 제2 시험 징크 핑거 도메인을 동정하기 위하여 도메인 선별법을 두 번 수행하고, 제1 및 제2 시험 징크 핑거 도메인을 포함하는 폴리펩티드를 코딩하는 핵산을 제작하는 것을 포함한다. 이렇게 제작된 핵산은 두 개의 하위 부위(subsite)로 이루어진 부위를 특이적으로 인식하는 두 개의 도메인을 포함하는 하이브리드 단백질을 코딩할 수 있다. 상기 두 개의 하위 부위는 각각 제1 시험 징크 핑거 도메인의 표적 부위 및 제2 시험 징크 핑거 도메인의 표적 부위이다.

역시 또다른 측면에서, 본 발명은 징크 핑거 도메인들에 의해 인식되는 DNA 서열을 동정하는 방법에 관한 것이다. 본 방법은 제1 시험 징크 핑거 도메인에 대한 제1 결합 우선 서열을 동정하기 위한 부위 선별법의 수행, 및 제2 시험 징크 핑거 도메인에 대한 제2 결합 우선 서열을 동정하기 위한 부위 선별법의 재수행을 포함한다. 동정된 제1 및 제2 시험 징크 핑거 도메인을 모두 코딩하는 핵산을 제작할 수 있고, 이 핵산은 제1 시험 징크 핑거 도메인의 표적 부위 및 제2 시험 징크 핑거 도메인의 표적 부위를 포함하는 부위를 특이적으로 인식하는 두 도메인을 포함하는 하이브리드 단백질을 코딩할 수 있다.

본 발명은 또한 DNA 상의 표적 부위를 인식하는 펩티드 도메인을 동정하는방법을 제공한다. 이 방법은 (1) 리포터 구조물을 함유하는 세포 및 (2) 다수의 하이브리드 핵산을 제공하는 것을 포함한다. 리포터 구조물은 프로모터에 작용가능하게 연결된 리포터 유전자를 갖고, 프로모터는 소집 부위 및 표적 부위를 갖는다. 리포터 유전자는 전사인자가 프로모터의 소집 부위 및 표적 부위를 모두 인식하는 경우(즉, 기준을 넘는 정도의 결합시)에는 소정 수준 미만으로 발현되지만, 전사인자가 프로모터의 소집 부위만을 인식하는 경우에는 그러하지 아니하다. 다수의 하이브리드 핵산 각각은, (i) 전사 억제 도메인, (ii) 소집 부위를 인식하는 DNA 결합 도메인, 및 (iii) 시험 징크 핑거 도메인과 같은 요소를 포함하는 비천연적인 단백질을 코딩한다. 시험 징크 핑거 도메인의 아미노산 서열은 다수의 하이브리드 핵산 서로간에 서로 상이하다. 상기 선택 방법은 다음 단계를 더 포함한다: (3) 다수의 핵산 중 하나 이상이 하나 이상의 세포에 들어갈 수 있게 하는 조건하에서 다수의 핵산을 세포와 접촉시키는 단계; (4) 세포 내에서 하이브리드 핵산이 발현될 수 있게 하는 조건으로 세포를 유지하는 단계; (5) 세포가 표적 부위를 인식하는 시험 징크 핑거 도메인을 코딩하는 하이브리드 핵산을 포함함을 나타내는, 리포터 유전자를 소정 수준 미만으로 발현시키는 세포를 동정하는 단계. 본 방법의 추가 실시태양도 전사 활성화 도메인을 이용하는 방법과 유사하다. 마찬가지로, 본원에 기술된 임의의 다른 선별법도 전사 활성화 도메인 대신에 전사 억제 도메인을 이용하여 수행할 수 있다.

또다른 측면에서, 본 발명의 특징은 특정의 정제된 폴리펩티드 및 단리된 핵산이다. 본 발명의 정제된 폴리펩티드는 하기의 아미노산 서열을 갖는 폴리펩티드를 포함한다:

X_a-X-Cys-X_2-5-Cys-X₃-X_a-X-Cys-X-Ser-Asn-X_b-X-Arg-His-X_3-5-His (SEQ ID NO:68)

X_a-X-Cys-X_2-5-Cys-X₃-X_a-X-His-X-Ser-Asn-X_b-X-Lys-His-X_3-5-His (SEQ ID NO:69)

X_a-X-Cys-X_2-5-Cys-X₃-X_a-X-Ser-X-Ser-Asn-X_b-X-Arg-His-X_3-5-His (SEQ ID NO:70)

X_a-X-Cys-X_2-5-Cys-X₃-X_a-X-Gln-X-Ser-Thr-X_b-X-Val-His-X_3-5-His (SEQ ID NO:71)

X_a-X-Cys-X_2-5-Cys-X₃-X_a-X-Val-X-Ser-X_c-X_b-X-Arg-His-X_3-5-His (SEQ ID NO:72)

X_a-X-Cys-X_2-5-Cys-X₃-X_a-X-Gln-X-Ser-His-X_b-X-Arg-His-X_3-5-His (SEQ ID NO:73)

X_a-X-Cys-X_2-5-Cys-X₃-X_a-X-Gln-X-Ser-Asn-X_b-X-Val-His-X_3-5-His (SEQ ID NO:74)

X_a-X-Cys-X_2-5-Cys-X₃-X_a-X-Gln-X-Ser-X_c-X_b-X-Arg-His-X_3-5-His (SEQ ID NO:75)

X_a-X-Cys-X_2-5-Cys-X₃-X_a-X-Gln-X-Ala-His-X_b-X-Arg-His-X_3-5-His (SEQ ID NO:150)

X_a-X-Cys-X_2-5-Cys-X₃-X_a-X-Gln-X-Phe-Asn-X_b-X-Arg-His-X_3-5-His (SEQ ID NO:151)

X_a-X-Cys-X_2-5-Cys-X₃-X_a-X-Gln-X-Ser-His-X_b-X-Thr-His-X_3-5-His (SEQ ID NO:152)

X_a-X-Cys-X_2-5-Cys-X₃-X_a-X-Gln-X-Ser-His-X_b-X-Val-His-X_3-5-His (SEQ ID NO:153)

X_a-X-Cys-X_2-5-Cys-X₃-X_a-X-Gln-X-Ser-Asn-X_b-X-Ile-His-X_3-5-His (SEQ ID NO:154)

X_a-X-Cys-X_2-5-Cys-X₃-X_a-X-Gln-X-Ser-Asn-X_b-X-Arg-His-X_3-5-His (SEQ ID NO:155)

X_a-X-Cys-X_2-5-Cys-X₃-X_a-X-Gln-X-Thr-His-X_b-X-Gln-His-X_3-5-His (SEQ ID NO:156)

Cys-X_2-5-Cys-X₃-X_a-X-Gln-X-Thr-His-X_b-X-Arg-His-X_3-5-His (SEQ ID NO:157)

X_a-X-Cys-X_2-5-Cys-X₃-X_a-X-Arg-X-Asp-Lys-X_b-X-Ile-His-X_3-5-His (SEQ ID NO:158)

X_a-X-Cys-X_2-5-Cys-X₃-X_a-X-Arg-X-Ser-Asn-X_b-X-Arg-His-X_3-5-His (SEQ ID NO:159)

X_a-X-Cys-X_2-5-Cys-X₃-X_a-X-Gln-X-Gly-Asn-X_b-X-Arg-His-X_3-5-His (SEQ ID NO:161)

X_a-X-Cys-X_2-5-Cys-X₃-X_a-X-Arg-X-Asp-Glu-X_b-X-Arg-His-X_3-5-His (SEQ ID NO:162)

X_a-X-Cys-X_2-5-Cys-X₃-X_a-X-Arg-X-Asp-His-X_b-X-Arg-His-X_3-5-His (SEQ ID NO:163)

X_a-X-Cys-X_2-5-Cys-X₃-X_a-X-Arg-X-Asp-His-X_b-X-Thr-His-X_3-5-His (SEQ ID NO:164)

X_a-X-Cys-X_2-5-Cys-X₃-X_a-X-Arg-X-Asp-Lys-X_b-X-Arg-His-X_3-5-His (SEQ ID NO:165)

X_a-X-Cys-X_2-5-Cys-X₃-X_a-X-Arg-X-Ser-His-X_b-X-Arg-His-X_3-5-His (SEQ ID NO:166)

X_a-X-Cys-X_2-5-Cys-X₃-X_a-X-Arg-X-Thr-Asn-X_b-X-Arg-His-X_3-5-His (SEQ ID NO:167)

(여기서 X_a는 페닐알라닌 또는 티로신이고, X_b는소수성 잔기이며, X_c는 세린 또는 트레오닌이다.) 본 발명의 핵산은 상기의 폴리펩티드를 코딩하는 핵산을 포함한다.

또한, 본 발명의 정제된 폴리펩티드는 SEQ ID NOs: 23, 25, 27, 29, 31, 33, 35, 37, 39, 41, 43, 45, 47, 49, 51, 53, 55, 57, 59, 61, 63, 65, 67, 103, 105, 107, 111, 113, 115, 117, 119, 121, 123, 125, 127, 129, 131, 133, 135, 137, 141, 143, 145, 147, 149, 또는 151과 50%, 60%, 70%, 80%, 90%, 93%, 95%, 96%,98%, 99%, 또는 100% 동일한 아미노산 서열을 가질 수 있다. 상기 폴리펩티드는 폴리펩티드의 핵산 접촉 잔기에 상응하는 아미노산 위치에서 SEQ ID NOs: 23, 25, 27, 29, 31, 33, 35, 37, 39, 41, 43, 45, 47, 49, 51, 53, 55, 57, 59, 61, 63, 65, 67, 103, 105, 107, 111, 113, 115, 117, 119, 121, 123, 125, 127, 129, 131, 133, 135, 137, 141, 143, 145, 147, 149, 또는 151과 동일할 수 있다. 또는, 상기 폴리펩티드는 폴리펩티드의 핵산 접촉 잔기에 상응하는 잔기들 중 적어도 하나 이상의 잔기가 SEQ ID NOs: 23, 25, 27, 29, 31, 33, 35, 37, 39, 41, 43, 45, 47, 49, 51, 53, 55, 57, 59, 61, 63, 65, 67, 103, 105, 107, 111, 113, 115, 117, 119, 121, 123, 125, 127, 129, 131, 133, 135, 137, 141, 143, 145, 147, 149, 또는 151과 다를 수 있다. 상기 정제된 폴리펩티드는 또한, 이질적 DNA 결합 도메인, 핵으로의 위치지정 신호, 소분자 결합 도메인(예, 스테로이드 결합 도메인), 에피토프 태그 또는 정제를 위한 서열(정제 핸들), 촉매 도메인(예, 핵산 개질 도메인, 핵산 절단 도메인, 또는 DNA 복구 촉매 도메인) 및(또는) 전사에서 기능적 도메인(예, 활성화 도메인, 억제 도메인 등등) 중 하나 이상을 포함할 수 있다. 본 발명은 또한 상기 폴리펩티드를 코딩하는 단리된 핵산 서열, 및 SEQ ID NOs: 22, 24, 26, 28, 30, 32, 34, 36, 38, 40, 42, 44, 46, 48, 50, 52, 54, 56, 58, 60, 62, 64, 66, 102, 104, 106, 110, 112, 114, 116, 118, 120, 122, 124, 126, 128, 130, 132, 134, 136, 140, 142, 144, 146, 148 또는 150, 또는 이들의 상보물들로 이루어진 프로브 서열의 단일 가닥 프로브에 엄격한 조건하에서 혼성화하는 단리된 핵산 서열을 포함한다. 본 발명은 본 발명의 폴리펩티드를 이질적 핵산 결합 도메인에 융합시켜 세포 내에서 발현시키는 방법을 더 포함한다. 이 방법은 상기 융합 단백질을 코딩하는 핵산을 세포 내로 도입하는 것을 포함한다. 이러한 본 발명의 핵산은 유도성 프로모터(예, 스테로이드 호르몬 조절성 프로모터, 소분자 조절성 프로모터, 또는 테트라사이클린 Tet-On 및 Tet-Off 시스템과 같은 조작된 유도성 시스템)와 같은 이질적 핵산 서열에 의해 조작가능하게 조절될 수 있다.

"염기 접촉 위치"라는 용어는, SEQ ID NO:21에서 아르기닌 73, 아스파르트산 75, 글루탐산 76, 및 아르기닌 79 아미노산에 구조적으로 대응되는 징크 핑거 도메인의 네(4) 아미노산들의 위치를 지칭한다. 이들 위치는 또한 -1, 2, 3, 및 6번 위치로 지칭되기도 한다. 의문 서열내 염기 접촉 위치에 상응하는 위치를 동정하기 위해서는, 의문 서열의 시스테인 및 히스티딘 잔기가 Zif268의 핑거 3의 시스테인 및 히스티딘 잔기와 나란이 오도록 의문 서열을 관심 징크 핑거 도메인과 정렬시킨다. 유럽 생물정보 연구소(European Bioinformatics Institute)의 ClustalW WWW 서비스(http://www2.ebi.ac.uk/clustalw; Thompsonet al.(1994)Nucleic Acids Res.22:4673-4680)은 서열 정열의 한 간단한 방법을 제공한다.

"이질적(heterologous)"이라는 용어는 인위적으로 문맥 중에 도입된 폴리펩티드로, 동일 문맥에 천연적으로는 존재하지 않는 폴리펩티드를 말한다. "하이브리드"라는 용어는 (i) 두 개 이상의 천연적으로 존재하는 서열; (ii) 적어도 하나의 인공 서열(즉, 천연적으로 존재하지 않는 서열) 및 하나의 천연적으로 존재하는 서열; 또는 (iii) 두 개 이상의 인공 서열 중 어느 하나에서 유래하는 아미노산 서열을 함유하는 폴리펩티드를 지칭한다. 인공 서열의 예로는 천연적으로 존재하는서열의 돌연변이 및 새로이 설계된 서열이 있다.

본원에서 사용된 "엄격한 조건하에서 혼성화"라는 용어는, 45℃에서 6X 염화 나트륨/구연산 나트륨(SSC) 중에서 혼성화시키고, 이어서 65℃에서 0.2 X SSC, 0.1% SDS로 2회 세척하는 조건을 지칭한다.

"결합 우선성(binding preference)"라는 용어는 폴리펩티드가 다른 결합 부위에 비해 하나의 핵산 결합 부위를 선별적으로 선택하는 식별력을 지칭한다. 예를 들어, 핵산 결합 부위에 비해 폴리펩티드가 양적으로 제한적일 때, 본원에 기술된 생체 내 또는 생체 외 검사법에서 선호되지 않는 부위보다 선호되는 부위에 더 많은 양의 폴리펩티드가 결합할 것이다.

본원에서 사용된 "인식(하다)"라는 용어는 하나의 핵산 결합 부위를 제2의 경쟁 부위와 식별하는 폴리펩티드의 능력을 지칭하며, 따라서, 예를 들어, 본원에 기술된 검사에서는 제2의 경쟁 부위의 과잉 존재하에서도 폴리펩티드는 제1의 결합 부위에 결합한 채로 남아있게 된다. 이 폴리펩티드는 혼자서는 제1의 결합 부위에 대하여 충분한 친화도를 갖지 않을 수도 있지만, 인접하는 소집 부위에 결합하는 또다른 핵산 결합 도메인과 본 발명의 하이브리드 폴리펩티드로 융합될 경우에는 제1 결합 부위에 대한 결합여부를 검사할 수 있다.

본원에서 "축중 올리고뉴클레오티드"란 (a) 상이한 올리고뉴클레오티드들의 집단, 및 (b) 하나 이상의 서열에 어닐링할 수 있는 단일 종의 올리고뉴클레오티드 (예를 들면, 이노신과 같은 비자연적 뉴클레오티드를 갖는 올리고뉴클레오티드) 둘 다를 의미한다.

본 발명은 다양한 잇점을 제공한다. 특정 서열을 인식하는 DNA 결합 도메인을 선별할 수 있는 능력은 DNA의 특정 부위에 결합하는 신규 폴리펩티드의 디자인을 가능케 한다. 따라서, 본 발명은 선택된 표적의 발현을 조절할 수 있는(예를 들어, 병원체가 필요로 하는 유전자의 억제, 암 증식에 필요한 유전자의 억제, 또는 발현이 잘 안되는 유전자 또는 변이 단백질을 코딩하는 유전자의 활성화 또는 과다발현 등등) 신규 폴리펩티드의 통상적인 생산을 용이하게 한다.

징크 핑거 도메인을 이용하는 것은 특히 유리하다. 첫째로, 징크 핑거 모티브는 매우 다양한 DNA 서열을 인식한다. 둘째로, 자연 발생적 징크 핑거 단백질의 구조는 단위모듈성이다. 예를 들면, "Egr-1"으로도 불리는 Zif268 징크 핑거 단백질은 세 개의 징크 핑거 도메인이 직렬로 구성되어 있다. 도1은 DNA와 복합체를 이룬 세 개의 핑거로 이루어진 Zif268 징크 핑거 단백질의 X-선 결정 구조이다[Pavletich 및 Pabo, (1991) Science 252:809-817]. 각 핑거는 DNA 인식 부위의 3-4 염기쌍과 독립적으로 접촉한다. 따라서, 각각의 핑거와 하위 부위(subsite)의 접촉은 독립적인 분자적 인식으로 여겨질 수 있다. 동일한 폴리펩티드 사슬 내에 여러 개의 징크 핑거 단위모듈이 협동 효과를 발휘함으로써 고 친화도 결합이 달성된다.

생체내 선별법의 사용은 세포내 환경에서 DNA의 특정 부위에 결합하는 폴리펩티드의 직접적 동정을 가능하게 한다. 세포 내, 특히 진핵 세포 내 인식과 연관된 인자들은 시험관 내 선별 시나리오 중에 존재하는 인자들과는 크게 다르다. 예를 들면, 진핵세포 핵 내에서, 폴리펩티드는 특정 핵산 결합 부위를 놓고 무수히많은 다른 핵 단백질들과 경쟁해야만 한다. 뉴클레오좀(nucleosome) 또는 기타 크로마틴 단백질이 결합 부위를 차지하거나 폐쇄하거나, 또는 이 결합 부위에 경쟁적으로 작용할 수 있다. 비록 다른 단백질들과 결합되어 있지 않다 하더라도, 세포 내의 핵산 구조는 구부러짐, 슈퍼코일링, 비틀림, 및 풀릴 필요가 있다. 반면, 폴리펩티드 자체도 프로테아제 및 챠페론(chaperone), 기타 인자들 중에 노출되어 있다. 게다가, 폴리펩티드는 전체 유전자라는 결합 가능한 부위와 직면하게 되고, 그리하여 선별 과정에서 선별되기 위하여는 원하는 부위로의 높은 특이성이 있어야만 한다. 생체 내 선별과는 대조적으로, 생체 외 선별은 높은 특이성을 갖는 결합물 보다는 높은 친화도를 갖는 결합물을 선택할 수 있다.

발현되는 키메라 폴리펩티드의 결합 능력을 보여주기 위해 리포터 유전자를 사용하는 것은 효과적이고 간단할 뿐 아니라, 단백질-핵산 접경의 에너지학, 주변 잔기 및 결합에 영향을 주는 뉴클레오티드와 같은 수 많은 주변 인자들을 계산에 넣어 작성하는 복잡한 상호작용 코드를 만들 필요가 없어서 유리하다[Segalet al.(1999)Proc. Natl. Acad. Sci. USA 96:2758-2763].

본 발명은 그 자체로 인간 유전체, 또는 임의의 다른 종의 유전체에 존재하는 모든 징크 핑거 도메인을 유용하게 한다. 이러한 다양한 표본으로부터 징크 핑거 도메인의 구조적 폴딩이 점유하는 서열 공간을 선택함은 오랜 옛날부터 자연적으로 선택되게 된 잇점을 본래적으로 가질 수 있다. 게다가, 본원에 기술된 방법에 따라 유전자 치료에 적용되도록 설계된 DNA 결합 단백질은 숙주 종으로부터 얻은 도메인을 이용하기 때문에 숙주 면역계에 의해 외부적인 것으로 취급될 가능성이 감소된다.

하나 이상의 본 발명의 상세한 실시태양을 첨부 도면 및 하기 설명으로 제시한다. 본 발명의 다른 특징, 목적, 및 잇점은 이 설명 및 도면, 및 청구항으로부터 명백해질 것이다.

도 1은 3개의 징크 핑거 도메인으로 구성된 Zif268 징크 핑거 단백질이 DNA 서열 5'-GCG TGG GCG T-3'와 결합하고 있는 모습을 보여 주는 3차 구조를 나타내는 도면이다.

도 2는 Zif268의 아미노산 잔기와 DNA 염기 사이의 수소 결합 상호작용을 나타낸다. 알파헬릭스를 따라 -1, 2, 3 및 6 위치의 아미노산 잔기들은 특정 위치의 염기들과 상호작용한다. 굵은 선은 이상적인 수소 결합을 나타내며, 점선은 잠재적인 수소 결합을 나타낸다.

도 3은 징크 핑거 도메인의 알파헬릭스를 따라 -1, 2, 3 및 6번 위치의 아미노산 잔기와 DNA 염기 사이의 상호작용을 요약한 인식 코드(recognition code) 표를 나타낸다.

도 4는 아미노산 잔기 및 이들의 상응하는 3 염기 세트(3 base triplet)의 위치를 나타내는 도면이다. 굵은 선은 관찰되는 주요 상호작용을 나타내고 점선은 보조 상호작용을 나타낸다.

도 5는 본 명세서에 개시된 생체 내 (in vivo) 선별 시스템의 원리를 설명하는 도면이다. 다양한 징크 핑거 돌연변이 중, 징크 핑거 도메인 A는 표적서열(XXXX 로 표시)을 인식하고HIS3리포터 유전자의 전사를 활성화시킨다. 결과적으로, 효모 콜로니는 히스티딘이 결핍된 배지에서 자란다. 이와 대조적으로, 징크 핑거 도메인 B는 표적 서열을 인식하지 않으며 따라서 리포터 유전자는 억압되어 있게 된다. 그 결과, 히스티딘이 결핍된 배지에서 콜로니가 자라지 않는다. AD는 전사 활성화 도메인을 나타낸다.

도 6은 HIV의 긴말단반복부위(Long Terminal Repeat; LTR)에서 및 HIV-1의 공수용체(coreceptor)를 코딩하는 인간 유전자인 CCR5의 프로모터 부위에서 발견되는 10-bp 서열의 목록이다(각각 SEQ ID NOs: 1-5). 밑줄친 부분은 본 발명의 선별에서 사용된 4-bp 표적 서열을 나타낸다.

도 7은 리포터 유전자에 연결된 결합 부위의 염기 서열을 나타낸다 (각각 SEQ ID NOs: 6-17). 각각의 결합 부위는 복합 결합 서열 4 카피가 직렬로 배치되어 구성되어 있다. 각각의 복합 결합 서열은 Zif268의 핑거 1 및 핑거 2에 의해 인식되는 절단된 결합 서열 5'-GG GCG-3'을 4-bp 표적 서열에 연결시켜 제조되었다.

도 8은 하이브리드 플라스미드의 라이브러리 제조에 사용 가능한 플라스미드인 pPCFMS-Zif의 도면이다(SEQ ID NO: 18 및 19).

도 9는 pPCFMS-Zif에 삽입된 Zif268 징크 핑거 단백질을 코딩하는 유전자에 대한 염기 서열 및 상응하는 번역된 아미노산 서열을 나타낸다 (각각 SEQ ID NOs: 20 및 21). 제한 효소에 의해 인식되는 부위에 밑줄을 그었다.

도 10은 생체 내 선별 시스템에 의해 선택된 징크 핑거 단백질을 사용하여재형질전환(retransformation) 및 교차 형질전환(cross-transformation)으로부터 얻은 효모 세포를 가지는 배양 플레이트의 사진이다.

도 11은 인간 유전체로부터 제조된 징크 핑거 라이브러리로부터 생체 내 시스템에 의해 선택된 징크 핑거 도메인의 특정 DNA 서열 및 이 DNA 서열에 의해 코딩되는 아미노산 서열의 목록이다 (SEQ ID NOs: 22-33). 인간 유전체로부터 징크 핑거 도메인을 코딩하는 DNA 세그먼트를 증폭시키는 데 사용되는 축중(degenerate) PCR 프라이머에 상응하는 DNA 서열에 밑줄을 그었다. 4개의 잠재적인 염기-접촉 위치를 표시하였으며, 아미노산 잔기를 굵게 나타내었다. 아연 이온과 배위결합할 것으로 예상되는 두 개의 Cys 잔기 및 두 개의 His 잔기를 이탤릭체로 나타내었다.

본 발명은 시험 징크 핑거 도메인의 핵산 결합 우선성을 결정하기 위한 새로운 스크리닝법에 관한 것이다. 이 방법에서는 다양한 종류의 DNA 결합 도메인, 이들 도메인의 다양한 원천들 및 수 많은 설계된 라이브러리, 수 많은 리포터 유전자, 및 수 많은 선별 및 스크리닝 시스템이 이용될 수 있다. 이 스크리닝 방법은 많은 작업처리량을 기반으로 하여 수행될 수 있다. 이 스크리닝 방법으로부터 얻은 정보는 인위적 핵산 결합 단백질을 디자인하는 방법에 즉시 이용될 수 있다. 상기 인위적 핵산 결합 단백질을 디자인하는 방법은 시험 징크 핑거 도메인의 결합 우선성를 이용하여 키메라 핵산 결합 단백질의 단위체적 조립을 가능하게 한다. 디자인된 단백질은 상기 스크리닝 방법으로 더욱 최적화되거나 또는 변형될 수 있다.

DNA 결합 도메인

본 발명은 상이한 결합 특이성을 갖는 핵산 결합 도메인의 집합체를 이용한다. 높은 친화성 및 높은 특이성을 가지고 핵산에 결합하는 다양한 단백질 구조가 알려져 있다. 수 많은 상이한 단백질들은 이들 구조를 반복적으로 포함하여 핵산의 기능을 특이적으로 제어한다 (이중 나선 DNA를 인식하는 구조적 모티브 검토를 위해, 예를 들어 문헌 [Pabo and Sauer (1992)Annu. Rev. Biochem. 61:1053-95; Patikoglou and Burley (1997)Annu. Rev. Biophys. Biomol. Struct. 26: 289-325; 및 Nelson (1995)Curr Opin Genet Dev. 5:180-9] 참조). 핵산 결합 도메인에 대한 몇 가지 비제한적인 예는 다음과 같다.

징크 핑거.징크 핑거는 대략 30 개의 아미노산 잔기로 된 작은 폴리펩티드 도메인으로서, 그 중 시스테인 또는 히스티딘으로 된 4 개의 아미노산이 적절히 배치되어 아연 이온과 배위결합을 할 수 있다(도 1 참조; 검토를 위해 예를 들어 문헌 [Klug and Rhodes (1987)Trends Biochem. Sci.12: 464-469 (1987); Evans and Hollenberg (1988)Cell52: 1-3; Payre and Vincent (1988)FEBS Lett.234: 245-250; Miller et al. (1985)EMBO J.4:1609-1614; Berg (1988)Proc. Natl. Acad. Sci. U.S.A.85:99-102; 및 Rosenfeld and Margalit (1993)J. Biomol. Struct. Dyn.11: 557-570] 참조). 따라서, 징크 핑거 도메인은 아연 이온과 배위결합을 하는 잔기의 종류에 따라 예를 들어 Cys₂-His₂류, Cys₂-Cys₂류, Cys₂-CysHis류 등으로 분류할 수 있다. Cys₂-His₂징크 핑거에서 아연과 배위결합하는 잔기는 전형적으로 X_a-X-C-X_2-5-C-X₃-X_a-X₅-ψ-X₂-H-X_3-5-H (여기서 ψ(프사이)는 소수성 잔기임)과 같이 배치되어 있으며[Wolfe et al., (1999)Annu. Rev. Biophys. Biomol. Struct. 3:183-212](SEQ ID NO:76), 여기서 "X"는 임의의 아미노산을 나타내고 X_a는 페닐알라닌 또는 티로신이며, 아래첨자는 아미노산의 개수를 가리키고 두 개의 아래첨자는 개입하는 아미노산의 전형적인 범위를 가리킨다. 비록 역평행 (anti-parallel) 베타시트는 짧고 비이상적이고 존재하지 않을 수 있지만, 개입하는 아미노산은 폴딩되어 전형적으로 알파헬릭스에 대하여 충전되는 역평행 베타시트를 형성한다. 폴딩으로 아연과 배위결합하는 면의 사슬이 아연 이온과 배위결합하기에 적합한 사면체 구조를 갖도록 배치된다. 염기 접촉 잔기는 핑거의 N-말단에 위치하고 선행하는 루프 지역에 위치한다(도 2). 징크 핑거 DNA-결합 단백질은 통상적으로 직렬로 배치된 세 개 이상의 징크 핑거 도메인으로 구성된다.

징크 핑거 도메인("ZFD")는 가장 흔한 진핵생물 DNA-결합 모티브 중 하나로서 효모로부터 고등 식물 및 인간에 이르는 다양한 종에서 발견된다. 인간 유전체에만도 수 천가지 이상의 징크 핑거 도메인이 존재할 것으로 추측된다. 징크 핑거 도메인은 징크 핑거 단백질로부터 단리될 수 있다. 징크 핑거 단백질의 비제한적인 예로는 CF2-II, 크룹펠(Kruppel), WT1, 바소누클린(basonuclin), BCL-6/LAZ-3, 적혈구 크룹펠-유사 전사인자, 전사인자 Sp1, Sp2, Sp3 및 Sp4, 전사 억제제 YY1, EGR1/Krox24, EGR2/Krox20, EGR3/Pilot, EGR4/AT133, Evi-1, GLI1, GLI2, GLI3, HIV-EP1/ZNF40, HIV-EP2, KR1, ZfX, ZfY 및 ZNF7 등이 있다.

하기 전산화 방법을 사용하여 서열이 밝혀진 유전체 중에서 또는 핵산 데이터베이스 중에서 모든 징크 핑거 도메인을 동정할 수 있다. 임의의 그러한 징크 핑거 도메인을 이용할 수 있다. 또한, 인위적인 징크 핑거 도메인이 예를 들어 전산화 방법에 의해 디자인되었다[예를 들어, Dahiyat and Mayo (1997)Science278:82-7]. 상기 문헌의 징크 핑거는 징크 핑거 폴딩은 채택하지만 그 중앙 코어에 아연 이온을 함유하지는 않는다. 따라서, 이는 아연 이온과 배위결합한다는 기능 면에서라기보다, 그 폴리펩티드 골격이 천연 징크 핑거 폴딩과 구조적으로 유사하다는 점에서의 징크 핑거이다.

호메오도메인.호메오도메인은 DNA의 부된(minor) 그루브(groove)와 접촉하는 N-말단 가지 및 이어 주된(major) 그루브와 접촉하는 3 개의 알파헬릭스로 구성되는 단순한 진핵생물 도메인이다[예를 들어, Laughon, (1991)Biochemistry30: 11357-67 참고]. 세 번째 알파헬릭스는 주된 그루브 중에 위치하며 결정적인 DNA-접촉 측쇄를 함유한다. 호메오도메인은 세 번째 알파헬릭스로 인도하는 전환점에 존재하는 고도로 보존된 특징적인 모티브를 가진다. 이 모티브는 도메인의 소수성 코어 내에 존재하는 불변 트립토판을 포함한다. 이 모티브는 프로사이트(Prosite) 데이터베이스 (http://www.expasy.ch/ 참고)에 PDOC00027로서 공지되어 있다 ([L/I/V/M/F/Y/G]-[A/S/L/V/R]-X(2)-[L/I/V/M/S/T/A/C/N]-X-[L/I/V/M]-X(4)-[L/I/V]-[R/K/N/Q/E/S/T/A/I/Y]-[L/I/V/F/S/T/N/K/H]-W-[F/Y/V/C]-X-[N/D/Q/T/A/H]-X(5)-[R/K/N/A/I/M/W]; SEQ ID NO:77). 호메오도메인은 세포 동일성을 결정하고 유기체의 발생 과정에서 위치적인 정보를 제공하는 전사인자에서 흔히 발견된다. 그러한 고전적인 호메오도메인은, 유전체상에 무리(cluster)지어 존재하는데, 호메오도메인의 발현 패턴이 바디축(body axis)을 따라 근사적으로 상응하도록 유전체 무리(cluster) 중에서 발견될 수 있다. 호메오도메인은 예를 들어 Hox-1과 같은 호메오도메인과의 정렬에 의해, 또는 호메오도메인 프로필 또는 호메오도메인 히든 마르코프 모델(hidden Markov Model; HMM; 하기 참조), 예를 들어Pfarm 데이터베이스의 PF00046 또는 SMART 데이터베이스의 "HOX"와의 정렬에 의해 (http://smart.embl-heidelberg.de/), 또는 상기한 프로사이트 모티브 PDOC00027에 의해 동정 가능하다.

헬릭스-턴-헬릭스 단백질.이 DNA 결합 모티브는 많은 원핵 생물 전사인자 중에서 흔히 발견된다. 예를 들어 LacI 족, AraC 족 등 많은 아족이 있다. 명칭에서 두 개의 헬릭스는 DNA의 주된 그루브에 대항하여 위치하고 두 번째 알파헬릭스를 DNA의 주된 그루브 내로 배치하는 첫번째 알파헬릭스 및 이렇게 DNA의 주된 그루브에 위치하는 두 번째 알파헬릭스이다. 이들 도메인은 HMM, 예를 들어 SMART 데이터베이스에서 얻을 수 있는 HTH_ARAC, HTH_ARSR, HTH_ASNC, HTH_CRP, HTH_DEOR, HTH_DTXR, HTH_GNTR, HTH_ICLR, HTH_LACI, HTH_LUXR, HTH_MARR, HTH_MERR 및 HTH_XRE 프로필과의 정렬에 의해 동정된다 (http://smart.embl-heidelberg.de/).

헬릭스-루프-헬릭스 단백질.이 DNA 결합 도메인은 예를 들어 MyoD, fos, jun, E11 및 미오제닌과 같은 호모- 및 헤테로-이량체 전사인자들 사이에 공통적으로 발견된다. 이 도메인은 이량체 및 그 사이의 루프로 이루어지며, 각 단량체는 두 개의 알파헬릭스에 걸쳐 결합한다. 이 도메인은 예를 들어 SMART 데이터베이스(http://smart.embl-heidelberg.de/)에서 이용 가능한 "HLH" 프로필과 같은 HMM과의 정렬에 의해 동정될 수 있다. 비록 헬릭스-루프-헬릭스 단백질은 전형적으로 이량체성이지만, 폴리펩티드 링커를 두 개의 서브유닛 사이에 설계하여 단일 오픈 리딩 프레임(open reading frame)이 두 개의 서브유닛 및 링커를 코딩하도록 함으로써 단량체성 버젼을 구축할 수 있다.

DNA-결합 도메인의 동정

다양한 방법을 사용하여 구조 도메인을 동정할 수 있다.

전산화 방법(Computational Method).본 명세서에 기술된 방법에 의해 단리된 DNA 결합 도메인의 아미노산 서열을 공지 서열의 데이터베이스, 예를 들어 단백질 서열의 주석을 단 데이터베이스 또는 핵산 결합 도메인에 대한 기입을 포함하는 주석을 단 데이터베이스와 비교할 수 있다. 또다른 실시면에서는, 비특성화된 서열, 예를 들어 주석을 달지 않은 유전체 서열, EST 또는 전장 cDNA 서열; 특성화된 서열, 예를 들어 SwissProt 또는 PDB; 및 도메인, 예를 들어 Pfarm, ProDom (http://www.tooulouse.inra.fr/), 및 SMART (Simple Modular Architecture Research Tool, http://smart.embl-heidelberg.de/)의 데이터베이스가 핵산 결합 도메인 서열의 원천을 제공할 수 있다. 의문 아미노산 서열과 비교하기 위하여 핵산 서열 데이터베이스를 모든 6개의 해독 프레임(reading frame)으로 번역할 수 있다. 후보 핵산 결합 도메인을 코딩하는 것으로 표식된 핵산 서열을 적합한 핵산 원, 예를 들어 유전체 DNA 또는 세포 RNA로부터 증폭할 수 있다. 그러한 핵산 서열을 발현 벡터 중으로 클로닝할 수 있다. 컴퓨터에 기초한 도메인 동정의 상기 과정을 올리고뉴클레오티드 합성기 및 로보트 시스템과 연계시켜 높은 작업처리량으로 도메인을 코딩하는 핵산을 생산할 수 있다. 후보 도메인을 코딩하는 클로닝된 핵산을 숙주 발현 벡터 중에 저장하고 제한 효소 매개 서브클로닝 또는 부위-특이적 재조합효소 매개 서브클로닝(미국특허 제5,888,732호 참조)에 의해 Zif268 핑거 1 및 2와 함께 발현 벡터, 예를 들어 번역 융합 벡터 중으로 도입시킬 수 있다. 높은 작업 처리량을 위하여, 상이한 후보 핵산 결합 도메인을 코딩하는 핵산을 함유하는 다수의 마이크로타이터 플레이트를 생성할 수 있다.

출발 서열 또는 프로필로부터 도메인을 동정하는 세부 방법은 당업계에 주지되어 있다. 예를 들어 프로사이트([Hofmann et al., (1999)Nucleic Acids Res.27:215-219] 참조), FASTA, BLAST([Altschul et al., (1990)J. Mol. Biol.215:403-10] 참조) 등을 참조할 수 있다. 간단한 스트링 검색을 수행하여 의문 서열 또는 의문 프로필에 대한 동일성을 가지는 아미노산 서열을 찾을 수 있으며, 예를 들어 Perl(http://bio.perl.org/)을 사용하여 텍스트 화일을 스캐닝할 수 있다. 이렇게 동정된 서열은 초기 입력 서열에 대해 약 30%, 40%, 50%, 60%, 70%, 80%, 90% 또는 그 이상의 일치성을 나타낼 수 있다.

의문 도메인과 유사한 도메인을 공용 데이터베이스, 예를 들어 문헌 [Altschul et al., (1990)J. Mol. Biol.215:403-10]의 XBLAST 프로그램(버젼 2.0)을 사용하여 동정할 수 있다. 예를 들어, 스코어 = 50, 단어 길이 = 3의 XBLAST 변수를 사용하여 BLAST 단백질 검색을 수행할 수 있다. 문헌 [Altschul et al., (1997)Nucleic Acids Res.25(17):3389-3402]에 기술된 바와 같이 의문 서열 또는 검색된 서열에 간격을 도입할 수 있다. XBLAST 및 Gapped BLAST 프로그램에 대한 디폴트 변수는 http://www.ncbi.nlm.nih.gov 사이트에서 구할 수 있다.

프로사이트 프로필 PS00028 및 PS50157을 사용하여 징크 핑거 도메인을 동정할 수 있다. 80,000개 단백질 서열의 SWISSPROT 방출 중, 이들 프로필은 각각 3189 및 2316 개의 징크 핑거 도메인을 찾아내었다. 다양한 상이한 기법을 사용하여 관련된 단백질의 다중 서열 정렬로부터 프로필을 구축할 수 있다. 그리브스코프(Gribskov) 및 그의 동료들[Gribskov et al., (1990)Meth. Enzymol.183:146-159]은 심벌 비교 표를 이용하여 잔기 빈도 분포가 제공된 다중 서열 정렬을 각 위치에 대한 무게로 전환하였다. 예를 들어 프로사이트 데이터베이스 및 문헌 [Luethy et al., (1994)Protein Sci.3:139-1465]의 작업을 참조할 수 있다.

관심있는 DNA 결합 도메인을 대표하는 히든 마르코프 모델(Hidden Markov Models; HMM's)은 예를 들어 팜(Pfarm) 데이터베이스, 릴리스 2.1과 같은 그러한 모델의 데이터베이스로부터 생성되거나 얻을 수 있다. 추가적인 도메인을 찾기 위해 예를 들어 상기 디폴트 변수를 사용하여 HMM으로 데이터베이스를 검색할 수 있다(예. 디폴트 변수를 위해 http://www.sanger.ac.uk/Software/Pfam/HMM_search 참조). 또는, 사용자는 상기 변수들을 최적화시킬 수 있다. 경계 스코어를 선택하여 서열 데이터베이스를 여과함으로써 경계 이상의 스코어를 가지는 서열이 후보 도메인으로서 표시되도록 할 수 있다. Pfam 데이터베이스의 설명은 문헌[Sonhammer et al., (1997)Proteins28(3):405-420]에서 찾을 수 있으며, HMM에 관한 상세한 설명은 예를 들어 문헌[Gribskov et al., (1990)Meth. Enzymol.183:146-159; Gribskov et al,. (1987)Proc. Natl. Acad. Sci. USA84:4355-4358; Krogh et al., (1994)J. Mol. Biol.235:1501-1531; 및 Stultz et al., (1993)Protein Sci.2:305-314]에서 찾을 수 있다.

HMM의 SMART 데이터베이스(Simple Modular Architecture Research Tool, http://smart.embl-heidelberg.de/; 문헌[Schultz et al., (1998)Proc. Natl. Acad. Sci. USA95:5857; 및 Schultz et al., (2000)Nucl. Acids Res28:231])는, HMMer2 검색 프로그램(문헌[Durbin et al., (1998)Biological sequence analysis: probabilistic models of proteins and nucleic acids.Cambridge University Press.]; http://hmmer.wustl.edu/)의 히든 마르코프 모델로 프로필함으로써 동정된 징크 핑거 도메인의 카탈로그(ZnF_C2H2; ZnF_C2C2; ZnF_C2HC; ZnF_C3H1; ZnF_C4; ZnF_CHCC; ZnF_GATA; 및 ZnF_NFX)를 제공한다.

혼성화에 기초한 방법.다양한 형태의 DNA 결합 도메인을 코딩하는 핵산 집합체를 분석하여 아미노 말단 및 카르복시 말단의 보존적 경계 서열을 코딩하는 서열 프로필을 얻을 수 있다. 그러한 보존적 경계 서열을 코딩하는 핵산 서열에 혼성화할 수 있는 축중 올리고뉴클레오티드를 디자인할 수 있다. 또한, 그러한 축중 올리고뉴클레오티드의 유효성은 그들의 조성과 공지된 유전체 서열 상의 가능한 어닐링 부위의 빈도를 비교함으로써 평가될 수 있다. 다수 반복된 디자인에 의해 축중 올리고뉴클레오티드를 최적화할 수 있다. 예를 들어, 공지의 Cys₂-His₂징크 핑거들을 비교함으로써 천연 서열 중의 인접 핑거들 사이의 링커 지역의 공통 서열을 밝혀내었다 (문헌 [Agata et al., (1998)Gene213:55-64] 참조). 그러한 축중 올리고뉴클레오티드는 다수의 DNA 결합 도메인을 증폭시키는데 사용된다. 증폭된 도메인을 시험 징크 핑거 도메인으로서 하이브리드 핵산 중에 삽입하고 후속적으로본 명세서에 기술된 방법에 따라 표적 부위에의 결합을 분석한다.

라이브러리 디자인

이 방법은 DNA 결합 도메인을 코딩하는 핵산의 집합체(예를 들어 플라스미드, 파지미드 또는 파지 라이브러리의 형태) 중에서 기능적 핵산 결합 특성의 스크리닝을 가능하게 한다. 상기 핵산 집합체는 다양한 군의 DNA 결합 도메인을 코딩할 수 있으며, 심지어 상이한 폴딩 구조를 갖는 도메인도 코딩할 수 있다. 일 예로, 상기 집합체는 징크 핑거 도메인과 같은 단일 폴딩 구조의 도메인을 코딩한다. 비록 하기 방법은 징크 핑거 도메인에 관하여 기술되었지만, 당업계의 숙련가라면 이를 다른 유형의 핵산 결합 도메인에 응용할 수 있을 것이다.

도메인 돌연변이.일 예에서, 상기 핵산 집합체는, 축중 패턴화 라이브러리로부터 조립되는 구조 도메인을 코딩하는 핵산으로 구성된다. 예를 들어, 징크 핑거의 경우, 공지 징크 핑거의 정렬을 통하여 각 위치에서의 가장 적합한 아미노산을 동정할 수 있다. 별법으로, 구조적 연구 및 돌연변이유발(mutagenesis) 실험을 통하여 각 위치 아미노산의 바람직한 특성을 결정할 수 있다. 임의의 핵산 결합 도메인도 돌연변이를 도입하기 위한 구조적 기반으로 사용될 수 있다. 특히, 핵산과 결합하는 부위에 매우 근접한 위치 또는 그러한 위치 옆을 돌연변이 유발을 위한 표적으로 삼을 수 있다. 패턴화된 축중 라이브러리를 사용함으로써, 돌연변이된 시험 징크 핑거 도메인의 돌연변이 위치에 가능한 아미노산을 일정한 종류로 한정시킬 수 있다. 각 위치에 상기 프로필을 코딩하기 위하여 축중 코돈 세트를 사용할 수 있다. 예를 들어, 소수성 잔기만, 지방족 잔기만 또는 친수성 잔기만을 코딩하는 코돈 세트가 이용가능하다. 폴딩된 폴리펩티드를 코딩하는 전장 클론을 위하여 상기 라이브러리를 선별할 수 있다. 문헌 [Cho et al., (2000)J. Mol. Biol.297(2):309-19]에서는 축중 올리고뉴클레오티드를 사용하여 그러한 축중 라이브러리를 제조하는 방법을 제공하며, 또한 전장 폴리펩티드를 코딩하는 라이브러리 핵산을 선별하는 방법을 제공한다. 이러한 핵산은 본 명세서에 기재된 선별법에 사용되기 위하여 편리한 제한 효소 절단 부위 또는 전위효소(transposase) 또는 재조합효소(recombinase) 인식 부위를 사용하여 발현 플라스미드 내로 쉽게 삽입할 수 있다.

적합한 코돈 및 주어진 위치에서의 각 뉴클레오티드의 상대 비율의 선택은, 유전자 코드를 나타내는 표를 간단히 조사하거나 또는 전산화 알고리즘에 의해 결정할 수 있다. 예를 들어, 상기 조(Cho) 등의 문헌에서는 요망되는 축중 단백질 서열을 입력하고 그 서열을 코딩하는 바람직한 올리고뉴클레오티드 디자인을 출력하는 전산 프로그램이 기재되어 있다.

도메인의 천연적 종류의 단리.도메인 라이브러리를 인간과 같은 진핵 생물의 유전체 DNA 또는 cDNA로부터 구축할 수 있다. 이를 위해 다수의 방법이 가능하다. 예를 들어, 상기한 바와 같이 이용가능한 아미노산 서열의 전산 검색으로 도메인을 동정할 수 있다. 각 도메인을 코딩하는 핵산을 단리하고, 예를 들어 프로모터, 활성화 도메인 및 선별 마커를 함유하는 벡터와 같은, 세포 내 발현에 적합한 벡터 내로 삽입할 수 있다. 또다른 예에서, 보존적 모티브에 혼성화하는 축중 올리고뉴클레오티드를 사용하여 예를 들어 PCR에 의해 이 모티브를 함유하는 다수의 연관 도메인을 증폭시킨다. 예를 들어, 크룹펠-유사 Cys₂His₂징크 핑거를 문헌 [Agata et al., (1998)Gene213:55-64]의 방법에 의해 증폭시킬 수 있다. 이 방법은 또한, 예를 들어 Thr-Gly-(Glu/Gln)-(Lys/Arg)-Pro-(Tyr/Phe)(SEQ ID NO:78)과 같은 패턴의 서열인, 징크 핑거 도메인의 자연 발생적 링커 펩티드 서열을 보유한다. 또한, 이 방법은 관심있는 도메인에 국한된 집합체의 스크리닝이기 때문에, 비선별적 유전체 라이브러리 또는 cDNA 서열의 라이브러리의 스크리닝과 달리, 라이브러리 복잡성이 매우 감소하고, 대규모 라이브러리를 완전히 스크리닝하는 것이 갖는 내재적인 어려움으로 인해 목적하는 서열을 놓칠 가능성을 감소시킨다.

인간 유전체는 다양한 징크 핑거 도메인을 함유하며, 이 중 다수는 특성화되지 않고 동정되지 않았다. 징크 핑거 도메인을 갖는 단백질은 코딩하는 수 천개의 유전자가 있을 것으로 생각된다[Pellegrino and Berg, (1991)Proc. Natl. Acad. Sci. USA88:671-675]. 이들 인간 징크 핑거 도메인은, 신규한 DNA-결합 단백질이 구축될 수 있는 다양한 도메인의 광범위한 집합체이다. 각 징크 핑거 도메인이 독특한 3- 내지 4-bp 서열을 인식하는 경우, 모든 가능한 3- 내지 4-bp 서열에 결합하는 데 필요한 도메인의 총 수는 단지 64 내지 256 (4³내지 4⁴)개이다. 천연 인간 유전체 라이브러리가 모든 가능한 인식 부위를 특이적으로 인식할 수 있는 충분한 수의 독특한 징크 핑거 도메인을 함유할 수 있다. 이들 징크 핑거 도메인은 인위적 키메라 DNA 결합 단백질을 구축하기 위하여 귀중하게 사용될 수 있다. 자연 발생적 징크 핑거 도메인은, 인간 유전체에서 유래하는 인위적 돌연변이와는 달리, 자연 선택 압력 하에서 진화된 것이며, 따라서 특정 DNA 서열에의 결합 및 생체내 기능을 위하여 자연적으로 최적화된 것일 수 있다.

인간 징크 핑거 도메인은, 예를 들어 유전자 치료에 응용되는 경우, 인체내에 도입될 때 면역부작용을 유도할 가능성이 훨씬 희박하다.

특정 DNA 결합 특성을 가지는 징크 핑거 도메인의 생체 내 선별

원하는 DNA 인식 특성을 가지는 징크 핑거 도메인을 다음과 같은 생체내 스크리닝 시스템을 사용하여 동정할 수 있다. 관심있는 복합 결합 부위를 리포터 유전자의 상류에 삽입하여, 복합 결합 부위로 전사 활성화 도메인을 유인 소집함으로써 리포터 유전자 전사가 일정 수준 이상으로 증가하도록 한다. 고정된 DNA 결합 도메인에 융합된 시험 징크 핑거 도메인 및 전사 활성화 도메인으로 구성된 하이브리드 단백질을 코딩하는 발현 플라스미드를 구축한다.

복합 결합 부위는 둘 이상의 요소, 즉 소집 부위 및 표적 부위로 이루어진다. 이 시스템에서 고정된 DNA 결합 도메인이 소집 부위를 인식하도록 설계된다. 그러나, 소집 부위에 대한 고정된 DNA 결합 도메인의 결합 친화도는, 생체 내에서 단독으로는 리포터 유전자를 전사 활성화시키기에 불충분한 정도이다. 이것은 대조군 실험으로 확인할 수 있다.

예를 들어, 세포 내에서 발현되었을 때 고정된 DNA 결합 도메인은 (시험 징크 핑거 도메인의 부재, 또는 비기능적이라고 알려졌거나 또는 공지된 DNA 접촉 잔기가 알라닌과 같은 대체 아미노산으로 치환된 시험 징크 핑거 도메인의 존재 하에서는) 리포터 유전자의 전사를 명목상의 수준 이상으로 활성화시킬 수 있어서는 안 된다. 다른 수단에 의해서(예를 들어, 리포터에 대한 경쟁적 억제제의 사용에 의해) 시스템의 민감도를 증가시킬 수 있으므로, 약간의 누출 또는 낮은 수준의 활성화는 허용된다. 고정된 DNA 결합 도메인은 소집 부위에 안정적으로 결합하지 않을 것으로 예상된다. 예를 들어, 고정된 DNA 결합 도메인은 약 0.1 nM, 1 nM, 1 μM, 10 μM, 100 μM 또는 그 이상의 해리 상수(K_d)를 가지고 소집 부위에 결합할 수 있다. 표적 부위에 대한 DNA 결합 도메인의 K_d는, 시험 징크 핑거 도메인의 부재 하에 또는 제2 표적 부위에 대한 특이성을 지닌 시험 징크 핑거 도메인의 부재 하에, 전기영동 이동 검정(electrophoretic mobility shift assay; EMSA)에 의해 시험관내에서 측정 가능하다.

따라서, 하이브리드 단백질이 세포 내 복합 결합 부위에 안정적으로 결합하고 이로써 리포터 유전자를 활성화시키기 위해서는, 예를 들어 복합 결합 부위에서 다양성을 갖는 부위인 표적 부위를 인식하는 기능적(functional) 시험 징크 핑거 도메인의 부착이 필요하다. 표적 부위에 대한 시험 징크 핑거 도메인의 결합 우선도에 따라 소정 수준에 비해 증가된 리포터 유전자 발현을 가져올 것이다. 예를 들어, 관찰된 발현 수준을 소정 수준으로 나누어 얻어지는 리포터 유전자 발현의 증가 배수는 약 2, 4, 8, 20, 50, 100, 1000 배 또는 그 이상일 수 있다. 시험 징크 핑거 도메인이 표적 부위를 인식하는 경우, DNA 결합 도메인 및 시험 징크 핑거 도메인을 포함하는 전사인자의 K_d는, 예를 들어 표적 부위에 대한 특이성을 가진 시험 징크 핑거 도메인을 결여한 전사인자에 비해 증가한다. 예를 들어, 특이성을 가진 표적 부위와 복합체를 이룬 전사인자의 해리 상수(K_d)는 약 50 nM, 10 nM, 1 nM, 0.1 nM, 0.01 nM 또는 그 미만일 수 있다. K_d는 시험관내 EMSA에 의해 결정될 수 있다.

시험 징크 핑거 도메인이 고정 DNA 결합 도메인의 생체 내 결합 친화성을 증대시킬 수 있는 능력을 측정함으로써 민감하고 정확하게 DNA 결합 특이성을 검사할 수 있는 이러한 발견은 인간 유전체로부터 신규 징크 핑거 도메인의 신속한 단리 및 특성화를 가능하게 한다.

고정 DNA 결합 도메인은, 자연 발생적 DNA-결합 단백질, 즉 예를 들어 다수의 도메인을 가지거나 또는 올리고머인 자연 발생적 DNA-결합 단백질로부터 단리된 단위적 도메인을 포함한다. 예를 들어, Zif268의 핑거 1 및 2와 같은 두 개의 공지된 징크 핑거 모두를 고정된 DNA 결합 도메인으로서 사용할 수 있다. 숙련가라면 수 많은 핵산 결합 도메인들(예. 호메오도메인, 헬릭스-턴-헬릭스 도메인 또는 헬릭스-루프-헬릭스 도메인과 같은 본 명세서에 기재된 도메인 족, 또는 당업계에서 특성이 알려진 핵산 결합 도메인)로부터 시스템에 적합한 고정 DNA 결합 도메인을 동정할 수 있을 것이다. 고정 DNA 결합 도메인에 의해 인식되는 소집 부위의 적절한 선택이 또한 요구된다. 소집 부위는, 고정 DNA 결합 도메인이 얻어진 자연발생적 DNA 결합 단백질에 대한 천연적 결합 부위 내의 하위부위(subsite)일 수 있다. 필요에 따라, 고정 도메인 또는 소집 부위 내에 돌연변이를 도입하여 시스템을 민감성을 증가시킬 수 있다.

생체내 스크리닝 시스템에 적합한 세포에는 진핵 세포 및 원핵 세포 모두가 포함된다. 예시적인 진핵 세포로는 예를 들어 사카로미세스 세레비지애 (Saccharomyces cerevisiae), 사카로미세스 폼베(Saccharomyces pombe) 및 피치아 파스토리스(Pichia pastoris) 세포와 같은 호모 세포 등이 있다.

상기 생체내 스크리닝 시스템을 사용하여 징크 핑거 도메인을 선별하기 위하여, 사카로미세스 세레비지애를 사용하는 효모 원-하이브리드 시스템을 변형시켰다. 먼저,HIS3리포터 유전자를 코딩하는 리포터 플라스미드를 제조하였다. 예정된 4-bp 표적 DNA 서열을 절단된 결합 서열에 연결시켜 DNA-결합 도메인을 위한 복합 결합 서열을 제공하였으며, 각각의 복합 결합 서열을 별개의 플라스미드 상의 리포터 유전자에 작동가능하게 연결시켰다.

하이브리드 핵산 서열은 절단된 DNA 결합 도메인 및 징크 핑거 도메인으로 구성된 DNA 결합 도메인에 연결된 전사 활성화 도메인을 코딩한다.

본원에서 사용된 결합 부위는 인접한(연속적인) 부위가 자주 사용되지만 반드시 인접할 필요는 없다. 인접하지 않은 부위를 인식할 수 있는 단백질을 제조하기 위해서는 핵산 결합 도메인 사이에 신축성이 있고(또는) 신장성이 있는 링커를 사용할 수 있다.

본 발명의 일 태양에 따르면, Zif268의 핑거 1 및 핑거 2로 구성되고 핑거 3이 결여된 폴리펩티드를 고정된 DNA 결합 도메인으로 사용할 수 있다 (Zif268의 3 개의 징크 핑거 중에서, 핑거 1은 N-말단, 핑거 2는 가운데, 핑거 3는 C-말단에 위치하는 징크 핑거 도메인을 지칭한다). 또한, 결합 부위가 밝혀진 어떠한 2개의 징크 핑거 도메인이라도 고정된 DNA 결합 도메인으로 사용될 수 있다.

기타 다른 유용한 고정된 DNA 결합 도메인은 다른 징크 핑거 단백질, 이를테면 Sp1, CF2-II, YY1, 크룹펠(Kruppel), WT1, Egr2, 또는 POU-도메인 단백질들, 이를테면 Oct1, Oct2, 및 Pit1으로부터 유래될 수 있다. 그러나, 이들은 예로서 제공된 것이며 본 발명은 이들에 의해 한정되지 않는다.

본 발명의 한 구체적인 실시예에 따르면, 최적의 Zif268 인식 서열(5'-GCG TGG GCG-3')의 5' 말단으로부터 4-bp을 결손시켜 생성된 5'-GGGCG-3' 염기 서열이 소집 부위로 사용될 수 있다. 3 내지 4 bp의 어떠한 표적 서열이라도 이들 소집 부위에 연결되어 복합 결합 서열을 생성할 수 있다.

활성화 도메인.본 발명에서 사용될 수 있는 전사 활성화 도메인은 효모의 Gal4 활성화 도메인 및 헤르페스 심플렉스 바이러스의 VP16 도메인을 포함하지만 이에 한정되지는 않는다. 박테리아에서 활성화 도메인의 기능은, 야생형 RNA 중합효소 알파 서브유니트 C-말단 도메인 또는 돌연변이체 알파 서브유니트 C-말단 도메인을 소집할 수 있는 융합 도메인(예를 들면 단백질 상호작용 도메인에 융합된 C-말단 도메인)에 의해 모방될 수 있다.

억제 도메인.원한다면, 활성화 도메인 대신에 억제 도메인이 DNA 결합 도메인에 융합될 수 있다. 진핵세포 억제 도메인의 예로는 오렌지(ORANGE), 그로우초(groucho), 및 WRPW[Dawson et al (1995)Mol. Cell Biol.15:6923-31]이 포함된다. 억제 도메인을 사용할 때는, 독성 리포터 유전자 및(또는) 비선택성 마커를 사용하여 감소된 발현을 보이는 개체를 스크리닝할 수 있다.

리포터 유전자.리포터 유전자는 예를 들어 약물 내성을 부여하거나 또는 영양요구성 마커와 같은 선택성 마커일 수 있다. 약물 내성 유전자의 예로는 사카로미세스 세레비지에(S.cerevisiae) 시클로헥사미드 내성 유전자(CYH), 사카로미세스 세레비지에 카나바닌 내성 유전자(CAN1), 및 하이그로마이신 내성 유전자 등이 있다. 사카로미세스 세레비지에 영양요구성 마커로는URA3, HIS3, LEU2, ADE2및TRP1유전자 등이 있다. 영양요구성 마커가 리포터 유전자일 때는, 영양요구성 유전자의 기능적 카피를 결하고 있어서 특정 대사물질을 생산할 수 있는 능력이 결여된 세포가 사용된다. 대사물질이 결여된 배지에서 세포를 성장시킴으로써 표적 부위에 결합하는 시험 징크 핑거 도메인을 코딩하는 구조물의 선별이 가능하다. 예를 들어,HIS3유전자는his3 ^-효모 균주와 함께 선택성 마커로써 사용될 수 있다. 하이브리드 전사인자를 코딩하는 구조물의 도입 후에, 세포를 히스티딘 결핍 배지 상에서 성장시킨다. 포유류 세포의 선택성 마커로는 이를테면 티미딘 키나제, 네오마이신 내성, 및 HPRT가 숙련된 기술자들에게 또한 잘 알려져 있다.

별법으로, 리포터 유전자가 코딩하는 단백질의 존재를 용이하게 확인하고(또는) 정량화할 수 있다. 그러한 리포터 유전자의 예로는lacZ, 클로람페니콜 아세틸 트랜스퍼라제(CAT), 루시퍼라제, 녹색 형광 단백질(GFP),베타-글루쿠로니다제(GUS), 청색 형광 단백질(BFP) 및 예를 들면 변경되거나 향상된 형광 특성을 갖는 GFP 유도체[Clontech Laboratories, Inc., CA] 등이 있다. lacZ을 발현하는 세포의 콜로니는 비색 기질 X-gal을 포함하는 플레이트에서 콜로니를 성장시킴으로써 검출할 수 있다. GFP 발현은 여기 후 형광 방출을 측정하여 검출할 수 있다. 개개의 GFP 발현 세포는 형광 활성화 세포 분류기(FACS)을 사용하여 동정되고 분리될 수 있다.

본 발명의 시스템에서는 두 종류의 리포터 유전자(예를 들어 선택성 리포터 유전자 및 비선택성 리포터 유전자)를 이용하여 시스템을 구축할 수 있다. 선택성 마커는 적당한 성장 조건하에서 원하는 도메인을 가진 세포만이 성장하게 하므로 원하는 도메인의 신속한 동정을 용이하게 한다. 비선택성 리포터는 예를 들어 거짓 양성 결과를 구별해냄으로써 확인수단 및 및 결합 정도를 정량화하는 수단을 제공한다. 상기 두 개의 리포터는 유전체의 서로 다른 위치에 삽입될 수 있으며, 유전체에 일렬로 삽입될 수도 있으며, 동일한 염색체외 요소(예를 들어 플라스미드)에 포함되거나 또는 서로 다른 염색체외 요소에 포함될 수도 있다.

도 5는 원하는 징크핑거 도메인을 선별하기 위해 사용된 변형된 원 하이브리드 시스템의 원리를 보여준다. 하이브리드 전사인자의 DNA 결합 부위는 (a) Zif268의 핑거 1 및 핑거 2로 구성된 절단된 DNA 결합 부위와 (b) 징크 핑거 도메인 A 또는 B로 구성된다. 리포터 유전자의 프로모터 영역에 위치한 결합 부위의 염기 서열은 4 bp의 표적 서열(뉴클레오티드1-4, 5'-XXXX-3') 및 절단된 결합 서열 (뉴클레오티드 5-9, 5'-GGGCG-3')로 이루어진 복합 결합 서열(5'-XXXXGGGCG-3')이다.

하이브리드 전사인자 내 시험 징크 핑거 도메인(도 5의 A)이 표적 서열을 인식한다면, 하이브리드 전사인자는 복합 결합 서열에 안정하게 결합할 수 있다. 이러한 안정된 결합은 하이브리드 전사인자의 활성화 도메인의 작용(도 5의 AD)을 통해 리포터 유전자의 발현을 가져온다. 그 결과, HIS3가 리포터 유전자로 사용되었을 때, 형질전환된 효모는 히스티딘이 결여된 배지에서 성장한다. 또는,lacZ가 리포터 유전자로 사용되었을 때에는, 형질전환된 효모는lacZ단백질의 기질인 X-gal을 포함한 배지에서 청색 콜로니로 자란다. 그렇지만, 하이브리드 전사인자의 징크 핑거 도메인(도 5의 B)이 표적 서열을 인식하는 데 실패한다면, 리포터 유전자의 발현은 유도되지 않는다. 그 결과, 형질전환된 효모는 히스티딘이 결여된 배지에서 성장할 수 없으며(HIS3가 리포터 유전자로 사용되었을 때), 또는 X-gal을 포함한 배지에서 흰색 콜로니로 성장하게 된다(lacZ가 리포터 유전자로 사용되었을 때).

변형된 원 하이브리드 시스템을 이용하는 이 선별법은 이 과정을 통하여 선별된 징크 핑거 도메인은 세포내 환경에서 기능적인 것으로 입증되었으므로 유익하다. 따라서, 이 도메인들은 아마도 폴딩되어 핵으로 들어갈 수 있으며, 세포내 프로티아제 및 손상을 줄 수 있는 다른 가능한 세포내 물질들에 대해 견딜 수 있다고 추측된다. 게다가, 본원에서 개시된 변형된 원 하이브리드 시스템은 쉽고 빠르게 원하는 징크 핑거 도메인의 단리를 가능하게 한다. 본원의 변형된 원 하이브리드 시스템에서는 원하는 징크핑거 도메인을 단리하기 위해 오직 1 회의 효모 형질전환만을 필요로 한다.

본원에서 기술된 선별법은, 예를 들어 식물 또는 동물(예를 들어 포유류, 예를 들어 사람) 종의 유전체일 수 있는 다양한 유전체로부터의 징크 핑거 도메인을 동정하는데 사용할 수 있다. 또한 본 방법은 예를 들어 무작위 돌연변이법에 의해 제조된 돌연변이 징크 핑거 도메인의 라이브러리부터 징크 핑거 도메인을 동정하는 데 사용될 수 있다. 또한, 상기 두 방법은 함께 사용될 수 있다. 예를 들어, 특정 3-bp 또는 4-bp DNA 서열에 대한 징크 핑거 도메인이 사람 유전체에서 단리되지 않았다면, 무작위 또는 부위 지시적 돌연변이 유도에 의해 제조된 징크 핑거 도메인의 라이브러리를 스크리닝하여 상기 도메인을 찾을 수 있다.

비록 효모에서의 변형된 원 하이브리드 시스템이 주어진 표적 서열을 인식하고 결합하는 징크 핑거 도메인을 선별하기 위해 바람직한 방법이지만, 이 기술 분야의 숙련된 기술자라면 효모 원 하이브리드 선별법 이외에 다른 시스템이 사용될 수 있음을 잘 알 수 있을 것이다. 예를 들어, 진핵 생물체의 유전체로부터 유래한 자연적으로 발견되는 징크 핑거 도메인의 라이브러리를 스크리닝하는데 파지 전시 선별법이 사용될 수도 있다.

본 발명은 다양한 종류의 배양 세포에 원 하이브리드법을 사용하는 것을 포함한다. 예를 들어, 표적 서열에 작동가능하게 연결된 리포터 유전자를 배양중의 원핵 세포 또는 동물 또는 식물 세포 내로 도입할 수 있으며, 그 후 배양 세포를 징크 핑거 도메인의 라이브러리를 코딩하는 플라스미드, 파지, 또는 바이러스로 형질감염시킬 수 있다. 그 다음 리포터 유전자가 활성화된 세포를 분리하여 이로부터 표적 서열을 인식하는 원하는 징크 핑거 도메인을 얻을 수 있다.

하기 개시된 실시예는 상기 방법이 관심있는 결합 부위를 인식하는 징크 핑거 도메인을 동정할 수 있음을 증명한다. 핑거 3에 위치한 다양한 징크 핑거 도메인을 가진 하이브리드 전사인자의 라이브러리를 제조하였다. 상기 라이브러리에서 선별된 신규 징크 핑거 도메인(예를 들어 HSNK, QSTV, 및 VSTR 징크 핑거;후술함)중에서, 어느 것도 해당 부모 핑거 단백질에서는 C-말단에 자연적으로 위치하지 않았다. 이는 징크 핑거 도메인은 단위적(모듈성)이라는 것과 징크 핑거 도메인들을 적절히 혼합하고 배열하여 신규 DNA 결합 도메인을 구성될 수 있다는 것을 명백히 증명한다.

본 발명의 방법에 의해 선별된 징크 핑거 도메인은 적절한 재배열 및 재조합에 의해 신규한 DNA 결합 단백질을 만들기 위한 조립 단위로 사용될 수 있다. 예를 들어, HIV-1의 공수용체인 사람 CCR5의 프로모터 영역을 인식하는 신규한 DNA 결합 단백질을 다음과 같이 제조할 수 있다. 사람 CCR5의 프로모터 영역은, 5'-AGG GTG GAG T-3'(SEQ ID NO:4)(도 6)의 10-bp 서열을 포함한다:. 본원에서 개시된 변형된 원 하이브리드 시스템을 사용하여, 특이적으로 각각 5'-AGGG-3', 5'-GTGG-3', 및 5'-GAGT-3'의 4-bp 표적 서열 중 하나를 인식하는 3 개의 징크 핑거 도메인을 단리할 수 있다. 이들 표적 서열은 CCR5 표적 서열 중 중첩되는 4-bp 단편이다. 이들 3 개의 징크 핑거 도메인을 적절한 링커로 연결하고, 조절 도메인(이를테면 VP16 도메인 및 GAL4) 또는 억제 도메인(이를테면 KRAB)에 부착시켜, CCR5 프로모터에 특이적으로 결합하는 신규한 전사인자를 생성할 수 있다. 이들징크 핑거 단백질은 HIV-1 증식의 방지를 돕기 위해 유전자 치료에 사용될 수 있다.

높은 작업처리량 스크리닝

하기 방법은 다수의 가능한 DNA 결합 부위들이나 또는 심지어 모든 가능한 DNA 결합 부위에 대한 집합체내 각 도메인의 상대적인 생체내 결합 친화도의 신속한 측정을 허용한다. 핵산 결합 도메인을 코딩하는 핵산의 대규모 집합체을 제조하였다. 각 핵산 결합 도메인은 하이브리드 핵산 구조물에서 시험 징크 핑거 도메인으로 코딩되며, 한 교배형의 효모 균주에서 발현된다. 이에 따라, 모든 가능한 또는 원하는 도메인을 발현하는 제1 세트의 효모 균주가 제조된다. 리포터 구조물 안에 상기 도메인들의 추정 표적 부위를 포함하는 리포터 구조물을 함유하는 효모 균주의 제2 세트를 반대의 교배형에서 제조한다. 각각 다른 시험 징크 핑거 도메인과 다른 표적 부위 리포터 구조물을 갖는, 융합된 세포의 매트릭스를 생성하기 위해 본 방법은 다수의 또는 모든 가능한 짝짓기 교배의 수행을 요구한다. 각각의 융합된 세포에서 리포터 유전자의 발현 여부가 측정된다. 이에 의해 본 방법은 신속하고 힘들지 않게 시험되는 도메인들의 결합 우선성을 결정한다.

예를 들어 주어진 프로파일에 일치하는 추정 도메인을 유전체 데이터베이스 에서 조사하여, 도메인들의 집합체가 동정되었다. 상기 집합체는 예를 들어 10 내지 20개의 도메인, 또는 모든 동정된 도메인, 가능하게는 수천개 또는 그 이상을 포함한다. 데이터베이스에서 확인된 도메인을 코딩하는 핵산은 합성 올리고뉴클레오티드를 사용하여 증폭될 수 있다. 상기 합성 올리고뉴클레오티드를 디자인하는 수동적 또는 자동화된 방법은 본 기술 분야에서 통상적인 것이다. 추가적인 도메인을 코딩하는 핵산은 축중 프라이머로 증폭될 수 있다. 상기 집합체의 도메인들을 코딩하는 핵산을 상기 기술된 효모 발현 플라스미드안으로 클로닝함으로써, 이 도메인과 Zif268의 처음 두 개의 핑거 및 전사 활성 도메인의 융합 단백질을 생성할 수 있다. 다수의 도메인을 코딩하는 핵산을 클로닝하기 위해 증폭 및 클로닝 단계는 마이크로타이터 플레이트 형식으로 행해질 수 있다.

또는, 효모 발현 벡터 안으로 상기 도메인들을 코딩하는 다수의 증폭된 핵산을 신속하게 삽입하기 위해 재조합 클로닝 방법을 사용할 수 있다. 이 방법은 미국 특허 제 5,888,732 및 "게이트웨이" 메뉴얼(Life Technologies-Invitrogen, CA, USA)에 기술되어 있으며, 증폭 프라이머 끝에 위치-특이적 재조합 효소(recombinase)를 위한 관습적인 부위를 포함시키는 것을 필요로 한다. 발현 벡터는 도메인을 코딩하는 증폭된 핵산이 삽입될 위치에 추가적인 부위(들)을 포함한다. 이 부위들은 종결 코돈이 결여되도록 고안되었다. 증폭 산물, 발현 벡터, 및 위치 특이적인 재조합효소의 첨가는 재조합 반응으로 인한 증폭된 서열의 벡터안으로의 삽입을 가져온다. 예를 들어 성공적인 삽입시 독성 유전자가 치환되는 것과 같은 추가적인 특징을 이용하면, 이 방법은 고효율이며 높은 작업처리량의 생체내 스크리닝에 적합하게 된다.

제한효소 매개성 및(또는) 재조합 클로닝은 각각의 확인된 도메인을 코딩하는 핵산을 발현 벡터로 삽입하는 데 사용된다. 이 벡터들은 박테리아에서 증식할수 있으며, 색인된 마이크로타이터 플레이트에서 동결될 수 있어서, 각각의 웰이 서로 다른, 유일무이한 DNA 결합 도메인의 하나를 코딩하는 하나의 핵산을 가지고 있는 하나의 세포를 포함하게 할 수 있다.

각각의 도메인에 대해 단리된 플라스미드 DNA를 얻고 하나의 효모 세포, 예를 들어 사카로미세스 세레비지에MATa세포로 형질전환시킨다. 발현 벡터가 선별 마커를 갖고 있으므로, 형질 전환된 세포는 마커를 선별할 수 있는 영양 조건의 최소 배지 안에서 자랄 수 있다. 상기 세포들을 나중의 사용을 위해 예를 들어 마이크로타이터 플레이트 중에서 동결 저장시킬 수 있다.

제2 세트의 효모 균주를 예를 들어 사카로미세스 세레비지에MATα세포에 구축한다. 이 효모 균주 세트는 다양한 상이한 리포터 벡터를 포함한다. 그 다음, 유일한 DNA 결합 도메인을 갖는 발현 벡터를 함유하는 각각의 효모 균주를 상기 리포터 유전자 세트의 각각의 효모 균주와 교배시킨다. 이들 두 균주는 서로 반대되는 교배형이고 서로 다른 영양요구성을 갖도록 유전자 조작되었으므로, 이배체를 쉽게 선별할 수 있다. 상기 이배체는 리포터 및 발현 벡터 모두를 가진다. 이 세포들은 리포터 및 발현 플라스미드 양쪽 모두를 선별할 수 있는 영양 조건하에서 또한 유지될 수 있다. 유에츠 등(2000,Nature403:623-7)은 이러한 효모 교배의 매트릭스를 생성하여 모든 효모 단백질의 완벽한 2-하이브리드 지도를 기술하고 있다.

리포터 유전자 발현은 많은 볼륨의 형식(예를 들어 마이크로타이터 플레이트)에서도 감지될 수 있다. 예를 들면, GFP을 리포터로 사용할 때, 교배된 세포들의 매트릭스를 포함하는 플레이트는 형광여부로 스캔할 수 있다.

신규한 DNA 결합 단백질의 단위체적 조립

적절한 징크 핑거 도메인들을 혼합하고 배합하여 목적 9-bp 또는 그 이상의 DNA 서열을 인식하는 새로운 DNA 결합 단백질을 합리적으로 제조할 수 있다. 징크 핑거 도메인들은 단위체적 구조로 인하여 새로운 DNA 결합 단백질을 제조하기 위한 이들의 재조합이 용이하다. 도 1에 도시되듯이, 자연적으로 발견되는 Zif268 단백질에서의 징크 핑거 도메인은 DNA 이중 나선을 따라서 일렬로 위치한다. 각각의 도메인은 상이한 3-4 bp DNA 세그먼트를 독립적으로 인식한다.

징크 핑거 도메인의 데이터베이스.상기에서 기술된 원 하이브리드 선별 시스템은 가능한 3-4 염기쌍 결합 부위 각각에 대하여 하나 이상의 징크 핑거 도메인을 동정하는 데 사용될 수 있다. 그 결과는 매트릭스 또는 데이터베이스(예를 들어 상관적인 테이터베이스)로 저장될 수 있다. 데이터베이스는 각각의 부위에 결합하는 징크 핑거 도메인의 상대적인 친화도에 대한 지시사항을 포함할 수 있다.

또한 상기 징크 핑거 도메인들의 표적 서열 특이성을 입증하기 위하여 이들을 다수의 상이한 융합 단백질내에 융합된 상황에서 검사할 수 있다. 더욱이, 소량의 도메인만이 이용가능한 특정 결합 부위에 대하여는 추가적인 선별 스크리닝을 할 수 있다. 이러한 추가적 선별을 위한 라이브러리는, 유사하지만 뚜렷이 구별되는 결합 부위에 결합하는 징크 핑거 도메인에 돌연변이를 유도하여 제조할 수 있다. 가능한 도메인을 최대한 활용하기 위해 표적 결합 부위에 대해서 도메인을 엇갈리게 할 수 있으므로, 각각의 가능한 결합 부위에 대한 징크 핑거 도메인의 완전한 매트릭스가 필수적인 것은 아니다. 이러한 엇갈림은 가장 유용한 3-4 염기쌍 결합 부위에서의 결합 부위를 분석하고 또한 징크 핑거 도메인들 사이의 링커의 길이를 변화시킴으로써 달성될 수 있다. 디자인된 폴리펩타이드가 부위 선택성 및 높은 친화도를 모두 갖게 하기 위하여는, 원하는 부위에 대해 높은 특이성을 가진 징크 핑거 도메인의 양 옆을 더 높은 친화도를 가졌으나 특이성이 떨어지는 다른 도메인과 접하게 연결시킬 수 있다. 본원에서 기술된 생체 내 스크리닝 방법은 인위적으로 조립된 징크 핑거 단백질 및 이들의 유도체의 생체 내 기능, 친화도, 및 특이성을 시험하는 데 이용될 수 있다. 유사하게 본 방법은, 예를 들어 다양한 링커 조성의 라이브러리, 징크 핑거 도메인 단위체의 라이브러리, 징크 핑거 도메인 조성의 라이브러리 등의 라이브러리를 제조하여, 조립된 단백질을 최적화하는 데 사용될 수 있다.

표적 부위의 분해.표적 9-bp 또는 그 이상의 DNA 서열은 3-4 bp 세그먼트로 분해된다. 각각의 분해된 3-4 bp 세그먼트를 인식하는 징크 핑거 도메인을 동정한다 (예를 들어 상기에서 언급한 데이터베이스로부터). 예를 들어 20 bp 내지 500 bp 서열의 더 길이가 긴 표적 서열도, 그 서열 안에서 9 bp, 12 bp, 및 15 bp 하위서열을 찾을 수 있으므로, 표적 서열로서 적합하다. 구체적으로는, 데이터베이스에 잘 나타나 있는 부위로 분해될 수 있는 하위서열은 처음 디자인을 위한 표적으로서 기능할 수 있다.

조립된 단위체의 제조.인접한 3-4 bp 하위부위들 또는 근처의 하위부위들을 인식하는 다수의 징크 핑거 도메인들을 포함하는 폴리펩티드를 디자인한다. 디자인된 폴리펩티드 서열을 코딩하는 핵산 서열을 합성할 수 있다. 합성 유전자를 제조하는 것은 이 기술분야에서는 일상적인 것이다. 상기 방법으로는 상용 합성된 올리고뉴클레오티드, PCR 매개된 클로닝, 및 메가프라이머 PCR로부터의 유전자 제조 등이 있다. 다수의 핵산 서열이 합성되어 예를 들면 라이브러리를 형성할 수 있다. 핵산 라이브러리는 임의의 주어진 위치에서 변화하는 도메인을 코딩하고, 그 상이한 징크핑거 도메인들의 인식 특이성은 상기 위치에 적합하도록 디자인할 수 있다. 각 위치에서 징크 핑거 도메인의 동일성을 변화시키 위하여는 섹슈얼(Sexual) PCR 및 "DNA 셔플링^TM"(Maxygen, Inc., CA)이 사용될 수 있다.

펩티드 링커.DNA 결합 도메인들은 다양한 링커에 의해 연결될 수 있다. 링커의 유용성과 디자인은 이 기술 분야에서 잘 알려져 있다. 특히 유용한 링커는 핵산에 의해 코딩되는 펩티드 링커이다. 따라서, 첫 번째 DNA 결합 도메인, 펩티드 링커, 및 두 번째 DNA 결합 도메인을 코딩하는 합성 유전자를 제조할 수 있다. 이러한 디자인은 대규모의 인위적인 다수-도메인 DNA 결합 단백질을 제조하기 위해 반복될 수 있다. PCT WO 99/45132 및 김 및 파보(1998,Proc. Natl. Acad. Sci. USA95:2812-7)는 징크 핑거 도메인들을 연결하는 데 적합한 펩티드 링커의 디자인을 기술하고 있다.

무작위 코일, α-나선, β-주름의 3차 구조을 형성하는 추가적인 펩티드 링커를 사용할 수 있다. 적합한 유연성 있는 링커를 형성하는 폴리펩티드는 이 기술분야에서 잘 알려져 있다[예를 들어 Robinson and Sauer (1998)Proc. Natl. Acad. Sci. USA.95:5929-34 참조]. 유연성 있는 링커는 전형적으로 글리신을 포함하는데, 이는 글리신 아미노산이 측쇄가 결여되어 있어서 회전 자유도가 있는 유일한 아미노산이기 때문이다. 친수성을 증가시키기 위하여 세린 또는 트레오닌을 링커에 삽입할 수 있다. 아울러, 결합 친화도를 증가시키기 위해 DNA의 인산 골격과 상호작용할 수 있는 아미노산이 사용될 수 있다. 상기 아미노산들의 현명한 사용으로 친화도를 높이는 것과 서열 특이성이 감소하는 것 사이의 균형을 잡을 수 있을 것이다. 만약, 링커가 엄격한 신장성을 요구한다면 문헌[Pantoliano et al. (1991)Biochem.30:10117-10125]에서 기술된 나선 링커와 같은 α-나선 링커를 사용할 수 있다. 또한 링커는 컴퓨터 모델링에 의해 디자인될 수 있다(미국 특허 제4,946,778참조). 분자 모델링을 위한 소프트웨어는 구입해서 사용할 수 있다[예를 들어 Molecular Simulation, Inc., San Diego, CA 참조]. 이러한 링커는, 표준적인 돌연변이 유도 기술 및 단백질 공학의 기술 분야에서 쓰이는 생물리학적 테스트를 이용하고, 본원에 기술된 기능적 분석을 사용하여, 임의로 최적화, 즉, 예를 들어, 항원성을 감소시키고(또는) 안정성을 증가시킬 수 있다.

징크 핑거 도메인을 활용한 실시를 위해, 징크 핑거 사이에서 자연적으로 발견되는 단백질을 핑거들을 서로 함께 연결하는 데 사용할 수 있다. 상기 자연적으로 발견되는 링커로 전형적인 것은 Thr-Gly-(Glu-Gln)-(Lys-Arg)-Pro-(Tyr-Phe)(SEQ ID NO:78)이다 (아가타 등. 상기 참조).

이량체화 도메인.DNA 결합 도메인들을 연결하는 또다른 방법은 이량체화도메인, 특히 이종이량체화 도메인[Pomerantz et al. (1998)Biochemistry37:965-970 참조]을 사용하는 것이다. 이 실시태양에서는 DNA 결합 도메인이 별개의 폴리펩티드 사슬로 존재한다. 예를 들어, 첫 번째 폴리펩타이드는 DNA 결합 도메인 A, 링커 및 도메인 B를 코딩하는 반면, 두 번째 폴리펩타이드는 도메인 C, 링커 및 도메인 D을 코딩한다. 당업자는 특성이 밝혀진 많은 이량체화 도메인들으로부터 하나의 이량체화 도메인을 선별할 수 있다. 동종이량체가 바람직하지 않다면 이종이량체화을 선호하는 도메인이 사용될 수 있다. 특히 적용가능한 이량체화 도메인은 코일화된 코일 모티브(예를 들어 이량체 평행 또는 역평행 코일화된 코일)이다. 우선적으로 이종이량체를 형성하는 코일화된 코일을 또한 이용할 수 있다[Lumb and Kim, (1995) Biochemistry 34:8642-8648]. 이량체화 도메인의 또다른 종류로 이량체화가 소분자에 의해 또는 신호전달 경로를 통해 유발되는 것이 있다. 예를 들어, FK506의 이량화 형태는 두 개의 FK506 결합 단백질(FKBP) 도메인들을 이량체화하는 데 사용될 수 있다. 이러한 이량체화 도메인은 추가적인 조절 단계를 제공하기 위해 이용될 수 있다.

기능성 검사(Functional Assays) 및 용도

생화학적 검사 외에, 핵산 결합 도메인 또는 본원에서 기술된 방법(예를 들어 단위체 조립)에 의해 디자인된 단백질의 기능성을 생체 내에서 검사할 수 있다. 예를 들어, 표적 부위(예를 들어 세포 증식에 필요한 유전자의 프로모터 부위)에 결합하는 도메인이 선택될 수 있다. 단위체 조립에 의해, (1)표적 프로모터 부위에 걸친 하위부위에 각각 결합하도록 선택된 도메인들 및 (2)DNA 억제 도메인(예를 들어 WRPW 도메인)을 포함하는 단백질을 디자인할 수 있다.

디자인된 단백질을 코딩하는 핵산 서열은 예를 들어 Kang 및 Kim의 문헌[2000,J. Biol. Chem.275:8742]에 의해 기술된 유도성 발현 벡터 등의 발현 벡터내에 클로닝될 수 있다. 이러한 구조체를 조직 배양 세포 또는 배아 간 세포에 형질감염시킴으로써 대상 모델로서의 트랜스제닉 유기체를 생성할 수 있다. 이러한 트랜스제닉 동물 모델에서 단백질의 발현을 유도하고, 조직 배양 세포의 세포 증식을 조사하거나 또는 발생학적 변화 및(또는) 종양 성장을 조사하여 디자인된 단백질의 효율을 결정할 수 있다. 아울러, 표적으로 삼은 유전자의 발현 정도는 예를 들어 RT-PCR 또는 노던 블롯과 같은 mRNA을 검출하는 일반적인 방법에 의해 검사할 수 있다. 더욱 완벽한 측정을 위하여는 디자인된 단백질을 발현하는 세포와 발현하지 않는 세포에서 mRNA을 정제한다. 이러한 mRNA의 두 개의 풀을 이용하여 대규모의 유전자 집합물(예를 들어 관심 있는 조건(예를 들어 암)에 관계된 유전자들의 집합물 또는 생물체의 유전체에서 동정된 유전자들의 집합물)에 대한 프로브를 함유하는 마이크로어레이을 탐지한다. 이러한 검사는 디자인된 단백질의 특이성을 결정하는데 특히 유용하다. 만일 디자인된 단백질이 높은 친화도를 가지나 낮은 특이성을 가진다면, 예상되는 표적 유전자 이외에 유전자의 발현에도 영향을 주어 다면적이고 바람직하지 않은 효과를 가져올 수 있다. 이러한 효과는 전사물의 전체적인 분석에 의해 밝혀진다.

결합 부위 우선성 검사

각 도메인의 결합 부위 우선성은 EMSA, DNase 발자국법(footprinting), 표면 플라스마 공명법, 또는 컬럼 결합과 같은 생화학적 검사에 의해 확인할 수 있다. 결합에 필요한 기질로는 표적 부위를 포함하는 합성 올리고뉴클레오티드를 사용할 수 있다. 이러한 검사는 비특정 DNA을 경쟁체로서 또는 특정 DNA 서열을 경쟁체로서 포함할 수 있다. 특정 경쟁체 DNA로는 하나, 둘, 또는 세 개의 핵산 돌연변이를 가진 인식 부위가 사용될 수 있다. 따라서, 생화학적 검사로 소정 부위에 대한 도메인의 친화도 뿐만 아니라 다른 부위에 대한 소정 부위의 상대적 친화도도 측정할 수 있다. 레바 및 파보[Rebar and Pabo, 1994,Science263:671-673]는 EMSA로부터 징크 핑거 도메인에 대한 절대 K_d상수를 얻는 방법을 기술하고 있다.

본 발명은 하기 실제적인 실시예를 통해 더욱 구체적으로 기술될 것이다. 그러나, 이들 실시예는 본 발명의 범위를 제한하려는 의도로 제공된 것이 아님에 유의하여야 한다.

실시예 1: 하이브리드 전사인자 발현을 위한 플라스미드의 제조

징크 핑거 전사인자를 발현하는 발현 플라스미드는 pPC86[Chevray & Nathans (1991)Proc. Natl. Acad. Sci. USA 89, 5789-5793]을 변형시켜 제조하였다. 이하 기술되는 DNA 조작은 문헌[Current Protocols in Molecular Biology, Ausubeletal.(1998), John Wiley & Sons, Inc.]에 제시된 일반적인 방법에 따라 수행하였다. pPC86 내의SalI과EcoRI 인식장소 사이에 Zif268 징크 핑거 단백질을 지정하는 DNA 단편을 삽입하여 pPCFM-Zif를 만들었다. 이 클로닝 결과는 효모 Gal4 전사 활성화 도메인에 Zif268 징크 핑거 단백질이 연결된 융합단백질의 번역을 가져온다. pPCFM-Zif를 효소 숙주내로 형질전환시키면, Gal4 활성화 도메인과 Zif268 징크 핑거를 포함하는 하이브리드 전사인자가 발현된다. pPCFM-Zif내에 클로닝된 Zif268 징크핑거 단백질을 코딩하는 DNA 서열을 도9에 나타내었다.

징크 핑거 도메인들의 라이브러리를 구축하기 위한 벡터로서 pPCFMS-Zif 플라스미드를 이용하였다. pPCFMS-Zif는 pPCFM-Zif의 핑거3 코딩 부위 앞에 정지 코돈(stop codon)과PstI 인식서열을 포함하는 올리고뉴클레오티드 카셋트의 삽입에 의해 제조된다. 상기 올리고뉴클레오티드 카셋트는 두개의 합성 올리고뉴클레오티드, 즉 5'-TGCCTGCAGCATTTGTGGGAGGAAGTTTG-3' (SEQ ID NO 79) 및 5'-ATGCTGCAGGCTTAAGGCTTCTCGCCGGTG-3' (SEQ ID NO 80)을 결찰하여 형성된다. 정지코돈의 삽입은 Zif268의 핑거3을 코딩하는 플라스미드 라이브러리의 생성을 방지한다.

실시예 2: 징크 핑거 도메인 라이브러리의 제조

천연적으로 존재하는 징크핑거 도메인들의 플라스미드 라이브러리를 인간의 유전체로부터 징크 핑거 도메인들을 클로닝함으로써 제조하였다. 축중 프라이머(degenerate primer) 및 PCR을 이용하여 인간의 유전체 DNA(PromegaCorporation; 미국 위스콘신주 매디슨)로부터 징크 핑거 도메인들을 코딩하는 DNA 단편들을 증폭하였다. 인간 징크 핑거 도메인들을 클로닝하기 위하여 사용된 축중 DNA 프라이머의 DNA 서열은 다음의 두 종류이다.

제1군

5'-TCCCCCGGGSARARRCCNTWY-3' 및 5'-ATCCCCGCGGYYTYTCRCCGGTGTG-3'

제2군

5'-GCGTCCGGACNCAYACNGGNSARA-3' (SEQ ID NO:81) 및

5'-CGGAATTCANNBRWANGGYYTYTC-3' (SEQ ID NO:82)

(여기서, R은 G 및 A를 나타내고, B는 G, C 및 T를 나타내며, S는 G 및 C를 나타내고, W는 A 및 T를 나타내며, Y는 C 및 T를 나타내고 N은 A, C, G 및 T를 나타낸다).

위의 염기서열은 많은 징크핑거 단백질들에서 자연적으로 발견되는 징크핑거 도메인들 사이의 링커(linker) 부위에서 발견되는 아미노산 서열 His-Thr-Gly-Glu/Gln-Lys/Arg-Pro-Tyr/Phe (SEQ ID NO 83)을 코딩하는 핵산 서열에 어닐링한다[아가타 등 (1998) Gene 213:55-64].

PCR의 버퍼 조성은 50 mM KCl, 3 mM MgCl₂, 10 mM Tris (pH 8.3)이고 택 DNA 폴리머라제(Taq DNA polymerase)를 사용하여, 제1군 프라이머쌍의 경우 94℃에서 3분간 가열한 다음 94℃에서 30초, 37℃에서 30초, 74℃에서 1분씩 20회 반복한 후 94℃에서 30초, 45℃에서 30초, 74℃에서 1분씩 15회 반복하고 마지막으로 74℃에서 4분간 더 반응시켰다. 제2군 프라이머쌍의 경우에는 94℃에서 30초, 42℃에서 60초, 72℃에서 30초씩 35회 반복한 후 72℃에서 10분간 반응시켰다. 두 종류의 프라이머쌍을 사용한 결과 실질적인 차이가 없었다.

상기 PCR 산물을 다음과 같이 pPCFMS-Zif내로 클로닝하였다. PCR 산물을 전기영동하여 100 bp에 해당하는 단편을 분리한 다음,SacII와AvaI으로 처리한 후, 이를SgrAI,PstI,SacII로 처리한 pPCFMS-Zif(실시예1 참조)에 연결하였다. 결과적으로, 이 플라스미드 라이브러리가 코딩하는 하이브리드 전사인자의 DNA-결합 도메인은 Zif268의 핑거1 및 핑거2와 인간 유전체로부터 유래한 징크핑거 도메인으로 이루어진다. 총 10⁶개의 대장균 형질전환체로부터 플라스미드 라이브러리를 제조하였다. 상기 라이브러리 제조방법에 의하면 징크핑거 도메인들 사이에서 발견되는 자연적으로 존재하는 링커 서열이 유지된다.

실시예 3: 징크 핑거 도메인 라이브러리의 제조

무작위 돌연변이에 의해 돌연변이 징크 핑거 도메인의 라이브러리를 제조하였다. Zif268의 핑거3을 폴리펩티드 골격(framework)으로 사용하였다. 무작위 돌연변이는 SEQ ID NO 21(Zif268의 핑거3)의 73번 위치(아르기닌), 75번 위치(아스파르트산), 76번 위치(글루탐산), 77번 위치(아르기닌), 78번 위치(라이신) 및 79번 위치(아르기닌)에 각각 해당하는, 알파헬릭스를 따라 -1, 2, 3, 4, 5, 6 번째 위치의 아미노산에 무작위 돌연변이를 도입하였다. 이들 아미노산을 코딩하는 핵산 서열 위치의 각각에 무작위화 코돈, 즉, 5'-(G/A/C)(G/A/C/T)(G/C)-3'의 코돈을 도입하였다. 이 무작위화 코돈은 20 개의 아미노산 중에서 트립토판, 티로신, 시스테인, 페닐알라닌을 제외한 16 개의 아미노산 중 하나를 코딩한다. 상기 무작위화 코돈은 가능한 정지코돈 3 가지를 제외시킨다. 돌연변이가 삽입된 위치를 제외한 나머지 부분은 Zif268 징크 핑거 단백질의 핑거3과 동일하다. 상기 무작위화 코돈은 하기 두 개의 올리고뉴클레오티드로부터 제조된 올리고뉴클레오티드 카셋트로서 도입된다.

5'-GGGCCCGGGGAGAAGCCTTACGCATGTCCAGTCGAATCTTGTGATAGAAGATTC-3' (SEQ ID NO 84)

5'-CTCCCCGCGGTTCGCCGGTGTGGATTCTGATATGSNBSNBAAGSNBSNBSNBSNB

TGAGAATCTTCTATCACAAG-3' (SEQ ID NO 85) (여기서, B는 G, T 및 C를 나타내고, S는 G 및 C를 나타내며, N은 A, G, C 및 T를 나타낸다.)

상기 두 개의 올리고누클레오티드를 결찰한 후 상온에서 30분간 클레노우 폴리머라제(Klenow polymerase)를 사용하여 이중가닥으로 만든 후AvaI과SacII로 처리하고 이를SgrAI,PstI,SacII로 처리한 pPCFMS-Zif(실시예 1 참조)에 삽입하였다. 총 10⁹개의 형질전환된 균주로부터 플라스미드를 분리하여 징크 핑거 전사인자를 지정하는 플라스미드의 라이브러리를 제조하였다.

실시예 4: 리포터 플라스미드의 제조

HIS3유전자를 포함하는 리포터 플라스미드를 pRS315His(Wang & Reed (1993),Nature 364, 121-126)를 변형하여 제조하였다. 상기 리포터 플라스미드는 또한 이 플라스미드를 갖는 형질전환체의 선별을 위한 목적으로LEU2마커를 그의 천연적 프로모터 아래에 포함한다. 먼저 pRS315His 내의SalI 인식서열을 제거하기 위해 pRS315His를SalI과BamHI으로 처리한 후 얻은 작은 단편과, 같은 플라스미드를BamHI과XhoI으로 처리한 후 얻은 큰 단편을 결합시켜 pRS315HisΔSal을 만들었다. 그 다음, 올리고누클레오티드 듀플렉스를BamHI과XmaI 사이의 pRS315HisΔSal에 삽입하여HIS3유전자의 프로모터 부위에SalI 인식서열을 도입하였다. 서로 결찰되어 삽입되는 듀플렉스를 형성하는 두 올리고뉴클레오티드 서열은 다음과 같다.

5'-CTAGACCCGGGAATTCGTCGACG-3' (SEQ ID NO: 86)

5'-GATCCGTCGACGAATTCCCGGGT-3' (SEQ ID NO: 87)

그 결과 생성된 플라스미드를 pRS315HisMCS라고 명명하였다.

pRS315HisMCS에 원하는 복합 서열을 삽입하여 다양한 리포터 플라스미드를 만들었다. 상기 복합 서열은 복합 서열의 4 복제를 포함하는 직렬배열(tandem array)로서 삽입된다. 상기 표적 서열들은 HIV-1의 LTR에서 발견되는 10-bp DNA 서열 및 인간유전자CCR5의 프로모터에 존재하는 10 bp 서열(도6 참조)에서 유래한 것이다.

이들 각각의 10-bp DNA 서열 중 4-bp 표적 부위 성분을 분석함으로써, 이 부위를 인식하는 징크핑거 도메인을 동정하였다. 모듈성 조합 방법을 이용하여 이러한 징크핑거 도메인을 커플링함으로써 생체내에서 상기 부위를 인식할 수 있는 DNA 결합 단백질을 제조할 수 있다.

도 6에서 밑줄 그은 부분은 4-bp의 표적 염기서열의 예를 나타낸다. 이들 각각의 4-bp 표적 서열은 Zif268의 핑거 1 및 2에 의해 인식되는 염기서열인 5'-GGGCG-3'의 5-bp 소집 서열에 연결된다. 이렇게 생성된 9-bp 서열은 복합 결합 서열을 구성한다. 각각의 복합 결합 서열은 5'-XXXXGGGCG-3'의 형식을 갖는데, 여기서 XXXX는 4-bp 표적 서열이고, 인접한 5'-GGGCG-3'는 소집 서열이다.

도7은 pRS315HisMCS 내 리포터 유전자에 작동가능하게 연결된, 복합 결합 부위의 직렬 배열이 삽입된 염기서열을 보여준다. 각각의 직렬 배열은 복합 결합부위의 염기서열의 4 카피가 배치되어 있다. 각각의 결합 부위에 대하여 두개의 올리고뉴클레오티드를 합성하여 결찰한 후, pRS315HisMCS의SalI과XmaI 장소에 연결하여 리포터 플라스미드들을 만들었다.

실시예 5: 구체적 리포터 플라스미드의 제조

3 염기쌍의 핑거3 표적 부위에 대하여 각각 한 쌍의 리포터(즉, 하나는lacZ, 다른 하나는HIS3)를 포함하는 리포터 플라스미드 한 세트를 다음과 같이 제조하였다. 리포터 플라스미드는 원하는 표적 서열을 pRS315HisMCS 및 pLacZi내로 삽입하여 제조하였다. 각각의 3 염기쌍의 표적 부위에 대하여 두 개의 올리고뉴클레오티드를 합성하고, 서로 결찰시켜 이중가닥으로 한 후, 이를 pRS315HisMCS 및 pLacZi의 SalI 및 XmaI 부위 사이로 삽입하여 리포터 플라스미드를 제조하였다.상기 올리고뉴클레오티드의 DNA 서열은 다음과 같다: 5'-CCGGT NNNTGGGCGTAC NNNTGGGCG TCA NNNTGGGCG-3'(SEQ ID NO 88) 및 5'-TCGACGCCCANNN TGA CGCCCANNN GTACGCCCANNN A3'(SEQ ID NO 89). 총 64쌍의 올리고뉴클레오티드를 합성하여 상기 두 개의 리포터 플라스미드내로 삽입하였다.

실시예6: 원하는 DNA-결합 특이성을 갖는 징크 핑거 도메인의 선택.

주어진 표적 염기서열에 특이적으로 결합하는 징크 핑거 도메인을 선택하기 위하여, 효모를 리포터 플라스미드와 하이브리드 전사인자를 발현하는 징크 핑거 라이브러리 플라스미드로 형질전환시켰다. 이하 기술되는 효모의 형질전환 방법과 생체내 스크리닝 방법은 문헌[Current Protocols in Molecular Biology, Ausubelet al.(1998), John Wiley & Sons, Inc., 미국 뉴저지주 잉글우드]에 제시된 일반적인 방법에 따라 수행되었다. 효모 균주로는 yWAM2(MATα Δgal4Δgal80 URA3::GAL1-lacZ lys2801 his3-Δ200 trp1-Δ63 leu2 ade2-101CYH2)를 사용하였다.

일 예로서, 먼저 리포터 유전자에 작동가능하게 연결된 염기서열 5'-GAGCGGGCG-3'(찾고자 하는 핑거3가 결합할 염기서열을 밑줄로 표시함)의 복합 결합부위를 포함하는 리포터 플라스미드를 효모에게 형질전환시켰다. 그 다음, 무작위 돌연변이법으로 제조된 돌연변이 징크 핑거 도메인의 플라스미드 라이브러리를 상기 형질전환된 효모내로 도입하였다. 약 10⁶개 정도의 콜로니들을 류신 및 트립토판이 모두 결여된 배지에서 얻었다. 리포터 플라스미드 및 징크 핑거 도메인 발현플라스미드는 마커(marker)로서 각각LEU2유전자와TRP1유전자를 갖고 있어서 두 종류의 플라스미드로 모두 형질전환된 효모는 류신과 트립토판이 결여된 배지에서 자랄 수 있다.

완성적인 측면에서, 인간 유전체에서 유래하는 징크 핑거 도메인의 라이브러리를 리포터 플라스미드를 함유하는 세포내로 형질전환시켰다. 이러한 형질전환은 리포터 유전자에 작동가능하게 연결된 상이한 5종류의 표적 서열 중 하나를 함유하는 다섯 종류의 상이한 숙주 세포 균주에 대하여 이루어졌다. 류신 및 트립토판이 모두 결여된 배지에서 각 형질전환으로부터 약 10⁵개 정도의 콜로니들을 얻었다.

형질전환체를 류신 및 트립토판이 결여된 합성 배지를 함유하는 페트리 디쉬상에서 성장시켰다. 인큐베이션 후, 플레이트에 10% 글리세롤 용액을 가한 후 세포들을 긁어모아 글리세롤 용액중에 동결 보관하였다. 그 중 일부를 류신, 트립토판, 및 히스티딘이 결핍된 배지에 뿌렸다. 징크 핑거 전사인자의 작용이 없이도 미세한 양의HIS3이 발현될 수 있기 때문에 이로 인한 세포 성장을 억제하기 위해 일부 성장 배지에는HIS3의 억제제인 3-아미노트리아졸(AT)을 각각 0, 0.03 mM, 0.1 mM, 0.3 mM 첨가하였다. 각 배지마다 약 10⁷개의 효모 세포를 뿌렸을 때, AT를 첨가하지 않은 배지에서는 수 백 개의 콜로니가 자라났고, AT의 농도가 증가할수록 콜로니 숫자가 줄어들어 0.3 mM에서는 10 개의 콜로니가 자라났다. AT를 첨가하지 않은 배지와 0.3 mM를 첨가한 배지에서 각각 7 개씩의 콜로니를 임의로 선정하여 이들을 배양한 후 플라스미드를 분리하였다. 이 플라스미드를 이용하여 대장균 균주 KC8(pyrF leuB600 trpC hisB463)을 형질전환시켰다. 이로부터 징크 핑거 전사인자를 코딩하는 플라스미드만을 분리하여 DNA 염기서열을 결정하였다.

각 선택된 징크핑거 도메인의 아미노산 서열을 상기 결정된 DNA 염기서열로부터 연역적으로 유도하였다. 각 징크핑거 도메인은 그들의 표적 염기-접촉 부위에서의 아미노산 잔기, 즉, 알파헬릭스를 따라 -1, 2, 3, 6 번째 위치의 아미노산 잔기의 약칭을 따서 명명하였다. 이를 표1에 나타내었다. 동정된 징크핑거 도메인은 표적 염기-접촉 부위에서 발견되는 4개의 아미노산으로 명명된다. 염기서열을 분석한 결과, 동일한 징크핑거 도메인이 반복적으로 얻어졌음을 알 수 있다. 표1에서 괄호안의 숫자는 동일한 징크핑거 도메인이 반복되어 얻어진 횟수를 나타낸다. 예를 들어, 4 염기 접촉 부위에 CSNR을 갖는 두 개의 징크 핑거가 GAGC 핵산 부위에 결합하는 것으로 동정되었다(칼럼3의 "GAGC/인간 유전체" 참조).

표적 서열	GAGC	GAGC	GCTT	GACT	GAGT	ACAT
징크핑거 도메인 라이브러리의 원천	무작위돌연변이	인간유전체	인간유전체	인간유전체	인간유전체	인간유전체
염기 접촉 부위에서의아미노산 잔기*	KTNR(2)RTTRRPNRHSNRRLKPTRQRTALHRQKAPARVRTFRRNNRDPLHRGNR	RTNR(2)RTNRCSNR (2)SSNR (3)RSTVSSGE	VSTR(9)	HSNK(2)CSNR (7)	RDER(2)SSNR (5)	QSTV (3)

* 오른쪽 여섯개의 칼럼에 나타낸 4개 영문 식별자는 각 표적 서열에 대하여 단리된 징크핑거 도메인을 나타낸다. 이들 명명은 염기 접촉 부위에서의 아미노산 잔기를 나타내지만, 이들이 폴리펩티드의 서열은 아니다.

선택된 인간 징크 핑거 도메인들을 코딩하는 전장 DNA 서열과 이를 번역해서 얻은 아미노산 서열을 도 11에 나타내었다. 인간 유전체에서 징크핑거 도메인을 코딩하는 DNA 세그먼트를 증폭시키기 위하여 사용하였던 축중 PCR 프라이머에 상보적인 서열을 밑줄을 그어 표시하였다. 이 부분의 염기서열은 보고된 인간 유전체 서열의 원래 염기서열과 다를 수 있다. 표적 서열의 염기와 상호작용할 것으로 기대되는 결합 부위의 아미노산 잔기들을 굵은체로 표시하였고 아연 이온과 배위결합을 하는 두 개의 시스테인 잔기와 히스티딘 잔기들을 이탤릭체로 나타내었다.

진 뱅크(GenBank) 데이타베이스를 검색한 결과, 본 발명에 따른 생체내 스크리닝으로 동정된 인간 징크 핑거 도메인들 가운데 일부는 데이타베이스에 존재하는 것으로 확인되었고 일부는 본 발명에서 처음 발견된 신규 폴리펩티드인 것으로 확인되었다. 예를 들어, HSNK(진뱅크 억세션 번호 AF155100), QSTV(진뱅크 억세션 번호 AL110217), VSTR(진뱅크 억세션 번호 AF025772)의 경우에는 각각의 염기서열과 동일한 염기서열을 포함하고 있는 유전자들이 이미 데이터베이스에 존재하고 있었고 그 밖의 CSNR, SSNR, RDER의 경우에는 본원 발명에서 처음 발견된 것으로 확인되었다. 그러나 진뱅크 데이터베이스에 수록된 경우에도 그 유전자의 염기서열만 보고되어 있을 뿐 이들 징크 핑거 도메인의 기능이나 유용성에 대해서는 전혀 알려지지 않았다. 즉, 이들 징크 핑거 도메인들이 어떠한 염기서열을 인식하는지알 수 없는 것은 물론 DNA결합도메인으로 기능할 수 있는지의 여부도 알려지지 않았다. 자연계에 존재하는 많은 징크 핑거 도메인들 가운데에는 DNA에 결합하지 못하고 RNA에 결합하거나 다른 단백질에 결합하는 것들도 있고 이와는 달리 어떠한 것과도 결합하지 못하는 것들도 상당수 있다. DNA에 결합하는 징크 핑거의 경우에도 서열특이적으로 특정한 염기서열을 인식할 수도 있고 비특이적으로 DNA에 결합할 수도 있다. 본원발명에서는 상기 징크 핑거 도메인들이 각각 특정한 DNA 염기서열을 특이적으로 인식하는 DNA결합도메인이라는 사실을 최초로 보여줌으로써 이들의 용도 및 기능을 비로서 밝히게 된 것이다.

또한, 본원 발명에서는 인간 유전체에서 유래한 상기 징크 핑거 도메인들이 조립식으로 작용하여 신규의 DNA-결합 단백질을 제조하기 위한 구성 블록으로서 사용될 수 있음을 밝혔다. 본원 발명의 인간 징크핑거 도메인은 이를 Zif268의 핑거 1 및 핑거 2에 이어서 C 말단에 배치하였을 때 생체내에서 이들이 특정의 표적 서열을 인식하는 능력에 기초하여 선택되었다. 따라서, 동정된 징크핑거 도메인은 인위적인 문맥에서 특정 서열을 인식할 수 있고, 합성 전사인자를 디자인하기 위한 모듈성 구성 블록으로서 적합하다.

실시예 7: 효모의 쌍 교배 (pairwise mating)

3 염기쌍의 표적 서열에 결합하는 징크핑거 도메인의 동정을 용이하게 하기 위하여, 효모 세포의 반복적인 형질전환을 피하고, 한 번의 형질전환으로 64개의 리포터 구조물의 각각에 대하여 결합하는 양성 결합 형질전환체를 찾기 위하여, 효모의 교배를 이용하였다. YW1(MATα교배형) 및 YPH499(MATa교배형)의 두 종류의 효모 균주를 사용하였다. YW1은 yWAM2로부터 유래된 것으로 5-플루오로오로틱 에시드(FOA) 내성인 클론을 선택함으로써 yWAM2의ura3-유도체를 생성하였다.

징크핑거 도메인의 플라스미드 라이브러리를 효모 형질전환에 의해 YW1내로 도입하였다. 약 10⁶개의 형질전환된 콜로니로부터 10% 글리세롤 용액으로 플레이트를 긁어서 세포를 수집하여, 소분획으로 냉동시켰다. 64개의 리포터 플라스미드의 각 쌍(pLacZi 또는 pRS315His로부터 유래)을 효모 균주 YPH499에 또한 공동 형질감염시켰다. 각각의 리포터 플라스미드 쌍을 함유하는 형질전환체를 수거하여 냉동시켰다.

냉동시킨 세포들을 녹인 후, 이들 효모 세포들은 최소배지에서 중간-로그 성장기까지 성장시켰다. 이어서, 이 두 세포 유형을 혼합하고 YPD에서 5시간 동안 교배되도록 두었다. X-gal 및 AT(1 mM)을 함유하고, 트립토판, 류신, 우라실 및 히스티딘이 결여된 최소 배지에서 이배체 세포를 선택하였다. 수일 후, 선택용 플레이트에서 성장한 파란색 콜로니를 단리하고, 이로부터 징크핑거 도메인을 코딩하는 플라스미드를 단리하고, 선택된 징크핑거 도메인의 DNA 서열을 결정하였다.

파란색 콜로니로부터 단리된 핵산을 YW1 세포에 개별적으로 재형질전환시켰다. 각각의 단리된 핵산에 대하여, 재형질전환된 YW1 세포를 64 LacZ 리포터 플라스미드를 각각 함유하는 YPH499 세포와 96웰 플레이트에서 교배시키고, X-gal을 함유하고 트립토판 및 우라실을 결한 최소 배지상에 뿌렸다. 64개의 표적 서열에 대한 징크핑거 도메인의 DNA 결합의 친화도 및 특이성은 파란 색상의 강도에 의해 결정되었다. Zif268 징크핑거 도메인과의 대조군 실험결과, 징크핑거 도메인과 결합 부위 사이의 친화적(양성) 상호작용은 진파랑 내지 연파랑 콜로니를 만들고(여기서 파랑색의 강도는 결합 친화도에 비례한다) 비친화적(음성) 상호작용은 흰색 콜로니를 만든다는 것을 알 수 있다.

실시예 8: 동정된 징크핑거 도메인과 상호작용 코드의 비교

선택된 징크 핑거 도메인들의 아미노산서열로부터 염기와 상호작용을 할 것으로 예상되는 아미노산 잔기들과 지금까지 밝혀진 징크 핑거-DNA 상호작용 코드표(도3)에서 예측할 수 있는 아미노산 잔기와의 동일성 및 유사성을 비교, 분석하였다.

예를 들어, 무작위 돌연변이를 통해 제조된 라이브러리로부터 선택된 징크 핑거 도메인 내 공통적 아미노산 잔기는, -1 번 위치에서는 R(아르기닌)(14 개 중에서 7 개) 또는 K(라이신)(14 개 중에서 2 개), 3 번 위치에서는 N(아스파라긴)(14 개 중에서 6 개) 및 6 번 위치에서는 R(14 개 중에서 9 개)이었다(표1 참조). 상기 징크핑거 도메인들은 GAGC 플라스미드로부터 선택되었다. (리포터 유전자에 작동가능하게 연결된 복합 결합서열 5'-GAGCGGGCG-3'을 갖는 리포터 플라스미드를 GAGC 플라스미드로 부르기로 한다. 이하 유사하게, 리포터 유전자에 작동가능하게 연결된 복합 결합서열 5'-XXXXGGGCG-3'을 포함하는 리포터 플라스미드를 XXXX 플라스미드라 부른다). 상기 결과는 세 위치에서 모두 도 3에 제시된코드를 통해 예상할 수 있는 아미노산과 정확히 일치한다. [인간 유전체내 대부분의 징크핑거 도메인들은 2 번 위치에 S(세린)을 갖고 있고, 세린은 4개의 염기중 어느 것과도 수소 결합을 형성할 수 있기 때문에, 2번 위치에서의 영향은 이하 분석 과정에서 고려하지 않기로 한다. 또한, 일반적으로 2번 위치의 잔기는 염기 인식에 보조적인 역할을 하는 것으로 알려져 있다(Pavletich 및 Pabo(1991)Science252, 809-817].

인간의 유전체에서 유래한 징크 핑거 도메인들의 경우에도 코드로부터 예상되는 아미노산과 실제 관찰된 아미노산 잔기들이 대부분 일치하였다. 예를 들어, GAGC 플라스미드를 사용하여 얻은 징크 핑거 도메인내 -1, 3, 6 번 공통 아미노산잔기들은 각각 R, N, R로서(표1 칼럼3 참조) 이는 무작위 돌연변이를 통해 만든 라이브러리로부터 얻은 징크 핑거 도메인의 경우와 동일했고, 또한 코드에서 예상할 수 있는 아미노산과 정확히 일치하였다. GCTT 플라스미드를 사용하여 얻은 징크 핑거 도메인은 -1, 3, 6 번째 아미노산들이 각각 V, T, R로 나타났다(표1 칼럼4). 이 중에서 T와 R은 코드의 예상과 일치한다. 3 bp의 염기서열에서 3' 말단에 위치하는 T와 상호작용을 할 것으로 기대되는 -1 번째 위치의 아미노산은 코드에 의하면 L, T, N 등으로 예상되는데, 본원발명에서 GCTT 플라스미드로 얻은 VSTR 징크 핑거 도메인은 이 위치에 L(류신)과 유사한 소수성 아미노산인 V(발린)을 포함하고 있었다.

전체적으로, 선택된 징크 핑거 도메인들내 아미노산 잔기들은 3 개의 위치 중 적어도 2 개의 위치에서는 코드로부터 예상되는 아미노산과 일치하였다. 표 1에서 각각의 표적 결합 서열에 대하여 선택된 징크 핑거 도메인의 중요 아미노산에서 코드와 부합하는 아미노산에 밑줄을 그어 표시하였다. 본원발명에 따라 선택된 징크 핑거 도메인들이 기존의 징크 핑거-DNA 상호작용 코드와 부합하는 아미노산 잔기들을 핵심 위치에 가지고 있다는 사실은 본원발명의 시스템이 제대로 작동하고 있다는 것을 강력히 암시하고 있다.

실시예9: 재형질전환(retransformation) 및 상호형질전환(cross-transformation)

상기의 징크핑거 단백질들이 잘못 얻어진 양성 결과일 가능성을 배제하고, 또한 상기 징크핑거 단백질들의 서열 특이성을 조사하기 위하여, 단리된 플라스미드를 이용해 효모의 재형질전환(retransformation) 및 상호형질전환(cross-transformation)을 수행하였다.

먼저 리포터 플라스미드와 징크핑거 도메인을 코딩하는 하이브리드 전사인자 플라스미드를 한 쌍으로 하여 효모를 공동-형질전환시켰다. 효모 형질전환체를 류신 및 트립토판이 결여된 최소배지에 접종하고 36시간동안 배양시켰다. 성장 배지중의 세포 약 1,000 개를 류신, 트립토판, 히스티딘이 결여된 고체 배지(도10에서 - 히스티딘으로 표기)와 류신, 트립토판이 결여된 고체 배지(도10에서 + 히스티딘으로 표기)상에 뿌린 후 50시간 동안 30℃에서 배양하였다. 그 결과를 도10에 도시하였다.

하이브리드 전사인자의 징크 핑거 부분이 리포터 유전자HIS3의 프로모터에배치된 복합 결합 서열에 결합한다면, 하이브리드 전사인자가HIS3리포터 유전자의 발현을 활성화시켜 히스티딘이 결여된 배지에서 콜로니를 형성할 것이다. 징크 핑거 부분이 이 복합 결합 서열에 결합하지 못한다면 히스티딘이 결여된 배지에서 자라나지 못할 것이다.

도10에 도시된 바와 같이, 단리된 징크핑거 도메인들은 서열 특이적으로 상응하는 표적 서열에 결합하여 리포터 유전자를 활성화시켰다. 이들 징크핑거 도메인들은 원래의 징크 핑거 단백질 Zif268과 비교할 때 뚜렷이 구별되는 서열 특이성을 보였다. Zif268은 6개의 표적 서열을 갖는 플라스미드 중에서 GCGT 플라스미드와 가장 큰 활성을 보였고 이와 유사한 GAGT 플라스미드와도 비교적 높은 활성을 보였다. 그러나 그 밖의 다른 플라스미드를 갖고 Zif268 단백질을 발현시키는 균주는 콜로니를 형성하지 못했다.

무작위 돌연변이를 이용해 만든 라이브러리로부터 얻은 징크 핑거 도메인 KTNR은 결합장소 GAGC가 배치된 리포터 플라스미드를 사용했을 때 선택된 것인데 예상대로 오직 GAGC에서만 콜로니를 형성하였다. 인간의 유전체로부터 만든 라이브러리에서 얻은 징크 핑거 도메인들도 대부분 기대했던 대로의 특이성을 보였다. 예를 들어, GACT 플라스미드로 선택된 HSNK 징크 핑거 도메인은 예상했던 대로 오직 GACT 플라스미드와의 재형질전환에서만 세포 성장을 보였다. VSTR은 GCTT 플라스미드로 선택된 것으로서 예상했던 대로 GCTT 플라스미드에서 가장 큰 활성을 보였다. GAGT 플라스미드로 선택된 RDER은 Zif268의 핑거3와 동일한 염기-접촉 부위의 아미노산 잔기 서열을 갖는다. 예상대로, RDER은 Zif268의 핑거 3와 동일한 서열 특이성을 보였다. GAGC와 GAGT 플라스미드로 선택된 SSNR은 기대했던 대로 GAGC 플라스미드와는 히스티딘 결핍배지에서 콜로니를 형성하였으나, GAGT 플라스미드와는 콜로니를 형성하지 못했다. ACAT 플라스미드로 얻은 QSTV는 ACAT를 포함한 모든 플라스미드에 대하여 활성을 보이지 못했다. 그러나, 후술하는 바와 같이 시험관내 실험에서는 이 징크핑거 도메인이 ACAT 서열과 강하게 결합하였다.

실시예 10: 겔 이동 분석 (gel shift assay)

선택된 징크 핑거 도메인들이 표적 결합 서열에 제대로 결합하는지를 확인하기 위하여 징크핑거 도메인을 포함하는 징크 핑거 단백질들을 분리한 후 겔이동 분석(gel shift assay)를 실시하였다. 이를 위해, 변형된 원-하이브리드 시스템을 이용하여 선택된 징크핑거 도메인을 포함하는 징크핑거 단백질을 대장균내에서 발현시키고, 정제하여 겔이동분석에 사용하였다. pPC86 플라스미드에 삽입되어 있는 징크 핑거 단백질을 코딩하는 DNA를SalI 및NotI으로 처리하여 단리하고, 이를 동일 효소로 처리된 pGEX-4T2(Pharmacia Biotech)내에 클로닝하였다. 이러한 과정을 통해 만든 플라스미드를 이용해 대장균 균주 BL21를 형질전환시키면, 징크 핑거 단백질이 글루타티온-S-전달효소(Glutathione-S-transferase)(GST)에 연결된 융합단백질의 형태로 발현된다. 발현된 단백질을 글루타티온에 대한 친화성(glutathione affinity) 크로마토그래피를 이용하여 단일 정제한 후 트롬빈을 가해 GST와 징크 핑거 단백질의 연결부위를 절단하였다. 분리 정제된 징크 핑거 단백질들은 효모에서 발현되었을 때와 마찬가지로 Zif268의 핑거 1, 핑거 2의 C-말단에 선택된 징크핑거 도메인이 연결된 형태로 존재한다.

하기 서열의 프로브 DNA를 합성하고, 결찰시키고, T4 폴리뉴클레오티드 키나제로³²P 표지하여, 겔이동 분석에 사용하였다.

GCGT; 5'-CCGGGTCGCGCGTGGGCG GTACCG-3' (SEQ ID NO 90)

3'-CAGCG CGCACCCGC CATGGCAGCT-5' (SEQ ID NO 91)

GAGC; 5'-CCGGGTCGCGAGCGGGCG GTACCG-3' (SEQ ID NO 92)

3'-CAGCG CTCGCCCGC CATGGCAGCT-5' (SEQ ID NO 93)

GCTT; 5'-CCGGGTCGTGCTTGGGCG GTACCG-3' (SEQ ID NO 94)

3'-CAGCA CGAACCCGC CATGGCAGCT-5' (SEQ ID NO 95)

GACT; 5'-CCGGGTCGGGACTGGGCG GTACCG-3' (SEQ ID NO 96)

3'-CAGCC CTGACCCGC CATGGCAGCT-5' (SEQ ID NO 97)

GAGT; 5'-CCGGGTCGGGAGTGGGCG GTACCG-3' (SEQ ID NO 98)

3'-CAGCC CTCACCCGC CATGGCAGCT-5' (SEQ ID NO 99)

ACAT; 5'-CCGGGTCGGACATGGGCG GTACCG-3' (SEQ ID NO 100)

3'-CAGCC TGTACCCGC CATGGCAGCT-5' (SEQ ID NO 101)

다양한 양의 징크핑거 단백질을, 20 mM Tris (pH 7.7), 120 mM NaCl, 5 mM MgCl₂, 20 μM ZnSO₄, 10% 글리세롤, 0.1% Nonidet P-40, 5 mM DTT, 및 0.10 mg/ml BSA(소혈청 알부민) 중에서 표지된 프로브 DNA와 실온에서 한 시간 동안 배양시킨 후, 이 반응 혼합물을 겔 전기영동시켰다. 단백질과 결합한 프로브 DNA의 양과 결합하지 않은 양은 방사능 활성을 포스포이메이저(PhosphorImager)를 사용하여 정량화한 다음, 문헌[Rebar and Pabo (1994) Science 263:671-673]에 기재된 바에 따라 해리상수(dissociation constant)를 계산하였다. 표 2는 그 결과를 정리한 것이다. 2회 이상의 별도의 실험으로 모든 상수를 결정하였고, 평균 및 표준편자를 표시하였다. 표2에는 히스티딘 결핍 배지에서의 효소 형질전환체의 세포 성장(도10)도 나타내었다.

zinc 핑거 단백질	probe DNA	해리상수 (nM)	효모 성장
Zif268	GCTT	2.1±0.3	-
	GCGT	0.024±0.004	+++
	GAGT	0.17±0.04	++
	GAGC	2.3±0.9	-
	GACT	4.9±0.6	-
	ACAT	1.3±0.3	-
KTNR	GCGT	5.5±0.7	-
	GAGC	0.17±0.01	++
	GACT	30±1	-
CSNR	GCGT	2.7±0.3	-
	GAGT	0.46±0.04	+++
	GAGC	1.2±0.1	++
	GACT	0.17±0.01	+++
HSNK	GCGT	42±14	-
	GAGT	3.5±0.1	-
	GACT	0.32±0.08	++
RDER	GCGT	0.027±0.002	+++
	GAGT	0.18±0.01	++
	GACT	28±9	-
SSNR	GCGT	3.8±1.3	-
	GAGC	0.45±0.09	++
	GACT	0.61±0.21	+
VSTR	GCTT	0.53±0.07	++
	GCGT	0.76±0.22	-
	GAGT	1.4±0.2	-
QSTV	GCTT	29±3	-
	GCGT	9.8±3.4	-
	ACAT	2.3±0.4	-

* +++: 20 내지 100% 성장; ++: 5 내지 20% 성장; +: 1 내지 5% 성장;

-: 1% 미만의 성장

히스티딘 결핍 배지에서 세포 성장을 가능하게 하는 징크 핑거 단백질들은 해당하는 프로브 DNA와 강하게 결합하였다. 예를 들어 대조군으로서 사용한 Zif268 단백질의 경우, 이는 GCGT 및 GAGT 리포터 플라스미드와 함께 재형질전환시킬 경우에만 효모의 성장을 가능하게 했는데, 이들 리포터 플라스미드에 상응하는 DNA 프로브를 이용하여 측정한 시험관 해리상수는 각각 24 pM, 170 pM이었다. 대조적으로, 다른 리포터 플라스미드와는 세포성장이 가능하지 않았고, 상응하는 DNA 프로브로 측정한 해리상수도 1 nM 이상으로 높았다.

신규 징크 핑거 도메인들을 포함하는 징크핑거 단백질에서도 유사한 결과를 보였다. 예를 들어, KTNR 단백질은 GAGC 프로브 DNA에 대해서 170 pM의 낮은 해리상수를 갖는 높은 친화도를 보이는 반면, GCGT 및 GACT 프로브 DNA에 대해서는 이보다 각각 32 배, 176 배 높은 해리상수를 나타내었다. KTNR 단백질의 재형질전환 실험은 GAGC 플라스미드의 경우에만 세포 성장을 가능하게 하였다. HSNK 단백질은 GACT 프로브 DNA와는 강하게 결합하나(Kd=0.32 nM), GCGT 또는 GAGT 프로브 DNA와는 친화도를 보이지 않았고, 예상대로 이 HSNK 단백질의 재형질전환 실험에서도 오직 GACT 플라스미드의 경우에만 세포성장이 가능하였다.

ACAT 리포터 플라스미드로 선택된 QSTV 단백질은 재형질전환 실험에서는 어떤 리포터 플라스미드로도 효모의 성장을 가능하게 하지 못했었다. 그러나, 겔이동 분석으로 ACAT 프로브 DNA에 가장 강하게 결합함이 증명되었다. 즉, QSTV는 GCTT 프로브 DNA 및 GCGT 프로브 DNA와 비교시, 각각 13 배 및 4.3 배 강하게 ACAT프로브 DNA와 결합하였다.

해리상수와 효모 성장의 상관관계를 분석해 볼 때, 일반적으로, 1 nM 미만의 해리상수로 DNA 서열에 결합하는 징크핑거 단백질인 경우 효모의 성장을 가능하게 했으며 그 이상인 경우 효모가 자라지 못한다는 사실을 알 수 있었다. 1 nM 이상 5 nM 미만의 해리상수로 DNA 서열에 결합하는 징크핑거 단백질인 경우도 예를 들어 4개의 징크핑거 도메인을 갖는 키메라 징크핑거 단백질의 문맥에서 유용할 수도 있다.

실시예 11 : TG-ZFD-001 "CSNR1"

TG-ZFD-001 "CSNR1"은 인간 유전체 서열로부터 생체내(in vivo) 스크리닝에 의해 동정되었다. 그 아미노산 서열은 KCKQCGKAFGCPSNLRRHGRTH(SEQ ID NO:23)이다. 그것은 하기 인간 핵산 서열에 의해 코딩된다.

5'-AAATGTAAGCAATGTGGGAAAGCTTTTGGATGTCCCTCAAACCTTCGAAGGCATGGAAGGACT

CAC-3'(SEQ ID NO:22).

TG-ZFD-001 "CSNR1"은 Zif268의 핑거 1 및 2와의 폴리펩티드 융합시 3-bp 표적 서열 GAA, GAC, GAG 들을 특이하게 인식한다. 생체내 스크리닝 결과와 EMSA에 의하면 TG-ZFD-001 "CSNR"의 결합부위 서열에 대한 우선성는 GAA > GAC > GAG > GCG이다. EMSA에서, TG-ZFD-001 "CSNR"과 Zif268의 핑거1, 핑거2, 및 GST 정제 핸들과의 융합은, GAC를 포함하는 부위에 대해서는 0.17 nM, GAG를 포함하는 부위에대해서는 0.46 nM, 그리고 GCG를 포함하는 부위에 대해서는 2.7 nM의 해리상수(K_d)를 보인다.

TG-ZFD-001 "CSNR1"은 예를 들면 GAA, GAC 또는 GAG 서열을 포함하는 DNA 부위를 인식하기 위한 목적으로 여러 개의 징크 핑거 도메인들을 포함하는 키메라 DNA 결합 단백질을 만들기 위한 단위로 이용될 수 있다.

실시예 12 : TG-ZFD-002 "HSNK"

TG-ZFD-002 "HSNK"는 인간 유전체 서열로부터 생체내 스크리닝에 의해 동정되었다. 그 아미노산 서열은 KCKECGKAFNHSSNFNKHHRIH(SEQ ID NO:25)이다. 그것은 다음의 인간 핵산 서열에 의해 코딩된다.

5'-AAGTGTAAGGAGTGTGGGAAAGCCTTCAACCACAGCTCCAACTTCAATAAACACCACAGAATC

CAC-3'(SEQ ID NO:24).

TG-ZFD-002 "HSNK"는 Zif268의 핑거 1 및 2와의 폴리펩티드 융합시 3-bp 표적 서열 GAC를 특이하게 인식한다. 생체내 스크리닝 결과와 EMSA에 의하면 TG-ZFD-002 "HSNK"의 결합부위 서열에 대한 선호도는 GAC > GAG > GCG이다. EMSA에서, Zif268의 핑거 1 및 2, 그리고 GST 정제 핸들과 TG-ZFD-002 "HNSK" 융합은, GAC를 포함하는 자리에 대해서는 0.32 nM, GAG를 포함하는 자리에 대해서는 3.5 nM, 그리고 GCG를 포함하는 자리에 대해서는 42 nM의 해리상수(K_d)를 가진다.

TG-ZFD-002 "HSNK"는 예를 들면 GAC 서열을 포함하는 DNA 부위를 인식하기위한 목적으로, 여러 개의 징크핑거 도메인들로 이루어진 키메라 DNA 결합 단백질을 만들기 위한 단위로 사용될 수 있다.

실시예 13 : TG-ZFD-003 "SSNR"

TG-ZFD-003 "SSNR"은 인간 유전체 서열로부터 생체내 스크리닝에 의해 동정되었다. 그 아미노산 서열은 ECKECGKAFSSGSNFTRHQRIH(SEQ ID NO:27)이다. 그것은 다음의 인간 핵산 서열에 의해 코딩된다.

5'-GAATGTAAGGAATGTGGGAAAGCCTTTAGTAGTGGTTCAAACTTCACTCGACATCAGAGAATT

CAC-3'(SEQ ID NO:26).

Zif268의 핑거 1 및 2와의 폴리펩티드 융합시 TG-ZFD-003 "SSNR"은 3-bp 표적 서열 GAG에 대한 인식 특이성을 나타낸다. 생체내 스크리닝 결과와 EMSA에 의하면 TG-ZFD-003 "SSNR"의 결합부위 서열에 대한 선호도는 GAG > GAC > GCG이다. EMSA에서, Zif268의 핑거 1, 핑거 2, 및 GST 정제 핸들과 TG-ZFD-003 "SSNR"과의 융합은, GAG를 포함하는 자리에 대해서는 0.45 nM, GAC를 포함하는 자리에 대해서는 0.61 nM, 그리고 GCG를 포함하는 자리에 대해서는 3.8 nM의 해리상수 K_d를 보인다.

TG-ZFD-003 "SSNR"은 예를 들면 GAG 또는 GAC 서열을 포함하는 DNA 부위를 인식하기 위한 목적으로, 여러 개의 징크핑거 도메인들로 이루어진 키메라 DNA 결합 단백질을 만들기 위한 단위로 이용될 수 있다.

실시예 14 : TG-ZFD-004 "RDER1"

TG-ZFD-004 "RDER"은 인간 유전체 서열로부터 생체내 스크리닝에 의해 동정되었다. 그 아미노산 서열은 VCDVEGCTWKFARSDELNRHKKRH(SEQ ID NO:29)이다. 그것은 다음의 인간 핵산 서열에 의해 코딩된다.

5'-GTATGCGATGTAGAGGGATGTACGTGGAAATTTGCCCGCTCAGATGAGCTCAACAGACACAAGAAA

AGGCAC-3'(SEQ ID NO:28).

Zif268의 핑거 1 및 2와 폴리펩티드 융합시 TG-ZFD-004 "RDER"은 3-bp 표적 서열 GAG에 대한 인식 특이성을 나타낸다. 생체내 스크리닝 결과와 EMSA에 의하면 TG-ZFD-004 "RDER"의 결합부위 서열에 대한 선호도는 GCG > GAG > GAC이다. EMSA에서, Zif268의 핑거 1과 2, 및 GST 정제 핸들과 TG-ZFD-004 "RDER"와의 융합은, GCG를 포함하는 자리에 대해서는 0.027 nM, GAG를 포함하는 자리에 대해서는 0.18 nM, 그리고 GAC를 포함하는 자리에 대해서는 28 nM의 해리상수 K_d를 가진다.

TG-ZFD-004 "RDER"은 예를 들면 GCG 또는 GAG 서열을 포함하는 DNA 부위를 인식하기 위한 목적으로, 여러 개의 징크핑거 도메인들로 이루어진 키메라 DNA 결합 단백질을 만들기 위한 단위로 이용될 수 있다.

실시예 15 : TG-ZFD-005 "QSTV"

TG-ZFD-005 "QSTV"은 인간 유전체 서열로부터 생체내 스크리닝으로 동정되었다. 그 아미노산 서열은 ECNECGKAFAQNSTLRVHQRIH(SEQ ID NO:31)이다. 그것은 다음의 인간 핵산 서열에 의해 코딩된다.

5'-GAGTGTAATGAATGCGGGAAAGCTTTTGCCCAAAATTCAACTCTCAGAGTACACCAGAGAATT

CAC-3'(SEQ ID NO:30).

Zif268의 핑거 1 및 핑거 2와의 폴리펩티드 융합시 TG-ZFD-005 "QSTV"은 3-bp 표적 서열 ACA에 대한 인식 특이성을 나타낸다. 생체내 스크리닝 결과와 EMSA에 의하면 TG-ZFD-005 "QSTV"의 결합부위 서열에 대한 선호도는 ACA > GCG > GCT이다. EMSA에서, Zif268의 핑거 1과 2, 및 GST 정제 핸들과 TG-ZFD-005 "QSTV"와의 융합은, ACA를 포함하는 자리에 대해서는 2.3 nM, GCG를 포함하는 자리에 대해서는 9.8 nM, 그리고 GCT를 포함하는 자리에 대해서는 29 nM의 해리상수 K_d를 가진다.

TG-ZFD-005 "QSTV"는 예를 들면 ACA 서열을 포함하는 DNA 부위를 인식하기 위한 목적으로, 여러 개의 징크핑거 도메인들로 이루어진 키메라 DNA 결합 단백질을 만들기 위한 단위로 이용할 수 있다.

실시예 16 : TG-ZFD-006 "VSTR"

TG-ZFD-006 "VSTR"은 인간 유전체 서열로부터 생체내 스크리닝으로 동정되었다. 그 아미노산 서열은 ECNYCGKTFSVSSTLIRHQRIH(SEQ ID NO:33)이다. 그것은 다음의 인간 핵산 서열에 의해 코딩된다.

5'-GAGTGTAATTACTGTGGAAAAACCTTTAGTGTGAGCTCAACCCTTATTAGACATCAGAGAATC

CAC-3'(SEQ ID NO:32).

Zif268의 핑거 1 및 핑거 2와의 폴리펩티드 융합시 TG-ZFD-006 "VSTR"은 3-bp 표적 서열 GCT에 대한 인식 특이성을 나타낸다. 생체내 스크리닝 결과와 EMSA에 의하면 TG-ZFD-006 "VSTR"의 결합부위 서열에 대한 선호도는 GCT > GCG > GAG이다. EMSA에서, Zif268의 핑거 1과 2, 및 GST 정제 핸들과 TG-ZFD-006 "VSTR"과의 융합은, GCT를 포함하는 자리에 대해서는 0.53 nM, GCG를 포함하는 자리에 대해서는 0.76 nM, 그리고 GAG를 포함하는 자리에 대해서는 1.4 nM의 해리상수 K_d를 가진다.

TG-ZFD-006 "VSTR"은 예를 들면 GCT 또는 GCG 서열을 포함하는 DNA 부위를 인식하기 위한 목적으로, 여러 개의 징크핑거 도메인들로 이루어진 키메라 DNA 결합 단백질을 만들기 위한 단위로 이용할 수 있다.

실시예 17 : TG-ZFD-007 "CSNR2"

TG-ZFD-007 "CSNR2"는 인간 유전체 서열로부터 생체내 스크리닝으로 동정되었다. 그 아미노산 서열은 YQCNICGKCFSCNSNLHRHQRTH(SEQ ID NO:35)이다. 그것은 다음의 인간 핵산 서열에 의해 코딩된다.

5'-TATCAGTGCAACATTTGCGGAAAATGTTTCTCCTGCAACTCCAACCTCCACAGGCACCAGAGAACG

CAC-3'(SEQ ID NO:34).

Zif268의 핑거 1 및 핑거 2와 폴리펩티드 융합시 TG-ZFD-007 "CSNR2"는 3-bp표적 서열 GAA, GAC, GAG에 대한 인식 특이성을 나타낸다. 생체내 스크리닝 결과에 의하면 TG-ZFD-007 "CSNR2"의 결합부위 서열에 대한 선호도는 GAA > GAC > GAG이다.

TG-ZFD-007 "CSNR2"는 예를 들면 GAA, GAC 또는 GAG 서열을 포함하는 DNA 부위를 인식하기 위한 목적으로 여러 개의 징크핑거 도메인들로 이루어진 키메라 DNA 결합 단백질을 만들기 위한 단위로 이용될 수 있다.

실시예 18 : TG-ZFD-008 "QSHR1"

TG-ZFD-008 "QSHR1"은 인간 유전체 서열로부터 생체내 스크리닝에 의해 동정되었다. 그 아미노산 서열은 YACHLCGKAFTQSSHLRRHEKTH(SEQ ID NO:37)이다. 그것은 다음의 인간 핵산 서열에 의해 코딩된다.

5'-TATGCATGTCATCTATGTGGAAAAGCCTTCACTCAGAGTTCTCACCTTAGAAGACATGAGAAAACT

CAC-3'(SEQ ID NO:36).

Zif268의 핑거 1 및 핑거 2와의 폴리펩티드 융합시 TG-ZFD-008 "QSHR1"은 3-bp 표적 서열 GGA, GAA, AGA에 대한 인식 특이성을 나타낸다. 생체내 스크리닝 결과에 의하면 TG-ZFD-008 "QSHR1"의 결합부위 서열에 대한 선호도는 GGA > GAA > AGA이다.

TG-ZFD-008 "QSHR1"는 예를 들면 GGA, GAA 또는 AGA 서열을 포함하는 DNA 부위를 인식하기 위한 목적으로 여러 개의 징크핑거 도메인들로 이루어진 키메라 DNA 결합 단백질을 만들기 위한 단위로 이용될 수 있다.

실시예 19 : TG-ZFD-009 "QSHR2"

TG-ZFD-009 "QSHR2"는 인간 유전체 서열로부터 생체내 스크리닝에 의해 동정되었다. 그 아미노산 서열은 YKCGQCGKFYSQVSHLTRHQKIH(SEQ ID NO:39)이다. 그것은 다음의 인간 핵산 서열에 의해 코딩된다.

5'-TATAAATGCGGCCAGTGTGGGAAGTTCTACTCGCAGGTCTCCCACCTCACCCGCCACCAGAAAATC

CAC-3'(SEQ ID NO:38).

Zif268의 핑거 1 및 핑거 2와의 폴리펩티드 융합시 TG-ZFD-009 "QSHR2"는 3-bp 표적 서열 GGA에 대한 인식 특이성을 나타낸다.

TG-ZFD-009 "QSHR2"는 예를 들면 GGA 서열을 포함하는 DNA 부위를 인식하기 위한 목적으로 여러 개의 징크핑거 도메인들로 이루어진 키메라 DNA 결합 단백질을 만들기 위한 단위로 이용될 수 있다.

실시예 20 : TG-ZFD-010 "QSHR3"

TG-ZFD-010 "QSHR3"는 인간 유전체 서열로부터 생체내 스크리닝에 의해 동정되었다. 그 아미노산 서열은 YACHLCGKAFTQCSHLRRHEKTH(SEQ ID NO:41)이다. 그것은 다음의 인간 핵산 서열에 의해 코딩된다.

5'-TATGCATGTCATCTATGTGGAAAAGCCTTCACTCAGTGTTCTCACCTTAGAAGACATGAGAAAACT

CAC-3'(SEQ ID NO:40).

Zif268의 핑거 1 및 핑거 2와의 폴리펩티드 융합시 TG-ZFD-010 "QSHR3"는 3-bp 표적 서열 GGA, GAA에 대한 인식 특이성을 나타낸다. 생체내 스크리닝 결과에 의하면 TG-ZFD-010 "QSHR3"의 결합부위 서열에 대한 선호도는 GGA > GAA이다.

TG-ZFD-010 "QSHR3"는 예를 들면 GGA 또는 GAA 서열을 포함하는 DNA 부위를 인식하기 위한 목적으로, 여러 개의 징크핑거 도메인들로 이루어진 키메라 DNA 결합 단백질을 만들기 위한 단위로 이용될 수 있다.

실시예 21 : TG-ZFD-011 "QSHR4"

TG-ZFD-011 "QSHR4"는 인간 유전체 서열로부터 생체내 스크리닝에 의해 동정되었다. 그 아미노산 서열은 YACHLCAKAFIQCSHLRRHEKTH(SEQ ID NO:43)이다. 그것은 다음의 인간 핵산 서열에 의해 코딩된다.

5'-TATGCATGTCATCTATGTGCAAAAGCCTTCATTCAGTGTTCTCACCTTAGAAGACATGAGAAAACT

CAC-3'(SEQ ID NO:42).

Zif268의 핑거 1 및 핑거 2와의 폴리펩티드 융합시 TG-ZFD-011 "QSHR4"는 3-bp 표적 서열 GGA, GAA에 대한 인식 특이성을 나타낸다. 생체내 스크리닝 결과에 의하면 TG-ZFD-011 "QSHR4"의 결합부위 서열에 대한 선호도는 GGA > GAA이다.

TG-ZFD-011 "QSHR4"는 예를 들면 GGA 또는 GAA 서열을 포함하는 DNA 부위를 인식하기 위한 목적으로, 여러 개의 징크핑거 도메인들로 이루어진 키메라 DNA 결합 단백질을 만들기 위한 단위로 이용할 수 있다.

실시예 22 : TG-ZFD-012 "QSHR5"

TG-ZFD-012 "QSHR5"는 인간 유전체 서열로부터 생체내 스크리닝에 의해 동정되었다. 그 아미노산 서열은 YVCRECGRGFRQHSHLVRHKRTH(SEQ ID NO:45)이다. 그것은 다음의 인간 핵산 서열에 의해 코딩된다.

5'-TATGTTTGCAGGGAATGTGGGCGTGGCTTTCGCCAGCATTCACACCTGGTCAGACACAAGAGGACA

CAT-3'(SEQ ID NO:44).

Zif268의 핑거 1 및 핑거 2와의 폴리펩티드 융합시 TG-ZFD-012 "QSHR5"는 3-bp 표적 서열 GGA, AGA, GAA, CGA에 대한 인식 특이성을 나타낸다. 생체내 스크리닝 결과에 의하면 TG-ZFD-012 "QSHR5"의 결합부위 서열에 대한 선호도는 GGA > AGA > GAA > CGA이다.

TG-ZFD-012 "QSHR5"는 예를 들면 GGA, AGA, GAA 또는 CGA 서열을 포함하는 DNA 부위를 인식하기 위한 목적으로 여러 개의 징크핑거 도메인들로 이루어진 키메라 DNA 결합 단백질을 만들기 위한 단위로 이용될 수 있다.

실시예 23 : TG-ZFD-013 "QSNR1"

TG-ZFD-013 "QSNR1"은 인간 유전체 서열로부터 생체내 스크리닝에 의해 동정되었다. 그 아미노산 서열은 FECKDCGKAFIQKSNLIRHQRTH(SEQ ID NO:47)이다. 그것은 다음의 인간 핵산 서열에 의해 코딩된다.

5'-TTTGAGTGTAAAGATTGCGGGAAAGCTTTCATTCAGAAGTCAAACCTCATCAGACACCAGAGAACT

CAC-3'(SEQ ID NO:46).

Zif268의 핑거 1 및 핑거 2와의 폴리펩티드 융합시 TG-ZFD-013 "QSNR1"은 3-bp 표적 서열 GAA에 대한 인식 특이성을 나타낸다.

TG-ZFD-013 "QSNR1"은 예를 들면 GAA 서열을 포함하는 DNA 부위를 인식하기 위한 목적으로 여러 개의 징크핑거 도메인들로 이루어진 키메라 DNA 결합 단백질을 만들기 위한 단위로 이용할 수 있다.

실시예 24 : TG-ZFD-014 "QSNR2"

TG-ZFD-014 "QSNR2"는 인간 유전체 서열로부터 생체내 스크리닝에 의해 동정되었다. 그 아미노산 서열은 YVCRECRRGFSQKSNLIRHQRTH(SEQ ID NO:49)이다. 그것은 다음의 인간 핵산 서열에 의해 코딩된다.

5'-TATGTCTGCAGGGAGTGTAGGCGAGGTTTTAGCCAGAAGTCAAATCTCATCAGACACCAGAGGACG

CAC-3'(SEQ ID NO:48).

Zif268의 핑거 1 및 핑거 2와의 폴리펩티드 융합시 TG-ZFD-014 "QSNR2"는 3-bp 표적 서열 GAA에 대한 인식 특이성을 나타낸다.

TG-ZFD-014 "QSNR2"는 예를 들면 GAA 서열을 포함하는 DNA 부위를 인식하기 위한 목적으로 여러 개의 징크핑거 도메인들로 이루어진 키메라 DNA 결합 단백질을 만들기 위한 단위로 이용될 수 있다.

실시예 25 : TG-ZFD-015 "QSNV1"

TG-ZFD-015 "QSNV1"은 인간 유전체 서열로부터 생체내 스크리닝에 의해 동정되었다. 그 아미노산 서열은 YECNTCRKTFSQKSNLIVHQRTH(SEQ ID NO:51)이다. 그것은 다음의 인간 핵산 서열에 의해 코딩된다.

5'-TATGAATGTAACACATGCAGGAAAACCTTCTCTCAAAAGTCAAATCTCATTGTACATCAGAGAACA

CAC-3'(SEQ ID NO:50).

Zif268의 핑거 1 및 핑거 2와의 폴리펩티드 융합시 TG-ZFD-015 "QSNV1"은 3-bp 표적 서열 AAA, CAA에 대한 인식 특이성을 나타낸다. 생체내 스크리닝 결과에 의하면 TG-ZFD-015 "QSNV1"의 결합부위 서열에 대한 선호도는 AAA > CAA이다.

TG-ZFD-015 "QSNV1"은 예를 들면 AAA 또는 CAA 서열을 포함하는 DNA 부위를 인식하기 위한 목적으로 여러 개의 징크핑거 도메인들로 이루어진 키메라 DNA 결합 단백질을 만들기 위한 단위로 이용될 수 있다.

실시예 26 : TG-ZFD-016 "QSNV2"

TG-ZFD-016 "QSNV2"는 인간 유전체 서열로부터 생체내 스크리닝에 의해 동정되었다. 그 아미노산 서열은 YVCSKCGKAFTQSSNLTVHQKIH(SEQ ID NO:53)이다. 그것은 다음의 인간 핵산 서열에 의해 코딩된다.

5'-TATGTTTGCTCAAAATGTGGGAAAGCCTTCACTCAGAGTTCAAATCTGACTGTACATCAAAAAATC

CAC-3'(SEQ ID NO:52).

Zif268의 핑거 1 및 핑거 2와의 폴리펩티드 융합시 TG-ZFD-016 "QSNV2"는 3-bp 표적 서열 AAA, CAA에 대한 인식 특이성을 나타낸다. 생체내 스크리닝 결과에 의하면 TG-ZFD-016 "QSNV2"의 결합부위 서열에 대한 선호도는 AAA > CAA이다.

TG-ZFD-016 "QSNV2"는 예를 들면 AAA 또는 CAA 서열을 포함하는 DNA 부위를인식하기 위한 목적으로 여러 개의 징크핑거 도메인들로 이루어진 키메라 DNA 결합 단백질을 만들기 위한 단위로 이용될 수 있다

실시예 27 : TG-ZFD-017 "QSNV3"

TG-ZFD-017 "QSNV3"는 인간 유전체 서열로부터 생체내 스크리닝에 의해 동정되었다. 그 아미노산 서열은 YKCDECGKNFTQSSNLIVHKRIH(SEQ ID NO:55)이다. 그것은 다음의 인간 핵산 서열에 의해 코딩된다.

5'-TACAAATGTGACGAATGTGGAAAAAACTTTACCCAGTCCTCCAACCTTATTGTACATAAGAGAATT

CAT-3'(SEQ ID NO:54).

Zif268의 핑거 1 및 핑거 2와의 폴리펩티드 융합시 TG-ZFD-017 "QSNV3"는 3-bp 표적 서열 AAA에 대한 인식 특이성을 나타낸다.

TG-ZFD-017 "QSNV3"는 예를 들면 AAA 서열을 포함하는 DNA 부위를 인식하기 위한 목적으로 여러 개의 징크핑거 도메인들로 이루어진 키메라 DNA 결합 단백질을 만들기 위한 단위로 이용될 수 있다.

실시예 28 : TG-ZFD-018 "QSNV4"

TG-ZFD-018 "QSNV4"는 인간 유전체 서열로부터 생체내 스크리닝에 의해 동정되었다. 그 아미노산 서열은 YECDVCGKTFTQKSNLGVHQRTH(SEQ ID NO:57)이다. 그것은 다음의 인간 핵산 서열에 의해 코딩된다.

5'-TATGAATGTGATGTGTGTGGAAAAACCTTCACGCAAAAGTCAAACCTTGGTGTACATCAGAGAACT

CAT-3'(SEQ ID NO:56).

Zif268의 핑거 1 및 핑거 2와의 폴리펩티드 융합시 TG-ZFD-018 "QSNV4"는 3-bp 표적 서열 AAA에 대한 인식 특이성을 나타낸다.

TG-ZFD-018 "QSNV4"는 예를 들면 AAA 서열을 포함하는 DNA 부위를 인식하기 위한 목적으로 여러 개의 징크핑거 도메인들로 이루어진 키메라 DNA 결합 단백질을 만들기 위한 단위로 이용될 수 있다.

실시예 29 : TG-ZFD-019 "QSSR1"

TG-ZFD-019 "QSSR1"은 인간 유전체 서열로부터 생체내 스크리닝에 의해 동정되었다. 그 아미노산 서열은 YKCPDCGKSFSQSSSLIRHQRTH(SEQ ID NO:59)이다. 그것은 다음의 인간 핵산 서열에 의해 코딩된다.

5'-TATAAGTGCCCTGATTGTGGGAAGAGTTTTAGTCAGAGTTCCAGCCTCATTCGCCACCAGCGGACA

CAC-3'(SEQ ID NO:58).

Zif268의 핑거 1 및 핑거 2와의 폴리펩티드 융합시 TG-ZFD-019 "QSSR1"은 3-bp 표적 서열 GTA, GCA에 대한 인식 특이성을 나타낸다. 생체내 스크리닝 결과에 의하면 TG-ZFD-019 "QSSR1"의 결합부위 서열에 대한 선호도는 GTA > GCA이다.

TG-ZFD-019 "QSSR1"은 예를 들면 GTA 또는 GCA 서열을 포함하는 DNA 부위를 인식하기 위한 목적으로 여러 개의 징크핑거 도메인들로 이루어진 키메라 DNA 결합 단백질을 만들기 위한 단위로 이용될 수 있다.

실시예 30 : TG-ZFD-020 "QSSR2"

TG-ZFD-020 "QSSR2"는 인간 유전체 서열로부터 생체내 스크리닝에 의해 동정되었다. 그 아미노산 서열은 YECQDCGRAFNQNSSLGRHKRTH(SEQ ID NO:61)이다. 그것은 다음의 인간 핵산 서열에 의해 코딩된다.

5'-TATGAGTGTCAGGACTGTGGGAGGGCCTTCAACCAGAACTCCTCCCTGGGGCGGCACAAGAGGACA

CAC-3'(SEQ ID NO:60).

Zif268의 핑거 1 및 핑거 2와의 폴리펩티드 융합시 TG-ZFD-020 "QSSR2"는 3-bp 표적 서열 GTA에 대한 인식 특이성을 나타낸다.

TG-ZFD-020 "QSSR2"는 예를 들면 GTA 서열을 포함하는 DNA 부위를 인식하기 위한 목적으로 여러 개의 징크핑거 도메인들로 이루어진 키메라 DNA 결합 단백질을 만들기 위한 단위로 이용될 수 있다.

실시예 31 : TG-ZFD-021 "QSTR"

TG-ZFD-021 "QSTR"은 인간 유전체 서열로부터 생체내 스크리닝에 의해 동정되었다. 그 아미노산 서열은 YKCEECGKAFNQSSTLTRHKIVH(SEQ ID NO:63)이다. 그것은 다음의 인간 핵산 서열에 의해 코딩된다.

5'-TACAAATGTGAAGAATGTGGCAAAGCTTTTAACCAGTCCTCAACCCTTACTAGACATAAGATAGTT

CAT-3'(SEQ ID NO:62).

Zif268의 핑거 1 및 핑거 2와의 폴리펩티드 융합시 TG-ZFD-021 "QSTR"은 3-bp 표적 서열 GTA, GCA에 대한 인식 특이성을 나타낸다. 생체내 스크리닝 결과에의하면 TG-ZFD-021 "QSTR"의 결합부위 서열에 대한 선호도는 GTA > GCA이다.

TG-ZFD-021 "QSTR"은 예를 들면 GTA 또는 GCA 서열을 포함하는 DNA 부위를 인식하기 위한 목적으로 여러 개의 징크핑거 도메인들로 이루어진 키메라 DNA 결합 단백질을 만들기 위한 단위로 이용될 수 있다.

실시예 32 : TG-ZFD-022 "RSHR"

TG-ZFD-022 "RSHR"은 인간 유전체 서열로부터 생체내 스크리닝에 의해 동정되었다. 그 아미노산 서열은 YKCMECGKAFNRRSHLTRHQRIH(SEQ ID NO:65)이다. 그것은 다음의 인간 핵산 서열에 의해 코딩된다.

5'-TATAAGTGCATGGAGTGTGGGAAGGCTTTTAACCGCAGGTCACACCTCACACGGCACCAGCGGATT

CAC-3'(SEQ ID NO:64).

Zif268의 핑거 1 및 핑거 2와의 폴리펩티드 융합시 TG-ZFD-022 "RSHR"은 3-bp 표적 서열 GGG에 대한 인식 특이성을 나타낸다.

TG-ZFD-022 "RSHR"은 예를 들면 GGG 서열을 포함하는 DNA 부위를 인식하기 위한 목적으로 여러 개의 징크핑거 도메인들로 이루어진 키메라 DNA 결합 단백질을 만들기 위한 단위로 이용될 수 있다.

실시예 33 : TG-ZFD-023 "VSSR"

TG-ZFD-023 "VSSR"은 인간 유전체 서열로부터 생체내 스크리닝에 의해 동정되었다. 그 아미노산 서열은 YTCKQCGKAFSVSSSLRRHETTH(SEQ ID NO:67)이다. 그것은 다음의 인간 핵산 서열에 의해 코딩된다.

5'-TATACATGTAAACAGTGTGGGAAAGCCTTCAGTGTTTCCAGTTCCCTTCGAAGACATGAAACCACT

CAC-3'(SEQ ID NO:66).

Zif268의 핑거 1 및 핑거 2와의 폴리펩티드 융합시 TG-ZFD-023 "VSSR"은 3-bp 표적 서열 GTT, GCT, GTG에 대한 인식 특이성을 나타낸다. 생체내 스크리닝 결과에 의하면 TG-ZFD-023 "VSSR"의 결합부위 서열에 대한 선호도는 GTT > GCT > GTG이다.

TG-ZFD-023 "VSSR"은 예를 들면 GTT, GCT 또는 GTG 서열을 포함하는 DNA 부위를 인식하기 위한 목적으로 여러 개의 징크핑거 도메인들로 이루어진 키메라 DNA 결합 단백질을 만들기 위한 단위로 이용될 수 있다.

실시예 34 : TG-ZFD-024 "QAHR"

TG-ZFD-024 "QAHR"은 인간 유전체 서열로부터 생체내 스크리닝에 의해 동정되었다. 그 아미노산 서열은 YKCKECGQAFRQRAHLIRHHKLH(SEQ ID NO:103)이다. 그것은 다음의 인간 핵산 서열에 의해 코딩된다.

5'-TATAAGTGTAAGGAATGTGGGCAGGCCTTTAGACAGCGTGCACATCTTATTCGACATCACAAACT

TCAC-3'(SEQ ID NO:102).

Zif268의 핑거 1 및 핑거 2와의 폴리펩티드 융합시 TG-ZFD-024 "QAHR"은 3-bp 표적 서열 GGA에 대한 인식 특이성을 나타낸다.

TG-ZFD-024 "QAHR"은 예를 들면 GGA 서열을 포함하는 DNA 부위를 인식하기위한 목적으로 여러 개의 징크핑거 도메인들로 이루어진 키메라 DNA 결합 단백질을 만들기 위한 단위로 이용될 수 있다.

실시예 35 : TG-ZFD-025 "QFNR"

TG-ZFD-025 "QFNR"은 인간 유전체 서열로부터 생체내 스크리닝에 의해 동정되었다. 그 아미노산 서열은 YKCHQCGKAFIQSFNLRRHERTH(SEQ ID NO:105)이다. 그것은 다음의 인간 핵산 서열에 의해 코딩된다.

5'-TATAAGTGTCATCAATGTGTGGGAAAGCCTTTATTCAATCCTTTAACCTTCGAAGACATGAGAGAA

CTCAC-3'(SEQ ID NO:104).

Zif268의 핑거 1 및 핑거 2와의 폴리펩티드 융합시 TG-ZFD-025 "QFNR"은 3-bp 표적 서열 GAC에 대한 인식 특이성을 나타낸다.

TG-ZFD-025 "QFNR"은 예를 들면 GAC 서열을 포함하는 DNA 부위를 인식하기 위한 목적으로 여러 개의 징크핑거 도메인들로 이루어진 키메라 DNA 결합 단백질을 만들기 위한 단위로 이용될 수 있다.

실시예 36 : TG-ZFD-026 "QGNR"

TG-ZFD-026 "QGNR"은 인간 유전체 서열로부터 생체내 스크리닝에 의해 동정되었다. 그 아미노산 서열은 FQCNQCGASFTQKGNLLRHIKLH(SEQ ID NO:107)이다. 그것은 다음의 인간 핵산 서열에 의해 코딩된다.

5'-TTCCAGTGTAATCAGTGTGGGGCATCTTTTACTCAGAAAGGTAACCTCCTCCGCCACATTAAACTG

CAC-3'(SEQ ID NO:106).

Zif268의 핑거 1 및 핑거 2와의 폴리펩티드 융합시 TG-ZFD-026 "QGNR"은 3-bp 표적 서열 GAA에 대한 인식 특이성을 나타낸다.

TG-ZFD-026 "QGNR"은 예를 들면 GAA 서열을 포함하는 DNA 부위를 인식하기 위한 목적으로 여러 개의 징크핑거 도메인들로 이루어진 키메라 DNA 결합 단백질을 만들기 위한 단위로 이용될 수 있다.

실시예 37 : TG-ZFD-028 "QSHT"

TG-ZFD-028 "QSHT"은 인간 유전체 서열로부터 생체내 스크리닝에 의해 동정되었다. 그 아미노산 서열은 YKCEECGKAFRQSSHLTTHKIIH(SEQ ID NO:111)이다. 그것은 다음의 인간 핵산 서열에 의해 코딩된다.

5'-TACAAATGTGAAGAATGTGGCAAAGCCTTTAGGCAGTCCTCACACCTTACTACACATAAGATAATT

CAT-3'(SEQ ID NO:110).

Zif268의 핑거 1 및 핑거 2와의 폴리펩티드 융합시 TG-ZFD-028 "QSHT"은 3-bp 표적 서열 AGA, CGA, TGA, GGA에 대한 인식 특이성을 나타낸다. 생체내 스크리닝 결과에 의하면 TG-ZFD-028 "QSHT"의 결합부위 서열에 대한 선호도는 (AGA, CGA) TGA > GGA이다.

TG-ZFD-028 "QSHT"은 예를 들면 AGA, CGA, TGA 또는 GGA 서열을 포함하는 DNA 부위를 인식하기 위한 목적으로 여러 개의 징크핑거 도메인들로 이루어진 키메라 DNA 결합 단백질을 만들기 위한 단위로 이용될 수 있다.

실시예 38 : TG-ZFD-029 "QSHV"

TG-ZFD-029 "QSHV"은 인간 유전체 서열로부터 생체내 스크리닝에 의해 동정되었다. 그 아미노산 서열은 YECDHCGKSFSQSSHLNVHKRTH(SEQ ID NO:113)이다. 그것은 다음의 인간 핵산 서열에 의해 코딩된다.

5'-TATGAGTGTGATCACTGTGGAAAATCCTTTAGCCAGAGCTCTCATCTGAATGTGCACAAAAGAACT

CAC-3'(SEQ ID NO:112).

Zif268의 핑거 1 및 핑거 2와의 폴리펩티드 융합시 TG-ZFD-029 "QSHV"은 3-bp 표적 서열 CGA, AGA, TGA에 대한 인식 특이성을 나타낸다. 생체내 스크리닝 결과에 의하면 TG-ZFD-029 "QSHV"의 결합부위 서열에 대한 선호도는 CGA > AGA > TGA이다.

TG-ZFD-029 "QSHV"은 예를 들면 CGA, AGA, TGA 서열을 포함하는 DNA 부위를 인식하기 위한 목적으로 여러 개의 징크핑거 도메인들로 이루어진 키메라 DNA 결합 단백질을 만들기 위한 단위로 이용될 수 있다.

실시예 39 : TG-ZFD-030 "QSNI"

TG-ZFD-030 "QSNI"은 인간 유전체 서열로부터 생체내 스크리닝에 의해 동정되었다. 그 아미노산 서열은 YMCSECGRGFSQKSNLIIHQRTH(SEQ ID NO:115)이다. 그것은 다음의 인간 핵산 서열에 의해 코딩된다.

5'-TACATGTGCAGTGAGTGTGGGCGAGGCTTCAGCCAGAAGTCAAACCTCATCATACACCAGAGGACA

CAC-3'(SEQ ID NO:114).

Zif268의 핑거 1 및 핑거 2와의 폴리펩티드 융합시 TG-ZFD-030 "QSNI"은 3-bp 표적 서열 AAA, CAA에 대한 인식 특이성을 나타낸다.

TG-ZFD-030 "QSNI"은 예를 들면 AAA 또는 CAA 서열을 포함하는 DNA 부위를 인식하기 위한 목적으로 여러 개의 징크핑거 도메인들로 이루어진 키메라 DNA 결합 단백질을 만들기 위한 단위로 이용될 수 있다.

실시예 40 : TG-ZFD-031 "QSNR3"

TG-ZFD-031 "QSNR3"은 인간 유전체 서열로부터 생체내 스크리닝에 의해 동정되었다. 그 아미노산 서열은 YECEKCGKAFNQSSNLTRHKKSH(SEQ ID NO:117)이다. 그것은 다음의 인간 핵산 서열에 의해 코딩된다.

5'-TATGAATGTGAAAAATGTGGCAAAGCTTTTAACCAGTCCTCAAATCTTACTAGACATAAGAAAAGT

CAT-3'(SEQ ID NO:116).

Zif268의 핑거 1 및 핑거 2와의 폴리펩티드 융합시 TG-ZFD-031 "QSNR3"은 3-bp 표적 서열 GAA에 대한 인식 특이성을 나타낸다.

TG-ZFD-031 "QSNR3"은 예를 들면 GAA 서열을 포함하는 DNA 부위를 인식하기 위한 목적으로 여러 개의 징크핑거 도메인들로 이루어진 키메라 DNA 결합 단백질을 만들기 위한 단위로 이용될 수 있다.

실시예 41 : TG-ZFD-032 "QSSR3"

TG-ZFD-032 "QSSR3"은 인간 유전체 서열로부터 생체내 스크리닝에 의해 동정되었다. 그 아미노산 서열은 YECNECGKFFSQSSSLIRHRRSH(SEQ ID NO:119)이다. 그것은 다음의 인간 핵산 서열에 의해 코딩된다.

5'-TATGAGTGCAATGAATGTGGGAAGTTTTTTAGCCAGAGCTCCAGCCTCATTAGACATAGGAGAAGT

CAC-3'(SEQ ID NO:118).

Zif268의 핑거 1 및 핑거 2와의 폴리펩티드 융합시 TG-ZFD-032 "QSSR3"은 3-bp 표적 서열 GTA, GCA에 대한 인식 특이성을 나타낸다. 생체내 스크리닝 결과에 의하면 TG-ZFD-032 "QSSR3"의 결합부위 서열에 대한 선호도는 GTA > GCA이다.

TG-ZFD-032 "QSSR3"은 예를 들면 GTA 또는 GCA 서열을 포함하는 DNA 부위를 인식하기 위한 목적으로 여러 개의 징크핑거 도메인들로 이루어진 키메라 DNA 결합 단백질을 만들기 위한 단위로 이용될 수 있다.

실시예 42 : TG-ZFD-033 "QTHQ"

TG-ZFD-033 "QTHQ"은 인간 유전체 서열로부터 생체내 스크리닝에 의해 동정되었다. 그 아미노산 서열은 YECHDCGKSFRQSTHLTQHRRIH(SEQ ID NO:121)이다. 그것은 다음의 인간 핵산 서열에 의해 코딩된다.

5'-TATGAGTGTCACGATTGCGGAAAGTCCTTTAGGCAGAGCACCCACCTCACTCAGCACCGGAGGATC

CAC-3'(SEQ ID NO:120).

Zif268의 핑거 1 및 핑거 2와의 폴리펩티드 융합시 TG-ZFD-033 "QTHQ"은 3-bp 표적 서열 AGA, TGA, CGA에 대한 인식 특이성을 나타낸다. 생체내 스크리닝 결과에 의하면 TG-ZFD-033 "QTHQ"의 결합부위 서열에 대한 선호도는 AGA > (TGA, CGA)이다.

TG-ZFD-033 "QTHQ"은 예를 들면 AGA, TGA, CGA 서열을 포함하는 DNA 부위를 인식하기 위한 목적으로 여러 개의 징크핑거 도메인들로 이루어진 키메라 DNA 결합 단백질을 만들기 위한 단위로 이용될 수 있다.

실시예 43 : TG-ZFD-034 "QTHR1"

TG-ZFD-034 "QTHR1"은 인간 유전체 서열로부터 생체내 스크리닝에 의해 동정되었다. 그 아미노산 서열은 YECHDCGKSFRQSTHLTRHRRIH(SEQ ID NO:123)이다. 그것은 다음의 인간 핵산 서열에 의해 코딩된다.

5'-TATGAGTGTCACGATTGCGGAAAGTCCTTTAGGCAGAGCACCCACCTCACTCGGCACCGGAGGATC

CAC-3'(SEQ ID NO:122).

Zif268의 핑거 1 및 핑거 2와의 폴리펩티드 융합시 TG-ZFD-034 "QTHR1"은 3-bp 표적 서열 GGA, GAA, AGA에 대한 인식 특이성을 나타낸다. 생체내 스크리닝 결과에 의하면 TG-ZFD-034 "QTHR1"의 결합부위 서열에 대한 선호도는 GGA > (GAA, AGA)이다.

TG-ZFD-034 "QTHR1"은 예를 들면 GGA, GAA, AGA 서열을 포함하는 DNA 부위를 인식하기 위한 목적으로 여러 개의 징크핑거 도메인들로 이루어진 키메라 DNA 결합 단백질을 만들기 위한 단위로 이용될 수 있다.

실시예 44 : TG-ZFD-035 "QTHR2"

TG-ZFD-035 "QTHR2"은 인간 유전체 서열로부터 생체내 스크리닝에 의해 동정되었다. 그 아미노산 서열은 HKCLECGKCFSQNTHLTRHQRT(SEQ ID NO:125)이다. 그것은 다음의 인간 핵산 서열에 의해 코딩된다.

5'-CACAAGTGCCTTGAATGTGGGAAATGCTTCAGTCAGAACACCCATCTGACTCGCCACCAACGCACC

CAC-3'(SEQ ID NO:124).

Zif268의 핑거 1 및 핑거 2와의 폴리펩티드 융합시 TG-ZFD-035 "QTHR2"은 3-bp 표적 서열 GGA에 대한 인식 특이성을 나타낸다.

TG-ZFD-035 "QTHR2"은 예를 들면 GGA 서열을 포함하는 DNA 부위를 인식하기 위한 목적으로 여러 개의 징크핑거 도메인들로 이루어진 키메라 DNA 결합 단백질을 만들기 위한 단위로 이용될 수 있다.

실시예 45 : TG-ZFD-036 "RDER2"

TG-ZFD-036 "RDER2"은 인간 유전체 서열로부터 생체내 스크리닝에 의해 동정되었다. 그 아미노산 서열은 YHCDWDGCGWKFARSDELTRHYRKH(SEQ ID NO:127)이다. 그것은 다음의 인간 핵산 서열에 의해 코딩된다.

5'-TACCACTGTGACTGGGACGGCTGTGGATGGAAATTCGCCCGCTCAGATGAACTGACCAGGCACTACC

GTAAACAC-3'(SEQ ID NO:126).

Zif268의 핑거 1 및 핑거 2와의 폴리펩티드 융합시 TG-ZFD-036 "RDER2"은 3-bp 표적 서열 GCG, GTG에 대한 인식 특이성을 나타낸다. 생체내 스크리닝 결과에의하면 TG-ZFD-036 "RDER2"의 결합부위 서열에 대한 선호도는 GCG > GTG이다.

TG-ZFD-036 "RDER2"은 예를 들면 GCG, GTG 서열을 포함하는 DNA 부위를 인식하기 위한 목적으로 여러 개의 징크핑거 도메인들로 이루어진 키메라 DNA 결합 단백질을 만들기 위한 단위로 이용될 수 있다.

실시예 46 : TG-ZFD-037 "RDER3"

TG-ZFD-037 "RDER3"은 인간 유전체 서열로부터 생체내 스크리닝에 의해 동정되었다. 그 아미노산 서열은 YRCSWEGCEWRFARSDELTRHFRKH(SEQ ID NO:129)이다. 그것은 다음의 인간 핵산 서열에 의해 코딩된다.

5'-TACAGATGCTCATGGGAAGGGTGTGAGTGGCGTTTTGCAAGAAGTGATGAGTTAACCAGGCACTTCCG

AAAGCAC-3'(SEQ ID NO:128).

Zif268의 핑거 1 및 핑거 2와의 폴리펩티드 융합시 TG-ZFD-037 "RDER3"은 3-bp 표적 서열 GCG, GTG에 대한 인식 특이성을 나타낸다.

TG-ZFD-037 "RDER3"은 예를 들면 GCG, GTG 서열을 포함하는 DNA 부위를 인식하기 위한 목적으로 여러 개의 징크핑거 도메인들로 이루어진 키메라 DNA 결합 단백질을 만들기 위한 단위로 이용될 수 있다.

실시예 47 : TG-ZFD-038 "RDER4"

TG-ZFD-038 "RDER4"은 인간 유전체 서열로부터 생체내 스크리닝에 의해 동정되었다. 그 아미노산 서열은 FSCSWKGCERRFARSDELSRHRRTH(SEQ ID NO:131)이다. 그것은 다음의 인간 핵산 서열에 의해 코딩된다.

5'-TTCAGCTGTAGCTGGAAAGGTTGTGAAAGGAGGTTTGCCCGTTCTGATGAACTGTCCAGACACAGGCG

AACCCAC-3'(SEQ ID NO:130).

Zif268의 핑거 1 및 핑거 2와의 폴리펩티드 융합시 TG-ZFD-038 "RDER4"은 3-bp 표적 서열 GCG, GTG에 대한 인식 특이성을 나타낸다.

TG-ZFD-038 "RDER4"은 예를 들면 GCG, GTG 서열을 포함하는 DNA 부위를 인식하기 위한 목적으로 여러 개의 징크핑거 도메인들로 이루어진 키메라 DNA 결합 단백질을 만들기 위한 단위로 이용될 수 있다.

실시예 48 : TG-ZFD-039 "RDER5"

TG-ZFD-039 "RDER5"은 인간 유전체 서열로부터 생체내 스크리닝에 의해 동정되었다. 그 아미노산 서열은 FACSWQDCNKKFARSDELARHYRTH(SEQ ID NO:133)이다. 그것은 다음의 인간 핵산 서열에 의해 코딩된다.

5'-TTCGCCTGCAGCTGGCAGGACTGCAACAAGAAGTTCGCGCGCTCCGACGAGCTGGCGCGGCACTAC

CGCACACAC-3'(SEQ ID NO:132).

Zif268의 핑거 1 및 핑거 2와의 폴리펩티드 융합시 TG-ZFD-039 "RDER5"은 3-bp 표적 서열 GCG에 대한 인식 특이성을 나타낸다.

TG-ZFD-039 "RDER5"은 예를 들면 GCG 서열을 포함하는 DNA 부위를 인식하기 위한 목적으로 여러 개의 징크핑거 도메인들로 이루어진 키메라 DNA 결합 단백질을 만들기 위한 단위로 이용될 수 있다.

실시예 49 : TG-ZFD-040 "RDER6"

TG-ZFD-040 "RDER6"은 인간 유전체 서열로부터 생체내 스크리닝에 의해 동정되었다. 그 아미노산 서열은 YHCNWDGCGWKFARSDELTRHYRKH(SEQ ID NO:135)이다. 그것은 다음의 인간 핵산 서열에 의해 코딩된다.

5'-TACCACTGCAACTGGGACGGCTGCGGCTGGAAGTTTGCGCGCTCAGACGAGCTCACGCGCCACTACC

GAAAGCAC-3'(SEQ ID NO:134).

Zif268의 핑거 1 및 핑거 2와의 폴리펩티드 융합시 TG-ZFD-040 "RDER6"은 3-bp 표적 서열 GCG, GTG에 대한 인식 특이성을 나타낸다. 생체내 스크리닝 결과에 의하면 TG-ZFD-040 "RDER6"의 결합부위 서열에 대한 선호도는 GCG > GTG이다.

TG-ZFD-040 "RDER6"은 예를 들면 GCG, GTG 서열을 포함하는 DNA 부위를 인식하기 위한 목적으로 여러 개의 징크핑거 도메인들로 이루어진 키메라 DNA 결합 단백질을 만들기 위한 단위로 이용될 수 있다.

실시예 50 : TG-ZFD-041 "RDHR1"

TG-ZFD-041 "RDHR1"은 인간 유전체 서열로부터 생체내 스크리닝에 의해 동정되었다. 그 아미노산 서열은 FLCQYCAQRFGRKDHLTRHMKKSH(SEQ ID NO:137)이다. 그것은 다음의 인간 핵산 서열에 의해 코딩된다.

5'-TTCCTCTGTCAGTATTGTGCACAGAGATTTGGGCGAAAGGATCACCTGACTCGACATATGAAGAAGA

GTCAC-3'(SEQ ID NO:136).

Zif268의 핑거 1 및 핑거 2와의 폴리펩티드 융합시 TG-ZFD-041 "RDHR1"은 3-bp 표적 서열 GAG, GGG에 대한 인식 특이성을 나타낸다.

TG-ZFD-041 "RDHR1"은 예를 들면 GAG, GGG 서열을 포함하는 DNA 부위를 인식하기 위한 목적으로 여러 개의 징크핑거 도메인들로 이루어진 키메라 DNA 결합 단백질을 만들기 위한 단위로 이용될 수 있다.

실시예 51 : TG-ZFD-043 "RDHT"

TG-ZFD-043 "RDHT"은 인간 유전체 서열로부터 생체내 스크리닝에 의해 동정되었다. 그 아미노산 서열은 FQCKTCQRKFSRSDHLKTHTRTH(SEQ ID NO:141)이다. 그것은 다음의 인간 핵산 서열에 의해 코딩된다.

5'-TTCCAGTGTAAAACTTGTCAGCGAAAGTTCTCCCGGTCCGACCACCTGAAGACCCACACCAGGAC

TCAT-3'(SEQ ID NO:140).

Zif268의 핑거 1 및 핑거 2와의 폴리펩티드 융합시 TG-ZFD-043 "RDHT"은 3-bp 표적 서열 TGG, AGG, CGG에 대한 인식 특이성을 나타낸다.

TG-ZFD-043 "RDHT"은 예를 들면 TGG, AGG, CGG, GGG 서열을 포함하는 DNA 부위를 인식하기 위한 목적으로 여러 개의 징크핑거 도메인들로 이루어진 키메라 DNA 결합 단백질을 만들기 위한 단위로 이용될 수 있다.

실시예 52 : TG-ZFD-044 "RDKI"

TG-ZFD-044 "RDKI"은 인간 유전체 서열로부터 생체내 스크리닝에 의해 동정되었다. 그 아미노산 서열은 FACEVCGVRFTRNDKLKIHMRKH(SEQ ID NO:143)이다. 그것은 다음의 인간 핵산 서열에 의해 코딩된다.

5'-TTTGCCTGCGAGGTCTGCGGTGTTCGATTCACCAGGAACGACAAGCTGAAGATCCACATGCGGA

AGCAC-3'(SEQ ID NO:142).

Zif268의 핑거 1 및 핑거 2와의 폴리펩티드 융합시 TG-ZFD-044 "RDKI"은 3-bp 표적 서열 GGG에 대한 인식 특이성을 나타낸다.

TG-ZFD-044 "RDKI"은 예를 들면 GGG 서열을 포함하는 DNA 부위를 인식하기 위한 목적으로 여러 개의 징크핑거 도메인들로 이루어진 키메라 DNA 결합 단백질을 만들기 위한 단위로 이용될 수 있다.

실시예 53 : TG-ZFD-045 "RDKR"

TG-ZFD-045 "RDKR"은 인간 유전체 서열로부터 생체내 스크리닝에 의해 동정되었다. 그 아미노산 서열은 YVCDVEGCTWKFARSDKLNRHKKRH (SEQ ID NO:145)이다. 그것은 다음의 인간 핵산 서열에 의해 코딩된다.

5'-TATGTATGCGATGTAGAGGGATGTACGTGGAAATTTGCCCGCTCAGATAAGCTCAACAGACACAAG

AAAAGGCAC-3'(SEQ ID NO:144).

Zif268의 핑거 1 및 핑거 2와의 폴리펩티드 융합시 TG-ZFD-045 "RDKR"은 3-bp 표적 서열 GGG, AGG에 대한 인식 특이성을 나타낸다. 생체내 스크리닝 결과에 의하면 TG-ZFD-045 "RDKR"의 결합부위 서열에 대한 선호도는 GGG > AGG이다.

TG-ZFD-045 "RDKR"은 예를 들면 GGG, AGG 서열을 포함하는 DNA 부위를 인식하기 위한 목적으로 여러 개의 징크핑거 도메인들로 이루어진 키메라 DNA 결합 단백질을 만들기 위한 단위로 이용될 수 있다.

실시예 54 : TG-ZFD-046 "RSNR"

TG-ZFD-046 "RSNR"은 인간 유전체 서열로부터 생체내 스크리닝에 의해 동정되었다. 그 아미노산 서열은 YICRKCGRGFSRKSNLIRHQRTH (SEQ ID NO:147)이다. 그것은 다음의 인간 핵산 서열에 의해 코딩된다.

5'-TATATTTGCAGAAAGTGTGGACGGGGCTTTAGTCGGAAGTCCAACCTTATCAGACATCAGAGGACA

CAC-3'(SEQ ID NO:146).

Zif268의 핑거 1 및 핑거 2와의 폴리펩티드 융합시 TG-ZFD-046 "RSNR"은 3-bp 표적 서열 GAG, GTG에 대한 인식 특이성을 나타낸다. 생체내 스크리닝 결과에 의하면 TG-ZFD-046 "RSNR"의 결합부위 서열에 대한 선호도는 GAG > GTG이다.

TG-ZFD-046 "RSNR"은 예를 들면 GAG, GTG 서열을 포함하는 DNA 부위를 인식하기 위한 목적으로 여러 개의 징크핑거 도메인들로 이루어진 키메라 DNA 결합 단백질을 만들기 위한 단위로 이용될 수 있다.

실시예 55 : TG-ZFD-047 "RTNR"

TG-ZFD-047 "RTNR"은 인간 유전체 서열로부터 생체내 스크리닝에 의해 동정되었다. 그 아미노산 서열은 YLCSECDKCFSRSTNLIRHRRTH (SEQ ID NO:149)이다. 그것은 다음의 인간 핵산 서열에 의해 코딩된다.

5'-TATCTATGTAGTGAGTGTGACAAATGCTTCAGTAGAAGTACAAACCTCATAAGGCATCGAAGAACT

CAC-3'(SEQ ID NO:148).

Zif268의 핑거 1 및 핑거 2와의 폴리펩티드 융합시 TG-ZFD-047 "RTNR"은 3-bp 표적 서열 GAG에 대한 인식 특이성을 나타낸다.

TG-ZFD-047 "RTNR"은 예를 들면 GAG 서열을 포함하는 DNA 부위를 인식하기 위한 목적으로 여러 개의 징크핑거 도메인들로 이루어진 키메라 DNA 결합 단백질을 만들기 위한 단위로 이용될 수 있다.

본 발명에 관한 많은 실시 태양을 기술하였다. 그럼에도 불구하고, 본 발명의 정신과 범위를 벗어나지 않는 많은 다양한 변형이 가능함을 이해할 것이다. 따라서 다른 실시 태양들도 후술하는 청구항의 범위에 포함된다.

징크 핑거 도메인을 이용하는 것은 특히 유리하다. 첫째로, 징크 핑거 모티브는 매우 다양한 DNA 서열을 인식한다. 두번째로, 자연 발생적 징크 핑거 단백질의 구조는 단위모듈성이다. 예를 들면, "Egr-1"으로도 불리는 Zif268 징크 핑거 단백질은 세 개의 징크 핑거 도메인이 직렬로 구성되어 있다. 도1은 DNA와 복합체를 이룬 세 개의 핑거로 이루어진 Zif268 징크 핑거 단백질의 X-선 결정 구조이다[Pavletich 및 Pabo, (1991) Science 252:809-817]. 각 핑거는 DNA 인식 부위의 3-4 염기쌍과 독립적으로 접촉한다. 따라서, 각각의 핑거와 하위 부위(subsite)의 접촉은 독립적인 분자적 인식으로 여겨질 수 있다. 동일한 폴리펩티드 사슬 내 여러 개의 징크 핑거 단위모듈이 협동 효과를 발휘함으로써 고 친화도 결합이 달성된다.

생체 내 선별법의 사용은 세포내 환경에서 DNA의 특정 부위에 결합하는 폴리펩티드의 직접적 동정을 가능하게 한다. 세포 내, 특히 진핵 세포 내 인식과 연관된 인자들은 시험관내 선별 시나리오 중에 존재하는 인자들과는 크게 다르다. 예를 들면, 진핵 세포 핵 내에서, 폴리펩티드는 특정 핵산 결합 부위를 놓고 무수히 많은 다른 핵 단백질들과 경쟁해야만 한다. 뉴클레오좀(nucleosome) 또는 기타 크로마틴 단백질이 결합 부위를 차지하거나 폐쇄하거나, 또는 이 결합 부위에 경쟁적으로 작용할 수 있다. 비록 다른 단백질들과 결합되어 있지 않다 하더라도, 세포 내의 핵산 구조는 구부러짐, 슈퍼코일링, 비틀림, 및 풀릴 필요가 있다. 한편, 폴리펩티드 자체도 프로테아제 및 챠페론(chaperone), 기타 인자들 중에 노출되어 있다. 게다가, 폴리펩티드는 전체 유전자라는 결합 가능한 부위와 직면하게 되고, 그리하여 선택 과정에서 선택되기 위하여 원하는 부위로의 높은 특이성이 있어야만 한다. 생체 내 선택과는 대조적으로, 생체 외 선택은 높은 특이성을 갖는 결합물보다는 높은 친화도를 갖는 결합물을 선택할 수 있다.

발현되는 키메라 폴리펩티드의 결합 능력을 보여주기 위해 리포터 유전자를 사용하는 것은 효과적이고 간단할 뿐 아니라, 단백질-핵산 접경의 에너지학, 주변 잔기 및 결합에 영향을 주는 뉴클레오티드와 같은 수 많은 주변 인자들을 계산에 넣어 작성하는 복잡한 상호작용 코드를 만들 필요가 없어서 유리하다[Segalet al.(1999)Proc. Natl. Acad. Sci. USA 96:2758-2793].

본 발명은 그 자체로 인간 유전체, 또는 임의의 다른 종의 유전체에 존재하는 모든 징크 핑거 도메인을 유용하게 한다. 이러한 다양한 표본으로부터 징크 핑거 도메인의 구조적 폴딩이 점유하는 서열 공간을 선택함은 오랜 옛날부터 자연적 선택이 이루어지게 된 잇점을 본래적으로 가질 것이다. 게다가, 본원에 기술된 방법에 따라 유전자 치료에 적용되도록 설계된 DNA 결합 단백질은 숙주 종으로부터 얻은 도메인을 이용하기 때문에 숙주 면역계에 의해 외부적인 것으로 취급될 가능성이 감소된다.

<110> Kim, Jin-Soo Kwon, Young Do Kim, Hyun-Won Ryu, Eun-Hyun Hwang, Moon-Sun <120> SELECTION OF TARGET-SPECIFIC ZINC FINGER DOMAINS <130> 12279-002001 <160> 167 <170> FastSEQ for Windows Version 4.0 <210> 1 <211> 10 <212> DNA <213> HIV-1 <400> 1 gacatcgagc 10 <210> 2 <211> 10 <212> DNA <213> HIV-1 <400> 2 gcagctgctt 10 <210> 3 <211> 10 <212> DNA <213> HIV-1 <400> 3 gctggggact 10 <210> 4 <211> 10 <212> DNA <213> Homo sapiens <400> 4 agggtggagt 10 <210> 5 <211> 10 <212> DNA <213> Homo sapiens <400> 5 gctgagacat 10 <210> 6 <211> 47 <212> DNA <213> Artificial Sequence <220> <223> optimal binding site <400> 6 ccggcgtggg cggctgcgtg ggcgtgcgtg ggcggactgc gtgggcg 47 <210> 7 <211> 47 <212> DNA <213> Artificial Sequence <220> <223> optimal binding site <400> 7 tcgacgccca cgcagtccgc ccacgcacgc ccacgcagcc gcccacg 47 <210> 8 <211> 49 <212> DNA <213> HIV-1 <400> 8 ccggcgagcg ggcggtcgag cgggcgtgag cgggcggatc gagcgggcg 49 <210> 9 <211> 49 <212> DNA <213> HIV-1 <400> 9 tcgacgcccg ctcgatccgc ccgctcacgc ccgctcgacc gcccgctcg 49 <210> 10 <211> 50 <212> DNA <213> HIV-1 <400> 10 ccggctgctt gggcggctgc ttgggcgtgc ttgggcgggc tgcttgggcg 50 <210> 11 <211> 50 <212> DNA <213> HIV-1 <400> 11 tcgacgccca agcagcccgc ccaagcacgc ccaagcagcc gcccaagcag 50 <210> 12 <211> 47 <212> DNA <213> HIV-1 <400> 12 ccggactggg cgggggactg ggcgtgactg ggcggaggga ctgggcg 47 <210> 13 <211> 47 <212> DNA <213> HIV-1 <400> 13 tcgacgccca gtccctccgc ccagtcacgc ccagtccccc gcccagt 47 <210> 14 <211> 47 <212> DNA <213> Homo sapiens <400> 14 ccggagtggg cggtggagtg ggcgtgagtg ggcggatgga gtgggcg 47 <210> 15 <211> 47 <212> DNA <213> Homo sapiens <400> 15 tcgacgccca ctccatccgc ccactcacgc ccactccacc gcccact 47 <210> 16 <211> 48 <212> DNA <213> Homo sapiens <400> 16 ccggacatgg gcggagacat gggcgtacat gggcggaaga catgggcg 48 <210> 17 <211> 48 <212> DNA <213> Homo sapiens <400> 17 tcgacgccca tgtcttccgc ccatgtacgc ccatgtctcc gcccatgt 48 <210> 18 <211> 120 <212> DNA <213> Artificial Sequence <220> <223> plasmid sequence <221> CDS <222> (1)...(81) <400> 18 aaa gag ggt ggg tcg acc ttc cgg act ggc cag gaa cgc cca gat ccg 48 Lys Glu Gly Gly Ser Thr Phe Arg Thr Gly Gln Glu Arg Pro Asp Pro 1 5 10 15 cgg gaa ttc aga tct act agt gcg gcc gct aag taagtaagac gtcgagctcg 101 Arg Glu Phe Arg Ser Thr Ser Ala Ala Ala Lys 20 25 ccatcgcggt ggaagcttt 120 <210> 19 <211> 27 <212> PRT <213> Artificial Sequence <220> <223> plasmid sequence <400> 19 Lys Glu Gly Gly Ser Thr Phe Arg Thr Gly Gln Glu Arg Pro Asp Pro 1 5 10 15 Arg Glu Phe Arg Ser Thr Ser Ala Ala Ala Lys 20 25 <210> 20 <211> 303 <212> DNA <213> Artificial Sequence <220> <223> plasmid sequence <221> CDS <222> (25)...(291) <400> 20 gggtcgacct tccggactgg ccag gaa cgc cca tat gct tgc cct gtc gag 51 Glu Arg Pro Tyr Ala Cys Pro Val Glu 1 5 tcc tgc gat cgc cgc ttt tct cgc tcg gat gag ctt acc cgc cat atc 99 Ser Cys Asp Arg Arg Phe Ser Arg Ser Asp Glu Leu Thr Arg His Ile 10 15 20 25 cgc atc cac act ggc cag aag ccc ttc cag tgt cga atc tgc atg cgt 147 Arg Ile His Thr Gly Gln Lys Pro Phe Gln Cys Arg Ile Cys Met Arg 30 35 40 aac ttc agt cgt agt gac cac ctt acc acc cac atc cgg acc cac acc 195 Asn Phe Ser Arg Ser Asp His Leu Thr Thr His Ile Arg Thr His Thr 45 50 55 ggc gag aag cct ttt gcc tgt gac att tgt ggg agg aag ttt gcc agg 243 Gly Glu Lys Pro Phe Ala Cys Asp Ile Cys Gly Arg Lys Phe Ala Arg 60 65 70 agt gat gaa cgc aag agg cat acc aaa atc cat tta aga cag aag gat 291 Ser Asp Glu Arg Lys Arg His Thr Lys Ile His Leu Arg Gln Lys Asp 75 80 85 ccgcgggaat cc 303 <210> 21 <211> 89 <212> PRT <213> Artificial Sequence <220> <223> plasmid sequence <400> 21 Glu Arg Pro Tyr Ala Cys Pro Val Glu Ser Cys Asp Arg Arg Phe Ser 1 5 10 15 Arg Ser Asp Glu Leu Thr Arg His Ile Arg Ile His Thr Gly Gln Lys 20 25 30 Pro Phe Gln Cys Arg Ile Cys Met Arg Asn Phe Ser Arg Ser Asp His 35 40 45 Leu Thr Thr His Ile Arg Thr His Thr Gly Glu Lys Pro Phe Ala Cys 50 55 60 Asp Ile Cys Gly Arg Lys Phe Ala Arg Ser Asp Glu Arg Lys Arg His 65 70 75 80 Thr Lys Ile His Leu Arg Gln Lys Asp 85 <210> 22 <211> 102 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1)...(102) <400> 22 acc ggg cag aaa ccg tac aaa tgt aag caa tgt ggg aaa gct ttt gga 48 Thr Gly Gln Lys Pro Tyr Lys Cys Lys Gln Cys Gly Lys Ala Phe Gly 1 5 10 15 tgt ccc tca aac ctt cga agg cat gga agg act cac acc ggc gag aaa 96 Cys Pro Ser Asn Leu Arg Arg His Gly Arg Thr His Thr Gly Glu Lys 20 25 30 ccg cgg 102 Pro Arg <210> 23 <211> 34 <212> PRT <213> Homo sapiens <400> 23 Thr Gly Gln Lys Pro Tyr Lys Cys Lys Gln Cys Gly Lys Ala Phe Gly 1 5 10 15 Cys Pro Ser Asn Leu Arg Arg His Gly Arg Thr His Thr Gly Glu Lys 20 25 30 Pro Arg <210> 24 <211> 102 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1)...(102) <400> 24 acc ggg gag aag cca tac aag tgt aag gag tgt ggg aaa gcc ttc aac 48 Thr Gly Glu Lys Pro Tyr Lys Cys Lys Glu Cys Gly Lys Ala Phe Asn 1 5 10 15 cac agc tcc aac ttc aat aaa cac cac aga atc cac acc ggc gaa aag 96 His Ser Ser Asn Phe Asn Lys His His Arg Ile His Thr Gly Glu Lys 20 25 30 ccg cgg 102 Pro Arg <210> 25 <211> 34 <212> PRT <213> Homo sapiens <400> 25 Thr Gly Glu Lys Pro Tyr Lys Cys Lys Glu Cys Gly Lys Ala Phe Asn 1 5 10 15 His Ser Ser Asn Phe Asn Lys His His Arg Ile His Thr Gly Glu Lys 20 25 30 Pro Arg <210> 26 <211> 102 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1)...(102) <400> 26 acc ggg gag agg cca ttt gaa tgt aag gaa tgt ggg aaa gcc ttt agt 48 Thr Gly Glu Arg Pro Phe Glu Cys Lys Glu Cys Gly Lys Ala Phe Ser 1 5 10 15 agt ggt tca aac ttc act cga cat cag aga att cac acc ggt gaa aag 96 Ser Gly Ser Asn Phe Thr Arg His Gln Arg Ile His Thr Gly Glu Lys 20 25 30 ccg cgg 102 Pro Arg <210> 27 <211> 34 <212> PRT <213> Homo sapiens <400> 27 Thr Gly Glu Arg Pro Phe Glu Cys Lys Glu Cys Gly Lys Ala Phe Ser 1 5 10 15 Ser Gly Ser Asn Phe Thr Arg His Gln Arg Ile His Thr Gly Glu Lys 20 25 30 Pro Arg <210> 28 <211> 108 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1)...(108) <400> 28 acc ggg cag aag cca tac gta tgc gat gta gag gga tgt acg tgg aaa 48 Thr Gly Gln Lys Pro Tyr Val Cys Asp Val Glu Gly Cys Thr Trp Lys 1 5 10 15 ttt gcc cgc tca gat gag ctc aac aga cac aag aaa agg cac acc ggc 96 Phe Ala Arg Ser Asp Glu Leu Asn Arg His Lys Lys Arg His Thr Gly 20 25 30 gaa aga ccg cgg 108 Glu Arg Pro Arg 35 <210> 29 <211> 36 <212> PRT <213> Homo sapiens <400> 29 Thr Gly Gln Lys Pro Tyr Val Cys Asp Val Glu Gly Cys Thr Trp Lys 1 5 10 15 Phe Ala Arg Ser Asp Glu Leu Asn Arg His Lys Lys Arg His Thr Gly 20 25 30 Glu Arg Pro Arg 35 <210> 30 <211> 102 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1)...(102) <400> 30 acc ggg gag aga cct tac gag tgt aat gaa tgc ggg aaa gct ttt gcc 48 Thr Gly Glu Arg Pro Tyr Glu Cys Asn Glu Cys Gly Lys Ala Phe Ala 1 5 10 15 caa aat tca act ctc aga gta cac cag aga att cac acc ggc gaa aag 96 Gln Asn Ser Thr Leu Arg Val His Gln Arg Ile His Thr Gly Glu Lys 20 25 30 ccg cgg 102 Pro Arg <210> 31 <211> 34 <212> PRT <213> Homo sapiens <400> 31 Thr Gly Glu Arg Pro Tyr Glu Cys Asn Glu Cys Gly Lys Ala Phe Ala 1 5 10 15 Gln Asn Ser Thr Leu Arg Val His Gln Arg Ile His Thr Gly Glu Lys 20 25 30 Pro Arg <210> 32 <211> 102 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1)...(102) <400> 32 acc ggg gag agg cct tat gag tgt aat tac tgt gga aaa acc ttt agt 48 Thr Gly Glu Arg Pro Tyr Glu Cys Asn Tyr Cys Gly Lys Thr Phe Ser 1 5 10 15 gtg agc tca acc ctt att aga cat cag aga atc cac acc ggc gag aga 96 Val Ser Ser Thr Leu Ile Arg His Gln Arg Ile His Thr Gly Glu Arg 20 25 30 ccg cgg 102 Pro Arg <210> 33 <211> 34 <212> PRT <213> Homo sapiens <400> 33 Thr Gly Glu Arg Pro Tyr Glu Cys Asn Tyr Cys Gly Lys Thr Phe Ser 1 5 10 15 Val Ser Ser Thr Leu Ile Arg His Gln Arg Ile His Thr Gly Glu Arg 20 25 30 Pro Arg <210> 34 <211> 69 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1)...(69) <400> 34 tat cag tgc aac att tgc gga aaa tgt ttc tcc tgc aac tcc aac ctc 48 Tyr Gln Cys Asn Ile Cys Gly Lys Cys Phe Ser Cys Asn Ser Asn Leu 1 5 10 15 cac agg cac cag aga acg cac 69 His Arg His Gln Arg Thr His 20 <210> 35 <211> 23 <212> PRT <213> Homo sapiens <400> 35 Tyr Gln Cys Asn Ile Cys Gly Lys Cys Phe Ser Cys Asn Ser Asn Leu 1 5 10 15 His Arg His Gln Arg Thr His 20 <210> 36 <211> 69 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1)...(69) <400> 36 tat gca tgt cat cta tgt gga aaa gcc ttc act cag agt tct cac ctt 48 Tyr Ala Cys His Leu Cys Gly Lys Ala Phe Thr Gln Ser Ser His Leu 1 5 10 15 aga aga cat gag aaa act cac 69 Arg Arg His Glu Lys Thr His 20 <210> 37 <211> 23 <212> PRT <213> Homo sapiens <400> 37 Tyr Ala Cys His Leu Cys Gly Lys Ala Phe Thr Gln Ser Ser His Leu 1 5 10 15 Arg Arg His Glu Lys Thr His 20 <210> 38 <211> 69 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1)...(69) <400> 38 tat aaa tgc ggc cag tgt ggg aag ttc tac tcg cag gtc tcc cac ctc 48 Tyr Lys Cys Gly Gln Cys Gly Lys Phe Tyr Ser Gln Val Ser His Leu 1 5 10 15 acc cgc cac cag aaa atc cac 69 Thr Arg His Gln Lys Ile His 20 <210> 39 <211> 23 <212> PRT <213> Homo sapiens <400> 39 Tyr Lys Cys Gly Gln Cys Gly Lys Phe Tyr Ser Gln Val Ser His Leu 1 5 10 15 Thr Arg His Gln Lys Ile His 20 <210> 40 <211> 69 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1)...(69) <400> 40 tat gca tgt cat cta tgt gga aaa gcc ttc act cag tgt tct cac ctt 48 Tyr Ala Cys His Leu Cys Gly Lys Ala Phe Thr Gln Cys Ser His Leu 1 5 10 15 aga aga cat gag aaa act cac 69 Arg Arg His Glu Lys Thr His 20 <210> 41 <211> 23 <212> PRT <213> Homo sapiens <400> 41 Tyr Ala Cys His Leu Cys Gly Lys Ala Phe Thr Gln Cys Ser His Leu 1 5 10 15 Arg Arg His Glu Lys Thr His 20 <210> 42 <211> 69 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1)...(69) <400> 42 tat gca tgt cat cta tgt gca aaa gcc ttc att cag tgt tct cac ctt 48 Tyr Ala Cys His Leu Cys Ala Lys Ala Phe Ile Gln Cys Ser His Leu 1 5 10 15 aga aga cat gag aaa act cac 69 Arg Arg His Glu Lys Thr His 20 <210> 43 <211> 23 <212> PRT <213> Homo sapiens <400> 43 Tyr Ala Cys His Leu Cys Ala Lys Ala Phe Ile Gln Cys Ser His Leu 1 5 10 15 Arg Arg His Glu Lys Thr His 20 <210> 44 <211> 69 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1)...(69) <400> 44 tat gtt tgc agg gaa tgt ggg cgt ggc ttt cgc cag cat tca cac ctg 48 Tyr Val Cys Arg Glu Cys Gly Arg Gly Phe Arg Gln His Ser His Leu 1 5 10 15 gtc aga cac aag agg aca cat 69 Val Arg His Lys Arg Thr His 20 <210> 45 <211> 23 <212> PRT <213> Homo sapiens <400> 45 Tyr Val Cys Arg Glu Cys Gly Arg Gly Phe Arg Gln His Ser His Leu 1 5 10 15 Val Arg His Lys Arg Thr His 20 <210> 46 <211> 69 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1)...(69) <400> 46 ttt gag tgt aaa gat tgc ggg aaa gct ttc att cag aag tca aac ctc 48 Phe Glu Cys Lys Asp Cys Gly Lys Ala Phe Ile Gln Lys Ser Asn Leu 1 5 10 15 atc aga cac cag aga act cac 69 Ile Arg His Gln Arg Thr His 20 <210> 47 <211> 23 <212> PRT <213> Homo sapiens <400> 47 Phe Glu Cys Lys Asp Cys Gly Lys Ala Phe Ile Gln Lys Ser Asn Leu 1 5 10 15 Ile Arg His Gln Arg Thr His 20 <210> 48 <211> 69 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1)...(69) <400> 48 tat gtc tgc agg gag tgt agg cga ggt ttt agc cag aag tca aat ctc 48 Tyr Val Cys Arg Glu Cys Arg Arg Gly Phe Ser Gln Lys Ser Asn Leu 1 5 10 15 atc aga cac cag agg acg cac 69 Ile Arg His Gln Arg Thr His 20 <210> 49 <211> 23 <212> PRT <213> Homo sapiens <400> 49 Tyr Val Cys Arg Glu Cys Arg Arg Gly Phe Ser Gln Lys Ser Asn Leu 1 5 10 15 Ile Arg His Gln Arg Thr His 20 <210> 50 <211> 69 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1)...(69) <400> 50 tat gaa tgt aac aca tgc agg aaa acc ttc tct caa aag tca aat ctc 48 Tyr Glu Cys Asn Thr Cys Arg Lys Thr Phe Ser Gln Lys Ser Asn Leu 1 5 10 15 att gta cat cag aga aca cac 69 Ile Val His Gln Arg Thr His 20 <210> 51 <211> 23 <212> PRT <213> Homo sapiens <400> 51 Tyr Glu Cys Asn Thr Cys Arg Lys Thr Phe Ser Gln Lys Ser Asn Leu 1 5 10 15 Ile Val His Gln Arg Thr His 20 <210> 52 <211> 69 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1)...(69) <400> 52 tat gtt tgc tca aaa tgt ggg aaa gcc ttc act cag agt tca aat ctg 48 Tyr Val Cys Ser Lys Cys Gly Lys Ala Phe Thr Gln Ser Ser Asn Leu 1 5 10 15 act gta cat caa aaa atc cac 69 Thr Val His Gln Lys Ile His 20 <210> 53 <211> 23 <212> PRT <213> Homo sapiens <400> 53 Tyr Val Cys Ser Lys Cys Gly Lys Ala Phe Thr Gln Ser Ser Asn Leu 1 5 10 15 Thr Val His Gln Lys Ile His 20 <210> 54 <211> 69 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1)...(69) <400> 54 tac aaa tgt gac gaa tgt gga aaa aac ttt acc cag tcc tcc aac ctt 48 Tyr Lys Cys Asp Glu Cys Gly Lys Asn Phe Thr Gln Ser Ser Asn Leu 1 5 10 15 att gta cat aag aga att cat 69 Ile Val His Lys Arg Ile His 20 <210> 55 <211> 23 <212> PRT <213> Homo sapiens <400> 55 Tyr Lys Cys Asp Glu Cys Gly Lys Asn Phe Thr Gln Ser Ser Asn Leu 1 5 10 15 Ile Val His Lys Arg Ile His 20 <210> 56 <211> 69 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1)...(69) <400> 56 tat gaa tgt gat gtg tgt gga aaa acc ttc acg caa aag tca aac ctt 48 Tyr Glu Cys Asp Val Cys Gly Lys Thr Phe Thr Gln Lys Ser Asn Leu 1 5 10 15 ggt gta cat cag aga act cat 69 Gly Val His Gln Arg Thr His 20 <210> 57 <211> 23 <212> PRT <213> Homo sapiens <400> 57 Tyr Glu Cys Asp Val Cys Gly Lys Thr Phe Thr Gln Lys Ser Asn Leu 1 5 10 15 Gly Val His Gln Arg Thr His 20 <210> 58 <211> 69 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1)...(69) <400> 58 tat aag tgc cct gat tgt ggg aag agt ttt agt cag agt tcc agc ctc 48 Tyr Lys Cys Pro Asp Cys Gly Lys Ser Phe Ser Gln Ser Ser Ser Leu 1 5 10 15 att cgc cac cag cgg aca cac 69 Ile Arg His Gln Arg Thr His 20 <210> 59 <211> 23 <212> PRT <213> Homo sapiens <400> 59 Tyr Lys Cys Pro Asp Cys Gly Lys Ser Phe Ser Gln Ser Ser Ser Leu 1 5 10 15 Ile Arg His Gln Arg Thr His 20 <210> 60 <211> 69 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1)...(69) <400> 60 tat gag tgt cag gac tgt ggg agg gcc ttc aac cag aac tcc tcc ctg 48 Tyr Glu Cys Gln Asp Cys Gly Arg Ala Phe Asn Gln Asn Ser Ser Leu 1 5 10 15 ggg cgg cac aag agg aca cac 69 Gly Arg His Lys Arg Thr His 20 <210> 61 <211> 23 <212> PRT <213> Homo sapiens <400> 61 Tyr Glu Cys Gln Asp Cys Gly Arg Ala Phe Asn Gln Asn Ser Ser Leu 1 5 10 15 Gly Arg His Lys Arg Thr His 20 <210> 62 <211> 69 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1)...(69) <400> 62 tac aaa tgt gaa gaa tgt ggc aaa gct ttt aac cag tcc tca acc ctt 48 Tyr Lys Cys Glu Glu Cys Gly Lys Ala Phe Asn Gln Ser Ser Thr Leu 1 5 10 15 act aga cat aag ata gtt cat 69 Thr Arg His Lys Ile Val His 20 <210> 63 <211> 23 <212> PRT <213> Homo sapiens <400> 63 Tyr Lys Cys Glu Glu Cys Gly Lys Ala Phe Asn Gln Ser Ser Thr Leu 1 5 10 15 Thr Arg His Lys Ile Val His 20 <210> 64 <211> 69 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1)...(69) <400> 64 tat aag tgc atg gag tgt ggg aag gct ttt aac cgc agg tca cac ctc 48 Tyr Lys Cys Met Glu Cys Gly Lys Ala Phe Asn Arg Arg Ser His Leu 1 5 10 15 aca cgg cac cag cgg att cac 69 Thr Arg His Gln Arg Ile His 20 <210> 65 <211> 23 <212> PRT <213> Homo sapiens <400> 65 Tyr Lys Cys Met Glu Cys Gly Lys Ala Phe Asn Arg Arg Ser His Leu 1 5 10 15 Thr Arg His Gln Arg Ile His 20 <210> 66 <211> 69 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1)...(69) <400> 66 tat aca tgt aaa cag tgt ggg aaa gcc ttc agt gtt tcc agt tcc ctt 48 Tyr Thr Cys Lys Gln Cys Gly Lys Ala Phe Ser Val Ser Ser Ser Leu 1 5 10 15 cga aga cat gaa acc act cac 69 Arg Arg His Glu Thr Thr His 20 <210> 67 <211> 23 <212> PRT <213> Homo sapiens <400> 67 Tyr Thr Cys Lys Gln Cys Gly Lys Ala Phe Ser Val Ser Ser Ser Leu 1 5 10 15 Arg Arg His Glu Thr Thr His 20 <210> 68 <211> 20 <212> PRT <213> Artificial Sequence <220> <223> purified polypeptide <221> VARIANT <222> 4 <223> Xaa = any amino acid; 2-5 amino acids in length <221> VARIANT <222> 2, 6-8, 10, 12, 16 <223> Xaa = any amino acid <221> VARIANT <222> 1, 9 <223> Xaa = Phe or Tyr <221> VARIANT <222> 15 <223> Xaa = hydrophobic residue <221> VARIANT <222> 19 <223> Xaa = any amino acid; 3-5 amino acids in length <400> 68 Xaa Xaa Cys Xaa Cys Xaa Xaa Xaa Xaa Xaa Cys Xaa Ser Asn Xaa Xaa 1 5 10 15 Arg His Xaa His 20 <210> 69 <211> 20 <212> PRT <213> Artificial Sequence <220> <223> purified polypeptide <221> VARIANT <222> 4 <223> Xaa = any amino acid; 2-5 amino acids in length <221> VARIANT <222> 2, 6-8, 10, 12, 16 <223> Xaa = any amino acid <221> VARIANT <222> 1, 9 <223> Xaa = Phe or Tyr <221> VARIANT <222> 15 <223> Xaa = hydrophobic residue <221> VARIANT <222> 19 <223> Xaa = any amino acid; 3-5 amino acids in length <400> 69 Xaa Xaa Cys Xaa Cys Xaa Xaa Xaa Xaa Xaa His Xaa Ser Asn Xaa Xaa 1 5 10 15 Lys His Xaa His 20 <210> 70 <211> 20 <212> PRT <213> Artificial Sequence <220> <223> purified polypeptide <221> VARIANT <222> 4 <223> Xaa = any amino acid; 2-5 amino acids in length <221> VARIANT <222> 2, 6-8, 10, 12, 16 <223> Xaa = any amino acid <221> VARIANT <222> 1, 9 <223> Xaa = Phe or Tyr <221> VARIANT <222> 15 <223> Xaa = hydrophobic residue <221> VARIANT <222> 19 <223> Xaa = any amino acid; 3-5 amino acids in length <400> 70 Xaa Xaa Cys Xaa Cys Xaa Xaa Xaa Xaa Xaa Ser Xaa Ser Asn Xaa Xaa 1 5 10 15 Arg His Xaa His 20 <210> 71 <211> 20 <212> PRT <213> Artificial Sequence <220> <223> purified polypeptide <221> VARIANT <222> 4 <223> Xaa = any amino acid; 2-5 amino acids in length <221> VARIANT <222> 2, 6-8, 10, 12, 16 <223> Xaa = any amino acid <221> VARIANT <222> 1, 9 <223> Xaa = Phe or Tyr <221> VARIANT <222> 15 <223> Xaa = hydrophobic residue <221> VARIANT <222> 19 <223> Xaa = any amino acid; 3-5 amino acids in length <400> 71 Xaa Xaa Cys Xaa Cys Xaa Xaa Xaa Xaa Xaa Gln Xaa Ser Thr Xaa Xaa 1 5 10 15 Val His Xaa His 20 <210> 72 <211> 20 <212> PRT <213> Artificial Sequence <220> <223> purified polypeptide <221> VARIANT <222> 4 <223> Xaa = any amino acid; 2-5 amino acids in length <221> VARIANT <222> 2, 6-8, 10, 12, 16 <223> Xaa = any amino acid <221> VARIANT <222> 1, 9 <223> Xaa = Phe or Tyr <221> VARIANT <222> 14 <223> Xaa = Ser or Thr <221> VARIANT <222> 15 <223> Xaa = hydrophobic residue <221> VARIANT <222> (19)...(19) <223> Xaa = any amino acid; 3-5 amino acids in length <400> 72 Xaa Xaa Cys Xaa Cys Xaa Xaa Xaa Xaa Xaa Val Xaa Ser Xaa Xaa Xaa 1 5 10 15 Arg His Xaa His 20 <210> 73 <211> 20 <212> PRT <213> Artificial Sequence <220> <223> purified polypeptide <221> VARIANT <222> 4 <223> Xaa = any amino acid; 2-5 amino acids in length <221> VARIANT <222> 2, 6-8, 10, 12, 16 <223> Xaa = any amino acid <221> VARIANT <222> 1, 9 <223> Xaa = Phe or Tyr <221> VARIANT <222> 15 <223> Xaa = hydrophobic residue <221> VARIANT <222> 19 <223> Xaa = any amino acid; 3-5 amino acids in length <400> 73 Xaa Xaa Cys Xaa Cys Xaa Xaa Xaa Xaa Xaa Gln Xaa Ser His Xaa Xaa 1 5 10 15 Arg His Xaa His 20 <210> 74 <211> 20 <212> PRT <213> Artificial Sequence <220> <223> purified polypeptide <221> VARIANT <222> 4 <223> Xaa = any amino acid; 2-5 amino acids in length <221> VARIANT <222> 2, 6-8, 10, 12, 16 <223> Xaa = any amino acid <221> VARIANT <222> 1, 9 <223> Xaa = Phe or Tyr <221> VARIANT <222> 15 <223> Xaa = hydrophobic residue <221> VARIANT <222> 19 <223> Xaa = any amino acid; 3-5 amino acids in length <400> 74 Xaa Xaa Cys Xaa Cys Xaa Xaa Xaa Xaa Xaa Gln Xaa Ser Asn Xaa Xaa 1 5 10 15 Val His Xaa His 20 <210> 75 <211> 20 <212> PRT <213> Artificial Sequence <220> <223> purified polypeptide <221> VARIANT <222> 4 <223> Xaa = any amino acid; 2-5 amino acids in length <221> VARIANT <222> 2, 6-8, 10, 12, 16 <223> Xaa = any amino acid <221> VARIANT <222> 1, 9 <223> Xaa = Phe or Tyr <221> VARIANT <222> 14 <223> Xaa = Ser or Thr <221> VARIANT <222> 15 <223> Xaa = hydrophobic residue <221> VARIANT <222> (19)...(19) <223> Xaa = any amino acid; 3-5 amino acids in length <400> 75 Xaa Xaa Cys Xaa Cys Xaa Xaa Xaa Xaa Xaa Gln Xaa Ser Xaa Xaa Xaa 1 5 10 15 Arg His Xaa His 20 <210> 76 <211> 20 <212> PRT <213> Artificial Sequence <220> <223> coordinating residue <221> VARIANT <222> 1, 9 <223> Xaa = Phe or Tyr <221> VARIANT <222> 2, 6-8, 10-14, 16, 17 <223> Xaa = any amino acid <221> VARIANT <222> 4 <223> Xaa = any amino acid; 2-5 amino acids in length <221> VARIANT <222> 15 <223> Xaa = hydrophobic residue <221> VARIANT <222> 19 <223> Xaa = any amino acid; 3-5 amino acids in length <400> 76 Xaa Xaa Cys Xaa Cys Xaa Xaa Xaa Xaa Xaa Xaa Xaa Xaa Xaa Xaa Xaa 1 5 10 15 Xaa His Xaa His 20 <210> 77 <211> 24 <212> PRT <213> Artificial Sequence <220> <223> polypeptide motif <221> VARIANT <222> 1 <223> Xaa = Leu, Ile, Val, Met, Phe, Tyr, or Gly <221> VARIANT <222> 2 <223> Xaa = Ala, Ser, Leu, Val, or Arg <221> VARIANT <222> 3-4, 6, 8-11, 17, 19-23 <223> Xaa = any amino acid <221> VARIANT <222> 5 <223> Xaa = Leu, Ile, Val, Met, Ser, Thr, Ala, Cys, or Asn <221> VARIANT <222> 7 <223> Xaa = Leu, Ile, Val, or Met <221> VARIANT <222> (12)...(12) <223> Xaa = Leu, Ile, or Val <221> VARIANT <222> (13)...(13) <223> Xaa = Arg, Lys, Asn, Gln, Glu, Ser, Thr, Ala, Ile, or Tyr <221> VARIANT <222> (14)...(14) <223> Xaa = Leu, Ile, Val, Phe, Ser, Thr, Asn, Lys, or His <221> VARIANT <222> (16)...(16) <223> Xaa = Phe, Tyr, Val, or Cys <221> VARIANT <222> (18)...(18) <223> Xaa = Asn, Asp, Gln, Thr, Ala, or His <221> VARIANT <222> (24)...(24) <223> Xaa = Arg, Lys, Asn, Ala, Ile, Met, or Trp <400> 77 Xaa Xaa Xaa Xaa Xaa Xaa Xaa Xaa Xaa Xaa Xaa Xaa Xaa Xaa Trp Xaa 1 5 10 15 Xaa Xaa Xaa Xaa Xaa Xaa Xaa Xaa 20 <210> 78 <211> 6 <212> PRT <213> Eukaryote <220> <221> VARIANT <222> 3 <223> Xaa = Glu or Gln <221> VARIANT <222> 4 <223> Xaa = Lys or Arg <221> VARIANT <222> 6 <223> Xaa = Tyr or Phe <400> 78 Thr Gly Xaa Xaa Pro Xaa 1 5 <210> 79 <211> 29 <212> DNA <213> Artificial Sequence <220> <223> synthetic oligonucleotide <400> 79 tgcctgcagc atttgtggga ggaagtttg 29 <210> 80 <211> 30 <212> DNA <213> Artificial Sequence <220> <223> synthetic oligonucleotide <400> 80 atgctgcagg cttaaggctt ctcgccggtg 30 <210> 81 <211> 24 <212> DNA <213> Artificial Sequence <220> <223> primer for PCR <221> misc_feature <222> (0)...(0) <223> n = A, T, G, or C; y = T or C; s = G or C; r = G or A <400> 81 gcgtccggac ncayacnggn sara 24 <210> 82 <211> 24 <212> DNA <213> Artificial Sequence <220> <223> primer for PCR <221> misc_feature <222> (0)...(0) <223> n = A, T, G, or C; b = G, C, or T; r = G or A; w = A or T; y = T or C <400> 82 cggaattcan nbrwanggyy tytc 24 <210> 83 <211> 7 <212> PRT <213> Artificial Sequence <220> <223> amino acid motif <221> VARIANT <222> 4 <223> Xaa = Glu or Gln <221> VARIANT <222> 5 <223> Xaa = Lys or Arg <221> VARIANT <222> 3 <223> Xaa = Tyr or Phe <400> 83 His Thr Gly Xaa Xaa Pro Xaa 1 5 <210> 84 <211> 54 <212> DNA <213> Artificial Sequence <220> <223> synthetic oligonucleotide <400> 84 gggcccgggg agaagcctta cgcatgtcca gtcgaatctt gtgatagaag attc 54 <210> 85 <211> 75 <212> DNA <213> Artificial Sequence <220> <223> synthetic oligonucleotide <221> misc_feature <222> (0)...(0) <223> n = A, T, G, or C; b = G, C, or T; s = G or C <400> 85 ctccccgcgg ttcgccggtg tggattctga tatgsnbsnb aagsnbsnbs nbsnbtgaga 60 atcttctatc acaag 75 <210> 86 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> synthetic oligonucleotide <400> 86 ctagacccgg gaattcgtcg acg 23 <210> 87 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> synthetic oligonucleotide <400> 87 gatccgtcga cgaattcccg ggt 23 <210> 88 <211> 38 <212> DNA <213> syArtificial Sequence <220> <223> synthetic oligonucleotide <221> misc_feature <222> (0)...(0) <223> n = A, T, G, or C <400> 88 ccggtnnntg ggcgtacnnn tgggcgtcan nntgggcg 38 <210> 89 <211> 38 <212> DNA <213> Artificial Sequence <220> <223> synthetic oligonucleotide <221> misc_feature <222> (0)...(0) <223> n = A, T, G, or C <400> 89 tcgacgccca nnntgacgcc cannngtacg cccannna 38 <210> 90 <211> 24 <212> DNA <213> Artificial Sequence <220> <223> synthetic probe for gel shift assay <400> 90 ccgggtcgcg cgtgggcggt accg 24 <210> 91 <211> 24 <212> DNA <213> Artificial Sequence <220> <223> synthetic probe for gel shift assay <400> 91 tcgacggtac cgcccacgcg cgac 24 <210> 92 <211> 24 <212> DNA <213> Artificial Sequence <220> <223> synthetic probe for gel shift assay <400> 92 ccgggtcgcg agcgggcggt accg 24 <210> 93 <211> 24 <212> DNA <213> Artificial Sequence <220> <223> synthetic probe for gel shift assay <400> 93 tcgacggtac cgcccgctcg cgac 24 <210> 94 <211> 24 <212> DNA <213> Artificial Sequence <220> <223> synthetic probe for gel shift assay <400> 94 ccgggtcgtg cttgggcggt accg 24 <210> 95 <211> 24 <212> DNA <213> Artificial Sequence <220> <223> synthetic probe for gel shift assay <400> 95 tcgacggtac cgcccaagca cgac 24 <210> 96 <211> 24 <212> DNA <213> Artificial Sequence <220> <223> synthetic probe for gel shift assay <400> 96 ccgggtcggg actgggcggt accg 24 <210> 97 <211> 24 <212> DNA <213> Artificial Sequence <220> <223> synthetic probe for gel shift assay <400> 97 tcgacggtac cgcccagtcc cgac 24 <210> 98 <211> 24 <212> DNA <213> Artificial Sequence <220> <223> synthetic probe for gel shift assay <400> 98 ccgggtcggg agtgggcggt accg 24 <210> 99 <211> 24 <212> DNA <213> Artificial Sequence <220> <223> synthetic probe for gel shift assay <400> 99 tcgacggtac cgcccactcc cgac 24 <210> 100 <211> 24 <212> DNA <213> Artificial Sequence <220> <223> synthetic probe for gel shift assay <400> 100 ccgggtcgga catgggcggt accg 24 <210> 101 <211> 24 <212> DNA <213> Artificial Sequence <220> <223> synthetic probe for gel shift assay <400> 101 tcgacggtac cgcccatgtc cgac 24 <210> 102 <211> 69 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1)...(69) <400> 102 tat aag tgt aag gaa tgt ggg cag gcc ttt aga cag cgt gca cat ctt 48 Tyr Lys Cys Lys Glu Cys Gly Gln Ala Phe Arg Gln Arg Ala His Leu 1 5 10 15 att cga cat cac aaa ctt cac 69 Ile Arg His His Lys Leu His 20 <210> 103 <211> 23 <212> PRT <213> Homo sapiens <400> 103 Tyr Lys Cys Lys Glu Cys Gly Gln Ala Phe Arg Gln Arg Ala His Leu 1 5 10 15 Ile Arg His His Lys Leu His 20 <210> 104 <211> 69 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1)...(69) <400> 104 tat aag tgt cat caa tgt ggg aaa gcc ttt att caa tcc ttt aac ctt 48 Tyr Lys Cys His Gln Cys Gly Lys Ala Phe Ile Gln Ser Phe Asn Leu 1 5 10 15 cga aga cat gag aga act cac 69 Arg Arg His Glu Arg Thr His 20 <210> 105 <211> 23 <212> PRT <213> Homo sapiens <400> 105 Tyr Lys Cys His Gln Cys Gly Lys Ala Phe Ile Gln Ser Phe Asn Leu 1 5 10 15 Arg Arg His Glu Arg Thr His 20 <210> 106 <211> 69 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1)...(69) <400> 106 ttc cag tgt aat cag tgt ggg gca tct ttt act cag aaa ggt aac ctc 48 Phe Gln Cys Asn Gln Cys Gly Ala Ser Phe Thr Gln Lys Gly Asn Leu 1 5 10 15 ctc cgc cac att aaa ctg cac 69 Leu Arg His Ile Lys Leu His 20 <210> 107 <211> 23 <212> PRT <213> Homo sapiens <400> 107 Phe Gln Cys Asn Gln Cys Gly Ala Ser Phe Thr Gln Lys Gly Asn Leu 1 5 10 15 Leu Arg His Ile Lys Leu His 20 <210> 108 <211> 22 <212> DNA <213> Artificial Sequence <220> <223> primer for PCR <221> misc_feature <222> (0)...(0) <223> n =A, T, G, or C; 48-51 nucleotides in length <400> 108 acccacactg gccagaaacc cn 22 <210> 109 <211> 22 <212> DNA <213> Artificial Sequence <220> <223> primer for PCR <221> misc_feature <222> (0)...(0) <223> n = A, T, G, or C; 42-45 nucleotides in length <400> 109 gatctgaatt cattcaccgg tn 22 <210> 110 <211> 69 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1)...(69) <400> 110 tac aaa tgt gaa gaa tgt ggc aaa gcc ttt agg cag tcc tca cac ctt 48 Tyr Lys Cys Glu Glu Cys Gly Lys Ala Phe Arg Gln Ser Ser His Leu 1 5 10 15 act aca cat aag ata att cat 69 Thr Thr His Lys Ile Ile His 20 <210> 111 <211> 23 <212> PRT <213> Homo sapiens <400> 111 Tyr Lys Cys Glu Glu Cys Gly Lys Ala Phe Arg Gln Ser Ser His Leu 1 5 10 15 Thr Thr His Lys Ile Ile His 20 <210> 112 <211> 69 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1)...(69) <400> 112 tat gag tgt gat cac tgt gga aaa tcc ttt agc cag agc tct cat ctg 48 Tyr Glu Cys Asp His Cys Gly Lys Ser Phe Ser Gln Ser Ser His Leu 1 5 10 15 aat gtg cac aaa aga act cac 69 Asn Val His Lys Arg Thr His 20 <210> 113 <211> 23 <212> PRT <213> Homo sapiens <400> 113 Tyr Glu Cys Asp His Cys Gly Lys Ser Phe Ser Gln Ser Ser His Leu 1 5 10 15 Asn Val His Lys Arg Thr His 20 <210> 114 <211> 69 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1)...(69) <400> 114 tac atg tgc agt gag tgt ggg cga ggc ttc agc cag aag tca aac ctc 48 Tyr Met Cys Ser Glu Cys Gly Arg Gly Phe Ser Gln Lys Ser Asn Leu 1 5 10 15 atc ata cac cag agg aca cac 69 Ile Ile His Gln Arg Thr His 20 <210> 115 <211> 23 <212> PRT <213> Homo sapiens <400> 115 Tyr Met Cys Ser Glu Cys Gly Arg Gly Phe Ser Gln Lys Ser Asn Leu 1 5 10 15 Ile Ile His Gln Arg Thr His 20 <210> 116 <211> 69 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1)...(69) <400> 116 tat gaa tgt gaa aaa tgt ggc aaa gct ttt aac cag tcc tca aat ctt 48 Tyr Glu Cys Glu Lys Cys Gly Lys Ala Phe Asn Gln Ser Ser Asn Leu 1 5 10 15 act aga cat aag aaa agt cat 69 Thr Arg His Lys Lys Ser His 20 <210> 117 <211> 23 <212> PRT <213> Homo sapiens <400> 117 Tyr Glu Cys Glu Lys Cys Gly Lys Ala Phe Asn Gln Ser Ser Asn Leu 1 5 10 15 Thr Arg His Lys Lys Ser His 20 <210> 118 <211> 69 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1)...(69) <400> 118 tat gag tgc aat gaa tgt ggg aag ttt ttt agc cag agc tcc agc ctc 48 Tyr Glu Cys Asn Glu Cys Gly Lys Phe Phe Ser Gln Ser Ser Ser Leu 1 5 10 15 att aga cat agg aga agt cac 69 Ile Arg His Arg Arg Ser His 20 <210> 119 <211> 23 <212> PRT <213> Homo sapiens <400> 119 Tyr Glu Cys Asn Glu Cys Gly Lys Phe Phe Ser Gln Ser Ser Ser Leu 1 5 10 15 Ile Arg His Arg Arg Ser His 20 <210> 120 <211> 69 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1)...(69) <400> 120 tat gag tgt cac gat tgc gga aag tcc ttt agg cag agc acc cac ctc 48 Tyr Glu Cys His Asp Cys Gly Lys Ser Phe Arg Gln Ser Thr His Leu 1 5 10 15 act cag cac cgg agg atc cac 69 Thr Gln His Arg Arg Ile His 20 <210> 121 <211> 23 <212> PRT <213> Homo sapiens <400> 121 Tyr Glu Cys His Asp Cys Gly Lys Ser Phe Arg Gln Ser Thr His Leu 1 5 10 15 Thr Gln His Arg Arg Ile His 20 <210> 122 <211> 69 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1)...(69) <400> 122 tat gag tgt cac gat tgc gga aag tcc ttt agg cag agc acc cac ctc 48 Tyr Glu Cys His Asp Cys Gly Lys Ser Phe Arg Gln Ser Thr His Leu 1 5 10 15 act cgg cac cgg agg atc cac 69 Thr Arg His Arg Arg Ile His 20 <210> 123 <211> 23 <212> PRT <213> Homo sapiens <400> 123 Tyr Glu Cys His Asp Cys Gly Lys Ser Phe Arg Gln Ser Thr His Leu 1 5 10 15 Thr Arg His Arg Arg Ile His 20 <210> 124 <211> 69 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1)...(69) <400> 124 cac aag tgc ctt gaa tgt ggg aaa tgc ttc agt cag aac acc cat ctg 48 His Lys Cys Leu Glu Cys Gly Lys Cys Phe Ser Gln Asn Thr His Leu 1 5 10 15 act cgc cac caa cgc acc cac 69 Thr Arg His Gln Arg Thr His 20 <210> 125 <211> 23 <212> PRT <213> Homo sapiens <400> 125 His Lys Cys Leu Glu Cys Gly Lys Cys Phe Ser Gln Asn Thr His Leu 1 5 10 15 Thr Arg His Gln Arg Thr His 20 <210> 126 <211> 75 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1)...(75) <400> 126 tac cac tgt gac tgg gac ggc tgt gga tgg aaa ttc gcc cgc tca gat 48 Tyr His Cys Asp Trp Asp Gly Cys Gly Trp Lys Phe Ala Arg Ser Asp 1 5 10 15 gaa ctg acc agg cac tac cgt aaa cac 75 Glu Leu Thr Arg His Tyr Arg Lys His 20 25 <210> 127 <211> 25 <212> PRT <213> Homo sapiens <400> 127 Tyr His Cys Asp Trp Asp Gly Cys Gly Trp Lys Phe Ala Arg Ser Asp 1 5 10 15 Glu Leu Thr Arg His Tyr Arg Lys His 20 25 <210> 128 <211> 75 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1)...(75) <400> 128 tac aga tgc tca tgg gaa ggg tgt gag tgg cgt ttt gca aga agt gat 48 Tyr Arg Cys Ser Trp Glu Gly Cys Glu Trp Arg Phe Ala Arg Ser Asp 1 5 10 15 gag tta acc agg cac ttc cga aag cac 75 Glu Leu Thr Arg His Phe Arg Lys His 20 25 <210> 129 <211> 25 <212> PRT <213> Homo sapiens <400> 129 Tyr Arg Cys Ser Trp Glu Gly Cys Glu Trp Arg Phe Ala Arg Ser Asp 1 5 10 15 Glu Leu Thr Arg His Phe Arg Lys His 20 25 <210> 130 <211> 75 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1)...(75) <400> 130 ttc agc tgt agc tgg aaa ggt tgt gaa agg agg ttt gcc cgt tct gat 48 Phe Ser Cys Ser Trp Lys Gly Cys Glu Arg Arg Phe Ala Arg Ser Asp 1 5 10 15 gaa ctg tcc aga cac agg cga acc cac 75 Glu Leu Ser Arg His Arg Arg Thr His 20 25 <210> 131 <211> 25 <212> PRT <213> Homo sapiens <400> 131 Phe Ser Cys Ser Trp Lys Gly Cys Glu Arg Arg Phe Ala Arg Ser Asp 1 5 10 15 Glu Leu Ser Arg His Arg Arg Thr His 20 25 <210> 132 <211> 75 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1)...(75) <400> 132 ttc gcc tgc agc tgg cag gac tgc aac aag aag ttc gcg cgc tcc gac 48 Phe Ala Cys Ser Trp Gln Asp Cys Asn Lys Lys Phe Ala Arg Ser Asp 1 5 10 15 gag ctg gcg cgg cac tac cgc aca cac 75 Glu Leu Ala Arg His Tyr Arg Thr His 20 25 <210> 133 <211> 25 <212> PRT <213> Homo sapiens <400> 133 Phe Ala Cys Ser Trp Gln Asp Cys Asn Lys Lys Phe Ala Arg Ser Asp 1 5 10 15 Glu Leu Ala Arg His Tyr Arg Thr His 20 25 <210> 134 <211> 75 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1)...(75) <400> 134 tac cac tgc aac tgg gac ggc tgc ggc tgg aag ttt gcg cgc tca gac 48 Tyr His Cys Asn Trp Asp Gly Cys Gly Trp Lys Phe Ala Arg Ser Asp 1 5 10 15 gag ctc acg cgc cac tac cga aag cac 75 Glu Leu Thr Arg His Tyr Arg Lys His 20 25 <210> 135 <211> 25 <212> PRT <213> Homo sapiens <400> 135 Tyr His Cys Asn Trp Asp Gly Cys Gly Trp Lys Phe Ala Arg Ser Asp 1 5 10 15 Glu Leu Thr Arg His Tyr Arg Lys His 20 25 <210> 136 <211> 72 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1)...(72) <400> 136 ttc ctc tgt cag tat tgt gca cag aga ttt ggg cga aag gat cac ctg 48 Phe Leu Cys Gln Tyr Cys Ala Gln Arg Phe Gly Arg Lys Asp His Leu 1 5 10 15 act cga cat atg aag aag agt cac 72 Thr Arg His Met Lys Lys Ser His 20 <210> 137 <211> 24 <212> PRT <213> Homo sapiens <400> 137 Phe Leu Cys Gln Tyr Cys Ala Gln Arg Phe Gly Arg Lys Asp His Leu 1 5 10 15 Thr Arg His Met Lys Lys Ser His 20 <210> 138 <211> 78 <212> DNA <213> Artificial Sequence <220> <223> primer for PCR <400> 138 tgtcgaatct gcatgcgtaa cttcagtcgt agtgaccacc ttaccaccca catccggacc 60 cacactggcc agaaaccc 78 <210> 139 <211> 81 <212> DNA <213> Artificial Sequence <220> <223> primer for PCR <400> 139 ggtggcggcc gttacttact tagagctcga cgtcttactt acttagcggc cgcactagta 60 gatctgaatt cattcaccgg t 81 <210> 140 <211> 69 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1)...(69) <400> 140 ttc cag tgt aaa act tgt cag cga aag ttc tcc cgg tcc gac cac ctg 48 Phe Gln Cys Lys Thr Cys Gln Arg Lys Phe Ser Arg Ser Asp His Leu 1 5 10 15 aag acc cac acc agg act cat 69 Lys Thr His Thr Arg Thr His 20 <210> 141 <211> 23 <212> PRT <213> Homo sapiens <400> 141 Phe Gln Cys Lys Thr Cys Gln Arg Lys Phe Ser Arg Ser Asp His Leu 1 5 10 15 Lys Thr His Thr Arg Thr His 20 <210> 142 <211> 69 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1)...(69) <400> 142 ttt gcc tgc gag gtc tgc ggt gtt cga ttc acc agg aac gac aag ctg 48 Phe Ala Cys Glu Val Cys Gly Val Arg Phe Thr Arg Asn Asp Lys Leu 1 5 10 15 aag atc cac atg cgg aag cac 69 Lys Ile His Met Arg Lys His 20 <210> 143 <211> 23 <212> PRT <213> Homo sapiens <400> 143 Phe Ala Cys Glu Val Cys Gly Val Arg Phe Thr Arg Asn Asp Lys Leu 1 5 10 15 Lys Ile His Met Arg Lys His 20 <210> 144 <211> 75 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1)...(75) <400> 144 tat gta tgc gat gta gag gga tgt acg tgg aaa ttt gcc cgc tca gat 48 Tyr Val Cys Asp Val Glu Gly Cys Thr Trp Lys Phe Ala Arg Ser Asp 1 5 10 15 aag ctc aac aga cac aag aaa agg cac 75 Lys Leu Asn Arg His Lys Lys Arg His 20 25 <210> 145 <211> 25 <212> PRT <213> Homo sapiens <400> 145 Tyr Val Cys Asp Val Glu Gly Cys Thr Trp Lys Phe Ala Arg Ser Asp 1 5 10 15 Lys Leu Asn Arg His Lys Lys Arg His 20 25 <210> 146 <211> 69 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1)...(69) <400> 146 tat att tgc aga aag tgt gga cgg ggc ttt agt cgg aag tcc aac ctt 48 Tyr Ile Cys Arg Lys Cys Gly Arg Gly Phe Ser Arg Lys Ser Asn Leu 1 5 10 15 atc aga cat cag agg aca cac 69 Ile Arg His Gln Arg Thr His 20 <210> 147 <211> 23 <212> PRT <213> Homo sapiens <400> 147 Tyr Ile Cys Arg Lys Cys Gly Arg Gly Phe Ser Arg Lys Ser Asn Leu 1 5 10 15 Ile Arg His Gln Arg Thr His 20 <210> 148 <211> 69 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1)...(69) <400> 148 tat cta tgt agt gag tgt gac aaa tgc ttc agt aga agt aca aac ctc 48 Tyr Leu Cys Ser Glu Cys Asp Lys Cys Phe Ser Arg Ser Thr Asn Leu 1 5 10 15 ata agg cat cga aga act cac 69 Ile Arg His Arg Arg Thr His 20 <210> 149 <211> 23 <212> PRT <213> Homo sapiens <400> 149 Tyr Leu Cys Ser Glu Cys Asp Lys Cys Phe Ser Arg Ser Thr Asn Leu 1 5 10 15 Ile Arg His Arg Arg Thr His 20 <210> 150 <211> 20 <212> PRT <213> Artificial Sequence <220> <223> purified polypeptide <221> VARIANT <222> 1, 9 <223> Xaa = Phe or Tyr <221> VARIANT <222> 2, 6-8, 10, 12, 16 <223> Xaa = any amino acid <221> VARIANT <222> 4 <223> Xaa = any amino acid; 2-5 amino acids in length <221> VARIANT <222> 15 <223> Xaa = hydrophobic residue <221> VARIANT <222> 19 <223> Xaa = any amino acid; 3-5 amino acids in length <400> 150 Xaa Xaa Cys Xaa Cys Xaa Xaa Xaa Xaa Xaa Gln Xaa Ala His Xaa Xaa 1 5 10 15 Arg His Xaa His 20 <210> 151 <211> 20 <212> PRT <213> Artificial Sequence <220> <223> purified polypeptide <221> VARIANT <222> 1, 9 <223> Xaa = Phe or Tyr <221> VARIANT <222> 2, 6-8, 10, 12, 16 <223> Xaa = any amino acid <221> VARIANT <222> 4 <223> Xaa = any amino acid; 2-5 amino acids in length <221> VARIANT <222> 15 <223> Xaa = hydrophobic residue <221> VARIANT <222> 19 <223> Xaa = any amino acid; 3-5 amino acids in length <400> 151 Xaa Xaa Cys Xaa Cys Xaa Xaa Xaa Xaa Xaa Gln Xaa Phe Asn Xaa Xaa 1 5 10 15 Arg His Xaa His 20 <210> 152 <211> 20 <212> PRT <213> Artificial Sequence <220> <223> purified polypeptide <221> VARIANT <222> 1, 9 <223> Xaa = Phe or Tyr <221> VARIANT <222> 2, 6-8, 10, 12, 16 <223> Xaa = any amino acid <221> VARIANT <222> 4 <223> Xaa = any amino acid; 2-5 amino acids in length <221> VARIANT <222> 15 <223> Xaa = hydrophobic residue <221> VARIANT <222> 19 <223> Xaa = any amino acid; 3-5 amino acids in length <400> 152 Xaa Xaa Cys Xaa Cys Xaa Xaa Xaa Xaa Xaa Gln Xaa Ser His Xaa Xaa 1 5 10 15 Thr His Xaa His 20 <210> 153 <211> 20 <212> PRT <213> Artificial Sequence <220> <223> purified polypeptide <221> VARIANT <222> 1, 9 <223> Xaa = Phe or Tyr <221> VARIANT <222> 2, 6-8, 10, 12, 16 <223> Xaa = any amino acid <221> VARIANT <222> 4 <223> Xaa = any amino acid; 2-5 amino acids in length <221> VARIANT <222> 15 <223> Xaa = hydrophobic residue <221> VARIANT <222> 19 <223> Xaa = any amino acid; 3-5 amino acids in length <400> 153 Xaa Xaa Cys Xaa Cys Xaa Xaa Xaa Xaa Xaa Gln Xaa Ser His Xaa Xaa 1 5 10 15 Val His Xaa His 20 <210> 154 <211> 20 <212> PRT <213> Artificial Sequence <220> <223> purified polypeptide <221> VARIANT <222> 1, 9 <223> Xaa = Phe or Tyr <221> VARIANT <222> 2, 6-8, 10, 12, 16 <223> Xaa = any amino acid <221> VARIANT <222> 4 <223> Xaa = any amino acid; 2-5 amino acids in length <221> VARIANT <222> 15 <223> Xaa = hydrophobic residue <221> VARIANT <222> 19 <223> Xaa = any amino acid; 3-5 amino acids in length <400> 154 Xaa Xaa Cys Xaa Cys Xaa Xaa Xaa Xaa Xaa Gln Xaa Ser Asn Xaa Xaa 1 5 10 15 Ile His Xaa His 20 <210> 155 <211> 20 <212> PRT <213> Artificial Sequence <220> <223> purified polypeptide <221> VARIANT <222> 1, 9 <223> Xaa = Phe or Tyr <221> VARIANT <222> 2, 6-8, 10, 12, 16 <223> Xaa = any amino acid <221> VARIANT <222> 4 <223> Xaa = any amino acid; 2-5 amino acids in length <221> CONFLICT <222> 15 <223> Xaa = hydrophobic residue <221> VARIANT <222> 19 <223> Xaa = any amino acid; 3-5 amino acids in length <400> 155 Xaa Xaa Cys Xaa Cys Xaa Xaa Xaa Xaa Xaa Gln Xaa Ser Asn Xaa Xaa 1 5 10 15 Arg His Xaa His 20 <210> 156 <211> 20 <212> PRT <213> Artificial Sequence <220> <223> purified polypeptide <221> VARIANT <222> 1, 9 <223> Xaa = Phe or Tyr <221> VARIANT <222> 2, 6-8, 10, 12, 16 <223> Xaa = any amino acid <221> VARIANT <222> 4 <223> Xaa = any amino acid; 2-5 amino acids in length <221> VARIANT <222> 15 <223> Xaa = hydrophobic residue <221> VARIANT <222> 19 <223> Xaa = any amino acid; 3-5 amino acids in length <400> 156 Xaa Xaa Cys Xaa Cys Xaa Xaa Xaa Xaa Xaa Gln Xaa Thr His Xaa Xaa 1 5 10 15 Gln His Xaa His 20 <210> 157 <211> 18 <212> PRT <213> Artificial Sequence <220> <223> purified polypeptide <221> VARIANT <222> 2 <223> Xaa = any amino acid; 2-5 amino acids in length <221> VARIANT <222> 4-6, 8, 10, 14 <223> Xaa = any amino acid <221> VARIANT <222> 7 <223> Xaa = Phe or Tyr <221> VARIANT <222> 13 <223> Xaa = hydrophobic residue <221> VARIANT <222> 17 <223> Xaa = any amino acid; 3-5 amino acids in length <400> 157 Cys Xaa Cys Xaa Xaa Xaa Xaa Xaa Gln Xaa Thr His Xaa Xaa Arg His 1 5 10 15 Xaa His <210> 158 <211> 20 <212> PRT <213> Artificial Sequence <220> <223> purified polypeptide <221> VARIANT <222> 1, 9 <223> Xaa = Phe or Tyr <221> VARIANT <222> 2, 6-8, 10, 12, 16 <223> Xaa = any amino acid <221> VARIANT <222> 4 <223> Xaa = any amino acid; 2-5 amino acids in length <221> VARIANT <222> 15 <223> Xaa = hydrophobic residue <221> VARIANT <222> 19 <223> Xaa = any amino acid; 3-5 amino acids in length <400> 158 Xaa Xaa Cys Xaa Cys Xaa Xaa Xaa Xaa Xaa Arg Xaa Asp Lys Xaa Xaa 1 5 10 15 Ile His Xaa His 20 <210> 159 <211> 20 <212> PRT <213> Artificial Sequence <220> <223> purified polypeptide <221> VARIANT <222> 1, 9 <223> Xaa = Phe or Tyr <221> VARIANT <222> 2, 6-8, 10, 12, 16 <223> Xaa = any amino acid <221> VARIANT <222> 4 <223> Xaa = any amino acid; 2-5 amino acids in length <221> VARIANT <222> 15 <223> Xaa = hydrophobic residue <221> VARIANT <222> 19 <223> Xaa = any amino acid; 3-5 amino acids in length <400> 159 Xaa Xaa Cys Xaa Cys Xaa Xaa Xaa Xaa Xaa Arg Xaa Ser Asn Xaa Xaa 1 5 10 15 Arg His Xaa His 20 <210> 160 <211> 20 <212> PRT <213> Artificial Sequence <220> <223> purified polypeptide <221> VARIANT <222> 1, 9 <223> Xaa = Phe or Tyr <221> VARIANT <222> 2, 6-8, 10, 12, 16 <223> Xaa = any amino acid <221> VARIANT <222> 4 <223> Xaa = any amino acid; 2-5 amino acids in length <221> VARIANT <222> 15 <223> Xaa = hydrophobic residue <221> VARIANT <222> 19 <223> Xaa = any amino acid; 3-5 amino acids in length <400> 160 Xaa Xaa Cys Xaa Cys Xaa Xaa Xaa Xaa Xaa Thr Xaa Gly Asn Xaa Xaa 1 5 10 15 Arg His Xaa His 20 <210> 161 <211> 20 <212> PRT <213> Artificial Sequence <220> <223> purified polypeptide <221> VARIANT <222> 1, 9 <223> Xaa = Phe or Tyr <221> VARIANT <222> 2, 6-8, 10, 12, 16 <223> Xaa = any amino acid <221> VARIANT <222> 4 <223> Xaa = any amino acid; 2-5 amino acids in length <221> VARIANT <222> 15 <223> Xaa = hydrophobic residue <221> VARIANT <222> 19 <223> Xaa = any amino acid; 3-5 amino acids in length <400> 161 Xaa Xaa Cys Xaa Cys Xaa Xaa Xaa Xaa Xaa Gln Xaa Gly Asn Xaa Xaa 1 5 10 15 Arg His Xaa His 20 <210> 162 <211> 20 <212> PRT <213> Artificial Sequence <220> <223> purified polypeptide <221> VARIANT <222> 1, 9 <223> Xaa = Phe or Tyr <221> VARIANT <222> 2, 6-8, 10, 12, 16 <223> Xaa = any amino acid <221> VARIANT <222> 4 <223> Xaa = any amino acid; 2-5 amino acids in length <221> VARIANT <222> 15 <223> Xaa = hydrophobic residue <221> VARIANT <222> 19 <223> Xaa = any amino acid; 3-5 amino acids in length <400> 162 Xaa Xaa Cys Xaa Cys Xaa Xaa Xaa Xaa Xaa Arg Xaa Asp Glu Xaa Xaa 1 5 10 15 Arg His Xaa His 20 <210> 163 <211> 20 <212> PRT <213> Artificial Sequence <220> <223> purified polypeptide <221> VARIANT <222> 1, 9 <223> Xaa = Phe or Tyr <221> VARIANT <222> 2, 6-8, 10, 12, 16 <223> Xaa = any amino acid <221> VARIANT <222> 4 <223> Xaa = any amino acid; 2-5 amino acids in length <221> VARIANT <222> 15 <223> Xaa = hydrophobic residue <221> VARIANT <222> 19 <223> Xaa = any amino acid; 3-5 amino acids in length <400> 163 Xaa Xaa Cys Xaa Cys Xaa Xaa Xaa Xaa Xaa Arg Xaa Asp His Xaa Xaa 1 5 10 15 Arg His Xaa His 20 <210> 164 <211> 20 <212> PRT <213> Artificial Sequence <220> <223> purified polypeptide <221> VARIANT <222> 1, 9 <223> Xaa = Phe or Tyr <221> VARIANT <222> 2, 6-8, 10, 12, 16 <223> Xaa = any amino acid <221> VARIANT <222> 4 <223> Xaa = any amino acid; 2-5 amino acids in length <221> VARIANT <222> 15 <223> Xaa = hydrophobic residue <221> VARIANT <222> 19 <223> Xaa = any amino acid; 3-5 amino acids in length <400> 164 Xaa Xaa Cys Xaa Cys Xaa Xaa Xaa Xaa Xaa Arg Xaa Asp His Xaa Xaa 1 5 10 15 Thr His Xaa His 20 <210> 165 <211> 20 <212> PRT <213> Artificial Sequence <220> <223> purified polypeptide <221> VARIANT <222> 1, 9 <223> Xaa = Phe or Tyr <221> VARIANT <222> 2, 6-8, 10, 12, 16 <223> Xaa = any amino acid <221> VARIANT <222> 4 <223> Xaa = any amino acid; 2-5 amino acids in length <221> VARIANT <222> 15 <223> Xaa = hydrophobic residue <221> VARIANT <222> 19 <223> Xaa = any amino acid; 3-5 amino acids in length <400> 165 Xaa Xaa Cys Xaa Cys Xaa Xaa Xaa Xaa Xaa Arg Xaa Asp Lys Xaa Xaa 1 5 10 15 Arg His Xaa His 20 <210> 166 <211> 20 <212> PRT <213> Artificial Sequence <220> <223> purified polypeptide <221> VARIANT <222> 1, 9 <223> Xaa = Phe or Tyr <221> VARIANT <222> 2, 6-8, 10, 12, 16 <223> Xaa = any amino acid <221> VARIANT <222> 4 <223> Xaa = any amino acid; 2-5 amino acids in length <221> VARIANT <222> 15 <223> Xaa = hydrophobic residue <221> VARIANT <222> 19 <223> Xaa = any amino acid; 3-5 amino acids in length <400> 166 Xaa Xaa Cys Xaa Cys Xaa Xaa Xaa Xaa Xaa Arg Xaa Ser His Xaa Xaa 1 5 10 15 Arg His Xaa His 20 <210> 167 <211> 20 <212> PRT <213> Artificial Sequence <220> <223> purified polypeptide <221> VARIANT <222> 1, 9 <223> Xaa = Phe or Tyr <221> VARIANT <222> 2, 6-8, 10, 12, 16 <223> Xaa = any amino acid <221> VARIANT <222> 4 <223> Xaa = any amino acid; 2-5 amino acids in length <221> VARIANT <222> 15 <223> Xaa = hydrophobic residue <221> VARIANT <222> 19 <223> Xaa = any amino acid; 3-5 amino acids in length <400> 167 Xaa Xaa Cys Xaa Cys Xaa Xaa Xaa Xaa Xaa Arg Xaa Thr Asn Xaa Xaa 1 5 10 15 Arg His Xaa His 20 1

Claims

(a) 프로모터에 작동가능하게 연결된 리포터 유전자를 포함하는 리포터 구조물을 함유하는 세포를 제공하는 단계, 여기서 리포터 유전자는 전사인자가 프로모터의 소집 부위 및 표적 부위를 모두 인식하는 경우에는 소정 수준을 초과하여 발현되거나 소정 수준 미만으로 발현되지만 전사인자가 프로모터의 소집 부위만을 인식하는 경우에는 그러하지 아니함;

(b) (i) 전사 활성화 또는 억제 도메인, (ii) 소집 부위를 인식하는 DNA 결합 도메인, 및 (iii) 시험 징크 핑거 도메인을 포함하는 비천연적 단백질을 코딩하는 다수의 하이브리드 핵산을 제공하는 단계, 여기서 시험 징크 핑거 도메인의 아미노산 서열은 다수의 하이브리드 핵산 서로간에 서로 상이함;

(c) 다수의 핵산 중 하나 이상이 하나 이상의 세포에 들어갈 수 있게 하는 조건하에서 다수의 하이브리드 핵산을 상기 세포와 접촉시키는 단계;

(d) 세포 내에서 하이브리드 핵산이 발현될 수 있게 하는 조건에서 상기 세포를 유지하는 단계; 및

(e) 세포가 표적 부위를 인식하는 시험 징크 핑거 도메인을 코딩하는 하이브리드 핵산을 포함함을 나타내는 지표로서, 리포터 유전자를 소정 수준을 초과하여 발현하거나 소정 수준 미만으로 발현하는 세포를 동정하는 단계를 포함하는, DNA 상의 표적 서열을 인식하는 징크핑거 도메인을 동정하는 방법.
제1항에 있어서, 상기 세포가 진핵 세포인 방법.
제2항에 있어서, 상기 세포가 효모 세포인 방법.
제3항에 있어서, 상기 세포가 사카로미세스 세레비지에(Saccharomyces cerevisiae) 세포인 방법.
제1항에 있어서, 상기 리포터 유전자가 선택성 마커인 방법.
제5항에 있어서, 상기 선택성 마커가URA3, HIS3, LEU2, ADE2, TRP1으로 이루어진 군에서 선택되는 것인 방법.
제1항에 있어서, 상기 리포터 유전자가lacZ, CAT, 루시퍼라제, GUS 및 GFP로 이루어진 군에서 선택되는 것인 방법.
제1항에 있어서, 상기 DNA 결합 도메인이 징크핑거 도메인을 포함하는 방법.
제8항에 있어서, 상기 DNA 결합 도메인이 두 개의 징크핑거 도메인을 포함하는 방법.
제9항에 있어서, 상기 DNA 결합 도메인이 세 개의 징크핑거 도메인을 포함하는 방법.
제1항에 있어서,

(i) 도메인의 보존된 경계부분을 코딩하는 서열에 결찰하는 올리고뉴클레오티드 프라이머를 이용하여, 유전체 핵산, 전령 RNA(mRNA) 혼합물, 또는 상보적 DNA(cDNA) 혼합물로부터 시험 징크핑거 도메인을 코딩하는 핵산 원을 증폭하여 증폭된 단편을 제조하는 단계; 및

(ii) 증폭된 단편을 이용하여 제1항의 단계(b)의 다수의 하이브리드 핵산 내에 포함될 하이브리드 핵산을 구축하는 단계를 더 포함하는 방법.
제1항에 있어서,

(i) 서열 데이터베이스에서 후보 징크핑거 도메인의 아미노산 서열을 동정하는 단계;

(ii) 상기 후보 징크핑거 도메인의 아미노산을 코딩하는 후보 핵산을 제공하는 단계; 및

(iii) 상기 후보 핵산을 이용하여 제1항의 단계(b)의 다수의 하이브리드 핵산 내에 포함될 하이브리드 핵산을 구축하는 단계를 더 포함하는 방법.
제5항에 있어서, 상기 선택성 마커가 대사산물의 합성에 필요한 영양요구성유전자(auxotrophy gene)이고, 상기 세포의 유전체는 이 영양요구성 유전자에 대한 기능적 카피를 갖고 있지 않으며, 상기 (d) 단계에서 상기 세포는 상기 대사산물이 결핍된 배지에서 유지되는 방법.
제1항에 있어서, 제2 표적 부위를 인식하는 제2 시험 징크핑거 도메인을 동정하기 위하여 (a) 내지 (e) 단계가 반복되는 방법.
제14항에 있어서, 제1 시험 징크핑거 도메인 및 제2 시험 징크핑거 도메인을 포함하는 폴리펩티드를 코딩하는 핵산의 구축을 더 포함하는 방법.
(a) 프로모터에 작동가능하게 연결된 리포터 유전자를 포함하는 리포터 구조물을 함유하는 세포를 제공하는 단계, 여기서 리포터 유전자는 전사인자가 프로모터의 소집 부위 및 표적 부위를 모두 인식하는 경우에는 소정 수준을 초과하여 발현되거나 소정 수준 미만으로 발현되지만 전사인자가 프로모터의 소집 부위만을 인식하는 경우에는 그러하지 아니함;

(b) 도메인 보존된 경계부분을 코딩하는 핵산에 결찰되는 올리고뉴클레오티드 프라이머를 이용하여, 각각 시험 징크핑거 도메인을 코딩하는 다수의 핵산 서열을 증폭시키는 단계;

(c) (b)의 각 핵산 서열을 (i) 전사 활성화 또는 억제 도메인을 코딩하는 핵산서열 및 (ii) 소집 부위를 인식하는 DNA 결합 도메인을 코딩하는 핵산 서열에 연결하여 다수의 하이브리드 핵산을 형성하는 단계;

(d) 다수의 핵산 중 하나 이상이 하나 이상의 세포에 들어갈 수 있게 하는 조건하에서 다수의 하이브리드 핵산 (c)를 상기 세포 (a)와 접촉시키는 단계;

(e) 세포 내에서 하이브리드 핵산이 발현될 수 있게 하는 조건에서 상기 세포를 유지하는 단계; 및

(f) 세포가 하이브리드 핵산 (c)을 포함하고 또한 이 하이브리드 핵산이 DNA 상의 표적 부위를 인식하는 징크 핑거 도메인을 코딩함을 나타내는 지표로서, 리포터 유전자를 소정 수준을 초과하여 발현하거나 소정 수준 미만으로 발현하는 세포를 동정하는 단계를 포함하는, DNA 상의 표적 서열을 인식하는 징크핑거 도메인을 동정하는 방법.
제16항에 있어서, 상기 세포가 효모 세포인 방법.
제16항에 있어서, 상기 리포터 유전자가lacZ, CAT, 루시퍼라제, GUS 및 GFP로 이루어진 군에서 선택되는 것인 방법.
제16항에 있어서, 상기 DNA 결합 도메인이 징크핑거 도메인을 포함하는 방법.
제19항에 있어서, 상기 DNA 결합 도메인이 두 개의 징크핑거 도메인을 포함하는 방법.
(a) 프로모터에 작동가능하게 연결된 리포터 유전자를 포함하는 리포터 구조물을 제공하는 단계, 여기서 리포터 유전자는 전사인자가 프로모터의 소집 부위 및 표적 부위를 모두 인식하는 경우에는 소정 수준을 초과하여 발현되거나 소정 수준 미만으로 발현되지만 전사인자가 프로모터의 소집 부위만을 인식하는 경우에는 그러하지 아니함;

(b) (i) 전사 활성화 또는 억제 도메인, (ii) 소집 부위를 인식하는 DNA 결합 도메인, 및 (iii) 시험 징크 핑거 도메인을 포함하는 비천연적 단백질을 코딩하는 다수의 하이브리드 핵산을 제공하는 단계;

(c) 리포터 구조물이 세포 내로 들어갈 수 있게 하는 조건하에서 리포터 구조물을 세포와 접촉시키는 단계;

(d) (c)단계의 이전, 이후 또는 (c) 단계와 동시에, 하이브리드 핵산이 세포내로 들어갈 수 있게 하는 조건하에서 상기 하이브리드 핵산을 상기 세포와 접촉시키는 단계;

(e) 세포 내에서 하이브리드 핵산이 발현될 수 있게 하는 조건에서 상기 세포를 유지하는 단계; 및

(f) 세포 내 리포터 유전자의 발현량의 변화를 검출하는 단계(이 때 소정 수준을 초과하는 리포터 유전자의 발현 또는 소정 수준 미만의 발현은 시험 징크 핑거 도메인이 표적 부위를 인식함을 나타냄)를 포함하는, 시험 징크핑거 도메인이 프로모터 상의 표적 부위를 인식하는지 여부를 결정하는 방법.
제21항에 있어서,

도메인의 보존된 경계부위를 코딩하는 서열에 결찰하는 올리고뉴클레오티드 프라이머를 이용하여, 유전체 핵산, 전령 RNA(mRNA) 혼합물, 또는 상보적 DNA(cDNA) 혼합물로부터 시험 징크핑거 도메인을 코딩하는 핵산을 증폭하는 단계를 더 포함하는 방법.
제21항에 있어서,

(i) 서열 데이터베이스에서 후보 징크핑거 도메인의 아미노산 서열을 동정하는 단계;

(ii) 상기 후보 징크핑거 도메인의 아미노산을 코딩하는 후보 핵산을 제공하는 단계; 및

(iii) 상기 후보 핵산을 이용하여 단계(b)의 다수의 하이브리드 핵산 내에 포함될 하이브리드 핵산을 구축하는 단계를 더 포함하는 방법.
(a) 프로모터에 작동가능하게 연결된 리포터 유전자를 포함하는 리포터 구조물을 함유하는 제1 세포를 제공하는 단계, 여기서 리포터 유전자는 전사인자가 프로모터의 소집 부위 및 표적 부위를 모두 인식하는 경우에는 소정 수준을 초과하여 발현되거나 소정 수준 미만으로 발현되지만 전사인자가 프로모터의 소집 부위만을 인식하는 경우에는 그러하지 아니함;

(b) (i) 전사 활성화 또는 억제 도메인, (ii) 소집 부위를 인식하는 DNA 결합 도메인, 및 (iii) 시험 징크 핑거 도메인을 포함하는 단백질을 코딩하는 하이브리드 핵산을 함유하는 제2 세포를 제공하는 단계;

(c) 상기 제1 세포 및 제2 세포를 융합하여 융합된 세포를 형성하는 단계;

(d) 세포 내에서 하이브리드 핵산이 발현될 수 있게 하는 조건에서 상기 융합된 세포를 유지하는 단계; 및

(e) 융합 세포 내 리포터 유전자의 발현량의 변화를 검출하는 단계(이 때 소정 수준을 초과하는 리포터 유전자의 발현 또는 소정 수준 미만의 발현은 시험 징크 핑거 도메인이 표적 부위를 인식함을 나타냄)를 포함하는, 시험 징크핑거 도메인이 프로모터 상의 표적 부위를 인식하는지 여부를 결정하는 방법.
제24항에 있어서, 상기 제1 및 제2 세포가 서로 상반되는 교배형의 효모 세포인 방법.
(a) 프로모터에 작동가능하게 연결된 리포터 유전자를 포함하는 다수의 리포터 구조물을 제공하는 단계, 여기서 리포터 유전자는 전사인자가 프로모터의 소집 부위 및 표적 부위를 모두 인식하는 경우에는 소정 수준을 초과하여 발현되거나 소정 수준 미만으로 발현되지만 전사인자가 프로모터의 소집 부위만을 인식하는 경우에는 그러하지 아니함;

(b) (i) 전사 활성화 또는 억제 도메인, (ii) 소집 부위를 인식하는 DNA 결합 도메인, 및 (iii) 시험 징크 핑거 도메인을 포함하는 비천연적 단백질을 코딩하는 하이브리드 핵산을 함유하는 세포를 제공하는 단계;

(c) 다수의 리포터 구조물 중 하나 이상이 세포 내로 들어갈 수 있는 조건하에서 다수의 리포터 구조물을 세포와 접촉시키는 단계;

(d) 세포 내에서 하이브리드 핵산이 발현될 수 있게 하는 조건에서 상기 세포를 유지하는 단계; 및

(e) 세포가 상기 (a)의 리포터 유전자를 포함하고 세포 내 리포터 구조물이 시험 징크핑거 도메인에 의해 인식되는 표적 부위를 포함함을 나타내는 지표로서 리포터 유전자를 소정 수준을 초과하여 발현하거나 소정 수준 미만으로 발현하는 세포를 동정하는 단계를 포함하는, 시험 징크핑거 도메인이 프로모터 상의 표적 부위를 인식하는지 여부를 결정하는 방법.
제26항에 있어서, 상기 표적 결합 부위가 2 내지 6개의 뉴클레오티드 길이인 방법.
제27항에 있어서, 다수의 리포터 구조물이 그 표적 결합 부위의 둘 이상의 위치에 A, T, G, C의 모든 가능한 조합을 포함하는 방법.
제28항에 있어서, 다수의 리포터 구조물이 그 표적 결합 부위의 셋 이상의 위치에 A, T, G, C의 모든 가능한 조합을 포함하는 방법.
제26항에 있어서, 제2 시험 징크핑거 도메인에 대하여 제2 결합 부위를 동정하기 위하여 상기 단계(a) 내지 (e)를 반복하는 방법.
제30항에 있어서, 제1 및 제2 시험 징크핑거 도메인을 포함하는 폴리펩티드를 코딩하는 핵산을 구축하는 단계를 더 포함하는 방법.
제1 시험 징크핑거 도메인을 동정하기 위하여 청구항 제1항의 방법을 수행하고, 제1 시험 징크핑거 도메인이 인식하는 표적 부위와 상이한 표적 서열을 인식하는 제2 시험 징크핑거 도메인을 동정하기 위하여 청구항 제1항의 방법을 재수행하는 것을 포함하는 다수의 징크핑거 도메인의 동정 방법.
제32항의 방법을 수행하고, 제1 및 제2 시험 징크핑거 도메인을 함유하는 폴리펩티드를 코딩하는 핵산을 구축하는 것을 포함하는, 키메라 징크핑거 단백질을 코딩하는 핵산을 제조하는 방법.
제1 시험 징크핑거 도메인에 의해 인식되는 제1 표적 서열을 동정하기 위하여 청구항 제24항의 방법을 수행하고,

제2 시험 징크핑거 도메인에 의해 인식되는 제2 표적 서열을 동정하기 위하여 청구항 제24항의 방법을 재수행하는 것을 포함하는, 징크핑거 도메인들에 의해 인식되는 DNA 서열들을 동정하는 방법.
제34항의 방법을 수행하고, 제1 및 제2 시험 징크핑거 도메인을 함유하는 폴리펩티드를 코딩하는 핵산을 구축하는 것을 포함하는, 키메라 징크핑거 단백질을 코딩하는 핵산의 제조방법.
아미노산 서열, X_a-X-Cys-X_2-5-Cys-X₃-X_a-X-Cys-X-Ser-Asn-X_b-X-Arg-His-X_3-5-His (SEQ ID NO:68) (여기서 X_a는 페닐알라닌 또는 티로신이고, X_b는 소수성 잔기)를 함유하는 정제된 폴리펩티드.
제36항의 폴리펩티드를 코딩하는 서열을 함유하는 핵산.
아미노산 서열, X_a-X-Cys-X_2-5-Cys-X₃-X_a-X-His-X-Ser-Asn-X_b-X-Lys-His-X_3-5-His (SEQ ID NO:69) (여기서 X_a는 페닐알라닌 또는 티로신이고, X_b는 소수성 잔기)를 함유하는 정제된 폴리펩티드.
제38항의 폴리펩티드를 코딩하는 서열을 함유하는 핵산.
아미노산 서열, X_a-X-Cys-X_2-5-Cys-X₃-X_a-X-Ser-X-Ser-Asn-X_b-X-Arg-His-X_3-5-His (SEQ ID NO:70) (여기서 X_a는 페닐알라닌 또는 티로신이고, X_b는 소수성 잔기)를 함유하는 정제된 폴리펩티드.
제40항의 폴리펩티드를 코딩하는 서열을 함유하는 핵산.
아미노산 서열, X_a-X-Cys-X_2-5-Cys-X₃-X_a-X-Gln-X-Ser-Thr-X_b-X-Val-His-X_3-5-His (SEQ ID NO:71) (여기서 X_a는 페닐알라닌 또는 티로신이고, X_b는 소수성 잔기)를 함유하는 정제된 폴리펩티드.
제42항의 폴리펩티드를 코딩하는 서열을 함유하는 핵산.
아미노산 서열, X_a-X-Cys-X_2-5-Cys-X₃-X_a-X-Val-X-Ser-X_c-X_b-X-Arg-His-X_3-5-His (SEQ ID NO:72) (여기서 X_a는 페닐알라닌 또는 티로신이고, X_b는 소수성 잔기이며, X_c는 세린 또는 트레오닌)를 함유하는 정제된 폴리펩티드.
제44항의 폴리펩티드를 코딩하는 서열을 함유하는 핵산.
아미노산 서열, X_a-X-Cys-X_2-5-Cys-X₃-X_a-X-Gln-X-Ser-His-X_b-X-Arg-His-X_3-5-His (SEQ ID NO:73) (여기서 X_a는 페닐알라닌 또는 티로신이고, X_b는 소수성 잔기)를 함유하는 정제된 폴리펩티드.
제46항의 폴리펩티드를 코딩하는 서열을 함유하는 핵산.
아미노산 서열, X_a-X-Cys-X_2-5-Cys-X₃-X_a-X-Gln-X-Ser-Asn-X_b-X-Val-His-X_3-5-His (SEQ ID NO:74) (여기서 X_a는 페닐알라닌 또는 티로신이고, X_b는 소수성 잔기)를 함유하는 정제된 폴리펩티드.
제48항의 폴리펩티드를 코딩하는 서열을 함유하는 핵산.
아미노산 서열, X_a-X-Cys-X_2-5-Cys-X₃-X_a-X-Gln-X-Ser-X_c-X_b-X-Arg-His-X_3-5-His (SEQ ID NO:75) (여기서 X_a는 페닐알라닌 또는 티로신이고, X_b는 소수성 잔기)를 함유하는 정제된 폴리펩티드.
제50항의 폴리펩티드를 코딩하는 서열을 함유하는 핵산.
서열 SEQ ID NO:65(RSHR 서열)과 60% 상동성을 갖는 아미노산 서열을 함유하는 정제된 폴리펩티드.
제52항의 폴리펩티드를 코딩하는 서열을 함유하는 핵산.
서열 SEQ ID NOs:29, 127, 129, 131, 133 및 135로 이루어진 군에서 선택된 아미노산 서열과 60% 상동성을 갖는 아미노산 서열을 함유하는 정제된 폴리펩티드.
제54항의 폴리펩티드를 코딩하는 서열을 함유하는 핵산.
아미노산 서열, X_a-X-Cys-X_2-5-Cys-X₃-X_a-X-Gln-X-Ala-His-X_b-X-Arg-His-X_3-5-His (SEQ ID NO:150) (여기서 X_a는 페닐알라닌 또는 티로신이고, X_b는 소수성 잔기)를 함유하는 정제된 폴리펩티드.
제56항의 폴리펩티드를 코딩하는 서열을 함유하는 핵산.
아미노산 서열, X_a-X-Cys-X_2-5-Cys-X₃-X_a-X-Gln-X-Phe-Asn-X_b-X-Arg-His-X_3-5-His (SEQ ID NO:151) (여기서 X_a는 페닐알라닌 또는 티로신이고, X_b는 소수성 잔기)를 함유하는 정제된 폴리펩티드.
제58항의 폴리펩티드를 코딩하는 서열을 함유하는 핵산.
아미노산 서열, X_a-X-Cys-X_2-5-Cys-X₃-X_a-X-Gln-X-Ser-His-X_b-X-Thr-His-X_3-5-His (SEQ ID NO:152) (여기서 X_a는 페닐알라닌 또는 티로신이고, X_b는 소수성 잔기)를 함유하는 정제된 폴리펩티드.
제60항의 폴리펩티드를 코딩하는 서열을 함유하는 핵산.
아미노산 서열, X_a-X-Cys-X_2-5-Cys-X₃-X_a-X-Gln-X-Ser-His-X_b-X-Val-His-X_3-5-His (SEQ ID NO:153) (여기서 X_a는 페닐알라닌 또는 티로신이고, X_b는 소수성 잔기)를 함유하는 정제된 폴리펩티드.
제62항의 폴리펩티드를 코딩하는 서열을 함유하는 핵산.
아미노산 서열, X_a-X-Cys-X_2-5-Cys-X₃-X_a-X-Gln-X-Ser-Asn-X_b-X-Ile-His-X_3-5-His (SEQ ID NO:154) (여기서 X_a는 페닐알라닌 또는 티로신이고, X_b는 소수성 잔기)를 함유하는 정제된 폴리펩티드.
제64항의 폴리펩티드를 코딩하는 서열을 함유하는 핵산.
아미노산 서열, X_a-X-Cys-X_2-5-Cys-X₃-X_a-X-Gln-X-Ser-Asn-X_b-X-Arg-His-X_3-5-His (SEQ ID NO:155) (여기서 X_a는 페닐알라닌 또는 티로신이고, X_b는 소수성 잔기)를 함유하는 정제된 폴리펩티드.
제66항의 폴리펩티드를 코딩하는 서열을 함유하는 핵산.
아미노산 서열, X_a-X-Cys-X_2-5-Cys-X₃-X_a-X-Gln-X-Thr-His-X_b-X-Gln-His-X_3-5-His (SEQ ID NO:156) (여기서 X_a는 페닐알라닌 또는 티로신이고, X_b는 소수성 잔기)를 함유하는 정제된 폴리펩티드.
제68항의 폴리펩티드를 코딩하는 서열을 함유하는 핵산.
아미노산 서열, Cys-X_2-5-Cys-X₃-X_a-X-Gln-X-Thr-His-X_b-X-Arg-His-X_3-5-His (SEQ ID NO:157) (여기서 X_a는 페닐알라닌 또는 티로신이고, X_b는 소수성 잔기)를 함유하는 정제된 폴리펩티드.
제70항의 폴리펩티드를 코딩하는 서열을 함유하는 핵산.
아미노산 서열, X_a-X-Cys-X_2-5-Cys-X₃-X_a-X-Arg-X-Asp-Lys-X_b-X-Ile-His-X_3-5-His (SEQ ID NO:158) (여기서 X_a는 페닐알라닌 또는 티로신이고, X_b는 소수성 잔기)를 함유하는 정제된 폴리펩티드.
제72항의 폴리펩티드를 코딩하는 서열을 함유하는 핵산.
아미노산 서열, X_a-X-Cys-X_2-5-Cys-X₃-X_a-X-Arg-X-Ser-Asn-X_b-X-Arg-His-X_3-5-His (SEQ ID NO:159) (여기서 X_a는 페닐알라닌 또는 티로신이고, X_b는 소수성 잔기)를 함유하는 정제된 폴리펩티드.
제74항의 폴리펩티드를 코딩하는 서열을 함유하는 핵산.
서열 SEQ ID NO:107과 60% 상동성을 갖는 아미노산 서열을 함유하는 정제된 폴리펩티드.
제76항의 폴리펩티드를 코딩하는 서열을 함유하는 핵산.
서열 SEQ ID NO:137과 60% 상동성을 갖는 아미노산 서열을 함유하는 정제된 폴리펩티드.
제78항의 폴리펩티드를 코딩하는 서열을 함유하는 핵산.
서열 SEQ ID NO:145와 60% 상동성을 갖는 아미노산 서열을 함유하는 정제된 폴리펩티드.
제80항의 폴리펩티드를 코딩하는 서열을 함유하는 핵산.
서열 SEQ ID NO:149와 60% 상동성을 갖는 아미노산 서열을 함유하는 정제된 폴리펩티드.
제82항의 폴리펩티드를 코딩하는 서열을 함유하는 핵산.
서열 SEQ ID NO:141와 60% 상동성을 갖는 아미노산 서열을 함유하는 정제된 폴리펩티드.
제84항의 폴리펩티드를 코딩하는 서열을 함유하는 핵산.