CN101583370A

CN101583370A - 蛋白质药物及其用途

Info

Publication number: CN101583370A
Application number: CNA2006800340492A
Authority: CN
Inventors: W·P·C·斯泰默; V·舍伦贝格尔; M·巴德尔; M·肖勒
Original assignee: Amunix Inc
Current assignee: Amunix Inc
Priority date: 2005-09-27
Filing date: 2006-09-27
Publication date: 2009-11-18

Abstract

本发明提供含半胱氨酸支架和/或带有和/或表达这种含半胱氨酸产物的蛋白质、表达载体、宿主细胞和展示系统。本发明还提供设计这种产品的文库的方法、筛查这种文库以获得显示靶分子结合特异性的实体的方法。本发明进一步提供含有本发明的含半胱氨酸产物的药物组合物。

Description

蛋白质药物及其用途

交叉参考

本申请要求于2005年9月27日提交的美国临时申请Nos.60/721,270和60/721,188和于2006年3月21日提交的美国临时申请No.60/743,622的优先权，所述临时申请在此引用作为参考。

发明背景

分子生物学的一个基本概念是每种天然蛋白质采用单一的“天然”结构或折叠。采用天然折叠以外的任何折叠被认为是“错折叠”。采用多种天然的功能性折叠的天然蛋白质只有极少的实例或者没有实例。错折叠是一个严重的问题，例如朊病毒的感染性，它的“错误”折叠使其他朊病毒蛋白质以催化方式错折叠，并且导致脑病和某些死亡。几乎任何蛋白质在变性时都可错折叠，形成纤维状聚合物，这样的聚合物似乎与许多退行性疾病有关。一个实例是与阿尔茨海默病有关的β-淀粉样蛋白原纤维。蛋白质的错折叠通常导致不可逆地形成不溶性聚集体，但是变性的蛋白质也可作为熔球形式存在。一般认为蛋白质沿着漏斗形途径，从采用多样性的不稳定结构的熔球状态，逐渐减少折叠中间体的多样性，直到达到单一、稳定折叠的天然结构。天然蛋白质可以通过别构调节、一个结构域相对于其它结构域的盖/翼(lid/flap)型移动、与配体结合后的诱导契合、或通过结晶力而在结构上发生改变，但是这些改变通常涉及铰链样结构的移动，而不是基本折叠的基本改变。所有可以获得的实例都支持以下观点：天然蛋白质进化为采用单一稳定折叠以实现其生物功能，并且偏离该天然结构是有害的。

存在少数几个例子，其相同的蛋白质序列以一种以上的形式天然存在(不包括通过选择性剪接、糖基化或蛋白水解加工产生的变体)，但是第二种形式通常只是丢失了二硫键的非活性的副产物(Schulz等人，2005；Petersen等人，2003；Lauber等人，2003)。在包括具有高二硫键密度的小蛋白质(主要是毒素和受体-结构域)的微生物蛋白质家族中，发现一些例子具有密切相关的序列，由于完全形成的(不是简单缺陷的)、但是替代的二硫键键合模式而采用不同的结构。其实例包括生长调节素(Somatomedin)(Kamikubo等人，2004)和莫鲁蝎毒素(Maurotoxin)(Fajloun等人，2000)。

蛋白质展示文库在传统上使用单一固定的蛋白质折叠，如各个种的免疫球蛋白结构域、干扰素、蛋白A、锚蛋白、A-结构域、T细胞受体、纤连蛋白III、γ-晶体蛋白、遍在蛋白和许多其他蛋白质，如Binz，A.等人.(2005)NatureBiotechnology23：1257综述。在一些情况中，例如对于来源于人免疫全部组成成分的免疫球蛋白文库，单一文库使用多种不同的V-区序列作为支架，但是它们共有基本的免疫球蛋白折叠。不同类型的文库是随机肽或环肽文库，但是它们不被认为是蛋白质，因为它们没有任何确定的折叠并且没有采用单一稳定的结构。

仍然非常需要通过(例如)定向进化设计新的适合合理选择的蛋白质结构，以获得显示一种或多种所期望的性质的治疗剂。这些期望的性质包括但不限于降低的免疫原性、提高的稳定性或延长的半衰期、多特异性、多价性和高靶标结合亲和力。

发明概述

本发明的一个方面是设计显示高二硫键密度的新蛋白质结构。该蛋白质结构特别适合通过(例如)定向进化合理地设计和选择，以获得显示一种或多种期望的性质的治疗剂。这些期望的性质包括但不限于高靶标结合亲和力和/或亲合力，较低的分子量，改善的组织穿透力，提高的热稳定性和蛋白酶稳定性，延长的保存期，提高的亲水性，增强的配方(特别是高浓度)，和降低的免疫原性。

在一个实施方案中，本发明提供例如支架形式的各种蛋白质结构，和这些蛋白质结构的文库。在一个方面，支架显示多样化的折叠或其他非一级结构。在另一方面，支架具有确定的拓扑学来实现生物学功能。在另外一个实施方案中，本发明提供构建这些蛋白质结构的文库的方法，在遗传载体或包装体(例如病毒包装体如噬菌体等，和非病毒包装体(如酵母展示，大肠杆菌表面展示，核糖体展示，或CIS(DNA-连接的)展示)上展示这些文库的方法，以及筛查这些文库以获得治疗剂或候选治疗剂的方法。本发明进一步提供表达或应用主题蛋白质结构的载体、宿主细胞和其他体外系统。

在另外一个实施方案中，本发明提供一种非天然存在的含半胱氨酸(C)的支架，其显示对靶分子的结合特异性，其中该非天然存在的含半胱氨酸(C)的支架包含选自下式代表的排列的支架内半胱氨酸，

其中n等于预测的半胱氨酸残基形成的二硫键数目，并且其中

代表(2i-1)的积，其中i是1至n的正整数。

在另外一个实施方案中，本发明提供一种非天然存在的含半胱氨酸(C)的蛋白质，其包含具有不超过35个氨基酸的多肽，其中该多肽中至少10％的氨基酸是半胱氨酸，通过支架内半胱氨酸配对形成至少两个二硫键，并且其中所述配对产生大于3的复杂性指数。

在一个方面，非天然存在的含半胱氨酸(C)的蛋白质可以包含具有不超过大约60个氨基酸的多肽，其中该多肽中至少10％的氨基酸是半胱氨酸，通过配对该多肽中所含的半胱氨酸形成至少四个二硫键，并且其中所述配对产生大于4、6或10的复杂性指数。

在另一方面，本发明的非天然存在的含半胱氨酸(C)的蛋白质在加热到高于大约50℃、优选高于大约80℃或甚至高于100℃的温度保持范围从0.001秒到10分钟的特定时间后，显示靶标结合能力。

在某些方面，本文所述的非天然存在的含半胱氨酸(C)的蛋白质与一个部分偶联，该部分选自：标记物(如，GFP、HA-标签、Flag、Cy3、Cy5、FITC)、效应物(如，酶、细胞毒性药物、螯合物)、抗体(如，全抗体、Fc区、dAbs、scFvs、双特异抗体(diabodies))、将分子集中在所需的组织或区室如肿瘤中的靶向模块(肽或结构域，如VEGF肝素结合外显子)、增强通过组织屏障(经皮、经口、经肠、口腔、阴道、直肠、鼻、肺、血-脑屏障、经巩膜)转运的屏障转运偶联物，如富含精氨酸的肽、烷基糖类、模拟去污剂并形成含有或展示蛋白质的微团的(离子或非离子)两亲性或兼性肽，和延长半衰期的部分，包括小分子(例如与白蛋白结合或插入细胞膜的小分子)、化学聚合物如聚乙二醇(PEG)或多种肽和蛋白质序列(包括可以插入膜内或非特异性结合的疏水性肽)、(人)血清白蛋白、转铁蛋白、富含甘氨酸的聚合序列，如poly(GGGS)接头。形成这些偶联物的键可以通过遗传或化学方法形成。含半胱氨酸的蛋白质也可以同源或异源多聚化，形成2-mers、3-mers、4-mers、5-mers、6-mers、7-mers、8-mers、9-mers、10-mers、11-mers、12-mers、14-mers、16-mers、18-mers、20-mers或更高级的多聚体，它们将延长蛋白质的半衰期，提高结合位点的浓度，因此提高表观结合常数，并且根据靶标的不同，可能也提高结合亲合力。较高级的多聚体可以如下产生：通过融合到一个大基因中，或者通过将基因编码的肽-结合-肽(“结合肽”)添加到蛋白质上而使分开表达的蛋白质通过结合肽在N和/或C末端彼此结合，形成蛋白质多聚体，或者通过多种化学键。合适的半衰期延长部分包括但不限于与血清白蛋白、IgG、红细胞和血清可及的蛋白质结合的部分。每种靶标和每种治疗用途支持多种上述成分的不同组合。

本发明还提供一种含有20-60个氨基酸的单结构域的非天然蛋白质，其具有3个或更多个二硫键，并且与人血清暴露的蛋白质结合，并且含有少于5％的脂肪族氨基酸。

本发明进一步提供一种含有20-60个氨基酸的单结构域的非天然存在的蛋白质，其具有3个或更多个二硫键，并且与人血清暴露的蛋白质结合，并且在T-Epitope程序中的得分低于数据库中蛋白质的平均值的90％、优选地低于数据库中蛋白质的平均值的99％、更优选地低于数据库中人蛋白质的平均值的99％。本发明也包括主题非天然存在的蛋白质的文库、包含编码该蛋白质的基因包装体的表达载体，以及表达或展示该蛋白质的其他宿主细胞。

本发明进一步包括制备本文公开的含半胱氨酸的微生物蛋白质的方法。

本发明还包括检测靶标和基因包装体上展示的外源多肽之间是否存在特异性相互作用的方法。该方法包括以下步骤：(a)提供本发明的基因包装体展示；(b)使该基因包装体在适合产生稳定的多肽-靶标复合物的条件下接触靶标；和(c)检测基因包装体上稳定的多肽-靶标复合物的形成，由此检测特异性相互作用的存在。该方法可以进一步包括以下步骤：分离展示具有所需性质的多肽的基因包装体，或者将编码所需多肽的基因包装体带有的序列部分进行测序。示例性基因包装体包括但不限于病毒(例如噬菌体)、细胞和孢子。

附图说明

图1-12、14-16、20-35、37-73、75-83、85-93、95-97、99、101-102、104-107、111、113-115、123显示各种支架和其中包含的基序。

图1的基序：

1)CxPhxxxCxxxxdCCxxxCxrrGxxxxxrC

2)CxPxxxxCxxxxxCCxxxCxxxxGxxxxxC

3)CxxxxxxCxxxxxCCxxxCxxxxxxxxxxC

CDP：C6C5C0C3C10C

图2的基序：

1)fCCPxxryCCw

2)CCPxxxxCCW

3)CCxxxxxCC

CDP：C0C5C0C

图3的基序：

1)CxxxfWxCxxxxxCCgWxxCxxgxC

2)CxxxxWxCxxxxxCCxWxxCxxxxC

3)CxxxxxxCxxxxxCCxxxxCxxxxC

CDP：C6C5C0C4C4

图4的基序：

1)CxgydxxCxxxxpCCxxxxxxxCxxxxgyWWyxxxyC

2)CxxxxxxCxxxxxC CxxxxxxxCxxxxxxWWxxxxxC

3)CxxxxxxCxxxxxCCxxxxxxxCxxxxxxxxxxxxxC

CDP：C6C5C0C7C13C

图5的基序：

1)CxfxCxxxxxgxxpCxxxxxxxxxxxxxxxxxCxggWxCxxxxC

2)CxxxCxxxxxxxxxCxxxxxxxxxxxxxxxxxCxxxWxCxxxxC

3)CxxxCxxxxxxxxxCxxxxxxxxxxxxxxxxxCxxxxxCxxxxC

CDP：C3C9C17C5C4C

图6的基序：

1)CxxxxxxCxxHxxCCxxxCxxgxCxxxxxwxxxgC

2)CxxxxxxCxxHxxCCxxxCxxxxCxxxxxxxxxxC

3)CxxxxxxCxxxxxCCxxxCxxxxCxxxxxxxxxxC

CDP：C6C5C0C3C4C10C

图7的基序：

1)CxxxgxxCxxdgxCCxgxCxxxfxgxxC

2)CxxxxxxCxxxxxCCxxxCxxxxxxxxC

CDP：C6C5C0C3C8C

图8的基序：

1)CxdxxCxxyCxgxxyxxgxCdgpxxCxC

2)CxxxxCxxxCxxxxxxxxxCxxxxxCxC

CDP：C4C3C9C5C1C

图9的基序：

1)ChfxxCxxdCrrxxPGxyGxCxxxxxGxxCxC

2)CxxxxCxxxCxxxxPGxxGxCxxxxxGxxCxC

3)CxxxxCxxxCxxxxxxxxxxCxxxxxxxxCxC

CDP：C4C3C10C8C1C

图10的基序：

1)

CixxgxxCxG(xx)xxxxCxCCxxxxyCxCxxx(xxx)FG(x)xxxxCxC(x)xxxxxCxxxxxx(x)xxxxxC

2)

CxxxxxxCxG(xx)xxxxCxCCxxxxxCxCxxx(xxx)FG(x)xxxxCxC(x)xxxxxCxxxxxx(x)xxxxxC

3)

CxxxxxxCxx(xx)xxxxCxCCxxxxxCxCxxx(xxx)xx(x)xxxxCxC(x)xxxxxCxxxxxx(x)xxxxxC

图11的基序：

1)CxPCfttxxxxxxxCxxCCxxx(x)xgxCxxxqCxC

2)CxPCxxxxxxxxxxCxxCCxxx(x)xxxCxxxxCxC

3)CxxCxxxxxxxxxxCxxCCxxx(x)xxxCxxxxCxC

CDP：C2C10C2C0C6(7)C4C1C

图12的基序：

CxxxxxxCxxxxxxCCxxxCxxxxC

CDP：C6C6C0C3C4C

图14的基序：

1)Cxx(x)xCxxxxxxxxxxCxCxxxCxxxxxCCxxxxxxC

2)Cxx(x)RCxExxxxxxxxCxCxxxCxxxxxCCxD[yf]xxxC

CDP：C3-4C10C1C3C5C6C

图15的基序：

1)

Cxxxxx(x)x(x)xxxxxCpxgxxxC[yf]xkxxxx(xx)CxxrxxxxxrGCxxtCPxxxx(x)xxxxxCCxtdxCN

2)

Cxxxxx(x)x(x)xxxxxCxxxxxxCxxxxxxx(xx)CxxxxxxxxxGCxxxCPxxxx(x)xxxxxCCxxxxCN

3)

Cxxxxx(x)x(x)xxxxxCxxxxxxCxxxxxxx(xx)CxxxxxxxxxxCxxxCxxxxx(x)xxxxxCCxxxxC

CDP：C6-8C6C7-9C10C3C10-11C0C4C

图16的基序：

1)CxxCxxxxxxxxC(xxx)xxxxxxCxxxxxxCxxxxxxxxxxxxxxxxxxxxCxxx(xx)xC(p)xx(x)xxxxxxxxxx(x)xxxxxCCxxxxC

图20的基序：

1)CgxqxxxxxCxxxxCCsxxGxCGxxxxyCxx(x)xCx(x)xxC

2)CxxxxxxxxCxxxxCCxxxxxCxxxxxxCxx(x)xCx(x)xxC

CDP：C8C4C0C5C6C3-4C3-4C

图21的基序：

1)

Cxxx(x)xxxxxxx(xx)xxxC(x)xxxxxCxxxxxx(x)xxxCxxxxxxxxxxxxCxxxxx(xx)xxC

2)

Cxxx(x)xxxxxxx(xx)xxxC(x)xx[yf]xxCxxxxxx(x)xxxCxxxxx[yf]xxxxxxCxxxxx(xx)xxC

CDP：C13-16C5-6C9-10C12C7-9C

图22的基序：

1)

C(xx)xY(gg)xxxxxxCxxxCxx(x)xxxCxxxCxx(x)xgaxxgxCxxxx(x)xxxxxC[wylf]C

2)C(xx)xx(xx)xxxxxxCxxxCxx(x)xxxCxxxCxx(x)xxxxxxxCxxxx(x)xxxxxCxC

CDP：C8-12C3C5-6C3C9-10C9-10C1C

图23的基序：

1)

CxxxxxxxxCxxxCxxxCxxxxx(xxxx)xxxCxxxx(xxxx)xxCxxxxCxCxxxxxxxxxx(x)xCxxxxxC

2)

CpxxxxxxxCxxxCxxxCxxxxx(xxxx)xxxCxxxx(xxxx)xxCxxxxCxCxxgxxxxxxx(x)xCvxxxxC

CDP：C8C3C3C8-12C6-10C4C1C

图24的基序：

1)CxxxCxxxxxxxxCPxxxxx(x)xxxxxCxxCCxxxxxCxxxxxxxxxxC

2)CtxxCdxxxxxxxCPxxxxx(xx)xxxxxCxxCCxxgxGCx[yfl][yfl]xxxxGxx[ivl]C

CDP：C3C8C11-12C2C0C5C10C

图25的基序：

1)CxxxxSxx[Fwy]xGxCxxxxxCxxxCxxexxx(xx)xGxCxx(xx)xxr[rk]CxCxxxC

2)CxxxxSxxFxGxCxxxxxCxxxCxxxxxx(xx)xGxCxx(xx)xxxxCxCxxxC

3)CxxxxxxxxxxxCxxxxxCxxxCxxxxxx(xx)xxxCxx(xx)xxxxCxCxxxC

CDP：C11C5C3C9-11C6-8C1C3C

图26的基序：

C(xxx)xxxxxxCCxxx(x)xCxx(xx)xxxC

CDP：C6-9C0C4-5C5-7C

图27的基序：

1)CxxxCxshxxCxxxCxCxxxx[xc]x[xc]

图28的基序：

1)CxgrxxrCppxCCxgxxCxrgxxxxC

2)CxxxxxxCxxxCCxxxxCxxxxxxxC

CDP：C6C3C0C4C7C

图29的基序：

1)CCxxpxxCxxrxCxpxxCC

2)CCxxxxxCxxxxCxxxxCC

CDP：C0C5C4C4C0C

图30的基序：

1)CCgxypxxxChpCxCxxxrpxyC

2)CCxxxxxxxCxxCxCxxxxxxxC

CDP：C0C7C2C1C7C

图31的基序：

1)CxxtGxxCxxxxx[cx]C sx(x)Ga[cx]sxxFxxC

2)CxxxxxxCxxxxx[cx]Cxx(x)xx[cx]xxxxxxC

图32的基序：

1)CxxxxC(x)xxxCxxGxxxDxxgCxx(xx)xCxC

2)CxxxxC(x)xxxCxxxxxxxxxxCxx(xx)xCxC

CDP：C4C3-4C10C2-4C 1C

图33的基序：

1)CxxxxxxCCDPCaxCxCRFFxxxCxCR

2)CxxxxxxCCxxCxxCxCxxxxxxCxC

CDP：C6C0C2C2C1C6C1C

图34的基序：

1)CxpgxxxkxxCNxCxCxxxx(x)xxxTxxxC

2)CxxxxxxxxxCNxCxCxxxx(x)xxxTxxxC

3)CxxxxxxxxxCxxCxCxxxx(x)xxxxxxxC

CDP：C9C2C1C11-12C

图35的基序：

1)Cxx(xx)xxxxxCxxxxxxx(x)CxxxxxxxxxxxxCxxxCxxC

2)Cxx(xx)DxxxxCxxxxxxx(x)CxxxxxxxxxxxxCxxxCxxC

3)Cxx(xx)DxxxxCxx[wylfim]xxxx(x)CxxxxxxxxxxxxCxxtCxxC

CDP：C7-9C7-8C12C3C2C

图37的基序：

1)C(xxxx)CxxxxxCxxx(xxxxxxx)xxxCxCxxxx(xx)xxxxxC

2)C(xxxx)CxxxGxCxxx(xxxxxxx)xxxCxCxxxx(xx)xxGxxC

3)C(xxxx)CxxxGxCxxx(xxxxxxx)xxxCxCxxxx(xx)[ywflh]xGxxC

CDP：C0-4C5C6-13C1C9-11C

图38的基序：

1)Cxxxx(x)xCxxxxxCxxxxx(xx)xxxCxCxxx(xxx)xxxxxxC

2)Cxxxx(x)xCxxxgxCxxxxx(xx)xxxCxCxxg(xxx)xxxgxxC

CDP：C5-6C5C8-10C1C9-12C

图39的基序：

1)

CxCxxxxxxx(xx)xxCxxx(xxxxxxxx)xxxxxxCxCxxxxxxxxCxxCxxxxxxxxx(xx)xxxxxC

2)

CxCxxxxxxx(xx)xxCxxx(xxxxxxxx)xxxxGxCxCxxxxxGxxCxxCxxxxxxxxx(xx)xxxxxC

CDP：C1C9-11C9-17C1C8C2C14-16C

图40的基序：

1)

DxdECxxxxxxCx(xx)xxxxxCxNxxGx[fy]xCx(xxx)xCxxg[yf]x(xxxx)xxxxxxxC

2)DxxECxxxxxxCx(xx)xxxxxCxNxxGxxxCx(xxx)xCxxxxx(xxxx)xxxxxxxC

3)CxxxxxxCx(xx)xxxxxCxxxxxxxxCx(xxx)xCxxxxx(xxxx)xxxxxxxC

CDP：C6C6-8C8C2-5C12-16C

图41的基序：

1)CsxHGxxxxDGxx(x)xxGxxPxCeCxxCyxGxxCsxxxxxC

2)CxxHGxxxxDGxx(x)xxGxxPxCxCxxCxxGxxCxxxxxxC

3)Cxxxxxxxxxxxx(x)xxxxxxxCxCxxCxxxxxCxxxxxxC

CDP：C19-20C1C2C5C6C

图42的基序：

1)CxxxxGxCRxkxxxnCxxxxxxxCxnxxqkCC

2)CxxxxGxCRxxxxxxCxxxxxxxCxxxxxxCC

3)CxxxxxxCxxxxxxxCxxxxxxxCxxxxxxCC

CDP：C6C7C7C6C0C

图43的基序：

1)CxxxxxxCxxxxCxxxxxxxxxCxxxxxxCC

2)CxxxxgxCxxxxCxxxxxxxgxCxxxxxxCC

CDP：C6C4C9C6C0C

图44的基序：

1)CxxHCxxxgxxggxCxx(xxx)xxxCxC

2)CxxHCxxxxxxxxxCxx(xxx)xxxCxC

3)CxxxCxxxxxxxxCxx(xxx)xxxCxC

CDP：C3C8C5-8C1C

图45的基序：

1)CxCRxxxCxxxExxxGxCxxxxxx[yfh]x[yfl]CC

2)CxCRxxxCxxxExxxGxCxxxxxxxxxCC

3)CxCxxxCxxxxxxxxxCxxxxxxxxxCC

CDP：C1C3C9C9C0C

图46的基序：

1)CCxxxxxRxx[yf]nxCrxxGxxxxxCaxxxxCxiisgxxC

2)CCxxxxxRxxxxxCxxxGxxxxxCxxxxxCxxxxxxxC

3)CCxxxxxxxxxxxCxxxxxxxxxCxxxxxCxxxxxxxC

CDP：C0C11C9C5C7C

图47的基序：

1)CxxaxxxCxxxxCxxxCxx(x)xxxxxCxxx[vi]xx(x)xxC

2)CxxxxxxCxxxxCxxxCxx(x)xxxxxCxxxxxxx(x)xxC

图48的基序：

1)Cxxxxxxx(x)xxxxxCCCxxxx(x)xxxxxxCxxC

2)Cxxxxxxx(x)xxkxxCCCxxxx(x)xx[wfiv]gxxCexC

CDP：C12-13C0C0C10-11C2C

图49的基序：

1)Cxxxxxx[yfh]xxxxxWxxxx(xxxx)xxxCx(x)xCxCxx(xxxxxxxx)xxxxCxxxxCxx(xxxxx)xxCxxx(xxx)xxxxxxxgeCCx(xx)xC

2)CxxxxxxxxxxxxWxxxx(xxxx)xxxCx(x)xCxCxx(xxxxxxxx)xxxxCxxxxCxx(xxxxx)xxCxxx(xxx)xxxxxxxxCCx(xx)xC

3)Cxxxxxxxxxxxxxxxxx(xxxx)xxxCx(x)xCxCxx(xxxxxxxx)xxxxCxxxxCxx(xxxxx)xxCxxx(xxx)xxxxxxxxCCx(xx)xC

图50的基序：

1)CxxxxxxCxxxxxCCxxxxCxxx(xxx)x(xx)x[wylfi]C

2)CxxxxxxCxxxxxCCxxxxCxxx(xxx)x(xx)xxC

CDP：C6C5C0C4C6-11C

图51的基序：

1)CxexCvxxxCxxxxxxGCxCxxxvC

2)CxxxCxxxxCxxxxxxxCxCxxxxC

CDP：C3C4C7C1C4C

图52的基序：

1)CxfCCxCCxxxxCgxCC

2)CxxCCxCCxxxxCxxCC

CDP：C2C0C1C4C2C0C

图53的基序：

1)CxxxxxWCgxxedCCCpmxCxxxWyxqxgxCqxxxxxxxxkxxC

2)CxxxxxWCxxxxxCCCxxxCxxxWxxxxxxCxxxxxxxxxxxxC

3)CxxxxxxCxxxxxCCCxxxCxxxxxxxxxxCxxxxxxxxxxxxC

CDP：C6C5C0C0C3C10C12C

图54的基序：

1)CxxCxxxCxxxxxxxxCxxx(xx)xCxC

图55的基序：

1)CxxxxxCxxxCxxxxx(x)xxxxxCxxxxCxC

2)CxxxxxCxxxCxxxxx(x)xxxgkCxxxkCxC

CDP：C5C3C10-11C4C1C

图56的基序：

1)CPxxxxxCxxdxdCxxxCxCxxxx(x)xC

2)CPxxxxxCxxxxxCxxxCxCxxxx(x)xC

3)CxxxxxxCxxxxxCxxxCxCxxxx(x)xC

CDP：C6C5C3C1C5-6C

图57的基序：

1)CCxdgxxxxx(x)xxxxCxxrxxxxxxxxxCxxxfxxCC

2)CCxxxxxxxx(x)xxxxCxxxxxxxxxxxxCxxxxxxCC

CDP：C0C12-13C12C6C0C

图58的基序：

1)CxsxxxPCxnxxxCCxgxCxxxxWxCxxxxxxCskxC

2)CxxxxxPCxxxxxCCxxxCxxxxWxCxxxxxxCxxxC

3)CxxxxxxCxxxxxCCxxxCxxxxxxCxxxxxxCxxxC

CDP：C6C5C0C3C6C6C3C

图59的基序：

1)CxxWx[wylf]xxCxxxxxdCgxgxrexx(xx)CxxxxxxxxCxxPC

2)CxxWxxxxCxxxxxxCxxxxxxxx(xx)CxxxxxxxxCxxPC

3)CxxxxxxxCxxxxxxCxxxxxxxx(xx)CxxxxxxxxCxxxC

CDP：C7C6C8-10C8C3C

图60的基序：

1)CxdxxxCxxygxyxxCxxCCxxxgxxxgxCxxxxCxC

2)CxxxxxCxxxxxxxxCxxCCxxxxxxxxxCxxxxCxC

CDP：C5C8C2C0C9C4C1C

图61的基序：

1)

Cxxxxx(x)x(x)xxxxxCpxgxxxC[yf]xkxxxx(xx)CxxxxxxxxxGCxxtCPxxxx(x)xxxxxCCxxdxC

2)

Cxxxxx(x)x(x)xxxxxCxxxxxxCxxxxxxxx(xx)CxxxxxxxxxGCxxxCPxxxx(x)xxxxxCCxxxxC

3)

Cxxxxx(x)x(x)xxxxxCxxxxxxCxxxxxxx(xx)CxxxxxxxxxxCxxxCxxxxx(x)xxxxxCCxxxxC

CDP：C11-13C6C7-9C10C3C10-11C0C4C

图62的基序：

1)CPxxx(xx)xxxxxCxxx(xxx)CxxDxxCxxxxkCCxxxCxxxC

2)CPxxx(xx)xxxxxCxxx(xxx)CxxDxxCxxxxCCxxxCxxxC

3)Cxxxx(xx)xxxxxCxxx(xxx)CxxxxxCxxxxxCCxxxCxxxC

CDP：C9-11C3-6C5C5C0C3C3C

图63的基序：

1)Cxx(x)xyxxCxxgxxxCCxxr(x)xCxCxxxxxNCxC

2)Cxx(x)xxxxCxxxxxxCCxxx(x)xCxCxxxxxNCxC

3)Cxx(x)xxxxCxxxxxxCCxxx(x)xCxCxxxxxxCxC

CDP：C6-7C6C0C4-5C1C6C1C

图64的基序：

1)CxxxxxxCxdWxxxxCCxgxyCxCxxxpxCxC

2)CxxxxxxCxxWxxxxCCxxxxCxCxxxxxCxC

3)CxxxxxxCxxxxxxxCCxxxxCxCxxxxxCxC

CDP：C6C7C0C4C1C5C1C

图65的基序：

1)CxxxCrxxydxCxxCxgxWxgxxgxCxxhCxxxxxxCxxxC

2)CxxxCxxxxxxCxxCxxxWxxxxxxCxxxCxxxxxxCxxxC

3)CxxxCxxxxxxCxxCxxxxxxxxxxCxxxCxxxxxxCxxxC

CDP：C3C6C2C10C3C6C3C

图66的基序：

1)CxPxGxPCPyxxxCCxxxCxxxxxxxgxxxxrC

2)CxxxxxxCxxxxxCCxxxCxxxxxxxxxxxxxC

3)CxPxGxPCPxxxxCCxxxCxxxxxxxxxxxxxC

CDP：C6C5C0C3C13C

图67的基序：

1)CxxxxxxxxxxxCPxgxxxxxCxCgxxCgsWxxxxxxxCxCxCxxxdWxxxrCC

2)CxxxxxxxxxxxCPxxxxxxxCxCxxxCxxWxxxxxxxCxCxCxxxxWxxxxCC

3)CxxxxxxxxxxxCxxxxxxxxCxCxxxCxxxxxxxxxxCxCxCxxxxxxxxxCC

CDP：C11C8C1C3C10C1C1C9C0C

图68的基序：

1)Cx(xx)xxxCxxxxx[nd]gxCx[wylf]DGxDC

2)Cx(xx)xxxCxxxxxxxxCxxDGxDC

3)Cx(xx)xxxCxxxxxxxxCxxxxxxC

CDP：C4-6C8C6C

图69的基序：

1)Cxxxx[yf]xx(xx)xxx(x)xxCxxCxxCxx(xx)gxxxxxxCxxxxxtxC

2)Cxxxxxxx(xx)xxx(x)xxCxxCxxCxx(xx)xxxxxxxCxxxxxxxC

图70的基序：

1)CxfPFx[yf]xxxxxxxCtxxgxxxxxxWCxttxxxdxDxxxx[fy]C

2)CxxPFxxxxxxxxxCxxxxxxxxxxWCxxxxxxxxDxxxxxC

3)CxxxxxxxxxxxxxCxxxxxxxxxxxCxxxxxxxxxxxxxxC

CDP：C13C11C14C

图71的基序：

1)Cxx(xx)xxxxyxCCxxx(xx)xxxxxxdxxxxWgxxnxxwC

2)Cxx(xx)xxxxxxCCxxx(xx)xxxxxxxxxxxWxxxxxxxC

3)Cxx(xx)xxxxxxCCxxx(xx)xxxxxxxxxxxxxxxxxxxC

CDP：C8-10C0C22-24C

图72的基序：

1)CCxxxx(x)CxxxxpxxxCG

2)CCxxxx(x)CxxxxxxxxC

CDP：C0C4-5C8C

图73的基序：

1)CGGxxxxGxxxCxxgxxC

2)CGGxxxxGxxxCxxxxxC

CDP：C10C5C

图75的基序：

1)Cx(xxc)xxxCxxxxxxxCxpxx(xxxx)xxxx(c)xxxxxxxGCgCCxxCxxxxgxxCxxxxxx(dx)xxglxCxxg(xx)xxxxxlxC

2)Cx(xxc)xxxCxxxxxxxCxxxx(xxxx)xxxx(c)xxxxxxxGCxCCxxCxxxxxxxCxxxxxx(xx)xxxxxCxxx(xx)xxxxxxxC

3)Cx(xxc)xxxCxxxxxxxCxxxx(xxxx)xxxx(c)xxxxxxxxCxCCxxCxxxxxxxCxxxxxx(xx)xxxxxCxxx(xx)xxxxxxxC

图76的基序：

1)CxCxxxxdkcCx[yfli]xChxd[ivl][ivl]W

2)CxCxxxxdkeCx[yfli]xC

3)CxCxxxxxxxCxxxC

CDP：C1C7C3C

图77的基序：

1)CExCxxxxaCtGC

2)CExCxxxxxCxGC

3)CxxCxxxxxCxxC

CDP：C2C5C2C

图78的基序：

1)CyrxCWregxdeetCkerC

2)CxxxCWxxxxxxxxCxxxC

CDP：C3C9C3C

图79的基序：

1)DCxxxGxxCxGxxkxCCxpxxxCxxYanxC

2)CxxxGxxCxGxxxxCCxxxxxCxxYxxxC

3)CxxxxxxCxxxxxC CxxxxxCxxxxxxC

CDP：C6C5C0C5C6C

图80的基序：

1)CPx[ivlf]xxxCxxdxdCxxxCxCxxxxxxCg

2)CPxxxxxCxxxxxCxxxCxCxxxxxxC

3)CxxxxxxCxxxxxCxxxCxCxxxxxxC

CDP：C6C5C3C1C6C

图81的基序：

1)CdxgeqCaxrkgxrxgkxCdCPrgxxCnxfllkC

2)CxxxxxCxxxxxxxxxxxCxCxxxxxCxxxxxxC

CDP：C5C11C1C5C6C

图82的基序：

1)CvkkdelCxpyyxdCCxpxxCxxxxWWdhkC

2)CxxxxxxCxxxxxxCCxxxxCxxxxWWxxxC

3)CxxxxxxCxxxxxxCCxxxxCxxxxxxxxxC

CDP：C6C6C0C4C9C

图83的基序：

1)CxGxCsPFExPPCxssxCrCxPxxlxxGxcxxPxxxxxxxkxxxxHxnlCxsxxxCxkkxsGcFCxxYPNxxixxGWC

2)CxGxCxPFExPPCxxxxCxCxPxxxxxGxcxxPxxxxxxxxxxxxHxxxCxxxxxCxxxxxGxFCxxYPNxxxxxGWC

3)CxxxCxxxxxxxCxxxxCxCxxxxxxxxxcxxxxxxxxxxxxxxxxxxxCxxxxxCxxxxxxxxCxxxxxxxxxxGxC

图85的基序：

1)CCPCxxCxYxxGCPWGqxxxxxgC

2)CCPCxxCxYxxGCPWGxxxxxxxC

3)CCxCxxCxxxxxCxxxxxxxxxxC

CDP：C0C1C2C5C10C

图86的基序：

1)CxgxxgxRxxxxxxxxxCxDCxNxxRxxxxxxxCrxxCxxxxxFxxC

2)CxxxxxxRxxxxxxxxxCxDCxNxxRxxxxxxxCxxxCxxxxxFxxC

3)CxxxxxxxxxxxxxxxxCxxCxxxxxxxxxxxxCxxxCxxxxxxxxC

CDP：C16C2C12C3C8C

图87的基序：

1)CxCxxxxPxxrxxxxxGxx(x)xxxxxC(x)xxxxxWxxCxxxxxxxxxCC

2)CxCxxxxPxxxxxxxxGxx(x)xxxxxC(x)xxxxxWxxCxxxxxxxxxCC

3)CxCxxxxxxxxxxxxxxxx(x)xxxxxC(x)xxxxxxxxCxxxxxxxxxCC

CDP：C1C21-22C8-9C9C0C

图88的基序：

1)CxxnCxqCkxmxgxxfxgxxCaxsCxkxxGkxxPxC

2)CxxxCxxCxxxxxxxxxxxxCxxxCxxxxGxxxPxC

3)CxxxCxxCxxxxxxxxxxxxCxxxCxxxxxxxxxxC

CDP：C3C2C12C3C10C

图89的基序：

1)CxxxCxxCxxxxxxxxxxxnxxxCxleCxxxxxxxxxWxxC

2)CxxxCxxCxxxxxxxxxxxxxxxCxxxCxxxxxxxxxWxxC

3)CxxxCxxCxxxxxxxxxxxxxxxCxxxCxxxxxxxxxxxxC

CDP：C3C2C15C3C12C

图90的基序：

1)CdxxxxxsxCqmxxxxCxxaxxCxxxieeCktsxxexC

2)CxxxxxxxxCxxxxxxCxxxxxCxxxxxxCxxxxxxxC

CDP：C8C6C5C6C7

图91的基序：

1)CxGxdrPCxxCCPCCPGxxCxxxexxgxxyC

2)CxGxxxPCxxCCPCCPGxxCxxxxxxxxxxC

3)CxxxxxxCxxCCxCCxxxxCxxxxxxxxxxC

CDP：C6C2C0C1C4C10C

图92的基序：

1)CxxxxxxCCxxxxxxCxxxxxCxxxxxxCxxxC

2)CgxxxxyCCsxxgxyCxwxxvCyxsxxxCxkxC

3)CxxxxxxCCxxxxxxCxxxxxCxxxxxxCxxxC

CDP：C6C0C6C5C6C3C

图93的基序：

1)

CxxxxxCxxCxxxxxx(x)xCxWCxx(x)xxxCxxxx(xxxxxx)xCxxxx(xxxxxxxxx)xxxxxxC

2)

CxxxxxCxxCxxxxxx(x)xCxxCxx(x)xxxCxxxx(xxxxxx)xCxxxx(xxxxxxxxx)xxxxxxC

CDP：C5C2C7-8C2C5-6C5-11C10-19C

图95的基序：

1)CxxxxxxxRxxCgxxxitxxxCxxxgCCfdxxxxxxxwC

2)CxxxxxxxRxxCxxxxxxxxxCxxxxCCxxxxxxxxxxC

3)CxxxxxxxxxxCxxxxxxxxxCxxxxCCxxxxxxxxxxC

CDP：C10C9C4C0C10C

图96的基序：

1)CsvtCgxGxxxRxrxCxxxx(pxx)xxxxxCxxxxxx(xxx)xxxC(x)xxxxC

2)CxxxCxxGxxxRxxxCxxxx(xxx)xxxxxCxxxxxx(xxx)xxxC(x)xxxxC

3)CxxxCxxxxxxxxxxCxxxx(xxx)xxxxxCxxxxxx(xxx)xxxC(x)xxxxC

CDP：C3C10C9-12C9-12C4-5C

图97的基序：

1)CxxCxCxx(x)sxppxCxCxDxxxx(x)C

2)CxxCxCxx(x)xxxxxCxCxDxxxx(x)C

3)CxxCxCxx(x)xxxxxCxCxxxxxx(x)C

CDP：C2C1C7-8C1C6-7C

图99的基序：

1)CxxCGPxxxGxCxGPxiCCGxxxGCxxGxxxxxxCxxexxxxxPCxxxxxxCxxxxGxCxxxGxCCxxxxCxxdxxC

2)CxxCGPxxxGxCxGPxxCCGxxxGCxxGxxxxxxCxxxxxxxxPCxxxxxxCxxxxGxCxxxGxCCxxxxCxxxxxC

3)CxxCxxxxxxxCxxxxxCCxxxxxCxxxxxxxxxCxxxxxxxxxCxxxxxxCxxxxxxCxxxxxCCxxxxCxxxxxC

CDP：C2C7C5C0C5C9C9C6C6C5C0C4C5C

图101的基序：

1)CDCGxxxxC(xx)xxxCC(x)xxxxCxlxxxxxCx(xx)xgxCCx(x)xCxxxxxxxxCrxxxx(x)xCxxxxxCxGxxxxC

2)CDCGxxxxC(xx)xxxCC(x)xxxxCxxxxxxxCx(xx)xxxCCx(x)xCxxxxxxxxCxxxxx(x)xCxxxxxCxGxxxxC

3)CxCxxxxxC(xx)xxxCC(x)xxxxCxxxxxxxCx(xx)xxxCCx(x)xCxxxxxxxxCxxxxx(x)xCxxxxxCxxxxxxC

CDP：C1C5C3-5C0C4-5C7C4-6C0C1-3C8C6-7C5C6C

图102的基序：

1)CCxxxxgxxxCCPxxxxxCCxDxxHCCPxgxxCxxxxxxC

2)CCxxxxxxxxCCPxxxxxCCxDxxHCCPxxxxCxxxxxxC

3)CCxxxxxxxxCCxxxxxxCCxxxxxCCxxxxxCxxxxxxC

CDP：C0C8C0C6C0C5C0C5C6C

图104的基序：

1)帽(tCtxxxxCxxax)_n

2)帽(xCxxxxxCxxxx)_n

图105的基序：

1)Cxx(x)Cxx(xxxx)xxxxCxxxx(xxxx)xxxRCWxxxxxxCQxxxxxxCxxxCxx(x)xxCxxxxxxxCChxxCxggCx(xx)xPxx(x)xxCxaCxxfxxxgxCxxxCP

2)Cxx(x)Cxx(xxxx)xxxxCxxxx(xxxx)xxxRCWxxxxxxCQxxxxxxCxxxCxx(x)xxCxxxxxxxCCxxxCxgxCx(xx)xPxx(x)xxCxxCxxxxxxxxCxxxCP

3)Cxx(x)Cxx(xxxx)xxxxCxxxx(xxxx)xxxxCxxxxxxxCxxxxxxxCxxxCxx(x)xxCxxxxxxxCCxxxCxxxCx(xx)xxxx(x)xxCxxCxxxxxxxxCxxxC

图106的基序：

1)xxx[wyfl]xxxxCxCxCx

2)xxxxxxxxCxCxCx

图110的基序：

1)CxsxxxxxCxxxxxxx(xx)xxxxxCxx(x)xxxxCxxxxxx(x)xxxxrGCxxxxxxxxxxxCx(x)xxxxCxxCxxx(x)xCNxxxxxpxxxxxCxqCxgxxxxx[cx]xxxxxxlxxxxCxxxx(x)xxxxCyxxxxx(xxx)xxxxRGCxxxxxxxxx[cx]xdxxCxxC

2)CxxxxxxxCxxxxxxx(xx)xxxxxCxx(x)xxxxCxxxxxx(x)xxxxxGCxxxxxxxxxxxCx(x)xxxxCxxCxxx(x)xCNxxxxxxxxxxxCxxCxxxxxxx[cx]xxxxxxxxxxxCxxxx(x)xxxxCxxxxxx(xxx)xxxxRGCxxxxxxxxx[cx]xxxxCxxC

3)CxxxxxxxCxxxxxxx(xx)xxxxxCxx(x)xxxxCxxxxxx(x)xxxxxxCxxxxxxxxxxxCx(xxxxCxxCxxx(x)xCxxxxxxxxxxxxCxxCxxxxxxx[cx]xxxxxxxxxxxCxxxx(x)xxxxCxxxxxx(xxx)xxxxxxCxxxxxxxxx[cx]xxxxCxxC

图111的基序：

xxxxxxCxxxxxx(x)Ctxxx(xx)xg(x)xxCxxxxxxCxxyxxxxxCxxxx(xx)xxxxxCxWxxxx(x)xxCxxxx(xxxx)Cx

xxxxxxCxxxxxx(x)Cxxxx(xx)xx(x)xxCxxxxxxCxxxxxxxxCxxxx(xx)xxxxxCxWxxxx(x)xxCxxxx(xxxx)Cx

xxxxxxCxxxxxx(x)Cxxxx(xx)xx(x)xxCxxxxxxCxxxxxxxxCxxxx(xx)xxxxxCxxxxxx(x)xxCxxxx(xxxx)Cx

图113的基序：

1)nxCtxdxCxxxxgCxxxxxxCxxx

2)CxxxxCxxxxxCxxxxxxCxxx

CDP：C4C5C6C3

图114的基序：xxxx[cx]xxCxxx[Cx]xxCxxxCxxxx

图210的基序：xxCxxxCxxxCxx(x)xCxx CDP：2C3C3C3-4C2

图123的基序：

1)CtxxGxxxC(vilm)CxGxxxCGxGxxCxxxxxGxxnxC

2)CxxxGxxxCxCxGxxxCGxGxxCxxxxxGxxxxC

3)CxxxxxxxCxCxxxxxCxxxxxCxxxxxxxxxxC

CDP：C7C1C5C5C10C

图162的基序：

1)CxxxxCxxxxxCxxx(x)xxxxxxCx(x)CxxxCxxxxxx(x)xxxCxxdxxtyxxxCxxxxaxCxxxxxxxxxxxgxC

2)CxxxxCxxxxxCxxx(x)xxxxxxCx(x)CxxxCxxxxxx(x)xxxCxxxxxxxxxxCxxxxxxCxxxxxxxxxxxxxC

CDP：C4C5C9-10C1-2C3C9-10C10C6C13C

图13显示蛋白质中氨基酸的丰度图。

图17-18、74、84、94、98、100显示示例性序列的一级和二级结构。

图19和36显示各种无脊椎动物和植物蛋白质之间的序列比对。

图103显示颗粒体蛋白的序列和三级结构。

图107显示CXC基序重复部分。

图108显示VEGF C-末端结构域和巴尔比亚尼环(balbani ring)分泌蛋白质的序列。

图109显示含半胱氨酸的重复部分的推断结构。

图112和116显示示例性含半胱氨酸的重复蛋白质的序列。

图117显示示例性抗冻蛋白的结构。

图118显示半环扁尾蛇毒素(erabutoxin)的结构。

图119显示丛蛋白(plexin)的结构。

图120显示丛蛋白的序列。

图121显示生长调节素(somatometin)的结构。

图122显示按照分子量分离表达的微生物蛋白质的SDS-PAGE凝胶。

图124显示用于富含半胱氨酸的重复蛋白质的亲和力成熟方案。

图125显示颗粒体蛋白重复蛋白质的结构。

图126显示随机化方案。

图127显示抗冻蛋白衍生的重复蛋白质的结构和序列。

图128显示螺旋形重复蛋白质支架的设计。

图129显示重复蛋白质的亲和力成熟方案。

图130-132显示含半胱氨酸重复蛋白质的命名。

图133显示A-结构域衍生的重复蛋白质。

图134显示聚-三叶形(trefoil)支架。

图135显示多-丛蛋白支架。

图136显示微胶原支架。

图137-142、160显示各种亲和力成熟方案。

图143显示质粒环化和大引物(megaprimers)。

图144是疏水性图。

图145显示扩大含半胱氨酸小结构域的各种方法。

图146-147显示各种使用抗冻蛋白连接不同结构的方法。

图148显示设计文库的策略。

图149显示A-结构域结构。

图150是靶标诱导的微生物蛋白质折叠的示意图。

图151显示滤泡抑素(follistatin)结构域的结构组织和序列。

图152-153显示含半胱氨酸蛋白质的结构多样性。

图154-155显示通过二硫键穿梭改组(shuffling)的结构进化和天然含半胱氨酸蛋白质的进化。

图156显示508种含二硫键的蛋白质的家族。

图157显示不同整联蛋白之间的序列关系。

图158显示各种产物形式的比较。

图159显示各种微生物蛋白质产物形式。

图161显示降低免疫原性的机制。

图162示出了显示由大肠杆菌表达的各种支架的凝胶。

图163显示HLA-结合的组合降低。

图164显示各种TNFR家族微生物蛋白质的序列和结构

图165显示2-3-4集结(build-up)法。

图166显示预测的人和微生物蛋白质的MHCII结合亲和力。该图显示对5个主要HLA等位基因计算的每种蛋白质的得分分布。红色曲线：26,000种全长人蛋白质，长度中值为372个氨基酸。蓝色曲线：10,525种25-90个氨基酸(中值为38个氨基酸)的微生物蛋白质，含有至少10％的半胱氨酸和偶数个半胱氨酸，来自二硫键模式的数据库(22)。绿色曲线：26,000种与微生物蛋白质数据库的大小分布相匹配的人蛋白质片段。对于每种人蛋白质序列，我们随机产生了与从我们的微生物蛋白质数据库中随机选择的蛋白质的长度相匹配的片段。分析了5种在高加索人群中高频率存在的HLA等位基因(HLA*101、HLA*301、HLA*401、HLA*701、HLA*1501)的MHCII结合。使用基于TEPITOPE的MHCII结合矩阵。结合矩阵从程序ProPred中下载。TEPITOPE矩阵不含半胱氨酸残基的得分，而使用丙氨酸得分代替。对于每

蛋白质和每个HLA等位基因，我们鉴定了最高的TEPITOPE得分。通过减去所有人类蛋白质的最高得分的平均值使每个等位基因的数据标准化。

图167上图显示了氨基酸对于MHCII结合的亲和力贡献。TEPITOPE矩阵中所有非疏水性残基的P1得分从-999改变为-2，以阻止P1得分支配平均得分。氨基酸按照它们对于每个表位的平均得分排序。该图显示了5个最普遍的HLA等位基因(*101、*301、*401、*701、*1501)的平均秩。下图显示微生物蛋白质相对于人类蛋白质中氨基酸的相对丰度。使用图166中给出的序列计算人类蛋白质和微生物蛋白质的氨基酸丰度。数据显示脂肪族疏水性残基I、V、M、L对免疫原性具有最强的贡献，与平均人类蛋白质相比，在微生物蛋白质中最不能充分代表。因此按照如下从高到低的排列顺序减少高得分氨基酸的含量可以实现蛋白质免疫原性的降低：IVMLFYSNRAHQTGWKPED。

图168显示由噬菌体克隆表达的VEGF微生物蛋白质的ELISA结果，作为2-3-4集结法的证明。

图169显示在还原条件下微生物蛋白质的SDS-PAGE凝胶。第1道：生长调节素，第2道：丛蛋白，第3道：毒素B，第4道：马铃薯蛋白酶抑制剂，第5道：蜘蛛毒素，第6道：碱性磷酸酶对照，第9道：分子量标记。

图170显示氧化还原处理的文库和未处理的文库的比较。

1.引用参考

本说明书中提到的所有出版物和专利申请都为了所有目的在此引用作为参考，如同每一单独的出版物或专利申请具体且分别地在此引用作为参考。

2.发明详述

本说明书中提到的所有出版物和专利申请都为了所有目的在此引用作为参考，如同每一单独的出版物或专利申请为了所有目的具体且分别地在此引用作为参考。

本文显示和描述了本发明的优选实施方案，对于本领域技术人员显而易见的是，这些实施方案只是作为实例提供的。在不背离本发明的情况下，本领域技术人员可以想到大量变化、改变和替换。应当理解，本文所述的本发明实施方案的各种替代方案可以在本发明的实施中使用。

普通技术

除非另外说明，本发明的实施使用本领域公知的常规免疫学、生物化学、化学、分子生物学、微生物学、细胞生物学、基因组和重组DNA技术。参见Sambrook，Fritsch和Maniatis，MOLECULAR CLONING：A LABORATORYMANUAL，2^nd edition(1989)；CURRENT PROTOCOLS IN MOLECULARBIOLOGY(F.M.Ausubel，等人.eds.，(1987))；系列METHODS INENZYMOLOGY(Academic Press，Inc.)：PCR 2：A PRACTICAL APPROACH(M.J.MacPherson，B.D.Hames和G.R.Taylor eds.(1995))，Harlow和Lane，eds.(1988)ANTIBODIES，A LABORATORY MANUAL，和ANIMAL CELLCULTURE(R.I.Freshney，ed.(1987))。

定义

术语“蛋白质”是指任意长度的氨基酸的聚合体。这种聚合体可以是直链的也可以是支链的，可以包含修饰的氨基酸，并且可以被非氨基酸隔断。该术语也包括已经修饰的氨基酸聚合体；所述修饰例如是，二硫键形成、糖基化、脂化、乙酰化、磷酸化或任何其他操作，例如与标记成分偶联。本文使用的术语“氨基酸”是指天然和/或非天然的或合成的氨基酸，包括甘氨酸和D或L光学异构体，和氨基酸类似物和拟肽。蛋白质可以包含一个或多个结构域。

术语“结构域”是指一个稳定的三维结构，而无论大小如何。典型结构域的三级结构在溶液中稳定，并且无论这种成员是分离的还是与其他结构域共价融合的都保持在溶液中稳定。本文定义的结构域具有由二级结构元件如β-折叠、α-螺旋和无结构环的空间关系形成的特定三级结构。在微生物蛋白质家族的结构域中，二硫键通常是决定三级结构的主要元件。在一些情况中，结构域是可以提供特定功能活性的模块，所述功能活性如亲合性(对于同一靶标的多个结合位点)、多特异性(对于不同靶标的结合位点)、半衰期(使用结构域、环肽或线性肽)，它与血清蛋白质如人血清白蛋白(HSA)或IgG(hIgG1、2、3或4)或红细胞结合。

“环”是对与靶标相互作用的亲和力和特异性有贡献的半胱氨酸间序列，它们的氨基酸组成也影响蛋白质的溶解度，而溶解度对于高浓度制剂是非常重要的，例如用于口服、经肠、经皮、经鼻、经肺、血脑屏障、家庭注射和其他给药途径和形式的制剂。

术语“微生物蛋白质”是指SCPO数据库中的分类。微生物蛋白质通常是具有固定结构的最小的蛋白质，典型地但是并非必须地具有含两个二硫键的少至15个氨基酸，或者含10个以上二硫键的可达200个氨基酸。微生物蛋白质可含有一个或多个微生物蛋白质结构域。一些微生物蛋白质结构域或结构域家族可以具有多个程度不同地稳定的和多个程度不同地类似的由不同二硫键键合模式产生的结构，因此术语“稳定的”用来以相对的方式区别微生物蛋白质与肽和非微生物蛋白质结构域。大多数微生物蛋白质毒素由单个结构域组成，但是细胞表面受体微生物蛋白质通常具有多个结构域。微生物蛋白质也可以很小，因为它们的折叠通过二硫键和/或通过诸如钙、镁、锰、铜、锌、铁的离子或多种其他多价离子稳定，而不是通过典型的疏水核稳定。

术语“支架”是指在蛋白质文库构建中用作保守的共同序列的最小多肽“框架”或“基序”。在支架的固定的或保守的残基/位点之间有可变和超变位点。在可变区中固定支架残基之间提供非常多样化的氨基酸，以提供与靶分子的特异性结合。支架一般由在序列相关蛋白质家族比对中观察到的保守残基所限定。折叠或结构可能需要固定的残基，特别是在被比对的蛋白质的功能不同时。微生物蛋白质支架的全面描述可包括半胱氨酸的数目、位置或间距和键合模式，以及环中任何固定残基的位置和身份，包括对于诸如钙等离子的结合位点。

微生物蛋白质的“折叠”主要由二硫键的键模式(如，1-4，2-6，3-5)限定。该模式是拓扑学常数，在没有(例如)通过还原和氧化(氧化还原剂)连接并再连接二硫键的情况下，通常不适合转化为另外一种模式。通常，具有相关序列的天然蛋白质采取相同的二硫键键合模式。主要决定因素是半胱氨酸距离模式(CDP)和某些固定的非-cys残基，以及金属结合位点(如果存在的话)。在少数情况下，蛋白质的折叠也受周围序列(如前肽)的影响，在某些情况下，受允许蛋白质与帮助其折叠的二价金属离子(如Ca++)结合的残基的化学衍生化(如γ-羧基化)的影响。对于大多数微生物蛋白质来说，不需要这种折叠帮助。

然而，具有相同键合模式的蛋白质可能仍然包含多种折叠，这是基于其大小足以使蛋白质具有非常不同的结构的环的长度和组成的差异。例子包括芋螺毒素、环毒素(cyclotoxin)和anato结构域家族，它们具有相同的DBP，但是具有非常不同的CDP，因此被认为是不同的折叠。蛋白质折叠的决定因素是相对于不同折叠大大改变结构的任何属性，如半胱氨酸的数目和键合模式、半胱氨酸的间距、半胱氨酸间环的基序的差异(特别是折叠可能需要的固定的环残基)、或者钙(或其他金属或辅因子)结合位点的位置或组成。

术语“二硫键键合模式”或“DBP”是指半胱氨酸的连接模式，这些半胱氨酸从蛋白质的N-末端向C-末端编号为1-n。二硫键键合模式在拓扑学上是恒定的，意思是它们仅可以通过例如使用氧化还原条件解除一个或多个二硫键的连接而改变。可能的2-、3-和4-二硫键半胱氨酸合模式在下面第0048-0075段中列出。

术语“半胱氨酸距离模式”或“CDP”是指在线性蛋白质链上隔开半胱氨酸的非半胱氨酸氨基酸的数目。使用几种表示法：C5C0C3C等于C5CC3C等于CxxxxxCCxxxC。

术语“位置n6”或“n7＝4”是指半胱氨酸之间的环，“n6”被定义为C6和C7之间的环；“n7＝4”意思是C7和C8之间的环，长4个氨基酸，不计算半胱氨酸。

术语“还原解折叠”涉及折叠的蛋白质在还原剂(例如二硫苏糖醇)存在下的解折叠。“氧化再折叠”涉及在氧化剂存在下从完全解折叠的和还原状态折叠的途径。

术语“复杂的”是指半胱氨酸键合模式，其中在线性α链主链上平均被多个氨基酸位点隔开的半胱氨酸与半胱氨酸通过二硫键键合。“复杂性”被量化为二硫键跨过的总(积累)线性主链距离。例如，3-二硫键拓扑学的最大值是9(1-42-53-6＝3+3+3)，最小值是3(即，1-23-45-6)。复杂的模式由于长度多样性而可能具有更多不同的折叠，但是发生频率低于复杂性较低的模式。例如，对于模式1-42-53-6、1-62-43-5、1-52-43-6和1-42-63-5观察到数目最多的天然序列家族和刚性最高的结构。所有这些都是最复杂的模式(3-9等级的3SS蛋白质的复杂性得分为9)，表明更复杂的拓扑学可能能够产生更多不同的半胱氨酸间距，即更多的折叠。因此，消除或减少简单二硫键键合模式(如1-23-45-6)的频率预期将提高每种二硫键键合模式形成的折叠的平均数(即，非常不同的cys-间隔，如芋螺毒素相对于cyclotide相对于anato)。清除大多数简单键合模式的一种简单方法是使用少于约9个氨基酸的环长度，因为在天然蛋白质中，二硫键连接的cys残基之间的最小距离(称为“跨度”)通常是大约9个氨基酸。2SS蛋白质的复杂性范围为2-4，4SS蛋白质为4-16，5SS蛋白质为5-25。

术语二硫键的“跨度”是指连接的半胱氨酸之间的氨基酸距离，不包括半胱氨酸本身。平均跨度为10-14个氨基酸，优选约12个，如以下表1所示。可以利用使11-14个氨基酸多样性最大化的半胱氨酸间距来促进结构多样性，方法包括消除近侧的二硫键(在相邻的半胱氨酸之间形成的)，以及提供跨度为大约12个氨基酸(以及18、24个等)的半胱氨酸残基的大量组合。实例包括CX₆CX₆CX₆CX₆CX₆C(′3X6′)、CX₆CX₆CX₆CX₆CX₆CX₆CX₆C(′4X6′)、CX₅CX₅CX₅CX₅CX₅C(′3X5′)、CX₅CX₅CX₅CX₅CX₅CX₅CX₅C(′4X5′)、或具有5-6、4-7或3-8个氨基酸的环组合的类似基序。CX₆C和CX₅C通常太短而不能使两个相邻的半胱氨酸键合(最小跨度一般为大约9个氨基酸)，阻止了环肽结构的形成，有时称为“亚结构域”或“微结构域”，而通常不被认为是完整的结构域。一些示例性的二硫键跨度在下表中显示。

表1.二硫键跨度

术语“富含半胱氨酸的重复蛋白(CRRP)”是指典型地但是不是必须地具有单一多肽链并且包含特定保守氨基酸序列(“重复模式”或“重复基序”)的“重复单元”(也称为“模块”、“重复序列”或“构件”)的蛋白质，其半胱氨酸含量高于大约1％，优选高于大约5％，或者甚至10％。该家族在序列上与富含亮氨酸的重复蛋白无关，后者包括锚蛋白家族。CRRP单元彼此相互作用，产生一个独立于其他结构域折叠的大结构域。可以通过添加或删除重复单元来调节CRRP的大小。优选的重复蛋白包括但不限于相同基序的头尾重复序列，它们通常区别于被无关序列分隔的单重复序列。

本文使用的术语“药学上可接受的载体”包括任何标准药物载体，如磷酸盐缓冲液、水和乳剂，如油/水或水/油乳剂，和各种类型的湿润剂。组合物也可包含稳定剂和防腐剂，例如载体、稳定剂和佐剂，参见Martin，REMINGTON’S PHARM.SCI.，15th Ed.(Mack Publ.Co.，Easton(1975)。

“药物组合物”包括活性剂与惰性或活性载体的组合，使得该组合物适合体外、体内或离体的诊断或治疗用途。

术语“非天然存在的”当用于核酸或蛋白质时是指未在自然中发现的核酸或蛋白质。非天然存在的核酸和蛋白质的例子包括但不限于已经重组修饰的那些核酸和蛋白质。

含半胱氨酸的蛋白质和蛋白质文库的设计

如下所详述的，本发明的一个方面是产生具有大量结构多样性的蛋白质文库，人们从该文库中可以选择和发展具有所需性质的结合蛋白质，用于多种用途，包括但不限于治疗、预防、兽医、诊断、试剂或材料用途。

在一个实施方案中，本发明提供含半胱氨酸蛋白质文库，其具有至少2、3、4、5、10、30、100、300、1000、3000、10000种或更多的优选地在拓扑学上不同的不同结构。在某些实施方案中，含半胱氨酸蛋白质文库包含高二硫键密度(HDD)蛋白质。HDD家族的蛋白质典型地具有5-50％(5、6、7、8、9、10、12、14、16、18、20、25、30、35、40、45或50％)的半胱氨酸残基，并且每个结构域典型地含有至少两个二硫键和任选的辅因子如钙或另外一种离子。

HDD支架的存在允许这些蛋白质较小而仍然采取相对刚性的结构。刚性对于获得高结合亲和力、对蛋白酶(包括参与抗原加工的蛋白酶(蛋白酶的分类见下文))和热的耐受性而言是重要的，因此对这些蛋白质的低免疫原性或非免疫原性具有贡献。二硫键框架使蛋白质折叠不需要在大多数蛋白质内部有大量的疏水性侧链相互作用，后者被称为疏水核。所有非HDD支架都具有疏水核，疏水核是特异性或折叠问题的常见来源。HDD蛋白质倾向于比非HDD蛋白质疏水性更强，导致结合特异性提高。小尺寸对于快速的组织渗透以及对于替代递送如经口、经鼻、经肠、经肺、血脑屏障等递送也是有利的。另外，小尺寸也有助于降低免疫原性。较高的二硫键密度可以通过提高二硫键数目或通过使用具有相同二硫键数目但是较少氨基酸的结构域来获得。也希望减少非半胱氨酸固定残基的数目，以使较高百分比的氨基酸可以与靶标结合。

二硫键框架允许在半胱氨酸间环中在每个家族内具有极度的序列多样性。家族之间环的长度和半胱氨酸间距存在巨大的差异。由于二硫键形成的组合性质，二硫键框架允许形成大量不同的键合模式和不同的结构，并且因为折叠可以是不均一的，因此存在通过定向进化优化结构和序列的逐渐进化途径。特别预测HDD蛋白质具有使单序列采用多种不同稳定折叠的独特能力。

为了产生多种二硫键键合模式，文库可以经受可能有利于具有不同二硫键键合模式(DBP)的不同异构体的多种不同的条件。例如，可以利用溶剂的氧化还原电势，其取决于还原和氧化剂的相对浓度和强度，以实现不同DBP的形成。为了产生还原性溶剂，可以采用多种还原剂，包括但不限于2-巯基乙醇(β-巯基乙醇，BME)、2-巯基乙胺-HCl、TCEP(Tris(2-羧乙基)膦)、硼氢化钠、二硫苏糖醇(DTT，还原形式)、还原形式的谷胱甘肽(GSH)、还原形式的半胱氨酸。为了产生氧化性溶剂，可以使用多种氧化剂，包括但不限于二硫苏糖醇(DTT，氧化形式)、过氧化氢、谷胱甘肽(氧化形式，GSSG)、菲咯啉铜(氧化形式)、氧(空气)、痕量金属和氧化形式的半胱氨酸(胱氨酸)。

特别有用的是使蛋白质重复地形成和断裂二硫键的氧化还原剂的混合物和梯度，形成和断裂二硫键的速度足够快以允许采用多种二硫键键合模式和允许稳定形式随时间积累。如果希望DBP具有最大的多样性而不是稳定性，则可以阻止混合物成为平衡态。将有利于高结构多样性的条件(完全还原，高温度)突然改变为高度氧化的、低温条件，使得在不足的时间内形成结构，以找到最稳定的DBP。产生结构多样性的一种替代方法是在多样化的条件下缓慢形成二硫键，如不同的化学物质(如体积排除剂，如聚乙二醇，其加速与相距较远的半胱氨酸缓慢/困难地形成二硫键)、不同的溶剂(极性、非极性、醇)、不同的金属离子(Ca、Zn、Cu、Fe、Mg等)或不同的pH(pH1、2、3、4、5、6、7、8、9、10、11、12)。可以利用单独的或任意组合的这种多样化的条件制备采用多种替代折叠的相同的蛋白质序列。

二硫键的形成和/或辅因子的存在可以通过提供还原或氧化剂或通过加入辅因子而容易地控制。

蛋白质折叠为多种替代稳定结构的能力一般依赖于蛋白质内键合相互作用的数目和强度以及可以利用的折叠途径的性质。在不存在二硫键时，一般需要大量弱侧链接触(盐桥、范德华接触、疏水相互作用等)来获得稳定折叠的蛋白质。因此，为了引导不同的替代稳定折叠的形成或与靶标结合，许多残基需要修饰。相反，只要少量(例如两个或三个)二硫键就足以给予蛋白质稳定的结构，而使所有其他氨基酸位点(一般在65-80％左右)可用于产生针对所需靶标(在超过80％的情况中，芋螺毒素是最极端的例子)的结合表面。二硫键因此是一种低信息含量的构建方法(即，在随机序列中高频率发生)，使最高比例的氨基酸可用于结合和各种其他功能。

不含二硫键的大蛋白质的折叠途径和稳定性需要大量氨基酸侧链相互作用，致使高比例的残基必须或多或少地固定，因此蛋白质适应该序列的能力大大降低。该情况一般发生在较大的支架蛋白质如免疫球蛋白、纤连蛋白和脂质运载蛋白中，此时通常只有较少的CDR样环就可以被随机化，而不引起错折叠，对于蛋白质如含有疏水核的蛋白质来说，通常意味着不可逆的蛋白质聚集。通过一对突变引入的单二硫键可以接管大量氨基酸残基的结构功能，释放它们的序列而为不同目的进化，例如与所需的蛋白质靶标结合。甚至在非HDD蛋白质中，逐渐加入二硫键也可以在使蛋白质向提高的复杂性继续进化中起关键作用。半胱氨酸(C)似乎晚于20种生物氨基酸的所有组成成分添加，在蛋白质进化过程中半胱氨酸的频率显示逐渐升高。

另外，二硫键介导的折叠使蛋白质疏水性更强(因为它代替了疏水核)，而这种蛋白质的错折叠通常不导致不可逆的聚集，而是使蛋白质成为可溶的并且最终复性(renate)。

二硫键的独特特征是同一组半胱氨酸原则上可以通过多种替代二硫键键合模式连接，因为二硫键是组合的。例如，具有两个二硫键的蛋白质可能具有三种不同的二硫键键合模式(DBP)，具有三个二硫键的蛋白质可能具有

种不同的DBP，具有四个二硫键的蛋白质具有高达105种不同的DBP。所有2SS DBP、大多数3SS DBP和不到一半的4SS DBP存在天然例子。在一个方面，可以根据下式计算二硫键键合模式的总数：，

其中n＝半胱氨酸残基形成的预测的二硫键数，其中

代表(2i-1)的积，其中i是1-n的正整数。

因此，在一个实施方案中，本发明提供一种非天然存在的含半胱氨酸(C)支架，其显示针对靶标分子的结合特异性，其中该非天然存在的含半胱氨酸(C)支架按照选自以下通式表示的排列的模式包含支架内半胱氨酸，其中n等于预测的半胱氨酸残基形成的二硫键数目，

其中代表(2i-1)的积，其中i是1至n的正整数。在一个方面，非天然存在的含半胱氨酸(C)蛋白质包含具有两个二硫键的多肽，所述二硫键是通过多肽中所含的半胱氨酸按照选自C^1-2，3-4、C^1-3，2-4和C^1-4，2-3的模式配对而形成的，其中以连字符连接的两个数字表示从该多肽N-末端计数的哪两个半胱氨酸配对形成二硫键。在另一方面，非天然存在的含半胱氨酸(C)支架包含具有三个二硫键的多肽，所述二硫键是通过支架内半胱氨酸按照选自C^{1-2，3-4，5-6}、C^1-2， ^3-5，4-6、C^{1-2，3-6，4-5}、C^{1-3，2-4，5-6}、C^{1-3，2-5，4-6}、C^{1-3，2-6，4-5}、C^{1-4，2-3，5-6}、C^{1-4，2-6，3-5}、C^{1-5，2-3，4-6}、C^{1-5，2-4，3-6}、C^{1-5，2-6，3-4}、C^{1-6，2-3，4-5}和C^{1-6，2-5，3-4}的模式配对而形成的，其中以连字符连接的两个数字表示从该多肽N-末端计数的哪两个半胱氨酸配对形成二硫键。在另一方面，非天然存在的含半胱氨酸(C)蛋白质包含一种多肽非天然存在的含半胱氨酸(C)蛋白质，其显示针对靶标分子的结合特异性，包括具有至少四个二硫键的多肽，所述二硫键是通过多肽中所含的半胱氨酸按照选自上式所示排列的模式配对而形成的。在另一方面，非天然存在的含半胱氨酸(C)蛋白质包含具有至少五个二硫键的多肽，所述二硫键是通过蛋白质内半胱氨酸按照选自C^1-9、C^1-10、C^2-9、C^2-10、C^3-9、C^3-10、C^4-9、C^4-10、C^5-9、C^5-10、C^6-9、C^6-10、C^7-9、C^7-10、C^8-9、C^8-10和C^9-10的模式配对而形成的，其中以连字符连接的两个数字表示从该多肽N-末端计数的哪两个半胱氨酸配对形成二硫键。在另一方面，非天然存在的含半胱氨酸(C)蛋白质显示针对靶分子的结合特异

，包含具有至少六个二硫键的多肽，所述二硫键是通过蛋白质内半胱氨酸按照选自C^1-11、C^1-12、C^2-11、C^2-12、C^3-11、C^3-12、C^4-11、C^4-12、C^5-11、C^5-12、C^6-11、C^6-12、C^7-11、C^7-12、C^8-11、C^8-12和C^9-11、C^9-12、C^10-11、C^10-12和C^11-12的模式配对而形成的，其中以连字符连接的两个数字表示从该多肽N-末端计数的哪两个半胱氨酸配对形成二硫键。

一般所有半胱氨酸都参与与同一结构域中其他半胱氨酸的二硫键键合。具有两个二硫键(2SS)的微生物蛋白质可以采取三种不同的拓扑学不同的(即通过简单旋转不可互相转化的)二硫键键合模式：1-23-4、1-32-4或1-42-3，每个均具有不同的α链骨架结构。

类似地，具有三个二硫键的微生物蛋白质具有高达15种不同的二硫键键合模式，具有4个二硫键的微生物蛋白质具有高达105种不同的二硫键键合模式，具有5个二硫键的微生物蛋白质具有高达945种不同的二硫键键合模式，具有6个二硫键的微生物蛋白质可具有高达10,395种二硫键键合模式，具有7个二硫键的蛋白质可具有高达135,135种不同的键合模式，对于更高的二硫键数同样如此(倍数为3、5、7、9、11、13倍)。下面列出了具有两个、三个或四个二硫键的蛋白质的二硫键键合模式(DBP)。

2SS蛋白质的3种DBP模式是：

1-2 3-4，1-3 2-4，1-4 2-3

3SS蛋白质的15种DBP是：

1-6 2-5 3-4，1-4 2-5 3-6，1-6 2-4 3-5，1-5 2-6 3-4，1-5 2-4 3-6，1-4 2-6 3-5，

1-2 3-4 5-6，1-2 3-5 4-6，1-2 3-6 4-5，1-6 2-3 4-5，1-4 2-3 5-6，1-5 2-3 4-6，

1-3 2-6 4-5，1-3 2-4 5-6，1-3 2-5 4-6。

4SS蛋白质的105种DBP是：

1-2 3-4 5-6 7-8 1-2 3-4 5-7 6-8 1-2 3-4 5-8 6-7 1-2 3-5 4-6 7-8 1-2 3-5 4-7 6-8 1-2 3-5 4-8 6-7

1-2 3-6 4-5 7-8 1-2 3-6 4-7 5-8 1-2 3-6 4-8 5-7 1-2 3-7 4-5 6-8 1-2 3-7 4-6 5-8 1-2 3-7 4-8 5-6 1-23-8 4-5 6-7 1-2 3-8 4-6 5-7 1-2 3-8 4-7 5-6 1-3 2-4 5-6 7-8 1-3 2-4 5-7 6-8 1-3 2-4 5-8 6-7

1-3 2-5 4-6 7-8 1-3 2-5 4-7 6-8 1-3 2-5 4-8 6-7 1-3 2-6 4-5 7-8 1-3 2-6 4-7 5-8 1-3 2-6 4-85-7

1-3 2-7 4-5 6-8 1-3 2-7 4-6 5-8 1-3 2-7 4-8 5-6 1-3 2-8 4-5 6-7 1-3 2-8 4-6 5-7 1-3 2-8 4-75-6

1-4 2-3 5-6 7-8 1-4 2-3 5-7 6-8 1-4 2-3 5-8 6-7 1-4 2-5 3-6 7-8 1-4 2-5 3-7 6-8 1-4 2-5 3-86-7

1-4 2-6 3-5 7-8 1-4 2-6 3-7 5-8 1-4 2-6 3-8 5-7 1-4 2-7 3-5 6-8 1-4 2-7 3-6 5-8 1-4 2-7 3-85-6

1-4 2-8 3-5 6-7 1-4 2-8 3-6 5-8 1-4 2-8 3-7 5-6 1-5 2-3 4-6 7-8 1-5 2-3 4-7 6-8 1-5 2-3 4-86-7

1-5 2-4 3-6 7-8 1-5 2-4 3-7 6-8 1-5 2-4 3-8 6-7 1-5 2-6 3-4 7-8 1-5 2-6 3-7 4-8 1-5 2-6 3-84-7

1-5 2-7 3-4 6-8 1-5 2-7 3-6 4-8 1-5 2-7 3-8 4-6 1-5 2-8 3-4 4-7 1-5 2-8 3-6 4-7 1-5 2-8 3-74-6

1-6 2-3 4-5 7-8 1-6 2-3 4-7 5-8 1-6 2-3 4-8 5-7 1-6 2-4 3-5 7-8 1-6 2-4 3-7 5-8 1-6 2-4 3-85-7

1-6 2-5 3-4 7-8 1-6 2-5 3-7 4-8 1-6 2-5 3-8 4-7 1-6 2-7 3-4 5-8 1-6 2-7 3-5 4-8 1-6 2-7 3-84-5

1-6 2-8 3-4 5-7 1-6 2-8 3-5 4-7 1-6 2-8 3-7 4-5 1-7 2-3 4-5 6-8 1-7 2-3 4-6 5-8 1-7 2-3 4-85-6

1-7 2-4 3-5 6-8 1-7 2-4 3-6 5-8 1-7 2-4 3-8 5-6 1-7 2-5 3-4 6-8 1-7 2-5 3-6 4-8 1-7 2-5 3-84-6

1-7 2-6 3-4 5-8 1-7 2-6 3-5 4-8 1-7 2-6 3-8 4-5 1-7 2-8 3-4 5-6 1-7 2-8 3-5 4-6 1-7 2-8 3-64-5

1-8 2-3 4-5 6-7 1-8 2-3 4-6 5-7 1-8 2-3 4-7 5-6 1-8 2-4 3-5 6-7 1-8 2-4 3-6 5-7 1-8 2-4 3-75-6

1-8 2-5 3-4 6-7 1-8 2-5 3-6 4-7 1-8 2-5 3-7 4-6 1-8 2-6 3-4 5-7 1-8 2-6 3-5 4-7 1-8 2-6 3-74-5

1-8 2-7 3-4 5-6 1-8 2-7 3-5 4-6 1-8 2-7 3-6 4-5。

大的低半胱氨酸蛋白质需要广泛的二级、三级乃至四级结构，防止替代二硫键键合模式介导的替代折叠的形成。在微生物蛋白质中只有很少的或者没有除二硫键诱导的结构以外的二级或三级结构，半胱氨酸间环序列(一级结构)在氨基酸组成中的变化性特别大。微生物蛋白质因此比其他蛋白质更可能具有足够的序列灵活性，以使它们采取多种不同的键合模式。

少量的半胱氨酸能够提供高多样性的完全不同的拓扑学结构，意味着它们如果不断裂二硫键就不能互相转变。这些结构的获得对环一般没有序列要求或者只有最小的要求，使环序列可用于产生对特定靶标的结合特异性和亲和力。特定蛋白质序列可能显示对某些折叠比对其他折叠有强烈的偏好，可能根本不能采用某些折叠。从天然微生物蛋白质家族的基序来看，半胱氨酸的间距可能对DBP有贡献，非cys环残基具有较少的贡献。高二硫键密度蛋白质中半胱氨酸环的平均长度范围对于最优选的支架为大约0到大约10，对于大多数支架为大约3至大约15个氨基酸，这提供了从某些支架的大约50％到25％-20％(最优选的)到15％-10％(次优选的)乃至5％的高密度的半胱氨酸，它们均大大高于平均蛋白质中半胱氨酸的密度，后者仅为0.8％。如果希望，工程化紧密靠近的半胱氨酸，使二硫键有效且正确地形成。有效的键形成允许多个循环的最弱键断裂和新键再形成，逐渐导致最稳定的键合蛋白质的积累。大蛋白质中半胱氨酸的低密度似乎引起无效的、因此可能不正确的二硫键形成。

预期不同的二硫键键合模式在对温度和蛋白酶的稳定性上不同。因此，本发明提供一种非天然存在的含半胱氨酸(C)支架，其(a)能够与靶分子结合，(b)具有至少两个通过支架内半胱氨酸配对形成的二硫键，和(c)在加热到高于大约50℃、优选高于大约80℃、或者甚至高于大约100℃的温度持续从0.01秒到10秒的特定时间后显示靶标结合能力。如果希望，非天然存在的含半胱氨酸(C)支架可以设计为含有至少三个、四个、五个、六个、七个、八个、九个、十个、十一个、十二个或更多的通过支架内半胱氨酸配对形成的二硫键。

更加高度交联(例如具有高度复杂性数字)的蛋白质预期比可以形成“亚

构域”、含有一个或两个二硫键、但是可以相对于蛋白质的其他部分自由旋转的蛋白质更稳定。当涉及线性肽时，较高的稳定性与二硫键的(累积)长度(称为折叠的“复杂性”)有关，并且与采用线性肽序列的DBP图中二硫键彼此相交的次数有关。然而，不同的二硫键键合模式预期以不同的产量形成，最少地表示了大多数交联的形式。对于半胱氨酸接近性推动二硫键形成，相邻半胱氨酸之间的二硫键最可能发生，而且稳定性前景最不乐观，因为它们形成微或亚结构域。

相应地，在一些实施方案中，本发明提供具有非天然存在的含半胱氨酸(C)蛋白质的蛋白质文库，每个蛋白质含有不超过35个氨基酸，其中多肽中至少10％的氨基酸是半胱氨酸，通过支架内半胱氨酸配对形成至少两个二硫键，并且其中配对产生大于3的复杂性指数。在其他一些实施方案中，本发明提供具有非天然存在的含半胱氨酸(C)蛋白质的蛋白质文库，每个蛋白质含有不超过大约60个氨基酸，其中多肽中至少10％的氨基酸是半胱氨酸，通过多肽中所含的半胱氨酸配对形成至少四个二硫键，并且其中配对产生大于4、6或10的复杂性指数。

在某些方面，所述微生物蛋白质可以显示针对特定靶标的皮摩尔的活性，并且对加热(甚至煮沸)和蛋白酶具有高度的耐受性。在其他方面，所述微生物蛋白质倾向于高度疏水性，并且倾向于每个结构域具有两个不同的结合面(双面)。

尽管每种二硫键键合模式在理论上与宽范围的不同半胱氨酸间距相匹配，但是一些间隔模式与特定键合模式比与另外一种半胱氨酸间隔模式更相匹配。在天然序列中，有多种主要的半胱氨酸间隔模式与每种二硫键键合模式有关。例如，芋螺毒素、cyclotide和anato家族(认为是不同的折叠)具有非常不同的半胱氨酸间距，但是具有相同的二硫键键合模式。因此，半胱氨酸间距主要决定二硫键键合模式的频率分布，CDP的设计是控制和进化DBP和结构的一种实用方法。半胱氨酸的间距决定它们的半胱氨酸间环的长度，很大程度上决定蛋白质的“折叠”。属于同一序列家族的蛋白质具有相同的支架序列或支架基序，该基序包括所有高度保守的氨基酸位点和它们的主要

距，它们一般被认为具有相同的“折叠”。

本发明的微生物蛋白质可以是单体、二聚体、三聚体或更高的多聚体。多结构域微生物蛋白质可以是同型多聚体，或者它们可以是异源多聚体，其中结构域在二硫键数目、二硫键键合模式、结构、折叠、序列或支架上不同。本发明的微生物蛋白质可以与多种不同的结构融合，包括多种不同长度、氨基酸组成和功能的肽(线性的或环形的)。每个结构域可以具有一个或多个针对不同靶标的结合表面(例如双面)，类似于或者区别于许多天然毒素。

本发明还提供具有单一蛋白质链的非天然存在的微生物蛋白质，所述蛋白质链包含一个或多个结构域和任选的一个或多个(线性或环形)肽。通常每个结构域分别折叠并起作用。微生物蛋白质结构域具有高二硫键密度谋“支架”，后者主要决定结构域的大小、它对温度和蛋白酶的稳定性和它在大肠杆菌中的表达水平(因此决定生产成本)。预期支架在决定蛋白质的免疫原性中起重要作用。支架包含4、6、8、10、12、14、16、18个或更多的半胱氨酸，这些半胱氨酸在同一结构域内形成2、3、4、5、6、7、8个或更多的二硫键。

一些优选的改善了多种性质的特异性3-二硫键支架有芋螺毒素(总共29个氨基酸，7个固定的氨基酸，没有Ca位点，由于1-42-53-6二硫键键合模式而为刚性结构)、cyclotides(总共24个氨基酸，10个固定的氨基酸，没有Ca位点，刚性1-42-53-6结构)、Anato支架(总共37个氨基酸，10个固定的氨基酸，没有Ca位点，刚性1-42-53-6二硫键键合模式)、防卫素1支架(总共29个氨基酸，10个固定的氨基酸，没有Ca位点，刚性1-62-43-5键合模式)、毒素2支架(总共29个氨基酸，10个固定的氨基酸，没有Ca位点，刚性1-42-63-5二硫键键合支架)，但是多种其他存在的和新型的支架也具有特别的优点。其他优选的支架有纤维素结合结构域(CB，CEB)，它是Pfam家族PF00734，具有173个成员，长度为26个氨基酸(从第一个到最后一个Cys)，有4个半胱氨酸连接的1-32-4，CDP为C10C5C9C；α-芋螺毒素(AC)，它是家族PF07365，具有25个成员，长度为15个氨基酸，4个半胱氨酸连接的1-32-4，CDP为C0C4C8C；ω-毒素样(OT)，它是家族PF00451，具有68个成员，长度为28个氨基酸，具有6个半胱氨酸连接的1-4 2-5 3-6，CDP为C5C3C10C4C1C；Pacifastin(PC)，它是家族PF05375，具有39个成员，长度为29个氨基酸，具有6个半胱氨酸连接的1-4 2-6-5，CDP为C9C2C1C8C4C；丝氨酸蛋白酶抑制剂(SP)，它是家族PF00299，具有35个成员，长度为26个氨基酸，具有6个半胱氨酸连接的1-42-53-6，CDP为C6C5C3C1C6C；Notch(NO)，它是家族PF00066，具有175个成员，长度为33个氨基酸，具有6个半胱氨酸连接的1-52-43-6，CDP为C7C8C3C4C6C；三叶形(Trefoil，TR)，它是家族PF00088，具有126个成员，长度为39个氨基酸，具有6个半胱氨酸连接的1-52-43-6，CDP为C10C10C4C0C10C；TNF-受体-样(TN)，它是家族PF01821，具有123个成员，长度为42个氨基酸，具有6个半胱氨酸连接的1-23-54-6，CDP为C14C2C2C11C7C；过敏毒素样(AT)，它是家族PF01821，具有123个成员，长度为37个氨基酸，具有6个半胱氨酸连接的1-42-53-6，CDP为

5C2C8C2C5C1C；丛蛋白(PL)，它是家族PF01437，具有410个成员，长度为61个氨基酸，具有8个半胱氨酸连接的1-42-83-64-7，CDP为C5C2C8C2C5C12C19C；其他优选的支架有三指毒素(TF)，其长度大约为58个氨基酸(第一个到最后一个cys)，具有8个半胱氨酸连接的1-32-45-67-8，CDP为C13C6C16C1C10C0C4C；生长调节素，其长度为35个氨基酸，具有8个半胱氨酸连接的1-23-45-67-8(注意替代DBP是已知的)，CDP为C3C9C1C3C5C0C6C；马铃薯蛋白酶抑制剂(PI)，其长度为47个氨基酸，具有8个半胱氨酸，CDP为C3C8C11C2C0C5C10C；壳多糖结合结构域(CHB)，其长度为37个氨基酸，具有8个半胱氨酸连接的1-42-53-67-8，CDP为C5C2C8C2C5C12C19C；蜘蛛毒素(ST)，其长度为34个氨基酸，具有6个半胱氨酸，CDP为C6C6C0C4C6C；毒素B(TB)，其长度为34个氨基酸，具有6个半胱氨酸，CDP为C6C5C0C3C8C；纤维素结合结构域(CEB)，其长度为26个氨基酸，具有4个半胱氨酸连接的1-3 2-4，CDP为C10C5C9C；α-芋螺毒素(AC)，其长度为15个氨基酸，具有4个半胱氨酸连接的1-3 2-4，CDP为C0C4C8C；

本发明的非天然存在的微生物蛋白质可以基于天然蛋白质序列而设计。例如，大量天然蛋白质或其中所含的结构域具有用作支架蛋白质的有吸引力的特征。非限定性的实例在表2中列出。

表2

蛋白质家族	该家族中其他示例性的成员
蛋白质家族	该家族中其他示例性的成员	胰岛素样
毒性发夹	热稳定的肠毒素，神经毒素B-IV	胰岛素样
毒性发夹	热稳定的肠毒素，神经毒素B-IV	Knottins	植物凝集素，抗微生物肽(橡胶素-样凝集素(凝集素)结构域)，抗微生物肽2，AC-AMP2)
植物蛋白酶和淀粉酶抑制剂	胰蛋白酶抑制剂，羧肽酶A抑制剂，α-淀粉酶抑制剂	Knottins	植物凝集素，抗微生物肽(橡胶素-样凝集素(凝集素)结构域)，抗微生物肽2，AC-AMP2)
植物蛋白酶和淀粉酶抑制剂	胰蛋白酶抑制剂，羧肽酶A抑制剂，α-淀粉酶抑制剂	Cyclotides	Kalata B1，Cycloviolacin O1，环杆菌素A，Palicourein
Gurmarin-样		Cyclotides	Kalata B1，Cycloviolacin O1，环杆菌素A，Palicourein
Gurmarin-样		野灰蛋白-相关蛋白
ω-毒素-样	芋螺毒素，蜘蛛毒素，昆虫毒素，白蛋白1	野灰蛋白-相关蛋白
ω-毒素-样	芋螺毒素，蜘蛛毒素，昆虫毒素，白蛋白1	蝎毒素-样	长链蝎毒素(蝎毒素，α毒素，Tx10α-样毒素，LQH III α-样毒素)短链蝎毒素，防卫素MGD-1，昆虫防卫素，植物防卫素
纤维素结合结构域	纤维二糖水解酶I	蝎毒素-样

生长因子受体结构域	胰岛素样生长因子结合蛋白-5IGFBP-5，1型胰岛素样生长因子受体Cys-富含结构域，受体蛋白质-酪氨酸激酶Erbb-3Cys-富含结构域，EGF受体Cys-富含结构域，原癌蛋白Her2胞外域
生长因子受体结构域		共脂肪酶-样	(原)共脂肪酶肠毒素1
EGF/层粘连蛋白	EGF-型模块(因子IX，凝固因子VIIa，E-选择素，因子X，N-末端模块，激活蛋白C(自凝血酶原IIa)，前列腺素H2合酶-1，EGF-样模块，P-选择素，表皮生长因子(EGF)，转化生长因子α，表皮调节素，EGF-结构域，Betacellulin-2，肝素-结合表皮生长因子HBEGF，纤溶酶原激活物(尿激酶型)，调蛋白α，EGF结构域，血栓调节蛋白，微纤维蛋白-1，与丝氨酸蛋白酶结合的甘露糖-结合蛋白2，补体C1S，补体蛋白酶C1R，纤溶酶原激活物(组织型)(tPA)，低密度脂蛋白(LDL)受体)整联蛋白βEGF-样结构域，巢蛋白-1的EGF-样结构域，层粘连蛋白-型模块，层粘连蛋白γ1链，卵泡抑素模块N-末端结构域FS-N，BM-40/SPARC/骨粘连蛋白的结构域，卵泡抑素的结构域，裂殖子表面蛋白1(MSP-1)	共脂肪酶-样	(原)共脂肪酶肠毒素1
EGF/层粘连蛋白		菠萝蛋白酶抑制剂VI(半胱氨酸蛋白酶抑制剂)
Bowman-Birk抑制剂		菠萝蛋白酶抑制剂VI(半胱氨酸蛋白酶抑制剂)
Bowman-Birk抑制剂		弹力素-样	弹力素，弹性酶特定性抑制剂，Nawaprin
水蛭抗止血蛋白质	Huristasin-样，水蛭素-样	弹力素-样	弹力素，弹性酶特定性抑制剂，Nawaprin
水蛭抗止血蛋白质	Huristasin-样，水蛭素-样	颗粒体蛋白重复部分	颗粒体蛋白-1的N-末端结构域，Oryzainβ链

饱因子CART(可卡因和苯丙胺调节的转录物)
饱因子CART(可卡因和苯丙胺调节的转录物)		DPY模块	Dumpy
Bubble蛋白		DPY模块	Dumpy
Bubble蛋白		PMP抑制剂
1型TSP-1重复	凝血酶敏感蛋白-1	PMP抑制剂
1型TSP-1重复	凝血酶敏感蛋白-1	AmbV
蛇毒素样	蛇毒素(半环扁尾蛇毒素B，γ-心脏毒素，Faciculin，毒蕈碱性毒素，半环扁尾蛇毒素A，神经毒素I，心脏毒素V4II(毒素III)，心脏毒素V，α-眼镜蛇毒素，长神经毒素1，FS2毒素，银环蛇毒素，Bucandin，心脏毒素CTXI，心脏毒素CTX IIB，心脏毒素II，心脏毒素III，心脏毒素IV，眼镜蛇毒素2，α-毒素，神经毒素II(眼镜蛇毒素B)，毒素B(长神经毒素)，Candotoxin，Bucain)Dendroaspin	AmbV
蛇毒素样		BPTI-样
(人)细胞表面受体的胞外域	CD59，II型激活素受体，BMP受体Ia外功能区，TGF-βII型受体胞外域	BPTI-样
(人)细胞表面受体的胞外域	CD59，II型激活素受体，BMP受体Ia外功能区，TGF-βII型受体胞外域	防卫素-样	防卫素，防卫素2，肌毒素
含有结构域-样的发夹环	APPLE结构域	防卫素-样	防卫素，防卫素2，肌毒素
含有结构域-样的发夹环	APPLE结构域	神经毒素III(ATXIII)
LDL-受体-样模块		神经毒素III(ATXIII)
LDL-受体-样模块		花菜蛋白-样
Kringle-样	Kringle模块，II型纤连蛋白	花菜蛋白-样
Kringle-样	Kringle模块，II型纤连蛋白	Kazal-型丝氨酸蛋白酶抑制剂
植物蛋白酶抑制剂		Kazal-型丝氨酸蛋白酶抑制剂

Trefoil/丛蛋白结构域-样	Trefoil，丛蛋白
Trefoil/丛蛋白结构域-样	Trefoil，丛蛋白	坏死诱导蛋白1，NIP1
胱氨酸结细胞因子	PDGF-样，TGF-β-样，Noggin，家庭经营营养蛋白，促性腺素/促滤泡素，白介素17F，凝固蛋白原，	坏死诱导蛋白1，NIP1
胱氨酸结细胞因子	PDGF-样，TGF-β-样，Noggin，家庭经营营养蛋白，促性腺素/促滤泡素，白介素17F，凝固蛋白原，	补体控制模块，SCR结构域	CD46，β2-糖蛋白，补体受体1，2(cr1，cr2)，补体C1R和C1S蛋白酶结构域，MASP-2
海葵毒素k		补体控制模块，SCR结构域	CD46，β2-糖蛋白，补体受体1，2(cr1，cr2)，补体C1R和C1S蛋白酶结构域，MASP-2
海葵毒素k		血液凝结抑制剂(分解素)	锯鳞血抑肽，Flavoridin，蝮蛇毒素，Obtustatin，Salmosin，Schistatin
甲胺脱氢酶，L链		血液凝结抑制剂(分解素)	锯鳞血抑肽，Flavoridin，蝮蛇毒素，Obtustatin，Salmosin，Schistatin
甲胺脱氢酶，L链		丝氨酸蛋白酶抑制剂	ATI-样，BSTI-样
TB-模块/8-cys结构域	微纤维蛋白，TGFb-结合蛋白-1	丝氨酸蛋白酶抑制剂	ATI-样，BSTI-样
TB-模块/8-cys结构域	微纤维蛋白，TGFb-结合蛋白-1	TNF受体样	TGF-R，NGF-R，BAFF-受体
来自血管内皮生长因子的肝素结合结构域		TNF受体样	TGF-R，NGF-R，BAFF-受体
来自血管内皮生长因子的肝素结合结构域		抗真菌蛋白质(AGAFP)
I型纤连蛋白模块	纤连蛋白，组织型纤溶酶原激活物，t-PA	抗真菌蛋白质(AGAFP)
I型纤连蛋白模块	纤连蛋白，组织型纤溶酶原激活物，t-PA	I型甲状腺球蛋白结构域
X型纤维素结合结构域，CBDX		I型甲状腺球蛋白结构域
X型纤维素结合结构域，CBDX		纤维素停靠结构域，停靠
羧肽酶抑制剂		纤维素停靠结构域，停靠
羧肽酶抑制剂		无脊椎动物壳多糖结合蛋白
信息素ER-23		无脊椎动物壳多糖结合蛋白
信息素ER-23		软体动物信息素
激素受体抗原		软体动物信息素
激素受体抗原		生长调节素B结构域

Notch结构域
Notch结构域		小胶原I，C-末端结构域
激素受体结构域(HRM)		小胶原I，C-末端结构域
激素受体结构域(HRM)		抵抗素
YAP1氧化还原结构域		抵抗素
YAP1氧化还原结构域		GLA结构域
胆囊收缩素A受体N-结构域		GLA结构域
胆囊收缩素A受体N-结构域		HIV-1 VPU胞质域
HIPIP(高效铁蛋白)		HIV-1 VPU胞质域
HIPIP(高效铁蛋白)		铁氧还蛋白硫氧还蛋白还原酶(FTR)，催化性(链
C2H2和C2HC锌指		铁氧还蛋白硫氧还蛋白还原酶(FTR)，催化性(链
C2H2和C2HC锌指		Zn2/Cys6 DNA-结合结构域
糖皮质激素受体样		Zn2/Cys6 DNA-结合结构域
糖皮质激素受体样		SBT结构域
逆转录病毒锌指样结构域s		SBT结构域
逆转录病毒锌指样结构域s		红素氧还蛋白-样
核糖体蛋白质L36		红素氧还蛋白-样
核糖体蛋白质L36		翻译起始因子2β的锌结合结构域
B-盒锌结合结构域		翻译起始因子2β的锌结合结构域
B-盒锌结合结构域		RING/U-盒
Pyk2-结合的蛋白质βARF-GAP结构域		RING/U-盒
Pyk2-结合的蛋白质βARF-GAP结构域		金属硫蛋白
酵母铜调节的转录因子中保守的锌结构域		金属硫蛋白
酵母铜调节的转录因子中保守的锌结构域		Ada DNA修复结构域

半胱氨酸富含结构域
半胱氨酸富含结构域		FYVE/PHD锌指
ADDBP的Zn-结合结构域		FYVE/PHD锌指
ADDBP的Zn-结合结构域		凋亡(IAP)重复序列的抑制剂
CCCH锌指		凋亡(IAP)重复序列的抑制剂
CCCH锌指		DNA聚合酶α的锌指结构域
TAZ结构域		DNA聚合酶α的锌指结构域
TAZ结构域		富含半胱氨酸的DNA结合结构域(DM)
DnaJ/Hsp40半胱氨酸富含结构域		富含半胱氨酸的DNA结合结构域(DM)
DnaJ/Hsp40半胱氨酸富含结构域		CCHHC结构域
SecC基序		CCHHC结构域
SecC基序		TSP 3型重复序列

蛋白酶抗性微生物蛋白质的设计在使免疫原性最小化方面是重要的。许多天然微生物蛋白质是蛋白酶抑制剂。参见，Rao，M.B.等人.(1998)Molecularand Biotechnological Aspects of Microbial Proteases.Microbiol Mol Biol Rev.62(3)：597-635。根据国际生物化学和分子生物学联合会命名委员会(NomenclatureCommittee of the International Union of Biochemistry and Molecular Biology)的标准，蛋白酶被分入第3组中的第4亚组(水解酶类)。然而，蛋白酶并不容易遵循酶命名法的通常体系，因为它们的作用和结构具有巨大的多样性。当前，蛋白酶基于三个主要标准分类：(i)被催化的反应的类型，(ii)催化部位的化学性质，和(iii)关于结构的进化关系。

蛋白酶根据作用部位再分为两个主要的组，即，外肽酶和内肽酶。外肽酶切割靠近底物氨基或羧基末端的肽键，而内肽酶切割远离底物末端的肽键。基于活性部位处存在的官能团，蛋白酶进一步分类为4个主要的组，即，丝氨酸蛋白酶、天冬氨酸蛋白酶、半胱氨酸蛋白酶和金属蛋白酶。有少数混合蛋白酶不能被精确地进行标准分类，例如其活性需要ATP的ATP-依赖性蛋白酶。基于它们的氨基酸序列，蛋白酶被分类为不同的家族，并进一步再分类为“宗族(clans)”，以适应来自共同祖先分支的肽酶组。给每个肽酶家族分配一个表示催化类型的代码字母，例如，对于丝氨酸、半胱氨酸、天冬氨酸、金属或未知类型的分别为S、C、A、M或U。

外肽酶：外肽酶只在多肽链末端附近起作用。基于它们的作用部位是在N端还是在C末端，它们分别被分类为氨肽酶和羧肽酶。

氨肽酶：氨肽酶在多肽链的游离N末端作用，释放单个氨基酸残基、二肽或三肽。

羧肽酶：羧肽酶在多肽链的游离C末端作用，释放单个氨基酸残基或二肽。基于酶活性位点处氨基酸残基的性质，羧肽酶可以被分为三个主要的类

：丝氨酸羧肽酶、金属羧肽酶和半胱氨酸羧肽酶。

内肽酶：内肽酶的特征在于它们优先在远离N和C末端的多肽链内部区域中的肽键处作用。游离氨基或羧基的存在对酶活性具有不利影响。内肽酶基于催化机制分为四个亚类：(i)丝氨酸蛋白酶，(ii)天冬氨酸蛋白酶，(iii)半胱氨酸蛋白酶，和(iv)金属蛋白酶。

人类蛋白酶：组织蛋白酶B、C、H、L、S、V、X/Z/P和1是木瓜蛋白酶家族的半胱氨酸蛋白酶。已知组织蛋白酶L和组织蛋白酶S参与抗原呈递细胞中的抗原加工。组织蛋白酶C也被称为DPPI(二肽酰-肽酶I)。组织蛋白酶A是丝氨酸羧肽酶，组织蛋白酶D和E是天冬氨酸蛋白酶。作为溶酶体蛋白酶，组织蛋白酶在蛋白质降解中起重要作用。由于它们在人类和动物肿瘤中的再分布或水平升高，组织蛋白酶可能在侵袭和转移中起作用。组织蛋白酶合成为无活性的酶原，并且加工为成熟的活性酶。内源蛋白质抑制剂，如半胱氨酸蛋白酶抑制剂和一些丝氨酸蛋白酶抑制剂，抑制活性酶。其他组织蛋白酶有组织蛋白酶G、D和E。

人们可以改造对其具有抗性的蛋白质药物的其他人类蛋白酶有纤溶酶、糜蛋白酶、胰蛋白酶、羧肽酶A、羧肽酶B、脂肪细胞蛋白酶/因子D、激肽释放酶、人蛋白酶3(Sigma)、凝血酶。

另外，天然存在的HDD蛋白质可以用于设计本发明的微生物蛋白质。天然HDD蛋白质包括多种动物细胞表面受体蛋白质家族，以及防御(即摄取)和攻击(可注射的)动物毒素，例如蛇、蜘蛛、蝎子、螺和海葵的毒蛋白。这些蛋白质类别共同的是它们位于宿主-环境/病原体界面处。此处所述的这些和任何其他天然蛋白质作为示例性的支架，其适合产生本发明的非天然存在的半胱氨酸支架。

特别感兴趣的是该界面处(在宿主和病原体两者中)的蛋白质，它们倾向于具有特化的分子支持系统，使它们能够快速适应它们的序列。实例有奈瑟球菌和其他细菌中的菌毛蛋白、脊椎动物中的抗体系统、锥虫可变表面糖蛋白、疟原虫表面蛋白质(它们实际上是微生物蛋白质)和许多其他实例。清楚地观察到微生物蛋白质的AA序列的快速适应，它们的序列的相似性倾

于比根据基因组序列相似性预测的更低。快速适应序列同时保持阻止被蛋白酶攻击的刚性结构(但不一定是相同的结构)的能力可能是这类蛋白质在动物进化中独立地多次(7次)募集以作为毒素来源的原因。重复募集表明这类蛋白质具有尤其可用于构建毒素的特征。其他恒定特征有小尺寸(它们是最小的折叠蛋白质)和它们对于蛋白酶和温度极度的稳定性。

受体蛋白和毒素显示快速序列变化率，使密切相关的螺毒素看起来完全无关。快速进化被认为是毒素的基本特征，因为毒液需要跟上多种猎物种中多种受体蛋白的变化(对于毒素抗性，显示提高的进化率)。这一类的一个非常有用的特征是高二硫键密度支架的蛋白酶稳定性带来的低度免疫原性，如多篇出版物所述。这对于避免在被叮咬但是逃离的猎物中产生对毒素的抗性可能是重要的。由于受体和毒素都需要快速适应序列，因此在某些情况中这两种都含有HDD微生物蛋白质结构域是不令人惊讶的。例如，基于结构的蛇毒素样蛋白质类别(由蛋白质结构分类(SCOP)数据库定义)含有蛇毒素以及人细胞表面受体的胞外域，其中一些与相同结构的配体(如TGFβ-TGFβ-受体)相互作用。示例性蛋白质包括蛇毒素样蛋白质，例如蛇毒素和人细胞表面受体的胞外域。蛇毒素的非限定性实例包括半环扁尾蛇毒素B、γ-心脏毒素、Faciculin、毒蕈碱性毒素、半环扁尾蛇毒素A、神经毒素I、心脏毒素V4II(毒素III)、心脏毒素V、α-眼镜蛇毒素、长神经毒素1、FS2毒素、银环蛇毒素、Bucandin、心脏毒素CTXI、心脏毒素CTX IIB、心脏毒素II、心脏毒素III、心脏毒素IV、眼镜蛇毒素2、α-毒素、神经毒素II(眼镜蛇毒素B)、毒素B(长神经毒素)、Candotoxin、Bucain。(人)细胞表面受体的胞外域的非限定性实例包括CD59、II型激活蛋白受体、BMP受体Ia外功能区、TGF-βII型受体胞外域.

在大多数天然HDD蛋白质家族中，单独的二硫键支架能够提供高水平的刚性，这通过避免诱导契合和相关的熵罚分而有利于高亲和力。在多种微生物蛋白质家族中，正好有4、6、8或10种半胱氨酸残基看来能够完全决定诸如蛋白质的结构、热稳定性和蛋白酶抗性等主要性质，同时使环中所有(例如芋螺毒素中)或几乎所有的其他残基自由采用结合特异性所需的任何序

。半胱氨酸提供关键的功能，序列定义最小(“低信息含量”)，这在统计学上有利于这种支架相对于具有更多固定氨基酸和更大信息含量的替代支架的独立补充。例如，2个额外的固定氨基酸提高了信息含量并且降低了预测的一组随机序列补充或发生的频率，20x20＝400-倍。基于非cys氨基酸的相似水平的蛋白质稳定性将采用更多的残基，产生更大的和/或在进化上适应性更低的蛋白质。

天然毒素的结构多样性的一种来源是由已经证明HDD(高二硫键多样性)蛋白在进化时标上显示的长度差异引起的。详细描述了蛇解联蛋白(Calvete，J.J.，Moreno-Murciano，M.P.，Theakston，R.D.G.，Kisiel，D.G.和Marcinkiewicz，C.(2003)Snake venom disintegrin：Novel dimeric disintegrin and

tructural diversification by disulfphide bond engineering.Biochem J.372：725-734.Calvete，J.J.，Marcinkiewcz，C.，Monleon，D.，Esteve，V.，Celda，B.，Juarez，P.和Sanz，L.(2005)Snake venom disintegrin：Evolution of structure and function.Toxicon45：1063-1074)。

编码大HDD蛋白质的基因部分的缺失(或插入/添加)可以产生大量较小的(或较大的)变体，它们尽管与原序列同源，但是将被认为是不同的结构。在公开的实例中，大多数二硫键是保守的，但是少数半胱氨酸形成新的键合模式。其天然机制可能涉及DNA水平上的修饰、mRNA选择性剪接、降解、蛋白质(跨-)剪接或其他形式的在任一末端的截短或添加、替代翻译、以及降解或其他形式的截短。无论自然机制如何，这个原则可以使用分子生物学和(噬菌体)展示文库来实施，以发展具有最佳能力和稳定性和最小尺寸的蛋白质。

人们也可以由自然蛋白质序列产生新的和修饰的支架，所述序列包括以下优选的家族：A-结构域、EGF、Ca-EGF、TNF-R、Notch、DSL、三叶形(Trefoil)、PD、TSP1、TSP2、TSP3、Anato、整联蛋白β、甲状腺球蛋白、防卫素1以及此处公开的其他的家族。具有2个或更多二硫键、起动物毒素作用的已有的蛋白质结构域家族包括以下优选的家族：毒素1、2、3、4、5、6、7、9，11、12、防卫素1、防卫素2、Cyclotide、SHKT、解联蛋白、肌毒

、γ-Thioneins、芋螺毒素、μ-芋螺毒素、ω-Atracotoxins、δ-Atracotoxins以及此处列出的其他家族。修饰的支架可能在以下方面不同于天然支架：半胱氨酸数、二硫键键合模式、间距、大小/从第一个半胱氨酸到最后一个半胱氨酸的长度、环结构(具有不同的固定残基或大小)、离子结合部位(具有不同的位置、氨基酸组成和离子特异性)、表现相关特征(包括安全性、非免疫原性、更类似于人类、更不类似于人类、温度稳定性、蛋白酶稳定性、疏水性指数、疏水性氨基酸的百分比、制剂性质如低共熔点、高浓度、不存在特定残基、刚性、二硫键密度、文库残基百分数、二硫键键合模式的复杂性等)。

在某些情况中，反映以天然多样性存在的亚家族是有用的，这可以通过在同一支架文库中包含特定环设计的多长度变异(一般使用分别的寡核苷酸)来进行，每种用于不同的亚家族，并且反映亚家族之间的长度和序列差异。

在某些应用中，产生现有支架的改良变体可能是有用的。例如，LDL受体A型结构域(“A-结构域”)或EGF结构域的新变体可以通过多种相对保守的方法产生，可能产生比原来改进的支架。有多种方法可修饰变体，包括颠倒单独的半胱氨酸基序(包括间距)或A-结构域保守残基(包括非cys)的基序，通过将N-末端切换至C-末端。已经显示对于某些小肽，颠倒是可行的，在此情况下只有少量氨基酸被颠倒。其他修饰包括改变蛋白质长度(更短或更长)，以落在公开的文库或天然序列中的蛋白质结构域的长度范围之外，将钙结合位点移动到不同组的环上，以及改变环中的一个或多个固定的非cys残基。如果固定的残基是D，则目的是在该位置得到非D残基。实现这一目的以及检测大量特定氨基酸位点为新的组合物的一种良好方法是使用一种密码子，该密码子提供与天然存在的氨基酸或公开文库中使用的混合物相反(即互补)的氨基酸混合物。如果公开文库中在一个位置处含有I、L、V，则可以通过在该位置处提供除I、L、V之外的所有20种氨基酸来获得新基序。每个位置在其对结构的氨基酸需要上不同，甚至对功能也是这样。

支架文库也可以用于发现现有支架序列基序的更好的变体。人们可以寻

在以下一个或多个方面好于已知支架的支架：不同的二硫键键合模式，和/或不同的二硫键间距和/或不同的环序列基序，和/或固定的环残基的差异，和/或不同的钙结合位点的位置、缺少或氨基酸组成或离子特异性。

本领域技术人员知道如何将这些原则应用于A-结构域以外的支架，包括结构域家族EGF、Ca-EGF、TNF-R、Kunitz、Notch/LNR/DSL、Trefoil/PD/P-型、TSP1、TSP2、TSP3、Anato、整联蛋白β、甲状腺球蛋白、毒素1、2、3、4、5、6、7、9、11、12、防卫素1、防卫素2、Cyclotide、SHKT、解联蛋白、肌毒素、γ-Thioneins、芋螺毒素、μ-芋螺毒素、ω-Atracotoxins、δ-Atracotoxins以及表中列出的其它家族。

由A-结构域衍生的修饰的新支架的例子包括具有非天然序列(并且少于0个氨基酸)的蛋白质结构域，其含有序列C₁(xx)xxEDsxDxC₂DxxGDC₃xWxx[ps]xC₄(xx)xxxC₅xFxxx(xx)C₆加另外一个二硫键。有大量的4-二硫键结构域类似于(例如)3-二硫键A-结构域，但是刚性更强，因为它们在稳定相对柔性的A-结构域结构的位置处具有一个额外的半胱氨酸。一个例子是1-8 2-4 3-6 5-7键合模式，它含有A-结构域的3SS折叠(1-32-5 4-6)，但是在A-结构域序列任一侧上用一个二硫键稳定它，由此修复了关键的结构弱点。A-结构域的其他高质量的4-二硫键形式有：1-5 2-4 3-7 6-8，1-32-6 4-8 5-7，1-4 2-7 3-6 5-8，1-4 2-7 3-6 5-8等等。大小应当类似于A-结构域，恰好长几个氨基酸(2-12，优选少于8个氨基酸)。这种相同的分析和方案可以用于所有其他的3-二硫键家族，也可以用于具有如下普通结构的2-和4-二硫键家族：

蛋白质结构域(具有非天然序列，并且少于50个氨基酸)，其含有序列C₁x(xxx)xFxC₂xxx(xxx)C₃xx(xx)xxxC₄DGxxDC₅xDxSDE(xxxx)xC₆，在C₁和C₆之间有超过36个氨基酸。

蛋白质结构域(具有非天然序列，并且少于50个氨基酸)，其含有序列C₁x(xxx)xFxC₂xxx(xxx)C₃xx(xx)xxxC₄DGxxDC₅xDxSDE(xxxx)xC₆，在C₁和C₆之间有少于32个氨基酸。

具有非天然序列和少于50个氨基酸的蛋白质结构域，在C₁和C₆之间具

三个二硫键连接的1-3 2-5 4-6和超过36个氨基酸。

蛋白质结构域(具有非天然序列，并且少于50个氨基酸)，其含有序列C₁x(xxx)xFxC₂xxx(xxx)C₃xx(xx)xxxC₄DGxxDC5xDxSDE(xxxx)xC₆，在C₁和C₆之间具有少于32个氨基酸。

具有非天然序列的蛋白质结构域(少于50个氨基酸)，其含有序列C₁(xx)xxxxxxxxC₂xxxxxC₃xxxxxxC₄(xx)xxxC₅xxxxx(xx)C₆(颠倒的A-结构域)。

蛋白质结构域(具有非天然序列，和少于50个氨基酸)，其中以下划线标出的氨基酸之一不存在：

C₁x[aps](x)[ekq]FxC₂xxxx(x)C₃[ilv][ps]xx[lw][lrv]C₄ DG[dev][pnd]DC₅xD[dgns]SDE(aps)(lps)xxC₆.

相同方法的不同表现是(显示了3种不同的基序水平；需要的改变以下划线标出)：

C₁x(xx)xxx非FxC₂xxxx(xx)C₃xxxxxxC₄xxxx非DC₅x(x)xxx非D非E(x)xxxC₆或

C₁x(xx)xxx非FxC₂xxxx(xx)C₃[非ILV][nonPS]xxxxC₄ 非DnonGxx非DC₅x(x)非Dx非S非D非E(x)xxxC₆

具有(非天然序列和)虎纹捕鸟蛛神经毒素(Huwentoxin)II折叠的蛋白质结构域，是一种蜘蛛毒素，它与A-结构域折叠具有相同的键合模式，但是具有非常不同的半胱氨酸间距，和完全无关的蛋白质序列。

不含重复序列的结构域家族。该类别主要含有动物毒素支架和来源于细胞表面受体支架。蛇、蜘蛛、蝎子、螺和海葵毒液中的蛋白质毒素可以被认为是天然存在的可注射生物药物。这些毒液一般含有超过100种有关和无关的不同毒素，具有多种受体和种特异性。大多数毒素是高二硫键密度的小蛋白质。典型的大小为具有2个二硫键的15-25个氨基酸，具有3个二硫键的25-45个氨基酸，具有4个二硫键的35-50个氨基酸，以及具有5、6、7、8或更多二硫键的许多实例。实例有δ-Atracotoxin(1-4 2-6 3-7 5-8)、蝎毒素(1-82-5 3-6 4-7)、ω-美洲蜘蛛毒素(1-4 2-5 3-4 7-8)、莫鲁蝎毒素(1-5 2-6 3-4 7-8)和J-Atracotoxin(1-4 2-7 3-4 5-8)。

系统进化分析法显示这些蛋白质是趋同进化的例子，无关的动物组从无关的起点开始独立地产生类似的毒素结构。假定相同的设计原则在至少七个独立情况(每一个在无关的分类组中)中成功，这种设计预期比用来构建其他类型毒素(即微生物蛋白质毒素)的其他支架具有重要的优点。

这些蛋白质共有的唯一特征是高二硫键密度。这些蛋白质的氨基酸序列(除cys以外)是高度可变的(见芋螺毒素比对)，并且产生了宽范围的不同结构(蛋白质折叠)。

这些蛋白质的一个期望的性质是格外小的尺寸；微生物蛋白质是最小的刚性蛋白质，这是快速组织渗透所需的。第二个共同特征是它们的刚性，高于类似大小的其他蛋白质，并且允许这些蛋白质避免在与靶标结合后诱导契合，允许更高的结合亲和力。第三个性质是这些蛋白质的特别的稳定性，热稳定性(大多数微生物蛋白质可以煮沸而不变性)以及对多种蛋白酶的抗性。多种天然蛋白质作为蛋白酶抑制剂起作用。稳定性对于静脉(IV)或皮下(SC)注射的生物药物是重要的，对于经皮、经鼻、经口、经肠或者经血脑屏障给药甚至更重要。稳定性对于长期保存和方便的运输和贮存也是重要的。具有重要意义的另外一个性质是这些蛋白质的非免疫原性，已经报道由它们在抗原呈递细胞(APC)中对蛋白水解的抗性介导，据公开由高二硫键密度结构提供。保持低免疫原性的其他因素是蛋白质的小尺寸和它们的疏水性。

含有重复序列的结构域家族也可以用于产生本发明的微生物蛋白质及其文库。以下的实施例中描述了大量实例。

含有重复序列的结构域家族：富含半胱氨酸的重复蛋白质(CRRPs)：富含半胱氨酸的重复蛋白质的高半胱氨酸含量允许在重复单元内和/或两个重复单元之间形成多个二硫键。这产生二硫键重复模式。该模式提供固定的拓扑学，尽管在极少情况下相同的序列可能采取(或者可能进化为采取)替代二硫键键合模式。重复蛋白质中的二硫键的特征在于CRRP基序(X_A1，X_A2)/(X_B1，X_B2)/(X_C)，其中X_A是连接的半胱氨酸之间的半胱氨酸距离，这是同一二硫键中第一半胱氨酸与第二半胱氨酸之间的半胱氨酸数。该半胱氨酸距离可以是1、2、3、4、5、6、7、8、9或10。CRRP基序中的两个(或

个)数字表示两个不同的(或多种)类型的键，X_A1表示第一个这样的键，X_A2表示第二个二硫键。例如，具有1-42-3拓扑学的CxCxCxCxCxCxCxC对于第一二硫键类型的半胱氨酸距离为+3，对于第二二硫键类型为+1(′3，1′)。

X_B表示一个二硫键的半胱氨酸到下一个二硫键的第一个半胱氨酸之间的半胱氨酸距离(半胱氨酸数)(例如对于具有1-42-3拓扑学的CxCxCxCxCxC，X_B为+1)。在两个不同类型的二硫键的情况中，X_B1表示从一种类型的二硫键的第一个半胱氨酸到相邻二硫键的第一个半胱氨酸的半胱氨酸距离，X_B2表示从第二种类型的二硫键的第一个半胱氨酸到下一个二硫键的第一个半胱氨酸的半胱氨酸距离，在这种情况下下一个二硫键位于下一个重复序列中。在该实施例中，X_B2为+3(从C2到C5)，但是它可以是1、2、3、4、5、6、7、8、9、10。X_C表示螺旋重复蛋白质中每圈螺旋的二硫键数，它可以是1的分数，或者是整数，如1、2、3、4、5、6、7、8、9、10。

每个结构域典型地(但不是必须地)在N-和/或C-末端含有一个末端帽。该末端帽典型地具有一个或两个比常规重复序列更少的半胱氨酸，因为它们仅与一个重复序列连接，而不是与两个重复序列连接。

关于重复蛋白质的更详细的描述包括该蛋白质中每种二硫键类型的“跨度”(两个相连半胱氨酸之间的非-cys氨基酸的数目)。描述重复蛋白质的另外一种方式是描述重复单元的序列，例如(CxxxCxCxxxxCxxCCxx)_n。C_a和C_b可以用来表示哪些半胱氨酸是连接的，例如(C_axxxC_axC_bxxxxC_cxxC_bC_cxx)_n。

富含半胱氨酸的重复蛋白质的一个重要特征是它们可以在任一端即在N-末端或C-末端延伸。两种文库设计方法是1)天然存在的重复蛋白质的随机化，和2)合成的重复序列，它们典型地是通过从天然重复蛋白质中抽象化而获得的，并且可能具有略微不同的与天然重复序列的间距(更理想化的)。天然存在的CRRPs包括颗粒体蛋白(PF00396)、昆虫抗冻蛋白(PF02420)、弗林蛋白酶-样结构域(PF00757)、CxCxCx重复序列(PF03128)、草履虫表面抗原(PF01508)和未知功能的果蝇结构域(PF05444)。

希望时，本发明的含半胱氨酸的蛋白质和/或支架可以与生物反应修饰物融合。反应修饰物的实例包括但不限于荧光蛋白如绿色荧光蛋白(GFP)、

胞因子或淋巴因子，如白介素-2(IL-2)、白介素4(IL-4)、GM-CSF和γ-干扰素。另外一种有用的融合序列是利于纯化的序列。这种序列的实例在本领域中公知，包括编码如下表位的序列，例如Myc、HA(来源于流感病毒血凝素)、His-6或FLAG。利于纯化的其他融合序列来源于蛋白质如谷胱甘肽S-转移酶(GST)、麦芽糖结合蛋白(MBP)或免疫球蛋白的Fc部分。

文库构建：本发明提供本发明的含半胱氨酸支架的文库。经历自然选择的蛋白质需要均匀折叠，具有新的、未进化的序列的蛋白质原则上能够折叠为多种稳定的结构，或者至少通过改变条件诱导这样。相同蛋白质序列的不同拷贝折叠为不同的稳定结构使文库的结构多样性扩大到超过该文库中独立克隆的数目。文库中独立克隆的数目通常等于不同序列的数目，被称为“文库大小”，对于噬菌体展示文库大约为10¹⁰。然而，当淘选噬菌体文库时使用的噬菌体颗粒的实际数目一般比文库大小大10至10,000倍。超过的倍数被称为“文库当量数”，有几种方法利用这种差异获得更大的文库表现。如果克隆的10-10,000个拷贝中的每一个(即所有具有相同氨基酸序列的)采取不同的、稳定的DBP和结构，则结构多样性可能大大超过序列多样性(10¹¹-10¹⁴)。应用临时采用不同结构的不稳定的结构有可能进一步提高结构多样性。然而，如果每个噬菌体颗粒展示不稳定的蛋白质，多样性可以进一步地提高，其采取多种结构，类似于随机肽并且具有类似的优点和缺点。能够采用大量不稳定结构的蛋白质可以将多样性扩大到超过噬菌体颗粒数(10¹²-10¹⁵)。低亲和力克隆的回收可能需要大量的文库当量(例如用大约100个文库当量回收克隆，回收效率为1％)，高亲和力克隆回收倾向于100％有效(通过亲和层析证实)，提高结构多样性预期可以大大提高高亲和力克隆的比例。使用不稳定的结构提高结构多样性存在一个平衡，因为在靶标结合后需要在展示的蛋白质中诱导结构(诱导结合蛋白质的配合，可能不是靶标)预期降低了这些克隆的结合亲和力。

一种方法是用4个半胱氨酸(可达2个二硫键，和可达3种键合模式)、6个半胱氨酸(可达3个二硫键，和可达15种二硫键键合模式)、8个半胱氨酸(可达4个二硫键，和可达105种键合模式)或10个半胱氨酸(可达5个二硫键，

可达945种键合模式)或12、14、16、18、20或甚至更多的半胱氨酸构建文库。

在一个方面，二硫键键合模式的总数可以按照下式概括：

其中n＝预测的由半胱氨酸残基形成的二硫键的数目，其中

代表(2i-1)的积，其中i是1-n的正整数。

如果需要，可以产生更大的构建体，其编码数目较大但是可变(即10-30)的半胱氨酸。获得的含半胱氨酸产物可以以多种多样化的不同方式折叠，产生结构元件的不同的组合，每个含有2，3，4或5个二硫键，并且在它们之间具有潜在的交联。在这些较大构建体的定向进化过程中，人们可以将以前选择的构建体破坏为较小的片，例如通过随机破碎、PCR(例如使用随机引物)或(例如4bp)限制性消化。一旦长蛋白质的文库多样性减少，人们就可以通过从每个大构建体产生多种片段随后通过重组或其他定向进化方法再次提高多样性。

HDD蛋白质的这种文库一种可能的考虑是在大多数二硫键形成后存在不配对的半胱氨酸。游离的硫基可以彼此相互作用，由于它们与靶标的多价结合，产生倾向于在阻断试验中得高分的聚集体。然而，这些游离的硫基可以被封闭，例如，使用碘乙酰胺或其他众所周知的巯基封闭剂来防止它们形成聚集体或攻击正确形成的二硫键。

多个微生物蛋白质家族的共有序列与相同数目的二硫键(如，三个二硫键，产生15种可能的连接模式)的比对显示半胱氨酸之间的间距形成范围从0到12的大致相等的分布；为了简单和保持较小的平均环长度，我们优选每个半胱氨酸间环具有0-10个氨基酸的家族。

使用合成寡核苷酸，人们可以构建文库，使得DNA编码半胱氨酸间环中的6个半胱氨酸和0-10个NNK(或类似的多义密码子)残基。NNK密码子编码全部20种氨基酸，但是只有1/64的密码子是终止密码子(比使用NNN密码子低3倍)，这导致含有未成熟终止密码子的蛋白质的比例减少。假定5个半胱氨酸间环，这些蛋白质将含有平均25个NNK密码子(假设每个环0-10

氨基酸；平均5个)，导致较低比例的具有未成熟终止密码子的克隆。使用数目低于10的或不包括终止密码子的多义(混合碱基组成)密码子可以提高完整蛋白质的比例。如附图所示，每个寡核苷酸开始于及终止于半胱氨酸密码子(在一端为有义的，在另一端为反义的)，在半胱氨酸密码子之间具有0-10个NNK密码子(或意义相反的)。在这种制备合成文库的方法中，所有环序列都可以在任意环位置使用，因此所有半胱氨酸一般由相同的密码子编码。将所有oligo都混合在一起，如以前所述(Stemmer等人.1995.Gene)通过重叠PCR产生一组合成基因。

一种不同的和有效的产生噬菌体文库的方法是Kunkel诱变的Scholle变化形式(Scholle，M.等人.(2005)Comb.Chem.&HTP Screening 8：545-551)，其中编码文库的寡核苷酸使质粒中的终止密码子转化为非终止密码子。该方法的一种新形式包括在任意两个终止密码子(一般是琥珀密码子和赭石密码子)之间反复循环。这允许将Scholle法循环应用于进化的克隆集合体，而不需要在每个诱变循环之后重新插入终止密码子。

3SS(3-二硫键；15种可能的结构)和4SS(105种可能的结构)混合的支架文库特别有用。我们对二硫键键合模式的主要控制是半胱氨酸的间距。例如通过提供一定的再折叠环境，可以一定程度地控制蛋白质采用的结构(二硫键键合模式，“DBP”)。DBP可以通过胰蛋白酶消化和/或MS/MS分析进行分析。

结构多样性的问题对于多-支架文库和单支架文库都类似，程度的差异可连续调节。实际上，基于半胱氨酸间距的文库设计存在连续性，它们可以或多或少地变化(每个环平均0-15个氨基酸)，并且或多或少地类似于存在的天然家族。单支架文库一般也含有显著的长度变化(模拟天然变化)。注意家族是通过序列相似性产生的，并且一般只对少数几个成员通过实验确定结构(键合模式)，因此可能显著数目的天然序列具有与根据序列推定的不同的结构。预期天然高度进化的、高度微调的(即高信息含量的)序列通常可靠地单向折叠，但是低信息含量、低微调的蛋白质(如早期噬菌体展示文库中的和/或在一个淘选循环之后和定向进化之前来源于结构多样性文库中)通常显示几种不同的折叠。

基于特定天然蛋白质家族的保守支架的文库，如Ig结构域或纤连蛋白III，典型地含有大约5-10％的具有各种问题的(即不均匀折叠的、未折叠的、聚集的或较差表达的)克隆。提高长度多样性或允许较高的序列和结构多样性可以产生表现更差的克隆。通常筛出不需要的单体，之后进行另外的诱变循环，包括制备二聚体和更高级别的多聚体。然而，定向进化倾向于在使非最佳克隆表现更好方面非常有效，并且通过消除克隆和/或通过序列改变和/或通过结构改变，人们可以通过定向进化逐渐改善克隆群的平均质量。对改善的活性、因而对改善的折叠的定向进化筛选可能是一种改善活性的容易的方法，活性的定向进化是一种得到证明的、有效的获得提高的蛋白质折叠效率(Leong，S.R.，等人.(2003)Proc.Natl.Acad.Sci USA 100：1163-1168；Crameri，A.等人.(1996)Nature Biotechnology14：315-319)和提高的温度稳定性(许多公开的实施例)的方法。原因是采用活性结构的克隆更有效地显示活性更高因此有利于筛选方法。我们针对的方法是这样一种方法，其中最初几轮淘选产生许多具有多种折叠同时可能具有高水平的各种问题(不完全的折叠、不均匀的折叠、低表达、聚集等)的克隆，定向进化(多种可能的形式，包括易错PCR、同源重组、基于盒的重组、或者只是多轮筛选)与通过(噬菌体)淘选的强功能选择的组合应用预期将强烈地有利于具有均匀折叠的克隆。也可能多次减少、再折叠和再淘选同一文库(采用或不采用噬菌体扩增)，以提高均匀折叠的克隆频率。游离巯基亲和柱可以在每一循环中使用，用来除去不完全折叠的蛋白质，或者游离巯基可以与各种加帽剂(FITC-马来酰亚胺、碘乙酰胺、碘乙酸、DTNB等)反应。也可能再折叠整个文库或者部分还原和再氧化，以减少游离巯基的频率。噬菌体展示和可溶性蛋白质结合测定通常有利于多价溶液。具有蛋白质间二硫键的蛋白质是多价性的通常的来源，需要除去，因为它们不能制备。多个循环的噬菌体展示(没有断续测定可溶性蛋白质)倾向于进化只对噬菌体有效的溶液。因此通常期望筛选可溶性蛋白质来阻止这些克隆被接管。蛋白质结构的多样性在早期是有用的，但是希望逐渐除去形成蛋白质间二硫键的克隆。结构多样性与非决定性的折叠和蛋白质间二硫键的存在相关，结构进化可以与不均匀的折叠分开，因此需要发展耐受一定程度的不均一性的方法。

为了对所期望的结构多样性和折叠均一性的平衡评价不同的文库设计，人们可以制备小文库及筛选有限数目的克隆(30-1000)，以便快速评价文库设计的多样性。

同一蛋白质中不同的二硫键可能不同地反应，允许一些控制。一种从噬菌体文库中除去具有蛋白质间二硫键的克隆的方法是使该噬菌体文库接触低水平的仅还原最弱二硫键如蛋白质间二硫键和蛋白质内二硫键的还原剂，由于这些二硫键太弱，我们优选消除这些克隆，然后使部分还原的文库通过游离巯基柱，以除去这些克隆。

HDD蛋白质的结构进化

如上所述，HDD蛋白质适合在每一水平上进化蛋白质结构，包括一级(序列)、二级(α-螺旋、β-折叠等)、三级(折叠、二硫键键合模式)和四级(与其他蛋白质的结合)结构水平。完全改变三级结构的能力使HDD蛋白质最适合于治疗剂或药物组合物的合理设计。尽管有限的二级结构进化(α-螺旋、β-折叠)可能用现有的定向进化方法产生，但是使用定向以及合理的设计在三级结构中产生高质量的修饰在实践中是困难的。

通过二硫键添加从2SS进化到3SS并进化到4SS，以及通过删除反向进行，似乎频繁发生，也对蛇解联蛋白得到证明(Calvete，J.J等人.(2003)Biochem.J.372：725-734)。自然家族的DBP的相关性提示自然中可能也发生DBP的再构建，这得到特定家族如生长调节素的公开文件的支持。

15种不同的3SS结构、105种4SS或945种4SS结构在拓扑学上是不同的，意思是如果不经过断裂和再形成二硫键则它们不能相互转化。每个3SS蛋白具有6个(完全)二硫键-键合的异构体，它们是“最近邻的”变体(2个二硫键具有改变的键合模式，1个二硫键具有保持的键合模式)，每个4SS蛋白具有12种异构的最近邻的变体，每个具有2种保持的二硫键和2个改变的二硫键，因此产生结构进化的逐步路径。

结构定向进化的过程包括最初激发多样性的结构(并不都是可能的，并且频率将不同)，然后逐渐缩减结构，以及部分修饰结构(即通过逐渐DBP改变)，同时选择越来越好的结合体。开始多样化的结构是为了扩大有效文库大小超过不同氨基酸序列的数目。然而，结构的多样性越高，它们的折叠越不均一，因此这些蛋白质为了同源性折叠通常需要显著的进化，以成为有用的。具有优化的环长度的结构将更均匀地折叠，并且蛋白酶抗性更强，免疫原性更低。除了偶然的特定位置以外，环序列不影响三级结构，环倾向于不含二级结构。

一种优选的优化环长度的方法是从相对长的环(如，6、7、8个氨基酸)开始，然后逐渐减少其长度，将每个环替换为一定范围的其他不同大小的环(具有较低的平均大小)。该方法类似于扭结的收紧。环的位置一般保守不变(即C2-C3)，但是它们的位置可能变化，特别是在蛋白质中的多个小结合位点是有用的方案时。

一种优选的方法是将一组选择的克隆中的环(即环C1-C2，C2-C3，C3-C4，C4-C5，C5-C6，C6C7或C7-C8，C8-C9，C9-C10)替换为以前从未选择的主要为随机序列的新的一组环。对不同的半胱氨酸使用不同的密码子，必要时使用位于半胱氨酸侧翼的少数固定的碱基，可以产生PCR位点，以在PCR重叠反应中进行环交换(优选的)，或者可以使用限制位点方法。

选择与蛋白质靶标结合的集合中不同的克隆可能与蛋白质上的不同位点结合。即使它们使用相似的序列与相同位点结合，克隆也可能在其记录上不同，例如，某些克隆在环1中具有活性序列，某些克隆在环5中具有活性序列。具有更多固定的氨基酸可能将导致更多具有相同记录的克隆，这对于通过同源重组的定向进化是有利的。

有多种方法可以对选择的克隆的集合进行重组。在大多数形式中，环保持完整，而彼此相对变化，但是也有利用环间同源性驱动同源重组的形式。通常每个环保持在相同的位置上(如C4-C5)，但是甚至这也可能变化。在某些形式中，所选克隆集合中的所有环解开，然后再连接，但是更保守的方法是只解开一个特定环(如C4-C5)，同时保持其他环连接，产生只有1-2个交换点而不是多个交换点的克隆文库。目的是产生许多不同的逐步路径，这需要许多保守改变的排列。

不是制备具有许多折叠的文库或只有一个折叠的文库，我们制备在间隔上具有有限可变性的文库，其设计为允许选择数量较少的结构(即低限为2、5、10、30、100、300，高限为10、30、100、300、1000、3000)，因为它们的键合模式导致刚性结构或者在自然家族中发生，提供了关于最佳半胱氨酸间隔的详细信息。一个实例是cxxx(x)cxxcxxxx(xx)cxxxcxxx(x)xxcxxxx(x)cxxxc。

文库的有效多样性和质量都是非常重要的，但是倾向于具有相反的设计需要。质量主要取决于正确折叠的克隆的比例。打开文库的理论多样性(更多随机化的氨基酸位点)倾向于提高非折叠克隆的比例。提高折叠的步骤包括在每个氨基酸位点使用天然氨基酸和自然保守的残基的保持。对于单支架文库这容易实现，但是对于多支架文库则不容易，因此必须具有较高比例的非折叠克隆。随机化折叠固定所需的恰好2个氨基酸，折叠的克隆的比例降低400倍，减少了有效文库大小。

产生各种文库并且通过使用FITC-马来酰亚胺测定剩余游离巯基的比例来确定折叠克隆的比例是有用的(反应，洗涤，测定结合的FITC)。另外，使用具有游离巯基的固体支持体除去未折叠的克隆和/或再折叠整个文库或未折叠的克隆可能是有用的。一种方法是使文库暴露于一定水平的还原剂，该还原剂预期还原部分或较差折叠的蛋白质，但是不还原稳定折叠的蛋白质。

然而，较差的文库设计仍将具有相当低水平的折叠克隆。一种方法是分别构建多个单支架文库，并在淘选前混合这些文库。这将产生高质量、多样性的文库。

如果适当地处理，不均一的折叠应当是有益的。由于常规文库的大小为10⁸-10⁹，人们可以产生大约10¹³噬菌体颗粒，每个序列由10⁴-10⁵个颗粒代表。进行淘选，使其100％有效(即，每次捕获1nM或更好的克隆)，然后每个序列表现为10³个不同的结构，非常有利于有效的多样性和命中率和质量。有效的淘选需要高浓度的噬菌体、高浓度的靶标、升高的温度(较快的平衡)、

积排除剂如10-15％聚乙二醇(PEG)、相对于固定靶标的可溶性靶标，等等。

为了有利于蛋白质的正确折叠，一种方法可以是在体积排除剂如PEG存在下折叠(最初时)，这显著提高寡核苷酸杂交率以及改组反应的效率(复合片段重叠PCR)。PEG仅仅提高硫醇的有效浓度，导致更多链内及链间二硫键。

通常，解折叠的克隆是不期望的，而不均一的折叠是期望的。解折叠和不均一的折叠显然密切相关。靶标诱导的解折叠克隆的折叠特别有用，但是可能极少发生。由于预期混合支架文库的有效文库大小减少，通常优选有效的诱变策略。人们可以选择重组或长度变化和点突变。来源于随机文库的序列的重组可能是困难的。对于短基因，易错PCR具有相当低(0.7％)的差错率，并且需要再克隆。再合成需要对选择的克隆测序以及文库的再合成和再克隆。此外，为了支持利于正确折叠的克隆，人们也可以对大肠杆菌的增变株进行多个循环的淘选和扩增。另外，人们可以使用Evogenix的方法。

2-3-4方法的吸引力在于它在每一步通过PCR增加了随机序列，并且不需要其他形式的诱变。微生物蛋白质可以由新的或已有的肽配体或蛋白质片段构建。该方法使用具有或不具有预先存在的结合性质的短氨基酸序列。结合氨基酸序列在一端或两端的侧翼可以是随机或固定的编码单个半胱氨酸的氨基酸序列。寡核苷酸设计为编码结合序列和侧翼半胱氨酸编码DNA。新引入的半胱氨酸任选地可以在随机或非随机序列的侧翼。将含半胱氨酸侧翼序列的所有变化混合、装配并转化为双链DNA。这些装配的序列任选地可以位于编码限制性内切酶识别位点的或者与预先存在的DNA序列退火的DNA的侧翼。该方法可以产生新的或已有的半胱氨酸距离模式。

富含半胱氨酸的重复蛋白质(CRRP)

已经证明来自甲虫黄粉虫(Tenebrio molitor)的富含半胱氨酸的重复抗冻蛋白可以在C-末端延伸(C.B.Marshall，等人.(2004)Biochemistry，43：11637-46)。这种延伸含有CRRP基序1/2/1。系统地应用螺旋的但是含β-折叠的(β-螺旋)抗冻蛋白的极端规则性，以测试抗冻活性和冰结合部位面积之间的关系。β-螺旋的每个12-氨基酸的、二硫键键合的中心螺旋含有Thr-Xaa-Thr冰结合基序。通过向七螺旋亲本抗冻蛋白上添加螺旋或删除螺旋，制备了一系列具有6-11个螺旋的构建体。通过冰亲和力纯化除去这些抗冻蛋白的错折叠形式，以精确比较每个构建体的比活性。从6个到9个螺旋后抗冻活性增加10-100倍，这取决于比较的浓度。

我们的兴趣是制备具有多个重复的抗冻蛋白衍生的蛋白质，在最少保守的氨基酸位点已经随机化，并且用于选择针对选择的人治疗靶标的结合剂(激动剂或拮抗剂)。

颗粒体蛋白(图102和103)是天然存在的具有3/2/2的CRRP基序的CRRP(螺旋，参见图130-132)。提出了证据表明各个重复单元具有高度模块的性质，因此可用于通过向C-末端添加多个重复延伸核心单元(D.Tolkatchev，等人.(2000)Biochemistry，39：2878-86；W.F.Vranken，等人.(1999)J Pept Res，53：590-7)。在空气氧化后，对应于鲤鱼颗粒体蛋白-1的30-残基N-末端亚结构的肽自发形成在天然蛋白质中观察到的二硫键配对。使用NMR进行结构表征显示在该肽内存在确定的二级结构。肽的结构计算表明肽片段采取与天然蛋白质内形成的相同的构象。鲤鱼颗粒体蛋白-1的30-残基的N-末端肽是两个发夹间二硫键加强的独立折叠的两个β-发夹堆积的第一个实例。

我们的兴趣在于制备具有多个重复的颗粒体蛋白衍生的蛋白质，它在最不保守的氨基酸位点已经随机化，并且用于选择人类治疗靶标所针对的结合剂(激动剂或拮抗剂)(图102)。

重复蛋白质结构和亲和力成熟：CRRP的优点是它们可以制备为特定用途需要的长度，与大多数其他结构域不同。因此，它们可以得到1、2、3、4、5、6、7、8、9、10或更多对相同或不同靶标的结合位点。

CRRP相对于富含亮氨酸的和其他含非半胱氨酸重复蛋白质的优点是更多的氨基酸可以在一个文库中随机化，因为CRRP的折叠取决于二硫键的存在而不是取决于疏水核的存在，后者需要更多固定的残基。CRRP文库因此含有具有更多可变位点(＞50、60、70或80％)的克隆，这提高了可能的表面接触面积和对靶标相当规模的高亲和力的能力。富含亮氨酸的重复蛋白质，如

蛋白，一般只在6个氨基酸内变化，每33个氨基酸的重复，或者每6个重复结构域24个氨基酸，因为端帽不被随机化。

各种亲和成熟方法在图140、14、142和160中显示。这些亲和力成熟原则用重复蛋白质最好地解释，但是类似地适用于本申请所述的所有其他支架。

CRRP的亲和力成熟可以通过两个不同的策略实现：模块添加和模块置换。

“模块添加法”开始于相对少量的重复单元(例如1-3个)，在亲和力成熟的每一步添加随机化的重复单元，然后选择结合体。在每一进化循环，添加一个或几个新的、随机化的模块，然后选择最具活性的克隆。该方法在每一循环提高了蛋白质的大小，同时在每一轮延伸后选择所需的结合活性。该方法将随机化的序列转化为选择的序列。

“模块置换法”开始于较大量的重复(例如4-10；“最终数目”)，在文库产生的每一轮随机化新的一组重复(一般为1-3个)，然后选择靶标结合。在该方法中，蛋白质的大小保持不变。未选择的序列(一般是固定的)逐渐转化为随机化的序列，后者又转化为选择的序列。

这两种方法都产生具有单一大结合位点或多个分离结合位点的重复蛋白质，根据提高的对1、2、3、4、5、6个或更多靶标的结合亲和力进行选择。添加重复允许延伸结合位点，导致与在单一位点结合其靶标的结构域相比，提高了结合亲和力。重复蛋白质结构域可以与其他重复蛋白质结构域通过不含重复序列的短接头序列连接。这是与天然重复蛋白质中发现的类似的重复蛋白质组织，通常串联存在，被短氨基酸序列连接，并且散布有非重复蛋白质(H.K.Binz等人.(2005)Nature Biotechnology)。

然而，重复蛋白质也可以用来在两个结合位点之间形成刚性连接，从而使这些位点同时与靶标结合。与通常在分开的结构域中存在的柔性肽接头相反，基于重复蛋白质的刚性连接体预期产生较高的结合亲和力。另一种在结合位点之间产生刚性连接体的方法是使用自身盘绕的富含脯氨酸的序列，或者胶原样序列。

亲和力成熟通过在DNA水平上(部分)随机化进行，针对单一连续序列或多个不连续序列。DNA随机化的连续步骤在DNA水平上也可以是不连续的或连续的(即序贯的)。在蛋白质水平上，诱变也可以是不连续的或者连续的，这取决于应用。例如，对于螺旋重复蛋白质，一般在DNA和蛋白质链水平上使用不连续的成熟，以在蛋白质的同一侧获得连续的结合表面。这被称为不连续的，因为随机化的氨基酸在α-链骨架上和在DNA水平上是不连续的，即使在蛋白质表面上随机化区域是连续的。另一方面，连续成熟涉及一组在DNA水平和蛋白质骨架水平上连续的氨基酸的随机化，使得螺旋的所有侧面都被随机化，并且可以成为靶标的结合位点，从而允许在重复蛋白质和靶蛋白质之间发生更复杂的三维相互作用。在不连续(DNA水平)亲和力成熟的情况中，可以利用随机化序列之间常见的固定序列通过限制酶或重叠PCR在文库内或者在多个文库之间进行重组，提供提高可以根据提高的结合亲和力筛选的克隆数的另外一个步骤。

一种优选的亲和力成熟方法是连续随机化，包括第一次(部分)随机化支架蛋白质的一个区，选择一组最佳克隆，然后随机化选择的这组克隆中的第二个区，再选择(第二)组最佳克隆，随机化该第二组中的克隆的第三个区，并且选择(第三)组改善的克隆。这显示在例如图136中。一种优选的方法是使三个诱变区(n-端、中部和c-端)为非重叠的。可以使用任意诱变顺序，但是n-端/中部/c-端和n-端/c-端/中部是优选的选择。使诱变区之间15-20bp的支架序列不诱变是有用的，用作寡核苷酸的退火区用于Kunkel-型诱变。该方法避免了以前诱变的序列的合成再诱变，这是一个耗时的过程，通常需要克隆测序、序列比对、家族基序推断和编码这些基序的oligo的再合成，和新合成文库的产生。一种优选的格式是使用密码子选择，使得随机化主要产生在每个位点天然存在的氨基酸。

合成CRRP

合成CRRP由基序C_ax_0-nC_bx_0-nC_cX_0-nC_dX_0-nC_eX_0-nC_fx_0-nC_gx_0-nC_ix_0-nC_ix_0-nnC_ix_0-j组成，其中C是在确定位点的半胱氨酸残基，x可以是在每个半胱氨酸之间的0到12个之间的任意数目的氨基酸。这些设计由CRRP基序限定，例如，

个二硫键之间的半胱氨酸距离和二硫键的第一个半胱氨酸与下一个二硫键的第一个半胱氨酸之间的半胱氨酸距离。下面的基序可用于文库设计：3/4/1，C_ax_0-nC_bx_0-nC_cX_0-nC_dX_0-nC_eX_0-nC_fx_0-nC_gx_0-n，其中C_a与C_d形成二硫键；(3，4)/(1，4)/2，C_ax_0-nC_bx_0-nC_cX_0-nC_dX_0-nC_eX_0-nC_fx_0-nC_gx_0-n，其中C_a与C_d形成二硫键，C_c与C_g形成二硫键；(4/2)，(3/1)，C_ax_0-nC_bx_0-nC_cX_0-nC_dX_0-nC_eX_0-nC_fx_0-nC_gx_0-n，其中C_a与C_e形成二硫键，(3，5)/(1，2)/2，C_ax_0-nC_bx_0-nC_cX_0-nC_dX_0-nC_eX_0-nC_fx_0-nC_gx_0-n，其中C_a与C_f形成二硫键，C_b与C_e形成二硫键，C_d与C_i形成二硫键；(3，5，7)/(1，2，3)/3，其中C_a与C_f形成二硫键，C_b与C_e形成二硫键，C_c与C_j形成二硫键；(4，5)/(1，4)/2，其中Cd与Ci形成二硫键，Cf与Cj形成二硫键(参见图125-133)。

新的CRRP可以如下设计：开始于含有未知拓扑学的二硫键的单结构域家族，并且在N-或C-末端延伸该基序。为了在两个重复单元之间实现二硫键连接，可能需要通过定点诱变引入另外两个半胱氨酸残基。拓扑学1-4 2-53-6是富含半胱氨酸的小微生物蛋白质之间最常见的二硫键拓扑学。通过添加具有相关拓扑学的重复可以延伸具有该拓扑学的结构域。在半胱氨酸1和半胱氨酸2之间和半胱氨酸6之后的位点处引入半胱氨酸残基。甚至在存在另外两个半胱氨酸时，强烈地倾向于形成1-4 2-5 3-6拓扑学，因为结构支架只允许这种拓扑学。

连接不同的结构：参见图146，147，148。微生物蛋白质模块可以以多种不同的方式连接。例如，拓扑学为1-42-53-6的C5C5C5C5C5C模块不需要接头可以与另外一个这样的模块连接，产生C5C5C5C5C5CC5C5C5C5C5C模块。模块可以用结构PPPP接头连接。另外，可以利用富含半胱氨酸的重复模块连接两个模块。颗粒体蛋白-样重复单元作为具有普通重复基序(CC5)_n的接头。也可以通过两个具有1324拓扑学和基序(Cx_0-nCx_0-nCx_0-nC)_n的含二硫键的接头实现融合，其中x为从0到n＝12的任意数目的氨基酸。在C_A和C_B之间形成的具有二硫键的抗冻蛋白重复(2C_A5C_B3)_n用作不同模块之间的接头或者连接微生物蛋白质与其他蛋白质。

典型合成重复蛋白质的设计：重复蛋白质的自然设计是向核心基序上重复添加单一构件。该方法可以在体外进化中模拟。抗冻蛋白含有典型的3-二

键微生物蛋白质作为N-末端的帽(C_axxxxxC_bxxC_cxxxC_dxxC_exxC_fxxxx)。可以利用分子生物学将该结构的一部分添加到该序列的C-末端。选择重复单元存在两种可能性：xC_bxxC_cxxxC_dxxC_ex或xxC_bxxC_cxxxC_dxxC_exxC_fx可以连续添加到C-末端，以设计新的重复蛋白质。参见图104。

基于CXCXCCXCXC基序的合成支架的设计：多种微生物蛋白质家族含有由以下标识图组成的基序：Cxxxxxx(xxxxxxx)Cxxxxxx(xxxxxxx)CCxxxxxx(xxxxxxx)Cxxxxxx(xxxxxxx)C，其二硫键拓扑学为1-4 2-5 3-6。这种普通的共有序列用于文库设计。间隔可以包括另外的半胱氨酸和二硫键。每个二硫键之间的间距平均为13-15。除碱性基序以外的额外的半胱氨酸对以蓝色或绿色斜体字表示，连接的半胱氨酸具有相同的颜色。

(芋螺毒素)CxxxxxxCxxxxxxxxCCxxxxxCxxxxxxxC

(毒素30)CxxxxxxCxxxxxxCCxxxxxCxxxxxxCxxx

(GURMARIN)CxxxxxxCxxxxxxCCxxxxCxxxxxxxxxCxx

	1-4	2-5	3-6	另外的SS
	1-4	2-5	3-6	另外的SS	毒素12	13	12	17
芋螺毒素	15	15	14		毒素12	13	12	17
芋螺毒素	15	15	14		毒素30	14	13	13
GURMARIN	14	12	15		毒素30	14	13	13
GURMARIN	14	12	15		毒素7	15	13	15	6-7
壳多糖BDG	14	11	13	7-8	毒素7	15	13	15	6-7
壳多糖BDG	14	11	13	7-8	野灰蛋白	14	13	16	5-10，7-8
毒素9	15	15	15		野灰蛋白	14	13	16	5-10，7-8
毒素9	15	15	15		平均	14	13	15

Swissprot数据库含有44个间距为6，5，0，3的成员和57个间距为6，5，0，4的成员，和34个间距为6，6，03的成员，和27个间距为6，6，0，4的成员。最后的间距(在Cys5和Cys6之间)可以从4到6个氨基酸不等)。

半胱氨酸距离模式(CDP)：最常用的将自然蛋白质归类为家族的方法基于蛋白质序列同源性。这些算法的目的是基于蛋白质序列的相关性将其分组，这种相关性在大多数情况下反映了进化距离。这些算法比对序列，使每一位点匹配的相同或化学相关氨基酸的数目最大。通常，引入缺口来改善比对。这种基于同源性的序列家族常用于鉴定可以允许显著的蛋白质变化，因此可以用作新结合蛋白质基础的蛋白质支架。然而，基于同源性的家族对于基于微生物蛋白质的文库的设计具有有限的应用，因为相关微生物蛋白质之间的序列保守程序较低。密切相关的微生物蛋白质的序列通常共有极少的序列同源性，而不是它们的半胱氨酸残基保守。通过基于同源性的检索算法引入缺口使微生物蛋白质序列的比对复杂化，这对于鉴定可以突变的残基和对于蛋白质结构和/或稳定性而言至关重要的残基是关键的。微生物蛋白质与大多数其他蛋白质的不同在于它们的极高的半胱氨酸残基密度，并且该组需要将半胱氨酸间距排序为关键参数的比对方法，允许人们将微生物蛋白质分组为具有相同半胱氨酸距离模式(CDP)的簇。因此，半胱氨酸距离簇是一组蛋白质序列，它们具有几个被相同数目的氨基酸分隔开的半胱氨酸残基。比对半胱氨酸距离簇的所有成员的序列，因为所有簇成员具有相同的总长度。另外，人们可以容易地计算序列中每个位点的平均氨基酸组成。这大大简化了构建微生物蛋白质文库时可能变化的残基以及变化程度的鉴定。具有相同CDP的微生物蛋白质大簇对于设计微生物蛋白质文库是特别有用的，因为它们提供了关于每个位点的自然变化性的详细的信息。

CDP簇典型地是相关微生物蛋白质序列的亚组。在许多情况中，CDP簇的所有成员来自同源蛋白质的同一家族。然而，存在含有来自多蛋白质家族的成员的CDP簇。一个例子是CDP簇3_5_4_1_8(有时表示为C3C5C4C1C8或CxxxCxxxxxCxxxxCxCxxxxxxxxC)，它含有51个成员，有些来自于家族PF00008，另一些来自于家族PF07974。具有该CDP的序列(原则上)能够采取两种结构。优选这些结构上不同的CDP获得结构进化。

由于DBP难以直接控制，而CDP通过基因合成容易控制，因此CDP是最优选的控制DBP和结构的方法。

有用的CDP的鉴定：通过分析蛋白质数据库如Swiss-Prot或TranslatedEMBL(Trembl)可以发现有用的CDP。组合来自Swiss-Prot和Pfam和注解半胱氨酸键合模式的信息的数据库由Gupta(Gupta，A.，等人.(2004)Protein Sci，13：2045-58)描述。可以对这些数据库检索含有高百分比的半胱氨酸残基的蛋白质序列，它们是微生物蛋白质典型的。人们可以计算保守或相邻半胱氨酸残基之间的距离，以得到CDP，然后检索多次出现的CDP。如果许多自然序列具有相同的CDP，则CDP特别有意义，因为这提示该CDP允许有广泛的序列多样性。有用的CDP避免了相邻半胱氨酸残基之间的长距离(“长环”)，因为这更可能被蛋白酶攻击，并且更可能产生长度足够结合于MHC分子裂缝中的肽。特别感兴趣的是其中距离均不超过15、14、13、12或11个氨基酸的CDP。更优选的是其中相邻半胱氨酸残基之间的距离均不超过10，9或8个残基的CDP。特别感兴趣的是来自具有低丰度疏水性氨基酸如色氨酸、苯丙氨酸、酪氨酸、亮氨酸、缬氨酸、甲硫氨酸、异亮氨酸的家族的CDP。这些疏水性残基以大约34％的频率出现在典型蛋白质中，并且与非特异性、疏水性结合有关。特别感兴趣的CDP含有多个具有少于30、28、26、24或22％的疏水性残基的成员。特别感兴趣的是显示高序列多样性的成员的CDP。表2给出了可以用作非常有用的微生物蛋白质文库支架的CDP的例子。[表3]给出了最优选的CDP。

表2.示例性CDP列表

标为“成员”的列显示具有特别CDP的自然序列的编号，这些序列在Gupta(Gupta，A.，等人.(2004)Protein Sci，13：2045-58)描述的数据库中确认。“n”是簇中的二硫键数。“结构域长度”是CDP的氨基酸残基数目(第一个cys到最后一个cys)。列n1到n7列出了分隔簇中半胱氨酸残基的非半胱氨酸残基的数目。n2＝6的意思是C2与C3之间的环为6个氨基酸长，不包括半胱氨酸。

表3.示例性CDP列表

“成员”给出了具有特定CDP的自然序列的编号，它们在Gupta(Gupta，A.，等人.(2004)Protein Sci，13：2045-58)描述的数据库中确认。“n”给出了簇中二硫键的数目。“结构域长度”给出了CDP的氨基酸残基数目(第一个cys到最后一个cys)。列n1到n7列出了分隔簇中半胱氨酸残基的非半胱氨酸残基的数目(“环长度”)。

某些半胱氨酸间环需要大小固定，同时其他环可能适应一定的长度多样性。在自然序列家族中存在的长度多样性是估计特定环可接受什么样的长度变化的一种方法。这种允许的长度变化的范围从-10，9，8，7，6，5，4，3，2，1个氨基酸到+1、2、3、4、5、6、7、8、9或10个氨基酸。

DBP的定向进化和克隆组的蛋白质折叠：大量的二硫键键合模式(DBPs)是可以用来优化HDD(′高二硫键密度′)蛋白质的另一个自由度，不可用于非HDD蛋白质，甚至具有许多二硫键的那些。一个因素是在较大的蛋白质中，二硫键相距较远，不可能反应，除非其他固定序列折叠蛋白质，使得半胱氨酸以高局部浓度和正确方向集合在一起。因此，半胱氨酸在较大蛋白质的折叠中具有相对较低的重要性作用。具有疏水核的较大蛋白质倾向于具有许多参与产生3D结构的侧链接触。在这种如Hubert Yockey(1974)定义的所谓的信息含量方案中，DBP在统计学上锁定在位置上，并且DBP中的进化改变是十分不可能的。结构进化可能只适用于具有低信息含量的蛋白质，这些蛋白质具有较少的结构和功能所需的残基。定义为对随机诱变敏感性的蛋白质的信息含量不仅仅作为蛋白质进化年龄的函数增加额外的时间。例如，当基因复制时，两个拷贝中的一个自由进化，并且有效地具有极低的信息含量，即使其信息含量高，如果只存在一个基因拷贝。在低信息含量的情况中，可能发生大量的氨基酸突变和主要的结构变化，如果它们在单拷贝基因中发生则可能是致死性的。蛋白质的信息含量也取决于所考虑的特定功能方面，某些功能(即催化)具有比其他功能更高的信息含量(即，基于9氨基酸T细胞表位的疫苗)。多余度在有毒动物中共同的，每种一般在其毒液中具有超过100种不同的来源于相同或不同基因的毒素。多余度可能有助于HDD蛋白质的快速进化，作为编码广泛多样性的毒素的多拷贝的相同基因和/或单拷贝的不同基因。

已经针对靶标结合而选择的一组克隆可能只有提供结合功能的结构域的部分(亚结构域或微结构域，或者一个或多个环)。在典型的10e10文库中最佳的克隆只有大约7个完全优化的氨基酸。这是因为可能在一个淘选循环中添加的最大(平均)信息含量是文库的大小(即10¹⁰)。通常需要多拷贝的文库产生和筛查来积累信息含量。10¹⁰的三个循环在理论上可以产生多达10³⁰的信息含量，但是由于对相加性的实际限制，一般这个数字远低于此。一般而言，结构域中的大多数氨基酸不直接接触靶标，它们被多种氨基酸置换，如果不是全部的话。结构进化的一个目的是进化非结合部分的DBP，产生修饰的结构，产生较高亲和力的靶标结合，而不产生结合靶标部分的氨基酸序列的任何变化。

一种优选的方法是从每个单序列促进多结构的信息，在第一个循环中或在通过一个多个淘选循环减少多样性从而使其具有大量(＞10⁴)拷贝的每种噬菌体克隆之后，每个拷贝能够采取不同的DBP和结构。在淘选之前提高文库中结构多样性的一种方法是在将文库加热10-30秒之后向文库中突然添加高浓度的氧化剂，以除去可能已经形成的任何部分折叠的结构。在蛋白质有

会退火并利用其折叠途径之前，二硫键的突然形成应当导致多样性提高，尽管这种方法可能降低得到的折叠的平均质量。相反的方法用来获得均一的折叠，一般包括通过透析逐渐除去还原剂，导致逐渐折叠和逐渐的巯基氧化。该方法也可能涉及温度的逐步下降，类似于寡核苷酸的退火。如果在第一轮淘选中将DBP-多样化应用于文库，重要的是产生大文库过量，例如比不同克隆数(一般为10⁹-10¹⁰)多10⁵倍的颗粒，以涵盖可能由每个序列产生的大量的不同结构。

DBP的多样化：通过使相同文库的等份经历多样化的不同条件，可以将DBP谱和分布多样化。这些条件包括一定范围的pH、温度、氧化剂、还原剂如DTT(二硫苏糖醇)、BME(β-巯基乙醇)、谷胱甘肽、聚乙二醇(分子聚集，因此少有的DBP可能成为更频繁的)，等等。

多支架文库：为了鉴定与靶标高亲和力结合的微生物蛋白质结构域，可以按照以下三个法使用多支架文库：

1.根据多支架或半胱氨酸距离模式(CDPs)和随机化方案建立亚文库。

2.通过在目标靶标上淘选大量亚文库鉴定最初的命中。这可以通过分开淘选每个文库或者通过淘选亚文库的混合物来进行。

3.通过亲和力成熟优化最初的命中，亲和力成熟是一种包括诱变和选择或筛选的循环过程。

多支架文库的使用显著不同于集中于单个支架的传统方法。在单个支架文库中，大多数文库成员具有类似的总体结构或折叠，并且它们主要在氨基酸侧链上不同。单支架文库的例子基于纤连蛋白(Koide，A.，等人.(1998)J MolBiol，284：1141-51)、脂质运载蛋白(Beste，G.，等人.(1999)Proc Natl Acad Sci U SA，96：1898-903)或蛋白A-结构域(Nord，K.，等人.(1997)Nat Biotechnol，15：772-)。Binz，H.K.，等人.(2005)Nat Biotechnol，23：1257-68已经描述了许多另外的支架。在某些情况中，单支架文库含有在个体环长度上显示小差异的成员，例如抗体文库的CDR。单支架文库倾向于涵盖有限量的形状空间。结果，通常获得低亲和力结合体。这些分子不能很好地匹配它们的靶标的形状。然而，形成接触区的氨基酸已经优化为部分补偿形状互补的缺乏。许多出版物描述

为了增强支架和靶标之间接触面中的氨基酸多样性而提高文库大小的尝试(即核糖体展示、组合噬菌体文库)。单支架文库产生的最初命中可以通过亲和力成熟进一步优化。然而，该方法一般集中于结合蛋白质中外部、CDR样环的小变化，并且不影响结构域的总体结构。还没有固定支架的亲和力成熟导致结合蛋白质的总体折叠和结构较大改变的例子；在发生较大变化的极少情况下，这些克隆通常被消除，因为它们的免疫原性和生产性质被认为是不可预测的。

多支架文库含有具有(通常无关的)支架多样性的克隆，在总体结构上具有大的差异。通常，每个CDP代表不同的形状，每个亚文库含有一组突变体，这些突变体极少地在特定CDP周围的序列空间采样。通过(从多个亚文库，每一个具有不同的CDP)测试具有多种不同形状的分子，增加了鉴定其结构与靶标表面密切互补的结合蛋白质的机会。因为每个亚文库代表相对较小的围绕CDP的序列空间的样本，不可能由该方法获得最佳结合序列。从多支架文库的最初命中模拟了它们的靶标的形状，但是命中和靶标之间的接触表面的精细结构可能是次佳的。结果，在随后的集中于优化特定蛋白质序列而不显著改变其结构的亲和力成熟过程中可能实现结合亲和力的进一步改善。简单地说，目的是发现适合靶标的最佳结构，然后发现配合该结构的最佳序列，并提供与靶标的最佳互补性。

发现新支架的实验方法：进行文库设计的另外一种方法是通过使设计的多样性竞争，而计算蛋白质的最佳方案。选择完全折叠的和良好表达的蛋白质并测序。优选具有最高折叠蛋白质比例的设计(对输入数进行校正)。有几种不同的方法用于发现优选的CDP和序列基序。

方法1：随机CDP，随机序列

随机间隔和序列法不是基于天然多样性中存在的间距或序列，因此能够发现与它们接受随机序列的能力成比例的新的现有的含cys-间隔模式。

该方法包括制备宽的开放文库，如10¹⁰展示文库，具有设计CX(0-8)CX(0-8)CX0-8)CX(0-8)CX(0-8)C，然后使用琼脂糖对25-35个氨基酸的总长度进行选择，在大肠杆菌中表达，然后(任选地)使用游离巯基柱从展

文库中除去所有解折叠的蛋白质，(或者筛选各个克隆的表达水平)，并且对编码良好表达并且完全折叠的蛋白质的200-1000个克隆进行测序。

所有距离模式在文库中以类似的频率发生。我们期望在自然蛋白质中发生的间隔/距离模式中发现强烈的偏性，但是许多间隔模式是新的。例如，如果距离模式A只允许0.01％的折叠蛋白质，而模式B得到10％的折叠蛋白质，则具有模式B的克隆的发生应当比具有模式B的克隆频繁1000倍。对1000个克隆测序应当足以鉴定10-30间距，这最能够折叠，而与环序列无关。用该方法发现的许多间隔模式可能是新的，然后用于基于这些间隔制备单独的文库。

在下一方面中，通过该方法发现的新间隔一般与基于自然家族的间隔组合。

方法2：自然CDP，随机序列

10-100种特定自然家族的CDP使用随机氨基酸组合物(即NNN，NNK，NNS或类似的密码子)合成，然后作为单一集合转化为文库，如上所述对折叠和表达进行选择或者筛选，然后对最佳折叠的和表达的克隆进行测序。该方法根据接受随机序列的能力产生天然家族的支架的排序。该方法倾向于产生较高平均水平的质量，因为折叠克隆的比例高于随机CDP法，但是不能评价太多的支架。

在选择优选的间隔模式后，我们确定在特定间隔模式中哪些非cys残基是改善折叠所需要的。

方法3：天然CDP，天然氨基酸序列混合物

使用在每个位点处存在的氨基酸组成的天然混合物(根据比对确定)合成10-100种特定天然家族的间隔模式，然后转化为文库作为单一集合，如上所述对折叠和表达进行选择或筛选，然后对最佳折叠和表达的克隆测序。该方法倾向于产生最高平均水平的质量，折叠克隆的比例将大大高于以前的方法，但是或多或少地限于已经开发的序列空间性质的高密度检索。

最高质量的文库(即立即可用于商业目的的)通过合成具有全部固定非cys残基、但是在每一位点具有一定变化的的天然家族(天然CDP)产生。良好

叠的克隆的序列分析告诉我们哪些固定残基是真正需要的，以及哪些残基变化是允许的。

结构进化：含二硫键蛋白质折叠为良好限定的3-D结构主要取决于体内和体外还原环境的性质。例如，二硫键的还原可以导致蛋白质结构完全丢失，强调了二硫键对于结构保持的重要性。另一方面，在完全还原和解折叠的蛋白质的折叠过程中，许多理论二硫键异构体可能是由于折叠过程中密切接触的半胱氨酸的氧化。含有四个半胱氨酸的蛋白质有三种理论的二硫键异构体，具有6个半胱氨酸的有15种异构体，具有8个半胱氨酸的有105个异构体，等等。在蛋白质折叠过程中也观察到这种多样的和通常非生产性的异构体，但是在天然构象中通常只显示一个组合的半胱氨酸配对。这是为什么大多数研究人员认为二硫键异构体是体外折叠研究中的一个主要问题的原因。然而，二硫键异构化可以用于富含二硫键的微生物蛋白质的结构多样性的进化。由于它们的小尺寸和高二硫键含量，这些蛋白质通常仅依赖于半胱氨酸的共价键来保持折叠构象。许多微生物蛋白质完全缺少疏水核，这被认为是大蛋白质折叠的普通力。对于微生物蛋白质家族的一个成员生长调节素B和蛇芋螺毒素，已经在实验中观察到不同的二硫键异构体(Y.Kamikubo，等人.(2004)Biochemistry，43：6519-34；J.L.Dutton，等人.(2002)J Biol Chem，277：48849-57)。然而，这些文件描述了存在多种异构体是需要解决的一个问题，而不是作为用于蛋白质设计的机会。因此可以发展通常可应用的概念和实验程序，来使用二硫键异构化作为微生物蛋白质结构进化的驱动力。

通过二硫键改组的结构进化：参见图152，153，154。下面的章节提供了利用二硫键异构体进行结构进化的具体实验方法。在与特定微生物蛋白质融合的噬菌体颗粒分泌后，这些颗粒经受高度还原条件，通过与毫摩尔浓度的还原型谷胱甘肽，一种氧化还原活性的含二硫键三肽，混合物孵育。然后在含有毫摩尔浓度的EDTA的缓冲液中从还原剂中纯化噬菌体颗粒，以防止游离巯基的空气氧化。该文库将含有大量还原的和结构多样性的多肽链。在接触这些还原的异构体混合物后，该文库在靶标结合过程中经受氧化条件，例如毫摩尔浓度的氧化型谷胱甘肽，以通过巯基的氧化锁定有利的微生物蛋白质构象。对于最初以还原态与它们的靶标相互作用，然后通过快速氧化锁定结合构象的微生物蛋白质结合体，选择这种方法。选择的微生物蛋白质集合与靶蛋白质形状互补，该方法被称为二硫键依赖的靶标诱导的折叠。选择最佳的结合体，并进行另外的定向进化循环(诱变和淘选)，直到以靶标独立的方式得到活性和完全氧化的构象，使得诱导期望的构象不再需要靶标，产生更易于制备的化合物。

此外，噬菌体文库经受中等氧化还原能力的缓冲液，使二硫键改组。这可以通过选择具有不同的氧化型和还原型谷胱甘肽比例的缓冲液组合物容易地实现。这只允许半胱氨酸残基亚组的部分氧化和随后的二硫键改组，例如已存在的键的断裂和再形成，有利于大多数二硫键的积累。因此，在这些条件下存在一组多种不同的结构组合(依赖于给定微生物蛋白质的半胱氨酸残基的数目)。然后选择最强的克隆，进行另一轮二硫键改组(进行或不进行氨基酸序列优化)。

通过二硫键的共价靶标结合：与长期坚持的观点不同，最近的工作显示二硫键的特异性还原可以在胞外环境中发生(P.J.Hogg(2003)Trends BiochemSci，28：210-4)。内皮细胞显示向上清液中分泌还原活性，可以确定为是血小板反应蛋白-1，一种在钙结合结构域中具有氧化还原活性巯基的糖蛋白(J.E.Pimanda，等人.(2002)Blood，100：2832-8)。明显地，血小板反应蛋白-1的游离巯基通过还原分子间二硫键控制粘附蛋白质von Willebrand因子的长度。这些发现可以用来共价连接新的微生物蛋白质和含二硫键的靶蛋白质。选择该方法用于在靶蛋白质中二硫键附近结合的部分还原的和氧化还原活性的微生物蛋白质。例如，在与靶蛋白质结合后，选择微生物蛋白质变体的噬菌体展示文库来抵抗氧化条件下的洗涤，但是在还原条件下洗涤时特异性地洗脱。因此，在蛋白质进化过程中，将形成某些稳定微生物蛋白质结构的二硫键，同时选择另外一些用于氧化还原活性游离巯基。

结构多样性的进化是指特定克隆经历的结构的变化。结构变化一般依赖于序列变化，但是甚至两个相同的序列也可能采用不同的结构。结构差异可以是在二硫键键合模式或折叠水平上的，通常是由于结构上显著的环长度的变化。结构进化不同于结构多样性(例如许多多支架文库使用的)，其中使用多支架结构，但是每个克隆总是采用它亲本序列的结构。在结构进化中，每个克隆可能具有与它的亲本序列不同的结构。

图155显示了占优势的3SS键合模式(18种不同的天然家族)和一步可以由其产生的二硫化物变体。大多数天然存在的家族在一步优势模式(14 2536)之内。图155还显示了通过向优势3SS模式(14 25 36)上增加一个二硫键可以产生的4SS变体，而不需要改变任何现有的二硫键。11/15的天然存在的4SS键合模式可以通过向优势3SS模式上增加一个二硫键而获得，不需要断裂任何3SS二硫键模式。由于总共有105种，数据提示强烈倾向于向已有的3SS蛋白质上增加二硫键。我认为这种分析应当能够回答优选路径是否是反向的，即从4SS蛋白质上删除二硫键产生3SS蛋白质。除非数据库不完全而影响了这些结果(有可能)，否则142536和通过添加一个二硫键获得的其4SS衍生物是优选的起点。

微生物蛋白质集结法：集结法的目的是获得结合蛋白质对靶标的逐步亲和力成熟。在每个循环时，通过向前一选择循环的产物上添加一对半胱氨酸加随机化的序列(一般是新环)产生文库，然后进行文库淘选来选择对靶标具有最高亲和力或活性的克隆。起点可以是单一序列或一组序列，起点的随机化区的序列可以是已知的或未知的。

产生1-二硫键(“1SS”)作为起点：可以使用集结法从含二硫键的单蛋白质产生具有2个或更多二硫键的新的微生物蛋白质。一种集结法开始于含有两个固定半胱氨酸残基的蛋白质(1-二硫键或“1SS”蛋白质)。任选地该蛋白质可以具有与优选的(一般是天然的)二硫键键合模式的一个环中发现的相同的半胱氨酸间距或长度(称为“跨度”，不包括半胱氨酸)。这种相似性使得容易将1SS蛋白质移植到已有的2SS、3SS、4SS或更高级的支架中。1SS文库的跨度一般是0-20个氨基酸长度，优选5、6、7、8、9、10、11、12、13、14、15个，更优选7、8、9、10、11、12个，理想地9、10、11个氨基酸长度。可以在对半胱氨酸以外(即环或“跨度”以外)另外随机化残基。最初的1SS蛋白质一般在半胱氨酸之间完全或部分随机化，但是有时它含有固定的氨基酸(半胱氨酸以外的)，提供折叠或对靶分子的亲和力。

从1SS到2SS或更高支架的集结：一种成熟以前选择的1SS蛋白质的方法是在固定位置中或者在多个优选位置中提供两个新的cys残基作为文库。一般而言，位于这两个新残基侧面的残基半胱氨酸以及新环将被随机化。

具有奇数个半胱氨酸的蛋白质倾向于毒性和/或表达较差，并且被表达宿主有效地清除。因此，即使编码随机数目的半胱氨酸，只有编码偶数半胱氨酸的DNA序列才表达为功能性噬菌体颗粒。因此，一种将以前选择的(一组)1SS肽扩大为(一组)2SS肽的方法是产生具有三分之一固定的半胱氨酸以及较大(和可变)数目的随机化残基的文库，其中一些预期在统计学上编码Cys残基。已知一部分这些随机化位置编码半胱氨酸残基，并且在通过噬菌体生长除去具有奇数个半胱氨酸的序列后，具有第二对半胱氨酸的2SS蛋白质将占噬菌体文库的＞50％，优选＞60-80％，或者有时甚至＞90-95％。新的半胱氨酸和/或新随机化的区域可以任一个或两个都位于起始蛋白质的N-末端侧面上，或者任一个或两个都位于该蛋白质的C-末端侧面上，或者，较少见地，位于起始蛋白质序列的内部。二硫键键合模式可能在集结过程中改变。原二硫键可以被替换为连接不同半胱氨酸的二硫键(新DBP)。

延伸方法：与靶标结合的(任意长度或二硫键数目的)蛋白质可以与随机化的文库序列融合而延伸，一般包含一对(或多对)被一定数目的随机位点隔开并任选地具有可变间距的半胱氨酸。对于对靶分子的增强的结合亲和力，选择这种蛋白质的文库。该方法可能导致不同序列的与第一结合位点分别折叠的第二结合位点。

二聚化方法：特别是对于为同型多聚体或位于细胞表面上的靶标，有吸引力的是复制以前选择的结合位点，产生相同的含二硫键序列的二聚体、三聚体、四聚体、五聚体或六聚体，每一个能够与靶标上的相同位点结合。如果靶标可以与多个位点同时结合，则结合亲合力增加。最佳亲合力一般需要通过检测不同长度和任选的不同组成的间隔区变化来优化结合位点之间的间距。本文中描述了与人VEGF结合的同型二聚微生物蛋白质的一个例子。在结合位点之间使用由Gly-Ser组成的间隔区，其长度可以调节以提供对于

聚VEGF靶标最佳的亲合力。

现有CDP的系列：可能以这种方式添加二硫键，使得每个1SS、2SS或3SS构建体的间距(“半胱氨酸距离模式”，CDP)与已有蛋白质家族的CDP相同，使得，例如，集结的每个阶段使用天然CDP。也可能将选择的1SS或2SS蛋白质移植到已有的3SS、4SS或5SS支架中具有类似环长度的位置。可以为了改变存在的二硫键键合模式的目的添加二硫键，产生结构变体或DBP变体的文库，或者保持存在的键合模式。DBP的控制主要依赖于新的半胱氨酸对和新随机化的序列是否只添加到起始蛋白质的一端上(倾向于保持现有的DBP)或者它们是否添加到现有蛋白质的两侧(即在每一侧一个半胱氨酸)，这倾向于导致DBP的改变。如果希望保持已有的二硫键，则有助于在老的半胱氨酸对和新增加的半胱氨酸对之间保留某些额外的间隔残基。这种间隔区可能具有任意序列，但是优选富含甘氨酸的间隔区(即GGS或GGGGS的多聚体)。如果靶分子是二聚体(可溶性的)或细胞结合的，则长度足以使两种微生物蛋白质基序与其靶标结合的间隔区导致在两个位点处同时结合，导致亲合力或表观亲合力提高。

大引物法的集结：大引物法允许从旧的文库产生新的文库，避免了存在序列文库引起的复杂性。产生含有以前选择的1SS蛋白质集合的PCR片段，该片段与编码具有一个或两个新Cys残基的新文库的新DNA片段(oligo或PCR产物)重叠。由这种重叠片段产生ssDNA失控PCR产物(“大引物”)，其含有与载体同源的末端，与载体退火，用来驱动Kunkel-样蛋白酶延伸反应，使用在将被大引物替换的区域含有终止密码子的模板。或者，可以利用一对独特的限制性位点在以前选择的载体文库内产生新文库。与噬菌体蛋白pIII或pVIII的基因融合允许在噬菌体衣壳上呈现蛋白质。具有偶数个半胱氨酸的蛋白质可以通过以下分泌：i)噬菌体生长，ii)亲和力选择，iii)游离巯基纯化，和/或iv)DNA序列筛选。该方法的一个或多个循环可以用来建立从1SS、2SS、3SS、4SS、5SS、6SS或更高二硫键数目的二硫键含量。可以利用任意二硫键数目作为起点。

大量具体的示例性集结方法在下文描述。

234设计方法：参见图138。一种优选的方法被称为“234”，因为它包括第一次产生和淘选含有所有三种键合模式混合物的2个二硫键的文库，然后选择一组最佳克隆，用于产生具有另外的(部分)随机化的氨基酸位点和另外一对半胱氨酸的新文库，从而形成三个二硫键的文库，其可以采用多达15种不同的结构，其中一些具有形成不同键合模式的原来四个半胱氨酸，从而允许原2SS序列的结构进化。每个“文库延伸片段”一般编码几个密码子，它们编码氨基酸混合物(即由NNK、NNS或类似的混合密码子编码)加一个或多个半胱氨酸(位于外部)，并且可以添加到以前选择的序列组的5′或N-末端，或以前选择的序列组的3′或C-末端，或者两端。为了避免游离巯基，希望向每个克隆中添加偶数个半胱氨酸(2、4、6)。这可以通过向两端添加文库延伸片段而实现(每一端1个半胱氨酸和4-5个随机化的密码子)，或者作为编码两个(或4或6个)半胱氨酸的一个片段和6-8个多义密码子(编码期望的氨基酸混合物)，它只添加到C-末端或只添加到N-末端上。该方法可以重复多次。

234定向进化方法因此包括以下步骤：初始文库构建(2SS)，靶标淘选，(任选的：单个克隆的筛选和最佳克隆的合并)，延伸文库构建(3SS)，靶标淘选，(任选的：单个克隆的筛选和最佳克隆的合并)，延伸文库构建(4SS)，靶标淘选，和单个克隆的最终筛选，以鉴定最佳的4SS结合体。

可以设计该方法的许多变化。可能使用4、5、6、7或更多的二硫键，例如，制备两个二硫键的跳跃代替1个二硫键的跳跃，或者针对一种靶标淘选一个文库，以及针对第二种靶标淘选下一个文库，其中这些靶标可以相关或无关。

一种优选的方法是制备2SS文库，其CDP也在天然3SS蛋白质中发现(优选地相同)，并且制备3SS文库，其CDP也在天然4SS蛋白质中发现；这样，可以合理地确定2SS蛋白质可以成熟为3SS，3SS蛋白质可以成熟为4SS蛋白质.

3x0-8和4x0-8设计法：参见图139。“3x0-8”和“4x0-8”优选的设计法目的在于产生全部15种3-二硫键的结构或者全部105种4-二硫键的结构，以便为了淘选靶标表现最大的结构多样性和序列多样性。相同的方法可以扩

到5-，6-或7-二硫键微生物蛋白质(5x0-8，6x0-8，7x08)。

所有天然3-二硫键微生物蛋白质的环长度的分析显示这些环倾向于大小范围为0-10个氨基酸。5个环(C1-C2，C2-C3，C3-C4和C5-C6)的平均值非常类似(在由于不想要而除去一些最长的环之后，范围为0-8到3-12)，尽管在不同支架家族之间环的大小存在明显差异。例如，芋螺毒素中的环C1-C2为6个氨基酸长，而anato结构域中为0个氨基酸，尽管两种具有相同的二硫键键合模式。

预测基序C1x_0-8C2x_3-10C3x_0-10C4x_0-8C5x_0-9C6覆盖天然3SS蛋白质序列和大多数具有有用性质的未知3SS微生物蛋白质的90％以上。使用长度相等的环，如0-8，文库构建方法较容易，产生文库基序C1x_0-8C2x_0-8C3x_0-8C4x_0-8C5x_0-8C6或该设计的4SS形式，即C1x_0-8C2x_0-8C3x_0-8C4x_0-8C5x_0-8C6x_0-8C7x_0-8C8。可以使用的其他环长度是0-10、0-9、0-8、0-7、0-6、0-5、0-4、1-5、1-6、1-7、1-8、1-9或1-10，尽管预期大多数环长度都有效。

这种文库类型预期含有大量的不均匀折叠的序列，意味着它们能够采用多种不贩结构，并且不能容易地以均一形式产生。这种不均一性对于蛋白质产生是不利的，但是提高的多样性对于淘选和早期配体发现来说是一个优点。

在合成蛋白质多样性的传统展示文库中，所有克隆都具有相同的固定蛋白质支架。尽管产生巨大的序列多样性，它们均具有相同的结构，不存在显著的结构多样性。相反，3x0-8和4x0-8文库含有大致相等的15种或甚至105种极其不同的结构的混合物。

一种典型的噬菌体展示文库含有10⁹至10¹⁰种不同的克隆，一般每个具有不同的序列。然而，所淘选的是一组大约10e13个噬菌体颗粒，平均含有大约1000-10,000个把拷贝的每种序列或克隆。这个拷贝数被称为“文库当量数”。由于二硫键形成引起的折叠不均一性，相同序列的1000-10,000个拷贝中的每一个可以采用不同的结构。因此3x0-8、4x0-8或5x0-8文库的有效文库大小比单支架文库大10、100或1000倍。这种设计的文库因此预期含有所有或大多数理论上可能的结构、二硫键键合模式和折叠。

为了保持较小的平均蛋白质、防止不期望的结构形成以及提高期望的结构的频率，可能缩小环的长度范围。可以合适中等的环长度，如2-6、2-7、2-8、2-9或2-10个氨基酸，或3-4、3-5、3-6、3-7、3-8、3-9或3-10个氨基酸，或4-5、4-6、4-7、4-8、4-9或4-10个氨基酸或5-6、5-7、5-8、5-9或5-10个氨基酸。

也可以为文库挑选一个固定的环长度，一般为1、2、3、4、5、6、7、8、9或10个氨基酸长。

使平均蛋白质大小保持较小的一种补充方法是使用DNA片段大小凝胶来选择编码上限为20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、50、55、60个氨基酸、下限为13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34或35个氨基酸的DNA片段。

4X6设计方法：参见图140。一种优选的方法是“3x6”或“4x6”法，它开始于具有3或4个二硫键和6个可能具有可变序列的氨基酸的固定环大小的文库。4X6文库的蛋白质基序是C1x₆C2x₆C3x₆C4x₆C5x₆C6x₆C7x₆C8(下标表示可能含有碱基混合物的氨基酸位点号(通常由NNK、NNS或类似的多义密码子编码；C后面的数字是指半胱氨酸在蛋白质中从N-到C-末端的顺序)。在天然微生物蛋白质家族中，键合在一起的半胱氨酸在蛋白质链主链上被平均10-14个氨基酸(平均12个)分开；我们称这种距离为“二硫键跨度”。该跨度极少少于大约8-9个氨基酸。当相邻的半胱氨酸二硫键时，它们形成亚结构域，这对于大多数应用是不希望的，因为它具有自身热和蛋白酶不稳定性谱。这些不希望的亚结构域可以选择太短而使相邻半胱氨酸不能键合的环长度来消除，即少于9个氨基酸。6个氨基酸的固定间距似乎特别有利，因为它防止了亚结构并且产生其中(不相邻的)半胱氨酸间隔12个氨基酸的多个位置，这是理想的，因为这是天然蛋白质的平均值。消除亚结构域除去了69种最差的4SS二硫键键合模式，并且可能只产生36种最佳的4SS二硫键键合模式。4、5、7或8个氨基酸的固定间距或其组合也是可行的。

大多数已知的3SS毒素包含在具有以下组成的单“全支架”文库中：

-(x_0-10)-C2-(x_2-12)-C3-(x_0-10)-C4-(x_0-10)-C5-(x_0-12)-C6。这种文库另外含有大多数未知的天然毒素和甚至更多数目的非天然存在的毒素。这种文库编码的蛋白质的平均长度为：1+5+1+7+1+5+1+5+1+5+1＝33个氨基酸。

为了产生较短的蛋白质，可以使用比编码长序列的oligos摩尔比更高的编码短序列的oligos，或者将最大环长度限制为只有8个氨基酸而不是10-12个氨基酸。

类似地，具有以下组成的全支架文库将含有大多数4-二硫键HDD毒素，具有105种不同的二硫键键合模式和超过一千种蛋白质折叠：

C1-(x_0-10)-C2-(x_0-10)-C3-(x_0-10)-C4-(x_0-10)-C5-(x_0-10)-C6-(x_0-10)-C7-(x_0-10)-C8

5-二硫键“全支架”文库将表示为：

C1-(x_0-10)-C2-(x_0-10)-C3-(x_0-10)-C4-(x_0-10)-C5-(x_0-10)-C6-(x_0-10)-C7-(x_0-10)-C8-(x_0-10)-C9-(x_0-10)-C10。

x一般代表所需的氨基酸混合物。尽管可以使用NNN密码子编码氨基酸混合物，但是其他密码子具有优点。每个密码子提供不同的氨基酸混合物。

例如，NNK使终止密码子的频率降低了3倍。不同的密码子可用于不同的应用。有利于亲水性氨基酸的混合物是期望的，避免终止密码子、色氨酸、其他疏水性氨基酸和在环中避免半胱氨酸也是期望的。分子生物学知道如何选择产生所期望的混合物的密码子。一般用来选择的密码子含有A、C、G、T或混合碱基字母N、M、K、S、W、Y、R、B、D、V或H作为密码子中的第一个碱基，含有A、C、G、T或混合碱基字母N、M、K、S、W、Y、R、B、D、V或H作为密码子中的第二个碱基，含有A、C、G、T或混合碱基字母N、M、K、S、W、Y、R、B、D、V或H作为密码子中的第三个碱基，产生大量可能的密码子，均编码不同氨基酸混合物。

天然HDD蛋白质的环序列含有数目较少的固定残基，可能在蛋白质折叠中起作用。以前的方法只是使用随机密码子并为这些残基提供多样性，如果它们对于折叠确实重要的话。与每个位点使用天然氨基酸组成的文库相比，这种随机密码子方法将导致较低的文库质量，但是在研究新折叠潜力方面可能最好。

然而，例如如果W是折叠或功能所需要的，但是在该位置使用NNK密码子，则该文库中只有1/64的克隆满足这一要求，因此文库的有效大小减少64倍，这可能足以阻止获得有用的结合体。因此在天然序列中显示固定的任意残基在文库中也固定可能是重要的。

使用随机密码子(NNK或上述其他多种密码子中的一种)的一种替代方法是合成具有特定蛋白质家族的环的共有序列的寡核苷酸。该方法需要环2设计只引入文库的环2位置，环3序列只引入环3位置。如果发生重叠反应的半胱氨酸均被三个半胱氨酸密码子中不同的一个编码，这可以实现。为了提供更有效的重叠PCR反应，在cys密码子之前或之后的1至3个碱基也可以固定。重叠反应效率可以可以限制文库的多样性，因此这是一个不能容易地检测或控制的重要的风险。通常，添加少数碱基是降低低文库多样性严重风险的一个有效的方法。

在混合用于不同家族的所有环序列并通过重叠PCR将其引入之后，所有合成环序列只应当出现在它们的自然位置。该文库方法导致环从不同家族彼此相对地改组。

提高文库多样性：自然和定向进化的能力与经受选择压力的多样性有关。从大量更多样性的克隆中选择通常产生更好的结果。生物体利用多种方法提高蛋白质结构的多样性超过基因数量。这种扩展的自然多样性提供了更多作用于以及提高自然进化能力的选择方案。

有多种不同的方法可以提高可从相同数量的克隆或序列获得的结构的多样性，目的在于提高定向进化的能力。

这一原则可以应用于单基因、多基因途径、全基因组(原核生物、古细胞、真核生物)以及甚至整个生物群落(即微生物群落)的优化。

通常，单基因的表达产生多种不同的mRNA序列。这可能是由于多种启动子，由于选择性剪接、trans-剪接或降解。每种mRNA序列可以不同地折叠，采用多种不同的结构，结果也可以通过其他RNA(微-、tRNAs或mRNAs)以及与RNA相互作用的蛋白质的存在来调节。其中每种mRNA结构可以略微不同地翻译，通过多翻译起始和终止信号的存在，在核糖体上具有不同中

的变体，或程度较低但是可变的氨基酸错掺入，包括“非天然”氨基酸。另外，每种蛋白质翻译产物可以不同地折叠，有些聚集，有些错折叠，有些被蛋白酶降解，有些折叠为多稳定结构。一个重要的且实用的分化机制是蛋白质的衍生化，氨基酸链的化学改变和小分子如糖和聚合物如如PEG与蛋白质链的化学连接。这些化学方法可以用于整个文库(大多数)或纯化的单一蛋白质。

当应用于文库时，它们可以显著提高多样性，尤其是在保守应用时，使得获得不均一的群体。例如，PEG或碳水化合物分子与含有5个赖氨酸的蛋白质文库上赖氨酸残基的非穷尽性偶联产生5-阶乘+1类型的分子(122种变体)。通过淘选选择最佳变体，并将现在的标记配方的变体用于文库当量，克隆集合或单克隆，以发现哪种配方获得最佳的结果。另外，为了保持和改善所需活性而进化并选择蛋白质的序列。最佳的突变体，例如，将丢失四个对活性没有贡献的赖氨酸，并保留在衍生化时导致活性水平提高的那个赖氨酸。所有用于蛋白质衍生化的试剂(即Pierce Chemical在线目录)原则上都可以用于该方法。在用于细胞功能的独特、稳定的结构和多样性和某些可以加速细胞进化的不稳定性之间存在精细的平衡。

这些机制中的每一种都是潜在的实验干预点：每种控制在其当前变化水平上通过自然进化设置，但是其多样性根据定向进化的目的而提高或降低。

具有特殊商业意义的领域是使用展示文库(噬菌体、酵母、细菌表面、多核糖体、核糖体、原融合或基因融合文库)定向进化结合蛋白质。已经确定最佳选择的克隆的频率和质量与文库大小直接相关。文库越大，结合体数越高，最佳克隆真好。因为这一点，已经发展了多种方法来产生越来越大的文库，例如利用组合方法将10⁶克隆的两种免疫球蛋白文库组合为10¹²克隆的的单一文库。然而，在该实例中，所有文库蛋白质具有相同的免疫球蛋白折叠，其多样性集中于对某些应用有益的单一结构即整个抗体产物内，但是不适合产生不同结构的多样性。也可以通过增加从单一序列可以产生的结构数来提高有效文库大小，而不是提高文库中的克隆数。

一种提高文库多样性的替代方法是提高每种克隆采用的结构的多样性，

不是通过提高克隆数来提高文库多样性。这可以应用脱稳定的蛋白质来获得，其更加类似于熔球，因为它们作为大多样性的结构而存在，每一种具有一部分时间。该方法允许搜索相当大的空间，包括在高度结构化的蛋白质文库中不可及的新的骨架结构。这种全球性的搜索允许鉴定全球更优化的折叠，并且可以利用进一步的定向进化产生这种新折叠的稳定折叠的并可均一制备的变体。

靶标一般是蛋白质，但也可以是核酸(DNA，RNA，PNA)、碳水化合物、脂质、代谢物或任何生物或非生物材料。由于文库蛋白质(部分)是无结构的，它采取多种不同的结构，每种很少的时间。这提高了文库的分子多样性并且有利于利用大量文库当量。为了淘选标准噬菌体文库，一般使用100个文库当量，或者如果文库多样性为10¹⁰、10¹²个噬菌体。已经在实验中发现从文库中稳定地回收特定的(有结构的)克隆需要100倍过量。对于高亲和力克降，可以使用较低的过量，对于低亲和力克隆，应当使用较高的过量。

与其他产生多样性的方法不同，我们称其为“暂时多样性”，因为这种多样性是由多种结构获得的，而每种结构仅占一部分时间。从同一基因产生多样化结构是生物进化的一个重要原则，在生物组织的多个水平上存在。

扩大展示文库的多样性：噬菌体文库一般含有大约10¹⁴个噬菌体，多样性为10¹⁰不同序列。已经确定亲和层析可以从这种文库中选择表达结合蛋白质的单序列(即10¹⁰富集)。由于实际上100％的可以高亲和力结合的噬菌体将被亲和柱结合，也可以预测通过该方法也可以容易地选择单拷贝噬菌体(10e14富集)。

噬菌体展示的肽一般以10³-10⁶种不同的不稳定构象存在，其中只有一种与柱结合。因为柱结合稳定了肽的活性构象，这些肽可以有效富集，产生富集10¹⁷-10²⁰)。骨架构象中的柔性因此提高了有效文库大小至10²⁰。在第一轮淘选之后，多样性一般已经降低1000倍，因此在随后的文库中，每个克隆由1000或更多的拷贝代表，这意味着蛋白质可能采取的所有不同的临时结构都在统计学上很好地表示。在进一步定向进化的过程中，目的是选择在具有高靶标亲和力的结构中花费越来越多时间的克隆。目的是使用各种突变方法与

选相结合逐渐改善了蛋白质的亲和力以及稳定性。

靶标-诱导的折叠：微生物蛋白质的结构可以通过靶标结合(通过在靶标结合后形成二硫键)来诱导，或者可以优化微生物蛋白质的结构同时与其靶标结合。

与靶标的结合不变地涉及一定程度的诱导契合，因此预期可稳定某些二硫键(部分结合的那些)并且脱稳定其他的二硫键，导致对还原剂的差别敏感性。在还原和氧化剂(不同浓度和时间间隔)中滴定允许快速还原和再氧化最不稳定的二硫键，如果在键合模式中具有改变，这将导致结构适应和与结合的靶标的更好契合。该方法提高具有最佳结合亲和力的克隆的存活力。

为了生产，可能需要蛋白质折叠进化为靶标独立的。

优化微生物蛋白质的氨基酸组成：大多数蛋白质或蛋白质结构域包含对于蛋白质稳定性和构象关键的疏水核。这些蛋白质的疏水核含有高比例的疏水性氨基酸。氨基酸可以基于它们的疏水性表征。已经发展了大量标准。一种常用的标准由(Levitt，M(1976)J Mol Biol 104，59，#3233)发展，它列于(Hopp，TP，等人.(1981)Proc Natl Acad Sci U S A 78，3824，#3232)中。疏水性残基可以进一步分为脂肪族残基亮氨酸、异亮氨酸、缬氨酸和甲硫氨酸，和芳香族残基色氨酸、苯丙氨酸和酪氨酸。图1比较了Brooks，DJ，等人.(2002)Mol BiolEvol 19，1645，#3234公开的所有蛋白质中氨基酸的丰度与对于Gupta，A.，等人.(2004)Protein Sci，13：2045-58公开的数据库中所含的8550种微生物蛋白质结构域计算的平均氨基酸丰度。

参见图13：蛋白质中氨基酸的丰度。该图显示微生物蛋白质倾向于具有相对于其他蛋白质显著较低的脂肪族疏水性氨基酸丰度，它在本领域中不是公知的。相反，芳香族疏水性氨基酸(W，F，Y)的丰度类似于平均蛋白质。脂肪族氨基酸的这种低丰度反映了以下事实：几个二硫键稳定了微生物蛋白质结构，这避免了对疏水核的需要。它显示了相对于其他蛋白质在微生物蛋白质中几种其他的含脂肪族碳原子的氨基酸残基(谷氨酸、赖氨酸、丙氨酸)也具有降低的丰度。

具有低疏水性的支架的应用：降低蛋白质中脂肪族氨基酸的丰度可以显提高它们在药学和其他应用中的用途。许多蛋白质倾向于在折叠过程中形成聚集体。当蛋白质在异源宿主中高浓度产生时，以及当蛋白质在体外复性时，这种情况可能加剧。聚集和错折叠可以显著降低商业生产过程中蛋白质的产量。通过减少蛋白质序列中脂肪族氨基酸的比例，人们可以降低形成聚集体的倾向，因此可以提高正确折叠的蛋白质的产量。

具有低脂肪族氨基酸丰度的蛋白质相对于其他蛋白质具有较低的免疫原性。脂肪族氨基酸倾向于提高肽与MHC的结合，这是免疫反应形成中的关键步骤。结果，含有低比例脂肪族氨基酸的蛋白质倾向于含有比大多数其他蛋白质更少的T细胞表位。

脂肪族残基具有形成疏水性相互作用的倾向。结果，具有高比例脂肪族氨基酸的蛋白质更可能以非特异性方式与其他蛋白质、膜和其他表面结合。暴露于蛋白质表面的脂肪族残基具有特别高的与其他蛋白质形成非特异性结合相互作用的倾向。由于微生物蛋白质的小尺寸，微生物蛋白质中的大多数氨基酸具有一定的表面暴露。

相应地，本发明提供一种含有20-60个氨基酸的单结构域的非天然蛋白质，其具有3个或更多的二硫键，并且其中该蛋白质与人血清暴露的蛋白质结合，并且具有少于5％的脂肪族氨基酸。如果希望，非天然蛋白质含有少于4％，3％，2％或甚至1％的脂肪族氨基酸。另外，本发明提供具有这种性质的非天然蛋白质的文库。

具有低疏水性的支架的鉴定：尽管大多数微生物蛋白质与大多数正常蛋白质相比含有较少的脂肪族氨基酸，但是不同微生物蛋白质家族之间脂肪族氨基酸含量具有显著变化。表4列出了一些微生物蛋白质家族，它们特别可以作为起点用于工程化具有低脂肪族残基丰度的药物蛋白质。

低免疫原性的蛋白质的设计：低免疫原性的蛋白质作为治疗剂是更理想的，因为当向人类施用时它们更不可能引发不希望的免疫应答。在某些方面，具有所需靶标结合特异性的所述微生物蛋白质通常比能够与相同靶标结合但是没有所需的半胱氨酸键合模式或折叠的蛋白质具有更低的免疫原性。在一个实施方案中，所述微生物蛋白质是的免疫原性低1倍，优选低2倍，优选低3倍，优选低5倍，优选低10倍，优选低100倍，优选低500倍，甚至更优选低1000倍。在某些实施方案中，低免疫原性微生物蛋白质是在此所述的HDD蛋白质。

蛋白质的免疫原性可以用程序如TEPITOPE来预测，该程序基于一大组亲和力测定，计算来源于免疫原的所有重叠的九氨基酸肽与所有主要人HMCII类等位基因的结合亲和力(Sturniolo等人.1999；www.biovation.com；www.epivax.com；www.algonomics.com)。这些程序广泛用于预测和除去人T细胞表位和，FDA鼓励它们的应用。

使用这些算法，我们发现具有25-90个残基和超过10％的半胱氨酸的微生物蛋白质一般具有比平均蛋白质低316倍的预测的结合MHCII的亲和力。图166中的红色曲线显示所有26,000种人类蛋白质的预测的免疫原性，其长度中值为372个氨基酸。蓝色曲线显示所有10,500种微生物蛋白质的预测的免疫原性，其长度中值为38个氨基酸。绿色曲线显示非天然蛋白质片段预测的免疫原性，它们具有与微生物蛋白质相同的长度分布，但是由随机选择的人类序列组成。各组平均得分的比较显示单独的微生物蛋白质大小降低一个log导致免疫原性降低67倍，微生物蛋白质的氨基酸组成产生另外4.7倍的降低。图167的上图显示脂肪族疏水性氨基酸(I、V、M、L)在TEPITOPE算法中排序为最强的接触(Sturniolo等人1999)，主要贡献于预测的免疫原性。图167的下图显示与人类蛋白质相比，这些脂肪族残基也是微生物蛋白质中最没有代表性的，说明了大多数组合物衍生的预测免疫原性的一个对数降低。

通过缺少其他蛋白质典型的疏水核，微生物蛋白质中低水平的脂肪族疏水性残基是可能的。相反，微生物蛋白质含有少量的半胱氨酸，它们交联形成链间二硫键。大量疏水性氨基酸置换为几个二硫键降低了蛋白质稳定时的最小尺寸，允许微生物蛋白质更小，并且降低了脂肪族氨基酸的频率，导致预测的免疫原性降低了3个对数。

降低的免疫原性可以用多种指标测定，包括，例如1)抗原递呈细胞(APC)如树突细胞(DC)从免疫蛋白质中释放肽的能力(抗原加工)；2)这些肽中T-细胞表位的存在，这决定了与HLA II分子的结合；3)血液中的幼稚T细胞数，它们识别APC表面上的肽-HLAII复合物；和4)血清中的抗体水平。

存在多种方法降低蛋白质的免疫原性，所有这些均适用于HDD和非HDD蛋白质。一种方法是通过计算机建模和合理设计添加二硫键。另外一种方法是利用定向进化或合理设计通过精细调节蛋白质来改善存在的二硫键。可以将二硫键置于蛋白质的内部或使半胱氨酸侧翼为具有保护作用的氨基酸侧链，保护二硫键免遭化学攻击。蛋白质的免疫原性也可以用程序如TEPITOPE或Propred预测，这些程序基于一大组亲和测定，计算来源于免疫原的所有重叠的九氨基酸肽对所有主要人HMCII类等位基因的结合亲和力(其他程序用于MHC I类)。参见，Sturniolo，T.，等人.(1999)Generation of

ssue-specific and promiscuous HLA ligand databases using DNA microarrays andvirtual HLA class II matrices.Nature Biotechnol，17：555。也参见www.algonomics.com，www.biovation.com，www.epivax.com和www.genencor.com。这些程序广泛用于预测和除去人类T细胞表位，FDA鼓励它们的应用。

产生低免疫原性微生物蛋白质的另外一种方法是通过使用化学交联剂蛋白质内交联。多种交联剂可从供应商如Pierce获得。适用的交联剂包括精氨酸反应性交联剂、同双功能交联剂如胺反应性同双功能交联剂、巯基反应性同双功能交联剂、异双功能交联剂如胺-羧基反应性异双功能交联剂、和氨基反应性异双功能交联剂。

另外一种方法是制备具有多个结合位点的小蛋白质以及将每个结构域分成两个或三个结合位点。例如，结构域的一个面结合一个靶标，另一半结合另外一种靶标。两个面可以平行设计(即同时在分开的文库中)，然后合并为一个结构域。替代方法是连续设计两个面，在面1上的残基中产生一个文库，并淘选该文库用于结合靶标1，选择一个或多个最佳克隆，并在剩余的氨基酸中产生新文库2，不用于文库1的那些，然后针对靶标2进行淘选，并且筛选与靶标2的结合体和针对靶标1的结合的保留。因为面1的氨基酸倾向于与面2的氨基酸交错，如果保守某些氨基酸固定，使得这些固定的碱

可以为通过PCR的重叠延伸提供所需的接触，则这些文库构建到一组具有不同序列的克隆中可以容易地进行。由于半胱氨酸倾向于固定，它们是用于不同寡核苷酸的重叠点的合理的选择。然而，如果具有4个或更多的碱基，则重叠更好地工作，因此可用于固定一个额外的氨基酸到半胱氨酸的任一侧上。因此两面文库的支架具有三组氨基酸和碱基：一组用于面1/文库1，一组用于面2/文库2，固定的一组用于通过重叠延伸组合两个文库。原则上能够利用限制性酶切位点，但是重叠方法通常更好地工作。

另外一种方法是通过最小化半胱氨酸间环的长度而减少蛋白质的大小。一般典型的方法是在文库中使用一定范围的环长度，其中一些自然存在，而一些短于自然发现的。

另外一种方法是提高亲水性。大多数HDD蛋白质高度亲水，这对于蛋白质的功能(特异性、非免疫原性)以及折叠可能是重要的。亲水性可以通过选择蛋白质文库每个位置使用的氨基酸混合物来控制，挑选所需密码子(混合物)用于寡核苷酸的合成。一种普通方法是模拟每个氨基酸位置的自然组成，但是可以倾向于某些期望的残基。可以通过DNA测序为大小和亲水性筛选克隆。上述各种方法可以单独使用或者组合使用。

任何所述微生物蛋白质可以用于进一步修饰。非限制性实例有HDD蛋白质，如修饰的A-结构、LNR/DSL/PD、TNFR、Anato、β整联蛋白、Kunitz和动物毒素家族毒素1，2，3，4，5，6，7，8，9，10，11，12，肌毒素，芋螺毒素、δ-和ω-Atracotoxins。此处所述的脱免疫方法可以用于多种人类或灵长类动物蛋白质，如细胞因子、生长因子、受体胞外域、趋化因子等。也可以用于其他非HDD支架蛋白质，如免疫球蛋白，包括纤连蛋白III，以及用于锚蛋白、蛋白A、遍在蛋白、晶体蛋白、脂质运载蛋白。假如免疫原性可以最小化，非人类支架是优选的过(近)天然人类蛋白质和人类来源的支架，因为与天然人类蛋白质的免疫应答的交叉反应潜力降低。

大量方法可用于测定HDD蛋白质的降低的免疫原性。例如，可以测定人或动物APC的蛋白质降解。该测定涉及向人或动物抗原呈递细胞上添加目标蛋白质，APC来源的溶酶体或APC蛋白酶，以及寻找蛋白质降解，例如通过SDS-PAGE。APC可以是来源于血液淋巴细胞或通过其他标准方法获得的树突细胞。可以使用动物而不是人类APC，或者使用细胞裂解液而不是全细胞，或者使用一种或多种纯化的enzymesor细胞部分如溶酶体。蛋白质的降解通过变性SDS-PAGE凝胶分析最容易测定。降解的蛋白质在凝胶上以较低的表观分子量快速电泳。需要在大量细胞蛋白质中检测目的蛋白质。一种方法是荧光或放射性标记每个克隆(放射性：3H，14C，35S；染料和荧光标记如FITC，罗丹明，Cy5，Cy3等)或任意其他合适的化学标记，使得只有目标蛋白质和它的降解产物在紫外线暴露或放射自显影后在凝胶上可见。也能够使用肽标记的蛋白质，它们可以利用抗体在Western blots中检测。

另外一种检测免疫原性的方法是测定蛋白质聚集的倾向。蛋白质聚集通过光散射容易测定，并且可以用动态光散射仪(DLS)或a a分光光度计(即OD300-600对OD 280)进行。

也可以测定T细胞刺激和细胞因子活化的水平。通过FACS测定人PBMC上的细胞因子活化，用于树突细胞的活化抗原(CD83等)的存在，T细胞活化(CD69，IL-2r等)以及多种共刺激因子(CD28，CD80，CD86)的存在，所有这些都指示免疫系统已经被刺激。进一步地，可以利用标准ELISA测定检测细胞的细胞因子产生如IL-2，4，5，6，8，10，TNFα，β，IFNγ，Il-1β等。规则的丝裂原和LPC等可以用作良好的对照。

此外，可以测定与Toll-受体的结合。治疗蛋白质与Toll-样受体1-9(TLR1-TLR9)的结合是先天免疫的有用的指示。大量供应商如Invivogen提供了所有在细胞构建体中连接到报道基因上的转基因Toll-受体。

另外，可以进行动物研究，通过将蛋白质直接注射到宿主动物如兔和小鼠中，来评价蛋白质的免疫原性。

下面提供了具有低HLA II结合亲和力的微生物蛋白质工程化的实例。

参见图161。辅助T细胞活化是一个关键步骤，对于针对外源蛋白质的免疫反应的起始是重要的。T细胞活化涉及抗原呈递细胞(APC)对抗原的摄取、抗原降低为肽，以及得到的肽在APC表面上展示为蛋白质与人白细胞抗原DR组(HLA-DR)的复合物。HLA-DR分子含有多个与呈递的肽相互作用的

合袋。这些HLA-DR袋的特异性可以在体外测定，获得的特异性谱可以用来预测肽对各种HLA-DR型的结合亲和力(Hammer，J.(1995)Curr OpinImmunol，7：263-9)。已经描述了允许鉴定HLA-DR结合序列的计算机程序(Sturniolo，T.，等人.(1999)Nat Biotechnol，17：555-61)。本发明利用这些算法，目的是一种方式修饰微生物蛋白质的序列，使得减少与HLA-DR的结合同时保持亲本微生物蛋白质的所需药理学和其他性质。作为第一步，利用HLA-DR预测算法分析亲本微生物蛋白质的序列。亲本序列中非半胱氨酸残基的所有可能的单氨基酸突变与亲本序列进行比较，并且预测与HLA-DR型的结合。目的在于鉴定一组突变，预测它们降低了与HLA-DR型的结合，这种结合在将用亲本微生物蛋白质或其衍生物治疗的患者群体中高频率发生。然后，构建组合文库，其中文库中的变体含有一个或多个预测可降低HLA-DR结合的突变。构建几种含有计划突变亚组的亚文库可能是有利的。然后可以筛选得到的文库或亚文库，鉴定与适当靶标结合的变体。另外，可以针对稳定性、可溶性、表达水平和其他对于最终性质至关重要的性质筛选文库成员。在筛选之前，也可以对组合文库进行噬菌体淘选或类似的富集方法，以分离保留所需靶标结合亲和力和特异性的组合变体。该方法将鉴定保留亲本蛋白质的所有期望性质但是预测与HLA-DR结合降低因此免疫原性降低的亲本微生物蛋白质的变体。任选地，可以使得到的改进变体进行下一轮HLA-DR结合序列去除。随后的这一轮可以只是上述步骤的重复。作为替代，可以将第二组合文库限制为在该方法的第一轮期间鉴定为与所需微生物蛋白质功能匹配并且预测进一步降低HLA-DR结合的突变。通过将该方法的第二轮限制为这些预先选择的突变，可以构建较小的文库和提高分离的改良变体的频率。

表4.具有低脂肪族氨基酸丰度的微生物蛋白质家族

平均蛋白质含有26.1％的脂肪族氨基酸。

减少治疗性蛋白质中疏水性氨基酸比例的方法

如上所述，一种产生具有低脂肪族氨基酸丰度的微生物蛋白质的方法是从含有少数脂肪族氨基酸的支架和文库开始。另外，可以利用多种蛋白质工程技术降低蛋白质中脂肪族氨基酸的丰度。例如，可以构建蛋白质文库，使得一个或几个脂肪族氨基酸已被允许发生多个亲水性氨基酸的随机密码子置换。特别感兴趣的是允许高比例亲水性氨基酸但是低比例脂肪族或疏水性氨基酸的多义密码子。例如，密码子VVK允许出现12种氨基酸(丙氨酸、天冬氨酸、谷氨酸、甘氨酸、组氨酸、赖氨酸、天冬酰胺、脯氨酸、谷氨酸、精氨酸、丝氨酸、苏氨酸)，它避免所有脂肪族和芳香族氨基酸。人们可以从该文库中分离具有期望的性质的蛋白质，因此降低了芳香疏水性和脂肪族疏水性氨基酸的丰富程度。也可以在随机多氨基酸位置构建组合蛋白质文库，它含有脂肪族氨基酸。通过从这种文库中确定多变体的序列和表现允许替换为亲水性氨基酸的，可以鉴定所述蛋白质中的位置。

评价支架应用的方法

基于特定天然序列家族产生设计。在每个氨基酸位点，使用反映该位点

基酸天然多样性的氨基酸混合物。这通过选择最适合的单密码子而进行。向蛋白质的N-末端添加一个HA标记，向C-末端添加一个His6标签。

合成编码这些蛋白质设计的寡核苷酸。同时、单独或作为不同设计的混合物构建1-30种不同的序列。

主题组合物的表达

细胞内及细胞外环境

二硫键主要发现于分泌的(胞质外)蛋白质中。它们的形成由存在于多细胞生物内质网(ER)中的多种酶催化。另一方面，二硫键通常在非应激条件下的胞质蛋白质中不发现。这是由于存在还原系统，如谷胱甘肽还原酶和硫氧还蛋白还原酶，它们保护游离半胱氨酸不被氧化。例如，核糖核苷酸还原酶在其反应循环中形成二硫键，而该二硫键的还原对于反应的进行来说是重要的(Prinz，J Biol Chem.272(25)：15661)。

天然微生物蛋白质由细菌、动物(sanemones、螺、昆虫、蝎子、蛇)和植物表达。然而，重组微生物蛋白质的异源表达通常在大肠杆菌中进行，尽管枯草杆菌、酵母(酵母、克鲁维酵母、毕赤酵母)和丝状真菌如曲霉和镰刀菌以及哺乳动物细胞系如CHO、COS或PerC6也可以用于表达微生物蛋白质。在文献实例中，异源表达的微生物蛋白质一般在大肠杆菌的细胞质中产生。

重组表达一种替代方法是化学合成。微生物蛋白质小的足以允许化学合成，并且可以成本经济地合成制备。

含有二硫键的无关产物(大多数含Ig结构域的产物，包括Ab片段和完整的Ab)通常在哺乳动物组织培养物中或者在大肠杆菌中通过分泌到周质或培养基中产生。分泌的产物具有信号肽，信号肽可以蛋白水解去除，留下未甲酰基化的N-末端残基。相反，在大肠杆菌细胞质中产生的蛋白质通常保留N-末端甲酰甲硫氨酸，这依赖于后fMet的氨基酸。文献描述了fMet后哪些氨基酸导致fMet去除。

尽管细菌和古细菌中几乎完全没有微生物蛋白质(有些例外)，但是全

亲水性微生物蛋白质可以容易地在大肠杆菌中制备。

有几种细菌微生物蛋白质，如来自大肠杆菌(称为ST-Ia和ST-Ib)和相关肠细菌的的热稳定的肠毒素。热稳定的肠毒素如STa(PFAM 02048)和STb在序列水平上无关。St-！a的序列比对显示72个氨基酸的前体。该蛋白质通过两个独立的蛋白水解切割事件加工，产生成熟毒素，该毒素含有三个拓扑学为142536的二硫键。ST-Ia的基序是CxxxxxxxxxxxxxxxxxxxxCCxxCCxxxCxxC。

表达微生物蛋白质和向培养基中分泌微生物蛋白质的一种有前途的方法可以使用ST-Ia启动子和前导肽和前体，但是连接于不同的微生物蛋白质上，用不同的微生物蛋白质代替现有的3SS 142536模块。ST-Ia被分泌到培养基中(不是周质中)，对于大肠杆菌来说这非常少见，解释了二硫键是如何形成的。可能具有特化的前导肽，使其通过3或4种不同的特化分泌系统之一从大肠杆菌中分泌。连接到微生物蛋白质上，这种前导肽也可以允许其他微生物蛋白质的有效的分泌和二硫键形成，并且可以用于快速筛选培养上清液。

微生物蛋白质可以在多种表达系统中产生，包括原核和真核系统。合适的表达宿主例如是酵母、真菌、哺乳动物细胞培养物、昆虫细胞。特别感兴趣的是使用大肠杆菌、芽孢杆菌和其他宿主生物的细菌表达系统。微生物蛋白质的异源表达一般在大肠杆菌的细胞质中进行。二硫键通常不在细胞质内形成，因为这是还原性环境，它们在细胞裂解后形成。在蛋白质表达后加热细胞可以促进微生物蛋白质的表征和纯化。这一过程导致细胞裂解和大多数大肠杆菌蛋白质的沉淀。(Silverman，J.，等人.(2005)Nat Biotechnol)。如果微生物蛋白质与报道蛋白如GFP或酶如HRP、β-内酰胺酶或碱性磷酸酶融合，可以采用菌落筛选比较大肠杆菌中不同微生物蛋白质的表达水平。特别感兴趣的是热和蛋白酶稳定的酶，因为它们允许在热或蛋白酶应激条件下测定微生物蛋白质的稳定性。实例是牛小肠碱性磷酸酶或β-内酰胺酶的热稳定变体(Amin，N.，等人.(2004)Protein Eng Des Sel，17：787-93)。微生物蛋白质与酶或报道蛋白的融合也有利于它们的结合性质的分析，因为人们可以通过报道酶的

在而检测靶标-结合的微生物蛋白质。微生物蛋白质可以表达为具有一个或多个表位标签的融合体。HA-标签、His-标签、myc-标签、strep-标签、E-标签、T7-标签。这些标签有利于样品的纯化，并且可以利用它们使用夹心ELISA或其他方法测定结合性质。已经描述了检测蛋白质或肽配体的结合性质的许多其他的测定，这些方法可用于微生物蛋白质。例子有表面等离振子共振、闪烁近似测定、ELISA、AlphaScreen(Perkin Elmer)、β-半乳糖苷酶片段互补测定(CEDIA)。

微生物蛋白质的异源表达一般在大肠杆菌细胞质中进行。二硫键通常不在细胞质内形成，因为它是还原环境，但是它们在细胞被裂解后形成。大肠杆菌中不同微生物蛋白质的表达水平可以利用菌落屏进行比较，如果微生物蛋白质与报道分子如GFP或酶如HRP或碱性磷酸酶(优选热稳定的形式，例如牛小肠碱性磷酸酶)融合。

本发明也包括包含本文公开的含半胱氨酸支架及其片段的融合蛋白。这种融合可以在两个或多个本发明的支架和相关或无关的支架之间。有用的融合配偶体包括有利于多肽细胞内定位的序列或延长血清半衰期反应性或多肽与免疫测定支持体或疫苗载体的偶联的序列。

二硫键稳定性的变化

通常，蛋白质中二硫键的稳定性具有一定的变化。例如，分泌的蛋白质中的二硫键倾向于比胞质蛋白质中的“不希望的”二硫键更稳定。通常，二硫键耐受还原，如果它们被埋藏，根据Wedemeyer等人所述，二硫键通常被埋藏。因此，分泌的蛋白质中的二硫键更加耐受还原，如果完全折叠，并且必须加入低浓度的变性剂来诱导局部解折叠，使二硫键可及。

当具有多个二硫键的蛋白质被以折叠状态定向于细胞溶质，并且蛋白质在摄取过程中保持折叠时，它的二硫键可能耐受还原。其前提条件是二硫键都是还原剂不可及的。在细胞溶质中，硫氧还蛋白和谷胱甘肽作为二硫键的直接氧化剂。由于它们比DTT更大的分子量，折叠的蛋白质中埋藏的二硫键的可及性应当受限。

蛋白质中二硫键的可及性可以利用晶体结构通过计算机确定或通过

MR经实验确定，可以与变性敏感性的滴定进行比较(即D50是存在50％的野生型二硫键并且50％不存在时的还原剂浓度)。

与靶标的共价结合

有些蛋白质通过二硫键交换能够与其他蛋白质共价结合，产生特别的结合亲和力。一种有用的例子是小胶原，其中c-末端尾序列与N-端前导序列共价结合，导致在两个蛋白质之间形成6个二硫键。参见图113。

筛选和表征工具

上述234、3x0-8、4x0-8和4x6方法的早期循环产生的蛋白质文库和个体蛋白质克隆倾向于不均一地折叠。

某种程度上，可以忽略不均匀性，并通过定向进化继续进化蛋白质直到获得具有所需性质、显著高亲和力(一般为皮摩尔)和高特异性以及均匀折叠和高表达水平的蛋白质，使得可以制备蛋白质。

构建和淘选噬菌体文库的方法

展示类型

已经描述了多种允许鉴定变体大文库中的结合分子的方法。一种方法是化学合成。文库成员可以在珠上合成，使每个珠带有不同的肽序列。携带具有所需特异性的配体的珠可以用标记的结合配偶体来鉴定。另外一种方法是产生肽的亚文库，允许以迭代法鉴定特异性结合序列(Pinilla，C.，等人.(1992)BioTechniques，13：901-905)。更常用的是展示方法，其中变体文库在噬菌体、蛋白质或细胞表面表达。这些方法共同具有编码文库中每个变体的DNA或RNA与配体物理连接。这使人们能够检测或检索目标配体，然后通过对所附着的DNA或RNA测序来测定其肽序列。显示方法允许本领域技术人员从随机变体大文库中富集具有所需结合性质的文库成员。通常，可以通过从富集的文库中针对所需性质筛选个体分离株从富集的文库中鉴定具有所需结合性质的变体。展示方法的例子与lac阻抑物融合(Cull，M.，等人.(1992)Proc.Natl.Acad.Sci.USA，89：1865-1869)、细胞表面展示(Wittrup，K.D.(2001)CurrOpin Biotechnol，12：395-9)。特别感兴趣的是随机肽或蛋白质与噬菌体颗粒连接的方法。常用的是M13噬菌体(Smith，G.P.，等人.(1997)Chem Rev，97：

1-410)和T7噬菌体(Danner，S.，等人.(2001)Proc Natl Acad Sci U S A，98：12954-9)。有多种方法可用于在M13噬菌体上展示肽或蛋白质。在许多情况下，文库序列与M13噬菌体的肽pIII的N-末端融合。噬菌体一般带有3-5个拷贝的这种蛋白质，因此这种文库中的噬菌体在大多数情况下将携带3-5个拷贝的文库成员。这种方法被称为多价展示。一种替代方法是噬菌粒展示，其中文库在噬菌粒上编码。噬菌体颗粒可以通过用辅助噬菌体感染携带噬菌粒的细胞来形成(Lowman，H.B.，等人.(1991)Biochemistry，30：10832-10838)。该方法一般导致单价展示。在有些情况下，优选单价展示来获得高亲和力结合体。在另外一些情况中，优选多价展示(O′Connell，D.，等人.(2002)J Mol Biol，321：49-56)。

已经描述了多种通过噬菌体展示富集具有所需特征的序列的方法。一种可以通过与免疫管、微量滴定板、磁珠或其他表面结合来固定目标靶标。然后，噬菌体文库与固定的靶标接触，洗去缺少结合配体的噬菌体，携带靶标特异性配体的噬菌体可以通过多种条件洗脱。洗脱可以用低pH、高pH、尿素或其他倾向于断裂蛋白质-蛋白质接触的条件进行。也可以通过加入大肠杆菌细胞使洗脱的噬菌体可以直接感染加入的大肠杆菌宿主，洗脱结合的噬菌体。一种令人感兴趣的方法是用可以噬菌体结合配体或固定的靶标的降解的蛋白酶洗脱。蛋白酶也可以用作富集蛋白酶抗性噬菌体结合配体的工具。例如，可以在目标靶标上淘选之前将噬菌体文库结合的配体与一种或多种(人或小鼠)蛋白酶孵育。该方法从文库中降解并除去蛋白酶不稳定的配体(Kristensen，P.，等人.(1998)Fold Des，3：321-8)。针对与复杂生物样品的结合，也可以富集配体的噬菌体展示文库。实例是在固定的细胞膜部分(Tur，M.K.，等人.(2003)Int J Mol Med，11：523-7)或完整细胞(Rasmussen，U.B.，等人.(2002)Cancer Gene Ther，9：606-12；Kelly，K.A.，等人.(2003)Neoplasia，5：437-44)上淘选。在某些情况下，可以优化淘选条件以改善从噬菌体文库中富集细胞特异性结合体(Watters，J.M.，等人.(1997)Immunotechnology，3：21-9)。噬菌体淘选也可以在活患者或动物中进行。这种方法对于结合的血管靶标的配体的鉴定是特别有意义的。(Arap，W.，等人.(2002)Nat Med，8：121-7)

构建文库的克隆方法

文献描述了多种允许本领域技术人员产生编码肽配体文库的DNA序列文库的方法。可以利用核苷酸的随机混合物合成含有一个或多个随机位置的寡核苷酸。该方法允许控制随机位置数目以及随机化程度。另外，也可以通过从生物样品部分消化DNA获得随机或半随机的DNA序列。可以利用随机寡核苷酸构建在预先确定的位置随机化的噬菌粒或噬菌体文库。这可以通过PCR融合进行，如下所述(de Kruif，J.，等人.(1995)J Mol Biol，248：97-105)。其他方案是基于DNA连接(Felici，F.，等人.(1991)J Mol Biol，222：301-10；Kay，B.K.，等人.(1993)Gene，128：59-65)。另外一种常用的方法是Kunkel诱变，其中使用单链环DNA作为模板合成噬菌体或噬菌粒的诱变链。参见，Sidhu，S.S.，等人.(2000)Methods Enzymol，328：333-63；Kunkel，T.A.，等人.(1987)MethodsEnzymol，154：367-82。

Kunkel诱变使用含有随机引入的尿嘧啶碱的模板，它可以从大肠杆菌株如CJ236中获得。含尿嘧啶的模板链在转化到大肠杆菌中后优先降解，而体外合成的诱变的链保持。作为结果，大多数转化的细胞带有诱变形式的噬菌粒或噬菌体。一种提高文库中多样性的有价值的方法是将多个亚文库组合起来。这些亚文库可以通过上述任意方法产生，它们可能基于相同的或不同的支架。

最近描述了一种有用的产生短肽的大噬菌体文库的方法(Scholle，M.D.，等人.(2005)Comb Chem High Throughput Screen，8：545-51)。这种方法涉及Kunkel法，但是不需要产生含有随机尿嘧啶碱基的的单链模板DNA。该方法开始于具有一个或多个靠近待诱变区域的突变的模板噬菌体，所述突变使噬菌体无感染性。该方法使用在某些位置具有随机化密码子和在模板中改正噬菌体灭活突变的诱变寡核苷酸。结果，只有诱变的噬菌体颗粒在转化后是感染性的，该文库中含有极少的亲代噬菌体。该方法可以通过几种方法进一步改变。例如，可以利用多种诱变寡核苷酸来同时诱变噬菌体的多个不连续区。我们采用这种一步方法，进一步通过将其应用于整个＞25、30、35、40、45、50、55和60个氨基酸的微生物蛋白质，代替＜10，15或20个氨基酸的短

，这具有另外的挑战。该方法现在产生超过10¹⁰(可达10¹¹)个具有单转化的转化子的文库，因此预期从10个转化得到多样性为10¹²的单一文库。

再诱变的方法

Scholle法的一种新的变异是设计诱变性寡核苷酸，使模板中的琥珀终止密码子转变为赭石终止密码子，并且在下一诱变循环中赭石终止密码子转变为琥珀终止密码子。在这种情况中，模板噬菌体和诱变的文库成员必须在不同的大肠杆菌抑制株中培养，交替使用赭石型抑制株和琥珀抑制株。交替这两种类型的终止密码子和两种抑制株，允许连续进行几轮噬菌体诱变。

Scholle法的另外一种新的变异涉及使用具有单链噬菌体DNA模板的大引物。大引物是从前一轮淘选中选择的噬菌体组文库插入产生的长ssDNA。目的是从前一组中捕获文库插入的全部多样性，其在一个或多个区域中诱变，并将其转移到新的文库中，使另外的区域可以被诱变。大引物法可以使用在目标基因中含有终止密码子相同的模板重复多个循环。大引物是ssDNA(任选地通过PCR产生)，其含有1)与ssDNA模板互补的至少15个碱基的5’和3’重叠区，和2)一个或多个前面选择的文库区(1、2、3、4或更多)，它们是从以前选择的克隆组中拷贝的(任选地通过PCR)，和3)将要在下一轮淘选中筛选的新诱变的文库区。大引物任选地通过以下方法制备：1)合成一种或多种编码新合成的文库区的寡核苷酸，和2)任选地利用重叠PCR与含有以前优化的任何其他文库区的DNA片段融合(任选地通过PCR获得)。利用组合(重叠)PCR产物的失控或单链PCR产生单链大引物，其含有所有以前优化的区域以及用于将要在下一淘选实验中优化的另一个区域的新文库。参见图28。该方法预期允许使用多个快速循环的文库生成进行蛋白质的亲和力成熟，产生每个循环10¹¹至10¹²的多样性，之后淘选。

多种方法可以用于向内引入序列多样性(微生物蛋白质的以前选择的或天然)文库或突变个体微生物蛋白质克隆内，目的为增强其结合或其他性质，例如生产、稳定性或免疫原性。原则上，用于产生文库的所有方法也可以用于向富集的(以前选择的)微生物蛋白质文库内引入多样性。特别是，可以合成具有所需结合或其他性质的变体，并且基于这些序列部分设计随机化的核苷酸。该方法允许控制随机化的位置和程度。人们可以利用多种计算机算法推断来自序列数据库的蛋白质中个体突变的应用(Jonsson，J.，等人.(1993)Nucleic Acids Res，21：733-9；Amin，N.，等人.(2004)Protein Eng Des Sel，17：787-93)。富集文库再诱变特别有意义的是DNA改组(Stemmer，W.P.C.(1994)Nature，370：389-391)，该方法在富集文库中产生个体序列的组合。改组可以用各种改变的PCR条件来进行，模板可以部分降解以增强重组。一种替代方法是使用基于限制性内切酶的克隆在预先确定的位置处重组。特别感兴趣的是使用IIS型限制性内切酶在序列识别位点之外切割DNA的的方法(Collins，J.，等人.(2001)J Biotechnol，74：317-38)。可以利用产生非回文突出端的限制性内切酶在多个位置切割质粒或其他DNA编码变体混合物，完整质粒可以通过连接再装配(Berger，S.L.，等人.(1993)Anal Biochem，214：571-9)。另外一种引入多样性的方法是PCR-诱变，其中编码文库成员的DNA序列在诱变条件下进行PCR。已经描述了导致相对高突变频率的突变的PCR条件(Leung，D.，等人.(1989)Technique，1：11-15)。另外，可以使用具有降低的保真度的聚合酶(Vanhercke，T.，等人.(2005)Anal Biochem，339：9-14)。特别感兴趣的一种方法基于增变株(Irving，R.A.，等人.(1996)Immunotechnology，2：127-43；Coia，G.，等人.(1997)Gene，201：203-9)。它们是在一个或多个DNA修饰基因中具有缺陷的菌株。这些菌株中的质粒或噬菌体或其他DNA在正常复制过程中积累突变。可以在增变株中繁殖个体克隆或富集群体，以引入基因多样性。上述多种方法可以在迭代法中使用。可以对完整基因或基因部分应用多轮诱变和筛选或淘选，或者可以在随后的每一轮中诱变蛋白质的不同部分(Yang，W.P.，等人.(1995)J Mol Biol，254：392-403)。

文库处理

噬菌体淘选的已知伪迹(artifacts)包括：1)基于疏水性的非特异性结合，和2)与靶标的多价结合，这是由于a)pIII噬菌体蛋白质的五价性，或b)由于在不同微生物蛋白质之间形成二硫键，导致多聚体，或者c)由于固体支持体上的高密度靶标涂层，和3)依赖于环境的靶标结合，其中靶标的环境或微生物蛋白质的环境对于结合或抑制活性是关键的。可以用不同的处理步

来最小化这些问题的大小。理想的是将这些处理应用于整个文库(文库处理)，但是一些有用的除去差克隆的处理可以只应用于可溶性蛋白质组或只应用于个体可溶性蛋白质。

微生物蛋白质的文库可能含有游离巯基，这可能由于与其他蛋白质交联而使定向进化复杂化。一种方法是使其通过游离巯基柱而从文库中除去最差的克隆，这样除去所有具有一个或多个游离巯基的克隆。具有游离SH基的克隆也可以与生物素-SH试剂反应，允许使用链霉抗生物素柱有效除去具有反应性SH基团的克隆。另外一种方法是不除去游离巯基，而是通过用巯基反应性化学试剂如碘乙酸给它们加帽来将其灭活。特别感兴趣的是减少非特异性靶标结合或修饰变体的大的或亲水性巯基试剂。

环境依赖性的例子是所有固定序列，包括引起相互作用的pIII蛋白、接头、肽标签、生物素-链霉抗生物素、Fc和其他融合蛋白。避免环境依赖性的典型方法包括为了避免堆积而象实际频繁地切换环境。这可以包括交替使用不同展示系统(即M13与T7，或M13与酵母)、交替使用标签和接头，交替使用用于固定的(固体)支持体，以及交替使用靶标蛋白质本身(不同供应商，不同的融合形式)。

也可以利用文库处理来选择具有优选质量的蛋白质。一种选择是为了从文库中除去不稳定的变体而用蛋白酶处理文库。使用的蛋白酶典型地是应用中用到的那些。对于肺部给药，可以使用肺蛋白酶，例如通过肺灌洗获得的。类似地，可以从血清、唾液、胃、肠、皮肤、鼻等中获得蛋白酶混合物。然而，也可以使用单一纯化的蛋白酶的混合物。蛋白酶的一个增强列表显示在附录E中。噬菌体本身特别耐受大多数蛋白酶和其他剧烈处理。

例如，可以为了最稳定的结构而筛选文库，即具有最强二硫键的结构，通过将其暴露于浓度逐渐升高的还原剂(即DTF或β-巯基乙醇)，这样首先除去了最不稳定的结构。一般使用从2.5mM到5mM，10mM，20mM，30mM，40mM，50mM，60mM，70mM，80mM，90mM或甚至100mM的还原剂(即DTT，BME等)浓度，这取决于所希望的稳定性。

如上所述，通过用高水平的还原剂还原整个展示文库。接着逐渐再氧化蛋白质文库以再形成二硫键，然后除去具有游离SH基团的克隆，也可以选择能在体外有效再折叠的克隆。该方法可以应用一次或多次，来去除具有低体外再折叠效率的克隆。

一种方法是如A.C.Fisher等人.(2006)Genetic selection for proteinsolubility enabled by the fold quality control feature of the twin-argininetranslocation pathway.Protein Science(在线)所述对蛋白质表达水平、折叠和可溶性应用基因选择。

在淘选展示文库(任选的)后，可以避免在蛋白质水平上筛选上千种克隆的靶标结合、表达水平和折叠。一种替代方法是将选择的整组插入片段克隆到β-内酰胺酶融合载体中，该载体在接种于β-内酰胺上时，作者证明对于良好表达的、完全二硫键键合的可溶性蛋白质是选择性的。

在M13噬菌体展示蛋白质文库和在靶标上淘选一个或多个循环后，继续多种方法：

通过噬菌体ELISA筛选个体噬菌体克隆。这确定与固定的靶标结合的噬菌体颗粒数(使用抗-M13抗体)。

从M13向T7噬菌体展示文库转移。任意单文库格式倾向于有助于可以与靶标形成高亲合力接触的克隆。这是筛选可溶性蛋白质非常重要的原因，尽管这是一个冗长的方案。在T7噬菌体展示中获得的多价性可能非常不同于在M13展示中获得的，T7和M13之间的循环可能是一种优秀的减少基于配价的假阳性的方法。

滤膜转移(Filter lift).滤膜转移可以由在大琼脂板上高密度(10e2-10e5)生成的细菌菌落制成。少量的某些蛋白质分泌到培养基中，最终结合到滤膜(硝酸纤维素或尼龙)上。然后用脱脂奶、1％酪蛋白水解物或1％BSA溶液封闭滤膜，并与荧光染料和指示酶(直接或间接通过抗体或通过生物素-链霉抗生物素)标记的靶蛋白孵育。菌落位置通过将滤膜重叠到板的背面来确定，选择所有阳性菌落，用于另外的表征。滤膜转移的优点是，通过在洗涤不同时间段后读取信号，可以是亲和力选择性的。高亲和力克隆的信息缓慢“衰减”，而低亲和力克隆的信号快速衰减。这种亲和力表征一般需要利用基于

的测定进行3点测定，并且可以提供比基于孔的测定更好的孔间可比性。菌落网格化为阵列是有用的，因为这使菌落大小或位置引起的差异最小化。

药物组合物

本发明还提供含有所述含半胱氨酸蛋白质的药物组合物。它们可以经口、鼻内、非肠胃或者通过吸入治疗给药，并且可以采用片剂、锭剂、颗粒剂、胶囊、丸剂、安瓿、栓剂或气溶胶形式。它们也可以采用有效成分在水性或非水性稀释剂、糖浆、颗粒或粉末中的悬浮液、溶液和乳液的形式。另外，药物组合物也可以含有其他药物活性化合物，或多种本发明的化合物。

本发明的含半胱氨酸的蛋白质也可以与各种液相载体如无菌或水溶液、药学可接受的载体、悬浮液和乳剂组合。非水溶剂的实例包括丙基乙二醇、聚乙二醇和植物油。

更具体来说，本发明的药物组合物可以通过任何合适的途径给药用于治疗，这些途径包括经口、直肠、经鼻、局部(包括经皮、气溶胶、口腔和舌下)、阴道、肠胃外(包括皮下、肌肉内、静脉内和真皮内)和经肺途径。也应当理解，优选的途径将随着受试者的状况和年龄以及所治疗的疾病而变化。

产品形式

多种产品形式(例如，参见图159)预期用于多种用途，包括试剂、诊断、预防、离体治疗和用于体内治疗的不同给药方法的专门形式，例如静脉内、皮下、鞘内、眼内、transcleral、腹膜内、经皮、经口、口腔、经肠、经阴道、经鼻、经肺和其他给药形式。

这些产品形式包括结构域单体和结构域多聚体(在单或多蛋白质链中具有2、3、4、5、6、7、8、9、10、15、20、30、40、50个或甚至100个结构域的产品)。结构域可能不只含独特序列或结构基序，或者它可能含有重复序列或结构基序，或更加高度重复的序列或结构基序(重复蛋白质)。对于1、2、3、4、5、6、7、8、9或10种不同的靶标，每个结构域可以具有一个连续的

不连续的(空间上或顺序确定的)结合位点。该靶标可以是治疗剂、诊断剂(体内、体外)、试剂或材料靶标，并且可以是(组合的)蛋白质、碳水化合物、脂质、金属或任何其他生物或非生物材料。结构域单体和多聚体可能具有多个对于相同靶标的结合位点，任选地产生活性。结构域多聚体也可以具有1、2、3、4、5、6、7、8个或更多的对于不同靶标的结合位点，产生多特异性。结构域多聚体任选地含有长度范围为1、2、3、4、5、6、7、8、9、10、12、14、16、18、20、25、30个氨基酸的肽接头。多种元件可以与这些结构域融合，如含有标签(例如，用于用抗体或Ni-NTA检测或纯化)的线性或环形肽。

半衰期延长形式：一种优选的方法是使用融合肽(线性、单环或二环的，意思是它含有0、1或2个二硫键)或者提供与血清白蛋白、免疫球蛋白(即IgG)、红细胞或其他血液分子或血清可及的分子结合的蛋白质结构域，以将产品的血清排泄半衰期延长到期望的排列半衰期长度，其范围可以是从1、2、4、8或16个小时到1、2、3、4、5或6天到1周、2周、3周或1、2、3个月。一种可选的方法是设计结构域，应用可能部分重叠或可能不部分重叠的不同的结合位点，使其与药物靶标以及半衰期延长靶标如血清白蛋白结合。一种期望的方法是产生在一个区域中随机化的并选择为与半衰期靶标(如HSA)结合的支架，然后利用这些构建体随机化另外的设计为与一个或多个药物靶标结合的区域，产生与半衰期靶标和药物靶标都结合的结构域。通过与血清蛋白质或血清暴露的蛋白质结合提供半衰期延长的结构域也可以与非微生物蛋白质例如人细胞因子、生长因子和趋化因子融合。一种任选的应用是延长这些人类蛋白质的半衰期或者使人类蛋白质靶向特定组织。这种相互作用优选的亲和力可以小于(或者大于)10uM、1uM、100nM、10nM、1nM、0.1nM。另一个选择是将长的、未构建的、柔性的富含甘氨酸序列与结构域融合，以延长它们的Stokes′流体动力学半径，由此延长它们的血清排泄半衰期。另外一个选择是不通过肽键，而是通过二硫键或其他化学键，将结构域与另外的结构域共价连接。另外一个选择是将小分子(包括药学活性药效团)、放射性标记物(即螯合物)、和PEG或PEG样分子或碳水化合物与蛋白质化学偶合。

替代递送形式：平均微生物蛋白质的性质特别适合于大多数替代(非注射的)递送形式(大小、蛋白酶稳定性、可溶性、亲水性)，利用工程化进一步改善它们对于特别优选的递送形式的能力。Werle，M.等人.(2006)J.DrugTargeting14：137-146显示三种不同的微生物蛋白质对蛋白酶如弹性蛋白酶、胃蛋白酶、胰凝乳蛋白酶以及对血浆蛋白酶(血清)和肠膜蛋白酶(2/3)具有高抗性。它们也显示两种微生物蛋白质的表观移动系数(Papp)比从多种肽和小蛋白质产生的标准曲线推断的高3倍。对于穿过组织屏障的转运，如经鼻、经皮、经口、口腔、肠或经巩膜转运，有效性和生物利用率主要取决于蛋白质的大小。已经报道多种赋形剂，如烷基糖类，可以使蛋白质药物的转运改善高达大约10倍(Maggio，E.(2006)Drug Delivery Reports；Maggio，E.(2006)Expert Opinion in Drug Delivery 3：1-11)。这些转运增强剂或者是GRAS或者用作食品添加剂，因此它们在药物中的应用可能不需要漫长的FDA审批过程。某些增强剂是两亲性的/兼性的，并且能够形成微团，因为它们具有亲水性部分(即碳水化合物)和疏水性部分(烷基链)。使用与微生物蛋白质和非微生物蛋白质肽或蛋白质基因融合的亲水性和疏水性蛋白质序列进行模拟是可行的。例如，亲水性序列可以富含甘氨酸(非离子性的)、谷氨酸和天冬氨酸(带负电荷的)或赖氨酸和精氨酸(带正电荷的)，疏水性序列可以富含色氨酸。具有伸出的疏水性尾(如5-20个色氨酸残基)的蛋白质可以用来获得延长的半衰期，因为向细胞膜内插入聚色氨酸，类似于疏水性药物，通过膜插入可以获得长半衰期。蛋白质本身仍然不变，因为其结合特异性预期没有降低，只有(微)生物分布改变。一种替代方法是与已知被药物转运子如PepT1、PepT2、HPT1、ABC转运子结合并且内化的微生物蛋白质肽或小分子偶合。参考文献是Lee，VHL(2001)Mucosal drug delivery.J Natl CancerInst Monogr 29：41-44；和Kunta JR和Sinko，PJ(2004)Intestinal drug transporters：in vivo function and clinical importance.Current Drug Metabolism 5：109-124；Nielsen，CU和Brodin，B(2003)Di-/Tri-peptide transporters as drug deliverytargets：Regulauon of transport under physiological and patho-physiological

nditions.Current Drug Targets 4：373-388；Blanchette，J.等人.(2004)Principlesof transmucosal delivery of therapeutic agents，Biomedicine&Pharmacotherapy58：142-152.Dietrich，CG等人.(2005)；ABC of oral bioavailability：transporters asgatekeepers in the gut.Gut 52：1788-1795；Yang CY等人.(1999)Intestinal Peptidetransport systems and oral drug availability.Pharmaceutical Research 16：1331-1343。

微生物蛋白质理想地适合局部给药，因为不需要延长半衰期。为了用一次给药获得连续释放，微生物蛋白质可以通过储库制剂给药。

储库制剂(如植入物、纳米球、微球和可注射溶液如凝胶)可能不需要药物(可溶性形式)具有延长的半衰期，尽管一定的半衰期延长仍然可能是有益的。

各种氨基酸组合物的微生物蛋白质结构域和多肽间隔区聚合为粘稠的长聚合物预期产生缓慢释放可溶性药物的储库。这些聚合物可以与微生物蛋白质融合，或者它们可以是单独的蛋白质。粘稠的液体将皮下或肌肉下注射。人们也可以不使用蛋白质聚合物，而是混合蛋白质与多种其他可生物降解的基质，如聚酐或聚酯或PLG(聚(D，L-丙交酯-乙交酯)共聚物)或SAIB(醋酸异丁酸蔗糖酯)或聚乙二醇(PEG)和其他水凝胶、脂质泡沫、胶原和透明质酸。小尺寸、高蛋白酶、机械和热耐受性和高亲水性使微生物蛋白质适合大多数其他蛋白质不能实现的攻击性制剂。由于它们的尺寸小，微生物蛋白质非常适合离子电渗疗法、粉末枪递送、声递送、和电穿孔递送(Cleland，JL等人.(2001)Emerging protein delivery methods.Current Opinion in Biotechnology12：212-219)。

融合蛋白的经口给药：一种不同的口服方法包括将微生物蛋白质药物与现有的细菌毒素如假单胞菌外毒素(PE38，PE40)融合，该毒素能够穿越细胞膜将药物递送到细胞质中。已经证明该方法可用于向细胞(即肿瘤细胞)内递送蛋白质药物以及有效口服，意味着从肠腔向血流的转移(Mrsny，RJ等人.，(2002)Bacterial toxins as tools for mucosal vaccination.Drug Discovery Today4：247-258)。

另外一种经口(和肺)给药的方法是将微生物蛋白质与Fc受体融合，并且使用新生Fc-受体介导的肠摄取和通过转胞吞作用的血液传递(Low，SC等人.(2005)Oral and pulmonary dclivry of FSH-Fc fusion proteins via neonatal Fcreceptor-mediated transcytosis.Human Reproduction(待出版)。

微生物蛋白质的细胞内输送：Rothbard等人已经证明天然的富含精氨酸的肽如HIV-tat能够穿过细胞膜转运，并且合成的富含arg的肽也是如此。一种模拟方法是向微生物蛋白质的N-或C-末端添加富含arg的肽，第二种方法是在文库设计中增加微生物蛋白质的精氨酸含量，以及在筛选过程中支持高arg含量的克隆。精氨酸含量可以增加到高达约3％，优选地甚至5％，经常甚至7.5％，有时10％，但是理想地甚至为15、20、25、30或35％。

多聚体形式：由于多种原因，包括提高亲合力和提高半衰期，微生物蛋白质可以多聚化。我们集中于结构域被富含甘氨酸的长亲水性间隔区隔开的形式，但是也可以聚合不含间隔区或具有天然存在的间隔区的结构域。

富含甘氨酸的长序列具有大的流体动力学半径，因此通过PEG化模拟半衰期的延长。每个富含甘氨酸的序列间隔区的长度可以是20、25、30、35、40、50、60、70、80、100、120、140、160、180、200、240、280、320个氨基酸或更长。对于同型多聚靶标和细胞表面靶标，甚至对于单体靶标，多聚化微生物蛋白质结合位点是有用的，在结合位点之间和(任选地)在N-和C-末端具有富含甘氨酸的间隔区。在这些蛋白质中，甘氨酸聚合物的总长度可以达到100、150、200、250、300、350或者甚至400个氨基酸。这些蛋白质可以含有多个不同的结合位点，每个结合位点与同一靶标(相同拷贝或不同拷贝)上不同的位点结合。这样，例如，可能产生具有极长半衰期的蛋白质，部分是由于它的长度和半径，部分是由于存在(微生物蛋白质)对血清白蛋白或免疫球蛋白或其他血清暴露蛋白质的结合位点。

抗体也利用大小和受体结合来获得它们的长半衰期，最大半衰期可能需要这两个机制。有多种方法和组合物实现这种结合和非结合元件的聚合物：1)在单蛋白质链中组合多拷贝的结合基序(基因融合)；拷贝可以相同也可以不同；2)单(或多)拷贝的结合位点表达为单独的蛋白质并通过化学偶合从N-

-C-末端多聚化。可以使用各种化学偶合方法(参见www.pierce.com的偶合剂列表)；拷贝可以相同也可以不同；3)单蛋白质链中多拷贝的结合位点，但是被非结合连接体隔开；4)结合位点和非结合连接体各自表达为单独的蛋白质，并且通过化学偶合多聚化。可以使用各种化学偶合方法(增加Pierce的偶合剂列表)；拷贝可以相同也可以不同；5)每种蛋白质含有一个结合位点和一个非结合连接体，这些蛋白质通过化学偶合多聚化。可以使用各种化学偶合方法(参见www.pierce.com)；拷贝可以相同也可以不同；6)每种蛋白质含有一个结合位点和任选的非结合连接体，每种蛋白质在N-和C-末端都具有“结合肽”，它们彼此结合，产生方向为线性的蛋白质多聚体。可以使用各种肽序列，如SKVILF(E)或RARADADARARADADA和衍生物；拷贝可以相同也可以不同。SKVILF(E)以反平行方式同型二聚化(Bodenmuller等人(1986)EMBO J.)，RARARA(或[RA]n)与DADADA(或[DA]n)结合，它来源于Narmoneve，DA等人.，(2005)Self-assembling short oligopeptides and thepromotion of angiogenesis.Biomaterials 26：4837-4846报道的RARADADARARADADA肽。将[RA]_n聚合体置于结构域或结构域多聚体的一端，将[DA]_n聚合体置于另一端(C-或N-末端)，通过一种蛋白质的N-末端与相同蛋白质的另一个拷贝的C-末端结合，将产生线性、定向的聚合物。如果聚合物可以制备为这样长或者交联，使得它们不能有效地离开皮下注射部位，则可以获得储库型或缓释制剂。一种方法是将血清蛋白酶的蛋白酶切位点设计到将缓慢分解的聚合物中。

药物靶标：本发明的微生物蛋白质通常显示针对特定靶标的特定结合特异性。在一些实施方案中，本发明的微生物蛋白质能够与选自以下非限制列表中的一种靶标结合：VEGF、VEGF-R1、VEGF-R2、VEGF-R3、Her-1、Her-2、Her-3、EGF-1、EGF-2、EGF-3、Alpha3、cMet、ICOS、CD40L、LFA-1、c-Met、ICOS、LFA-1、IL-6、B7.1、B7.2、OX40、IL-1b、TACI、IgE、BAFF或BLys、TPO-R、CD19、CD20、CD22、CD33、CD28、IL-1-R1、TNF、TRAIL-R1、补体受体1、FGFa、骨桥蛋白、玻连蛋白、肝配蛋白A1-A5、肝配蛋白B1-B3、α-2-巨球蛋白、CCL1、CCL2、CCL3、CCL4、CCL5、CCL6、CCL7、CXCL8、

XCL9、CXCL10、CXCL11、CXCL12、CCL13、CCL14、CCL15、CXCL16、CCL16、CCL17、CCL18、CCL19、CCL20、CCL21、CCL22、PDGF、TGFb、GMCSF、SCF、p40(IL12/IL23)、IL1b、IL1a、IL1ra、IL2、IL3、IL4、IL5、IL6、IL8、IL10、IL12、IL15、Fas、FasL、Flt3配体、41BB、ACE、ACE-2、KGF、FGF-7、SCF、导蛋白1，2、IFNa，b，g、胱天蛋白酶2，3，7，8，10、ADAMS1，S5，8，9，15，TS1，TS5；脂连蛋白、ALCAM、ALK-1、APRIL、膜联蛋白V、血管生成素、双调蛋白、血管生成素1，2，4、Bcl-2、BAK、BCAM、BDNF、bNGF、bECGF、BMP2，3，4，5，6，7，8；CRP、钙粘着蛋白6，8，11；组织蛋白酶A，B，C，D，E，L，S，V，X；CD11a/LFA-1、LFA-3、GP2b3a、GH受体、RSV F蛋白、IL-23(p40、p19)、IL-12、CD80、CD86、CD28、CTLA-4、α4β1、α4β7、TNF/淋巴毒素、VEGF、IgE、CD3、CD20、IL-6、IL-6R、BLYS/BAFF、IL-2R、HER2、EGFR、CD33、CD52、地高辛、Rho(D)、水痘、肝炎、CMV、破伤风、痘苗、抗蛇毒素、肉毒杆菌毒素、Trail-R1、Trail-R2、cMet、TNF-R家族如LA NGF-R、CD27、CD30、CD40、CD95、淋巴毒素a/b受体、Wsl-1、TL1A/TNFSF15、BAFF-R/TNFRSF13C、TRAIL R2/TNFRSF10B、TRAILR2/TNFRSF10B、Fas/TNFRSF6 CD27/TNFRSF7、DR3/TNFRSF25、HVEM/TNFRSF14、TROY/TNFRSF19、CD40配体/TNFSF5、BCMA/TNFRSF17、CD30/TNFRSF8、LIGHT/TNFSF14、4-1BB/TNFRSF9、CD40/TNFRSF5、GITR/TNFRSF18、护骨蛋白/TNFRSF11B、RANK/TNFRSF11A、TRAIL R3/TNFRSF10C、TRAIL/TNFSF10、TRANCE/RANK L/TNFSF11、4-1BB配体/TNFSF9、TWEAK/TNFSF12、CD40配体/TNFSF5、Fas配体/TNFSF6、RELT/TNFRSF19L、APRIL/TNFSF13、DcR3/TNFRSF6B、TNF RI/TNFRSF1A、TRAILR1/TNFRSF10A、TRAIL R4/TNFRSF10D、CD30配体/TNFSF8、GITR配体/TNFSF18、GITR配体/TNFSF18、TACI/TNFRSF13B、NGF R/TNFRSF16、OX40配体/TNFSF4、TRAIL R2/TNFRSF10B、TRAIL R3/TNFRSF10C、TWEAK R/TNFRSF12、BAFF/BLyS/TNFSF13、DR6/TNFRSF21、TNF-α/TNFSF1A、Pro-TNF-α/TNFSF1A、淋巴毒素βR/TNFRSF3、淋巴毒素βR(LTbR)/Fc嵌合体、TNF RI/TNFRSF1A、TNF-β/TNFSF1B、PGRP-S、TNF RI/TNFRSF1A、TNF RII/TNFRSF1B、EDA-A2、TNF-α/TNFSF1A、EDAR、XEDAR、TNF RI/TNFRSF1A。

下列实施例是为了说明而非限定本发明，提供了制备本发明方法中可用的材料的方法和本发明方法的操作实施方案。

实施例

实施例1：CDP 6_6_12_3_2的随机化

下列实施例描述了基于CDP 6_6_12_3_2的文库的设计。搜索TrEMBL蛋白质序列数据库中与CDP 6_6_12_3_2匹配的部分序列。总共71个序列与该CDP匹配。计算如表5中所示的每个位点的氨基酸丰度。对于每个非半胱氨酸位点，我们基于以下标准选择随机化方案：a)避免引入终止密码子，b)避免引入额外的半胱氨酸残基，c)允许在＞3％的特定位点观察到大量氨基酸，d)使得在与该CDP匹配的71种天然序列任一种中未观察到的氨基酸的引入减至最小。

实施例2：在大肠杆菌中的蛋白质表达和折叠

将寡核苷酸克隆到驱动蛋白质在大肠杆菌细胞质中表达的表达质粒载体中。优选的启动子是在大肠杆菌株BL21 DE3中的T7(Novagen pET载体系列；Kan标记)。一种优选的插入这些oligos的方法是改良的Kunkel法(Scholle，D.，Kehoe，JW和Kay，B.K.(2005)Efficient construction of a large collection ofphage-displayed combinatorial peptide libary.Comb.Chem.&HTP Screening8：545-551)。一种不同的方法是对(全部或部分)载体进行2-oligo PCR，随后消化oligo-衍生的片段末端中独特的限制性酶切位点，随后连接匹配的非回文突出端(有效的片段内连接)。第三种方法是通过重叠PCR由2或4个oligos组装插入片段，在组装的插入片段末端消化限制性酶切位点，然后将其连接到消化后的载体中。将连接的DNA转化到感受态大肠杆菌细胞中，并在涂布于LB-Kan板上生长过夜后，挑取各个菌落，接种于含2xYT培养基的96孔板中，培养物在37℃摇床上生长过夜。

将板加热到80℃持续20分钟，以6000g离心，沉淀聚集的大肠杆菌蛋白质。

实施例3：抗冻蛋白的设计步骤

目的：为抗冻重复蛋白设计文库

策略：文库设计的起始序列来源于来自黄粉虫(Tenebrio molitor)的抗冻蛋白(Genbank登录号AF160494)。已知该蛋白质在大肠杆菌中表达良好。可以获得晶体和NMR两种结构。该蛋白质由形成圆柱形的重复单元构建。该结构的核心缺少疏水性氨基酸，但是每个重复单元含有一个二硫键和一个不变的丝氨酸和丙氨酸残基。前两图形成具有三个二硫键的加帽基序。推测该加帽基序形成折叠的核。因此，前两个重复单元在体外进化中一般保持不变。参见图127。

为了选择交换点以及发现用于Scholle诱变的谷氨酰胺残基位点，分析了抗冻蛋白的结构特征。

交换点用红色显示，选择其用来保持在结构中发现的β-折叠堆积。因此，每个文库可以诱变β-堆积相对侧上的两个环。端帽中的环可以在较晚阶段使用位于抗冻蛋白开放阅读框以外的通用上游引物位点来诱变。为了选择用于诱变的密码子，215个重复单元的比对从描述抗冻蛋白家族(Pfam数据库中的PF02420)的Pfam网页上下载。使用程序Profile分析软件v1.0分析该文本文件，设置为：半胱氨酸位点为“2，8”，重复总长为“12”。这种设置排除了N-末端重复单元，后者每12个氨基酸重复含有三个半胱氨酸。结果，该程序排除了89个序列，而分析了其余的126个序列，显示了抗冻蛋白重复部分中每个氨基酸的保守和出现。将输出粘贴到Excel电子表格中，用作文库设计的起点。

实施例4：三指毒素(半环扁尾蛇毒素)的设计步骤

目的：利用三指毒素支架设计文库

背景：三指毒素显示独特的结构，具有一个4-二硫键的核心和三个从该核心伸出的长环。已知这些环参与各种蛋白质-蛋白质相互作用，并且可以被定向进化所针对。

方法：最常见的半胱氨酸间隔模式是10-6-16-3-10-0-4、13-6-16-1-10-0-4和13-5-16-1-10-0-4。选择半环扁尾蛇毒素序列TRICFNHQSSQPQTTKTCSPGESSCYNKQWSDFRGTIIERGCGCPTVKPGIKLSCCESEVCNNA作为起始序列，并且落入13-6-16-1-10-0-4模式中。选择该序列是因为它可以在大肠杆菌中表达。

选择两个交换点以在环区中允许具有最大数目的突变。

实施例5：丛蛋白的设计步骤

目的：利用丛蛋白或PSI支架设计文库。

该支架的优点：该支架具有在各个半胱氨酸残基之间引入长度变异的独特优点以。PSI折叠的半胱氨酸之间长度的显著变化在自然中发现，因此支持这一设计原则。环长度的多样性在微生物蛋白质家族中是排序最高的之一。图135显示了可以通过添加氨基酸残基逐渐增加长度而产生的“多-丛蛋白”。

策略：Pfam数据库列出了468个家族成员。Cys5/Cys6、Cys6/Cys7和Cys7/8之间的半胱氨酸间距具有高度可变性。因此难以选择起始共有序列。Met受体的PSI结构域的NMR结构已经解析，显示5，2，8，2，3，5，9的模式。该蛋白质已经在大肠杆菌中表达，尽管表达水平相当低(1mg/9升细胞)。检索数据库中显示5，2，8，2间距的成员，发现99个序列。然而，只有11％具有基序5，2，8，2，3，只有三个成员具有5，2，8，2，3，5，9。因此，该间隔模式被忽略，并且确定该家族的最通用的间隔模式。用5，2，7，2，5检索产生54个序列。这些模式在Excel电子表格中比对，得到在每个位置处最常见的密码子。最后的间距

最可变的，甚至发现整个蛋白质结构域的插入。在54个具有5，2，7，2，5的成员的最后一个位置处最常见的间距是“15”。总之，PSI折叠的共有序列来源于具有模式5，2，7，2，5，15的家族成员。

结构“1ssl”显示来自Met受体的PSI结构域。交换点设计为使最保守的家族基序CGWC保持完整。其允许将支架的前一半随机化。第二个交换点在Cys 7处插入。这使得可以将自然中显示极大长度变化的半胱氨酸间距5、6、7的随机化最大化。参见图119。

图120：文库共有序列与共有序列5，2，8，2，3，5(只有11个成员)的比对显示25％相同。最大多样性位于最后一个cys间距中，这与标识图和与其他成员的比较一致。

实施例6：生长调节素的设计步骤

目的：利用生长调节素支架设计文库

策略：共有

EESCKGRCGEGFNRGKECQCDELCKYYQSCCPDYESVCKPK来源于具有相同半胱氨酸间隔模式的44个序列。

在蛋白质的接近中部选择交换点，以允许在该序列的两个一半部分中诱变。参见图121。

实施例7：微生物蛋白质支架表达的评价

将抗冻蛋白(AF)、三指毒素(TF)、生长调节素(SM)和丛蛋白(PL)的微生物蛋白质开放阅读框克隆到pET30-衍生的载体中，并且在大肠杆菌株BL21(DE3)中表达。将过夜培养物1∶200稀释到20ml LB中，生长3小时，然后用2mM IPTG诱导，并且再生长4小时。培养物以5000×g离心10分钟，并且重悬浮在PBS中。将250μl样品加热至80℃保持30分钟，在室温下离心10分钟。来自加热步骤的上清液(50μl样品)与25μl含5％BME的样品缓冲液混合；重悬浮的细胞(50μl)直接与25μl含5％BME的样品缓冲液混合。样品煮沸10分钟，然后加样到16％SDS-PAGE上。

结果：参见图122。从左到右(16％SDS-PAGE)：部分纯化的蛋白质：阳性对照，新AF支架，新TF支架，新SM支架，PL(短形式)，对照，NEB宽范围，然后是相同数量级的相同蛋白质的全细胞制品。

结论：蛋白质TF、SM、PL以高浓度存在于上清液中，并且是高度耐热的。

实施例8：噬菌粒载体pMP0003的构建

我们构建了用于有效构建微生物蛋白质文库的载体。该载体的背景基于pBluescript噬菌粒载体。我们插入了由lacZ启动子驱动的表达盒。编码序列包含以下元件：ompA信号肽、位于SfiI和BstXI位点侧翼的短填充序列、接头元件、六组氨酸标记、血凝素(HA)标记、琥珀终止密码子、M13噬菌体的pIII蛋白的C-末端片段、终止密码子。填充序列仅长40bp。它含有双TAA和TGA终止密码子和唯一的BssHII位点。大噬菌粒文库的构建通常受限于能否获得足量的消化和纯化载体片段。pMP0003的设计大大简化了制备步骤，因为它不需要通过制备型琼脂糖凝胶电泳纯化载体片段。用SfiI、BstXI和BssHII三重消化质粒pMP0003释放出两个极短的填充片段，该片段分别长19和21bp，可以使用YM-100柱(Microcon)通过超滤除去。填充片段中BssHII位点的存在也导致基于pMP0003的文库中非重组克隆的频率显著降低。

实施例9：文库LMB0020的设计和构建

随机克隆的文库可以基于多种微生物蛋白质序列构建。该方法包括几个步骤：1)鉴定适当的微生物蛋白质支架，2)鉴定用于随机化的残基，3)为每个随机化位置选择随机化方案，4)根据随机化方案设计部分随机的寡核苷酸，该寡核苷酸编码微生物蛋白质支架并且在特定位置引入核苷酸混合物，5)装配微生物蛋白质片段，6)限制酶切消化和纯化，7)将该片段连接到消化后的载体片段中，7)转化感受态细胞。

文库LMB0020基于胰蛋白酶抑制剂EETI-II的序列，后者是南瓜家族蛋白酶抑制剂的成员(Christmann，A.，等人.(1999)Protein Eng，12：797-806)。检查

ETI-II的晶体结构，选择10个位点进行随机化。9个位点用随机密码子NHK随机化，该密码子允许引入16种氨基酸(A，D，E，F，H，I，K，L，M，N，P，Q，S，T，V，Y)。在一个位点中，使用允许16种氨基酸(A，D，E，F，H，I，K，L，M，N，P，Q，S，T，V，Y)的随机密码子VNK。产生的随机序列为：GCPXXXXXCKQDSDCXXGCVCZPXGXCGSP，其中X代表密码子NHK，Z代表密码子VNK。该随机化方案理论上允许超过10¹²种不同氨基酸序列的多样性。编码随机化胰蛋白酶抑制剂的基因片段通过具有以下序列的两个寡核苷酸的重叠延伸而装配：

LMB0020F＝CAGGCAGCGGGCCCGTCTGGCCCGGGTTGTCCTNHKNHKNHKNHKNHKTGTAAACAAGACTCTGACTG，

LMB0020R＝TGTAAACAAGACTCTGACTGTNHKNHKGGTTGCGTTTGCVNKCCGNHKGGTNHKTGTGGCTCTCCGGGCCAGTCTGGTGGTTCCGGTCACGTGACCGGAACCACCAGACTGGCCCGGAGAGCCACAMDNACCMDNCGGMNBGCAAACGCAACCMDNMDNACAGTCAGAGTCTTGTTTACA。

寡核苷酸LMB0020F和LMB0020R具有共同的20个核苷酸的互补区。两步PCR扩增通过将两个互补引物退火然后在反应中补平来进行。然后使用含有限制酶切位点的支架引物LIBPTF和LIBPTR扩增该产物。

得到的产物用YM-30过滤器Microcon)浓缩，并通过使用1.2％琼脂糖的制备型琼脂糖凝胶电泳纯化。

10μg产物在50℃下用SfiI/BstXI消化5小时，在PCR柱(Qiagen)上快速纯化，产生约4μg的纯化片段。载体pMP0003用QIAGEN HiSpeed Maxi试剂盒制备。150μg载体DNA在3个单独的Eppendorf管中用SfiI/BstXI/BssHII在50℃下消化4小时，并在YM-100柱(Microcon)上纯化。总产量为112.5μg(75％)消化后的载体。在小规模实验中测试插入片段与载体的不同比例，以使文库中转化子的数目最大化。大规模连接在7个连接管中进行。每个管含有3μg消化后的载体、0.5μg消化后的插入片段(1∶2.5比例)、40μl连接酶缓冲液、20μl T4 DNA连接酶，总体积为400μl。连接在16℃下进行过夜。每个库在8个管中于-20℃乙醇沉淀过夜，由此纯化得到的产物。每个管中连接的DNA溶解在30ml蒸馏水中，按2x15μl分配，从而每个文库产生16管用于转化。

电感受态大肠杆菌ER2738用以下方法制备：1)将大肠杆菌甘油贮存液在LB琼脂(5mg/l四环素)上新鲜划线，取一个菌落接种50-ml聚丙烯管中的15ml预温的超级肉汤培养基(SB)。加入四环素至30μg/ml(90μl的5mg/ml四环素)，在37℃摇床上以250rpm生长过夜。2)将2.5ml培养物稀释到4个具有500ml SB培养基的2升摇瓶中的每一个中，加入10ml 20％葡萄糖、5ml 1M MgCl₂和500μl的5mg/ml四环素。于250rpm和37℃下振摇，直到600nm处的吸光度为大约0.9(2小时45分钟)。3)在冰上冷却培养物以及4个500-ml瓶15分钟。4)将培养物转移到4个500-ml的瓶中，在4℃下以4000rpm离心20分钟。5)倾去上清液，使用25-ml预冷的移液管将每种沉淀物重悬浮在25ml预冷的10％甘油中。在一个250-ml瓶中合并2份沉淀物，加入10％甘油，得到250ml。如上所述离心。6)倾去上清液，重复步骤5。7)弃去上清液，将每种沉淀物重悬浮在剩余的体积(3.5ml)中。合并所有悬浮液。使用300μl等份进行文库电穿孔。任选的：为了贮存，等分320μl到eppendorf管中，用乙醇和干冰骤冻。盖上试管，贮存于-80℃。8)将50μl细胞悬浮液涂布到LB琼脂(100mg/l羧苄青霉素)上，以检测载体噬菌体污染。将50μl细胞悬浮液涂布到LB琼脂(100mg/l卡那霉素)上，以检测辅助噬菌体污染。

文库电穿孔按下列步骤进行：1)将连接的DNA(通常为16种)和相应数目的盒置于冰上10分钟。2)向每个连接的文库样品中加入新鲜制备的ER2738细胞，通过上下吸液一次混合，并转移到小杯中。在冰上放置1分钟。在2.5kV，25μF和200ohm下电穿孔。立即用2ml然后用1ml SOC培养基在室温下冲洗小杯。在10-ml培养管中合并3ml培养物。在37℃下以300rpm振摇1小时。3)合并两个3ml样品，并将其转移到50-ml聚丙烯管中。加入9ml预温的(37℃)SB培养基、3μl100mg/ml羧苄青霉素和15μl的5mg/ml四环素。为了滴定转化的细菌，在200μl SB培养基中稀释2μl培养物，并将10μl和1μl该1∶100稀释液涂布到LB琼脂(100mg/l羧苄青霉素)上。平板于

℃孵育过夜。通过计数菌落数、乘以培养体积、并除以涂布体积，计算转化子总数。15-ml培养物在300rpm和37℃下振摇1小时，加入4.5μl100mg/ml羧苄青霉素，于300rpm和37℃下再振摇1小时。4)合并两份15ml样品，加入3ml VCSM13辅助噬菌体。转移到500-ml聚丙烯离心管中。加入167ml预温的(37℃)SB培养基、92.5μl 100mg/ml羧苄青霉素和185μl 5mg/ml四环素。200-ml培养物在300rpm和37℃下振摇1.5-2小时。5)加入280μl 50mg/ml卡那霉素，继续在300rpm和37℃下振摇过夜。6)在4℃下以4000rpm离心15分钟。将上清液转移到清洁的500-ml离心瓶中，加入50ml 20％PEG-8000/NaCl 2.5M。在冰上放置30分钟。7)在4℃下以9000rpm离心15分钟。弃去上清液，通过将离心瓶倒置在纸巾上至少10分钟除去液体，并用纸巾擦去离心瓶上部剩余的液体。8)通过沿离心瓶侧面上下吸液，将噬菌体沉淀物重悬浮在含2ml 1％(w/v)牛血清白蛋白(BSA)的Tris缓冲液(TBS)中，并转移到2-ml微量离心管中。进一步通过使用1-ml吸头上下吸液再悬浮，用微量离心机在4℃下全速离心5分钟，使上清液通过0.2-μm滤器，过滤到无菌2-ml微量离心管中。于4℃贮存该噬菌体制品。为了长期贮存，可以加入叠氮钠至0.02％(w/v)。对于LMB0020得到的文库大小为2.4×10⁹个转化子。

实施例10：文库LMB0020的淘选

1)用25μl PBS中的0.25μgCD22抗原包被Costar 96-孔ELISA板的孔。将板盖上板封。包被可以在4℃下进行过夜或者在37℃下进行1小时。在第一轮淘选中，每个将要筛查的文库包被2个孔；在后面的各轮中一个孔就足够了。在第3-6轮淘选中靶标浓度降低到0.1μg/孔。

2)在摇出包被溶液后，通过加入150μl TBS/BSA 3％(含3％牛血清白蛋白的Tris缓冲液)封闭各孔。封板，并于37℃孵育1小时。

3)在摇出封闭溶液后，向孔中加入50μl新鲜制备的噬菌体文库(输入样品)。封板，并于37℃孵育2小时。同时，向2ml SB培养基加2μl 5mg/ml四环素中接种2μl ER 2738细胞制品，并使其在250rpm和37℃下生长2.5

时。每个筛查的文库培养1份培养物，另一份培养物用于输入滴定。

4)摇出噬菌体溶液，向孔中加入150μl TBS/Tween-200.05％，并上下剧烈吸液5次。等待5分钟，摇出，重复该洗涤步骤。在第一轮淘选中，以这种方式洗涤4次，在第二轮中洗涤6次，在第三轮中洗涤8次，以此类推。

5)在摇出最后的洗涤溶液后，加入50μl在TBS中新鲜制备的10mg/ml胰蛋白酶，封板，在37℃下孵育30分钟。上下剧烈吸液10次，并将洗出液(第一轮中为2×50μl，以后的轮次中为1×50μl)转移到制备的2-ml大肠杆菌培养物中，在室温下孵育15分钟。

6)加入6ml预温的SB培养基和1.6μl 100mg/ml羧苄青霉素和6μl 5mg/ml四环素。将培养物转移到50-ml聚丙烯管中。对于输出滴定，在200μlB培养基中稀释2μl样品，将100μl和10μl该样品涂布到LB琼脂(100mg/l羧苄青霉素)上(输出样品)。平行地，通过用1μl 10^-8稀释的噬菌体制品感染50μl制备的2-ml大肠杆菌培养物进行输入滴定，在室温下孵育15分钟，并涂布到LB琼脂(100mg/l羧苄青霉素)上。

7)8-ml培养物在250rpm和37℃下振摇1小时，加入2.4μl100mg/ml羧苄青霉素，在250rpm和37℃下振摇另外1小时。

8)加入1ml VCSM13辅助噬菌体，并转移到500-ml聚丙烯离心管中。加入91ml预温的(37℃)SB培养基和46μl100mg/ml羧苄青霉素和92μl5mg/ml四环素。在300rpm和37℃下振摇100-ml培养物1.5至2小时。

9)加入140μl50mg/ml卡那霉素，继续在300rpm和37℃下振摇过夜。

10)在4℃下以4000rpm离心15分钟。将上清液转移到清洁的500-ml离心瓶中，加入25ml 20％PEG-8000/NaCl 2.5M。在冰上放置30分钟。

11)在4℃下以9000rpm离心15分钟。弃去上清液，在纸巾上至少倒置10分钟除去液体，并用纸巾擦去离心瓶上部剩余的液体。

12)通过沿离心瓶侧面上下吸液将噬菌体沉淀物重悬浮在2ml TBS/BSA1％缓冲液中，并转移到2-ml微量离心管中。使用1-ml吸头上下吸液进一步重悬浮，用微量离心机在4℃下全速离心5分钟，并使上清液通过0.2-μm滤器过滤到无菌2-ml微量离心管中。

13)下一轮从步骤3)继续，或者在4℃下贮存噬菌体制品。为了长期保存，可以加入叠氮钠至0.02％(w/v)。每轮应当只使用新鲜制备的噬菌体。

表6显示6轮文库淘选过程中输入和输出溶液的噬菌体滴度

轮次	输入(10¹¹)	输出(10⁶)	回收率(％×10³)	富集
轮次	输入(10¹¹)	输出(10⁶)	回收率(％×10³)	富集	1	12	1.9	0.16	-
2	0.45	0.032	0.007	阴性	1	12	1.9	0.16	-
2	0.45	0.032	0.007	阴性	3	4.7	2.14	0.46	2.87
4	2.5	0.064	0.032	阴性	3	4.7	2.14	0.46	2.87
4	2.5	0.064	0.032	阴性	5	0.52	1.2	2.3	14.37
6	0.6	2.0	3.33	20.8	5	0.52	1.2	2.3	14.37

实施例11：针对靶标结合筛选各个分离株

ER2738用输出噬菌体感染，并且涂布LB琼脂(100mg/l羧苄青霉素)上。平板在37℃下孵育过夜。然后可以如下筛查各个菌落与靶蛋白的结合：

1)向具有深孔的96孔板中加入0.75ml含有50μg/ml羧苄青霉素的SB培养基。使用无菌牙签将各菌落转移到各孔中。

2)含有细菌培养物的板在37℃下以300rpm摇动数小时。

2)在接种6小时后将各1μl培养物点样到LB琼脂(100mg/l羧苄青霉素)上。将板在37℃下孵育过夜；用石蜡封板，并且贮存在4℃。随后用这些板回收显示阳性ELISA信号的分离株，并测序。

3)加入IPTG至1mM(7.5μl 1M IPTG贮存液，用水1∶10稀释)诱导培养物，然后在37℃下培养过夜。

4)离心被诱导的大肠杆菌培养物(4000rpm；20min)。

5)制备Bugbuster溶液(Novagen)(1.5ml试剂加13.5ml TBS和15μlBenzonase)。

6)将沉淀物重悬浮在150μl bugbuster中。将板在室温下孵育30分钟，

以4000rpm离心20分钟。

7)将每孔50μl上清液转移到微量滴定板中，该板已用每孔100ng溶于PBS中的靶蛋白4℃包被过夜，并用150μl/孔含3％BSA的TBS封闭了1小时。

8)将板在37℃下孵育2小时。

9)用自来水洗涤10次。

10)在TBS/BSA 1％中稀释生物素化的大鼠抗-HA抗体(3F10，RocheBiosciences)(1∶500稀释)。向孔中加入50μl稀释抗体，于37℃孵育1小时。

11)用自来水洗涤10次。

12)在TBS/BSA 1％中稀释链霉亲和素/HRP(1∶2500稀释)，每孔加入50μl，于37℃孵育30分钟。

13)制备ABTS溶液(2.94ml柠檬酸缓冲液+60μl ABTS+1μl H₂O₂)。

14)用自来水洗涤10次。

15)向每孔中加入50μl底物溶液。

16)在室温下孵育，在室温孵育20分钟后使用ELISA读板仪于405nm读取O.D.。

文库LMB0020第5轮的输出以及其他两种微生物蛋白质文库的输出如上所述筛选。下表显示用IgG和BSA包被的板获得的结合数据。几种分离株显示，在IgG包被的板上的结合信号显著高于BSA包被的孔。

IgG 1 2 3 4 5 6 7 8 9 10 11 12

A 0.14 0.11 0.10 0.10 0.10 0.11 0.10 0.12 0.14 0.11 0.13 0.13 SMP3S5

B 0.11 0.29 0.11 0.10 0.10 0.11 0.10 0.12 0.12 0.17 0.59 0.33 SMP3S5

C 0.24 0.27 0.16 0.23 0.11 0.19 0.12 0.10 0.10 0.10 0.11 0.16 SMP3S5

D 0.12 0.10 0.10 0.14 0.12 0.11 0.09 0.15 0.09 0.09 0.10 0.10 SMP3S5

E 0.10 0.11 0.10 0.17 0.09 0.09 0.10 0.15 0.15 0.11 0.10 0.10 SMP3S5

F 0.10 0.10 0.10 0.11 0.11 0.09 0.11 0.10 0.10 0.10 0.10 0.14 SMP3S5

G 0.46 0.12 0.33 0.20 0.40 0.11 0.09 0.33 0.09 0.09 0.10 0.30 SMP4S5

H 0.12 0.12 0.11 0.10 0.13 0.07 0.09 0.41 0.09 0.12 0.48 0.15 SMP5S5

BSA A 1 2 3 4 5 6 7 8 9 10 11 12

B 0.10 0.10 0.10 0.10 0.09 0.10 0.10 0.10 0.12 0.10 0.10 0.10 SMP3S5

C 0.10 0.14 0.09 0.09 0.09 0.09 0.09 0.10 0.10 0.11 0.15 0.12 SMP3S5

D 0.12 0.12 0.10 0.13 0.09 0.12 0.10 0.11 0.10 0.09 0.10 0.10 SMP3S5

E 0.10 0.09 0.09 0.10 0.10 0.10 0.10 0.11 0.09 0.09 0.13 0.09 SMP3S5

F 0.09 0.10 0.09 0.12 0.09 0.09 0.09 0.10 0.12 0.09 0.09 0.10 SMP3S5

G 0.09 0.09 0.09 0.09 0.10 0.09 0.09 0.09 0.09 0.09 0.09 0.10 SMP3S5

H 0.14 0.09 0.11 0.09 0.11 0.09 0.09 0.12 0.09 0.09 0.09 0.11 SMP4S5

0.10 0.09 0.10 0.09 0.10 0.09 0.09 0.15 0.09 0.11 0.18 0.11 SMP5S5

对三个IgG-结合分离株进行了测序。所有分离株都保持胰蛋白酶抑制剂支架的6个半胱氨酸残基之间的间距。所有3个分离株在其氨基酸序列上都不同，这证明了该方法可以产生多结合结构域，其中每一个可以用作进一步优化的起点。

LMB0020/SMP003S5.B2

G P S G P G C P I L Y A H C K Q D S D C V T G C V C R P L G M C G SP G Q S G G S G H H H H H H

LMB0020/SMP003S5.B12

G P S G P G C P S L P T P C K Q D S D C D E G C V C K P N G T C G SP G Q S G G S G H H H H H H

LMB0020/SMP003S5.C2

G P S G P G C P L Y S P V C K Q D S D C D N G C V C R P A G P C G SP G Q S G G S G H H H H H H

实施例12：微生物蛋白质设计的集结(Build-up)法

可与VEGF结合的1-二硫键蛋白质(1SS)逐步进化为2SS微生物蛋白质，者对蛋白酶更稳定并且免疫原性更低。图1显示两种来源于1SS噬菌体衍生肽(“VEGF肽”)的单独2SS蛋白质(“克隆2”和“克隆7”)的ELISA结果。所有三种对于VEGF都是特异性的，不显示与其他蛋白质如BSA结合。不合微生物蛋白质的M13也不与VEGF或BSA结合。该2SS蛋白质是通过将决定VEGF结合的1SS序列移动到天然2SS支架(α-芋螺毒素)内而产生的。得到的蛋白质是VEGF特异性的，并且不与无关蛋白质如牛血清白蛋白(BSA)结合。野生型噬菌体颗粒(M13)显示不与VEGF或BSA结合。参见图168。

实施例13：通过大引物诱变的文库构建

大引物法是一种将两个(或多个)不同的引物组合为一个大引物的方法，在Kunkel型聚合酶延伸反应中该大引物通过其两个末端的同源性而被引入质粒内(除了可以利用终止密码子置换使引入高度有效以外)。大引物法使用60、70、80、90、100、110个或优选甚至多于120个核苷酸或碱基对的双链或单链DNA，用于引入或转移DNA和编码的蛋白质序列的复杂组(pool)。在我们的实施例中，这些组编码微生物蛋白质文库，但是相同的方法可以编码任一DNA或蛋白质文库。大引物一般含有以前选择的一组序列(“老文库”)以及一组新随机化的序列(“新文库”)。大引物法因此允许从老文库盲法产生新文库——而不用对老文库进行测序。

通常，PCR片段从以前选择的序列组的文库区(“随机化区域”)产生，并且该片段(通过PCR-重叠)连接到编码新随机化的文库片段(未选择的)的合成oligo上，产生含有新的(未选择的)和老的(选择过的)随机化区的dsDNA片段。如果引物之一引入了新的文库，则对“老文库”区域两侧使用引物通过单一PCR可以获得相同的最终结果。通过不对称或失控PCR将该dsDNA PCR片段转化为ssDNA大引物。该ssDNA大引物的末端设计为大约10-25个碱基与载体具有序列同源性，以确保在正确的位置插入。

使用重叠PCR由两个或多个PCR片段和/或合成寡核苷酸产生双链大引物，单链DNA可以用变性的双链PCR产物和/或单链DNA“不对称PCR”

失控PCR)产生。不对称PCR扩增与单链DNA模板互补的单链序列。大引物序列可以含有单序列，但是更典型地含有序列的文库(例如，微生物蛋白质)(如图143所示)。单链模板DNA(载体或噬菌体)可以含有尿苷或者可以编码可抑制的终止密码子(TAG、TAA、TGA)，该终止密码子替换不含终止密码子的大引物序列。退火的大引物然后引发DNA第二链通过聚合酶合成，并且在缓冲剂、DNA聚合酶、DNA连接酶和脱氧核苷酸三磷酸(dNTP)的存在下，利用合成的链的连接产生共价闭合的环状DNA(ccc-DNA)。产生的ccc-DNA转化到细菌细胞系中，用于将微生物蛋白质表达为不可溶蛋白质、可溶性蛋白质或融合蛋白。

大引物结果的一个例子在下表中示出。它显示了在前15个位点中已经被诱变的微生物蛋白质的氨基酸序列。匹配原微生物蛋白质模板的保守残基用灰色阴影标出。微生物蛋白质序列(包括图2的序列)的文库用作大引物合成的起点。利用两条DNA引物产生含有“老文库”区以及新文库区的PCR片段：i)与微生物蛋白质上游退火的引物，和ii)含有新随机化的微生物蛋白质序列(“新文库”)的引物，其侧翼为微生物蛋白质-特异性的退火区和DNA模板退火区。微生物蛋白质文库输入使用PCR用两条引物扩增，通过不对称PCR扩增，并克隆到单链DNA模板中，产生第二微生物蛋白质文库。产生的克隆(图2下部)显示了在原序列的前一半和后一半中随机化的微生物蛋白质序列。

用于大引物诱变或克隆的输入序列

文库区1

大引物诱变或克隆后

文库区2

实施例14：微生物蛋白质的产生

将微生物蛋白质基因克隆到带有T7启动子的表达载体pET30中，并转化大肠杆菌株BL21(DE3)。2mlLB(50mg/l卡那霉素)从冷冻的甘油贮存液中接种，并在37℃下培养4小时。将200μl这种起始培养物加入到250mlLB(50mg/l卡那霉素)中，不加振摇孵育过夜。次日早晨，将摇床调至250rpm，培养物再生长1小时。然后加入IPTG至0.5mM终浓度，蛋白质在37℃振摇培养箱中表达6小时。培养物以3000rpm离心15分钟，重悬浮于5ml PBS中，于75℃加热20分钟。该步骤导致细胞裂解和大多数大肠杆菌蛋白质变性。悬浮液用SS34转头以10,000rpm离心30分钟。将得到的上清液加样到充有硫酸镍的HiTrap柱(Pharmacia GE)上。如柱生产商所建议的，使用咪唑洗脱蛋白质。根据还原条件下的SDS PAGE判断，得到的蛋白质纯度＞90％。

实施例15：DBP复杂度的确定

复杂度是累积的二硫键跨度，它等于在蛋白质链上氨基酸中测量的连接

半胱氨酸之间的累积距离。

复杂度是交联程度的量度，因此是支架刚性的量度，较高的复杂度提供较高的刚性。因为刚性是蛋白酶抗性的预测指标，它也是免疫原性的有用的预测指标。较高的复杂度预测降低的蛋白酶降解和较低的免疫原性。

复杂度＝(Ca-Cb)+(Cc-Cd)+(Ce-Cf)

实施例16：不含重复基序的支架

毒素家族的超家族

1)uPAR/Ly6/CD59/蛇毒素受体超家族。包括家族：激活蛋白_受体；BAMBI；PLA2_抑制剂；毒素_1；UPAR_LY6；

2)蝎毒素样knottin超家族包括家族毒素_2；毒素_17；γ-thionin；防卫素_2；毒素_3；毒素_5；

3)防卫素/肌毒素-样超家族包括家族BDS_I_II；防卫素_1；防卫素_β；毒素_4；

4)ω毒素-样超家族包括家族毒素_7；毒素_30；毒素_27；毒素_24；毒素_21；毒素_16；毒素_12；毒素_11；ω-毒素；白蛋白_I；毒素_9；

5)芋螺毒素O-超家族由3组属于相同结构组的芋螺肽组成。这3组在其药理学性质上不同：w-芋螺毒素抑制钙通道，δ-芋螺毒素减慢电压敏感钠通道的灭活率，muO-芋螺毒素阻断电压敏感的钠电流。

6)芋螺毒素I-超家族只包括毒素19家族。

7)芋螺毒素T-超家族只包括毒素26家族。

各个毒素家族：

PF00087：毒素1

蛇毒素。毒液神经毒素和细胞毒素的家族。结构较小，富含二硫键，几乎均为β折叠。参见图61。

1)Cxxxxx(xxxx)xxxCxxxxxxCxxxx(xxx)C(xx)xxxxxxxxCxxxC

2)Cxxxxx(xxxx)xxxCxxxxxxCYxkx(wf)(xx)C(xx)xxxxxxxGCxxxC

PF00451：毒素2

“蝎子短毒素”。蝎子毒液含有多种对哺乳动物、昆虫和甲壳类动物有毒的肽。在这些肽中，短毒素家族(30到40个残基)抑制钙激活的钾通道。参见图55。拓扑学是1-42-63-5。

1)CxxxxxCxxxCxxxxxxxxxxCxxxxCxC

2)CxxxxxCxxxCkxxxxxxxgKCxxxKCxC

PF00537：毒素3

该家族含有神经毒素和植物防卫素(F.M.Assadi-Porter，等人.(2000)ArchBiochem Biophys，376：259-65)。芥菜胰蛋白酶抑制剂MTI-2是植物防卫素。它是胰蛋白酶的强抑制剂。MTI-2对鳞翅目(Lepidopteran)昆虫有毒。蝎毒素(一种神经毒素)与钠通道结合，并且抑制该通道的活化机制，由此阻断神经元传递。参见图22。拓扑学为1-82-53-64-7。

1)C(xxx)x(xx)xxxxCxxxCxx(xx)xxCxxxCxx(x)xxxxCxxxxx(xx)xxCxC

2)C(xxx)Y(xx)xxxxCxxxCxx(xx)xxCxxxCxx(x)xxGxCxxxxx(xx)xxC(W，Y)C

PF00706：毒素4

海葵神经毒素。海葵产生多种不同的具有相关结构和功能的神经毒素。属于该家族的蛋白质包括神经毒素，其中有几种，包括海葵毒素和海葵素(anthopleurin)。神经毒素与钠通道特异性结合，由此延迟其在信号转导过程中的活化，导致哺乳动物心肌收缩的强刺激。已经在甲壳类动物的神经肌肉制品中发现了海葵毒素1，它在其中增强递质的释放，引起轴突激发(firing)。该蛋白质中存在三个二硫键。该家族是防卫素/肌毒素样超家族的一个成员。该超家庭包括如下Pfam成员：BDS_I_II；防卫素_1；防卫素_β；毒素_4。海葵产生多种不同的具有相关结构和功能的神经毒素。属于该家族的蛋白质包括神经毒素，其中有几种，包括海葵毒素和海葵素。神经毒素与钠通道特异性结合，由此延迟其在信号转导过程中的活化，导致哺乳动物心肌收缩的强刺激。已经在甲壳类动物的神经肌肉制品中发现了海葵毒素1，它在其中增强递质的释放，引起轴突激发。该蛋白质中存在三个二硫键。具有25个已知的家族成员。拓扑学为1-52-43-6。图87。

1)CxCxxxxxxxxxxxxxxxx(xx)xxxxC(xxx)xxxxxxCxxxxxxxxxCC

2)CxCxxxxPxxrxxxxxGxx(xx)xxxxC(xxx)xxxWxxCxxxxxxxxxCC

PF05294：毒素5

蝎子短毒素。图46。

PF05453：毒素6

图90。该家族由从东亚钳蝎(Buthus martensii Karsch)的毒液中分离的毒素样肽组成。前体由60个氨基酸残基组成，具有推定的28个残基的信号肽和一个额外的残基，和具有酰胺化C末端的31个残基的成熟肽。这些肽与其他蝎子K+通道毒素具有密切同源性，应当呈现共同的三维折叠，半胱氨酸-稳定的alphabeta(CSalphabeta)基序。该家族通过阻断其受害者中小传导性钙活化钾离子通道起作用。拓扑学为1-4 2-5 3-6。基序为CxxCxxxCxxxxxxx(xx)C(xx)xxxxxCxC

PF05980：毒素7

该家族由几种短蜘蛛神经毒素蛋白质组成，包括来自漏斗网蜘蛛的多种神经毒素蛋白质(W.S.Skinner，等人.(1989)J Biol Chem，264：2150-55)。参见图64。

拓扑学为1-4 2-5 3-8 6-7。

1)CxxxxxxCxxxxxxxCCxxxxxCxCxxxxxCxC

2)CxxxxxxCxxWxxxxCCxgxxYCxCxxxpxCxC

PF07365：毒素8

α-芋螺毒素和前体。该家族由几种来自大量芋螺属(Conus)的种的α芋螺毒素前体蛋白质组成。α-芋螺毒素是来自捕鱼海螺的毒液的小肽神经毒素，它们阻断烟碱乙酰胆碱受体(nAChRs)。图72。

PF00095：毒素9

该蜘蛛神经毒素家族被认为是钙离子通道抑制剂。

参见图63。拓扑学为1-4 2-5 3-8 6-7。

1)Cxx(x)xxxxCxxxxxCCxxx(x)xCxCxxxxxCxC

2)Cxx(x)yxxxCxxgxxCCxrx(x)xCxCxxxxnCxC

PF07473：毒素11

该家族由几种痉挛性肽gm9a序列组成(M.B.Lirazan，等人.(2000)Biochemistry，39：1583-8)。参见图27，DBP：1-52-43-6

基序：CxxxCxxxxxCxxxCxC

PF07740：毒素12

HaTx1是从智利狼蛛毒液中分离的35个氨基酸的肽毒素。它抑制drk1电压门控K(+)通道，不是通过阻断孔，而是通过改变门控的能量学(H.Takahashi，等人.(2000)J Mol Biol，297：771-80)。参见图50。

拓扑学为1-4 2-5 3-6。基序为CxxxxxxCxxxxx(x)CCxxxxCxxx(xxx)x(xx)xxC

PF07822：毒素13

该家族的成员类似于神经毒素B-IV，后者是甲壳类动物选择性的神经毒素，由海虫脑纹纽虫(Cerebratulus lacteus)产生。这种高度阳离子性的肽大约有55个残基，排列形成由发夹结构中良好限定的环连接的两个反平行螺旋。发夹的分支通过四个二硫键连接。确定为对于活性而言重要的三个残基，即Arg-7，-25和-34，发现于该分子的同一面上，而对于活性而言重要的另外一个残基Trp30位于相对侧面上。该蛋白质的作用模式还没有完全理解，但是它可能作用于电压门控的钠通道，可能是通过与这些蛋白质上尚未表征的位点相结合。其相互作用位点也可能特异性较低，例如，可能与带负电荷的膜脂质相互作用。参见图65。

PF07829：毒素14

α-A芋螺毒素PIVA是在食鱼螺Conus purpurascens产生的毒液中发现的主要的麻痹性毒素。该肽通过阻断烟碱乙酰胆碱受体的乙酰胆碱结合位点而起作用(K.J.Nielsen，等人.(2002)J Biol Chem，277：27247-55)。参见图66。

基序1：CCxxxxxxxCxxCxCx(x)xxxxxC，基序2：CCgxxpxxxChpCxCx(x)xxpxxC

PF07945：毒素16

Janus Atracotoxin家族。该家族包括蜘蛛Hadronyche versuta分泌的三种肽。它们是昆虫选择性的、兴奋性的神经毒素，可以通过拮抗肌肉的乙酰胆碱受体或其他无脊椎动物神经元中存在的乙酰胆碱受体亚型而起作用。Janus atracotoxin-Hv1c组织为富含二硫键的球形核(残基3-19)和β-发夹(残基20-34)。存在4个二硫键，其中一个是相邻的二硫键；已知其对于结构的保持是不重要的，但是对于杀昆虫活性是重要的。具有3个已知的家族成员。

扑学为1-62-73-45-8。图91。

1)CxxxxxxCxxCCxCCxxxxCxxxxxxxxxxC

2)CxgxxxpCxxCCpCCpgxxCxxxxxxgxxyC

PF08086：毒素17

该家族由ergtoxin肽组成，该肽是由蝎子分泌的毒素。Ergtoxin能够阻断K+通道的功能。从蝎子毒液中已经发现了超过100种ergtoxin，它们已经按照一级结构被分类到三个超家族中(K.Frenal，等人.(2004)Proteins，56：367-75)。

有25个已知的家族成员。拓扑学为1-42-63-75-8。参见图60。

1)CxxxxxCxxxxxxxxCxxCCxxxxxxxxxCxxxxCxC

2)drdxCxDxxxCxxygxyxxCxxCCxxxgxxxgxCxxxxCxC

PF08087：毒素18

芋螺毒素O-超家族。该家族由芋螺毒素O-超家族的成员组成。芋螺毒素的O-超家族由属于同一结构组的3组芋螺肽组成。这3组在其药理学性质上不同：w-芋螺毒素抑制钙通道，δ-芋螺毒素降低电压敏感性钠通道的灭活速率，muO-芋螺毒素阻断电压敏感的钠电流。参见图31。

基序1：CxxxxxxCxxxxxCCx(xx)xxCxxxxxxC，

基序2：CxxxgxxCxxxxxCCx(xx)gxCxxxfxxC

PF08088：毒素19

芋螺毒素I-超家族。参见图6。该家族由芋螺毒素的I-超家族组成。这是在芋螺属某些种的毒液中存在的新的一类肽。这些毒素的特征在于四个二硫键和神经细胞的修饰离子通道的抑制。I-超家族芋螺毒素在海螺的五个或六个主要分化枝中发现，并且可能在许多种中发现。

PF08089：毒素20

虎纹捕鸟蛛神经毒素家族。该家族由蜘蛛分泌的毒素的虎纹捕鸟蛛神经毒素-II(HWTX-II)家族组成。这些毒素在虎纹捕鸟蛛(Selenocosmia huwenaWang)分泌的毒液中发现。HWTX-II采用了新的支架，不同于在其他虎纹捕鸟蛛神经毒素中发现的ICK基序。HWTX-II由37个氨基酸残基组成，包

参与三个二硫键的6个半胱氨酸。参见图5。

PF08091：毒素21

该家族是ω毒素样宗族(clan)的一个成员。该家族由从蜘蛛毒液中分离的杀昆虫肽组成。参见图58。具有4个已知的家族成员。拓扑学未知。结构不可获得。

1)CxxxxxxCxxxxxCCxxxCxxxxxxCxxxxxxCxxxC

2)CxxxxxPCxnxxxCCxgxCxxxxWxCxxxxxxCskxC

PF08092：毒素22

参见图4。该家族由从六疣蜘蛛科(Hexathelidae)蜘蛛的毒液中分离的Magi肽毒素(Magi 1、2和5)组成。杀虫肽毒素与钠通道结合，并且当注射到鳞翅目幼虫时诱导弛缓性麻痹。然而，当以20 pmol/g颅内注射时这些肽对于小鼠没有毒性。

PF08093：毒素23

参见图3。该家族由在六疣蜘蛛科蜘蛛毒液中发现的毒性肽(Magi 5)组成。Magi 5是第一种对哺乳动物钠通道的位点4具有结合亲和力的蜘蛛毒素，并且该毒素对幼虫具有杀昆虫效果，当注射到幼虫体内时引起麻痹。

PF08094：毒素24

芋螺毒素TVIIA/GS家族。该家族由从海螺马兰芋螺(Conus tulipa)和地纹芋螺(Conus geographus)的毒液中分离的芋螺毒素组成。从马兰芋螺分离的芋螺毒素TVIIA显示与其他良好表征的药理学类别的肽具有极少的序列同源性，但是显示与芋螺毒素GS(一种来自地纹芋螺的肽)具有相似性。这两种肽都阻断骨骼肌钠通道，并且具有几种共同的生物化学特征，代表四环芋螺毒素的不同亚组(J.M.Hill，等人.(2000)Eur J Biochem，267：4642-8)。参见图28。

1)CxxxxxxCxxxCCxxxxCxxxxxxxC

2)CxGxxxxCPPxCCxGxxCxxGxxxxC

PF08095：毒素25

Hefutoxin家族。该家族由在蝎子Heterometrus fulvipes的毒液中发现的

futoxin组成。这些毒素为κ-hefutoxin1和κ-hefutoxin2，显示与任何已知的毒素没有同源性。Hefutoxin是钾通道毒素，显示1-4 2-3的拓扑学。图173。

PF08097：毒素26

芋螺毒素T超家族。参见图2。该家族由芋螺毒素的T-超家族组成。鉴定了来自5个芋螺属的种的8种不同的T-超家族肽。这些肽具有共同的共有信号序列，和保守的半胱氨酸残基排列。发现T-超家族肽在所有主要进料类型的芋螺的毒液管中表达，提示T-超家族是一大组多样化的肽，广泛分布在500种不同的芋螺属的种中。

PF08099：毒素27

蝎Calcine家族。参见图1。该家族由蝎毒素的calcine家族组成。calcine家族由Maurocalcine和Imperatoxin组成。这些毒素显示为骨骼肌的ryanodyne-敏感性钙通道的强效应物。这些毒素可用于二氢吡啶受体/ryanodyne受体相互作用研究。

PF08116：毒素29

该家族由在巴西黑腹栉足蛛(Phoneutria nigriventer)毒液中发现的PhTx杀虫神经毒素组成。黑腹栉足蛛毒液中含有大量30-140个氨基酸的神经毒性多肽，它们发挥多种生物学效应。其中某些神经毒素在脑室内注射后可致死小鼠，另外一些对双翅目和网翅目昆虫有极强的毒性，但是对小鼠的毒性效应相当弱。参见图7。

PF08117：毒素30

也被称为Ptu家族。该家族由从刺椿象唾液中分离的毒性肽组成。唾液中含有刺椿象用来固定猎物或消化猎物的复杂蛋白质混合物。一种蛋白质(Ptu1)已经被纯化，并且显示不可逆地阻断N-型钙通道，对于在BHK细胞中表达的L-和P/Q-型钙通道特异性较低。

拓扑学1-42-53-6；3个成员。参见图79。

1)CxxxxxxCxxxxxxCCxxxxxCxxxxxxC

2)CxxxgxxxCxgxxkxCCxxxxxCxxyanxC

PF08119：毒素31

该家族由酸性α-KTx短链蝎毒素组成。这些毒素被命名为parabutoxins，它们阻断电压门控的K通道，并且具有极低的pI值。此外，它们还缺少关键的填孔赖氨酸。另外，二联体的第二重要的残基，疏水性残基(Phe或Tyr)，也丢失。参见图8。

PF08120：毒素32

参见图9。该家族由在印度红蝎(Mesobuthus tamulus)的毒液中发现的tamulustoxin组成。Tamulustoxin与其它蝎毒液毒素没有相似性，尽管它的6个半胱氨酸残基的位点提示它具有相同的结构支架。Tamulustoxin起钾通道阻断剂的作用。

http://www.ncbi.nlm.nih.gov/entrez/query.fcgi？cmd＝Retrieve&db＝PubMed

dopt＝Abstract&list_uids＝11361010

http://www.ncbi.nlm.nih.gov/entrez/query.fcgi？cmd＝Retrieve&db＝PubMed&dopt＝Abstract&list_uids＝11361010

PF08396：毒素34

蜘蛛毒素ωagotoxin/Tx1家族。Tx1家族致死性蜘蛛神经毒素在小鼠中诱导兴奋性症状。参见图10。

PF01033：生长调节素

参见图14。生长调节素B是一种未知功能的血清因子，它是富含半胱氨酸的小肽，通过蛋白水解来源于细胞基底粘附蛋白玻连蛋白的N-末端。SMB结构域含有8个Cys残基，排列成四个二硫键(Y.Kamikubo，等人.(2004)Biochemistry，43：6519-34)。已经提出活性SMB结构域可以允许相当大的二硫键异质性或变异性，前提是保持Cys25-Cys31二硫键。SMB结构域的三维结构极其紧密，二硫键包装在形成共价键合的核心的结构域的中心。该蛋白质可以表达为具有硫氧还蛋白的C-末端结构域的可溶性融合蛋白。

1)Cxx(x)xCxxxxxxxxxxCxCxxxCxxxxxCCxxxxxxC

2)Cxx(x)rCxxxxxxxxCxCxxxCxxxxxCCxDxxxxC

3)Cxx(x)RCxexxxxxxxxCxCxxxCxxxxxCCxd[yf]xxxC

已经描述了1-23-45-67-8的拓扑学，但是其他异构体也是可能的，并且

NMR结构计算相符。

PF00087，PF00021：三指毒素家族

参见图14-18。有毒神经毒素和细胞毒素的家族。结构小、富含二硫键的、几乎全部为β折叠。该家族是uPAR/Ly6/CD59/蛇毒素受体超家族宗族的一个成员。该宗族可以包括以下Pfam成员：激活蛋白_受体；BAMBI；PLA2_抑制剂；毒素_1；UPAR_LY6。

一种优选的文库策略是随机化位于Cys1-Cys2、Cys3-Cys4和Cys5-Cys6之间的三个最长的环。使用两个不同的设计策略：1)二硫键核心保持完整，而仅诱变三个环，2)允许二硫键核心中的诱变，并可产生多样性较高的环排列。最保守的半胱氨酸间距位于位置n6＝0和n7＝4(“n6”定义为C6和C7之间；“n7”定义为C7和C8之间)。利用该信息评价其余的CDP。69个成员最共同的CDP是10，6，16，3，10，0，4。

1)

Cxxxxxxxxxx(xxx)Cxxxx(xx)Cxxxxxxxxxxxx(x)xxxxCx(xx)CxxxxxxxxxxCCxxxxC

2)

Cyxxxxxxxxx(xxx)Cpxgx(xx)Cyxkx(wf)xxxxxx(x)xxxxGCx(xt)CPxxxxxxxxxCCx(ts)DxC

PF01607，PF00187：壳多糖结合蛋白质

存在两种不同的富含半胱氨酸的壳多糖结合家族(Z.Shen，等人.(1998)JBiol Chem，273：17665-70)；T.Suetake，等人.(2000)J Biol Chem，275：17929-32；T.Suetake，等人.(2002)Protein Eng，15：763-9)。PF00187发现于真菌和植物中，包括小麦胚凝集素。橡胶素是一个典型的含有四个二硫键的成员。该家族包括382个已知的家族成员，具有高度保守的半胱氨酸位置和拓扑学1-42-53-67-8。该家族在文库设计中作为支架使用的优点包括在第一个半胱氨酸的N-端处和最后一个半胱氨酸的C-端位置处氨基酸数目较少(＜3)。各个半胱氨酸之间的距离小于10，结构域富含二硫键(接近50个氨基酸，具有四个二硫键)。DBP是最常见的1-4 2-5 3-6拓扑学。结构域在自然中在重复部分中发现。

PF01607也被称为Peritrophin结构域，在动物和昆虫中作为胞外基质蛋

的一部分而被发现。该结构域也存在于小肽tachycitin中。tachycitin和橡胶素(PF00187)的结构比较显示结构相似性(参见比对)。Tachycitin含有五个二硫键，但是该家族的成员一般含有3SS(见标识图)。Tachycitin的3个标志性SS显示1-32-64-5的拓扑学。有1075个已知的家族成员。半胱氨酸位置高度保守。在第一个半胱氨酸的N-端和最后一个半胱氨酸的C-端没有太多(＜3)的氨基酸。

见图19-21。

PF00187壳多糖结合蛋白质：

CxxxxxxxxCxxxxCCxxxxxCxxxxxxCxxxCxxxC

CgxqxxxxxCxxxxCCsxxGxCGxxxxyCxxxCxxxC

PF0160壳多糖结合结构域：

1)Cxxx(x)xxxxxxx(x)xxxC(x)xxxxxCxxxxxxxxxCxxxxxxxxxxxxCxxxxxxxx

2)Cxxx(x)xxgxxxx(x)xxxC(x)xx[yf]xxCxxxxxxxxxCxxgxxfxxxxxxCxxxxxxxxC

PF01826：胰蛋白酶抑制剂

该家族含有胰蛋白酶抑制剂以及在许多细胞外蛋白质中发现的结构域[N.D.Rawlings，等人.(2004)Biochem J，378：705-16]。该结构域典型地含有10个半胱氨酸残基，它们形成5个二硫键。DBP为1-7 2-6 3-5 4-10 8-9。已知有414个家族成员。半胱氨酸位置高度保守。参见图23。

CxxxxxxxxCxxxCxxxCxxxx(xxxxx)xxxCx(xxxxxxx)xxCxxx(x)CxCxxxxxxxxx(xx)xCxxxxxC

PF02428：马铃薯蛋白质抑制剂

该家族在基因水平上在重复部分中发现。该蛋白质合成为大的前体蛋白质。蛋白质水解裂解在重复部分之内发生，而不是在重复部分之间发生，产生成熟的微生物蛋白质[E.Barta，等人.(2002)Trends Genet，18：600-3][N.Antcheva，等人.(2001)Protein Sci，10：2280-90]。

合成一种大的前体蛋白质，但是前体的二硫键拓扑学未知。

表达重复单元，分析其NMR结构。其折叠类似于成熟的微生物蛋白质，提示已经发生环形排列，该单元是祖先。这得到环形排列的蛋白质对应于重单元这一发现的支持。接头或蛋白酶位点(EEKKN)作为混乱的环存在于祖先的结构中。参见图24。

1)CxxxCxxxxxxxxCxxxxxx(x)xxxxxCxxCCxxxxxCxxxxxxxxxxC

2)CxxxCxxxxxxxxCPxxxxx(x)xxxxxCxxCCxxxxGCxxxxxxGxxxC

由于蛋白质水解加工，成熟微生物蛋白质的序列不同于上述的标识图：

2C2CC5C10C11C3C8C2(成熟标识图-蛋白质水平)

3C3C8C12C2CC5C10C2(重复标识图-基因水平)

PF00304：γThionin

对于它们的成熟形式，这些小植物蛋白质通常由大约45-50个氨基酸残基组成。γ-嘌呤硫素的折叠结构的特征在于良好限定的3-链反平行折叠和短螺旋。三个二硫键位于螺旋和折叠之间的疏水核中，形成半胱氨酸稳定的螺旋基序(P.B.Pelegrini，等人.(2005)Int J Biochem Cell Biol，37：2239-53)。该结构类似于蝎毒素和昆虫防卫素(C.Bloch，Jr.，等人.(1998)Proteins，32：334-49)。

其结构域显示高二硫键密度，每大约50个氨基酸具有4个二硫键，拓扑学为1-8 2-5 3-6 4-7。各个半胱氨酸之间的半胱氨酸间距小于10，因此对于文库设计是优选的。半胱氨酸位置在该家族不同成员之间高度保守。参见图25。

PF00304-γ-Thionin：

基序1：CxxxxxxxxxCxxxxxCxxxCxxxxxx(x)xxxCxx(x)xxxxCxCxxxC

基序2：CxxxSxxFxGxCxxxxxCxxxCxxxxxx(x)xGxCxx(x)xxxxCxCxxxC

PF02950：ω-芋螺毒素

芋螺毒素是小的螺神经毒素，其阻断离子通道。ω-芋螺毒素作用于突触前膜，结合并阻断钙通道(W.R.Gray，等人.(1988)Annu Rev Biochem，57：665-700)。其结构域显示高二硫键密度，每大约24个氨基酸具有三个二硫键。存在超过380个已知的家族成员。各个半胱氨酸之间的半胱氨酸间距小于10，因此对于文库设计是优选的。半胱氨酸位置在该家族不同成员之间高度保守，DBP为1-42-53-6。参见图26。

参见图26。基序：C(xx)xxxxxCCxx(xx)xCx(xxx)xxCC

齐考诺肽是一种25个氨基酸的芋螺毒素，作为“Prialt”已经被FDA批准。齐考诺肽已经用于超过7000名患者，是非免疫原性的(＜1％发生率)，因此是一种有前途的用于人类的新结合蛋白质的支架。序列和1-4 2-5 3-6 DBP在图12中示出。

PF05374：μ-芋螺毒素

μ-芋螺毒素是电压敏感的钠通道的肽抑制剂(K.J.Nielsen，等人.(2002)JBiol Chem，277：27247-55)。见图29。DBP：1-42-53-6

基序1：CCxxxxxCxxxxCxxxxCC 基序2：CCxxpxxCxxxxCxPxxCC

PF02822：Antistasin

肽蛋白酶抑制剂可以作为单结构域蛋白质或者作为蛋白质内的单或多结构域而被发现；它们分别被称为简单抑制剂或复合抑制剂(R.Lapatto，等人.(1997)Embo J，16：5151-61)。在许多情况中，它们合成为较大前体蛋白质的一部分，作为与无活性肽酶或酶原有关的前肽原或者作为N-端结构域。Pfam定义仅包括6个半胱氨酸，DBP为1-42-53-6。然而，该家族的大多数成员(1bx7，1hia)含有两个以上的N-端二硫键。该家族因此可以在N-端上延伸。

其结构域显示高二硫键密度，每39-54个氨基酸具有3-5个二硫键，拓扑学为1-32-45-86-97-10。各个半胱氨酸之间的半胱氨酸间距小于10，因此，对于文库设计是优选的。半胱氨酸位置在该家族不同成员之间高度保守。参见图32。

该家族的成员是高度亲水性的，优选用于文库设计(低非特异性结合，低T-细胞表位数)。例如，hirustasin仅含有总共6个疏水性残基。晶体结构显示几乎不存在次级结构元件。这与5SS的大量可能的二硫键异构体结合起来，使其成为用于文库设计的非常有用的支架。

对于5个二硫键而言，半胱氨酸位置高度保守：C4C5C6C1C4C4C10C5C1C

PF02822-Antistasin：

1)CxxxxCxxxxxCxxxxxxCxCxxxxC(x)xxxCxxxxxxxxxCx(xxx)xCxC

2)CxxxxCxxxxxCxxxxxxCxCxxxxC(x)xxxCxxGxxxdxxgCx(xxx)xCxC

3)CxxxxCxxxxxCxxxxxxCxCxxxxC(x)xxxCpyGxxxdxxgCx(xxx)xCxC

缺少N-端4个半胱氨酸残基的短形式：

1)CxxxxC(x)xxxCxxxxxxxxxCx(xxx)xCxC

2)CxxxxC(x)xxxCxxGxxxdxxgCx(xxx)xCxC

3)CxxxxC(x)xxxCpyGxxxdxxgCx(xxx)xCxC

PF05039：野灰蛋白-相关的

参见图33。野灰蛋白调节小鼠毛囊中的色素沉着，产生具有近顶部黄色带的黑毛。高度同源的蛋白质野灰蛋白信号蛋白(ASIP)存在于人类中，在脂肪组织中最高水平地表达，其中它可能在能量稳态中并可能在人类色素沉着中起作用(J.C.McNulty，等人.(2001)Biochemistry，40：15520-7；J.Voisey，等人.(2002)Pigment Cell Res，15：10-8)。

位于Cys5和Cys10之间的二硫键对于结构和功能不是必需的。在去除后，DBP成为1-4 2-5 3-8 6-7。前三个二硫键形成特征性的胱氨酸扭结基序。受体结合位点在Cys7和Cys8之间包括RFF基序，前16个氨基酸形成环。C端混乱并可去除(注意Cys1和Cys10在Pfam标识图中不存在)。

下列标识图优选用于文库设计：PF05039-野灰蛋白：

1)CxxxxxCxxxxxxCCxxCxxCxCxxxxxxCxCxxxxxxxxxC

2)CxxxxSCxxxxxxCCDPCxxCxCRFFxxxCxCRxxxxxxxxC

3)CxxxxSCxGxxxPCCDPCAxCxCRFFxxxCxCRxLxxxxxxC

具有较短C-端并且缺少半胱氨酸5和半胱氨酸10的工程化蛋白质折叠为与天然蛋白质类似的结构。这种工程化形式用作文库设计的支架，并且具有下列标识图：

CxxxxxCxxxxxxCCxxxxxCxCxxxxxxCxCx，

CxxxxxCxxxxxxCCDPxxxCxCRFFxxxCxCRxx，

CxGxxxCxxxxxxCCDPAxxCYCRFFxxxCxCRxx

全长野灰蛋白可以在大肠杆菌中表达为可溶性蛋白质(R.D.Rosenfeld，等人.(1998)Biochemistry，37：16041-52)。

PF05375：PMP抑制剂/Pacifastin

该家族成员的结构显示它们由通过三个二硫键连接的三链反平行β-折叠

成，这将该家族定义为丝氨酸蛋白酶抑制剂的新家族(G.Simonet，等人.(2002)Comp Biochem Physiol B Biochem Mol Biol，132：247-55；A.Roussel，等人.(2001)J Biol Chem，276：38893-8)。参见图34。

存在39个家族成员。半胱氨酸位置高度保守。二硫键拓扑学为1-4 2-63-5。各个半胱氨酸之间的距离＜10。C-端在结构中不可见，提示其可以从文库设计中省略。两个强烈保守的氨基酸是N15和T29，它们参与形成和稳定蛋白酶结合环。它们可以从文库设计中省略以提高结合多样性。

1)CxxxxxxxxxCxxCxCxxxx(x)xxxCxxxxC

2)CxpGxxxKxxCNxCxCxxxx(x)xxxCTxxxC

PF01549：ShTK家族和Stecrisp

Stecrisp显示与ShTK家族具有高度类似的3D结构，但是不是ShTK家族的一部分(PF01549)(M.Guo，等人.(2005)J Biol Chem，280：12405-12)。用Stecrisp蛋白质序列进行Blast检索得到48个具有30-100％相同性的匹配，但是没有得到任何ShTK家族成员。参见图35-36。

Pfam01549是未知功能的结构域，在几种秀丽隐杆线虫(C.elegans)蛋白质中发现。该结构域长30个氨基酸，具有6个保守的半胱氨酸位点，形成三个二硫键。该结构域被命名为ShK毒素(根据SMART)(M.Dauplais，等人.(1997)J Biol Chem，272：4302-9)。

该结构域显示高二硫键密度，每39个氨基酸具有3个二硫键，拓扑学为1-62-43-5。各半胱氨酸之间的半胱氨酸间距小于10，因此可用于文库设计。半胱氨酸位点在该家族的不同成员之间高度保守。

PF01549-ShTK。参见图35：

1)Cx(xxx)xxx(x)xxCxxxxxx(xx)Cxxxx(x)xxxxxxxxCxxxCxxC

2)Cx(dxx)dxx(x)xxCxxxxxx(xx)Cxxxx(x)xxxxxxxCxxtCxxC

STECRISP的C-端结构域和相关序列：参见图36。

PF07974：EGF2结构域

该家族的成员均属于EGF超家族，它的特征为具有6-8个半胱氨酸，形成3-4个二硫键，顺序为1-3，2-4，5-6，这对于EGF折叠的稳定性非常关键。

些二硫键以梯样排列方式堆积。层粘连蛋白EGF家族由于具有额外的二硫键而区别开来。该家族内结构域的功能还不清楚，但是认为它们主要发挥结构作用。通常，结构域在胞外蛋白质中串联重复排列。

PF07974-EGF2：参见图37。

1)Cx(xxxxxx)Cxx(x)xxxCxxxx(xxxxxxxx)CxCxxx(xxxx)xxxxxC

2)Cx(xxxxxx)Cxx(x)xGxCxxxx(xxxxxxxx)CxCxxx(xxxx)xxGxxC

其他EGF-样结构域：

PF00008-EGF：参见图38。

1)CxxxxxCxxxxxCxxxxx(xx)xxxCxCxxx(xxxx)xxxxxC

2)CxxxxxCxxxgxCxxxxx(xx)xxxCxCxxg(xxxx)xxgxxC

PF00053-Lam-EGF：参见图39.DBP：1-32-45-67-8

1)

CxCxxxxxxxx(xx)Cxxxxxxxxx(xxxx)CxxCxxxxxxxxCxxCxxxxxxxxxx(xxxxx)C

2)

CxCxxxxxxxx(xx)Cxxxxxxxxx(xxGx)CxxCxxxxxGxxC(DE)xCxxxxxxxxxx(xxxxx)C

PF07645：Ca-EGF：参见图40。

1)CxxxxxxxCxxxxxx(xx)CxxxxxxxCx(xxxx)Cxxxxxxxxxx(xxxxxxx)C

2)

CxxxxxxxCxxxxxx(xx)CxNxxGx(F，Y)xCx(xxxx)Cxx(G，Y)xxxxxxx(xxxxxxx)C

PF04863：蒜酶EGF-样：参见图41。

1)Cxxxxxxxxxxxxxxxx(xxxx)CxCxxCxxxxxCxxxxxxC

2)Cxxxxxxxxxxxxxxxx(xxxx)CxCxxCxxxxxCxxxxxxC

PF00323：哺乳动物防卫素；防卫素1

参见图45。DBP：1-6 2-4 3-5

1)CxCxxxxCxxxxxxxxxCxxxxxxxxxCC

2)CxCRxxxCxxxErxxGxCxxxgxxxxxCC

PF01097：节肢动物防卫素；防卫素2

参见图44。DBP：1-4 2-5 3-6

1)CxxxCxxxxxxxxxCx(xxx)xxxCxC

2)CxxHCxxxgxxGGxCxx(xx)xxxCxC

PF00711：防卫素B，β-防卫素

参见图43。DBP：1-4 2-53-6或1-5_2-4_3-6

1)CxxxxxxCxxxxCxxxxxxxxxCxxxxxxCC

2)CxxxxgxCxxxxCxxxxxxxgxCxxxxxxCC

PF08131：防卫素-样；防卫素3图42。

1)CxxxxGxCrxkxxxnCxxxxxxxCxnxxqkCC

2)CxsxxGxCrxkxxxnCxxxxxxxCxnxxqkCC

防卫素-(样-)3家族由从鸭嘴兽毒液中分离的防卫素样肽(DLP)组成(A.M.

orres，等人.(1999)Biochem J，341(Pt 3)：785-94)。这些DLP显示与β-防卫素-12和钠通道神经毒素Shl相似的三维折叠。然而，已知对于β-防卫素-12和Shl功能重要的侧链在DLP中不保守。这提示不同的生物学功能。与该观点一致，已经证明DLP不具有抗微生物性质并且没有观察到的对大鼠背根神经节钠通道电流的活性。只知道三个成员，但是与β-防卫素的相似性使其成为一种有吸引力的支架。

其结构域显示高二硫键密度，每接近36个氨基酸具有3个二硫键，拓扑学为1-5_2-4_3-6。各半胱氨酸之间的半胱氨酸间距小于10，因此可用于文库设计。半胱氨酸位置在该家族的不同成员之间高度保守。

PF00321：花菜蛋白

花菜蛋白是小的碱性植物蛋白质，长度为45至50个氨基酸，包括三个或四个保守的二硫键。该蛋白质对动物细胞具有毒性，据推测其攻击细胞膜并使其成为可渗透的；这导致糖摄取的抑制并使钾和磷离子、蛋白质和核苷酸从细胞中逸出。该家族不同于γ-thionin PF00304(P.B.Pelegrini，等人.(2005)Int J Biochem Cell Biol，37：2239-53)。

其结构域显示高二硫键密度，每接近46个氨基酸具有4个二硫键。各半胱氨酸之间的半胱氨酸间距小于10，因此可用于文库设计。半胱氨酸位置在该家族的不同成员之间高度保守。参见图46。

半胱氨酸位置高度保守，各半胱氨酸之间的距离大约为10及更低，拓扑学为1-62-53-4；结构域较小，具有6个半胱氨酸。

含有三个二硫键的成员的基序是

PF00321-花菜蛋白：

1)xxCCxxxxxxxxxxCxxxxxxxxxCxxxxxCxxxxxxxCxxxxxx

2)xxCCxxxxxRxxYxxCxxxGxxxxxCxxxxxCxIxxxxxCxxxxxx

3)xxCCxxxxxRxxYxxCRxxGxxxxxCAxxxxCxIISGxxCPxx(Y，F)xx

具有四个二硫键且拓扑学为1-8 2-7 3-6 4-5的成员的基序的特征是以下标识图：xxCCxxxxxxxCxxxCxxxxxxxxCxxxCxCxxxxxxxC

PF06360：Raikovi

可扩散的肽信息素，只具有6个家族成员，但是半胱氨酸间氨基酸高度多样性(M.S.Weiss，等人.(1995)Proc Natl Acad Sci U S A，92：10172-6)。半胱氨酸位置高度保守，拓扑学为1-42-63-5。各个半胱氨酸之间的距离＜10。参见图47。

1)CxxxxxxCxxxxCxxxCxxxxxxxxCxxxxxxxxxC

2)CxxaxxxCxxxxCxxxCxxxxxxxxCxxxxxxxxxC

PF00683：TB结构域

转化生长因子(TGF-)-结合蛋白质样(TB)结构域来自人微纤维蛋白。该结构域在局限于胞外基质中的纤维状结构的微纤维蛋白和潜在的TGF-结合蛋白质(LTBPs)中发现。(X.Yuan，等人.(1997)Embo J，16：6659-66)。重复的意思是该结构域在微纤维蛋白和LTBP中发现多个拷贝，但不是串联的。参见图49。

标识图显示只有6个保守的半胱氨酸。分析了三种结构(1uzq，1apj，1ksq)：一个丢失的半胱氨酸插入Cys1和Cys三联体之间(位置8/12，4/12，9/12)，最后一个半胱氨酸在标识图中丢失。拓扑学为1-3 2-6 4-7 5-8。

1)CxxxxxxxxxxxxxCCCxxxx(xx)xxxxxCxxCPxxxxxxxC

2)Cxxxxxxx(x)xxkxxCCCxxxx(xx)xxgxxCexCPxxxxxxxC

PF00093：von Willebrand因子C型结构域

vWF结构域存在于各种血浆蛋白质、补体因子、整联蛋白、VI，VII，XII和XIV型胶原、其他胞外蛋白质中(P.Bork(1993)FEBS Lett，327：125-30)。有488种已知的家族成员，具有高度保守的半胱氨酸残基。结构和序列比较揭示了CR模块的N末端亚结构域和纤连蛋白1型结构域之间的进化关系，提示这些结构域具有共同的祖先(J.M.O′Leary，等人.(2004)J Biol Chem，279：53857-66)。参见图50。

小胶原的富含半胱氨酸的结构域

小胶原存在于水螅的细胞壁中。小胶原含有C-末端的富含半胱氨酸的结构域，它合成为分子内二硫键键合的前体。C-末端结构域是具有独特折叠的微生物蛋白质(S.Meier，等人.(2004)FEBS Lett，569：112-6；E.Pokidysheva，等人.(2004)J Biol Chem，279：30395-401)。在16个家族成员中只有半胱氨酸残基是高度保守的。一般认为二硫键改组为分子间二硫键，形成细胞壁稳定基质。二硫键的拓扑学为1-5 2-4 3-6。可以利用C-端结构域彼此形成分子间二硫键的发现产生通过分子间二硫键连接的二聚体分子的组合文库。参见图136。

基序：小胶原中为C3C3C3C3CC，水螅HOWA蛋白中为C5C3C3C3C3CC，其中该结构域重复出现。

PF03784：Cyclotide

该家族含有一组具有多种活性的环肽。该结构由扭曲的三链β-折叠和二硫键的半胱氨酸-结排列组成(D.J.Craik，等人.(1999)J Mol Biol，294：1327-36)。

参见图51。

拓扑学为1-4_2-5_3-6

1)CxxxCxxxxCxxxxxxxCxCxxxxC

2)CxExCxxxxCxxxxxxGCxCxxxxC

PF06446：Hepcidin

Hepcidin是一种在肝脏中表达的抗细菌和抗真菌蛋白质，也是铁代谢中的一种信号分子。Hepcidin蛋白富含半胱氨酸，并且形成扭曲的β-折叠，在发夹的转角处发现不常见的二硫键。

参见图52。拓扑学为1-8 2-7 3-6 4-5

基序1：xxxCxxCCxCCxxxxCxxCC

基序2：FPxCxFCCxCCxxxxCGxCC

PF05353：δ-Atracotoxin

Atracotoxin的结构包含一个核心β区，该核心β区包含从β区伸出的三链拇指样延伸和C-端螺旋。β区含有胱氨酸结基序，这是在其他神经毒性多肽中发现的特征。参见图53。

拓扑学为1-4 2-6 3-7 5-8

基序1：CxxxxxxCxxxxxCCCxxxCxxxxxxxxCxxxxxxxxxC

基序2：CxxxxxWCxxxxxCCCPxxCxxWxxxxxCxxxxxxxxxC

PF00299：丝氨酸蛋白酶抑制剂

南瓜抑制剂形成大量丝氨酸蛋白酶抑制剂中的一种。它们的长度大约为30个残基，含有6个Cys残基，形成3个二硫键。拓扑学为1-4 2-5 3-6。参见图56。

1)CxxxxxxCxxxxxCxxxCxCxxxx(x)xC

2)CPxxxxxCxxpxpCxxxCxCxxxx(x)xCG

PF01821：过敏毒素-样结构域

C3a、C4a和C5a过敏毒素是在补体分子C3、C4和C5活化过程中在血清中酶促产生的蛋白质片段。它们诱导平滑肌收缩。这些片段与fibulin中的三折叠重复部分同源。拓扑学为1-4 2-5 3-6。该家族有123个已知的成员。

参见图57。

1)CCxxxxxx(xxxx)xxCxxxxxxxx(xx)xxCxxxxxxCC

2)CCxxGxxx(xxxx)xxCxxxxxxxx(xx)xxCxxxFxxCC

PF05196：肝素结合细胞因子/PTN

几种参与生长和分化调节的细胞外肝素结合蛋白质属于一个新的生长因子家族(W.Iwasaki等人.(1997)Embo J，16：6936-46)。有33个家族成员。半胱氨酸位点高度保守，形成1_42-53-6的二硫键拓扑学。各个半胱氨酸之间的距离＜10。肝素结合细胞因子的NMR结构显示高度混乱的N-和C-端，提示它们可以从文库设计中省略。带正电荷的残基参与发夹结合，可以从文库计中省略。参见图59。

1)CxxxxxxxCxxxxxxCxxxxxxxCxxxxxxxxCxxxC

2)CxxWxxxxCxxxxxDCGxGRExxCxxxxxxxxCxxPCxW

PF02819：WAP″四-二硫键核心″

尽管保守半胱氨酸的模式提示序列可以采用类似的折叠，但是总体序列相似度较低(L.G.Hennighausen，等人.(1982)Nucleic Acids Res，10：2677-84)。有25个已知的家族成员。参见图62。

拓扑学为1-6 2-7 3-5 4-8.

1)Cxxxx(xx)xxxxCxxx(xxx)CxxxxxCxxxxxCCxxxC

2)CPxxx(xx)xxxxCxxx(xxx)CxxDxxCxxxxKCCxxxC

PF02048，PF07822：毒性发夹

毒素13(PF07822)折叠为4SS二硫键-连接的α-螺旋发夹。SCOP数据库也列出了热稳定的肠毒素(PF02048)作为DBP为1_42-53-6的毒性发夹。

该家族的成员类似于神经毒素B-IV，后者是甲壳类动物选择性的神经毒素，由海虫脑纹纽虫(Cerebratulus lacteus)产生。这种高度阳离子的肽大约有55个残基，在发夹结构中排列形成两个由良好限定的环连接的反平行的螺旋。发夹的分支通过四个二硫键连接。三个确定为对活性至关重要的残基存在于分子的同一面上，而另一个对活性至关重要的残基Trp30位于相对的侧面上。该蛋白质的作用模式尚不完全清楚，但是可能作用于电压门控钠通道，可能是通过与这些蛋白质上的尚未表征的位点结合。参见图65。毒素13的拓扑学为1-82-53-64-5

1)CxxxCxxxxxxCxxCxxxxxxxxxxCxxxCxxxxxxCxxxC

2)CxxxCxxxyxxCxxCxgxWxgxxgxxCxxhCxxxxxxCxxxC

PF06357：ω-atracotoxin

ω-Atracotoxin-Hv1a是一种昆虫特异性的神经毒素，其系统发生特异性来源于拮抗昆虫而不是脊椎动物的电压门控钙通道的能力(X.Wang，等人.(1999)Eur J Biochem，264：488-94)。拓扑学为1-6_2-7_3-4_5-8

参见图66。拓扑学为1-4_2-5_3-6。

PxxxPCPYxxxxCCxxxCxxxxxxGxxxxxxC

PF06954：抵抗素

该家族由几种哺乳动物抵抗素蛋白质组成。已经证明循环抵抗素水平的提高在存在固定的生理胰岛素水平的情况下显著刺激了葡萄糖产生，而胰岛素抑制了抵抗素表达。

抵抗素含有参与C-端富含二硫键部分的多聚化的N-端α螺旋。参见图67。拓扑学为1-10 2-9 3-6 4-7 5-8。

只显示了富含二硫键的微生物蛋白质。N-端α-螺旋基序可以用于微生物蛋白质的多聚化。

1)CxxxxxxxxxxxCxxxxxxxxCxCxxxCxxxxxxxxCxCxCxxxxxxxxCC

2)CxxxxxxxxxxxCPxGxxxxxCxCGxxCGxWxxxxxCxCxCxxxDWxxRCC

PF00066：Notch/DSL

跨膜蛋白质的胞外域参与动物的发育过程(J.C.Aster，等人.(1999)Biochemistry，38：4736-42；D.Vardar，等人.(2003)Biochemistry，42：7061-7)。DSL重复部分串联存在(3x)。三个保守的Asp或Asn残基。在NMR结构中，D12、N15、D30、D33形成Ca2+结合位点。在存在毫摩尔的Ca2+的情况下只形成一种异构体，但是当存在Mg2+或EDTA时发现有多种异构体。这可以用于微生物蛋白质的结构进化。有175个家族成员。半胱氨酸位置高度保守，拓扑学为1-5 2-4 3-6。第一个半胱氨酸的N-端和最后一个半胱氨酸的C端有不太多的(＜3)氨基酸。各个半胱氨酸之间的距离＜10。参见图68。

1)Cx(xx)xxxCxxxxxxxxCxxxCxxxxCxxxxxxC

2)Cx(xx)xxxCxxxxxxgxCxxxCnxxxCxxDGxDC

PF00020：TNFR

已经发现大量蛋白质在N-端区含有富含半胱氨酸的结构域，已知其中一些是生长因子的受体，它们可以再分为四个(或者在有些情况下，三个)含有6个保守半胱氨酸的重复部分，所有这些半胱氨酸都参与链内二硫键的形成(M.D.Jones，等人.(1997)Biochemistry，36：14914-23)。其结构域含有6个高度保守的半胱氨酸残基，拓扑学为1-2 3-5 4-6。

参见图69。

1)Cxxx(x)xxxxxxx(x)xxCx(x)CxxCxx(xx)xxxxxxxCxxxxxxxC

2)Cxxx(x)x[yf]xxxxx(x)xxCx(x)CxxCxx(xx)gxxxxxxCxxxxxtxC

PF00039：纤连蛋白II型结构域

纤连蛋白是一种多结构域糖蛋白，在血浆中以可溶性形式发现，它结合细胞表面和各种成分，包括胶原、纤维蛋白、肝素、DNA和肌动蛋白。

参见图70。拓扑学为1-3 2-4。基序：

CxfpfxxxxxxxxxCxxxxxxxxxxwCxxxxxxxxDxxxxxC

PF02013：纤维素或蛋白质结合结构域

它们在结合纤维素(或其他碳水化合物)的需氧细菌中发现；但是在厌氧真菌中它们是蛋白质结合结构域，被称为停靠蛋白(dockerin)结构域或停靠结构域。

拓扑学为1-23-4。参见图71。

基序：

Cxx(xxx)xxxyxCCxxxxxxxxxxwcxxxxxxxxDxxxxxCxxxx(xxxx)xxxxxxxxwxxxxxxxC

PF00734：真菌纤维素结合结构域

在结构上，纤维素酶和木聚糖酶通常由通过富含脯氨酸和/或羟基氨基酸的短连接序列与纤维素结合结构域(CBD)连接的催化性结构域组成[N.R.Gilkes，等人.(1991)Microbiol Rev，55：303-15]。已经证明大量真菌纤维素酶的CBD由36个氨基酸残基组成，并且在该酶的N-端或C-端末端发现。该家族的成员具有两个二硫键，拓扑学为1-3 2-4。参见图73。

基序：qCGGxxxxGxxxCxxgxxCxxxxxxy

PF00219：胰岛素样生长因子结合蛋白质

胰岛素样生长因子(IGF-I和IGF-II)与胞外液体中的特定结合蛋白质高亲和力结合。该家族的成员具有两个二硫键，拓扑学为1-32-4。参见图74，75。

PF00322：内皮素家族

内皮素(ET)是已知最强的血管收缩剂。这些肽长21个残基，含有两个分子内二硫键，拓扑学为1-4 2-3。参见图76。

PF02058：鸟苷蛋白前体

鸟苷蛋白是15-氨基酸的肽，是肠受体鸟苷酸环化酶-C的内源配体，称为StaR。这些肽含有两个分子内二硫键，拓扑学为1-32-4。参见图77。

PF02977：羧肽酶抑制剂

肽蛋白酶抑制剂可以作为单结构域蛋白质或者作为蛋白质内的单或多结构域而存在；它们分别被称为简单抑制剂或复合抑制剂。在许多情况中，它们被合成为大前体蛋白质的一部分，作为与无活性肽酶或酶原有关的前肽原或N-端结构域。通过与第二种肽酶相互作用或者通过自催化切割除去N-端抑制剂结构域可活化酶原。

有35个已知的家族成员。拓扑学为1-42-53-6。参见图80。

1)CxxxxxxCxxxxxCxxxCxCxxxxxxC

2)CPxixxxCxxdxdCxxxCxCxxxxxxCg

PF06373：CART

CART主要由转角和环组成(大约40个氨基酸)，这些转角和环被由胱氨酸结共同的反平行β-折叠的几个小延伸组成的紧密框架横跨。有13个已知的家族成员。

拓扑学为1-3 2-5 4-6。参见图81。

与所有其他家族不同，非-cys残基更加保守，该家族似乎不是随机化的优选选择。

滤泡抑素

人滤泡抑素是FDA批准的产品，没有免疫原性，因此70-72个氨基酸的滤泡抑素结构域是具有吸引力的支架。它含有总共36个半胱氨酸残基，被认为排列成非重叠的一组二硫键，对应于四个自发折叠单元(图218)。这些单元的第一个，我们称其为Fs0，含有成熟多肽的63个N-端残基，而与其他已知结构的蛋白质没有序列相似性。相反，其余的滤泡抑素链显示折叠为一系列三个连续70-74-残基长的滤泡抑素结构域，它们是结构重复部分，被称为Fs1、Fs2和Fs3，显示与胞外基质蛋白BM-40的滤泡抑素样结构域具有同源性，也在几种其他胞外基质蛋白质中发现，如聚集蛋白、tomoregulin和

体蛋白C6和C7。参见图151。69-72个氨基酸的滤泡抑素结构域的DBP均为1-3 2-4 5-9 6-8 7-10。

PF00713：水蛭素

水蛭素家族是一组蛋白酶抑制剂，属于MEROPS抑制剂家族I14，IM宗族；它们抑制S1家族的丝氨酸肽酶。

水蛭素是菲牛蛭(Hirudinaria manillensis)(野牛水蛭)和医蛭(Hirudomedicinalis)(医用水蛭)的唾液腺分泌的一种强凝血酶抑制剂。它与α-凝血酶形成稳定的非共价复合物，从而消除其切割纤维蛋白原的能力。水蛭素的结构已经通过NMR解析，重组水蛭素-凝血酶复合体的结构已经通过x-射线晶体学确定为2.3A。水蛭素由N-端球形结构域和延伸的C-端结构域组成。残基1-3形成平行的具有凝血酶残基214-217的β-链，残基1的氮原子与催化部位的Ser195Oγ原子形成氢键。C-端结构域与凝血酶的阴离子结合外部形成大量静电相互作用，而最后五个残基位于螺旋环中，形成许多疏水性接触。参见图123。

PF06410：Gurmarin

Gurmarin是来自马利筋植物(Asclepiad vine)匙羹藤(Gymnema sylvestre)的35个残基的多肽。它已经在甜味传导的研究中用作药理学工具，因为它能够选择性抑制大鼠对甜味促味剂的神经应答。

有2个已知的家族成员。拓扑学为1-4 2-5 3-6。参见图82。

1)CxxxxxxCxxxxxxCCxxxxCxxxxxxxxxC

2)CxxxxxxCxxxxxxCCxxxxCxxxxwwxxxC

PF08027：白蛋白-1

白蛋白I蛋白是一种激素样肽，在与膜结合43kDa受体结合后刺激激酶活性。该结构域的结构显示一种knottin样折叠，由三个β链组成。有34个已知的家族成员。拓扑学为1-42-53-6。参见图83-84。

PF08098：神经毒素(ATXIII)

该家族由沟迎风海葵(Anemonia sulcata)毒素III(ATX III)神经毒素家族组成。ATX III是一种由海葵产生的神经毒素。它采取含有四个反向转角和

个其他链倒转、但是没有规则α-螺旋或β-折叠的紧密结构。在肽表面上发现的疏水性片可以构成钠通道结合表面的一部分。有2个已知的家族成员。拓扑学为1-42-53-6。

图85。基序：CCxCxxxxxxxxCxxxxxxxxxxC

PF01147：CHH/MIH/GIH神经激素

节肢动物表达神经肽类家族，包括来自甲壳类动物的血糖上升激素(CHH)、蜕皮抑制激素(MIH)、性腺抑制激素(GIH)和下颌骨-器官抑制激素(MOIH)和来自蝗虫的铁转运肽(ITP)。

有131个已知的家族成员。拓扑学为1-52-43-6。参见图86。

PF04736：蜕壳激素

蜕壳激素是一种引发蜕皮行为的昆虫神经肽，它导致在蜕皮结束时脱下旧的外皮。有5个已知的家族成员。拓扑学为1-52-43-6。没有获得结构。参见图88.

1)CxxxCxxCxxxxxxxxxxxxCxxxCxxxxxxxxxxC

2)CxxnCxqCkxmxgxxfxgxxCxxxCxxxxgxxxpxC

PF01160：内源性阿片类神经肽

脊椎动物内源性阿片类神经肽通过前体蛋白质的翻译后蛋白质水解切割而释放。前体由以下成分组成：在大约50个残基的保守区之前的信号序列；可变长度区；和神经肽本身的序列。序列分析显示前体的保守的N-端区含有6个半胱氨酸，它们可能参与二硫键形成。推测该区域对于神经肽加工可能是重要的。有50个已知的家族成员。拓扑学为1-4 2-5 3-6。没有获得结构。参见图89。

1)CxxxCxxCxxxxxxxxxxxxxxxCxxxCxxxxxxxxxxxxC

2)CxxxCxxCxxxxxxxxxxxxxxxCxlxCxxxxxxxxxWxxC

PF08037：软体动物信息素

该家族由水传播信息素的引蛋白家族组成。海螺中的交配吸引涉及引蛋白肽形式的远距离的水传播信号，其在产卵过程中释放。这些肽含有6个保守的半胱氨酸，折叠为2个反平行的螺旋。第二个螺旋含有在海螺引蛋白中

守的IEECKTS序列。有5个已知的家族成员。拓扑学为1-62-53-4。图90。

1)CxxxxxxxxCxxxxxxCxxxxxCxxxxxxCxxxxxxxC

2)CdxxxxxsxCqmxxxxCxxaxxCxxxieeCktsxxexC

PF03913：AMBV蛋白

Amb V是一种豕草属(Ambrosia)的种(豚草)的蛋白质。已经证明AmbV含有C-端螺旋作为主要的T细胞表位。游离的巯基在这些相关变应原内的交叉反应性T细胞表位的T细胞识别中也起主要作用。

有3个已知的家族成员。拓扑学为1-7 2-5 3-6 4-8。图92。

1)CxxxxxxCCxxxxxxC(x)xxxxCxxxxxxCxxxC

2)CgxxxxyCCxxxgxyC(x)xxxxCyxxxxxCxxxC

附录B：含有重复基序的HDD结构域

PF01437：丛蛋白PSI

富含半胱氨酸的重复部分在几种不同的胞外受体中发现(J.Stamos，等人.(2004)Embo J，23：2325-35；J.P.Xiong，等人.(2004)J Biol Chem，279：40252-4)。该重复部分的功能还不清楚。在丛蛋白中发现三个拷贝的重复部分。在红木蛋白质中发现两个拷贝的重复部分。相关的秀丽隐杆线虫蛋白质含有四个拷贝的重复部分。Met受体含有一个拷贝的重复部分。Pfam比对显示6个高度保守的半胱氨酸残基，它们可以形成三个保守的二硫键，而在位点5和7处观察到另外两个半胱氨酸，它们可能参与形成一个二硫键。拓扑学为1-4_2-8_3-6_5-7(结构1shy)。信号素(结构1olz)只含有三个二硫键，拓扑学为1-4_2-6_3-5。参见图93。

1)

CxxxxxCxxCxxxxxx(x)xCxxCxxxxxCxxxx(xxxxxx)xCxxxx(xxxxxxxxxx)xxxxxxC

2)

CxxxxxCxxCxxxxxx(x)xCxWCxxxxxCxxxx(xxxxxx)xCxxxx(xxxxxxxxxx)xxxxxxC

Cys7和Cys8之间的环对于插入非常耐受。例如，杂合结构域插入整联蛋白β亚单位结构内的这些半胱氨酸之间(J.P.Xiong，等人.(2004)J Biol Chem，279：40252-4)，Cys8仍然与Cys2形成二硫键。这可以用于在Cys7后插入任意序列。

设计：CxxxxxCxxCxxxxxx(x)xCxxCxxxxxCxxxx(xxxxxx)xCxxxxxxxx(xxxxx)(″任意序列″)C

这可以用于产生多-丛蛋白：

第一次插入：

CxxxxxCxxCxxxxxx(x)xCxxCxxxxxCxxxx(xxxxxx)xCxxxxxxxx(xxxxx)(″PLEX″)C，其中PLEX对应于

CxxxxxCxxCxxxxxx(x)xCxxCxxxxxCxxxx(xxxxxx)xCxxxx(xxxxxxxxxx)xxxxxxC.

第二次插入：

CxxxxxCxxCxxxxxx(x)xCxxCxxxxxCxxxx(xxxxxx)xCxxxxxxxx(xxxxx)(″丛蛋白″(″

蛋白″))C，其中(″丛蛋白″(″丛蛋白″))对应于

CxxxxxCxxCxxxxxx(x)xCxxCxxxxxCxxxx(xxxxxx)xCxxxx(xxxxxxxxxx)xxxxxxC插入到

CxxxxxCxxCxxxxxx(x)xCxxCxxxxxCxxxx(xxxxxx)xCxxxxxxxx(xxxxx)(″PLEX″)C中在″PLEX″的Cys7之后，以后向插入的丛蛋白序列内多次插入，在Cys7之后。

PF00088：三叶形和大三叶形

大约45个氨基酸残基的富含半胱氨酸的模块已经在某些胞外真核生物蛋白质中发现(M.D.Carr，等人.(1994)Proc Natl Acad Sci U S A，91：2206-10；T.Yamazaki，等人.(2003)Eur J Biochem，270：1269-76)。人TFF3可以在大肠杆菌周质中高水平表达(15mg/l培养物)。该模块显示高二硫键密度，每45个氨基酸具有3个二硫键，拓扑学为1-5 2-4 3-6。大三叶形由通过另外一个二硫键连接的两个相邻的模块组成，连接性为1-14 2-6 3-5 4-7 8-12 9-11 10-13。各个半胱氨酸之间的半胱氨酸间距小于10，因此可用于文库设计。半胱氨酸位置在该家族的不同成员之间高度保守。参见图94-95。

1)C(x)xxxxxxxxxCxx(x)xxxxxxxCxxxxCCxxxxx(x)xxxxxCx

2)C(x)xxxxxxRxxCxx(x)xxxxxxxCxxxxCCfxxxx(x)xxxxwCf

3)C(x)xxxxxxRxxCgx(x)xxitxxxCxxxgCC[fwy]dxxx(x)xxxxwC[fy]

具有两个相邻模块和额外的1-14二硫键的大三叶形变体的标识图：

CxC(x)xxxxxxxxxCxx(x)xxxxxxxCxxxxCCxxxxx(x)xxxxxCxxxxxxxxxxxC(x)xxxxxxxxxCxx(x)xxxxxxxCxxxxCCxxxxx(x)xxxxxCxxxxxxxxC和衍生物。

图134显示可能由三叶形基序产生的重复的“聚-三叶形”结构。

PF00090：凝血酶敏感蛋白1

该模块存在于凝血酶敏感蛋白中，在其中重复三次，存在于涉及补体途径的大量蛋白质以及胞外基质蛋白中。已经证明参与细胞-细胞相互作用、血管发生和凋亡的抑制(P.Bork(1993)FEBS Lett，327：125-30)。参见图96。

其结构域显示高二硫键密度，每大约50个氨基酸具有3个二硫键，拓扑学为1-5_2-6_3-4(T.M.Misenheimer，等人.(2005)J Biol Chem)。各个半胱氨酸之间的半胱氨酸间距小于10，因此可用于文库设计。半胱氨酸位置在该家族的不同成员之间保守。

CxxxCxxxxxxxxxxcxxxx(xxx)xxxxxCxxxxxx(xxx)xxxC(x)xxxxC

CxxxCxxGxxxRxxxcxxxx(Pxxx)xxxxxCxxxxxx(xxx)xxxC(x)xxxxC

CsvtCgxGxxxRxrxcxxxx(Pxxx)xxxxxCxxxxxx(xxx)xxxC(x)xxxxC

PF00228：Bowman Birk抑制剂

Bowman-Birk抑制剂家族是许多丝氨酸蛋白酶抑制剂家族中的一个。它们具有重复结构，并且通常具有两个不同的抑制位点。这些抑制剂主要在植物中发现，特别是在豆类的种子以及谷粒中发现(R.F.Qi，等人.(2005)ActaBiochim Biophys Sin(Shanghai)，37：283-92)。

存在两个不同的类别：1)具有14个半胱氨酸的结构域，拓扑学为1-14 2-63-13，4-5 7-9 8-12 10-11，或具有10个半胱氨酸的结构域，拓扑学为1-10 2-5 3-46-8 7-9。由于这些亚家族，标识图中Cys的位置看起来不是特别保守，尽管它们对于每个亚家族都是保守的。

其结构域显示高二硫键密度，每大约50个氨基酸具有5或7个二硫键。各个半胱氨酸之间的半胱氨酸间距小于10，因此可用于文库设计。半胱氨酸位置在该家族的不同成员之间高度保守。参见图97-98。

PF00184：神经垂体激素，C-端结构域

在与被称为神经垂体素运载蛋白的富含二硫键的蛋白质1.1比例的神经分泌颗粒复合物中发现高浓度的九肽激素加压素和催产素。已经鉴定了两种密切相关的NP类别，一种与加压素复合，另一种与催产素复合[L.Q.Chen，等人.(1991)Proc Natl Acad Sci U S A，88：4240-4]。该家族有75个成员，半胱氨酸位置高度保守。富含半胱氨酸的模块在标识图中重复。参见图99。

两种模块具有同源的二硫键拓扑学。一个二硫键通过Cys1和Cys8连接两个模块。如果省略该二硫键，则每个模块的二硫键拓扑学为1-3，2-6，4-5。参见图100。

神经垂体素运载蛋白的晶体结构揭示一个单体由两个同源层组成，每层具有四个反平行的β-链。两个区域由一个后接长环的螺旋连接。单体-单体接触涉及反平行β-折叠相互作用，与两层8个β-链形成二聚体。

PF00200：可延伸的二聚解联蛋白

解联蛋白是大约50-80个氨基酸残基的肽，含有多个均参与二硫键的半胱氨酸。解联蛋白含有Arg-Gly-Asp(RGD)序列，多种粘附蛋白的识别位点。解联蛋白的RGD序列据推测与糖蛋白IIb-IIIa复合物相互作用。

解联蛋白根据长度和半胱氨酸含量分类(J.J.Calvete，等人.(2005)Toxicon，45：1063-74)。

小：CxxxxCCxxCxxxxxxxxCxxxxxxxxx(xx)CxxxxCxC，具有4SS，二硫键拓扑学为1-4 2-6 3-7 5-8。

中：

xCxxxxxxCCxxxxCxxxx(x)xxxCx(xxx)xxxCCxxCxxxxxxxxCxxxxxxxxxxxCxxxxxxxC

具有6SS，二硫键拓扑学为1-5，2-4，3-8，6-8，7-11，10-12。

长：

xxxxxxxxxxCxCxxxxCxxxCCxxxxCxxxx(x)xxxCx(xxx)xxxCCxxCxxxxxxxxCxxxxxxxxxxxCxxxxxxxC，具有7SS，二硫键拓扑学为1-4，2-7，3-6，5-11，8-10，9-13，12-14

二聚体：

CCxxxxCxxxx(x)xxxCx(xxx)xxxCCxxCxxxxxxxxCxxxxxxxxxxxCxxxxxxxC，具有

S，二硫键拓扑学为1-7，4-6，5-10，8-10，和两个涉及Cys2和Cys3的分子间SS，产生二聚整联蛋白。参见图101和157。已经发现这些不同组之间的进化关系，其特征是二硫键丢失/添加。因此，在体内进化过程中该基序可以延伸。

附录C：具有高度重复基序的支架

富含半胱氨酸的重复蛋白质(CRRPs)

PF00396：颗粒体蛋白

颗粒体蛋白是大约6Kd的富含半胱氨酸的肽的家族，可能具有多种生物活性(A.Bateman，等人.(1998)J Endocrinol，158：145-51)。一种前体蛋白质(称为acrogranin，序列见下文)可能编码七种不同形式的颗粒体蛋白(grnA到grnG)，它们可能在翻译后蛋白水解加工后被释放。颗粒体蛋白在进化上与PMP-D1相关，PMP-D1是从飞蝗脑间部提取的一种肽。参见图103。颗粒体蛋白间距：CxxxxxxCxxxxxCCxxxxxxxxCCxxxxxxCCxxxxxCCxxxxxCxxxxxxCxx

DBP：1-3_25_47_6-9_8-11_10-12

扩大大小的设计(加帽基序以下划线标出；1个重复以斜体标出，1个重复黑体标出)：

3C6C5 C6C2

引入扭结的设计：3C6C5CC_a4G3CC_bP5CC_c2G2CC_dP4C6C2

可以使用自然的8-6-5-5模式或更常见的5-5-5-5模式。由于结构具有β-折叠，一种方法是支持为良好β-折叠形成体的氨基酸并且避免不是β-折叠形成体的氨基酸。优选下列氨基酸，它们可以用混合密码子获得：缬氨酸、异亮氨酸、苯丙氨酸、酪氨酸、色氨酸和苏氨酸。图125显示颗粒体蛋白结构。

采用5氨基酸随机环的设计：

3C6C5

CC5CC5CC5CC5C6C2

最小的起始蛋白质只有两个端帽：

C6C5C6C(17个随机氨基酸)

添加最小单元增加：

C6C5CC5C6C

处理步骤：制备文库，淘选，添加随机化的5CC5单元，淘选，添加5CC5单元，等等。

PF02420：抗冻蛋白

抗冻蛋白是8kDa的蛋白质，形成β-螺旋结构(M.E.Daley，等人.(2002)Biochemistry，41：5515-25)。N-端加帽基序由微生物蛋白质结构域形成，拓扑学为1-3 2-5 4-6。向该基序中增加二硫键连接度为1-2的2C5C3的重复单元。苏氨酸是保守的，因为它参与冰结合，但是可以从设计中忽略。丝氨酸和丙氨酸是保守的，因为只有小侧链才能契合于该螺旋内部。值得注意的是完全没有疏水核。图104显示一些抗冻衍生的重复蛋白。图104显示一些基序。参见图127。

自然序列：

QCTGGADCTSCTGACTGCGNCPNA(VTCTNSQHCVKA)(NTCTGSTDCNTA)(QT CTNSKDCFEA)(NTCTDSTNCYKA)(TACTNSSGCPGH)

当如下显示时重复部分更清楚：

QCTGGADCTSCTGACTGCGNCPNA

(VTCTNSQHCVKA)

(NTCTGSTDCNTA)

(QTCTNSKDCFEA)

(NTCTDSTNCYKA)

(TACTNSSGCPGH)

不同的设计(加帽结构域以下划线标出；重复序列以斜体标出)：

1)1C5C2C3C2C2C3

2)1C5C2C3C2C2C3

3)QCTGGA

4)QCTGGA

PF00757：弗林蛋白酶-样结构域

弗林蛋白酶-样富含半胱氨酸的区域已经在来自真核生物的多种蛋白质中发现，这些蛋白质参与通过受体酪氨酸激酶的信号转导机制，其涉及受体

集。参见图105。

标识图的一个亚类折叠为螺旋形状的重复部分，并且用作文库设计的支架：CxxxCxxxCxxxxxxCCxxxCxxxCxxxxxxxC。该基序的拓扑学是1-3_2-4_5-7_6-8。该家族的成员在半胱氨酸位点和间距方面显示高度保守。该重复部分可以通过向上述基序的C末端添加(CxxxCxxxCxxxxxxxC)_n来延长。

PF03128：CxCxCx

该重复含有保守模式CXCXC，其中x可以是任意氨基酸。该重复在血管内皮生长因子C中可发现达5个拷贝。在双翅类昆虫摇蚊(Chironomustentans)的唾液腺中，在基因装配过程中和细胞核质转运过程中可见特定信使核糖核蛋白(mRNP)颗粒、巴尔比亚尼环(BR)颗粒。该重复在巴尔比亚尼环蛋白3中发现超过70个拷贝(见下文)。也在某些丝蛋白质中发现。

CXCXC重复不形成内部二硫键，因为这种环只跨过三个氨基酸，并且数据库中的微生物蛋白质都没有3个半胱氨酸跨度。如图109所示，CxCxCx基序中的半胱氨酸参与含连接不同拷贝重复的二硫键的真正重复的形成。典型地在CxCxCx重复之间发现一个半胱氨酸(在标识图中保守，但是位置可以变化)。图106，107，108。

实际：C10C1C1C8C10C1C1C8C10C1C1C3C10C1C1C6C11C

提取的，具有开头和结尾：C1C8C10C1C1C8C10C1C1C8C10C1

二硫键键合结构模型显示在图109中。

PF05444：DUF753

在果蝇的几个功能未知的结构域中重复的序列。

图110。

PF01508：草履虫属

含有37个拷贝的上述重复序列的表面抗原。提出了结构作用。二级结构预测提示不存在α螺旋，但存在β折叠结构(不知道如何这样，二硫键的存在可能干扰预测)。图111-112。

PF00526：Dicty

网柱菌属的几个种具有含有保守重复序列的蛋白质。这些蛋白质已经被

同地描述为“胞外基质蛋白B”、“环状核苷酸磷酸二酯酶抑制剂前体”、“prestalk蛋白质前体”、“推测的钙调素结合蛋白CamBP64”和“富含半胱氨酸的酸性整合性膜蛋白质前体”以及“假定的蛋白质”。参见图113。

PF03860：DUF326

该家族是小的富含半胱氨酸的重复序列。这些半胱氨酸基本上遵循CxxCxxxCxxCxxxCxxC的模式，尽管它们经常也出现在该重复序列的其他位置处。参见图114。

PF02363：富含半胱氨酸的重复序列

这种半胱氨酸重复序列CxxxCxxxCxxxC在该家族序列中在O17970_CAEEL中重复34次。这些重复序列的功能还不清楚，因为它们所存在的蛋白质的功能还不清楚。该家族中的大多数序列来自于秀丽隐杆线虫。

参见图115-116。

参考文献：

Artavanis-Tsokanas，S等人.(1995)Science 268：225-232.

Aster，JC等人.(1999)Biochemistry 38：4736.

Bensch KW等人.(1995)FEBS Lett 368：331-335.

Bork，P(1993)FEBS Lett 327：125-30

Carr，MD等人.(1994)PNAS 91：2206-2210.

Chirino AJ，Ary ML，Marshall SA.(2004)Minimizing the immunogenicity ofprotein therapeutics.Drug Discovery Today9：82-90

Chong JM等人.(2001)J.Biol.Chem.277：5134-5144.

Chong，JM和Speicher，DW(2001)J.Biol.Chem.276：5804-5813.

Conticello SG，Gilad Y，Avidan N，Ben-Asher E，Levy Z，Fainzilber M.(2001)Mechanisms for evolving hypervariability：the case of conopeptides.Mol Biol Evol.18：120-31.

Cornet B等人(1995)Structure 3：435-448.

DeA，等人.(1994)PNAS 91：1084-1088

Dufton MJ(1984)J.Mol.Evol.20：128-134.

Fajloun，Z等人(2000)J.Biol.Chem.275：39394-402.

Fitzgerald，K等人.(1995)Development121：4275-82.

Gray WR等人(1988)Annu Rev Biochem 57：665-700.

Guncar G等人(1999)EMBO J18：793-803.

Hermeling S，Crommelin DJ，Schellekens H，Jiskoot W.(2004)Structure-immunogcnicity relationships of therapeutic proteins.Pharm Res.21，897-903

Higgins，JM等人.(1995)J.Immunol.155：5777-85

Hoffman，W等人.(1993)Trends Biochem Sci 18：239-243.

Hugli，TE(1990)Curr Topics Microbiol Immunol.153：181-208.

Jonassen I等人(1995)Protein Sci 4：1587-1595.

Kamikubo，Y等人(2004)

Kim，JI等人(1995)J.Mol.Biol.250：659-671.

Kimble，J等人.(1997)Annu Rev Cell Dev Biol 13：333-361.

Koduri，V和Blacklow，SC(2001)40：12801

Lauber，T.等人(2003)J.Mol.Biol.328：205-219.

Léonetti等人.(1998)J.Immunol，160；3820-3827(1998)

Léonetti M，Thai R，Cotton J，Leroy S，Drevet P，Ducancel F，Boulain JC，Ménez A.(1998)Increasing immunogenicity of antigens fused to Ig-binding proteinsby cell surface targeting.J.Immunol，160；3820-3827.

Leung-Hagesteijn，C等人.(1992)Cell 71：289-99

Liu L等人(1997)Genomics 43：316-320.

Maillère B，Mourier G，HervéM，Cotton J，Leroy S，Ménez A.(1995)Immunogenicity of a disulphide-containing neurotoxin：presentation to T-cellsrequires a rednction step.Toxicon，4，475-482；

Maillère B.等人.，未发表的数据。

Maillère，B.，Cotton，J.，Mourier，G.，Léonetti，M.，Leroy，S.和Ménez，A.(1993).Role of thiols in the presentation of a snake toxin to murine T cells.J.Immunol.150：5270-5280.

Martin L，Stricher F，Misse D，Sironi F，Pugniere M，Barthe P，Prado-Gotor R，Freulon I，Magne X，Roumestand C，Ménez A，Lusso P，Veas F，Vita C(2003)Rational design of a CD4 mimic that inhibits HIV-1 entry and exposes crypticneutralization epitopes.Nat Biotechnol.21：71-6.

Ménez，A.(1991)Immunology of snake toxins，p.35-90.In：Snake Toxins.ALHarvey(Ed)，Pergamon Press，Inc.，New York.

Miljanich，G，P.(2004)，Ziconotide：neuronal calcium channel blocker fortreating severe chronic pain.Curr.Med. Chem.23，3029.

Misenheimer，TM等人.(2001)J.Biol.Chem.276：45882

Molina F等人(1996)Eur.J.Biochem.240：125-133.

Mourier等人.，(1995)Toxicon 4：475-482.

Nielsen，KJ等人(2002)J.Biol.Chem.277：27247-27255.

Pallaghy PK等人(1993)J.Mol Biol234：405-420.

Pallaghy，P等人.Protein Sci3：1833(1994)

Pan，TC等人.(1993)J.Cell.Biol.123：1269-1277

Patten，P.A.和Schellekens，H.(2003)The immunogenicity ofBiopharmaceuticals.In：Immunogenicity of Therapeutic Biological Products.Brown，F.和Mire-Sluis，A.R.(eds).Dev.Biol.Basel，Karger，112：81-97.

Pereira，C.M.，Guth，B.E.C，，Sbrogio-Almeida，M.E.和Castilho，B.A.(2001)Microbiology147：861-867.

Petersen，SV等人(2003)Proc.Natl.Acad.Sci.USA 100：13875-80.

Rebayl，等人.(1991)Cell 67：687-699

Roszmusz，E.等人.(2002)BBRC 296：156

Sands，BE和Podolsky，DK(1996)Annu.Rev.Physiol.58：253-273.

Schultz-Cherry，S等人.(1995)J.Biol.Chem.270：7304-7310

Schultz-Cherry，S等人.J.(1994)J.Biol.Chem.269：26783-8

Schulz A.等人(2005)Biopolymers 80：34-49.

Singh H，Raghava GP(2001)ProPred：prediction of HLA-DR binding sites.Bioinformatics17：1236-7.

Skinner WS等人，J.Biol.Chem.(1989)264：2150-2155.

So，T.，Ito，H.，Hirata，M.，Ueda，T.和Imoto，T.(2001)Contribution ofconformational stability of hen lysozyme to induction of type 2 T-helper immuneresponses.Immunology 104：259-268.

Sturniolo，T.，等人.(1999)Generation of tissue-specific and promiscuous HLAligand databases using DNA microarrays and virtual HLA class II matrices.NatureBiotechnol，17：555

Tam，JP和Lu，YA.Protein Sci.7：1583(1998)

Tax，FE等人.(1994)Nature 368：150-154.

Thai R，Moine G，Desmadril M，Servent D，Tartide JL，Ménez A，Léonetti M.(2004)Antigen stability controls antigen presentation.J.Biol.Chem.279，50257-50266.

Van den Hooven，HW等人.(2001)Biochemistry 40：3458-3466.

van Vlijmen HW，Gupta A，Narasimhan S，Singh J(2004).A novel database ofdisulfide patterns and its application to the discovery of distantly related homologs.JMol Biol 335：1083-92.

Vardar，D等人.(2003)Biochemistry 42：7061

White，CE等人.(1996)PNAS 93：10177.

Xu Y等人(2000)Biochemistry39：13669-13675.

Zaffarella GC等人(1988)Biochemistry27：7102-7105.

Zhu S等人(1999)FEBSLett457：509-514.

Zuiderweg，ER等人.(1989)Biochemistry28：172-85.

Claims

1.一种非天然存在的含半胱氨酸(C)蛋白质，其含有具有不超过35个氨基酸的多肽，其中

该多肽中至少10％的氨基酸是半胱氨酸，

通过支架内半胱氨酸的配对形成至少两个二硫键，并且其中所述配对产生大于3的复杂性指数。

2.一种非天然存在的含半胱氨酸(C)蛋白质，其含有具有不超过约60个氨基酸的多肽，其中

该多肽中至少10％的氨基酸是半胱氨酸，

通过该多肽中所含的半胱氨酸的配对形成至少四个二硫键，并且其中

所述配对产生大于4的复杂性指数。

3.权利要求1或2的非天然存在的含半胱氨酸(C)蛋白质，其中复杂性指数大于6。

4.权利要求1或2的非天然存在的含半胱氨酸(C)蛋白质，其中复杂性指数大于10。

5.权利要求1或2的非天然存在的含半胱氨酸(C)蛋白质，它与靶分子特异性结合。

6.权利要求1或2的非天然存在的含半胱氨酸(C)蛋白质，它在加热到高于大约50℃的温度后保持靶标结合能力。

7.权利要求1或2的非天然存在的含半胱氨酸(C)蛋白质，它在加热到高于大约80℃的温度后保持靶标结合能力。

8.权利要求1或2的非天然存在的含半胱氨酸(C)蛋白质，它在加热到高于大约100℃的温度并且持续超过0.1秒后保持靶标结合能力。

9.权利要求1或2的非天然存在的含半胱氨酸(C)蛋白质，它与选自标记物、效应物、抗体和半衰期延长部分的部分偶联。

10.权利要求1或2的非天然存在的含半胱氨酸(C)蛋白质，它是一种单体。

11.权利要求1或2的非天然存在的含半胱氨酸(C)蛋白质，它是一种多聚体。

12.权利要求1或2的非天然存在的含半胱氨酸(C)蛋白质，其中该蛋白质包含一种类型的支架。

13.权利要求1或2的非天然存在的含半胱氨酸(C)蛋白质，其中该蛋白质包含一种以上类型的支架。

14.权利要求1或2的非天然存在的含半胱氨酸(C)蛋白质，其中该蛋白质包含靶标结合位点和半衰期延长部分。

15.权利要求1或2的非天然存在的含半胱氨酸(C)蛋白质，其中该蛋白质包含与靶标结合的重复单元。

16.权利要求1或2的非天然存在的含半胱氨酸(C)蛋白质，其中该蛋白质包含选自血清白蛋白、IgG、红细胞和血清可及的蛋白质的半衰期延长部分。

17.显示针对一种靶标的结合特异性的非天然存在的含半胱氨酸(C)蛋白质，该靶标不同于相应的天然存在的含半胱氨酸(C)蛋白质或支架的天然靶标。

18.一种非天然蛋白质，其含有20-60个氨基酸的单结构域，其具有3个或更多的二硫键，并且与人血清暴露的蛋白质结合，并且其中所述蛋白质含有低于5％的脂肪族氨基酸。

19.一种非天然存在的蛋白质，其含有20-60个氨基酸的单结构域，其具有3个或更多的二硫键，并且与人血清暴露的蛋白质结合，其中所述蛋白质在T-Epitope程序中的得分小于数据库中蛋白质的平均值的90％。

20.权利要求1、2、18或19的非天然存在的蛋白质的文库。

21.展示权利要求20的文库的基因包装体。

22.一种检测靶标和基因包装体上展示的外源多肽之间是否存在特异性相互作用的方法，该方法包括：

(a)提供展示权利要求20的文库的基因包装体；

(b)在适合产生稳定的多肽-靶标复合物的条件下使基因包装体接触靶标；和

(c)检测基因包装体上稳定的多肽-靶标复合物的形成，由此检测特异性相互作用的存在。

23.权利要求22的方法，进一步包括分离展示具有所需性质的多肽的基因包装体的步骤。

24.一种药物组合物，其含有权利要求1或2的非天然存在的含半胱氨酸(C)蛋白质和药学上可接受的载体。

25.一种非天然存在的含半胱氨酸(C)支架，其显示针对靶分子的结合特异性，包含具有两个按照选自C1^-2，3-4、C^1-3，2-4和C^1-4，2-3的模式通过支架内半胱氨酸配对形成的二硫键的多肽，其中用连字符连接的两个数字表示从多肽N-末端计数的哪两个半胱氨酸配对形成二硫键。

26.一种非天然存在的含半胱氨酸(C)支架，其显示针对靶分子的结合特异性，包含具有三个按照选自C^{1-2，3-4，5-6}、C^{1-2，3-5，4-6}、C^{1-2，3-6，4-5}、C^{1-3，2-4，5-6}、C^l-3，2-5， ^4-6、C^{1-3，2-6，4-5}、C^{1-4，2-3，5-6}、C^{1-4，2-6，3-5}、C^{1-5，2-3，4-6}、C^{1-5，2-4，3-6}、C^{1-5，2-6，3-4}、C^{1-6，2-3，4-5}和C^{1-6，2-5，3-4}的模式通过支架内半胱氨酸配对形成的二硫键的多肽，其中用连字符连接的两个数字表示从多肽N-末端计数的哪两个半胱氨酸配对形成二硫键。

27.一种非天然存在的含半胱氨酸(C)支架，其显示针对靶分子的结合特异性，包含具有至少四个按照选自下组的模式通过支架内半胱氨酸配对形成的二硫键的多肽：

1-2 3-6 4-5 7-8 1-2 3-6 4-7 5-8 1-2 3-6 4-8 5-7 1-2 3-7 4-5 6-8 1-2 3-7 4-6 5-8 1-2 3-7 4-8 5-6

1-2 3-8 4-5 6-7 1-2 3-8 4-6 5-7 1-2 3-8 4-7 5-6 1-3 2-4 5-6 7-8 1-3 2-4 5-7 6-8 1-3 2-4 5-8 6-7

1-3 2-5 4-6 7-8 1-3 2-5 4-7 6-8 1-3 2-5 4-8 6-7 1-3 2-6 4-5 7-8 1-3 2-6 4-7 5-8 1-3 2-6 4-8 5-7

1-3 2-7 4-5 6-8 1-3 2-7 4-6 5-8 1-3 2-7 4-8 5-6 1-3 2-8 4-5 6-7 1-3 2-8 4-6 5-7 1-3 2-8 4-7 5-6

1-4 2-3 5-6 7-8 1-4 2-3 5-7 6-8 1-4 2-3 5-8 6-7 1-4 2-5 3-6 7-8 1-4 2-5 3-7 6-8 1-4 2-5 3-8 6-7

1-4 2-6 3-5 7-8 1-4 2-6 3-7 5-8 1-4 2-6 3-8 5-7 1-4 2-7 3-5 6-8 1-4 2-7 3-6 5-8 1-4 2-7 3-8 5-6

1-4 2-8 3-5 6-7 1-4 2-8 3-6 5-8 1-4 2-8 3-7 5-6 1-5 2-3 4-6 7-8 1-5 2-3 4-7 6-8 1-5 2-3 4-8 6-7

1-5 2-4 3-6 7-8 1-5 2-4 3-7 6-8 1-5 2-4 3-8 6-7 1-5 2-6 3-4 7-8 1-5 2-6 3-7 4-8 1-5 2-6 3-8 4-7

1-5 2-7 3-4 6-8 1-5 2-7 3-6 4-8 1-5 2-7 3-8 4-6 1-5 2-8 3-4 4-7 1-5 2-8 3-6 4-7 1-5 2-8 3-7 4-6

1-6 2-3 4-5 7-8 1-6 2-3 4-7 5-8 1-6 2-3 4-8 5-7 1-6 2-4 3-5 7-8 1-6 2-4 3-7 5-8 1-6 2-4 3-8 5-7

1-6 2-5 3-4 7-8 1-6 2-5 3-7 4-8 1-6 2-5 3-8 4-7 1-6 2-7 3-4 5-8 1-6 2-7 3-5 4-8 1-6 2-7 3-8 4-5

1-6 2-8 3-4 5-7 1-6 2-8 3-5 4-7 1-6 2-8 3-7 4-5 1-7 2-3 4-5 6-8 1-7 2-3 4-6 5-8 1-7 2-3 4-8 5-6

1-7 2-4 3-5 6-8 1-7 2-4 3-6 5-8 1-7 2-4 3-8 5-6 1-7 2-5 3-4 6-8 1-7 2-5 3-6 4-8 1-7 2-5 3-8 4-6

1-7 2-6 3-4 5-8 1-7 2-6 3-5 4-8 1-7 2-6 3-8 4-5 1-7 2-8 3-4 5-6 1-7 2-8 3-5 4-6 1-7 2-8 3-6 4-5

1-8 2-3 4-5 6-7 1-8 2-3 4-6 5-7 1-8 2-3 4-7 5-6 1-8 2-4 3-5 6-7 1-8 2-4 3-6 5-7 1-8 2-4 3-7 5-6

1-8 2-5 3-4 6-7 1-8 2-5 3-6 4-7 1-8 2-5 3-7 4-6 1-8 2-6 3-4 5-7 1-8 2-6 3-5 4-7 1-8 2-6 3-7 4-5

1-8 2-7 3-4 5-6 1-8 2-7 3-5 4-6 1-8 2-7 3-6 4-5

其中用连字符连接的两个数字表示从多肽N-末端计数的哪两个半胱氨酸配对形成二硫键。

28.权利要求25、26或27的非天然存在的含半胱氨酸(C)支架，它在加热到高于大约50℃的温度后保持靶标结合能力。

29.权利要求25、26或27的非天然存在的含半胱氨酸(C)支架，它在加热到高于大约80℃的温度后保持靶标结合能力。

30.权利要求25、26或27的非天然存在的含半胱氨酸(C)支架，它在加热到高于大约100℃的温度并且持续超过0.1秒后保持靶标结合能力。

31.权利要求25、26或27的非天然存在的含半胱氨酸(C)支架，它与选目标记物、效应物和抗体的部分偶联。

32.权利要求25、26或27的非天然存在的含半胱氨酸(C)支架，它是一种单体。

33.权利要求25、26或27的非天然存在的含半胱氨酸(C)支架，其包含半衰期延长部分。

34.权利要求33的非天然存在的含半胱氨酸(C)支架，其中所述半衰期延长部分选自血清白蛋白、IgG、红细胞和血清可及的蛋白质。

35.权利要求25、26或27的非天然存在的含半胱氨酸(C)支架，其显示针对一种靶标的结合特异性，该靶标不同于相应的天然存在的含半胱氨酸(C)蛋白质或支架的天然靶标。

36.权利要求25、26或27的非天然存在的含半胱氨酸(C)支架的文库。

37.展示权利要求36的文库的基因包装体。

38.一种检测靶标和基因包装体上展示的外源多肽之间是否存在特异性相互作用的方法，该方法包括：

(a)提供权利要求37的展示基因包装体；

39.权利要求38的方法，进一步包括分离展示具有所需性质的多肽的基因包装体的步骤。

40.权利要求37的方法，其中所述基因包装体是噬菌体。

41.权利要求36的方法，其中所述噬菌体是丝状噬菌体。

42.一种产生非天然存在的含半胱氨酸(C)支架的方法，包括：

提供一种宿主细胞，其包含编码权利要求25-27任一项的非天然存在的含半胱氨酸(C)支架的核酸；

在实现由所述核酸表达所述支架的条件下，在适当的培养基中培养所述宿主细胞。

43.权利要求38的方法，进一步包括从所述培养基中回收所述支架的步骤。

44.一种药物组合物，其包含权利要求25、26或27的非天然存在的含半胱氨酸(C)支架和药学上可接受的载体。