CN102947324A

CN102947324A - 结合有工业意义的小分子的肽结构域

Info

Publication number: CN102947324A
Application number: CN2011800169226A
Authority: CN
Inventors: T.P.宾德; A.G.劳; 山本康文; P.汉克
Original assignee: Archer Daniels Midland Co; Iowa State University Research Foundation Inc ISURF
Current assignee: Archer Daniels Midland Co; Iowa State University Research Foundation Inc ISURF
Priority date: 2010-01-29
Filing date: 2011-01-28
Publication date: 2013-02-27
Also published as: CN107936092A; US20160376310A1; CN107936092B; US9617312B2; US9695217B2; EP2573102A1; EP2573103A1; EP2528935A2; EP2528935B1; EP2573103B1; US9447150B2; EP2573102B1; WO2011094617A8; US20160311860A1; WO2011094617A3; WO2011094617A2; US20130116138A1

Abstract

本文阐述结合有工业意义的小靶标分子的小肽结构域和共有序列，所述有工业意义的小靶标分子例如金属例如镍、β胡萝卜素和异黄酮例如染料木黄酮。同样阐述含有所述结合结构域的融合蛋白，所述结合结构域与蛋白质或与肽结构域例如GST或CBD融合，所述蛋白质或肽结构域结合其它配体，可用于将所述靶标结合结构域固定在支持体上。可用于工业环境的融合蛋白中的一类是含有靶标结合结构域串联体的融合体，所述融合体增加每分子的结合当量。

Description

结合有工业意义的小分子的肽结构域

相关申请的交叉引用

本申请要求于2010年1月29日提交的美国专利申请序列号61/299,449的申请日权益，其公开内容通过引用并入本文中。

背景

一直在将能够结合特异性靶标分子的肽用于生物学、医学、制药领域的各类研究和产品开发工作中。在这些领域中，靶标分子通常是具有生物学意义的分子，例如病变细胞或致病细胞的肽表位、表面受体蛋白、信号转导蛋白、在生物学应答例如免疫T细胞和B细胞应答的病因学中涉及的蛋白质和用于生物学研究的靶标，例如与核酸结合的蛋白质或为鉴定和筛选目的需要特异性结合配体的生物学感兴趣的其它蛋白质。

为获得具有特定靶标结合活性的肽而最长期使用的工具来自对免疫反应的开发，最初是通过获得多克隆抗体，例如通过注射靶标分子攻击动物以获得B细胞应答来诱导IgG和IgM，并从血液中分离抗体。随后，从杂交瘤细胞克隆中获得单克隆抗体，所述杂交瘤细胞克隆产生结合靶标分子的特定表位的单一种类的抗体。有用的抗体具有以通常为10^-7 M或更小、更通常为10^-8 M-10^-9M的摩尔解离常数(Kd)结合靶标分子的能力。这些技术完全依靠开发天然生物免疫系统，所述系统能够重组抗体高可变结构域的编码序列以产生极为多样化的抗体，并具有天然刺激与目的靶标分子结合的少量抗体增殖的能力。就单克隆抗体而言，天然诱导的增殖被人为的选择和培养表达特异性抗体的克隆的能力所取代。

尽管已经证明使用抗体成为用于获得结合特定靶标分子的肽的强大工具，但抗体的工业应用的效用受到限制。首先，抗体必须由全血、鸡蛋或杂交瘤组织培养物制备，与结合靶标分子的工业规模需求相比，所有这些都是昂贵而低产量的生产系统。其次，它们依赖在抗体分子高可变区形成的结合结构域的三维结构，这需要生产相当大的蛋白质(即使是单链可变片段情况下)，以获得结合每一摩尔靶标分子所需的相对较小的肽结构域的1摩尔结合当量。

最近，用于鉴定靶标结合结构域的抗体的较新的备选品是开发细菌蛋白展示系统，最值得注意的是噬菌体展示系统。这些系统以与表面蛋白的融合蛋白的形式来展示肽或整个蛋白的序列，例如对于噬菌体展示，将肽表达为与噬菌体颗粒蛋白的融合蛋白。

噬菌体展示是用于探索组合随机肽文库的序列空间的最强大和完善的技术之一。通常外源蛋白/肽作为与次要外壳蛋白pIII或主要外壳蛋白pVIII的融合蛋白表达于M13噬菌体表面上。可针对靶标分子(固定在珠粒上或吸附于微量滴定板孔中)筛选具10⁷-10¹¹多样性肽(具有5-40个残基)的文库，经过结合和感染的反复轮次富集特定的结合物。通过ELISA检测富集池中单个克隆的结合，通过测定噬菌体颗粒中的DNA序列来解码结合肽的氨基酸序列。然后可将肽配体的氨基酸序列与蛋白质数据库比较，以计算机鉴定潜在的内源互作蛋白。

噬菌体展示技术主要用于鉴定蛋白质-蛋白质、蛋白质-肽和蛋白质-DNA的相互作用，因此，尤其用作鉴定靶标肽的研究工具，所述靶标肽与生理学重要的蛋白例如抗体和受体相互作用，或与特定DNA序列结合，或与潜在候选药物结合以便发现用于药物应用的潜在生理学靶标蛋白。然而，很少将噬菌体展示用于鉴定与有工业意义的小分子结合的肽，所述有工业意义的小分子例如在工业生产液流中的污染物或金属离子。尽管作为研究工具有用，但一直未显示噬菌体展示作为实际生产用于在任何工业加工或产品方面的商业部署的肽结构域的工具的实用性。

然而，业已阐述少数金属结合肽。在金属结合肽中发现的一种金属结合基序为6个组氨酸(“多组氨酸”)的序列，已知其能够结合镍。可获得含有其中启动子与编码含多组氨酸的肽的区域连接的核酸序列的表达载体，以制备所谓的“组氨酸-标签”融合蛋白，所述融合蛋白可通过依靠多组氨酸结构域结合固定在柱上的镍的能力自细胞提取物中快速分离。用过量咪唑从柱中洗脱结合的蛋白。如果克隆载体在融合蛋白框架内另外编码蛋白酶底物位点，则可用蛋白酶将多组氨酸结合结构域自洗脱蛋白裂解。

最为人知晓的多组氨酸结合结构域是包含6个组氨酸核心序列的肽，如以序列YSHHHHHHLAGTA (SEQ ID NO：1)为例所示，其对镍的摩尔解离常数为2.3 x 10^-11 M。另外一种已知多组氨酸结合结构域为组氨酸-谷氨酰胺二肽的6聚体重复的12个氨基酸的肽，即(HQ)₆(SEQ ID NO：2)，精氨酸也表明是在镍结合中起重要作用的氨基酸残基，因为亦显示共有序列RHXHHR (SEQ ID NO：3)(其中X最常为组氨酸)以高亲和力结合镍(Jie等, Chemical Biology & Drug Design (2006) 68 ： 107-112)。Jie等人通过筛选形成经工程改造以在鞭毛上展示蛋白的细菌文库的肽鉴定了该序列，并提示展示所述序列的细菌可能用作生物衍生的废水修复剂(remediation agent)。

Behnaz等人(Iranian Journal of Biotechnology (2005) 3 ： 180-185)用相似的系统揭示结合金属的肽的极为不同的基序，其显示经由纤毛(fibrinea)融合蛋白展示于大肠杆菌(E. coli)表面上的富半胱氨酸肽GCGCPCGCG (SEQ ID NO：4)，能够以相对次序铅>镉>镍结合金属。关于半胱氨酸，显示通过与OmpX膜蛋白融合在其表面展示含半胱氨酸肽LCCYWSYSRMCKN(SEQ ID NO：5)(选自随机产生的11-聚体文库，11-聚体中，2个半胱氨酸被7个氨基酸分开且每一个侧翼有2个氨基酸)的大肠杆菌，与悬浮液中的金颗粒结合(Kaviani, Biological Applications NNIN REU (2006) Research Accomplishments, 第 12-13页)。通过噬菌体展示用M13鉴定了序列LKAHLPPSRLPS (SEQ ID NO：6)的含脯氨酸/羟基金结合肽(Nam等，Science(2006)312 ： 885-888)。同样地但在不相关的工作中显示，通过噬菌体表面展示鉴定的几个富含羟基但没有特定共有序列的肽结合铝，其中肽VPSSGPQDTRTT(SEQ ID NO：7)显示特别强的结合(Zao等, Appl. Microb. and Biotech. (2005) 68 ： 505-509)。业已提议金结合肽可能用于微电子纳米结构的组装。其他人证明在M13噬菌体文库上展示的金属结合肽可用作改进催化活性的生物模板催化剂(Nelner等, ACS Nano (2010) 4 ： 3227-3235)。

尽管有这些建议，但是单独的噬菌体展示或其它细菌展示系统还不适于在实际工业规模处理中部署，所述实际工业规模处理例如水修复、回收贵重金属或从工业生产液流中去除污染物。这是因为结合工业规模工业生产液流中的靶标分子所需的结合位点的量非常大。举例而言，经由细菌细胞培养物产生的典型噬菌体滴度大约为10¹²颗粒/mL。即使假定每个颗粒展示10³个结合蛋白，每个蛋白结合一当量靶标分子，这需要6.02 x 10⁸ mL或602,000升细胞培养物以产生足够多的颗粒仅仅结合1摩尔靶标分子。1摩尔镍是60g的材料，典型的水密集型工业生产加工例如在湿磨设备中每天加工250,000蒲式耳的谷物，每小时使用数百上千升的水，在仅3小时内能提取多至6磅(2700克)的镍。因此，为了利用在噬菌体颗粒上表达的镍结合结构域，来结合从谷物湿磨设备或是产生含有提取的金属例如镍的大量废水的其它农业加工(例如大豆加工)一天产生的所有镍，可能使用约218百万升的噬菌体培养物来生产足够多的颗粒。如此大规模生产在商业上是不实际的。细菌表面上展示甚至更加不实际，因为每个细菌的展示分子总数量约和噬菌体一样，但是细菌的最大滴度约为 10⁹个细胞/mL。因此，需要与噬菌体颗粒上展示的结合位点一样多时，需要至少1000倍量的细菌培养物在鞭毛或纤毛上展示足够的结合位点。

存在特异性结合工业生产液流中的小分子的实际工业需求，所述需求可用于水修复、从食品中去除污染物和大规模纯化天然存在的小分子。

发明简述

本说明书阐述以高亲和力结合有工业意义的分子的肽。在一个实施方案中，鉴定了具有很多组氨酸残基的肽，所述肽结合金属离子，例如Ni、Cu和Zn，尤其是以比例如SEQ ID NO：1还要高的亲和力(较低 Kd)结合Ni。在另一实施方案中，鉴定了结合不利地影响食物的颜色、稳定性或气味的污染物(例如胡萝卜素)的肽。当加工棕榈油时通常同时萃取胡萝卜素，因此胡萝卜素结合肽使得可从棕榈油中除去胡萝卜素。在又一实施方案中，鉴定了结合来自农业来源的天然产物(例如大豆来源的异黄酮)的肽，所述天然产物可用作营养制品，例如异黄酮染料木黄酮。已鉴定的肽可以以高特异性与所述多种类的有工业意义的分子结合这一事实，证明诸如肽展示系统等方法可用于鉴定用于多种多样工业加工的肽。可采用已鉴定的结合肽来去除、分离(纯化)或检测(鉴定)复杂混合物中的靶标分子或结构相关分子。

因此，本发明提供分离的金属结合肽和一种或多种这类肽的融合体，并任选与其它肽的融合体，所述其它肽例如用于结合其它分子的肽和/或为蛋白酶底物的肽，藉此形成嵌合多肽。在一个实施方案中，金属结合肽或其融合体亦包括适用于纯化或分离的肽序列，例如谷胱甘肽S-转移酶(GST)或几丁质结合肽序列。在一个实施方案中，融合体包括金属结合肽的串联体(concatemer)，例如融合体具有至少两个独特的金属结合肽序列或至少两个相同的金属结合肽序列。在一个实施方案中，接头序列分开相邻的金属结合肽序列，以例如允许金属无障碍地结合邻近的结合位点。在一个实施方案中，金属结合肽长度为至少5-约30个氨基酸，例如长度为约10-约30个氨基酸(或5-30之间的任意整数)，例如长度为10-15个氨基酸。多个金属结合肽的融合体可以为任何长度，所述融合体包括具相同肽序列或不同肽序列的融合体。在一个实施方案中，融合体长度不多于1000个氨基酸。在另一个实施方案中，融合体长度不多于500个氨基酸。在又一实施方案中，融合体的长度不多于100个氨基酸。在再一实施方案中，融合体的长度不多于50个氨基酸。嵌合多肽可具有至少2个金属结合肽结构域，所述结构域在更大的多肽序列(例如天然存在的多肽)中可取代一个或多个结构域或序列，或可将所述结构域插入更大的多肽序列(例如天然存在的多肽)中或其一端或两端或其任意组合。

本发明同样提供分离的聚类萜(例如类胡萝卜素或叶黄素)结合肽和这些肽中一种或多种的融合体，并任选与其它肽的融合体，所述其它肽例如用于与其它分子结合的肽和/或为蛋白酶底物的肽，藉此形成嵌合多肽。在一个实施方案中，本发明提供分离的胡萝卜素结合肽和这些肽中一种或多种的融合体，并任选与其它肽的融合体，所述其它肽例如用于与其它分子结合的肽和/或为蛋白酶底物的肽，藉此形成嵌合多肽。在一个实施方案中，聚类萜或类胡萝卜素结合肽，例如胡萝卜素结合肽或其融合体，还包括适用于纯化或分离的肽序列，例如GST或几丁质结合结构域。在一个实施方案中，融合体包括胡萝卜素结合肽的串联体，例如融合体具有至少两个独特的胡萝卜素结合肽序列。在一个实施方案中，接头序列分开相邻的胡萝卜素结合肽序列。在一个实施方案中，胡萝卜素结合肽长度为至少9-约30个氨基酸，例如长度为约10-约30个氨基酸(或9-30之间的任意整数)。多个胡萝卜素结合肽的融合体可以为任何长度，所述融合体包括具相同肽序列或不同肽序列的融合体。在一个实施方案中，融合体长度不多于1000个氨基酸。在另一个实施方案中，融合体长度不多于500个氨基酸。在又一实施方案中，融合体的长度不多于100个氨基酸。在再一实施方案中，融合体的长度不多于50个氨基酸。嵌合多肽可具有至少2个胡萝卜素结合肽结构域，所述结构域在更大的多肽序列(例如天然存在的多肽)中可取代一个或多个结构域或序列，或可将所述结构域插入更大的多肽序列(例如天然存在的多肽)中或其一端或两端或其任意组合。

本发明同样提供分离的异黄酮结合肽和这些肽中一种或多种的融合体，并任选与其它肽的融合体，所述其它肽例如用于与其它分子结合的肽和/或为蛋白酶底物的肽，藉此形成嵌合多肽。在一个实施方案中，异黄酮结合肽或其融合体包括适用于纯化或分离的肽序列，例如GST或几丁质结合结构域。在一个实施方案中，融合体包括异黄酮结合肽的串联体，例如融合体具有至少两个独特的异黄酮结合肽序列。在一个实施方案中，接头序列分开相邻的异黄酮结合肽序列。在一个实施方案中，异黄酮结合肽长度为至少10-约40个氨基酸，例如长度为约15-约35个氨基酸(或10-40之间的任意整数)。多个异黄酮结合肽的融合体可以为任何长度，所述融合体包括具相同肽序列或不同肽序列的融合体。在一个实施方案中，融合体长度不多于1000个氨基酸。在另一个实施方案中，融合体长度不多于500个氨基酸。在又一实施方案中，融合体的长度不多于100个氨基酸。在再一实施方案中，融合体的长度不多于50个氨基酸。嵌合多肽可具有至少2个异黄酮结合肽结构域，所述结构域在更大的多肽序列(例如天然存在的多肽)中可取代一个或多个结构域或序列，或可将所述结构域插入更大的多肽序列(例如天然存在的多肽)中或其一端或两端或其任意组合。

本文亦阐述编码具一种或多种肽结合结构域的融合蛋白的重组核酸(表达盒)，其中至少一种为本发明结合肽。在一个实施方案中，以串联体形式表达肽结合结构域作为含一种肽结合结构域的多个拷贝或不同的肽结合结构域的多个拷贝的人工重组融合蛋白(嵌合多肽)。不象抗体，每分子嵌合多肽可含有多种结合结构域。同样，可将细菌菌株改造成以使其易于从细菌培养物或细菌提取物中分离的方式过表达串联体融合蛋白。例如，将融合体遗传改造用于分泌到培养基中，或改造为纳入到细菌蛋白体内(例如包涵体)。在另一实施方案中，融合蛋白可包括使其易于从混合物中分开(分离)的额外的肽结构域。所述结构域实例为以下结构域：赋予在溶剂例如乙醇中的差异溶解度的结构域；引起融合蛋白絮凝的结构域；或赋予第二配偶体靶标结合能力的第二结合结构域，使得可通过与含有所述第二结合配偶体的底物结合来分离融合蛋白。

用本文公开的方法使制备足够摩尔的结合结构域以部署用于工业应用(例如水修复和产品/污染物分离)变得在经济上实际起来。因此，所述方法提供用本发明结合肽从复杂混合物中分离或分开分子。在一个实施方案中，所述方法提供从农作物的农业加工中分离污染物，例如包括镍在内的金属。在一个实施方案中，采用本发明结合肽来分离对映体分子。例如，本发明提供分离对映体的方法，所述方法包括提供怀疑具有化合物的外消旋混合物的样品；提供具有固定在其上的有13个或更少氨基酸的结合结构域的肽的基质，所述肽以至少10^-9 M或更小的解离常数优先结合化合物的一种对映体；使样品与基质接触；洗涤基质以除去包括对映体之一在内的未结合物质。在一个实施方案中，从基质洗脱结合的对映体。

该方法亦提供在样品例如环境样品中检测和任选定量分子。例如，可使土壤样品与具有本发明结合肽的传感器接触，可在样品中检测金属的存在与否或金属的量。

亦阐述广泛用于遗传工程改造呈串联体形式的多拷贝结合结构域的通用技术。该技术包括以使在离体合成和体内重组中折返(snap-back)形成最小化的方式有目的地选择不同DNA序列来编码相同的肽结构域。

本文所述肽全部结合小分子，最初用肽展示技术鉴定，例如用噬菌体展示。因此，一种方法阐述用肽展示系统来鉴定结合非肽、非-核酸靶标分子的肽，所述靶标分子的分子量小于约1600Da，例如小于约1000Da。该法包括获得不是抗体分子的展示肽结合结构域的分子文库，从文库中挑选具有结合靶标分子的肽结构域的分子亚组，和鉴定所述亚组的肽序列。

在一个实施方案中，本发明提供从样品中分离靶标分子的方法。所述方法包括提供包含在生物颗粒表面上展示的多种肽结构域的肽文库，筛选肽文库以鉴定结合靶标分子的肽，和测定编码结合肽的核酸序列。在一个实施方案中，所述方法包括提供分离的融合蛋白，所述融合蛋白具有包含至少一个靶标结合肽的靶标结合结构域和包含结合配体、能够与基质发生交联或从溶液中形成絮凝的氨基酸残基的分离结构域；使融合蛋白与含有靶标分子的样品接触，以使靶标分子与靶标结合结构域结合；和用分离结构域来分离结合有靶标分子的融合蛋白，藉此分离靶标分子。在一个实施方案中，分离结构域与选自CBD、MBD和GST的配体结合。在一个实施方案中，通过固定在包含配体的基质上来分离融合蛋白。在一个实施方案中，分离结构域具有可与基质发生交联的氨基酸残基，分离融合蛋白包括在使融合蛋白与含有靶标分子的样品接触之前，使分离结构域与基质发生交联。在一个实施方案中，分离结构域包含絮凝结构域，分离融合蛋白包括在与含有靶标分子的样品接触后使融合蛋白发生絮凝，并分离出絮凝融合蛋白。絮凝结构域包括但不限于Suarez 等所公开的那些(Biochim Biophys Acta (1995) 1243 ： 477-481)，其公开内容并入本文。

在一个实施方案中，本发明提供检测样品中小于1600Da的靶标分子的存在的方法。在一个实施方案中，所述方法包括将以至少10^-9 M或更小的解离常数结合靶标分子的具有13个或更少氨基酸的结合结构域的肽固定在基质上；使固定的肽与样品接触；洗涤基质以除去未结合的物质；和检测靶标分子是否结合肽。可通过任何方法来检测结合，所述方法包括但不限于表面等离振子共振检测仪、荧光检测仪、放射性同位素检测仪或分光光度计。在一个实施方案中，结合结构域包含较大融合蛋白中的至少一种结构域，例如，所述融合蛋白由多种结合结构域组成。在一个实施方案中，靶标分子选自金属、类胡萝卜素和异黄酮。

同样提供包含固定化肽的传感装置，所述肽具有13个或更少氨基酸的结合结构域，其以至少10^-9M或更小的解离常数结合所选出的靶标分子。

附图简述

图1显示凝胶照片，其证明金属离子对通常结合镍的具含His的肽的蛋白质的相对特异性。从树脂中洗脱的蛋白量越少，在预孵育步骤中金属初始与肽的结合越好。

图2阐明金属Ni、Cu 和Zn与融合蛋白的相对结合，所述融合蛋白含有本发明的金属结合含His肽(GST-A15; A15, YTRTPHVHWHAHG, SEQ ID NO：9)。图中描述的是与经由GST固定在柱上的蛋白结合的金属的咪唑洗脱概况。

图3阐明金属Ni、Cu 和Zn与融合蛋白的相对结合，所述融合蛋白含有本发明的金属结合含His肽(GST-B16; B16, WGGWRHVHGHRHP, SEQ ID NO：11)。

图4阐明金属Ni、Cu 和Zn与融合蛋白的相对结合，所述融合蛋白含有金属结合His₆肽(GST-C26; C26, YEHHHHHHLAGTA, SEQ ID NO：13)。

图5描述融合蛋白的核酸序列(SEQ ID NO：14)和蛋白序列(SEQ ID NO：15)实例，所述融合蛋白含有第二结合结构域(几丁质结合结构域)和由两个不同金属结合肽序列A15(SEQ ID NO：9)和B16 (SEQ ID NO：11)组成的5个金属结合结构域的串联体。

图6描述了表现出胡萝卜素结合的一组肽序列(SEQ ID NO：16-48)以及因此的共有序列(SEQ ID NO：49)。

图7描述了来自第二次筛选的一组核心肽结合结构域(SEQ ID NO：50-71)，所述结合结构域使得可结合胡萝卜素，并具有核心基序 X¹X²GWX³HyX⁴X⁵X⁶ (SEQ ID NO：72)。在一个实施方案中，X²为丙氨酸。在一个实施方案中，Hy为芳香族氨基酸，例如色氨酸。在一个实施方案中，X⁴为色氨酸。

图8描述表现出结合异黄酮、染料木黄酮的一组肽序列(SEQ ID NO：73-94)。

图9描述具有赋予结合Ni和其它金属的核心的一组肽序列(SEQ ID NO：9、SEQ ID NO：11、SEQ ID NO：13和 SEQ ID NO：95-111)。

图10描述图9中描述的一组肽序列的亲水性(hydropathy)比较和氨基酸数量。

图11显示含β-胡萝卜素结合结构域(SEQ ID NO：55)的融合蛋白的示意图(A)，和用β-胡萝卜素包被然后接触含β-胡萝卜素结合结构域的融合蛋白的微量离心管中样品的吸光谱(B)。样品1和2无β-胡萝卜素，而样品3-7含β-胡萝卜素。样品3与麦芽糖结合蛋白(MBP)接触，样品4与MBP-CRK1融合蛋白接触，样品5和6与MBP–胡萝卜素结合肽融合蛋白接触，样品7与MBP-CBD–胡萝卜素结合肽融合蛋白接触。

图12显示例示性载体(A-E)和因此的序列(F-I)(SEQ ID NO：55和143-150)。(F)载体具有以下元件：核苷酸1-303，SUMO；核苷酸313-333，TEV蛋白酶位点；核苷酸352-486，几丁质结合结构域；核苷酸523-546，PreScission蛋白酶位点；核苷酸562-786，5x镍结合肽和接头(通过下划线和双下划线来显示编码不同肽的核苷酸)；和核苷酸796-819，FLAG表位。(G)载体具有以下元件：核苷酸7-24，His标签；核苷酸25-324，SUMO；核苷酸334-354，TEV蛋白酶位点；核苷酸373-507，几丁质结合结构域；核苷酸544-567，PreScission蛋白酶位点；核苷酸577-654，2x胡萝卜素结合肽和接头(通过下划线显示编码每个胡萝卜素肽的核苷酸)；和核苷酸655-678，FLAG表位。(H)载体具有以下元件：核苷酸1-1164，麦芽糖结合蛋白和肠激酶位点；核苷酸1189-1252，2x胡萝卜素结合肽和接头(通过下划线显示编码每个胡萝卜素肽的核苷酸)；和核苷酸1261-1284，FLAG表位。(I)载体具有以下元件：核苷酸1-1164，麦芽糖结合蛋白和肠激酶位点；核苷酸1198-1332，几丁质结合结构域；核苷酸1369-1392，PreScission蛋白酶位点；核苷酸1408-1470，2x胡萝卜素结合肽和接头(通过下划线显示编码每个胡萝卜素肽的核苷酸)；和核苷酸1480-1503，FLAG表位。

详述

定义

当关于多肽时使用的术语“分离的”(如在“分离的蛋白”或“分离的多肽”中)，指经鉴定并与通常在其来源中与其缔合的至少一种污染物分离的多肽。因此，分离的多肽(1)不与自然存在的蛋白缔合，(2)不含同一来源的其它蛋白，(3)由来自不同物种的细胞表达，或(4)在自然界不存在。因此，分离的多肽以不同于自然界发现的形式或设置存在。相反，发现非-分离的多肽(例如蛋白质和酶)呈其天然存在的状态。术语“分离的多肽”、“分离的肽”或“分离的蛋白”包括由cDNA或重组RNA (包括合成来源的)或其一些组合编码的多肽、肽或蛋白。

术语“基因”指包含编码序列和任选为自DNA序列产生多肽所需的调控序列的DNA序列。

本文所用术语“野生型”指具有自天然存在来源分离出的基因或基因产物特征的基因或基因产物。野生型基因是在群体中最常观察到的基因，因此被随意地命名为基因的野生型形式。相反，术语“突变体”指当与野生型的基因或基因产物比较时，在序列和/或功能性质上展现更改(即改变的特征)的基因或基因产物。要注意的是可分离出天然存在的突变体；通过与野生型的基因或基因产物比较时其业已改变特征这一事实来鉴定它们。

术语“重组DNA分子”意即包含至少两个在自然界通常不会一起发现的核苷酸序列的杂合DNA序列。关于可将DNA片段插入或克隆至其中的核酸分子使用术语“载体”，可使用载体将DNA区段转入细胞并能够在细胞内复制。载体可来源于质粒、噬菌体、病毒、粘粒等等。

本文所用术语“重组载体”、“表达载体”或“构建体”，指含有所期望的编码序列和为在特定宿主生物中表达有效连接的编码序列所需的合适DNA或RNA序列的DNA或RNA序列。原核表达载体包括启动子、核糖体结合位点、用于在宿主细胞中自主复制的复制起点和可能的其它序列，例如任选的操纵子序列、任选的限制酶位点。将启动子定义为指导RNA聚合酶结合DNA并启动RNA合成的DNA序列。真核表达载体包括启动子、任选的聚腺苷酸化信号和任选的增强子序列。

具有“编码肽、蛋白质或多肽”的核苷酸序列的多核苷酸，意即包含肽、蛋白质或多肽的编码区的核酸序列。编码区可能以cDNA、基因组DNA或RNA形式存在。当以DNA形式存在时，寡核苷酸可为单链(即有义链)或双链。如果为允许恰当地启动转录和/或正确加工最初的RNA转录物所需，可将诸如增强子/启动子、剪接点、聚腺苷酸化信号等合适的控制元件放置在接近基因编码区。或者，在本发明表达载体中使用的编码区可含有内源性增强子/启动子、剪接点、间插序列、聚腺苷酸化信号等。在更多实施方案中，编码区可含有内源性和外源性两种控制元件的组合。

术语“转录调控元件”或“转录调控序列”，指控制核酸序列表达的一些方面的遗传元件或序列。例如，启动子是促进有效连接的编码区转录起始的调控元件。其它调控元件包括但不限于转录因子结合位点、剪接信号、聚腺苷酸化信号、终止信号和增强子元件，包括增加或降低连接序列转录的元件(例如在反式作用元件的存在下)。

启动子和增强子由与转录中参与的细胞内蛋白质特异性相互作用的DNA序列的短阵列组成。启动子和增强子元件已从包括酵母、昆虫和哺乳动物细胞基因在内的多种真核来源分离出。启动子和增强子元件也已自病毒分离出，类似的控制元件例如启动子亦在原核生物中发现。特定启动子和增强子的选择取决于用来表达目的蛋白的细胞类型。增强子/启动子可能是“内源的”、“外源的”或“异源的”。“内源的”增强子/启动子与基因组中特定基因天然相连。“外源的”或“异源的”增强子/启动子借助基因操控(即分子生物学技术)与基因并列放置，以便所述基因的转录受相连的增强子/启动子指导。

表达载体上存在的“剪接信号”通常导致在真核宿主细胞中较高水平表达重组转录物。剪接信号介导自初始RNA转录物中去除内含子，由剪接供体和受体位点组成。通常使用的剪接供体和受体位点是来自SV40的16S RNA的剪接点。

真核细胞中重组DNA序列的有效表达需要指导所得到的转录物有效终止和聚腺苷酸化的信号表达。转录终止信号通常发现在聚腺苷酸化信号下游，长为几百个核苷酸。本文所用术语“聚(A)位点”或“聚(A)序列”，表示指导新生RNA转录物终止和聚腺苷酸化的DNA序列。期需重组转录物的有效聚腺苷酸化，因为缺少聚(A)尾巴的转录物不稳定并快速降解。表达载体中使用的聚(A)信号可为“异源的”或“内源的”。内源的聚(A)信号在基因组中特定基因编码区的3'末端天然发现。异源的聚(A)信号从一个基因中分离出来并放到另一个基因的3'端。

术语“表达系统”指用于测定(例如检测)目的基因表达的任何测定或系统。分子生物学领域的技术人员应明白可使用多种多样的表达系统。

本文所用术语“重组蛋白”或“重组多肽”，指自重组DNA分子表达的蛋白质分子。相反，本文所用术语“天然蛋白”表明自天然存在(即非重组)来源分离的蛋白质。可将分子生物学技术用于产生与天然蛋白质形式比较具相同特征的重组蛋白质形式。

本文所用术语“细胞”、“细胞系”、“宿主细胞”可互换使用，所有这些名称包括它们的后代或可能的后代。“转化细胞”意即该细胞(或该细胞的祖先)中导入了本发明的核酸分子。任选可将本发明的核酸分子导入合适的细胞系，以创造能够产生由所述核酸分子编码的蛋白或多肽的稳定转染的细胞系。用于构建所述细胞系的载体、细胞和方法在本领域众所周知。措辞“转化体”或“转化细胞”包括来源于最初转化细胞的原代转化细胞，而不考虑传代次数。由于有意或无意突变，所有后代的DNA含量可能不会完全相同。但是，转化体定义中包括具有相同的功能的突变体后代，其如在初始转化细胞中所筛选。

本文所用术语“有效连接”指核酸序列的连接方式使得产生能够指导特定基因转录和/或期需的蛋白质分子合成的核酸分子。该术语同样指编码氨基酸的序列的连接方式使得产生有功能的(例如酶活性、能够结合结合配体、能够抑制等)蛋白或多肽或其前体，例如蛋白或多肽的前体-或前体原-形式。

肽“接头”可含2个或更多个氨基酸残基，例如多达50个氨基酸残基，或2-50之间的任何整数，接头序列可包括蛋白酶识别位点。肽接头基本上不改变相邻(连接的)结合肽的结合特性。

例示性实施方案

图6-9中显示的肽序列是多种多样的，它们一些结合胡萝卜素，一些结合染料木黄酮，一些结合金属。胡萝卜素结合肽可用于以下：除去食品工业生产液流中的胡萝卜素和结构相似的分子，著名的例证是棕榈油工业生产液流，其往往比其它植物油具有更高的胡萝卜素含量；以及纯化胡萝卜素。染料木黄酮是通常从大豆加工生产液流中分离的异黄酮，其作为天然营养品使用，例如用于治疗更年期症状。因此，染料木黄酮结合肽用于例如从大豆中分离染料木黄酮和结构相似的异黄酮。镍是所有农产品中存在的常见的金属，但在当将农产品例如玉米大量加工成食品时，其在工业环境所用的水流中以高于天然水平富集。本文公开的镍结合肽可用于除去所述水流中的镍(或其它金属)。通过使融合蛋白与含镍树脂结合，这些肽同样可用于纯化微生物中表达的融合蛋白。

尽管以上三种靶标的结构不同，肽的用途不同，但本文所述的每种肽都通过通用方法鉴定，可将其用于鉴定结合有工业意义的独特小分子的其它肽。本文所用“有工业意义的小分子”，意即非肽、非核酸分子或原子或离子，其通常具有1000Da或更低分子量，通过用于生产产品的工业生产液流产生，或可自其提取。

通用方法是选择目的靶标，例如有工业意义的小分子；获得肽展示文库，例如在M13噬菌体颗粒表面上展示随机肽序列的噬菌体展示文库；筛选或淘选所述文库来鉴定结合所述目的靶标的噬菌体颗粒群；扩增和分离结合的颗粒的克隆；然后测定编码肽文库的噬菌体DNA的序列以确定结合目的靶标的肽序列。任选可通过许多适用于靶标和感兴趣目的的性能标准来进一步表征肽。

不同的淘选方法适合于不同的靶标分子。在本发明实施例中，淘选的通用方法是将靶标分子固定在基质上；使固定的靶标与噬菌体文库接触；洗去未结合的噬菌体颗粒；用去污剂或其它蛋白变性剂洗脱结合的颗粒；通过感染宿主细菌来扩增颗粒以得到所选择的群体；和对所选择的群体重复一次或多次同样的淘选过程，如果期需选择更强的结合肽，任选在随后的淘选中使用更加严格的条件。在典型的实践例如鉴定金属结合肽的实践中，使用四轮淘选。最终自淘选群选择单独的噬斑或克隆，并测定噬菌体DNA的序列。

一旦完成DNA测序，可将肽结合结构域表达为融合蛋白，选择所述融合蛋白以具有适合计划用途或适合进一步表征靶标结合特性的一种或多种特性。在本发明案例中，使结合结构域与结合不同配体的多肽融合是有用的，如此可将靶标结合结构域固定在与结合融合多肽的配体相连的基质上。本领域中已知有多种配体-多肽结合对可用于制作所述融合蛋白而不改变配体结合特性。链霉亲和素因其紧密结合生物素而可能是最常使用的，然而，为了最佳结合链霉亲和素需要形成四聚体。在一个实施例中，因为其结合谷胱甘肽的能力及在胞质溶胶中的高溶解性，并考虑到其在细胞中的高表达，选择谷胱甘肽S-转移酶(GST)作为另外一种常见融合蛋白。在下文更详细阐述的另一实施例中，因其相对小的大小(45个残基)并易于将几丁质固定于基质，将来自于环状芽孢杆菌(Bacillus circulans)的几丁质酶A1的几丁质结合结构域(CBD)用于制备融合蛋白。本领域已知用来制作融合体例如GST或CBD融合体的试剂盒及融合体结合的柱。

噬菌体文库和淘选 　在爱荷华州立大学生物化学、生物物理、分子生物学系的Rao博士实验室中，构建了具约1 x10⁹种随机21-氨基酸肽文库的噬菌体文库。如厂商所述将镍固定在NTA-Sepharose (IMAC Sepharose，GE-Health Care)上。用1.0mL磷酸缓冲盐水(PBS)+2.0%牛血清白蛋白(BSA)在室温封闭置于1.5mL的聚丙烯微量离心管中的20 µL Ni-NTA-Sepharose达3小时，以减少非特异结合。然后使该基质与含21个氨基酸的线性噬菌体pIII肽文库在PBS(+ 0.2% BSA + 0.05% Tween 20)中于室温孵育3小时。阴性对照为不装填镍的NTA-琼脂糖。典型的噬菌体淘选包括3个步骤—结合、洗涤和扩增。在靶标与文库孵育后，通过用含有0-0.15% Tween 20的PBS洗涤来除去未结合的噬菌体，用100 mM HCl洗脱结合的噬菌体。洗脱出的噬菌体立即用1 M Tris/HCl pH 8.0中和。完全中和的噬菌体用来感染宿主大肠杆菌(E. coli)菌株XL1-Blue。扩增的噬菌体用于下一轮噬菌体淘选。噬菌体淘选重复4次后，挑选出多个克隆以产生噬菌体颗粒来通过ELISA的方法检测特异性结合物。

特别地，将噬菌体与固定的靶标孵育，通过抗-M13噬菌体抗体HRP缀合物来检测结合的噬菌体。然后测定相应的噬菌粒的序列来鉴定肽序列的性质。表1显示来自第4轮筛选的例示性序列。

表1

在第4轮后两种序列占多数(见上)，两种在展示序列中都有HxH基序。构建了两个13-残基第二噬菌体-肽文库，并再次实施淘选实验，所述噬菌体-肽文库在肽序列的不同部位含有“HxH”基序，例如朝向N-末端(其中两个组氨酸被一个氨基酸残基分开，有两个氨基酸位于N-末端组氨酸的侧翼，八个氨基酸位于另一组氨酸的侧翼)和在中间(其中两个组氨酸被一个氨基酸残基分开，五个氨基酸位于每个组氨酸残基的侧翼)。经第4轮筛选后，总共鉴定出60种强结合序列。挑选出其中的19种序列用于进一步的实验，图9展示其13个残基的序列。

在挑选出的序列中，只有一种C26 (SEQ ID NO：13)展现本领域熟知的6个残基的多组氨酸序列，以结合镍并通常用于制备纯化用his-标签蛋白。该结合基序具有约2.3 x 10^-11M的Kd。然而令人惊讶的是，发现许多其他组氨酸肽相较于6残基多组氨酸基序或其它含组氨酸镍结合基序例如(HQ)₆ (SEQ ID NO：2)，具有更强的结合(更低的Kd)。尽管它们的序列似乎不一致，但通常可将具有比多组氨酸序列更低的Kd的所有序列阐述为具有以下结构的核心，

H-X-H-(Z’)-H-(Z")-H (SEQ ID NO: 116)

其中H为组氨酸，X为选自以下的单个氨基酸：精氨酸、缬氨酸、苯丙氨酸、天冬酰胺、酪氨酸、赖氨酸、丙氨酸、甘氨酸、苏氨酸和异亮氨酸；Z’为一个或两个氨基酸，至少一个选自谷氨酰胺、精氨酸、缬氨酸、甲硫氨酸、亮氨酸、苯丙氨酸、丙氨酸、甘氨酸、异亮氨酸、苏氨酸、色氨酸、酪氨酸或组氨酸；Z"为一到四个氨基酸，至少一个选自精氨酸、缬氨酸、苯丙氨酸、丙氨酸、甘氨酸、异亮氨酸、苏氨酸、色氨酸或组氨酸。在一个实施方案中，X为精氨酸、缬氨酸、天冬酰胺、丙氨酸、甘氨酸或异亮氨酸。在一个实施方案中，X为精氨酸、缬氨酸、苯丙氨酸、丙氨酸、甘氨酸、苏氨酸或异亮氨酸。在一个实施方案中，Z’为选自以下的两个氨基酸：精氨酸、谷氨酰胺、甲硫氨酸、苯丙氨酸、甘氨酸、亮氨酸、色氨酸或组氨酸。在一个实施方案中，Z’为选自甘氨酸、苏氨酸或色氨酸的一个氨基酸。在一个实施方案中，Z’为一个或两个氨基酸，至少一个选自精氨酸、缬氨酸、苯丙氨酸、丙氨酸、甘氨酸、异亮氨酸、苏氨酸、色氨酸、酪氨酸或组氨酸。在一个实施方案中，Z"为选自丙氨酸、精氨酸、苏氨酸或亮氨酸的一个氨基酸。在一个实施方案中，Z"为二到四个氨基酸，至少一个选自天冬氨酸、丙氨酸、赖氨酸、亮氨酸、苏氨酸或组氨酸。在一个实施方案中，金属结合肽具有至少10个氨基酸残基，其可包括上述核心序列，例如SEQ ID NO: 116，其中Z’为一个氨基酸，Z"为四个氨基酸，或其中Z’为两个氨基酸，Z"为三个氨基酸。此外，不象本领域已知的镍结合含组氨酸肽，上述肽的核心序列含不多于5个组氨酸残基。而且，这些序列以至少约9.5 x 10^-11 M或更小的解离常数结合镍，例如约5 x 10^-12 M或更小，例如约5 x 10^-13 M或更小。

界定这些紧密结合序列的某些特定实施方案的其它相似性如下：不象(HQ)₆ (SEQ ID NO：6)序列，上面定义为“Z"”的序列部分不含谷氨酰胺。在一些实施方案中，在包括核心序列的至少12个氨基酸的较大肽序列里面，至少一个脯氨酸出现在核心序列外。实际上，当在所有金属结合序列中分析每个氨基酸的总体出现率(其如图10亲水性分析中所示)时，注意到在典型天然蛋白质序列中相对罕见的氨基酸脯氨酸，在图9中59%的序列中出现，在具有至少约9.5 x 10^-11 M或更小的解离常数的序列的70%中出现。

亦应注意的是，除去组氨酸外，这些具有至少约9.5 x 10^-11 M或更小的解离常数的金属结合序列往往具有很少的带电氨基酸。例如，在包括核心序列的至少12个氨基酸的较大肽序列里面，通常的情况是出现不多于2个氨基酸残基选自天冬氨酸(D)和谷氨酸(E)。同样，在包括核心序列的至少12个氨基酸的较大肽序列里面，在一些实施方案中，出现不多于2个氨基酸残基选自赖氨酸(K)和精氨酸(R)，但精氨酸本身在几乎所有序列中出现一次或两次。在包括核心序列的至少12个氨基酸的较大肽序列里面，通常情况还是含有选自天冬氨酸(D)、谷氨酸(E)、赖氨酸(K)和精氨酸(R)的氨基酸残基不多于4个。

相反，亦应注意金属结合肽含有芳香族氨基酸。因此，在一些实施方案中，在包括核心序列的至少12个氨基酸的较大肽序列里面，出现选自苯丙氨酸(F)、酪氨酸(Y)和色氨酸(W)的至少一个氨基酸。

常见于一些但不是所有实施方案的另一类型，可阐述为具有下式核心氨基酸序列的金属结合肽：

H-X-H-X-H-X-H (SEQ ID NO: 117)

其中H为组氨酸，每个X独立为选自以下的任何单个氨基酸：精氨酸、缬氨酸、苯丙氨酸、丙氨酸、甘氨酸、苏氨酸和异亮氨酸；其中肽结合金属的解离常数为至少约2.0 x 10^-12 M或更小。

Z-H-H-H (SEQ ID NO: 118)

其中H为组氨酸，Z为3-5个氨基酸的序列，至少1个选自精氨酸、苯丙氨酸、脯氨酸、丙氨酸、甘氨酸和组氨酸，前提为不多于5个组氨酸残基出现在包括核心序列的至少12个氨基酸的较大肽序列里；肽以至少约2.0 x 10^-12 M或更小的解离常数结合金属。

在一个实施方案中，本发明提供具有下式核心氨基酸序列的肽：H-X-H-(Z’)-H-(Z")-H (SEQ ID NO: 116)，其中H为组氨酸，X为选自以下的单个氨基酸：精氨酸、缬氨酸、苯丙氨酸、丙氨酸、甘氨酸、苏氨酸和异亮氨酸；Z’为一个或两个氨基酸，至少一个选自精氨酸、缬氨酸、苯丙氨酸、丙氨酸、甘氨酸、异亮氨酸、苏氨酸、色氨酸、酪氨酸或组氨酸；Z"为1-4个氨基酸，至少一个选自精氨酸、缬氨酸、苯丙氨酸、丙氨酸、甘氨酸、甲硫氨酸、亮氨酸、异亮氨酸、苏氨酸、色氨酸或组氨酸，其中不多于5个组氨酸残基出现在EQ ID NO：116的核心序列中。在一个实施方案中，肽以至少约9.0 x 10^-11 M或更小的解离常数结合金属。在一个实施方案中，Z"不包括谷氨酰胺。在一个实施方案中，本发明提供具有下式核心氨基酸序列的肽：H-X-H-X-H-X-H (SEQ ID NO: 117)，其中H为组氨酸，每个X独立为选自以下的任何单个氨基酸：精氨酸、缬氨酸、苯丙氨酸、丙氨酸、甘氨酸、苏氨酸和异亮氨酸。在一个实施方案中，肽以至少约2.0 x 10^-12 M或更小的解离常数结合金属。在一个实施方案中，本发明提供具有下式核心氨基酸序列的肽：Z-H-H-H (SEQ ID NO: 118)，其中H为组氨酸，Z为3-5 个氨基酸的序列，至少一个选自精氨酸、苯丙氨酸、脯氨酸、丙氨酸、甘氨酸和组氨酸，前提为不多于5个组氨酸残基出现在包括核心序列的至少12个氨基酸的较大肽序列里。

在一个实施方案中，融合多肽具有(SEQ ID NO: 116)_n、(SEQ ID NO: 117)_n或(SEQ ID NO: 118)_n或其组合，其中每个n独立为0-50，前提为SEQ ID NO: 116-118中至少一种存在于融合体中。在一个实施方案中，肽以至少约2.0 x 10^-12 M或更小的解离常数结合金属。在一个实施方案中，SEQ ID NO: 116-118的任何一个肽结合选自镍、锌和铜的金属，并以至少约1.0 x 10^-11或更小的解离常数结合至少一种所选择的金属。

本发明同样提供分离的胡萝卜素结合肽，其包含下式共有序列：X¹X²GWX³HyX⁴X⁵X⁶(SEQ ID NO: 120)，其中每一X为任何氨基酸，Hy为芳香族氨基酸。在一个实施方案中，X¹选自缬氨酸、色氨酸、亮氨酸、谷氨酰胺、丝氨酸、酪氨酸、苏氨酸、异亮氨酸、丙氨酸或苯丙氨酸。在一个实施方案中，X²为丙氨酸、甘氨酸、异亮氨酸或缬氨酸。在一个实施方案中，Hy为色氨酸。在一个实施方案中，X⁴为色氨酸。在一个实施方案中，Hy和X⁴分别为色氨酸。在一个实施方案中，X²为丙氨酸，Hy为色氨酸。在一个实施方案中，X²为丙氨酸，X⁴为色氨酸。在一个实施方案中，X²为丙氨酸，Hy 和 X⁴各为色氨酸。X¹可为选自以下的单个氨基酸：丙氨酸、缬氨酸、亮氨酸、谷氨酰胺、色氨酸、酪氨酸、丝氨酸、脯氨酸、苏氨酸或异亮氨酸。X³可为选自色氨酸、甲硫氨酸、甘氨酸、脯氨酸、亮氨酸或丝氨酸的单个氨基酸。X⁴可为色氨酸、苯丙氨酸、甲硫氨酸、甘氨酸、苏氨酸或组氨酸。X⁵可为甘氨酸、色氨酸、丝氨酸、苯丙氨酸、亮氨酸、谷氨酰胺或丙氨酸。X⁶可为苏氨酸、甘氨酸、色氨酸、丙氨酸、甲硫氨酸、天冬酰胺或缬氨酸。

进一步提供分离的胡萝卜素结合肽，其包含四肽序列

X¹WX²Hy (SEQ ID NO: 121)，

其中X¹选自甘氨酸、脯氨酸和亮氨酸，X²为任何氨基酸，Hy为芳香族氨基酸。

进一步提供结合染料木黄酮的肽结构域，其包含序列：

L-X-L或L-X-X-X-L (SEQ ID NO：122)

其中L为亮氨酸，X为任何氨基酸。在一个实施方案中，对于L-X-L，X为甘氨酸、亮氨酸或丝氨酸。在一个实施方案中，对于L-X-X-X-L (SEQ ID NO：122)，每个X独立为亮氨酸、组氨酸、甘氨酸、苯丙氨酸、丝氨酸、赖氨酸、天冬氨酸、谷氨酸或丙氨酸。在一个实施方案中，染料木黄酮结合具有以下的结构域：

SLGLWHSQRHFDVHREHSRHQT (SEQ ID NO: 123)。

进一步提供嵌合多肽，其具有SEQ ID NO：9、11、16-48、50-71或73-110或其变体中的至少一个，所述变体含1-3个氨基酸取代或高达10%的残基取代，变体具有 SEQ ID NO：9、 11、16-48、50-71或73-110的结合特性。

同样提供重组核酸，其编码在单个多肽内至少6个氨基酸长的N个相同的肽结构域的串联体重复，其中N为至少5，由相同核酸序列编码不多于2个相同肽。在一个实施方案中，在编码相同结合结构域的任何两个序列之间没有9个连续核苷酸的序列是相同的。在一个实施方案中，在编码彼此位于远端的相同肽结构域的两条序列之间，比编码通过比较彼此定位更接近的同一个相同肽结构域的任何两个序列，同一性更差。

同样提供使用肽展示系统来鉴定结合具有小于1000Da分子量的非肽非核酸靶标分子的肽的方法。所述方法包括获得具有小于1000Da分子量的非肽非核酸靶标分子；获得展示非抗体分子的肽结合结构域的分子文库；从文库中挑选具有结合靶标分子的肽结构域的分子亚组；和鉴定所挑选的分子亚组的肽序列。

镍结合肽的计算分析 　由于相对高数量的疏水或中性残基和相对低数量的亲水残基，用瑞士生物信息学研究所(Swiss Institute of Bioinformatics)的ExPASy蛋白组学服务器(http://ca.expasy.org/tools/protparam.html)关于其氨基酸组成和疏水性来分析肽，结果如图10所示。要注意的是除组氨酸之外，还有氨基酸精氨酸(94%)、甘氨酸(82%)、丙氨酸(65%)和脯氨酸(59%)存在于＞50%的肽中。亦应注意的是，在包括核心的至少13个氨基酸的较大肽序列里，不会出现半胱氨酸和通常谷氨酰胺残基，天冬酰胺、谷氨酸、赖氨酸和甲硫氨酸也很少出现。优选碱性氨基酸为几乎专一精氨酸。通过GRAVY值测量，在疏水性和结合亲和力之间似乎没有任何关系。最疏水的肽为A12 (GRAVY =-0.215)，最不疏水性的肽为B17(GRAVY =-2.215)。肽或蛋白质的GRAVY值以所有氨基酸亲水性值的总和除以序列中残基数量来计算。然而，该结果被扭曲了，因为组氨酸为亲水性氨基酸，在每个以1.3 x 10^-8 M或更低的Kd结合的至少13个氨基酸的序列中至少出现4次。如果从亲水性计算中消除组氨酸，则其余的氨基酸通常应赋予比包括组氨酸在内的整个序列显示的GRAVY值更强的疏水性。

重组蛋白表达和表达载体 　如上所述，用来自Amersham的pGEX载体在大肠杆菌中将一些肽表达为GST-融合蛋白，并在谷胱甘肽琼脂糖基质上通过亲和层析纯化。将这些融合蛋白用于进一步表征与C26相比的肽B16和A15的金属结合特性，认为C26是合适的比较对照，因为已知多组氨酸6聚体具有强镍结合特性。

将用于表达GST融合蛋白的pGEX载体pGEX 4T-1 (GE Healthcare)进行改良以引入Sfi I限制位点(图1)。将新载体命名为pGEX-BS，其允许自通过噬菌体肽文库筛选得到的克隆来克隆Sfi-Not1切割片段。相关基本载体序列和特异性融合体序列如下所示：

。

将Ni-结合肽基序克隆到pGEX-BS载体中(斜体核苷酸序列)

pGEX-A8 (Ni- 结合基序 – IGGWSHHHLGRTA; SEQ ID NO ： 96)

。

pGEX-A10 (Ni- 结合基序 -HYHYMHRHSGSSP; SEQ ID NO ： 103 )

。

pGEX-A12 (Ni- 结合基序 -IGHLMHGHRSSVT; SEQ ID NO ： 106 )

。

pGEX-A15 (Ni- 结合基序 -YTRTPHVHWHAHG; SEQ ID NO ： 9 )

。

pGEX-A18 (Ni- 结合基序 -PHPFRHHHGLRAP; SEQ ID NO ： 98 )

。

pGEX-B4 (Ni- 结合基序 -HAAGHHHHGWWRP; SEQ ID NO ： 99 )

。

pGEX-B6 (Ni- 结合基序 -LAYRWHHHHWGPA; SEQ ID NO ： 107 )

。

pGEX-B16 (Ni- 结合基序 -WGGWRHVHGHRHP; SEQ ID NO ： 11 )

。

pGEX-B17 (Ni- 结合基序 -HGHWRHTHTGDRG; SEQ ID NO ： 102 )

。

pGEX-C10 (Ni- 结合基序 -EWHRHHRHPEVLA; SEQ ID NO ： 97 )

。

pGEX-C11 (Ni- 结合基序 -WGGGKHHHHRGPG; SEQ ID NO ： 100 )

。

pGEX-C22 (Ni- 结合基序 -HNHGLHLHGGERG; SEQ ID NO ： 105 )

。

pGEX-C26 (Ni- 结合基序 – YSHHHHHHLAGTA 用于 6xHis 对照 ; SEQ ID NO ： 13 )

。

pGEX-C28 (Ni- 结合基序 -IRHIHGHDKLTHA; SEQ ID NO ： 101 )

。

pGEX-C29 (Ni- 结合基序 -IPHRHQFHHTAHA; SEQ ID NO ： 95 )

。

pGEX-C31 (Ni- 结合基序 -PHHVHTHGARGGG; SEQ ID NO ： 104 )

。

pGEX-C46 (Ni- 结合基序 -LAIVRHSHSLGIG; SEQ ID NO ： 108 )

。

用于融合 / 加标签蛋白表达 / 纯化的通用方案

材料

LB培养基(10 g胰蛋白胨, 5 g酵母提取物, 10 g NaCl, 1 L蒸馏水)。

1x HBS缓冲液pH 7.4 (10 mM HEPES, 150 mM NaCl, 0.001% Triton X-100)。

1000x卡那霉素(Km)储液(在1 mL纯H₂O中20 mg Km)。

1000x氨苄青霉素(Amp)储液(在1 mL纯H₂O中50 mg Amp)。

宿主大肠杆菌感受态细胞– Rosetta2 (DE3)pLysS (Novagen)，BL21(DE3)pLysS (Stratagene)，2-4 L带挡板的烧瓶或几个小尺寸的带挡板的烧瓶，10-20 mL一次性空心柱。几丁质珠粒(NEB)，1或5 mL Ni-NTA超流速FPLC柱(Qiagen)，谷胱甘肽琼脂糖4B (GE health care)，直链淀粉树脂(NEB)。

大肠杆菌宿主细胞：

用于过表达GST融合蛋白的BL21(DE3)pLysS细胞。

用于过表达SUMO、麦芽糖结合蛋白(MBP)和几丁质结合结构域(CBD)融合蛋白的Rosetta2(DE3)pLysS细胞

通过化学转化来完成转化。

过表达和纯化方案

1.将单个的转化克隆转移到含3mL LB-Km (终浓度为 20 µg/mL)或LB-Amp (终浓度为 50 µg/mL)的约15mL培养管中。在37℃振荡孵育过夜(8-12小时)。

2. 将1mL 过夜培养物转移至1L LB-Km (在2-4 L带挡板的烧瓶中)，然后在37℃剧烈振荡孵育至OD₆₀₀=约 0.4。

3. 将温度改变至20或25℃，然后剧烈振荡孵育30分钟。

4.以0.5 mM终浓度加入IPTG ，然后继续剧烈振荡孵育过夜(10-约15小时)。

5. 离心细胞培养物(3000-5000 x g, 15分钟，4℃)用于收获。

6. 用40-50mL冷1x HBS pH 7.4缓冲液重悬沉淀(在该步骤后保持在冰上)。

7. 用超声波细胞破碎仪裂解细胞(输出功率约25W，开10秒，关50秒，保持在冰(+水)浴，重复10-20次，共100-200秒，避免起泡。

8. 离心破碎的细胞(12000-20000 x g , 20分钟，2℃)。

然后将上清液转移至新管。

(A) 用 Ni-NTA 柱纯化 ( 用于 6x His 标签蛋白 , 6xHis-SUMO 等 )

9. 用5 CV 1xHBS平衡Ni-NTA FPLC柱。

10.将上清液(来自步骤8)装载到柱上。

11. 用含45 mM咪唑的10 CV 1xHBS(pH 7.4)从树脂中洗去非特异性蛋白(pH 7.4)(CV=柱体积)。

12. 用10CV的含30-300 mM咪唑梯度的HBS洗脱蛋白。

13. 运行SDS PAGE用于分级分离。

(B) 用 GSH 柱纯化 ( 用于 GST 融合的 Ni 结合蛋白 )

9.用5CV 1xHBS(pH7.4)平衡1或5 mL GST琼脂糖4B柱。

10.将上清液(来自步骤8)装载到柱上。

11. 用15 CV 1xHBS从树脂中洗去非特异性蛋白。

12. 用含20 mM还原性谷胱甘肽的1-2CV HBS(pH 7.4-8.0)洗脱蛋白。

13. 运行SDS PAGE。

(C) 用直链淀粉树脂纯化 ( 用于 MBP 融合的 β- 胡萝卜素结合蛋白 )

9. 用5x柱体积的1xHBS (pH7.4)平衡1或5mL直链淀粉树脂。

10. 将上清液(来自步骤8)装载到柱上。

11. 用15 CV 1xHBS从树脂中洗去非特异性蛋白。

12. 用含20mM麦芽糖的1-2 CV HBS (pH 7.4)洗脱蛋白。

13. 运行SDS PAGE。

(D) 用几丁质珠粒纯化 ( 用于 SUMO-CBD-Ni 和 2x B- 胡萝卜素结合基序等 )

9. 在约15mL柱中装载约3mL几丁质珠粒(NEB)，然后用9mL 1xHBS平衡树脂。

10. 将上清液(来自步骤8)装载到柱上(在4℃)。

11.用18mL (3次x 6 mL)冷1xHBS缓冲液从树脂中洗去未结合的蛋白。

12. 取20µL树脂并与20 µL SDS样品缓冲液混合，然后在100℃加热5分钟。

13. 运行SDS PAGE。

Precision蛋白酶可在几丁质结合结构域和靶标蛋白之间消化蛋白持。

将pE-SUMO大肠杆菌过表达载体(Life Sensors, Inc)用于过表达。小分子泛素类修饰物( S mall U biquitin-like Mo difier) (SUMO)是约100个氨基酸的蛋白质，业已证明其作为重组表达蛋白的融合配偶体使用时增强蛋白的溶解性(Marblestone等, Protein Science (2006) 15 ： 182-189)。该载体在SUMO (Smt3, 酵母)的N-末端具有用于蛋白纯化的6xHis标签。通过Integrated DNA Technologies, Inc. (Coralville, Iowa)合成优化用于大肠杆菌表达的合成基因，所述合成基因编码来自几丁质酶A1(环状芽孢杆菌(Bacillus circulans))的几丁质结合结构域(CBD)、蛋白酶切割位点、两个拷贝的β-胡萝卜素-结合肽(QAGWGWWWG; SEQ ID NO：55)和FLAG标签。将合成的DNA克隆到pE-SUMO载体的BsaI限制酶位点，转化到大肠杆菌Rosetta2 (DE3) pLysS细胞(Novagen, Inc.)中。然后在用0.5 mM 异丙基l β-D-1-硫代吡喃型半乳糖苷(IPTG)诱导后，在30℃使细胞在LB培养基中剧烈震荡孵育3小时。随后用含0.05% Triton X-100的1x磷酸缓冲盐水(PBS)重悬细胞，通过超声波细胞破碎仪使细胞匀浆。通过离心分离(14000 x g, 20分钟)含约50%过表达蛋白的可溶部分，然后通过经过几丁质珠粒(New England Bio Labs, Inc.)来纯化。纯化的可溶SUMO-CBD-β-胡萝卜素结合蛋白产量为约10mg/mL，其如Bio-Rad蛋白测定(BIO-RAD Laboratories，Inc.)所测量(见附加的PPT文件)。

通过表面等离振子共振 (SPR) 测量的结合强度　用Sensor Chip NTA在BIACOR3000系统中实施亲和力实验。每种肽的解离和缔合速率常数及相应的Kd值示于图9中。

与其它金属离子的结合 　通过两种方法测量与离子的结合，所述离子例如Zn、Cu、Mg、Ca、Mg和K。第一种方法使用SDS-PAGE来检测蛋白质首先接触金属离子后粘附到镍树脂的结合能力。使约50µL在含100 mM特定金属离子的PBS中的每种GST-融合肽(10 µg/µL)与20 µl的Ni-NTA树脂在4℃孵育2小时。使样品离心，洗涤以除去未结合的蛋白。将SDS-样品缓冲液加到树脂中，煮沸，通过SDS-PAGE分析。图1显示代表性凝胶。用全部19种肽得到相似结果。在含Ni缓冲液中孵育的肽显示结合Ni-NTA弱得多(正如期望的那样)。因为其它金属离子不和镍一样好地结合肽，所以它们优选结合Ni-NTA琼脂糖，用SDS样品缓冲液洗脱。

通过FPLC亦分析金属结合偏好。用含Ni、Cu或Zn的缓冲液装载1mL NTA-琼脂糖柱，与约1mg纯化的GST-融合肽(A15、B16和C26)孵育。通过用缓冲液洗涤除去未结合的蛋白，并用0-300 mM咪唑的线性梯度洗脱结合的蛋白。图2、3 和4显示FPLC曲线。在所有情况下，都观察到最强结合为Ni (以150-170 mM咪唑洗脱)，接着是Cu (以75-110 mM咪唑洗脱)和Zn (以30-60 mM咪唑洗脱)。

融合几丁质 - 结合结构域 (CBD) 的串联体 　如上所述，本文提供教导的一方面是制备多个组氨酸结合结构域的重复肽的串联构建体。所述设计的一个实例是如图5所示序列。图5的串联融合蛋白具有融合CBD的肽A15和B16 (5个拷贝)的改变的结合结构域，以促进金属离子大规模纯化。该构建体具有以下元件：几丁质结合结构域(CBD)-接头(GGSGG; SEQ ID NO：112)-Precision蛋白酶(Pharmacia)切割位点-A15-接头(GGS)-B16-接头(GGS)-A15-接头(GGS)-B16-接头(GGS)-A15-FLAG标签-终止。FLAG标签是结合可市购抗体的八聚体，用于实施诸如ELISA及可包括抗体结合作为组分的类似技术。

结合当量 　制备交替变换金属结合肽的重复肽的串联构建体，以增加每分子融合蛋白的相对结合当量，条件是增加浓度的结合位点通过利用高亲和力(皮摩尔解离常数)和亲合力(多次重复的结合肽)允许更紧密的相互作用。

本文公开的核心金属结合结构域包含在13个残基的肽内，平均分子量为约1600 Da。镍的分子量为60，所以结合每克镍需要约27克肽。如果一组5种这样的肽串联成无插入接头的融合蛋白，形成具10结合当量的多肽，则该蛋白质将具有8,000 Da的分子量。在优化批次发酵条件下，工程改造以分泌融合蛋白的常用细菌例如大肠杆菌，每升可分泌大约10-15克蛋白，这意味着只需要大约3.6-5.4升发酵培养基就可生产出足够的蛋白来结合1克镍，或216-320升的发酵物产生1摩尔当量的结合结构域，这大大优于完成同样工作需要的602,000升的噬菌体。

一种不同方法是细胞内过量生产融合蛋白。本文所述金属结合肽是非天然的，可能疏水，因此细胞内过量生产蛋白可能导致包涵体产生。本领域已知用于在包涵体中表达外源蛋白的特异性改造的细菌表达宿主，其能够产生多达50%细胞质量的产量。在理想的发酵条件下，每升可获得多达100克的细胞质量，这等于足够结合2克镍的50克蛋白质，因此每摩尔结合当量仅需约30升细胞培养物。

稳定遗传串联体 　构建编码结构域的肽串联重复所易发生的问题之一，是核酸水平上重复编码序列的遗传不稳定性。在首次尝试通过DNA合成构建图5的串联融合肽时就观察到该情况，相同核酸序列的t重复单位的出现不利于合成操作。此外，业已观察到核酸序列在复制期间有与具有相似一级结构的同源基因序列交换和重组的趋势。尽管此种现象可用于在所期需序列将所期需的整合事件靶向生物染色体上特定位置中，但同样的现象对于意欲通过融合多个重复编码序列在单个多肽链中创造串联体肽就是问题。所述遗传重复将造成交换的较高频率，引起较高频率缺失或编码序列的其它重排，产生出乎意料的不稳定重组体。

本发明教导的一方面是克服重复编码序列的基因不稳定性问题的基因设计方法。所述方法开发了由密码子摇摆造成的遗传密码冗余来设计遗传序列，所述序列在编码相同的重复肽结构域的同时，使全长多肽编码序列中重复的核酸序列最少。除去色氨酸外，摇摆效应通常为每个氨基酸提供2-4个不同密码子。因此，所述方法包括为串联多肽设计重复肽编码序列，以减少或者甚至数学上最小化该核酸中直接重复的编码序列数量，其通过在编码序列的不同位置为相同氨基酸选择不同密码子来实现。例如，对于镍结合八肽HVHWHAHG (SEQ ID NO：142)来说，色氨酸是由一个密码子编码的唯一氨基酸，而组氨酸可以由2个密码子编码，缬氨酸、丙氨酸和甘氨酸各可由4个不同密码子编码。因此，对于整个8个氨基酸编码序列来说，有2x4x2x1x4x4或256种不同的编码序列，因此，对于编码10个重复八肽的串联体的核酸来说，有256¹⁰种可能的编码序列。

本文提供的方法需要通过考虑以下中的每一个在大量的潜在编码序列中选择：(i)编码序列之间的差异；(ii)序列将在其中表达的生物体的密码子偏好；和(iii)编码重复之间的距离。设计的原则是序列之间的差异应该最大化，同时非优选密码子的使用应该最小化，但不必完全排除。此外，因为彼此远离的核酸部分之间比彼此邻近的核酸部分之间发生重组交换事件的频率更高，因此最好的实施是设计编码序列，以使更加彼此远离的重复比彼此更靠近的重复相似性更小。应该优选根本不使用非偏好密码子，但是在一些情况下可使用，但编码的氨基酸至多出现两次。当由于其它密码子选择必须提供串联体中任何两个编码结构域之间的9或更多个核苷酸准确重复时，通常才应该使用非偏好密码子。图12F阐明了按照这些原则制备的由不同核酸序列编码的含相同金属结合结构域的串联体的融合蛋白实例。

通过使用生物信息学软件可促进自动操作或至少在过程中有帮助，所述软件计算序列同一性，最小化序列同一性，和/或基于密码子偏爱选择密码子。具有这些功能的一种可公开获得的软件为Gene Designer™，其由Villalobos等人在BMC Bioinformatics，2006, 7：285中阐述，可从因特网在http：//www.DNA20.com获得或下载。将该软件及描述其的文章通过引用以所需要的程度并入到本文中，所述需要的程度使得本领域技术人员可按照本文提供的原则设计编码重复肽串联体的核酸。

结合 β - 胡萝卜素的肽序列　除了将100%氯仿中的30 µL β-胡萝卜素溶液(10 µg/µL)薄薄地包被在聚丙烯微量离心管内部以确保充分避光保护外，基本上如前所述进行淘选实验。用压缩空气干燥后，用1.5mL封闭缓冲液(含3%BSA的PBS)孵育4小时。移去封闭缓冲液，用含有0.3%BSA和0.05-0.1% Tween-20的PBS中的1mL噬菌体肽文库(约1.0 x 10¹³pfu)孵育3小时。接下来用含0.15% Tween-20的PBS洗涤8次。如上所述洗脱特异性结合的噬菌体。经过四轮筛选后，测定多个克隆的序列，鉴定第一个共有四肽基序[G/P/L-W-x-W/Y/F] (SEQ ID NO：49)(图6)。然后以>10⁶的多样性构建第二个9-氨基酸的文库x-x-G-W-x-Hy-x-x-x (SEQ ID NO: 72) (其中x为任何氨基酸，Hy编码非缬氨酸和异亮氨酸的半胱氨酸、苯丙氨酸、色氨酸、酪氨酸和亮氨酸)。该文库保留上述从第一次文库筛选中鉴定的核心四肽基序。用第二文库进行重复淘选实验，测定多个克隆序列，产生另一共有序列[x-A-G-W-x-W-W-G/W-x] (SEQ ID NO：119) (参见图7)。

基于这些结果，除上述基序外，还可用几种方式阐述胡萝卜素结合肽基序的不同实施方案。一个实施方案可阐述为包含下式共有序列的肽：

X¹X²GWX³HyX⁴X⁵X⁶(SEQ ID NO: 120)

其中X为任何氨基酸，Hy为芳香族氨基酸。在几个实施方案中，X²为丙氨酸。在一些实施方案中，Hy为色氨酸。在一些实施方案中，X⁴为色氨酸。在一些实施方案中，Hy 和X⁴各自为色氨酸。在几个实施方案中，X²为丙氨酸，Hy为色氨酸。在其它实施方案中，X²为丙氨酸，X⁴为色氨酸，在很多实施方案中，X²为丙氨酸，Hy和 X⁴各自为色氨酸。

又一种类是包含下式四肽序列的胡萝卜素结合肽：

X¹WX²Hy (SEQ ID NO: 121)

其中X¹选自甘氨酸、脯氨酸(prolamine)和亮氨酸，X²为任何氨基酸，Hy为芳香族氨基酸。在很多实施方案中，X¹为甘氨酸。

如图11A中所阐明，构建了编码融合蛋白的两个重组DNA构建体，所述融合蛋白含有胡萝卜素结合肽QAGWGWWWG(SEQ ID NO：55) 的重复串联体，其单独与麦芽糖-结合蛋白(MBP)融合，或与几丁质结合结构域(CBD)融合进而与MBP融合。将这些构建体克隆到含有用于在大肠杆菌中过表达的启动子的表达载体中。也制备了对照构建体，一个对照构建体只表达MBP，第二个对照只含有与非特异性蛋白CRK1融合的MBP，两者皆缺少β-胡萝卜素结合结构域。可通过结合并从含固定化麦芽糖的柱中洗脱来纯化MBP蛋白和含MBP的融合蛋白。在大肠杆菌中表达融合蛋白，纯化并用于分析胡萝卜素结合。

在用含BSA的溶液中的β-胡萝卜素包被或不含胡萝卜素仅用BSA封闭的1.5mL微量离心管中进行ELISA测定。在与β-胡萝卜素的反应中，将100%氯仿中的30µL β-胡萝卜素(10 µg/µL)溶液薄薄地包被在聚丙烯微量离心管内部，以确保足够避光保护。用压缩空气干燥后，用1.5 mL封闭缓冲液(含3% BSA的PBS)孵育4小时。除去封闭缓冲液，再与1mL 25 µg/mL上述提到的含β-胡萝卜素结合结构域串联体的融合蛋白之一或含MBP的对照(均用0.1% BSA作为载体)孵育3小时。随后用PBST洗涤管10次，与1 mL的抗-MBP抗体孵育，在室温孵育60分钟。然后用PBST洗涤5次，用与碱性磷酸酶缀合的山羊抗-兔Ig-G抗体室温孵育60分钟。用PBST洗涤5次，用碱性磷酸酶的适合的比色底物显色。然后将溶液转移到96孔板，用于在405nm下吸光度测量。除了只加3%BSA溶液封闭管外，如上所述进行不含β-胡萝卜素的反应。

如图11B所示，当重组融合蛋白在缺乏β-胡萝卜素的管中孵育时观察不到颜色，这表示微量离心管表面无非特异性结合(样品1和2)。当管只与MBP (样品3)或融合CRK1的MBP (样品4)孵育时也观察不到颜色，这表示MBP本身或在框架内与非特异性蛋白序列融合的MBP会与管结合。然而，当每个荷有β-胡萝卜素结合结构域的构建体只与MBP融合(样品5和6)或与融合CBD的MBP融合(样品7)时，均观察到颜色，这表示这些结合结构域当作为较大融合蛋白中的结构域存在时保留特异性结合β-胡萝卜素的能力。用与β-胡萝卜素结合结构域VAGWWWWGA (SEQ ID NO：53)融合的MBP-CBD构建体，获得具相似结果的相似的实验。

利用胡萝卜素结合肽从棕榈油中除去β-胡萝卜素的一个实施方案，可利用融合蛋白的两亲性特性，所述融合蛋白具有安置在蛋白质一端的亲水末端(例如图11中的CBD或MBD)和远远地朝着另一端安置的一个或多个疏水胡萝卜素结合肽。使含有β-胡萝卜素的棕榈油与适当量的极性溶剂(例如极性有机溶剂、水和/或其混合物)混合，在融合蛋白存在下搅拌形成乳液。乳液可由胶团或反胶团组成，取决于使用的极性溶剂的量和类型，β-胡萝卜素结合到安置于胶团一侧的胡萝卜素结合结构域，亲水末端安置于另一侧。在常规胶团情况下，β-胡萝卜素：胡萝卜素结合结构域在胶团内部，亲水末端安置在胶团外表面。在反胶团情况下，亲水末端安置在内部，而β-胡萝卜素：胡萝卜素结合结构域安置于外表面。所述胶团呈相对于棕榈油中存在的甘油三酯和脂肪酸有较高分子量的聚集物结构形式，可通过在合适分子量的截止(cutoff)膜上过滤自棕榈油中分离。在大豆油加工中一直采用所述系统自甘油三酯分离呈胶团形式的卵磷脂，参见例如美国专利号6,140,519，其通过引用并入本文。将保留在膜上的含β-胡萝卜素的胶团溶解在合适溶剂中，以自胶团提取β-胡萝卜素，通过从提取物中蒸发掉溶剂来回收β-胡萝卜素。

在备选实施方案中，可将含结合肽的融合蛋白固定在硅胶上，其与脂肪酶的固定方式相似，这留下了在甘油三酯介质中可用于发生酯交换的活性位点。在本发明情况下，可通过融合蛋白的CBD或MBD末端交联来固定融合蛋白的末端，藉此在表面上展示胡萝卜素结合肽。经过具固定化肽的凝胶的棕榈油结合β-胡萝卜素，可相对于棕榈油的甘油三酯液相在固相支持体上浓缩。可通过用合适的去污剂或溶剂洗脱来回收结合凝胶的β-胡萝卜素，洗涤固体胶，并再生用于再次使用。

染料木黄酮 结合肽　染料木黄酮(IUPAC名称为5，7-二羟基-3-(4羟苯基)色烯-4-酮)是称作异黄酮的分子类别的成员。其在大豆和许多其他植物中被发现，在动物细胞中发挥各种药理学作用。其为植物雌激素，例如，与动物和人的雌激素受体相互作用，产生类似于由天然雌激素引起的生物学作用。异黄酮例如染料木黄酮作为保护剂参与激素-相关疾病(绝经)、心血管病和乳腺癌。染料木黄酮功能的生化基础一直是许多研究的主题。染料木黄酮的更众所周知的功能中有抑制酪氨酸激酶和哺乳动物己糖转运蛋白GLUT1的能力。虽然作为酪氨酸激酶抑制剂的功能众所周知，但从最近文献来看，显然还存在其它蛋白靶标，例如K-通道蛋白(Choi等, 2006, Korean Journal Physiol Pharmacol, 10 ： 71-77)、心脏钙通道蛋白(Belevych等, 2002, Molecular Pharmacology, 62 ： 554-565)和醛-酮还原酶(Ishikura等, 2005, Biol. Pharm. Bull. 28 ： 1075-1078)。在最近研究中，Lavigne等用寡核苷酸微阵列系统来观察染料木黄酮在MCF-7乳腺癌细胞系中对整体基因表达的作用，鉴定出许多不同的差异调节蛋白(Breast Cancer Res Treat, 2008, 110 ： 85-98)。

噬菌体淘选 　在该情况中，用来自上述金属结合和胡萝卜素结合实施方案中所用一种分离的22个氨基酸的噬菌体肽文库来实施淘选。在微量滴定板孔中包被染料木黄酮(乙醇中10 µg/mL)，除第四轮在pH 4.0、3.0和1.0时序贯洗脱释放特异性结合噬菌体外，如所述实施淘选，推断出结合肽的序列，如图8所示。

序列基序L-x-L或L-x-x-x-L似乎存在于在pH4.0和3.0时洗脱的肽中。在pH 4.0下洗脱出的大部分克隆具有含序列SLGLWHSQRHFDVHREHSRHQT (SEQ ID NO: 123)的结合肽。用BLASTP程序相对非-冗余蛋白数据库搜索该序列，鉴定出许多含部分此序列的蛋白。这些蛋白大多数属于谷氨酰基-tRNA合成酶和醛-酮还原酶类别。后一发现尤其有意义，因为这类酶业已牵连在染料木黄酮的分子功能中。重要的是，本文使用随机噬菌体展示文库的方法鉴定出相同类别的分子，此外，暗示谷氨酰基-tRNA合成酶也许是到目前为止尚未发现的具有药理学重要性的靶标分子。

通用效用 　本文公开的特定靶标(例如镍、β-胡萝卜素、染料木黄酮)的肽结合结构域可用于多种应用。

一种通用效用是作为测定过程的组成部分。例如，可将镍结合肽用于检测和/或监测废水流出液流中镍的存在情况。在例示性的实施方案中，可将携带一个或多个Ni结合结构域的融合蛋白固定在含几丁质的基质上，所述融合蛋白通过图5中所阐明的融合CBD的A15和A16来例证。使含用信号转导部分(例如荧光标签或放射性Ni)加标签的Ni掺杂剂的纯水对照样品，与含有固定化Ni结合结构域的基质孵育，测量洗涤后保留的信号量。用含相同数量加标签的Ni与已知浓度的无标签的Ni的纯水做同样实验，保留的信号量用于构建标准曲线。然后以完全相同的方式使用含未知量Ni的水样品，将洗涤后保留的信号量与标准曲线对比，以确定废水样品中Ni的量。在另一实施例中，可在ELISA形式的同样类型的竞争性测定中利用图5所示携带FLAG标签(与抗体结合)的融合蛋白，其中信号转导部分可为连接辣根过氧化物酶的抗体，通过将所检测的过氧化物酶活性的量与用已知量Ni所作的标准曲线比较，来确定Ni的量。这种类型的通用效用可适于结合任何靶标类型的任何肽结合结构域。

正如表面等离振子共振所显示，用固定有镍结合结构域的Biocor 3000 Sensor ChipTM检测Ni (用于计算Ni结合的解离常数)，可例如通过极为灵敏的电子设备检测小于1600Da的靶标分子与固定在基质上的肽的结合。假定这些肽以10^-9 M或更小的解离常数结合靶标分子，这尤其真实。这提供部署肽结合结构域作为生物传感器用于监测和检测污染物或危险物质(例如爆炸物或毒药)存在情况的通用方法。在一个实施方案中，表面等离振子共振检测仪作为直接检测方法使用。其它直接检测方法可利用用于检测荧光或光谱特性的电子设备，其中靶标分子具有独特的光谱特征(例如在β-胡萝卜素情况下)或固有的荧光特性(例如异硫氰酸酯情况下)。亦可采用竞争结合作为直接方法，其用已知浓度的放射性或荧光标记的靶标与存在于样品中未知浓度的靶标分子竞争结合。亦可采用用荧光或光谱检测仪检测的间接方法。例如，在夹心型检测测定中，可使用结合靶标分子并亦与荧光部分或放射性标签缀合的抗体，来检测和定量靶标分子的存在情况。使固定化基质与含靶标分子的样品接触后，洗涤除去未结合的材料，然后用标记的抗体与基质接触，抗体同时也结合靶标分子。在洗掉未结合的抗体后，检测与抗体上的标记相关的信号，例如荧光信号，这允许定量测定靶标分子经由肽结合结构域与基质结合的量。

Ni结合肽的另一例示性效用是作为废水处理试剂。在大肠杆菌中过表达例如图5中所阐明的融合蛋白，并通过结合合适基质来纯化，所述融合蛋白含总共10个Ni结合结构域，所述结合结构域与接头区域和/或基质结合结构域(例如CBD)串联排列。分离的融合蛋白经由几丁质与基质结合，或经由接头与基质化学交联，所述基质例如柱中的聚苯乙烯树脂。废水液流以足够用Ni饱和柱的时间通过柱。用合适的去污剂或变性剂(例如咪唑)洗脱Ni，用水使柱再生，装回继续使用。

用相似的方法，可将例如图11所阐明的含串联排列β-胡萝卜素结合结构域的融合蛋白用于从棕榈油工业生产液流中分离和回收β-胡萝卜素。制备含有固定于基质的融合体的柱，使来自加工设备的棕榈油流经过柱。在某些实施方案中，为了最佳结合，棕榈油液流需要与一部分水混合以形成乳液或胶团悬浮液，因为棕榈油为疏水溶质，在一些水存在下β-胡萝卜素结合得可能最好。在任何情况下，结合柱的任何β-胡萝卜素都可通过变性或用疏水溶剂(例如己烷)洗脱，柱可再生再利用。因为除去引起非所需颜色的β-胡萝卜素，耗尽(depleted)的棕榈油具有更高的价值，同时回收的β-胡萝卜素可用在高价值产品中，例如营养食品或抗氧化剂补充剂。

以相似的方式，可将本文公开的染料木黄酮结合肽用于从大豆工业生产液流中分离染料木黄酮。染料木黄酮是存在于大豆提取物中的异黄酮之一，用来治疗更年期症状。分离和回收纯化的染料木黄酮可产生作为营养食品的高价值的纯化异黄酮。

用本文提供的指导制备的肽结合结构域及其串联构建体的另一通用效用，是用于从合成制造液流中分离对映体化合物。在药物情况下，药物(或仅仅是药物的核心)的L形式的生物活性通常高于D形式。用L形式的药物或制造药物核心中所用的前体作为淘选噬菌体文库的靶标，可产生优先结合药物L形式或前体的蛋白结合结构域。可将具有固定在基质上的所述结合结构域的柱用于自通常产生对映体混合物的合成工业加工液流中纯化药物的L形式。

基于高通量膜的噬菌体淘选　通过淘选噬菌体文库得到本文所述结合结构域，所述淘选为：序贯使整个文库与含有目的靶标分子的基质结合，洗去未结合的噬菌体颗粒以得到结合噬菌体的文库的亚组，洗脱结合的噬菌体，重复该过程3或4次，然后分离代表相同展示肽的克隆的单独的噬菌斑。

高通量淘选的备选方法是直接从整个文库中筛选单独噬菌斑，其通过以下过程来实现：将整个文库从琼脂板转移到膜上；使转移到膜上的噬斑与靶标分子接触，所述靶标分子例如由于放射性同位素标记而自身发出信号，或所述靶标分子与信号转导部分连接；洗涤膜以除去非特异性结合；和检测发出合适信号的噬斑。在非常小的无机靶标或元素例如金属情况下，最直接的方法可以是使用金属的放射性同位素，其信号可易于通过曝光X-射线胶片或能够检测放射性发射的CCD成像装置检测。可在市场上自供货商例如PerkinElmer(Waltham, MA)买到很多元素的放射性同位素和很多用放射性同位素合成的有机分子，PerkinElmer还提供定制合成服务。

对于空间位阻成为影响结合的因素的可能性较低的较大的靶标分子，一种备选的信号转导部分类型可以是系在靶标分子上的荧光标记。典型的荧光标记包括异硫氰酸酯例如FITC和TRTC，两者分别为荧光素和罗丹明的氰酸酯衍生物。其它的包括荧光素的琥珀酰亚胺酯和巯基活化型马来酰亚胺。这些标记可与可在目的靶标分子上得到的多种官能团化学上直接连接或通过间隔臂连接，其可从提供用于将标记化学交联到不同官能团上的试剂盒的多个供货商获得。

所有出版物、专利和专利申请皆通过引用并入本文。尽管在前面的说明书中，业已关于本发明某些优选实施方案阐述了本发明，并为阐明目的展示了很多细节，但本领域技术人员应该明了，本发明容许另外的实施方案，本文的某些细节可发生相当大的变化，而不会偏离本发明的基本原理。

Claims

1.一种分离的多肽或分离的肽，其包含具有下式核心序列的金属结合肽：

H-X-H-(Z')-H-(Z")-H (SEQ ID NO: 116)

其中

H为组氨酸；

X为选自以下的单个氨基酸：天冬酰胺、酪氨酸、赖氨酸、精氨酸、缬氨酸、苯丙氨酸、丙氨酸、甘氨酸、苏氨酸和异亮氨酸；

Z'为1或2个氨基酸，其中至少一个选自亮氨酸、甲硫氨酸、谷氨酰胺、精氨酸、缬氨酸、苯丙氨酸、丙氨酸、甘氨酸、异亮氨酸、苏氨酸、色氨酸、酪氨酸或组氨酸；

Z"为1-4个氨基酸，其中至少一个选自精氨酸、缬氨酸、苯丙氨酸、丙氨酸、甘氨酸、异亮氨酸、苏氨酸、色氨酸或组氨酸；

前提为不多于5个组氨酸残基出现在SEQ ID NO: 116中；

其中所述肽以至少9.0 x 10^-11 M或更小的解离常数结合金属。

2.权利要求1的分离的多肽或肽，其中Z"不含有谷氨酰胺。

3.权利要求1或2的分离的多肽或肽，其中至少一个脯氨酸、酪氨酸或色氨酸在所述核心序列的1-5个残基里面。

4.权利要求1-3中任一项的分离的多肽或肽，其中在所述核心序列的1-5个残基里面存在不多于两者的以下残基：天冬氨酸、谷氨酸、天冬氨酸和谷氨酸二者、赖氨酸、精氨酸或者赖氨酸和精氨酸二者。

5.一种分离的多肽或分离的肽，其包含具有下式核心序列的金属结合肽：

H-X-H-X-H-X-H (SEQ ID NO: 117)

其中H为组氨酸，每个X独立为选自以下的任何单个氨基酸：精氨酸、缬氨酸、苯丙氨酸、丙氨酸、甘氨酸、苏氨酸和异亮氨酸；和

所述肽以至少2.0 x 10^-12 M或更小的解离常数结合金属。

6.一种分离的多肽或分离的肽，其包含具有下式核心序列的金属结合肽：

Z-H-H-H (SEQ ID NO: 118)

其中H为组氨酸，Z为3-5个氨基酸的序列，至少1个选自精氨酸、苯丙氨酸、脯氨酸、丙氨酸、甘氨酸和组氨酸，前提为不多于5个组氨酸残基出现在包括所述核心序列的20个氨基酸的较大肽序列中；和

所述肽以至少2.0 x 10^-12 M或更小的解离常数结合金属。

7.权利要求1到6中任一项的分离的多肽或肽，其中所述肽结合选自镍、锌和铜的金属，并以1.0 x 10^-11或更小的解离常数结合至少一种所选金属。

8.权利要求1-7中任一项的分离的多肽或肽，其中包括所述核心序列的12个氨基酸的序列具有-0.215 到-2.215之间的亲水性测量值。

9.一种分离的多肽或分离的肽，其包含含有下式序列的类胡萝卜素结合肽：

X¹X²GWX³HyX⁴X⁵X⁶(SEQ ID NO: 120)

其中Hy为芳香族氨基酸；X¹为丙氨酸、缬氨酸、亮氨酸、谷氨酰胺、色氨酸、酪氨酸、丝氨酸、脯氨酸、苏氨酸或异亮氨酸；X²为丙氨酸、甘氨酸、异亮氨酸或缬氨酸；X³为色氨酸、甲硫氨酸、甘氨酸、脯氨酸、亮氨酸或丝氨酸；X⁴为色氨酸、苯丙氨酸、甲硫氨酸、甘氨酸、苏氨酸或组氨酸；X⁵为甘氨酸、色氨酸、丝氨酸、苯丙氨酸、亮氨酸、谷氨酰胺或丙氨酸；X⁶为苏氨酸、甘氨酸、色氨酸、丙氨酸、甲硫氨酸、天冬酰胺或缬氨酸。

10.权利要求9的分离的多肽或肽，其中X²为丙氨酸。

11.权利要求9或10的分离的多肽或肽，其中Hy为色氨酸。

12.权利要求9-11中任一项的分离的多肽或肽，其中X⁴为色氨酸。

13.一种分离的多肽或肽，其包含含有下述序列的类胡萝卜素结合肽：

X¹WX²Hy (SEQ ID NO: 121)

其中Hy为芳香族氨基酸；X²为任何氨基酸；X¹为选自甘氨酸、脯氨酸或亮氨酸的单个氨基酸。

14.权利要求13的分离的多肽或肽，其中X¹为甘氨酸。

15.一种分离的肽或多肽，其包含含有下式的结合染料木黄酮的肽结构域：

L-X-L或L-X-X-X-L (SEQ ID NO：122)

其中L为亮氨酸，每个X独立为甘氨酸、组氨酸、苯丙氨酸、丝氨酸、赖氨酸、天冬氨酸、谷氨酸或丙氨酸。

16.权利要求15的分离的肽或多肽，其包含染料木黄酮结合结构域

SLGLWHSQRHFDVHREHSRHQT (SEQ ID NO: 123)。

17.一种融合蛋白，其包含与超过12个氨基酸的多肽序列融合的权利要求1-16中任一项的金属结合肽、类胡萝卜素结合肽或染料木黄酮结合肽。

18.权利要求17的融合蛋白，其中所述多肽序列进一步含有配体结合结构域，所述配体结合结构域结合不是金属、类胡萝卜素或染料木黄酮的配体。

19.权利要求18的融合蛋白，其中所述配体结合结构域结合谷胱甘肽。

20.权利要求17的融合蛋白，其中所述多肽序列为丝蛋白。

21.权利要求17的融合蛋白，其中所述融合蛋白在第一溶剂混合物中可溶，但在第二溶剂混合物中不可溶，所述第一溶剂混合物包含用于金属结合结构域的金属。

22.一种表达盒，其包含编码至少6个氨基酸长的N个相同肽结构域的串联重复的核酸序列，其中N为至少5，不多于两个相同肽被同一核酸序列编码。

23.权利要求22的盒，其中在编码相同结合结构域的任何两个序列之间没有9个连续核苷酸的序列是相同的。

24.权利要求22的盒，其中通过比较，与编码相同结构域的彼此相距较近的任何两个序列相比，编码同一个相同肽结构域的彼此相距较远的两个序列之间的同一性较低。

25.一种具有权利要求17-21中任一项的融合蛋白的支持体。

26.一种检测样品中小于1600 Da的靶标分子的存在情况的方法，所述方法包括：

在基质上固定具有13个或更少氨基酸的结合结构域的肽，所述肽以至少10^-9 M或更小的解离常数结合所述靶标分子；

使所述固定化肽与所述样品接触；

洗涤所述基质以除去未结合的材料；和

检测所述靶标分子是否与所述肽结合。

27.权利要求26的方法，其中通过表面等离振子共振检测仪检测所述结合。

28.权利要求26的方法，其中用荧光检测仪检测所述结合。

29.权利要求26的方法，其中用放射性同位素检测仪检测所述结合。

30.权利要求26的方法，其中用分光光度计检测所述结合。

31.权利要求26-30中任一项的方法，其中所述结合结构域在较大融合蛋白中包含至少一个结构域。

32.权利要求30的方法，其中所述融合蛋白由多个结合结构域组成。

33.权利要求26-32中任一项的方法，其中所述靶标分子选自金属、类胡萝卜素和异黄酮。

34.一种包含固定化肽的传感装置，所述固定化肽具有13个或更少氨基酸的结合结构域，其以至少10^-9 M或更小的解离常数结合所选择的靶标分子。

35.权利要求34的装置，其中所述靶标分子选自金属、类胡萝卜素和异黄酮。

36.权利要求35的装置，其中所述肽：1)具有下式核心序列

H-X-H-(Z')-H-(Z")-H (SEQ ID NO: 116)

其中

H为组氨酸；

Z'为1或2个氨基酸，其中至少1个选自亮氨酸、甲硫氨酸、谷氨酰胺、精氨酸、缬氨酸、苯丙氨酸、丙氨酸、甘氨酸、异亮氨酸、苏氨酸、色氨酸、酪氨酸或组氨酸；

ii)具有下式核心序列

Z-H-H-H(SEQ ID NO: 118)

其中H为组氨酸，Z为3-5个氨基酸的序列，至少1个选自精氨酸、苯丙氨酸、脯氨酸、丙氨酸、甘氨酸和组氨酸，前提为不多于5个组氨酸残基出现在包括所述核心序列的20个氨基酸的较大肽序列里；

iii)具有下式序列

X¹X²GWX³HyX⁴X⁵X⁶(SEQ ID NO: 120)

其中Hy为芳香族氨基酸；X¹为丙氨酸、缬氨酸、亮氨酸、谷氨酰胺、色氨酸、酪氨酸、丝氨酸、脯氨酸、苏氨酸或异亮氨酸；X²为丙氨酸、甘氨酸、异亮氨酸或缬氨酸；X³为色氨酸、甲硫氨酸、甘氨酸、脯氨酸、亮氨酸或丝氨酸；X⁴为色氨酸、苯丙氨酸、甲硫氨酸、甘氨酸、苏氨酸或组氨酸；X⁵为甘氨酸、色氨酸、丝氨酸、苯丙氨酸、亮氨酸、谷氨酰胺或丙氨酸；X⁶为苏氨酸、甘氨酸、色氨酸、丙氨酸、甲硫氨酸、天冬酰胺或缬氨酸；或者

iv)具有含下式的序列

L-X-L或L-X-X-X-L(SEQ ID NO：122)

37.一种分离对映体的方法，所述方法包括：

提供怀疑具有化合物的外消旋混合物的样品；

提供具有固定在其上的肽的基质，所述肽具有13个或更少氨基酸的结合结构域，其优先以至少10^-9 M或更小的解离常数结合所述化合物的对映体之一；

使所述样品与所述基质接触；和

洗涤所述基质以除去包括对映体之一的未结合材料。

38.权利要求37的方法，所述方法进一步包括从所述基质洗脱所述结合的对映体。

39.一种从样品中分离靶标分子的方法，所述方法包括：

获得在生物颗粒表面上展示的包含多个肽结构域的肽文库；

通过使所述肽文库与所述靶标分子接触来筛选所述肽文库以鉴定结合所述靶标分子的肽，选择展示结合所述靶标分子的结合肽的生物颗粒，并确定编码所述结合肽的核酸序列；

获得编码融合蛋白的重组核酸序列，所述融合蛋白具有含至少一个结合肽的靶标结合结构域和分离结构域，所述分离结构域包含可用于分离所述融合蛋白的氨基酸残基，所述分离融合蛋白通过与配体结合、与基质交联及从溶液中絮凝中的至少一种来实现；

分离所述融合蛋白；

使所述融合蛋白与含有所述靶标分子的样品接触，以便使所述靶标分子与所述靶标结构域结合；和

用分离结构域分离与所述靶标分子结合的融合蛋白，藉此分离所述靶标分子。

40.权利要求39的方法，其中所述分离结构域结合选自CBD、MBD和GST的配体。

41.权利要求39或40的方法，其中通过固定在包含所述配体的基质上来分离所述融合蛋白。

42.权利要求39-41中任一项的方法，其中所述分离结构域具有可与所述基质交联的氨基酸残基，所述分离融合蛋白包括使所述分离结构域与所述基质交联，然后使所述融合蛋白与含有所述靶标分子的样品接触。

43.权利要求39-42中任一项的方法，其中所述分离结构域包含絮凝结构域，分离所述融合蛋白包括在与含有所述靶标分子的样品接触后使所述融合蛋白絮凝，和分离所述絮凝的融合蛋白。

44.权利要求39-43中任一项的方法，其中所述融合蛋白由多个结合结构域组成。

45.权利要求39-44中任一项的方法，其中所述靶标分子选自金属、类胡萝卜素和异黄酮。

46.一种从样品中分离靶标分子的方法，所述方法包括：

提供具有靶标结合结构域和分离结构域的融合蛋白，所述靶标结合结构域包含至少一个靶标分子结合肽，所述分离结构域包含可用于分离所述融合蛋白的氨基酸残基，所述分离融合蛋白通过与配体结合、与基质交联及从溶液中絮凝中的至少一种来实现；

使所述融合蛋白与怀疑含有所述靶标分子的样品接触，以便使所述靶标分子与所述靶标结构域结合；和

用所述分离结构域分离与所述靶标分子结合的融合蛋白，藉此分离所述靶标分子。