CN101115848A

CN101115848A - 转录组微阵列技术及应用该技术的方法

Info

Publication number: CN101115848A
Application number: CNA2005800457745A
Authority: CN
Inventors: 保尔·哈金; 帕特里克·约翰斯顿; 卡尔·马利根; 奥斯汀·塔内
Original assignee: Almac Diagnostics Ltd
Current assignee: Almac Diagnostics Ltd
Priority date: 2004-11-03
Filing date: 2005-11-03
Publication date: 2008-01-30

Abstract

本文提供了包含患病组织转录组的阵列及应用该阵列诊断、预后、筛选、和鉴定疾病的方法。使用患病组织的转录组阵列分析某种疾病状态的组织样品的基因图谱用于诊断疾病。然后将基因图谱与特定治疗剂的有效性相关联。治疗药剂效果与表达谱的关联提供了进一步筛选和选择被预测对这些治疗药剂反应的患者，这样最小化与无效治疗的不必要接触。

Description

转录组微阵列技术及应用该技术的方法

优先权和相关申请的交叉参考

本申请要求的优先权有2004年11月3日申请的申请号为04105479.2，04105482.6，04105483.4，04105484.2，04105507.0，04105485.9的欧洲专利申请，和2005年3月14日申请的美国临时专利申请60/662,276，和2005年7月18日申请的美国临时专利申请60/700,293。

技术领域

本申请涉及基因和RNA表达阵列技术的领域，尤其是涉及含有在患病组织中表达的转录物的序列及它们在诊断和治疗方案中的用途。

同时提交的CD-R上文件的索引

在此提交的共有3个相同CD-R磁盘(标记为“Copy 1”、“Copy 2”和“Copy 3”)，每个含有以下电子文本文档。CD-R磁盘创建于2005年11月1日，每个文件的大小注释如下所列。CD-R磁盘上的所有电子文件在此通过引用方式全文并入本文。

基因列表A.txt	(30.7Mb)	基因列表S.txt	(6.1Mb)
基因列表A.txt	(30.7Mb)	基因列表S.txt	(6.1Mb)	基因列表B.txt	(1.9Mb)	基因列表T.txt	(29.6Mb)
基因列表C.txt	(2Mb)	基因列表U.txt	(1.7Mb)	基因列表B.txt	(1.9Mb)	基因列表T.txt	(29.6Mb)
基因列表C.txt	(2Mb)	基因列表U.txt	(1.7Mb)	基因列表D.txt	(1.1Mb)	基因列表V.txt	(13.3Mb)
基因列表E.txt	(58.6Mb)	基因列表W.txt	(18.9Mb)	基因列表D.txt	(1.1Mb)	基因列表V.txt	(13.3Mb)
基因列表E.txt	(58.6Mb)	基因列表W.txt	(18.9Mb)	基因列表F_txt	(3.5Mb)	基因列表X.txt	(10kb)
基因列表G.txt	(30.7Mb)	基因列表Y.txt	(28kb)	基因列表F_txt	(3.5Mb)	基因列表X.txt	(10kb)
基因列表G.txt	(30.7Mb)	基因列表Y.txt	(28kb)	基因列表H.txt	(4.1Mb)}	基因列表Z.txt	(5.7Mb)
基因列表I.txt	(30Mb)	基因列表AA.txt	(14.6Mb)	基因列表H.txt	(4.1Mb)}	基因列表Z.txt	(5.7Mb)
基因列表I.txt	(30Mb)	基因列表AA.txt	(14.6Mb)	基因列表J.txt	(18kb)}	基因列表BB.txt	(5.1Mb)

基因列表K.txt	(20kb)	基因列表CC.txt	(34Mb)
基因列表K.txt	(20kb)	基因列表CC.txt	(34Mb)	基因列表L.txt	(9.7Mb)}	基因列表DD.txt	(26.6Mb)
基因列表M.txt	(5.1Mb)	基因列表EE.txt	(4kb)	基因列表L.txt	(9.7Mb)}	基因列表DD.txt	(26.6Mb)
基因列表M.txt	(5.1Mb)	基因列表EE.txt	(4kb)	基因列表N.txt	(238kb)	基因列表FF.txt	(324kb)
基因列表O.txt	(35.8Mb)	基因列表GG.txt	(8.6Mb)	基因列表N.txt	(238kb)	基因列表FF.txt	(324kb)
基因列表O.txt	(35.8Mb)	基因列表GG.txt	(8.6Mb)	基因列表P.txt	(11.8Mb)	基因列表HH.txt	(18.8Mb)
基因列表Q.txt	(3.9Mb)	基因列表II.txt	(9.6Mb)	基因列表P.txt	(11.8Mb)	基因列表HH.txt	(18.8Mb)
基因列表Q.txt	(3.9Mb)	基因列表II.txt	(9.6Mb)	基因列表R.txt	(10.1Mb)	基因列表JJ.txt	(46.1Mb)

另外，在此提交的3个相同CD-R磁盘(标记了“Copy 1-Sequence ListingPart”、“Copy 2-Sequence Listing Part”和“Copy 3-Sequence Listing Part”的电子介质)中，每个含有本文描述的所有序列的序列表。根据关于含有大的核苷酸和/或氨基酸序列表和/或其相关表格的国际申请的PCTInstruction的801部分，序列表仅以802部分提到的计算机可读形式的介质提交。CD-R磁盘上的计算机可读形式的电子介质在本文以引用方式全文并入。

背景技术

制药行业不断追求这样的新药治疗方案选择，即这些选择比目前使用的药物更有效、更具有特异性或具有更少的副作用。药物治疗的替代方案不断地发展，因为人类的遗传变异导致了许多药物有效性的实质差异。因此，虽然目前可用的药物治疗选择品种繁多，但在患者不能应答的情况下经常需要更多的治疗方法。

传统上，医师所用的治疗范例已经规定了一线药物治疗，该治疗可能对于治疗疾病产生最高的成功率。如果首次药物治疗没有效果，则采用替代性药物治疗的处方。很清楚，这种范例对于某些疾病不是最好的治疗方法。例如，在人癌症的疾病中，首次治疗经常是最重要并且提供了成功治疗的最好机会，这样更加有必要选择将对于特定患者的疾病最有效的最初药物。

识别出最佳的一线药物是不可能的，因为没有可用的方法来预测哪个药物治疗将是对于特殊的癌症生理学是最有效的。这样，患者经常不必要地经受无效的、毒性药物的治疗。例如，结肠直肠癌，没有一个方法去确定哪个患者将对外科手术后的辅助性化疗起反应。手术治疗后40％复发危险的患者中的三分之一受益于化疗。这意味实施辅助性化疗致使许多患者接受了不必要的治疗。癌症治疗和结肠直肠癌临床试验仍然基于新的活性化合物的可用性而进行探索，而不是基于利用肿瘤的遗传组成和患者的基因型的药物基因组学的集成方法。

微阵列和分子基因组学的出现具有对于疾病的诊断能力和预后分类产生重要的影响的潜能，其帮助预测个体患者对某一确定的治疗方案的反应。微阵列用于大量遗传信息的分析，藉此提供个体的遗传指纹。广泛认为该技术最终将为定制药物治疗方案提供必需的工具。然而，汇集用来充分表征和预测个体对特殊药物治疗的反应的正确信息的能力是一个问题，并且，应用药物基因组学(applied pharmacogenomics)的高期盼已经令人有些失望(Nebert et at.2003.AmJ Pharmacogenomics；3(6)：361-70)。

目前微阵列的主要问题是他们通常基于来源于部分测序工程的一般性信息内容，其中测序工程产生跨越不同组织类型的表达序列标签(EST)信息。可选择的，该信息可以产生于利用算法预测基因存在的基因组测序工程。该方法的一个重要问题是微阵列生产一定要不断地更新信息内容以使得更多的序列信息可用。这样，对于比已经建立的更多的信息内容，该方法导致了多个阵列版本，每一个均比其前一个具有更多的信息。这样在患者管理中对该技术的常规应用制造了重大屏障，因为研究者面对多个具有不同内容的不同阵列平台使得数据验证非常困难。甚至在特定制备的序列平台中，在早期和晚期阵列版本之间很难交叉验证信息，这样使得长期研究设计非常困难。

目前可用微阵列的另一个问题是不同形式的疾病可能对于不同治疗剂的治疗呈现不同的反应。阵列的有用性受限于特定患病组织中这些阵列是如何表示的。因此常规的全基因组阵列没有益处，因为与疾病状态不相关联的基因提供的外源信号造成了高容量试验噪音，从而使得患病转录组的分析复杂。

传统的一般性阵列提供的多基因类型间的信息有限。然而，它们没有包含在给定的单独状况(discrete setting)下表达的特定转录物的详细信息内容。一般性微阵列工业的一般方法是随着更多的信息可以被使用，增加信息的密度和容量。这引起了基于药物基因组学的研究中应用该项技术的混乱。该主要的问题涉及到在比较一般性阵列的不同构造中的困难。那就是，很难将来源于20k序列阵列的数据与来源于40k序列阵列的数据关联起来。这些混乱是由对照的注释和不同的问题而导致。

发明概述

本发明提供了包含与来自患病组织的转录组相应的生物分子的阵列和在分析中使用这些阵列的方法。本文描述了包含与来自患病组织的转录组相应的核酸分子的阵列和在分析中使用这些阵列的方法。患病组织转录组是核酸转录物的集合，包括编码和非编码核酸序列，其在特定患病组织中表达。本文还描述了包含与来自患病组织的转录组相应的其它生物分子的阵列。这些生物分子包含蛋白质、多肽和抗体。阵列为研究患病组织的全表达谱和鉴定与疾病状态相关的新转录物提供了强有力的工具。

本文描述的微阵列通过采用独特方法解决了以前所用阵列遇到的难题，该方法是在给定的疾病组中定义全转录组信息内容并将该信息内容置于阵列上。全信息内容来源于疾病进展不同阶段的多个患病组织样品，其包含种群和疾病异质性。该方法保证了给定疾病组(given disease setting)中的所有相关信息对于问诊是可用的，因此其极大地增加了开发强信号的潜能，这些信号是给定疾病组中对疗法反应的诊断、预后或预测。另外，该方法导致了具有不需要多次更新的全信息内容阵列的产生，因而有助于其自身的长期稳定研究设计。而且，因为该方法呈现了完全和稳定的平台，所以在给定疾病组促进了多个患者群间的交叉验证研究。

在给定的疾病组中疾病特异性转录组阵列包含全信息内容，并因此为基于药物基因组学研究设计呈现了稳定、长期解决方案。

在本文提供的方法的一个方面，转录组阵列通过鉴定患者患病组织样品的遗传特征用于诊断疾病。通过来自患病组织样品、或怀疑生病的组织样品的转录物与转录组阵列的反应来鉴定遗传特征。然后检测转录物与阵列上的互补序列杂交或结合。优选地，转录组阵列是固定在计算机芯片上的阵列，并且使用计算机技术检测样品的核酸分子与阵列的杂交。然后将患病组织样品的遗传特征与该特征对特异性治疗剂的有效性和反应性的数据相关联。产生的表达谱与治疗剂有效性的关联度提供了进一步筛选和选择预测对特定治疗剂有反应的患者，由此使不必要的患者遭受不成功的治疗的情况最小化。

本发明的方法的另一个方面包含本文方法中(如阵列分析)描述的转录组的应用，用于检测其它方法检测不到的生物体的早期疾病和病症。这些生物体包含人、动物、植物或细菌。

本文描述的阵列和应用该阵列的方法提供并利用转录组来检测、监视和鉴定许多疾病和病症。所有的疾病一般可分成肿瘤性疾病、炎症疾病和退行性疾病。这些分类包含，而非限制性的疾病如，癌症、关节炎、哮喘、神经退行性疾病、心血管疾病、高血压、精神障碍、传染病、代谢性疾病或免疫疾病。

在一个实施方案中，转录组阵列提供确信是目前鉴定的最完全的结肠直肠转录组的汇编。已经集中了源于结肠直肠组织的大约69,000个转录物用于生成结肠直肠的、基于转录组的高密度寡核苷酸阵列。这些转录物中的大约40,000个描述于美国临时专利申请号60/662,276中。来自于结肠直肠组织的另外的约23,000转录物和约5,000个反义转录物描述于本文以补充美国临时专利申请编号60/662,276中所述的结肠直肠转录组序列。

本文提供的用于阵列的转录组确信是至今鉴定的最完全的肺、胸部、结肠/直肠、肝、和脑组织的转录组版本。本发明集中了转录物用于生成肺、胸、结肠/直肠、肝、和脑的患病组织的、基于转录组的高密度寡核苷酸阵列。

这样，本文描述的阵列对重要改变提供了大量信息，这些重要改变可能成为疾病进展或治疗耐受的基础。

药物基因组学具有如下潜能，即极大地降低在美国因为不良药物反应导致的估计100,000死亡和两百万次住院治疗(Lazarou et al.JAMA.Apr 15，1998.279(15)：1200-5.)。不使用标准试误法来匹配患者和药物，本文描述的阵列和分析能够使医师分析患者样品的遗传特征并从起始诊断阶段对该患者给予最适用的药物治疗。本文描述的阵列不仅提供了提高首次处方中最有效药物的准确性的方法，而且提高了安全性，因为不良药物反应的可能性降低。

因此，本发明的一个目的是提供包含来自患病组织的基因、多核苷酸、核苷酸和片段的核酸阵列，用于筛选目标样品中疾病相关基因的表达。

本发明的另一个目的是提供鉴定在患病组织中表达的新的核酸转录物的方法。

本发明的另一个目的是提供筛选组织中指示疾病或病症存在的遗传变异的方法，该疾病或病症用其它方法检测不到。

本发明的另一个目的是提供基于对患病组织中转录组分析进行诊断疾病的方法。

本发明的另一个目的是提供RNA表达变化的完全分析的方法，所述RNA表达变化影响了特定疾病中所有鉴定了的基因或转录物。

本发明的另一个目的是提供表征患病组织中个体的特异性基因/RNA的表达谱的方法，并使RNA表达与适当且有效的药物治疗方案相关联。

本发明的另一个目的是提供区别疾病的不同形式的方法，并使表达谱与成功治疗剂治疗方案相关联。

本发明的另一个目的是提供关联表达谱与适当的治疗剂治疗方案的方法。

本发明的另一个目的是提供预测癌症治疗后复发的方法。

本发明的这些和其它的目的、特征和益处在下面公开的实施方案和附加的权利要求的详细描述后将更加清楚。

附图简述

图1：提供了转录组微阵列的图，其显示了治疗剂敏感的肿瘤和治疗剂耐受的肿瘤的表达谱。

图2：提供了所有公众可用的结肠、前列腺和胸组织数据的BLAST比较简图。

发明详述

本文提供了转录组阵列和使用它们的方法。描述了包含来自于患病组织转录物的核酸分子的转录组阵列，其中核酸分子以阵列形式排列。阵列上的核酸分子与来自患病组织样品的互补核酸转录组序列杂交。本文定义疾病特异性转录组为在特异性患病组织中转录的编码和非编码转录物的集合。本文描述的其它阵列包含其它生物分子，如表示来自患病组织转录组中的转录物的多肽或抗体。

这样，本文提供的阵列包含核酸阵列、多肽阵列，或抗体阵列。在本文中，除非上下文另有要求，否则，当在特定的实施方案中述及核酸阵列时，应当理解，相应的蛋白阵列和抗体阵列也应当被考虑进去。在这些实施方案中，核酸被转录物编码的多肽或特异于该多肽的抗体所替代。

本文描述的组合物和方法可以参考下面详细的特定实施方案的描述更容易地理解。虽然组合物和方法是通过参考其某些实施方案的特定细节来描述，但是不能理解为把这些细节看作是对本发明范围的限制。

本领域技术人员可以理解基因形式的细胞DNA转录为RNA；编码RNA翻译为蛋白质；RNA可选地反转录为cDNA。优选地，本文描述的转录组阵列包含患病组织的所有的或基本上所有的RNA转录物。

疾病特异性转录组包含已知和未知功能的转录物，并任选地包含由编码RNA转录物翻译的蛋白质作为转录组内基因转录的延伸和反映。疾病特异性转录组可以随着疾病发展或对如化疗或放疗的外界刺激或影响而变化。

如本文所用，术语“转录物”意为源于以DNA或cDNA为模版的转录过程的RNA分子。转录物也可以用RNA转录物翻译的蛋白质或RNA转录物反转录形成的cDNA分子表示。

如本文所用，术语“基因产物”意为源于以DNA或cDNA为模版的转录过程的RNA分子和由该RNA分子翻译的多肽分子。

如本文所用，术语“转录组”意为特异性组织中转录的编码或非编码RNA转录物的集合，和优选包含组织中产生的所有的和基本上所有的RNA转录物。这些转录物包含信使RNA(mRNA)，可选择的剪接mRNA，核糖体RNA(rRNA)，转运RNA(tRNA)，还有大量的其它转录物，它们不能翻译成蛋白质，如核内小RNA(snRNA)，反义分子如小干扰RNA(siRNA)和微RNA，或是其它功能未知的RNA转录物。转录组还包含转录组内的RNA转录物翻译的蛋白质，其是转录组内基因转录的延伸和反映。

如本文所用，术语“患病组织”意为来自特定的器官或组织类型的组织，该组织具有与组织关联的特殊疾病类别(如结肠直肠癌、乳癌、神经退行性疾病等)。患病组织还指来自患病组织的单一细胞类型，如上皮细胞、基质细胞或干细胞。例如，疾病的结肠直肠组织是指已被诊断具有疾病或病症如癌症的任意结肠直肠组织。虽然在某些实施方案中进行了癌症类型的区分，但是在本发明的转录组阵列的大部分实施方案中，不刻意去区分组织中的不同癌症类型。

另外，可以理解在作为样品的患病组织中，可以具有一些正常的、非患病组织或与患病组织一起作为样品的细胞。

核酸

包含在本文提供的阵列中的核酸分子、核酸元件或多核苷酸可以是任意类型的核酸或核酸类似物，非限制性地包含RNA、DNA、肽核酸、或它们的混合物和/或片段。如本文所用，术语“片段”是指如本文提供的那些序列的部分序列，所述片断能够保持足够的核苷酸序列以允许该片段维持对该片段来源的整个序列的特异性和选择性。片段可以互补于整个序列并保持选择性地与整个序列杂交的能力。将核酸分子分离、克隆和合成制备。核酸元件可以包含载体序列或其可以基本上是纯的。核酸元件能够在常规的杂交条件下与来源于组织样品的包含转录物特异性分子或元件的核酸样品中的互补转录物进行杂交。本领域普通技术人员能够调节杂交要素以提供对于给定杂交来说的最佳杂交和产生的信号，并提供不同基因和基因组定位之间所需的分辨能力。

下面的转录物列表提供了特异于特定患病组织的序列。该列表概述在下面的表1中。表格中和贯穿说明书所用术语“基因列表”意为“核酸转录物列表”并同时包含编码和非编码区。

表1：序列表转录物列表总结

组织/基因列表	序列的数目	序列表范围
组织/基因列表	序列的数目	序列表范围	结肠直肠序列
基因列表A	16,350	SEQ ID NO：1至SEQ ID NO：16,350	结肠直肠序列
基因列表A	16,350	SEQ ID NO：1至SEQ ID NO：16,350	基因列表B	2,773	SEQ ID NO：16351至SEQ ID NO：19,123
基因列表C	1,805	SEQ ID NO：19,124至SEQ ID NO：20,928	基因列表B	2,773	SEQ ID NO：16351至SEQ ID NO：19,123
基因列表C	1,805	SEQ ID NO：19,124至SEQ ID NO：20,928	基因列表D	1318	SEQ ID NO：20,929至SEQ ID NO：22,246
基因列表E	10356	SEQ ID NO：22,247至SEQ ID NO：32,802	基因列表D	1318	SEQ ID NO：20,929至SEQ ID NO：22,246
基因列表E	10356	SEQ ID NO：22,247至SEQ ID NO：32,802	基因列表F	7,134	SEQ ID NO：32,803至SEQ ID NO：39,936
基因列表G	22,376	SEQIDNO：39,937至SEQ ID NO：62,312	基因列表F	7,134	SEQ ID NO：32,803至SEQ ID NO：39,936
基因列表G	22,376	SEQIDNO：39,937至SEQ ID NO：62,312	基因列表H	5,672	SEQ ID NO：62,313至SEQ ID NO：67,984
肺序列			基因列表H	5,672	SEQ ID NO：62,313至SEQ ID NO：67,984
肺序列			基因列表I	36,431	SEQ ID NO：67,985至SEQ ID NO：104,415
基因列表J	24	SEQ ID NO：104,416至SEQ ID NO：104,439	基因列表I	36,431	SEQ ID NO：67,985至SEQ ID NO：104,415
基因列表J	24	SEQ ID NO：104,416至SEQ ID NO：104,439	基因列表K	22	SEQ ID NO：104,440至SEQ ID NO：104,461
基因列表L	9,727	SEQ ID NO：104,462至SEQ ID NO：114,188	基因列表K	22	SEQ ID NO：104,440至SEQ ID NO：104,461
基因列表L	9,727	SEQ ID NO：104,462至SEQ ID NO：114,188	基因列表M	5,208	SEQ ID NO：114,189至SEQID NO：119,396
基因列表N	452	SEQ ID NO：119,397至SEQ ID NO：119,848	基因列表M	5,208	SEQ ID NO：114,189至SEQID NO：119,396
基因列表N	452	SEQ ID NO：119,397至SEQ ID NO：119,848	基因列表O	42,790	SEQ ID NO：119,849至SEQ ID NO：162,638
乳腺序列			基因列表O	42,790	SEQ ID NO：119,849至SEQ ID NO：162,638
乳腺序列			基因列表P	17,291	SEQ ID NO：162,639至SEQ ID NO：179,929
基因列表Q	3,278	SEQ ID NO：179,930至SEQ ID NO：183,207	基因列表P	17,291	SEQ ID NO：162,639至SEQ ID NO：179,929
基因列表Q	3,278	SEQ ID NO：179,930至SEQ ID NO：183,207	基因列表R	4,915	SEQ ID NO：183,208至SEQ ID NO：190,122
基因列表S	4,857	SEQ ID NO：194,123至SEQ ID NO：194,979	基因列表R	4,915	SEQ ID NO：183,208至SEQ ID NO：190,122
基因列表S	4,857	SEQ ID NO：194,123至SEQ ID NO：194,979	基因列表T	34,141	SEQ ID NO：194,980至SEQ ID NO：229,120

基因列表U	3,911	SEQ ID NO：229,121至SEQ ID NO：233,031
基因列表U	3,911	SEQ ID NO：229,121至SEQ ID NO：233,031	基因列表V	16,666	SEQ ID NO：233,032至SEQ ID NO：249,697
肝序列			基因列表V	16,666	SEQ ID NO：233,032至SEQ ID NO：249,697
肝序列			基因列表W	24,744	SEQ ID NO：249,698至SEQ ID NO：274,441
基因列表X	13	SEQ ID NO：274,442至SEQ ID NO：274,454	基因列表W	24,744	SEQ ID NO：249,698至SEQ ID NO：274,441
基因列表X	13	SEQ ID NO：274,442至SEQ ID NO：274,454	基因列表Y	32	SEQ B7 NO：274,455至SEQ ID ND：274,486
基因列表Z	6,565	SEQ ID ND：274,487至SEQ ID NO：281,051	基因列表Y	32	SEQ B7 NO：274,455至SEQ ID ND：274,486
基因列表Z	6,565	SEQ ID ND：274,487至SEQ ID NO：281,051	基因列表AA	14,789	SEQ ID NO：281,052至SEQ ID ND：295,840
基因列表BB	11,851	SEQ ID NO：295,841至SEQ ID NO：307,691	基因列表AA	14,789	SEQ ID NO：281,052至SEQ ID ND：295,840
基因列表BB	11,851	SEQ ID NO：295,841至SEQ ID NO：307,691	基因列表CC	39,979	SEQ ID NO：307,692至SEQ ID NO：347,670
脑序列			基因列表CC	39,979	SEQ ID NO：307,692至SEQ ID NO：347,670
脑序列			基因列表DD	33,275	SEQ ID NO：347,671至SEQ ID NO：380,945
基因列表EE	5	SEQ ID NO：384,946至SEO ID ND：380,950	基因列表DD	33,275	SEQ ID NO：347,671至SEQ ID NO：380,945
基因列表EE	5	SEQ ID NO：384,946至SEO ID ND：380,950	基因列表FF	341	SEQ ID NO：380,951至SEQ ID NO：381,291
基因列表GG	8,486	SEQ ID NO：381,292至SEQ ID NO：389,777	基因列表FF	341	SEQ ID NO：380,951至SEQ ID NO：381,291
基因列表GG	8,486	SEQ ID NO：381,292至SEQ ID NO：389,777	基因列表HH	19,081	SEQ ID NO：389,778至SEQ ID NO：408,858
基因列表II	21,845	SEQ ID NO：408,859至SEQ ID ND：430,703	基因列表HH	19,081	SEQ ID NO：389,778至SEQ ID NO：408,858
基因列表II	21,845	SEQ ID NO：408,859至SEQ ID ND：430,703	基因列表JJ	53,293	SEQ ID NO：430,704至SR ID NO：483,996

基因列表A-JJ的每个列表中的序列包含在本说明书所附的CD-R上，并且通过引用方式将它们全部并入本文。

患病结肠直肠组织中的转录物

基因列表A(SEQ ID NO：1至SEQ ID NO：16,350)

本文提供了先前已经被鉴定在结肠直肠组织中表达的16,350个转录子的集合。

因此，在一个实施方案中，提供了包含互补于基因列表A中所列的至少4,000个核酸分子的核酸分子的阵列。在另一个实施方案中，阵列包含互补于基因列表A中所列的至少6,000、8,000、10,000、12,000、14,000或16,000个序列的核酸分子。

基因列表B(SEQ ID NO：16,351至SEQ ID NO：19,123)

描述了2,773个转录物的集合，这些转录物既不与直肠癌产生的公众可用的表达序列标签文库相矛盾，也不与Genebank中的注释基因相矛盾。本文中，这些基因是新近鉴定的。

因此，在一个实施方案中，提供了包含互补于基因列表B中所列的至少1,000个核酸分子的核酸分子的阵列。在另一个实施方案中，阵列包含互补于基因列表B中所列的至少50，100、500，1,000、1,500、2000或2500个序列的核酸分子。

基因列表C(SEQ ID NO：19,124至SEQ ID NO：20,928)

cDNA文库产生自疾病的人结肠直肠组织，并且本文通过高通量测序鉴定了1,805个核苷酸序列，它们在以前还没有被鉴定在结肠直肠癌组织中表达。

因此，在一个实施方案中，提供了包含互补于基因列表C中所列的至少500个核酸分子的核酸分子的阵列。在另一个实施方案中，阵列包含互补于基因列表C中所列的至少50、200、500、750、1,000、1,400或1,750个序列的核酸分子。

基因列表D(SEQ ID NO：20,929至SEQ ID NO：22,246)

可选择的前mRNA剪接是主要的细胞过程，通过该过程单基因的初级转录物产生功能不同的蛋白，这一情况常常以组织特异性模式发生。

本文新近鉴定了1,318个核苷酸序列的集合，这些序列以先前注释的基因或ESTs的显著改变的(剪接)形式存在(在结肠直肠癌组织中表达)。因此，在一个实施方案中，提供了包含互补于基因列表D中所列的至少500个核酸分子的核酸分子的阵列。在另一个实施方案中，阵列包含互补于基因列表D中所列的至少50、100、250、500、750、1,000或1,250个序列的核酸分子。

基因列表E(SEQ ID NO：22,247至SEQ ID NO：32,802)

用患病的人结肠直肠组织建立cDNA文库，本文鉴定了10,556个核酸序列，这些序列先前没有被鉴定出在结肠直肠癌组织中表达。

因此，在一个实施方案中，提供了包含互补于基因列表E中所列的至少500个核酸分子的核酸分子的阵列。在另一个实施方案中，阵列包含互补于基因列表E中所列的至少1,000、2,000、5,000或10,000个序列的核酸分子。

基因列表F(SEQ ID NO：32,803至SEQ ID NO：39,936)

用患病的人结肠直肠组织建立cDNA文库，本文鉴定了7,134个核酸序列，这些序列先前没有被鉴定出在结肠直肠癌组织中表达。

因此，在一个实施方案中，提供了包含互补于基因列表F中所列的至少500个核酸分子的核酸分子的阵列。在另一个实施方案中，阵列包含互补于基因列表F中所列的至少1,000、2,500、5,000或7,000个序列的核酸分子。

基因列表G(SEQ ID NO：39,937至SEQ ID NO：62,312)

本文鉴定了22,376个核苷酸序列的集合，这些序列先前没有被鉴定出在结肠直肠癌组织中表达。

因此，在一个实施方案中，提供了包含互补于基因列表G中所列的至少4,000个核酸分子的核酸分子的阵列。在另一个实施方案中，阵列包含互补于基因列表G中所列的至少6000、8,000、10,000、12,000、14,000、16,000或19,000个序列的核酸分子。

基因列表H(SEQ ID NO：62,313至SEQ ID NO：67,984)

本文新近鉴定了5,672个核苷酸序列的集合，这些序列构成反义和相应的反向互补转录物。

反义转录物及其相应的有义转录物的包涵体(inclusion)是阵列的重要特征。一般的商业可获得的阵列主要集中在检测编码有义蛋白的转录物。随着内源反义RNA转录物在癌和其它疾病中的作用的兴趣的增加，现在已经鉴定了结肠直肠转录组中的反义序列。

因此，在一个实施方案中，提供了包含互补于基因列表H中所列的至少2,000个核酸分子的核酸分子的阵列。在另一个实施方案中，阵列包含互补于基因列表H中所列的至少3,000、4,000或5,000个序列的核酸分子。

患病肺组织中的转录物

基因列表I(SEQ ID NO：67,985至SEQ ID NO：104,415)

本文提供了先前显示了肺癌中涉及的36,431个转录物的集合。

因此，在一个实施方案中，提供了包含互补于基因列表I中所列的至少4,000个核酸分子的核酸分子的阵列。在另一个实施方案中，阵列包含互补于基因列表I中所列的至少6,000、8,000、15,000、20,000、30,000或35,000个序列的核酸分子。

基因列表J(SEQ ID NO：104,416至SEQ ID NO：104,439)

本文描述了24个转录物的集合，这些转录物由肺癌组织制备的公众可用的EST文库相矛盾，或不与Genbank中的注释基因矛盾。这些基因是本文新近鉴定的。

因此，在一个实施方案中，提供了包含互补于基因列表J中所列的至少5个核酸分子的核酸分子的阵列。在另一个实施方案中，阵列包含互补于基因列表J中所列的至少6、10、15、18、20或22个序列的核酸分子。

基因列表K(SEQ ID NO：104,440至SEO ID NO：104,461)

本文通过高通量测序鉴定了22个表达序列标签的集合，这些表达序列标签先前没有报道在肺组织中表达。

因此，在一个实施方案中，提供了包含互补于基因列表k中所列的至少5个核酸分子的核酸分子的阵列。在另一个实施方案中，阵列包含互补于基因列表k中所列的至少6、10、15、18或20个序列的核酸分子。

基因列表L(SEQ ID NO：104,462至SEQ ID NO：114,188)

本文新近鉴定了9,727个鉴定为含序列的转录物集合，其中所述的序列以先前注释的肺癌关联基因或ESTs的显著改变的(剪接)形式存在。

因此，在一个实施方案中，提供了包含互补于基因列表D中所列的至少3,000个核酸分子的核酸分子的阵列。在另一个实施方案中，阵列包含互补于基因列表D中所列的至少4,000、5,000、7,000或9,000个序列的核酸分子。

基因列表M(SEQ ID NO：114,189至SEQ ID NO：119,396)

本文新近鉴定了5,208个注释基因的集合，这些基因已经被鉴定为在患病肺组织中表达。

因此，在一个实施方案中，提供了包含互补于基因列表M中所列的至少2，500个核酸分子的核酸分子的阵列。在另一个实施方案中，阵列包含互补于基因列表M中所列的至少3,000、4,000或5,000个序列的核酸分子。

基因列表N(SEQ ID NO：119,397至SEQ ID NO：119,848)

本文鉴定了452个转录物的集合为单拷贝EST核苷酸序列，这些转录物在肺癌组织中表达并且先前没有被鉴定为注释基因。

因此，在一个实施方案中，提供了包含互补于基因列表N中所列的至少200个核酸分子的核酸分子的阵列。在另一个实施方案中，阵列包含互补于基因列表N中所列的至少250、300、350或400个序列的核酸分子。

基因列表O(SEQ ID NO：119,849至SEQ ID NO：162,638)

本文新近鉴定了42,790个转录物集合，这些转录物组成了肺癌组织中表达的序列的反义和相应的反向互补(reverse complement)转录物。

因此，在一个实施方案中，提供了包含互补于基因列表O中所列的至少20,000个核酸分子的核酸分子的阵列。在另一个实施方案中，阵列包含互补于基因列表O中所列的至少25,000、30,000、35,000或40,000个序列的核酸分子。

基因列表P(SEQ ID NO：162,639至SEQ ID NO：179,929)

本文提供了17,291个先前已经显示在乳癌组织中表达的表达序列标签的集合。

因此，在一个实施方案中，提供了包含互补于基因列表P中所列的至少3,000个核酸分子的核酸分子的阵列。在另一个实施方案中，阵列包含互补于基因列表P中所列的至少4,000、5,000、7,000、10,000、12,000、15,000或17,000个序列的核酸分子。

基因列表Q(SEQ ID NO：179,930至SEQ ID NO：183,207)

本文描述了3,278个转录物的集合，这些转录物不与公众可用的由乳癌组织制备的EST文库相矛盾，或不与Genbank中的注释基因相矛盾。这些基因是本文新近鉴定的。

因此，在一个实施方案中，提供了包含互补于基因列表Q中所列的至少1,000个核酸分子的核酸分子的阵列。在另一个实施方案中，阵列包含互补于基因列表Q中所列的至少4,000或6,000个序列的核酸分子。

基因列表R(SEQ ID NO：183,208至SEQ ID NO：190,122)

本文通过高通量测序鉴定了6,915个转录物的集合，这些转录物先前没有报道在患病乳腺组织中表达。

因此，在一个实施方案中，提供了包含互补于基因列表R中所列的至少2,000个核酸分子的核酸分子的阵列。在另一个实施方案中，阵列包含互补于基因列表R中所列的至少4,000或6,000个序列的核酸分子。

基因列表S(SEQ ID NO：190,123至SEQ ID NO：194,979)

本文新近鉴定了4,857个鉴定为含序列的转录物集合，其中所述的序列在患病乳腺组织中以先前注释的基因或ESTs的显著改变的(剪接)形式存在。

因此，在一个实施方案中，提供了包含互补于基因列表S中所列的至少1,000个核酸分子的核酸分子的阵列。在另一个实施方案中，阵列包含互补于基因列表S中所列的至少2,000或4,000个序列的核酸分子。

基因列表T(SEQ ID NO：194,980至SEQ ID NO：229,120)

本文鉴定了34,141个在乳腺组织中表达的转录物的集合。这些转录物先前没有被确认为在乳癌组织中表达。

因此，在一个实施方案中，提供了包含互补于基因列表T中所列的至少10,000个核酸分子的核酸分子的阵列。在另一个实施方案中，阵列包含互补于基因列表T中所列的至少15,000、20,000、25,000或30,000个序列的核酸分子。

基因列表U(SEQ ID NO：229,121至SEQ ID NO：233,031)

在本文众，3,911个转录物的集合被鉴定为单拷贝EST核酸序列，这些转录物在乳癌组织中表达并且先前没有被鉴定为注释基因。

因此，在一个实施方案中，提供了包含互补于基因列表U中所列的至少1,000个核酸分子的核酸分子的阵列。在另一个实施方案中，阵列包含互补于基因列表U中所列的至少1,500、2,000、2,500或3,000个序列的核酸分子。

基因列表V(SEQ ID NO：233,032至SEQ ID NO：249,697)

本文新近鉴定了16,666个转录物的集合，所述转录物构成了在乳癌组织中表达的序列的反义和其相应的有义转录物。

因此，在一个实施方案中，提供了包含互补于基因列表V中所列的至少8,000个核酸分子的核酸分子的阵列。在另一个实施方案中，阵列包含互补于基因列表V中所列的至少10,000、12,000、14,000或16,000个序列的核酸分子。

患病肝组织的转录物

基因列表W(SEQ ID NO：249,698至SEQ ID NO：274,441)

本文提供了24,744个先前已经鉴定为在与肝炎相关的肝组织表达的转录物的集合。

因此，在一个实施方案中，提供了包含互补于基因列表W中所列的至少4,000个核酸分子的核酸分子的阵列。在另一个实施方案中，阵列包含互补于基因列表V中所列的至少6,000、8,000、10,000、12,000、14,000、16,000、19,000或21,000个序列的核酸分子。

基因列表X(SEQ ID NO：274,442至SEO ID NO：274,454)

本文描述了13个转录物的集合，这些转录物不与公众可用的从肝炎相关的肝组织制备的EST文库中相矛盾，或不与Genbank中的注释基因相矛盾。这些基因是本文新近鉴定的。

因此，在一个实施方案中，提供了包含互补于基因列表X中所列的至少8个核酸分子的核酸分子的阵列。在另一个实施方案中，阵列包含互补于基因列表X中所列的至少10或12个序列的核酸分子。

基因列表Y(SEQ ID NO：274,455至SEQ ID NO：274,486)

本文通过鉴定了先前已经通过高通量筛选但是先前没有报道在肝炎相关的肝组织中表达的32个转录物的集合。

因此，在一个实施方案中，提供了包含互补于基因列表Y中所列的至少15个核酸分子的核酸分子的阵列。在另一个实施方案中，阵列包含互补于基因列表Y中所列的至少20、25或30个序列的核酸分子。

基因列表Z(SEQ ID NO：274,487至SEQ ID NO：281,051)

本文鉴定了6,565个转录物的集合，这些转录物以先前注释的基因或ESTs的显著改变的(剪接)形式存在并且在肝炎相关的肝组织中表达。

因此，在一个实施方案中，提供了包含互补于基因列表Z中所列的至少3,000个核酸分子的核酸分子的阵列。在另一个实施方案中，阵列包含互补于基因列表Z中所列的至少4,000、5,000或6,000个序列的核酸分子。

基因列表AA(SEQ ID NO：281至SEQ ID NO：295,840)

本文新近鉴定了14,789个转录物的集合在肝炎相关的肝组织中表达。

因此，在一个实施方案中，提供了包含互补于基因列表AA中所列的至少8,000个核酸分子的核酸分子的阵列。在另一个实施方案中，阵列包含互补于基因列表AA中所列的至少8,000、10,000、12,000或14,000个序列的核酸分子。

基因列表BB(SEQ ID NO：295,841至SEQ ID NO：307,691)

本文鉴定了11,851个为单拷贝EST核酸序列的转录物的集合，这些转录物在肝炎相关的肝组织中表达并且先前没有鉴定为注释基因。

因此，在一个实施方案中，提供了包含互补于基因列表BB中所列的至少6,000个核酸分子的核酸分子的阵列。在另一个实施方案中，阵列包含互补于基因列表BB中所列的至少8,000或10,000个序列的核酸分子。

基因列表CC(SEQ ID NO：307,692至SEQ ID NO：347,670)

本文新近鉴定了39,979个转录物的集合，所述转录物构成了在肝炎相关的肝组织中表达的序列的反义和相应的有义转录物。

因此，在一个实施方案中，提供了包含互补于基因列表CC中所列的至少20,000个核酸分子的核酸分子的阵列。在另一个实施方案中，阵列包含互补于基因列表CC中所列的至少25,000、30,000或35,000个序列的核酸分子。

患病脑组织的转录物

基因列表DD(SEQ ID NO：347,671至SEQ ID NO：380,945)

本文提供了先前鉴定的在神经退行性疾病相关的脑组织中表达的33,275转录物的集合。

因此，在一个实施方案中，提供了包含互补于基因列表DD中所列的至少15,000个核酸分子的核酸分子的阵列。在另一个实施方案中，阵列包含互补于基因列表DD中所列的至少20,000、25,000或30,000个序列的核酸分子。

基因列表EE(SEQ ID NO：380,946至SEO ID NO：380,950)

本文新近鉴定了5个含如下序列的转录物集合，所述序列不与在公众可用的由神经退行性疾病相关的脑组织制备的EST文库相矛盾，或不与Genbank中的注释基因相矛盾。这些基因是本文新近鉴定的。

因此，在一个实施方案中，提供了包含互补于基因列表EE中所列的至少3个核酸分子的核酸分子的阵列。

基因列表FF(SEQ ID NO：380,95J至SEQ ID NO：381,291)

本文通过高通量测序鉴定了341个转录物的集合，这些转录物先前没有报道在神经退行性疾病相关的脑组织中表达。

因此，在一个实施方案中，提供了包含互补于基因列表FF中所列的至少150个核酸分子的核酸分子的阵列。在另一个实施方案中，阵列包含互补于基因列表FF中所列的至少200或300个序列的核酸分子。

基因列表GG(SEQ ID NO：381,292至SEQ ID NO：389,777)

本文新近鉴定了8,486个转录物的集合，其中的转录物以先前注释的基因或ESTs的显著改变的(剪接)形式存在并且在神经退行性疾病相关的脑组织中表达。

基因列表HH(SEQ ID NO：389,778至SEQ ID NO：408,858)

本文提供了新近鉴定的在神经退行性疾病相关的脑组织表达的19,081个转录物的集合。

因此，在一个实施方案中，提供了包含互补于基因列表HH中所列的至少8,000个核酸分子的核酸分子的阵列。在另一个实施方案中，阵列包含互补于基因列表DD中所列的至少12,000、15,000、17,000或19,000个序列的核酸分子。

基因列表II(SEQ ID NO：408,859至SEQ ID NO：430,703)

本文鉴定了21,845个为单拷贝EST核酸序列的转录物的集合，这些转录物在神经退行性疾病相关的脑组织中表达并且先前没有鉴定为注释基因。

因此，在一个实施方案中，提供了包含互补于基因列表II中所列的至少10,000个核酸分子的核酸分子的阵列。在另一个实施方案中，阵列包含互补于基因列表II中所列的至少12,000、15,000、17,000或20,000个序列的核酸分子。

基因列表JJ(SEQ ID NO：430,704至SEQ ID NO：483,996)

本文新近鉴定了53,293个转录物的集合，所述转录物构成了在神经退行性疾病相关的脑组织中表达的序列的反义和相应的有义转录物。

因此，在一个实施方案中，提供了包含互补于基因列表JJ中所列的至少30,000个核酸分子的核酸分子的阵列。在另一个实施方案中，阵列包含互补于基因列表JJ中所列的至少35,000、40,000、45,000或50,000个序列的核酸分子。

阵列

如上所述，本文提供的转录物列表可用于通过使用互补于本文提供的序列的核酸分子制备患病组织转录组阵列。术语“阵列”和“微阵列”在本文可交互使用。本领域技术人员经常用后一个术语表示与计算机芯片相关联的一类微型阵列。如本文所用，术语“组织特异性元件”是指阵列上的结合到患病目标样品来源的转录物特异性元件的生物分子，其包含核酸、多肽和抗体分子。

基因列表A-H提供了与患病结肠直肠组织相关联的转录物序列。在一个实施方案中，提供了包含至少一个核酸分子的阵列，该核酸分子互补于基因列表B、C、D、E、F、G、H或其组合中的患病结肠直肠组织转录物。在另一个实施方案中，提供了包含核酸分子的阵列，该核酸分子互补于基因列表B、C、D、E、F、G、H或其组合中的患病结肠直肠组织转录物的至少70％，例如至少80％或至少90％的核酸分子。在另一个实施方案中，提供了包含核酸分子的阵列，该核酸分子互补于每个基因列表B、C、D、E、F、G和H中的患病结肠直肠组织转录物的至少70％，例如至少80％或至少90％的核酸分子。基因列表I-O提供了与患病肺组织相关联的转录物的序列。在一个实施方案中，提供了包含互补于基因列表J、K、L、M、N、O或其组合中的患病肺组织转录物的核酸分子的阵列。在另一个实施方案中，提供了包含互补于基因列表J、K、L、M、N、O或其组合中的转录物的至少70％，例如至少80％或至少90％的患病肺组织核酸分子的阵列。在另一个实施方案中，提供了包含互补于基因列表J、K、L、M、N、O中的转录物的至少70％，例如80％或90％的患病肺组织核酸分子的阵列。

基因列表P-V提供了与患病乳腺组织相关联的转录物序列。在一个实施方案中，提供了包含互补于基因列表Q、R、S、T、U、V或其组合中的患病乳腺组织转录物的核酸分子的阵列。在另一个实施方案中，提供了包含互补于基因列表Q、R、S、T、U、V或其组合中的患病乳腺组织转录物的至少70％，例如至少80％或至少90％的核酸分子的阵列。在另一个实施方案中，提供了包含互补于基因列表Q、R、S、T、U、V中的患病乳腺组织转录物的至少70％，例如至少80％或至少90％的核酸分子的阵列。

基因列表W-CC提供了与患病肝组织相关联的转录物序列。在一个实施方案中，提供了包含互补于基因列表X、Y、Z、AA、BB、CC或其组合中的患病肝组织转录物的核酸分子的阵列。在另一个实施方案中，提供了包含互补于基因列表X、Y、Z、AA、BB、CC或其组合中的患病肝组织转录物的至少70％，例如至少80％或至少90％的核酸分子的阵列。在另一个实施方案中，提供了包含至少互补于基因列表X、Y、Z、AA、BB、CC中的患病肝组织转录物的至少70％，例如至少80％或至少90％的核酸分子的阵列。

基因列表DD-JJ提供了与患病脑组织相关联的转录物序列。在一个实施方案中，提供了包含互补于基因列表EE、FF、GG、HH、II、JJ或其组合中的患病脑组织转录物的核酸分子的阵列。在另一个实施方案中，提供了包含互补于基因列表EE、FF、GG、HH、II、JJ或其组合中的患病脑组织转录物的至少70％，例如至少80％或至少90％的核酸分子的阵列。在另一个实施方案中，提供了包含至少互补于基因列表EE、FF、GG、HH、II、JJ中的患病脑组织转录物的至少70％，例如至少80％或至少90％的核酸分子的阵列。

在另一个实施方案中，提供了包含互补于来自两个或多个不同癌组织的基因列表A-H、J-O、Q-V中的核酸序列的核酸分子的阵列，以针对多种类型的癌。在另一个实施方案中，提供了包含互补于基因列表A-H、J-O和Q-V或其组合中的转录物的至少70％，例如至少80％或至少90％的核酸分子的阵列。

优选地，本文描述的每个实施方案中的阵列包含一个或多个本文新近鉴定的核酸分子或本文新近鉴定的核酸分子的组合。包括下述组合，即该组合含有对于特定疾病、疾病的类型或宽范围的疾病的新近鉴定的核酸分子。

表达

为获得编码蛋白的核酸序列的表达，将序列并入具有一个或多个控制序列的载体中，控制序列可操作地连接到核酸上以控制其表达。载体任选地包含其它的序列，如启动子或增强子以驱动插入核酸的表达，包含核酸序列的以使得肽以融合蛋白的形式生产，和/或包含编码分泌信号的核酸，以使得宿主细胞中产生的多肽从细胞中分泌出来。

在本发明的令个方面，提供了包含分离的多核苷酸的载体。

在本发明的另一方面，提供了包含载体的宿主细胞。

肽是通过如下方法获得的：将并入了特异核酸序列的载体转染到宿主细胞，其中在宿主细胞中的载体是有功能的；培养宿主细胞以生产肽；和从宿主细胞或周围介质中回收肽。

这样，生产多肽的方法包含在本发明的范围内。方法包括由编码多肽的核酸分子的多肽表达。这可以通过在含有载体的培养基中、在能够引起或允许多肽表达的适当条件下培育宿主细胞而方便地获得。

载体和宿主细胞

可以选择或构建适当的载体以包含适当的调节序列，包含但不限于启动子序列、终止子片段、多腺苷酸化序列、增强子序列、标记基因和其它的适当序列。

载体可以是质粒、病毒，如适当的噬菌体或噬菌粒。详细的内容参见，如MOLECULAR CLONING：A LABORATORY MANUAL：2nd edition，Sambrooket al.，1989，Cold Spring Harbor Laboratory Press。许多已知的技术和实验方案用于控制核酸，例如制备核酸构建体、诱变、测序、DNA向细胞的导入和基因表达，和蛋白质分析，这些详细描述在CURRENT PROTOCOLS IN MOLECULARBIOLOGY，Ausubel et al eds.，John Wiley & Sons，1992。

在不同宿主细胞中的多肽的克隆和表达系统是已知的。适当的宿主细胞包含细菌、真核细胞如哺乳动物细胞和酵母，和杆状病毒系统。

因此，本发明进一步提供了包含本文公开的异源核酸的宿主细胞。

阵列制备

使用多核苷酸设计和构建本文所描述的转录物阵列。在一个实施方案中，排列核酸元件制备单转录组阵列，尽管，在需要的情况下阵列可以包含相应于多个转录组。转录组可以包含来自一个疾病或多个疾病的多个患病组织转录物。疾病特异性阵列包含在给定疾病组中转录的转录物。

例如，在结肠直肠癌中，这些转录物可以在结肠直肠肿瘤细胞微环境中发现的某一范围内的细胞类型中转录，并且细胞可以包含，如、基质细胞、上皮细胞、淋巴细胞、内皮细胞、干细胞等。在另一个实施方案中，通过物质相互作用或特异蛋白的分泌，癌变前细胞或癌变细胞改变了其周围细胞(如肿瘤微环境中发现的基质、内皮、或淋巴细胞)中转录物的表达，并因此产生结肠直肠癌特征的转录物，该转录物包含在疾病特异性阵列上。而且，当利用疾病特异性阵列作为鉴定诊断性、预后性或预测性的遗传标记的工具时，实际的标记可以包含来源于部分或所有这些个体细胞群的转录物。

本文提供的阵列可以用于任何合适的目的，如，但不限于，诊断、预后、药物治疗、药物筛选等。对于给定的阵列，每个核酸元件可以是全序列或分裂成不同长度的序列。没有必要将组成全序列的所有片段呈现在阵列上。

在一个实施方案中，使用本领域已知的核酸固定或结合技术将代表转录物和转录物片段的组织特异性核酸元件在多个物理独立位点固定在阵列上。在多个物理独立位点的片段一同组成了整体转录物或转录物的严密(discreet)部分。片段可以互补于转录物的连续部分或转录物的不连续部分。目标样品的核酸分子与阵列上片段的杂交表示样品中目标转录物的存在。通过本领域常规的检测方法进行杂交和杂交检测并详细描述于下文。

在一个实施方案中，使用多个探针区别目标序列和患病组织样品中的其它核酸序列。在一些实施方案中，至少2％的目标序列通过探针的结合呈现在阵列上。在另一个实施方案中，至少5％、至少10％，至少20％，至少30％，至少40％，至少50％，至少60％，至少70％，至少80％，或至少90％的目标序列呈现在阵列上。可选择地，当序列表示较大的序列或转录物时，基因列表A到基因列表JJ的至少60％的序列通过探针的结合呈现在阵列上。在进一步的实施方案中，基因列表A到基因列表JJ的至少70％，至少80％，或至少90％的转录物通过探针的结合呈现在阵列上。样品中的核酸片段与阵列上的那些片段的杂交表示组织样品中全转录物的存在。

在另一个实施方案中，与全转录物或全转录物片段对应的核酸元件仅在一个物理独立位点、以“斑点阵列”格式固定在阵列上。特异性核酸元件的多个拷贝可以在独立的位点结合到阵列基质。优选地，该类型的“斑点阵列”包含本文新鉴定的一个或多个核酸分子。

如上文所述，阵列优选包含与基因列表A-JJ提供的转录物特异性元件或其片段相对应的一个或多个核酸元件。如上文所述，特异于某种疾病如特定癌症的阵列可被设计成包含相对于特定疾病的所有的或预定百分比的转录组。例如，在一个实施方案中，阵列可以包含上面提供的与特定疾病如结肠直肠癌相关联的基因列表(基因列表A-H)中所有或选择的亚组的核酸序列。在另一个实施方案中，阵列可以包含转录组，该转录组例如为上面提供的与一般类型疾病如癌症相关联的基因列表(基因列表A-V)中的所有的或选择的亚组的核酸序列。还有，在其它的实施方案中，阵列可以包含转录组，该转录组例如可为上面提供的与特定类型器官和疾病如与肝炎相关肝组织相关联的基因列表(基因列表W-CC)或与神经退行性疾病相关脑组织相关联的基因列表(基因列表DD-JJ)中的所有的或选择的亚组的核酸序列。

在其它的实施方案中，阵列包含与基因列表A-JJ中提供的既定转录物特异性元件的至少50％相对应的核酸元件。在其它的实施方案中，阵列包含与基因列表A-JJ中提供的既定转录物特异性元件的至少60％，例如至少70％，至少80％或大于90％相对应的核酸元件。来自患病组织样品的目标转录物特异性元件与阵列上相应的核酸元件的杂交表明样品中目标基因的存在。相应于基因列表A-JJ中提供的其它转录物的其它核酸元件或其片段可被置于阵列上个别的物理独立位点。

本领域技术人员可以理解在既定阵列上的核酸元件互补于既定目标样品中的转录物特异性序列。包含天然序列的阵列也可以被设计成用于鉴定目标样品中反义分子的存在。对内源反义RNA转录物是感兴趣的，因为最近的文献已经涉及癌症和其它疾病中的内源反义。

在一个实施方案中，所述阵列是下述核酸元件的阵列，即该核酸元件代表患病结肠直肠组织转录组、患病肺组织转录组或患病乳腺组织转录组。在该阵列中，优选分别存在在患病结肠直肠、肺或乳腺组织的转录组中转录的转录物总量的75％、80％、90％、95％、或98％以上。在一些实施方案中，剩余的核酸元件是对照元件。

本文提供的用于本文描述的测定中的阵列是通过本领域已知的适当的技术构建。参见例如美国专利号5,486,452；5,830,645；5,807,552；5,800,992和5,445,934。在每个阵列中，独立的核酸元件可以仅显示一次或可以重复。阵列可以任选地也包含对照核酸元件。

可以使用任何合适的基质作为核酸元件固定和结合于其上的固体相。例如基质可以是玻璃、塑料、金属、涂金基质和任何材料的滤器。基质的表面可为任何合适的结构。例如，表面可为平坦状，或成脊状或沟状以使固定在基质上的核酸元件相分离。在可选择的实施方案中，核酸粘附到微珠(bead)上，其分别是可辨别的。核酸元件以任何合适的方式粘附到基质上以使得他们可用于杂交，包括共价或非共价结合。

在其它的实施方案中，根据转录物的表达是否与对特定疾病试剂的敏感性或抗性相关，转录组中的多核苷酸或蛋白质分子可以在阵列上分组。这样分组在阵列上提供了这样的区域，即转录物的集合表明具有特定阵列图谱的个体是否将对特定治疗剂反应或不反应(例如参见图1)。

患病组织样品

任何适当的目标组织或细胞可以用作本文描述的方法中的患病组织样品。本领域的技术人员可以理解术语“患病组织样品”包含异常样品、怀疑患病的样品、和作为常规筛选检查部分的分析用正常样品。

患病组织样品优选被处理以获得一个或多个转录物特异性元件，然后将其与阵列结合以允许杂交和结合到阵列的转录物特异性元件的检测。本文所用的术语“转录物特异性元件”包含任何适当的来自样品中的RNA转录物的核酸，如DNA或RNA。来自RNA转录物的核酸可以是由mRNA反转录的cDNA、由该cDNA转录的DNA，由该cDNA扩增的DNA，由该扩增的DNA转录的RNA等。目的为测量基因拷贝数改变时，优选利用基因组DNA。可选择地，在检测转录物(1个或多个)表达水平时，优选使用RNA或cDNA。例如，为了定量表达，转录物特异性元件可以是任何类型的转录的RNA分子，例如信使RNA(mRNA)，可选择的剪接mRNA，核糖体RNA(rRNA)，转运RNA(tRNA)，和大范围的其它不翻译成蛋白质的转录物，如核内小分子RNA(snRNA)，和反义分子，如siRNA和微RNA(microRNA)。转录物特异性元件也可以是来自RNA的核酸。

根据方法的目的，本领域普通技术人员将选择适当的患病目标细胞和组织。例如，在鉴定与特定病理状况相关的转录物的方法中，可以使用任何已知能够显示或表达病理状况症状的生物样品或细胞或组织。

本文描述的阵列用于鉴定在癌症中被差异诱导的转录物。在该情况下，目标细胞可以是肿瘤细胞，例如结肠癌细胞或胃癌细胞。靶细胞来源于任何组织源，包含人和动物组织，例如但不限于，新获得的样品，冷冻样品、活组织检查样品、体液样品、血液样品、保存的组织如石蜡包埋固定的组织样品(也就是组织块)，或细胞培养物。

对于诊断，患病组织待测样品优选来自怀疑患病的个体的生物样品。理想状况下，该组织样品相应于或结合于阵列，其中所述阵列包含来自相同组织的一个或多个完全转录组的重要部分。术语“重要部分”在本文定义为大约大于50％、75％、80％、90％、95％、或98％的整个转录组。例如，为诊断肺癌，肺组织样品来源的转录物特异性元件应用于包含患病肺组织的整个转录组的所有或重要部分的阵列。

转录物特异性元件的群可以通过本领域已知的任何适当的核酸分离或纯化方法获自患病目标组织或细胞。例如，用于核酸分离的商业可获得的试剂盒，如来自QIAGEN^(Alameda，CA)的用于分离DNA的QIAAMP^组织试剂盒用于本文描述的方法中。另外，核酸的分离和纯化方法描述在LABORATORYTECHNIQUES IN BIOCHEMISTRY AND MOLECULAR BIOLOGY：HYBRIDIZATION WITH NUCLEIC ACID PROBES，PART I.THEORY ANDNUCLEIC ACID PREPARATION，P.Tijssen，ed.Elsevier，N.Y(1993)的第3章。

根据样品的大小和分离的方法，获得转录物特异性元件可以同或不同扩增一起使用。适当的扩增方法包括但不限于聚合酶链式反应(PCR)(Innis，et al，PCR PROTOCOLS：A GUIDE TO METHODS AND APPLICATION，AcademicPress，Inc.San Diego，(1990))，连接酶链式反应(LCR)(参见Wu and Wallace，Genomics，4：560(1989)，Landegren，et al，Science，241：1077(1988)and Barringer，etal，Gene，89：117(1990))，转录扩增(Kwoh，et al.，Proc.Natl.Acad.Sci.USA，86：1173(1989))，和自主序列复制(Guatelli，et al.，Proc.Nat.Acad.Sci.USA，87：1874(1990))。涉及定量PCR的详细内容提供在PCRPROTOCOLS：AGUIDETO METHODS AND APPLICATIONS，Innis et al.，Academic Press，Inc.N.Y，(1990)中。

在某些实施方案中，仅需要检测特定的转录物特异性元件存在或不存在。在这样的情况下，杂交信号的检测表明样品中转录物特异性元件的存在。在其它的实施方案中，需要定量样品中的一个或多个转录物特异性元件的表达。在该情况下，样品中转录物特异性元件的浓度与检测的杂交信号是成比例的。技术人员将能够理解比值不必精确(例如转录速率的加倍导致mRNA转录物的加倍和杂交信号的加倍)。更不严格的比值，例如目标mRNA浓度的10倍差异导致了杂交强度的5-15倍差异的情况是可以接受的。当需要更精确的定量时，，适当的标准可以用于校正样品制备和杂交介导的变化。

杂交

在本文提供的方法中，来自患病组织样品的转录物特异性元件在选择的适当的严谨度的条件下杂交到阵列。技术人员清楚地知晓变化杂交条件以选择对样品更适合的严谨度。例如，采用非严格冲洗缓冲液(例如6xSSPE 0.01％Tween-20)和严格的缓冲液(如100mMMES，0.1M[Na+]，0.01％Tween-20)，本领域人员或普通技术人员可以改变各自的冲洗次数(一般0-20次)，冲洗温度(一般15-50℃)以获得最理想的杂交。理想化的杂交条件的方法对于本领域技术人员来说是熟知的(参见LABORATORY TECHNIQUES IN BIOCHEMISTRYAND MOLECULAR BIOLOGY，Vol.24：Hybridization With Nucleic Acid Probes，P.Tijssen，ed.Elsevier，N.Y，(1993))。

在一个实施方案中，在低严谨条件下进行杂交，并且通过在逐步升高的严谨条件下连续冲洗，以获得所需的杂交特异性水平，从而消除错误杂交的双链体。通过与基因特异性元件的杂交和与各种存在的对照的杂交之间的比较来评价杂交特异性。

标记和检测

杂交到本文提供的阵列的核酸元件的转录物特异性元件优选通过检测粘附到来自患病组织样品的样品转录物特异性元件的一个或多个标签来检测。

通过本领域已知的粘附标签到核酸的任何适当方法，标签可在杂交前、杂交中、或杂交后引入。适当的方法可以包含直接将标签加入到样品的原始转录物特异性元件(如mRNA、polyA mRNA、cDNA等)或在样品的转录物特异性元件扩增的期间或之后加入到扩增产品，例如使用标记的引物或标记的核苷酸。

适于本文描述的方法的标记包含但不限于用于染色的且具有标记的链酶亲和素结合物的生物素、磁珠(例如Dynabeads)，荧光染料(如荧光素、得克萨斯红、罗丹明、绿荧光蛋白、及其类似物)、放射性同位素追踪剂(如3H、125I、35S、14C或32P)、酶(如辣根过氧化酶、碱性磷酸酶和一般用于ELISA的其它酶)、和比色标记，如胶体金和染色玻璃和塑料(如聚苯乙烯、聚丙烯、胶乳等)珠。

根据标记的选择，熟练技术人员将能够选择适当的检测本领域已知的标记的方法。对于详细描述标记核酸和检测标记的杂交的核酸的方法参见LABORATORY TECHNIQUES IN BIOCHEMISTRY AND MOLECULARBIOLOGY，Vol.24：Hybridization With Nucleic Acid Probes，P.Tijssen，ed.Elsevier，N.Y，(1993)。

蛋白阵列

在其它的实施方案中，设计和构建了蛋白阵列。如本文所用，术语“蛋白”和“多肽”是可以互换的。这些阵列中的组织特异性元件包含蛋白、肽、抗体、肽核酸等。针对患病转录组编码的多肽分子产生的抗体可以固定到阵列的离散位点上并结合到结合了可检测的特异于抗体的标记的多肽上。从目标样品分离出的蛋白可以与标记的阵列接触，任何标记蛋白从固定的抗体中被置换出都会通过阵列上离散位点处可检测的标记的缺失而显现。阵列上蛋白置换的特点可能与表达阵列特征的个体对特异治疗剂的反应或未反应相关。

或者，蛋白阵列可以包含患病转录组编码的多肽分子。多肽分子可以附在转录组蛋白阵列的离散位点上，并且用分离自表达患病转录组的个体的抗体检测。

抗体可以是多克隆的、或更优选地为单克隆。可以使用完整的抗体，或其片段(如Fab或F(ab’)₂)。当术语“标记的”涉及探针或抗体时，其意在包括通过偶合(也就是物理连接)可检测的物质到探针或抗体上形成的直接标记，以及通过与另一直接被标记了的试剂的反应而形成的对探针或抗体的直接标记。间接标记的例子包含使用荧光标记的二级抗体对初级抗体的检测和利用生物素对DNA探针的末端标记以致于其可以用荧光标记的链酶亲和素检测。术语“生物样品”意为包含组织、细胞和分离自受试者的生物学液体，以及存在于受试者体内的组织、细胞和液体。也就是，检测方法可以用于检测体内和体外检测生物样品中RNA，蛋白质，和基因组DNA。例如，在体外，检测RNA的技术包含Northem杂交和原位杂交。在体外，检测蛋白的技术包含酶联免疫吸附试验(ELISAs)，蛋白质印迹、免疫沉淀、和免疫荧光。在体外，检测基因组的技术包含DNA杂交。而且，在体内，检测蛋白的技术包含向受试者导入标记的抗体。例如，抗体可以用放射性的标记进行标记，其中标记的存在和位置可以通过标准成像技术检测。

试剂盒

本文提供了检测患病组织样品中的转录物特异性元件存在或对其定量的试剂盒。例如，试剂盒可以包含来自一个或多个患病组织的一个或多个转录组的阵列。阵列上的分子可以是本文描述多核苷酸，多肽或抗体分子。试剂盒任选地还包含可检测的标记或进行了标记的化合物或能够检测生物样品中基因产物的表达的药剂和用于标记样品和对阵列上互补序列的杂交产生影响的试剂。试剂盒任选地还包含检测样品中转录物量的工具，如比色表和设备。

试剂盒可以包含一个以上的阵列，其中每个阵列相应于受不同疾病折磨的组织，和其中每个阵列包含多个相应于受一种疾病折磨的组织的转录组。化合物和药剂可以包装于适当的容器中。试剂盒可以进一步包含使用试剂盒检测蛋白或核酸的说明书。

预测药物(predictive medicine)的使用方法

本文提供了使用上述描述的阵列在预测药物领域的方法。该领域包含诊断分析、预后分析、预测分析、药物基因组学、和对不同疾病的临床试验的检测。

术语“疾病”和“疾病状态”包含能够导致或潜在引起患病生物体中的细胞的小分子图谱、细胞腔隙、或细胞器改变的疾病。该疾病可以分成三个主要的类别：肿瘤病、炎症疾病、和退行性疾病。疾病的例子包含但不限于代谢性疾病(例如肥胖症、恶病质、糖尿病、厌食症等等)、心血管疾病(例如动脉粥样硬化、缺血/再灌注、高血压、心肌梗死、再狭窄、心肌病、动脉炎等等)、免疫紊乱(例如慢性炎症性疾病和紊乱，如克罗恩氏(Crohn’s)病，炎症性肠病，反应性关节炎，变形性关节炎，骨关节炎，包括淋巴疾病，胰岛素依赖性糖尿病，器官特异性自身免疫，包括多发性硬化、淋巴瘤性甲状腺肿和格雷夫斯病，接触性皮炎，牛皮癣，移植排斥，移植物抗宿主疾病，结节病，遗传性过敏状况，如哮喘和变态反应，包括过敏性鼻炎、胃肠过敏，包括食物过敏，嗜曙红细胞增多，结膜炎，肾小球性肾炎，对某些病原体易感比如肠虫(例如利什曼病)和某些病毒感染，包括艾滋病病毒，和细菌传染、包括肺结核和瘤型麻风等等)，肌病(例如多肌炎，肌营养不良，中央核疾病，中央核(多核肌管)肌病，先天性肌强直，纤维质肌病，先天肌强直状态，周期性麻痹，线粒体肌病等等)、神经系统紊乱(例如神经病、阿尔茨海默氏病、帕金森氏病、亨廷顿病、肌萎缩侧索硬化、运动神经元病、外伤性神经损伤、多发性硬化症、急性播散性脑脊髓炎、急性坏死性出血性脑白质炎、髓鞘形成障碍(dysmyelination)疾病、线粒体病、偏头痛紊乱、细菌感染、真菌感染、中风、衰老、痴呆、周围神经系统疾病和精神紊乱如抑郁症和精神分裂症等等)、肿瘤生物学紊乱(例如白血病、脑癌、前列腺癌、肝癌、卵巢癌、胃癌、结肠直肠癌、咽喉癌、乳腺癌、皮肤癌、黑素瘤、肺癌、肉瘤、子宫颈癌、睾丸癌、膀胱癌、内分泌癌、子宫内膜癌、食管癌、神经胶质瘤、淋巴瘤、成神经细胞瘤、骨肉瘤、胰腺癌、垂体癌、肾癌等)和眼科的疾病(例如视网膜炎细胞瘤和黄斑变性)。该术语还包括紊乱，其由已知和未知的氧化应激、遗传癌综合症和代谢疾病引起。

一般，用于预测药物的方法如下进行：将来自患病目标细胞或组织或怀疑具有病理状况的细胞或组织的转录物特异性元件与本文描述的阵列结合，然后在允许转录物特异性元件与阵列的核酸分子杂交的条件下经过足够时间的孵育，然后检测杂交；杂交的检测表明样品中患病组织的存在，或分析转录物表达的模式并与来自参照样品的转录物特异性元件表达的参考比较，以提供样品的关于诊断、预后、药物筛选、抗性、治疗的选择等的信息，更详细的描述如下。

诊断分析

提供利用本文描述的阵列的诊断分析，以用于测定蛋白和/或核酸表达和生物样品(如血液、血清、细胞、组织)的活性，从而确定个体是否受疾病或病症的折磨，或具有患病的征兆，或个体是否具有发展成与异常蛋白、核酸表达或活性相关的疾病或发育成疾病的风险。早期诊断将利于治疗和增加成功治疗并可以使医师甚至疾病或病症的症状开始前预防性地治疗个体。

本文描述的阵列以可以用于鉴定病态状况下差异表达的核酸分子，如结肠直肠组织、肺组织、乳腺组织、肝组织或脑组织的病态条件。

检测生物样品中的RNA转录物或基因产品的存在与否的示例性的方法包括获得生物样品，其包含来自待测受试者的核酸元件，将生物样品与能够检测蛋白质或核酸的化合物或试剂接触，这样能够检测生物样品中杂交到本文描述的阵列的转录物的存在。检测RNA或基因组DNA的试剂优选为标记的能够杂交到来自样品的RNA或基因组DNA的核酸探针。核酸探针可以是，例如，全长核酸或其部分，如全长至少为11、15、30、50、100、250、500、1,000个或更多核苷酸的寡核苷酸，并且在严谨条件下其充分地特异杂交到RNA或基因组DNA。

生物样品与阵列结合以检测生物样品中转录物特异性元件。在一个实施方案中，生物样品包含来自待测受试者的蛋白分子。可选择地，生物样品包含来自待测受试者核酸元件，如RNA分子或基因组DNA分子。优选的生物样品是生物液体(如血清)、细胞样品、或以常规方式如针刺活组织检查从受试者分离的组织活检样品。

阵列还可以用于鉴定引起患病组织中存在的转录物产生的基因的突变。这样，本发明提供了一种鉴定与异常RNA表达或活性相关的疾病或病症的方法，其中待测样品获自受试者，然后检测蛋白或核酸(如RNA、基因组DNA)，其中蛋白或核酸的存在可以诊断为患者具有或处于发展成与异常基因表达或活性相关的疾病或病症的风险。

诊断分析提供了一种鉴定样品中与病态状况(如早期阶段的癌症状，且该症状症状发生前的和通过任何其它方法不能检测到的)的易感性相关一个或多个转录物特异性元件的方法，或鉴定病态状态的实际存在的方法。如果将样品杂交模式、或表达模式与非疾病参照样品的转录物特异性元件表达的参照模式相比较，相应的目标细胞的转录物特异性元件与参照样品之间的表达差异表明与病理状况相关联。同样，如果表达模式与来自特殊病理状况的疾病参照样品的转录物特异性元件表达的参照模式比较，杂交模式或表达模式与参照模式基本相符则表明样品组织或细胞中的病理状况或对病理状况的易感性的存在。

预测定的参照模式可以由贯穿全阵列或核酸分子的亚组的表达模式组成，例如被测定为与特殊病理状况相关的具有特殊关联性的亚组。这样的核酸分子的新亚组可以用于与特殊病理状况相关联的核酸元件阵列的构建。这样的新阵列形成本发明的另一方面。

表达差异可以定性或定量。例如，相比于参照样品中的表达的差异可以是样品的目标细胞的一个或多个转录物特异性元件表达的上调或表达的下调。相比于非疾病参照样品(或对照)中的相应的转录物(一个或多个)表达，测量得到的表达差异可以是一个或多个转录物表达的增长，或相比于非疾病参照样品(或对照)相应的转录物的表达，一个或多个转录物的表达的增加和一个或多个其它转录物的表达的降低。因此，受到调节的表达模式可以指示特定的细胞或组织功能。

在优选的实施方案中，与病理状况相关的RNA种类或基因杂交到互补于一个或多个来自基因列表A-JJ的序列的核苷酸序列。病理状况可以是任何疾病状态，例如病理状况可以是癌症。本文描述的阵列可以用于区分癌症(如胸部(乳腺)、结肠直肠、肺等)的类型以及与既定组织相关的癌症的亚类型。

在一个实施方案中，如果表达大于参照样品中的相应元件的0.1倍、0.5倍、1倍、1.5倍、2倍、5倍、10倍或更高，则认为目标细胞中的转录物特异性元件的表达为上调或下调。当然，在评价该定性差异时，使用校正系数来测量表达水平，例如基于参照核酸元件的被测量的表达，已知其在目标细胞和参照样品中均表达。可以使用任何适当的非疾病参照样品(或对照)。例如，参照样品可以是来自与目标细胞来源相同的组织和/或器官和/或受试者的细胞，或可以含有不存在相关病理的所述多个细胞中所述基因元件的表达值的平均值表达。

如本文所述，本文描述的阵列能够评价特定患病组织中很大比例的转录组的表达，并因此可以用于与特定病理状况相关的大量基因元件的差异表达模式的评价中。

已经测定转录物或基因与病理状况的关联性，该转录物的存在、拷贝数或表达水平可以用于诊断对该状况的易感性存在的方法。该用途表示了本文描述的方法的又一个独立方面。

预后分析

本文还提供了预后分析用于测定个体在不存在初步药物干预或进行初步药物干预如外科下之后是否将恢复或复发，其中所述个体被诊断具有与异常蛋白、核酸表达或活性相关的疾病或病症。

本文描述的预后分析可以用于测定不存在任何治疗或初步药物干预后阳性或阴性的总体存活率，进而确定是否进行预后分析来鉴定最有效的进一步的治疗。例如，分析可以用于测定病人是否应当仅接受外科治疗或可以在外科治疗之前或之后使用药物试剂、生物试剂、或治疗剂相结合的鸡尾酒。这些试剂尤其用于预后性差、并且其在没有治疗和药物干预下将不再从疾病或病症康复的个体，。在一个这样的实施方案中，转录物特异性元件与疾病转录组阵列的杂交表明手术或化疗或疾病或发展后不进行手术或化疗就有复发的可能性。

在优选的预后分析中，阵列用于将来自样品的杂交模式与来自已知患病组织的杂交模式相比较，其中，已知患病组织对特定的治疗消极反应或积极反应，从而患病组织经历或不经历疾病的复发，如癌症缓解后的复发。

预测分析

提供预测分析用于选择适当的特别是治疗影响个体的疾病或病症的治疗剂或预防试剂。治疗试剂包含但不限于小分子化合物、激动剂、拮抗剂、蛋白质(包含肽和抗体或抗体片段)、拟肽类、核酸、基因治疗载体、放疗、化疗，以及其它候选治疗试剂。

然后将获得的信息用于测定疾病关联组织对药物治疗方法的反应。这些方法包含测定患者切除肿瘤后对特定治疗的反应，肿瘤扩散复发后，肿瘤对放疗、术后放疗、或化疗的反应。

除了能够筛选用于调节活性的候选试剂外，本文描述的阵列可以用作测定试剂如治疗试剂的作用方式。

药物基因组学分析

本文描述的阵列还用于检测由个体的基因型引起的蛋白、核酸表达或活性，以测定个体对特殊药剂的反应能力，从而来选择特异于该个体的适当的治疗或预防试剂(如药物)(本文中指“药物基因组学”)。

在这个能力中，本文描述的阵列可以用于预后或预测分析以鉴定患者对基于遗传图谱的特定药物治疗的反应性和抗性。在这种分析中，患者对药物治疗反应的历史数据与来自这些患者患病组织样品的转录物特异性元件的杂交模式有关。然后将该信息用于测定未来患者对相同药物治疗的反应。这些方法包含测定患者肿瘤切除后、肿瘤扩散复发后的预后，和测量肿瘤对放疗、术后放疗或化疗的反应。

示例性的将使用本文提供的转录组分析的治疗剂治疗包括但不限于关节炎药物治疗、化疗药物、治疗抗体、治疗蛋白或肽、治疗核酸、抗精神病药物、抗抑郁药、抗哮喘药、抗病毒药、和抗细菌药、抗高血压药、降低胆固醇药和抗真菌药。阵列还可以用于鉴定疾病进展、疾病的进攻性、和肿瘤复发分期的鉴定。

本文提供的阵列还可以用于测量个体对特殊治疗剂的不利反应的程度，以准确滴定治疗时间的剂量并提供更少的不利药物反应。不同的多态性可以导致特殊治疗剂的增加的或降低的新陈代谢。如果常规降解酶活性由于多态性而被降低，那么标准剂量可能引起比平常更不利的反应。在许多药物的效力和毒性方面，药物代谢酶、转运体、受体和其它药物靶中的遗传多态性与个体差异相关。例如，硫嘌呤甲基转移酶(TPMT)导致一般描述的试剂6-巯基嘌呤的降解的改变(McLeod and Yu，2003，Cancer Invest.21(4)：630-40)。这个基因变体具有显著的临床含义，因为具有功能型相关的TPMT基因中的同型突变的患者经历了给药常规剂量6-MP后极端或致命的毒性。在该实施方案中，将样品的表达模式与来自参照样品的转录物表达的参照模式相比较，当出现表达模式基本相应于预测的参照模式中的一个或多个时，则表明个体可能经历治疗的不利反应。

在优选的实施方案中，包含还没有与治疗剂接触的目标细胞或组织的对照样品也与阵列结合，以用于比较。

本文描述的阵列还可以用于检测新的或现有治疗的临床试验。特别是，阵列用于预选具有病理状况的患者群中的患者，或预筛选具有病理状况的患者，对预选或筛选的患者施用进行临床试验的试验治疗剂或其它治疗剂以治疗病理状况，从而患者对药物产生最优的反应。药物发现和研究分析

本文提供的阵列可以用于药物发现和研究方法中。例如，阵列可以用于测定一个或多个转录组的转录物/基因对试验治疗剂、新的合成化合物和其它感兴趣试剂的反应。试剂可以是已知具有治疗用途或可以是新研制出的候选治疗剂。

这样，本文描述的阵列可以用于筛选一个或大量调节目标细胞或组织功能的候选试剂。与方法一致，将在一个或更多本文描述的阵列上的用候选治疗剂处理的样品的杂交模式与未处理对照样品的杂交模式对比。处理样品和对照样品的杂交的转录物特异性元件间的差异表明候选药剂在调节目标细胞或组织功能的能力。

本文提供的组合物和方法将更详细地描述在特定实施例中。下面的实施例为解释性目的，无意于以任何方式限制或定义本发明。

实施例

实施例1：结肠直肠癌转录组序列的初始列表

应用下面的方法获得初始结肠直肠癌转录组阵列序列，其公开在欧洲专利申请EP 04105479.2，EP 04105482.6，EP 04105483.4，EP 04105484.2，EP04105507.0和EP04105485.9以及美国临时专利申请60/662,276和60/700,293中。

材料和方法

公开数据筛选

从所有的下载数据库得到的所有公开的表达序列标签(ESTs)恢复成FASTA格式，并将所有921个数据库连接到含272,686个单EST的单一序列文件。然后使用Paracel Filtering Package(PFP)(可以在网址www.paracel.com中得到)中的特定过滤器的组合筛选这些EST以确保不希望的序列元件没有进入集合程序。选择设置以掩饰低复杂区，载体序列和重复序列。过滤掉包含污染E.coli序列的序列、线粒体DNA和核糖体RNA的序列。这些筛选步骤之后，前个阶段掩饰的低质量末端区域和任何主要包含低复杂重复的序列用“trimjunk”算法(Paracel Filtering Package)除去。最后，包含少于100个良好碱基的序列筛选出来。

数据筛选

EST的筛选在“Phred”输出文件而非原始FASTA序列文件上进行。“Phred”文件包含序列的质量信息，也就是对于每个碱基来洗称为统计上的显著性。还允许使用其它的已知为“qualclean”的筛选算法。Qualclean从序列文件的开始和结尾删去了低质量序列。其它所用的过滤算法与公开数据所列的那些相同。

数据族

公开的和内部的数据的集合通过使用Paracel软件“Paracel TranscriptAssembler(PTA)”(见网址www.paracel.com)在簇阀值(clustering threshold)为50下进行。集合在一起(重叠群)的这些序列针对Genbank NT数据库进行BLAST，以进行注释和鉴定序列的方向。在重叠群被鉴定为与Genbank中所列的那些相比处于相反方向的情况下，数据被反向补充并且两个方向的都包含在最后的数据组中。

结果

公开数据库中结肠直肠源序列的重新集合

为了鉴定可以在结肠直肠组织中表达的序列，在美国国家健康学会网址(见网址：cgap.nci.nih.gov)上的癌基因组分析项目(CGAP)入口检查已经源于结肠直肠组织、结肠直肠癌组织、或结肠直肠源细胞系的序列信息。用CGAP鉴定了所有的921个EST数据库列表。然后从UniGene数据库检索库本身。以单一的数据库中校对信息，产生了共272,686个独立序列。然后用Paracel转录物集合工具集合独立序列产生共18,721个重叠群和41,023单拷贝EST(singlet)。然后将18,721个重叠群与下面所列测序项目产生的重叠群比较。该比较显示了针对最终数量为16,350个公开来源的重叠群，只有有限的冗余。

新的结肠直肠表达的序列的鉴定

为了鉴定其它能够在结肠直肠组织中表达的转录物，无论是正常的或恶性的，从来自80个正常和恶性结肠直肠肿瘤组织的RNA库产生cDNA文库。将RNA反转录并按方向克隆进入克隆载体。然后将文库转化入细菌并平板培养产生单个克隆。选择共50,000个克隆并测序确定他们的同一性。然后集合50,000个克隆产生总共10,396个相同的序列，组合单一序列得到4,129个重叠群和6,267单拷贝EST。然后对4,129个重叠群和6,267单拷贝EST来源的序列信息相对于公众可用的包含Genebank的数据库进行再次进行BLAST以完全鉴定新序列，并且相对于所有公众可用的结肠克隆组织文库产生的数据库进行再次进行BLAST以鉴定先前还没有报道在结肠直肠癌中表达的序列。该分析总共鉴定了2,773个先前在基因库中还没有报道作为注释基因或EST的新序列。

实施例2：结肠直肠癌序列的进一步鉴定

其它的结肠直肠序列信息通过在含有公众可用的信息的微阵列上的检测来鉴定结肠直肠组织中表达的其它转录物而获得。这些序列补充了起始的转录组阵列序列信息，提供了更完整的代表结肠直肠癌转录组的阵列。

方法

标记40个来自结肠直肠组织(27个肿瘤和13个正常)的RNA，并杂交到含有公开的可利用信息的微阵列上。从这些阵列得到转录物列表，用于那些在阵列的至少一个中存在和背景技术中描述的目标(也就是鉴定在至少一个结肠直肠样品中表达的转录物)。

芯片上使用GI或与探针组相关编号的起始工作显示了目标序列和注释目标的全序列之间的一些差别。因此，确定使用目标的实际序列检验公开序列数据库以从公开数据检索这些序列，以校正公共数据库的这些序列，所述公共数据库最代表目标，并且该目标已经通过阵列试验以经验为主地确定表达在结肠直肠组织中。

然后从全序列中提取这些序列并相对于临时专利序列列表(也就是从内部测序和公开数据库采集鉴定的那些转录物)对其进行BLAST。从而衍生了21,909个转录物的列表，该列表中的转录物不美国临时专利申请60/662,276中的序列列表中出现。

该序列的全部列表对公开的EST数据库(dbEST)在施用高严谨的条件下(覆盖90％目标)进行BLAST。然后从公开数据库校正那些与dbEST不吻合的那些序列。通过该方法成功检索16,377个序列的集合。

将余下的6,635个序列对RefSeq数据库进行BLAST。目标中1,663个的集合产生了一个与RefSeq的很强的不一致。而且，这些序列从公开数据库中校正。

从余下的4,972目标中，提取了GI数量，将他们用于从公开数据库中检索相关序列。

该三个序列列表连接入一个单一文件并用内部副本序列检测软件检索。其产生了22,376个无重复序列的最终列表。

实施例3：结肠直肠癌转录组的反义序列

随着内源反义RNA转录物作用的科学交流兴趣的增加，对结肠直肠癌数据库进行检查反义转录物的存在。

方法

集合之后，内部和公开的数据重叠群对Genbank NT数据库进行BLAST以达到注释的目的和鉴定序列的方向。在重叠群被鉴定为与Genbank中所列的那些相比处于相反方向的情况下，数据被反向补充并且两个方向的都包含在最后的数据组中。这样，结合了反义和相应的有义转录物形成了5,672个转录物的基因序列(基因列表H)。

实施例4：肺癌转录组序列的列表

用于衍生基因列表I到基因列表O所述肺癌转录物阵列序列的方法与用于衍生结肠直肠癌序列的那些方法相似。

这些55,626个肺癌序列是公开的可利用的肺EST文库的内部集合的结果。他们是先前显示与肺癌有关的数据的唯一集合。这些序列中的一部分在肺癌中表达并且先前没有被鉴定为注释基因。

结果

公开数据库中的肺来源序列的重新集合

为了鉴定可能在肺组织中表达的序列，从CGAP入口检查已经来源于肺组织、肺肿瘤组织、和肺肿瘤源细胞系的序列信息。使用CGAP入口鉴定了301个EST文库的总列表。然后从UniGene数据库检索文库本身。在单一数据库中校对信息产生全部471,630个独立序列。然后使用Paracel转录物集合工具集合独立序列产生总共36,431个重叠群和19,195个单拷贝EST。

新的肺表达序列的鉴定

为了鉴定其它的可能表达在肺组织中的转录物，无论是正常或是恶性的，由来源于超过80个正常和恶性肺肿瘤组织的RNA库建立了cDNA文库。将RNA反转录并按方向克隆入克隆载体。然后将文库转化入细菌并培育产生独立的克隆。共选择4,032个克隆并测序确定他们的同一性。然后筛选克隆产生共3,450个单一序列，这些序列被集中并提供602个重叠群和1,589个单拷贝EST。然后重叠群和单拷贝EST来源的序列信息相对于公众可得到的包含基因库的数据库进行再次BLAST以完全鉴定新序列，并且相对于所有公众可利用的肺组织文库产生的数据库进行再次BLAST以鉴定先前还没有报道在肺癌中表达的序列。该分析总共鉴定了24个先前在基因库中还没有报道作为注释基因或EST的新序列。

实施例5：乳腺癌转录组序列的列表

用于衍生基因列表P到基因列表V中所述的乳腺癌转录物阵列序列的方法与用于获得结肠直肠癌序列和肺癌序列的那些方法相似。

这些87,059个乳腺癌序列是公开的可利用的乳腺EST文库的内部集合的结果。他们是先前显示与乳腺癌有关的数据的唯一集合。这些序列的一部分在乳腺癌中表达并且先前没有被鉴定为注释基因。

结果

公开数据库中的乳腺来源序列的重新集合

为了鉴定可能在乳腺组织中表达的序列，从CGAP入口检查已经来源于乳腺组织、乳腺肿瘤组织、和乳腺肿瘤源细胞系的序列信息。使用CGAP入口鉴定了1,130个EST文库的总列表。然后从UniGene数据库检索文库本身。在单一数据库中校对信息产生共288,854个独立序列。然后使用Paracel转录物集合工具集合独立序列产生总共17,2911个重叠群和24,178个单拷贝EST。

新的乳腺表达序列的鉴定

为了鉴定其它的可能表达在乳腺组织中的转录物，无论是正常或是恶性的，由来源于超过120个正常和恶性乳腺肿瘤组织的RNA库建立了cDNA文库。将RNA反转录并按方向克隆入克隆载体。然后将文库转化入细菌并培育产生独立的克隆。共选择157,260个克隆并测序确定他们的同一性。然后筛选克隆产生共127,306个单一序列，这些序列被集中并提供14,489个重叠群和24,308个单拷贝EST。然后重叠群和单拷贝EST来源的序列信息相对于公众可得到的包含Genebank的数据库进行再次BLAST以完全鉴定新序列，并且相对于所有公众可利用的乳腺组织文库产生的数据库进行再次BLAST以鉴定先前还没有报道在乳腺癌中表达的序列。该分析总共鉴定了3,278个先前在基因库中还没有报道在Genebank中作为注释基因或EST的新序列。

实施例6：与肝炎相关的肝组织来源的转录组序列的列表

用于衍生基因列表W到基因列表CC所述肝炎相关的肝组织的转录物阵列序列的方法与用于衍生结肠直肠癌序列和肺癌序列的那些方法相似。

这些86,122个患病肝组织序列是公开的可利用的肝EST文库的内部集合的结果。他们是先前显示出涉及与肝炎相关的肝组织的数据的唯一集合。这些序列的一部分在肝炎相关的肝组织中表达并且先前没有被鉴定为注释基因。

结果

公开数据库中的患病肝序列的重新集合

为了鉴定可能在肝炎相关的肝组织中表达的序列，从CGAP入口检查已经来源于肝组织、肝炎相关的肝组织、和肝炎相关的肝组织来源的细胞系的序列信息。使用CGAP入口鉴定了63个EST文库的总列表。然后从UniGene数据库检索文库本身。在单一数据库中校对信息产生全部326,079个独立序列。然后使用Paracel转录物集合工具集合独立序列产生总共24,744个重叠群和37,503个单拷贝EST。然后将重叠群与产生自下述测序项目的重叠群进行比较，该项目给出了最终24,744个公开来源的重叠群。

与肝炎相关的肝组织表达的新序列鉴定

为了鉴定其它的可能表达在与肝炎相关的肝组织中的转录物，由来源于超过40个正常和患病的肝组织样品的RNA库建立了cDNA文库。将RNA反转录并按方向克隆入载体。然后将文库转化入细菌并培育产生独立的克隆。共选择4,944个克隆并测序确定他们的同一性。然后筛选克隆产生共2,869个单一序列，这些序列被集中并提供45个重叠群和2,300个单拷贝EST。然后重叠群和单拷贝EST来源的序列信息相对于公众可得到的数据库(包含NCBI RefSeq集合)再次进行BLAST，以完全鉴定新序列，并且相对于所有公众可利用的肝组织文库产生的数据库进行再次BLAST以鉴定先前还没有报道在肝炎相关的肝组织中表达的序列。该分析总共鉴定了13个先前在Genebank中还没有报道作为注释基因或EST的新序列。

实施例7：与神经退行性相关的脑组织来源的转录组序列的列表

用于衍生基因列表DD到基因列表JJ中所述的神经细胞退行性的脑组织的转录物阵列序列的方法与衍生结肠直肠癌序列和肺癌序列的那些方法相似。

这些136,326个患病脑组织序列是公开的可利用的脑EST文库的内部集合的结果。他们是先前显示涉及神经退行性的脑组织的唯一的数据集合。这些序列的一部分在神经退行性相关的脑组织中表达并且先前没有被鉴定为注释基因。

结果

公开数据库中的患病脑组织序列的重新集合

为了鉴定可能在神经退行性相关的脑组织中表达的序列，从CGAP入口检查已经来源于脑组织、神经退行性相关的脑组织、和神经退行性相关的脑组织来源的细胞系的序列信息。使用公共数据库鉴定了674个EST文库的总列表。然后从UniGene数据库检索文库本身。在单一数据库中校对信息产生共656,559个独立序列。然后使用Paracel转录物集合工具集合独立序列产生总共33,275个重叠群和65,022个单拷贝EST。

与神经退行性相关的脑组织表达的新序列鉴定

为了鉴定其它的可能表达在与神经退行性相关的脑组织中的转录物，由来源于超过20个正常和患病的脑组织样品的RNA库建立了eDNA文库。将RNA反转录并按方向克隆入载体。然后将文库转化入细菌并平板培育产生独立的克隆。共选择7,200个克隆并测序确定他们的同一性。然后筛选克隆产生共3,115个序列，这些序列被集合提供346个重叠群和1,671个单拷贝EST。然后重叠群和单拷贝EST来源的序列信息相对于公众可得到的数据库(包含NCBI RefSeq集合)再次进行BLAST以完全鉴定新序列，并且相对于所有公众可利用的脑组织文库产生的数据库进行再次BLAST以鉴定先前还没有报道在神经退行性相关的脑组织中表达的序列。该分析总共鉴定了5个先前在Genebank中还没有报道作为注释基因或EST的新序列。

实施例8：来自结肠直肠、前列腺和乳腺肿瘤序列的比较

来自结肠直肠肿瘤、前列腺肿瘤和乳腺肿瘤的序列与常规表达的序列进行比较。图2提供了表示所有结肠、前列腺和乳腺组织的公开可用序列的BLAST比较图表。这是公开可用序列的集合后的所有序列的比较，如上面描述而获得。用于进行BLAST这些序列的参数的分界E值(cut offE-value)为0.1，百分比同一性为90％。标准分界值来自数千个单独BLAST结果的手工检查和可视化(visualization)。当允许在序列之间存在相当的额定差异时时，满足这些标准的发现物可以清楚地分类为“相同的”发现物。未能符合标准的发现物便被认为不符合阵列设计目的的要求。对于每个结果，给出了两个值。“零同源性”结果显示了相对于被BLAST的数据库没有同源性的序列的数量。第二个值定义为“不符合(no hit)”并在在这种情况下，待查链具有少于50％的百分比范围，也就是说待查序列具有少于目标序列表示长度的50％。

零同源性序列是“不符合(no-hit)”序列的亚组。总序列的数目减去“不符合”序列的数目得到两个群体之间共同序列的数目。该说明书中提到的所有文献并入本文作为参考。

本发明描述的实施方案的各种修饰和变体对于本领域技术人员来说都没有离开本发明的范围和精神。虽然本发明结合特定的优选实施方案来描述，但是其应该理解权利要求不应该受限于这样的特定的实施方案。的确，对于本领域技术人员明显的实施本发明所述方式的各种修改已被本发明所覆盖。

Claims

1.包含患病组织转录组的阵列。

2.如权利要求1所述的阵列，其中所述患病组织包含患有肿瘤疾病、炎症疾病或退行性疾病的组织。

3.如权利要求1所述的阵列，其中所述患病组织包含患有结肠直肠癌、肺癌、或乳腺癌的组织。

4.如权利要求1-3任一项所述的阵列，其中所述转录组包含一个或多个组织特异性元件，每个表示来自患病结肠直肠组织序列的转录物，每个所述的转录物独立地选自基因列表B、基因列表C、基因列表D、基因列表E、基因列表F、基因列表G或基因列表H中所描述的转录物。

5.如权利要求1-3任一项所述的阵列，其中所述转录组包含一个或多个组织特异性元件，每个表示来自患病肺组织序列的转录物，每个所述的转录物独立地选自基因列表J、基因列表K、基因列表L、基因列表M、基因列表N或基因列表O中所描述的转录物。

6.如权利要求1-3任一项所述的阵列，其中所述转录组包含一个或多个组织特异性元件，每个表示来自患病乳腺组织序列的转录物，每个所述的转录物独立地选自基因列表Q、基因列表R、基因列表S、基因列表T、基因列表U或基因列表V中所描述的转录物。

7.如权利要求1-3任一项所述的阵列，其中所述转录组包含一个或多个组织特异性元件，每个表示来自患病肝组织序列的转录物，每个所述的转录物独立地选自基因列表X、基因列表Y、基因列表Z、基因列表AA、基因列表BB或基因列表CC中所描述的转录物。

8.如权利要求1-3任一项所述的阵列，其中所述转录组包含一个或多个组织特异性元件，每个表示来自患病脑组织序列的转录物，每个所述的转录物独立地选自基因列表EE、基因列表FF、基因列表GG、基因列表HH、基因列表II或基因列表JJ中所描述的转录物。

9.如权利要求1-3任一项所述的阵列，其中所述转录组包含一个或多个组织特异性元件，每个表示来自癌组织序列的转录物，每个所述的转录物独立地选自基因列表B、C、D、E、F、G、H、J、K、L、M、N、O、Q、R、S、T、U或V中所描述的转录物。

10.如权利要求4-9任一项所述的阵列，其中所述转录组包含70％的表示至少一个所述基因列表中的转录物的组织特异性元件。

11.根据权利要求10所述的阵列，其中所述转录组包含70％的表示每个所述基因列表中的转录物的组织特异性元件。

12.根据权利要求4-11任一项所述的阵列，其中表示所述转录物的所述组织特异性元件是具有互补于所述转录物的序列的核酸分子。

13.根据权利要求4-11任一项所述的阵列，其中表示所述转录物的所述组织特异性元件是所述转录物编码的多肽。

14.根据权利要求4-11任一项所述的阵列，其中表示所述转录物的所述组织特异性元件是特异于所述转录物编码的多肽的抗体。

15.前述任一项权利要求所述的阵列，其中所述转录组包含来源于患病组织的编码和非编码转录物的核酸分子。

16.前述任一项权利要求所述的阵列在诊断患者病理状况的方法中的用途，其包含：

a)将来自患者的生物样品的转录物特异性元件与阵列接触；和

b)检测转录物特异性元件与阵列的结合；

其中结合的检测指示病理状况的诊断。

17.前述任一项权利要求所述的阵列在检测已被诊断具有疾病或病症的患者是否将在初步医疗干预后恢复或复发的方法中的用途。

18.前述任一项权利要求所述的阵列在检测遭受病理状况的患者对治疗病理状况的治疗剂的反应性的方法中的用途，其包含：

a)将来自患者生物样品的转录物特异性元件与阵列接触；和

b)检测阵列与转录物特异性元件的结合；

其中结合的检测指示患者的病理状况对治疗剂的治疗的反应性。

19.根据权利要求16、17或18所述的用途，当从属于权利要求12时，其中，在步骤b中，结合的检测是杂交的检测。