CN109081867B

CN109081867B - 癌症特异性tcr及其分析技术和应用

Info

Publication number: CN109081867B
Application number: CN201810609282.3A
Authority: CN
Inventors: 张泽民; 郑春红; 郑良涛; 张园园; 郭心怡; 胡学达; 董明晖
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2017-06-13
Filing date: 2018-06-13
Publication date: 2021-05-28
Anticipated expiration: 2038-06-13
Also published as: CN109081867A

Abstract

本发明利用单细胞转录组分析技术，通过分析癌症患者的癌症组织中浸润的T细胞的TCR基因，发现和分离并表征了一系列新的克隆性的TCR基因及其序列，这些TCR可能是由肿瘤细胞抗原刺激T细胞产生的，表达这些TCR的T细胞可能具有特异性识别肿瘤细胞抗原，并杀死肿瘤细胞的活性，存在用于过继细胞疗法的前景。

Description

癌症特异性TCR及其分析技术和应用

技术领域

本发明涉及生物技术领域，尤其是涉及癌症特异性TCR及其分析技术，以及所述癌症特异性TCR在癌症治疗中的应用。

背景技术

高等生物防御机制高度依赖于包含T细胞和B细胞在内的过继免疫系统。T细胞具有在细胞表面上表达的特异性的受体分子TCR(T cell receptor)，其能识别并且区分自身或外源抗原。通过由抗原受体反应来传递细胞内信号，促进细胞增殖，进而启动各种免疫应答，如增强炎性细胞因子、趋化因子等的产生。

TCR识别与抗原呈递细胞表达的主要组织相容性复合体(MHC)以及抗原肽结合，形成肽-MHC(pMHC)-TCR复合体，将自身和非自身的抗原区分开并且识别抗原肽。TCR是由两个TCR多肽链组成的异源二聚体受体分子，大多数T细胞表达αβTCR，以及少数T细胞表达具有特殊功能的γδTCR。α链和β链TCR分子与多个CD3分子(CD3ζ链、CD3ε链、CD3γ链和CD3δ链)形成复合体，在抗原识别之后传递细胞内信号，并且启动多种免疫应答。内源性抗原，诸如来自癌细胞的癌抗原或在细胞内增殖的病毒抗原，被MHC I类分子递呈为抗原肽。抗原呈递细胞通过内吞作用获得并且加工来源于外源性微生物的抗原，然后递呈在MHC II类分子上。这样的抗原被CD8⁺ T细胞和CD4⁺ T细胞各自所表达的TCR识别。

TCR基因由基因组中不同区域编码的多个V区(可变区，V)、J区(连接区，J)、D区(多变区，D)和C区(恒定区，C)组成。在T细胞分化过程中，这些基因片段以多种组合进行基因重排。α链和γ链TCR表达由V-J-C组成的基因，而β链和δ链TCR表达由V-D-J-C组成的基因。目前，IMGT(International ImMuno GeneTics project)的数据库具有43种功能性α链TCR V基因片段(TRAV)、50种TCR J基因片段(TRAJ)，40～42种功能性β链TCR V基因片段(TRBV)、2种TCR D基因片段(TRBD)、13种TCR J基因片段(TRBJ)，4～6种功能性γ链TCR V基因片段(TRGV)、5种TCR J基因片段(TRGJ)，3种功能性δ链TCR V基因片段(TRDV)、3种TCR D基因片段(TRDD)和4种TCR J基因片段(TRDJ)(Nucleic Acid Research，2009，37(suppl1)，D1006-D1012.)。通过这些基因片段的重排产生多样性。此外，在V基因片段和D基因片段之间，或在D基因片段和J基因片段之间，插入或缺失一个或多个碱基，导致随机氨基酸序列的形成，从而产生更多多样性的TCR基因序列。

TCR分子与pMHC复合体表面直接结合的区域(TCR足迹)由V区内的三个多样性互补确定区(CDR)CDR1区、CDR2区和CDR3区构成。CDR3区具体包括一部分V区、一部分J区和由随机序列形成的V-D-J区，形成最多样的抗原识别位点。同时，其它区域被称为FR(构架区)，用于形成TCR分子的骨架结构。胸腺中的T细胞在分化和成熟过程中，β链TCR最先进行基因重排，并且缀合pTα分子以形成前TCR复合体分子。然后，α链TCR进行重排形成αβTCR分子，并且当没有形成功能性αβTCR时，则在其他α链TCR基因等位基因中发生重排。已知在胸腺中进行正/负选择之后，选择出具有适当亲和力的TCR以获得抗原特异性。

T细胞产生对特定抗原具有高水平特异性的一种TCR。由于在活的生物体中有许多抗原特异性T细胞，可形成多样性TCR库，以有效起到抵御多种病原体的防御机制的作用，TCR库是免疫细胞的特异性或多样性的重要指示物。对TCR库的分析是提升免疫反应效果或治疗自身免疫性疾病的有用方法。如果T细胞应答于抗原而进行增殖，则在多样性库中观察到特定TCR基因的比率增加(克隆性增加)。已经尝试通过对TCR库进行分析，以根据克隆性的增加来检测肿瘤中表达TCR的淋巴细胞的发育(Leukemia Research，2003，27，305-312)；报道了在暴露于选择性刺激具有特定Vβ链的TCR的分子(诸如超抗原)时，特定Vβ链的使用频率增加(Immunology 1999，96，465-72.)。为了研究抗原特异性免疫应答，频繁用于分析由免疫失调诱导的难治的自体免疫性疾病，诸如类风湿性关节炎、系统性红斑狼疮、肖格伦综合征和特发性血小板减少性紫癜，并且已证明了其有用性。

当前免疫治疗已经成为肿瘤临床治疗中不可或缺的环节。免疫治疗的药物和方案涉及到机体免疫系统识别和攻击癌细胞的各个阶段。已有的肿瘤免疫药物包括以下多个类型：靶向癌细胞的抗体、过继细胞治疗、溶瘤病毒、树突状细胞相关治疗、DNA和蛋白水平的肿瘤疫苗、免疫激活细胞因子以及其他免疫调节化合物。其中针对T细胞检验点抑制蛋白的抗体类药物和肿瘤抗原特异性的T细胞过继疗法近年来取得突破，广受瞩目。

过继细胞疗法(adoptive cell transfer，ACT)，是将激活的T淋巴细胞输入机体行使免疫功能。一般操作方式为：从病患肿瘤组织中分离肿瘤浸润淋巴细胞群，从中分离出T细胞并辅以T细胞生长因子(如IL-2)在体外培养和激活；筛选出具有肿瘤特异性的T细胞进行体外扩大培养，随后输入患者体内，联合化疗或放疗共同治疗。ACT最具挑战的步骤是T细胞特异地识别肿瘤细胞。嵌合抗原受体-T细胞(Chimeric Antigen Receptor T-cell,CAR-T)疗法和TCR-T疗法是提高其效率的有效途径。CAR-T需要构建嵌合抗原受体，通常是用编码两个抗体可变区的基因编码一个可变区，再嫁接到TCR的胞内部分，后者可以激活T细胞的免疫活性。而TCR-T疗法则用人类肿瘤抗原刺激表达人类MHCⅠ的小鼠，从而得到特异杀死肿瘤的小鼠T细胞，克隆其TCR并使其在病患T细胞上表达，最终将这些改造好的细胞输回病患体内进行免疫治疗。因此，如何高效分离和分析患者个体化的TCR，并且开发可用于肿瘤治疗的TCR-T细胞有重要的临床价值。

发明内容

本发明发明人利用单细胞转录组分析技术，通过分析癌症患者的癌症组织中浸润的T细胞，发现、分离并表征了一系列新的克隆性的TCR基因及其序列，这些TCR可能是由肿瘤细胞抗原刺激T细胞产生的，表达这些TCR的T细胞可能具有特异性识别肿瘤细胞抗原，并杀死肿瘤细胞的活性，存在用于过继细胞疗法的前景。

进一步的，本发明发明人提供了一种利用单细胞TCR序列进行柔性对接，进而预测TCR，MHC和小肽段的结合能力，并用于预测或发现癌症患者体内新的肿瘤抗原的方法。

本发明的一个目的是提供一系列新的TCR。本发明的再一个目的是提供编码这些TCR的核酸序列。本发明的另一个目的是提供携带所述TCR的核酸序列的表达载体。本发明的另一个目的是提供表达所述TCR的T细胞。本发明的另一个目的是提供所述T细胞的制备方法，以及相应T细胞在过继免疫治疗中的应用。本发明的另一个目的是提供一种新的T细胞的单细胞转录组分析方法。本发明的另一个目的是提供一种预测TCR，MHC和小肽段结合能力的计算方法。本发明的再一个目的是提供一种预测新的肿瘤抗原的方法。

本发明的技术方案如下：

一种TCR，其α链的CDR3的氨基酸序列和β链的CDR3的氨基酸序列分别为表1-46中的每张表所列的TCR的α链的CDR3的氨基酸序列和β链的CDR3的氨基酸序列，或实质与之相似的序列。

优选所述TCR的α链的VJ和β链的VDJ分别如表1-46中的每张表所列的对应TCR的α链的VJ和β链的VDJ。

优选所述TCR的α链的V区的氨基酸序列和β链的V区的氨基酸序列分别如表1-46中的每张表所列的对应TCR的α链的V区的氨基酸序列和β链的V区的氨基酸序列，或实质与之相似的序列。

优选所述TCR的α链的全长核酸序列和β链的全长核酸序列分别如表1-46中的每张表所列的对应TCR的α链的全长核酸序列和β链的全长核酸序列，或与之基本上同源的核酸序列。

具体如下：

一种TCR，其α链的CDR3的氨基酸序列和β链的CDR3的氨基酸序列分别为表1中的SEQ ID No.1和SEQ ID No.3，或实质与之相似的序列。

优选所述TCR的α链的VJ和β链的VDJ分别如表1中对应所述。

优选所述TCR的α链的V区的氨基酸序列和β链的V区的氨基酸序列分别为表1中的SEQ ID No.2和SEQ ID No.4，或实质与之相似的序列。

一种TCR，其α链的CDR3的氨基酸序列和β链的CDR3的氨基酸序列分别为表2中的SEQ ID No.5和SEQ ID No.7，或实质与之相似的序列。

优选所述TCR的α链的VJ和β链的VDJ分别如表2中对应所述。

优选所述TCR的α链的V区的氨基酸序列和β链的V区的氨基酸序列分别为表2中的SEQ ID No.6和SEQ ID No.8，或实质与之相似的序列。

一种TCR，其α链的CDR3的氨基酸序列和β链的CDR3的氨基酸序列分别为表3中的SEQ ID No.9和SEQ ID No.11，或实质与之相似的序列。

优选所述TCR的α链的VJ和β链的VDJ分别如表3中对应所述。

优选所述TCR的α链的V区的氨基酸序列和β链的V区的氨基酸序列分别为表3中的SEQ ID No.10和SEQ ID No.12，或实质与之相似的序列。

一种TCR，其α链的CDR3的氨基酸序列和β链的CDR3的氨基酸序列分别为表4中的SEQ ID No.13和SEQ ID No.15，或实质与之相似的序列。

优选所述TCR的α链的VJ和β链的VDJ分别如表4中对应所述。

优选所述TCR的α链的V区的氨基酸序列和β链的V区的氨基酸序列分别为表4中的SEQ ID No.14和SEQ ID No.16，或实质与之相似的序列。

一种TCR，其α链的CDR3的氨基酸序列和β链的CDR3的氨基酸序列分别为表5中的SEQ ID No.17和SEQ ID No.19，或实质与之相似的序列。

优选所述TCR的α链的VJ和β链的VDJ分别如表5中对应所述。

优选所述TCR的α链的V区的氨基酸序列和β链的V区的氨基酸序列分别为表5中的SEQ ID No.18和SEQ ID No.20，或实质与之相似的序列。

一种TCR，其α链的CDR3的氨基酸序列和β链的CDR3的氨基酸序列分别为表6中的SEQ ID No.21和SEQ ID No.23，或实质与之相似的序列。

优选所述TCR的α链的VJ和β链的VDJ分别如表6中对应所述。

优选所述TCR的α链的V区的氨基酸序列和β链的V区的氨基酸序列分别为表6中的SEQ ID No.22和SEQ ID No.24，或实质与之相似的序列。

一种TCR，其α链的CDR3的氨基酸序列和β链的CDR3的氨基酸序列分别为表7中的SEQ ID No.25和SEQ ID No.27，或实质与之相似的序列。

优选所述TCR的α链的VJ和β链的VDJ分别如表7中对应所述。

优选所述TCR的α链的V区的氨基酸序列和β链的V区的氨基酸序列分别为表7中的SEQ ID No.26和SEQ ID No.28，或实质与之相似的序列。

一种TCR，其α链的CDR3的氨基酸序列和β链的CDR3的氨基酸序列分别为表8中的SEQ ID No.29和SEQ ID No.31，或实质与之相似的序列。

优选所述TCR的α链的VJ和β链的VDJ分别如表8中对应所述。

优选所述TCR的α链的V区的氨基酸序列和β链的V区的氨基酸序列分别为表8中的SEQ ID No.30和SEQ ID No.32，或实质与之相似的序列。

一种TCR，其α链的CDR3的氨基酸序列和β链的CDR3的氨基酸序列分别为表9中的SEQ ID No.33和SEQ ID No.35，或实质与之相似的序列。

优选所述TCR的α链的VJ和β链的VDJ分别如表9中对应所述。

优选所述TCR的α链的V区的氨基酸序列和β链的V区的氨基酸序列分别为表9中的SEQ ID No.34和SEQ ID No.36，或实质与之相似的序列。

一种TCR，其α链的CDR3的氨基酸序列和β链的CDR3的氨基酸序列分别为表10中的SEQ ID No.37和SEQ ID No.39，或实质与之相似的序列。

优选所述TCR的α链的VJ和β链的VDJ分别如表10中对应所述。

优选所述TCR的α链的V区的氨基酸序列和β链的V区的氨基酸序列分别为表10中的SEQ ID No.38和SEQ ID No.40，或实质与之相似的序列。

一种TCR，其α链的CDR3的氨基酸序列和β链的CDR3的氨基酸序列分别为表11中的SEQ ID No.41和SEQ ID No.43，或实质与之相似的序列。

优选所述TCR的α链的VJ和β链的VDJ分别如表11中对应所述。

优选所述TCR的α链的V区的氨基酸序列和β链的V区的氨基酸序列分别为表11中的SEQ ID No.42和SEQ ID No.44，或实质与之相似的序列。

一种TCR，其α链的CDR3的氨基酸序列和β链的CDR3的氨基酸序列分别为表12中的SEQ ID No.45和SEQ ID No.47，或实质与之相似的序列。

优选所述TCR的α链的VJ和β链的VDJ分别如表12中对应所述。

优选所述TCR的α链的V区的氨基酸序列和β链的V区的氨基酸序列分别为表12中的SEQ ID No.46和SEQ ID No.48，或实质与之相似的序列。

一种TCR，其α链的CDR3的氨基酸序列和β链的CDR3的氨基酸序列分别为表13中的SEQ ID No.49和SEQ ID No.51，或实质与之相似的序列。

优选所述TCR的α链的VJ和β链的VDJ分别如表13中对应所述。

优选所述TCR的α链的V区的氨基酸序列和β链的V区的氨基酸序列分别为表13中的SEQ ID No.50和SEQ ID No.52，或实质与之相似的序列。

一种TCR，其α链的CDR3的氨基酸序列和β链的CDR3的氨基酸序列分别为表14中的SEQ ID No.53和SEQ ID No.55，或实质与之相似的序列。

优选所述TCR的α链的VJ和β链的VDJ分别如表14中对应所述。

优选所述TCR的α链的V区的氨基酸序列和β链的V区的氨基酸序列分别为表14中的SEQ ID No.54和SEQ ID No.56，或实质与之相似的序列。

一种TCR，其α链的CDR3的氨基酸序列和β链的CDR3的氨基酸序列分别为表15中的SEQ ID No.57和SEQ ID No.59，或实质与之相似的序列。

优选所述TCR的α链的VJ和β链的VDJ分别如表15中对应所述。

优选所述TCR的α链的V区的氨基酸序列和β链的V区的氨基酸序列分别为表15中的SEQ ID No.58和SEQ ID No.60，或实质与之相似的序列。

一种TCR，其α链的CDR3的氨基酸序列和β链的CDR3的氨基酸序列分别为表16中的SEQ ID No.61和SEQ ID No.63，或实质与之相似的序列。

优选所述TCR的α链的VJ和β链的VDJ分别如表16中对应所述。

优选所述TCR的α链的V区的氨基酸序列和β链的V区的氨基酸序列分别为表16中的SEQ ID No.62和SEQ ID No.64，或实质与之相似的序列。

一种TCR，其α链的CDR3的氨基酸序列和β链的CDR3的氨基酸序列分别为表17中的SEQ ID No.65和SEQ ID No.67，或实质与之相似的序列。

优选所述TCR的α链的VJ和β链的VDJ分别如表17中对应所述。

优选所述TCR的α链的V区的氨基酸序列和β链的V区的氨基酸序列分别为表17中的SEQ ID No.66和SEQ ID No.68，或实质与之相似的序列。

一种TCR，其α链的CDR3的氨基酸序列和β链的CDR3的氨基酸序列分别为表18中的SEQ ID No.69和SEQ ID No.71，或实质与之相似的序列。

优选所述TCR的α链的VJ和β链的VDJ分别如表18中对应所述。

优选所述TCR的α链的V区的氨基酸序列和β链的V区的氨基酸序列分别为表18中的SEQ ID No.70和SEQ ID No.72，或实质与之相似的序列。

一种TCR，其α链的CDR3的氨基酸序列和β链的CDR3的氨基酸序列分别为表19中的SEQ ID No.73和SEQ ID No.75，或实质与之相似的序列。

优选所述TCR的α链的VJ和β链的VDJ分别如表19中对应所述。

优选所述TCR的α链的V区的氨基酸序列和β链的V区的氨基酸序列分别为表19中的SEQ ID No.74和SEQ ID No.76，或实质与之相似的序列。

一种TCR，其α链的CDR3的氨基酸序列和β链的CDR3的氨基酸序列分别为表20中的SEQ ID No.77和SEQ ID No.79，或实质与之相似的序列。

优选所述TCR的α链的VJ和β链的VDJ分别如表20中对应所述。

优选所述TCR的α链的V区的氨基酸序列和β链的V区的氨基酸序列分别为表20中的SEQ ID No.78和SEQ ID No.80，或实质与之相似的序列。

一种TCR，其α链的CDR3的氨基酸序列和β链的CDR3的氨基酸序列分别为表21中的SEQ ID No.81和SEQ ID No.83，或实质与之相似的序列。

优选所述TCR的α链的VJ和β链的VDJ分别如表21中对应所述。

优选所述TCR的α链的V区的氨基酸序列和β链的V区的氨基酸序列分别为表21中的SEQ ID No.82和SEQ ID No.84，或实质与之相似的序列。

一种TCR，其α链的CDR3的氨基酸序列和β链的CDR3的氨基酸序列分别为表22中的SEQ ID No.85和SEQ ID No.87，或实质与之相似的序列。

优选所述TCR的α链的VJ和β链的VDJ分别如表22中对应所述。

优选所述TCR的α链的V区的氨基酸序列和β链的V区的氨基酸序列分别为表22中的SEQ ID No.86和SEQ ID No.88，或实质与之相似的序列。

一种TCR，其α链的CDR3的氨基酸序列和β链的CDR3的氨基酸序列分别为表23中的SEQ ID No.89和SEQ ID No.91，或实质与之相似的序列。

优选所述TCR的α链的VJ和β链的VDJ分别如表23中对应所述。

优选所述TCR的α链的V区的氨基酸序列和β链的V区的氨基酸序列分别为表23中的SEQ ID No.90和SEQ ID No.92，或实质与之相似的序列。

一种TCR，其α链的CDR3的氨基酸序列和β链的CDR3的氨基酸序列分别为表24中的SEQ ID No.93和SEQ ID No.95，或实质与之相似的序列。

优选所述TCR的α链的VJ和β链的VDJ分别如表24中对应所述。

优选所述TCR的α链的V区的氨基酸序列和β链的V区的氨基酸序列分别为表24中的SEQ ID No.94和SEQ ID No.96，或实质与之相似的序列。

一种TCR，其α链的CDR3的氨基酸序列和β链的CDR3的氨基酸序列分别为表25中的SEQ ID No.97和SEQ ID No.99，或实质与之相似的序列。

优选所述TCR的α链的VJ和β链的VDJ分别如表25中对应所述。

优选所述TCR的α链的V区的氨基酸序列和β链的V区的氨基酸序列分别为表25中的SEQ ID No.98和SEQ ID No.100，或实质与之相似的序列。

一种TCR，其α链的CDR3的氨基酸序列和β链的CDR3的氨基酸序列分别为表26中的SEQ ID No.101和SEQ ID No.103，或实质与之相似的序列。

优选所述TCR的α链的VJ和β链的VDJ分别如表26中对应所述。

优选所述TCR的α链的V区的氨基酸序列和β链的V区的氨基酸序列分别为表26中的SEQ ID No.102和SEQ ID No.104，或实质与之相似的序列。

一种TCR，其α链的CDR3的氨基酸序列和β链的CDR3的氨基酸序列分别为表27中的SEQ ID No.105和SEQ ID No.107，或实质与之相似的序列。

优选所述TCR的α链的VJ和β链的VDJ分别如表27中对应所述。

优选所述TCR的α链的V区的氨基酸序列和β链的V区的氨基酸序列分别为表27中的SEQ ID No.106和SEQ ID No.108，或实质与之相似的序列。

一种TCR，其α链的CDR3的氨基酸序列和β链的CDR3的氨基酸序列分别为表28中的SEQ ID No.109和SEQ ID No.111，或实质与之相似的序列。

优选所述TCR的α链的VJ和β链的VDJ分别如表28中对应所述。

优选所述TCR的α链的V区的氨基酸序列和β链的V区的氨基酸序列分别为表28中的SEQ ID No.110和SEQ ID No.112，或实质与之相似的序列。

一种TCR，其α链的CDR3的氨基酸序列和β链的CDR3的氨基酸序列分别为表29中的SEQ ID No.113和SEQ ID No.115，或实质与之相似的序列。

优选所述TCR的α链的VJ和β链的VDJ分别如表29中对应所述。

优选所述TCR的α链的V区的氨基酸序列和β链的V区的氨基酸序列分别为表29中的SEQ ID No.114和SEQ ID No.116，或实质与之相似的序列。

一种TCR，其α链的CDR3的氨基酸序列和β链的CDR3的氨基酸序列分别为表30中的SEQ ID No.117和SEQ ID No.119，或实质与之相似的序列。

优选所述TCR的α链的VJ和β链的VDJ分别如表30中对应所述。

优选所述TCR的α链的V区的氨基酸序列和β链的V区的氨基酸序列分别为表30中的SEQ ID No.118和SEQ ID No.120，或实质与之相似的序列。

一种TCR，其α链的CDR3的氨基酸序列和β链的CDR3的氨基酸序列分别为表31中的SEQ ID No.121和SEQ ID No.123，或实质与之相似的序列。

优选所述TCR的α链的VJ和β链的VDJ分别如表31中对应所述。

优选所述TCR的α链的V区的氨基酸序列和β链的V区的氨基酸序列分别为表31中的SEQ ID No.122和SEQ ID No.124，或实质与之相似的序列。

一种TCR，其α链的CDR3的氨基酸序列和β链的CDR3的氨基酸序列分别为表32中的SEQ ID No.125和SEQ ID No.127，或实质与之相似的序列。

优选所述TCR的α链的VJ和β链的VDJ分别如表32中对应所述。

优选所述TCR的α链的V区的氨基酸序列和β链的V区的氨基酸序列分别为表32中的SEQ ID No.126和SEQ ID No.128，或实质与之相似的序列。

一种TCR，其α链的CDR3的氨基酸序列和β链的CDR3的氨基酸序列分别为表33中的SEQ ID No.129和SEQ ID No.131，或实质与之相似的序列。

优选所述TCR的α链的VJ和β链的VDJ分别如表33中对应所述。

优选所述TCR的α链的V区的氨基酸序列和β链的V区的氨基酸序列分别为表33中的SEQ ID No.130和SEQ ID No.132，或实质与之相似的序列。

一种TCR，其α链的CDR3的氨基酸序列和β链的CDR3的氨基酸序列分别为表34中的SEQ ID No.133和SEQ ID No.135，或实质与之相似的序列。

优选所述TCR的α链的VJ和β链的VDJ分别如表34中对应所述。

优选所述TCR的α链的V区的氨基酸序列和β链的V区的氨基酸序列分别为表34中的SEQ ID No.134和SEQ ID No.136，或实质与之相似的序列。

一种TCR，其α链的CDR3的氨基酸序列和β链的CDR3的氨基酸序列分别为表35中的SEQ ID No.137和SEQ ID No.139，或实质与之相似的序列。

优选所述TCR的α链的VJ和β链的VDJ分别如表35中对应所述。

优选所述TCR的α链的V区的氨基酸序列和β链的V区的氨基酸序列分别为表35中的SEQ ID No.138和SEQ ID No.140，或实质与之相似的序列。

一种TCR，其α链的CDR3的氨基酸序列和β链的CDR3的氨基酸序列分别为表36中的SEQ ID No.141和SEQ ID No.143，或实质与之相似的序列。

优选所述TCR的α链的VJ和β链的VDJ分别如表36中对应所述。

优选所述TCR的α链的V区的氨基酸序列和β链的V区的氨基酸序列分别为表36中的SEQ ID No.142和SEQ ID No.144，或实质与之相似的序列。

一种TCR，其α链的CDR3的氨基酸序列和β链的CDR3的氨基酸序列分别为表37中的SEQ ID No.145和SEQ ID No.147，或实质与之相似的序列。

优选所述TCR的α链的VJ和β链的VDJ分别如表37中对应所述。

优选所述TCR的α链的V区的氨基酸序列和β链的V区的氨基酸序列分别为表37中的SEQ ID No.146和SEQ ID No.148，或实质与之相似的序列。

一种TCR，其α链的CDR3的氨基酸序列和β链的CDR3的氨基酸序列分别为表38中的SEQ ID No.149和SEQ ID No.151，或实质与之相似的序列。

优选所述TCR的α链的VJ和β链的VDJ分别如表38中对应所述。

优选所述TCR的α链的V区的氨基酸序列和β链的V区的氨基酸序列分别为表38中的SEQ ID No.150和SEQ ID No.152，或实质与之相似的序列。

一种TCR，其α链的CDR3的氨基酸序列和β链的CDR3的氨基酸序列分别为表39中的SEQ ID No.153和SEQ ID No.155，或实质与之相似的序列。

优选所述TCR的α链的VJ和β链的VDJ分别如表39中对应所述。

优选所述TCR的α链的V区的氨基酸序列和β链的V区的氨基酸序列分别为表39中的SEQ ID No.154和SEQ ID No.156，或实质与之相似的序列。

一种TCR，其α链的CDR3的氨基酸序列和β链的CDR3的氨基酸序列分别为表40中的SEQ ID No.157和SEQ ID No.159，或实质与之相似的序列。

优选所述TCR的α链的VJ和β链的VDJ分别如表40中对应所述。

优选所述TCR的α链的V区的氨基酸序列和β链的V区的氨基酸序列分别为表40中的SEQ ID No.158和SEQ ID No.160，或实质与之相似的序列。

一种TCR，其α链的CDR3的氨基酸序列和β链的CDR3的氨基酸序列分别为表41中的SEQ ID No.161和SEQ ID No.163，或实质与之相似的序列。

优选所述TCR的α链的VJ和β链的VDJ分别如表41中对应所述。

优选所述TCR的α链的V区的氨基酸序列和β链的V区的氨基酸序列分别为表41中的SEQ ID No.162和SEQ ID No.164，或实质与之相似的序列。

一种TCR，其α链的CDR3的氨基酸序列和β链的CDR3的氨基酸序列分别为表42中的SEQ ID No.165和SEQ ID No.167，或实质与之相似的序列。

优选所述TCR的α链的VJ和β链的VDJ分别如表42中对应所述。

优选所述TCR的α链的V区的氨基酸序列和β链的V区的氨基酸序列分别为表42中的SEQ ID No.166和SEQ ID No.168，或实质与之相似的序列。

一种TCR，其α链的CDR3的氨基酸序列和β链的CDR3的氨基酸序列分别为表43中的SEQ ID No.169和SEQ ID No.171，或实质与之相似的序列。

优选所述TCR的α链的VJ和β链的VDJ分别如表43中对应所述。

优选所述TCR的α链的V区的氨基酸序列和β链的V区的氨基酸序列分别为表43中的SEQ ID No.170和SEQ ID No.172，或实质与之相似的序列。

一种TCR，其α链的CDR3的氨基酸序列和β链的CDR3的氨基酸序列分别为表44中的SEQ ID No.173和SEQ ID No.175，或实质与之相似的序列。

优选所述TCR的α链的VJ和β链的VDJ分别如表44中对应所述。

优选所述TCR的α链的V区的氨基酸序列和β链的V区的氨基酸序列分别为表44中的SEQ ID No.174和SEQ ID No.176，或实质与之相似的序列。

一种TCR，其α链的CDR3的氨基酸序列和β链的CDR3的氨基酸序列分别为表45中的SEQ ID No.177和SEQ ID No.179，或实质与之相似的序列。

优选所述TCR的α链的VJ和β链的VDJ分别如表45中对应所述。

优选所述TCR的α链的V区的氨基酸序列和β链的V区的氨基酸序列分别为表45中的SEQ ID No.178和SEQ ID No.180，或实质与之相似的序列。

一种TCR，其α链的CDR3的氨基酸序列和β链的CDR3的氨基酸序列分别为表46中的SEQ ID No.181和SEQ ID No.183，或实质与之相似的序列。

优选所述TCR的α链的VJ和β链的VDJ分别如表46中对应所述。

优选所述TCR的α链的V区的氨基酸序列和β链的V区的氨基酸序列分别为表46中的SEQ ID No.182和SEQ ID No.184，或实质与之相似的序列。

分离的核酸，其编码上述TCR的α链的CDR3的氨基酸序列，或者β链的CDR3的氨基酸序列，或者α链的V区的氨基酸序列，或者β链的V区的氨基酸序列，或者α链的VJ，或者β链的VDJ，或者与所述氨基酸序列实质上相似的氨基酸序列。

分离的核酸，其编码如表1-46中所述的任一TCR的α链的全长核酸序列，或任一TCR的β链的全长核酸序列，或与之基本上同源的核酸序列。

表达载体，包含所述的核酸。

根据本发明，所述载体包括但不限于病毒、质粒、粘粒、噬菌体、酵母等。

宿主细胞，包含所述的核酸。

根据本发明，所述宿主细胞包括但不限于真核细胞、细菌细胞、昆虫细胞或人细胞。例如：Vreo细胞、Hela细胞、COS细胞、CHO细胞、HEK293细胞、BHK细胞、MDKII细胞、Sf9细胞等。

一种具有上述TCR或编码所述TCR的核酸序列的T细胞群、T细胞株或重组表达的T细胞。

所述的T细胞群、T细胞株、重组表达的T细胞或编码该TCR的核酸序列在诊断或治疗中是有用的。对于诊断，通过检验是否上述序列仅在癌症的患者中，是否上述序列更多地在癌症患者中观察到，或者上述序列在癌症患者的癌症组织中积累，可发现癌症，或者可预测病理状况或预后。对于癌症的治疗，可以利用具有上述TCR的T细胞群，T细胞株，或重组表达的T细胞。

在本发明的一个实施方式中，所述癌症包括肝癌，尤其是肝细胞癌。

上述TCR、分离的核酸、表达载体、T细胞群、T细胞株或重组表达的T细胞在制备治疗癌症的药物中的应用。

一种制备含有所述TCR的T细胞的方法。

在本发明的一个实施方式中，所述制备方法可以包括如下步骤：(1)基于本发明所述的TCR，确定候选HLA和测试肽的氨基酸序列；(2)合成所确定的HLA和测试肽，并体外形成复合体；(3)用该HLA-肽刺激淋巴细胞。

根据本发明，可以基于使用HLA结合肽预测算法计算的得分，进行该候选HLA-肽的氨基酸序列的确定。例如可以使用BIMAS、SYFPEITHI、RANKPEP或NetMHC等，确定所述候选HLA-肽。

在本发明的另一个实施方式中，所述制备方法可以包括以下步骤：(1)将本发明所述的TCRα或TCRβ基因引入到用于基因表达的逆转录病毒载体中；(2)从表达TCRα和TCRβ基因的逆转录病毒载体，创建引入基因的病毒；(3)使用所述带有TCRα和TCRβ基因的病毒独立且依次地感染从患者收集的淋巴细胞，以进行转染，或者创建包括TCRα和TCRβ基因的基因表达逆转录病毒载体，以一次转化这两种基因；(4)证明TCRα/TCRβ异源二聚体在细胞表面上表达。

一种T细胞的单细胞转录组TCR分析方法，所述方法包括如下步骤：(1)获得单个的T细胞；(2)构建每个T细胞的cDNA文库并测序，获得每个细胞每个基因的表达量；(3)鉴别单个T细胞的TCR序列和克隆性识别。

根据本发明，可采用本领域已知的多种方法获得单个的T细胞，例如对于血液中的单个T细胞，可采用密度梯度离心法；对于组织中的单个T细胞，可采用研磨法。

根据本发明，可采用本领域已知的各种单细胞转录组的cDNA文库构建方法，构建每个T细胞的cDNA文库并测序，获得每个细胞每个基因的表达量，例如：汤富酬2009年创立的方法(Tang,F.et al.RNA-Seq analysis to capture the transcriptome landscapeof a single cell.Nat.Protoc.5,516–535(2010))、STRT-Seq(single-cell taggedreverse trans cription sequencing)、Smart-Seq和Smart-Seq2、Cell-Seq(cellexpression by linear amplification and sequencing)和PMA-Seq(Phi29-mRNAamplification and sequencing)等方法。

在本发明的一个优选实施方式中，采用Smart-Seq2构建每个T细胞的cDNA文库并测序，获得每个细胞每个基因的表达量。

本发明的发明人，对比研究了汤富酬2009年创立的方法和Smart-Seq2，发现Smart-seq2法在保证测序质量的情况下可以检测到更多的基因，包括T淋巴细胞共有的标志物CD3基因；并且Smart-seq2法更有利于扩增出完整的cDNA，更适用于进行T细胞单细胞转录组扩增。

本发明的发明人通过实验研究，进一步改进了Smart-seq2中的操作条件，提高了mRNA的反转录收率，以及PCR扩增后产物的纯化效率。

在本发明的具体实施方式中，采用Smart-seq2法反转录时，采用如下的反转录条件，提高了反转录cDNA的产率和cDNA全长的比例：

相比于常用的50℃30分钟的反转录条件，改进后的反转录条件能将cDNA产率提高16～23％，cDNA全长的平均长度提高20％左右。

在本发明的具体实施方式中，采用Smart-seq2法对PCR扩增产物纯化时的方法如下，提高了PCR产物的纯度，有利于后续的测序和文库构建质量的提高：用磁珠进行两次纯化，第一次纯化时，所加入的磁珠体积与PCR扩增产物体积相同，第二次纯化时，所加入的磁珠体积为PCR扩增产物体积的2倍。

根据本发明，在进行步骤(3)的分析时，对步骤(2)获得的生物信息数据进行比对和质量控制，去除低质量的部分。

根据本发明，对于cDNA的测序读段(reads)数据质量控制的方法为：保留符合以下条件的测序读段：①未知碱基占给定读段总序列不超过10％，②Phred质量值低于5的碱基不超过50％，③不含有接头序列。

根据本发明，对于细胞质量控制的方法为，去除数据量和数据质量低的细胞，保留符合以下条件的细胞：①CD3D的TPM大于3；②当分离CD4⁺ T细胞时，CD4的TPM需要大于3，同时CD8的TPM小于30；③分离CD8⁺ T细胞时，CD8的TPM需要大于3，同时CD4的TPM小于30；④线粒体基因上的读段占所有读段的比例不高于10％。其中，TPM值的定义为：

其中C_ij表示为基因i在细胞j中的读段的数量。

根据本发明，对用于分析的单细胞的基因表达量的质量控制方法为：当一个基因在所有细胞中被检测到的读段平均数量大于1才用于后续分析。

根据本发明，在步骤(3)中使用软件TraCeR进行单个T细胞的TCR序列识别。

根据本发明，在步骤(3)的克隆性识别中，采用如下方法：比较任意两个细胞中的TCRɑ和TCRβ的序列，当两个细胞中至少一种TCRɑ同时至少一种TCRβ的序列完全一致时，且一致的TCRɑ和TCRβ的序列是可以翻译成有效蛋白质的，且TCRɑ的TMP值至少大于10和TCRβ的TMP值至少大于15，这样的两个细胞被认为来自同一克隆。

一种预测TCR，MHC和小肽段结合能力的计算方法，其特征在于包括如下步骤：

1)获得癌症患者肿瘤免疫细胞的TCR的RNA序列，肿瘤患者的MHC类型，以及小肽段的序列，输入RosettaDock软件；

2)根据已知序列和蛋白质结构数据库，对TCR序列进行蛋白质结构的同源建模；

3)确认TCR中CDR的6个loop区(环状区域)，并进行分步模拟，计算出所述6个loop区的结合自由能；

4)将MHC，TCR和小肽段结合在一起，分别进行低分辨率以及高分辨率的对接进程计算，达到最大迭代次数终止计算；

5)分析结果，RMSD，计算对接自由能和表示结合能力强弱的打分函数值(Rosettascore)。

根据本发明，步骤1)中，癌症患者肿瘤免疫细胞的TCR的RNA序列可以来自于已知各种公共数据库中已经披露的TCR的RNA序列，也可以是采用本领域已知的各种测序方法由癌症患者肿瘤免疫细胞中测序获得的。优选，采用本发明提供的T细胞的单细胞转录组TCR分析方法，对采自癌症患者的肿瘤免疫细胞进行单细胞测序和分析，获得大量潜在可用的TCR的RNA序列，用于本发明的计算和预测分析。

根据本发明，步骤1)中，患者的MHC类型，可以采用本领域已知的外显子测序方法并运行optitype得到MHC类型，例如参照Szolek A1,Schubert B2,Mohr C2,Sturm M1,Feldhahn M1,Kohlbacher O1.OptiType:precision HLA typing from next-generationsequencing data.Bioinformatics.2014Dec 1；30(23):3310-6.doi:10.1093/bioinformatics/btu548.Epub 2014Aug 20.记载的方法进行实验和分析。

根据本发明，步骤1)中，小肽段序列可以采用NetMHC和本领域已知的RNA测序技术，预测患者体内的小肽段序列，例如，参照Andreatta M,Nielsen M.Gapped sequencealignment using artificial neural networks:application to the MHC class Isystem.Bioinformatics(2016)Feb 15；32(4):511-7；Nielsen M,Lundegaard C,WorningP,Lauemoller SL,Lamberth K,Buus S,Brunak S,Lund O.Reliable prediction of T-cell epitopes using neural networks with novesequence representations.ProteinSci.,(2003)12:1007-17记载的方法进行实验和分析。

根据本发明，步骤2)中同源建模可采用本领域常用的各种同源建模方法，将得到的TCR的RNA序列翻译成氨基酸序列，根据已知序列和蛋白质结构数据库，通过寻找同源蛋白，预测TCR的三维结构。

根据本发明，步骤3)中，根据小肽段的氨基酸残基计算出小肽段主链中心，依据RosettaDock软件识别出TCR的CDR的loop区，计算各loop区与小肽段主链中心的距离，选择距离最近的6个loop区作为后续分析TCR，MHC和小肽段结合能力的基础。

所述小肽段主链中心是指，小肽的主链碳原子的坐标的中点，即，该小肽段第一个氨基酸残基的主链碳原子的坐标和最后一个氨基酸残基的主链碳原子的坐标的平均值。小肽段主链中心的计算及其方法是本领域已知的。

根据本发明，步骤3)中，进行分步模拟时，可以释放所有6个loop区；也可以为减少可变结构域对计算结果的干扰，每次模拟只释放6个loop区中的5个、4个、3个、2个或1个，相应固定剩余的1个、2个、3个、4个或5个，如此类推，计算出每个loop区的结合自由能。优选每次模拟只释放6个loop区中的1个，固定剩余的5个，如此类推，计算出每个loop区的结合自由能。

根据本发明，步骤4)中首先通过低分辨率搜索探索同源建模得到的构象空间，然后通过蒙特卡罗最小化算法对所有原子进行局部细化。低分辨率对接时，蛋白质表示为主干加上侧链的质心表示，即侧链被表示为一个巨大的原子，以节省CPU时间。在这个阶段，RosettaDock试图为高分辨率搜索找到对接对象的大致方向。进行高分辨率对接(局部细化)时，蛋白质中的所有原子都被表示出来，在低分辨率搜索中找到的位置也得到了优化。高分辨率阶段消耗了RosettaDock最多的CPU时间。

根据本发明，依据步骤5)中获得的评分函数可以预测该患者体内最有可能引起免疫应答的新的抗原。Rosetta score越低的构象代表能量状态越低，能量状态越低的TCR-MHC-小肽段结构，越有可能是真实存在于生物体内的结合构象，由此，参与形成这种构象的小肽段越有可能是最易与所述TCR结合的小肽，即越有可能是引起免疫应答的新抗原，而相应的TCR序列也越有可能是结合力最强的TCR，可用于TCR-T疗法。

因此，所述计算方法还可用于预测或筛选新的肿瘤抗原，和/或预测或筛选可用于未来开发的TCR序列，提高从高通量测序技术获得的大量的肿瘤免疫细胞TCR序列中得到具有潜在生物活性价值的TCR的效率。

在本发明的一个实施方式中，所述患者是肝癌患者，本发明预测TCR，MHC和小肽段结合能力的计算方法，以及预测或筛选新的肿瘤抗原，和/或预测或筛选可用于未来开发的TCR序列，是针对肝癌患者进行的。

为了评估TCR对接基准内的结构多样性，本发明的发明人比较了TCR/pMHC结构中主干构象以及更多的环状柔性结构的区域。结合TCR CDR环的叠加显示了较大的结构变异，尤其是TCR的CDR 3α和CDR 3β环之间，CDR 1α和CDR 2α环的结构变异程度较小。在pMHCs的重叠中，肽骨架构象表现出很大的多样性，由不同的肽序列和长度以及MHC等位基因和结合TCR驱动。发明人把CDR结构变异程度大的区域(loop区)，根据与小肽段主链中心的距离远近，选择出距离最近的6个区域，在对接的过程中6个loop区分别进行无约束动态调整，从而达到TCR/pMHC复合物间最适合的对接结果。除了分析基准中TCR/pMHC复合物之间的变化外，发明人还计算了TCRs的结合构象变化(根据每个测试用例计算的无约束和结合TCR结构)作为位置的函数，结果发现CDR 3α环在结合时表现出最大的平均构象变化，其次是CDR3β和CDR 1α，其他CDR和pMHC结合位点的构象变化不太明显。由此说明，采用上述确定用于计算的loop区的方法有效可行，确定出TCR的CDR的6个loop区就足以进行准确而又快捷的计算。

由于TCR-pMHC配合物的生产、结晶和结构测定具有挑战性，因此对新型配合物的建模具有重要的意义。本发明人利用了已知复合物中保守的结构特征，如受限的TCR结合位点和一般保守的对角对接模式，提供了前述的快速TCR-pMHC建模方法。

在本发明中：

当用来描述核酸时，“同源的”表示当两个核酸或其指定的序列在最佳比对和比较时至少80％的核苷酸、并且更优选至少大约98％至99％的核苷酸是一致的，伴有适当的核苷酸插入或缺失。术语“同源物”或“同源的”也指就结构和/或功能而言的同源性。就序列同源性而言，如果多个序列是至少80％以上相同的，例如：至少90％、至少95％、至少97％或至少99％，则它们是同源物。术语“基本上同源的”是指至少90％以上相同，例如至少95％相同、至少97％相同或至少99％相同的序列。

当用来描述多肽序列时，术语“实质相似性”表示这种多肽包含在大约10-100个氨基酸残基的比较窗(例如，抗体的重链或轻链可变区，TCR的α链或β链的V区)范围内与参考序列具有至少80％以上序列一致性、或最优选90％一致性、或最优选95％一致性、或最优选99％一致性的序列。在氨基酸序列的背景下，“实质相似性”进一步包括氨基酸的保守性置换。术语“实质一致性”表示当最佳比对(如通过使用默认空位权重的程序GAP或BESTFIT)时，两个肽序列共享至少80％序列一致性，优选至少90％序列一致性，更优选至少95％或更高的序列一致性(例如，至少99％或更高的序列一致性)。优选地，不相同的残基位置因保守性氨基酸置换而不同。

本发明的基因或氨基酸序列的同源物的确定可以由技术人员容易地确定。

术语“恶性肿瘤”、“肿瘤”和“癌症”可互换使用，是指以细胞不受控制、过度增生性或异常生长或转移为特征的疾病或失调。

如无特殊说明，在本发明中，氨基酸序列都是从N端到C端，碱基序列都是从5’端到3’端。

附图说明

图1肿瘤组织、正常组织和外周血T细胞的流式细胞分析图。第一行：外周血中T细胞；第二行：正常组织中的T细胞；第三行：肿瘤组织中T细胞。

图2合格的单细胞cDNA示例。96个细胞同时使用LifeTech Real-TimePCR仪7500检测所得的结果图。对象RT-PCR的CT值低于26(左图黑框所示)；对象溶解曲线的峰值在85℃到90℃之间(右图黑框所示)。

图3合格的单细胞cDNA示例。基于毛细管电泳的Fragment Analysis的检测结果。1700左右的峰是全长转录组的片段大小，1100左右的峰是作为内参的ERCC。

图4构建成的cDNA文库的Fragment Analysis测定结果图。

图5 Tang2009的方法的扩增偏向统计图。

图6 Smart-seq2的扩增偏向统计图。

图7使用RosettaDock进行TCR/pMHC对接模拟的流程图

图8 TTC35-1116的TCR的CDR loop区区分

具体实施方式

以下结合实施例对本发明做进一步描述。

以下实施例是以肝癌患者为例，对T细胞单细胞转录组分析方法的示例说明。

需要说明的是，实施例不能作为对本发明保护范围的限制，本领域的技术人员理解，任何在本发明基础上所作的改进和变化都在本发明的保护范围之内。

以下实施例所用化学试剂都是常规试剂，均可商购获得。

所用分析软件及其来源如下：

GSNAP(http://research-pub.gene.com/gmap/)；

TraCeR(https://github.com/Teichlab/tracer)；

统计软件R(https://www.r-project.org/)。

实施例1T细胞的单细胞转录组数据获取

1、临床样本收集

从2014年8月到2015年6月，在北京大学人民医院和北京世纪坛医院采集患者的手术组织和外周血，包括癌组织(直径3～5mm)和癌旁正常组织，并采集外周血(3ml)。患者为肝细胞癌，未经受术前辅助放疗或化疗，共5例。本项研究符合赫尔辛基宣言的医学伦理标准，并通过北京大学医学伦理委员会的审核。

血样在手术前采集于EDTA抗凝管中暂时于冰上保存；癌组织和癌旁正常组织样本在手术中采集，其中癌症组织剔除坏死组织；癌旁组织为远离癌组织至少5cm处的正常组织。癌组织和癌旁组织在离体30分钟以内置于冰上和RNAlater(Qiagen)溶液中，当日内完成单细胞分离操作。

2、单细胞悬液制备

外周血：采用密度梯度离心法分离外周血单核细胞。具体操作为将3ml全血缓慢加到3ml

分离液(Sigma，cat.no.1077)上，400g室温离心30分钟，小心吸取白色层单核细胞，用10ml PBS清洗，4℃离心15分钟，重复上述清洗步骤一次。最后将细胞溶解于0.5ml PBS，并加入1％小牛血清(FBS)。

癌组织和癌旁正常组织：采用研磨法获得癌组织和癌旁正常组织的单细胞。首先将手术离体的组织剪成1mm³大小的碎块，浸泡于RPMI-1640培养基中，并加入10％小牛血清。使用铜网快速磨碎组织，通过40μm筛除组织碎片，400g离心10分钟收集单细胞悬液。使用红细胞裂解液进一步去除组织中混入的红细胞。同样用10ml PBS清洗两次，最后将细胞溶解于0.5ml PBS，并加入1％小牛血清。

3、目的T细胞单细胞分离

分离的目的细胞包括细胞毒T细胞(CD3阳性，CD8阳性)，辅助性T细胞(CD3阳性，CD4阳性，CD25阴性)和调节性T细胞(CD3阳性，CD4阳性，CD25阳性)。

这三种细胞分别用不同抗体进行荧光标记，抗体来自eBioscience公司，每10⁶个细胞使用5μl抗体：

兔抗CD3抗体(FACS，Cat#48-0037-41)

兔抗CD4抗体(FACS，Cat#11-0048-41)

小鼠抗CD8抗体(FACS，Cat#17-0086-41)

小鼠抗CD25抗体(FACS，Cat#12-0259-42)

7AAD(FACS，Cat#00-6993-50)，7AAD用于标记死亡细胞。

96孔板的每个孔中预先加入反应溶液：

引物序列为：

AAGCAGTGGTATCAACGCAGAGTACTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTVN

目的T细胞的分离结果如图1所示。根据细胞表面的分子标记，选择细胞毒T细胞，辅助性T细胞和调节性T细胞，用流式细胞仪分别将单个细胞收集入相应的96孔板的每个孔中。

4、mRNA反转录和cDNA扩增

对于分离至96孔板中的单细胞进行反转录获得cDNA，操作步骤按照SMART-seq2方法(Picelli,S.et al.Full-length RNA-seq from single cells using Smart-seq2.Nat.Protoc.9,171–181(2014).)，如下：

1)单细胞裂解：将上述溶液中的单细胞旋涡震荡至少10秒。在PCR仪上72℃孵育3分钟。

2)加入内参RNA(ERCC RNA Spike-In Mix，Invitrogen，cat.no.4456740)。事先需要稀释350倍，加入1μl。内参RNA有助于对基因表达量的定量计算。

3)反转录：反应体系为：

TSO引物的序列为：AAGCAGTGGTATCAACGCAGAGTACATrGrG+G

反应条件为：

4)PCR扩增：反应体系为：

KAPA HiFi HotStart ReadyMix(2x) 12.5μl

IS PCR引物(10μM) 0.25μl

无核酸酶的超纯水 2.25μl。

IS PCR引物序列为：AAGCAGTGGTATCAACGCAGAGT

反应条件为：

经扩增后的PCR产物用Agencourt AMPure XP磁珠(Beckman)进行纯化，方法如下：

(1)在25μl上一步反应溶液中加入25μl磁珠，吹打混匀；

(2)室温放置5分钟；

(3)把盛有溶液的试管或板子放于磁力架上5分钟；

(4)移除液体；

(5)用100μl 80％的乙醇清洗磁珠，放置30秒后移除，重复此过程一次；

(6)从磁力架上拿下，加入20μl EB溶液，吹吸混匀；

(7)放置2分钟后，置于磁力架上，放置2分钟后，再吸出液体。

研究中发现，上述过程中残留在溶液中的引物会降低文库构建的效率，使文库包含非细胞cDNA的成分。为此需要再增加一遍纯化操作，除将磁珠用量变成50μl之外，纯化过程与前述一致。

进行质量检测，即通过RT-PCR检测T细胞特别表达的基因CD3，判断扩增的有效性。

反应体系为：

CD3的引物序列为：TCATTGCCACTCTGCTCC(正向)和GTTCACTTGTTCCGAGCC(反向)。

反应条件为：

判断cDNA是否可用的标准有两条：一是对象RT-PCR的CT值低于26；二是对象溶解曲线的峰值在85℃到90℃之间。图2给出了本实施例获得的合格的cDNA示例。

另一项质量控制手段为Fragment Analysis，基于毛细管电泳检测样本DNA的片段大小和浓度。图3给出了本实施例获得的合格的cDNA示例。

5、测序文库构建

cDNA文库构建采用TruePrepTM DNA Library Prep Kit V2for

试剂盒(vazyme，cat.no.TD501/502/503)；分别匹配双端index为TruePrepTMIndex Kit V2for

(vazyme，cat.no.TD202)。按照试剂盒说明书操作，用1μg cDNA起始建库。用磁珠做片段大小的选择，获得目的片段大小为400bp～600bp的cDNA文库，最后经FragmentAnalysis进行质量控制，经测定，文库构建合格，相应的分析结果参见图4。

采用Illumina Hiseq4000测序，测序模式为双端150bp，通常一个细胞的数据量需要1百万条读段。

实施例2生物信息分析

1、数据比对与质量控制

对于从测序仪获得的读段(reads)，首先去除低质量的部分，保留的标准如下：①未知碱基占给定读段总序列不能超过10％，②质量值低于5的碱基不能超过50％，③不能含有接头序列。使用GSNAP软件完成比对。计算基因表达量时，使用的参考基因集合来自UCSC的“knownGene.txt”，使用R语言包“findOverlaps”统计读段在基因上的归属，使用TPM值标定每个基因在每个细胞中的表达量，使用的公式为：

其中C_ij表示为基因i在细胞j中的读段的数量。

数据量和数据质量低的T细胞需要被过滤掉。保留符合以下标准的细胞：①CD3D的TPM大于3；②当分离CD4⁺ T细胞时，CD4的TPM需要大于3，同时CD8的TPM小于30；③分离CD8⁺T细胞时，CD8的TPM需要大于3，同时CD4的TPM小于30；④线粒体基因上的读段占所有读段的比例不高于10％。

另外，在文库容量(library size)和基因表达数量上也设定了一些参考标准。当一个基因在所有细胞中被检测到的读段平均数量大于1才用于后续分析。

2、单细胞TCR序列鉴定和克隆性识别

使用软件TraCeR鉴定单个T细胞中的TCR基因的CDR3部分的序列，重排的方式以及TCR基因的表达量。TraCeR首先定制一个TCR重排的参考序列库，如对α链重排，将把若干个N碱基(对应V基因的先导序列)、一种V基因段的一种等位基因的序列、连接处的若干个N碱基、一种J基因段的一种等位基因的序列以及C区域的序列连在一起，形成一种可能的重排模板序列；所有V基因的等位基因和J基因的等位基因的共约7,000种组合，形成了α链的参考序列库。类似的方法建立一个β链的参考序列库，包括共约2,272种组合的参考序列库。用比对软件Bowtie2(Langmead and Salzberg,2012)将测序读段和这个参考序列库作比对，筛选出来自TCR的读段。Bowtie2的参数设置使得其对空位或N碱基的比对有较低的罚分。再用软件Trinity(Grabherr et al.,2011)把筛选出来的TCR的读段组装成重叠群；用IgBLAST将重叠群和IMGT(Lefranc et al.,2009)数据库比对，识别出重叠群是由哪种V基因的等位基因和(D)J基因的等位基因重排产生的，V(D)J重排的连接处的序列是什么；如果重叠群上从V基因序列开始一直到C区域序列的这段序列有完整的阅读框并且没有终止密码子则这个TCR重排是能翻译成完整蛋白的，进而根据基序识别出CDR3序列。

同时，我们对同样的数据采用MiXCR和VDJpuzzle进行的TCR序列的鉴定。VDJpuzzle与TraCeR一样，是一种针对单细胞转录组鉴定TCR序列的方法，但在我们的数据中它的敏感性只有80％，而MiXCR和TraCeR分别为98％和99％。敏感性指鉴定出有效TCR序列的细胞比例。MiXCR是一个面向群体细胞的TCR序列鉴定软件，在我们的数据中它的假阳性率为20％，而TraCeR和VDJpuzzle均不超过1％。假阳性的判定方法是在一个T细胞上发现超过两种ɑ链和β链的TCR序列(一个细胞最多分别表达两种ɑ链和β链的TCR基因型)。对三种软件进行交叉验证时，TraCeR、MiXCR和VDJpuzzle三者的交叉验证率分别为93％,96％,96％，没有显著区别。综上，我们使用了TraCeR检验的结果。

TCR序列用于判断T细胞的克隆性。每个T细胞表达1～2种TCRɑ序列和1～2种TCRβ序列。当两个细胞中至少一种TCRɑ同时至少一种TCRβ的序列完全一致时，这两个细胞被认为来自同一克隆。同时，要求一致的TCRɑ和TCRβ的序列是可以翻译成有效蛋白质的。第三，TCRɑ的TMP值至少大于10，TCRβ的TMP值至少大于15。

通过TraCeR软件识别和判定，并与已知数据库进行对比，共发现46个未被报道过的、在肿瘤组织中浸润的T细胞克隆性表达的TCR，每个TCR的基本情况如下表1-46所示：

表1

表2

表3

表4

表5

表6

表7

表8

表9

表10

表11

表12

表13

表14

表15

表16

表17

表18

表19

表20

表21

表22

表23

表24

表25

表26

表27

表28

表29

表30

表31

表32

表33

表34

表35

表36

表37

表38

表39

表40

表41

表42

表43

表44

表45

表46

实施例3：TCR、MHC和小肽段结合能力的计算，以及新的肿瘤抗原的预测

从实施例2中获得的TCR序列中，选择了来自于最大的克隆组群中的7种TCR序列，它们分别来自于前述肝癌患者中的5个，确定出对应患者的MHC类型(参照Szolek A1,Schubert B2,Mohr C2,Sturm M1,Feldhahn M1,Kohlbacher O1.OptiType:precision HLAtyping from next-generation sequencing data.Bioinformatics.2014Dec 1；30(23):3310-6.doi:10.1093/bioinformatics/btu548.Epub 2014Aug 20.的方法)，利用NetMHC和每个患者的RNA-seq预测得到了126种小肽序列(参照Andreatta M,Nielsen M.Gappedsequence alignment using artificial neural networks:application to the MHCclass I system.Bioinformatics(2016)Feb 15；32(4):511-7；Nielsen M,Lundegaard C,Worning P,Lauemoller SL,Lamberth K,Buus S,Brunak S,Lund O.Reliable predictionof T-cell epitopes using neural networks with novel sequencerepresentations.Protein Sci.,(2003)12:1007-17的方法)，利用RosettaDock软件组装了543个由TCR/pMHC复合物组成的对接模型(表47)。

表47肝癌患者的TCR、MHC和小肽的数量

患者编号	新抗原	TCR	MHC	TCR/pMHC复合物
					P0205	14	1	4	56
P0322	41	1	4	164
					P0407	57	1	3	171
P0508	11	1	4	44
					P1116	9	3	4	108
合计				543

对CDR loop区灵活性的观察和分析，把这部分区域分成6个部分，分别独立的进行和对象蛋白的精细对接模拟。MHC，TCR和小肽结合在一起对接模型，分别进行低分辨率以及高分辨率的对接进程。达到最大迭代次数终止计算。上述543个模型是理论数量，经对接计算后能形成有效对接的TCR/pMHC复合物的数量少于543个。分析结果时，我们从RMSD最小的结构中挑选出打分函数值最低的构象，认为是接合自由能最低的构象，同时表示找到了结合能力最强的新抗原。

以5个患者之一P1116，针对其编号为TTC35-1116的免疫细胞克隆获得的TCR为例：该TCR是前述表44中编号为P1116_C0080-1的TCR，其α链和β链的全长核酸序列如表44所述，翻译后α链的氨基酸序列为DQQVKQNSPSLSVQEGRISILNCDYTNSMFDYFLWYKKYPAEGPTFLISISSIKDKNEDGRFTVFLNKSAKHLSLHIVPSQPGDSAVYFCAAKPGSSNTGKLIFGQGTTLQVKPDIQNPEPAVYQLKDPRSQDSTLCLFTDFDSQINVPKTMESGTFITDKTVLDMKAMDSKSNGAIAWSNQTSFTCQDIFKETNATYPSSDVPCDATLTEKSFETDMNLNFQNLSVMGLRILLLKVAGFNLLMTLRLWSS，β链的氨基酸序列为：EAGVAQSPRYKIIEKRQSVAFWCNPISGHATLYWYQQILGQGPKLLIQFQNNGVVDDSQLPKDRFSAERLKGVDSTLKIQPAKLEDSAVYLCASSLGGGGVQYFGPGTRLLVLEDLRNVTPPKVSLFEPSKAEIANKQKATLVCLARGFFPDHVELSWWVNGKEVHSGVSTDPQAYKESNYSYCLSSRLRVSATFWHNP。

利用RosettaDock软件，得到该TCR的7个loop区的分区信息：FR1-IMGT：残基位置1至26号残基，CDR1-IMGT：27至38位残基，FR2-IMGT：39至55号残基，CDR2-IMGT：56至65号残基，FR3-IMGT：第66至104号残基，CDR3-IMGT：第105位至117号残基，FR4-IMGT:118-128号残基。我们选取离小肽主链原子中心最近的6个loop区。

基于该loop区信息，利用RosettaDock软件构建MHC，TCR和9个小肽对接模型，得到了以Rosetta score为打分函数值的结果(表48)。从结果可知，肽段“KLAHVAAQA”是此患者给定的TCR结合最强的小肽。该小肽可用于后续肿瘤新抗原的进一步确认研究，以及相应抗体和免疫细胞的开发等。而该TCR则可用于后续TCR-T疗法的实证研究。

表48患者P1116的TTC35-1116细胞的HLA类型，肽段序列和Rosetta score

其他的6个TCR分析结果如下：

对比实施例：

1、cDNA建库方法的对比

将Smart-seq2方法和汤富酬创建的方法(为方便描述，以下简称为“Tang2009”，Tang,F.et al.RNA-Seq analysis to capture the transcriptome landscape of asingle cell.Nat.Protoc.5,516–535(2010).)

在cDNA扩增效率上：

在完成cDNA扩增后，以无核酸的超纯水为阴性对照，利用RT-PCR来检测管家基因β-actin、GAPDH或CD3基因的表达来检验扩增效率。判断基因是否表达的标准有两条：一是细胞样品RT-PCR的CT值明显小于阴性对照；二是细胞样品的溶解曲线峰值在85℃到90℃之间(阴性对照约为78℃)。

根据实验的结果，用Smart-seq2法扩增后，在绝大部分细胞中均可以检测到β-actin、GAPDH和CD3。用Tang2009法扩增后可在大部分细胞中检测到β-actin和GAPDH的表达，仅能在极少数细胞中检测到CD3。

在cDNA文库质量上：

文库的构建不受扩增方法影响，用Tang2009法和Smart-seq2法扩增均能提供构建文库所需的cDNA量，所建文库的片段大小均符合Illumina测序仪要求。

但如果对比最终构建所得的cDNA文库数和用于建库的起始单细胞数的比值，以三个肝癌患者的样本比较来看，用Smart-seq2法扩增T细胞的成功率总体上高于Tang2009法，如下表所示。

构建cDNA文库成功率表

患者编号

建库方法

PTC

PTH

PTR

TTC

TTH

TTR

NTC

NTH

NTR

20141202

Tang2009

46％

24％

26％

62％

52％

78％

/

20150205

Smart-seq2

80％

67％

80％

60％

67％

/

20150508

Smart-seq2

92％

74％

92％

95％

92％

88％

70％

86％

/

注：“/”表示无该类型样本。PTC为外周血中的细胞毒T细胞，PTH为外周血中的辅助性T细胞，PTR为外周血中的调节性T细胞。TTC为癌组织中的细胞毒T细胞，TTH为癌组织中的辅助性T细胞，TTR为癌组织中的调节性T细胞。NTC为正常肝脏组织中的细胞毒T细胞，NTH为正常肝脏组织中的辅助性T细胞，NTR为正常肝脏组织中的调节性T细胞。以下每个表的简写相同。

在测序质量上：

以三个肝癌患者的样本为例，具体参数见下表。

Tang2009法(患者20141202)样本平均测序质量表

Smart-seq2法(患者20150205)样本平均测序质量表

细胞类型	总读段	高质量读段率	比对率	表达基因数
					PTC	1561419	97.88％	62.47％	3042
PTH	1610403	98.33％	79.72％	2553
					PTR	1482323	98.42％	60.33％	3103
TTC	1442573	99.51％	51.83％	3071
					TTH	1890069	77.07％	66.7％	2478
TTR	1558685	98.49％	67.87％	3478

Smart-seq2法(患者20150508)样本平均测序质量表

细胞类型	总读段	比对率	高质量读段率	表达基因数
					NTC	1819830	97.10％	99.25％	2187
NTH	1431656	93.38％	99.44％	2267
					PTC	1476204.5	95.40％	99.38％	2745
PTH	1530590	86.35％	99.39％	2026
					PTR	1513190	96.09％	99.43％	2295.5
TTC	1602175	95.83％	99.38％	2823
					TTH	1562359.5	94.52％	99.38％	2795.5
TTR	1514486	96.33％	99.43％	2907

作为单细胞RNA-seq的数据，多数细胞的高质量读段率、比对率均较高，说明测序质量好，所得数据适合做表达量和表达序列的分析。从检测到的基因数方面看，Smart-seq2法所能检测到的基因数明显高于Tang2009法。

在扩增偏向上，Tang2009法和Smart-seq2法扩增cDNA时存在不同的倾向性。从测序结果的分析图中不难看出，Tang2009法更倾向于扩增出cDNA的3’端，这种偏向性不利于整个TCR结构的组装，而Smart-seq2法则能更为均一地扩增cDNA，有利于组装出TCR的全部序列(附图5和6)。

参考文献：

1.Eltahla AA,Rizzetto S,Pirozyan MR,Betz-Stablein BD,Venturi V,Kedzierska K,Lloyd AR,Bull RA,Luciani F.Linking the T cell receptor to thesingle cell transcriptome in antigen-specific human T cells.Immunol CellBiol.2016 Jul；94(6):604-11.doi:10.1038/icb.2016.16.Epub 2016 Feb 10.

2.Bolotin DA,Poslavsky S,Mitrophanov I,Shugay M,Mamedov IZ,PutintsevaEV,Chudakov DM.MiXCR:software for comprehensive adaptive immunityprofiling.Nat Methods.2015 May；12(5):380-1.doi:10.1038/nmeth.3364.

3.Stubbington MJ,

T,Proserpio V,Clare S,Speak AO,Dougan G,Teichmann SA.T cell fate and clonality inference from single-celltranscriptomes.Nat Methods.2016 Apr；13(4):329-32.doi:10.1038/nmeth.3800.Epub2016 Mar 7.

4.Grabherr,M.G.,Haas,B.J.,Yassour,M.,Levin,J.Z.,Thompson,D.A.,Amit,I.,Adiconis,X.,Fan,L.,Raychowdhury,R.,Zeng,Q.,et al.(2011).Full-lengthtranscriptome assembly from RNA-Seq data without a referencegenome.Nat.Biotechnol.29,644–652.

5.Langmead,B.,and Salzberg,S.L.(2012).Fast gapped-read alignment withBowtie 2.Nat.Methods 9,357–359.

6.Lefranc,M.-P.,Giudicelli,V.,Ginestoux,C.,Jabado-Michaloud,J.,Folch,G.,Bellahcene,F.,Wu,Y.,Gemrot,E.,Brochet,X.,Lane,J.,et al.(2009).IMGT,theinternational ImMunoGeneTics information system.Nucleic Acids Res.37,D1006–D1012.

Claims

1.一种T细胞的单细胞转录组TCR分析方法，所述方法包括如下步骤：(1)获得单个的T细胞；(2)构建每个T细胞的cDNA文库并测序，获得每个细胞每个基因的表达量；(3)鉴别单个T细胞的TCR序列和克隆性识别，其特征在于：在进行步骤(3)的分析时，对步骤(2)获得的生物信息数据进行比对和质量控制，去除低质量的部分；

对于cDNA的测序读段数据质量控制的方法为：保留符合以下条件的测序读段：①未知碱基占给定读段总序列不超过10％，②Phred质量值低于5的碱基不超过50％，③不含有接头序列；

对于细胞质量控制的方法为，去除数据量和数据质量低的细胞，保留符合以下条件的细胞：①CD3D的TPM大于3；②当分离CD4⁺T细胞时，CD4的TPM需要大于3，同时CD8的TPM小于30；③分离CD8⁺T细胞时，CD8的TPM需要大于3，同时CD4的TPM小于30；④线粒体基因上的读段占所有读段的比例不高于10％；其中TPM值的定义为：

其中C_ij表示为基因i在细胞j中的读段的数量；

对用于分析的单细胞的基因表达量的质量控制方法为：当一个基因在所有细胞中被检测到的读段平均数量大于1才用于后续分析。

2.如权利要求1所述的方法，在步骤(3)中使用软件TraCeR进行单个T细胞的TCR序列识别，比较任意两个细胞中的TCRɑ和TCRβ的序列，当两个细胞中至少一种TCRɑ同时至少一种TCRβ的序列完全一致时，且一致的TCRɑ和TCRβ的序列是可以翻译成有效蛋白质的，且TCRɑ的TMP值至少大于10和TCRβ的TMP值至少大于15，这样的两个细胞被认为来自同一克隆。

3.如权利要求1或2所述的方法，步骤(2)中采用Smart-Seq2构建每个T细胞的cDNA文库并测序，获得每个细胞每个基因的表达量。

4.如权利要求3所述的方法，其特征在于，采用Smart-seq2法反转录时，采用如下的反转录条件：

5.如权利要求3所述的方法，其特征在于，采用Smart-seq2法对PCR扩增产物纯化时，用磁珠进行两次纯化，第一次纯化时，所加入的磁珠体积与PCR扩增产物体积相同，第二次纯化时，所加入的磁珠体积为PCR扩增产物体积的2倍。

6.一种预测TCR，MHC和小肽段结合能力的计算方法，其特征在于包括如下步骤：

1)获得癌症患者肿瘤免疫细胞的TCR的RNA序列，患者的MHC类型，以及小肽段的序列，输入RosettaDock软件；

3)确认TCR中CDR的6个loop区，并进行分步模拟，计算出所述6个loop区的结合自由能；

5)分析结果，RMSD，计算对接自由能和表示结合能力强弱的打分函数值Rosettascore；

其中，步骤1)中，采用权利要求1-5任一项所述的T细胞的单细胞转录组TCR分析方法，获得癌症患者的肿瘤免疫细胞的TCR的RNA序列。

7.如权利要求6所述的方法，其特征在于，步骤1)中，采用外显子测序方法并运行optitype得到患者的MHC类型。

8.如权利要求6或7所述的方法，其特征在于，步骤1)中，采用NetMHC以及RNA测序技术，预测患者体内的小肽段序列。

9.如权利要求6或7所述的方法，其特征在于，步骤3)中，根据小肽段的氨基酸残基计算出小肽段的主链中心，依据RosettaDock软件识别出TCR的CDR的loop区，计算各loop区与小肽段主链中心的距离，选择距离最近的6个loop区。

10.如权利要求6或7所述的方法，其特征在于，步骤3)中，采用分步模拟时，每次模拟只释放6个loop区中的一个，固定其他5个。

11.一种预测或筛选新的肿瘤抗原和/或筛选TCR的方法，其特征在于采用权利要求6-10任一项所述的计算方法，依据获得的评分函数Rosetta score进行预测或筛选。