CN115064209B

CN115064209B - 一种恶性细胞鉴定方法及系统

Info

Publication number: CN115064209B
Application number: CN202210988485.4A
Authority: CN
Inventors: 季序我; 彭鑫鑫; 赵义; 李哲
Original assignee: Beijing Pukang Ruiren Medical Laboratory Co ltd; Predatum Biomedicine Suzhou Co ltd; Precision Scientific Technology Beijing Co ltd
Current assignee: Beijing Pukang Ruiren Medical Laboratory Co ltd; Predatum Biomedicine Suzhou Co ltd; Precision Scientific Technology Beijing Co ltd
Priority date: 2022-08-17
Filing date: 2022-08-17
Publication date: 2022-11-01
Anticipated expiration: 2042-08-17
Also published as: CN115064209A

Abstract

本发明公开一种恶性细胞鉴定方法及系统，所述方法包括：获取单细胞转录组测序数据；基于单细胞转录组测序数据计算基因拷贝数变异鉴定恶性细胞所需的数据，并基于数据确定基因拷贝数变异的方向、程度以及等位基因失衡程度；基于基因拷贝数变异的方向、程度以及等位基因失衡程度进行第一细胞聚类确定首次确定的疑似非恶性细胞和疑似恶性细胞；基于首次确定的疑似非恶性细胞和疑似恶性细胞，根据肿瘤特征分值与非肿瘤特征分值进行第二细胞聚类确定最终的非恶性细胞和恶性细胞。本发明还公开了对应的电子设备以及计算机可读存储介质，融合监督性和非监督性两大技术路线，不依赖肿瘤组织和癌旁组织群细胞转录组测序数据，提高了对恶性细胞鉴定敏感性。

Description

一种恶性细胞鉴定方法及系统

技术领域

本发明涉及细胞鉴定技术领域，尤其涉及一种恶性细胞鉴定方法及系统。

背景技术

随着单细胞转录组测序技术的出现与不断改进，在单细胞分辨率下研究肿瘤的基因组特征成为可能。但是，进行肿瘤的基因组特征相关研究的一个前提是从上万个单细胞测序数据中准确鉴定出恶性细胞。因此，对恶性细胞的鉴定成为了单细胞转录组测序领域一个重要的研究内容。

目前，对于恶性细胞的鉴定，主要包括监督性和非监督性两类技术路线。

（1）监督性技术路线分为三个步骤：首先，需要借助对应癌种的肿瘤组织和癌旁组织的群细胞转录组测序数据，用来鉴定肿瘤组织和癌旁组织的特征基因；然后，基于特征基因和单细胞转录组测序数据，针对每个细胞分别计算恶性细胞特征分值与非恶性细胞特征分值，即肿瘤组织和癌旁组织特征基因的表达中位值；最后，基于上述两个特征分值，将所有细胞分为两组，取恶性细胞特征分值较高的一组作为恶性细胞。监督性技术路线的问题在于：需要找到匹配的肿瘤组织和癌旁组织的群细胞转录组测序数据才能实施该技术路线，然而往往由于肿瘤的异质性、公共数据资源中癌旁样本的缺乏以及群细胞转录组测序的额外成本等因素，使得该技术路线在恶性细胞鉴定过程中的使用受到限制。

（2）非监督性技术路线分为两个步骤：首先，基于单细胞转录组测序数据，在特定长度的区域内，为每个细胞估计出拷贝数变异的方向和程度；然后，基于拷贝数变异的相关信息，采用无监督聚类的方法，将所有细胞聚为两类，取拷贝数变异程度较大的一类作为恶性细胞。非监督性技术路线的问题存在于两个方面：其一，由于有些拷贝数变异的发生并不影响基因组整体的倍性，也就不会反映在基因表达值的变化上，因此仅仅参照单细胞基因表达值估计拷贝数变异的敏感性较低；其二，如果仅基于估计出的拷贝数变异分布模式，而不考虑特征基因表达差异进行恶性细胞鉴定，会降低恶性细胞鉴定的敏感性。

发明内容

为了解决现有技术中存在的问题，本发明提供了如下技术方案，一种恶性细胞鉴定方法及系统，融合监督性和非监督性两大技术路线的特点，在不依赖肿瘤组织和癌旁组织群细胞转录组测序数据的前提下，提高对恶性细胞鉴定的敏感性。

本发明一方面提供了一种恶性细胞鉴定方法，包括：

S1，获取单细胞转录组测序数据；

S2，基于所述单细胞转录组测序数据计算基因拷贝数变异鉴定恶性细胞所需的数据，并基于所述数据确定基因拷贝数变异的方向、程度以及等位基因失衡程度；

S3，基于所述基因拷贝数变异的方向、程度以及等位基因失衡程度进行第一细胞聚类确定首次确定的疑似非恶性细胞和疑似恶性细胞；

S4，基于首次确定的疑似非恶性细胞和疑似恶性细胞，根据肿瘤特征分值与非肿瘤特征分值进行第二细胞聚类确定最终的非恶性细胞和恶性细胞。

优选的，所述数据包括基于单细胞转录组测序数据计算获得的基因表达值、基因区域的突变基因组位置和突变频率，以及人类基因组的单倍体分型信息；其中：

基于单细胞转录组测序数据计算获得的基因表达值用于衡量基因组区域基因拷贝数变异的水平；基因表达值高，则基因组区域基因拷贝数变异的水平高，反之亦然；

基因区域的突变基因组位置和突变频率用于确定由于拷贝数变异引起的等位基因失衡位置和程度；所述突变频率高，则由于基因拷贝数变异引起的等位基因失衡程度高，反之亦然；

所述人类基因组的单倍体分型信息用于提高检测等位基因失衡的敏感性，基于所述人类基因组的单倍体分型信息，将处在同一个单倍体分型上的突变连接为一组，取该组突变的平均突变频率作为所述突变所在区域的等位基因失衡程度；所述平均突变频率高，则所述突变所在区域的等位基因失衡程度高，反之亦然。

优选的，所述S2包括：

S21，基于所述单细胞转录组测序数据，计算每个基因在各细胞中的基因表达值；对所述基因表达值进行归一化处理，将每个所述基因表达值减去该基因在所有细胞中的平均表达值并除以该基因在所有细胞中表达值的标准差；基于归一化处理后的基因表达值确定所述基因在各细胞中基因拷贝数变异的方向和程度：如果所述归一化处理后的基因表达值为正，说明所述基因发生了基因拷贝数扩增，所述归一化处理后的基因表达值越大，则表明所述基因拷贝数扩增程度越大；如果所述归一化处理后的基因表达值为负，说明所述基因发生了基因拷贝数缺失，所述归一化处理后的基因表达值越小，则表明所述基因拷贝数缺失程度越大；

S22，基于所述单细胞转录组测序数据，针对每个基因鉴定发生在其区域内的突变，确定基因区域的突变基因组位置和突变频率；

S23，参考人类基因组的单倍体分型信息，将所述S22中出现在同一个单倍型上的所述突变连接为一组；取一组突变中所有突变的突变频率的平均值与第一经验值的差值来衡量等位基因失衡程度：如果所述差值大于0，说明携带有该组突变的基因发生了基因拷贝数扩增，所述差值越大，表明所述基因拷贝数扩增程度越大；如果所述差值小于0，说明携带有该组突变的基因发生了基因拷贝数缺失，所述差值越小，表明所述基因拷贝数缺失程度越大。

优选的，所述第一经验值为0.5。

优选的，所述S3包括：

S31，根据所述基因拷贝数变异的方向，基于所述基因拷贝数变异的数值和等位基因失衡的数值两个数据指标，对所有细胞进行第一聚类获得多个第一细胞类别组；

S32，对多个第一细胞类别组中每个类别组的所有细胞的所述基因拷贝数变异的数值以及所述等位基因失衡的数值分别取绝对值获得多个第一绝对值和多个第二绝对值，并计算多个第一绝对值的平均值和多个第二绝对值的平均值获得基因拷贝数变异平均值和等位基因失衡平均值；

S33，所述基因拷贝数变异平均值和等位基因失衡平均值的乘积低于第一阈值的第一细胞类别组为首次确定的疑似非恶性细胞；剩余的第一细胞类别组为首次确定的疑似恶性细胞。

优选的，所述第一聚类为k-means聚类，并指定所述k-means聚类的聚类数目为2。

优选的，所述S4包括：

S41，基于首次确定的疑似非恶性细胞和疑似恶性细胞，确定鉴定差异表达基因的基准，基于所述基准分别确定恶性细胞特征基因和非恶性细胞特征基因；

S42，对于每个细胞，分别取恶性细胞特征基因和非恶性细胞特征基因的表达中位值作为该细胞的恶性细胞评分和非恶性细胞评分；

S43，基于恶性细胞评分和非恶性细胞评分，对所有细胞进行第二聚类获得多个第二细胞类别组；

S44，计算多个第二细胞类别组中的每个细胞类别组中每个细胞的恶性细胞评分和非恶性细胞评分的差值，将差值的均值高于第二阈值的第二细胞类别组作为疑似恶性细胞，其余的第二细胞类别组作为疑似非恶性细胞；

S45，调整S41的所述基准后，重复S42-S44，从而确定最终的非恶性细胞和恶性细胞。

优选的，所述S41的所述基准为差异基因的筛选标准，包括：

取log₂FoldChange>1和FDR<0.05的基因作为恶性细胞特征基因，取log₂FoldChange<-1和FDR<0.05的基因作为非恶性细胞特征基因；其中log₂FoldChange为疑似恶性细胞中的基因表达值均值与疑似非恶性细胞中的基因表达值均值的比值的log2转换。

优选的，所述第二聚类为k-means聚类，并指定所述k-means聚类的聚类数目为2。

本发明的第二方面，提供一种恶性细胞鉴定系统，包括：

单细胞转录组测序数据获取模块，用于获取单细胞转录组测序数据；

基因拷贝数变异和等位基因失衡程度确定模块，用于基于所述单细胞转录组测序数据计算基因拷贝数变异鉴定恶性细胞所需的数据，并基于所述数据确定基因拷贝数变异的方向、程度以及等位基因失衡程度；

首次聚类及鉴定模块，用于基于所述基因拷贝数变异的方向、程度以及等位基因失衡程度进行第一细胞聚类确定首次确定的疑似非恶性细胞和疑似恶性细胞；

二次聚类及鉴定模块，基于首次确定的疑似非恶性细胞和疑似恶性细胞，根据肿瘤特征分值与非肿瘤特征分值进行第二细胞聚类确定最终的非恶性细胞和恶性细胞。

本发明的第三方面提供一种电子设备，包括处理器和存储器，所述存储器存储有多条指令，所述处理器用于读取所述指令并执行如第一方面所述的方法。

本发明的第四方面提供一种计算机可读存储介质，所述计算机可读存储介质存储有多条指令，所述多条指令可被处理器读取并执行如第一方面所述的方法。

本发明提供的恶性细胞鉴定方法、系统和电子设备，具有如下有益效果：

本发明恶性细胞鉴定方法在鉴定恶性细胞的过程中，消除了对肿瘤组织和癌旁组织群细胞转录组测序数据的依赖，同时纳入了更丰富的参考信息，包括基因拷贝数变异、采用人类基因组单倍体分型校正后的等位基因失衡程度以及恶性细胞和非恶性细胞特征基因表达值，从而提高了对恶性细胞鉴定的敏感性。

附图说明

图1为本发明所述的恶性细胞鉴定方法流程示意图。

图2为本发明提供的恶性细胞鉴定系统原理结构图。

图3为本发明提供的电子设备一种实施例的结构示意图。

具体实施方式

为了更好的理解上述技术方案，下面将结合说明书附图以及具体的实施方式对上述技术方案做详细的说明。

本发明提供的方法可以在如下的终端环境中实施，该终端可以包括一个或多个如下部件：处理器、存储器和显示屏。其中，存储器中存储有至少一条指令，所述指令由处理器加载并执行以实现下述实施例所述的方法。

处理器可以包括一个或者多个处理核心。处理器利用各种接口和线路连接整个终端内的各个部分，通过运行或执行存储在存储器内的指令、程序、代码集或指令集，以及调用存储在存储器内的数据，执行终端的各种功能和处理数据。

存储器可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory，ROM)。存储器可用于存储指令、程序、代码、代码集或指令。

显示屏用于显示各个应用程序的用户界面。

除此之外，本领域技术人员可以理解，上述终端的结构并不构成对终端的限定，终端可以包括更多或更少的部件，或者组合某些部件，或者不同的部件布置。比如，终端中还包括射频电路、输入单元、传感器、音频电路、电源等部件，在此不再赘述。

实施例一

如图1所示，本实施例提供了一种恶性细胞鉴定方法，包括：

S1，获取单细胞转录组测序数据；

作为优选的实施方式，所述数据包括基于单细胞转录组测序数据计算获得的基因表达值、基因区域的突变基因组位置和突变频率，以及人类基因组的单倍体分型（haplotype）信息。其中：

基因区域的突变基因组位置和突变频率用于确定由于拷贝数变异引起的等位基因失衡（allelicimbalance）位置和程度；所述突变频率高，则由于基因拷贝数变异引起的等位基因失衡程度高，反之亦然；

为了提高拷贝数变异鉴定的敏感性，本实施例同时考虑了基于单细胞转录组测序数据计算获得的基因表达值、基因区域的突变位置和突变频率，以及人类基因组的单倍体分型（haplotype）信息。

作为优选的实施方式，所述S2包括：

作为优选的实施方式，所述第一经验值为0.45-0.55，优选为0.5。

作为优选的实施方式，所述S3包括：

S33，所述基因拷贝数变异平均值和等位基因失衡平均值的乘积低于第一阈值的第一细胞类别组为首次确定的疑似非恶性细胞；剩余的第一细胞类别组为首次确定的疑似恶性细胞。本实施例中，第一阈值并不是一个固定的阈值，而是相对阈值，即两个细胞类别组相比，基因拷贝数变异平均值和等位基因失衡平均值的乘积较低的一组作为疑似非恶性细胞。

作为优选的实施方式，所述第一聚类为k-means聚类，并指定所述k-means聚类的聚类数目为2。

作为优选的实施方式，所述S4包括：

S44，计算多个第二细胞类别组中的每个细胞类别组中每个细胞的恶性细胞评分和非恶性细胞评分的差值，将差值的均值高于第二阈值的第二细胞类别组作为疑似恶性细胞，其余的第二细胞类别组作为疑似非恶性细胞；本实施例中，第二阈值并不是一个固定的阈值，而是相对阈值，即两个细胞类别组相比，恶性细胞评分和非恶性细胞评分差值的平均值较高的一组作为疑似恶性细胞。

作为优选的实施方式，所述S41的所述基准为差异基因的筛选标准，包括：

随着测序成本的不断降低，转录组测序分析已逐渐成为一种很常用的分析手段；在做基因表达分析时必然会要做差异分析（DE），DE的方法主要有两种：Fold change和t-test。

转录组分析差异表达基因时，本发明采用log₂FoldChange和FDR值，其中log₂FoldChange也可以采用log₂FC表示，其中FC即 Fold Change，表示两样品（组）间表达量的比值或者样本之间表达量的差异倍数；对其取以2为底的对数之后即为log₂FC，这样可以让差异特别大的和差异比较小的数值缩小之间的差距。一般默认取log₂FC绝对值大于1。

FDR（即False Discovery Rate，错误发现率），是通过对差异显著性p值（p-value）进行校正得到的，其中差异显著性p值（p-value）由t-test获得的。由于转录组测序的差异表达分析是对大量的基因表达值进行独立的统计假设检验，会存在假阳性问题，在转录组分析中，主要用在差异表达基因的分析中，控制最终分析结果中假阳性结果的比例。

在转录组分析中，如何确定某个转录本在不同的样品中表达量是否有差异是分析的核心内容之一。一般来说，不同样品中，表达量差异在两倍以上的转录本，是具有表达差异的转录本。为了判断两个样品之间的表达量差异究竟是由于各种误差导致的还是本质差异，需要根据所有基因在这两个样本中的表达量数据进行假设检验。常用的假设检验方法有t-检验、卡方检验等。假设检验查看p-value不能确定一个转录本是不是差异表达，这是因为转录组分析并不是针对一个或几个转录本进行分析，转录组分析的是一个样品中所转录表达的所有转录本。所以，一个样品当中有多少转录本，就需要对多少转录本进行假设检验。这会导致一个很严重的问题，在单次假设检验中较低的假阳性比例会累积到一个非常惊人的程度。假设分析的细胞组基因样本中：

（1）包含两个样品，共得到10000条转录本的表达量数据，

（2）其中有100条转录本的表达量在两个样品中是有差异的，

（3）针对单个基因的差异表达分析有1%的假阳性。

由于存在1%假阳性的结果，在分析完这10000个基因后，会得到100个假阳性导致的错误结果，加上100条真实存在的结果，共计200个结果。在这个例子中，一次分析得到的200个差异表达基因中，有50%都是假阳性导致的错误结果，这显然是不可接受的。为了解决这个问题，本实施例引入FDR以控制最终得到的分析结果中假阳性的比例。

FDR的计算是根据假设检验的p-value进行校正而得到的。因此在进行差异表达分析过程中，采用了公认的Benjamini-Hochberg校正方法对原有假设检验得到的显著性p值（p-value）进行校正，并最终采用FDR作为差异表达基因筛选的关键指标。一般取FDR<0.01或者0.05，0.1作为默认标准。

这两个指标的选取一般是按照经验值去筛选的，并非完全不可以调整。在实验差异基因数目过低或者过高，可以对指标进行微调，因此在步骤S45的实施中调整该基准，本实施例中将FDR从0.05为阈值调整为0.01或0.1。

一般来说，FDR的计算方法如下：

（1）将所有p-value升序排列；p-value记为P，p-value的序号记为i，p-value的总数记为m；

（2）FDR(i)=P(i)*m/i；

（3）根据i的取值从大到小，依次执行：FDR(i)=min{FDR(i),FDR(i+1)}

实际上，BH法的原始算法是找到一个最大的i，满足P≤i/m*FDR阈值，此时，所有小于i的数据就都可以认为是显著的。本实施例中，为了能够比较方便的用不同的FDR阈值对数据进行分析，采用了步骤（3）里的方法，可以保证不论FDR阈值选择多少，都可以直接根据FDR的数值直接找到所有显著的数据。

FDR的阈值选择在转录组分析中是非常重要的一个环节，常用的阈值包括0.01、0.05、0.1等。实践中也可以根据实际的需要来灵活选择。例如，当通过转录组分析得到的差异表达基因数量较少时，由于假阳性累积的程度较低，所以可以适当将FDR阈值设置的较高一些，这样可以获得较多的差异表达结果，有利于后续的分析。

作为优选的实施方式，所述第二聚类为k-means聚类，并指定所述k-means聚类的聚类数目为2。

实施例二

如图2所示，本实施例提供一种恶性细胞鉴定系统，包括：

单细胞转录组测序数据获取模块101，用于获取单细胞转录组测序数据；

基因拷贝数变异和等位基因失衡程度确定模块102，用于基于所述单细胞转录组测序数据计算基因拷贝数变异鉴定恶性细胞所需的数据，并基于所述数据确定基因拷贝数变异的方向、程度以及等位基因失衡程度；

首次聚类及鉴定模块103，用于基于所述基因拷贝数变异的方向、程度以及等位基因失衡程度进行第一细胞聚类确定首次确定的疑似非恶性细胞和疑似恶性细胞；

二次聚类及鉴定模块104，基于首次确定的疑似非恶性细胞和疑似恶性细胞，根据肿瘤特征分值与非肿瘤特征分值进行第二细胞聚类确定最终的非恶性细胞和恶性细胞。

该系统可实现上述实施例一提供的鉴定方法，具体的鉴定方法可参见实施例一中的描述，在此不再赘述。

本发明还提供了一种存储器，存储有多条指令，指令用于实现如实施例一的方法。

如图3所示，本发明还提供了一种电子设备，包括处理器301和与处理器301连接的存储器302，存储器302存储有多条指令，指令可被处理器加载并执行，以使处理器能够执行如实施例一的方法。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种恶性细胞鉴定方法，其特征在于，包括：

S1，获取单细胞转录组测序数据；

S2，基于所述单细胞转录组测序数据计算基因拷贝数变异鉴定恶性细胞所需的数据，并基于所述基因拷贝数变异鉴定恶性细胞所需的数据确定基因拷贝数变异的方向、程度以及等位基因失衡程度；

S4，基于首次确定的疑似非恶性细胞和疑似恶性细胞，根据肿瘤特征分值与非肿瘤特征分值进行第二细胞聚类确定最终的非恶性细胞和恶性细胞；

所述基因拷贝数变异鉴定恶性细胞所需的数据包括基于单细胞转录组测序数据计算获得的基因表达值、基因区域的突变基因组位置和突变频率，以及人类基因组的单倍体分型信息；其中：

2.根据权利要求1所述的一种恶性细胞鉴定方法，其特征在于，所述S2包括：

3.根据权利要求2所述的一种恶性细胞鉴定方法，其特征在于，所述第一经验值为0.5。

4.根据权利要求3所述的一种恶性细胞鉴定方法，其特征在于，所述S3包括：

5.根据权利要求4所述的一种恶性细胞鉴定方法，其特征在于，所述第一聚类为k-means聚类，并指定所述k-means聚类的聚类数目为2。

6.根据权利要求5所述的一种恶性细胞鉴定方法，其特征在于，所述S4包括：

7.根据权利要求6所述的一种恶性细胞鉴定方法，其特征在于，所述S41的所述基准为差异基因的筛选标准，包括：

8.根据权利要求6所述的一种恶性细胞鉴定方法，其特征在于，所述第二聚类为k-means聚类，并指定所述k-means聚类的聚类数目为2。

9.一种恶性细胞鉴定系统，用于实施根据权利要求1-8任一所述的恶性细胞鉴定方法，其特征在于，包括：

单细胞转录组测序数据获取模块（101），用于获取单细胞转录组测序数据；

基因拷贝数变异和等位基因失衡程度确定模块（102），用于基于所述单细胞转录组测序数据计算基因拷贝数变异鉴定恶性细胞所需的数据，并基于所述基因拷贝数变异鉴定恶性细胞所需的数据确定基因拷贝数变异的方向、程度以及等位基因失衡程度；

首次聚类及鉴定模块（103），用于基于所述基因拷贝数变异的方向、程度以及等位基因失衡程度进行第一细胞聚类确定首次确定的疑似非恶性细胞和疑似恶性细胞；

二次聚类及鉴定模块（104），基于首次确定的疑似非恶性细胞和疑似恶性细胞，根据肿瘤特征分值与非肿瘤特征分值进行第二细胞聚类确定最终的非恶性细胞和恶性细胞。

10.一种电子设备，其特征在于，包括处理器和存储器，所述存储器存储有多条指令，所述处理器用于读取所述指令并执行如权利要求1-8任一所述的鉴定方法。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有多条指令，所述多条指令可被处理器读取并执行如权利要求1-8任一所述的鉴定方法。