CN115691665B

CN115691665B - 基于转录因子的癌症早期筛查诊断方法

Info

Publication number: CN115691665B
Application number: CN202211717385.4A
Authority: CN
Inventors: 李振聪; 张轶群; 万千惠; 张怡然; 裴志华; 王东亮; 牛孝亮
Original assignee: Beijing Qiuzhen Medical Laboratory Co ltd
Current assignee: Beijing Qiuzhen Medical Laboratory Co ltd
Priority date: 2022-12-30
Filing date: 2022-12-30
Publication date: 2023-04-07
Anticipated expiration: 2042-12-30
Also published as: CN115691665A

Abstract

本发明涉及癌症筛查技术领域，尤其是指基于转录因子的癌症早期筛查诊断方法，包括以下步骤：S1，对样本进行测序获得下机数据进行拆分得到单个样本的测序数据，转换成FASTQ文件；S2，对FASTQ文件进行获得矫正的BAM文件；S3，从GTRD数据库中筛选得到可信转录因子，在每个转录因子结合位点计算上下游1000BP每个位置的深度，并取平均值；S4，上下游1000BP深度按照Savitzky‑Golay拆分成高频和低频信号，计算得TFscore；S5，筛选转录因子；S6，计算待测样本每个转录因子Zscore，最终取‑ΣlogPvalue作为该样本的指标。本发明中转录因子的选择不仅基于数据库，还使用自建队进行列筛；计算TFscore用的转录因子的选择，使方法具备鲁棒性,各批次样本中具有稳定性。

Description

基于转录因子的癌症早期筛查诊断方法

技术领域

本发明涉及癌症筛查技术领域，尤其是指基于转录因子的癌症早期筛查诊断方法。

背景技术

癌症的发展是一个漫长过程，最开始是在基因水平，然后发展到细胞水平最后是组织水平的变异。传统方法仅仅是在细胞水平或者组织水平发现癌症，目前肿瘤检测的手段主要包括影像学检测，肿瘤标志物检测和病理切片检测（金标准）。影像学检测是通过X射线、B超、CT、核磁共振成像等手段检测，只能发现直径 1 cm 以上的肿瘤病灶，发现时癌症病人的病情基本已经到了中晚期，通常已经错过了最佳治疗时间。肿瘤标志物较多且其灵敏度特异度较差，假阳假阴偏多。病理切片虽然是金标准但是需要穿刺活检，往往要到癌症中晚期才能检查出结果。

液体活检是利用高通量测序仪来检测血液中循环肿瘤DNA和循环肿瘤细胞，由于循环肿瘤细胞较少，临床上以检测DNA为主。在最近的研究中，基于cfDNA基因变异的液体活检技术在癌症早期检测中表现出巨大的潜力，而其中的转录因子结合信号是一个重要的分支。

染色质分为常染色质和异染色质，常染色质表示染色质比较松散的形态，其很多片段处于活跃的状态，异染色质是染色质折叠非常致密的状态，基因无转录活性。真核生物DNA不是裸露的而是与蛋白质相结合的，DNA缠绕在组蛋白上其继续折叠浓缩形成染色体。

折叠的染色体结构在DNA复制以及基因转录时会将染色体解开暴露出DNA序列，这部分打开的染色质被称为开放染色质，这个区域可以供转录因子和其他调控元件结合。

当出现开放染色质时，顺式作用原件包括启动子、增强子等和反式作用因子包括转录因子便可以与之结合，这一特性称之为染色质可及性。

转录因子是指能够与基因上特定DNA序列结合的蛋白质，这些蛋白质的主要作用是调节基因的表达，转录因子是执行DNA解码的第一步，转录因子能够控制细胞类型、发育模式和特定信号通路的调节过程。

转录因子的调控通常是通过与基因组中特定的DNA序列相结合来实现的，基因组中这些特定的DNA序列称为转录因子结合位点。转录因子结合位点是与转录因子结合的DNA片段，这些DNA片段通常在5碱基至20碱基范围内，一个转录因子往往结合多个转录因子结合位点，同时一个基因又是由多个转录因子共同调控的，这些转录因子和目标基因形成了复杂的转录调控网络。

转录因子的结合通常与核小体位置有关的，而核小体位置与基因的调控和转录相关，在基因组上并不是随机分布的。一个显著特征是调控区域和转录区域中的核小体密度有着很大的区别。对于一个表达的基因，其转录起始位置、转录终止位置的核小体密度较低，但这些核小体缺失区域的周围核小体定位较好，而且核小体定位信号随着与核小体缺失区域距离的增大而降低。

转录因子结合区域上下游100 bp测序深度呈现周期性变化，变化波动越大其可及性越大，因此可以寻找指标衡量转录因子结合位点上下游1000 bp的波动性来区分癌症以及健康人。

目前肿瘤检测的手段主要包括影像学检测，肿瘤标志物检测和病理切片检测（金标准）。影像学检测是通过X射线、B超、CT、核磁共振成像等手段检测，只能发现直径 1 cm以上的肿瘤病灶，发现时癌症病人的病情基本已经到了中晚期，通常已经错过了最佳治疗时间。肿瘤标志物较多且其灵敏度特异度较差，假阳假阴偏多。病理切片虽然是金标准但是需要穿刺活检，往往要到癌症中晚期才能检查出结果。

发明内容

本发明要解决的技术问题是提供基于转录因子的癌症早期筛查诊断方法，利用转录因子，在控制测序成本的情况下最大限度区分健康人以及癌症患者，同时算法具有良好的鲁棒性。

为了解决上述技术问题，本发明采用如下技术方案：

基于转录因子的癌症早期筛查诊断方法，包括以下步骤：

S1，对样本进行测序获得下机数据进行拆分得到单个样本的测序数据，转换成FASTQ文件；

S2，对FASTQ文件进行处理获得矫正的BAM文件；

S3，从GTRD数据库中筛选得到可信转录因子，在每个转录因子结合位点计算上下游1000BP每个位置的深度，并取平均值；

S4，上下游1000BP深度按照Savitzky-Golay拆分成高频和低频信号，计算得TFscore；

S5，从上述得到的转录因子中筛选出转录因子秩，使用T检验寻找有差别的转录因子；

S6，建立基线，计算待测样本每个转录因子Zscore，将转录因子的ZscoreR都转成Pvalue，最终取-ΣlogPvalue作为该样本的指标。

进一步地，步骤S1中 FASTQ文件的具体获得方法为：在高通量测序仪（MGI2000）上完成测序，测序平台将得到的光信号转化为BCL格式的测序下机数据，并对下机数据进行拆分，根据样本index将单个样本的测序数据拆分出来，转换成FASTQ格式。

进一步地，步骤S2中获得矫正后的BAM文件的具体操作方法为：将S1获取的FASTQ文件进行数据质控，通过数据质控去除测序低质量的序列；利用基因组BWA比对软件进行比对，获取BAM文件，使用samtools去除冗余，得到去冗余的BAM文件；使用samtools过滤MAPQ值低于30的序列生成高质量的去冗余BAM文件，之后使用GATK对BAM文件进行矫正，获得矫正之后的BAM文件。

进一步地，步骤S3中筛选转录因子的具体操作方法为：从GTRD数据库中下载转录因子，选择转录因子结合位点大于1000个位点的转录因子，筛选得到可信转录因子；将参考基因按照50KB切割得到Bin，计算每个Bin的深度；计算参考基因组平均深度，最终转录因子结合位点上下游1000BP每个位点的深度等于测得原始深度/位点所在Bin的深度/平均深度；每个转录因子有多个转录因子结合位点，求所有转录因子结合位点上下游1000BP深度均值作为该转录因子上下游1000BP。

进一步地，步骤S4中计算得TFscore的计算方法为：将S3中得到的转录因子结合位点上下游1000BP深度使用Savitzky-Golay滤波器平滑成一个高频波，使用Savitzky-Golay滤波器平滑成一个低频波，之后高频波每个位点的深度除以低频波每个位点的深度；

计算TFscore：

Max为上述转录因子上下游1000BP深度的最大值；

Min为上述转录因子上下游1000BP深度的最小值。

进一步地，步骤S5中寻找有差别的转录因子具体操作方法为：在S3得到的可信转录因子中计算所有健康人、癌症患者的每个转录因子秩,使用T检验寻找在健康人和癌症患者中有差别的转录因子，保留差别转录因子。

进一步地，步骤S6中样本的指标获得的具体方法为：计算每个健康人所有转录因子TFscore，对所有转录因子TFscore排序得到每个转录因子秩(R)，计算待测样本每个转录因子Zscore，

其中：

Rcase代表待测样本每个转录因子的秩；

MeanR代表健康人样本在每个转录因子秩的均值；

SdR代表健康人样本在每个转录因子秩的标准差；

将S5中差别转录因子的ZscoreR都转成Pvalue，最终取-ΣlogPvalue作为该样本的指标。

本发明的有益效果：

本方法中TFscore的计算方法及中间步骤，包括不限于WGS，WGBS等全基因组测序、高深度测序及低深度测序；本方法中转录因子的选择不仅基于数据库，还使用自建队进行列筛；计算TFscore用的转录因子的选择，使方法具备鲁棒性,各批次样本中具有稳定性。

附图说明

图1为本发明的性能测试结果图；

图2为本发明的数据分析总流程示意图。

具体实施方式

为了便于本领域技术人员的理解，下面结合实施例与附图对本发明作进一步的说明，实施方式提及的内容并非对本发明的限定。

实施例1

样品上机前处理：

1、cfDNA提取：采用血浆提取试剂盒提取血浆样本中的cfDNA，具体的操作参见QIAGEN公司的QIAamp Circulating Nuleacid Kit试剂盒说明书，使用Qubit4.0和dsDNAHS Assay Kit对提取的DNA进行定量；

2、文库构建：

1）对cfDNA末端修复并在3'末端加A尾：取10-50ng cfDNA至PCR管中，用Low TE补至50μL，取PCR管按照下表1加入试剂。

表1

涡旋混匀，微离心，按照下表2设置程序在PCR仪上进行反应。

表2

2）连接接头：上述反应结束后，取PCR管加入下表3中试剂。

表3

涡旋混匀，微离心，按照下表4设置程序在PCR仪上进行反应（热盖关闭）。

表4

步骤	温度/℃	时间
			Step1	20	15-30min
Step2	4	∞

3）连接后纯化：

①准备试剂：Beckman Agencourt AMPure XP磁珠2~8℃保存，室温平衡至少30min。

②在每个样本中加80 μL（1× 体积）AMPure XP 磁珠，用移液器吹打或者振荡充分混匀，室温静置5分钟。

③放置磁力架静置2分钟，待磁珠全部吸附至侧壁，使用移液器吸取移弃上清，注意勿扰动磁珠。

④在磁力架上沿磁珠相反方向的管壁缓慢加入200 μL 80%乙醇，静置30s-1min，使用移液器吸取移弃上清。

⑤重复上步骤一次，用10 μL的移液器将残留的乙醇尽量吸弃干净。

⑥室温干燥磁珠5分钟。

⑦每个样本用21 μL low TE 缓冲液重悬磁珠。

⑧用移液器吹打或者振荡充分混匀，室温孵育 1分钟。

⑨放置磁力架上，室温孵育2分钟。

⑩待磁珠完全吸附至侧壁，将20 μL上清液移到一个新的PCR管中等待扩增。

3）文库扩增：

上述纯化结束后，取PCR管加入下表5中试剂。

表5

涡旋混匀，微离心，按照下表6设置程序在PCR仪上进行反应。

表6

反应结束后，按照磁珠纯化的流程使用1X体积磁珠纯化PCR产物，之后用dsDNA HSAssay Kit测定预文库浓度，利用QIAxcel进行片段大小检测。

实施例2

上机测试：

1）获取FASTQ文件：在高通量测序仪（MGI2000）上完成测序，测序平台将得到的光信号转化为BCL格式的测序下机数据，并对下机数据进行拆分，根据样本index将单个样本的测序数据拆分出来，转换成FASTQ格式。

2）获取高质量BAM文件：将第一步获取的FASTQ文件进行数据质控，通过数据质控去除测序低质量的序列。利用基因组BWA比对软件进行比对，获取BAM文件，使用samtools去除冗余，得到去冗余的BAM文件；使用samtools过滤MAPQ值低于30的序列生成高质量的去冗余BAM文件，之后使用GATK对BAM文件进行矫正，获得矫正之后的BAM文件。

3）选择可信转录因子：从GTRD数据库中下载转录因子，选择转录因子结合位点大于1000个位点的转录因子，总共筛选得到502个转录因子。

4）计算转录因子对应的所有转录因子结合位点上下游1000BP深度：将参考基因按照50KB切割得到Bin，计算每个Bin的深度。计算参考基因组平均深度，最终转录因子结合位点上下游1000BP每个位点的深度等于测得原始深度/位点所在Bin的深度/平均深度，每个转录因子会有许多个转录因子结合位点，然后求所有转录因子结合位点上下游1000BP深度均值作为该转录因子上下游1000BP。

5）上下游1000BP深度按照Savitzky-Golay拆分成高频和低频信号：将上述得到的转录因子结合位点上下游1000BP深度使用Savitzky-Golay滤波器平滑成一个高频波，使用Savitzky-Golay滤波器平滑成一个低频波，之后高频波每个位点的深度除以低频波每个位点的深度。

6）计算得TFscore：TFscore= Max-Min

Max为5）中得到的转录因子上下游1000BP深度的最大值；

Min为5）中得到的转录因子上下游1000BP深度的最小值；

TFscore为最大值和最小值之差。

7）转录因子的筛选：在502个转录因子中计算所有32例健康人、112例癌症患者在每个转录因子秩,使用T检验寻找在健康人和癌症患者有差别的转录因子，最终保留213个转录因子。

8）使用健康人建立基线：计算每个健康人计算所有转录因子TFscore，对所有转录因子TFscore排序得到每个转录因子秩(R)，计算待测样本每个转录因子Zscore，

其中：

Rcase代表待测样本每个转录因子的秩；

MeanR代表健康人样本在每个转录因子秩的均值；

SdR代表健康人样本在每个转录因子秩的标准差；

将213个转录因子的ZscoreR都转成Pvalue，最终取-ΣlogPvalue作为该样本的指标。

实施例4

性能验证：

选两组样本，一组癌症患者（N=112），一组健康人（N=32），计算-ΣlogPvalue, 当-ΣlogPvalue为242.69，特异度为95%，敏感度为88%。

本实施例中的所有技术特征均可根据实际需要而进行参数修改。

上述实施例为本发明较佳的实现方案，除此之外，本发明还可以其它方式实现，在不脱离本技术方案构思的前提下任何显而易见的替换均在本发明的保护范围之内。

Claims

1.基于转录因子的癌症早期筛查诊断方法，其特征在于：包括以下步骤：

S2，对FASTQ文件进行处理获得矫正的BAM文件；

S6，建立基线，计算待测样本每个转录因子ZscoreR，将转录因子的ZscoreR都转成Pvalue，最终取-∑logPvalue作为该样本的指标；

步骤S2中获得矫正后的BAM文件的具体操作方法为：将S1获取的FASTQ文件进行数据质控，通过数据质控去除测序低质量的序列；利用基因组BWA比对软件进行比对，获取BAM文件，使用samtools去除冗余，得到去冗余的BAM文件；使用samtools过滤MAPQ值低于30的序列生成高质量的去冗余BAM文件，之后使用GATK对BAM文件进行矫正，获得矫正之后的BAM文件；

步骤S3中筛选转录因子的具体操作方法为：从GTRD数据库中下载转录因子，选择转录因子结合位点大于1000个位点的转录因子，筛选得到可信转录因子；将参考基因按照50KB切割得到Bin，计算每个Bin的深度；计算参考基因组平均深度，最终转录因子结合位点上下游1000BP每个位点的深度等于测得原始深度/位点所在Bin的深度/平均深度；每个转录因子有多个转录因子结合位点，求所有转录因子结合位点上下游1000BP深度均值作为该转录因子上下游1000BP；

步骤S4中计算得TFscore的计算方法为：将S3中得到的转录因子结合位点上下游1000BP深度使用Savitzky-Golay滤波器平滑成一个高频波，使用Savitzky-Golay滤波器平滑成一个低频波，之后高频波每个位点的深度除以低频波每个位点的深度；

计算TFscore：

TFscore＝Max--Min

Max为上述转录因子上下游1000BP深度的最大值；

Min为上述转录因子上下游1000BP深度的最小值；

步骤S6中样本的指标获得的具体方法为：计算每个健康人所有转录因子TFscore，对所有转录因子TFscore排序得到每个转录因子秩R，计算待测样本每个转录因子ZscoreR，

其中：

Rcase代表待测样本每个转录因子的秩；

MeanR代表健康人样本在每个转录因子秩的均值；

SdR代表健康人样本在每个转录因子秩的标准差；

将S5中差别转录因子的ZscoreR都转成Pvalue，最终取-∑logPvalue作为该样本的指标。

2.根据权利要求1所述的基于转录因子的癌症早期筛查诊断方法，其特征在于：步骤S1中FASTQ文件的具体获得方法为：在高通量测序仪上完成测序，测序平台将得到的光信号转化为BCL格式的测序下机数据，并对下机数据进行拆分，根据样本index将单个样本的测序数据拆分出来，转换成FASTQ格式。

3.根据权利要求1所述的基于转录因子的癌症早期筛查诊断方法，其特征在于：步骤S5中寻找有差别的转录因子具体操作方法为：在S3得到的可信转录因子中计算所有健康人、癌症患者的每个转录因子秩，使用T检验寻找在健康人和癌症患者中有差别的转录因子，保留差别转录因子。