CN116343917B - 一种基于ATAC-seq足迹识别转录因子共定位的方法 - Google Patents
一种基于ATAC-seq足迹识别转录因子共定位的方法 Download PDFInfo
- Publication number
- CN116343917B CN116343917B CN202310326955.5A CN202310326955A CN116343917B CN 116343917 B CN116343917 B CN 116343917B CN 202310326955 A CN202310326955 A CN 202310326955A CN 116343917 B CN116343917 B CN 116343917B
- Authority
- CN
- China
- Prior art keywords
- transcription factor
- atac
- localization
- transcription
- seq
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 108091023040 Transcription factor Proteins 0.000 title claims abstract description 234
- 102000040945 Transcription factor Human genes 0.000 title claims abstract description 234
- 230000008045 co-localization Effects 0.000 title claims abstract description 74
- 238000000034 method Methods 0.000 title claims abstract description 44
- 230000009137 competitive binding Effects 0.000 claims abstract description 11
- 230000027455 binding Effects 0.000 claims description 31
- 210000004027 cell Anatomy 0.000 claims description 17
- 238000012216 screening Methods 0.000 claims description 6
- 238000012163 sequencing technique Methods 0.000 claims description 6
- 210000001519 tissue Anatomy 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 230000002860 competitive effect Effects 0.000 claims description 5
- 230000004807 localization Effects 0.000 claims description 5
- 108010077544 Chromatin Proteins 0.000 claims description 4
- 210000003483 chromatin Anatomy 0.000 claims description 4
- 230000009146 cooperative binding Effects 0.000 abstract description 6
- 238000007781 pre-processing Methods 0.000 abstract description 2
- 239000011159 matrix material Substances 0.000 description 18
- 238000001353 Chip-sequencing Methods 0.000 description 17
- 108090000623 proteins and genes Proteins 0.000 description 9
- 238000010586 diagram Methods 0.000 description 6
- 238000013518 transcription Methods 0.000 description 6
- 230000035897 transcription Effects 0.000 description 6
- 102100027584 Protein c-Fos Human genes 0.000 description 3
- 239000003086 colorant Substances 0.000 description 3
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 3
- 230000009456 molecular mechanism Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 102000039539 Fos family Human genes 0.000 description 2
- 108091067362 Fos family Proteins 0.000 description 2
- 101001139112 Homo sapiens Krueppel-like factor 9 Proteins 0.000 description 2
- 101000931462 Homo sapiens Protein FosB Proteins 0.000 description 2
- 101001028730 Homo sapiens Transcription factor JunB Proteins 0.000 description 2
- 102100020684 Krueppel-like factor 9 Human genes 0.000 description 2
- 102100020847 Protein FosB Human genes 0.000 description 2
- 102100037168 Transcription factor JunB Human genes 0.000 description 2
- 101150064107 fosB gene Proteins 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 102100030379 Acyl-coenzyme A synthetase ACSM2A, mitochondrial Human genes 0.000 description 1
- 108020004414 DNA Proteins 0.000 description 1
- 108090000123 Fos-related antigen 1 Proteins 0.000 description 1
- 102000003817 Fos-related antigen 1 Human genes 0.000 description 1
- 102100028121 Fos-related antigen 2 Human genes 0.000 description 1
- 101100054737 Homo sapiens ACSM2A gene Proteins 0.000 description 1
- 101001059934 Homo sapiens Fos-related antigen 2 Proteins 0.000 description 1
- 101001006892 Homo sapiens Krueppel-like factor 10 Proteins 0.000 description 1
- 101001006895 Homo sapiens Krueppel-like factor 11 Proteins 0.000 description 1
- 101000861454 Homo sapiens Protein c-Fos Proteins 0.000 description 1
- 101001050297 Homo sapiens Transcription factor JunD Proteins 0.000 description 1
- 102100027798 Krueppel-like factor 10 Human genes 0.000 description 1
- 102100027797 Krueppel-like factor 11 Human genes 0.000 description 1
- 102100023118 Transcription factor JunD Human genes 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000001580 bacterial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 210000000349 chromosome Anatomy 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 102000023888 sequence-specific DNA binding proteins Human genes 0.000 description 1
- 108091008420 sequence-specific DNA binding proteins Proteins 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000000528 statistical test Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/30—Detection of binding sites or motifs
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Genetics & Genomics (AREA)
- Biotechnology (AREA)
- Biophysics (AREA)
- Chemical & Material Sciences (AREA)
- Molecular Biology (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Bioinformatics & Computational Biology (AREA)
- Analytical Chemistry (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本方案公开了一种基于ATAC‑seq足迹识别转录因子共定位的方法,首先根据ATAC‑seq数据,使用HINT‑ATAC方法进行数据预处理,然后基于泊松分布构建识别转录因子共定位模型,基于距离ds实现协同结合和竞争结合的转录因子对的识别,通过仅使用ATAC‑seq数据作为输入,就能识别协同结合和竞争结合的转录因子对,为进一步应用于多个细胞系提供基础。
Description
技术领域
本方案属于计算机生物学技术领域,提出了一种基于ATAC-seq足迹识别转录因子共定位的方法。
背景技术
转录因子(transcription factor,TF)是一类序列特异性DNA结合蛋白,能够结合在靶基因上游的转录因子结合位点序列,参与调控基因转录过程,从而保证目的基因以特定的强度在特定的时间与空间表达。一般来说,转录因子以组合的形式调控高等生物基因的表达,大多数的转录因子必须共同发挥作用才能完成转录任务。因此,在基因研究以及基因病研究中,获得显著的共定位转录因子对就显得很有必要。现有的转录因子共定位识别方法包括基于转录因子ChIP-seq数据或者motif匹配的统计检验方法。
基于ChIP-seq的方法,首先收集细胞系所有转录因子的ChIP-seq实验数据,确定各转录因子在全基因组的结合位点,对两两转录因子结合位点的关系进行统计检验,获得显著的共定位转录因子对。
转录因子motif匹配方法一般是利用ATAC-seq测序数据得到染色质开放性区域,在这些区域上实施转录因子motif扫描,识别潜在的转录因子结合位点,进而通过统计分析识别共定位转录因子对。
基于ChIP-seq的方法所需的输入数据量大,即,一种细胞系如果想做多个转录因子,就要有多个转录因子ChIP-seq实验数据作为输入,对所研究的细胞系或组织需要几百上千的转录因子ChIP-seq实验数据。目前,如此多的实验数据仅能在有限的细胞系中获得,所以存在实验数据采集的局限性。可变地,基于motif匹配的方法仅利用一种实验数据ATAC-seq即能分析转录因子的共定位,但是无法对共定位定义区分重叠定位还是近邻定位,从而均不能反映转录因子对是竞争结合还是协同结合,而区分转录因子是竞争关系还是协作关系对理解基因转录调控的分子机制是至关重要的。
发明内容
本方案的目的是针对上述问题,提供一种基于ATAC-seq足迹识别转录因子共定位的方法,首先根据ATAC-seq数据,使用HINT-ATAC方法进行数据预处理,然后基于泊松分布构建识别转录因子共定位模型,基于距离ds实现协同结合和竞争结合的转录因子对的识别,通过仅使用ATAC-seq数据作为输入,就能识别协同结合和竞争结合的转录因子对,为进一步应用于多个细胞系提供基础。
一种基于ATAC-seq足迹识别转录因子共定位的方法,其特征在于,该方法包括:
S1.收集并下载待识别目标的ATAC-seq数据,以获取原始的染色质开放性测序数据;一个细胞系或组织有一个对应的ATAC-seq数据,也就是说,对于一个细胞系,只需要一种ATAC-seq数据。
S2.基于步骤S1获取的数据文件,使用足迹分析工具分析转录因子足迹在待识别目标基因组中的坐标数据;ATAC-seq数据是开放区数据,通过footprint分析能识别到基因组中哪些位点是转录因子的结合位点,但是不确定是哪种录因子。
S3.利用转录因子数据库的转录因子motif与足迹坐标数据进行匹配,以获取每个结合位点的具体转录因子种类;通过footprint+motif能够得到某种转录因子的结合位点。
所述的转录因子数据库收录有不同生物的转录因子与结合位点及结合方式;
S4.通过距离计算工具计算每两种转录因子之间的距离ds;
根据计算的ds,以第一距离阈值为准确定两种转录因子的共定位数k1;
根据计算的ds,以第二距离阈值为准确定两种转录因子的共定位数k2;
S5.基于泊松分布构建识别转录因子共定位模型;
使用识别转录因子共定位模型分别计算k1、k2两种情况下的概率值P;
根据概率值P和阈值P’分别筛选两种情况下具有显著性的转录因子对;
S6.对于第二距离阈值的情况,将k1大于期望值的显著性转录因子对判断为协同结合的转录因子对;
对于第一距离阈值情况,将k2大于期望值的显著性转录因子对判断为竞争结合的转录因子对;
根据竞争结合的转录因子对判断各协同结合的转录因子对是否同时属于竞争结合,若是,则将相应转录因子对判断为既竞争又协同。
在上述的基于ATAC-seq足迹识别转录因子共定位的方法中,步骤S5中,显著性的转录因子对包括显著共定位的转录因子对和显著拒绝共定位的转录因子对。
在上述的基于ATAC-seq足迹识别转录因子共定位的方法中,基于泊松分布构建识别转录因子共定位模型为:
其中公式(1)中k为两转录因子在阈值范围内的共定位数,n,m分别为两种转录因子各自的定位数目,N代表待识别目标总共的结合位点,λ为期望值;
通过公式(1)分别计算在两种距离阈值下,每两种转录因子对被判断为共定位或拒绝共定位的概率;
基于概率值分别筛选出两种距离阈值下具有显著性特征的转录因子对。
在上述的基于ATAC-seq足迹识别转录因子共定位的方法中,每两种转录因子,使用相距最近的转录因子间距离作为该两种转录因子间的距离。即,在一个细胞系中,一种转录因子可能有多个,那么每两种转录因子之间就可能有多个距离,这里取最短的距离作为两种转录因子间的距离。
在上述的基于ATAC-seq足迹识别转录因子共定位的方法中,根据每种转录因子匹配有几个坐标确定该转录因子的定位数目。
在上述的基于ATAC-seq足迹识别转录因子共定位的方法中,设定的两种距离阈值,第一距离阈值为ds=0,第二距离阈值为0<ds<150。
在上述的基于ATAC-seq足迹识别转录因子共定位的方法中,步骤S1中,所述的待识别目标为目标细胞系或目标组织。
在上述的基于ATAC-seq足迹识别转录因子共定位的方法中,步骤S2中,所使用足迹分析工具为HINT-ATAC工具,且步骤S1获取的是与HINT-ATAC工具兼容的ATAC-seqnarrowpeak格式文件。
在上述的基于ATAC-seq足迹识别转录因子共定位的方法中,步骤S3中,使用HINT-ATAC软件的motif-analysis模块实现所述的匹配工作。
在上述的基于ATAC-seq足迹识别转录因子共定位的方法中,步骤S3中,所述的转录因子数据库采用JASPAR数据库。
本方案的优点在于:
(1)本发明提出了一种基于ATAC-seq足迹识别转录因子共定位的方法,该方法仅需使用ATAC-seq数据作为输入就能够实现对转录因子共定位的识别,可以应用于多个细胞系,为进一步探索转录因子以组合的模式与DNA相互作用提供方法支持;
(2)本发明基于泊松分布背景模型,计算共定位P值矩阵,识别具有统计显著性的转录因子共定位,从统计学角度排除随机背景的影响,有效识别转录因子共定位;
(3)本发明利用footprint高分辨率数据,有效提高了转录因子结合位点识别的准确性;
(4)本发明通过设定两个阈值,在泊松分布筛选的显著性转录因子对的基础上,对其实现了重叠定位和近邻定位的区分,不仅能够实现共定位转录因子对的识别,而且还能够区分其属于竞争结合还是协同结合,对于转录因子调控的分子机制研究有着重要的意义。
附图说明
图1为本发明实施例提供的基于ATAC-seq足迹识别转录因子共定位的方法流程图;
图2为本发明实施例提供的当距离阈值为ds=0bp时转录因子聚类生成的P值矩阵热图;
图3为本发明实施例提供的当距离阈值为0<ds<150bp时转录因子聚类生成的P值矩阵热图;
图4A为本发明实施例提供的距离阈值为ds=0bp时,按转录因子名字的字母顺序排列的P值矩阵热图;
图4B为本发明实施例提供的距离阈值为0bp<ds<150bp时,按转录因子名字的字母顺序排列的P值矩阵热图;
图4C为图4A中FOS_JUN家族转录因子共定位的P值矩阵热图;
图4D为图4B中FOS_JUN家族转录因子共定位的P值矩阵热图;
图4E为FOS_JUN家族motif位点信息含量logo图;
图5A为本发明实施例提供的距离阈值为ds=0bp时,KLF家族转录因子共定位P值矩阵热图;
图5B为本发明实施例提供的0bp<ds<150bp时,KLF家族转录因子共定位P值矩阵热图;
图6A-图6D为分别为ChIP-seq、ChIP-exo、footprint、ATAC-seq四种数据峰的长度分布对比;
图7A为ChIP-seq+motif与ChIP-exo比较的维恩图;
图7B为footprint+motif与ChIP-exo比较的维恩图。
具体实施方式
下面结合附图和具体实施方式对本方案做进一步详细的说明。
本实施例给出了一种基于ATAC-seq足迹识别转录因子共定位的方法,如图1所示,具体包含以下步骤:
S1.收集并下载待识别目标的ATAC-seq数据,如K562细胞系,以获取原始的染色质开放性测序数据。ENCODE包含370个组织或细胞系的ATAC-seq测序数据可用,本实施例从ENCODE获取K562细胞系的ATAC-seq数据。
S2.根据下载的ATAC-seq narrowpeak格式文件,使用HINT-ATAC工具得到转录因子footprint(足迹)在基因组中的坐标数据。
HINT-ATAC为LINUX系统下的软件RGT,RGT是一个开源库,HINT-ATAC是RGT库中的一个开源软件,HINT-ATAC可以用于进行footprint分析,通过footprint分析得到footprint在基因组中的坐标数据,可用于获取转录因子在全基因组上结合情况,其具体分析方式直接采用现有技术即可,不在此赘述。
此时能够识别到基因组中哪些位点是转录因子的结合位点,但不确定是哪些转录因子。
S3.利用JASPAR数据库的转录因子motif在上述的footprint位置进行匹配。具体为,对上述footprint坐标数据与JASPAR数据库匹配转录因子motif,分辨每一个结合位点具体的转录因子种类,具体方法是使用HINT-ATAC软件的motif-analysis模块进行匹配,阈值可选0.0001。
S4.将匹配到的N种转录因子根据转录因子名字进行排列,以快速区分转录因子家族;针对K562细胞系,总共匹配了633种转录因子;
S5.motif匹配完以后,可以得到每两种转录因子在足迹区域匹配的次数(m,n),也即每种转录因子自己的个数(m,n);
随后,将footprint匹配的各转录因子motif坐标数据作为输入,利用bedtools计算得到两种转录因子共定位的个数,记为k值。
每种转录因子匹配有几个坐标就有几次匹配次数,可以依此得到每种转录因子的匹配次数,即对于每两种转录因子,可以得到上述匹配次数m、n。
计算每两种转录因子的共定位数k具体包括以下步骤:
S5-1.对两种转录因子,利用bedtools closest-d得到相距最近的转录因子间距离ds;
如TFA与TFB为任意两种转录因子,TFA为转录因子A的位点信息,有三列,分别为染色体,起始位点,终止位点,B也是一样的。两个位点文件经过bedtools closest处理后,找到与TFA最近的TFB的转录因子,生成新的文件,文件为7列,前三列为TFA位置,后三列为TFB,第7列为最近的距离,即ds。
S5-2.将ds取值分为ds=0和0<ds<150两种情况,设定这两种阈值,分别计算k值;ds=0表示两个转录因子位点有重叠。
ds=0和0<ds<150是按多数开放区域的长度评估所得的经验阈值,这里将ds=0作为第一距离阈值,0<ds<150作为第二距离阈值。在实际应用时,本领域技术人员也可以将其改为其它数值分别作为第一距离阈值和第二距离阈值。
根据两种距离阈值,两种转录因子共定位的个数可能会发生改变,故每两种转录因子将得到两个k值,一个对应第一距离阈值,一个对应第二距离阈值。
S5-3.根据633种转录因子两两配对计算,形成两个633×633的k值矩阵;k是共定位符合距离阈值的个数,可以根据k与期望值λ的比较,判定是否共定位;
S6.通过上述m,n,k值,基于泊松分布,得到两两转录因子共定位的显著性P值矩阵,根据P值分布判定是否显著共定位。也就是说,这里会得到两种情况下的显著性P值矩阵,一个是距离阈值为ds=0的情况,一个是距离阈值为0<ds<150的情况。
其中泊松分布,其计算方法为:
其中公式(1)中k为两转录因子在距离阈值范围内共定位数,n,m分别为两种转录因子各自的定位数目,N代表的是总共的结合位点,表示整个基因组中可用于转录因子(TF)结合的区域的数量。N是根据ATAC-seq和footprint两种数据共同判定的,如本例中,K562细胞系的633种转录因子在269997个footprint区域有匹配,则N为269997。λ为期望值,根据n、m和N得到。
在双尾泊松分布中,低P值表明两转录因子在基因组中定位非随机,可以代表两种显著性,一种是显著的共定位,另一种则是显著的拒绝共定位,如图1中左边阴影部分为显著的拒绝共定位,右边阴影部分为显著的共定位,区分显著或不显著的阈值P’值由本领域技术人员根据经验确定,如可以取0.01,也可以根据总数,取总数的一定比例,如取总数的1%。通过该方式筛选出具有显著性的转录因子对,筛选出的转录因子对可能是显著的共定位,也可能是显著的拒绝共定位。
然后使用k与期望值λ的关系对筛选出的转录因子对进行进一步判断,如果k高于期望值,认为两转录基因(TF)倾向于在基因组上共定位,如果k低于或等于期望值,则认为两TF倾向于在基因组上拒绝共定位。通过以上方式,针对距离阈值分别为ds=0和0<ds<150将分别得到两种结果,每种结果包含若干对被判断为共定位的转录因子对和若干对被判断为拒绝共定位的转录因子对。
S7.筛选阈值为0<ds<150时判断为共定位的转录因子对,得到协同结合的转录因子对;
筛选阈值ds=0时判断为共定位的转录因子对,得到竞争结合的转录因子对;
根据竞争结合的转录因子对判断各协同结合的转录因子对是否同时属于竞争结合,若是,则将相应转录因子对判断为既竞争又协同,并将其从竞争结合的转录因子对和协同结合的转录因此对中剔除。
如此,便筛选出了协同结合的转录因子对,竞争结合的转录因子对和既竞争结合又协同结合的转录因子对。也就是说,本方案提出使用分辨率更高的footprint+motif方法,同时结合基于统计学的泊松分布通过设定两个阈值的方式,不仅能够更准确地筛选出共定位的转录因子对,而且还能够对共定位的转录因子对区分其是竞争结合还是协同结合,可用于帮助理解基因转录调控的分子机制,协助当前细胞系和组织的基因研究。
图2所示为本实施例提供的当距离阈值ds=0bp时转录因子聚类生成的P值矩阵热图,右上角的+30表示显著的共定位,-30表示显著的拒绝共定位。原图为彩色显示,显著的共定位为蓝色,显著的拒绝共定位为红色,越不显著,颜色越浅。蓝色主要集中在对角线处,其它位置有部分偏蓝色,表示共定位的TF对主要集中对角线处,但是其他位置也有。在灰度处理以后,图2中明显黑色的一簇簇表示显著的共定位,深灰色表示显著的拒绝共定位,白色和浅灰色是没有那么显著的TF对。可以看到,对角线显示本身与本身的竞争结合(同一转录因子竞争同一位点),对角线上聚类簇大部分为同一基因家族,其具有相同或相似的motif。
图3所示为本实施例提供的当0<ds<150bp转录因子聚类生成的P值矩阵热图,同样右上角的+30表示显著的共定位,-30表示显著的拒绝共定位。原图为彩色显示,显著的共定位为蓝色,显著的拒绝共定位为红色,显示了协同结合的转录因子对。在该图中,大部分为偏蓝色,少量偏红色,表示大部分TF对表现为共定位,灰度处理以后,由于参与的转录因子有633种之多,即横坐标633个,纵坐标633个,数据量巨大,已经很难看到区别,为此,为了使读者更好地理解,本方案将在下面以FOS家族和KLF家族为例进行详细说明。
图4A和图4B分别为本实施例提供的距离阈值为ds=0bp和0bp<ds<150bp时,按转录因子名字的字母顺序排列的P值矩阵热图。原图仍为彩色显示,显著的共定位为蓝色,显著的拒绝共定位为红色,图4A、图4B与图2和图3类似,区别仅在于是否进行聚类、是否按照字母顺序排列,由于转录因子数量巨大,灰度处理后,其实仍然不清楚,将在下面以FOS家族和KLF家族为例进行详细说明。
图4C和图4D是FOS_JUN家族的一个例子,图4C是图4A中FOS_JUN家族转录因子共定位的P值矩阵热图,图4D是图4B中FOS_JUN家族转录因子共定位的P值矩阵热图。对于同一家族的转录因子,转录因子之间有相同或相近的motif。图4E为FOS_JUN家族motif位点信息含量logo图,可以看到显著共定位的转录因子对的家族motif相似。
为了更清晰的表示,图4C中,圆圈表示偏蓝色,点表示偏红色,颜色越浅,相应的显著性越弱,未标注的黑色表示显著共定位的蓝色,白色表示接近0的没有显著性。图4D中,标注圈的框表示偏蓝色其余为偏红色或没有显著性。
图4D是阈值为0<ds<150时的P值矩阵热图,颜色较深的标注圈的框表示显著的共定位,从图4D可以看到,这样的框其实不多,表示此家族只有少量的协同结合转录因子对,如FOSB::JUNB与FOS,FOSB::JUNB(var.2)与FOS,FOS::JUN(var.2)与FOSL1等。
图4C是阈值为ds=0时候的P值矩阵热图,颜色较深的标注点的框表示显著拒绝共定位,可以看到图4C不存在这样的框,即不存在显著拒绝共定位的转录因子对,未标注的黑色框和颜色较深的标注圈的框表示显著共定位,可以看到图4C中有较多这样的框,表示该家族有较多的竞争结合的转录因子对,如FOSB..JUN与FOSL2::JUN,FOSB..JUN与FOSL2::JUND等。
再根据竞争结合的转录因子对和协同结合的转录因子对,可以找出既竞争又结合的转录因子对,从图4C和图4D可以看到,此家族不存在这样的转录因子对。
图5A和图5B分别为本实施例提供的距离阈值为ds=0bp和0bp<ds<150bp时,KLF家族转录因子共定位P值矩阵热图,图5A是图4A中KLF家族转录因子共定位的P值矩阵热图,图5B是图4B中KLF家族转录因子共定位的P值矩阵热图。图5A中全部框显示较深的蓝色,表示距离阈值为ds=0时候这一块均显示显著的共定位,各转录因子对均被判断为竞争结合。图5B中,用点表示偏红色,即偏拒绝共定位,其余未标注的偏蓝色,即共定位。以此为例,图5B中,颜色较深的未标注框(即显著共定位的转录因子对),将被筛选为协同结合的转录因子对。此外,可以看到,此处被判断为协同结合的转录因子对,有些在阈值为ds=0bp时也表现为显著的共定位,即同时被判断为竞争结合,这样的转录因子对将被判断为既竞争又协同的转录因子对,如KLF10和KLF9,KLF11和KLF9等,表明本方法可以区分竞争结合和协同结合。
本方案采用了footprint+motif方式识别转录因子结合位点,现有技术可以实现ChIP-seq+motif方式识别转录因子结合位,ChIP-seq和ChIP-exo均是专门定位具体某种转录因子在基因组中的结合位点,只是后者分辨率更高,能更准确的定位,现有技术为了提高ChIP-seq分辨率,通常将ChIP-seq和motif结合,但是我们知道该方法虽然能够实现转录因子结合位点的识别,却存在数据量大的问题。
本实施例以更高分辨率的ChIP-exo数据为金标准比较验证footprint+motif在识别转录因子结合位点方面与传统方法ChIP-seq+motif是否具有同等效力。
如图6A-图6D所示为ChIP-seq、ChIP-exo、footprint、ATAC-seq四种数据峰的长度分布对比,图6A显示了ChIP-seq数据的长度分布,图6B显示了ChIP-exo数据的长度分布,图6C是footprint数据长度分布,图6D是ATAC-seq数据长度分布,由图可知,footprint具有最高的数据分辨率,在15bp左右,而ChIP-exo长度分布在50bp左右,ChIP-seq的长度分布在250bp左右,所以在分辨率上来说,本方案采用的方法是存在优势的。
这里进一步使用相对ChIP-seq具有更高分辨率的ChIP-exo数据作为金标准,将footprint+motif与ChIP-seq+motif数据比较。对于ChIP-exo数据,这里使用bwa默认参数将原始读数与参考基因组进行比对。双端测序数据用samtools rmdup效果很差,所以用picard工具的MarkDuplicates功能删除带有‘MarkDuplates Remove Duplates=TRUE’选项的PCR重复项。用MACS2判别reads比对后在基因组中形成的峰和峰顶,P值为0.001。经过call peak处理的ChIP-exo数据文件为narrowpeak格式。
图7A和图7B所示分别为ChIP-seq+motif、footprint+motif与ChIP-exo比较的维恩图。每种方法中重叠部分的比例用百分比数字标记,由图可知,ChIP-exo作为转录因子结合位点金标准时,ChIP-seq+motif与footprint+motif两者相当,说明本方案使用一种ATAC-seq数据的footprint+motif数据可以替代需要使用大量数据的ChIP-seq+motif识别潜在的转录因子结合位点。
本文中所描述的具体实施例仅仅是对本方案精神作举例说明。本方案所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本方案的精神或者超越所附权利要求书所定义的范围。
Claims (10)
1.一种基于ATAC-seq足迹识别转录因子共定位的方法,其特征在于,该方法包括:
S1.收集并下载待识别目标的ATAC-seq数据,以获取原始的染色质开放性测序数据;
S2.基于步骤S1获取的数据文件,使用足迹分析工具分析转录因子足迹在待识别目标基因组中的坐标数据;
S3.利用转录因子数据库的转录因子motif与足迹坐标数据进行匹配,以获取每个结合位点的具体转录因子种类;
所述的转录因子数据库收录有不同生物的转录因子与结合位点及结合方式;
S4.通过距离计算工具计算每两种转录因子之间的距离ds;
根据计算的ds,以第一距离阈值为准确定两种转录因子的共定位数k1;
根据计算的ds,以第二距离阈值为准确定两种转录因子的共定位数k2;
S5.基于泊松分布构建识别转录因子共定位模型;
使用识别转录因子共定位模型分别计算k1、k2两种情况下的概率值P;
根据概率值P和阈值P’分别筛选两种情况下具有显著性的转录因子对;
S6.对于第二距离阈值的情况,将k1大于期望值的显著性转录因子对判断为协同结合的转录因子对;
对于第一距离阈值情况,将k2大于期望值的显著性转录因子对判断为竞争结合的转录因子对;
根据竞争结合的转录因子对判断各协同结合的转录因子对是否同时属于竞争结合,若是,则将相应转录因子对判断为既竞争又协同。
2.根据权利要求1所述的基于ATAC-seq足迹识别转录因子共定位的方法,其特征在于,步骤S5中,显著性的转录因子对包括显著共定位的转录因子对和显著拒绝共定位的转录因子对。
3.根据权利要求2所述的基于ATAC-seq足迹识别转录因子共定位的方法,其特征在于,基于泊松分布构建识别转录因子共定位模型为:
其中公式(1)中k为两转录因子在阈值范围内的共定位数,n,m分别为两种转录因子各自的定位数目,N代表待识别目标总共的结合位点,λ为期望值;
通过公式(1)分别计算在两种距离阈值下,每两种转录因子对被分别判断为共定位或拒绝共定位的概率;
基于概率值分别筛选出两种距离阈值下具有显著性特征的转录因子对。
4.根据权利要求3所述的基于ATAC-seq足迹识别转录因子共定位的方法,其特征在于,每两种转录因子,使用相距最近的转录因子间距离作为该两种转录因子间的距离。
5.根据权利要求4所述的基于ATAC-seq足迹识别转录因子共定位的方法,其特征在于,在每种阈值情况下,根据每种转录因子匹配有几个坐标确定该转录因子的定位数目。
6.根据权利要求5所述的基于ATAC-seq足迹识别转录因子共定位的方法,其特征在于,设定的两种距离阈值,第一距离阈值为ds=0,第二距离阈值为0<ds<150。
7.根据权利要求2所述的基于ATAC-seq足迹识别转录因子共定位的方法,其特征在于,步骤S1中,所述的待识别目标为目标细胞系或目标组织。
8.根据权利要求2所述的基于ATAC-seq足迹识别转录因子共定位的方法,其特征在于,步骤S2中,所使用足迹分析工具为HINT-ATAC工具,且步骤S1获取的是与HINT-ATAC工具兼容的ATAC-seq narrowpeak格式文件。
9.根据权利要求8所述的基于ATAC-seq足迹识别转录因子共定位的方法,其特征在于,步骤S3中,使用HINT-ATAC软件的motif-analysis模块实现所述的匹配工作。
10.根据权利要求9所述的基于ATAC-seq足迹识别转录因子共定位的方法,其特征在于,步骤S3中,所述的转录因子数据库采用JASPAR数据库。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310326955.5A CN116343917B (zh) | 2023-03-22 | 2023-03-22 | 一种基于ATAC-seq足迹识别转录因子共定位的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310326955.5A CN116343917B (zh) | 2023-03-22 | 2023-03-22 | 一种基于ATAC-seq足迹识别转录因子共定位的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116343917A CN116343917A (zh) | 2023-06-27 |
CN116343917B true CN116343917B (zh) | 2023-11-10 |
Family
ID=86891067
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310326955.5A Active CN116343917B (zh) | 2023-03-22 | 2023-03-22 | 一种基于ATAC-seq足迹识别转录因子共定位的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116343917B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101918578A (zh) * | 2007-10-27 | 2010-12-15 | Od260公司 | 启动子检测及分析 |
CN107368701A (zh) * | 2017-07-31 | 2017-11-21 | 浙江绍兴千寻生物科技有限公司 | 大批量单细胞ATAC‑seq数据质量控制和分析方法 |
WO2022147296A1 (en) * | 2020-12-30 | 2022-07-07 | 10X Genomics, Inc. | Cleavage of capture probes for spatial analysis |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017075294A1 (en) * | 2015-10-28 | 2017-05-04 | The Board Institute Inc. | Assays for massively combinatorial perturbation profiling and cellular circuit reconstruction |
US20180016314A1 (en) * | 2016-07-12 | 2018-01-18 | Children's Hospital Medical Center | Treatment of disease via transcription factor modulation |
IL283853B2 (en) * | 2018-12-14 | 2024-10-01 | Pioneer Hi Bred Int | Novel crispr-cas systems for genome editing |
-
2023
- 2023-03-22 CN CN202310326955.5A patent/CN116343917B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101918578A (zh) * | 2007-10-27 | 2010-12-15 | Od260公司 | 启动子检测及分析 |
CN107368701A (zh) * | 2017-07-31 | 2017-11-21 | 浙江绍兴千寻生物科技有限公司 | 大批量单细胞ATAC‑seq数据质量控制和分析方法 |
WO2022147296A1 (en) * | 2020-12-30 | 2022-07-07 | 10X Genomics, Inc. | Cleavage of capture probes for spatial analysis |
Also Published As
Publication number | Publication date |
---|---|
CN116343917A (zh) | 2023-06-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101401101B (zh) | 用于通过谱分析鉴定dna模式的方法和系统 | |
US7979212B2 (en) | Method and system for morphology based mitosis identification and classification of digital images | |
Mizuguchi et al. | Cohesin-dependent globules and heterochromatin shape 3D genome architecture in S. pombe | |
National Research Council et al. | Mapping and sequencing the human genome | |
Krueger et al. | Large scale loss of data in low-diversity illumina sequencing libraries can be recovered by deferred cluster calling | |
US6466923B1 (en) | Method and apparatus for biomathematical pattern recognition | |
CN102194641B (zh) | 质量分析数据处理方法和质量分析数据处理设备 | |
EP0731849B1 (de) | Anordnung von nukleinsäuresequenzen und deren verwendung | |
Graf et al. | FLINO: a new method for immunofluorescence bioimage normalization | |
Appel et al. | Computer analysis of 2-D images | |
CN116343917B (zh) | 一种基于ATAC-seq足迹识别转录因子共定位的方法 | |
EP3387616B1 (en) | Object classification in digital images | |
CN116597985A (zh) | 生存率预测模型训练方法、生存期预测方法及装置、设备 | |
CN115052993A (zh) | 用于检测染色体异常的高分辨率光谱染色体分带的方法 | |
WO2005076197A2 (en) | Method and system for morphology based mitosis identification and classification of digital images | |
Puniyani et al. | SPEX2: automated concise extraction of spatial gene expression patterns from Fly embryo ISH images | |
Garrison et al. | Visualization and analysis of microtubule dynamics using dual color-coded display of plus-end labels | |
Kbiri et al. | Quantifying Meiotic CrossoverRecombination in Arabidopsis Lines Expressing Fluorescent Reporters in Seeds Using SeedScoring Pipeline for CellProfiler | |
Tomizawa et al. | Harnessing Deep Learning to Analyze Cryptic Morphological Variability of Marchantia polymorpha | |
US7856136B2 (en) | Analysis of patterns among objects of a plurality of classes | |
US7877213B2 (en) | System and methods for automated processing of multiple chemical arrays | |
Huang et al. | A systematic evaluation of Hi-C data enhancement methods for enhancing PLAC-seq and HiChIP data | |
Baek et al. | Segmentation and intensity estimation of microarray images using a gamma-t mixture model | |
WO2009126495A2 (en) | Method and system for processing microarray images | |
Adiga et al. | An efficient tool for genetic experiments: Agarose gel image analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |