[go: up one dir, main page]

CN106650313B - 一种滤除DNase高通量测序数据中DNA碱基倾向性偏差的方法 - Google Patents

一种滤除DNase高通量测序数据中DNA碱基倾向性偏差的方法 Download PDF

Info

Publication number
CN106650313B
CN106650313B CN201610865814.0A CN201610865814A CN106650313B CN 106650313 B CN106650313 B CN 106650313B CN 201610865814 A CN201610865814 A CN 201610865814A CN 106650313 B CN106650313 B CN 106650313B
Authority
CN
China
Prior art keywords
dnase
dna
seq
experimental data
dna base
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610865814.0A
Other languages
English (en)
Other versions
CN106650313A (zh
Inventor
冯伟兴
贺波
宋艳霞
徐斯文
赵森
陈多娇
刘欢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Engineering University
Original Assignee
Harbin Engineering University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Engineering University filed Critical Harbin Engineering University
Priority to CN201610865814.0A priority Critical patent/CN106650313B/zh
Publication of CN106650313A publication Critical patent/CN106650313A/zh
Application granted granted Critical
Publication of CN106650313B publication Critical patent/CN106650313B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Organic Chemistry (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Zoology (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • Analytical Chemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Wood Science & Technology (AREA)
  • Immunology (AREA)
  • Biochemistry (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Microbiology (AREA)
  • Genetics & Genomics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明属于分子生物信息检测与分析领域,具体涉及一种有效提高DNase高通量测序数据的检测信息准确性的滤除DNase高通量测序数据中DNA碱基倾向性偏差的方法。本发明包括:(1)DNase‑Seq实验数据酶切位点区域DNA碱基获取;(2)DNase‑Seq实验数据DNA碱基倾向性获取;(3)DNA碱基倾向性去除。通过所发明的方法可以精确地滤除DNase高通量测序数据中含有的DNA碱基倾向性偏差,以生成更加准确的DNase‑Seq测序结果,从而为后续更高层次的应用分析提供数据保障。

Description

一种滤除DNase高通量测序数据中DNA碱基倾向性偏差的方法
技术领域
本发明属于分子生物信息检测与分析领域,具体涉及一种有效提高DNase高通量测序数据的检测信息准确性的滤除DNase高通量测序数据中DNA碱基倾向性偏差的方法。
背景技术
目前,DNA蛋白结合位点的检测主要采用染色质免疫共沉淀技术(ChromatinImmunoprecipitation,ChIP)。而将ChIP实验结果与高通量测序技术相结合的ChIP-Seq技术,则能有效地在全基因组范围内检测目的功能蛋白在DNA上的结合位点。ChIP-Seq的原理是:首先通过染色质免疫共沉淀技术(ChIP)利用与目的蛋白特异性结合的酶来富集结合有目的蛋白的DNA片段,并对其进行纯化与文库构建。然后对富集得到的DNA片段进行高通量测序,再将测序获得的数百万条读数序列精确定位到基因组上,从而获得全基因组范围内结合有目的蛋白的DNA区段信息,进而通过各种分析算法得到目的蛋白DNA结合位点。
然而,ChIP-Seq技术也有诸多不足之处,首先是富集目的蛋白的结合酶具有特异性,从而导致某些蛋白因找不到合适的特异结合酶而无法进行检测;其次,一次实验只能检测一种蛋白,耗时耗力,成本高,无法大规模使用;第三,更为重要的是,由于实验获取的与目的蛋白结合的DNA片段较长,测序时只能对其两端进行部分测序,由于测序区域并不是结合位点本身,因此,ChIP-Seq技术对DNA蛋白结合位点的检测分辨率无法达到单碱基。
针对上述问题,近几年产生了一种新的DNA蛋白结合位点检测技术--基于DNase高通测序信息的DNA蛋白结合位点检测技术,即DNase-Seq技术。DNase-Seq的原理是:首先利用DNase核酸剪切酶对DNA进行酶切处理。则没有DNA蛋白结合的DNA区域将被DNase核酸剪切酶随机地切断,而有DNA蛋白结合的DNA区域由于受到结合蛋白的阻碍特异性不被切断。随后,对酶切处理过的DNA片段进行纯化与文库构建,再进行测序,从而获得全基因组范围内DNase核酸剪切酶的酶切信息。在酶切信息中,蛋白结合位点处的酶切信息将特异性减弱,就像在DNA上留下一个个足迹一样,从而可以精确鉴定DNA结合蛋白在DNA分子上的结合位点。
与ChIP-Seq技术相比,DNase-Seq技术的优点非常突出。首先,由于不具有特异性,DNase-Seq可一次性在全基因组范围内同时检测多种DNA蛋白的结合位点;其次,由于一次性检测多种DNA蛋白的结合位点,DNase-Seq大幅提高了检测效率并降低了检测成本,使大规模进行DNA蛋白结合位点检测成为可能;第三,更为重要的是,由于测序起始位置就是酶切位置,DNase-Seq对DNA蛋白结合位点的检测分辨率可达单碱基。
然而,近期发现DNase核酸剪切酶在切割DNA时存在一定的DNA碱基倾向性,这将对DNA蛋白结合位点的识别产生不利的影响。如何去除该倾向性已成为基于DNase-Seq的DNA蛋白结合位点识别的一个关键问题。
发明内容
本发明的目的在于提供一种滤除DNase高通量测序数据中DNA碱基倾向性偏差的方法。
本发明的目的是这样实现的:
(1)DNase-Seq实验数据酶切位点区域DNA碱基获取
依据DNase-Seq实验数据在基因组中的位置,提取每一个实验数据对应酶切位点附近区域的DNA碱基。本发明选用酶切位点附近6个位点的碱基,即以酶切位点为中心,左右各取3个碱基。
(2)DNase-Seq实验数据DNA碱基倾向性获取
本发明选用酶切位点附近6个位点的碱基,每个碱基有A、C、G、T等4种取值,则6个位点碱基共有4096种碱基组合。通过统计整个DNase-Seq实验数据酶切位点处这4096种碱基组合出现的频次,即可获得DNase-Seq实验数据的DNA碱基倾向性。
(3)DNA碱基倾向性去除
设有m个蛋白结合位点,每个结合位点包含n个碱基,则:第i个结合位点的DNase检测信号为:[Si1,Si2,…,Sin]。其值和为:
考虑DNase的DNA碱基倾向性,则第i个结合位点第j列的DNase检测信号为:Sij=[(1-w)Pij+wBij]Ri。其中,Pij为第i个结合位点第j列处与DNA结合蛋白的蛋白结构相对应的DNase的固有切割概率,Bij为第i个结合位点第j列处与该处DNA碱基倾向性相对应的DNase的切割概率。Pij是稳定的,可用于DNA蛋白结合位点识别,而Bij是不稳定的,应予以滤除。
具体滤除方法如下:
其中,Sij,Ri可从实验数据中直接得到。Bij则根据前一步骤获取的DNase-Seq实验数据的DNA碱基倾向性得到。w为权值,取值范围为[0,1]之间,需要进一步确定。
对于m个蛋白结合位点,当权值w取不同值时,会得到不同的[Pi1,Pi2,…,Pin],1≤i≤m。设则当m个[Pi1,Pi2,…,Pin]与[P1,P2,...,Pn]之间的m个相关性值的中位值最大时, 此时的w值为最优值。
本发明的有益效果在于:通过所发明的方法可以精确地滤除DNase高通量测序数据中含有的DNA碱基倾向性偏差,以生成更加准确的DNase-Seq测序结果,从而为后续更高层次的应用分析提供数据保障。
附图说明
图1为DNase-Seq实验数据DNA碱基倾向性直方图。
图2为w权值的评价值变化曲线。
图3为本发明流程图。
具体实施方式
下面结合附图对本发明做进一步描述。
作为DNA蛋白结合位点检测的新技术,DNase-Seq技术具有众多突出的优点。由于不具有特异性,DNase-Seq可一次性在全基因组范围内同时检测多种DNA蛋白的结合位点;由于一次性检测多种DNA蛋白的结合位点,DNase-Seq大幅提高了检测效率并降低了检测成本,使大规模进行DNA蛋白结合位点检测成为可能;由于测序起始位置就是酶切位置,DNase-Seq对DNA蛋白结合位点的检测分辨率可达单碱基。
然而,近期发现DNase核酸剪切酶在切割DNA时存在一定的DNA碱基倾向性,这将对DNA蛋白结合位点的识别产生不利的影响。本发明即是针对该问题提出的一种滤除DNase高通量测序数据中DNA碱基倾向性偏差的方法。
1、DNase-Seq实验数据酶切位点区域DNA碱基获取
依据DNase-Seq实验数据在基因组中的位置,提取每一个实验数据对应酶切位点附近区域的DNA碱基。本发明选用酶切位点附近6个位点的碱基,即以酶切位点为中心,左右各取3个碱基。
2、DNase-Seq实验数据DNA碱基倾向性获取
本发明选用酶切位点附近6个位点的碱基,每个碱基有A、C、G、T等4种取值,则6个位点碱基共有4096种碱基组合。通过统计整个DNase-Seq实验数据酶切位点处这4096种碱基组合出现的频次,即可获得DNase-Seq实验数据的DNA碱基倾向性。
3、DNA碱基倾向性去除
设有m个蛋白结合位点,每个结合位点包含n个碱基,则:第i个结合位点的DNase检测信号为:[Si1,Si2,…,Sin]。其值和为:
考虑DNase的DNA碱基倾向性,则第i个结合位点第j列的DNase检测信号为: Sij=[(1-w)Pij+wBij]Ri。其中,Pij为第i个结合位点第j列处与DNA结合蛋白的蛋白结构相对应的DNase的固有切割概率,Bij为第i个结合位点第j列处与该处DNA碱基倾向性相对应的DNase的切割概率。Pij是稳定的,可用于DNA蛋白结合位点识别,而Bij是不稳定的,应予以滤除。
具体滤除方法如下:
其中,Sij,Ri可从实验数据中直接得到。Bij则根据前一步骤获取的DNase-Seq实验数据的DNA碱基倾向性得到。w为权值,取值范围为[0,1]之间,通过下述方法确定:
对于m个蛋白结合位点,当权值w取不同值时,会得到不同的[Pi1,Pi2,…,Pin],1≤i≤m。设则当m个[Pi1,Pi2,…,Pin]与[P1,P2,...,Pn]之间的m个相关性值的中位值最大时,此时的w值为最优值。
4、实验验证
从UCSC国际生物信息网站下载人类基因组碱基序列数据,以及国际ENCODE计划UW大学测得的人类K562细胞系DNase-Seq测序数据和NFYA转录因子ChIP-Seq测序数据。
根据每个DNase-Seq测序数据酶切位点在人类基因组中的位置,提取附近6个位点的碱基,即以酶切位点为中心,左右各取3个碱基。统计酶切位点处4096种碱基组合出现的频次,获得DNase-Seq实验数据的DNA碱基倾向性。该倾向性的直方图如图1所示(横轴为碱基组合,纵轴为频次)。由图1可见,DNase-Seq实验数据存在明显的DNA碱基倾向性。
根据NFYA转录因子的ChIP-Seq测序数据,识别出953个NFYA蛋白结合位点。每个结合位点包含201个碱基。
利用本发明方法对DNase-Seq实验数据进行DNA碱基倾向性滤除。当w取某一权值时,每个结合位点滤除DNA碱基倾向性的DNase检测信号为[Pi1,Pi2,…,Pin],1≤i≤953。计算每个结合位点[Pi1,Pi2,…,Pin]与[P1,P2,...,Pn]之间的Pearson相关值,这里n取值为201。选取953个相关值的中位值作为该w值是否优异的评价值。让w值由0到1变化,获得如图2所示的w值的评价值变化曲线(横轴为w值,纵轴评价值)。由图2可见,当w值为0.15时,评价值达到最大并不再增加,此时的w值应为最优值,并进而得到与之对应的滤除DNA碱基倾向性的DNase-Seq检测信息。
作为DNA蛋白结合位点检测的新技术,DNase-Seq技术具有突出优点。由于不具有特异性,DNase-Seq可一次性在全基因组范围内同时检测多种DNA蛋白的结合位点;由于一次性检测多种DNA蛋白的结合位点,DNase-Seq大幅提高了检测效率并降低了检测成本,使大规模进行DNA蛋白结合位点检测成为可能;由于测序起始位置就是酶切位置,DNase-Seq对DNA蛋白结合位点的检测分辨率可达单碱基。然而,DNase核酸剪切酶在切割DNA时存在一定的DNA碱基倾向性,这将对DNA蛋白结合位点的识别产生不利的影响。本发明即是针对该问题提出的一种滤除DNase高通量测序数据中DNA碱基倾向性偏差的方法。

Claims (1)

1.一种滤除DNase高通量测序数据中DNA碱基倾向性偏差的方法,其特征在于,包括如下步骤:
(1)DNase-Seq实验数据酶切位点区域DNA碱基获取
依据DNase-Seq实验数据在基因组中的位置,提取每一个实验数据对应酶切位点附近区域的DNA碱基;选用酶切位点附近6个位点的碱基,即以酶切位点为中心,左右各取3个碱基;
(2)DNase-Seq实验数据DNA碱基倾向性获取
选用酶切位点附近6个位点的碱基,每个碱基有A、C、G、T,4种取值,则6个位点碱基共有4096种碱基组合;通过统计整个DNase-Seq实验数据酶切位点处这4096种碱基组合出现的频次,即可获得DNase-Seq实验数据的DNA碱基倾向性;
(3)DNA碱基倾向性去除
设有m个蛋白结合位点,每个结合位点包含n个碱基,则:第i个结合位点的DNase检测信号为:[Si1,Si2,…,Sin];其值和为:
考虑DNase的DNA碱基倾向性,则第i个结合位点第j列的DNase检测信号为:Sij=[(1-w)Pij+wBij]Ri;其中,Pij为第i个结合位点第j列处与DNA结合蛋白的蛋白结构相对应的DNase的固有切割概率,Bij为第i个结合位点第j列处与该处DNA碱基倾向性相对应的DNase的切割概率;Pij是稳定的,可用于DNA蛋白结合位点识别,而Bij是不稳定的,应予以滤除;
具体滤除方法如下:
其中,Sij,Ri可从实验数据中直接得到;Bij则根据前一步骤获取的DNase-Seq实验数据的DNA碱基倾向性得到;w为权值,取值范围为[0,1]之间,需要进一步确定;
对于m个蛋白结合位点,当权值w取不同值时,会得到不同的[Pi1,Pi2,…,Pin],1≤i≤m;设则当m个[Pi1,Pi2,…,Pin]与[P1,P2,…,Pn]之间的m个相关性值的中位值最大时,此时的w值为最优值。
CN201610865814.0A 2016-09-29 2016-09-29 一种滤除DNase高通量测序数据中DNA碱基倾向性偏差的方法 Active CN106650313B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610865814.0A CN106650313B (zh) 2016-09-29 2016-09-29 一种滤除DNase高通量测序数据中DNA碱基倾向性偏差的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610865814.0A CN106650313B (zh) 2016-09-29 2016-09-29 一种滤除DNase高通量测序数据中DNA碱基倾向性偏差的方法

Publications (2)

Publication Number Publication Date
CN106650313A CN106650313A (zh) 2017-05-10
CN106650313B true CN106650313B (zh) 2019-10-18

Family

ID=58853980

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610865814.0A Active CN106650313B (zh) 2016-09-29 2016-09-29 一种滤除DNase高通量测序数据中DNA碱基倾向性偏差的方法

Country Status (1)

Country Link
CN (1) CN106650313B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108280326B (zh) * 2018-01-22 2021-06-11 哈尔滨工程大学 一种基于深度递归神经网络的DNase高通量测序数据中DNA碱基倾向性偏差消除方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102120998A (zh) * 2010-12-15 2011-07-13 哈尔滨工程大学 一种感知细胞中作用转录因子的方法
CN102622534A (zh) * 2012-04-11 2012-08-01 哈尔滨工程大学 一种用于基因表达检测的dna高通测序数据校正方法
CN103390119A (zh) * 2013-07-03 2013-11-13 哈尔滨工程大学 一种转录因子结合位点识别方法
CN103810404A (zh) * 2014-01-13 2014-05-21 哈尔滨工程大学 基于贝叶斯的高通量dna测序数据匹配增强方法
CN104131093A (zh) * 2014-07-23 2014-11-05 哈尔滨工程大学 DNA蛋白结合位点的DNase高通测序检测信号处理方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102120998A (zh) * 2010-12-15 2011-07-13 哈尔滨工程大学 一种感知细胞中作用转录因子的方法
CN102622534A (zh) * 2012-04-11 2012-08-01 哈尔滨工程大学 一种用于基因表达检测的dna高通测序数据校正方法
CN103390119A (zh) * 2013-07-03 2013-11-13 哈尔滨工程大学 一种转录因子结合位点识别方法
CN103810404A (zh) * 2014-01-13 2014-05-21 哈尔滨工程大学 基于贝叶斯的高通量dna测序数据匹配增强方法
CN104131093A (zh) * 2014-07-23 2014-11-05 哈尔滨工程大学 DNA蛋白结合位点的DNase高通测序检测信号处理方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Identification method of transcription factor binding sites based on DNase-Seq signal;Peichao Sang等;《IEEE》;20150903;第1665-1669页 *

Also Published As

Publication number Publication date
CN106650313A (zh) 2017-05-10

Similar Documents

Publication Publication Date Title
CN104164479B (zh) 杂合基因组处理方法
CN108763865A (zh) 一种预测dna蛋白质结合位点的集成学习方法
CN103390119B (zh) 一种转录因子结合位点识别方法
Xu et al. Base-resolution methylation patterns accurately predict transcription factor bindings in vivo
Curado et al. Promoter-like epigenetic signatures in exons displaying cell type-specific splicing
Ksouri et al. Tuning promoter boundaries improves regulatory motif discovery in nonmodel plants: the peach example
Li et al. CircMarker: a fast and accurate algorithm for circular RNA detection
US20150142334A1 (en) System, method and computer-accessible medium for genetic base calling and mapping
CN103984879A (zh) 一种测定待测基因组区域表达水平的方法及系统
CN106650313B (zh) 一种滤除DNase高通量测序数据中DNA碱基倾向性偏差的方法
Wang et al. An effective approach for identification of in vivo protein-DNA binding sites from paired-end ChIP-Seq data
CN115101128A (zh) 一种杂交捕获探针脱靶危险性评估的方法
CN104131093B (zh) DNA蛋白结合位点的DNase高通测序检测信号处理方法
Wang et al. PrAS: Prediction of amidation sites using multiple feature extraction
JP2023156389A (ja) Rnaの直接配列決定で使用するための方法およびシステム
CN108280326A (zh) 一种基于深度递归神经网络的DNase高通量测序数据中DNA碱基倾向性偏差消除方法
CN106778061B (zh) 一种基于周期三临近特征的外显子预测方法
Pan et al. Prediction and motif analysis of 2’-O-methylation using a hybrid deep learning model from RNA primary sequence and nanopore signals
WO2013097149A1 (zh) 估计基因组重复序列含量的方法和装置
Babak Identification of imprinted loci by transcriptome sequencing
WO2013097143A1 (zh) 估计基因组杂合率的方法和装置
CN114496070A (zh) 转录组序列分类方法、装置、电子设备及可读存储介质
Weile et al. Use of tiling array data and RNA secondary structure predictions to identify noncoding RNA genes
Biswas et al. CNCTDiscriminator: coding and noncoding transcript discriminator—an excursion through hypothesis learning and ensemble learning approaches
Hiranuma et al. CloudControl: Leveraging many public ChIP-seq control experiments to better remove background noise

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant