CN118038979B - 转座子插入人基因组突变模式和转座印迹的检测方法 - Google Patents
转座子插入人基因组突变模式和转座印迹的检测方法 Download PDFInfo
- Publication number
- CN118038979B CN118038979B CN202410095269.6A CN202410095269A CN118038979B CN 118038979 B CN118038979 B CN 118038979B CN 202410095269 A CN202410095269 A CN 202410095269A CN 118038979 B CN118038979 B CN 118038979B
- Authority
- CN
- China
- Prior art keywords
- genome
- transposon
- information
- comparison
- human genome
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003780 insertion Methods 0.000 title claims abstract description 117
- 230000037431 insertion Effects 0.000 title claims abstract description 117
- 230000017105 transposition Effects 0.000 title claims abstract description 37
- 230000035772 mutation Effects 0.000 title claims abstract description 36
- 238000001514 detection method Methods 0.000 title claims abstract description 23
- 239000012634 fragment Substances 0.000 claims abstract description 54
- 210000000349 chromosome Anatomy 0.000 claims abstract description 42
- 238000012217 deletion Methods 0.000 claims abstract description 42
- 230000037430 deletion Effects 0.000 claims abstract description 42
- 238000012163 sequencing technique Methods 0.000 claims abstract description 36
- 238000000034 method Methods 0.000 claims description 24
- 101100439666 Cupriavidus metallidurans (strain ATCC 43123 / DSM 2839 / NBRC 102507 / CH34) chrA1 gene Proteins 0.000 claims description 13
- 101100439667 Pseudomonas aeruginosa chrA gene Proteins 0.000 claims description 13
- 235000019506 cigar Nutrition 0.000 claims description 5
- 230000009191 jumping Effects 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 238000002474 experimental method Methods 0.000 abstract description 3
- 238000007405 data analysis Methods 0.000 abstract description 2
- 238000012070 whole genome sequencing analysis Methods 0.000 description 11
- 108020004414 DNA Proteins 0.000 description 10
- 238000010586 diagram Methods 0.000 description 6
- 108090000623 proteins and genes Proteins 0.000 description 6
- 230000000694 effects Effects 0.000 description 4
- 238000003752 polymerase chain reaction Methods 0.000 description 4
- 101100495925 Schizosaccharomyces pombe (strain 972 / ATCC 24843) chr3 gene Proteins 0.000 description 3
- 201000010099 disease Diseases 0.000 description 3
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 3
- 230000002068 genetic effect Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 102000053602 DNA Human genes 0.000 description 2
- 108091028043 Nucleic acid sequence Proteins 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 210000004027 cell Anatomy 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000007480 sanger sequencing Methods 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 102000016928 DNA-directed DNA polymerase Human genes 0.000 description 1
- 108010014303 DNA-directed DNA polymerase Proteins 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 208000026350 Inborn Genetic disease Diseases 0.000 description 1
- 206010028980 Neoplasm Diseases 0.000 description 1
- 229910019142 PO4 Inorganic materials 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002759 chromosomal effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000005782 double-strand break Effects 0.000 description 1
- 208000016361 genetic disease Diseases 0.000 description 1
- 238000010362 genome editing Methods 0.000 description 1
- 230000008826 genomic mutation Effects 0.000 description 1
- 238000000338 in vitro Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000001823 molecular biology technique Methods 0.000 description 1
- 108020004707 nucleic acids Proteins 0.000 description 1
- 102000039446 nucleic acids Human genes 0.000 description 1
- 150000007523 nucleic acids Chemical class 0.000 description 1
- 210000004940 nucleus Anatomy 0.000 description 1
- NBIIXXVUZAFLBC-UHFFFAOYSA-K phosphate Chemical compound [O-]P([O-])([O-])=O NBIIXXVUZAFLBC-UHFFFAOYSA-K 0.000 description 1
- 239000010452 phosphate Substances 0.000 description 1
- 229920000642 polymer Polymers 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 238000002864 sequence alignment Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000010998 test method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
- G16B25/10—Gene or protein expression profiling; Expression-ratio estimation or normalisation
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
Landscapes
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biotechnology (AREA)
- Genetics & Genomics (AREA)
- Theoretical Computer Science (AREA)
- Engineering & Computer Science (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Molecular Biology (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明涉及生物信息领域二代测序数据分析技术领域,具体涉及一种转座子插入人基因组突变模式和转座印迹的检测方法,本发明对转座子插入位点和导致的基因组变异进行全面检测,可以在单个实验中高效、快速地获得全基因组的信息,并且可以识别转座子插入点周围的基因组序列;本发明充分利用比对到带有softclip的reads信息,即包括reads中同时可以比对到人基因组和转座子序列,reads中比对到相同染色体且有基因组删除的片段序列,检测转座子插入到人基因组是否完美插入,是否引起插入位点附近基因组的重复或删除片段以及转座印迹,同时可以快速准确地识别转座子插入位点和其可能导致的插入位点附近基因组重复和删除片段以及转座印迹。
Description
技术领域
本发明涉及生物信息领域二代测序数据分析技术领域,具体涉及一种转座子插入人基因组突变模式和转座印迹的检测方法。
背景技术
转座子,又称为“跳跃基因”,是一种存在于真核或原核生物基因组中的可移动的DNA序列。它在人类基因组中大约占总DNA的50%。通常情况下,大部分转座子处于沉默状态,但在特定条件下,如环境压力,转座子可能被激活并重新插入到基因组的其他位置。在这个过程中,转座子可能会带走周围的基因组片段,并将其插入到其他基因组位置,留下转座印迹。在转座子插入基因组的过程中,转座子会引起插入位点附近的DNA双链断裂。在DNA进行同源末端互补修复的过程中,可能会导致插入位点附近基因组的重复现象和插入位点附近基因组片段的缺失。因此,这些转座事件可能导致插入位点附近基因组的变异,例如插入位点附近基因组的重复现象和插入位点附近基因组片段的缺失现象。
因此更全面地了解转座子跳跃事件对插入位点附近基因组的变异检测及潜在的转座印迹检测至关重要,这可能会对基因的表达和基因功能产生的至关重要的影响。但目前尚未有研究通过WGS方法检测转座子插入人基因组过程中的复杂突变模式检测,如转座子在插入人基因组过程中引入的插入位点附近基因组重复或插入位点附近基因组片段缺失等,或潜在的由于转座子在跳跃过程中携带周围基因组而造成的转座印迹等。
现有的实验方法例如SplinkerettePCR方法只能获取转座子的当前跳跃信息,如检测基因组中的插入元件或转座事件,以确定未知序列的边界或其他特征。它通常用于有限的目标区域的分析,并需要事先了解已知序列的信息,不适用全基因组范围内的转座子插入基因组的突变检测和转座印迹,具有一定的局限性。使用sanger测序等分析来检测转座子插入基因组对基因组突变的方法,但这种方法只能检测已知的转座位点附近的突变,而无法全面评估在整个基因组层面由于转座子插入基因组对插入位点附近的基因组变异和转座印迹,因此,可能存在一些未知的由于转座子插入造成的插入位点附近的基因组变异和转座印迹尚未检测到。
现有试验方法无法检出转座子插入的复杂突变模式,即无法检测转座子插入造成基因组插入位点附近基因组的重复,插入位点附近基因组的删除,或潜在的在转座过程中携带周围基因组插入造成的转座印迹等,无法完全揭示转座子的活动对整个基因组层面的影响。因此,如何设计一种新的检测方法检出转座子插入的复杂突变模式,成为本领域技术人员亟待解决的技术问题。
发明内容
解决的技术问题
为解决现有技术存在无法检出转座子插入的复杂突变模式,即无法检测转座子插入造成基因组插入位点附近基因组的重复,插入位点附近基因组的删除,或潜在的在转座过程中携带周围基因组插入造成的转座印迹等,无法完全揭示转座子的活动对整个基因组层面的影响的缺陷,本发明提供了一种转座子插入人基因组突变模式和转座印迹的检测方法。
技术方案
为实现以上目的,本发明通过以下技术方案予以实现:
一种转座子插入人基因组突变模式和转座印迹的检测方法,所述检测方法包括以下步骤:
步骤1、将测序获得的reads即测序读段分别比对到人基因组和转座子序列中,在对比中,同时考虑了覆盖人基因组和转座子序列的测序读段,比对到相同染色体且有softclip即有片段缺失的测序读段;
步骤2、根据得到的跨越人基因组和转座子序列的比对文件信息,根据比对文件的第六列的cigar值,分别判断转座子插入人基因组引起的突变类型;
步骤3、整理所有得到的同时跨越人基因组和转座子序列的比对信息,提取所有的RB断点和LB断点集合,根据比对上的染色体和基因组坐标,合并断点集合,判断断点集合是否完美插入,判断是否存在插入位点附近基因组的重复现象,判断是否存在插入位点附近基因组的删除片段,其次,根据比对到相同染色体且存在softclip即有片段缺失的测序读段,检测转座印迹现象,最终得到所有非完美的转座和潜在的转座印迹事件集合。
更进一步地,所述步骤1的具体操作为:
步骤1.1、根据比对文件第六列CIGAR值,提取比对到人基因组中有softclip的比对信息,以及比对到转座子序列中有softclip的比对信息,对以上两个信息根据测序读段取交集操作,以得到同时跨越人基因组和转座子序列的比对文件信息;
步骤1.2、通过分析比对文件中的第六列CIGAR值,提取同一条reads中可以比对到人基因组相同染色体且存在softclip即有片段缺失的比对信息,在此基础上,进一步筛选出比对到基因组间的坐标距离大于一定阈值的信息,最终获得了包含潜在转座印迹的比对文件信息。
更进一步地,所述步骤1.1中的CIGAR值包括匹配的长度、插入和删除的数量。
更进一步地,所述步骤2的具体操作为:提取reads中比对到人基因组的比对位置和比对长度信息,以及比对到转座子序列中的比对位置和比对长度信息,判断转座子插入到人基因组的断点,根据比对到人基因组和转座子序列的reads位置信息及断点信息,判断转座子是否完美插入到基因组,是否引起基因组重复片段或删除片段。
更进一步地,所述步骤3的具体操作为:
步骤3.1、假设reads1跨越人基因组和转座子序列,该断点集合为chrA:a且比对到基因组上的match值为D,比对到转座子序列上的softclip值为E,当|D-E|距离大于一定阈值时,提取|D-E|的序列信息,为未知的插入序列;
步骤3.2、当步骤3.1中|D-E|距离小于一定阈值时认为完美插入;
步骤3.3、当步骤3.1中|D-E|距离大于一定阈值,且该未知插入序列可以比对到该染色体基因组位点前后500bp的序列,即判断属于基因组中的重复,即潜在的由于转座子插入而引起的基因组重复现象;
步骤3.4、假设reads2跨越人基因组和转座子序列,该断点集合为chrA:b,当a<b且b-a大于一定的阈值时,认为在chrA上存在由于转座子的插入引入的插入位点基因组删除片段,删除片段长度为b-a;
步骤3.5、当步骤3.1中|D-E|距离大于一定阈值,且该未知序列可以比对到其他的染色体或同一条染色体上一定阈值距离之外的位点信息,即判断潜在的由于转座子跳跃携带周围基因组再次插入导致的转座子印记现象;
步骤3.6、假设reads3比对到相同染色体但是携带有softclip信息,且比对到基因组间的坐标距离大于一定的阈值,即认为该reads中测序得到的基因组片段存在缺失,若该染色体及基因组的坐标信息和步骤3.5中序列比对到的染色体相同,基因组坐标距离接近且小于一定阈值,则认为reads3中带有softclip导致的基因组缺失片段是由于潜在的转座子跳跃引起。
更进一步地,阈值的范围在具体操作中根据实验条件和目的进行选定,如果阈值设定过高,可能会漏掉一些信号,导致检测结果不准确,如果阈值设定过低,则会导致噪音干扰增大,影响结果的可靠性。
有益效果
本发明提供了一种转座子插入人基因组突变模式和转座印迹的检测方法,与现有公知技术相比,本发明具有如下有益效果:
1、本发明对转座子插入位点和导致的基因组变异进行全面检测,相比于传统的检测方法,WGS技术可以在单个实验中高效、快速地获得全基因组的信息,并且可以识别转座子插入点周围的基因组序列,可以用于检测转座子插入人基因组后的复杂突变模式检测,从而精确定位插入点、插入位点是否引起基因组的重复、是否引起基因组的删除片段,以及转座印迹。
2、本发明充分利用比对到带有softclip的reads信息,即包括reads中同时可以比对到人基因组和转座子序列,reads中比对到相同染色体且有基因组删除的片段序列,检测转座子插入到人基因组是否完美插入,是否引起插入位点附近基因组的重复或删除片段以及转座印迹,同时可以快速准确地识别转座子插入位点和其可能导致的插入位点附近基因组重复和删除片段以及转座印迹,从而为基因组编辑等领域的研究和应用提供了一种新的工具和方法。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1是本发明转座子插入人基因组突变模式和转座印迹的检测方法的流程示意图;
图2是本发明转座子插入人基因组突变模式和转座印迹的检测方法的转座子完美插入基因组示意图;
图3是本发明转座子插入人基因组突变模式和转座印迹的检测方法的转座子插入引入的插入位点附近基因组重复示意图;
图4是本发明转座子插入人基因组突变模式和转座印迹的检测方法的转座子插入引入的插入位点附近基因组删除片段示意图;
图5是本发明转座子插入人基因组突变模式和转座印迹的检测方法的转座子插入携带的基因组印迹示意图;
图6是本发明转座子插入人基因组突变模式和转座印迹的检测方法的转座子插入人基因组的复杂突变类型检出情况示意图;
图7是本发明转座子插入人基因组突变模式和转座印迹的检测方法的转座子插入人基因组检出转座印迹示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合实施例对本发明作进一步的描述。
实施例1
本实施例的一种转座子插入人基因组突变模式和转座印迹的检测方法,检测方法包括以下步骤:
步骤1、将测序获得的reads即测序读段分别比对到人基因组和转座子序列中,在对比中,同时考虑了覆盖人基因组和转座子序列的测序读段,比对到相同染色体且有softclip即有片段缺失的测序读段;
步骤2、根据得到的跨越人基因组和转座子序列的比对文件信息,根据比对文件的第六列的cigar值,分别判断转座子插入人基因组引起的突变类型;
步骤3、整理所有得到的同时跨越人基因组和转座子序列的比对信息,提取所有的RB断点和LB断点集合,根据比对上的染色体和基因组坐标,合并断点集合,判断断点集合是否完美插入,判断是否存在插入位点附近基因组的重复现象,判断是否存在插入位点附近基因组的删除片段,其次,根据比对到相同染色体且存在softclip即有片段缺失的测序读段,检测转座印迹现象,最终得到所有非完美的转座和潜在的转座印迹事件集合。
步骤1的具体操作为:
步骤1.1、根据比对文件第六列CIGAR值,提取比对到人基因组中有softclip的比对信息,以及比对到转座子序列中有softclip的比对信息,对以上两个信息根据测序读段取交集操作,以得到同时跨越人基因组和转座子序列的比对文件信息;
步骤1.2、通过分析比对文件中的第六列CIGAR值,提取同一条reads中可以比对到人基因组相同染色体且存在softclip即有片段缺失的比对信息,在此基础上,进一步筛选出比对到基因组间的坐标距离大于一定阈值的信息,最终获得了包含潜在转座印迹的比对文件信息。
步骤1.1中的CIGAR值包括匹配的长度、插入和删除的数量。
步骤2的具体操作为:提取reads中比对到人基因组的比对位置和比对长度信息,以及比对到转座子序列中的比对位置和比对长度信息,判断转座子插入到人基因组的断点,根据比对到人基因组和转座子序列的reads位置信息及断点信息,判断转座子是否完美插入到基因组,是否引起基因组重复片段或删除片段。
步骤3的具体操作为:
步骤3.1、假设reads1跨越人基因组和转座子序列,该断点集合为chrA:a且比对到基因组上的match值为D,比对到转座子序列上的softclip值为E,当|D-E|距离大于一定阈值时,提取|D-E|的序列信息,为未知的插入序列;
步骤3.2、当步骤3.1中|D-E|距离小于一定阈值时认为完美插入;
步骤3.3、当步骤3.1中|D-E|距离大于一定阈值,且该未知插入序列可以比对到该染色体基因组位点前后500bp的序列,即判断属于基因组中的重复,即潜在的由于转座子插入而引起的基因组重复现象;
步骤3.4、假设reads2跨越人基因组和转座子序列,该断点集合为chrA:b,当a<b且b-a大于一定的阈值时,认为在chrA上存在由于转座子的插入引入的插入位点基因组删除片段,删除片段长度为b-a;
步骤3.5、当步骤3.1中|D-E|距离大于一定阈值,且该未知序列可以比对到其他的染色体或同一条染色体上一定阈值距离之外的位点信息,即判断潜在的由于转座子跳跃携带周围基因组再次插入导致的转座子印记现象;
步骤3.6、假设reads3比对到相同染色体但是携带有softclip信息,且比对到基因组间的坐标距离大于一定的阈值,即认为该reads中测序得到的基因组片段存在缺失,若该染色体及基因组的坐标信息和步骤3.5中序列比对到的染色体相同,基因组坐标距离接近且小于一定阈值,则认为reads3中带有softclip导致的基因组缺失片段是由于潜在的转座子跳跃引起。
阈值的范围在具体操作中根据实验条件和目的进行选定,如果阈值设定过高,可能会漏掉一些信号,导致检测结果不准确,如果阈值设定过低,则会导致噪音干扰增大,影响结果的可靠性。
对本发明所提供的检测方法进行举例描述,以所检测的序列为案例进行具体操作的描述,其主要流程是:先对测序读段分别比对到人基因组和转座子序列,根据步骤1.1对reads提取,分别得到有softclip和无softclip的比对文件即sam文件,再根据比对到基因组中有softclip的比对文件和比对到转座子序列有softclip的比对文件,得到同时跨越人基因组序列和转座子序列的比对信息。
根据步骤1.1得到比对到相同染色体一定阈值范围内且有softclip的比对信息,再根据步骤3.1至3.6得到转座子插入人基因组的所有复杂突变模式和转座印迹,最终得到所有非完美转座和潜在的转座印迹。
图2为转座子完美插入基因组示意图,根据步骤1.1统计比对到基因组和转座子上的比对信息,根据步骤3.1和步骤3.2判断转座子是否完美插入到基因组。
图3为转座子插入引入的插入位点附近基因组重复示意图,根据步骤3.1计算得到reads1比对到基因组位置chrA:a,根据步骤3.1得到比对到基因组和转座子上的比对信息并提取未知比对序列,根据步骤3.3判断该未知序列能否比对到基因组前后500bp范围内,即判断该转座子插入是否潜在的引入的插入位点附近基因组重复事件。
图4为转座子插入引入的插入位点附近基因组删除片段示意图,根据步骤3.1计算得到reads1比对到基因组位置chrA:a和reads2比对到基因组chrA:b,根据步骤3.1、3.4判断若a<b且b-a大于一定的阈值,认为在chrA:a位点转座子插入引入的插入位点附近基因组删除片段。
图5为转座子插入携带的基因组印记示意图,根据步骤3.1、3.2分别统计比对到基因组和转座子上的比对信息,根据步骤3.1提取未知序列,根据步骤3.5判断该序列是否可以比对到其他染色体或一定距离之外的相同染色体,同时,根据步骤3.6判断该未知序列比对上的染色体在该基因组位置存在小片段的基因组缺失,通过以上方法判断该序列是由于转座子插入携带的基因组印记。
通过上述实例展示本算法如何通过利用WGS数据检测转座子插入人基因组的复杂突变模式,使用本算法对人的18x测序深度的WGS模拟数据的分析结果进行检测,以验证DTIFH在有效利用WGS数据的基础上,对转座子插入人基因组的复杂突变模式检测。在本实施例中,利用本算法按照步骤1.1将测序数据分别比对到人基因组和转座子序列中,并对sam文件进行处理,提取带有softclip的reads,即得到同时跨越基因组和载体序列的带有softclip的比对信息,按照步骤3.1至3.4判断转座子插入人基因组的位点是否是完美插入、是否在插入位点附近引入基因组重复和插入位点附近的基因组删除片段。
实施例2
在本实例中,测序数据共有306900条reads信息,统计支持比对到基因组且有softclip的reads为150,支持比对到转座子且有softclip的reads为133,求得交集的reads信息有49条,按照步骤3.1至3.4判断转座子插入人基因组的突变类型,图6要列出DTIFH最终可以检出突变类型情况,可以看出本算法可以检出转座子完美插入,转座子插入位点附近15bp基因组重复,插入位点附近的18bp基因组删除片段等。
综上所述,本算法在对18x测序深度的WGS模拟数据中可以检出转座子插入人基因组的复杂复变类型,即转座子完美插入、转座子插入人基因组插入位点附近基因组的重复、转座子插入人基因组插入位点附近删除片段。这对于研究转座子插入人基因组的影响是非常重要的,通过检测转座子的插入位点,可以揭示基因组中这种结构变异的存在,能够更全面地理解基因组的组成和结构。
通过实例展示本算法如何通过利用WGS的数据检测转座子插入人基因组的转座印迹。使用本算法对20x的人的WGS的数据进行检测,以验证本算法在检测转座子插入人基因组的转座印迹。在本实施例中,利用本算法按照步骤1.1得到比对到基因组和转座子且带有softlip的比对信息,按照步骤1.2得到比对到相同染色体带有softclip信息,且比对到染色体的基因组坐标在一定阈值范围内,再按照步骤3.1、3.5、3.6得到潜在的转座印迹。
实施例3
在本实例中,测序数据共有290945条reads信息,本算法最终检测出1个转座印迹。如图7所示,按照步骤3.1在chr5染色体98450位置上检出一段未知序列长30bp,根据步骤3.5发现这段30bp的未知序列可以唯一比对到chr3的5769093位点,同时,根据步骤3.6在chr3上发现5769092-5769122上有一点缺失。综合以上,检测出转座子在跳跃的时候携带chr3的5769092-5769122的序列插入到chr5的5769093位点,留下转座印迹。同时,本算法也发现了转座子在跳跃的时候携带chr1的33400901-33400936的序列插入到chr19的8002313位点。这说明本算法可以检出在转座子插入人基因组的转座印迹。
综上所述,本算法在对20x的人的WGS的数据检测中可以检出转座子插入人基因组的转座印迹,即转座子携带周围的基因组片段插入到基因组中留下的转座印迹。转座印迹会造成基因组变异,进而潜在地影响基因的表达和功能,这对于研究遗传疾病和癌症等疾病具有重要意义。通过本算法检测转座印迹,能够识别可能与疾病相关的转座印迹对基因组的变异影响,并进一步研究其与疾病发生机制的关联。
采用的术语具体含义如下:
转座子:转座子(Transposable elements,TEs),也被称为“跳跃基因”,是从基因组的一个位置移动到另一个位置的DNA序列。
DNA是脱氧核糖核酸(Deoxyribonucleic Acid)的缩写,它是构成生物遗传信息的核酸分子,是由碱基、糖分子和磷酸分子组成的长链状分子,在生物体中,DNA携带着遗传信息,并指导生物体的生长、发育和功能运作。
WGS:Whole genome sequencing,全外显子组检测。
reads:表示测序读段,指二代测序平台输出的DNA片段序列,通常包含多个碱基对,每个reads都对应着DNA片段中的一部分。
PCR(聚合酶链反应,Polymerase Chain Reaction)是一种重要的分子生物学技术,它是通过利用DNA聚合酶在体外扩增DNA片段的技术。
Splinkerette PCR(也称为SplinkPCR)是一种用于分析基因组中未知序列的方法,特别适用于检测基因组中的插入元件、基因重组事件或DNA片段的边界,它是通过PCR扩增未知序列与已知序列之间的连接位点来实现的。
softclip:表示有片段缺失的测序读段,当基因组发生某一段的缺失,或转录组的剪接,在测序过程中,横跨缺失位点及剪接位点的reads回帖到基因组时,一条reads被切成两段,匹配到不同的区域,这样的reads叫做soft-clipped reads,这些reads对于鉴定染色体结构变异及外源序列整合具有重要作用。
CIGAR值:在SAM(Sequence Alignment/Map)文件中,CIGAR(CompactIdiosyncratic Gapped Alignment Report)值是用于描述比对结果的一种表示方法,它指示了比对序列(query)与参考序列(reference)之间的匹配和插入/删除(indel)等事件,CIGAR值由一系列的操作符和操作数组成,每个操作符表示一种特定的比对事件,而操作数则表示该事件发生的次数。
CHR:chr是染色体的缩写,代表着生物体中的染色体,染色体是细胞中存在的一种结构,它包含了遗传信息和基因的载体,在有核细胞中,染色体位于细胞核内,并且以线状的形式存在。
Sanger测序,也称为链终止法测序(Chain Termination Sequencing),是一种经典的测序技术。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不会使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (5)
1.一种转座子插入人基因组突变模式和转座印迹的检测方法,其特征在于,所述检测方法包括以下步骤:
步骤1、将测序获得的reads即测序读段分别比对到人基因组和转座子序列中,在对比中,同时考虑了覆盖人基因组和转座子序列的测序读段,比对到相同染色体且有softclip即有片段缺失的测序读段;
步骤2、根据得到的跨越人基因组和转座子序列的比对文件信息,根据比对文件的第六列的CIGAR值,分别判断转座子插入人基因组引起的突变类型;
步骤3、整理所有得到的同时跨越人基因组和转座子序列的比对信息,提取所有的RB断点和LB断点集合,根据比对上的染色体和基因组坐标,合并断点集合,判断断点集合是否完美插入,判断是否存在插入位点附近基因组的重复现象,判断是否存在插入位点附近基因组的删除片段,其次,根据比对到相同染色体且存在softclip即有片段缺失的测序读段,检测转座印迹现象,最终得到所有非完美的转座和潜在的转座印迹事件集合;
所述步骤3的具体操作为:
步骤3.1、假设reads1跨越人基因组和转座子序列,该断点集合为chrA:a且比对到基因组上的match值为D,比对到转座子序列上的softclip值为E,当|D-E|距离大于一定阈值时,提取|D-E|的序列信息,为未知的插入序列;
步骤3.2、当步骤3.1中|D-E|距离小于一定阈值时认为完美插入;
步骤3.3、当步骤3.1中|D-E|距离大于一定阈值,且该未知插入序列可以比对到该染色体基因组位点前后500bp的序列,即判断属于基因组中的重复,即潜在的由于转座子插入而引起的基因组重复现象;
步骤3.4、假设reads2跨越人基因组和转座子序列,该断点集合为chrA:b,当a<b且b-a大于一定的阈值时,认为在chrA上存在由于转座子的插入引入的插入位点基因组删除片段,删除片段长度为b-a;
步骤3.5、当步骤3.1中|D-E|距离大于一定阈值,且该未知序列可以比对到其他的染色体或同一条染色体上一定阈值距离之外的位点信息,即判断潜在的由于转座子跳跃携带周围基因组再次插入导致的转座子印记现象;
步骤3.6、假设reads3比对到相同染色体但是携带有softclip信息,且比对到基因组间的坐标距离大于一定的阈值,即认为该reads中测序得到的基因组片段存在缺失,若该染色体及基因组的坐标信息和步骤3.5中序列比对到的染色体相同,基因组坐标距离接近且小于一定阈值,则认为reads3中带有softclip导致的基因组缺失片段是由于潜在的转座子跳跃引起。
2.根据权利要求1所述的一种转座子插入人基因组突变模式和转座印迹的检测方法,其特征在于,所述步骤1的具体操作为:
步骤1.1、根据比对文件第六列CIGAR值,提取比对到人基因组中有softclip的比对信息,以及比对到转座子序列中有softclip的比对信息,对以上两个信息根据测序读段取交集操作,以得到同时跨越人基因组和转座子序列的比对文件信息;
步骤1.2、通过分析比对文件中的第六列CIGAR值,提取同一条reads中可以比对到人基因组相同染色体且存在softclip即有片段缺失的比对信息,在此基础上,进一步筛选出比对到基因组间的坐标距离大于一定阈值的信息,最终获得了包含潜在转座印迹的比对文件信息。
3.根据权利要求2所述的一种转座子插入人基因组突变模式和转座印迹的检测方法,其特征在于,所述步骤1.1中的CIGAR值包括匹配的长度、插入和删除的数量。
4.根据权利要求1所述的一种转座子插入人基因组突变模式和转座印迹的检测方法,其特征在于,所述步骤2的具体操作为:提取reads中比对到人基因组的比对位置和比对长度信息,以及比对到转座子序列中的比对位置和比对长度信息,判断转座子插入到人基因组的断点,根据比对到人基因组和转座子序列的reads位置信息及断点信息,判断转座子是否完美插入到基因组,是否引起基因组重复片段或删除片段。
5.根据权利要求1所述的一种转座子插入人基因组突变模式和转座印迹的检测方法,其特征在于,阈值的范围在具体操作中根据实验条件和目的进行选定。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410095269.6A CN118038979B (zh) | 2024-01-23 | 2024-01-23 | 转座子插入人基因组突变模式和转座印迹的检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410095269.6A CN118038979B (zh) | 2024-01-23 | 2024-01-23 | 转座子插入人基因组突变模式和转座印迹的检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN118038979A CN118038979A (zh) | 2024-05-14 |
CN118038979B true CN118038979B (zh) | 2024-10-15 |
Family
ID=90988344
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410095269.6A Active CN118038979B (zh) | 2024-01-23 | 2024-01-23 | 转座子插入人基因组突变模式和转座印迹的检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118038979B (zh) |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090162401A1 (en) * | 2005-02-18 | 2009-06-25 | Buchanan John T | Streptococcus Iniae Phosphoglucomutase is a Virulence Factor and Target for Vaccine Development |
CN104673804B (zh) * | 2013-11-29 | 2017-11-21 | 华南农业大学 | 一种调节蔗糖合成的水稻基因及其应用 |
EP3432176A1 (en) * | 2017-07-20 | 2019-01-23 | Siemens Healthcare GmbH | Scansoft: a method for the detection of genomic deletions and duplications in massive parallel sequencing data |
ES2923142T3 (es) * | 2018-06-14 | 2022-09-23 | Sophia Genetics S A | Métodos para detectar variantes en datos genómicos de secuenciación de próxima generación |
US12180486B2 (en) * | 2018-12-11 | 2024-12-31 | Washington University | Compositions of self-reporting transposon (SRT) constructs and methods for mapping transposon insertions |
CN114334006B (zh) * | 2021-12-29 | 2022-11-29 | 纳昂达(南京)生物科技有限公司 | 过滤酶切建库方式引入噪音的方法和装置 |
CN115896256A (zh) * | 2022-11-25 | 2023-04-04 | 臻悦生物科技江苏有限公司 | 基于二代测序技术的rna插入缺失突变的检测方法、装置、设备和存储介质 |
CN117198394A (zh) * | 2023-06-28 | 2023-12-08 | 上海唯可生物科技有限公司 | 一种基于外源载体插入基因组复杂模式突变检测方法 |
-
2024
- 2024-01-23 CN CN202410095269.6A patent/CN118038979B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN118038979A (zh) | 2024-05-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116694746A (zh) | 测定核酸的碱基修饰 | |
EP3919629A1 (en) | Method for using whole genome re-sequencing data to quickly identify transgenic or gene editing material and insertion sites thereof | |
CN111755072A (zh) | 一种同时检测甲基化水平、基因组变异和插入片段的方法及装置 | |
CN113564266B (zh) | Snp分型遗传标记组合、检测试剂盒及用途 | |
CN108304694B (zh) | 基于二代测序数据分析基因突变的方法 | |
CN110993023A (zh) | 复杂突变的检测方法及检测装置 | |
CN105046105A (zh) | 染色体跨度的单体型图及其构建方法 | |
CN110600079B (zh) | 转基因鉴定方法及鉴定装置 | |
CN107885972B (zh) | 一种基于单端测序的融合基因检测方法及其应用 | |
KR101913735B1 (ko) | 차세대 염기서열 분석을 위한 시료 간 교차 오염 탐색용 내부 검정 물질 | |
CN118038979B (zh) | 转座子插入人基因组突变模式和转座印迹的检测方法 | |
US20140364321A1 (en) | Method for analyzing DNA methylation based on MspJI cleavage | |
CN117198394A (zh) | 一种基于外源载体插入基因组复杂模式突变检测方法 | |
CA3149056A1 (en) | Methods for dna library generation to facilitate the detection and reporting of low frequency variants | |
JPWO2021067484A5 (zh) | ||
CN115948521B (zh) | 一种检测非整倍体缺失染色体信息的方法 | |
KR101977976B1 (ko) | 앰플리콘 기반 차세대 염기서열 분석기법에서 프라이머 서열을 제거하여 분석의 정확도를 높이는 방법 | |
CN111968706B (zh) | 获得目标样本的目标测序数据的方法及对目标样本的序列进行组装的方法 | |
van Kooten et al. | The transcriptional landscape of a rewritten bacterial genome reveals control elements and genome design principles | |
Song et al. | Constrained non-coding sequence provides insights into regulatory elements and loss of gene expression in maize | |
KR102342490B1 (ko) | 분자 인덱스된 바이설파이트 시퀀싱 | |
CN113969311B (zh) | 一种检测基因编辑后的突变的方法 | |
US11905554B2 (en) | Simple, cost-effective and amplification-based whole genome sequencing approach | |
US20240271204A1 (en) | Method and kit for detecting editing sites of base editor | |
US20240336965A1 (en) | Sensitive multimodal profiling of native dna by transposase-mediated single-molecule sequencing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |