CN118038979B

CN118038979B - 转座子插入人基因组突变模式和转座印迹的检测方法

Info

Publication number: CN118038979B
Application number: CN202410095269.6A
Authority: CN
Inventors: 倪帅; 孔华磊; 朱凤娇; 何峰; 侯宇宸; 阚科佳; 吴宁
Original assignee: Shanghai Weike Biotechnology Co ltd
Current assignee: Shanghai Weike Biotechnology Co ltd
Priority date: 2024-01-23
Filing date: 2024-01-23
Publication date: 2024-10-15
Anticipated expiration: 2044-01-23
Also published as: CN118038979A

Abstract

本发明涉及生物信息领域二代测序数据分析技术领域，具体涉及一种转座子插入人基因组突变模式和转座印迹的检测方法，本发明对转座子插入位点和导致的基因组变异进行全面检测，可以在单个实验中高效、快速地获得全基因组的信息，并且可以识别转座子插入点周围的基因组序列；本发明充分利用比对到带有softclip的reads信息，即包括reads中同时可以比对到人基因组和转座子序列，reads中比对到相同染色体且有基因组删除的片段序列，检测转座子插入到人基因组是否完美插入，是否引起插入位点附近基因组的重复或删除片段以及转座印迹，同时可以快速准确地识别转座子插入位点和其可能导致的插入位点附近基因组重复和删除片段以及转座印迹。

Description

转座子插入人基因组突变模式和转座印迹的检测方法

技术领域

本发明涉及生物信息领域二代测序数据分析技术领域，具体涉及一种转座子插入人基因组突变模式和转座印迹的检测方法。

背景技术

转座子，又称为“跳跃基因”，是一种存在于真核或原核生物基因组中的可移动的DNA序列。它在人类基因组中大约占总DNA的50％。通常情况下，大部分转座子处于沉默状态，但在特定条件下，如环境压力，转座子可能被激活并重新插入到基因组的其他位置。在这个过程中，转座子可能会带走周围的基因组片段，并将其插入到其他基因组位置，留下转座印迹。在转座子插入基因组的过程中，转座子会引起插入位点附近的DNA双链断裂。在DNA进行同源末端互补修复的过程中，可能会导致插入位点附近基因组的重复现象和插入位点附近基因组片段的缺失。因此，这些转座事件可能导致插入位点附近基因组的变异，例如插入位点附近基因组的重复现象和插入位点附近基因组片段的缺失现象。

因此更全面地了解转座子跳跃事件对插入位点附近基因组的变异检测及潜在的转座印迹检测至关重要，这可能会对基因的表达和基因功能产生的至关重要的影响。但目前尚未有研究通过WGS方法检测转座子插入人基因组过程中的复杂突变模式检测，如转座子在插入人基因组过程中引入的插入位点附近基因组重复或插入位点附近基因组片段缺失等，或潜在的由于转座子在跳跃过程中携带周围基因组而造成的转座印迹等。

现有的实验方法例如SplinkerettePCR方法只能获取转座子的当前跳跃信息，如检测基因组中的插入元件或转座事件，以确定未知序列的边界或其他特征。它通常用于有限的目标区域的分析，并需要事先了解已知序列的信息，不适用全基因组范围内的转座子插入基因组的突变检测和转座印迹，具有一定的局限性。使用sanger测序等分析来检测转座子插入基因组对基因组突变的方法，但这种方法只能检测已知的转座位点附近的突变，而无法全面评估在整个基因组层面由于转座子插入基因组对插入位点附近的基因组变异和转座印迹，因此，可能存在一些未知的由于转座子插入造成的插入位点附近的基因组变异和转座印迹尚未检测到。

现有试验方法无法检出转座子插入的复杂突变模式，即无法检测转座子插入造成基因组插入位点附近基因组的重复，插入位点附近基因组的删除，或潜在的在转座过程中携带周围基因组插入造成的转座印迹等，无法完全揭示转座子的活动对整个基因组层面的影响。因此，如何设计一种新的检测方法检出转座子插入的复杂突变模式，成为本领域技术人员亟待解决的技术问题。

发明内容

解决的技术问题

为解决现有技术存在无法检出转座子插入的复杂突变模式，即无法检测转座子插入造成基因组插入位点附近基因组的重复，插入位点附近基因组的删除，或潜在的在转座过程中携带周围基因组插入造成的转座印迹等，无法完全揭示转座子的活动对整个基因组层面的影响的缺陷，本发明提供了一种转座子插入人基因组突变模式和转座印迹的检测方法。

技术方案

为实现以上目的，本发明通过以下技术方案予以实现：

一种转座子插入人基因组突变模式和转座印迹的检测方法，所述检测方法包括以下步骤：

步骤1、将测序获得的reads即测序读段分别比对到人基因组和转座子序列中，在对比中，同时考虑了覆盖人基因组和转座子序列的测序读段，比对到相同染色体且有softclip即有片段缺失的测序读段；

步骤2、根据得到的跨越人基因组和转座子序列的比对文件信息，根据比对文件的第六列的cigar值，分别判断转座子插入人基因组引起的突变类型；

步骤3、整理所有得到的同时跨越人基因组和转座子序列的比对信息，提取所有的RB断点和LB断点集合，根据比对上的染色体和基因组坐标，合并断点集合，判断断点集合是否完美插入，判断是否存在插入位点附近基因组的重复现象，判断是否存在插入位点附近基因组的删除片段，其次，根据比对到相同染色体且存在softclip即有片段缺失的测序读段，检测转座印迹现象，最终得到所有非完美的转座和潜在的转座印迹事件集合。

更进一步地，所述步骤1的具体操作为：

步骤1.1、根据比对文件第六列CIGAR值，提取比对到人基因组中有softclip的比对信息，以及比对到转座子序列中有softclip的比对信息，对以上两个信息根据测序读段取交集操作，以得到同时跨越人基因组和转座子序列的比对文件信息；

步骤1.2、通过分析比对文件中的第六列CIGAR值，提取同一条reads中可以比对到人基因组相同染色体且存在softclip即有片段缺失的比对信息，在此基础上，进一步筛选出比对到基因组间的坐标距离大于一定阈值的信息，最终获得了包含潜在转座印迹的比对文件信息。

更进一步地，所述步骤1.1中的CIGAR值包括匹配的长度、插入和删除的数量。

更进一步地，所述步骤2的具体操作为：提取reads中比对到人基因组的比对位置和比对长度信息，以及比对到转座子序列中的比对位置和比对长度信息，判断转座子插入到人基因组的断点，根据比对到人基因组和转座子序列的reads位置信息及断点信息，判断转座子是否完美插入到基因组，是否引起基因组重复片段或删除片段。

更进一步地，所述步骤3的具体操作为：

步骤3.1、假设reads1跨越人基因组和转座子序列，该断点集合为chrA：a且比对到基因组上的match值为D，比对到转座子序列上的softclip值为E，当|D-E|距离大于一定阈值时，提取|D-E|的序列信息，为未知的插入序列；

步骤3.2、当步骤3.1中|D-E|距离小于一定阈值时认为完美插入；

步骤3.3、当步骤3.1中|D-E|距离大于一定阈值，且该未知插入序列可以比对到该染色体基因组位点前后500bp的序列，即判断属于基因组中的重复，即潜在的由于转座子插入而引起的基因组重复现象；

步骤3.4、假设reads2跨越人基因组和转座子序列，该断点集合为chrA：b，当a<b且b-a大于一定的阈值时，认为在chrA上存在由于转座子的插入引入的插入位点基因组删除片段，删除片段长度为b-a；

步骤3.5、当步骤3.1中|D-E|距离大于一定阈值，且该未知序列可以比对到其他的染色体或同一条染色体上一定阈值距离之外的位点信息，即判断潜在的由于转座子跳跃携带周围基因组再次插入导致的转座子印记现象；

步骤3.6、假设reads3比对到相同染色体但是携带有softclip信息，且比对到基因组间的坐标距离大于一定的阈值，即认为该reads中测序得到的基因组片段存在缺失，若该染色体及基因组的坐标信息和步骤3.5中序列比对到的染色体相同，基因组坐标距离接近且小于一定阈值，则认为reads3中带有softclip导致的基因组缺失片段是由于潜在的转座子跳跃引起。

更进一步地，阈值的范围在具体操作中根据实验条件和目的进行选定，如果阈值设定过高，可能会漏掉一些信号，导致检测结果不准确，如果阈值设定过低，则会导致噪音干扰增大，影响结果的可靠性。

有益效果

本发明提供了一种转座子插入人基因组突变模式和转座印迹的检测方法，与现有公知技术相比，本发明具有如下有益效果：

1、本发明对转座子插入位点和导致的基因组变异进行全面检测，相比于传统的检测方法，WGS技术可以在单个实验中高效、快速地获得全基因组的信息，并且可以识别转座子插入点周围的基因组序列，可以用于检测转座子插入人基因组后的复杂突变模式检测，从而精确定位插入点、插入位点是否引起基因组的重复、是否引起基因组的删除片段，以及转座印迹。

2、本发明充分利用比对到带有softclip的reads信息，即包括reads中同时可以比对到人基因组和转座子序列，reads中比对到相同染色体且有基因组删除的片段序列，检测转座子插入到人基因组是否完美插入，是否引起插入位点附近基因组的重复或删除片段以及转座印迹，同时可以快速准确地识别转座子插入位点和其可能导致的插入位点附近基因组重复和删除片段以及转座印迹，从而为基因组编辑等领域的研究和应用提供了一种新的工具和方法。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1是本发明转座子插入人基因组突变模式和转座印迹的检测方法的流程示意图；

图2是本发明转座子插入人基因组突变模式和转座印迹的检测方法的转座子完美插入基因组示意图；

图3是本发明转座子插入人基因组突变模式和转座印迹的检测方法的转座子插入引入的插入位点附近基因组重复示意图；

图4是本发明转座子插入人基因组突变模式和转座印迹的检测方法的转座子插入引入的插入位点附近基因组删除片段示意图；

图5是本发明转座子插入人基因组突变模式和转座印迹的检测方法的转座子插入携带的基因组印迹示意图；

图6是本发明转座子插入人基因组突变模式和转座印迹的检测方法的转座子插入人基因组的复杂突变类型检出情况示意图；

图7是本发明转座子插入人基因组突变模式和转座印迹的检测方法的转座子插入人基因组检出转座印迹示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合实施例对本发明作进一步的描述。

实施例1

本实施例的一种转座子插入人基因组突变模式和转座印迹的检测方法，检测方法包括以下步骤：

步骤1的具体操作为：

步骤1.1中的CIGAR值包括匹配的长度、插入和删除的数量。

步骤2的具体操作为：提取reads中比对到人基因组的比对位置和比对长度信息，以及比对到转座子序列中的比对位置和比对长度信息，判断转座子插入到人基因组的断点，根据比对到人基因组和转座子序列的reads位置信息及断点信息，判断转座子是否完美插入到基因组，是否引起基因组重复片段或删除片段。

步骤3的具体操作为：

阈值的范围在具体操作中根据实验条件和目的进行选定，如果阈值设定过高，可能会漏掉一些信号，导致检测结果不准确，如果阈值设定过低，则会导致噪音干扰增大，影响结果的可靠性。

对本发明所提供的检测方法进行举例描述，以所检测的序列为案例进行具体操作的描述，其主要流程是：先对测序读段分别比对到人基因组和转座子序列，根据步骤1.1对reads提取，分别得到有softclip和无softclip的比对文件即sam文件，再根据比对到基因组中有softclip的比对文件和比对到转座子序列有softclip的比对文件，得到同时跨越人基因组序列和转座子序列的比对信息。

根据步骤1.1得到比对到相同染色体一定阈值范围内且有softclip的比对信息，再根据步骤3.1至3.6得到转座子插入人基因组的所有复杂突变模式和转座印迹，最终得到所有非完美转座和潜在的转座印迹。

图2为转座子完美插入基因组示意图，根据步骤1.1统计比对到基因组和转座子上的比对信息，根据步骤3.1和步骤3.2判断转座子是否完美插入到基因组。

图3为转座子插入引入的插入位点附近基因组重复示意图，根据步骤3.1计算得到reads1比对到基因组位置chrA：a，根据步骤3.1得到比对到基因组和转座子上的比对信息并提取未知比对序列，根据步骤3.3判断该未知序列能否比对到基因组前后500bp范围内，即判断该转座子插入是否潜在的引入的插入位点附近基因组重复事件。

图4为转座子插入引入的插入位点附近基因组删除片段示意图，根据步骤3.1计算得到reads1比对到基因组位置chrA：a和reads2比对到基因组chrA：b，根据步骤3.1、3.4判断若a<b且b-a大于一定的阈值，认为在chrA：a位点转座子插入引入的插入位点附近基因组删除片段。

图5为转座子插入携带的基因组印记示意图，根据步骤3.1、3.2分别统计比对到基因组和转座子上的比对信息，根据步骤3.1提取未知序列，根据步骤3.5判断该序列是否可以比对到其他染色体或一定距离之外的相同染色体，同时，根据步骤3.6判断该未知序列比对上的染色体在该基因组位置存在小片段的基因组缺失，通过以上方法判断该序列是由于转座子插入携带的基因组印记。

通过上述实例展示本算法如何通过利用WGS数据检测转座子插入人基因组的复杂突变模式，使用本算法对人的18x测序深度的WGS模拟数据的分析结果进行检测，以验证DTIFH在有效利用WGS数据的基础上，对转座子插入人基因组的复杂突变模式检测。在本实施例中，利用本算法按照步骤1.1将测序数据分别比对到人基因组和转座子序列中，并对sam文件进行处理，提取带有softclip的reads，即得到同时跨越基因组和载体序列的带有softclip的比对信息，按照步骤3.1至3.4判断转座子插入人基因组的位点是否是完美插入、是否在插入位点附近引入基因组重复和插入位点附近的基因组删除片段。

实施例2

在本实例中，测序数据共有306900条reads信息，统计支持比对到基因组且有softclip的reads为150，支持比对到转座子且有softclip的reads为133，求得交集的reads信息有49条，按照步骤3.1至3.4判断转座子插入人基因组的突变类型，图6要列出DTIFH最终可以检出突变类型情况，可以看出本算法可以检出转座子完美插入，转座子插入位点附近15bp基因组重复，插入位点附近的18bp基因组删除片段等。

综上所述，本算法在对18x测序深度的WGS模拟数据中可以检出转座子插入人基因组的复杂复变类型，即转座子完美插入、转座子插入人基因组插入位点附近基因组的重复、转座子插入人基因组插入位点附近删除片段。这对于研究转座子插入人基因组的影响是非常重要的，通过检测转座子的插入位点，可以揭示基因组中这种结构变异的存在，能够更全面地理解基因组的组成和结构。

通过实例展示本算法如何通过利用WGS的数据检测转座子插入人基因组的转座印迹。使用本算法对20x的人的WGS的数据进行检测，以验证本算法在检测转座子插入人基因组的转座印迹。在本实施例中，利用本算法按照步骤1.1得到比对到基因组和转座子且带有softlip的比对信息，按照步骤1.2得到比对到相同染色体带有softclip信息，且比对到染色体的基因组坐标在一定阈值范围内，再按照步骤3.1、3.5、3.6得到潜在的转座印迹。

实施例3

在本实例中，测序数据共有290945条reads信息，本算法最终检测出1个转座印迹。如图7所示，按照步骤3.1在chr5染色体98450位置上检出一段未知序列长30bp，根据步骤3.5发现这段30bp的未知序列可以唯一比对到chr3的5769093位点，同时，根据步骤3.6在chr3上发现5769092-5769122上有一点缺失。综合以上，检测出转座子在跳跃的时候携带chr3的5769092-5769122的序列插入到chr5的5769093位点，留下转座印迹。同时，本算法也发现了转座子在跳跃的时候携带chr1的33400901-33400936的序列插入到chr19的8002313位点。这说明本算法可以检出在转座子插入人基因组的转座印迹。

综上所述，本算法在对20x的人的WGS的数据检测中可以检出转座子插入人基因组的转座印迹，即转座子携带周围的基因组片段插入到基因组中留下的转座印迹。转座印迹会造成基因组变异，进而潜在地影响基因的表达和功能，这对于研究遗传疾病和癌症等疾病具有重要意义。通过本算法检测转座印迹，能够识别可能与疾病相关的转座印迹对基因组的变异影响，并进一步研究其与疾病发生机制的关联。

采用的术语具体含义如下：

转座子：转座子(Transposable elements，TEs)，也被称为“跳跃基因”，是从基因组的一个位置移动到另一个位置的DNA序列。

DNA是脱氧核糖核酸(Deoxyribonucleic Acid)的缩写，它是构成生物遗传信息的核酸分子，是由碱基、糖分子和磷酸分子组成的长链状分子，在生物体中，DNA携带着遗传信息，并指导生物体的生长、发育和功能运作。

WGS：Whole genome sequencing，全外显子组检测。

reads：表示测序读段，指二代测序平台输出的DNA片段序列，通常包含多个碱基对，每个reads都对应着DNA片段中的一部分。

PCR(聚合酶链反应，Polymerase Chain Reaction)是一种重要的分子生物学技术，它是通过利用DNA聚合酶在体外扩增DNA片段的技术。

Splinkerette PCR(也称为SplinkPCR)是一种用于分析基因组中未知序列的方法，特别适用于检测基因组中的插入元件、基因重组事件或DNA片段的边界，它是通过PCR扩增未知序列与已知序列之间的连接位点来实现的。

softclip：表示有片段缺失的测序读段，当基因组发生某一段的缺失，或转录组的剪接，在测序过程中，横跨缺失位点及剪接位点的reads回帖到基因组时，一条reads被切成两段，匹配到不同的区域，这样的reads叫做soft-clipped reads，这些reads对于鉴定染色体结构变异及外源序列整合具有重要作用。

CIGAR值：在SAM(Sequence Alignment/Map)文件中，CIGAR(CompactIdiosyncratic Gapped Alignment Report)值是用于描述比对结果的一种表示方法，它指示了比对序列(query)与参考序列(reference)之间的匹配和插入/删除(indel)等事件，CIGAR值由一系列的操作符和操作数组成，每个操作符表示一种特定的比对事件，而操作数则表示该事件发生的次数。

CHR：chr是染色体的缩写，代表着生物体中的染色体，染色体是细胞中存在的一种结构，它包含了遗传信息和基因的载体，在有核细胞中，染色体位于细胞核内，并且以线状的形式存在。

Sanger测序，也称为链终止法测序(Chain Termination Sequencing)，是一种经典的测序技术。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不会使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种转座子插入人基因组突变模式和转座印迹的检测方法，其特征在于，所述检测方法包括以下步骤：

步骤3、整理所有得到的同时跨越人基因组和转座子序列的比对信息，提取所有的RB断点和LB断点集合，根据比对上的染色体和基因组坐标，合并断点集合，判断断点集合是否完美插入，判断是否存在插入位点附近基因组的重复现象，判断是否存在插入位点附近基因组的删除片段，其次，根据比对到相同染色体且存在softclip即有片段缺失的测序读段，检测转座印迹现象，最终得到所有非完美的转座和潜在的转座印迹事件集合；

所述步骤3的具体操作为：

2.根据权利要求1所述的一种转座子插入人基因组突变模式和转座印迹的检测方法，其特征在于，所述步骤1的具体操作为：

3.根据权利要求2所述的一种转座子插入人基因组突变模式和转座印迹的检测方法，其特征在于，所述步骤1.1中的CIGAR值包括匹配的长度、插入和删除的数量。

4.根据权利要求1所述的一种转座子插入人基因组突变模式和转座印迹的检测方法，其特征在于，所述步骤2的具体操作为：提取reads中比对到人基因组的比对位置和比对长度信息，以及比对到转座子序列中的比对位置和比对长度信息，判断转座子插入到人基因组的断点，根据比对到人基因组和转座子序列的reads位置信息及断点信息，判断转座子是否完美插入到基因组，是否引起基因组重复片段或删除片段。

5.根据权利要求1所述的一种转座子插入人基因组突变模式和转座印迹的检测方法，其特征在于，阈值的范围在具体操作中根据实验条件和目的进行选定。