CN118335196A

CN118335196A - 一种微小染色体组装鉴定装置、方法及其应用

Info

Publication number: CN118335196A
Application number: CN202410761258.7A
Authority: CN
Inventors: 周勋; 李晓波; 闫琦; 李泽阳; 任雪; 王娟; 牛晓阳; 李志民
Original assignee: Annoroad Gene Technology Beijing Co ltd
Current assignee: Annoroad Gene Technology Beijing Co ltd
Priority date: 2024-06-13
Filing date: 2024-06-13
Publication date: 2024-07-12

Abstract

本发明公开了一种微小染色体组装鉴定装置，包括：数据获取模块，被设置为基于样本获取基因测序数据；组装模块，被设置为将数据获取模块获取的基因测序数据组装成为染色体水平的序列；比对模块，被设置为将组装模块组装的染色体水平的序列与数据库模块中存储序列的数据进行比对，筛选获得候选微小染色体序列；数据库模块，存储已知的微小染色体序列数据；判定模块，被设置为根据微小染色体特征判定输入的候选微小染色体序列中最终的微小染色体。本装置可以对基因测序数据进行染色体水平的组装，通过与构建的微小染色体库进行比对，并根据微小染色体特征稳定鉴定出组装基因组中的微小染色体。

Description

一种微小染色体组装鉴定装置、方法及其应用

技术领域

本发明涉及生物技术领域，特别是基因组组装技术领域。具体地，本发明涉及一种微小染色体组装鉴定装置、方法及其应用。

背景技术

染色体作为位于细胞核内的遗传物质的基本单位，在整个真核生物进化过程中经历了广泛的变化。现存物种的染色体数量和大小差异巨大。微小染色体，曾经被认为是鸟类中不重要的基因组碎片，是具有高GC含量和少量转座元件的基因丰富元件。它们的起源已经被争论了几十年。近些年有研究发现，在大多数鸟类和非鸟类爬行动物中，染色体可以表征为大尺寸的大染色体（即常染色体、性染色体）和小尺寸的微小染色体。同时，有研究表明微小染色体也存在于其他一些脊椎动物物种 (例如鱼类) 中，但通常不存在于两栖动物或哺乳动物中。且大多数数鸟类的染色体核型非常保守，由9到10对大染色体和大约30对的微小染色体组成。

近些年来发现，微染色体（MicroChromosome）以及点染色体（Dot Chromosome），是一类在鸟类和爬行动物中均发现的微小染色体，该类染色体大小通常较小，只有几Mb左右，但其序列却相对稳定保守，在禽类的演化过程中基本保持稳定。相对于对应的常染色体，微小染色体的GC含量，重复序列含量，甲基化水平以及H3K9me3组蛋白修饰水平更高，H3K36me3和H3K27me3组蛋白修饰水平更低，并且点染色体之间具有更强的空间互作。由于染色体较小，结构较为复杂，其数据的组装一般比较困难。并且，在现有技术中，对于不同物种，在基因组数据组装过程中，微小染色体的鉴定也没有明确的方法。

综上所述，急需开发一种微小染色体组装鉴定装置，可以对基因测序数据进行染色体水平的组装，通过与构建的微小染色体库进行比对，并根据微小染色体特征稳定鉴定出组装基因组中的微小染色体。有助于进一步提高生物染色体基因组组装结果的准确性，为研究物种的起源于进化奠定基础。

发明内容

本发明目的在于提供了一种微小染色体组装鉴定装置与方法，可根据输入测序数据进行染色体水平的组装，并利用与构建的微小染色体库比对，结合微小染色体的特征，以实现对组装的基因组数据中存在的微小染色体序列鉴定的目的。

为了实现上述目的，根据本发明的第一个方面，提供了一种微小染色体组装鉴定装置，其包括：数据获取模块，被设置为基于样本获取基因测序数据；组装模块，被设置为将数据获取模块获取的基因测序数据组装成为染色体水平的序列；比对模块，被设置为将组装模块组装的染色体水平的序列与数据库模块中存储序列的数据进行比对，筛选获得候选微小染色体序列；数据库模块，存储已知的微小染色体序列数据；判定模块，被设置为根据微小染色体特征判定输入的候选微小染色体序列中最终的微小染色体；其中，上述候选微小染色体序列为与数据库中序列数据比对区域覆盖度大于30%的基因组序列；上述微小染色体特征为候选微小染色体序列的重复序列占比和基因密度。

进一步地，上述微小染色体特征为排除候选微小染色体序列中复序列占比大于70%且基因密度小于10的染色体。

进一步地，上述基因测序数据包括：HiFi测序数据、ONT ultra-long测序数据、Hi-C测序数据、ONT duplex测序数据、Pore-C测序数据、Strand-seq测序数据、Linked-reads测序数据、Nanopore测序数据、CLR 测序数据中任一种或多种的组合。

进一步地，上述基因测序数据包括：长读长测序数据和长距离测序数据；上述长读长测序数据包括：HiFi测序数据、ONT ultra-long测序数据、Hi-C测序数据、ONT duplex测序数据、Linked-reads测序数据、Nanopore测序数据、CLR 测序数据中任一种或多种的组合；上述长距离测序数据包括：Hi-C测序数据、Pore-C测序数据、Strand-seq测序数据中任一种或多种的组合。

进一步地，上述数据获取模块还包括：数据处理单元，其对获取的基因测序数据进行组装前的数据清洗。

进一步地，上述数据处理单元包括：数据过滤元件和/或数据纠错元件；上述数据过滤元件，被设置为根据一定特征，过滤数据获取模块所获取的基因测序数据；上述数据纠错元件，被设置为对输入测序数据进行纠错并输出纠错后数据。

进一步地，上述组装模块包括：初步组装单元和辅助组装单元；上述初步组装单元，被设置为对数据获取模块输出的测序数据进行基因组初步组装，获得基因组草图；上述辅助组装单元，位于上述初步组装单元下游，其被设置为使用数据获取模块输出的测序数据对上游初步组装的基因组草图进行辅助组装以获得染色体水平的长scaffolds序列及其定向。

进一步地，上述组装模块还包括：序列填补单元；上述序列填补单元位于上述辅助组装单元下游；上述序列填补单元被设置为其使用上述数据获取模块输出的测序数据对上游获得的调整后的染色体水平基因组进行补洞，得到最终的染色体水平的基因组序列。

进一步地，上述辅助组装单元还包括：调整元件；上述调整元件被设置为对挂载的染色体scaffold水平基因组进行纠错，获得调整后的染色体水平的基因组scaffold序列。

进一步地，上述比对模块还包括：注释单元；上述注释单元被设置为对候选微小染色体序列进行注释。

进一步地，上述装置还包括评估模块；上述评估模块被设置为将组装鉴定的微小染色体与现有已知的基因组数据进行共线性分析。

本发明有益效果：

应用本发明的技术方案，利用三代测序数据以及Hi-C测序数据等基因测序数据，进行染色体水平的基因组装，与构建的微小染色体库比对，并结合微小染色体的特征，可以实现微小染色体的鉴定。根据其处理并组装的基因组数据，鉴定输出的微小染色体可与已知报道的微小染色体基因组有良好的共线性。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解。构成本申请的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定，其中：

图1所示为据本发明一实施例的微小染色体组装鉴定装置的示意图。

图2所示为据本发明另一实施例的微小染色体组装鉴定装置的示意图。

图3所示为据本发明另一实施例的微小染色体组装鉴定装置的示意图。

图4所示为据本发明另一实施例的微小染色体组装鉴定装置的示意图。

图5所示为据本发明另一实施例的微小染色体组装鉴定装置的示意图。

图6所示为据本发明另一实施例的微小染色体组装鉴定装置的示意图。

图7所示为根据本发明实施例1所述的微小染色体组装鉴定方法流程图。

图8所示为根据本发明实施例的一种微小染色体组装鉴定的硬件结构框图。

图9所示为根据本发明实施例2所述的组装的基因组微染色体与以发表鸡（Huxu品种）基因组的微染色体共线性。

图10所示为根据本发明实施例2所述的组装的基因组点染色体与以发表鸡（Huxu品种）基因组的点染色体共线性。

具体实施方式

下面将结合实施例对本发明的方案进行解释。本领域技术人员将会理解，下面的实施例仅用于说明本发明，而不应视为限定本发明的范围。实施例中未注明具体技术或条件的，按照本领域内的文献所描述的技术或条件(例如参考J .萨姆布鲁克等著，黄培堂等译的《分子克隆实验指南》，第三版，科学出版社 )或者按照产品说明书进行。所用试剂或仪器未注明生产厂商者，均为可以通过市售购买获得的常规产品，例如可以采购自Illumina公司。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”仅用于区别类似的对象，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或是用于描述特定的顺序或先后次序。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征，应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

术语解释：

三代测序技术：指单分子实时测序技术。与前两代测序技术相比，其最大的特点就是单分子测序的测序过程无需进行PCR扩增，实现了对每一条DNA分子的单独测序。目前主要的第三代测序技术根据测序原理的不同可分成纳米孔电信号测序和单分子荧光信号测序。目前主要的第三代测序技术根据测序原理的不同可分成：牛津纳米孔公司(OxfordNanopore Technologies, ONT)的纳米孔单分子测序(Single-molecule Nanopore DNASequencing)技术和美国太平洋公司(Pacific Biosciences, PacBio)的单分子实时测序(Single Molecule Realtime, SMRT)技术。

纳米孔单分子测序(Single-molecule Nanopore DNA Sequencing)：纳米孔测序核心就是利用一个纳米孔，孔内共价结合有分子接头，将纳米孔蛋白固定在电阻膜上后，再利用动力蛋白牵引核酸穿过纳米孔。当核酸通过纳米孔时使电荷发生变化，从而引起电阻膜上电流的变化。由于纳米孔的直径非常细小，仅允许单个核酸聚合物通过，而ATCG单个碱基的带电性质不一样，因此不同碱基通过蛋白纳米孔时对电流产生的干扰不同，通过实时监测并解码这些电流信号便可确定碱基序列，从而实现测序。

单分子实时测序技术（SMRT）：目前三代测序技术中使用率较高的测序技术，其代表性平台有PacBio科技公司研发的各类产品。该平台测序原理与主要的测序流程包括：(1)将DNA模板与发夹接头序列连接形成闭合环状单链DNA模板作为测序单位用以建立SMRT模板库；(2)组装好的测序单位会加载到具有零模波导(Zero-mode waveguide, ZMW)的SMRT芯片单元上并与ZMW底部的DNA聚合酶结合进行测序；(3)测序反应时，聚合酶围绕SMRT模板工作，利用带有荧光的dNTP延长DNA片段；(4)在延长过程中，与模板碱基配对后的dNTPs荧光基团会被ZMW底部发射的激光激发捕获，同时配对碱基与游离碱基停留时间有所差异，以此来确定碱基信息。PacBio测序产品主要有RS Ⅱb、Sequel、Sequel Ⅱ和Revio测序平台，其中，Sequel Ⅱ平台提供高精度(circular consensus sequencing, CCS)和长读长(continuous long reads, CLR)两种测序模式以供选择，不同产品及其不同模式的读长、精确率、数据读取量等参数存在一定的差异，可适用不同应用场景。Revio测序平台，产生CCS数据，是目前较为新颖的一种测序平台。SMRT的测序平台能对GC重复区、碱基修饰区识别保持高精确率，还能完整检测基因亚型、新基因等，但其精准率受聚合酶有效工作时间影响较大，而通过增加测序次数能有效降低测序过程中的随机误差。

HiFi测序数据：PacBio公司的高保真长读长测序数据，Sequel II 三代测序平台推出的兼顾长读长和高准确度的测序序列，一般采用CCS模式测序。在这种测序模式下，酶读长一般大于插入片段长度，因此酶会绕着模板进行滚环测序，插入片段会被多次测序。单次测序中造成的随机测序错误，可以通过算法进行自我纠错校正，最终得到高准确度的HiFi reads。

ONT ultra-long测序数据：Oxford Nanopore公司的ultra long (ONT UL)测序数据，是Oxford Nanopore 测序平台独特的Ultra-long测序能够产生超长测序片段，轻松跨越基因组中大片段重复区域，能够显著提升物种基因组组装效果，填补基因组中gap的测序数据。

Hi-C测序数据：高通量染色体构象捕获技术获得的数据，即Hi-C技术(High-throughput/resolution

Chromosome Conformation Capture)源于染色体构象捕获(ChromosomeConformation Capture-3C)技术，以整个细胞核为研究对象，利用高通量测序技术，结合生物信息学方法，研究全基因组范围内整个染色体DNA的交互关系。Hi-C辅助组装即通过捕获染色体 DNA的交互关系，根据染色体内部互作频率显著高于染色体间互作频率，同时，在同一条染色体上互作频率随着互作距离的增加而减少的原理，将Scaffold或者Contig聚类到组群，并进一步对组群内的Contig/Scaffold进行排序及定向，实现趋近于染色体水平的基因组挂载。

ONT duplex测序数据：ONT开发双链测序技术，它可以对DNA片段的两条链进行测序。ONT双链测序数据在精度上接近PacBioHiFi，而且读长可以更长。

Reads：高通量测序平台产生的短序列，或者PacBio单分子实时测序(singlemolecule real time，SMRT，包括CLR和HIFI数据)，ONT（Oxford Nanopore Technologies）测序产生的长序列。

序列组装（Sequence Assembly）：就是把基因组长的序列打断(shotgunsequencing)，由于不知道基因组整条序列是如何排列（成一条链，最后成为一条染色体）组合（如何区分不同染色体）的，而现有测序技术又无法实现一次把整条长序列完整测序，通过算法，计算机的帮助，把这些短的序列组装起来成为一条完整有序的序列。常用的序列组装是指对新物种进行从头测序（Denovo Sequencing），然后用相应的拼接软件进行组装（即Denovo Assembly）。

T2T基因组：指通过ONTultra-longN50>100Kb(测序读长N50大于1000000，N50：N50是基因组拼接之后一个评价指标，将拼接得到的所有的序列，根据序列大小从大到小进行排序，然后逐步开始累加，当加和长度超过总长一半时，加入的序列长度即为N50长度。)结合HiFi和二代数据(高通量测序，如Illumina HiSeqTM/MiseqTM)进行混合组装，得到的有一条或者多条染色体达到端粒到端粒(Telomere-to-Telomere，T2T)的水平基因组，T2T基因组完成图是基因组组装的终极目标。

深度（Depth）：一般用1×、2×、3×等表示。测序得到的总碱基数与待测基因组大小的比值，即基因组中每个碱基被测到的平均次数，简而言之，测序的数据量比上参考基因组或者转录组的值。

覆盖度（Coverage）：测序获得的序列占整个基因组的比例，即基因组上至少被检测到一次的区域，占整个基因组的比例。一般用百分比表示。

contig：重叠群。它指的是一组通过末端的重叠序列相互连接形成连续的DNA长片段的短片段。这些片段在测序过程中最初得到的是拥有重叠区的contigs，它们可以被拼接起来构成一个个Contig。Contig的概念有助于将基因组测序过程中得到的许多短的序列片段链接成很长的连续片段，从而更好地理解和分析基因组结构。

scaffold：支架，是指由基因组测序产生的DNA短片段拼接而来的部分基因组序列。由重叠群和缺失序列组成。当至少有一个DNA片段测得的两端序列分别位于两个不同的重叠群上时，可确定重叠群的相对位置，重叠群之间可能存在缺失序列。

三代测序技术主要为PacBio公司的HiFi测序和Oxford Nanopore公司的ultralong (ONT UL)测序。HiFi测序数据精度高，可以进行复杂区域的组装，而ONT UL测序数据长度更长，可以进行基因组高度重复序列的组装。另外，高通量染色体构象捕获技术(Hi-0C)是一种用于研究基因组中染色体的三维结构的分子生物学技术，结合生物信息分析方法，可以研究全基因组范围内整个染色质在空间位置上的关系，从而辅助基因组进行染色体水平的组装。

正如背景技术中所述，在现有技术中，由于微小染色体序列相对保守，但大小较小，仅有几M左右；且相对于常染色体其结构复杂，GC含量，重复序列含量，甲基化水平以及H3K9me3组蛋白修饰水平更高，H3K36me3和H3K27me3组蛋白修饰水平更低，点染色体之间具有更强的空间互作，使得其组装鉴定一般较为困难。并且，在现有技术中，对于不同物种，在基因组数据组装过程中，微小染色体的鉴定没有明确的方法。

因而，本发明提供一种微小染色体组装鉴定装置，根据输入和/或获取的基因测序数据,特别是三代测序数据以及Hi-C数据，对基因数据进行染色体水平的组装，并通过与构建的微小染色体数据库进行比对，同时结合微小染色体的特征，稳定地鉴定输出微小染色体。

因此，如图1-6所示，在本发明的一方面提供，一种微小染色体组装鉴定装置，其包括:数据获取模块01，被设置为基于样本获取基因测序数据；组装模块02，被设置为将数据获取模块获取的基因测序数据组装成为染色体水平的序列；比对模块03，被设置为将组装模块组装的染色体水平的序列与数据库模块中存储序列的数据进行比对，筛选获得候选微小染色体序列；数据库模块04，存储已知的微小染色体序列数据；判定模块05，被设置为根据微小染色体特征判定输入的候选微小染色体序列中最终的微小染色体。

上述微小染色体特征为候选微小染色体序列中重复序列占比和基因密度。更具体地，上述微小染色体特征为排除候选微小染色体序列中复序列占比大于70%且基因密度小于10的染色体。

上述数据获取模块基于样本获取基因测序数据，包括但不限于基于核酸样本进行测序文库构建，测序以获得所述样本的测序数据。还包括，通过计算机模拟、网络下载、存储介质传递以及人工导入等方式获取基于样本的基因测序数据。

在一具体实施方式中，上述基因测序数据包括：HiFi测序数据、ONT ultra-long测序数据、Hi-C测序数据、ONT duplex测序数据、Pore-C测序数据、Strand-seq测序数据、Linked-reads测序数据、Nanopore测序数据、CLR 测序数据中任一种或多种的组合。

在一具体实施方式中，上述基因测序数据包括：长读长测序数据和长距离测序数据。

在一具体实施方式中，上述长读长测序数据包括：HiFi测序数据、ONT ultra-long测序数据、Hi-C测序数据、ONT duplex测序数据、Linked-reads测序数据、Nanopore测序数据、CLR 测序数据中任一种或多种的组合。

在一具体实施方式中，上述长距离测序数据包括：Hi-C测序数据、Pore-C测序数据、Strand-seq测序数据中任一种或多种的组合。

在一具体实施方式中，上述基因测序数据包括下述任一种或多种的组合：HiFi测序数据、ONT ultra-long测序数据和Hi-C测序数据的组合；HiFi测序数据、ONT ultra-long测序数据和 Pore-C测序数据的组合；HiFi测序数据、 ONT ultra-long测序数据和Strand-seq测序数据的组合；ONT duplex测序数据、ONT ultra-long测序数据和Hi-C测序数据的组合；ONT duplex测序数据、ONT ultra-long测序数据和 Pore-C测序数据的组合；ONT duplex测序数据、ONT ultra-long测序数据和 Strand-seq测序数据的组合Nanopore测序数据、ONT ultra-long测序数据和Hi-C测序数据的组合；Nanopore测序数据、ONTultra-long测序数据和 Pore-C测序数据的组合；Nanopore测序数据、ONT ultra-long测序数据和 Strand-seq测序数据的组合。

在一具体实施方式中，上述基因测序数据为HiFi测序数据、ONT ultra-long测序数据和Hi-C测序数据的组合。

上述数据获取模块还包括：数据处理单元011，其对获取的基因测序数据进行组装前的数据清洗。

在一具体实施方式中，上述数据处理单元包括：数据过滤元件0111，被设置为根据一定特征，过滤数据获取模块所获取的基因测序数据。例如，根据序列长度、序列冗余、序列数据质量、线粒体序列、叶绿体序列数据等过滤数据获取模块所获取的基因测序数据。具体地，例如，根据序列长度过滤数据获取模块所获取ONT ultra-long测序数据获得过滤后ONTultra-long测序数据。

上述数据处理单元还包括：数据纠错元件0112，被设置为对输入测序数据进行纠错并输出纠错后数据。具体地，可对上述过滤所得测序数据进行纠错，输出纠错后测序数据。更具体地，可对过滤后ONT ultra-long测序数据进行纠错，并输出纠错后ONT ultra-long测序数据。

在本发明一优选实施例中，上述数据过滤元件为filtlong元件。

在一具体实施方式中，上述数据纠错元件包括：Necat元件和/或NextDenovo元件。

上述组装模块包括：初步组装单元021，被设置为对数据获取模块输出的测序数据进行基因组初步组装，获得基因组草图。具体地，上述测序数据为长读长测序数据。更进一步，上述长读长测序数据包括：HiFi测序数据、过滤后的ONT ultra-long测序数据和ONTduplex测序数据中的任一种或多种的组合。优选地，上述长读长测序数据包括：HiFi测序数据或ONT ultra-long测序数据中的任一种或多种的组合。

在一具体实施方式中，上述初步组装单元选自：Hifiasm单元、Verkko单元、Canu单元、Flye单元、Necat单元和NextDenovo单元中的任意一种或多种的组合。优选地，上述初步组装单元选自：Hifiasm单元、Verkko单元中任一种或两种的组合。在本发明一优选实施例中，上述初步组装单元为Hifiasm单元。

上述组装模块还包括：辅助组装单元022，其位于上述初步组装单元下游；其被设置为使用数据获取模块输出的测序数据对上游初步组装的基因组草图进行辅助组装以获得染色体水平的长scaffolds序列及其定向。具体地，上述测序数据为长距离测序数据。更进一步，上述长距离测序数据包括Hi-C测序数据、Pore-C测序数据、Strand-seq测序数据中的任一种或多种的组合。在本发明一优选实施例中，上述长距离测序数据为Hi-C测序数据。更具体地，上述辅助组装为使用Hi-C数据对初步组装的基因组草图进行挂载。

在一具体实施方式中，上述辅助组装单元包括：Yahs单元、Lachesis单元、3D-DNA单元Allhic单元、SALSA2单元和Haphic单元中的任一种或多种的组合。进一步，上述辅助组装单元还包括：Chromap单元、Bwa单元、Hic-Pro单元中的任一中或多种的组合。

在本发明一优选实施例中，上述辅助组装单元包括：Chromap单元和Yahs单元。其中Chromap单元被设置通过比对基因组草图和Hi-C数据，计算contig间互作信号，对contig进行聚类排序以及定相。Yahs单元，基于contig互作强度与位置关系，利用Hi-C测序数据对基因组草图进行挂载，获得挂载的染色体scaffold水平基因组序列。

上述辅助组装单元还包括：调整元件0221，被设置为对挂载的染色体scaffold水平基因组进行纠错，获得调整后的染色体水平的基因组scaffold序列。

在一具体实施方式中，上述调整元件为Juice-box元件。使用Juice-box元件对挂载的基因组进行可视化纠错。

上述组装模块还包括：序列填补单元023，其位于上述辅助组装单元下游；其被设置为其使用上述数据获取模块输出的测序数据对上游获得的调整后的染色体水平基因组进行补洞，得到最终的染色体水平的基因组序列。具体地，上述测序数据为长读长测序数据。更进一步，上述长读长测序数据包括：HiFi测序数据、过滤后的ONT ultra-long测序数据和ONT duplex测序数据中的任一种或多种的组合。优选地，上述长读长测序数据包括：HiFi测序数据或ONT ultra-long测序数据中的任一种或多种的组合。

在一具体实施方式中，上述序列填补单元包括：LR_Gapcloser单元、TgsgapCloser单元和quarTeT单元中的任一种或多种的组合。在一优选实施例中，上述上述序列填补单元为quarTeT单元。

在一具体实施方式中，上述比对模块包括：Minimap2模块和/或DotPlotly模块。

在一具体实施方式中，上述候选微小染色体序列为比对区域覆盖度大于30%的基因组序列。

上述比对模块还包括，注释单元031，其被设置为对候选微小染色体序列进行注释。

在一具体实施方式中，上述注释单元，被设置为对候选微小染色体序列进行重复序列注释，统计重复序列占比，并对候选微小染色体序列进行mask（mask是指把序列中重复序列对应的位置替换成N的操作，有利于下游数据分析识别）。

在一优选实施例中，上述注释单元包括：RepeatMasker单元和RepeatModeler单元，其被设置为对候选微小染色体序列进行重复序列注释，统计重复序列占比。

在一优选实施例中，上述注释单元还包括Geta单元，其被设置为对mask的候选微小染色体序列进行基因集注释，统计基因密度。

上述数据库模块，可以通过计算机模拟、网络下载、存储介质传递以及人工导入等方式收录已知微小染色体序列。同时也可将上述微染色体组装鉴定装置鉴定所得微小染色体数据，迭代更新到数据库中。

本发明的装置，还包括评估模块06，其被设置为将组装鉴定的微小染色体与现有一直的基因组数据进行共线性分析。

在本发明的一方面提供一种微小染色体组装鉴定的方法，其包括：将第一测序数据和/或第二测序数据进行初步组装，获得初步组装基因组出草图；使用第三测序数据对上述基因组草图进行挂载，得到挂载的基因组序列；对挂载后的基因序列组进行纠错调整，得到调整后的染色体水平的基因组scaffold序列；使用第一测序数据和/或第二测序数据对调整后的染色体水平的基因组scaffold序列进行补洞，得到最终的染色体水平的基因组序列；使用最终的染色体水平的基因组序列与微小染色体数据库内序列进行比对，筛选候选的微小染色体；对候选微小染色体序列进行注释；根据微小染色体的特征，筛选候选的微小染色体种最终的微小染色体。

其中，上述第一测序数据、第二测序数据均为长读长测序数据。上述的长读长测序数据一般是指读长连续达10kb以上的测序数据。在现有技术中通常为来自太平洋生物科学公司（PacBio）和牛津纳米孔技术公司（ONT）的测序技术读取数据。具体地，上述的长读长测序数据包括：Linked-reads测序数据、Nanopore测序数据、CLR测序数据、HiFi测序数据、ONT ultra-long测序数据、ONT duplex测序数据中的一种或多种。其中，HiFi测序数据因为碱基准确度高，相比其他测序数据有明显优势，为长度10-20kb的高保真度（HiFi）读取数据，错误率低于0.5%，目前是是高质量组装的核心数据类型。ONT ultra-long测序数据超长读取，其长度可以为≥100kb，有助于解决HiFi读取无法组装的剩余重复序列。

在一具体实施方式中，上述第一测序数据包括Linked-reads测序数据、Nanopore测序数据、CLR测序数据、HiFi测序数据、ONT duplex测序数据中的任一种或多种的组合。优选地，上述第一测序数据为HiFi测序数据、ONT duplex测序数据中的任一种或多种的组合。更优选地，上述第一测序数据为HiFi测序数据。

在一具体实施方式中，上述第二测序数据为ONT ultra-long测序数据。因此，在本发明一种优选的实施例中，采用HiFi测序数据作为第一测序数据，采用ONT ultra-long测序数据作为第二测序数据，能够精确地组装测初步的基因组草图，并覆盖更大范围。

此外，利用上述第一测序数据和第二测序数据进行初步组装，获得初步组装基因组出草图的软件有很多种，包括Hifiasm、Verkko、Canu、Flye、Necat和NextDenovo等。在本发明一种优选的实施例中，使用了Hifiasm将第一测序数据和第二测序数据进行初步组装，获得初步组装基因组出草图。

上述第三测序数据为长距离测序数据。这里所述的长距离测序数据是指能提供染色体水平long- scaffolds和相位信息的测序数据。具体地，上述长距离测序数据包括Hi-C测序数据、Pore-C测序数据、Strand-seq测序数据中的任一种或多种的组合。

在一具体实施方式中，上述第三测序数据包括Hi-C测序数据、Pore-C测序数据、Strand-seq测序数据中任一种或多种的组合。优选地，上述第三测序数据为Hi-C测序数据、Pore-C测序数据中任一种或多种的组合。更优选地，上述第三测序数据为Hi-C测序数据。

在一具体实施方式中，上述对基因组草图进行挂载，进一步包括：使用第三测序数据与基因组草图数据进行比对，计算 contig间互作信号，对contig进行聚类排序以及定相；基于contig互作强度与位置关系，对基因组草图进行挂载，获得挂载的基因组。其中，用第三测序数据与基因组草图数据进行比对和挂载的软件有许多种。例如，上述比对软件包括：Chromap、Bwa、Hic-Pro中的任一中或多种的组合。例如，上述挂载软件包括：Yahs、Lachesis、3D-DNA、Allhic、SALSA2和Haphic中的任一种或多种的组合。

本发明的优选实施例中采用来了Chromap和yahs套件。

上述对挂载后的基因组进行纠错调整，在本发明一优选实施例中采用的是Juice-box，得到调整后的染色体水平的基因组scaffold序列。其中 Juice-box，是一款Hi-C挂载后可视化纠错软件。

上述补洞即为填空白序列填补。其可采用多种软件进行，包括：quarTet、LR_Gapcloser和TgsgapCloser中的任一种或多种的组合。本发明的优选实施例中采用来了quarTet，使用第一测序数据和第二测序数据对调整后的染色体水平的基因组scaffold序列进行补洞，得到最终的染色体水平的基因组序列。

上述使用最终的染色体水平的基因组序列与微小染色体数据库内序列进行比对的软件包括：：Minimap2和/或DotPlotly。

上述候选微小染色体是指最终的染色体水平的基因组序列与微小染色体库进行比对，筛选比对区域覆盖度大于30%的基因组序列。

上述对候选微小染色体序列进行注释，进一步包括：对候选微小染色体序列进行重复序列注释，并统计重复序列占比；对候选微小染色体序列进行mask；对候选染色体进行序列进行基因集注释，并统计基因密度。

对候选微小染色体序列进行注释的软件包括：RepeatMasker、RepeatModeler和geta。本发明的优选实施例中采用RepeatMasker和RepeatModeler，对候选微小染色体序列进行重复序列注释，并统计重复序列占比；对候选微小染色体序列进行mask。采用geta对候选染色体进行序列进行基因集注释，并统计基因密度。上述根据微小染色体的特征，包括重复序列占比以及基因密度。进一步，上述根据微小染色体的特征排除候选微小染色序列中重复序列占比于70%且基因密度（每Mb序列的基因个数）小于10的染色体序列。

上述方法还包括，对第一测序数据、第二测序数据以及第三测序数据进行获取的步骤。对上述三种测序数据的获取方法，包括但不限于基于样本核酸，构建测序文库并上级测序获得测序数据；通过通过计算机模拟、网络下载、存储介质传递以及人工导入等方式获取基因测序数据。

上述方法还包括，对第一测序数据、第二测序数据以及第三测序数据进行预处理。上述的预处理包括：长度过滤、冗余去除、低质量数据去除、线粒体序列去除、叶绿体序列去除、测序数据纠错、数据质控等。具体地，上述预处理包括对第二测序数据进行长度过滤。更具体地，述预处理还包括对过滤后的第二测序数据进行测序数据纠错，获得纠错后的第二测序数据。上述长度过滤软件包括filtlong。上述测序数据纠错可采用多种软件，包括：Necat和/或NextDenovo。

在本发明的一优选实施方式中，上述长度过滤采用filtlong。优选地，上述长度过滤参数为最短长度80kb，平均Q值为9。

在本发明的一优选实施方式中，上述测序数据纠错采用Necat。

上述的微小染色体数据库，为包含了现有已报道的微小染色体数据。

上述微小染色体数据库，可以通过计算机模拟、网络下载、存储介质传递以及人工导入等方式收录已知微小染色体序列。同时也可将上述微染色体组装鉴定装置鉴定所得微小染色体数据，迭代更新到数据库中。

正如背景技术中所记载，微小染色体在鸟类等动物中高度保守，这使得构建微小染色体数据库，用以鉴定不同样本甚至物种组装的基因组中的微小染色体成为可能。本方案依赖三代测序数据，采用高级别的基因组装策略，提高了染色体水平基因组组装的完整性。并通过与构建的微小染色体数据库进行比对，引入重复序列占比及基因密度作为判定特征，可稳定的组装并鉴定出样本中的微小染色体序列。

因此，在本发明的一方面提供一种计算机可读存储介质，该存储介质包括存储的程序，其中，在上述程序运行时控制上述存储介质所在设备执行上述的微小染色体组装鉴定方法。

因此，在本发明的一方面提供一种处理器，上述处理器用于运行程序，其中，上述程序运行时执行上述的微小染色体组装鉴定方法。

因此，在本发明的一方面提供一种本发明方法和/或装置，在基因数据分析领域的应用。

本申请所提供的方法可以在终端、计算机终端或者类似的运算装置中执行。以运行在终端上为例，图8是本发明实施例的一种微小染色体组装鉴定方法的硬件结构框图。如图8所示，终端可以包括一个或多个（图8中仅示出一个）处理器A1（处理器A1可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置）和用于存储数据的存储器B1，可选地，上述终端还可以包括用于通信功能的传输设备C1以及输入输出设备D1。本领域普通技术人员可以理解，图8所示的结构仅为示意，其并不对上述终端的结构造成限定。例如，终端还可包括比图8中所示更多或者更少的组件，或者具有与图8所示不同的配置。

存储器B1可用于存储计算机程序，例如，应用软件的程序以及模块，如本发明实施例中的过滤、纠错、初步组装、挂载、补洞、比对、注释等方法对应的计算机程序，处理器A1通过运行存储在存储器B1内的计算机程序，从而执行各种功能应用以及数据处理，即实现上述的方法。存储器B1可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器B1可进一步包括相对于处理器A1远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输设备C1用于经由一个网络接收或者发送数据。上述的网络具体实例可包括终端的通信供应商提供的无线网络。在一个实例中，传输设备C1包括一个网络适配器（Network Interface Controller，简称为NIC），其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输设备C1可以为射频（Radio Frequency，简称为RF）模块，其用于通过无线方式与互联网进行通讯。

显然，本领域的技术人员应该明白，上述的本申请的部分模块或步骤可以在通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本申请不限制于任何特定的硬件和软件结合。

实施例1

以下给出实施例，对本发明进行更具体的说明，但本发明不限于这些实施例。

对于家鸡（Huxu品种）的基因测序数据进行全部染色体组装（包含微小染色体）并进行微小染色体的鉴定（参见图7）。

本实施例直接采用从美国国立生物技术信息中心（NCBI）下载三代52×HiFi测序数据、80×ONT ultra-long测序数据以及Hi-C数据（NCBI：PRJNA693184）作为原始测序下机数据，输入到微小染色体组装鉴定装置。

本实施例直接采用美国国立生物技术信息中心（NCBI）下载的已发表的鸡、鸸鹋、文昌鱼、长嘴鸭的微小染色体数据输入数据库模块04中存储构建微小染色体数据库。

具体来说：

1、将HiFi测序数据、ONT ultra-long测序数据、Hi-C数据导入上述装置的数据获取模块01中。

2、在数据获取模块01中，还包括数据处理单元011，使用其中的数据过滤元件0111对上游输入的测序数据进行过滤。具体为，使用filtlong软件（https://github.com/rrwick/Filtlong）对上游输入的ONT ultra-long测序数据进行长度过滤，其过滤参数设置为（--min_length 80000 --min_mean_q 9 ），即最短长度80kb，平均Q值（质量）为9。

3、在数据处理单元011中，使用测序数据过滤元件0111下游的数据纠错元件0112，对过滤所得测序数据进行纠错。具体为，使用Necat软件（https://github .com/xiaochuanle/NECAT）对过滤后的ONT ultra-long测序数据进行纠错，得到纠错后的ONTultra-long数据。

4、在数据获取模块01下游还包括组装模块02，在其中的初步组装单元021，对输入的测序数据进行初步的组装。具体为，利用Hifiasm软件（https://github .com/chhylp123/Hifiasm），对上游输入的HiFi测序数据以及纠错后的ONT ultra-long数据进行初步组装，获得基因组草图。(Hifiasm软件可替换为Verkko软件，美国国立卫生研究院(National Institutes of Health)的研究人员开发并发布了一种创新的软件工具，用于组装来自各种物种的真正完整(即无间隙)基因组序列。)

5、在组装模块02中，初步组装单元021下游还包括辅助组装单元022，其使用长距离测序数据或其他测序数据对上游初步组装的基因组进行辅助组装以获得染色体水平的长scaffolds及其定向。具体为，使用Hi-C数据对基因组草图进行挂载。更具体地，使用Chromap软件比对过滤后的基因组草图与Hi-C数据，并计算contig间互作信号，对contig进行聚类排序以及定相；基于contig互作强度与位置关系，使用yahs软件进行挂载，获得挂载的基因组。（挂载，就是利用三维情况下Hi-C互做，指导二维基因组组装的一种应用）。

6、使用辅助组装单元022中的调整元件0221，对挂载的基因组进行纠错，获得调整后的染色体水平的基因组scaffold序列。具体为，使用Juice-box软件对挂载的基因组进行可视化纠错，得到调整后的染色体水平的基因组序列。

7、在组装模块02中，辅助组装单元022下游还包括，序列填补单元023，其使用01输出的HiFi数据以及ONT ultra-long数据对上游获得的调整后的染色体水平基因组进行补洞（即空白序列填补），获得最终的染色体水平的基因组。具体为，使用quarTet软件，利用HiFi以及ONT数据对挂载的调整后的染色体水平的基因组（scaffold）序列进行补洞，得到最终的染色体水平的基因组（包含微小染色体）序列。

8、在组装模块02下游还包括比对模块03，对上游所得最终的染色体水平的基因组（包含微小染色体）序列与数据库模块04存储的微小染色体数据进行比对，筛选出候选的微小染色体。具体为，使用Minimap2将得到最终的染色体水平的基因组（包含微小染色体）序列与微小染色体库进行比对，筛选比对区域覆盖度大于30%的基因组序列为候选微小染色体序列。

9、在比对模块03中，还包括注释单元031，其对候选微小染色体序列进行注释。具体为，使用RepeatMasker软件和RepeatModeler软件对候选微小染色体序列进行重复序列注释，统计重复序列占比，并对候选微小染色体序列进行mask。其后，使用geta对mask的候选微小染色体序列进行基因集注释，统计基因密度。

10、在比对模块03下游还包括判定模块05，其根据输入的微小染色体特征判定输出最终鉴定的微小染色体。具体为，根据重复序列占比以及基因集密度统计，将候选微小染色体序列中重复序列注释比例大于70%且基因密度（每Mb序列的基因个数）小于10的染色体丢弃，得到过滤后的微小染色体为最终鉴定所得的微小染色体。

实施例2

使用实施例1中组装鉴定所得的微小染色体与鸡已发表的基因组数据（NCBI：PRJNA693184）（作为阳性样本）进行共线性分析验证，结果如图8-9所示。可以看出本方案组装鉴定所得微小染色体跟文章中的基因组共线性一致。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种微小染色体组装鉴定装置，其特征在于，包括：数据获取模块，被设置为基于样本获取基因测序数据；组装模块，被设置为将数据获取模块获取的基因测序数据组装成为染色体水平的序列；比对模块，被设置为将组装模块组装的染色体水平的序列与数据库模块中存储序列的数据进行比对，筛选获得候选微小染色体序列；数据库模块，存储已知的微小染色体序列数据；判定模块，被设置为根据微小染色体特征判定输入的候选微小染色体序列中最终的微小染色体；其中，所述候选微小染色体序列为与数据库中序列数据比对区域覆盖度大于30%的基因组序列；所述微小染色体特征为候选微小染色体序列的重复序列占比和基因密度。

2.根据权利要求1所述的装置，其特征在于，所述微小染色体特征为排除候选微小染色体序列中复序列占比大于70%且基因密度小于10的染色体。

3.根据权利要求1所述的装置，其特征在于，所述基因测序数据包括：HiFi测序数据、ONT ultra-long测序数据、Hi-C测序数据、ONT duplex测序数据、Pore-C测序数据、Strand-seq测序数据、Linked-reads测序数据、Nanopore测序数据、CLR 测序数据中任一种或多种的组合。

4.根据权利要求3所述的装置，其特征在于，所述基因测序数据包括：长读长测序数据和长距离测序数据；所述长读长测序数据包括：HiFi测序数据、ONT ultra-long测序数据、Hi-C测序数据、ONT duplex测序数据、Linked-reads测序数据、Nanopore测序数据、CLR 测序数据中任一种或多种的组合；所述长距离测序数据包括：Hi-C测序数据、Pore-C测序数据、Strand-seq测序数据中任一种或多种的组合。

5.根据权利要求1所述的装置，其特征在于，所述数据获取模块还包括：数据处理单元，其对获取的基因测序数据进行组装前的数据清洗。

6.根据权利要求5所述的装置，其特征在于，所述数据处理单元包括：数据过滤元件和/或数据纠错元件；所述数据过滤元件，被设置为根据一定特征，过滤数据获取模块所获取的基因测序数据；所述数据纠错元件，被设置为对输入测序数据进行纠错并输出纠错后数据。

7.根据权利要求1所述的装置，其特征在于，所述组装模块包括：初步组装单元和辅助组装单元；所述初步组装单元，被设置为对数据获取模块输出的测序数据进行基因组初步组装，获得基因组草图；所述辅助组装单元，位于上述初步组装单元下游，其被设置为使用数据获取模块输出的测序数据对上游初步组装的基因组草图进行辅助组装以获得染色体水平的长scaffolds序列及其定向。

8.根据权利要求7所述的装置，其特征在于，所述组装模块还包括：序列填补单元；所述序列填补单元位于上述辅助组装单元下游；所述序列填补单元被设置为其使用上述数据获取模块输出的测序数据对上游获得的调整后的染色体水平基因组进行补洞，得到最终的染色体水平的基因组序列。

9.根据权利要求7或8所述的装置，其特征在于，所述辅助组装单元还包括：调整元件；所述调整元件被设置为对挂载的染色体scaffold水平基因组进行纠错，获得调整后的染色体水平的基因组scaffold序列。

10.根据权利要求1所述的装置，其特征在于，所述比对模块还包括：注释单元；所述被设置为对候选微小染色体序列进行注释。