[go: up one dir, main page]

CN103824001A - 染色体的检测方法和装置 - Google Patents

染色体的检测方法和装置 Download PDF

Info

Publication number
CN103824001A
CN103824001A CN201410069562.1A CN201410069562A CN103824001A CN 103824001 A CN103824001 A CN 103824001A CN 201410069562 A CN201410069562 A CN 201410069562A CN 103824001 A CN103824001 A CN 103824001A
Authority
CN
China
Prior art keywords
subsequence
sequencing sequence
checking
order
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410069562.1A
Other languages
English (en)
Inventor
阮航
潘凯
王海龙
李瑞强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nuo Hezhi Source Beijing Bioinformation Science And Technology Ltd
Original Assignee
Nuo Hezhi Source Beijing Bioinformation Science And Technology Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nuo Hezhi Source Beijing Bioinformation Science And Technology Ltd filed Critical Nuo Hezhi Source Beijing Bioinformation Science And Technology Ltd
Priority to CN201410069562.1A priority Critical patent/CN103824001A/zh
Publication of CN103824001A publication Critical patent/CN103824001A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种染色体的检测方法和装置。其中,染色体的检测方法包括:接收步骤:接收参考序列和多个测序序列;分割步骤:以n1碱基为步长将每个测序序列均分割为定长为n2碱基的多个测序子序列,并以n3碱基为步长将参考序列分割为定长为n2碱基的多个参考子序列;比较步骤:将每个测序序列的多个测序子序列与参考序列的多个参考子序列相比较,确定出目标测序序列;以及确定步骤:根据目标测序序列的多个测序子序列与参考序列的多个参考子序列的对应关系,确定出目标测序序列对应的染色体名称。通过本发明,解决了现有技术中染色体检测的速度较慢的问题,进而达到了减少时间开支、提高检测速度的效果。

Description

染色体的检测方法和装置
技术领域
本发明涉及基因工程领域,具体而言,涉及一种染色体的检测方法和装置。
背景技术
对于母体外周血浆中存在的胎儿游离DNA,目前最为通用的检测方法是基于第二代高通量测序技术,首先对孕妇取少量外周血液,提取外周血中的游离DNA,然后一般是多样本混合建库,单端50碱基序列长度测序,将测序数据根据不同的样本标记(barcode)进行数据分离到每个样本,再将每个样本数据质控后通过第三方的短序列比对软件(如soapAligner或bwa)和人的参考基因组进行比对,得出测序数据在目标染色体的覆盖深度,也就是染色体剂量(chromosome dosage),然后通过染色体剂量判断样本是阳性样本还是阴性样本。
由于基于第二代高通量测序技术的得到测序数据量是非常巨大的,对于上述检测胎儿染色体倍型异常的技术来说,每个样本需要测量约300M碱基的数据量。在样本数越来越多的情况下,对该检测技术的生物信息分析方法的速度要求就会日益明显。但是现有的检测方式中,原始的测序数据产出后需依次经过样本分离,数据比对和数据比对结果分析统计才能得到检测结果,其中,不仅每一个步骤需要采用相对独立的软件进行处理,并且每一个步骤还需要读取上一个步骤的输出结果作为输入,这些反复的输入输出耗费了大量额外时间,并极大的消耗系统的I/O(输入输出)性能和磁盘空间。同时,对于数据比对确定染色体,需要通过复杂的计算方式进行,系统的处理速度非常慢,进一步导致检测周期较长、效率低下。
针对相关技术中染色体检测的速度较慢的问题,目前尚未提出有效的解决方案。
发明内容
本发明的主要目的在于提供一种染色体的检测方法和装置,以解决现有技术中染色体检测的速度较慢的问题。
为了实现上述目的,根据本发明的一个方面,提供了一种染色体的检测方法。
根据本发明的染色体的检测方法包括:接收步骤:接收参考序列和多个测序序列;分割步骤:以n1碱基为步长将每个测序序列均分割为定长为n2碱基的多个测序子序列,并以n3碱基为步长将参考序列分割为定长为n2碱基的多个参考子序列,其中,n1、n2和n3均为正整数,并且n1≤n3;比较步骤:将每个测序序列的多个测序子序列与参考序列的多个参考子序列相比较,确定出目标测序序列,其中,目标测序序列的多个测序子序列均包含在参考序列的多个参考子序列中;以及确定步骤:根据目标测序序列的多个测序子序列与参考序列的多个参考子序列的对应关系,确定出目标测序序列对应的染色体名称,其中,参考序列和参考序列的每个参考子序列均具有对应的染色体名称。
进一步地,多个测序序列为来自多个待检测样本的测序序列,并且每个测序序列均具有样本标识,检测方法还包括:以多进程方式执行分割步骤、比较步骤和确定步骤。
进一步地,目标测序序列的数量为多个,在将每个测序序列的多个测序子序列与参考序列的多个参考子序列相比较,确定出目标测序序列之后,并且在根据目标测序序列的多个测序子序列与参考序列的多个参考子序列的对应关系,确定出目标测序序列对应的染色体名称之前,检测方法还包括:查找与每个目标测序序列Ci的每个测序子序列Cij具有相同碱基的参考子序列,其中,i依次取1至imax,j依次取jmax,imax为目标测序序列的数量;jmax为目标测序序列Ci的测序子序列的数量;确定与测序子序列Cij具有相同碱基的参考子序列的染色体名称为测序子序列Cij的染色体名称;判断多个目标测序序列中的第一测序序列Ci′的每个测序子序列Ci′j的染色体名称是否均相同,其中,i′∈(1,imax);以及在判断出多个目标测序序列中的第一测序序列Ci′的每个测序子序列Ci′j的染色体名称不均相同的情况下,从多个目标测序序列中过滤掉第一测序序列Ci′
进一步地,通过以下方式确定目标测序序列对应的染色体名称:查找与第二测序序列Ci′′的任一测序子序列Ci′′j′具有相同碱基的参考子序列,其中,第二测序序列Ci′′为过滤掉第一测序序列Ci′的任一目标测序序列,i′′∈(1,imax),j′∈(1,j′max),j′max为第二测序序列Ci′′的测序子序列的数量,并且i′′≠i′;以及确定与测序子序列Ci′′j′具有相同碱基的参考子序列的染色体名称为第二测序序列Ci′′的染色体名称。
进一步地,在以n3碱基为步长将参考序列分割为定长为n2碱基的多个参考子序列之后,检测方法还包括:将参考序列的多个参考子序列存储至共享内存中,其中,将每个测序序列的多个测序子序列与共享内存中的参考序列的多个参考子序列相比较,确定出目标测序序列,并根据目标测序序列的多个测序子序列与共享内存中的参考序列的多个参考子序列的对应关系,确定出目标测序序列对应的染色体名称。
进一步地,在以n3碱基为步长将参考序列分割为定长为n2碱基的多个参考子序列之后,检测方法还包括:删除参考序列的多个参考子序列中的重复子序列和/或第一子序列,其中,第一子序列为包括N碱基的子序列,其中,将每个测序序列的多个测序子序列与参考序列的多个参考子序列相比较,确定出目标测序序列包括:将每个测序序列的多个测序子序列与参考序列的目标参考子序列相比较,确定出目标测序序列,其中,目标参考子序列为删除重复子序列和/或第一子序列后的多个参考子序列。
根据本发明的另一方面,提供了一种染色体的检测装置,该检测装置主要用于执行本发明上述内容所提供的任一种染色体的检测方法。
根据本发明的另一方面,提供了一种染色体的检测装置,包括:接收单元,用于接收参考序列和多个测序序列;分割单元,用于以n1碱基为步长将每个测序序列均分割为定长为n2碱基的多个测序子序列,并以n3碱基为步长将参考序列分割为定长为n2碱基的多个参考子序列,其中,n1、n2和n3均为正整数,并且n1≤n3;比较单元,用于将每个测序序列的多个测序子序列与参考序列的多个参考子序列相比较,确定出目标测序序列,其中,目标测序序列的多个测序子序列均包含在参考序列的多个参考子序列中;以及第一确定单元,用于根据目标测序序列的多个测序子序列与参考序列的多个参考子序列的对应关系,确定出目标测序序列对应的染色体名称,其中,参考序列和参考序列的每个参考子序列均具有对应的染色体名称。
进一步地,多个测序序列为来自多个待检测样本的测序序列,并且每个测序序列均具有样本标识,分割单元、比较单元和第一确定单元的数量均为多个。
进一步地,目标测序序列的数量为多个,检测装置还包括:查找单元,用于查找与每个目标测序序列Ci的每个测序子序列Cij具有相同碱基的参考子序列,其中,i依次取1至imax,j依次取jmax,imax为目标测序序列的数量;jmax为目标测序序列Ci的测序子序列的数量;第二确定单元,用于确定与测序子序列Cij具有相同碱基的参考子序列的染色体名称为测序子序列Cij的染色体名称;判断单元,用于判断多个目标测序序列中的第一测序序列Ci′的每个测序子序列Ci′j的染色体名称是否均相同,其中,i′∈(1,imax);以及过滤单元,用于在判断出多个目标测序序列中的第一测序序列Ci′的每个测序子序列Ci′j的染色体名称不均相同的情况下,从多个目标测序序列中过滤掉第一测序序列Ci′
进一步地,第一确定单元包括:查找模块,用于查找与第二测序序列Ci′′的任一测序子序列Ci′′j′具有相同碱基的参考子序列,其中,第二测序序列Ci′′为过滤掉第一测序序列Ci′的任一目标测序序列,i′′∈(1,imax),j′∈(1,j′max),j′max为第二测序序列Ci′′的测序子序列的数量,并且i′′≠i′;以及确定模块,用于确定与测序子序列Ci′′j′具有相同碱基的参考子序列的染色体名称为第二测序序列Ci′′的染色体名称。
进一步地,检测装置还包括:存储单元,用于将参考序列的多个参考子序列存储至共享内存中,其中,比较单元用于将每个测序序列的多个测序子序列与共享内存中的参考序列的多个参考子序列相比较,确定出目标测序序列,第一确定单元用于根据目标测序序列的多个测序子序列与共享内存中的参考序列的多个参考子序列的对应关系,确定出目标测序序列对应的染色体名称。
进一步地,检测装置还包括:删除单元,用于删除参考序列的多个参考子序列中的重复子序列和/或第一子序列,其中,第一子序列为包括N碱基的子序列,其中,比较单元用于将每个测序序列的多个测序子序列与参考序列的目标参考子序列相比较,确定出目标测序序列,其中,目标参考子序列为删除重复子序列和/或第一子序列后的多个参考子序列。
本发明采用接收步骤:接收参考序列和多个测序序列;分割步骤:以n1碱基为步长将每个测序序列均分割为定长为n2碱基的多个测序子序列,并以n3碱基为步长将参考序列分割为定长为n2碱基的多个参考子序列,其中,n1、n2和n3均为正整数,并且n1≤n3;比较步骤:将每个测序序列的多个测序子序列与参考序列的多个参考子序列相比较,确定出目标测序序列,其中,目标测序序列的多个测序子序列均包含在参考序列的多个参考子序列中;以及确定步骤:根据目标测序序列的多个测序子序列与参考序列的多个参考子序列的对应关系,确定出目标测序序列对应的染色体名称,其中,参考序列和参考序列的每个参考子序列均具有对应的染色体名称。通过对测序序列和参考序列进行分割,进而利用分割后的测序子序列和参考子序列进行对比检测,相对现有技术中需要对冗长的序列进行对比检测的方式而言,减少了序列对比时间,实现了提高序列比对速度,进而实现了提高染色体的检测速度,解决了现有技术中染色体检测的速度较慢的问题,进而达到了减少时间开支、提高检测速度的效果。
附图说明
构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的染色体的检测方法的流程图;以及
图2是根据本发明实施例的染色体的检测装置的示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
本发明实施例提供了一种染色体的检测方法,以下对本发明实施例所提供的染色体的检测方法做具体介绍:
图1是根据本发明实施例的染色体的检测方法的流程图,如图1所示,该检测方法主要包括如下步骤S102至步骤S108:
S102(接收步骤):接收参考序列和多个测序序列,其中,参考序列为人的参考基因组序列,测序序列为待检测样本的基因组序列,一般为单端50碱基序列长度。
S104(分割步骤):以n1碱基为步长将每个测序序列均分割为定长为n2碱基的多个测序子序列,并以n3碱基为步长将参考序列分割为定长为n2碱基的多个参考子序列,其中,n1、n2和n3均为正整数,并且n1≤n3,优选地,在分割前,可以先舍头去尾将每个测序序列两端各切割掉一个碱基,成为长度为48碱基的序列。由于测序序列头尾两端的碱基的质量较低,所以,将其切除后有利于提高测序序列的质量。
S106(比较步骤):将每个测序序列的多个测序子序列与参考序列的多个参考子序列相比较,确定出目标测序序列,其中,目标测序序列的多个测序子序列均包含在参考序列的多个参考子序列中,即,通过将每个测序序列的多个测序子序列与参考序列的多个参考子序列进行对比,确定出目标测序序列,对于任一测序序列,如果这个测序序列的多个测序子序列,在参考序列的多个参考子序列中均能够找到对应相同的参考子序列的话,则确定这个测序序列为目标测序序列。
S108(确定步骤):根据目标测序序列的多个测序子序列与参考序列的多个参考子序列的对应关系,确定出目标测序序列对应的染色体名称,其中,参考序列和参考序列的每个参考子序列均具有对应的染色体名称。
本发明实施例所提供的染色体的检测方法,通过对测序序列和参考序列进行分割,进而利用分割后的测序子序列和参考子序列进行对比检测,相对现有技术中需要对冗长的序列进行对比检测的方式而言,减少了序列对比时间,实现了提高序列比对速度,进而实现了提高染色体的检测速度,解决了现有技术中染色体检测的速度较慢的问题,进而达到了减少时间开支、提高检测速度的效果。
其中,n1可以等于1,n2等于16,即,以固定步长为1碱基对测序序列进行分割,从而将48碱基长度的测序序列分割为33个16碱基长度的测序子序列。对于参考碱基,可以同样以固定步长为1碱基进行分割,也可以采用大于1碱基的步长进行分割。
优选地,多个测序序列为来自多个待检测样本的测序序列,并且每个测序序列均具有样本标识,本发明实施例的检测方法还包括:以多进程方式执行分割步骤、比较步骤和确定步骤,即,对多个测序序列同时进行分割、比较和确定,从而更快地确定出测序序列对应的染色体名称,达到进一步提高检测速度的效果。
进一步地,在确定出目标测序序列和目标测序序列对应的染色体名称之后,本发明实施例的检测方法还包括如下步骤S11至S14:
S11:统计每个染色体对应的目标测序序列的数量,即,统计有多少个目标测序序列的染色体名称是1号染色体,有多少个目标测序序列的染色体名称是2号染色体,……,有多少个目标测序序列的染色体名称是23号染色体。
S12:根据每个染色体对应的目标测序序列的数量计算每个染色体的剂量,主要是均一化每个染色体对应的目标测序序列的数量,得到每个染色体的剂量,具体地,可以按照公式
Figure BDA0000470735100000061
均一化每个染色体对应的目标测序序列的数量,得到每个染色体的剂量,其中,xk为k号染色体对应的目标测序序列的数量,N为染色体的总数量,Wk为k号染色体的剂量。
S13:根据每个染色体的剂量计算目标染色体的Z值,具体地,可以按照公式
Figure BDA0000470735100000062
计算目标染色体的Z值,其中,W为目标染色体的剂量,m和S均为预设值,Z为目标染色体的Z值,m可以是根据实验或经验确定出的阴性样本目标染色体的平均值,S可以是根据实验或经验确定出的阴性样本目标染色体的标准差。
S14:根据目标染色体Z值的大小确定目标染色体倍型为阴性或阳性,具体地,如果目标染色体Z值大于指定阈值,则确定该目标染色体倍型为阳性,反之为阴性,其中,指定阈值可以根据实验或经验确定。
进一步地,每个参考子序列所处的染色体位置的位置也是已知,即,在本发明实施例中,预先存储有每个参考子序列对应的染色体名称和每个参考子序列所处的染色体位置,在计算出染色体剂量后,本发明实施例的检测方法还包括:利用参考子序列所处的染色体位置与该位置的参考子序列的计量的对应关系,对本次检测方法中计算出的染色体计量进行校正,达到进一步提高染色体检测准确度的效果。其中,分别采用GC偏好性和内部参考染色体的方法进行校正,具体校正方法可以采用现有技术中的任一种方法,此处不再赘述。
优选地,目标测序序列的数量为多个,在将每个测序序列的多个测序子序列与参考序列的多个参考子序列相比较,确定出目标测序序列之后,并且在根据目标测序序列的多个测序子序列与参考序列的多个参考子序列的对应关系,确定出目标测序序列对应的染色体名称之前,本发明实施例的检测方法还包括如下步骤S21至步骤S24:
S21:查找与每个目标测序序列Ci的每个测序子序列Cij具有相同碱基的参考子序列,即,查收出具有相同碱基及碱基排布顺序的参考子序列,其中,i依次取1至imax,j依次取jmax,imax为目标测序序列的数量;jmax为目标测序序列Ci的测序子序列的数量。
S22:确定与测序子序列Cij具有相同碱基的参考子序列的染色体名称为测序子序列Cij的染色体名称。
S23:判断多个目标测序序列中的第一测序序列Ci′的每个测序子序列Ci′j的染色体名称是否均相同,其中,i′∈(1,imax),即,判断任意一个测序序列的每个测序子序列的染色体名称是否均相同。
S24:在判断出多个目标测序序列中的第一测序序列Ci′的每个测序子序列Ci′j的染色体名称不均相同的情况下,从多个目标测序序列中过滤掉第一测序序列Ci′,即,在判断出某个测序序列的每个测序子序列的染色体名称不均相同(即,不是同一个名称)的话,则将这个测序子序列从目标测序序列中删除。
如果某个目标测序序列的一部分测序子序列对应的染色体名称为p号染色体,另一部分测序子序列对应的染色体名称为q号染色体,将导致后续计算出染色体剂量出现,通过上述步骤S21至步骤S24,将测序子序列中染色体名称定位相冲突的子序列删除,实现了准确确定出目标测序序列对应的染色体名称,进而保证染色体剂量的准确计算。
进一步地,在本发明实施例中,可以通过以下方式确定目标测序序列对应的染色体名称:首先,查找与第二测序序列Ci′′的任一测序子序列Ci′′j′具有相同碱基的参考子序列,其中,第二测序序列Ci′′为过滤掉第一测序序列Ci′的任一目标测序序列,i′′∈(1,imax),j′∈(1,j′max),j′max为第二测序序列Ci′′的测序子序列的数量,并且i′′≠i′;然后,确定与测序子序列Ci′′j′具有相同碱基的参考子序列的染色体名称为第二测序序列Ci′′的染色体名称。
优选地,在以n3碱基为步长将参考序列分割为定长为n2碱基的多个参考子序列之后,本发明实施例的检测方法还包括:将参考序列的多个参考子序列存储至共享内存中,其中,将每个测序序列的多个测序子序列与共享内存中的参考序列的多个参考子序列相比较,确定出目标测序序列,并根据目标测序序列的多个测序子序列与共享内存中的参考序列的多个参考子序列的对应关系,确定出目标测序序列对应的染色体名称。
通过利用共享内存存储参考子序列,进而在共享内存中确定目标测序序列和目标测序序列对应的染色体名称,实现了在对染色体进行检测过程中,只需一次读取参考序列,即可多次检测任意样本数量的测序序列,无需像现有技术中调用第三方比对软件反复进行参考序列的输入,进一步减小了时间开支,极大提高了检测速度。
优选地,在以n3碱基为步长将参考序列分割为定长为n2碱基的多个参考子序列之后,本发明实施例的检测方法还包括:删除参考序列的多个参考子序列中的重复子序列和/或第一子序列,其中,第一子序列为包括N碱基的子序列,将每个测序序列的多个测序子序列与参考序列的多个参考子序列相比较,确定出目标测序序列则是:将每个测序序列的多个测序子序列与参考序列的目标参考子序列相比较,确定出目标测序序列,其中,目标参考子序列为删除重复子序列和/或第一子序列后的多个参考子序列。
通过将参考子序列中的重复子序列和包括N碱基(未知碱基)的子序列删除,进而基于过滤后的参考子序列进行目标测序序列及其染色体名称的确定,实现了尽可能避免比对出错的弊端,达到了提高染色体检测准确度的效果。
本发明实施例还提供了一种染色体的检测装置,该检测装置主要用于执行本发明上述内容所提供的任一种染色体的检测方法,以下对本发明实施例所提供的染色体的检测装置做具体介绍:
图2是根据本发明实施例的染色体的检测装置的示意图,如图2所示,该检测装置主要包括接收单元10、分割单元20、比较单元30和第一确定单元40,其中:
接收单元10用于接收参考序列和多个测序序列,其中,参考序列为人的参考基因组序列,测序序列为待检测样本的基因组序列,一般为单端50碱基序列长度。
分割单元20用于以n1碱基为步长将每个测序序列均分割为定长为n2碱基的多个测序子序列,并以n3碱基为步长将参考序列分割为定长为n2碱基的多个参考子序列,其中,n1、n2和n3均为正整数,并且n1≤n3,优选地,在分割前,可以先舍头去尾将每个测序序列两端各切割掉一个碱基,成为长度为48碱基的序列。由于测序序列头尾两端的碱基的质量较低,所以,将其切除后有利于提高测序序列的质量。
比较单元30用于将每个测序序列的多个测序子序列与参考序列的多个参考子序列相比较,确定出目标测序序列,其中,目标测序序列的多个测序子序列均包含在参考序列的多个参考子序列中,即,通过将每个测序序列的多个测序子序列与参考序列的多个参考子序列进行对比,确定出目标测序序列,对于任一测序序列,如果这个测序序列的多个测序子序列,在参考序列的多个参考子序列中均能够找到对应相同的参考子序列的话,则确定这个测序序列为目标测序序列。
第一确定单元40用于根据目标测序序列的多个测序子序列与参考序列的多个参考子序列的对应关系,确定出目标测序序列对应的染色体名称,其中,参考序列和参考序列的每个参考子序列均具有对应的染色体名称。
本发明实施例所提供的染色体的检测装置,通过对测序序列和参考序列进行分割,进而利用分割后的测序子序列和参考子序列进行对比检测,相对现有技术中需要对冗长的序列进行对比检测的方式而言,减少了序列对比时间,实现了提高序列比对速度,进而实现了提高染色体的检测速度,解决了现有技术中染色体检测的速度较慢的问题,进而达到了减少时间开支、提高检测速度的效果。
优选地,多个测序序列为来自多个待检测样本的测序序列,并且每个测序序列均具有样本标识,分割单元、比较单元和第一确定单元的数量均为多个,以采用多进程方式执行分割单元20、比较单元30和第一确定单元40的功能,即,对多个测序序列同时进行分割、比较和确定,从而更快地确定出测序序列对应的染色体名称,达到进一步提高检测速度的效果。
优选地,目标测序序列的数量为多个,本发明实施例的检测装置还包括查找单元、第二确定单元、判断单元和过滤单元,其中:
查找单元用于查找与每个目标测序序列Ci的每个测序子序列Cij具有相同碱基的参考子序列,即,查收出具有相同碱基及碱基排布顺序的参考子序列,其中,i依次取1至imax,j依次取jmax,imax为目标测序序列的数量;jmax为目标测序序列Ci的测序子序列的数量。
第二确定单元用于确定与测序子序列Cij具有相同碱基的参考子序列的染色体名称为测序子序列Cij的染色体名称
判断单元用于判断多个目标测序序列中的第一测序序列Ci′的每个测序子序列Ci′j的染色体名称是否均相同,其中,i′∈(1,imax),即,判断任意一个测序序列的每个测序子序列的染色体名称是否均相同。
过滤单元用于在判断出多个目标测序序列中的第一测序序列Ci′的每个测序子序列Ci′j的染色体名称不均相同的情况下,从多个目标测序序列中过滤掉第一测序序列Ci′,即,在判断出某个测序序列的每个测序子序列的染色体名称不均相同(即,不是同一个名称)的话,则将这个测序子序列从目标测序序列中删除。
如果某个目标测序序列的一部分测序子序列对应的染色体名称为p号染色体,另一部分测序子序列对应的染色体名称为q号染色体,将导致后续计算出染色体剂量出现,通过查找单元、第二确定单元、判断单元和过滤单元执行上述步骤,将测序子序列中染色体名称定位相冲突的子序列删除,实现了准确确定出目标测序序列对应的染色体名称,进而保证染色体剂量的准确计算。
进一步地,第一确定单元40主要包括查找模块和确定模块,查找模块用于查找与第二测序序列Ci′′的任一测序子序列Ci′′j′具有相同碱基的参考子序列,其中,第二测序序列Ci′′为过滤掉第一测序序列Ci′的任一目标测序序列,i′′∈(1,imax),j′∈(1,j′max),j′max为第二测序序列Ci′′的测序子序列的数量,并且i′′≠i′;确定模块用于确定与测序子序列Ci′′j′具有相同碱基的参考子序列的染色体名称为第二测序序列Ci′′的染色体名称。
优选地,检测装置还包括存储单元,该存储单元用于将参考序列的多个参考子序列存储至共享内存中,其中,比较单元30用于将每个测序序列的多个测序子序列与共享内存中的参考序列的多个参考子序列相比较,确定出目标测序序列,第一确定单元40用于根据目标测序序列的多个测序子序列与共享内存中的参考序列的多个参考子序列的对应关系,确定出目标测序序列对应的染色体名称。
通过设置存储单元,将参考序列的多个参考子序列存储至共享内存中,实现了利用共享内存存储参考子序列,进而在共享内存中确定目标测序序列和目标测序序列对应的染色体名称,实现了在对染色体进行检测过程中,只需一次读取参考序列,即可多次检测任意样本数量的测序序列,无需像现有技术中调用第三方比对软件反复进行参考序列的输入,进一步减小了时间开支,极大提高了检测速度。
优选地,检测装置还包括删除单元,在以n3碱基为步长将参考序列分割为定长为n2碱基的多个参考子序列之后,删除单元用于删除参考序列的多个参考子序列中的重复子序列和/或第一子序列,其中,第一子序列为包括N碱基的子序列,比较单元30则用于将每个测序序列的多个测序子序列与参考序列的目标参考子序列相比较,确定出目标测序序列,其中,目标参考子序列为删除重复子序列和/或第一子序列后的多个参考子序列。
通过将参考子序列中的重复子序列和包括N碱基(未知碱基)的子序列删除,进而基于过滤后的参考子序列进行目标测序序列及其染色体名称的确定,实现了尽可能避免比对出错的弊端,达到了提高染色体检测准确度的效果。
进一步地,本发明实施例的检测装置还包括统计单元、第一计算单元、第二计算单元和第三确定单元,其中:
统计单元用于执行上述步骤S11,即,用于统计每个染色体对应的目标测序序列的数量,也即,统计有多少个目标测序序列的染色体名称是1号染色体,有多少个目标测序序列的染色体名称是2号染色体,……,有多少个目标测序序列的染色体名称是23号染色体。
第一计算单元用于执行上述步骤S12,即,用于根据每个染色体对应的目标测序序列的数量计算每个染色体的剂量,主要是均一化每个染色体对应的目标测序序列的数量,得到每个染色体的剂量,具体地,可以按照公式
Figure BDA0000470735100000111
均一化每个染色体对应的目标测序序列的数量,得到每个染色体的剂量,其中,xk为k号染色体对应的目标测序序列的数量,N为染色体的总数量,Wk为k号染色体的剂量。
第二计算单元用于执行上述步骤S13,即,用于根据每个染色体的剂量计算目标染色体的Z值,具体地,可以按照公式
Figure BDA0000470735100000112
计算目标染色体的Z值,其中,W目为目标染色体的剂量,m和S均为预设值,Z为目标染色体的Z值,m可以是根据实验或经验确定出的阴性样本目标染色体的平均值,S可以是根据实验或经验确定出的阴性样本目标染色体的标准差。
第三确定单元用于执行上述步骤S14,即,用于根据目标染色体Z值的大小确定目标染色体倍型为阴性或阳性,具体地,如果目标染色体Z值大于指定阈值,则确定该目标染色体倍型为阳性,反之为阴性,其中,指定阈值可以根据实验或经验确定。
进一步地,每个参考子序列所处的染色体位置的位置也是已知,即,在本发明实施例中,预先存储有每个参考子序列对应的染色体名称和每个参考子序列所处的染色体位置,本发明实施例的检测装置还包括校正单元,在计算出染色体剂量后,校正单元用于利用参考子序列所处的染色体位置与该位置的参考子序列的计量的对应关系,对本次检测方法中计算出的染色体计量进行校正,达到进一步提高染色体检测准确度的效果。其中,分别采用GC偏好性和内部参考染色体的方法进行校正,具体校正方法可以采用现有技术中的任一种方法,此处不再赘述。
从以上的描述中,可以看出,本发明实现了提高序列比对速度,进而实现了提高染色体的检测速度,进而达到了减少时间开支、提高检测速度的效果。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (12)

1.一种染色体的检测方法,其特征在于,包括:
接收步骤:接收参考序列和多个测序序列;
分割步骤:以n1碱基为步长将每个所述测序序列均分割为定长为n2碱基的多个测序子序列,并以n3碱基为步长将所述参考序列分割为定长为n2碱基的多个参考子序列,其中,n1、n2和n3均为正整数,并且n1≤n3;
比较步骤:将每个所述测序序列的多个测序子序列与所述参考序列的多个参考子序列相比较,确定出目标测序序列,其中,所述目标测序序列的多个测序子序列均包含在所述参考序列的多个参考子序列中;以及
确定步骤:根据所述目标测序序列的多个测序子序列与所述参考序列的多个参考子序列的对应关系,确定出所述目标测序序列对应的染色体名称,其中,所述参考序列和所述参考序列的每个参考子序列均具有对应的染色体名称。
2.根据权利要求1所述的检测方法,其特征在于,多个所述测序序列为来自多个待检测样本的测序序列,并且每个所述测序序列均具有样本标识,所述检测方法还包括:以多进程方式执行所述分割步骤、所述比较步骤和所述确定步骤。
3.根据权利要求1所述的检测方法,其特征在于,所述目标测序序列的数量为多个,在将每个所述测序序列的多个测序子序列与所述参考序列的多个参考子序列相比较,确定出目标测序序列之后,并且在根据所述目标测序序列的多个测序子序列与所述参考序列的多个参考子序列的对应关系,确定出所述目标测序序列对应的染色体名称之前,所述检测方法还包括:
查找与每个目标测序序列Ci的每个测序子序列Cij具有相同碱基的参考子序列,其中,i依次取1至imax,j依次取jmax,imax为所述目标测序序列的数量;jmax为所述目标测序序列Ci的测序子序列的数量;
确定与所述测序子序列Cij具有相同碱基的参考子序列的染色体名称为所述测序子序列Cij的染色体名称;
判断多个所述目标测序序列中的第一测序序列Ci′的每个测序子序列Ci′j的染色体名称是否均相同,其中,i′∈(1,imax);以及
在判断出多个所述目标测序序列中的所述第一测序序列Ci′的每个测序子序列Ci′j的染色体名称不均相同的情况下,从多个所述目标测序序列中过滤掉所述第一测序序列Ci′
4.根据权利要求3所述的检测方法,其特征在于,通过以下方式确定所述目标测序序列对应的染色体名称:
查找与第二测序序列Ci′′的任一测序子序列Ci′′j′具有相同碱基的参考子序列,其中,第二测序序列Ci′′为过滤掉所述第一测序序列Ci′的任一所述目标测序序列,i′′∈(1,imax),j′∈(1,j′max),j′max为所述第二测序序列Ci′′的测序子序列的数量,并且i′′≠i′;以及
确定与所述测序子序列Ci′′j′具有相同碱基的参考子序列的染色体名称为所述第二测序序列Ci′′的染色体名称。
5.根据权利要求1所述的检测方法,其特征在于,在以n3碱基为步长将所述参考序列分割为定长为n2碱基的多个参考子序列之后,所述检测方法还包括:
将所述参考序列的多个参考子序列存储至共享内存中,
其中,将每个所述测序序列的多个测序子序列与所述共享内存中的所述参考序列的多个参考子序列相比较,确定出所述目标测序序列,并根据所述目标测序序列的多个测序子序列与所述共享内存中的所述参考序列的多个参考子序列的对应关系,确定出所述目标测序序列对应的染色体名称。
6.根据权利要求1所述的检测方法,其特征在于,在以n3碱基为步长将所述参考序列分割为定长为n2碱基的多个参考子序列之后,所述检测方法还包括:
删除所述参考序列的多个参考子序列中的重复子序列和/或第一子序列,其中,所述第一子序列为包括N碱基的子序列,
其中,将每个所述测序序列的多个测序子序列与所述参考序列的多个参考子序列相比较,确定出所述目标测序序列包括:将每个所述测序序列的多个测序子序列与所述参考序列的目标参考子序列相比较,确定出所述目标测序序列,其中,所述目标参考子序列为删除所述重复子序列和/或所述第一子序列后的多个所述参考子序列。
7.一种染色体的检测装置,其特征在于,包括:
接收单元,用于接收参考序列和多个测序序列;
分割单元,用于以n1碱基为步长将每个所述测序序列均分割为定长为n2碱基的多个测序子序列,并以n3碱基为步长将所述参考序列分割为定长为n2碱基的多个参考子序列,其中,n1、n2和n3均为正整数,并且n1≤n3;
比较单元,用于将每个所述测序序列的多个测序子序列与所述参考序列的多个参考子序列相比较,确定出目标测序序列,其中,所述目标测序序列的多个测序子序列均包含在所述参考序列的多个参考子序列中;以及
第一确定单元,用于根据所述目标测序序列的多个测序子序列与所述参考序列的多个参考子序列的对应关系,确定出所述目标测序序列对应的染色体名称,其中,所述参考序列和所述参考序列的每个参考子序列均具有对应的染色体名称。
8.根据权利要求7所述的检测装置,其特征在于,多个所述测序序列为来自多个待检测样本的测序序列,并且每个所述测序序列均具有样本标识,所述分割单元、所述比较单元和所述第一确定单元的数量均为多个。
9.根据权利要求7所述的检测装置,其特征在于,所述目标测序序列的数量为多个,所述检测装置还包括:
查找单元,用于查找与每个目标测序序列Ci的每个测序子序列Cij具有相同碱基的参考子序列,其中,i依次取1至imax,j依次取jmax,imax为所述目标测序序列的数量;jmax为所述目标测序序列Ci的测序子序列的数量;
第二确定单元,用于确定与所述测序子序列Cij具有相同碱基的参考子序列的染色体名称为所述测序子序列Cij的染色体名称;
判断单元,用于判断多个所述目标测序序列中的第一测序序列Ci′的每个测序子序列Ci′j的染色体名称是否均相同,其中,i′∈(1,imax);以及
过滤单元,用于在判断出多个所述目标测序序列中的所述第一测序序列Ci′的每个测序子序列Ci′j的染色体名称不均相同的情况下,从多个所述目标测序序列中过滤掉所述第一测序序列Ci′
10.根据权利要求9所述的检测装置,其特征在于,所述第一确定单元包括:
查找模块,用于查找与第二测序序列Ci′′的任一测序子序列Ci′′j′具有相同碱基的参考子序列,其中,第二测序序列Ci′′为过滤掉所述第一测序序列Ci′的任一所述目标测序序列,i′′∈(1,imax),j′∈(1,j′max),j′max为所述第二测序序列Ci′′的测序子序列的数量,并且i′′≠i′;以及
确定模块,用于确定与所述测序子序列Ci′′j′具有相同碱基的参考子序列的染色体名称为所述第二测序序列Ci′′的染色体名称。
11.根据权利要求7所述的检测装置,其特征在于,所述检测装置还包括:
存储单元,用于将所述参考序列的多个参考子序列存储至共享内存中,
其中,所述比较单元用于将每个所述测序序列的多个测序子序列与所述共享内存中的所述参考序列的多个参考子序列相比较,确定出所述目标测序序列,所述第一确定单元用于根据所述目标测序序列的多个测序子序列与所述共享内存中的所述参考序列的多个参考子序列的对应关系,确定出所述目标测序序列对应的染色体名称。
12.根据权利要求7所述的检测装置,其特征在于,所述检测装置还包括:
删除单元,用于删除所述参考序列的多个参考子序列中的重复子序列和/或第一子序列,其中,所述第一子序列为包括N碱基的子序列,
其中,所述比较单元用于将每个所述测序序列的多个测序子序列与所述参考序列的目标参考子序列相比较,确定出所述目标测序序列,其中,所述目标参考子序列为删除所述重复子序列和/或所述第一子序列后的多个所述参考子序列。
CN201410069562.1A 2014-02-27 2014-02-27 染色体的检测方法和装置 Pending CN103824001A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410069562.1A CN103824001A (zh) 2014-02-27 2014-02-27 染色体的检测方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410069562.1A CN103824001A (zh) 2014-02-27 2014-02-27 染色体的检测方法和装置

Publications (1)

Publication Number Publication Date
CN103824001A true CN103824001A (zh) 2014-05-28

Family

ID=50759057

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410069562.1A Pending CN103824001A (zh) 2014-02-27 2014-02-27 染色体的检测方法和装置

Country Status (1)

Country Link
CN (1) CN103824001A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016090583A1 (zh) * 2014-12-10 2016-06-16 深圳华大基因研究院 测序数据处理装置和方法
WO2016141516A1 (zh) * 2015-03-06 2016-09-15 深圳华大基因研究院 获取子代特异性序列、检测子代新突变的方法和装置
CN106407743A (zh) * 2016-08-31 2017-02-15 上海美吉生物医药科技有限公司 一种基于集群的高通量数据分析方法
WO2020135500A1 (zh) * 2018-12-29 2020-07-02 安诺优达基因科技(北京)有限公司 一种构建生物信息分析参照数据集的方法及系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6476208B1 (en) * 1998-10-13 2002-11-05 Genset Schizophrenia associated genes, proteins and biallelic markers
US7115416B1 (en) * 1999-02-26 2006-10-03 Serono Genetics Institute S.A. Expressed sequence tags and encoded human proteins
CN101928775A (zh) * 2010-08-13 2010-12-29 深圳华大基因科技有限公司 一种细胞染色体分析方法
US20110151442A1 (en) * 2009-12-22 2011-06-23 The Board Of Trustees Of The Leland Stanford Junior University Direct Molecular Diagnosis of Fetal Aneuploidy
CN102686740A (zh) * 2009-12-23 2012-09-19 财团法人工业技术研究院 序列校正方法与序列校正装置
US20130034546A1 (en) * 2010-01-19 2013-02-07 Verinata Health, Inc. Analyzing Copy Number Variation in the Detection of Cancer
CN103108960A (zh) * 2010-02-19 2013-05-15 西昆诺姆有限公司 用于检测胎儿核酸和诊断胎儿异常的方法
US20130211729A1 (en) * 2012-02-08 2013-08-15 Dow Agrosciences Llc Data analysis of dna sequences
CN103384725A (zh) * 2010-12-23 2013-11-06 塞昆纳姆股份有限公司 胎儿遗传变异的检测

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6476208B1 (en) * 1998-10-13 2002-11-05 Genset Schizophrenia associated genes, proteins and biallelic markers
US7115416B1 (en) * 1999-02-26 2006-10-03 Serono Genetics Institute S.A. Expressed sequence tags and encoded human proteins
US20110151442A1 (en) * 2009-12-22 2011-06-23 The Board Of Trustees Of The Leland Stanford Junior University Direct Molecular Diagnosis of Fetal Aneuploidy
CN102686740A (zh) * 2009-12-23 2012-09-19 财团法人工业技术研究院 序列校正方法与序列校正装置
US20130034546A1 (en) * 2010-01-19 2013-02-07 Verinata Health, Inc. Analyzing Copy Number Variation in the Detection of Cancer
CN103108960A (zh) * 2010-02-19 2013-05-15 西昆诺姆有限公司 用于检测胎儿核酸和诊断胎儿异常的方法
CN101928775A (zh) * 2010-08-13 2010-12-29 深圳华大基因科技有限公司 一种细胞染色体分析方法
CN103384725A (zh) * 2010-12-23 2013-11-06 塞昆纳姆股份有限公司 胎儿遗传变异的检测
US20130211729A1 (en) * 2012-02-08 2013-08-15 Dow Agrosciences Llc Data analysis of dna sequences

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016090583A1 (zh) * 2014-12-10 2016-06-16 深圳华大基因研究院 测序数据处理装置和方法
CN107077533A (zh) * 2014-12-10 2017-08-18 深圳华大基因研究院 测序数据处理装置和方法
CN107077533B (zh) * 2014-12-10 2021-07-27 深圳华大生命科学研究院 测序数据处理装置和方法
WO2016141516A1 (zh) * 2015-03-06 2016-09-15 深圳华大基因研究院 获取子代特异性序列、检测子代新突变的方法和装置
CN106407743A (zh) * 2016-08-31 2017-02-15 上海美吉生物医药科技有限公司 一种基于集群的高通量数据分析方法
CN106407743B (zh) * 2016-08-31 2019-03-05 上海美吉生物医药科技有限公司 一种基于集群的高通量数据分析方法
WO2020135500A1 (zh) * 2018-12-29 2020-07-02 安诺优达基因科技(北京)有限公司 一种构建生物信息分析参照数据集的方法及系统

Similar Documents

Publication Publication Date Title
Matthey-Doret et al. Computer vision for pattern detection in chromosome contact maps
US11620567B2 (en) Method, apparatus, device and storage medium for predicting protein binding site
CN108256289B (zh) 一种基于目标区域捕获测序基因组拷贝数变异的方法
CN103218435A (zh) 一种中文文本数据聚类方法及系统
CN103824001A (zh) 染色体的检测方法和装置
CN110060733B (zh) 基于单样本的二代测序肿瘤体细胞变异检测装置
US20230170047A1 (en) Genetic testing method, signature extraction method, apparatus, device, and system
WO2021027162A1 (zh) 一种非满格表格内容提取方法、装置及终端设备
CN115631789A (zh) 一种基于泛基因组的群体联合变异检测方法
WO2019085337A1 (zh) 基于信号数据筛选的定位方法、电子装置及存储介质
CN112259167A (zh) 基于高通量测序的病原体分析方法、装置和计算机设备
EP2012116A1 (en) Individual discrimination method and apparatus
CN115131784B (zh) 一种图像处理方法、装置、电子设备及存储介质
US11567944B2 (en) Processing of sequencing data streams
CN109997194B (zh) 异常值显著性评价的系统和方法
US20190050531A1 (en) Dna sequence processing method and device
WO2020001663A2 (zh) 基因测序结果类型的检测方法、装置、设备及存储介质
CN117079717A (zh) 一种细胞亚型的鉴定方法、装置、设备及介质
CN112863602B (zh) 染色体异常的检测方法、装置、计算机设备和存储介质
WO2023184330A1 (zh) 基因组甲基化测序数据的处理方法、装置、设备和介质
Ziemann Accuracy, speed and error tolerance of short DNA sequence aligners
GUDODAGI et al. Customized Computational Environment for Investigations and Compression of Genomic Data.
Xing et al. A novel Bayesian change-point algorithm for genome-wide analysis of diverse ChIPseq data types
Meyer et al. ReadZS detects developmentally regulated RNA processing programs in single cell RNA-seq and defines subpopulations independent of gene expression
US20210285043A1 (en) Incremental secondary analysis of nucleic acid sequences

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20140528