[go: up one dir, main page]

CN110875082A - 一种基于靶向扩增测序的微生物检测方法和装置 - Google Patents

一种基于靶向扩增测序的微生物检测方法和装置 Download PDF

Info

Publication number
CN110875082A
CN110875082A CN201811027464.6A CN201811027464A CN110875082A CN 110875082 A CN110875082 A CN 110875082A CN 201811027464 A CN201811027464 A CN 201811027464A CN 110875082 A CN110875082 A CN 110875082A
Authority
CN
China
Prior art keywords
target
detected
sequence
detection
sequence number
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811027464.6A
Other languages
English (en)
Other versions
CN110875082B (zh
Inventor
王子榕
袁剑颖
孙瑞雪
毛宛司
王晓凤
吴红龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huada Biotechnology Wuhan Co ltd
Shenzhen Huada Yinyuan Pharmaceutical Technology Co Ltd
Original Assignee
Shenzhen Huada Yinyuan Pharmaceutical Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Huada Yinyuan Pharmaceutical Technology Co Ltd filed Critical Shenzhen Huada Yinyuan Pharmaceutical Technology Co Ltd
Priority to CN201811027464.6A priority Critical patent/CN110875082B/zh
Publication of CN110875082A publication Critical patent/CN110875082A/zh
Application granted granted Critical
Publication of CN110875082B publication Critical patent/CN110875082B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • Public Health (AREA)
  • Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Abstract

一种基于靶向扩增测序的微生物检测方法和装置。本发明的方法包括:获取待检样本的靶向扩增测序序列;将靶向扩增测序序列比对到靶标序列数据库,该靶标序列数据库包括多个靶标,每个靶标用于标识一群微生物的多个特征标记中的一个,每个靶标具有设定的检出阈值;统计每个靶标的检出序列数,该检出序列数包括仅比对到该靶标的序列数以及次优比对分数除以最优比对分数的结果小于设定值的序列数,以及将每个靶标的检出序列数与每个靶标的检出阈值进行比较,得到待检微生物的检测结果。本发明具有检测精度和通量高、检测范围广、自动化程度高、计算机技术条件要求低的优势。

Description

一种基于靶向扩增测序的微生物检测方法和装置
技术领域
本发明涉及微生物检测技术领域,具体涉及一种基于靶向扩增测序的微生物检测方法和装置。
背景技术
微生物的传统检测方法主要包括:(1)镜检。在形态和染色性上具有特征的微生物,直接涂片染色后显微镜观察。(2)检测培养。选择适宜的培养基、pH、培养时间、温度等,提供特定微生物生长所需的必要条件进行培养检测。(3)生化试验。生化反应是依据各种微生物具有不同的酶系统,对营养物质的分解所产生的代谢产物有别,以此来鉴别微生物。(4)血清学鉴定。根据相应抗原与抗体反应的特异性,采用含有已知特异抗体的免疫血清,对其分离的待检测微生物进行属、种和血清型鉴定。(5)抗原抗体检测。用已知的特异性抗体测未知的抗原成分。(6)分子生物学方法。不同种微生物具有不同的基因或碱基序列,故可通过检测微生物的特异性基因序列的存在与否进行检测。常用的方法主要有核酸杂交和聚合配链反应(PCR)等。
目前微生物的检测主要依赖于传统的检测培养,该方法耗时比较长、漏检率高。经验性用药一方面加重病人经济负担,且易耽误病人的最佳诊疗时间,另一方面滥用抗生素可能导致严重的耐药后果。因此,市场上急需一种快速准确全面确认不明原因的微生物感染的检测方法。
高通量测序以其低成本、高通量、检测范围广、时间快而非常有利于感染性病原的检出。利用靶向扩增技术可同时对上千重扩增子进行靶向扩增。由于该技术是新兴技术,尚无成熟的配套信息分析流程。因此,本领域需要构建一种高质量的信息分析流程,有效提高检测精度,辅助报告解读,助力该类产品的市场推广。
发明内容
本发明提供一种基于靶向扩增测序的微生物检测方法和装置,具有检测精度和通量高、检测范围广、自动化程度高、计算机技术条件要求低的优势。
根据第一方面,一种实施例中提供一种基于靶向扩增测序的微生物检测方法,包括:
获取待检样本的靶向扩增测序序列,上述待检样本中包含可能存在的待检微生物的至少一个特征标记,每个特征标记包括至少一个用于标识该特征标记的靶标;
将上述靶向扩增测序序列比对到靶标序列数据库,该靶标序列数据库包括多个靶标,每个靶标用于标识一群微生物的多个特征标记中的一个,每个靶标具有设定的检出阈值;
统计每个靶标的检出序列数,该检出序列数包括仅比对到该靶标的序列数以及次优比对分数除以最优比对分数的结果小于设定值的序列数,其中最优比对分数为比对到该靶标的分数,次优比对分数为比对到其它靶标的分数;和
将每个靶标的检出序列数与每个靶标的检出阈值进行比较,上述检出序列数大于上述检出阈值即为检出,根据每个靶标的检出结果确定每个特征标记的检出结果,即得上述待检微生物的检测结果。
作为优选的技术方案,每个靶标的检出阈值可以通过ROC曲线方法或阴性样本检出序列数分布方法确定。其中,ROC曲线方法包括,以阳性样本(确定包含该靶标对应特征标记的样本)和阴性样本(确定不包含该靶标对应特征标记的样本)为研究对象,获得每个特征标记对应的靶标的检出序列数,根据对应靶标的检出序列数绘制ROC曲线,并基于ROC曲线灵敏度和特异性最佳的点,确定对应靶标的检出序列数,得到每个靶标的检出阈值。
作为优选的技术方案,上述特征标记包括病原、耐药基因、毒力因子中的一个或多个;优选地,上述病原选自细菌、DNA/RNA病毒、真菌和原虫中的一个或多个。
作为优选的技术方案,每个特征标记包括至少3个用于标识该特征标记的靶标;优选地,每个特征标记的靶标中大于50%的靶标检出视为该特征标记检出。
作为优选的技术方案,上述靶标序列数据库还包括内参靶标,上述内参靶标选自上述微生物的宿主的保守基因序列。
作为优选的技术方案,上述一群微生物为一种症候群;优选地,上述症候群选自血流感染症候群、脑炎脑膜炎症候群、呼吸道感染症候群或腹泻症候群,更优选血流感染症候群或脑炎脑膜炎症候群。
作为优选的技术方案,上述设定值为0.8。
作为优选的技术方案,上述靶向扩增测序序列还包括宿主序列,上述方法还包括:
将比对到上述靶标序列数据库的序列去除以后的其它序列比对到宿主基因组数据库,并计算上述待检样本中的宿主序列比例,以用于检测结果的质控。
作为优选的技术方案,宿主基因组数据库包含从NCBI官方网站下载的人类参考基因组以及从炎黄基因组公共数据库官方网站下载的炎黄基因组序列两部分。
作为优选的技术方案,上述方法包括同步检测多个待检样本,并图形化输出同步检测的多个待检样本中至少一个靶标的检出结果以确定交叉污染的存在与否,优选地,待检样本为同批次同类型样本。
根据第二方面,一种实施例中提供一种基于靶向扩增测序的微生物检测装置,包括:
获取单元,用于获取待检样本的靶向扩增测序序列,上述待检样本中包含可能存在的待检微生物的至少一个特征标记,每个特征标记包括至少一个用于标识该特征标记的靶标;
比对单元,用于将上述靶向扩增测序序列比对到靶标序列数据库,该靶标序列数据库包括多个靶标,每个靶标用于标识一群微生物的多个特征标记中的一个,每个靶标具有设定的检出阈值;
统计单元,用于统计每个靶标的检出序列数,该检出序列数包括仅比对到该靶标的序列数以及次优比对分数除以最优比对分数的结果小于设定值的序列数,其中最优比对分数为比对到该靶标的分数,次优比对分数为比对到其它靶标的分数;和
比较单元,用于将每个靶标的检出序列数与每个靶标的检出阈值进行比较,上述检出序列数大于上述检出阈值即为检出,根据每个靶标的检出结果确定每个特征标记的检出结果,即得上述待检微生物的检测结果。
根据第三方面,一种实施例中提供一种计算机可读存储介质,包括程序,该程序能够被处理器执行以实现如第一方面的方法。
本发明的检测方法检测精度和通量高,检测范围广,操作简单,检测周期短,可以在2个工作日(最快24小时)内完成检测。此外,检测成本较低,可扩展性高,在优选实施例中,可以广泛扩展应用于各种症候群的检测。针对特定症候群,能够精准确定相关病原微生物。
附图说明
图1为本发明实施例的基于靶向扩增测序的微生物检测方法流程图;
图2为本发明实施例的基于靶向扩增测序的微生物检测装置结构框图;
图3为本发明实施例中Human_herpesvirus_6病原3个靶标在批次内所有脑脊液样本的检出结果,横坐标为样本编号(Sample),纵坐标为检出序列数(Reads Number)。
具体实施方式
下面通过具体实施方式结合附图对本发明作进一步详细说明。在以下的实施方式中,很多细节描述是为了使得本发明能被更好的理解。然而,本领域技术人员可以毫不费力的认识到,其中部分特征在不同情况下是可以省略的,或者可以由其他元件、材料、方法所替代。
另外,说明书中所描述的特点、操作或者特征可以以任意适当的方式结合形成各种实施方式。同时,方法描述中的各步骤或者动作也可以按照本领域技术人员所能显而易见的方式进行顺序调换或调整。因此,说明书和附图中的各种顺序只是为了清楚描述某一个实施例,并不意味着是必须的顺序,除非另有说明其中某个顺序是必须遵循的。
如图1所示,本发明一种实施例中提供一种基于靶向扩增测序的微生物检测方法,包括如下步骤:
S101:获取待检样本的靶向扩增测序序列,上述待检样本中包含可能存在的待检微生物的至少一个特征标记,每个特征标记包括至少一个用于标识该特征标记的靶标。
本发明实施例中,“待检样本”即检测所针对的样本,可以是临床上的样本,包括健康人样本,例如健康人血液、脑脊液样本等。这些样本经本领域公知的技术进行核酸(如DNA)提取,获取样本中的核酸序列片段,经核酸文库构建获得测序用核酸文库,用于上机测序,文库构建过程中,使用特异性靶向引物扩增目标片段,测序后得到靶向扩增测序序列。测序平台不限,可以是任何第二代高通量测序平台,包括但不限于Illumina、Ion Torrent、BGISEQ或MGISEQ测序平台,优选BGISEQ测序平台,例如BGISEQ-500、BGISEQ-50或BGISEQ-2000测序平台等。
待检样本中可能含有待检微生物,含有待检微生物的样本是阳性样本,不含待检微生物的样本是阴性样本。所谓“待检微生物”可以是细菌、DNA/RNA病毒、真菌和原虫等任何微生物。本发明中,由于待检微生物通过相应的特征标记来标识的,因此,阳性样本可认为是含有相应的特征标记的样本。例如,样本A包含特征标记1,那么对于特征标记1的靶标来说,样本A是阳性样本;样本B不包含特征标记2,那么对于特征标记2的靶标来说,样本B是阴性样本。
需要说明的是,在待检微生物是病原微生物的情况下,本发明的检测结果不与疾病直接相关,即在获得本发明微生物检测结果的情况下,还不能直接获得疾病的诊断结果或健康状况。因此,本发明的方法并不是以获得疾病的诊断结果或健康状况为直接目的,而仅仅是以获得待检样本中相关微生物(包括病原微生物)的存在与否为直接目的。因此,本质上,本发明的方法并不是疾病诊断方法。例如,在病原微生物是乙肝病毒的情况下,检测到待检样本(例如血液)中存在乙肝病毒,也不能直接确定其主体是否为乙肝患者,因为血液中存在乙肝病毒反映出该血液主体为乙肝病毒携带者,但乙肝病毒携带者可为肝功能正常的乙肝病毒携带者和肝功能受损的乙肝病毒携带者。在肝功能正常的乙肝病毒携带者中,有些携带者的病毒检测结果可自然转阴,结束携带状态;有些携带者可以为持续终生的携带者;有些携带者可发展为肝炎。因此根据血液中乙肝病毒的存在不能直接判定其主体是否患有乙型肝炎或患有乙型肝炎的风险度。类似地,检测到其他待检微生物,也不能直接确定相关疾病的发生与否。
此外,本发明的方法本质上属于一种生物信息学分析方法,该方法的起始点为靶向扩增测序序列数据,而不是直接针对人体或人体的离体样本进行的实验处理。
本发明实施例中,待检微生物含有一个或多个特征标记,该“特征标记”用于表征待检微生物的存在情况。这样的特征标记可以是病原及对应病原的耐药基因、毒力因子等,其中病原例如细菌、DNA/RNA病毒、真菌和原虫等。
本发明实施例中,所谓“靶向扩增测序序列”即针对特定核酸片段(例如基因)进行特异性靶向扩增得到的序列进行测序得到的结果。所谓“特定核酸片段”可以是特定微生物特有的核酸序列(例如保守基因序列),这些序列的存在能够特异性表征相关微生物在样本中的存在。本发明实施例中,靶向扩增可以按照本领域公知的技术进行。这种靶向扩增可以是多重引物引导下的多重扩增,即同时针对多个特定核酸片段设计相应的扩增引物在同一个体系中实现同步扩增。
本发明实施例中,靶向扩增测序序列也称为“靶向扩增测序序列数据”,是指使用靶向扩增技术对微生物基因组(优选地,也包括宿主基因组,例如人源基因组)进行靶向扩增,然后将扩增结果进行测序得到的下机序列,包括一系列测序读长(reads),包括原始测序数据,也包括进一步处理后的数据。但是,为了提高比对准确性,去除接头序列、读长较短的序列以及测序质量值较低等序列的影响,优选地对靶向扩增测序序列进行过滤。例如,在一个实施例中,过滤掉与接头序列共有连续10bp碱基的序列;过滤掉读长低于一定阈值(默认50bp)的序列;并且过滤掉测序质量值小于5的碱基占比大于50%的序列。
本发明实施例中,所谓“靶标”是指用于标识特征标记存在的序列,例如一个耐药基因或毒力因子基因中的一部分序列片段,该序列片段可以是该基因独有且保守的序列,每个特征标记可以有多个靶标,例如,在特征标记是基因的情况下,靶标可以是该基因的多个外显子(或内含子)。在优选的是实例中,特征标记包括至少3个用于标识该特征标记的靶标。每个特征标记的靶标中大于50%的靶标检出视为该特征标记检出,例如,在某个特征标记有3个靶标的情况下,有2个以上(包括2个)靶标被检出,就表明该特征标记被检出。一般而言,用于标识某个特征标记的靶标数量越多,越能精确确定该特征标记在样本中的存在情况。
S102:将上述靶向扩增测序序列比对到靶标序列数据库,该靶标序列数据库包括多个靶标,每个靶标用于标识一群微生物的多个特征标记中的一个,每个靶标具有设定的检出阈值。
为了获得高质量比对结果,本发明实施例中,可以按照一定的原则对比对结果进行筛选。在本发明一个实施例中,按照以下原则筛选获得高质量比对结果:(a)原则一:保留比对长度占比大于90%的序列,即单条序列比对上参考序列的长度大于90%序列全长的序列;(b)原则二:保留错配碱基数小于5%的序列,即比对上部分由于测序错误产生与参考序列不一致的碱基数比例小于5%的序列;(c)原则三:保留比对特异性的序列,为保证结果精确性,如果一条序列比对上不同靶标区域,根据多比对结果的分值差比(即次优比对除以最优比对小于设定值,例如0.8)进行特异性比对序列筛选,获得“唯一”比对序列。
本发明实施例中,靶标序列数据库主要包括用于标识一群微生物(例如一个症候群)的靶标。在优选实施例中,靶标序列数据库还包括内参靶标,即宿主基因组(例如人类基因组)中一段保守序列(例如人类基因组HFM基因上的一段区域),这段序列在所有宿主样本中存在,可以作为内参。就是说,如果一个样本的检测结果没有微生物靶标序列,但有一定的内参靶标序列,可以说明实验中扩增步骤没有问题;如果没有内参靶标序列,检测结果中没有微生物靶标序列,尚不能排除是样本中本来就没有微生物靶标序列,还是实验扩增不成功造成的。
在本发明一个实施例中,针对一个症候群待检测的病原(或耐药基因、毒力因子),每个病原(或耐药基因、毒力因子)筛选至少3个靶标,与内参靶标一起构成靶标序列数据库。
本发明实施例中,所谓“一群微生物”是指一种症候群。这样的症候群例如可以选自血流感染症候群、脑炎脑膜炎症候群、呼吸道感染症候群或腹泻症候群,更优选血流感染症候群或脑炎脑膜炎症候群等。
本发明实施例中,每个靶标具有设定的检出阈值。为确定每个靶标的检出阈值,对每个特征标记(病原及其耐药基因或毒力因子),可以使用受试者工作特征曲线(receiveroperator characteristic curve,ROC曲线)方法,确定检出阈值。在本发明一个实施例中,针对病原(或耐药基因、毒力因子),使用30例以上阳性样本,800例以上阴性样本(未检出该病原或耐药基因、毒力因子的样本),获得每个样本中该病原(或耐药基因、毒力因子)对应靶标的检出序列数,根据对应靶标的检出序列数绘制ROC曲线,并基于ROC曲线灵敏度和特异性最佳的点,对应的靶标的检出序列数,得到每个靶标的检出阈值。确定每个靶标的检出阈值的替代方法还包括,使用阴性样本检出序列数分布来确定检出阈值。例如,假设对某一病原的第一个靶标,有30例阳性样本,800例阴性样本。将800例阴性样本的检出值用分布函数拟合(比如正态分布),计算出分布的参数,从而计算出分布的95%分位点,作为这个靶标的检出阈值。
本发明实施例中,待检样本通常来源于宿主组织液(例如血液或脑脊液),因此,样本核酸的一个组成部分为宿主核酸,经过靶向扩增后,测序结果中存在部分宿主源序列,为丰富检测结果指标,提供更全面信息,本发明的优选实施例中,还将测序数据比对到宿主基因组序列(例如人参考基因组序列),并计算宿主源序列占比。具体而言,在本发明一个实施例中,将比对到靶标序列数据库的序列去除以后的其它序列比对到宿主基因组数据库,并计算待检样本中的宿主序列比例,以用于检测结果的质控。例如,当序列比对长度占比达到80%时,判断为宿主序列。在本发明一个实施例中,如果一个样本结果中宿主序列比例较高(例如,大于50%),且内参占比较小(例如,小于10%),并且靶标检出结果未达到检出阈值,则提示该样本实验扩增失败,需要重做实验。典型但非限定性的宿主基因组序列数据库包含从NCBI官方网站下载的人类参考基因组(hg19)以及从炎黄基因组公共数据库官方网站下载的炎黄基因组序列。
S103:统计每个靶标的检出序列数,该检出序列数包括仅比对到该靶标的序列数以及次优比对分数除以最优比对分数的结果小于设定值的序列数,其中最优比对分数为比对到该靶标的分数,次优比对分数为比对到其它靶标的分数。
本发明实施例中,所谓“检出序列数”又称为“唯一比对序列数”,包括两部分:(a)如果某条序列仅比对到该靶标(即“当前靶标”),则这条序列被视为该靶标的检出序列;(b)如果某条序列比对到该靶标(即“当前靶标”),同时也比对到其它靶标,但当前靶标是最优比对靶标,即比对分数最高的靶标,并且比对到次优比对靶标(即比对分数第二大)的比对分数除以比对到最优比对靶标的比对分数小于设定值,这样的序列也被视为当前靶标的唯一比对序列。满足上述(a)、(b)中任意一个的序列,被称为当前靶标的“检出序列数”。
在本发明的优选实施例中,上述设定值为0.8,即次优比对除以最优比对的结果小于0.8的序列,也视为“唯一比对序列”。例如,某一序列比对到A靶标的分数为50,比对到B靶标的分数为30,由于30/50<0.8,则这条序列被视为A靶标的唯一比对序列。A靶标的所有唯一比对序列条数就是“唯一比对序列数”。
本发明实施例中,“检出序列数”或“唯一比对序列数”可以是原始数据,即原始序列条数,也可以是原始序列条数作归一化或标准化计算以后的数据,这种归一化或标准化以后的“检出序列数”或“唯一比对序列数”可以被称为“标准化唯一比对序列数(SDSMRN)”。归一化或标准化的数值相比原始数据变小,易于统计和图形化展示。
例如,在一个实施例中,以1兆条下机数据为标准进行标准化,比如某样本下机数据有2000000条序列,靶标A的“唯一比对序列数”(原始数据)有500条,那么“标准化唯一比对序列数”是500*1000000/2000000=250条(就是说,所有的下机数据均用1000000来进行标准化)。此外,标准化计算还可以包括取对数计算,例如取以10为底数的对数。为了统计和图形化展示,可以对“唯一比对序列数”或“标准化唯一比对序列数”取以10为底数的对数值,以其结果作为“检出序列数”。总之,无论对原始数据作何种归一化或标准化计算,其结果都可以作为“检出序列数”。
S104:将每个靶标的检出序列数与每个靶标的检出阈值进行比较,上述检出序列数大于上述检出阈值即为检出,根据每个靶标的检出结果确定每个特征标记的检出结果,即得上述待检微生物的检测结果。
通过步骤S103,获得待检样本中每个特征标记(病原及其耐药基因或毒力因子)的每个靶标的检出序列数,然后根据解读逻辑自动化判断每个病原(或耐药基因、毒力因子)是否检出,生成检测结果表。在本发明一个实施例中,解读逻辑如下:(a)对于每个靶标,检出序列数大于检出阈值即为检出;(b)对每个病原(或耐药基因、毒力因子),设置至少3个靶标,大于50%的靶标检出时,该病原(或耐药基因、毒力因子)视为检出;(c)如果阴性对照中也检出该病原(或耐药基因、毒力因子),则该病原(或耐药基因、毒力因子)属于假阳性结果,不报告检出。
在本发明优选实施例中,同步检测多个待检样本,并图形化输出同步检测的多个待检样本中至少一个靶标的检出结果以确定交叉污染的存在与否。其中,上述多个待检样本来自同批次同类型样本,如果针对某一靶标,同批次同类型样本中,阴性样本作为对照,在阴性对照样本中有一个以上检测到该靶标存在,则认为发生批次内污染,结果可靠性较低;如果针对某一靶标,在所有阴性对照样本中未检测到该靶标存在,则认为没有发生批次内污染,结果可靠性较高。
在本发明的最终应用场景中,可以使用PDF文档格式展示报告,也可以使用HTML格式展示报告,HTML格式交互性会更好。
本发明方法的技术优势体现在:本发明方法为创新型技术,具有检测周期短、检测成本低、可扩展性强的优点。
本发明方法在临床应用上的价值体现在:本发明为基于靶向扩增测序的微生物检测建立自动化分析流程,采用对待检样本中的微生物进行靶向扩增测序,对下机序列分析获得靶标的检出序列数,根据解读规则判断病原或耐药基因、毒力因子是否检出,这对于特定症候群样本中未知病原微生物的快速确定具有重大价值。
本发明方法提供了高效的自动化分析流程。本发明方法检测样本中的病原微生物的结果准确度高,速度快,成本低,可全过程实现自动化,以原始测序数据为数据源,自动生成高质量的结果报告。本方法对计算机I/O资源、内存资源有很好控制。以管道技术代替以往以文件作为信息交换的方式,以文件块切割的方式作为大数据计算慢的解决方案,在理论上可以使本发明适应任何Unix/Linux的操作系统环境。
本发明方法报告简单直观。本发明的解读逻辑从灵敏度和特异性两方面考虑,尽可能减少检出假阳性。本发明的检测报告具有简单易读的特点,可视化结果和病原微生物信息都有助于提高解读效率。
如图2所示,对应于本发明的基于靶向扩增测序的微生物检测方法,本发明一个实施例还提供一种基于靶向扩增测序的微生物检测装置,包括:获取单元201,用于获取待检样本的靶向扩增测序序列,上述待检样本中包含可能存在的待检微生物的至少一个特征标记,每个特征标记包括至少一个用于标识该特征标记的靶标;比对单元202,用于将上述靶向扩增测序序列比对到靶标序列数据库,该靶标序列数据库包括多个靶标,每个靶标用于标识一群微生物的多个特征标记中的一个,每个靶标具有设定的检出阈值;统计单元203,用于统计每个靶标的检出序列数,该检出序列数包括仅比对到该靶标的序列数以及次优比对分数除以最优比对分数的结果小于设定值的序列数,其中最优比对分数为比对到该靶标的分数,次优比对分数为比对到其它靶标的分数;和比较单元204,用于将每个靶标的检出序列数与每个靶标的检出阈值进行比较,上述检出序列数大于上述检出阈值即为检出,根据每个靶标的检出结果确定每个特征标记的检出结果,即得上述待检微生物的检测结果。
相应地,本发明一种实施例中提供一种计算机可读存储介质,包括程序,该程序能够被处理器执行以实现如本发明的微生物检测方法。
本领域技术人员可以理解,上述实施方式中各种方法的全部或部分功能可以通过硬件的方式实现,也可以通过计算机程序的方式实现。当上述实施方式中全部或部分功能通过计算机程序的方式实现时,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器、随机存储器、磁盘、光盘、硬盘等,通过计算机执行该程序以实现上述功能。例如,将程序存储在设备的存储器中,当通过处理器执行存储器中程序,即可实现上述全部或部分功能。另外,当上述实施方式中全部或部分功能通过计算机程序的方式实现时,该程序也可以存储在服务器、另一计算机、磁盘、光盘、闪存盘或移动硬盘等存储介质中,通过下载或复制保存到本地设备的存储器中,或对本地设备的系统进行版本更新,当通过处理器执行存储器中的程序时,即可实现上述实施方式中全部或部分功能。
以下通过实施例详细说明本发明的技术方案,应当理解,实施例仅是示例性的,不能理解为对本发明保护范围的限制。
实施例
从医院获得76例临床样本,脑脊液和全血样本各38例。处理流程概况如下所示:(a)对该批样本进行试验处理(靶向扩增),使用阴性对照样本进行对照质控:UP335CSFNC1-DB25(脑脊液阴性对照,人工脑脊液+hela细胞)、TargetFPVOAAASE-2(全血阴性对照,hela细胞)。(b)然后使用BGISEQ-500测序平台测序,产生的数据先做质控预处理,然后将其比对到靶标序列数据库,得到序列比对结果文件,计算检出序列数,最终产生文本及图形化的可读结果文件。(c)将未比对到靶标的数据比对到宿主的参考基因组,获得宿主序列占比,结合其他步骤的输出结果,产生每个样本的组成成分统计数据。
本实施例的方法流程详述如下:
(1)靶标的检出阈值确定
使用靶向扩增技术对本实施例的临床样本的微生物基因组、人源基因组进行靶向扩增,将扩增结果使用BGISEQ-500测序平台测序得到下机序列,再将下机序列与靶标序列库进行比对,获得每个靶标的序列数。针对症候群检测的病原(或耐药基因、毒力因子),每个病原(或耐药基因、毒力因子)已经筛选至少3个靶标,与内参靶标(HFM基因)一起构成靶标序列数据库。
为确定每个靶标的检出阈值,对每个病原(或耐药基因、毒力因子),使用30例以上阳性样本,800例以上阴性样本(未检出该病原或耐药基因、毒力因子的样本),获得每个样本中该病原(或耐药基因、毒力因子)对应靶标的检出序列数,根据受试者工作特征曲线(ROC曲线)方法,确定每个靶标的检出阈值。
(2)宿主基因组数据库整理
经过靶向扩增后,测序结果中存在部分人源序列,为丰富检测结果指标,提供更全面信息,将测序数据比对人参考基因组序列并计算人源序列占比。本实施例搭建的宿主基因组数据库包含从NCBI官方网站下载人类参考基因组(hg19)以及从炎黄基因组公共数据库官方网站下载的炎黄基因组序列两部分。
(3)参数选择
详细的配置参数如下表1所示:
表1
Figure BDA0001788899490000111
Figure BDA0001788899490000121
(4)数据质控
使用测序平台BGISEQ-500对靶向扩增后的临床样本进行测序后,从三方面对原始测序数据进行过滤:
方面一:过滤与接头序列共有连续10bp碱基的序列。
方面二:过滤读长低于一定阈值(默认50bp)的序列。
方面三:过滤测序质量值小于5的碱基占比大于50%的序列。
(5)靶标序列数据库比对及质控
将步骤(4)中过滤后的序列比对到步骤(1)中获得的靶标序列数据库,然后对比对结果进行质量控制,按照以下筛选原则获得高质量比对结果:
原则一:保留比对长度占比大于90%的序列,即单条序列比对上参考序列的长度等于90%序列全长。
原则二:保留错配碱基数小于5%的序列,即比对上部分由于测序错误产生与参考序列不一致的碱基数比例小于5%。
原则三:保留比对特异性的序列,为保证结果精确性,如果一条序列比对上不同靶标区域,根据多比对结果的分值差比(即次优比对除以最优比对小于0.8)进行特异性比对序列筛选,获得“唯一”比对序列。
(6)宿主序列统计
将步骤(4)中过滤后的序列,去除步骤(5)中比对到靶标序列库的序列,再比对到步骤(2)中获得的宿主参考基因组文件上。当序列比对长度占比达到80%时,则判断为宿主序列。
(7)靶标注释分析
根据步骤(5)中的靶标序列数据库的比对结果,对检出靶标统计以下指标:
(a)标准化比对序列数(SDMRN):比对上该靶标区域的标准化序列数。
(b)标准化唯一比对序列数(SDSMRN):唯一比对到该靶标区域的标准化序列数,本实施例用“检出序列数”表示该指标,表示该靶标区域的检出序列数量。
(8)自动化解读结果
根据步骤(7),获得样本中每个病原(或耐药基因、毒力因子)的靶标检出序列数,根据解读逻辑自动化判断每个病原(或耐药基因、毒力因子)是否检出,生成检测结果表。解读逻辑如下:
(a)对每个靶标,检出序列数大于检出阈值即为检出。
(b)对每个病原(或耐药基因、毒力因子),需设置至少3个靶标,大于50%的靶标检出时该病原(或耐药基因、毒力因子)检出。
(c)如果阴性对照中也检出该病原(或耐药基因、毒力因子),则该病原(或耐药基因、毒力因子)属于假阳性结果,不报告检出。
在检测结果表中,只展示病原(或耐药基因、毒力因子)靶标检出序列数之和大于10的结果。
(9)结果可视化
统计每个有检出的靶标在同批次样本中的检出情况,判断是否存在批次内污染情况。
(10)报告产生
基于latex语言自动化生成tex格式报告并转换成pdf文档格式的检测分析报告,报告展示内容包含受检者基本信息和样本信息,以及如下检测结果:
(a)微生物鉴定结果:展示特定症候群所检测的所有微生物列表,以细菌、病毒、真菌、寄生虫进行分类,用+/-表示样本是否检出该微生物。
(b)耐药毒力鉴定结果:展示特定症候群产品所检测的所有耐药基因、毒力因子列表,用+/-表示样本是否检出该耐药基因或毒力因子。只有当耐药基因或毒力因子对应微生物也检出时,才报告该耐药基因或毒力因子检出。
表2示出了一个样本(编号UP335CSF17XH0055-DB19)的检测结果,“是否检出(过滤阴性对照结果)”如果为P,则表示该样本检出该微生物(或耐药基因、毒力因子)。根据表2,可以看出微生物Human_herpesvirus_6的2、3号靶标检出序列数明显较高,自动判断该微生物检出。
表2
Figure BDA0001788899490000131
Figure BDA0001788899490000141
图3展示微生物Human_herpesvirus_6的3个靶标在批次内所有脑脊液样本的检出结果,其中实心点表示临床样本,空心点表示阴性对照样本。结合图3,可以看出,该微生物在其它样本内未明显检出,因此可以排除交叉污染,进一步确认检出该微生物。
以上应用了具体个例对本发明进行阐述,只是用于帮助理解本发明,并不用以限制本发明。对于本发明所属技术领域的技术人员,依据本发明的思想,还可以做出若干简单推演、变形或替换。

Claims (10)

1.一种基于靶向扩增测序的微生物检测方法,其特征在于,所述方法包括:
获取待检样本的靶向扩增测序序列,所述待检样本中包含可能存在的待检微生物的至少一个特征标记,每个特征标记包括至少一个用于标识该特征标记的靶标;
将所述靶向扩增测序序列比对到靶标序列数据库,所述靶标序列数据库包括多个靶标,每个靶标用于标识一群微生物的多个特征标记中的一个,每个靶标具有设定的检出阈值;
统计每个靶标的检出序列数,所述检出序列数包括仅比对到该靶标的序列数以及次优比对分数除以最优比对分数的结果小于设定值的序列数,其中最优比对分数为比对到该靶标的分数,次优比对分数为比对到其它靶标的分数;和
将每个靶标的检出序列数与每个靶标的检出阈值进行比较,所述检出序列数大于所述检出阈值即为检出,根据每个靶标的检出结果确定每个特征标记的检出结果,即得所述待检微生物的检测结果。
2.根据权利要求1所述的微生物检测方法,其特征在于,所述靶标的检出阈值是通过ROC曲线方法或阴性样本检出序列数分布方法确定的。
3.根据权利要求1所述的微生物检测方法,其特征在于,所述特征标记包括病原、耐药基因、毒力因子中的一个或多个;优选地,所述病原选自细菌、DNA/RNA病毒、真菌和原虫中的一个或多个;
优选地,每个特征标记包括至少3个用于标识该特征标记的靶标;优选地,每个特征标记的靶标中大于50%的靶标检出视为该特征标记检出。
4.根据权利要求1所述的微生物检测方法,其特征在于,所述靶标序列数据库还包括内参靶标,所述内参靶标选自所述微生物的宿主的保守基因序列。
5.根据权利要求1所述的微生物检测方法,其特征在于,所述一群微生物为一种症候群;优选地,所述症候群选自血流感染症候群、脑炎脑膜炎症候群、呼吸道感染症候群或腹泻症候群,更优选血流感染症候群或脑炎脑膜炎症候群。
6.根据权利要求1所述的微生物检测方法,其特征在于,所述设定值为0.8。
7.根据权利要求1所述的微生物检测方法,其特征在于,所述靶向扩增测序序列还包括宿主序列,所述方法还包括:
将比对到所述靶标序列数据库的序列去除以后的其它序列比对到宿主基因组数据库,并计算所述待检样本中的宿主序列比例,以用于检测结果的质控;优选地,所述宿主基因组数据库包含从NCBI官方网站下载的人类参考基因组以及从炎黄基因组公共数据库官方网站下载的炎黄基因组序列两部分。
8.根据权利要求1所述的微生物检测方法,其特征在于,所述方法包括同步检测多个待检样本,并图形化输出同步检测的多个待检样本中至少一个靶标的检出结果以确定交叉污染的存在与否;优选地,所述待检样本为同批次同类型样本。
9.一种基于靶向扩增测序的微生物检测装置,其特征在于,所述装置包括:
获取单元,用于获取待检样本的靶向扩增测序序列,所述待检样本中包含可能存在的待检微生物的至少一个特征标记,每个特征标记包括至少一个用于标识该特征标记的靶标;
比对单元,用于将所述靶向扩增测序序列比对到靶标序列数据库,所述靶标序列数据库包括多个靶标,每个靶标用于标识一群微生物的多个特征标记中的一个,每个靶标具有设定的检出阈值;
统计单元,用于统计每个靶标的检出序列数,所述检出序列数包括仅比对到该靶标的序列数以及次优比对分数除以最优比对分数的结果小于设定值的序列数,其中最优比对分数为比对到该靶标的分数,次优比对分数为比对到其它靶标的分数;和
比较单元,用于将每个靶标的检出序列数与每个靶标的检出阈值进行比较,所述检出序列数大于所述检出阈值即为检出,根据每个靶标的检出结果确定每个特征标记的检出结果,即得所述待检微生物的检测结果。
10.一种计算机可读存储介质,其特征在于,包括程序,所述程序能够被处理器执行以实现如权利要求1-8中任一项所述的方法。
CN201811027464.6A 2018-09-04 2018-09-04 一种基于靶向扩增测序的微生物检测方法和装置 Active CN110875082B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811027464.6A CN110875082B (zh) 2018-09-04 2018-09-04 一种基于靶向扩增测序的微生物检测方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811027464.6A CN110875082B (zh) 2018-09-04 2018-09-04 一种基于靶向扩增测序的微生物检测方法和装置

Publications (2)

Publication Number Publication Date
CN110875082A true CN110875082A (zh) 2020-03-10
CN110875082B CN110875082B (zh) 2022-05-31

Family

ID=69716971

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811027464.6A Active CN110875082B (zh) 2018-09-04 2018-09-04 一种基于靶向扩增测序的微生物检测方法和装置

Country Status (1)

Country Link
CN (1) CN110875082B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112687343A (zh) * 2020-12-31 2021-04-20 杭州柏熠科技有限公司 基于纳米孔测序的广谱病原微生物及耐药分析系统
CN113284560A (zh) * 2021-04-28 2021-08-20 广州微远基因科技有限公司 病原检测背景微生物判断方法及应用
WO2021196357A1 (zh) * 2020-04-02 2021-10-07 上海之江生物科技股份有限公司 微生物的种特异共有序列的获得方法、装置及应用
CN114187968A (zh) * 2020-09-15 2022-03-15 深圳华大生命科学研究院 基于ngs技术的无菌检测方法

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1876844A (zh) * 2005-05-17 2006-12-13 埃佩多夫阵列技术股份有限公司 在阵列上对遗传修饰植物特异的核苷酸序列元件的鉴定和/或定量
US20110152109A1 (en) * 2009-12-21 2011-06-23 Gardner Shea N Biological sample target classification, detection and selection methods, and related arrays and oligonucleotide probes
CN102628082A (zh) * 2012-04-10 2012-08-08 凯晶生物科技(苏州)有限公司 基于高通量测序技术进行核酸定性定量检测的方法
CN105525033A (zh) * 2014-09-29 2016-04-27 天津华大基因科技有限公司 检测血液中微生物的方法及装置
CN105671150A (zh) * 2016-01-29 2016-06-15 江汉大学 一种人体微生物定性与定量的检测方法
CN106282356A (zh) * 2016-08-30 2017-01-04 天津诺禾医学检验所有限公司 一种基于扩增子二代测序点突变检测的方法及装置
US20170002432A1 (en) * 2015-06-30 2017-01-05 uBiome, Inc. Method and system for diagnostic testing
CN106372459A (zh) * 2016-08-30 2017-02-01 天津诺禾致源生物信息科技有限公司 一种基于扩增子二代测序拷贝数变异检测的方法及装置
US20170191116A1 (en) * 2014-06-04 2017-07-06 Quest Diagnostics Investments Incorporated Method for direct microbial identification
US20180080068A1 (en) * 2016-09-16 2018-03-22 Fluxion Biosciences, Inc. Methods and Systems for Ultra-Sensitive Detection of Genomic Alterations
CN108304693A (zh) * 2018-01-23 2018-07-20 元码基因科技(北京)股份有限公司 利用高通量测序数据分析基因融合的方法
CN108334750A (zh) * 2018-04-19 2018-07-27 江苏先声医学诊断有限公司 一种宏基因组数据分析方法及系统

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1876844A (zh) * 2005-05-17 2006-12-13 埃佩多夫阵列技术股份有限公司 在阵列上对遗传修饰植物特异的核苷酸序列元件的鉴定和/或定量
US20110152109A1 (en) * 2009-12-21 2011-06-23 Gardner Shea N Biological sample target classification, detection and selection methods, and related arrays and oligonucleotide probes
CN102628082A (zh) * 2012-04-10 2012-08-08 凯晶生物科技(苏州)有限公司 基于高通量测序技术进行核酸定性定量检测的方法
US20170191116A1 (en) * 2014-06-04 2017-07-06 Quest Diagnostics Investments Incorporated Method for direct microbial identification
CN105525033A (zh) * 2014-09-29 2016-04-27 天津华大基因科技有限公司 检测血液中微生物的方法及装置
US20170002432A1 (en) * 2015-06-30 2017-01-05 uBiome, Inc. Method and system for diagnostic testing
CN107849599A (zh) * 2015-06-30 2018-03-27 优比欧迈公司 用于诊断测试的方法和系统
CN105671150A (zh) * 2016-01-29 2016-06-15 江汉大学 一种人体微生物定性与定量的检测方法
CN106282356A (zh) * 2016-08-30 2017-01-04 天津诺禾医学检验所有限公司 一种基于扩增子二代测序点突变检测的方法及装置
CN106372459A (zh) * 2016-08-30 2017-02-01 天津诺禾致源生物信息科技有限公司 一种基于扩增子二代测序拷贝数变异检测的方法及装置
US20180080068A1 (en) * 2016-09-16 2018-03-22 Fluxion Biosciences, Inc. Methods and Systems for Ultra-Sensitive Detection of Genomic Alterations
CN108304693A (zh) * 2018-01-23 2018-07-20 元码基因科技(北京)股份有限公司 利用高通量测序数据分析基因融合的方法
CN108334750A (zh) * 2018-04-19 2018-07-27 江苏先声医学诊断有限公司 一种宏基因组数据分析方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CHEN CHEN 等: "The microbiota continuum along the female reproductive tract and its relation to uterine-related diseases", 《NATURE COMMUNICATIONS》 *
姚雪 等: "宏基因组靶向测序分析皮肤表面微生物群落方法优化", 《生物技术通报》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021196357A1 (zh) * 2020-04-02 2021-10-07 上海之江生物科技股份有限公司 微生物的种特异共有序列的获得方法、装置及应用
CN114187968A (zh) * 2020-09-15 2022-03-15 深圳华大生命科学研究院 基于ngs技术的无菌检测方法
CN112687343A (zh) * 2020-12-31 2021-04-20 杭州柏熠科技有限公司 基于纳米孔测序的广谱病原微生物及耐药分析系统
CN113284560A (zh) * 2021-04-28 2021-08-20 广州微远基因科技有限公司 病原检测背景微生物判断方法及应用

Also Published As

Publication number Publication date
CN110875082B (zh) 2022-05-31

Similar Documents

Publication Publication Date Title
CN110349630B (zh) 血液宏基因组测序数据的分析方法、装置及其应用
CN113160882B (zh) 一种基于三代测序的病原微生物宏基因组检测方法
CN110875082B (zh) 一种基于靶向扩增测序的微生物检测方法和装置
US20250182850A1 (en) Creation or use of anchor-based data structures for sample-derived characteristic determination
CN113066533B (zh) 一种mNGS病原体数据分析方法
CN109273053A (zh) 一种高通量测序的微生物数据处理方法
CN105986013A (zh) 确定微生物种类的方法和装置
WO2017129110A1 (zh) 一种人体微生物定性与定量的检测方法
CN114121160A (zh) 一种检测样本中宏病毒组的方法和系统
CN113481311B (zh) 用于鉴定布鲁氏菌疫苗株m5的snp分子标记及其应用
CN117690483B (zh) 一种基于病原宏基因二代测序的耐药基因检测方法
CN113355438A (zh) 一种血浆微生物物种多样性评估方法、装置和存储介质
Valdes et al. Application of metagenomic sequencing in the diagnosis of infectious uveitis
CN112331268A (zh) 目标物种特有序列的获取方法及目标物种检测方法
CN105603074B (zh) 一种非诊断目的微生物定性与定量的检测方法
CN105603081B (zh) 一种非诊断目的的肠道微生物定性与定量的检测方法
Haagmans et al. Assessing bias and reproducibility of viral metagenomics methods for the combined detection of faecal RNA and DNA viruses
CN110970093B (zh) 一种筛选引物设计模板的方法、装置及应用
CN105567831B (zh) 一种食品微生物定性与定量的检测方法
CN105603075A (zh) 一种小麦微生物定性与定量的检测方法
WO2023021978A1 (ja) 自己免疫疾患を検査する方法
CN119694393B (zh) 一种分析病原微生物样本交叉污染的方法、系统、设备和介质
Ramachandran et al. An approach to pathogen discovery for viral infections of the nervous system
CN105713967B (zh) 一种水体微生物定性与定量的检测方法
CN117524313A (zh) 一种病原体宏基因组测序数据的分析方法、装置及其应用

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20210622

Address after: 518057 room 201203a5, building w2a, building B, building a, Gaoxin industrial village, 025 Gaoxin South 4th Road, Gaoxin community, Yuehai street, Nanshan District, Shenzhen City, Guangdong Province

Applicant after: Shenzhen Huada Yinyuan Pharmaceutical Technology Co.,Ltd.

Applicant after: Huada Biotechnology (Wuhan) Co.,Ltd.

Address before: 518057 room 201203a5, building w2a, building B, building a, Gaoxin industrial village, 025 Gaoxin South 4th Road, Gaoxin community, Yuehai street, Nanshan District, Shenzhen City, Guangdong Province

Applicant before: Shenzhen Huada Yinyuan Pharmaceutical Technology Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant