[go: up one dir, main page]

CN118969072B - 样本污染检测方法、装置、设备、存储介质和程序产品 - Google Patents

样本污染检测方法、装置、设备、存储介质和程序产品 Download PDF

Info

Publication number
CN118969072B
CN118969072B CN202411434442.7A CN202411434442A CN118969072B CN 118969072 B CN118969072 B CN 118969072B CN 202411434442 A CN202411434442 A CN 202411434442A CN 118969072 B CN118969072 B CN 118969072B
Authority
CN
China
Prior art keywords
pollution
sample
detected
base
fragments
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202411434442.7A
Other languages
English (en)
Other versions
CN118969072A (zh
Inventor
许佳悦
邓泽亮
汉雨生
李冰思
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Burning Rock Dx Co ltd
Original Assignee
Guangzhou Burning Rock Dx Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Burning Rock Dx Co ltd filed Critical Guangzhou Burning Rock Dx Co ltd
Priority to CN202411434442.7A priority Critical patent/CN118969072B/zh
Publication of CN118969072A publication Critical patent/CN118969072A/zh
Application granted granted Critical
Publication of CN118969072B publication Critical patent/CN118969072B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/50Mutagenesis

Landscapes

  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Genetics & Genomics (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Chemical & Material Sciences (AREA)
  • Molecular Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Analytical Chemistry (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本申请涉及一种样本污染检测方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。所述方法包括:获取待测样本中单核苷酸多态性(SNP)位点对应的待测突变碱基片段数和总碱基片段数;获取无污染样本中SNP位点对应突变碱基片段的出现频率;基于预先确定的突变碱基片段数对应的目标分布信息,使用待测突变碱基片段数、总碱基片段数和出现频率进行污染比例的似然估计,得到待测样本的污染比例;根据污染比例确定待测样本的交叉污染检测结果。采用本方法能够提高交叉污染检测的准确性。

Description

样本污染检测方法、装置、设备、存储介质和程序产品
技术领域
本申请涉及生物信息技术领域,特别是涉及一种样本污染检测方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
背景技术
‌甲基化二代测序是一种利用二代测序技术对DNA甲基化片段进行测序的方法。该方法不仅具有高通量、高准确性和低成本的优势,而且能够直接对任意物种进行测序,具有较高的灵活性。
在甲基化二代测序的过程中样本间的交叉污染在文库的准备过程中是常见的问题,比如,在样本的采集、处理、运输和检测多个环节中,任何微小的操作不当都可能导致样本的交叉污染。目前,在对二代测序数据交叉污染检测时,通常是分析待测样本的SNP(单核苷酸多态性)位点的等位基因频率进行交叉污染检测。
然而,当待测样本中存在交叉污染时,基因组异常下的等位基因频率改变容易导致检测错误,如癌症样本往往被错误地检测为污染样本,从而导致交叉污染的检测的准确性降低。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高交叉污染检测准确信的样本污染检测方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
第一方面,本申请提供了一种样本污染检测方法,包括:
获取待测样本中单核苷酸多态性(SNP)位点对应的待测突变碱基片段数和总碱基片段数;
获取无污染样本中SNP位点对应突变碱基片段的出现频率;
基于预先确定的突变碱基片段数对应的目标分布信息,使用待测突变碱基片段数、总碱基片段数和出现频率进行污染比例的似然估计,得到待测样本的污染比例;
根据污染比例确定待测样本的交叉污染检测结果。
第二方面,本申请还提供了一种样本污染检测装置,包括:
片段数获取模块,用于获取待测样本中单核苷酸多态性(SNP)位点对应的待测突变碱基片段数和总碱基片段数;
频率获取模块,用于获取无污染样本中SNP位点对应突变碱基片段的出现频率;
污染估计模块,用于基于预先确定的突变碱基片段数对应的目标分布信息,使用待测突变碱基片段数、总碱基片段数和出现频率进行污染比例的似然估计,得到待测样本的污染比例;
结果确定模块,用于根据污染比例确定待测样本的交叉污染检测结果。
第三方面,本申请还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取待测样本中单核苷酸多态性(SNP)位点对应的待测突变碱基片段数和总碱基片段数;
获取无污染样本中SNP位点对应突变碱基片段的出现频率;
基于预先确定的突变碱基片段数对应的目标分布信息,使用待测突变碱基片段数、总碱基片段数和出现频率进行污染比例的似然估计,得到待测样本的污染比例;
根据污染比例确定待测样本的交叉污染检测结果。
第四方面,本申请还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取待测样本中单核苷酸多态性(SNP)位点对应的待测突变碱基片段数和总碱基片段数;
获取无污染样本中SNP位点对应突变碱基片段的出现频率;
基于预先确定的突变碱基片段数对应的目标分布信息,使用待测突变碱基片段数、总碱基片段数和出现频率进行污染比例的似然估计,得到待测样本的污染比例;
根据污染比例确定待测样本的交叉污染检测结果。
第五方面,本申请还提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
获取待测样本中单核苷酸多态性(SNP)位点对应的待测突变碱基片段数和总碱基片段数;
获取无污染样本中SNP位点对应突变碱基片段的出现频率;
基于预先确定的突变碱基片段数对应的目标分布信息,使用待测突变碱基片段数、总碱基片段数和出现频率进行污染比例的似然估计,得到待测样本的污染比例;
根据污染比例确定待测样本的交叉污染检测结果。
上述样本污染检测方法、装置、计算机设备、计算机可读存储介质和计算机程序产品,通过获取待测样本中SNP位点对应的待测突变碱基片段数和总碱基片段数,以及获取无污染样本中SNP位点对应突变碱基片段的出现频率。然后基于预先确定的突变碱基片段数对应的目标分布信息,使用待测突变碱基片段数、总碱基片段数和出现频率进行污染比例的似然估计,得到待测样本的污染比例。即通过预先确定的目标分布信息进行污染比例的似然估计,进而通过污染比例确定交叉污染检测结果,不需要去分析SNP位点的等位基因频率,可以减少待测样本中存在交叉污染时检测错误的情况,从而提高了交互污染检测的准确性。
附图说明
为了更清楚地说明本申请实施例或相关技术中的技术方案,下面将对本申请实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为一个实施例中样本污染检测方法的应用环境图;
图2为一个实施例中样本污染检测方法的流程示意图;
图3为一个具体实施例中模拟污染样本的污染比例估计示意图;
图4为一个具体实施例中不同梯度模拟污染样本的检测结果示意图;
图5为一个具体实施例中检测污染比例与真实梯度之间的线性关系示意图;
图6为一个具体实施例中样本污染检测方法的流程示意图;
图7为一个具体实施例中样本污染检测的流程框架示意图;
图8为一个实施例中样本污染检测装置的结构框图;
图9为一个实施例中计算机设备的内部结构图;
图10为另一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在本申请中,除非另有说明,否则本文中使用的科学和技术名词具有本领域技术人员所通常理解的含义。并且,本文中所用的蛋白质和核酸化学、分子生物学、细胞和组织培养、微生物学、免疫学相关术语和实验室操作步骤均为相应领域内广泛使用的术语和常规步骤。同时,为了更好地理解本申请,下面提供相关术语的定义和解释。
如本文所用,术语“样本污染”指待测样本在制备或其他处理过程中掺混了来自其他个体的样本的情况,例如,在待测序样本的制备过程中掺混了来自其他个体的核酸的情况。
如本文所用,术语“测序”:也即DNA测序,是指分析特定DNA片段的碱基序列,也就是腺嘌呤(A)、胸腺嘧啶(T)、胞嘧啶(C)与鸟嘌呤(G)的排列方式。甲基化测序是指对甲基化片段进行测序,灵活度高能够直接对任意物种高甲基化片段进行测序无需已知的基因组序列信息。甲基化靶向测序技术是一种高通量测序技术,可以高精度地检测基因组上的甲基化位点,并对其进行定量分析。
如本文所用,术语“突变”(mutation),是指基因的结构发生改变而导致细胞、病毒或微生物的基因型发生稳定的、可遗传的变化过程。
术语“SNP”(Single Nucleotide Polymorphism,单核苷酸多态性)主要是指基因组水平上由单个核苷酸的变异所引起的DNA(Deoxyribo Nucleic Acid,脱氧核糖核酸)序列多态性。SNP位点所表现的多态性只涉及到单个碱基的变异,这种变异可由单个碱基的转换或颠换所引起,也可以是碱基的插入或缺失所致。
术语“纯合SNP位点”是指一种SNP位点,在该位点上,所有与参考基因组进行比对的序列上的该位点都显示相同的碱基,且该碱基与参考基因组序列上该位点的碱基不同。例如,若参考基因组序列上某SNP位点上的碱基为G,而所有与参考基因组进行比对的序列上的该SNP位点上的碱基都为A,则该SNP位点则被称为纯合SNP位点。如本文所用,术语“突变碱基片段的出现频率”:也称为VAF(variant allelic frequency,变异等位基因频率),用于表征目标位点上含有突变SNP的片段数目占覆盖该SNP的所有片段数目的比例,即是指SNP位点上出现突变碱基片段的频率,当野生型为T时,VAF接近于1。例如:SNP位点可以是碱基A突变成碱基T的位点,或者碱基T突变成碱基A的位点。
如本文所用,术语“目标分布信息”是指各个SNP位点中突变碱基片段的数量服从的分布信息。比如,突变碱基片段的数量服从的分布可以是泊松分布或者正态分布。
如本文所用,术语“污染比例”用于表征污染片段相对于总碱基片段数的比例,每个SNP位点发生污染是彼此独立的。
如本文所用,术语“初始污染比例的真实程度”用于表征初始污染比例为实际污染比例的可能性,该真实程度越高,初始污染比例为实际污染比例的可能性就越高,该真实程度越低,初始污染比例为实际污染比例的可能性就越低。
如本文所用,术语“无污染样本”是指未发生交叉污染的干净健康样本,即无污染样本中未掺混来自其他个体的样本。
本申请实施例提供的样本污染检测方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上,也可以放在云上或其他网络服务器上。服务器104可以从终端102获取待测样本,此时,服务器104获取待测样本中单核苷酸多态性(SNP)位点对应的待测突变碱基片段数和总碱基片段数;服务器104可以从数据存储系统中获取无污染样本中SNP位点对应突变碱基片段的出现频率;服务器104基于预先确定的突变碱基片段数对应的目标分布信息,使用待测突变碱基片段数、总碱基片段数和出现频率进行污染比例的似然估计,得到待测样本的污染比例;服务器104根据污染比例确定待测样本的交叉污染检测结果。最后服务器104可以将待测样本的交叉污染检测结果返回到终端102进行展示。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能音箱、智能电视、智能空调、智能车载设备、投影设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。头戴设备可以为虚拟现实(Virtual Reality,VR)设备、增强现实(Augmented Reality,AR)设备、智能眼镜等。服务器104可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或分布式系统,还可以是提供云计算服务的云服务器。
在一个示例性的实施例中,如图2所示,提供了一种样本污染检测方法,以该方法应用于图1中的终端为例进行说明,可以理解的是,该方法也可以应用于服务器,还可以应用于包括终端和服务器的系统,并通过终端和服务器的交互实现。本实施例中,该方法包括以下步骤302至步骤308。其中:
S302,获取待测样本中单核苷酸多态性(SNP)位点对应的待测突变碱基片段数和总碱基片段数。
其中,待测样本是指需要进行交叉污染检测的样本,所述样本可选自用于液体活检的样本,包括循环肿瘤细胞、循环肿瘤DNA、外泌体、循环游离RNA、细胞游离DNA或其组合,最优选细胞游离DNA,在一种可行的实施方案中,该待测样本可以是cfDNA(循环游离DNA)样本。SNP位点是指基因序列中的单个碱基变化点。待测突变碱基片段数是指待测样本的SNP位点中突变碱基片段的数量。该突变碱基片段可以是指碱基A突变成碱基T或者碱基T突变成碱基A的片段。总碱基片段数是指待测样本的SNP位点中碱基片段的总数量。
在一些实施例中,服务器获取到待测样本,然后可以对待测样本通过甲基化靶向测序技术(ELSA-seq)进行检测,得到测序数据,然后使用测序数据进行比对,得到待测样本中每个SNP位点对应的待测突变碱基片段数和总碱基片段数。
在一些实施例中,服务器可以获取到待测样本中目标SNP位点对应的待测突变碱基片段数和总碱基片段数。该目标SNP位点是使用预先设置好的筛选条件进行筛选得到的。服务器可以是选取预设人群频率在0.3至0.7之间的SNP位点,比如,可以优先选择在hg19的gnomAD(一个大规模的人类遗传变异体数据库)数据库中东方人群频率介于0.3至0.7之间的SNP位点,该位点涉及的人群彼此之间纯合但基因型不同的概率更大,避免选择频率过低或过高。由于是甲基化测序数据,服务器可以选取碱基A突变成碱基T,或者碱基T突变成碱基A的SNP位点。服务器还可以过滤掉碱基重复区域的SNP位点,重复区域的SNP位点容易在测序过程中出现误差。服务器还可以选取SNP位点之间的物理距离大于预设距离的SNP位点,比如,可以选取物理距离大于0.4M的SNP位点。在一个具体的实施例中,通过上述筛选条件共同筛选得到1018个SNP位点。
在一些实施例中,服务器还可以进一步根据SNP位点的测序深度对SNP位点进行筛选,得到筛选后的SNP位点的待测突变碱基片段数和总碱基片段数。比如,可以过滤掉不足50X测序深度的SNP位点,从而可以使基因组的覆盖度能得到有效保证。
在一些实施例中,服务器可以获取到多个待测样本,同时对多个待测样本进行样本污染检测,提高检测效率。
S304,获取无污染样本中SNP位点对应突变碱基片段的出现频率。
其中,无污染样本是指未发生交叉污染的干净健康样本。突变碱基片段的出现频率是指SNP位点中所有碱基片段中出现突变碱基片段的比例,比如,该突变碱基片段的出现频率可以是获取无污染样本中SNP位点对应VAF(variant allelic frequency,变异等位基因频率)值。
在本实施例中,服务器可以直接从数据库中获取到无污染样本中每个SNP位点对应突变碱基片段的出现频率。服务器也可以获取到终端上传的无污染样本中每个SNP位点对应突变碱基片段的出现频率。
在一些实施例中,服务器也可以获取到无污染样本中每个SNP位点的突变碱基片段数量和所有碱基片段数量,然后统计突变碱基片段数量占所有碱基片段数量的比例,得到无污染样本中每个SNP位点突变碱基片段的出现频率。
在一些实施例中,服务器也可以通过对无污染样本进行测序,得到测序数据,然后将测序数据与人类基因组进行比对后确定无污染样本中SNP位点对应突变碱基片段的出现频率。
在一些实施例中,该SNP位点包括纯合SNP位点,为了在保证检测准确性的同时保留更多的SNP位点,该纯合SNP位点可以是SNP位点中突变碱基片段的出现频率小于目标值的SNP位点,该目标值可以是根据测试结果设置的。优选的,目标值可以是0.1。
S306,基于预先确定的突变碱基片段数对应的目标分布信息,使用待测突变碱基片段数、总碱基片段数和出现频率进行污染比例的似然估计,得到待测样本的污染比例。
其中,预先确定的突变碱基片段数对应的目标分布信息是指突变碱基片段的数量服从的分布信息。该目标分布信息用于表征待测样本预期的突变碱基片段数与观察到待测样本的待测突变碱基片段数之间的目标分布关系。比如,可以是泊松分布关系,也可以是正态分布关系,优选的,可以是泊松分布关系。污染比例用于表征污染片段相对于总碱基片段数的比例。在本实施例中,每个SNP位点发生污染是彼此独立的。
可以理解的是,未发生交叉污染的样本中纯合SNP位点的VAF接近于0,当发生交叉污染时,会使带有突变的SNP碱基片段污染样本对应的VAF值上升,因此,可以根据待测样本中纯合的SNP位点上带有突变片段的分布,估计得到待测样本的污染比例。
在一些实施例中,服务器可以获取到预先确定的突变碱基片段数对应的目标分布信息,然后根据目标分布信息使用总碱基片段数、出现频率和污染比例进行目标分布参数计算,该目标分布参数可以是通过初始污染比例估计得到的预期突变碱基片段数。然后根据预期突变碱基片段数与待测突变碱基片段数的目标分布关系通过待测突变碱基片段数对目标分布参数中的污染比例进行似然估计,得到待测样本的污染比例。
在一些实施例中,服务器可以获取到目标分布信息对应的最大似然估计算法,然后使用待测突变碱基片段数、总碱基片段数、突变碱基片段的出现频率通过最大似然估计算法对污染比例进行最大似然估计,得到联合概率最大时的污染比例,即得到待测样本的污染比例。最大似然估计的目标是找到使观察到的待测突变碱基片段数出现概率最大化的污染比例值,即最可能解释观察到数据的污染比例值。
S308,根据污染比例确定待测样本的交叉污染检测结果。
其中,交叉污染检测结果是用于表征待测样本是否为交叉污染样本的结果,可以包括表征待测样本为交叉污染样本的检测结果或者可以包括表征待测样本为无污染样本的检测结果。交叉污染样本是指待测样本与其他样本之间发生了交叉污染。
在一些实施例中,交叉污染检测的目的是保持高特异性(未发生交叉污染的样本不被识别成污染样本),同时保持高敏感度(在一定特异性的阈值下,不同交叉污染梯度被识别正确的比例)。然后服务器可以通过获取到高特异性时的污染比例阈值来判断待测样本的交叉污染检测结果。如果待测样本为无污染样本,此时,就可以使用待测样本进行后续生物标志物研究和临床诊断处理等,比如,使用无污染样本利用液体活检进行早期肿瘤筛查,复发监控等,从而在保证高敏感性和高特异性的基础上保证后续处理的准确性。如果待测样本为交叉污染样本,此时,就需要过滤掉该交叉污染样本,防止后续处理出现错误。
上述样本污染检测方法,通过获取待测样本中SNP位点对应的待测突变碱基片段数和总碱基片段数,以及获取无污染样本中SNP位点对应突变碱基片段的出现频率。然后基于预先确定的突变碱基片段数对应的目标分布信息,使用待测突变碱基片段数、总碱基片段数和出现频率进行污染比例的似然估计,得到待测样本的污染比例。即通过预先确定的目标分布信息进行污染比例的似然估计,进而通过污染比例确定交叉污染检测结果,不需要去分析SNP位点的等位基因频率,可以减少待测样本中存在交叉污染时检测错误的情况,从而提高了交互污染检测的准确性。
在进行目标分布信息预先确定时,由于泊松分布可以模拟在固定区间或体积内发生的稀有事件。在DNA测序的背景下,来自其他样本的污染片段相对于正在测序的总片段数量而言是相对稀少的,该稀有性符合泊松分布。并且泊松分布中每个污染片段的加入独立于其他污染片段的加入,因为从污染源到测序库中片段的加入过程是从一个片段到另一个片段独立的。并且,选取的SNP位点保持了一定长度的碱基间隔,从而进一步保证事件独立性。进一步,泊松分布适用于事件以恒定的平均率在固定的空间或时间间隔内发生的情况,而在污染源保持不变时,实际污染比例在特定样本的测序过程中预期是恒定的。进一步,待测样本中污染片段的数量,是离散事件的计数,符合泊松分布的离散性质。进一步,泊松分布由其均值(λ)特征化,即表征预期的污染片段数量。并且均值可以从SNP数据中估计,例如,使用未污染的样本来建立背景噪声的基线水平或基于已知的污染比例的样本观察到的污染片段进行推导。
因此,在一些实施例中,目标分布信息包括泊松分布信息;基于突变碱基片段数的目标分布信息,使用待测突变碱基片段数、总碱基片段数和出现频率进行污染比例的似然估计,得到待测样本的污染比例,包括步骤:
获取初始污染比例,基于初始污染比例、总碱基片段数和出现频率进行预期数计算,得到待测样本中SNP位点对应的预期突变碱基片段数;基于泊松分布信息,使用待测突变碱基片段数与预期突变碱基片段数进行似然估计,得到初始污染比例的真实程度;根据真实程度与预设似然估计完成条件的比较结果确定待测样本的污染比例。
其中,预期突变碱基片段数用于表征在初始污染比例的情况下待测样本中SNP位点中具有的突变碱基片段的数量。初始污染比例可以是预先设置好的初始值,也可以是生成的污染比例的初始值。
在一些实施例中,服务器可以根据预期污染的突变碱基片段数以及正常测序导致噪声的突变碱基片段数来确定中SNP位点对应的预期突变碱基片段数。其中,可以通过初始污染比例和总碱基片段数计算得到预期污染的突变碱基片段数。然后可以使用无污染样本中SNP位点对应突变碱基片段的出现频率和总碱基片段数计算得到噪声的突变碱基片段数,然后计算预期污染的突变碱基片段数和噪声的突变碱基片段数的总和,得到待测样本中SNP位点对应的预期突变碱基片段数。此时,服务器可以按照预先确定的泊松分布对应的似然估计函数使用待测突变碱基片段数与预期突变碱基片段数进行似然估计,得到初始污染比例的真实程度,比如,可以将最大化似然估计函数时的污染比例作为待测样本的污染比例。
预设似然估计完成条件是指预先设置好的进行似然估计完成的条件,包括找到最优解或者达到收敛条件,比如,预设似然估计完成条件可以包括估计得到的真实程度超过预设真实程度阈值或者迭代次数达到最大迭代次数或者计算得到的真实程度未发生变化等等。
在一些实施例中,服务器可以将真实程度与预设真实程度阈值进行比较,当真实程度超过预设真实程度阈值时,将该真实程度对应的污染比例作为待测样本的污染比例。当真实程度未超过预设真实程度阈值时,说明该真实程度对应的污染比例并不是最大化似然估计函数时的污染比例,此时,可以对污染比例进行迭代,得到迭代后的污染比例。然后计算迭代后的污染比例的真实程度并不断进行迭代,直到真实程度超过预设真实程度阈值。
在一些实施例中,服务器还可以判断是否达到收敛条件,当达到收敛条件,比如,迭代次数达到最大迭代次数,或者计算得到的真实程度的变化小于预设阈值时,达到收敛条件,此时,服务器将对应的污染比例作为待测样本的污染比例。
示例性地,待测突变碱基片段数与预期突变碱基片段数存在如下公式(1)所示的柏松分布关系。
公式(1)
其中,是指待测样本第i个SNP位点上观察到带有突变碱基的片段数,即待测突 变碱基片段数。是指泊松分布参数,用于表征待测样本第i个SNP位点对应的预期突变碱 基片段数。是指柏松分布。
然后可以根据柏松分布的概率密度函数建立的似然函数如下公式(2)所示。
公式(2)
其中,n是指待测样本中的纯合SNP位点的数量。为方便计算联合概率最大值,可以对似然函数取对数,得到如下所示的公式(3)。
公式(3)
其中,用于表征污染比例的真实程度。然后可以将取对数后的似然函数取负 数,此时,就可以计算似然函数的最小值。比如,可以使用Nelder-Mead(一种计算多元函数 最小值的算法)算法计算最小值。在一些具体的实施例中,也可以通过python的 scipy.optimize模块(是scipy库中的一个模块,用于优化问题的求解)中的minimize(最小 化)函数实现最小化目标函数,比如,目标函数的输入可以是待测样本中SNP的突变碱基片 段数、总碱基片段数、无污染样本的突变碱基片段的出现频率以及负对数似然函数的表达 式,然后通过对不同污染比例初始值的迭代,输出负对数似然函数的近似最小值及其对应 的变量污染比例取值,即得到联合概率最大时的污染比例值。
在上述实施例中,通过泊松分布信息对污染比例进行最大化似然估计,不需要分析SNP位点的等位基因频率,从而可以减少待测样本中存在交叉污染时检测错误的情况,提高了交互污染检测的准确性。
可以理解的是,对于污染样本来说,污染的片段(含有与野生型SNP位点不同碱基的SNP片段)主要有两个来源,一个是污染样本中与野生型不同的SNP片段交叉污染,另一个则是测序错误本身存在的一定比例的噪声。则在一些实施例中,基于初始污染比例、总碱基片段数和出现频率进行预期数计算,得到待测样本中SNP位点对应的预期突变碱基片段数,包括步骤:
根据初始污染比例和总碱基片段数计算得到待测样本中SNP位点对应的预期污染碱基片段数和预期无污染碱基片段数;根据出现频率和预期无污染碱基片段数进行突变噪声计算,得到待测样本中SNP位点对应的噪声碱基片段数;计算预期污染碱基片段数和噪声碱基片段数的和,得到待测样本中SNP位点对应的预期突变碱基片段数。
在本实施例中,服务器可以计算初始污染比例和总碱基片段数的乘积,得到待测样本中SNP位点对应的预期污染碱基片段数。然后计算总碱基片段数与预期污染碱基片段数的差,得到预期无污染碱基片段数。然后计算预期无污染碱基片段数与出现频率的乘积,得到待测样本中SNP位点对应的噪声碱基片段数。最后计算预期污染碱基片段数和噪声碱基片段数的和,得到待测样本中SNP位点对应的预期突变碱基片段数。
示例性地,服务器可以使用如下所示的公式(4)计算得到待测样本中SNP位点对应的预期突变碱基片段数。
公式(4)
其中,是指泊松分布参数,即待测样本中第i个SNP位点对应的预期突变碱基片 段数。是指污染比例。是指无污染样本中相同SNP位点对应的出现频率。是指待测样 本中第i个SNP位点对应的总碱基片段数。
在上述实施例中,通过计算预期污染碱基片段数和噪声碱基片段数,然后预期污染碱基片段数和噪声碱基片段数的和,得到待测样本中SNP位点对应的预期突变碱基片段数,从而不仅考虑到污染发生时的情况,还考虑到了测序导致的噪声,从而提高了计算得到的预期突变碱基片段数的准确性。
在一些实施例中,S308,根据污染比例确定待测样本的交叉污染检测结果,包括步骤:
获取污染比例阈值,当污染比例大于污染比例阈值时,交叉污染检测结果表示待测样本为交叉污染样本;当污染比例小于或者等于污染比例阈值时,交叉污染检测结果表示待测样本为无污染样本。
在本实施例中,为了保证交叉污染检测结果的准确性,可以获取到污染比例阈值,然后将检测得到的污染比例与污染比例阈值进行比较,然后根据比较结果确定待测样本的交叉污染检测结果。其中,得到的检测结果是待测样本为交叉污染样本时,说明待测样本受到了其他样本的交叉污染。当得到的检测结果是待测样本为无污染样本时,说明待测样本是没有受到了其他样本的交叉污染的样本,是干净健康的样本。即通过污染比例与污染比例阈值的比较结果确定交叉污染检测结果,可以快速得到交叉污染检测结果,并且通过设置准确的污染比例阈值,可以提高得到交叉污染检测结果的准确性。
可以理解的是,交叉污染的检测,目的是保持高特异性(未发生交叉污染的样本不被识别成污染样本),同时保持高敏感度(在一定特异性的阈值下,不同交叉污染梯度被识别正确的比例)。则在一些实施例中,获取污染比例阈值,包括步骤:
获取各个无污染样本,将各个无污染样本按照模拟污染比例进行交叉混合,得到模拟污染比例对应的各个模拟污染样本;使用各个无污染样本和各个模拟污染样本进行交叉污染测试,得到测试结果;根据测试结果获取在目标特异性下的污染比例检测值,将在目标特异性下的污染比例检测值作为污染比例阈值。
在本实施例中,服务器可以获取到各个无污染样本,然后可以对每个无污染样本进行甲基化测序,获得含有测序片段的结果文件,该结果文件是已过滤测序质量差的碱基以及去除大量重复片段的bam文件,该bam文件可以是用于存储大规模测序数据的二进制文件格式,也可以是用于存储序列与参考基因组的比对结果。然后从各个无污染样本中选取信号源样本和本底样本,然后按照模拟污染比例从信号源样本的结果文件中抽取对应比例的片段,混合到本底样本的结果文件中,其中,模拟污染比例是指要模拟的污染比例。该模拟污染比例可以设置有不同梯度的污染比例,比如万分之一、万分之二、万分之五、千分之一、千分之二、千分之五和百分之一等。然后通过不断更换污染信号源样本和本底样本,得到各个模拟混合后的交叉污染样本。此时,可以使用各个无污染样本和各个模拟污染样本进行交叉污染测试,得到测试结果。该测试结果可以包括不同特异性下时不同模拟污染比例的测试准确性。然后可以根据测试准确性确定在目标特异性下的污染比例检测值,将在目标特异性下的污染比例检测值作为污染比例阈值。
示例性地,可以将183例未发生交叉污染的健康样本的clean bam文件按梯度混 合,梯度包括万分之一(123例)、万分之二(124例)、万分之五(127例)、千分之一(126例)、千 分之二(130例)、千分之五(127例)和百分之一(114例),每次混合3个重复,最终随机抽取得 到871个混合样本。其中,可以对183例标记为健康无污染的血液cfDNA样本,经过甲基化测 序,获得含有测序片段的结果文件,然后按照梯度混合得到871例模拟混合后的交叉污染样 本。然后通过不同纯合SNP定义的阈值,包括纯合SNP的VAF小于0.00005、VAF小于0.0001、 VAF小于0.0005、VAF小于0.001、VAF小于0.005、VA小于0.01、VAF小于0.05、VAF小于0.1和 VAF小于0.25,并用不同阈值条件,对模拟数据进行污染比例的检测。如图3所示,为不同纯 合阈值下,最大似然算法对模拟污染样本的污染比例估计示意图,纵坐标为估计得到的污 染比例分值score(),横坐标为实际根据交叉污染梯度分的组(group)。其中子图标题为 SNP阈值条件,例如标签“0.00005_0.99995”表示VAF小于0.00005或VAF 大于0.99995,VAF 是SNP位点上出现突变碱基片段的频率,当野生型为T时,VAF接近于1。由图3可知,VAF小于 0.25阈值在低污染梯度样本检测上有异常点跳出。同时在VAF小于0.01以及更严格的阈值 条件下,检测结果较差,偏离预期。因此,为了在保证效果的同时保留更多的SNP位点,将 VAF小于0.1作为纯合SNP的阈值。进一步,如图4所示,为不同梯度模拟污染样本的检测结果 示意图,纵坐标为每个模拟污染样本似然估计得到的污染比例分值score(),横坐标为污 染梯度。进一步,如图5所示,为检测污染比例与真实梯度之间的线性关系示意图,其中,横 坐标为真实梯度Expected ,纵坐标为检测得到的污染比例分值score()。从图中明显可 以看出两者线性关系显著,该线性关系的系数为1.0966,截距为0.0003,R^2=0.8809。
进一步,通过汇总183例健康样本与871例不同梯度污染样本的检测污染比例,得到的结果如下表1所示:
表1 不同交叉污染梯度数据集在95%特异性时的检测结果汇总表
其中,明显可以看出在95%特异性下(即183例未发生交叉污染的样本中有173例能正确判断为未污染时的污染比例作为阈值),真实梯度为万分之2的交叉污染样本可达到56%检出(即124例污染样本中有69例超过该阈值,被正确识别为污染样本),真实梯度为万分之5的交叉污染样本则达到98%检出。此时,可以将95%特异性下的污染比例检测值作为污染比例阈值。
在上述实施例中,通过将各个无污染样本按照模拟污染比例进行交叉混合来模拟污染样本,然后通过无污染样本和模拟污染样本进行交叉污染测试,从而根据测试结果将在目标特异性下的污染比例检测值作为污染比例阈值,避免直接通过人为经验去设置的情况,通过模拟测试确定污染比例阈值,提高了得到的污染比例阈值的准确性。
可以理解的是,为了提高突变碱基片段的出现频率的准确性,可以将多个无污染样本中SNP位点对应突变碱基片段的出现频率进行平均,则在一些实施例中,获取无污染样本中SNP位点对应突变碱基片段的出现频率,包括:
获取各个无污染样本,对各个无污染样本分别进行甲基化靶向测序比对,得到各个无污染样本中SNP位点上突变碱基片段数和总碱基片段数;计算突变碱基片段数与总碱基片段数之间的比值,得到各个无污染样本中SNP位点对应的突变碱基比例;计算突变碱基比例的平均,得到无污染样本中SNP位点对应突变碱基片段的出现频率。
在本实施例中,可以通过甲基化靶向测序技术进行检测,其中,可以从无污染样本中提取的cfDNA。然后进行预文库的构建,即通过重亚硫酸盐转化,再通过末端修复、加接头和PCR扩增等步骤制备全基因组预文库。然后进行特定区域的片段测序,即通过用含有特定序列的探针与预文库杂交,特异性地捕获人类基因组中癌症相关的目标甲基化区域。采用链霉亲和素磁珠富集被探针捕获的DNA片段,富集的DNA作为模板扩增得到最终的文库。然后进行测序分析,对终文库定量和质控后,用基因测序仪对终文库进行高通量测序,得到测得的甲基化数据。在测序过程中,每个样本的核酸片段经过测序仪分析后,会产生大量的碱基字符串,这些字符串被称为reads。每个read代表了一个核酸片段的序列信息。此时,将甲基化数据与人类基因组进行比对同时进行SNP位点识别并获得VCF文件,该VCF文件中存储基因序列突变信息,记录了样本存在的SNP位点的片段信息以及不同碱基的片段数目等。
在一些实施例中,服务器对同时对多个无污染样本进行测序比对,得到每个无污染样本中SNP位点上突变碱基片段数和总碱基片段数,从而提高测序比对的效率。
在本实施例中,服务器计算每个SNP位点的突变碱基片段数与总碱基片段数之间的比值,得到SNP位点对应的突变碱基比例。然后计算所有无污样本中相同SNP位点对应突变碱基比例的总和,并计算总和与所有SNP位点的数量的比值,得到突变碱基比例的平均值,即得到无污染样本中SNP位点对应突变碱基片段的出现频率。
在上述实施例中,通过获取各个无污染样本,然后计算各个无污染样本中SNP位点对应的突变碱基比例。最后计算突变碱基比例的平均,得到无污染样本中SNP位点对应突变碱基片段的出现频率,即使用平均的突变碱基比例作为无污染样本中SNP位点对应突变碱基片段的出现频率,提高得到的出现频率的准确性,进而可以减少样本污染检测的误差,提高了检测的准确性。
同理,可以对待测样本进行测序比对,得到VCF文件,即在一些实施例中,获取待测样本中SNP位点对应的待测突变碱基片段数和总碱基片段数,包括步骤:
获取待测样本,对待测样本进行甲基化靶向测序比对,得到待测样本中预设SNP位点的突变信息;从预设SNP位点的突变信息中确定待测样本中SNP位点对应的突变碱基片段数和总碱基片段数。
在本实施例中,可以对待测样本进行甲基化靶向测序比对,然后可以获取到待测样本中预设SNP位点的突变信息,该预设SNP位点的突变信息用于表征对应SNP位点的基因序列突变信息,可以包括中包括不同碱基的片段数,比如,可以包括有突变碱基片段数以及总碱基片段数等。该预设SNP是根据预先设置好的选取条件进行选取得到的。优选的,该预设SNP位点可以是1018个SNP位点,该1018个SNP位点的信息如下表3所示。然后可以对预设SNP位点进一步进行过滤,比如,可以过滤掉预设SNP位点中不足50X测序深度的SNP位点,然后获取到过滤后的每个SNP位点的突变碱基片段数和总碱基片段数,从而得到待测样本中SNP位点对应的突变碱基片段数和总碱基片段数。
在上述实施例中,通过对待测样本中预设SNP位点进行过滤,从而获取到待测样本中SNP位点对应的突变碱基片段数和总碱基片段数,提高了得到的SNP位点对应数据的准确性,然后使用待测样本中SNP位点对应的数据进行交叉污染检测,从而提高了交叉污染检测的准确性。
在一个具体的实施例中,如图6所示,提供一种样本污染检测方法的流程示意图,具体包括以下步骤:
S602,获取待测样本和各个无污染样本,对待测样本和各个无污染样本进行甲基化靶向测序比对,得到待测样本中预设纯合SNP位点的突变信息和各个无污染样本中相同SNP位点上的突变碱基片段数和总碱基片段数;
S604,从预设纯合SNP位点的突变信息中过滤提取得到待测样本中目标SNP位点对应的突变碱基片段数和总碱基片段数。
S606,计算各个无污染样本中SNP位点的突变碱基片段数与总碱基片段数之间的比值,得到各个无污染样本中SNP位点对应的突变碱基比例。计算突变碱基比例的平均,得到无污染样本中SNP位点对应突变碱基片段的出现频率。
S608,获取初始污染比例,根据初始污染比例和总碱基片段数计算得到待测样本中SNP位点对应的预期污染碱基片段数和预期无污染碱基片段数。
S610,根据出现频率和预期无污染碱基片段数进行突变噪声计算,得到待测样本中SNP位点对应的噪声碱基片段数。
S612,计算预期污染碱基片段数和噪声碱基片段数的和,得到待测样本中SNP位点对应的预期突变碱基片段数。
S614,基于泊松分布信息,使用待测突变碱基片段数与预期突变碱基片段数进行似然估计,得到初始污染比例的真实程度。根据真实程度与预设似然估计完成条件确定待测样本的污染比例;
S616,获取污染比例阈值,当污染比例大于污染比例阈值时,交叉污染检测结果表示待测样本为交叉污染样本。当污染比例小于或者等于污染比例阈值时,交叉污染检测结果表示待测样本为无污染样本。
在上述实施例中,通过泊松分布信息,使用待测突变碱基片段数与预期突变碱基片段数进行似然估计,得到待测样本的污染比例,然后通过与污染比例阈值进行比较确定交叉污染检测结果,可以减少待测样本中存在交叉污染时检测错误的情况,从而提高了交互污染检测的准确性。
在一个具体的实施例中,如图7所示,提供一中样本污染检测的流程框架示意图, 具体来说:服务器可以使用123例无污染的健康干净样本进行通过甲基化靶向测序技术进 行检测,得到每个无污染样本中1018个SNP位点的信息,然后根据每个无污染样本中1018个 SNP位点的信息进行统计,得到无污染样本中每个SNP位点的平均噪声水平N,该噪声水平用 于表征含有突变SNP的reads数目占覆盖该SNP的所有reads数目的比例,即是突变碱基片段 的出现频率。然后在获取到待测样本时,同样通过甲基化靶向测序技术(ELSA-seq)进行 检测,得到待测样本中1018个SNP位点的信息,然后对SNP位点进行过滤,过滤掉不足50X测 序深度的SNP位点,得到过滤后的各个SNP位点的信息,包括待测突变碱基片段数和总碱 基片段数。然后使用过滤后的各个SNP位点的信息以及出现频率建立泊松分布的似然估 计函数,然后通过该最大似然估计算法进行最大化似然估计,得到联合概率最大时的未知 数污染比例。最后通过将污染比例与污染比例阈值进行比较从而确定待测样本对应的交 叉污染检测结果。即通过泊松分布似然估计得到的污染比例确定交叉污染检测结果,可以 减少待测样本中存在交叉污染时检测错误的情况,从而提高了交互污染检测的准确性。
在一个具体的实施例中,可以通过实验验证本申请方案的检测效果,具体来说,可以获取到一例肺癌(RS20002151PLA)和一例卵巢癌(RS21002966PLA)cfDNA血样,该两例样本均通过甲基化靶向测序技术进行检测获得。然后以不同梯度掺入互掺, 梯度掺比分布为万分之一、万分之五、千分之一以及千分之五,其中RS20002151PLA 为污染源样本,RS21002966PLA 为本底样本。预先设置好Panel中包含可用SNP位点为1018个,然后由于探针设计和个体异质性因素,能够被检测到的SNP数目在400-600之间。此时,服务器可以对不同梯度的样本进行交叉污染检测,得到的检测结果如下表2所示:
表2 检测结果表
其中,在95%特异性的污染比例阈值(阈值=0.000504)阴性样本全判断正确,均为 negative(阴性,4/4),当梯度掺比为万分之一及其以上时,模型将样本都报positive(阳 性,8/8),实现万分之一的检出,而且可以看出根据最大似然估计得到的污染比例数值与 掺比梯度正相关。因此,本申请可以提高交叉污染检测的准确性,检测极限近似可达到万分 之一水平。即通过利用模拟污染的871例样本以及实验模拟的污染样本验证本申请方案的 效果。评估指标包括两个方面:评价计算出来的污染比例与实际的污染比例的关系以及评 价计算出来的污染比例是否随着实际污染比例的上升而上升,进而在保证无污染的样本 不被误识别的前提下,任意梯度的交叉污染样本能够被正确识别出来(即保证高特异性和 高敏感度)。其中,1018 个SNP位点信息可以如下表3所示。 chr表示SNP位点所在的染色体 编号。Start表示位点的起始位置。end表示位点的终止位置。REF表示SNP位点与hg19参考基 因组相同的野生型碱基。ALT表示SNP位点发生突变后的碱基。
表3 SNP位点信息表
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的样本污染检测方法的样本污染检测装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个样本污染检测装置实施例中的具体限定可以参见上文中对于样本污染检测方法的限定,在此不再赘述。
在一个示例性的实施例中,如图8所示,提供了一种样本污染检测装置800,包括:片段数获取模块802、频率获取模块804、污染估计模块806和结果确定模块808,其中:
片段数获取模块802,用于获取待测样本中单核苷酸多态性(SNP)位点对应的待测突变碱基片段数和总碱基片段数;
频率获取模块804,用于获取无污染样本中SNP位点对应突变碱基片段的出现频率;
污染估计模块806,用于基于预先确定的突变碱基片段数对应的目标分布信息,使用待测突变碱基片段数、总碱基片段数和出现频率进行污染比例的似然估计,得到待测样本的污染比例;
结果确定模块808,用于根据污染比例确定待测样本的交叉污染检测结果。
在一个实施例中,目标分布信息包括泊松分布信息;污染估计模块806还用于获取初始污染比例,基于初始污染比例、总碱基片段数和出现频率进行预期数计算,得到待测样本中SNP位点对应的预期突变碱基片段数;基于泊松分布信息,使用待测突变碱基片段数与预期突变碱基片段数进行似然估计,得到初始污染比例的真实程度;根据真实程度与预设似然估计完成条件确定待测样本的污染比例。
在一个实施例中,污染估计模块806还用于根据初始污染比例和总碱基片段数计算得到待测样本中SNP位点对应的预期污染碱基片段数和预期无污染碱基片段数;根据出现频率和预期无污染碱基片段数进行突变噪声计算,得到待测样本中SNP位点对应的噪声碱基片段数;计算预期污染碱基片段数和噪声碱基片段数的和,得到待测样本中SNP位点对应的预期突变碱基片段数。
在一个实施例中,结果确定模块808还用于获取污染比例阈值,当污染比例大于污染比例阈值时,交叉污染检测结果表示待测样本为交叉污染样本;当污染比例小于或者等于污染比例阈值时,交叉污染检测结果表示待测样本为无污染样本。
在一个实施例中,结果确定模块808还用于获取各个无污染样本,将各个无污染样本按照模拟污染比例进行交叉混合,得到模拟污染比例对应的各个模拟污染样本;使用各个无污染样本和各个模拟污染样本进行交叉污染测试,得到测试结果;根据测试结果获取在目标特异性下的污染比例检测值,将在目标特异性下的污染比例检测值作为污染比例阈值。
在一个实施例中,频率获取模块804还用于获取各个无污染样本,对各个无污染样本分别进行甲基化靶向测序比对,得到各个无污染样本中SNP位点上突变碱基片段数和总碱基片段数;计算突变碱基片段数与总碱基片段数之间的比值,得到各个无污染样本中SNP位点对应的突变碱基比例;计算突变碱基比例的平均,得到无污染样本中SNP位点对应突变碱基片段的出现频率。
在一个实施例中,片段数获取模块802还用于获取待测样本,对待测样本进行甲基化靶向测序比对,得到待测样本中预设SNP位点的突变信息;从预设SNP位点的突变信息中确定待测样本中SNP位点对应的突变碱基片段数和总碱基片段数。
在一个实施例中,SNP位点包括纯合SNP位点,纯合SNP位点中突变碱基片段的出现频率小于目标值。
上述样本污染检测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个示例性的实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图9所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output,简称I/O)和通信接口。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储待测样本的测序数据、无污染样本的测序数据、目标分布信息等。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种样本污染检测方法。
在一个示例性的实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图10所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口、显示单元和输入装置通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、移动蜂窝网络、近场通信(Near Field Communication,NFC)或其他技术实现。该计算机程序被处理器执行时以实现一种样本污染检测方法。该计算机设备的显示单元用于形成视觉可见的画面,可以是显示屏、投影装置或虚拟现实成像装置。显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图9或者图10中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,且相关数据的收集、使用和处理需要符合相关规定。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性存储器和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(Resistive Random Access Memory,ReRAM)、磁变存储器(Magnetoresistive RandomAccess Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。本申请提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器、人工智能(Artificial Intelligence,AI)处理器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本申请记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

Claims (12)

1.一种样本污染检测方法,其特征在于,所述方法包括:
获取待测样本中单核苷酸多态性(SNP)位点对应的待测突变碱基片段数和总碱基片段数;
获取无污染样本中SNP位点对应突变碱基片段的出现频率;
基于预先确定的突变碱基片段数对应的目标分布信息,使用所述待测突变碱基片段数、所述总碱基片段数和所述出现频率进行污染比例的似然估计,得到所述待测样本的污染比例,所述目标分布信息用于表征所述待测样本预期的突变碱基片段数与观察到待测样本的待测突变碱基片段数之间的目标分布关系,所述预期的突变碱基片段数是获取初始污染比例,基于所述初始污染比例、所述总碱基片段数和所述出现频率进行预期数计算得到的;
根据所述污染比例确定所述待测样本的交叉污染检测结果。
2.根据权利要求1所述的方法,其特征在于,所述目标分布信息包括泊松分布信息;所述基于预先确定的突变碱基片段数对应的目标分布信息,使用所述待测突变碱基片段数、所述总碱基片段数和所述出现频率进行污染比例的似然估计,得到所述待测样本的污染比例,包括:
获取初始污染比例,基于所述初始污染比例、所述总碱基片段数和所述出现频率进行预期数计算,得到所述待测样本中SNP位点对应的预期突变碱基片段数;
基于泊松分布信息,使用所述待测突变碱基片段数与所述预期突变碱基片段数进行似然估计,得到所述初始污染比例的真实程度;
根据所述真实程度与预设似然估计完成条件确定所述待测样本的污染比例。
3.根据权利要求2所述的方法,其特征在于,所述基于所述初始污染比例、所述总碱基片段数和所述出现频率进行预期数计算,得到所述待测样本中SNP位点对应的预期突变碱基片段数,包括:
根据所述初始污染比例和所述总碱基片段数计算得到所述待测样本中SNP位点对应的预期污染碱基片段数和预期无污染碱基片段数;
根据所述出现频率和所述预期无污染碱基片段数进行突变噪声计算,得到所述待测样本中SNP位点对应的噪声碱基片段数;
计算所述预期污染碱基片段数和噪声碱基片段数的和,得到所述待测样本中SNP位点对应的预期突变碱基片段数。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述根据所述污染比例确定所述待测样本的交叉污染检测结果,包括:
获取污染比例阈值,当所述污染比例大于所述污染比例阈值时,所述交叉污染检测结果表示所述待测样本为交叉污染样本;
当所述污染比例小于或者等于所述污染比例阈值时,所述交叉污染检测结果表示所述待测样本为无污染样本。
5.根据权利要求4所述的方法,其特征在于,所述获取污染比例阈值,包括:
获取各个无污染样本,将所述各个无污染样本按照模拟污染比例进行交叉混合,得到所述模拟污染比例对应的各个模拟污染样本;
使用所述各个无污染样本和所述各个模拟污染样本进行交叉污染测试,得到测试结果;
根据所述测试结果获取在目标特异性下的污染比例检测值,将所述在目标特异性下的污染比例检测值作为所述污染比例阈值。
6.根据权利要求1-3任一项所述的方法,其特征在于,所述获取无污染样本中SNP位点对应突变碱基片段的出现频率,包括:
获取各个无污染样本,对所述各个无污染样本分别进行甲基化靶向测序比对,得到所述各个无污染样本中SNP位点上突变碱基片段数和总碱基片段数;
计算所述突变碱基片段数与总碱基片段数之间的比值,得到所述各个无污染样本中SNP位点对应的突变碱基比例;
计算所述突变碱基比例的平均,得到所述无污染样本中SNP位点对应突变碱基片段的出现频率。
7.根据权利要求1-3任一项所述的方法,其特征在于,所述获取待测样本中SNP位点对应的待测突变碱基片段数和总碱基片段数,包括:
获取待测样本,对所述待测样本进行甲基化靶向测序比对,得到所述待测样本中预设SNP位点的突变信息;
从所述预设SNP位点的突变信息中确定所述待测样本中SNP位点对应的突变碱基片段数和总碱基片段数。
8.根据权利要求1-3任一项所述的方法,其特征在于,所述SNP位点包括纯合SNP位点,所述纯合SNP位点中突变碱基片段的出现频率小于目标值。
9.一种样本污染检测装置,其特征在于,所述装置包括:
片段数获取模块,用于获取待测样本中单核苷酸多态性(SNP)位点对应的待测突变碱基片段数和总碱基片段数;
频率获取模块,用于获取无污染样本中SNP位点对应突变碱基片段的出现频率;
污染估计模块,用于基于预先确定的突变碱基片段数对应的目标分布信息,使用所述待测突变碱基片段数、所述总碱基片段数和所述出现频率进行污染比例的似然估计,得到所述待测样本的污染比例,所述目标分布信息用于表征所述待测样本预期的突变碱基片段数与观察到待测样本的待测突变碱基片段数之间的目标分布关系,所述预期的突变碱基片段数是获取初始污染比例,基于所述初始污染比例、所述总碱基片段数和所述出现频率进行预期数计算得到的;
结果确定模块,用于根据所述污染比例确定所述待测样本的交叉污染检测结果。
10.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述的方法的步骤。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。
12.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。
CN202411434442.7A 2024-10-15 2024-10-15 样本污染检测方法、装置、设备、存储介质和程序产品 Active CN118969072B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202411434442.7A CN118969072B (zh) 2024-10-15 2024-10-15 样本污染检测方法、装置、设备、存储介质和程序产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202411434442.7A CN118969072B (zh) 2024-10-15 2024-10-15 样本污染检测方法、装置、设备、存储介质和程序产品

Publications (2)

Publication Number Publication Date
CN118969072A CN118969072A (zh) 2024-11-15
CN118969072B true CN118969072B (zh) 2025-03-18

Family

ID=93392993

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202411434442.7A Active CN118969072B (zh) 2024-10-15 2024-10-15 样本污染检测方法、装置、设备、存储介质和程序产品

Country Status (1)

Country Link
CN (1) CN118969072B (zh)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112746097A (zh) * 2021-01-29 2021-05-04 深圳裕康医学检验实验室 一种检测样本交叉污染的方法以及预测交叉污染源的方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115985389B (zh) * 2022-12-26 2025-07-18 广州燃石医学检验所有限公司 一种样本交叉污染的检测方法和装置
CN116612814B (zh) * 2023-06-14 2024-08-27 上海睿璟生物科技有限公司 基于回归模型的基因样本污染批量检测方法、装置、设备及介质

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112746097A (zh) * 2021-01-29 2021-05-04 深圳裕康医学检验实验室 一种检测样本交叉污染的方法以及预测交叉污染源的方法

Also Published As

Publication number Publication date
CN118969072A (zh) 2024-11-15

Similar Documents

Publication Publication Date Title
US11043283B1 (en) Systems and methods for automating RNA expression calls in a cancer prediction pipeline
Smith et al. Using quality scores and longer reads improves accuracy of Solexa read mapping
Borisov et al. Data aggregation at the level of molecular pathways improves stability of experimental transcriptomic and proteomic data
Yu et al. Statistical and bioinformatics analysis of data from bulk and single-cell RNA sequencing experiments
CN103201744B (zh) 用于估算全基因组拷贝数变异的方法
AU2020221845A1 (en) An integrated machine-learning framework to estimate homologous recombination deficiency
CN113096728B (zh) 一种微小残余病灶的检测方法、装置、存储介质及设备
CN111304303B (zh) 微卫星不稳定的预测方法及其应用
CN112634987B (zh) 一种单样本肿瘤dna拷贝数变异检测的方法和装置
CN113674803A (zh) 一种拷贝数变异的检测方法及其应用
KR20220069943A (ko) 단일 세포 rna-seq 데이터 처리
Smolander et al. Evaluation of tools for identifying large copy number variations from ultra-low-coverage whole-genome sequencing data
CN109461473B (zh) 胎儿游离dna浓度获取方法和装置
Morganella et al. Finding recurrent copy number alterations preserving within-sample homogeneity
WO2024140368A1 (zh) 一种样本交叉污染的检测方法和装置
CN115083521A (zh) 一种单细胞转录组测序数据中肿瘤细胞类群的鉴定方法及系统
CN111370065B (zh) 一种检测rna跨样本交叉污染率的方法和装置
CN114694749B (zh) 基因数据处理方法、装置、计算机设备和存储介质
Kannan et al. CAISC: A software to integrate copy number variations and single nucleotide mutations for genetic heterogeneity profiling and subclone detection by single-cell RNA sequencing
CN107885972A (zh) 一种基于单端测序的融合基因检测方法及其应用
Yin et al. MIXnorm: normalizing RNA-seq data from formalin-fixed paraffin-embedded samples
CN118969072B (zh) 样本污染检测方法、装置、设备、存储介质和程序产品
CN117219162B (zh) 针对肿瘤组织str图谱进行身源鉴定的证据强度评估方法
Scharpf et al. Statistical modeling and visualization of molecular profiles in cancer
Crowgey et al. Advancements in next-generation sequencing for detecting minimal residual disease

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40112281

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant