CN119585440A

CN119585440A - 用于过程控制和归一化的人工小rna掺入物混合物

Info

Publication number: CN119585440A
Application number: CN202380054866.8A
Authority: CN
Inventors: 布鲁诺·施泰因克劳斯; 拉斯季斯拉夫·霍罗斯; 安德烈-尼古拉·斯皮斯; 托比亚斯·西科塞克
Original assignee: Hummingbird Diagnostics GmbH
Current assignee: Hummingbird Diagnostics GmbH
Priority date: 2022-07-20
Filing date: 2023-07-03
Publication date: 2025-03-07
Also published as: AU2023309226A1; WO2024017613A1

Abstract

本发明涉及可用作掺入物混合物的组合物。此外，本发明涉及包含所述组合物的试剂盒。此外，本发明涉及用于检测样品的方法，其中，使用所述组合物。

Description

用于过程控制和归一化的人工小RNA掺入物混合物

技术领域

本发明涉及可用作掺入物混合物(spike-in cocktail)的组合物。此外，本发明涉及包含所述组合物的试剂盒。此外，本发明涉及用于检测样品的方法，其中，使用所述组合物。

背景技术

在生物样品(如生物流体)中的RNA(例如小RNA)作为用于许多人类疾病状态的预后和诊断的生物标志物发挥着重要作用。然而，准确分析这些在生物样品(例如生物流体)中的RNA对于这些数据在生物标志物领域的意义是至关重要的。

RNA表达图谱的分析涉及几个复杂的步骤。(1)RNA、包括小RNA必须从生物来源(例如血液或唾液)中提取，而不会使RNA的原始相对丰度失真(必须保持线性)。(2)小RNA丰度必须可靠地定量。由于这两个步骤可能不一致地引入偏差(例如，通过存在cDNA合成抑制剂)，标准化并监测RNA提取和检测的效率均至关重要。应对这些挑战可以以多种方式实现。

首先，通过将RNA电泳图谱与基于先前分析的样品(例如小RNA生物分析仪痕迹)的预期图谱进行比较，对内源性RNA进行RNA完整性分析可用于质量控制。然而，这种全局分析仅能提供样品完整性的鸟瞰图，而缺乏粒度。

其次，定义内源性小RNA(例如属于核或剪接RNA的持家基因)的参考值是有可能的，可充当新测量样品比较的准绳。因此，具有超出预期范围的持家基因的样品可能作为异常值而被取消分析资格。然而，使用样品的内源性特征用于质量控制，使得其不可能将经过技术上存在问题的实验处理的样品与代表真实生物异常值的样品区分。

为了克服这个问题，学术和商业实验室已经开始采用可模拟内源性靶RNA群体的外源性掺入物序列，并因此允许监测实验的低效性。最常见的用于小RNA分析的掺入物是来自秀丽隐杆线虫(C.elegans worm)的cel-miR-39-3p。然而，使用单一掺入物(例如cel-miR-39-3p)本身有几个缺点。首先，单一掺入物并不能很好地代表整体小RNA互补体(complement)显著的一级序列异质性。由于一级序列特异性作用(例如RNA二级结构)、自由能和GC含量可对提取和检测效率具有重要影响，单一种类的掺入物不足以忠实地反应这点。此外，单一掺入物无法评估不同RNA水平的相对丰度的真实保存状况。线性度作为核酸分离和检测的黄金标准不能从单一数据点来评估。相反，为了稳健地评估实验的线性度，需要以不同浓度给予的至少三种不同的掺入物来计算Pearson系数。

为了克服上述使用单一掺入物(例如cel-miR-39-3p)的限制，本发明人设计并优化了人工小RNA分子的通用掺入物系统，所述通用掺入物系统广泛地反映在RNA提取和检测期间的内源性miRNA行为。然后，在处理开始时，将这种人工小RNA分子的混合物添加到生物样品(例如临床样品)中，并充当端到端的质量控制措施：只将其分析达标的如下的那些生物样品(例如临床样品)用于下游分析，所述分析产生按其预期水平、顺序和线性度回收的人工小RNA分子。此外，对人工小RNA分子的混合物的评估可用作生物信息学归一化工具，以去除不同实验的批次效应。

此外，本发明人发现人工小RNA分子可用于鉴别对靶RNA分子的不期望的附着。他们已经发现，排除具有此类附着的靶RNA分子改善了RNA数据质量，并因此改善了靶RNA分析。

人工小RNA分子也被指称为掺入物。

发明内容

在第一方面，本发明涉及包含至少3种RNA分子的组合物，其中，所述至少3种RNA分子选自于由以下组成的组：具有根据SEQ ID NO：1至SEQ ID NO：4的核苷酸序列的RNA分子、其片段，以及与其具有至少80％、优选至少85％、更优选至少90％和甚至更优选至少95％(例如80％、81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％)的序列同一性的序列。

在第二方面，本发明涉及试剂盒，所述试剂盒包含所述第一方面的组合物。

在第三方面，本发明涉及所述第一方面的组合物或所述第二方面的试剂盒(作为标准品)用于如下的用途：过程控制、样品检测、归一化和/或数据处理控制。优选地，数据处理控制包含/是原始数据处理控制。

在第四方面，本发明涉及用于检测样品的方法，所述方法包括以下步骤：

相对于包含在/来自第一方面的组合物中的至少3种RNA分子，对样品进行评估。

在第五方面，本发明涉及用于生物样品的优化处理的方法，所述方法包括以下步骤：

实施第四方面的方法。

在第六方面，本发明涉及用于从生物样品进行的优化的RNA制备的方法或生物样品的RNA分析的方法，所述方法包括以下步骤：

实施第四方面的方法。

在第七方面，本发明涉及改善(RNA)数据集质量的方法，所述方法包括以下步骤：

实施第四方面的方法。

在第八方面，本发明涉及改善(RNA)数据集质量的方法，所述方法包括以下步骤：

(i)确定样品中的RNA分子的序列，

(ii)确定所述RNA分子的5'端和/或3'端的添加物，所述添加物不是处于天然存在形式的RNA分子的一部分，以及

(iii)从(RNA)数据集分析中排除具有5'端和/或3'端添加物的RNA分子/从(RNA)数据集中去除具有5'端和/或3'端添加物的RNA分子。

优选地，(RNA)数据集分析是原始(RNA)数据分析或(RNA)数据集是原始(RNA)数据集。

本发明的这一概述并不一定描述了本发明的所有特征。其它实施方式将从随后的详细描述的回顾中变得显而易见。

具体实施方式

定义

在下文详细描述本发明之前，将理解的是，本发明不限于本文所述的特定方法学、方案和试剂，因为它们可以变化。还将理解的是，本文使用的术语仅用于描述特定实施方式的目的，而不旨在限制本发明的范围，本发明的范围将仅受所附权利要求的限定。除非另有定义，否则本文使用的所有技术术语和科学术语具有与本领域普通技术人员通常理解的含义相同的含义。

优选地，本文使用的术语如在下述中进行定义“A multilingual glossary ofbiotechnological terms:(IUPAC Recommendations)”，Leuenberger，H.G.W，Nagel，B.和H.编(1995)，Helvetica Chimica Acta，CH-4010Basel，瑞士。

本申请文件的全文中引用了多个文件。无论是上文还是下文，本文引用的各个文件(包括所有专利、专利申请、科学出版物、制造商的规格说明、说明书、GenBank登录号序列提交等)均在此通过引用的方式以其整体并入。本文中的任何内容都不应当被理解为承认了本发明没有权利借助于先前的发明而将此类公开内容提前。在此类所并入的参考文献的定义或教导与本申请文件中所述的定义或教导之间存在冲突的情况下，本申请文件的文本具有优先性。

根据本发明的术语“包括”或诸如“包含”或“含有”的变体意指包含所陈述的整体(integer)或整体的组，但不排除任何其它整体或整体的组。根据本发明的术语“基本上由……组成”意指包含所陈述的整体或整体的组，同时排除将实质上影响或改变所陈述的整体的其它整体或修改。根据本发明的术语“由……组成”或诸如“由……构成”的变体意指包含所陈述的整体或整体的组，并排除任何其它整体或整体的组。

除非本文中另有说明或上下文中明显矛盾，在描述本发明的上下文中(特别是在权利要求的上下文中)使用的术语“一个/一种(a和an)”以及“所述/该(the)”和类似的指代应被解释为涵盖单数的和复数的。

如本文所用，术语“约”指示与其之前的定量值的一定变化。特别而言，除非另有指示或推断，否则术语“约”允许与其之前的定量值有±5％的变化。除非另有明确说明，否则术语“约”的使用也包括具体的定量值本身。例如，表述“约80℃”允许±4℃的变化，因此是指从76℃至84℃的范围。

可以通过序列比对来确定核苷酸和氨基酸序列的相似性，即序列同一性的百分比。此类比对可以用多种本领域已知的算法来实施，优选Karlin和Altschul的数学算法(Karlin&Altschul(1993)Proc.Natl.Acad.Sci.USA 90:5873-5877)，hmmalign(HMMER包)或CLUSTAL算法(Thompson,J.D.,Higgins,D.G.&Gibson,T.J.(1994)Nucleic AcidsRes.22,4673-80)或CLUSTALW2算法(Larkin MA,Blackshields G,Brown NP,Chenna R,McGettigan PA,McWilliam H,Valentin F,Wallace IM,Wilm A,Lopez R,Thompson JD,Gibson TJ,Higgins DG.(2007).Clustal W and Clustal X version2.0.Bioinformatics,23,2947-2948)。

序列同一性(序列匹配)的等级可以使用例如BLAST、BLAT或BlastZ(或BlastX)来计算。类似的算法被并入了Altschul等，(1990)J.Mol.Biol.215:403-410的BLASTN和BLASTP程序中。通过BLAS TP程序进行BLAST蛋白搜索，所述BLASTP程序可例如在网站上获得：http://blast.ncbi.nlm.nih.gov/Blast.cgi？PROGRAM＝blastp&BLAST_PROGRAMS＝blastp&PAGE_TYPE＝BlastSearch&SHOW_DEFAULTS＝on&LINK_LOC＝blasthome

所使用的优选算法参数是默认参数，如它们在所指示的网站上设置的：

期望阈值＝10，字长＝3，查询范围内的最大匹配＝0，矩阵＝BLOSUM62，空位罚分＝存在:11延伸:1，组成调整＝与非冗余蛋白序列数据库(nr)一起的条件性组成评分矩阵调整。

为了获得用于比较目的的空位比对，如Altschul等，(1997)Nucleic AcidsRes.25:3389-3402中所述地使用Gapped BLAST。当使用BLAST和Gapped BLAST程序时，使用相应程序的默认参数。序列匹配分析可以通过已建立的同源性映射技术(如Shuffle-LAGAN(Brudno M.,Bioinformatics 2003b,19Suppl 1:I54-I62)或Markov随机场)进行补充。

如本文所用，术语“核苷酸”是指由核苷和磷酸酯组成的有机分子。特别而言，核苷酸由三个亚基分子组成：核碱基、五碳糖(核糖或脱氧核糖)以及由1个至3个磷酸根组成的磷酸基团。DNA中的四种核碱基为鸟嘌呤、腺嘌呤、胞嘧啶和胸腺嘧啶；在RNA中，尿嘧啶被用来代替胸腺嘧啶。核苷酸充当核酸聚合物(如脱氧核糖核苷酸(DNA)或核糖核苷酸(RNA))的单体单元。因此，核苷酸是DNA和RNA的分子构建块(building-block)。

术语“核苷酸序列”或“多核苷酸”在本文中可互换使用，并且是指核苷酸单体的单链和双链聚合物，包括但不限于通过核苷酸间磷酸二酯键连接键相连接的2'-脱氧核糖核苷酸(DNA)和核糖核苷酸(RNA)、或核苷酸间的类似物，以及相关的反荷离子(counterion)，例如H⁺、NH4⁺、三烷基铵、Mg²⁺、Na⁺等。核苷酸序列或多核苷酸可完全由脱氧核糖核苷酸组成、完全由核糖核苷酸组成、或由其嵌合混合物组成，并且可包括核苷酸类似物。核苷酸单体单元可包括本文所述的任何核苷酸，包括但不限于核苷酸和/或核苷酸类似物。

如本文所用，术语“核酸分子”是指核苷酸单体的单链和双链聚合物，包括但不限于通过核苷酸间磷酸二酯键连接键相连接的2'-脱氧核糖核苷酸(DNA)和核糖核苷酸(RNA)、或核苷酸间的类似物，以及相关的反荷离子，例如H⁺、NH4⁺、三烷基铵、Mg2⁺、Na⁺等。核酸分子可完全由脱氧核糖核苷酸组成、完全由核糖核苷酸组成、或由其嵌合混合物组成，并且可包括核苷酸类似物。

如本文所用，术语“RNA分子”是指具有任意长度的核糖核苷酸的聚合形式。和DNA一样，RNA被组装成核苷酸的链，但与DNA不同的是，RNA作为折叠至自身上的单链见于自然界中，而不是配对的双链。

细胞有机体使用信使(mRNA)传递遗传信息(使用鸟嘌呤、尿嘧啶、腺嘌呤和胞嘧啶的含氮碱基，用字母G、U、A和C表示)，指导特定蛋白质的合成。一些RNA分子在细胞内通过催化生物反应、控制基因表达或感知和传达对细胞信号的应答而发挥活跃的作用。这些活跃的过程之一是蛋白质合成，其中RNA分子指导蛋白质在核糖体上合成的普遍功能。这个过程使用转运RNA(tRNA)分子将氨基酸递送到核糖体，在该处核糖体RNA(rRNA)然后将氨基酸连接在一起以形成编码的蛋白质。

在本发明的上下文中，RNA分子是人工RNA分子。因此，它在自然界中不存在。它对于细胞来说是外源性的。它是人工设计/生产的。RNA分子被包含在组合物中，所述组合物可作为通用的掺入物系统或混合物使用。

本发明人设计并优化了RNA分子，所述RNA分子广泛反映在RNA提取和检测期间的内源性miRNA行为。具体而言，本发明人生成了长度为21个核苷酸的20条随机序列(反映了miRNA的典型长度)。接下来，他们评估了它们的分子特征，例如熔解温度(Tm℃)和GC％。随后，他们根据数项标准选择了10个人工序列的简短列表用于湿式实验室验证。具体而言，他们希望最小化引物二聚体并选择具有相对弱的二级结构的RNA。他们选择RNA分子作为掺入物，所述掺入物的GC含量范围为从38.1％至61.9％，所述含量涵盖了大部分内源性miRNA的GC含量。最后，本发明人选择了具有根据SEQ ID NO：1至SEQ ID NO：4的核苷酸序列的4种人工RNA分子作为组合物的成分，所述组合物可作为通用的掺入物系统或混合物使用。这4种RNA分子中的至少3种必须存在于组合物中，以便有效地监测实验的低效性。例如，为了稳健地评估实验的线性度，需要以不同浓度给予的至少三种的不同RNA分子(掺入物)来统计分析(例如用于计算Pearson系数)。

所述RNA分子的特征在于：

二级结构，该二级结构使引物二聚体的形成最小化，

G/C含量在38.1％至61.9％之间，并且因此涵盖了大部分内源性小RNA(例如miRNA的G/C含量)，以及

5'磷酸基团反映内源性成熟小RNA(例如miRNA)。

如本文所述，术语“小RNA分子”是指长度小于200个核糖核苷酸的聚合RNA分子，优选长度小于50个核糖核苷酸。具体而言，小RNA分子的长度在10个至<200个核糖核苷酸之间。更具体地，小RNA分子的长度在10个至<50个核糖核苷酸之间。小RNA分子通常是非编码RNA分子。具有根据SEQ ID NO：1至SEQ ID NO：4的核苷酸序列的RNA分子是小RNA分子。

如本文所用，术语“组合物”是指包含至少3种RNA分子的组合物，其中所述至少3种RNA分子选自于由具有根据SEQ ID NO：1至SEQ ID NO：4的核苷酸序列的RNA分子组成的组。包含在组合物中的RNA分子是人工的、外源性的小RNA分子。它们在自然界中不存在。此外，它们广泛反映在RNA提取和检测期间的内源性miRNA行为。

在一个实施方式中，包含在组合物中的至少3种RNA分子具有特征分布，特别是就其量而言。特别而言，至少3种RNA分子以不同的量包含在组合物中。更特别地，至少3种RNA分子以定义量的梯度包含在组合物中。具体而言，将至少3种RNA分子滴定至不同量的线性范围。

所述组合物可作为掺入物混合物使用或可被认为是掺入物混合物。掺入物混合物是通用的掺入物混合物，所述掺入物混合物与下游的检测方法无关。

如本文所用，术语“掺入物”是指将已知量/数量的RNA分子添加(掺入)至样品中。样品可包含生物材料。样品还可以是基于/源自生物材料的经加工样品。然后运行测量掺入样品的应答(回收)的方法。所述方法可以在任何处理步骤运行，以确定样品处理和/或样品分析的数量或质量。例如，所述方法可以在生物材料裂解、RNA提取、RNA或DNA(源自RNA的DNA)扩增和/或DNA(源自RNA的DNA)测序之后运行。

如本文所用，术语“掺入物混合物”是指包含已知序列和量/数量的RNA分子(也称为RNA掺入物)的组合物。包含在组合物中的RNA分子是人工的、外源性小RNA分子。它们在自然界中不存在。此外，它们广泛反映在RNA提取和检测期间的内源性miRNA行为。

本发明的掺入物混合物是包含至少3种RNA分子的组合物，其中所述至少3种RNA分子选自于由具有根据SEQ ID NO：1至SEQ ID NO：4的核苷酸序列的RNA分子组成的组。

将所述RNA分子添加到样品中(例如生物样品或经处理的生物样品)，以获取诸如核酸定量实验的分子生物学实验(例如qPCR、下一代测序(NGS)和/或微阵列实验)的性能。

如上所述，包含在组合物中的至少3种RNA分子具有特征分布，特别是就其量而言。特别而言，至少3种RNA分子以不同的量包含在组合物中。更特别地，至少3种RNA分子以定义量的梯度包含在组合物中。因此，包含在组合物中的任何RNA分子以特定且已知的量存在，所述量与其他RNA分子的量不同。具体而言，将至少3种RNA分子滴定至不同量的线性范围。

在本发明涉及检测样品的方法中，相对于包含在/来自本文所描述的组合物中的至少3种RNA分子，对样品进行评估，其中所述至少3种RNA分子选自于由具有根据SEQ IDNO：1至SEQ ID NO：4的核苷酸序列的RNA分子组成的组。至少3种RNA分子是样品的一部分。它们已被添加到样品中。

在此方法中，评估至少3种RNA分子(在样品处理和分析期间/之后)是否仍然具有此特征分布。具体而言，评估至少3种RNA分子是否以其预期水平、预期顺序和/或预期线性度存在。以这种方式，可以控制样品处理和/或样品分析的质量或数量。

在这方面，将理解的是，术语“RNA分子”可指RNA分子本身以及其替代物，例如扩增产物(例如源自其的cDNA)。

如本文所用，术语“预期水平”是指在随后的样品处理和/或分析中，预期添加到样品中或包含在组合物中的特定RNA分子的量的水平。如上所述，将RNA分子以特定量添加到样品中或包含在组合物中。RNA分子的量可以与在后续的样品处理和/或分析期间可被测量的RNA分子的任何预期水平对应/相关。具体而言，RNA分子的量可以与下一代测序测定中的特定的读段计数(每百万读段数(RPM))对应/相关，并且/或者RNA分子的量可以与在实时PCR实验中的特定的循环阈值(Ct)对应/相关。特别而言，循环阈值(Ct)是超过在扩增的DNA的测量信号(例如荧光信号)中先前定义的阈值所需的实时PCR中的循环次数。在PCR前，样品溶液中已存在的DNA(RNA)越多，达到相关阈值所需的扩增循环越少。

例如，具有根据SEQ ID NO：1的核苷酸序列的RNA分子以约3400amol的量添加到样品中或包含在本发明的组合物中，将产生约26的预测的Ct值(测量的Ct平均值为约24.3)；具有根据SEQ ID NO：2的核苷酸序列的RNA分子以约725amol的量添加到样品中或包含在本发明的组合物中，将产生约29.3的预测的Ct值(测量的Ct平均值为约27.1)；具有根据SEQID NO：3的核苷酸序列的RNA分子以约20amol的量添加到样品中或包含在本发明的组合物中，将产生约35.9的预测的Ct值(测量的Ct平均值为约32)；并且/或者具有根据SEQ ID NO：4的核苷酸序列的RNA分子以约7amol的量添加到样品中或包含在本发明的组合物中，将产生约39.2的预测的Ct值(测量的Ct平均值为约33.6)。

例如，具有根据SEQ ID NO：1的核苷酸序列的RNA分子以约3400amol的量添加到样品中或包含在本发明的组合物中，将产生约11.972的log2 RPM或约30628的读段计数；具有根据SEQ ID NO：2的核苷酸序列的RNA分子以约725amol的量添加到样品中或包含在本发明的组合物中，将产生约10.926的log2 RPM或约5554的读段计数；具有根据SEQ ID NO：3的核苷酸序列的RNA分子以约20amol的量添加到样品中或包含在本发明的组合物中，将产生约6.559的log2 PRM或约491的读段计数；并且/或者具有根据SEQ ID NO：4的核苷酸序列的RNA分子以约7amol的量添加到样品中或包含在本发明的组合物中，将产生约4.061的log2RPM或约94的读段计数。

如本文所用，术语“水平”是指在组合物中或在样品中包含的RNA分子的量(例如以克、摩尔或离子计数测量)或浓度(例如绝对或相对浓度，例如每百万读段数(RPM)或NGS计数)。如本文所用，术语“水平”还包含折合的、归一化的、或折合并归一化的量或值(例如RPM)。特别地，通过如下来确定RNA分子的水平：测序、优选下一代测序(例如ABI SOLID、Illumina Genome Analyzer、Roche 454GS FL、BGISEQ)，核酸杂交(例如微阵列或珠)、核酸扩增(例如PCR、RT-PCR、qRT-PCR或高通量RT-PCR)、聚合酶延伸、质谱、流式细胞术(例如LUMINEX)或其任何组合。具体而言，RNA分子的水平是所述RNA分子的表达水平。

如本文所用，术语“预期顺序”是指在随后的样品处理和/或分析中，预期添加到样品中或包含在组合物中的特定RNA分子的顺序/等级。如上所述，添加到样品中或包含在组合物中的RNA分子各自的量不同。因此，在将3种RNA分子添加到样品中或包含在组合物中的情况下，第一种RNA分子(例如，具有根据SEQ ID NO：1的核苷酸序列的RNA分子)以最大量存在，第二种RNA分子(例如，具有根据SEQ ID NO：2的核苷酸序列的RNA分子)以小于第一种RNA分子的量存在，并且第三种RNA分子(例如，具有根据SEQ ID NO：3的核苷酸序列的RNA分子)以小于第一种RNA分子和第二种RNA分子的量存在。在将4种RNA分子添加到样品中或包含在组合物中的情况下，第一种RNA分子(例如，具有根据SEQ ID NO：1的核苷酸序列的RNA分子)以最大量存在，第二种RNA分子(例如，具有根据SEQ ID NO：2的核苷酸序列的RNA分子)以小于第一种RNA分子的量存在，而第三种RNA分子(例如，具有根据SEQ ID NO：3的核苷酸序列的RNA分子)以小于第一种RNA分子和第二种RNA分子的量存在，并且第四种RNA分子(例如，具有根据SEQ ID NO：4的核苷酸序列的RNA分子)以小于第一种RNA分子、第二种RNA分子和第三种RNA分子的量存在。

这种代表初始的状态/条件的预期顺序/等级必须在样品处理和/或分析期间恢复。在这方面，应该注意的是，以特定的顺序/等级包含在样品中或在组合物中的RNA分子的量可以与在后续的样品处理和/或分析期间可被测量的RNA分子的任何预期水平对应/相关。例如，RNA分子的量可以与下一代测序测定中的特定的读段计数对应/相关，并且/或者RNA分子的量可以与在实时PCR实验中的特定的循环阈值(Ct)对应/相关。

如本文所用，术语“预期线性度”是指在随后的样品处理和/或分析中，预期添加到样品中或包含在组合物中的特定RNA分子的线性度。

这种代表初始的状态/条件的预期线性度必须在样品处理和/或分析期间恢复。

只将其分析产生按其预期水平、顺序和线性度回收的RNA分子或其替代物的那些样品用于下游分析和/或进一步处理。

为了确定RNA分子是否以其预期顺序和/或线性度存在，使用与所述RNA分子相关的数据(例如Ct值或RPM)进行统计分析。所述统计分析包括但不限于Spearman(等级)相关分析和/或Pearson相关分析。

例如，为了确定RNA分子是否以其预期顺序存在，优选确定Spearman等级相关系数(Spearman'sρ)。

此外，为了确定RNA分子是否以其预期线性度存在，优选确定Pearson相关系数(Pearson's r)。

如本文所用，术语“Spearman等级相关系数或Spearman'sρ”是等级相关的非参数度量(两个变量的等级之间的统计依赖性)。它评估可使用单调函数来描述的两个变量之间的关系的程度。

两个变量之间的Spearman相关性等于这两个变量的等级值之间的Pearson相关性；Pearson相关性评估线性关系，而Spearman相关性评估单调关系(无论线性与否)。如果没有重复的数据值，当每个变量是另外的变量的完美单调函数时，就会出现+1或-1的完美Spearman相关性。

直观而言，当观测值在两个变量之间具有相似(或相同，相关性为1)的等级(即变量内观测值的相对位置标签：第1、第2、第3等)时，两个变量之间的Spearman相关性将会很高，并且当观测值在两个变量之间具有不同(或完全相反，相关性为-1)的等级时，Spearman相关性将会很低。

在本发明的上下文中，当Spearman等级相关系数(Spearman'sρ)≥0.95时，RNA分子以其预期顺序存在。在这种情况下，对样品进行进一步处理/分析。因此，Spearman等级相关系数(Spearman'sρ)<0.95会导致样品弃置。换句话说，不会对此类样品进一步处理/分析。

如本文所用，术语“Pearson相关系数或Pearson's r”是两组数据集之间的线性相关性的度量。它是两个变量的协方差与其标准差的乘积之间的比率。因此，它本质上是协方差的归一化测量，使得结果总是介于-1和1之间。与协方差本身一样，所述度量只能反映变量的线性相关性，而忽略了许多其他类型的关系或相关性。

在本发明的上下文中，当Pearson相关系数(Pearson's r)≥0.66时，RNA分子以其预期线性度存在。在这种情况下，对样品进行进一步处理/分析。因此，Pearson相关系数(Pearson's r)<0.66会导致样品弃置。换句话说，不会对此类样品进一步处理/分析。

此外，对人工小RNA分子的混合物的评估可作为生物信息学归一化工具起作用，以去除不同实验的批次效应。如本文所用，术语“归一化”是指比较不同样品之间的RNA水平所需的技术。例如，需要对高通量小RNA测序数据归一化，以比较不同样品中的小RNA水平。由于组织或体液之间小RNA群体的波动，常用的相对归一化方法可能会导致错误的结论。本发明人开发了RNA分子的组合物(也称为RNA掺入物)，所述组合物能够使独立实验之间的小RNA数据绝对归一化。通常将来自小RNA测序实验的数据归一化并以相对术语(例如每百万基因组匹配读段数的读段数(RPMs))报告。如果假设小RNA亚群在所介绍的不同组织或体液类型之间具有相同的比例，则相对归一化效果良好。然而，这种假设通常是无效的，因为小RNA群体在不同组织或体液类型以及在各种突变背景中经常是动态的。因此，比较相对归一化的小RNA测序值的标准做法可能会产生误导性结果。相比之下，小RNA测序数据的绝对归一化应该能够在基因组范围内准确比较在不同细胞类型、突变组织或疾病状态中的小RNA水平。本发明人设计了RNA分子(也称为RNA掺入物)，所述RNA分子可用于稳健的绝对归一化(例如在独立的实验之间的小RNA测序数据)。

所述RNA分子的特征在于：

二级结构，其使引物二聚体的形成最小化，

在38.1％至61.9％之间的G/C含量，并且因此涵盖了大部分内源性小RNA(例如miRNA)的G/C含量，以及

5'磷酸基团，以模仿内源性成熟小RNA(例如miRNA)。

如本文所用，关于样品(包含生物材料)的术语“质量”是指在该样品中的组分相对于所述组分被包含在生物系统(例如细胞)中时的降解水平。例如，评估RNA和/或DNA的质量可以包括评估RNA和/或DNA聚合物的部分降解水平。在一些实施方式中，评估质量包括评估来自掺入物标准品的RNA和/或DNA的部分降解，例如，通过评估相对于全长掺入物标准品而言的掺入物标准品的片段(较短的分子)的存在。

如本文所用，关于样品(包含生物材料)的术语“数量”是指在该样品中的存在的组分相对于所述组分被包含在生物系统(例如细胞)中时的水平。在一些实施方式中，评估RNA和/或DNA的数量可以包括评估样品中的RNA和/或DNA聚合物的降解或丧失水平。

如本文所用，术语“样品”是指生物材料与本发明的组合物的混合物。或者，样品是基于/源自生物材料与本发明的组合物的混合物。在这种情况下，样品通常是经处理的样品。通过将生物材料与本发明的组合物混合并进一步处理由此得到的混合物来得到经处理的样品。例如，经处理的样品是裂解的样品、提取的样品、扩增的样品、测序的样品或文库制备的样品。

如本文所用，术语“生物材料”是指具有生物来源的任何材料。生物材料优选是组织材料或体液材料。

如本文所用，术语“体液材料”是指源自个体的机体的任何液体材料。

所述体液材料可以是尿液、血液、痰、母乳、脑脊液(CSF)、耵聍(耳垢)、胃液、粘液、淋巴液、内淋巴液、外淋巴液、腹膜液、胸膜液、唾液、皮脂(皮肤油脂)、精液、汗液、泪液、面颊拭子、阴道分泌物、液体活检或呕吐物样本，包括它们的成分(components)或组分(fractions)。术语“体液材料”还涵盖体液组分，例如，血液组分，如血细胞、血清或血浆，其中血细胞代表血液的细胞组分，并且血清和血浆代表血液的非细胞组分。

如本文所用，术语“血液材料”涵盖全血或血液组分。优选地，血液组分选自于由血细胞组分、血浆和血清组成的组。例如，血细胞组分涵盖了红细胞、白细胞和/血小板。更优选地，血细胞组分是白细胞组分或红细胞、白细胞和血小板的混合物。

所述血液材料可以通过从个体中取出血液来提供，但也可以通过使用先前分离的材料来提供。例如，可以通过常规的血液采集技术从个体中采集血液材料。

可以通过采血管采集全血材料。例如，采集在PAXgene Blood RNA管、TempusBlood RNA管、EDTA管、柠檬酸钠管、肝素管或ACD管(柠檬酸葡萄糖)中。

如本文所用，血液材料(特别是全血材料)也可以通过血斑技术采集，例如使用Mitra Microsampling Device。该技术需要较小的样品体积，对于人通常为45-60μL、或更少。例如，可用针或刺血针通过刺破手指从个体提取全血。因此，全血材料可具有血滴的形式。然后将所述血滴置于能够吸收全血的吸收性探针上，例如亲水性聚合物材料，例如纤维素。一旦采样完成，血斑在空气中干燥，然后转移或邮寄到实验室进行处理。因为血液是干燥的，所以其不被认为有危害性。因此，在操作或运输过程中无需采取特殊预防措施。一旦到达分析位点，将期望的组分(例如RNAs)从干燥的血斑中提取到上清液中，然后对所述上清液进行进一步分析。以这样的方式，RNA的水平被确定。

如本文所用，术语“组织材料”是指源自个体的机体的任何组织材料。所述材料可以是个体任何器官的肿瘤/癌组织材料或健康组织材料。例如，组织材料可以是肺、肾、肝、脑、结肠、乳房、胃、子宫、卵巢、胰腺或前列腺的材料。它可以通过常规的活检技术从个体中取出。

如本文所用，术语“靶RNA”是指寻求被检测的、包含在生物材料中的内源性核糖核苷酸序列。靶RNA可从任何来源获得，并且可包含任何数量的不同组成成分。例如，从生物体、组织、细胞或体液(如血液)中分离靶RNA。优选地，靶RNA涵盖非编码RNA。特别而言，靶RNA为微小RNA(miRNA)或miRNA异构体(isomiR)并且可包括变体、类似物和模拟物。在一些情况下，靶RNA也被指称为一个或多个靶RNA分子。

此外，将理解的事，术语“靶RNA”可指代靶分子本身以及其替代物，例如扩增产物(例如由其衍生的cDNA)和天然序列。在某些实施方式中，靶RNA为miRNA或miRNA异构体(isomiR)分子。在某些实施方式中，靶RNA为成熟的小RNA分子，特别是非编码小RNA分子(即，长度<200个核糖核苷酸，例如长度介于10个和<200个核糖核苷酸之间)。本文所述的靶RNA可源自任何数量的来源，包括但不限于人和动物。这些来源可包括但不限于全血、组织活检、淋巴、骨髓、羊水、毛发、皮肤、精液、生物战试剂、肛门分泌物、阴道分泌物、汗液、唾液或口腔拭子。然而，各种环境样品(例如，农业、水和土壤)、一般研究样品、一般纯化样品、培养的细胞和裂解的细胞也可用作样品。将理解的是，可使用本领域已知的各种程序中的任一种从样品中分离靶RNA，例如，Applied Biosystems ABI6100 Nucleic AcidPrepStation(Life Technologies，Foster City，CA)和ABI6700自动核酸工作站(Life Technologies，Foster City，CA)、mirVana^TMRNA分离试剂盒(LifeTechnologies，Austin，TX)、PAXgene Blood RNA Kit(Qiagen，Hilden，德国)等。

生物材料中具有内源性来源的靶RNA分子不同于还在本文中描述的外源性人工RNA分子。当将外源性人工RNA分子作为组合物(例如掺入物混合物)的一部分添加到生物材料时，则靶RNA分子是所述生物材料的一部分。

如本文所用，术语“miRNA”(也可以指称为“微小RNA”)是指单链RNA分子。miRNA可为长度为10个至50个核苷酸的分子，例如长度为10个、11个、12个、13个、14个、15个、16个、17个、18个、19个、20个、21个、22个、23个、24个、25个、26个、27个、28个、29个、30个、31个、32个、33个、34个、35个、36个、37个、38个、39个、40个、41个、42个、43个、44个、45个、46个、47个、48个、49个或50个核苷酸，不包括可选的标记和/或延长序列(例如生物素延伸段)。

miRNA调节基因表达，并由转录它们的DNA的基因编码，但miRNA不被翻译成蛋白质(即miRNA为非编码RNA)。编码miRNA的基因比经加工的成熟的miRNA分子更长。miRNA最初被转录成称为初级miRNA转录物(pri-miRNA)的较长的前体分子(>1000个核苷酸长)。Pri-miRNA具有由Drosha酶(作为微处理器复合物的一部分)加工的发夹结构。经Drosha加工后，pri-miRNA只有60个至100个核苷酸长，并被称为前体miRNA(pre-miRNA)。此时，pre-miRNA被输出到细胞质，它在该处遇到Dicer酶。Dicer将miRNA切割为两份，产生双链体miRNA链。传统上，这些miRNA臂中的只有一个被认为在基因调控中重要：注定被加载到RNA诱导的沉默复合体(RISC)中的臂，并在细胞中以较高的浓度出现。这通常被称为“引导”链，并被指称为miR。另一臂被称为“次要miRNA”或“乘客miRNA”，并通常被指称为miR^*。据认为，乘客miRNA被完全降解，但深度测序研究发现，一些次要miRNA仍然存在，并且实际上在基因调控中发挥功能性作用。由于这些发展，命名惯例发生了变化。采用了miR-5p/miR-3p命名法取代miR/miR^*命名方案。通过新系统，miRNA的5'臂总是被指称为miR-5p，而3'臂为miR-3p。目前的命名法如下：前缀“miR”后随着短线和数字，后者通常表示命名顺序。例如，命名了hsa-miR-16，并且其可能早于hsa-miR-342被发现。大写的“miR-”是指miRNA的成熟形式(例如hsa-miR-16-5p和hsa-miR-16-3p)，而未大写的“mir-”是指pre-miRNA和pri-miRNA(例如hsa-mir-16)，而“MIR”指编码它们的基因。然而，由于这是近期的变化，文献中将经常会提及原有的miR/miR*名称。经加工后，将双链体miRNA链加载到Argonaute(AGO)蛋白上，以形成RISC的前体。复合体引起双链体解开，并且乘客RNA链被丢弃，留下携带成熟的单链miRNA的成熟RISC。miRNA仍然是RISC的一部分，因为它沉默了其靶基因的表达。虽然这是miRNA生物发生的经典途径，但已经发现了许多其它途径。这些途径包括Drosha非依赖性途径(如mirtron途径、snoRNA衍生途径和shRNA衍生途径)和Dicer非依赖性途径(如依赖于用于切割的AGO的途径和依赖于tRNaseZ的另一途径)。

如本文所用，术语“miRBase”是指经验证的miRNA的充分建立的储库。miRBase(www.mirbase.org)是已公开的miRNA序列和注释的可搜索数据库。miRBase序列数据库中的各个条目代表miRNA转录物的预测的发夹部分(在数据库中称为mir)，具有关于成熟miRNA序列(称为miR)的位置和序列的信息。发夹序列和成熟序列都可用于搜索和浏览，也可按名称、关键字、引用和注释来抓取条目。所有序列和注释数据也可用于下载。在2018年10月，miRbase版本22.1发布。这是当前版本[Please check]。

如本文所使用的术语“isomiR”(或“miRNA异构体”)是指序列略有变化的miRNA，这是由于miRNA生物发生期间切割位点的变化而引起。特别地，Drosha和Dicer的不精确切割或miRNA的转换(turnover)可引起miRNA在长度和/或序列上的异质性。IsomiR(miRNA异构体)可分为三种主要类别：3'isomiR(在3'位置处修整或添加一个或多个核苷酸)、5'isomiR(在5'位置处修整或添加一个或多个核苷酸)和多态性isomiR(序列中的一些核苷酸与野生型成熟miRNA序列不同)。可以预见，单个的isomiR或miRNA变体的表达增加引起相应的野生型成熟miRNA功能的丧失或减弱，或引起不同转录组的调节。最近的研究表明，isomiR可能在多种癌症、组织和细胞类型中发挥重要作用。因此，miRNA和isomiR的检测对于准确反映潜在的生物学状况并做出正确的诊断和治疗决定而言是绝对必要的。

可使用本领域已知的各种程序中的任一种从样品中分离RNA，例如，AppliedBiosystems ABI6100Nucleic Acid PrepStation(Life Technologies，FosterCity，CA)和ABI6700自动核酸工作站(Life Technologies，Foster City，CA)、mirVana^TMRNA分离试剂盒(Life Technologies，Austin，TX)、PAXgene BloodRNA试剂盒(Qiagen，Hilden，德国)等。

RNA分子检测需要更高量的RNA分子的存在。由于逆转录过程，从RNA分子中产生了cDNA分子。在不同的实施方式中，将这些cDNA分子进行扩增。RNA分子也可以直接扩增。如本文所用，术语“扩增”是指通常以模板依赖的方式籍此复制本文所描述的核酸分子的至少一部分的任何手段，包括但不限于用于扩增核酸序列(线性或指数地)的多种技术。可使用数种方法中的任一种来扩增核酸分子。可使用用于倍增核酸靶序列拷贝的任何体外手段。这些手段包括线性的、对数的或其它的扩增方法。

可使用的扩增技术的实例包括但不限于：PCR、定量PCR、定量荧光PCR(QF-PCR)、多重荧光PCR(MF-PCR)、实时PCR(RT-PCR)、单细胞PCR、限制性片段长度多态性PCR(PCR-RFLP)、热启动PCR、巢式PCR、原位Polony PCR、原位滚环扩增(RCA)、桥式PCR、picotiterPCR和乳液PCR。其他合适的扩增方法包括连接酶链式反应(LCR)、转录扩增、自我持续序列扩增、靶多核苷酸序列的选择性扩增、共有序列引发的聚合酶链反应(CP-PCR)、随机引发的聚合酶链式反应(AP-PCR)、简并寡核苷酸引发的PCR(DOP-PCR)和基于核酸的序列扩增(NABSA)。

在不同的实施方式中，对衍生自RNA分子的DNA分子进行测序。如本文所用，术语“测序”包括确定核酸分子的序列的任何方法。这些方法包括Maxam-Gilbert测序、链终止方法、鸟枪法、PCR测序、桥式PCR、大规模并行签名测序(MPSS)、Polony测序、焦磷酸测序、Illumina(Solexa)测序、SOLiD测序、离子半导体测序、DNA纳米球测序、Heliscope单分子测序、单分子实时(SMRT)测序、纳米孔DNA测序、杂交测序、质谱测序、微流控桑格测序、基于显微镜的技术、RNAP测序、(体外病毒)高通量测序(HTS)。

如本文所用，术语“下一代测序(NGS)”是指以高速且低成本地对核苷酸序列测序的新方法。因此，新一代测序(NGS)是高通量的方法，所述方法使得能够对DNA或RNA样品中的碱基对快速测序。NGS支持广泛的应用(包括基因表达谱、染色体计数、表观遗传变化的检测和分子分析)，NGS正推动着发现并使个性化医疗的未来成为可能。NGS也被称为第二代测序(SGS)或大规模并行测序(MPS)。

在本发明的上下文中，术语“部件套装(简称：试剂盒)”被理解为本文所述的至少一些组分的任何组合，这些组分在空间上共存地组合成功能单元，并且可包含另外的组分。

如本文所用，术语“数据处理控制”是指数据分析期间的早期步骤，其中将数据的部分移除或缩小规模以提高后续分析的方面，例如提高数据质量以及提高分析期间的调研结果的可靠性。优选地，数据处理控制是原始数据处理控制。

如本文所用，术语“原始数据”是指在实验期间采集的数据。这些数据尚未进一步处理。原始数据可以是定量的(数字)和/或定性的(描述)。原始数据的规模(通常很大)、文件类型和结构取决于用于生成所述数据的技术。在得到最终可分析数据之前，需要将原始数据使用专用软件处理，例如映射到所测量的生物学状况/生物学，或查找生物样品组(例如具有不同医疗状况的患者)之间的统计差异。

在下一代测序过程控制中，数据的质量控制和预处理对于数据分析非常重要，因为测序后产生的原始数据必须经过处理，以便结果不会有假阳性和假阴性结果。数据预处理不仅评估了每个分析步骤，还减少了低质量序列读段数的量。去除此类低质量的读段数减少了计算分析的时间和成本，并且还得到了可靠和高质量的结果。

在NGS数据的任何下游分析中，由于以下原因产生假阳性和假阴性结果：

实验因素：如样品污染或PCR错误，

测序因素：包括测序质量以及在数据分割时因标签跳跃而导致的数据污染，和/或

分析软件参数因素：这包括比对软件或下游个性化分析中参数调整的精确类型。

测序后生成的原始序列不仅包含感兴趣的序列(例如靶RNA分子的序列)，而且它们还具有序列偏差(例如通过系统性效应，如泊松抽样)以及由于测序和实验步骤而生成的复杂的人造物。这些序列偏差和人造物影响和干扰精确的读段数比对，所述比对影响基因分型和变体调用。因此，为了提高下游分析的可靠性和质量以及减少所需的计算资源量，有必要对原始序列读段数预处理。

本发明人发现(靶)RNA分子的5'端和/或3'端添加物(例如在测序过程、例如下一代测序过程期间产生或发生)会误导并伪造原始数据结果。具体而言，需要消除/排除接头污染的序列读段数。本发明人发现，通过消除/排除接头污染的序列读段数，可以提高原始数据的质量。

如本文所用，术语“5'端添加物(也被指称为前缀序列)”是指附着至RNA分子或源自其的分子(例如cDNA分子)的5'端的核苷酸。它们是特别产生的/是存在于相同的物理混合物中的5'测序接头或其他RNA的残余物，并且它们在测序的技术过程期间已经(完全或部分)融合。就测序接头而言，在测序完成后，预期的融合后可能没有预期的切割来去除接头。

如本文所用，术语“3'端添加物(也被指称为后缀序列)”是指附着至RNA分子或源自其的分子(例如cDNA分子)的3'端的核苷酸。它们是特别产生的/是存在于相同的物理混合物中的其他RNA的残余物，并且它们在测序的技术过程期间已经(完全或部分)融合。在这方面，将理解的是，术语“RNA分子”可指RNA分子本身以及其替代物，例如扩增产物(例如源自其的cDNA)。

具体而言，在下一代测序(NGS)期间，发现其他RNA或接头序列的部分在一端或两端(5'端和/或3'端)上附着至(靶)RNA分子。这些部分在本文中称为缀加序列，所述缀加序列包括前缀序列(5')和后缀序列(3')两者。

优选地，5'端和/或3'端添加物的长度介于5个至30个核苷酸之间，更优选地，5个至20个核苷酸，并且甚至更优选地，7个至15个核苷酸，例如5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个、20个、21个、22个、23个、24个、25个、26个、27个、28个、29个或30个核苷酸。

具体而言，5'端和/或3'端添加物在如下期间发生/出现：

-将5'接头和/或3'接头连接至(变性的)(靶)RNA分子，例如，使用/用双链RNA连接酶(例如T4 RNA连接酶2(Rnl2)或Kod1连接酶)，

-将(所述)(靶)RNA分子(其上连接有5'接头和/或3'接头，也被指称为连接产物)逆转录成cDNA分子，例如，使用/用逆转录酶(RT，例如Maxima H-RT或Tth聚合酶)，

-(所述)cDNA分子的扩增，例如通过聚合酶链式反应(PCR)，和/或

-(所述)cDNA分子的测序，例如下一代测序。

PCR可以是实时PCR(定量PCR或qPCR，例如TaqMan qPCR)、多重PCR、巢式PCR、高保真PR、快速PCR、热启动PCR或高GC PCR。

更具体地，5'端和/或3'端添加物发生/出现在用于下一代测序的文库制备过程期间或在下一代测序过程期间。甚至更具体地，

下一代测序过程优选涵盖：

-(所述)cDNA分子的扩增，例如通过聚合酶链式反应(PCR)，和/或

-(所述)cDNA分子的测序。

术语“5'端和/或3'端添加物”或“5'端和/或3'端附着物”在本文中可互换使用。

本文中使用的术语“接头”是指作为测序(例如NGS方法)的设计的一部分，有意添加到生物的(靶)RNA/cDNA分子(源自待测序样品)的5'端或3'端的任何非生物的RNA/DNA序列。这包括任何可能以非预期方式与生物的RNA融合的自由浮动的接头分子。接头还可以是多个单独的接头和索引RNA(indexing RNA)的组合/融合。将索引RNA用作UMI(唯一分子标识符)，用于在多重测序(即同时对多个样品测序)期间将RNA分子分配给其来源的样品。UMI序列是具有预定长度的短的非特异性(随机)序列(例如12个核苷酸)，但长度也可以变化并被并入其他接头序列之间。

如本文所用，术语“处于天然存在形式的RNA分子”是指处于如下形式的RNA分子，其中，它们存在于自然界或自然环境中，例如，体液(例如全血或组织)。然而，这些RNA分子可以被进一步加工(例如加工成cDNA分子)。在这种情况下，它们具有自然起源。

如本文所用，术语“处于天然存在形式的RNA分子”进一步指在生物材料/样品中具有内源性来源的RNA分子。所述RNA分子是所述生物材料/样品的一部分，并且可以以其天然功能形式存在，或者可以是较长的功能性RNA序列的片段，所述序列已经作为特定生物过程的一部分、或随着时间的推移通过非特异性的物理/化学力而被降解或加工。

本发明的实施方式

现在将进一步描述本发明。在以下段落中，更详细地定义了本发明的不同方面。除非有相反的明确指示，否则如此定义的每个方面可与任何其它方面相结合。具体而言，除非有相反的明确指示，否则指示为优选或有利的任何特征可与指示为优选的或有利的任何其它特征组合。

学术和商业实验室已经开始采用外源性掺入物序列，该序列可模拟内源性靶RNA群体，并因此允许监测实验的低效性。最常见的用于小RNA分析的掺入物是来自秀丽隐杆线虫的cel-miR-39-3p。然而，使用单一掺入物(例如cel-miR-39-3p)本身有几个缺点。首先，单一掺入物并不能很好地代表整体小RNA互补体显著的一级序列异质性。由于一级序列特异性作用(例如RNA二级结构)、自由能和GC含量可对提取和检测效率具有重要的影响，单一种类的掺入物不足以忠实地反应这点。此外，单一掺入物无法评估不同RNA水平的相对丰度的真实保存状况。线性度作为核酸分离和检测的黄金标准不能从单一数据点来评估。相反，为了稳健地评估实验的线性度，需要以不同浓度给予的至少三种不同的掺入物来计算Pearson系数。

为了克服上述使用单一掺入物(例如cel-miR-39-3p)的限制，本发明人设计并优化了人工小RNA分子的通用掺入物系统，所述通用掺入物系统广泛地反映在RNA提取和检测期间的内源性miRNA行为。然后，在处理开始时，将这种人工小RNA分子的混合物添加到包含生物材料的样品(例如临床材料)中，并充当端到端的质量控制措施：只将其分析产生如下的那些生物样品用于下游分析，所述分析使得按其预期水平、顺序和线性度回收人工小RNA分子。此外，对人工小RNA分子的混合物的评估可用作生物信息学归一化工具，以去除不同实验的批次效应。

人工小RNA分子也被指称为掺入物。

因此，在第一方面，本发明涉及包含至少3种RNA分子(例如3种或4种RNA分子)的组合物，其中，所述至少3种RNA分子(例如3种或4种RNA分子)选自于由以下组成的组：具有根据SEQ ID NO：1至SEQ ID NO：4的核苷酸序列的RNA分子、其片段，以及与其具有至少80％、优选至少85％、更优选至少90％和甚至更优选至少95％(例如80％、81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％)的序列同一性的序列。

具体而言，包含在组合物中的RNA分子

(i)具有根据SEQ ID NO：1、2、3或4的核苷酸序列，

(ii)是根据(i)的核苷酸序列的片段的核苷酸序列，优选如下的核苷酸序列，所述核苷酸序列是比根据(i)的核苷酸序列短1个至12个、更优选1个至8个、以及最优选1个至5个或1个至3个(例如，1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个或12个)核苷酸的片段，或

(iii)是与根据(i)的核苷酸序列或根据(ii)的核苷酸序列片段具有至少80％、优选至少85％、更优选至少90％、以及最优选至少95％或99％(例如，至少80％、81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％)序列同一性的核苷酸序列。

具有SEQ ID NO：1的RNA分子具有以下核苷酸序列：GAUAGAUACGCCAGUACCGCC，

具有SEQ ID NO：2的RNA分子具有以下核苷酸序列：AACGAAGCUCCACGAUGUAGG，

具有SEQ ID NO：3的RNA分子具有以下核苷酸序列：UGUACGGAAAUAUUGGCUACC，以及

具有SEQ ID NO：4的RNA分子具有以下核苷酸序列：UUCAUACGUUGCCCAAUCCAG。

包含在组合物中的RNA分子是人工的、外源性小RNA分子。它们在自然界中不存在。它们对于细胞是外源性的。此外，它们广泛地反映在RNA提取和检测期间的内源性miRNA行为。此外，包含在组合物中的RNA分子具有

二级结构，该二级结构使引物二聚体的形成最小化，

在38.1％至61.9％之间的G/C含量，并且因此涵盖了大部分内源性小RNA(例如miRNA的G/C含量)，以及

5'磷酸基团，以反映内源性成熟小RNA(例如miRNA)。

优选地，组合物包含4种RNA分子，其中，所述4种RNA分子选自于由以下组成的组：具有根据SEQ ID NO：1至SEQ ID NO：4的核苷酸序列的RNA分子、其片段，以及与其具有至少80％、优选至少85％、更优选至少90％和甚至更优选至少95％(例如80％、81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％)的序列同一性的序列。

因此，所述组合物可以包含具有根据以下的核苷酸序列的RNA分子：

(i)SEQ ID NO：1，SEQ ID NO：2，以及SEQ ID NO：3，

(ii)SEQ ID NO：2，SEQ ID NO：3，以及SEQ ID NO：4，

(iii)SEQ ID NO：1，SEQ ID NO：3，以及SEQ ID NO：4，

(iv)SEQ ID NO：1，SEQ ID NO：2，以及SEQ ID NO：4，或

(v)SEQ ID NO：1，SEQ ID NO：2，SEQ ID NO：3，以及SEQ ID NO：4。

以(i)至(v)列出的RNA分子的片段、或与以(i)至(v)列出的RNA分子具有至少80％、优选至少85％、更优选至少90％和甚至更优选至少95％(例如80％、81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％)的序列同一性的序列也涵盖在内。

应注意的是，包含在组合物中的至少3种RNA分子(特别是4种RNA分子)具有特征分布(characteristic distribution)。特别地，包含在组合物中的至少3种RNA分子(特别是4种RNA分子)就其量而言具有特征分布。

具体而言，将至少3种RNA分子(特别是4种RNA分子)以不同的量包含在组合物中。例如，包含在组合物中的任何的任意对的2种RNA分子具有不同的量。

因此，在3种RNA分子被包含在组合物中的情况下，第一种RNA分子(例如，具有根据SEQ ID NO：1的核苷酸序列的RNA分子)以最大量存在，第二种RNA分子(例如，具有根据SEQID NO：2的核苷酸序列的RNA分子)以小于第一种RNA分子的量存在，并且第三种RNA分子(例如，具有根据SEQ ID NO：3的核苷酸序列的RNA分子)以小于第一种RNA分子和第二种RNA分子的量存在。在4种RNA分子被包含在组合物中的情况下，第一种RNA分子(例如，具有根据SEQ ID NO：1的核苷酸序列的RNA分子)以最大量存在，第二种RNA分子(例如，具有根据SEQID NO：2的核苷酸序列的RNA分子)以小于第一种RNA分子的量存在，而第三种RNA分子(例如，具有根据SEQ ID NO：3的核苷酸序列的RNA分子)以小于第一种RNA分子和第二种RNA分子的量存在，并且第四种RNA分子(例如，具有根据SEQ ID NO：4的核苷酸序列的RNA分子)以小于第一种RNA分子、第二种RNA分子和第三种RNA分子的量存在。

更具体地，至少3种RNA分子(特别是4种RNA分子)以定义量的梯度包含在组合物中。具体而言，将至少3种RNA分子(特别是4种RNA分子)滴定至不同量的线性范围。

在一个实施方式中，包含在组合物中的至少3种RNA分子(特别是4种RNA分子)以介于0.001amol至6000amol之间的量存在，优选地，以介于0.01amol至5000amol之间的量存在，更优选地，以介于0.1amol至4000amol之间的量存在，并且甚至更优选地，以介于1amol至3500amol之间的量存在，例如0.001amol、0.002amol、0.003amol、0.004amol、0.005amol、0.006amol、0.007amol、0.008amol、0.009amol、0.01amol、0.02amol、0.03amol、0.04amol、0.05amol、0.06amol、0.07amol、0.08amol、0.09amol、0.1amol、0.2amol、0.3amol、0.4amol、0.5amol、0.6amol、0.7amol、0.8amol、0.9amol、1amol、2amol、3amol、4amol、5amol、6amol、7amol、8amol、9amol、10amol、20amol、30amol、40amol、50amol、60amol、70amol、80amol、90amol、100amol、200amol、300amol、400amol、500amol、600amol、700amol、800amol、900amol、1000amol、1500amol、2000amol、3000amol、3500amol、4000amol、4500amol、5000amol、5500amol或6000amol。

在一个实施例中，所述组合物包含至少3种RNA分子，其中

第一种RNA分子以约3400amol的量被包含，第二种RNA分子以约725amol的量被包含，以及第三种RNA分子以约20amol的量被包含，或者

第一种RNA分子以约1360amol的量被包含，第二种RNA分子以约290amol的量被包含，以及第三种RNA分子以约80amol的量被包含。

具体而言，第一种RNA分子具有根据SEQ ID NO：1的核苷酸序列，第二种RNA分子具有根据SEQ ID NO：2的核苷酸序列，并且第三种RNA分子具有根据SEQ ID NO：3的核苷酸序列。

在一个特定实施方式中，包含在组合物中的4种RNA分子以介于0.001amol至6000amol之间的量存在，优选地，以介于0.01amol至5000amol之间的量存在，更优选地，以介于0.1amol至4000amol之间的量存在，并且甚至更优选地，以介于1amol至3500amol之间的量存在，例如0.001amol、0.002amol、0.003amol、0.004amol、0.005amol、0.006amol、0.007amol、0.008amol、0.009amol、0.01amol、0.02amol、0.03amol、0.04amol、0.05amol、0.06amol、0.07amol、0.08amol、0.09amol、0.1amol、0.2amol、0.3amol、0.4amol、0.5amol、0.6amol、0.7amol、0.8amol、0.9amol、1amol、2amol、3amol、4amol、5amol、6amol、7amol、8amol、9amol、10amol、20amol、30amol、40amol、50amol、60amol、70amol、80amol、90amol、100amol、200amol、300amol、400amol、500amol、600amol、700amol、800amol、900amol、1000amol、1500amol、2000amol、3000amol、3500amol、4000amol、4500amol、5000amol、5500amol或6000amol。

在一个特定实施例中，所述组合物包含4种RNA分子，其中

第一种RNA分子以约3400amol的量被包含，第二种RNA分子以约725amol的量被包含，第三种RNA分子以约20amol的量被包含，以及第四种RNA分子以约7amol的量被包含，或者

第一种RNA分子以约1360amol的量被包含，第二种RNA分子以约290amol的量被包含，第三种RNA分子以约80amol的量被包含，以及第四种RNA分子以约27amol的量被包含。

具体而言，第一种RNA分子具有根据SEQ ID NO：1的核苷酸序列，第二种RNA分子具有根据SEQ ID NO：2的核苷酸序列，第三种RNA分子具有根据SEQ ID NO：3的核苷酸序列，并且第四种RNA分子具有根据SEQ ID NO：4的核苷酸序列。

优选地，所述组合物是溶液。更优选地，所述溶液是水性溶液，例如水(如无核酸酶的水)。甚至更优选地，没有其他组分(除了RNA分子和作为溶剂的水以外)是组合物的一部分。

如上所述，RNA表达图谱的分析涉及几个复杂的步骤。(1)RNA、包括小RNA必须从生物来源(例如血液或唾液)中提取，而不会使RNA的原始相对丰度失真(必须保持线性)。(2)小RNA丰度必须可靠地定量。由于这两个步骤可能不一致地引入偏差(例如，通过存在cDNA合成抑制剂)，标准化并监测RNA提取和检测的效率均至关重要。

如上所述的组合物适合作为/是掺入物混合物。掺入物混合物是通用的掺入物混合物，所述掺入物混合物与下游的检测方法无关。此外，组合物适合作为/是过程控制和/或归一化的标准品。为此目的，将如上所述的组合物添加到包含生物材料的样品中或添加到基于/源自生物材料的经处理样品中。

特别而言，所述组合物普遍可适用于生物材料、包含生物材料的样品、包含具有生物来源的材料的样品和/或基于/源自生物材料的样品的任何下游处理。

所述生物材料包括寻求检测的靶RNA分子，例如为了诊断诸如癌症或神经退行性疾病的疾病(如帕金森病(PD)或阿尔茨海默病(AD))。

靶RNA分子在生物材料中具有其内源性来源，并且不同于外源性人工RNA分子。当将外源性人工RNA分子作为组合物(例如掺入物混合物)的一部分添加到生物材料时，则靶RNA分子是所述生物材料的一部分。

过程控制具体涵盖：监测/检测在靶RNA处理和分析期间的实验低效性、监测靶RNA的提取和/或检测效率、靶RNA提取和检测的标准化、靶RNA定量和/或检测的监测。

组合物可作为提取控制标准品、测序控制标准品或文库制备控制标准品使用。

此外，组合物可作为归一化指示剂使用(以与具有所述组合物的不同样品比较)。特别而言，组合物可作为归一化指示剂使用(以与具有所述组合物的不同样品比较)，以使掺入物的经测量的表达值用于控制和校对在提取、文库制备或测序中的低效性。

所述组合物也可被指称为掺入物混合物。

优选地，试剂盒包含用于确定包含在组合物中的至少3种RNA分子(例如3种或4种RNA分子)的水平的工具。

更优选地，所述工具是

用于检测RNA分子的多核苷酸(探针)，

用于结合RNA分子的引物/引物对，

能够结合多核苷酸探针和所述RNA分子的杂合体的抗体，和/或

用于进行下一代测序(NGS)的工具。

多核苷酸(探针)可以是微阵列/生物芯片的一部分或可以附着至基于珠的多重系统的珠。引物/引物对可以是RT-PCR系统、PCR系统或下一代测序系统的一部分。

所述工具可进一步包括微阵列、RT-PCR系统、PCR系统、流式细胞仪、Luminex系统和/或下一代测序系统。

试剂盒可以包含关于如何实施本发明的方法的说明书(参见第四方面至第六方面)。试剂盒对于执行本发明的方法(参见第四方面至第六方面)也是有用的。

此外，试剂盒可以包括

容器，和/或

数据载体。

数据载体可以是非电子数据载体或电子数据载体，所述非电子数据载体例如图形数据载体(如信息手册、信息表、条形码或访问码)，所述电子数据载体例如软盘、光盘(CD)、数字多功能光盘(DVD)、微芯片或另一基于半导体的电子数据载体。访问码可以允许对数据库(例如，互联网数据库、中心化数据库或去中心化数据库)进行访问。访问码还可以允许对应用软件或移动应用程序进行访问，所述应用软件使计算机为计算机用户实施任务，所述移动应用程序是设计为在智能手机和其它移动设备上运行的软件。

所述数据载体可以进一步包含关于如下的信息：在随后的RNA加工/分析实验中的包含在组合物中的RNA分子的预期水平、预期顺序/等级、和/或预期线性度。

数据载体还可以包括关于如何实施本发明的方法的信息或说明书(参见第四方面至第六方面)。

试剂盒优选在体外/在体外中使用。

在第三方面，本发明涉及第一方面的组合物或第二方面的试剂盒(作为标准品)用于过程控制、样品检测、样品分析、归一化和/或数据处理控制的(体外)用途。

所述组合物也可被指称为掺入物混合物。

优选地，数据处理控制包含原始数据处理控制。

如上所述，RNA表达图谱的分析涉及几个复杂的步骤。(1)RNA、包括小RNA必须从生物来源(例如血液或唾液)中提取，不会使RNA的原始相对丰度失真(必须保持线性)。(2)小RNA丰度必须可靠地定量。由于这两个步骤可能不一致地引入偏差(例如，通过存在cDNA合成抑制剂)，标准化并监测RNA提取和检测的效率均至关重要。

将第一方面的组合物(作为标准品)用于过程控制、样品检测、样品分析、归一化和/或数据处理控制。优选地，数据处理控制包含原始数据处理控制。为此目的，将第一方面的组合物添加到包含生物材料的样品中或添加到基于/源自生物材料的经处理样品中。

靶RNA分子在生物材料中具有内源性来源，并且不同于外源性人工RNA分子。当将外源性人工RNA分子作为组合物(例如掺入物混合物)的一部分添加到生物材料时，则靶RNA分子是所述生物材料的一部分。

优选地，过程控制包含质量控制、数量控制或端到端控制。具体而言，端到端控制措施是指只将其分析产生如下的那些样品用于下游分析，所述分析使得按其预期水平、顺序和线性度回收人工小RNA分子。

特别地，第一方面的组合物可作为提取控制标准品、测序控制标准品或文库制备控制标准品使用。

此外，特别地，第一方面的组合物可作为归一化指示剂使用(以与具有所述组合物的不同样品比较)。这允许去除不同实验中的批次效应和/或控制在提取、文库制备和/或测序过程中的低效性。

数据的预处理、过程控制和质量控制对于数据分析非常重要，因为测序(例如下一代测序)后产生的数据(特别是原始数据)必须经过处理，以便结果不应具有假阳性和假阴性结果。数据预处理不仅评估了每个分析步骤，还减少了低质量序列读段数的量。去除此类低质量的读段数减少了计算分析的时间和成本，并且还得到了可靠和高质量的结果。

实验因素：如样品污染或PCR错误，

测序后生成的原始序列不仅包含感兴趣的序列(例如靶RNA分子的序列)，而且它们还具有序列偏差(例如通过系统性效应，如泊松抽样)以及由于测序和实验步骤而生成的复杂的人造物。这些序列偏差和人造物会影响和干扰精确的读段数比对，所述比对影响基因分型和变体调用。因此，为了提高下游分析的可靠性和质量以及减少所需的计算资源量，有必要对原始序列读段数预处理。

本发明人发现靶RNA分子的5'端和/或3'端添加物(例如在测序过程、例如下一代测序过程期间产生或发生)会误导并伪造原始数据结果。具体而言，需要消除/排除接头污染的序列读段数。本发明人发现，通过消除/排除接头污染的序列读段数，可以提高原始数据的质量。有利地，可以使用包含在/来自本发明的第一方面的组合物中的至少3种人工小RNA分子(掺入物)来检测靶RNA分子的5'端和/或3'端添加物。相对于包含在/来自本发明的第一方面的组合物中的至少3种人工小RNA分子(掺入物)而鉴别的5'端和/或3'端添加物的存在指示了靶RNA分子中的5'端和/或3'端添加物的存在。通过这种方式，(原始)数据处理可被控制，具体地通过排除非生物来源且不应被用于数据的生物学解释的RNA而被提高。

相对于包含在/来自第一方面的组合物中的至少3种RNA分子(例如3种或4种RNA分子)，对样品进行评估。

在一个实施方式中，样品是生物材料与第一方面的组合物的混合物。

优选地，生物材料是组织或体液。更优选地，体液是血液。甚至更优选地，血液是全血或血液组分。特别而言，血液组分选自于由血细胞组分和血浆或血清组成的组。血细胞组分代表(全)血的细胞部分。血浆和血清代表(全)血的非细胞部分。更具体地，血细胞组分包括红细胞、白细胞或血小板，血细胞组分是红细胞、白细胞或血小板组分，或血细胞组分是红细胞、白细胞和血小板的混合物。

在一个替代实施方式中，样品基于/源自生物材料与第一方面的组合物的混合物。

具体而言，基于/源自生物材料与第一方面的组合物的混合物的样品是经处理的样品。具体而言，经处理的样品是裂解的样品、提取的样品、扩增的样品、测序的样品或文库制备的样品。

经处理的样品可以通过将第一方面的组合物添加到生物材料中、将第一方面的组合物与生物材料混合并进一步处理样品来得到。

优选地，通过将生物材料与第一方面的组合物混合并进一步处理由此得到的混合物来得到经处理的样品。

为了相对于包含在/来自第一方面的组合物中的至少3种RNA分子(例如3种或4种RNA分子)而对样品进行评估，优选确定在样品中的所述至少3种RNA分子(例如3种或4种RNA分子)的水平。

在一个优选实施方式中，评估包含

确定至少3种RNA分子(例如3种或4种RNA分子)是否示出特征分布，或确定在样品中的RNA分子的特征分布是否与预期的特征分布匹配。

如上所述，包含在第一方面的组合物中的至少3种RNA分子(例如3种或4种RNA分子)具有特征分布，特别是就其量而言。特别而言，至少3种RNA分子(例如3种或4种RNA分子)以不同的量包含在第一方面的组合物中。更特别地，至少3种RNA分子(例如3种或4种RNA分子)以定义量的梯度包含在第一方面的组合物中。

为了确定至少3种RNA分子(例如3种或4种RNA分子)是否示出特征分布，优选确定在样品中的所述至少3种RNA分子(例如3种或4种RNA分子)的水平。

如果给出特征分布，则对样品进一步处理和/或分析。

特别而言，如果如以下所述，则给出特征分布

至少3种RNA分子以其预期水平存在，

至少3种RNA分子以其预期顺序/等级(通过至少3种RNA分子的水平(特别是量)的关系定义)存在，和/或

至少3种RNA分子以其预期线性度存在。

如果未给出特征分布，则不会对样品进行进一步处理和/或分析。将它弃置。

特别而言，如果如以下所述，则未给出特征分布

至少3种RNA分子未以其预期水平存在，

至少3种RNA分子未以其预期顺序/等级(通过至少3种RNA分子的水平(特别是量)的关系定义)存在，和/或

至少3种RNA分子未以其预期线性度存在。

预期水平是指在随后的样品处理和/或分析中，预期添加到样品中的特定RNA分子的量的水平。如上所述，将RNA分子以特定量添加到样品中或包含在样品中。RNA分子的量可以与在后续的样品处理和/或分析期间可被测量的RNA分子的任何预期水平对应/相关。具体而言，RNA分子的量可以与下一代测序测定中的特定的读段计数(每百万读段数(RPM))对应/相关，和/或RNA分子的量可以与在实时PCR实验中的特定的循环阈值(Ct)对应/相关。特别而言，循环阈值(Ct)是超过在经扩增的DNA的测量信号(例如荧光信号)中先前定义的阈值所需的实时PCR中的循环次数。在PCR前，样品溶液中已存在的DNA(RNA)越多，达到相关阈值所需的扩增循环越少。

例如，以约3400amol的量添加到样品中或包含在第一方面的组合物中的具有根据SEQ ID NO：1的核苷酸序列的RNA分子将产生约26的预测Ct值(Ct平均值为约24.3)，以约725amol的量添加到样品中或包含在第一方面的组合物中的具有根据SEQ ID NO：2的核苷酸序列的RNA分子将产生约29.3的预测Ct值(Ct平均值为约27.1)，以约20amol的量添加到样品中或包含在第一方面的组合物中的具有根据SEQ ID NO：3的核苷酸序列的RNA分子将产生约35.9的预测Ct值(Ct平均值为约32)，和/或以约7amol的量添加到样品中或包含在第一方面的组合物中的具有根据SEQ ID NO：4的核苷酸序列的RNA分子将产生约39.2的预测Ct值(Ct平均值为约33.6)。

例如，以约3400amol的量添加到样品中或包含在本发明的组合物中的具有根据SEQ ID NO：1的核苷酸序列的RNA分子将产生约11.972的log2 RPM或约30628的读段计数，以约725amol的量添加到样品中或包含在第一方面的组合物中的具有根据SEQ ID NO：2的核苷酸序列的RNA分子将产生约10.926的log2 RPM或约5554的读段计数，以约20amol的量添加到样品中或包含在第一方面的组合物中的具有根据SEQ ID NO：3的核苷酸序列的RNA分子将产生约6.559的log2 PRM或约491的读段计数，和/或以约7amol的量添加到样品中或包含在第一方面的组合物中的具有根据SEQ ID NO：4的核苷酸序列的RNA分子将产生约4.061的log2 PRM或约94的读段计数。

预期顺序/等级是指在随后的样品处理和/或分析中，预期添加到样品中的特定RNA分子的顺序/等级。如上所述，添加到样品中的RNA分子各自的量不同。因此，在将3种RNA分子添加到样品中或包含在第一方面的组合物中的情况下，第一种RNA分子(例如，具有根据SEQ ID NO：1的核苷酸序列的RNA分子)以最大量存在，第二种RNA分子(例如，具有根据SEQ ID NO：2的核苷酸序列的RNA分子)以小于第一种RNA分子的量存在，并且第三种RNA分子(例如，具有根据SEQ ID NO：3的核苷酸序列的RNA分子)以小于第一种RNA分子和第二种RNA分子的量存在。在将4种RNA分子添加到样品中或包含在第一方面的组合物中的情况下，第一种RNA分子(例如，具有根据SEQ ID NO：1的核苷酸序列的RNA分子)以最大量存在，第二种RNA分子(例如，具有根据SEQ ID NO：2的核苷酸序列的RNA分子)以小于第一种RNA分子的量存在，而第三种RNA分子(例如，具有根据SEQ ID NO：3的核苷酸序列的RNA分子)以小于第一种RNA分子和第二种RNA分子的量存在，并且第四种RNA分子(例如，具有根据SEQ ID NO：4的核苷酸序列的RNA分子)以小于第一种RNA分子、第二种RNA分子和第三种RNA分子的量存在。

预期线性度是指在随后的样品处理和/或分析中，预期添加到样品中的特定RNA分子的线性度。

因此，只将其分析产生按其预期水平、顺序和线性度回收的RNA分子或其替代物的那些样品用于下游分析和/或进一步处理。

优选地，当Spearman等级相关系数(Spearman'sρ)≥0.95时，RNA分子以其预期顺序存在。在这种情况下，对样品进行进一步处理/分析。因此，Spearman等级相关系数(Spearman'sρ)<0.95会引起样品弃置。换句话说，不会对此类样品进一步处理/分析。

优选地，当Pearson相关系数(Pearson's r)≥0.66时，RNA分子以其预期线性度存在。在这种情况下，对样品进行进一步处理/分析。因此，Pearson相关系数(Pearson's r)<0.66会引起样品弃置。换句话说，不会对此类样品进一步处理/分析。

进一步处理可以涵盖裂解样品、提取样品、扩增样品、对样品测序和/或从样品中制备文库。具体而言，进一步处理涵盖裂解细胞以释放在样品中包含的核苷酸序列、提取在样品中包含的核苷酸序列、扩增在样品中包含的核苷酸序列、对在样品中包含的核苷酸序列测序和/或从样品中包含的核苷酸序列制备文库。特别地，核苷酸序列是核糖核苷酸序列。优选地，核糖核苷酸序列属于靶RNA分子。更优选地，靶RNA分子是小RNA分子。甚至更优选地，小RNA分子是非编码小RNA分子。最优选地，非编码小RNA分子是miRNA和/或isomiR分子。

在这方面，应注意的是，将添加到生物材料中的人工外源性RNA分子如包含在生物材料中的内源性靶RNA分子一样加工。

在本发明涉及检测样品的方法中，相对于包含在/来自本文所描述的组合物中的至少3种RNA分子，对样品进行评估，其中所述至少3种RNA分子选自于由具有根据SEQ IDNO：1至SEQ ID NO：4的核苷酸序列的RNA分子组成的组。至少3种RNA分子是样品的一部分。它们已被添加到样品中(作为掺入物)。

在此方法中，替代地或附加地验证/分析具有根据SEQ ID NO：1至SEQ ID NO：4的核苷酸序列的至少3种RNA分子是否包含5'端和/或3'端添加物。

因此，在一个优选的实施方式中，评估包括鉴别包含在/来自第一方面的组合物中的至少3种RNA分子(例如3种或4种RNA分子)的5'端和/或3'端添加物。

优选地，5'端和/或3'端添加物具有至少5个核苷酸的长度。更优选地，5'端和/或3'端添加物的长度介于5个至30个核苷酸之间，甚至更优选地，5个至20个核苷酸，并且还甚至更优选地，7个至15个核苷酸，例如5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个、20个、21个、22个、23个、24个、25个、26个、27个、28个、29个或30个核苷酸。5'端添加物也可被指称为前缀序列，3'端添加物也可被指称为后缀序列，并且5'端添加物和3'端添加物也可被指称为缀加序列。

具体而言，至少5个核苷酸延伸超过至少3种RNA分子的原始长度。

前缀序列、后缀序列以及缀加序列也可以将RNA分子的原始长度延伸1个、2个、3个或4个核苷酸。然而，为降低错误地将RNA分子鉴别为具有与本文上下文相关的5'端和/或3'端添加物的风险，5个核苷酸的最小长度为本文需要/推荐的。

可以使用测序和/或序列比对方法容易地确定包含在/来自第一方面的组合物中的至少3种RNA分子的5'端和/或3'端添加物。由于人工小RNA分子(掺入物)的序列是已知的，所以添加的核苷酸的鉴别/分析不是实际问题，并且对于技术人员来说是标准程序。如上所述，为降低错误地将RNA分子鉴别为具有与本文上下文相关的5'端和/或3'端添加物的风险，需要在本文中将5个核苷酸的最小长度指称为5'端添加物和/或3'端添加物。

5'端和/或3'端添加物可以是RNA分子/接头融合、RNA分子/RNA分子融合或接头/接头融合的结果。接头可以是有意添加到RNA/cDNA分子的5'端或3'端的任何非生物的RNA/DNA序列，例如作为测序(例如NGS方法)的一部分。这包括任何可能以非预期方式与RNA融合的自由浮动的接头分子。接头还可以是多个单独的接头和索引RNA的组合/融合。将索引RNA用作UMI(唯一分子标识符)，用于在多重测序(即同时对多个样品测序)期间将RNA分子分配给其来源的样品。UMI序列是具有预定长度的短的非特异性(随机)序列(例如12个核苷酸)，但长度也可以变化。

上述实施方式中评估的样品优选包含靶RNA分子，例如包含在生物材料(例如全血)中或源自生物材料(例如全血)。

因此，在下一步骤中，优选确定相对于包含在/来自第一方面的组合物中的至少3种RNA分子(人工小RNA分子/掺入物)而鉴别的5'端和/或3'端添加物是否也见于作为样品的一部分/包含在样品中的靶RNA分子或其替代物(例如，cDNA分子)中。换句话说，相对于包含在/来自第一方面的组合物中的至少3种RNA分子(人工小RNA分子/掺入物)而鉴别的5'端和/或3'端添加物的存在优选指示出在靶RNA分子或其替代物(例如，cDNA分子)中存在5'端和/或3'端添加物。

优选地，5'端和/或3'端添加物在如下期间发生/出现：

-将(靶)RNA分子(其上连接有5'接头和/或3'接头，也被指称为连接产物)逆转录成cDNA分子，例如，使用/用逆转录酶(RT，例如Maxima H-RT或Tth聚合酶)，

-(所述)cDNA分子的扩增，例如通过聚合酶链式反应(PCR)，和/或

-(所述)cDNA分子的测序，例如下一代测序。

更优选地，5'端和/或3'端添加物发生/出现在用于下一代测序的文库制备过程期间或在下一代测序过程期间。

甚至更优选地，下一代测序过程优选涵盖：

-(所述)cDNA分子的扩增，例如通过聚合酶链式反应(PCR)，和/或

-(所述)cDNA分子的测序。

还甚至更优选地，5'端和/或3'端添加物选自于由具有根据如下的核苷酸序列的添加物所组成的组：CGATC(SEQ ID NO：10)，GGGGC(SEQ ID NO：11)，ACGATC(SEQ ID NO：12)，GGGCGT(SEQ ID NO：13)，CGGCGG(SEQ ID NO：14)，GGGGCG(SEQ ID NO：15)，GACGATC(SEQ ID NO：16)，GGGGCGT(SEQ ID NO：17)，GGGCGTG(SEQ ID NO：18)，GGGGGCG(SEQ ID NO：19)，GGGGGTG(SEQ ID NO：20)，GGGGCGTG(SEQ ID NO：21)，CGGGGCGG(SEQ ID NO：22)，GGGAGGCC(SEQ ID NO：23)，GGAGGCGT(SEQ ID NO：24)，GGGCGTGG(SEQ ID NO：25)，TGGAGGCG(SEQ ID NO：26)，CGACGATC(SEQ ID NO：27)，GGGGCGTT(SEQ ID NO：28)，GGGCGTGT(SEQ IDNO：29)，GGGGGCGT(SEQ ID NO：30)，GGGAGCCA(SEQ ID NO：31)，GGGGGTGT(SEQ ID NO：32)，GGAGGCCC(SEQ ID NO：33)，CCGACGATC(SEQ ID NO：34)，GGGGGCGTG(SEQ ID NO：35)，TACCTGGTT(SEQ ID NO：36)，TGGAGGCGT(SEQ ID NO：37)，GGGCGTGGG(SEQ ID NO：38)，CGGCGGCGG(SEQ ID NO：39)，GGGGGTGTA(SEQ ID NO：40)，GGGGGCGTT(SEQ ID NO：41)，GGCTGGGCG(SEQ ID NO：42)，TCGGGGCGG(SEQ ID NO：43)，GGGGCGTGG(SEQ ID NO：44)，GGGGAGCCA(SEQ ID NO：45)，GGGAGGCCC(SEQ ID NO：46)，CGGAGGGCGG(SEQ ID NO：47)，GTCCGCGATC(SEQ ID NO：48)，GTCGACGATC(SEQ ID NO：49)，CGGGCGGATC(SEQ ID NO：50)，TGGAGGCGTG(SEQ ID NO：51)，TCCGACGATC(SEQ ID NO：52)，GGGGCGTGGG(SEQ ID NO：53)，AAGCGGGGCT(SEQ ID NO：54)，CGGGGAGCCA(SEQ ID NO：55)，GTCCGACGATC(SEQ ID NO：56)，TCGGAGGGCGG(SEQ ID NO：57)，AGTCCGACGATC(SEQ ID NO：58)，AAGCGGGGCTGG(SEQ ID NO：59)，GTCCGACGGATC(SEQ ID NO：60)，TCGGGCTGGGGC(SEQ ID NO：61)，TACCTGGTTGAT(SEQ IDNO：62)，TCGGGGCGGCGG(SEQ ID NO：63)，CAGTCCGACGATC(SEQ ID NO：64)，TACCTGGTTGATC(SEQ ID NO：65)，TCGGGCTGGGGCG(SEQ ID NO：66)，TGGAGGCGTGGGT(SEQ ID NO：67)，ACAGTCCGACGATC(SEQ ID NO：68)，GGTCGGGCTGGGGC(SEQ ID NO：69)，CGGAAGCGTGCTGGG(SEQID NO：70)，GGTCGGGCTGGGGCG(SEQ ID NO：71)，TACAGTCCGACGATC(SEQ ID NO：72)，CGGAAGCGTGCTGGGC(SEQ ID NO：73)，CTACAGTCCGACGATC(SEQ ID NO：74)，TCTACAGTCCGACGATC(SEQ ID NO：75)，CGGAAGCGTGCTGGGCCC(SEQ ID NO：76)，TCGGGGCGGCGGCGGCGG(SEQ ID NO：77)，TTCTACAGTCCGACGATC(SEQ ID NO：78)，TAGCAGCACATCATGGTT(SEQ ID NO：79)，GGATCATTA(SEQ ID NO：80)，GGGGCGTGGG(SEQ IDNO：81)，以及TGGAGGCGTGGGT(SEQ ID NO：82)。

具体而言，确定(靶)RNA分子的5'端和/或3'端添加物涵盖分析(靶)RNA分子是否与在测序(优选下一代测序)过程中使用的接头序列至少部分序列相同。

更具体地，在下一代测序过程中使用的接头序列选自于由以下组成的组：TGGAATTCTCGGGTGCCAAGG(SEQ ID NO：83)，GTTCAG AGTTCTACAGTCCGACGATC(SEQ ID NO：84)，TGGAATTCTCGG GTGCCAAGG(SEQ ID NO：85)，GAATTCCACCACGTTCCCGTGG(SEQ ID NO：86)，AATGATACGGCGACCACCGAGATCTACACGT TCAGAGTTCTACAGTCCGA(SEQ ID NO：87)，CAAGCAGAAGAC GGCATACGAGAT(SEQ ID NO：88)，GTGACTGGAGTTCCTTGGC ACCCGAGAATTCCA(SEQ ID NO：89)，CAAGCAGAAGACGGCA TACGA(SEQ ID NO：90)，GTTCAGAGTTCTACAGTCCGACGATC(SEQ ID NO：91)，TCGTATGCCGTCTTCTGCTTGT(SEQ ID NO：92)，ATCTCGTATGCCGTCTTCTGCTTG(SEQ ID NO：93)，CAAG CAGAAGACGGCATACGA(SEQ ID NO：94)，AATGATACGGCGAC CACCGACAGGTTCAGAGTTCTACAGTCCGA(SEQ ID NO：95)，CGACAGGTTCAGAGTTCTACAGTCCGACGATC(SEQ ID NO：96)，AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA(SEQ ID NO：97)，AGATCGGAAGAGCACACGTCTGAACT CCAGTCA(SEQ ID NO：98)，AGATCGGAAGAGCGTCGTGTAGGG AAAGAGTGT(SEQ ID NO：99)，GATCGGAAGAGCACACGTCTGAACTCCAGTCAC(SEQ ID NO：100)，ATCTCGTATGCCGTCTTCT GCTTG(SEQ ID NO：101)，AATGATACGGCGACCACCGAGATCTA CAC(SEQ ID NO：102)，以及ACACTCTTTCCCTACACGACGCTCTTCCGATCT(SEQ ID NO：103)。

数据的预处理、过程控制和质量控制对于数据分析非常重要，因为测序后产生的原始数据必须经过处理，以便结果不应具有假阳性和假阴性结果。数据预处理不仅评估了每个分析步骤，还减少了低质量序列读段数的量。去除此类低质量的读段数减少了计算分析的时间和成本，并且还得到了可靠和高质量的结果。

实验因素：如样品污染或PCR错误，

本发明人发现靶RNA分子的5'端和/或3'端添加物(例如在测序过程、例如下一代测序过程期间产生或发生)会误导并伪造原始数据结果。具体而言，需要消除/排除接头污染的序列读段数。本发明人发现，通过消除/排除接头污染的序列读段数，可以提高原始数据的质量。

因此，包含在样品中的具有5'端和/或3'端添加物的靶RNA分子被排除在进一步分析之外/不再被进一步使用。替代性地或额外地，将来自包含在样品中的具有5'端和/或3'端添加物的靶RNA分子的数据排除在进一步分析之外/不会进一步使用或不构成数据集(优选原始数据集)的一部分。例如，将与这些靶RNA分子有关的数据容易地从(原始)数据集中排除。

优选地，靶RNA分子是小RNA分子。更优选地，小RNA分子是非编码小RNA分子。甚至更优选地，非编码小RNA分子是miRNA和/或isomiR分子。

在上述实施方式中使用的样品优选为裂解的样品、提取的样品、扩增的样品和/或测序的样品。样品裂解涵盖包含在样品中的细胞的裂解并需要其以释放包含在其中的(靶)RNA分子。需要样品的提取来提取包含在其中的(靶)RNA分子。需要样品的扩增来扩增包含在其中的(靶)RNA分子。需要样品的测序以对包含在其中的(靶)RNA分子进行测序。

例如，提供生物样品(例如全血样品)作为样品。在第一步骤中，将样品(特别是包含在样品中的细胞)进行裂解以释放包含在其中的(靶)RNA分子。然后，使用通过逆转录连接到变性的(靶)RNA分子的接头从(靶)RNA分子产生cDNA。随后对得到的cDNA分子扩增，以最终允许测序、例如所述cDNA分子的下一代测序。

在任何上述过程中，可以将5'端和/或3'端添加物添加到需要鉴别的(靶)RNA分子，并且需要将具有这些5'端和/或3'端添加物的(靶)RNA分子从进一步分析或原始数据评估中排除。这提高了数据质量。

本发明人设计并优化了人工小RNA分子的通用掺入物系统，所述通用掺入物系统广泛地反映在RNA提取和检测期间的内源性miRNA行为。然后，在处理开始时，将这种人工小RNA分子的混合物添加到生物样品(例如临床样品)中，并充当端到端的质量控制措施：只将其分析达标的如下的那些样品用于下游分析，所述分析产生按其预期水平、顺序和线性度回收的人工小RNA分子。

因此，在第五方面，本发明涉及用于生物样品的优化处理的方法，所述方法包括以下步骤：

实施第四方面的方法。

数据的预处理、过程控制和质量控制对于数据分析非常重要，因为测序后产生的数据(例如原始数据)必须经过处理，以便结果不应具有假阳性和假阴性结果。数据预处理不仅评估了每个分析步骤，还减少了低质量序列读段数的量。去除此类低质量的读段数减少了计算分析的时间和成本，并且还得到了可靠和高质量的结果。

实验因素：如样品污染或PCR错误，

测序因素：这些包括测序质量以及在数据分割时因标签跳跃而导致的数据污染，和/或

本发明人发现(靶)RNA分子的5'端和/或3'端添加物(例如在测序过程、例如下一代测序过程期间产生或发生)会误导并伪造原始数据结果。具体而言，需要消除/排除接头污染的序列读段数。本发明人发现，通过消除/排除接头污染的序列读段数，可以提高数据(例如原始数据)的质量。

(i)确定样品中的(靶)RNA分子(特别是替代物，例如源自其的cDNA分子)的序列，

(ii)确定(靶)RNA分子的5'端和/或3'端添加物，所述添加物不是处于天然存在形式的(靶)RNA分子的一部分，以及

(iii)从(RNA)数据集分析中排除具有5'端和/或3'端添加物的(靶)RNA分子/从(RNA)数据集中去除具有5'端和/或3'端添加物的(靶)RNA分子。

在上述方法的步骤(i)中，确定样品中的RNA分子(特别是替代物，例如源自其的cDNA分子)的序列。样品中的RNA分子(特别是替代物，例如源自其的cDNA分子)的序列可以通过技术人员已知的任何方法来确定。已知的测序方法包括但不限于桑格测序、毛细管电泳和片段分析或下一代测序(NGS)。优选地，通过NGS确定样品中的RNA分子(特别是替代物，例如源自其的cDNA分子)的序列。

具体而言，确定样品中的RNA分子的序列(特别是通过下一代测序)涵盖：

-(靶)RNA分子的变性以及5'接头和/或3'接头对变性的(靶)RNA分子的连接，例如，使用/用双链RNA连接酶(例如T4 RNA连接酶2(Rnl2)或Kod1连接酶)，

-将RNA分子(其上连接有5'接头和/或3'接头，也被指称为连接产物)逆转录成cDNA分子，例如，使用/用逆转录酶RT，例如Maxima H-RT或Tth聚合酶)，

-(所述)cDNA分子的扩增，例如通过聚合酶链式反应(PCR)，和/或

-(所述)cDNA分子的测序，特别而言，下一代测序。

优选地，PCR选自于由以下组成的组：实时PCR(定量PCR或qPCR，优选TaqManqPCR)、多重PCR、巢式PCR、高保真PR、快速PCR、热启动PCR以及高GC PCR。

在上述方法的步骤(ii)中，确定(靶)RNA分子的5'端和/或3'端添加物，所述添加物不是处于天然存在形式的(靶)RNA分子的一部分。

天然存在的RNA分子处于如下的形式，其中，它们以该形式出现在自然界或自然环境中，例如，体液(例如全血或组织)。然而，这些RNA分子可以被进一步加工，例如加工成其替代物(例如cDNA分子)。在这种情况下，它们具有自然起源。天然存在的RNA分子在生物材料/样品中具有内源性来源。所述RNA分子原本是所述生物材料/样品的一部分。

优选地，5'端和/或3'端添加物具有至少5个核苷酸的长度。更优选地，5'端和/或3'端添加物的长度介于5个至30个核苷酸之间，甚至更优选地，5个至20个核苷酸，并且还甚至更优选地，7个至15个核苷酸，例如5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个、20个、21个、22个、23个、24个、25个、26个、27个、28个、29个或30个核苷酸。5'端添加物也可被指称为前缀序列，3'端添加物也可被指称为后缀序列，并且5'端处的添加物和3'端处的添加物也可被指称为缀加序列。具体而言，至少5个核苷酸延伸超过天然存在形式的RNA分子的长度。

前缀序列、后缀序列以及缀加序列的长度也可以是1个、2个、3个或4个核苷酸。然而，为降低错误地将(靶)RNA分子鉴别为具有5'端和/或3'端添加物的风险，5个核苷酸的最小长度为本文需要/推荐的。

可以使用测序以及将序列的5'端/3'端与添加物的序列进行比较来确定样品中包含的(靶)RNA分子的5'端和/或3'端添加物。

5'端和/或3'端添加物是RNA分子/接头融合、RNA分子/RNA分子融合或不完全的接头加工/去除的结果。

接头可以是任何非生物的RNA/DNA序列，将其有意添加到生物的(靶)RNA/cDNA分子(源自待测序样品)的5'端或3'端作为测序(例如NGS方法)的设计的一部分。这包括任何可能以非预期方式与生物的RNA融合的自由浮动的接头分子。接头还可以是多个单独的接头和索引RNA的组合/融合。将索引RNA用作UMI(唯一分子标识符)，用于在多重测序(即同时对多个样品测序)期间将RNA分子分配给其来源的样品。UMI序列是具有预定长度的短的非特异性(随机)序列(例如12个核苷酸)，但长度也可以变化。

5'端和/或3'端添加物优选选自于由具有根据如下的核苷酸序列的添加物所组成的组：CGATC(SEQ ID NO：10)，GGGGC(SEQ ID NO：11)，ACGATC(SEQ ID NO：12)，GGGCGT(SEQID NO：13)，CGGCGG(SEQ ID NO：14)，GGGGCG(SEQ ID NO：15)，GACGATC(SEQ ID NO：16)，GGGGCGT(SEQ ID NO：17)，GGG CGTG(SEQ ID NO：18)，GGGGGCG(SEQ ID NO：19)，GGGGG TG(SEQ ID NO：20)，GGGGCGTG(SEQ ID NO：21)，CGGGGC GG(SEQ ID NO：22)，GGGAGGCC(SEQ IDNO：23)，GGAGGC GT(SEQ ID NO：24)，GGGCGTGG(SEQ ID NO：25)，TGGAGG CG(SEQ ID NO：26)，CGACGATC(SEQ ID NO：27)，GGGGCG TT(SEQ ID NO：28)，GGGCGTGT(SEQ ID NO：29)，GGGGGC GT(SEQ ID NO：30)，GGGAGCCA(SEQ ID NO：31)，GGGGGT GT(SEQ ID NO：32)，GGAGGCCC(SEQ ID NO：33)，CCGACG ATC(SEQ ID NO：34)，GGGGGCGTG(SEQ ID NO：35)，TACCTGGTT(SEQ ID NO：36)，TGGAGGCGT(SEQ ID NO：37)，GG GCGTGGG(SEQ ID NO：38)，CGGCGGCGG(SEQ ID NO：39)，GGGGGTGTA(SEQ ID NO：40)，GGGGGCGTT(SEQ ID NO：41)，GGCTGGGCG(SEQ ID NO：42)，TCGGGGCGG(SEQ ID NO：43)，GGGGCGTGG(SEQ ID NO：44)，GGGGAGCCA(SEQ ID NO：45)，GGGAGGCCC(SEQ ID NO：46)，CGGAGGGCGG(SEQ ID NO：47)，GTCCGCGATC(SEQ ID NO：48)，GTCGACGATC(SEQ ID NO：49)，CGGGCGGATC(SEQ ID NO：50)，TGGAGGCGTG(SEQ ID NO：51)，TCCGACGATC(SEQ ID NO：52)，GGGGCGTGG G(SEQ ID NO：53)，AAGCGGGGCT(SEQ ID NO：54)，CGGGG AGCCA(SEQ ID NO：55)，GTCCGACGATC(SEQ ID NO：56)，TCGGAGGGCGG(SEQ ID NO：57)，AGTCCGACGATC(SEQ ID NO：58)，AAGCGGGGCTGG(SEQ ID NO：59)，GTCCGACGGATC(SEQ ID NO：60)，TCGGGCTGGGGC(SEQ ID NO：61)，TACC TGGTTGAT(SEQID NO：62)，TCGGGGCGGCGG(SEQ ID NO：63)，CAGTCCGACGATC(SEQ ID NO：64)，TACCTGGTTGATC(SEQ ID NO：65)，TCGGGCTGGGGCG(SEQ ID NO：66)，TGGAG GCGTGGGT(SEQ IDNO：67)，ACAGTCCGACGATC(SEQ ID NO：68)，GGTCGGGCTGGGGC(SEQ ID NO：69)，CGGAAGCGTGCTGGG(SEQ ID NO：70)，GGTCGGGCTGGGGCG(SEQ ID NO：71)，TACAGTCCGACGATC(SEQ ID NO：72)，CGGAAGCGTGCT GGGC(SEQ ID NO：73)，CTACAGTCCGACGATC(SEQ ID NO：74)，TCTACAGTCCGACGATC(SEQ ID NO：75)，CGGAAGCGTG CTGGGCCC(SEQ ID NO：76)，TCGGGGCGGCGGCGGCGG(SEQ ID NO：77)，TTCTACAGTCCGACGATC(SEQ ID NO：78)，TAGCAGCACATCATGGTT(SEQ ID NO：79)，GGATCATTA(SEQ ID NO：80)，GGGGCGTGGG(SEQ ID NO：81)，以及TGGAGGCGTGG GT(SEQ ID NO：82)。

在(靶)RNA分子或其替代物中检测或鉴别出上述5'端和/或3'端添加物的情况下，则在上述方法的步骤(iii)中将所述(靶)RNA分子或其替代物从(RNA)数据集分析中排除，或在上述方法的步骤(iii)中从(RNA)数据集中将所述(靶)RNA分子或其替代物去除。

具体而言，确定(靶)RNA分子的5'端和/或3'端添加物涵盖分析(靶)RNA分子是否与在测序(优选下一代测序)中使用的接头序列至少部分序列相同。

在(靶)RNA分子或其替代物中检测或鉴别出上述接头序列或其部分的情况下，则在上述方法的步骤(iii)中将所述(靶)RNA分子或其替代物从(RNA)数据集分析中排除，或在上述方法的步骤(iii)中将所述(靶)RNA分子或其替代物从(RNA)数据集中去除。

具体地，RNA数据集分析是RNA原始数据集分析/RNA数据集是原始RNA数据集。

优选地，(靶)RNA分子是小RNA分子。更优选地，小RNA分子是非编码小RNA分子。甚至更优选地，非编码小RNA分子是miRNA和/或isomiR分子。

在上述方法中使用的样品可以是经处理的样品。优选地，在上述方法中使用的样品是裂解的样品、提取的样品、扩增的样品和/或测序的样品。样品裂解涵盖包含在样品中的细胞的裂解并需要其以释放包含在其中的(靶)RNA分子。需要样品的提取来提取包含在其中的(靶)RNA分子。需要样品的扩增来扩增包含在其中的(靶)RNA分子。需要样品的测序以对包含在其中的(靶)RNA分子进行测序。

例如，提供诸如全血样品的生物样品作为样品。在第一步骤中，将样品(特别是包含在样品中的细胞)进行裂解以释放包含在其中的RNA分子。然后，使用通过逆转录连接到变性的(靶)RNA分子的接头从(靶)RNA分子产生cDNA。随后对cDNA分子扩增，以最终允许测序、例如所述cDNA分子的下一代测序。

在任何上述过程中，可以将5'端和/或3'端添加物添加到需要鉴别的(靶)RNA分子，并且必须将具有这些5'端和/或3'端添加物的(靶)RNA分子从(RNA)数据集分析中排除或从(RNA)数据集中去除。

样品可包含生物材料或源自生物材料。优选地，生物材料是组织或体液。更优选地，体液是血液。甚至更优选地，血液是全血或血液组分。特别而言，血液组分选自于由血细胞组分和血浆或血清组成的组。血细胞组分代表(全)血的细胞部分。血浆和血清代表(全)血的非细胞部分。更具体地，血细胞组分包括红细胞、白细胞或血小板，血细胞组分是红细胞、白细胞或血小板组分，或血细胞组分是红细胞、白细胞和血小板的混合物。

在不脱离本发明的范围的情况下，本发明的各种修改和变化对于本领域技术人员来说将是显而易见的。虽然已结合具体的优选实施方式描述了本发明，但应理解不应将所请求保护的发明不当地限定于此等具体实施方式。实际上，本发明旨在涵盖对相关领域技术人员而言显而易见的用于实施本发明的所述模式的各种修改。

附图说明

以下附图仅为对本发明的说明，而不应解释为以任何方式限制如所附权利要求所指示的本发明的范围。

图1：示出了通过qRT-PCR测量的Ct值，将其相对于单独地含有每种掺入物的混合物的稀释因子进行绘制。

图2：示出了通过qRT-PCR测量的Ct值，将其相对于添加至PAXgene RNA的单独地含有每种掺入物的混合物的浓度进行绘制。

图3：示出了通过qPCR测量的针对cDNA样品的Ct值，所述cDNA样品从含有所有四种掺入物的混合物的单一RNA样品制备，相对于在RNA提取前向PAXgene样品添加的单独的掺入物的量绘制所测量的Ct值。

图4：示出了如图3所述的用样本制备NGS文库。相对于量，绘制单独的掺入物的原始读段计数。

图5：示出了用于鉴别含有人工缀加序列的非生物学的、技术人造物的策略的示意图。在第一步骤中，对包含掺入物RNA的测序数据集进行分析并记录它们的缀加序列。在第二步骤中，可以将这些缀加序列与来自同一数据集的或来自不同数据集(可能包含或不包含相同掺入物)的非掺入物序列的5'端和3'端进行比较。去除具有缀加序列的序列，并因此将所述序列排除在进一步分析之外。

图6：示出了具有根据SEQ ID NO：1至SEQ ID NO：4的核苷酸序列的人工掺入物RNA以及缀加序列长度的分布。较高的掺入物表达使得发现更多的缀加序列。此外，还给出了独特的缀加序列的总计数以及长度为1到18的长度特定的计数。

图7：示出了人工掺入物RNA的平均表达(长度：21个核苷酸)以及它们更长的人造物(掺入物加上增加长度的缀加序列)。

图8：示出了基于应用于过滤的最小缀加序列长度的已去除的序列的数量。预期的误差百分比给出了在具有相同长度(100(L/4L)，L＝RNA长度)的所有可能的RNA序列中找到给定长度的缀加序列的理论概率。在最小长度为5时，此概率小于0.5％。增加最小长度减少了所去除的序列的数量，同时降低了错误地去除与缀加序列因巧合而匹配的真正的RNA序列的概率。数据集1由含有掺入物的临床血液样品组成，数据集2是指由癌症基因组图谱(TCGA)提供且不含任何掺入物的小RNA测序数据。

实施例

下面给出的实施例仅用于说明目的，并不以任何方式限制上述发明。

实施例1

为了克服上述使用单一掺入物(例如cel-miR-39-3p)的限制，设计并优化了通用掺入物系统，所述通用掺入物系统广泛地反映在RNA提取和检测期间的内源性miRNA行为。

具体而言，设计了(未示出)长度为21个核苷酸的20条随机序列(反映微小RNA的典型长度)。接下来评估它们的分子特性(例如熔解温度(Tm，℃)和GC％)。随后，根据数项标准选择了10条人工序列的简短列表以用于湿式实验室验证。目的是最小化引物二聚体的形成并选择具有相对弱的二级结构的RNA分子。此外，RNA分子应广泛地反映内源性GC含量范围。因此，选择了GC含量范围为从38.1％至61.9％的掺入物，所述含量涵盖了大部分内源性微小RNA的GC含量。

将简短列出的人工序列用于安排包括5'磷酸基团的RNA合成(IDT，Norcross，VA，USA)。安排miRcury LNA测定(QIAgen，Venlo，荷兰)并使用半定量逆转录PCR(qRT-PCR)对掺入物量化。

首先，分别为每个分子制备每个掺入物的十倍系列稀释并用于miRucry测定，以及在Quantstudio Flex 6(ThermoFisher Scientific，Waltham，USA)上测量。相对于所使用的6倍稀释的稀释因子，绘制循环阈值(Ct)。图1示出了4个序列(SEQ ID NO：1至SEQ ID NO：4)的数据。

具有SEQ ID NO：1的掺入物具有以下的核苷酸序列：GAUAGAUACGCCAGUACCGCC，

具有SEQ ID NO：2的掺入物具有以下的核苷酸序列：AACGAAGCUCCACGAUGUAGG，

具有SEQ ID NO：3的掺入物具有以下的核苷酸序列：UGUACGGAAAUAUUGGCUACC，以及

具有SEQ ID NO：4的掺入物具有以下的核苷酸序列：UUCAUACGUUGCCCAAUCCAG。

未示出其他序列的数据。

基于在图1中示出的曲线的线性回归拟合，计算斜率、R平方以及引物效率。将这些总结在以下的表1中：

表1：数据分析如图1中所示。

所有四种测试的掺入物序列均示出了预期的斜率(接近3.33)、高R平方(高于0.99)以及非常良好的引物效率(在90％-100％之间)。将每个特定的miRcury LNA测定用于针对其他非同源掺入物RNA以及生物学的PAXgene RNA样品的qPCR测试中。未观察到扩增(数据未示出)，表明miRcury LNA测定仅对同源RNA而言是特异性的。

接下来，将每个掺入物制备为2倍稀释，添加到PAXgene RNA样品并进行miRcuryqPCR测定。图2总结了来自此实验的数据。

计算来自如图2中所示的数据的每种掺入物RNA的R平方并列在

表2中。总体而言，对于所有的掺入物RNA，R平方为0.99或接近它。

表2：数据分析如图2中所示。

接下来，在无核酸酶的水中用以下浓度的RNA制备4种掺入物的测试混合物：SEQID NO：1-340pM，SEQ ID NO：2-72.5pM，SEQ ID NO：3-2pM，SEQ ID NO：4-0.7pM。将10μL的这一测试混合物在提取前不久添加到PAXgene裂解物中。使用QIAsymphony PAXgene提取试剂盒(QIAgen，Venlo，荷兰)提取PAXgene，并在200μL洗脱缓冲液中洗脱。然后使用qPCR将这一RNA用于表达的测量。将结果总结在表3中，其中比较了预测和测量的Ct值。总体而言，测得的Ct值低于预测值，表明提取效率良好。

表3：当将掺入物以给定量提供给PAXgene样品时，来自测试提取的结果的总结。在RNA提取后，得到qRT-PCR数据并与预测的数据比较。

在下一步骤中，按照制造商的建议，使用miRNA QIAseq NGS文库试剂盒(QIAgen，Venlo，荷兰)，将在表3中所述的PAXgene RNA样品用于制备下一代测序文库。紧接在cDNA纯化步骤之后，将cDNA以1：10稀释，并用于使用掺入物特异性正向引物和通用反向引物的qPCR反应。具体而言，使用了以下引物：

SpikeIn_1_正向：GATAGATACGCCAGTACCGCC(SEQ ID NO：5)，

SpikeIn_2_正向：AACGAAGCTCCACGATGTAGG(SEQ ID NO：6)，

SpikeIn_3_正向：TGTACGGAAATATTGGCTACC(SEQ ID NO：7)，

SpikeIn_4_正向：TTCATACGTTGCCCAATCCAG(SEQ ID NO：8)，以及

SpikeIn_反向：ATGCATGCATGCATTGATGGTGCCTACAGTT(SEQ ID NO：9)。

将结果在表4中列出，而将通过针对NGS文库的qPCR测量的掺入物表达的R平方在图3中示出。

表4：数据分析如图3中所示。

总而言之，得到了针对来自文库制备过程中的cDNA测量的可接受的线性度(>0.95)。

最后，将来自之前实验的cDNA样品用于文库PCR和NGS。数据预处理后，将原始读段计数分配给各种掺入物(表5)。据观察，针对NGS读段计数的水平，掺入物也是以预期的线性顺序表达的(图4)。

表5：数据分析如图4中所示。

实施例2

上述人工掺入物RNA(具有根据SEQ ID NO：1至SEQ ID NO：4的核苷酸序列)进一步用于鉴别由下一代测序(NGS)技术产生的人工靶RNA。具体而言，鉴别了具有5'端和/或3'端附着物的靶RNA。在NGS期间，发现其他RNA的部分在两端(5'和3')附着至掺入物RNA。这些部分在本文中称为缀加序列，所述缀加序列包括前缀序列(5')和后缀序列(3')。在NGS过程中使用的接头的接头序列也被发现附着至掺入物RNA。

使用了本发明人的内部(HBDX)肺病数据集(血液样本)以及外部TCGA数据集(来自癌症患者的组织样本)。HBDX数据集含有掺入物并用于鉴别缀加序列。尽管没有添加掺入物，但在TCGA中也发现了相同的缀加序列(几率较低)。部分地，所述缀加序列可以连接至在小RNA NGS期间常用的5'-接头序列GTTCAGAGTTCTACAGTCCGACGATC(SEQ ID NO：84)。在此方面，我们要参考图5。

使用已鉴别的附着到掺入物RNA的缀加序列，还能够鉴别可能是人工/经修饰的靶RNA，即它们通过与掺入物本身相同的“缀加序列附着”机制产生。由于这些靶RNA在数据分析期间可能被误导，则应将它们去除以改善数据集质量和后续分析。

为了防止靶RNA的错误去除，仅从后续分析/数据集中去除具有最小缀加序列长度为5个以上核苷酸的靶RNA。

图6：示出了具有根据SEQ ID NO：1至SEQ ID NO：4的核苷酸序列的掺入物RNA以及缀加序列长度的分布。较高的掺入物表达使得发现更多的缀加序列。

图7示出了掺入物RNA的平均表达(长度：21个核苷酸)以及它们更长的人造物(掺入物加上增加长度的缀加序列)。

图8示出了如果仅考虑最小长度(或更长)的缀加序列，在两个数据集(HBDX、TCGA)中将去除的序列的数量。理论指导作为在与缀加序列长度相同的所有可能的核苷酸序列中巧合匹配的百分比而给出。此理论误差百分比越低，必须选择的最小长度就越长。然而，在最小长度为5时，错误百分比降低至低于0.5％，这可能在大多数背景中是可以接受的。

Claims

1.一种包含至少3种RNA分子的组合物，其中，所述至少3种RNA分子选自于由以下组成的组：具有根据SEQ ID NO：1至SEQ ID NO：4的核苷酸序列的RNA分子、其片段，以及与其具有至少80％的序列同一性的序列。

2.根据权利要求1所述的组合物，其中，所述组合物包含4种RNA分子，其中所述4种RNA分子选自于由以下组成的组：具有根据SEQ ID NO：1至SEQ ID NO：4的核苷酸序列的RNA分子、其片段，以及与其具有至少80％的序列同一性的序列。

3.根据权利要求1或2所述的组合物，其中，所述组合物包含具有根据以下的核苷酸序列的RNA分子：

(i)SEQ ID NO：1，SEQ ID NO：2，以及SEQ ID NO：3，

(ii)SEQ ID NO：2，SEQ ID NO：3，以及SEQ ID NO：4，

(iii)SEQ ID NO：1，SEQ ID NO：3，以及SEQ ID NO：4，

(iv)SEQ ID NO：1，SEQ ID NO：2，以及SEQ ID NO：4，或

(v)SEQ ID NO：1，SEQ ID NO：2，SEQ ID NO：3，以及SEQ ID NO：4。

4.根据权利要求1-3中任一项所述的组合物，其中，包含在所述组合物中的所述至少3种RNA分子具有特征分布。

5.根据权利要求4所述的组合物，其中，包含在所述组合物中的所述至少3种RNA分子就其量而言具有所述特征分布。

6.根据权利要求5所述的组合物，其中，将所述至少3种RNA分子以不同的量包含在所述组合物中。

7.根据权利要求6所述的组合物，其中，包含在所述组合物中的任何的任意对的2种RNA分子具有不同的量。

8.根据权利要求6或7中任一项所述的组合物，其中，所述至少3种RNA分子以定义量的梯度包含在所述组合物中。

9.根据权利要求1-8中任一项所述的组合物，其中，包含在所述组合物中的所述至少3种RNA分子以介于0.001amol至6000amol之间的量存在，优选地，以介于0.01amol至5000amol之间的量存在，更优选地，以介于0.1amol至4000amol之间的量存在，并且甚至更优选地，以介于1amol至3500amol之间的量存在。

10.根据权利要求9所述的组合物，其中，包含在所述组合物中的所述4种RNA分子以介于0.001amol至6000amol之间的量存在，优选地，以介于0.01amol至5000amol之间的量存在，更优选地，以介于0.1amol至4000amol之间的量存在，并且甚至更优选地，以介于1amol至3500amol之间的量存在。

11.根据权利要求1-10中任一项所述的组合物，其中，所述组合物包含至少3种RNA分子，并且其中

所述第一种RNA分子以约3400amol的量被包含，所述第二种RNA分子以约725amol的量被包含，以及所述第三种RNA分子以约20amol的量被包含，或者

所述第一种RNA分子以约1360amol的量被包含，所述第二种RNA分子以约290amol的量被包含，以及所述第三种RNA分子以约80amol的量被包含。

12.根据权利要求11所述的组合物，其中，所述组合物包含4种RNA分子，并且其中

所述第一种RNA分子以约3400amol的量被包含，所述第二种RNA分子以约725amol的量被包含，所述第三种RNA分子以约20amol的量被包含，以及所述第四种RNA分子以约7amol的量被包含，或者

所述第一种RNA分子以约1360amol的量被包含，所述第二种RNA分子以约290amol的量被包含，所述第三种RNA分子以约80amol的量被包含，以及所述第四种RNA分子以约27amol的量被包含。

13.根据权利要求1-12中任一项所述的组合物，其中，所述RNA分子是人工RNA分子，所述分子在自然界中不存在。

14.根据权利要求1-13中任一项所述的组合物，其中，所述组合物适合作为/是掺入物混合物。

15.根据权利要求1-14中任一项所述的组合物，其中，所述组合物适合作为/是过程控制和/或归一化的标准品。

16.根据权利要求1-15中任一项所述的组合物，其中，所述组合物为溶液。

17.根据权利要求16所述的组合物，其中，所述溶液为水性溶液。

18.根据权利要求17所述的组合物，其中，所述水性溶液为水。

19.根据权利要求18所述的组合物，其中，所述水为无核酸酶的水。

20.一种试剂盒，所述试剂盒包含根据权利要求1-19中任一项所述的组合物。

21.根据权利要求20所述的试剂盒，其中，所述试剂盒进一步包含用于确定包含在所述组合物中的所述至少3种RNA分子的水平的工具。

22.根据权利要求1-19中任一项所述的组合物或根据权利要求20或21所述的试剂盒作为标准品用于过程控制、样品检测、归一化和/或数据处理控制的用途。

23.根据权利要求22所述的用途，其中，所述过程控制包含质量控制或端到端控制。

24.根据权利要求22或23所述的用途，其中，所述数据处理控制包含原始数据处理控制。

25.一种用于检测样品的方法，所述方法包括以下步骤：

相对于包含在/来自根据权利要求1-19中任一项所述的组合物中的至少3种RNA分子，对样品进行评估。

26.根据权利要求25所述的方法，其中，所述样品是生物材料与根据权利要求1-19中任一项所述的组合物的混合物。

27.根据权利要求26所述的方法，其中，所述生物材料是血液。

28.根据权利要求27所述的方法，其中，所述血液是全血或血液组分。

29.根据权利要求28所述的方法，其中，所述血液组分选自于由血细胞组分和血浆或血清组成的组。

30.根据权利要求25-29中任一项所述的方法，其中，所述样品基于/源自生物材料与根据权利要求1-19中任一项所述的组合物的混合物。

31.根据权利要求25-30中任一项所述的方法，其中，所述样品为经处理的样品。

32.根据权利要求31所述的方法，其中，所述经处理的样品是裂解的样品、提取的样品、扩增的样品、测序的样品或文库制备的样品。

33.根据权利要求31或32所述的方法，其中，通过将生物材料与根据权利要求1-19中任一项所述的组合物混合并进一步处理由此得到的混合物来得到所述经处理的样品。

34.根据权利要求25-33中任一项所述的方法，其中，所述评估包含确定所述至少3种RNA分子是否示出特征分布。

35.根据权利要求34所述的方法，其中，如果给出所述特征分布，则对所述样品进一步处理和/或分析。

36.根据权利要求35所述的方法，其中，如果如以下所述，则给出所述特征分布：

所述至少3种RNA分子以其预期水平存在，

所述至少3种RNA分子以其预期顺序/等级存在，所述顺序/等级通过所述至少3种RNA分子的水平、特别是量的关系定义，和/或

所述至少3种RNA分子以其预期线性度存在。

37.根据权利要求36所述的方法，其中，所述预期顺序使得Spearman等级相关系数(Spearman'sρ)≥0.95，和/或所述预期线性度使得Pearson相关系数(Pearson's r)≥0.66。

38.根据权利要求34所述的方法，其中，如果未给出所述特征分布，则不会对所述样品进一步处理并弃置。

39.根据权利要求38所述的方法，其中，如果如以下所述，则未给出所述特征分布：

所述至少3种RNA分子未以其预期水平存在，

所述至少3种RNA分子未以其预期顺序/等级存在，所述顺序/等级通过所述至少3种RNA分子的水平、特别是量的关系定义，和/或

所述至少3种RNA分子未以其预期线性度存在。

40.根据权利要求39所述的方法，其中，所述预期顺序使得Spearman等级相关系数(Spearman'sρ)≥0.95，和/或所述预期线性度使得Pearson相关系数(Pearson's r)≥0.66。

41.根据权利要求33-40中任一项所述的方法，其中，所述进一步处理涵盖裂解所述样品、提取所述样品、扩增所述样品、对所述样品测序和/或从所述样品中制备文库。

42.根据权利要求41所述的方法，其中，所述进一步处理涵盖裂解所述细胞以释放在所述样品中包含的核苷酸序列、提取在所述样品中包含的核苷酸序列、扩增在所述样品中包含的核苷酸序列、对在所述样品中包含的核苷酸序列测序和/或从所述样品中包含的核苷酸序列制备文库。

43.根据权利要求42所述的方法，其中，所述核苷酸序列是核糖核苷酸序列。

44.根据权利要求43所述的方法，其中，所述核糖核苷酸序列属于靶RNA分子。

45.根据权利要求44所述的方法，其中，所述靶RNA分子是小RNA分子。

46.根据权利要求45所述的方法，其中，所述小RNA分子是非编码小RNA分子，优选miRNA分子。

47.根据权利要求25-46中任一项所述的方法，其中，所述评估包括鉴别包含在/来自根据权利要求1-19中任一项所述的组合物中的所述至少3种RNA分子的5'端和/或3'端添加物。

48.根据权利要求47所述的方法，其中，所述5'端和/或3'端添加物具有至少5个核苷酸的长度。

49.根据权利要求48所述的方法，其中，所述至少5个核苷酸延伸超过所述至少3种RNA分子的原始长度。

50.根据权利要求47-49中任一项所述的方法，其中，所述5'端和/或3'端添加物是RNA分子/接头融合、RNA分子/RNA分子融合、接头/接头融合的结果。

51.根据权利要求25-50中任一项所述的方法，其中，所述样品包含靶RNA分子。

52.根据权利要求51所述的方法，其中，相对于包含在/来自根据权利要求1-19中任一项所述的组合物中的所述至少3种RNA分子而鉴别的5'端和/或3'端添加物的存在指示出在所述靶RNA分子中存在5'端和/或3'端添加物。

53.根据权利要求51或52所述的方法，其中，包含在所述样品中的具有5'端和/或3'端添加物的靶RNA分子被排除在进一步分析之外/不再被进一步使用。

54.根据权利要求51-53中任一项所述的方法，其中，将来自包含在所述样品中的具有5'端和/或3'端添加物的靶RNA分子的数据排除在进一步分析之外/不会进一步使用或不构成数据集、优选原始数据集的一部分。

55.根据权利要求51-54中任一项所述的方法，其中，所述靶RNA分子是小RNA分子。

56.根据权利要求55所述的方法，其中，所述小RNA分子是非编码小RNA分子，优选miRNA分子。

57.一种用于生物样品的优化处理的方法，所述方法包括以下步骤：

实施根据权利要求25-56中任一项所述的方法。

58.一种用于从生物样品进行的优化的RNA制备的方法或所述生物样品的RNA分析的方法，所述方法包括以下步骤：

实施根据权利要求25-56中任一项所述的方法。

59.一种改善RNA数据集质量的方法，所述方法包括以下步骤：

实施根据权利要求25-56中任一项所述的方法。

60.一种改善RNA数据集质量的方法，所述方法包括以下步骤：

(i)确定样品中的RNA分子的序列，

(ii)确定所述RNA分子的5'端和/或3'端添加物，所述添加物不是处于天然存在形式的RNA分子的一部分，以及

(iii)从RNA数据集分析中排除具有5'端和/或3'端添加物的RNA分子/从所述RNA数据集中去除具有5'端和/或3'端添加物的RNA分子。

61.根据权利要求60所述的方法，其中，确定所述样品中的RNA分子的序列涵盖：

RNA分子的变性以及5'接头和/或3'接头对所述变性的RNA分子的连接，

将其上连接有5'接头和/或3'接头的RNA分子逆转录成cDNA分子，

(所述)cDNA分子的扩增，和/或

(所述)cDNA分子的测序，优选下一代测序。

62.根据权利要求60或61所述的方法，其中，所述5'端和/或3'端添加物具有至少5个核苷酸的长度。

63.根据权利要求62所述的方法，其中，所述至少5个核苷酸延伸超过所述天然存在形式的RNA分子的长度。

64.根据权利要求60-63中任一项所述的方法，其中，所述5'端和/或3'端添加物是RNA分子/接头融合、RNA分子/RNA分子融合、接头/接头融合的结果。

65.根据权利要求60-64中任一项所述的方法，其中，所述5'端和/或3'端添加物选自于由具有根据如下的核苷酸序列的添加物所组成的组：CGATC(SEQ ID NO：10)，GGGGC(SEQ IDNO：11)，ACGATC(SEQ ID NO：12)，GGGCGT(SEQ ID NO：13)，CGGCGG(SEQ ID NO：14)，GGGGCG(SEQ ID NO：15)，GACGATC(SEQ ID NO：16)，GGGGCGT(SEQ ID NO：17)，GGGCGTG(SEQ ID NO：18)，GGGGGCG(SEQ ID NO：19)，GGGGGTG(SEQ ID NO：20)，GGGGCGTG(SEQ ID NO：21)，CGGGGCGG(SEQ ID NO：22)，GGGAGGCC(SEQ ID NO：23)，GGAGGCGT(SEQ ID NO：24)，GGGCGTGG(SEQ ID NO：25)，TGGAGGCG(SEQ ID NO：26)，CGACGATC(SEQ ID NO：27)，GGGGCGTT(SEQ IDNO：28)，GGGCGTGT(SEQ ID NO：29)，GGGGGCGT(SEQ ID NO：30)，GGGAGCCA(SEQ ID NO：31)，GGGGGTGT(SEQ ID NO：32)，GGAGGCCC(SEQ ID NO：33)，CCGACGATC(SEQ ID NO：34)，GGGGGCGTG(SEQ ID NO：35)，TACCTGGTT(SEQ ID NO：36)，TGGAGGCGT(SEQ ID NO：37)，GGGCGTGGG(SEQ ID NO：38)，CGGCGGCGG(SEQ ID NO：39)，GGGGGTGTA(SEQ ID NO：40)，GGGGGCGTT(SEQ ID NO：41)，GGCTGGGCG(SEQ ID NO：42)，TCGGGGCGG(SEQ ID NO：43)，GGGGCGTGG(SEQ ID NO：44)，GGGGAGCCA(SEQ ID NO：45)，GGGAGGCCC(SEQ ID NO：46)，CGGAGGGCGG(SEQ ID NO：47)，GTCCGCGATC(SEQ ID NO：48)，GTCGACGATC(SEQ ID NO：49)，CGGGCGGATC(SEQ ID NO：50)，TGGAGGCGTG(SEQ ID NO：51)，TCCGACGATC(SEQ ID NO：52)，GGGGCGTGGG(SEQ ID NO：53)，AAGCGGGGCT(SEQ ID NO：54)，CGGGGAGCCA(SEQ ID NO：55)，GTCCGACGATC(SEQ ID NO：56)，TCGGAGGGCGG(SEQ ID NO：57)，AGTCCGACGATC(SEQ ID NO：58)，AAGCGGGGCTGG(SEQ ID NO：59)，GTCCGACGGATC(SEQ ID NO：60)，TCGGGCTGGGGC(SEQ IDNO：61)，TACCTGGTTGAT(SEQ ID NO：62)，TCGGGGCGGCGG(SEQ ID NO：63)，CAGTCCGACGATC(SEQ ID NO：64)，TACCTGGTTGATC(SEQ ID NO：65)，TCGGGCTGGGGCG(SEQ ID NO：66)，TGGAGGCGTGGGT(SEQ ID NO：67)，ACAGTCCGACGATC(SEQ ID NO：68)，GGTCGGGCTGGGGC(SEQID NO：69)，CGGAAGCGTGCTGGG(SEQ ID NO：70)，GGTCGGGCTGGGGCG(SEQ ID NO：71)，TACAGTCCGACGATC(SEQ ID NO：72)，CGGAAGCGTGCTGGGC(SEQ ID NO：73)，CTACAGTCCGACGATC(SEQ ID NO：74)，TCTACAGTCCGACGATC(SEQ ID NO：75)，CGGAAGCGTGCTGGGCCC(SEQ ID NO：76)，TCGGGGCGGCGGCGGCGG(SEQ ID NO：77)，TTCTACAGTCCGACGATC(SEQ ID NO：78)，TAGCAGCACATCATGGTT(SEQ ID NO：79)，GGATCATTA(SEQ ID NO：80)，GGGGCGTGGG(SEQ IDNO：81)，TGGAGGCGTGGGT(SEQ ID NO：82)。

66.根据权利要求60-65中任一项所述的方法，其中，确定所述RNA分子的5'端和/或3'端添加物涵盖分析所述RNA分子是否与在测序、优选下一代测序过程中使用的接头序列至少部分序列相同。

67.根据权利要求66所述的方法，其中，在所述下一代测序过程中使用的所述接头序列选自于由以下组成的组：TGGAATTCTCGGGT GCCAAGG(SEQ ID NO：83)，GTTCAGAGTTCTACAGTCCGACGA TC(SEQ ID NO：84)，TGGAATTCTCGGGTGCCAAGG(SEQ ID NO：85)，GAATTCCACCACGTTCCCGTGG(SEQ ID NO：86)，AAT GATACGGCGACCACCGAGATCTACACGTTCAGAGTTCTACAGTCC GA(SEQ ID NO：87)，CAAGCAGAAGACGGCATACGAGAT(SEQ ID NO：88)，GTGACTGGAGTTCCTTGGCACCCGAGAATTCCA(SEQ ID NO：89)，CAAGCAGAAGACGGCATACGA(SEQ ID NO：90)，GTTCAGAGTTCTACAGTCCGACGATC(SEQ ID NO：91)，TC GTATGCCGTCTTCTGCTTGT(SEQ IDNO：92)，ATCTCGTATGCC GTCTTCTGCTTG(SEQ ID NO：93)，CAAGCAGAAGACGGCATAC GA(SEQ IDNO：94)，AATGATACGGCGACCACCGACAGGTTCAG AGTTCTACAGTCCGA(SEQ ID NO：95)，CGACAGGTTCAGAGTT CTACAGTCCGACGATC(SEQ ID NO：96)，AAAAAAAAAAAAAA AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA(SEQ ID NO：97)，AGATCGGAAGAGCACACGTCTGAACTCCAGTCA(SEQ IDNO：98)，AGATCGGAAGAGCGTCGTGTAGGGAAAGAGTGT(SEQ ID NO：99)，GATCGGAAGAGCACACGTCTGAACTCCAGTCAC(SEQ ID NO：100)，ATCTCGTATGCCGTCTTCTGCTTG(SEQ ID NO：101)，AATGATACGGCGACCACCGAGATCTACAC(SEQ ID NO：102)，ACACTCTTTCCCTACACGACGCTCTTCCGATCT(SEQ ID NO：103)。

68.根据权利要求60-67中任一项所述的方法，其中所述RNA数据集分析是RNA原始数据集分析/其中所述RNA数据集是原始RNA数据集。