CN118380156B

CN118380156B - 肺结节恶性风险评估的模型构建方法及相关装置

Info

Publication number: CN118380156B
Application number: CN202410814677.2A
Authority: CN
Inventors: 王俊奇; 何建行; 陈思彤; 梁恒瑞; 彭敏桦; 张晗; 樊鹏南
Original assignee: Jingzhi Future Guangzhou Intelligent Technology Co ltd
Current assignee: Jingzhi Future Guangzhou Intelligent Technology Co ltd
Priority date: 2024-06-24
Filing date: 2024-06-24
Publication date: 2024-10-01
Anticipated expiration: 2044-06-24
Also published as: CN118380156A

Abstract

本申请公开了一种肺结节恶性风险评估的模型构建方法及相关装置，方法包括：获取肺结节良性和恶性对象的呼气样本，进行一次筛选，得到差异标志物集合，融合随机森林算法和递归特征消除结合交叉验证算法，对差异标志物集合进行二次筛选，得到诊断标志物集合，基于诊断标志物集合和多个样本，利用VOC风险评分法构建肺结节恶性风险评估模型，以通过模型进行肺结节恶性风险评估。由此可见，通过采集呼气的方式进行肺结节良恶性风险分析，并根据呼气代谢物与肺结节良恶性之间的相关性进行了两次筛选，保证了肺结节恶性风险分析结果的准确性和可靠性，从而高效辅助医生判断待分析对象肺结节的良恶性。

Description

肺结节恶性风险评估的模型构建方法及相关装置

技术领域

本申请涉及计算机技术领域，更具体的说，是涉及肺结节恶性风险评估的模型构建方法及相关装置。

背景技术

肺部结节是指在肺组织中发现的小的肿块或肿瘤，其直径通常小于3厘米，肺部结节的良恶性诊断对于患者的治疗和预后具有重要意义。

近年来，基于呼气气体的非侵入性检测方法引起了广泛的关注。呼气气体中包含了许多挥发性有机化合物（VOCs），这些特定的VOCs可能与机体功能代谢产生的代谢产物、炎症反应以及免疫系统的变化等因素有关。

传统的肺部结节诊断方法主要依赖于影像学检查和组织活检，但这些方法有一定的局限性，如辨别良性结节和恶性结节的准确性和侵入性，因此目前尚缺乏一种可靠、准确且高效的方法来评估肺部结节良恶性。

如何通过采集肺部恶性结节和良性结节人群的呼气样本，对呼气中的VOCs进行定量和定性分析，以评估肺结节恶性的风险，为肺部结节良恶性诊断提供可靠的辅助分析，是需要关注的问题。

发明内容

鉴于上述问题，本申请提供了肺结节恶性风险评估的模型构建方法及相关装置，以评估肺结节恶性的风险，为肺部结节良恶性诊断提供可靠的辅助分析。

为了实现上述目的，现提出具体方案如下：

一种肺结节恶性风险评估的模型构建方法，包括：

获取肺结节良性对象的呼气和肺结节恶性对象的呼气，以作为多个样本；

基于所述肺结节良性对象的呼气和所述肺结节恶性对象的呼气，进行肺结节良恶性标志物一次筛选，得到差异标志物集合；

通过融合随机森林算法和递归特征消除结合交叉验证算法，对所述差异标志物集合进行肺结节良恶性标志物二次筛选，得到诊断标志物集合；

基于所述诊断标志物集合和所述多个样本，利用VOC风险评分法构建肺结节恶性风险评估模型。

可选的，所述通过融合随机森林算法和递归特征消除结合交叉验证算法，对所述差异标志物集合进行肺结节良恶性标志物二次筛选，得到诊断标志物集合，包括：

构建以所述差异标志物集合中的每个VOC作为特征的特征集合；

通过所述特征集合进行随机森林建模，得到初始化的随机森林模型，并在所述特征集合的测试集上计算所述随机森林模型的性能评分；

计算每个特征在所述随机森林模型中的平均减少不纯度，并在所述特征集合的训练集上剔除平均减少不纯度最小的特征，以更新所述随机森林模型，每更新一次随机森林模型，所述特征集合的测试集和训练集均轮替一次；

在所述特征集合的测试集上计算更新后的随机森林模型的性能评分，若所述性能评分与所述随机森林模型在更新前的性能评分相同，确定更新后的随机森林模型对应的特征集合为诊断标志物集合，否则返回执行所述计算所述随机森林模型中每个特征的平均减少不纯度，并在所述特征集合的训练集上剔除平均减少不纯度最小的特征，以更新所述随机森林模型的步骤。

可选的，在所述特征集合的测试集上计算更新后的随机森林模型的性能评分之后，该方法还包括：

若更新后的随机森林模型对应的特征集合中的特征数量达到预设数量，在多次更新的随机森林模型中，选择性能评分最高的随机森林模型所对应的特征集合，作为诊断标志物集合。

可选的，所述计算每个特征在所述随机森林模型中的平均减少不纯度，包括：

利用下式计算每个特征在所述随机森林模型中的平均减少不纯度：

其中，为特征的平均减少不纯度，为所述随机森林模型的决策树的总节点数，为决策树t中使特征进行分裂的节点集合，为特征在节点j分裂时减少的不纯度，为父节点的基尼不纯度，为所述父节点的左子节点的基尼不纯度，为所述父节点的右子节点的基尼不纯度，是所述父节点中的样本总数，为左子节点的样本数，为右子节点的样本数，为节点P的数据集，为节点P的基尼不纯度，为类别的数量，为第i个类别在数据集中的比例。

可选的，基于所述诊断标志物集合和所述多个样本，利用VOC风险评分法构建肺结节恶性风险评估模型，包括：

统计每个样本中所述诊断标志物集合中每个VOC的相对含量，并计算每个VOC对恶性结节判定准确性造成影响的权重系数；

根据各个样本中所述诊断标志物集合中的各个VOC的所述权重系数及相对含量，确定高风险阈值和低风险阈值；

以所述诊断标志物集合作为模型风险评估分析因素，并基于所述诊断标志物集合中各个VOC对恶性结节判定准确性造成影响的权重系数、所述高风险阈值和所述低风险阈值，构建肺结节恶性风险评估模型。

可选的，所述计算每个VOC对恶性结节判定准确性造成影响的权重系数，包括：

构建线性回归预测模型，所述线性回归预测模型的表达函数为：

其中，为预测概率值，为所述线性回归预测模型的参数向量，为输入特征向量，所述输入特征向量由单个样本中所述诊断标志物集合中各个VOC的相对含量组成；

以对数似然损失函数作为优化目标，利用梯度下降算法迭代更新所述线性回归预测模型的参数向量的各个参数，直至达到预设收敛条件时，确定所述线性回归预测模型的参数向量的每个参数为每个VOC对恶性结节判定准确性造成影响的权重系数。

可选的，所述根据各个样本中所述诊断标志物集合中的各个VOC的所述权重系数及相对含量，确定高风险阈值和低风险阈值，包括：

针对每个样本，将所述样本中的所述诊断标志物集合中每个VOC的所述权重系数，乘以该个VOC的相对含量，得到该个VOC的风险评估得分；

针对每个样本，将所述样本中的所述诊断标志物集合中各个VOC的风险评估得分累加，得到所述样本的患病风险值；

在各个样本的患病风险值中确定离群值，所述离群值包括恶性肺结节下界限离群值和良性肺结节上界限离群值；

在所有样本的患病风险值中剔除所有恶性肺结节下界限离群值，并在剩余样本的患病风险值中将检验出恶性肺结节敏感性最高的阈值，作为高风险阈值；

在所有样本的患病风险值中剔除所有良性肺结节上界限离群值，并在剩余样本的患病风险值中将检验出良性肺结节特异性最高的阈值，作为低风险阈值。

可选的，所述在各个样本的患病风险值中确定离群值，包括：

构建各个样本的患病风险值的数据点集；

针对所述数据点集内的每个数据点，计算在所述数据点的预设邻域内的数据点数量，若所述数据点的预设邻域内的数据点数量不小于预设最小点数，确定所述数据点为核心点；

针对所述数据点集内的每个核心点，确定在所述核心点的所述预设邻域内的非核心点的数据点为边界点；

确定所述数据点集内既不为核心点也不为边界点的数据点为离群点，并将每个离群点对应的患病风险值确定为离群值。

可选的，所述诊断标志物集合包括13个VOC，具体为2个芳香烃类化合物、2个烷烃类化合物、3个酮类化合物、2个醛类化合物、1个烯烃类化合物以及3个其它类化合物，其中，

所述2个芳香烃类化合物选自芳香烃类候选标志物集合，所述芳香烃类候选标志物集合包括邻二甲苯、1-甲基萘、3-乙基甲苯、苯、乙苯、丙苯、三甲基苯、1-甲基-3-丙基苯和对二甲苯；

所述2个烷烃类化合物选自烷烃类候选标志物集合，所述烷烃类候选标志物集合包括己烷、环己烷、2,4-二甲基庚烷、4-甲基辛烷、正十二烷、辛烷、甲基环己烷、丙基环己烷、2-甲基庚烷、丙烷、丁烷、2-甲基戊烷和戊烷；

所述3个酮类化合物选自酮类候选标志物集合，所述酮类候选标志物集合包括2-戊酮、2-丁酮、丙酮、2,3-己二酮和环己酮；

所述2个醛类化合物选自醛类候选标志物集合，所述醛类候选标志物集合包括己醛、壬醛、庚醛和辛醛；

所述1个烯烃类化合物选自烯烃类候选标志物集合，所述烯烃类候选标志物集合包括异戊二烯、正庚烷、苯乙烯和1-辛烯。

可选的，所述肺结节恶性风险评估模型进行辅助评估的过程，包括：

获取待测对象的呼气；

将所述待测对象的呼气输入至所述肺结节恶性风险评估模型，输出所述待测对象的风险评估结果。

可选的，将所述待测对象的呼气输入至所述肺结节恶性风险评估模型，输出所述待测对象的风险评估结果，包括：

将所述待测对象的呼气输入至所述肺结节恶性风险评估模型，获得所述待测对象的呼气中，每个风险评估分析VOC的含量值；

通过所述肺结节恶性风险评估模型将每个风险评估分析VOC的含量值，乘以该个风险评估分析VOC对恶性结节判定准确性造成影响的权重系数，得到该个风险评估分析VOC的风险评估得分；

通过所述肺结节恶性风险评估模型将各个风险评估分析VOC的风险评估得分累加，得到所述待测对象的肺结节良恶性综合评估得分；

通过所述肺结节恶性风险评估模型将所述肺结节良恶性综合评估得分与高风险阈值和低风险阈值进行比较，输出所述待测对象的风险评估结果。

一种肺结节恶性风险评估的模型构建装置，包括：

呼气样本获取单元，用于获取肺结节良性对象的呼气和肺结节恶性对象的呼气，以作为多个样本；

差异标志物筛选单元，用于基于所述肺结节良性对象的呼气和所述肺结节恶性对象的呼气，进行肺结节良恶性标志物一次筛选，得到差异标志物集合；

诊断标志物二次筛选单元，用于通过融合随机森林算法和递归特征消除结合交叉验证算法，对所述差异标志物集合进行肺结节良恶性标志物二次筛选，得到诊断标志物集合；

风险评估模型构建单元，用于基于所述诊断标志物集合和所述多个样本，利用VOC风险评分法构建肺结节恶性风险评估模型。

可选的，所述诊断标志物二次筛选单元，包括：

特征集合构建单元，用于构建以所述差异标志物集合中的每个VOC作为特征的特征集合；

随机森林建模单元，用于通过所述特征集合进行随机森林建模，得到初始化的随机森林模型，并在所述特征集合的测试集上计算所述随机森林模型的性能评分；

平均减少不纯度计算单元，用于计算每个特征在所述随机森林模型中的平均减少不纯度；

特征剔除单元，用于在所述特征集合的训练集上剔除平均减少不纯度最小的特征，以更新所述随机森林模型，每更新一次随机森林模型，所述特征集合的测试集和训练集均轮替一次；

性能评分计算单元，用于在所述特征集合的测试集上计算更新后的随机森林模型的性能评分，若所述性能评分与所述随机森林模型在更新前的性能评分相同，确定更新后的随机森林模型对应的特征集合为诊断标志物集合，否则返回执行所述平均减少不纯度计算单元。

可选的，该装置还包括：

最高分特征集合选定单元，用于在所述特征集合的测试集上计算更新后的随机森林模型的性能评分之后，若更新后的随机森林模型对应的特征集合中的特征数量达到预设数量，在多次更新的随机森林模型中，选择性能评分最高的随机森林模型所对应的特征集合，作为诊断标志物集合。

可选的，所述平均减少不纯度计算单元，包括：

平均减少不纯度计算子单元，用于利用下式计算每个特征在所述随机森林模型中的平均减少不纯度：

可选的，所述风险评估模型构建单元，包括：

相对含量统计单元，用于统计每个样本中所述诊断标志物集合中每个VOC的相对含量；

权重系数计算单元，用于计算每个VOC对恶性结节判定准确性造成影响的权重系数；

阈值确定单元，用于根据各个样本中所述诊断标志物集合中的各个VOC的所述权重系数及相对含量，确定高风险阈值和低风险阈值；

模型构建单元，用于以所述诊断标志物集合作为模型风险评估分析因素，并基于所述诊断标志物集合中各个VOC对恶性结节判定准确性造成影响的权重系数、所述高风险阈值和所述低风险阈值，构建肺结节恶性风险评估模型。

可选的，所述权重系数计算单元，包括：

线性回归预测模型构建单元，用于构建线性回归预测模型，所述线性回归预测模型的表达函数为：

模型参数更新单元，用于以对数似然损失函数作为优化目标，利用梯度下降算法迭代更新所述线性回归预测模型的参数向量的各个参数，直至达到预设收敛条件时，确定所述线性回归预测模型的参数向量的每个参数为每个VOC对恶性结节判定准确性造成影响的权重系数。

可选的，所述阈值确定单元，包括：

风险评估得分计算单元，用于针对每个样本，将所述样本中的所述诊断标志物集合中每个VOC的所述权重系数，乘以该个VOC的相对含量，得到该个VOC的风险评估得分；

患病风险值计算单元，用于针对每个样本，将所述样本中的所述诊断标志物集合中各个VOC的风险评估得分累加，得到所述样本的患病风险值；

离群值确定单元，用于在各个样本的患病风险值中确定离群值，所述离群值包括恶性肺结节下界限离群值和良性肺结节上界限离群值；

高风险阈值确定单元，用于在所有样本的患病风险值中剔除所有恶性肺结节下界限离群值，并在剩余样本的患病风险值中将检验出恶性肺结节敏感性最高的阈值，作为高风险阈值；

低风险阈值确定单元，用于在所有样本的患病风险值中剔除所有良性肺结节上界限离群值，并在剩余样本的患病风险值中将检验出良性肺结节特异性最高的阈值，作为低风险阈值。

可选的，所述离群值确定单元，包括：

数据点集构建单元，用于构建各个样本的患病风险值的数据点集；

核心点确定单元，用于针对所述数据点集内的每个数据点，计算在所述数据点的预设邻域内的数据点数量，若所述数据点的预设邻域内的数据点数量不小于预设最小点数，确定所述数据点为核心点；

边界点确定单元，用于针对所述数据点集内的每个核心点，确定在所述核心点的所述预设邻域内的非核心点的数据点为边界点；

离群点确定单元，用于确定所述数据点集内既不为核心点也不为边界点的数据点为离群点，并将每个离群点对应的患病风险值确定为离群值。

可选的，该装置还包括：

待测对象呼气获取单元，用于获取待测对象的呼气；

模型输出单元，用于将所述待测对象的呼气输入至所述肺结节恶性风险评估模型，输出所述待测对象的风险评估结果。

可选的，所述模型输出单元，包括：

模型输出第一子单元，用于将所述待测对象的呼气输入至所述肺结节恶性风险评估模型，获得所述待测对象的呼气中，每个风险评估分析VOC的含量值；

模型输出第二子单元，用于通过所述肺结节恶性风险评估模型将每个风险评估分析VOC的含量值，乘以该个风险评估分析VOC对恶性结节判定准确性造成影响的权重系数，得到该个风险评估分析VOC的风险评估得分；

模型输出第三子单元，用于通过所述肺结节恶性风险评估模型将各个风险评估分析VOC的风险评估得分累加，得到所述待测对象的肺结节良恶性综合评估得分；

模型输出第四子单元，用于通过所述肺结节恶性风险评估模型将所述肺结节良恶性综合评估得分与高风险阈值和低风险阈值进行比较，输出所述待测对象的风险评估结果。

一种肺结节恶性风险评估的模型构建设备，包括存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如上所述的肺结节恶性风险评估的模型构建方法的各个步骤。

一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现如上所述的肺结节恶性风险评估的模型构建方法的各个步骤。

借由上述技术方案，本申请通过获取肺结节良性和恶性对象的呼气样本，进行一次筛选，得到差异标志物集合，并进一步通过融合随机森林算法和递归特征消除结合交叉验证算法，对差异标志物集合进行肺结节良恶性标志物二次筛选，得到诊断标志物集合，从而基于诊断标志物集合和多个样本，利用VOC风险评分法构建肺结节恶性风险评估模型，以通过模型进行肺结节恶性风险评估。由此可见，通过采集呼气的方式进行肺结节良恶性风险分析，并根据呼气代谢物与肺结节良恶性之间的相关性进行了两次筛选，保证了肺结节恶性风险分析结果的准确性和可靠性，从而高效辅助医生判断待分析对象肺结节的良恶性。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本申请的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1为本申请实施例提供的实现肺结节恶性风险评估的模型构建的一种流程示意图；

图2为本申请实施例提供的一种谱图数据被校正后的示意图；

图3为本申请实施例提供的一种OPLS-DA得分散点图；

图4为本申请实施例提供的一种高/低风险阈值的设置示意图；

图5为本申请实施例提供的肺结节恶性风险评估模型的一种ROC曲线；

图6为本申请实施例提供的一种实现肺结节恶性风险评估的模型构建的装置结构示意图；

图7为本申请实施例提供的一种实现肺结节恶性风险评估的模型构建的设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请方案可以基于具备数据处理能力的终端实现，该终端可以是肺结节良恶性诊断分析系统，肺结节良恶性诊断分析系统可以配备有呼气采集装置。

接下来，结合图1所示，本申请的肺结节恶性风险评估的模型构建方法可以包括以下步骤：

步骤S110、获取肺结节良性对象的呼气和肺结节恶性对象的呼气，以作为多个样本。

具体的，肺结节良恶性诊断分析系统可以通过呼气采集装置采集目标对象的呼气。肺结节良/恶性对象可以对准呼气采集装置呼气，使得呼气被肺结节良恶性诊断分析系统所采集。

其中，每个肺结节良/恶性对象的呼气可以作为一个样本。

步骤S120、基于所述肺结节良性对象的呼气和所述肺结节恶性对象的呼气，进行肺结节良恶性标志物一次筛选，得到差异标志物集合。

具体的，一次筛选的过程可以包括：

S1201、通过气相色谱仪联用质谱对肺结节良性对象的呼气和肺结节恶性对象的呼气进行检测，获得肺结节良性对象的第一呼气化合物谱图以及肺结节恶性对象的第二呼气化合物谱图。

具体的，可以通过气相色谱仪联用质谱对肺结节良性对象的呼气以及肺结节恶性对象的呼气进行检测，获得肺结节良性对象的第一化合物谱图信号，以及肺结节恶性对象的第二化合物谱图信号，然后去除第一化合物谱图信号和第二化合物谱图信号的噪声，得到噪声去除后的第一化合物谱图信号和噪声去除后的第二化合物谱图信号。

可以理解的是，为了降低仪器检测波动、环境干扰和人为误差对谱图的影响，提高数据分析结果的稳定性与有效性，在开始数据分析之前可以对谱图数据进行预处理，预处理的过程可以包括噪声去除和基线校正。

具体的，针对第一化合物谱图信号和第二化合物谱图信号中的每个化合物谱图信号，若化合物谱图信号中存在目标信号点，将目标信号点的两个相邻信号点的信号均值代替所述目标信号点的信号值，以获得噪声去除后的化合物谱图信号。

其中，目标信号点的信号值大于目标信号点的任意相邻信号点的信号值的预设信号比率。

可以理解的是，化合物谱图信号中存在Spike，Spike表示噪声引起的突出尖峰，在谱图信号上表现为连续三个点形成一个形如三角的尖峰，因此可以设定一个阈值ratio，作为预设信号比率，当检测到某个点的信号值大于相邻两点信号值的ratio倍时，则认为该点是采样噪声，使用相邻两点信号的均值替代该异常点，即可消除Spike。

进一步的，对噪声去除后的第一化合物谱图信号和噪声去除后的第二化合物谱图信号进行基线校准，得到基线校准后的第一化合物谱图信号和基线校准后的第二化合物谱图信号。

可以理解的是，受仪器本身影响，谱图数据中的基线值通常会逐渐偏离0，使峰的检测及定量过程被影响，那么基线漂移可以进行拟合，并用拟合得到的曲线进行校准。

具体的，化合物谱图信号的基线校准过程可以包括：

针对噪声去除后的第一化合物谱图信号和噪声去除后的第二化合物谱图信号中的每个化合物谱图信号，选择化合物谱图信号中的非峰位置的信号，并基于非峰位置的信号点，利用下式构建化合物谱图信号的基线校准曲线：

其中，为化合物谱图信号的基线值随时间t变化的基线校准曲线，为基线校准曲线的多项式最高阶数，为第n系数，可以通过最小二乘法对化合物谱图信号拟合得出。

针对噪声去除后的第一化合物谱图信号和噪声去除后的第二化合物谱图信号中的每个化合物谱图信号，将化合物谱图信号减去其基线校准曲线，得到基线校准后的化合物谱图信号。

再进一步的，基于基线校准后的第一化合物谱图信号，绘制肺结节良性对象的第一呼气化合物谱图，并基于基线校准后的第二化合物谱图信号，绘制肺结节恶性对象的第二呼气化合物谱图。

具体的，对校正后的谱图数据进行绘制如图2所示，每种颜色均代表一个呼气色谱谱图，横坐标表示保留时间（单位为min/分钟），纵坐标为色谱信号响应值。所绘制的谱图能够方便检查数据是否还存在问题，是否按预期完成数据校正，能否达到后续数据处理的要求。

S1202、针对第一呼气化合物谱图和第二呼气化合物谱图中的每个呼气化合物谱图，对呼气化合物谱图进行归一化处理、峰剔除处理、峰填充处理以及Z-score处理，得到标准化的呼气化合物谱图。

具体地，在对所述呼气化合物谱图进行归一化处理和峰剔除处理的过程中，对呼气化合物谱图进行归一化处理的过程可以为：

通过分析呼气化合物谱图中的峰形状、峰高度、峰面积等特征，确定样品中存在的化合物及其相对含量。其中，峰处理可以包括识别、拟合、提取。

以样本为维度，对各个VOC进行峰面积归一化处理，将峰面积转为相对含量值，从而得到归一化处理后的呼气化合物谱图。归一化公式为：

其中，可以表示第i个VOC的峰面积，可以表示第i个VOC的峰面积占总峰面积的比例，为所有VOC的数量。

进一步的，可以使用质谱信息对照表查找保留时间的对应代谢物信息，完成VOC的定性分析，定性完成后，使用KEGG（Kyoto Encyclopedia of Genes and Genomes）数据库查询这些代谢物的常见数据库名称、分类信息、参与通路等注释信息。

对归一化处理后的呼气化合物谱图进行峰剔除处理的过程可以为：

将呼气化合物谱图中，化合物峰面积在大部分样本中缺失的化合物峰剔除，得到峰剔除处理后的呼气化合物谱图。

具体的，可以设置预设阈值缺失比例，将化合物峰面积在大于总样本的预设阈值缺失比例的化合物峰剔除。

可以理解的是，由于受试者和采样环境的差异，导致每个样本检出的代谢物峰也存在差异，部分化合物/代谢物会因为其浓度过低或受背景噪声干扰严重而未能被算法识别，最终导致其峰面积为零。这类峰只在少部分样本中有面积数值，大部分样本数值缺失。当该峰的值在大部分样本缺失时，会导致数据分析方法有误差或失效，因此需要将此类峰剔除。

对峰剔除处理后的呼气化合物谱图进行峰填充处理的过程可以为：

对呼气化合物谱图的各个样本缺失化合物峰进行填充，得到峰填充处理后的呼气化合物谱图。

其中，每个样本缺失化合物峰在至少一个样本中的峰面积值为0，但缺失数量不超过总样本的预设阈值缺失比例。

可以理解的是，尽管剔除了缺失值较多的峰，保留的峰仍然会存在部分缺失值，需要对缺失值进行填充，否则会影响到后续分析结果的准确性。具体可以使用组内非0最小值的1/2对缺失值进行填充，保证组间的差异。

对峰填充处理后的呼气化合物谱图进行Z-score处理的过程可以为：

在峰维度上对数据进行Z-score处理，使数据映射到标准正态分布上，即均值为0，标准差为1，目的是在后续建模过程中，使每个峰的权重一致，消除数值量级带来的偏差。

其中，Z-score公式为：

其中，表示数据均值，表示数据标准差，在峰填充处理后的第i个VOC的峰面积，表示在特征维度进行Z-score后的VOC的峰面积。

S1203、计算标准化后的呼气化合物谱图中的每个化合物峰的假阳发现率FDR值和变量投影重要性指标VIP值，将标准化后的呼气化合物谱图中FDR值小于预设FDR阈值且VIP值大于预设VIP阈值的化合物峰对应的化合物确定为差异标志物，并组合各个差异标志物得到差异标志物集合。

具体的，针对标准化后的呼气化合物谱图中的每个化合物峰，通过将化合物峰在标准化后的第一呼气化合物谱图中的峰值，与化合物峰在标准化后的第二呼气化合物谱图中的峰值进行对比，确定所述化合物峰的p值以及VIP值，并对该p值转换得到化合物峰的FDR值。

可以理解的是，VOC矩阵数据是连续数值型，数据分布随机。通过混合使用独立T检验（Independent T-Test）和秩和检验（Rank Sum Test）进行单变量分析，具体为若代谢物的数据满足正态分布，则使用独立T检验计算p值（P value），反之则使用秩和检验。进一步的，通过使用BH（Benjamini-Hochberg)法将P值转换成FDR，利用FDR来降低假阳性差异代谢物。

其中，BH法的FDR计算方式如下式表示：

其中，为检验的次数，为当前次检验的p值在所有检验中的排名。

在计算VIP值的过程中，可以使用OPLS-DA（Orthogonal Projections to LatentStructures Discriminant Analysis）对数据进行多变量分析，并使用OPLS-DA得分散点图直观展示两组的区分度，OPLS-DA得分散点图如图3所示。图3中横坐标t[1]P表示第一主成分的预测主成分得分，展示样本组间差异；纵坐标t[1]O表示正交主成分得分，展示样本组内差异；每个散点代表一个样本，散点不同颜色表示不同的实验分组，红色为恶性结节样本，蓝色为良性结节样本，样本间横向距离越远说明组间差异越大，纵向距离越近说明组内重复性越好；红/蓝色椭圆阴影为不同分组的95%置信椭圆区间，可以理解为一个样本分组的分布空间，椭圆阴影外的样本可以理解为5%的离群值。

使用OPLS建立一个回归模型，将X和Y之间的线性关系建模，X表示VOC特征矩阵，矩阵的行代表样本，矩阵的列代表VOC，Y代表分类结果。在OPLS模型中，使用特征提取的方式，将X和Y投影到主成分和残差空间。OPLS的目标是从X中提取主要的相关性信息，并将其与不相关的信息进行分离。使用正交分解，将OPLS模型扩展到分类问题，通过引入类别信息，将模型转化为判别模型。

其中，X的矩阵分解为：

其中，X为预测变量，T为X的得分矩阵，为X的载荷矩阵，F为X的残差矩阵。

Y的矩阵分解为：

其中，Y为预测变量，T为X的得分矩阵，为Y的载荷矩阵，G为Y的残差矩阵。

正交化处理提取主要相关信息：

其中，为X的正交化得分矩阵，为Y的正交化得分矩阵。

OPLS-DA的判别模型为：

其中，为Y的正交化得分矩阵，X为输入变量矩阵，B为回归系数，表示预测模型的权重系数矩阵，E为残差矩阵。

进一步的，使用单变量分析产生的FDR和多变量分析产生的VIP值进行差异代谢物筛选。

其中，VIP值的计算公式为：

其中，表示第j个预测变量的VIP值，为化合物的数量，为第i个化合物的权重，权重来自于权重系数矩阵B，表示第i个化合物中第j个预测变量的系数。

更进一步地，在计算每个化合物峰的FDR值和VIP之后，可以通过设置FDR阈值和VIP阈值进行差异标志物的确定。

具体的，预设FDR阈值与预设VIP阈值均可以自定义，如预设FDR阈值为0.05，预设VIP阈值为1，那么FDR值小于0.05且VIP值大于1的所有化合物可以确定为差异标志物。

其中，差异标志物集合所包括的各种VOC如表1所示：

表1 差异标志物集合所包括的各种VOC

由表1可见，基于肺结节恶性患者和良性结节患者呼气数据，成功得到54个潜在的肺部结节良恶性诊断标志物，统计分析发现这些VOCs在肺部恶性结节患者和良性结节患者之间存在显著差异（FDR < 0.05），差异化水平可以是增加水平、减少水平，或与对照相比缺乏VOC。

这些VOC主要可以分为几大类，包括烷烃类、芳香烃类、有机硫化物、酮类和醛类等。其中烷烃类占比最高，包含己烷、3-乙基己烷、4-甲基辛烷等。芳香烃类占比其次，包含邻二甲苯、3-乙基甲苯、丙基苯、1-甲基萘等。此外还有部分的酮类，如2-戊酮、2-丁酮、环己酮等。部分醛类，如己醛、壬醛、庚醛等。以及醇类，如1-丙醇，异丙醇和有机硫类1-(甲硫基)丙烷和其它类型的化合物，如2,5-二甲基呋喃、乙腈和4-乙氧基苯甲酸乙酯等。

其中，通过分析发现一组VOC分子在肺部恶性结节中的浓度明显高于肺部良性结节人群，这些VOC分子包括壬醛、己醛、2-戊酮和1-丙醇等，该结果表明肺部恶性结节人群中某些代谢通路改变导致这些VOC分子在人体内的浓度升高。此外，通过分析发现了另一组VOC分子，在肺部恶性结节人群中的浓度明显低于肺部良性结节人群，这些VOC分子包括乙腈、异戊二烯、2丁酮等，该结果表明肺部恶性结节人群中某些代谢通路改变导致这些VOC分子在人体内的浓度降低。

进一步的数据分析显示，这些VOC分子的浓度与肺部结节的发展程度之间存在相关性。特别是，己烷、己醛的浓度与肺部结节的大小呈正相关，而乙腈和2丁酮的浓度与肺部结节的大小呈负相关。研究结果表明，呼气中的VOC分子在肺结节的发生和发展中能作为生物标志物去预测疾病的发生和严重程度。

步骤S130、通过融合随机森林算法和递归特征消除结合交叉验证算法，对差异标志物集合进行肺结节良恶性标志物二次筛选，得到诊断标志物集合。

具体的，递归特征消除结合交叉验证算法（Recursive feature eliminationwith cross-validation, RFECV）是一种贪婪的优化算法，旨在找到性能最佳的特征子集。

可以理解的是，由于一次筛选所得到的差异标志物集合中包含较多VOC，为更准确评估肺结节良恶性的风险，可以在差异标志物集合的基础上进一步进行肺结节良恶性标志物二次筛选，缩小差异代谢物数量，以获取与肺结节良恶性更强相关的标志物。

步骤S140、基于诊断标志物集合和多个样本，利用VOC风险评分法构建肺结节恶性风险评估模型。

本实施例提供的肺结节恶性风险评估的模型构建方法，通过获取肺结节良性和恶性对象的呼气样本，进行一次筛选，得到差异标志物集合，并进一步通过融合随机森林算法和递归特征消除结合交叉验证算法，对差异标志物集合进行肺结节良恶性标志物二次筛选，得到诊断标志物集合，从而基于诊断标志物集合和多个样本，利用VOC风险评分法构建肺结节恶性风险评估模型，以通过模型进行肺结节恶性风险评估。由此可见，通过采集呼气的方式进行肺结节良恶性风险分析，并根据呼气代谢物与肺结节良恶性之间的相关性进行了两次筛选，保证了肺结节恶性风险分析结果的准确性和可靠性，从而高效辅助医生判断待分析对象肺结节的良恶性。

本申请的一些实施例中，对上述步骤S130、通过融合随机森林算法和递归特征消除结合交叉验证算法，对差异标志物集合进行肺结节良恶性标志物二次筛选，得到诊断标志物集合的过程进行介绍，该过程可以包括：

S1、构建以差异标志物集合中的每个VOC作为特征的特征集合。

S2、通过特征集合进行随机森林建模，得到初始化的随机森林模型，并在特征集合的测试集上计算随机森林模型的性能评分。

具体的，随机森林模型的性能评分可以为Accuracy值，计算方式可以是正确分类的样本数量除以总的样本数量。

S3、计算每个特征在随机森林模型中的平均减少不纯度，并在特征集合的训练集上剔除平均减少不纯度最小的特征，以更新随机森林模型。

其中，每更新一次随机森林模型，特征集合的测试集和训练集均轮替一次。

可以理解的是，为了评估移除特征后模型的性能，RFECV会使用交叉验证，在交叉验证的每一轮中，将数据集等比例划分成K份，以其中的一份作为测试数据，其他的K-1份数据作为训练数据，随后依次轮替。RFECV会在训练集上进行特征消除，并在测试集上评估模型性能。这个过程会重复进行，每次使用不同的训练集和测试集。

具体的，平均减少不纯度可以作为每个特征的重要性得分，用于衡量该特征对于随机森林模型性能的贡献，因此在更新时，可以根据特征的重要性得分，选择一个最不重要的特征进行剔除。

其中，计算每个特征在随机森林模型中的平均减少不纯度的过程可以包括：

S4、在特征集合的测试集上计算更新后的随机森林模型的性能评分，若性能评分与随机森林模型在更新前的性能评分相同，确定更新后的随机森林模型对应的特征集合为诊断标志物集合，否则返回执行S3。

可以理解的是，由于每次更新是剔除平均减少不纯度最小的特征，因此随机森林模型的性能评分会上升（至少不会下降）。如果随机森林模型的性能评分不再上升时，则与更新前的性能评分相同，那么可以表明随机森林模型的性能达到最优状态，可以确定更新后的随机森林模型对应的特征集合为诊断标志物集合。

除此之外，终止更新的条件还可以是特征数量。

具体的，在特征集合的测试集上计算更新后的随机森林模型的性能评分之后，若更新后的随机森林模型对应的特征集合中的特征数量达到预设数量，在多次更新的随机森林模型中，选择性能评分最高的随机森林模型所对应的特征集合，作为诊断标志物集合。

本实施例提供的肺结节恶性风险评估的模型构建方法，通过融合随机森林算法和递归特征消除结合交叉验证算法，对差异标志物集合进行肺结节良恶性标志物二次筛选，在每次随机森林模型更新下，剔除最不重要的特征，以使剩下的特征更为关键，所得到的VOC对肺结节恶性风险评估更为重要。

本申请的一些实施例中，对上述步骤S140、基于诊断标志物集合和多个样本，利用VOC风险评分法构建肺结节恶性风险评估模型的过程进行介绍，该过程可以包括：

S1、统计每个样本中所述诊断标志物集合中每个VOC的相对含量，并计算每个VOC对恶性结节判定准确性造成影响的权重系数。

其中，每个样本中所述诊断标志物集合中每个VOC的相对含量可以是经过标准化的VOC相对含量。

具体的，可以使用逻辑回归来进行关联分析，标准化后的VOC相对含量为自变量，是否为恶性结节作为因变量，从而得到每个VOC与疾病的权重系数，该系数表示VOC对恶性结节判定准确性的影响程度。

计算每个VOC对恶性结节判定准确性造成影响的权重系数的具体过程可以包括：

S11、构建线性回归预测模型。

其中，所述线性回归预测模型的表达函数为：

其中，为预测概率值，为所述线性回归预测模型的参数向量，为输入特征向量。输入特征向量可以由单个样本中所述诊断标志物集合中各个VOC的相对含量组成。

具体的，使用一个假设函数来建立输入特征和输出标签之间的关系。假设函数采用线性回归的形式，通过对输入特征进行加权求和，并通过逻辑函数进行转换，将线性回归的输出转化为概率值。

S12、以对数似然损失函数作为优化目标，利用梯度下降算法迭代更新所述线性回归预测模型的参数向量的各个参数，直至达到预设收敛条件时，确定所述线性回归预测模型的参数向量的每个参数为每个VOC对恶性结节判定准确性造成影响的权重系数。

具体的，为了评估模型的预测效果，逻辑回归可以使用对数似然损失函数作为优化目标。其中，对数似然损失函数如下：

其中，表示损失函数，表示样本数量，表示第i个样本的真实标签，表示第i个样本的特征向量。

可以理解的是，为了计算每个特征的权重系数，可以使用梯度下降算法进行优化。梯度下降算法通过迭代更新参数，使损失函数最小化。梯度下降算法的参数更新公式如下：

其中，表示第j个参数，表示学习率，表示损失函数对参数的偏导数。

具体的，预设收敛条件可以为最大预设迭代次数，或梯度的模（或范数）小于某个阈值（例如，梯度的大小小于1e-6）。

S2、根据各个样本中所述诊断标志物集合中的各个VOC的所述权重系数及相对含量，确定高风险阈值和低风险阈值。

具体的，根据各个样本中所述诊断标志物集合中的各个VOC的所述权重系数及相对含量，确定高风险阈值和低风险阈值的过程可以包括：

S21、针对每个样本，将所述样本中的所述诊断标志物集合中每个VOC的所述权重系数，乘以该个VOC的相对含量，得到该个VOC的风险评估得分。

S22、针对每个样本，将所述样本中的所述诊断标志物集合中各个VOC的风险评估得分累加，得到所述样本的患病风险值。

具体的，样本的患病风险值的计算方式如下：

其中，为样本的患病风险值，为sigmoid函数，是样本的第i个VOC的相对含量，是第i个VOC对应的权重，n为诊断标志物集合中的VOC数量。

S23、在各个样本的患病风险值中确定离群值。

其中，所述离群值包括恶性肺结节下界限离群值和良性肺结节上界限离群值。

具体的，可以通过DBSCAN聚类算法在各个样本的患病风险值中确定离群值，该过程可以包括：

S231、构建各个样本的患病风险值的数据点集。

具体的，数据点集可以为，并且可以确定算法参数：预设邻域半径和预设最小点数MinPts。

S232、针对数据点集内的每个数据点，计算在所述数据点的预设邻域内的数据点数量，若所述数据点的预设邻域内的数据点数量不小于预设最小点数，确定所述数据点为核心点。

S233、针对数据点集内的每个核心点，确定在所述核心点的所述预设邻域内的非核心点的数据点为边界点。

可以理解的是，通过S232-S233的过程，所有直接或间接与核心点相连的点形成一个簇。边界点和核心点都属于同一个簇。

S234、确定数据点集内既不为核心点也不为边界点的数据点为离群点，并将每个离群点对应的患病风险值确定为离群值。

可以理解的是，在数据点集内不能与边界点和核心点形成簇的数据点，既不是核心点也不是边界点，因此为离群点，从而可以将离群点对应的患病风险值确定为离群值。

S24、在所有样本的患病风险值中剔除所有恶性肺结节下界限离群值，并在剩余样本的患病风险值中将检验出恶性肺结节敏感性最高的阈值，作为高风险阈值。

S25、在所有样本的患病风险值中剔除所有良性肺结节上界限离群值，并在剩余样本的患病风险值中将检验出良性肺结节特异性最高的阈值，作为低风险阈值。

S3、以诊断标志物集合作为模型风险评估分析因素，并基于诊断标志物集合中各个VOC对恶性结节判定准确性造成影响的权重系数、高风险阈值和低风险阈值，构建肺结节恶性风险评估模型。

具体的，肺结节恶性风险评估模型可以将恶性肺结节患病风险程度，以高风险阈值和低风险阈值分为三组，分别为低于低风险阈值的低风险组，介于高风险阈值和低风险阈值之间的中风险组，以及高于高风险阈值的高风险组。阈值设置示意图如图4所示，不同颜色代表不同分组样本的风险得分概率分布（蓝色为恶性结节样本的风险得分概率分布，绿色为良性结节样本的风险得分概率分布）；横坐标表示肺结节恶性风险得分，纵坐标表示数据点的相对频率分布密度，峰的面积积分是概率（总面积始终是1）；两条红色虚线为根据此图确定的风险得分阈值，其中，左侧红线用于区分低风险/中风险样本，右侧红线用于区分中风险/高风险样本。

本实施例提供的肺结节恶性风险评估的模型构建方法，利用风险评分法并针对诊断标志物集合确定两个风险阈值，以应用于肺结节良恶性风险分层，从而去适用不同的应用场景，比如临床癌症筛查过程中需要高灵敏度保证尽可能多的早期癌症患者被检测出来，从而提高治疗成功率和生存率。对确诊测试来说，高特异性可以确保只有真正携带致病基因的个体被诊断为阳性，能够避免不必要的焦虑和可能的误诊。

本申请的一些实施例中，对前述实施例提到的诊断标志物集合进行进一步介绍。对于218例恶性肺结节患者和242例良性肺结节患者所得到的呼气数据集中，所得到的诊断标志物集合具体包括13个VOC。

具体为2个芳香烃类化合物、2个烷烃类化合物、3个酮类化合物、2个醛类化合物、1个烯烃类化合物以及3个其它类化合物。

其中，所述2个芳香烃类化合物选自芳香烃类候选标志物集合，所述芳香烃类候选标志物集合包括邻二甲苯、1-甲基萘、3-乙基甲苯、苯、乙苯、丙苯、三甲基苯、1-甲基-3-丙基苯和对二甲苯；

所述2个烷烃类化合物选自烷烃类候选标志物集合。所述烷烃类候选标志物集合包括己烷、环己烷、2,4-二甲基庚烷、4-甲基辛烷、正十二烷、辛烷、甲基环己烷、丙基环己烷、2-甲基庚烷、丙烷、丁烷、2-甲基戊烷和戊烷；

所述3个酮类化合物选自酮类候选标志物集合。所述酮类候选标志物集合包括2-戊酮、2-丁酮、丙酮、2,3-己二酮和环己酮；

所述2个醛类化合物选自醛类候选标志物集合。所述醛类候选标志物集合包括己醛、壬醛、庚醛和辛醛；

所述1个烯烃类化合物选自烯烃类候选标志物集合。所述烯烃类候选标志物集合包括异戊二烯、正庚烷、苯乙烯和1-辛烯。

进一步的，通过风险评分算法在训练集上完成预测肺结节恶性风险评估模型的训练，使用测试集评估肺结节恶性风险评估模型的性能。最终得到肺结节恶性风险评估模型的AUC达到了91％，敏感性为84％，特异性为73％，ROC曲线如图5所示，肺结节恶性风险评估模型的性能如表2所示：

表2 肺结节恶性风险评估模型的性能参数

进一步的，在风险评估模型基础上，基于本实施例数据，通过设置不同阈值的方式，应用于肺结节良恶性风险分层，可以得到一个倾向高灵敏度的的阈值0.45，该阈值是在剔除恶性肺结节下界限离群值后，使敏感性最高的阈值，在该阈值下灵敏度为97％，特异性为62％。此外，还可以得到了一个倾向高保守度的阈值0.78，该阈值是在剔除良性肺结节上界限离群值后，特异性最高的阈值，在该阈值下灵敏度为57％，特异性为98％。基于这两个阈值，肺结节恶性风险评估模型将恶性肺结节患病风险程度分为三组：小于0.45为低分险组、0.45~0.78为中风险组，大于0.78则高风险组。

通过使用上述的肺结节恶性风险评估模型，可以更合理地分配资源，优先对高风险结节进行进一步的检查和治疗，避免对低风险结节进行过度诊疗，减少不必要的侵入性检查和治疗，如手术或活检，从而减少患者的痛苦和医疗成本。由此可见，与传统的临床评估方法相比，所建立的肺结节恶性风险评估具有无创、快速和可重复的优势，能够提供更准确和个体化的诊断结果，有助于恶性结节的早期诊断和治疗。

下面对本申请实施例提供的实现肺结节恶性风险评估的模型构建的装置进行描述，下文描述的实现肺结节恶性风险评估的模型构建的装置与上文描述的实现肺结节恶性风险评估的模型构建方法可相互对应参照。

参见图6，图6为本申请实施例公开的一种实现肺结节恶性风险评估的模型构建的装置结构示意图。

如图6所示，该装置可以包括：

呼气样本获取单元11，用于获取肺结节良性对象的呼气和肺结节恶性对象的呼气，以作为多个样本；

差异标志物筛选单元12，用于基于所述肺结节良性对象的呼气和所述肺结节恶性对象的呼气，进行肺结节良恶性标志物一次筛选，得到差异标志物集合；

诊断标志物二次筛选单元13，用于通过融合随机森林算法和递归特征消除结合交叉验证算法，对所述差异标志物集合进行肺结节良恶性标志物二次筛选，得到诊断标志物集合；

风险评估模型构建单元14，用于基于所述诊断标志物集合和所述多个样本，利用VOC风险评分法构建肺结节恶性风险评估模型。

可选的，所述诊断标志物二次筛选单元，包括：

可选的，该装置还包括：

可选的，所述平均减少不纯度计算单元，包括：

可选的，所述风险评估模型构建单元，包括：

可选的，所述权重系数计算单元，包括：

可选的，所述阈值确定单元，包括：

可选的，所述离群值确定单元，包括：

可选的，该装置还包括：

待测对象呼气获取单元，用于获取待测对象的呼气；

可选的，所述模型输出单元，包括：

本申请实施例提供的肺结节恶性风险评估的模型构建的装置可应用于肺结节恶性风险评估的模型构建的设备，如终端肺结节良恶性诊断分析系统。可选的，图7示出了肺结节恶性风险评估的模型构建的设备的硬件结构框图，参照图7，肺结节恶性风险评估的模型构建的设备的硬件结构可以包括：至少一个处理器1，至少一个通信接口2，至少一个存储器3和至少一个通信总线4；

在本申请实施例中，处理器1、通信接口2、存储器3、通信总线4的数量为至少一个，且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信；

处理器1可能是一个中央处理器CPU，或者是特定集成电路ASIC（ApplicationSpecific Integrated Circuit），或者是被配置成实施本发明实施例的一个或多个集成电路等；

存储器3可能包含高速RAM存储器，也可能还包括非易失性存储器（non-volatilememory）等，例如至少一个磁盘存储器；

其中，存储器存储有程序，处理器可调用存储器存储的程序，所述程序用于：

可选的，所述程序的细化功能和扩展功能可参照上文描述。

本申请实施例还提供一种存储介质，该存储介质可存储有适于处理器执行的程序，所述程序用于：

可选的，所述程序的细化功能和扩展功能可参照上文描述。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间可以根据需要进行组合，且相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种肺结节恶性风险评估的模型构建方法，其特征在于，包括：

基于所述诊断标志物集合和所述多个样本，利用VOC风险评分法构建肺结节恶性风险评估模型；

基于所述诊断标志物集合和所述多个样本，利用VOC风险评分法构建肺结节恶性风险评估模型，包括：

以所述诊断标志物集合作为模型风险评估分析因素，并基于所述诊断标志物集合中各个VOC对恶性结节判定准确性造成影响的权重系数、所述高风险阈值和所述低风险阈值，构建肺结节恶性风险评估模型；

所述根据各个样本中所述诊断标志物集合中的各个VOC的所述权重系数及相对含量，确定高风险阈值和低风险阈值，包括：

在所有样本的患病风险值中剔除所有良性肺结节上界限离群值，并在剩余样本的患病风险值中将检验出良性肺结节特异性最高的阈值，作为低风险阈值；

所述在各个样本的患病风险值中确定离群值，包括：

构建各个样本的患病风险值的数据点集；

2.根据权利要求1所述的方法，其特征在于，所述通过融合随机森林算法和递归特征消除结合交叉验证算法，对所述差异标志物集合进行肺结节良恶性标志物二次筛选，得到诊断标志物集合，包括：

3.根据权利要求2所述的方法，其特征在于，在所述特征集合的测试集上计算更新后的随机森林模型的性能评分之后，还包括：

4.根据权利要求2所述的方法，其特征在于，所述计算每个特征在所述随机森林模型中的平均减少不纯度，包括：

；

5.根据权利要求1所述的方法，其特征在于，所述计算每个VOC对恶性结节判定准确性造成影响的权重系数，包括：

；

6.根据权利要求1-5任一项所述的方法，其特征在于，所述诊断标志物集合包括13个VOC，具体为2个芳香烃类化合物、2个烷烃类化合物、3个酮类化合物、2个醛类化合物、1个烯烃类化合物以及3个其它类化合物，其中，

7.根据权利要求1-5任一项所述的方法，其特征在于，所述肺结节恶性风险评估模型进行辅助评估的过程，包括：

获取待测对象的呼气；

8.根据权利要求7所述的方法，其特征在于，将所述待测对象的呼气输入至所述肺结节恶性风险评估模型，输出所述待测对象的风险评估结果，包括：

9.一种肺结节恶性风险评估的模型构建装置，其特征在于，包括：

风险评估模型构建单元，用于基于所述诊断标志物集合和所述多个样本，利用VOC风险评分法构建肺结节恶性风险评估模型；

所述风险评估模型构建单元，包括：

模型构建单元，用于以所述诊断标志物集合作为模型风险评估分析因素，并基于所述诊断标志物集合中各个VOC对恶性结节判定准确性造成影响的权重系数、所述高风险阈值和所述低风险阈值，构建肺结节恶性风险评估模型；

所述阈值确定单元，包括：

低风险阈值确定单元，用于在所有样本的患病风险值中剔除所有良性肺结节上界限离群值，并在剩余样本的患病风险值中将检验出良性肺结节特异性最高的阈值，作为低风险阈值；

所述离群值确定单元，包括：

10.一种肺结节恶性风险评估的模型构建设备，其特征在于，包括存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如权利要求1-8任一项所述的肺结节恶性风险评估的模型构建方法的各个步骤。

11.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1-8任一项所述的肺结节恶性风险评估的模型构建方法的各个步骤。