一种血管认知障碍的关键影像标记物的提取方法
发明领域
本发明涉及神经影像标记物领域,具体地,本申请提供了一种血管认知障碍的关键影像标记物的提取方法。
背景技术
血管性认知功能障碍(vascular cognitive impairment,VCI)是指由脑血管病危险因素和脑血管疾病引起的一类认知功能损害综合征。随着人口老龄化,我国VCI的患病率日益升高,其可严重影响患者日常生活质量,使患者家属背负沉重的精神和经济负担。
VCI涵盖了起源于脑血管病变的轻度认知功能障碍至血管性痴呆的所有疾病阶段,根据临床表现分为三个亚型:非痴呆型血管性认知障碍(vascular cognitiveimpairment no dementia,VCIND)、血管性痴呆(vascular dementia,VaD)和混合性痴呆(mixed dementia,MD),其中VCIND是VCI最常见的亚型。根据所在团队牵头的中国认知和衰老研究表明VCIND占中国血管性认知障碍患者总数的42%,是其中最常见亚型。加拿大老年研究中心通过5年随访发现,46%的VCIND患者将进展为VaD。由此说明,对VCI患者进行早期发现、早期诊断、早期干预,
目前VCI的诊断及分型仍以临床表现及神经心理量表为主,主观性较大,不利于临床早期诊断和预防。大量研究报道血管认知障碍患者的脑结构及脑功能与正常受试间存在明显差异,有益于对VCI的诊断,提取简单且客观的影像学标记物具有一定意义。磁共振成像的不同模态数据可用于客观量化脑功能及结构的变化,但脑功能及脑结构等特征繁杂冗余。机器学习方法可以很好融合分析多模态冗余的特征,通过机器学习目标函数的设定约束模型并提取具有贡献的指标。而常用方法通常为有监督方法,模型鲁棒性无法得到充分的验证。常规机器学习方法推理过程较难根据VCI的神经影像特征等指标建立人可理解的含义,其可解释性往往不强。此外,文调研表明,目前尚无针对VCI的影像标记物提取和诊疗的有效方法。因此,有必要开发一种无监督,易解释,简单客观的多模态神经影像学标记物提取的方法。
发明内容
本发明所涉及的影像标记物提取方法仅利用患者结构核磁,弥散张量成像及静息态功能核磁影像数据。不涉及患者其他基本临床信息,如与受试的年龄、性别、职业、地域及是否合并患有基础病等,本专利只与受试者影像数据中脑结构、脑网络及脑功能的异常变化相关,因此本专利的应用不管受试者年龄、性别、地域、种族,可以在这种情境及研究中应用于不同人群进行提取。同时本发明提出的方法基于常规脑影像的结构、网络及功能的分析,结合机器学习算法分析高维特征间的相互作用,找出对VCI特异的特征。值得注意的是,这种影像标记物提取方法并非仅适合VCI一种疾病的分析。对于其他精神类疾病,其致病机制通常也是脑功能、结构及网络的异常,本影像标记物提取方法同时可以用于挖掘其他疾病的影像标记物,具有较广泛的应用且可以用于支持其他疾病的研究。
为了解决目前技术的不足,本发明创新性的使用无监督K均值聚类的方式开发了一种多模态神经影像标记物的提取方法,在众多的多模态神经影像数据的指标中找到关键的影像标记物。并将提取的标记物与临床量表回归证明了所选影像标记物是否可表征脑结构及脑功能的变化,与临床实际的相关性。本发明的目的是提供一种血管性认知障碍影像标记物的提取方法,整个影像标记物的提取方法和体系为VCI的早期精准诊治服务,为临床VCI脑机制的研究提供辅助和依据。
本发明方法的基本思路为:应用多模态神经影像的数据,首先对神经影像数据中可表征脑结构、网络及脑功能的指标的提取和预处理。整合全部的指标后输入到最小绝对值收敛和选择算子中(Least Absolute Shrinkage and Selection Operator,LASSO)为不同影像指标赋予权重,然后根据聚类算法的损失选择聚类数量和权重的阈值。将聚类数量和权重阈值输入到聚类算法中,通过分类任务的约束提取有效的影像标记物并给出标记物的最终权重,实现影像标记物的提取。将提取的影像标记物输入到相关向量回归(RelevantVector Regression,RVR)模型中预测神经量表的评分,评估其应用于临床的能力。
一方面,本申请提供了一种血管认知障碍的关键影像标记物的提取方法,所述方法包括:
1)获取血管性认知障碍患者及正常实验组的静息态功能磁共振成像数据及磁共振弥散张量成像数据,分析并提取静息态功能磁共振成像数据及磁共振弥散张量成像数据以获得多模态磁共振神经影像数据的影像指标;
2)多模态磁共振神经影像数据的影像指标的预处理;
3)影像指标的选择和模型的构建;
4)影像标记物的提取;
5)影像标记物与神经认知量表的回归分析。
进一步地,步骤1)包括:
1-1)获取血管性认知障碍患者及正常实验组的磁共振成像数据
根据纳入排除标准纳入符合条件的血管性认知障碍患者及正常实验组。采集过程中在头部周围填入填充物防止头动,并告知所有受试者放空大脑但不要睡着。使用西门子3T磁共振成像设备,采用32通道的头部线圈采集头部的图像,获取静息态磁共振成像数据及磁共振弥散张量成像数据。
1-2)分析和提取静息态功能像磁共振成像数据:
第一步,应用Matlab中的conn工具包中标准流水线对静息态功能像磁共振成像数据进行预处理,包括:功能像重新排列和展开,时间层校正,离群点识别,间接分割和标准化,功能和结构联合配准及基于6mm全宽半高的高斯核的平滑;
第二步,将平滑前和平滑后的数据输入到RESTPlus工具包中进一步处理,包括:去趋势,Friston 24、灰质白质及脑脊液协变量回归和滤波;
第三步,基于第二步的结果,结合AAL图谱获得功能像的指标:低频振动幅度、低频波动的分数幅度、波动的百分比幅度及肯德尔区域一致性系数;
第四步,基于第二步的结果,将处理后的数据输入到Gretna工具包中构建ROIs-ROIs的功能连接;基于功能连接和AAL图谱提取脑ROIs的图论影像指标:同配性、介中心度、度中心性、网络效率、节点聚类系数、节点效率、节点局部效率、节点最短路径长度、富人俱乐部及小世界指标;
1-3)分析和提取磁共振弥散张量成像数据:
第一步,Linux系统下基于Matlab中PANDA工具包的标准流水线对磁共振弥散张量成像数据进行预处理,包括:大脑掩膜的估计、图像裁剪、涡流校正及头部运动校正;
第二步,计算弥散张量参数的指标,并将扩散张量指标从个体空间配准到MNI标准空间;
第三步,结合PANDA工具包中提供的手动分割的白质图谱获得最终的弥散影像指标:分数各项异性、平均扩散率、轴向扩散率、径向扩散率及局部扩散均匀性;
进一步地,步骤2)包括:
当某个成像指标或某个患者数据缺少超过20%以上时,该指标或患者被排除;排除数据后,对于其他的缺失值,使用该指标的整体众数进行弥补;将所有指标结合在一起,根据如下公式计算获得标准化后的影像指标,保证变量处于统一量纲;对整体的指标进行乱序处理;
公式(1)中xi为指标中第i个值,ux为指标整体的均值,stdx为指标的标准差。
进一步地,步骤3)包括:
第一步,对所有影像指标进行特征筛选,验证每个指标是否符合方差同质性,如果方差相等,使用T检验来过滤掉有明显的差异的特征,否则使用Welch T检验;
第二步,在初步筛选出影像指标的前提下,应用LASSO回归算法进一步筛选出重要的特征,避免模型出现过拟合的现象;使用如下公式,获得每个影像指标的权重,即指标的贡献程度:
公式(2)中m为样本的个数,yi为第i个样本实际标签,xi为第i个样本的影像指标,w和Wi分别为影像指标的权重和第i个样本的影像指标的权重,为正则项,||wi||1为1范数;
第三步,设置聚类的数量和权重的阈值,使用网格搜索的方式来组织参数;聚类数量为1-11,权重阈值其中min和max分别为最小和最大值函数,coef为LASSO输出的指标权重值;将以上两个参数组合成网格,结合肘部法则和K均值聚类算法的损失函数定义参数,当损失曲线出现第一次拐点时,取该点的横坐标值作为指标阈值或聚类数量:
公式(3)中m为样本个数,xi为第i个样本的影像指标,代表第i个样本所属的簇对应的中心点;μ代表所有的簇的中心点;定义聚类数量及权重阈值后,建立最终的K均值聚类模型;
进一步地,步骤4)包括:
建立K均值聚类模型后,应用聚类模型可视化工具包对影像指标进行可视化,根据权重分布的不同,可视化最终有贡献的影像标记物及对应的权重值。
进一步地,步骤5)包括:
第一步,从多模态影像指标中提取有贡献的影像标记物,将特征和标签按照7:3的比例进行乱序和分配,70%作为训练集,30%作为测试集;为了防止可能存在的数据泄漏的情况,分别对训练集和测试集进行标准化处理;
第二步,将标准化的数据输入到RVR模型中,使用训练集进行训练,测试集进行测试;将预测的神经认知量表的评分与实际评分进行对比,通过线性回归和Pearson来验证两者之间的相关性。
另一方面,本申请提供了上述方法在血管认知障碍脑机制研究中的应用。
另一方面,本申请提供了上述方法在人群健康状态宏观统计或研究中的应用,所述应用不包含诊断目的。
上述应用的例子包括但不限于,对于特定人群血管性认知功能障碍发病可能性的研究,对于血管性认知功能障碍与其他疾病关联的研究等。
本申请第一次在血管认知障碍的影像标记物探索中应用无监督聚类模型来提取多模态影像中的神经影像标记物,发现fMRI与DTI结合的方法具有最高的敏感度和特异度,提取影像标记物与临床筛查中的神经量表具有较高的相关性,揭示了所提取的影像标记物的灵敏度和敏感性。所提取的影像标记物及提取方法可以为早期精准诊治服务,为临床VCI脑机制的研究提供辅助和依据,有一定推广意义及价值。
附图说明
图1聚类模型中具有影响力的影像标记物及其重要性:A.聚类认为是正常实验组所对应的权重情况;B.聚类认为是VCI所对应的权重情况。;
图2;静息态功能像和弥散张量成像模态下,影像标记物的脑区可视化:A.静息态功能像下影像标记物所在脑区可视化;B.弥散张量成像下影像标记物所在脑区可视化。
图3基于影像标记物预测神经认知量表的结果(A-G为不同预测结果);
图4本申请方法的技术路线图。
具体实施方式
本发明所涉及的影像标记物提取方法与年龄、性别、职业、地域及是否合并患有基础病等情况均无关,只与影像数据中脑结构、网络及功能的异常变化相关。同时本设计提出的方法基于常规脑影像的结构、网络及功能的分析,结合机器学习算法分析高维特征间的相互作用,找出对VCI特异的特征。值得注意的是,这种影像标记物提取方法并非仅适合VCI一种疾病的分析。对于其他精神类疾病,其致病机制通常也是脑功能、结构及网络的异常,本影像标记物提取方法同时可以用于挖掘其他疾病的影像标记物,具有较广泛的应用且可以用于支持其他疾病的研究。
实施例1 VCI的神经影像标记物提取方法的具体流程:
本申请VCI的神经影像标记物提取方法的基本流程如图4所示:
1)获取血管性认知障碍患者及正常实验组的静息态功能磁共振成像数据及磁共振弥散张量成像数据,分析并提取静息态功能磁共振成像数据及磁共振弥散张量成像数据以获得多模态磁共振神经影像数据的影像指标;
1-1)获取血管性认知障碍患者及正常实验组的磁共振成像数据
根据纳入排除标准纳入符合条件的血管性认知障碍患者及正常实验组。采集过程中在头部周围填入填充物防止头动,并告知所有受试者放空大脑但不要睡着。使用西门子3T磁共振成像设备,采用32通道的头部线圈采集头部的图像,获取静息态磁共振成像数据及磁共振弥散张量成像数据。
1-2)分析和提取静息态功能像磁共振成像数据:
第一步,应用Matlab中的conn工具包中标准流水线对静息态功能像磁共振成像数据进行预处理,包括:功能像重新排列和展开、时间层校正、离群点识别、间接分割和标准化、功能和结构联合配准及基于6mm全宽半高的高斯核的平滑。
第二步,不同的静息态磁共振影像指标的预处理存在一定的差异,需要根据指标选择平滑前后的数据来进一步处理。将平滑前/后数据输入到RESTPlus工具包中进一步处理,主要包括:去趋势、协变量回归(Friston 24,灰质白质及脑脊液)和滤波。
第三步,基于第二步的处理,结合AAL图谱获得功能像的指标:低频振动幅度(去趋势前平滑但不滤波)、低频波动的分数幅度(去趋势前平滑但不滤波)、波动的百分比幅度(去趋势前平滑并滤波)及肯德尔区域一致性系数(最后滤波和平滑)。
第四步,对预处理中平滑后的数据进行去趋势、协变量回归及滤波操作后,将处理后的数据输入到Gretna工具包中构建ROIs-ROIs的功能连接。基于功能连接和AAL图谱可以提取脑ROIs的图论影像指标:同配性、介中心度、度中心性、网络效率、节点聚类系数、节点效率、节点局部效率、节点最短路径长度、富人俱乐部(Rich Club)及小世界指标。
1-3)分析和提取磁共振弥散张量成像数据:
第一步,Linux系统下基于Matlab中PANDA工具包的标准流水线对磁共振弥散张量成像数据进行预处理,包括:大脑掩膜的估计、图像裁剪、涡流校正及头部运动校正。
第二步,计算弥散张量参数的指标,并将扩散张量指标从个体空间配准到MNI标准空间。
第三步,结合PANDA工具包中提供的手动分割的白质图谱获得最终的弥散影像指标:分数各项异性、平均扩散率、轴向扩散率、径向扩散率及局部扩散均匀性。
2)多模态磁共振神经影像数据的影像指标的预处理:
直接将多模态成像指标输入到模型中很难达到良好的效果,预处理是建模前必要的步骤。当某个成像指标或某个患者数据缺少超过20%以上时,该指标或患者将被排除。删除数据后,对于其他的缺失值,使用该指标的整体众数进行弥补。然后,将所有指标结合在一起,根据如下公式计算获得标准化后的影像指标,保证变量处于统一量纲。
其中xi为指标中第i个值,ux为指标整体的均值,stdx为指标的标准差。最后,对整体的指标进行乱序处理。
3)影像指标的选择和模型的构建:
第一步,对所有影像指标进行特征筛选,首先验证每个指标是否符合方差同质性,如果方差相等,使用T检验来过滤掉有明显的差异的特征,否则使用Welch T检验。
第二步,在初步筛选出影像指标的前提下,应用LASSO回归算法进一步筛选出重要的特征,避免模型出现过拟合的现象。优化如下公式,获得每个影像指标的权重,即指标的贡献程度。
其中m为样本的个数,yi为第i个样本实际标签,xi为第i个样本的影像指标,w和Wi分别为影像指标的权重和第i个样本的影像指标的权重,为正则项,||wi||1为1范数。
第三步,模型参数调整和建立。需要设置的参数主要为聚类的数量和权重的阈值,使用网格搜索的方式来组织参数。具体参数选择范围:聚类数量1-11,权重阈值
其中min和max分别为最小和最大值函数,coef为LASSO输出的指标权重值。将以上两个参数组合成网格,结合肘部法则和K均值聚类算法的损失函数来定义参数,当损失曲线出现第一次较大的拐点时,取该点的横坐标值作为指标阈值或聚类数量。
其中中m为样本个数,xi为第i个样本的影像指标,代表第i个样本所属的簇对应的中心点;μ代表所有的簇的中心点;定义聚类数量及权重阈值后,建立最终的K均值聚类模型。
4)影像标记物的提取:
建立K均值聚类模型后,应用聚类模型可视化工具包(https://github.com/YousefGh/kmeans-feature-importance)对影像指标进行可视化,根据权重分布的不同,可视化最终有贡献的影像标记物及对应的权重值。权重值的分布情况见图1。进一步对影像标记物所处的脑区进行可视化,可视化结果见图2。
5)影像标记物与神经认知量表的回归分析:
第一步,从多模态影像指标中提取有贡献的影像标记物,将特征和标签按照7:3的比例进行乱序和分配,70%作为训练集,30%作为测试集。为了防止可能存在的数据泄漏的情况,分别对训练集和测试集进行标准化处理。
第二步,将标准化的数据输入到RVR模型中,使用训练集进行训练,测试集进行测试。将预测的神经认知量表的评分与实际评分进行对比,通过线性回归和Pearson来验证两者之间的相关性,结果见图3。