CN103632162B

CN103632162B - 一种疾病相关的心电图特征选择方法

Info

Publication number: CN103632162B
Application number: CN201310403000.1A
Authority: CN
Inventors: 张战成; 董军
Original assignee: Suzhou Institute of Nano Tech and Nano Bionics of CAS
Current assignee: Suzhou Institute of Nano Tech and Nano Bionics of CAS
Priority date: 2013-09-06
Filing date: 2013-09-06
Publication date: 2017-05-03
Anticipated expiration: 2033-09-06
Also published as: CN103632162A

Abstract

本发明提供的心电图特征选择方法，将心电图分为NSVF四类分类系统，并将NSVF四类分类系统分解为NvS，NvV，NvF，SvV，SvF，VvF六个二分类器，在上述每个二分类器中，对每个特征按得分高低进行排序并形成候选特征集合，再从每个二分类器选择最优特征子集，依据最优特征子集对待测心电图样本进行预测，得到待测心电图样的类别。本发明提供的心电图特征选择方法，将特征得分由高到低排序后形成特征子集，并从每个二分类器选择最优特征子集，采用最优特征子集对待测心电图样本进行预测，得到待测心电图样的类别，提高了预测精度。

Description

一种疾病相关的心电图特征选择方法

【技术领域】

本发明涉及心电信号检测技术领域，尤其涉及一种疾病相关的心电图特征选择方法。

【背景技术】

心电图检查是诊断心律失常、心肌缺血的一种有效的方法，该方法具有无创伤、低成本的优势，在医院有较大的业务量，尤其在体检中心、远程会诊中心等机构，专职心电图医生每天的需要判读大量的心电图的，为减轻医生的工作负担，近年来计算机辅助的心电图自动分类识别系统越来越受到重视。

一套完整的心电图自动分类识别系统通常包含如下过程：数据采集、数据预处理、特征提取、分类器训练/预测。由于心电图的种类繁多，为了统一和规范心电图自动识别系统的评价准则，美国医疗器械促进协会（Association for the Advancement of MedicalInstrumentation；AAMI）将心电图的类别划分为五类：（1）N，正常心电图和传导阻滞类心电图；（S）S，室上性异常；（3）V，室性异常；（4）F，介于室性异常和正常之间的；（5）Q，无法明确区分的。实际分类中，因为Q类没有明显的统计规律，通常只针对NSVF这四类设计模式分类器。能否训练出一个健壮的具有良好的泛化能力的分类器直接影响后续的识别精度，而一套可以表征不同疾病的特征集是训练分类器的前提。

【发明内容】

本发明的目的在于提供一种疾病相关的心电图特征选择方法，该方法可以从众多的心电图特征中选择出能够提高分类识别精度的那些特征，剔除冗余特征，提高分类识别的精度。

为实现上述目的，本发明采用下述技术方案：

一种疾病相关的心电图特征选择方法，包括下述步骤：

步骤S110：依据AAMI评价标准，将心电图分为NSVF四类分类系统；

步骤S120：基于OvO的规则，将所述NSVF四类分类系统分解为NvS，NvV，NvF，SvV，SvF，VvF六个二分类器；

步骤S130：在上述每个二分类器中，对每个特征按得分高低进行排序；

步骤S140：上述得分由高到低排序后的所有特征子集形成候选特征集合；

步骤S150：使用SVM分类器训练上述每个二分类器，并从每个二分类器选择最优特征子集；及

步骤S160：所述最优特征子集对待测心电图样本进行预测，得到所述待测心电图样的类别。

在本实施例中，步骤S130中，在上述每个二分类器中，对每个特征按得分高低进行排序，具体为，在上述每个二分类器中，采用下述公式对每个特征进行评分，并根据得分高低进行排序，所述公式为：

其中，n⁺为正类的样本数，n^-为负类的样本数，和分别表示第i个正样本和第j个负样本的第k个特征，表示正样本的第k个特征的平均值，表示负样本的第k个特征的平均值，是两类的第k个特征的平均值，F(k)为计算得到的为第k个特征的得分。

在本实施例中，步骤S150中，使用SVM分类器训练上述每个二分类器，并从每个二分类器选择最优特征子集，具体为，以精度为选择最优特征子集的指标，所述精度最高的特征子集为最优特征子集，所述精度记为Accuracy，

其中，TP为正类被正确分为正类的样本数，TN为负类被正确分为负类的数量，FN为正类被错误分为负类的数量，FP为负类被错误分为正类的数量。

在本实施中，步骤S150中，使用SVM分类器训练上述每个二分类器，并从每个二分类器选择最优特征子集，具体为，以正样本灵敏度和负样本灵敏度的几何平均值为选择最优特征子集的指标，所述几何平均值最大的特征子集为最优特征子集，所述正样本灵敏度记为Se(Pos)，所述负样本灵敏度记为Se(Neg)，所述几何平均值记为g-mean，

采用上述技术方案，本发明的有益效果在于：

本发明上述实施例提供的心电图特征选择方法，将心电图分为NSVF四类分类系统，并将所述NSVF四类分类系统分解为NvS，NvV，NvF，SvV，SvF，VvF六个二分类器，在上述每个二分类器中，对每个特征按得分高低进行排序并形成候选特征集合，再从每个二分类器选择最优特征子集，依据所述最优特征子集对待测心电图样本进行预测，得到所述待测心电图样的类别。本发明提供的心电图特征选择方法，将特征得分由高到低排序后形成特征子集，并从每个二分类器选择最优特征子集，采用最优特征子集对待测心电图样本进行预测，得到待测心电图样的类别，从而提高了预测精度。

此外，本发明上述实施例提供的心电图特征选择方法，设计了一套特征评分的方法，计算每个特征对分类的贡献程度；同时，按得分高低将特征进行排序，并使用每个二分类器在特征子集中选择最优特征子集，提高了分类的灵敏度。

【附图说明】

图1为本发明实施例提供的心电图特征选择方法的步骤流程图。

【具体实施方式】

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及具体实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

请参阅图1，图1为本发明实施例提供的心电图特征选择方法的步骤流程图100，从图1中可见，心电图特征选择方法100包括下述步骤：

步骤S120：基于OvO的规则，将NSVF四类分类系统分解为NvS，NvV，NvF，SvV，SvF，VvF六个二分类器；

通常的分类算法都是针对两类分类问题的，实际应用中的多类问题通常使用一对一法（one-versus-one；OvO）将多个二分类器组装为多分类器；可以理解，本发明依据AAMI的评价标准，将心电图分为NSVF四类分类系统，可以将其分解为NvS，NvV，NvF，SvV，SvF，VvF六个二分类器。

在本发明提供的一较佳实施例中，采用下述公式对每个特征进行评分，并根据得分高低进行排序；

其中，n⁺为正类的样本数，n^-为负类的样本数，和分别表示第i个正样本和第j个负样本的第k个特征，表示正样本的第k个特征的平均值，表示负类的样本数的第k个特征的平均值，是两类的第k个特征的平均值，F(k)为计算得到的为第k个特征的得分。

可以理解，上述公式表示的是，如果正样本和负样本之间距离越远，正样本和负样本各自内部的离散程度越小，则该特征越容易使得正负两类分开，特征的得分也就越高。这种特征的评分模式是疾病类别相关的，同一个特征在不同的疾病对比组中可能得分不同，即特征的评分是某一类疾病区别于另一类疾病而言。

具体地，将得分由高到低排序后的所有特征按顺序逐个添加到当前选中的特征集中，以形成候选特征集合。

步骤S150：使用SVM分类器训练上述每个二分类器，并从每个二分类器选择最优特征子集；

在本发明提供的一较佳实施例中，使用SVM分类器训练上述每个二分类器，并从每个二分类器选择最优特征子集，具体采用以精度为选择最优特征子集的指标，精度最高的特征子集为最优特征子集，精度记为Accuracy，

其中，TP为正类被正确分为正类(True Positive)的样本数，TN为负类被正确分为负类(True Negative)的数量，FN为正类被错误分为负类(False Negtative)的数量，FP为负类被错误分为正类(False Positive)的数量。

在本发明提供的另一较佳实施例中，使用SVM分类器训练上述每个二分类器，并从每个二分类器选择最优特征子集，具体采用以正样本灵敏度和负样本灵敏度的几何平均值为选择最优特征子集的指标，所述几何平均值最大的特征子集为最优特征子集，所述正样本灵敏度记为Se(Pos)，所述负样本灵敏度记为Se(Neg)，所述几何平均值记为g-mean，

可以理解，对于正样本和负样本两类训练样本数量均衡的分类，可以是使用精度指标，而对于数量不均衡的分类使用几何平均值指标。

步骤S160：最优特征子集对待测心电图样本进行预测，得到待测心电图样的类别。

具体地，经步骤S150后，每个二分类器确定最优特征子集后，每个二分类器使用各自的最优特征子集对类别未知的测试样本进行预测，通过投票的方式决策，得票多的类别为预测的类别。

本发明上述实施例提供的心电图特征选择方法，将心电图分为NSVF四类分类系统，并将NSVF四类分类系统分解为NvS，NvV，NvF，SvV，SvF，VvF六个二分类器，在上述每个二分类器中，对每个特征按得分高低进行排序并形成候选特征集合，再从每个二分类器选择最优特征子集，依据最优特征子集对待测心电图样本进行预测，得到待测心电图样的类别。本发明提供的心电图特征选择方法，将特征得分由高到低排序后形成特征子集，并从每个二分类器选择最优特征子集，采用最优特征子集对待测心电图样本进行预测，得到待测心电图样的类别，提高了预测精度。

以下通过具体实施例进一步阐述本发明，这些实施例仅用于举例说明的目的，并没有限制本发明的范围。

实施例一

以MIT-BIH的心律失常数据库为例，验证本方法的有效性。整个数据集有48条30分钟左右的Holter二导联心电数据，其中4条记录是放置了起搏器的心电图的，需要单独处理，剩余的44用于心电图自动分类试验。

依据AAMI评价标准，将上述二导联心电数据分为NSVF四类分类系统，详见表1所示：

表1为MIT-BIH数据库心拍数量

DS1：101、106、108、109、112、114、115、116、118、119、122、124、201、203、205、207、208、209、215、220、223、230；

DS2：100、103、105、111、113、117、121、123、200、202、210、212、213、214、219、221、222、228、231、232、233、234

将44条记录平均划分为DS1和DS2，其中，DS1用来训练分类模型，DS2作为测试集生成测试报告，对比无特征选择和有特征选择的分类差异。

将经过NSVF四类分类系统，按照OvO的规则，分解为NvS，NvV，NvF，SvV，SvF，VvF六个二分类器；

试验中，我们使用表2中列出的基于间期的特征、基于形态的特征以及基于面积的特征作为候选特征。

表2为候选特征列表

其中，DS1中的22条记录在训练过程中使用留一法进行22折的交叉验证，即每折训练时，其中一条记录为验证集，其余的21条为训练集。22折汇总的混淆矩阵为分类评价依据，考虑到类别数量的不平衡，我们使用g-mean作为分类的性能指标，对每个特征按得分高低进行排序，形成候选特征集合，使用SVM分类器训练每个二分类器，并进行特征选择，确定最优参数和最优特征子集后，验证集上的g-mean指标如表3所示：

表3训练结果

以取得最优g-mean指标的模型为最优模型，将测试集进行特征选择后的分类结果如表4所示：

表4测试集上使用特征选择选择的测试结果

为了验证特征选择的试验效果，表5同时列出了没有使用特征选择的分类器的测试结果：

表5测试集上不使用特征选择的测试结果

参照表4和表5的对比结果，可以看到，使用特征选择选后，每类分类的灵敏度明显提高。

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，虽然本发明已以较佳实施例揭露如上，然而并非用以限定本发明，任何熟悉本专业的技术人员，在不脱离本发明技术方案范围内，当可利用上述揭示的技术内容作出些许更动或修饰为等同变化的等效实施例，但凡是未脱离本发明技术方案内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属于本发明技术方案的范围内。

Claims

1.一种疾病相关的心电图特征选择方法，其特征在于，包括下述步骤：

步骤S160：所述最优特征子集对待测心电图样本进行预测，得到所述待测心电图样本的类别；

步骤S130中，在上述每个二分类器中，对每个特征按得分高低进行排序，具体为，在上述每个二分类器中，采用下述公式对每个特征进行评分，并根据得分高低进行排序，所述公式为：

F (k) = \frac{{({\overset{&OverBar;}{x}}_{k}^{(+)} - {\overset{&OverBar;}{x}}_{k})}^{2} + {({\overset{&OverBar;}{x}}_{k}^{(-)} - {\overset{&OverBar;}{x}}_{k})}^{2}}{\frac{1}{n^{+} - 1} Σ_{i = 1}^{n^{+}} {(x_{i, k}^{(+)} - {\overset{&OverBar;}{x}}_{k}^{(+)})}^{2} + \frac{1}{n^{-} - 1} Σ_{j = 1}^{n^{-}} {(x_{j, k}^{(-)} - {\overset{&OverBar;}{x}}_{k}^{(-)})}^{2}}

2.根据权利要求1所述的心电图特征选择方法，其特征在于，步骤S150中，使用SVM分类器训练上述每个二分类器，并从每个二分类器选择最优特征子集，具体为，以精度为选择最优特征子集的指标，所述精度最高的特征子集为最优特征子集，所述精度记为Accuracy，

A c c u r a c y = \frac{T P + T N}{T P + F N + F P + T N}

3.根据权利要求1所述的心电图特征选择方法，其特征在于，步骤S150中，使用SVM分类器训练上述每个二分类器，并从每个二分类器选择最优特征子集，具体为，以正样本灵敏度和负样本灵敏度的几何平均值为选择最优特征子集的指标，所述几何平均值最大的特征子集为最优特征子集，所述正样本灵敏度记为Se(Pos)，所述负样本灵敏度记为Se(Neg)，所述几何平均值记为g-mean，

S e (P o s) = \frac{T P}{T P + F N}, S e (N e g) = \frac{T N}{F P + T N}; g - m e a n = \sqrt{S e (P o s) \times S e (N e g)}