CN113901805B

CN113901805B - 基于标签属性和特征增强的病案文本icd9代码自动分配方法

Info

Publication number: CN113901805B
Application number: CN202111202974.4A
Authority: CN
Inventors: 洪旭东
Original assignee: Yangtze River Delta Information Intelligence Innovation Research Institute
Current assignee: Yangtze River Delta Information Intelligence Innovation Research Institute
Priority date: 2021-10-15
Filing date: 2021-10-15
Publication date: 2025-01-28
Anticipated expiration: 2041-10-15
Also published as: CN113901805A

Abstract

本发明公开一种基于标签属性和特征增强的病案文本ICD9代码自动分配方法。将ICD9代码看成标签，其对应的文本描述作为标签属性，通过对标签属性和病案文本的语义编码获得标签属性特征及病案文本中每个词语的语义特征；为每个标签设置一个相关内容提取向量和标签语义向量，分别利用提取向量从病案文本中提取相关内容及语义特征，并利用共现关系，对提取到的相关特征进行特征增强；利用关注机制，针对不同标签，对提取到的多个相关内容语义特征、标签属性和语义特征自适应融合，得到最终的相关内容语义与标签语义表示；将相关内容语义特征与标签语义相比较，得到分类结果，并根据ICD9代码之间的层次关系，进行逐层负采样、参数训练和预测。

Description

基于标签属性和特征增强的病案文本ICD9代码自动分配方法

技术领域

本发明涉及一种基于标签属性和特征增强的病案文本ICD9代码自动分配方法。

背景技术

病案文本的内容是病人在医疗过程中的诊疗记录。其中，ICD9代码对应的是疾病和手术，一个病人在一次诊疗过程中可能会有多个疾病并经历多个手术。病案文本ICD9代码自动分配，是为病案文本自动分配相应的ICD9 代码。其中，一个病案文本可以被分配多个ICD9代码。

现有方法中，大多将每个ICD9代码看成一个标签，将病案文本ICD9 代码自动分配看成文本多标签分类问题，逐一判断每个ICD9代码与病案文本是否相关。比如，第一种方法中，为每个案ICD9代码设置1个相关内容提取向量，1个语义向量。针对每个ICD9代码，利用内容提取向量，从病案文本中提取相关内容获得其语义表示，与相应ICD9代码的语义向量进行比较，得到分类结果。此外其还对ICD9代码描述文本进行了语义编码，训练时让该编码结果与语义向量尽量接近。在测试时，针对未在训练集中出现的ICD9代码使用该编码的结果作为语义向量。第二种方法中，首先对ICD9 代码的描述文本进行编码，得到ICD9代码的内容提取向量，在此基础上进一步结合ICD9代码之间的共现和层次关系得到ICD9代码的语义向量，然后再针对每个ICD9代码进行相关内容提取和分类。第三种方法中，首先将 ICD9描述文本及共现关系的编码结果作为相关内容提取向量，额外还为每个ICD9代码定义了一个相关内容提取向量；然后针对每个ICD9代码，使用两个向量同时从病案文本中提取相关内容获得其语义特征表示并进行拼接；最后将拼接结果与相应的ICD9代码语义向量相比较，获得分类结果，在分类时其还利用了ICD9代码的层次结构，从上到下逐层进行分类，前一层的分类结果是后一层分类的依据。

但是，首先，由于病案文本的描述信息，即标签属性，对于从病案文本中提取相关内容、ICD9的代码的语义表示，都具有重要作用。但ICD9代码的描述中有限的内容可能不够全面准确的表示ICD9代码的含义，需要额外定义相关内容提取向量和ICD9代码语义向量，并分别与它们配合，才能更加准确的进行相关内容提取和ICD9代码语义表示。上述方法中只有第三种在提取病案文本相关内容时考虑了该情况，在ICD9代码语义表示时所有方法都没有考虑。

其次，不同ICD9代码，即不同疾病和手术，之间彼此关联。要判断要给病案文本是否对应一个ICD9代码，相关ICD9代码在病案文本中对应的内容至关重要。现有方法都只利用ICD9代码之间的关系，利用ICD9代码的标签属性，彼此进行特征增强，没有针对不同ICD9代码提取到的相关内容特征，进行彼此的特征增强。

再其次，ICD9代码在训练数据集中呈现明显的长尾分布现象，有的ICD9 代码对应的训练数据很少，参数难以学习，如果减少参数学习过程中对训练数据的依赖，现有方法都没有考虑。

最后，对不同ICD9代码，标签属性、特征增强的作用大小不同。例如一些训练数据很少的ICD9代码，通过训练数据很难获得ICD9代码的准确语义，则需要更多的标签属性信息；有些ICD9代码的描述文本，与实际数据的差别非常大，则标签属性的作用就很小；一些ICD9代码则需要更多与其他ICD9代码之间的关系，才能得到准确的分类结果。需要根据ICD9代码的具体含义对这些方面的信息进行自适应的融合，现有方法都没有考虑。尽管方法3针对所有ICD9代码，对分别通过标签属性和内容提取向量得到的相关内容语义特征表示，但是其只采用了简单拼接的方式。

发明内容

本发明的目的是提供一种基于标签属性和特征增强的病案文本ICD9代码自动分配方法，该方法能够更加准确全面地获得相关内容和ICD9代码的语义特征，更好地应对ICD9代码的长尾分布，大大提高了ICD9代码自动分配的准确率和召回率。

为了实现上述目的，本发明提供了一种基于标签属性和特征增强的病案文本ICD9代码自动分配方法，包括：

步骤1、从互联网上获取数据，包括病案文本及其对应的ICD9代码、 ICD9代码的描述文本、ICD9代码层次结构；去除病案文本和ICD9代码描述文本中出现次数小于2大于3000的单词，并将病案文本的长度处理成N，大于固定长度的截断，小于固定长度的补“PAD”字符串；随机从获取的数据中取出M个病案作为训练数据集，将其中的所有词语存入词典，其中词语的个数为V；

步骤2、使用Gensim工具，在所有训练集病案文本及ICD9代码的描述文本基础上，训练Skip-gram词向量，得到其中每个词对应的d维向量表示，构成词向量矩阵E∈R^V×d，将E作为ICD9描述文本对应的词向量矩阵 E_C∈R^V×d，病案文本对应的词向量矩阵E_D∈R^V×d的初值；

步骤3、根据ICD9代码的层次结构，将ICD9代码分成4个集合C¹、C²、 C³、C⁴；C⁴所有数据中病案文本对应的ICD9代码组成的集合，得到表示C⁴中ICD9代码和C³中ICD9代码之间的隶属关系；表示C⁴中第i个ICD9代码属于C³中第j个ICD9代码，采用同样的方式得到I³、I²；

步骤4、通过训练数据集获得C⁴对应矩阵表示C⁴中的第j个ICD9代码被分配给了训练集中第i个病案；通过得到

步骤5、通过ICD9代码共现矩阵生成算法生成C⁴集合对应的ICD9代码共现矩阵算法中的ω、f为正整数，p∈[0，1]；在此基础上再通过得到G³、G²、G¹；

步骤6、将每个病案文本表示为词语one-hot向量所组成的矩阵当第i个文档的第n个位置为第v个词时否则将C⁴中每个ICD9代码的描述文本表示成一个V维向量S_c,v的值为第v个词语在第c个ICD9代码描述文本中出现的次数；将其它集合中每个ICD9代码对应的描述文本表示为其中ch(c)表示c节点的直接子节点；

步骤7、将M个病案文本及对应的构成训练数据集，将训练数据集随机分成若干个大小为B的批量，并分批进行参数训练；

步骤8、反复执行10-20轮步骤7，得到各个参数的取值，以及最后一轮中每个病案文本的分类结果并进行持久化保存；

步骤9、将训练集中病案文本及对应的构成训练数据集，针对C²中 ICD9代码进行参数学习；由于病案文本的长尾分布，有的ICD9代码对应训练数据很少，参数难以训练，将根据病案文本C¹中的分类结果对C²中代码进行负采样；首先，对从高到低进行排序，取前Z¹个组成集合C(i)，进一步得到集合其中，ch(C(i))表示C(i) 的所有节点的直接子节点；然后，分别使用G²、C²、替换原先的G¹、C¹，重新执行步骤7和步骤8；重新执行步骤7时，将各个参数的初值设置为步骤8中得到的值；重新执行步骤8后，将得到新的参数、并持久化保存；

步骤10、将训练集中病案文本及对应的构成训练数据集，针对C³中 ICD9代码进行参数学习；首先，对从高到低进行排序，取前Z²个组成集合C(i)，进一步得到集合然后，分别使用G³、C³、替换原先的G¹、C¹，重新执行步骤7和步骤 8；重新执行步骤7时，将各个参数的初值设置为执行步骤9中得到的参数值；重新执行步骤8，得到新的参数、并持久化保存；

步骤11、将训练集中病案文本及对应的构成训练数据集，针对C⁴中 ICD9代码进行参数学习；首先，对从高到低进行排序，取前Z³个组成集合C(i)，进一步得到集合然后，分别使用G⁴、C⁴、替换原先的G¹、C¹，重新执行步骤7和步骤 8；重新执行步骤7时，将各个参数的初值设置为执行步骤10中得到的参数值；重新执行步骤8，得到新的参数、并持久化保存；

步骤12、分别使用步骤8、步骤9、步骤10、步骤11中得到的参数及C¹、G¹、 C²、G²、C³、G³、C⁴、G⁴初始化步骤7中的计算过程，将其中的替换为C¹、C²、C³、C⁴，得到针对C¹、C²、C³、C⁴的分类模型；

步骤13、针对每条测试数据，先执行步骤6，然后先后送入针对C¹、C²、C³、 C⁴的分类模型，将未曾见过的ICD9代码对应的U_c、V_c设置为0^d，得到4个模型的分类结果将的ICD9代码分配给相应的病案文本。

优选地，步骤7包括：

步骤7.1、将ICD9代码的描述文本作为ICD9代码的标签属性，针对C¹中每个ICD9代码，通过得到其中每个ICD9代码的标签属性特征

步骤7.2、针对C¹中的每个ICD9代码，使用(1)式对进行特征提取，得到标签属性特征新的表示其中，为参数矩阵；

步骤7.3、将针对C¹中的每个ICD9代码，根据C¹中ICD9代码之间的共现关系，即共现矩阵G¹，使用(2)式、(3)式对属性特征进行特征增强，得到增强后的标签属性特征其中，为参数矩阵；

步骤7.4、将针对C¹中的每个ICD9代码，通过关注机制对U_c进行自适应融合，U_c∈R^d时为额外定义的第c个ICD9代码的语义向量，初值为

融合的计算过程为(4)式、(5)式、(6)式和(7)式，其中，T_W∈R^d×d， A_W∈R^3×3d为参数矩阵，表示向量拼接，q∈R^3d，q′∈R³表示3个部分所占比例；每个ICD9代码将根据自身的特点决定融合比例，得到ICD9代码语义表示W_c；

t(x)＝sigmoid(T_WReLU(x)) (4)

步骤7.5、针对批量中的每个病案进行参数训练；

步骤7.6、按(24)式计算该批量对应的交叉熵损失，其中，表示训练集中第i个病案文本是否被分配了第c个ICD9代码；

步骤7.7、使用Adam优化算法，根据loss对参数E_C、U_c、 T_W、A_W、E_D、{CNN_l,k}_{l＝1:L,k＝1:K}、λ_T、R_T、V_c、T_H、A_H进行学习，学习率为μ。

优选地，步骤7.5包括：

步骤7.5.1、通过得到病案文本内容的词向量表示将送入多层卷积网络对病案文本进行特征提取，计算过程为(8)式和(9) 式；其中，CNN_lk表示第l层的第k个CNN，CNN_:,k对应的卷积核大小为size(k)；所有CNN_l,k的移动幅度都为1，输入通道数为d，输出通道数都为2*d；pad_k() 计算过程为：

如果size(k)不能被2整除，将在或的第1维上前后各增加 (size(k)-1)/2个0向量0^d；

如果size(k)能被2整除，则在或的第1维上往前增加 (size(k)-1)/2个0^d，往后增加size(k)/2个0^d；

经过每个CNN_l,k后将得到每个文本的表示L×K个CNN_lk将获得每个病案文本的所有语义表示

步骤7.5.2、针对第i个病案文本对应的中的每个ICD9代码，利用从中获得与其密切相关的内容及其的语义表示将都置为0^d，其计算过程为(10)式和(11)式；其中，λ_T∈[0,1]， R_T∈R^d×d为参数矩阵，的计算过程为(12)式、(13)式、(14)式和(15)式；其中，表示在步骤7.5.1中得到的第 i个病案文本中第n个词的所有语义向量，a_i,c,n,:∈R^(L×K)表示第c个ICD9 代码与第i个病案文本中第n个词的不同语义表示之间的紧密程度；表示第i个病案文本与第c个ICD9代码比较后得到第n个词语的语义表示，β_i，c,:∈R^N表示第c个ICD9代码与第i个病案文本中不同词语之间的紧密程度；

步骤7.5.3、针对中每个ICD9代码，使用(16)式对进行特征提取，得到

步骤7.5.4、针对中每个ICD9代码，根据ICD9代码之间的共现关系，即共现矩阵G¹，使用(17)式和(18)式对进行特征增强，得到

步骤7.5.5、针对中每个ICD9代码，额外通过进行相关内容提取，V_c∈R^d为第c个ICD9代码对应的相关内容提取向量，初值为从另一个角度得到第i个病案文本中与第c个ICD9代码相关的内容及其语义表示的计算过程为(12)式、(13) 式、(14)式和(15)式；

步骤7.5.6、针对中每个ICD9代码，通过关注机制对进行自适应融合，得到最终的第i个病案文本与第c个ICD9代码相关内容的语义表示H_i,c∈R^d；计算过程为(19)式、(20)式、(21)式和(22)式，其中，T_H∈R^d×d，A_H∈R^3×3d为参数矩阵，q′表示3个部分的融合比例，针对不同ICD9代码将有不同的取值；

t(x)＝sigmoid(T_H ReLU(x)) (19)

步骤7.5.7、针对中每个ICD9代码，使用(23)式，将H_i，c与W_c相比较，得到分类结果y_i，c∈[0，1]，y_i,c表示第i个病案文本被分配第c个ICD9 代码的概率；par(c)表示第c个ICD9代码的父节点，y_i,par(c)表示第i个病案文本为par(c)的比较结果；如果par(c)＝φ，y_i，par(c)＝1；

y_i，c＝y_i，par(c)sigmoid(W_cH_i，c ^T) (23)。

根据上述技术方案，首先，将ICD9代码看成标签，将ICD9代码对应的文本描述作为标签属性，通过对标签属性和病案文本的语义编码获得标签属性特征及病案文本中每个词语的语义特征；然后，为每个标签设置一个相关内容提取向量和标签语义向量，分别利用标签属性特征和相关内容提取向量从病案文本中提取相关内容及其语义特征，并利用不同ICD9代码之间的共现关系，对提取到的相关内容语义特征和标签属性特征进行特征增强；其次，利用关注机制，针对不同标签，对提取到的多个相关内容语义特征、标签属性和语义特征进行自适应融合，得到最终的相关内容语义与标签语义表示；最后，将相关内容语义特征与标签语义相比较，得到分类结果，并根据 ICD9代码之间的层次关系，进行逐层负采样、参数训练和预测。

本发明的其他特征和优点将在随后的具体实施方式部分予以详细说明。

具体实施方式

以下对本发明的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明，并不用于限制本发明。

本发明提供一种基于标签属性和特征增强的病案文本ICD9代码自动分配方法，包括：

其中，ICD9代码共现矩阵生成算法如下所示：

步骤6、将每个病案文本表示为词语one-hot向量所组成的矩阵当第i个文档的第n个位置为第v个词时否则将C⁴中每个ICD9代码的描述文本表示成一个V维向量S_c，v的值为第v个词语在第c个ICD9代码描述文本中出现的次数；将其它集合中每个ICD9代码对应的描述文本表示为其中ch(c)表示c节点的直接子节点；

步骤7、将M个病案文本及对应的构成训练数据集，将训练数据集随机分成若干个大小为B的批量，并分批进行以下过程：

步骤7.1、由于描述文本对于ICD9代码语义的刻画具有重要作用，将 ICD9代码的描述文本作为ICD9代码的标签属性，针对C¹中每个ICD9代码，通过得到其中每个ICD9代码的标签属性特征

步骤7.3、由于不同ICD9代码之间彼此关联，相关ICD9代码的属性能够有效丰富相应ICD9代码的语义表示，将针对C¹中的每个ICD9代码，根据C¹中ICD9代码之间的共现关系，即共现矩阵G¹，使用(2)式、(3)式对属性特征进行特征增强，得到增强后的标签属性特征其中，为参数矩阵；

步骤7.4、由于标签属性不能全面准确反映ICD9代码的语义，同时针对不同ICD9代码标签属性所起的作用大小也不尽相同，将针对C¹中的每个 ICD9代码，通过关注机制对U_c进行自适应融合，U_c∈R^d时为额外定义的第c个ICD9代码的语义向量，初值为

t(x)＝sigmoid(T_WReLU(x)) (4)

步骤7.5、针对批量中的每个病案进行参数训练；具体执行的过程为：

步骤7.5.2、针对第i个病案文本对应的中的每个ICD9代码，利用从中获得与其密切相关的内容及其的语义表示将都置为0^d，其计算过程为(10)式和(11)式；其中，λ_T∈[0,1]， R_T∈R^d×d为参数矩阵，的计算过程为(12)式、(13)式、 (14)式和(15)式；其中，表示在步骤7.5.1中得到的第 i个病案文本中第n个词的所有语义向量，a_i,c,n,:∈R^(L×K)表示第c个ICD9 代码与第i个病案文本中第n个词的不同语义表示之间的紧密程度；表示第i个病案文本与第c个ICD9代码比较后得到第n个词语的语义表示，β_i,c,:∈R^N表示第c个ICD9代码与第i个病案文本中不同词语之间的紧密程度；

步骤7.5.4、由于相关ICD9代码在病案文本中对应内容，对于判断1个 ICD9代码是否应该被分配给1个病案文本十分重要。将针对中每个 ICD9代码，根据ICD9代码之间的共现关系，即共现矩阵G¹，使用(17) 式和(18)式对进行特征增强，得到

步骤7.5.5、由于ICD9代码的文本描述可能不能全面准确的刻画ICD9 代码语义，将针对中每个ICD9代码，额外通过进行相关内容提取，V_c∈R^d为第c个ICD9代码对应的相关内容提取向量，初值为从另一个角度得到第i个病案文本中与第c个ICD9代码相关的内容及其语义表示的计算过程为(12)式、(13) 式、(14)式和(15)式；

步骤7.5.6、由于不同ICD9代码，标签属性的作用大小不同，将针对中每个ICD9代码，通过关注机制对进行自适应融合，得到最终的第i个病案文本与第c个ICD9代码相关内容的语义表示H_i,c∈R^d；计算过程为(19)式、(20)式、(21)式和(22)式，其中，T_H∈R^d×d，A_H∈R^3×3d为参数矩阵，q′表示3个部分的融合比例，针对不同ICD9代码将有不同的取值；

t(x)＝sigmoid(T_H ReLU(x)) (19)

步骤7.5.7、针对中每个ICD9代码，使用(23)式，将H_i,c与W_c相比较，得到分类结果y_i,c∈[0,1]，y_i,c表示第i个病案文本被分配第c个ICD9 代码的概率；par(c)表示第c个ICD9代码的父节点，y_i,par(c)表示第i个病案文本为par(c)的比较结果；如果par(c)＝φ，y_i,par(c)＝1；

y_i,c＝y_i,par(c)sigmoid(W_cH_i,c ^T) (23)。

步骤7.7、使用Adam优化算法，根据loss对参数E_C、U_c、 T_W、A_W、E_D、{CNN_l,k}_{l＝1:Lk＝1:K}、λ_T、R_T、V_c、T_H、A_H进行学习，学习率为μ。

由此可见，为了更加准确全面地获取相关内容和ICD9代码的语义表示，本发明一方面在获得相关内容语义和ICD9代码语义的过程中都使用了 ICD9代码的描述文本，即标签属性，并利用ICD9代码之间的共现关系，分别对提取到的相关内容语义特征和类别属性特征进行特征增强；

其次，为了更好的应对ICD9代码的长尾分布现象，针对不同的ICD9 代码，利用关注机制，对从多个不同角度获得的内容语义特征、标签语义特征进行自适应融合，并采用了针对标签的逐层采用负采样的方法进行训练，提升那些具有较少训练数据的ICD9代码的训练效果。

在本发明的一种具体实施方式中，

第1步：从https://mimic.mit.edu/获取数据，数据报告5张CSV表格：NOTEEVENTS.csv包括所有病人的病案文本，DIAGNOSES_ICD.csv包含每个病案文本对应的所有诊断相关的ICD9代码，PROCEDURES_ICD.csv包含每个病案文本对应的所有手术相关的ICD9代码，D_ICD_DIAGNOSES.csv 和D_ICD_PROCEDURES.csv包含所有ICD9代码的文本描述，从 https://www.cdc.gov/nchs/icd/icd9cm.htm获得ICD9代码的层次结构，以3列进行存储，第1列为子节点的ICD9代码，第2列为对应父节点的代码，第 3列为子节点ICD9代码对应的层次(1、2、3、4)。第1层ICD代码的父节为“φ”。去除病案文本和ICD9代码描述文本中出现次数大于1小于3000 的单词，加入词典并编号，共包含150229个。将病案文本的长度处理成4000，大于固定长度的截断，小于固定长度的补“PAD”字符串，将其中不在词典中的词语处理成“myunk”。此时利用pandas[4]工具包将获取数据处理成如下所示形式，其中TEXT为病案文本，LABELS为对应的ICD9\代码。随机从获取的数据中取出47724个病案作为训练数据集。

第2步：使用Gensim工具，在所有训练集病案文本及ICD9代码的描述文本基础上，训练Skip-gram词向量，将d设置为100，训练的轮次设置为10轮，得到其中每个词对应的100维向量表示，构成词向量矩阵 E∈R^150229×100。

第3步：根据ICD9代码的层次结构，将ICD9代码分成4个集合C¹、 C²、C³、C⁴，其中C⁴为第4层的ICD9代码集合，得到ICD9代码之间的隶属关系其中， |C⁴|、|C³|、|C²|、|C¹|的大小分别为8922、4755、1100、155。

第4步：通过训练数据集获得C⁴对应矩阵表示 C⁴中的第j个ICD9代码被分配给了训练集中第i个病案。通过得到

第5步：利用ICD9代码共现矩阵生成算法生成C⁴集合对应的ICD9代码共现矩阵将算法中的ω、p、f分别设置为400、0.8、800。在此基础上再通过得到G³、G²、 G¹。

第6步：将每个病案文本表示为词语one-hot向量所组成的矩阵将C⁴中每个ICD9代码的描述文本表示成一个V维向量将其它集合中每个ICD9代码表示为∑S_t∈ch(c)。ch(c)表示c节点的直接子节点。

第7步：使用pytorch将病案文本及对应的构成训练数据集，将训练数据集随机分成若干大小为32的批量，并分批进行以下过程：

第7.1步：将C¹中每个ICD9代码，送入词向量层得到其标签属性特征词向量层使用pytorch的torch.nn.Embedding实现，将Embedding的num_embeddings、embedding_dim分别设置为150229、100，参数初值设置为E。

第7.2步：针对C¹中的每个ICD9代码，使用(1)式对进行特征提取，得到标签属性特征新的表示W_c ¹∈R¹⁰⁰，其中为参数矩阵。ReLU函数使用pytorch中的nn.functional.relu函数实现。

第7.3步：针对C¹中的每个ICD9代码，根据C¹中ICD9代码之间的共现关系，即共现矩阵G¹，使用(2)(3)式对标签属性特征进行特征增强，得到增强后的标签属性特征

第7.4：针对C¹中的每个ICD9代码，通过关注机制对U_c进行融合。其计算过程为(4)(5)(6)(7)，sigmoid函数通过pytorch的 nn.functional.sigmoid函数实现，通过pytorch的torch.cat函数实现。得到C¹中每个ICD9代码的语义表示W_c∈R¹⁰⁰。

第7.5步：针对批量中每个病案文本执行以下过程：

第7.5.1步：将送入病案文本对应的词向量层。通过得到病案文本内容的词向量表示词向量层通过pytorch的 torch.nn.Embedding实现，将Embedding的num_embeddings、embedding_dim 分别设置为150229、100，参数初值设置为E。将送入多层卷积网络对病案文本进行特征提取，计算过程为(1)(2)式。其中l和k取值为1、2、3、 4。所有CNN_l,k都通过pytorch的torch.nn.Conv1d层实现。每个CNN_l,k对应1个Conv1d，所有Conv1d的in_channels、out_channels、stride分别设置为100、200、1。CNN_l,1、CNN_l,2、CNN_l,3、CNN_l,4的kernel_size取值分别为3、4、5、 6。pad函数通过pytorch的nn.functional.pad函数实现，GLU通过pytorch的 nn.functional.glu函数实现。经过每个CNN后将得到4×4 个CNN将获得每个病案文本的矩阵表示

第7.5.2步：针对第i个病案文本对应的中的每个ICD9代码，利用从中找到与其密切相关的内容，得到中所有ICD9代码在该病案文本中相关内容的语义表示将都置为0¹⁰⁰。其计算过程为(10)(11)，其中softmax函数通过pytorch的torch.nn.Softmax实现。

第7.5.3步：针对中每个ICD9代码，使用(16)式对进行特征提取，得到

第7.5.4步：针对中每个ICD9代码，根据共现矩阵G¹，使用(17) (18)式对每个内容特征进行特征增强，得到

第7.5.5步：针对中每个ICD9代码，通过计算过程为(12)(13)(14)(15)式，从另一个角度得到第i个病案文本中与第c个ICD9代码相关的内容特征

第7.5.6步：针对中每个ICD9代码，通过(19)(20)(21)(22) 对进行自适应融合，得到最终的第i个病案文本中与第c个 ICD9代码相关内容的语义表示H_i,c∈R¹⁰⁰。

第7.5.7步：针对中每个ICD9代码，使用(23)式，将H_i,c与W_c相比较，得到分类结果y_i,c∈[0,1]。y_i,c表示第i个病案文本被分配第c个ICD9 代码的概率。par(c)表示第c个ICD9代码的父节点，y_i,par(c)表示第i个病案文本为par(c)的比较结果。如果par(c)＝φ，y_i,par(c)＝1。

第7.6步：通过nn.functional.binary_cross_entropy_with_logits函数实现(24)式，计算该批量对应的交叉熵损失。

第7.7步：使用pytorch的torch.optim.Adam实现Adam优化算法，将Adam学习率lr设置为0.2，根据loss对参数E_C、U_c、T_W、A_W、 E_D、{CNN_l,k}_{l＝1:L,k＝1:K}、λ_T、R_T、V_c、T_H、A_H学习。

第8步：反复执行7步20轮，得到各个参数的取值，以及最后一轮中每个病案文本的分类结果并进行持久化保存。

第9步：将训练集中的案文本及对应的构成训练数据集，针对C²中 ICD9代码进行参数学习。首先对从高到低进行排序，取前 Z¹＝100个组成集合C(i)，进一步得到集合然后分别使用G²、C²、替换原先的G¹、C¹，重新执行第7、8步。重新执行第7步中时，将各个参数的初值设置为第8步中得到的值。重新执行第8步后，将得到新的参数、并持久化保存。

第10步：将训练集中病案文本及对应的构成训练数据集，针对C³中 ICD9代码进行参数学习。首先对从高到低进行排序，取前 Z²＝600个组成集合C(i)，进一步得到集合然后分别使用G³、C³、替换原先的G¹、C¹，重新执行第7、8步。重新执行第7步时，将各个参数的初值设置为执行第9步中得到的参数值。重新执行第8步，得到新的参数、并持久化保存。

第11步：将训练集中病案文本及对应的构成训练数据集，针对C⁴中 ICD9代码进行参数学习。首先对从高到低进行排序，取前 Z³＝1000个组成集合C(i)，进一步得到集合然后分别使用G⁴、G⁴、替换原先的G¹、C¹，重新执行第7、8步。重新执行第7步时，将各个参数的初值设置为执行第10步中得到的参数值。重新执行第8步，得到新的参数、并持久化保存。

第12步：分别使用第8步、第9步、第10步、第11步中得到的参数及C¹、G¹、C²、G²、C³、G³、C⁴、G⁴初始化第7.1、7.2、7.3、7.4、7.5的计算过程，将其中的替换为C¹、C²、C³、C⁴，得到针对C¹、C²、C³、C⁴的分类模型。

第13步：针对每条测试数据，先执行第6步、然后先后送入针对C¹、C²、 C³、C⁴的分类模型，将未曾见过的ICD9代码对应的U_c、V_c设置为0¹⁰⁰，得到4个模型的分类结果将的ICD9代码分配给相应的病案文本。

以上详细描述了本发明的优选实施方式，但是，本发明并不限于上述实施方式中的具体细节，在本发明的技术构思范围内，可以对本发明的技术方案进行多种简单变型，这些简单变型均属于本发明的保护范围。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合，为了避免不必要的重复，本发明对各种可能的组合方式不再另行说明。

此外，本发明的各种不同的实施方式之间也可以进行任意组合，只要其不违背本发明的思想，其同样应当视为本发明所公开的内容。

Claims

1.一种基于标签属性和特征增强的病案文本ICD9代码自动分配方法，其特征在于，包括：

步骤1、从互联网上获取数据，包括病案文本及其对应的ICD9代码、ICD9代码的描述文本、ICD9代码层次结构；去除病案文本和ICD9代码描述文本中出现次数小于2大于3000的单词，并将病案文本的长度处理成N，大于固定长度的截断，小于固定长度的补“PAD”字符串；随机从获取的数据中取出M个病案作为训练数据集，将其中的所有词语存入词典，其中词语的个数为V；

步骤2、使用Gensim工具，在所有训练集病案文本及ICD9代码的描述文本基础上，训练Skip-gram词向量，得到其中每个词对应的d维向量表示，构成词向量矩阵E∈R^V×d，将E作为ICD9描述文本对应的词向量矩阵E_C∈R^V×d，病案文本对应的词向量矩阵E_D∈R^V×d的初值；

步骤3、根据ICD9代码的层次结构，将ICD9代码分成4个集合C¹、C²、C³、C⁴；C⁴所有数据中病案文本对应的ICD9代码组成的集合，得到表示C⁴中ICD9代码和C³中ICD9代码之间的隶属关系；表示C⁴中第i个ICD9代码属于C³中第j个ICD9代码，采用同样的方式得到I³、I²；

步骤5、通过ICD9代码共现矩阵生成算法生成C⁴集合对应的ICD9代码共现矩阵算法中的ω、f为正整数，p∈[0，1]；在此基础上再通过得至G³、G²、G¹；

步骤9、将训练集中病案文本及对应的构成训练数据集，针对C²中ICD9代码进行参数学习；由于病案文本的长尾分布，有的ICD9代码对应训练数据很少，参数难以训练，将根据病案文本C¹中的分类结果对C²中代码进行负采样；首先，对从高到低进行排序，取前Z¹个组成集合C(i)，进一步得到集合其中，ch(C(i))表示C(i)的所有节点的直接子节点；然后，分别使用G²、C²、替换原先的G¹、C¹，重新执行步骤7和步骤8；重新执行步骤7时，将各个参数的初值设置为步骤8中得到的值；重新执行步骤8后，将得到新的参数、并持久化保存；

步骤10、将训练集中病案文本及对应的构成训练数据集，针对C³中ICD9代码进行参数学习；首先，对从高到低进行排序，取前Z²个组成集合C(i)，进一步得到集合然后，分别使用G³、C³、替换原先的G¹、C¹，重新执行步骤7和步骤8；重新执行步骤7时，将各个参数的初值设置为执行步骤9中得到的参数值；重新执行步骤8，得到新的参数、并持久化保存；

步骤11、将训练集中病案文本及对应的构成训练数据集，针对C⁴中ICD9代码进行参数学习；首先，对从高到低进行排序，取前Z³个组成集合C(i)，进一步得到集合然后，分别使用G⁴、C⁴、替换原先的G¹、C¹，重新执行步骤7和步骤8；重新执行步骤7时，将各个参数的初值设置为执行步骤10中得到的参数值；重新执行步骤8，得到新的参数、并持久化保存；

步骤12、分别使用步骤8、步骤9、步骤10、步骤11中得到的参数及C¹、G¹、C²、G²、C³、G³、C⁴、G⁴初始化步骤7中的计算过程，将其中的替换为C¹、C²、C³、C⁴，得到针对C¹、C²、C³、C⁴的分类模型；

步骤13、针对每条测试数据，先执行步骤6，然后先后送入针对C¹、C²、C³、C⁴的分类模型，将未曾见过的ICD9代码对应的U_c、V_c设置为0^d，得到4个模型的分类结果将的ICD9代码分配给相应的病案文本。

2.根据权利要求1所述的基于标签属性和特征增强的病案文本ICD9代码自动分配方法，其特征在于，步骤7包括：

融合的计算过程为(4)式、(5)式、(6)式和(7)式，其中，T_W∈R^d×d，A_W∈R^3×3d为参数矩阵，表示向量拼接，q∈R^3d，q′∈R³表示3个部分所占比例；每个ICD9代码将根据自身的特点决定融合比例，得到ICD9代码语义表示W_c；

t(x)＝sigmoid(T_WReLU(x)) (4)

步骤7.5、针对批量中的每个病案进行参数训练；

步骤7.7、使用Adam优化算法，根据loss对参数E_C、U_c、T_W、A_W、E_D、{CNN_l，k}_{l＝1：L，k＝1：K}、λ_T、R_T、V_c、T_H、A_H进行学习，学习率为μ。

3.根据权利要求1所述的基于标签属性和特征增强的病案文本ICD9代码自动分配方法，其特征在于，步骤7.5包括：

步骤7.5.1、通过得到病案文本内容的词向量表示将送入多层卷积网络对病案文本进行特征提取，计算过程为(8)式和(9)式；其中，CNN_lk表示第l层的第k个CNN，CNN_：，k对应的卷积核大小为size(k)；所有CNN_l，k的移动幅度都为1，输入通道数为d，输出通道数都为2*d；pad_k()计算过程为：

如果size(k)不能被2整除，将在或的第1维上前后各增加(size(k)-1)/2个0向量0^d；

如果size(k)能被2整除，则在或的第1维上往前增加(size(k)-1)/2个0^d，往后增加size(k)/2个0^d；

经过每个CNN_l，k后将得到每个文本的表示L×K个CNN_lk将获得每个病案文本的所有语义表示

步骤7.5.2、针对第i个病案文本对应的中的每个ICD9代码，利用从中获得与其密切相关的内容及其的语义表示将都置为0^d，其计算过程为(10)式和(11)式；其中，λ_T∈[0，1]，R_T∈R^d×d为参数矩阵，的计算过程为(12)式、(13)式、(14)式和(15)式；其中，表示在步骤7.5.1中得到的第i个病案文本中第n个词的所有语义向量，a_{i，c，n，：}∈R^(L×K)表示第c个ICD9代码与第i个病案文本中第n个词的不同语义表示之间的紧密程度；表示第i个病案文本与第c个ICD9代码比较后得到第n个词语的语义表示，β_i，c，：∈R^N表示第c个ICD9代码与第i个病案文本中不同词语之间的紧密程度；

步骤7.5.5、针对中每个ICD9代码，额外通过进行相关内容提取，V_c∈R^d为第c个ICD9代码对应的相关内容提取向量，初值为从另一个角度得到第i个病案文本中与第c个ICD9代码相关的内容及其语义表示的计算过程为(12)式、(13)式、(14)式和(15)式；

步骤7.5.6、针对中每个ICD9代码，通过关注机制对进行自适应融合，得到最终的第i个病案文本与第c个ICD9代码相关内容的语义表示H_i，c∈R^d；计算过程为(19)式、(20)式、(21)式和(22)式，其中，T_H∈R^d×d，A_H∈R^3×3d为参数矩阵，q′表示3个部分的融合比例，针对不同ICD9代码将有不同的取值；

t(x)＝sigmoid(T_HReLU(x)) (19)

步骤7.5.7、针对中每个ICD9代码，使用(23)式，将H_i，c与W_c相比较，得到分类结果y_i，c∈[0，1]，y_i，c表示第i个病案文本被分配第c个ICD9代码的概率；par(c)表示第c个ICD9代码的父节点，y_i，par(c)表示第i个病案文本为par(c)的比较结果；如果par(c)＝φ，y_i，par(c)＝1；

y_i，c＝y_i，par(c)sigmoid(W_cH_i，c ^T) (23)。