[go: up one dir, main page]

CN113901805B - 基于标签属性和特征增强的病案文本icd9代码自动分配方法 - Google Patents

基于标签属性和特征增强的病案文本icd9代码自动分配方法 Download PDF

Info

Publication number
CN113901805B
CN113901805B CN202111202974.4A CN202111202974A CN113901805B CN 113901805 B CN113901805 B CN 113901805B CN 202111202974 A CN202111202974 A CN 202111202974A CN 113901805 B CN113901805 B CN 113901805B
Authority
CN
China
Prior art keywords
icd9
text
code
icd9 code
codes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111202974.4A
Other languages
English (en)
Other versions
CN113901805A (zh
Inventor
洪旭东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yangtze River Delta Information Intelligence Innovation Research Institute
Original Assignee
Yangtze River Delta Information Intelligence Innovation Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yangtze River Delta Information Intelligence Innovation Research Institute filed Critical Yangtze River Delta Information Intelligence Innovation Research Institute
Priority to CN202111202974.4A priority Critical patent/CN113901805B/zh
Publication of CN113901805A publication Critical patent/CN113901805A/zh
Application granted granted Critical
Publication of CN113901805B publication Critical patent/CN113901805B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Business, Economics & Management (AREA)
  • Computing Systems (AREA)
  • Strategic Management (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Human Resources & Organizations (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Databases & Information Systems (AREA)
  • Economics (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明公开一种基于标签属性和特征增强的病案文本ICD9代码自动分配方法。将ICD9代码看成标签,其对应的文本描述作为标签属性,通过对标签属性和病案文本的语义编码获得标签属性特征及病案文本中每个词语的语义特征;为每个标签设置一个相关内容提取向量和标签语义向量,分别利用提取向量从病案文本中提取相关内容及语义特征,并利用共现关系,对提取到的相关特征进行特征增强;利用关注机制,针对不同标签,对提取到的多个相关内容语义特征、标签属性和语义特征自适应融合,得到最终的相关内容语义与标签语义表示;将相关内容语义特征与标签语义相比较,得到分类结果,并根据ICD9代码之间的层次关系,进行逐层负采样、参数训练和预测。

Description

基于标签属性和特征增强的病案文本ICD9代码自动分配方法
技术领域
本发明涉及一种基于标签属性和特征增强的病案文本ICD9代码自动分配方法。
背景技术
病案文本的内容是病人在医疗过程中的诊疗记录。其中,ICD9代码对应的是疾病和手术,一个病人在一次诊疗过程中可能会有多个疾病并经历多个手术。病案文本ICD9代码自动分配,是为病案文本自动分配相应的ICD9 代码。其中,一个病案文本可以被分配多个ICD9代码。
现有方法中,大多将每个ICD9代码看成一个标签,将病案文本ICD9 代码自动分配看成文本多标签分类问题,逐一判断每个ICD9代码与病案文本是否相关。比如,第一种方法中,为每个案ICD9代码设置1个相关内容提取向量,1个语义向量。针对每个ICD9代码,利用内容提取向量,从病案文本中提取相关内容获得其语义表示,与相应ICD9代码的语义向量进行比较,得到分类结果。此外其还对ICD9代码描述文本进行了语义编码,训练时让该编码结果与语义向量尽量接近。在测试时,针对未在训练集中出现的ICD9代码使用该编码的结果作为语义向量。第二种方法中,首先对ICD9 代码的描述文本进行编码,得到ICD9代码的内容提取向量,在此基础上进一步结合ICD9代码之间的共现和层次关系得到ICD9代码的语义向量,然后再针对每个ICD9代码进行相关内容提取和分类。第三种方法中,首先将 ICD9描述文本及共现关系的编码结果作为相关内容提取向量,额外还为每个ICD9代码定义了一个相关内容提取向量;然后针对每个ICD9代码,使用两个向量同时从病案文本中提取相关内容获得其语义特征表示并进行拼接;最后将拼接结果与相应的ICD9代码语义向量相比较,获得分类结果,在分类时其还利用了ICD9代码的层次结构,从上到下逐层进行分类,前一层的分类结果是后一层分类的依据。
但是,首先,由于病案文本的描述信息,即标签属性,对于从病案文本中提取相关内容、ICD9的代码的语义表示,都具有重要作用。但ICD9代码的描述中有限的内容可能不够全面准确的表示ICD9代码的含义,需要额外定义相关内容提取向量和ICD9代码语义向量,并分别与它们配合,才能更加准确的进行相关内容提取和ICD9代码语义表示。上述方法中只有第三种在提取病案文本相关内容时考虑了该情况,在ICD9代码语义表示时所有方法都没有考虑。
其次,不同ICD9代码,即不同疾病和手术,之间彼此关联。要判断要给病案文本是否对应一个ICD9代码,相关ICD9代码在病案文本中对应的内容至关重要。现有方法都只利用ICD9代码之间的关系,利用ICD9代码的标签属性,彼此进行特征增强,没有针对不同ICD9代码提取到的相关内容特征,进行彼此的特征增强。
再其次,ICD9代码在训练数据集中呈现明显的长尾分布现象,有的ICD9 代码对应的训练数据很少,参数难以学习,如果减少参数学习过程中对训练数据的依赖,现有方法都没有考虑。
最后,对不同ICD9代码,标签属性、特征增强的作用大小不同。例如一些训练数据很少的ICD9代码,通过训练数据很难获得ICD9代码的准确语义,则需要更多的标签属性信息;有些ICD9代码的描述文本,与实际数据的差别非常大,则标签属性的作用就很小;一些ICD9代码则需要更多与其他ICD9代码之间的关系,才能得到准确的分类结果。需要根据ICD9代码的具体含义对这些方面的信息进行自适应的融合,现有方法都没有考虑。尽管方法3针对所有ICD9代码,对分别通过标签属性和内容提取向量得到的相关内容语义特征表示,但是其只采用了简单拼接的方式。
发明内容
本发明的目的是提供一种基于标签属性和特征增强的病案文本ICD9代码自动分配方法,该方法能够更加准确全面地获得相关内容和ICD9代码的语义特征,更好地应对ICD9代码的长尾分布,大大提高了ICD9代码自动分配的准确率和召回率。
为了实现上述目的,本发明提供了一种基于标签属性和特征增强的病案文本ICD9代码自动分配方法,包括:
步骤1、从互联网上获取数据,包括病案文本及其对应的ICD9代码、 ICD9代码的描述文本、ICD9代码层次结构;去除病案文本和ICD9代码描述文本中出现次数小于2大于3000的单词,并将病案文本的长度处理成N,大于固定长度的截断,小于固定长度的补“PAD”字符串;随机从获取的数据中取出M个病案作为训练数据集,将其中的所有词语存入词典,其中词语的个数为V;
步骤2、使用Gensim工具,在所有训练集病案文本及ICD9代码的描述文本基础上,训练Skip-gram词向量,得到其中每个词对应的d维向量表示,构成词向量矩阵E∈RV×d,将E作为ICD9描述文本对应的词向量矩阵 EC∈RV×d,病案文本对应的词向量矩阵ED∈RV×d的初值;
步骤3、根据ICD9代码的层次结构,将ICD9代码分成4个集合C1、C2、 C3、C4;C4所有数据中病案文本对应的ICD9代码组成的集合,得到表示C4中ICD9代码和C3中ICD9代码之间的隶属关系;表示C4中第i个ICD9代码属于C3中第j个ICD9代码,采用同样的方式得到I3、I2
步骤4、通过训练数据集获得C4对应矩阵表示C4中的第j个ICD9代码被分配给了训练集中第i个病案;通过 得到
步骤5、通过ICD9代码共现矩阵生成算法生成C4集合对应的ICD9代码共现矩阵算法中的ω、f为正整数,p∈[0,1];在此基础上再通过得到G3、G2、G1
步骤6、将每个病案文本表示为词语one-hot向量所组成的矩阵当第i个文档的第n个位置为第v个词时否则将C4中每个ICD9代码的描述文本表示成一个V维向量Sc,v的值为第v个词语在第c个ICD9代码描述文本中出现的次数;将其它集合中每个ICD9代码对应的描述文本表示为其中ch(c)表示c节点的直接子节点;
步骤7、将M个病案文本及对应的构成训练数据集,将训练数据集随机分成若干个大小为B的批量,并分批进行参数训练;
步骤8、反复执行10-20轮步骤7,得到各个参数的取值,以及最后一轮中每个病案文本的分类结果并进行持久化保存;
步骤9、将训练集中病案文本及对应的构成训练数据集,针对C2中 ICD9代码进行参数学习;由于病案文本的长尾分布,有的ICD9代码对应训练数据很少,参数难以训练,将根据病案文本C1中的分类结果对C2中代码进行负采样;首先,对从高到低进行排序,取前Z1个组成集合C(i),进一步得到集合其中,ch(C(i))表示C(i) 的所有节点的直接子节点;然后,分别使用G2、C2替换原先的G1、C1重新执行步骤7和步骤8;重新执行步骤7时,将各个参数的初值设置为步骤8中得到的值;重新执行步骤8后,将得到新的参数、 并持久化保存;
步骤10、将训练集中病案文本及对应的构成训练数据集,针对C3中 ICD9代码进行参数学习;首先,对从高到低进行排序,取前Z2个组成集合C(i),进一步得到集合然后,分别使用G3、C3替换原先的G1、C1重新执行步骤7和步骤 8;重新执行步骤7时,将各个参数的初值设置为执行步骤9中得到的参数值;重新执行步骤8,得到新的参数、并持久化保存;
步骤11、将训练集中病案文本及对应的构成训练数据集,针对C4中 ICD9代码进行参数学习;首先,对从高到低进行排序,取前Z3个组成集合C(i),进一步得到集合然后,分别使用G4、C4替换原先的G1、C1重新执行步骤7和步骤 8;重新执行步骤7时,将各个参数的初值设置为执行步骤10中得到的参数值;重新执行步骤8,得到新的参数、并持久化保存;
步骤12、分别使用步骤8、步骤9、步骤10、步骤11中得到的参数及C1、G1、 C2、G2、C3、G3、C4、G4初始化步骤7中的计算过程,将其中的替换为C1、C2、C3、C4,得到针对C1、C2、C3、C4的分类模型;
步骤13、针对每条测试数据,先执行步骤6,然后先后送入针对C1、C2、C3、 C4的分类模型,将未曾见过的ICD9代码对应的Uc、Vc设置为0d,得到4个模型的分类结果的ICD9代码分配给相应的病案文本。
优选地,步骤7包括:
步骤7.1、将ICD9代码的描述文本作为ICD9代码的标签属性,针对C1中每个ICD9代码,通过得到其中每个ICD9代码的标签属性特征
步骤7.2、针对C1中的每个ICD9代码,使用(1)式对进行特征提取,得到标签属性特征新的表示其中,为参数矩阵;
步骤7.3、将针对C1中的每个ICD9代码,根据C1中ICD9代码之间的共现关系,即共现矩阵G1,使用(2)式、(3)式对属性特征进行特征增强,得到增强后的标签属性特征其中,为参数矩阵;
步骤7.4、将针对C1中的每个ICD9代码,通过关注机制对Uc进行自适应融合,Uc∈Rd时为额外定义的第c个ICD9代码的语义向量,初值为
融合的计算过程为(4)式、(5)式、(6)式和(7)式,其中,TW∈Rd×d, AW∈R3×3d为参数矩阵,表示向量拼接,q∈R3d,q′∈R3表示3个部分所占比例;每个ICD9代码将根据自身的特点决定融合比例,得到ICD9代码语义表示Wc
t(x)=sigmoid(TWReLU(x)) (4)
步骤7.5、针对批量中的每个病案进行参数训练;
步骤7.6、按(24)式计算该批量对应的交叉熵损失,其中,表示训练集中第i个病案文本是否被分配了第c个ICD9代码;
步骤7.7、使用Adam优化算法,根据loss对参数ECUc、 TW、AW、ED、{CNNl,k}l=1:L,k=1:K、λT、RTVc、TH、AH进行学习,学习率为μ。
优选地,步骤7.5包括:
步骤7.5.1、通过得到病案文本内容的词向量表示送入多层卷积网络对病案文本进行特征提取,计算过程为(8)式和(9) 式;其中,CNNlk表示第l层的第k个CNN,CNN:,k对应的卷积核大小为size(k);所有CNNl,k的移动幅度都为1,输入通道数为d,输出通道数都为2*d;padk() 计算过程为:
如果size(k)不能被2整除,将在的第1维上前后各增加 (size(k)-1)/2个0向量0d
如果size(k)能被2整除,则在的第1维上往前增加 (size(k)-1)/2个0d,往后增加size(k)/2个0d
经过每个CNNl,k后将得到每个文本的表示L×K个CNNlk将获得每个病案文本的所有语义表示
步骤7.5.2、针对第i个病案文本对应的中的每个ICD9代码,利用中获得与其密切相关的内容及其的语义表示都置为0d,其计算过程为(10)式和(11)式;其中,λT∈[0,1], RT∈Rd×d为参数矩阵,的计算过程为(12)式、(13)式、(14)式和(15)式;其中,表示在步骤7.5.1中得到的第 i个病案文本中第n个词的所有语义向量,ai,c,n,:∈R(L×K)表示第c个ICD9 代码与第i个病案文本中第n个词的不同语义表示之间的紧密程度;表示第i个病案文本与第c个ICD9代码比较后得到第n个词语的语义表示,βi,c,:∈RN表示第c个ICD9代码与第i个病案文本中不同词语之间的紧密程度;
步骤7.5.3、针对中每个ICD9代码,使用(16)式对进行特征提取,得到
步骤7.5.4、针对中每个ICD9代码,根据ICD9代码之间的共现关系,即共现矩阵G1,使用(17)式和(18)式对进行特征增强,得到
步骤7.5.5、针对中每个ICD9代码,额外通过进行相关内容提取,Vc∈Rd为第c个ICD9代码对应的相关内容提取向量,初值为从另一个角度得到第i个病案文本中与第c个ICD9代码相关的内容及其语义表示的计算过程为(12)式、(13) 式、(14)式和(15)式;
步骤7.5.6、针对中每个ICD9代码,通过关注机制对进行自适应融合,得到最终的第i个病案文本与第c个ICD9代码相关内容的语义表示Hi,c∈Rd;计算过程为(19)式、(20)式、(21)式和(22)式,其中,TH∈Rd×d,AH∈R3×3d为参数矩阵,q′表示3个部分的融合比例,针对不同ICD9代码将有不同的取值;
t(x)=sigmoid(TH ReLU(x)) (19)
步骤7.5.7、针对中每个ICD9代码,使用(23)式,将Hi,c与Wc相比较,得到分类结果yi,c∈[0,1],yi,c表示第i个病案文本被分配第c个ICD9 代码的概率;par(c)表示第c个ICD9代码的父节点,yi,par(c)表示第i个病案文本为par(c)的比较结果;如果par(c)=φ,yi,par(c)=1;
yi,c=yi,par(c)sigmoid(WcHi,c T) (23)。
根据上述技术方案,首先,将ICD9代码看成标签,将ICD9代码对应的文本描述作为标签属性,通过对标签属性和病案文本的语义编码获得标签属性特征及病案文本中每个词语的语义特征;然后,为每个标签设置一个相关内容提取向量和标签语义向量,分别利用标签属性特征和相关内容提取向量从病案文本中提取相关内容及其语义特征,并利用不同ICD9代码之间的共现关系,对提取到的相关内容语义特征和标签属性特征进行特征增强;其次,利用关注机制,针对不同标签,对提取到的多个相关内容语义特征、标签属性和语义特征进行自适应融合,得到最终的相关内容语义与标签语义表示;最后,将相关内容语义特征与标签语义相比较,得到分类结果,并根据 ICD9代码之间的层次关系,进行逐层负采样、参数训练和预测。
本发明的其他特征和优点将在随后的具体实施方式部分予以详细说明。
具体实施方式
以下对本发明的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明,并不用于限制本发明。
本发明提供一种基于标签属性和特征增强的病案文本ICD9代码自动分配方法,包括:
步骤1、从互联网上获取数据,包括病案文本及其对应的ICD9代码、 ICD9代码的描述文本、ICD9代码层次结构;去除病案文本和ICD9代码描述文本中出现次数小于2大于3000的单词,并将病案文本的长度处理成N,大于固定长度的截断,小于固定长度的补“PAD”字符串;随机从获取的数据中取出M个病案作为训练数据集,将其中的所有词语存入词典,其中词语的个数为V;
步骤2、使用Gensim工具,在所有训练集病案文本及ICD9代码的描述文本基础上,训练Skip-gram词向量,得到其中每个词对应的d维向量表示,构成词向量矩阵E∈RV×d,将E作为ICD9描述文本对应的词向量矩阵 EC∈RV×d,病案文本对应的词向量矩阵ED∈RV×d的初值;
步骤3、根据ICD9代码的层次结构,将ICD9代码分成4个集合C1、C2、 C3、C4;C4所有数据中病案文本对应的ICD9代码组成的集合,得到表示C4中ICD9代码和C3中ICD9代码之间的隶属关系;表示C4中第i个ICD9代码属于C3中第j个ICD9代码,采用同样的方式得到I3、I2
步骤4、通过训练数据集获得C4对应矩阵表示C4中的第j个ICD9代码被分配给了训练集中第i个病案;通过 得到
步骤5、通过ICD9代码共现矩阵生成算法生成C4集合对应的ICD9代码共现矩阵算法中的ω、f为正整数,p∈[0,1];在此基础上再通过得到G3、G2、G1
其中,ICD9代码共现矩阵生成算法如下所示:
步骤6、将每个病案文本表示为词语one-hot向量所组成的矩阵当第i个文档的第n个位置为第v个词时否则将C4中每个ICD9代码的描述文本表示成一个V维向量Sc,v的值为第v个词语在第c个ICD9代码描述文本中出现的次数;将其它集合中每个ICD9代码对应的描述文本表示为其中ch(c)表示c节点的直接子节点;
步骤7、将M个病案文本及对应的构成训练数据集,将训练数据集随机分成若干个大小为B的批量,并分批进行以下过程:
步骤7.1、由于描述文本对于ICD9代码语义的刻画具有重要作用,将 ICD9代码的描述文本作为ICD9代码的标签属性,针对C1中每个ICD9代码,通过得到其中每个ICD9代码的标签属性特征
步骤7.2、针对C1中的每个ICD9代码,使用(1)式对进行特征提取,得到标签属性特征新的表示其中,为参数矩阵;
步骤7.3、由于不同ICD9代码之间彼此关联,相关ICD9代码的属性能够有效丰富相应ICD9代码的语义表示,将针对C1中的每个ICD9代码,根据C1中ICD9代码之间的共现关系,即共现矩阵G1,使用(2)式、(3)式对属性特征进行特征增强,得到增强后的标签属性特征其中,为参数矩阵;
步骤7.4、由于标签属性不能全面准确反映ICD9代码的语义,同时针对不同ICD9代码标签属性所起的作用大小也不尽相同,将针对C1中的每个 ICD9代码,通过关注机制对Uc进行自适应融合,Uc∈Rd时为额外定义的第c个ICD9代码的语义向量,初值为
融合的计算过程为(4)式、(5)式、(6)式和(7)式,其中,TW∈Rd×d, AW∈R3×3d为参数矩阵,表示向量拼接,q∈R3d,q′∈R3表示3个部分所占比例;每个ICD9代码将根据自身的特点决定融合比例,得到ICD9代码语义表示Wc
t(x)=sigmoid(TWReLU(x)) (4)
步骤7.5、针对批量中的每个病案进行参数训练;具体执行的过程为:
步骤7.5.1、通过得到病案文本内容的词向量表示送入多层卷积网络对病案文本进行特征提取,计算过程为(8)式和(9) 式;其中,CNNlk表示第l层的第k个CNN,CNN:,k对应的卷积核大小为size(k);所有CNNl,k的移动幅度都为1,输入通道数为d,输出通道数都为2*d;padk() 计算过程为:
如果size(k)不能被2整除,将在的第1维上前后各增加 (size(k)-1)/2个0向量0d
如果size(k)能被2整除,则在的第1维上往前增加 (size(k)-1)/2个0d,往后增加size(k)/2个0d
经过每个CNNl,k后将得到每个文本的表示L×K个CNNlk将获得每个病案文本的所有语义表示
步骤7.5.2、针对第i个病案文本对应的中的每个ICD9代码,利用中获得与其密切相关的内容及其的语义表示都置为0d,其计算过程为(10)式和(11)式;其中,λT∈[0,1], RT∈Rd×d为参数矩阵,的计算过程为(12)式、(13)式、 (14)式和(15)式;其中,表示在步骤7.5.1中得到的第 i个病案文本中第n个词的所有语义向量,ai,c,n,:∈R(L×K)表示第c个ICD9 代码与第i个病案文本中第n个词的不同语义表示之间的紧密程度;表示第i个病案文本与第c个ICD9代码比较后得到第n个词语的语义表示,βi,c,:∈RN表示第c个ICD9代码与第i个病案文本中不同词语之间的紧密程度;
步骤7.5.3、针对中每个ICD9代码,使用(16)式对进行特征提取,得到
步骤7.5.4、由于相关ICD9代码在病案文本中对应内容,对于判断1个 ICD9代码是否应该被分配给1个病案文本十分重要。将针对中每个 ICD9代码,根据ICD9代码之间的共现关系,即共现矩阵G1,使用(17) 式和(18)式对进行特征增强,得到
步骤7.5.5、由于ICD9代码的文本描述可能不能全面准确的刻画ICD9 代码语义,将针对中每个ICD9代码,额外通过进行相关内容提取,Vc∈Rd为第c个ICD9代码对应的相关内容提取向量,初值为从另一个角度得到第i个病案文本中与第c个ICD9代码相关的内容及其语义表示的计算过程为(12)式、(13) 式、(14)式和(15)式;
步骤7.5.6、由于不同ICD9代码,标签属性的作用大小不同,将针对中每个ICD9代码,通过关注机制对进行自适应融合,得到最终的第i个病案文本与第c个ICD9代码相关内容的语义表示Hi,c∈Rd;计算过程为(19)式、(20)式、(21)式和(22)式,其中,TH∈Rd×d,AH∈R3×3d为参数矩阵,q′表示3个部分的融合比例,针对不同ICD9代码将有不同的取值;
t(x)=sigmoid(TH ReLU(x)) (19)
步骤7.5.7、针对中每个ICD9代码,使用(23)式,将Hi,c与Wc相比较,得到分类结果yi,c∈[0,1],yi,c表示第i个病案文本被分配第c个ICD9 代码的概率;par(c)表示第c个ICD9代码的父节点,yi,par(c)表示第i个病案文本为par(c)的比较结果;如果par(c)=φ,yi,par(c)=1;
yi,c=yi,par(c)sigmoid(WcHi,c T) (23)。
步骤7.6、按(24)式计算该批量对应的交叉熵损失,其中,表示训练集中第i个病案文本是否被分配了第c个ICD9代码;
步骤7.7、使用Adam优化算法,根据loss对参数ECUc、 TW、AW、ED、{CNNl,k}l=1:Lk=1:K、λT、RTVc、TH、AH进行学习,学习率为μ。
步骤8、反复执行10-20轮步骤7,得到各个参数的取值,以及最后一轮中每个病案文本的分类结果并进行持久化保存;
步骤9、将训练集中病案文本及对应的构成训练数据集,针对C2中 ICD9代码进行参数学习;由于病案文本的长尾分布,有的ICD9代码对应训练数据很少,参数难以训练,将根据病案文本C1中的分类结果对C2中代码进行负采样;首先,对从高到低进行排序,取前Z1个组成集合C(i),进一步得到集合其中,ch(C(i))表示C(i) 的所有节点的直接子节点;然后,分别使用G2、C2替换原先的G1、C1重新执行步骤7和步骤8;重新执行步骤7时,将各个参数的初值设置为步骤8中得到的值;重新执行步骤8后,将得到新的参数、 并持久化保存;
步骤10、将训练集中病案文本及对应的构成训练数据集,针对C3中 ICD9代码进行参数学习;首先,对从高到低进行排序,取前Z2个组成集合C(i),进一步得到集合然后,分别使用G3、C3替换原先的G1、C1重新执行步骤7和步骤 8;重新执行步骤7时,将各个参数的初值设置为执行步骤9中得到的参数值;重新执行步骤8,得到新的参数、并持久化保存;
步骤11、将训练集中病案文本及对应的构成训练数据集,针对C4中 ICD9代码进行参数学习;首先,对从高到低进行排序,取前Z3个组成集合C(i),进一步得到集合然后,分别使用G4、C4替换原先的G1、C1重新执行步骤7和步骤 8;重新执行步骤7时,将各个参数的初值设置为执行步骤10中得到的参数值;重新执行步骤8,得到新的参数、并持久化保存;
步骤12、分别使用步骤8、步骤9、步骤10、步骤11中得到的参数及C1、G1、 C2、G2、C3、G3、C4、G4初始化步骤7中的计算过程,将其中的替换为C1、C2、C3、C4,得到针对C1、C2、C3、C4的分类模型;
步骤13、针对每条测试数据,先执行步骤6,然后先后送入针对C1、C2、C3、 C4的分类模型,将未曾见过的ICD9代码对应的Uc、Vc设置为0d,得到4个模型的分类结果的ICD9代码分配给相应的病案文本。
由此可见,为了更加准确全面地获取相关内容和ICD9代码的语义表示,本发明一方面在获得相关内容语义和ICD9代码语义的过程中都使用了 ICD9代码的描述文本,即标签属性,并利用ICD9代码之间的共现关系,分别对提取到的相关内容语义特征和类别属性特征进行特征增强;
其次,为了更好的应对ICD9代码的长尾分布现象,针对不同的ICD9 代码,利用关注机制,对从多个不同角度获得的内容语义特征、标签语义特征进行自适应融合,并采用了针对标签的逐层采用负采样的方法进行训练,提升那些具有较少训练数据的ICD9代码的训练效果。
在本发明的一种具体实施方式中,
第1步:从https://mimic.mit.edu/获取数据,数据报告5张CSV表格:NOTEEVENTS.csv包括所有病人的病案文本,DIAGNOSES_ICD.csv包含每个病案文本对应的所有诊断相关的ICD9代码,PROCEDURES_ICD.csv包含每个病案文本对应的所有手术相关的ICD9代码,D_ICD_DIAGNOSES.csv 和D_ICD_PROCEDURES.csv包含所有ICD9代码的文本描述,从 https://www.cdc.gov/nchs/icd/icd9cm.htm获得ICD9代码的层次结构,以3列进行存储,第1列为子节点的ICD9代码,第2列为对应父节点的代码,第 3列为子节点ICD9代码对应的层次(1、2、3、4)。第1层ICD代码的父节为“φ”。去除病案文本和ICD9代码描述文本中出现次数大于1小于3000 的单词,加入词典并编号,共包含150229个。将病案文本的长度处理成4000,大于固定长度的截断,小于固定长度的补“PAD”字符串,将其中不在词典中的词语处理成“myunk”。此时利用pandas[4]工具包将获取数据处理成如下所示形式,其中TEXT为病案文本,LABELS为对应的ICD9\代码。随机从获取的数据中取出47724个病案作为训练数据集。
第2步:使用Gensim工具,在所有训练集病案文本及ICD9代码的描述文本基础上,训练Skip-gram词向量,将d设置为100,训练的轮次设置为10轮,得到其中每个词对应的100维向量表示,构成词向量矩阵 E∈R150229×100
第3步:根据ICD9代码的层次结构,将ICD9代码分成4个集合C1、 C2、C3、C4,其中C4为第4层的ICD9代码集合,得到ICD9代码之间的隶属关系其中, |C4|、|C3|、|C2|、|C1|的大小分别为8922、4755、1100、155。
第4步:通过训练数据集获得C4对应矩阵表示 C4中的第j个ICD9代码被分配给了训练集中第i个病案。通过 得到
第5步:利用ICD9代码共现矩阵生成算法生成C4集合对应的ICD9代码共现矩阵将算法中的ω、p、f分别设置为400、0.8、800。在此基础上再通过得到G3、G2、 G1
第6步:将每个病案文本表示为词语one-hot向量所组成的矩阵将C4中每个ICD9代码的描述文本表示成一个V维向量将其它集合中每个ICD9代码表示为∑St∈ch(c)。ch(c)表示c节点的直接子节点。
第7步:使用pytorch将病案文本及对应的构成训练数据集,将训练数据集随机分成若干大小为32的批量,并分批进行以下过程:
第7.1步:将C1中每个ICD9代码,送入词向量层得到其标签属性特征词向量层使用pytorch的torch.nn.Embedding实现,将Embedding的num_embeddings、embedding_dim分别设置为150229、100,参数初值设置为E。
第7.2步:针对C1中的每个ICD9代码,使用(1)式对进行特征提取,得到标签属性特征新的表示Wc 1∈R100,其中为参数矩阵。ReLU函数使用pytorch中的nn.functional.relu函数实现。
第7.3步:针对C1中的每个ICD9代码,根据C1中ICD9代码之间的共现关系,即共现矩阵G1,使用(2)(3)式对标签属性特征进行特征增强,得到增强后的标签属性特征
第7.4:针对C1中的每个ICD9代码,通过关注机制对Uc进行融合。其计算过程为(4)(5)(6)(7),sigmoid函数通过pytorch的 nn.functional.sigmoid函数实现,通过pytorch的torch.cat函数实现。得到C1中每个ICD9代码的语义表示Wc∈R100
第7.5步:针对批量中每个病案文本执行以下过程:
第7.5.1步:将送入病案文本对应的词向量层。通过得到病案文本内容的词向量表示词向量层通过pytorch的 torch.nn.Embedding实现,将Embedding的num_embeddings、embedding_dim 分别设置为150229、100,参数初值设置为E。将送入多层卷积网络对病案文本进行特征提取,计算过程为(1)(2)式。其中l和k取值为1、2、3、 4。所有CNNl,k都通过pytorch的torch.nn.Conv1d层实现。每个CNNl,k对应1个Conv1d,所有Conv1d的in_channels、out_channels、stride分别设置为100、200、1。CNNl,1、CNNl,2、CNNl,3、CNNl,4的kernel_size取值分别为3、4、5、 6。pad函数通过pytorch的nn.functional.pad函数实现,GLU通过pytorch的 nn.functional.glu函数实现。经过每个CNN后将得到4×4 个CNN将获得每个病案文本的矩阵表示
第7.5.2步:针对第i个病案文本对应的中的每个ICD9代码,利用中找到与其密切相关的内容,得到中所有ICD9代码在该病案文本中相关内容的语义表示都置为0100。其计算过程为(10)(11),其中softmax函数通过pytorch的torch.nn.Softmax实现。
第7.5.3步:针对中每个ICD9代码,使用(16)式对进行特征提取,得到
第7.5.4步:针对中每个ICD9代码,根据共现矩阵G1,使用(17) (18)式对每个内容特征进行特征增强,得到
第7.5.5步:针对中每个ICD9代码,通过计算过程为(12)(13)(14)(15)式,从另一个角度得到第i个病案文本中与第c个ICD9代码相关的内容特征
第7.5.6步:针对中每个ICD9代码,通过(19)(20)(21)(22) 对进行自适应融合,得到最终的第i个病案文本中与第c个 ICD9代码相关内容的语义表示Hi,c∈R100
第7.5.7步:针对中每个ICD9代码,使用(23)式,将Hi,c与Wc相比较,得到分类结果yi,c∈[0,1]。yi,c表示第i个病案文本被分配第c个ICD9 代码的概率。par(c)表示第c个ICD9代码的父节点,yi,par(c)表示第i个病案文本为par(c)的比较结果。如果par(c)=φ,yi,par(c)=1。
第7.6步:通过nn.functional.binary_cross_entropy_with_logits函数实现(24)式,计算该批量对应的交叉熵损失。
第7.7步:使用pytorch的torch.optim.Adam实现Adam优化算法,将Adam学习率lr设置为0.2,根据loss对参数ECUc、TW、AW、 ED、{CNNl,k}l=1:L,k=1:K、λT、RTVc、TH、AH学习。
第8步:反复执行7步20轮,得到各个参数的取值,以及最后一轮中每个病案文本的分类结果并进行持久化保存。
第9步:将训练集中的案文本及对应的构成训练数据集,针对C2中 ICD9代码进行参数学习。首先对从高到低进行排序,取前 Z1=100个组成集合C(i),进一步得到集合 然后分别使用G2、C2替换原先的G1、C1重新执行第7、8步。重新执行第7步中时,将各个参数的初值设置为第8步中得到的值。重新执行第8步后,将得到新的参数、并持久化保存。
第10步:将训练集中病案文本及对应的构成训练数据集,针对C3中 ICD9代码进行参数学习。首先对从高到低进行排序,取前 Z2=600个组成集合C(i),进一步得到集合 然后分别使用G3、C3替换原先的G1、C1重新执行第7、8步。重新执行第7步时,将各个参数的初值设置为执行第9步中得到的参数值。重新执行第8步,得到新的参数、并持久化保存。
第11步:将训练集中病案文本及对应的构成训练数据集,针对C4中 ICD9代码进行参数学习。首先对从高到低进行排序,取前 Z3=1000个组成集合C(i),进一步得到集合 然后分别使用G4、G4替换原先的G1、C1重新执行第7、8步。重新执行第7步时,将各个参数的初值设置为执行第10步中得到的参数值。重新执行第8步,得到新的参数、并持久化保存。
第12步:分别使用第8步、第9步、第10步、第11步中得到的参数及C1、G1、C2、G2、C3、G3、C4、G4初始化第7.1、7.2、7.3、7.4、7.5的计算过程,将其中的替换为C1、C2、C3、C4,得到针对C1、C2、C3、C4的分类模型。
第13步:针对每条测试数据,先执行第6步、然后先后送入针对C1、C2、 C3、C4的分类模型,将未曾见过的ICD9代码对应的Uc、Vc设置为0100,得到4个模型的分类结果的ICD9代码分配给相应的病案文本。
以上详细描述了本发明的优选实施方式,但是,本发明并不限于上述实施方式中的具体细节,在本发明的技术构思范围内,可以对本发明的技术方案进行多种简单变型,这些简单变型均属于本发明的保护范围。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合,为了避免不必要的重复,本发明对各种可能的组合方式不再另行说明。
此外,本发明的各种不同的实施方式之间也可以进行任意组合,只要其不违背本发明的思想,其同样应当视为本发明所公开的内容。

Claims (3)

1.一种基于标签属性和特征增强的病案文本ICD9代码自动分配方法,其特征在于,包括:
步骤1、从互联网上获取数据,包括病案文本及其对应的ICD9代码、ICD9代码的描述文本、ICD9代码层次结构;去除病案文本和ICD9代码描述文本中出现次数小于2大于3000的单词,并将病案文本的长度处理成N,大于固定长度的截断,小于固定长度的补“PAD”字符串;随机从获取的数据中取出M个病案作为训练数据集,将其中的所有词语存入词典,其中词语的个数为V;
步骤2、使用Gensim工具,在所有训练集病案文本及ICD9代码的描述文本基础上,训练Skip-gram词向量,得到其中每个词对应的d维向量表示,构成词向量矩阵E∈RV×d,将E作为ICD9描述文本对应的词向量矩阵EC∈RV×d,病案文本对应的词向量矩阵ED∈RV×d的初值;
步骤3、根据ICD9代码的层次结构,将ICD9代码分成4个集合C1、C2、C3、C4;C4所有数据中病案文本对应的ICD9代码组成的集合,得到表示C4中ICD9代码和C3中ICD9代码之间的隶属关系; 表示C4中第i个ICD9代码属于C3中第j个ICD9代码,采用同样的方式得到I3、I2
步骤4、通过训练数据集获得C4对应矩阵 表示C4中的第j个ICD9代码被分配给了训练集中第i个病案;通过 得到
步骤5、通过ICD9代码共现矩阵生成算法生成C4集合对应的ICD9代码共现矩阵算法中的ω、f为正整数,p∈[0,1];在此基础上再通过得至G3、G2、G1
步骤6、将每个病案文本表示为词语one-hot向量所组成的矩阵当第i个文档的第n个位置为第v个词时否则将C4中每个ICD9代码的描述文本表示成一个V维向量Sc,v的值为第v个词语在第c个ICD9代码描述文本中出现的次数;将其它集合中每个ICD9代码对应的描述文本表示为其中ch(c)表示c节点的直接子节点;
步骤7、将M个病案文本及对应的构成训练数据集,将训练数据集随机分成若干个大小为B的批量,并分批进行参数训练;
步骤8、反复执行10-20轮步骤7,得到各个参数的取值,以及最后一轮中每个病案文本的分类结果并进行持久化保存;
步骤9、将训练集中病案文本及对应的构成训练数据集,针对C2中ICD9代码进行参数学习;由于病案文本的长尾分布,有的ICD9代码对应训练数据很少,参数难以训练,将根据病案文本C1中的分类结果对C2中代码进行负采样;首先,对从高到低进行排序,取前Z1个组成集合C(i),进一步得到集合其中,ch(C(i))表示C(i)的所有节点的直接子节点;然后,分别使用G2、C2替换原先的G1、C1重新执行步骤7和步骤8;重新执行步骤7时,将各个参数的初值设置为步骤8中得到的值;重新执行步骤8后,将得到新的参数、 并持久化保存;
步骤10、将训练集中病案文本及对应的构成训练数据集,针对C3中ICD9代码进行参数学习;首先,对从高到低进行排序,取前Z2个组成集合C(i),进一步得到集合然后,分别使用G3、C3替换原先的G1、C1重新执行步骤7和步骤8;重新执行步骤7时,将各个参数的初值设置为执行步骤9中得到的参数值;重新执行步骤8,得到新的参数、并持久化保存;
步骤11、将训练集中病案文本及对应的构成训练数据集,针对C4中ICD9代码进行参数学习;首先,对从高到低进行排序,取前Z3个组成集合C(i),进一步得到集合然后,分别使用G4、C4替换原先的G1、C1重新执行步骤7和步骤8;重新执行步骤7时,将各个参数的初值设置为执行步骤10中得到的参数值;重新执行步骤8,得到新的参数、并持久化保存;
步骤12、分别使用步骤8、步骤9、步骤10、步骤11中得到的参数及C1、G1、C2、G2、C3、G3、C4、G4初始化步骤7中的计算过程,将其中的替换为C1、C2、C3、C4,得到针对C1、C2、C3、C4的分类模型;
步骤13、针对每条测试数据,先执行步骤6,然后先后送入针对C1、C2、C3、C4的分类模型,将未曾见过的ICD9代码对应的Uc、Vc设置为0d,得到4个模型的分类结果的ICD9代码分配给相应的病案文本。
2.根据权利要求1所述的基于标签属性和特征增强的病案文本ICD9代码自动分配方法,其特征在于,步骤7包括:
步骤7.1、将ICD9代码的描述文本作为ICD9代码的标签属性,针对C1中每个ICD9代码,通过得到其中每个ICD9代码的标签属性特征
步骤7.2、针对C1中的每个ICD9代码,使用(1)式对进行特征提取,得到标签属性特征新的表示其中, 为参数矩阵;
步骤7.3、将针对C1中的每个ICD9代码,根据C1中ICD9代码之间的共现关系,即共现矩阵G1,使用(2)式、(3)式对属性特征进行特征增强,得到增强后的标签属性特征其中, 为参数矩阵;
步骤7.4、将针对C1中的每个ICD9代码,通过关注机制对Uc进行自适应融合,Uc∈Rd时为额外定义的第c个ICD9代码的语义向量,初值为
融合的计算过程为(4)式、(5)式、(6)式和(7)式,其中,TW∈Rd×d,AW∈R3×3d为参数矩阵,表示向量拼接,q∈R3d,q′∈R3表示3个部分所占比例;每个ICD9代码将根据自身的特点决定融合比例,得到ICD9代码语义表示Wc
t(x)=sigmoid(TWReLU(x)) (4)
步骤7.5、针对批量中的每个病案进行参数训练;
步骤7.6、按(24)式计算该批量对应的交叉熵损失,其中,表示训练集中第i个病案文本是否被分配了第c个ICD9代码;
步骤7.7、使用Adam优化算法,根据loss对参数ECUc、TW、AW、ED、{CNNl,k}l=1:L,k=1:K、λT、RTVc、TH、AH进行学习,学习率为μ。
3.根据权利要求1所述的基于标签属性和特征增强的病案文本ICD9代码自动分配方法,其特征在于,步骤7.5包括:
步骤7.5.1、通过得到病案文本内容的词向量表示送入多层卷积网络对病案文本进行特征提取,计算过程为(8)式和(9)式;其中,CNNlk表示第l层的第k个CNN,CNN:,k对应的卷积核大小为size(k);所有CNNl,k的移动幅度都为1,输入通道数为d,输出通道数都为2*d;padk()计算过程为:
如果size(k)不能被2整除,将在的第1维上前后各增加(size(k)-1)/2个0向量0d
如果size(k)能被2整除,则在的第1维上往前增加(size(k)-1)/2个0d,往后增加size(k)/2个0d
经过每个CNNl,k后将得到每个文本的表示L×K个CNNlk将获得每个病案文本的所有语义表示
步骤7.5.2、针对第i个病案文本对应的中的每个ICD9代码,利用中获得与其密切相关的内容及其的语义表示都置为0d,其计算过程为(10)式和(11)式;其中,λT∈[0,1],RT∈Rd×d为参数矩阵,的计算过程为(12)式、(13)式、(14)式和(15)式;其中,表示在步骤7.5.1中得到的第i个病案文本中第n个词的所有语义向量,ai,c,n,:∈R(L×K)表示第c个ICD9代码与第i个病案文本中第n个词的不同语义表示之间的紧密程度;表示第i个病案文本与第c个ICD9代码比较后得到第n个词语的语义表示,βi,c,:∈RN表示第c个ICD9代码与第i个病案文本中不同词语之间的紧密程度;
步骤7.5.3、针对中每个ICD9代码,使用(16)式对进行特征提取,得到
步骤7.5.4、针对中每个ICD9代码,根据ICD9代码之间的共现关系,即共现矩阵G1,使用(17)式和(18)式对进行特征增强,得到
步骤7.5.5、针对中每个ICD9代码,额外通过进行相关内容提取,Vc∈Rd为第c个ICD9代码对应的相关内容提取向量,初值为从另一个角度得到第i个病案文本中与第c个ICD9代码相关的内容及其语义表示 的计算过程为(12)式、(13)式、(14)式和(15)式;
步骤7.5.6、针对中每个ICD9代码,通过关注机制对进行自适应融合,得到最终的第i个病案文本与第c个ICD9代码相关内容的语义表示Hi,c∈Rd;计算过程为(19)式、(20)式、(21)式和(22)式,其中,TH∈Rd×d,AH∈R3×3d为参数矩阵,q′表示3个部分的融合比例,针对不同ICD9代码将有不同的取值;
t(x)=sigmoid(THReLU(x)) (19)
步骤7.5.7、针对中每个ICD9代码,使用(23)式,将Hi,c与Wc相比较,得到分类结果yi,c∈[0,1],yi,c表示第i个病案文本被分配第c个ICD9代码的概率;par(c)表示第c个ICD9代码的父节点,yi,par(c)表示第i个病案文本为par(c)的比较结果;如果par(c)=φ,yi,par(c)=1;
yi,c=yi,par(c)sigmoid(WcHi,c T) (23)。
CN202111202974.4A 2021-10-15 2021-10-15 基于标签属性和特征增强的病案文本icd9代码自动分配方法 Active CN113901805B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111202974.4A CN113901805B (zh) 2021-10-15 2021-10-15 基于标签属性和特征增强的病案文本icd9代码自动分配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111202974.4A CN113901805B (zh) 2021-10-15 2021-10-15 基于标签属性和特征增强的病案文本icd9代码自动分配方法

Publications (2)

Publication Number Publication Date
CN113901805A CN113901805A (zh) 2022-01-07
CN113901805B true CN113901805B (zh) 2025-01-28

Family

ID=79192452

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111202974.4A Active CN113901805B (zh) 2021-10-15 2021-10-15 基于标签属性和特征增强的病案文本icd9代码自动分配方法

Country Status (1)

Country Link
CN (1) CN113901805B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109697285A (zh) * 2018-12-13 2019-04-30 中南大学 增强语义表示的层次BiLSTM中文电子病历疾病编码标注方法
CN110866117A (zh) * 2019-10-25 2020-03-06 西安交通大学 一种基于语义增强与多层次标签嵌入的短文本分类方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6915254B1 (en) * 1998-07-30 2005-07-05 A-Life Medical, Inc. Automatically assigning medical codes using natural language processing
US7493253B1 (en) * 2002-07-12 2009-02-17 Language And Computing, Inc. Conceptual world representation natural language understanding system and method
US20080288292A1 (en) * 2007-05-15 2008-11-20 Siemens Medical Solutions Usa, Inc. System and Method for Large Scale Code Classification for Medical Patient Records
CN111492437A (zh) * 2017-12-29 2020-08-04 英泰曲尔德直线有限公司 支持医学决策的方法和系统
CN112711953B (zh) * 2021-01-19 2024-01-26 湖南大学 一种基于注意力机制和gcn的文本多标签分类方法和系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109697285A (zh) * 2018-12-13 2019-04-30 中南大学 增强语义表示的层次BiLSTM中文电子病历疾病编码标注方法
CN110866117A (zh) * 2019-10-25 2020-03-06 西安交通大学 一种基于语义增强与多层次标签嵌入的短文本分类方法

Also Published As

Publication number Publication date
CN113901805A (zh) 2022-01-07

Similar Documents

Publication Publication Date Title
Peng et al. Refuel: Exploring sparse features in deep reinforcement learning for fast disease diagnosis
US11232141B2 (en) Method and device for processing an electronic document
CN110532353B (zh) 基于深度学习的文本实体匹配方法、系统、装置
CN111709243B (zh) 一种基于深度学习的知识抽取方法与装置
AU2021225262B2 (en) Scene graph modification based on natural language commands
CN112667780B (zh) 一种评论信息的生成方法、装置、电子设备及存储介质
CN114023412B (zh) 基于联合学习和去噪机制的icd代码预测方法及系统
US11645447B2 (en) Encoding textual information for text analysis
CN110879938A (zh) 文本情感分类方法、装置、设备和存储介质
CN107066451A (zh) 人机交互翻译模型的更新方法及更新系统
CN111476038A (zh) 长文本生成方法、装置、计算机设备和存储介质
Yu et al. Adversarial active learning for the identification of medical concepts and annotation inconsistency
CN110866102A (zh) 检索处理方法
CN118411572B (zh) 基于多模态多层次特征聚合的小样本图像分类方法及系统
CN113157907B (zh) 一种基于语篇结构的层次文本摘要获取方法、系统、终端设备及可读存储介质
CN112131363B (zh) 自动问答方法、装置、设备及存储介质
CN113901805B (zh) 基于标签属性和特征增强的病案文本icd9代码自动分配方法
CN114021572A (zh) 一种自然语言处理方法、装置、设备及可读存储介质
CN118656475A (zh) 基于图神经网络检索器增强大语言模型生成的问答方法
CN115757801B (zh) 用于医疗文本的基于决策树的模型训练方法和装置
Lauren et al. Convolutional neural network for clinical narrative categorization
CN108921213B (zh) 一种实体分类模型训练方法及装置
CN117807492A (zh) 基于文本相似度与深度学习的摘要来源检测方法
Shah et al. A hybrid approach of text summarization using latent semantic analysis and deep learning
CN113032558A (zh) 融合维基知识的变分半监督百度百科分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant