[go: up one dir, main page]

CN118228734A - 基于大语言模型做数据增强的医学术语归一化方法 - Google Patents

基于大语言模型做数据增强的医学术语归一化方法 Download PDF

Info

Publication number
CN118228734A
CN118228734A CN202410266524.9A CN202410266524A CN118228734A CN 118228734 A CN118228734 A CN 118228734A CN 202410266524 A CN202410266524 A CN 202410266524A CN 118228734 A CN118228734 A CN 118228734A
Authority
CN
China
Prior art keywords
data
terms
term
dictionary
language model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202410266524.9A
Other languages
English (en)
Inventor
梁国艳
戴振龙
崔奥明
王贵宣
陈静远
宛袁玉
姚畅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202410266524.9A priority Critical patent/CN118228734A/zh
Publication of CN118228734A publication Critical patent/CN118228734A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于大语言模型做数据增强的医学术语归一化方法。1)将中文医学术语归一化数据集中的数据经过数据清洗得到标准化的原始数据;2)基于步骤1)得到的标准化的原始数据采用大语言模型做数据增强,得到增强数据:3)构建Med‑Term‑Norm神经网络模型;4)训练步骤3)的神经网络模型;5)使用训练好的神经网络模型对输入的提及进行预测,将提及归一化为与之最接近的术语。本发明将大量的先验知识通过大语言模型和预训练模型BERT的形式引入到Med‑Term‑Norm神经网络模型中,解决了词汇缺乏上下文语境的问题;此外,本发明可以利用训练好的神经网络模型对输入的提及进行归一化术语的预测。

Description

基于大语言模型做数据增强的医学术语归一化方法
技术领域
本发明属于医学自然语言处理技术领域,具体是指一种基于大语言模型做数据增强的医学术语归一化方法。
背景技术
医学术语归一化是指将医疗mention标准化为一致和公认的术语的关键任务。这一过程在加强医疗专业人员之间的沟通和促进医疗信息的有效共享方面起着关键作用。医学术语标准化的实现在很大程度上依赖于已建立的标准化术语系统和分类系统,如统一医学语言系统(UMLS)、系统化的医学临床术语(SNOMED-CT)、监管活动医学词典(MedDRA)和国际疾病分类(ICD-9,ICD-10)等。某些医学术语在保持相似的含义的同时,可能会表现出不同的形式。例如,术语“阿司匹林”和“乙酰水杨酸”都是指同一种药物。这种多样性导致了医学术语中多种变异的存在。此外,在医学领域内共享相似的表面形式的mention也可以具有不同的含义。例如,术语“肌营养不良病”和“雌型脂肪病”在书面形式中可能看起来相似,但它们实际上指的是不同的医学含义。最后,医学领域的专业知识和背景数据的获取受到隐私保护的限制,对归一化算法的训练和评估造成了限制。
由于以上限制带来的挑战,在标准化任务中准确学习医学术语的语义表示是至关重要的。先前的方法尝试通过基于有限信息的任务特定的模型来学习准确的术语表示是很困难的。数据增强是一种令人满意的策略可以有效地解决这一问题。然而,大多数传统的数据增强技术通过构建样本来解决数据稀缺的问题,而不是解决语义表示的挑战。随着大型语言模型(LLMs)的出现,如ChatGPT、LLaMa、ChatGLM,预先训练好的模型不仅可以用于特征提取和处理,还可以通过提示工程实现输入周围的医学术语的扩展和增强。LLM可以有效地解决医学术语归一化环境中存在的挑战。
鉴于大语言模型杰出的文本生成能力和效果,我们将其引入到医学术语归一化任务中。如果我们想使用大语言模型做数据增强来处理医学术语归一化任务,对于获得的原始数据和增强数据,我们必须找到一种合适的方法使大语言模型生成原始数据的相关上下文信息,引入契合任务特点的输入和输出方式,并且找到一种准确表示术语的算法。
发明内容
为了解决背景技术中的问题,本发明提供了一种基于大语言模型做数据增强的医学术语归一化方法。本发明的目的在于利用大语言模型所包含的大范围语料知识对原始mention进行数据增强,以弥补缺失的上下文信息。针对获得的增强数据与原始数据,我们提供了一种方法使模型可以根据不同的输入做动态调整。
本发明采用的技术方案如下
一、一种基于大语言模型做数据增强的医学术语归一化方法
包括以下步骤:
1)对中文医学术语归一化数据集进行数据清洗,得到标准化的原始数据;其中,中文医学术语归一化数据集包括提及mention和字典dictionary两部分;
归一化方法的目标是从字典中找到与mention最相近的一个标准术语。
2)将步骤1)得到的标准化的原始数据基于提示学习的大语言模型(LLMs)做数据增强,得到增强数据;
3)构建Med-Term-Norm神经网络模型;
4)使用步骤1)获得的原始数据和步骤2)获得的增强数据训练步骤3)构建的Med-Term-Norm神经网络模型,根据准确率的大小选取参数,最终确定一组令准确率最大的一组参数;
5)使用训练好的模型对输入的提及进行预测,将提及归一化为与之最接近的术语。
所述步骤1)中,数据清洗包括去除错误标注、未知的标点和错别字。
所述步骤3)具体包括以下步骤:
基于语言模型BERT Encoder和IF-IDF构建Med-Term-Norm神经网络模型,包括召回和排序两个阶段;
3.1)召回阶段:通过语言模型BERT Encoder和IF-IDF计算提及和字典中每个术语term的相似性分数,并按照综合分数对字典中的术语进行排序,选出Top K个候选词作为当前提及归一化后的术语:
所述步骤3.1)具体为:
3.1.1)基于语言模型BERT Encoder计算提及和字典中每个术语的语义相似性:
首先通过语言模型BERT Encoderψ(·)生成原始数据的提及嵌入特征(mentionembeddings)和字典中术语的嵌入特征(term embeddings)/>以及生成增强数据的提及嵌入特征/>和字典中术语的嵌入特征/>
其中,m表示提及,t表示字典中的术语,和/>h表示BERTEncoder隐藏层的维度(h=768);
然后通过矩阵相乘分别计算原始数据和增强数据下的语义相似性分数和/>
其中,和/>
3.1.2)基于n-grams的TF-IDF计算提及和字典中每个术语的字符相似性:
首先通过n-grams的TF-IDFφ(·)生成原始数据的提及嵌入特征(mentionembeddings)和字典中术语的嵌入特征(term embeddings)/>以及生成增强数据的提及嵌入特征(mention embeddings)/>和字典中术语的嵌入特征(term embeddings)
其中,和/>
然后再通过矩阵相乘分别计算原始数据和增强数据下的字符相似性分数
其中,和/>
3.1.3)基于步骤3.1.1)得到的语义相似性分数和步骤3.1.2)得到的字符相似性分数的加和对字典中的术语进行排序,并选择综合分数最高的Top K个候选术语作为步骤3.2)的输入:
其中,Sort()表示对综合相似度分数进行排序,maxK()表示按排序后的分数选择相似性最高的K个术语作为候选词。
3.2)排序阶段:将步骤3.1)得到的Top K个候选术语重新输入到BERT Encoder中得到新的嵌入特征并计算语义相似度分数,再根据步骤3.1)计算的字符相似度分数做融合得到最终的打分,对结果进行排序,得到当前提及归一化后的最终术语;
所述步骤3.2)具体为:
3.2.1)首先通过语言模型BERT Encoderψ(·)生成步骤3.1)召回的Top K个候选术语的嵌入特征与提及嵌入特征/>
其中,和/>h表示BERT Encoder隐藏层的维度(h=768),步骤3.2.1)的BERT Encoderψ(·)与步骤3.1)的BERT Encoderψ(·)共享相同的参数;
然后通过矩阵相乘计算术语嵌入特征与提及嵌入特征/>的相似度Sd
其中,Sd∈R;
3.2.2)通过α和β调节原始数据的字符相似度分数和增强数据的字符相似度分数/>所占的权重,对得到的综合分数S进行排序,选择综合分数最高的Top M个术语作为最终的结果;
其中,S∈R,得到的综合分数平衡了原始数据和增强数据以及字符表示和语义表示的重要性;最终的结果Top M个术语是对步骤3.1)中Top K个术语的更新优化,且K>M。
所述步骤4)具体为:采用步骤1)得到的原始数据和步骤2)得到的增强数据训练步骤3)构建的Med-Term-Norm神经网络模型,选取负对数似然函数为最终损失函数L,采用误差反向传播对神经网络模型的权值和偏置进行调整;根据训练过程中模型准确率选取神经网络模型参数,将准确率最大时对应的一组参数作为Med-Term-Norm神经网络模型参数;
其中,N是数据集中提及的数目,M表示步骤3.2)召回的Top M个候选术语,Equal(mi,tj)表示当mi经模型预测后的值与tj相同时为1,否则为0;T表示字典中的术语;mi表示第i个提及,tj表示字典中的第j个术语;S表示最终的分数,Sj表示字典中第j个术语对应的相似性得分。
所述步骤(5)具体为:将提及和字典中的术语经过大语言模型做数据增强得到增强数据,将获得的原始和增强数据输入训练好的BERT Encoder计算语义相似度,经过固定的n-grams的TF-IDF计算字符相似度,对得到的字符和语义相似度的总分进行排序,根据总分从字典中选出Top M个候选术语作为最后的预测结果。
二、一种终端
包括存储器和处理器;
所述存储器,用于存储计算机程序;
所述处理器,用于当执行所述计算机程序时,实现上述基于大语言模型做数据增强的医学术语归一化方法。
三、一种计算机可读存储介质
所述存储介质上存储有计算机程序,当所述计算机程序被处理器执行时,实现上述基于大语言模型做数据增强的医学术语归一化方法。
本发明的有益效果:
本发明首先使用大语言模型包含的丰富的先验知识对原始的短语做数据增强,得到的结果可以很大程度上还原该短语缺失的上下文信息;此外还使用深度预训练神经网络BERT所包含的先验知识训练Med-Term-Norm神经网络模型,以此来进一步挖掘其中的语义及上下文信息;最后,本发明还利用TF-IDF来补充以上方法存在些许疏漏,即字符相似度很高的短语。结果表明,本发明在真实数据集上取得了显著的效果。
附图说明
图1为本发明方法的流程图。
具体实施方式
下面结合附图及具体实施例对本发明作进一步详细说明。
如图1所示,本发明的一种基于大语言模型做数据增强的医学术语归一化方法,包括如下步骤:
步骤1):中文医学术语归一化数据集包括两部分提及Mention和字典Dictionary,这些数据经过数据清洗如去除错误标注以及未知的标点或错别字等,得到标准化的原始数据;
步骤2):将步骤1)得到的标准化的原始数据基于大语言模型(LLMs)做数据增强,得到增强的数据;
如图1上部分所示,原始mention“阿司匹林”经过大语言模型(LLMs)做数据增强得到增强的提及mention“阿司匹林是一种非甾体类抗炎药又称乙酰水杨酸,缩写为ASA......”,同样地,字典中的每一个术语也经过数据增强得到其对应的增强数据;
步骤3):构建如图1下部分所示的Med-Term-Norm神经网络模型:基于语言模型BERT Encoder和IF-IDF构建Med-Term-Norm神经网络模型,该模型包括召回和排序两个阶段;
3.1)召回阶段:召回阶段是通过语言模型BERT Encoder和IF-IDF计算mention和字典中每个term的相似性分数,并按照综合分数对字典中的术语进行排序,选出Top K个候选词作为该mention归一化的术语:
3.1.1)基于语言模型BERT Encoder计算mention和字典中每个term的语义相似性:
首先是通过语言模型BERT Encoderψ(·)生成原始数据的mention embeddings和字典中term embeddings/>同样地,也可以生成增强数据的mention embeddings和字典中term embeddings/>
其中和/>h表示BERT Encoder隐藏层的维度(h=768);
然后再通过矩阵相乘分别计算原始数据和增强数据下的语义相似性得分
其中和/>
3.1.2)基于n-grams的TF-IDF计算mention和字典中每个term的字符相似性:
首先是通过n-grams的TF-IDFφ(·)生成原始数据的mention embeddings和字典中term embeddings/>同样地,也可以生成增强数据的mention embeddings/>和字典中term embeddings/>
其中和/>
然后再通过矩阵相乘分别计算原始数据和增强数据下的字符相似性得分
其中和/>
3.1.3)基于步骤3.1.1)得到的语义相似性分数和步骤3.1.2)得到的字符相似性分数的加和对字典中的术语进行排序,并选择综合分数最高的Top K个候选术语作为步骤3.2)的输入:
其中Sort()表示对综合相似度分数进行排序,maxK()表示按排序后的分数选择相似性最高的K个术语作为候选词;
3.2)排序阶段:将步骤3.1)得到的Top K个候选术语重新输入到BERT Encoder中得到新的embeddings并计算语义相似度分数,再根据步骤3.1)计算的字符相似度分数做融合得到最终的打分,对结果进行排序,得到最后该mention归一化后的术语:
3.2.1)首先是通过语言模型BERT Encoderψ(·)生成步骤3.1)召回的Top K个候选term embeddings与mention embeddings/>
其中和/>h表示BERT Encoder隐藏层的维度(h=768),这里的BERTEncoderψ(·)与步骤3.1)的BERT Encoderψ(·)共享相同的参数;
然后通过矩阵相乘计算term embeddings与mention embeddings/>的相似度Sd
其中Sd∈R;
3.2.2)通过α和β来调节原始数据的字符相似度分数和增强数据的字符相似度分数/>所占的权重,对得到的综合分数进行排序,选择Top M个术语作为最终的结果;
其中S∈R,得到的综合分数平衡了原始数据和增强数据以及字符表示和语义表示的重要性。
步骤4):训练Med-Term-Norm神经网络模型,根据准确率的大小选取参数,最终确定一组令准确率最大的一组参数。
本发明的网络模型可以根据输入的一个mention从现存的数据库中筛选出与该mention最接近的术语。在Med-Term-Norm神经网络模型中,我们利用大语言模型(LLMs)做数据增强,可以补充简短的mention或term缺少的一些上下文信息;此外,我们引入深度预训练模型BERT作为网络模型的一部分,BERT通过大量语料库的预训练可以很好地捕捉到句子间的语义信息;最后,我们还引入了n-grams的IF-IDF来计算字符相似性。三者实现了完美的结合,达到了令人惊叹的效果。
采用步骤1)的原始数据和步骤2)获得的增强数据对构建的Med-Term-Norm神经网络模型进行训练,选取负对数似然函数为最终损失函数L,采用误差反向传播对神经网络模型的权值和偏置进行调整;
其中N是数据集中Mention的数目,M表示步骤3)召回的Top M个候选词,Equal(mi,tj)表示当mi经模型预测后的值与tj相同时为1,否则为0;
步骤5):使用训练好的模型对输入的mention进行预测,将mention归一化为与之最接近的术语。
所述步骤(5)具体为:将mention和字典中的term经过大语言模型做数据增强得到增强数据,获得的原始和增强数据经过训练好的BERT Encoder计算语义相似度,经过固定的n-grams的TF-IDF计算字符相似度,对得到的字符和语义相似度的总分进行排序,根据总分从字典中选出Top K个候选术语作为最后的预测结果。
该方法在整理之后的中文医学术语归一化数据集CMT上的效果如下:
注:
(1)BioSyn是当前医学术语归一化的SOTA模型,Med-Term-Norm是本发明的模型;
(2)Acc@1:表示筛选出的Top K个候选词中第一个即为正确结果的概率,值越大准确率越高,模型训练效果越好;
(3)Acc@3:表示筛选出的Top K个候选词中前三个中包含正确结果的概率,值越大准确率越高,模型训练效果越好;
(4)Acc@5:表示筛选出的Top K个候选词中前五个中包含正确结果的概率,值越大准确率越高,模型训练效果越好;
(5)本发明使用不同的大语言模型ChatGPT,ChatGLM,QizhenGPT做数据增强,Ori表示原词,未做数据增强;
(6)相较于BioSyn,本发明Med-Term-Norm模型在相同的数据集上使用ChatGPT做数据增强的准确率Acc@1、Acc@3、Acc@5分别提高了29.4%、31.4%、28.6%;使用ChatGLM做数据增强的准确率Acc@1、Acc@3、Acc@5分别提高了18.3%,16.1%,13.1%;使用QizhenGPT做数据增强的准确率Acc@1、Acc@3、Acc@5分别提高了27.9%,26.1%,23.7%。

Claims (9)

1.一种基于大语言模型做数据增强的医学术语归一化方法,其特征在于,包括以下步骤:
1)对中文医学术语归一化数据集进行数据清洗,得到标准化的原始数据;所述中文医学术语归一化数据集包括提及mention和字典dictionary两部分;
2)将步骤1)得到的标准化的原始数据基于提示学习的大语言模型做数据增强,得到增强数据;
3)构建Med-Term-Norm神经网络模型;
4)使用步骤1)获得的原始数据和步骤2)获得的增强数据训练步骤3)构建的Med-Term-Norm神经网络模型,根据准确率的大小选取参数,最终确定一组令准确率最大的一组参数;
5)使用训练好的模型对输入的提及进行预测,将提及归一化为与之最接近的术语。
2.根据权利要求1所述的一种基于大语言模型做数据增强的医学术语归一化方法,其特征在于,所述步骤1)中,数据清洗包括去除错误标注、未知的标点和错别字。
3.根据权利要求1所述的一种基于大语言模型做数据增强的医学术语归一化方法,其特征在于,所述步骤3)具体包括以下步骤:
基于语言模型BERT Encoder和IF-IDF构建Med-Term-Norm神经网络模型,包括召回和排序两个阶段;
3.1)召回阶段:通过语言模型BERT Encoder和IF-IDF计算提及和字典中每个术语的相似性分数,并按照综合分数对字典中的术语进行排序,选出Top K个候选词作为当前提及归一化后的术语:
3.2)排序阶段:将步骤3.1)得到的Top K个候选术语重新输入到BERT Encoder中得到新的嵌入特征并计算语义相似度分数,再根据步骤3.1)计算的字符相似度分数做融合得到最终的打分,对结果进行排序,得到当前提及归一化后的最终术语。
4.根据权利要求1所述的一种基于大语言模型做数据增强的医学术语归一化方法,其特征在于,所述步骤3.1)具体为:
3.1.1)基于语言模型BERT Encoder计算提及和字典中每个术语的语义相似性:
首先通过语言模型BERT Encoderψ(·)生成原始数据的提及嵌入特征和字典中术语的嵌入特征/>以及生成增强数据的提及嵌入特征/>和字典中术语的嵌入特征/>
其中,m表示提及,t表示字典中的术语,和/>h表示BERTEncoder隐藏层的维度;
然后通过矩阵相乘分别计算原始数据和增强数据下的语义相似性分数和/>
其中,和/>
3.1.2)基于n-grams的TF-IDF计算提及和字典中每个术语的字符相似性:
首先通过n-grams的TF-IDFφ(·)生成原始数据的提及嵌入特征和字典中术语的嵌入特征/>以及生成增强数据的提及嵌入特征/>和字典中术语的嵌入特征/>
其中,和/>
然后再通过矩阵相乘分别计算原始数据和增强数据下的字符相似性分数和/>
其中,和/>
3.1.3)基于步骤3.1.1)得到的语义相似性分数和步骤3.1.2)得到的字符相似性分数的加和对字典中的术语进行排序,并选择综合分数最高的Top K个候选术语作为步骤3.2)的输入:
其中,Sort()表示对综合相似度分数进行排序,maxK()表示按排序后的分数选择相似性最高的K个术语作为候选词。
5.根据权利要求1所述的一种基于大语言模型做数据增强的医学术语归一化方法,其特征在于,所述步骤3.2)具体为:
3.2.1)首先通过语言模型BERT Encoderψ(·)生成步骤3.1)召回的Top K个候选术语的嵌入特征与提及嵌入特征/>
其中,和/>h表示BERT Encoder隐藏层的维度,步骤3.2.1)的BERT Encoderψ(·)与步骤3.1)的BERT Encoderψ(·)共享相同的参数;
然后通过矩阵相乘计算术语嵌入特征与提及嵌入特征/>的相似度Sd
其中,Sd∈R;
3.2.2)通过α和β调节原始数据的字符相似度分数和增强数据的字符相似度分数/>所占的权重,对得到的综合分数S进行排序,选择综合分数最高的Top M个术语作为最终的结果;
其中,S∈R;K>M。
6.根据权利要求1所述的一种基于大语言模型做数据增强的医学术语归一化方法,其特征在于,所述步骤4)具体为:采用步骤1)得到的原始数据和步骤2)得到的增强数据训练步骤3)构建的Med-Term-Norm神经网络模型,选取负对数似然函数为最终损失函数L,采用误差反向传播对神经网络模型的权值和偏置进行调整;根据训练过程中模型准确率选取神经网络模型参数,将准确率最大时对应的一组参数作为Med-Term-Norm神经网络模型参数;
其中,N是数据集中提及的数目,M表示步骤3.2)召回的Top M个候选术语,Equal(mi,tj)表示当mi经模型预测后的值与tj相同时为1,否则为0;T表示字典中的术语;mi表示第i个提及,tj表示字典中的第j个术语;S表示最终的分数,Sj表示字典中第j个术语对应的相似性得分。
7.根据权利要求1所述的一种基于大语言模型做数据增强的医学术语归一化方法,其特征在于,所述步骤(5)具体为:将提及和字典中的术语经过大语言模型做数据增强得到增强数据,将获得的原始和增强数据输入训练好的BERT Encoder计算语义相似度,经过固定的n-grams的TF-IDF计算字符相似度,对得到的字符和语义相似度的总分进行排序,根据总分从字典中选出Top M个候选术语作为最后的预测结果。
8.一种终端,其特征在于,包括存储器和处理器;
所述存储器,用于存储计算机程序;
所述处理器,用于当执行所述计算机程序时,实现权利要求1~7任一所述的基于大语言模型做数据增强的医学术语归一化方法。
9.一种计算机可读存储介质,其特征在于,所述存储介质上存储有计算机程序,当所述计算机程序被处理器执行时,实现权利要求1~7任一所述的基于大语言模型做数据增强的医学术语归一化方法。
CN202410266524.9A 2024-03-08 2024-03-08 基于大语言模型做数据增强的医学术语归一化方法 Pending CN118228734A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410266524.9A CN118228734A (zh) 2024-03-08 2024-03-08 基于大语言模型做数据增强的医学术语归一化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410266524.9A CN118228734A (zh) 2024-03-08 2024-03-08 基于大语言模型做数据增强的医学术语归一化方法

Publications (1)

Publication Number Publication Date
CN118228734A true CN118228734A (zh) 2024-06-21

Family

ID=91497323

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410266524.9A Pending CN118228734A (zh) 2024-03-08 2024-03-08 基于大语言模型做数据增强的医学术语归一化方法

Country Status (1)

Country Link
CN (1) CN118228734A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118586404A (zh) * 2024-08-06 2024-09-03 杭州古珀医疗科技有限公司 一种离院医嘱信息提取和标准化方法和装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118586404A (zh) * 2024-08-06 2024-09-03 杭州古珀医疗科技有限公司 一种离院医嘱信息提取和标准化方法和装置

Similar Documents

Publication Publication Date Title
CN112541356B (zh) 一种生物医学命名实体识别的方法和系统
CN104298651B (zh) 一种基于深度学习的生物医学命名实体识别和蛋白质交互关系抽取在线方法
TWI662425B (zh) 一種自動生成語義相近句子樣本的方法
CN114911892A (zh) 用于搜索、检索和排序的交互层神经网络
CN110619034A (zh) 基于Transformer模型的文本关键词生成方法
CN105138864B (zh) 基于生物医学文献的蛋白质交互关系数据库构建方法
CN109325242B (zh) 基于词对和翻译判断句子是否对齐的方法、装置及设备
CN112232087B (zh) 一种基于Transformer的多粒度注意力模型的特定方面情感分析方法
CN112417155B (zh) 基于指针-生成Seq2Seq模型的庭审询问生成方法、装置、介质
CN111428490A (zh) 一种利用语言模型的指代消解弱监督学习方法
CN111126040A (zh) 一种基于深度边界组合的生物医学命名实体识别方法
CN116662502A (zh) 基于检索增强的金融问答文本生成方法、设备及存储介质
CN112256866A (zh) 一种基于深度学习的文本细粒度情感分析方法
CN107305543B (zh) 对实体词的语义关系进行分类的方法和装置
CN114818717A (zh) 融合词汇和句法信息的中文命名实体识别方法及系统
Zennaki et al. Unsupervised and lightly supervised part-of-speech tagging using recurrent neural networks
CN111222330A (zh) 一种中文事件的检测方法和系统
CN116258147A (zh) 一种基于异构图卷积的多模态评论情感分析方法及系统
CN118228734A (zh) 基于大语言模型做数据增强的医学术语归一化方法
WO2023116572A1 (zh) 一种词句生成方法及相关设备
CN112818128B (zh) 一种基于知识图谱增益的机器阅读理解系统
CN116757195B (zh) 一种基于提示学习的隐性情感识别方法
CN112182159A (zh) 一种基于语义表示的个性化检索式对话方法和系统
CN117436522A (zh) 生物事件关系抽取方法及癌症主题的大规模生物事件关系知识库构建方法
Li et al. Improving Medical Q&A Matching by Augmenting Dual‐Channel Attention with Global Similarity

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination