[go: up one dir, main page]

CN107680689A - 医疗文本的潜在疾病推断方法、系统及可读存储介质 - Google Patents

医疗文本的潜在疾病推断方法、系统及可读存储介质 Download PDF

Info

Publication number
CN107680689A
CN107680689A CN201710313520.1A CN201710313520A CN107680689A CN 107680689 A CN107680689 A CN 107680689A CN 201710313520 A CN201710313520 A CN 201710313520A CN 107680689 A CN107680689 A CN 107680689A
Authority
CN
China
Prior art keywords
medical
disease
text
vocabulary
medical text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710313520.1A
Other languages
English (en)
Inventor
赵清源
韦邕
吕梓燊
徐亮
肖京
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201710313520.1A priority Critical patent/CN107680689A/zh
Publication of CN107680689A publication Critical patent/CN107680689A/zh
Priority to PCT/CN2018/076149 priority patent/WO2018201772A1/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16ZINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS, NOT OTHERWISE PROVIDED FOR
    • G16Z99/00Subject matter not provided for in other main groups of this subclass
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明公开了一种医疗文本的潜在疾病推断方法、系统及可读存储介质,该方法包括:对收到的医疗文本进行分词,并将该医疗文本对应的各个分词与预先确定的医疗领域专用词汇库进行匹配,提取出该医疗文本对应的各个分词中的医疗词汇;基于预先构建的医疗专业数据库,确定该医疗文本中的医疗词汇对应的疾病;其中,所述医疗专业数据库中包含不同类型疾病与医疗词汇的映射关系;将确定的疾病作为推断出的该医疗文本的潜在疾病进行输出。本发明准确、高效地推断出医疗文本的潜在疾病。

Description

医疗文本的潜在疾病推断方法、系统及可读存储介质
技术领域
本发明涉及计算机技术领域,尤其涉及一种医疗文本的潜在疾病推断方法、系统及可读存储介质。
背景技术
一般情况下,处理医疗文本的第一步都是推断潜在的疾病,进而才能进行接下来的诊断建议。现有技术中针对医疗文本的潜在疾病推断,只能根据医生的个人经验人工推断该医疗文本中的潜在疾病,效率较低,无法利用现有的医疗数据资源来进行潜在疾病的有效推断。
发明内容
本发明的主要目的在于提供一种医疗文本的潜在疾病推断方法、系统及可读存储介质,旨在准确、高效地推断出医疗文本的潜在疾病。
为实现上述目的,本发明提供的一种医疗文本的潜在疾病推断方法,所述方法包括以下步骤:
A、对收到的医疗文本进行分词,并将该医疗文本对应的各个分词与预先确定的医疗领域专用词汇库进行匹配,提取出该医疗文本对应的各个分词中的医疗词汇;
B、基于预先构建的医疗专业数据库,确定该医疗文本中的医疗词汇对应的疾病;其中,所述医疗专业数据库中包含不同类型疾病与医疗词汇的映射关系;
C、将确定的疾病作为推断出的该医疗文本的潜在疾病进行输出。
优选地,所述步骤A之前还包括:
从预先确定的数据源获取医疗数据,从所述医疗数据中找出每一种疾病对应的一个或多个医疗词汇,并根据不同类型疾病与医疗词汇的映射关系建立医疗专业数据库。
优选地,所述医疗词汇包括:
疾病对应的简介信息、症状信息、并发症信息、治疗药品信息或治疗科室信息中的医疗词汇。
优选地,所述医疗专业数据库中还包含疾病对应的各个医疗词汇的权重,所述步骤B包括:
基于预先构建的医疗专业数据库,找出该医疗文本中各个医疗词汇对应的疾病,并计算各个疾病对应的医疗词汇的权重加和,选择对应的医疗词汇的权重加和最高的疾病作为确定出的该医疗文本对应的疾病。
优选地,所述对收到的医疗文本进行分词处理的步骤包括:
根据正向最大匹配法将该医疗文本与预先确定的医疗领域专用词汇库进行匹配,得到第一匹配结果,所述第一匹配结果中包含有第一数量的第一词组和第三数量的单字;
根据逆向最大匹配法将该医疗文本与预先确定的医疗领域专用词汇库进行匹配,得到第二匹配结果,所述第二匹配结果中包含有第二数量的第二词组和第四数量的单字;
若所述第一数量与所述第二数量相等,且所述第三数量小于或者等于所述第四数量,则将所述第一匹配结果作为该医疗文本的分词结果;
若所述第一数量与所述第二数量相等,且所述第三数量大于所述第四数量,则将所述第二匹配结果作为该医疗文本的分词结果;
若所述第一数量与所述第二数量不相等,且所述第一数量大于所述第二数量,则将所述第二匹配结果作为该医疗文本的分词结果;
若所述第一数量与所述第二数量不相等,且所述第一数量小于所述第二数量,则将所述第一匹配结果作为该医疗文本的分词结果。
此外,为实现上述目的,本发明还提供一种医疗文本的潜在疾病推断系统,所述医疗文本的潜在疾病推断系统包括:
分词提取模块,用于对收到的医疗文本进行分词,并将该医疗文本对应的各个分词与预先确定的医疗领域专用词汇库进行匹配,提取出该医疗文本对应的各个分词中的医疗词汇;
确定模块,用于基于预先构建的医疗专业数据库,确定该医疗文本中的医疗词汇对应的疾病;其中,所述医疗专业数据库中包含不同类型疾病与医疗词汇的映射关系;
输出模块,用于将确定的疾病作为推断出的该医疗文本的潜在疾病进行输出。
优选地,还包括:
建立模块,用于从预先确定的数据源获取医疗数据,从所述医疗数据中找出每一种疾病对应的一个或多个医疗词汇,并根据不同类型疾病与医疗词汇的映射关系建立医疗专业数据库。
优选地,所述医疗词汇包括:
疾病对应的简介信息、症状信息、并发症信息、治疗药品信息或治疗科室信息中的医疗词汇。
优选地,所述医疗专业数据库中还包含疾病对应的各个医疗词汇的权重,所述确定模块还用于:
基于预先构建的医疗专业数据库,找出该医疗文本中各个医疗词汇对应的疾病,并计算各个疾病对应的医疗词汇的权重加和,选择对应的医疗词汇的权重加和最高的疾病作为确定出的该医疗文本对应的疾病。
进一步地,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有医疗文本的潜在疾病推断系统,所述医疗文本的潜在疾病推断系统可被至少一个处理器执行,以使所述至少一个处理器执行如上述的医疗文本的潜在疾病推断方法的步骤。
本发明提出的医疗文本的潜在疾病推断方法、系统及可读存储介质,通过对收到的医疗文本进行分词,提取出该医疗文本对应的各个分词中的医疗词汇;并基于预先构建的包含不同疾病与医疗词汇的映射关系的医疗专业数据库,确定该医疗文本中的医疗词汇对应的疾病,以作为推断出的该医疗文本的潜在疾病。由于能根据各种医疗数据资源构建不同疾病与医疗词汇的映射关系,并根据医疗文本中的医疗词汇找到与之映射的疾病,相比根据医生个人经验进行人工推断,效率更高且准确率更高。
附图说明
图1为本发明医疗文本的潜在疾病推断方法第一实施例的流程示意图;
图2为本发明医疗文本的潜在疾病推断方法第二实施例的流程示意图;
图3为本发明医疗文本的潜在疾病推断系统10较佳实施例的运行环境示意图;
图4为本发明医疗文本的潜在疾病推断系统第一实施例的功能模块示意图;
图5为本发明医疗文本的潜在疾病推断系统第二实施例的功能模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚、明白,以下结合附图和实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明提供一种医疗文本的潜在疾病推断方法。
参照图1,图1为本发明医疗文本的潜在疾病推断方法一实施例的流程示意图。
在一实施例中,该医疗文本的潜在疾病推断方法包括:
步骤S10,对收到的医疗文本进行分词,并将该医疗文本对应的各个分词与预先确定的医疗领域专用词汇库进行匹配,提取出该医疗文本对应的各个分词中的医疗词汇。
接收待诊断的医疗文本,如可接收用户通过浏览器、客户端APP等发送的待诊断的医疗文本。本实施例中,在收到医疗文本后,首先对收到的医疗文本进行分词处理。例如,可根据标点符号将医疗文本切分成一条条完整的语句,再对各个切分的语句进行分词处理,如可利用字符串匹配的分词方法对各个切分的语句进行分词处理,如正向最大匹配法,把一个切分的语句中的字符串从左至右来分词;或者,反向最大匹配法,把一个切分的语句中的字符串从右至左来分词;或者,最短路径分词法,一个切分的语句中的字符串里面要求切出的词数是最少的;或者,双向最大匹配法,正反向同时进行分词匹配。还可利用词义分词法对各个切分的语句进行分词处理,词义分词法是一种机器语音判断的分词方法,利用句法信息和语义信息来处理歧义现象来分词。还可利用统计分词法对各个切分的语句进行分词处理,从当前用户的历史搜索记录或大众用户的历史搜索记录中,根据词组的统计,会统计有些两个相邻的字出现的频率较多,则可将这两个相邻的字作为词组来进行分词。
对医疗文本完成分词处理后,将该医疗文本对应的各个分词与预先确定的医疗领域专用词汇库进行匹配,预先确定的医疗领域专用词汇库中可包括通用医药词典中的医药词库、根据大量医学文本(例如互联网上的开源医疗数据)中抽取得到的各种不同疾病对应的简介信息、症状信息、并发症信息、治疗药品信息或治疗科室信息中的医疗词汇,等等。该医疗领域专用词汇库可以是固定不变的,也可以是根据互联网上最新的开源医疗数据定期更新医疗领域专用词汇库中的医疗词汇。提取出该医疗文本对应的各个分词中与预先确定的医疗领域专用词汇库相匹配的医疗词汇,即可获取到该医疗文本中与其潜在疾病相关性较大的信息即提取出的医疗词汇。
步骤S20,基于预先构建的医疗专业数据库,确定该医疗文本中的医疗词汇对应的疾病;其中,所述医疗专业数据库中包含不同类型疾病与医疗词汇的映射关系。
提取出该医疗文本对应的各个分词中与其潜在疾病相关性较大的医疗词汇后,基于预先构建的医疗专业数据库,确定该医疗文本中的医疗词汇对应的疾病。所述医疗专业数据库中包含不同类型疾病与医疗词汇(如根据大量医学文本中抽取得到的症状、药品、检查、科室等信息词汇)的映射关系,如可根据网上开源数据和文本,构建医疗专业数据库,包含疾病及其对应的简介、症状、并发症、治疗药品、常见检查等专业信息。基于构建的不同疾病与医疗词汇的映射关系,可根据提取出的该医疗文本中的医疗词汇找到与之映射的疾病。
步骤S30,将确定的疾病作为推断出的该医疗文本的潜在疾病进行输出。
根据提取出的该医疗文本中的医疗词汇确定出对应的疾病后,即可将确定的疾病作为推断出的该医疗文本的潜在疾病进行输出,以基于推断出的该医疗文本的潜在疾病来进行后续的诊断建议。经过实际应用中的医疗文本潜在疾病推断统计,通过本实施例中的潜在疾病推断方法得到的疾病标签准确率(人工审查没有明显错误)可以达到85%左右,能有效提高对医疗文本潜在疾病推断的准确率。
本实施例通过对收到的医疗文本进行分词,提取出该医疗文本对应的各个分词中的医疗词汇;并基于预先构建的包含不同疾病与医疗词汇的映射关系的医疗专业数据库,确定该医疗文本中的医疗词汇对应的疾病,以作为推断出的该医疗文本的潜在疾病。由于能根据各种医疗数据资源构建不同疾病与医疗词汇的映射关系,并根据医疗文本中的医疗词汇找到与之映射的疾病,相比根据医生个人经验进行人工推断,效率更高且准确率更高。
如图2所示,本发明第二实施例提出一种医疗文本的潜在疾病推断方法,在上述实施例的基础上,在上述步骤S10之前还包括:
步骤S40,从预先确定的数据源获取医疗数据,从所述医疗数据中找出每一种疾病对应的一个或多个医疗词汇,并根据不同类型疾病与医疗词汇的映射关系建立医疗专业数据库。
本实施例中,在进行医疗文本的潜在疾病推断之前,先从预先确定的数据源获取医疗数据,以根据所述医疗数据中的不同类型疾病与医疗词汇的映射关系建立医疗专业数据库。该医疗数据可以是从现有的医疗数据库中获取的各种疾病的权威解释,包括其对应的简介、症状、并发症、治疗药品、常见检查等专业信息,也可以是各种药品对应的医疗信息,如药品主治的疾病类型等信息,该医疗数据也可以是通过网络爬虫等工具实时或者定时从互联网上的开源医疗数据源(例如,各大论坛上关于不同疾病的问答、讨论等,或各种最新的医疗案例、医疗问答文本等)获取的特定类型的信息(例如,不同疾病对应的治疗方案、治疗药物、所属科室、临床表现等)。从获取的医疗数据中找出每一种疾病对应的一个或多个医疗词汇,即可根据不同疾病与一个或多个医疗词汇的映射关系建立医疗专业数据库,以供后续基于建立的医疗专业数据库来进行潜在疾病的推断。
进一步地,在其他实施例中,所述医疗专业数据库中还包含疾病对应的各个医疗词汇的权重,上述步骤S20可以包括:
基于预先构建的医疗专业数据库,找出该医疗文本中各个医疗词汇对应的疾病,并计算各个疾病对应的医疗词汇的权重加和,选择对应的医疗词汇的权重加和最高的疾病作为确定出的该医疗文本对应的疾病。
本实施例中,考虑到一种疾病对应的医疗词汇可能为一个或多个,一个医疗词汇对应的疾病也可能有一种或多种,例如,同一个症状可能会映射得到多个疾病、同一种药品也会治疗多种疾病。因此,在构建的医疗专业数据库中,还将不同医疗词汇赋予不同的权重,以便在基于构建的医疗专业数据库找出的医疗文本中各个医疗词汇有多个时,可计算各个疾病对应的医疗词汇的权重加和,选择对应的医疗词汇的权重加和最高的疾病作为确定出的该医疗文本对应的疾病。例如,可将某个疾病映射得到的权重加和作为推断该疾病的自信程度,选择自信程度最高的疾病作为最终结果,从而进一步提高对医疗文本潜在疾病推断的准确率。
进一步地,在其他实施例中,上述步骤S10中对收到的医疗文本进行分词处理的步骤包括:
根据正向最大匹配法将医疗文本中待处理的字符串与预先确定的医疗领域专用词汇库(例如,该医疗领域专用词汇库可以是通用医疗专业词库,也可以是可扩容的学习型医疗词库)进行匹配,得到第一匹配结果;
根据逆向最大匹配法将医疗文本中待处理的字符串与预先确定的医疗领域专用词汇库(例如,该医疗领域专用词汇库可以是通用医疗专业词库,也可以是可扩容的学习型医疗词库)进行匹配,得到第二匹配结果。其中,所述第一匹配结果中包含有第一数量的第一词组,所述第二匹配结果中包含有第二数量的第二词组;所述第一匹配结果中包含有第三数量的单字,所述第二匹配结果中包含有第四数量的单字。
若所述第一数量与所述第二数量相等,且所述第三数量小于或者等于所述第四数量,则输出该医疗文本对应的所述第一匹配结果(包括词组和单字);
若所述第一数量与所述第二数量相等,且所述第三数量大于所述第四数量,则输出该医疗文本对应的所述第二匹配结果(包括词组和单字);
若所述第一数量与所述第二数量不相等,且所述第一数量大于所述第二数量,则输出该医疗文本对应的所述第二匹配结果(包括词组和单字);
若所述第一数量与所述第二数量不相等,且所述第一数量小于所述第二数量,则输出该医疗文本对应的所述第一匹配结果(包括词组和单字)。
本实施例中采用双向匹配法来对医疗文本进行分词处理,通过正反向同时进行分词匹配来分析医疗文本待处理的字符串中前后组合内容的粘性,由于通常情况下词组能代表核心观点信息的概率更大,即词组更有可能是该医疗文本中的医疗词汇。因此,通过正反向同时进行分词匹配找出单字数量更少,词组数量更多的分词匹配结果,以作为医疗文本的分词结果,从而提高分词的准确性,以更加准确地提取出该医疗文本中的医疗词汇。
本发明进一步提供一种医疗文本的潜在疾病推断系统。请参阅图3,是本发明医疗文本的潜在疾病推断系统10较佳实施例的运行环境示意图。
在本实施例中,所述的医疗文本的潜在疾病推断系统10安装并运行于电子装置1中。该电子装置1可包括,但不仅限于,存储器11、处理器12及显示器13。图3仅示出了具有组件11-13的电子装置1,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
所述存储器11在一些实施例中可以是所述电子装置1的内部存储单元,例如该电子装置1的硬盘或内存。所述存储器11在另一些实施例中也可以是所述电子装置1的外部存储设备,例如所述电子装置1上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器11还可以既包括所述电子装置1的内部存储单元也包括外部存储设备。所述存储器11用于存储安装于所述电子装置1的应用软件及各类数据,例如所述医疗文本的潜在疾病推断系统10的程序代码等。所述存储器11还可以用于暂时地存储已经输出或者将要输出的数据。
所述处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU),微处理器或其他数据处理芯片,用于运行所述存储器11中存储的程序代码或处理数据,例如执行所述医疗文本的潜在疾病推断系统10等。
所述显示器13在一些实施例中可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。所述显示器13用于显示在所述电子装置1中处理的信息以及用于显示可视化的用户界面,例如显示提取出的医疗文本中的医疗词汇、推断出的该医疗文本的潜在疾病等。所述电子装置1的部件11-13通过系统总线相互通信。
请参阅图4,是本发明医疗文本的潜在疾病推断系统10第一实施例的功能模块图。在本实施例中,所述的医疗文本的潜在疾病推断系统10可以被分割成一个或多个模块,所述一个或者多个模块被存储于所述存储器11中,并由一个或多个处理器(本实施例为所述处理器12)所执行,以完成本发明。例如,在图4中,所述的医疗文本的潜在疾病推断系统10可以被分割成分词提取模块01、确定模块02及输出模块03。本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段,比程序更适合于描述所述语音识别系统10在所述电子装置1中的执行过程。以下描述将具体介绍所述分词提取模块01、确定模块02及输出模块03的功能。
分词提取模块01,用于对收到的医疗文本进行分词,并将该医疗文本对应的各个分词与预先确定的医疗领域专用词汇库进行匹配,提取出该医疗文本对应的各个分词中的医疗词汇;
接收待诊断的医疗文本,如可接收用户通过浏览器、客户端APP等发送的待诊断的医疗文本。本实施例中,在收到医疗文本后,首先对收到的医疗文本进行分词处理。例如,可根据标点符号将医疗文本切分成一条条完整的语句,再对各个切分的语句进行分词处理,如可利用字符串匹配的分词方法对各个切分的语句进行分词处理,如正向最大匹配法,把一个切分的语句中的字符串从左至右来分词;或者,反向最大匹配法,把一个切分的语句中的字符串从右至左来分词;或者,最短路径分词法,一个切分的语句中的字符串里面要求切出的词数是最少的;或者,双向最大匹配法,正反向同时进行分词匹配。还可利用词义分词法对各个切分的语句进行分词处理,词义分词法是一种机器语音判断的分词方法,利用句法信息和语义信息来处理歧义现象来分词。还可利用统计分词法对各个切分的语句进行分词处理,从当前用户的历史搜索记录或大众用户的历史搜索记录中,根据词组的统计,会统计有些两个相邻的字出现的频率较多,则可将这两个相邻的字作为词组来进行分词。
对医疗文本完成分词处理后,将该医疗文本对应的各个分词与预先确定的医疗领域专用词汇库进行匹配,预先确定的医疗领域专用词汇库中可包括通用医药词典中的医药词库、根据大量医学文本(例如互联网上的开源医疗数据)中抽取得到的各种不同疾病对应的简介信息、症状信息、并发症信息、治疗药品信息或治疗科室信息中的医疗词汇,等等。该医疗领域专用词汇库可以是固定不变的,也可以是根据互联网上最新的开源医疗数据定期更新医疗领域专用词汇库中的医疗词汇。提取出该医疗文本对应的各个分词中与预先确定的医疗领域专用词汇库相匹配的医疗词汇,即可获取到该医疗文本中与其潜在疾病相关性较大的信息即提取出的医疗词汇。
确定模块02,用于基于预先构建的医疗专业数据库,确定该医疗文本中的医疗词汇对应的疾病;其中,所述医疗专业数据库中包含不同类型疾病与医疗词汇的映射关系;
提取出该医疗文本对应的各个分词中与其潜在疾病相关性较大的医疗词汇后,基于预先构建的医疗专业数据库,确定该医疗文本中的医疗词汇对应的疾病。所述医疗专业数据库中包含不同类型疾病与医疗词汇(如根据大量医学文本中抽取得到的症状、药品、检查、科室等信息词汇)的映射关系,如可根据网上开源数据和文本,构建医疗专业数据库,包含疾病及其对应的简介、症状、并发症、治疗药品、常见检查等专业信息。基于构建的不同疾病与医疗词汇的映射关系,可根据提取出的该医疗文本中的医疗词汇找到与之映射的疾病。
输出模块03,用于将确定的疾病作为推断出的该医疗文本的潜在疾病进行输出。
根据提取出的该医疗文本中的医疗词汇确定出对应的疾病后,即可将确定的疾病作为推断出的该医疗文本的潜在疾病进行输出,以基于推断出的该医疗文本的潜在疾病来进行后续的诊断建议。经过实际应用中的医疗文本潜在疾病推断统计,通过本实施例中的潜在疾病推断方法得到的疾病标签准确率(人工审查没有明显错误)可以达到85%左右,能有效提高对医疗文本潜在疾病推断的准确率。
本实施例通过对收到的医疗文本进行分词,提取出该医疗文本对应的各个分词中的医疗词汇;并基于预先构建的包含不同疾病与医疗词汇的映射关系的医疗专业数据库,确定该医疗文本中的医疗词汇对应的疾病,以作为推断出的该医疗文本的潜在疾病。由于能根据各种医疗数据资源构建不同疾病与医疗词汇的映射关系,并根据医疗文本中的医疗词汇找到与之映射的疾病,相比根据医生个人经验进行人工推断,效率更高且准确率更高。
如图5所示,本发明第二实施例提出一种医疗文本的潜在疾病推断系统,在上述实施例的基础上,还包括:
建立模块04,用于从预先确定的数据源获取医疗数据,从所述医疗数据中找出每一种疾病对应的一个或多个医疗词汇,并根据不同类型疾病与医疗词汇的映射关系建立医疗专业数据库。
本实施例中,在进行医疗文本的潜在疾病推断之前,先从预先确定的数据源获取医疗数据,以根据所述医疗数据中的不同类型疾病与医疗词汇的映射关系建立医疗专业数据库。该医疗数据可以是从现有的医疗数据库中获取的各种疾病的权威解释,包括其对应的简介、症状、并发症、治疗药品、常见检查等专业信息,也可以是各种药品对应的医疗信息,如药品主治的疾病类型等信息,该医疗数据也可以是通过网络爬虫等工具实时或者定时从互联网上的开源医疗数据源(例如,各大论坛上关于不同疾病的问答、讨论等,或各种最新的医疗案例、医疗问答文本等)获取的特定类型的信息(例如,不同疾病对应的治疗方案、治疗药物、所属科室、临床表现等)。从获取的医疗数据中找出每一种疾病对应的一个或多个医疗词汇,即可根据不同疾病与一个或多个医疗词汇的映射关系建立医疗专业数据库,以供后续基于建立的医疗专业数据库来进行潜在疾病的推断。
进一步地,在其他实施例中,所述医疗专业数据库中还包含疾病对应的各个医疗词汇的权重,上述确定模块02还可以用于:
基于预先构建的医疗专业数据库,找出该医疗文本中各个医疗词汇对应的疾病,并计算各个疾病对应的医疗词汇的权重加和,选择对应的医疗词汇的权重加和最高的疾病作为确定出的该医疗文本对应的疾病。
本实施例中,考虑到一种疾病对应的医疗词汇可能为一个或多个,一个医疗词汇对应的疾病也可能有一种或多种,例如,同一个症状可能会映射得到多个疾病、同一种药品也会治疗多种疾病。因此,在构建的医疗专业数据库中,还将不同医疗词汇赋予不同的权重,以便在基于构建的医疗专业数据库找出的医疗文本中各个医疗词汇有多个时,可计算各个疾病对应的医疗词汇的权重加和,选择对应的医疗词汇的权重加和最高的疾病作为确定出的该医疗文本对应的疾病。例如,可将某个疾病映射得到的权重加和作为推断该疾病的自信程度,选择自信程度最高的疾病作为最终结果,从而进一步提高对医疗文本潜在疾病推断的准确率。
进一步地,在其他实施例中,上述分词提取模块01还用于:
根据正向最大匹配法将医疗文本中待处理的字符串与预先确定的医疗领域专用词汇库(例如,该医疗领域专用词汇库可以是通用医疗专业词库,也可以是可扩容的学习型医疗词库)进行匹配,得到第一匹配结果;
根据逆向最大匹配法将医疗文本中待处理的字符串与预先确定的医疗领域专用词汇库(例如,该医疗领域专用词汇库可以是通用医疗专业词库,也可以是可扩容的学习型医疗词库)进行匹配,得到第二匹配结果。其中,所述第一匹配结果中包含有第一数量的第一词组,所述第二匹配结果中包含有第二数量的第二词组;所述第一匹配结果中包含有第三数量的单字,所述第二匹配结果中包含有第四数量的单字。
若所述第一数量与所述第二数量相等,且所述第三数量小于或者等于所述第四数量,则输出该医疗文本对应的所述第一匹配结果(包括词组和单字);
若所述第一数量与所述第二数量相等,且所述第三数量大于所述第四数量,则输出该医疗文本对应的所述第二匹配结果(包括词组和单字);
若所述第一数量与所述第二数量不相等,且所述第一数量大于所述第二数量,则输出该医疗文本对应的所述第二匹配结果(包括词组和单字);
若所述第一数量与所述第二数量不相等,且所述第一数量小于所述第二数量,则输出该医疗文本对应的所述第一匹配结果(包括词组和单字)。
本实施例中采用双向匹配法来对医疗文本进行分词处理,通过正反向同时进行分词匹配来分析医疗文本待处理的字符串中前后组合内容的粘性,由于通常情况下词组能代表核心观点信息的概率更大,即词组更有可能是该医疗文本中的医疗词汇。因此,通过正反向同时进行分词匹配找出单字数量更少,词组数量更多的分词匹配结果,以作为医疗文本的分词结果,从而提高分词的准确性,以更加准确地提取出该医疗文本中的医疗词汇。
此外,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有医疗文本的潜在疾病推断系统,所述医疗文本的潜在疾病推断系统可被至少一个处理器执行,以使所述至少一个处理器执行如上述实施例中的医疗文本的潜在疾病推断方法的步骤,该医疗文本的潜在疾病推断方法的步骤S10、S20、S30等具体实施过程如上文所述,在此不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件来实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上参照附图说明了本发明的优选实施例,并非因此局限本发明的权利范围。上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。另外,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本领域技术人员不脱离本发明的范围和实质,可以有多种变型方案实现本发明,比如作为一个实施例的特征可用于另一实施例而得到又一实施例。凡在运用本发明的技术构思之内所作的任何修改、等同替换和改进,均应在本发明的权利范围之内。

Claims (10)

1.一种医疗文本的潜在疾病推断方法,其特征在于,所述方法包括以下步骤:
A、对收到的医疗文本进行分词,并将该医疗文本对应的各个分词与预先确定的医疗领域专用词汇库进行匹配,提取出该医疗文本对应的各个分词中的医疗词汇;
B、基于预先构建的医疗专业数据库,确定该医疗文本中的医疗词汇对应的疾病;其中,所述医疗专业数据库中包含不同类型疾病与医疗词汇的映射关系;
C、将确定的疾病作为推断出的该医疗文本的潜在疾病进行输出。
2.如权利要求1所述的医疗文本的潜在疾病推断方法,其特征在于,所述步骤A之前还包括:
从预先确定的数据源获取医疗数据,从所述医疗数据中找出每一种疾病对应的一个或多个医疗词汇,并根据不同类型疾病与医疗词汇的映射关系建立医疗专业数据库。
3.如权利要求1所述的医疗文本的潜在疾病推断方法,其特征在于,所述医疗词汇包括:
疾病对应的简介信息、症状信息、并发症信息、治疗药品信息或治疗科室信息中的医疗词汇。
4.如权利要求1-3中任一项所述的医疗文本的潜在疾病推断方法,其特征在于,所述医疗专业数据库中还包含疾病对应的各个医疗词汇的权重,所述步骤B包括:
基于预先构建的医疗专业数据库,找出该医疗文本中各个医疗词汇对应的疾病,并计算各个疾病对应的医疗词汇的权重加和,选择对应的医疗词汇的权重加和最高的疾病作为确定出的该医疗文本对应的疾病。
5.如权利要求1-3中任一项所述的医疗文本的潜在疾病推断方法,其特征在于,所述对收到的医疗文本进行分词处理的步骤包括:
根据正向最大匹配法将该医疗文本与预先确定的医疗领域专用词汇库进行匹配,得到第一匹配结果,所述第一匹配结果中包含有第一数量的第一词组和第三数量的单字;
根据逆向最大匹配法将该医疗文本与预先确定的医疗领域专用词汇库进行匹配,得到第二匹配结果,所述第二匹配结果中包含有第二数量的第二词组和第四数量的单字;
若所述第一数量与所述第二数量相等,且所述第三数量小于或者等于所述第四数量,则将所述第一匹配结果作为该医疗文本的分词结果;
若所述第一数量与所述第二数量相等,且所述第三数量大于所述第四数量,则将所述第二匹配结果作为该医疗文本的分词结果;
若所述第一数量与所述第二数量不相等,且所述第一数量大于所述第二数量,则将所述第二匹配结果作为该医疗文本的分词结果;
若所述第一数量与所述第二数量不相等,且所述第一数量小于所述第二数量,则将所述第一匹配结果作为该医疗文本的分词结果。
6.一种电子装置,其特征在于,所述电子装置包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的医疗文本的潜在疾病推断系统,所述医疗文本的潜在疾病推断系统被所述处理器执行时实现如下步骤:
A、对收到的医疗文本进行分词,并将该医疗文本对应的各个分词与预先确定的医疗领域专用词汇库进行匹配,提取出该医疗文本对应的各个分词中的医疗词汇;
B、基于预先构建的医疗专业数据库,确定该医疗文本中的医疗词汇对应的疾病;其中,所述医疗专业数据库中包含不同类型疾病与医疗词汇的映射关系;
C、将确定的疾病作为推断出的该医疗文本的潜在疾病进行输出。
7.如权利要求6所述的电子装置,其特征在于,在所述步骤A之前,所述处理器还用于执行所述医疗文本的潜在疾病推断系统,以实现以下步骤:
从预先确定的数据源获取医疗数据,从所述医疗数据中找出每一种疾病对应的一个或多个医疗词汇,并根据不同类型疾病与医疗词汇的映射关系建立医疗专业数据库。
8.如权利要求6所述的电子装置,其特征在于,所述医疗词汇包括:
疾病对应的简介信息、症状信息、并发症信息、治疗药品信息或治疗科室信息中的医疗词汇。
9.如权利要求6-8中任一项所述的电子装置,其特征在于,所述医疗专业数据库中还包含疾病对应的各个医疗词汇的权重,所述步骤B包括:
基于预先构建的医疗专业数据库,找出该医疗文本中各个医疗词汇对应的疾病,并计算各个疾病对应的医疗词汇的权重加和,选择对应的医疗词汇的权重加和最高的疾病作为确定出的该医疗文本对应的疾病。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有医疗文本的潜在疾病推断系统,所述医疗文本的潜在疾病推断系统可被至少一个处理器执行,以使所述至少一个处理器执行如权利要求1-5中任一项所述的医疗文本的潜在疾病推断方法的步骤。
CN201710313520.1A 2017-05-05 2017-05-05 医疗文本的潜在疾病推断方法、系统及可读存储介质 Pending CN107680689A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201710313520.1A CN107680689A (zh) 2017-05-05 2017-05-05 医疗文本的潜在疾病推断方法、系统及可读存储介质
PCT/CN2018/076149 WO2018201772A1 (zh) 2017-05-05 2018-02-10 医疗文本的潜在疾病推断方法、系统及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710313520.1A CN107680689A (zh) 2017-05-05 2017-05-05 医疗文本的潜在疾病推断方法、系统及可读存储介质

Publications (1)

Publication Number Publication Date
CN107680689A true CN107680689A (zh) 2018-02-09

Family

ID=61134116

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710313520.1A Pending CN107680689A (zh) 2017-05-05 2017-05-05 医疗文本的潜在疾病推断方法、系统及可读存储介质

Country Status (2)

Country Link
CN (1) CN107680689A (zh)
WO (1) WO2018201772A1 (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018201772A1 (zh) * 2017-05-05 2018-11-08 平安科技(深圳)有限公司 医疗文本的潜在疾病推断方法、系统及可读存储介质
CN109036506A (zh) * 2018-07-25 2018-12-18 平安科技(深圳)有限公司 互联网医疗问诊的监管方法、电子装置及可读存储介质
CN109192300A (zh) * 2018-08-17 2019-01-11 百度在线网络技术(北京)有限公司 智能问诊方法、系统、计算机设备和存储介质
CN109192321A (zh) * 2018-09-26 2019-01-11 北京理工大学 药品知识图谱的构建方法及计算存储装置
CN109215754A (zh) * 2018-09-10 2019-01-15 平安科技(深圳)有限公司 病历数据处理方法、装置、计算机设备和存储介质
CN109616165A (zh) * 2018-11-07 2019-04-12 平安科技(深圳)有限公司 医疗信息展示方法及装置
CN109698018A (zh) * 2018-12-24 2019-04-30 广州天鹏计算机科技有限公司 医疗文本处理方法、装置、计算机设备和存储介质
WO2020034810A1 (zh) * 2018-08-14 2020-02-20 平安医疗健康管理股份有限公司 搜索方法、装置、计算机设备和存储介质
WO2020103469A1 (zh) * 2018-05-29 2020-05-28 平安医疗健康管理股份有限公司 医疗映射关系库建立方法、装置、计算机设备和存储介质
WO2020177230A1 (zh) * 2019-03-07 2020-09-10 平安科技(深圳)有限公司 基于机器学习的医疗数据分类方法、装置、计算机设备及存储介质
CN112002416A (zh) * 2020-08-23 2020-11-27 吾征智能技术(北京)有限公司 一种基于尿液性状自学习的疾病征兆预测系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102915299A (zh) * 2012-10-23 2013-02-06 海信集团有限公司 一种分词方法及装置
CN104102816A (zh) * 2014-06-20 2014-10-15 周晋 基于症状匹配和机器学习的自动诊断系统和方法
CN104484845A (zh) * 2014-12-30 2015-04-01 天津迈沃医药技术有限公司 基于医学信息本体数据库的疾病自我分析方法
CN104915413A (zh) * 2015-06-05 2015-09-16 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种健康检测方法及系统
CN105139237A (zh) * 2015-09-25 2015-12-09 百度在线网络技术(北京)有限公司 信息推送的方法和装置
CN106372439A (zh) * 2016-09-21 2017-02-01 北京大学 基于病例库的疾病症状及其权重知识的获取和处理方法
CN106557653A (zh) * 2016-11-15 2017-04-05 合肥工业大学 一种移动医疗智能导医系统及其方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8145664B2 (en) * 2008-08-15 2012-03-27 Siemens Aktiengesellschaft Disease oriented user interfaces
CN105095665B (zh) * 2015-08-13 2018-07-06 易保互联医疗信息科技(北京)有限公司 一种中文疾病诊断信息的自然语言处理方法及系统
CN105138829B (zh) * 2015-08-13 2018-01-12 易保互联医疗信息科技(北京)有限公司 一种中文诊疗信息的自然语言处理方法及系统
CN106095913A (zh) * 2016-06-08 2016-11-09 广州同构医疗科技有限公司 一种电子病历文本结构化方法
CN107680689A (zh) * 2017-05-05 2018-02-09 平安科技(深圳)有限公司 医疗文本的潜在疾病推断方法、系统及可读存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102915299A (zh) * 2012-10-23 2013-02-06 海信集团有限公司 一种分词方法及装置
CN104765724A (zh) * 2012-10-23 2015-07-08 海信集团有限公司 一种分词方法及装置
CN104102816A (zh) * 2014-06-20 2014-10-15 周晋 基于症状匹配和机器学习的自动诊断系统和方法
CN104484845A (zh) * 2014-12-30 2015-04-01 天津迈沃医药技术有限公司 基于医学信息本体数据库的疾病自我分析方法
CN104915413A (zh) * 2015-06-05 2015-09-16 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种健康检测方法及系统
CN105139237A (zh) * 2015-09-25 2015-12-09 百度在线网络技术(北京)有限公司 信息推送的方法和装置
CN106372439A (zh) * 2016-09-21 2017-02-01 北京大学 基于病例库的疾病症状及其权重知识的获取和处理方法
CN106557653A (zh) * 2016-11-15 2017-04-05 合肥工业大学 一种移动医疗智能导医系统及其方法

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018201772A1 (zh) * 2017-05-05 2018-11-08 平安科技(深圳)有限公司 医疗文本的潜在疾病推断方法、系统及可读存储介质
WO2020103469A1 (zh) * 2018-05-29 2020-05-28 平安医疗健康管理股份有限公司 医疗映射关系库建立方法、装置、计算机设备和存储介质
CN109036506A (zh) * 2018-07-25 2018-12-18 平安科技(深圳)有限公司 互联网医疗问诊的监管方法、电子装置及可读存储介质
WO2020034810A1 (zh) * 2018-08-14 2020-02-20 平安医疗健康管理股份有限公司 搜索方法、装置、计算机设备和存储介质
CN109192300A (zh) * 2018-08-17 2019-01-11 百度在线网络技术(北京)有限公司 智能问诊方法、系统、计算机设备和存储介质
CN109215754A (zh) * 2018-09-10 2019-01-15 平安科技(深圳)有限公司 病历数据处理方法、装置、计算机设备和存储介质
CN109192321A (zh) * 2018-09-26 2019-01-11 北京理工大学 药品知识图谱的构建方法及计算存储装置
CN109616165A (zh) * 2018-11-07 2019-04-12 平安科技(深圳)有限公司 医疗信息展示方法及装置
CN109698018A (zh) * 2018-12-24 2019-04-30 广州天鹏计算机科技有限公司 医疗文本处理方法、装置、计算机设备和存储介质
WO2020177230A1 (zh) * 2019-03-07 2020-09-10 平安科技(深圳)有限公司 基于机器学习的医疗数据分类方法、装置、计算机设备及存储介质
CN112002416A (zh) * 2020-08-23 2020-11-27 吾征智能技术(北京)有限公司 一种基于尿液性状自学习的疾病征兆预测系统

Also Published As

Publication number Publication date
WO2018201772A1 (zh) 2018-11-08

Similar Documents

Publication Publication Date Title
CN107680689A (zh) 医疗文本的潜在疾病推断方法、系统及可读存储介质
CN108629043B (zh) 网页目标信息的提取方法、装置及存储介质
CN113821622B (zh) 基于人工智能的答案检索方法、装置、电子设备及介质
CN113378970B (zh) 语句相似性检测方法、装置、电子设备及存储介质
CN111814465A (zh) 基于机器学习的信息抽取方法、装置、计算机设备及介质
CN114387061A (zh) 产品推送方法、装置、电子设备及可读存储介质
CN112632278A (zh) 一种基于多标签分类的标注方法、装置、设备及存储介质
CN114781402B (zh) 问诊意图识别方法、装置、电子设备及可读存储介质
CN113706322B (zh) 基于数据分析的服务分发方法、装置、设备及存储介质
CN112988963B (zh) 基于多流程节点的用户意图预测方法、装置、设备及介质
CN113360654B (zh) 文本分类方法、装置、电子设备及可读存储介质
CN113344125B (zh) 长文本匹配识别方法、装置、电子设备及存储介质
CN113657105A (zh) 基于词汇增强的医学实体抽取方法、装置、设备及介质
CN116450829A (zh) 医疗文本分类方法、装置、设备及介质
CN111723870A (zh) 基于人工智能的数据集获取方法、装置、设备和介质
CN113850643B (zh) 产品推荐方法、装置、电子设备及可读存储介质
CN113626704A (zh) 基于word2vec模型的推荐信息方法、装置及设备
CN112632264A (zh) 智能问答方法、装置、电子设备及存储介质
CN115238670B (zh) 信息文本抽取方法、装置、设备及存储介质
CN115510188A (zh) 文本关键词关联方法、装置、设备及存储介质
CN113918704A (zh) 基于机器学习的问答方法、装置、电子设备及介质
CN113204962A (zh) 基于图扩展结构的词义消歧方法、装置、设备及介质
CN114239595B (zh) 回访名单智能生成方法、装置、设备及存储介质
CN116341646A (zh) Bert模型的预训练方法、装置、电子设备及存储介质
CN116579349A (zh) 文本语义分段方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180209