[go: up one dir, main page]

CN110164545A - 数据辅助处理方法、装置、计算机设备及存储介质 - Google Patents

数据辅助处理方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN110164545A
CN110164545A CN201910301186.7A CN201910301186A CN110164545A CN 110164545 A CN110164545 A CN 110164545A CN 201910301186 A CN201910301186 A CN 201910301186A CN 110164545 A CN110164545 A CN 110164545A
Authority
CN
China
Prior art keywords
data
human body
target
training
test
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910301186.7A
Other languages
English (en)
Inventor
葛晨雨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Property and Casualty Insurance Company of China Ltd
Original Assignee
Ping An Property and Casualty Insurance Company of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Property and Casualty Insurance Company of China Ltd filed Critical Ping An Property and Casualty Insurance Company of China Ltd
Priority to CN201910301186.7A priority Critical patent/CN110164545A/zh
Publication of CN110164545A publication Critical patent/CN110164545A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H20/00ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
    • G16H20/90ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to alternative medicines, e.g. homeopathy or oriental medicines
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Public Health (AREA)
  • Theoretical Computer Science (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Biomedical Technology (AREA)
  • Pathology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Alternative & Traditional Medicine (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明公开了一种数据辅助处理方法、装置、计算机设备及存储介质,该方法包括:获取目标化验单,提取目标化验单中的化验人体特征数据;获取测量设备发送的测量人体特征数据,并获取客户端发送的诊断人体特征数据;基于化验人体特征数据、测量人体特征数据和诊断人体特征数据,形成待识别数据;将待识别数据输入到采用Adaboost算法预先训练好的数据处理模型中,根据投票结果获取数据参考结果;将病人基本信息和数据参考结果填充到数据参考文档模板对应的位置,形成数据参考文档;对数据参考文档进行加密处理,并存储在对应的数据库中,有效提高获取数据参考结果的效率和准确性。

Description

数据辅助处理方法、装置、计算机设备及存储介质
技术领域
本发明涉及智能决策领域,尤其涉及一种数据辅助处理方法、装置、计算机设备及存储介质。
背景技术
我国经典的中医理论主要包括《黄帝内经》、《难经》、《伤寒杂病论》、《神农本草经》和《黄帝内经》。中医是以天人合一的三个哲学观的整体理念与辨证论治、相似观(分形观)的循证观点为最大特色的祖国传统医学体系的基础与核心。辩证论治要求中医经验丰富、博览群书,熟知中医理论知识,才能对症下药,对病人作出准确诊断。但一些经验尚浅的中医可能没有那么多经验,对中医理论中的病症和方子记忆不是十分准确,碰到一些疑难杂症,或需要查询中医典籍才能作出准确判断,影响诊治效果,现在中医为为病人诊治时,往往还需要结合一些现代医学数据(如化验单和测量设备对应的数据),若考虑不够全面给出不准确的诊断,也难以对症下药。
发明内容
本发明实施例提供一种数据辅助处理方法、装置、计算机设备及存储介质,以解决仅凭医生个人经验即给出诊断,导致诊断不准确的问题。
一种数据辅助处理方法,包括:
获取目标化验单,提取所述目标化验单中的化验人体特征数据;
获取测量设备发送的测量人体特征数据,并获取客户端发送的诊断人体特征数据;
基于所述化验人体特征数据、所述测量人体特征数据和所述诊断人体特征数据,形成待识别数据;
将所述待识别数据输入到采用Adaboost算法预先训练好的数据处理模型中,根据投票结果获取数据参考结果;
将病人基本信息和所述数据参考结果填充到数据参考文档模板对应的位置,形成数据参考文档;
对所述数据参考文档进行加密处理,并存储在对应的数据库中。
一种数据辅助处理装置,包括:
数据提取模块,用于获取目标化验单,提取所述目标化验单中的化验人体特征数据;
数据获取模块,用于获取测量设备发送的测量人体特征数据,并获取客户端发送的诊断人体特征数据;
数据整理模块,用于基于所述化验人体特征数据、所述测量人体特征数据和所述诊断人体特征数据,形成待识别数据;
数据识别模块,用于将所述待识别数据输入到采用Adaboost算法预先训练好的数据处理模型中,根据投票结果获取数据参考结果;
数据参考文档生成模块,用于将病人基本信息和所述数据参考结果填充到数据参考文档模板对应的位置,形成数据参考文档;
加密处理模块,用于对所述数据参考文档进行加密处理,并存储在对应的数据库中。
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述数据辅助处理方法。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述数据辅助处理方法。
上述数据辅助处理方法、装置、计算机设备及存储介质,通过获取化验人体特征数据、测量人体特征数据和诊断人体特征数据,获取待识别数据,使得获取的待识别数据更加全面和完善,为后续获取数据参考结果提供准确的数据来源。将待识别数据输入到数据处理模型中,有效提高获取数据参考结果的效率和准确性。在获取数据参考文档后,对数据参考文档进行加密处理,并存储在对应的数据库中,方便于后续病人在就诊时,医生可以通过病人基本信息获取病人的历史信息作为诊断参考。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例中数据辅助处理方法的一应用场景图;
图2是本发明一实施例中数据辅助处理方法的一流程图;
图3是图2中步骤S10的一具体流程图;
图4是图3中步骤S20的一具体流程图;
图5是本发明一实施例中数据辅助处理方法的另一流程图;
图6是图2中步骤S73的一具体流程图
图7是本发明一实施例中数据辅助处理装置的一示意图;
图8是本发明一实施例中计算机设备的一示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请提供的数据辅助处理方法,可应用在如图1的应用环境中,其中,终端设备通过网络与服务器进行通信。该终端设备包括但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一实施例中,如图2所示,提供一种数据辅助处理方法,以该方法应用在图1中的服务器为例进行说明,包括如下步骤:
S10:获取目标化验单,提取目标化验单中的化验人体特征数据。
其中,目标化验单指上传成功并且可以在客户端清晰完整显示的化验单。化验人体特征数据指通过目标化验单获取的关于人体特征的数据。目标化验单包括但不限于血常规化验单、肝功能化验单、尿常规化验单和血脂化验单等。
具体地,在客户端获取目标化验单后,若目标化验单为电子化验单,则根据电子化验单上特定字符提取对应的化验人体特征数据;若目标化验单为不为电子化验单(包括但不限于拍照或者扫描得到的目标化验单图像),则通过OCR识别技术识别目标化验单,获取目标化验单上的化验人体特征数据。
S20:获取测量设备发送的测量人体特征数据,并获取客户端发送的诊断人体特征数据。
其中,测量设备指用于获取人体各项体征数据的传感器设备。本实施例中的测量设备包括但不限于各种可以测量人体特征数据的设备,如智能手环、智能眼镜或者体脂秤等。
本实施例中的测量人体特征数据指能够通过测量设备测得的人体特征数据,如体温、血压、心率、身高和体重。
本实施例中的诊断人体特征数据指指医生通过对病人的望闻问切得到的数据,包括但不限于观面色、听声息、询问病症和摸脉象。
具体地,测量设备测量病人的体温、血压、心率、身高和体重等诊断人体特征数据,然后通过无线(蓝牙或者WIFI)或者有线(USB连接线)的方式发送给服务器。然后医生在客户端输入对病人进行望闻问切得到的数据,以从多方面获取病人的人体特征数据,为后续获取数据参考结果提供准确的数据来源。
S30:基于化验人体特征数据、测量人体特征数据和诊断人体特征数据,形成待识别数据。
具体地,待识别数据指根据化验人体特征数据、测量人体特征数据和诊断人体特征数据形成的数据,该待识别数据包括病人的所有可用于判断疾病的数据,使得用于获取数据参考结果的数据更加全面和完善。
S40:将待识别数据输入到采用Adaboost算法预先训练好的数据处理模型中,根据投票结果获取数据参考结果。
其中,数据处理模型指预先训练好的用于诊断人类疾病的模型。本实施例中的数据处理模型具体采用Adaboost算法。Adaboost是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器(弱分类器),然后把这些弱分类器集合起来,构成一个更强的最终分类器(强分类器)。
具体地,在获取待识别数据后,服务器将待识别数据作为输入到预先训练好的数据处理模型中的数据,数据处理模型通过自身的强分类器对输入的待识别数据进行判断,然后根据投票结果获取数据参考结果,并将数据参考结果发送给对应的客户端。该数据参考结果指通过数据处理模型对待识别数据的识别获取的用于给医生参考的诊断结果。
S50:将病人基本信息和数据参考结果填充到数据参考文档模板对应的位置,形成数据参考文档。
其中,数据参考文档模板指用于生成数据参考文档的模板。本实施例中的数据参考文档模板包括但不限于病人姓名、年龄、性别和数据参考结果。
具体地,在获取数据参考结果后,将病人基本信息和数据参考结果填充到数据参考文档模板对应的位置,形成数据参考文档。将病人基本信息和数据参考结果填充到数据参考文档模板对应的位置,由服务器自主完成,不需要人工干预。
进一步地,医生可以在数据参考文档中加入病人的病症和用药说明,形成最终的诊断书。
S60:对数据参考文档进行加密处理,并存储在对应的数据库中。
具体地,为了方便于后续病人在就诊时,医生可以通过病人基本信息查找到病人的历史信息,作为本次诊断的参考。本实施例在获取数据参考文档后,将数据参考文档存储在对应的数据库中。
同时,为了防止病人的数据泄露,在将数据参考文档存储到数据库之前,服务器会采用RSA算法对数据参考文档进行加密。加密过程具体为,服务器随机选择两个较大的素数A和B,计算素数A和素数B的乘积N。然后选择一个整数e与(A-1)*(B-1)的积互质,且e小于(A-1)*(B-1),最后根据公式d*e≡1(mod(A-1)(B-1))计算d。则(N,e)称为公钥,(N,d)称为私钥。服务器保留私钥,将公钥发送给医生对应的客户端,医生在客户端使用这个公钥对数据参考文档中的内容进行加密,生成对应的密文。医生需要获取病人的数据参考文档时,使用私钥对数据参考文档进行解密。
由于RSA算法是目前最有影响力和最常用的公钥加密算法,安全性高,能够抵抗到目前为止已知的绝大多数的密码攻击,因此,使用RSA算法对数据参考文档进行加密和解密,可以提高数据在传输过程中的安全性。
步骤S10-步骤S60,通过获取化验人体特征数据、测量人体特征数据和诊断人体特征数据,获取待识别数据,使得获取的待识别数据更加全面和完善,为后续获取数据参考结果提供准确的数据来源。将待识别数据输入到数据处理模型中,有效提高获取数据参考结果的效率和准确性。在获取数据参考文档后,对数据参考文档进行加密处理,并存储在对应的数据库中,方便于后续病人在就诊时,医生可以通过病人基本信息获取病人的历史信息作为诊断参考。
在一实施例中,如图3所示,步骤S10,即获取目标化验单,提取目标化验单中的化验人体特征数据,具体包括如下步骤:
S11:获取原始化验单,原始化验单包括单据类型。
其中,原始化验单指通过网络上传给客户端的化验单。具体地,将原始化验单通过网络上传给客户端后,客户端将获取到的原始化验单发送给服务器,由服务器识别该原始化验单的单据类型是图片形式还是文档形式。获取原始化验单的单据类型,方便后续选择对应的处理步骤对原始化验单进行处理,获取化验人体特征数据。
S12:若单据类型为文档类型,则通过文本匹配算法识别原始化验单上的特定字符,获取化验人体特征数据。
具体地,若单据类型为文档类型(如doc、docx或xml),则通过文本匹配算法识别原始化验单上的特定字符,获取化验人体特征数据。该特定字符包括但不限于原始化验单上的检查项目,如M%(单核细胞)、PLT(血小板计数)、B%(嗜碱性粒细胞)和B%(嗜碱性粒细胞)等特定字符。本实施例中的文本匹配算法指开发人员编写程序实现根据预设的特定字符,提取原始化验单上与预设的特定字符对应的数据的方法。
S13:若单据类型为图片类型,则对原始化验单进行模糊检测,获取有效化验单。
具体地,若原始化验单为图片类型(如bmp、jpg、png、tif或gif),则对原始化验单进行模糊检查,若原始化验单过于模糊,则提示重新上传;若原始化验单清晰,则提示原始化验单上传成功,并将原始化验单保存为有效化验单。
对原始化验单进行模糊检查的过程如下:首先对用户上传的原始化验单进行灰度化,采用3x3的拉普拉斯算子(可理解为3x3的矩阵)进行卷积处理,然后采用std2()函数计算卷积后原始化验单的标准差,最后对标准差进行平方,获取原始化验单的方差,以便将原始化验单的方差与预设阈值进行判断,该预设阈值是预先设定好的用于判定原始化验单的方差的阈值。其中,std2()函数是用于计算卷积后原始化验单的标准差的函数。
若原始化验单的方差大于或等于预设阈值,则说明该原始化验单的清晰度已经达到预设阈值,无需重新上传;若原始化验单对应的方差小于预设阈值,则说明该原始化验单的清晰度未达到预设阈值,需提示重新上传,直至获得较清晰的原始化验单,提高后续对病例图像进行识别的准确率。
S14:对有效化验单进行矫正处理,获取目标化验单。
其中,目标化验单指对有效化验单进行矫正处理后得到的化验单。
具体地,在进行图像去噪之前由于有效化验单可能会存在不同程度的倾斜,也会影响模型识别结果,因此,在进行去噪处理之前需要对有效化验单进行矫正处理,即将有效化验单投影到一个新的视平面的过程,获取矫正后的图像,排除干扰,提高后续识别的准确率。本实施例中,矫正的处理方法包括但不限于采用OpenCv中的perspectiveTransform()函数进行矫正处理。其中,OpenCV是一个包含大量开源API(接口)的跨平台计算机视觉库,可以实现对图像的矫正处理。
S15:通过OCR识别技术识别目标化验单,提取目标化验单上的化验人体特征数据。
其中,OCR(Optical Character Recognition,光学字符识别)识别技术指对目标化验单进行分析识别处理,获取文字及版面信息的技术。
具体地,获取目标化验单后,对该目标化验单图像进行二值化,将背景图像去除。然后对去除背景图像的化验单图像中的字符进行字符切割,获取化验单图像中的单个字符。最后,对单个字符进行特征提取,获取单字符特征,并将单字符特征与特征模板库进行对比,识别出化验单图像中的特定字符。本实施例中的特定字符与步骤S12中的特定字符一致,包括但不限于原始化验单上的检查项目,如M%(单核细胞)、PLT(血小板计数)、B%(嗜碱性粒细胞)和B%(嗜碱性粒细胞)等特定字符。在获取特定字符后,通过特定字符从化验单上选取每一特定字符对应的化验人体特征数据。
步骤S11-步骤S15,通过识别原始化验单的单据类型,方便后续步骤根据单据类型执行不同的步骤,从原始化验单上获取化验人体特征数据,实现了自动获取化验人体特征数据的效果。
在一实施例中,如图4所示,步骤S20中,获取测量设备发送的测量人体特征数据,具体包括如下步骤:
S21:向测量设备发送目标数据提取请求,目标数据提取请求包括至少一个目标人体特征。
其中,目标数据提取请求指客户端发送给测量设备,需要获取目标人体特征对应的数据的请求。目标人体特征指医生根据实际情况需要获取的人体特征。具体地,用户在客户端填写好需要用到的目标人体特征,然后进行提交操作,发送目标数据提取请求给服务器。
S22:基于目标人体特征,通过数据传输接口获取测量人体特征数据。
具体地,预先给病人带上测量设备,通过测量设备获取病人的体温、血压、心率、身高和体重等测量人体特征数据。服务器在接收到目标数据提取请求后,将目标数据提取请求发送给测量设备,测量设备基于目标数据提取请求中的目标人体特征,将与目标人体特征对应的测量人体特征数据通过无线或者有线的方式发送给服务器。根据目标人体特征可以快速且准确地从测量设备中获取需要的测量人体特征数据。
步骤S21-步骤S22,通过目标数据提取请求中的目标人体特征,可以快速且准确地从测量设备中获取需要的测量人体特征数据。
在一实施例中,数据辅助处理方法还包括获取目标数据处理模型,如图5所示,具体包括如下步骤:
S71:对病症和疾病进行编码,获取病症编码和疾病编码。
本实施例中的病症和疾病来源于中医资料和西医资料,该中医资料包括但不限于《难经》、《伤寒杂病论》、《金匮要略》和《黄帝内经》;西医资料包括但不限于《生理学》、《病理学》、《内科学》和《诊断学》。其中,病症指病人的身体症状;疾病指根据中医资料中记载的症状对应的疾病。
具体地,为了方便后续步骤根据病症和疾病训练用于诊断疾病的数据处理模型,首先需对病症和疾病进行编码。另外,由于一种疾病的得出需要通过多种病症的结合,为了方便计算,本实施例中对病症和疾病采用不同的编码方式进行编码。病症采用阿拉伯数字的编码方式,如舌苔黄厚对应编码为0001,脉象虚浮0002,眼部发青0003,大便干0004,总胆红素偏高(高于正常范围1.71~21μmol/L),白细胞偏低(低于正常范围3.5~9.5)×10^9/L)7001,淋巴细胞偏高(高于正常范围1.1-3.2×10^9)7002。疾病采用分类+编号的编码方式,如哮病对应的编码为BNF040,心衰病的编码为BNX030,流行性感冒的编码为J11.1,带状疱疹的编码为B02.9。
S72:基于病症编码和疾病编码形成训练样本,将训练样本分为训练集和测试集。
具体地,在获取病症编码和疾病编码形成的训练样本后,将该训练样本分为训练集和测试集。其中,训练集指用于存储训练模型的的训练样本的集合;测试集只用于存储测试模型是否准确的训练样本的集合。本实施例中,训练集和测试集中均包括多个训练样本,训练样本的个数是由疾病编码的个数n决定的。本实施例中的训练样本具体可写为(x1,y1),(x2,y2),…,(xn,yn),其中,xi表示第i组病症编码,yi表示第i个疾病编码,yi=1表示样本的病症编码为该疾病编码对应的病症编码,yi=0表示样本的病症编码为非该疾病编码对应的病症编码。
需要说明的是,由于本实施例中由多个病症出现才能对应确认一种疾病,因此,本实施例中xi包括多个病症编码。
S73:采用Adaboost算法对训练集中的训练样本进行训练,获取原始数据处理模型。
具体地,在将训练样本划分为训练集和测试集后,将训练集中的训练样本输入到Adaboost算法中,使用Adaboost算法对训练集中的训练样本进行训练,先计算第一轮迭代的强分类器的目标错误率,若目标错误率大于预设值,则进行第二轮迭代,获取第二轮迭代的强分类器的目标错误率,若目标错误率大于预设值,则进行第三轮迭代如此循环执行步骤S731-步骤S734,当目标错误率小于预设值时,则停止迭代,基于该轮迭代的强分类器获取原始数据处理模型。其中,目标错误率指每一轮迭代中根据Adaboost算法中计算错误率的公式获取的错误率;预设值指预先设定好的用于判断错误率是否达到要求的值。
S74:将测试集中的训练样本输入到原始数据处理模型中,获取测试错误率,若测试错误率小于预设值,则将原始数据处理模型作为目标数据处理模型。
具体地,在获取原始数据处理模型后,将测试集中的训练样本输入到原始数据处理模型中,获取测试错误率,若测试错误率小于预设值,则将原始数据处理模型作为目标数据处理模型。
步骤S71-步骤S74,对病症和疾病进行编码,使病症和疾病转化为计算机可以识别的语言。然后基于病症编码和疾病编码形成训练样本,将训练样本分为训练集和测试集,通过训练集,训练原始数据处理模型;通过测试集,测试训练好的原始数据处理模型是否准确,防止训练好的原始数据处理模型模型出现过拟合的情况。
在一实施例中,如图6所示,步骤S73,采用Adaboost算法对训练集中的训练样本进行训练,获取原始数据处理模型,具体包括如下步骤:
S731:初始化训练样本的权重,使得每个训练样本对应一初始权重。
具体地,对训练样本的权重进行初始化设置,使得每个训练样本获得一个对应的初始权重。一般地,该初始权重为训练样本数量的平均值,即n个训练样本对应的初始权重为1/n。设置初始权重便于后续步骤根据初始权重计算最小错误率。
S732:采用Adaboost算法对训练集中的训练样本进行训练,获取训练样本在每一轮迭代中各弱分类器对应的最小错误率。
具体地,根据病症编码确定训练样本的切分点,一般取一对相应的病症编码的平均值作为切分点。需要说明的是一对相应的病症编码指病症的相应面,如脉象的虚和实称为一对相应的病症编码;大便的干和湿称为一对相应的病症编码。
在获取训练样本的切分点后,根据错误率计算公式εm=ω(m,i)×I(Gm(xi)≠yi)计算每个切分点对应的错误率。其中,εm指训练样本在第m轮迭代中的错误率,m指迭代次数,ω(m,i)指第m轮迭代中第i个训练样本对应的权重,I(Gm(xi)≠yi)指第m轮迭代中根据切分点得到的错误样本的个数,Gm(xi)≠yi指训练样本在第m轮迭代中,由对应的弱分类器得出输出结果和训练样本携带的标签值不一致的情况。
S733:根据每一轮迭代对应的最小错误率获取决定系数,基于决定系数对初始权重进行更新,获取训练样本在每一轮迭代中对应的更新权重。
具体地,基于决定系数获取各训练样本在每一轮迭代中对应的更新权重具体包括以下步骤:(1)在获取每一轮迭代对应的最小错误率后,根据决定系数公式α=0.5ln((1-ε(m,min))/ε(m,min))计算决定系数,其中,α指决定系数;(2)根据该每一轮迭代对应的最小错误率获取对应的最优切分点,并根据该最优切分点将训练样本化分为正确样本和错误样本。
对于正确样本,采用公式ω(m,i)=ε(m,min)×e(-α)更新正确样本的初始权重。获取每一轮迭代对应的正确样本权重;对于错误样本,采用公式ω(m,i)=ε(m,min)×e(α)更新错误样本的初始权重,获取每一轮迭代对应的错误样本权重。(3)对每一轮迭代对应的正确样本权重和每一轮迭代对应的错误样本权重进行归一化处理,获取各训练样本对应的每一轮迭代对应的更新权重。
S734:基于每一轮迭代对应的更新权重,获取每一轮迭代的强分类器对应的目标错误率。
具体地,在获取每一轮迭代对应的更新权重后,根据公式计算每一轮迭代的强分类器对应的目标错误率。其中,指m轮迭代的弱分类器函数,l指切分点,sign(x)是一种信号函数。
S735:当目标错误率小于预设值时,则停止迭代,获取原始数据处理模型。
具体地,在获取目标错误率后,将目标错误率与预设值进行比较,当目标错误率小于预设值(如设为1%)时,则停止迭代,此轮迭代对应的强分类器则称为原始数据处理模型。
步骤S731-步骤735具体说明了采用Adaboost算法对训练集中的训练样本进行训练的过程,首先先获取第一轮迭代的强分类器的目标错误率,若目标错误率大于预设值,则进行第二轮迭代;获取第二轮迭代的强分类器的目标错误率,若目标错误率大于预设值,则进行第三轮迭代如此循环执行步骤S731-步骤S734,当目标错误率小于预设值时,则停止迭代,将该轮迭代的强分类器作为原始数据处理模型,使得获取的原始数据处理模型满足实际需要。
本发明提供的数据辅助处理方法,通过获取化验人体特征数据、测量人体特征数据和诊断人体特征数据,获取待识别数据,使得获取的待识别数据更加全面和完善,为后续获取数据参考结果提供准确的数据来源。将待识别数据输入到数据处理模型中,有效提高获取数据参考结果的效率和准确性。在获取数据参考文档后,对数据参考文档进行加密处理,并存储在对应的数据库中,以保证数据参考文档的信息安全,并方便于后续病人在就诊时,医生可以通过病人基本信息获取病人的历史信息作为诊断参考。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在一实施例中,提供一种数据辅助处理装置,该数据辅助处理装置与上述实施例中数据辅助处理方法一一对应。如图7所示,该数据辅助处理装置包括数据提取模块10、数据获取模块20、数据整理模块30、数据识别模块40、数据参考文档生成模块50、加密处理模块60、编码模块71、训练样本处理模块72、模型训练模块73和模型测试模块74。各功能模块详细说明如下:
数据提取模块10,用于获取目标化验单,提取目标化验单中的化验人体特征数据。
数据获取模块20,用于获取测量设备发送的测量人体特征数据,并获取客户端发送的诊断人体特征数据。
数据整理模块30,用于基于化验人体特征数据、测量人体特征数据和诊断人体特征数据,形成待识别数据。
数据识别模块40,用于将待识别数据输入到采用Adaboost算法预先训练好的数据处理模型中,根据投票结果获取数据参考结果。
数据参考文档生成模块50,用于将病人基本信息和数据参考结果填充到数据参考文档模板对应的位置,形成数据参考文档。
加密处理模块60,用于对数据参考文档进行加密处理,并存储在对应的数据库中。
进一步地,数据提取模块10包括原始化验单获取单元、文档化验单处理单元、图片化验单第一处理单元、图片化验单第二处理单元和图片化验单第三处理单元。
原始化验单获取单元,用于获取原始化验单,原始化验单包括单据类型。
文档化验单处理单元,用于若单据类型为文档类型,则通过文本匹配算法识别原始化验单上的特定字符,获取化验人体特征数据。
图片化验单第一处理单元,用于若单据类型为图片类型,则对原始化验单进行模糊检测,获取有效化验单。
图片化验单第二处理单元,用于对有效化验单进行矫正处理,获取目标化验单。
图片化验单第三处理单元,用于通过OCR识别技术识别目标化验单,提取目标化验单上的化验人体特征数据。
进一步地,数据获取模块20包括数据提取请求发送单元和测量数据获取单元。
数据提取请求发送单元,用于向测量设备发送目标数据提取请求,目标数据提取请求包括至少一个目标人体特征。
测量数据获取单元,用于基于目标人体特征,通过数据传输接口获取测量人体特征数据。
进一步地,数据辅助处理装置还包括编码模块71、训练样本处理模块72、模型训练模块73和模型测试模块74。
编码模块71,用于对病症和疾病进行编码,获取病症编码和疾病编码。
训练样本处理模块72,用于基于病症编码和疾病编码形成训练样本,将训练样本分为训练集和测试集。
模型训练模块73,用于采用Adaboost算法对训练集中的训练样本进行训练,获取原始数据处理模型。
模型测试模块74,用于将测试集中的训练样本输入到原始数据处理模型中,获取测试错误率,若测试错误率小于预设值,则将原始数据处理模型作为目标数据处理模型。
进一步地,模型训练模块73包括权重初始化单元、样本训练单元、权重更新单元、目标错误率获取单元和目标错误率处理单元。
权重初始化单元,用于初始化训练样本的权重,使得每个训练样本对应一初始权重。
样本训练单元,用于采用Adaboost算法对训练集中的训练样本进行训练,获取训练样本在每一轮迭代中各弱分类器对应的最小错误率。
权重更新单元,用于根据每一轮迭代对应的最小错误率获取决定系数,基于决定系数对初始权重进行更新,获取训练样本在每一轮迭代中对应的更新权重。
目标错误率获取单元,用于基于每一轮迭代对应的更新权重,获取每一轮迭代的强分类器对应的目标错误率。
目标错误率处理单元,用于当目标错误率小于预设值时,则停止迭代,获取原始数据处理模型。
关于数据辅助处理装置的具体限定可以参见上文中对于数据辅助处理方法的限定,在此不再赘述。上述数据辅助处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储数据辅助处理方法涉及到的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种数据辅助处理方法。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述实施例的数据辅助处理方法,例如图2所示步骤S10-步骤S60,或者图3至图6中所示的步骤,为避免重复,这里不再赘述。或者,处理器执行计算机程序时实现数据辅助处理装置这一实施例中的各模块/单元的功能,例如图7所示的数据提取模块10、数据获取模块20、数据整理模块30、数据识别模块40、数据参考文档生成模块50、加密处理模块60、编码模块71、训练样本处理模块72、模型训练模块73和模型测试模块74的功能,为避免重复,这里不再赘述。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述实施例的数据辅助处理方法,例如图2所示步骤S10-步骤S60,或者图3至图6中所示的步骤,为避免重复,这里不再赘述。或者,该计算机程序被处理器执行时实现上述数据辅助处理装置这一实施例中的各模块/单元的功能,例如图7所示的数据提取模块10、数据获取模块20、数据整理模块30、数据识别模块40、数据参考文档生成模块50、加密处理模块60、编码模块71、训练样本处理模块72、模型训练模块73和模型测试模块74的功能,为避免重复,这里不再赘述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (10)

1.一种数据辅助处理方法,其特征在于,包括:
获取目标化验单,提取所述目标化验单中的化验人体特征数据;
获取测量设备发送的测量人体特征数据,并获取客户端发送的诊断人体特征数据;
基于所述化验人体特征数据、所述测量人体特征数据和所述诊断人体特征数据,形成待识别数据;
将所述待识别数据输入到采用Adaboost算法预先训练好的数据处理模型中,根据投票结果获取数据参考结果;
将病人基本信息和所述数据参考结果填充到数据参考文档模板对应的位置,形成数据参考文档;
对所述数据参考文档进行加密处理,并存储在对应的数据库中。
2.如权利要求1所述的数据辅助处理方法,其特征在于,所述获取目标化验单,提取所述目标化验单中的化验人体特征数据,包括:
获取原始化验单,所述原始化验单包括单据类型;
若所述单据类型为文档类型,则通过文本匹配算法识别所述原始化验单上的特定字符,获取化验人体特征数据。
3.如权利要求2所述的数据辅助处理方法,其特征在于,
若所述单据类型为图片类型,则对所述原始化验单进行模糊检测,获取有效化验单;
对所述有效化验单进行矫正处理,获取目标化验单;
通过OCR识别技术识别所述目标化验单,提取目标化验单上的化验人体特征数据。
4.如权利要求1所述的数据辅助处理方法,其特征在于,所述获取测量设备发送的测量人体特征数据,包括:
向所述测量设备发送目标数据提取请求,所述目标数据提取请求包括至少一个目标人体特征;
基于所述目标人体特征,通过数据传输接口获取所述测量人体特征数据。
5.如权利要求1所述的数据辅助处理方法,其特征在于,所述数据辅助处理方法还包括:
对病症和疾病进行编码,获取病症编码和疾病编码;
基于病症编码和疾病编码形成训练样本,将所述训练样本分为训练集和测试集;
采用Adaboost算法对所述训练集中的训练样本进行训练,获取原始数据处理模型;
将所述测试集中的训练样本输入到原始数据处理模型中,获取测试错误率,若所述测试错误率小于预设值,则将所述原始数据处理模型作为目标数据处理模型。
6.如权利要求5所述的数据辅助处理方法,其特征在于,所述采用Adaboost算法对所述训练集中的训练样本进行训练,获取原始数据处理模型,包括:
初始化所述训练样本的权重,使得每个所述训练样本对应一初始权重;
采用Adaboost算法对所述训练集中的训练样本进行训练,获取所述训练样本在每一轮迭代中各弱分类器对应的最小错误率;
根据每一轮迭代对应的所述最小错误率获取决定系数,基于所述决定系数对所述初始权重进行更新,获取所述训练样本在每一轮迭代中对应的更新权重;
基于每一轮迭代对应的所述更新权重,获取每一轮迭代的强分类器对应的目标错误率;
当所述目标错误率小于预设值时,则停止迭代,获取原始数据处理模型。
7.一种数据辅助处理装置,其特征在于,包括:
数据提取模块,用于获取目标化验单,提取所述目标化验单中的化验人体特征数据;
数据获取模块,用于获取测量设备发送的测量人体特征数据,并获取客户端发送的诊断人体特征数据;
数据整理模块,用于基于所述化验人体特征数据、所述测量人体特征数据和所述诊断人体特征数据,形成待识别数据;
数据识别模块,用于将所述待识别数据输入到采用Adaboost算法预先训练好的数据处理模型中,根据投票结果获取数据参考结果;
数据参考文档生成模块,用于将病人基本信息和所述数据参考结果填充到数据参考文档模板对应的位置,形成数据参考文档;
加密处理模块,用于对所述数据参考文档进行加密处理,并存储在对应的数据库中。
8.如权利要求7所述的数据辅助处理装置,其特征在于,包括:
编码模块,用于对病症和疾病进行编码,获取病症编码和疾病编码;
训练样本处理模块,用于基于病症编码和疾病编码形成训练样本,将所述训练样本分为训练集和测试集;
模型训练模块,用于采用Adaboost算法对所述训练集中的训练样本进行训练,获取原始数据处理模型;
模型测试模块,用于将所述测试集中的训练样本输入到原始数据处理模型中,获取测试错误率,若所述测试错误率小于预设值,则将所述原始数据处理模型作为目标数据处理模型。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述数据辅助处理方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述数据辅助处理方法。
CN201910301186.7A 2019-04-15 2019-04-15 数据辅助处理方法、装置、计算机设备及存储介质 Pending CN110164545A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910301186.7A CN110164545A (zh) 2019-04-15 2019-04-15 数据辅助处理方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910301186.7A CN110164545A (zh) 2019-04-15 2019-04-15 数据辅助处理方法、装置、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN110164545A true CN110164545A (zh) 2019-08-23

Family

ID=67638598

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910301186.7A Pending CN110164545A (zh) 2019-04-15 2019-04-15 数据辅助处理方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN110164545A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110808095A (zh) * 2019-09-18 2020-02-18 平安科技(深圳)有限公司 诊断结果识别、模型训练的方法、计算机设备及存储介质
CN110942047A (zh) * 2019-12-09 2020-03-31 Oppo广东移动通信有限公司 应用优化方法及相关产品
CN112017772A (zh) * 2020-08-31 2020-12-01 吾征智能技术(北京)有限公司 一种基于妇女白带的疾病认知模型构建方法及系统
CN112990473A (zh) * 2019-12-12 2021-06-18 杭州海康威视数字技术股份有限公司 一种模型训练方法、装置及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107688815A (zh) * 2017-08-31 2018-02-13 京东方科技集团股份有限公司 医学图像的分析方法和分析系统以及存储介质
CN107945869A (zh) * 2017-12-08 2018-04-20 李玉东 一种基于大数据的经方药智能化辩证论治系统
CN108511064A (zh) * 2018-02-11 2018-09-07 河南工程学院 基于深度学习自动分析人体健康数据的系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107688815A (zh) * 2017-08-31 2018-02-13 京东方科技集团股份有限公司 医学图像的分析方法和分析系统以及存储介质
CN107945869A (zh) * 2017-12-08 2018-04-20 李玉东 一种基于大数据的经方药智能化辩证论治系统
CN108511064A (zh) * 2018-02-11 2018-09-07 河南工程学院 基于深度学习自动分析人体健康数据的系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
美国医疗信息与管理系统学会编著: "移动医疗路线图", 31 March 2016, 光明日报出版社, pages: 279 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110808095A (zh) * 2019-09-18 2020-02-18 平安科技(深圳)有限公司 诊断结果识别、模型训练的方法、计算机设备及存储介质
CN110808095B (zh) * 2019-09-18 2023-08-04 平安科技(深圳)有限公司 诊断结果识别、模型训练的方法、计算机设备及存储介质
CN110942047A (zh) * 2019-12-09 2020-03-31 Oppo广东移动通信有限公司 应用优化方法及相关产品
CN110942047B (zh) * 2019-12-09 2023-07-07 Oppo广东移动通信有限公司 应用优化方法及相关产品
CN112990473A (zh) * 2019-12-12 2021-06-18 杭州海康威视数字技术股份有限公司 一种模型训练方法、装置及系统
CN112990473B (zh) * 2019-12-12 2024-02-02 杭州海康威视数字技术股份有限公司 一种模型训练方法、装置及系统
CN112017772A (zh) * 2020-08-31 2020-12-01 吾征智能技术(北京)有限公司 一种基于妇女白带的疾病认知模型构建方法及系统
CN112017772B (zh) * 2020-08-31 2024-04-02 吾征智能技术(北京)有限公司 一种基于妇女白带的疾病认知模型构建方法及系统

Similar Documents

Publication Publication Date Title
CN111696675B (zh) 基于物联网数据的用户数据分类方法、装置及计算机设备
CN111985574B (zh) 医疗图像的识别方法、装置、设备及存储介质
CN110164545A (zh) 数据辅助处理方法、装置、计算机设备及存储介质
Khan et al. Boost diagnostic performance in retinal disease classification utilizing deep ensemble classifiers based on OCT
US12056890B2 (en) Method for measuring volume of organ by using artificial neural network, and apparatus therefor
CN112259245B (zh) 待检查项确定方法、装置、设备及计算机可读存储介质
CN114649092B (zh) 基于半监督学习和多尺度特征融合的辅助诊断方法及装置
CN111354463B (zh) 人体健康测量方法、装置、计算机设备及存储介质
CN112530550A (zh) 影像报告生成方法、装置、计算机设备和存储介质
CN111192660B (zh) 一种影像报告分析方法、设备及计算机存储介质
US10832410B2 (en) Computer system, method, and program for diagnosing subject
CN114842270B (zh) 一种目标图像的分类方法、装置、电子设备及介质
CN113096137A (zh) 一种oct视网膜图像领域适应分割方法及系统
CN110403611B (zh) 血液中糖化血红蛋白成分值预测方法、装置、计算机设备和存储介质
CN109124660A (zh) 基于深度学习的胃肠间质瘤术后风险检测方法和系统
CN113707304B (zh) 分诊数据处理方法、装置、设备及存储介质
CN102831443B (zh) 基于子空间分析的颅骨性别鉴定方法
CN110751171A (zh) 图像数据分类方法、装置、计算机设备和存储介质
US11449680B2 (en) Method for testing medical data
Siebert et al. Uncertainty analysis of deep kernel learning methods on diabetic retinopathy grading
CN118760973A (zh) 一种基于多模态融合的脑出血患者重症监护需求预测方法
CN115345928A (zh) 关键点的获取方法、计算机设备和存储介质
Santosh et al. Recent Trends in Image Processing and Pattern Recognition: 6th International Conference, RTIP2R 2023, Derby, UK, December 7–8, 2023, Revised Selected Papers, Part II
US20250095826A1 (en) Ensembled querying of example images via deep learning embeddings
CN114822814B (zh) 自闭症的评估方法、评估装置、电子设备以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190823

RJ01 Rejection of invention patent application after publication