CN111768758B - 基于视频判读技术的自助化基础生命支持考核系统 - Google Patents
基于视频判读技术的自助化基础生命支持考核系统 Download PDFInfo
- Publication number
- CN111768758B CN111768758B CN202010724686.4A CN202010724686A CN111768758B CN 111768758 B CN111768758 B CN 111768758B CN 202010724686 A CN202010724686 A CN 202010724686A CN 111768758 B CN111768758 B CN 111768758B
- Authority
- CN
- China
- Prior art keywords
- module
- layer
- video
- text
- interpretation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000005516 engineering process Methods 0.000 title claims abstract description 16
- 230000009471 action Effects 0.000 claims abstract description 33
- 238000000034 method Methods 0.000 claims abstract description 11
- 230000008569 process Effects 0.000 claims abstract description 10
- 230000006870 function Effects 0.000 claims description 28
- 239000013598 vector Substances 0.000 claims description 18
- 238000004364 calculation method Methods 0.000 claims description 14
- 238000012549 training Methods 0.000 claims description 14
- 230000002457 bidirectional effect Effects 0.000 claims description 12
- 239000000284 extract Substances 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 8
- 238000007689 inspection Methods 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 6
- 230000014509 gene expression Effects 0.000 claims description 5
- 238000013523 data management Methods 0.000 claims description 4
- 238000009432 framing Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 238000013480 data collection Methods 0.000 claims description 2
- 208000004957 Out-of-Hospital Cardiac Arrest Diseases 0.000 description 4
- 238000002680 cardiopulmonary resuscitation Methods 0.000 description 4
- 230000006835 compression Effects 0.000 description 4
- 238000007906 compression Methods 0.000 description 4
- 238000001514 detection method Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 230000004083 survival effect Effects 0.000 description 3
- 101001121408 Homo sapiens L-amino-acid oxidase Proteins 0.000 description 2
- 102100026388 L-amino-acid oxidase Human genes 0.000 description 2
- 230000000981 bystander Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 208000031225 myocardial ischemia Diseases 0.000 description 2
- 230000029058 respiratory gaseous exchange Effects 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 208000010496 Heart Arrest Diseases 0.000 description 1
- 101100012902 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) FIG2 gene Proteins 0.000 description 1
- 101100233916 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) KAR5 gene Proteins 0.000 description 1
- 230000003213 activating effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000007664 blowing Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000005180 public health Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Mathematical Physics (AREA)
- Molecular Biology (AREA)
- Human Computer Interaction (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Acoustics & Sound (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Probability & Statistics with Applications (AREA)
- Signal Processing (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明公开一种基于视频判读技术的自助化基础生命支持考核系统,包括:数据采集模块,所述数据采集模块用于采集受考核者在BLS技能操作全过程中的操作视频;智能判读模块,所述智能判读模块包括语音识别模块和动作识别模块,所述语音识别模块用于提取所述操作视频中的音频数据进行语音识别判读,所述动作识别模块用于提取所述操作视频中的图像数据进行动作识别判读。自助化考核中央控制单元,所述自助化考核中央控制单元用于控制数据采集模块和智能判读模块。本发明可智能化、自动化地真实记录并准确分析学生BLS操作过程情况,可代替教师直接对学生BLS操作过程进行考核打分,节约教师资源。
Description
技术领域
本发明涉及医疗技术领域,尤其涉及一种基于视频判读技术的自助化基础生命支持考核系统。
背景技术
缺血性心脏疾病是高病死率疾病之一,是全球公认的重大公共卫生问题。缺血性心脏疾病发病时最主要的临床表现是心脏骤停。在美国,每年约有155000人因院外心脏骤停接受急救医疗,其中仅有不到8%患者存活。根据国际共识,院外心脏骤停患者治疗成功的关键在于经基础生命支持(BLS)培训的旁观者的存在,他们随时准备好,愿意并且能够采取行动进行紧急救援。有研究表明BLS培训可提高无医护知识背景的旁观者实施的心肺复苏成功率,并将院外心脏骤停患者的存活率提高2-4倍。甚至2015年1月世界卫生组织已认可将BLS培训纳入全球所有学校甚至儿童的课程中。可见,BLS培训对于提高社会人群整体心肺复苏率至关重要。但是目前在学校实施BLS培训与考核的重要障碍是缺乏教师。
目前国内BLS培训考核的模式依然是在固定时间、固定场所,学校组织教师授课,随堂考核。教师来源常常是一线医生、护士等医务工作者。这些医务工作者常面临繁重的临床工作任务,教学时间有限。如,一个完整的BLS操作需要用时约2分钟,一个班级平均50名学生,仅是BLS考核部分,将花费教师至少100分钟时间,而这100分钟时间内,最后一个学生除了2分钟的考试时间外,其余时间均在等待,浪费了师生的时间。另外所用设备常常是包含有投影仪的多媒体教室以及复苏模拟人。复苏模拟人虽然可以对BLS的关键技术心肺复苏(CPR)中的胸外按压技能进行客观评价,但是这些指标只是完成BLS中客观操作的一小部分内容的考核与评价,仅是完成院外心脏骤停生存链中的第二步骤。生存链中最关键的第一个步骤“识别和启动应急反应系统”以及后续步骤“快速除颤”等都需要在教师的监考下才能完成考核。同时,目前心肺复苏考核的技术更新重点多在于或更新按压监测准确性,或提高模拟人仿真度,最终的考核仍然依托于教师对学生操作信息的判读,不能节约教师资源,实现BLS考核全过程的无师化,自动化,智能化。
发明内容
本发明旨在提供一种基于视频判读技术的自助化基础生命支持考核系统,可智能化、自动化地真实记录并准确分析学生BLS操作过程情况,解决背景技术中提出的问题。
为达到上述目的,本发明是采用以下技术方案实现的:
本发明公开的基于视频判读技术的自助化基础生命支持考核系统,包括:
数据采集模块,所述数据采集模块用于采集受考核者在BLS技能操作全过程中的操作视频;
智能判读模块,所述智能判读模块包括语音识别模块和动作识别模块,所述语音识别模块用于提取所述操作视频中的音频数据进行语音识别判读,所述动作识别模块用于提取所述操作视频中的图像数据进行动作识别判读。
自助化考核中央控制单元,所述自助化考核中央控制单元用于控制数据采集模块和智能判读模块。
优选的,所述语音识别模块对语音的识别采用以下步骤:
a.1、提取音频数据;
a.2、建立LSTM语言模型;
a.3、建立LSTM+CPC声学模型;
a.4、构建字典;
a.5、解码后输出文本信息;
a.6、文本检查模块对文本信息数据进行文本识别判读。
优选的,在步骤a.2中,包括以下子步骤:
a.2.1、构建文本数据库,将将BLS考核内容可能涉及到的文本数据进行标注、分词;
a.2.2、建立并训练LSTM语言模型,所述LSTM模型由一个嵌入层,一个隐藏层和一个密集层组成,将文本数据库中的句子概率拆解成每个词的概率积;
其中,LSTM层由多个细胞单元构成,每个细胞单元包括输入节点(gt)、输入门(it)、内部状态节点(st)、忘记门(ft)、输出门(ot),最终输出值为计算公式分别为:
it=σ(wixxt+wihht-1+bi)
ft=σ(wfxxt+wfhht-1+bf)
st=(gt·it+st-1·ft)
ot=σ(woxxt+wohht-1+bo)
ht=st·ot
上述公式中:xt代表当前时刻网络的输入值,ht-1代表上一时刻的输出值,w代表权重矩阵,wgx表示输入节点g输入值x的权重,bg,bi,bt,bo表示输入节点的偏置项,表示用tanh函数,σ()表示用sigmoid函数。
其中,密集层使用LSTM层输出的词汇表中每个单词的条件概率来计算句子出现的联合概率,即:
P(w1,…,wn)=P(w1)*P(w2|w1)*…*P(wn|wn-1,…,w1);
上述公式中:P()表示联合概率函数,wn表示句子中的第n个词,P(w2|w1)表示句子中在出现词w1的条件下,出现词w2的概率,P(wn|wn-1,…,w1)表示出现句子中存在词wn- 1....w1条件下,出现wn的概率。
优选的,步骤a.3包括以下子步骤:
a.3.1、声学特征提取,对BLS视频信息数据中的语音进行分帧;分帧后使用线性预测编码LPCC把多个帧波形变成多个多维向量进行声学特征提取;
a.3.2、建立LSTM+CTC声学模型,将提取到的声学特征转换成音素或字词;所述LSTM+CTC声学模型包括LSTM双向网络、CTC损失函数;
所述LSTM双向网络模型用于将语音数据转换成音素,LSTM双向网络模型包括输入层,前进层(ht),后退层(h′t),输出层(ot),所述前进层(ht),后退层(h′t),输出层(ot)的表达式分别为:
ht=f(w1xt+w2ht-1)
h′t=f(w3xt+w5ht-1)
ot=g(w4ht+w6h′t)
其中,w1,w2…w6代表LSTM双向网络中的6个共享权值。
所述CTC损失函数用于对音素进行最大相似度训练,直接输出序列预测概率,CTC损失函数为:
其中,S={(x1,z1),(x2,z2),...(xN,zN)},表示有N个训练样本,x是输入样本,输入样本为提取的声学特征,z是对应的真实输出标签,对于其中一个样本(x,z),x=(x1,x2,x3,...,xT)表示一个长度为T帧的数据,每一帧的数据是一个维度为m的向量,即每个xi∈Rm,xi是第i帧的数据经过LPC计算后得到的结果;z=(z1,z2,z3,...zU)表示这段样本语音对应正确的音素,Nw:(Rm)T→(Rn)T代表LSTM模型中x的变换。
优选的,步骤a.4包括以下子步骤:
a.4.2、构建发音字典;
步骤a.5包括:将步骤a.2中语言模型输出的概率、步骤a.3中声学模型转换出的声素、步骤a.4中字典结合解码,进行文本输出,计算公式为:
其中,P(X|H)为声学模型,P(H│C)、P(C│L和P(L│W)分别表示状态序列对上下文相关的音素序列、上下文相关的音素序列对音素序列,以及音素序列对字序列的后验概率;P(W)为语言模型;
对新采集的受训者的BLS操作语音信息数据,重复步骤a.2-a.5,得到BLS操作文本语句信息;
步骤a.6包括根据文本检测并抽取出关键时间点序列,并与字典进行相似度对比,
所述文本检查模块对文本信息数据进行文本识别判读的规则策略设定如下:
设置文本参数库里词语的关键字权重,权重向量W={w1,w2…wn};
所述相似度对比为:计算已设定的关键字权重与新采集的文本之间的余弦相似度,计算公式为:
xi代表句子A中每个词出现次数*权重,yi代表句子B每个词出现的次数*权重。当夹角的余弦值接近于1或等于1时,两个文本相近;
对新转化的受训者的BLS操作语音文本数据,重复步骤5.2-5.6,得到BLS操作语音识别判读结果。
优选的,所述动作识别模块对动作的识别包括以下步骤:
b.1、视频帧序列提取,根据音频识别结果,结合关键词匹配的时间点序列提取指定时间点的视频帧;
b.2、构建骨架序列拓朴图信息;
b.3、建立并训练ST-GCN模型;
b.4、动作分类。
优选的,步骤b.2中,所述构建骨架序列拓朴图信息以关节为图节点,以人体结构中的自然连接性和时间为图边制作骨架序列拓朴图,其表达式为:
G=(V,E)
式中:V代表节点集,V={vti|t=1,…,T,i=1,...,N},表示第t帧的第i个节点的特征向量F(vti);E代表边的集合,有两个子集组成,第一个子集是每一帧帧内骨骼点的链接Es={vtivtj|(i,j)∈H},H表示人体骨骼点集合,第二个子集表示不同帧间的链接,Ef={vtiv(t+1)i}。
优选的,所述ST-GCN模型包括输入层、初始化层、三层卷积层、池化层、全链接层、输出层,其中,每层卷积层包括一个ATT单元,一个GCN单元,一个TCN单元;卷积层的输入与输出公式如下:
其中,fin代表输入通道数为c的特征图,卷积核大小K*K;B(vti)代表采样函数,lti(vtj)代表单帧标签图,w(lti(vtj))代表权重方程,Zti(vtj)代表归一化项。将空间域的模型扩展到时间域中,采样函数更换为Γ控制时间域的卷积核大小,权重方程中lti(vtj)更换为
优选的,所述动作分类采用softmax进行动作分类操作,得到预测动作类别的概率值。
进一步的,本发明还包括数据管理模块,所述数据管理模块包括注册登录模块,视频记录模块,成绩展示模块。
本发明可智能化、自动化地真实记录并准确分析学生BLS操作过程情况,可代替教师直接对学生BLS操作过程进行考核打分,节约教师资源。
附图说明
图1为本发明的架构框图;
图2为智能判读模块的架构图;
图3为语音识别模块的架构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图,对本发明进行进一步详细说明。
如图1所示,本发明包括自助化考核中央控制单元、管理模块、数据采集模块和智能判读模块,实现学生自助化BLS技能操作的考核。
具体的,数据采集模块包括注册与登录终端,视频采集终端,模拟人终端;数据管理模块包括注册登录模块,视频记录模块,成绩展示模块;智能判读模块包括语音识别模块、动作识别模块。2)注册登录终端和注册登录模块记录学生注册与登录信息;模拟人终端记录学生操作过程中的按压位置,按压深度,按压频率,每次吹气量等信息;视频采集终端通过摄像设备采集学生BLS技能操作全过程,包括学生操作过程中的动作和声音信息数据;视频记录模块,存储并输出由视频采集终端采集的视频。视频判读模块对学生的操作视频进行智能化自动化视频判读打分。成绩展示模块综合展示视频判读模块与模拟人终端输出的考核打分结果。
本发明的使用方法:步骤:1)学生通过在注册登录模块注册并登录账号;2)与模拟人终端配合完成单人BLS操作;3)在视频记录模块观看已完成的操作视频;4)在成绩展示模块查询考核成绩。
如图2所示,智能判读模块包括语音识别模块、动作识别模块。1)语音识别模块提取视频信息数据中的音频数据进行语音识别判读;2)动作识别模块提取视频信息数据中的图像数据进行动作识别判读。
1、如图3所示,提取视频信息数据中的音频数据进行语音识别判读,包含语音识别模块、文本检测模块。步骤:1)提取音频数据;2)建立LSTM语言模型;3)建立LSTM+CPC声学模型;4)构建字典;5)解码后输出文本信息;6)文本检查模块对文本信息数据进行文本识别判读。
1.1、其中,建立LSTM语言模型的步骤如下:1)构建文本数据库;2)建立并训练LSTM语言模型;
1.1.1、构建文本数据库:将BLS考核内容可能涉及到的文本数据如“前方有人倒地”“确保现场安全”“先生先生你怎么了”“女士醒一醒”“呼之不应,无呼吸”“喂,120”“有人晕倒”“街道小区楼栋”“需要AED”,“无脉搏搏动”“01、02、03、04…27、28、29、30”,“AED到达”“打开电源”“连接电极片”“除颤”“继续胸外按压”“脉搏恢复”“意识恢复”“可触及脉搏搏动”等进行人工标注、分词,构建文本数据库。
1.1.2、建立并训练LSTM语言模型:LSTM模型由一个嵌入层,一个隐藏层和一个密集层组成,将文本数据库中的句子概率拆解成每个词的概率积。
其中,LSTM层由多个细胞单元构成,每个细胞单元包括输入节点(gt)、输入门(it)、内部状态节点(st)、忘记门(ft)、输出门(ot),最终输出值为计算公式分别为:
it=σ(wixxt+wihht-1+bi)
ft=σ(wfxxt+wfhht-1+bf)
st=(gt·it+st-1·ft)
ot=σ(woxxt+wohht-1+bo)
ht=St·ot
上述公式中:xt代表当前时刻网络的输入值,ht-1代表上一时刻的输出值,w代表权重矩阵,wgx表示输入节点g输入值x的权重,bg,bi,bt,bo表示输入节点的偏置项,表示用tanh函数,σ()表示用sigmoid函数。
其中,密集层使用LSTM层输出的词汇表中每个单词的条件概率来计算句子出现的联合概率,即:
P(w1,…,wn)=P(w1)*P(w2|w1)*…*P(wn|wn-1,…,w1);
上述公式中:P()表示联合概率函数,wn表示句子中的第n个词,P(w2|w1)表示句子中在出现词w1的条件下,出现词w2的概率,P(wn|wn-1,…,w1)表示出现句子中存在词wn- 1....w1条件下,出现wn的概率。
1.2建立LSTM+CPC声学模型。其特征在于,步骤1)声学特征提取:对BLS视频信息数据中的语音进行分帧;分帧后使用线性预测编码LPCC把多个帧波形变成多个多维向量进行声学特征提取;2)建立LSTM+CTC声学模型,将提取到的声学特征转换成音素/字词。
其中,LSTM+CTC声学模型:包括LSTM双向网络,CTC损失函数,其特征在于,步骤:1)通过LSTM双向网络模型将语音数据转换成音素;2)通过CTC损失函数对音素进行最大相似度训练,直接输出序列预测概率。
1.2.1、LSTM双向网络模型包括输入层,前进层(ht),后退层(h′t),输出层(ot),表达式分别为:
ht=f(w1xt+w2ht-1)
h′t=f(w3xt+w5ht-1)
ot=g(w4ht+w6h′t)
其中,w1,w2…w6代表LSTM双向网络中的6个共享权值。
所述CTC损失函数用于对音素进行最大相似度训练,直接输出序列预测概率,CTC损失函数为:
其中,S={(x1,z1),(x2,z2),...(xN,zN)},表示有N个训练样本,x是输入样本,输入样本为提取的声学特征,z是对应的真实输出标签,对于其中一个样本(x,z),x=(x1,x2,x3,...,xT)表示一个长度为T帧的数据,每一帧的数据是一个维度为m的向量,即每个xi∈Rm,xi是第i帧的数据经过LPC计算后得到的结果;z=(z1,z2,z3,...zU)表示这段样本语音对应正确的音素,Nw:(Rm)T→(Rn)T代表LSTM模型中x的变换。
1.3、构建字典:
1.3.2构建发音字典:如“确QE”“保BO”“安AN”“全QN”等。
1.4解码后输出文本信息:其特征在于,将1.1中语言模型输出的概率、1.2中声学模型转换出的声素、1.3中字典结合解码,进行文本输出。计算公式为:
其中,P(X|H)为声学模型,P(H│C)、P(C│L和P(L│W)分别表示状态序列对上下文相关的音素序列、上下文相关的音素序列对音素序列,以及音素序列对字序列的后验概率;P(W)为语言模型。
1.5对新采集的学生BLS操作语音信息数据,重复步骤1.1-1.4,得到BLS操作文本语句信息。
1.6文本检查模块对文本信息数据进行文本识别判读,其特征在于,步骤:1)检测;2)规则策略设定;3)相似度对比。
1.6.1检测:根据文本检测并抽取出关键时间点序列,文本检测结果如“前方有人倒地,确保现场安全”作为序列1,“先生先生你怎么了”“女士醒一醒”“呼之不应,无呼吸”作为序列2,“喂,120”“有人晕倒”“街道小区楼栋”“需要AED”作为序列3,“无脉搏搏动”“01、02、03、04…27、28、29、30”作为序列4,“AED到达”“打开电源”“连接电极片”“除颤”“继续胸外按压”作为序列5,“脉搏恢复”“意识恢复”“可触及脉搏搏动”作为序列6。
1.6.2规则策略设定:设置文本参数库里词语的关键字权重,权重向量W={w1,w2…wn},其中如“前方有人倒地,确保周围环境安全”关键词为:倒地,确保,环境,安全,则权重为(0,0,0.2,0.3,0,0.1,0.3)。
1.6.3相似度对比:计算已设定的关键字权重与新采集的文本之间的余弦相似度,计算公式为:
其中,xi代表句子A中每个词出现次数*权重,yi代表句子B每个词出现的次数*权重。当夹角的余弦值接近于1或等于1时,两个文本相近。
1.7对新转化的学生BLS操作语音文本数据,重复步骤1.1-1.6,得到BLS操作语音识别判读结果。
2、如图2所示:提取视频信息数据中的图像信息数据进行动作识别判读,包括步骤:1)视频帧序列提取;2)构建骨架序列拓朴图信息;3)建立并训练ST-GCN模型;4)动作分类。
2.1视频帧序列提取:根据音频识别结果,结合关键词匹配的时间点序列提取指定时间点的视频帧。
2.2构建骨架序列拓朴图信息:以关节为图节点,以人体结构中的自然连接性和时间为图边制作骨架序列拓朴图(时空图),计算公式为:
G=(V,E)
V代表节点集,V={vti|t=1,…,T,i=1,...,N},表示第t帧的第i个节点的特征向量F(vti);E代表边的集合,有两个子集组成,第一个子集是每一帧帧内骨骼点的链接Es={vtivtj|(i,j)∈H},H表示人体骨骼点集合。第二个子集表示不同帧间的链接,Ef={vtiv(t+1)i}。
2.3、建立并训练ST-GCN模型,包括输入层,初始化层,三层卷积层,池化层,全链接层,输出层。其中,每层卷积层包括一个ATT单元,一个GCN单元,一个TCN单元。
卷积层的输入与输出公式:
其中,fin代表输入通道数为c的特征图,卷积核大小K*K;B(vti)代表采样函数,lti(vtj)代表单帧标签图,w(lti(vtj))代表权重方程,Zti(vtj)代表归一化项。将空间域的模型扩展到时间域中,采样函数更换为Γ控制时间域的卷积核大小,权重方程中lti(vtj)更换为
2.4、输出动作分类:采用softmax进行动作分类操作,得到预测动作类别的概率值。
2.5、对新采集的学生BLS操作图像信息数据,重复步骤2.1-2.4,得到BLS操作动作识别判读结果。
当然,本发明还可有其它多种实施例,在不背离本发明精神及其实质的情况下,熟悉本领域的技术人员可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。
Claims (8)
1.基于视频判读技术的自助化基础生命支持考核系统,其特征在于,包括:
数据采集模块,所述数据采集模块用于采集受考核者在BLS技能操作全过程中的操作视频;
智能判读模块,所述智能判读模块包括语音识别模块和动作识别模块,所述语音识别模块用于提取所述操作视频中的音频数据进行语音识别判读,所述动作识别模块用于提取所述操作视频中的图像数据进行动作识别判读;其中,所述语音识别模块对语音的识别采用以下步骤:
a.1、提取音频数据;
a.2、建立LSTM语言模型;
a.3、建立LSTM+CTC声学模型;
a.4、构建字典;
a.5、解码后输出文本信息;
a.6、文本检查模块对文本信息数据进行文本识别判读;
所述动作识别模块对动作的识别包括以下步骤:
b.1、视频帧序列提取,根据音频识别结果,结合关键词匹配的时间点序列提取指定时间点的视频帧;
b.2、构建骨架序列拓朴图信息;
b.3、建立并训练ST-GCN模型;
b.4、动作分类;
自助化考核中央控制单元,所述自助化考核中央控制单元用于控制数据采集模块和智能判读模块。
2.根据权利要求1所述的基于视频判读技术的自助化基础生命支持考核系统,其特征在于,在步骤a.2中,包括以下子步骤:
a.2.1、构建文本数据库,将将BLS考核内容可能涉及到的文本数据进行标注、分词;
a.2.2、建立并训练LSTM语言模型,所述LSTM模型由一个嵌入层,一个隐藏层和一个密集层组成,将文本数据库中的句子概率拆解成每个词的概率积;
其中,隐藏层由多个细胞单元构成,每个细胞单元包括输入节点gt、输入门it、内部状态节点st、忘记门ft、输出门ot,最终输出值的计算公式分别为:
it=σ(wixxt+wihht-1+bi)
ft=σ(wfxxt+wfhht-1+bf)
st=(gt·it+st-1·ft)
ot=σ(woxxt+wohht-1+bo)
ht=st·ot
上述公式中:xt代表当前时刻网络的输入值,ht-1代表上一时刻的输出值,w代表权重矩阵,wgx表示输入节点g输入值x的权重,bg,bi,bt,bo表示输入节点的偏置项,表示用tanh函数,σ()表示用sigmoid函数;
其中,密集层使用LSTM层输出的词汇表中每个单词的条件概率来计算句子出现的联合概率,即:
P(w1,…,wn)=P(w1)*P(w2|w1)*…*P(wn|wn-1,…,w1);
上述公式中:P()表示联合概率函数,wn表示句子中的第n个词,P(w2|w1)表示句子中在出现词w1的条件下,出现词w2的概率,P(wn|wn-1,…,w1)表示出现句子中存在词wn-1....w1条件下,出现wn的概率。
3.根据权利要求2所述的基于视频判读技术的自助化基础生命支持考核系统,其特征在于,步骤a.3包括以下子步骤:
a.3.1、声学特征提取,对BLS视频信息数据中的语音进行分帧;分帧后使用线性预测编码LPCC把多个帧波形变成多个多维向量进行声学特征提取;
a.3.2、建立LSTM+CTC声学模型,将提取到的声学特征转换成音素或字词;所述LSTM+CTC声学模型包括LSTM双向网络、CTC损失函数;
所述LSTM双向网络模型用于将语音数据转换成音素,LSTM双向网络模型包括输入层,前进层ht,后退层h′t,输出层ot,所述前进层ht,后退层h′t,输出层ot的表达式分别为:
ht=f(w1xt+w2ht-1)
h′t=f(w3xt+w5ht-1)
ot=g(w4ht+w6h′t)
其中,w1,w2…w6代表LSTM双向网络中的6个共享权值;
所述CTC损失函数用于对音素进行最大相似度训练,直接输出序列预测概率,CTC损失函数为:
其中,S={(x1,z1),(x2,z2),...(xN,zN)},表示有N个训练样本,x是输入样本,输入样本为提取的声学特征,z是对应的真实输出标签,对于其中一个样本(x,z),x=(x1,x2,x3,...,xT)表示一个长度为T帧的数据,每一帧的数据是一个维度为m的向量,即每个xi∈Rm,xi是第i帧的数据经过LPC计算后得到的结果;z=(z1,z2,z3,...zU)表示这段样本语音对应正确的音素,Nw:(Rm)T→(Rn)T代表LSTM模型中x的变换。
4.根据权利要求1所述的基于视频判读技术的自助化基础生命支持考核系统,其特征在于,
步骤a.4包括以下子步骤:
a.4.2、构建发音字典;
步骤a.5包括:将步骤a.2中语言模型输出的概率、步骤a.3中声学模型转换出的声素、步骤a.4中字典结合解码,进行文本输出,计算公式为:
其中,P(X|H)为声学模型,P(H│C)、P(C│L和P(L│W)分别表示状态序列对上下文相关的音素序列、上下文相关的音素序列对音素序列,以及音素序列对字序列的后验概率;P(W)为语言模型;
对新采集的受训者的BLS操作语音信息数据,重复步骤a.2-a.5,得到BLS操作文本语句信息;
步骤a.6包括根据文本检测并抽取出关键时间点序列,并与字典进行相似度对比,
所述文本检查模块对文本信息数据进行文本识别判读的规则策略设定如下:
设置文本参数库里词语的关键字权重,权重向量W={w1,w2…wn};
所述相似度对比为:计算已设定的关键字权重与新采集的文本之间的余弦相似度,计算公式为:
xi代表句子A中每个词出现次数*权重,yi代表句子B每个词出现的次数*权重;当夹角的余弦值接近于1或等于1时,两个文本相近;
对新转化的受训者的BLS操作语音文本数据,重复步骤5.2-5.6,得到BLS操作语音识别判读结果。
5.根据权利要求1所述的基于视频判读技术的自助化基础生命支持考核系统,其特征在于,步骤b.2中,所述构建骨架序列拓朴图信息以关节为图节点,以人体结构中的自然连接性和时间为图边制作骨架序列拓朴图,其表达式为:
G=(V,E)
式中:V代表节点集,V={vti|t=1,…,T,i=1,...,N},表示第t帧的第i个节点的特征向量F(vti);E代表边的集合,有两个子集组成,第一个子集是每一帧帧内骨骼点的链接Es={vtivtj|(i,j)∈H},H表示人体骨骼点集合,第二个子集表示不同帧间的链接,Ef={vtiv(t+1)i}。
7.根据权利要求6所述的基于视频判读技术的自助化基础生命支持考核系统,其特征在于,所述动作分类采用softmax进行动作分类操作,得到预测动作类别的概率值。
8.根据权利要求1所述的基于视频判读技术的自助化基础生命支持考核系统,其特征在于,还包括数据管理模块,所述数据管理模块包括注册登录模块,视频记录模块,成绩展示模块。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010724686.4A CN111768758B (zh) | 2020-07-24 | 2020-07-24 | 基于视频判读技术的自助化基础生命支持考核系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010724686.4A CN111768758B (zh) | 2020-07-24 | 2020-07-24 | 基于视频判读技术的自助化基础生命支持考核系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111768758A CN111768758A (zh) | 2020-10-13 |
CN111768758B true CN111768758B (zh) | 2023-04-07 |
Family
ID=72727232
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010724686.4A Active CN111768758B (zh) | 2020-07-24 | 2020-07-24 | 基于视频判读技术的自助化基础生命支持考核系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111768758B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111785254B (zh) * | 2020-07-24 | 2023-04-07 | 四川大学华西医院 | 基于模拟人的自助化bls培训与考核系统 |
CN114216682B (zh) * | 2021-12-03 | 2023-04-07 | 南京航空航天大学 | 一种基于tcn和bls的滚动轴承的寿命预测方法及装置 |
CN114185680A (zh) * | 2021-12-14 | 2022-03-15 | 中国建设银行股份有限公司 | 数据处理方法、数据处理系统、电子设备和介质 |
CN118485337A (zh) * | 2024-05-21 | 2024-08-13 | 福寿康智慧医疗养老服务(上海)有限公司 | 一种基于计算机视觉的智能护理员按摩考核系统 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4360345A (en) * | 1980-07-14 | 1982-11-23 | American Heart Association, Inc. | Health education system |
AU1769992A (en) * | 1991-05-22 | 1992-12-30 | Ronald Gerry Dawson | Sports training device |
KR20090114608A (ko) * | 2008-04-30 | 2009-11-04 | 김상철 | 심폐소생술 보조리듬장치 |
CN103106830A (zh) * | 2013-02-06 | 2013-05-15 | 中国人民解放军第四军医大学 | 数字化急救技能模拟训练系统及方法 |
JP2016146870A (ja) * | 2015-02-10 | 2016-08-18 | シャープ株式会社 | 救命支援装置 |
CN109005202A (zh) * | 2017-06-06 | 2018-12-14 | 北京医模科技股份有限公司 | 基于云平台的心肺复苏模拟、交互方法及系统 |
CN110037733A (zh) * | 2019-04-01 | 2019-07-23 | 四川大学华西医院 | 一种便携式程控无线体音监测系统 |
CN110599844A (zh) * | 2019-09-19 | 2019-12-20 | 南昌佰米哥物联科技有限公司 | 一种可以收集培训数据的自助化心肺复苏培训考核系统 |
CN111179718A (zh) * | 2020-02-20 | 2020-05-19 | 苏州尚领医疗科技有限公司 | 一种心肺复苏培训仿真交互型模拟方法 |
-
2020
- 2020-07-24 CN CN202010724686.4A patent/CN111768758B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4360345A (en) * | 1980-07-14 | 1982-11-23 | American Heart Association, Inc. | Health education system |
AU1769992A (en) * | 1991-05-22 | 1992-12-30 | Ronald Gerry Dawson | Sports training device |
KR20090114608A (ko) * | 2008-04-30 | 2009-11-04 | 김상철 | 심폐소생술 보조리듬장치 |
CN103106830A (zh) * | 2013-02-06 | 2013-05-15 | 中国人民解放军第四军医大学 | 数字化急救技能模拟训练系统及方法 |
JP2016146870A (ja) * | 2015-02-10 | 2016-08-18 | シャープ株式会社 | 救命支援装置 |
CN109005202A (zh) * | 2017-06-06 | 2018-12-14 | 北京医模科技股份有限公司 | 基于云平台的心肺复苏模拟、交互方法及系统 |
CN110037733A (zh) * | 2019-04-01 | 2019-07-23 | 四川大学华西医院 | 一种便携式程控无线体音监测系统 |
CN110599844A (zh) * | 2019-09-19 | 2019-12-20 | 南昌佰米哥物联科技有限公司 | 一种可以收集培训数据的自助化心肺复苏培训考核系统 |
CN111179718A (zh) * | 2020-02-20 | 2020-05-19 | 苏州尚领医疗科技有限公司 | 一种心肺复苏培训仿真交互型模拟方法 |
Non-Patent Citations (2)
Title |
---|
Learning basic life support (BLS) with tablet PCs in reciprocal learning at school: Are videos superior to pictures? A randomized controlled trial;PeterIserbyt,et al;《Resuscitation》;ScienceDirect;20140203;第85卷(第6期);全文 * |
全科医师数字模拟考核系统的设计与实现;黄德贵;《中国优秀硕士学位论文全文数据库 (信息科技辑)》;中国学术期刊(光盘版)电子杂志社;20160315(第3期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111768758A (zh) | 2020-10-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111768758B (zh) | 基于视频判读技术的自助化基础生命支持考核系统 | |
CN110148318B (zh) | 一种数字助教系统、信息交互方法和信息处理方法 | |
CN111785254B (zh) | 基于模拟人的自助化bls培训与考核系统 | |
CN108766415B (zh) | 一种语音测评方法 | |
CN108491486B (zh) | 模拟病人问诊对话方法、装置、终端设备及存储介质 | |
CN113934824B (zh) | 一种基于多轮智能问答的相似病历匹配系统及方法 | |
CN108073888A (zh) | 一种教学辅助方法及采用该方法的教学辅助系统 | |
CN114064931A (zh) | 一种基于多模态知识图谱的急救知识问答方法及系统 | |
CN107456208A (zh) | 多模式交互的言语语言功能障碍评估系统与方法 | |
CN115713875A (zh) | 一种基于心理分析的虚拟现实仿真教学方法 | |
CN110956142A (zh) | 一种智能交互培训系统 | |
CN115188074A (zh) | 一种互动式体育训练测评方法、装置、系统及计算机设备 | |
CN112529054B (zh) | 一种多源异构数据的多维度卷积神经网络学习者建模方法 | |
CN114912512A (zh) | 一种对图像描述的结果进行自动评估的方法 | |
CN116844080A (zh) | 疲劳程度多模态融合检测方法、电子设备及存储介质 | |
Muthumal et al. | Mobile and Simulation-based Approach to reduce the Dyslexia with children Learning Disabilities | |
Shi et al. | Construction of English pronunciation judgment and detection model based on deep learning neural networks data stream fusion | |
CN114840679B (zh) | 一种基于乐理知识图谱推理的机器人智能导学方法及应用 | |
Liu et al. | Deep learning scoring model in the evaluation of oral English teaching | |
CN115984956B (zh) | 一种人机协同学生课堂投入度多模态可视分析系统 | |
CN112560429A (zh) | 基于深度学习的智能培训检测方法及系统 | |
CN117484498A (zh) | 一种基于人工智能的心肺复苏机器人 | |
CN112015921A (zh) | 一种基于学习辅助知识图谱的自然语言处理方法 | |
CN116306592A (zh) | 一种基于阅读理解的老年痴呆量表纠错方法、系统及介质 | |
Zhang et al. | CSFQGD: Chinese Sentence Fill-in-the-blank Question Generation Dataset for Examination |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |