CN117152770A - 一种面向手写输入的书写能力智能评测方法及系统 - Google Patents
一种面向手写输入的书写能力智能评测方法及系统 Download PDFInfo
- Publication number
- CN117152770A CN117152770A CN202311081395.8A CN202311081395A CN117152770A CN 117152770 A CN117152770 A CN 117152770A CN 202311081395 A CN202311081395 A CN 202311081395A CN 117152770 A CN117152770 A CN 117152770A
- Authority
- CN
- China
- Prior art keywords
- text
- writing
- candidate
- recognition
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19173—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/28—Quantising the image, e.g. histogram thresholding for discrimination between background and foreground patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/16—Image preprocessing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/16—Image preprocessing
- G06V30/162—Quantising the image signal
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/18—Extraction of features or characteristics of the image
- G06V30/1801—Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/26—Techniques for post-processing, e.g. correcting the recognition result
- G06V30/262—Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Character Discrimination (AREA)
Abstract
本发明公开了一种面向手写输入的书写能力智能评测方法及系统。该方法包括如下步骤:获取用户输入的手写文字图片;基于预设的文本识别模型对手写文字图片进行文本识别,以将手写文字图片转化为候选文本;基于预设的文本矫正模型对候选文本进行文本矫正,以将候选文本矫正为正式文本;基于预设的文本分析模型对正式文本进行文本分析,以输出针对于用户的文本分析结果;根据文本分析结果对用户进行书写能力智能评测。由此,利用该方法能够实现手写文字识别与文本语义分析的完整评测流程,并针对书写随意、字体潦草等问题进行了兼容,在保证准确性的同时,极大地提高了整个评测方法的鲁棒性和实用性。
Description
技术领域
本发明涉及一种面向手写输入的书写能力智能评测方法,同时也涉及相应的书写能力智能评测系统,属于数据识别技术领域。
背景技术
书写能力测评是简易精神状态量表中的一项重要内容,其形式是通过让疑似患有认知障碍疾病的患者手写一句满足如下三个条件的中文语句:(1)有主语;(2)有动词;(3)语义通顺。如果当前患者能够按以上三条要求写出符合条件的语句,则认为其具有基本书写能力,以此来评估当前患者的认知水平,因此评测患者的书写能力对其病情诊断有着重要的参考意义。
传统的书写能力测评主要依靠专业人员进行人工评估,评估时间较长并且容易受到主观因素的干扰。为了解决这个问题,在公开号为CN111651999A的中国专利申请中,公开了一种面向书写能力检测的文本语义分析自动评价系统,主要包括待评估语料输入模块、训练语料获取模块、语料预处理模块、语法完整性判断模块、语义通顺度分析模块和数据库。该自动评价系统中结合受试者所写中文语句的语法成分完整性和语义通顺度,判断语句是否可理解,进而判断受试者是否具有基本的书写能力。
然而,一个完整的书写能力评测方案应该包括手写输入识别和语义分析两部分。上述专利申请的技术方案主要专注于后者,完全忽略了手写输入识别部分,因此无法实现对用户书写能力的自动化智能评测。
发明内容
本发明所要解决的首要技术问题在于提供一种面向手写输入的书写能力智能评测方法。
本发明所要解决的另一技术问题在于提供一种面向手写输入的书写能力智能评测系统。
为实现上述目的,本发明采用以下的技术方案:
根据本发明实施例的第一方面,提供一种面向手写输入的书写能力智能评测方法,包括如下步骤:
获取用户输入的手写文字图片;
基于预设的文本识别模型对所述手写文字图片进行文本识别,以将所述手写文字图片转化为候选文本;
基于预设的文本矫正模型对所述候选文本进行文本矫正,以将所述候选文本矫正为正式文本;
基于预设的文本分析模型对所述正式文本进行文本分析,以输出针对于所述用户的文本分析结果;
根据所述文本分析结果对所述用户进行书写能力智能评测。
其中较优地,所述文本识别过程包括:
基于预设的文本检测模型对所述手写文字图片进行图像特征提取,以提取端到端不定大小的文本书写区域;
基于预设的文本方向识别模型对所述文本书写区域进行方向识别,以识别出所述文本书写区域的文本方向;其中,所述文本方向至少包括上、下、左、右四个方向;
基于预设的文字识别模型对文本书写区域进行文字识别,并基于所识别的文本方向对识别的文字进行排序,以输出正确排序的候选文本;
其中,文本检测模型、文本方向识别模型和文字识别模型共同构成所述文本识别模型。
其中较优地,基于预设的文本检测模型对所述手写文字进行图像特征提取,以提取端到端不定大小的文本书写区域,具体包括:
通过第一图像变换模块对手写文字图片进行归一化处理;
通过第一网络特征提取模块基于卷积循环神经网络对归一化处理后的手写文字图片进行特征提取,以提取文本书写区域特征矩阵;
通过第一特征增强模块对所述文本书写区域特征矩阵进行特征增强;
通过第一网络输出模块输出特征增强后的文本书写区域。
其中较优地,基于预设的文本方向识别模型对所述文本书写区域进行方向识别,以识别出所述文本书写区域的文本方向,具体包括:
通过第二图像变换模块对所述文本书写区域的切割图片进行归一化处理;
通过第二网络特征提取模块基于卷积循环神经网络对对归一化处理后的文本书写区域的切割图片进行特征提取,以提取文本书写方向特征矩阵;
通过第二特征增强模块对所述文本书写方向特征矩阵进行特征增强;
通过第二网络输出模块输出特征增强后文本书写区域的切割图片的文本方向。
其中较优地,基于预设的文字识别模型对文本书写区域进行文字识别,并基于所识别的文本方向对识别的文字进行排序,以输出正确排序的候选文本,具体包括:
通过第三图像变换模块对矫正文本方向后的切割图片进行归一化处理;
通过第三网络特征提取模块基于卷积循环神经网络对归一化处理后的正确方向切割图片进行特征提取,以提取不定长文字特征矩阵;
通过第三特征增强模块对所提取的不定长文字特征矩阵进行特征增强;
通过第三网络输出模块输出按照所述文本方向正确排序的文字,形成所述正确排序的候选文本。
其中较优地,所述第三网络输出模块选取概率最大的字符作为识别结果,并采用CTC损失函数对所述文本书写区域进行函数优化,以输出所述文本方向正确排序的文字。
其中较优地,所述文本矫正的过程,具体包括:
在文本识别模型识别文字的过程中,遇到字迹潦草的字符时,根据置信度给出多个候选字符,形成候选字符集合;
基于预训练的文本矫正模型,对所述候选文本中字迹潦草的字符进行挖空预测,以在挖空位置预测出多个预测字符,形成预测字符集合;
若所述候选字符集合与所述预测字符集合存在交集,则将所述交集作为文字识别结果;
若所述候选字符集合与所述预测字符集合不存在交集,则选择所述候选字符集合中使语句通顺的候选字符作为文字识别结果;若所述候选字符集合中的所有候选字符均无法使语句通顺,则选择所述预测字符集合中使语句通顺的预测字符作为文字识别结果;
重复上述过程,以对所述候选文本中所有字迹潦草的字符进行矫正,从而将所述候选文件矫正为正式文本。
其中较优地,所述文本分析的过程,具体包括:
根据句法分析模型输出所述正式文本的依存关系标签;其中,所述依存关系标签至少包括主谓关系SBV、动宾关系VOB、介宾关系POB、核心关系HED和双宾关系DOB;
根据词性标注模型输出所述正式文本的词性标签;其中,所述词性标签至少包括名词n、动词v、代词r、形容词a、副词d和标点符号w;
根据所述依存关系标签和所述词性标签,按照预设规则判断所述正式文本是否语句通顺且符合量表题目要求;若判断结果为是,则所述用户在在量表中对应的项目计1分,若判断结果为否,则所述用户在在量表中对应的项目计0分。
其中较优地,所述预设规则包括:
若所述正式文本的依存关系标签中包括SBV+VOB、SBV+POB、SBV+DOB、SBV+HED中的任意一种组合,并且SBV的词性标签属于n或r,VOB、POB、DOB的词性标签属于n或r,HED的词性标签属于为n或r或v,则判断结果为是;反之,则判断结果为否。
根据本发明实施例的第二方面,提供一种面向手写输入的书写能力智能评测系统,包括处理器和存储器,所述处理器读取所述存储器中的计算机程序,用于执行以下操作:
获取用户输入的手写文字图片;
基于预设的文本识别模型对所述手写文字图片进行文本识别,以将所述手写文字图片转化为候选文本;
基于预设的文本矫正模型对所述候选文本进行文本矫正,以将所述候选文本矫正为正式文本;
基于预设的文本分析模型对所述正式文本进行文本分析,以输出针对于所述用户的文本分析结果;
根据所述文本分析结果对所述用户进行书写能力智能评测。
与现有技术相比较,本发明提供的面向手写输入的书写能力智能评测方法及系统不仅包括针对文本的语义分析,同时包括手写文字的识别技术。本发明引入多个深度学习模型进行评测,解决了书写随意、字体潦草等问题,对书写的各种情况进行了兼容,在保证准确性的同时,极大地提高了整个评测方法的鲁棒性和实用性。
附图说明
图1为本发明实施例提供的一种面向手写输入的书写能力智能评测方法的流程图;
图2为本发明实施例中,深度学习模型的组成结构示意图;
图3为本发明实施例中,ERNIE3.0语言模型的示意图;
图4为本发明实施例提供的一种面向手写输入的书写能力智能评测系统的结构图。
具体实施方式
下面结合附图和具体实施例对本发明的技术内容进行详细具体的说明。
如图1所示,本发明实施例提供的一种面向手写输入的书写能力智能评测方法,具体包括步骤S1~S5:
S1:获取用户在电子屏上输入的手写文字图片。
具体的,当用户进行书写能力评测时,需要按照量表要求通过触写笔在电子屏幕上输入手写文字。输入完成后,电子屏幕上会形成用户的手写文字图片,以用于后续的文字识别和分析。
例如:在本发明的一个实施例中,用户输入的信息为:“我在医院治病”,则输入完成后会形成“我在医院治病”的文字图片。
S2:基于预设的文本识别模型对手写文字图片进行文本识别,以将手写文字图片转化为候选文本。
当用户完成手写文字的输入后,需要利用预设的文本识别模型对手写文字图片进行文本识别。其中,该文本识别模型由文本检测模型、文本方向识别模型和文字识别模型共同构成。该文本检测模型用于对手写文字图片进行图像特征提取,以提取端到端的文本书写区域;文本方向识别模型用于对文本书写区域进行方向识别,以识别出文本书写区域的文本方向;文字识别模型用于对文本书写区域进行文字识别,并基于所识别的文本方向对识别的文字进行排序,以输出正确排序的候选文本。
可以理解的是,在本发明的一个实施例中,文本检测模型、文本方向识别模型和文字识别模型均由同一个深度学习模型进行构建。如图2所示,该深度学习模型由四部分组成,分别为:图像变换部分、网络特征提取部分、特征增强部分以及网络输出部分。也即:文本检测模型、文本方向识别模型和文字识别模型均由上述四部分组成,区别在于各部分的具体作用不同。
具体的,该文本识别过程包括步骤S21~S23:
S21:文本检测。
具体包括步骤S211~S214:
S211:通过第一图像变换模块对手写文字图片进行归一化处理,以排除图像分辨率、文字背景颜色等干扰。
S212:通过第一网络特征提取模块基于卷积循环神经网络对归一化处理后的手写文字图片进行特征提取,以提取文本书写区域特征矩阵。其中,该第一网络特征提取模块采用卷积循环神经网络,卷积网络对于图像的特征提取有较好的效果,并且速度快,循环神经网络适合处理自然语言处理文本相关的任务,两者结合的卷积循环神经网络对于提取端到端的不定长的文本书写区域识别效果较好。
S213:通过第一特征增强模块对文本书写区域特征矩阵进行特征增强;
S214:通过第一网络输出模块输出特征增强后的文本书写区域。
S22:文本方向检测。
具体包括步骤S221~S224:
S221:通过第二图像变换模块对文本书写区域的切割图片进行归一化处理;
S222:通过第二网络特征提取模块基于卷积循环神经网络对对归一化处理后的文本书写区域的切割图片进行特征提取,以提取文本书写方向特征矩阵;
S223:通过第二特征增强模块对文本书写方向特征矩阵进行特征增强;
S224:通过第二网络输出模块输出特征增强后文本书写区域的切割图片的文本方向。其中,该第二网络输出模块是针对方向分类进行输出,通过一个全连接层把维度降到4维,分别代表4个分类,即上下左右四个方向。
S23:文字识别。
具体包括步骤S231~S234:
S231:通过第三图像变换模块对矫正文本方向后的切割图片进行归一化处理;
S232:通过第三网络特征提取模块基于卷积循环神经网络对归一化处理后的正确方向切割图片进行特征提取,以提取不定长文字特征矩阵;
S233:通过第三特征增强模块对所提取的不定长文字特征矩阵进行特征增强;
S234:通过第三网络输出模块输出按照文本方向正确排序的文字,形成正确排序的候选文本。在该步骤S234中,第三网络输出模块由一个全连接层把维度从n512维升到n5529维,其中,n表示不定长度的文字,5529表示汉字、标点、英文的每个字符对应的预测概率。通过选取概率最大的字符作为识别结果,并采用CTC(Connectionist temporalclassification,连接时态分类)损失函数对文本书写区域进行函数优化,以输出文本方向正确排序的文字。
其中,CTC损失函数对文本书写区域进行函数优化如下:
LSTM在输入为x的情况下,输出 的概率为:
π∈B-1(l)代表所有经过B变换后为的路径π。
对于其中任意一条路径π有:
对于T=12的路径π1而言:
CTC损失函数通过梯度调整LSTM的参数w,使输入样本π∈B-1(l)时候p(l|x)最大;
CTC损失函数的输入y矩阵中某一个的值ytk的概率:
其中,αt(lk)、βt(lk)是通过递推计算的常数。
S3:基于预设的文本矫正模型对候选文本进行文本矫正,以将候选文本矫正为正式文本。
具体的,包括步骤S31~S34:
S31:生成候选字符集合
在文本识别模型识别文字的过程中,遇到字迹潦草的字符时,根据置信度给出多个候选字符,形成候选字符集合。
S32:生成预测字符集合
基于预训练的文本矫正模型,对候选文本中字迹潦草的字符进行挖空预测,以在挖空位置预测出多个预测字符,形成预测字符集合。
其中,如图3所示,在本发明的一个实施例中,该预训练的文本矫正模型为ERNIE3.0语言模型。在其他实施例中,也可以根据需要适应性替换为其他语言模型。
S33:输出文字识别结果
具体的,若候选字符集合与预测字符集合存在交集,则将交集作为文字识别结果。
若候选字符集合与预测字符集合不存在交集,则选择候选字符集合中使语句通顺的候选字符作为文字识别结果;若候选字符集合中的所有候选字符均无法使语句通顺,则选择预测字符集合中使语句通顺的预测字符作为文字识别结果。
S34:重复上述过程,以对候选文本中所有字迹潦草的字符进行矫正,从而将候选文件矫正为正式文本。
S4:基于预设的文本分析模型对正式文本进行文本分析,以输出针对于用户的文本分析结果。
具体的,包括步骤S41~S43:
S41:获取依存关系标签
根据句法分析模型获取正式文本中的关键词、主语、谓语、宾语等重要信息,从而输出正式文本的依存关系标签;其中,所述依存关系标签至少包括主谓关系SBV、动宾关系VOB、介宾关系POB、核心关系HED和双宾关系DOB。
S42:获取词性标签
根据词性标注模型对正式文本中的关键词进行词性标注,从而输出正式文本的词性标签;其中,词性标签至少包括名词n、动词v、代词r、形容词a、副词d和标点符号w。
S43:输出结果
根据上述依存关系标签和词性标签,按照预设规则判断正式文本是否语句通顺且符合量表题目要求;若判断结果为是,则用户在在量表中对应的项目计1分,若判断结果为否,则用户在在量表中对应的项目计0分。其中,该预设规则如下:
若所述正式文本的依存关系标签中包括SBV+VOB、SBV+POB、SBV+DOB、SBV+HED中的任意一种组合,并且SBV的词性标签属于n或r,VOB、POB、DOB的词性标签属于n或r,HED的词性标签属于为n或r或v,则判断结果为是。反之,则判断结果为否。
S5:根据文本分析结果对用户进行书写能力智能评测。
基于用户的文本分析结果能够得知用户在书写能力方面的量表得分,从而可通过与常模标准相比得知用户在书写能力方面的评测结果。
在上述面向手写输入的书写能力智能评测方法的基础上,本发明进一步提供一种面向手写输入的书写能力智能评测系统。如图4所示,该书写能力智能评测系统包括一个或多个处理器21和存储器22。其中,存储器22与处理器21耦接,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器21执行,使得所述一个或多个处理器21实现如上述实施例中的面向手写输入的书写能力智能评测方法。
其中,处理器21用于控制该书写能力智能评测系统的整体操作,以完成上述面向手写输入的书写能力智能评测方法的全部或部分步骤。该处理器21可以是中央处理器(CPU)、图形处理器(GPU)、现场可编程逻辑门阵列(FPGA)、专用集成电路(ASIC)、数字信号处理(DSP)芯片等。存储器22用于存储各种类型的数据以支持在该书写能力智能评测系统的操作,这些数据例如可以包括用于在该书写能力智能评测系统上操作的任何应用程序或方法的指令,以及应用程序相关的数据。该存储器22可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,例如静态随机存取存储器(SRAM)、电可擦除可编程只读存储器(EEPROM)、可擦除可编程只读存储器(EPROM)、可编程只读存储器(PROM)、只读存储器(ROM)、磁存储器、快闪存储器等。
在一个示例性实施例中,评测系统具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现,用于执行上述的面向手写输入的书写能力智能评测方法,并达到如上述方法一致的技术效果。一种典型的实施例为计算机。具体地说,计算机例如可以为个人计算机、膝上型计算机、车载人机交互设备、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
在另一个示例性实施例中,本发明还提供一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述任意一个实施例中的面向手写输入的书写能力智能评测方法的步骤。例如,该计算机可读存储介质可以为上述包括程序指令的存储器,上述程序指令可由评测系统的处理器执行以完成上述的面向手写输入的书写能力智能评测方法,并达到如上述方法一致的技术效果。
综上所述,本发明实施例提供的一种面向手写输入的书写能力智能评测方法及系统,具有以下的有益效果:
1. 本发明不仅包括针对文本的语义分析,同时包括手写文字的识别技术;
2. 本发明引入多个深度学习模型进行评测,解决了书写随意、字体潦草等问题,对书写的各种情况进行了兼容,在保证准确性的同时,极大地提高了整个评测方法的鲁棒性和实用性。
上面对本发明提供的面向手写输入的书写能力智能评测方法及系统进行了详细的说明。对本领域的一般技术人员而言,在不背离本发明实质内容的前提下对它所做的任何显而易见的改动,都将构成对本发明专利权的侵犯,将承担相应的法律责任。
Claims (10)
1.一种面向手写输入的书写能力智能评测方法,其特征在于包括如下步骤:
获取用户输入的手写文字图片;
基于预设的文本识别模型对所述手写文字图片进行文本识别,以将所述手写文字图片转化为候选文本;
基于预设的文本矫正模型对所述候选文本进行文本矫正,以将所述候选文本矫正为正式文本;
基于预设的文本分析模型对所述正式文本进行文本分析,以输出针对于所述用户的文本分析结果;
根据所述文本分析结果对所述用户进行书写能力智能评测。
2.如权利要求1所述的书写能力智能评测方法,其特征在于所述文本识别过程,包括如下子步骤:
基于预设的文本检测模型对所述手写文字图片进行图像特征提取,以提取端到端不定大小的文本书写区域;
基于预设的文本方向识别模型对所述文本书写区域进行方向识别,以识别出所述文本书写区域的文本方向;其中,所述文本方向至少包括上、下、左、右四个方向;
基于预设的文字识别模型对文本书写区域进行文字识别,并基于所识别的文本方向对识别的文字进行排序,以输出正确排序的候选文本;
其中,文本检测模型、文本方向识别模型和文字识别模型共同构成所述文本识别模型。
3.如权利要求2所述的书写能力智能评测方法,其特征在于基于预设的文本检测模型对所述手写文字进行图像特征提取,以提取端到端不定大小的文本书写区域,具体包括:
通过第一图像变换模块对手写文字图片进行归一化处理;
通过第一网络特征提取模块基于卷积循环神经网络对归一化处理后的手写文字图片进行特征提取,以提取文本书写区域特征矩阵;
通过第一特征增强模块对所述文本书写区域特征矩阵进行特征增强;
通过第一网络输出模块输出特征增强后的文本书写区域。
4.如权利要求3所述的书写能力智能评测方法,其特征在于基于预设的文本方向识别模型对所述文本书写区域进行方向识别,以识别出所述文本书写区域的文本方向,具体包括:
通过第二图像变换模块对所述文本书写区域的切割图片进行归一化处理;
通过第二网络特征提取模块基于卷积循环神经网络对对归一化处理后的文本书写区域的切割图片进行特征提取,以提取文本书写方向特征矩阵;
通过第二特征增强模块对所述文本书写方向特征矩阵进行特征增强;
通过第二网络输出模块输出特征增强后文本书写区域的切割图片的文本方向。
5.如权利要求4所述的书写能力智能评测方法,其特征在于基于预设的文字识别模型对文本书写区域进行文字识别,并基于所识别的文本方向对识别的文字进行排序,以输出正确排序的候选文本,具体包括:
通过第三图像变换模块对矫正文本方向后的切割图片进行归一化处理;
通过第三网络特征提取模块基于卷积循环神经网络对归一化处理后的正确方向切割图片进行特征提取,以提取不定长文字特征矩阵;
通过第三特征增强模块对所提取的不定长文字特征矩阵进行特征增强;
通过第三网络输出模块输出按照所述文本方向正确排序的文字,形成所述正确排序的候选文本。
6.如权利要求5所述的书写能力智能评测方法,其特征在于:
所述第三网络输出模块选取概率最大的字符作为识别结果,并采用CTC损失函数对所述文本书写区域进行函数优化,以输出所述文本方向正确排序的文字。
7.如权利要求1所述的书写能力智能评测方法,其特征在于所述文本矫正的过程,具体包括:
在文本识别模型识别文字的过程中,遇到字迹潦草的字符时,根据置信度给出多个候选字符,形成候选字符集合;
基于预训练的文本矫正模型,对所述候选文本中字迹潦草的字符进行挖空预测,以在挖空位置预测出多个预测字符,形成预测字符集合;
若所述候选字符集合与所述预测字符集合存在交集,则将所述交集作为文字识别结果;
若所述候选字符集合与所述预测字符集合不存在交集,则选择所述候选字符集合中使语句通顺的候选字符作为文字识别结果;若所述候选字符集合中的所有候选字符均无法使语句通顺,则选择所述预测字符集合中使语句通顺的预测字符作为文字识别结果;
重复上述过程,以对所述候选文本中所有字迹潦草的字符进行矫正,从而将所述候选文件矫正为正式文本。
8.如权利要求1所述的书写能力智能评测方法,其特征在于所述文本分析的过程,具体包括:
根据句法分析模型输出所述正式文本的依存关系标签;其中,所述依存关系标签至少包括主谓关系SBV、动宾关系VOB、介宾关系POB、核心关系HED和双宾关系DOB;
根据词性标注模型输出所述正式文本的词性标签;其中,所述词性标签至少包括名词n、动词v、代词r、形容词a、副词d和标点符号w;
根据所述依存关系标签和所述词性标签,按照预设规则判断所述正式文本是否语句通顺且符合量表题目要求;若判断结果为是,则所述用户在在量表中对应的项目计1分,若判断结果为否,则所述用户在在量表中对应的项目计0分。
9.如权利要求8所述的书写能力智能评测方法,其特征在于所述预设规则包括:
若所述正式文本的依存关系标签中包括SBV+VOB、SBV+POB、SBV+DOB、SBV+HED中的任意一种组合,并且SBV的词性标签属于n或r,VOB、POB、DOB的词性标签属于n或r,HED的词性标签属于为n或r或v,则判断结果为是;反之,则判断结果为否。
10.一种面向手写输入的书写能力智能评测系统,其特征在于包括处理器和存储器,所述处理器读取所述存储器中的计算机程序,用于执行权利要求1~9中任意一项所述的书写能力智能评测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311081395.8A CN117152770A (zh) | 2023-08-25 | 2023-08-25 | 一种面向手写输入的书写能力智能评测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311081395.8A CN117152770A (zh) | 2023-08-25 | 2023-08-25 | 一种面向手写输入的书写能力智能评测方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117152770A true CN117152770A (zh) | 2023-12-01 |
Family
ID=88899951
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311081395.8A Pending CN117152770A (zh) | 2023-08-25 | 2023-08-25 | 一种面向手写输入的书写能力智能评测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117152770A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117472257A (zh) * | 2023-12-28 | 2024-01-30 | 广东德远科技股份有限公司 | 一种基于ai算法的自动转正楷的方法及系统 |
-
2023
- 2023-08-25 CN CN202311081395.8A patent/CN117152770A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117472257A (zh) * | 2023-12-28 | 2024-01-30 | 广东德远科技股份有限公司 | 一种基于ai算法的自动转正楷的方法及系统 |
CN117472257B (zh) * | 2023-12-28 | 2024-04-26 | 广东德远科技股份有限公司 | 一种基于ai算法的自动转正楷的方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Li et al. | Visual to text: Survey of image and video captioning | |
KR101160597B1 (ko) | 의미 연관성에 기초한 콘텐츠 검색 | |
CN112633431B (zh) | 一种基于crnn和ctc的藏汉双语场景文字识别方法 | |
CN107729309A (zh) | 一种基于深度学习的中文语义分析的方法及装置 | |
CN116842168B (zh) | 跨领域问题处理方法、装置、电子设备及存储介质 | |
CN116881425A (zh) | 一种通用型文档问答实现方法、系统、设备及存储介质 | |
Jain et al. | “UTTAM” an efficient spelling correction system for hindi language based on supervised learning | |
CN116822634A (zh) | 一种基于布局感知提示的文档视觉语言推理方法 | |
Akdemir et al. | A review on deep learning applications with semantics | |
CN113505786A (zh) | 试题拍照评判方法、装置及电子设备 | |
Ruma et al. | A deep learning classification model for Persian Hafez poetry based on the poet’s era | |
CN115130613B (zh) | 虚假新闻识别模型构建方法、虚假新闻识别方法与装置 | |
Mezghani et al. | Recent advances of ML and DL approaches for Arabic handwriting recognition: A review | |
CN117152770A (zh) | 一种面向手写输入的书写能力智能评测方法及系统 | |
CN113469163B (zh) | 一种基于智能纸笔的医疗信息记录方法和装置 | |
Tüselmann et al. | Recognition-free question answering on handwritten document collections | |
CN111143562B (zh) | 一种资讯信息情感分析方法、装置及存储介质 | |
Lopresti et al. | Issues in ground-truthing graphic documents | |
CN111274354B (zh) | 一种裁判文书结构化方法及装置 | |
US11868313B1 (en) | Apparatus and method for generating an article | |
CN113610080B (zh) | 基于跨模态感知的敏感图像识别方法、装置、设备及介质 | |
CN111813927A (zh) | 一种基于主题模型和lstm的句子相似度计算方法 | |
CN114912452B (zh) | 一种实体识别、信息抽取的方法和装置 | |
Cristea et al. | From scan to text. Methodology, solutions and perspectives of deciphering old cyrillic Romanian documents into the Latin script | |
Hartel et al. | An ocr pipeline and semantic text analysis for comics |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |