CN114937278B

CN114937278B - 基于行文本框分词算法的文本内容提取识别方法

Info

Publication number: CN114937278B
Application number: CN202210588514.8A
Authority: CN
Inventors: 冯杰; 刘新天; 朱明航; 孟泽正; 张海翔
Original assignee: Zhejiang Sci Tech University ZSTU
Current assignee: Zhejiang Sci Tech University ZSTU
Priority date: 2022-05-26
Filing date: 2022-05-26
Publication date: 2024-12-20
Anticipated expiration: 2042-05-26
Also published as: CN114937278A

Abstract

本发明公开了一种基于行文本框分词算法的文本内容提取识别方法，根据行文本框的位置信息、语义信息、手指坐标信息，使用简单高效的算法实现提取出距离手指最近的词语，该算法简单高效，解决了服务器资源不足的问题。同时本发明使用目标检测、手部检测识别、文本检测、文本识别实现找到手指关键点的坐标，检测出图片中文本框位置信息，识别出图片中目标文本框中文字内容，使用现有模型加上后期训练后，准确度提高，速度变快，可以更好配合手指选词的算法。

Description

基于行文本框分词算法的文本内容提取识别方法

技术领域

本发明属于计算机视觉及文本识别技术领域，具体涉及一种基于行文本框分词算法的文本内容提取识别方法。

背景技术

现如今，时代发展的速度迅速，以前80、90后手捧厚重的牛津和新华词典、挖空心思探寻快速查字典的方法，如今的00、10后的学生已经在使用电子词典笔查找生词。一颗Sensor(红外感光)+MCU+OID算法+会反射红外光的特殊涂料印刷，这是最基本的一个点读笔软硬件架构，就是信号读取设备+存储卡+处理芯片+铺有暗码的点读材料+发音设备。点读技术的关键是OID(Optical Identify Digital)编码和可识别OID编码的点读笔，OID是二维光学辨别编码，通过编码的不同组合识别不同的内容；点8BFB笔的方法不仅存在价格昂贵，而且还不便于携带，操作复杂度高等。若要改进上述操作复杂度、耗时、精确度等问题，需要涉及计算机视觉中的OCR技术、文本内容提取及合并等相关技术，OCR指的是电子设备(如扫描仪或数码相机)检查纸上的字符，通过检测暗、亮的模式确定其形状，而后利用字符识别方法将形状翻译成计算机文字描述的过程，文本框筛选则是根据坐标筛选出相应的文本框。

公开号为CN110705282 A的中国专利提出了一种关键词提取方法，具体地：获取待进行关键词提取的第一文本；对第一文本进行分词，得到多个分词；将多个分词输入词图模型中，得到每个分词对应的权重值；根据每个分词对应的权重值，对第一文本进行关键词提取；其中，词图模型用于通过如下方式确定每个分词的权重值：获取目标词图；在目标词图中，确定第一分词对应的节点与第二分词对应的节点之间的第一边权值；在预设词图中确定第一分词对应的节点与第二分词对应的节点之间的第二边权值；根据第一边权值与第二边权值，确定目标词图中的第一分词对应节点的权重值。该专利技术虽然属于关键词提取，但却是通过将获取到的多个关键词放入神经网络中进行计算得来的，还是存在一定的错误性。

公开号为CN111694946A的中国专利提出了一种文本关键词可视化显示方法，具体地：接收待稽核文本数据以获取对应的纯文本数据；将纯文本数据进行分词得到对应的分词结果；将分词结果进行噪声词过滤，得到分词过滤结果，其包括非噪声词分组和噪声词分组；将非噪声词分组中各分词进行关键词抽取，得到未超出预设的排名阈值的关键词以组成关键词集合；根据关键词集合中包括的各关键词转对应化为词云，将各关键词对应的词云发送至用户端以进行显示。该专利技术是通过对文本进行文本检测，识别和分词之后，根据词语出现的频率进行排序，然后将高频的词语的筛选出来，并发送至用户端，这样寻找的关键词不准确，一般会显示多个关键词。

发明内容

鉴于上述，本发明提供了一种基于行文本框分词算法的文本内容提取识别方法，利用手指在设备摄像头下指出想要查看的词语，以图片的形式上传到服务器，通过简单算法就可以将该词语提取出来，实现将手指所指行文本框中词语提取，并且将行文本框中手指所指词语呈现出来。

一种基于行文本框分词算法的文本内容提取识别方法，包括如下步骤：

(1)针对关于书本、试卷的文本图像，先对图像进行预处理，然后采用现有的文本检测算法将图像中所有行文本框的位置信息提取出来；

(2)采用现有的目标检测模型将指向题目的手部区域以矩形框的形式框选出来，进而在手部区域内检测出手指各关键节点的位置信息；

(3)利用行文本框以及手指关键节点的位置信息，将手指指向词语所在的行文本框提取出来作为目标文本框，并利用现有的文本识别方法识别出目标文本框内的字符内容；

(4)利用现有的分词算法对目标文本框内的文字内容进行分词处理；

(5)计算目标文本框内每个词语和标点符号在x轴上相对于目标文本框初始位置的长度以及手指指尖节点在x轴上相对于目标文本框初始位置的长度；

(6)利用步骤(5)计算得到的信息进行对比，根据对比结果从目标文本框中识别出手指所指向的词语。

进一步地，所述步骤(1)中对图像进行预处理包括了图像透视变换以及均值滤波去噪处理，其中图像透视变换采用的变换矩阵由拍摄图片的高度和角度自动进行调节；使用此方法可以提高后续文本检测、文本识别的精确度。

进一步地，所述步骤(1)中采用基于PaddleOCR的文本检测算法将图像中的文字框识别提取出来，在使用Paddle预训练模型的基础上，利用关于书本、试卷的文本图像数据集进行训练，可有效提取出包括文字、标点符号、下划线在内的行文本框，有效地弥补了Paddle检测识别错误、识别失效的情况发生，提高模型检测识别的精度。

进一步地，所述步骤(2)中采用YOLOv5模型将指向题目的手部区域以矩形框的形式框选出来，同时利用骨骼检测将手指各关键节点的位置信息检测出来。

进一步地，所述步骤(3)中提取得到的目标文本框即距离手指指尖节点最近的行文本框，进而采用RNN模型识别目标文本框内的字符内容，在使用RNN预训练模型的基础上，利用关于书本、试卷的文本图像数据集进行训练，可有效识别出包括文字、标点符号、下划线在内的各种字符内容。

进一步地，所述步骤(4)中采用jieba分词算法对目标文本框内的文字内容进行分词处理。

进一步地，所述步骤(5)的具体实现过程如下：

首先，计算目标文本框的宽度x_width；

x_width＝x_left-x_right

其中：x_left和x_right分别为目标文本框左上顶点和右上顶点的x轴坐标值；

然后，计算目标文本框内字符占文本框的平均宽度sing_word_len；

sing_word_len＝x_width/sing_word_sums

其中：sing_word_sums为文本框中字符个数；

进而，计算目标文本框内每个词语和标点符号在x轴上相对于目标文本框内初始位置的长度并保存，具体地：

若当前词语或标点符号在目标文本框内为从左到右的第一个词语或标点符号，则：

words_len＝term_nums*sing_word_len

其他情况下，则：

words_len＝(term_nums*sing_word_len)+pred_words_len

其中：words_len为当前词语或标点符号在x轴上相对于目标文本框内初始位置的长度，term_nums为当前词语的字符个数，pred_words_len为上一个词语或标点符号相对于目标文本框初始位置的长度；

最后，计算手指指尖节点在x轴上相对于目标文本框初始位置的长度relative_x1；

relative_x1＝x1-x_left

其中：x1为手指指尖节点的x轴坐标值。

进一步地，所述步骤(6)的具体实现方式为：在目标文本框内从左到右逐个使每个词语和标点符号在x轴上相对于目标文本框初始位置的长度与手指指尖节点在x轴上相对于目标文本框初始位置的长度relative_x1进行比较，若当前词语或标点符号在x轴上相对于目标文本框初始位置的长度words_len＞relative_x1，则排除当前词语或标点符号并判断下一个，直至找到words_len≤relative_x1对应的词语或标点符号；若找到的是词语，则该词语即手指所指向的词语；若找到的是标点符号且该标点符号为目标文本框从左到右最后一个字符，则该标点符号前一个词语即手指所指向的词语，若该标点符号非目标文本框从左到右最后一个字符，则该标点符号后一个词语即手指所指向的词语。

本发明根据行文本框的位置信息、语义信息、手指坐标信息，使用简单高效的算法实现提取出距离手指最近的词语，该算法简单高效，解决了服务器资源不足的问题。同时本发明使用目标检测、手部检测识别、文本检测、文本识别实现找到手指关键点的坐标，检测出图片中文本框位置信息，识别出图片中目标文本框中文字内容，使用现有模型加上后期训练后，准确度提高，速度变快，可以更好配合手指选词的算法。

附图说明

图1为本发明文本内容提取识别方法的流程示意图。

图2为图像预处理过后的效果图。

图3为文本检测后得到的图像结果。

图4为手部区域检测后得到的图像结果。

图5为手部关键点检测后得到的图像结果。

图6为筛选后的文本框示例图。

图7为文本识别得到的结果示例图。

图8为分词算法后得到的结果示例图。

图9为选词模块得到的最终结果示例图。

具体实施方式

为了更为具体地描述本发明，下面结合附图及具体实施方式对本发明的技术方案进行详细说明。

本发明基于行文本框分词算法的文本内容提取识别方法，通过将距离手指最近的行文本框筛选出，并将框筛得到的行文本框通过手指关键节点的位置信息将手指指向的词语提取出，将行文本框中其他词语舍弃，具体实现过程如图1所示，包括如下步骤：

(1)图像预处理。

本实施方式使用图像透视变换、亮度增强、均值滤波去噪算法对图片进行处理，其中透视变换矩阵M由拍摄图片的高度和角度自动进行调节，使用此方法，可以提高后续文本检测，文本识别的精确度。

预处理后的图像效果如图2所示。

(2)文本检测。

对进行完预处理的图像进行文本检测，本实施方式采用基于paddleocr的文本检测算法将图像中的文字框选出来，在使用paddle预训练模型的基础上，使用适用于本场景的数据集进行训练，对文本检测模型参数进行微调，可以有效的提取出包括文字、标点符号、下划线在内的文本框，有效的弥补了paddle检测识别错误、识别失效的情况发生，提高了模型检测识别的精度。

通过该训练后的模型可以将图片存在的所有文本框文字识别出，并返回回来文本框四个顶点的位置信息，文本检测后得到的图像结果如图3所示。

(3)手部区域检测。

在原图中使用目标检测算法对手部进行位置检测，本实施方式采用yolov5模型将手部区域使用矩形框框选出来，在目标检测预训练模型的基础上，使用带有手部区域的图片进行训练，对目标检测模型的参数进行微调，此做法可以有效地提取中手部区域，便于下一步进行手指关键点检测。

手部区域检测后得到的图像结果如图4所示。

(4)手指关键点检测。

在步骤(3)获得的手部区域中使用手指骨骼关键点检测可以得到手部各关键点的位置信息，包括手指指尖点的一个坐标信息(x,y)，然后在根据透视变换矩阵M将(x,y)坐标变换为(x1,y1)，此操作可以准确的找到手指位置信息，以便下边定位文本框位置；手部关键点检测后得到的图像结果如图5所示。

(x,y)坐标变换为(x1,y1)的公式如下：

x1＝(M[0][0]*p[0]+M[0][1]*p[1]+M[0][2])/((M[2][0]*p[0]+M[2][1]*p[1]+M[2][2]))y1＝(M[1][0]*p[0]+M[1][1]*p[1]+M[1][2])/((M[2][0]*p[0]+M[2][1]*p[1]+M[2][2]))

(5)文本框筛选模块。

本发明使用文本框的位置信息和手指坐标对文本框进行筛选，算法简单，并且可以有效地根据文本框的位置信息将距离手指最近文本框提取出来，具体实现过程如下：

根据手指定位，筛选符合条件的行文本框。根据四中手指关键点检测获取到的手指坐标x1，找到左上角x值小于x1，右上角x值大于x1的文本框；根据手指坐标y1，在上述符合x范围的所有文本框中，找到文本框左上角y值小于y1的文本框，对文本框进行初步筛选，并将初步筛选按照筛选的顺序得到的文本框信息存放到列表中。

判断标准即x_left<＝x1<＝x_right并且y_left<y1的行文本框其中：x_left为文本框左上角x值，x_right为文本框右上角x值，y_left为文本框左上角y值。

在存放初步筛选得到的列表中选择最后一个文本框信息，该文本框信息就是距离手指关键节点最近的文本框的位置信息。

筛选后的文本框示例如图6所示。

(6)文本识别。

将步骤(5)中获得的文本框筛选结果，使用参数微调后的文本识别算法，获取文本框中的内容，该内容就是手指所指文本框所有的文字描述。使用参数微调后的文本识别算法可以有效地提高该场景下文本识别的精度，包括对下划线、标点符号的识别。

文本识别的最终结果示例如图7所示。

(7)分词算法。

将步骤(6)中获取的文本识别的结果使用jieba分词算法，将文本框中的文字组合成词语，并将标点符号和组成的词语按顺序存放。

分词算法后得到的结果示例如图8所示。

(8)选词模块。

将步骤(7)中使用获取的分词后的结果和步骤(2)中获取到的文本框的位置信息来计算每个词语在x轴即横轴的相对于该文本框初始位置的长度，并且计算手指关键节点相对于该行文本框初始位置的长度。根据文本框中每个词语和标点符号相对于该文本框初始位置的长度与手指关键节点相对于该行文本框初始位置的长度进行比较，然后在进行文本框特殊位置的词语或标点符号的处理，最终得到手指所指词语，具体实现过程如下：

步骤一：计算每个词语在x轴即横轴的相对于该文本框初始位置的长度。

首先计算目标文本框宽度，x_width＝x_left-x_right，其中x_left、x_right分别为文本框左上角和右上角x值，x_width为文本框宽度；然后计算文本框每个字符占文本框的平均宽度，sing_word_len＝x_width/sing_word_sums，其中sing_word_sums为文本框中字符个数，sing_word_len为文本框每个字符占文本框的平均宽度。

然后计算每个词语或者标点符号相对于文本框的初始位置的长度，并保存在列表中，列表的下标代表文本框中词语或标点符号的序号。词语或者标点符号相对于文本框的初始位置的长度为该词语中字符个数乘以每个字符占文本框的平均宽度sing_word_len加上前一个词语或者标点符号相对于文本框的初始位置的长度，若是文本框第一个词语，则词语或者标点符号相对于文本框的初始位置的长度为该词语中字符个数*每个字符占文本框的平均宽度sing_word_len。

如果该词语是文本框初始第一个词语，则：

words_len＝term_nums*sing_word_len

如果该词语不是文本框初始第一个词语，则：

words_len＝(term_nums*sing_word_len)+pred_words_len

其中：term_nums为该词语或者标点符号的字符个数，pred_words_len为上一个词语或者标点符号相对于文本框的初始位置的长度。

步骤二：计算手指关键节点相对于该行文本框初始位置的长度。

计算手指指尖关键点的x值相对于该文本框初始位置的长度：

relative_x1＝x1-x_left

其中：x1为手指指尖关键点的x值，relative_x1为手指指尖关键点的x值相对于该文本框初始位置的长度。

步骤三：使用手指指尖关键点的x值相对于该文本框初始位置的长度relative_x1依次从左到右和每个词语或者标点符号相对于文本框的初始位置的长度words_len进行比较，若relative_x1<words_len，则说明该词语不是手指所指词语，并继续向右与下一个词语或标点符号相对于文本框的初始位置的长度words_len进行比较，直到找到relative_x1≥words_len的词语，该词语就是手指指向的词语，若找到relative_x1≥words_len的位置不是词语而是标点符号，那么就进入步骤四。

判断标准即从文本框的第一个词语或者标点符号开始向右按顺序找，找到符合relative_x1≥words_len的词语，保留该词语并停止寻找；其中words_len为该词语或者标点符号相对于文本框的初始位置的长度。

步骤四：若提取的词语为该文本框分词得到的标点符号，那么就提取该标点符号的后一个位置的词语为手指所指词语；若提取到的词语为文本框的最后一个位置，并且该位置的字符为标点符号，那么就提取该标点符号的前一个位置的词语为手指所指词语。

选词模块得到的最终结果示例如图9所示。

上述对实施例的描述是为便于本技术领域的普通技术人员能理解和应用本发明，熟悉本领域技术的人员显然可以容易地对上述实施例做出各种修改，并把在此说明的一般原理应用到其他实施例中而不必经过创造性的劳动。因此，本发明不限于上述实施例，本领域技术人员根据本发明的揭示，对于本发明做出的改进和修改都应该在本发明的保护范围之内。

Claims

1.一种基于行文本框分词算法的文本内容提取识别方法，包括如下步骤：

(5)计算目标文本框内每个词语和标点符号在x轴上相对于目标文本框初始位置的长度以及手指指尖节点在x轴上相对于目标文本框初始位置的长度，具体实现过程如下：

首先，计算目标文本框的宽度x_width；

x_width＝x_left-x_right

sing_word_len＝x_width/sing_word_sums

其中：sing_word_sums为文本框中字符个数；

words_len＝term_nums*sing_word_len

其他情况下，则：

words_len＝(term_nums*sing_word_len)+pred_words_len其中：words_len为当前词语或标点符号在x轴上相对于目标文本框内初始位置的长度，term_nums为当前词语的字符个数，pred_words_len为上一个词语或标点符号相对于目标文本框初始位置的长度；

relative_x1＝x1-x_left

其中：x1为手指指尖节点的x轴坐标值；

(6)利用步骤(5)计算得到的信息进行对比，根据对比结果从目标文本框中识别出手指所指向的词语，具体地：在目标文本框内从左到右逐个使每个词语和标点符号在x轴上相对于目标文本框初始位置的长度与手指指尖节点在x轴上相对于目标文本框初始位置的长度relative_x1进行比较，若当前词语或标点符号在x轴上相对于目标文本框初始位置的长度words_len＞relative_x1，则排除当前词语或标点符号并判断下一个，直至找到words_len≤relative_x1对应的词语或标点符号；若找到的是词语，则该词语即手指所指向的词语；若找到的是标点符号且该标点符号为目标文本框从左到右最后一个字符，则该标点符号前一个词语即手指所指向的词语，若该标点符号非目标文本框从左到右最后一个字符，则该标点符号后一个词语即手指所指向的词语。

2.根据权利要求1所述的文本内容提取识别方法，其特征在于：所述步骤(1)中对图像进行预处理包括了图像透视变换以及均值滤波去噪处理，其中图像透视变换采用的变换矩阵由拍摄图片的高度和角度自动进行调节。

3.根据权利要求1所述的文本内容提取识别方法，其特征在于：所述步骤(1)中采用基于PaddleOCR的文本检测算法将图像中的文字框识别提取出来，在使用Paddle预训练模型的基础上，利用关于书本、试卷的文本图像数据集进行训练，可有效提取出包括文字、标点符号、下划线在内的行文本框。

4.根据权利要求1所述的文本内容提取识别方法，其特征在于：所述步骤(2)中采用YOLOv5模型将指向题目的手部区域以矩形框的形式框选出来，同时利用骨骼检测将手指各关键节点的位置信息检测出来。

5.根据权利要求1所述的文本内容提取识别方法，其特征在于：所述步骤(3)中提取得到的目标文本框即距离手指指尖节点最近的行文本框，进而采用RNN模型识别目标文本框内的字符内容，在使用RNN预训练模型的基础上，利用关于书本、试卷的文本图像数据集进行训练，可有效识别出包括文字、标点符号、下划线在内的各种字符内容。

6.根据权利要求1所述的文本内容提取识别方法，其特征在于：所述步骤(4)中采用jieba分词算法对目标文本框内的文字内容进行分词处理。