CN112364709A - 基于编码识别的机柜智能资产盘点方法 - Google Patents
基于编码识别的机柜智能资产盘点方法 Download PDFInfo
- Publication number
- CN112364709A CN112364709A CN202011124735.7A CN202011124735A CN112364709A CN 112364709 A CN112364709 A CN 112364709A CN 202011124735 A CN202011124735 A CN 202011124735A CN 112364709 A CN112364709 A CN 112364709A
- Authority
- CN
- China
- Prior art keywords
- text
- network
- information
- asset
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 230000011218 segmentation Effects 0.000 claims abstract description 17
- 238000000605 extraction Methods 0.000 claims abstract description 11
- 238000012805 post-processing Methods 0.000 claims abstract description 10
- 230000000694 effects Effects 0.000 claims abstract description 5
- 238000007781 pre-processing Methods 0.000 claims abstract description 4
- 238000012549 training Methods 0.000 claims description 21
- 230000006870 function Effects 0.000 claims description 12
- 238000001514 detection method Methods 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 9
- 238000013508 migration Methods 0.000 claims description 6
- 230000005012 migration Effects 0.000 claims description 6
- 238000011176 pooling Methods 0.000 claims description 6
- 230000004927 fusion Effects 0.000 claims description 5
- 238000013526 transfer learning Methods 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims description 4
- 230000000750 progressive effect Effects 0.000 claims description 4
- 230000008859 change Effects 0.000 claims description 3
- 230000009467 reduction Effects 0.000 claims description 3
- 238000010845 search algorithm Methods 0.000 claims description 3
- 238000013527 convolutional neural network Methods 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 9
- 238000012015 optical character recognition Methods 0.000 description 4
- 238000012216 screening Methods 0.000 description 4
- 230000007547 defect Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 241000209094 Oryza Species 0.000 description 2
- 235000007164 Oryza sativa Nutrition 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 235000009566 rice Nutrition 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000010146 3D printing Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
基于编码识别的机柜智能资产盘点方法,包括:步骤1编码标签图片预处理;步骤2构建与改进PSENet网络模型,模型包括特征提取模块、分割头模块以及后处理模块;步骤3识别带不同二进制数的资产标签,获取资产信息,其中识别标识之前需要通过卷积神经网络训练图片识别模型,达到通过给定图形或图案返回数字的效果;步骤4数据库存储资产信息;步骤5汇总资产数据,返回盘点信息。本发明一次可以抓取多个标识信息,识别后有唯一二进制编码,满足自然场景下对标签下对应的资产的管理需求。
Description
技术领域
本发明涉及资产盘点领域,特别是涉及一种对于服务器机柜中规整摆放硬件的基于PSENet网络的迁移学习编码识别而进行智能资产盘点的方法。
背景技术
时至今日,由于互联网行业创新技术发展的需求不断提升,我国的数据中心应用规模已经达到世界第二位。数据中心设备、网络机柜等利用率不断提高,也意味着固定资产数量不断增加,提高固定资产管理的效率是保证固定资产利用率的有效途径。
以人工录入或者Access、Excel等工具或小型资产管理软件录入的传统数据中心设备管理的方式往往人力成本高、差错率高、效率低且数据常常不可用。较为成熟的资产条码扫描技术通过扫描资产上的标签或二维码可快速录入信息,改进了人工方式带来的不足,提高了工作效率,但逐个扫描的方式对于资产数量庞大的场景将消耗较长工作时间,而可以自动识别的RFID技术核心是RFID标签,其不稳定性使得资产容易漏录。还有通过图像识别资产进行盘点的方式,虽然信息可以录入比较准确,但是通常数据中心的固定资产是规整放置在机柜中的,数量较多时获取图像将造成不便。
人工智能不断发展的今天,在目标检测领域里也在持续不断的诞生许多非常优秀的算法,大部分算法是对物体,生物体的检测,目标都比较大,而文本标签在一张图片里通常以比较小形式呈现,且存在弯曲的情况,且原本标签的信息不止是需要被检测出的一种需求,实际场景下更重要的是对标签信息的提取,这种情况下一般的目标检测显然是不够的。
发明内容
基于此,针对上述现有技术的不足,本发明提出一种基于PSENet网络的迁移学习编码识别的机柜智能资产盘点方法,通过改进PSENet网络来进行学习训练,提高了网络对文本标签的检测识别的速度和精准度,目的是为数据中心的资产提供效率更高、资产盘点更加准确的智能资产盘点方法。
为了实现上述目的,本发明的基于编码识别的机柜智能资产盘点方法,包括以下步骤:
步骤1编码标签图片预处理;
摄像头获取的带标识的文本标签是带大文本、小文本、弯曲文本、矩形文本的图像,图像的标注采用OCR的标注方式,每个文本框包含四个坐标八个坐标点(x1,y1,x2,y2,x3,y3,x4,y4)和一个标签的形式;这些作为正样本的训练图像,图像中存在一个和多个的文本标签。
对标注好的机柜标签图片进行数据扩充处理;包括将图片随机旋转(-10°到10°这个区间),对图片进行随机裁剪和随机翻转;为了提高网络训练效率,将所有处理过的图像重新调整到640x640的大小。
步骤2构建与改进PSENet网络模型,包括特征提取模块、分割头模块以及后处理模块;
步骤2.1构建特征提取模块;
构建网络的骨干,用作特征提取,使用卷积网络模型resnet18网络,将带文本标签的图像用作输入,经过骨干网得到特征图;resnet18表示包括卷积和全连接层在内带有权重的18层网络,不包括池化层和归一化层,网络首先经过一个输入为3通道输出为64通道的卷积层,通过四个block结构分别输出尺度大小不同的特征图,resnet18网络使用的是两个3x3卷积的Basicblock,保存输入等待数据经过两层卷积后再相加,最后加一个Relu函数,让特征更具有代表性;图片经过网络输出四种尺度的图片和通道,相对于输入图像有4、8、16、32像素的跨距,每一种尺度的图片都包含着不同的语义信息。底层的语义信息比较少,但是目标位置准确,高层的语义信息比较丰富,但是目标位置比较粗略。
步骤2.2对骨干网进行迁移学习;
对resnet18网络做迁移学习;为了得到更多的关于图片的语义信息,将原resnet18网络的末尾的线性层去掉,对layer3返回的特征图做反卷积处理还有最大池化,放大图像为最终的结构输入特征图的大小,与F特征图进行横向拼接,以获得最终更加丰富信息的多特征图,冻结模型里预先训练过的未更改层级的权重,网络训练时将更新新添加层的权重。
步骤2.3分构建割头模块;
为了更好的更快的融合高底层语义信息,使用三个FPEM和一个FFM来构建增强的特征金字塔,替换掉原本的FPN特征金字塔结构。
步骤2.3.1构建FPEM模块;
FPEM呈级联结构而且计算量比FPN小,FPEM是一个U型模块,包括两个阶段,即上尺度增强和下尺度增强;上尺度增强作用于输入特征金字塔。在这一阶段,对32、16、8、4像素的特征图进行迭代增强;在降尺度阶段,输入由上尺度增强生成的特征金字塔,从4步到32步进行增强;最终由下尺度增强输出的特征金字塔作为FPEM的最终输出。
同时,下尺度增强的输出特征金字塔是FPEM的最终输出;使用可分离卷积代替常规卷积来构建连接部分;因此,FPEM能够以较小的计算开销扩大感受野和加深网络。
步骤2.3.2构建FFM模块;
FFM特征融合模块用于融合不同深度的特征金字塔F1、F2、…、Fn,首先通过元素叠加的方法将对应的尺度特征图进行组合,然后,将相加后的特征图进行上采样,拼接成最终的只有4×128个通道的特征图F。
步骤2.4构建网络的后处理模块;
步骤2.4.1生成后处理的模块文本实例核及GroundTruth;
网络模型的后处理模块是对分割头模块得到的特征图F进行处理,特征图F经过3x3的卷积还有归一层和Relu层将特征层的通道数量变为256之后,再送入多个1x1的卷积上采样,最后输入到Sigmod层得到最终的6张图片S1...S6,维度大小是[B,C,H,W],其中C是已知的需要的6个核数量,B表示目前有多少张图,H和W分别表示图的高度与宽度;利用广度优先算法从S1开始到S6结束,逐渐扩展直到获取到最终的文本实例,S1的连通域的数量已经确定,是预测的图片中目标文字的核心区域。
每个核在扩展的过程中都需要由一个完整的文本实例缩放、伸缩形成的相应的GroundTruth;ki为第i个核,kn是第n个核,di为ki与kn边缘之间的距离,为了依次获得图中的由小到大的文本实例核,使用Vatti clipping算法来缩小多边形ki的像素,得到缩小多边kn,随后,每个缩小的多边形kn被转换成一个0/1的二进制掩码,用于分割标签的真实区域(GroundTruth);A(ki)是多边形ki的面积,P(ki)是多边形ki的周长,ri为kn与ki之间的比例,在ri的计算公式中x为缩小比例,取值范围在(0,1];y为文本分割实例的数量,即”核“的数量,计算公式为:
步骤2.4.2扩展文本实例核;
对于预测的n个分割实例S1...Sn,为了得到最终的检测结果,采用渐进式尺度扩展算法,其中S1代表最小核的分割结果,逐步判断和c相邻的像素是否在S2中,如果在,则将其合并到b中,从而得到合并后的结果c;扩展基于广度搜索算法,该算法从S1的像素开始,然后迭代地合并相邻的GroundTruth的文本像素,直到发现最大的核,算法在实践中处理冲突的原则是,混淆的像素只能在先到先得的基础上由一个单一内核合并。
步骤2.4.3构建网络训练时的损失函数;
网络训练文本实例图的损失函数可以写成:
Loss=μLossc+(1-u)Losss (3)
Lossc和Losss分别表示完整文本实例和收缩实例的损失,μ是为了平衡两者的值,设置为0.7,Lossc中的Sn代表尺度最大的分割区域,Gn代表伸缩最大groundtruth,m的取值采用在线难例挖掘(online hard example miniing,OHEM)的方式生成,也是一个0/1的掩码;OHEM算法的核心思想是根据输入样本的损失进行筛选,筛选出难例,表示对分类和检测影响较大的样本,然后将筛选得到的这些样本应用在随机梯度下降中训练,具体到该模型中,负样本与正样本的比率为3,被选中的像素点取值为1,未选中的取值为0;Lossc作用是用来确定是文本区域还是非文本区域。
Lossc=1-D(Sn·m,Gn·m) (4)
从Losss可知该损失函数与那些缩放的文本从1到n-1的区域有关系其中wx,y代表Sn中文本区域的mask,Sn,x,y代表Sn中(x,y)的像素值。
D代表dice coefficient,在自然图像中,文本实例通常只占据极小的区域,这使得当使用二值交叉熵时网络偏向于非文本区域,dice coefficient的定义如
其中Sk,x,y为第k个预测实例中像素点(x,y)的值,Gk,x,y为第k个预测实例中的label中像素点(x,y)的值。
步骤3识别带不同二进制数的资产标签,获取资产信息;
具体是对获取的资产的标识进行解读,资产的标识由各种图形或者图案组成,不同的图形或图案代表不同二进制数,对标识信息进行识别即对标识中的图形或图案进行识别,识别成功后可以得到对应的唯一二进制编码,通过该编码返回该资产的信息,其中识别标识之前需要通过改进后的网络训练图片识别模型,达到通过给定图形或图案返回数字的效果。
步骤4数据库存储资产信息;
具体是将步骤3中返回的资产信息与其标识信息、编码信息对应保存到云端数据库,同时更新数据库中的信息;资产信息包括资产名称、资产数量、存放位置、所属部门等信息。
步骤5汇总资产数据,返回盘点信息;
具体是根据资产盘点的具体要求,汇总已存储的资产数据,返回对应的盘点信息。
优选地,步骤2.3.1所述的可分离卷积的结构是3×3深度卷积后接1×1投影,所述的感受野是3×3深度卷积,所述的加深网络是1×1卷积。
本发明的有益效果是:
1、本发明通过调用摄像头获取机柜中设备的标识信息,一次可以抓取多个标识信息,简化了工作流程、效率高。
2、本发明以不同图形或图案进行标识,识别后有唯一二进制编码,使资产盘点结果更加准确。
3、提出了基于PSENet网络的文本标签检测,并改进了网络结构使其可以达到更好、更快的识别效果,满足自然场景下对标签下对应的资产的管理需求。
4、本发明将信息存于云端数据库,既可通过编码查找资产信息,也可直接录入资产信息。
附图说明
图1是本发明的整体网络框架结构示意图;
图2是本发明网络中采用的resnet18特征提取网络示意图;
图3是本本发明的网络中对resnet18应用迁移学习的新结构示意图;
图4是本发明的网络中FPEM网络结构示意图;
图5是对本发明的FPEM网络结构的补充说明图;
图6是本发明的FPEM和FFM整体架构流程的说明图;
图7是本发明的文本实例生成多个内核的示例图;
图8是本发明中渐进式尺度扩展的示意图;
图9是本发明网络的文本标签检测示意图;
图10是本发明的方法流程图;
图11是本发明的资产盘点示意图。
具体实施方式
基于此,针对上述现有技术的不足,本发明提出一种基于PSENet网络的迁移学习编码识别的机柜智能资产盘点方法,目的是为数据中心的资产提供效率更高、资产盘点更加准确的智能资产盘点方法。
为了实现上述目的,本申请提供一种基于编码识别的机柜智能资产盘点方法,包括以下步骤:
步骤1编码标签图片预处理;
摄像头获取的带标识的文本标签是带大文本、小文本、弯曲文本、矩形文本的图像,图像的标注采用OCR的标注方式,每个文本框包含四个坐标八个坐标点(x1,y1,x2,y2,x3,y3,x4,y4)和一个标签的形式;这些作为正样本的训练图像,图像中存在一个和多个的文本标签。
对标注好的机柜标签图片进行数据扩充处理;包括将图片随机旋转(-10°到10°这个区间),对图片进行随机裁剪和随机翻转;为了提高网络训练效率,将所有处理过的图像重新调整到640x640的大小。
步骤2构建与改进PSENet网络模型,模型包括特征提取模块、分割头模块以及后处理模块(具体如图1所示);
步骤2.1构建特征提取模块;
构建网络的骨干,用作特征提取,本发明使用的是卷积网络模型resnet18网络,将带文本标签的图像用作输入,经过骨干网得到特征图;resnet18表示包括卷积和全连接层在内带有权重的18层网络,不包括池化层和归一化层,网络首先经过一个输入为3通道输出为64通道的卷积层,通过四个block结构分别输出尺度大小不同的特征图,resnet18网络使用的是两个3x3卷积的Basicblock,保存输入等待数据经过两层卷积后再相加,最后加一个Relu函数,让特征更具有代表性(具体结构如图2);图片经过网络输出四种尺度的图片和通道,它们相对于输入图像有4、8、16、32像素的跨距,每一种尺度的图片都包含着不同的语义信息。底层的语义信息比较少,但是目标位置准确,高层的语义信息比较丰富,但是目标位置比较粗略。
步骤2.2对骨干网进行迁移学习;
对resnet18网络做迁移学习;为了得到更多的关于图片的语义信息,我们将原resnet18网络的末尾的线性层去掉,取而代之的是对layer3返回的特征图做反卷积处理还有最大池化,放大图像为最终的结构输入特征图的大小,与图5的F特征图进行横向拼接,以获得最终更加丰富信息的多特征图,冻结模型里预先训练过的未更改层级的权重,网络训练时将更新新添加层的权重,迁移学习的resnet18网络如图3所示。
步骤2.3构建分割头模块;
构建分割头模块,这也是本发明改进PSENet结构的地方;为了更好的更快的融合高底层语义信息,本发明将使用三个FPEM和一个FFM来构建增强的特征金字塔,替换掉原本的FPN特征金字塔结构。
步骤2.3.1构建FPEM模块;
FPEM呈级联结构而且计算量比FPN小,FPEM是一个U型模块(具体结构如图4所示),它包括两个阶段,即上尺度增强和下尺度增强;上尺度增强作用于输入特征金字塔。在这一阶段,对32、16、8、4像素的特征图进行迭代增强;在降尺度阶段,输入由上尺度增强生成的特征金字塔,从4步到32步进行增强;最终由下尺度增强输出的特征金字塔作为FPEM的最终输出。
同时,下尺度增强的输出特征金字塔是FPEM的最终输出;我们使用可分离卷积(3×3深度卷积后接1×1投影)代替常规卷积来构建连接部分;因此,FPEM能够以较小的计算开销扩大感受野(3×3深度卷积)和加深网络(1×1卷积),如图5所示。
与FPN相似,FPEM能够通过融合低层和高层信息来增强不同尺度的特征;此外,与FPN不同,FPEM还有两个优点;首先,FPEM是一个可级联的模块,随着级联数的增加,不同尺度的特征映射得到了更充分的融合,特征的接受域也变大;其次,FPEM在计算上是廉价的。FPEM采用可分离卷积方法,计算量小,FPEM的失败率大约是FPN的1/5。
步骤2.3.2构建FFM模块;
FFM特征融合模块用于融合不同深度的特征金字塔F1、F2、…、Fn,因为低层语义信息和高层语义信息对语义分割都很重要,组合这些特征金字塔的一个直接而有效的方法是对它们进行上采样和合并;然而,该方法给出的融合特征映射具有较大的通道数,降低了最终的预测速度;因此,本发明使用一种其他融合方法,我们首先通过元素叠加的方法将对应的尺度特征图进行组合,然后,将相加后的特征图进行上采样,拼接成最终的只有4×128个通道的特征图F,如图6所示。
步骤2.4构建网络的后处理模块;
步骤2.4.1生成后处理的模块文本实例核及GroundTruth;
网络模型的后处理模块是对分割头模块得到的特征图F进行处理,特征图F经过3x3的卷积还有归一层和Relu层将特征层的通道数量变为256之后,再送入多个1x1的卷积上采样,最后输入到Sigmod层得到最终的6张图片S1...S6,维度大小是[B,C,H,W],其中C是已知的需要的6个核数量,B表示目前有多少张图,H和W分别表示图的高度与宽度;利用广度优先算法从S1开始到S6结束,逐渐扩展直到获取到最终的文本实例,S1的连通域的数量已经确定,是预测的图片中目标文字的核心区域。
每个核在扩展的过程中都需要由一个完整的文本实例缩放、伸缩形成的相应的GroundTruth,其形成如图7所示;ki为第i个核,kn是第n个核,di为ki与kn边缘之间的距离,为了依次获得图中的由小到大的文本实例核,使用Vatti clipping算法(Clipper库是目前计算机图形领域广为使用的图形处理库,可以用于解决平面二维图形的多边形简化、布尔运算和偏移处理,在CAD、加工路径与3D打印方面都有着比较重要的应用)来缩小多边形ki的像素,得到缩小多边kn,随后,每个缩小的多边形kn被转换成一个0/1的二进制掩码,用于分割标签的真实区域(GroundTruth);A(ki)是多边形ki的面积,P(ki)是多边形ki的周长,ri为kn与ki之间的比例,在ri的计算公式中x为缩小比例,取值范围在(0,1];y为文本分割实例的数量,即”核“的数量,计算公式为:
步骤2.4.2扩展文本实例核;
对于预测的n个分割实例S1...Sn,为了得到最终的检测结果,我们采用了渐进式尺度扩展算法,如下图8所示这是算法中尺度扩展的过程,其中S1代表最小核的分割结果,我们逐步判断和c相邻的像素是否在S2中,如果在,则将其合并到b中,从而得到合并后的结果c;扩展基于广度搜索算法,该算法从S1的像素开始,然后迭代地合并相邻的GroundTruth的文本像素,直到发现最大的核,斜线框与网状框标识不同文本核,箭头表示扩展的方向,在展开过程中可能存在冲突的像素,如下图中的点状框所示,算法在实践中处理冲突的原则是,混淆的像素只能在先到先得的基础上由一个单一内核合并。
步骤2.4.3构建网络训练时的损失函数;
网络训练文本实例图的损失函数可以写成:
Loss=μLossc+(1-u)Losss (3)
Lossc和Losss分别表示完整文本实例和收缩实例的损失,μ是为了平衡两者的值,设置为0.7,Lossc中的Sn代表尺度最大的分割区域,Gn代表伸缩最大groundtruth,m的取值采用在线难例挖掘(online hard example miniing,OHEM)的方式生成,也是一个0/1的掩码;OHEM算法的核心思想是根据输入样本的损失进行筛选,筛选出难例,表示对分类和检测影响较大的样本,然后将筛选得到的这些样本应用在随机梯度下降中训练,具体到该模型中,负样本与正样本的比率为3,被选中的像素点取值为1,未选中的取值为0;Lossc作用是用来确定是文本区域还是非文本区域。
Lossc=1-D(Sn·m,Gn·m) (4)
从Losss可知该损失函数与那些缩放的文本从1到n-1的区域有关系其中wx,y代表Sn中文本区域的mask,Sn,x,y代表Sn中(x,y)的像素值。
D代表dice coefficient,在自然图像中,文本实例通常只占据极小的区域,这使得当使用二值交叉熵时网络偏向于非文本区域,dice coefficient的定义如
其中Sk,x,y为第k个预测实例中像素点(x,y)的值,Gk,x,y为第k个预测实例中的label中像素点(x,y)的值。
步骤3识别带不同二进制数的资产标签,获取资产信息;
具体是对获取的资产的标识进行解读,资产的标识由各种图形或者图案组成,不同的图形或图案代表不同二进制数,对标识信息进行识别即对标识中的图形或图案进行识别,识别成功后可以得到对应的唯一二进制编码,通过该编码可返回该资产的信息,其中识别标识之前需要通过改进后的网络训练图片识别模型,达到通过给定图形或图案返回数字的效果,如图9。
步骤4数据库存储资产信息;
具体是将步骤3中返回的资产信息与其标识信息、编码信息对应保存到云端数据库,同时更新数据库中的信息;资产信息包括资产名称、资产数量、存放位置、所属部门等信息。
步骤5汇总资产数据,返回盘点信息;
具体是根据资产盘点的具体要求,汇总已存储的资产数据,返回对应的盘点信息。
本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举,本发明的保护范围不应当被视为仅限于实施例所陈述的具体形式,本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。
Claims (2)
1.基于编码识别的机柜智能资产盘点方法,包括以下步骤:
步骤1编码标签图片预处理;
摄像头获取的带标识的文本标签是带大文本、小文本、弯曲文本、矩形文本的图像,图像的标注采用OCR的标注方式,每个文本框包含四个坐标八个坐标点(x1,y1,x2,y2,x3,y3,x4,y4)和一个标签的形式;这些作为正样本的训练图像,图像中存在一个和多个的文本标签;
对标注好的机柜标签图片进行数据扩充处理;包括将图片随机旋转(-10°到10°这个区间),对图片进行随机裁剪和随机翻转;为了提高网络训练效率,将所有处理过的图像重新调整到640x640的大小;
步骤2构建与改进PSENet网络,包括特征提取模块、分割头模块以及后处理模块;
步骤2.1构建特征提取模块;
构建网络的骨干,用作特征提取,使用卷积网络模型resnet18网络,将带文本标签的图像用作输入,经过骨干网得到特征图;resnet18表示包括卷积和全连接层在内带有权重的18层网络,不包括池化层和归一化层,网络首先经过一个输入为3通道输出为64通道的卷积层,通过四个block结构分别输出尺度大小不同的特征图,resnet18网络使用的是两个3x3卷积的Basicblock,保存输入等待数据经过两层卷积后再相加,最后加一个Relu函数,让特征更具有代表性;图片经过网络输出四种尺度的图片和通道,相对于输入图像有4、8、16、32像素的跨距,每一种尺度的图片都包含着不同的语义信息;底层的语义信息比较少,但是目标位置准确,高层的语义信息比较丰富,但是目标位置比较粗略;
步骤2.2对骨干网进行迁移学习;
对resnet18网络做迁移学习;为了得到更多的关于图片的语义信息,将原resnet18网络的末尾的线性层去掉,对layer3返回的特征图做反卷积处理还有最大池化,放大图像为最终的结构输入特征图的大小,与F特征图进行横向拼接,以获得最终更加丰富信息的多特征图,冻结模型里预先训练过的未更改层级的权重,网络训练时将更新新添加层的权重;
步骤2.3分构建割头模块;
为了更好的更快的融合高底层语义信息,使用三个FPEM和一个FFM来构建增强的特征金字塔,替换掉原本的FPN特征金字塔结构;
步骤2.3.1构建FPEM模块;
FPEM呈级联结构而且计算量比FPN小,FPEM是一个U型模块,包括两个阶段,即上尺度增强和下尺度增强;上尺度增强作用于输入特征金字塔;在这一阶段,对32、16、8、4像素的特征图进行迭代增强;在降尺度阶段,输入由上尺度增强生成的特征金字塔,从4步到32步进行增强;最终由下尺度增强输出的特征金字塔作为FPEM的最终输出;
同时,下尺度增强的输出特征金字塔是FPEM的最终输出;使用可分离卷积代替常规卷积来构建连接部分;因此,FPEM能够以较小的计算开销扩大感受野和加深网络;
步骤2.3.2构建FFM模块;
FFM特征融合模块用于融合不同深度的特征金字塔F1、F2、…、Fn,首先通过元素叠加的方法将对应的尺度特征图进行组合,然后,将相加后的特征图进行上采样,拼接成最终的只有4×128个通道的特征图F;
步骤2.4构建网络的后处理模块;
步骤2.4.1生成后处理的模块文本实例核及GroundTruth;
网络模型的后处理模块是对分割头模块得到的特征图F进行处理,特征图F经过3x3的卷积还有归一层和Relu层将特征层的通道数量变为256之后,再送入多个1x1的卷积上采样,最后输入到Sigmod层得到最终的6张图片S1...S6,维度大小是[B,C,H,W],其中C是已知的需要的6个核数量,B表示目前有多少张图,H和W分别表示图的高度与宽度;利用广度优先算法从S1开始到S6结束,逐渐扩展直到获取到最终的文本实例,S1的连通域的数量已经确定,是预测的图片中目标文字的核心区域;
每个核在扩展的过程中都需要由一个完整的文本实例缩放、伸缩形成的相应的GroundTruth;ki为第i个核,kn是第n个核,di为ki与kn边缘之间的距离,为了依次获得图中的由小到大的文本实例核,使用Vatti clipping算法来缩小多边形ki的像素,得到缩小多边kn,随后,每个缩小的多边形kn被转换成一个0/1的二进制掩码,用于分割标签的真实区域(GroundTruth);A(ki)是多边形ki的面积,P(ki)是多边形ki的周长,ri为kn与ki之间的比例,在ri的计算公式中x为缩小比例,取值范围在(0,1];y为文本分割实例的数量,即”核“的数量,计算公式为:
步骤2.4.2扩展文本实例核;
对于预测的n个分割实例S1...Sn,为了得到最终的检测结果,采用渐进式尺度扩展算法,其中S1代表最小核的分割结果,逐步判断和c相邻的像素是否在S2中,如果在,则将其合并到b中,从而得到合并后的结果c;扩展基于广度搜索算法,该算法从S1的像素开始,然后迭代地合并相邻的GroundTruth的文本像素,直到发现最大的核,算法在实践中处理冲突的原则是,混淆的像素只能在先到先得的基础上由一个单一内核合并;
步骤2.4.3构建网络训练时的损失函数;
网络训练文本实例图的损失函数可以写成:
Loss=μLossc+(1-u)Losss (3)
Lossc和Losss分别表示完整文本实例和收缩实例的损失,μ是为了平衡两者的值,设置为0.7,Lossc中的Sn代表尺度最大的分割区域,Gn代表伸缩最大groundtruth,m的取值采用在线难例挖掘(online hard example miniing,OHEM)的方式生成,也是一个0/1的掩码;OHEM算法的核心思想是根据输入样本的损失进行筛选,筛选出难例,表示对分类和检测影响较大的样本,然后将筛选得到的这些样本应用在随机梯度下降中训练,具体到该模型中,负样本与正样本的比率为3,被选中的像素点取值为1,未选中的取值为0;Lossc作用是用来确定是文本区域还是非文本区域;
Lossc=1-D(Sn·m,Gn·m) (4)
从Losss可知该损失函数与那些缩放的文本从1到n-1的区域有关系其中wx,y代表Sn中文本区域的mask,Sn,x,y代表Sn中(x,y)的像素值;
D代表dice coefficient,在自然图像中,文本实例通常只占据极小的区域,这使得当使用二值交叉熵时网络偏向于非文本区域,dice coefficient的定义如
其中Sk,x,y为第k个预测实例中像素点(x,y)的值,Gk,x,y为第k个预测实例中的label中像素点(x,y)的值;
步骤3识别带不同二进制数的资产标签,获取资产信息;
具体是对获取的资产的标识进行解读,资产的标识由各种图形或者图案组成,不同的图形或图案代表不同二进制数,对标识信息进行识别即对标识中的图形或图案进行识别,识别成功后可以得到对应的唯一二进制编码,通过该编码返回该资产的信息,其中识别标识之前需要通过改进后的网络训练图片识别模型,达到通过给定图形或图案返回数字的效果;
步骤4数据库存储资产信息;
具体是将步骤3中返回的资产信息与其标识信息、编码信息对应保存到云端数据库,同时更新数据库中的信息;资产信息包括资产名称、资产数量、存放位置、所属部门等信息;
步骤5汇总资产数据,返回盘点信息;
具体是根据资产盘点的具体要求,汇总已存储的资产数据,返回对应的盘点信息。
2.如权利要求1所述的基于编码识别的机柜智能资产盘点方法,其特征在于:步骤2.3.1所述的可分离卷积的结构是3×3深度卷积后接1×1投影,所述的感受野是3×3深度卷积,所述的加深网络是1×1卷积。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011124735.7A CN112364709B (zh) | 2020-10-20 | 2020-10-20 | 基于编码识别的机柜智能资产盘点方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011124735.7A CN112364709B (zh) | 2020-10-20 | 2020-10-20 | 基于编码识别的机柜智能资产盘点方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112364709A true CN112364709A (zh) | 2021-02-12 |
CN112364709B CN112364709B (zh) | 2024-08-23 |
Family
ID=74507889
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011124735.7A Active CN112364709B (zh) | 2020-10-20 | 2020-10-20 | 基于编码识别的机柜智能资产盘点方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112364709B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116542610A (zh) * | 2023-07-04 | 2023-08-04 | 北京华源技术有限公司 | 一种非接触式柜内资产自动盘点装置、方法和存储介质 |
CN116630633A (zh) * | 2023-07-26 | 2023-08-22 | 上海蜜度信息技术有限公司 | 语义分割自动标注方法、系统、存储介质及电子设备 |
CN116720701A (zh) * | 2023-06-13 | 2023-09-08 | 武汉烽火技术服务有限公司 | 一种基于数字孪生模型的机房资产管理方法和系统 |
CN119295448A (zh) * | 2024-12-11 | 2025-01-10 | 南昌航空大学 | 基于深度学习的工业印制电路板图像缺陷检测方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108416412A (zh) * | 2018-01-23 | 2018-08-17 | 浙江瀚镪自动化设备股份有限公司 | 一种基于多任务深度学习的物流复合码识别方法 |
CN109117900A (zh) * | 2017-06-26 | 2019-01-01 | 陈余斌 | 一种基于超高频rfid技术的资产管理方法 |
CN110175483A (zh) * | 2019-05-16 | 2019-08-27 | 王志伟 | 一种基于标签的识别方法 |
CN111027449A (zh) * | 2019-12-05 | 2020-04-17 | 光典信息发展有限公司 | 一种纸质档案电子影像归档章的定位识别方法 |
US20200160097A1 (en) * | 2018-11-15 | 2020-05-21 | Nantomics, Llc | Classification based on characterization analysis methods and systems |
-
2020
- 2020-10-20 CN CN202011124735.7A patent/CN112364709B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109117900A (zh) * | 2017-06-26 | 2019-01-01 | 陈余斌 | 一种基于超高频rfid技术的资产管理方法 |
CN108416412A (zh) * | 2018-01-23 | 2018-08-17 | 浙江瀚镪自动化设备股份有限公司 | 一种基于多任务深度学习的物流复合码识别方法 |
US20200160097A1 (en) * | 2018-11-15 | 2020-05-21 | Nantomics, Llc | Classification based on characterization analysis methods and systems |
CN110175483A (zh) * | 2019-05-16 | 2019-08-27 | 王志伟 | 一种基于标签的识别方法 |
CN111027449A (zh) * | 2019-12-05 | 2020-04-17 | 光典信息发展有限公司 | 一种纸质档案电子影像归档章的定位识别方法 |
Non-Patent Citations (2)
Title |
---|
WENHAI WANG等: ""Efficient and Accurate Arbitrary-Shaped Text Detection with Pixel Aggregation Network"", <ARXIV>, pages 1 - 16 * |
XIANG LI等: ""Shape Robust Text Detection with Progressive Scale Expansion Network"", 《ARXIV》, pages 1 - 12 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116720701A (zh) * | 2023-06-13 | 2023-09-08 | 武汉烽火技术服务有限公司 | 一种基于数字孪生模型的机房资产管理方法和系统 |
CN116720701B (zh) * | 2023-06-13 | 2024-10-15 | 武汉烽火技术服务有限公司 | 一种基于数字孪生模型的机房资产管理方法和系统 |
CN116542610A (zh) * | 2023-07-04 | 2023-08-04 | 北京华源技术有限公司 | 一种非接触式柜内资产自动盘点装置、方法和存储介质 |
CN116542610B (zh) * | 2023-07-04 | 2023-09-08 | 北京华源技术有限公司 | 一种非接触式柜内资产自动盘点装置、方法和存储介质 |
CN116630633A (zh) * | 2023-07-26 | 2023-08-22 | 上海蜜度信息技术有限公司 | 语义分割自动标注方法、系统、存储介质及电子设备 |
CN116630633B (zh) * | 2023-07-26 | 2023-11-07 | 上海蜜度信息技术有限公司 | 语义分割自动标注方法、系统、存储介质及电子设备 |
CN119295448A (zh) * | 2024-12-11 | 2025-01-10 | 南昌航空大学 | 基于深度学习的工业印制电路板图像缺陷检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112364709B (zh) | 2024-08-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Oliveira et al. | dhSegment: A generic deep-learning approach for document segmentation | |
CN110322495B (zh) | 一种基于弱监督深度学习的场景文本分割方法 | |
CN112364709A (zh) | 基于编码识别的机柜智能资产盘点方法 | |
CN117274608B (zh) | 基于空间细节感知和注意力引导的遥感图像语义分割方法 | |
CN112906794A (zh) | 一种目标检测方法、装置、存储介质及终端 | |
CN112800955A (zh) | 基于加权双向特征金字塔的遥感影像旋转目标检测方法及系统 | |
CN112016546A (zh) | 一种文本区域的定位方法及装置 | |
CN110751154B (zh) | 一种基于像素级分割的复杂环境多形状文本检测方法 | |
JP2022090633A (ja) | 高解像度画像内の物体検出を改善するための方法、コンピュータ・プログラム製品、およびコンピュータ・システム | |
CN113449784A (zh) | 基于先验属性图谱的图像多分类方法、装置、设备及介质 | |
CN113780305A (zh) | 一种基于两种线索交互的显著性目标检测方法 | |
CN116128792A (zh) | 图像处理方法及相关设备 | |
CN115909378A (zh) | 单据文本检测模型的训练方法及单据文本检测方法 | |
JPH07220090A (ja) | 物体認識方法 | |
CN113554655B (zh) | 基于多特征增强的光学遥感图像分割方法及装置 | |
CN115035390B (zh) | 一种基于gan和特征增强的航拍图检测方法 | |
Dong et al. | SiameseDenseU‐Net‐based Semantic Segmentation of Urban Remote Sensing Images | |
Bernard et al. | Text line detection in historical index tables: Evaluations on a new french parish record survey dataset (pares) | |
CN115100402A (zh) | 小样本分割模型、小目标检测方法、系统、介质及设备 | |
Vasin et al. | Geometric modeling of raster images of documents with weakly formalized description of objects | |
CN114332490A (zh) | 一种基于涂鸦监督的高分辨显著性目标检测方法 | |
Maity et al. | An approach for detecting circular callouts in architectural, engineering and constructional drawing documents | |
Zhou et al. | Deep learning and visual perception | |
CN108596005A (zh) | 用于二维条码图像实时识别的时间开销计算方法 | |
Ghorai et al. | Bishnupur heritage image dataset (BHID) a resource for various computer vision applications |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |