CN110147786A

CN110147786A - 用于检测图像中的文本区域的方法、装置、设备以及介质

Info

Publication number: CN110147786A
Application number: CN201910290330.1A
Authority: CN
Inventors: 章成全; 黄祖明; 恩孟一; 韩钧宇; 丁二锐
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2019-04-11
Filing date: 2019-04-11
Publication date: 2019-08-20
Anticipated expiration: 2039-04-11
Also published as: CN110147786B; US11482023B2; US20200327384A1

Abstract

根据本公开的示例实施例，提供了一种用于检测图像中的文本区域的方法、装置、设备以及介质。方法包括基于图像的特征表示来检测图像中的第一文本区域，其中第一文本区域覆盖图像中所占区域具有一定形状的文本。方法还包括基于第一文本区域的特征块来确定与文本相关联的文本几何信息，其中文本几何信息包括文本的文本中心线以及文本中心线与文本的上下边界的距离信息。方法还包括基于与文本相关联的文本几何信息来将第一文本区域调整为第二文本区域，其中第二文本区域也覆盖文本并且比第一文本区域更小。本公开的实施例在通用文本检测模块的基础上增加一个任意形状文本检测模块，能够获得更紧凑的文本检测结果，从而提高图像文本检测的精度。

Description

用于检测图像中的文本区域的方法、装置、设备以及介质

技术领域

本公开的实施例总体上涉及图像处理领域，并且更具体地涉及用于检测图像中的文本区域的方法、装置、电子设备以及计算机可读存储介质。

背景技术

图像对象检测是指在图像中定位和检测感兴趣的目标，并给出每个目标所属的区域(例如边界框)。图像对象检测在人脸识别、智能监控、图像检索、文本识别以及机器人导航等领域有着广泛的应用。图像文本检测是从图像中检测出包括各种字符的文本区域，然后，可以对文本区域中的字符进行识别或其他处理，因此，图像文本检测是图像文本识别和进一步处理的基础和前提。随着卷积神经网络(CNN)在图像处理中的广泛应用，图像文本检测能够更准确地检测出一些文本对象。

通常，图像文本检测的方法可以划分为三个种类：基于组件的方法、基于检测的方法、以及基于分割的方法。基于组件的方法首先检测文本的基本组成部件，然后将属于同一文本行的部件组合在一起。基于检测的方法是从图像中检测出文本的包围盒，例如多边形文本框。基于分割的方法依靠文本的中心线或边界来分割出每个文本实例的区域，其可以进行像素级的分割。

发明内容

根据本公开的示例实施例，提供了一种用于检测图像中的文本区域的方法、装置、电子设备以及计算机可读存储介质。

在本公开的第一方面中，提供了一种用于检测图像中的文本区域的方法。该方法包括：基于图像的特征表示，检测图像中的一个或多个文本区域，其中一个或多个文本区域中的第一文本区域通过多边形来表示并且覆盖图像中所占区域具有一定形状的文本；基于第一文本区域的特征块，确定与文本相关联的文本几何信息，其中文本几何信息至少包括文本的文本中心线以及中心线与文本的上下边界的距离信息；以及基于与文本相关联的文本几何信息，将第一文本区域调整为第二文本区域，其中第二文本区域也覆盖文本并且比第一文本区域更小。

在本公开的第二方面中，提供了一种用于检测图像中的文本区域的装置。该装置包括：文本区域检测模块，被配置为基于图像的特征表示来检测图像中的一个或多个文本区域，其中一个或多个文本区域中的第一文本区域通过多边形来表示并且覆盖图像中所占区域具有一定形状的文本；几何信息确定模块，被配置为基于第一文本区域的特征块来确定与文本相关联的文本几何信息，其中文本几何信息至少包括文本的文本中心线以及中心线与文本的上下边界的距离信息；以及文本区域调整模块，被配置为基于与文本相关联的文本几何信息来将第一文本区域调整为第二文本区域，其中第二文本区域也覆盖文本并且比第一文本区域更小。

在本公开的第三方面中，提供了一种电子设备，其包括一个或多个处理器以及存储装置，其中存储装置用于存储一个或多个程序。一个或多个程序当被一个或多个处理器执行，使得电子设备实现根据本公开的实施例的方法或过程。

在本公开的第四方面中，提供了一种计算机可读介质，其上存储有计算机程序，该程序被处理器执行时实现根据本公开的实施例的方法或过程。

应当理解，本发明内容部分中所描述的内容并非旨在限定本公开的实施例的关键特征或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的描述而变得容易理解。

附图说明

结合附图并参考以下详细说明，本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中，相同或相似的附图标记表示相同或相似的元素，其中：

图1示出了根据本公开的实施例的用于检测图像中的文本区域的环境的示意图；

图2示出了根据本公开的实施例的用于检测图像中的文本区域的方法的流程图；

图3示出了根据本公开的实施例的用于实现图像中的任意形状文本检测的示例过程的示意图；

图4示出了根据本公开的实施例的示例文本几何信息的示意图；

图5示出了根据本公开的实施例的用于生成紧凑的文本区域的过程的示意图；

图6示出了根据本公开的实施例的用于训练图像文本检测模型的示意图；

图7示出了根据本公开的实施例的用于检测图像中的文本区域的装置的框图；以及

图8示出了能够实施本公开的一些实施例的电子设备的框图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中示出了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反，提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

在本公开的实施例的描述中，术语“包括”及其类似用语应当理解为开放性包含，即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“一些实施例”应当理解为“至少一些实施例”。下文还可能包括其他明确的和隐含的定义。

传统的文本检测方法能够对输入的图像进行检测，并输出图像中的一个或多个文本区域，每个文本区域可以通过四边形文本框来表示。然而，传统的文本检测方法所检测的文本框通常为矩形框、带倾斜角度的矩形框或者任意四边形框。这种传统方案对于矩形文本可能能够较好的覆盖，然而，对于一些非矩形文本(例如，弧形、环形、弯曲形状、波浪形状等)，如果仍然输出普通的四边形框，则会造成文本包围盒不够紧凑，而不紧凑的包围盒会导致后续的文本识别等的不准确。因此，对于图像中的任意形状文本，传统的通用文本检测方法无法获得紧凑的文本包围盒。

本公开的实施例提出了一种用于检测图像中的文本区域的方案，能够通过对文本区域的重建输出更紧凑的且贴合文本的包围盒。本公开的实施例在通用文本检测模块的基础上增加一个任意形状文本检测模块，能够输出更紧凑的文本检测结果，从而提高图像文本检测的精度。应当理解，本公开的实施例的任意形状文本检测模块可以作为一个模块插入到传统的四边形检测器中。提高的文本检测准确率将更有助于例如光学字符识别(OCR)等服务，促进OCR技术在自然场景、菜单、票据等业务场景中的进一步应用。以下将参考附图1-8详细描述本公开的一些示例实施例。

图1示出了根据本公开的实施例的用于检测图像中的文本区域的示例环境100的示意图。如图1所示，在示例环境100中，输入图像110可以为包括任意形状文本的自然场景图像115。在图1的示例中，图像115为一公司的铭牌的照片，其包括弧形的中文文本“上海某某塑料制品有限公司”以及方形的英文文本“SHANGHAI MOUMOU PLASTICS LIMITEDCOMPANY”。

通用文本检测模块120针对输入图像110，能够获得初步检测结果130，诸如图像135。如图1所示，图像135包括针对中文文本的文本框136和针对英文文本的文本框138。在图1的示例中，文本框136和138都已经能够完整地覆盖中文文本和英文文本。然而，如果文本框136和138无法覆盖完整的中文文本和英文文本，则可以通过对文本框进行修正使得其可以完整地覆盖文本，例如可以通过角点注意力机制来调整文本框的角点的坐标。在本公开的实施例中，术语“文本”可以表示任何语言和形式的字符，例如中文字符、英文或其他语言字符、数字及其组合，等等。

通用文本检测模块120基于输入图像110的特征图，可以获得作为初始检测结果的文本框136和138。在一些实施例中，通用文本检测模块120可以使用ResNet50+FPN的卷积神经网络结构，ResNet50是一种深度残差网络，其可以通过残差学习来更容易地训练神经网络。在一些实施例中，可以使用8个通道来预测四边形文本框的四个角点的坐标，进而获得四边形文本框。在一些实施例中，可以使用深度回归方法(Deep Regression)来获得四边形文本框，由于端到端的设计，深度回归方法可以最大化词级标注并且获得很好的检测性能。然而，传统的方法所检测到的文本区域可能不够紧凑，如图1的文本框136所示。

继续参考图1，由于图像115中的中文文本“上海某某塑料制品有限公司”是弧形形状，通用文本检测模块120检测到的文本框136虽然能够覆盖弧形形状的文本，但是文本框本身不够紧凑。在本公开的一些实施例中，任意形状文本可以指代非矩形的其他规则的或者不规则的文本。

根据本公开的实施例，任意形状文本检测模块140能够对初步检测结果130进行调整，并生成调整后的输出结果150，诸如图像155。如图1所示，图像155中的文本框156和文本框158也能够分别覆盖完整的中文文本和英文文本，同时，文本框156比文本框136更加紧凑，提高了图像文本检测的精度。因此，本公开的实施例在通用文本检测模块120的基础上增加了一个任意形状文本检测模块140，能够更精确地检测出图像中的紧凑的文本区域。

应当理解，通用文本检测模块120可以为已知的或者将来开发的任何通用文本检测模块，其针对输入的图像，能够输出带有标识文本区域的多边形文本框。另外，虽然本公开的实施例以文本框作为标识文本区域的示例表示形式，然而，其他任何适当的标识文本区域的方式(诸如角点坐标集合等)也可以与本公开的实施例结合使用。

图2示出了根据本公开的实施例的用于检测图像中的文本区域的方法200的流程图。应当理解，方法200可以由参考图1所描述的通用文本检测模块120和任意形状文本检测模块140来执行。

在框202，基于图像的特征表示，检测图像中的一个或多个文本区域，其中一个或多个文本区域中的第一文本区域通过多边形来表示并且覆盖图像中所占区域具有一定形状的文本。在本公开的实施例中，文本可以为任意的形状。例如，参考图1所描述的通用文本检测模块120基于输入图像110的特征图来获得作为初步检测结果的多个文本区域，例如文本框136和138。例如，检测到的文本区域可以通过多边形的多个角点来表示。在一些实施例中，检测到的文本区域可以通过矩形文本框来表示。在又一些实施例中，检测到的文本区域可以通过任意的四边形文本框来表示。此外，图1中的文本框136虽然能够覆盖弧形的中文文本，但是不够紧凑。

在框204，基于第一文本区域的特征块，确定与文本相关联的文本几何信息，其中文本几何信息至少包括文本的文本中心线以及中心线与文本的上下边界的距离信息。在一些实施例中，文本几何信息还可以包括文本的文字区域，其可以用于进一步的验证。例如，参考图1所描述的任意形状文本检测模块140可以提取文本框136的特征块，进而确定文本框136中的弧形中文文本“上海某某塑料制品有限公司”的文本中心线以及中心线与上下边界的距离信息。以下参考图4描述了文本几何信息的示例实现。

在框206，基于与文本相关联的文本几何信息，将第一文本区域调整为第二文本区域，第二文本区域也覆盖文本并且比第一文本区域更小。例如，参考图1所描述的任意形状文本检测模块140可以根据文本几何信息，将初始的文本框136调整为完整的文本框156。与文本框136相比，文本框156能够更紧凑的覆盖文本，从而提高图像文本检测的精度。

图3示出了根据本公开的实施例的用于实现图像中的任意形状文本检测的示例过程300的示意图。如图3所示，可以首先对输入图像310进行预处理，然后获得图像310的特征图320，特征图320可以包括图像310在机器学习模型中的隐含层特征。通用文本检测模块120基于图像310的特征图320可以获得初步检测结果，例如四边形文本框。对于非矩形的文本而言，初步的检测结果可能并不紧凑，因此，本公开的实施例在通用文本检测模块的基础上增加一个任意形状文本检测模块，能够获得更紧凑的文本检测结果，从而提高图像文本检测的精度。

参考图3，在框330，根据通用文本检测模块120检测到的四边形文本框和特征图320，执行感兴趣区域(ROI)转换，以从特征图320中提取检测到的四边形文本框对应的特征块。ROI转换可以将特征图320转换成固定的大小，并馈送到神经网络。在一些实施例中，可以将任意的四边形文本框转换成宽为例如64像素且高为例如8像素的矩形区域，从而获得8×64×128的特征块，其中128表示特征块的通道数，即维度。然后，可以使用三个卷积核大小为3×3的卷积层来加强特征块以进一步提取更丰富的语义特征340。

接下来，根据本公开的实施例的几何信息回归模块350可以根据特征340获得通用文本检测模块120检测到的四边形文本框的文本几何信息，几何信息回归模块350可以实现文本实例的几何信息回归。

图4示出了根据本公开的实施例的示例文本几何信息的示意图400。如图4所示，通用文本检测模块120首先从图像410中检测出四边形文本框415，文本框415虽然能够覆盖文本，但是不够紧凑，因此需要进一步压缩和提炼。根据本公开的实施例的几何信息回归模块350可以基于文本框415的特征块，获得文本实例的文本几何信息。

在一些实施例中，文本几何信息可以包括：文本区域响应图420，其指示文本的文字区域425，例如可以将落入紧凑的标准文本框内部的像素标记为1，其他位置为0；文本中心线响应图430，其指示文本中心线435，例如可以将文本中心线附近的区域标记为1，其他位置为0；以及距离信息图440，其包括中心线435到上线边界线交点的距离偏差值。本公开的实施例对文本中心线没有连续响应的要求，即使个别不响应也不会影响完整检测，因此，本公开的实施例对于粘连和断裂的场景具有更好的鲁棒性。

如图4所示，为了获得距离信息图440，可以在文本中心线435上取一中心线点441，然后画一条与当前位置切线垂直的法线442，法线442与上下边界线445和446交叉得到上边界点443和下边界点444，中心线点441与上下边界点443和444的坐标差值即为所需的回归偏差值。此外，由于本公开的所述回归了上下边界信息，因而可以确定文本的阅读方向信息，这样有助于后续的文本识别。

返回参考图3，在获得文本几何信息之后，文本区域生成模块360可以基于文本几何信息来生成新的紧凑的文本区域，从而获得调整后的文本框作为输出结果370。文本区域生成模块360可以实现多边形文本的表达以及对文本框的重构，从而生成紧凑的文本框表示。图5示出了根据本公开的实施例的用于生成紧凑的文本区域的过程500的示意图。在框510，从文本中心线435等间隔采样多个中心线点，例如中心点511。例如，将中心线响应图430上设置一个阈值(例如0.5)，满足阈值的像素点为有效的中心线点，然后从左到右等间隔采样多个点(例如7个)。在一些实施例中，可以基于文字区域425的几何信息(例如长边与短边的比值)，确定待采样的中心线点的数目。通过这种方式，可以获得数量适合的采样点，以减少后续拉伸过程中的扭曲变形。

继续参考图5，在框520，基于距离信息图440中的距离信息，生成与多个中心线点相对应的多个上边界点和多个下边界点。例如，针对中心线点511，生成对应的上边界点521和下边界点522。在框530，通过连接多个上边界点和多个下边界点，获得多边形文本框535。例如，最左侧的上边界点从左到右链接所有上边界点，接着链接最右侧的下边界点，然后从右到左链接所有的下边界点，最后去链接最左侧的上边界点，由此形成多边形文本框535。

在一些实施例中，可以使用文字区域425来验证多边形文本框535的置信度。如果置信度满足预定条件，则将多边形文本框535确定为调整后的文本区域；相反，如果置信度不满足预定条件，则可以不调整文本区域。例如，可以统计多边形文本框内文字区域响应的得分，以进行有效性验证。不同于仅通过文字区域来重建文本框，本公开的实施例通过中心线点的上下边界点来获得多边形文本框，能够获得更对称的上下边界点，从而能够减少后续的文本框拉伸导致文字的变形。

在一些实施例中，在获得多边形文本框535后，可以对多边形文本框535进行分段拉伸来获得矩形文本区域，以便于后续的文本识别。例如，可以将多边形文本框划分成多个四边形文本框，每个四边形文本框包括相邻的2个上边界的和对应的2个下边界点，然后通过分别拉伸多个四边形文本框中的每个四边形文本框，将多边形文本框535变换为矩形文本框(未示出)。以这种方式，能够将任意形状文本变换为矩形文本框，从而提高后续识别的准确率。

图6示出了根据本公开的实施例的用于训练图像文本检测模型的示意图600。根据本公开的实施例，可以在已标注的数据集上使用端到端的方式训练图像文本检测模型。如图600所示，训练数据610中包括图像620及其标注的任意形状文本框630，任意形状文本框能够紧凑地覆盖任意形状文本。然后，在框640，可以将图像620和对应的标注的任意形状文本框630用于机器学习训练，从而训练出图像文本检测模型650。根据本公开的实施例，可以以端到端的方式使用训练数据来同时训练通用文本检测模块120和任意形状文本检测模块140，因而能够提高训练效率。

在图像文本检测650模型的训练阶段，例如可以通过下式(1)来定义图像文本检测模型650的目标函数L_sem。

其中K表示从通用文本检测模块获得的初始检测结果的数目，L_tr表示文本文字区域的Dice系数损失，L_tcl表示文本中心线的Dice系数损失，L_border通过smooth L₁损失函数来计算，λ₁、λ₂、λ₃是经验值。

图7示出了根据本公开的实施例的用于检测图像中的文本区域的装置700的框图。如图7所示，装置700包括文本区域检测模块710、几何信息确定模块720以及文本区域调整模块730。文本区域检测模块710被配置为基于图像的特征表示来检测图像中的一个或多个文本区域，其中一个或多个文本区域中的第一文本区域通过多边形来表示并且覆盖图像中所占区域具有一定形状的文本。几何信息确定模块720被配置为基于第一文本区域的特征块来确定与文本相关联的文本几何信息，其中文本几何信息至少包括文本的文本中心线以及文本中心线与文本的上下边界的距离信息。文本区域调整模块730被配置为基于与文本相关联的文本几何信息来将第一文本区域调整为第二文本区域，其中第二文本区域也覆盖文本并且比第一文本区域更小。

在一些实施例中，其中几何信息确定模块720包括：感兴趣区域转换模块，被配置为通过感兴趣区域转换来从图像的特征表示提取第一文本区域的特征块；以及特征加强模块，被配置为使用卷积神经网络中的多个卷积层来加强特征块。

在一些实施例中，其中感兴趣区域转换模块包括特征获得模块，其被配置为通过将第一文本区域转换成预定数目个矩形区域来获得第一文本区域的具有预定大小的特征块。

在一些实施例中，其中文本区域调整模块730包括：中心线点采样模块，被配置为从文本中心线等间隔采样多个中心线点；边界点生成模块，被配置为基于距离信息来生成与多个中心线点相对应的多个上边界点和多个下边界点；以及多边形文本框获得模块，被配置为通过连接多个上边界点和多个下边界点来获得多边形文本框。

在一些实施例中，其中文本几何信息还包括文本的文字区域，并且文本区域调整模块730还包括：置信度验证模块，被配置为使用文字区域来验证多边形文本框的置信度；以及第二文本区域确定模块，被配置为响应于置信度满足预定条件，将多边形文本框确定为第二文本区域。

在一些实施例中，装置700还包括：划分模块，被配置为基于多个上边界点和多个下边界点，将多边形文本框划分成多个四边形文本框；以及变换模块，被配置为通过分别拉伸多个四边形文本框中的每个四边形文本框，将多边形文本框变换为矩形文本框。

在一些实施例中，其中第一文本区域通过四边形文本框来表示，并且中心线点采样模块包括采样数目确定模块，被配置为基于文字区域的几何信息，确定待采样的中心线点的数目。

在一些实施例中，装置700还包括训练模块，其被配置为以端到端的方式使用训练数据来训练文本区域检测模块和几何信息确定模块，其中训练数据包括图像以及标注的任意形状文本框。

应当理解，图7中所示出的文本区域检测模块710、几何信息确定模块720以及文本区域调整模块730可以被包括一个或多个电子设备中。而且，应当理解，图7中所示出的模块可以执行参考本公开的实施例的方法或过程中的步骤或动作。因此，本公开的实施例在通用文本检测模块的基础上增加一个具有几何信息确定功能和文本区域调整功能的任意形状文本检测模块，能够获得更紧凑的文本检测结果，从而提高图像文本检测的精度。

图8示出了可以用来实施本公开的实施例的示例设备800的示意性框图。应当理解，设备800可以用于实现本公开所描述的用于检测图像中的文本区域的装置800。如图所示，设备800包括中央处理单元(CPU)801，其可以根据被存储在只读存储器(ROM)802中的计算机程序指令或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序指令，来执行各种适当的动作和处理。在RAM 803中，还可存储设备800操作所需的各种程序和数据。CPU 801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。

设备800中的多个部件连接至I/O接口805，包括：输入单元806，例如键盘、鼠标等；输出单元807，例如各种类型的显示器、扬声器等；存储单元808，例如磁盘、光盘等；以及通信单元809，例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

处理单元801执行上文所描述的各个方法和过程，例如方法200。例如，在一些实施例中，方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元808。在一些实施例中，计算机程序的部分或者全部可以经由ROM 802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序加载到RAM 803并由CPU 801执行时，可以执行上文描述的方法的一个或多个动作或步骤。备选地，在其他实施例中，CPU 801可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行方法。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)，等等。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

此外，虽然采用特定次序描绘了各动作或步骤，但是这应当理解为要求这样动作或步骤以所示出的特定次序或以顺序次序执行，或者要求所有图示的动作或步骤应被执行以取得期望的结果。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地，在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本公开的实施例，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims

1.一种用于检测图像中的文本区域的方法，包括：

基于图像的特征表示，检测所述图像中的一个或多个文本区域，所述一个或多个文本区域中的第一文本区域通过多边形来表示并且覆盖所述图像中所占区域具有一定形状的文本；

基于所述第一文本区域的特征块，确定与所述文本相关联的文本几何信息，所述文本几何信息至少包括所述文本的文本中心线以及所述文本中心线与所述文本的上下边界的距离信息；以及

基于与所述文本相关联的所述文本几何信息，将所述第一文本区域调整为第二文本区域，所述第二文本区域也覆盖所述文本并且比所述第一文本区域更小。

2.根据权利要求1所述的方法，其中确定与所述文本相关联的文本几何信息包括：

通过感兴趣区域转换，从所述图像的所述特征表示提取所述第一文本区域的所述特征块；以及

使用卷积神经网络中的多个卷积层来加强所述特征块。

3.根据权利要求2所述的方法，其中提取所述第一文本区域的所述特征块包括：

通过将所述第一文本区域转换成预定数目个矩形区域，获得所述第一文本区域的具有预定大小的所述特征块。

4.根据权利要求1所述的方法，其中将所述第一文本区域调整为第二文本区域包括：

从所述文本中心线等间隔采样多个中心线点；

基于所述距离信息，生成与所述多个中心线点相对应的多个上边界点和多个下边界点；以及

通过连接所述多个上边界点和所述多个下边界点，获得多边形文本框。

5.根据权利要求4所述的方法，其中所述文本几何信息还包括所述文本中的文字区域，并且将所述第一文本区域调整为第二文本区域还包括：

使用所述文字区域来验证所述多边形文本框的置信度；以及

响应于所述置信度满足预定条件，将所述多边形文本框确定为所述第二文本区域。

6.根据权利要求5所述的方法，还包括：

基于所述多个上边界点和所述多个下边界点，将所述多边形文本框划分成多个四边形文本框；以及

通过分别拉伸所述多个四边形文本框中的每个四边形文本框，将所述多边形文本框变换为矩形文本框。

7.根据权利要求5所述的方法，其中所述第一文本区域通过四边形文本框来表示，并且从所述文本中心线等间隔采样多个中心线点包括：

基于所述文字区域的几何信息，确定待采样的中心线点的数目。

8.根据权利要求1所述的方法，其中所述第一文本区域的检测由通用文本检测模块来执行，所述第一文本区域的调整由任意形状文本检测模块来执行，并且所述方法还包括：

以端到端的方式使用训练数据来训练所述通用文本检测模块和所述任意形状文本检测模块，所述训练数据包括图像以及标注的任意形状文本框。

9.一种用于检测图像中的文本区域的装置，包括：

文本区域检测模块，被配置为基于图像的特征表示来检测所述图像中的一个或多个文本区域，所述一个或多个文本区域中的第一文本区域通过多边形来表示并且覆盖所述图像中所占区域具有一定形状的文本；

几何信息确定模块，被配置为基于所述第一文本区域的特征块来确定与所述文本相关联的文本几何信息，所述文本几何信息至少包括所述文本的文本中心线以及所述文本中心线与所述文本的上下边界的距离信息；以及

文本区域调整模块，被配置为基于与所述文本相关联的所述文本几何信息来将所述第一文本区域调整为第二文本区域，所述第二文本区域也覆盖所述文本并且比所述第一文本区域更小。

10.根据权利要求9所述的装置，其中所述几何信息确定模块包括：

感兴趣区域转换模块，被配置为通过感兴趣区域转换来从所述图像的所述特征表示提取所述第一文本区域的所述特征块；以及

特征加强模块，被配置为使用卷积神经网络中的多个卷积层来加强所述特征块。

11.根据权利要求10所述的装置，其中所述感兴趣区域转换模块包括：

特征获得模块，被配置为通过将所述第一文本区域转换成预定数目个矩形区域来获得所述第一文本区域的具有预定大小的所述特征块。

12.根据权利要求9所述的装置，其中所述文本区域调整模块包括：

中心线点采样模块，被配置为从所述文本中心线等间隔采样多个中心线点；

边界点生成模块，被配置为基于所述距离信息来生成与所述多个中心线点相对应的多个上边界点和多个下边界点；以及

多边形文本框获得模块，被配置为通过连接所述多个上边界点和所述多个下边界点来获得多边形文本框。

13.根据权利要求12所述的装置，其中所述文本几何信息还包括所述文本的文字区域，并且所述文本区域调整模块还包括：

置信度验证模块，被配置为使用所述文字区域来验证所述多边形文本框的置信度；以及

第二文本区域确定模块，被配置为响应于所述置信度满足预定条件，将所述多边形文本框确定为所述第二文本区域。

14.根据权利要求13所述的装置，还包括：

划分模块，被配置为基于所述多个上边界点和所述多个下边界点，将所述多边形文本框划分成多个四边形文本框；以及

变换模块，被配置为通过分别拉伸所述多个四边形文本框中的每个四边形文本框，将所述多边形文本框变换为矩形文本框。

15.根据权利要求13所述的装置，其中所述第一文本区域通过四边形文本框来表示，并且所述中心线点采样模块包括：

采样数目确定模块，被配置为基于所述文字区域的几何信息，确定待采样的中心线点的数目。

16.根据权利要求9所述的装置，还包括：

训练模块，被配置为以端到端的方式使用训练数据来训练所述文本区域检测模块和所述几何信息确定模块，所述训练数据包括图像以及标注的任意形状文本框。

17.一种电子设备，所述电子设备包括：

一个或多个处理器；以及

存储装置，其用于存储一个或多个程序，所述一个或多个程序当被所述一个或多个处理器执行，使得所述电子设备实现根据权利要求1-8中任一项所述的方法。

18.一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现根据权利要求1-8中任一项所述的方法。