CN116978032A - Ocr系统的性能评估方法、装置、设备及可读存储介质 - Google Patents
Ocr系统的性能评估方法、装置、设备及可读存储介质 Download PDFInfo
- Publication number
- CN116978032A CN116978032A CN202310943429.3A CN202310943429A CN116978032A CN 116978032 A CN116978032 A CN 116978032A CN 202310943429 A CN202310943429 A CN 202310943429A CN 116978032 A CN116978032 A CN 116978032A
- Authority
- CN
- China
- Prior art keywords
- text
- target
- recognition
- character
- labeling
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/19007—Matching; Proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/776—Validation; Performance evaluation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Character Discrimination (AREA)
Abstract
本发明公开了一种OCR系统的性能评估方法、装置、设备及可读存储介质,其中,方法包括:将多个视频帧输入OCR系统得到ND个文字识别目标;基于针对每个视频帧的文字标注结果得到NG个文字标注目标;将ND个文字识别目标和NG个文字标注目标进行匹配,得到Nmapped个匹配对;计算每个匹配对中的文字识别目标与文字标注目标之间的第一识别精度参数;根据每个第一识别精度参数对OCR系统的性能进行评估。由此,可以通过拆解文本检测、文本跟踪和文本识别过程,实现视频场景下的基于OCR系统的高精度评价。
Description
技术领域
本发明涉及光学字符识别技术领域,尤其涉及一种OCR系统的性能评估方法、装置、设备及可读存储介质。
背景技术
OCR(Optical Character Recognition,光学字符识别)是计算机视觉领域的重要研究内容之一,在实际生产环境中具有巨大价值,并且随着人工智能技术的提升和普及,OCR技术也被应用在了越来越多的场景中。其中,通过OCR技术进行文字识别的场景已经不再局限于高清图片,很多通过视频记录数据的场景也开始引入OCR技术进行智能化改造,如视频文本检索和视频文本信息验证等。然而,一项技术的发展离不开一套全面的评价体系,正是各位专家对OCR技术的评价指标进行孜孜不倦的追求,才使得OCR技术不断迭代和发展。
目前,OCR技术的评价指标只局限于图片,而且只针对OCR检测或OCR识别等特定的、单一的子任务。但是,在实际业务中,往往是使用系统化的、业务化的OCR系统,因此目前仍然缺乏视频场景下的基于OCR系统的评价方法。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本发明的第一个目的在于提出一种OCR系统的性能评估方法,可以将视频中相同拍摄画面的文字识别结果和视频中相同拍摄画面的文字标注结果分别集合起来,再将集合后的各文字识别结果与文字标注结果进行匹配,实现了文本识别和文本跟踪;通过计算每个匹配对中的文字识别目标与文字标注目标之间的第一识别精度参数,并根据每个第一识别精度参数对OCR系统的性能进行评估,实现了对于漏检、误检、多检的文本检测,从而通过拆解文本检测、文本跟踪和文本识别过程,实现了视频场景下的基于OCR系统的高精度评价。
本发明的第二个目的在于提出一种OCR系统的性能评估装置。
本发明的第三个目的在于提出一种电子设备。
本发明的第四个目的在于提出一种计算机可读存储介质。
为达到上述目的,本发明第一方面实施例提出了一种OCR系统的性能评估方法,方法包括:将多个视频帧输入OCR系统进行文字识别,得到ND个文字识别目标,其中,每个文字识别目标对应至少一个第一文字区域和该第一文字区域内的第一文字内容,每个文字识别目标对应的各第一文字内容相同、且每个文字识别目标对应的各第一文字区域在预设区域误差范围内,ND为正整数;基于针对每个视频帧的文字标注结果,得到NG个文字标注目标,其中,每个文字标注目标对应至少一个第二文字区域和该第二文字区域内的第二文字内容,每个文字批注目标对应的各第二文字内容相同、且每个文字标注目标对应的各第二文字区域在预设区域误差范围内,NG为正整数;将ND个文字识别目标和NG个文字标注目标进行匹配,得到Nmapped个匹配对,其中,每个匹配对包括一个文字识别目标和一个文字标注目标,Nmappde小于等于min(ND,NG);计算每个匹配对中的文字识别目标与文字标注目标之间的第一识别精度参数;根据每个第一识别精度参数,对OCR系统的性能进行评估。
根据本发明实施例的OCR系统的性能评估方法,通过将多个视频帧输入OCR系统进行文字识别,得到ND个文字识别目标,其中,每个文字识别目标对应至少一个第一文字区域和该第一文字区域内的第一文字内容,每个文字识别目标对应的各第一文字内容相同、且每个文字识别目标对应的各第一文字区域在预设区域误差范围内,ND为正整数;基于针对每个视频帧的文字标注结果,得到NG个文字标注目标,其中,每个文字标注目标对应至少一个第二文字区域和该第二文字区域内的第二文字内容,每个文字批注目标对应的各第二文字内容相同、且每个文字标注目标对应的各第二文字区域在预设区域误差范围内,NG为正整数;将ND个文字识别目标和NG个文字标注目标进行匹配,得到Nmapped个匹配对,其中,每个匹配对包括一个文字识别目标和一个文字标注目标,Nmapped小于等于min(ND,NG);计算每个匹配对中的文字识别目标与文字标注目标之间的第一识别精度参数;根据每个第一识别精度参数,对OCR系统的性能进行评估。由此,可以将视频中相同拍摄画面的文字识别结果和视频中相同拍摄画面的文字标注结果分别集合起来,再将集合后的各文字识别结果与文字标注结果进行匹配,实现了文本识别和文本跟踪;通过计算每个匹配对中的文字识别目标与文字标注目标之间的第一识别精度参数,并根据每个第一识别精度参数对OCR系统的性能进行评估,实现了对于漏检、误检、多检的文本检测,从而通过拆解文本检测、文本跟踪和文本识别过程,实现了视频场景下的基于OCR系统的高精度评价。
根据本发明的一个实施例,将ND个文字识别目标和NG个文字标注目标进行匹配,得到个匹配对,包括:分别计算每个文字识别目标和NG个文字标注目标之间的距离,并根据距离进行匹配,得到Nmapped个匹配对。
根据本发明的一个实施例,分别计算每个文字识别目标和NG个文字标注目标之间的距离,包括:针对每个视频帧,计算文字识别目标j对应的第一文字区域和文字标注目标i对应的第二文字区域之间的重合度,其中,j=1,2…ND,i=1,2…NG;将累加后的各视频帧中文字识别目标j对应的第一文字区域和文字标注目标i对应的第二文字区域之间的重合度,作为文字识别目标j和文字标注目标i之间的距离。
根据本发明的一个实施例,采用匈牙利算法对距离进行匹配计算。
根据本发明的一个实施例,计算每个匹配对中的文字识别目标与文字标注目标之间的第一识别精度参数,包括:确定匹配对k中的文字识别目标匹配到匹配对k中的文字标注目标的至少一个目标视频帧,其中,k=1,2…Nmapped;针对每个目标视频帧,计算匹配对k中的文字识别目标对应的第一文字区域和匹配对k中的文字标注目标对应的第二文字区域之间的重合度,与,匹配对k中的文字识别目标对应的第一文字内容和匹配对k中的文字标注目标对应的第二文字内容之间的匹配度,的乘积;根据各乘积和目标视频帧的数量,计算匹配对k中的文字识别目标和文字标注目标之间的第一识别精度参数。
根据本发明的一个实施例,根据各乘积和目标视频帧的数量,计算匹配对k中的文字识别目标和文字标注目标之间的第一识别精度参数,包括:根据第一公式,计算匹配对k中的文字识别目标和文字标注目标之间的第一识别精度参数,其中,第一公式为:
其中,SingleAcck为匹配对k中的文字识别目标和文字标注目标之间的第一识别精度参数,为匹配对k中的文字识别目标匹配到匹配对k中的文字标注目标的目标视频帧的数量,/>为在目标视频帧t中匹配对k中的文字识别目标对应的第一文字区域,/>为在目标视频帧t中匹配对k中的文字标注目标对应的第二文字区域,/>为在目标视频帧t中匹配对k中的文字识别目标对应的第一文字内容和文字标注目标对应的第二文字内容的匹配度。
根据本发明的一个实施例,根据每个第一识别精度参数,对OCR系统的性能进行评估,包括:根据每个第一识别精度参数,计算OCR系统的第二识别精度参数;根据第二识别精度参数,对OCR系统的性能进行评估。
根据本发明的一个实施例,根据每个第一识别精度参数,计算OCR系统的第二识别精度参数,包括:根据第二公式,计算OCR系统的第二识别精度参数,其中,第二公式为:
其中,TotalAcc为第二识别精度参数。
为达到上述目的,本发明第二方面实施例提出了一种OCR系统的性能评估装置,装置包括:识别模块,用于将多个视频帧输入OCR系统进行文字识别,得到ND个文字识别目标,其中,每个文字识别目标对应至少一个第一文字区域和该第一文字区域内的第一文字内容,每个文字识别目标对应的各第一文字内容相同、且每个文字识别目标对应的各第一文字区域在预设区域误差范围内,ND为正整数;标注模块,用于基于针对每个视频帧的文字标注结果,得到NG个文字标注目标,其中,每个文字标注目标对应至少一个第二文字区域和该第二文字区域内的第二文字内容,每个文字批注目标对应的各第二文字内容相同、且每个文字标注目标对应的各第二文字区域在预设区域误差范围内,NG为正整数;匹配模块,用于将ND个文字识别目标和NG个文字标注目标进行匹配,得到Nmapped个匹配对,其中,每个匹配对包括一个文字识别目标和一个文字标注目标,Nmapped小于等于min(ND,NG);计算模块,用于计算每个匹配对中的文字识别目标与文字标注目标之间的第一识别精度参数;评估模块,用于根据每个第一识别精度参数,对OCR系统的性能进行评估。
根据本发明实施例的OCR系统的性能评估装置,通过识别模块,将多个视频帧输入OCR系统进行文字识别,得到ND个文字识别目标,其中,每个文字识别目标对应至少一个第一文字区域和该第一文字区域内的第一文字内容,每个文字识别目标对应的各第一文字内容相同、且每个文字识别目标对应的各第一文字区域在预设区域误差范围内,ND为正整数;通过标注模块,基于针对每个视频帧的文字标注结果,得到NG个文字标注目标,其中,每个文字标注目标对应至少一个第二文字区域和该第二文字区域内的第二文字内容,每个文字批注目标对应的各第二文字内容相同、且每个文字标注目标对应的各第二文字区域在预设区域误差范围内,NG为正整数;通过匹配模块,将ND个文字识别目标和NG个文字标注目标进行匹配,得到Nmapped个匹配对,其中,每个匹配对包括一个文字识别目标和一个文字标注目标,Nmapped小于等于min(ND,NG);通过计算模块,计算每个匹配对中的文字识别目标与文字标注目标之间的第一识别精度参数;通过评估模块,根据每个第一识别精度参数,对OCR系统的性能进行评估。由此,可以将视频中相同拍摄画面的文字识别结果和视频中相同拍摄画面的文字标注结果分别集合起来,再将集合后的各文字识别结果与文字标注结果进行匹配,实现了文本识别和文本跟踪;通过计算每个匹配对中的文字识别目标与文字标注目标之间的第一识别精度参数,并根据每个第一识别精度参数对OCR系统的性能进行评估,实现了对于漏检、误检、多检的文本检测,从而通过拆解文本检测、文本跟踪和文本识别过程,实现了视频场景下的基于OCR系统的高精度评价。
为达到上述目的,本发明第三方面实施例提出一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时,实现第一方面实施例的OCR系统的性能评估方法。
上述电子设备中,可以将视频中相同拍摄画面的文字识别结果和视频中相同拍摄画面的文字标注结果分别集合起来,再将集合后的各文字识别结果与文字标注结果进行匹配,实现了文本识别和文本跟踪;通过计算每个匹配对中的文字识别目标与文字标注目标之间的第一识别精度参数,并根据每个第一识别精度参数对OCR系统的性能进行评估,实现了对于漏检、误检、多检的文本检测,从而通过拆解文本检测、文本跟踪和文本识别过程,实现了视频场景下的基于OCR系统的高精度评价。
为达到上述目的,本发明第四方面实施例提出一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时实现第一方面实施例的OCR系统的性能评估方法。
上述计算机可读存储介质中,可以将视频中相同拍摄画面的文字识别结果和视频中相同拍摄画面的文字标注结果分别集合起来,再将集合后的各文字识别结果与文字标注结果进行匹配,实现了文本识别和文本跟踪;通过计算每个匹配对中的文字识别目标与文字标注目标之间的第一识别精度参数,并根据每个第一识别精度参数对OCR系统的性能进行评估,实现了对于漏检、误检、多检的文本检测,从而通过拆解文本检测、文本跟踪和文本识别过程,实现了视频场景下的基于OCR系统的高精度评价。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
图1为本发明实施例提供的一种OCR系统的性能评估方法的实施例一的流程示意图;
图2为本发明实施例提供的一种文字识别目标与文字标注目标的匹配方法的流程示意图;
图3为本发明实施例提供的一种文字内容匹配度的计算方法的流程示意图;
图4为本发明实施例提供的一种OCR系统的性能评估方法的实施例二的流程示意图;
图5为本发明实施例提供的一种OCR系统的性能评估装置的结构示意图;
图6为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参考附图描述本发明实施例提出的OCR系统的性能评估方法、装置、设备及可读存储介质。
在本申请中,参考图1所示,图1为本发明实施例提供的一种OCR系统的性能评估方法的实施例一的流程示意图,本发明实施例的执行主体可以为任意具有处理能力的电子设备,本实施例提供的OCR系统的性能评估方法可以包括以下步骤:
S101,将多个视频帧输入OCR系统进行文字识别,得到ND个文字识别目标。
其中,每个文字识别目标对应至少一个第一文字区域和该第一文字区域内的第一文字内容,每个文字识别目标对应的各第一文字内容相同、且每个文字识别目标对应的各第一文字区域在预设区域误差范围内,ND为正整数。
具体地,可以通过图像采集设备采集视频,从该视频中确定多个视频帧;将得到的多个视频帧输入OCR系统进行文字识别,得到每个视频帧对应的文字识别结果,其中,每个文字识别结果可以包括第一文字区域和第一文字区域内的第一文字内容;并从这些文字识别结果中将第一文字内容相同、且第一文字区域在预设区域误差范围内的文字确定为同一个文字识别目标。
具体地,由于同一个视频中的各视频帧之间可能存在很多相同的拍摄画面,而相同拍摄画面对应的不同视频帧的文字识别结果如果存在不同,则可以反映OCR系统的性能,因此通过将不同视频帧的文字识别结果中的第一文字内容相同、且第一文字区域在预设区域误差范围内的文字确定为同一个文字识别目标,可以将相同拍摄画面的文字识别结果集合起来,以便后续将集合后的各文字识别结果与文字标注结果进行对比。
举例说明,假设OCR系统对视频帧5进行文字识别后,确定视频帧5对应的文字识别结果包括位于位置1(第一文字区域)的“美丽的花朵”(第一文字内容)和位于位置2的“蓝天白云”;OCR系统对视频帧7进行文字识别后,确定视频帧7对应的文字识别结果包括位于位置1的相近位置(即,位于位置1的预设区域误差范围内)的“美丽的花朵”;OCR系统对视频帧9进行文字识别后,确定视频帧9对应的文字识别结果包括位于位置1的相近位置(即,位于位置1的预设区域误差范围内)的“美丽的花朵”和位于位置2的相近位置(即,位于位置2的预设区域误差范围内)的“蓝天白云”;OCR系统对视频帧10进行文字识别后,确定视频帧10对应的文字识别结果包括位于位置2的相近位置(即,位于位置2的预设区域误差范围内)的“蓝天白云”。
那么,可以将视频帧5对应的文字识别结果中的“美丽的花朵”、视频帧7对应的文字识别结果中的“美丽的花朵”和视频帧9对应的文字识别结果中的“美丽的花朵”确定为同一个文字识别目标“美丽的花朵”(文字识别目标1);同时,也可以将视频帧5对应的文字识别结果中的“蓝天白云”、视频帧9对应的文字识别结果中的“蓝天白云”和视频帧10对应的文字识别结果中的“蓝天白云”确定为同一个文字识别目标“蓝天白云”(文字识别目标2)。
因此,文字识别目标1对应于:视频帧5中位于位置1的“美丽的花朵”、视频帧7中位于位置1相近位置的“美丽的花朵”和视频帧9中位于位置1相近位置的“美丽的花朵”;文字识别目标2对应于:视频帧5中位于位置2的“蓝天白云”、视频帧9中位于位置2相近位置的“蓝天白云”和视频帧10中位于位置2相近位置的“蓝天白云”。
S102,基于针对每个视频帧的文字标注结果,得到NG个文字标注目标。
其中,每个文字标注目标对应至少一个第二文字区域和该第二文字区域内的第二文字内容,每个文字批注目标对应的各第二文字内容相同、且每个文字标注目标对应的各第二文字区域在预设区域误差范围内,NG为正整数。
具体地,在确定多个视频帧后,可以通过标注工具或者人工标注的方式对每个视频帧进行标注,得到每个视频帧对应的文字标注结果,其中,每个文字标注结果可以包括第二文字区域和第二文字区域内的第二文字内容;并从这些文字标注结果中将第二文字内容相同、且第二文字区域在预设区域误差范围内的文字确定为同一个文字标注目标。
举例说明,假设对视频帧5进行文字标注后,确定视频帧5对应的文字标注结果包括位于位置1(第二文字区域)的“美丽的花朵”(第二文字内容)、位于位置2的“蓝天白云”和位于位置3的“远处的房子”;对视频帧7进行文字标注后,确定视频帧7对应的文字标注结果包括位于位置1的相近位置(即,位于位置1的预设区域误差范围内)的“美丽的花朵”和位于位置3相近位置(即,位于位置3的预设区域误差范围内)的“远处的房子”;对视频帧9进行文字标注后,确定视频帧9对应的文字标注结果包括位于位置1相近位置(即,位于位置1的预设区域误差范围内)的“美丽的花朵”和位于位置2的相近位置(即,位于位置2的预设区域误差范围内)的“蓝天白云”;对视频帧10进行文字标注后,确定视频帧10对应的文字标注结果包括位于位置2的相近位置(即,位于位置2的预设区域误差范围内)的“蓝天白云”。
那么,可以将视频帧5对应的文字标注结果中的“美丽的花朵”、视频帧7对应的文字标注结果中的“美丽的花朵”和视频帧9对应的文字标注结果中的“美丽的花朵”确定为同一个文字标注目标“美丽的花朵”(文字标注目标1);也可以将视频帧5对应的文字标注结果中的“蓝天白云”、视频帧9对应的文字标注结果中的“蓝天白云”和视频帧10对应的文字标注结果中的“蓝天白云”确定为同一个文字标注目标“蓝天白云”(文字标注目标2);还可以将视频帧5对应的文字标注结果中的“远处的房子”和视频帧7对应的文字标注结果中的“远处的房子”确定为同一个文字标注目标“远处的房子”(文字标注目标3)。
因此,文字标注目标1对应于:视频帧5中位于位置1的“美丽的花朵”、视频帧7中位于位置1相近位置的“美丽的花朵”和视频帧9中位于位置1相近位置的“美丽的花朵”;文字标注目标2对应于:视频帧5中位于位置2的“蓝天白云”、视频帧9中位于位置2相近位置的“蓝天白云”和视频帧10中位于位置2相近位置的“蓝天白云”;文字标注目标3对应于:视频帧5中位于位置3的“远处的房子”和视频帧7中位于位置3相近位置的“远处的房子”。
S103,将ND个文字识别目标和NG个文字标注目标进行匹配,得到Nmapped个匹配对。
其中,每个匹配对包括一个文字识别目标和一个文字标注目标,Nmapped小于等于min(ND,NG)。
具体地,可以将经过S101得到的ND个文字识别目标和经过S102得到的NG个文字标注目标进行匹配,以使文字识别目标和文字标注目标实现文字内容和文字位置的双匹配。其中,由于可能存在匹配不到文字标注目标的文字识别目标,因此Nmapped小于等于min(ND,NG)。
S104,计算每个匹配对中的文字识别目标与文字标注目标之间的第一识别精度参数。
具体地,由于每个文字识别目标对应于至少一个视频帧的文字识别结果,每个文字标注目标对应于至少一个视频帧的文字标注结果,因此通过计算每个匹配对中的文字识别目标与文字标注目标之间的第一识别精度参数,可以计算每个文字识别目标在对应的不同视频帧中的识别精度,即可以计算每个文字识别目标的跨帧检测和识别的精度。
S105,根据每个第一识别精度参数,对OCR系统的性能进行评估。
具体地,可以通过经由OCR系统进行文字识别得到的每个文字识别目标的跨帧检测和识别的精度,对OCR系统的文字识别性能进行评估。
本发明实施例提供的OCR系统的性能评估方法,通过将多个视频帧输入OCR系统进行文字识别,得到ND个文字识别目标,其中,每个文字识别目标对应至少一个第一文字区域和该第一文字区域内的第一文字内容,每个文字识别目标对应的各第一文字内容相同、且每个文字识别目标对应的各第一文字区域在预设区域误差范围内,ND为正整数;基于针对每个视频帧的文字标注结果,得到NG个文字标注目标,其中,每个文字标注目标对应至少一个第二文字区域和该第二文字区域内的第二文字内容,每个文字批注目标对应的各第二文字内容相同、且每个文字标注目标对应的各第二文字区域在预设区域误差范围内,NG为正整数;将ND个文字识别目标和NG个文字标注目标进行匹配,得到Nmapped个匹配对,其中,每个匹配对包括一个文字识别目标和一个文字标注目标,Nmapped小于等于min(ND,NG);计算每个匹配对中的文字识别目标与文字标注目标之间的第一识别精度参数;根据每个第一识别精度参数,对OCR系统的性能进行评估。由此,可以将视频中相同拍摄画面的文字识别结果和视频中相同拍摄画面的文字标注结果分别集合起来,再将集合后的各文字识别结果与文字标注结果进行匹配,实现了文本识别和文本跟踪;通过计算每个匹配对中的文字识别目标与文字标注目标之间的第一识别精度参数,并根据每个第一识别精度参数对OCR系统的性能进行评估,实现了对于漏检、误检、多检的文本检测,从而通过拆解文本检测、文本跟踪和文本识别过程,实现了视频场景下的基于OCR系统的高精度评价。
在一些实施例中,上述将ND个文字识别目标和NG个文字标注目标进行匹配,得到Nmapped个匹配对,可以包括:分别计算每个文字识别目标和NG个文字标注目标之间的距离,并根据距离进行匹配,得到Nmapped个匹配对。
具体地,文字识别目标和文字标注目标之间的距离可以表征文字识别目标和文字标注目标之间的关联性。若该关联性较大,则可以将该文字识别目标和该文字标注目标进行匹配,得到Nmapped个匹配对。
具体地,假设得到20个文字识别目标(文字识别目标1、文字识别目标2……文字识别目标20)与25个文字标注目标(文字标注目标1、文字标注目标2……文字标注目标25),分别计算每个文字识别目标和25个文字标注目标之间的距离即为:分别计算文字识别目标1与文字标注目标1之间的距离、文字识别目标1与文字标注目标2之间的距离……文字识别目标1与文字标注目标25之间的距离,分别计算文字识别目标2与文字标注目标1之间的距离、文字识别目标2与文字标注目标2之间的距离……文字识别目标2与文字标注目标25之间的距离……分别计算文字识别目标20与文字标注目标1之间的距离、文字识别目标20与文字标注目标2之间的距离……文字识别目标20与文字标注目标25之间的距离。
在本发明实施例中,通过分别计算每个文字识别目标和NG个文字标注目标之间的距离,并根据距离进行匹配,得到Nmapped个匹配对。由此,可以根据文字识别目标和文字标注目标之间的距离,确定文字识别目标和文字标注目标之间的关联性,并将较大关联性所对应的文字识别目标和文字标注目标进行匹配,得到匹配对,从而提高了文本跟踪的准确度。
在一些实施例中,上述分别计算每个文字识别目标和NG个文字标注目标之间的距离,可以包括:针对每个视频帧,计算文字识别目标j对应的第一文字区域和文字标注目标i对应的第二文字区域之间的重合度,其中,j=1,2…ND,i=1,2…NG;将累加后的各视频帧中文字识别目标j对应的第一文字区域和文字标注目标i对应的第二文字区域之间的重合度,作为文字识别目标j和文字标注目标i之间的距离。
具体地,文字识别目标和文字标注目标之间的文字区域重合度可以表征文字识别目标和文字标注目标之间的距离,因此文字识别目标和文字标注目标之间的文字区域重合度也可以表征文字识别目标和文字标注目标之间的关联性。若该关联性较大,则可以将该文字识别目标和该文字标注目标进行匹配,得到匹配对。
具体地,可以通过计算每个视频帧中的文字识别目标对应的第一文字区域与该视频帧中的文字标注目标对应的第二文字区域之间的重合度,确定每个视频帧中的文字识别目标和文字标注目标之间的文字区域重合度。并将计算得到的所有视频帧中相同的文字识别目标和文字标注目标之间的文字区域重合度进行累加,分别得到每个文字识别目标与所有文字标注目标之间的重合度。
具体地,为了减少计算量,也可以预先确定每一视频帧中是否存在文字识别目标对应的第一文字区域与该视频帧中的文字标注目标对应的第二文字区域重叠,若存在,则计算重叠的第一文字区域和第二文字区域之间的交并比(重合度),并将所有视频帧中相同的文字识别目标和文字标注目标之间的交并比进行累加,分别得到每个文字识别目标与所有文字标注目标之间的重合度。
在本发明实施例中,通过针对每个视频帧,计算文字识别目标j对应的第一文字区域和文字标注目标i对应的第二文字区域之间的重合度,其中,j=1,2…ND,i=1,2…NG;将累加后的各视频帧中文字识别目标j对应的第一文字区域和文字标注目标i对应的第二文字区域之间的重合度,作为文字识别目标j和文字标注目标i之间的距离。由此,可以根据文字识别目标和文字标注目标之间的重合度,确定文字识别目标和文字标注目标之间的关联性,并将较大关联性所对应的文字识别目标和文字标注目标进行匹配,得到匹配对,从而提高了文本跟踪的准确度。
具体地,可以采用匈牙利算法对距离进行匹配计算,从而得到匹配度比较高的匹配对。例如,可以定义尺寸为(NG,ND)的矩阵M,其任意元素Mij表示第i个文字标注目标和第j个文字识别目标之间的距离。通过图2所示的匹配方法,计算矩阵M中各元素值,并将其作为依据进行文字识别目标与文字标注目标的匹配。如图2所示,图2为本发明实施例提供的一种文字识别目标与文字标注目标的匹配方法,本实施例提供的文字识别目标与文字标注目标的匹配方法可以包括以下步骤:
S201,初始化矩阵M中各元素值为0。
S202,从第1个视频帧开始遍历视频。
S203,判断是否存在重叠的第一文字区域和第二文字区域。
若是,则执行S204;若否,则执行S206。
S204,计算重叠的第一文字区域和第二文字区域之间的交并比。
S205,对应的Mij累加该交并比值。
S206,判断是否为最后一个视频帧。
若是,则执行S207;若否,则执行S208。
S207,采用匈牙利算法对距离进行匹配计算,从而得到匹配对。
S208,取下一个视频帧。
具体地,在执行S208后,返回执行S203。
在本发明实施例中,通过上述文字识别目标与文字标注目标的匹配方法,可以采用匈牙利算法对距离进行匹配计算,从而得到匹配对比较高的匹配对。
在一些实施例中,上述计算每个匹配对中的文字识别目标与文字标注目标之间的第一识别精度参数,可以包括:确定匹配对k中的文字识别目标匹配到匹配对k中的文字标注目标的至少一个目标视频帧,其中,k=1,2…Nmapped;针对每个目标视频帧,计算匹配对k中的文字识别目标对应的第一文字区域和匹配对k中的文字标注目标对应的第二文字区域之间的重合度,与,匹配对k中的文字识别目标对应的第一文字内容和匹配对k中的文字标注目标对应的第二文字内容之间的匹配度,的乘积;根据各乘积和目标视频帧的数量,计算匹配对k中的文字识别目标和文字标注目标之间的第一识别精度参数。
具体地,可以根据上述文字识别结果和文字标注结果,确定每个匹配对中的文字识别目标匹配到该匹配对中的文字标注目标的至少一个目标视频帧;也可以根据上述匹配过程,确定每个匹配对中的文字识别目标匹配到该匹配对中的文字标注目标的至少一个目标视频帧。例如,假设匹配对2包括文字识别目标2和文字标注目标4,可以确定文字识别目标2在视频帧1、视频帧10和视频帧20中匹配到文字标注目标4。
具体地,针对每个目标视频帧,匹配对k中的文字识别目标对应的第一文字区域和匹配对k中的文字标注目标对应的第二文字区域之间的重合度,可以表征匹配对k中的文字识别目标和文字标注目标在每个目标视频帧中的位置关联性。
并且,针对每个目标视频帧,匹配对k中的文字识别目标对应的第一文字内容和匹配对k中的文字标注目标对应的第二文字内容之间的匹配度,可以表征匹配对k中的文字识别目标和文字标注目标在每个目标视频帧中的文字内容的识别准确度。
因此,根据每个目标视频帧中的匹配对k中的文字识别目标对应的第一文字区域和匹配对k中的文字标注目标对应的第二文字区域之间的重合度,与,每个目标视频帧中的匹配对k中的文字识别目标对应的第一文字内容和匹配对k中的文字标注目标对应的第二文字内容之间的匹配度,的乘积,可以同时得到每个目标视频帧中的匹配对k中的文字识别目标和文字标注目标在每个目标视频帧中的位置关联性和文字内容的识别准确度。
具体地,根据每个目标视频帧所对应的上述乘积以及目标视频帧的数量,可以计算匹配对k中的文字识别目标和文字标注目标之间的第一识别精度参数,该第一识别精度参数可以表征OCR系统识别每个文字识别目标的能力。
具体地,针对每个目标视频帧,可以将匹配对k中的文字标注目标对应的第二文字内容作为基准,将匹配对k中的文字识别目标对应的第一文字内容与其进行对比,根据对比结果确定文字内容之间的匹配度。具体实现时,通过对比,可以确定第一文字内容中是否存在缺少的字符、多识别的字符和识别错的字符。可以根据缺少的字符、多识别的字符和识别错的字符中的至少一项确定文字内容之间的匹配度。
例如,可以通过图3所示的文字内容匹配度的计算方法,得到每个目标视频帧中匹配对k中的文字识别目标对应的第一文字内容和匹配对k中的文字标注目标对应的第二文字内容之间的匹配度。本实施例提供的文字内容匹配度的计算方法可以包括以下步骤:
S301,针对每个目标视频帧,将匹配对k中的文字标注目标对应的第二文字内容作为基准,并将匹配对k中的文字识别目标对应的第一文字内容与其进行对比。
S302,判断第一文字内容中是否存在缺少的字符。
若是,则执行S303;若否,则执行S304。
S303,确定缺少的字符数量为A。
其中,A为大于0的整数。
S304,确定缺少的字符数量为0。
具体地,在执行S303、S304后,均执行S305。
S305,判断第一文字内容中是否存在多识别的字符。
若是,则执行S306;若否,则执行S307。
S306,确定多识别的字符数量为D。
其中,D为大于0的整数。
S307,确定多识别的字符数量为0。
具体地,在执行S306、S307后,均执行S308。
S308,判断第一文字内容中是否存在识别错的字符。
若是,则执行S309;若否,则执行S310。
S309,确定识别错的字符数量为F。
其中,F为大于0的整数。
S310,确定识别错的字符数量为0。
具体地,在执行S309、S310后,均执行S311。
S311,计算第二文字内容的字符数为S。
其中,S为大于0的整数。
S312,判断缺少的字符、多识别的字符和识别错的字符的数量之和是否小于第二文字内容的字符数。
若是,则执行S313;若否,则执行S314。
S313,计算匹配度为
S314,计算匹配度为0。
在本发明实施例中,通过确定匹配对k中的文字识别目标匹配到匹配对k中的文字标注目标的至少一个目标视频帧,其中,k=1,2…Nmapped;针对每个目标视频帧,计算匹配对k中的文字识别目标对应的第一文字区域和匹配对k中的文字标注目标对应的第二文字区域之间的重合度,与,匹配对k中的文字识别目标对应的第一文字内容和匹配对k中的文字标注目标对应的第二文字内容之间的匹配度,的乘积;根据各乘积和目标视频帧的数量,计算匹配对k中的文字识别目标和文字标注目标之间的第一识别精度参数。由此,可以计算每个文字识别目标在对应的各目标视频帧中的识别精度,即可以计算每个文字识别目标的跨帧检测和识别的精度。
在一些实施例中,上述根据各乘积和目标视频帧的数量,计算匹配对k中的文字识别目标和文字标注目标之间的第一识别精度参数,可以包括:根据第一公式,计算匹配对k中的文字识别目标和文字标注目标之间的第一识别精度参数,其中,第一公式为:
其中,SingleAcck为匹配对k中的文字识别目标和文字标注目标之间的第一识别精度参数,为匹配对k中的文字识别目标匹配到匹配对k中的文字标注目标的目标视频帧的数量,/>为在目标视频帧t中匹配对k中的文字识别目标对应的第一文字区域,/>为在目标视频帧t中匹配对k中的文字标注目标对应的第二文字区域,/>为在目标视频帧t中匹配对k中的文字识别目标对应的第一文字内容和文字标注目标对应的第二文字内容的匹配度。
在本发明实施例中,通过上述第一公式计算匹配对k中的文字识别目标和文字标注目标之间的第一识别精度参数,由此,可以通过上述第一公式计算比较准确的每个文字识别目标在对应的各目标视频帧中的识别精度,即可以计算每个文字识别目标的跨帧检测和识别的精度。
在一些实施例中,上述根据每个第一识别精度参数,对OCR系统的性能进行评估,可以包括:根据每个第一识别精度参数,计算OCR系统的第二识别精度参数;根据第二识别精度参数,对OCR系统的性能进行评估。
具体地,可以通过统计经由OCR系统识别得到的每个文字识别目标的跨帧识别精度参数,计算表征OCR系统文字识别性能的第二识别精度参数。
在本发明实施例中,通过每个第一识别精度参数,计算OCR系统的第二识别精度参数;根据第二识别精度参数,对OCR系统的性能进行评估。由此,可以通过统计经由OCR系统识别得到的每个文字识别目标的跨帧识别精度参数,计算表征OCR系统文字识别性能的第二识别精度参数,从而实现了视频场景下的基于OCR系统的高精度评价。
在一些实施例中,上述根据每个第一识别精度参数,计算OCR系统的第二识别精度参数,可以包括:根据第二公式,计算OCR系统的第二识别精度参数,其中,第二公式为:
其中,TotalAcc为第二识别精度参数。
具体地,通过累加各匹配对中的的文字识别目标与文字标注目标之间的第一识别精度参数,然后除以文字识别目标的数量和文字标注目标的数量的均值,可以得到OCR系统的第二识别精度参数。其中,在上述第二公式中,分子项可以体现匹配目标的检测和识别精度,该检测和识别精度值越高,OCR系统的整体分值越高,则表征OCR系统的识别性能越好;而当多检和漏检发生时,分子项无变化,分母项会显著增大,这将会导致OCR系统的整体分值降低。
具体地,可以预先设置OCR系统的性能等级以及OCR系统的性能等级与OCR系统的第二识别精度参数之间的对应关系。那么,在得到OCR系统的第二识别精度参数后,可以根据上述对应关系,确定OCR系统当前的性能等级。
具体地,也可以将第二识别精度参数与预设阈值进行比较,若第二识别精度参数大于等于预设阈值,则确定OCR系统的性能为“及格”;若第二识别精度参数小于预设阈值,则确定OCR系统的性能为“不及格”。
具体地,也可以通过计算当前OCR系统的第二识别精度参数以及改进后的OCR系统的第二识别精度参数,通过比较,确定改进后的OCR系统的文字识别性能是否得到了提升。
具体地,还可以通过计算不同OCR系统的第二识别精度参数,通过比较,确定哪一个OCR系统的文字识别性能较好。
在本发明实施例中,通过第二公式,计算OCR系统的第二识别精度参数。由此,可以通过拆解文本检测、文本跟踪和文本识别过程,实现视频场景下的基于OCR系统的高精度评价。
作为一个具体示例,图4为本发明实施例提供的一种OCR系统的性能评估方法的实施例二的流程示意图,如图4所示,本实施例提供的OCR系统的性能评估方法可以包括以下步骤:
S401,将多个视频帧输入OCR系统进行文字识别,得到ND个文字识别目标以及每个文字识别目标对应的至少一个视频帧中的文字检测框和该文字检测框内的第一文字内容。
其中,上述文字检测框即为前述第一文字区域。
S402,基于针对每个视频帧的文字标注结果,得到NG个文字标注目标以及每个文字标注目标对应的至少一个视频帧中的文字标注框和该文字标注框内的第二文字内容。
其中,上述文字标注框即为前述第二文字区域。
S403,分别计算每个文字识别目标和NG个文字标注目标之间的距离,并采用匈牙利算法对距离进行匹配计算,将文字识别目标和文字标注目标进行匹配,得到Nmapped个匹配对。
具体地,可以通过上述图2所示的匹配方法,计算矩阵M中各元素值,并将其作为依据进行文字识别目标与文字标注目标的匹配。
S404,确定每个匹配对中的文字识别目标匹配到该匹配对中的文字标注目标的至少一个目标视频帧。
S405,通过第一公式,计算每个匹配对中的文字识别目标和文字标注目标之间的第一识别精度参数。
其中,通过第一公式,根据每个匹配对中的文字识别目标对应的文字检测框和该匹配对中的文字标注目标对应的文字标注框之间的重合度,与,每个匹配对中的文字识别目标对应的第一文字内容和每个匹配对中的文字标注目标对应的第二文字内容之间的匹配度,计算每个匹配对中的文字识别目标和文字标注目标之间的第一识别精度参数。
S406,通过第二公式,根据每个第一识别精度参数,计算OCR系统的第二识别精度参数。
S407,根据第二识别精度参数,对OCR系统的性能进行评估。
在本发明实施例中,可以将视频中相同拍摄画面的文字识别结果和视频中相同拍摄画面的文字标注结果分别集合起来,再将集合后的各文字识别结果与文字标注结果进行匹配,实现了文本识别和文本跟踪;通过计算每个匹配对中的文字识别目标与文字标注目标之间的第一识别精度参数,并根据每个第一识别精度参数对OCR系统的性能进行评估,实现了对于漏检、误检、多检的文本检测,从而通过拆解文本检测、文本跟踪和文本识别过程,实现了视频场景下的基于OCR系统的高精度评价。
图5为本发明实施例提供的一种OCR系统的性能评估装置的结构示意图。如图5所示,该OCR系统的性能评估装置50可以包括:识别模块510、标注模块520、匹配模块530、计算模块540和评估模块550。
识别模块510,可以用于将多个视频帧输入OCR系统进行文字识别,得到ND个文字识别目标,其中,每个文字识别目标对应至少一个第一文字区域和该第一文字区域内的第一文字内容,每个文字识别目标对应的各第一文字内容相同、且每个文字识别目标对应的各第一文字区域在预设区域误差范围内,ND为正整数;标注模块520,可以用于基于针对每个视频帧的文字标注结果,得到NG个文字标注目标,其中,每个文字标注目标对应至少一个第二文字区域和该第二文字区域内的第二文字内容,每个文字批注目标对应的各第二文字内容相同、且每个文字标注目标对应的各第二文字区域在预设区域误差范围内,NG为正整数;匹配模块530,可以用于将ND个文字识别目标和NG个文字标注目标进行匹配,得到Nmapped个匹配对,其中,每个匹配对包括一个文字识别目标和一个文字标注目标,Nmapped小于等于min(ND,NG);计算模块540,可以用于计算每个匹配对中的文字识别目标与文字标注目标之间的第一识别精度参数;评估模块550,可以用于根据每个第一识别精度参数,对OCR系统的性能进行评估。
本发明实施例提供的OCR系统的性能评估装置,通过识别模块,将多个视频帧输入OCR系统进行文字识别,得到ND个文字识别目标,其中,每个文字识别目标对应至少一个第一文字区域和该第一文字区域内的第一文字内容,每个文字识别目标对应的各第一文字内容相同、且每个文字识别目标对应的各第一文字区域在预设区域误差范围内,ND为正整数;通过标注模块,基于针对每个视频帧的文字标注结果,得到NG个文字标注目标,其中,每个文字标注目标对应至少一个第二文字区域和该第二文字区域内的第二文字内容,每个文字批注目标对应的各第二文字内容相同、且每个文字标注目标对应的各第二文字区域在预设区域误差范围内,NG为正整数;通过匹配模块,将ND个文字识别目标和NG个文字标注目标进行匹配,得到Nmapped个匹配对,其中,每个匹配对包括一个文字识别目标和一个文字标注目标,Nmapped小于等于min(ND,NG);通过计算模块,计算每个匹配对中的文字识别目标与文字标注目标之间的第一识别精度参数;通过评估模块,根据每个第一识别精度参数,对OCR系统的性能进行评估。由此,可以将视频中相同拍摄画面的文字识别结果和视频中相同拍摄画面的文字标注结果分别集合起来,再将集合后的各文字识别结果与文字标注结果进行匹配,实现了文本识别和文本跟踪;通过计算每个匹配对中的文字识别目标与文字标注目标之间的第一识别精度参数,并根据每个第一识别精度参数对OCR系统的性能进行评估,实现了对于漏检、误检、多检的文本检测,从而通过拆解文本检测、文本跟踪和文本识别过程,实现了视频场景下的基于OCR系统的高精度评价。
另外,相应于上述实施例所提供的OCR系统的性能评估方法,本发明实施例还提供了一种电子设备,如图6所示,该电子设备60可以包括:存储器610、处理器620及存储在存储器610上并可在处理器620上运行的程序,处理器620执行程序时,实现本发明实施例提供的OCR系统的性能评估方法的所有步骤。
上述电子设备中,可以将视频中相同拍摄画面的文字识别结果和视频中相同拍摄画面的文字标注结果分别集合起来,再将集合后的各文字识别结果与文字标注结果进行匹配,实现了文本识别和文本跟踪;通过计算每个匹配对中的文字识别目标与文字标注目标之间的第一识别精度参数,并根据每个第一识别精度参数对OCR系统的性能进行评估,实现了对于漏检、误检、多检的文本检测,从而通过拆解文本检测、文本跟踪和文本识别过程,实现了视频场景下的基于OCR系统的高精度评价。
另外,相应于上述实施例所提供的OCR系统的性能评估方法,本发明实施例还提供了一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时实现本发明实施例的OCR系统的性能评估方法的所有步骤。
上述计算机可读存储介质中,可以将视频中相同拍摄画面的文字识别结果和视频中相同拍摄画面的文字标注结果分别集合起来,再将集合后的各文字识别结果与文字标注结果进行匹配,实现了文本识别和文本跟踪;通过计算每个匹配对中的文字识别目标与文字标注目标之间的第一识别精度参数,并根据每个第一识别精度参数对OCR系统的性能进行评估,实现了对于漏检、误检、多检的文本检测,从而通过拆解文本检测、文本跟踪和文本识别过程,实现了视频场景下的基于OCR系统的高精度评价。
需要说明的是,在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系,除非另有明确的限定。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (11)
1.一种OCR系统的性能评估方法,其特征在于,所述方法包括:
将多个视频帧输入OCR系统进行文字识别,得到ND个文字识别目标,其中,每个文字识别目标对应至少一个第一文字区域和该第一文字区域内的第一文字内容,每个文字识别目标对应的各第一文字内容相同、且每个文字识别目标对应的各第一文字区域在预设区域误差范围内,ND为正整数;
基于针对每个视频帧的文字标注结果,得到NG个文字标注目标,其中,每个文字标注目标对应至少一个第二文字区域和该第二文字区域内的第二文字内容,每个文字批注目标对应的各第二文字内容相同、且每个文字标注目标对应的各第二文字区域在预设区域误差范围内,NG为正整数;
将ND个文字识别目标和NG个文字标注目标进行匹配,得到Nmapped个匹配对,其中,每个所述匹配对包括一个文字识别目标和一个文字标注目标,Nmapped小于等于min(ND,NG);
计算每个所述匹配对中的文字识别目标与文字标注目标之间的第一识别精度参数;
根据每个所述第一识别精度参数,对所述OCR系统的性能进行评估。
2.根据权利要求1所述的方法,其特征在于,所述将ND个文字识别目标和NG个文字标注目标进行匹配,得到Nmapped个匹配对,包括:
分别计算每个文字识别目标和NG个文字标注目标之间的距离,并根据所述距离进行匹配,得到Nmapped个匹配对。
3.根据权利要求2所述的方法,其特征在于,所述分别计算每个文字识别目标和NG个文字标注目标之间的距离,包括:
针对每个视频帧,计算文字识别目标j对应的第一文字区域和文字标注目标i对应的第二文字区域之间的重合度,其中,j=1,2…ND,i=1,2…NG;
将累加后的各视频帧中文字识别目标j对应的第一文字区域和文字标注目标i对应的第二文字区域之间的重合度,作为文字识别目标j和文字标注目标i之间的距离。
4.根据权利要求3所述的方法,其特征在于,采用匈牙利算法对所述距离进行匹配计算。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述计算每个所述匹配对中的文字识别目标与文字标注目标之间的第一识别精度参数,包括:
确定匹配对k中的文字识别目标匹配到匹配对k中的文字标注目标的至少一个目标视频帧,其中,k=1,2…Nmapped;
针对每个目标视频帧,计算匹配对k中的文字识别目标对应的第一文字区域和匹配对k中的文字标注目标对应的第二文字区域之间的重合度,与,匹配对k中的文字识别目标对应的第一文字内容和匹配对k中的文字标注目标对应的第二文字内容之间的匹配度,的乘积;
根据各乘积和目标视频帧的数量,计算匹配对k中的文字识别目标和文字标注目标之间的第一识别精度参数。
6.根据权利要求5所述的方法,其特征在于,所述根据各乘积和目标视频帧的数量,计算匹配对k中的文字识别目标和文字标注目标之间的第一识别精度参数,包括:
根据第一公式,计算匹配对k中的文字识别目标和文字标注目标之间的第一识别精度参数,其中,所述第一公式为:
其中,SingleAcck为匹配对k中的文字识别目标和文字标注目标之间的第一识别精度参数,为匹配对k中的文字识别目标匹配到匹配对k中的文字标注目标的目标视频帧的数量,/>为在目标视频帧t中匹配对k中的文字识别目标对应的第一文字区域,/>为在目标视频帧t中匹配对k中的文字标注目标对应的第二文字区域,/>为在目标视频帧t中匹配对k中的文字识别目标对应的第一文字内容和文字标注目标对应的第二文字内容的匹配度。
7.根据权利要求6所述的方法,其特征在于,所述根据每个所述第一识别精度参数,对所述OCR系统的性能进行评估,包括:
根据每个所述第一识别精度参数,计算所述OCR系统的第二识别精度参数;
根据所述第二识别精度参数,对所述OCR系统的性能进行评估。
8.根据权利要求7所述的方法,其特征在于,所述根据每个所述第一识别精度参数,计算所述OCR系统的第二识别精度参数,包括:
根据第二公式,计算所述OCR系统的第二识别精度参数,其中,所述第二公式为:
其中,TotalAcc为所述第二识别精度参数。
9.一种OCR系统的性能评估装置,其特征在于,所述装置包括:
识别模块,用于将多个视频帧输入OCR系统进行文字识别,得到ND个文字识别目标,其中,每个文字识别目标对应至少一个第一文字区域和该第一文字区域内的第一文字内容,每个文字识别目标对应的各第一文字内容相同、且每个文字识别目标对应的各第一文字区域在预设区域误差范围内,ND为正整数;
标注模块,用于基于针对每个视频帧的文字标注结果,得到NG个文字标注目标,其中,每个文字标注目标对应至少一个第二文字区域和该第二文字区域内的第二文字内容,每个文字批注目标对应的各第二文字内容相同、且每个文字标注目标对应的各第二文字区域在预设区域误差范围内,NG为正整数;
匹配模块,用于将ND个文字识别目标和NG个文字标注目标进行匹配,得到Nmapped个匹配对,其中,每个所述匹配对包括一个文字识别目标和一个文字标注目标,Nmapped小于等于min(ND,NG);
计算模块,用于计算每个所述匹配对中的文字识别目标与文字标注目标之间的第一识别精度参数;
评估模块,用于根据每个所述第一识别精度参数,对所述OCR系统的性能进行评估。
10.一种电子设备,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序,所述处理器执行所述程序时,实现根据权利要求1-8任一项所述的方法。
11.一种计算机可读存储介质,其特征在于,其上存储有程序,该程序被处理器执行时实现根据权利要求1-8任一项所述的方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310943429.3A CN116978032A (zh) | 2023-07-28 | 2023-07-28 | Ocr系统的性能评估方法、装置、设备及可读存储介质 |
PCT/CN2023/140622 WO2025025490A1 (zh) | 2023-07-28 | 2023-12-21 | Ocr系统的性能评估方法、装置、设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310943429.3A CN116978032A (zh) | 2023-07-28 | 2023-07-28 | Ocr系统的性能评估方法、装置、设备及可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116978032A true CN116978032A (zh) | 2023-10-31 |
Family
ID=88472594
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310943429.3A Pending CN116978032A (zh) | 2023-07-28 | 2023-07-28 | Ocr系统的性能评估方法、装置、设备及可读存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN116978032A (zh) |
WO (1) | WO2025025490A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2025025490A1 (zh) * | 2023-07-28 | 2025-02-06 | 广电运通集团股份有限公司 | Ocr系统的性能评估方法、装置、设备及可读存储介质 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107862258A (zh) * | 2017-10-24 | 2018-03-30 | 广东小天才科技有限公司 | 视频中文本内容的校验方法、装置、设备及存储介质 |
CN110059694B (zh) * | 2019-04-19 | 2020-02-11 | 山东大学 | 电力行业复杂场景下的文字数据的智能识别方法 |
CN110084240A (zh) * | 2019-04-24 | 2019-08-02 | 网易(杭州)网络有限公司 | 一种文字提取系统、方法、介质和计算设备 |
US11640720B2 (en) * | 2020-07-07 | 2023-05-02 | Smart Engines Service, LLC | Text recognition in a video stream using a combination of recognition results with per-character weighting |
CN115937883A (zh) * | 2022-12-08 | 2023-04-07 | 网易有道信息技术(北京)有限公司 | 用于评估ocr识别质量的方法及相关产品 |
CN116978032A (zh) * | 2023-07-28 | 2023-10-31 | 广州广电运通金融电子股份有限公司 | Ocr系统的性能评估方法、装置、设备及可读存储介质 |
-
2023
- 2023-07-28 CN CN202310943429.3A patent/CN116978032A/zh active Pending
- 2023-12-21 WO PCT/CN2023/140622 patent/WO2025025490A1/zh unknown
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2025025490A1 (zh) * | 2023-07-28 | 2025-02-06 | 广电运通集团股份有限公司 | Ocr系统的性能评估方法、装置、设备及可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2025025490A1 (zh) | 2025-02-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110197146B (zh) | 基于深度学习的人脸图像分析方法、电子装置及存储介质 | |
Lowry et al. | Lightweight, viewpoint-invariant visual place recognition in changing environments | |
CN111104867A (zh) | 基于部件分割的识别模型训练、车辆重识别方法及装置 | |
US8036468B2 (en) | Invariant visual scene and object recognition | |
CN112036362A (zh) | 图像处理方法、装置、计算机设备和可读存储介质 | |
CN112581446B (zh) | 一种图像的显著性物体检测方法、装置、设备及存储介质 | |
CN111126122A (zh) | 人脸识别算法评估方法及装置 | |
CN112101076A (zh) | 识别猪只的方法和装置 | |
CN114168768A (zh) | 图像检索方法及相关设备 | |
CN106778731B (zh) | 一种车牌定位方法及终端 | |
CN116978032A (zh) | Ocr系统的性能评估方法、装置、设备及可读存储介质 | |
CN114120309A (zh) | 一种仪表读数识别方法、装置及计算机设备 | |
CN116740753A (zh) | 一种基于改进YOLOv5和DeepSORT的目标检测及追踪的方法及系统 | |
CN111105436A (zh) | 目标跟踪方法、计算机设备及存储介质 | |
CN117612128B (zh) | 车道线生成方法、装置、计算机设备及存储介质 | |
Ramesh et al. | Eidetic recognition of cattle using keypoint alignment | |
CN115527083B (zh) | 图像标注方法、装置和电子设备 | |
KR20210155506A (ko) | 영상 내 제스처 인식 장치, 방법 및 프로그램 | |
CN110689481A (zh) | 车辆种类识别方法及装置 | |
CN116343143A (zh) | 目标检测方法、存储介质、路侧设备及自动驾驶系统 | |
KR20230083421A (ko) | 데이터 전처리 및 심층신경망 기반 이미지 검출 및 분류를 통한 수입 관상어 검역을 위한 방법 및 장치 | |
CN113378738A (zh) | 比对方法及装置、设备和存储介质 | |
CN111626173A (zh) | 一种更新数据库中人脸特征向量的方法 | |
CN116452791B (zh) | 多相机点位的缺陷区域定位方法、系统、装置及存储介质 | |
CN114429605B (zh) | 一种广域环境下动态随机目标的识别、定位与跟踪系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Country or region after: China Address after: 510663 9, 11, science Road, science and Technology City, Guangzhou high tech Industrial Development Zone, Guangdong Applicant after: Guangdian Yuntong Group Co.,Ltd. Address before: 510663 9, 11, science Road, science and Technology City, Guangzhou high tech Industrial Development Zone, Guangdong Applicant before: GRG BANKING EQUIPMENT Co.,Ltd. Country or region before: China |
|
CB02 | Change of applicant information |