JP2013016168A - Method and device for positioning text area in image - Google Patents
Method and device for positioning text area in image Download PDFInfo
- Publication number
- JP2013016168A JP2013016168A JP2012145538A JP2012145538A JP2013016168A JP 2013016168 A JP2013016168 A JP 2013016168A JP 2012145538 A JP2012145538 A JP 2012145538A JP 2012145538 A JP2012145538 A JP 2012145538A JP 2013016168 A JP2013016168 A JP 2013016168A
- Authority
- JP
- Japan
- Prior art keywords
- text
- area
- areas
- stroke
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 230000000875 corresponding effect Effects 0.000 claims description 41
- 230000002596 correlated effect Effects 0.000 claims description 21
- 238000000605 extraction Methods 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 description 16
- 230000008569 process Effects 0.000 description 16
- 238000012545 processing Methods 0.000 description 15
- 238000010586 diagram Methods 0.000 description 13
- 238000004891 communication Methods 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 4
- 230000010365 information processing Effects 0.000 description 4
- 230000015654 memory Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 238000012549 training Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000012015 optical character recognition Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 235000006679 Mentha X verticillata Nutrition 0.000 description 1
- 235000002899 Mentha suaveolens Nutrition 0.000 description 1
- 235000001636 Mentha x rotundifolia Nutrition 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
Images
Landscapes
- Image Analysis (AREA)
- Character Input (AREA)
- Character Discrimination (AREA)
Abstract
【課題】本発明は、画像におけるテキスト領域を位置決めする方法及び装置を開示する。
【解決手段】本発明による画像におけるテキスト領域の位置決め方法は、入力画像における各画素の周りに存在可能なテキストの大きさを推定するステップと、上記テキストの大きさ及び領域差異度に基づいて、上記入力画像から候補筆画領域を抽出するステップと、上記候補筆画領域から真の筆画領域を特定するステップと、前記真の筆画領域をマージしてテキスト領域を形成するステップとを含む。
【選択図】図2The present invention discloses a method and apparatus for positioning a text region in an image.
A method for positioning a text region in an image according to the present invention includes estimating a size of text that can exist around each pixel in an input image, and based on the size of the text and the region difference. Extracting a candidate stroke area from the input image; identifying a true stroke area from the candidate stroke area; and merging the true stroke area to form a text area.
[Selection] Figure 2
Description
本発明は、一般的に、画像処理に関し、具体的には、画像におけるテキスト領域を位置決めする方法及び装置に関する。 The present invention relates generally to image processing, and in particular to a method and apparatus for positioning a text region in an image.
画像に対してインデクシング、検索、分類などを行う各種のアプリケーションにおいて、画像から画像内容に関する情報を抽出する必要がある。画像には通常、テキスト情報がある。このテキスト情報は画像の内容に対して比較的に高い相関性を有する。したがって、これらのテキスト情報の取得は、画像のアプリケーションにおいて重要なものである。通常、まず、画像におけるテキスト領域を位置決めし、次に、テキスト領域の位置している画像ブロックに対して抽出及び光学文字認識(OCR)処理を行って、テキスト情報を取得する。画像は、自然シーンによる画像と、人工的に付加されたテキストによる画像とに分けることができる。人工的に付加されたテキストによる画像は人の関与があるため、その中からテキスト領域を位置決めすることは相対的に簡単である。自然シーンによる画像は画像を単位とするため、テキスト領域の画像と非テキスト領域の画像とを区別し難い。そのため、その中からテキスト領域を位置決めするのは難しい。本発明は、画像中のテキスト領域を位置決めすることに着目して、自然シーンによる画像を含む比較的複雑な画像を処理することができる。 In various applications that perform indexing, search, classification, and the like on an image, it is necessary to extract information about the image content from the image. An image usually has text information. This text information has a relatively high correlation with the content of the image. Therefore, acquisition of such text information is important in image applications. Usually, first, a text area in an image is positioned, and then text information is obtained by performing extraction and optical character recognition (OCR) processing on the image block where the text area is located. The images can be divided into images based on natural scenes and images based on artificially added text. Since the artificially added text image has human involvement, it is relatively easy to position the text area from within it. Since an image based on a natural scene has an image as a unit, it is difficult to distinguish an image in a text area from an image in a non-text area. For this reason, it is difficult to position the text area from within. The present invention can process relatively complex images including images from natural scenes, focusing on positioning text regions in the image.
以下に、本発明の幾つかの局面に対する基本的な理解をもたらすように本発明に関して簡単に概説する。ここで理解すべきことは、この概説が、本発明に関する網羅的な概説ではないということである。本発明の主要部分を特定することを意図するものでなく、本発明の範囲を限定することを意図するものでもない。単に、話を単純化するために幾つかの概念を表して、後述する詳細な説明に先行する説明とすることを目的とする。 The following presents a simplified summary of the invention in order to provide a basic understanding of some aspects of the invention. It should be understood that this overview is not an exhaustive overview regarding the present invention. It is not intended to identify key portions of the invention, nor is it intended to limit the scope of the invention. Its purpose is simply to present some concepts in order to simplify the story and to precede the detailed description that follows.
本発明の目的は、従来技術の上記問題点に対して、画像におけるテキスト領域を位置決め可能な方法及び装置を提供することにある。この技術的な方策は、画像から、高速かつ正確にテキスト領域を位置決めすることができ、任意の種類の画像に適用する。 An object of the present invention is to provide a method and an apparatus capable of positioning a text region in an image with respect to the above-mentioned problems of the prior art. This technical measure can locate text regions quickly and accurately from an image and applies to any kind of image.
上記目的を実現するために、本発明の1つの局面によれば、画像におけるテキスト領域を位置決めする方法を提供する。上記方法は、入力画像における各画素の周りに存在可能なテキストの大きさを推定するステップと、上記テキストの大きさ及び領域の差異度に基づいて、上記入力画像から候補筆画領域を抽出するステップと、上記候補筆画領域から真の筆画領域を特定するステップと、上記真の筆画領域をマージしてテキスト領域を形成するステップとを含む。 In order to achieve the above object, according to one aspect of the present invention, a method for positioning a text region in an image is provided. The method includes estimating a size of text that can exist around each pixel in the input image, and extracting candidate stroke regions from the input image based on the size of the text and the degree of difference between the regions. And specifying a true stroke area from the candidate stroke areas and merging the true stroke areas to form a text area.
本発明の他の局面によれば、画像におけるテキスト領域の位置決め装置を提供する。上記装置は、入力画像における各画像の周りに存在可能なテキストの大きさを推定するための推定ユニットと、上記テキストの大きさ及び領域の差異度に基づいて、上記入力画像から候補筆画領域を抽出するための抽出ユニットと、上記候補筆画領域から真の筆画領域を特定するための特定ユニットと、真の筆画単位をマージしてテキスト領域を形成するためのマージ・ユニットとを含む。 According to another aspect of the present invention, a text region positioning device in an image is provided. The apparatus is configured to estimate a candidate stroke area from the input image based on an estimation unit for estimating a size of text that can exist around each image in the input image and a difference between the size of the text and the area. An extraction unit for extraction, a specific unit for specifying a true stroke area from the candidate stroke areas, and a merge unit for merging true stroke units to form a text area are included.
また、本発明の他の局面によれば、さらに記憶媒体を提供する。上記記憶媒体は、機械による読み取り可能なプログラムコードを有する。情報処理装置において上記プログラムコードを実行すると、上記プログラムコードは、上記情報処理装置に本発明による上記方法を実行させる。 According to another aspect of the present invention, a storage medium is further provided. The storage medium has program code readable by a machine. When the program code is executed in the information processing apparatus, the program code causes the information processing apparatus to execute the method according to the present invention.
また、本発明の他の局面によれば、さらにプログラムを提供する。上記プログラムはコンピュータ実行可能なコマンドを有する。情報処理装置において上記コマンドを実行すると、上記コマンドは、情報処理装置に本発明による上記方法を実行させる。 According to another aspect of the present invention, a program is further provided. The program has a computer executable command. When the command is executed in the information processing apparatus, the command causes the information processing apparatus to execute the method according to the present invention.
以下、図面を参照しながら本発明の例示的な実施例を詳細に説明する。話を明瞭かつ簡潔にするために、本明細書においては、実際的な実施形態のすべての特徴を説明している訳ではない。しかし、理解すべきことは、何れのこのような実際的な実施例を開発する過程においても、実施形態によって限定された決まりを多くしなければならないという点である。例えば、システム及び業務に関する制約条件などの制約条件が満たされ、前述の制約条件は実施形態によって変わる可能性がある。なお、開発作業は非常に複雑でかつ時間がかかるものであるが、本開示内容の恩恵を受ける当業者には、このような開発作業が単に日常的な任務であることも理解されよう。 Hereinafter, exemplary embodiments of the present invention will be described in detail with reference to the drawings. In the interest of clarity and brevity, not all features of a practical embodiment are described herein. However, it should be understood that in the process of developing any such practical example, the rules limited by the embodiments must be increased. For example, a constraint condition such as a constraint condition related to a system and a job is satisfied, and the above-described constraint condition may vary depending on the embodiment. It should be noted that although development work is very complex and time consuming, those skilled in the art who benefit from the present disclosure will also understand that such development work is merely a routine task.
ここで、さらに説明すべきことは、不必要な詳細により、本発明を分かりにくくすることのないように、図面において本発明の技術的な方策と密接に関係する装置構造及び/又は処理ステップのみを示す一方、本発明とあまり関係していない他の詳細を省略しているという点である。また、さらに指摘すべきことは、本発明の一図面、又は一種類の実施形態において説明した要素及び特徴は、一つ又は複数の他の図面若しくは実施例に示された要素及び特徴と組み合わせてもよいという点である。 Here, what is further to be described is only the device structure and / or processing steps closely related to the technical measures of the present invention in the drawings, so as not to obscure the present invention by unnecessary details. However, other details not so much related to the present invention are omitted. It should also be pointed out that elements and features described in one drawing or embodiment of the invention may be combined with elements and features shown in one or more other drawings or examples. It is a good point.
以下、図2を参照しながら本発明の一実施例による画像中のテキスト領域の位置決め方法の流れを説明する。 Hereinafter, a flow of a method for positioning a text area in an image according to an embodiment of the present invention will be described with reference to FIG.
図1は本発明が処理可能な画像の一つの具体的な例を示す。図1に示す自然シーンによる画像において、家としての背景及び交通標識としての前景がある。しかし、上述のように、当該画像は画素を単位とし、画像中のテキスト領域に対して人工的に付加されたタグが一切ないため、その中から正確に、迅速にテキスト領域を抽出し難い。 FIG. 1 shows one specific example of an image that can be processed by the present invention. In the image of the natural scene shown in FIG. 1, there is a background as a house and a foreground as a traffic sign. However, as described above, since the image has a pixel as a unit and there is no tag artificially added to the text area in the image, it is difficult to extract the text area accurately and quickly.
図2に示すように、本発明の一実施例による画像中のテキスト領域の位置決め方法は、入力された画像における画素毎の周りに存在可能なテキストの大きさを推定するステップ(S201)と、上記テキストの大きさ及び領域の差異度に基づいて、上記入力された画像から候補筆画領域を抽出するステップ(S202)と、上記候補筆画領域から真の筆画領域を特定するステップ(S203)と、上記真の筆画領域をマージしてテキスト領域を形成するステップ(S204)とを含む。 As shown in FIG. 2, a method for positioning a text area in an image according to an embodiment of the present invention includes estimating a size of text that can exist around each pixel in an input image (S201), Extracting a candidate stroke area from the input image based on the size of the text and the difference between the areas (S202); identifying a true stroke area from the candidate stroke area (S203); Merging the true stroke area to form a text area (S204).
以下、図3及び図4を参照しながら図2のステップS201を具体的に説明する。 Hereinafter, step S201 of FIG. 2 will be described in detail with reference to FIGS.
図3は、画像ピラミッドの構造を示している。なお、階層Ln(n≧1)毎に1枚のピラミッド画像が存在している。第1階層L1に対応するピラミッド画像は元の入力画像である。図1は、入力画像の具体例を示す。各階層Lnは第1階層L1に対するスケーリング係数scnを有する。各階層Ln(n>1)に対してスケーリング係数scnで入力画像を均等な比率で縮小してこの階層のピラミッド画像を得る。例えば、入力画像は8×8画素の大きさである。ステップ幅が1/2である場合、第2階層の第1階層L1に対するスケーリング係数はsc2=1/2であり、最近隣接内挿法を採用すると、4×4画素の大きさの第2階層のピラミッド画像が得られる。順次に類推すると、図3のように、入力画像から複数のスケーリングの画像ピラミッドを取得することができる。第n階層(n≧1)については、ステップ幅がstepであれば、第n階層のスケーリング係数がscn=stepn−1となることは明らかである。入力画像における各画素のスケーリング係数は、各階層のピラミッド画像におけるその対応する画素(当該画素自身を含む)の確信度及び各階層のピラミッド画像のスケーリング係数により算出されたものであり、式2を参照しながら後述する。 FIG. 3 shows the structure of the image pyramid. One pyramid image exists for each layer Ln (n ≧ 1). The pyramid image corresponding to the first hierarchy L1 is the original input image. FIG. 1 shows a specific example of an input image. Each layer Ln has a scaling factor sc n for the first layer L1. For each layer Ln (n> 1), the input image is reduced at an equal ratio by the scaling coefficient sc n to obtain a pyramid image of this layer. For example, the input image is 8 × 8 pixels in size. When the step width is 1/2, the scaling factor for the first layer L1 of the second layer is sc 2 = 1/2, and when the nearest neighbor interpolation method is employed, the second of 4 × 4 pixel size A hierarchical pyramid image is obtained. By analogy sequentially, a plurality of scaled image pyramids can be obtained from the input image as shown in FIG. For the nth layer (n ≧ 1), if the step width is step, it is clear that the scaling factor of the nth layer is sc n = step n−1 . The scaling factor of each pixel in the input image is calculated by the certainty factor of the corresponding pixel (including the pixel itself) in the pyramid image of each layer and the scaling factor of the pyramid image of each layer. This will be described later with reference.
図4は図2中のステップS201の詳細を示すフローチャートである。 FIG. 4 is a flowchart showing details of step S201 in FIG.
まず、上述のように、入力画像に基づいて複数の階層のピラミッド画像、すなわち、画像ピラミッド(ステップS401)を生成する。 First, as described above, a plurality of layers of pyramid images, that is, image pyramids (step S401) are generated based on the input image.
その後、各階層のピラミッド画像に対して、各画素の周りにテキストの存在する確率を推定する(ステップS402)。具体的には、各階層のピラミッド画像に対して、一定の大きさのスキャンウィンドウでスキャンして、各階層のピラミッド画像の各画素の周りにテキストの存在する確率を取得する。本実施例において、各階層のピラミッド画像のスキャンウィンドウの大きさは元の入力画像の大きさとして固定される。画素毎に、当該画素を中心としたスキャンウィンドウ内の局所テクスチャ、例えば、勾配方向ヒストグラムHO(Histograms of Oriented Gradient)G特徴を算出する。算出されたHOG特徴を訓練済みの分類器に入力し、分類器は当該画素の周りにテキストの存在する確信度(確率)を返すことができる。 After that, the probability that text exists around each pixel is estimated for the pyramid image of each layer (step S402). Specifically, the pyramid image of each layer is scanned with a scan window of a certain size, and the probability that text exists around each pixel of the pyramid image of each layer is acquired. In this embodiment, the size of the scan window of the pyramid image in each layer is fixed as the size of the original input image. For each pixel, a local texture in the scan window centered on the pixel, for example, a gradient direction histogram HO (Histograms of Oriented Gradient) G feature is calculated. The calculated HOG features can be input into a trained classifier, which can return the certainty (probability) that the text exists around the pixel.
分類器を訓練する際に、一つの画素の周りにテキスト領域が存在しているか否かということは既に分かっている。すなわち、一つの画素が、テキスト領域を構成する画素の一つであるか否かということは既に分かっている。例えば、1は当該画素の周りにテキスト領域が存在することを示し、0は当該画素の周りにテキスト領域が存在しないことを示す。一枚の画像における画素毎に、一定の大きさのスキャンウィンドウでHOG特徴を算出し、算出したHOG特徴及び1又は0で表された当該画素の周りにテキストが存在するか否かの確信度を分類器に入力する。大量の訓練が行われた分類器はステップS402に適用可能である。 When training the classifier, it is already known whether there is a text region around one pixel. That is, it is already known whether one pixel is one of the pixels constituting the text area. For example, 1 indicates that a text area exists around the pixel, and 0 indicates that no text area exists around the pixel. HOG feature is calculated for each pixel in one image with a scan window of a certain size, and the certainty of whether there is text around the calculated HOG feature and the pixel represented by 1 or 0 To the classifier. A classifier subjected to a large amount of training can be applied to step S402.
注意すべきことは、ここで局所テクスチャが上述のHOG特徴に限定されないという点である。例えば、ウェーブレット特徴を算出してもよい。一つの画素を中心とするスキャンウィンドウ内の画素に対してウェーブレット変換を行い、変換によって得られたウェーブレット係数の統計量、例えば、平均値及び/又は分散を当該画素のウェーブレット特徴とする。分類器については、Waldboost、AdaBoost等の分類器を選択することができる。 It should be noted that the local texture is not limited to the HOG feature described above. For example, wavelet features may be calculated. Wavelet transform is performed on the pixels in the scan window centered on one pixel, and the statistic of the wavelet coefficient obtained by the transform, for example, an average value and / or variance is used as the wavelet feature of the pixel. For the classifier, a classifier such as Waldboost or AdaBoost can be selected.
ステップS403では、まず、入力画像の各画素に対して、各階層のピラミッド画像における、その対応する画素の座標を算出する。例えば、第2階層のピラミッド画像が対応するスケーリング係数sc2が2の場合、入力画像における座標が(a,b)である画素は、第2階層のピラミッド画像における座標が(2a,2b)である画素に対応する。すなわち、入力画像において画素の横座標及び縦座標にそれぞれ対応するピラミッドの階層のスケーリング係数を乗じると、当該スケーリング係数の対応するピラミッド画像において対応する画素の横座標及び縦座標が得られる。スケーリング係数が整数ではない値である場合、算出結果を四捨五入して整数化して、対応する画素の横座標及び縦座標とする。入力画像中の一つの画素について、第1階層のピラミッド、すなわち、入力画像におけるその対応する画素がそれ自身であるということは明らかである。したがって、入力画像における一つの画素について、各階層のピラミッド画像それぞれにおいて、対応する画素が一つ存在する。 In step S403, first, for each pixel of the input image, the coordinates of the corresponding pixel in the pyramid image of each layer are calculated. For example, if the scaling factor sc 2 is 2 to the pyramid image of the second hierarchy corresponding coordinates in the input image is (a, b) pixel coordinates in the pyramid image of the second hierarchy (2a, 2b) Corresponds to a certain pixel. That is, when the input image is multiplied by the scaling factor of the pyramid hierarchy corresponding to the abscissa and ordinate of the pixel, the abscissa and ordinate of the corresponding pixel in the pyramid image corresponding to the scaling factor are obtained. If the scaling factor is a non-integer value, the calculation result is rounded to an integer to obtain the abscissa and ordinate of the corresponding pixel. It is clear that for one pixel in the input image, the first level pyramid, ie its corresponding pixel in the input image, is itself. Accordingly, for each pixel in the input image, there is one corresponding pixel in each layer of the pyramid image.
入力画像におけるi番目の画素siが対応する各階層のピラミッド画像(第1階層のピラミッド画像、すなわち入力画像自身を含む)における各画素によって構成された集合をPiとする。jはPiに属し、ある階層のピラミッド画像における、siに対応する画素であり、当該ピラミッド画像の対応するスケーリング係数はscjであることを仮定する。ステップS402で算出されたjの周りにテキストが存在する確信度はwjであることを仮定する。以下の式1、2に従って入力画像における画素siの周りにテキストが存在する確率 Let P i be a set composed of pixels in each layer of the pyramid image (including the first layer pyramid image, that is, the input image itself) to which the i-th pixel s i in the input image corresponds. It is assumed that j belongs to P i and is a pixel corresponding to s i in a pyramid image of a certain hierarchy, and the corresponding scaling coefficient of the pyramid image is sc j . Assume that the certainty that text exists around j calculated in step S402 is w j . Probability that text exists around pixel s i in the input image according to equations 1 and 2 below
また、上記式1及び2において、wjは重み付け係数として、各階層のピラミッドにおいて対応する画素の情報を第1階層のピラミッド画像としての元の入力画像に投影する。 In the above formulas 1 and 2, w j is used as a weighting coefficient, and the information of the corresponding pixel in the pyramid of each layer is projected onto the original input image as the pyramid image of the first layer.
スケーリング係数sci及びスキャンウィンドウの大きさにより、入力画像における画素siの周りに存在可能なテキストの大きさを算出することができる。例えば、スキャンウィンドウの長さlength又は幅widthでスキャンウィンドウの大きさを示すと、length/sci又はwidth/sciを半径とする円、又はlength/sci及びwidth/sciを長さ及び幅とする矩形の領域は、入力画像における画素siの周りに存在可能なテキストの大きさを表すことができる。 Based on the scaling factor sc i and the size of the scan window, the size of text that can exist around the pixel s i in the input image can be calculated. For example, indicating the size of the scanning window length length or width width of the scan window, length / sc i or width / sc i a circle and radius or length / sc i and width / sc i the length and, A rectangular area having a width can represent the size of text that can exist around the pixel s i in the input image.
式2の変形として、scjをlength/scjに置き換えると、等式の左辺はlength/sciになる。上記説明から分かるように、式2の物理的意義は、各階層のピラミッドにおける、入力画像中の各画素siに対応する画素jの確信度wjと、当該ピラミッド階層に対応するテキストの大きさlength/scjとに基づいて、入力画像における各画素siの周りに存在可能なテキストの大きさlength/sciを算出するというものである。 As a variation of the formula 2, replacing the sc j in length / sc j, the left side of the equation becomes length / sc i. As can be seen from the above description, the physical significance of Expression 2 is that the certainty factor w j of the pixel j corresponding to each pixel s i in the input image in the pyramid of each layer and the size of the text corresponding to the pyramid layer. On the basis of the length length / sc j , the text size length / sc i that can exist around each pixel s i in the input image is calculated.
前記式1、2の候補として、入力画像における画素siに対応する画素のうち、確信度wjの最も高い画素jの確信度wjとスケーリング係数scjとを、画素siの周りにテキストが存在する確率 As a candidate of the formula 1 and 2, among the pixels corresponding to the pixel s i in the input image, and a confidence factor w j and scaling factor sc j of the highest pixel j confidence w j, around the pixel s i Probability that the text exists
ステップS401−S403によれば、元の入力画像における、各画素の周りにテキストが存在する確率と、各画素の周りに存在可能なテキストの大きさを取得することができる。 According to steps S401 to S403, it is possible to acquire the probability that text exists around each pixel and the size of text that can exist around each pixel in the original input image.
ここで画像ピラミッドを採用してスケーリング変換を行うことで、任意な大きさの文字を検出することができる。相対的には、スケーリング変更を行わずに、大きさが一定のウィンドウで画像をスキャンする場合、すなわち、上記実施例の第1階層のみが存在する場合、依然として、各画素周りにテキストが存在する確率を取得することができ、各画素の周りに存在可能なテキストの大きさはスキャンウィンドウの大きさである。この場合、本発明を依然として実現することができるが、スケーリング変換がないため、大きさが一定の文字のみを検出することができる。 Here, by adopting an image pyramid and performing scaling conversion, it is possible to detect characters of any size. Relatively, if the image is scanned with a constant size window without scaling changes, i.e. only the first hierarchy of the above example exists, there will still be text around each pixel. Probability can be obtained, and the size of text that can exist around each pixel is the size of the scan window. In this case, the present invention can still be realized, but since there is no scaling conversion, only characters with a constant size can be detected.
注意すべきことは、スケーリング変換の方法が、上述された、スキャンウィンドウが変化せずに各階層のピラミッド画像スケーリングをズームする場合に限定されないという点である。入力画像をズームせずに、大きさの変化するスキャンウィンドウ(すなわち、スケーリング変換)を採用して入力画像に対して複数回のスキャンを行ってもよい。この場合、各回のスキャンの結果により、同様に、入力画像における各画素の周りにテキストが存在する確率と、各画素の周りに存在可能なテキストの大きさとを算出することができる。 It should be noted that the scaling conversion method is not limited to the above-described zooming of each layer of pyramid image scaling without changing the scan window. The input image may be scanned a plurality of times by using a scan window (that is, scaling conversion) whose size changes without zooming the input image. In this case, similarly, the probability that text exists around each pixel in the input image and the size of text that can exist around each pixel can be calculated based on the result of each scan.
以下、図5を参照しながら、図2中のステップS202を具体的に説明する。 Hereinafter, step S202 in FIG. 2 will be described in detail with reference to FIG.
図5は、図2中のステップS202の詳細を示すフローチャートである。 FIG. 5 is a flowchart showing details of step S202 in FIG.
上述のように、ステップS202において、ステップS201で算出された各画素の周りに存在可能なテキストの大きさ及び領域差異度に基づいて、上記入力画像から候補筆画領域を抽出する。 As described above, in step S202, a candidate stroke area is extracted from the input image based on the size of the text and the area difference that can exist around each pixel calculated in step S201.
具体的には、予め決められた条件を満たすまで、領域(当初は画素)のマージの反複によって入力画像における類似の領域をマージし続ける。これにより、候補筆画領域としてマージした複数の領域が得られる。マージの基準は、主に領域内の差異度、領域間の差異度、領域周りに存在可能なテキストの大きさを考慮したものである。 Specifically, the similar regions in the input image are continuously merged by repeating the merge of regions (initially pixels) until a predetermined condition is satisfied. Thereby, a plurality of areas merged as candidate stroke areas are obtained. The standard for merging mainly considers the degree of difference within an area, the degree of difference between areas, and the size of text that can exist around the area.
まず、ステップS501において、入力画像における隣接した領域に対して領域間の差異度及び領域内の差異度を算出する。領域内の差異度は、例えば領域内の最も大きい色差である。階調画像について、領域内の最も大きい色差は領域内の全ての画素のうち、階調値最高の画素と階調値最低の画素との間の、階調値の差の絶対値である。例えば、(Y,Cr,Cb)が示す色彩画像に対して各画素の First, in step S501, the difference between regions and the difference within the region are calculated for adjacent regions in the input image. The degree of difference within a region is, for example, the largest color difference within the region. For the gradation image, the largest color difference in the area is the absolute value of the difference in gradation value between the pixel having the highest gradation value and the pixel having the lowest gradation value among all the pixels in the area. For example, for each color image indicated by (Y, Cr, Cb),
ステップS501において、仮に、隣接した領域をC1、C2とし、領域C1の画素のうち領域C2の画素と隣接した画素からなる集合をC1とし、領域C2の画素のうち領域C1の画素と隣接した画素からなる集合をC2とする。上述のように、C1、C2の範囲で領域内の差異度及び領域間の差異度を算出する実施形態以外、単にC1、C2だけの範囲において上述の方法を採用して、C1、C2の領域内の差異度及び領域間の差異度を算出して、C1、C2の領域内の差異度及び領域間の差異度を表してもよい。 In step S501, if the adjacent regions and C 1, C 2, a set of pixels adjacent to the pixel region C 2 of the pixel region C 1 and C 1, region of the pixel region C 2 C the set consisting of adjacent pixels as one pixel and C 2. As described above, except for the embodiment in which the difference in the region and the difference between the regions in the range of C 1 and C 2 are calculated, the above-described method is adopted in the range of only C 1 and C 2 , and C 1, the difference of the C 2 in the area and to calculate the difference degree between the region may represent the difference of the differences of and regions within the region of C 1, C 2.
次に、ステップS502において、ステップS201で推定した入力画像における、画素毎の周りに存在可能なテキストの大きさに基づいて、領域の周りに存在可能なテキストの大きさを推定し、推定された領域の周りに存在可能なテキストの大きさに基づいて、各領域内の差異度を調整する。 Next, in step S502, based on the size of text that can exist around each pixel in the input image estimated in step S201, the size of text that can exist around the region is estimated and estimated. The degree of difference within each region is adjusted based on the size of text that can exist around the region.
当該ステップは、発明者による以下の発見、すなわち、領域内の差異度及び領域間の差異度のみに基づいて隣接した領域をマージするか否かを決めることが完全に正確な訳ではないことを基づいたものである。隣接した領域C1、C2の周りに存在可能なテキストの大きさが小さいと分かっていれば、C1、C2は、マージすべきではないものである可能性が高い。隣接した領域C1、C2の周りに存在可能なテキストの大きさが大きいと分かっていれば、C1、C2は、マージすべきものである可能性が高い。したがって、更に領域周りに存在可能なテキストの大きさを考慮し、領域内の差異度を調整することにより、隣接した領域C1、C2をマージすべきか否かについて、より正確に判断することができる。 The step states that it is not entirely accurate to determine whether to merge adjacent regions based solely on the following discoveries by the inventor, i.e., differences within and between regions. It is based. If it is known that the size of the text that can exist around the adjacent regions C 1 and C 2 is small, it is likely that C 1 and C 2 should not be merged. If it is known that the size of the text that can exist around the adjacent regions C 1 and C 2 is large, it is highly likely that C 1 and C 2 should be merged. Therefore, it is possible to more accurately determine whether or not the adjacent regions C 1 and C 2 should be merged by considering the size of text that can exist around the region and adjusting the degree of difference in the region. Can do.
領域C1に1つの画素のみが含まれている場合、領域C1における唯一の画素のスケーリング係数sci及びスキャンウィンドウの大きさを使用して入力画像における領域C1の周りに存在可能なテキストの大きさを算出することができる。例えば、スキャンウィンドウの長さlength又は幅widthでスキャンウィンドウの大きさを示すと、length/sci又はwidth/sciを半径とする円、又はlength/sci及びwidth/sciを長さ及び幅とする矩形の領域は、入力画像中の領域C1の周りに存在可能なテキストの大きさを表すことができる。領域C1に一つより多い画素が含まれると、領域C1におけるスケーリング係数sciの平均値及びスキャンウィンドウの大きさにより、入力画像における領域C1の周りに存在可能なテキストの大きさを算出することができる。例えば、スキャンウィンドウの長さlength又は幅widthでスキャンウィンドウの大きさを示し、sciの平均値をa_sciとすると、length/a_sci又はwidth/a_sciを半径とする円、又はlength/a_sci及びwidth/a_sciを長さ及び幅とする矩形の領域は、入力画像中の領域C1の周りに存在可能なテキストの大きさを表すことができる。 If the region C 1 contains only one pixel, the text that can exist around the region C 1 in the input image using the scaling factor sc i of the only pixel in the region C 1 and the size of the scan window Can be calculated. For example, indicating the size of the scanning window length length or width width of the scan window, length / sc i or width / sc i a circle and radius or length / sc i and width / sc i the length and, rectangular area that the width can represent the magnitude of which can be present around the area C 1 of the input image text. When the area C 1 includes more than one pixel, the size of text that can exist around the area C 1 in the input image is determined by the average value of the scaling factor sc i in the area C 1 and the size of the scan window. Can be calculated. For example, when the length of the scan window is represented by the length or width width of the scan window and the average value of sc i is a_sc i , a circle having a radius of length / a_sc i or width / a_sc i , or length / a_sc rectangular area of the i and width / a_sc i the length and width may represent the magnitude of which can be present around the area C 1 of the input image text.
次に、ステップS503において、隣接した領域の領域間の差異度が、隣接した領域の調整後の領域内の差異度の最小値よりも小さいか否かを判断する。判断結果が肯定の場合、ステップS504に進んで、隣接した領域C1、C2をマージした後に、ステップS505に進む。判断結果が否定の場合、直接、ステップS505に進む。 Next, in step S503, it is determined whether or not the difference between the adjacent areas is smaller than the minimum value of the difference in the adjusted area of the adjacent areas. If the determination result is affirmative, the process proceeds to step S504, and after the adjacent areas C 1 and C 2 are merged, the process proceeds to step S505. If the determination result is negative, the process directly proceeds to step S505.
注意すべきことは、現在のすべての隣接した領域に対して、ステップS501−S503を行うという点である。 It should be noted that steps S501 to S503 are performed for all current adjacent areas.
ステップS505において、現在のすべての隣接した領域のいずれもステップS503での判断においてマージ条件を満たしていないか否かを判断する。判断結果が否定の場合に、すなわち、新たにマージした少なくとも一つの領域がある場合に、ステップS501に戻る。判断結果が肯定の場合、現在のすべての隣接した領域のいずれもマージすることができず、すなわち、すべての候補筆画領域を既に抽出していることを意味する。 In step S505, it is determined whether or not all of the current adjacent areas satisfy the merge condition in the determination in step S503. If the determination result is negative, that is, if there is at least one newly merged area, the process returns to step S501. If the determination result is affirmative, it means that none of the current adjacent areas can be merged, that is, all candidate stroke areas have already been extracted.
以下に、上記ステップS501−S503を実現する例示的な式3、4を表す。 Hereinafter, exemplary expressions 3 and 4 for realizing the above steps S501 to S503 are shown.
以下に、図6を参照して図2のステップS203を詳細に説明する。 Hereinafter, step S203 of FIG. 2 will be described in detail with reference to FIG.
図6は、図2のステップS203の詳細を示すフローチャートである。 FIG. 6 is a flowchart showing details of step S203 in FIG.
上述のように、ステップS202で複数の候補筆画領域が取得されている。以下、ステップS203において、背景から誤って抽出した候補筆画領域をフィルタリングし、除去して真の筆画領域を特定する。 As described above, a plurality of candidate stroke areas are acquired in step S202. Thereafter, in step S203, the candidate stroke area erroneously extracted from the background is filtered and removed to identify the true stroke area.
ステップS202において、条件付き確率場CRFモデルを採用し、同時に、個別の筆画特徴と隣接した筆画との関係を考慮して、候補筆画領域が真の筆画領域であるか否かを正確に特定する。 In step S202, the conditional random field CRF model is adopted, and at the same time, the relationship between the individual stroke characteristics and the adjacent strokes is considered, and whether or not the candidate stroke area is a true stroke area is specified accurately. .
まず、ステップS601において、候補筆画領域のうち、互いに相関する候補筆画領域を特定する。具体的には、候補筆画領域のサイズ情報及び候補筆画領域の間の距離に基づいて、上記候補筆画領域が相関するか否かを判断する。一つの候補筆画領域が一つの連通領域であり、連通領域の外切矩形の幅及び高さを当該候補筆画領域の幅w及び高さhとし、二つの候補筆画領域i及びjの質量中心間の距離をdist(ri,rj)とし、min[]が最小値をとることを表し、以下の式5により、二つの候補筆画領域が相関するか否かを判断する。 First, in step S601, candidate stroke areas that correlate with each other are specified from the candidate stroke areas. Specifically, based on the size information of the candidate stroke area and the distance between the candidate stroke areas, it is determined whether or not the candidate stroke areas are correlated. One candidate stroke area is one communication area, and the width and height of the outer cut rectangle of the communication area are the width w and height h of the candidate stroke area, and between the center of mass of the two candidate stroke areas i and j Is represented by dist (r i , r j ), and min [] represents the minimum value, and it is determined whether or not two candidate stroke areas are correlated according to the following equation (5).
ステップS602において、次の式6に従って真の筆画領域を特定する。 In step S602, a true stroke area is specified according to the following equation 6.
上記の式において、E(xi,xj,yi,yj,λbi)の代わりにE(xij,yi,yj,λbi)を使用可能であり、xijは、候補筆画領域i及びjにおける各画素の周りにテキスト領域の存在する確信度の平均値の差の絶対値をとることができる。xijは、候補筆画領域iとjの質量中心の距離をとることもでき、領域間の関係をよりよく反映できるようになっている。E(xi,yi,λuni)
は、単一の候補筆画領域が真の筆画領域であるか否かについての確信度であり(呈する値がyiの場合によるものである)、E(xi,xj,yi,yj,λbi)は、呈する値がyi,yjの場合の確信度を示し、
In the above equation, E (x ij , y i , y j , λ bi ) can be used instead of E (x i , x j , y i , y j , λ bi ), and x ij is a candidate The absolute value of the difference between the average values of the certainty factors in which the text area exists around each pixel in the stroke areas i and j can be taken. x ij can also take the distance between the center of mass of the candidate stroke areas i and j, and can better reflect the relationship between the areas. E (x i , y i , λ uni )
Is the certainty as to whether or not the single candidate stroke area is a true stroke area (this is due to the case where the value presented is y i ), and E (x i , x j , y i , y j , λ bi ) indicates the certainty factor when the values to be presented are y i , y j ,
各候補筆画領域iに対して、i、及びiに対する全てのjが真の筆画領域であるか否かを仮定する、すなわち、yi、yjの値を仮定する。全ての値取りの可能性及び相応する特徴(すなわち、xi、xj及び/又はxij)が訓練済みの分類器に入力され、分類器からE(xi,yi,λuni)の代わりにE(xi,xj,yi,yj,λbi)の値が返され、E(X,Y,G,Λ)が算出される。E(X,Y,G,Λ)を最大値にすると、対応するyi、yjの値取り結果が真の筆画領域の特定結果とされる。 For each candidate stroke area i, it is assumed whether i and all j for i are true stroke areas, ie, the values of y i , y j are assumed. All pricing possibilities and corresponding features (ie, x i , x j and / or x ij ) are input into the trained classifier and from the classifier E (x i , y i , λ uni ) Instead, the value of E (x i , x j , y i , y j , λ bi ) is returned, and E (X, Y, G, Λ) is calculated. When E (X, Y, G, Λ) is maximized, the corresponding value of y i and y j is taken as the result of specifying the true stroke area.
すなわち、ステップS602において、入力画像におけるすべての候補筆画領域それぞれが真の筆画領域であるか否かに関する多種の仮定の組合せを生成する。各種の仮定の組合せそれぞれに対して、上記仮定の組合せ及び各候補筆画領域における画素の特徴に基づいて各候補筆画領域の第1の確信度を算出し、上記仮定の組合せ及び互いに相関する候補筆画領域における画素の特徴に基づいて、第1の確信度と対応する第2の確信度を算出する。次に、上記第1の確信度及び第2の確信度に基づいて、当該仮定の組合せの場合を表す確信度を算出する。当該仮定の組合せの場合を表す確信度が最も高い場合に対応する仮定の組合せを、真の筆画領域の特定結果とする。なお、上記互いに相関する候補筆画領域は同一のテキスト行に属する場合に、上記仮定の組合せの場合を表す確信度の算出において、それに対応する第2の確信度に、比較的に大きい重み係数を付与する。 That is, in step S602, various assumption combinations regarding whether or not all candidate stroke areas in the input image are true stroke areas are generated. For each combination of various assumptions, the first certainty factor of each candidate stroke area is calculated based on the combination of the above assumptions and the pixel characteristics in each candidate stroke area, and the candidate strokes correlated with each other. Based on the characteristics of the pixels in the region, a second certainty factor corresponding to the first certainty factor is calculated. Next, based on the first certainty factor and the second certainty factor, a certainty factor representing the case of the assumed combination is calculated. A hypothetical combination corresponding to the case where the certainty level representing the hypothetical combination is the highest is taken as the result of specifying the true stroke area. In addition, when the candidate stroke areas correlated with each other belong to the same text line, a relatively large weighting factor is applied to the corresponding second certainty factor in the calculation of the certainty factor representing the case of the assumed combination. Give.
以上で、ステップS203において、真の筆画領域を取得している。以下、ステップS204では、真の筆画領域をマージして、テキスト領域を形成する。 In step S203, the true stroke area is acquired. In step S204, the true stroke area is merged to form a text area.
以下、図7A−7B、8A−8Cを参照しながら、図2のステップS204を説明する。 Hereinafter, step S204 of FIG. 2 will be described with reference to FIGS. 7A-7B and 8A-8C.
図7Aは、図2のステップS204の詳細を示すフローチャートである。図8Aは全ての真の筆画領域を接続するチェーン構造の模式図である。図8Bは行分け後のチェーン構造の模式図である。図8Cは字分け後のチェーン構造の模式図である。 FIG. 7A is a flowchart showing details of step S204 in FIG. FIG. 8A is a schematic diagram of a chain structure that connects all true stroke areas. FIG. 8B is a schematic diagram of the chain structure after line separation. FIG. 8C is a schematic view of the chain structure after character division.
ステップS203において、真の筆画領域は既に特定されている。ステップS204において、これらの筆画領域をマージして、テキスト領域を形成する。 In step S203, the true stroke area has already been specified. In step S204, these stroke areas are merged to form a text area.
まず、ステップS701において、筆画領域間の距離に基づいて筆画領域間の接続関係を特定する。筆画領域間の距離は、筆画領域の質量中心間のユークリッド距離によって表すことができる。図8Aに示すように、筆画領域間の距離に基づいて、最小全域木アルゴリズムを採用して全ての筆画領域をチェーン構造に従って接続することができる。最小全域木アルゴリズムは本技術分野において既知のアルゴリズムであるので、ここでは説明しないものとする。 First, in step S701, the connection relation between the stroke areas is specified based on the distance between the stroke areas. The distance between the stroke areas can be represented by the Euclidean distance between the centers of mass of the stroke areas. As shown in FIG. 8A, based on the distance between the stroke areas, a minimum spanning tree algorithm can be employed to connect all stroke areas according to a chain structure. Since the minimum spanning tree algorithm is a known algorithm in this technical field, it will not be described here.
図8Aにおいて、筆画領域間の距離のみを基づいて筆画領域間の関係を判断する場合に、同一行における異なる字に属する筆画領域や、異なる行に属する筆画領域は、距離が近いために接続される可能性があるということは明らかである。したがって、後述のステップS702、S703において、このような誤接続を取り除くことに着目する。 In FIG. 8A, when the relationship between the stroke areas is determined based only on the distance between the stroke areas, the stroke areas belonging to different characters in the same line and the stroke areas belonging to different lines are connected because the distance is short. It is clear that there is a possibility. Therefore, attention is paid to removing such erroneous connection in steps S702 and S703 described later.
ステップS702において、異なるテキスト行に属する筆画領域間の接続関係を取り除く。図7Bは図7AのステップS702の詳細のフローチャートを示す。 In step S702, the connection relationship between the stroke areas belonging to different text lines is removed. FIG. 7B shows a detailed flowchart of step S702 in FIG. 7A.
ステップS7021において、チェーン構造において一本の接続辺によって接続された二つの筆画領域間のユークリッド距離が閾値thedより大きいか否かを判断する。判断結果が否定の場合に、直接、ステップS7023に進む。判断結果が肯定の場合に、当該接続辺を切断し(ステップS7022)、ステップS7023に進む。 In step S7021, it is determined whether or not the Euclidean distance between the two stroke regions connected by one connection side in the chain structure is greater than the threshold value th ed . If the determination result is negative, the process directly proceeds to step S7023. If the determination result is affirmative, the connection side is disconnected (step S7022), and the process proceeds to step S7023.
上記状況に類似させ、距離のみの場合には、まだ誤接続が残されるおそれがある。したがって、ステップS7023−S7025において、更に検出して誤接続を切断する。 Similar to the above situation, if there is only a distance, there is still a possibility that an erroneous connection is left. Accordingly, in steps S7023 to S7025, the erroneous connection is further detected and disconnected.
ステップS7021及びS7022を行うと、本来の最小全域木アルゴリズムによって生成された一つのチェーン構造は、既に複数のチェーン構造に分割された可能性がある。各チェーン構造に対して、後述のステップS7023−S7025を実行する。 When steps S7021 and S7022 are performed, there is a possibility that one chain structure generated by the original minimum spanning tree algorithm has already been divided into a plurality of chain structures. Steps S7023 to S7025 described later are executed for each chain structure.
ステップS7023において、同一のチェーン構造に属する筆画領域を一本の中心線lにフィットする。例えば、最小二乗法を利用して、同一のチェーン構造に属する筆画領域の質量中心を一本の中心線lにフィットする。 In step S7023, the stroke areas belonging to the same chain structure are fitted to one center line l. For example, the center of mass of the stroke regions belonging to the same chain structure is fitted to one center line l using the least square method.
当該チェーン構造に属する各筆画領域から当該中心線lまでの距離が予め設けられた閾値thleより大きいか否かを判断する(ステップS7024)。 It is determined whether or not the distance from each stroke area belonging to the chain structure to the center line l is greater than a predetermined threshold th le (step S7024).
判断結果が肯定の場合、中心線lの両側それぞれに少なくとも一つのテキスト行があることを表す。したがって、当該チェーン構造における,当該中心線1を跨る接続辺を切断する。(ステップS7025)
ステップS7025により、一つのチェーン構造は二つの新しいチェーン構造になるので、再びS7023に戻し、判断を続ける。
If the determination result is affirmative, it indicates that there is at least one text line on each side of the center line l. Therefore, the connection side straddling the center line 1 in the chain structure is cut. (Step S7025)
In step S7025, one chain structure becomes two new chain structures, so the process returns to S7023 again to continue the determination.
ステップS7024の判断結果が否定の場合、現在のチェーン構造において、一つのテキスト行しかないことを表す。したがって、テキスト行間の接続辺がなくなり、ステップS702が終了し、ステップS703に進み、同一のテキスト行に属する各字間の誤接続を切断する。ステップS702の処理結果は、図8Bに示される。 If the determination result in step S7024 is negative, it indicates that there is only one text line in the current chain structure. Therefore, there is no connection side between the text lines, and step S702 is completed, and the process proceeds to step S703, where the erroneous connection between the characters belonging to the same text line is disconnected. The processing result of step S702 is shown in FIG. 8B.
ステップS703において、ステップS702により得られたチェーン構造それぞれは一つのテキスト行を表す。各チェーン構造においては、複数の筆画領域が存在し、筆画領域は接続辺によって接続されている。接続されている各筆画領域間の枠距離bd及びテキスト行全体(即ち、チェーン構造)の平均枠距離a_bdを算出する。接続辺によって接続される二つの筆画領域の枠距離とは、この二つの筆画領域の外接矩形の隣接した辺間の距離を指す。接続辺によって接続される二つの筆画領域の枠距離bdがテキスト全体の平均枠距離a_bdよりもはるかに大きい場合(例えば、bd>a_bd*ξ、ξは経験で予め設けられた定数である)は、この二つの筆画領域が異なる字に属すべきであることを表し、これらの接続辺を切断する。すなわち、ステップS703では、異なる字に属する筆画領域間の接続関係を取り除く。ステップS703の処理結果は、図8Cに示す。 In step S703, each chain structure obtained in step S702 represents one text line. In each chain structure, there are a plurality of stroke areas, and the stroke areas are connected by connecting edges. The frame distance bd between the connected stroke areas and the average frame distance a_bd of the entire text line (that is, the chain structure) are calculated. The frame distance between two stroke areas connected by a connecting edge refers to the distance between adjacent edges of a circumscribed rectangle of the two stroke areas. When the frame distance bd between the two stroke areas connected by the connecting edge is much larger than the average frame distance a_bd of the entire text (for example, bd> a_bd * ξ, ξ is a constant set in advance by experience). Represents that these two stroke areas should belong to different characters, and cuts their connecting edges. That is, in step S703, the connection relationship between the stroke areas belonging to different characters is removed. The processing result of step S703 is shown in FIG. 8C.
以上において、複数のチェーン構造を取得している。チェーン構造それぞれが一つの字を表し、各チェーン構造において、接続辺によって接続された複数の筆画領域を含む。チェーン構造毎の外接矩形を当該チェーン構造の対応する字のテキスト領域とすることができる。図9は本発明による一実施例とする画像におけるテキスト領域の位置決め方法の処理結果を示す模式図である。 In the above, a plurality of chain structures have been acquired. Each chain structure represents one character, and each chain structure includes a plurality of stroke areas connected by connecting edges. A circumscribed rectangle for each chain structure can be used as a text area of a corresponding character of the chain structure. FIG. 9 is a schematic diagram showing a processing result of a text region positioning method in an image according to an embodiment of the present invention.
以下、図10を参照して、本発明の一実施例による画像におけるテキスト領域を位置決めする装置の構造を説明する。図10は、本発明の一実施例による画像におけるテキスト領域を位置決めする装置の構造を示すブロック図である。図10に示すように、当該実施例による画像におけるテキスト領域を位置決めする装置100は、入力画像における各画素の周りに存在可能なテキストの大きさを推定するための推定ユニット101と、上記テキストの大きさ及び領域の差異度に基づいて、上記入力画像から候補筆画領域を抽出するための抽出ユニット102と、上記候補筆画領域から、真の筆画領域を特定するための特定ユニット103と、テキスト領域を形成するように上記真の筆画領域をマージするためのマージ・ユニット104とを含む。 Hereinafter, the structure of an apparatus for positioning a text area in an image according to an embodiment of the present invention will be described with reference to FIG. FIG. 10 is a block diagram illustrating a structure of an apparatus for positioning a text area in an image according to an embodiment of the present invention. As shown in FIG. 10, an apparatus 100 for positioning a text region in an image according to this embodiment includes an estimation unit 101 for estimating the size of text that can exist around each pixel in an input image, An extraction unit 102 for extracting a candidate stroke area from the input image based on the size and degree of difference between the areas, a specification unit 103 for specifying a true stroke area from the candidate stroke area, and a text area And a merge unit 104 for merging the true stroke areas so as to form
上記推定ユニット101は、上記入力画像に基づいて複数階層のピラミッド画像を生成するための画像ピラミッド生成ユニット1011と、各階層のピラミッド画像における各画素の周りにテキストの存在する確率を推定するための推定サブユニット1012と、上記確率及びピラミッド階層に対応するテキストの大きさに基づいて、上記入力画像における各画素の周りに存在可能なテキストの大きさを算出するための算出ユニット1013とを含む。 The estimation unit 101 estimates an image pyramid generation unit 1011 for generating a pyramid image of a plurality of layers based on the input image, and a probability that text exists around each pixel in the pyramid image of each layer. An estimation subunit 1012 and a calculation unit 1013 for calculating the size of text that can exist around each pixel in the input image based on the probability and the size of the text corresponding to the pyramid hierarchy are included.
上記抽出ユニット102は、上記入力画像における隣接した領域に対して領域間の差異度及び領域内の差異度を算出するための差異度算出ユニット1021と、推定された入力画像における各画素の周りに存在可能なテキストの大きさに基づいて領域の周りに存在可能なテキストの大きさを推定し、推定された領域の周りに存在可能なテキストの大きさに基づいて各領域内の差異度を調整するための調整ユニット1022と、隣接した領域の領域間の差異度及び上記隣接した領域の調整後の領域内の差異度に基づいて上記隣接した領域をマージするための隣接領域マージ・ユニット1023とを含む。 The extraction unit 102 includes a difference degree calculation unit 1021 for calculating a difference degree between regions and a difference degree within the region with respect to adjacent regions in the input image, and around each pixel in the estimated input image. Estimate the size of text that can exist around the area based on the size of text that can exist, and adjust the degree of difference within each area based on the size of text that can exist around the estimated area An adjustment unit 1022 for merging, and an adjacent region merging unit 1023 for merging the adjacent regions based on the difference between the adjacent regions and the difference in the adjusted region of the adjacent regions including.
上記特定ユニット103は、候補筆画領域のうち互いに相関する候補筆画領域を特定するための相関特定ユニット1031と、入力画像におけるすべての候補筆画領域それぞれが真の筆画領域であるか否かに関する多種の仮定組合せを生成するための仮定組合せユニット1032と、仮定組合せ毎に、上記仮定組合せ及び各候補筆画領域における画素の特徴に基づいて、各候補筆画領域の第1の確信度を算出し、上記仮定組合せ及び互いに相関する候補筆画領域における特徴に基づいて、第1の確信度に対応する第2の確信度を算出し、その後、上記第1の確信度と上記第2の確信度に基づいて、当該仮定組合せの場合を表す確信度を算出するための確信度算出ユニット1033と、当該仮定組合せの場合を表す確信度の最も高い場合に対応する仮定組合せを真の筆画領域の特定結果とするための特定サブユニット1034とを含む。なお、上記互いに相関する候補筆画領域が同一のテキスト行に属する場合に、当該仮定組合せの場合を表す確信度の算出において、その対応する第2の確信度に比較的に大きい重み係数を付与する。なお、上記相関特定ユニットは、候補筆画領域のサイズ情報及び候補筆画領域間の距離に基づいて、上記候補筆画領域が相関するか否かを判断する。なお、上記確信度算出ユニットは、特徴空間において候補筆画領域をフィットし、同一のフィッティング曲線に属する候補筆画領域を同一のテキスト行に属すると特定し、回帰誤差に基づいて確信度の算出における重み係数を算出する。 The specifying unit 103 includes a correlation specifying unit 1031 for specifying candidate stroke areas correlated with each other among the candidate stroke areas, and various types relating to whether each candidate stroke area in the input image is a true stroke area. An assumption combination unit 1032 for generating an assumption combination, and for each assumption combination, a first certainty factor of each candidate stroke area is calculated based on the assumption combination and the pixel characteristics in each candidate stroke area, and the assumption is calculated. Based on the combination and the features in the candidate stroke areas that are correlated with each other, a second certainty factor corresponding to the first certainty factor is calculated, and then, based on the first certainty factor and the second certainty factor, Corresponding to the certainty calculation unit 1033 for calculating the certainty factor representing the case of the assumed combination and the highest certainty factor representing the case of the assumed combination Assumptions combination that includes a specific subunit 1034 for a particular result of the true stroke region. When the candidate stroke areas correlated with each other belong to the same text line, a relatively large weighting factor is given to the corresponding second certainty factor in calculating the certainty factor representing the assumption combination. . The correlation specifying unit determines whether or not the candidate stroke areas correlate based on the size information of the candidate stroke areas and the distance between the candidate stroke areas. The certainty factor calculation unit fits candidate stroke regions in the feature space, identifies candidate stroke regions belonging to the same fitting curve as belonging to the same text line, and weights in calculating the certainty factor based on the regression error Calculate the coefficient.
上記マージ・ユニット104は、筆画領域間の距離に基づいて筆画領域間の接続関係を特定するための接続ユニット1041と、異なるテキスト行に属する筆画領域間の接続関係を取り除くための行分けユニット1042と、異なる字に属する筆画領域間の接続関係を取り除くための字分けユニット1043とを含む。 The merge unit 104 includes a connection unit 1041 for specifying the connection relationship between the stroke areas based on the distance between the stroke areas, and a line dividing unit 1042 for removing the connection relationship between the stroke areas belonging to different text lines. And a character division unit 1043 for removing the connection relationship between the stroke areas belonging to different characters.
本発明による画像におけるテキスト領域の位置決め装置100に含まれた推定ユニット101、抽出ユニット102、特定ユニット103、マージ・ユニット104での処理はそれぞれ上述した画像におけるテキスト領域の位置決め方法のステップS201−S204での処理と類似しており、話を簡潔にするために、これらのユニットに対する詳細説明を省略する。 The processes in the estimation unit 101, the extraction unit 102, the specifying unit 103, and the merge unit 104 included in the text region positioning apparatus 100 in the image according to the present invention are steps S201 to S204 of the text region positioning method in the image described above, respectively. For the sake of brevity, a detailed description of these units is omitted.
同様に、推定ユニット101に含まれた画像ピラミッド生成ユニット1011、推定サブユニット1012、算出ユニット1013での処理はそれぞれ、上述したステップS401−S403での処理と類似し、抽出ユニット102に含まれた差異度算出ユニット1021、調整ユニット1022、隣接領域マージ・ユニット1023での処理はそれぞれ、上述したステップS501−S505での処理と類似し、特定ユニット103に含まれた相関特定ユニット1031、仮定組合せユニット1032、確信度算出ユニット1033、特定サブユニット1034での処理はそれぞれ、上述したステップS601−S602での処理と類似し、マージ・ユニット104に含まれた接続ユニット1041、行分けユニット1042、字分けユニット1043での処理はそれぞれ上述したステップS701−S703での処理と類似しており、話を簡潔にするために、これらのユニットに対する詳細説明を省略する。 Similarly, the processes in the image pyramid generation unit 1011, the estimation subunit 1012, and the calculation unit 1013 included in the estimation unit 101 are similar to the processes in steps S 401 to S 403 described above, and are included in the extraction unit 102. The processing in the difference calculation unit 1021, the adjustment unit 1022, and the adjacent region merging unit 1023 is similar to the processing in steps S501 to S505 described above, and the correlation specifying unit 1031 and the hypothetical combination unit included in the specific unit 103, respectively. 1032, the certainty calculation unit 1033, and the processing in the specific subunit 1034 are similar to the processing in steps S 601 to S 602 described above, respectively, and the connection unit 1041, line segmentation unit 1042, and character segmentation included in the merge unit 104. Uni Preparative process in 1043 is similar to the processing in step S701-S703 described above, respectively, for the sake of brevity, a detailed description thereof will be omitted for these units.
また、ここで指摘すべきことは、上記装置中の各構成モジュール、ユニットは、ソフトウェア、ファームウェア、ハードウェア又はそれらの組合せによって構成されてよい。構成に使用可能な具体的な手段又は方式は、当業者に既に知られているものであるため、ここでは説明しない。ソフトウェア又はファームウェアにより実現される場合、記憶媒体又はネットワークから専用ハードウェア構造を有するコンピュータ(例えば、図11に示された汎用コンピュータ1100)に、当該ソフトウェアを構成するプログラムをインストールする。当該コンピュータは、各種のプログラムがインストールされると、各種機能の実行等が可能である。
Further, it should be pointed out that each component module and unit in the apparatus may be configured by software, firmware, hardware, or a combination thereof. Specific means or schemes that can be used in the construction are already known to those skilled in the art and will not be described here. When realized by software or firmware, a program constituting the software is installed from a storage medium or a network to a computer having a dedicated hardware structure (for example, the general-
図11は、本発明の実施例による方法及び装置を実施するためのコンピュータを模式的に示すブロック図である。 FIG. 11 is a block diagram schematically illustrating a computer for implementing the method and apparatus according to the embodiments of the present invention.
図11において、中央処理ユニット(CPU)1101は、リードオンリーメモリ(ROM)1102に記憶されたプログラム、又は記憶部1108からランダムアクセスメモリ(RAM)1103にロードされたプログラムに基づいて、各種の処理を実行する。RAM1103において、必要に応じ、CPU1101が各種の処理等を実行する場合に必要とされるデータも記憶される。CPU1101、ROM1102及びRAM1103は、バス1104を経由して互いに接続される。入力/出力インターフェース1105もバス1104に接続される。
In FIG. 11, a central processing unit (CPU) 1101 performs various processes based on a program stored in a read-only memory (ROM) 1102 or a program loaded from a
入力部1106(キーボード、マウス等を含む)と、出力部1107(例えば、陰極線管(CRT)、液晶ディスプレイ(LCD)等のようなディスプレイ及びスピーカ等を含む)と、記憶部1108(ハードディスク等を含む)と、通信部1109(LANカードのようなネットワークインターフェースカード、モデム等を含む)は、入力/出力インターフェース1105に接続される。通信部1109はネットワーク(例えば、インターネット)を経由して通信処理を実行する。必要に応じ、ドライバ1110は入力/出力インターフェース1105に接続されてもよい。取り外し可能な媒体1111、例えば磁気ディスク、光ディスク、光磁気ディスク、半導体メモリ等が必要に応じてドライバ1110に取り付けられ、これによりその中から読み出されたコンピュータプログラムが必要に応じて記憶部1108にインストールされる。
An input unit 1106 (including a keyboard, a mouse, etc.), an output unit 1107 (for example, a display such as a cathode ray tube (CRT), a liquid crystal display (LCD), a speaker, etc.), and a storage unit 1108 (a hard disk, etc. And a communication unit 1109 (including a network interface card such as a LAN card, a modem, etc.) are connected to the input /
ソフトウェアにより、上述の一連の処理を実現する場合は、ネットワーク、例えばインターネット、又は記憶媒体、例えば取り外し可能な媒体1111からソフトウェアを構成するプログラムをインストールする。
When the above-described series of processing is realized by software, a program constituting the software is installed from a network, for example, the Internet, or a storage medium, for example, a
このような記憶媒体は、図11に示された、その中にプログラムが記憶されており、デバイスから離れて配送されてユーザにプログラムを提供する取り外し可能な媒体1111に限定されないことを、当業者は理解すべきである。取り外し可能な媒体1111としては、例えば、磁気ディスク(フロッピー(登録商標)・ディスク含む)、光ディスク(コンパクトディスク・リードオンリーメモリ(CD−ROM)やディジタル多用途ディスク(DVD)を含む)、光磁気ディスク(ミニディスク(MD)(登録商標)含む)及び半導体メモリがある。又は、記憶媒体は、ROM1102、記憶部1108に含まれるハードディスクであって、プログラムが記憶されており、且つそれらを含むデバイスとともにユーザに配布されるハードディスクなどであってもよい。
Those skilled in the art will recognize that such storage media is not limited to the
本発明は、コンピュータで読み取り可能な命令コードが記憶されたプログラムを提供する。上記命令コードは、コンピュータで読取られて実行されると、上記本発明の実施例による方法を実行することができる。 The present invention provides a program storing computer-readable instruction codes. When the instruction code is read and executed by a computer, the method according to the embodiment of the present invention can be executed.
同様に、上述のコンピュータで読み取り可能な命令コードが記憶されたプログラム製品を搭載する記憶媒体も本発明の開示に含まれる。上記記憶媒体は、フロッピー(登録商標)ディスク、光ディスク、磁気光ディスク、メモリカード、メモリースティック等を含むが、それらに限定されない。 Similarly, a storage medium on which a program product in which the above-described computer-readable instruction code is stored is also included in the disclosure of the present invention. Examples of the storage medium include, but are not limited to, a floppy (registered trademark) disk, an optical disk, a magnetic optical disk, a memory card, a memory stick, and the like.
以上の本発明の具体的な実施例に対する記述において、一種の実施形態に対して記述し及び/又は示した特徴は、同一又は類似の形態で一つ又は複数の他の実施形態で使用されたり、他の実施形態における特徴と組合せたり、あるいは、他の実施形態における特徴の代替としたりすることができる。 In the foregoing description of specific embodiments of the invention, the features described and / or illustrated for one type of embodiment may be used in one or more other embodiments in the same or similar form. , Can be combined with features in other embodiments, or can be substituted for features in other embodiments.
強調すべきことは、専門用語「含む/有する」が、本文で使用される場合、特徴、要素、ステップ又は構成部分の存在を意味するが、一つ又は複数の他の特徴、要素、ステップ又は構成部分の存在又は付加を排除する訳でないという点である。 It should be emphasized that the term “comprising / having” as used herein means the presence of a feature, element, step or component, but one or more other features, elements, steps or It does not exclude the presence or addition of a component.
また、本発明の方法は、明細書に記述された時系列に従って実行されることに限られず、他の時系列に従って順次、並行に、又は個別に実行されてもよい。したがって、本明細書で記述された方法の実行順序は本発明の技術的範囲を制限するものでない。 The method of the present invention is not limited to being executed according to the time series described in the specification, and may be executed sequentially, in parallel, or individually according to other time series. Therefore, the order of execution of the methods described herein does not limit the technical scope of the present invention.
以上で、本発明の具体的な実施形態を説明したが、上述の全ての実施形態及び実施例は例示的なものであり、限定的なものではないことを理解すべきである。当業者は、本願の特許請求の範囲の趣旨及び範囲内において本発明に対する各種の修正、改良又は均等物を企図することができる。これらの修正、改良又は均等物も本発明の保護範囲内に含まれると考えられる。
(付記1)
画像におけるテキスト領域を位置決めする方法であって、
入力画像における各画素の周りに存在可能なテキストの大きさを推定するステップと、
前記テキストの大きさ及び領域差異度に基づいて、前記入力画像から候補筆画領域を抽出するステップと、
前記候補筆画領域から真の筆画領域を特定するステップと、
前記真の筆画領域をマージしてテキスト領域を形成するステップと
を含む方法。
(付記2)
前記入力画像における各画素の周りに存在可能なテキストの大きさを推定するステップは、
前記入力画像に基づいて複数の階層のピラミッド画像を生成するステップと、
各階層のピラミッド画像における各画素の周りにテキストの存在する確率を推定するステップと、
前記確率及びピラミッドの階層に対応するテキストの大きさに基づいて前記入力画像における各画素の周りに存在可能なテキストの大きさを算出するステップと
を更に含む、付記1に記載の方法。
(付記3)
前記候補筆画領域を抽出するステップは、
前記入力画像における隣接した領域に対して、領域間の差異度と領域内の差異度を算出するステップと、
推定された入力画像における各画素の周りに存在可能なテキストの大きさに基づいて、領域の周りに存在可能なテキストの大きさを推定し、推定された領域の周りに存在可能なテキストの大きさに基づいて各領域内の差異度を調整するステップと、
隣接した領域の領域間の差異度及び隣接した領域の調整後の領域内の差異度に基づいて、前記隣接した領域をマージすべきか否かを判断するステップと、
前記隣接した領域をマージすべきと判断された場合に、前記隣接した領域をマージし、上述したステップを繰り返すステップと
を更に含み、
現在のすべての隣接した領域をいずれもマージすべきではないと判断された場合は、候補筆画領域を抽出したことを意味する、付記1に記載の方法。
(付記4)
隣接した領域の領域間の差異度が、隣接した領域の調整後の領域内の差異度の最小値よりも小さい場合に、前記隣接した領域をマージする、付記3に記載の方法。
(付記5)
前記の抽出ステップを開始する際の隣接した領域は、隣接した画素であり、前記領域の差異度は色差を含む、付記3又は4に記載の方法。
(付記6)
前記真の筆画領域を特定するステップは、
候補筆画領域のうち互いに相関する候補筆画領域を特定するステップと、
入力画像におけるすべての候補筆画領域のそれぞれが真の筆画領域であるか否かについての多種の仮定組合せを生成するステップと、
各種の仮定組合せに対して、前記仮定組合せ及び各候補筆画領域における画素の特徴に基づいて、各候補筆画領域の第1の確信度を算出し、前記仮定組合せ及び互いに相関する候補筆画領域における画素の特徴に基づいて、第1の確信度に対応する第2の確信度を算出し、その後、前記第1の確信度及び前記第2の確信度に基づいて、当該仮定組合せの場合を表す確信度を算出するステップと、
当該仮定組合せの場合を表す確信度の最も高い場合に対応した仮定組合せを、真の筆画領域を特定する結果とするステップと、
前記互いに相関する候補筆画領域が同一のテキスト行に属した場合に、当該仮定組合せの場合を表す確信度の算出において、その対応する第2の確信度に大きい重み係数を付加するステップと
を更に含む、付記1に記載の方法。
(付記7)
候補筆画領域のサイズ情報及び候補筆画領域間の距離に基づいて、前記候補筆画領域が相関するか否かを判断するステップを更に含む、付記6に記載の方法。
(付記8)
特徴空間において候補筆画領域をフィットし、同一のフィッティング曲線に属する候補筆画領域を、同一のテキスト行に属すると特定するステップと、
回帰誤差に基づいて、前記当該仮定組合せの場合を表す確信度の算出における重み係数を算出するステップと
を更に含む、付記6又は7に記載の方法。
(付記9)
前記真の筆画領域をマージするステップは、
筆画領域間の距離に基づいて筆画領域間の接続関係を特定するステップと、
異なるテキスト行に属する筆画領域間の接続関係を取り除くステップと、
異なる字に属する筆画領域間の接続関係を取り除くステップと
を更に含む、付記1に記載の方法。
(付記10)
画像におけるテキスト領域を位置決めする装置であって、
入力画像における各画素の周りに存在可能なテキストの大きさを推定するための推定ユニットと、
前記テキストの大きさ及び領域の差異度に基づいて、前記入力画像から候補筆画領域を抽出するための抽出ユニットと、
前記候補筆画領域から真の筆画領域を特定するための特定ユニットと、
真の筆画単位をマージしてテキスト領域を形成するためのマージ・ユニットと
を含む装置。
(付記11)
前記推定ユニットは、
前記入力画像に基づいて複数の階層のピラミッド画像を生成するための画像ピラミッド生成ユニットと、
各階層のピラミッド画像における各画素の周りにテキストの存在する確率を推定するための推定サブユニットと、
前記確率及びピラミッド階層に対応するテキストの大きさに基づいて前記入力画像における各画素の周りに存在可能なテキストの大きさを算出するための算出ユニットと
を含む、付記10に記載の装置。
(付記12)
前記抽出ユニットは、
前記入力画像における隣接した領域に対して、領域間の差異度及び領域内の差異度を算出するための差異度算出ユニットと、
推定された入力画像における各画素の周りに存在可能なテキストの大きさに基づいて、領域の周りに存在可能なテキストの大きさを推定し、推定された領域の周りに存在可能なテキストの大きさに基づいて、各領域内の差異度を調整するための調整ユニットと、
隣接した領域の領域間の差異度及び前記隣接した領域の調整後の領域内の差異度に基づいて、前記隣接した領域をマージする隣接領域マージ・ユニットと
を含む、付記10に記載の装置。
(付記13)
前記特定ユニットは、
候補筆画領域のうち互いに相関する候補筆画領域を特定するための相関特定ユニットと、
入力画像におけるすべての候補筆画領域それぞれが真の筆画領域であるか否かについての多種の仮定組合せを生成するための仮定組合せユニットと、
各種の仮定組合せに対して、前記仮定組合せ及び各候補筆画領域における画素の特徴に基づいて、各候補筆画領域の第1の確信度を算出し、前記仮定組合せ及び互いに相関する候補筆画領域における画素の特徴に基づいて、第1の確信度に対応する第2の確信度を算出し、その後、前記第1の確信度及び前記第2の確信度に基づいて、当該仮定組合せにおける場合を表す確信度を算出するための確信度算出ユニットと、
当該仮定組合せにおける場合を表す確信度の最も高い場合に対応した仮定組合せを、真の筆画領域を特定する結果とする特定サブユニットと
を含み、
前記互いに相関する候補筆画領域が同一のテキスト行に属した場合に、当該仮定組合せにおける場合を表す確信度の算出において、その対応する第2の確信度に大きい重み係数を付加する、付記10に記載の装置。
(付記14)
前記相関特定ユニットは、候補筆画領域のサイズ情報及び候補筆画領域間の距離に基づいて、前記候補筆画領域が相関するか否かを判断する、付記13に記載の装置。
(付記15)
前記確信度算出ユニットは、
特徴空間において候補筆画領域をフィットし、同一のフィッティング曲線に属する候補筆画領域を、同一のテキスト行に属すると特定し、回帰誤差に基づいて、当該仮定組合せにおける場合を表す確信度の算出における重み係数を算出する、付記13又は14に記載の装置。
(付記16)
前記マージ・ユニットは、
筆画領域間の距離に基づいて筆画領域間の接続関係を特定するための接続ユニットと、
異なるテキスト行に属する筆画領域間の接続関係を取り除くための行分けユニットと、
異なる字に属する筆画領域間の接続関係を取り除くための字分けユニットと
を含む、付記10に記載の装置。
While specific embodiments of the invention have been described above, it should be understood that all of the above-described embodiments and examples are illustrative and not limiting. Those skilled in the art may contemplate various modifications, improvements, or equivalents to the present invention within the spirit and scope of the claims. These modifications, improvements or equivalents are considered to be within the protection scope of the present invention.
(Appendix 1)
A method for positioning a text area in an image comprising:
Estimating the size of text that can exist around each pixel in the input image;
Extracting a candidate stroke area from the input image based on the text size and the area difference; and
Identifying a true stroke area from the candidate stroke areas;
Merging the true stroke areas to form a text area.
(Appendix 2)
Estimating the size of text that can exist around each pixel in the input image comprises:
Generating a plurality of layers of pyramid images based on the input image;
Estimating the probability that text will exist around each pixel in the pyramid image of each hierarchy;
The method of claim 1, further comprising: calculating a size of text that can exist around each pixel in the input image based on the probability and the size of the text corresponding to a hierarchy of pyramids.
(Appendix 3)
The step of extracting the candidate stroke area includes:
Calculating a difference between regions and a difference within the region for adjacent regions in the input image; and
Estimate the size of text that can exist around the area based on the size of text that can exist around each pixel in the estimated input image, and size of the text that can exist around the estimated area Adjusting the degree of difference within each region based on the depth;
Determining whether or not to merge the adjacent regions based on the difference between the regions of the adjacent regions and the difference in the adjusted region of the adjacent regions;
Merging the adjacent areas when it is determined that the adjacent areas should be merged, and repeating the steps described above.
The method according to appendix 1, which means that if it is determined that all current adjacent areas should not be merged, a candidate stroke area is extracted.
(Appendix 4)
The method according to claim 3, wherein the adjacent areas are merged when the difference between the adjacent areas is smaller than the minimum difference in the adjusted area of the adjacent areas.
(Appendix 5)
The method according to appendix 3 or 4, wherein the adjacent region when starting the extraction step is an adjacent pixel, and the degree of difference between the regions includes a color difference.
(Appendix 6)
The step of specifying the true stroke area includes:
Identifying candidate stroke areas that correlate with each other among the candidate stroke areas;
Generating various hypothetical combinations as to whether each of all candidate stroke areas in the input image is a true stroke area;
For each hypothetical combination, the first certainty factor of each candidate stroke area is calculated based on the hypothesis combination and the characteristics of the pixels in each candidate stroke area, and the hypothetical combination and the pixels in the candidate stroke area correlated with each other. A second certainty factor corresponding to the first certainty factor is calculated based on the characteristics of the first confidence factor, and thereafter, a certainty representing the case of the hypothetical combination based on the first certainty factor and the second certainty factor. Calculating the degree,
A step of setting a hypothetical combination corresponding to the highest certainty level representing the hypothetical combination as a result of specifying a true stroke area;
A step of adding a large weighting factor to the corresponding second certainty factor in calculating the certainty factor representing the case of the hypothetical combination when the candidate stroke areas correlated with each other belong to the same text line; The method according to appendix 1, comprising:
(Appendix 7)
The method according to claim 6, further comprising the step of determining whether or not the candidate stroke areas correlate based on the size information of the candidate stroke areas and the distance between the candidate stroke areas.
(Appendix 8)
Fitting candidate stroke areas in the feature space and identifying candidate stroke areas belonging to the same fitting curve as belonging to the same text line;
The method according to appendix 6 or 7, further comprising: calculating a weighting factor in calculating the certainty factor representing the case of the assumption combination based on a regression error.
(Appendix 9)
The step of merging the true stroke area includes:
Identifying a connection relationship between the stroke areas based on the distance between the stroke areas;
Removing a connection between stroke areas belonging to different text lines;
The method according to claim 1, further comprising the step of removing a connection relationship between stroke areas belonging to different characters.
(Appendix 10)
An apparatus for positioning a text area in an image,
An estimation unit for estimating the size of text that can exist around each pixel in the input image;
An extraction unit for extracting a candidate stroke area from the input image based on the size of the text and the difference between the areas;
A specific unit for specifying a true stroke area from the candidate stroke area;
A merge unit for merging true stroke units to form a text area.
(Appendix 11)
The estimation unit is:
An image pyramid generation unit for generating a plurality of layers of pyramid images based on the input image;
An estimation subunit for estimating the probability that text will exist around each pixel in the pyramid image of each hierarchy;
The apparatus according to claim 10, further comprising: a calculation unit for calculating the size of text that can exist around each pixel in the input image based on the probability and the size of text corresponding to the pyramid hierarchy.
(Appendix 12)
The extraction unit is
A difference degree calculation unit for calculating a difference degree between areas and a difference degree within the area with respect to adjacent areas in the input image;
Estimate the size of text that can exist around the area based on the size of text that can exist around each pixel in the estimated input image, and size of the text that can exist around the estimated area And an adjustment unit for adjusting the degree of difference in each area,
The apparatus according to claim 10, further comprising: an adjacent area merging unit that merges the adjacent areas based on a difference between the adjacent areas and a difference in the adjusted area of the adjacent areas.
(Appendix 13)
The specific unit is:
A correlation identification unit for identifying candidate stroke areas correlated with each other among the candidate stroke areas;
A hypothetical combination unit for generating various hypothetical combinations as to whether each of all candidate stroke areas in the input image is a true stroke area;
For each hypothetical combination, the first certainty factor of each candidate stroke area is calculated based on the hypothesis combination and the characteristics of the pixels in each candidate stroke area, and the hypothetical combination and the pixels in the candidate stroke area correlated with each other. A second certainty factor corresponding to the first certainty factor is calculated based on the characteristics of the first confidence factor, and thereafter, a certainty representing the case in the assumed combination based on the first certainty factor and the second certainty factor. A certainty calculation unit for calculating the degree,
A hypothetical combination corresponding to the highest certainty level representing the case in the hypothetical combination includes a specific subunit that results in identifying the true stroke area;
When the candidate stroke areas correlated with each other belong to the same text line, a large weighting factor is added to the corresponding second certainty factor in the calculation of the certainty factor representing the case of the assumed combination. The device described.
(Appendix 14)
The apparatus according to appendix 13, wherein the correlation specifying unit determines whether or not the candidate stroke areas correlate based on size information of the candidate stroke areas and a distance between the candidate stroke areas.
(Appendix 15)
The certainty factor calculation unit includes:
Weights in the calculation of certainty factors that fit the candidate stroke area in the feature space, identify candidate stroke areas belonging to the same fitting curve as belonging to the same text line, and represent the case in the hypothetical combination based on the regression error The apparatus according to appendix 13 or 14, which calculates a coefficient.
(Appendix 16)
The merge unit is
A connection unit for identifying the connection relationship between the stroke areas based on the distance between the stroke areas;
A line dividing unit for removing the connection relationship between the stroke areas belonging to different text lines;
The apparatus according to claim 10, further comprising: a character dividing unit for removing a connection relationship between the stroke areas belonging to different characters.
100 装置
101 推定ユニット
102 抽出ユニット
103 特定ユニット
104 マージ・ユニット
100 apparatus 101 estimation unit 102 extraction unit 103 specific unit 104 merge unit
Claims (10)
入力画像における各画素の周りに存在可能なテキストの大きさを推定するステップと、
前記テキストの大きさ及び領域差異度に基づいて、前記入力画像から候補筆画領域を抽出するステップと、
前記候補筆画領域から真の筆画領域を特定するステップと、
前記真の筆画領域をマージしてテキスト領域を形成するステップと
を含む方法。 A method for positioning a text area in an image comprising:
Estimating the size of text that can exist around each pixel in the input image;
Extracting a candidate stroke area from the input image based on the text size and the area difference; and
Identifying a true stroke area from the candidate stroke areas;
Merging the true stroke areas to form a text area.
前記入力画像に基づいて複数の階層のピラミッド画像を生成するステップと、
各階層のピラミッド画像における各画素の周りにテキストの存在する確率を推定するステップと、
前記確率及びピラミッドの階層に対応するテキストの大きさに基づいて前記入力画像における各画素の周りに存在可能なテキストの大きさを算出するステップと
を含む、請求項1に記載の方法。 Estimating the size of text that can exist around each pixel in the input image comprises:
Generating a plurality of layers of pyramid images based on the input image;
Estimating the probability that text will exist around each pixel in the pyramid image of each hierarchy;
Calculating the size of text that can exist around each pixel in the input image based on the probability and the size of text corresponding to a hierarchy of pyramids.
前記入力画像における隣接した領域に対して、領域間の差異度と領域内の差異度を算出するステップと、
推定された入力画像における各画素の周りに存在可能なテキストの大きさに基づいて、領域の周りに存在可能なテキストの大きさを推定し、推定された領域の周りに存在可能なテキストの大きさに基づいて各領域内の差異度を調整するステップと、
隣接した領域の領域間の差異度及び隣接した領域の調整後の領域内の差異度に基づいて、前記隣接した領域をマージすべきか否かを判断するステップと、
前記隣接した領域をマージすべきと判断された場合に、前記隣接した領域をマージし、上述したステップを繰り返すステップと
を含み、
現在のすべての隣接した領域をいずれもマージすべきではないと判断された場合は、候補筆画領域を抽出したことを意味する、請求項1に記載の方法。 The step of extracting the candidate stroke area includes:
Calculating a difference between regions and a difference within the region for adjacent regions in the input image; and
Estimate the size of text that can exist around the area based on the size of text that can exist around each pixel in the estimated input image, and size of the text that can exist around the estimated area Adjusting the degree of difference within each region based on the depth;
Determining whether or not to merge the adjacent regions based on the difference between the regions of the adjacent regions and the difference in the adjusted region of the adjacent regions;
Merging the adjacent regions when it is determined that the adjacent regions should be merged, and repeating the steps described above.
The method according to claim 1, wherein if it is determined that none of all current adjacent areas should be merged, the candidate stroke area is extracted.
候補筆画領域のうち互いに相関する候補筆画領域を特定するステップと、
入力画像におけるすべての候補筆画領域のそれぞれが真の筆画領域であるか否かについての多種の仮定組合せを生成するステップと、
各種の仮定組合せに対して、前記仮定組合せ及び各候補筆画領域における画素の特徴に基づいて、各候補筆画領域の第1の確信度を算出し、前記仮定組合せ及び互いに相関する候補筆画領域における画素の特徴に基づいて、第1の確信度に対応する第2の確信度を算出し、その後、前記第1の確信度及び前記第2の確信度に基づいて、当該仮定組合せの場合を表す確信度を算出するステップと、
当該仮定組合せの場合を表す確信度の最も高い場合に対応した仮定組合せを、真の筆画領域を特定する結果とするステップと、
前記互いに相関する候補筆画領域が同一のテキスト行に属した場合に、当該仮定組合せの場合を表す確信度の算出において、その対応する第2の確信度に大きい重み係数を付加するステップと
を含む、請求項1に記載の方法。 The step of specifying the true stroke area includes:
Identifying candidate stroke areas that correlate with each other among the candidate stroke areas;
Generating various hypothetical combinations as to whether each of all candidate stroke areas in the input image is a true stroke area;
For each hypothetical combination, the first certainty factor of each candidate stroke area is calculated based on the hypothesis combination and the characteristics of the pixels in each candidate stroke area, and the hypothetical combination and the pixels in the candidate stroke area correlated with each other. A second certainty factor corresponding to the first certainty factor is calculated based on the characteristics of the first confidence factor, and thereafter, a certainty representing the case of the hypothetical combination based on the first certainty factor and the second certainty factor. Calculating the degree,
A step of setting a hypothetical combination corresponding to the highest certainty level representing the hypothetical combination as a result of specifying a true stroke area;
Adding a large weighting factor to the corresponding second certainty factor in calculating the certainty factor representing the case of the hypothetical combination when the candidate stroke areas correlated with each other belong to the same text line. The method of claim 1.
回帰誤差に基づいて、当該仮定組合せの場合を表す確信度の算出における重み係数を算出するステップと
を更に含む、請求項6又は7に記載の方法。 Fitting candidate stroke areas in the feature space and identifying candidate stroke areas belonging to the same fitting curve as belonging to the same text line;
The method according to claim 6, further comprising a step of calculating a weighting factor in calculating the certainty factor representing the case of the assumed combination based on the regression error.
筆画領域間の距離に基づいて筆画領域間の接続関係を特定するステップと、
異なるテキスト行に属する筆画領域間の接続関係を取り除くステップと、
異なる字に属する筆画領域間の接続関係を取り除くステップと
を含む、請求項1に記載の方法。 The step of merging the true stroke area includes:
Identifying a connection relationship between the stroke areas based on the distance between the stroke areas;
Removing a connection between stroke areas belonging to different text lines;
Removing a connection relationship between stroke areas belonging to different characters.
入力画像における各画素の周りに存在可能なテキストの大きさを推定するための推定ユニットと、
前記テキストの大きさ及び領域の差異度に基づいて、前記入力画像から候補筆画領域を抽出するための抽出ユニットと、
前記候補筆画領域から真の筆画領域を特定するための特定ユニットと、
真の筆画単位をマージしてテキスト領域を形成するためのマージ・ユニットと
を含む装置。 An apparatus for positioning a text area in an image,
An estimation unit for estimating the size of text that can exist around each pixel in the input image;
An extraction unit for extracting a candidate stroke area from the input image based on the size of the text and the difference between the areas;
A specific unit for specifying a true stroke area from the candidate stroke area;
A merge unit for merging true stroke units to form a text area.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201110192175.3A CN102855478B (en) | 2011-06-30 | 2011-06-30 | Image Chinese version area positioning method and device |
CN201110192175.3 | 2011-06-30 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013016168A true JP2013016168A (en) | 2013-01-24 |
JP5939056B2 JP5939056B2 (en) | 2016-06-22 |
Family
ID=47402055
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012145538A Expired - Fee Related JP5939056B2 (en) | 2011-06-30 | 2012-06-28 | Method and apparatus for positioning a text region in an image |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP5939056B2 (en) |
CN (1) | CN102855478B (en) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105117706A (en) * | 2015-08-28 | 2015-12-02 | 小米科技有限责任公司 | Image processing method and apparatus and character recognition method and apparatus |
CN109670532A (en) * | 2018-11-23 | 2019-04-23 | 腾讯科技(深圳)有限公司 | Abnormality recognition method, the apparatus and system of organism organ-tissue image |
CN112419174A (en) * | 2020-11-04 | 2021-02-26 | 中国科学院自动化研究所 | Image character removing method, system and device based on gate cycle unit |
CN114663873A (en) * | 2022-03-29 | 2022-06-24 | Oppo广东移动通信有限公司 | Text region determination method and device, storage medium and electronic equipment |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106570500B (en) * | 2016-11-11 | 2018-01-23 | 北京三快在线科技有限公司 | The recognition methods of line of text and device, computing device |
CN108121988B (en) * | 2016-11-30 | 2021-09-24 | 富士通株式会社 | Information processing method and device and information detection method and device |
CN108717542B (en) * | 2018-04-23 | 2020-09-15 | 北京小米移动软件有限公司 | Method and device for recognizing character area and computer readable storage medium |
CN108921167A (en) * | 2018-06-22 | 2018-11-30 | 四川斐讯信息技术有限公司 | A kind of color image automatic cutting method and system |
CN109308476B (en) * | 2018-09-06 | 2019-08-27 | 邬国锐 | Billing information processing method, system and computer readable storage medium |
CN110610166B (en) * | 2019-09-18 | 2022-06-07 | 北京猎户星空科技有限公司 | Text region detection model training method and device, electronic equipment and storage medium |
CN112215123B (en) * | 2020-10-09 | 2022-10-25 | 腾讯科技(深圳)有限公司 | Target detection method, device and storage medium |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0646253A (en) * | 1992-07-27 | 1994-02-18 | Oki Electric Ind Co Ltd | Method for extracting area of document picture |
JPH0916713A (en) * | 1995-06-26 | 1997-01-17 | Sharp Corp | Image area dividing method |
JPH09186858A (en) * | 1996-01-08 | 1997-07-15 | Canon Inc | Method and device for image processing and computer controller |
US6185329B1 (en) * | 1998-10-13 | 2001-02-06 | Hewlett-Packard Company | Automatic caption text detection and processing for digital images |
JP2006318341A (en) * | 2005-05-16 | 2006-11-24 | Sony Corp | Detection object image determination device, method, and program |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4112968B2 (en) * | 2002-12-26 | 2008-07-02 | 富士通株式会社 | Video text processing device |
CN101526944B (en) * | 2008-12-23 | 2011-10-12 | 广州乐庚信息科技有限公司 | Image retrieving comparison method |
-
2011
- 2011-06-30 CN CN201110192175.3A patent/CN102855478B/en not_active Expired - Fee Related
-
2012
- 2012-06-28 JP JP2012145538A patent/JP5939056B2/en not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0646253A (en) * | 1992-07-27 | 1994-02-18 | Oki Electric Ind Co Ltd | Method for extracting area of document picture |
JPH0916713A (en) * | 1995-06-26 | 1997-01-17 | Sharp Corp | Image area dividing method |
JPH09186858A (en) * | 1996-01-08 | 1997-07-15 | Canon Inc | Method and device for image processing and computer controller |
US6185329B1 (en) * | 1998-10-13 | 2001-02-06 | Hewlett-Packard Company | Automatic caption text detection and processing for digital images |
JP2006318341A (en) * | 2005-05-16 | 2006-11-24 | Sony Corp | Detection object image determination device, method, and program |
Non-Patent Citations (1)
Title |
---|
JPN6016002246; 長井 隆行、外3名: '"情景画像中の文字及び看板領域の抽出"' 電子情報通信学会技術研究報告 Vol.100 No.721 IEICE Technical Report Vol.100, No.721, 20010315, pp.103-108, 社団法人電子情報通信学会 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105117706A (en) * | 2015-08-28 | 2015-12-02 | 小米科技有限责任公司 | Image processing method and apparatus and character recognition method and apparatus |
CN109670532A (en) * | 2018-11-23 | 2019-04-23 | 腾讯科技(深圳)有限公司 | Abnormality recognition method, the apparatus and system of organism organ-tissue image |
CN109670532B (en) * | 2018-11-23 | 2022-12-09 | 腾讯医疗健康(深圳)有限公司 | Method, device and system for identifying abnormality of biological organ tissue image |
CN112419174A (en) * | 2020-11-04 | 2021-02-26 | 中国科学院自动化研究所 | Image character removing method, system and device based on gate cycle unit |
CN112419174B (en) * | 2020-11-04 | 2022-09-20 | 中国科学院自动化研究所 | Image character removing method, system and device based on gate cycle unit |
CN114663873A (en) * | 2022-03-29 | 2022-06-24 | Oppo广东移动通信有限公司 | Text region determination method and device, storage medium and electronic equipment |
Also Published As
Publication number | Publication date |
---|---|
CN102855478B (en) | 2015-11-25 |
JP5939056B2 (en) | 2016-06-22 |
CN102855478A (en) | 2013-01-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5939056B2 (en) | Method and apparatus for positioning a text region in an image | |
EP3620979B1 (en) | Learning method, learning device for detecting object using edge image and testing method, testing device using the same | |
CN110119728B (en) | Remote sensing image cloud detection method based on multi-scale fusion semantic segmentation network | |
US11120556B2 (en) | Iterative method for salient foreground detection and multi-object segmentation | |
CN106952269B (en) | Near-neighbor reversible video foreground object sequence detection and segmentation method and system | |
EP2701098B1 (en) | Region refocusing for data-driven object localization | |
CN105184763B (en) | Image processing method and device | |
CN110913243B (en) | Video auditing method, device and equipment | |
JP6075190B2 (en) | Image processing method and apparatus | |
US10169673B2 (en) | Region-of-interest detection apparatus, region-of-interest detection method, and recording medium | |
JP2011134114A (en) | Pattern recognition method and pattern recognition apparatus | |
CN107967480B (en) | Salient object extraction method based on label semantics | |
RU2697649C1 (en) | Methods and systems of document segmentation | |
CN111401387B (en) | Abnormal sample construction method, device, computer equipment and storage medium | |
JP4545641B2 (en) | Similar image retrieval method, similar image retrieval system, similar image retrieval program, and recording medium | |
CN109685806B (en) | Image saliency detection method and device | |
CN109993753B (en) | Method and device for segmenting urban functional area in remote sensing image | |
CN111274964B (en) | Detection method for analyzing water surface pollutants based on visual saliency of unmanned aerial vehicle | |
CN104077765B (en) | Image segmentation device, image partition method | |
CN106295627A (en) | For identifying the method and device of word psoriasis picture | |
EP2821935B1 (en) | Vehicle detection method and device | |
Li et al. | Coarse-to-fine salient object detection based on deep convolutional neural networks | |
Shi et al. | Adaptive graph cut based binarization of video text images | |
CN116152171A (en) | Intelligent construction target counting method, electronic equipment and storage medium | |
JP5027201B2 (en) | Telop character area detection method, telop character area detection device, and telop character area detection program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150319 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20160119 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160126 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160324 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160419 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160502 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5939056 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |