JP2011228792A - Image processing device - Google Patents
Image processing device Download PDFInfo
- Publication number
- JP2011228792A JP2011228792A JP2010094200A JP2010094200A JP2011228792A JP 2011228792 A JP2011228792 A JP 2011228792A JP 2010094200 A JP2010094200 A JP 2010094200A JP 2010094200 A JP2010094200 A JP 2010094200A JP 2011228792 A JP2011228792 A JP 2011228792A
- Authority
- JP
- Japan
- Prior art keywords
- character
- area
- overlapping
- column
- marking
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Control Or Security For Electrophotography (AREA)
- Editing Of Facsimile Originals (AREA)
Abstract
Description
本発明は、画像処理装置に関する。 The present invention relates to an image processing apparatus.
マーカーペンで文字がマーキングされた原稿をスキャナで読み取って画像データを生成し、マーキングされた文字に対して削除、色変更、強調等の画像処理を施す画像処理装置が、下記特許文献1に開示されている。下記特許文献1に開示された画像処理装置は、画像処理の対象となる領域を特定するために、まず、マーカーペンによって塗り潰されたマーキング箇所と、文字が記載された矩形領域を求める。そして、この画像処理装置は、マーキング箇所を領域内に含む矩形領域を特定し、これを画像処理の対象とする。 An image processing apparatus that reads a document on which characters are marked with a marker pen with a scanner to generate image data, and performs image processing such as deletion, color change, and enhancement on the marked characters is disclosed in Patent Document 1 below. Has been. The image processing apparatus disclosed in Patent Document 1 below first obtains a marking area filled with a marker pen and a rectangular area in which characters are described in order to specify an area to be subjected to image processing. The image processing apparatus identifies a rectangular area including the marking portion in the area, and sets this as a target for image processing.
ところで、ユーザが原稿の文字をマーカーペン等でマーキングする際に、指定したい文字の隣の文字にマーキングが掛かってしまう場合がある。この場合、上記特許文献1に記載された画像処理装置では、指定したい文字の隣の文字が記載された矩形領域内に、マーキング箇所が位置するので、指定したくない文字まで画像処理対象として特定されてしまう。 By the way, when a user marks a character on a document with a marker pen or the like, the character adjacent to the character to be specified may be marked. In this case, in the image processing apparatus described in Patent Document 1, since the marking portion is located in the rectangular area where the character next to the character to be specified is described, the character that is not desired to be specified is specified as the image processing target. Will be.
このため、上記画像処理装置を用いる場合、ユーザは、指定したい文字だけをマーキングし、指定外の文字にはマーキングがかからないように、精緻にマーキングを行う必要がある。しかしながら、一般的に、文字が記載された領域を塗りつぶし易いように、マーキングには太いペンが使用されるので、指定したい文字の周囲の文字にマーキングがかからないようにするには、神経を使いながらマーキングする必要がある。 For this reason, when using the image processing apparatus, it is necessary for the user to mark only the character that the user wants to designate, and to perform marking precisely so that the non-designated character is not marked. However, in general, a thick pen is used for marking so that it is easy to fill the area where the character is written. Therefore, in order to prevent marking around the character to be specified, it is necessary to use a nerve. Need to be marked.
本発明は、上記問題点を解消する為になされたものであり、ユーザがラフにマーキングした場合であっても、ユーザが指定したい文字を特定することが可能な画像処理装置を提供することを目的とする。 The present invention has been made to solve the above-described problems, and provides an image processing apparatus that can specify a character that the user wants to specify even when the user has roughly marked. Objective.
本発明に係る画像処理装置は、原稿の画像データを取得する取得手段と、取得手段によって取得された画像データから、原稿上において着色されたマーキング領域を抽出するマーキング抽出手段と、原稿に並んで記載された複数の文字に含まれる文字毎に該文字が記載された文字記載領域を画像データから抽出する文字記載領域抽出手段と、文字記載領域抽出手段によって抽出された文字記載領域と、マーキング抽出手段によって抽出されたマーキング領域とが重なる重複文字領域を抽出する重複文字領域抽出手段と、重複文字領域抽出手段によって抽出された重複文字領域と、該重複文字領域に対応する文字記載領域とについて、複数の文字が並んだ方向の長さをそれぞれ算出する文字算出手段と、文字算出手段によって算出された文字記載領域の上記長さに対する重複文字領域の上記長さに基づいて、文字が原稿上においてマーキングによって指定された文字か否かを判定する文字判定手段とを備えることを特徴とする。 An image processing apparatus according to the present invention includes an acquisition unit that acquires image data of a document, a marking extraction unit that extracts a colored marking region on the document from the image data acquired by the acquisition unit, and the document processing unit. A character description area extracting unit that extracts a character description area in which the character is described for each character included in a plurality of described characters from image data, a character description area extracted by the character description area extraction unit, and a marking extraction About the overlapping character area extracting means for extracting the overlapping character area overlapping the marking area extracted by the means, the overlapping character area extracted by the overlapping character area extracting means, and the character description area corresponding to the overlapping character area, Character calculation means for calculating the length in the direction in which a plurality of characters are arranged, and character descriptions calculated by the character calculation means Based on the above length of the overlapping character region with respect to the length of the region, the character is characterized in that it comprises a character determination means for determining whether or not the specified characters by the marking on the document.
本発明に係る画像処理装置によれば、原稿上において着色されたマーキング領域が、画像データから抽出される。また、原稿に記載された複数の文字に含まれる文字毎に、該文字が記載された文字記載領域が、画像データから抽出される。そして、文字記載領域とマーキング領域とが重なる重複文字領域が抽出される。続いて、重複文字領域とこの重複文字領域に対応する文字記載領域とについて、上記複数の文字が並んだ方向の長さがそれぞれ算出される。そして、文字記載領域の上記長さに対する重複文字領域の上記長さに基づいて、マーキングによって指定された文字か否かが判定される。このため、ユーザがラフに文字をマーキングして、例えば、指定したい文字の隣の文字にまでマーキングがかかってしまった場合、又は、指定したい文字を完全に塗り潰していない場合であっても、マーキングされた度合いに基づいて、ユーザがマーキングによって指定したい文字か否かを判定できる。従って、ユーザがラフにマーキングした場合であっても、ユーザが指定したい文字を特定することが可能となる。 According to the image processing apparatus of the present invention, the colored marking area on the document is extracted from the image data. In addition, for each character included in a plurality of characters described in the document, a character description region in which the character is described is extracted from the image data. Then, an overlapping character area where the character description area and the marking area overlap is extracted. Subsequently, the length in the direction in which the plurality of characters are arranged is calculated for the overlapping character region and the character description region corresponding to the overlapping character region. Then, based on the length of the overlapping character area with respect to the length of the character description area, it is determined whether the character is designated by marking. For this reason, even if the user has roughly marked the character and, for example, the marking has been applied to the character next to the character to be designated, or even if the character to be designated is not completely filled Based on the degree, the user can determine whether the character is desired to be designated by marking. Therefore, even if the user has roughly marked, it is possible to specify the character that the user wants to specify.
本発明に係る画像処理装置では、原稿に配列して記載された複数の文字列に含まれる文字列毎に該文字列が記載された列記載領域を画像データから抽出する列記載領域抽出手段と、列記載領域抽出手段によって抽出された列記載領域と、マーキング抽出手段によって抽出されたマーキング領域とが重なる重複列領域を抽出する重複列領域抽出手段と、重複列領域抽出手段によって抽出された重複列領域と、該重複列領域に対応する列記載領域とについて、文字列に含まれる複数の文字が並んだ方向と直交する直交方向の長さをそれぞれ算出する列算出手段と、列算出手段によって算出された列記載領域の直交方向の長さに対する重複列領域の直交方向の長さに基づいて、文字列が原稿上においてマーキングによって指定された文字を含むか否かを判定する列判定手段とを備えることが好ましい。 In the image processing apparatus according to the present invention, a column description area extracting unit that extracts, from image data, a column description area in which a character string is described for each character string included in a plurality of character strings arranged and described in a document. A duplicate column region extraction unit that extracts a duplicate column region in which a column description region extracted by the column description region extraction unit and a marking region extracted by the marking extraction unit overlap, and an overlap extracted by the duplicate column region extraction unit A column calculation unit for calculating a length in a direction orthogonal to a direction in which a plurality of characters included in the character string are arranged, and a column calculation unit for the column region and the column description region corresponding to the overlapping column region; Whether or not the character string includes characters designated by marking on the manuscript based on the orthogonal length of the overlapping row region with respect to the calculated length of the row description region in the orthogonal direction It is preferable and a determining column determining means.
この好ましい構成によれば、原稿に記載された複数の文字列に含まれる文字列毎に、該文字列が記載された列記載領域が、画像データから抽出される。そして、列記載領域とマーキング領域とが重なる重複列領域が抽出される。続いて、重複列領域とこの重複列領域に対応する列記載領域とについて、文字列に含まれる複数の文字が並んだ方向と直交する直交方向の長さがそれぞれ算出される。そして、列記載領域の直交方向の長さに対する重複列領域の直交方向の長さに基づいて、文字列がマーキングによって指定された文字を含むか否かが判定される。このため、ユーザがラフに文字をマーキングして、例えば、指定したい文字列の隣の文字列にまでマーキングがかかってしまった場合、又は、指定したい文字列を完全に塗り潰していない場合でも、マーキングされた度合いに基づいて、ユーザがマーキングによって指定したい文字を含む文字列か否かを判定できる。従って、ユーザがラフにマーキングした場合であっても、ユーザの指定したい文字を含む文字列を特定することが可能となる。 According to this preferable configuration, for each character string included in the plurality of character strings described in the document, a column description area in which the character string is described is extracted from the image data. Then, an overlapping row area where the row description area and the marking area overlap is extracted. Subsequently, the length in the orthogonal direction orthogonal to the direction in which a plurality of characters included in the character string are arranged is calculated for the overlapping row region and the column description region corresponding to the overlapping row region. Then, it is determined whether or not the character string includes a character designated by the marking based on the length in the orthogonal direction of the overlapping column region with respect to the length in the orthogonal direction of the column description region. For this reason, even if the user roughly marks a character and, for example, the character string next to the character string to be specified has been marked, or even if the character string to be specified is not completely filled Whether or not the character string includes a character that the user wants to designate by marking can be determined based on the degree of the character. Therefore, even if the user has roughly marked, it is possible to specify a character string including the character that the user wants to specify.
本発明に係る画像処理装置では、文字判定手段は、列判定手段によって原稿上においてマーキングされた文字を含むと判定された文字列に含まれる複数の文字について、原稿上においてマーキングによって指定された文字か否かを判定することが好ましい。 In the image processing apparatus according to the present invention, the character determination means includes a character designated by marking on the document for a plurality of characters included in the character string determined to include the character marked on the document by the column determination means. It is preferable to determine whether or not.
この好ましい構成によれば、文字列単位で判定対象となる文字が抽出され、その後、抽出された文字列に含まれる文字がマーキングによって指定された文字か否かが判定される。従って、全ての文字について一つ一つ判定する場合と比較して、マーキングによって指定された文字を効率良く特定することができる。 According to this preferable configuration, the character to be determined is extracted in character string units, and then it is determined whether or not the character included in the extracted character string is a character specified by marking. Therefore, it is possible to efficiently specify the character designated by the marking as compared with the case where all characters are determined one by one.
本発明に係る画像処理装置では、重複列領域抽出手段によって抽出された重複列領域が、単数か複数かを判断する判断手段を備えることが好ましく、文字判定手段が、判断手段によって重複列領域が単数と判断された場合に、該重複列領域に対応する文字列に含まれる複数の文字について、原稿上においてマーキングによって指定された文字か否かを判定することが好ましい。 In the image processing apparatus according to the present invention, it is preferable that the image processing apparatus further includes a determination unit that determines whether the overlapping column region extracted by the overlapping column region extraction unit is singular or plural. When it is determined that the number is singular, it is preferable to determine whether or not a plurality of characters included in the character string corresponding to the overlapping row area are characters designated by marking on the document.
この好ましい構成によれば、重複列領域が単数か複数かについて判断されるので、複数の文字列に渡ってマーキングされているか否かを判断することができる。そして、重複列領域が単数の場合に、その重複列領域に対応する文字列に含まれる複数の文字について、原稿上においてマーキングによって指定された文字か否かが判定される。このため、マーキングされている文字列が1列の場合に、重複列領域の上記長さにかかわらず、その文字列に含まれる複数の文字を、判定対象の文字とすることができる。 According to this preferable configuration, since it is determined whether the overlapping row region is singular or plural, it is possible to determine whether marking is performed over a plurality of character strings. Then, when there is a single overlapping row area, it is determined whether or not a plurality of characters included in the character string corresponding to the overlapping row area are characters designated by marking on the document. For this reason, when the character string currently marked is one line, the several character contained in the character string can be made into the character for determination irrespective of the said length of an overlap line area | region.
本発明によれば、ユーザがラフにマーキングした場合であっても、ユーザの指定したい文字を特定することが可能となる。 According to the present invention, it is possible to specify a character that the user wants to specify even when the user has roughly marked.
以下、図面を参照して本発明の好適な実施形態について詳細に説明する。まず、図1及び図2を用いて、実施形態に係る画像処理装置が搭載されたネットワーク複合機1の構成について説明する。図1は、ネットワーク複合機1の構成を示すブロック図である。図2は、ネットワーク複合機1が有する制御部30の構成を示すブロック図である。
DESCRIPTION OF EMBODIMENTS Hereinafter, preferred embodiments of the present invention will be described in detail with reference to the drawings. First, the configuration of the network MFP 1 in which the image processing apparatus according to the embodiment is mounted will be described with reference to FIGS. 1 and 2. FIG. 1 is a block diagram showing the configuration of the network multifunction device 1. FIG. 2 is a block diagram illustrating a configuration of the
ネットワーク複合機1は、LAN(Local Area Network)90に接続されたパーソナルコンピュータ5等の機器との間で情報の送受信が可能に構成され、プリント機能、スキャン機能、及びFAX機能を含む複合機能を備えた機器である。このネットワーク複合機1は、ユーザによって文字がマーキングされた原稿を読み取って画像データを生成し、マーキングによって指定された指定文字を特定する機能を有する。特定された指定文字に対しては、例えば、OCR(文字認識)処理、又は削除、色変換、強調等の編集処理が行われる。 The network multifunction device 1 is configured to be able to send and receive information to and from devices such as a personal computer 5 connected to a LAN (Local Area Network) 90, and has a composite function including a print function, a scan function, and a FAX function. Equipment. The network multifunction device 1 has a function of reading a document on which characters are marked by a user, generating image data, and specifying a designated character designated by the marking. For the specified designated character, for example, OCR (character recognition) processing or editing processing such as deletion, color conversion, and enhancement is performed.
上記機能を発揮するため、ネットワーク複合機1は、操作パネル10、ディスプレイ11、スキャナ12、プリンタ13、NCU(Network Control Unit)14、モデム15、LAN I/F(LANインターフェース)19、及び制御部30を備えている。なお、NCU14は、モデム15と公衆交換電話網(PSTN)91との接続を制御し、FAXの送受信機能を司るものである。
In order to exhibit the above functions, the network multifunction peripheral 1 includes an
スキャナ12は、原稿を読み取って画像データを取得する。このスキャナ12は、特許請求の範囲に記載の取得手段として機能する。原稿には、複数の文字列が配列して記載され、一部の文字がマーキングされている。ここで、マーキングとは、原稿上の領域を原稿の背景色すなわち地の色とは異なる色で着色することである。ユーザは、例えば、カラーマーカー等で文字にラインを引くことで、文字をマーキングすることができる。また、文字が記載された領域を塗ることにより、文字をマーキングすることができる。このようにして文字をマーキングすることにより、ユーザは編集したい文字を指定する。
The
スキャナ12は、カラーで原稿を読み取って、RGB各色のデータを含む画像データを生成する。このため例えば、スキャナ12は、赤(R)、緑(G)、青(B)のカラーフィルタが貼り付けられた単板CCDを有し、RGB各色のデータを取得する。また、例えば、CCDに入射する光を分光プリズム内のダイクロック膜の反射によってRGBの3原色に分光する3CCD方式を用いてもよい。スキャナ12によって生成された画像データは、制御部30へ出力される。
The
制御部30は、CPU16、ROM17、及びRAM18等によって構成され、入力された画像データから、マーキングによって指定された指定文字を特定する。図2に示すように、制御部30は、機能的な構成要素として、マーキング抽出部31、列抽出部32、及び文字抽出部33を備える。
The
マーキング抽出部31は、スキャナ12から入力された画像データからマーキング領域を抽出する。マーキング領域は、原稿上の着色された領域である。例えば、マーキング抽出部31は、画像データをRGB色空間からHLS色空間に変換し、画像データに含まれる各画素のHLS色空間中の位置に基づいて、各画素がマーキング領域内の画素か否かを特定する。ここで、HLS色空間は、色相(Hue)、彩度(Saturation)、輝度(Lightness/Luminance)の3つの成分からなる色空間である。
The marking
マーキング抽出部31は、着色された画素の一固まりの領域をマーキング領域とし、位置座標データ等でマーキング領域を特定する。例えば、マーキング領域が矩形状であれば、4隅の位置座標データによってマーキング領域を特定することができる。マーキング抽出部31は、マーキング領域を特定する位置座標データを列抽出部32及び文字抽出部33へ出力する。なお、マーキング抽出部31は、特許請求の範囲に記載のマーキング抽出手段として機能する。
The marking
列抽出部32は、原稿に記載された複数の文字列のうち、指定文字を含む文字列を抽出する。列抽出部32は、上記処理を行うために、列記載領域抽出部321、重複列領域抽出部322、列算出部323、列判定部324、及び判断部325を有する。
The
列記載領域抽出部321は、文字列毎に文字列が記載された列記載領域を画像データから抽出する。列記載領域は、文字列が記載された領域を囲んだ矩形状の領域である。列記載領域抽出部321は、列記載領域の4隅の位置座標を特定することで、列記載領域を抽出できる。
The column description
例えば、一般的に、OCR処理を行う際に、文字列が記載された矩形状の領域の4隅を特定する位置座標データが生成される。列記載領域抽出部321は、OCR処理によって生成された位置座標データを利用して、文字列が記載された矩形状の領域の4隅の位置座標データを特定する。なお、列記載領域抽出部321は、特許請求の範囲に記載の列記載領域抽出手段として機能する。
For example, generally, when performing OCR processing, position coordinate data that specifies four corners of a rectangular region in which a character string is described is generated. The column description
重複列領域抽出部322は、マーキング領域と列記載領域とが重なった重複列領域を抽出する。この、重複列領域抽出部322は、特許請求の範囲に記載の重複列領域抽出手段として機能する。列算出部323は、重複列領域と列記載領域との、文字列方向に直交する直交方向の長さをそれぞれ算出する。文字列方向は、文字列に含まれる複数の文字が並んだ方向である。文字列方向は、例えば、文字列記載領域の長手方向に特定される。なお、列算出部323は、特許請求の範囲に記載の列算出手段として機能する。
The overlapping row
列判定部323は、重複列領域の上記直交方向の長さが、列記載領域の上記直交方向の長さに対する所定の割合以上である場合に、判定対象の文字列が指定文字を含むと判定する。そして、重複列領域の上記長さが、列記載領域の上記長さに対する所定の割合より小さい場合に、文字列が指定文字を含まないと判定する。所定の割合は、例えば、2分の1に設定することができる。なお、列判定部324は、特許請求の範囲に記載の列判定手段として機能する。
The
判断部325は、重複列領域抽出部322によって抽出された重複列領域が、単数か複数かを判断する。これにより、マーキング領域と重なる文字列が複数ラインあるか否か、すなわち、複数の文字列に渡ってマーキングされているか否かを判断することができる。この判断部325は、特許請求の範囲に記載の判断手段として機能する。判断部325が、重複列領域が複数であると判断した場合、列算出部323及び列判定部324によって、文字列が指定文字を含むか否かが判断される。
The
図3を参照して、列抽出部32が文字列を抽出する列抽出方法について具体例を用いて説明する。図3に示すように、原稿には、一例として、複数(3列)の文字列41〜43が各文字列方向44と直交する直交方向45に並んで配列されている。図3において、グレーの矩形状の領域が、マーキング領域46である。この図3の例では、マーキング領域46が、複数の文字列41,42に渡っている。なお、図3では、マーキング領域46をグレーで示しているが、ピンクや黄色の蛍光ペン、その他の任意の色が着いていてもよい。このマーキング領域46は、上記のマーキング抽出部31によって抽出される。
With reference to FIG. 3, a column extraction method in which the
列記載領域抽出部321は、上段の文字列41、中断の文字列42、及び下段の文字列43がそれぞれ記載された列記載領域411,421,431を抽出する。重複列領域抽出部322は、マーキング領域46と上段の文字列41の列記載領域411とが重なる重複列領域412を抽出する。また、重複列領域抽出部322は、マーキング領域46と中段の文字列42の列記載領域421とが重なる重複列領域422を抽出する。
The column description
この場合、判断部325は、重複列領域412,422が複数と判断する。重複列領域が複数と判断されたので、重複列領域412に対応する上段の文字列41と、重複列領域422に対応する中段の文字列42が、判定対象の文字列となる。
In this case, the
上段の文字列41について、列算出部323は、重複列領域412の直交方向45の長さ413と、列記載領域411の直交方向45の長さ414とを算出する。長さは、例えば、文字列方向44に沿った複数箇所について直交方向45の長さを算出し、算出した長さの平均値を用いることができる。そして、列判定部324は、算出した列記載領域411の長さ414に対する重複列領域412の長さ413に基づいて、文字列41が指定文字を含むか否かを判定する。
For the
図3に示す例では、重複列領域412の長さ413が、列記載領域411の長さ414の半分以上でないので、文字列41は、指定文字を含まないと判断される。また、この方法によれば、中段の文字列42は、列判定部324によって指定文字を含むと判断される。下段の文字列43は、重複列領域がなく、全くマーキングされていないので、指定文字を含まないと判断される。これにより、ユーザが、ラフにマーキングし、マーキングしたい文字列が中段の文字列42のみであるにもかかわらず、その上段の文字列41にまでマーキングが掛かってしまった場合でも、ユーザのマーキングした文字列42のみを正確に抽出することができる。
In the example shown in FIG. 3, the
なお、図3は、マーキング領域46と重なる文字列が複数ある場合について説明したが、マーキング領域46と重なる文字列が単数である場合は、判断部325によって重複列領域が単数と判断される。この場合、列判定部325は、重複列領域に対応する文字列が、指定文字を含むと判定する。列抽出部32は、列判定部324によって指定文字を含むと判定された文字列を抽出し、文字抽出部33へ出力する。
Note that FIG. 3 illustrates the case where there are a plurality of character strings overlapping the marking
図2に示す文字抽出部33は、列抽出部32によって抽出された文字列に含まれる複数の文字から指定文字を抽出する。文字抽出部33は、指定文字を抽出するために、文字記載領域抽出部331、重複文字領域抽出部332、文字算出部333、及び文字判定部334を有する。
The
文字記載領域抽出部331は、判定対象となる文字列に含まれる文字毎に文字が記載された文字記載領域を画像データから抽出する。例えば、OCR処理を行う際に、各文字が記載された矩形状の領域の4隅を特定する位置座標データが生成される。文字記載領域抽出部331は、この4隅の位置座標データによって文字記載領域を特定し、抽出することができる。なお、文字記載領域抽出部331は、特許請求の範囲に記載の文字記載領域抽出手段として機能する。
The character description
重複文字領域抽出部332は、マーキング領域と文字記載領域とが重なった重複文字領域を抽出する。この、重複文字領域抽出部332は、特許請求の範囲に記載の重複文字領域抽出手段として機能する。文字算出部333は、重複文字領域と文字記載領域との、文字列方向44の長さをそれぞれ算出する。なお、文字算出部333は、特許請求の範囲に記載の文字算出手段として機能する。
The duplicate character
文字判定部334は、重複文字領域の文字列方向44の長さが、文字記載領域の文字列方向44の長さに対する所定の割合以上である場合に、判定対象の文字が指定文字であると判定する。そして、重複文字領域の上記長さが、文字記載領域の上記長さに対する所定の割合より小さい場合に、判定対象の文字が指定文字でないと判定する。所定の割合は、例えば、2分の1に設定することができる。なお、文字抽出部33は、文字判定部334によって指定文字であると判定された文字を抽出する。
The
図4を参照して、文字抽出部33が文字を抽出する文字抽出処理について、具体例を用いて説明する。まず、図4に示す文字列「列文字列文」に含まれる複数の文字のうち、右から1番目の文字「文」51が判定対象である場合ついて説明する。
With reference to FIG. 4, the character extraction process in which the
文字記載領域抽出部331は、文字「文」51が記載された文字記載領域511を抽出する。重複文字領域抽出部332は、マーキング抽出部31によって抽出されたマーキング領域46と、文字記載領域抽出部331によって抽出された文字記載領域511との重複文字領域512を抽出する。重複文字領域512は、位置座標データによって特定することができる。
The character description
文字算出部333は、重複文字領域512の文字列方向44の長さ513と、文字記載領域511の文字列方向44の長さ514とを算出する。長さは、例えば、直交方向45に沿った複数位置について文字列方向44の長さをそれぞれ算出し、算出した長さの平均値を用いることができる。そして、文字判定部334は、算出された重複文字領域512と文字記載領域511との長さに基づいて、文字「文」51が指定文字か否かを判定する。
The
図4に示す例では、重複文字領域512の長さ513が、文字記載領域511の長さ514の半分以上でないので、文字51「文」は、指定文字でないと判定される。上記方法によれば、右から2番目の文字「列」52及び右から3番目の文字「字」53は、重複文字領域と文字記載領域とが一致し、重複文字領域の文字列方向44の長さが、文字記載領域の文字列方向44の長さの半分以上である。従って、文字「列」52及び文字「字」53は、指定文字であると判定される。
In the example shown in FIG. 4, since the
また、右から4番目の文字「文」54は、一部しかマーキングされていないが、重複文字領域542の文字列方向44の長さ543が、文字記載領域541の文字列方向44の長さ544の半分以上である。従って、文字「文」54は、指定文字であると判定される。右から5番目の文字「列」55は、全くマーキングされていないので、重複文字領域がなく、指定文字でないと判定さされる。この場合、文字抽出部33は、文字「文」54、文字「字」53、文字「列」52のみを指定文字であるとして抽出する。
The fourth character “sentence” 54 from the right is only partially marked, but the
図4に示すように、ユーザがラフにマーキングし、マーキングしたい文字「文」54、文字「字」53、及び文字「列」52の右側の文字「文」51にまでマーキングが掛かり、左側の文字「文」54は、文字の左側の部分がマーキングされていない。この場合でも、左側の文字「文」54は指定文字に含まれ、右側の文字「文」51は指定文字に含まれないと判別し、ユーザのマーキングしたい文字「文」54、文字「字」53、文字「列」52のみを正確に抽出することができる。 As shown in FIG. 4, the user performs rough marking, and the character “sentence” 54, the character “letter” 53, and the character “sentence” 51 on the right side of the character “string” 52 are marked. The character “sentence” 54 is not marked on the left side of the character. Even in this case, it is determined that the character “sentence” 54 on the left side is included in the designated character and the character “sentence” 51 on the right side is not included in the designated character, and the character “sentence” 54 and the character “character” that the user wants to mark are determined. 53, only the character “string” 52 can be accurately extracted.
引き続いて図5を参照して、文字抽出部33が文字を抽出する文字抽出処理について、別の具体例を用いて説明する。図5に示す例は、図4に示す例よりマーキング領域46の幅が狭くライン状である。
Next, with reference to FIG. 5, a character extraction process in which the
右から1番目の文字「文」61は、重複文字領域612の文字列方向44の長さ613が、文字記載領域611の文字列方向44の長さ614の半分より小さい。従って、文字「文」61は、指定文字でないと判定される。右から2番目の文字「列」62及び右から3番目の文字「字」63は、重複文字領域の文字列方向44の長さが、文字記載領域の文字列方向44の長さの半分以上である。従って、文字「列」62及び文字「字」63は、指定文字であると判定される。
In the first character “sentence” 61 from the right, the
また、右から4番目の文字「文」64は、一部しかマーキングされていないが、重複文字領域642の文字列方向44の長さ643が、文字記載領域641の文字列方向44の長さ644の半分以上である。従って、文字「文」64は、指定文字であると判定される。右から5番目の文字「列」65は、全くマーキングされていないので、重複文字領域がなく、指定文字でないと判定される。この場合、文字抽出部33は、文字「文」64、文字「字」63、文字「列」62のみを指定文字であるとして抽出する。
The fourth character “sentence” 64 from the right is only partially marked, but the
この場合もユーザが、ラフにマーキングし、マーキングしたい文字列の右側の文字「文」61にマーキングが掛かり、左側の文字「文」64は、文字の左側の部分がマーキングされていない。この場合でも、左側の文字「文」64は指定文字に含まれ、右側の文字「文」61は指定文字に含まれないことを判別し、ユーザのマーキングしたい文字「文」64、文字「字」63、文字「列」62のみを正解に抽出することができる。 Also in this case, the user performs rough marking, and the character “sentence” 61 on the right side of the character string to be marked is marked, and the left part of the character “sentence” 64 is not marked. Even in this case, it is determined that the character “sentence” 64 on the left side is included in the designated character, and the character “sentence” 61 on the right side is not included in the designated character. "63" and only the character "string" 62 can be extracted correctly.
図5の例では、ライン状のマーキング領域46が、文字列の直交方向45における中央部に位置しているが、文字列の下側又は上側に位置している場合であっても、同様の処理を適用することができる。この場合も、ユーザのマーキングしたい文字「文」64、文字「字」63、文字「列」62のみを正解に抽出することができる。
In the example of FIG. 5, the line-shaped
引き続いて、図6及び図7を参照してネットワーク複合機1の動作について説明する。図6と図7は、ネットワーク複合機1が行う指定文字の抽出処理の処理手順を示すフローチャートの前半部分と後半部分である。 Subsequently, the operation of the network MFP 1 will be described with reference to FIGS. 6 and 7. 6 and 7 are the first half and the second half of the flowchart showing the processing procedure of the designated character extraction process performed by the network MFP 1.
まず、ユーザが、マーキングされた原稿を読み取るように、操作パネル10を用いて操作を行うと、ステップS101では、ネットワーク複合機1にセットされた原稿がスキャナ12によって読み取られ、原稿の画像データが取得される。ステップS102では、マーキング領域46が画像データから抽出される。ステップS103では、画像データに対してOCR処理を行うことにより、文字列が記載された列記載領域が抽出される。
First, when the user performs an operation using the
続いて、ステップS104では、ステップS102において抽出されたマーキング領域46と、ステップS103において抽出された列記載領域とが重なった重複列領域が抽出される。なお、ステップS102で行われるマーキング領域46の抽出処理、ステップS103で行われる列記載領域の抽出処理、及びステップS104で行われる重複列領域の抽出処理は、上述した方法で行うことができるので、ここでは説明を省略する。
Subsequently, in step S104, an overlapping column region in which the
ステップS105では、マーキング領域46と重なる文字列があるか否かが判断される。すなわち、ステップS104で重複列領域が抽出されたか否かが判断される。重複列領域が抽出されなかった場合は、マーキングされた文字がないので、処理が終了する。重複列領域が抽出された場合は、処理がステップS106へ進む。
In step S105, it is determined whether there is a character string overlapping the marking
ステップS106では、マーキング領域46と重なる文字列が単ラインか否かが判断される。すなわち、ステップS104で抽出された重複列領域が、単数か複数かが判断される。重複列領域が単数である場合は、ステップS108へ処理が進む。重複列領域が複数ある場合は、ステップS107へ処理が進む。
In step S106, it is determined whether or not the character string overlapping the marking
ステップS107では、判定対象の文字列について、列記載領域と重複列領域との直交方向45の長さが算出され、重複列領域の長さが、列記載領域の長さの半分以上か否かが判断される。重複列領域の長さが、列記載領域の長さの半分以上でないと判断された場合は、ステップS109へ処理が進む。ステップS109では、判定対象の文字列が、指定文字を含む文字列ではないと判定され、ステップS116へ処理が進む。
In step S107, for the character string to be determined, the length in the
ステップS107で、重複列領域の長さが、列記載領域の長さの半分以上であると判断された場合は、ステップS108へ処理が進む。ステップS108では、判定対象の文字列が指定文字を含む文字列であると判定される。続いて、ステップS110では、ステップS108で指定文字を含むと判定された文字列のうち、判定対象となる文字の文字記載領域が抽出される。ステップS111では、ステップS110で抽出された文字記載領域とマーキング領域46とが重なる重複文字領域が抽出される。
If it is determined in step S107 that the length of the overlapping column area is half or more of the length of the column description area, the process proceeds to step S108. In step S108, it is determined that the character string to be determined is a character string including a designated character. Subsequently, in step S110, the character description area of the character to be determined is extracted from the character string determined to include the designated character in step S108. In step S111, an overlapping character area in which the character description area extracted in step S110 and the marking
ステップS112では、判定対象の文字について、文字記載領域と重複文字領域との文字列方向44の長さが算出され、重複文字領域の長さが、文字記載領域の長さの半分以上か否かが判断される。重複文字領域の長さが、文字記載領域の長さの半分以上でないと判断された場合は、ステップS114へ処理が進む。ステップS114では、判定対象の文字が、指定文字ではないと判定され、ステップS115へ処理が進む。
In step S112, for the character to be determined, the length in the
ステップS112で、重複文字領域の長さが、文字記載領域の長さの半分以上であると判断された場合は、ステップS113へ処理が進む。ステップS113では、判定対象の文字が指定文字であると判定される。ステップS115では、ステップS108で指定文字を含むと判定された文字列について、次の判定対象の文字があるか否かが判断される。次の判定対象の文字がある場合には、ステップS110へ戻って、再び判定対象の文字が指定文字か否かの判定処理を行う。 If it is determined in step S112 that the length of the overlapping character area is half or more of the length of the character description area, the process proceeds to step S113. In step S113, it is determined that the character to be determined is a designated character. In step S115, it is determined whether or not there is a next character to be determined for the character string determined to include the designated character in step S108. If there is a next character to be determined, the process returns to step S110 to determine again whether or not the character to be determined is a designated character.
文字列に含まれる全ての文字について判定が終了した場合は、ステップS116へ処理が進む。ステップS116では、次の判定対象の文字列があるか否かが判断される。次の判定対象の文字列がある場合は、ステップS107へ戻って、再び判定対象の文字列が、指定文字を含むか否かの判定処理が行われる。マーキング領域46と重なる全ての文字列について、判定処理が終了した場合は、一連の抽出処理が終了する。以上の処理により、マーキングにより指定された指定文字が特定される。特定された指定文字は、ディスプレイ11等に表示される。また、特定された指定文字をOCR処理してもよいし、各種の編集を行っても良い。
If the determination is completed for all characters included in the character string, the process proceeds to step S116. In step S116, it is determined whether there is a character string to be determined next. If there is a next character string to be determined, the process returns to step S107, and determination processing is performed again to determine whether or not the character string to be determined includes the designated character. When the determination process is completed for all the character strings overlapping the marking
以上説明した本実施形態に係るネットワーク複合機1によれば、重複文字領域と文字記載領域との文字列方向44の長さが算出される。そして、文字記載領域の文字列方向44の長さに対する重複文字領域の文字列方向44の長さの割合が所定値以上の場合、判定対象の文字が指定文字であると判定される。このため、ユーザがラフに文字をマーキングして、例えば、指定したい文字の隣の文字にまでマーキングが掛かってしまった場合、又は、指定したい文字を完全に塗り潰していない場合でも、マーキングされた度合いに基づいて、指定文字か否かを判定できる。従って、ユーザがラフにマーキングした場合であっても、ユーザの指定したい文字を特定することが可能となる。
According to the network multifunction peripheral 1 according to the present embodiment described above, the length in the
また、ネットワーク複合機1によれば、重複文字列領域と列記載領域との直交方向45の長さが算出される。そして、列記載領域の直交方向45の長さに対する重複列領域の直交方向45の長さの割合が所定値以上の場合、判定対象の文字列が指定文字を含むと判定される。このため、ユーザがラフに文字をマーキングして、例えば、指定したい文字列の隣の文字列にまでマーキングが掛かってしまった場合、又は、指定したい文字列を完全に塗り潰していない場合でも、マーキングされた度合いに基づいて、指定文字を含む文字列か否かを判定できる。従って、ユーザがラフにマーキングした場合であっても、ユーザの指定したい文字を含む文字列を特定することが可能となる。
Further, according to the network MFP 1, the length in the
また、ネットワーク複合機1によれば、指定文字を含む文字列が抽出された後、その抽出された文字列に含まれる複数の文字から指定文字が抽出される。すなわち、文字列単位で判定対象となる文字が抽出され、その後、抽出された文字列に含まれる文字がマーキングによって指定された文字か否かが判定される。従って、全ての文字について一つ一つ判定する場合と比較して、マーキングによって指定された文字を効率良く特定することができる。 Further, according to the network MFP 1, after the character string including the designated character is extracted, the designated character is extracted from a plurality of characters included in the extracted character string. That is, a character to be determined is extracted in character string units, and then it is determined whether or not the character included in the extracted character string is a character specified by marking. Therefore, it is possible to efficiently specify the character designated by the marking as compared with the case where all characters are determined one by one.
更に、ネットワーク複合機1によれば、重複列領域が単数か複数かについて判断されるので、複数の文字列に渡ってマーキングがなされているか否かを判断することができる。そして、重複列領域が単数の場合に、その重複列領域に対応する文字列に含まれる複数の文字について、指定文字か否かが判断される。このため、マーキングされている文字列が1列の場合に、重複列領域の上記長さにかかわらず、その文字列に含まれる複数の文字を、判定対象の文字とすることができる。すなわち、図5に示すように、マーキングがライン状になされ、列記載領域の直交方向45の長さに対する重複列領域の直交方向45の長さの割合が所定値より小さい場合であっても、その文字列に含まれる複数の文字を、判定対象の文字とすることができる。
Furthermore, according to the network multifunction device 1, since it is determined whether the overlapping row area is singular or plural, it is possible to determine whether marking is performed over a plurality of character strings. Then, when there is a single overlapping column area, it is determined whether or not a plurality of characters included in the character string corresponding to the overlapping column area are designated characters. For this reason, when the character string currently marked is one line, the several character contained in the character string can be made into the character for determination irrespective of the said length of an overlap line area | region. That is, as shown in FIG. 5, even when the marking is made in a line shape and the ratio of the length in the
以上、本発明の実施の形態について説明したが、本発明は、上記実施形態に限定されるものではなく種々の変形が可能である。例えば、上記実施形態では、重複文字領域又は重複列領域の長さが、文字記載領域又は列記載領域の半分以上か否かに基づいて、判定を行ったが、これに限られない。重複文字領域又は重複列領域の長さが、文字記載領域又は列記載領域の3分の1以上等、判定基準は任意に設定することができる。 Although the embodiment of the present invention has been described above, the present invention is not limited to the above embodiment, and various modifications can be made. For example, in the above embodiment, the determination is made based on whether or not the length of the overlapping character region or the overlapping column region is half or more of the character description region or the column description region, but is not limited thereto. The determination criterion can be arbitrarily set such that the length of the overlapping character region or the overlapping column region is one third or more of the character description region or the column description region.
また、上記実施形態では、列抽出部32を備えることとしたが、列抽出部32を備えていなくてもよい。この場合、文字抽出部33が、マーキング領域46と少なくとも一部が重なる文字についてそれぞれ指定文字か否かを判定する。また、上記実施形態では、スキャナ12を備えることとしたが、スキャナ12を備えていなくてもよい。この場合、原稿の画像データを外部装置から取得し、取得した画像データに対して画像処置を施すことにより、マーキングされた文字を抽出する。更に、上記実施形態では、文字が横書きの場合について具体的に説明したが、縦書きであっても本発明を適用することができる。この場合、文字列方向は縦方向となる。
In the above embodiment, the
1 ネットワーク複合機
12 スキャナ
30 制御部
31 マーキング抽出部
321 列記載領域抽出部
322 重複列領域抽出部
323 列算出部
324 列判定部
325 判断部
331 文字記載領域抽出部
332 重複文字領域抽出部
333 文字算出部
334 文字判定部
DESCRIPTION OF SYMBOLS 1
Claims (4)
前記取得手段によって取得された画像データから、前記原稿上において着色されたマーキング領域を抽出するマーキング抽出手段と、
前記原稿に並んで記載された複数の文字に含まれる文字毎に該文字が記載された文字記載領域を前記画像データから抽出する文字記載領域抽出手段と、
前記文字記載領域抽出手段によって抽出された文字記載領域と、前記マーキング抽出手段によって抽出されたマーキング領域とが重なる重複文字領域を抽出する重複文字領域抽出手段と、
前記重複文字領域抽出手段によって抽出された重複文字領域と、該重複文字領域に対応する前記文字記載領域とについて、前記複数の文字が並んだ方向の長さをそれぞれ算出する文字算出手段と、
前記文字算出手段によって算出された前記文字記載領域の前記長さに対する前記重複文字領域の前記長さに基づいて、前記文字が前記原稿上においてマーキングによって指定された文字か否かを判定する文字判定手段と、
を備えることを特徴とする画像処理装置。 Acquisition means for acquiring image data of a document;
Marking extraction means for extracting a colored marking area on the document from the image data acquired by the acquisition means;
A character description region extracting means for extracting, from the image data, a character description region in which the character is described for each character included in a plurality of characters described side by side in the document;
An overlapping character area extracting means for extracting an overlapping character area where the character describing area extracted by the character description area extracting means and the marking area extracted by the marking extracting means overlap;
Character calculation means for calculating the length in the direction in which the plurality of characters are arranged for the overlapping character area extracted by the overlapping character area extraction means and the character description area corresponding to the overlapping character area;
Character determination for determining whether the character is a character designated by marking on the document based on the length of the overlapping character region with respect to the length of the character description region calculated by the character calculation unit Means,
An image processing apparatus comprising:
前記列記載領域抽出手段によって抽出された列記載領域と、前記マーキング抽出手段によって抽出されたマーキング領域とが重なる重複列領域を抽出する重複列領域抽出手段と、
前記重複列領域抽出手段によって抽出された重複列領域と、該重複列領域に対応する前記列記載領域とについて、前記文字列に含まれる複数の文字が並んだ方向と直交する直交方向の長さをそれぞれ算出する列算出手段と、
前記列算出手段によって算出された前記列記載領域の前記直交方向の長さに対する前記重複列領域の前記直交方向の長さに基づいて、前記文字列が前記原稿上においてマーキングによって指定された文字を含むか否かを判定する列判定手段と、
を備えることを特徴とする請求項1に記載の画像処理装置。 Column description area extracting means for extracting, from the image data, a column description area in which the character string is described for each character string included in a plurality of character strings arranged and described in the document;
An overlapping column region extracting unit for extracting an overlapping column region where the column describing region extracted by the column describing region extracting unit and the marking region extracted by the marking extracting unit overlap;
About the overlapping row area extracted by the overlapping row area extraction means and the column description area corresponding to the overlapping row area, the length in the orthogonal direction orthogonal to the direction in which a plurality of characters included in the character string are arranged Column calculating means for calculating
Based on the length in the orthogonal direction of the overlapping row area with respect to the length in the orthogonal direction of the row description area calculated by the row calculation means, the character string is a character designated by marking on the document. Column determining means for determining whether or not to include,
The image processing apparatus according to claim 1, further comprising:
前記文字判定手段は、前記判断手段によって前記重複列領域が単数と判断された場合に、該重複列領域に対応する文字列に含まれる前記複数の文字について、前記原稿上においてマーキングによって指定された文字か否かを判定することを特徴とする請求項3に記載の画像処理装置。
A determination unit that determines whether the overlapping column region extracted by the overlapping column region extraction unit is singular or plural;
The character determination unit is designated by marking on the document for the plurality of characters included in the character string corresponding to the overlap column region when the determination unit determines that the overlap column region is singular. The image processing apparatus according to claim 3, wherein it is determined whether the character is a character.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010094200A JP2011228792A (en) | 2010-04-15 | 2010-04-15 | Image processing device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010094200A JP2011228792A (en) | 2010-04-15 | 2010-04-15 | Image processing device |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2011228792A true JP2011228792A (en) | 2011-11-10 |
Family
ID=45043676
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010094200A Pending JP2011228792A (en) | 2010-04-15 | 2010-04-15 | Image processing device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2011228792A (en) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017157995A (en) * | 2016-03-01 | 2017-09-07 | 京セラドキュメントソリューションズ株式会社 | Information processing apparatus and program |
JP2017157996A (en) * | 2016-03-01 | 2017-09-07 | 京セラドキュメントソリューションズ株式会社 | Information processing apparatus and program |
JP2018025885A (en) * | 2016-08-08 | 2018-02-15 | 京セラドキュメントソリューションズ株式会社 | Image processing device |
JP7591915B2 (en) | 2020-12-07 | 2024-11-29 | 株式会社Pfu | Format definition device, format definition method, and program |
-
2010
- 2010-04-15 JP JP2010094200A patent/JP2011228792A/en active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017157995A (en) * | 2016-03-01 | 2017-09-07 | 京セラドキュメントソリューションズ株式会社 | Information processing apparatus and program |
JP2017157996A (en) * | 2016-03-01 | 2017-09-07 | 京セラドキュメントソリューションズ株式会社 | Information processing apparatus and program |
JP2018025885A (en) * | 2016-08-08 | 2018-02-15 | 京セラドキュメントソリューションズ株式会社 | Image processing device |
JP7591915B2 (en) | 2020-12-07 | 2024-11-29 | 株式会社Pfu | Format definition device, format definition method, and program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10735627B2 (en) | Color conversion table creation apparatus and method, color conversion apparatus, and program | |
US9088745B2 (en) | Apparatus, system, and method of inspecting image, and recording medium storing image inspection control program | |
US9654670B2 (en) | Color conversion table creation device and method, program, and recording medium | |
JP6150779B2 (en) | Color conversion table creation device and method, and program | |
JP2017130980A (en) | Color conversion table creation device and method, and program | |
US9843694B2 (en) | Image reading device and method, reading area display device and method, and program | |
US10373030B2 (en) | Image processing apparatus that executes halftone process on target image data including edge pixel | |
WO2014045788A1 (en) | Image processing apparatus, image forming apparatus, and recording medium | |
JP4957668B2 (en) | Image processing device | |
JP2011228792A (en) | Image processing device | |
WO2015072542A1 (en) | Color conversion table creation device and method, program, and recording medium | |
JP5880056B2 (en) | Image data generation apparatus, image processing apparatus, image processing system, image data generation method, image processing method, image data generation program, and image processing program | |
US9967407B2 (en) | Image reading device and method, reading area display device and method, and program | |
US9813592B2 (en) | Image forming apparatus, storage medium, and color conversion method | |
JP2016139867A (en) | Color conversion table creation device, color conversion table creation method, and color conversion table creation program | |
JPH10210312A (en) | Color conversion device, color conversion method, and medium recording color conversion program | |
US9191536B2 (en) | Processing apparatus | |
JP4710672B2 (en) | Character color discrimination device, character color discrimination method, and computer program | |
JP2016225701A (en) | Image processing apparatus and image processing method | |
JP2009278258A (en) | Image processor, image processing method, program, and recording medium | |
JP6781398B2 (en) | Image processing equipment and computer programs | |
JPH09284534A (en) | Picture output controller | |
JP2016091341A (en) | Image processing device | |
JP2016051972A (en) | Image processing apparatus, program, and printed matter reading method | |
JP2007324864A (en) | Image processor, control method thereof, and program |