[go: up one dir, main page]

KR20220013187A - Document recognition system and method - Google Patents

Document recognition system and method Download PDF

Info

Publication number
KR20220013187A
KR20220013187A KR1020200092393A KR20200092393A KR20220013187A KR 20220013187 A KR20220013187 A KR 20220013187A KR 1020200092393 A KR1020200092393 A KR 1020200092393A KR 20200092393 A KR20200092393 A KR 20200092393A KR 20220013187 A KR20220013187 A KR 20220013187A
Authority
KR
South Korea
Prior art keywords
document
text
recognition
unit
item
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
KR1020200092393A
Other languages
Korean (ko)
Other versions
KR102391068B1 (en
Inventor
엄춘호
Original Assignee
엄춘호
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엄춘호 filed Critical 엄춘호
Priority to KR1020200092393A priority Critical patent/KR102391068B1/en
Publication of KR20220013187A publication Critical patent/KR20220013187A/en
Application granted granted Critical
Publication of KR102391068B1 publication Critical patent/KR102391068B1/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3335Syntactic pre-processing, e.g. stopword elimination, stemming
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/13Edge detection
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/1444Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Geometry (AREA)
  • Computer Graphics (AREA)
  • Computational Linguistics (AREA)
  • Character Input (AREA)

Abstract

Disclosed are a document recognition system and method capable of recognizing a document with a high recognition rate irrespective of tilt, perspective distortion, ratio, scale, and the like. According to one embodiment of the present invention, the document recognition system comprises: a preprocessing unit detecting a line in a table of a document in which one or more texts are written in a text area and removing the line in the table; a text recognition unit recognizing the texts of the document from which the line of the table is removed by optical character recognition (OCR); an outline detection unit determining the density and meaning of text on the basis of word dictionary data and detecting an outline of the text according to an entered keyword; an area determination unit determining an outer area in which the text is written among the entire area of the document through the outline of the text; a document analysis unit classifying documents on the basis of the text to determine a type of document; a tilt detection unit detecting a tilt of the document; and a document recognition unit detecting a title of the document by a preset template and recognizing the document by considering the tilt of the document.

Description

문서 인식 시스템 및 방법{Document recognition system and method}Document recognition system and method

본 발명은 문서 인식 시스템 및 방법에 관한 것으로, 보다 상세하게는 기울기, 원근 왜곡, 비율 및 축척 등과 관계없이 높은 인식률로 문서를 인식할 수 있는 문서 인식 시스템 및 방법에 관한 것이다.The present invention relates to a document recognition system and method, and more particularly, to a document recognition system and method capable of recognizing a document with a high recognition rate regardless of tilt, perspective distortion, ratio, scale, and the like.

디지털 저장 매체의 급속한 보급에 따라 기존에 지면으로 존재하였던 문서들에 대한 디지털화 작업이 활발히 전개되고 있다. 이와 같은 현상은 문서에 포함된 문자를 자동으로 인식하는 기술인 광학 문자 인식 기술(optical character recognition, OCR)의 발전에 따라 더욱 더 가속화되고 있는 실정이다.With the rapid spread of digital storage media, digitization of documents that existed previously on paper is being actively developed. Such a phenomenon is being accelerated with the development of optical character recognition (OCR), which is a technology for automatically recognizing characters included in a document.

이러한 광학 문자 인식 기술과 관련된 선행기술로는 대한민국 등록특허공보 제10-1686363호(이하, '선행기술 1') 및 대한민국 등록특허공보 제10-1114135호(이하, '선행기술 2')가 개시된 바 있다.As prior art related to such optical character recognition technology, Korean Patent Registration No. 10-1686363 (hereinafter 'Prior Art 1') and Korean Patent Publication No. 10-1114135 (hereinafter 'Prior Art 2') have been disclosed. there is a bar

한편, 종래에는 문서의 인식률을 고려하여 스캐너로 문서를 스캔(scan)한 후, 광학 문자 인식 기술으로 문서를 인식하는 것이 일반적이었으나, 기술들의 신속한 진보에 따라 스캐너에 의한 문서의 스캔 뿐만 아니라, 단말 또는 디바이스로 촬영한 문서의 이미지를 통해 문서를 인식하는 기술이 연구되고 있다.On the other hand, in the prior art, after scanning a document with a scanner in consideration of the recognition rate of the document, it has been common to recognize the document using optical character recognition technology. Alternatively, a technology for recognizing a document through an image of the document captured by a device is being studied.

이러한 단말 또는 디바이스로 촬영한 문서를 인식하는 과정은 문서의 이미지로부터 문서의 윤곽선을 검출한 후, 사용자가 윤곽선을 따라 문서의 이미지를 크롭(crop)한 다음 광학 문자 인식 기술을 이용하여 문서를 인식하는 것이다.In the process of recognizing a document shot with such a terminal or device, after detecting the outline of the document from the image of the document, the user crops the image of the document along the outline, and then recognizing the document using optical character recognition technology will do

그러나 단말 또는 디바이스로 문서를 촬영하는 과정에서 문서의 이미지가 비정상적으로 촬영되거나, 또는 사용자가 문서의 이미지를 크롭하는 과정에서 문서의 이미지가 비정상적으로 크롭되는 경우, 문서의 인식에 오류가 발생되는 문제점이 있었다.However, when an image of a document is abnormally captured in the process of photographing a document with a terminal or device, or when the image of a document is abnormally cropped while a user crops the image of the document, an error occurs in document recognition there was

또한, 종래에는 문서에 출력된 테이블의 선을 포함하여 문서를 인식하므로 문서의 인식 속도가 느려지며, 기설정된 템플릿에 의해 나누어진 블록으로 문서를 인식하므로 문서의 촬영 방식에 따라 기울기 및 원근 왜곡 등이 발생되는 경우 문서의 정확한 인식이 불가능한 문제점이 있었다.In addition, in the prior art, since the document is recognized including the lines of the table output to the document, the recognition speed of the document is slowed, and since the document is recognized as a block divided by a preset template, tilt and perspective distortion, etc. When this occurs, there is a problem in that it is impossible to accurately recognize the document.

대한민국 등록특허공보 제10-1686363호(2016. 12. 07. 등록)Republic of Korea Patent Publication No. 10-1686363 (registered on Dec. 07, 2016) 대한민국 등록특허공보 제10-1114135호(2012. 02. 01. 등록)Republic of Korea Patent Publication No. 10-1114135 (Registered on 02.01.2012)

따라서, 본 발명은 상기와 같은 문제점을 해결하기 위해 안출된 것으로서, 기울기, 원근 왜곡, 비율 및 축척 등과 관계없이 높은 인식률로 문서를 인식할 수 있는 문서 인식 시스템 및 방법을 제공하는데 목적이 있다.Accordingly, the present invention has been devised to solve the above problems, and an object of the present invention is to provide a document recognition system and method capable of recognizing a document with a high recognition rate regardless of tilt, perspective distortion, ratio, scale, and the like.

또한, 본 발명은 단말 또는 디바이스로 촬영된 문서, 스캐너에 의해 정상적 또는 비정상적으로 스캐닝된 문서를 높은 인식률로 인식할 수 있는 문서 인식 시스템 및 방법을 제공하는데 목적이 있다.Another object of the present invention is to provide a document recognition system and method capable of recognizing a document photographed by a terminal or device, or a document normally or abnormally scanned by a scanner, with a high recognition rate.

다만, 본 발명에서 이루고자 하는 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급하지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.However, the technical problems to be achieved in the present invention are not limited to the technical problems mentioned above, and other technical problems not mentioned are clearly to those of ordinary skill in the art to which the present invention belongs from the description below. can be understood

상기와 같은 목적을 달성하기 위한 기술적 수단으로 문자 인식 시스템에 있어서, 텍스트 영역에 텍스트가 하나 이상 기재된 문서의 테이블의 선을 검출한 후, 상기 테이블의 선을 제거하는 전처리부; 테이블의 선이 제거된 문서의 텍스트를 OCR(optical character recognition)로 인식하는 텍스트 인식부; 기입력된 키워드 또는 의미없는 텍스트를 제거하여 문서에 기재된 텍스트의 윤곽을 검출하는 윤곽 검출부; 텍스트의 윤곽을 통해 문서의 전체 영역 중 텍스트가 기재된 외곽 영역을 판단하는 영역 판단부; 텍스트를 기반으로 문서를 분류하여 문서의 종류를 판별하는 문서 분석부; 문서의 기울기를 검출하는 기울기 검출부; 및 기설정된 템플릿에 의해 문서의 항목에 값이 기재되는지 여부를 판단한 후, 항목과 항목의 값을 연결하는 기준선을 형성하며, 기준선을 통해 검출된 기울기를 대입하여 문서를 인식하는 문서 인식부;를 포함한다.As a technical means for achieving the above object, in a character recognition system, a preprocessor for detecting a line in a table of a document in which one or more texts are written in a text area, and then removing the line in the table; A text recognition unit for recognizing the text of the document from which the line of the table is removed by OCR (optical character recognition); an outline detection unit for detecting an outline of text written in a document by removing the entered keyword or meaningless text; an area determination unit that determines an outer area in which text is written among the entire area of the document through the outline of the text; a document analysis unit for classifying documents based on text to determine the types of documents; a tilt detection unit for detecting a tilt of the document; and a document recognition unit that determines whether a value is written in an item of a document by a preset template, forms a reference line connecting the item and the value of the item, and recognizes the document by substituting the gradient detected through the reference line; include

또한, 기울기 검출부는, 기준선을 복수로 형성하여 문서를 복수의 영역으로 나누며, 기준선이 기울어진 정도를 각각 계산하여 문서의 기울기를 검출한다.In addition, the tilt detection unit divides the document into a plurality of regions by forming a plurality of reference lines, and detects the tilt of the document by calculating the degree of inclination of the reference line.

그리고 기준선은, 문서의 텍스트를 연결하도록 수평 방향으로 연장형성되어, 문서가 복수의 영역을 통해 수직 방향으로 나누어지도록 한다.In addition, the reference line extends in the horizontal direction to connect the text of the document, so that the document is divided in the vertical direction through a plurality of regions.

또한, 템플릿은, 문서의 제목, 텍스트 영역, 텍스트 영역에 포함된 항목, 항목의 텍스트 및 항목의 위치가 저장된다.In addition, in the template, the title of the document, the text area, the item included in the text area, the text of the item, and the location of the item are stored.

그리고 문서는, 단말 또는 디바이스에 기저장된 문서, 스캐너에 의해 정상적으로 스캐닝된 문서 및 스캐너에 의해 비정상적으로 스캐닝된 문서 및 휴대폰 카메라로 촬영된 문서 또는 기타 디바이스로 촬영된 문서 중 적어도 하나이다.The document is at least one of a document pre-stored in the terminal or device, a document normally scanned by the scanner, a document abnormally scanned by the scanner, a document photographed by a mobile phone camera, or a document photographed by another device.

또한, 키워드는, 단어사전 데이터에 포함된 텍스트 또는 문서 인식부를 통해 인식될 문서로부터 수집한 텍스트이다.Also, the keyword is text included in the word dictionary data or text collected from a document to be recognized through the document recognition unit.

그리고 문서 분석부는, 문서에 하나 이상 기재된 텍스트, 텍스트가 기재된 위치, 문서에 기재된 제목의 텍스트, 제목 텍스트의 크기, 항목의 텍스트 크기 비율 및 문서별로 기재되는 특별 키워드를 통해 문서를 분류하여 문서의 종류를 판별한다.In addition, the document analysis unit classifies documents based on one or more texts in the document, the position of the text, the text of the title written in the document, the size of the title text, the text size ratio of the item, and a special keyword written for each document to classify the document type to determine

상기와 같은 목적을 달성하기 위한 기술적 방법으로 문자 인식 방법에 있어서, 전처리부가 텍스트 영역에 텍스트가 하나 이상 기재된 문서의 테이블의 선을 검출한 후, 상기 테이블의 선을 제거하는 단계; 텍스트 인식부가 테이블의 선이 제거된 문서의 텍스트를 OCR로 인식하는 단계; 윤곽 검출부가 기입력된 키워드 또는 의미없는 텍스트를 제거하여 문서에 기재된 텍스트의 윤곽을 검출하는 단계; 영역 판단부가 텍스트의 윤곽을 통해 문서의 전체 영역 중 텍스트가 기재된 외곽 영역을 판단하는 단계; 문서 분석부가 상기 텍스트를 기반으로 문서를 분류하여 문서의 종류를 판별하는 단계; 기울기 검출부가 상기 문서의 기울기를 검출하는 단계; 및 문서 인식부가 기설정된 템플릿에 의해 문서의 항목에 값이 기재되는지 여부를 판단한 후, 항목과 항목의 값을 연결하는 기준선을 형성하며, 기준선을 통해 검출된 기울기를 대입하여 문서를 인식하는 단계;를 포함한다.In a character recognition method as a technical method for achieving the above object, the method comprising: a preprocessor detecting a line in a table of a document in which one or more texts are written in a text area, and then removing the line in the table; Recognizing, by the text recognition unit, the text of the document from which the lines of the table are removed by OCR; detecting, by the outline detecting unit, the outline of the text written in the document by removing the entered keyword or meaningless text; determining, by the area determination unit, an outer area in which text is written among the entire area of the document based on the outline of the text; classifying the document based on the text by the document analyzing unit to determine the type of the document; detecting a tilt of the document by a tilt detection unit; and after the document recognition unit determines whether a value is written in an item of the document by a preset template, forming a reference line connecting the item and the value of the item, and substituting a gradient detected through the reference line to recognize the document; includes

본 발명에 따르면, 문서를 높은 인식률로 인식하여 편의성 및 비용절감에 기여할 수 있다.According to the present invention, it is possible to contribute to convenience and cost reduction by recognizing a document with a high recognition rate.

또한, 본 발명에 따르면, 문서 인식의 자동화를 구현하여 편의성 및 비용절감에 기여할 수 있다.In addition, according to the present invention, it is possible to contribute to convenience and cost reduction by implementing automation of document recognition.

다만, 본 발명에서 얻을 수 있는 효과는 이상에서 언급한 효과들로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.However, the effects obtainable in the present invention are not limited to the above-mentioned effects, and other effects not mentioned will be clearly understood by those of ordinary skill in the art to which the present invention belongs from the following description. will be able

도 1은 본 발명의 일 실시예에 따른 문서 인식 시스템의 개념도이다.
도 2는 본 발명의 일 실시예에 따른 문서 인식 시스템을 나타내는 블록도이다.
도 3은 문서의 일례를 나타내는 도면이다.
도 4는 테이블의 선이 제거된 문서의 일례를 나타내는 도면이다.
도 5는 복수의 기준선에 따라 영역이 복수로 나누어진 문서의 일례를 나타내는 도면이다.
도 6은 본 발명의 문서 인식부를 통해 인식된 문서의 일례를 나타내는 도면이다.
도 7은 본 발명의 일 실시예에 따른 문서 인식 방법을 나타내는 흐름도이다.
1 is a conceptual diagram of a document recognition system according to an embodiment of the present invention.
2 is a block diagram illustrating a document recognition system according to an embodiment of the present invention.
3 is a diagram illustrating an example of a document.
Fig. 4 is a diagram showing an example of a document in which the lines in the table are removed.
5 is a diagram illustrating an example of a document in which a region is divided into a plurality along a plurality of reference lines.
6 is a view showing an example of a document recognized through the document recognition unit of the present invention.
7 is a flowchart illustrating a document recognition method according to an embodiment of the present invention.

이하에서는, 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명에 관한 설명은 구조적 내지 기능적 설명을 위한 실시예에 불과하므로, 본 발명의 권리범위는 본문에 설명된 실시예에 의하여 제한되는 것으로 해석되어서는 아니 된다. 즉, 실시예는 다양한 변경이 가능하고 여러 가지 형태를 가질 수 있으므로 본 발명의 권리범위는 기술적 사상을 실현할 수 있는 균등물들을 포함하는 것으로 이해되어야 한다. 또한, 본 발명에서 제시된 목적 또는 효과는 특정 실시예가 이를 전부 포함하여야 한다거나 그러한 효과만을 포함하여야 한다는 의미는 아니므로, 본 발명의 권리범위는 이에 의하여 제한되는 것으로 이해되어서는 아니 될 것이다.Hereinafter, with reference to the accompanying drawings, embodiments of the present invention will be described in detail so that those of ordinary skill in the art to which the present invention pertains can easily implement them. However, since the description of the present invention is merely an embodiment for structural or functional description, the scope of the present invention should not be construed as being limited by the embodiment described in the text. That is, since the embodiment may have various changes and may have various forms, it should be understood that the scope of the present invention includes equivalents capable of realizing the technical idea. In addition, since the object or effect presented in the present invention does not mean that a specific embodiment should include all of them or only such effects, it should not be understood that the scope of the present invention is limited thereby.

본 발명에서 서술되는 용어의 의미는 다음과 같이 이해되어야 할 것이다.The meaning of the terms described in the present invention should be understood as follows.

"제1", "제2" 등의 용어는 하나의 구성요소를 다른 구성요소로부터 구별하기 위한 것으로, 이들 용어들에 의해 권리범위가 한정되어서는 아니 된다. 예를 들어, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 어떤 구성요소가 다른 구성요소에 "연결되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결될 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다고 언급된 때에는 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다. 한편, 구성요소들 간의 관계를 설명하는 다른 표현들, 즉 "~사이에"와 "바로 ~사이에" 또는 "~에 이웃하는"과 "~에 직접 이웃하는" 등도 마찬가지로 해석되어야 한다.Terms such as “first” and “second” are for distinguishing one component from another, and the scope of rights should not be limited by these terms. For example, a first component may be termed a second component, and similarly, a second component may also be termed a first component. When a component is referred to as being “connected to” another component, it may be directly connected to the other component, but it should be understood that other components may exist in between. On the other hand, when it is mentioned that a certain element is "directly connected" to another element, it should be understood that the other element does not exist in the middle. Meanwhile, other expressions describing the relationship between elements, that is, "between" and "between" or "neighboring to" and "directly adjacent to", etc., should be interpreted similarly.

단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한 복수의 표현을 포함하는 것으로 이해되어야 하고, "포함하다" 또는 "가지다" 등의 용어는 설시된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함을 지정하려는 것이며, 하나 또는 그 이상의 다른 특징이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.The singular expression is to be understood to include the plural expression unless the context clearly dictates otherwise, and terms such as "comprise" or "have" are not intended to refer to the specified feature, number, step, action, component, part or any of them. It is intended to indicate that a combination exists, and it should be understood that it does not preclude the possibility of the existence or addition of one or more other features or numbers, steps, operations, components, parts, or combinations thereof.

여기서 사용되는 모든 용어들은 다르게 정의되지 않는 한, 본 발명이 속하는 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 것으로 해석되어야 하며, 본 발명에서 명백하게 정의하지 않는 한 이상적이거나 과도하게 형식적인 의미를 지니는 것으로 해석될 수 없다.All terms used herein have the same meaning as commonly understood by one of ordinary skill in the art to which the present invention belongs, unless otherwise defined. Terms defined in the dictionary should be interpreted as being consistent with the meaning of the context of the related art, and cannot be interpreted as having an ideal or excessively formal meaning unless explicitly defined in the present invention.

문서 인식 시스템document recognition system

이하에서는, 첨부된 도면들을 참조하여 바람직한 실시예의 문서 인식 시스템(1)에 대해 자세히 설명하도록 하겠다.Hereinafter, the document recognition system 1 of a preferred embodiment will be described in detail with reference to the accompanying drawings.

도 1은 본 발명의 일 실시예에 따른 문서 인식 시스템의 개념도이며, 도 2는 본 발명의 일 실시예에 따른 문서 인식 시스템을 나타내는 블록도이고, 도 3은 문서의 일례를 나타내는 도면이며, 도 4는 테이블의 선이 제거된 문서의 일례를 나타내는 도면이고, 도 5는 복수의 기준선에 따라 영역이 복수로 나누어진 문서의 일례를 나타내는 도면이며, 도 6은 본 발명의 문서 인식부를 통해 인식된 문서의 일례를 나타내는 도면이다.1 is a conceptual diagram of a document recognition system according to an embodiment of the present invention, FIG. 2 is a block diagram illustrating a document recognition system according to an embodiment of the present invention, FIG. 3 is a diagram illustrating an example of a document, and FIG. 4 is a diagram showing an example of a document in which the lines of the table have been removed, FIG. 5 is a diagram showing an example of a document in which an area is divided into a plurality according to a plurality of reference lines, and FIG. 6 is a document recognized through the document recognition unit of the present invention It is a figure which shows an example of a document.

도 1을 참조하면, 문서 인식 시스템(1)은 기울기, 원근 왜곡, 비율 및 축척 등과 관계없이 높은 인식률로 문서(2)를 인식하는 것이 가능하며, 문서(2)의 인식 정보를 서버(100)에 전달할 수 있다.Referring to FIG. 1 , the document recognition system 1 is capable of recognizing a document 2 with a high recognition rate regardless of tilt, perspective distortion, ratio and scale, etc., and transfers recognition information of the document 2 to the server 100 . can be forwarded to

다만, 문서 인식 시스템(1)은 문서(2)의 인식 정보를 반드시 서버(100)에 전달하는 것은 아니며, 문서(2)의 인식 정보를 서버(100)가 아닌 사용자 단말 등의 장치로 전달하는 것이 가능하다.However, the document recognition system 1 does not necessarily transmit the recognition information of the document 2 to the server 100, and transfers the recognition information of the document 2 to a device such as a user terminal rather than the server 100. it is possible

또한, 문서 인식 시스템(1)은 사용자 업체, 제공 업체가 운영하는 컴퓨터, 클라우드, 서버, 네트워크 중 하나로 구현되어 서버(100)를 대체할 수 있다.In addition, the document recognition system 1 may be implemented as one of a computer, a cloud, a server, and a network operated by a user company or a provider to replace the server 100 .

문서(2)는 텍스트 영역(2b)에 텍스트가 하나 이상 기재되는 단말 또는 디바이스에 기저장된 문서, 스캐너에 의해 정상적으로 스캐닝된 문서, 스캐너에 의해 비정상적으로 스캐닝된 문서 및 휴대폰 카메라로 촬영된 문서 또는 기타 디바이스로 촬영된 문서 중 적어도 하나이며, 구체적인 일례로 사용자 업체에서 사용 가능한 사업자등록증, 부동산계약서, 수출입문서, 진료비영수증, 진료세부내역서, 계량증명서, 신분증, 인수증, 통장사본, Invoice, BL(bill of lating), LC(letter of credit) 등의 문서를 의미할 수 있다.The document 2 is a document previously stored in a terminal or device in which one or more texts are written in the text area 2b, a document normally scanned by a scanner, a document scanned abnormally by a scanner, and a document photographed with a mobile phone camera or other It is at least one of the documents captured by the device, and as a specific example, a business registration certificate, real estate contract, import/export document, medical expense receipt, medical detailed statement, measurement certificate, ID, receipt certificate, copy of bankbook, invoice, bill of lating), LC (letter of credit), etc. may mean documents.

서버(100)는 문서 인식 시스템(1)으로부터 문서(2)의 인식 정보를 수신하며, 수신한 문서(2)의 인식 정보를 데이터베이스(200)로 전달할 수 있다.The server 100 may receive recognition information of the document 2 from the document recognition system 1 , and transmit the received recognition information of the document 2 to the database 200 .

여기서, 서버(100)는 사용자 업체, 제공 업체가 운영하는 컴퓨터, 클라우드 또는 네트워크일 수 있다.Here, the server 100 may be a user company, a computer operated by a provider, a cloud, or a network.

이러한 서버(100)는 문서(2)의 인식 정보를 반드시 데이터베이스(200)에 전달하는 것은 아니며, 문서(2)의 인식 정보를 사용자 단말 등의 장치로 전달하는 것이 가능하다.The server 100 does not necessarily transmit the recognition information of the document 2 to the database 200, and it is possible to transmit the recognition information of the document 2 to a device such as a user terminal.

또한, 서버(100)는 문서 인식 시스템(1)에 의해 대체되는 경우, 문서 인식 시스템(1)에 의해 역할이 대체됨에 따라, 구성이 생략될 수 있다.In addition, when the server 100 is replaced by the document recognition system 1 , as the role is replaced by the document recognition system 1 , the configuration may be omitted.

데이터베이스(200)는 문서 인식 시스템(1) 또는 서버(100)로부터 수신하는 문서(2)의 인식 정보를 저장할 수 있다.The database 200 may store recognition information of the document 2 received from the document recognition system 1 or the server 100 .

여기서, 데이터베이스(200)는 문서 인식 시스템(1) 또는 서버(100)를 운영하는 사용자 업체 또는 제공 업체의 데이터베이스일 수 있다.Here, the database 200 may be a database of a user company or a provider operating the document recognition system 1 or the server 100 .

사용자 업체 또는 제공 업체는 상기의 문서 인식 시스템(1)이 문서(2)를 인식하는 과정부터 데이터베이스(200)에 문서(2)의 인식 정보가 저장되는 과정을 통해 해당 문서(2)의 인식 과정을 자동화로 구현할 수 있다.The user company or the provider recognizes the document 2 through the process of storing the recognition information of the document 2 in the database 200 from the process in which the document recognition system 1 recognizes the document 2 can be implemented with automation.

한편, 상기 문서 인식 시스템(1), 서버(100) 및 데이터베이스(200)는 하나의 시스템으로 구현되어 문서(2)를 인식하는 과정부터 문서(2)의 인식 정보를 저장하는 과정이 하나의 구성요소로부터 이루어질 수 있고, 또는 다수의 구성요소로부터 이루어질 수 있다.On the other hand, the document recognition system 1, the server 100, and the database 200 are implemented as one system so that the process of recognizing the document 2 to the process of storing the recognition information of the document 2 is one configuration. It may be made from an element, or it may be made from multiple components.

도 2 내지 도 6을 참조하면, 문서 인식 시스템(1)은 문서(2)의 인식을 위해 전처리부(10), 텍스트 인식부(20), 윤곽 검출부(30), 영역 판단부(40), 문서 분석부(50), 기울기 검출부(60) 및 문서 인식부(70)를 포함하도록 구성된다.2 to 6 , the document recognition system 1 includes a preprocessor 10 , a text recognition unit 20 , an outline detection unit 30 , an area determination unit 40 for recognition of the document 2 , It is configured to include a document analysis unit 50 , a tilt detection unit 60 , and a document recognition unit 70 .

이러한 문서 인식 시스템(1)의 구성요소는 상기와 같이 한정하는 것은 아니라 필요에 따라 구성요소가 추가되거나 생략될 수 있으며, 후술될 문서(2)의 인식 과정 순서가 변경될 수 있다.The components of the document recognition system 1 are not limited as described above, and components may be added or omitted as necessary, and the order of the recognition process of the document 2 to be described later may be changed.

전처리부(10)는 문서(2)의 테이블의 선(2a)을 검출한 후, 도 4에 도시된 바와 같이 문서(2) 테이블의 선(2a)을 제거한다.After detecting the line 2a of the table of the document 2, the pre-processing unit 10 removes the line 2a of the table of the document 2 as shown in FIG.

이와 같이, 전처리부(10)가 테이블의 선(2a)을 제거하는 것은 텍스트 인식부(20)에서 이루어지는 광학 문자 인식(OCR) 기반의 텍스트 인식 과정에서 테이블의 선(2a)을 이미지로 판독하는 오류를 방지하여 텍스트의 인식이 용이하게 이루어지도록 하며, 선을 제거하지 않고 인식할 경우 여러 블록으로 나누어 인식함으로써 발생되는 인식 속도의 저하를 방지하기 위함이다.In this way, the pre-processing unit 10 removes the table line 2a is to read the table line 2a as an image in the optical character recognition (OCR)-based text recognition process performed in the text recognition unit 20 This is to prevent errors so that text can be easily recognized, and to prevent a decrease in the recognition speed caused by dividing the recognition into several blocks when the line is recognized without removing the line.

또한, 전처리부(10)는 문서(2)의 테이블로부터 선(2a)을 제거하기 위해 문서(2)의 전처리 과정인 클린 업(clean up) 옵션을 문서(2)에 적용시킬 수 있다.Also, the pre-processing unit 10 may apply a clean up option, which is a pre-processing of the document 2 , to the document 2 in order to remove the line 2a from the table of the document 2 .

여기서, 클린 업 옵션은 문서(2)의 전처리(또는 편집) 과정에서 이루어지는 것이 바람직하며, 전처리부(10)는 문서(2)의 광학 문자 인식에서 인식되지 않는 테이블의 선(2a)을 검출한 후, 이를 툴(tool)로 드래그(drag)하여 제거하는 옵션이다.Here, it is preferable that the clean-up option is performed during the pre-processing (or editing) process of the document 2, and the pre-processing unit 10 detects the line 2a of the table that is not recognized in the optical character recognition of the document 2 After that, it is an option to remove it by dragging it with a tool.

텍스트 인식부(20)는 광학 문자 인식 기반의 텍스트 인식 과정을 통해 테이블의 선(2a)이 제거된 문서(2)의 텍스트 영역(2b)에 기재된 텍스트를 인식한다.The text recognition unit 20 recognizes text written in the text area 2b of the document 2 from which the line 2a of the table has been removed through a text recognition process based on optical character recognition.

여기서, 텍스트 인식부(20)에서 수행되는 광학 문자 인식 기반의 텍스트 인식 과정은 이진화(전처리), 세크멘테이션, 특징 추출 및 인식(분류)의 순차적인 과정을 포함할 수 있다. 이러한 텍스트 인식 과정은 공지된 기술이므로, 이에 대한 자세한 설명은 편의상 생략하도록 하겠다.Here, the text recognition process based on optical character recognition performed by the text recognition unit 20 may include sequential processes of binarization (pre-processing), segmentation, feature extraction, and recognition (classification). Since such a text recognition process is a known technique, a detailed description thereof will be omitted for convenience.

윤곽 검출부(30)는 기입력된 키워드(keyword) 또는 의미없는 텍스트를 제거하여 문서(2)에 기재된 텍스트의 윤곽을 검출(또는 판독)한다.The outline detection unit 30 detects (or reads) the outline of the text described in the document 2 by removing the entered keyword or meaningless text.

여기서, 키워드는 단어사전 데이터에 포함된 텍스트 또는 문서 인식부(70)에서 인식될 문서(2)로부터 수집한 텍스트를 의미한다.Here, the keyword means text included in the word dictionary data or text collected from the document 2 to be recognized by the document recognition unit 70 .

또한, 윤곽 검출부(30)는 문서(2)에 기재된 텍스트의 윤곽을 검출하는 과정에서 노이즈를 잘못 인식하는 경우, "?", "*", "!", "ㅌ", ">", "^", "?Q", "??", "??" 등의 의미없는 텍스트가 나열되어 문서(2)에 표시되도록 할 수 있다. 이를 통해, 사용자는 문서(2)의 인식 과정에 오류가 있다는 것을 확인할 수 있다.Also, when the outline detection unit 30 erroneously recognizes noise in the process of detecting the outline of the text described in the document 2, "?", "*", "!", "T", ">", " ^", "?Q", "??", "??" Meaningless text such as etc. may be listed and displayed in the document 2 . Through this, the user can confirm that there is an error in the recognition process of the document 2 .

영역 판단부(40)는 검출된 텍스트의 윤곽을 기반으로 문서(2)의 외곽 영역(2c)을 판단한다.The area determination unit 40 determines the outer area 2c of the document 2 based on the detected text outline.

여기서, 외곽 영역(2c)은 문서(2)의 전체 영역 중 텍스트가 기재된 영역을 판단하는 것이며, 외곽 영역(2c)을 제외한 나머지 문서(2)의 영역은 영역 판단부(40)에 의해 추출(또는 제거)될 수 있다.Here, the outer area 2c is to determine the area in which text is written among the entire area of the document 2, and the area of the document 2 other than the outer area 2c is extracted ( or removed).

또한, 영역 판단부(40)는 외곽 영역(2c)을 제외한 나머지 문서(2)의 영역을 추출함으로써, 문서 인식부(70)에서 문서(2)를 제외한 불필요한 이미지가 인식되는 것을 방지할 수 있다.In addition, the area determination unit 40 extracts the area of the remaining document 2 excluding the outer area 2c, thereby preventing the document recognition unit 70 from recognizing unnecessary images except for the document 2 .

문서 분석부(50)는 문서(2)에 기재된 하나 이상의 텍스트 및 상기 하나 이상의 텍스트가 기재된 위치를 기반으로 문서(2)를 분류하여 문서(2)의 종류를 판별한다.The document analysis unit 50 classifies the document 2 based on one or more texts described in the document 2 and a position in which the one or more texts are written to determine the type of the document 2 .

구체적인 일례로, 문서 분석부(50)는 문서(2)의 텍스트 영역에 기재된 항목(2e)의 텍스트로부터 특별 키워드인 '계량' 및 '계량일자'를 검출하는 경우, '계량' 및 '계량일자'의 기재 위치가 기설정된 위치와 동일하다면 문서(2)를 '계량증명서'로 판별할 수 있다. 여기서, 특별 키워드라 함은 문서(2)별로 반드시 기재되어야 하는 키워드(텍스트 또는 값)를 의미한다.As a specific example, when detecting special keywords 'measurement' and 'measurement date' from the text of item 2e described in the text area of the document 2, the document analysis unit 50 detects 'measurement' and 'measurement date' If the writing position of ' is the same as the preset position, it is possible to determine the document (2) as 'weighing certificate'. Here, the special keyword means a keyword (text or value) that must be described for each document 2 .

다른 예로, 문서 분석부(50)는 항목(2e)의 텍스트에 특별 키워드인 '주민번호' 및 '면허번호'가 기재된 것을 검출하는 경우에 문서(2)를 신분증으로 판별할 수 있으며, 항목(2e)의 텍스트에 특별 키워드인 '법인명(예금주)', '은행명' 및 '계좌번호' 중 하나 이상이 기재된 것을 검출하는 경우에 문서(2)를 통장사본으로 판별할 수 있고, 항목(2e)의 텍스트에 특별 키워드인 '법인등록번호', '개업연월일' 및 '사업장소재지' 중 하나 이상이 기재된 경우에 문서(2)를 사업자등록증으로 판별할 수 있으며, 항목(2e)의 텍스트에 특별 키워드인 '매매계약서', '매도인' 및 '매수인' 중 하나 이상이 기재된 것을 검출하는 경우에 문서(2)를 부동산계약서로 판별할 수 있다.As another example, the document analysis unit 50 may determine the document 2 as an identification card when detecting that special keywords 'resident number' and 'license number' are written in the text of the item 2e, and the item ( When it is detected that at least one of the special keywords 'corporate name (account holder)', 'bank name' and 'account number' is written in the text of 2e), the document (2) can be identified as a copy of the passbook, and the item ( If one or more of the special keywords 'corporation registration number', 'date of business' and 'place of business' are written in the text of 2e), document (2) can be identified as a business registration certificate, and in the text of item (2e), When it is detected that at least one of the special keywords 'purchase contract', 'seller' and 'buyer' is described, the document 2 may be determined as a real estate contract.

더 나아가, 문서 분석부(50)는 문서(2)에 기재된 제목(2d)의 텍스트, 상기 제목(2d)의 크기 및 항목(2e)의 텍스트 크기 비율을 판단하는 것으로 문서(2)를 분류하여 문서(2)의 종류를 판별할 수 있다.Furthermore, the document analysis unit 50 classifies the document 2 by determining the text of the title 2d described in the document 2, the size of the title 2d, and the text size ratio of the item 2e. The type of the document 2 can be determined.

구체적인 일례로, 문서 분석부(50)는 문서(2)에 기재된 제목(2d)의 텍스트로부터 특별 키워드인 '계량증명서'를 검출하는 경우, '계량증명서'의 텍스트 크기가 기설정된 크기와 동일하거나 제목(2d)과 다른 항목(2e)의 텍스트 크기 비율이 동일하거나 유사하다면 문서(2)를 '계량증명서'로 판별할 수 있다.As a specific example, when the document analysis unit 50 detects the special keyword 'measurement certificate' from the text of the title 2d described in the document 2, the text size of the 'measurement certificate' is the same as the preset size or If the text size ratio of the title (2d) and the other items (2e) is the same or similar, the document (2) can be determined as a 'measurement certificate'.

즉, 문서 분석부(50)는 문서(2)에 기재된 하나 이상의 텍스트와 상기 하나 이상의 텍스트 위치 뿐만 아니라, 제목(2d)의 텍스트, 상기 제목(2d)의 크기, 항목(2e)의 텍스트 크기 비율 및 특별 키워드를 통해 문서(2)를 분류하여 문서(2)의 종류를 판별하는 것이 바람직하다.That is, the document analyzing unit 50 determines the ratio of the text of the title 2d, the size of the title 2d, and the text size of the item 2e, as well as the one or more texts described in the document 2 and the positions of the one or more texts. And it is preferable to classify the document 2 through a special keyword to determine the type of the document 2 .

기울기 검출부(60)는 문서(2)의 영역에 기준선(61)을 복수로 형성하여 문서(2)를 복수의 영역(63)으로 나눈 후, 기준선(61)이 기울어진 정도를 각각 계산하여 문서(2)의 기울기를 검출한다.The tilt detection unit 60 forms a plurality of reference lines 61 in the area of the document 2 to divide the document 2 into a plurality of areas 63 , and calculates the degree of inclination of the reference line 61 , respectively The slope of (2) is detected.

구체적인 일례로, 기울기 검출부(60)는 문서(2)의 텍스트를 연결하도록 수평 방향으로 연장형성되는 복수의 기준선(61a, 61b, 61c, 61d, 61e, 61f, 61g)을 통해 문서(2)가 복수의 영역(63a, 63b, 63c, 63d, 63e, 63f, 63g, 63h)으로 문서(2)를 수직 방향으로 나누어지도록 하며, 복수의 기준선(61a, 61b, 61c, 61d, 61e, 61f, 61g)의 기울기를 각각 계산하여, 문서(2)의 영역별 기울기를 검출한다.As a specific example, the tilt detection unit 60 is the document 2 through a plurality of reference lines (61a, 61b, 61c, 61d, 61e, 61f, 61g) extending in the horizontal direction to connect the text of the document (2) The document 2 is vertically divided into a plurality of regions 63a, 63b, 63c, 63d, 63e, 63f, 63g, 63h, and a plurality of reference lines 61a, 61b, 61c, 61d, 61e, 61f, 61g ) is calculated, and the inclination of each area of the document 2 is detected.

여기서, 기울기 검출부(60)가 문서(2)의 영역에 복수의 기준선(61)을 형성하는 것은 문서(2)가 단말 또는 디바이스에 의해 촬영된 문서(2)인 경우, 촬영 각도 및 방식에 따라 문서(2)의 기울기가 부분별로 달라지며, 이러한 문서(2)의 기울기를 각각 계산해야 문서(2)의 기울기를 정확히 검출하는 것이 가능하여 문서(2)의 인식률이 향상되기 때문이다.Here, the tilt detection unit 60 forms the plurality of reference lines 61 in the area of the document 2 according to the shooting angle and method when the document 2 is a document 2 photographed by a terminal or device. This is because the inclination of the document 2 varies for each part, and it is possible to accurately detect the inclination of the document 2 only by calculating the inclination of each of these documents 2 , so that the recognition rate of the document 2 is improved.

문서 인식부(70)는 우선적으로 기설정된 템플릿에 의해 문서(2)의 항목(2e) 및 상기 항목(2e)의 값을 검출한다.The document recognition unit 70 preferentially detects the item 2e of the document 2 and the value of the item 2e by a preset template.

여기서, 템플릿은 문서(2)의 인식을 위해 문서(2)의 제목(2d), 텍스트 영역(2b), 텍스트 영역(2b)에 포함된 항목(2e), 항목(2e)의 텍스트 및 항목(2e)의 위치 등이 저장되고, 제목(2d)은 문서(2)의 종류를 구분하기 위한 요소이며, 항목(2e)은 문서(2)의 종류에 따라 필요한 텍스트가 기재되는 요소를 의미한다.Here, the template includes the title 2d of the document 2, the text area 2b, the item 2e included in the text area 2b, the text of the item 2e, and the item ( The location of 2e) is stored, the title 2d is an element for classifying the type of the document 2, and the item 2e refers to an element in which text required according to the type of the document 2 is described.

또한, 문서 인식부(70)는 항목(2e) 및 상기 항목(2e)의 값을 검출한 후, 검출한 문서(2)의 기울기를 대입하여 문서(2)를 인식한다.In addition, the document recognition unit 70 detects the item 2e and the value of the item 2e, and then substitutes the detected inclination of the document 2 to recognize the document 2 .

구체적인 일례로, 문서 인식부(70)는 기설정된 템플릿에 의해 항목(2e)의 우측에 기재된 항목(2e)의 값(예: 도 5의 '8710'(차량번호), '15:47:22 39,860 kg'(총중량))이 기재된 것으로 판단하는 경우, 항목(2e)과 상기 항목(2e)의 값을 연결하는 기준선(61)을 통해 검출된 기울기를 대입하여 항목(2e)과 상기 항목(2e)의 값을 정확하게 인식할 수 있으며, 이러한 과정을 통해 제목(2d)을 인식함으로써 문서(2)를 정확하게 인식할 수 있다.As a specific example, the document recognition unit 70 may set the value of the item 2e described on the right side of the item 2e by a preset template (eg, '8710' (vehicle number) in FIG. 5, '15:47:22 39,860 kg' (gross weight)), by substituting the detected slope through the reference line 61 connecting the values of item (2e) and item (2e), item (2e) and item (2e) ) can be accurately recognized, and the document 2 can be accurately recognized by recognizing the title 2d through this process.

여기서, 항목(2e)의 값은 항목(2e)의 우측에 기재된 것으로 설명하였으나 우측 뿐만 아니라, 항목(2e)을 기준으로 좌측, 하측, 상측, 대각선 방향 등에 기재될 수 있다.Here, the value of the item (2e) has been described as described on the right side of the item (2e), but it may be described not only on the right side, but also on the left, bottom, upper side, diagonal direction, etc. based on the item (2e).

그리고 문서 인식부(70)는 문서(2)를 인식하는 과정에서 문서(2)를 제외한 나머지 불필요한 이미지를 제거할 수 있다. 다만, 영역 판단부(40)에서 문서(2)의 외곽 영역(2c)이 판단됨에 따라, 상기의 불필요한 이미지 제거 과정은 생략될 수 있다.In addition, the document recognition unit 70 may remove unnecessary images other than the document 2 in the process of recognizing the document 2 . However, as the region determining unit 40 determines the outer region 2c of the document 2 , the unnecessary image removal process may be omitted.

상기 문서 인식 시스템(1)은 문서(2)의 인식을 위한 CNN(convolution neural network) 알고리즘 또는 ANN(artificial neural network) 알고리즘이 기저장될 수 있다.In the document recognition system 1 , a convolution neural network (CNN) algorithm or an artificial neural network (ANN) algorithm for recognizing the document 2 may be pre-stored.

즉, 상기 문서 인식 시스템(1)은 문서(2)를 인식하는 과정을 CNN 알고리즘 또는 ANN 알고리즘에 학습시킨 후, 학습이 완료된 CNN 알고리즘 또는 ANN 알고리즘이 상기 전처리부(10), 텍스트 인식부(20), 윤곽 검출부(30), 영역 판단부(40), 문서 분석부(50), 기울기 검출부(60) 및 문서 인식부(70)의 각 과정을 제어하여 문서(2)를 인식하는 것이 바람직하다.That is, the document recognition system 1 learns the process of recognizing the document 2 to the CNN algorithm or ANN algorithm, and then the CNN algorithm or ANN algorithm that has been trained is performed by the pre-processing unit 10 and the text recognition unit 20 ), it is preferable to recognize the document 2 by controlling each process of the outline detection unit 30, the area determination unit 40, the document analysis unit 50, the inclination detection unit 60, and the document recognition unit 70. .

문서 인식 방법How to recognize documents

이하에서는, 첨부된 도면을 참조하여 상기 문서 인식 시스템(1)을 이용한 바람직한 실시예의 문서 인식 방법에 대해 자세히 설명하도록 하겠다.Hereinafter, a document recognition method of a preferred embodiment using the document recognition system 1 will be described in detail with reference to the accompanying drawings.

도 7은 본 발명의 일 실시예에 따른 문서 인식 방법을 나타내는 흐름도이다.7 is a flowchart illustrating a document recognition method according to an embodiment of the present invention.

먼저, 전처리부(10)는 텍스트 영역(2b)에 텍스트가 하나 이상 기재되는 문서의 테이블의 선(2a)을 검출한 후, 테이블의 선(2a)을 제거할 수 있다(S1).First, the preprocessor 10 may detect a line 2a of a table of a document in which one or more texts are written in the text area 2b, and then remove the line 2a of the table (S1).

상기 단계(S1) 후, 텍스트 인식부(20)는 광학 문자 인식 기반의 텍스트 인식 과정을 통해 문서의 텍스트 영역(2b)에 기재된 텍스트를 인식할 수 있다(S2).After the step (S1), the text recognition unit 20 may recognize the text written in the text area 2b of the document through a text recognition process based on optical character recognition (S2).

상기 단계(S2) 후, 윤곽 검출부(30)는 기입력된 키워드 또는 의미없는 텍스트를 제거하여 문서(2)에 기재된 텍스트의 윤곽을 검출할 수 있다(S3).After the step (S2), the outline detection unit 30 may detect the outline of the text described in the document 2 by removing the entered keyword or meaningless text (S3).

상기 단계(S3) 후, 영역 판단부(40)는 문서(2)의 윤곽선을 통해 문서(2)의 외곽 영역(2c)을 판단할 수 있다(S4).After the step S3, the area determination unit 40 may determine the outer area 2c of the document 2 through the outline of the document 2 (S4).

상기 단계(S4) 후, 문서 분석부(50)는 문서(2)에 기재된 텍스트, 바람직하게는 문서(2)에 기재된 하나 이상의 텍스트와 상기 하나 이상의 텍스트 위치, 제목(2d)의 텍스트, 상기 제목(2d) 텍스트의 크기, 항목(2e)의 텍스트 크기 비율 및 특별 키워드를 통해 문서(2)를 분류하여 문서(2)의 종류를 판별할 수 있다(S5).After the step S4 , the document analysis unit 50 is configured to generate the text described in the document 2 , preferably the one or more texts described in the document 2 and the position of the one or more texts, the text of the title 2d, the title (2d) The type of the document 2 can be determined by classifying the document 2 through the text size, the text size ratio of the item 2e, and the special keyword (S5).

상기 단계(S5) 후, 기울기 검출부(60)는 문서(2)의 기울기를 검출할 수 있다(S6).After the step (S5), the tilt detection unit 60 may detect the tilt of the document 2 (S6).

상기 단계(S6) 후, 문서 인식부(70)는 기설정된 템플릿에 의해 문서(2)의 항목(2e)을 검출한 후(S7), 항목(2e)과 상기 항목(2e)의 값을 연결하는 기준선(61)에 따라 검출된 기울기를 대입하여 항목(2e)과 상기 항목(2e)의 값을 인식하며, 이 과정으로 제목(2d)도 인식하여 문서(2)를 인식할 수 있다(S8).After the step S6, the document recognition unit 70 detects the item 2e of the document 2 by a preset template (S7), and then connects the item 2e and the value of the item 2e By substituting the detected slope along the reference line 61 to recognize the item 2e and the value of the item 2e, the document 2 can be recognized by recognizing the title 2d through this process (S8) ).

상술한 바와 같이 개시된 본 발명의 바람직한 실시예들에 대한 상세한 설명은 당업자가 본 발명을 구현하고 실시할 수 있도록 제공되었다. 상기에서는 본 발명의 바람직한 실시예들을 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 본 발명의 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다. 예를 들어, 당업자는 상술한 실시예들에 기재된 각 구성을 서로 조합하는 방식으로 이용할 수 있다. 따라서, 본 발명은 여기에 나타난 실시형태들에 제한되려는 것이 아니라, 여기서 개시된 원리들 및 신규한 특징들과 일치하는 최광의 범위를 부여하려는 것이다.The detailed description of the preferred embodiments of the present invention disclosed as described above is provided to enable any person skilled in the art to make and practice the present invention. Although the above has been described with reference to preferred embodiments of the present invention, it will be understood by those skilled in the art that various modifications and changes can be made to the present invention without departing from the scope of the present invention. For example, those skilled in the art can use each configuration described in the above-described embodiments in a way in combination with each other. Accordingly, the present invention is not intended to be limited to the embodiments shown herein but is to be accorded the widest scope consistent with the principles and novel features disclosed herein.

본 발명은 본 발명의 정신 및 필수적 특징을 벗어나지 않는 범위에서 다른 특정한 형태로 구체화될 수 있다. 따라서, 상기의 상세한 설명은 모든 면에서 제한적으로 해석되어서는 아니 되고 예시적인 것으로 고려되어야 한다. 본 발명의 범위는 첨부된 청구항의 합리적 해석에 의해 판별되어야 하고, 본 발명의 등가적 범위 내에서의 모든 변경은 본 발명의 범위에 포함된다. 본 발명은 여기에 나타난 실시형태들에 제한되려는 것이 아니라, 여기서 개시된 원리들 및 신규한 특징들과 일치하는 최광의 범위를 부여하려는 것이다. 또한, 특허청구범위에서 명시적인 인용 관계가 있지 않은 청구항들을 결합하여 실시예를 구성하거나 출원 후의 보정에 의해 새로운 청구항으로 포함할 수 있다.The present invention may be embodied in other specific forms without departing from the spirit and essential characteristics of the present invention. Accordingly, the above detailed description should not be construed as restrictive in all respects but as exemplary. The scope of the present invention should be determined by a reasonable interpretation of the appended claims, and all modifications within the equivalent scope of the present invention are included in the scope of the present invention. The present invention is not intended to be limited to the embodiments shown herein but is to be accorded the widest scope consistent with the principles and novel features disclosed herein. In addition, claims that are not explicitly cited in the claims may be combined to form an embodiment, or may be included as new claims by amendment after filing.

1: 문서 인식 시스템, 2: 문서,
2a: 테이블의 선, 2b: 텍스트 영역,
2c: 외곽 영역, 2d: 제목,
2e: 항목, 10: 전처리부,
20: 텍스트 인식부, 30: 윤곽 검출부,
40: 영역 판단부, 50: 문서 분석부,
60: 기울기 검출부, 61: 기준선,
63: 영역, 70: 문서 인식부,
100: 서버, 200: 데이터베이스.
1: Document Recognition System, 2: Document,
2a: line in table, 2b: text area,
2c: Outer area, 2d: Title,
2e: item, 10: preprocessor,
20: text recognition unit, 30: outline detection unit,
40: area determination unit, 50: document analysis unit,
60: slope detection unit, 61: reference line,
63: area, 70: document recognition unit,
100: server, 200: database.

Claims (8)

문자 인식 시스템에 있어서,
텍스트 영역에 텍스트가 하나 이상 기재된 문서의 테이블의 선을 검출한 후, 상기 테이블의 선을 제거하는 전처리부;
상기 테이블의 선이 제거된 문서의 텍스트를 OCR(optical character recognition)로 인식하는 텍스트 인식부;
기입력된 키워드 또는 의미없는 텍스트를 제거하여 문서에 기재된 텍스트의 윤곽을 검출하는 윤곽 검출부;
상기 텍스트의 윤곽을 통해 상기 문서의 전체 영역 중 텍스트가 기재된 외곽 영역을 판단하는 영역 판단부;
상기 텍스트를 기반으로 상기 문서를 분류하여 상기 문서의 종류를 판별하는 문서 분석부;
상기 문서의 기울기를 검출하는 기울기 검출부; 및
기설정된 템플릿에 의해 상기 문서의 항목에 값이 기재되는지 여부를 판단한 후, 상기 항목과 상기 항목의 값을 연결하는 기준선을 형성하며, 상기 기준선을 통해 검출된 기울기를 대입하여 상기 문서를 인식하는 문서 인식부;를 포함하는 것을 특징으로 하는 문서 인식 시스템.
In the character recognition system,
a pre-processing unit for detecting a line in a table of a document in which one or more texts are written in a text area, and then removing the line in the table;
a text recognition unit for recognizing the text of the document from which the lines of the table are removed through optical character recognition (OCR);
an outline detection unit for detecting an outline of text written in a document by removing the entered keyword or meaningless text;
an area determination unit that determines an outer area in which text is written among the entire area of the document based on the outline of the text;
a document analysis unit for classifying the document based on the text and determining the type of the document;
a tilt detection unit for detecting a tilt of the document; and
After determining whether a value is written in the item of the document by a preset template, a reference line connecting the item and the value of the item is formed, and the document is recognized by substituting a slope detected through the reference line A document recognition system comprising: a recognition unit.
제 1 항에 있어서,
상기 기울기 검출부는,
상기 기준선을 복수로 형성하여 상기 문서를 복수의 영역으로 나누며, 상기 기준선이 기울어진 정도를 각각 계산하여 상기 문서의 기울기를 검출하는 것을 특징으로 하는 문서 인식 시스템.
The method of claim 1,
The slope detection unit,
The document recognition system, characterized in that the document is divided into a plurality of regions by forming a plurality of the reference lines, and the inclination of the reference line is calculated respectively to detect the inclination of the document.
제 2 항에 있어서,
상기 기준선은,
상기 문서의 텍스트를 연결하도록 수평 방향으로 연장형성되어, 상기 문서가 상기 복수의 영역을 통해 수직 방향으로 나누어지도록 하는 것을 특징으로 하는 문서 인식 시스템.
3. The method of claim 2,
The baseline is
The document recognition system, characterized in that extending in a horizontal direction to connect the text of the document, so that the document is divided in a vertical direction through the plurality of regions.
제 1 항에 있어서,
상기 템플릿은,
상기 문서의 제목, 상기 텍스트 영역, 상기 텍스트 영역에 포함된 항목, 상기 항목의 텍스트 및 상기 항목의 위치가 저장되는 것을 특징으로 하는 문서 인식 시스템.
The method of claim 1,
The template is
The document recognition system, characterized in that the title of the document, the text area, an item included in the text area, the text of the item and the location of the item are stored.
제 1 항에 있어서,
상기 문서는,
단말 또는 디바이스에 기저장된 문서, 스캐너에 의해 정상적으로 스캐닝된 문서 및 상기 스캐너에 의해 비정상적으로 스캐닝된 문서 및 휴대폰 카메라로 촬영된 문서 또는 기타 디바이스로 촬영된 문서 중 적어도 하나인 것을 특징으로 하는 문서 인식 시스템.
The method of claim 1,
The document is
A document recognition system, characterized in that it is at least one of a document pre-stored in a terminal or device, a document normally scanned by a scanner, a document abnormally scanned by the scanner, a document photographed by a mobile phone camera, or a document photographed by another device .
제 1 항에 있어서,
상기 키워드는,
단어사전 데이터에 포함된 텍스트 또는 상기 문서 인식부를 통해 인식될 문서로부터 수집한 텍스트인 것을 특징으로 하는 문서 인식 시스템.
The method of claim 1,
The keyword is
A document recognition system, characterized in that it is a text included in word dictionary data or a text collected from a document to be recognized through the document recognition unit.
제 1 항에 있어서,
상기 문서 분석부는,
상기 문서에 하나 이상 기재된 텍스트, 상기 텍스트가 기재된 위치, 상기 문서에 기재된 제목의 텍스트, 상기 제목 텍스트의 크기, 상기 항목의 텍스트 크기 비율 및 문서별로 기재되는 특별 키워드를 통해 상기 문서를 분류하여 상기 문서의 종류를 판별하는 것을 특징으로 하는 문서 인식 시스템.
The method of claim 1,
The document analysis unit,
Classifying the document through one or more texts described in the document, the position where the text is written, the text of the title written in the document, the size of the title text, the text size ratio of the item, and a special keyword described for each document Document recognition system, characterized in that for determining the type of.
문자 인식 방법에 있어서,
전처리부가 텍스트 영역에 텍스트가 하나 이상 기재된 문서의 테이블의 선을 검출한 후, 상기 테이블의 선을 제거하는 단계;
텍스트 인식부가 상기 테이블의 선이 제거된 문서의 텍스트를 OCR로 인식하는 단계;
윤곽 검출부가 기입력된 키워드 또는 의미없는 텍스트를 제거하여 문서에 기재된 텍스트의 윤곽을 검출하는 단계;
영역 판단부가 상기 텍스트의 윤곽을 통해 상기 문서의 전체 영역 중 텍스트가 기재된 외곽 영역을 판단하는 단계;
문서 분석부가 상기 텍스트를 기반으로 상기 문서를 분류하여 상기 문서의 종류를 판별하는 단계;
기울기 검출부가 상기 문서의 기울기를 검출하는 단계; 및
문서 인식부가 기설정된 템플릿에 의해 상기 문서의 항목에 값이 기재되는지 여부를 판단한 후, 상기 항목과 상기 항목의 값을 연결하는 기준선을 형성하며, 상기 기준선을 통해 검출된 기울기를 대입하여 상기 문서를 인식하는 단계;를 포함하는 것을 특징으로 하는 문서 인식 방법.
In the character recognition method,
after the preprocessing unit detects a line in a table of a document in which one or more texts are written in a text area, removing the line in the table;
Recognizing, by the text recognition unit, the text of the document from which the lines of the table are removed by OCR;
detecting, by the outline detecting unit, the outline of the text written in the document by removing the entered keyword or meaningless text;
determining, by an area determination unit, an outer area in which text is written among the entire area of the document based on the outline of the text;
classifying the document based on the text by a document analyzing unit to determine the type of the document;
detecting a tilt of the document by a tilt detection unit; and
After the document recognition unit determines whether or not a value is written in the item of the document by a preset template, a reference line is formed connecting the item and the value of the item, and the inclination detected through the reference line is substituted for the document Recognizing; document recognition method comprising the.
KR1020200092393A 2020-07-24 2020-07-24 Document recognition system and method Active KR102391068B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200092393A KR102391068B1 (en) 2020-07-24 2020-07-24 Document recognition system and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200092393A KR102391068B1 (en) 2020-07-24 2020-07-24 Document recognition system and method

Publications (2)

Publication Number Publication Date
KR20220013187A true KR20220013187A (en) 2022-02-04
KR102391068B1 KR102391068B1 (en) 2022-04-28

Family

ID=80267815

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200092393A Active KR102391068B1 (en) 2020-07-24 2020-07-24 Document recognition system and method

Country Status (1)

Country Link
KR (1) KR102391068B1 (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114627487A (en) * 2022-03-25 2022-06-14 广州海晟科技有限公司 Identification method and identification system for identifying drawing based on characteristic quantity slice
KR102617913B1 (en) 2023-03-30 2023-12-27 주식회사 포지큐브 Method for recognizing rotation of document image and system thereof
WO2024107396A1 (en) * 2022-11-15 2024-05-23 Evisort Inc. System and methods for enabling user interaction with scan or image of document
KR20240176046A (en) * 2023-06-14 2024-12-23 (주)한국아이티 Db building method for non-electronic important records of public institutions

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102901386B1 (en) 2024-10-30 2025-12-17 주식회사 샌드버그 Document processing system

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20050045832A (en) * 2003-11-10 2005-05-17 히타치-오무론 터미널 솔루션 코포레이션 Mobile handset and the method of selecting an objective area of the chatacter recognition on a mobile handset
KR100923935B1 (en) * 2007-11-28 2009-10-29 엔에이치엔(주) Automatic Evaluation Method and System of Document Image for OCR
KR101114135B1 (en) 2004-05-20 2012-02-20 마이크로소프트 코포레이션 Low resolution ocr for camera acquired documents
KR101686363B1 (en) 2012-10-10 2016-12-13 모토로라 솔루션즈, 인크. Method and apparatus for identifying a language used in a document and performing ocr recognition based on the language identified
KR20190123790A (en) * 2017-03-22 2019-11-01 드릴링 인포 인코포레이티드 Extract data from electronic documents

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20050045832A (en) * 2003-11-10 2005-05-17 히타치-오무론 터미널 솔루션 코포레이션 Mobile handset and the method of selecting an objective area of the chatacter recognition on a mobile handset
KR101114135B1 (en) 2004-05-20 2012-02-20 마이크로소프트 코포레이션 Low resolution ocr for camera acquired documents
KR100923935B1 (en) * 2007-11-28 2009-10-29 엔에이치엔(주) Automatic Evaluation Method and System of Document Image for OCR
KR101686363B1 (en) 2012-10-10 2016-12-13 모토로라 솔루션즈, 인크. Method and apparatus for identifying a language used in a document and performing ocr recognition based on the language identified
KR20190123790A (en) * 2017-03-22 2019-11-01 드릴링 인포 인코포레이티드 Extract data from electronic documents

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114627487A (en) * 2022-03-25 2022-06-14 广州海晟科技有限公司 Identification method and identification system for identifying drawing based on characteristic quantity slice
WO2024107396A1 (en) * 2022-11-15 2024-05-23 Evisort Inc. System and methods for enabling user interaction with scan or image of document
KR102617913B1 (en) 2023-03-30 2023-12-27 주식회사 포지큐브 Method for recognizing rotation of document image and system thereof
KR20240176046A (en) * 2023-06-14 2024-12-23 (주)한국아이티 Db building method for non-electronic important records of public institutions

Also Published As

Publication number Publication date
KR102391068B1 (en) 2022-04-28

Similar Documents

Publication Publication Date Title
KR102391068B1 (en) Document recognition system and method
US12125302B2 (en) Systems and methods for classifying payment documents during mobile image processing
US10943105B2 (en) Document field detection and parsing
US12499423B2 (en) Mobile check deposit
US11494573B2 (en) Self-checkout device to which hybrid product recognition technology is applied
US5119433A (en) Method and system for locating the amount field on a document
KR101585029B1 (en) Recognition and classification system of document
US7406183B2 (en) System and method of sorting document images based on image quality
US20040076320A1 (en) Character recognition, including method and system for processing checks with invalidated MICR lines
JPH0587871B2 (en)
JP2011227636A (en) Character string recognition apparatus and character string recognition method
CN107016363A (en) Bill images managing device, bill images management system and method
JP2000194850A (en) Apparatus and method for extracting user-enclosed area
KR102371446B1 (en) Method and apparatus for recognizing the delivery address printed on mailings
CN101551859A (en) Image recognition device and image retrieval device
US5864629A (en) Character recognition methods and apparatus for locating and extracting predetermined data from a document
US7522760B1 (en) Method for inspecting document images
US5721790A (en) Methods and apparatus for separating integer and fractional portions of a financial amount
Bogahawatte et al. Online digital cheque clearance and verification system using block chain
AU8853291A (en) Character recognition methods including separating and extracting particular portions from extracted data
JP3715473B2 (en) Address reader
US20260030604A1 (en) Mobile check deposit
TW294804B (en) Print/hand-written Chinese/English form recognition method
JPH08161588A (en) Form processing device and method for determining the line with the last printed line of a form
JPH06333085A (en) Optical character reader

Legal Events

Date Code Title Description
PA0109 Patent application

Patent event code: PA01091R01D

Comment text: Patent Application

Patent event date: 20200724

PA0201 Request for examination
E902 Notification of reason for refusal
PE0902 Notice of grounds for rejection

Comment text: Notification of reason for refusal

Patent event date: 20220126

Patent event code: PE09021S01D

PG1501 Laying open of application
E701 Decision to grant or registration of patent right
PE0701 Decision of registration

Patent event code: PE07011S01D

Comment text: Decision to Grant Registration

Patent event date: 20220330

PR0701 Registration of establishment

Comment text: Registration of Establishment

Patent event date: 20220422

Patent event code: PR07011E01D

PR1002 Payment of registration fee

Payment date: 20220425

End annual number: 3

Start annual number: 1

PG1601 Publication of registration
PR1001 Payment of annual fee

Payment date: 20250127

Start annual number: 4

End annual number: 4