KR20230079938A - Ocr을 이용하여 문서이미지에 포함된 객체를 추출하는 시스템 및 그 방법 - Google Patents
Ocr을 이용하여 문서이미지에 포함된 객체를 추출하는 시스템 및 그 방법 Download PDFInfo
- Publication number
- KR20230079938A KR20230079938A KR1020210167192A KR20210167192A KR20230079938A KR 20230079938 A KR20230079938 A KR 20230079938A KR 1020210167192 A KR1020210167192 A KR 1020210167192A KR 20210167192 A KR20210167192 A KR 20210167192A KR 20230079938 A KR20230079938 A KR 20230079938A
- Authority
- KR
- South Korea
- Prior art keywords
- document image
- information
- ocr
- text
- item
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Ceased
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/18—Extraction of features or characteristics of the image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
- G06V10/225—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition based on a marking or identifier characterising the area
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/1444—Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
- G06V30/1448—Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields based on markings or identifiers characterising the document or the area
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Character Input (AREA)
Abstract
Description
도 2는 본 발명의 일실시예인 OCR을 이용하여 문서이미지에 포함된 객체를 추출하는 방법을 설명하기 위한 도면이다.
도 3은 도 2에 도시된 템플릿정보를 설정하는 화면을 설명하기 위한 도면이다.
도 4는 도 2에 도시된 이미지 입력장치로부터 문서이미지를 수신하는 화면을 설명하기 위한 도면이다.
도 5는 도 2에 도시된 객체데이터를 생성하는 화면을 설명하기 위한 도면이다.
10 : 이미지 입력장치
20 : 관리서버
30 : 관리자 단말기
Claims (9)
- 관리서버에 의해 수행되는 OCR을 이용하여 문서이미지에 포함된 객체를 추출하는 방법에 있어서,
섬유에 관련된 페이퍼문서에 대한 템플릿정보를 설정하는 단계; 및
상기 페이퍼문서에 대하여 판독가능한 문서로 처리된 문서이미지를 획득하는 단계;
상기 템플릿정보를 기초로 문서이미지를 전처리하는 단계;
상기 템플릿정보를 기초로 전처리된 문서이미지를 분석하여 OCR을 적용하여 항목정보의 텍스트를 인식하는 단계;
상기 템플릿정보를 기초로 전처리된 문서이미지를 분석하여 OCR을 적용하여 필드정보의 텍스트를 인식하는 단계; 및
상기 항목정보와 상기 필드정보를 매칭하여 객체데이터를 생성하는 단계;를 포함하는, OCR을 이용하여 문서이미지에 포함된 객체를 추출하는 방법. - 제1항에 있어서,
상기 문서이미지를 전처리하는 단계는,
문서이미지에 포함된 문서 여백의 스테이플과 접힌 자국을 보정하고, 문서이미지에 허프변환(hough transform)을 적용하여 라인(line)을 검출하고, 검출된 라인으로 이미지의 기울어진 각도를 파악하여 자동으로 문서이미지를 회전하고, 문서이미지의 흔들림, 밝기, 선명도, 각도를 필터링하는 단계;
상기 필터링 작업이 완료된 후, 문서이미지에 포함된 단어들이 의미있는 단어의 최소 단위로 구분되도록 공백제거필터, 특수문자제거필터를 이용하여 토큰화 작업을 수행하는 단계;
상기 토큰화 작업이 완료된 후 상기 문서이미지에 포함된 등장 빈도가 낮은 단어 또는 다수 반복되는 해당 단어들에 대한 노이즈 데이터를 제거하여 잔존하는 단어들의 의미가 부각되도록 정제화 작업을 수행하는 단계; 및
상기 정제화 작업이 완료된 후 상기 문서이미지를 정규화하는 단계;를 포함하는, OCR을 이용하여 문서이미지에 포함된 객체를 추출하는 방법. - 제1항에 있어서,
상기 텍스트를 인식하는 단계는,
텍스트 라인 단위로 영문, 한글, 한자, 기호, 숫자 등을 포함하는 텍스트를 인식하는, OCR을 이용하여 문서이미지에 포함된 객체를 추출하는 방법. - 제3항에 있어서,
상기 항목정보의 텍스트를 인식하는 단계는,
상기 템플릿정보에 기초하여 전처리된 문서이미지에서 상기 항목정보에 대응하는 항목 영역을 추출하는 단계; 및
상기 항목 영역에서 텍스트 라인을 분리하여 상기 항목정보의 텍스트를 인식하는 단계;를 포함하는, OCR을 이용하여 문서이미지에 포함된 객체를 추출하는 방법. - 제4항에 있어서,
상기 항목정보의 텍스트를 인식하는 단계는,
상기 항목 영역으로부터 인식된 항목이미지에 대한 항목좌표정보를 생성하는 단계;를 더 포함하는, OCR을 이용하여 문서이미지에 포함된 객체를 추출하는 방법. - 제3항에 있어서,
상기 필드정보의 텍스트를 인식하는 단계는,
상기 템플릿정보에 기초하여 전처리된 문서이미지에서 상기 필드정보에 대응하는 필드 영역을 추출하는 단계; 및
상기 필드 영역에서 텍스트 라인을 분리하여 상기 필드정보의 텍스트를 인식하는 단계;를 포함하는, OCR을 이용하여 문서이미지에 포함된 객체를 추출하는 방법. - 제6항에 있어서,
상기 필드정보의 텍스트를 인식하는 단계는,
상기 필드 영역으로부터 인식된 필드이미지에 대한 필드좌표정보를 생성하는 단계;를 더 포함하는, OCR을 이용하여 문서이미지에 포함된 객체를 추출하는 방법. - OCR을 이용하여 문서이미지에 포함된 객체를 추출하는 시스템에 있어서,
이미지 입력장치로부터 섬유에 관련된 페이퍼문서가 판독가능한 문서로 처리된 문서이미지를 획득하는 관리서버;를 포함하고,
상기 관리서버는 상기 페이퍼문서에 대한 템플릿정보를 설정하고, 상기 템플릿정보를 기초로 문서이미지를 전처리하고, 전처리된 문서이미지를 분석하여 OCR을 적용하여 항목정보의 텍스트와, 필드정보의 텍스트를 인식한 후, 상기 항목정보와 상기 필드정보를 매칭하여 객체데이터를 생성하는, OCR을 이용하여 문서이미지에 포함된 객체를 추출하는 시스템. - 하드웨어인 컴퓨터와 결합되어, 제1항 내지 제7항 중 어느 하나의 항의 방법을 수행할 수 있도록 컴퓨터에서 독출가능한 기록매체에 저장된 컴퓨터 프로그램.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020210167192A KR20230079938A (ko) | 2021-11-29 | 2021-11-29 | Ocr을 이용하여 문서이미지에 포함된 객체를 추출하는 시스템 및 그 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020210167192A KR20230079938A (ko) | 2021-11-29 | 2021-11-29 | Ocr을 이용하여 문서이미지에 포함된 객체를 추출하는 시스템 및 그 방법 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20230079938A true KR20230079938A (ko) | 2023-06-07 |
Family
ID=86762286
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020210167192A Ceased KR20230079938A (ko) | 2021-11-29 | 2021-11-29 | Ocr을 이용하여 문서이미지에 포함된 객체를 추출하는 시스템 및 그 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR20230079938A (ko) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117475453A (zh) * | 2023-12-25 | 2024-01-30 | 欣诚信息技术有限公司 | 一种基于ocr的文书检测方法、装置及电子设备 |
KR102749156B1 (ko) | 2024-02-28 | 2025-01-03 | 주식회사 무하유 | 완전한 문서 표절 검사 장치, 방법 및 시스템 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101028670B1 (ko) | 2008-10-22 | 2011-04-12 | 엔에이치엔(주) | 언어모델과 ocr을 이용하여 문서에 포함된 문자열을 인식하는 방법, 시스템 및 컴퓨터 판독 가능한 기록 매체 |
-
2021
- 2021-11-29 KR KR1020210167192A patent/KR20230079938A/ko not_active Ceased
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101028670B1 (ko) | 2008-10-22 | 2011-04-12 | 엔에이치엔(주) | 언어모델과 ocr을 이용하여 문서에 포함된 문자열을 인식하는 방법, 시스템 및 컴퓨터 판독 가능한 기록 매체 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117475453A (zh) * | 2023-12-25 | 2024-01-30 | 欣诚信息技术有限公司 | 一种基于ocr的文书检测方法、装置及电子设备 |
CN117475453B (zh) * | 2023-12-25 | 2024-02-27 | 欣诚信息技术有限公司 | 一种基于ocr的文书检测方法、装置及电子设备 |
KR102749156B1 (ko) | 2024-02-28 | 2025-01-03 | 주식회사 무하유 | 완전한 문서 표절 검사 장치, 방법 및 시스템 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10867171B1 (en) | Systems and methods for machine learning based content extraction from document images | |
US10013624B2 (en) | Text entity recognition | |
US8175380B2 (en) | Apparatus and method for improving text recognition capability | |
US8218890B2 (en) | Method and apparatus for cropping images | |
US10769427B1 (en) | Detection and definition of virtual objects in remote screens | |
CN106982307B (zh) | 一种传输数据的方法及传输数据的装置 | |
CN112669515A (zh) | 票据图像识别方法、装置、电子设备和存储介质 | |
US9984287B2 (en) | Method and image processing apparatus for performing optical character recognition (OCR) of an article | |
US8917275B2 (en) | Automated contrast verifications | |
KR20230079938A (ko) | Ocr을 이용하여 문서이미지에 포함된 객체를 추출하는 시스템 및 그 방법 | |
CN113704111A (zh) | 页面自动化测试方法、装置、设备及存储介质 | |
US10452943B2 (en) | Information processing apparatus, control method of information processing apparatus, and storage medium | |
US20220044013A1 (en) | Enhancing electronic documents for character recognition | |
TW201933179A (zh) | 影像數據擷取方法及影像數據擷取裝置 | |
CN106709488A (zh) | 名片识别方法及装置 | |
US9396211B2 (en) | Method and device for providing information using barcode | |
CN112749769B (zh) | 图形码检测方法、装置、计算机设备及存储介质 | |
US9563961B1 (en) | Method and system for image processing | |
CN110113296B (zh) | 一种处理数据的方法 | |
CN118449925A (zh) | 图片处理方法、装置、终端设备以及存储介质 | |
KR20220005243A (ko) | 수기로 작성된 스캔본 전자파일의 인식과 공유 방법 및 그 장치 | |
KR20100066977A (ko) | 영상을 이용한 얼굴 인식 방법 및 그 장치 | |
JP2018018361A (ja) | データ処理装置、および、コンピュータプログラム | |
CN107145734B (zh) | 一种医疗数据的自动获取与录入方法及其系统 | |
CN112988011B (zh) | 取词翻译方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PA0109 | Patent application |
Patent event code: PA01091R01D Comment text: Patent Application Patent event date: 20211129 |
|
PA0201 | Request for examination | ||
PG1501 | Laying open of application | ||
E902 | Notification of reason for refusal | ||
PE0902 | Notice of grounds for rejection |
Comment text: Notification of reason for refusal Patent event date: 20240216 Patent event code: PE09021S01D |
|
E601 | Decision to refuse application | ||
PE0601 | Decision on rejection of patent |
Patent event date: 20241025 Comment text: Decision to Refuse Application Patent event code: PE06012S01D |
|
PX0601 | Decision of rejection after re-examination |
Comment text: Decision to Refuse Application Patent event code: PX06014S01D Patent event date: 20250213 Comment text: Decision to Refuse Application Patent event code: PX06011S01I Patent event date: 20250213 |
|
X601 | Decision of rejection after re-examination | ||
J201 | Request for trial against refusal decision | ||
PJ0201 | Trial against decision of rejection |
Patent event date: 20250512 Comment text: Request for Trial against Decision on Refusal Patent event code: PJ02012R01D Appeal kind category: Appeal against decision to decline refusal Appeal identifier: 2025101000846 Request date: 20250512 |