[go: up one dir, main page]

KR20030017304A - 망점 제거 방법 및 시스템 - Google Patents

망점 제거 방법 및 시스템 Download PDF

Info

Publication number
KR20030017304A
KR20030017304A KR1020020010781A KR20020010781A KR20030017304A KR 20030017304 A KR20030017304 A KR 20030017304A KR 1020020010781 A KR1020020010781 A KR 1020020010781A KR 20020010781 A KR20020010781 A KR 20020010781A KR 20030017304 A KR20030017304 A KR 20030017304A
Authority
KR
South Korea
Prior art keywords
connection pattern
halftone
pattern
size
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
KR1020020010781A
Other languages
English (en)
Inventor
오하라아쯔꼬
후지모또가쯔히또
나오이사또시
Original Assignee
후지쯔 가부시끼가이샤
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 후지쯔 가부시끼가이샤 filed Critical 후지쯔 가부시끼가이샤
Publication of KR20030017304A publication Critical patent/KR20030017304A/ko
Ceased legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/36Applying a local operator, i.e. means to operate on image points situated in the vicinity of a given point; Non-linear local filtering operations, e.g. median filtering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/40Picture signal circuits
    • H04N1/409Edge or detail enhancement; Noise or error suppression
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/20Image enhancement or restoration using local operators
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/70Denoising; Smoothing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/155Removing patterns interfering with the pattern to be recognised, such as ruled lines or underlines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Nonlinear Science (AREA)
  • Character Input (AREA)
  • Editing Of Facsimile Originals (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)
  • Facsimile Image Signal Circuits (AREA)

Abstract

문자 인식에 적합한 문자를 추출할 수 있는 망점 제거 방법 및 시스템을 제공한다. 음영 처리된 문자를 포함하는 원화상을 입력하고, 소정의 처리를 한 후, 처리 대상의 영역에 대하여, 흑 화소의 연결 패턴을 추출한다. 추출된 패턴이 소정의 농도 이상인 경우에는 음영 부분이라고 판단하고, 연결 패턴의 종횡 사이즈의 평균값과 표준 편차를 산출한다. 그리고, 평균값과 표준 편차로부터 임계치를 산출하여 음영의 패턴을 제거한다. 또한, 남은 연결 패턴 중, 포함되는 흑 화소에 비하여 윤곽이 긴 것을 필요없는 패턴으로 하여 제거하고, 마지막으로, 문자에 붙은 돌기 부분을 삭제하여 문자의 추출을 끝낸다.

Description

망점 제거 방법 및 시스템{HALF-TONE DOT ELIMINATION METHOD AND SYSTEM THEREOF}
본 발명은 문자 인식 장치 등에 있어서의 망점이 있는 화상으로부터 정확하게 문자를 추출하기 위한 망점 제거 방법 및 시스템에 관한 것이다.
이하의 설명에서는 문서의 문자 인식에 관한 설명을 하지만, 일반적으로 이하에 기재하는 기술은 문서뿐만 아니라, 도면 인식에서의 문자 인식 등과 같이 넓은 의미에서의 망점이 있는 화상으로부터의 문자 추출을 행하는 기술에 관한 것으로, 음영 문자로부터 문자를 추출하는 기술에 한정되지 않는다.
최근, 스캐너 등의 입력 기기의 보급에 따라, 화상을 취급할 수 있는 기회가 증가함에 따라, 문자 인식 장치(또는 소프트웨어) OCR의 수요가 증가하고 있다.
이하, 종래 기술에 있어서의 망점의 제거 방법에 대하여 서술한다.
종래 방법 1)
망점에 의해 음영 처리된 망점 영역(이하, 동일)을 포함하는 화상을 문자 인식하는 경우, 종래에는 망점 영역으로서, 패턴의 밀도가 높은 부분을 검출하고, 그 영역을 망점 영역으로 한다. 그러나, 망점을 포함하는 영역의 문자는 정확하게 인식할 수 없기 때문에, 망점 영역은 문자 인식 대상에서 제외되어 문자 인식이 행해지지 않는다.
종래 방법 2)
망점 밀도 등에 의해 망점이 존재하는 것으로 판단된 영역에 대하여, 임의의 일정치 이하의 사이즈를 갖는 패턴을 소거하고, 그 결과를 문자 인식한다.
종래 방법 1에서는 문자 인식을 전혀 행할 수 없다. 또한, 종래 방법 2에서는 일정 사이즈의 패턴을 소거하고 있기 때문에, 망점 사이즈에 변동이 있었던 경우에는 망점을 제거할 수 없다. 또한, 망점끼리 접촉하고, 종횡 사이즈가 커진 경우에는 망점을 제거할 수 없다. 또한, 망점을 제거할 수 있었던 경우에도, 망점에 문자가 접촉함으로써 발생되는 문자의 변형에 의해 정확하게 문자 인식을 할 수 없다. 그 때문에, 종래 방법에서는 사전에 설정되어 있는 임계치가 대상의 망점 사이즈에 적합하고, 망점 문자의 접촉에 의한 문자의 변형이 문자 인식에 영향이 없는 경우에 한하여 처리가 가능하게 되고, 그 외의 경우에는 처리할 수 없다고 하는 문제가 있었다.
본 발명의 과제는 문자 인식에 적합한 문자를 추출할 수 있는 망점 제거 방법 및 시스템을 제공하는 것이다.
도 1은 괘선에 의한 표 구조를 갖는 문서의 예를 나타내는 도면.
도 2는 패턴의 크기와 윤곽 길이의 차이의 예를 나타내는 도면.
도 3은 가우시안 필터의 동작의 개략을 설명하는 도면.
도 4는 본 실시예와 종래 기술의 망점 제거 능력의 차를 나타내는 도면.
도 5는 본 실시예의 처리의 흐름을 나타내는 플로우차트.
도 6은 본 실시예의 망점 제거 방법을 적용한 경우의 망점의 제거의 모습을 나타내는 도면.
도 7은 본 실시예를 프로그램으로 실현하는 경우의 프로그램을 실행하는 컴퓨터의 하드웨어 환경을 나타내는 도면.
〈도면의 주요 부분에 대한 부호의 설명〉
10 : CPU
11 : ROM
12 : RAM
13 : 통신 인터페이스
14 : 네트워크
15 : 정보 제공자
16 : 버스
17 : 기억 장치
18 : 판독 장치
19 : 교체형 기록 매체
20 : 입출력 장치
본 발명의 망점 제거 방법은 망점에 의해 음영 처리된 화상으로부터 망점에 의한 음영을 제거하는 망점 제거 방법에 있어서, 처리 대상의 영역의 흑 화소의 연결 패턴의 밀도로부터 음영 영역을 특정하는 음영 영역 특정 단계와, 상기 음영 영역에 포함되는 흑 화소의 연결 패턴의 사이즈의 통계로부터 소정의 사이즈 이하의 연결 패턴을 제거하는 연결 패턴 제거 단계를 포함하는 것을 특징으로 한다.
본 발명의 망점 제거 시스템은 망점에 의해 음영 처리된 화상으로부터 망점에 의한 음영을 제거하는 망점 제거 시스템에 있어서, 처리 대상의 영역의 흑 화소의 연결 패턴의 밀도로부터 음영 영역을 특정하는 음영 영역 특정 수단과, 상기 음영 영역에 포함되는 흑 화소의 연결 패턴의 사이즈의 통계로부터 소정의 사이즈 이하의 연결 패턴을 제거하는 연결 패턴 제거 수단을 포함하는 것을 특징으로 한다.
본 발명에 따르면, 망점에 의해 음영 처리된 영역에 있는 문자 등의 주목 화상을, 망점을 효율적이고 또한 유효하게 제거함으로써 추출할 수 있다. 따라서, 문자를 추출한 경우에는 보다 정밀도가 좋은 문자 인식 결과를 얻을 수 있다.
〈실시예〉
본 발명의 실시예에 있어서는 문서 상에서의 패턴의 밀도를 이용하여 망점 영역을 검출하고, 망점 제거, 문자에 접촉한 망점에 의한 돌기 제거의 순서로 처리를 행한다. 망점 영역을 추출한 후, 망점 영역 내에 존재하는 패턴의 종횡 사이즈의 평균값 및 표준 편차를 산출한다. 망점 영역의 점 패턴의 수는 문자 패턴과 비교하여 매우 많기 때문에, 평균값, 표준 편차의 값은 점 패턴의 크기, 및 크기의 변동에 영향을 받는다. 표준 편차가 작은 경우, 점 패턴의 크기의 변동이 작고,크기가 거의 일정하다고 간주하고, 평균값에 작은 값을 더한 것을 문자 패턴과 점 패턴의 크기를 나누는 임계치로 이용하고, 표준 편차가 큰 경우, 점 패턴의 크기의 변동이 크다고 하고, 평균값에 큰 값을 더한 것을 임계치로 이용한다. 구해진 임계치보다 작은 것을 망점 패턴으로 하여 제거를 행한다.
또는, 망점 영역이라고 판정된 영역 내의 모든 패턴의 사이즈로부터 막대 그래프를 만들고, 막대 그래프의 골부분을 임계치로 설정하고, 임계치보다 작은 패턴을 망점으로 하여 제거할 수도 있다.
또한, 패턴의 종횡 사이즈는 큰 경우라도, 다른 문자 패턴과 비교하여 패턴이 가늘거나, 또한 흑 화소가 뭉쳐서 존재하지 않고, 흩어져 있는 경우에는 망점끼리 접촉한 결과의 노이즈이다. 그와 같은 망점을 제거하기 위해서, 개개의 패턴의 윤곽 길이/패턴의 흑 화소 수가 임의의 일정 이상의 값을 취하는 경우에는 문자 패턴이 아니라고 판단하고, 제거를 행한다.
다음으로, 문자에 접촉한 망점에 의한 돌기 제거를 행한다. 망점을 제거한 문자 패턴을 2치 화상으로부터 다치 화상으로 변환하고, 그 화상에 대하여 바림 처리(gradation process)를 행한다. 화상을 바림함으로써 미세한 돌기 부분의 변동을 흡수하고, 그 후, 재차 2진화를 행함으로써 돌기 부분의 제거를 행한다.
또는, 제거된 망점 사이즈로부터, 제거하는 돌기의 폭, 길이를 산출함으로써, 제거를 행한다.
예로서, 괘선에 의한 표 구조를 갖는 문서 중의 셀 내에 망점을 갖는 경우를 예시하여 나타낸다. 문서 상에서 괘선으로 둘러싸인 셀 영역을 추출할 수 있다면,어떠한 방법이라도 무방하지만, 일례로서 문서로부터 괘선을 추출하고, 괘선으로 4방향이 둘러싸인 셀을 추출하는 방법을 나타낸다.
도 1은 괘선에 의한 표 구조를 갖는 문서의 예를 나타내는 도면이다.
도 1에서는 표 중의 「住所」라고 쓰여 있는 부분에 음영이 되어 있으며, 이 음영으로부터 「住所」라는 문자를 추출할 필요가 있다. 이 경우, 「住所」가 포함되는 셀을 하나의 처리 단위로 하여 설정한다. 또, 여기서는 표 구조의 문서에 대하여 셀을 하나의 처리 단위로 한다고 하였지만, 표 구조 이외의 문서에서는 임의의 처리 단위를 결정하여 처리해도 된다.
입력 화상
입력하는 화상은 (극단적인 기울기가 없는) 2치 화상으로 한다. 여기서, 「극단적인 기울기가 없다」라는 요건은 표 구조의 문서에서, 표의 존재와 셀을 특정하는 것이 용이하도록 하기 위한 요건이고, 본 실시예의 주된 처리와는 직접적인 관계가 없다. 따라서, 일반적으로 입력하는 화상은 단순한 2치 화상으로 충분하다.
연결 패턴 추출
복수의 프레임이 배치되는 위치의 상대적인 관계에 의존하지 않고, 각 패턴에 안정적으로 픽업하기 위해서, 연결 패턴 추출부에서는 8연결로 연결되어 있는 패턴을 라벨링에 의해 추출한다(특원평7-203259호 참조).
마스크 처리
마스크 처리는 화상으로부터 극단적인 경사 성분을 생략하고, 프레임에만 존재하는 긴 직선을 쉽게 추출하기 위해서, 종횡 방향의 성분의 세선화를 행한다. 직선 성분 후보를 정확하게 추출하기 위해서, 처리는 100dpi 상당의 저해상도 화상을 이용한다(특원평7-203259호 참조).
선분 추출
마스크 처리 화상에 대하여 인접 투영치(인접 투영: 임의의 행 또는 열의 투영치에, 그 주위의 행 또는 열의 투영치를 정합하고, 그 값을 투영치로 하는 투영법. 주위를 대국적으로 파악할 수 있다(특원평5-103257호 참조). 종횡 방향에 관하여, 직선 또는 직선의 일부를 구형 근사하여 검출한다. 종횡 양방향 마찬가지의 처리를 행한다. 본 처리에서는 마스크 처리의 결과로서 화상을 사용한다.
직선 추출
선분 추출부에서 추출된 구형 근사된 선분 중, 인근의 선분끼리 통합하여 긴 직선을 검출한다. 검출된 직선은 구형 근사를 행한다(특원평7-203259호 참조).
셀 추출
상기한 처리에서 괘선 후보라고 판단된 것을 이용하여 셀의 추출을 행한다. 직선으로 4방향을 둘러싸인 영역인 셀의 추출을 행하는 방법은 어떠한 방법이라도 무방하다(특원평7-203259호 참조).
망점 제거/망점에 의한 문자의 돌기 제거
이 처리가 본 실시예의 주된 처리이다. 우선, 셀을 추출한 후, 셀마다 망점 영역의 판정, 망점 제거, 망점에 의한 문자의 돌기 제거를 행한다. 이 때, 연결 패턴을 추출함으로써, 개개의 패턴의 사이즈, 개수를 산출하지만, 연결 패턴으로서4연결로 연결되어 있는 부분을 추출한다. 4연결로 연결된 부분을 추출함으로써, 망점끼리 비스듬히 접촉한 경우라도, 통합하여 하나의 패턴으로 하지 않고 다른 망점으로서 인식할 수 있다.
셀 추출한 후, 셀마다 망점 영역을 포함하는지의 판정을 행한다. 셀 내에 포함되는 일정 사이즈 이하의 패턴 수의 밀도가, 일정 이상의 값인 경우에는 망점 영역을 포함하는 셀이라고 판단하고, 일정 이하의 값인 경우에는 문자 패턴만의 셀 영역이라고 판단한다. 패턴 수의 밀도는 (패턴의 수/영역의 면적)으로 연산한다.
망점을 포함하는 셀이라고 판단된 경우에는 셀마다 망점 제거를 행한다.
우선, 셀 내에 존재하는 패턴의 종횡 사이즈의 평균값 및 표준 편차를 산출한다. 망점 영역 내의 점 패턴의 수는 문자 패턴과 비교하여 매우 많기 때문에, 평균값, 표준 편차의 값은 점 패턴의 크기, 및 크기의 변동에 영향을 받는다. 표준 편차가 작은 경우, 점 패턴의 크기의 변동이 작아 크기가 거의 일정한 것으로 간주하고, 망점의 크기는 평균값으로부터의 변동이 적은 것으로 하여, 평균값에 작은 값을 더한 것을 문자 패턴과 점 패턴의 크기를 나누는 임계치로 하고, 표준 편차가 큰 경우, 점 패턴의 크기의 변동은 크다고 하고, 망점의 크기는 평균값으로부터의 변동이 큰 경우가 있는 것으로 하여, 평균값에 큰 값을 더한 것을 임계치로 한다. 임계치=평균값+표준 편차*α로 할 수 있고, α는 일정치로 한다. 구해진 임계치보다 작은 사이즈의 패턴을 망점 패턴으로 하여서 제거를 행한다.
또는, 망점 영역이라고 판정된 영역 내의 모든 패턴의 사이즈로부터 막대 그래프를 만들고, 막대 그래프의 골부분을 임계치로 설정하고, 임계치보다 작은 패턴을 망점으로서 제거하는 방법도 가능하다. 막대 그래프로부터 임계치를 구하는 방법으로서는 농담 화상을 2진화할 때 이용되는 大津의 2진화의 방식과 마찬가지인 처리를 행할 수 있다.
大津의 2진화에 대해서는 이하의 문헌을 참조하기 바란다.
N. Otsu: "A Threshold selection method from gray level histograms," IEEE trans. Systems, Man, and Cybernetics, Vol. 9, No. 1, pp. 62-66, 1979.
패턴의 종횡 사이즈는 큰 경우라도, 문자 패턴과 비교하여 패턴이 가늘거나, 또한 흑 화소가 뭉쳐서 존재하지 않고, 흩어져 있는 경우에는 망점끼리 접촉한 결과로서 제거 대상이다. 그와 같은 망점을 제거하기 위해서, 개개의 패턴의 (윤곽 길이/패턴의 흑 화소 수)가 일정 이상의 값을 취하는 경우에는 문자 패턴이 아니라고 판단하여 제거를 행한다. (윤곽 길이/패턴의 흑 화소 수)가 크다고 하는 것은 패턴의 폭이 좁다는 것과 같게 되고, 값이 작은 경우에는 패턴의 폭이 큰 것을 나타낸다.
도 2는 패턴의 크기와 윤곽 길이의 차이의 예를 나타내는 도면이다.
좌측의 패턴과 우측의 패턴은 동일한 흑 화소 수(동일한 패턴의 크기)로 구성되어 있다. 그러나, 흑 화소가 뭉쳐서 존재하는 좌측 도면이 우측 도면보다 윤곽이 짧아지는 것을 알 수 있다. 문자 패턴인 경우에는 망점 패턴과 비교하여 패턴의 폭이 크기 때문에, (윤곽 길이/패턴의 흑 화소 수)의 값이 커져, 판별을 행할 수 있다. 또한, 윤곽 길이 대신에, 패턴의 외접 구형의 변의 길이를 사용할 수도 있다. 또한, 망점 이외의 노이즈에 대해서도 제거할 수 있다.
문자에 접촉한 망점은 상기한 망점 제거로는 제거할 수 없고, 문자 패턴은 망점에 의한 돌기에 의해 변형하고 있다. 그대로의 화상에 의해 문자 인식을 행하면, 문자의 변형에 의해 인식율이 저하한다. 그래서, 돌기의 제거를 행하고, 문자 패턴을 정형한다.
문자의 돌기는 문자 패턴의 본래의 형상과 비교하여 작은 변동이다. 그 때문에, 돌기에 의한 변동을 흡수할 수 있을 정도로 화상을 바림함으로써 돌기의 제거를 행한다. 우선, 대상 영역을 2치 화상으로부터 다치 화상으로 변환하고, 가우시안 필터 등의 바림 필터를 이용하여 화상의 바림 처리를 행한다. 그 후, 2치화 처리를 행함으로써 돌기가 없는 패턴을 얻는다.
또는, 제거한 망점 사이즈로부터, 문자의 돌기의 폭, 길이를 추측하고, 추측된 사이즈의 돌기를 전부 제거하는 처리를 행한다.
도 3은 가우시안(Gaussian) 필터의 동작의 개략을 설명하는 도면이다.
도 3의 우측에 도시된 바와 같은 형의 흑 화소의 패턴이 있었다고 하면, 가우시안 필터는 패턴에 포함되어 있는 각 화소마다, 각 화소의 근방에 걸쳐 농도의 평균값을 취하고, 이 값을 해당 화소치로 한다. 따라서, 패턴의 주변 영역에 있는 화소의 값은 패턴의 흑 화소치와 백지 부분의 화소치와의 평균이 되기 때문에, 값이 작아져, 흑보다 옅은 회색이 된다. 이러한 처리를 반복함으로써, 도 3의 좌측에 도시된 바와 같이 패턴의 내부는 검지만, 주변부가 회색으로 흐려진 화상을 얻을 수 있다.
이러한 처리를 추출해야 할 문자에 실시함으로써, 문자의 주변에 붙은 돌기의 형상 및 색이 희미하게 된다. 따라서, 문자를 다시 2치화하는 경우에, 돌기가 주는 영향을 작게 할 수 있다. 즉, 2치화 결과, 깨끗한 문자가 얻어지게 된다.
문자 인식
마지막으로, 필요한 경우에는 셀마다 망점 제거 및 망점에 의한 문자의 돌기 제거를 행한 화상을 대상으로 문자 인식을 행한다. 문자 인식은 본 실시예에 필수적인 처리인 것은 아니다. 즉, 문자 인식을 행하지 않아도, 망점을 제거하고, 깨끗한 문자 추출을 할 수 있는 시점에서, 문자 데이터로서 저장해 두면, 후에, 인쇄 등을 한 경우에도, 깨끗한 문자를 얻을 수 있는 효과가 있기 때문이다.
도 4는 본 실시예와 종래 기술의 망점 제거 능력의 차를 나타내는 도면이다.
도 4의 (a)는 원화상이고, 「住」라는 문자에 음영 처리가 이루어져 있다. 이것에, 일정 사이즈 이하의 작은 망점을 제거하는 방법을 채용한 종래 기술에 의해 망점을 제거하면, 도 4의 (b)와 같이 된다. 도 4의 (b)에서 알 수 있는 바와 같이 망점이 충분히 제거되어 있지 않고, 문자 인식 등을 사용하는 경우에도, 반드시 좋은 결과를 얻을 수 없다고 예상된다. 이에 대하여, 상기에서 설명한 본 실시예에 따르면, 「住」라는 문자의 주위의 망점이 완전하게 제거되어 있으며, 문자 인식하는 경우에도 좋은 결과를 얻을 수 있다고 예상된다.
도 5는 본 실시예의 처리의 흐름을 나타내는 흐름도이다.
우선, 단계 S1에서, 입력 화상을 입력한다. 단계 S2에서, 입력 화상으로부터 연결 패턴을 추출한다. 그리고, 단계 S3에서 마스크 처리하고, 단계 S4에서, 선분 추출, 단계 S5에서, 직선 추출, 단계 S6에서, 셀 추출을 행한다. 그리고, 단계 S7에서, 처리 대상 셀 선택을 행한다. 처리 대상 셀이 없다고 판단된 경우에는 처리를 종료한다.
처리 대상 셀이 결정되면, 단계 S8에서, 셀 내 연결 패턴을 추출한다. 여기에서는 4연결 성분을 추출한다. 그리고, 단계 S9에서, (연결 패턴 중, 일정 이하의 사이즈를 갖는 패턴 수/셀 면적)이 일정 임계치보다 큰 지의 여부를 판정하고, 판단이 NO인 경우에는 단계 S7로 되돌아간다. 단계 S9의 판단이 YES인 경우에는 망점 셀이라고 판단하고, 단계 S10으로 진행한다.
단계 S10에서는 연결 패턴의 종횡 사이즈의 평균값, 표준 편차의 산출을 행한다. 단계 S11에서는 평균값+표준 편차*α(α는 상수)보다, 작은 사이즈의 패턴을 제거한다. 여기서, 단계 S10에서는 패턴의 사이즈에 따라 만들어진 막대 그래프의 골부분을 임계치로서 설정하고, 그보다 작은 사이즈의 패턴을 제거하도록 해도 된다.
그리고, 단계 S12에서는 연결 패턴의 윤곽 길이/패턴의 흑 화소 수가 일정치 이상인 패턴을 제거한다. 단계 S11과 단계 S12의 처리에 의해, 많은 망점이 제거된다. 단계 S13에서는 제거한 망점 사이즈를 돌기 사이즈로서 갖는 돌기를 패턴으로부터 제거한다. 이에 따라, 문자 패턴으로부터 돌기가 제거된다. 단, 단계 S13에서는 바림 처리 및 재 2치화에 따라 돌기를 제거하도록 해도 된다.
그리고, 단계 S14에서 문자 인식을 행하고, 단계 S15에서, 다음의 셀을 선택하여, 미처리 셀이 있는 경우에는 단계 S7로 되돌아가고, 모든 셀이 처리 완료인 경우에는 처리를 종료한다.
상술한 바와 같이 단계 S14의 문자 인식 처리는 본 실시예에서는 필수 처리가 아니다.
도 6은 본 실시예의 망점 제거 방법을 적용한 경우의 망점 제거의 모습을 나타내는 도면이다.
우선, 원화상에 대하여, 패턴의 사이즈의 평균(x축, y축을 적당하게 정한 경우의 x축 방향 및 y축 방향의 평균의 크기, sizex_ave, sizey_ave) 및 표준 편차(x축 방향 및 y축 방향의 표준 편차, hx, hy)를 구한다. 그리고, 평균값 및 표준 편차로부터 임계치(x축, y축 방향의 임계치, thx=sizex_ave+hx, thy=sizey_ave+hy)를 구한다. 그리고, 각각의 패턴의 종횡 길이가 임계치 이하인 경우(sizex<thx, 또한, sizey<thy)가 되는 것을 망점으로 하여 제거한다. 이 처리를 실시한 후의 화상이 도 6의 망점 제거 1의 도면이다.
다음으로, 제거되지 않은 패턴에 대하여, (윤곽 길이/흑 화소 수)가 일정 이상인 패턴을 제거한다. 이에 따라, 얻어지는 화상이 도 6의 망점 제거 2의 도면이다. 그리고, 마지막으로, 제거한 망점 사이즈를 이용하여 돌기 사이즈를 추정하고(또는 바림 처리에 의해), 돌기 제거를 행한다. 이에 따라, 얻어지는 화상이 도 6의 돌기 제거의 도면이다.
도 6에서 알 수 있는 바와 같이 본 실시예의 망점 제거를 완전하게 행함으로써, 망점이 거의 제거되어 문자 인식에 적합한 문자가 추출된다.
도 7은 본 실시예를 프로그램으로 실현하는 경우의 프로그램을 실행하는 컴퓨터의 하드웨어 환경을 나타내는 도면이다.
CPU(10)는 버스(16)에 접속되어 있고, ROM11, RAM(12)으로부터 프로그램을 판독하여 실행한다. 프로그램은 플로피 디스크, CD-ROM, DVD 등의 교체형 기록 매체(19) 또는 하드디스크 등의 기억 장치(17)에 통상 저장되어 있다. 판독 장치(18)를 사용하여 교체형 기록 매체(19)로부터 판독된 프로그램, 또는 기억 장치(17)로부터 판독된 프로그램은 RAM(12)에 전개되어 CPU(10)에 의해 실행된다.
입출력 장치(20)는 버스(16)를 통해 사용자의 지시를 CPU(10)에 전하거나, CPU(10)의 연산 결과를 사용자에게 제시하거나 하기 위한 것으로, 디스플레이, 키보드, 마우스, 템플릿 등으로 이루어진다.
통신 인터페이스(13)는 네트워크(14)를 통해 정보 제공자(15)의 데이터 베이스에 액세스하고, 해당 프로그램을 다운로드하여 CPU(10)를 실행 가능하게 할 수 있다. 또는 정보 제공자(15)에게 접속한 채, 네트워크 환경에서 해당 프로그램을 실행할 수 있다.
이상, 본 발명의 실시예에 따르면, 흑백 2치 화상으로부터 망점 패턴을 제거하는 방식에서, 패턴의 밀도에 의해 망점이 존재하는 영역을 추출하고, 작은 패턴을 제거하는 수단으로서, 개개의 패턴의 종횡 사이즈를 산출하고, 임계치보다 작은 사이즈를 갖는 패턴을 소거함으로써, 망점 사이즈가 화상마다 변동이 있는 경우라도 정확하게 망점의 제거를 행할 수 있다.
망점 패턴을 제거하는 수단에 대하여, 개개의 패턴의 윤곽 길이/패턴의 흑 화소 수가 임의의 일정 이상이 값을 취하는 경우에는, 문자 패턴이 아니라고 판단하고, 제거를 행한다. 또는 패턴의 윤곽 길이 대신에 패턴의 외접 구형 사이즈를이용함으로써, 망점끼리 접촉하여 외접 구형 사이즈가 커진 경우나, 문자 패턴과 비교하여 미세한 노이즈 패턴을 제거할 수 있다.
망점 패턴을 제거하는 수단에 대하여, 망점 영역이라고 판정된 영역 내의 모든 패턴의 사이즈로부터 막대 그래프를 만들고, 막대 그래프의 골부분을 임계치로서 설정하고, 임계치보다 작은 패턴을 망점으로서 제거함으로써, 망점 사이즈가 화상마다 변동이 있는 경우라도 정확하게 망점 제거를 행할 수 있다.
문자에 접촉한 망점에 의한 문자의 돌기를 제거하는 수단에 대하여, 흑백 2치 화상을 다치 화상으로 변환하고, 문자 패턴을 바림 필터에 의해 바림 처리를 행하고, 바림 화상에 대하여 재차 2진화를 행하여 문자 돌기를 제거함으로써, 문자 인식에 대한 악영향을 삭감하여 인식 정밀도를 향상시킬 수 있다.
문자에 접촉한 망점에 의한 문자의 돌기를 제거하는 수단에 대하여, 제거한 망점 사이즈로부터 돌기 사이즈를 추정하고, 추정된 폭, 길이에 따라, 패턴으로부터 돌기 형상의 부분을 제거함으로써, 문자 인식에 대한 악영향을 삭감하여 인식 정밀도를 향상시킬 수 있다.
본 발명에 따르면, 망점을 효과적으로 제거하여, 효율적인 문자 인식에 적합한 문자의 추출을 행할 수 있다.

Claims (10)

  1. 망점에 의해 음영 처리된 화상으로부터 망점에 의한 음영을 제거하는 망점 제거 방법에 있어서,
    처리 대상의 영역의 흑 화소의 연결 패턴의 밀도로부터 음영 영역을 특정하는 음영 영역 특정 단계와,
    상기 음영 영역에 포함되는 흑 화소의 연결 패턴의 사이즈의 통계로부터 소정의 사이즈 이하의 연결 패턴을 제거하는 연결 패턴 제거 단계
    를 포함하는 것을 특징으로 하는 망점 제거 방법.
  2. 제1항에 있어서,
    상기 음영 영역에 포함되는 연결 패턴 중, (윤곽 길이/연결 패턴에 포함되는 흑 화소 수)가 소정치 이상의 연결 패턴을 제거하는 길이 윤곽 연결 패턴 제거 단계를 더 포함하는 것을 특징으로 하는 망점 제거 방법.
  3. 제2항에 있어서,
    상기 윤곽 길이는, 연결 패턴의 외접 구형의 변의 길이를 이용하는 것을 특징으로 하는 망점 제거 방법.
  4. 제1항에 있어서,
    상기 음영 영역에 포함되는 망점 이외의 화상에 붙어 있는 돌기를 제거하는 돌기 제거 단계를 더 포함하는 것을 특징으로 하는 망점 제거 방법.
  5. 제4항에 있어서,
    상기 돌기 제거 단계는 상기 연결 패턴 제거 단계에서 제거된 연결 패턴의 사이즈 이하의 사이즈를 갖는 돌기를 제거하는 것을 특징으로 하는 망점 제거 방법.
  6. 제4항에 있어서,
    상기 돌기 제거 단계는 2치 화상을 다치 화상으로 변환하고, 상기 음영 영역에 바림 처리를 실시하고, 또한 바림 처리 후의 화상에 대하여 2치화를 행하는 것을 특징으로 하는 망점 제거 방법.
  7. 제1항에 있어서,
    상기 연결 패턴 제거 단계에서는 연결 패턴의 사이즈의 평균값을 표준 편차로부터 결정된 임계치에 기초하여 처리를 행하는 것을 특징으로 하는 망점 제거 방법.
  8. 제1항에 있어서,
    상기 연결 패턴 제거 단계에서는 연결 패턴의 사이즈로부터 만들어진 막대그래프의 골부분을 임계치로서 설정하여 처리를 행하는 것을 특징으로 하는 망점 제거 방법.
  9. 망점에 의해 음영 처리된 화상으로부터 망점에 의한 음영을 제거하는 망점 제거 시스템에 있어서,
    처리 대상의 영역의 흑 화소의 연결 패턴의 밀도로부터 음영 영역을 특정하는 음영 영역 특정 수단과,
    상기 음영 영역에 포함되는 흑 화소의 연결 패턴의 사이즈의 통계로부터 소정 사이즈 이하의 연결 패턴을 제거하는 연결 패턴 제거 수단
    을 포함하는 것을 특징으로 하는 망점 제거 시스템.
  10. 망점에 의해 음영 처리된 화상으로부터 망점에 의한 음영을 제거하는 망점 제거 방법에 있어서,
    처리 대상의 영역의 흑 화소의 연결 패턴의 밀도로부터 음영 영역을 특정하는 음영 영역 특정 단계와,
    상기 음영 영역에 포함되는 흑 화소의 연결 패턴의 사이즈의 통계로부터 소정 사이즈 이하의 연결 패턴을 제거하는 연결 패턴 제거 단계
    를 포함하는 것을 특징으로 하는 망점 제거 방법을 컴퓨터에 실현시키는 프로그램.
KR1020020010781A 2001-08-23 2002-02-28 망점 제거 방법 및 시스템 Ceased KR20030017304A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JPJP-P-2001-00253294 2001-08-23
JP2001253294A JP4049560B2 (ja) 2001-08-23 2001-08-23 網点除去方法及びシステム

Publications (1)

Publication Number Publication Date
KR20030017304A true KR20030017304A (ko) 2003-03-03

Family

ID=19081646

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020020010781A Ceased KR20030017304A (ko) 2001-08-23 2002-02-28 망점 제거 방법 및 시스템

Country Status (5)

Country Link
US (1) US7130085B2 (ko)
EP (1) EP1296283A3 (ko)
JP (1) JP4049560B2 (ko)
KR (1) KR20030017304A (ko)
CN (1) CN1207673C (ko)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7983446B2 (en) * 2003-07-18 2011-07-19 Lockheed Martin Corporation Method and apparatus for automatic object identification
JP4123267B2 (ja) * 2005-10-31 2008-07-23 コニカミノルタビジネステクノロジーズ株式会社 画像処理装置
JP4555212B2 (ja) * 2005-11-10 2010-09-29 株式会社沖データ 透かし情報埋め込み装置,透かし情報埋め込み方法,およびコンピュータプログラム
JP4835470B2 (ja) * 2007-03-01 2011-12-14 富士ゼロックス株式会社 画像検査装置および画像形成装置
JP5149034B2 (ja) * 2008-02-27 2013-02-20 大日本スクリーン製造株式会社 線画処理装置、プログラムおよび線画処理方法
JP2010020463A (ja) * 2008-07-09 2010-01-28 Dainippon Screen Mfg Co Ltd 線画処理装置、線画処理方法およびプログラム
EP2434452A4 (en) * 2009-05-19 2017-01-25 Nec Corporation Pattern noise removal device, pattern noise removal method, and pattern noise removal program
JP6296726B2 (ja) * 2012-11-16 2018-03-20 キヤノン株式会社 ディザパタン作成方法および画像処理装置
CN104156694B (zh) * 2014-07-18 2019-03-19 百度在线网络技术(北京)有限公司 一种用于识别图像中的目标对象的方法与设备
US11341739B2 (en) * 2016-02-15 2022-05-24 Nec Corporation Image processing device, image processing method, and program recording medium
JP7088661B2 (ja) * 2017-10-30 2022-06-21 株式会社インフォディオ 紙帳票データ化システム、ocrエンジン学習用画像生成装置および画像分析装置
JP7646305B2 (ja) * 2020-07-15 2025-03-17 キヤノン株式会社 画像処理装置、画像処理方法、プログラム

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03122785A (ja) * 1989-10-05 1991-05-24 Toshiba Corp 光学的文字読取装置
US5109432A (en) * 1989-12-27 1992-04-28 Fujitsu Limited Character recognition method
US5594814A (en) * 1992-10-19 1997-01-14 Fast; Bruce B. OCR image preprocessing method for image enhancement of scanned documents
US6005976A (en) 1993-02-25 1999-12-21 Fujitsu Limited Image extraction system for extracting patterns such as characters, graphics and symbols from image having frame formed by straight line portions
JP2951814B2 (ja) 1993-02-25 1999-09-20 富士通株式会社 画像抽出方式
JP3420864B2 (ja) 1995-08-09 2003-06-30 富士通株式会社 枠抽出装置及び矩形抽出装置
JPH09149241A (ja) * 1995-11-24 1997-06-06 Kokusai Electric Co Ltd 画像拡大方法及び画像拡大装置
JP3936039B2 (ja) * 1997-10-30 2007-06-27 富士通株式会社 網がけ領域抽出装置
US6393161B1 (en) * 1999-04-26 2002-05-21 Xerox Corporation Software system for minimizing image defects in a hard-copy input scanner

Also Published As

Publication number Publication date
US20030038975A1 (en) 2003-02-27
CN1207673C (zh) 2005-06-22
US7130085B2 (en) 2006-10-31
CN1403937A (zh) 2003-03-19
EP1296283A2 (en) 2003-03-26
EP1296283A3 (en) 2005-04-20
JP4049560B2 (ja) 2008-02-20
JP2003067738A (ja) 2003-03-07

Similar Documents

Publication Publication Date Title
JP3904840B2 (ja) 多値画像から罫線を抽出する罫線抽出装置
US7054485B2 (en) Image processing method, apparatus and system
US8947736B2 (en) Method for binarizing scanned document images containing gray or light colored text printed with halftone pattern
JP6080259B2 (ja) 文字切り出し装置及び文字切り出し方法
JP2002298085A (ja) 文字認識装置、文字認識方法、及び記録媒体
KR20030017304A (ko) 망점 제거 방법 및 시스템
JP2004272798A (ja) 画像読み取り装置
JP4164489B2 (ja) 文書画像強調方法、装置及びそのための記憶媒体
US6813367B1 (en) Method and apparatus for site selection for data embedding
JP4259949B2 (ja) 画像作成装置、画像作成プログラムおよび記録媒体
Ozawa et al. A character image enhancement method from characters with various background images
JP4259950B2 (ja) 画像認識装置、画像認識プログラムおよび記録媒体
KR20000025647A (ko) 쉐이딩 알고리즘을 이용한 영상 처리 방법
JP2871590B2 (ja) 画像抽出方式
CN112950588A (zh) 一种图像处理方法、装置、电子设备及介质
JP3763954B2 (ja) 文字認識用の学習データ作成方法および記録媒体
JPH02116987A (ja) 文字認識装置
JP7543014B2 (ja) 情報処理装置、情報処理方法及びプログラム
JP2003317107A (ja) 罫線抽出方法及び装置
CN112785508B (zh) 一种电子文档图片去噪的方法和装置
JP4439054B2 (ja) 文字認識装置及び文字枠線の検出方法
JP2023034823A (ja) 画像処理装置、画像処理装置の制御方法およびプログラム
JP3411795B2 (ja) 文字認識装置
JP3127413B2 (ja) 文字認識装置
JP2000331118A (ja) 画像処理装置及び記録媒体

Legal Events

Date Code Title Description
PA0109 Patent application

Patent event code: PA01091R01D

Comment text: Patent Application

Patent event date: 20020228

PG1501 Laying open of application
A201 Request for examination
PA0201 Request for examination

Patent event code: PA02012R01D

Patent event date: 20060526

Comment text: Request for Examination of Application

Patent event code: PA02011R01I

Patent event date: 20020228

Comment text: Patent Application

E902 Notification of reason for refusal
PE0902 Notice of grounds for rejection

Comment text: Notification of reason for refusal

Patent event date: 20070227

Patent event code: PE09021S01D

E601 Decision to refuse application
PE0601 Decision on rejection of patent

Patent event date: 20070608

Comment text: Decision to Refuse Application

Patent event code: PE06012S01D

Patent event date: 20070227

Comment text: Notification of reason for refusal

Patent event code: PE06011S01I