[go: up one dir, main page]

KR940007615B1 - 문자인식에서 좌, 우 거리모양을 이용한 후보문자 분류방법 - Google Patents

문자인식에서 좌, 우 거리모양을 이용한 후보문자 분류방법 Download PDF

Info

Publication number
KR940007615B1
KR940007615B1 KR1019920021515A KR920021515A KR940007615B1 KR 940007615 B1 KR940007615 B1 KR 940007615B1 KR 1019920021515 A KR1019920021515 A KR 1019920021515A KR 920021515 A KR920021515 A KR 920021515A KR 940007615 B1 KR940007615 B1 KR 940007615B1
Authority
KR
South Korea
Prior art keywords
character
section
characters
distance
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
KR1019920021515A
Other languages
English (en)
Other versions
KR940012182A (ko
Inventor
최재균
Original Assignee
주식회사 금성사
이헌조
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 금성사, 이헌조 filed Critical 주식회사 금성사
Priority to KR1019920021515A priority Critical patent/KR940007615B1/ko
Publication of KR940012182A publication Critical patent/KR940012182A/ko
Application granted granted Critical
Publication of KR940007615B1 publication Critical patent/KR940007615B1/ko
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Character Discrimination (AREA)

Abstract

내용 없음.

Description

문자인식에서 좌, 우 거리모양을 이용한 후보문자 분류방법
제 1 도는 통계적 문자인식방법에 사용되는 8×8메쉬의 예를 나타낸 도면.
제 2 도는 통계적 문자인식방법에 사용되는 문자에 외접하는 틀을 나타낸 도면.
제 3 도는 구조적 문자인식시 두께를 갖는 문자를 두께 1인 문자로 세선화하는 방법을 나타낸 도면.
제 5 도는 본 발명의 좌, 우 거리모양을 이용한 후보문자 분류동작시 문자의 특징 추출을 설명하기 위한 플로우 챠트.
제 6 도는 좌, 우측에서 본 거리를 설명하기 위한 도면.
제 7 도는 본 발명에 따른 구간 판정의 예를 나타낸 도면.
제 8 도는 본 발명에 따른 분류나무의 제 1 예를 나타낸 도면.
제 9 도는 본 발명의 좌, 우 거리모양을 이용한 후보문자 분류장치의 구성도.
* 도면의 주요부분에 대한 부호의 설명
11 : 이미지 스캐너 12 : 인터페이스 메모리
13 : 롬 14 : 기준 데이타 제공부
15 : 분류 데이타 제공부 16 : 중앙처리장치
본 발명은 문자인식에 있어서 후보문자를 분류하기 위한 방법에 관한 것으로서, 특히 문자의 좌우에서 바라본 문자의 모양으로 1차 후보문자를 프로젝션 프로파일(Projection Profile)기법을 사용하여 2차 후보문자를 분류하여 정확한 후보문자를 분류하고 높은 인식률을 얻을 수 있는 후보문자 분류방법에 관한 것이다.
일반적으로, 문자인식방법은 크게 2가지로 분류할 수 있는데, 그 하나는 문자의 통계적 특징을 이용하여 문자를 분류하고 인식하는 통계적인 방법이고, 다른 하나는 문자를 이루고 있는 구조적 특성을 이용하여 인식하는 구조적인 인식방법이 있다.
전자의 통계적 문자인식방법은 대부분 제 1 도에 도시된 바와 같은 메쉬(Mesh)를 사용하여 각 메쉬내에 포함되어 있는 화소의 분포, 예를 들어 화소수, 분포 밀도 등을 이용하여 모든 문자에 대해 통계치를 구하고, 구해진 통계치에 따라 후보문자를 분류하며, 분류된 같은 문자군에 포함된 글자들 중에서 가장 유사한 문자를 선택하여 인식하는 방법이다.
통계적 문자인식방법에 사용되는 메쉬란 제 2 도에 도시된 바와같이 입력된 문자에 외접하는 틀(Box)을 만들어 주고, 이를 기준으로 등간격으로 좌, 우 및 상, 하방향으로 나누었을 때 이루는 조그만 격자들의 집합이다.
각 메쉬의 위치를 (i, j)i=0, 1, 2,..., n j=0, 1, 2,..., m으로 하였을 때 모든 문자의 각(i, j) 위치에 대해서 그 통계치를 구한다.
예를들면, 모든 인식대상 문자에서 (1, 1)위치의 메쉬 평균값을 A라 할때, 입력된 문자의 메쉬(1, 1)의 값이 메쉬(1, 1)의 평균값 A보다 크면, 특정값(1, 1)=1, 작으면 특정값(1, 1)=0으로 분류한다.
만일 8×8의 메쉬를 정의하였다면 한 문자에 대한 특징은 8×8, 즉 64개의 특징(Feature)이 나오고 이 특징을 이용하여 후보문자의 분류가 가능하다.
후자의 구조적 인식방법은 문자를 이루고 있는 획구조를 이용하여 인식하는 방법으로, 가장 널리 쓰이는 방법으로 세선화(Thinning 또는 Skeletoning) 방법을 사용하여 획의 방향, 크기, 위치, 획간의 연결도 등을 고려하여 문자를 인식하는 방법이다.
즉, 먼저 제 3 도에 도시된 바와같이 두께를 가진 문자를 두께 1인 문자로 세선화하고, 세선화된 문자의 각각이 획의 길이와 방향을 제 4 도에 도시된 바와같이 8방향 코드로 정의해서 코드를 추출하며, 그 코드에 맞는 문자로 최종적으로 인식한다.
상기한 문자인식방법에 있어서, 통계적 문자인식방법은 인식문자가 복잡하고 독취한 문자의 영상에 잡음이 있더라도 비교적 인식이 잘되지만 폰트(Font)가 달라짐에 따라 인식율이 현저히 저하되는 단점이 있었다.
또한 인식에 필요한 기준자료(reference file)가 많이 필요하여 소요되는 메모리가 많고 유사한 문자가 입력되었을 때 혼동될 확률도 높다.
한편, 구조적 문자인식방법은 문자의 구성을 이루는 획을 추출함으로써 인식하기 때문에 폰트에 구애됨없이 비교적 높은 인식률을 얻을 수 있으나 문자가 복잡한 경우에 획을 추출하기에 어려움이 많고 세선화를 하는 경우 시간이 많이 소요되는 단점이 있었다.
따라서 본 발명의 목적은 문자의 좌우에서 바라본 문자의 모양으로 1차 후보문자를 분류하고 프로젝션 프로파일 기법을 사용하여 2차 후보문자를 분류하여 정확한 후보문자를 분류하고 높은 인식률을 얻을 수 있는 후보문자 분류방법을 제공함에 있다.
이와같은 본 발명의 목적은 입력한 문자에 외접하는 틀을 만들어 주기 위한 단계와, 틀의 좌, 우측으로부터 처음으로 문자와 만날때까지의 거리를 구하는 단계와, 이웃하는 좌측간 및 우측간의 거리를 비교하여 좌, 우측 거리의 변화량을 구하는 단계와, 상기 변화량에 따라 직선, 증가 및 감소 또는 +점프 및 -점프구간을 판정하는 단계와, 상기 판정된 구간을 근거로 하여 문자의 특징을 추출하는 단계와, 추출된 문자의 특징에 따라 분류 나무를 구성하여 후보문자를 분류하는 단계로 이루어짐으로써 달성되는 것으로, 이하 본 발명의 실시예를 첨부된 도면에 의거하여 상세히 설명한다.
본 발명의 좌, 우 거리모양을 이용한 후보문자 분류장치를 도시한 것으로서, 크게 좌우 거리특징에 의해서 각 구간을 나누고 그 구간의 모양에 적합한 코드를 부여하는 특징 추출부와, 이미 추출된 여러개의 특징을 합쳐서 어떤 문자군에 있는지를 판단하는 특징 합성부인 알고리즘을 바탕으로 구성한 하드웨어 모듈인 프로세싱부로 구성되었다.
제 9 도는 본 발명의 좌, 우 거리모양을 이용한 후보문자 분류장치의 구성도를 도시한 것으로서, 입력된 문자의 영상을 스캐닝하기 위한 이미지 스캐너(Image scanner)(11)와, 이미지 스캐너(11)를 통해 입력된 문자의 영상 데이타를 저장하기 위한 인터페이스 메모리(Interface memory)(12)와, 본 발명의 좌, 우 거리모양을 이용한 후보문자 분류방법에 대한 알고리즘이 내장되어 있는 롬(13)과, 문자의 특징 추출시 기준데이타를 제공하기 위한 기준 데이타 제공부(14)와, 문자분류시 문자분류에 대한 데이타를 제공하기 위한 문자분류 데이타 제공부(15) 및 롬(13)내에 저장된 알고리즘을 수행하여 인터페이스 메모리(12)로부터 한 문자씩 가져와 기준 데이타 제공부(14)의 기준 데이타와 비교하여 입력된 문자의 특징을 추출하고 추출된 특징을 합성하여 분류데이타 제공부(15)로부터 제공되는 분류데이타로부터 문자를 분류하기 위한 중앙처리장치(16)로 구성되었다.
본 발명의 좌, 우 거리모양을 이용한 후보문자 분류방법은 크게 입력된 문자의 특징을 추출하는 단계와 추출된 문자의 특징을 합성하여 문자를 분류하는 단계로 이루어졌다.
문자의 특징을 추출하는 단계는 입력된 문자에 외접하는 틀을 만들어 주기 위한 단계와, 틀의 좌, 우측으로부터 처음으로 문자와 만날때까지의 거리를 구하는 단계와, 이웃하는 거리간의 차를 구하여 거리의 변화량을 구하는 단계와, 변화량에 따라 직선구간, 증가 및 감소구간 또는 +, - 점프구간을 판정하는 단계로 이루어졌으며, 문자를 분류하는 단계는 추출된 문자의 특징, 즉 판정된 구간에 따라 분류나무(Tree)를 구성하는 단계와, 이에 따라 문자를 분류하는 단계로 이루어졌다.
본 발명의 후보문자 분류방법중 먼저 문자의 특징을 추출하는 동작을 설명한다.
문자를 구성하는 특징은 여러가지가 있으나 본 발명에서 사용한 특징은 좌우거리를 이용하였는데, 좌, 우거리를 측정하여 구간을 판정하기 위해서는 다음과 같은 순서에 따라 구해진다.
(단계 1) 먼저, 문자에 외접하는 틀을 제 2 도와 같이 구한다.
(단계 2) 상기 만들어진 틀을 등간격으로 횡방향으로 나누어주고, 틀의 상부에서 하부방향으로 좌측 또는 우측에서 처음으로 문자와 만나는 거리를 제 6 도에 도시된 바와같은 방법으로 계산하여 저장한다.
이때, 좌측에서 본 거리 특징은 PL[i]라 하고, 우측에서 본 거리 특징을 PR[i]라 하며, i값은 문자의 높이에 해당한다.
즉, 문자의 높이가 20화소이면 20까지 좌측 및 우측에서 본 거리 PL[i]와, PR[i]를 각각 계산한다.
(단계 3) 좌측 및 우측에서 본 거리를 계산한 후, PL[i]와 이웃하는 PL[i]간의 차이 PDL[i] 및 PR[i]와 이웃하는 PR[i]간의 차이 PDR[i]를 계산하고, 그 차이를 기록한다.
즉, (단계 3)은 (단계 2)에서 구해진 좌, 우거리를 기준으로 그 값의 변화량을 결정하기 위한 단계로서, 이웃하는 거리간의 차이 PDL[i]와 PDR[i]은 각각 변화량을 의미하는 것으로 식(1)과 같이 표현할 수 있다.
PDL[i] = PL[i] - PL[i - 1]················(1)
PDR[i] = PR[i] - PR[i - 1]
이때, 변화량이 "+"이면 거리가 증가하고 있는 것을 의미하고, "-"이면 거리가 감소하고 있는 것을 의미하며, "0"이면 거리의 증감이 없는 것을 각각 의미한다.
또한, 변화량의 크기가 일정치이상으로 크기나 작은 것은 거리가 일정이상으로 점프(Jump)하고 있음을 의미한다.
(단계 4) 이어서 (단계 3)에서 추출된 PDL[i]과 PDR[i]을 이용하여 구간을 결정한다.
즉, 증가구간, 감소구간 및 직선구간을 결정하고 특히 증가나 감소가 어떤 임계치(Threshold value) 이상으로 큰 구간이 발견되면 점프구간으로 결정한다.
따라서, 최종적으로 추출될 수 있는 특징은 다음과 같이 정의될 수 있다.
① 만약 PDL[i], PDR[i]가 +임계치 보다 작은 경우에는 -점프구간으로 판정한다.
② 만약 PDL[i], PDR[i]가 -임계치 보다 작은 경우에는 -점프구간으로 판정한다.
③ 만약 PDL[i], PDR[i]가 0보다 큰 경우에는 +증가구간으로 판정한다.
④ 만약 PDL[i], PDR[i]가 0보다 작은 경우에는 -감소구간으로 판정한다.
⑤ 만약 PDL[i], PDR[i]가 0과 같은 경우에는 직선구간으로 판정한다.
제 7 도는 후보문자 인식시 구간판정에 대한 일례를 도시한 것으로서, 좌측에서 본 거리에 대한 구간 판정만을 예로서 도시하였다.
문자의 높이(i)가 12라고 가정할 때, 좌측에서 본 거리의 변화량 PDL[i]은 식(1)에 의하여 구하여진다.
그러므로, 좌측에서 본 거리의 변화량 PDL[i]을 구한 다음 구간을 판정하게 되는데, i가 0에서 1까지의 구간은 변화량이 0이므로 직선구간으로 판정하고, i가 1에서 6까지의 구간에서는 변화량이 +로 되므로 증가구간으로 판정하며, i가 6에서 7까지이 구간은 변화량이 +임계치 이상으로 변하므로 +점프구간으로 판정하고, i가 7에서 8까지의 구간은 변화량이 -임계치 이상으로 변하므로 -점프구간으로 판정하며, i가 8에서 11까지의 구간은 변화량이 -로 되므로 감소구간으로 각각 판정을 하게 된다.
다음은 문자의 특징 추출에 이은 문자의 특징을 합성하는 단계로 이에 대하여 설명한다.
(단계 5) 특징 추출부에서 특징이 추출되면 그 특징을 종합하여 과연 그 특징을 갖는 문자군이 어떤 것인가를 결정해야 한다.
즉, "A"라는 글자는 왼쪽, 오른쪽 특징이 모두 감소(-)특성을 갖기 때문에 특징은 (왼쪽)→감소, (오른쪽)→감소라는 특징으로 압축된다.
마찬가지로 "B"라는 문자는 (왼쪽)→직선, (오른쪽)→감소, 증가, 감소, 증가라는 특징으로 정의된다.
(단계 6) 따라서, 앞에서 추출된 특징을 바탕으로 제 8 도와 같이 분류나무(Tree)를 구성하여 입력된 문자를 분류하게 된다.
상기한 바와같은 본 발명에 따르면, 문자인식의 정확도를 높이기 위해서 문자를 선분류하는 문자분류 방법으로 종래의 인식방법이 통계적 혹은 구조적인 방법중 택일하여 인식하는 방식을 탈피하여 통계적인 인식방법과 구조적 인식방법을 혼합하여 구성한 것이 특징이다.
즉, 문자의 좌우에서 바라본 문자의 모양을 바탕으로 구성하였기 때문에 문자체(Font)의 바뀜에 의한 오분류의 영향이 적으며 고속으로 분류할 수 있는 잇점이 있으며 분류에 사용된 방법과 결과가 인식시에도 사용될 수 있는 잇점이 있다.

Claims (1)

  1. 입력된 문자에 외접하는 틀을 만들어주기 위한 단계와, 틀의 좌, 우측으로 부터 처음으로 문자와 만날때까지의 거리를 구하기 위한 단계와, 이웃하는 좌측의 거리간 및 우측의 거리간의 변화량을 구하기 위한 단계와, 상기 구해진 변화량에 따라 구간을 직선구간, 증가 및 감소구간 또는 +점프 및 -점프구간으로 판정하는 단계와, 상기 판정된 구간에 따라 문자의 특징을 추출하는 단계와, 추출된 문자의 특징을 바탕으로 분류나무를 구성하여 후보문자를 분류하는 단계를 포함하는 것을 특징으로 하는 문자인식시 좌, 우 거리모양을 이용한 후보문자 인식방법.
KR1019920021515A 1992-11-16 1992-11-16 문자인식에서 좌, 우 거리모양을 이용한 후보문자 분류방법 Expired - Fee Related KR940007615B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1019920021515A KR940007615B1 (ko) 1992-11-16 1992-11-16 문자인식에서 좌, 우 거리모양을 이용한 후보문자 분류방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1019920021515A KR940007615B1 (ko) 1992-11-16 1992-11-16 문자인식에서 좌, 우 거리모양을 이용한 후보문자 분류방법

Publications (2)

Publication Number Publication Date
KR940012182A KR940012182A (ko) 1994-06-23
KR940007615B1 true KR940007615B1 (ko) 1994-08-22

Family

ID=19343240

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019920021515A Expired - Fee Related KR940007615B1 (ko) 1992-11-16 1992-11-16 문자인식에서 좌, 우 거리모양을 이용한 후보문자 분류방법

Country Status (1)

Country Link
KR (1) KR940007615B1 (ko)

Also Published As

Publication number Publication date
KR940012182A (ko) 1994-06-23

Similar Documents

Publication Publication Date Title
CN100440250C (zh) 印刷体蒙古文字符识别方法
EP1052593B1 (en) Form search apparatus and method
US6754385B2 (en) Ruled line extracting apparatus for extracting ruled line from normal document image and method thereof
US8908961B2 (en) System and methods for arabic text recognition based on effective arabic text feature extraction
EP0542566A2 (en) Character recognition method and apparatus thereof
CA2429507A1 (en) Writing guide for a free-form document editor
US9047655B2 (en) Computer vision-based methods for enhanced JBIG2 and generic bitonal compression
CN112364862B (zh) 一种基于直方图相似度的扰动变形汉字图片匹配的方法
JPH1166238A (ja) 手書き文字認識方法
KR940007615B1 (ko) 문자인식에서 좌, 우 거리모양을 이용한 후보문자 분류방법
CN109117841B (zh) 基于笔画宽度变换与卷积神经网络的场景文本检测方法
JP3415342B2 (ja) 文字切り出し方式
JPH05174187A (ja) 文字認識装置
JP2995818B2 (ja) 文字切り出し方法
CN120030162B (zh) 表格数据抽取方法、装置、计算机设备和存储介质
CN119007181B (zh) 一种用于音视频的ocr识别方法及系统
JPH03126188A (ja) 文字認識装置
JP2003162688A (ja) 文字認識用辞書作成装置及び文字認識装置
JP2576080B2 (ja) 文字切出し方法
JP2002063547A (ja) 手書き文字認識方法
JP4101385B2 (ja) 文字認識装置
JP2832035B2 (ja) 文字認識装置
JPH0769936B2 (ja) パターン認識方式
JPH0769940B2 (ja) 連想整合認識方式
JPH04163681A (ja) 情報処理装置及び文字認識装置

Legal Events

Date Code Title Description
A201 Request for examination
PA0109 Patent application

St.27 status event code: A-0-1-A10-A12-nap-PA0109

PA0201 Request for examination

St.27 status event code: A-1-2-D10-D11-exm-PA0201

R17-X000 Change to representative recorded

St.27 status event code: A-3-3-R10-R17-oth-X000

PG1501 Laying open of application

St.27 status event code: A-1-1-Q10-Q12-nap-PG1501

G160 Decision to publish patent application
PG1605 Publication of application before grant of patent

St.27 status event code: A-2-2-Q10-Q13-nap-PG1605

E701 Decision to grant or registration of patent right
PE0701 Decision of registration

St.27 status event code: A-1-2-D10-D22-exm-PE0701

GRNT Written decision to grant
PR0701 Registration of establishment

St.27 status event code: A-2-4-F10-F11-exm-PR0701

PR1002 Payment of registration fee

St.27 status event code: A-2-2-U10-U11-oth-PR1002

Fee payment year number: 1

PR1001 Payment of annual fee

St.27 status event code: A-4-4-U10-U11-oth-PR1001

Fee payment year number: 4

PR1001 Payment of annual fee

St.27 status event code: A-4-4-U10-U11-oth-PR1001

Fee payment year number: 5

PR1001 Payment of annual fee

St.27 status event code: A-4-4-U10-U11-oth-PR1001

Fee payment year number: 6

PN2301 Change of applicant

St.27 status event code: A-5-5-R10-R13-asn-PN2301

St.27 status event code: A-5-5-R10-R11-asn-PN2301

PN2301 Change of applicant

St.27 status event code: A-5-5-R10-R13-asn-PN2301

St.27 status event code: A-5-5-R10-R11-asn-PN2301

PR1001 Payment of annual fee

St.27 status event code: A-4-4-U10-U11-oth-PR1001

Fee payment year number: 7

PN2301 Change of applicant

St.27 status event code: A-5-5-R10-R13-asn-PN2301

St.27 status event code: A-5-5-R10-R11-asn-PN2301

PR1001 Payment of annual fee

St.27 status event code: A-4-4-U10-U11-oth-PR1001

Fee payment year number: 8

PR1001 Payment of annual fee

St.27 status event code: A-4-4-U10-U11-oth-PR1001

Fee payment year number: 9

PN2301 Change of applicant

St.27 status event code: A-5-5-R10-R11-asn-PN2301

PN2301 Change of applicant

St.27 status event code: A-5-5-R10-R13-asn-PN2301

St.27 status event code: A-5-5-R10-R11-asn-PN2301

PR1001 Payment of annual fee

St.27 status event code: A-4-4-U10-U11-oth-PR1001

Fee payment year number: 10

PR1001 Payment of annual fee

St.27 status event code: A-4-4-U10-U11-oth-PR1001

Fee payment year number: 11

PR1001 Payment of annual fee

St.27 status event code: A-4-4-U10-U11-oth-PR1001

Fee payment year number: 12

FPAY Annual fee payment

Payment date: 20060627

Year of fee payment: 13

PR1001 Payment of annual fee

St.27 status event code: A-4-4-U10-U11-oth-PR1001

Fee payment year number: 13

LAPS Lapse due to unpaid annual fee
PC1903 Unpaid annual fee

St.27 status event code: A-4-4-U10-U13-oth-PC1903

Not in force date: 20070823

Payment event data comment text: Termination Category : DEFAULT_OF_REGISTRATION_FEE

PC1903 Unpaid annual fee

St.27 status event code: N-4-6-H10-H13-oth-PC1903

Ip right cessation event data comment text: Termination Category : DEFAULT_OF_REGISTRATION_FEE

Not in force date: 20070823

P22-X000 Classification modified

St.27 status event code: A-4-4-P10-P22-nap-X000

P22-X000 Classification modified

St.27 status event code: A-4-4-P10-P22-nap-X000