KR101452562B1

KR101452562B1 - 비디오 이미지에서 텍스트를 검출하는 방법

Info

Publication number: KR101452562B1
Application number: KR1020117005003A
Authority: KR
Inventors: 쟝 피에르 길로우; 양 유
Original assignee: 소니 주식회사; 소니 일렉트로닉스 인코포레이티드
Priority date: 2008-09-03
Filing date: 2009-08-31
Publication date: 2014-10-21
Anticipated expiration: 2029-08-31
Also published as: WO2010027933A1; WO2010027933A9; JP2012502359A; EP2321767A1; CN102144236B; CN102144236A; CA2735824A1; US8320674B2; US20100054585A1; MX2011002293A; JP5588987B2; KR20110056380A

Abstract

본 발명에 따른 실시예에 따르면, 이미지 및 비디오로부터 텍스트를 인식하는 데 있어서의 첫번째 동작은 이미지 및 비디오에서 텍스트의 위치를 정확하게 찾아내는 것이다. 그 후에, 찾아낸 어쩌면 저해상도인 텍스트가 추출되고 향상되며 이진화될 수 있다. 마지막으로, 기존의 OCR 기술이 인식을 위해 이진화된 텍스트에 적용될 수 있다. 다른 실시예들이 이 요약에 기술된 특징들로부터 벗어날 수 있기 때문에, 이 요약이 제한하는 것으로 생각되어서는 안 된다.

Description

비디오 이미지에서 텍스트를 검출하는 방법{A METHOD OF TEXT DETECTION IN A VIDEO IMAGE}

<관련 문서의 상호 참조>

본 출원은 Yu 등의 2008년 9월 30일자로 출원된 미국 가특허 출원 제61/190,992호에 관한 것으로서 이를 기초로 우선권을 주장하며, 이 출원은 본 명세서에 참조되어 포함된다. 본 출원은 모두 Candelore의, 2007년 2월 14일자로 출원된 미국 특허 출원 제11/706,919호, 2007년 2월 14일자로 출원된 제11/706,890호, 2007년 3월 8일자로 출원된 제11/715,856호 및 2007년 2월 14일자로 출원된 제11/706,529호에 관한 것이며, 이들은 본 명세서에 참조되어 포함된다.

<저작권 및 상표권 고지>

이 특허 문서의 개시 내용의 일부분이 저작권 보호를 받는 내용을 포함하고 있다. 저작권 소유자는 특허청 특허 파일 또는 기록에 나와 있는 그대로 특허 문서 또는 특허 명세서를 팩시밀리 재현하는 것에 대해서는 이의를 제기하지 않지만, 그렇지 않은 어떤 경우에도 모든 저작권을 보유한다. 상표는 그 각자의 소유자의 자산이다.

TV 비디오에서, 광고된 제품의 이름, 관련 정보의 URL(Universal Resource Locator), 연설자 또는 선수의 이름, 행사의 위치 및 날짜 등과 같은 중요한 콘텐츠 정보를 제공할 수 있는 텍스트가 종종 존재한다. 캡션으로서 인위적으로 추가되거나 장면에 삽입된 텍스트가 이미지 및 비디오를 인덱싱 및 검색하는 데, 비디오 콘텐츠에 대한 시청자의 관심을 분석하는 데, 또는 인터넷으로부터 액세스될 수 있는 관련 콘텐츠를 시청자에게 제공하는 데 이용될 수 있다. 그러나, 보통의 텔레비전 또는 비디오 이미지에 삽입된 텍스트는 종래의 문서에서 텍스트 인식이 수행될 때 존재하지 않는 텍스트 식별 및 인식에서의 특별한 문제점을 제기한다.

목적 및 이점과 함께, 동작의 구성 및 방법을 설명하는 예시적인 특정 실시예가 첨부 도면과 관련하여 기술된 이하의 상세한 설명을 참조함으로써 가장 잘 이해될 수 있을 것이다.
도 1은 본 발명의 특정 실시예에 따른, 텍스트 로컬화 프로세스의 예시적인 흐름도이다.
도 2는, 도 2a 및 도 2b로 이루어져 있고, 본 발명의 특정 실시예에 따른 방식으로의 처리 전후의 예시적인 이미지이다.
도 3은 본 발명의 특정 실시예에 따른 예시적인 구현의 병합 그룹에서 사용되는 파라미터를 나타낸 도면이다.
도 4는 본 발명의 특정 실시예에 따른 방식으로 도 2b의 세그먼트화된 이미지의 처리 후의 추출된 영역의 일부를 나타낸 도면이다.
도 5는, 도 5a 및 도 5b로 이루어져 있고, 본 발명의 특정 실시예에 따른 방식으로 사용되는 스트로크 폭 파라미터를 나타낸 도면이다.
도 6은, 도 6a 내지 도 6f로 이루어져 있고, 본 발명의 특정 실시예에 따른 몇가지 예에 대한 이진화 결과를 나타낸 도면.

<참고 문헌>

하기의 문헌이 이하의 상세한 설명에서 참조된다:

[1] Rainer Lienhart. Video OCR: A survey and practitioner's guide, In Video Mining, Kluwer Academic Publisher, pp. 155-184, Oct. 2003.

[2] Keechul Jung, Kwang In Kim, and Anil K. Jain, Text information extraction in images and video: a survey, Pattern Recognition, 37, pp. 977-997, 2004.

[3] Jian Liang, David Doermann, and Huiping Li. Camera-based analysis of text and documents: a survey, IJDAR, vol 7, No 2-3, 2005.

[4] Anil K. Jain and Bin Yu. Automatic text location in images and video frames, Pattern Recognition, Vol. 31, No 12, 1998.

[5] Shio J. Ohya and S. Akamatsu. Recognizing characters in scene images, IEEE Trans. On Pattern Analysis and Machine Intelligence, VoI 16, No 2, 1994, pp 214-220.

[6] CM. Lee, A. Kankanhalli, Automatic extraction of characters in complex images, Int. J. Pattern Recognition Artif. Intell. 9(1), 1995, pp67-82.

[7] M.A. Smith, T. Kanade, Video skimming for quick browsing based on audio and image characterization, Technical Report CMU-CS-95-186, Carnegie Mellon University, July 1995.

[8] D. Chen, K. Shearer and H. Bourlard, Text enhancement with asymmetric filter for video OCR. Proceedings of International Conference on Image Analysis and Processing, Palermo, Italy, 2001, pp. 192-197.

[9] H. Li, D. Doermann, O. Kia, Automatic text detection and tracking in digital video, IEEE Trans. Image Process. 9(1), 2001, pp. 147-156.

[10] D. Chen, H. Boulard, J-P. Thiran. Text identification in complex background using SVM, Proceedings of IEEE Conference on Computer Vision and Pattern Recognition, Vol. 2, 2001, pp. 621-626.

[11] Xiangrong Che, Alan L. Yuille, Detecting and reading text in natural scenes, Proceedings of IEEE Conference on Computer Vision and Pattern Recognition, Vol. 2, 2004, pp. 366-373.

[12] Edward K. Wong and Minya Chen, A new robust algorithm for video text extraction, Pattern Recognition. No. 36, 2003, pp. 1398-1406.

[13] K. Subramanian, P. Natarajan, M. Decerbo and D. Castanon, Character-stroke detection for text-localization and extraction, Proceedings of IEEE Document Analysis and Recognition. Vo. 1, 2007, pp. 23-26.

[14] Richard Nock and Frank Nielsen, Statistical Region Merging, IEEE Trans. On Pattern Analysis and Machine Intelligence, Vol. 26, No. 11, 2004, pp. 1452-1458.

[15] V. Vapnik, "Statistical learning theory", John Wiley and Sons, 1998.

[16] Chih-Chung Chang and Chih-Jen Lin, LIBSVM : a library for support vector machines, 2001. Software available at http://www.csie.ntu.edu.tw/~cjlin/libsv.

[17] W. Niblack. An Introduction to Digital Image Processing, pp. 115-116, Prentice Hall, 1986.

[18] N. Otsu. A threshold selection method from gray-level histograms. IEEE Trans. On Systems, Man and Cybernetics, Vol. 9, No. 1, pp. 62-66, 1979.

[19] S.D. Yanowitz and A.M. Bruckstein, A new method for image segmentation, Computer Vision, Graphics and Image Prcoessing CVGIP, Vol. 46, no. 1, pp. 82-95, 1989.

[20] S.M. Lucas, A. Panaretos, L. Sosa, A. Tang, S. Wong and R. Young. ICDAR 2003 robust reading competitions, In 7th International Conference on Document Analysis and Recognition-ICDAR2003, 2003.

[21] S.M. Lucas, ICDAR 2005 Text locating competition results, ICDAR 2005, pp. 80-84.

본 발명이 많은 서로 다른 형태로 실시될 수 있지만, 특정의 실시예가 도면에 도시되고 본 명세서에 상세히 기술될 것이며, 이러한 실시예에 대한 본 개시 내용이 원리의 예로서 간주되어야 하고 본 발명을 도시되고 설명된 특정의 실시예로 제한하려는 것이 아니라는 것을 잘 알 것이다. 이하의 설명에서, 몇개의 도면에서 동일하거나 유사하거나 대응하는 부분을 설명하는 데 동일한 참조 번호가 사용된다.

본 명세서에서 사용되는 "한" 또는 "하나"라는 용어는 '하나 또는 둘 이상'으로서 정의된다. 본 명세서에서 사용되는 "복수"라는 용어는 '둘 또는 셋 이상'으로서 정의된다. 본 명세서에서 사용되는 "다른"이라는 용어는 '적어도 제2 또는 추가의'로서 정의된다. 본 명세서에서 사용되는 "구비하는" 및/또는 "갖는"이라는 용어는 '포함하는'(즉, 개방형 문언)으로서 정의된다. 본 명세서에서 사용되는 "결합된"이라는 용어는 '연결된'으로서 정의되지만, 반드시 직접 연결될 필요가 없고 또한 반드시 기계적으로 연결될 필요가 없다. 본 명세서에서 사용되는 "프로그램" 또는 "컴퓨터 프로그램"이라는 용어 또는 유사한 용어는 컴퓨터 시스템 상에서 실행되도록 설계된 '명령어 시퀀스'로서 정의된다. "프로그램" 또는 "컴퓨터 프로그램"은 서브루틴, 함수, 프로시저, 객체 메서드, 객체 구현, 실행가능 응용 프로그램, 애플릿, 서블릿, 소스 코드, 오브젝트 코드, 공유 라이브러리/DLL(dynamic load library) 및/또는 컴퓨터 시스템 상에서 실행되도록 설계된 기타 명령어 시퀀스를 포함할 수 있다. 본 명세서에서 사용되는 "프로그램"이라는 용어는 또한 제2 문맥으로도 사용될 수 있다(상기한 정의는 제1 문맥에 대한 것임). 제2 문맥에서, 이 용어는 "텔레비전 프로그램"의 의미로 사용된다. 이 문맥에서, 이 용어는, 콘텐츠가 영화, 스포츠 경기, 여러 편의 시리즈(multi-part series) 중 단편, 뉴스 방송 등인지에 상관없이, 하나의 텔레비전 프로그램으로서 해석되고 EPG(electronic program guide)에서 하나의 텔레비전 프로그램으로서 보고되는 것과 같은 임의의 일관성있는 오디오 비디오 콘텐츠 시퀀스를 의미하는 데 사용된다. 이 용어는 또한 EPG(electronic program guide)에서 프로그램으로서 보고되지 않을 수 있는 광고 스팟(commercial spot) 및 기타 프로그램-유사 콘텐츠를 포괄하도록 해석될 수 있다.

본 문서 전반에 걸쳐 "일 실시예", "특정 실시예", "실시예", 또는 유사한 용어는 그 실시예와 관련하여 기술된 특정의 특징, 구조 또는 특성이 본 발명의 적어도 하나의 실시예에 포함된다는 것을 의미한다. 따라서, 본 명세서 전반에 걸쳐 여러 곳에서 나오는 이러한 문구가 모두 동일한 실시예를 말하는 것은 아니다. 게다가, 특정의 특징, 구조 또는 특성이 하나 이상의 실시예에서 임의의 적절한 방식으로 결합될 수 있지만, 이들로 제한되지 않는다.

본 명세서에서 사용되는 "또는"이라는 용어는 포함적이거나 임의의 하나 또는 임의의 조합을 의미하는 것으로 해석되어야 한다. 따라서, "A, B 또는 C"는 A, B, C, A와 B, A와 C, B와 C, A와 B와 C 중 어느 것이라도 의미한다. 요소, 기능, 단계 또는 동작의 조합이 어떤 면에서 본질적으로 상호 배타적일 때에만 이 정의에 대한 예외가 될 것이다. 본 문서 전체에 걸쳐, 특정 프로세스에서 비교를 위해 다양한 임계값이 사용된다. 본 명세서에 개시되고 상기 참고 자료를 참조하는 임계값은 여기에 제시되는 예시적인 실시예와 관련하여 참조하기 위한 것이며 다른 구현에 따른 다른 프로세스를 제한하기 위한 것이 아니다.

TV 비디오에서, 광고된 제품의 이름, 관련 정보의 URL(Universal Resource Locator), 연설자 또는 선수의 이름, 행사의 위치 및 날짜 등과 같은 중요한 콘텐츠 정보를 제공할 수 있는 텍스트가 종종 존재한다. 캡션으로서 인위적으로 추가되거나 장면에 삽입된 텍스트가 이미지 및 비디오를 인덱싱 및 검색하는 데, 비디오 콘텐츠에 대한 시청자의 관심을 분석하는 데, 또는 인터넷으로부터 액세스될 수 있는 관련 콘텐츠를 시청자에게 제공하는 데 이용될 수 있다. 그러나, 보통의 텔레비전 또는 비디오 이미지에 삽입된 텍스트는 종래의 문서에서 텍스트 인식이 수행될 때 존재하지 않는 텍스트 식별 및 인식에서의 특별한 문제점을 제기한다. 비교적 고선명 비디오에서도, 텍스트가 종종 종래의 광학 문자 인식을 사용하여 인쇄 텍스트에서 통상적인 것보다도 기계에 의해 인식하기가 더 어려운 비교적 저해상도로 제시될 수 있다.

광학 문자 인식(OCR) 기술은 텍스트 문서로부터 텍스트를 자동으로 인식하는 데 사용될 수 있으며, 여기서 해상도는 충분히 높고(예를 들어, 300dpi 초과), 전경 텍스트가 바람직하게는 간단한 구조화된 백색 배경 상에 흑색으로 되어 있다. 그러나, 이미지 또는 비디오에서, 해상도가 일반적으로 훨씬 더 낮다(예를 들어, 50dpi 또는 훨씬 더 낮음). 좋지 않은 이미지 품질은 센서로 인한 노이즈, 불균일한 조명 또는 압축 등으로부터 온 것이다. 또한, 원근법, 광각 렌즈, 비평면인 표면, 조명 등에 의해 왜곡이 생긴다. 마지막으로, 텍스트가 이리저리 움직이는 물체를 가지는 복잡한 배경 상에 있을 수 있다. 요약하면, 비디오 이미지 또는 그로부터의 프레임 등의 이미지를 처리할 때 종래의 OCR 기술이 고려하지 않는 많은 변수가 있다. 이들 문제점 모두는 종종 OCR 기술을 이미지 및 비디오 데이터에 직접 적용하는 것을 어렵게 만들거나 심지어 불가능하게 만든다.

본 발명에 따른 실시예에 따르면, 이미지 및 비디오로부터 텍스트를 인식하는 데 있어서의 첫번째 동작은 이미지 및 비디오에서 텍스트의 위치를 정확하게 찾아내는 것이다. 이것은 아주 복잡한 문제인 것으로 밝혀졌다. 그 후에, 찾아낸 어쩌면 저해상도인 텍스트가 추출되고 향상되며 이진화될 수 있다. 마지막으로, 기존의 OCR 기술이 인식을 위해 이진화된 텍스트에 적용될 수 있다.

이미지 및 비디오 데이터에서 텍스트를 찾아내는 문제는 다수의 방식으로 해결되었다. 상기 참고 문헌에서 텍스트 로컬화 및 추출 알고리즘에 대해 광범위하게 검토하고 있다. 상기한 [1], [2] 및 [3] 문헌이 이하의 상세한 설명에서 참조된다. 방법들은 종종 영역-기반 방법, 에지-기반 방법 및 텍스처-기반 방법으로 분류된다.

참고 문헌 [4], [5], [6]에 기술된 바와 같은 영역-기반 방법에서, 텍스트 내의 문자가 동일한 컬러를 갖는 것으로 가정된다. 연결 성분 분석, 클러스터링 또는 세그먼트화 알고리즘에 의해 영역이 발생된다. 이어서, 영역의 크기, 높이/폭 비 또는 기준선 등의 추론이 비텍스트 영역을 필터링 제거하는 데 이용된다. 마지막으로, 나머지 영역이 추론 제약조건(heuristic constraint) 또는 학습된 분류기에 의해 텍스트 또는 비텍스트로서 분류된다.

참고 문헌 [7] 및 [8]에 기술된 에지-기반 방법은 텍스트가 배경에 대해 강한 에지를 나타내므로 텍스트 영역이 에지의 클러스터라는 관찰에 기초하며, 따라서 첫번째 단계가 에지 검출이다. 이어서, 평탄화(smoothing) 및 병합에 의해, 에지가 클러스터링된다. 마지막으로, 이들 클러스터가 추론 제약조건 또는 학습된 분류기에 의해 텍스트 또는 비텍스트로서 분류된다.

텍스처-기반 방법은 텍스처 특징을 사용하여 픽셀 또는 영역이 텍스트에 속하는지 여부를 결정한다. 로컬 공간 분산, 수평 분산, 2차 통계, 주파수 특징, 웨이블릿 변환의 로컬 에너지 또는 고차 모멘트 등과 같은 텍스처 특징을 추출하기 위해 전체 이미지가 픽셀별로 또는 블록별로 스캔된다. 픽셀 또는 블록을 텍스트 또는 비텍스트로 분류하기 위해 특징이 이어서 분류기(신경망 [9], 지지 벡터 기계 [10], 또는 아다부스팅(adaboosting) [11])에 피드된다. 마지막으로, 픽셀 또는 블록이 병합되어 최종 텍스트 영역을 발생한다.

본 명세서에 기술된 기술은 광의적으로 영역-기반 텍스트 로컬화 방법이라고 할 수 있다. 빠르고 효과적인 이미지 세그먼트화 알고리즘이 먼저 유사한 컬러의 영역을 추출하기 위해 이용된다. 텍스트인 것으로 생각되지 않는 영역을 필터링 제거하기 위해 추론이 적용되는 전처리 후에, 각각의 영역의 특징이 분석된다. 텍스트에서의 스트로크가 유사한 폭을 가지는 경향이 있다는 관찰에 기초하여, 스트로크 특징이 추출된다. 또한, 중요한 에지 특징 및 필 팩터(fill factor) 특징이 차감된다. 마지막으로, 지지 벡터 기계(SVM) 분류기(분류기는 서로 다른 그룹을 가지는 객체를 분리함)는 영역을 텍스트 및 비텍스트로 분류하도록 학습된다. SVM은 텍스트와 비텍스트 간의 차를 최대화하는 데 사용된다.

텍스트를 식별하는 것을 돕기 위해 스트로크 특징이 이용된다. 유의할 점은, 일반적으로 텍스트에서의 스트로크의 폭이 수평으로도 수직으로도 유사하다는 것이다. 참고 문헌 [12] 및 [13]에서, 스트로크 특징 또한 사용되지만, 텍스트 검출을 위해 수평 스트로크 폭만이 검사된다. 여기서, 수평 및 수직 방향 둘다에서의 스트로크 폭의 특징이 추출된다. 또한, 에지 및 기타 중요한 특징이 분류를 위해 결합된다.

1. 시스템 및 처리 개요

도 1은 104에서 시작하는 특정 실시예에 따른 비디오 OCR 프로세스(100)의 예시적인 흐름도이다. 동 도면은 또한 시스템 다이어그램으로도 볼 수 있으며, 동 도면의 각각의 블록이 프로그램된 프로세서 및/또는 상태 기계 및/또는 전용 하드웨어를 사용하여 구현될 수 있는 시스템의 기능 블록을 나타낸다. 108에서, 시스템은 입력 이미지 또는 키 프레임을 수신한다. 이어서, 112에서 이미지가 유사한 컬러의 영역으로 세그먼트화된다. 이들 영역에 대표적인 컬러가 할당되면, 얻어진 이미지는 제한된 수의 컬러로 렌더링되는 것과 비슷하고, 이미지는 컬러 영역의 경계에서 농담이 고르지 않은 모습을 가진다. 이들 영역이 전처리 블록(116)에서 크기, 종횡비, 필 팩터 등과 같은 추론 제약조건에 의해 필터링된다. 120에서, 나머지 영역의 특징이 추출된다. 124에서, 이들 특징이 영역을 텍스트 영역과 비텍스트 영역으로 분류하는 SVM 분류기에 피드된다. 128에서, 그 텍스트 영역이 향상되고 이진화된다. 마지막으로, 132에서, 프로그램된 프로세서의 형태로 구현될 수 있는 OCR 엔진에서 OCR 처리가 수행된다. OCR 엔진은 이진화된 영역에 대해 동작하고 인식된 텍스트의 형태로 인식 결과를 출력하고, 프로세스가 136에서 종료한다. 도 1의 다양한 요소에 대해 이하에서 더 상세히 설명한다.

II. SVM에 의한 텍스트 로컬화

A. 세그먼트화

특정 구현에 따르면, 참고 문헌 [14]에 기술된 통계적 영역 병합 알고리즘이 입력 이미지에 적용되어 유사한 컬러의 영역을 얻지만, 다른 알고리즘도 사용될 수 있다. 본 문서의 목적상, "유사한 컬러"라는 용어는, 본 명세서에서 사용되는 바와 같이, 한 예시적인 구현에서, 2개의 영역(여기서 한 영역은 프라임 부호로 표시되어 있고 윗줄은 평균값을 나타냄)의 평균 적색, 녹색, 청색(R, G, B) 값의 절대 차가 하기의 식으로 표현될 수 있는 병합 임계값 내에 있다는 것을 의미한다:

여기서 T_dev는 참고 문헌 [14]에 제공된 것과 같은 병합 임계값이다. 다른 구현에서 유사한 컬러의 다른 병합 임계값 및 다른 정의도 또한 적절할 수 있다. 분포에 대해 다소 제한적인 가정을 사용하는 대부분의 다른 공지된 세그먼트화 알고리즘과 달리, 이 알고리즘이 현재 바람직한 이유는 가정이 거의 없는 이미지 발생 모델에 기초하며 이는 모든 종류의 시나리오에서 알고리즘을 효과적으로 만들기 때문이다. 알고리즘은 3 단계로 수행된다. 제1 단계는 이웃 픽셀의 컬러 차를 계산하는 것이다. 제2 단계는 픽셀의 컬러 차에 따라 픽셀을 정렬하는 것을 포함한다. 제3 단계는 영역이 발생되도록 임계값보다 작은 컬러 차를 가지는 픽셀을 병합하는 것을 포함한다. 알고리즘이 과잉-병합 오류만을 겪고 세그먼트화에서 높은 확률로 낮은 오류를 달성하도록 되어 있다. 마지막으로, 알고리즘이 선형 시간/공간에서 효율적으로 근사화될 수 있고, 그로써 고속 세그먼트화 알고리즘이 얻어진다. 참조된 상기 미국 가특허 출원 제61/190,992호의 도 2는 세그먼트화 알고리즘의 예시적인 출력을 나타내며, 여기서는 도 2a 및 도 2b로서 나타내어져 있다.

B. 전처리

세그먼트화 후에, 유사한 컬러의 영역이 얻어진다. 목표는 그 영역을 텍스트 영역 및 비텍스트 영역으로 분류하는 것이다. 분류의 효율성을 향상시키기 위해, 텍스트일 가능성이 거의 없는 영역이 먼저 제거된다. 따라서, 한 구현에서 하기의 조건이 검사된다:

(1) region_height가 어떤 임계값 T_low보다 작거나 region_height가 어떤 임계값 T_high보다 큰 경우, 영역이 버려진다.

(2) region_area이 어떤 임계값 T_area보다 작은 경우, 영역이 버려진다.

(3) 영역이 이미지 경계의 4개의 측면 중 하나와 접촉하고 그의 높이가 임계값 T보다 큰 경우, 영역이 버려진다.

(4) 수학식 1로서 정의된 fill_factor가

임계값 T_fill보다 작은 경우, 버려진다.

이상의 임계값들은 경험적으로 선택된다. 이 예시적인 구현에서, 사용된 값들은 다음과 같다:

T_low=10

T_high=HEIGHT*0.9 (HEIGHT는 이미지 크기의 높이임)

T_area=12

T=HEIGHT/2

T_fill=0.1

다른 값들이 다른 구현에 적당할 수 있고, 현재의 값이 경험적으로 추가로 최적화될 수 있다.

문자들이 클러스터를 이루어 나타나는 경향이 있으며, 문자들의 클러스터를 분류하는 것이 더 쉽다. 동일한 단어 내의 문자들이 보통 동일한 컬러를 가지며, 대체로 수평으로 정렬되어 있다. 이상의 사실로 인해, 영역의 크기 및 컬러가 유사하고 영역의 수평 위치가 임계값 내에 있는 경우 영역이 그룹화된다. 도 3은 다음과 같이 이 예시적인 구현에서 영역을 병합 또는 그룹화하는 데 사용되는 파라미터 D_region, D_top 및 D_bottom을 나타내고 있다.

예시적인 구현에서 사용되는 병합 또는 그룹화 규칙은 다음과 같다:

규칙 1. (높이 유사성)

여기서 HEIGHT₁ 및 HEIGHT₂는 2개의 영역의 높이이다.

규칙 2. (컬러 유사성)

여기서

및

은 2개의 영역의 평균 컬러이다.

규칙 3. (영역 거리)

여기서 D_region은 2개의 영역의 수평 거리이다.

규칙 4. (수평 정렬)

또는

여기서 D_top 및 D_bottom은 상부 경계 및 하부 경계 사이의 수직 거리이다. D_region, D_top 및 D_bottom의 정의에 대해서는 도 3을 참조하기 바란다. 임계값은 다음과 같이 경험적으로 설정되지만, 다른 구현, 규칙 및 규칙 수정에 대해 다른 설정이 적당할 수 있고, 이들 임계값이 추가로 최적화될 수 있다:

도 4는 미국 가특허 출원의 도 2(도 2)에서의 세그먼트화된 이미지의 전처리 후의 추출된 영역의 일부를 나타낸 것이다. 도 4에서, 박스는 각각의 예시적인 영역을 둘러싸는 박스의 경계를 나타내고, 흑색 영역은 전경 영역이며, 백색 영역은 배경 영역이다. 그 다음 작업은 그 영역을 텍스트 영역 및 비텍스트 영역으로 분류하는 것이다.

C. 특징 추출

나머지 영역의 특징이 이어서 추출된다. 사용되는 특징은 스트로크 폭 특징, 에지 특징 및 필 팩터 특징이며, 이하에서 상세히 설명한다.

스트로크 폭 특징

도 5는 도 5a 및 도 5b로 이루어져 있으며, 스트로크 폭의 개념을 나타내고 있다. 본 문서의 목적상, 스트로크 폭은 스트로크의 2개의 에지 사이의 수평 방향에서의 픽셀 단위의 폭으로 간주된다. 스트로크 폭의 분산이 임계값 내에 있는 이웃의 퍼센트를 사용하는 본 방법에서 실제 폭이 특별히 중요하지는 않다.

스트로크 폭 특징은 텍스트 요소 내의 스트로크 폭이 수직 방향 및 수평 방향 둘다에서 유사한 경향이 있다는 관찰(도 5에 나타내어져 있음)에 기초한다. 도 5a는 글자 "F"에서의 예시적인 스트로크의 폭이 브라켓(140)으로 정의된 수직 이웃에서 대략 일정하다는 것을 나타내고 있다. 화살표는 문자 F의 이 영역에서의 폭을 나타낸다. 도 5b는 수평으로 스트로크가 유사한 폭을 가지거나(즉, 대략 동일하거나) 유사한 폭을 가지는 그룹으로 클러스터링될 수 있다는 것을 나타내고 있다. 동 도면에서, 참조 번호(144, 148, 152, 156) 각각은 대략 공통의 폭을 나타낸다.

이와 관련하여 사용되는 "이웃"이라는 용어는 스트로크를 포함하는 수직 거리의 범위이며, 텍스트 요소가 수직 방향으로 유사하다고 말할 때, 이는 폭이 수직 이웃 내에 있다는 것을 의미한다. 수평 방향의 경우, 스트로크 폭은 동일한 행에서 또는 동일한 y 좌표에서 비교된다.

대략 일정한 수직 스트로크 폭을 반영하는 특징이 다음과 같이 계산된다. 먼저, 수직 이웃에서의 스트로크 폭의 표준 편차가 계산된다. 본 명세서에서 사용되는 바와 같이, 수직 이웃은 좌표 (x,y)를 갖는 픽셀로서 정의되며, 여기서 영역

내의 모든 픽셀에 대해

이다. 특징 값 s₁은 스트로크 폭의 표준 편차가 임계값 내에 있는 전체 영역에서의 이웃의 퍼센트이다.

유사하게, 수평 스트로크 폭의 특징도 계산된다. 행에서의 스트로크 폭이 계산되고 클러스터링되며, 여기서 "행"은 동일한 y 좌표를 가지는 픽셀로서 정의된다. 그 클러스터는 이 예에서 멤버 수가 3 미만이며, 여기서 멤버 수는 클러스터 내의 멤버의 수이거나 유사한 스트로크 폭을 가지는 스트로크의 수인데, 그 이유는 클러스터가 스트로크 폭의 유사성에 따라 얻어지기 때문이다. 멤버가 거의 없는 클러스터 또는 환언하면 유사한 스트로크 폭이 거의 없는 스트로크는 잡음이 많거나 이상치인 것으로 간주되고 고려 대상에서 배제되며, 따라서 고려되지 않는다. 이와 같이, 이상치가 배제되고, 여기서 이상치는 멤버가 거의 없는 클러스터(여기서 3개 미만의 멤버 또는 유사한 스트로크 폭을 가지는 3개 미만의 스트로크를 가지는 스트로크 클러스터)로서 정의된다. 클러스터링하는 다른 이유는 행에 서로 다른 스트로크가 있을 수 있기 때문이다. 예를 들어, 도 5b의 상부 행에서, 148, 152 및 156으로 표시된 서로 다른 스트로크 폭의 3개의 클러스터가 있다. 일정한 수평 스트로크 폭을 반영하는 특징 값 s₂는 수평 스트로크 폭의 표준 편차가 임계값 내에 있거나, 그룹으로 클러스터링될 수 있고 각각의 그룹에서의 수평 스트로크 폭의 표준 편차가 임계값 내에 있는 행의 퍼센트이다.

텍스트의 스트로크 간에 어떤 거리가 있다는 관찰에 기초하여, 특징 값 s₃는 현재 스트로크 폭과 현재 스트로크에서 그 다음 이웃 스트로크까지의 거리의 평균 비로서 추출된다.

마지막 스트로크 특징 s₄는 가장 자주 나오는 2개의 스트로크 폭의 비이다.

이하는 스트로크 폭 특징을 추출하는 예시적인 구현에서 사용되는 프로세스에 대한 의사-코드의 예이다:

스트로크 폭 특징 s1 , s2 , s3 , s4 을 추출하는 의사-코드

특징 s1 : 일정한 수직 스트로크 폭의 측정

s1=VerticalConstStrokeWidth(img)

입력:

img: 텍스트 또는 비텍스트로서 분류될 이진 이미지: 전경은 흑색이고 배경은 백색이며, 즉 img(foreground)=0, img(background)=1이며, 이미지에서의 행의 수는 HEIGHT이고, 이미지에서의 열의 수는 WIDTH이다.

출력:

s1: 일정한 수직 스트로크 폭을 측정하는 특징 값

1. img 내의 각각의 픽셀 (x,y)에 대해, 스트로크 폭 어레이 StrokeWidthMap를 계산한다.

a. 배경 내의 픽셀 (x,y)에 대해, 스트로크 폭은 0이다:

StrokeWidthMap (x,y)=0;

b. 전경 내의 픽셀에 대해, 스트로크 폭은 현재의 스트로크의 에지 사이의 거리이다. 예를 들어, 도 A에서, 적색 라인에 있는 픽셀 모두는 30-10=20의 스트로크 폭을 가질 것이다. 즉

StrokeWidthMap(10:30, 60)=20. (유의: 10:30은 10 내지 30의 좌표를 의미한다)

2. 각각의 픽셀 (x,y)에 대한 스트로크 폭 맵의 어레이 StrokeWidthMap이 얻어진다.(유의: StrokeWidthMap은 img와 동일한 차원을 가진다)

3.

에 대해, (환언하면, 각각의 열 x에 대해 또한 Tn개의 행의 각각의 이웃에 대해 [여기서 Tn은

Tn=max(2, ceil(HEIGHT/10))로서 정의됨]

a. 스트로크 폭의 메디안(median)을 계산함:

medianW=median(StrokeWidthMap(x, r:r+Tn)

b. 스트로크 폭의 표준 편차를 계산함

stdW=std(StrokeWidthMap(x, r:r+Tn)).

c. 하기의 조건이 만족되는 경우

medianW<WIDTH/3 (메디안 스트로크 폭이 그다지 크지 않음)

stdW<medianW*0.5 (표준 편차가 작음)

이 이웃은 일정한 수직 스트로크 폭을 가지며, 따라서 constStrokeNum=constStrokeNum+ 1이다.

4. 특징 s₁은 일정한 수직 스트로크 폭을 가지는 이웃의 비이다:

s1=constStrokeNum/total,

여기서 total은 스트로크를 가지는 이웃의 수이다.

특징 s2: 일정한 수평 스트로크 폭의 측정

s2=HorizontalConstStrokeWidth(img)

입력:

img: 텍스트 또는 비텍스트로서 분류될 이진 이미지: 전경은 흑색이고 배경은 백색임, 즉 img(foreground)=0, img(background)=1임. 이미지에서의 행의 수가 HEIGHT이고, 이미지에서의 열의 수가 WIDTH이다.

출력:

s2: 일정한 수직 스트로크 폭을 측정하는 특징 값

1. img,에서의 각각의 행 y에 대해, 현재의 행에 대한 스트로크 폭을 계산하고 어레이 StrokeWidth를 얻음(StrokeWidth은 img와 동일한 수의 행을 가지며, 각각의 행은 현재의 행에 있는 스트로크에 대한 스트로크 폭을 가짐);

2. StrokeWidth에서의 각각의 행 y에 대해:

a. StrokeWidth의 메디안을 계산함:

medianW=median(StrokeWidth(y));

b. StrokeWidth의 표준 편차를 계산함:

stdW=std(StrokeWidth(y));

c. 표준 편차와 스트로크 폭의 메디안의 비가 임계값보다 작은 경우, 즉

stdW/medianW<WidthStdT (threshold WidthStdT=0.5)인 경우

이는 일정한 수평 스트로크 폭을 가지는 행으로서 카운트된다. 즉

constStrokeNum=constStrokeNum+ 1

d. 그렇지 않은 경우, StrokeWidth(y)를 클러스터링한다. 임의의 클러스터가 3개 초과의 멤버(이상치가 아님)을 가지고 이들의 메디안 및 표준 편차가 다음을 만족하는 경우,

stdW/medianW<WidthStdT

이는 일정한 수평 스트로크 폭을 가지는 행으로 카운트된다, 즉

constStrokeNum=constStrokeNum+ 1 ;

3. 특징 s2는

s2=constStrokeNum/total이고,

여기서 total은 1개 초과의 스트로크를 가지는 이미지에서의 행의 수이다.

특징 s3: 현재의 스트로크부터 그 다음 이웃 스트로크까지의 거리와 스트로크 폭의 비

s3=RatioStrokeDistWidth(img)

입력:

출력:

s3: 현재의 스트로크부터 그 다음 이웃 스트로크까지의 거리와 스트로크 폭의 비

1. 스트로크 폭 StrokeWidth을 계산함(이는 특징 s2를 추출할 때와 동일함);

2. 현재의 스트로크부터 그 다음 이웃 스트로크까지의 거리StrokeDist를 계산함;

3. ratio를 계산함

ratio=StrokeDist/StrokeWidth;

4. ratio를 어레이 StrokeDistWidthRatio에 넣음

5. 특징 s3=median(StrokeDistWidthRatio)

특징 s4 : 가장 흔한 스트로크 폭의 비

s4=RatioMostStrokeWidth(img)

입력:

출력:

s4: 가장 흔한 스트로크 폭의 비

1. 스트로크 폭 어레이 StrokeWidth의 히스토그램 H을 계산함: [H, Xw]=hist(StrokeWidth, 10), 여기서 10은 히스토그램을 계산하는 빈 수이고, H는 빈의 히스토그램 또는 주파수이며, Xw는 빈 위치이다;

2. 히스토그램을 정렬함 [sH, sI]=sort(H), 여기서 sH는 정렬된 히스토그램이고, sI는 인덱스이다, 즉 sH=H( sI )이다;

3. sH(1)/sum(sH)==1인(단지 하나의 스트로크 폭이 있는) 경우, s4=0;

4. 그렇지 않은 경우, s4=Xw(sI(1))/Xw(sI(2))이고, sI(1) 및 sI(2)는 가장 흔한 스트로크 폭의 인덱스이다.

상기한 각각의 경우에, 텍스트 폭이 픽셀 단위로 측정되지만, 다른 측정 증분이 가능할 수 있다.

에지 특징

일련의 에지 특징 (e₁, e₂, e₃)은 또한 예시적인 구현에서 사용된다. 텍스트에는, 많은 에지가 있다. 따라서, 텍스트 로컬화를 돕기 위해 에지 특징이 사용될 수 있다. 제1 에지 특징 e₁은 텍스트 문자가 일반적으로 평탄한 에지를 가진다는 사실에 기초한다. 특징 값 e₁은 동일한 방향을 가지는 5x5 이웃, 즉 평탄한 방향을 가지는 블록의 비로서 계산된다. 에지 특징 e₂는 텍스트 문자가 보통 모든 방향의 에지를 가진다는 관찰에 기초한다. 특징 값 e₂는 가장 자주 나오는 에지 방향의 주파수이다. 주파수가 아주 큰 경우, 텍스트가 아닐 가능성이 많은데, 그 이유는 보통 텍스트 문자가 모든 방향의 에지를 가지기 때문이다. 그 때문에 특징 e₂가 텍스트 영역과 비텍스트 영역을 구분하는 특징으로서 선택된다. 마지막으로, 텍스트가 가지는 에지의 양을 나타낼 수 있는 총 에지의 길이 대 영역의 면적의 비이다.

이하는 예시적인 구현에서 에지 특징을 추출하는 데 사용되는 의사-코드이다:

에지 특징( e1 , e2 , e3 )을 추출하는 의사 코드

특징 e1 : 에지 평탄성

e1=EdgeSmoothness(img)

입력:

출력:

e1: 에지의 평탄성을 측정하는 특징

1. 에지 추출: Sobel 에지 검출을 사용하여 8개 방향(0, π/4, π/2, 3π/4, π, 5π/4, 3π/2, 7π/4)의 에지를 검출함:

Edge=SobelEdge(img)

여기서 Edge는 img와 동일한 차원을 가지며, 에지의 위치에서 에지의 방향에 따라 1 내지 8의 값을 가지고, 비에지의 위치에서 0의 값을 가진다.

2. Edge(x,y)≠0을 만족시키는 (x,y)에 대해,

a. neighborhood을 정의함: neighborhood=edge([x-w: x+w], [y-w: y+w]), 여기서

img의 높이가 25미만인 경우: w = 1이고,

그렇지 않은 경우: w = 2임

b. 현재의 방향을 가져옴: curDir=Edge(x,y)

c. 현재의 방향을 가지는 픽셀의 수를 가져옴 curDirNum

d. 이웃에 있는 에지 픽셀의 수를 가져옴, 즉 neighborEdgeNum=Length(neighborhood≠0)

e. 동일한 방향을 가지는 에지 픽셀의 비를 계산함:

R(x,y)= curDirNum/ neighborEdgeNum;

3. 에지 평탄성 특징을 계산함

e1=length(R>T)/length(Edge≠0).

특징 e2 : 에지 방향의 균일성

e2=EdgeUniformity(img)

입력:

출력:

e2: 에지의 균일성을 측정하는 특징

1. 특징 e1의 단계 1에서 추출된 8개의 에지 방향을 4개의 방향 Edge4으로 양자화함, 즉 Edge에서의 (5π/4, 3π/2, 7π/4)는 Edge4에서의 (π/4, π/2, 3π/4)로 됨;

2. 4개의 방향의 히스토그램을 계산함: H=hist(Edge4(Edge4≠0));

3. H: maxH=max(H)의 최대를 계산하고, 따라서 maxH는 방향이 나타나는 최대 횟수이다;

4. 에지 균일성 특징을 계산함

e2=maxH/sum(H)

특징 e3 : 에지의 양

e3=EdgeAmount(img)

입력:

출력:

e2: 에지의 양을 측정하는 특징

Edge=SobelEdge(img)

2. 에지의 길이를 계산함: EdgeLength=length(Edge≠0);

3. img의 전경 면적을 계산함:

4. ForeArea=length(img(foreground));

5. 필 팩터 AreaFill를 계산함:

6. AreaFill=ForeArea/(WIDTH*HEIGHT);

7. 특징 e3=EdgeLength/AreaFill을 계산함.

필 특징

일련의 필 팩터 특징 (f1, f2)이 또한 이 예시적인 구현에서 사용된다. 이 그룹의 특징은 텍스트의 전경이 경계 상자를 채운다는 사실에 기초한다. 이는 경계 상자 전체를 채우는 것은 아니거나 경계 상자를 거의 채우지 않는다. 또한, 작은 이웃에서, 이는 전경이 이웃 전체를 채우지는 않는다는 속성을 가진다.

제1 필 팩터 특징 f₁은 전체 영역의 채움 특징을 나타낸다. 따라서, 이는 전경 면적과 영역의 경계 상자의 면적의 비로서 계산된다. 제2 필 팩터 특징 f₂는 로컬 이웃의 채움 특징을 나타낸다. 이웃에서의 전경 면적의 비가 먼저 계산된다. 특징 값 f₂는 전경 면적의 비가 임계값보다 큰 이웃의 퍼센트이다.

이하는 예시적인 구현에서 사용되는 바와 같이 필 팩터 특징을 추출하는 의사-코드이다:

필 팩터 특징 f1 , f2 를 추출하는 의사 코드

특징 f1 : 전체 영역의 채움 특징

f1=FillFactorWhole(img)

출력:

f1: 후보 이미지의 필 팩터를 측정하는 특징

1. img의 전경 면적을 계산함:

2. ForeArea=length(img(foreground));

3. img의 전체 면적을 계산함: WholeArea=WIDTHxHEIGHT;

4. 특징 f1=ForeArea/WholeArea을 계산함

특징 f2 : 로컬 이웃의 채움 특징

f2=FillFactorNeighborhood(img)

출력:

f2: 후보 이미지의 로컬 이웃에서의 필 팩터를 측정하는 특징

1. x,y가 stepSize=HEIGHT/3씩 증가하는 (x,y)에 대해

a. 현재의 이웃을 가져옴: curN=img (x:x+ stepSize , y:y+ stepSize );

b. 현재의 이웃에서의 전경의 면적을 계산함:

AreaN=length(curN(foreground));

c. 이웃의 필 팩터를 계산함:

FillFactorN(j)=AreaN/Area(curN) 여기서 j는 현재의 이웃에 대한 인덱스임;

2. 큰 필 팩터를 가지는 이웃의 수를 가져옴

N= length (FillFactorN>T)

3. 특징 f2는 큰 필 팩터를 가지는 블록의 퍼센트이다:

f2=N/length(FillFactorN)

D. SVM-기반 분류

SVM은 참고 문헌 [15]에 기술되어 있고, 통계적 학습 이론에 의해 동기 부여된 기술로서 수많은 분류 작업에 성공적으로 적용되었다. 핵심 개념은 최대 마진을 가지는 결정 표면을 갖는 2개의 클래스를 분리하는 것이다. 이는 학습 오차보다는 고차원 공간에서의 모델의 일반화 오차에 관한 범위를 최소화한다. SVM에서, 학습 작업은 긍정 클래스(positive class) 및 부정 클래스(negative class)에서의 학습 예제의 상대 수에 영향을 받지 않는다(여기서의 검출 작업에서, 부정 클래스는 긍정 클래스보다 더 많은 샘플을 가진다). 따라서, SVM이 이 예시적인 구현에 바람직한 분류기로서 선택된다.

분류 문제는 m개의 번호가 부여된 학습 샘플 (x₁, y₁), (x₂, y₂), ..., (x_m, y_m)에서의 이진 분류 문제이며, 여기서

이고 각각의 성분은 섹션 C.에 정의되어 있으며, 9차원 특징 벡터인

(i = 1, 2, ..., m)은 긍정 클래스(텍스트) 및 부정 클래스(비텍스트)를 나타낸다. SVM은 다음과 같은 문제를 풀려고 시도한다:

단,

이다. 그의 쌍대는 하기와 같다:

단,

이고, 여기서 e는 모든 1의 벡터이고, C > 0는 상한이며 교차 유효성 검사에 의해 결정되고, Q는 1x 1 반한정 행렬(semi-definite matrix)이며,

및

은 커널(kernel)이고, w, α 및 b는 분리 평면을 결정하는 파라미터이고 최적화 프로세스에 의해 해가 구해져야 한다. 비선형 커널 함수를 선택함으로써, 특징 벡터 x_i는 함수 φ에 의해 고차 공간으로 매핑될 수 있다. 사용하는 커널은 하기의 반경 기반 함수 커널(radial basis function kernel)이며,

여기서 커널 대역폭 σ는 교차 유효성 검사를 통해 결정되었다. 파라미터 w, α 및 b가 결정되면, 이하의 결정 함수가 영역을 분류하는 데 사용될 수 있다.

LIBSVM [16]이라고 하는 소프트웨어 패키지를 사용하여, 텍스트 또는 비텍스트로 표시된 일련의 샘플로 SVM이 학습되었다. 커널 대역폭 σ 및 C를 결정하기 위해 교차 유효성 검사가 사용된다. 학습 및 테스트 결과가 다음 섹션에서 보고될 것이다.

E. 향상 및 이진화

텍스트 영역이 식별된 후에, OCR 소프트웨어가 텍스트를 쉽게 인식할 수 있도록 텍스트 영역이 향상되고 이진화되어야 한다. 대부분의 OCR 소프트웨어는 충분히 큰 해상도를 가지는 텍스트만을 인식할 수 있다. 따라서, 텍스트의 높이가 약 75 픽셀(현재) 미만인 경우, 해상도 증가가 필요할 수 있다. 해상도 증가 전에, 히스토그램 평활화, 선명화 등과 같은 어떤 향상이 적용될 수 있다.

이어서, 향상된 이미지에 이진화가 적용된다. Niblack의 적응적 이진화 알고리즘 [17], Otsu의 방법 [18], 및 Yanowitz-Bruchstein의 방법 [19] 등과 같은 여러 종류의 이진화 알고리즘이 있다. 이 방법들 중에서, Niblack의 방법 및 Otsu의 방법이 널리 사용되지만, 다른 이진화 방법이 본 발명에 따른 구현에 적응될 수 있다. Niblack'의 방법에서, 임계값 T가 크기 r의 로컬 창 내에서의 세기 통계로부터 각각의 픽셀에 대해 적응적으로 결정된다.

여기서 μ 및 σ는 창 내의 픽셀 세기의 평균 및 표준 편차이다. 스칼라 파라미터 k는 -0.2로 설정되는 가중치이다. 창 크기 r은 고정된 값이거나 적응적으로 선택될 수 있다. [11]에서, 창 크기 r이 다음과 같이 선택되는 것이 제안된다.

여기서 T_σ는 고정된 임계값이다. T_σ 미만의 표준 편차를 가지는 창이 평탄한 영역이도록 T_σ의 값이 선택된다. 여기서 T_σ를 검출된 텍스트 영역의 배경 영역의 표준 편차로서 설정한다. Otsu의 방법 [18]에서, 이진화 임계값은 판별 기준, 즉 클래스간 분산의 최대화 및 클래스내 분산의 최소화에 의해 구해진다. Otsu의 방법은 수학식 9에서와 같이 전체 텍스트 영역 또는 고정-크기 창 또는 적응적으로 적용될 수 있다. 이미지에서 배경이 복잡하다는 사실로 인해, 이진화가 전체 이미지에 적용되는 경우, 배경 내의 비텍스트 객체도 이진화된 최종 이미지에 나타날 수 있다. 이를 피하기 위해, 이진화가 또한 검출된 텍스트 영역 내의 연결 성분에도 적용된다.

도 6은 도 6a 내지 도 6f로 이루어져 있으며, Otsu의 방법 및 Niblack의 방법이 개별 성분, 고정된 창, 적응적 창 및 전체 경계 상자에 적용될 때의 이진화 결과를 나타내고 있다. 검출된 텍스트는 도 2의 하단에 도시된 예로부터의 것이다. 도 6a는 검출된 영역 내의 각각의 연결 성분에 대한 Otsu의 이진화를 나타낸 것이다. 도 6b는 적응적 창에서의 Niblack의 이진화를 나타낸 것이다. 도 6c는 적응적 창에서의 Otsu의 이진화를 나타낸 것이다. 도 6d는 전체 경계 상자에서의 Otsu의 이진화를 나타낸 것이다. 도 6e는 고정된 창에서의 Niblack의 이진화를 나타낸 것이다. 도 6f는 고정된 창에서의 Otsu의 이진화를 나타낸 것이다.

도 6으로부터, 서로 다른 이진화 방법의 성능이 서로 다르다는 것을 알 수 있고, 전체 경계 상자에 적용되는 Otsu의 방법이 이 예에서 가장 낫다는 것을 보여준다. 이들 방법이 서로 다른 이미지에서 시도되었으며, 하나의 방법이 모든 이미지에 대해 최상의 결과를 제공할 수 없는 것으로 판정되었다. 따라서, 실제로, 하나의 가능한 해결책은 서로 다른 이진화 방법의 결과를 OCR 소프트웨어에 피드한 다음에 인식 결과를 결합하는 것이다.

III. 실험 및 결과

2개의 데이터 집합에 대해 본 알고리즘이 테스트되었다. 하나는 ICDAR2003의 텍스트 로컬화 경쟁 데이터 집합이다[20]. ICDAR2003의 데이터 집합에서, 학습 집합에 248개 이미지가 있고 테스트 집합에 251개 이미지가 있다. 각각의 집합에, 약 1000개의 텍스트 세그먼트가 있다. 데이터 집합 내의 대부분의 이미지가 핸드헬드 장치로 외부에서 찍은 것이다. 다른 데이터 집합은 뉴스, 상업 광고, 스포츠 경기 등으로부터의 이미지를 비롯하여 TV 프로그램으로부터 수집되었다. 데이터 집합 내의 489개 이미지가 거의 5000개의 텍스트 세그먼트를 가지고 있었다.

ICDAR2003의 데이터 집합에 대해 먼저 알고리즘이 적용되었다. 이미지가 먼저 세그먼트화되고 전처리되었다. 학습 데이터 집합에서, 세그먼트화 및 전처리 후에, 841개의 텍스트 영역 세그먼트 및 3373개의 비텍스트 영역 세그먼트가 있었다. 텍스트 세그먼트의 수가 검증 자료(ground-truth)보다 작다는 것을 알았다. 이것이 일부는 일부 텍스트 세그먼트가 정확하게 세그먼트화되지 않은 세그먼트화 오류로 인한 것이고, 일부는 어떤 텍스트 세그먼트가 서로 병합되는 전처리로 인한 것이다. 처리된 데이터 집합에 대해 SVM이 학습되었다. SVM의 파라미터를 선택하기 위해 교차 유효성 검사가 사용되었다. 수학식 6에서의 최적의 대역폭 σ가 0.5이고 수학식 2에서의 파라미터 C가 32이다. 학습된 SVM 모델이 테스트 데이터 집합에 적용되었다. 테스트 텍스트 샘플로부터 올바르게 검출하는 비율이 90.02%이고 거짓 양성이 6.45%이었다. 다른 텍스트 로컬화 알고리즘과 비교하기 위해, 텍스트 로컬화 성능을 측정하는 데 정밀도 및 재현율 척도 [21]이 사용되었다. 표 1에 본 알고리즘의 성능 및 ICDAR 2003와 ICDAR 2005의 승자의 성능이 요약되어 있다. 본 알고리즘은 3위에 올랐다. 우리의 알고리즘에서 파라미터를 주의깊게 조정하면, 성능이 추가로 향상될 수 있다고 생각된다. 표 1에서,

는

으로서 정의되고, 여기서 p는 정밀도이고 r은 재현율이다. 정밀도 및 재현율의 상세한 정의에 대해서는 [20] 및 [21]을 참조하기 바란다.

시스템	정밀도	재현율	f
Hinnerk Becker	0.62	0.67	0.62
Alex Chen	0.60	0.60	0.58
본 발명의 알고리즘	0.58	0.45	0.51
Ashida	0.55	0.46	0.50

ICDAR2003 [20]와 ICDAR2005 [21]의 승자와의 비교.

그 다음에, 알고리즘이 TV 데이터 집합에 적용되었다. 데이터 집합이 2개의 집합으로 분할되었으며, 하나는 학습용(245개 이미지를 가짐)이고, 다른 하나는 테스트용(244개 이미지를 가짐)이다. 세그먼트화 및 전처리 후에, 학습 집합에, 1100개의 텍스트 영역 세그먼트 및 7200개의 비텍스트 영역 세그먼트가 있었다. 학습 집합에 대해 SVM이 학습되었다. SVM의 파라미터를 선택하기 위해 교차 유효성 검사가 사용되었다. 수학식 6에서의 최적의 대역폭 σ가 1이고 수학식 2에서의 파라미터 C가 16이다. 학습된 SVM 모델이 약 850개의 텍스트 영역 세그먼트 및 6500개의 비텍스트 영역 세그먼트가 있는 테스트 데이터 집합에 적용되었다. 텍스트의 검출 비율이 88.29%이었고, 거짓 양성이 9.34%이었다. 상기한 가특허 출원의 도 7은 TV 데이터 집합에서의 이미지에 대한 예시적인 검출 결과를 나타내고 있다.

상기한 바와 같이, 검출된 텍스트 영역이 향상되고 이진화되었다. 이어서, 이진화된 이미지가 인식을 위해 OCR 소프트웨어에 피드되었다. 예를 들어, 도 6의 이진화된 이미지는 인식을 위해 Scansoft의 Omnipage™ Pro 12에 피드되었다. 인식된 결과가 이하의 표 2에 열거되어 있다. 표 2는 OCR 소프트웨어가 거의 모든 텍스트를 인식할 수 있다는 것을 보여준다. 서로 다른 이진화 방식으로부터의 인식 결과를 결합하고 사전에서 결과를 탐색함으로써, 올바른 인식 결과가 얻어질 수 있는 것이 보통이다.

도면	인식된 결과
도 6a
도 6b
도 6c
도 6d
도 6e
도 6f

Scansoft의 Omnipage Pro 12의 인식 결과

상기한 바와 같이, 영역-기반 방식은 이미지 또는 비디오에서 텍스트를 로컬화하는 데 사용된다. 서로 다른 컬러의 영역을 가져오기 위해 세그먼트화가 사용된다. 각각의 영역의 특징이 추출된다. 여기서 추출된 특징은 스트로크 특징, 에지 특징 및 필 팩터 특징이다. 이들 특징은 텍스트를 검출하는 데 아주 효과적이다. 추출된 특징 벡터는 영역을 텍스트 영역 또는 비텍스트 영역으로 분류하는 SVM 모델을 학습시키는 데 사용된다. 이 알고리즘은 공개적으로 이용가능한 데이터 집합 및 기타 데이터 집합 모두에 대해 아주 잘 동작하는 것으로 밝혀졌다.

따라서, 특정의 예시적인 구현에 따르면, 비디오 이미지에서의 텍스트 검출 방법은 이미지 프로세서에서, 어쩌면 텍스트를 포함하는 비디오 프레임을 수신하는 단계, 이미지를 유사한 컬러를 가지는 영역으로 세그먼트화하는 단계, 유사한 컬러를 가지는 영역으로부터 가능성이 높은 비텍스트 영역을 식별하고 가능성이 높은 비텍스트 영역을 버리는 단계, 크기 및 컬러와 수평 위치의 정렬의 유사성에 기초하여 나머지 영역을 병합하는 단계, 병합된 영역 상의 스트로크 특징, 에지 특징, 및 필 팩터 특징을 추출하기 위해 특징 추출 프로세스를 수행하는 단계, 및 어느 영역이 텍스트이고 어느 영역이 비텍스트인지를 결정하기 위해 각각의 영역의 추출된 특징 벡터를 학습된 이진 분류기를 통과시키는 단계를 포함한다.

특정 구현에서, 이 방법은 이진화된 분류된 텍스트 영역을 광학 문자 판독기를 통과시키는 단계를 추가로 포함한다. 특정 구현에서, 이미지를 유사한 컬러의 영역으로 세그먼트화하는 단계는 2개의 영역의 평균 적색, 녹색, 청색(R, G, B) 값의 절대 차 각각이 병합 임계값 미만인지를 판정하는 단계에 의해 수행된다. 특정 구현에서, 세그먼트화하는 단계는 이웃 픽셀의 컬러 차를 계산하는 단계, 픽셀의 컬러 차에 따라 픽셀을 정렬하는 단계, 및 영역이 발생되도록 임계값보다 작은 컬러 차를 가지는 픽셀을 병합하는 단계를 포함한다. 특정 구현에서, 이진 분류기는 지지 벡터 기계(SVM) 기반 분류기를 포함한다. 특정 구현에서, 스트로크 폭 값이 임계값 내에 있는 경우 스트로크 폭이 유사한 것으로 간주된다. 특정 구현에서, 스트로크 폭 특징은 스트로크 폭의 표준 편차가 임계값 내에 있는 이미지 내의 이웃의 퍼센트를 나타내는 특징 값을 포함하며, 스트로크 폭 값이 임계값 내에 있는 경우 스트로크 폭 값이 유사한 것으로 간주된다. 특정 구현에서, 스트로크 폭 특징은 수평 스트로크 폭의 표준 편차가 임계값 내에 있거나, 그룹으로 클러스터링될 수 있고 각각의 그룹에서의 수평 스트로크 폭의 표준 편차가 임계값 내에 있는 행의 퍼센트 또는 유사한 스트로크 폭을 갖는 스트로크를 가지는 행의 퍼센트를 포함한다. 특정 구현에서, 스트로크 폭 특징은 현재의 스트로크 폭과 현재의 스트로크로부터 이웃 스트로크까지의 거리의 평균 비를 포함한다. 특정 구현에서, 스트로크 폭 특징은 가장 빈번하게 나오는 2개의 스트로크 폭의 비를 포함한다. 특정 구현에서, 에지 특징은 후보 이미지에서의 에지의 평탄성, 에지의 균일성 및 에지의 양의 측정치이고, 여기서 에지의 평탄성은 동일한 방향을 가지는 이웃의 퍼센트로 표현되고, 에지의 균일성은 가장 자주 나오는 에지 방향의 주파수로서 계산되며, 에지의 수는 총 에지의 길이 대 영역의 면적의 비에 의해 측정된다. 특정 구현에서, 필 팩터 특징은 후보 이미지 전체 및 이웃끼리 둘다에서 추출된다.

특정 구현에서, 전처리 프로세스는

(1) region_height가 어떤 임계값 T_low보다 작거나 region_height가 어떤 임계값 T_high보다 큰지, 또는

(2) region_area이 어떤 임계값 T_area보다 작은지, 또는

(3) 영역이 이미지 경계의 4개의 측면 중 하나와 접촉하고 그의 높이가 임계값 T보다 큰지, 또는

(4)

으로서 정의된 fill_factor가 임계값보다 낮은지를 판정하는 동작을 하며, 그러한 경우 영역이 가능성이 높은 비텍스트 영역으로 간주된다. 특정 구현에서, 복수의 이진화 방법을 사용하여 이진화가 수행되며, 각각의 이진화된 출력은 광학 문자 판독기에 의해 처리되어, 결합되는 다수의 출력을 생성한다.

특정 구현에 따른 다른 텍스트 검출 프로세스는, 통계적 영역 병합을 사용하여 세그먼트화하고, 명확히 텍스트가 아닌 영역을 제거하며, 하기와 같이 정의되는 높이 유사성, 컬러 유사성, 영역 거리 및 수평 정렬의 기준에 기초하여 영역을 그룹화하는 것에 의해 이미지를 전처리하는 단계 -

높이 유사성은

로서 정의되고

여기서 HEIGHT₁ 및 HEIGHT₂는 2개의 영역의 높이이며;

컬러 유사성은

로서 정의되며,

여기서

및

은 2개의 영역의 평균 컬러이고;

영역 거리는 D_region < T_region로서 정의되고,

여기서 D_region은 2개의 영역의 수평 거리이며;

수평 정렬은 D_top < T_align 또는 D_bottom < T_align으로서 정의되고, 여기서 D_top 및 D_bottom은 상부 경계 및 하부 경계 사이의 수직 거리임 -;

각각의 나머지 영역을 기술하기 위해 특징 추출 프로세스를 수행하는 단계 - 각각의 특징은 영역의 스트로크 특징, 에지 특징 및 필 팩터 특징으로 표현됨 -; 및

분류 출력을 획득하기 위해

을 사용하여 영역이 텍스트인지 여부를 출력하는 지지 벡터 기계(SVM) 분류기 엔진을 사용하여 특징 벡터를 분류하는 단계 - 여기서 1은 텍스트의 존재를 나타내고, -1은 텍스트의 부존재를 나타냄 - 를 포함한다.

특정 구현에서, 스트로크 특징은 유사한 스트로크 폭을 가지는 수직 이웃 및 행의 퍼센트를 포함한다. 특정 구현에서, 필 팩터 특징은 후보 이미지 전체 및 이웃끼리 둘다에서 추출된다. 특정 구현에서, 전처리는

(2) region_area이 어떤 임계값 T_area보다 작은지, 또는

(4) 하기 식으로서 정의된 fill_factor가

임계값보다 낮은지를 판정하는 동작을 하며, 그러한 경우 영역이 가능성이 높은 비텍스트 영역으로 간주된다. 특정 구현에서, 복수의 이진화 방법을 사용하여 이진화가 수행되며, 각각의 이진화된 출력은 광학 문자 판독기에 의해 처리되어, 결합되는 다수의 출력을 생성한다.

당업자라면, 상기 개시 내용을 고려하여, 상기 예시적인 실시예들 중 일부가 도 1에 도시된 바와 같이 배열될 수 있는 다양한 소프트웨어 모듈을 실행하는 하나 이상의 프로그램된 프로세서의 사용에 기초한다는 것을 잘 알 것이다. 그러나, 본 발명이 이러한 예시적인 실시예로 제한되지 않는데, 그 이유는 특수 목적 하드웨어 및/또는 전용 프로세서 또는 상태 기계 등의 하드웨어 구성요소 등가물을 사용하여 다른 실시예가 구현될 수 있기 때문이다. 마찬가지로, 범용 컴퓨터, 마이크로프로세서-기반 컴퓨터, 마이크로제어기, 광 컴퓨터, 아날로그 컴퓨터, 전용 프로세서, 주문형 반도체(application specific circuit) 및/또는 전용의 하드 와이어드 논리(dedicated hard wired logic)가 대안의 등가 실시예를 구성하는 데 사용될 수 있다.

특정 예시적인 실시예가 기술되어 있지만, 이상의 설명을 바탕으로 많은 대안, 수정, 치환 및 변동이 당업자에게는 자명하게 될 것임이 명백하다.

Claims

비디오 이미지에서 텍스트를 검출하는 방법으로서,
이미지 프로세서에서, 텍스트를 포함할 수 있는 비디오 프레임을 수신하는 단계;
상기 비디오 프레임을 유사한 컬러를 가지는 영역으로 세그먼트화하는 단계 -
컬러 유사성은
로서 정의되며,
여기서
및
은 2개의 영역의 평균 컬러이고, T_color 는 병합 임계값임 - ;
유사한 컬러를 가지는 영역으로부터 가능성이 높은 비텍스트 영역을 식별하고 가능성이 높은 비텍스트 영역을 버리는 단계;
컬러가 유사하고 수평 위치가 임계값 내에 있는 영역을 병합하는 단계;
특징 추출 프로세스를 수행하여 스트로크 폭 특징, 에지 특징 및 필 팩터 특징을 추출함으로써 특징을 사용하여 영역을 기술하는 단계; 및
OCR 소프트웨어에 의한 처리를 위해 나머지 영역을 학습된 이진 분류기를 통과시켜 이진화된 최종 텍스트 영역을 획득하는 단계
를 포함하는 방법.
제1항에 있어서, 이진화된 최종 텍스트 영역을 광학 문자 판독기를 통과시키는 단계를 더 포함하는 방법.
비디오 이미지에서 텍스트를 검출하는 방법으로서,
이미지 프로세서에서, 텍스트를 포함할 수 있는 비디오 프레임을 수신하는 단계;
상기 비디오 프레임을 유사한 컬러를 가지는 영역으로 세그먼트화하는 단계 -
컬러 유사성은
로서 정의되며,
여기서
및
은 2개의 영역의 평균 컬러이고, T_color는 병합 임계값임 - ;
유사한 컬러를 가지는 영역으로부터 가능성이 높은 비텍스트 영역을 식별하고 가능성이 높은 비텍스트 영역을 버리는 단계;
컬러가 유사하고 수평 위치가 임계값 내에 있는 영역을 병합하는 단계;
특징 추출 프로세스를 수행하여 스트로크 폭 특징, 에지 특징 및 필 팩터 특징을 추출함으로써 특징을 사용하여 영역을 기술하는 단계;
추출된 특징들을 특징 벡터들로서 표현하는 단계; 및
OCR 소프트웨어에 의한 처리를 위해 나머지 영역을 학습된 이진 분류기를 통과시켜 이진화된 최종 텍스트 영역을 획득하는 단계를 포함하고,
상기 학습된 이진 분류기는,
을 사용하여 영역이 텍스트인지 여부를 출력하는 지지 벡터 기계(SVM) 분류기 엔진을 사용하여 각 특징을 분류하고, 여기서 (x_i, y_i)는 학습 샘플의 특징 벡터 및 검증 자료 라벨(groundtruth label)이고, x는 분류될 영역의 특징 벡터들이며, α_i 및 b는
[단,

이고, 여기서 e는 모든 1의 벡터이고, Q는 1x1 반한정 행렬(semi-definite matrix)이며,
임]으로서 정의되는 최적화 문제의 해를 구함으로써 얻어지는 파라미터이고, K는 분류 출력을 획득하는
으로서 정의되며, 여기서 2σ² 은 0이 아닌 숫자로서 1은 텍스트의 존재를 나타내고, -1은 텍스트의 부존재를 나타내는, 방법.
제1항에 있어서, 세그먼트화하는 단계가, 이웃 픽셀의 컬러 차를 계산하는 단계, 픽셀의 컬러 차에 따라 픽셀을 정렬하는 단계, 및 영역이 발생되도록 임계값보다 작은 컬러 차를 가지는 픽셀을 병합하는 단계를 포함하는 방법.
제1항에 있어서, 이진 분류기가 지지 벡터 기계(SVM) 기반 분류기를 포함하는 방법.
제1항에 있어서, 스트로크 폭 값이 임계값 내에 있는 경우 스트로크 폭이 다른 스트로크 폭과 유사한 것으로 간주되는 방법.
제1항에 있어서, 스트로크 폭 특징이 스트로크 폭의 표준 편차가 임계값 내에 있는 이미지에서의 이웃의 퍼센트 또는 수직으로 유사한 스트로크 폭을 가지는 이웃의 퍼센트를 나타내는 특징 값을 포함하는 방법.
제1항에 있어서, 스트로크 폭 특징이 수평 스트로크 폭의 표준 편차가 임계값 내에 있거나, 그룹으로 클러스터링되고 각각의 그룹에서의 수평 스트로크 폭의 표준 편차가 임계값 내에 있는 행의 퍼센트 또는 유사한 스트로크 폭을 갖는 행 또는 유사한 스트로크 폭의 클러스터의 퍼센트를 표현하는 특징 값을 포함하는 방법.
제1항에 있어서, 스트로크 폭 특징이 현재의 스트로크 폭과 현재의 스트로크로부터 이웃 스트로크까지의 거리의 평균 비를 포함하는 방법.
제1항에 있어서, 스트로크 폭 특징이 가장 빈번하게 나오는 2개의 스트로크 폭의 비를 포함하는 방법.
제1항에 있어서, 에지 특징이 후보 영역에서의 에지의 평탄성, 에지의 균일성 및 에지의 양의 측정치이고, 에지의 평탄성은 동일한 방향을 가지는 이웃의 퍼센트로 표현되고, 에지의 균일성은 가장 자주 나오는 에지 방향의 주파수로서 계산되며, 에지의 양은 총 에지의 길이 대 상기 후보 영역의 면적의 비에 의해 측정되는 방법.
제1항에 있어서, 필 팩터 특징이 후보 이미지 전체 및 이웃끼리 둘다에서 추출되는 방법.
제1항에 있어서, 가능성이 높은 비텍스트 영역이,
(1) region_height가 어떤 임계값 T_low보다 작거나 region_height가 어떤 임계값 T_high보다 큰 경우, 또는
(2) region_area이 어떤 임계값 T_area보다 작은 경우, 또는
(3) 영역이 이미지 경계의 4개의 측면 중 하나와 접촉하고 그의 높이가 임계값 T보다 큰 경우, 또는
(4)
으로서, 여기서 Bounding Box Area는 0이 아닌 숫자이며, 정의된 fill_factor가 임계값보다 낮은 경우,
영역이 가능성이 높은 비텍스트 영역으로 간주되는 것에 의해 결정되는 방법.
제1항에 있어서, 복수의 이진화 방법을 사용하여 이진화가 수행되며, 각각의 이진화된 출력이 광학 문자 판독기에 의해 처리되어, 결합되는 다수의 출력을 생성하는 방법
비디오 이미지에서 텍스트를 검출하는 방법으로서,
통계적 영역 병합을 사용하여 세그먼트화하고, 명확히 텍스트가 아닌 영역을 제거하며, 하기와 같이 정의되는 높이 유사성, 컬러 유사성, 영역 거리 및 수평 정렬의 기준에 기초하여 영역을 그룹화하는 것에 의해 이미지를 전처리하는 단계 -
높이 유사성은
로서 정의되며,
여기서 HEIGHT₁ 및 HEIGHT₂는 2개의 영역의 높이이고 min(HEIGHT₁, HEIGHT₂)는 0이 아닌 숫자이고 T_{height_sim}는 높이 유사성 임계값이며;
컬러 유사성은
로서 정의되며,
여기서
및
은 2개의 영역의 평균 컬러이고 T_color는 병합 임계값이며;
영역 거리는 D_region < T_region로서 정의되고,
여기서 D_region은 2개의 영역의 수평 거리이고 T_region은 영역 거리 임계값이며;
수평 정렬은 D_top < T_align 또는 D_bottom < T_align으로서 정의되고, 여기서 D_top 및 D_bottom은 상부 경계 및 하부 경계 사이의 수직 거리이고 T_align은 수평 정렬 임계값임 -;
각각의 나머지 영역을 기술하기 위해 특징 추출 프로세스를 수행하는 단계 - 각각의 특징은 영역의 스트로크 폭 특징, 에지 특징 및 필 팩터 특징으로 표현됨 -; 및
분류 출력을 획득하기 위해
을 사용하여 영역이 텍스트인지 여부를 출력하는 지지 벡터 기계(SVM) 분류기 엔진을 사용하여 각 특징을 분류하는 단계 -
여기서 (x_i, y_i)는 학습 샘플의 특징 벡터 및 검증 자료 라벨(groundtruth label)이고, x는 분류될 영역의 특징 벡터들이며, α_i 및 b는
[단,

이고, 여기서 e는 모든 1의 벡터이고, Q는 1x1 반한정 행렬(semi-definite matrix)이며,
임]으로서 정의되는 최적화 문제의 해를 구함으로써 얻어지는 파라미터이고, K는 분류 출력을 획득하는
으로서 정의되며, 여기서 2σ² 은 0이 아닌 숫자로서 1은 텍스트의 존재를 나타내고, -1은 텍스트의 부존재를 나타냄 - 를 포함하는 비디오 이미지에서 텍스트를 검출하는 방법.
제15항에 있어서, 필 팩터 특징이 후보 이미지 전체 및 이웃끼리 둘다에서 추출되는 비디오 이미지에서 텍스트를 검출하는 방법.
제15항에 있어서, 전처리하는 단계가,
(1) region_height가 어떤 임계값 T_low보다 작거나 region_height가 어떤 임계값 T_high보다 큰 경우, 또는
(2) region_area이 어떤 임계값 T_area보다 작은 경우, 또는
(3) 영역이 이미지 경계의 4개의 측면 중 하나와 접촉하고 그의 높이가 임계값 T보다 큰 경우, 또는
(4)
로서, 여기서 Bounding Box Area는 0이 아닌 숫자이며, 정의된 fill_factor가 임계값보다 낮은 경우,
영역이 가능성이 높은 비텍스트 영역으로 간주되고 추가적으로 처리되지 않도록 배제되는 것에 의해, 영역을 제거하는 동작을 하는 비디오 이미지에서 텍스트를 검출하는 방법.
제15항에 있어서, 복수의 이진화 방법을 사용하여 이진화가 수행되며, 각각의 이진화된 출력이 광학 문자 판독기에 의해 처리되어, 결합되는 다수의 출력을 생성하는 비디오 이미지에서 텍스트를 검출하는 방법.