RU2445699C1 - Способ обработки данных оптического распознавания символов (ocr), где выходные данные включают в себя изображения символов с нарушенной видимостью - Google Patents
Способ обработки данных оптического распознавания символов (ocr), где выходные данные включают в себя изображения символов с нарушенной видимостью Download PDFInfo
- Publication number
- RU2445699C1 RU2445699C1 RU2010125821/08A RU2010125821A RU2445699C1 RU 2445699 C1 RU2445699 C1 RU 2445699C1 RU 2010125821/08 A RU2010125821/08 A RU 2010125821/08A RU 2010125821 A RU2010125821 A RU 2010125821A RU 2445699 C1 RU2445699 C1 RU 2445699C1
- Authority
- RU
- Russia
- Prior art keywords
- symbol
- images
- image
- class
- visibility
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/155—Removing patterns interfering with the pattern to be recognised, such as ruled lines or underlines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/28—Determining representative reference patterns, e.g. by averaging or distorting; Generating dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/1914—Determining representative reference patterns, e.g. averaging or distorting patterns; Generating dictionaries, e.g. user dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/01—Solutions for problems related to non-uniform document background
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Character Input (AREA)
- Character Discrimination (AREA)
- Editing Of Facsimile Originals (AREA)
- Image Processing (AREA)
Abstract
Изобретение относится к способу для разрешения противоречивых выходных данных из системы оптического распознавания символов (OCR). Технический результат заключается в повышении качества распознавания данных в системе оптического распознавания символов. В способе проводят поиск по выходным данным для идентификации изображений символов, обладающих качеством изображения, которое превышает заранее определенный уровень, и использование этих изображений символов в качестве набора эталонных изображений для символов, идентифицируют местоположение области участка с нарушенной видимостью на образце символа с нарушенной видимостью, используют информацию о местоположении и области из образца символа с нарушенной видимостью для нахождения соответствующих областей на эталонных изображениях перед сопоставлением соответствующих эталонных изображений с образцом символа с нарушенной видимостью, пренебрегая при сопоставлении содержимым изображения в найденных соответствующих областях, и используют эталонное изображение, обладающее наибольшим сходством с изображением символа с нарушенной видимостью в качестве правильной идентификации символа с нарушенной видимостью. 7 з.п. ф-лы, 7 ил.
Description
Настоящее изобретение относится к разрешению противоречивых выходных данных из системы оптического распознавания символов (OCR) и, в особенности, к способу обработки выходных данных OCR, где выходные данные включают в себя изображения символов, нераспознаваемые из-за перечеркнутого текста или наложенных объектов других типов, ухудшающих процесс оптического распознавания системы OCR.
Системы оптического распознавания символов обеспечивают преобразование растрированных изображений документов в текст в кодах ASCII, что облегчает поиск, замену и переформатирование документов и т.д. в компьютерной системе. Одной из особенностей функциональности OCR является преобразование рукописных и машинописных документов, книг, медицинских журналов и т.д., например, в документы, доступные для поиска в сетях Интернет и Интранет. В целом, качество извлечения информации и поиска документов значительно улучшается в том случае, когда все документы доступны для электронного извлечения и поиска. Например, корпоративная система Интранет может связывать все старые и новые документы предприятия путем всестороннего применения функциональности OCR, являющейся частью сети Интранет (или частью сети Интернет в случае документов, представляющих общественный интерес).
Однако качество функциональности OCR ограничено большой сложностью самой системы OCR. Трудно обеспечить функциональность OCR, которая способна была бы преодолеть любые трудности, встречающиеся при попытках преобразования изображений текста в текст в компьютерных кодах. Одна из таких трудностей связана с зачеркнутым текстом, который часто встречается в документах. Например, для обозначения документа как копии оригинального документа, на странице документа может быть поставлен штамп с текстом «COPY». Иногда такие документы должны быть заверены как правильные копии оригинального документа, что, как правило, осуществляется при помощи дополнительных штампов и, например, подписи лица, которому поручено заверять такие копии.
Обычным эффектом перечеркнутого текста или других объектов, наложенных на символы, является то, что символы в словах скрываются под объектами, предусматриваемыми, как описано выше, штампом или рукописной подписью, что делает затруднительной идентификацию системой OCR символов и слов, включающих в себя эти символы. Обычно система OCR предусматривает выходные данные, в которые включается перечень недостоверно распознаваемых символов. Таким образом, можно идентифицировать перечеркнутые символы и т.д., а их положение на странице с текстом и в словах и т.д., а также возможные альтернативные интерпретации скрытых или частично скрытых символов и т.д. могут сообщаться системой OCR.
Согласно одной из особенностей настоящего изобретения, можно идентифицировать как сами по себе подобные наложенные объекты, так и положение и степень наложения объекта на изображение символа в тексте. Если наложенные объекты идентифицированы, части изображения символа с нарушенной видимостью исключаются из изображения, представляющего символ. Остальные части изображений символов с нарушенной видимостью затем сопоставляются с изображениями из набора эталонных изображений символов согласно настоящему изобретению. Данное сопоставление делает возможной идентификацию, по меньшей мере, одного эталонного изображения, имеющего наибольшее сходство с изображением, содержащим остающиеся части изображения символа с нарушенной видимостью. Если этот способ возвращает только одно изображение символа-кандидата, имеющее сходство, которое превышает заданный пороговый уровень, проблему можно считать решенной. Однако, как правило, существует несколько символов-кандидатов, которые имеют высокую степень сходства между остающимися частями изображения символа с нарушенной видимостью, и эталонными изображениями кандидатов. Поэтому трудность заключается в выборе среди множества изображений символов-кандидатов правильного изображения символа-кандидата, которое является правильной идентификацией символа с нарушенной видимостью.
Согласно примеру осуществления настоящего изобретения, информация, связанная с местоположением и степенью наложения объектов на символ, используется для моделирования наложенного объекта на эталонных изображениях в том же местоположении и с той же степенью наложения, а затем образец символа с нарушенной видимостью сопоставляется с изображениями, смоделированными с фактически наложенным объектом. Например, корреляции между остающимися частями изображений соответствующих образцов символов с нарушенной видимостью с эталонными изображениями возможных символов-кандидатов обеспечивают способ идентификации такого эталонного изображения символа, которое фактически представляет образец символа с нарушенной видимостью и, соответственно, является правильным распознаванием образца символа с нарушенной видимостью.
Согласно другой особенности настоящего изобретения, вероятность выбора правильного изображения символа-кандидата, являющегося правильной идентификацией символа с нарушенной видимостью, из множества символов-кандидатов значительно увеличивается тогда, когда набор изображений символов-кандидатов предусматривается путем использования изображений символов из того же документа, что и идентифицированные системой OCR как символы, идентифицируемые с достоверностью, которая превышает заранее определенный пороговый уровень. Такие изображения символов включают в себя детали изображений символов в том виде, в каком они встречаются в самом документе, в отличие от модельных изображений символов, которые известны в прототипах сравнений с эталоном символа. При моделировании наложенных объектов образца символа с нарушенной видимостью на таких эталонных изображениях, устойчивость корреляции заметно увеличивается.
Фиг.1 - пример штампованной буквы Р, нарушающей видимость части страницы с текстом. Символ Р является частью штампа, включающего в себя текст «COPY».
Фиг.2а - образец символа а с видимостью, нарушенной частично наложенным символом Р по фиг.1.
Фиг.2б - удаление секции с нарушенной видимостью по фиг.2а согласно настоящему изобретению.
Фиг.3а - пример максимальной корреляции между изображением по фиг.2б и эталоном символа a, который показан на фиг.3б.
Фиг.4а - различные категории пикселей в символе с нарушенной видимостью по фиг.2а согласно настоящему изобретению.
Фиг.4б - соответствующие категории пикселей в перечеркнутом эталоне согласно настоящему изобретению.
Согласно одной из особенностей настоящего изобретения, присутствие наложенного объекта, например, штампа, рукописной подписи и т.д., можно идентифицировать, анализируя связанные пиксели на изображениях, которые включают в себя обогащенные текстом области документа. В альтернативном варианте, или в качестве дополнения, выходные данные из системы OCR могут включать в себя идентификации недостоверно распознаваемых символов, их положения на странице и т.д., обеспечивая краткое указание на то, где могут присутствовать подобные трудности. Например, краткое указание на подобную трудность может быть идентифицировано по тому, что в месте, где текстовая строка перечеркнута, будет присутствовать, по меньшей мере один символ, который нельзя распознать, а другие символы со столь же низким качеством будут нераспознаваемыми в текстовых строках над или под текущей строкой. Дополнительное исследование содержимого пикселей в пространстве между текстовыми строками может затем предоставить достоверное указание перечеркнутых символов, например, потому, что в нормальной ситуации эти пространства должны быть пустыми. Например, отслеживание контуров отпечатка при наличии наложенного объекта или отслеживание центровых линий отпечатка при наличии наложенного объекта может предоставить подтверждение присутствия в документе перечеркнутого текста. В других способах может использоваться модель известных отпечатков из штампов, которые, возможно, использовались на страницах документов. Вращая модельное изображение штампа, можно осуществить идентификацию отпечатка на странице. Другим указателем на присутствие перечеркнутого текста может служить размер текста в сравнении с размером наложенного объекта. Дополнительные способы могут предусматривать подтверждение перечеркнутого текста путем следования по кратчайшему расстоянию между символами с нарушенной видимостью на одной из строк текста, находящейся над другой текстовой строкой. Если на этой кратчайшей линии присутствуют отпечатки («включенные» пиксели), они, вероятно, относятся к наложенному объекту на странице, например к штампу. Также возможно использовать для идентификации длинных линий поперек страницы морфологические операторы. Однако в объем настоящего изобретения входит использование любых способов, обеспечивающих идентификацию перечеркнутых символов в изображении текста.
Идентификация перечеркнутого текста приводит в действие поиск изображений символов, фактически включающих в себя перечеркнутые области. Эти символы идентифицируются системой OCR как нераспознаваемые или недостоверно распознаваемые символы. Например, такие символы идентифицируются путем сопоставления сообщаемых символов и их положения на изображении текста с информацией, полученной при идентификации присутствия наложенного отпечатка. Затем эти изображения символов идентифицируются путем снабжения соответствующих символов текста ограничивающими блоками. В результате образцы символов включают в себя три типа возможных изображений перечеркнутых символов: первый тип - полностью перечеркнутые изображения, второй тип - изображения частично перечеркнутых символов, на которых перечеркнутая секция покрывает часть тела символа, третий возможный сценарий - перечеркнутая секция в ограничивающем блоке не пересекает и не касается тела символа, однако проходит через ограничивающий блок, не покрывая ни одной части тела символа. В последнем случае, вероятнее всего, система OCR будет неспособна правильно идентифицировать символ, поскольку избыточные «включенные» пиксели будут ухудшать алгоритм распознавания, используемый системой OCR. Полностью перечеркнутые символы можно достоверно идентифицировать, используя слова, частью которых они являются. Однако слово, которое включает в себя пропущенный символ (или полностью нераспознаваемый символ) будет предусматривать перечень возможных слов-кандидатов. Также существует вероятность маскировки наложенным объектом нескольких символов в словах. Разрешение противоречивых слов представляет собой изобретение другого типа, которое находится за пределами, ограничиваемыми объемом настоящего изобретения. Однако, как бы ни идентифицировался перечеркнутый символ, контроль идентификации, например, с использованием поиска по словарю, находится в пределах, ограничиваемых объемом настоящего изобретения. Если словарь возвращает слово, оно является возможным подтверждением рассматриваемого символа.
Поэтому настоящее изобретение предусматривает достоверное распознавание изображений частично перечеркнутых символов (вышеуказанных второго и третьего типов). Одной из особенностей настоящего изобретения является способность соотнесения частей, или местоположений областей, на изображениях между различными изображениями символов. Как известно специалистам в данной области, общая система отсчета может быть установлена путем использования в качестве точки отсчета, например, угла текстовой страницы, а затем использования упорядоченных пар чисел для отнесения отдельных пикселей, кластеров пикселей, связанных пикселей и т.д., что, однако, требует значительных усилий для преобразования координат при сопоставлении информации, находящей на текстовой странице в различных положениях. Информация местоположения или области об отличительных особенностях изображений символов и (или) о недостоверно распознаваемых символах может быть согласованно соотнесена со всеми изображениям соответствующих отдельных изображений символов в том случае, когда изображения выровнены друг относительно друга так, что максимально возможные доли тел символов находятся один над другим при рассмотрении изображений одно поверх другого. Для достижения такого выравнивания, необходимо вычислить смещения между различными изображениями, например, путем корреляции комбинаций изображений. Согласно примеру осуществления настоящего изобретения, ограничивающие блоки, используемые для разделения перечеркнутых символов с текстовой страницы, можно коррелировать с эталонными изображениями символов, таким образом получая смещение, используемое для выравнивания изображений согласно настоящему изобретению. Выравнивание, предусматриваемое вычислением максимальной корреляции и соответствующим ее размещением между изображениями, делает возможной идентификацию на изображении текстовой страницы областей образцов символов с нарушенной видимостью, которые фактически перечеркнуты относительно самого тела символа. Когда область идентифицирована, в то же положение относительно самого тела символа на эталонных изображениях символов может быть введена аналогичная область, включающая в себя перечеркнутые части. Это обеспечивает возможность изучения того, что остается от эталонных изображений, и сопоставления содержимого этих областей с областями образца символа с нарушенной видимостью, которые включают в себя участки с нарушенной видимостью. Поиск максимальной корреляции предусматривает измерение того, какое из эталонных изображений включает в себя области за пределами секций с нарушенной видимостью, которые в наибольшей степени эквивалентны аналогичным областям на образце с нарушенной видимостью, включающем в себя наложенный объект. Эталонное изображение, имеющее максимальную величину корреляции, является правильным выбором в качестве идентификации образца перечеркнутого символа с нарушенной видимостью.
На фиг.1 показана ситуация, в которой на части страницы проштампована буква Р из слова «COPY». В одном из примеров осуществления настоящего изобретения для иллюстрации примеров особенностей настоящего изобретения используется перечеркнутый символ а, указанный на фиг.1 стрелкой.
На фиг.2а показан символ a, заключенный в ограничивающий блок, отделяющий изображение символа а, которое включает в себя участок с нарушенной видимостью от остального изображения, включающего в себя текст. На фиг.2б показана ситуация, в которой область, включающая в себя участок с нарушенной видимостью, «вырезана», например, путем присвоения всем значением уровня серого пикселей значения фонового цвета (т.е. белого). Согласно одной из особенностей настоящего изобретения, сопоставление изображения с «вырезанным» перечеркнутым участком упрощает сопоставление этого изображения с другими изображениями символов. Изображение по фиг.2б затем используется для сопоставления изображения с другими эталонными изображениями.
После идентификации присутствия отпечатка и нарушения видимости текста, например, отпечатком из штампа, информация о точках, в которых отпечаток пересекает строки текста, может использоваться для идентификации входных и выходных точек отпечатка в ограничивающем блоке образца символа с нарушенной видимостью, поскольку образец символа с нарушенной видимостью фактически извлекается из положения на странице, где отпечаток фактически присутствует. Однако любой способ, предусматривающий идентификацию областей, которые включают в себя наложенный объект, находится в пределах, ограничиваемых объемом настоящего изобретения. Для определения того, что символ с нарушенной видимостью относится к одному из типов, подробно описанных выше, можно использовать размер отпечатка. Если тип символа - первый, процесс завершается, а два других типа наложенных объектов обрабатываются по способу в соответствии с настоящим изобретением.
Согласно примеру осуществления настоящего изобретения, изображение по фиг.2б коррелируют с эталонными изображениями, созданными из изображений символов, которые имеют качество изображения, превышающее заранее определенный пороговый уровень. На фиг.3а показано, как корреляция, идентифицированная путем корреляции изображения по фиг.2б с эталонным изображением по фиг.3б, обеспечивает выравнивание с изображением символа а с нарушенной видимостью внутри выбранного ограничивающего блока, а также как можно идентифицировать области, принадлежащие собственно к символу, и области, принадлежащие к перечеркнутым областям.
Согласно еще одному примеру осуществления настоящего изобретения, размеры тела символа на эталонных изображениях сопоставляются с размером степени наложения объекта в образце символа с нарушенной видимостью. Если размер тела символа на эталонном изображении (отмасштабированном по размеру шрифта в документе) оказывается меньше размера степени наложения участка с нарушенной видимостью, данные эталонные изображения исключаются из дальнейшего использования при поиске правильной идентификации образца символа с нарушенной видимостью, поскольку тела таких эталонных изображений будут полностью скрыты, например, отпечатком, нарушающим видимость изображений символов. Таким образом, можно ограничить количество сопоставлений.
На фиг.4а и 4б показано, как пиксели на изображениях, представляющих эталон, образец с нарушенной видимостью и перечеркнутые участки можно классифицировать как принадлежащие к одной из четырех различных классификаций. Такая классификация лучше всего достигается путем использования порога для эталонных изображений, который обеспечивает максимальную корреляцию образцом с нарушенной видимостью, включающим в себя перечеркнутый участок, а затем - введения идентифицированного перечеркнутого участка в данное эталонное изображение. Поскольку корреляция между изображениями предусматривает смещение, или сдвиг, между изображениями, эти классификации можно идентифицировать на всех изображениях, как показано, соответственно, на фиг.4а и 4б, и визуализировать, присваивая:
1. «включенным» пикселям, не затронутым перечеркнутым участком, - белый символ +;
2. «включенным» пикселям, затронутым перечеркнутым участком, - черный символ о,
3. «выключенным» пикселям, не затронутым перечеркнутым участком, - без визуализации;
4. «выключенным» пикселям, затронутым перечеркнутым участком, - черный символ х.
Существует несколько способов установления того, какое из эталонных изображений имеет максимальное сходство при сопоставлении с изображением символа с нарушенной видимостью. Например, к этим способам относится корреляция изображений после выравнивания соответствующих изображений. Согласно другому примеру осуществления настоящего изобретения, единственными представляющими интерес пикселями являются «включенные» пиксели, как установлено выше в классификации пикселей, заключенных в изображениях, которые обрабатываются системой OCR. Затем можно вычислить степень параллельности между «включенными» пикселями в образце символа с нарушенной видимостью и на эталонном изображении. Пример такой параллельности:
где pk - сдвиг незатронутых «включенных» пикселей в образце символа с нарушенной видимостью, а р'k - незатронутые «включенные» пиксели на эталонном изображении. Параллельность для примера эталона символа а по фиг.1 составляет 0,971, что является максимальным для всех эталонов, идентифицированных в данном документе. Таким образом, достигается правильная классификация.
Согласно одной из особенностей настоящего изобретения, описанные выше стадии способа наилучшим образом выполняются в том случае, когда эталонные изображения являются изображениями символов в том виде, в каком они встречаются в документе, обрабатываемом системой OCR. Эталонные изображения можно идентифицировать как изображения символов, имеющие качество, которое превышает заранее определенный уровень, и (или) как суперпозицию нескольких изображений одно поверх другого, представляющих одно и то же изображение символа и обозначаемую как класс символа.
Согласно одному из примеров осуществления настоящего изобретения, при создании классов символов осуществляются следующие стадии:
I. случайный выбор трех образцов из класса, корреляция всех комбинаций этих образцов и выбор пары коррелированных образцов, имеющей корреляцию, которая превышает заранее заданный пороговый уровень, в качестве исходного пункта для эталона класса данного символа;
II. если ни одна из комбинаций пар, выбранных на стадии I, не обладает корреляцией, превышающей пороговый уровень, - выбор других образцов из класса до получения пары, имеющей корреляцию, которая превышает заранее заданный пороговый уровень;
III. если ни одна из пар образцов, выбранных на стадии II, не имеет корреляции, которая превышает заранее заданный пороговый уровень, данный класс исключается из дальнейшего использования;
IV. для исходной пары, идентифицированной на стадии I или II, - корреляция изображений пары, идентифицирующая смещение между ними, затем - генерирование из изображений выровненного суммарного эталонного изображения, которое используется в качестве исходного эталонного изображения для класса соответствующего символа;
V. для всех остальных образцов в классе - их корреляция с суммарным эталоном (стадия IV) для идентификации смещения между ними и, если корреляция превышает заранее определенный порог, выравнивание изображений перед их сложением с суммарным изображением (стадия IV);
VI. если некоторые выровненные изображения, используемые на стадии V, включают в себя части, выходящие за пределы исходного эталона (стадия IV) - расширение суммарного эталона до нахождения всех образцов внутри ограничивающего блока, определяемого размером медианы ограничивающих блоков подмножества изображений, представляющего большинство изображений.
Согласно другому примеру осуществления настоящего изобретения, накопление выровненных изображений в эталон для класса, представляющего символ, также включает в себя сложение соответствующих значений уровня серого пикселей из соответствующих местоположений на выровненных изображениях так, чтобы перед осуществлением сложения каждое значение уровня серого пикселя было взвешено относительно обратной величины от количества выровненных изображений, накопленных на текущий момент в эталонном изображении для класса.
В некоторых случаях, в наборе эталонов, или классе, согласно настоящему изобретению, некоторые изображения символов пропущены. Это может приводить к ситуации, когда пропущено, например, эталонное изображение. Такие ситуации могут возникать, например, тогда, когда символ действительно редко используется в языке документа. Например, в норвежском языке символ с является редко используемым в отличие от других языков, где с - наиболее часто используемый символ. Типичной ошибочной альтернативой символу с является символ е. Разумно предположить, что для символа е эталон будет присутствовать, а для символа с - нет. Если пропуск символа с идентифицирован, можно предусмотреть синтетическое эталонное изображение на основе уже существующего эталонного изображения символа, который имеет сходство с пропущенным эталонным изображением. Тогда некоторые графические признаки символов, встречающихся в документе, который обрабатываются системой OCR, будут являться частью синтезированного эталонного изображения.
В одном из примеров осуществления, согласно настоящему изобретению, скрытый символ распознается путем осуществления следующих стадий способа, например, реализованных в компьютерной программе, присоединенной или связанной с системой OCR в единую компьютерную систему, или с другой компьютерной системой, присоединенной или связанной с компьютерной программой посредством сети:
Предполагается, что эталоны для существенных классов изображений символов и шрифтов накоплены, ограничивающий блок для скрытого символа (слова) идентифицирован, а также идентифицирована мера местоположения помех относительно ограничивающего блока.
Стадия 1: присвоение помехам на изображении символа репрезентативного фонового уровня (например черный инвертируется в белый или наоборот).
Стадия 2: корреляция с накопленными эталонами.
Стадия 3: сравнение накопленных эталонов с порогом, например, при помощи сравнения с порогом по алгоритму Canny.
Стадия 4: для каждого эталона-кандидата:
1. идентификация наложения загрязняющих помех на сдвинутом эталоне;
2. выбор «включенных» пикселей на эталоне, который не затронут помехами, и применение к этим пикселями и пикселями на сдвиге образцов метрики согласованности в соответствии с максимумами корреляции, используемыми для вычисления метрики согласованности;
3. корреляция сдвинутого эталонного изображения с изображением символа, где помехам (наложению) на обоих изображениях присвоен фоновый уровень, использование общих пикселей в изображении символа и сдвинутом эталонном изображении для нормирования;
4. сохранение максимального значения метрики для эталона;
5. сохранение максимальной корреляции для эталона;
Эталон с максимальным значением является наиболее вероятным символом для скрытого символа. Таким образом, скрытый символ идентифицирован.
Варианты осуществления:
1. Способ для разрешения противоречивых выходных данных из системы Оптического распознавания символов (OCR), где выходные данные включают в себя, по меньшей мере, один образец символа с нарушенной видимостью, которая вызвана, по меньшей мере, одним наложенным объектом в документе, обрабатываемом системой OCR, где способ включает в себя:
а) поиск по выходным данным для идентификации изображений символов, обладающих качеством изображения, которое превышает заранее определенный уровень, и использование этих изображений символов в качестве набора эталонных изображений для символов;
б) идентификация местоположения области участка с нарушенной видимостью, по меньшей мере, на одном образце символа с нарушенной видимостью;
в) использование информации о местоположении и области из образца символа с нарушенной видимостью для нахождения соответствующих областей на эталонных изображениях перед сопоставлением соответствующих эталонных изображений, по меньшей мере, с одним образцом символа с нарушенной видимостью, пренебрежение при сопоставлении содержимым изображения в найденных соответствующих областях, использование эталонного изображения, обладающего наибольшим сходством с изображением символа с нарушенной видимостью в качестве правильной идентификации символа с нарушенной видимостью.
2. Способ по варианту 1, отличающийся тем, что значениям уровней серого пикселей, заключенных в найденной области, скрывающего участка, присваивается значение фонового уровня.
3. Способ по варианту 1, отличающийся тем, что изображение образца символа с нарушенной видимостью и соответствующие эталонные изображения коррелируют для вычисления смещения между соответствующими изображениями, которое используется для выравнивания соответствующих изображений перед их сопоставлением.
4. Способ по варианту 1, отличающийся тем, что изображение образца символа с нарушенной видимостью коррелируют с каждым соответствующим эталонным изображением, перечень эталонных изображений, обеспечивающих корреляцию, которая превышает заранее определенный пороговый уровень, перечисляется как набор эталонных изображений-кандидатов, являющихся возможными правильными идентификациями образца символа с нарушенной видимостью, а затем соответствующие эталонные изображения-кандидаты используются при сопоставлении для получения правильной идентификации образца символа с нарушенной видимостью.
5. Способ по варианту 1, отличающийся тем, что сопоставление изображения образца символа с нарушенной видимостью с соответствующими эталонными изображениями вычисляется как метрика согласованности:
где р'k - значения пикселей на изображении, по меньшей мере, одного образца символа с нарушенной видимостью, принадлежащего к телу собственно символа, но не к фону изображения, а рk - значения соответствующим образом расположенных пикселей на соответствующем выровненном изображении эталонного изображения, принадлежащего к собственно телу эталонного символа, но не к фону изображения.
6. Способ по варианту 1, отличающийся тем, что стадия, предусматривающая эталонный набор, включает в себя сортировку всех сообщаемых идентифицированных символов, превышающих пороговый уровень, в классы, где каждый класс представляет один и тот же идентифицированный символ в эталонном наборе, а затем - осуществление стадий обеспечения изображений для каждого символа или класса в эталонном наборе путем:
I. Случайного выбора трех образцов в классе, корреляции всех комбинаций этих трех образцов, а затем - выбора пары коррелированных образцов, обеспечивающей корреляцию, которая превышает заранее заданный пороговый уровень, в качестве исходного пункта для эталона класса данного символа;
II. Если ни одна из комбинаций пар, выбранных на стадии I, не обладает корреляцией, превышающей пороговый уровень, - выбора других образцов из класса до получения пары, имеющей корреляцию, которая превышает заранее заданный пороговый уровень;
III. Если ни одна из пар образцов, выбранных на стадии II, не имеет корреляции, которая превышает заранее заданный пороговый уровень, - исключения класса из дальнейшего использования;
IV. Для исходной пары, идентифицированной на стадии I или II, - корреляции изображений пары, идентифицирующей смещение между ними, затем - генерирования из изображений выровненного суммарного эталонного изображения, которое используется в качестве исходного эталонного изображения для класса соответствующего символа;
V. Для всех остальных образцов в классе - их корреляции с суммарным эталоном (стадия IV) для идентификации смещения между ними и, если корреляция превышает заранее определенный порог, выравнивания изображений перед их сложением с суммарным изображением (стадия IV);
VI. Если некоторые выровненные изображения, используемые на стадии V, включают в себя части, выходящие за пределы исходного эталона (стадия IV) - расширения суммарного эталона после использования всех образцов.
7. Способ по варианту 6, отличающийся тем, что накопление выровненных изображений в эталоне класса, представляющего символ, также включает в себя сложение соответствующих значений уровней серого пикселей и соответствующих местоположений на выровненных изображениях таким образом, чтобы каждое значение уровня серого пикселя перед осуществлением сложения взвешивалось по обратной величине от количества выровненных изображений, накопленных на текущий момент в эталонном изображении для класса.
8. Способ по варианту 6, отличающийся тем, что в ситуации, когда класс символа пропущен по причине пропуска изображений идентифицированного символа в документе, обрабатываемом системой OCR, пропущенный эталонный класс синтезируется из другого существующего эталонного класса, имеющего сходство с пропущенным эталонным классом.
Claims (8)
1. Способ для разрешения противоречивых выходных данных из системы оптического распознавания символов (OCR), отличающийся тем, что выходные данные включают в себя, по меньшей мере, один образец символа с нарушенной видимостью, которая вызвана, по меньшей мере, одним наложенным объектом в документе, обрабатываемом системой OCR, где способ включает в себя:
а) поиск по выходным данным для идентификации изображений символов, обладающих качеством изображения, которое превышает заранее определенный уровень, и использование этих изображений символов в качестве набора эталонных изображений для символов;
б) идентификация местоположения области участка с нарушенной видимостью, по меньшей мере, на одном образце символа с нарушенной видимостью;
в) использование информации о местоположении и области из образца символа с нарушенной видимостью для нахождения соответствующих областей на эталонных изображениях перед сопоставлением соответствующих эталонных изображений, по меньшей мере, с одним образцом символа с нарушенной видимостью, пренебрегая при сопоставлении содержимым изображения в найденных соответствующих областях, и использование эталонного изображения, обладающего наибольшим сходством с изображением символа с нарушенной видимостью в качестве правильной идентификации символа с нарушенной видимостью.
а) поиск по выходным данным для идентификации изображений символов, обладающих качеством изображения, которое превышает заранее определенный уровень, и использование этих изображений символов в качестве набора эталонных изображений для символов;
б) идентификация местоположения области участка с нарушенной видимостью, по меньшей мере, на одном образце символа с нарушенной видимостью;
в) использование информации о местоположении и области из образца символа с нарушенной видимостью для нахождения соответствующих областей на эталонных изображениях перед сопоставлением соответствующих эталонных изображений, по меньшей мере, с одним образцом символа с нарушенной видимостью, пренебрегая при сопоставлении содержимым изображения в найденных соответствующих областях, и использование эталонного изображения, обладающего наибольшим сходством с изображением символа с нарушенной видимостью в качестве правильной идентификации символа с нарушенной видимостью.
2. Способ по п.1, отличающийся тем, что значениям уровней серого пикселей, заключенных в найденной области, скрывающего участка, присваивают значение фонового уровня.
3. Способ по п.1, отличающийся тем, что изображение образца символа с нарушенной видимостью и соответствующие эталонные изображения коррелируют для вычисления смещения между соответствующими изображениями, которое используют для выравнивания соответствующих изображений перед их сопоставлением.
4. Способ по п.1, отличающийся тем, что изображение образца символа с нарушенной видимостью коррелируют с каждым соответствующим эталонным изображением, перечень эталонных изображений, обеспечивающих корреляцию, которая превышает заранее определенный пороговый уровень, перечисляют как набор эталонных изображений-кандидатов, являющихся возможными правильными идентификациями образца символа с нарушенной видимостью, а затем соответствующие эталонные изображения-кандидаты используют при сопоставлении для получения правильной идентификации образца символа с нарушенной видимостью.
5. Способ по п.1, отличающийся тем, что сопоставление изображения образца символа с нарушенной видимостью с соответствующими эталонными изображениями вычисляют как метрику согласованности:
где p'k - значения пикселей на изображении, по меньшей мере, одного образца символа с нарушенной видимостью, принадлежащего к телу собственно символа, но не к фону изображения, pk - значения соответствующим образом расположенных пикселей на соответствующем выровненном изображении эталонного изображения, принадлежащего к собственно телу эталонного символа, но не к фону изображения.
где p'k - значения пикселей на изображении, по меньшей мере, одного образца символа с нарушенной видимостью, принадлежащего к телу собственно символа, но не к фону изображения, pk - значения соответствующим образом расположенных пикселей на соответствующем выровненном изображении эталонного изображения, принадлежащего к собственно телу эталонного символа, но не к фону изображения.
6. Способ по п.1, отличающийся тем, что стадия, предусматривающая эталонный набор, включает в себя сортировку всех сообщаемых идентифицированных символов, превышающих пороговый уровень, в классы, где каждый класс представляет один и тот же идентифицированный символ в эталонном наборе, а затем - осуществляют стадии обеспечения изображений для каждого символа или класса в эталонном наборе путем:
I. случайного выбора трех образцов в классе, корреляции всех комбинаций этих трех образцов, а затем - выбора пары коррелированных образцов, обеспечивающей корреляцию, которая превышает заранее заданный пороговый уровень, в качестве исходного пункта для эталона класса данного символа;
II. выбора других образцов из класса до получения пары, имеющей корреляцию, которая превышает заранее заданный пороговый уровень, если ни одна из комбинаций пар, выбранных на стадии I, не обладает корреляцией, превышающей пороговый уровень;
III. исключения класса из дальнейшего использования, если ни одна из пар образцов, выбранных на стадии II, не имеет корреляции, которая превышает заранее заданный пороговый уровень;
IV. для исходной пары, идентифицированной на стадии I или II, - корреляции изображений пары, идентифицирующей смещение между ними, затем - генерирования из изображений выровненного суммарного эталонного изображения, которое используется в качестве исходного эталонного изображения для класса соответствующего символа;
V. для всех остальных образцов в классе - их корреляции с суммарным эталоном (стадия IV) для идентификации смещения между ними и, если корреляция превышает заранее определенный порог, выравнивания изображений перед их сложением с суммарным изображением (стадия IV);
VI. расширения суммарного эталона после использования всех образцов, если некоторые выровненные изображения, используемые на стадии V, включают в себя части, выходящие за пределы исходного эталона (стадия IV).
I. случайного выбора трех образцов в классе, корреляции всех комбинаций этих трех образцов, а затем - выбора пары коррелированных образцов, обеспечивающей корреляцию, которая превышает заранее заданный пороговый уровень, в качестве исходного пункта для эталона класса данного символа;
II. выбора других образцов из класса до получения пары, имеющей корреляцию, которая превышает заранее заданный пороговый уровень, если ни одна из комбинаций пар, выбранных на стадии I, не обладает корреляцией, превышающей пороговый уровень;
III. исключения класса из дальнейшего использования, если ни одна из пар образцов, выбранных на стадии II, не имеет корреляции, которая превышает заранее заданный пороговый уровень;
IV. для исходной пары, идентифицированной на стадии I или II, - корреляции изображений пары, идентифицирующей смещение между ними, затем - генерирования из изображений выровненного суммарного эталонного изображения, которое используется в качестве исходного эталонного изображения для класса соответствующего символа;
V. для всех остальных образцов в классе - их корреляции с суммарным эталоном (стадия IV) для идентификации смещения между ними и, если корреляция превышает заранее определенный порог, выравнивания изображений перед их сложением с суммарным изображением (стадия IV);
VI. расширения суммарного эталона после использования всех образцов, если некоторые выровненные изображения, используемые на стадии V, включают в себя части, выходящие за пределы исходного эталона (стадия IV).
7. Способ по п.6, отличающийся тем, что накопление выровненных изображений в эталоне класса, представляющего символ, также включает в себя сложение соответствующих значений уровней серого пикселей и соответствующих местоположений на выровненных изображениях таким образом, чтобы каждое значение уровня серого пикселя перед осуществлением сложения взвешивалось по обратной величине от количества выровненных изображений, накопленных на текущий момент в эталонном изображении для класса.
8. Способ по п.6, отличающийся тем, что в ситуации, когда класс символа пропущен по причине пропуска изображений идентифицированного символа в документе, обрабатываемом системой OCR, пропущенный эталонный класс синтезируют из другого существующего эталонного класса, имеющего сходство с пропущенным эталонным классом.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
NO20076153 | 2007-11-28 | ||
NO20076153 | 2007-11-28 |
Publications (2)
Publication Number | Publication Date |
---|---|
RU2010125821A RU2010125821A (ru) | 2012-01-10 |
RU2445699C1 true RU2445699C1 (ru) | 2012-03-20 |
Family
ID=40678786
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2010125821/08A RU2445699C1 (ru) | 2007-11-28 | 2008-11-21 | Способ обработки данных оптического распознавания символов (ocr), где выходные данные включают в себя изображения символов с нарушенной видимостью |
Country Status (4)
Country | Link |
---|---|
US (1) | US8467614B2 (ru) |
EP (1) | EP2220590A1 (ru) |
RU (1) | RU2445699C1 (ru) |
WO (1) | WO2009070032A1 (ru) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2556461C2 (ru) * | 2013-11-18 | 2015-07-10 | Закрытое акционерное общество "ИнфоВотч" | Способ автоматизированного поиска эталонных печатей |
RU2605078C2 (ru) * | 2015-01-27 | 2016-12-20 | Общество с ограниченной ответственностью "Аби Девелопмент" | Сегментация изображения для верификации данных |
RU2631168C2 (ru) * | 2013-06-18 | 2017-09-19 | Общество с ограниченной ответственностью "Аби Девелопмент" | Способы и устройства, которые преобразуют изображения документов в электронные документы с использованием trie-структуры данных, содержащей непараметризованные символы для определения слов и морфем на изображении документа |
RU2641452C2 (ru) * | 2013-12-18 | 2018-01-17 | ООО "Аби Девелопмент" | Неполные эталоны |
RU2657181C1 (ru) * | 2017-09-01 | 2018-06-08 | Общество с ограниченной ответственностью "Аби Продакшн" | Способ улучшения качества распознавания отдельного кадра |
RU2721186C1 (ru) * | 2019-07-22 | 2020-05-18 | Общество с ограниченной ответственностью "Аби Продакшн" | Оптическое распознавание символов документов с некопланарными областями |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010157107A (ja) * | 2008-12-26 | 2010-07-15 | Hitachi Software Eng Co Ltd | 業務文書処理装置 |
US8792748B2 (en) * | 2010-10-12 | 2014-07-29 | International Business Machines Corporation | Deconvolution of digital images |
US20120212606A1 (en) * | 2011-02-20 | 2012-08-23 | Min-Hung Chien | Image processing method and image processing apparatus for dealing with pictures found by location information and angle information |
JP5701181B2 (ja) * | 2011-08-18 | 2015-04-15 | 株式会社Pfu | 画像処理装置、画像処理方法及びコンピュータプログラム |
JP5701182B2 (ja) | 2011-08-18 | 2015-04-15 | 株式会社Pfu | 画像処理装置、画像処理方法及びコンピュータプログラム |
US9058644B2 (en) * | 2013-03-13 | 2015-06-16 | Amazon Technologies, Inc. | Local image enhancement for text recognition |
JP6342298B2 (ja) * | 2014-10-31 | 2018-06-13 | 株式会社東芝 | 文字認識装置、画像表示装置、画像検索装置、文字認識方法およびプログラム |
RU2634192C1 (ru) * | 2016-06-24 | 2017-10-24 | Общество с ограниченной ответственностью "Аби Девелопмент" | Ввод данных из серии изображений, соответствующих шаблонному документу |
JP2018018303A (ja) * | 2016-07-28 | 2018-02-01 | 京セラドキュメントソリューションズ株式会社 | 情報抽出装置及びこれを備えた画像形成装置 |
US10417516B2 (en) | 2017-08-24 | 2019-09-17 | Vastec, Inc. | System and method for preprocessing images to improve OCR efficacy |
CN110717489B (zh) * | 2019-09-19 | 2023-09-15 | 平安科技(深圳)有限公司 | Osd的文字区域的识别方法、装置及存储介质 |
CN113239910B (zh) * | 2021-07-12 | 2021-11-09 | 平安普惠企业管理有限公司 | 证件识别方法、装置、设备及存储介质 |
CN113569864B (zh) * | 2021-09-26 | 2022-01-25 | 广东电网有限责任公司中山供电局 | 一种识别签字和印章的方法及系统 |
US12008829B2 (en) | 2022-02-16 | 2024-06-11 | Vastec, Inc. | System and method for improved OCR efficacy through image segmentation |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5745600A (en) * | 1992-12-17 | 1998-04-28 | Xerox Corporation | Word spotting in bitmap images using text line bounding boxes and hidden Markov models |
US5751850A (en) * | 1993-06-30 | 1998-05-12 | International Business Machines Corporation | Method for image segmentation and classification of image elements for documents processing |
US5963666A (en) * | 1995-08-18 | 1999-10-05 | International Business Machines Corporation | Confusion matrix mediated word prediction |
US20020131642A1 (en) * | 2001-02-02 | 2002-09-19 | Lee Shih-Jong J. | Robust method for automatic reading of skewed, rotated or partially obscured characters |
RU2234126C2 (ru) * | 2002-09-09 | 2004-08-10 | Аби Софтвер Лтд. | Способ распознавания текста с применением настраиваемого классификатора |
US20060056696A1 (en) * | 2004-08-18 | 2006-03-16 | Fujitsu Limited | Degraded dictionary generation method and apparatus |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
ATE185211T1 (de) * | 1995-01-31 | 1999-10-15 | United Parcel Service Inc | Verfahren und gerät zum trennen des vordergrunds und hintergrunds in textenthaltenden bildern |
US6507670B1 (en) * | 1998-03-05 | 2003-01-14 | Ncr Corporation | System and process for removing a background pattern from a binary image |
MC2491A1 (fr) | 1999-06-21 | 1999-11-22 | Stringa Luigi | Reconnaissance automatique de caractères sur fond structuré par combinaison des modèles du fond et des caractères |
US20030043172A1 (en) * | 2001-08-24 | 2003-03-06 | Huiping Li | Extraction of textual and graphic overlays from video |
US7650035B2 (en) * | 2006-09-11 | 2010-01-19 | Google Inc. | Optical character recognition based on shape clustering and multiple optical character recognition processes |
JP5034398B2 (ja) * | 2006-09-14 | 2012-09-26 | 富士通株式会社 | 文字認識プログラム、文字認識方法および文字認識装置 |
-
2008
- 2008-11-21 US US12/744,974 patent/US8467614B2/en not_active Expired - Fee Related
- 2008-11-21 WO PCT/NO2008/000419 patent/WO2009070032A1/en active Application Filing
- 2008-11-21 EP EP08855111A patent/EP2220590A1/en not_active Withdrawn
- 2008-11-21 RU RU2010125821/08A patent/RU2445699C1/ru not_active IP Right Cessation
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5745600A (en) * | 1992-12-17 | 1998-04-28 | Xerox Corporation | Word spotting in bitmap images using text line bounding boxes and hidden Markov models |
US5751850A (en) * | 1993-06-30 | 1998-05-12 | International Business Machines Corporation | Method for image segmentation and classification of image elements for documents processing |
US5963666A (en) * | 1995-08-18 | 1999-10-05 | International Business Machines Corporation | Confusion matrix mediated word prediction |
US20020131642A1 (en) * | 2001-02-02 | 2002-09-19 | Lee Shih-Jong J. | Robust method for automatic reading of skewed, rotated or partially obscured characters |
RU2234126C2 (ru) * | 2002-09-09 | 2004-08-10 | Аби Софтвер Лтд. | Способ распознавания текста с применением настраиваемого классификатора |
US20060056696A1 (en) * | 2004-08-18 | 2006-03-16 | Fujitsu Limited | Degraded dictionary generation method and apparatus |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2631168C2 (ru) * | 2013-06-18 | 2017-09-19 | Общество с ограниченной ответственностью "Аби Девелопмент" | Способы и устройства, которые преобразуют изображения документов в электронные документы с использованием trie-структуры данных, содержащей непараметризованные символы для определения слов и морфем на изображении документа |
RU2556461C2 (ru) * | 2013-11-18 | 2015-07-10 | Закрытое акционерное общество "ИнфоВотч" | Способ автоматизированного поиска эталонных печатей |
RU2641452C2 (ru) * | 2013-12-18 | 2018-01-17 | ООО "Аби Девелопмент" | Неполные эталоны |
RU2605078C2 (ru) * | 2015-01-27 | 2016-12-20 | Общество с ограниченной ответственностью "Аби Девелопмент" | Сегментация изображения для верификации данных |
RU2657181C1 (ru) * | 2017-09-01 | 2018-06-08 | Общество с ограниченной ответственностью "Аби Продакшн" | Способ улучшения качества распознавания отдельного кадра |
RU2721186C1 (ru) * | 2019-07-22 | 2020-05-18 | Общество с ограниченной ответственностью "Аби Продакшн" | Оптическое распознавание символов документов с некопланарными областями |
US11699294B2 (en) | 2019-07-22 | 2023-07-11 | Abbyy Development Inc. | Optical character recognition of documents having non-coplanar regions |
Also Published As
Publication number | Publication date |
---|---|
US20100303356A1 (en) | 2010-12-02 |
EP2220590A1 (en) | 2010-08-25 |
WO2009070032A1 (en) | 2009-06-04 |
US8467614B2 (en) | 2013-06-18 |
RU2010125821A (ru) | 2012-01-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2445699C1 (ru) | Способ обработки данных оптического распознавания символов (ocr), где выходные данные включают в себя изображения символов с нарушенной видимостью | |
CN110766014B (zh) | 票据信息定位方法、系统及计算机可读存储介质 | |
CN110516208B (zh) | 一种针对pdf文档表格提取的系统及方法 | |
Al-Zaidy et al. | Automatic extraction of data from bar charts | |
US8442319B2 (en) | System and method for classifying connected groups of foreground pixels in scanned document images according to the type of marking | |
CN104966051B (zh) | 一种文档图像的版式识别方法 | |
CN110503054B (zh) | 文本图像的处理方法及装置 | |
Gebhardt et al. | Document authentication using printing technique features and unsupervised anomaly detection | |
Ramel et al. | User-driven page layout analysis of historical printed books | |
van Beusekom et al. | Automatic authentication of color laser print-outs using machine identification codes | |
CN111192346B (zh) | 电子菜单生成方法、装置和设备 | |
CN112241730A (zh) | 一种基于机器学习的表格提取方法和系统 | |
RU2581786C1 (ru) | Определение преобразований изображения для повышения качества оптического распознавания символов | |
RU2259592C2 (ru) | Способ распознавания графических объектов с использованием принципа целостности | |
CN113673294B (zh) | 文献关键信息的提取方法、装置、计算机设备和存储介质 | |
Li et al. | Integrated text and line-art extraction from a topographic map | |
RU2436156C1 (ru) | Способ разрешения противоречивых выходных данных из системы оптического распознавания символов (ocr), где выходные данные включают в себя более одной альтернативы распознавания изображения символа | |
KR101781351B1 (ko) | 위변조 여권 검사 방법 및 그 기록매체 | |
Din et al. | Line and ligature segmentation in printed Urdu document images | |
Yang et al. | Automatic single page-based algorithms for medieval manuscript analysis | |
JP2008028716A (ja) | 画像処理方法及び装置 | |
Zhang et al. | Computational method for calligraphic style representation and classification | |
Höhn | Detecting arbitrarily oriented text labels in early maps | |
RU2439700C1 (ru) | Способ обработки выходных данных оптического распознавания символов (ocr), где выходные данные содержат изображения дважды отпечатанных символов | |
Biswas et al. | Text extraction from scanned land map images |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
MM4A | The patent is invalid due to non-payment of fees |
Effective date: 20161122 |