[go: up one dir, main page]

CN101017479A - 一种自动识别数字文档版心的方法 - Google Patents

一种自动识别数字文档版心的方法 Download PDF

Info

Publication number
CN101017479A
CN101017479A CN 200710063772 CN200710063772A CN101017479A CN 101017479 A CN101017479 A CN 101017479A CN 200710063772 CN200710063772 CN 200710063772 CN 200710063772 A CN200710063772 A CN 200710063772A CN 101017479 A CN101017479 A CN 101017479A
Authority
CN
China
Prior art keywords
page
max
literal
coordinate
font
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN 200710063772
Other languages
English (en)
Other versions
CN100552670C (zh
Inventor
高良才
汤帜
贾爱霞
王长桥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
LIDE TECHNOLOGY DEVELOPMENT CO LTD
Peking University
Peking University Founder Group Co Ltd
Founder Apabi Technology Ltd
Original Assignee
Peking University
Peking University Founder Group Co Ltd
Beijing Founder Apabi Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University, Peking University Founder Group Co Ltd, Beijing Founder Apabi Technology Co Ltd filed Critical Peking University
Priority to CNB200710063772XA priority Critical patent/CN100552670C/zh
Publication of CN101017479A publication Critical patent/CN101017479A/zh
Application granted granted Critical
Publication of CN100552670C publication Critical patent/CN100552670C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

本发明涉及一种自动识别数字文档版心的方法,属于文档处理技术领域。随着数字文档的广泛应用,对数字文档版心的识别技术也要求越来越精确,但是现有的技术,均是通过手工操作来完成数字文档的版心的识别,效率低下,特别是当数字文档的数据量很大而又排版不规则时,需要人工一页一页的去确定版心,非常不方便。本发明所述的方法,当输入一个含有版式信息的数字文档时,根据页眉、页脚的特征信息、主体字体的识别和多页间重复度的计算,自动识别出数字文档的版心。采用本发明所述的方法,能够高效准确的识别数字文档的版心,为数字文档的进一步加工和应用提供了良好的基础。

Description

一种自动识别数字文档版心的方法
技术领域
本发明属于文档处理技术领域,具体涉及一种自动识别数字文档版心的方法。
背景技术
计算机技术的迅速发展,使得数字文档的应用也越来越广泛,常用的数字文档如电子图书、电子报、电子期刊、电子公文等,特别是随着数字图书馆的建设、网络阅读、网络办公的广泛应用,数字文档的需求量也随之越来越大,这要求数字文档的制作过程要省时高效,而版心的识别将有利于加速这一过程,所述的版心是指文档正文的排版区域。而且,为了提供更方便的数字文档检索、索引等服务,需要对数字文档进行深加工,建立文档的索引库,再现文档的逻辑结构,而版心的识别,可以对文档进行比较准确的定位,将有助于提高文档深加工的质量和速度,便于对版面进行管理。
当前,数字文档不仅广泛应用于网络,而且数字文档的阅读已经开始广泛应用于手机等手持设备,由于受这些手持设备的屏幕小、存储量小等条件的限制,需要对数字文档进行精简和重新布局,从而出现了在阅读时能够根据显示设备屏幕大小进行自动排版的流式文档,而在这一过程中,把含有丰富版式信息的版式文档,转化为流式文档,需要首先确定数字文档的版心区域,再把版心区域内的元素改为流式文档中的元素。
由上述描述可见,对数字文档而言,其版心的确定对于很多方面如数字文档的制作、深加工及不同格式的数字文档的转换都是非常重要的,但在现有技术中,在确定数字文档的版心时,由人工逐页查看数字文档的排版,再人为的指定版心区域,然后进行数字文档制作的其他操作,效率很低,严重制约了数字文档的制作速度,满足不了对数字文档尤其是电子书的批量制作。
本发明中所述的数字文档,要满足如下条件:能按页读取数字文档,能获取数字文档中每页的文字,能获取每个字在页面的坐标;能获取每个字的字体信息(字体类型,字号,风格),通常这些信息在一般的PDF文档和方正公司制作的CEB格式的数字文档等中,均能够获取。
发明内容
本发明的目的是提供一种自动识别数字文档版心的方法,采用该方法能够在处理含有版式信息的数字文档时,不需要人工干预即可获得数字文档的版心坐标,为数字文档的进一步处理和加工提供参考信息。
为达到以上目的,本发明采用的技术方案是:一种自动识别数字文档版心的方法,包括以下步骤:
(1)读入数字文档,确定数字文档的主体字体,所述的主体字体是指在数字文档中占主体地位,使用频率最高的文字的字体;
(2)利用步骤(1)中得到的数字文档的主体字体,计算出第一个参考版心的坐标;
(3)计算重复度,即比较数字文档中两页或两页以上之间相对应位置的文字元素的相似程度,计算出第二个参考版心的坐标;
(4)根据步骤(2)中得到的第一个参考版心的坐标和步骤(3)中得到的第二个参考版心的坐标,进行折中处理,确定最终的数字文档版心坐标。
进一步,为使本发明获得更好的发明效果,步骤(1)中,确定主体字体时,采用的方法如下:
a)数字文档的总页数为T,T为自然数,随机抽取出数字文档的N页中每一个文字,T≥N≥2,N为自然数,然后统计相同类型的每种字体的出现频率,所述的相同类型的字体是指字体类型、字体大小、字体风格均相同的字体;
b)将出现频率最大的字体,作为主体字体;
更进一步,随机抽取出数字文档的N页中每一个文字时,N的取值范围为:T≥N≥10。
进一步,为使本发明获得更好的发明效果,步骤(2)中,利用主体字体,计算版心坐标时,采用的方法如下:
a)从数字文档中随机抽取出一页,假定页号为P,P为自然数;
b)以该页即步骤a)中抽取出的第P页的左上顶点为坐标原点,记为(0,0,0,0),向右、向下延伸,计算该页内所有字体为主体字体的文字的坐标,确定文字坐标的方法为:先确定文字的最小外接矩形框,称为文字方块,文字最小外接矩形框的坐标值(x1,y1,x2,y2)即是该文字的相应坐标值,x1为文字方块的左上顶点的横坐标,y1为文字方块的左上顶点的纵坐标,x2为文字方块的右下顶点的横坐标,y2为文字方块的右下顶点的纵坐标,通过逐个比较主体字体文字的坐标,得出主体字体在该页面内出现的最小的左边界和上边界,最大的右边界和下边界,记为四元组F(xmin,ymin,xmax,ymax),其中xmin为最小左边界即距离坐标原点水平距离最小的主体字体文字横坐标x1的值,ymin为最小上边界即距离坐标原点垂直距离最小的主体字体文字纵坐标y1的值,xmax为最大右边界即距离坐标原点水平距离最大的主体字体文字横坐标x2的值,ymax为最大下边界即距离坐标原点垂直距离最大的主体字体文字的纵坐标y2的值;
c)重复步骤a),步骤b),连续M次,M为自然数,T≥M≥2,每次抽取的页号均与第一次抽取的页号P同为奇数或偶数,然后选取出现次数最多的四元组F(xmin,ymin,xmax,ymax),即为利用主体字体方法得出的第一个参考版心F(xmin,ymin,xmax,ymax);
更进一步,步骤c)中,M的取值范围为T≥M≥20;
进一步,为使本发明获得更好的发明效果,步骤(3)中,利用重复度计算版心时,采用的方法如下:
a)从数字文档中随机抽取出一页,假定页号为p,p与P同为奇数或偶数,p为自然数,T-2≥p≥3;
b)对步骤a)中抽取出的第p页文档进行预处理,首先以该页的左上顶点为坐标原点,记为(0,0,0,0),向右、向下延伸,计算出该页内所有文字的坐标(x1,y1,x2,y2);
c)文字合并成行:根据步骤b)中确定的文字坐标(x1,y1,x2,y2),将满足下列条件的文字划分到同一行中:文字坐标y2的差值小于或等于主体字体文字的字高;然后确定合并后的文字行的坐标,方法与文字坐标的确定类似,先获得合并后文字行的最小外接矩形框,该最小外接矩形框的坐标即为文字行的坐标,表示为(X1,Y1,X2,Y2),X1为文字行最小外接矩形框左上顶点的横坐标,Y1为文字行最小外接矩形框左上顶点的纵坐标,X2为文字行最小外接矩形框右下顶点的横坐标,Y2为文字行最小外接矩形框右下顶点的纵坐标;
d)行排序:对步骤c)中得到的文字行,根据行的坐标值Y2的大小由大到小或者由小到大进行排序,形成文字行的队列;
e)从数字文档中取p之后的第2页,即第p+2页,重复步骤b),步骤c)和步骤d),然后得到第p+2页内的所有文字坐标,然后进行合并成行和行排序,形成第p+2页的文字行的队列;
f)从上述的第p页和第p+2页中,各取出文字行对列中相对应的第i行,i为自然数,计算两页之间的第i行之间的综合重复度R1
g)从数字文档中取p之前的第2页,即第p-2页,重复步骤b),步骤c),步骤d);步骤f),计算出第p页的第i行与第p-2页的第i行两行之间的综合重复度R2
h)计算R1和R2的平均值R(1)=(R1+R2)/2;
i)重复步骤a)-步骤h)总计L次,L为自然数,然后将每一次的计算结果R(t)加入S,即S=∑R(t),其中,t为自然数,t=1,2,3...L;
j)计算重复度平均值W,W=S/L,如果W≥q,q是阈值,q为正实数,则判定第i行是页眉部分,继续进入步骤k);如果W<q,则判定第i行与第i-1行之间的位置,即是版心区域上边界的开始位置;
k)在步骤f)中取文字行队列中第i+1行,重复步骤a)至步骤j),直到第i+1行的W小于q,则第i+1行和第i行之间的位置,即为版心区域上边界的开始位置;
l)与步骤j)、步骤k)的方法类似,同理,在步骤f)中,从文字行队列的尾部开始重新计数取第i行,重复步骤a)-步骤j),如果W≥q,则判定第i行是页脚部分,然后继续计算第i+1行,直到i+1行的W小于q,则第i+1行和第i行之间的位置,即为版心区域下边界的开始位置;如果第i行的W小于q,则直接判定在第i-1行和第i行之间的位置,即为版心区域下边界的开始位置;
m)计算版心的左右边界时,为了能够利用版心区域的上边界和下边界的计算方法来计算版心的左边界和右边界,此种情况,对数字文档处理如下:将数字文档中的文字坐标顺时针旋转90度,然后水平翻转180度(即坐标变换,左->上,右->下,上->左,下->右);
n)重复上面的步骤a)-步骤l),所得上边界值就是版心的左边界值,下边界值就是版心的右边界值;
o)经过上述步骤,得到了版心的左边界值、上边界值、右边界值和下边界值,即确定了第二个参考版心坐标H(xmin,ymin,xmax,ymax)。
更进一步,步骤f)中,计算两页的第i行之间的综合重复度R1,具体方法如下:
1)计算第p页的第i行与第p+2页的第i行这两行之间的位置重合程度Q1,Q1=((两行间左边界之差+两行间右边界之差)/两行的长度之和)+(两行间上边界之差+两行间下边界之差)/两行的高度之和))/2;
2)计算第p页的第i行与第p+2页的第i行这两行之间的文字内容重合程度Q2,Q2=两行的对应位置次序的内容相同的字的个数/两行的文字个数之和×2;
3)第p页的第i行与第p+2页的第i行这两行之间的字体属性重合程度Q3,Q3=两行的对应位置次序的相同字体的字的个数/两行的文字个数之和×2;
4)加权计算第p页的第i行与第p+2页的第i行这两行之间的综合重复度R1,R1=((1.0-Q1)×m+Q2×n+Q3×k)/(m+n+k),其中m,n,k表示加权系数,m,n,k均为自然数;
同理,综合重复度R2的计算方法与上述方法类似。
更进一步,步骤i)中,L的取值范围为大于或者等于30;
进一步,为使本发明获得更好的发明效果,步骤(4)中,进行版心的折中确定时,采用的方法如下:
利用主体字体求出的第一个参考版心F(xmin,ymin,xmax,ymax)和利用重复度计算得出的第二个参考版心H(xmin,ymin,xmax,ymax),进行折中处理即对两个版心的坐标进行加权计算,确定最终的数字文档版心E(xmin,ymin,xmax,ymax)的方法如下:
a)如果H(xmin,ymiN,xmax,ymax)的某个边界不存在,即在此边界方向上不存在页眉页脚区域,则E(xmin,ymin,xmax,ymax)的该边界值取F(xmin,ymin,xmax,ymax)的对应边界值;
b)如果F(xmin,ymin,xmax,ymax)的某个边界被H(xmin,ymin,xmax,ymax)的相应边界包围,那么最终版心相应的此边界的确定方法为:E(xmin,ymin,xmax,ymax)的此边界值=H(xmin,ymin,xmax,ymax)的边界值×C+F(xmin,ymin,xmax,ymax)的对应边界值×(1-C),其中C为小于1的正实数即加权系数;
c)除步骤a)和步骤b)的上述两种情况外,E(xmin,ymin,xmax,ymax)的边界值(即左边界、右边界、上边界和下边界)取H(xmin,ymin,xmax,ymax)的相应边界值。
本发明的效果在于:采用本发明所述的方法,能够高效准确的自动识别数字文档的版心,为数字文档的进一步加工和应用提供了良好的基础。
附图说明
图1是本发明所述方法的流程图;
图2是利用重复度计算数字文档第二个参考版心的流程图;
图3是确定页面坐标、文字坐标及文字行坐标的示意图。
具体实施方式
下面结合附图及实施例对本发明作进一步的描述:
本实施例以数字文档中电子图书的版心识别为例,结合附图说明本发明所述的自动识别数字文档版心的方法,本实施例中采用电子图书《王选的世界》(上海科学技术出版社,丛中笑著)为例,该电子图书共有277页,16开本双面印刷,如图1和图2所示,自动识别该电子图书版心的方法具体如下:
(1)读入数字文档,确定数字文档的主体字体,所述的主体字体是指在数字文档中占主体地位,使用频率最高的文字的字体;
本实施例中确定主体字体时,采用的方法如下:
a)数字文档的总页数为T,T为自然数,随机抽取出数字文档的N页中每一个文字,T≥N≥2,N为自然数,然后统计相同类型的每种字体的出现频率,所述的相同类型的字体是指字体类型、字体大小、字体风格均相同的字体;
b)将出现频率最大的字体,作为主体字体;
本实施例中,数字文档的总页数为277页,随机抽取出数字文档的N页中每一个文字,本实施例中N=15,即随机抽取出数字文档的15页,然后统计这15页中相同类型即字体大小、字体类型、字体风格相同的每种字体的出现频率,统计后得出如下结果:宋体,宽度10.5磅,高度10.5磅,黑色,Normal(字体风格))的字体出现次数为5542,其出现频率最大,远远高于别的字体,因此该字体(宋体,宽度10.5磅,高度10.5磅,黑色,Normal)即被作为本书的主体字体,该结论与本书实际的主体字体(宋体,宽度10.5磅,高度10.5磅,黑色,Normal),完全匹配;
(2)利用步骤(1)中得到的数字文档的主体字体,计算出第一个参考版心的坐标;
本实施例中,如无特殊说明,确定坐标值时,其单位均为磅;本步骤中利用主体字体计算版心坐标的方法具体如下:
a)从数字文档中随机抽取出一页,假定页号为P,本实施例中随机抽取的是偶数页;
b)以该页即步骤a)中抽取出的第P页的左上顶点为坐标原点,记为(0,0,0,0),由于通常的读书习惯是自左至右、自上而下,因此选取该页的左上顶点为坐标原点,如图3所示,页面的坐标原点为该页的左上顶点,记为(0,0,0,0),然后向右、向下延伸,所有的坐标值均为正数,计算该页内所有字体为主体字体的文字的坐标,由于中国的汉字为方块字,因此在确定文字的坐标时需用2组坐标值来描述,具体方法为:先确定文字的最小外接矩形框,称为文字方块,文字最小外接矩形框的坐标值(x1,y1,x2,y2)即是该文字的相应坐标值,如图3所示,文字“版”  的最小外接矩形框的坐标值即是该“版”字的坐标值,记为(x1,y1,x2,y2),x1为文字方块的左上顶点的横坐标即水平方向上距坐标原点的距离,y1为文字方块的左上顶点的纵坐标即垂直方向上距坐标原点的距离,x2为文字方块的右下顶点的横坐标即水平方向上距坐标原点的距离,y2为文字方块的右下顶点的纵坐标即垂直方向上距坐标原点的距离,这样即可确定该页面内所有字体为主体字体的文字的坐标,从而得出主体字体在该页面内出现的最小的左边界和上边界,最大的右边界和下边界,记为四元组F(xmin,ymin,xmax,ymax),其中xmin为最小左边界即距离坐标原点水平距离最小的主体字体文字横坐标x1的值,ymin为最小上边界即距离坐标原点垂直距离最小的主体字体文字纵坐标y1的值,xmax为最大右边界即距离坐标原点水平距离最大的主体字体文字横坐标x2的值,ymax为最大下边界即距离坐标原点垂直距离最大的主体字体文字纵坐标y2的值;
c)重复步骤a),步骤b)连续M次,每次抽取的页号均与第一次抽取的页号P同为偶数,本实施例中取M=30,即需要连续计算当P随机抽取为第12,34,76,48,110,212,94,16,218,120,22,154,126,228,130,82,74,56,18,20,142,164,46,238,90,162,154,164,98,60页时,共计30次,统计每一页中主体字体在该页面内出现的最小的左边界和上边界、最大的右边界和下边界即四元组F(xmin,ymin,xmax,ymax),然后选取出现次数最多的四元组F(xmin,ymin,xmax,ymax),本实施例中四元组F(113,81,387,613)(单位为磅,以下同,不再注明)的出现次数为24次,次数最多,该四元组F(113,81,387,613)就是利用主体字体方法得出的版心,这与本书的实际版心(108,76,393,618)匹配(两区域的边界之间如果是空白区域,则认为两区域匹配);
(3)计算重复度,即比较数字文档中两页或两页以上之间相对应位置的文字元素的相似程度,计算出第二个参考版心的坐标;即根据文档中页间重复度的计算,从而确定页眉、页脚的位置,页眉和页脚包围的区域即是版心区域;
本实施例中,利用重复度计算版心时,采用的方法如下:
a)从数字文档中随机抽取出一页,假定页号为p,p与P同为奇数或偶数,由于步骤(2)中利用主体文字计算第一个参考版心时抽数的是偶数页,因此本步骤中随机抽取的也是偶数页;
b)对步骤a)中抽取出的第p页文档进行预处理,首先以该页的左上顶点为坐标原点,记为(0,0,0,0),向右、向下延伸,计算出该页内所有文字的坐标(x1,y1,x2,y2),确定该页内每个字的坐标位置;
c)文字合并成行:根据步骤b)中确定的文字坐标(x1,y1,x2,y2),将满足下列条件的文字划分到同一行中:文字坐标y2的差值小于或等于主体字体文字的字高;然后确定合并后的文字行的坐标,方法与文字坐标的确定类似,先获得合并后文字行的最小外接矩形框,该最小外接矩形框的坐标即为文字行的坐标,表示为(X1,Y1,X2,Y2),如图3所示,文字行“汉字激光照排系统,王选科研”的最小外接矩形框的坐标值即是该文字行的坐标值,记为(X1,Y1,X2,Y2),X1为文字行最小外接矩形框左上顶点的横坐标,Y1为文字行最小外接矩形框左上顶点的纵坐标,X2为文字行最小外接矩形框右下顶点的横坐标,Y2为文字行最小外接矩形框右下顶点的纵坐标;
d)行排序:对步骤c)中得到的文字行,根据行的坐标值Y2的大小由大到小或者由小到大进行排序,形成文字行的队列;
e)从数字文档中取p之后的第2页,即第p+2页,重复步骤b),步骤c)和步骤d),然后得到第p+2页内的所有文字的坐标,然后进行合并成行和行排序,形成第p+2页的文字行的队列;
f)从上述的第p页和第p+2页中,各取出文字行队列中相对应的第i行,i为自然数,计算两页之间的第i行之间的综合重复度R1,具体方法如下:
1)计算第p页的第i行与第p+2页的第i行这两行之间的位置重合程度Q1,Q1=((两行间左边界之差+两行间右边界之差)/两行的长度之和)+(两行间上边界之差+两行间下边界之差)/两行的高度之和))/2;所述的行边界与文字边界的含义类似,即行的左边界、上边界、右边界、下边界对应行的坐标值(X1,Y1,X2,Y2);
2)计算第p页的第i行与第p+2页的第i行这两行之间的文字内容重合程度Q2,Q2=两行的对应位置次序的内容相同的字的个数/两行的文字个数之和×2;
3)第p页的第i行与第p+2页的第i行这两行之间的字体属性重合程度Q3,Q3=:两行的对应位置次序的相同字体的字的个数/两行的文字个数之和×2;
4)加权计算第p页的第i行与第p+2页的第i行这两行之间的综合重复度R1,R1=((1.0-Q1)×m+Q2×n+Q3×k)/(m+n+k),其中m,n,k表示加权系数,m,n,k均为自然数;
g)从数字文档中取p之前的第2页,即第p-2页,重复步骤b),步骤c),步骤d);步骤f),计算出第p页的第i行与第p-2页的第i行两行之间的位置重合程度、文字内容重合程度和字体属性重合程度,从而得到综合重复度R2
h)计算R1和R2的平均值R(1)=(R1+R2)/2;
i)重复步骤a)-步骤h)总计L次,本实施例中,L=10,然后将每一次的计算结果R(t)加入S,S=∑R(t),即t=1,2,3,4,5,6,7,8,9,10;
j)计算重复度平均值W,W=S/L,如果W≥q,q是阈值,q为正实数,则判定第i行是页眉部分,继续进入步骤k);如果W<q,则判定第i行与第i-1行之间的位置,即是版心区域上边界的开始位置,本实施例中,取q=0.85,当i=1时即计算第一行时,W=0.13,小于q,此时作为一种特例,直接认为本书的页面上部即上边界处没有页眉,并且记录下来,给予相应的标记为V1
k)由于经过步骤j),确定本书的页面上部没有页眉,因此在本实施例中,本步骤不需进行;
l)与步骤j)、步骤k)的方法类似,同理,在步骤f)中,从文字行队列的尾部开始重新计数取第i行,重复步骤a)-步骤j),如果W≥q,则判定第i行是页脚部分,然后继续计算第i+1行,直到i+1行的W小于q,则第i+1行和第i行之间的位置,即为版心区域下边界的开始位置;如果第i行的W小于q,则直接判定在第i-1行和第i行之间的位置,即为版心区域下边界的开始位置;本实施例中,从文字行队列的尾部开始重新计数,取第一行即文字行队列倒数第一行即i=1时,W=0.92,大于q=0.85,并且此时,文字行的Y1=625,Y2=636,据此,认定文字行队列倒数第一行为页脚部分;取第二行即文字行队列倒数第二行即i=2时,W=0.27,小于q=0.85,并且此时,文字行的Y2值为613,据此,即可认定文字行队列倒数第二行不是页脚区域,这样即可确定文字行队列倒数第一行和文字行队列倒数第二行之间的位置即第一行的上边界Y1=625和第二行的下边界Y2=613两者之间的位置即是版心下边界的开始位置,本实施例中,取625与613之间的数值即620处的位置,即是版心的下边界的坐标值;
m)计算版心的左右边界时,为了能够利用版心区域的上边界和下边界的计算方法来计算版心的左边界和右边界,此种情况,对数字文档处理如下:将数字文档中的文字坐标顺时针旋转90度,然后水平翻转180度(即坐标变换,左->上,右->下,上->左,下->右);
n)重复上面的步骤a)-步骤l),所得上边界值就是版心的左边界值,下边界值就是版心的右边界值;本实施例中,经过上述步骤后判断出旋转后的文字行队列的第一行和尾部第一行即倒数第一行均不是页眉页脚区域,即该书不存在左边界和右边界方向上的页眉页脚,这与本书的实际排版状况是相同的,由于左边界和右边界方向上不存在页眉和页脚,相应的标记为V2和V3
o)经过上述步骤,得到了版心的左边界值、上边界值、右边界值和下边界值(上边界值和下边界值是经地步骤a)和步骤l)得到,左边界值和右边界值是经过步骤m)和步骤n)旋转后得到),版心的左边界值、上边界值、右边界值和下边界值与版心坐标H(xmin,ymin,xmax,ymax)一一对应,从而据此确定了第二个参考版心坐标为H(V2,V1,V3,620)。
(4)根据步骤(2)中得到的第一个参考版心的坐标和步骤(3)中得到的第二个参考版心的坐标,进行折中处理即对两个版心的坐标进行加权计算,确定最终的数字文档版心坐标;
本实施例中,利用主体字体求出的第一个参考版心F(113,81,387,613),利用重复度计算得出的第二个参考版心H(V2,V1,V3,620),确定最终的文档版心E(xmin,ymin,xmax,ymax)的方法如下:
经过分析可以得出该电子书在上边界、左边界、右边界方向上不存在页眉页脚区域;F(113,81,387,613)的下边界值小于H(V2,V1,V3,620)的下边界值,则最终的文档版心E(xmin,ymin,xmax,ymax)确定如下:
E(xmin,ymin,xmax,ymax)的左边界值=F(113,81,387,613)的左边界值;
E(xmin,ymin,xmax,ymax)的右边界值=F(113,81,387,613)的右边界值;
E(xmin,ymin,xmax,ymax)的上边界值=F(113,81,387,613)的上边界值;
E(xmin,ymin,xmax,ymax)的下边界值=F(113,81,387,613)的下边界值×0.5+H(V2,V1,V3,620)的下边界值×0.5,即本实施例中加权系数C=0.5;
经过上述计算,得出该电子书的最终版心坐标为(113,81,387,616.5),这和实际的版心坐标(108,76,393,618)匹配,这是偶数页的版心,奇数页版心的计算方法类似。
本发明所述的方法并不限于具体实施方式中所述的实施例,本领域技术人员根据本发明的技术方案得出其他的实施方式,同样属于本发明的技术创新范围。

Claims (9)

1.一种自动识别数字文档版心的方法,包括如下步骤:
(1)读入数字文档,确定数字文档的主体字体,所述的主体字体是指在数字文档中占主体地位,使用频率最高的文字的字体;
(2)利用步骤(1)中得到的数字文档的主体字体,计算出第一个参考版心的坐标;
(3)计算重复度,即比较数字文档中两页或两页以上之间相对应位置的文字元素的相似程度,计算出第二个参考版心的坐标;
(4)根据步骤(2)中得到的第一个参考版心的坐标和步骤(3)中得到的第二个参考版心的坐标,进行折中处理,确定最终的数字文档的版心坐标。
2.如权利要求1所述的一种自动识别数字文档版心的方法,其特征在于:步骤(1)中,确定主体字体时,采用的方法如下:
a)数字文档的总页数为T,T为自然数,随机抽取出数字文档的N页中每一个文字,T≥N≥2,然后统计相同类型的每种字体的出现频率,所述的相同类型的字体是指字体类型、字体大小、字体风格均相同的字体;
b)将出现频率最大的字体,作为主体字体。
3.如权利要求2所述的一种自动识别数字文档版心的方法,其特征在于:随机抽取出数字文档的N页中每一个文字时,N的取值范围为:T≥N≥10。
4.如权利要求1、2或3所述的一种自动识别数字文档版心的方法,其特征在于:步骤(2)中,利用主体字体,计算版心坐标时,采用的方法如下:
a)从数字文档中随机抽取出一页,假定页号为P,P为自然数;
b)以该页即步骤a)中抽取出的第P页的左上顶点为坐标原点,记为(0,0,0,0),向右、向下延伸,计算该页内所有字体为主体字体的文字的坐标,确定文字坐标的方法为:先确定文字的最小外接矩形框,称为文字方块,文字最小外接矩形框的坐标值(x1,y1,x2,y2)即是该文字的相应坐标值,x1为文字方块的左上顶点的横坐标,y1为文字方块的左上顶点的纵坐标,x2为文字方块的右下顶点的横坐标,y2为文字方块的右下顶点的纵坐标,通过逐个比较主体字体文字的坐标,得出主体字体在该页面内出现的最小的左边界和上边界,最大的右边界和下边界,记为四元组F(xmin,ymin,xmax,ymax),其中xmin为最小左边界即距离坐标原点水平距离最小的主体字体文字横坐标x1的值,ymin为最小上边界即距离坐标原点垂直距离最小的主体字体文字纵坐标y1的值,xmax为最大右边界即距离坐标原点水平距离最大的主体字体文字横坐标x2的值,ymax为最大下边界即距离坐标原点垂直距离最大的主体字体文字的纵坐标y2的值;
c)重复步骤a),步骤b),连续M次,M为自然数,T≥M≥2,每次抽取的页号均与第一次抽取的页号P同为奇数或偶数,然后选取出现次数最多的四元组F(xmin,ymin,xmax,ymax),即为利用主体字体方法得出的第一个参考版心F(xmin,ymin,xmax,ymax)。
5.如权利要求4所述的一种自动识别数字文档版心的方法,其特征在于:M的取值范围为T≥M≥20。
6.如权利要求4所述的一种自动识别数字文档版心的方法,其特征在于:步骤(3)中,利用重复度计算版心时,采用的方法如下:
a)从数字文档中随机抽取出一页,假定页号为p,p与P同为奇数或偶数,p为自然数,T-2≥p≥3;
b)对步骤a)中抽取出的第p页文档进行预处理,首先以该页的左上顶点为坐标原点,记为(0,0,0,0),向右、向下延伸,计算出该页内所有文字的坐标(x1,y1,x2,y2);
c)文字合并成行:根据步骤b)中确定的文字坐标(x1,y1,x2,y2),将满足下列条件的文字划分到同一行中:文字坐标y2的差值小于或等于主体字体文字的字高;然后确定合并后的文字行的坐标,方法与文字坐标的确定类似,先获得合并后文字行的最小外接矩形框,该最小外接矩形框的坐标即为文字行的坐标,表示为(X1,Y1,X2,Y2),X1为文字行最小外接矩形框左上顶点的横坐标,Y1为文字行最小外接矩形框左上顶点的纵坐标,X2为文字行最小外接矩形框右下顶点的横坐标,Y2为文字行最小外接矩形框右下顶点的纵坐标;
d)行排序:对步骤c)中得到的文字行,根据行的坐标值Y2的大小由大到小或者由小到大进行排序,形成文字行的队列;
e)从数字文档中取p之后的第2页,即第p+2页,重复步骤b),步骤c)和步骤d),然后得到第p+2页内的所有文字坐标,然后进行合并成行和行排序,形成第p+2页的文字行的队列;
f)从上述的第p页和第p+2页,各取出文字行队列中相对应的第i行,i为自然数,计算两页之间的第i行之间的综合重复度R1
g)从数字文档中取p之前的第2页,即第p-2页,重复步骤b),步骤c),步骤d);步骤f),计算出第p页的第i行与第p-2页的第i行两行之间的综合重复度R2
h)计算R1和R2的平均值R(1)=(R1+R2)/2;
i)重复步骤a)-步骤h)总计L次,L为自然数,然后将每一次的计算结果R(t)加入S,即S=∑R(t),其中,t为自然数,t=1,2,3...L;
j)计算重复度平均值W,W=S/L,如果W≥q,q是阈值,q为正实数,则判定第i行是页眉部分,继续进入步骤k);如果W<q,则判定第i行与第i-1行之间的位置,即是版心区域上边界的开始位置;
k)在步骤f)中取文字行队列中第i+1行,重复步骤a)至步骤j),直到第i+1行的W小于q,则第i+1行和第i行之间的位置,即为版心区域上边界的开始位置;
1)与步骤j)、步骤k)的方法类似,同理,在步骤f)中,从文字行队列的尾部开始重新计数取第i行,重复步骤a)-步骤j),如果W≥q,则判定第i行是页脚部分,然后继续计算第i+1行,直到i+1行的W小于q,则第i+1行和第i行之间的位置,即为版心区域下边界的开始位置;如果第i行的W小于q,则直接判定在第i-1行和第i行之间的位置,即为版心区域下边界的开始位置;
m)计算版心的左右边界时,为了能够利用版心区域的上边界和下边界的计算方法来计算版心的左边界和右边界,此种情况,对数字文档处理如下:将数字文档中的文字坐标顺时针旋转90度,然后水平翻转180度,即进行如下的坐标变换,左→上,右→下,上→左,下→右;
n)重复上面的步骤a)-步骤1),所得上边界值就是版心的左边界值,下边界值就是版心的右边界值;
o)经过上述步骤,得到了版心的左边界值、上边界值、右边界值和下边界值,即确定了第二个参考版心坐标H(xmin,ymin,xmax,ymax)。
7.如权利要求6所述的一种自动识别数字文档版心的方法,其特征在于:步骤f)中,计算两页的第i行之间的综合重复度R1,具体方法如下:
1)计算第p页的第i行与第p+2页的第i行这两行之间的位置重合程度Q1,Q1=((两行间左边界之差+两行间右边界之差)/两行的长度之和)+(两行间上边界之差+两行间下边界之差)/两行的高度之和))/2;
2)计算第p页的第i行与第p+2页的第i行这两行之间的文字内容重合程度Q2,Q2=两行的对应位置次序的内容相同的字的个数/两行的文字个数之和×2;
3)第p页的第i行与第p+2页的第i行这两行之间的字体属性重合程度Q3,Q3=两行的对应位置次序的相同字体的字的个数/两行的文字个数之和×2;
4)加权计算第p页的第i行与第p+2页的第i行这两行之间的综合重复度R1,R1=((1.0-Q1)×m+Q2×n+Q3×k)/(m+n+k),其中m,n,k表示加权系数,m,n,k均为自然数;
同理,综合重复度R2的计算方法与上述方法类似。
8.如权利要求6所述的一种自动识别数字文档版心的方法,其特征在于:步骤i)中,L的取值范围为大于或者等于30。
9.如权利要求1、2或3所述的一种自动识别数字文档版心的方法,其特征在于:步骤(4)中,利用主体字体求出的第一个参考版心F(xmin,ymin,xmax,ymax)和利用重复度计算得出的第二个参考版心H(xmin,ymin,xmax,ymax),进行折中处理,确定最终的文档版心E(xmin,ymin,xmax,ymax)的方法如下:
a)如果H(xmin,ymin,xmax,ymax)的某个边界不存在,即在此边界方向上,不存在页眉页脚区域,则E(xmin,ymin,xmax,ymax)的该边界值取F(xmin,ymin,xmax,ymax)的对应边界值;
b)如果F(xmin,ymin,xmax,ymax)的某个边界被H(xmin,ymin,xmax,ymax)的相应边界包围,那么最终版心相应的此边界的确定方法为:E(xmin,ymin,xmax,ymax)的此边界值=H(xmin,ymin,xmax,ymax)的边界值×C+F(xmin,ymin,xmax,ymax)的对应边界值×(1-C),其中C为小于1的正实数;
c)除步骤a)和步骤b)的上述两种情况外,E(xmin,ymin,xmax,ymax)的边界值取H(xmin,ymin,xmax,ymax)的相应边界值。
CNB200710063772XA 2007-02-09 2007-02-09 一种自动识别数字文档版心的方法 Expired - Fee Related CN100552670C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNB200710063772XA CN100552670C (zh) 2007-02-09 2007-02-09 一种自动识别数字文档版心的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB200710063772XA CN100552670C (zh) 2007-02-09 2007-02-09 一种自动识别数字文档版心的方法

Publications (2)

Publication Number Publication Date
CN101017479A true CN101017479A (zh) 2007-08-15
CN100552670C CN100552670C (zh) 2009-10-21

Family

ID=38726498

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB200710063772XA Expired - Fee Related CN100552670C (zh) 2007-02-09 2007-02-09 一种自动识别数字文档版心的方法

Country Status (1)

Country Link
CN (1) CN100552670C (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102081732A (zh) * 2010-12-29 2011-06-01 方正国际软件有限公司 一种版式识别模板方法及系统
CN104951429A (zh) * 2014-03-26 2015-09-30 阿里巴巴集团控股有限公司 版式电子文档的页眉页脚识别方法及装置
CN105095243A (zh) * 2014-05-04 2015-11-25 北大方正集团有限公司 页面展示装置和页面展示方法
CN105159645A (zh) * 2015-10-19 2015-12-16 华中师范大学 一种移动端唐诗自适应布局方法
CN107169486A (zh) * 2017-05-12 2017-09-15 掌阅科技股份有限公司 文本版心识别方法、电子设备及计算机存储介质
CN108733643A (zh) * 2017-04-25 2018-11-02 北大方正集团有限公司 基于版心的pdf文件对比的方法及系统
CN113033360A (zh) * 2021-03-12 2021-06-25 理光图像技术(上海)有限公司 文档图像识别装置及方法
CN113253888A (zh) * 2021-05-06 2021-08-13 广州文石信息科技有限公司 版式文档奇偶页显示调整方法、装置、设备及存储介质

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102081732A (zh) * 2010-12-29 2011-06-01 方正国际软件有限公司 一种版式识别模板方法及系统
CN102081732B (zh) * 2010-12-29 2013-06-05 方正国际软件有限公司 一种版式识别模板方法及系统
CN104951429A (zh) * 2014-03-26 2015-09-30 阿里巴巴集团控股有限公司 版式电子文档的页眉页脚识别方法及装置
CN105095243A (zh) * 2014-05-04 2015-11-25 北大方正集团有限公司 页面展示装置和页面展示方法
CN105095243B (zh) * 2014-05-04 2018-09-18 北大方正集团有限公司 页面展示装置和页面展示方法
CN105159645A (zh) * 2015-10-19 2015-12-16 华中师范大学 一种移动端唐诗自适应布局方法
CN105159645B (zh) * 2015-10-19 2017-12-12 华中师范大学 一种移动端唐诗自适应布局方法
CN108733643A (zh) * 2017-04-25 2018-11-02 北大方正集团有限公司 基于版心的pdf文件对比的方法及系统
CN107169486A (zh) * 2017-05-12 2017-09-15 掌阅科技股份有限公司 文本版心识别方法、电子设备及计算机存储介质
CN107169486B (zh) * 2017-05-12 2018-06-15 掌阅科技股份有限公司 文本版心识别方法、电子设备及计算机存储介质
CN113033360A (zh) * 2021-03-12 2021-06-25 理光图像技术(上海)有限公司 文档图像识别装置及方法
CN113253888A (zh) * 2021-05-06 2021-08-13 广州文石信息科技有限公司 版式文档奇偶页显示调整方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN100552670C (zh) 2009-10-21

Similar Documents

Publication Publication Date Title
CN110968667B (zh) 一种基于文本状态特征的期刊文献表格抽取方法
CN101017479A (zh) 一种自动识别数字文档版心的方法
CN105930159B (zh) 一种基于图像的界面代码生成的方法及系统
CN102479173B (zh) 识别版面阅读顺序的方法及装置
US7995842B2 (en) System and method for binary persistence format for a recognition result lattice
US8838657B1 (en) Document fingerprints using block encoding of text
CN112446207B (zh) 标题生成方法、装置、电子设备及存储介质
CN110659527A (zh) 电子表单中的表格检测
CN103955543A (zh) 基于多模态的服装图像检索方法
CN102902826B (zh) 一种基于基准图像索引的图像快速检索方法
CN102262618A (zh) 一种版面信息识别的方法及装置
CN108763591A (zh) 一种网页正文提取方法、装置、计算机装置及计算机可读存储介质
KR102248823B1 (ko) 데이터 시각화 서비스 시스템, 방법 및 어플리케이션
CN107943956A (zh) 页面转换方法、装置和页面转换设备
JP2009193571A (ja) ウェブ・ページ・コンテンツを抽出するために用いられる方法および装置
EP2110758B1 (en) Searching method based on layout information
CN103970775A (zh) 一种基于对象空间位置关系的医学图像检索方法
CN110633660A (zh) 一种文档识别的方法、设备和存储介质
CN111488732A (zh) 一种变形关键词检测方法、系统及相关设备
CN102959538A (zh) 给文档编索引
US10803233B2 (en) Method and system of extracting structured data from a document
CN103473275A (zh) 一种采用多特征融合的图像自动标注方法和系统
CN103176956B (zh) 用于提取文档结构的方法和装置
CN104536947A (zh) 版式文档的处理方法及装置
CN106406560A (zh) 桌面操作系统中机械工程字符矢量字体输出方法和系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20090918

Address after: No. 5, the Summer Palace Road, Beijing, Haidian District: 100871

Co-patentee after: FOUNDER APABI TECHNOLOGY Ltd.

Patentee after: Peking University

Co-patentee after: PEKING UNIVERSITY FOUNDER GROUP Co.,Ltd.

Co-patentee after: Beijing Founder Foread Media Technology Co.,Ltd.

Address before: No. 5, the Summer Palace Road, Beijing, Haidian District: 100871

Co-patentee before: FOUNDER APABI TECHNOLOGY Ltd.

Patentee before: Peking University

Co-patentee before: PEKING UNIVERSITY FOUNDER GROUP Co.,Ltd.

ASS Succession or assignment of patent right

Owner name: BEIJING FOUNDER APABI TECHNOLOGY CO., LTD. BEIDA F

Free format text: FORMER OWNER: BEIJING FOUNDER APABI TECHNOLOGY CO., LTD. BEIDA FANGZHENG GROUP CO. LTD. BEIJING FOUNDER FEIYUE MEDIA TECHNOLOGY CO., LTD.

Effective date: 20120201

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20120201

Address after: 100871 Beijing the Summer Palace Road, Haidian District, No. 5

Co-patentee after: FOUNDER APABI TECHNOLOGY Ltd.

Patentee after: Peking University

Co-patentee after: PEKING UNIVERSITY FOUNDER GROUP Co.,Ltd.

Co-patentee after: Lide Technology Development Co.,Ltd.

Address before: 100871 Beijing the Summer Palace Road, Haidian District, No. 5

Co-patentee before: FOUNDER APABI TECHNOLOGY Ltd.

Patentee before: Peking University

Co-patentee before: PEKING UNIVERSITY FOUNDER GROUP Co.,Ltd.

Co-patentee before: Beijing Founder Foread Media Technology Co.,Ltd.

CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20091021

CF01 Termination of patent right due to non-payment of annual fee