[go: up one dir, main page]

CN106649246B - 一种断行方法及装置 - Google Patents

一种断行方法及装置 Download PDF

Info

Publication number
CN106649246B
CN106649246B CN201510729273.4A CN201510729273A CN106649246B CN 106649246 B CN106649246 B CN 106649246B CN 201510729273 A CN201510729273 A CN 201510729273A CN 106649246 B CN106649246 B CN 106649246B
Authority
CN
China
Prior art keywords
row
line
field
adjacent
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510729273.4A
Other languages
English (en)
Other versions
CN106649246A (zh
Inventor
刘建军
王学武
于芬芬
袁朝
任珊珊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhiwen Artificial Intelligence Software Technology Co ltd
Original Assignee
Founder International Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Founder International Beijing Co Ltd filed Critical Founder International Beijing Co Ltd
Priority to CN201510729273.4A priority Critical patent/CN106649246B/zh
Publication of CN106649246A publication Critical patent/CN106649246A/zh
Application granted granted Critical
Publication of CN106649246B publication Critical patent/CN106649246B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Orthopedics, Nursing, And Contraception (AREA)

Abstract

本发明涉及软件技术领域,尤其涉及一种断行方法及装置,用以解决现有技术中存在的对文本内容进行断行的方式无法根据文本内容中一行的语义进行智能断行的问题,该方法包括:针对已经断行排版的目标内容的一行,根据分词词库和/或预先设定的语法规则,确定该行中需要进行调整的目标字段和调整方式,然后根据确定的调整方式将该行中的目标字段调整到相邻的上一行最后面或下一行的最前面,从而可以基于分词词库和/预先设定的语法规则来调整每行的文本内容,使得每行的文本内容保持语义连贯和完整。

Description

一种断行方法及装置
技术领域
本发明软件技术领域,尤其涉及一种断行方法及装置。
背景技术
对于给定的文本内容,很多情况下在一行内无法排下,因此需要采取相应方式措施进行处理,对此,一般是进行换行处理,使其占据多行的位置,这样一来,换行位置的选择就是个问题,选择得当,读起来就自然得体,语义流畅,使得断行后的语义完整,使文本内容达到既美观又能语义完整的效果。
现有技术中,在对文本内容进行排版时,可通过以下两种方式进行断行:
方式一:根据一行最多允许显示的字数进行自动断行,即每行固定显示最多允许的字数;
方式二:手动的根据上下文语义进行回车断行。
上述两种断行方式均存在一定的缺陷,其中:
方式一:无法根据文本内容的语义进行智能断行,从而可能会破坏一行文本内容语义的完整性和美观性;
方式二:手动断行所消耗的时间比较多,浪费资源,并且断行效果因人而异,无法统一。
综上所述,现有技术中对文本内容进行断行的方式无法根据文本内容中一行的语义进行智能断行的问题。
发明内容
本发明提供一种断行方法及装置,用以解决现有技术中存在的对文本内容进行断行的方式无法根据文本内容中一行的语义进行智能断行的问题。
一方面,本申请实施例提供的一种断行方法,包括:
针对断行排版后目标内容的一行,根据分词词库和/或预先设定的语法规则,确定所述行中需要进行调整的目标字段和调整方式;
根据确定的所述调整方式,将所述行中的目标字段调整到相邻的上一行最后面或下一行的最前面。
本申请实施例提供的断行方法,针对已经断行排版的目标内容的一行,根据分词词库和/或预先设定的语法规则,确定该行中需要进行调整的目标字段和调整方式,然后根据确定的调整方式将该行中的目标字段调整到相邻的上一行最后面或下一行的最前面,从而可以基于分词词库和/预先设定的语法规则来调整每行的文本内容,使得每行的文本内容保持语义连贯和完整。
可选的,根据分词词库确定所述行中需要进行调整的目标字段和调整方式,包括:
若确定所述行的行尾的字段与相邻的下一行的行首的字段构成的词组属于所述分词词库,则确定目标字段为所述行的行尾的字段,以及确定调整方式为将所述目标字段移动至相邻的下一行的行首;或者
若确定所述行的行首的字段与相邻的上一行的行尾的字段构成的词组属于所述分词词库,则确定目标字段为所述行的行首的字段,以及确定调整方式为将所述目标字段移动至相邻的上一行的行首。
可选的,根据预先设定的语法规则,确定所述行中需要进行调整的目标字段和调整方式,包括:
若确定所述行的行尾的字段与相邻的下一行的行首的字段满足所述预先设定的语法规则,则确定目标字段为所述行的行尾的字段,以及确定调整方式为将所述目标字段移动至相邻的下一行的行首;或者
若确定所述行的行首的字段与相邻的上一行的行尾的字段满足所述预先设定的语法规则,则确定目标字段为所述行的行首的字段,以及确定调整方式为将所述目标字段移动至相邻的上一行的行尾。
可选的,根据确定的所述调整方式,将所述行中的目标字段调整到相邻的上一行最后面或下一行的最前面之前,还包括:
确定在根据所述调整方式将所述行中的目标字段调整到相邻的上一行最后面之后,相邻的上一行的字数不大于所述一行最多字数;或者
确定在根据所述调整方式将所述行中的目标字段调整到相邻的下一行最前面之后,相邻的下一行的字数不大于所述一行最多字数。
可选的,该方法还包括:
若确定在根据所述调整方式将所述行中的目标字段调整到相邻的上一行最后面后,相邻的上一行的字数大于所述一行最多字数,则确定相邻的上一行的调整方式及相邻的上一行目标字段,并根据所述相邻的上一行的调整方式调整所述相邻的上一行的目标字段;或者
若根据确定的所述调整方式,将所述行中的目标字段调整到相邻的下一行最前面后,相邻的下一行的字数大于所述一行最多字数,则确定相邻的下一行的调整方式及相邻的下一行的目标字段,并根据所述相邻的下一行的调整方式调整所述相邻的下一行的目标字段。
可选的,所述相邻的上一行目标字段为:位于相邻的上一行的行尾的字段,并且所述字段与所述行的行首的字段组成的词组属于分词词库,或者满足预先设定的语法规则;
所述调整方式为:将所述相邻的上一行目标字段移动至所述行的行首;
所述相邻的下一行目标字段为:位于相邻的下一行的行首的字段,并且所述字段与所述行的行尾的字段组成的词组属于分词词库,或者满足预先设定的语法规则;
所述调整方式为:将所述相邻的下一行目标字段移动至所述行的行尾。
另一方面,本申请实施例提供的一种断行装置,包括:
确定单元,用于针对断行排版后目标内容的一行,根据分词词库和/或预先设定的语法规则,确定所述行中需要进行调整的目标字段和调整方式;
调整单元,用于根据确定的所述调整方式,将所述行中的目标字段调整到相邻的上一行最后面或下一行的最前面。
可选的,所述确定单元,具体用于:
若确定所述行的行尾的字段与相邻的下一行的行首的字段构成的词组属于所述分词词库,则确定目标字段为所述行的行尾的字段,以及确定调整方式为将所述目标字段移动至相邻的下一行的行首;或者
若确定所述行的行首的字段与相邻的上一行的行尾的字段构成的词组属于所述分词词库,则确定目标字段为所述行的行首的字段,以及确定调整方式为将所述目标字段移动至相邻的上一行的行首。
可选的,所述确定单元,具体用于:
若确定所述行的行尾的字段与相邻的下一行的行首的字段满足所述预先设定的语法规则,则确定目标字段为所述行的行尾的字段,以及确定调整方式为将所述目标字段移动至相邻的下一行的行首;或者
若确定所述行的行首的字段与相邻的上一行的行尾的字段满足所述预先设定的语法规则,则确定目标字段为所述行的行首的字段,以及确定调整方式为将所述目标字段移动至相邻的上一行的行尾。
可选的,所述确定单元,具体用于:
若确定在根据所述调整方式将所述行中的目标字段调整到相邻的上一行最后面之后,相邻的上一行的字数不大于所述一行最多字数,则根据确定的所述调整方式,将所述行中的目标字段调整到相邻的上一行最后面或下一行的最前面;或者
若确定在根据所述调整方式将所述行中的目标字段调整到相邻的下一行最前面之后,相邻的下一行的字数不大于所述一行最多字数,则根据确定的所述调整方式,将所述行中的目标字段调整到相邻的上一行最后面或下一行的最前面。
可选的,所述确定单元,具体用于:
若确定在根据所述调整方式将所述行中的目标字段调整到相邻的上一行最后面后,相邻的上一行的字数大于所述一行最多字数,则确定相邻的上一行的调整方式及相邻的上一行目标字段,并根据所述相邻的上一行的调整方式调整所述相邻的上一行的目标字段;或者
若根据确定的所述调整方式,将所述行中的目标字段调整到相邻的下一行最前面后,相邻的下一行的字数大于所述一行最多字数,则确定相邻的下一行的调整方式及相邻的下一行的目标字段,并根据所述相邻的下一行的调整方式调整所述相邻的下一行的目标字段。
可选的,所述相邻的上一行目标字段为:位于相邻的上一行的行尾的字段,并且所述字段与所述行的行首的字段组成的词组属于分词词库,或者满足预先设定的语法规则;
所述调整方式为:将所述相邻的上一行目标字段移动至所述行的行首;
所述相邻的下一行目标字段为:位于相邻的下一行的行首的字段,并且所述字段与所述行的行尾的字段组成的词组属于分词词库,或者满足预先设定的语法规则;
所述调整方式为:将所述相邻的下一行目标字段移动至所述行的行尾。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的断行方法流程图;
图2为本发明实施例提供的断行方法详细流程图;
图3为本发明实施例提供的断行装置示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部份实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
本申请实施例提供的断行方法,针对已经断行排版的目标内容的一行,根据分词词库和/或预先设定的语法规则,确定该行中需要进行调整的目标字段和调整方式,然后根据确定的调整方式将该行中的目标字段调整到相邻的上一行最后面或下一行的最前面,从而可以基于分词词库和/预先设定的语法规则来调整每行的文本内容,使得每行的文本内容保持语义连贯和完整。
下面结合说明书附图对本申请实施例作进一步详细描述。
如图1所示,为本发明实施例提供的断行方法流程图,该方法由断行装置执行,包括:
步骤101、针对断行排版后目标内容的一行,根据分词词库和/或预先设定的语法规则,确定所述行中需要进行调整的目标字段和调整方式;
步骤102、根据确定的所述调整方式,将所述行中的目标字段调整到相邻的上一行最后面或下一行的最前面。
在步骤101中,断行排版后的目标内容可以是以某种方式进行断行排版后需要按照语义断行的方式重新进行排版的内容,例如,对一篇文章,首先按照传统的一行最多允许显示字数的方式进行断行排版后,为了语义理解方便,需要对其中的标题内容重新按照语义断行的方式进行重新排版,则这里的断行排版后的标题即为本发明中的目标内容;再比如,对一篇贺年卡中的祝贺词,首先将祝贺词按照某种形状,比如爱心型,排版成该形状的文字,然后需要对该排版后的所有文字内容按照语义断行的方式进行重新排版,则这里的断行排版后的所有文字内容即为本发明中的目标内容。
针对断行排版后目标内容的一行,具体地,首先根据分词词库和/或预先设定的语法规则,确定该行中需要进行调整的目标字段和调整方式。
其中需要特别说明的是,所有的行的调整方式必须是统一的,即必须都是基于分词词库以及调整行尾的目标字段的方式,或者都是基于分词词库以及调整行首的目标字段的方式,或者都是基于预先设定的语法规则以及调整行尾的目标字段的方式,或者都是基于预先设定的语法规则以及调整行首的目标字段的方式;另外也可以是基于分词词库以及调整行尾的目标字段的方式调整完之后,再通过基于预先设定的语法规则以及调整行尾的目标字段的方式,等等的组合。
分词词库包含可以组成完整含义的词组,词组来源可以是基于字典中的词语,也可以是通过人工更新至分词词库的词语,比如最新流行语,如“楼主”、“你懂的”等;或者是行业术语,如“调频”、“解码”等;或者是具有特定含义的缩写,如“审协”、“奥委会”等。通过不断更新,以保证可更精确地基于分词词库进行分词。
可选的,根据分词词库确定所述行中需要进行调整的目标字段和调整方式,包括:
若确定所述行的行尾的字段与相邻的下一行的行首的字段构成的词组属于所述分词词库,则确定目标字段为所述行的行尾的字段,以及确定调整方式为将所述目标字段移动至相邻的下一行的行首;或者
若确定所述行的行首的字段与相邻的上一行的行尾的字段构成的词组属于所述分词词库,则确定目标字段为所述行的行首的字段,以及确定调整方式为将所述目标字段移动至相邻的上一行的行首。
上述方法根据分词词库来确定一行中需要进行调整的目标字段和调整方式,其中包含两种方式:
方式一:针对每行的行尾的字段进行调整。
若确定一行的行尾的字段与相邻的下一行的行首的字段构成的词组属于分词词库,则确定目标字段为该行的行尾的字段,以及确定调整方式为将目标字段移动至相邻的下一行的行首。具体地,可基于分词词库,对一行的行尾的字段可采用逆向匹配算法,首先匹配本行的最后一个字“污”与下一行的行首的第一个字“泥”是否构成分词词库的词组,若是,则匹配结束,否则继续匹配,由于这里匹配的“污泥”是属于分词词库的词组,因此匹配成功。当然,假如初次匹配不成功,则继续向后匹配,例如假如“污泥”不是分词词库的词组,则使用“污”与“泥的”匹配,如果还不行,则继续使用“污”与“泥的再”匹配,以及使用“得污”与“泥”匹配,使用“所得污”与“泥”匹配等等,最终可以匹配成功。
例如,如表1所示,为移动行尾的目标字段至下一行首的示例。
Figure BDA0000835438290000081
表1 移动行尾的目标字段至下一行的行首
根据方式一,对表1中第一行进行调整,调整前的第一行的内容为“混凝法处理印染水所得污”,通过方式一,根据分词词库,可确定行尾的字段“污”与下一行的行首的字段“泥”可构成属于分词词库中的词语“污泥”,因此将第一行中的“污”确定为目标字段,并且确定调整方式为将目标字段“污”移动至相邻的下一行的的行首。
方式二:针对每行的行首的字段进行调整。
若确定一行的行首的字段与相邻的上一行的行尾的字段构成的词组属于分词词库,则确定目标字段为改行的行首的字段,以及确定调整方式为将该目标字段移动至相邻的上一行的行首。
还是以表1为例,根据方式二,对表1中第二行进行调整,调整前的第二行内容为“泥的再生利用研究”,通过方式二,根据分词词库,可确定行首的字段“泥”与上一行的行尾的字段“污”可构成属于分词词库中的词语“污泥”,因此将第二行中的“泥”确定为目标字段,并且确定调整方式为将目标字段“泥”移动至相邻的上一行的的行尾。则调整后的目标内容如表2所示。
Figure BDA0000835438290000091
表2 移动行首的目标字段至上一行的行尾
由上可知,在对目标内容的每行均通过上述方式一和或者均通过上述方式二中,即可确定每行的目标字段,以及调整方式,进一步地,可根据调整方式对目标字段进行调整。该方式基于分词词库即可实现将目标内容按照语义进行断行,且无需人工手动调整,节约了时间,提高了效率。
可选的,根据预先设定的语法规则,确定所述行中需要进行调整的目标字段和调整方式,包括:
若确定所述行的行尾的字段与相邻的下一行的行首的字段满足所述预先设定的语法规则,则确定目标字段为所述行的行尾的字段,以及确定调整方式为将所述目标字段移动至相邻的下一行的行首;或者
若确定所述行的行首的字段与相邻的上一行的行尾的字段满足所述预先设定的语法规则,则确定目标字段为所述行的行首的字段,以及确定调整方式为将所述目标字段移动至相邻的上一行的行尾。
上述方法根据语法规则来确定一行中需要进行调整的目标字段和调整方式,其中包含两种方式:
方式一:针对每行的行尾的字段进行调整。
若确定一行的行尾的字段与相邻的下一行的行首的字段满足预先设定的语法规则,则确定目标字段为该行的行尾的字段,以及确定调整方式为将目标字段移动至相邻的下一行的行首。
方式二:针对每行的行首的字段进行调整。
若确定一行的行首的字段与相邻的上一行的行尾的字段满足预先设定的语法规则,则确定目标字段为该行的行首的字段,以及确定调整方式为将目标字段移动至相邻的上一行的行尾。
其中,上述方式一或方式二中预先设定的语法规则可根据实际需要而设定,例如本发明实施例提供以下几种语法规则但不限于以下几种语法规则,来对目标内容进行语义调整。并且可通过现有技术中的基于字典库的分词方法来判断目标内容中的语句是否符合预先设定的语法规则,基于字典库的分词方法中的字典库记录了字或词的词性,因此可基于字典库的分词方法首先确定目标内容一行中的字或词的词性,然后再确定是否满足预先设定的语法规则。
语法规则一:动词与宾语在同一行。
例如,断行排版后的目标内容为一个标题,则参照表3-1,为根据方式一及语法规则一对目标内容进行调整的前后对比。
Figure BDA0000835438290000101
表3-1 根据方式一及语法规则一对目标内容进行调整
表3-1中,针对调整前的目标内容中的第一行,可确定第一行行尾的字段“测定”为一个动词,且下一行的行首字段“脱氨酸含量”为“测量“的宾语。根据方式一可确定第一行的行尾的动词“测定”为目标字段,并确定调整方式为将目标字段移动至相邻的下一行的行首,则调整后的目标内容如表3-1所示,将目标内容中的目标字段“测定”调整至下一行的行首位置。
表3-1中,针对调整前的目标内容中的第二行,可确定第二行行首的字段“脱氨酸含量”为上一行行尾的字段“测定“的宾语。根据方式二可确定第二行的行首的字段“脱氨酸含量”为目标字段,并确定调整方式为将目标字段移动至相邻的上一行的行尾,则调整后的目标内容如表3-2所示,将目标内容中的目标字段“脱氨酸含量”调整至上一行的行尾位置。
调整前的目标内容 调整后的目标内容
应用氨基酸分析仪进行测定 应用氨基酸分析仪进行测定脱氨酸含量
脱氨酸含量的研究及可行性分析 的研究及可行性分析
表3-2 根据方式二及语法规则一对目标内容进行调整
语法规则二:结构助词与结构助词前的修饰语在同一行。
例如,断行排版后的目标内容为一个标题,则参照表4-1,为根据方式一及语法规则二对目标内容进行调整的前后对比。
Figure BDA0000835438290000111
表4-1 根据方式一及语法规则二对目标内容进行调整
表4-1中,针对调整前的目标内容中的第一行,可确定第一行行尾的字段“测量”与下一行的行首字段“的”可构成修饰语与修饰语的结构助词的关系。根据方式二可确定第一行的行尾的修饰语“测量”为目标字段,并确定调整方式为将目标字段移动至相邻的下一行的行首,则调整后的目标内容如表3-1所示,将目标内容中的目标字段“测量”调整至下一行的行首位置。
表4-1中,针对调整前的目标内容中的第二行,可确定第二行行首的字段“的”与上一行行尾的字段“测量“构成修饰语与修饰语的结构助词的关系。根据方式二可确定第二行的行首的字段“的”为目标字段,并确定调整方式为将目标字段移动至相邻的上一行的行尾,则调整后的目标内容如表4-2所示,将目标内容中的目标字段“的”调整至上一行的行尾位置。
Figure BDA0000835438290000112
表4-2 根据方式二及语法规则二对目标内容进行调整
语法规则三:介词与介词后的成分名词、动词、代词在同一行。
例如,断行排版后的目标内容为一个标题,则参照表5-1,为根据方式一及语法规则三对目标内容进行调整的前后对比。
Figure BDA0000835438290000121
表5-1 根据方式一及语法规则三对目标内容进行调整
表5-1中,针对调整前的目标内容中的第一行,可确定第一行行尾的字段“在”为一个介词,且下一行的行首字段“荷兰”为一个名词,且与在“在”构成介词+名词结构。根据方式一可确定第一行的行尾的介词“在”为目标字段,并确定调整方式为将目标字段移动至相邻的下一行的行首,则调整后的目标内容如表5-1所示,将目标内容中的目标字段“在”调整至下一行的行首位置。
表5-1中,针对调整前的目标内容中的第二行,可确定第二行行首的字段“荷兰”一个名词,且上一行行尾的字段“在”为一个介词。根据方式二可确定第二行的行首的字段“荷兰”为目标字段,并确定调整方式为将目标字段移动至相邻的上一行的行尾,则调整后的目标内容如表5-2所示,将目标内容中的目标字段“荷兰”调整至上一行的行尾位置。
Figure BDA0000835438290000122
表5-2 根据方式二及语法规则三对目标内容进行调整
语法规则四:连接词与连接词之后的词组在同一行。
例如,断行排版后的目标内容为一个标题,则参照表6-1,为根据方式一及语法规则一对目标内容进行调整的前后对比。
Figure BDA0000835438290000123
表6-1 根据方式一及语法规则四对目标内容进行调整
表6-1中,针对调整前的目标内容中的第一行,可确定第一行行尾的字段“大学生与”为一个连接词,且下一行的行首字段“成人教育”为连接“大学生与”构成连接关系。根据方式一可确定第一行的行尾的动词“大学生与”为目标字段,并确定调整方式为将目标字段移动至相邻的下一行的行首,则调整后的目标内容如表6-1所示,将目标内容中的目标字段“大学生与”调整至下一行的行首位置。
表6-1中,针对调整前的目标内容中的第二行,可确定第二行行首的字段“成人教育”与上一行行尾的字段“大学生与”构成连接关系。根据方式二可确定第二行的行首的字段“成人教育”为目标字段,并确定调整方式为将目标字段移动至相邻的上一行的行尾,则调整后的目标内容如表6-2所示,将目标内容中的目标字段“成人教育”调整至上一行的行尾位置。
Figure BDA0000835438290000131
表6-2 根据方式二及语法规则四对目标内容进行调整
需要说明的是,上述语法规则只是举例说明,其他语法规则同样适用本发明实施例的方案。并且在实施中,也可以对语法规则进行更新。
由上可知,在对目标内容的每行均通过上述方式一和或者均通过上述方式二中,即可确定每行的目标字段,以及调整方式,进一步地,可根据调整方式对目标字段进行调整。该方式基于预先设定的语法规则即可实现将目标内容按照语义进行断行,且无需人工手动调整,节约了时间,提高了效率。
可选的,根据确定的所述调整方式,将所述行中的目标字段调整到相邻的上一行最后面或下一行的最前面之前,还包括:
确定在根据所述调整方式将所述行中的目标字段调整到相邻的上一行最后面之后,相邻的上一行的字数不大于所述一行最多字数;或者
确定在根据所述调整方式将所述行中的目标字段调整到相邻的下一行最前面之后,相邻的下一行的字数不大于所述一行最多字数。
上述方式确保在对一行的目标字段调整到相邻的上一行之后,相邻的上一行的字数不大于一行最多字数时,方可按照该方式进行调整;或者确保在对一行的目标字段调整到相邻的下一行之后,相邻的下一行的字数不大于一行最多字数时,方可按照该方式进行调整。因而该两种方式均可确保将目标字段调整到相邻的上一行或者相邻的下一行之后,不会导致相邻的上一行或者相邻的下一行的字数超过一行最大字数,因而可保证正常显示。
可选的,该方法还包括:
若确定在根据所述调整方式将所述行中的目标字段调整到相邻的上一行最后面后,相邻的上一行的字数大于所述一行最多字数,则确定相邻的上一行的调整方式及相邻的上一行目标字段,并根据所述相邻的上一行的调整方式调整所述相邻的上一行的目标字段;或者
若根据确定的所述调整方式,将所述行中的目标字段调整到相邻的下一行最前面后,相邻的下一行的字数大于所述一行最多字数,则确定相邻的下一行的调整方式及相邻的下一行的目标字段,并根据所述相邻的下一行的调整方式调整所述相邻的下一行的目标字段。
上述方式中,当确定将目标字段调整到相邻的上一行最后面后,相邻的上一行的字数大于一行最多字数,则通过将相邻的上一行的最后面的字段调整到本行的行首,即,需要确定相邻的上一行的调整方式及相邻的上一行目标字段,并根据相邻的上一行的调整方式调整所述相邻的上一行的目标字段。例如,表2中,第二行的目标字段为“泥”,如果将目标字段“泥”移动至上一行的最后面会导致上一行的字数大于一行最多字数,则不能够将目标字段“泥”移动至上一行的最后面的位置,此时需要通过将上一行的行尾处的目标字段移动至当前行的行首。当然,假如将上一行行尾处的目标字段移动至当前行的行首之后会导致当前行的字数超过了一行最多字数,则可以考虑在将上一行行尾处的目标字段移动至当前行的行首之后,再将当前行的行尾的字段移动至下一行,以确保当前行的字数不大于一行最大字数。
同样地,当确定将目标字段调整到相邻的下一行最前面后,相邻的下一行的字数大于所述一行最多字数,则通过将相邻的下一行的最前面的字段调整到本行的行尾,即,需要确定相邻的下一行的调整方式及相邻的下一行目标字段,并根据相邻的下一行的调整方式调整所述相邻的下一行的目标字段。例如,表1中,第一行的目标字段为“污”,如果将目标字段“污”移动至下一行的最前面会导致下一行的字数大于一行最多字数,则不能够将目标字段“污”移动至下一行的最前面的位置,此时需要通过将下一行的行首处的目标字段移动至当前行的行尾。当然,假如将下一行行首处的目标字段移动至当前行的行尾之后会导致当前行的字数超过了一行最多字数,则可以在将当前行的行尾的字段移动至下一行的行首之后,再将下一行的行尾的字段移动至下一行,以确保下一行的字数不大于一行最大字数。
可选的,所述相邻的上一行目标字段为:位于相邻的上一行的行尾的字段,并且所述字段与所述行的行首的字段组成的词组属于分词词库,或者满足预先设定的语法规则;
所述调整方式为:将所述相邻的上一行目标字段移动至所述行的行首;
所述相邻的下一行目标字段为:位于相邻的下一行的行首的字段,并且所述字段与所述行的行尾的字段组成的词组属于分词词库,或者满足预先设定的语法规则;
所述调整方式为:将所述相邻的下一行目标字段移动至所述行的行尾。
上述方式中,确定上一行的行尾的目标字段和调整方式,与确定当前的行首的目标字段和调整方式是相对应的;以及,确定下一行的行首的目标字段和调整方式,与确定当前的行尾的目标字段和调整方式也是相对应的。例如对于表1中,若当前行为第二行,可基于分词词库,确定第二行行首的目标字段为“泥”,调整方式为将目标字段移动至上一行的行尾,确定上一行的行尾的目标字段为“污”,调整方式为将目标字段移动至下一行的行首,因而可以保证在无法将当前行,即第二行的目标字段“泥”移动到相邻上一行的行尾时,可根据相邻的上一行确定相邻的上一行的目标字段为“污”,且调整方式为将目标字段调整到下一行的行首,因而可保证正确的调整目标字段。另外,对于相邻的行为下一行的情况,以及基于预先设定的语法规则的情况,也基本相同,在此不再赘述。因而通过上述方式,可保证正确的调整目标字段,保证调整的正确性。
上述步骤102中,根据确定的调整方式,将所述行中的目标字段调整到相邻的上一行最后面或下一行的最前面。
下面对本申请实施例断行方法做详细描述。
如图2所示,为本发明实施例提供的断行方法详细流程图。
步骤201、获取断行排版后的目标内容。
步骤202、对于目标内容中的每一行,基于分词词库/预先设定的语法规则来确定目标字段和调整方式。
步骤203、基于确定的目标字段和调整方式,来调整目标内容的每一行。
基于相同的技术构思,本发明实施例还提供一种断行装置,该断行装置可执行上述方法实施例。本发明实施例提供的断行装置如图3所示。
确定单元301,用于针对断行排版后目标内容的一行,根据分词词库和/或预先设定的语法规则,确定所述行中需要进行调整的目标字段和调整方式;
调整单元302,用于根据确定的所述调整方式,将所述行中的目标字段调整到相邻的上一行最后面或下一行的最前面。
可选的,所述确定单元301,具体用于:
若确定所述行的行尾的字段与相邻的下一行的行首的字段构成的词组属于所述分词词库,则确定目标字段为所述行的行尾的字段,以及确定调整方式为将所述目标字段移动至相邻的下一行的行首;或者
若确定所述行的行首的字段与相邻的上一行的行尾的字段构成的词组属于所述分词词库,则确定目标字段为所述行的行首的字段,以及确定调整方式为将所述目标字段移动至相邻的上一行的行首。
可选的,所述确定单元301,具体用于:
若确定所述行的行尾的字段与相邻的下一行的行首的字段满足所述预先设定的语法规则,则确定目标字段为所述行的行尾的字段,以及确定调整方式为将所述目标字段移动至相邻的下一行的行首;或者
若确定所述行的行首的字段与相邻的上一行的行尾的字段满足所述预先设定的语法规则,则确定目标字段为所述行的行首的字段,以及确定调整方式为将所述目标字段移动至相邻的上一行的行尾。
可选的,所述确定单元301,具体用于:
若确定在根据所述调整方式将所述行中的目标字段调整到相邻的上一行最后面之后,相邻的上一行的字数不大于所述一行最多字数,则根据确定的所述调整方式,将所述行中的目标字段调整到相邻的上一行最后面或下一行的最前面;或者
若确定在根据所述调整方式将所述行中的目标字段调整到相邻的下一行最前面之后,相邻的下一行的字数不大于所述一行最多字数,则根据确定的所述调整方式,将所述行中的目标字段调整到相邻的上一行最后面或下一行的最前面。
可选的,所述确定单元301,具体用于:
若确定在根据所述调整方式将所述行中的目标字段调整到相邻的上一行最后面后,相邻的上一行的字数大于所述一行最多字数,则确定相邻的上一行的调整方式及相邻的上一行目标字段,并根据所述相邻的上一行的调整方式调整所述相邻的上一行的目标字段;或者
若根据确定的所述调整方式,将所述行中的目标字段调整到相邻的下一行最前面后,相邻的下一行的字数大于所述一行最多字数,则确定相邻的下一行的调整方式及相邻的下一行的目标字段,并根据所述相邻的下一行的调整方式调整所述相邻的下一行的目标字段。
可选的,所述相邻的上一行目标字段为:位于相邻的上一行的行尾的字段,并且所述字段与所述行的行首的字段组成的词组属于分词词库,或者满足预先设定的语法规则;
所述调整方式为:将所述相邻的上一行目标字段移动至所述行的行首;
所述相邻的下一行目标字段为:位于相邻的下一行的行首的字段,并且所述字段与所述行的行尾的字段组成的词组属于分词词库,或者满足预先设定的语法规则;
所述调整方式为:将所述相邻的下一行目标字段移动至所述行的行尾。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (5)

1.一种断行方法,其特征在于,包括:
针对断行排版后目标内容的一行,根据分词词库和/或预先设定的语法规则,确定所述一行中需要进行调整的目标字段和调整方式;
根据确定的所述调整方式,将所述一行中的目标字段调整到相邻的上一行最后面或下一行的最前面;
根据分词词库确定所述一行中需要进行调整的目标字段和调整方式,包括:
若确定所述一行的行尾的字段与相邻的下一行的行首的字段构成的词组属于所述分词词库和/或所述一行的行尾的字段与相邻的下一行的行首的字段满足预先设定的语法规则,则确定目标字段为所述一行的行尾的字段,以及确定调整方式为将所述目标字段移动至相邻的下一行的行首;或者
若确定所述一行的行首的字段与相邻的上一行的行尾的字段构成的词组属于所述分词词库和/或所述一行的行尾的字段与相邻的下一行的行首的字段满足预先设定的语法规则,则确定目标字段为所述一行的行首的字段,以及确定调整方式为将所述目标字段移动至相邻的上一行的行尾;
根据确定的所述调整方式,将所述一行中的目标字段调整到相邻的上一行最后面或下一行的最前面之前,还包括:
确定在根据所述调整方式将所述一行中的目标字段调整到相邻的上一行最后面之后,相邻的上一行的字数不大于所述一行最多字数;或者,
确定在根据所述调整方式将所述一行中的目标字段调整到相邻的下一行最前面之后,相邻的下一行的字数不大于所述一行最多字数。
2.如权利要求1所述的方法,其特征在于,该方法还包括:
若确定在根据所述调整方式将所述一行中的目标字段调整到相邻的上一行最后面后,相邻的上一行的字数大于所述一行最多字数,则确定相邻的上一行的调整方式及相邻的上一行目标字段,并根据所述相邻的上一行的调整方式调整所述相邻的上一行的目标字段;或者
若根据确定的所述调整方式,将所述一行中的目标字段调整到相邻的下一行最前面后,相邻的下一行的字数大于所述一行最多字数,则确定相邻的下一行的调整方式及相邻的下一行的目标字段,并根据所述相邻的下一行的调整方式调整所述相邻的下一行的目标字段;
所述相邻的上一行目标字段为:位于相邻的上一行的行尾的字段,并且所述字段与所述一行的行首的字段组成的词组属于分词词库,或者满足预先设定的语法规则;
所述相邻的上一行的调整方式为:将所述相邻的上一行目标字段移动至所述一行的行首;
所述相邻的下一行目标字段为:位于相邻的下一行的行首的字段,并且所述字段与所述一行的行尾的字段组成的词组属于分词词库,或者满足预先设定的语法规则;
所述相邻的下一行的调整方式为:将所述相邻的下一行目标字段移动至所述一行的行尾。
3.一种断行装置,其特征在于,包括:
确定单元,用于针对断行排版后目标内容的一行,根据分词词库和/或预先设定的语法规则,确定所述一行中需要进行调整的目标字段和调整方式;
调整单元,用于根据确定的所述调整方式,将所述一行中的目标字段调整到相邻的上一行最后面或下一行的最前面;
所述确定单元,具体用于:
若确定所述一行的行尾的字段与相邻的下一行的行首的字段构成的词组属于所述分词词库和/或所述一行的行首的字段与相邻的上一行的行尾的字段满足所述预先设定的语法规则,则确定目标字段为所述一行的行尾的字段,以及确定调整方式为将所述目标字段移动至相邻的下一行的行首;或者
若确定所述一行的行首的字段与相邻的上一行的行尾的字段构成的词组属于所述分词词库和/或所述一行的行首的字段与相邻的上一行的行尾的字段满足所述预先设定的语法规则,则确定目标字段为所述一行的行首的字段,以及确定调整方式为将所述目标字段移动至相邻的上一行的行尾;
根据确定的所述调整方式,将所述一行中的目标字段调整到相邻的上一行最后面或下一行的最前面之前,还包括:
确定在根据所述调整方式将所述一行中的目标字段调整到相邻的上一行最后面之后,相邻的上一行的字数不大于所述一行最多字数;或者,确定在根据所述调整方式将所述一行中的目标字段调整到相邻的下一行最前面之后,相邻的下一行的字数不大于所述一行最多字数。
4.如权利要求3所述的装置,其特征在于,所述确定单元,具体用于:
若确定在根据所述调整方式将所述一行中的目标字段调整到相邻的上一行最后面之后,相邻的上一行的字数不大于所述一行最多字数,则根据确定的所述调整方式,将所述一行中的目标字段调整到相邻的上一行最后面;或者
若确定在根据所述调整方式将所述一行中的目标字段调整到相邻的下一行最前面之后,相邻的下一行的字数不大于所述一行最多字数,则根据确定的所述调整方式,将所述一行中的目标字段调整到相邻的下一行的最前面。
5.如权利要求4所述的装置,其特征在于,所述确定单元,具体用于:
若确定在根据所述调整方式将所述一行中的目标字段调整到相邻的上一行最后面后,相邻的上一行的字数大于所述一行最多字数,则确定相邻的上一行的调整方式及相邻的上一行目标字段,并根据所述相邻的上一行的调整方式调整所述相邻的上一行的目标字段;或者
若根据确定的所述调整方式,将所述一行中的目标字段调整到相邻的下一行最前面后,相邻的下一行的字数大于所述一行最多字数,则确定相邻的下一行的调整方式及相邻的下一行的目标字段,并根据所述相邻的下一行的调整方式调整所述相邻的下一行的目标字段;
所述相邻的上一行目标字段为:位于相邻的上一行的行尾的字段,并且所述字段与所述一行的行首的字段组成的词组属于分词词库,或者满足预先设定的语法规则;
所述相邻的上一行的调整方式为:将所述相邻的上一行目标字段移动至所述一行的行首;
所述相邻的下一行目标字段为:位于相邻的下一行的行首的字段,并且所述字段与所述一行的行尾的字段组成的词组属于分词词库,或者满足预先设定的语法规则;
所述相邻的下一行的调整方式为:将所述相邻的下一行目标字段移动至所述一行的行尾。
CN201510729273.4A 2015-10-30 2015-10-30 一种断行方法及装置 Active CN106649246B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510729273.4A CN106649246B (zh) 2015-10-30 2015-10-30 一种断行方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510729273.4A CN106649246B (zh) 2015-10-30 2015-10-30 一种断行方法及装置

Publications (2)

Publication Number Publication Date
CN106649246A CN106649246A (zh) 2017-05-10
CN106649246B true CN106649246B (zh) 2021-09-28

Family

ID=58809430

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510729273.4A Active CN106649246B (zh) 2015-10-30 2015-10-30 一种断行方法及装置

Country Status (1)

Country Link
CN (1) CN106649246B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110889267A (zh) * 2019-11-29 2020-03-17 北京金山安全软件有限公司 一种图片中的字符编辑方法、装置、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1731389A (zh) * 2004-08-04 2006-02-08 华建电子有限责任公司 盲汉对照编辑排版系统及编辑排版方法
CN102081600A (zh) * 2011-01-25 2011-06-01 珠海全志科技有限公司 电子书排版方法及其系统
CN102169591A (zh) * 2011-05-20 2011-08-31 中国科学院计算技术研究所 一种制图中文本注记分行方法以及绘制方法
CN104166655A (zh) * 2013-05-17 2014-11-26 北京四维图新科技股份有限公司 一种电子地图注记分行方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6279017B1 (en) * 1996-08-07 2001-08-21 Randall C. Walker Method and apparatus for displaying text based upon attributes found within the text

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1731389A (zh) * 2004-08-04 2006-02-08 华建电子有限责任公司 盲汉对照编辑排版系统及编辑排版方法
CN102081600A (zh) * 2011-01-25 2011-06-01 珠海全志科技有限公司 电子书排版方法及其系统
CN102169591A (zh) * 2011-05-20 2011-08-31 中国科学院计算技术研究所 一种制图中文本注记分行方法以及绘制方法
CN104166655A (zh) * 2013-05-17 2014-11-26 北京四维图新科技股份有限公司 一种电子地图注记分行方法及装置

Also Published As

Publication number Publication date
CN106649246A (zh) 2017-05-10

Similar Documents

Publication Publication Date Title
CN111428488B (zh) 简历数据信息解析及匹配方法、装置、电子设备及介质
CN109726293B (zh) 一种因果事件图谱构建方法、系统、装置及存储介质
CN106534548B (zh) 语音纠错方法和装置
CN110909122B (zh) 一种信息处理方法及相关设备
CN103970765B (zh) 一种改错模型训练方法、装置和文本改错方法、装置
Pedler Computer correction of real-word spelling errors in dyslexic text
CN108647214A (zh) 基于深层神经网络翻译模型的解码方法
EP2953038A1 (en) Interactive searching method and apparatus
CN107273861A (zh) 一种主观题阅卷评分方法、装置及终端设备
CN106649612B (zh) 一种自动问答模板匹配的方法及装置
US9646512B2 (en) System and method for automated teaching of languages based on frequency of syntactic models
CN109472022B (zh) 基于机器学习的新词识别方法及终端设备
CN105068993A (zh) 一种评估文本难度的方法
CN103324621A (zh) 一种泰语文本拼写纠正方法及装置
CN110020429B (zh) 语义识别方法及设备
CN103678288A (zh) 一种专名自动翻译的方法
CN110929514B (zh) 文本校对方法、装置、计算机可读存储介质及电子设备
CN114462424B (zh) 一种文章段落分析注释方法、系统、可读介质及设备
Samardžić et al. Automatic interlinear glossing as two-level sequence classification
CN109902286B (zh) 一种实体识别的方法、装置及电子设备
CN106649246B (zh) 一种断行方法及装置
CN109871544B (zh) 基于中文病历的实体识别方法、装置、设备及存储介质
CN111046649A (zh) 一种文本分割方法和装置
Gompel UvT-WSD1. A cross-lingual word sense disambiguation system
CN107491441B (zh) 一种基于强制解码的动态抽取翻译模板的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20240111

Address after: Room 1120, 11th Floor, Building 3, Courtyard 3, Jinguan North Second Street, Shunyi District, Beijing, 101300

Patentee after: Beijing Zhiwen Artificial Intelligence Software Technology Co.,Ltd.

Address before: 100080, Beijing City, Haidian District, No. 52 West Fourth Ring Road, SMIC building 19

Patentee before: Founder International Co.,Ltd. (Beijing)

TR01 Transfer of patent right