[go: up one dir, main page]

CN106708793A - 注释脚标识别方法、装置及电子设备 - Google Patents

注释脚标识别方法、装置及电子设备 Download PDF

Info

Publication number
CN106708793A
CN106708793A CN201611108286.0A CN201611108286A CN106708793A CN 106708793 A CN106708793 A CN 106708793A CN 201611108286 A CN201611108286 A CN 201611108286A CN 106708793 A CN106708793 A CN 106708793A
Authority
CN
China
Prior art keywords
annotation
footnote
current file
recognizer
notes content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201611108286.0A
Other languages
English (en)
Other versions
CN106708793B (zh
Inventor
于刚
胡元琪
孙上斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhangyue Technology Co Ltd
Original Assignee
Zhangyue Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhangyue Technology Co Ltd filed Critical Zhangyue Technology Co Ltd
Priority to CN201611108286.0A priority Critical patent/CN106708793B/zh
Publication of CN106708793A publication Critical patent/CN106708793A/zh
Application granted granted Critical
Publication of CN106708793B publication Critical patent/CN106708793B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/169Annotation, e.g. comment data or footnotes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明公开了一种注释脚标识别方法、装置及电子设备,其方法包括:从预设的多个注释脚标识别算法中选取适用于当前文件匹配度最高的注释脚标识别算法;使用注释脚标识别算法识别出当前文件的注释脚标;获取当前文件的注释内容,将注释脚标与其对应的注释内容进行关联。利用该方案,选取出匹配度最高的注释脚标识别算法,使用该注释脚标识别算法识别出当前文件的注释脚标,并将注释脚标与注释进行关联,方便用户在阅读文件时可以直接查看对应的注释,及时解决用户阅读时的疑问,同时避免了用户前后翻页的繁琐操作。进一步,使用匹配度最高的注释脚标识别算法进行识别,可以最大限度的查找出文件中的注释脚标,减少识别错误或遗漏等情况。

Description

注释脚标识别方法、装置及电子设备
技术领域
本发明涉及计算机软件领域,具体涉及一种注释脚标识别方法、装置及电子设备。
背景技术
在文件中,涉及专业词汇、引用词汇等作者需要进一步解释的词汇时,往往作者会在这些词汇上增加注释脚标。相应的,在文件各章节的末尾处或文件结束的末尾处,增加与这些注释脚标对应的注释。通过注释脚标和注释,更有利于帮助读者理解文件的内容。
由于注释脚标和注释分别设置在不同的位置,查看注释时,需要将文件向后翻页至注释所在的位置进行查看。这样造成用户需要不断的将文件向后向前翻页,注释脚标与注释不能直接进行查看,用户的阅读体验效果不佳。同时,由于有时文件中的注释脚标可能存在格式不一致的情况,用户在查找所有注释脚标及相关注释时,也易发生查找错误或遗漏等情况。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的注释脚标识别方法、装置及电子设备。
根据本发明的一个方面,提供了一种注释脚标识别方法,其包括:
从预设的多个注释脚标识别算法中选取适用于当前文件匹配度最高的注释脚标识别算法;
使用注释脚标识别算法识别出当前文件的注释脚标;
获取当前文件的注释内容,将注释脚标与其对应的注释内容进行关联。
根据本发明的另一方面,提供了一种注释脚标识别装置,其包括:
算法选取模块,适于从预设的多个注释脚标识别算法中选取适用于当前文件匹配度最高的注释脚标识别算法;
注释脚标识别模块,适于使用注释脚标识别算法识别出当前文件的注释脚标;
关联模块,适于获取当前文件的注释内容,将注释脚标与其对应的注释内容进行关联。
根据本发明的又一方面,提供了一种电子设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行上述注释脚标识别方法对应的操作。
根据本发明的再一方面,提供了一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使所述处理器执行如上述注释脚标识别方法对应的操作。
根据本发明提供的注释脚标识别方法、装置及电子设备,从预设的多个注释脚标识别算法中选取适用于当前文件匹配度最高的注释脚标识别算法;使用注释脚标识别算法识别出当前文件的注释脚标;获取当前文件的注释内容,将注释脚标与其对应的注释内容进行关联。选取出匹配度最高的注释脚标识别算法,使用该注释脚标识别算法识别出当前文件的注释脚标,并将注释脚标与注释进行关联,方便用户在阅读文件时可以直接查看对应的注释,及时解决用户阅读时的疑问,同时避免了用户前后翻页的繁琐操作。进一步,使用匹配度最高的注释脚标识别算法进行识别,可以最大限度的查找出文件中的注释脚标,减少识别错误或遗漏等情况。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本发明实施例一的注释脚标识别方法的流程图;
图2示出了根据本发明实施例一的选取注释脚标识别算法的流程图;
图3示出了根据本发明实施例二的注释脚标识别方法的流程图;
图4示出了根据本发明实施例三的注释脚标识别装置的功能框图;
图5示出了根据本发明实施例四的注释脚标识别装置的功能框图;
图6示出了根据本发明实施例六的一种电子设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
实施例一
图1示出了根据本发明实施例一的注释脚标识别方法的流程图,如图1所示,注释脚标识别方法包括如下步骤:
步骤S101,从预设的多个注释脚标识别算法中选取适用于当前文件匹配度最高的注释脚标识别算法。
注释脚标的格式由于不同作者写作习惯不同或校正人员编辑习惯不同等各种因素而存在不同的格式,因此对应的注释脚标的识别算法也需要适用于不同格式的注释脚标。一种注释脚标的识别算法不能满足多种格式的注释脚标。通过大量多次的实验,对不同格式的注释脚标进行训练,得到多个注释脚标识别算法。其中,注释脚标识别算法可以采用如正则表达式,识别过程中通过如使用正则表达式,从文件中获取符合该正则表达式的注释脚标。
对当前文件而言,需要从预设的多个注释脚标识别算法中选取适用于当前文件匹配度最高的注释脚标识别算法。具体从预设的多个注释脚标识别算法中选取适用于当前文件匹配度最高的注释脚标识别算法的过程,如图2所示的包括如下步骤:
S1011,统计得到当前文件中所有注释脚标的总个数。
注释脚标一般位于文字的右上角或下角处,与文件中标题、正文等正常文字设置不同,字号小于正常文字的字号,字体与正常文字的字体可能不一致。根据注释脚标与正常文字不同的情况,可以从当前文件中进行统计,得到当前文件中所有注释脚标的总个数。除根据注释脚标与正常文字不同的情况进行统计获取个数外,还可以根据注释内容获取注释脚标的个数。因注释内容中包括了注释脚标及注释脚标对应的注释内容,可以对注释内容进行解析,得到注释脚标的个数。
S1012,依次使用预设的多个注释脚标识别算法识别当前文件中的注释脚标,统计得到识别的注释脚标个数。
S1013,选择与脚标的总个数最接近的识别的注释脚标个数对应的注释脚标识别算法,注释脚标识别算法为适用于当前文件匹配度最高的注释脚标识别算法。
依次使用预设的多个注释脚标识别算法去识别当前文件中的注释脚标,统计各个注释脚标识别算法所识别的注释脚标的个数。将统计得到的各个注释脚标识别算法所识别的注释脚标的个数与步骤S1011中得到当前文件中所有注释脚标的总个数相比较,如得到的当前文件中所有注释脚标的总个数为100个,不同注释脚标识别算法所识别的注释脚标的个数分别为98个、96个、90个等等。从其中选择与当前文件所有注释脚标的总个数最接近的个数,即识别的注释脚标的个数为98个。该个数对应的注释脚标识别算法即为适用于当前文件匹配度最高的注释脚标识别算法。若注释脚标识别算法所识别的注释脚标的个数为100个时,即该注释脚标识别算法能够识别出当前文件中的所有的注释脚标,不再使用其他预设的多个注释脚标识别算法去识别当前文件中的注释脚标,可以直接选择该注释脚标识别算法为适用于当前文件匹配度最高的注释脚标识别算法。
步骤S102,使用注释脚标识别算法识别出当前文件的注释脚标。
使用步骤S101选取的适用于当前文件匹配度最高的注释脚标识别算法去识别当前文件的注释脚标。识别时可以根据不同文件注释脚标的排序方式不同,如当前文件中注释脚标采用全文依次排序的方式,可以对当前文件的整体进行识别,一次性的识别出当前文件中的注释脚标;或如当前文件中的注释脚标采用每章节内容依次排序的方式,即当前文件的每章节内容中的注释脚标都是从1开始排序,使用注释脚标识别算法对当前文件分章节进行识别,每次仅识别出当前文件一章节中的注释脚标,直至识别完当前文件;或如当前文件中的注释脚标采用每页内容依次排序的方式,即当前文件中每页内容中的注释脚标都是从1开始排序,使用注释脚标识别算法对当前文件分页进行识别,每次仅识别出当前文件一页中的注释脚标,直至识别完当前文件。
以上均为举例说明,具体实施根据实际情况进行设置,此处不做限定。
步骤S103,获取当前文件的注释内容,将注释脚标与其对应的注释内容进行关联。
文件的注释内容一般设置在文件的末尾处、文件每章节的末尾处或文件每页的末尾处,有些会在各末尾处添加横线,以区分正文和注释内容。注释内容与文件中标题、正文等正常文字设置可能不同,如字号小于正常文字的字号,字体与正常文字的字体不一致等情况。根据注释内容的特征,可以从当前文件中获取到注释内容。
注释内容中包括了每个注释脚标及注释脚标对应的注释内容。根据注释脚标,可以将注释脚标对应的注释内容与当前文件中的注释脚标一一进行关联。关联时,如可以将注释脚标对应的注释内容与当前文字中的注释脚标建立对应关系,当用户想要查看注释脚标对应的注释内容时,可以对注释脚标进行操作,在注释脚标处即可查看到对应的注释内容。
根据本发明提供的注释脚标识别方法,从预设的多个注释脚标识别算法中选取适用于当前文件匹配度最高的注释脚标识别算法;使用注释脚标识别算法识别出当前文件的注释脚标;获取当前文件的注释内容,将注释脚标与其对应的注释内容进行关联。选取出匹配度最高的注释脚标识别算法,使用该注释脚标识别算法识别出当前文件的注释脚标,并将注释脚标与注释进行关联,方便用户在阅读文件时可以直接查看对应的注释,及时解决用户阅读时的疑问,同时避免了用户前后翻页的繁琐操作。进一步,使用匹配度最高的注释脚标识别算法进行识别,可以最大限度的查找出文件中的注释脚标,减少识别错误或遗漏等情况。
实施例二
图3示出了根据本发明实施例二的注释脚标识别方法的流程图,如图3所示,注释脚标识别方法包括如下步骤:
步骤S301,从预设的多个注释脚标识别算法中选取适用于当前文件匹配度最高的注释脚标识别算法。
步骤S302,使用注释脚标识别算法识别出当前文件的注释脚标。
以上步骤可参考图1实施例一中的步骤S101-S102,在此不再赘述。
需要注意的是,在注释脚标识别算法进行修改后,使用修改后的注释脚标识别算法继续识别当前文件的注释脚标。
步骤S303,判断识别的注释脚标的个数是否等于当前文件的注释脚标的个数。
若使用注释脚标识别算法识别的是当前文件的所有的注释脚标,将识别的注释脚标的个数与当前文件的所有的注释脚标的总个数进行相比,判断识别的注释脚标的个数是否等于当前文件的注释脚标的个数;若使用注释脚标识别算法识别的是当前文件的某一章节的注释脚标,先获取该章节中注释脚标的总个数,将识别的注释脚标的个数与该章节中注释脚标的总个数进行相比,判断识别的注释脚标的个数是否等于该章节中注释脚标的总个数;若使用注释脚标识别算法识别的是当前文件的某一页的注释脚标,先获取该页中注释脚标的总个数,将识别的注释脚标的个数与该页中注释脚标的总个数进行相比,判断识别的注释脚标的个数是否等于该页中注释脚标的总个数。
若识别的注释脚标的个数等于当前文件的注释脚标的个数或识别的注释脚标的个数等于该章节中注释脚标的总个数或识别的注释脚标的个数等于该页中注释脚标的总个数时,即使用注释脚标识别算法已经识别出全部的注释脚标,执行步骤S305;否则,即使用注释脚标识别算法没有识别出全部的注释脚标,需要继续对当前文件中的注释脚标进行识别,执行步骤S304。
步骤S304,若识别的注释脚标的个数不等于当前文件的注释脚标的个数,修改注释脚标识别算法。
对注释脚标识别算法进行修改时,可以通过减少注释脚标识别算法中的各种限定条件修改注释脚标识别算法。如注释脚标识别算法包括了如正则表达式,该正则表达式是预先设置的适用于注释脚标的字符及字符组合而成的规则字符串。通过正则表达式对当前文件进行过滤,识别得到注释脚标。如正则表达式可以识别出(1)、(2)、(3)等包括数字和小括号形式的注释脚标。若当前文件中由于作者写作时的手误等原因造成注释脚标还存在如(4】格式的注释脚标时,该正则表达式无法识别出(4】格式的注释脚标。因此对该正则表达式进行修改,如去除注释脚标必须包括()小括号形式的限制,减少注释脚标识别算法中的限定条件,进而可以识别出更多的注释脚标。
对注释脚标识别算法进行修改时,还可以通过修改注释脚标识别算法中的各种限定条件来修改注释脚标识别算法。修改注释脚标识别算法中的各种限定条件时,可以如使用相应的限定条件替换注释脚标识别算法中的原限定条件。如注释脚标识别算法包括了如正则表达式,正则表达式可以识别出(1)、(2)、(3)等包括阿拉伯数字和小括号形式的注释脚标。若当前文件中还存在如(四)形式的注释脚标时,可以将阿拉伯数字对应的正则表达式进行相应的替换,使用可以识别汉字数字对应的正则表达式,进而可以识别出更多的注释脚标。
以上均为举例说明,在实施操作中,可能注释脚标识别算法使用的正则表达式或其他方式识别注释脚标时,注释脚标识别算法中包括的多个限定条件进行修改时,可以减少一个或多个限定条件,或使用相应的限定条件替换一个或多个对应的限定条件,也可以同时减少和修改一个或多个限定条件。具体的修改方式根据实施情景进行设置,此处不做限定。
在修改注释脚标识别算法后,执行步骤S303,使用修改后的注释脚标识别算法继续识别当前文件中的注释脚标。
步骤S305,根据用户指定的注释内容类型,获取当前文件的注释内容,将注释脚标与其对应的注释内容进行关联。
注释内容类型可以分为普通注释、组合注释等。普通注释的注释内容按照注释脚标一条条的列出注释脚标对应的注释内容,如每条注释内容以一行的形式进行显示。组合注释的注释内容会将所有注释脚标对应的注释内容放在一起,以整体如一整段内容的方式显示所有的注释内容。
根据用户指定的注释内容类型,如注释内容类型为组合注释,在获取注释内容时,先根据注释脚标将整段的注释内容进行分段。如注释内容为:(1)XXXX。(2)XXXX。(3)XXXX。先将注释内容根据各注释脚标进行分段,获取到各自的注释脚标及注释脚标对应的注释内容。将注释脚标与其对应的注释内容进行关联;或如注释内容类型为普通注释,可以直接获取每个注释脚标对应的注释内容,将注释脚标与其对应的注释内容进行关联。
步骤S306,获取用户操作注释脚标的行为,将与注释脚标关联的注释内容进行显示。
通过步骤S305将注释脚标与其对应的注释内容进行关联后,获取用户操作注释脚标的行为,如获取用户双击或单击注释脚标的行为,在注释脚标处显示对应的注释内容以供用户查看;或获取用户操作的如设置注释脚标关联的注释内容显示或隐藏的相关操作行为,在注释脚标处显示对应的注释内容以供用户查看或隐藏对应的注释内容以方便用户对正文内容的阅读等。
根据本发明提供的注释脚标识别方法,从预设的多个注释脚标识别算法中选取适用于当前文件匹配度最高的注释脚标识别算法;使用注释脚标识别算法识别出当前文件的注释脚标;判断识别的注释脚标的个数是否等于当前文件的注释脚标的个数,若识别的注释脚标的个数不等于当前文件的注释脚标的个数,修改注释脚标识别算法。使用修改后的注释脚标识别算法继续识别当前文件中的注释脚标,直至识别的注释脚标的个数等于当前文件的注释脚标的个数。根据用户指定的注释内容类型,获取当前文件的注释内容,将注释脚标与其对应的注释内容进行关联。选取出匹配度最高的注释脚标识别算法,使用该注释脚标识别算法识别出当前文件的注释脚标,并将注释脚标与注释进行关联,方便用户在阅读文件时可以直接查看对应的注释,及时解决用户阅读时的疑问,同时避免了用户前后翻页的繁琐操作。使用匹配度最高的注释脚标识别算法进行识别,可以最大限度的查找出文件中的注释脚标,减少识别错误或遗漏等情况。进一步,当脚标注释算法无法识别出全部文件中的注释脚标时,对脚标注释算法进行修改,并使用修改后的注释脚标算法进一步查找出文件中的注释脚标,可以反复执行,直至识别出文件中所有的注释脚标。同时,对不同类型的注释内容进行处理,将注释内容与注释脚标关联。在获取用户操作注释脚标的行为后,将与注释脚标关联的注释内容进行显示。使得用户在阅读文件的同时,即可获取到注释内容,用户体验较佳。
实施例三
图4示出了根据本发明实施例三的注释脚标识别装置的功能框图。如图4所示,注释脚标识别装置包括如下模块:
算法选取模块410,适于从预设的多个注释脚标识别算法中选取适用于当前文件匹配度最高的注释脚标识别算法。
注释脚标的格式由于不同作者写作习惯不同或校正人员编辑习惯不同等各种因素而存在不同的格式,因此对应的注释脚标的识别算法也需要适用于不同格式的注释脚标。一种注释脚标的识别算法不能满足多种格式的注释脚标。不同格式的注释脚标在经过大量多次的训练后,可以得到多个注释脚标识别算法。其中,注释脚标识别算法可以采用如正则表达式,识别过程中通过如使用正则表达式,从文件中获取符合该正则表达式的注释脚标。
对当前文件而言,需要通过算法选取模块410从预设的多个注释脚标识别算法中选取适用于当前文件匹配度最高的注释脚标识别算法。具体的算法选取模块410包括如下模块:
统计模块411,适于统计得到当前文件中所有注释脚标的总个数。
注释脚标一般位于文字的右上角或下角处,与文件中标题、正文等正常文字设置不同,字号小于正常文字的字号,字体与正常文字的字体可能不一致。统计模块411根据注释脚标与正常文字不同的情况,可以从当前文件中进行统计,得到当前文件中所有注释脚标的总个数。除根据注释脚标与正常文字不同的情况进行统计获取个数外,统计模块411还可以根据注释内容获取注释脚标的个数。因注释内容中包括了注释脚标及注释脚标对应的注释内容,统计模块411可以对注释内容进行解析,得到注释脚标的个数。
测试识别模块412,适于依次使用预设的多个注释脚标识别算法识别当前文件中的注释脚标,统计得到识别的注释脚标个数。
测试识别模块412依次使用预设的多个注释脚标识别算法去识别当前文件中的注释脚标,统计各个注释脚标识别算法所识别的注释脚标的个数。算法选取模块410将统计得到的各个注释脚标识别算法所识别的注释脚标的个数与统计模块411得到当前文件中所有注释脚标的总个数相比较,如统计模块411得到的当前文件中所有注释脚标的总个数为100个,测试识别模块412得到不同注释脚标识别算法所识别的注释脚标的个数分别为98个、96个、90个等等。算法选取模块410从其中选择与当前文件所有注释脚标的总个数最接近的个数,即识别的注释脚标的个数为98个。该个数对应的注释脚标识别算法即为适用于当前文件匹配度最高的注释脚标识别算法。若测试识别模块412得到注释脚标识别算法所识别的注释脚标的个数为100个时,即该注释脚标识别算法能够识别出当前文件中的所有的注释脚标,测试识别模块412不再使用其他预设的多个注释脚标识别算法去识别当前文件中的注释脚标,算法选取模块410可以直接选择该注释脚标识别算法为适用于当前文件匹配度最高的注释脚标识别算法。
注释脚标识别模块420,适于使用注释脚标识别算法识别出当前文件的注释脚标。
注释脚标识别模块420使用算法选取模块410选取的适用于当前文件匹配度最高的注释脚标识别算法去识别当前文件的注释脚标。注释脚标识别模块420识别时可以根据不同文件注释脚标的排序方式不同,如当前文件中注释脚标采用全文依次排序的方式,注释脚标识别模块420可以对当前文件的整体进行识别,一次性的识别出当前文件中的注释脚标;或如当前文件中的注释脚标采用每章节内容依次排序的方式,即当前文件的每章节内容中的注释脚标都是从1开始排序,注释脚标识别模块420使用注释脚标识别算法对当前文件分章节进行识别,每次仅识别出当前文件一章节中的注释脚标,直至识别完当前文件;或如当前文件中的注释脚标采用每页内容依次排序的方式,即当前文件中每页内容中的注释脚标都是从1开始排序,注释脚标识别模块420使用注释脚标识别算法对当前文件分页进行识别,每次仅识别出当前文件一页中的注释脚标,直至识别完当前文件。
以上均为举例说明,具体实施根据实际情况进行设置,此处不做限定。
关联模块430,适于获取当前文件的注释内容,将注释脚标与其对应的注释内容进行关联。
文件的注释内容一般设置在文件的末尾处、文件每章节的末尾处或文件每页的末尾处,有些会在各末尾处添加横线,以区分正文和注释内容。注释内容与文件中标题、正文等正常文字设置可能不同,如字号小于正常文字的字号,字体与正常文字的字体不一致等情况。关联模块430根据注释内容的特征,可以从当前文件中获取到注释内容。
注释内容中包括了每个注释脚标及注释脚标对应的注释内容。注释内容按照类型可以分为普通注释、组合注释等。普通注释的注释内容按照注释脚标一条条的列出注释脚标对应的注释内容,如每条注释内容以一行的形式进行显示。组合注释的注释内容会将所有注释脚标对应的注释内容放在一起,以整体如一整段内容的方式显示所有的注释内容。
根据用户指定的注释内容类型,关联模块430还包括了如下模块:
组合关联模块431适于若注释内容类型为组合注释。组合关联模块431获取注释内容时,先根据注释脚标将整段的注释内容进行分段。如注释内容为:(1)XXXX。(2)XXXX。(3)XXXX。先将注释内容根据各注释脚标进行分段,获取到各自的注释脚标及注释脚标对应的注释内容。将注释脚标与其对应的注释内容进行关联。
普通关联模块432适于若注释内容类型为普通注释。普通关联模块432可以直接获取每个注释脚标对应的注释内容,将注释脚标与其对应的注释内容进行关联。
关联模块430在关联注释脚标与其对应的注释内容时,如可以将注释脚标对应的注释内容与当前文字中的注释脚标建立对应关系,当用户想要查看注释脚标对应的注释内容时,可以对注释脚标进行操作,在注释脚标处即可查看到对应的注释内容。
根据本发明提供的注释脚标识别装置,从预设的多个注释脚标识别算法中选取适用于当前文件匹配度最高的注释脚标识别算法;使用注释脚标识别算法识别出当前文件的注释脚标;获取当前文件的注释内容,将注释脚标与其对应的注释内容进行关联。选取出匹配度最高的注释脚标识别算法,使用该注释脚标识别算法识别出当前文件的注释脚标,并将注释脚标与注释进行关联,方便用户在阅读文件时可以直接查看对应的注释,及时解决用户阅读时的疑问,同时避免了用户前后翻页的繁琐操作。进一步,使用匹配度最高的注释脚标识别算法进行识别,可以最大限度的查找出文件中的注释脚标,减少识别错误或遗漏等情况。
实施例四
图5示出了根据本发明实施例四的注释脚标识别装置的功能框图。如图5所示,与图4不同之处在于,注释脚标识别装置还包括如下模块:
判断模块440,适于判断识别的注释脚标的个数是否等于当前文件的注释脚标的个数。
若注释脚标识别模块420使用注释脚标识别算法识别的是当前文件的所有的注释脚标,判断模块440将识别的注释脚标的个数与当前文件的所有的注释脚标的总个数进行相比,判断识别的注释脚标的个数是否等于当前文件的注释脚标的个数;若注释脚标识别模块420使用注释脚标识别算法识别的是当前文件的某一章节的注释脚标,判断模块440先获取该章节中注释脚标的总个数,将识别的注释脚标的个数与该章节中注释脚标的总个数进行相比,判断识别的注释脚标的个数是否等于该章节中注释脚标的总个数;若注释脚标识别模块420使用注释脚标识别算法识别的是当前文件的某一页的注释脚标,判断模块440先获取该页中注释脚标的总个数,将识别的注释脚标的个数与该页中注释脚标的总个数进行相比,判断识别的注释脚标的个数是否等于该页中注释脚标的总个数。
判断模块440判断识别的注释脚标的个数等于当前文件的注释脚标的个数或识别的注释脚标的个数等于该章节中注释脚标的总个数或识别的注释脚标的个数等于该页中注释脚标的总个数时,即注释脚标识别模块420使用注释脚标识别算法已经识别出全部的注释脚标,执行关联模块430。否则,即注释脚标识别模块420使用注释脚标识别算法没有识别出全部的注释脚标,需要继续对当前文件中的注释脚标进行识别,执行修改模块450。
修改模块450,适于若识别的注释脚标的个数不等于当前文件的注释脚标的个数,修改注释脚标识别算法;
修改模块450对注释脚标识别算法进行修改时,可以通过减少注释脚标识别算法中的各种限定条件修改注释脚标识别算法。如注释脚标识别算法包括了如正则表达式,该正则表达式是预先设置的适用于注释脚标的字符及字符组合而成的规则字符串。注释脚标识别模块420使用正则表达式对当前文件进行过滤,识别得到注释脚标。如注释脚标识别模块420使用正则表达式可以识别出(1)、(2)、(3)等包括数字和小括号形式的注释脚标。若当前文件中由于作者写作时的手误等原因造成注释脚标还存在如(4】格式的注释脚标时,注释脚标识别模块420使用该正则表达式无法识别出(4】格式的注释脚标。因此修改模块450对该正则表达式进行修改,如修改模块450去除注释脚标必须包括()小括号形式的限制,减少注释脚标识别算法中的限定条件,进而可以识别出更多的注释脚标。
修改模块450对注释脚标识别算法进行修改时,还可以通过修改注释脚标识别算法中的各种限定条件来修改注释脚标识别算法。修改模块450修改注释脚标识别算法中的各种限定条件时,可以如使用相应的限定条件替换注释脚标识别算法中的原限定条件。如注释脚标识别算法包括了如正则表达式,注释脚标识别模块420使用正则表达式可以识别出(1)、(2)、(3)等包括阿拉伯数字和小括号形式的注释脚标。若当前文件中还存在如(四)形式的注释脚标时,修改模块450可以将阿拉伯数字对应的正则表达式进行相应的替换,使用可以识别汉字数字对应的正则表达式,进而可以识别出更多的注释脚标。
以上均为举例说明,在实施操作中,可能注释脚标识别算法使用的正则表达式或其他方式识别注释脚标时,注释脚标识别算法中包括的多个限定条件进行修改时,修改模块450可以减少一个或多个限定条件,或使用相应的限定条件替换一个或多个对应的限定条件,也可以同时减少和修改一个或多个限定条件。具体的修改方式根据实施情景进行设置,此处不做限定。
在修改模块450修改注释脚标识别算法后,继续执行注释脚标识别模块420。注释脚标识别模块420使用修改后的注释脚标识别算法继续识别当前文件中的注释脚标。重复执行判断模块440和修改模块450,直至判断模块440判断识别的注释脚标等于当前文件的注释脚标的个数为止。
显示模块460,适于获取用户操作注释脚标的行为,将与注释脚标关联的注释内容进行显示。
通过关联模块430将注释脚标与其对应的注释内容进行关联后,显示模块460获取用户操作注释脚标的行为,如显示模块460获取用户双击或单击注释脚标的行为,在注释脚标处显示对应的注释内容以供用户查看;或显示模块460获取用户操作的如设置注释脚标关联的注释内容显示或隐藏的相关操作行为,在注释脚标处显示对应的注释内容以供用户查看或隐藏对应的注释内容以方便用户对正文内容的阅读等。
根据本发明提供的注释脚标识别装置,从预设的多个注释脚标识别算法中选取适用于当前文件匹配度最高的注释脚标识别算法;使用注释脚标识别算法识别出当前文件的注释脚标;判断识别的注释脚标的个数是否等于当前文件的注释脚标的个数,若识别的注释脚标的个数不等于当前文件的注释脚标的个数,修改注释脚标识别算法。使用修改后的注释脚标识别算法继续识别当前文件中的注释脚标,直至识别的注释脚标的个数等于当前文件的注释脚标的个数。获取当前文件的注释内容,将注释脚标与其对应的注释内容进行关联。选取出匹配度最高的注释脚标识别算法,使用该注释脚标识别算法识别出当前文件的注释脚标,并将注释脚标与注释进行关联,方便用户在阅读文件时可以直接查看对应的注释,及时解决用户阅读时的疑问,同时避免了用户前后翻页的繁琐操作。使用匹配度最高的注释脚标识别算法进行识别,可以最大限度的查找出文件中的注释脚标,减少识别错误或遗漏等情况。进一步,当脚标注释算法无法识别出全部文件中的注释脚标时,对脚标注释算法进行修改,并使用修改后的注释脚标算法进一步查找出文件中的注释脚标,可以反复执行,直至识别出文件中所有的注释脚标。同时,在获取用户操作注释脚标的行为后,将与注释脚标关联的注释内容进行显示。使得用户在阅读文件的同时,即可获取到注释内容,用户体验较佳。
实施例五
本申请实施例五提供了一种非易失性计算机存储介质,所述计算机存储介质存储有至少一可执行指令,该计算机可执行指令可执行上述任意方法实施例中的注释脚标识别方法。
实施例六
图6示出了根据本发明实施例六的一种电子设备的结构示意图,本发明具体实施例并不对电子设备的具体实现做限定。
如图6所示,该电子设备可以包括:处理器(processor)602、通信接口(Communications Interface)604、存储器(memory)606、以及通信总线608。
其中:
处理器602、通信接口604、以及存储器606通过通信总线608完成相互间的通信。
通信接口604,用于与其它设备比如客户端或其它服务器等的网元通信。
处理器602,用于执行程序610,具体可以执行上述注释脚标识别方法实施例中的相关步骤。
具体地,程序610可以包括程序代码,该程序代码包括计算机操作指令。
处理器602可能是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。电子设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器606,用于存放第一数据集合、第二数据集合以及程序610。存储器606可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
程序610具体可以用于使得处理器602执行以下操作:从预设的多个注释脚标识别算法中选取适用于当前文件匹配度最高的注释脚标识别算法;使用注释脚标识别算法识别出当前文件的注释脚标;获取当前文件的注释内容,将注释脚标与其对应的注释内容进行关联。
在一种可选的实施方式中,程序610用于使得处理器602统计得到当前文件中所有注释脚标的总个数;依次使用预设的多个注释脚标识别算法识别当前文件中的注释脚标,统计得到识别的注释脚标个数;选择与脚标的总个数最接近的识别的注释脚标个数对应的注释脚标识别算法;注释脚标识别算法为适用于当前文件匹配度最高的注释脚标识别算法。
在一种可选的实施方式中,程序610用于使得处理器602判断识别的注释脚标的个数是否等于当前文件的注释脚标的个数,若识别的注释脚标的个数不等于当前文件的注释脚标的个数,修改注释脚标识别算法;使用修改后的注释脚标识别算法识别当前文件的注释脚标;重复执行该步骤,直至判断识别的注释脚标等于当前文件的注释脚标的个数,终止执行。
在一种可选的实施方式中,程序610用于使得处理器602减少和/或修改注释脚标识别算法的限定条件。
在一种可选的实施方式中,程序610用于使得处理器602根据用户指定的注释内容类型,获取当前文件的注释内容,将注释脚标与其对应的注释内容进行关联。
在一种可选的实施方式中,注释内容类型为普通注释或组合注释。程序610用于使得处理器602根据用户指定的注释内容类型,获取当前文件的注释内容,将注释脚标与其对应的注释内容进行关联进一步包括:若注释内容类型为组合注释,获取注释内容;根据注释脚标将注释内容进行分段;将注释脚标与其对应的注释内容进行关联;若注释内容类型为普通注释,获取注释内容;将注释脚标与其对应的注释内容进行关联。
在一种可选的实施方式中,程序610用于使得处理器602获取用户操作注释脚标的行为,将与注释脚标关联的注释内容进行显示。
程序610中各步骤的具体实现可以参见上述注释脚标识别实施例中的相应步骤和单元中对应的描述,在此不赘述。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的设备和模块的具体工作过程,可以参考前述方法实施例中的对应过程描述,在此不再赘述。
通过本实施例提供的方案,从预设的多个注释脚标识别算法中选取适用于当前文件匹配度最高的注释脚标识别算法;使用注释脚标识别算法识别出当前文件的注释脚标;获取当前文件的注释内容,将注释脚标与其对应的注释内容进行关联。选取出匹配度最高的注释脚标识别算法,使用该注释脚标识别算法识别出当前文件的注释脚标,并将注释脚标与注释进行关联,方便用户在阅读文件时可以直接查看对应的注释,及时解决用户阅读时的疑问,同时避免了用户前后翻页的繁琐操作。进一步,使用匹配度最高的注释脚标识别算法进行识别,可以最大限度的查找出文件中的注释脚标,减少识别错误或遗漏等情况。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的注释脚标识别装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
本发明公开了:A1、一种注释脚标识别方法,其包括:
从预设的多个注释脚标识别算法中选取适用于当前文件匹配度最高的注释脚标识别算法;
使用所述注释脚标识别算法识别出当前文件的注释脚标;
获取当前文件的注释内容,将所述注释脚标与其对应的注释内容进行关联。
A2、根据A1所述的方法,其中,所述从预设的多个注释脚标识别算法中选取适用于当前文件匹配度最高的注释脚标识别算法进一步包括:
统计得到当前文件中所有注释脚标的总个数;
依次使用预设的多个注释脚标识别算法识别当前文件中的注释脚标,统计得到识别的注释脚标个数;
选择与所述脚标的总个数最接近的所述识别的注释脚标个数对应的注释脚标识别算法;所述注释脚标识别算法为适用于当前文件匹配度最高的注释脚标识别算法。
A3、根据A1所述的方法,其中,所述使用所述注释脚标识别算法识别出当前文件的注释脚标进一步包括:
判断所述识别的注释脚标的个数是否等于当前文件的注释脚标的个数,若识别的注释脚标的个数不等于当前文件的注释脚标的个数,修改所述注释脚标识别算法;使用修改后的注释脚标识别算法识别当前文件的注释脚标;重复执行该步骤,直至判断所述识别的注释脚标等于当前文件的注释脚标的个数,终止执行。
A4、根据A3所述的方法,其中,所述修改所述注释脚标识别算法进一步包括:
减少和/或修改所述注释脚标识别算法的限定条件。
A5、根据A1所述的方法,其中,所述获取当前文件的注释内容,将所述注释脚标与其对应的注释内容进行关联进一步包括:
根据用户指定的注释内容类型,获取当前文件的注释内容,将所述注释脚标与其对应的注释内容进行关联。
A6、根据A5所述的方法,其中,所述注释内容类型为普通注释或组合注释;
所述根据用户指定的注释内容类型,获取当前文件的注释内容,将所述注释脚标与其对应的注释内容进行关联进一步包括:
若所述注释内容类型为组合注释,获取所述注释内容;根据所述注释脚标将所述注释内容进行分段;将所述注释脚标与其对应的注释内容进行关联;
若所述注释内容类型为普通注释,获取所述注释内容;将所述注释脚标与其对应的注释内容进行关联。
A7、根据A1-A6任一项所述的方法,其中,所述方法还包括:
获取用户操作注释脚标的行为,将与所述注释脚标关联的注释内容进行显示。
本发明还公开了:B8、一种注释脚标识别装置,其包括:
算法选取模块,适于从预设的多个注释脚标识别算法中选取适用于当前文件匹配度最高的注释脚标识别算法;
注释脚标识别模块,适于使用所述注释脚标识别算法识别出当前文件的注释脚标;
关联模块,适于获取当前文件的注释内容,将所述注释脚标与其对应的注释内容进行关联。
B9、根据B8所述的装置,其中,所述算法选取模块进一步包括:
统计模块,适于统计得到当前文件中所有注释脚标的总个数;
测试识别模块,适于依次使用预设的多个注释脚标识别算法识别当前文件中的注释脚标,统计得到识别的注释脚标个数;
所述算法选取模块进一步适于:选择与所述脚标的总个数最接近的所述识别的注释脚标个数对应的注释脚标识别算法;所述注释脚标识别算法为适用于当前文件匹配度最高的注释脚标识别算法。
B10、根据B8所述的装置,其中,所述注释脚标识别模块进一步包括:
判断模块,适于判断所述识别的注释脚标的个数是否等于当前文件的注释脚标的个数;
修改模块,适于若识别的注释脚标的个数不等于当前文件的注释脚标的个数,修改所述注释脚标识别算法;
所述注释脚标识别模块进一步适于:使用修改后的注释脚标识别算法识别当前文件的注释脚标;重复执行所述判断模块和所述修改模块,直至判断所述识别的注释脚标等于当前文件的注释脚标的个数为止,终止执行。
B11、根据B10所述的装置,其中,所述修改模块进一步适于:
减少和/或修改所述注释脚标识别算法的限定条件。
B12、根据B8所述的装置,其中,所述关联模块进一步适于:
根据用户指定的注释内容类型,获取当前文件的注释内容,将所述注释脚标与其对应的注释内容进行关联。
B13、根据B12所述的装置,其中,所述注释内容类型为普通注释或组合注释;
所述关联模块进一步包括:
组合关联模块,适于若所述注释内容类型为组合注释,获取所述注释内容;根据所述注释脚标将所述注释内容进行分段;将所述注释脚标与其对应的注释内容进行关联;
普通关联模块,适于若所述注释内容类型为普通注释,获取所述注释内容;将所述注释脚标与其对应的注释内容进行关联。
B14、根据B8-B13任一项所述的装置,其中,所述装置还包括:
显示模块,适于获取用户操作注释脚标的行为,将与所述注释脚标关联的注释内容进行显示。
本发明还公开了:C15、一种电子设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如A1-A7中任一项所述的注释脚标识别方法对应的操作。
本发明还公开了:D16、一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使所述处理器执行如A1-A7中任一项所述的注释脚标识别方法对应的操作。

Claims (10)

1.一种注释脚标识别方法,其包括:
从预设的多个注释脚标识别算法中选取适用于当前文件匹配度最高的注释脚标识别算法;
使用所述注释脚标识别算法识别出当前文件的注释脚标;
获取当前文件的注释内容,将所述注释脚标与其对应的注释内容进行关联。
2.根据权利要求1所述的方法,其中,所述从预设的多个注释脚标识别算法中选取适用于当前文件匹配度最高的注释脚标识别算法进一步包括:
统计得到当前文件中所有注释脚标的总个数;
依次使用预设的多个注释脚标识别算法识别当前文件中的注释脚标,统计得到识别的注释脚标个数;
选择与所述脚标的总个数最接近的所述识别的注释脚标个数对应的注释脚标识别算法;所述注释脚标识别算法为适用于当前文件匹配度最高的注释脚标识别算法。
3.根据权利要求1所述的方法,其中,所述使用所述注释脚标识别算法识别出当前文件的注释脚标进一步包括:
判断所述识别的注释脚标的个数是否等于当前文件的注释脚标的个数,若识别的注释脚标的个数不等于当前文件的注释脚标的个数,修改所述注释脚标识别算法;使用修改后的注释脚标识别算法识别当前文件的注释脚标;重复执行该步骤,直至判断所述识别的注释脚标等于当前文件的注释脚标的个数,终止执行。
4.根据权利要求3所述的方法,其中,所述修改所述注释脚标识别算法进一步包括:
减少和/或修改所述注释脚标识别算法的限定条件。
5.根据权利要求1所述的方法,其中,所述获取当前文件的注释内容,将所述注释脚标与其对应的注释内容进行关联进一步包括:
根据用户指定的注释内容类型,获取当前文件的注释内容,将所述注释脚标与其对应的注释内容进行关联。
6.根据权利要求5所述的方法,其中,所述注释内容类型为普通注释或组合注释;
所述根据用户指定的注释内容类型,获取当前文件的注释内容,将所述注释脚标与其对应的注释内容进行关联进一步包括:
若所述注释内容类型为组合注释,获取所述注释内容;根据所述注释脚标将所述注释内容进行分段;将所述注释脚标与其对应的注释内容进行关联;
若所述注释内容类型为普通注释,获取所述注释内容;将所述注释脚标与其对应的注释内容进行关联。
7.根据权利要求1-6任一项所述的方法,其中,所述方法还包括:
获取用户操作注释脚标的行为,将与所述注释脚标关联的注释内容进行显示。
8.一种注释脚标识别装置,其包括:
算法选取模块,适于从预设的多个注释脚标识别算法中选取适用于当前文件匹配度最高的注释脚标识别算法;
注释脚标识别模块,适于使用所述注释脚标识别算法识别出当前文件的注释脚标;
关联模块,适于获取当前文件的注释内容,将所述注释脚标与其对应的注释内容进行关联。
9.一种电子设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求1-7中任一项所述的注释脚标识别方法对应的操作。
10.一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使所述处理器执行如权利要求1-7中任一项所述的注释脚标识别方法对应的操作。
CN201611108286.0A 2016-12-06 2016-12-06 注释脚标识别方法、装置及电子设备 Active CN106708793B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611108286.0A CN106708793B (zh) 2016-12-06 2016-12-06 注释脚标识别方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611108286.0A CN106708793B (zh) 2016-12-06 2016-12-06 注释脚标识别方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN106708793A true CN106708793A (zh) 2017-05-24
CN106708793B CN106708793B (zh) 2018-06-08

Family

ID=58935932

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611108286.0A Active CN106708793B (zh) 2016-12-06 2016-12-06 注释脚标识别方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN106708793B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110399801A (zh) * 2019-06-26 2019-11-01 南京智录信息科技有限公司 文档图像中的表格底部有编号附注识别技术
CN110825376A (zh) * 2018-08-07 2020-02-21 深圳Tcl数字技术有限公司 一种解析带注释json文件的方法、存储介质及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1215201A (zh) * 1997-10-16 1999-04-28 富士通株式会社 字符识别/修正方式
US20100278453A1 (en) * 2006-09-15 2010-11-04 King Martin T Capture and display of annotations in paper and electronic documents
CN102982027A (zh) * 2011-09-02 2013-03-20 北大方正集团有限公司 提取文档中内容的方法和装置
CN104750661A (zh) * 2013-12-30 2015-07-01 腾讯科技(深圳)有限公司 一种对文本进行选定词句的方法和装置
CN105913093A (zh) * 2016-05-03 2016-08-31 电子科技大学 一种用于文字识别处理的模板匹配方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1215201A (zh) * 1997-10-16 1999-04-28 富士通株式会社 字符识别/修正方式
US20100278453A1 (en) * 2006-09-15 2010-11-04 King Martin T Capture and display of annotations in paper and electronic documents
CN102982027A (zh) * 2011-09-02 2013-03-20 北大方正集团有限公司 提取文档中内容的方法和装置
CN104750661A (zh) * 2013-12-30 2015-07-01 腾讯科技(深圳)有限公司 一种对文本进行选定词句的方法和装置
CN105913093A (zh) * 2016-05-03 2016-08-31 电子科技大学 一种用于文字识别处理的模板匹配方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SIMONE MARINAI ET AL: "《Conversion of PDF books in ePub format》", 《2011 INTERNATIONAL CONFERENCE ON DOCUMENT ANALYSIS AND RECOGNITION》 *
黎斯达等: "《PDF文档中的脚注识别研究》", 《北京大学学报(自然科学版)》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110825376A (zh) * 2018-08-07 2020-02-21 深圳Tcl数字技术有限公司 一种解析带注释json文件的方法、存储介质及装置
CN110825376B (zh) * 2018-08-07 2024-03-12 深圳Tcl数字技术有限公司 一种解析带注释json文件的方法、存储介质及装置
CN110399801A (zh) * 2019-06-26 2019-11-01 南京智录信息科技有限公司 文档图像中的表格底部有编号附注识别技术

Also Published As

Publication number Publication date
CN106708793B (zh) 2018-06-08

Similar Documents

Publication Publication Date Title
CN111444320B (zh) 文本检索方法、装置、计算机设备和存储介质
CN105512285B (zh) 基于机器学习的自适应网络爬虫方法
CN107391729A (zh) 用户评论的排序方法、电子设备及计算机存储介质
CN105389307A (zh) 语句意图类别识别方法及装置
WO2009039480A2 (en) Automated image annotation based upon meta-learning over time
CN105243055A (zh) 基于多语言的分词方法和装置
CN117501283A (zh) 文本到问答模型系统
CN106776566B (zh) 情感词汇的识别方法及装置
CN111563140B (zh) 一种意图识别方法及装置
CN109543153B (zh) 一种序列标注系统及方法
CN106095753A (zh) 一种基于信息熵和术语可信度的金融领域术语识别方法
US20230014465A1 (en) A Transferable Neural Architecture for Structured Data Extraction From Web Documents
CN109508448A (zh) 基于长篇文章生成短资讯方法、介质、装置和计算设备
CN102959538B (zh) 给文档编索引
CN113901170A (zh) 结合Bert模型和模板匹配的事件抽取方法及系统、电子设备
CN108062422A (zh) 一种分页查询的排序方法、智能终端、系统及存储介质
US20100198770A1 (en) Identifying previously annotated web page information
CN106708793A (zh) 注释脚标识别方法、装置及电子设备
CN113139033B (zh) 文本处理方法、装置、设备及存储介质
CN106951540B (zh) 文件目录的生成方法、装置、服务器及计算机存储介质
CN114491209A (zh) 基于互联网信息抓取的企业业务标签挖掘的方法和系统
CN112115362B (zh) 一种基于相似代码识别的编程信息推荐方法及装置
Souza et al. ARCTIC: metadata extraction from scientific papers in pdf using two-layer CRF
Li et al. Readoc: A unified benchmark for realistic document structured extraction
Cha et al. Extracting topic related keywords by backtracking CNN based text classifier

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant