[go: up one dir, main page]

CN109902673A - 表格中表头信息识别和整理方法、系统、终端和存储介质 - Google Patents

表格中表头信息识别和整理方法、系统、终端和存储介质 Download PDF

Info

Publication number
CN109902673A
CN109902673A CN201910082265.3A CN201910082265A CN109902673A CN 109902673 A CN109902673 A CN 109902673A CN 201910082265 A CN201910082265 A CN 201910082265A CN 109902673 A CN109902673 A CN 109902673A
Authority
CN
China
Prior art keywords
chinese
english
gauge outfit
user
field
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910082265.3A
Other languages
English (en)
Inventor
付骁弈
齐云飞
安超
张洁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Mininglamp Software System Co ltd
Original Assignee
Beijing Mininglamp Software System Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Mininglamp Software System Co ltd filed Critical Beijing Mininglamp Software System Co ltd
Priority to CN201910082265.3A priority Critical patent/CN109902673A/zh
Publication of CN109902673A publication Critical patent/CN109902673A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了一种表格中表头信息识别和整理的方法、系统、终端和存储介质,其中,所述方法包括:识别表格中的英文表头,并将识别出的英文表头中的英文字段翻译成中文字段;获取选中的中文字段中的中文近义词,并将获取的中文近义词提供给用户选择;待接收到用户的选择指令后,使用用户选择的中文近义词替换所述选中的中文字段中的原有中文。本发明能够将不同表格的表头中含义一致的字段做融合处理。

Description

表格中表头信息识别和整理方法、系统、终端和存储介质
技术领域
本发明涉及数据治理技术,尤指一种表格中表头信息识别和整理的方法、系统、终端和存储介质。
背景技术
元数据(Metadata),又称中介数据、中继数据,为描述数据的数据(data aboutdata),主要是描述数据属性(property)的信息,用来支持如指示存储位置、历史数据、资源查找、文件记录等功能。在元数据治理过程中,由于信息保密限制,项目实施人员无法获得电子表格数据,只能通过纸质的表格进行元数据整理、翻译与对齐,包括:
利用OCR技术将纸质表格转化为数字表格。OCR(Optical CharacterRecognition,光学字符识别)是指通过电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程,即,针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。但是OCR技术存在识别率低的问题,识别结果往往无法直接使用;
使用英中翻译技术将英文表头中的字段翻译成中文,但是现有的翻译软件一般针对句子或长文本,由于没有考虑表头英翻中这一特定场景,也面临与OCR算法相同的准确率问题。
此外,现有的元数据治理过程中表头中,含义相同的字段往往以不同字段名存在于多个表格中,不同表格的表头中含义一致的字段不能做融合处理。
发明内容
为了解决上述技术问题,本发明提供了一种表格中表头信息识别和整理的方法、系统、终端和存储介质,能够将不同表格的表头中含义一致的字段做融合处理。
为了达到本发明目的,本发明提供了一种表格中表头信息识别和整理的方法,包括:
识别表格中的英文表头,并将识别出的英文表头中的英文字段翻译成中文字段;
获取选中的中文字段中的中文近义词,并将获取的中文近义词提供给用户选择;待接收到用户的选择指令后,使用用户选择的中文近义词替换所述选中的中文字段中的原有中文。
作为一种实现方式,所述方法还包括:
将识别出的英文表头中的英文字段翻译成中文字段,向用户提供选中的中文字段的中文校正窗口;
当通过所述窗口接收到用户的中文校正结果后,用所述中文校正结果更新选中的中文字段中的对应中文。
作为一种实现方式,所述识别表格中的英文表头,并将识别出的英文表头中的英文字段翻译成中文字段,包括:
识别表格中的英文表头后,判断是否存在所述英文表头字段的中文翻译,如果存在,使用已存在的中文翻译将识别出的英文表头字段翻译成中文;如果不存在,调用英中翻译功能将识别出的英文表头字段翻译成中文。
作为一种实现方式,所述将获取的中文近义词提供给用户选择,包括:
当获取多个中文近义词时,对所述多个中文近义词排序后提供给用户选择。
本发明实施例还提供了一种表格中表头信息识别和整理的系统,包括:
翻译模块,用于识别表格中的英文表头,并将识别出的英文表头中的英文字段翻译成中文字段;
对齐模块,用于获取选中的中文字段中的中文近义词,并将获取的中文近义词提供给用户选择;待接收到用户的选择指令后,使用用户选择的中文近义词替换所述选中的中文字段中的原有中文。
作为一种实现方式,翻译模块,还用于将识别出的英文表头中的英文字段翻译成中文字段,向用户提供选中的中文字段的中文校正窗口;当通过所述窗口接收到用户的中文校正结果后,用所述中文校正结果更新选中的中文字段中的对应中文。
作为一种实现方式,所述翻译模块,用于识别表格中的英文表头,并将识别出的英文表头中的英文字段翻译成中文字段,包括:
识别表格中的英文表头后,判断是否存在所述英文表头字段的中文翻译,如果存在,使用已存在的中文翻译将识别出的英文表头字段翻译成中文;如果不存在,调用英中翻译功能将识别出的英文表头字段翻译成中文。
作为一种实现方式,所述对齐模块,用于将获取的中文近义词提供给用户选择,包括:
当获取多个中文近义词时,对所述多个中文近义词排序后提供给用户选择。
本发明实施例还提供了一种计算机可读存储介质,所述介质存储有计算机可执行指令,所述计算机可执行指令被处理器执行时实现如前所述的表格中表头信息识别和整理的方法的步骤。
本发明实施例还提供了一种表格中表头信息识别和整理的终端,包括:
存储器,用于存储计算机可执行指令;
处理器,用于执行所述计算机可执行指令,以实现如前所述的表格中表头信息识别和整理的方法的步骤
与现有技术相比,本发明包括:识别表格中的英文表头,并将识别出的英文表头中的英文字段翻译成中文字段;获取选中的中文字段中的中文近义词,并将获取的中文近义词提供给用户选择;待接收到用户的选择指令后,使用用户选择的中文近义词替换所述选中的中文字段中的原有中文。本发明能够将不同表格的表头中含义一致的字段做融合处理。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
附图用来提供对本发明技术方案的进一步理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本发明的技术方案,并不构成对本发明技术方案的限制。
图1为本发明实施例提供的表格中表头信息识别和整理的方法流程图;
图2为本发明应用示例中通过应用程序登录界面示意图;
图3为本发明应用示例中通过应用程序进行表头字段英译中示意图;
图4为本发明应用示例中通过应用程序进行中文字段中文近义词推荐示意图;
图5为本发明实施例提供的表格中表头信息识别和整理系统组成模块图;
图6为本发明应用示例中组成表格中表头信息识别和整理系统的客户端功能示意图;
图7为本发明应用示例中组成表格中表头信息识别和整理系统的服务器端功能示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下文中将结合附图对本发明的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本发明实施例提供了一种表格中表头信息识别和整理的方法,如图1所示,所述方法包括:
S101识别表格中的英文表头,并将识别出的英文表头中的英文字段翻译成中文字段;
作为一种实现方式,所述识别表格中的英文表头,并将识别出的英文表头中的英文字段翻译成中文字段,包括:
识别表格中的英文表头后,判断是否存在所述英文表头字段的中文翻译,如果存在,使用已存在的中文翻译将识别出的英文表头字段翻译成中文;如果不存在,调用英中翻译功能将识别出的英文表头字段翻译成中文。
S102获取选中的中文字段中的中文近义词,并将获取的中文近义词提供给用户选择;
作为一种实现方式,所述将获取的中文近义词提供给用户选择,包括:
当获取多个中文近义词时,对所述多个中文近义词排序后提供给用户选择。
所述中文近义词可以由技术人员预先存储,也可以由应用程序在对表格表头处理的过程中不断存储获得,如应用程序不断存储经过翻译的英文表头字段的中文含义,经过一段时间后,若对一个英文表头存储了多个中文含义,那么存储的多个中文含义彼此互为中文近义词;
对多个中文近义词的排序方法包括:按近义词与选中中文字段的编辑距离从小到大排序;根据近义词的词向量与选中中文字段的词向量的欧式距离从小到大排序;
S103待接收到用户的选择指令后,使用用户选择的中文近义词替换所述选中的中文字段中的原有中文。
作为一种实现方式,所述方法还包括:
将识别出的英文表头中的英文字段翻译成中文字段,向用户提供选中的中文字段的中文校正窗口;当通过所述窗口接收到用户的中文校正结果后,用所述中文校正结果更新选中的中文字段中的对应中文。本发明中对英中翻译结果提供人工校正功能,提高了英中翻译的准确度。
上述实施例能够获取表格表头中中文字段的中文近义词,方便用户将不同表格的表头中含义一致的字段赋予相同的字段名。
下面以一个具体的应用示例对上述实施例所述的表格中表头信息识别和整理的方法进行说明。
用户通过移动设备访问表格处理应用程序;
应用程序提示用户输入用户名和密码,如图2所示,应用程序检查用户输入的用户名和密码:
如果用户名和密码匹配,则提示用户登录成功;如果用户名和密码不匹配,提示用户重新输入;
用户登录成功后,接收用户指令调用OCR技术获取纸质元数据表格的扫描件并存储于服务器端,并且为用户上传的每一个表格扫描件赋予一个文件名;
如果以上步骤成功完成,则提示用户扫描件上传成功,否则提示用户重新上传;
用户可以查看已上传的扫描件列表,根据文件名对所需的扫描件进行检索;
当接收到用户对所需的扫描件发送的识别指令后,自动识别扫描件中表格的英文表头,如果识别成功,可以以表格形式呈现所述英文表头;如果识别失败,可以通知用户重新上传所述所需的扫描件;
当接收到用户对英文表头字段的英译中翻译指令后,判断该文件名对应的扫描件是否已经被翻译,如果已经翻译过,直接调用保存的翻译结果;如果没有翻译过,将表头中的英文字段翻译为中文字段;可以一次将英文表头中的全部英文字段翻译成中文字段,也可以逐个选中英文表头中的英文字段翻译成中文字段;如图3所示;
将识别出的英文表头翻译成中文表头后,应用程序向用户提供表头中被用户选中的中文字段的中文校正窗口;当通过所述窗口接收到用户的中文校正结果后,用所述中文校正结果更新选中的中文字段中的对应中文;
当接收到用户对表头中某个中文字段的选择指令后,应用程序调用近义词功能获取多个该中文字段的中文近义词,对所述多个中文近义词排序后提供给用户选择,如图4所示;
接收用户从列表中选择的含义正确的字段名替换该中文字段中的对应中文;
当表头中的所有中文字段调整完后,可以将中英文字段以表格的形式导出存储,并记录为对应扫描件ID下的英译中结果。
本发明实施例还提供了一种表格中表头信息识别和整理的系统,如图5所示,包括:
翻译模块501,用于识别表格中的英文表头,并将识别出的英文表头中的英文字段翻译成中文字段;
作为一种实现方式,所述翻译模块501,用于识别表格中的英文表头,并将识别出的英文表头中的英文字段翻译成中文字段,包括:
识别表格中的英文表头后,判断是否存在所述英文表头字段的中文翻译,如果存在,使用已存在的中文翻译将识别出的英文表头字段翻译成中文;如果不存在,调用英中翻译功能将识别出的英文表头字段翻译成中文;
对齐模块502,用于获取选中的中文字段中的中文近义词,并将获取的中文近义词提供给用户选择;待接收到用户的选择指令后,使用用户选择的中文近义词替换所述选中的中文字段中的原有中文。
作为一种实现方式,所述对齐模块502,用于将获取的中文近义词提供给用户选择,包括:当获取多个中文近义词时,对所述多个中文近义词排序后提供给用户选择。所述中文近义词可以由技术人员预先存储,也可以由应用程序在对表格表头处理的过程中不断存储获得,如应用程序不断存储经过翻译的英文表头字段的中文含义,经过一段时间后,若对一个英文表头存储了多个中文含义,那么存储的多个中文含义彼此互为中文近义词。对多个中文近义词的排序方法包括:按近义词与选中中文字段的编辑距离从小到大排序;根据近义词的词向量与选中中文字段的词向量的欧式距离从小到大排序。
作为一种实现方式,翻译模块501,还用于将识别出的英文表头中的英文字段翻译成中文字段,向用户提供选中的中文字段的中文校正窗口;当通过所述窗口接收到用户的中文校正结果后,用所述中文校正结果更新选中的中文字段中的对应中文。本发明中对英中翻译结果提供人工校正功能,提高了英中翻译的准确度。
上述实施例能够获取表格表头中中文字段的中文近义词,方便用户将不同表格的表头中含义一致的字段赋予相同的字段名。
下面以一个具体的应用示例对上述表格中表头信息识别和整理的系统进行说明。
所述系统可以包括客户端和服务器端两部分,其中,
客户端的功能可以包括:用户登录、数据图片识别和管理以及数据图片文件列表管理,如图6所示;
其中,用户登录功能,用于用户登录表格中表头信息识别和整理的系统,如果登录信息与存储信息不符,提示用户重新登录;
数据图片识别管理功能,用于进行图片的OCR识别,并接收用户上传的数据图片,如果能够识别用户上传的数据图片,向用户展示英文表头中的英文字段对应的中文含义;当用户点击中文字段时向用户列出推荐的中文近义词;以及可以将中英文字段以excel表格的形式导出;
数据图片文件列表管理功能,用于判断用户是否已成功上传数据图片,如果上传不成功,通知用户重新上传;如果上传成功,对用户上传的数据图片进行管理。
服务器端的功能,如图7所示,包括:OCR转换;将识别出的英文表头中的英文字段翻译成中文字段;提供中文字段的近义词。
本发明实施例还提供了一种计算机可读存储介质,所述介质存储有计算机可执行指令,所述计算机可执行指令被处理器执行时实现如前实施例所述的表格中表头信息识别和整理的方法的步骤。
本发明实施例还提供了一种表格中表头信息识别和整理的终端,包括:
存储器,用于存储计算机可执行指令;
处理器,用于执行所述计算机可执行指令,以实现如前实施例所述的表格中表头信息识别和整理的方法的步骤
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中,在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些组件或所有组件可以被实施为由处理器,如数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。

Claims (10)

1.一种表格中表头信息识别和整理的方法,其特征在于,包括:
识别表格中的英文表头,并将识别出的英文表头中的英文字段翻译成中文字段;
获取选中的中文字段中的中文近义词,并将获取的中文近义词提供给用户选择;待接收到用户的选择指令后,使用用户选择的中文近义词替换所述选中的中文字段中的原有中文。
2.根据权利要求1所述的表格中表头信息识别和整理的方法,其特征在于,还包括:
将识别出的英文表头中的英文字段翻译成中文字段,向用户提供选中的中文字段的中文校正窗口;
当通过所述窗口接收到用户的中文校正结果后,用所述中文校正结果更新选中的中文字段中的对应中文。
3.根据权利要求1或2所述的表格中表头信息识别和整理的方法,其特征在于,所述识别表格中的英文表头,并将识别出的英文表头中的英文字段翻译成中文字段,包括:
识别表格中的英文表头后,判断是否存在所述英文表头字段的中文翻译,如果存在,使用已存在的中文翻译将识别出的英文表头字段翻译成中文;如果不存在,调用英中翻译功能将识别出的英文表头字段翻译成中文。
4.根据权利要求3所述的表格中表头信息识别和整理的方法,其特征在于,所述将获取的中文近义词提供给用户选择,包括:
当获取多个中文近义词时,对所述多个中文近义词排序后提供给用户选择。
5.一种表格中表头信息识别和整理的系统,其特征在于,包括:
翻译模块,用于识别表格中的英文表头,并将识别出的英文表头中的英文字段翻译成中文字段;
对齐模块,用于获取选中的中文字段中的中文近义词,并将获取的中文近义词提供给用户选择;待接收到用户的选择指令后,使用用户选择的中文近义词替换所述选中的中文字段中的原有中文。
6.根据权利要求5所述的表格中表头信息识别和整理的系统,其特征在于,
翻译模块,还用于将识别出的英文表头中的英文字段翻译成中文字段,向用户提供选中的中文字段的中文校正窗口;当通过所述窗口接收到用户的中文校正结果后,用所述中文校正结果更新选中的中文字段中的对应中文。
7.根据权利要求5或6所述的表格中表头信息识别和整理的系统,其特征在于,所述翻译模块,用于识别表格中的英文表头,并将识别出的英文表头中的英文字段翻译成中文字段,包括:
识别表格中的英文表头后,判断是否存在所述英文表头字段的中文翻译,如果存在,使用已存在的中文翻译将识别出的英文表头字段翻译成中文;如果不存在,调用英中翻译功能将识别出的英文表头字段翻译成中文。
8.根据权利要求7所述的表格中表头信息识别和整理的系统,其特征在于,所述对齐模块,用于将获取的中文近义词提供给用户选择,包括:
当获取多个中文近义词时,对所述多个中文近义词排序后提供给用户选择。
9.一种计算机可读存储介质,其特征在于,所述介质存储有计算机可执行指令,所述计算机可执行指令被处理器执行时实现如权利要求1至4中任一项所述的表格中表头信息识别和整理的方法的步骤。
10.一种表格中表头信息识别和整理的终端,其特征在于,包括:
存储器,用于存储计算机可执行指令;
处理器,用于执行所述计算机可执行指令,以实现如权利要求1至4中任一项所述的表格中表头信息识别和整理的方法的步骤。
CN201910082265.3A 2019-01-28 2019-01-28 表格中表头信息识别和整理方法、系统、终端和存储介质 Pending CN109902673A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910082265.3A CN109902673A (zh) 2019-01-28 2019-01-28 表格中表头信息识别和整理方法、系统、终端和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910082265.3A CN109902673A (zh) 2019-01-28 2019-01-28 表格中表头信息识别和整理方法、系统、终端和存储介质

Publications (1)

Publication Number Publication Date
CN109902673A true CN109902673A (zh) 2019-06-18

Family

ID=66944344

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910082265.3A Pending CN109902673A (zh) 2019-01-28 2019-01-28 表格中表头信息识别和整理方法、系统、终端和存储介质

Country Status (1)

Country Link
CN (1) CN109902673A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110532526A (zh) * 2019-07-23 2019-12-03 平安科技(深圳)有限公司 数据转化方法、电子装置及计算机可读存储介质
CN113837151A (zh) * 2021-11-25 2021-12-24 恒生电子股份有限公司 表格图像处理方法、装置、计算机设备及可读存储介质
CN115175019A (zh) * 2022-07-01 2022-10-11 深圳市千宝通通科技有限公司 一种智能抄表数据管理系统及方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1687877A (zh) * 2005-04-14 2005-10-26 刘伊翰 中英通双向汉字输入法
US20060241934A1 (en) * 2005-04-26 2006-10-26 Kabushiki Kaisha Toshiba Apparatus and method for translating Japanese into Chinese, and computer program product therefor
CN101908136A (zh) * 2009-06-08 2010-12-08 比亚迪股份有限公司 一种表格识别处理方法及系统
CN102622346A (zh) * 2011-01-26 2012-08-01 中国科学院上海生命科学研究院 中文文献数据库的蛋白质知识挖掘和发现的方法、装置、系统
CN102708205A (zh) * 2012-05-21 2012-10-03 徐文和 一种供机器运用语言规律识别语言信息的方法
CN102789461A (zh) * 2011-05-19 2012-11-21 富士通株式会社 多语词典构建装置和多语词典构建方法
CN104881398A (zh) * 2014-08-29 2015-09-02 北京大学 中国作者所发英文文献的作者机构信息抽取方法
CN106339371A (zh) * 2016-08-30 2017-01-18 齐鲁工业大学 一种基于词向量的英汉词义映射方法和装置
CN106741017A (zh) * 2016-12-26 2017-05-31 广州地铁集团有限公司 基于轨道交通信号系统中报文分析的故障排查方法及系统
CN107451130A (zh) * 2017-08-17 2017-12-08 齐鲁工业大学 一种结合中英知识资源的中文词语语义关系识别方法和装置

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1687877A (zh) * 2005-04-14 2005-10-26 刘伊翰 中英通双向汉字输入法
US20060241934A1 (en) * 2005-04-26 2006-10-26 Kabushiki Kaisha Toshiba Apparatus and method for translating Japanese into Chinese, and computer program product therefor
CN101908136A (zh) * 2009-06-08 2010-12-08 比亚迪股份有限公司 一种表格识别处理方法及系统
CN102622346A (zh) * 2011-01-26 2012-08-01 中国科学院上海生命科学研究院 中文文献数据库的蛋白质知识挖掘和发现的方法、装置、系统
CN102789461A (zh) * 2011-05-19 2012-11-21 富士通株式会社 多语词典构建装置和多语词典构建方法
CN102708205A (zh) * 2012-05-21 2012-10-03 徐文和 一种供机器运用语言规律识别语言信息的方法
CN104881398A (zh) * 2014-08-29 2015-09-02 北京大学 中国作者所发英文文献的作者机构信息抽取方法
CN106339371A (zh) * 2016-08-30 2017-01-18 齐鲁工业大学 一种基于词向量的英汉词义映射方法和装置
CN106741017A (zh) * 2016-12-26 2017-05-31 广州地铁集团有限公司 基于轨道交通信号系统中报文分析的故障排查方法及系统
CN107451130A (zh) * 2017-08-17 2017-12-08 齐鲁工业大学 一种结合中英知识资源的中文词语语义关系识别方法和装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110532526A (zh) * 2019-07-23 2019-12-03 平安科技(深圳)有限公司 数据转化方法、电子装置及计算机可读存储介质
CN110532526B (zh) * 2019-07-23 2024-04-26 平安科技(深圳)有限公司 数据转化方法、电子装置及计算机可读存储介质
CN113837151A (zh) * 2021-11-25 2021-12-24 恒生电子股份有限公司 表格图像处理方法、装置、计算机设备及可读存储介质
CN113837151B (zh) * 2021-11-25 2022-02-22 恒生电子股份有限公司 表格图像处理方法、装置、计算机设备及可读存储介质
CN115175019A (zh) * 2022-07-01 2022-10-11 深圳市千宝通通科技有限公司 一种智能抄表数据管理系统及方法

Similar Documents

Publication Publication Date Title
US20210049708A1 (en) Tax document imaging and processing
CN101882227B (zh) 基于图像匹配和网络查询的识别方法及系统
US7203663B1 (en) System and method for converting information on paper forms to electronic data
CN109902673A (zh) 表格中表头信息识别和整理方法、系统、终端和存储介质
US9558158B2 (en) Automated document translation
US9621628B1 (en) Mobile image capture and transmission of documents to a secure repository
US20130304861A1 (en) Document workflow architecture
WO2017088670A1 (zh) 一种打印控制系统和方法
CN102622592A (zh) 一种基于云技术的名片识别方法
CN108304815B (zh) 一种数据获取方法、装置、服务器及存储介质
US11765292B2 (en) Information processing apparatus used for converting image to file, image processing system, method of controlling information processing apparatus, and storage medium
CN110036626A (zh) 用于将图像扫描任务分发给联网设备的系统
US7565013B2 (en) Character recognition method, method of processing correction history of character data, and character recognition system
CN112669000A (zh) 政务事项处理方法、装置、电子设备及存储介质
CN113094287A (zh) 页面兼容性检测方法、装置、设备及存储介质
CN112540965A (zh) 一种纸质合同管理方法
US9384180B2 (en) Methods and systems for processing filled forms
US8768058B2 (en) System for extracting text from a plurality of captured images of a document
WO2017107698A1 (zh) 一种打印控制系统和方法
WO2013177240A1 (en) Textual information extraction method using multiple images
US20200250578A1 (en) Computer, method of generating learning data, and computer system
US20230156138A1 (en) Information processing apparatus, method of controlling information processing apparatus, and storage medium
CN111178352A (zh) 一种验证码字符识别的方法和装置
EP3696761A1 (en) Method and system for preventing upload of multimedia content with objectionable content into a server
CN110415796A (zh) 用于医疗设备的资产管理方法、资产管理平台、计算机可读存储介质及移动终端

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190618