CN101620593B - 解析电子表单的内容的方法及电子表单服务器 - Google Patents
解析电子表单的内容的方法及电子表单服务器 Download PDFInfo
- Publication number
- CN101620593B CN101620593B CN2008101272690A CN200810127269A CN101620593B CN 101620593 B CN101620593 B CN 101620593B CN 2008101272690 A CN2008101272690 A CN 2008101272690A CN 200810127269 A CN200810127269 A CN 200810127269A CN 101620593 B CN101620593 B CN 101620593B
- Authority
- CN
- China
- Prior art keywords
- zone
- electronic spreadsheet
- resolved
- context identifier
- electronic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 30
- 230000015654 memory Effects 0.000 claims description 28
- 238000013519 translation Methods 0.000 claims description 8
- 230000015572 biosynthetic process Effects 0.000 claims description 5
- 238000003786 synthesis reaction Methods 0.000 claims description 5
- 239000000284 extract Substances 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 2
- 230000002194 synthesizing effect Effects 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 8
- 235000006508 Nelumbo nucifera Nutrition 0.000 description 4
- 240000002853 Nelumbo nucifera Species 0.000 description 4
- 235000006510 Nelumbo pentapetala Nutrition 0.000 description 4
- 238000013461 design Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000035807 sensation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/174—Form filling; Merging
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Transfer Between Computers (AREA)
Abstract
一种在电子表单服务器上解析电子表单的内容的方法,其中电子表单被划分成多个相互独立的区域,每一个区域具有用于标识该区域的标识符,电子表单服务器包括用于缓存电子表单的已被解析的区域的解析结果的缓存器,该方法包括:获取电子表单的每个区域的内容识别码,其中,内容识别码用于标识所述区域的内容;根据每个区域的内容识别码,确定已被解析的区域和未被解析的区域;取出已被解析的区域的解析结果;对未被解析的区域的内容进行解析;用未被解析的区域的标识符、内容识别码和解析结果更新缓存器;合成已被解析的区域的解析结果和未被解析的区域的解析结果。本发明可以改善解析电子表单的内容的效率和电子表单服务器的性能,降低电子表单服务器的解析工作量。
Description
技术领域
本发明涉及电子表单的处理技术,具体地,涉及在电子表单服务器上解析电子表单的内容的方法和相应的电子表单服务器。
背景技术
当前,电子表单在各个不同的行业中得到越来越广泛的应用,例如银行业、保险业等。通常,当终端用户在电子表单客户机上填写了电子表单的内容并提交后,所提交的电子表单的内容需要在电子表单服务器侧进行解析,以构成后端其它商业服务或应用所需的输入。因此,对电子表单的内容进行解析成为电子表单服务器的主要的工作负荷。
通常,电子表单服务器在运行时直接对所提交的电子表单的全部内容进行解析,这种解析方式对于正常大小的电子表单具有一定的效率。然而,目前在一些行业中使用的电子表单通常都具有相当大的尺寸并且复杂,而且有时会有多个电子表单并行地提交给电子表单服务器,如果采用上述的直接对所提交的电子表单的全部内容进行解析的方式,则电子表单服务器将花费大量的时间和资源对电子表单的内容进行解析,从而对电子表单服务器的性能带来很大的影响,甚至可能导致电子表单服务器无法工作。
另外,当在面向服务的体系架构(SOA)中集成了电子表单时,如果采用上述的电子表单的内容的解析方式,则会给终端用户带来响应时间长、系统性能差的感觉。
下面根据IBM公司的Lotus WebForm服务器描述现有的一种解析电子表单的内容的体系结构。该Lotus WebForm服务器在运行时可以将XFDL格式的电子表单翻译成DHTML格式,这使终端用户可以只使用Web浏览器就能够观看、填写并提交XFDL格式的电子表单。换句话说,终端用户无需下载或安装浏览器插件或其它程序就能填写XFDL格式的电子表单。
例如,ACORD PCS XFDL电子表单是保险行业所使用的标准电子表单,其尺寸非常大。ACORD XFDL电子表单被发送到上述WebForm服务器,由WebForm服务器在终端用户请求该电子表单时,将其翻译为DHTML格式,以便终端用户通过Web浏览器填写。具体地,当终端用户通过Web浏览器请求某个电子表单时,WebForm服务器响应该请求,取出所请求的XFDL电子表单,将其翻译成DHTML格式,然后呈现在Web浏览器上供终端用户填写。当终端用户提交或者修改了所填写的电子表单后,WebForm服务器将该电子表单再翻译成XFDL格式,然后进行相应的处理。在这种情况下,虽然被改变的电子表单的部分仅仅占整个电子表单的内容的大约10%,但是WebForm服务器每次都将对电子表单的全部内容进行翻译,也就是说,对于每次提交的电子表单,大约90%的相同的电子表单的内容需要重复翻译。这大大浪费了服务器的时间和资源,因此,当终端用户请求电子表单时将会等待很长的响应时间,有时会达到10-15秒。
综上所述,现有的直接解析电子表单的全部内容的方法对于巨大且复杂的电子表单,解析效率低,并且极大地浪费电子表单服务器的时间和资源,造成服务器性能低下。
发明内容
本发明正是基于上述技术问题而提出的,其目的在于提供一种在电子表单服务器上解析电子表单的内容的方法和相应的电子表单服务器,能够有效地改善电子表单的内容的解析效率,适用于尺寸大并且复杂的电子表单。
根据本发明的一个方面,提供一种在电子表单服务器上解析电子表单的内容的方法,其中,所述电子表单被划分成多个相互独立的区域,并且所述多个区域的每一个具有用于标识该区域的标识符,所述电子表单服务器包括用于缓存电子表单的已被解析的区域的解析结果的缓存器,所述方法包括:获取所述电子表单的每个区域的内容识别码,其中,所述内容识别码用于标识所述区域的内容;根据所述每个区域的内容识别码,确定所述电子表单中已被解析的区域和未被解析的区域;从所述缓存器中取出所述已被解析的区域的解析结果;对所述电子表单中未被解析的区域的内容进行解析;用所述未被解析的区域的标识符、内容识别码和解析结果更新所述缓存器;以及合成所述已被解析的区域的解析结果和所述未被解析的区域的解析结果,以获得所述电子表单的解析结果。
根据本发明的另一个方面,提供一种解析电子表单的内容的电子表单服务器,其中,所述电子表单被划分成多个相互独立的区域,并且所述多个区域的每一个具有用于标识该区域的标识符,该电子表单服务器包括:缓存模块,用于缓存电子表单的已被解析的区域的解析结果;内容识别码获取模块,用于获取所述电子表单的每个区域的内容识别码,其中,所述内容识别码用于标识所述区域的内容;确定模块,用于根据所述每个区域的内容识别码,确定所述电子表单中已被解析的区域和未被解析的区域;取出模块,用于取出所述已被解析的区域的解析结果;解析模块,用于对所述电子表单中未被解析的区域的内容进行解析;更新模块,用于用所述未被解析的区域的标识符、内容识别码和解析结果更新所述缓存模块;以及合成模块,用于合成所述已被解析的区域的解析结果和所述未被解析的区域的解析结果,以获得所述电子表单的解析结果。
附图说明
图1是根据本发明的一个实施例的在电子表单服务器上解析电子表单的内容的方法的流程图;
图2是电子表单的一个例子的示意图;
图3是根据本发明的一个实施例的解析电子表单的内容的电子表单服务器的示意性方框图;
图4是缓存模块的示意性方框图。
具体实施方式
相信通过以下结合附图对本发明的具体实施例的详细描述,本发明的上述和其它目的、特征和优点将变得更加明显。
图1是根据本发明的一个实施例的在电子表单服务器上解析电子表单的内容的方法的流程图。下面结合附图,对本实施例进行详细的描述。
本实施例的在电子表单服务器上解析电子表单的内容的方法是基于以下的事实:在大多数情况下,所提交的电子表单有许多内容是相同的,例如前述的ACORD XFDL电子表单。由于现有的解析电子表单的方法需要对电子表单的全部内容进行解析,因此,这些相同的内容将被重复地解析,这造成电子表单服务器的重复工作。
如图1所示,在设计阶段,电子表单被划分成多个相互独立的区域(步骤S101),即相对于后面的内容解析,这多个区域彼此之间没有从属或引用的关系。另外,每个区域具有唯一的用于标识该区域的标识符,该标识符可以是自动生成的,也可以是自定义的,例如,标识符可以由电子表单的名称加上各自的区域编号构成,如eForm 1-Section 1。
图2示出了电子表单的一个例子的示意图。本领域的普通技术人员已知电子表单有IBM公司提供的Lotus Forms电子表单、Adobe公司提供的PDF电子表单、基于Web的电子表单等。图2所示的电子表单被划分成4个区域,分别是eForm 1-Section 1、eForm 1-Section 2、eForm 1-Section 3和eForm 1-Section 4,这4个区域的内容相互独立。在后面所描述的内容解析中,这4个区域的内容能够被分别地解析。
当电子表单在电子表单客户机端被填写并提交给电子表单服务器后,在步骤S105,获取电子表单的每个区域的内容识别码,该内容识别码用于标识各个区域的内容。
具体地,在一个实施例中,首先,查看所提交的电子表单中是否包含该电子表单的每个区域的内容识别码。如果包含,即每个区域的内容识别码是在电子表单客户机上根据每个区域的内容自动生成的,并与电子表单的内容一起提交给电子表单服务器。在这种情况下,在电子表单服务器侧,从该电子表单中提取每个区域的内容识别码。如果不包含,则在电子表单服务器侧,基于所提交的电子表单的每个区域的内容,生成每个区域的内容识别码。
优选地,内容识别码是哈希代码。对于本领域的普通技术人员来说,生成哈希代码的方法是已知的,在此不再详细描述。另外,本领域的普通技术人员能够理解,除了哈希代码之外,还可以使用其它的基于内容的识别码。
然后,在步骤S110,根据在步骤S105中获取的电子表单的各个区域的内容识别码,确定电子表单中已被解析的区域和未被解析的区域。
在本实施例中,电子表单服务器具有用于缓存电子表单的各个区域的解析结果的缓存器,一旦电子表单的某个区域的内容被解析,该区域的标识符、内容识别码及其解析结果就被缓存进该缓存器中。这样,在对某个电子表单的内容进行解析时,如果发现电子表单中的相同的内容已被解析过,则可以直接利用其解析结果,从而节省电子表单服务器进行内容解析的时间和资源。
进一步地,缓存器对于每个电子表单提供单独的缓存区,并且每个缓存区都包括多个缓存子区,用于分别缓存该电子表单的各区域的解析结果。
在本实施例中,首先对于电子表单中的每个区域,在缓存器中查找是否存在与该区域的内容识别码对应的内容识别码。如果存在,则表明具有该内容识别码的区域的内容已被解析并缓存,那么,确定该区域是该电子表单中已被解析的区域。如果不存在对应的内容识别码,则表明具有该内容识别码的区域的内容未被解析,确定该区域是该电子表单中未被解析的区域。对于未被解析的区域,进一步在缓存器中查找该区域的标识符,如果查找到该区域的标识符,则清除该区域的标识符所对应的内容识别码和解析结果。
然后,在步骤S115中,从缓存器中取出在步骤S110中确定为已被解析的区域的解析结果。在一个实施例中,在确定了电子表单的已被解析的区域后,根据该区域的标识符在缓存器中查找相应的缓存子区,再根据内容识别码确定相应的解析结果。
对于电子表单中未被解析的区域,则在步骤S120中,对这些区域的内容进行解析。在本实施例中,所谓解析可被认为是任何对电子表单的内容进行的处理,以便解析结果能够被后端的商业服务或应用识别或使用,例如,格式翻译、计算、分析等。具体的解析操作可以由电子表单服务器根据不同的要求而定制,例如,对于前述的Lotus WebForm服务器,该解析操作定制为XFDL与DHTML之间的格式翻译。优选地,在本实施例中,内容解析是指将内容翻译成所需的格式。
在步骤S125,用未被解析的区域的标识符、内容识别码和解析结果更新缓存器,即在缓存器中缓存或更新这些区域的标识符、内容识别码和解析结果。这样,如果下一个电子表单中相应的区域的内容没有改变,则可以直接取出所缓存的该区域的解析结果,而无需再次进行内容解析。对于用相同的区域标识符表示的同一区域,如果内容识别码发生改变,则表示该区域的内容发生改变,则清除原有的解析结果,缓存新的解析结果。
然后,在步骤S130,将在步骤S115中取出的已被解析的区域的解析结果和在步骤S120中得到的未被解析的区域的解析结果进行合成,以获得电子表单的总的解析结果。该合成操作与解析操作是相对应的,也可由电子表单服务器根据要求进行定制。例如,当解析操作被定制为电子表单的格式翻译时,则合成操作被定制为将每个被翻译后的电子表单区域合并成为单个完整的翻译结果。
这样,解析后的电子表单的内容可提供给后端的其它商业服务或应用进行进一步的操作。
通过以上描述可以看出,采用本实施例的解析电子表单的内容的方法,由于可在设计阶段将电子表单划分成多个区域,再以区域为单位进行内容的解析,并且对于已被解析的区域直接取出所缓存的解析结果,而不再进行内容的解析,即使电子表单的尺寸较大并且复杂,也可以改善解析电子表单的内容的效率和电子表单服务器的性能,降低电子表单服务器的解析工作量,从而能够节约电子表单服务器进行内容解析的时间和资源。
在同一个发明构思下,图3本是根据本发明的一个实施例的解析电子表单的内容的电子表单服务器的示意性方框图,其中,与前面实施例相同的部分,适当省略其说明。下面结合附图,对本实施例进行详细的描述。
在本实施例中,如前所述,电子表单被划分成多个相互独立的区域,并且每一个区域都具有用于唯一标识该区域的标识符。
如图3所示,本实施例的解析电子表单的内容的电子表单服务器包括:缓存模块301,其缓存电子表单的已被解析的区域的解析结果;内容识别码获取模块302,其可获取电子表单的每个区域的内容识别码,其中,内容识别码用于标识各个区域的内容;确定模块303,其根据由内容识别码获取模块302获得的每个区域的内容识别码,确定电子表单中已被解析的区域和未被解析的区域;取出模块304,其取出由确定模块303确定的已被解析的区域的解析结果;解析模块305,其对电子表单中未被解析的区域的内容进行解析;更新模块306,其用未被解析的区域的标识符、内容识别码和解析结果更新缓存模块301;以及合成模块307,其合成由取出模块304取出的已被解析的区域的解析结果和由解析模块305解析获得的未被解析的区域的解析结果,以获得电子表单的解析结果。
当电子表单在电子表单客户机端被填写并提交给本实施例的电子表单服务器后,在内容识别码获取模块302中,首先,查看单元查看所提交的电子表单中是否包含有每个区域的内容识别码。如果电子表单中包含每个区域的内容识别码,即每个区域的内容识别码已在电子表单客户机上根据每个区域的内容自动生成,则提取单元从所提交的电子表单中提取每个区域的内容识别码。如果电子表单中不包含每个区域的内容识别码,则由内容识别码生成单元基于所提交的电子表单的每个区域的内容,生成每个区域的内容识别码。
优选地,内容识别码是哈希代码。当然,对于本领域的普通技术人员来说,也可以使用其它的基于内容的识别码。
当在内容识别码获取模块302中获得了电子表单的每个区域的内容识别码后,在确定模块303中,对于电子表单中的每个区域,由查找单元在缓存模块301中查找是否存在与该区域的内容识别码对应的内容识别码。当在查找单元查找到存在对应的内容识别码时,确定单元确定具有该内容识别码的区域是已被解析的区域。当查找单元没有找到对应的内容识别码时,确定单元确定具有该内容识别码的区域是未被解析的区域。进一步地,对于未被解析的区域,查找单元在缓存器中查找是否存在该区域的标识符,如果查找到该区域的标识符,则由清除单元清除该区域的标识符所对应的内容识别码和解析结果。
然后,取出模块304从缓存模块301中取出已被解析的区域的解析结果,并且,解析模块305对未被解析的区域的内容进行解析。如前所述,解析模块305的操作可以是格式翻译、计算、分析等,可根据具体的要求定制。优选地,解析模块305包括翻译单元,其将电子表单的内容翻译成所需的格式。
然后,更新模块306用解析后的解析结果与该区域的标识符和内容识别码更新缓存模块301,即将该区域的标识符、内容识别码和解析结果存入缓存模块301中。
图4示出了缓存模块301的示意性方框图。在一个实施例中,缓存模块301对于每一个电子表单具有单独的缓存区,例如,电子表单1缓存区、电子表单2缓存区。在各个电子表单缓存区,具有多个缓存子区,每个缓存子区与该电子表单的一个区域相对应。例如,电子表单1被划分成5个区域,分别为eForm 1-Section 1、eForm 1-Section 2、eForm 1-Section 3、eForm 1-Section 4和eForm 1-Section 5,相应地,在电子表单1缓存区中,具有5个缓存子区,而每个缓存子区了存储电子表单的对应区域的标识符、内容识别码和内容的解析结果。
进一步地,取出模块304可包括:缓存子区查找单元,用于根据已被解析的区域的标识符,在缓存模块301中查找对应的缓存子区;以及解析结果确定单元,用于根据已被解析的区域的内容识别码,确定对应的解析结果。
然后,合成模块307将由取出模块304取出的已被解析的区域的解析结果和在解析模块305得到的未被解析的区域的解析结果进行合成,从而获得电子表单的内容的解析结果。如前所述,合成模块307的合成操作与解析模块305的解析操作是对应的。
应当指出,本实施例的解析电子表单的内容的电子表单服务器及其组件可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现,也可以用由各种类型的处理器执行的软件实现,也可以由上述硬件电路和软件的结合实现。并且,本实施例的解析电子表单的内容的电子表单服务器在操作上可实现如图1所示的在电子表单服务器上解析电子表单的内容的方法。
以上虽然通过示例性的实施例详细描述了本发明的在电子表单服务器上解析电子表单的内容的方法和相应的电子表单服务器,但是以上这些实施例并不是穷举的,本领域的普通技术人员可以在本发明的精神和范围内实现各种变化和修改。因此,本发明并不限于这些实施例,本发明的范围仅由所附的权利要求限定。
Claims (17)
1.一种在电子表单服务器上解析电子表单的内容的方法,其中,所述电子表单被划分成多个相互独立的区域,并且所述多个区域的每一个具有用于标识该区域的标识符,所述电子表单服务器包括用于缓存电子表单的已被解析的区域的解析结果的缓存器,所述方法包括:
获取所述电子表单的每个区域的内容识别码,其中,所述内容识别码用于标识所述区域的内容;
根据所述每个区域的内容识别码,确定所述电子表单中已被解析的区域和未被解析的区域;
从所述缓存器中取出所述已被解析的区域的解析结果;
对所述电子表单中未被解析的区域的内容进行解析;
用所述未被解析的区域的标识符、内容识别码和解析结果更新所述缓存器;以及
合成所述已被解析的区域的解析结果和所述未被解析的区域的解析结果,以获得所述电子表单的解析结果。
2.根据权利要求1所述的在电子表单服务器上解析电子表单的内容的方法,其中,所述获取所述电子表单的每个区域的内容识别码的步骤包括:
查看所述电子表单中是否包含所述每个区域的内容识别码;
如果包含,则从所述电子表单中提取每个区域的内容识别码;
如果不包含,则基于所述电子表单的每个区域的内容,生成每个区域的内容识别码。
3.根据权利要求1或2所述的在电子表单服务器上解析电子表单的内容的方法,其中,所述确定所述电子表单中已被解析的区域的步骤包括:
对于所述电子表单中的每个区域,在所述缓存器中查找是否存在与该区域的内容识别码对应的内容识别码;
如果存在,则确定具有该内容识别码的区域是已被解析的区域;以及
如果不存在,则确定具有该内容识别码的区域是未被解析的区域。
4.根据权利要求3所述的在电子表单服务器上解析电子表单的内容的方法,其中,所述确定所述电子表单中已被解析的区域的步骤还包括:
对于所确定的未被解析的区域,在缓存器中查找所述未被解析的区域的标识符;
如果查找到所述未被解析的区域的标识符,则清除该区域的标识符所对应的内容识别码和解析结果。
5.根据权利要求1或2所述的在电子表单服务器上解析电子表单的内容的方法,其中,所述缓存器对每个电子表单提供单独的缓存区,每个缓存区包括:多个缓存子区,其分别与所述电子表单的多个区域相对应,并缓存该区域的标识符、内容识别码及其解析结果;
所述取出所述已被解析的区域的解析结果的步骤包括:
根据所述已被解析的区域的标识符,在所述缓存器中查找对应的缓存子区;以及
根据所述已被解析的区域的内容识别码,确定对应的解析结果。
6.根据权利要求3所述的在电子表单服务器上解析电子表单的内容的方法,其中,所述缓存器对每个电子表单提供单独的缓存区,每个缓存区包括:多个缓存子区,其分别与所述电子表单的多个区域相对应,并缓存该区域的标识符、内容识别码及其解析结果;
所述取出所述已被解析的区域的解析结果的步骤包括:
根据所述已被解析的区域的标识符,在所述缓存器中查找对应的缓存子区;以及
根据所述已被解析的区域的内容识别码,确定对应的解析结果。
7.根据权利要求4所述的在电子表单服务器上解析电子表单的内容的方法,其中,所述缓存器对每个电子表单提供单独的缓存区,每个缓存区包括:多个缓存子区,其分别与所述电子表单的多个区域相对应,并缓存该区域的标识符、内容识别码及其解析结果;
所述取出所述已被解析的区域的解析结果的步骤包括:
根据所述已被解析的区域的标识符,在所述缓存器中查找对应的缓存子区;以及
根据所述已被解析的区域的内容识别码,确定对应的解析结果。
8.根据权利要求1或2所述的在电子表单服务器上解析电子表单的内容的方法,其中,所述解析步骤包括:将所述内容翻译成所需的格式。
9.根据权利要求1或2所述的在电子表单服务器上解析电子表单的内容的方法,其中,所述内容识别码是哈希代码。
10.一种解析电子表单的内容的电子表单服务器,其中,所述电子表单被划分成多个相互独立的区域,并且所述多个区域的每一个具有用于标识该区域的标识符,该电子表单服务器包括:
缓存模块,用于缓存电子表单的已被解析的区域的解析结果;
内容识别码获取模块,用于获取所述电子表单的每个区域的内容识别码,其中,所述内容识别码用于标识所述区域的内容;
确定模块,用于根据所述每个区域的内容识别码,确定所述电子表单中已被解析的区域和未被解析的区域;
取出模块,用于取出所述已被解析的区域的解析结果;
解析模块,用于对所述电子表单中未被解析的区域的内容进行解析;
更新模块,用于用所述未被解析的区域的标识符、内容识别码和解析结果更新所述缓存模块;以及
合成模块,用于合成所述已被解析的区域的解析结果和所述未被解析的区域的解析结果,以获得所述电子表单的解析结果。
11.根据权利要求10所述的解析电子表单的内容的电子表单服务器,其中,所述内容识别码获取模块包括:
查看单元,用于查看所述电子表单中是否包含所述每个区域的内容识别码;
提取单元,用于在所述电子表单中包含所述每个区域的内容识别码时,从所述电子表单中提取每个区域的内容识别码;以及
内容识别码生成单元,用于在所述电子表单中不包含所述每个区域的内容识别码时,基于所述电子表单的每个区域的内容,生成每个区域的内容识别码。
12.根据权利要求10或11所述的解析电子表单的内容的电子表单服务器,其中,所述确定模块包括:
查找单元,用于对于所述电子表单中的每个区域,在所述缓存模块中查找是否存在与该区域的内容识别码对应的内容识别码;以及
确定单元,用于在所述查找单元查找到存在对应的内容识别码时,确定具有该内容识别码的区域是已被解析的区域,在所述查找单元没有查找到存在对应的内容识别码时,确定具有该内容识别码的区域是未被解析的区域。
13.根据权利要求12所述的解析电子表单的内容的电子表单服务器,其中,所述查找单元还用于对所述未被解析的区域,在缓存器中查找是否存在该区域的标识符;
所述确定模块还包括:清除单元,用于在所述查找单元查找到所述未被解析的区域的标识符时,清除该区域的标识符所对应的内容识别码和解析结果。
14.根据权利要求10或11的解析电子表单的内容的电子表单服务器,其中,所述缓存模块还用于对每个电子表单提供单独的缓存区,其中,每个缓存区包括:多个缓存子区,其分别与所述电子表单的多个区域相对应,并缓存该区域的标识符、内容识别码及其解析结果。
15.根据权利要求14所述的解析电子表单的内容的电子表单服务器,其中,所述取出模块包括:
缓存子区查找单元,用于根据所述已被解析的区域的标识符,在所述缓存模块中查找对应的缓存子区;以及
解析结果确定单元,用于根据所述已被解析的区域的内容识别码,确定对应的解析结果。
16.根据权利要求10或11所述的解析电子表单的内容的电子表单服务器,其中,所述解析模块包括:翻译单元,用于将所述内容翻译成所需的格式。
17.根据权利要求10或11所述的解析电子表单的内容的电子表单服务器,其中,所述内容识别码是哈希代码。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2008101272690A CN101620593B (zh) | 2008-06-30 | 2008-06-30 | 解析电子表单的内容的方法及电子表单服务器 |
US12/493,798 US8620990B2 (en) | 2008-06-30 | 2009-06-29 | Parsing contents of an e-Form |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2008101272690A CN101620593B (zh) | 2008-06-30 | 2008-06-30 | 解析电子表单的内容的方法及电子表单服务器 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101620593A CN101620593A (zh) | 2010-01-06 |
CN101620593B true CN101620593B (zh) | 2011-07-06 |
Family
ID=41448875
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2008101272690A Expired - Fee Related CN101620593B (zh) | 2008-06-30 | 2008-06-30 | 解析电子表单的内容的方法及电子表单服务器 |
Country Status (2)
Country | Link |
---|---|
US (1) | US8620990B2 (zh) |
CN (1) | CN101620593B (zh) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120036422A1 (en) * | 2010-08-03 | 2012-02-09 | Xerox Corporation | System and method for rendering forms based on an identification number |
US9898455B2 (en) * | 2014-12-01 | 2018-02-20 | Nuance Communications, Inc. | Natural language understanding cache |
US10579721B2 (en) | 2016-07-15 | 2020-03-03 | Intuit Inc. | Lean parsing: a natural language processing system and method for parsing domain-specific languages |
US10725896B2 (en) | 2016-07-15 | 2020-07-28 | Intuit Inc. | System and method for identifying a subset of total historical users of a document preparation system to represent a full set of test scenarios based on code coverage |
US10140277B2 (en) | 2016-07-15 | 2018-11-27 | Intuit Inc. | System and method for selecting data sample groups for machine learning of context of data fields for various document types and/or for test data generation for quality assurance systems |
US11222266B2 (en) | 2016-07-15 | 2022-01-11 | Intuit Inc. | System and method for automatic learning of functions |
US11049190B2 (en) | 2016-07-15 | 2021-06-29 | Intuit Inc. | System and method for automatically generating calculations for fields in compliance forms |
WO2018013692A1 (en) * | 2016-07-15 | 2018-01-18 | Intuit Inc. | System and method for generating structured representations of compliance forms from multiple visual source compliance forms |
CN106709032B (zh) * | 2016-12-29 | 2019-12-20 | 深圳市华傲数据技术有限公司 | 抽取电子表格文档中结构化信息的方法及装置 |
CA3076418C (en) * | 2017-09-22 | 2023-02-21 | Intuit Inc. | Lean parsing: a natural language processing system and method for parsing domain-specific languages |
US10546054B1 (en) * | 2018-02-28 | 2020-01-28 | Intuit Inc. | System and method for synthetic form image generation |
US11163956B1 (en) | 2019-05-23 | 2021-11-02 | Intuit Inc. | System and method for recognizing domain specific named entities using domain specific word embeddings |
US11783128B2 (en) | 2020-02-19 | 2023-10-10 | Intuit Inc. | Financial document text conversion to computer readable operations |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1484797A (zh) * | 2000-12-20 | 2004-03-24 | �Ҵ���˾ | 满足来自网络客户端的信息请求的方法和系统 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020023108A1 (en) * | 1999-09-09 | 2002-02-21 | Neil Daswani | Automatic web form interaction proxy |
US7865414B2 (en) * | 2000-03-01 | 2011-01-04 | Passgate Corporation | Method, system and computer readable medium for web site account and e-commerce management from a central location |
TW550477B (en) * | 2000-03-01 | 2003-09-01 | Passgate Corp | Method, system and computer readable medium for Web site account and e-commerce management from a central location |
US20020062342A1 (en) * | 2000-11-22 | 2002-05-23 | Sidles Charles S. | Method and system for completing forms on wide area networks such as the internet |
US20040205618A1 (en) * | 2001-11-19 | 2004-10-14 | Jean Sini | Runtime translator for mobile application content |
US7200806B2 (en) * | 2002-10-25 | 2007-04-03 | Ubs Ag | System and method for generating pre-populated forms |
US7111286B2 (en) * | 2002-12-18 | 2006-09-19 | Ge Medical Systems Information Technologies, Inc. | Method, system and computer product for parsing binary data |
US20040237030A1 (en) * | 2003-05-19 | 2004-11-25 | Malkin Wayne Allan | System and method of implementing calculation fields in an electronic form |
JP4716709B2 (ja) * | 2004-06-10 | 2011-07-06 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 構造化文書処理装置、構造化文書処理方法、及びプログラム |
US7765254B2 (en) * | 2005-10-26 | 2010-07-27 | International Business Machines Corporation | Integration of legacy applications |
US20070168671A1 (en) * | 2006-01-16 | 2007-07-19 | Fujitsu Limited | Digital document management system, digital document management method, and digital document management program |
US7761590B2 (en) * | 2006-06-12 | 2010-07-20 | Nokia Corporation | Method, apparatus, mobile terminal and computer program product for converting from a first forms markup language to a second forms markup language |
US7698628B2 (en) * | 2006-06-26 | 2010-04-13 | Adobe Systems Incorporated | Method and system to persist state |
-
2008
- 2008-06-30 CN CN2008101272690A patent/CN101620593B/zh not_active Expired - Fee Related
-
2009
- 2009-06-29 US US12/493,798 patent/US8620990B2/en not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1484797A (zh) * | 2000-12-20 | 2004-03-24 | �Ҵ���˾ | 满足来自网络客户端的信息请求的方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
US8620990B2 (en) | 2013-12-31 |
US20090327513A1 (en) | 2009-12-31 |
CN101620593A (zh) | 2010-01-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101620593B (zh) | 解析电子表单的内容的方法及电子表单服务器 | |
US7496497B2 (en) | Method and system for selecting web site home page by extracting site language cookie stored in an access device to identify directional information item | |
US8601438B2 (en) | Data transformation based on a technical design document | |
US20100281357A1 (en) | System and method for processing a widget at a web browser | |
CN112667720A (zh) | 接口数据模型的转化方法、装置、设备及存储介质 | |
CN109683998A (zh) | 国际化实现方法、装置和系统 | |
US20080052281A1 (en) | Database insertion and retrieval system and method | |
US20190102351A1 (en) | Generating configuration information for obtaining web resources | |
CN108334517A (zh) | 一种网页渲染方法及相关设备 | |
US20070277099A1 (en) | Page source data generation method, page source data generation system, and program | |
CN110990736A (zh) | 页面加载方法、装置、终端设备和存储介质 | |
US9967370B2 (en) | OData enabled mobile software applications | |
CN109144567B (zh) | 跨平台的网页渲染方法、装置、服务器及存储介质 | |
US8650474B2 (en) | Methods for web content optimization in single page display environments and systems thereof | |
CN111459537B (zh) | 冗余代码去除方法、装置、设备与计算机可读存储介质 | |
CN101183360A (zh) | 程序、字符输入编辑方法及设备 | |
US20040268256A1 (en) | Program, character inputting and editing method, apparatus and storage medium | |
EP2648388A1 (en) | Method, system, and device for displaying page | |
CN100430939C (zh) | 用于表的客户端操作的方法和系统 | |
CN110941779B (zh) | 加载页面的方法、装置、存储介质及电子设备 | |
CN110825745B (zh) | 页面的生成方法及装置 | |
CN109964201B (zh) | 自动检测、校正和翻译非本地化行的方法 | |
CN112306620A (zh) | 自定义表单控件的多语言加载方法及装置 | |
US20030159105A1 (en) | Interpretive transformation system and method | |
US20050267733A1 (en) | System and method for a translation process within a development infrastructure |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20110706 Termination date: 20200630 |
|
CF01 | Termination of patent right due to non-payment of annual fee |