CN111967274A - 标签转换处理方法、装置、电子设备及可读存储介质 - Google Patents
标签转换处理方法、装置、电子设备及可读存储介质 Download PDFInfo
- Publication number
- CN111967274A CN111967274A CN202010867140.4A CN202010867140A CN111967274A CN 111967274 A CN111967274 A CN 111967274A CN 202010867140 A CN202010867140 A CN 202010867140A CN 111967274 A CN111967274 A CN 111967274A
- Authority
- CN
- China
- Prior art keywords
- tag
- label
- target
- name
- file
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000006243 chemical reaction Methods 0.000 title claims abstract description 56
- 238000003672 processing method Methods 0.000 title claims abstract description 23
- 238000013519 translation Methods 0.000 claims abstract description 60
- 238000000034 method Methods 0.000 claims abstract description 25
- 238000012545 processing Methods 0.000 claims abstract description 22
- 238000004891 communication Methods 0.000 claims description 13
- 230000008569 process Effects 0.000 abstract description 13
- 230000006870 function Effects 0.000 description 15
- 230000009471 action Effects 0.000 description 6
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 238000005192 partition Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本申请提供一种标签转换处理方法、装置、电子设备及可读存储介质,方法包括:识别待翻译文件中的目标标签,目标标签为具有逻辑成对标签特征的标签;根据逻辑成对标签特征中的标签类型特征,判断目标标签的标签类型;标签类型包括逻辑开始标签或逻辑结束标签;根据目标标签的标签名,确定目标标签的替换标签名;根据标签类型和替换标签名,生成更新标签,以使更新标签能够被识别为形式上成对的标签;将目标标签替换为更新标签。这样,由于目标标签替换为了更新标签,而更新标签可被识别,这就使得逻辑上属于标签对的独立标签也可以在翻译过程中被译员正确放置,从而降低了对于译员的计算机专业知识要求,也提高了翻译作业的质量和效率。
Description
技术领域
本申请涉及数据处理技术领域,具体而言,涉及一种标签转换处理方法、装置、电子设备及可读存储介质。
背景技术
文件中常常会有标签,这些标签从形式上可分为标签对(即开始标签和结束标签)以及独立标签。为了便于译员识别和处理这些标签,降低对译员的技术知识储备要求,CAT(Computer Assitant Tool,计算机辅助翻译工具)会将这些标签处理为不同的外观(左右两端的形状),如:开始标签会处理为结束标签会处理为独立标签会处理为“■”。这样,译员就能通过标签外观准确判断标签类别,以保证能够对开始标签和结束标签正确配对,且包裹合适的文本。尤其因源语言和目标语言特性不同,而需要在译文中调整语序时,译员就更依赖于此功能。
然而在某些类别的文件中,存在一类特殊的标签,它们虽具有独立标签的形式,但在功能上属于开启或关闭某个特性或动作,或者表示某个范围的开始或结束位置。即在逻辑上属于标签对。目前CAT将这类逻辑配对的特殊独立标签与普通独立标签统一处理为独立标签的外观“■”。这样就容易使译员将这类特殊独立标签误解为普通的独立标签,从而可能造成标签无法配对(比如将具有开始功能的标签位于具有结束功能的标签之后,或者配对的两方缺失其一)。同时,译员为了避免此类错误,就需要进行一定的技术知识储备,了解相应的文件格式编码知识,来识别此类特殊标签。
发明内容
本申请实施例的目的在于提供一种标签转换处理方法、装置、电子设备及可读存储介质,用以解决相关技术无法区分出逻辑上属于标签对的特殊独立标签,从而导致的提高了译员的计算机专业知识要求,也降低了翻译作业的质量和效率的问题。
本申请实施例提供了一种标签转换处理方法,包括:识别待翻译文件中的目标标签,所述目标标签为具有逻辑成对标签特征的标签;根据所述逻辑成对标签特征中的标签类型特征,判断所述目标标签的标签类型;标签类型包括逻辑开始标签或逻辑结束标签;根据所述目标标签的标签名,确定所述目标标签的替换标签名;根据所述标签类型和所述替换标签名,生成更新标签,以使所述更新标签能够被识别为形式上成对的标签;将所述目标标签替换为所述更新标签。
在本申请实施例中,通过识别待翻译文件中的目标标签,并根据目标标签的逻辑成对标签特征中的标签类型特征,确定出标签类型。同时根据目标标签的标签名,确定对应的替换标签名,从而根据标签类型和替换标签名,生成更新标签,使的更新标签能够被识别为形式上成对的标签,最后将目标标签替换为更新标签。这样,由于目标标签替换为了更新标签,而更新标签可被识别,这就使得在进行翻译时,对于逻辑上属于标签对的独立标签,也可以实现区别性翻译,从而使得译员能够区分出逻辑上属于标签对的特殊独立标签,进而降低了对于译员的计算机专业知识要求,也提高了翻译作业的质量和效率。
进一步地,识别所述待翻译文件中的目标标签包括:获取所述待翻译文件中标签的标签名和/或标签属性,并识别该标签名和/或标签属性中是否包含所述逻辑成对标签特征;若该标签名和/或标签属性中包含所述逻辑成对标签特征,确定该标签为所述目标标签。
在实际应用过程中,具有逻辑成对标签特征的独立标签,与其他普通独立标签相比,由于具有逻辑成对标签特征的独立标签需要能够在逻辑上实现标签对的功能,因此其在名称和/或标签属性上往往需要具有相应的标识逻辑成对特性的特征,比如会具有“start”、“end”这种特征,而不具有逻辑成对标签特征的独立标签(即普通独立标签)则不会具有这种特征。据此,在上述实现过程中,可以通过识别该标签名和/或标签属性中是否包含所述逻辑成对标签特征,快速、可靠地实现对于目标标签的识别确定。
进一步地,根据所述目标标签的标签名,确定所述目标标签的替换标签名,包括:根据预设对应关系,确定所述目标标签的标签名对应的预设替换标签名作为所述替换标签名。
进一步地,所述根据所述标签类型和所述替换标签名,生成更新标签,包括:若所述标签类型为逻辑开始标签,则获取所述目标标签,将所述目标标签的标签名替换为所述替换标签名,以得到所述更新标签;若所述标签类型为逻辑结束标签,则获取所述目标标签,将所述目标标签的标签名替换为所述替换标签名,在所述替换标签名之前添加结束标签标识,并缺省所述目标标签的标签属性,以得到所述更新标签。
应理解,在实际应用过程中,CAT翻译时,能够允许标签对缺省部分特征,只要其后具有相应的结束标签标识即可。为此,在本申请实施例中,可以允许对于逻辑开始标签不设置开始标签标识,而对于逻辑结束标签设置结束标签标识,从而在满足相关翻译要求的基础上,能够简化标签。此外,CAT翻译时,对于标签对中的结束标签需要其省略标签属性。为此,在本申请中可以缺省目标标签的标签属性,从而使得逻辑结束标签对应的更新标签能够有效被CAT识别。
进一步地,所述方法还包括:确定所述待翻译文件的文件类型;根据所述文件类型确定用于识别所述目标标签的逻辑成对标签特征。
应当理解的是,在实际应用过程中,不同类型的文件中,属于标签对的这类特殊的独立标签,所具有的可用于实现逻辑成对功能的逻辑成对标签特征可能是不同的。比如,对于某一类文件而言,其内属于标签对的独立标签的逻辑成对标签特征可能是“start”和“end”,而对于另一类文件而言,其内属于标签对的独立标签的逻辑成对标签特征可能是“open”和“close”。对此,在上述实现过程中通过待翻译文件的文件类型,从而确定出用于识别目标标签的逻辑成对标签特征,从而可以确保本申请实施例中对于目标标签的有效识别,从而确保本申请实施例所提供的方案的可靠性。
进一步地,所述方法还包括:判断所述目标标签中是否包括配对组区分属性;若包括,则根据所述目标标签中的配对组区分属性配置所述更新标签中的配对组区分属性。
在实际应用过程中,可能存在多对(即多个配对组)属于标签对的独立标签,而为了区分不同配对组的独立标签,标签中会设置配对组区分属性,从而区分出不同对属于标签对的独立标签。而通过上述实现过程,即可使得替换后的更新标签在翻译后能够按照设定的配对组实现相应功能,不致导致翻译出现逻辑错误。
进一步地,所述方法还包括:记录所述目标标签与所述更新标签的对应关系;若接收到翻译完成指令,则在翻译完成文件中将所述更新标签替换为所述目标标签;其中,所述翻译完成文件为对所述待翻译文件翻译完毕后的文件,所述翻译完成文件中保留有所述待翻译文件中的标签。
在上述实现过程中,通过将翻译完成文件中将更新标签替换为目标标签,从而可以保证翻译完成文件与原文件中标签的一致性,从而便于翻译完成文件用于进行后续操作。
本申请实施例还提供了一种标签转换处理装置,包括:识别模块、判断模块、确定模块和替换模块;所述识别模块,用于识别待翻译文件中的目标标签,所述目标标签为具有逻辑成对标签特征的标签;所述判断模块,用于根据所述逻辑成对标签特征中的标签类型特征,判断所述目标标签的标签类型;标签类型包括逻辑开始标签或逻辑结束标签;所述确定模块,还用于根据所述目标标签的标签名,确定所述目标标签的替换标签名;所述替换模块,用于根据所述标签类型和所述替换标签名,生成更新标签,以使所述更新标签能够被识别为形式上成对的标签;将所述目标标签替换为所述更新标签。
本申请实施例还提供了一种电子设备,包括:控制器、存储器及通信总线;所述通信总线用于实现所述控制器和存储器之间的连接通信;所述控制器用于执行存储器中存储的一个或者多个程序,以实现上述任一种的标签转换处理方法。
本申请实施例中还提供了一种可读存储介质,所述可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个控制器执行,以实现上述任一种的标签转换处理方法。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的一种标签转换处理方法的基本流程示意图;
图2为本申请实施例提供的一种特殊独立标签的结构示意图;
图3为本申请实施例提供的一种具体的标签转换处理方法的流程示意图;
图4为本申请实施例提供的一种标签转换处理装置的结构示意图;
图5为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
实施例一:
为解决相关技术无法区分出逻辑上属于标签对的特殊独立标签,从而导致的提高了译员的计算机专业知识要求,也降低了翻译作业的质量和效率的问题,本申请实施例提供了一种标签转换处理方法,参见图1所示,包括:
S101:识别待翻译文件中的目标标签。
在本申请实施例中,待翻译文件可以由工程师根据实际翻译需求提供,或根据实际翻译需求从相关文件系统中读取。
在本申请实施例中,目标标签是指待翻译文件中的具有独立标签的形式,但在逻辑上属于标签对(即在功能上属于开启或关闭某个特性或动作,或者表示某个范围的开始或结束位置)的独立标签(为便于表述,本申请中后续称逻辑上属于标签对的独立标签为特殊独立标签)。
在本申请实施例中,目标标签具有逻辑成对标签特征的标签。所谓逻辑成对标签特征,是指能够使得特殊独立标签实现标签对功能的那部分有别于普通独立标签的特征,比如具有的“start”和“end”、“open”和“close”、“1”或“0”等特征。
需要理解的是,在实际应用过程中,不同类型的文件中,特殊独立标签所具有的逻辑成对标签特征可能是不同的。比如,对于某一类文件而言,其内属于标签对的独立标签的逻辑成对标签特征可能是“start”和“end”,而对于另一类文件而言,其内属于标签对的独立标签的逻辑成对标签特征可能是“open”和“close”。
为此,在本申请实施例中,可以预先记录下各类型的文件与逻辑成对标签特征的对应关系,从而可以先确定待翻译文件的文件类型,进而根据文件类型确定对应的逻辑成对标签特征。
在本申请实施例中,可以基于逻辑成对标签特征,从待翻译文件中识别出特殊独立标签,被识别出来的特殊独立标签即为目标标签。
需要说明的是,参见图2所示,在实际应用中,对于处理指令(ProcessingInstruction)元素类的特殊独立标签,具有结构:<?target data?>。其中,“target”指定了处理指令的处理器,“data”是指令的内容。为了便于描述,本申请中将“target”称为标签名,“data”称为标签属性。例如,对于特殊独立标签<?rb-cbt_start name="student"?>和<?rb-cbt_end?>,“rb-cbt_start”和“rb-cbt_end”即为标签名,而“name="student"”即为标签属性。此外,还存在有普通元素类的特殊独立标签,例如,特殊独立标签<bookmarktype="start"/>和<bookmark type="end"/>,“bookmark”即为标签名,而“type="start"”和“type="end"”即为标签属性。
需要理解的是,对于一个标签而言,其标签属性中可以同时具有多个具体的属性。比如,可以同时具有“type="start"”和“id="1"”这两个属性。
还需要说明的是,在实际应用过程中,由于特殊独立标签需要能够在逻辑上实现标签对的功能,因此其在标签名和/或标签属性上往往需要具有相应的标识逻辑成对特性的特征,而不具有逻辑成对标签特征的独立标签(即普通独立标签)则不会具有这种特征。比如对于前例而言,标签属性中的“start”和“end”即为标识逻辑成对特性的特征;又例如,对于特殊独立标签<?rb-cbt_start name="student"?>和<?rb-cbt_end?>,标签名“rb-cbt_start”和“rb-cbt_end”中的“start”和“end”即为标识逻辑成对特性的特征。应理解,除前述两示例的情况外,还可能存在标签名和标签属性中都具有标识逻辑成对特性的特征的情况,在此不再示例。
因此,在本申请实施例中,可以获取待翻译文件中标签的标签名和/或标签属性,并识别该标签名和/或标签属性中是否包含逻辑成对标签特征。若该标签名和/或标签属性中包含逻辑成对标签特征,即可确定该标签为目标标签。这样,基于特殊独立标签与普通独立标签所具有的区别特征,即可快速、可靠地识别出待翻译文件中的目标标签。
S102:根据逻辑成对标签特征中的标签类型特征,判断所述目标标签的标签类型。
在实际应用过程中,传统的标签对由具有一个开始标签和一个结束标签构成,而特殊独立标签与传统的标签对类似,同样需要由一个实现开始功能的标签和一个用于实现结束功能的标签共同组成一个配对组,才能在逻辑上实现完整的标签对的功能。
因此,在实际应用中,特殊独立标签的逻辑成对标签特征中会具有标签类型特征,以标识该特殊独立标签在逻辑上实现的是标签对的开始功能还是结束功能。
在本申请实施例中,定义用于标识特殊独立标签在逻辑上实现的是标签对的开始功能的标签类型特征为第一类标签类型特征,比如“start”、“open”等,而定义用于标识特殊独立标签在逻辑上实现的是标签对的结束功能的标签类型特征为第二类标签类型特征,比如“end”、“close”等。
在识别到逻辑成对标签特征中的标签类型特征为第一类标签类型特征,即可确定目标标签的标签类型为逻辑开始标签,而在识别到逻辑成对标签特征中的标签类型特征为第二类标签类型特征,即可确定目标标签的标签类型为逻辑结束标签。
在本申请实施例中,逻辑开始标签和逻辑结束标签分别对应于传统标签对中的开始标签和结束标签。
S103:根据目标标签的标签名,确定目标标签的替换标签名。
在本申请实施例的一种可行实施方式中,可以预先定义好各类标签名对应的替换标签名,并配置好标签名与替换标签名之间的对应关系表,从而可以根据目标标签的标签名,自动查找得到对应的替换标签名。
需要注意的是,本可行实施方式中,定义的替换标签名应满足计算机辅助翻译工具的解析规则,以便计算机辅助翻译工具可以正确识别出该替换标签名。示例性的,对于特殊独立标签<?rb-cbt_start name="student"?>的标签名“rb-cbt_start”,可以定义一个形式为传统标签对中开始标签的标签名“Q_cbt”。从而在方案执行过程中,确定出的标签名“rb-cbt_start”的替换标签名即为“Q_cbt”,使得计算机辅助翻译工具可以准确识别出该替换标签。
在本申请实施例的另一种可行实施方式中,也可以由工程师预先配置相应的标签名转换规则,从而按照标签名转换规则自动将目标标签的标签名转换为替换标签名。
同样需要注意的是,本可行实施方式中,配置的标签名转换规则应当使得转换得到的替换标签名能够满足计算机辅助翻译工具的解析规则,以便计算机辅助翻译工具可以正确识别出该替换标签名。示例性的,可以配置标签名转换规则为将目标标签的标签名转换为HTML(HyperText Markup Language,超文本标记语言)的固有标签span。比如,标签名<?rh-cbt>即可以转换为<span class="cbt">,从而使得计算机辅助翻译工具可以准确识别出该替换标签<span class="cbt">。
S104:根据标签类型和替换标签名,生成更新标签,以使更新标签能够被识别为形式上成对的标签。
S105:将目标标签替换为更新标签。
在本申请实施例中,标签中的标签名外的其余内容可以继承,也可以缺省,具体以计算机辅助翻译工具能够识别为准,从而生成得到更新标签。
在本申请实施例中,对于标签类型为逻辑开始标签的目标标签,由于计算机辅助翻译工具允许开始标签中缺省表示其为开始标签的标识,因此可以直接将目标标签的标签名替换为替换标签名,从而得到更新标签。当然也可以在将目标标签的标签名替换为替换标签名后,在其中添加开始标签标识,以便于计算机辅助翻译工具确定其为特殊独立标签中的逻辑开始标签。
而对于标签类型为逻辑结束标签的目标标签而言,为了保证计算机辅助翻译工具能够准确识别出构成逻辑标签对的两个特殊独立标签,则不仅需要将目标标签的标签名替换为替换标签名,还需要在替换标签名之前添加结束标签标识,以确保计算机辅助翻译工具能够准确识别出对应的逻辑开始标签和逻辑结束标签。
示例性的,对于文本:
<?rb-cbt_start name="student teacher"?>Quiz for students&teachers<?rb-cbt_end?><?rb-cbt_start name="teacher"?>
Answer for teachers only<?rb-cbt_end?>
文本中<?rb-cbt_start name="student teacher"?>与<?rb-cbt_end?>是一对特殊独立标签;而<?rb-cbt_start name="teacher"?>和<?rb-cbt_end?>又是另一对特殊独立标签。该文本可以转换为:
<Q_cbt name="student teacher">Quiz for students&teachers</Q_cbt><Q_cbt name="teacher">
Answer for teachers only</Q_cbt>
可见,转换前的标签<?rb-cbt_start name="student teacher"?>转换为了<Q_cbt name="student teacher">,缺省了用于表示其为开始标签的标识“_start”,而转换前的标签<?rb-cbt_end?>则转换为了</Q_cbt>,具有结束标签标识“/”,据此,计算机辅助翻译工具即可确定出逻辑开始标签为在先的那个标签<Q_cbt name="student teacher">,而逻辑结束标签即为</Q_cbt>。
类似的,计算机辅助翻译工具即可确定出逻辑开始标签<Q_cbt name="teacher">和逻辑结束标签</Q_cbt>,从而实现对于文本的准确翻译。
需要说明的是,所谓形式上成对的标签是指具有相同标签名,且在结束标签中有结束标识符,使得计算机辅助翻译工具能够将其识别为成对标签的那一种标签。如<a>与</a>这类形式等。
需要说明的是,对于计算机辅助翻译工具而言,其对于结束标签要求缺省标签属性。因此对于属于逻辑结束标签的特殊独立标签而言,其在转换时,需要缺省掉特殊独立标签的标签属性。比如,对于特殊独立标签<bookmark type="end"/>,其转换后得到的更新标签即可以为</bookmark>,缺省掉了标签属性“type="end"”。
需要理解的是,在一个文本中往往存在多组成对的特殊独立标签,比如上例中即具有两组成对的特殊独立标签。
而在实际应用中,除了前例中这种依次出现的多组成对的特殊独立标签的情况外,往往还可能存在各组成对的特殊独立标签相互嵌套等情况,因此就需要明确各组特殊独立标签的关系。而为了更明确各组特殊独立标签的对应关系,往往会在标签中设置有配对组区分属性。比如对于标签<w:bookmarkStart w:id="0">,其中的“id="0"”即为配对组区分属性,标识该标签属于ID为0的配对组。
在本申请实施例中,若目标标签中包括配对组区分属性,则可以根据目标标签中的配对组区分属性配置更新标签中的配对组区分属性。
需要理解的是,在本申请实施例中,对于配对组区分属性的更新,可以继承原标签中的配对组区分属性,但也可以经由特定的转换或编码规则重新生成配对组区分属性。比如对于上例中的“id="0"”,即可以重新编号使得id="1"或者id取其余可标识的字符。
需要注意的是,配对组区分属性属于标签属性的一种,因此对于属于逻辑结束标签的特殊独立标签而言,在生成更新标签时需要进行缺省。但是为了使得计算机辅助翻译工具可以准确确定出属于同一配对组的两特殊独立标签,在本申请实施例中,可以在生成更新标签时,将生成的配对组区分属性加入到标签名中,作为标签名的一部分,从而在满足计算机辅助翻译工具识别要求的基础上,能够实现对于属于同一配对组的两特殊独立标签的准确识别。
还需要注意的是,在本申请实施例中,只要采用的配对组区分属性转换方式能够使得同一配对组的两特殊独立标签,在转换后具有的配对组区分属性仍旧一致,且能被计算机辅助翻译工具识别即可。并不限定其具体实现方式。
在本申请实施例中,在将目标标签替换为更新标签后,可以记录目标标签与更新标签的对应关系。进而,可以在接收到翻译完成指令时,在翻译完成文件中将更新标签重新替换回目标标签。
应理解,前述翻译完成文件为对待翻译文件翻译完毕后的文件,而翻译完成文件中保留有待翻译文件中的标签。这样,可以保证翻译完成文件与原文件中标签的一致性,从而便于翻译完成文件用于进行后续操作。
本申请实施例中提供的标签转换处理方法,通过识别待翻译文件中的目标标签,并根据目标标签的逻辑成对标签特征中的标签类型特征,确定出标签类型。同时根据目标标签的标签名,确定对应的替换标签名,从而根据标签类型和替换标签名,生成更新标签,使的更新标签能够被识别为形式上成对的标签,最后将目标标签替换为更新标签。这样,由于目标标签替换为了更新标签,而更新标签可被识别,这就使得在进行翻译时,对于逻辑上属于标签对的独立标签,也可以实现区别性翻译,从而使得译员能够区分出逻辑上属于标签对的特殊独立标签,进而降低了对于译员的计算机专业知识要求,也提高了翻译作业的质量和效率。
实施例二:
本实施例在实施例一的基础上,以一种具体的标签转换处理过程为例,对本申请的方案进行示例说明。
参见图3所示,标签转换处理过程包括:
S301:获取待翻译文件,确定待翻译文件的文件类型。
S302:根据文件类型确定用于识别目标标签的逻辑成对标签特征。
S303:获取待翻译文件中标签的标签名和标签属性。
S304:识别标签名和/或标签属性中是否包含逻辑成对标签特征。若存在,执行步骤S305;否则,结束。
S305:根据预设的标签名对应关系,确定目标标签的标签名对应的替换标签名。
S306:根据逻辑成对标签特征中的标签类型特征,确定目标标签的标签类型。
应理解,步骤S305和S306之间没有时序限制。即步骤S305可以在步骤S306之前执行,也可以在在步骤S306之后执行,还可以与步骤S306同时执行。
S307:在标签类型为逻辑开始标签时,获取目标标签,将目标标签的标签名替换为替换标签名,以得到更新标签。
S308:在标签类型为逻辑结束标签时,获取目标标签,将目标标签的标签名替换为替换标签名,在替换标签名之前添加结束标签标识,并缺省目标标签的标签属性,以得到更新标签。
S309:判断目标标签中是否包括配对组区分属性,若包括,转至步骤S310;否则,转至步骤S311。
S310:根据目标标签中的配对组区分属性配置更新标签中的配对组区分属性。
S311:将目标标签替换为更新标签,并记录目标标签与更新标签的对应关系。
S312:在接收到翻译完成指令时,在翻译完成文件中将更新标签替换为目标标签。
下面,示例两组通过本申请实施例实现转换的文本案例:
案例一:(Robo(机器人)Help(帮助)源文件:条件文本的起始或结束位置的处理指令(Processing Instruction)标签)
转换前为:
<?rb-cbt_start name="student teacher"?>Quiz for students&teachers<?rb-cbt_end?><?rb-cbt_start name="teacher"?>
Answer for teachers only<?rb-cbt_end?>
或为:
<?rb-cbt_start name="teacher student"?>Quiz for students&teachers<?rb-cbt_end?><?rb-cbt_start name="teacher"?>
Answer for teachers only<?rb-cbt_end?>
转换后为:
<Q_cbt name="student teacher">Quiz for students&teachers</Q_cbt><Q_cbt name="teacher">
Answer for teachers only</Q_cbt>
(代码作用解释:当外部给定student条件时,仅显示student条件所控制的文本,即:“Quiz for students”;当外部给定teacher条件时,显示teacher条件所控制的范围,即:“Quiz for students&teachers”和“Answer for teachers only”)。
上述代码中,“rb-cbt_start”和“rb-cbt_end”根据name(标签名)属性互相配对,用于标记所控制的文本范围。此外,上述转换前的两段代码中,“name="studentteacher"”和“name="teacher student"”描述的都是“teacher”和“student”两个对象,因此本质是一致的,从而两段代码才可以转换为前述转换后的代码。
需要注意的是,对于前例代码中的“name="student teacher"”和“name="teacher student"”,其是标签中的配对组区分属性,因此也可以转换为其余的形式。比如,可以设定采用二进制位转换规则,设定student=2^0=1,teacher=2^1=2,当两者同时出现时,就进行相加,得到组合的id:student teacher=3。
此时转换后的代码即为:<Q_cbt id="3">Quiz for students&teachers</Q_cbt><Q_cbt id="2">
Answer for teachers only</Q_cbt>
案例二:(Open Xml Document bookmark的起始或结束位置的标签)
w:bookmarkstart和w:bookmarkend根据w:id属性互相配对,用于标记书签所控制的文本范围。
转换前为:
<w:bookmarkStart w:id="0"w:name="Test"/><w:r><w:rPr><w:rFontsw:hint="eastAsia"/><w:lang w:val="en-US"w:eastAsia="zh-CN"/></w:rPr><w:t>方案</w:t></w:r><w:bookmarkEnd w:id="0"/>
转换后为:
<bookmark id="0"><w:r><w:rPr><w:rFonts w:hint="eastAsia"/><w:langw:val="en-US"w:eastAsia="zh-CN"/></w:rPr><w:t>方案</w:t></w:r></bookmark>
或为:
<bookmark id="1"><w:r><w:rPr><w:rFonts w:hint="eastAsia"/><w:langw:val="en-US"w:eastAsia="zh-CN"/></w:rPr><w:t>方案</w:t></w:r></bookmark>
上例中,第一个转换后的代码,配对组区分属性没有改变,仍保持为id="0",而第二个转换后的代码,配对组区分属性重新进行了分配,id="1"。两种方式都可以被计算机辅助翻译工具所准确识别,都是可行的。
本申请实施例的方案,通过对特殊独立标签的识别和替换处理,在不影响原CAT处理逻辑的前提下,实现了对类开始/结束标签的配对标签化处理,避免了误导译员,从而提高了翻译质量和效率。同时,因为不影响原CAT逻辑,改造工作量少,易于实施和推广。
实施例三:
基于同一发明构思,本申请实施例中还提供了一种应用于电子设备上的标签转换处理装置。请参阅图4所示,图4示出了与实施例一所示的方法对应的标签转换处理装置100。应理解,标签转换处理装置100具体的功能可以参见上文中的描述,为避免重复,此处适当省略详细描述。标签转换处理装置100包括至少一个能以软件或固件的形式存储于存储器中或固化在标签转换处理装置100的操作系统中的软件功能模块。具体地:
参见图4所示,标签转换处理装置100包括:识别模块101、判断模块102、确定模块103和替换模块104。其中:
所述识别模块101,用于识别待翻译文件中的目标标签,所述目标标签为具有逻辑成对标签特征的标签;
所述判断模块102,用于根据所述逻辑成对标签特征中的标签类型特征,判断所述目标标签的标签类型;标签类型包括逻辑开始标签或逻辑结束标签;
所述确定模块103,用于根据所述目标标签的标签名,确定所述目标标签的替换标签名;
所述替换模块104,用于根据所述标签类型和所述替换标签名,生成更新标签,以使所述更新标签能够被识别为形式上成对的标签;将所述目标标签替换为所述更新标签。
在本申请实施例中,识别模块101具体用于,获取所述待翻译文件中标签的标签名,并识别该标签名中是否包含所述逻辑成对标签特征;若该标签名中包含所述逻辑成对标签特征,确定该标签为所述目标标签。
在本申请实施例中,确定模块103具体用于,根据预设对应关系,确定所述目标标签的标签名对应的预设替换标签名作为所述替换标签名。
在本申请实施例的一种可行实施方式中,替换模块104具体用于,若所述标签类型为逻辑开始标签,则获取所述目标标签,将所述目标标签的标签名替换为所述替换标签名,以得到所述更新标签;若所述标签类型为逻辑结束标签,则获取所述目标标签,将所述目标标签的标签名替换为所述替换标签名,在所述替换标签名之前添加结束标签标识,以得到所述更新标签。
在本申请实施例中,确定模块103还用于,确定所述待翻译文件的文件类型;根据所述文件类型确定用于识别所述目标标签的逻辑成对标签特征。
在本申请实施例中,标签转换处理装置100还包括配置模块,用于判断所述目标标签中是否包括配对组区分属性;若包括,则根据所述目标标签中的配对组区分属性配置所述更新标签中的配对组区分属性。
在本申请实施例中,标签转换处理装置100还包括记录模块,用于记录所述目标标签与所述更新标签的对应关系。而替换模块104还用于若接收到翻译完成指令,则在翻译完成文件中将所述更新标签替换为所述目标标签;其中,所述翻译完成文件为对所述待翻译文件翻译完毕后的文件,所述翻译完成文件中保留有所述待翻译文件中的标签。
需要理解的是,出于描述简洁的考量,部分实施例一中描述过的内容在本实施例中不再赘述。
实施例四:
本实施例提供了一种电子设备,可以参见图5所示,其包括控制器501、存储器502及通信总线503。其中:
通信总线503用于实现控制器501、存储器502之间的连接通信。
控制器501用于执行存储器502中存储的一个或多个程序,以实现上述实施例一/二中的标签转换处理方法。
可以理解,图5所示的结构仅为示意,电子设备还可包括比图5中所示更多或者更少的组件,或者具有与图5所示不同的配置,例如还具有通信端口、显示屏、键盘等部件。
本实施例还提供了一种可读存储介质,如软盘、光盘、硬盘、闪存、U盘、SD(SecureDigital Memory Card,安全数码卡)卡、MMC(Multimedia Card,多媒体卡)卡等,在该可读存储介质中存储有实现上述各个步骤的一个或者多个程序,这一个或者多个程序可被一个或者多个控制器执行,以实现上述实施例一/二中的标签转换处理方法。在此不再赘述。
在本申请所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
再者,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
在本文中,多个是指两个或两个以上。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (10)
1.一种标签转换处理方法,其特征在于,包括:
识别待翻译文件中的目标标签,所述目标标签为具有逻辑成对标签特征的标签;
根据所述逻辑成对标签特征中的标签类型特征,判断所述目标标签的标签类型;标签类型包括逻辑开始标签或逻辑结束标签;
根据所述目标标签的标签名,确定所述目标标签的替换标签名;
根据所述标签类型和所述替换标签名,生成更新标签,以使所述更新标签能够被识别为形式上成对的标签;
将所述目标标签替换为所述更新标签。
2.如权利要求1所述的标签转换处理方法,其特征在于,识别所述待翻译文件中的目标标签包括:
获取所述待翻译文件中标签的标签名和/或标签属性,并识别该标签名和/或标签属性中是否包含所述逻辑成对标签特征;
若该标签名和/或标签属性中包含所述逻辑成对标签特征,确定该标签为所述目标标签。
3.如权利要求1所述的标签转换处理方法,其特征在于,根据所述目标标签的标签名,确定所述目标标签的替换标签名,包括:
根据预设对应关系,确定所述目标标签的标签名对应的预设替换标签名作为所述替换标签名。
4.如权利要求3所述的标签转换处理方法,其特征在于,所述根据所述标签类型和所述替换标签名,生成更新标签,包括:
若所述标签类型为逻辑开始标签,则获取所述目标标签,将所述目标标签的标签名替换为所述替换标签名,以得到所述更新标签;
若所述标签类型为逻辑结束标签,则获取所述目标标签,将所述目标标签的标签名替换为所述替换标签名,在所述替换标签名之前添加结束标签标识,并缺省所述目标标签的标签属性,以得到所述更新标签。
5.如权利要求1所述的标签转换处理方法,其特征在于,所述方法还包括:
确定所述待翻译文件的文件类型;
根据所述文件类型确定用于识别所述目标标签的逻辑成对标签特征。
6.如权利要求1-5任一项所述的标签转换处理方法,其特征在于,所述方法还包括:
判断所述目标标签中是否包括配对组区分属性;
若包括,则根据所述目标标签中的配对组区分属性配置所述更新标签中的配对组区分属性。
7.如权利要求1-5任一项所述的标签转换处理方法,其特征在于,所述方法还包括:
记录所述目标标签与所述更新标签的对应关系;
若接收到翻译完成指令,则在翻译完成文件中将所述更新标签替换为所述目标标签;其中,所述翻译完成文件为对所述待翻译文件翻译完毕后的文件,所述翻译完成文件中保留有所述待翻译文件中的标签。
8.一种标签转换处理装置,其特征在于,包括:识别模块、判断模块、确定模块和替换模块;
所述识别模块,用于识别待翻译文件中的目标标签,所述目标标签为具有逻辑成对标签特征的标签;
所述判断模块,用于根据所述逻辑成对标签特征中的标签类型特征,判断所述目标标签的标签类型;标签类型包括逻辑开始标签或逻辑结束标签;
所述确定模块,用于根据所述目标标签的标签名,确定所述目标标签的替换标签名;
所述替换模块,用于根据所述标签类型和所述替换标签名,生成更新标签,以使所述更新标签能够被识别为形式上成对的标签;将所述目标标签替换为所述更新标签。
9.一种电子设备,其特征在于,包括:控制器、存储器及通信总线;
所述通信总线用于实现所述控制器、存储器之间的连接通信;
所述控制器用于执行存储器中存储的一个或者多个程序,以实现如权利要求1至7任一项所述的标签转换处理方法。
10.一种可读存储介质,其特征在于,所述可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个控制器执行,以实现如权利要求1至7任一项所述的标签转换处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010867140.4A CN111967274B (zh) | 2020-08-25 | 2020-08-25 | 标签转换处理方法、装置、电子设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010867140.4A CN111967274B (zh) | 2020-08-25 | 2020-08-25 | 标签转换处理方法、装置、电子设备及可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111967274A true CN111967274A (zh) | 2020-11-20 |
CN111967274B CN111967274B (zh) | 2024-05-31 |
Family
ID=73390683
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010867140.4A Active CN111967274B (zh) | 2020-08-25 | 2020-08-25 | 标签转换处理方法、装置、电子设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111967274B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112632988A (zh) * | 2020-12-29 | 2021-04-09 | 文思海辉智科科技有限公司 | 句段的断句方法、装置和电子设备 |
CN114417898A (zh) * | 2022-01-18 | 2022-04-29 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、设备及可读存储介质 |
CN118607478A (zh) * | 2024-06-17 | 2024-09-06 | 北京有竹居网络技术有限公司 | 富文本处理方法、装置、设备和存储介质 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100295665A1 (en) * | 2009-05-22 | 2010-11-25 | The Stanley Works Israel Ltd. | Object management system and method |
US20130151230A1 (en) * | 2011-12-12 | 2013-06-13 | Google Inc. | Techniques for assisting a human translator in translating a document including at least one tag |
CN103745003A (zh) * | 2014-01-24 | 2014-04-23 | 北京京东尚科信息技术有限公司 | Html片段的检测方法 |
CN107045447A (zh) * | 2016-02-05 | 2017-08-15 | 阿里巴巴集团控股有限公司 | 一种数据对象的标签显示方法和装置 |
CN109766560A (zh) * | 2019-01-14 | 2019-05-17 | 姚珍强 | 翻译方法、系统、终端以及存储介质 |
CN109801008A (zh) * | 2018-06-15 | 2019-05-24 | 意盛(北京)科技有限责任公司 | 身份验证的方法与系统 |
US20190370323A1 (en) * | 2018-06-01 | 2019-12-05 | Apple Inc. | Text correction |
CN110569332A (zh) * | 2019-09-09 | 2019-12-13 | 腾讯科技(深圳)有限公司 | 一种语句特征的提取处理方法及装置 |
CN110969003A (zh) * | 2018-09-29 | 2020-04-07 | 北京国双科技有限公司 | 文本内容生成方法及装置 |
CN111144070A (zh) * | 2019-12-31 | 2020-05-12 | 北京迈迪培尔信息技术有限公司 | 一种文档解析翻译方法和装置 |
CN111143074A (zh) * | 2019-12-30 | 2020-05-12 | 文思海辉智科科技有限公司 | 一种翻译文件的分配方法和装置 |
CN111291533A (zh) * | 2020-01-22 | 2020-06-16 | 文思海辉智科科技有限公司 | 待显示句段的显示方法、装置、计算机设备和存储介质 |
CN111460835A (zh) * | 2020-03-31 | 2020-07-28 | 文思海辉智科科技有限公司 | 辅助翻译方法、装置及电子设备 |
-
2020
- 2020-08-25 CN CN202010867140.4A patent/CN111967274B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100295665A1 (en) * | 2009-05-22 | 2010-11-25 | The Stanley Works Israel Ltd. | Object management system and method |
US20130151230A1 (en) * | 2011-12-12 | 2013-06-13 | Google Inc. | Techniques for assisting a human translator in translating a document including at least one tag |
CN103745003A (zh) * | 2014-01-24 | 2014-04-23 | 北京京东尚科信息技术有限公司 | Html片段的检测方法 |
CN107045447A (zh) * | 2016-02-05 | 2017-08-15 | 阿里巴巴集团控股有限公司 | 一种数据对象的标签显示方法和装置 |
US20190370323A1 (en) * | 2018-06-01 | 2019-12-05 | Apple Inc. | Text correction |
CN109801008A (zh) * | 2018-06-15 | 2019-05-24 | 意盛(北京)科技有限责任公司 | 身份验证的方法与系统 |
CN110969003A (zh) * | 2018-09-29 | 2020-04-07 | 北京国双科技有限公司 | 文本内容生成方法及装置 |
CN109766560A (zh) * | 2019-01-14 | 2019-05-17 | 姚珍强 | 翻译方法、系统、终端以及存储介质 |
CN110569332A (zh) * | 2019-09-09 | 2019-12-13 | 腾讯科技(深圳)有限公司 | 一种语句特征的提取处理方法及装置 |
CN111143074A (zh) * | 2019-12-30 | 2020-05-12 | 文思海辉智科科技有限公司 | 一种翻译文件的分配方法和装置 |
CN111144070A (zh) * | 2019-12-31 | 2020-05-12 | 北京迈迪培尔信息技术有限公司 | 一种文档解析翻译方法和装置 |
CN111291533A (zh) * | 2020-01-22 | 2020-06-16 | 文思海辉智科科技有限公司 | 待显示句段的显示方法、装置、计算机设备和存储介质 |
CN111460835A (zh) * | 2020-03-31 | 2020-07-28 | 文思海辉智科科技有限公司 | 辅助翻译方法、装置及电子设备 |
Non-Patent Citations (5)
Title |
---|
YANLING CHEN等: "An Information-Theoretic Approach to the Chipless RFID Tag Identification", IEEE, vol. 7, pages 96984, XP011737259, DOI: 10.1109/ACCESS.2019.2929243 * |
姚军: "基于动态标签技术的信息发布系统设计研究", 电子设计工程, vol. 27, no. 15, pages 21 * |
王峥嵘: "电子书包在线作业系统的设计研究", 中国优秀硕士学位论文全文数据库信息科技辑, no. 1, pages 138 - 276 * |
郭东峰: "数据抽取中数据预处理", 数据库技术, no. 7, pages 224 * |
陈晖, 陈意云, 茹祥民: "一种用于Java程序验证编译的标签类型", 软件学报, vol. 16, no. 03, pages 346 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112632988A (zh) * | 2020-12-29 | 2021-04-09 | 文思海辉智科科技有限公司 | 句段的断句方法、装置和电子设备 |
CN114417898A (zh) * | 2022-01-18 | 2022-04-29 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、设备及可读存储介质 |
CN118607478A (zh) * | 2024-06-17 | 2024-09-06 | 北京有竹居网络技术有限公司 | 富文本处理方法、装置、设备和存储介质 |
CN118607478B (zh) * | 2024-06-17 | 2025-05-16 | 北京有竹居网络技术有限公司 | 富文本处理方法、装置、设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111967274B (zh) | 2024-05-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109948134B (zh) | 一种报告自动生成方法、系统及电子设备和存储介质 | |
CN111967274A (zh) | 标签转换处理方法、装置、电子设备及可读存储介质 | |
CN108595389A (zh) | 一种将Word文档转换为txt纯文本文档的方法 | |
US20080155519A1 (en) | Code translator | |
CN109753968A (zh) | 字符识别模型的生成方法、装置、设备及介质 | |
WO2024055862A1 (zh) | 结合rpa和ai实现ia的文档审核方法、装置及电子设备 | |
WO2014157056A1 (ja) | ソースプログラム解析システム、ソースプログラム解析方法およびプログラムを記録した記録媒体 | |
CN114090671A (zh) | 数据导入方法、装置、电子设备及存储介质 | |
CN110109671A (zh) | 一种webpack标签尺寸样式转换方法及装置 | |
CN112527738A (zh) | 项目描述文件优化方法、系统及存储介质 | |
CN103761095A (zh) | 一种生成通用的升级文件头部数据信息的方法 | |
CN112965772A (zh) | web页面显示方法、装置和电子设备 | |
CN110633258A (zh) | 日志插入方法、装置、计算机装置及存储介质 | |
CN110837727A (zh) | 一种文档模板生成方法、装置、终端设备及介质 | |
CN113221506B (zh) | 一种讲义排版的方法、装置、电子设备及存储介质 | |
CN118798141A (zh) | 一种文本审校前端交互方法及系统 | |
CN118939262A (zh) | 一种用户界面组件跨平台转换方法、装置、终端及介质 | |
CN116540988A (zh) | 梯形图语言的转写方法及装置 | |
US20090217156A1 (en) | Method for Storing Localized XML Document Values | |
CN110991151A (zh) | 文件处理方法、装置、电子设备及计算机可读存储介质 | |
CN102104741B (zh) | 多语种字幕的编排方法及装置 | |
CN114118026B (zh) | 文档自动化生成方法、装置及计算机存储介质、电子设备 | |
CN111460766B (zh) | 一种矛盾语块边界识别的方法及装置 | |
CN115964991A (zh) | 文档编辑方法、装置、设备和介质 | |
CN108628606B (zh) | 一种嵌入式设备的web网管应用程序生成方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |