CN111581985A - 一种基于Transformer的汉盲翻译方法及系统 - Google Patents
一种基于Transformer的汉盲翻译方法及系统 Download PDFInfo
- Publication number
- CN111581985A CN111581985A CN202010409821.6A CN202010409821A CN111581985A CN 111581985 A CN111581985 A CN 111581985A CN 202010409821 A CN202010409821 A CN 202010409821A CN 111581985 A CN111581985 A CN 111581985A
- Authority
- CN
- China
- Prior art keywords
- chinese
- braille
- sentence
- translation
- blind
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/47—Machine-assisted translation, e.g. using translation memory
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/117—Tagging; Marking up; Designating a block; Setting of attributes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明涉及一种基于Transformer的汉盲翻译方法及系统,所述方法至少包括:基于现有句子级对应的汉盲数字资源训练翻译模型;基于Transformer构建以句子为单位将汉语文本直接转换为盲文ASCII码的所述翻译模型,其中,所述翻译模型基于多头自注意力机制至少将输入、输出、输入‑输出的信息关联的方式学习所述汉盲数字资源。本发明以句子为单位进行翻译,不需要构建词语级精确对应的汉盲对照语料库,使得本发明能够直接利用现存的汉盲数字资源,只需要经过句子切分处理就能使用,从而建设难度小、耗时短,显著地降低了构建语料库的成本。
Description
技术领域
本发明涉及汉语文本到盲文的自动翻译技术领域,特别是使用基于Transformer实现汉语文本-盲文翻译技术领域,具体涉及一种基于Transformer的汉盲翻译方法及系统。
背景技术
盲文(Braille)是指专为盲人设计、供盲人使用的、靠触觉感知的文字,是中国语言文字的重要组成部分。汉语到盲文的翻译系统,是将已有的汉语资源转换为盲文资源,最终生成盲文文档,可以供各种盲文系统使用。
盲文最基本的盲文符号为盲文点字,由6个点组成,根据点的填充与否可形成64种变化,即64个点符(盲符)。计算机中也可用盲文ASCII码表示盲文,即64个点符对应64个盲文ASCII码(单个ASCII字符)。盲文ASCII码极大地方便盲文处理,并且是盲人点显器、盲文刻印机等设备的标准输入。
中国目前使用三种盲文:现行盲文、双拼盲文、国家通用盲文。现行盲文方案(简称“现行盲文”)是1953年由教育部颁布并在全国推行的盲文方案。该方案是以北京语音为标准,以普通话为基础,以词为单位,以声、韵、调三方表示一个完整音节,采用盲文分词连写规则记录汉语的一套盲文方案。现行盲文具有易学易用的优点,存在标调不够规范的缺陷。汉语双拼盲文方案(简称“双拼盲文”)是1988年由国家语言文字工作委员会试行推广的盲文改革方案。方案可在两方盲符内表示汉语声、韵、调三要素,整个体系包括:字母表、标点符号、同音分化法、简写法、哑音定字法等,同时也采用盲文分词连写规则。汉语双拼盲文方案旨在克服现行盲文的缺点,但因符形类别多、规则繁难,较现行盲文难学,只被部分盲人接受。2018年,教育部、国家语委、中国残联共同发布了《国家通用盲文方案》。国家通用盲文方案(简称“国家通用盲文”)沿用现行盲文的声母、韵母、声调、标点符号等。为了用盲文准确阅读、规范书写国家通用语言,充分体现我国国家通用语言音节带调的特点,该方案确立了全部音节标调的总原则,废止了需要时标调体系。该方案提出了按声母省写声调符号的规范,确定了一些汉字的简写形式,以减少盲文篇幅。该方案解决了阅读盲文时猜测读音问题,提高了盲文的表意功能,将大力促进盲人教育、文化事业的发展,为盲文信息化、盲人无障碍信息交流提供保障。
中国盲人阅读物存在数量稀缺、种类稀少等问题。我国视力残疾人总数约为1731万人,我国每位明眼人每年平均占有10种出版物,盲人只平均占有0.36种。盲文读物存在专业制作人士数量少,制作难度大,资金有限,盲文出版物成本高的问题。由于汉盲翻译软件欠缺、技术落后,现如今的网络对照语料库存在无法满足视障者学习、生活、工作需求的问题。
当前,英语、葡萄牙语、丹麦语、西班牙语、印地等语言的文本到其相应的盲文文本的自动转换都已有可用的计算机系统。而在汉语中,还不能将汉字唯一映射到盲文符号。汉语盲文被定义为一种拼音文字,并且还定义了分词连写和标调等规则。汉语盲文一般用2~3方表示一个汉字,其中一方表示声母,一方表示韵母,现行盲文和通用盲文中有些情况需要再增加一方表示声调。汉语盲文与汉语文本最大的区别在于盲文的“分词连写”规则,即要求词与词之间用空方分隔。其中分词是将一个汉字序列切分成一个个单独的词。所谓连写,即是按照盲文的特殊性,避免音节结构过于松散,便于摸读和理解,使词意迅速形成概念,将意义上结合得较为紧密的一些词连写在一起。盲文分词与中文标准分词有着显著差异。中文标准分词规范中四字成语或习惯用语为一个切分单位,而中国盲文中四字成语,能独立分写时,应按词分写。中文标准分词不将标点符号考虑在内,将其分为单个字,但盲文标点符号书写也具有分词和连写的特殊规则,如逗号、顿号、分号、冒号前面均不空方,后面空一方,句号、问号、叹号前后均不空方。为减少单音节词可能带来的歧义,许多汉语中的短语在盲文中需要连写,例如,“王老师”、“大红花”、“不能”等都需要连写。汉盲翻译技术的另一大难点是汉盲翻译的规则繁多。国家通用盲文规范了盲文的标调、省写和简写规则,如声母为f的音节,阴平符号省写;当“的、么、你、他、它”后面连写韵母自成的音节时,一律不简写。双拼盲文和通用盲文中几乎每个字都可确定声调。而在现行盲文中,为节省阅读时间和印刷成本,规定只对易混淆的词语、生疏词语、古汉语诗词、非常用的单音节词等标调,一般认为现行盲文的标调率大约在5%。针对分词连写,中国盲文标准中给出了100多条基于词法、语法和语义的细则,如“‘不’与动词、能愿动词、形容词、介词、单音节程度副词均应连写”。
可以看出,汉盲翻译的关键在于分词和标调。当前汉盲翻译主要遵循两种思路,一种是按照盲文分词连写本身的逻辑,首先对文本进行汉语分词,然后使用预定义的规则对汉语分词结果进行调整,将汉语词串转换为盲文词串。当前大多数研究都基于这一思路,但是盲文分词连写涉及主观性很强的语法和语义规则,计算机定义和处理都很困难,导致这种方法的性能存在瓶颈,难以进一步提升。第二种思路是从盲文语料中提取出现过的连词组合,建立分词连写库,然后基于分词连写库进行文本分词或对汉语分词结果进行后处理。但是盲文将汉语中的许多短语连写,所形成的连写组合是无限的,无法通过分词连写库穷举。因此这一方法性能有限,目前主要和第一种方法结合,作为一种补充式的处理操作使用。
例如,文献[1]Xiangdong Wang,Yang Yang,Hong Liu,等.Chinese-BrailleTranslation Based on Braille Corpus[J].International Journal o f AdvancedPervasive&Ubiquitous Computing,2016,8(2):56-63.公开了基于机器学习的盲文直接分词框架,不再基于汉语分词结果进行后处理,而是利用训练好的盲文分词模型直接对盲文串进行分词。这种方法采用机器学习模型隐含地刻画盲文分词连写规范,避免了计算机直接处理复杂的语法和语义规则。实验结果表明,此方法可大大提升汉盲转换的准确率。但是,一方面该方法基于感知机模型,而近年来,深度学习技术在很多领域已逐步替代感知和统计机器学习等传统方法;另一方面,模型训练基于盲文语料,而盲文只表示汉字的读音(且大多数不加声调),导致可能因同音产生歧义,进而影响最终的分词结果。如果采用按照盲文规则分词的汉字文本作为训练语料,则可以避免上述问题。但是要得到按照盲文规则分词的汉字文本语料,相当于将汉字文本及与其对应的盲文文本进行词语级对齐,即需要建设一个词语级对照的汉盲语料库。
例如,公开号为CN1093344389A的中国专利文献公开了一种汉盲对照双语语料库的构建方法和系统,该方法包括:获取内容相同的汉语文本和盲文文本;分别将该盲文文本和该汉语文本进行切分处理,得到第一盲文句子集合和汉语句子集合;在第一盲文句子集合和汉语句子集合之间进行汉语盲文匹配处理,以在第一盲文句子集合中找到与汉语句子集合中汉语句子相匹配的盲文句子,保留匹配成果的汉语句子和盲文句子;将所有匹配成功的汉语句子和盲文句子按照篇章、句子、词语多级对照的要求生成汉盲双语语料库。事实上,该专利公开的汉盲双语语料库分别从汉字文件和盲文文件中抽取文本,在各自进行句子切分等预处理后,利用匹配算法进行汉字和盲文的字符对齐。然而,在实际应用过程中,汉字和盲文的内容不完全对应,比如为了便于盲人理解,盲文编辑会对内容进行适当的修改,如文本增删、段落拆分合并等;其次,盲文会增加目录、页码等内容,且都是作为文本,不能通过特定的格式标记去除;最后,盲文编辑软件使用的bdo文件中合并了一些非标准的格式标记,有可能和文本内容混淆。基于以上原因,该专利文献公开的方法,为了能够构建词语级别精确对应语料库,只抽取能够对应成功的部分,丢弃匹配失败的部分。这种方式构建的语料库,成本大、匹配算法复杂。
文献[2]蔡佳,王向东,唐李真,et al.基于汉盲对照语料库和深度学习的汉盲自动转换[J].中文信息学报,2019,33(4).采用了上述公开号为CN1093344389A专利文献公开的汉盲对照语料库,基于深度学习进行汉盲翻译。文献[2]首先利用词语级别精确对应的汉盲对照语料库,获取按照盲文规则分词的汉语文本语料,然后利用汉语文本语料训练基于深度学习的分词模型。该分词模型通过深度学习进行分类:将每个字的位置分为四种,即B、E、M、S。B代表词的开头、M代表词的中间,E代表词的末位,S代表单独成词。分词的目的就是通过模型得到每个字的位置类别,然后合并成词。文献[2]采用LSTM神经网络模型用于盲文规则的汉语文本分词。该模型共有6层网络,第1层是Word embeddings层,基于词向量模型,将训练语料中的字由one-hot编码映射为低纬稠密的字向量。第2层和第5层是Bi-LSTM层,共有两层Bi-LSTM层。为了防止过拟合,Bi-LSTM层之后添加Dropout层,每次随机丢弃一定比例的神经网络节点。第6层为输出层,是一个全连接层。由于该文件将盲文分词定义为多分类问题,因此第6层是全连接层。设置全连接层的激活函数为Softmax,将多个神经元的输出映射到0与1之间的数值,选择概率最大的类别作为该字的类别。模型训练前,需要将语料句子中的每词以字为单位进行标记。由于分词模型的输入是向量形式,因此需要训练训词向量模型,将语料转为向量表示。经过多轮训练后生成所需的分词模型。对一个句子分词时,将文本转化为词向量,输入分词模型,通过模型计算得到每个字(向量)的属于四种状态的概率,选择概率最大的状态作为该字的状态,最后合并得到分词结果。然后,文献[2]基于词语级精确对应的汉盲对照语料库,采用统计机器学习方法训练标调模型,从语料中学习隐含的标调模式,从而实现自动标调,比如采用n-gram模型实现自动标调。
因此文献[2]采用的汉盲翻译方法是基于分词-标调,两个阶段完成的。而且由于使用词语级精确对应的汉盲对照语料库进行模型的训练,其采用的深度学习模型都是以词为单位进行翻译的。然而,利用文献[2]公开的方法进行翻译,首先需要构建成本较大、构建时间较长的词语级精确对应的汉盲对照语料库;其次,由于分词和标调是两个独立的过程,需要构建两个彼此不同的模型分别使用汉盲对照语料库进行训练;最后,其翻译的方式和模型训练的过程都是以词语为单位的,尽管能够提高翻译的准确率,但是翻译的效率较低。
此外,一方面由于对本领域技术人员的理解存在差异;另一方面由于发明人做出本发明时研究了大量文献和专利,但篇幅所限并未详细罗列所有的细节与内容,然而这绝非本发明不具备这些现有技术的特征,相反本发明已经具备现有技术的所有特征,而且申请人保留在背景技术中增加相关现有技术之权利。
发明内容
针对现有技术之不足,本发明提供了一种基于Transformer的汉盲翻译方法,所述方法至少包括:基于现有句子级对应的汉盲数字资源训练翻译模型。基于Transformer构建以句子为单位且以单一处理阶段的方式将汉语文本直接转换为盲文ASCII码的所述翻译模型。现有的基于深度学习的汉盲翻译方法,如文献[2]不直接运用盲文规则对盲文串进行分词,而是采用汉盲词语级对照的语料训练分词模型,并采用训练好的模型直接将汉字串按照盲文规则进行分词。另一方面利用汉盲分词对照语料训练标调模型,与只采用盲文语料的方法相比,利用的信息更为丰富,可以得到更高的准确率。但是由于文本增删、段落拆分合并等,导致汉字和盲文内容的不完全对应,因此需要词语级精确对应的汉盲对照语料库,进而需要采用抽取语料-匹配-字符对齐的方式来构建汉盲对照语料库,导致构建语料库的成本大、时间长。其次,文献[2]仍然采用分词、标调两个步骤进行翻译,因此文献[2]需要利用其构建的词语级精确对应的汉盲对照语料库分别训练得到分词模型和标调模型,而且分词模型的深度学习模型和标调所采用的模型不同,增加了翻译模型构建的难度和复杂度,尽管能够提高翻译的准确率,却显著地降低了翻译的效率。而本发明基于Transformer构建以句子为单位且以单一处理阶段的方式将汉语文本直接转换为盲文ASCII码的所述翻译模型。即本发明构建的翻译模型是以句子为单位进行翻译的,并且由于采用单一阶段处理的方式将汉语文本直接转化为盲文ASCII码,不需要分词和标调两个步骤,也不需要分别构建分词模型和标调模型,更不需要构建词语级精确对应的汉盲对照语料库。因此本发明构建的基于Transformer的翻译模型算法结构简单、翻译效率高。尽管本发明需要通过训练较大的训练数据才能提高翻译的准确率,但是本发明能够一步直接得到汉语文本的盲文翻译结果,能够在保证翻译质量的前提下显著提高翻译的效率。事实上,无论是文献[2]还是文献[1],基于我国汉语一字多音和一音多意的特殊性,现有技术均是采用分词和标调两个必不可少的步骤来进行翻译,从而保证翻译的准确性。本发明打破了汉语文本到盲文翻译需要分步多阶段处理的技术偏见,利用单个翻译模型避开分词、标调两个独立处理步骤,建立汉语文本和盲文ASCII码直接一一对应的函数模型实现汉盲转换,从翻译的质量角度,而不是翻译的准确率角度来构建翻译模型。实际上,在翻译汉语文本的过程中,有大量的词语是非一音多意和一字多音的,如何快速高效的将不容易引起歧义的汉语句子翻译为盲文句子才能提高翻译质量。其次,本发明也打破了现有技术以词为单位进行翻译的技术偏见。现有技术基于分词、标调的处理步骤,都是以词为单位对汉语文本进行翻译,这种翻译方式符合我国制定的盲文规则,也能够提高准确率,但是需要词语级精确对照的汉盲对照语料库,也需要先构建相应的分词模型才能够实现汉语文本到盲文的翻译。而本发明以句子为单位进行翻译,不需要构建词语级精确对应的汉盲对照语料库,使得本发明能够直接利用现存的汉盲数字资源,只需要经过句子切分处理就能使用,从而建设难度小、耗时短,显著地降低了构建语料库的成本。
优选地,所述翻译模型基于多头自注意力机制以至少将输入、输出、输入-输出的信息关联的方式学习所述汉盲数字资源。文献[2]首先利用词语级别精确对应的汉盲对照语料库,获取按照盲文规则分词的汉语文本语料,然后利用汉语文本语料训练基于深度学习的分词模型。该分词模型通过深度学习进行分类:将每个字的位置分为四种,即B、E、M、S。B代表词的开头、M代表词的中间,E代表词的末位,S代表单独成词。分词的目的就是通过模型得到每个字的位置类别,然后合并成词。文献[2]采用LSTM神经网络模型用于盲文规则的汉语文本分词。而基于词语级别的对照翻译使得翻译模型容易忽略句子的整体信息,也无法联系句子级别的上下信息,而且采用n-gram模型进行标调,只能利用极其有限的信息,因此文献[2]公开的翻译方法无法充分利用上下文信息来提高翻译的准确率和效率。而本发明的基于Transformer的翻译模型是以句子为单位进行翻译的,并且采用多头自注意力机制,能够通过查询向量、键向量和值向量将输入、输出、输入-输出的信息关联,从而能够利用上下信息提高翻译的效率和翻译的准确率。
根据一种优选实施方式,基于现有句子级对应的汉盲数字资源训练翻译模型的步骤至少包括:
基于所述汉盲数字资源获取汉语语料和与所述汉语语料对照的盲文ASCII码语料或盲文点字语料;
对所述汉语语料、盲文ASCII码语料或盲文点字语料进行预处理以转换为所述翻译模型需要的句子信息。优选地,所述句子信息至少包括汉语文本和盲文文本的句子切分信息。
根据一种优选实施方式,所述预处理步骤至少包括:
至少基于中文标点符号和截断长度对所述汉语语料进行切分,从而得到对应所述汉语语料的第一句子和对应所述第一句子的第一最大长度;
基于所述汉语句子的切分信息对所述盲文ASCII码语料或盲文点字语料进行切分,从而得到对应所述盲文ASCII码语料或盲文点字语料的第二句子和对应所述第二句子的第二最大长度;
对所述第一句子和第二句子分别进行标记;
通过字典将标记后的第一句子和第二句子转换为数字信息。
根据一种优选实施方式,对所述第一句子和第二句子分别进行标记的步骤如下:
在所述第一句子的首部添加第一标记,并在第二句子的首部添加第一映射标记;
在所述第一句子的尾部添加第二标记,并在第二句子的尾部添加第二映射标记。优选地,在所述第一句子的长度小于所述第一最大长度的情况下,在所述第二标记之后添加第三标记。优选地,在所述第二句子的长度小于所述第二最大长度的情况下,在所述第二映射标记之后添加第三映射标记。
根据一种优选实施方式,通过字典将标记后的第一句子和第二句子转换为数字信息的步骤如下:
基于所述汉语语料生成汉语字典;
基于所述盲文ASCII码语料或盲文点字语料生成盲文字典。所述汉语字典的至少三个键分别对应所述第一标记、第二标记和第三标记。所述盲文字典的至少三个键分别对应所述第一映射标记、第二映射标记和第三映射标记。
根据一种优选实施方式,在所述翻译模型获取所述汉盲数字资源预处理的句子信息进行训练的步骤如下:
依次以所述第一标记、第一句子、第二标记和第三标记的顺序构建所述翻译模型的输入;
依次以所述第二句子、第二映射标记和第三映射标记的顺序构建所述翻译模型的输出;
学习所述第一句子到第二句子之间的映射函数。
根据一种优选实施方式,所述翻译模型采用多头自注意力机制。所述多头自注意力机制的输入至少包括查询向量、键向量和值向量。优选地,将所述查询向量、键向量和值向量分别投射到不同的子空间中,从而在不同的子空间中学习输入、输出、输入-输出的信息。
根据一种优选实施方式,所述方法还包括:
基于预处理后的所述汉盲数字资源的句子信息不断训练得到所述翻译模型的最优超参数;
基于所述最优超参数调整所述翻译模型得到训练好的翻译模型;
基于训练好的翻译模型翻译输入的汉语文本。优选地,对输入的汉语文本进行预处理以转换为所述翻译模型需要的句子信息。
本发明还提供一种基于Transformer的汉盲翻译系统,至少包括为用户提供汉语文本到盲文翻译的翻译逻辑组件。所述翻译逻辑组件配置为调用训练好的翻译模型进行翻译。所述翻译模型配置为:基于Transformer以句子为单位且以单一阶段处理将汉语文本直接转换为盲文ASCII码的方式构建。所述翻译模型基于多头自注意力机制以至少将输入、输出、输入-输出的信息关联的方式学习汉盲数字资源。所述翻译模型通过现有句子级对应的汉盲数字资源训练。
根据一种优选实施方式,所述翻译逻辑组件至少包括预处理模块、调用模块和翻译结果模块。
所述调用模块配置为通过训练好的所述翻译模型将所述预处理模块传输的汉语文本转换为盲文ASCII码。优选地,所述调用模块将所述盲文ASCII码传输至所述翻译结果模块。
根据一种优选实施方式,所述预处理模块至少包括汉语文本获取单元和汉语预处理单元。所述汉语文本获取单元配置为将汉语文本录入模块录入的汉语转换为汉语预处理单元能够识别的汉语文本。所述汉语预处理单元配置为对所述汉语文本获取单元传输的汉语文本进行切分、标记和字典转换处理以使其转换为所述翻译模型需要的句子信息。所述汉语预处理单元配置为将该信息传输至所述调用模块。
根据一种优选实施方式,所述调用模块至少包括模型调用单元和汉盲转换单元。所述模型调用单元配置为调用所述汉盲数字资源至所述汉语预处理单元和所述翻译模型。所述模型调用单元配置为能够根据所述汉盲翻译系统的部署环境调用训练好的所述翻译模型至所述汉盲转换单元。所述汉盲转换单元配置为基于训练好的所述翻译模型将所述汉语预处理单元传输的用户录入的汉语文本转换为盲文ASCII码。所述汉盲转换单元配置为将所述盲文ASCII码传输至所述翻译结果模块。
根据一种优选实施方式,所述翻译结果模块至少包括格式转换单元、排版单元和盲文保存单元。所述格式转换单元配置为:用于将所述汉盲转换单元传输的盲文ASCII码转换为盲文点字。所述格式转换单元配置为将所述盲文点字传输至所述排版单元。所述排版单元配置为:用于根据格式设置模块的排版设置对所述盲文点字进行排版处理。所述排版单元配置为将排版处理后的盲文结果传输至盲文保存单元。所述盲文保存单元配置为:用于将所述排版单元传输的盲文结果以电子格式的方式存储。
根据一种优选实施方式,所述汉盲翻译系统还包括图形化的显示界面层。所述显示界面层至少包括汉语文本录入模块、格式设置模块以及预览模块。所述汉语文本录入模块配置为:基于直接录入和文件上传两种方式录入用户输入的汉语文本。所述汉语文本录入模块配置为将所述汉语文本传输至所述汉语预处理单元。所述格式设置模块配置为:将所述汉盲转换单元传输的盲文ASCII码进行排版。所述格式设置模块配置为将排版处理后得到的盲文结果传输至所述预览模块。
附图说明
图1是本发明方法的一种优选实施方式的步骤示意图;
图2是本发明一种优选的翻译模型的结构示意图;和
图3是本发明系统的一种优选实施方式的模块示意图。
附图标记列表
10:汉盲数字资源 20:翻译模型
30:翻译逻辑组件 40:用户界面层
31:预处理模块 32:调用模块
33:翻译结果模块 41:文本录入模块
42:格式设置模块 43:预览模块
311:汉语文本获取单元 312:汉语预处理单元
321:模型调用单元 322:汉盲转换单元
331:格式转换单元 332:排版单元
333:盲文保存单元
具体实施方式
下面结合附图1至3进行详细说明。
首先对背景知识和技术术语进行解释。
盲文(Braille)最基本的盲文符号盲文点字,由6个点组成,根据点的填充与否可形成64种变化,即64个点符(盲符)。计算机中也可用盲文ASCII码表示盲文,即64个点符对应64个盲文ASCII码(ASCII字符组成)。盲文ASCII码极大地方便盲文处理,并且是盲人点显器、盲文刻印机等设备的标准输入。
中国目前使用三种盲文:现行盲文、双拼盲文、国家通用盲文。现行盲文方案(简称“现行盲文”)是1953年由教育部颁布并在全国推行的盲文方案。该方案是以北京语音为标准,以普通话为基础,以词为单位,以声、韵、调三方表示一个完整音节,采用盲文分词连写规则记录汉语的一套盲文方案。现行盲文具有易学易用的优点,存在标调不够规范、信息冗余的明显缺陷。汉语双拼盲文方案(简称“双拼盲文”)是1988年由国家语言文字工作委员会同意试行推广的盲文改革方案。方案可在两方盲符内表示汉语声、韵、调三要素,整个体系包括:字母表、标点符号、同音分化法、简写法、哑音定字法等,同时也采用盲文分词连写规则。汉语双拼盲文方案旨在克服现行盲文的缺点,但因符形类别多、规则繁难,较现行盲文难学,只被部分盲人接受。2018年,教育部、国家语委、中国残联共同发布了《国家通用盲文方案》。国家通用盲文方案(简称“国家通用盲文”)沿用现行盲文的声母、韵母、声调、标点符号等。为了用盲文准确阅读、规范书写国家通用语言,充分体现我国国家通用语言音节带调的特点,该方案确立了全部音节标调的总原则,废止了需要时标调体系。该方案提出了按声母省写声调符号的规范,确定了一些汉字的简写形式,以减少盲文篇幅。该方案解决了阅读盲文时猜测读音问题,提高了盲文的表意功能,将大力促进盲人教育、文化事业的发展,为盲文信息化、盲人无障碍信息交流提供保障。
短语“汉盲翻译”的三种盲文表示如表1所示,现行盲文为全带调现行盲文,即字字标调。
表1汉盲翻译中盲文表示
空格属于盲文ASCII码,为盲文点字64种变化之一,即6个点均不填充,称为“空方”,可携带盲文分词连写信息。“汉盲翻译”国家通用盲文的盲文ASCII码为“HV2M8 FVI2”,其分词信息为“汉盲/翻译”。“汉盲”盲文ASCII码为“HV2M8”。盲文点字为“翻译”盲文ASCII码为“FVI2”,盲文点字为
双拼盲文的盲文ASCII码为“BF[?6P3B”,其分词信息为“汉盲/翻译”。“汉盲”盲文ASCII码为“BF[?”,其中ang为145点。阳平加第6点。最终为1456点。对应的盲文ASCII码为?。
编码器-解码器结构(Encoder-Decoder):最开始的基于卷积神经网络(CNN)的Encoder-Decoder模型就是将一个句子压缩成语义向量C,解码器Decoder每一步生成公用一个C。基于循环神经网络(RNN)和注意力(Attention)的Encoder-Decoder,解码器Decoder每一步会有不同的C,比最原始的效果好。
Transformer模型:可视为编码器-解码器结构(Encoder-Decoder),该模型完全摈弃卷积神经网络(CNN)、循环神经网络(RNN)。编码器Encoder和解码器Decoder由多头自注意力(Multi-Head Self Attention)构成。编码器Encoder由N个结构相同的encoder堆叠而成。encoder由Multi-Head Self Attention层、FFN层(Feed-Forward Network,包含两层全连接Dense层)构成。解码器Decoder由M个结构相同的decoder堆叠而成。decoder相对encoder在首部多了一个Masked Multi-Head Self Attention层。通过添加masking确保预测位置i的时候仅仅依赖于位置小于i的输出。在机器翻译中,解码过程是一个顺序操作的过程,也就是当解码第i个特征向量时,我们只能看到第i-1及其之前的解码结果。
键值对(key=value):每个键对应着相应的数值,用于生成与盲文字典对应的逆盲文ASCII码字典。逆盲文ASCII码字典能够将翻译模型20的预测结果转换为盲文ASCII码。
汉盲数字资源10:是指现存的汉语到盲文转换的数字资源。汉盲数字资源10包括汉语语料和盲文语料。汉语语料和盲文语料存储的内容相同。盲文语料中的每一个表示盲文的第二句子,在汉语语料中都有明确对应的表示汉语的第一句子。第二句子中的每一个盲文词,都在第一句子中有明确对应的汉语词或短语。
最优超参数:超参数是在翻译模型20开始学习过程之前设置值的参数,而不是通过训练得到的参数数据。通常情况下,在学习过程中需要对超参数进行优化,给翻译模型20选择一组最优超参数,提高学习的性能和效果。
特殊内容:在文本转换时,会遇到一些特殊情况,如汉语文本中有时会夹杂阿拉伯数字、英文字母以及一些特殊符号,盲文在“数字+量词”和采用数字形式的年月日时会需要特殊处理,例如,在数字后增加一个连接符。
BLEU(Bilingual Evaluation Understudy,双语评估替换)是用来衡量机器翻译文本与参考文本相似程度的指标,用于评价机器翻译结果的质量和机器翻译模型的好坏,是一种简单快速的自动评价指标。BLEU评分取值0~1,越靠近1翻译质量越好。
实施例1
如图1和图2所示,本实施例公开了一种基于Transformer的汉盲翻译方法,在不造成冲突或者矛盾的情况下,其他实施例的优选实施方式的整体和/或部分内容可以作为本实施例的补充。
如图1所示,本实施例公开的汉盲翻译方法包括如下步骤:
S100:基于现有句子级对应的汉盲数字资源10训练翻译模型20。优选地,汉盲数字资源10可以是现有的汉语到盲文转换的数字资源。汉盲数字资源10至少包括汉语语料和盲文语料。汉语语料和盲文语料存储的内容相同。盲文语料中的每一个表示盲文的第二句子,在汉语语料中都有明确对应的表示汉语的第一句子。第二句子中的每一个盲文词,都在第一句子中有明确对应的汉语词或短语。优选地,基于现行盲文、双拼盲文、国家通用盲文以及汉盲数字资源10可以构建至少三种汉语文本到盲文ASCII码转换的汉盲对照库。该汉盲对照库内的汉语文本和盲文ASCII码是一一映射的。该汉盲对照库是单一的汉语到盲文ASCII码映射,不包括分词语料库和标调语料库。
S200:基于Transformer构建以句子为单位的翻译模型20。该翻译模型20能够将汉语文本直接转换为盲文ASCII码。该翻译模型以单一处理阶段方式实现汉语文本直接转换为盲文ASCII码。现有的基于深度学习的汉盲翻译方法,不直接运用盲文规则对盲文串进行分词,而是采用汉盲词语级对照的语料训练分词模型,并采用训练好的模型直接将汉字串按照盲文规则进行分词。但是由于文本增删、段落拆分合并等,导致汉语和盲文内容的不完全对应,因此需要词语级精确对应的汉盲对照语料库,进而需要采用抽取语料-匹配-字符对齐的方式来构建汉盲对照语料库,导致构建语料库的成本大、时间长。其次,现有技术仍然采用分词、标调两个步骤进行翻译,因此需要利用其构建的词语级精确对应的汉盲对照语料库分别训练得到分词模型和标调模型。而且分词和标调所采用的模型不同,增加了翻译模型构建的难度和复杂度。尽管能够提高翻译的准确率,却显著的地降低了翻译的效率。而本发明基于Transformer构建以句子为单位且以单一处理阶段的方式将汉语文本直接转换为盲文ASCII码的所述翻译模型。即本发明构建的翻译模型是以句子为单位进行翻译的,并且由于采用单一阶段处理的方式将汉语文本直接转化为盲文ASCII码,不需要分词和标调两个步骤,也不需要分别构建分词模型和标调模型,更不需要构建词语级精确对应的汉盲对照语料库,因此本发明构建的基于Transformer的翻译模型20算法结构简单、翻译效率高。尽管本发明需要通过训练较大的训练数据才能提高翻译的准确率,但是本发明能够一步直接得到汉语文本的盲文翻译结果,能够在保证翻译质量的前提下显著提高翻译的效率。事实上,由于我国汉语一字多音和一音多意的特殊性,现有技术均是采用分词和标调两个必不可少的步骤来进行翻译,从而保证翻译的准确性。本发明打破了汉语文本到盲文翻译需要分步多阶段处理的技术偏见,利用单个翻译模型20避开分词和标调两个独立处理步骤,直接建立汉语文本和盲文ASCII码一一对应的函数模型实现汉盲转换。从翻译的质量角度,而不是翻译的准确率角度来构建翻译模型。实际上,在翻译汉语文本的过程中,有大量的词语是非一音多意和一字多音的,如何快速高效的将不容易引起歧义的汉语句子翻译为盲文句子才能提高翻译质量。其次,本发明也打破了现有技术以词为单位进行翻译的技术偏见,现有技术基于分词、标调的处理步骤,都是以词为单位对汉语文本进行翻译,这种翻译方式符合我国制定的盲文规则,也能够提高准确率,但是需要词语级精确对照的汉盲对照语料库,也需要先构建相应的分词模型才能够实现汉语文本到盲文的翻译。而本发明以句子为单位进行翻译,不需要构建词语级精确对应的汉盲对照语料库,使得本发明能够直接利用现存的汉盲数字资源,只需要经过句子切分处理就能使用,从而建设难度小、耗时短,显著地降低了构建语料库的成本。
S201:基于现有句子级对应的汉盲数字资源10训练翻译模型20步骤至少包括:
基于汉盲数字资源10获取汉语语料和与汉语语料对照的盲文ASCII码语料或盲文点字语料;
对汉语语料、盲文ASCII码语料或盲文点字语料进行预处理以转换为翻译模型20需要的句子信息。优选地,句子信息至少包括汉语文本和盲文文本的句子切分信息。优选地,切分信息至少包括对第一句子和第二句子的切分位置和长度信息。
S202:预处理步骤至少包括:
A、至少基于中文标点符号和截断长度对汉语语料进行切分。切分之后得到对应汉语语料的第一句子和第一最大长度。第一最大长度对应第一句子的最大长度。优选地,中文标点符号至少包括逗号、句号、感叹号、问号等。截断长度可以人为设定。优选地,截断长度可以是48。
B、基于汉语句子的切分信息对盲文ASCII码语料或盲文点字语料进行切分。切分之后得到对应盲文ASCII码语料或盲文点字语料的第二句子和第二最大长度。第二最大长度对应第二句子的最大长度。优选地,第一最大长度和第二最大长度可以不相等。
C、对第一句子和第二句子分别进行标记;
D、通过字典将标记后的第一句子和第二句子转换为数字信息。优选地,转换数字信息的数据可以随机提取部分数据作为测试集,剩余部分可以作为训练集。优选地,可以随机提取10%的数据作为测试集。
优选地,对第一句子和第二句子分别进行标记的步骤如下:
在第一句子的首部添加第一标记,并在第二句子的首部添加第一映射标记;
在第一句子的尾部添加第二标记,并在第二句子的尾部添加第二映射标记。优选地,在第一句子的长度小于第一最大长度的情况下,在第二标记之后添加第三标记。在第二句子的长度小于第二最大长度的情况下,在第二映射标记之后添加第三映射标记。
通过字典将标记后的第一句子和第二句子转换为数字信息的步骤如下:
E、基于汉语语料生成汉语字典。优选地,基于遍历汉语语料所有的内容的方式生成汉语字典。汉语字典至少包括三个键。三个键分别为0、1、2。0键对应第三标记。1键对应第一标记。2键对应第二标记。
F、基于盲文ASCII码语料或盲文点字语料生成盲文字典。优选地,基于遍历盲文ASCII码语料或盲文点字语料所有内容的方式生成盲文字典。优选地,盲文字典至少包括三个键。三个键分别为0、1、2。0键对应第三映射标记。1键对应第一映射标记。2键对应第二映射标记。优选地,基于盲文字典的键值对交换生成逆盲文ASCII码字典。逆盲文ASCII码字典能够将翻译模型20翻译时生成的预测结果转换为盲文ASCII码。
优选地,在翻译模型20获取汉盲数字资源10预处理的句子信息进行训练的步骤如下:
依次以第一标记、第一句子、第二标记和第三标记的顺序构建翻译模型20的输入。依次以第二句子、第二映射标记和第三映射标记的顺序构建翻译模型20的输出。学习第一句子到第二句子之间的映射函数。优选地,设翻译模型20的模型输入:
x=(xstart,x1,x2,...,xi,...,xn,xend,xpad,...)
xstart为第一标记。xend为第二标记标。xpad为第三标记。在输入句子过短时用xpad补齐。x1,x2,...,xi,...xn为第一句子,表示输入汉语句子,如(x1,x2,x3,x4)=(汉,盲,翻,译)。
设翻译模型20的模型输出序列:
Y=(y1,y2,...,yi,...,yn,yend)
yend标志模型应停止生成盲文ASCII码。y1,y2,...,yi,...,yn为模型依次生成的ASCII码,如(y1,y2,...,yi,...,y10)=(H,V,2,M,8,,F,V,I,2)。
S203:翻译模型20基于多头自注意力机制至少将输入、输出、输入-输出的信息关联的方式学习汉盲数字资源10。翻译模型20采用多头自注意力机制。多头自注意力机制的输入至少包括查询向量、键向量和值向量。翻译模型20将查询向量、键向量和值向量分别投射到不同的子空间中,从而在不同的子空间中学习输入、输出、输入-输出的信息。
优选地,Transformer模型可视为编码器-解码器结构(Encoder-Decoder)。该模型完全摈弃卷积神经网络(CNN)、循环神经网络(RNN)。编码器Encoder和解码器Decoder。Transformer模型由多头自注意力(Multi-Head Self Attention)构成。编码器Encoder由N个结构相同的encoder堆叠而成。encoder由Multi-Head Self Attention层、FFN层(Feed-Forward Network,包含两层全连接Dense层)构成。解码器Decoder由M个结构相同的decoder堆叠而成。decoder相对encoder在首部多了一个Masked Multi-Head SelfAttention层,通过添加masking确保预测位置i的时候仅仅依赖于位置小于i的输出。在翻译中,解码过程是一个顺序操作的过程,也就是当解码第i个特征向量时,我们只能看到第i-1及其之前的解码结果。优选地,第一句子可以作为编码器Encoder的输入。第二句子可以作为解码器Decoder的附加输入。解码器Decoder的主要输入为编码器Encoder输出。解码器Decoder输出时在盲文句子的尾部添加第二映射标记。在盲文句子的长度小于第二最大长度的情况下,添加第三映射标记。
本实施例的模型结构如图2所示。优选地,N=M=3。Multi-Head的head数为4。Embedding层词向量维度为100(每个汉字用一个100维向量表示)。FFN层的隐藏层维度为150。激活函数选择relu。Dropout层的舍弃率dropout_rate为0.05(以0.05的概率将神经元的激活值变为0)。优选地,翻译模型20中注意力计算有三个输入。Q表示查询向量。K表示键向量。V表示值向量。计算公式Attention(Scaled Dot-Product Attention,缩放点积注意力)为:
其中,为缩放因子。dk是K的维度。翻译模型20使用了多头自注意力机制将Q、K、V分别线性投射到不同空间h次。这样可在h个子空间head上学习到不同信息,最后将h个利用上述公式计算出的结果拼接起来。得到最终的注意力向量。优选地,第i个子空间head的计算公式headi、拼接公式MultiHead为:
MultiHead(Q,K,V)=Concat(head1,...,headi)WO
模型输入X经过输入编码(Input Embedding)、相对位置编码(PositionalEmbedding)得到向量X',令Q=K=V=X',送入第一个encoder利用公式MultiHead进行注意力计算。Encoder中有多个encoder。Encoder间存在Q=K=V=上一个encoder输出,记为encoder self attention。Decoder间也存在Q=K=V=上一个decoder输出,并利用公式MultiHead进行注意力计算,记为decoder self attention。
通过以上设置方式,达到的有益效果是:现有技术利用分词的思想来进行翻译,因此其翻译模型需要设置不同的词位,并计算不同汉字位于该词位的概率。事实上,分词的目的就是通过模型得到每个字的位置类别,然后合并成词。一般采用LSTM神经网络模型用于盲文规则的汉语文本分词。而基于词语级别的对照翻译使得翻译模型容易忽略句子的整体信息,也无法联系句子级别的上下信息。此外,通常采用n-gram模型进行标调,只能利用极其有限的信息,因此现有的翻译方法无法充分利用上下文信息来提高翻译的准确率和效率。而本发明的基于Transformer的翻译模型是以句子为单位进行翻译的,并且采用多头自注意力机制,能够通过查询向量、键向量和值向量将输入、输出、输入-输出的信息关联,从而能够利用上下信息提高翻译的效率和翻译的准确率。
S300:在基于预处理后的汉盲数字资源10的句子信息不断训练得到翻译模型20的最优超参数。基于最优超参数调整翻译模型20得到训练好的翻译模型20。基于训练好的翻译模型20翻译输入的汉语文本。对输入的汉语文本进行预处理以转换为翻译模型20需要的句子信息。
为了更好地说明本实施例的方法带来的有益效果,对本实施例的实验结果进行说明。
优选地,基于1988年《人民日报》1~6月汉语语料(大小34.5M,约1200万字)构建汉盲数字资源10。该汉盲数字资源10包括国家通用盲文、现行盲文(全带调)和双拼盲文三种汉盲对照语料库。首先基于S201和S202进行语料预处理,并通过S203中的翻译模型20和超参数进行训练。训练过程准确率和损失值如表2所示。
表2训练集和测试集准确率acc、损失值loss
表2结果表明,模型训练良好,且训练集和测试集各项指标很接近,不存在过拟合。
BLEU(Bilingual Evaluation Understudy,双语评估替换)是用来衡量机器翻译文本与参考文本相似程度的指标,用于评价机器翻译结果的质量和机器翻译模型的好坏,是一种简单快速的自动评价指标。BLEU评分取值0~1,越靠近1翻译质量越好。表2所训练模型的BLEU得分如表3所示。BL EU计算时,句子以空格分割成列表,并且每个机器翻译句子只有一个参考句子(可以有多个参考句子)。(ω1,ω2,ω3,ω4)代表1-gram、2-gram、3-gram、4-gram在计算最终BLEU得分的权重。满足ω1+ω2+ω3+ω4=1。
表3基于Transformer的汉盲翻译BLEU得分
表3结果表明,本实施例提供的基于Transformer的汉盲翻译方法可实现汉语文本一步转换为盲文。在NLTK工具计算BLEU分数的默认权重ω1=ω2=ω3=ω4=0.25下,本实施例提供的方法在将汉语文本翻译为国家通用盲文、现行盲文(全带调)、双拼盲文时,均可取得0.8左右的BLEU分数。因此,本实施例提供的翻译方法翻译文本质量高,且在纯n-gram(ωn=1)计算方式下n取值越大,提高越大,说明生成的翻译句子不仅在词的层面更匹配,在句子的层面更通顺。
实施例2
如图3所示,本实施例公开了一种基于Transformer的汉盲翻译系统。在不造成冲突或者矛盾的情况下,其他实施例的优选实施方式的整体和/或部分内容可以作为本实施例的补充。
本发明还提供一种基于Transformer的汉盲翻译系统,至少包括为用户提供汉语文本到盲文翻译的翻译逻辑组件30。翻译逻辑组件30配置为调用训练好的翻译模型20进行翻译。翻译模型20配置为:基于Transformer以句子为单位且将汉语文本直接转换为盲文ASCII码的方式构建。翻译模型20基于多头自注意力机制至少将输入、输出、输入-输出的信息关联的方式学习汉盲数字资源10。翻译模型20通过现有句子级对应的汉盲数字资源10训练。优选地,翻译模型20的构建方法和训练方法可以采用实施例1公开的方法,重复的内容不再赘述。
根据一种优选实施方式,翻译逻辑组件30至少包括预处理模块31、调用模块32和翻译结果模块33。调用模块32配置为通过训练好的翻译模型20将预处理模块31传输的汉语文本转换为盲文ASCII码。优选地,调用模块32将盲文ASCII码传输至翻译结果模块33。
根据一种优选实施方式,预处理模块31至少包括汉语文本获取单元311和汉语预处理单元312。汉语文本获取单元311配置为将汉语文本录入模块41录入的汉语转换为汉语预处理单元312能够识别的汉语文本。汉语预处理单元312配置为对汉语文本获取单元311传输的汉语文本进行切分、标记和字典转换处理以使其转换为翻译模型20需要的句子信息。汉语预处理单元312配置为将该信息传输至调用模块32。
根据一种优选实施方式,调用模块32至少包括模型调用单元321和汉盲转换单元322。模型调用单元321配置为调用汉盲数字资源10至汉语预处理单元312和翻译模型20。模型调用单元321配置为能够根据汉盲翻译系统的部署环境调用训练好的翻译模型20至汉盲转换单元322。例如,本实施例的汉盲翻译系统可以使用Java Web部署项目,需要使用Deeplearning4j工具根据格式设置模块42中盲文类型调用对应的在Keras框架下训练好的基于Transformer的翻译模型20。
优选地,汉盲转换单元322配置为基于训练好的翻译模型20将汉语预处理单元312传输的用户录入的汉语文本转换为盲文ASCII码。汉盲转换单元322配置为将盲文ASCII码传输至翻译结果模块33。
根据一种优选实施方式,翻译结果模块33至少包括格式转换单元331、排版单元332和盲文保存单元333。格式转换单元331配置为:用于将汉盲转换单元322传输的盲文ASCII码转换为盲文点字。格式转换单元331配置为将盲文点字传输至排版单元332。排版单元332配置为:用于根据格式设置模块42的排版设置对盲文点字进行排版处理。排版单元332配置为将排版处理后的盲文结果传输至盲文保存单元333。盲文保存单元333配置为:用于将排版单元332传输的盲文结果以以电子格式的方式存储。
根据一种优选实施方式,汉盲翻译系统还包括图形化的显示界面层40。显示界面层40至少包括汉语文本录入模块41、格式设置模块42以及预览模块43。汉语文本录入模块41配置为:基于直接录入和文件上传两种方式录入用户输入的汉语文本。汉语文本录入模块41配置为将汉语文本传输至汉语文本获取单元311。格式设置模块42配置为:将汉盲转换单元322传输的盲文ASCII码进行排版。优选地,格式设置模块42设置有转换格式选项。转化格式选项包括国家通用盲文、现行盲文和双拼盲文。格式设置模块42设置有显示方数选项。显示方数选项为每行方数。优选地,现有市场上主流的点显器而欧洲股为14、26、32、40方,其中空方也算一方。格式设置模块42设置有输出设置选项。输出设置选项中的页码设置为每页行数、是否需要页码。格式设置模块42还设置有对照显示。对照显示用于方便用户选择纯盲文显示或者汉语-盲文对照显示。格式设置模块42还包括预览盲文和转为ASCII。预览盲文和转为ASCII可以让用户选择需要盲文点字还是盲文ASCII码。格式设置模块42配置为将排版处理后得到的盲文结果传输至预览模块43。优选地,预览模块43可以让用户在页面看到翻译结果。预览模块43还包括下载纯盲文和打印预览。下载纯盲文可以让用户下载翻译结果。打印预览可以将预览结果的文本框内容转换为PDF,并供用户下载。
此外,实施例1和实施例2公开的汉盲翻译方法或汉盲翻译系统不仅可以应用于盲文出版、盲人教育等实体出版的盲文领域具有重要应用价值,还可以通过计算机设备展现,便于实现人机交互。
需要注意的是,上述具体实施例是示例性的,本领域技术人员可以在本发明公开内容的启发下想出各种解决方案,而这些解决方案也都属于本发明的公开范围并落入本发明的保护范围之内。本领域技术人员应该明白,本发明说明书及其附图均为说明性而并非构成对权利要求的限制。本发明的保护范围由权利要求及其等同物限定。
Claims (10)
1.一种基于Transformer的汉盲翻译方法,其特征在于,所述方法至少包括:
基于现有句子级对应的汉盲数字资源(10)训练翻译模型(20);
基于Transformer构建以句子为单位的将汉语文本直接转换为盲文ASCII码的所述翻译模型(20),其中,
所述翻译模型(20)基于多头自注意力机制以至少将输入、输出、输入-输出的信息关联的方式学习所述汉盲数字资源(10)。
2.根据权利要求1所述的汉盲翻译方法,其特征在于,基于现有句子级对应的汉盲数字资源(10)训练翻译模型(20)的步骤至少包括:
基于所述汉盲数字资源(10)获取汉语语料和与所述汉语语料对照的盲文ASCII码语料或盲文点字语料;
对所述汉语语料、盲文ASCII码语料或盲文点字语料进行预处理以转换为所述翻译模型(20)需要的句子信息,其中,
所述句子信息至少包括汉语文本和盲文文本的句子切分信息。
3.根据权利要求2所述的汉盲翻译方法,其特征在于,所述预处理步骤至少包括:
至少基于中文标点符号和截断长度对所述汉语语料进行切分,从而得到对应所述汉语语料的第一句子和对应所述第一句子的第一最大长度;
基于所述汉语句子的切分信息对所述盲文ASCII码语料或盲文点字语料进行切分,从而得到对应所述盲文ASCII码语料或盲文点字语料的第二句子和对应所述第二句子的第二最大长度;
对所述第一句子和第二句子分别进行标记;
通过字典将标记后的第一句子和第二句子转换为数字信息。
4.根据权利要求3所述的汉盲翻译方法,其特征在于,对所述第一句子和第二句子分别进行标记的步骤如下:
在所述第一句子的首部添加第一标记,并在第二句子的首部添加第一映射标记;
在所述第一句子的尾部添加第二标记,并在第二句子的尾部添加第二映射标记,其中,
在所述第一句子的长度小于所述第一最大长度的情况下,在所述第二标记之后添加第三标记;
在所述第二句子的长度小于所述第二最大长度的情况下,在所述第二映射标记之后添加第三映射标记。
5.根据权利要求4所述的汉盲翻译方法,其特征在于,通过字典将标记后的第一句子和第二句子转换为数字信息的步骤如下:
基于所述汉语语料生成汉语字典;
基于所述盲文ASCII码语料或盲文点字语料生成盲文字典,其中,
所述汉语字典的至少三个键分别对应所述第一标记、第二标记和第三标记;
所述盲文字典的至少三个键分别对应所述第一映射标记、第二映射标记和第三映射标记。
6.根据权利要求5所述的汉盲翻译方法,其特征在于,在所述翻译模型(20)获取所述汉盲数字资源(10)预处理的句子信息进行训练的步骤如下:
依次以所述第一标记、第一句子、第二标记和第三标记的顺序构建所述翻译模型(20)的输入;
依次以所述第二句子、第二映射标记和第三映射标记的顺序构建所述翻译模型(20)的输出;
学习所述第一句子到第二句子之间的映射函数。
7.根据权利要求6所述的汉盲翻译方法,其特征在于,所述翻译模型(20)采用多头自注意力机制,其中,
所述多头自注意力机制的输入至少包括查询向量、键向量和值向量,并将所述查询向量、键向量和值向量分别投射到不同的子空间中,从而在不同的子空间中学习输入、输出、输入-输出的信息。
8.根据权利要求7所述的汉盲翻译方法,其特征在于,所述方法还包括:
基于预处理后的所述汉盲数字资源(10)的句子信息不断训练得到所述翻译模型(20)的最优超参数;
基于所述最优超参数调整所述翻译模型(20)得到训练好的翻译模型(20);
基于训练好的翻译模型(20)翻译输入的汉语文本,其中,
对输入的汉语文本进行预处理以转换为所述翻译模型(20)需要的句子信息。
9.一种基于Transformer的汉盲翻译系统,至少包括为用户提供汉语文本到盲文翻译的翻译逻辑组件(30),其特征在于,
所述翻译逻辑组件(30)配置为调用训练好的翻译模型(20)进行翻译,其中,所述翻译模型(20)配置为:基于Transformer以句子为单位将汉语文本直接转换为盲文ASCII码的方式构建,其中,
所述翻译模型(20)基于多头自注意力机制以至少将输入、输出、输入-输出的信息关联的方式学习汉盲数字资源(10),其中,
所述翻译模型(20)通过现有句子级对应的汉盲数字资源(10)训练。
10.根据权利要求9的所述的汉盲翻译系统,其特征在于,所述翻译逻辑组件(30)至少包括预处理模块(31)、调用模块(32)和翻译结果模块(33),
所述调用模块(32)配置为通过训练好的所述翻译模型(20)将所述预处理模块(31)传输的汉语文本转换为盲文ASCII码,并将所述盲文ASCII码传输至所述翻译结果模块(33)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010409821.6A CN111581985B (zh) | 2020-05-14 | 2020-05-14 | 一种基于Transformer的汉盲翻译方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010409821.6A CN111581985B (zh) | 2020-05-14 | 2020-05-14 | 一种基于Transformer的汉盲翻译方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111581985A true CN111581985A (zh) | 2020-08-25 |
CN111581985B CN111581985B (zh) | 2022-05-24 |
Family
ID=72115494
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010409821.6A Active CN111581985B (zh) | 2020-05-14 | 2020-05-14 | 一种基于Transformer的汉盲翻译方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111581985B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113095091A (zh) * | 2021-04-09 | 2021-07-09 | 天津大学 | 一种可选择上下文信息的篇章机器翻译系统及方法 |
CN113420571A (zh) * | 2021-06-22 | 2021-09-21 | 康键信息技术(深圳)有限公司 | 基于深度学习的文本翻译方法、装置、设备及存储介质 |
CN113901840A (zh) * | 2021-09-15 | 2022-01-07 | 昆明理工大学 | 一种基于多粒度特征的文本生成评价方法 |
CN115293178A (zh) * | 2022-08-19 | 2022-11-04 | 兰州大学 | 基于端到端模型的盲文到汉语的自动转换方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6122606A (en) * | 1996-12-10 | 2000-09-19 | Johnson; William J. | System and method for enhancing human communications |
CN1591414A (zh) * | 2004-06-03 | 2005-03-09 | 华建电子有限责任公司 | 一种汉语到盲文的自动翻译转换方法 |
CN109241540A (zh) * | 2018-08-07 | 2019-01-18 | 中国科学院计算技术研究所 | 一种基于深度神经网络的汉盲自动转换方法和系统 |
CN109344389A (zh) * | 2018-08-15 | 2019-02-15 | 中国科学院计算技术研究所 | 一种汉盲对照双语语料库的构建方法和系统 |
CN110390859A (zh) * | 2018-04-19 | 2019-10-29 | 兰州大学 | 一种基于MusicXML乐谱到盲文的转换方法及系统 |
-
2020
- 2020-05-14 CN CN202010409821.6A patent/CN111581985B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6122606A (en) * | 1996-12-10 | 2000-09-19 | Johnson; William J. | System and method for enhancing human communications |
CN1591414A (zh) * | 2004-06-03 | 2005-03-09 | 华建电子有限责任公司 | 一种汉语到盲文的自动翻译转换方法 |
CN110390859A (zh) * | 2018-04-19 | 2019-10-29 | 兰州大学 | 一种基于MusicXML乐谱到盲文的转换方法及系统 |
CN109241540A (zh) * | 2018-08-07 | 2019-01-18 | 中国科学院计算技术研究所 | 一种基于深度神经网络的汉盲自动转换方法和系统 |
CN109344389A (zh) * | 2018-08-15 | 2019-02-15 | 中国科学院计算技术研究所 | 一种汉盲对照双语语料库的构建方法和系统 |
Non-Patent Citations (3)
Title |
---|
YUKO SHIMOMURA ET AL: "Braille Translation System Using Neural Machine Translation Technology I -Code Conversion", 《ICMSEM 2019》 * |
ZHIWEI LIU ET AL: "Automatic Translation for Chinese Mathematical Braille Code", 《THE 5TH INTERNATIONAL CONFERENCE ON COMPUTER SCIENCE & EDUCATION》 * |
唐旭日 等: "《计算机辅助翻译基础》", 31 July 2017, 武汉大学出版社 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113095091A (zh) * | 2021-04-09 | 2021-07-09 | 天津大学 | 一种可选择上下文信息的篇章机器翻译系统及方法 |
CN113420571A (zh) * | 2021-06-22 | 2021-09-21 | 康键信息技术(深圳)有限公司 | 基于深度学习的文本翻译方法、装置、设备及存储介质 |
WO2022267674A1 (zh) * | 2021-06-22 | 2022-12-29 | 康键信息技术(深圳)有限公司 | 基于深度学习的文本翻译方法、装置、设备及存储介质 |
CN113901840A (zh) * | 2021-09-15 | 2022-01-07 | 昆明理工大学 | 一种基于多粒度特征的文本生成评价方法 |
CN113901840B (zh) * | 2021-09-15 | 2024-04-19 | 昆明理工大学 | 一种基于多粒度特征的文本生成评价方法 |
CN115293178A (zh) * | 2022-08-19 | 2022-11-04 | 兰州大学 | 基于端到端模型的盲文到汉语的自动转换方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN111581985B (zh) | 2022-05-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111581985B (zh) | 一种基于Transformer的汉盲翻译方法及系统 | |
CN109241540B (zh) | 一种基于深度神经网络的汉盲自动转换方法和系统 | |
CN112765345A (zh) | 一种融合预训练模型的文本摘要自动生成方法及系统 | |
CN100568225C (zh) | 文本中数字和特殊符号串的文字符号化处理方法及系统 | |
CN110223742A (zh) | 中文电子病历数据的临床表现信息抽取方法和设备 | |
CN111966812B (zh) | 一种基于动态词向量的自动问答方法和存储介质 | |
CN106294322A (zh) | 一种基于lstm的汉语零指代消解方法 | |
CN105404621A (zh) | 一种用于盲人读取汉字的方法及系统 | |
CN104239289B (zh) | 音节划分方法和音节划分设备 | |
CN112926345A (zh) | 基于数据增强训练的多特征融合神经机器翻译检错方法 | |
CN113268576B (zh) | 一种基于深度学习的部门语义信息抽取的方法及装置 | |
Samudravijaya | Indian language speech label (ILSL): a de facto national standard | |
CN112257442A (zh) | 一种基于扩充语料库神经网络的政策文件信息提取方法 | |
CN111581991B (zh) | 一种基于端到端神经机器翻译的汉盲翻译方法及系统 | |
Wang et al. | Chinese-braille translation based on braille corpus | |
Yadav et al. | Different models of transliteration-a comprehensive review | |
TW420774B (en) | Method and apparatus for automatically correcting documents in chinese language | |
Lu et al. | An automatic spelling correction method for classical mongolian | |
CN114528861A (zh) | 一种基于语料库的外语翻译训练方法及装置 | |
Cho et al. | Towards an efficient code-mixed grapheme-to-phoneme conversion in an agglutinative language: A case study on to-Korean Transliteration | |
CN111597827A (zh) | 一种提高机器翻译准确度的方法及其装置 | |
Round et al. | Automated parsing of interlinear glossed text from page images of grammatical descriptions | |
CN114429127A (zh) | 一种汉字到通用盲文的转换方法及系统 | |
CN114429128A (zh) | 一种汉字-通用盲文对照语料库的构建方法及系统 | |
CN114970453A (zh) | 一种通用盲文到汉字的转换方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20230322 Address after: 730000 No. 520, Nanbinhe East Road, Chengguan District, Lanzhou City, Gansu Province Patentee after: Reader Publishing Group Co.,Ltd. Address before: 730000 No. 222 Tianshui South Road, Chengguan District, Gansu, Lanzhou Patentee before: LANZHOU University |
|
TR01 | Transfer of patent right |