CN110096705A

CN110096705A - 一种无监督的英文句子自动简化算法

Info

Publication number: CN110096705A
Application number: CN201910354246.1A
Authority: CN
Inventors: 强继朋; 李云; 袁运浩
Original assignee: Yangzhou University
Current assignee: Yangzhou University
Priority date: 2019-04-29
Filing date: 2019-04-29
Publication date: 2019-08-06
Anticipated expiration: 2039-04-29
Also published as: CN110096705B

Abstract

本发明公开了互联网领域内的一种无监督的英文句子自动简化算法，按如下步骤进行：步骤1、训练词的向量表示；步骤2、获取词的频率；步骤3、分别获取简化句子集合和复杂句子集合；步骤4、填充短语表；步骤5、分别训练简化句子语言模型和复杂句子语言模型；步骤6、构建基于短语的句子简化模型；步骤7、迭代执行回译的策略，训练更优的句子简化模型，本发明在没有利用任何标注的并行语料，充分利用英文维基百科语料，有效提高了英文句子简化的准确性。

Description

一种无监督的英文句子自动简化算法

技术领域

本发明涉及一种互联网文本算法，特别涉及一种无监督的英文句子自动简化算法。

背景技术

近年来，互联网上的文本资料向更广泛的用户提供了很多有用的知识和信息。然后，对于许多人来说，网上文本的撰写方式，如词汇和句法结果，可能难以阅读和理解，特别是对那些识字率低、认知或语言障碍、或者文本语言知识有限的人。包含非常用词或长而复杂句子的文本不仅很难被人们阅读和理解，也同样很难被机器进行分析。自动文本简化是在保留原有文本信息的情况下，尽可能简化原有文本的内容，从而达到更容易被更广泛的观众阅读和理解。

现有的文本简化算法利用机器翻译的算法，从一种语言下的复杂句子和简化句子的并行语料对中学习简化句子。这种文本简化算法是一种有监督的学习任务，它的有效性严重依赖大量的并行简化语料。可是，现在已有的英文并行简化语料主要是从普通英语的维基百科和儿童版的英语维基百科中获取，通过匹配算法分别两个不同维基百科中选择句子作为并行句子对。目前能够获取的并行简化语料，不仅数量少，而且包含很多非简化的句子对和错误的句子对，主要因为儿童版的维基百科由非专业人士编写，并不是和普通的维基百科一一对应，导致很难选择合适的句子匹配算法。因为简化并行语料的问题，导致已有文本简化算法效果并不是很理想。

发明内容

本发明的目的是提供一种无监督的英文句子自动简化算法，在无需要任何并行简化语料，只利用公开下载的维基百科语料，实现对英文句子的自动简化，从而能让用户更容易阅读和理解英文句子，特别是认知或者语言障碍的人。

本发明的目的是这样实现的：一种无监督的英文句子自动简化算法，按如下步骤进行：

步骤1、把公开的英文维基百科语料库D作为训练语料，采用词嵌入算法Word2vec获取词语t的向量表示v_t；通过Word2vec算法获取的词向量表示能够很好的抓住词语的语义特征；采用Skip-Gram模型学习词嵌入算法Word2vec；给定语料库D和词语t，考虑一个以t为中心的滑动窗口，用W_t表示出现在t上下文窗口中的词语集合；观察上下文词语集合的对数概率定义如下：

式(1)中，v'_w是词语w的上下文向量表示，V是D的词汇表；然后，Skig-Gram的整体目标函数被定义如下：

式(2)中，词的向量表示可以通过最大化该目标函数进行学习；

步骤2、利用维基百科语料D，统计每个词语t的频率f(t)，f(t)表示词语t在D中的出现次数；

步骤3、利用维基百科语料D，获取简化句子集合S和复杂句子集合C；

步骤4、利用词的向量表示和词的频率，填充表示词翻译为另一个词语概率的短语表PT(Phrase Table)；在PT中，词语t_i到词语t_j的翻译概率p(t_j|t_i)的计算公式如下：

式(4)中，cos表示余弦相似度计算公式；

步骤5、针对简化句子集合S和复杂句子集合C，分别采用语言模型KenLM算法进行训练，获取简化语言模型LM_S和复杂语言模型LM_C；LM_S和LM_C在后面的迭代学习过程中保持不变；

步骤6、利用短语表PT、简化语言模型LM_S和复杂语言模型LM_C，采用基于短语的机器翻译算法PBMT(Phrased-based Machine Translation)，构建复杂句子到简化句子的简化算法给定复杂句子c，算法利用式(5)，分别计算不同词的组合组成的句子s的得分，最后选择得分做高的句子s’将作为简化句子：

s'＝argmax_sp(c|s)p(s) (5)

式(5)中，PBMT算法分解p(c|s)作为短语表PT的内积，p(s)是句子s的概率，是从语言模型LM_S获得；

步骤7、利用初始的PBMT算法迭代执行回译(Back-translation)的策略，生成更优的文本简化算法。

作为本发明的进一步限定，步骤3具体包括：

步骤3.1、针对维基百科语料D中的每个句子s，采用Flesch Reading Ease(FRE)算法进行打分，如式(3)，并按分值从高到低进行排序；

式(3)中，FRE(s)表示句子s的FRE得分，tw(s)表示句子s中所有词的数目，ts(s)表示句子s中所有音节的数目；

步骤3.2、去除得分超过100的句子集合，去除得到低于20分的句子集合，去除中间得分的句子集合；最后，选择高得分的句子集合作为简化句子集合S和低得分的句子集合作为复杂句子集合C。

作为本发明的进一步限定，所述步骤7具体包括：

步骤7.1、首先利用算法，翻译复杂句子集合C，得到新的合成的简化句子集合S₀，然后，循环执行步骤7.2到7.5，迭代次数i从1到N；

步骤7.2、利用合成的并行语料(S_i-1,C)、简化语言模型LM_S和复杂语言模型LM_C，训练新的从简化句子到复杂句子的PBMT算法

步骤7.3、利用翻译简化句子集合S，得到新的合成的复杂句子集合C_i；

步骤7.4、利用合成的并行语料(C_i,S)、简化语言模型LM_C和复杂语言模型LM_S，训练新的从复杂句子到简化句子的PBMT算法

步骤7.5、利用翻译复杂句子集合C，得到新的合成的简化句子集合S_i；重新回到步骤7.2重复执行，直到迭代N次。

与现有技术相比，本发明的有益效果在于：

1、本发明在填充短语表的过程中，结合了从维基百科语料中获取的词向量表示和词频率，能够抓住词语的语义信息和词语的使用频率，克服了传统的基于短语的机器翻译PBMT算法需要利用并行语料填充短语表；

2、本发明将维基百科语料库作为知识库，利用Flesch Reading Ease(FRE)算法对句子进行打分，从而获取简化句子集合和复杂句子集合，从而能够更为准确的训练复杂句子语言模型和简化句子语言模型；

3、本发明利用获得的短语表、复杂句子语言模型和简化句子语言模型，基于PBMT算法构建了初始的无监督的文本简化算法；该文本简化算法不仅是无监督的算法，更是简单、容易解释和能够快速的进行训练；

4、本发明在构建初始的简化算法之后，利用简化算法生成并行语料，从而采用回译的策略对已有的文本简化模型进行优化，修正了初始的短语表中可能错误的条目，进一步提升算法型性能。

具体实施方式

下面结合具体实施例对本发明做进一步说明。

一种无监督的英文句子自动简化算法，按如下步骤进行：

步骤1、把公开的英文维基百科语料库D作为训练语料，可以从“https:// dumps.wikimedia.org/enwiki/”下载，采用词嵌入算法Word2vec获取词语t的向量表示v_t；通过Word2vec算法获取的词向量表示能够很好的抓住词语的语义特征；获取词的向量表示后，可以获取词语的相似度，帮助寻找每个词的高相似的词语集合；本实例中，每个向量的维数设置为300，采用Skip-Gram模型学习词嵌入算法Word2vec；给定语料库D和词语t，考虑一个以t为中心的滑动窗口，用W_t表示出现在t上下文窗口中的词语集合；滑动窗口设置为t前面5个词和后面5个词；观察上下文词语集合的对数概率定义如下：

式(2)中，词的向量表示可以通过采用随机的梯度下降算法和负抽样，最大化该目标函数进行学习。

步骤2、利用维基百科语料D，统计每个词语t的频率f(t)，f(t)表示词语t在D中的出现次数；在文本简化领域中，词的复杂度测量通过会考虑词语的频率；一般说来，词的频率越高，该词越容易理解；因此，词频可以用来从词语t的高相似的词语集合中寻找最容易理解的词。

步骤3、维基百科语料D中一个超大的语料库，包含了大量的复杂句子集合和简单句子集合；利用维基百科语料D，获取简化句子集合S和复杂句子集合C；

步骤3.1、针对维基百科语料D中的每个句子s，采用FRE(Flesch Reading Ease)算法进行打分，如式(3)，并按分值从高到低进行排序；分值越高意味着句子越简单，分值越低意味着句子越困难；

式(3)中，FRE(s)表示句子s的FRE得分，tw(s)表示句子s中所有词的数目，ts(s)表示句子s中所有音节的数目；FRE算法通常被用来评价文本简化模型最后简化结果的好坏；

步骤3.2、去除得分超过100的句子集合，去除得到低于20分的句子集合，去除中间得分的句子集合；去除高分和低分的句子，是为了去除特别极端的句子；去除中间得分的句子是为了在S和C之间建立明显的界限；最后，选择高得分的句子集合作为简化句子集合S和低得分的句子集合作为复杂句子集合C；本实例中，S和C都分别选择了1千万个句子。

步骤4、利用词的向量表示和词的频率，填充表示词翻译为另一个词语概率的短语表PT(Phrase Table)。在PT中，词语t_i到词语t_j的翻译概率p(t_j|t_i)的计算公式如下：

式(4)中，cos表示余弦相似度计算公式；考虑到学习所有词的概率转换是不可行的，在本实例中，选择了最频繁的30万个词语，并只计算到最相似的200个词语的概率；对词语中的专有名词，只计算到自己本身的概率。

步骤5、针对步骤3获取的简化句子集合S和复杂句子集合C，分别采用语言模型KenLM算法进行训练，获取简化语言模型LM_S和复杂语言模型LM_C；LM_S和LM_C在后面的迭代学习过程中保持不变；语言模型用来计算给语料中指定的词语序列的概率；简化语言模型和复杂语言模型通过计算词语序列的概率，有助于通过以下方法提高简化模型的质量：执行本地替换和词语顺序重排。

步骤6、利用短语表PT、简化语言模型LM_S和复杂语言模型LM_C，采用基于短语的机器翻译算法PBMT(Phrased-based Machine Translation)，构建复杂句子到简化句子的简化算法PBMT算法最先在2007年《Statistical phrase-based translation》提出，用来用于有双语言的机器翻译；给定复杂句子c，算法利用式(5)，分别计算不同词的组合组成的句子s的得分，最后选择得分做高的句子s’将作为简化句子：

s'＝argmax_sp(c|s)p(s) (5)

式(5)中，PBMT算法分解p(c|s)作为短语表PT的内积，p(s)是句子s的概率，是从语言模型LM_S获得。

步骤7、鉴于只能获取非并行语料，利用初始的PBMT算法迭代执行回译(Back-translation)的策略，可以把非常困难的无监督学习问题转化为有监督学习任务，从而生成更优的文本简化算法；

步骤7.1、首先利用算法，翻译复杂句子集合C，得到新的合成的简化句子集合S₀；然后，循环执行步骤7.2到7.5，迭代次数i从1到N；

步骤7.2、利用合成的并行语料(S_i-1,C)、简化语言模型LM_C和复杂语言模型LM_S，训练新的从简化句子到复杂句子的PBMT算法

步骤7.5、利用翻译复杂句子集合C，得到新的合成的简化句子集合S_i；重新回到步骤7、2重复执行，直到迭代N次；本实例中，N被设置为3。

直观的说，由于PBMT算法的输入是包含噪音的，导致短语表中许多条目是不正确的；尽管如此，在产生简化句子的过程中，语言模型能够帮助纠正一些错误；只要这种情况发生了，随着迭代的持续进行，短语表和翻译算法都会相应的被提高；随着短语表中更多的条目将被纠正过来，PBMT算法也会越来越强大。

本发明并不局限于上述实施例，在本发明公开的技术方案的基础上，本领域的技术人员根据所公开的技术内容，不需要创造性的劳动就可以对其中的一些技术特征作出一些替换和变形，这些替换和变形均在本发明的保护范围内。

Claims

1.一种无监督的英文句子自动简化算法，其特征在于，按如下步骤进行：

式(4)中，cos表示余弦相似度计算公式；

s'＝argmax_sp(c|s)p(s) (5)

2.根据权利要求1所述的一种无监督的英文句子自动简化算法，其特征在于，步骤3具体包括：

3.根据权利要求1所述的一种无监督的英文句子自动简化算法，其特征在于，所述步骤7具体包括：