CN112784579A

CN112784579A - 一种基于数据增强的阅读理解选择题答题方法

Info

Publication number: CN112784579A
Application number: CN202011630675.6A
Authority: CN
Inventors: 张虎; 张颖; 雷登斌; 潘邦泽; 杨陟卓; 李茹
Original assignee: Shanxi University
Current assignee: Shanxi University
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2021-05-11
Anticipated expiration: 2040-12-31
Also published as: CN112784579B

Abstract

本发明涉及自然语言处理领域，具体涉及一种基于数据增强的阅读理解选择题答题方法。所述方法为：利用滑动窗口方法裁剪阅读理解选择题的背景材料；规范阅读理解选择题的背景材料、题干和选项数据格式；利用TF‑IDF方法从词频角度提取答题候选句，得到答题材料句子集X；利用Bi‑Attention从高维句向量角度提取答题候选句，得到答题材料句子集X；合并去重S3、S4所得的句子集X、Y，得到候选句集Z；利用适应于阅读理解选择题的EDA策略扩充候选句集Z，得到最终数据增强候选句集；将最终数据增强候选句集输入到BERT模型做阅读理解选择题答案预测。

Description

一种基于数据增强的阅读理解选择题答题方法

技术领域

本发明涉及自然语言处理领域，具体涉及一种基于数据增强的阅读理解选择题答题方法。

背景技术

近年来，机器阅读理解任务受到国内外自然语言处理研究领域学者的广泛关注，已成为评价基于自然语言理解的智能系统的核心任务之一。

机器阅读理解主要包括多项选择题和主观问答题。其中，阅读理解选择题又分为文意理解类和片段理解类选择题，二者旨在基于对背景材料的“理解”从多个选项中选出最佳答案，由于提供的背景材料相对较长且关键信息极其具有隐藏性，答案无法在背景材料中直接找到。同时，选择题中不同选项涉及的问题也不限定所处的段落，即一个问题可能需要理解多个段落甚至多篇材料。

阅读理解选择题通常包含一篇或多篇背景材料、一个或多个问题以及每个问题的四个选项A、B、C、D。从实验数据集上看，中文阅读理解选择题任务数据集具有更小的数据规模和更大程度的复杂性，问题解答过程中通常会用到更多的常识知识和推理。

随着深度学习技术的快速发展和广泛应用，机器阅读理解能力有了大幅提高，但高性能往往需要用到大规模和高质量的训练数据，而对于机器阅读理解选择题任务，数据资源的匮乏一直是一个制约深度学习方法深入应用的关键性问题。

数据增强是扩充数据样本规模的一种有效方法，可以提高模型的泛化能力、提升模型的鲁棒性。目前，在计算机视觉和语音识别等领域中，针对数据不足现象提出的数据增强方法已成为提高神经网络模型性能的重要手段。

目前，针对机器阅读理解提出的数据增强方法还相对较少，专门针对阅读理解选择题答题的数据增强方法也还未见相关文献介绍。因此，探索适应于阅读理解题选择题的数据增强方法具有重要的意义。

发明内容

针对上述问题本发明提供了一种基于数据增强的阅读理解选择题答题方法。

为了达到上述目的，本发明采用了下列技术方案：

一种基于数据增强的阅读理解选择题答题方法，包括以下步骤：

S1、利用滑动窗口方法裁剪阅读理解选择题的背景材料；

S2、规范阅读理解选择题的背景材料、题干和选项数据格式；

S3、利用TF-IDF方法从词频角度提取答题候选句，得到答题材料句子集X；

S4、利用Bi-Attention从高维句向量角度提取答题候选句，得到答题材料句子集X；

S5、合并去重S3、S4所得的句子集X、Y，得到候选句集Z；

S6、利用适应于阅读理解选择题的EDA策略扩充候选句集Z，得到最终数据增强候选句集；

S7、将最终数据增强候选句集输入到BERT模型做阅读理解选择题答案预测。

进一步，所述步骤S1中利用滑动窗口方法裁剪阅读理解选择题的背景材料，具体步骤为：

S101、定义一篇文章P的字数为n，裁剪后的文章子片段为{p₁，p₂，…，p_m}，其中每个子片段p_i的字符数不超过512；

S102、要求前一个子片段的结尾与后一个子片段的开头有衔接性，有10％左右是重复的，以保证相邻子片段之间具有关联，采用一个完整的句子s_j作为衔接，保证滑动完整个篇章，具体表示如以下公式所示：

P＝p₁∪p₂∪...∪p_i (1)

s₁＝p₁∩p₂，...，s_i-1＝p_i-1∩p_i (2)

通过设置滑动窗口的大小动态裁剪文章，既能将篇章材料缩减到BERT模型可以适应的范围，又能保证每篇文章裁剪后的子片段之间具有相关性。从而在一定程度上解决模型直接截取过长的文本导致重要信息丢失的问题。

进一步，所述步骤S2中规范阅读理解选择题的背景材料、题干和选项数据格式，具体步骤为：

将每条阅读理解多项选择题数据中的背景材料做句子切分，并把每一个切分下的子句表示为{S₁，S₂，…，S_k}，同时将题干Q分别和四个选项A、B、C、D逐一组合并表示成{Q_a，Q_b，Q_c，Q_d}作为待比较文档，使其之后方便与背景材料中的每个背景材料子句S_i做相似度计算，然后分别对两部分做分词、停用词预处理。

2.根据权利要求1所述的一种基于数据增强的阅读理解选择题答题方法，其特征在于，所述步骤S3中利用TF-IDF方法从词频角度提取答题候选句，得到答题材料句子集X，具体步骤为：

S301、将每条数据中的每个背景材料子句S_i分别与题干Q和四个选项A、B、C、D逐一组合并表示成的{Q_a，Q_b，Q_c，Q_d}做TF-IDF相似度计算，计算公式如下所示：

式(4)中，

表示每个背景材料子句S_i的词频向量，

表示{Q_a，Q_b，Q_c，Q_d}中每个题干选项句Q_i的词频向量；

S302、将背景材料中相似度在前四的句子组合到一起，得到答题材料句子集X。

3.根据权利要求1所述的一种基于数据增强的阅读理解选择题答题方法，其特征在于，所述步骤S4中利用Bi-Attention从高维句向量角度提取答题候选句，得到答题材料句子集Y，具体步骤为：

S401、将每个背景材料子句S_i和题干Q与四个选项A、B、C、D逐一组合并表示成的{Q_a，Q_b，Q_c，Q_d}这两部分输入到BERT模型中，利用BERT模型表示每个背景材料子句S_i的句向量

和{Q_a，Q_b，Q_c，Q_d}中每个题干选项句Q_i的句向量

S402、背景材料子句S_i的句向量

和题干选项句Q_i的句向量

做双向Attention计算，计算出背景材料句子对题干选项句子的注意权重α，和题干选项句子对材料句子的注意权重β，之后相加得到双向权重γ，计算公式如下所示：

γ＝α+β (7)

S403、通过双向Attention机制，模型可捕捉问题和原文之间的交互关系。材料子句S_i与题干选项句Q_i的双向权值越高，代表该句子对答题越重要。最终选取双向权重γ最高的前四句背景材料句并组合到一起，得到答题材料句子集Y。

进一步，所述步骤S6中利用适应于阅读理解选择题的EDA策略扩充候选句集Z，得到最终数据增强候选句集，具体步骤为：

S601、依据阅读理解选择题试题中不同词的重要性重构一个适应于阅读理解选择题的EDA停用词表，具体示例如下表所示：

词性	停用词
		数词	十七八、三两、五六百、百、千、万、亿等
量词	尺、斤、米、架、匹、走一趟、一支、一串等
		代词	别人、自个儿、大伙儿、这么些、那么样等
副词	稍微、过于、总共、大概、曾经、终于、已、一向、必定、到底、简直、偏偏、只好等
		介词	趁、朝、按照、根据、凭、跟、同、为、除等
连词	和、以及、及、而且、即使、然而、如果等
		助词	着、来着、了、过、也罢、也好、喽、呢等
叹词	嗯、哦、哎呀、哈、哈哈、喂等
		拟声词	嗡嗡、潺潺、吱吱、当当当、砰等

S602、针对阅读理解选择题答题的实验数据规模小、背景材料句子长的特性，对传统EDA方法参数策略进行改进，具体改进如下表所示：

其中，α是句子中单词变化的百分比参数，n_aug表示每篇材料或每个选项所生成的增强数；

具体地，对每句单词变化百分比α进行微调，分别采用0.1和0.15；同时，为了分析参数n_aug的取值对EDA效果的影响，选取n_aug＝{1，2，3，4)。分别对“材料”、“题干选项”、“材料题干选项”增强范围进行消融实验，实验具体包含同义词替换、随机插入、随机交换和随机删除。

S603、选用百分比参数α＝0.1且n_aug＝2(效果最好的一种参数设置)对答题候选句集Z部分做同义词替换、随机插入、随机交换和随机删除方法操作，扩充得到最终数据增强候选句集。

其中，EDA(Easy Data Augmentation)方法可以保持原句意思基本不变地扩充数据数量，其四种简单操作分别是：同义词替换、随机插入、随机交换和随机删除。Wei J W，Zou K.Eda：Easy data augmentation techniques for boosting performance on textclassification tasks[J].arXiv preprint arXiv：1901.11196，2019.

与现有技术相比本发明具有以下优点：

1.本发明将改进的滑动窗口、候选句抽取和EDA数据增强方法融入到阅读理解选择题答题过程中，提出了基于数据增强的阅读理解选择题答题方法，实现了机器答题时数据增强操作，弥补了阅读理解选择题领域中数据增强方法的空缺；

2.本发明通过引入TF-IDF和Bi-Attention计算方法，改进了阅读理解选择题的候选句抽取方法；

3.本发明能够在不改变选择题原意的情况下，通过改进后的EDA方法简单又有效地增强数据集，解决机器答题过程中因数据量不足而导致的深度学习方法受限的问题。

附图说明

图1是本发明基于数据增强的阅读理解选择题答题方法的流程图；

图2是本发明基于数据增强的阅读理解选择题答题方法的模型图；

图3是本发明中滑动窗口剪裁的具体模型图；

图4是本发明中TF-IDF计算的具体模型图；

图5是本发明中Bi-Attention计算的具体模型图；

图6是本发明中数据扩充的具体流程图。

具体实施方式

以下结合附图对本发明的具体实施方式作进一步的详细说明。

如图1所示，一种基于数据增强的阅读理解选择题答题方法，包括以下步骤：

S1、利用滑动窗口方法裁剪阅读理解选择题的背景材料；

S5、合并去重S3、S4所得的句子集X、Y，得到候选句集Z；

以2018年北京高考真题作为例子具体阐述：

S1的具体步骤如下：

S102、要求前一个子片段的结尾与后一个子片段的开头有衔接性，采用一个完整的句子s_j作为衔接，具体表示如以下公式所示：

P＝p₁∪p₂∪...∪p_i (1)

s₁＝p₁∩p₂，...，s_i-1＝p_i-1∩p_i (2)

如下表所示，将背景材料裁剪成两部分：

S2的具体步骤如下：

将每条阅读理解多项选择题数据中的背景材料做句子切分，并把每一个切分下的子句表示为{S₁，S₂，…，S_k}，同时将题干Q分别和四个选项A、B、C、D逐一组合并表示成{Q_a，Q_b，Q_c，Q_d}作为待比较文档，然后分别对两部分做分词、停用词预处理。

S3的具体步骤如下：

式(4)中，

表示每个背景材料子句S_i的词频向量，

表示{Q_a，Q_b，Q_c，Q_d}中每个题干选项句Q_i的词频向量；

S4的具体步骤如下：

和{Q_a，Q_b，Q_c，Q_d}中每个题干选项句Q_i的句向量

S402、背景材料子句S_i的句向量

和题干选项句Q_i的句向量

γ＝α+β (7)

经S5之后得到候选句集Z，如下表所示：

S6的具体步骤为：

具体地，对每句单词变化百分比α进行微调，分别采用0.1和0.15；同时，为了分析参数n_aug的取值对EDA效果的影响，选取n_aug＝{1，2，3，4}。分别对“材料”、“题干选项”、“材料题干选项”增强范围进行消融实验，实验具体包含同义词替换、随机插入、随机交换和随机删除。

S603、选用百分比参数α＝0.1且n_aug＝2(效果最好的一种参数设置)对答题候选句集Z部分做同义词替换、随机插入、随机交换和随机删除方法操作，扩充得到最终数据增强候选句集，具体增强如下表：

以上实施例不局限于该实施例自身的技术方案，实施例之间可以相互结合成新的实施例。以上实施例仅用以说明本发明的技术方案而并非对其进行限制，凡未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明技术方案的范围内。

Claims

1.一种基于数据增强的阅读理解选择题答题方法，其特征在于，包括以下步骤：

S1、利用滑动窗口方法裁剪阅读理解选择题的背景材料；

S5、合并去重S3、S4所得的句子集X、Y，得到候选句集Z；

2.根据权利要求1所述的一种基于数据增强的阅读理解选择题答题方法，其特征在于，所述步骤S1中利用滑动窗口方法裁剪阅读理解选择题的背景材料，具体步骤为：

P＝p₁∪p₂∪...∪p_i (1)

s₁＝p₁∩p₂，...，s_i-1＝p_i-1∩p_i (2)

3.根据权利要求1所述的一种基于数据增强的阅读理解选择题答题方法，其特征在于，所述步骤S2中规范阅读理解选择题的背景材料、题干和选项数据格式，具体步骤为：

4.根据权利要求1所述的一种基于数据增强的阅读理解选择题答题方法，其特征在于，所述步骤S3中利用TF-IDF方法从词频角度提取答题候选句，得到答题材料句子集X，具体步骤为：

式(4)中，

表示每个背景材料子句S_i的词频向量，

表示{Q_a，Q_b，Q_c，Q_d}中每个题干选项句Q_i的词频向量；

5.根据权利要求1所述的一种基于数据增强的阅读理解选择题答题方法，其特征在于，所述步骤S4中利用Bi-Attention从高维句向量角度提取答题候选句，得到答题材料句子集Y，具体步骤为：

和{Q_a，Q_b，Q_c，Q_d}中每个题干选项句Q_i的句向量

S402、背景材料子句S_i的句向量

和题干选项句Q_i的句向量

γ＝α+β (7)

S403、最终选取双向权重γ最高的前四句背景材料句并组合到一起，得到答题材料句子集Y。

6.根据权利要求1所述的一种基于数据增强的阅读理解选择题答题方法，其特征在于，所述步骤S6中利用适应于阅读理解选择题的EDA策略扩充候选句集Z，得到最终数据增强候选句集，具体步骤为：

S601、依据阅读理解选择题试题中不同词的重要性重构一个适应于阅读理解选择题的EDA停用词表；

S603、选用百分比参数α＝0.1且n_aug＝2对答题候选句集Z部分做同义词替换、随机插入、随机交换和随机删除方法操作，扩充得到最终数据增强候选句集。