[go: up one dir, main page]

CN112784579A - 一种基于数据增强的阅读理解选择题答题方法 - Google Patents

一种基于数据增强的阅读理解选择题答题方法 Download PDF

Info

Publication number
CN112784579A
CN112784579A CN202011630675.6A CN202011630675A CN112784579A CN 112784579 A CN112784579 A CN 112784579A CN 202011630675 A CN202011630675 A CN 202011630675A CN 112784579 A CN112784579 A CN 112784579A
Authority
CN
China
Prior art keywords
sentence
choice
reading comprehension
question
answering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011630675.6A
Other languages
English (en)
Other versions
CN112784579B (zh
Inventor
张虎
张颖
雷登斌
潘邦泽
杨陟卓
李茹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanxi University
Original Assignee
Shanxi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanxi University filed Critical Shanxi University
Priority to CN202011630675.6A priority Critical patent/CN112784579B/zh
Publication of CN112784579A publication Critical patent/CN112784579A/zh
Application granted granted Critical
Publication of CN112784579B publication Critical patent/CN112784579B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明涉及自然语言处理领域,具体涉及一种基于数据增强的阅读理解选择题答题方法。所述方法为:利用滑动窗口方法裁剪阅读理解选择题的背景材料;规范阅读理解选择题的背景材料、题干和选项数据格式;利用TF‑IDF方法从词频角度提取答题候选句,得到答题材料句子集X;利用Bi‑Attention从高维句向量角度提取答题候选句,得到答题材料句子集X;合并去重S3、S4所得的句子集X、Y,得到候选句集Z;利用适应于阅读理解选择题的EDA策略扩充候选句集Z,得到最终数据增强候选句集;将最终数据增强候选句集输入到BERT模型做阅读理解选择题答案预测。

Description

一种基于数据增强的阅读理解选择题答题方法
技术领域
本发明涉及自然语言处理领域,具体涉及一种基于数据增强的阅读理解选择题答题方法。
背景技术
近年来,机器阅读理解任务受到国内外自然语言处理研究领域学者的广泛关注,已成为评价基于自然语言理解的智能系统的核心任务之一。
机器阅读理解主要包括多项选择题和主观问答题。其中,阅读理解选择题又分为文意理解类和片段理解类选择题,二者旨在基于对背景材料的“理解”从多个选项中选出最佳答案,由于提供的背景材料相对较长且关键信息极其具有隐藏性,答案无法在背景材料中直接找到。同时,选择题中不同选项涉及的问题也不限定所处的段落,即一个问题可能需要理解多个段落甚至多篇材料。
阅读理解选择题通常包含一篇或多篇背景材料、一个或多个问题以及每个问题的四个选项A、B、C、D。从实验数据集上看,中文阅读理解选择题任务数据集具有更小的数据规模和更大程度的复杂性,问题解答过程中通常会用到更多的常识知识和推理。
随着深度学习技术的快速发展和广泛应用,机器阅读理解能力有了大幅提高,但高性能往往需要用到大规模和高质量的训练数据,而对于机器阅读理解选择题任务,数据资源的匮乏一直是一个制约深度学习方法深入应用的关键性问题。
数据增强是扩充数据样本规模的一种有效方法,可以提高模型的泛化能力、提升模型的鲁棒性。目前,在计算机视觉和语音识别等领域中,针对数据不足现象提出的数据增强方法已成为提高神经网络模型性能的重要手段。
目前,针对机器阅读理解提出的数据增强方法还相对较少,专门针对阅读理解选择题答题的数据增强方法也还未见相关文献介绍。因此,探索适应于阅读理解题选择题的数据增强方法具有重要的意义。
发明内容
针对上述问题本发明提供了一种基于数据增强的阅读理解选择题答题方法。
为了达到上述目的,本发明采用了下列技术方案:
一种基于数据增强的阅读理解选择题答题方法,包括以下步骤:
S1、利用滑动窗口方法裁剪阅读理解选择题的背景材料;
S2、规范阅读理解选择题的背景材料、题干和选项数据格式;
S3、利用TF-IDF方法从词频角度提取答题候选句,得到答题材料句子集X;
S4、利用Bi-Attention从高维句向量角度提取答题候选句,得到答题材料句子集X;
S5、合并去重S3、S4所得的句子集X、Y,得到候选句集Z;
S6、利用适应于阅读理解选择题的EDA策略扩充候选句集Z,得到最终数据增强候选句集;
S7、将最终数据增强候选句集输入到BERT模型做阅读理解选择题答案预测。
进一步,所述步骤S1中利用滑动窗口方法裁剪阅读理解选择题的背景材料,具体步骤为:
S101、定义一篇文章P的字数为n,裁剪后的文章子片段为{p1,p2,…,pm},其中每个子片段pi的字符数不超过512;
S102、要求前一个子片段的结尾与后一个子片段的开头有衔接性,有10%左右是重复的,以保证相邻子片段之间具有关联,采用一个完整的句子sj作为衔接,保证滑动完整个篇章,具体表示如以下公式所示:
P=p1∪p2∪...∪pi (1)
s1=p1∩p2,...,si-1=pi-1∩pi (2)
Figure BDA0002879980390000031
通过设置滑动窗口的大小动态裁剪文章,既能将篇章材料缩减到BERT模型可以适应的范围,又能保证每篇文章裁剪后的子片段之间具有相关性。从而在一定程度上解决模型直接截取过长的文本导致重要信息丢失的问题。
进一步,所述步骤S2中规范阅读理解选择题的背景材料、题干和选项数据格式,具体步骤为:
将每条阅读理解多项选择题数据中的背景材料做句子切分,并把每一个切分下的子句表示为{S1,S2,…,Sk},同时将题干Q分别和四个选项A、B、C、D逐一组合并表示成{Qa,Qb,Qc,Qd}作为待比较文档,使其之后方便与背景材料中的每个背景材料子句Si做相似度计算,然后分别对两部分做分词、停用词预处理。
2.根据权利要求1所述的一种基于数据增强的阅读理解选择题答题方法,其特征在于,所述步骤S3中利用TF-IDF方法从词频角度提取答题候选句,得到答题材料句子集X,具体步骤为:
S301、将每条数据中的每个背景材料子句Si分别与题干Q和四个选项A、B、C、D逐一组合并表示成的{Qa,Qb,Qc,Qd}做TF-IDF相似度计算,计算公式如下所示:
Figure BDA0002879980390000041
式(4)中,
Figure BDA0002879980390000042
表示每个背景材料子句Si的词频向量,
Figure BDA0002879980390000043
表示{Qa,Qb,Qc,Qd}中每个题干选项句Qi的词频向量;
S302、将背景材料中相似度在前四的句子组合到一起,得到答题材料句子集X。
3.根据权利要求1所述的一种基于数据增强的阅读理解选择题答题方法,其特征在于,所述步骤S4中利用Bi-Attention从高维句向量角度提取答题候选句,得到答题材料句子集Y,具体步骤为:
S401、将每个背景材料子句Si和题干Q与四个选项A、B、C、D逐一组合并表示成的{Qa,Qb,Qc,Qd}这两部分输入到BERT模型中,利用BERT模型表示每个背景材料子句Si的句向量
Figure BDA0002879980390000044
和{Qa,Qb,Qc,Qd}中每个题干选项句Qi的句向量
Figure BDA0002879980390000045
S402、背景材料子句Si的句向量
Figure BDA0002879980390000046
和题干选项句Qi的句向量
Figure BDA0002879980390000047
做双向Attention计算,计算出背景材料句子对题干选项句子的注意权重α,和题干选项句子对材料句子的注意权重β,之后相加得到双向权重γ,计算公式如下所示:
Figure BDA0002879980390000048
Figure BDA0002879980390000049
γ=α+β (7)
S403、通过双向Attention机制,模型可捕捉问题和原文之间的交互关系。材料子句Si与题干选项句Qi的双向权值越高,代表该句子对答题越重要。最终选取双向权重γ最高的前四句背景材料句并组合到一起,得到答题材料句子集Y。
进一步,所述步骤S6中利用适应于阅读理解选择题的EDA策略扩充候选句集Z,得到最终数据增强候选句集,具体步骤为:
S601、依据阅读理解选择题试题中不同词的重要性重构一个适应于阅读理解选择题的EDA停用词表,具体示例如下表所示:
词性 停用词
数词 十七八、三两、五六百、百、千、万、亿等
量词 尺、斤、米、架、匹、走一趟、一支、一串等
代词 别人、自个儿、大伙儿、这么些、那么样等
副词 稍微、过于、总共、大概、曾经、终于、已、一向、必定、到底、简直、偏偏、只好等
介词 趁、朝、按照、根据、凭、跟、同、为、除等
连词 和、以及、及、而且、即使、然而、如果等
助词 着、来着、了、过、也罢、也好、喽、呢等
叹词 嗯、哦、哎呀、哈、哈哈、喂等
拟声词 嗡嗡、潺潺、吱吱、当当当、砰等
S602、针对阅读理解选择题答题的实验数据规模小、背景材料句子长的特性,对传统EDA方法参数策略进行改进,具体改进如下表所示:
Figure BDA0002879980390000051
其中,α是句子中单词变化的百分比参数,naug表示每篇材料或每个选项所生成的增强数;
具体地,对每句单词变化百分比α进行微调,分别采用0.1和0.15;同时,为了分析参数naug的取值对EDA效果的影响,选取naug={1,2,3,4)。分别对“材料”、“题干选项”、“材料题干选项”增强范围进行消融实验,实验具体包含同义词替换、随机插入、随机交换和随机删除。
S603、选用百分比参数α=0.1且naug=2(效果最好的一种参数设置)对答题候选句集Z部分做同义词替换、随机插入、随机交换和随机删除方法操作,扩充得到最终数据增强候选句集。
其中,EDA(Easy Data Augmentation)方法可以保持原句意思基本不变地扩充数据数量,其四种简单操作分别是:同义词替换、随机插入、随机交换和随机删除。Wei J W,Zou K.Eda:Easy data augmentation techniques for boosting performance on textclassification tasks[J].arXiv preprint arXiv:1901.11196,2019.
与现有技术相比本发明具有以下优点:
1.本发明将改进的滑动窗口、候选句抽取和EDA数据增强方法融入到阅读理解选择题答题过程中,提出了基于数据增强的阅读理解选择题答题方法,实现了机器答题时数据增强操作,弥补了阅读理解选择题领域中数据增强方法的空缺;
2.本发明通过引入TF-IDF和Bi-Attention计算方法,改进了阅读理解选择题的候选句抽取方法;
3.本发明能够在不改变选择题原意的情况下,通过改进后的EDA方法简单又有效地增强数据集,解决机器答题过程中因数据量不足而导致的深度学习方法受限的问题。
附图说明
图1是本发明基于数据增强的阅读理解选择题答题方法的流程图;
图2是本发明基于数据增强的阅读理解选择题答题方法的模型图;
图3是本发明中滑动窗口剪裁的具体模型图;
图4是本发明中TF-IDF计算的具体模型图;
图5是本发明中Bi-Attention计算的具体模型图;
图6是本发明中数据扩充的具体流程图。
具体实施方式
以下结合附图对本发明的具体实施方式作进一步的详细说明。
如图1所示,一种基于数据增强的阅读理解选择题答题方法,包括以下步骤:
S1、利用滑动窗口方法裁剪阅读理解选择题的背景材料;
S2、规范阅读理解选择题的背景材料、题干和选项数据格式;
S3、利用TF-IDF方法从词频角度提取答题候选句,得到答题材料句子集X;
S4、利用Bi-Attention从高维句向量角度提取答题候选句,得到答题材料句子集X;
S5、合并去重S3、S4所得的句子集X、Y,得到候选句集Z;
S6、利用适应于阅读理解选择题的EDA策略扩充候选句集Z,得到最终数据增强候选句集;
S7、将最终数据增强候选句集输入到BERT模型做阅读理解选择题答案预测。
以2018年北京高考真题作为例子具体阐述:
Figure BDA0002879980390000071
Figure BDA0002879980390000081
S1的具体步骤如下:
S101、定义一篇文章P的字数为n,裁剪后的文章子片段为{p1,p2,…,pm},其中每个子片段pi的字符数不超过512;
S102、要求前一个子片段的结尾与后一个子片段的开头有衔接性,采用一个完整的句子sj作为衔接,具体表示如以下公式所示:
P=p1∪p2∪...∪pi (1)
s1=p1∩p2,...,si-1=pi-1∩pi (2)
Figure BDA0002879980390000082
如下表所示,将背景材料裁剪成两部分:
Figure BDA0002879980390000083
Figure BDA0002879980390000091
S2的具体步骤如下:
将每条阅读理解多项选择题数据中的背景材料做句子切分,并把每一个切分下的子句表示为{S1,S2,…,Sk},同时将题干Q分别和四个选项A、B、C、D逐一组合并表示成{Qa,Qb,Qc,Qd}作为待比较文档,然后分别对两部分做分词、停用词预处理。
S3的具体步骤如下:
S301、将每条数据中的每个背景材料子句Si分别与题干Q和四个选项A、B、C、D逐一组合并表示成的{Qa,Qb,Qc,Qd}做TF-IDF相似度计算,计算公式如下所示:
Figure BDA0002879980390000101
式(4)中,
Figure BDA0002879980390000102
表示每个背景材料子句Si的词频向量,
Figure BDA0002879980390000103
表示{Qa,Qb,Qc,Qd}中每个题干选项句Qi的词频向量;
S302、将背景材料中相似度在前四的句子组合到一起,得到答题材料句子集X。
S4的具体步骤如下:
S401、将每个背景材料子句Si和题干Q与四个选项A、B、C、D逐一组合并表示成的{Qa,Qb,Qc,Qd}这两部分输入到BERT模型中,利用BERT模型表示每个背景材料子句Si的句向量
Figure BDA0002879980390000104
和{Qa,Qb,Qc,Qd}中每个题干选项句Qi的句向量
Figure BDA0002879980390000105
S402、背景材料子句Si的句向量
Figure BDA0002879980390000106
和题干选项句Qi的句向量
Figure BDA0002879980390000107
做双向Attention计算,计算出背景材料句子对题干选项句子的注意权重α,和题干选项句子对材料句子的注意权重β,之后相加得到双向权重γ,计算公式如下所示:
Figure BDA0002879980390000108
Figure BDA0002879980390000109
γ=α+β (7)
S403、通过双向Attention机制,模型可捕捉问题和原文之间的交互关系。材料子句Si与题干选项句Qi的双向权值越高,代表该句子对答题越重要。最终选取双向权重γ最高的前四句背景材料句并组合到一起,得到答题材料句子集Y。
经S5之后得到候选句集Z,如下表所示:
Figure BDA0002879980390000111
S6的具体步骤为:
S601、依据阅读理解选择题试题中不同词的重要性重构一个适应于阅读理解选择题的EDA停用词表,具体示例如下表所示:
词性 停用词
数词 十七八、三两、五六百、百、千、万、亿等
量词 尺、斤、米、架、匹、走一趟、一支、一串等
代词 别人、自个儿、大伙儿、这么些、那么样等
副词 稍微、过于、总共、大概、曾经、终于、已、一向、必定、到底、简直、偏偏、只好等
介词 趁、朝、按照、根据、凭、跟、同、为、除等
连词 和、以及、及、而且、即使、然而、如果等
助词 着、来着、了、过、也罢、也好、喽、呢等
叹词 嗯、哦、哎呀、哈、哈哈、喂等
拟声词 嗡嗡、潺潺、吱吱、当当当、砰等
S602、针对阅读理解选择题答题的实验数据规模小、背景材料句子长的特性,对传统EDA方法参数策略进行改进,具体改进如下表所示:
Figure BDA0002879980390000112
其中,α是句子中单词变化的百分比参数,naug表示每篇材料或每个选项所生成的增强数;
具体地,对每句单词变化百分比α进行微调,分别采用0.1和0.15;同时,为了分析参数naug的取值对EDA效果的影响,选取naug={1,2,3,4}。分别对“材料”、“题干选项”、“材料题干选项”增强范围进行消融实验,实验具体包含同义词替换、随机插入、随机交换和随机删除。
S603、选用百分比参数α=0.1且naug=2(效果最好的一种参数设置)对答题候选句集Z部分做同义词替换、随机插入、随机交换和随机删除方法操作,扩充得到最终数据增强候选句集,具体增强如下表:
Figure BDA0002879980390000121
以上实施例不局限于该实施例自身的技术方案,实施例之间可以相互结合成新的实施例。以上实施例仅用以说明本发明的技术方案而并非对其进行限制,凡未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明技术方案的范围内。

Claims (6)

1.一种基于数据增强的阅读理解选择题答题方法,其特征在于,包括以下步骤:
S1、利用滑动窗口方法裁剪阅读理解选择题的背景材料;
S2、规范阅读理解选择题的背景材料、题干和选项数据格式;
S3、利用TF-IDF方法从词频角度提取答题候选句,得到答题材料句子集X;
S4、利用Bi-Attention从高维句向量角度提取答题候选句,得到答题材料句子集X;
S5、合并去重S3、S4所得的句子集X、Y,得到候选句集Z;
S6、利用适应于阅读理解选择题的EDA策略扩充候选句集Z,得到最终数据增强候选句集;
S7、将最终数据增强候选句集输入到BERT模型做阅读理解选择题答案预测。
2.根据权利要求1所述的一种基于数据增强的阅读理解选择题答题方法,其特征在于,所述步骤S1中利用滑动窗口方法裁剪阅读理解选择题的背景材料,具体步骤为:
S101、定义一篇文章P的字数为n,裁剪后的文章子片段为{p1,p2,…,pm},其中每个子片段pi的字符数不超过512;
S102、要求前一个子片段的结尾与后一个子片段的开头有衔接性,采用一个完整的句子sj作为衔接,具体表示如以下公式所示:
P=p1∪p2∪...∪pi (1)
s1=p1∩p2,...,si-1=pi-1∩pi (2)
Figure RE-FDA0002956505740000011
3.根据权利要求1所述的一种基于数据增强的阅读理解选择题答题方法,其特征在于,所述步骤S2中规范阅读理解选择题的背景材料、题干和选项数据格式,具体步骤为:
将每条阅读理解多项选择题数据中的背景材料做句子切分,并把每一个切分下的子句表示为{S1,S2,…,Sk},同时将题干Q分别和四个选项A、B、C、D逐一组合并表示成{Qa,Qb,Qc,Qd}作为待比较文档,然后分别对两部分做分词、停用词预处理。
4.根据权利要求1所述的一种基于数据增强的阅读理解选择题答题方法,其特征在于,所述步骤S3中利用TF-IDF方法从词频角度提取答题候选句,得到答题材料句子集X,具体步骤为:
S301、将每条数据中的每个背景材料子句Si分别与题干Q和四个选项A、B、C、D逐一组合并表示成的{Qa,Qb,Qc,Qd}做TF-IDF相似度计算,计算公式如下所示:
Figure RE-FDA0002956505740000021
式(4)中,
Figure RE-FDA0002956505740000022
表示每个背景材料子句Si的词频向量,
Figure RE-FDA0002956505740000023
表示{Qa,Qb,Qc,Qd}中每个题干选项句Qi的词频向量;
S302、将背景材料中相似度在前四的句子组合到一起,得到答题材料句子集X。
5.根据权利要求1所述的一种基于数据增强的阅读理解选择题答题方法,其特征在于,所述步骤S4中利用Bi-Attention从高维句向量角度提取答题候选句,得到答题材料句子集Y,具体步骤为:
S401、将每个背景材料子句Si和题干Q与四个选项A、B、C、D逐一组合并表示成的{Qa,Qb,Qc,Qd}这两部分输入到BERT模型中,利用BERT模型表示每个背景材料子句Si的句向量
Figure RE-FDA0002956505740000031
和{Qa,Qb,Qc,Qd}中每个题干选项句Qi的句向量
Figure RE-FDA0002956505740000032
S402、背景材料子句Si的句向量
Figure RE-FDA0002956505740000033
和题干选项句Qi的句向量
Figure RE-FDA0002956505740000034
做双向Attention计算,计算出背景材料句子对题干选项句子的注意权重α,和题干选项句子对材料句子的注意权重β,之后相加得到双向权重γ,计算公式如下所示:
Figure RE-FDA0002956505740000035
Figure RE-FDA0002956505740000036
γ=α+β (7)
S403、最终选取双向权重γ最高的前四句背景材料句并组合到一起,得到答题材料句子集Y。
6.根据权利要求1所述的一种基于数据增强的阅读理解选择题答题方法,其特征在于,所述步骤S6中利用适应于阅读理解选择题的EDA策略扩充候选句集Z,得到最终数据增强候选句集,具体步骤为:
S601、依据阅读理解选择题试题中不同词的重要性重构一个适应于阅读理解选择题的EDA停用词表;
S602、针对阅读理解选择题答题的实验数据规模小、背景材料句子长的特性,对传统EDA方法参数策略进行改进,具体改进如下表所示:
Figure RE-FDA0002956505740000037
其中,α是句子中单词变化的百分比参数,naug表示每篇材料或每个选项所生成的增强数;
S603、选用百分比参数α=0.1且naug=2对答题候选句集Z部分做同义词替换、随机插入、随机交换和随机删除方法操作,扩充得到最终数据增强候选句集。
CN202011630675.6A 2020-12-31 2020-12-31 一种基于数据增强的阅读理解选择题答题方法 Active CN112784579B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011630675.6A CN112784579B (zh) 2020-12-31 2020-12-31 一种基于数据增强的阅读理解选择题答题方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011630675.6A CN112784579B (zh) 2020-12-31 2020-12-31 一种基于数据增强的阅读理解选择题答题方法

Publications (2)

Publication Number Publication Date
CN112784579A true CN112784579A (zh) 2021-05-11
CN112784579B CN112784579B (zh) 2022-05-27

Family

ID=75754701

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011630675.6A Active CN112784579B (zh) 2020-12-31 2020-12-31 一种基于数据增强的阅读理解选择题答题方法

Country Status (1)

Country Link
CN (1) CN112784579B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113343668A (zh) * 2021-08-05 2021-09-03 北京世纪好未来教育科技有限公司 选择题解题方法、装置、电子设备及可读存储介质
CN116467409A (zh) * 2023-04-24 2023-07-21 重庆邮电大学 一种基于注意力的多项选择机器阅读理解方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107818085A (zh) * 2017-11-08 2018-03-20 山西大学 阅读机器人进行阅读理解的答案选择方法及系统
US20190156220A1 (en) * 2017-11-22 2019-05-23 Microsoft Technology Licensing, Llc Using machine comprehension to answer a question
CN110597947A (zh) * 2019-03-20 2019-12-20 桂林电子科技大学 一种基于全局和局部注意力交互的阅读理解系统及方法
CN110633730A (zh) * 2019-08-07 2019-12-31 中山大学 一种基于课程学习的深度学习机器阅读理解训练方法
CN110647629A (zh) * 2019-09-20 2020-01-03 北京理工大学 一种多粒度答案排序的多文档机器阅读理解方法
CN110688491A (zh) * 2019-09-25 2020-01-14 暨南大学 基于深度学习的机器阅读理解方法、系统、设备及介质
CN111027327A (zh) * 2019-10-29 2020-04-17 平安科技(深圳)有限公司 机器阅读理解方法、设备、存储介质及装置
CN111552773A (zh) * 2020-04-24 2020-08-18 中国科学院空天信息创新研究院 一种阅读理解任务中是否类问题关键句寻找方法及系统
CN111949769A (zh) * 2020-08-23 2020-11-17 云知声智能科技股份有限公司 一种增强阅读理解系统鲁棒性的方法及装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107818085A (zh) * 2017-11-08 2018-03-20 山西大学 阅读机器人进行阅读理解的答案选择方法及系统
US20190156220A1 (en) * 2017-11-22 2019-05-23 Microsoft Technology Licensing, Llc Using machine comprehension to answer a question
CN110597947A (zh) * 2019-03-20 2019-12-20 桂林电子科技大学 一种基于全局和局部注意力交互的阅读理解系统及方法
CN110633730A (zh) * 2019-08-07 2019-12-31 中山大学 一种基于课程学习的深度学习机器阅读理解训练方法
CN110647629A (zh) * 2019-09-20 2020-01-03 北京理工大学 一种多粒度答案排序的多文档机器阅读理解方法
CN110688491A (zh) * 2019-09-25 2020-01-14 暨南大学 基于深度学习的机器阅读理解方法、系统、设备及介质
CN111027327A (zh) * 2019-10-29 2020-04-17 平安科技(深圳)有限公司 机器阅读理解方法、设备、存储介质及装置
CN111552773A (zh) * 2020-04-24 2020-08-18 中国科学院空天信息创新研究院 一种阅读理解任务中是否类问题关键句寻找方法及系统
CN111949769A (zh) * 2020-08-23 2020-11-17 云知声智能科技股份有限公司 一种增强阅读理解系统鲁棒性的方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
DAYIHENG LIU 等: "Tell Me How to Ask Again: Question Data Augmentation with Controllable Rewriting in Continuous Space", 《ARXIV:2010.01475V1》 *
MATTHEW RICHARDSON 等: "MCTest: A Challenge Dataset for the Open-Domain Machine Comprehension of Text", 《PROCEEDINGS OF THE 2013 CONFERENCE ON EMPIRICAL METHODS IN NATURAL LANGUAGE PROCESSING》 *
李茹 等: "阅读理解答案预测", 《山西大学学报(自然科学版)》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113343668A (zh) * 2021-08-05 2021-09-03 北京世纪好未来教育科技有限公司 选择题解题方法、装置、电子设备及可读存储介质
CN116467409A (zh) * 2023-04-24 2023-07-21 重庆邮电大学 一种基于注意力的多项选择机器阅读理解方法

Also Published As

Publication number Publication date
CN112784579B (zh) 2022-05-27

Similar Documents

Publication Publication Date Title
CN113254599B (zh) 一种基于半监督学习的多标签微博文本分类方法
CN109508459B (zh) 一种从新闻中提取主题和关键信息的方法
CN108763213A (zh) 主题特征文本关键词提取方法
CN109543031A (zh) 一种基于多任务对抗学习的文本分类方法
Cai et al. Intelligent question answering in restricted domains using deep learning and question pair matching
CN106980609A (zh) 一种基于词向量表示的条件随机场的命名实体识别方法
CN112989802B (zh) 一种弹幕关键词提取方法、装置、设备及介质
CN106503055A (zh) 一种从结构化文本到图像描述的生成方法
CN107798140A (zh) 一种对话系统构建方法、语义受控应答方法及装置
CN102637192A (zh) 一种自然语言问答的方法
CN106598940A (zh) 基于全局优化关键词质量的文本相似度求解算法
CN111462752B (zh) 基于注意力机制、特征嵌入及bi-lstm的客户意图识别方法
CN110134954A (zh) 一种基于Attention机制的命名实体识别方法
CN113158674B (zh) 一种人工智能领域文档关键信息抽取方法
CN110851620A (zh) 一种基于文本嵌入和结构嵌入联合的知识表示方法
CN111476036A (zh) 一种基于中文单词特征子串的词嵌入学习方法
CN110674293B (zh) 一种基于语义迁移的文本分类方法
CN113011154B (zh) 一种基于深度学习的作业查重方法
CN112784579A (zh) 一种基于数据增强的阅读理解选择题答题方法
Born et al. Sign clustering and topic extraction in Proto-Elamite
CN118246426A (zh) 基于生成式文本大模型的写作方法、系统、设备和介质
CN117932066A (zh) 一种基于预训练的“提取-生成”式答案生成模型及方法
CN110866087B (zh) 一种基于主题模型的面向实体的文本情感分析方法
CN116561274A (zh) 一种基于数字人技术与自然语言大模型的知识问答方法
CN110413726B (zh) 一种关系对库表建设方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant