CN116662539A - 试题结构化方法、装置、介质,及电子设备 - Google Patents
试题结构化方法、装置、介质,及电子设备 Download PDFInfo
- Publication number
- CN116662539A CN116662539A CN202210140740.XA CN202210140740A CN116662539A CN 116662539 A CN116662539 A CN 116662539A CN 202210140740 A CN202210140740 A CN 202210140740A CN 116662539 A CN116662539 A CN 116662539A
- Authority
- CN
- China
- Prior art keywords
- test question
- test
- question
- questions
- structuring
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012360 testing method Methods 0.000 title claims abstract description 344
- 238000000034 method Methods 0.000 title claims abstract description 61
- 239000013598 vector Substances 0.000 claims abstract description 60
- 238000013145 classification model Methods 0.000 claims abstract description 37
- 230000011218 segmentation Effects 0.000 claims description 23
- 230000015654 memory Effects 0.000 claims description 20
- 238000012549 training Methods 0.000 claims description 20
- 238000004590 computer program Methods 0.000 claims description 9
- 238000007781 pre-processing Methods 0.000 claims description 2
- 238000012545 processing Methods 0.000 abstract description 10
- 238000010586 diagram Methods 0.000 description 19
- 230000000694 effects Effects 0.000 description 10
- 230000002093 peripheral effect Effects 0.000 description 10
- 230000006870 function Effects 0.000 description 7
- 238000006243 chemical reaction Methods 0.000 description 4
- 238000005457 optimization Methods 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 3
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000739 chaotic effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本公开实施例提供了一种试题结构化方法、装置、介质,及电子设备,涉及数据处理技术领域。其中该方法包括如下步骤:获取目标试题的语义向量;将语义向量输入预训练的试题分类模型,得到关于目标试题的分类结果,分类结果至少包括以下信息:试题序号、答案序号、试题题干,以及试题答案;根据试题序号与答案序号进行第一匹配,并根据第一匹配的结果对目标试题进行结构化;和/或根据试题题干与试题答案进行第二匹配,并根据所述第二匹配的结果对目标试题进行结构化。通过本方案,可以将多种格式的试题生成结构化试题,并且提高对试题进行结构化的准确性。
Description
技术领域
本公开涉及数据处理技术领域,尤其涉及一种试题结构化方法、装置、介质,及电子设备。
背景技术
在编制试卷的过程中,时常需要将不同种类的题型进行结构化,以使不同种类的试题转换为相同种类的试题。
现有的将试题结构化的手段,主要是根据特定规则将试题文本进行结构化,无法将多种文本组织方式构成的试题进行结构化,只能满足特定格式试卷的结构化要求,而试卷的组织方式较多,难以覆盖全部场景,普适性较差。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本公开的目的在于提供一种试题结构化方法、装置、介质,及电子设备。针对所展示的内容,本公开至少可以将多种格式的试题生成结构化试题,并且提高了对试题进行结构化的准确性。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。根据本公开的一个方面,提供一种试题结构化方法,包括:获取目标试题的语义向量;将所述语义向量输入预训练的试题分类模型,得到关于所述目标试题的分类结果,所述分类结果至少包括以下信息:试题序号、答案序号、试题题干,以及试题答案;根据所述试题序号与所述答案序号进行第一匹配,并根据所述第一匹配的结果对所述目标试题进行结构化;和/或,根据所述试题题干与所述试题答案进行第二匹配,并根据所述第二匹配的结果对所述目标试题进行结构化。
根据本公开的另一个方面,提供一种试题结构化的装置,包括:获取模块:用于获取所述HTML文档中的目标内容,并对所述目标内容进行预处理,所述目标内容包括:段落信息、文本信息,以及图片信息;
分类模块:用于将预处理后的目标内容输入预训练的模型,得到关于所述目标内容的语义向量;结构化模块:用于根据所述试题序号与所述答案序号进行第一匹配,并根据所述第一匹配的结果对所述目标试题进行结构化;和/或,根据所述试题题干与所述试题答案进行第二匹配,并根据所述第二匹配的结果对所述目标试题进行结构化。
根据本公开的又一个方面,提供一种电子设备,包括存储器、处理器以及存储在上述存储器中并可在所述处理器上运行的计算机程序,上述处理器执行上述计算机程序时实现如上述实施例中的试题结构化方法。
根据本公开的再一个方面,提供一种可读存储介质,其上存储有计算机程序,上述计算机程序被处理器执行时实现如上述实施例中的试题结构化方法。
本公开实施例提供的技术方案可以包括以下有益效果:
在本公开的一些实施例所提供的技术方案中,均进行以下处理,包括:获取目标试题的语义向量;将上述语义向量输入预训练的试题分类模型,得到关于上述目标试题的分类结果,上述分类结果至少包括以下信息:试题序号、答案序号、试题题干,以及试题答案;根据上述试题序号与上述答案序号进行第一匹配,并根据上述第一匹配的结果对上述目标试题进行结构化;和/或,根据上述试题题干与上述试题答案进行第二匹配,并根据上述第二匹配的结果对上述目标试题进行结构化。通过上述方案,可以将多种格式的试题生成结构化试题,并且提高对试题进行结构化的准确性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示意性示出了可以应用本公开一实施例的试题结构化方法的示例性应用场景的示意图。
图2示意性示出了根据本公开示例性的实施例中试题结构化方法的流程示意图。
图3示意性示出了根据本公开示例性的实施例中获取语义向量的方法流程图。
图4示意性示出了根据本公开示例性的实施例中试题分类的方法流程图。
图5示意性示出了根据本公开示例性的实施例中序号匹配的方法流程图。
图6示意性示出了根据本公开示例性的实施例中myers算法示意图。
图7示意性示出了根据本公开示例性的实施例中合并题目与答案的流程图。
图8示意性示出了根据本公开示例性的实施例中匹配题目与答案的方法流程图。
图9示意性示出了根据本公开示例性的实施例中模型优化的方法流程图。
图10示意性示出了根据本公开示例性的实施例中对试题区域进行调整的示意图。
图11示意性示出了根据本公开示例性的实施例中对试题内容进行调整的示意图。
图12示意性示出了根据本公开示例性的实施例中试题结构化的装置的结构图。
图13示出了根据本公开示例性的实施例中另一试题结构化的装置的结构图。
图14示意性示出了根据本公开一示例性的实施例中电子设备的结构图。
具体实施方式
为使本公开的目的、技术方案和优点更加清楚,下面将结合附图对本公开实施例方式作进一步地详细描述。
下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
在本公开的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本公开中的具体含义。此外,在本公开的描述中,除非另有说明,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
参考图1,示意性示出了可以应用本公开一实施例的试题结构化方法的示例性应用场景的示意图。
如图1所示,包括目标试题110、语义获取模型120、试题分类模型130,以及结构化试题140。
其中,上述目标试题110所涵盖的题型包括但不限于:选择题、填空题、判断题,以及简答题。上述目标试题110指的是包含有试题信息的文档,上述试题信息包括但不限于:试题序号、序号级别、试题题干、试题选项、试题答案、试题解析、试题知识点、试题难度、题型;上述文档类型包括但不限于:Word(Microsoft Office Word,文档)、PDF(PortableDocument Format,可携带文档格式)。
示例性的,图2示意性示出了根据本公开示例性的实施例中试题结构化方法的流程示意图。
参考图2,该图所示试题结构化方法包括:
S210,获取目标试题的语义向量。
在示例性的实施例中,参考图1,通过语义获取模型120获取目标试题110的语义向量。
示例性的,上述语义获取模型120是通过无监督学习的方式进行训练得到的,也可直接使用基于中文维基百科相关语料进行预训练的模型“bert-base-chinese”。
S220,将语义向量输入预训练的试题分类模型,得到关于目标试题的分类结果,分类结果至少包括以下信息:试题序号、答案序号、试题题干,以及试题答案。
在示例性的实施例中,将上述语义向量输入预训练的试题分类模型130,得到关于目标试题110的分类结果。其中,上述分类结果至少包括以下信息:试题序号、答案序号、试题题干,以及试题答案。
示例性的,上述分类结果还可以包括:序号级别、试题选项、试题解析、试题知识点、试题难度、题型等信息。上述试题分类模型130,是通过“fine-tune”的训练方式,使用额外训练集对上述语义获取模型120进行训练得到的。其中,上述目标训练集包括以下题型的一种或多种:选择题、填空题、判断题,以及简答题。
通过上述bert fine-tune的训练方式来训练模型,即能节省模型训练时间,同时也能达到更具有针对性的训练效果。
S230,根据试题序号与答案序号进行第一匹配,并根据第一匹配的结果对目标试题进行结构化;和/或,根据试题题干与试题答案进行第二匹配,并根据第二匹配的结果对目标试题进行结构化。
在示例性的实施例中,试题分类模型130根据试题序号与答案序号进行第一匹配,并根据第一匹配的结果对目标试题进行结构化;和/或,根据试题题干与试题答案进行第二匹配,并根据第二匹配的结果对目标试题进行结构化。
示例性的,在上述目标试题110所包含的试题序号与答案序号的布局是混乱排布的情况下,上述试题分类模型130将上述试题序号与上述答案序号进行重新排布,使得试题序号与答案序号相对应,从而试题序号所对应的试题内容与答案序号所对应的答案内容也相对应。
示例性的,在上述试题题干与上述试题答案被分类为填空题的情况下,试题分类模型130根据上述试题答案,在上述试题题干的作答位置留出与上述试题答案相适应的作答空间,以供作答者在上述空间填入试题答案。例如,在上述试题答案为四字成语的情况下,上述作答空间的长度至少为四个字符;在上述试题答案为两字词语的情况下,上述作答空间的长度至少为两个字符。
在图2所示实施例提供的技术方案中,通过获取目标试题的语义向量,将上述语义向量输入预训练的试题分类模型,至少得到试题序号、答案序号、试题题干,以及试题答案。进一步根据试题序号与答案序号进行第一匹配,并根据第一匹配的结果对目标试题进行结构化;和/或,根据试题题干与试题答案进行第二匹配,并根据第二匹配的结果对目标试题进行结构化。通过上述步骤,可以实现将多种格式的试题生成结构化试题,并且提高对试题进行结构化的准确性。
以下结合图3至图11所示实施例,对上述图2所示实施例各个步骤的具体实施方式进行详细介绍:
在示例性的实施例中,图3示意性示出了根据本公开示例性的实施例中获取语义向量的方法流程图,可以作为S210的一种具体实施方式。参考图3,该图所示试题结构化方法包括:
S310,将包含目标试题的文档,转换为HTML(Hyper Text Markup Language,超文本标记语言)文档。
在示例性的实施例中,上述将包含目标试题的文档转换为HTML文档的方式包括但不限于:google drive文件转换功能,以及永中文档预览转换功能。通过上述步骤,可以将包含试题的文档转换为HTML文档,使得上述文档包含的数据更容易被处理。
S320,获取HTML文档中的目标内容,目标内容包括:文本与图片标识符,其中图片标识符是对图片进行替换得到的。
在示例性的实施例中,为了简化HTML文档的数据,提高语义获取模型120的运算效率,需要将上述HTML文档中包含的文本信息与图片信息进行提取,并且将上述图片信息替换为图片标识符,以及将文本信息与图片信息以外的信息去除。可选地,上述提取HTML文档中包含的文本信息与图片信息的方式包括但不限于:通过BeatifulSoup获取上述文本信息,并将上述图片信息替换为“<img>”标识。
示例性的,可以将上述HTML文档中的全部内容作为结构化试题的页面展示内容,还可以利用上述HTML文档中的全部内容进行数据恢复。
S330,将目标内容输入预训练的语义获取模型,得到语义向量。
在示例性的实施例中,参考图1,将上述目标内容输入预训练的语义获取模型120,得到语义向量。
图3所示实施例所提供的技术方案,将包含目标试题的文档,转换为HTML文档,获取HTML文档中的目标内容。进一步将目标内容输入预训练的语义获取模型,得到语义向量。通过上述步骤,可以提高处理文档中内容的效率,并且避免了HTML文档中的属性数据对语义获取模型的影响。
示例性的,图4示意性示出了根据本公开示例性的实施例中试题分类的方法流程图。
参考图4,在S410中,将语义向量输入预训练的分段模型,得到N个分割点,N为正整数。
在示例性的实施例中,将语义向量输入预训练的分段模型,得到N个分割点,N为正整数。其中,上述语义分段模型可以是Bert-Bilstm-Crf模型,其中的Bert是预训练语言模型,主要用来获取文本对应的向量,Bert是在大规模的文本语料上训练,可以很好的表示文本特征。Bilstm是Lstm(Long short-term memory,长短期记忆)网络的变种,可以看成LSTM加了一个双向编码,用来保存长距离的语义信息。CRF(Conditional Random Fields,条件随机场)则是HMM(Hidden Markov Model,隐马尔可夫模型)的一个变体,是给定一组输入序列的条件下,另一组输出序列的条件概率分布模型。HMM只考虑了前一个状态对当前状态的影响,而Crf考虑了前一个状态和后一个状态,在文本中就是前一个字符对后一个字符的影响,这里的影响可以看成一种条件概率,P(当前字符|前一个字符)。
在S420中,根据分割点,对语义向量进行分段,得到语义子向量。
在示例性的实施例中,上述分段模型根据上述分割点,对语义向量进行分段,得到语义子向量。
在S430中,将语义子向量输入试题分类模型,得到关于目标试题的分类结果。
在示例性的实施例中,将上述语义子向量输入试题分类模型130,得到关于目标试题110的分类结果。
图4所示实施例提供的技术方案,首先将语义向量输入预训练的分段模型,得到N个分割点,再根据分割点,对语义向量进行分段,得到语义子向量,最后将语义子向量输入试题分类模型,得到关于目标试题的分类结果。实现了将语义向量进行拆解,再对拆解得到的语义子向量进行试题分类,提高了试题分类的准确率以及效率。
示例性的,图5示意性示出了根据本公开示例性的实施例中序号匹配的方法流程图。其中,S510-S520可以作为S230的具体实施方式。
参考图5,在S510中,确定试题序号与答案序号的最小编辑路径。
在示例性的实施例中,对上述试题序号与上述答案序号进行匹配的过程中,经常会出现噪声序号,或者出现序号的缺失以及序号的多余。因此,需要通过计算最小编辑路径,实现自动纠正噪声序号。示例性的,可以使用myers算法计算试题序号与答案序号之间每一条路径的编辑距离,来选择最短的编剧路径。
示例性的,图6示意性示出了根据本公开示例性的实施例中myers算法示意图。
参考图6,需要把原序列转换为目标序列,也就是将横轴序列(ABCABBA)转换为纵轴序列(CBABAC)。如图6所示,横向移动一个单位,代表将移动到的目标位置处的原序列的字母删除,如图中向右移动“(0,0)→(2,0)”,代表将横轴序列前两个字母“A、B”删除;纵向移动一个单位代表将移动到的目标位置处的纵轴的字母插入,如图中“(3,1)→(3,2)”,将纵轴序列的B插入到横轴序列中;斜向移动一个单位代表移动的目标位置处的字母保持不变(也就是说在这个位置,横轴序列对应的字母与纵轴序列对应的字母相同,因此该处的横坐标与纵坐标的值相同,如图中(3,1)处字母为(C,C),(4,3)处字母为(A,A)。因此,图6中的所有箭头代表的含义为:将横轴序列的前两个字母A(1,0)、B(2,0)删除,C(3,1)保留,再将纵轴序列的B(3,2)插入到横轴序列,再保留A(4,3)、B(5,4),再删除横轴序列第六位的B(6,4),再保留横轴第七位的A(7,5)。于是,横轴序列就转换为纵轴序列。
示例性的,图7示意性示出了根据本公开示例性的实施例中合并题目与答案的流程图。
如图7所示,包括S710-S760,具体地:
S710,根据题目块获取题目序号和题目内容。
S710’,根据答案块获取答案序号和答案内容。
S720,对比题目序号与答案序号的差异。
S730,判断题目序号与答案序号的状态。
S740,根据上述题目序号与答案序号的状态,将题目序号分别进行拆解、保持不变,或和上一块合并。
示例性地,设该算法实现函数为myers,如题目序号为:“1,2,3,4”,答案序号为“1,3,4”,输入到myers算法,则输出为(1,’k’),(2,’i’),(3,’k’),(4,’k’),其中k(keep)表示保存不变,i(insert)表示需要在此次插入序号,因此需要插入序号2,而序号2需要从序号1中分离,如存在,则插入到答案序列中,反之则表示答案缺失。
其中,S720-S740是通过myers算法完成的,在此不再赘述。
S750,获取匹配后的题目序号与题目内容。
S760,根据题目序号与答案序号的匹配结果,将题目内容与答案内容进行合并。
在S520中,根据最小编辑路径,对题目序号与答案序号进行匹配。
在示例性的实施例中,根据上述最小编辑路径,对题目序号与答案序号进行匹配。
图5所示实施例提供的技术方案,通过确定试题序号与答案序号的最小编辑路径,再根据上述最小编辑路径,对题目序号与答案序号进行匹配,实现了将题目序号与答案序号进行高效的匹配,并且解决了噪声序号对序号匹配的影响。
示例性的,图8示意性示出了根据本公开示例性的实施例中匹配题目与答案的方法流程图。
参考图8,在S810中,确定试题题干与试题答案是否符合预设规则。
在示例性的实施例中,确定上述试题题干与上述试题答案是否符合预设规则。其中,上述预设规则包括但不限于:试题题干与试题答案在形式上要匹配,以及作答区域的形式应当与试题题型相匹配。例如,选择题要有题干与备选选项,并且题干中的问题数量应当与任一备选选项中的答案数量相同;选择题在题干中的作答区域应当由括号表示,而填空题在题干中的作答区域应当由下划线表示。
在S820中,在试题题干或试题答案不满足预设规则的情况下,根据预设规则对试题题干与试题答案进行规范化,得到规范化题目与规范化答案。
在示例性的实施例中,在上述试题题干或上述试题答案不满足预设规则的情况下,根据预设规则对试题题干与试题答案进行规范化,得到规范化题目与规范化答案。
示例性的,若选择题在题干中的作答区域有两个,而选择题对应的答案选项包含的备选选项有三个,那么需要在选择题的题干中的适当位置增加作答区域。又例如,若填空题在题干中的作答区域长度为两个字符,而填空题的备选答案是四个字符,那么需要将填空题的题干中的作答区域长度拓宽至四个字符,以供作答者有足够的作答空间进行作答。再例如,若简答题的作答区域为括号,则需要将简答题的作答区域更换为下划线区域。
在S830中,根据题型,对规范化题目与规范化答案进行匹配。
在示例性的实施例中,根据上述题型,对规范化题目与规范化答案进行匹配。
示例性的,若上述题型为选择题,则根据试题序号与答案序号,将选择题的题干与选择题的答案进行对应,其中,上述规范化答案应包括:答案选项,在每个答案选项里面要有与题干中问题数量一致的备选选项。
图8所示实施例提供的技术方案,通过确定试题题干与试题答案是否符合预设规则,在试题题干或试题答案不满足上述预设规则的情况下,根据预设规则对试题题干与试题答案进行规范化,得到规范化题目与规范化答案。最后根据题型,对规范化题目与规范化答案进行匹配。通过上述步骤,可以将不具有规定形式的试题题干与试题答案进行规范化,并且将规范化后的试题题干与试题答案进行匹配,提高了试题结构化的质量。
示例性的,图9示意性示出了根据本公开示例性的实施例中模型优化的方法流程图。
参考图9,在S910中,根据结构化后的目标试题中的题目,获取试题区域与试题内容。
在示例性的实施例中,根据结构化后的目标试题中的题目,获取试题区域与试题内容。其中,上述试题区域指的是任意一道题所占据的区域,上述试题内容指的是上述任一一道题所包含的试题内容,试题内容包含试题题干与试题答案。
在S920中,对试题区域进行调整,得到第一调整结果。
在示例性的实施例中,用户根据对试题进行结构化的实际效果,对上述试题区域进行调整,并将上述调整后的试题区域进行保存。
示例性的,图10示意性示出了根据本公开示例性的实施例中对试题区域进行调整的示意图。如图10所示,为一道选字填空题,题干中包含两个作答区域,选项包含A、B、C三个选项,每个选项中包含两个备选选项。在试题所包含内容的边界,还包括一个矩形框,上述矩形框划定的区域为上述选字填空题的试题区域,以使该试题与其他试题在区域位置上区分。
在S920’中,对试题内容进行调整,得到第二调整结果。
在示例性的实施例中,用户根据对试题进行结构化的实际效果,对上述试题内容进行调整,并将上述调整后的试题内容进行保存。
示例性的,图11示意性示出了根据本公开示例性的实施例中对试题内容进行调整的示意图。如图11所示,用户可以对题干内容、答案的内容、答案的选项、知识点,以及解析进行编辑。
在S930中,根据第一调整结果,对语义获取模型进行优化。
在示例性的实施例中,根据第一调整结果,对语义获取模型120进行优化。其中,上述第一调整结果包括但不限于:对语义向量进行分割的分割点的位置,以及将上述调整后的语义子向量。将上述第一调整结果作为用于上述语义获取模型进行训练的补充数据集,对上述语义获取模型进行训练,以使上述语义获取模型达到更好的试题区域分割效果。其中,在对上述语义获取模型120进行优化之前,还可以对上述第一调整结果进行数据筛选,以使上述对语义获取模型进行优化更加具有针对性。
在S930’中,根据第二调整结果,对试题分类模型进行优化。
在示例性的实施例中,根据第二调整结果,对试题分类模型130进行优化。其中,上述第二调整结果包括但不限于:用户编辑的详细内容,例如:知识点、试题题干内容,以及试题答案内容。将上述第二调整结果作为用于上述试题分类模型进行训练的补充数据集,对上述试题分类模型进行训练,以使上述试题分类模型达到更好的试题分类效果,即使得试题分类更准确。其中,在对上述试题分类模型130进行优化之前,还可以对上述第二调整结果进行数据筛选,以使上述对试题分类模型130进行优化更加具有针对性。
通过上述步骤,可以将上述试题分类模型130的分类精确度不断提高。
图9所示实施例提供的技术方案,根据结构化的目标试题中的题目,获取试题区域与试题内容,再由用户根据试题结构化的实际效果,对上述试题区域与试题内容分别进行调整,最后根据上述对试题区域的调整结果对语义获取模型进行优化,以及根据上述对试题内容的调整结果对试题分类模型进行优化。通过上述步骤,使得上述语义获取模型与上述试题分类模型具有不断修正的能力,进一步地,对目标试题进行结构化的效果会不断提高。
下述为本公开装置实施例,可以用于执行本公开方法实施例。对于本公开装置实施例中未披露的细节,请参照本公开方法实施例。
其中,图12示意性示出了根据本公开示例性的实施例中试题结构化的装置的结构图。请参见图12,该图所示的试题结构化的装置1200包括:获取模块1210、分类模块1220、结构化模块1230。
具体地,上述获取模块1210,用于响应于在上述屏幕中生成目标轨迹,获取上述目标轨迹对应的坐标信息。
上述分类模块1220,用于将上述语义向量输入预训练的试题分类模型,得到关于上述目标试题的分类结果,上述分类结果至少包括以下信息:试题序号、答案序号、试题题干,以及试题答案。
上述结构化模块1230,用于根据上述试题序号与上述答案序号进行第一匹配,并根据上述第一匹配的结果对上述目标试题进行结构化;和/或,根据上述试题题干与上述试题答案进行第二匹配,并根据上述第二匹配的结果对上述目标试题进行结构化。
示例性的,图13示意性示出了根据本公开示例性的实施例中另一试题结构化的装置的结构图。
在示例性的实施例中,基于前述方案,上述上述获取模块1210还包括:转换单元1211与获取单元1212。
其中,上述转换单元1211用于:将包含上述目标试题的文档,转换为超文本标记语言HTML文档。
上述获取单元1212用于:获取上述HTML文档中的目标内容,上述目标内容包括:文本与图片标识符,其中上述图片标识符是对图片进行替换得到的;以及将上述目标内容输入预训练的语义获取模型,得到上述语义向量。
在示例性的实施例中,基于前述方案,上述分类模块1220还包括:分段单元1221。
上述分段单元1221用于:将上述语义向量输入预训练的分段模型,得到N个分割点,N为正整数;以及根据上述分割点,对上述语义向量进行分段,得到语义子向量。
在示例性的实施例中,基于前述方案,上述分类模块1220还用于:将上述语义子向量输入上述试题分类模型,得到关于上述目标试题的分类结果。
在示例性的实施例中,基于前述方案,上述结构化模块1230还包括:第一匹配单元1231与第二匹配单元1241。
上述第一匹配单元1231用于:确定上述试题序号与上述答案序号的最小编辑路径;以及根据上述最小编辑路径,对上述题目序号与上述答案序号进行匹配。
上述第二匹配单元1241用于:确定上述试题题干与上述试题答案是否符合预设规则;以及在上述试题题干或上述试题答案不满足上述预设规则的情况下,根据上述预设规则对上述试题题干与上述试题答案进行规范化,得到规范化题目与规范化答案;以及根据上述题型,对上述规范化题目与上述规范化答案进行匹配。
在示例性的实施例中,基于前述方案,上述装置还包括调整模块1340。
上述调整模块1340用于:根据结构化后的目标试题中的题目,获取试题区域与试题内容;以及对上述试题区域进行调整,得到第一调整结果;以及对上述试题内容进行调整,得到第二调整结果;以及根据上述第一调整结果,对上述语义获取模型进行优化;以及根据上述第二调整结果,对上述试题分类模型进行优化。
需要说明的是,上述实施例提供的设备借用管理的系统在执行试题结构化方法时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的设备借用管理的系统与试题结构化方法实施例属于同一构思,因此对于本公开装置实施例中未披露的细节,请参照本公开上述的试题结构化方法的实施例,这里不再赘述。
上述本公开实施例序号仅仅为了描述,不代表实施例的优劣。
本公开实施例还提供了一种可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前述任一实施例方法的步骤。其中,可读存储介质可以包括但不限于任何类型的盘,包括软盘、光盘、DVD(Digital Video Disc,数字视频光盘)、CD-ROM(CompactDisc Read-Only Memory,只读光盘)、微型驱动器以及磁光盘、ROM(Read-Only Memory,只读存储器)、RAM(Random Access Memory,随机存取存储器)、EPROM(ErasableProgrammable Read-Only Memory,可擦除可编程只读存储器)、EEPROM(ElectricallyErasable Programmable Read Only Memory,带电可擦可编程只读存储器)、DRAM(DynamicRandom Access Memory,动态随机存取存储器)、VRAM(Video RAM,影像随机接达记忆器)、闪速存储器设备、磁卡或光卡、纳米系统,或适合于存储指令和/或数据的任何类型的媒介或设备。
本公开实施例还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时实现上述任一实施例方法的步骤。
图14示意性示出了根据本公开一示例性的实施例中电子设备的结构图。请参见图14所示,电子设备1400包括有:处理器1410和存储器1420。
本公开实施例中,处理器1410为计算机系统的控制中心,可以是实体机的处理器,也可以是虚拟机的处理器。处理器1410可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器1410可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable LogicArray,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1410也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(CentralProcessing Unit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。
在本公开实施例中,上述处理器1410具体用于:
获取目标试题的语义向量;将上述语义向量输入预训练的试题分类模型,得到关于上述目标试题的分类结果,上述分类结果至少包括以下信息:试题序号、答案序号、试题题干,以及试题答案;根据上述试题序号与上述答案序号进行第一匹配,并根据上述第一匹配的结果对上述目标试题进行结构化;和/或,根据上述试题题干与上述试题答案进行第二匹配,并根据上述第二匹配的结果对上述目标试题进行结构化。
进一步地,上述获取目标试题的语义向量,包括:将包含上述目标试题的文档,转换为超文本标记语言HTML文档;获取上述HTML文档中的目标内容,上述目标内容包括:文本与图片标识符,其中上述图片标识符是对图片进行替换得到的;将上述目标内容输入预训练的语义获取模型,得到上述语义向量。
进一步地,上述试题分类模型是通过目标训练集,对上述语义获取模型进行训练得到的;其中,上述目标训练集包括以下题型的一种或多种:选择题、填空题、判断题,以及简答题。
进一步地,上述将上述语义向量输入预训练的试题分类模型,得到关于上述目标试题的分类结果,包括:将上述语义向量输入预训练的分段模型,得到N个分割点,N为正整数;根据上述分割点,对上述语义向量进行分段,得到语义子向量;将上述语义子向量输入上述试题分类模型,得到关于上述目标试题的分类结果。
进一步地,上述根据上述试题序号与上述答案序号进行第一匹配,包括:确定上述试题序号与上述答案序号的最小编辑路径;根据上述最小编辑路径,对上述题目序号与上述答案序号进行匹配。进一步地,上述方法还包括:响应于对上述目标区域进行双击操作,更改对上述目标区域的编辑状态,上述编辑状态包括:开启状态、关闭状态。
进一步地,上述分类结果还包括题型;上述根据上述试题题干与上述试题答案进行第二匹配,包括:确定上述试题题干与上述试题答案是否符合预设规则;在上述试题题干或上述试题答案不满足上述预设规则的情况下,根据上述预设规则对上述试题题干与上述试题答案进行规范化,得到规范化题目与规范化答案;根据上述题型,对上述规范化题目与上述规范化答案进行匹配。
进一步地,在上述对上述目标试题进行结构化之后,还包括:根据结构化后的目标试题中的题目,获取试题区域与试题内容;对上述试题区域进行调整,得到第一调整结果;对上述试题内容进行调整,得到第二调整结果;根据上述第一调整结果,对上述语义获取模型进行优化;根据上述第二调整结果,对上述试题分类模型进行优化。
存储器1420可以包括一个或多个可读存储介质,该可读存储介质可以是非暂态的。存储器1420还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在本公开的一些实施例中,存储器1420中的非暂态的可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器1410所执行以实现本公开实施例中的方法。
一些实施例中,电子设备1400还包括有:外围设备接口1430和至少一个外围设备。处理器1410、存储器1420和外围设备接口1430之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1430相连。具体地,外围设备包括:显示屏1440、摄像头1450和音频电路1460中的至少一种。
外围设备接口1430可被用于将I/O(Input/Output,输入/输出)相关的至少一个外围设备连接到处理器1410和存储器1420。在本公开的一些实施例中,处理器1410、存储器1420和外围设备接口1430被集成在同一芯片或电路板上;在本公开的一些其他实施例中,处理器1410、存储器1420和外围设备接口1430中的任意一个或两个可以在单独的芯片或电路板上实现。本公开实施例对此不作具体限定。
显示屏1440用于显示UI(User Interface,用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1440是触摸显示屏时,显示屏1440还具有采集在显示屏1440的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1410进行处理。此时,显示屏1440还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在本公开的一些实施例中,显示屏1440可以为一个,设置电子设备1400的前面板;在本公开的另一些实施例中,显示屏1440可以为至少两个,分别设置在电子设备1400的不同表面或呈折叠设计;在本公开的再一些实施例中,显示屏1440可以是柔性显示屏,设置在电子设备1400的弯曲表面上或折叠面上。甚至,显示屏1440还可以设置成非矩形的不规则图形,也即异形屏。显示屏1440可以采用LCD(Liquid Crystal Display,液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。
摄像头1450用于采集图像或视频。可选地,摄像头1450包括前置摄像头和后置摄像头。通常,前置摄像头设置在电子设备的前面板,后置摄像头设置在电子设备的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality,虚拟现实)拍摄功能或者其它融合拍摄功能。在本公开的一些实施例中,摄像头1450还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。
音频电路1460可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器1410进行处理。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在电子设备1400的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。
电源1470用于为电子设备1400中的各个组件进行供电。电源1470可以是交流电、直流电、一次性电池或可充电电池。当电源1470包括可充电电池时,该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池,无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。
本公开实施例中示出的电子设备结构框图并不构成对电子设备1400的限定,电子设备1400可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
在本公开中,术语“第一”、“第二”等仅用于描述的目的,而不能理解为指示或暗示相对重要性或顺序;术语“多个”则指两个或两个以上,除非另有明确的限定。术语“安装”、“相连”、“连接”、“固定”等术语均应做广义理解,例如,“连接”可以是固定连接,也可以是可拆卸连接,或一体地连接;“相连”可以是直接相连,也可以通过中间媒介间接相连。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本公开中的具体含义。
本公开的描述中,需要理解的是,术语“上”、“下”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本公开和简化描述,而不是指示或暗示所指的装置或单元必须具有特定的方向、以特定的方位构造和操作,因此,不能理解为对本公开的限制。
以上所述,仅为本公开的具体实施方式,但本公开的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本公开揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本公开的保护范围之内。因此,依本公开权利要求所作的等同变化,仍属本公开所涵盖的范围。
Claims (10)
1.一种试题结构化的方法,其特征在于,所述方法包括:
获取目标试题的语义向量;
将所述语义向量输入预训练的试题分类模型,得到关于所述目标试题的分类结果,所述分类结果至少包括以下信息:试题序号、答案序号、试题题干,以及试题答案;
根据所述试题序号与所述答案序号进行第一匹配,并根据所述第一匹配的结果对所述目标试题进行结构化;和/或,
根据所述试题题干与所述试题答案进行第二匹配,并根据所述第二匹配的结果对所述目标试题进行结构化。
2.根据权利要求1所述的试题结构化的方法,其特征在于,所述获取目标试题的语义向量,包括:
将包含所述目标试题的文档,转换为超文本标记语言HTML文档;
获取所述HTML文档中的目标内容,所述目标内容包括:文本与图片标识符,其中所述图片标识符是对图片进行替换得到的;
将所述目标内容输入预训练的语义获取模型,得到所述语义向量。
3.根据权利要求1所述的试题结构化的方法,其特征在于,所述试题分类模型是通过目标训练集,对所述语义获取模型进行训练得到的;
其中,所述目标训练集包括以下题型的一种或多种:选择题、填空题、判断题,以及简答题。
4.根据权利要求1所述的试题结构化的方法,其特征在于,所述将所述语义向量输入预训练的试题分类模型,得到关于所述目标试题的分类结果,包括:
将所述语义向量输入预训练的分段模型,得到N个分割点,N为正整数;
根据所述分割点,对所述语义向量进行分段,得到语义子向量;
将所述语义子向量输入所述试题分类模型,得到关于所述目标试题的分类结果。
5.根据权利要求1所述的试题结构化方法,其特征在于,所述根据所述试题序号与所述答案序号进行第一匹配,包括:
确定所述试题序号与所述答案序号的最小编辑路径;
根据所述最小编辑路径,对所述题目序号与所述答案序号进行匹配。
6.根据权利要求1所述的试题结构化方法,其特征在于,所述分类结果还包括题型;所述根据所述试题题干与所述试题答案进行第二匹配,包括:
确定所述试题题干与所述试题答案是否符合预设规则;
在所述试题题干或所述试题答案不满足所述预设规则的情况下,根据所述预设规则对所述试题题干与所述试题答案进行规范化,得到规范化题目与规范化答案;
根据所述题型,对所述规范化题目与所述规范化答案进行匹配。
7.根据权利要求1-6任一所述的试题结构化方法,其特征在于,在所述对所述目标试题进行结构化之后,还包括:
根据结构化后的目标试题中的题目,获取试题区域与试题内容;
对所述试题区域进行调整,得到第一调整结果;
对所述试题内容进行调整,得到第二调整结果;
根据所述第一调整结果,对所述语义获取模型进行优化;
根据所述第二调整结果,对所述试题分类模型进行优化。
8.一种试题结构化的装置,其特征在于,包括:
获取模块:用于获取所述HTML文档中的目标内容,并对所述目标内容进行预处理,所述目标内容包括:段落信息、文本信息,以及图片信息;
分类模块:用于将预处理后的目标内容输入预训练的模型,得到关于所述目标内容的语义向量;
结构化模块:用于根据所述试题序号与所述答案序号进行第一匹配,并根据所述第一匹配的结果对所述目标试题进行结构化;和/或,
根据所述试题题干与所述试题答案进行第二匹配,并根据所述第二匹配的结果对所述目标试题进行结构化。
9.一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的试题结构化的方法。
10.一种可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的试题结构化的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210140740.XA CN116662539A (zh) | 2022-02-15 | 2022-02-15 | 试题结构化方法、装置、介质,及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210140740.XA CN116662539A (zh) | 2022-02-15 | 2022-02-15 | 试题结构化方法、装置、介质,及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116662539A true CN116662539A (zh) | 2023-08-29 |
Family
ID=87724714
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210140740.XA Pending CN116662539A (zh) | 2022-02-15 | 2022-02-15 | 试题结构化方法、装置、介质,及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116662539A (zh) |
-
2022
- 2022-02-15 CN CN202210140740.XA patent/CN116662539A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109618222B (zh) | 一种拼接视频生成方法、装置、终端设备及存储介质 | |
CN109688463B (zh) | 一种剪辑视频生成方法、装置、终端设备及存储介质 | |
JP5449633B1 (ja) | 広告翻訳装置、広告表示装置、および広告翻訳方法 | |
CN111695422B (zh) | 视频标签获取方法、装置、存储介质及服务器 | |
KR101667463B1 (ko) | 콘텍스트 정보를 이용한 모바일 디바이스 상에서의 광학적 문자 인식 | |
CN109815355A (zh) | 图像搜索方法及装置、存储介质、电子设备 | |
CN111666776B (zh) | 文档翻译方法和装置、存储介质和电子设备 | |
CN103348338A (zh) | 文件格式、服务器、数字漫画的观看器设备、数字漫画产生设备 | |
CN113392687A (zh) | 视频标题生成方法、装置、计算机设备及存储介质 | |
US12197881B2 (en) | Text to visualization | |
CN112487242A (zh) | 用于识别视频的方法、装置、电子设备及可读存储介质 | |
WO2021259221A1 (zh) | 视频翻译方法和装置、存储介质和电子设备 | |
CN110263218A (zh) | 视频描述文本生成方法、装置、设备和介质 | |
WO2014147674A1 (ja) | 広告翻訳装置、広告表示装置、および広告翻訳方法 | |
CN113127708A (zh) | 信息交互方法、装置、设备及存储介质 | |
CN115130437B (zh) | 一种文档智能填写方法、装置及存储介质 | |
US20230230406A1 (en) | Facilitating identification of fillable regions in a form | |
CN115438210A (zh) | 文本图像生成方法、装置、终端及计算机可读存储介质 | |
US8928929B2 (en) | System for generating tag layouts | |
CN116662539A (zh) | 试题结构化方法、装置、介质,及电子设备 | |
KR20210050484A (ko) | 정보 처리 방법, 장치 및 저장 매체 | |
CN114925251A (zh) | 一种基于数字孪生的新形态教材学习系统 | |
US11574467B2 (en) | Document augmented auto complete | |
US8767249B2 (en) | Method for generating tag layouts | |
CN111310435B (zh) | 图像文本显示方法、装置、存储介质及终端 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |