CN112883711B - 摘要生成的方法、装置及电子设备 - Google Patents
摘要生成的方法、装置及电子设备 Download PDFInfo
- Publication number
- CN112883711B CN112883711B CN202110100459.9A CN202110100459A CN112883711B CN 112883711 B CN112883711 B CN 112883711B CN 202110100459 A CN202110100459 A CN 202110100459A CN 112883711 B CN112883711 B CN 112883711B
- Authority
- CN
- China
- Prior art keywords
- vector
- corpus
- appointed
- model
- document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 63
- 239000013598 vector Substances 0.000 claims abstract description 198
- 238000007781 pre-processing Methods 0.000 claims abstract description 17
- 238000012545 processing Methods 0.000 claims abstract description 13
- 230000011218 segmentation Effects 0.000 claims description 24
- 230000015654 memory Effects 0.000 claims description 19
- 238000013528 artificial neural network Methods 0.000 claims description 11
- 230000002159 abnormal effect Effects 0.000 claims description 5
- 230000000875 corresponding effect Effects 0.000 description 15
- 238000004891 communication Methods 0.000 description 6
- 230000007246 mechanism Effects 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 108010076504 Protein Sorting Signals Proteins 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明提供了一种摘要生成的方法、装置及电子设备,涉及数据处理技术领域,该方法包括对待处理文档进行预处理;根据预先构建的该指定专业领域的语料库,将预处理后的该待处理文档转化为输入向量;将该输入向量输入预先训练的摘要模型,得到输出向量;根据该语料库将该输出向量转化为该待处理文档的摘要。本发明实施例通过预先建立指定专业领域的语料库,用于将该指定专业领域的待处理文档转化为输入向量,使其携带有该指定专业领域的特征信息,进而基于该输入向量生成的摘要更具备专业性,提高了该指定专业领域文章的摘要生成的准确性,缓解了基于词汇频率生成的摘要专业性较差,以及在有效文本表述内容占比较少时生成的摘要准确性较低的问题。
Description
技术领域
本发明涉及数据处理技术领域,尤其是涉及一种摘要生成的方法、装置及电子设备。
背景技术
自动摘要技术就是用一些精炼的话来概括整片文章的大意,用户通过摘要内容就可以了解到原文要表达的意思。目前,摘要生成的方法有很多种,主要依赖如下技术:
其中一种是TF-IDF(Term Frequency–Inverse Document Frequency,词频和逆文本频率)词频加权技术,使用该方法生成摘要时,依靠关键词出现的频率来进行词的加权,根据加权的内容获取词的上下文的语义段落,从而生成摘要。该方法的缺点是,关键词的频率并不能准确描述专业领域词语的权重,应用于专业领域的摘要生成时,生成的摘要往往专业性较差。
另一种是TextSum技术,例如,在Google Tensorflow中的Research中,即是利用TextSum算法,也即:Seq2Seq+Attention。该方法是目前比较先进的神经网络摘要生成方法,但是这种方法在文章专业领域过于复杂、段落较长、且文本表述中有效内容占比较少时,生成摘要的准确性较低。
整体而言,现有的摘要生成方法,在需要对特定领域的专业文章生成摘要时,摘要提取准确性较低。
发明内容
有鉴于此,本发明的目的在于提供一种摘要生成的方法、装置及电子设备,可以提高对专业领域文章的摘要生成的准确性。
第一方面,本发明实施例提供了一种摘要生成的方法,包括:对待处理文档进行预处理;其中,该待处理文档属于指定专业领域;根据预先构建的该指定专业领域的语料库,将预处理后的该待处理文档转化为输入向量;其中,该语料库中包括该指定专业领域的原始语料,以及每个该原始语料对应的特征向量;将该输入向量输入预先训练的摘要模型,得到输出向量;根据该语料库将该输出向量转化为该待处理文档的摘要。
在本发明可选的实施例中,上述特征向量包括该原始语料的词向量特征和该原始语料中指定文本信息的信息特征;其中,该指定文本信息包括专有名词、异常代码、状态码和统一资源定位符中的至少一种。
在本发明可选的实施例中,上述语料库通过下述方式建立:获取该指定专业领域的原始语料;对该原始语料进行分词处理,得到多个词单元;确定该原始语料中是否包含有指定文本信息;如果有,提取该指定文本信息;根据该词单元和该指定文本信息生成该原始语料的特征向量;根据该原始语料和该特征向量,构建该指定专业领域的语料库。
在本发明可选的实施例中,上述根据该词单元和该指定文本信息生成该原始语料的特征向量的步骤,包括:向量化该词单元和该指定文本信息,分别得到该原始语料的第一向量和第二向量;根据该第一向量和该第二向量,生成该原始语料的特征向量。
在本发明可选的实施例中,上述摘要模型包括seq2seq模型和attention模型;其中,该attention模型中的编码模型采用one-hot编码模型,该attention模型中的解码模型采用前馈神经网络FFN+Softmax层模型。
在本发明可选的实施例中,上述将该输入向量输入预先训练的摘要模型,得到输出向量的步骤,包括:基于预设的one-hot编码模型对该输入向量进行编码,得到中间向量;基于预设的前馈神经网络FFN+Softmax层模型对该中间向量进行解码,得到该输出向量的一个输出元素;根据当前生成的输出元素和该摘要模型,生成该当前生成的输出元素的下一相邻输出元素,直至生成该输出向量的所有输出元素为止;根据生成的该所有输出元素获得该输出向量。
在本发明可选的实施例中,上述对待处理文档进行预处理的步骤,包括:对待处理文档进行分句和/或分词处理。
第二方面,本发明实施例还提供了一种摘要生成的装置,包括:预处理模块,用于对待处理文档进行预处理;其中,该待处理文档属于指定专业领域;输入向量模块,用于根据预先构建的该指定专业领域的语料库,将预处理后的该待处理文档转化为输入向量;其中,该语料库中包括该指定专业领域的原始语料,以及每个该原始语料对应的特征向量;输出向量模块,用于将该输入向量输入预先训练的摘要模型,得到输出向量;摘要生成模块,用于根据该语料库将该输出向量转化为该待处理文档的摘要。
第三方面,本发明实施例还提供了一种电子设备,该电子设备包括处理器和存储器,该存储器存储有能够被该处理器执行的计算机可执行指令,该处理器执行该计算机可执行指令以实现上述摘要生成的方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机可执行指令,该计算机可执行指令在被处理器调用和执行时,计算机可执行指令促使处理器实现上述摘要生成的方法。
本发明实施例带来了以下有益效果:
本发明实施例提供的一种摘要生成的方法、装置及电子设备,对待处理文档进行预处理;其中,该待处理文档属于指定专业领域;根据预先构建的该指定专业领域的语料库,将预处理后的该待处理文档转化为输入向量;其中,该语料库中包括该指定专业领域的原始语料,以及每个该原始语料对应的特征向量;将该输入向量输入预先训练的摘要模型,得到输出向量;根据该语料库将该输出向量转化为该待处理文档的摘要。该方式中,通过预先建立指定专业领域的语料库,用于将该指定专业领域的待处理文档转化为输入向量,使其携带有该指定专业领域的特征信息,进而基于该输入向量生成的摘要更具备专业性,提高了该指定专业领域文章的摘要生成的准确性,缓解了基于词汇频率生成的摘要专业性较差,以及在有效文本表述内容占比较少时生成的摘要准确性较低的问题。
本公开的其他特征和优点将在随后的说明书中阐述,或者,部分特征和优点可以从说明书推知或毫无疑义地确定,或者通过实施本公开的上述技术即可得知。
为使本公开的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种摘要生成的方法的流程示意图;
图2为本发明实施例提供的一种专业领域语料库的建立方式的流程示意图;
图3为本发明实施例提供的一种摘要生成的装置的结构示意图;
图4为本发明实施例提供的一种电子设备的结构示意图。
图标:41-预处理模块;42-输入向量模块;43-输出向量模块;44-摘要生成模块;51-处理器;52-存储器;53-总线;54-通信接口。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
考虑到现有的摘要生成方法在需要对特定领域的专业文章生成摘要时,摘要提取准确性较低的问题,本申请提供了一种摘要生成的方法、装置及电子设备,该技术可以应用于对专业性文档进行摘要提取的场景中。为便于对本实施例进行理解,首先对本发明实施例所公开的一种摘要生成的方法进行详细介绍。
参见图1,所示为一种摘要生成的方法的流程示意图,由图1可见,该方法包括下述步骤:
步骤S102:对待处理文档进行预处理;其中,该待处理文档属于指定专业领域。
这里,上述待处理文档可以是Word文档、TXT文档、PDF文档、PPT文档或者其它格式的文档,并且,上述指定专业领域可以是大数据、机器学习、人工智能、区块链等较为前沿科技的领域,也可以是地球物理、生物医学等学术专业性的领域,在此不作限制。
其中,对该待处理文档的预处理可以是对待处理文档进行分句和/或分词处理,其中,分词是自然语言处理的基础,分词准确度直接决定了后面的词性标注、句法分析、词向量以及文本分析的质量。由于英文语句使用空格将单词进行分隔,除了某些特定词,如howmany,New York等外,大部分情况下不需要考虑分词问题;但中文不同,天然缺少分隔符,需要读者自行分词和断句,因而在做中文自然语言处理时,往往需要对文档先进行分词的预处理。
步骤S104:根据预先构建的该指定专业领域的语料库,将预处理后的该待处理文档转化为输入向量;其中,该语料库中包括该指定专业领域的原始语料,以及每个该原始语料对应的特征向量。
在本实施例中,该语料库不同于常规语料库,因为该语料库是预先构建的针对该指定专业领域的语料库,该语料库中的语料具有更丰富、全备和完善的该指定专业领域的原始语料,并且,每个原始语料对应有反应其特征的特征向量。因此,当根据该语料库对分句分词处理后的待处理文档进行转化,得到对应的输入向量时,生成的输入向量也携带有上述原始语料的特征信息。
在其中一种可能的实施方式中,假设上述特征向量包括该原始语料的词向量特征和该原始语料中指定文本信息的信息特征,则相应地,基于该语料库转化得到的输入向量,也包含上述词向量特征和指定文本信息的信息特征。这里,该指定文本信息包括专有名词、异常代码、状态码和统一资源定位符中的至少一种。其中,该指定文本信息的信息特征可以是根据该指定文本生成的向量。并且,上述词向量特征可以是根据原始语料中的词汇计算得到的向量的特征。
这里,假设某条原始语料是题目为“人工智能电话机器人错误码大全”的文章,该文章中包括多种错误代码,每种错误代码对应的含义,以及其可能产生的原因。这里,假定错误代码属于指定文本信息,则在根据生成与该原始语料对应的特征向量时,可以根据该文章中的自然词汇生成词向量,并且,根据其中的错误代码生成对应的向量,从而共同构成该原始语料的特征向量。这样,该原始语料的特征向量就同时包含词向量特征和指定文本信息的信息特征。在上述场景中,转化得到的输入向量将携带有上述原始语料的词向量特征和指定文本信息的信息特征。
步骤S106:将该输入向量输入预先训练的摘要模型,得到输出向量。
该摘要模型可以通过机器学习的方式得到,在其中一种可能的实施方式中,该摘要模型中包括seq2seq(sequence-to-sequence,序列到序列)模型和attention模型;其中,该attention模型中的编码模型采用one-hot编码模型,该attention模型中的解码模型采用前馈神经网络FFN(Feedforward Neural Network,前馈神经网络)+Softmax层模型。
这里,seq2seq模型是一个encoder-decoder结构的网络,它的输入是一个序列,输出也是一个序列,通过编码模型/编码器(encoder)将一个长度可变的信号序列转化为长度固定的向量表达,通过解码模型/解码器(decoder)将这个长度固定的向量表达转化为长度可变的目标信号序列。
另外,上述attention机制也称为注意力机制,在序列学习任务上具有巨大的提升作用,在编解码器框架内,在编码阶段加入attention机制,对源数据序列进行数据加权变换,通过增加对输入数据的注意力(权重)分配,增大包含重要信息的维度的权值来提高模型的准确率。这样,通过引入该注意力机制,可以在训练摘要模型时,加大对该指定专业领域中专业词汇的权重,从而,基于该摘要模型进行摘要提取时,可以生成更具专业性的摘要。
在其中一种实施方式中,假设某摘要模型M的结构为seq2seq模型+attention模型,首先,在注意力机制attention模型中的编码模型对于输入的句子用一个LSTM(LongShort-Term Memory,长短期记忆网络)网络进行编码;然后在word embedding部分使用预训练好的word2vec词向量进行初始化,将分词后的单词映射到另外一个空间,该部分的输出是编码后的语义向量;其中,该语义向量由各个时刻的隐藏状态加权得到,权重由Attention机制计算得到。从而实现在该摘要模型的输入向量中携带指定文本信息的信息特征,使得基于该输入向量生成的摘要更具备专业性。
进一步地,在解码阶段,每一时刻的Attention权重由上一时刻的隐藏状态与编码阶段各个时刻的隐状态点乘并做softmax变换得到。
在其中一种可能的实施方式中,可以通过下述步骤11-14得到上述输出向量:
(11)基于预设的one-hot编码模型对该输入向量进行编码,得到中间向量;
(12)基于预设的前馈神经网络FFN+Softmax层模型对该中间向量进行解码,得到该输出向量的一个输出元素;
(13)根据当前生成的输出元素和该摘要模型,生成该当前生成的输出元素的下一相邻输出元素,直至生成该输出向量的所有输出元素为止;
(14)根据生成的该所有输出元素获得该输出向量。
例如,假设经过前述步骤S102至S104得到输入向量为[x1,x2,…xn],将其作为摘要模型的输入,其中,one-hot编码模型通过学习输入向量[x1,x2,…xn],将其编码成一个固定大小的中间向量,继而将中间向量传给解码模型(前馈神经网络FFN+Softmax层模型),解码模型再通过对中间向量的学习来进行解码,从而获得输出[y1,y2,…ym]。
具体地,如果将输入向量[x1,x2,…xn]输入到训练好的摘要模型中,根据one-hot编码模型对该输入向量进行编码得到中间向量,然后将该中间向量传送至FFN+Softmax的解码模型,该解码模型对接收到的中间向量进行解码,相应生成输出向量的一个输出元素yj,并进一步根据该输出元素yj和上述摘要模型生成输出元素yj的下一相邻输出元素yj+1,同理,再根据输出元素yj+1和该摘要模型生成输出元素yj+1的下一相邻输出元素yj+2,直至生成输出向量的所有输出元素为止,最后根据生成的所有输出元素得到输出向量[y1,y2,…ym]。
步骤S108:根据该语料库将该输出向量转化为该待处理文档的摘要。
这里,根据该语料库将输出向量映射为对应的单词词汇,进而根据这些单词词汇转化为若干个句子,并根据这些句子生成该待处理文档的摘要。
本发明实施例提供的一种摘要生成的方法,对待处理文档进行预处理;其中,该待处理文档属于指定专业领域;根据预先构建的该指定专业领域的语料库,将预处理后的该待处理文档转化为输入向量;其中,该语料库中包括该指定专业领域的原始语料,以及每个该原始语料对应的特征向量;将该输入向量输入预先训练的摘要模型,得到输出向量;根据该语料库将该输出向量转化为该待处理文档的摘要。该方式中,通过预先建立指定专业领域的语料库,用于将该指定专业领域的待处理文档转化为输入向量,使其携带有该指定专业领域的特征信息,进而基于该输入向量生成的摘要更具备专业性,提高了该指定专业领域文章的摘要生成的准确性,缓解了基于词汇频率生成的摘要专业性较差,以及在有效文本表述内容占比较少时生成的摘要准确性较低的问题。
在图1所示摘要生成的方法的基础上,本实施例进一步对上述指定专业领域的语料库的构建过程进行说明。其中,参见图2,所示为一种专业领域语料库的建立方式的流程示意图,由图2可见,该方式包括下述步骤:
S202:获取该指定专业领域的原始语料。
这里,在其中一种可能的实施方式中,可以从预设的外部信息系统,以及该目标领域的领域应用中,获取该目标领域的原始语料。例如,该外部信息系统可以包括:问答系统(Answer&Question)、维基(WIKI)系统、中国软件开发者网(Chinese Software DeveloperNetwork,CSDN)、用户交互的信息(Message)以及目标领域的趋势(Tendency)等。并且,该目标领域的领域应用可以是Hadoop、Hive、Spark等应用场景;也可以是问题系统(Issuesystem)中的非常有针对性的信息,例如,以系统问题为核心的信息,其中,Issue System是一个记录系统BUG和升级的系统;还可以是源码(Source Code),文档(Document),应用程序接口描述(Application Programming Interface,API)和发布版本(Release)等等。
其中,以从Issue System中获取原始语料为例,在该系统中,每一个ISSUE-ID都对应有问题标题(Title),问题描述(Description),问题活跃度(Activity),问题的类型(Type),问题重要等级,问题是否已经解决等内容。其中,根据问题标题、问题描述和问题活跃度,可以判断该问题的类型和重要程度,从而进行相应地标注,因此,可以针对性地获取Issue System中的这部分语料。
S204:对该原始语料进行分词处理,得到多个词单元。
分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。其中,该原始语料可以是中文,也可以是英文或其他语言的资料。以该原始语料为中文资料为例,分词的方式可以是基于隐马尔科夫模型(Hidden Markov Model,HMM)对中文词进行分词;也可以是通过N-gram双向最大匹配的方式分词,也即基于字符串的分词方法中的正向最大匹配算法和逆向最大匹配算法,对两个方向匹配得到的序列结果中不同的部分,运用Bi-gram模型计算得出较大概率的部分,再拼接得到最佳词序列。在其他可能的实施方式中,还可以通过其他可能的方法对原始语料进行分词,在此不作限定。
S206:确定该原始语料中是否包含有指定文本信息。
S208:如果有,提取该指定文本信息。
其中,如果该原始语料中包含有指定文本信息,则提取该指定文本信息;如果该原始语料中没有包含指定文本信息,则根据分词处理得到的词单元生成原始语料的特征向量。
S210:根据该词单元和该指定文本信息生成该原始语料的特征向量。
在本实施例中,通过下述步骤21-22生成该原始语料的特征向量:
(21)向量化该词单元和该指定文本信息,分别得到该原始语料的第一向量和第二向量。
这里,可以word2vec模型分别向量化该词单元和该指定文本信息,对应得到该原始语料的第一向量和第二向量。
(22)根据该第一向量和该第二向量,生成该原始语料的特征向量。
其中,可以将该第二向量拼接到上述第一向量的末尾,得到原始语料的特征向量。例如,假设通过向量化词单元得到第一向量为并且,根据指定文本信息得到的第二向量为{1,1,0,1};这样,将第二向量拼接到第一向量末尾后得到的向量为也即,得到该原始语料的特征向量为
在其他可能的实施方式中,还可以通过其他方式对第一向量和第二向量进行融合或拼接,得到原始语料的特征向量,在此不作限定。
S212:根据该原始语料和该特征向量,构建该指定专业领域的语料库。
将原始语料和其对应的特征向量进行关联,并根据关联后的原始语料和特征向量构建该目标领域的语料库。
这样,通过上述步骤S202至步骤S212,即可构建指定专业领域的语料库,进而可以基于该语料库将该指定专业领域的待处理文档转化为输入向量,使得其带有该指定专业领域的特定特征信息,进而生成更符合该指定专业领域的更具专业性、更准确的摘要。
本发明实施例提供的摘要生成的方法,与上述实施例提供的方法具有相同的技术特征,所以也能解决相同的技术问题,达到相同的技术效果。
对应于图1中所示的摘要生成的方法,本发明实施例还提供了一种摘要生成的装置,如图3所示,其为一种摘要生成的装置的结构示意图,由图3可见,该装置包括依次连接的预处理模块31、输入向量模块32、输出向量模块33和摘要生成模块34,其中,各个模块的功能如下:
预处理模块31,用于对待处理文档进行预处理;其中,该待处理文档属于指定专业领域;
输入向量模块32,用于根据预先构建的该指定专业领域的语料库,将预处理后的该待处理文档转化为输入向量;其中,该语料库中包括该指定专业领域的原始语料,以及每个该原始语料对应的特征向量;
输出向量模块33,用于将该输入向量输入预先训练的摘要模型,得到输出向量;
摘要生成模块34,用于根据该语料库将该输出向量转化为该待处理文档的摘要。
在其中一种可能的实施方式中,上述特征向量包括该原始语料的词向量特征和该原始语料中指定文本信息的信息特征;其中,该指定文本信息包括专有名词、异常代码、状态码和统一资源定位符中的至少一种。
在另一种可能的实施方式中,上述语料库通过下述方式建立:获取该指定专业领域的原始语料;对该原始语料进行分词处理,得到多个词单元;确定该原始语料中是否包含有指定文本信息;如果有,提取该指定文本信息;根据该词单元和该指定文本信息生成该原始语料的特征向量;根据该原始语料和该特征向量,构建该指定专业领域的语料库。
在另一种可能的实施方式中,上述根据该词单元和该指定文本信息生成该原始语料的特征向量的步骤,包括:向量化该词单元和该指定文本信息,分别得到该原始语料的第一向量和第二向量;根据该第一向量和该第二向量,生成该原始语料的特征向量。
在另一种可能的实施方式中,上述摘要模型包括seq2seq模型和attention模型;其中,该attention模型中的编码模型采用one-hot编码模型,该attention模型中的解码模型采用前馈神经网络FFN+Softmax层模型。
在另一种可能的实施方式中,上述输出向量模块33还用于:基于预设的one-hot编码模型对该输入向量进行编码,得到中间向量;基于预设的前馈神经网络FFN+Softmax层模型对该中间向量进行解码,得到该输出向量的一个输出元素;根据当前生成的输出元素和该摘要模型,生成该当前生成的输出元素的下一相邻输出元素,直至生成该输出向量的所有输出元素为止;根据生成的该所有输出元素获得该输出向量。
在另一种可能的实施方式中,上述预处理模块31还用于:对待处理文档进行分句和/或分词处理。
本发明实施例提供的摘要生成的装置,其实现原理及产生的技术效果和前述摘要生成的方法实施例相同,为简要描述,摘要生成的装置的实施例部分未提及之处,可参考前述摘要生成的方法实施例中相应内容。
本发明实施例还提供了一种电子设备,如图4所示,为该电子设备的结构示意图,其中,该电子设备包括处理器41和存储器42,该存储器42存储有能够被该处理器41执行的机器可执行指令,该处理器41执行该机器可执行指令以实现上述摘要生成的方法。
在图4示出的实施方式中,该电子设备还包括总线43和通信接口44,其中,处理器41、通信接口44和存储器42通过总线连接。
其中,存储器42可能包含高速随机存取存储器(RAM,Random Access Memory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口44(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网,广域网,本地网,城域网等。总线可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图4中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
处理器41可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器41中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器41可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital SignalProcessing,简称DSP)、专用集成电路(Application Specific Integrated Circuit,简称ASIC)、现成可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器41读取存储器42中的信息,结合其硬件完成前述实施例的摘要生成的方法的步骤。
本发明实施例还提供了一种机器可读存储介质,该机器可读存储介质存储有机器可执行指令,该机器可执行指令在被处理器调用和执行时,该机器可执行指令促使处理器实现上述摘要生成的方法,具体实现可参见前述方法实施例,在此不再赘述。
本发明实施例所提供的摘要生成的方法、摘要生成的装置和电子设备的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的摘要生成的方法,具体实现可参见方法实施例,在此不再赘述。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另外,在本发明实施例的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (7)
1.一种摘要生成的方法,其特征在于,包括:
对待处理文档进行预处理;其中,所述待处理文档属于指定专业领域;
根据预先构建的所述指定专业领域的语料库,将预处理后的所述待处理文档转化为输入向量;其中,所述语料库中包括所述指定专业领域的原始语料,以及每个所述原始语料对应的特征向量;所述特征向量包括所述原始语料的词向量特征和所述原始语料中指定文本信息的信息特征;其中,所述指定文本信息包括专有名词、异常代码、状态码和统一资源定位符中的至少一种;
将所述输入向量输入预先训练的摘要模型,得到输出向量;
根据所述语料库将所述输出向量转化为所述待处理文档的摘要;
所述语料库通过下述方式建立:获取所述指定专业领域的原始语料;对所述原始语料进行分词处理,得到多个词单元;确定所述原始语料中是否包含有指定文本信息;如果有,提取所述指定文本信息;向量化所述词单元和所述指定文本信息,分别得到所述原始语料的第一向量和第二向量;根据所述第一向量和所述第二向量,生成所述原始语料的特征向量;根据所述原始语料和所述特征向量,构建所述指定专业领域的语料库。
2.根据权利要求1所述的摘要生成的方法,其特征在于,所述摘要模型包括seq2seq模型和attention模型;其中,所述attention模型中的编码模型采用one-hot编码模型,所述attention模型中的解码模型采用前馈神经网络FFN+Softmax层模型。
3.根据权利要求1所述的摘要生成的方法,其特征在于,所述将所述输入向量输入预先训练的摘要模型,得到输出向量的步骤,包括:
基于预设的one-hot编码模型对所述输入向量进行编码,得到中间向量;
基于预设的前馈神经网络FFN+Softmax层模型对所述中间向量进行解码,得到所述输出向量的一个输出元素;
根据当前生成的输出元素和所述摘要模型,生成所述当前生成的输出元素的下一相邻输出元素,直至生成所述输出向量的所有输出元素为止;
根据生成的所述所有输出元素获得所述输出向量。
4.根据权利要求1所述的摘要生成的方法,其特征在于,所述对待处理文档进行预处理的步骤,包括:
对待处理文档进行分句和/或分词处理。
5.一种摘要生成的装置,其特征在于,包括:
预处理模块,用于对待处理文档进行预处理;其中,所述待处理文档属于指定专业领域;
输入向量模块,用于根据预先构建的所述指定专业领域的语料库,将预处理后的所述待处理文档转化为输入向量;其中,所述语料库中包括所述指定专业领域的原始语料,以及每个所述原始语料对应的特征向量;所述特征向量包括所述原始语料的词向量特征和所述原始语料中指定文本信息的信息特征;其中,所述指定文本信息包括专有名词、异常代码、状态码和统一资源定位符中的至少一种;
输出向量模块,用于将所述输入向量输入预先训练的摘要模型,得到输出向量;
摘要生成模块,用于根据所述语料库将所述输出向量转化为所述待处理文档的摘要;
所述语料库通过下述方式建立:获取所述指定专业领域的原始语料;对所述原始语料进行分词处理,得到多个词单元;确定所述原始语料中是否包含有指定文本信息;如果有,提取所述指定文本信息;向量化所述词单元和所述指定文本信息,分别得到所述原始语料的第一向量和第二向量;根据所述第一向量和所述第二向量,生成所述原始语料的特征向量;根据所述原始语料和所述特征向量,构建所述指定专业领域的语料库。
6.一种电子设备,其特征在于,所述电子设备包括处理器和存储器,所述存储器存储有能够被所述处理器执行的计算机可执行指令,所述处理器执行所述计算机可执行指令以实现权利要求1至4任一项所述的摘要生成的方法。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令在被处理器调用和执行时,计算机可执行指令促使处理器实现权利要求1至4任一项所述的摘要生成的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110100459.9A CN112883711B (zh) | 2021-01-25 | 2021-01-25 | 摘要生成的方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110100459.9A CN112883711B (zh) | 2021-01-25 | 2021-01-25 | 摘要生成的方法、装置及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112883711A CN112883711A (zh) | 2021-06-01 |
CN112883711B true CN112883711B (zh) | 2024-09-24 |
Family
ID=76051233
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110100459.9A Active CN112883711B (zh) | 2021-01-25 | 2021-01-25 | 摘要生成的方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112883711B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115827854B (zh) * | 2022-12-28 | 2023-08-11 | 数据堂(北京)科技股份有限公司 | 语音摘要生成模型训练方法、语音摘要生成方法及装置 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003108571A (ja) * | 2001-09-28 | 2003-04-11 | Seiko Epson Corp | 文書要約装置、文書要約装置の制御方法、文書要約装置の制御プログラムおよび記録媒体 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020078091A1 (en) * | 2000-07-25 | 2002-06-20 | Sonny Vu | Automatic summarization of a document |
CA2441607C (en) * | 2001-03-23 | 2011-01-25 | Arizan Corporation | Systems and methods for content delivery over a wireless communication medium to a portable computing device |
CN109325110B (zh) * | 2018-08-24 | 2021-06-25 | 广东外语外贸大学 | 印尼语文档摘要生成方法、装置、存储介质及终端设备 |
CN109657051A (zh) * | 2018-11-30 | 2019-04-19 | 平安科技(深圳)有限公司 | 文本摘要生成方法、装置、计算机设备及存储介质 |
CN110737768B (zh) * | 2019-10-16 | 2022-04-08 | 信雅达科技股份有限公司 | 基于深度学习的文本摘要自动生成方法及装置、存储介质 |
-
2021
- 2021-01-25 CN CN202110100459.9A patent/CN112883711B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003108571A (ja) * | 2001-09-28 | 2003-04-11 | Seiko Epson Corp | 文書要約装置、文書要約装置の制御方法、文書要約装置の制御プログラムおよび記録媒体 |
Also Published As
Publication number | Publication date |
---|---|
CN112883711A (zh) | 2021-06-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110287278B (zh) | 评论生成方法、装置、服务器及存储介质 | |
CN106202010B (zh) | 基于深度神经网络构建法律文本语法树的方法和装置 | |
JP5128629B2 (ja) | 品詞タグ付けシステム、品詞タグ付けモデルのトレーニング装置および方法 | |
CN113869044A (zh) | 关键词自动提取方法、装置、设备及存储介质 | |
CN110135457A (zh) | 基于自编码器融合文档信息的事件触发词抽取方法及系统 | |
CN116661805B (zh) | 代码表示的生成方法和装置、存储介质及电子设备 | |
CN111753086A (zh) | 一种垃圾邮件识别方法和装置 | |
CN113051894B (zh) | 一种文本纠错的方法和装置 | |
JP2021033995A (ja) | テキスト処理装置、方法、デバイス及びコンピューター読み取り可能な記憶媒体 | |
WO2023134083A1 (zh) | 基于文本的情感分类方法和装置、计算机设备、存储介质 | |
CN118606440B (zh) | 知识图谱与规则约束相结合的数据智能分析方法及系统 | |
CN112633007A (zh) | 一种语义理解模型构建方法及装置、语义理解方法及装置 | |
CN116628186B (zh) | 文本摘要生成方法及系统 | |
CN114818717A (zh) | 融合词汇和句法信息的中文命名实体识别方法及系统 | |
CN115587184A (zh) | 一种关键信息抽取模型的训练方法、装置及其存储介质 | |
CN113591493B (zh) | 翻译模型的训练方法及翻译模型的装置 | |
CN117131869A (zh) | 一种基于跨度边界感知的嵌套命名实体识别方法 | |
CN114254657B (zh) | 一种翻译方法及其相关设备 | |
CN112883711B (zh) | 摘要生成的方法、装置及电子设备 | |
CN118568254A (zh) | 一种基于无监督学习的敏感信息自动标注方法及装置 | |
CN111259159B (zh) | 数据挖掘方法、装置和计算机可读存储介质 | |
CN109325110B (zh) | 印尼语文档摘要生成方法、装置、存储介质及终端设备 | |
CN115115432B (zh) | 基于人工智能的产品信息推荐方法及装置 | |
WO2023061441A1 (zh) | 文本的量子线路确定方法、文本分类方法及相关装置 | |
CN114925175A (zh) | 基于人工智能的摘要生成方法、装置、计算机设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |