[go: up one dir, main page]

CN103870440B - 一种文本数据处理方法及装置 - Google Patents

一种文本数据处理方法及装置 Download PDF

Info

Publication number
CN103870440B
CN103870440B CN201210534859.1A CN201210534859A CN103870440B CN 103870440 B CN103870440 B CN 103870440B CN 201210534859 A CN201210534859 A CN 201210534859A CN 103870440 B CN103870440 B CN 103870440B
Authority
CN
China
Prior art keywords
text
question
answer
answer text
response variable
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210534859.1A
Other languages
English (en)
Other versions
CN103870440A (zh
Inventor
凌俊民
刘晓峰
梁耿
李广杰
韦媚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Group Guangxi Co Ltd
Original Assignee
China Mobile Group Guangxi Co Ltd
Filing date
Publication date
Application filed by China Mobile Group Guangxi Co Ltd filed Critical China Mobile Group Guangxi Co Ltd
Priority to CN201210534859.1A priority Critical patent/CN103870440B/zh
Publication of CN103870440A publication Critical patent/CN103870440A/zh
Application granted granted Critical
Publication of CN103870440B publication Critical patent/CN103870440B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明公开了一种文本数据处理方法及装置,应用于交互问答系统中,所述交互问答系统中存储有至少一个问题文本,每一问题文本对应有至少一个答案文本,用以提高答案文本与问题文本之间相关性衡量结果的准确性。文本数据处理方法包括:接收用户针对任一问题文本提交的新答案文本;将所述新答案文本分词,得到所述新答案文本包含的所有词语;根据所述新答案文本包含的所有词语以及第一预设算法确定所述新答案文本对应的响应变量参数,其中,所述第一预设算法根据所述交互问答系统中已存储的所述问题文本与该问题文本对应的至少一个答案文本确定,所述响应变量参数表示所述新答案文本与所述问题文本之间的匹配程度。

Description

一种文本数据处理方法及装置
技术领域
本发明涉及数据处理技术领域,尤其涉及一种文本数据处理方法及装置。
背景技术
随着网络通信技术的发展,通过网络获取问题的答案成为解决问题的一种有效手段。但是针对同一问题,网络上存在的回答可能有很多,但是哪一个答案相对来说更准确,即如何衡量答案与问题之间的相关性成为研究热点之一。
目前,主要都是通过问题与答案之间的文本相似度计算来进行衡量的,但是通常情况下,问题都比较简短,所包含的单词少,从而导致与其对应的答案之间存在语义鸿沟问题,因此,利用传统的文本相似度的衡量方法,使得衡量结果存在较大的误差。
发明内容
本发明实施例提供一种文本数据处理方法,用以提高答案文本与问题文本之间相关性衡量结果的准确性。
本发明实施例提供一种文本数据处理方法,应用于交互问答系统中,所述交互问答系统中存储有至少一个问题文本,每一问题文本对应有至少一个答案文本,包括:
接收用户针对任一问题文本提交的的新答案文本;
将所述新答案文本分词,得到所述新答案文本包含的所有词语;
根据所述新答案文本包含的所有词语以及第一预设算法确定所述新答案文本对应的响应变量参数,其中,所述第一预设算法根据所述交互问答系统中已存储的所述问题文本与该问题文本对应的至少一个答案文本确定,所述响应变量参数表示所述新答案文本与所述问题文本之间的匹配程度。
本发明实施例提供一种文本数据处理装置,应用于交互问答系统中,所述交互问答系统中存储有至少一个问题文本,每一问题文本对应有至少一个答案文本,包括:
接收单元,用于接收用户针对任一问题文本提交的的新答案文本;
分词单元,用于将所述新答案文本分词,得到所述新答案文本包含的所有词语;
确定单元,用于根据所述新答案文本包含的所有词语以及第一预设算法确定所述新答案文本对应的响应变量参数,其中,所述第一预设算法根据所述交互问答系统中已存储的所述问题文本与该问题文本对应的至少一个答案文本确定,所述响应变量参数表示所述新答案文本与所述问题文本之间的匹配程度。
本发明实施例提供的文本数据处理方法,将接收到的待衡量的新答案文本分词,得到新答案文本包含的所有词语,根据该新答案文本包含的所有词语,按照预设算法确定新答案文本对应的响应变量参数,该响应变量参数反应了新答案文本与问题文本之间的匹配程度,若确定出的响应变量参数越大,则答案文本与问题文本之间越匹配,反之,答案文本与问题文本之间越不匹配。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为现有技术中,LDA模型下,文档生成过程示意图;
图2为本发明实施例中,sLDA模型下,文档生成过程示意图;
图3为本发明实施例中,文本数据处理方法的实施流程示意图;
图4为本发明实施例中,文本数据处理装置的结构示意图。
具体实施方式
为了提高答案文本与问题文本衡量结果的准确性,本发明实施例提供了一种文本数据处理方法及装置。
以下结合说明书附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明,并且在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
为了更好地理解本发明实施例,首先介绍一下潜在狄利克雷分配(LatentDirichlet Allocation,LDA)主题模型。LDA模型是典型的有向概率图模型,具有清晰的层次结构,依次为:文档集合层、文档层和词层。利用LDA模型能够识别大规模文档集中潜藏的主题信息,例如,对于问题-答案文档集合来说,一个问题-答案对可以称为一个文档,每一文档代表了一些主体所构成的一个概率分布,而每一个主题又代表了很多单词所构成的一个概率分布。因此,对于每一文档,可以按照以下过程生成:1)对每一文档,从主题分布中抽取一个主题;2)从上述被抽取到的主体所对应的单词分布中抽取一个单词;3)重复上述过程直至遍历文档中的每一个单词。更形式化一点说,每一文档与T(通过反复试验等方法事先给定)个主题的一个多项分布相对应,将该多项分布记为θ,每个主题又与词汇表中的V个单词的一个多项分布相对应,将这个多项分布记为φ,上述词汇表是由文档集中所有文档中的互异单词组成。θ和φ分别有一个带有超参数α和β的Dirichlet先验分布。对于文档d中的每一个单词,从该文档所对应的多项分布θ中抽取一个主题z,然后再从主题z所对应的多项分布φ中抽取一个单词w,将这个过程重复Nd次,可以产生文档d,其中,Nd为文档d包含的单词总数,如图1所示,上述生成过程可以用图1所示的图模型表示,图1中,阴影圆圈表示可观测变量,非阴影圆圈表示潜在变量,方框表示重复抽样,重复次数在方框的右下角。
上述介绍的LDA模型属于无监督主题模型,相比于无监督模型,监督主题模型sLDA中引入了响应变量参数,引入响应变量参数后能够提高主题抽取的准确性,从而能够进一步提高答案文本与问题文本衡量结果的准确性。
本发明实施例中,将一个问题文本与一个答案文本称为一个文档,而上述响应变量参数为描述答案文本是否为问题文本的最佳答案文本的参数。如果答案文本为问题文本的最佳答案,在此情况下,答案文本和问题文本在主题分布上具有较大的相似性,从而其对应的响应变量参数设定为1;否则,答案文本和问题文本在主题分布上具有较少的共现性,这种情况下,其对应的响应变量参数设定为0。基于响应变量与问题文本-答案文本之间的关系,能够更好地发现文档中的潜在主题,并可以根据已有文档的训练结果,对训练结果用于新的问题文本-答案文本之间的响应变量参数确定上。
基于此,本发明实施例中,根据对已知的问题文本-答案文本(即已有的历史答案文本)的训练结果,确定答案文本与问题文本之间响应变量参数的计算模型。则针对该问题文本对应的新的答案文本,可以根据上述计算模型来确定新的答案文本与问题文本之间的响应变量参数,如果响应变量参数越高,则说明该新的答案文本与问题文本之间越相关,该新的答案文本越可能是最佳答案,反之,答案文本与问题文本之间越不相关,该新的答案文本越可能会是一个无关答案文本甚至可能是一个垃圾答案文本。
以下介绍在sLDA主体模型中如何产生文档d,类似于LDA模型,在sLDA模型中,假设文档d是在一个主题z上的多项分布,而文档d中包含的词语又是在主题z和多项分布β上的联合分布,而响应变量参数b是一个在主题z和以η,σ为参数的正态分布的联合分布。因此,sLDA模型中,文档的产生模型可以分为以下三个部分:
1)对于文档d来说,其主题采样θ是一个在参数α上的狄利克雷分布,Dirichlet分布就是k取1时的Conjugate Prior(共轭先验分布)。若k维随机向量θ~Drichlet分布,则θ的k个分量θ_1,θ_2,...,θ_k都取连续的非负值,且θ_1+θ_2+...+θ_k=1。具体实施时,由于同一问题文本可能存在多个已知的答案文本,该问题文本与每一答案文本形成一个文档,因此,针对同一问题可能存在多个文档,对每个文档进行主题采样,遍历所有文档确定出所有主题,最后每个文档的主题概率分布θ|α~Dir(α),例如,假设每个文档由3个主题组成,θ表示每个主题发生的概率,例如为{1/6,2/6,3/6},不同的文档对应的θ也就不同,而θ可以用来判断文档的相似度;
2)对于文档d所包含的每一词语w来说,其产生过程可以分为以下两步:
第一步为主题z的分布采样,其为在θ上的多项式分布,即z|θ~Mult(θ);
第二步为词语w的采样,其为在主题z和多项式分布β上的联合概率分布,即w|z,β~Mult(β);
3)响应变量参数b是基于主题z以η,σ为参数的正态分布的联合分布,即其中,N表示所述问题文本及与已知的该问题文本对应的历史答案文本中所包含的词语的数量。
上述文档的产生步骤如图2所示,由图2可知,变量w和b可以根据已知的文档直接得到,而其它参数如α,β,η,σ2需要对其进行参数估计。较佳地,本发明实施例中,可以采用期望最大化(EM)算法进行参数估计。EM最大化算法是一种当观测数据不完整时,求解最大似然估计的迭代算法,或者对后验分布进行极大化模拟,而在观测数据的基础上添加一些“隐藏变量”,从而简化计算并完成一系列简单的极大化或模拟。最大期望算法经过两个步骤交替进行计算:第一步是计算期望(E),利用对隐藏变量的现有估计值,计算其最大似然估计值;第二步是最大化(M),最大化在E步上求得的最大似然值来计算参数的值。M步上找到的参数估计值被用于下一个E步计算中,这个过程不断交替进行,最终会收敛在一个值上。以下针对本发明实施例,分别介绍上述两个步骤:
第一步:期望估计
对于给定的一个问题-答案对(即一个文档),潜在变量θ和z的先验概率可以通过公式(1)确定:
p ( θ , z | w , b , α , β , η , σ 2 ) = p ( θ | α ) ( Π n = 1 N p ( z | θ ) p ( w | z , β ) ) p ( b | z , η , σ 2 ) ∫ d θ p ( θ | α ) Σ z ( Π n = 1 N p ( z | θ ) p ( w | z , β ) ) p ( b | z , η , σ 2 ) - - - ( 1 )
在公式(1)中,通过已知文档中可观测的变量词语w和响应变量参数b的边缘概率的计算进行归一化,和无监督主题模型LDA一样,很难计算出公式(1)中的各个隐含变量的似然估计值,因此本发明实施例中采用变分计算方法来近似估计隐含变量的先验概率,该变分分析中的目标函数如公式(2)所示:
log p ( w , b | α , β , η , σ 2 ) ≥ E [ log p ( θ | α ) ] + Σ n = 1 N E [ log p ( z | θ ) ] + Σ n = 1 N E [ log p ( w | z , β ) ] + E [ log p ( b | z , η , σ 2 ) ] + H ( q ) - - - ( 2 )
其中,关于变分分布q的期望计算公式如公式(3)所示:
q ( θ , z | γ , φ ) = q ( θ | γ ) Π n = 1 N q ( z | φ ) - - - ( 3 )
其中,γ是一个K维的狄利克雷参数向量,代表在K个元素上的一个分布,其可以通过对于给定主题下响应变量的期望概率分布计算获得,计算公式如公式(4)所示:
E [ log p ( b | z , η , σ 2 ) ] = - 1 2 log ( 2 πσ 2 ) - y 2 - 2 bη T E [ Z ‾ ] + η T E [ Z Z ‾ T ] η 2 σ 2 - - - ( 4 )
公式(4)中,分别可以按照公式(5)和公式(6)确定E[Z]和E[ZZT]:
E [ Z ‾ ] = φ ‾ : = ( 1 / N ) Σ n = 1 N φ n - - - ( 5 )
E [ Z Z ‾ T ] = Σ n = 1 N Σ m ≠ n φ n φ m T + Σ n = 1 N d i a g { φ n } N 2 - - - ( 6 )
经过上述公式(3)~公式(6),可以通过确定公式(2)中的变量φ和γ来确定其先验概率。
第二步:参数最大化
在参数最大化计算步骤中,通过对每一个问题文本-答案文本对(即每一个文档)的似然估计值的最大化来确定计算模型中的β,η,σ2的参数值,β,η,σ2参数值的计算分别如公式(7)、公式(8)和公式(9)所示:
β ^ n e w ∝ Σ d = 1 D Σ n = 1 N 1 ( w d , n = w ) φ d , n - - - ( 7 )
η ^ n e w ← ( E [ A T A ] ) - 1 E [ A ] T b - - - ( 8 )
σ ^ n e w 2 ← ( 1 / D ) { b T b - b T E [ A ] ( E [ A T A ] ) - 1 E [ A ] T b } - - - ( 9 )
其中,D表示已知文档中问题-答案对的数量,N表示训练数据集合中含有的不同词语的个数,A为一个D*K的矩阵其中每一行是
上述过程中,每次进行计算时,在第一步输入α和β,计算似然函数,也就是variational inference(实际上变分推理为用一个函数来近似后验分布)的过程,第二步中最大化这个函数,求出α和β。这样不断迭代直至收敛,就求得了最终的α和β值。从而,通过期望估计和参数最大化的反复计算迭代,可以通过学习已知文档中获得每一个问题-答案对的主题分布,获得各个隐含变量的参数估计结果。
具体实施时,对于交互问答系统来说,其可能存储有大量的问题文本,而针对该问题文本可能有不止一个的答案文本,因此,对于每一问题文本,便可能存在多个问题文本-答案文本对,因此,根据存储的问题文本-答案文本对采用sLDA模型,能够对其中的隐含变量参数α,β,η,σ2进行估计,得到具体的参数值。
基于此,本发明实施例提供了一种文本数据处理方法,可以应用于交互问答系统中,所述交互问答系统中存储有至少一个问题文本,每一问题文本对应有至少一个答案文本,如图3所示,该方法可以包括以下步骤:
S301、接收用户提交的任一问题文本对应的新答案文本;
S302、将新答案文本进行分词,得到新答案文本包含的所有词语;
具体实施时,可以对获取的答案文本进行分词,根据分词结果确定该答案文本包含的所有词语。
S303、根据新答案文本包含的所有词语以及第一预设算法确定所述答案文本与所述问题文本之间的响应变量参数。
其中,第一预设算法根据交互问答系统中已存储的所述问题文本与该问题文本对应的至少一个答案文本确定,响应变量参数表示新答案文本与所述问题文本之间的匹配程度。
具体实施时,可以按照公式(10)确定确定该新答案文本对应的响应变量参数:
其中,z为所述问题文本及所述交互问答系统中存储的该问题文本对应的至少一个答案文本中所包含的主题;w为所述新答案文本包含的所有词语;α,β,η,σ2分别为根据所述问题文本及所述交互问答系统中存储的该问题文本对应的至少一个答案文本和第二预设算法确定出的参数。其中,第二预设算法可以但不限于为EM(期望最大化算法)。
根据公式(10),能够确定出某一新答案文本与问题文本之间的响应变量参数,响应变量参数越大,其与问题文本的相关性越高。进一步地,相关性最高的答案文本将会被认为是该问题文本对应的最佳答案;相对地,响应变量参数越小、其与问题文本的相关性越低,其可能会是一个无关答案甚至可能是一个垃圾答案。
较佳地,具体实施时,在确定出每一答案文本对应的响应变量参数之后,还可以根据确定出的响应变量参数,在预先建立的响应变量参数与匹配参数之间的映射关系中,查找该响应变量参数对应的匹配参数,该匹配参数表示新答案文本的价值。
例如,在具体应用中,可以将响应变量参数映射为不同的分值,该分值能够反映某一答案文本的可参考价值或者用于给提交该新答案文本用户的评价分数。
本发明实施例可以应用于以下两种场景:
场景一利用已解决问题来训练答案相关性评估的监督主题模型sLDA
首先取出若干个问题文本及问题文本对应所有答案文本,对于每一个已解决的问题文本,其包括一个最佳答案文本(例如该答案文本对应的标签为精彩回答)以及其他若干不相关答案文本(例如该答案文本对应的标签为其他回答)。对于已解决问题文本,可以生成多个问题-答案文本对(Question-Answerpairs),对于最佳答案文本将其响应变量标记为1,其他答案文本的响应变量标记为0。然后将得到的问题-答案文本对通过监督主题模型sLDA进行训练,估计其中的参数α,β,η,σ2,并得到训练模型M。对于一个新的问题-答案对,如:问题-答案对“win7系统下如何安装linux虚拟机?”-“安装虚拟机你需要:下载vmware,这是个虚拟软件;linux镜像运行vmware后使用镜像文件安装虚拟系统。别人如果有安装过的虚拟机文件,可以拷过来直接用(不是硬盘安装的虚拟文件)”,利用得到的训练模型M,通过上面的公式(10)计算可以得到该答案文本与问题文本的之间响应变量参数,值越高则表示答案越相关,反之则答案越不相关。
场景二应用于论坛的帖子最佳答案中
针对某一论坛,选择数据库中的一些有回帖(回复或者跟贴)的帖子作为训练数据,然后对帖子中的回帖进行标注,如果是最佳回复,将其响应变量标记为1,其他回复响应变量标记为0。最后通过监督主题模型sLDA对收集整理到的“帖子-回复”文本对进行训练,估计其中的参数α,β,η,σ2,并得到训练模型M。对于新帖子的回复,便可以将其组合成“帖子-回复”文本对,利用训练得到的模型M,通过公式(10)计算得到该“帖子-回复”响应变量参数,值越大表示回复越好,反之则回复越差。
基于同一发明构思,本发明实施例中还提供了一种文本数据处理装置,由于上述装置解决问题的原理与移动终端界面图标排列方法相似,因此上述装置的实施可以参见方法的实施,重复之处不再赘述。
如图4所示,为本发明实施例提供的文本数据处理装置的结构示意图,包括:
接收单元401,用于接收用户针对任一问题文本提交的的新答案文本;
分词单元402,用于将所述新答案文本分词,得到所述新答案文本包含的所有词语;
确定单元403,用于根据所述新答案文本包含的所有词语以及第一预设算法确定所述新答案文本对应的响应变量参数。
其中,第一预设算法根据交互问答系统中已存储的所述问题文本与该问题文本对应的至少一个答案文本确定,响应变量参数表示所述新答案文本与所述问题文本之间的匹配程度。
具体实施时,确定单元403,可以用于按照以下公式确定新答案文本对应的响应变量参数:其中:E[b|w,α,β,η,σ2]为所述答案文本对应的响应变量参数;z为所述问题文本及所述交互问答系统中存储的该问题文本对应的至少一个答案文本中所包含的主题;w为所述新答案文本包含的所有词语;α,β,η,σ2分别为根据所述问题文本及所述交互问答系统中存储的该问题文本对应的至少一个答案文本和第二预设算法确定出的参数。
具体实施时,确定单元403,可以用于按照以下公式确定其中:N表示所述问题文本及所述交互问答系统中存储的该问题文本对应的至少一个答案文本中所包含的词语的数量。
具体实施时,本发明实施例提供的文本处理装置,还可以包括:
查找单元,用于根据确定单元确定出的响应变量参数,在预先建立的响应变量参数与匹配参数之间的映射关系中,确定该答案文本与所述问题文本之间的匹配参数,匹配参数表示所述新答案文本的价值。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (7)

1.一种文本数据处理方法,应用于交互问答系统中,所述交互问答系统中存储有至少一个问题文本,每一问题文本对应有至少一个答案文本,其特征在于,包括:
接收用户针对任一问题文本提交的新答案文本;
将所述新答案文本分词,得到所述新答案文本包含的所有词语;
根据所述新答案文本包含的所有词语以及第一预设算法确定所述新答案文本对应的响应变量参数,其中,所述第一预设算法根据所述交互问答系统中已存储的所述问题文本与该问题文本对应的至少一个答案文本确定,所述响应变量参数表示所述新答案文本与所述问题文本之间的匹配程度;
所述新答案文本对应的响应变量参数由公式确定,其中:
E[b|w,α,β,η,σ2]为所述答案文本对应的响应变量参数;
z为所述问题文本及所述交互问答系统中存储的该问题文本对应的至少一个答案文本中所包含的主题;
w为所述新答案文本包含的所有词语;
α,β,η,σ2分别为根据所述问题文本及所述交互问答系统中存储的该问题文本对应的至少一个答案文本和第二预设算法确定出的参数。
2.如权利要求1所述的方法,其特征在于,按照以下公式确定 其中:
N表示所述问题文本及所述交互问答系统中存储的该问题文本对应的至少一个答案文本中所包含的词语的数量,zn表示所述问题文本及所述交互问答系统中存储的该问题文本对应的至少一个答案文本中所包含的第n个词语所对应的主题。
3.如权利要求1所述的方法,其特征在于,所述第二预设算法包括期望最大化EM算法。
4.如权利要求1所述的方法,其特征在于,还包括:
根据所述响应变量参数,在预先建立的响应变量参数与匹配参数之间的映射关系中,查找所述响应变量参数对应的匹配参数,所述匹配参数表示所述新答案文本的价值。
5.一种文本数据处理装置,应用于交互问答系统中,所述交互问答系统中存储有至少一个问题文本,每一问题文本对应有至少一个答案文本,其特征在于,包括:
接收单元,用于接收用户针对任一问题文本提交的新答案文本;
分词单元,用于将所述新答案文本分词,得到所述新答案文本包含的所有词语;
确定单元,用于根据所述新答案文本包含的所有词语以及第一预设算法确定所述新答案文本对应的响应变量参数,其中,所述第一预设算法根据所述交互问答系统中已存储的所述问题文本与该问题文本对应的至少一个答案文本确定,所述响应变量参数表示所述新答案文本与所述问题文本之间的匹配程度,所述确定单元,具体用于按照以下公式确定所述新答案文本对应的响应变量参数:
其中:
E[b|w,α,β,η,σ2]为所述答案文本对应的响应变量参数;
z为所述问题文本及所述交互问答系统中存储的该问题文本对应的至少一个答案文本中所包含的主题;
w为所述新答案文本包含的所有词语;
α,β,η,σ2分别为根据所述问题文本及所述交互问答系统中存储的该问题文本对应的至少一个答案文本和第二预设算法确定出的参数。
6.如权利要求5所述的装置,其特征在于,
所述确定单元,具体用于按照以下公式确定 其中:
N表示所述问题文本及所述交互问答系统中存储的该问题文本对应的至少一个答案文本中所包含的词语的数量,zn表示所述问题文本及所述交互问答系统中存储的该问题文本对应的至少一个答案文本中所包含的第n个词语所对应的主题。
7.如权利要求5所述的装置,其特征在于,还包括:
查找单元,用于根据所述响应变量参数,在预先建立的响应变量参数与匹配参数之间的映射关系中,确定所述答案文本与所述问题文本之间的匹配参数,所述匹配参数表示所述新答案文本的价值。
CN201210534859.1A 2012-12-12 一种文本数据处理方法及装置 Active CN103870440B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210534859.1A CN103870440B (zh) 2012-12-12 一种文本数据处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210534859.1A CN103870440B (zh) 2012-12-12 一种文本数据处理方法及装置

Publications (2)

Publication Number Publication Date
CN103870440A CN103870440A (zh) 2014-06-18
CN103870440B true CN103870440B (zh) 2016-11-30

Family

ID=

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6282534B1 (en) * 1998-03-13 2001-08-28 Intel Corporation Reverse content indexing
CN1794233A (zh) * 2005-12-28 2006-06-28 刘文印 一种网上用户交互问答方法及其系统
CN101118554A (zh) * 2007-09-14 2008-02-06 中兴通讯股份有限公司 智能交互式问答系统及其处理方法
CN101369265A (zh) * 2008-01-14 2009-02-18 北京百问百答网络技术有限公司 一种自动生成问题的语义模板的方法和系统
CN102521239A (zh) * 2011-11-14 2012-06-27 江苏联著实业有限公司 一种基于owl的互联网问答信息匹配系统及其匹配方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6282534B1 (en) * 1998-03-13 2001-08-28 Intel Corporation Reverse content indexing
CN1794233A (zh) * 2005-12-28 2006-06-28 刘文印 一种网上用户交互问答方法及其系统
CN101118554A (zh) * 2007-09-14 2008-02-06 中兴通讯股份有限公司 智能交互式问答系统及其处理方法
CN101369265A (zh) * 2008-01-14 2009-02-18 北京百问百答网络技术有限公司 一种自动生成问题的语义模板的方法和系统
CN102521239A (zh) * 2011-11-14 2012-06-27 江苏联著实业有限公司 一种基于owl的互联网问答信息匹配系统及其匹配方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
基于语法分析和统计方法的答案排序模型;李波 等;《中文信息学报》;20090331;第23卷(第2期);第23-28页 *
改进的基于模式匹配的答案抽取方法;战学刚 等;《情报理论与实践》;20090930;第32卷(第9期);第105-108页 *
问答社区中的问题与答案推荐机制研究与实现;曲明成;《中国优秀硕士学位论文全文数据库 信息科技辑》;20100815;第2010年卷(第8期);第I138-926页 *

Similar Documents

Publication Publication Date Title
US20180096219A1 (en) Neural network combined image and text evaluator and classifier
US8370278B2 (en) Ontological categorization of question concepts from document summaries
Kaliszyk et al. Learning-assisted theorem proving with millions of lemmas
CN106934012A (zh) 一种基于知识图谱的自然语言问答实现方法和系统
WO2022179384A1 (zh) 一种社交群体的划分方法、划分系统及相关装置
Yellamraju et al. Investigating students’ habits of mind in a course on digital signal processing
Sanuvala et al. A study of automated evaluation of student’s examination paper using machine learning techniques
CN103412878B (zh) 基于领域知识地图社区结构的文档主题划分方法
US10332411B2 (en) Computer-implemented systems and methods for predicting performance of automated scoring
CN117795581A (zh) 用于教育和心理建模与评估的系统和方法
Mühling Investigating knowledge structures in computer science education
US20240296339A1 (en) Method, device, and apparatus for verifying veracity of statement, and medium
Niu et al. A hybrid model for predicting academic performance of engineering undergraduates
Wang et al. Factuality of large language models: A survey
WO2023045725A1 (zh) 用于数据集创建的方法、电子设备和计算机程序产品
CN116012627A (zh) 一种基于超图聚类的因果时序双增强知识追踪方法
Sanchez-Torrubia et al. An approach to automatic learning assessment based on the computational theory of perceptions
CN112988844B (zh) 一种基于学生练习序列的知识概念表示学习方法
CN108255812A (zh) 基于语义标注的微积分能力测试题智能生成方法
Guo et al. A latent topic model for linked documents
CN103870440B (zh) 一种文本数据处理方法及装置
WO2024098282A1 (zh) 一种几何解题方法、装置、设备及存储介质
CN113297419B (zh) 视频知识点确定方法、装置、电子设备和存储介质
CN103870440A (zh) 一种文本数据处理方法及装置
Xie et al. Research on personalized exercises and teaching feedback based on big data

Legal Events

Date Code Title Description
PB01 Publication
SE01 Entry into force of request for substantive examination
GR01 Patent grant