[go: up one dir, main page]

CN113569539B - 文本内容的衍生方法、装置、计算机可读介质及电子设备 - Google Patents

文本内容的衍生方法、装置、计算机可读介质及电子设备

Info

Publication number
CN113569539B
CN113569539B CN202110164573.8A CN202110164573A CN113569539B CN 113569539 B CN113569539 B CN 113569539B CN 202110164573 A CN202110164573 A CN 202110164573A CN 113569539 B CN113569539 B CN 113569539B
Authority
CN
China
Prior art keywords
original
content
text
ending
causal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110164573.8A
Other languages
English (en)
Other versions
CN113569539A (zh
Inventor
庞亮
郝长盈
王琰
兰艳艳
沈华伟
史树明
程学旗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Institute of Computing Technology of CAS
Original Assignee
Tencent Technology Shenzhen Co Ltd
Institute of Computing Technology of CAS
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd, Institute of Computing Technology of CAS filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202110164573.8A priority Critical patent/CN113569539B/zh
Publication of CN113569539A publication Critical patent/CN113569539A/zh
Application granted granted Critical
Publication of CN113569539B publication Critical patent/CN113569539B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本申请的实施例提供了一种文本内容的衍生方法、装置、计算机可读介质及电子设备。该文本内容的衍生方法包括:获取原始文本内容,基于原始文本内容以及与原始条件相对应的反事实条件,从原始结尾中识别出与原始条件相关的因果内容;基于原始结尾以及原始结尾中的因果内容,确定表示原始结尾的文本架构的结尾框架;基于前提、反事实条件以及结尾框架构成的序列,生成原始结尾对应的反事实结尾;本实施例中生成的反事实结尾在原始结尾的基础上,基于原始文本内容中的因果内容生成,在因果内容与原始文本内容一致性的前提下,使得生成的反事实结尾更加符合因果逻辑,增加表达的流畅性。

Description

文本内容的衍生方法、装置、计算机可读介质及电子设备
技术领域
本申请涉及计算机技术领域,具体而言,涉及一种文本内容的衍生方法、装置、计算机可读介质及电子设备。
背景技术
随着海量文本数据的积累与深度学习技术的发展,现如今出现了一些可以自动生成故事的文本创作平台,这些创作平台可以基于给定的背景、条件,续写合适的下文。这些创作平台所基于的条件文本生成模型可以被广泛地应用于小说、散文、诗歌等文体的创作,也可以被应用于商品推荐软文、新闻通讯稿等场景,有着广阔的应用前景和巨大的经济价值。相关技术一般基于原始故事的前提和反事实条件串接,而直接生成故事内容,这种方式并未考虑到故事内容的逻辑关系,进而可能造成故事逻辑不通的问题。
发明内容
本申请的实施例提供了一种文本内容的衍生方法、装置、计算机可读介质及电子设备,进而至少在一定程度上可以在保证衍生文本与原始文本内容一致性的前提下,使得生成的衍生文本更加符合因果逻辑,增加表达的流畅性。
本申请的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本申请的实践而习得。
根据本申请实施例的一个方面,提供了一种文本内容的衍生方法,包括:获取原始文本内容,所述原始文本内容包括前提、原始条件、原始结尾;基于所述原始文本内容以及与所述原始条件相对应的反事实条件,从所述原始结尾中识别出与所述原始条件相关的因果内容;基于所述原始结尾以及所述原始结尾中的所述因果内容,确定表示所述原始结尾的文本架构的结尾框架;基于所述前提、所述反事实条件以及所述结尾框架构成的序列,生成所述原始结尾对应的反事实结尾。
根据本申请实施例的一个方面,提供了一种文本内容的衍生装置,包括:获取单元,用于获取原始文本内容,所述原始文本内容包括前提、原始条件、原始结尾;识别单元,用于基于所述原始文本内容以及与所述原始条件相对应的反事实条件,从所述原始结尾中识别出与所述原始条件相关的因果内容;框架单元,用于基于所述原始结尾以及所述原始结尾中的所述因果内容,确定表示所述原始结尾的文本架构的结尾框架;结尾单元,用于基于所述前提、所述反事实条件以及所述结尾框架构成的序列,生成所述原始结尾对应的反事实结尾;文本单元,用于对所述前提、所述反事实条件以及所述反事实结尾进行合并,生成所述原始文本内容对应的衍生文本。
在本申请的一些实施例中,基于前述方案,所述识别单元包括:格式单元,用于对所述原始文本内容进行格式化,生成所述原始文本内容对应的文本序列;标识单元,用于在所述文本序列中与所述前提、所述原始条件、所述原始结尾以及与所述原始条件相对应的反事实条件分别对应的位置处添加设定的文本标识,生成标记序列;其中,所述文本标识用于表示所述前提、所述原始条件、所述原始结尾以及所述反事实条件分别对应的属性信息;因果单元,用于对所述标记序列中的原始结尾的构成进行识别,确定所述原始结尾中与所述原始条件相关的因果内容。
在本申请的一些实施例中,基于前述方案,所述因果单元配置为:基于预设的全连接网络,对所述文本序列中的原始结尾进行全连接处理,生成所述原始结尾对应的向量;对所述向量进行逻辑回归处理,确定所述原始结尾中的单词对应于所述因果内容的概率分布;基于所述概率分布,从所述原始结尾的单词中确定所述因果内容。
在本申请的一些实施例中,基于前述方案,所述文本内容的衍生装置还包括:样本获取单元,用于获取第一文本内容样本和第二文本内容样本,其中所述第一文本内容样本中的第一结尾和所述第二文本内容样本中的第二结尾具有相同的背景内容,所述背景内容包括与文本内容样本中的原始条件无关的内容;序列单元,用于基于所述第一文本内容样本生成第一序列,基于所述第二文本内容样本生成第二序列;预测单元,用于通过预设的全连接网络分别对所述第一序列中的第一结尾和所述第一序列中的第二结尾进行识别,确定其中的预测背景内容和预测因果内容;对比单元,用于将所述第一结尾与所述第二结尾进行对比,确定实际背景内容和实际因果内容;更新单元,用于基于所述预测背景内容与所述实际背景内容之间的第一对比结果,以及预测因果内容和所述实际因果内容之间的第二对比结果,更新所述全连接网络的参数,所述全连接网络用于对所述标记序列中的原始结尾的构成进行识别,确定所述原始结尾中与所述原始条件相关的因果内容。
在本申请的一些实施例中,基于前述方案,所述更新单元用于:将所述预测背景内容与所述实际背景内容进行对比,生成所述第一对比结果;将所述预测因果内容和所述实际因果内容进行对比,生成所述第二对比结果;基于所述第一对比结果对应的背景内容权值、以及所述第二对比结果对应的因果内容权值对所述第一对比结果和第二对比结果加权求和得到所述全连接网络的损失值;基于所述全连接网络的损失值,更新所述全连接网络的参数。
在本申请的一些实施例中,基于前述方案,所述框架单元用于:通过设定标识对所述原始结尾中的所述因果内容进行替换,确定表示所述原始结尾的文本架构的结尾框架。
在本申请的一些实施例中,基于前述方案,所述结尾单元包括:标识单元,用于获取所述前提、所述反事实条件、以及所述结尾框架分别对应的文本标识;编码单元,用于基于所述前提、所述反事实条件、以及所述结尾框架分别对应的文本标识,对所述前提、所述反事实条件、以及所述结尾框架进行编码,得到衍生文本序列对应的衍生文本内容;解码单元,用于基于解码器对所述衍生文本内容进行解码,生成所述原始结尾对应的反事实结尾。
在本申请的一些实施例中,基于前述方案,所述解码单元配置为:基于解码器对所述衍生文本内容进行解码,生成所述反事实条件在所述衍生文本序列的结尾框架中对应的待选因果内容;基于所述反事实条件与待选因果内容之间的对应关系,确定所述待选因果内容对应的分布概率;基于所述分布概率,从所述待选因果内容中选取出衍生因果内容;将所述衍生因果内容和所述结尾框架合并,生成与所述原始结尾相对的反事实结尾。
在本申请的一些实施例中,基于前述方案,所述文本内容的衍生装置还用于:获取待训练的序列样本以及所述序列样本对应的实际反事实结尾;基于设定的解码器对所述序列样本进行解码,生成所述序列样本对应的预测反事实结尾;基于所述实际反事实结尾与所述预测反事实结尾之间的对比结果,确定所述解码器的损失函数;基于所述损失函数,更新所述解码器中的参数。
在本申请的一些实施例中,基于前述方案,所述文本内容的衍生装置还用于:将所述衍生文本内容与所述原始文本内容进行对比,确定所述衍生文本内容在所述原始文本内容的基础上,发生变化的目标文本部分;基于设定的显示方式,在界面中显示所述衍生文本内容以及其中的目标文本部分;响应于针对所述目标文本部分触发的修改指令,对所述衍生文本内容进行修改。
在本申请的一些实施例中,基于前述方案,所述原始文本内容包括语音音频对应的语音文本;所述文本内容的衍生装置还用于:将基于所述语音文本生成的衍生文本进行音频转化,生成所述衍生文本对应的衍生语音音频;基于所述语音音频的标识,存储所述衍生语音音频至语料库中。
在本申请的一些实施例中,基于前述方案,所述原始文本内容包括语音音频对应的语音文本;所述文本内容的衍生装置还用于:获取用户触发的前提语句;将所述前提语句与所述语料库中的语音音频进行匹配,确定所述前提语句对应的目标语音音频;将所述目标语音音频作为所述前提语句对应的答复语句,播放所述答复语句。
根据本申请实施例的一个方面,提供了一种计算机可读介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述实施例中所述的文本内容的衍生方法。
根据本申请实施例的一个方面,提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如上述实施例中所述的文本内容的衍生方法。
根据本申请实施例的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各种可选实现方式中提供的文本内容的衍生方法。
在本申请的一些实施例所提供的技术方案中,基于获取到的原始文本内容和原始条件相对应的反事实条件,从原始文本内容中的原始结尾中识别出与原始条件相关的因果内容,之后基于原始结尾以及其中的因果内容,确定表示原始结尾的文本架构的结尾框架,以在之后基于前提、反事实条件以及结尾框架构成的序列,生成原始结尾对应的、与因果内容之间存在逻辑关系的反事实结尾,本实施例中生成的反事实结尾在原始结尾的基础上,基于原始文本内容中的因果内容生成,在因果内容与原始文本内容一致性的前提下,使得生成的反事实结尾更加符合因果逻辑,增加表达的流畅性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1示出了可以应用本申请实施例的技术方案的示例性系统架构的示意图;
图2示意性示出了根据本申请的一个实施例的一种实现文本内容衍生的系统;
图3示意性示出了根据本申请的一个实施例的文本内容的衍生方法的流程图;
图4示意性示出了根据本申请的一个实施例的原始文本构成的示意图;
图5示意性示出了根据本申请的一个实施例的原始文本组成结构的示意图;
图6示意性示出了根据本申请的一个实施例的从原始文本中识别因果内容的示意图;
图7示意性示出了根据本申请的一个实施例的生成结尾框架的示意图;
图8示意性示出了根据本申请的一个实施例的从原始文本中识别因果内容的流程图;
图9示意性示出了根据本申请的一个实施例的基于全连接网络生成结尾框架的示意图;
图10示意性示出了根据本申请的一个实施例的训练全连接网络的流程图;
图11示意性示出了根据本申请的一个实施例的训练全连接网络的示意图;
图12示意性示出了根据本申请的一个实施例的生成反事实结尾的流程图;
图13示意性示出了根据本申请的一个实施例的生成反事实结尾的示意图;
图14示意性示出了根据本申请的一个实施例的原始文本与衍生文本之间的对比示意图;
图15示意性示出了根据本申请的一个实施例的衍生文本的可视化示意图;
图16示意性示出了根据本申请的一个实施例的生成语料库的示意图;
图17示意性示出了根据本申请的一个实施例的文本内容的衍生装置的框图;
图18示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本申请将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本申请的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本申请的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本申请的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
语音技术(Speech Technology)的关键技术有自动语音识别技术(ASR)和语音合成技术(TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉,是未来人机交互的发展方向,其中语音成为未来最被看好的人机交互方式之一。自然语言处理(NatureLanguage processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
本申请实施例中通过基于语音技术和自然语言处理技术可以对原始文本内容进行处理,得到原始文本内容对应的衍生文本,例如,基于原有的故事生成相关的衍生故事,或者基于原有的话语生成相关的衍生话语语音等等。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
本申请实施例提供的方案涉及人工智能的语音技术、自然语言处理以及机器学习等技术,具体通过如下实施例进行说明:
图1示出了可以应用本申请实施例的技术方案的示例性系统架构的示意图。
如图1所示,系统架构可以包括终端设备(如图1中所示智能手机101、平板电脑102和便携式计算机103中的一种或多种,当然也可以是台式计算机、车载计算机等等)、网络104和服务器105。网络104用以在终端设备和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线通信链路、无线通信链路等等。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。比如服务器105可以是多个服务器组成的服务器集群等。
用户可以使用终端设备通过网络104与服务器105交互,以接收或发送消息等。服务器105可以是提供各种服务的服务器。例如用户利用终端设备向服务器105上传了原始文本内容和原始文本内容中原始结尾对应的反事实结尾。服务器105获取原始文本内容,基于原始文本内容以及与原始条件相对应的反事实条件,从原始结尾中识别出与原始条件相关的因果内容;基于原始结尾以及原始结尾中的因果内容,确定表示原始结尾的文本架构的结尾框架;基于前提、反事实条件以及结尾框架构成的序列,生成原始结尾对应的反事实结尾。
上述方案,基于获取到的原始文本内容和原始条件相对应的反事实条件,从原始文本内容中的原始结尾中识别出与原始条件相关的因果内容,之后基于原始结尾以及其中的因果内容,确定表示原始结尾的文本架构的结尾框架,以在之后基于前提、反事实条件以及结尾框架构成的序列,生成原始结尾对应的、与因果内容之间存在逻辑关系的反事实结尾,本实施例中生成的反事实结尾在原始结尾的基础上,基于原始文本内容中的因果内容生成,在因果内容与原始文本内容一致性的前提下,使得生成的反事实结尾更加符合因果逻辑,增加表达的流畅性。
需要说明的是,本申请实施例所提供的文本内容的衍生方法一般由服务器105执行,相应地,文本内容的衍生装置一般设置于服务器105中。但是,在本申请的其它实施例中,终端设备也可以与服务器具有相似的功能,从而执行本申请实施例所提供的文本内容的衍生的方案。
图2为本申请实施例提供的一种实现文本内容衍生的系统。
如图2所示,手机206为执行主体,其中,便携式计算机201、平板电脑202、服务器203、云平台205中都用于存储原始文本内容,或者用于存储基于原始文本内容生成的衍生文本。本实施例中手机206可以通过网络204从便携式计算机201、平板电脑202或者服务器203中获取到原始文本内容,并基于原始文本内容以及与原始条件相对应的反事实条件,从原始结尾中识别出与原始条件相关的因果内容;基于原始结尾以及原始结尾中的因果内容,确定表示原始结尾的文本架构的结尾框架;基于前提、反事实条件以及结尾框架构成的序列,生成原始结尾对应的反事实结尾。
以下对本申请实施例的技术方案的实现细节进行详细阐述:
图3示出了根据本申请的一个实施例的文本内容的衍生方法的流程图,该文本内容的衍生方法可以由服务器来执行,该服务器可以是图3中所示的服务器。参照图3所示,该文本内容的衍生方法至少包括步骤S310至步骤S340,详细介绍如下:
在步骤S310中,获取原始文本内容,原始文本内容包括前提、原始条件、原始结尾。
在本申请的一个实施例中,先获取原始文本内容,本申请实施例中的原始文本内容包括前提、原始条件和原始结尾,除此之外,还可以包括修释定语、原始文本内容的标识等信息。
示例性的,如图4和图5所示,本实施例中的原始文本内容包括前提、原始条件和原始结尾。其中,前提为“玛丽喜欢花”、原始条件为“有一天她去了公园”、原始结尾为“她开心的嗅着田野里花儿的芬芳。她摘了一些花并把他们带回家。她把这些花儿放在有水的花瓶里”。进一步的,本申请实施例中为了体现出原始文本内容中的因果关系,将在原始条件中,“公园”为原始条件中的关键词,“田野”和“摘”为原始结尾中的关键词,以通过这种方式,体现出文本内容之间的关联性和文本逻辑。
在步骤S320中,基于原始文本内容以及与原始条件相对应的反事实条件,从原始结尾中识别出与原始条件相关的因果内容。
在本申请的一个实施例中,本实施例中获取到原始文本内容之后,基于原始文本内容中的前提、原始条件和原始结尾,以及与原始条件相对应的反事实条件,从原始结尾中识别出与原始条件相关的因果内容。
具体的,本实施例中的反事实条件用于表示与原始条件相对应的条件,例如,反事实条件中的部分元素与原始条件中的元素不同,或者其他语言要素不同等等。
示例性的,原始条件为“有一天她去了公园”,其对应的反事实条件为“有一天她去了花店”。本实施例中的反事实条件可以为直接获取到的,也可以是基于原始条件生成的。具体的生成过程为,从原始条件中确定可替换的元素,将该可替换的元素替换为其它的备选元素,进而便可以得到反因果条件。
具体的,本实施例中在从原始结尾中识别因果内容时,可以基于原始文本内容中的前提、原始条件、原始结尾,以及获取到的反事实条件进行预测,进而确定原始结尾中的因果内容,便于之后基于因果内容生成确定结尾的架构,提高结尾与条件之间的逻辑关联关系。
如图6所示,本实施例中获取到原始文本内容为:“玛丽喜欢花,有一天她去了公园。她开心的嗅着田野里花儿的芬芳。她摘了一些花并把他们带回家。她把这些花儿放在有水的花瓶里”。其中包括了前提p:前提为“玛丽喜欢花”、原始条件为“有一天她去了公园”、原始结尾为“她开心的嗅着田野里花儿的芬芳。她摘了一些花并把他们带回家。她把这些花儿放在有水的花瓶里”。结合反事实条件“有一天她去了花店”,便可以确定原始结尾中的因果内容为“田野、摘”。
在步骤S330中,基于原始结尾以及原始结尾中的因果内容,确定表示原始结尾的文本架构的结尾框架。
在本申请的一个实施例中,在确定了原始结尾中的因果内容之后,将原始结尾中的因果内容进行删除、或者通过其它的设定标识对因果内容进行替换,确定表示原始结尾的文本架构的结尾框架。
在本申请的一个实施例中,可以通过设定标识对原始结尾中的因果内容进行替换,确定表示原始结尾的文本架构的结尾框架。其中,设定标识可以为空格、回车等等,也可以为其它的字符标识等等。
如图7所示,在确定原始结尾中的因果内容为“田野、摘”之后,通过空格将因果内容代替。之后,得到原始结尾对应的结尾框架为“她开心的嗅着___里花儿的芬芳。她__了一些花并把他们带回家。她把这些花儿放在有水的花瓶里”。
通过上述生成结尾框架的方式,可以得到原始文本内容中固定的结尾内容,进而可以基于结尾框架来得到与原文本内容相关的衍生结尾。
在步骤S340中,基于前提、反事实条件以及结尾框架构成的序列,生成原始结尾对应的反事实结尾。
在本申请的一个实施例中,在生成原始结尾的结尾框架之后,对前提、反事实条件以及结尾框架构成的序列进行编码,生成原始文本内容对应的衍生文本的编码序列,即原始文本内容对应的衍生文本。本实施例中的衍生文本用于表示原始文本内容相关的文本,衍生文本可以用做数据库的语料信息等等;之后基于编码序列进行解码,生成原始结尾对应的反事实结尾。
本实施例中的反事实结尾是在原始结尾的结尾框架的基础上,生成的与原始结尾内容相关,但不同于原始结尾的内容。通过基于对前提、反事实条件以及结尾框架生成原始结尾对应的反事实结尾,使得得到的反事实结尾更加贴合原有文本内容的逻辑,增强文本内容的可读性。
上述方案,基于获取到的原始文本内容和原始条件相对应的反事实条件,从原始文本内容中的原始结尾中识别出与原始条件相关的因果内容,之后基于原始结尾以及其中的因果内容,确定表示原始结尾的文本架构的结尾框架,以在之后基于前提、反事实条件以及结尾框架构成的序列,生成原始结尾对应的、与因果内容之间存在逻辑关系的反事实结尾,本实施例中生成的反事实结尾在原始结尾的基础上,基于原始文本内容中的因果内容生成,在因果内容与原始文本内容一致性的前提下,使得生成的反事实结尾更加符合因果逻辑,增加表达的流畅性。
在本申请的一个实施例中,基于原始文本内容以及与原始条件相对应的反事实条件生成反事实结尾的过程分为骨架阶段Sketch和改制阶段Customize两个阶段。其中,在Sketch阶段中,通过基于改制的双向编码表示(Bidirectional Encoder Representationsfrom Transformers,BERT)做序列标注,预测原始结尾中哪些词语是因果内容,哪些是背景内容,将因果内容替换为空格后,就得到了结尾框架。在Customize阶段,将前提、反事实条件与结尾框架作为输入,利用生成式预训练模型(Generative Pre-Training 2,GPT-2)生成反事实故事结尾。具体说明如下:
在本申请的一个实施例中,步骤S320中基于原始文本内容以及与原始条件相对应的反事实条件,从原始结尾中识别出与原始条件相关的因果内容的过程,包括步骤S3210~步骤S3230,详细说明如下:
步骤S3210,对原始文本内容进行格式化,生成原始文本内容对应的文本序列;
步骤S3220,在文本序列中前提、原始条件、原始结尾以及与原始条件相对应的反事实条件分别对应的位置处添加设定的文本标识,生成标记序列;其中,文本标识用于表示前提、原始条件、原始结尾以及反事实条件分别对应的属性信息;
步骤S3230,对标记序列中的原始结尾的构成进行识别,确定原始结尾中与原始条件相关的因果内容。
故事结尾可以被分为两部分,背景内容和因果内容,这两个部分分别和故事的前提和条件是相关的。区分开背景内容和因果内容是这个阶段的目标。为了提取适当的结尾框架,将其建模为序列标注任务,其中故事结尾中的每个单词都有一个标签来指示其是背景内容还是因果内容。借助预训练的BERT,可以为每个单词包含丰富的上下文信息。以BERT为基础结构和初始模型,将前提p,条件c,反事实条件c'和故事结局e连接起来作为输入上下文,并预测故事结局中哪些词是因果词。
进一步的,在得到因果内容之后,还可以通过因因果内容中的每个单词,通过应用分类任务的方式来微调原始BERT,以使得BERT模型更加精确。
具体的,如图9所示,本实施例中的Sketch阶段包括三个步骤:输入格式化、序列标记以及表达。其中,输入格式化步骤用于将原始文本内容转换为输入序列。为了帮助BERT区分故事的不同部分,在它们之间添加了一些设定的文本标识,标记为[·]。例如,[PRE]表示前提,[CON1]表示原始文本条件,[CON2]表示反事实条件,[END]表示原始结尾。因此,得到的标记序列可以表示为S={[PRE]p[CON1]c[CON2]c'[END]e},其中,p、c、c'、e分别对应于具体的文本内容。对于表达步骤,将输入序列S输入BERT模型中,得到最后一层表达R={r1,···,rNr},其中ri表示输入序列中第i个单词,Nr表示输入序列的长度。
在本申请的一个实施例中,如图10所示,文本内容的衍生方法还包括对全连接网络的训练过程,主要包括如下步骤S3240~步骤S3280,详细说明如下:
步骤S3240,获取第一文本内容样本和第二文本内容样本,其中第一文本内容样本中的第一结尾和第二文本内容样本中的第二结尾具有相同的背景内容,背景内容包括与文本内容样本中的原始条件无关的内容;
步骤S3250,基于第一文本内容样本生成第一序列,基于第二文本内容样本生成第二序列;
步骤S3260,通过预设的全连接网络分别对第一序列中的第一结尾和第一序列中的第二结尾进行识别,确定其中的预测背景内容和预测因果内容;
步骤S3270,将第一结尾与第二结尾进行对比,确定实际背景内容和实际因果内容;
步骤S3280,基于预测背景内容与实际背景内容之间的第一对比结果,以及预测因果内容和实际因果内容之间的第二对比结果,更新全连接网络的参数。
本申请实施例中,在对全连接网络进行训练的过程中,先获取第一文本内容样本和第二文本内容样本,其中第一文本内容样本中的第一结尾和第二文本内容样本中的第二结尾具有相同的背景内容,背景内容包括与文本内容样本中的原始条件无关的内容,之后基于第一文本内容样本生成第一序列,基于第二文本内容样本生成第二序列,其中分别包括一个原始的结尾和反事实的结尾对{e,e'},可以通过使用它们之间的最长公共子序列来近似地表示骨架。两个结尾的最大共同部分被视为背景内容e_bg,而每个结尾中的其余部分分别被视为原始结尾(e_causal)和反事实结尾(e'_causal)的因果内容。这样,可以获得两个结尾中每个单词的标签,并在Sketch阶段使用它们来训练模型,预测得到结尾中的预测背景内容和预测因果内容,之后将基于预测背景内容与实际背景内容之间的第一对比结果,以及预测因果内容和实际因果内容之间的第二对比结果,更新全连接网络的参数。
具体的,在步骤S3280中基于预测背景内容与实际背景内容之间的第一对比结果,以及预测因果内容和实际因果内容之间的第二对比结果,更新全连接网络的参数的过程,具体包括:将预测背景内容与实际背景内容进行对比,生成第一对比结果;将预测因果内容和实际因果内容进行对比,生成第二对比结果;基于第一对比结果对应的背景内容权值、以及第二对比结果对应的因果内容权值对第一对比结果和第二对比结果加权求和得到全连接网络的损失值;基于全连接网络的损失值,更新全连接网络的参数。
如图11所示,本实施例中在Sketch阶段,在对原始结尾进行识别之后,将识别得到的因果内容中的因果词标记为0,背景内容中的背景词标记为1,故事结尾中的每个单词都有其对应的标签。然后,以原始故事为例,前提p,条件c和c',以及原始结尾e被用作序列标注任务的BERT的输入序列。在反事实故事生成任务中,为了使得数据标注时的改变尽量小,因此,得到的因果词要比背景词少得多。因此,采用加权的交叉熵损失,并为因果词分配更大的权重,以克服数据不平衡问题,具体的计算损失值的公式如下:
其中,Ne~Nr表示原始结尾的长度,λ是控制两类标签的损失的权重;log p1(li=0|S)和log p1(li=1|S)原始结尾中的每个单词对应于因果内容的概率分布。本实施例中通过上述计算损失值的方式,可以平衡因果内容和背景内容的分布,提高全连接网络的训练精度。
步骤S3230中对标记序列中的原始结尾的构成进行识别,确定原始结尾中与原始条件相关的因果内容,包括步骤S3231~S3233,详细说明如下:
步骤S3231,基于预设的全连接网络,对文本序列中的原始结尾进行全连接处理,生成原始结尾对应的向量;
步骤S3232,对向量进行逻辑回归处理,确定原始结尾中的单词对应于因果内容的概率分布;
步骤S3233,基于概率分布,从原始结尾的单词中确定因果内容。
在本申请一实施例中,在序列标注步骤中,只有原始结尾的部分被输入到一个全连接层中,该层将每个表达投影到二维向量中。此外,应用逻辑回归函数,例如softmax函数,来获得原始结尾中的每个单词对应于因果内容的概率分布:
p1(li|S)=softmax(Wri+b)
其中,Wri和b是全连接层的可训练参数,S表示原始文本;
其中,Ne表示故事结尾e的开始单词索引,e_causal表示原始结尾中的因果单词索引的集合。由于原始结尾和反事实结尾是对称的,可以互换它们,并使用反事实条件和结尾作为原始结尾,因此可将训练示例加倍,进而增强训练效果。
步骤S340中基于前提、反事实条件以及结尾框架构成的序列,生成原始结尾对应的反事实结尾的过程具体包括步骤S3410~步骤S3430:
步骤S3410,获取前提、反事实条件、以及结尾框架分别对应的文本标识;
步骤S3420,基于前提、反事实条件、以及结尾框架分别对应的文本标识,对前提、反事实条件、以及结尾框架进行编码,得到衍生文本序列对应的衍生文本内容;
步骤S3430,基于解码器对衍生文本内容进行解码,生成原始结尾对应的反事实结尾。
如图13所示,在本实施例的Customize阶段中,基于结尾骨架k完成填空任务,以生成与反事实条件一致的反事实结尾。本实施例中获取前提、反事实条件、以及结尾框架分别对应的文本标识,即[PRE]、[CON]、[SKE];之后基于前提、反事实条件、以及结尾框架分别对应的文本标识,对前提、反事实条件、以及结尾框架进行编码,得到衍生文本序列对应的衍生文本内容,即将前提p,反事实条件c'和骨架k串联在一起,并通过特殊标记隔开,所得到的衍生文本序列为{[PRE]p[CON]c'[SKE]k[END]},串接在一起的内容被用作GPT2模型的输入序列,其目标是真实的反事实结尾e’。最后基于解码器对衍生文本内容进行解码,生成原始结尾对应的反事实结尾。
具体的,步骤S3430中基于解码器对衍生文本内容进行解码,生成衍生文本序列对应的反事实结尾,包括步骤S3431~步骤S3434,详细说明如下:
步骤S3431,基于解码器对衍生文本内容进行解码,生成反事实条件在衍生文本序列的结尾框架中对应的待选因果内容;
步骤S3432,基于反事实条件与待选因果内容之间的对应关系,确定待选因果内容对应的分布概率;
步骤S3433,基于分布概率,从待选因果内容中选取出衍生因果内容;
步骤S3434,将衍生因果内容和结尾框架合并,生成与原始结尾相对的反事实结尾。
在本实施例中,衍生序列中的符号[END]可以视为解码过程的开始符号,然后通过GPT2模型,基于反事实条件与待选因果内容之间的对应关系,确定待选因果内容对应的分布概率为:
p2(yt|x,y<t)=GPT2(x,y<t)
其中,y_t用于表示原始结尾e_t或反事实结尾e'_t中的第t个词,y<t表示文本标识[END]和第t个词语之间的词,x表示文本标识[END]前的词,GPT2(z)是获得以z作为输入的GPT2的当前步输出的分布的函数。通过上述方式计算得到分布概率,之后选出分布概率较大或者最大时对应的衍生因果内容。最后将衍生因果内容和结尾框架合并,生成与原始结尾相对的反事实结尾,提高反事实结尾与反事实因果之间的关联性。
进一步的,本实施例中对解码器的训练过程具体过程如下:获取待训练的序列样本以及序列样本对应的实际反事实结尾;基于设定的解码器对序列样本进行解码,生成序列样本对应的预测反事实结尾;基于实际反事实结尾与预测反事实结尾之间的对比结果,确定解码器的损失函数;基于损失函数,更新解码器中的参数。
具体的,在训练过程中,为一个原始故事和反事实故事对构建两个训练实例,例如{[PRE]p[CON]c'[SKE]k[END]}用于生成反事实结尾e',{{PRE]p[CON]c[SKE]k[END]}用于生成原始结尾e。在此阶段,使用[CON]标记原始条件和反事实条件,使用[END]标记原始结尾和反事实结尾。通过这种方式,GPT2模型可以学习从骨架复制背景单词,然后在一种条件的指导下在空中生成合适的单词而不会被另外一种条件干扰。
在Customize阶段中计算损失时,通过如下公式计算得到:
其中,e′t是反事实词尾的第t个单词,e′<t代表第t个词之前的词,m是反事实词的长度。
本实施例中利用原始故事与反事实故事中的因果结构,将原始结尾划分为因果内容与背景内容。在条件改变时,结尾中保持不变的部分称之为背景内容,随条件变化而发生变化的部分称之为因果内容。本发明提出的两阶段反事实故事生成模型在第一阶段通过BERT序列标注来移除原始结尾中的因果内容,得到结尾框架(背景内容),在第二阶段通过GPT-2基于反事实条件填充骨架,进而得到完整的反事实故事结尾。
如图14所示,本实施例中通过上述方式,基于原始故事中的信息,生成与原始故事相似的衍生文本,即反事实故事。其中,反事实故事中包括了原始故事的前提和结尾框架,但是改变了原始故事中的反事实条件,并基于反事实条件生成了其对应的反事实结尾,利用故事的前提、条件、结尾中不同部分之间的因果关系,在第一阶段提取结尾框架,第二阶段基于反事实条件填充骨架,有效地避免了现有方法容易复制原有的故事结尾从而导致不一致的问题,提高了生成的反事实结尾与反事实条件的一致性和逻辑关联性,并增加了反事实故事的连贯性和流畅性。
如图15所示,本实施例中在生成衍生文本内容之后,可以将衍生文本内容与原始文本内容进行对比,确定衍生文本内容在原始文本内容的基础上,发生变化的目标文本部分;基于设定的显示方式,在界面中显示衍生文本内容以及其中的目标文本部分;响应于针对目标文本部分触发的修改指令,对衍生文本内容进行修改。
其中,设定的显示方式可以为加粗、或者通过其它的颜色显示发生变化的目标文本部分。
上述方案通过增加人为修改的过程,可以避免生成的衍生文本出现错误或者歧义,进而通过人为修改的方式增加衍生文本的准确性和可读性。
如图16所示,本实施例中的原始文本内容包括语音音频对应的语音文本,通过基于语音文本生成至少一个衍生文本,并将基于语音文本生成的衍生文本进行音频转化,生成衍生文本对应的衍生语音音频;将至少一个衍生语音音频进行压缩之后,基于语音音频的标识,存储衍生语音音频至语料库中。
在智能问答的应用场景中,先获取用户触发的前提语句;将前提语句与语料库中的语音音频进行匹配,确定前提语句对应的目标语音音频;将目标语音音频作为前提语句对应的答复语句,播放答复语句。通过上述方式,可以基于预先构建的、包含丰富的语音文本的语料库,进行智能问答,提高文本数据和语音数据的应用率。
以下介绍本申请的装置实施例,可以用于执行本申请上述实施例中的文本内容的衍生方法。可以理解的是,装置可以是运行于计算机设备中的一个计算机程序(包括程序代码),例如该装置为一个应用软件;该装置可以用于执行本申请实施例提供的方法中的相应步骤。对于本申请装置实施例中未披露的细节,请参照本申请上述的文本内容的衍生方法的实施例。
图17示出了根据本申请的一个实施例的文本内容的衍生装置的框图。
参照图17所示,根据本申请的一个实施例的文本内容的衍生装置1700,包括:获取单元1710,用于获取原始文本内容,所述原始文本内容包括前提、原始条件、原始结尾;识别单元1720,用于基于所述原始文本内容以及与所述原始条件相对应的反事实条件,从所述原始结尾中识别出与所述原始条件相关的因果内容;框架单元1730,用于基于所述原始结尾以及所述原始结尾中的所述因果内容,确定表示所述原始结尾的文本架构的结尾框架;结尾单元1740,用于基于所述前提、所述反事实条件以及所述结尾框架构成的序列,生成所述原始结尾对应的反事实结尾。
在本申请的一些实施例中,基于前述方案,所述识别单元1720包括:
格式单元,用于对所述原始文本内容进行格式化,生成所述原始文本内容对应的文本序列;标识单元,用于在所述文本序列中与所述前提、所述原始条件、所述原始结尾以及与所述原始条件相对应的反事实条件分别对应的位置处添加设定的文本标识,生成标记序列;其中,所述文本标识用于表示所述前提、所述原始条件、所述原始结尾以及所述反事实条件分别对应的属性信息;因果单元,用于对所述标记序列中的原始结尾的构成进行识别,确定所述原始结尾中与所述原始条件相关的因果内容。
在本申请的一些实施例中,基于前述方案,所述因果单元配置为:基于预设的全连接网络,对所述文本序列中的原始结尾进行全连接处理,生成所述原始结尾对应的向量;对所述向量进行逻辑回归处理,确定所述原始结尾中的单词对应于所述因果内容的概率分布;基于所述概率分布,从所述原始结尾的单词中确定所述因果内容。
在本申请的一些实施例中,基于前述方案,所述文本内容的衍生装置1700还包括:样本获取单元,用于获取第一文本内容样本和第二文本内容样本,其中所述第一文本内容样本中的第一结尾和所述第二文本内容样本中的第二结尾具有相同的背景内容,所述背景内容包括与文本内容样本中的原始条件无关的内容;序列单元,用于基于所述第一文本内容样本生成第一序列,基于所述第二文本内容样本生成第二序列;预测单元,用于通过预设的全连接网络分别对所述第一序列中的第一结尾和所述第一序列中的第二结尾进行识别,确定其中的预测背景内容和预测因果内容;对比单元,用于将所述第一结尾与所述第二结尾进行对比,确定实际背景内容和实际因果内容;更新单元,用于基于所述预测背景内容与所述实际背景内容之间的第一对比结果,以及预测因果内容和所述实际因果内容之间的第二对比结果,更新所述全连接网络的参数。
在本申请的一些实施例中,基于前述方案,所述更新单元用于:将所述预测背景内容与所述实际背景内容进行对比,生成所述第一对比结果;将所述预测因果内容和所述实际因果内容进行对比,生成所述第二对比结果;基于所述第一对比结果对应的背景内容权值、以及所述第二对比结果对应的因果内容权值对所述第一对比结果和第二对比结果加权求和得到所述全连接网络的损失值;基于所述全连接网络的损失值,更新所述全连接网络的参数。
在本申请的一些实施例中,基于前述方案,所述框架单元1730用于:通过设定标识对所述原始结尾中的所述因果内容进行替换,确定表示所述原始结尾的文本架构的结尾框架。
在本申请的一些实施例中,基于前述方案,所述结尾单元1740包括:标识单元,用于获取所述前提、所述反事实条件、以及所述结尾框架分别对应的文本标识;编码单元,用于基于所述前提、所述反事实条件、以及所述结尾框架分别对应的文本标识,对所述前提、所述反事实条件、以及所述结尾框架进行编码,得到衍生文本序列对应的衍生文本内容;解码单元,用于基于解码器对所述衍生文本内容进行解码,生成所述原始结尾对应的反事实结尾。
在本申请的一些实施例中,基于前述方案,所述解码单元配置1700为:基于解码器对所述衍生文本内容进行解码,生成所述反事实条件在所述衍生文本序列的结尾框架中对应的待选因果内容;基于所述反事实条件与待选因果内容之间的对应关系,确定所述待选因果内容对应的分布概率;基于所述分布概率,从所述待选因果内容中选取出衍生因果内容;将所述衍生因果内容和所述结尾框架合并,生成与所述原始结尾相对的反事实结尾。
在本申请的一些实施例中,基于前述方案,所述文本内容的衍生装置1700还用于:获取待训练的序列样本以及所述序列样本对应的实际反事实结尾;基于设定的解码器对所述序列样本进行解码,生成所述序列样本对应的预测反事实结尾;基于所述实际反事实结尾与所述预测反事实结尾之间的对比结果,确定所述解码器的损失函数;基于所述损失函数,更新所述解码器中的参数。
在本申请的一些实施例中,基于前述方案,所述文本内容的衍生装置1700还用于:将所述衍生文本内容与所述原始文本内容进行对比,确定所述衍生文本内容在所述原始文本内容的基础上,发生变化的目标文本部分;基于设定的显示方式,在界面中显示所述衍生文本内容以及其中的目标文本部分;响应于针对所述目标文本部分触发的修改指令,对所述衍生文本内容进行修改。
在本申请的一些实施例中,基于前述方案,所述原始文本内容包括语音音频对应的语音文本;所述文本内容的衍生装置还用于:将基于所述语音文本生成的衍生文本进行音频转化,生成所述衍生文本对应的衍生语音音频;基于所述语音音频的标识,存储所述衍生语音音频至语料库中。
在本申请的一些实施例中,基于前述方案,所述原始文本内容包括语音音频对应的语音文本;所述文本内容的衍生装置还用于:获取用户触发的前提语句;将所述前提语句与所述语料库中的语音音频进行匹配,确定所述前提语句对应的目标语音音频;将所述目标语音音频作为所述前提语句对应的答复语句,播放所述答复语句。
图18示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。
需要说明的是,图18示出的电子设备的计算机系统1800仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图18所示,计算机系统1800包括中央处理单元(Central Processing Unit,CPU)1801,其可以根据存储在只读存储器(Read-Only Memory,ROM)1802中的程序或者从储存部分1808加载到随机访问存储器(Random Access Memory,RAM)1803中的程序而执行各种适当的动作和处理,例如执行上述实施例中所述的方法。在RAM 1803中,还存储有系统操作所需的各种程序和数据。CPU 1801、ROM 1802以及RAM 1803通过总线1804彼此相连。输入/输出(Input/Output,I/O)接口1805也连接至总线1804。
以下部件连接至I/O接口1805:包括键盘、鼠标等的输入部分1806;包括诸如阴极射线管(Cathode Ray Tube,CRT)、液晶显示器(Liquid Crystal Display,LCD)等以及扬声器等的输出部分1807;包括硬盘等的储存部分1808;以及包括诸如LAN(Local AreaNetwork,局域网)卡、调制解调器等的网络接口卡的通信部分1809。通信部分1809经由诸如因特网的网络执行通信处理。驱动器1810也根据需要连接至I/O接口1805。可拆卸介质1811,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1810上,以便于从其上读出的计算机程序根据需要被安装入储存部分1808。
特别地,根据本申请的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本申请的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的计算机程序。在这样的实施例中,该计算机程序可以通过通信部分1809从网络上被下载和安装,和/或从可拆卸介质1811被安装。在该计算机程序被中央处理单元(CPU)1801执行时,执行本申请的系统中限定的各种功能。
需要说明的是,本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的计算机程序。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的计算机程序可以用任何适当的介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。其中,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的单元也可以设置在处理器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各种可选实现方式中提供的方法。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该电子设备执行时,使得该电子设备实现上述实施例中所述的方法。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本申请实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本申请实施方式的方法。
本领域技术人员在考虑说明书及实践这里公开的实施方式后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims (12)

1.一种文本内容的衍生方法,其特征在于,包括:
获取原始文本内容,所述原始文本内容包括前提、原始条件、原始结尾;
对所述原始文本内容进行格式化,生成所述原始文本内容对应的文本序列;
在所述文本序列中与所述前提、所述原始条件、所述原始结尾以及与所述原始条件相对应的反事实条件分别对应的位置处添加设定的文本标识,生成标记序列;其中,所述文本标识用于表示所述前提、所述原始条件、所述原始结尾以及所述反事实条件分别对应的属性信息;
对所述标记序列中的原始结尾的构成进行识别,确定所述原始结尾中与所述原始条件相关的因果内容;
通过设定标识对所述原始结尾中的所述因果内容进行替换,确定表示所述原始结尾的文本架构的结尾框架;
获取所述前提、所述反事实条件、以及所述结尾框架分别对应的文本标识;
基于所述前提、所述反事实条件、以及所述结尾框架分别对应的文本标识,对所述前提、所述反事实条件、以及所述结尾框架进行编码,得到衍生文本序列对应的衍生文本内容;
基于解码器对所述衍生文本内容进行解码,生成所述原始结尾对应的反事实结尾。
2.根据权利要求1所述的方法,其特征在于,对所述标记序列中的原始结尾的构成进行识别,确定所述原始结尾中与所述原始条件相关的因果内容,包括:
基于预设的全连接网络,对所述文本序列中的原始结尾进行全连接处理,生成所述原始结尾对应的向量;
对所述向量进行逻辑回归处理,确定所述原始结尾中的单词对应于所述因果内容的概率分布;
基于所述概率分布,从所述原始结尾的单词中确定所述因果内容。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取第一文本内容样本和第二文本内容样本,其中所述第一文本内容样本中的第一结尾和所述第二文本内容样本中的第二结尾具有相同的背景内容,所述背景内容包括与文本内容样本中的原始条件无关的内容;
基于所述第一文本内容样本生成第一序列,基于所述第二文本内容样本生成第二序列;
通过预设的全连接网络分别对所述第一序列中的第一结尾和所述第一序列中的第二结尾进行识别,确定其中的预测背景内容和预测因果内容;
将所述第一结尾与所述第二结尾进行对比,确定实际背景内容和实际因果内容;
基于所述预测背景内容与所述实际背景内容之间的第一对比结果,以及预测因果内容和所述实际因果内容之间的第二对比结果,更新所述全连接网络的参数,所述全连接网络用于对所述标记序列中的原始结尾的构成进行识别,确定所述原始结尾中与所述原始条件相关的因果内容。
4.根据权利要求3所述的方法,其特征在于,基于所述预测背景内容与所述实际背景内容之间的第一对比结果,以及预测因果内容和所述实际因果内容之间的第二对比结果,更新所述全连接网络的参数,包括:
将所述预测背景内容与所述实际背景内容进行对比,生成所述第一对比结果;
将所述预测因果内容和所述实际因果内容进行对比,生成所述第二对比结果;
基于所述第一对比结果对应的背景内容权值、以及所述第二对比结果对应的因果内容权值对所述第一对比结果和第二对比结果加权求和得到所述全连接网络的损失值;
基于所述全连接网络的损失值,更新所述全连接网络的参数。
5.根据权利要求1所述的方法,其特征在于,基于解码器对所述衍生文本内容进行解码,生成所述原始结尾对应的反事实结尾,包括:
基于解码器对所述衍生文本内容进行解码,生成所述反事实条件在所述衍生文本序列的结尾框架中对应的待选因果内容;
基于所述反事实条件与待选因果内容之间的对应关系,确定所述待选因果内容对应的分布概率;
基于所述分布概率,从所述待选因果内容中选取出衍生因果内容;
将所述衍生因果内容和所述结尾框架合并,生成与所述原始结尾相对的反事实结尾。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
获取待训练的序列样本以及所述序列样本对应的实际反事实结尾;
基于设定的解码器对所述序列样本进行解码,生成所述序列样本对应的预测反事实结尾;
基于所述实际反事实结尾与所述预测反事实结尾之间的对比结果,确定所述解码器的损失函数;
基于所述损失函数,更新所述解码器中的参数。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
将所述衍生文本内容与所述原始文本内容进行对比,确定所述衍生文本内容在所述原始文本内容的基础上,发生变化的目标文本部分;
基于设定的显示方式,在界面中显示所述衍生文本内容以及其中的目标文本部分;
响应于针对所述目标文本部分触发的修改指令,对所述衍生文本内容进行修改。
8.根据权利要求1所述的方法,其特征在于,所述原始文本内容包括语音音频对应的语音文本;所述方法还包括:
将基于所述语音文本生成的衍生文本进行音频转化,生成所述衍生文本对应的衍生语音音频;
基于所述语音音频的标识,存储所述衍生语音音频至语料库中。
9.根据权利要求8所述的方法,其特征在于,所述方法还包括:
获取用户触发的前提语句;
将所述前提语句与所述语料库中的语音音频进行匹配,确定所述前提语句对应的目标语音音频;
将所述目标语音音频作为所述前提语句对应的答复语句,播放所述答复语句。
10.一种文本内容的衍生装置,其特征在于,包括:
获取单元,用于获取原始文本内容,所述原始文本内容包括前提、原始条件、原始结尾;
识别单元,用于对所述原始文本内容进行格式化,生成所述原始文本内容对应的文本序列;在所述文本序列中与所述前提、所述原始条件、所述原始结尾以及与所述原始条件相对应的反事实条件分别对应的位置处添加设定的文本标识,生成标记序列;其中,所述文本标识用于表示所述前提、所述原始条件、所述原始结尾以及所述反事实条件分别对应的属性信息;对所述标记序列中的原始结尾的构成进行识别,确定所述原始结尾中与所述原始条件相关的因果内容;
框架单元,用于通过设定标识对所述原始结尾中的所述因果内容进行替换,确定表示所述原始结尾的文本架构的结尾框架;
结尾单元,用于获取所述前提、所述反事实条件、以及所述结尾框架分别对应的文本标识;基于所述前提、所述反事实条件、以及所述结尾框架分别对应的文本标识,对所述前提、所述反事实条件、以及所述结尾框架进行编码,得到衍生文本序列对应的衍生文本内容;基于解码器对所述衍生文本内容进行解码,生成所述原始结尾对应的反事实结尾。
11.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至9中任一项所述的文本内容的衍生方法。
12.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1至9中任一项所述的文本内容的衍生方法。
CN202110164573.8A 2021-02-05 文本内容的衍生方法、装置、计算机可读介质及电子设备 Active CN113569539B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110164573.8A CN113569539B (zh) 2021-02-05 文本内容的衍生方法、装置、计算机可读介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110164573.8A CN113569539B (zh) 2021-02-05 文本内容的衍生方法、装置、计算机可读介质及电子设备

Publications (2)

Publication Number Publication Date
CN113569539A CN113569539A (zh) 2021-10-29
CN113569539B true CN113569539B (zh) 2025-04-04

Family

ID=

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1628298A (zh) * 2002-05-28 2005-06-15 弗拉迪米尔·叶夫根尼耶维奇·涅博利辛 综合从搜索系统中使用的文档中抽取知识的自学习系统的方法
CN112307726A (zh) * 2020-11-09 2021-02-02 浙江大学 因果去偏差模型指导的法院观点自动生成方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1628298A (zh) * 2002-05-28 2005-06-15 弗拉迪米尔·叶夫根尼耶维奇·涅博利辛 综合从搜索系统中使用的文档中抽取知识的自学习系统的方法
CN112307726A (zh) * 2020-11-09 2021-02-02 浙江大学 因果去偏差模型指导的法院观点自动生成方法

Similar Documents

Publication Publication Date Title
CN111143540B (zh) 智能问答方法、装置、设备及存储介质
CN111897933B (zh) 情感对话生成方法、装置及情感对话模型训练方法、装置
CN110162749B (zh) 信息提取方法、装置、计算机设备及计算机可读存储介质
CN111651557B (zh) 一种自动化文本生成方法、装置及计算机可读存储介质
CN112069302A (zh) 会话意图识别模型的训练方法、会话意图识别方法及装置
CN112100375B (zh) 文本信息生成方法、装置、存储介质及设备
CN113421551B (zh) 语音识别方法、装置、计算机可读介质及电子设备
US11036996B2 (en) Method and apparatus for determining (raw) video materials for news
CN111562915A (zh) 前端代码生成模型的生成方法和装置
CN108563622A (zh) 一种具有风格多样性的绝句生成方法及装置
CN113657105A (zh) 基于词汇增强的医学实体抽取方法、装置、设备及介质
CN111046674B (zh) 语义理解方法、装置、电子设备和存储介质
CN113836866B (zh) 文本编码方法、装置、计算机可读介质及电子设备
CN115599901A (zh) 基于语义提示的机器问答方法、装置、设备及存储介质
CN117034951A (zh) 基于大语言模型的具有特定语言风格的数字人
CN112199502B (zh) 基于情感的诗句生成方法及装置、电子设备和存储介质
CN114492661B (zh) 文本数据分类方法和装置、计算机设备、存储介质
CN113657092B (zh) 识别标签的方法、装置、设备以及介质
WO2025055581A1 (zh) 语音编码器的训练方法、装置、设备、介质及程序产品
CN112560487A (zh) 一种基于国产设备的实体关系抽取方法及系统
CN113569539B (zh) 文本内容的衍生方法、装置、计算机可读介质及电子设备
CN112749553B (zh) 视频文件的文本信息处理方法、装置和服务器
CN117034133A (zh) 一种数据处理方法、装置、设备和介质
CN113569539A (zh) 文本内容的衍生方法、装置、计算机可读介质及电子设备
CN114139535A (zh) 一种关键词造句方法、装置、计算机设备及可读介质

Legal Events

Date Code Title Description
PB01 Publication
SE01 Entry into force of request for substantive examination
GR01 Patent grant