CN111813989B - 信息处理方法、设备及存储介质 - Google Patents
信息处理方法、设备及存储介质 Download PDFInfo
- Publication number
- CN111813989B CN111813989B CN202010626789.7A CN202010626789A CN111813989B CN 111813989 B CN111813989 B CN 111813989B CN 202010626789 A CN202010626789 A CN 202010626789A CN 111813989 B CN111813989 B CN 111813989B
- Authority
- CN
- China
- Prior art keywords
- attention
- target
- information
- speech signal
- information related
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/63—Querying
- G06F16/632—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/68—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/683—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/01—Customer relationship services
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/60—Business processes related to postal services
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
- G10L15/144—Training of HMMs
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Library & Information Science (AREA)
- Economics (AREA)
- General Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Strategic Management (AREA)
- Databases & Information Systems (AREA)
- Marketing (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Development Economics (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Probability & Statistics with Applications (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Primary Health Care (AREA)
- Tourism & Hospitality (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明提供了一种信息处理方法、设备及存储介质,包括:首先获取语音信号;然后,根据语音信号和预先训练得到的注意力模型,获得该语音信号对应的与目标业务相关的信息,该注意力模型用于向后语音预测,是根据电信运营商话务特点和话务数据训练得到的,最后,呈现与目标业务相关的信息,以供用户进行选中搜索。本发明实施例通过注意力模型向后语音预测来获得语音信号对应的与目标业务相关的信息,并呈现与目标业务相关的信息供用户进行选中搜索,替代了话务人员自行获取用户意图,并手动搜索业务内容的实现方式,有效提高话务服人员的问题处理效率,提升服务质量。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种信息处理方法、设备及存储介质。
背景技术
随着科技和经济的高速发展,电信运营商的客服接待话务量也越来越大,这就要求话务人员处理问题的效率要有所提升。但在现有技术中,话务人员在接听用户电话时,需自行获取用户意图,然后在知识库中进行手动搜索来获取相应的业务内容,通过查看该业务内容帮助其解决用户提出的问题。发明人发现现有技术至少存在以下问题:
通过话务人员自行获取用户意图,并手动搜索业务内容,会导致话务人员的响应时间较长,从而降低话务人员的问题处理效率。
发明内容
本发明提供一种信息处理方法、设备及存储介质,可以有效提升话务服人员的问题处理效率。
第一方面,本发明提供一种信号处理方法,包括:
获取语音信号;
根据语音信号和预先训练得到的注意力模型,获得语音信号对应的与目标业务相关的信息,该注意力模型用于向后语音预测,该注意力模型是根据电信运营商话务特点和话务数据训练得到的;
呈现与目标业务相关的信息,以供用户进行选中搜索。
可选的,根据语音信号和预先训练得到的注意力模型,获得语音信号对应的与目标业务相关的信息,包括:
提取语音信号的频谱特征;
根据频谱特征和注意力模型,获得语音信号对应的与目标业务相关的信息。
可选的,根据频谱特征和注意力模型,获得语音信号对应的与目标业务相关的信息,包括:
根据频谱特征和注意力模型,获得语音信号对应的文本信息及目标文本在语音信号中的注意力影响度,文本信息包含该目标文本;
若目标文本在语音信号中的注意力影响度大于或等于预设注意力影响度,则根据目标文本生成语音信号对应的与目标业务相关的信息。
可选的,根据目标文本生成语音信号的与目标业务相关的信息,包括:
根据目标文本以及预设词库,生成不同目标文本间的注意力映射关系;
根据注意力映射关系以及词汇属性,生成语音信号对应的与目标业务相关的信息。
可选的,根据目标文本以及预设词库,生成不同目标文本间的注意力映射关系,可以包括:
获取目标文本对应的语音信号的相关信息,相关信息包括位置信息和发音信息中的至少一个;
根据相关信息以及预设词库,生成不同目标文本间的注意力映射关系。
可选的,提取语音信号的频谱特征,包括:
对语音信号进行频谱间隔分段处理;
提取频谱间隔分段处理后的数据的频谱特征。
可选的,根据目标文本以及预设词库,生成不同目标文本间的注意力映射关系,包括:
获取目标文本的原始信息,该原始信息是目标文本对应的语音信号的相关信息;
根据原始信息以及预设词库生成不同目标文本间的注意力映射关系。
可选的,该与目标业务相关的信息包括目标业务的名称。
第二方面,本发明提供一种信号处理设备,包括:
获取模块,用于获取语音信号;
信号处理模块,用于根据语音信号和预先训练得到的注意力模型,获得语音信号对应的与目标业务相关的信息,该注意力模型用于向后语音预测,注意力模型是根据电信运营商话务特点和话务数据训练得到的;
输出模块,用于呈现与目标业务相关的信息,以供用户进行选中搜索。
可选的,信号处理模块具体用于:
提取语音信号的频谱特征;
根据频谱特征和注意力模型,获得语音信号对应的与目标业务相关的信息。
可选的,信号处理模块还用于:
根据频谱特征和注意力模型,获得语音信号对应的文本信息及目标文本在语音信号中的注意力影响度,该文本信息包含该目标文本;
若目标文本在语音信号中的注意力影响度大于或等于预设注意力影响度,则根据目标文本生成语音信号对应的与目标业务相关的信息。
可选的,信号处理模块还用于:
根据目标文本以及预设词库,生成不同目标文本间的注意力映射关系;
根据注意力映射关系以及词汇属性,生成语音信号对应的与目标业务相关的信息。
可选的,信号处理模块在用于根据目标文本以及预设词库,生成不同目标文本间的注意力映射关系时,具体用于:
获取目标文本对应的语音信号的相关信息,相关信息包括位置信息和发音信息中的至少一个;
根据相关信息以及预设词库,生成不同目标文本间的注意力映射关系。
可选的,信号处理模块还用于:
对语音信号进行频谱间隔分段处理;
提取频谱间隔分段处理后的数据的频谱特征。
可选的,信号处理模块还用于:
获取目标文本的原始信息,该原始信息是该目标文本对应的语音信号的相关信息,该原始信息包括语音信号的发音信息、空间位置以及接收时间等。
根据原始信息以及预设词库生成不同目标文本间的注意力映射关系。
可选的,与目标业务相关的信息包括该目标业务的名称。
第三方面,本发明提供一种信号处理设备,包括:
存储器,用于存储程序指令;
处理器,用于调用并执行存储器中的程序指令,执行如第一方面任意一项所述的方法。
第四方面,本发明提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序;计算机程序被处理器执行时,实现如第一方面中任一项所述的方法。
本发明提供的信息处理方法、设备及存储介质,包括:首先获取语音信号;然后,根据语音信号和预先训练得到的注意力模型,获得该语音信号对应的与目标业务相关的信息,该注意力模型用于向后语音预测,是根据电信运营商话务特点和话务数据训练得到的,最后,呈现与目标业务相关的信息,以供用户进行选中搜索。本发明实施例通过利用注意力模型进行向后语音预测来获得语音信号对应的与目标业务相关的信息,并呈现与目标业务相关的信息以供用户进行选中搜索,从而替代了话务人员自行获取用户意图,并手动搜索业务内容的实现方式,有效提高话务服人员的问题处理效率,提升服务质量。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的信息处理方法的应用场景示例图;
图2为本发明一实施例提供的信息处理方法的流程图;
图3为本发明另一实施例提供的信息处理方法的流程图;
图4为本发明又一实施例提供的信息处理方法的流程图;
图5为本发明一实施例提供的信息处理设备的结构示意图;
图6为本发明另一实施例提供的信息处理设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要理解的是,术语“上部”、“上”、“下”、“前”、“后”等指示的方位或者位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或者暗示所指的装置或者元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。在发明的描述中,“多个”的含义是两个或两个以上,除非是另有精确具体地规定。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例,例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些产品或设备固有的其它步骤或单元。
描述包括对形成详细描述的一部分的附图的参考。附图示出了根据示例性实施方式的图示。在本文中也可被称为“示例”的这些实施方式被足够详细地描述,以使本领域中的技术人员能够实践本文所描述的所要求保护的主题的实施方式。在不偏离所要求保护的主题的范围和精神的情况下,可组合实施方式,可使用其它实施方式,或可做出结构、逻辑和电气改变。应理解的是,本文中所描述的实施方式并不旨在限制主题的范围,而是使本领域中的技术人员能够实践、制作和/或使用该主题。
通常话务人员在接听用户电话时的信息处理方案是,通过话务人员自行获取用户意图,然后在知识库中进行手动搜索来获取相应的业务内容,通过查看该业务内容帮助其解决用户提出的问题。该现有方案中,由于电信运营商的客服接待话务量巨大,手动搜索过程不仅会使话务人员分心,而且会会导致话务人员的响应时间较长,从而降低话务人员的问题处理效率,降低服务质量。
基于上述问题,本发明实施例提供一种信息处理方法、设备及存储介质,通过注意力模型进行向后语音预测来获得语音信号对应的与目标业务相关的信息,呈现与目标业务相关的信息以供用户进行选中搜索,从而达到提高话务服人员的问题处理效率的效果,提升服务质量。
下面,通过具体的实施例,对本发明提供的信息处理方案进行详细说明。
图1为本发明提供的信息处理方法的应用场景示例图。如图1所示,该应用场景包括计算机101和服务器102。其中,服务器102中存储有通话过程中的语音信号;计算机101作为本发明实施例提供的信息处理方法的执行主体,是从服务器102获取语音信号的。需说明的是,本发明实施例以计算机作为执行主体为例进行说明,但本发明不以此为限制;另外,对于该应用场景中计算机101和服务器102的个数,也不以一个为限制。
在实际应用中,服务器102对通话过程中的语音信号的存储是实时的,计算机101获取语音信号也是实时的。一种示例中,当接通用户电话后,服务器102实时存储语音信号,计算机101实时获取当前通话过程中的语音信号。另一种示例中,接通用户电话后,服务器102实时存储语音信号,计算机101在接收到话务人员的启动信号后,开始获取当前通话过程中的语音信号。
其中,计算机101通过客服系统为话务人员提供业务信息、供话务人员选中搜索。客服系统具有业务信息搜索、信息推荐等功能。
图2是本发明一实施例提供的信息处理方法的流程图。本发明实施例提供信息处理方法,实施例的执行主体可以为计算机,也可以为其它设备,例如终端、处理器、服务器等具有信息处理功能的电子设备,本实施例此处不做特别限制。如图2所示,该信息处理方法包括以下步骤:
S201、获取语音信号。
其中,该语音信号可以根据实时情况确定,其可以为一个或多个需要处理的语音信号。语音信号可以包括以下任意一种:客户进行业务咨询、投诉的语音信号以及话务人员进行业务推荐、答复的语音信号等。
S202、根据语音信号和预先训练得到的注意力模型,获得语音信号对应的与目标业务相关的信息。
其中,注意力模型(Attention Model,简称AM)是由大量的处理单元互相连接而形成的复杂网络系统,它模拟人脑中的注意力机制,是一个高度复杂的非线性动力学习系统。特别适用于处理需要同时考虑许多因素和条件的、不精确和模糊的信息。
在本发明实施例中,上述的注意力模型是根据电信运营商话务特点和话务数据训练得到的,当获取到语音信号时,模仿人脑对语音对话的注意力分布,结合预先训练好的注意力模型对该语音信号进行分析,根据分析结果获得语音信号对应的与目标业务相关的信息。
S203、呈现与目标业务相关的信息,以供用户进行选中搜索。
在一种实施方式中,与目标业务相关的信息可以包括以下至少一种:语音意图及主要业务关键词等。示例性的,与目标业务相关的信息可以为:用户语音信号中包含的业务咨询、投诉信息以及话务人员语音信号中的包含的业务推荐、答复的信息。
在实际应用中,呈现与目标业务相关的信息的方式包括以下任意一种:呈现与目标业务相关的信息弹窗、语音播报与目标业务相关的信息以及发送业务相关的信息至客户端等。
本发明实施例中,获取语音信号,并根据语音信号和预先训练得到的注意力模型,获得语音信号对应的与目标业务相关的信息,然后呈现该与目标业务相关的信息,以供用户进行选中搜索。通过本方案,可以避免由于话务人员自行获取用户意图,并手动搜索业务内容导致的话务人员响应时间较长,问题处理效率低的问题,有效提升话务服人员的问题处理效率,提升话务人员的服务质量。
图3为本发明另一实施例提供的信息数理方法的流程图。如图3所示,在图2所示流程的基础上,其中S202可以进一步包括以下步骤:
S301、对语音信号进行频谱间隔分段处理。
在实际应用中,对语音信号进行频谱间隔分段处理,可以包括:对该语音信号进行分帧处理,生成该语音信号对应的多个数据帧,确定该多个数据帧中的非语音数据帧,然后基于非语音数据帧的位置确定语音信号的分段节点,对语音信号进行频谱间隔分段处理,得到分段测处理后的语音数据。
具体地,分帧处理,可以包括对语音信号进行加窗处理,随着窗口的向右移动,对加窗后的语音信号逐步展开分帧处理。
S302、提取频谱间隔分段处理后的数据的频谱特征。
进一步的,在对语音信号进行分段处理,得到分段处理后的数据后,提取该每段数据的特征参数,根据该特征参数构建每段数据的频谱特征。
S303、根据频谱特征和注意力模型,获得语音信号对应的文本信息及目标文本在语音信号中的注意力影响度,文本信息包含目标文本。
该实施例中,构建每段数据的频谱特征后,由声学模型确定每段数据的音素(英文:phoneme),将该音素输入注意力模型,从而确定每段数据集对应的文本信息以及目标文本在该语音信号中的注意力影响度。
进一步的,由声学模型确定每段数据的音素具体包括:将每段数据的频谱特征作为训练样本输入,采用隐马尔科夫算法(Hidden Markov Model,简称HMM)对语音信号进行分段处理,从而确定每段数据的音素。
其中,上述音素可以是组成各个语音的元素,是根据语言的自然属性划分出来的最小语言单元。可以依据音节的发音动作来分析,一个动作构成一个音素。对于汉语,音素可以分为元音和辅音,示例性的,“发”,由元音“f”和辅音“a”组成。在确定音素时,可以确定出音节中的声调(例如,阴平、阳平、上声、去声),也可以不识别音节中的声调。
隐马尔可夫模型是一种统计模型,它用来描述一个含有隐含未知参数的马尔可夫过程。它的状态不能直接观察到,但能通过观测向量序列观察到,每个观测向量都是通过某些概率密度分布表现为各种状态,每一个观测向量是由一个具有相应概率密度分布的状态序列产生。所以,隐马尔可夫模型是一个双重随机过程——具有一定状态数的隐马尔可夫链和显示随机函数集。
另外,除上述基于隐马尔可夫算法对语音信号进行分段处理外,还可以根据实际情况采用其它分段方式,例如基于词的n元语法模型,对语音进行分段处理,满足多种应用场景需要。
在一种实施方式中,确定每段数据的音素后,将音素输入注意力模型从而确定该语音信号对应的文本信息以及目标文本在该语音信号中的注意力影响度。
S304、若目标文本在语音信号中的注意力影响度大于或等于预设注意力影响度,则根据目标文本生成语音信号对应的与目标业务相关的信息。
进一步的,比较目标文本在语音信号中的注意力影响度与预设注意力影响度的大小,当目标文本在语音信号中的注意力影响度大于或等于预设注意力影响度时,分析对应的注意力影响度大于或等于预设注意力影响度的目标文本,根据该目标文本生成与语音信号对应的目标业务相关的信息。
其中,预设注意力影响度的大小可以是根据实际需求或历史经验进行设置的,或者也可以是一固定数值,对此本发明实施例不予限制。
在一种实现方式中,在利用注意力模型对语音信号进行分析时,当语音信号中出现高注意力引出因子时,开始从该高注意力引出因子处进行向后预测,从而获得语音信号对应的与目标业务相关的信息。其中,高注意力引出因子可以是根据实际需求或历史经验预先设定好的固定词。示例的,该高注意力引出因子可以是:咨询、办理、为什么、了解等词语。
仍以上为例,在检测到语音信号中出现“咨询、办理、为什么、了解”等高注意力引出因子时,结合向后语音预测方法,提取并分析高注意力引出因子后面出现的语音信号,从中获得语音信号对应的意图及主要业务关键词,从而获得语音信号对应的与目标业务相关的信息。
本发明实施例不仅能够有效提升话务服人员的问题处理效率,提升话务人员的服务质量;另外,在目标文本在语音信号中的注意力影响度大于或等于预设注意力影响度,才会根据目标文本生成语音信号对应的与目标业务相关的信息,只分析并提取出语音意图及主要业务关键词,从而减少不必要的短词汇处理,减少分析次数,提高实时分析速度。
图4为本发明又一实施例提供的信息数理方法的流程图,如图4所示,该实施例中的信号处理方法可以包括:
S401、获取语音信号。
其中,该步骤与图2所示实施例中S201类似,具体描述可参考如图2所示的实施例,此处不再赘述。
S402、对语音信号进行频谱间隔分段处理。
S403、提取频谱间隔分段处理后的数据的频谱特征。
S404、根据频谱特征和注意力模型,获得语音信号对应的文本信息及目标文本在语音信号中的注意力影响度,文本信息包含目标文本。
S405、若目标文本在语音信号中的注意力影响度大于或等于预设注意力影响度时,获取目标文本对应的语音信号的相关信息。
其中,相关信息可以包括位置信息和发音信息中的至少一个。
另需说明的是,S402至S405与图3所示实施例中S301至S304类似,具体描述可参考如图3所示的实施例,此处不再赘述。
S406、根据相关信息以及预设词库生成不同目标文本间的注意力映射关系。
在一种实施方式中,该步骤可以进一步包括:根据目标文本对应的语音信号的相关信息,确定目标文本的优先级;根据目标文本的优先级以及预设词库,生成不同目标文本间的注意力映射关系。更进一步地,根据目标文本对应的语音信号的相关信息,确定目标文本的优先级,可具体包括:根据发音信息以及该目标文本对应的语音信号的接收时间以及位置信息确定该目标文本的优先级。
其中,该预设词库是利用电信运营商词汇得到的。
S407、根据注意力映射关系以及词汇属性,生成语音信号对应的与目标业务相关的信息。
具体地,获取目标文本的词汇属性。其中,词汇属性可以包括以下至少一种:名词、代词以及动词等。
在一种实施方式中,获取词汇属性为名词的目标文本,根据该目标文本的注意力映射关系得出摘要信息;以及,获取词汇属性不是名词的目标文本,根据该目标文本的注意力映射关系生成意图短句;根据摘要信息以及意图短句,生成语音信号对应的与目标业务相关的信息。
本发明实施例中,通过获取目标文本对应的语音信号的相关信息,确定目标文本的优先级,然后根据目标文本的优先级以及预设词库生成目标文本间的注意力映射关系;最后,根据映射关系以及目标文本的词汇属性生成语音信号对应的与目标业务相关的信息。该实施例在有效提升话务服人员的问题处理效率,提升话务人员的服务质量的同时,还可以通过根据优先级确定注意力映射关系,来有效的提升语音预测的准确度。
图5为本发明一实施例提供的信息处理设备的结构示意图。参考图5,信息处理设备50包括:获取模块501、信号处理模块502以及输出模块503。
获取模块501,用于获取语音信号。
处理模块502,用于根据语音信号和预先训练得到的注意力模型,获得语音信号对应的与目标业务相关的信息。
输出模块503,用于呈现与目标业务相关的信息,以供用户进行选中搜索。
本实施例的信息处理设备,其中各模块的具体实现过程可参见上述方法实施例,其实现原理和技术效果类似,本实施例此处不再赘述。
可选的,信号处理模块具体用于:
提取语音信号的频谱特征;
根据频谱特征和注意力模型,获得语音信号对应的与目标业务相关的信息。
一些实施例中,信号处理模块在用于根据频谱特征和注意力模型,获得语音信号对应的与目标业务相关的信息时,具体为:
根据频谱特征和注意力模型,获得语音信号对应的文本信息及目标文本在语音信号中的注意力影响度,该文本信息包含该目标文本;
若目标文本在语音信号中的注意力影响度大于或等于预设注意力影响度,则根据目标文本生成语音信号对应的与目标业务相关的信息。
进一步地,信号处理模块在用于根据目标文本生成语音信号对应的与目标业务相关的信息时,具体为:
根据目标文本以及预设词库,生成不同目标文本间的注意力映射关系;
根据注意力映射关系以及词汇属性,生成语音信号对应的与目标业务相关的信息。
可选的,信号处理模块在用于根据目标文本以及预设词库,生成不同目标文本间的注意力映射关系时,具体用于:
获取目标文本对应的语音信号的相关信息,相关信息包括位置信息和发音信息中的至少一个;
根据相关信息以及预设词库,生成不同目标文本间的注意力映射关系。
可选的,信号处理模块在用于提取语音信号的频谱特征时,具体用于:
对语音信号进行频谱间隔分段处理;
提取频谱间隔分段处理后的数据的频谱特征。
可选的,与目标业务相关的信息包括该目标业务的名称。
图6为本发明另一实施例提供的信息处理设备的结构示意图。本发明实施例提供一种信息处理设备,该信息设备可以通过软件和/或硬件的方式实现。参考图6,信息处理设备60包括:存储器601和处理器602。
其中,存储器601存储程序指令。
处理器602,用于调用并执行存储器601中的程序指令,使得处理器602执行如上任一实施例所述的信号处理方法。
可选的,该信息处理设备60还可以包括总线603。其中,该总线603用于连接处理器602和存储器601。
本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,计算机程序被处理器执行时用于实现如上任一实施例提供的数据处理方法。
在上述的实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。例如,以上所描述的设备实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个单元中。上述模块成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能模块的形式实现的集成的模块,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。
应理解,上述处理器可以是中央处理单元(Central Processing Unit,简称CPU),也可以是数字信号处理器(Digital Signal Processor,简称DSP)、专用集成电路(Application Specific Integrated Circuit,简称ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
存储器可能包含高速RAM存储器,也可能还包括非易失性存储NVM,例如至少一个磁盘存储器,还可以为U盘、移动硬盘、只读存储器、磁盘或光盘等。
总线可以是工业标准体系结构(Industry Standard Architecture,简称ISA)总线、外部设备互连(Peripheral Component,简称PCI)总线或扩展工业标准体系结构(Extended Industry Standard Architecture,简称EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,本发明附图中的总线并不限定仅有一根总线或一种类型的总线。
上述存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM)、电可擦除可编程只读存储器(EEPROM)、可擦除可编程只读存储器(EPROM)、可编程只读存储器(PROM)、只读存储器(ROM)、磁存储器、快闪存储器、磁盘或光盘等。存储介质可以是通用或专用计算机能够存取的任何可用介质。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (8)
1.一种信息处理方法,其特征在于,包括:
获取语音信号;
根据所述语音信号和预先训练得到的注意力模型,获得所述语音信号对应的与目标业务相关的信息,所述注意力模型用于向后语音预测,所述注意力模型是根据电信运营商话务特点和话务数据训练得到的;
呈现所述与目标业务相关的信息,以供用户进行选中搜索;
所述根据所述语音信号和预先训练得到的注意力模型,获得所述语音信号对应的与目标业务相关的信息,包括:
提取所述语音信号的频谱特征;
根据所述频谱特征和所述注意力模型,获得所述语音信号对应的文本信息及目标文本在所述语音信号中的注意力影响度,所述文本信息包含所述目标文本;
若所述目标文本在所述语音信号中的注意力影响度大于或等于预设注意力影响度,则根据所述目标文本生成所述语音信号对应的与目标业务相关的信息。
2.根据权利要求1所述的方法,其特征在于,所述根据所述目标文本生成所述语音信号对应的与目标业务相关的信息,包括:
根据所述目标文本以及预设词库,生成不同目标文本间的注意力映射关系;
根据所述注意力映射关系以及词汇属性,生成所述语音信号对应的与目标业务相关的信息。
3.根据权利要求2所述的方法,其特征在于,所述根据所述目标文本以及预设词库,生成不同目标文本间的注意力映射关系,包括:
获取所述目标文本对应的语音信号的相关信息,所述相关信息包括位置信息和发音信息中的至少一个;
根据所述相关信息以及预设词库,生成不同目标文本间的注意力映射关系。
4.根据权利要求1至3中任一项所述的方法,其特征在于,所述提取所述语音信号的频谱特征,包括:
对所述语音信号进行频谱间隔分段处理;
提取频谱间隔分段处理后的数据的频谱特征。
5.根据权利要求1至3中任一项所述的方法,其特征在于,所述与目标业务相关的信息包括所述目标业务的名称。
6.一种信息处理设备,其特征在于,包括:
获取模块,用于获取语音信号;
信号处理模块,用于根据所述语音信号和预先训练得到的注意力模型,获得所述语音信号对应的与目标业务相关的信息,所述注意力模型用于向后语音预测,所述注意力模型是根据电信运营商话务特点和话务数据训练得到的;
输出模块,用于呈现所述与目标业务相关的信息,以供用户进行选中搜索;
所述信号处理模块,具体用于提取所述语音信号的频谱特征;根据所述频谱特征和所述注意力模型,获得所述语音信号对应的文本信息及目标文本在所述语音信号中的注意力影响度,所述文本信息包含所述目标文本;若所述目标文本在所述语音信号中的注意力影响度大于或等于预设注意力影响度,则根据所述目标文本生成所述语音信号对应的与目标业务相关的信息。
7.一种信息处理设备,其特征在于,包括:
存储器,用于存储程序指令;
处理器,用于调用并执行所述存储器中的程序指令,执行如权利要求1至5中任一项所述的方法。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序;所述计算机程序被处理器执行时,实现如权利要求1至5中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010626789.7A CN111813989B (zh) | 2020-07-02 | 2020-07-02 | 信息处理方法、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010626789.7A CN111813989B (zh) | 2020-07-02 | 2020-07-02 | 信息处理方法、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111813989A CN111813989A (zh) | 2020-10-23 |
CN111813989B true CN111813989B (zh) | 2023-07-18 |
Family
ID=72855909
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010626789.7A Active CN111813989B (zh) | 2020-07-02 | 2020-07-02 | 信息处理方法、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111813989B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115238648A (zh) * | 2022-07-27 | 2022-10-25 | 上海数策软件股份有限公司 | 一种信息处理方法、装置、电子设备及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU1562402A (en) * | 1995-10-31 | 2002-04-11 | Frederick S.M. Herz | System for customized electronic identification of desirable objects |
CA2467369A1 (en) * | 2001-11-15 | 2003-05-22 | Forinnova As | Method and apparatus for textual exploration discovery |
CN109086303A (zh) * | 2018-06-21 | 2018-12-25 | 深圳壹账通智能科技有限公司 | 基于机器阅读理解的智能对话方法、装置、终端 |
CN109542929A (zh) * | 2018-11-28 | 2019-03-29 | 山东工商学院 | 语音查询方法、装置和电子设备 |
CN109981910A (zh) * | 2019-02-22 | 2019-07-05 | 中国联合网络通信集团有限公司 | 业务推荐方法及设备 |
CN110110038A (zh) * | 2018-08-17 | 2019-08-09 | 平安科技(深圳)有限公司 | 话务预测方法、装置、服务器及存储介质 |
CN111128137A (zh) * | 2019-12-30 | 2020-05-08 | 广州市百果园信息技术有限公司 | 一种声学模型的训练方法、装置、计算机设备和存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130144709A1 (en) * | 2011-12-05 | 2013-06-06 | General Instrument Corporation | Cognitive-impact modeling for users having divided attention |
US10489712B2 (en) * | 2016-02-26 | 2019-11-26 | Oath Inc. | Quality-based scoring and inhibiting of user-generated content |
-
2020
- 2020-07-02 CN CN202010626789.7A patent/CN111813989B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU1562402A (en) * | 1995-10-31 | 2002-04-11 | Frederick S.M. Herz | System for customized electronic identification of desirable objects |
CA2467369A1 (en) * | 2001-11-15 | 2003-05-22 | Forinnova As | Method and apparatus for textual exploration discovery |
CN109086303A (zh) * | 2018-06-21 | 2018-12-25 | 深圳壹账通智能科技有限公司 | 基于机器阅读理解的智能对话方法、装置、终端 |
CN110110038A (zh) * | 2018-08-17 | 2019-08-09 | 平安科技(深圳)有限公司 | 话务预测方法、装置、服务器及存储介质 |
CN109542929A (zh) * | 2018-11-28 | 2019-03-29 | 山东工商学院 | 语音查询方法、装置和电子设备 |
CN109981910A (zh) * | 2019-02-22 | 2019-07-05 | 中国联合网络通信集团有限公司 | 业务推荐方法及设备 |
CN111128137A (zh) * | 2019-12-30 | 2020-05-08 | 广州市百果园信息技术有限公司 | 一种声学模型的训练方法、装置、计算机设备和存储介质 |
Non-Patent Citations (3)
Title |
---|
Probabilistic learning of task-specific visual attention;A. Borji 等;《2012 IEEE Conference on Computer Vision and Pattern Recognition》;470-477 * |
基于注意力LSTM和多任务学习的远场语音识别;张宇 等;《清华大学学报(自然科学版)》;第58卷(第3期);249-253 * |
面向微博谣言的检测方法研究;任文静;《中国优秀硕士学位论文全文数据库信息科技辑》(第(2018)02期);I141-275 * |
Also Published As
Publication number | Publication date |
---|---|
CN111813989A (zh) | 2020-10-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11361751B2 (en) | Speech synthesis method and device | |
CN107195296B (zh) | 一种语音识别方法、装置、终端及系统 | |
CN108682420B (zh) | 一种音视频通话方言识别方法及终端设备 | |
CN109767752A (zh) | 一种基于注意力机制的语音合成方法及装置 | |
US20140350934A1 (en) | Systems and Methods for Voice Identification | |
CN107437417B (zh) | 基于循环神经网络语音识别中语音数据增强方法及装置 | |
WO2017127296A1 (en) | Analyzing textual data | |
CN110503956B (zh) | 语音识别方法、装置、介质及电子设备 | |
CN109545183A (zh) | 文本处理方法、装置、电子设备及存储介质 | |
CN111164674A (zh) | 语音合成方法、装置、终端及存储介质 | |
CN110335608B (zh) | 声纹验证方法、装置、设备及存储介质 | |
CN110827803A (zh) | 方言发音词典的构建方法、装置、设备及可读存储介质 | |
CN111326177B (zh) | 一种语音评测方法、电子设备及计算机可读存储介质 | |
CN112397056A (zh) | 语音评测方法及计算机存储介质 | |
WO2022022049A1 (zh) | 文本长难句的压缩方法、装置、计算机设备及存储介质 | |
CN112201275A (zh) | 声纹分割方法、装置、设备及可读存储介质 | |
CN109688271A (zh) | 联系人信息输入的方法、装置及终端设备 | |
CN112686041A (zh) | 一种拼音标注方法及装置 | |
CN111813989B (zh) | 信息处理方法、设备及存储介质 | |
KR20210071713A (ko) | 스피치 스킬 피드백 시스템 | |
WO2023045186A1 (zh) | 意图识别方法、装置、电子设备和存储介质 | |
CN111739509A (zh) | 电子书音频生成方法、电子设备及存储介质 | |
CN111126084A (zh) | 数据处理方法、装置、电子设备和存储介质 | |
US20240095451A1 (en) | Method and apparatus for text analysis, electronic device and computer readable storage medium | |
CN114490967B (zh) | 对话模型的训练方法、对话机器人的对话方法、装置和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |