CN112131359A - 一种基于图形化编排智能策略的意图识别方法及电子设备 - Google Patents
一种基于图形化编排智能策略的意图识别方法及电子设备 Download PDFInfo
- Publication number
- CN112131359A CN112131359A CN202010919459.7A CN202010919459A CN112131359A CN 112131359 A CN112131359 A CN 112131359A CN 202010919459 A CN202010919459 A CN 202010919459A CN 112131359 A CN112131359 A CN 112131359A
- Authority
- CN
- China
- Prior art keywords
- intention
- node
- model
- user
- corpus
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明提供了一种基于图形化编排智能策略的意图识别方法及电子设备,包括根据业务需求和外呼目的,将用户话语的可能性定义为各种意图;设定规则语料,根据获取的用户话语内容与设定的规则语料作比较,如果一致,则得到用户意图;基于n‑gram模型建立意图分类模型,计算意图分类的概率;基于搜索工具Faiss和Bert模型进行相似度对比,计算意图相似度,得到最接近意图的概率;通过图形化编排对话流程和配置意图识别策略编辑对话流程,进行外呼对话。本发明在高精度场景下,可动态调整多种策略组合,进一步提高识别准确率。同时,本发明可以迅速接入新的业务场景,实现零门槛结合。另外,由于采用较少的标注和语料实现高识别准确率,可节省日后维护成本。
Description
技术领域
本发明涉及人工智能电话外呼技术领域,尤其涉及一种基于图形化编排智能策略的意图识别方法及电子设备。
背景技术
电话外呼是现代企业市场营销、客户服务不可或缺的一个重要工具。随着人工智能技术的发展,智能外呼系统逐渐兴起,由机器人代替人工实现外呼。智能外呼(Outbound)是指电话通过电脑自动往外拨打用户电话,将录制好的语音通过电脑播放给用户,它是由电脑(Computer)、电话(Telephony)集成一体(Integration),是现代客户服务中心系统不可或缺的一个组成部分。外呼分为两个阶段:外呼数据的获取以及外呼动作的发起。其中,外呼数据的获取功能有非常大的改进空间,从而提供更人性化的客户服务。外呼流程包括:首先对客户的话语进行识别,然后根据识别结果和事先制定好的话术流程播放录音文件和用户对话,从而完成相关业务。因此,客户话语的识别和话术流程的制定至关重要。然而,目前市场上基于流程的外呼系统是通过关键字识别和大量的标注来实现功能,在流程和长句识别的完美融合方面有待提高。
例如,在现有技术CN 109977386 A“一种基于流式制作的外呼流程制作方法及工具”中,该发明要解决的技术问题在于,针对现有技术的上述缺陷,提供一种基于流式制作的外呼流程制作方法。该方法着重点在于流程的制作、保存和导入。通过关键字与语料相绑定,当匹配到对应关键字时则播放对应语料;优先级为所述关键字进行匹配时的优先级。该发明将用户语句与关键字进行匹配,但是同样一种意思会有多种不同表述方式的语句,并且外呼系统前置的ASR也有识别误差。该发明要维护对话的识别能力,只能通过标注大量的关键字来提高识别能力,这样需要花费大量的人力来进行整理和标注。所以,只通过关键字不能对客户的意图做出很好的识别。
例如,在现有技术CN 110138983 A“一种电话外呼语音机器人业务流程搭建方法”中,该发明公开了一种电话外呼语音机器人业务流程搭建方法,包括如下步骤:根据业务需求构建电话外呼过程中的呼叫基础模板;在呼叫基础模板中的每个节点均设置多个问题以及对应的问题出口;当电话外呼语音机器人进行外呼时,如果客户的提问包含在节点设置的问题中,则通过问题出口获取答案回复给客户。该方法可以分解外呼语音机器人的流程,将可以复用或者重复出现的部分进行封装,从而极大简化外语语音机器人流程的复杂度,大大提升流程可读性和可设计性。该方法着重在于流程搭建,流程复用和封装。该发明中没有明确说明如何判定客户的提问包含在节点设置的问题的方法。
例如,在现有技术CN 110175240 A“与外呼流程相关的知识图谱的构建方法、装置及存储介质”中,该方法包括:获取与外呼流程相关的脚本文件,其中所述脚本文件包括与所述外呼流程的业务相关的多个业务对话主题以及与所述多个业务对话主题对应的多个业务对话内容;根据所述多个业务对话内容,确定与所述外呼流程对应的通用对话主题,其中所述通用对话主题能够应用于不同的外呼流程;确定所述多个业务对话主题以及所述通用对话主题的连接关系;以及根据所确定的连接关系,构建与所述外呼流程相关的知识图谱。该方法也着重于流程的搭建,且通过知识图谱的方式来搭建。
例如,在现有技术CN201910818198“一种智能外呼系统及智能外呼方法”中,该发明公开了一种智能外呼系统,包括名单模块、策略模块、活动模块、IVR模块、AI机器人、收集模块和监控模块,所述名单模块和策略模块分别连接至活动模块,所述活动模块还与IVR模块连接,所述IVR模块通过AI机器人与客户双向连接,所述名单模块用于验证、清洗外呼数据,以确定外呼待播名单。所述策略模块用于设置外呼策略,所述外呼策略包括外呼时机和外呼频率。该方法着重整个从呼入到呼出的外呼流程、外呼名单的策略,仅仅局限在于外呼名单的策略的管理。对于用户的回答,并没有指出意图识别的方法。
可以看出,现有技术大多着重于对话流程的建立,对于客户话语的识别还没有好的解决方案。现有技术仅停留在对话流程图形化展示上,识别客户语句时都采用关键字识别,这样不仅限制识别语句的范围,而且需要人为穷举客户可能说的各关键词或语句,增加了日后维护成本。
因此,需要一种用于客户话语意图识别、且识别准确率高的外呼对话建立方法,实现对于同样问题的多种话语表述方法有很好的识别。
发明内容
为了解决上述问题,本发明提供一种基于图形化编排智能策略的意图识别方法及电子设备,采用图形化话术流程编排和自然语言识别相结合,在高精度要求下,可动态调整多种策略组合,大幅提高识别准确率,同时可以迅速接入新的业务场景,节省日后维护成本。
为实现上述目的,本发明提供了一种基于图形化编排智能策略的意图识别方法,包括以下步骤:
S1:根据业务需求和外呼目的,将用户话语的可能性定义为各种意图;
S2:设定规则语料,根据获取的用户话语内容与设定的规则语料作比较,如果一致,则得到用户意图;
S3:基于n-gram模型建立意图分类模型,计算意图分类的概率;
S4:基于搜索工具Faiss和Bert模型进行相似度对比,计算意图相似度,得到最接近意图的概率;
S5:通过图形化编排对话流程和配置意图识别策略编辑对话流程,进行外呼对话。
可选地,步骤S2中的规则语料包括正则语料和相似语料,比较判断用户意图。
可选地,步骤S3中基于n-gram模型将所识别用户话语文本切分成长度为N的字符片段序列,意图分类模型包括输入层、隐含层和输出层;将序列输入意图分类模型的输入层,隐含层对所有序列的向量进行叠加平均,输出层产生各意图分类的概率。
可选地,步骤S4包括:
集成Bert模型,并编码成句向量;
将换取的词向量添加到Faiss模型中,形成向量索引库;
搜索并归一化结果,输出最接近意图的概率。
可选地,步骤S5中图形化编排对话流程具有编辑工具,所述编辑工具内包含多个功能节点和意图连线,功能节点分别是开始、话术、结束。
可选地,编辑对话流程包括:
S5.1:拖拽开始节点到画布,表示对话流程开始;
S5.2:拖拽话术节点到画布,表示机器人的话术;
S5.3:在话术中配置模型比较相似度的阀值,超过该阀值则被认为识别命中;
S5.4:在话术中配置是否启用相似度判断选项,对于识别准确率要求高的节点配置此选项;
S5.5:用意图连线连接各话术节点,通过判断不同的客户意图,走向不同的话术节点和客户展开对话;
S5.6:拖拽结束节点到画布,表示外呼对话流程结束。
可选地,通过调整配置的比较相似度阀值,调节各节点的识别精度。
可选地,所述外呼对话的数据流程包括:
S6.1:从开始节点获取第一个话术节点,作为本次对话开场白;
S6.2:获取用户所说话语,将语音通过ASR转换成文本信息;
S6.3:清洗用户话语文本,去除标点符号和停用词,根据策略传入模型组合中进行预测;
S6.4:根据上一个话术节点,选取生成的规则脚本,把本字信息传入脚本,获取下一个话术节点的ID;
S6.5:或者若在脚本中没有找到任何结果,则进入意图识别模型匹配,获取下一个话术节点的ID;
S6.6:获取话术,通过TTS转换成语音播报给用户。
可选地,所述话术节点对应脚本文件,上一话术节点ID和用户的话语内容作为脚本文件的输入,以规则语料作为匹配条件,得到脚本文件的返回值,即下一话术节点的ID;在话术节点配置一个或者多个意图识别模型及相应的阈值,输入上一话术节点ID和用户的话语内容,意图识别模型返回下一话术节点的ID和所匹配的最相似语料。
此外,本发明还提供了一种电子设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述存储器中存储的计算机程序,且所述计算机程序被执行时,实现上述基于图形化编排智能策略的意图识别方法。
本发明的优点和有益效果在于:相比现有技术仅停留在对话流程图形化展示上以及采用关键字识别客户语句,本发明提供一种基于图形化编排智能策略的意图识别方法及电子设备,采用图形化话术流程与自然语言理解结合,大幅提高识别准确率,特别是对口语化的理解优于现有技术。在高精度场景下,对关键节点的识别准确率要求高,可动态调整多种策略组合,进一步提高识别准确率。本发明的方法可以迅速接入新的业务场景,实现零门槛结合。另外,由于本发明采用较少的标注和语料就可以实现高识别准确率,节省日后维护成本。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例的部分介绍,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示意性示出了本发明一实施例的基于图形化编排智能策略的意图识别方法的口语化意图分类模型的架构示意图;
图2示意性示出了本发明一实施例的基于图形化编排智能策略的意图识别方法的对话流程编辑结果示意图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
在一实施例中,本发明提供了一种基于图形化编排智能策略的意图识别方法,包括以下步骤:
S1:根据业务需求和外呼目的,将用户话语的可能性定义为各种意图;比如外呼电话的第一步常常是询问客户是否是本人,而客户的回答包括本人接听、非本人接听、通过客户回答不能判断是否本人这三个可能性,则可以定义名称为本人接听、非本人接听、不确定这三个意图。
S2:设定规则语料,根据获取的用户话语内容与设定的规则语料作比较,如果一致,则得到用户意图;比如对于上述询问客户是否本人的例子中,需要对已经定义的三个意图设定规则语料。根据设定的规则语料判断并得到用户话语的意图。
S3:基于n-gram模型建立意图分类模型,计算意图分类的概率;其中,n-gram模型是大词汇连续语音识别中常用的一种语言模型,对中文而言,被称为汉语语言模型(CLM,Chinese Language Model)。汉语语言模型利用上下文中相邻词间的搭配信息,可以实现到汉字的自动转换。汉语语言模型在需要把连续无空格的拼音、笔划,或代表字母或笔划的数字,转换成汉字串(即句子)时,可以计算出具有最大概率的句子,从而实现到汉字的自动转换,无需用户手动选择,避开了许多汉字对应一个相同的拼音(或笔划串,或数字串)的重码问题。该模型基于这种假设:第N个词的出现只与前面N-1个词相关,而与其它任何词都不相关,整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计N个词同时出现的次数得到。常用的是二元的Bi-gram模型和三元的Tri-gram模型。
S4:基于搜索工具Faiss和Bert模型进行相似度对比,计算意图相似度,得到最接近意图的概率;其中,Faiss是Facebook AI团队开源的针对聚类和相似性搜索库,为稠密向量提供高效相似度搜索和聚类,支持十亿级别向量的搜索,是目前最为成熟的近似近邻搜索库。它包含多种搜索任意大小向量集的算法,以及用于算法评估和参数调整的支持代码。其中,向量集大小由RAM内存决定。Bert(全称是Bidirectional Encoder Representationfrom Transformers,即基于转换器的双向编码器表示法)模型用于捕捉词语和句子级别的表征,用来作为向量库的构建。Bert是一种预训练语言表示的方法,在大量文本语料比如维基百科上训练了一个通用的“语言理解”模型,然后用这个模型去执行想做的NLP(NaturalLanguage Processing,自然语言处理)任务。BERT比之前的方法表现更出色,因为它是第一个用在预训练NLP上的无监督的、深度双向系统。本申请通过向量搜索工具Faiss和Bert模型进行相似度对比,计算意图相似度,输出最接近意图的概率。
S5:通过图形化编排对话流程和配置意图识别策略编辑对话流程,进行外呼对话。图形化编排工具可以通过拖拽的方式完成复杂应用的编排及拓扑设计,并且可以保存为应用模板,使用模板可以直接创建多个容器组成的复杂应用,简化应用部署难度,提升效率。根据不同的业务场景,通过图形化编排对话流程和配置意图识别策略。将不同业务可能出现的对话流程通过图形化编排工具进行编排和展示,并配置能够识别用户意图的策略,从而为用户完成对话流程编辑。根据上述设定,进行外呼对话时,可以获取用户的每一次对话,并引导进入后续对话流程,完成外呼对话。
在一实施例中,在上述步骤S2中的规则语料包括正则语料和相似语料,比较判断用户意图。其中,规则语料包括正则语料和相似语料;比如对于上述询问客户是否本人的例子中,需要对已经定义的三个意图设定规则语料。正则语料即正则表达式,是对字符串操作的一种逻辑公式,即用事先定义好的一些特定字符及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。
比如,对于“本人接听”这个意图,正则语料包括:(是|是的|是我|我是|我就是|对是我|对)+(呢|啊|吧|哦|呃|噢|)*(没错|)(就|)(是我|对头)(呀|啊|)等。
实际上应用中,可以涵盖为:是,是的,是我啊,没错等多个关键字。
另外,相似语料则为:说呀我就是,是的你哪位,什么事说,等等。通过设定的相似语料为之后的模型训练做准备。
在一实施例中,在上述步骤S3中基于n-gram模型将所识别用户话语文本切分成长度为N的字符片段序列,意图分类模型包括输入层、隐含层和输出层;将序列输入意图分类模型的输入层,隐含层对所有序列的向量进行叠加平均,输出层产生各意图分类的概率;其中N为大于1的整数。该方法基于n-gram模型提取文本特征。n-gram是一种基于语言统计模型的算法,表示的是将原句子按照长度N切分原字段得到多个字符片段。通过将文本内容按照字符顺序进行大小为N的滑动窗口操作,最终形成长度为N的字符片段序列。
例如:下面以字为最小单位切分该用户话语文本:没错是我呀
相应的Bi-gram(二元gram)模型切分的字段为:没错错是是我我呀
相应的Tri-gram(三元gram)模型切分的字段为:没错是错是我是我呀
例如:以词为最小单位切分该用户话语文本:没错是我呀
通过分词结果是:没错是我呀
相应的Bi-gram(二元gram)模型切分的词段为:没错/是我是我/呀
相应的Tri-gram(三元gram)模型切分的词段为:没错/是我/呀
在口语文本分类场景中,使用字和词的n-gram方式的优势在于:
第一,对低频词生成的词向量更加友好,因为字和词的n-gram的部分字符可以共享;
第二,对于训练词袋之外的词段,仍然可以构建它们的词向量,利用它们的字符级n-gram向量,提高分类准确性。
如图1所示为口语化意图分类模型的架构图。该架构图表明,口语化意图分类模型只有三层:输入层、隐含层hidden、输出层output。其中,输入层的输入是意图语料,每个语料由一个词和字的索引序列构成,有N个输入项包括X1,X2…XN-1,XN。例如:[121,320,180,990,556,782]可能表示“没错是我呀”这个短文本,其中“没”、“错”、“是”、“我”、“呀”、“没错”、在词汇表中的索引分别是121、320、180、990、556、782;输入层将每个字或词映射成一个N_DIM维的向量。输入输出如下:
input_shape=(BATCH_SIZE,MAX_WORDS),
output_shape=(BATCH_SIZE,MAX_WORDS,N_DIM);
隐含层hidden:对一个文档中所有单词的向量进行叠加平均。输入层的output_shape作为隐含层的输入input_shape,隐含层的输出:output_shape=(BATCH_SIZE,N_DIM);
输出层output:架构图中最后一层是以softmax层作为输出层。Softmax为归一化指数函数,或称Softmax函数,是逻辑函数的一种推广。它能将一个含任意实数的K维向量z“压缩”到另一个K维实向量σ(z)中,使得每一个元素的范围都在(0,1)之间,并且所有元素的和为1。该函数多于多分类问题中。输出层对各个节点的输出进行多分类。然后利用Softmax激活函数对有限项离散概率分布的梯度对数进行归一化,最后选取概率最大值的节点的输出作为模型输出,从而实现了对连线意图的分类。
例如:若输入为一篇文档,则输出层会产生多个概率值,分别表示此文档对应意图分类的概率。
在一实施例中,上述步骤S4包括:
步骤S4.1:集成bert模型,并编码成句向量;集成bert模型,并提供基本的编码成句向量的方法,使用代码如下:
步骤S4.2:将换取的词向量添加到Faiss模型中,形成向量索引库;使用代码如下:
步骤S4.3:搜索并归一化结果,输出最接近意图的概率,使用代码如下:
dd1,dd2=index_pandas_FlatIP.search(query_begin,topk)
input=tf.constant(value=dd1,dtype=tf.float32)
sf=tf.nn.softmax(input)
prob=[]
with tf.Session()as sess:
prob=sess.run(sf)
在一实施例中,在上述步骤S5中,图形化编排对话流程具有编辑工具,所述编辑工具内包含多个功能节点和意图连线,功能节点分别是开始、话术、结束。
编辑对话流程包括:
S5.1:拖拽开始节点到画布,表示对话流程开始;
S5.2:拖拽话术节点到画布,表示机器人的话术;
S5.3:在话术中配置模型比较相似度的阀值,超过该阀值则被认为识别命中;优选地,可以通过调整配置的该比较相似度阀值,调节各节点的识别精度;
S5.4:在话术中配置是否启用相似度判断选项,对于识别准确率要求高的节点配置此选项;
S5.5:用意图连线连接各话术节点,通过判断不同的客户意图,走向不同的话术节点和客户展开对话;
S5.6:拖拽结束节点到画布,表示外呼对话流程结束。
如图2所示,为对话流程编辑的结果,在用户对话过程中,按照所编辑的流程进行外呼对话。比如,在开始外呼之后,编辑流程中设定的第一个问题是:请问您是xx先生吗?根据所识别客户意图的分类,走向不同的对话流程。若判断客户意图为非本人,则进行下一话术:对不起,打扰了,祝您生活愉快,再见。从而结束该外呼对话流程。若判断客户意图为本人,则进行下一问题:请问昨天的这笔消费是您本人消费的吗?根据客户的回答继续判断客户意图。若判断客户意图为本人消费,则继续下一问题:确认您本人操作就没问题了,感谢您的接听,祝您生活愉快。从而结束该外呼对话流程。若判断用户意图为非本人消费,则继续下一话术:您好,我们已将您的信用卡进行止付,我转给同事跟您核实详细信息,请稍后。从而结束该外呼对话流程,引入其他对话流程。
在一实施例中,编辑后的外呼对话流程还经过多次训练,训练流程包括:
S50.1:规则脚本文件生成:外呼流程中的每个话术节点对应一个脚本文件,话术节点之间的连线对应设定的规则语料。将话术节点ID和用户的话语内容作为脚本文件的输入,以规则语料作为匹配条件,可以得到脚本文件的返回值,即下一话术节点的ID。脚本代码如下:
其中,fromNodeId为当前话术节点ID;
(是|是的|是我|我是|我就是|对是我|对)+(呢|啊|吧|哦|呃|噢|)*)为事先设定的关键字规则;
NextNodeId为下一节点ID。
S50.2:模型训练:意图识别模型可以分为文本分类模型和相似度模型。在话术节点可以配置一个或者多个识别模型及相应的阈值。对话术节点绑定的意图进行模型训练,并输出对应的模型文件。
S50.3:模型推理:输入为话术节点ID和用户的话语内容,返回为下一话术节点的ID和所匹配的最相似语料。模型推理所使用的代码如下:
在一实施例中,根据上述配置和训练的模型,实现所述外呼对话的数据流程包括:
S6.1:从开始节点获取第一个话术节点,作为本次对话开场白;
S6.2:获取用户所说话语,将语音通过ASR转换成文本信息;ASR(AutomaticSpeech Recognition,自动语音识别)技术的目标是让计算机能够“听写”出不同人所说出的连续语音,也就是俗称的“语音听写机”,是实现“声音”到“文字”转换的技术。语音识别是采用数字信号处理技术自动提取以及决定语音信号。
S6.3:清洗用户话语文本,去除标点符号和停用词,根据策略传入模型组合中进行预测;
S6.4:根据上一个话术节点,选取生成的规则脚本,把本字信息传入脚本,获取下一个话术节点的ID(Identity document,标识号、序列号、唯一编码);例如,根据生成的脚本文件,如果客户所说为”我就是”,则返回下一节点ID:4cda5014aaa445639384aedf4e70bd0a。
S6.5:或者若在脚本中没有找到任何结果,则进入意图识别模型匹配,获取下一个话术节点的ID;例如,如果客户所说为”没错啊,我是的呀”,在规则语料中找不到相应的语料,根据生成的匹配代码,则返回下一节点ID:4cda5014aaa445639384aedf4e70bd0a,进行意图识别模型匹配。
S6.6:根据S6.4或S6.5中获取的下一个话术节点的ID获取话术,通过TTS转换成语音播报给用户。TTS是Text To Speech(从文本到语音)简称的缩写,即语音合成技术,是人机对话的一部分,让机器能够说话。在内置芯片的支持之下,通过神经网络,把文字智能地转化为自然语音流。TTS技术对文本文件进行实时转换,转换时间之短可以秒计算。在其特有智能语音控制器作用下,文本输出的语音音律流畅,使得听者在听取信息时感觉自然,毫无机器语音输出的冷漠与生涩感。
S6.7:重复以上步骤,直至流程走到结束节点,完成整个对话。
在一实施例中,还需要对上述所编辑的对话流程进行交互测试,可以对对话流程和训练结果进行测试。
在一实施例中,使用过程中,如果发现某些语句不能正常识别,可以追加正则语料和相似语料。将短句、单一的语句追加到正则语料;长句、复杂的内容可以追加到相似回答语料,利用模型的泛化能力,提升识别准确率。
此外,本发明还提供了一种电子设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述存储器中存储的计算机程序,且所述计算机程序被执行时,实现上述基于图形化编排智能策略的意图识别方法,至少包括以下步骤:
S1:根据业务需求和外呼目的,将用户话语的可能性定义为各种意图;
S2:设定规则语料,根据获取的用户话语内容与设定的规则语料作比较,如果一致,则得到用户意图;
S3:基于n-gram模型建立意图分类模型,计算意图分类的概率;
S4:基于搜索工具Faiss和Bert模型进行相似度对比,计算意图相似度,得到最接近意图的概率;
S5:通过图形化编排对话流程和配置意图识别策略编辑对话流程,进行外呼对话。
此外,尽管在附图中以特定顺序描述了本发明方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
虽然已经参考上述具体实施方式描述了本发明的精神和原理,但是应该理解,本发明并不限于所公开的具体实施方式,对各方面的划分也不意味着这些方面中的特征不能组合以进行受益,这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。
Claims (10)
1.一种基于图形化编排智能策略的意图识别方法,其特征在于,包括以下步骤:
S1:根据业务需求和外呼目的,将用户话语的可能性定义为各种意图;
S2:设定规则语料,根据获取的用户话语内容与设定的规则语料作比较,如果一致,则得到用户意图;
S3:基于n-gram模型建立意图分类模型,计算意图分类的概率;
S4:基于搜索工具Faiss和Bert模型进行相似度对比,计算意图相似度,得到最接近意图的概率;
S5:通过图形化编排对话流程和配置意图识别策略编辑对话流程,进行外呼对话。
2.如权利要求1所述的基于图形化编排智能策略的意图识别方法,其特征在于,步骤S2中的规则语料包括正则语料和相似语料,比较判断用户意图。
3.如权利要求1所述的基于图形化编排智能策略的意图识别方法,其特征在于,步骤S3中基于n-gram模型将所识别用户话语文本切分成长度为N的字符片段序列,意图分类模型包括输入层、隐含层和输出层;将序列输入意图分类模型的输入层,隐含层对所有序列的向量进行叠加平均,输出层产生各意图分类的概率;其中N为大于1的整数。
4.如权利要求1所述的基于图形化编排智能策略的意图识别方法,其特征在于,步骤S4包括:
集成Bert模型,并编码成句向量;
将换取的词向量添加到Faiss模型中,形成向量索引库;
搜索并归一化结果,输出最接近意图的概率。
5.如权利要求1所述的基于图形化编排智能策略的意图识别方法,其特征在于,步骤S5中图形化编排对话流程具有编辑工具,所述编辑工具内包含多个功能节点和意图连线,功能节点分别是开始、话术、结束。
6.如权利要求5所述的基于图形化编排智能策略的意图识别方法,其特征在于,编辑对话流程包括:
S5.1:拖拽开始节点到画布,表示对话流程开始;
S5.2:拖拽话术节点到画布,表示机器人的话术;
S5.3:在话术中配置模型比较相似度的阀值,超过该阀值则被认为识别命中;
S5.4:在话术中配置是否启用相似度判断选项,对于识别准确率要求高的节点配置此选项;
S5.5:用意图连线连接各话术节点,通过判断不同的客户意图,走向不同的话术节点和客户展开对话;
S5.6:拖拽结束节点到画布,表示外呼对话流程结束。
7.如权利要求6所述的基于图形化编排智能策略的意图识别方法,其特征在于,通过调整配置的比较相似度阀值,调节各节点的识别精度。
8.如权利要求6所述的基于图形化编排智能策略的意图识别方法,其特征在于,所述外呼对话的数据流程包括:
S6.1:从开始节点获取第一个话术节点,作为本次对话开场白;
S6.2:获取用户所说话语,将语音通过自动语音识别技术ASR转换成文本信息;
S6.3:清洗用户话语文本,去除标点符号和停用词,根据策略传入模型组合中进行预测;
S6.4:根据上一个话术节点,选取生成的规则脚本,把本字信息传入脚本,获取下一个话术节点的ID;
S6.5:或者若在脚本中没有找到任何结果,则进入意图识别模型匹配,获取下一个话术节点的ID;
S6.6:获取话术,通过语音合成技术TTS转换成语音播报给用户。
9.如权利要求8所述的基于图形化编排智能策略的意图识别方法,其特征在于,所述话术节点对应脚本文件,上一话术节点ID和用户的话语内容作为脚本文件的输入,以规则语料作为匹配条件,得到脚本文件的返回值,即下一话术节点的ID;在话术节点配置一个或者多个意图识别模型及相应的阈值,输入上一话术节点ID和用户的话语内容,意图识别模型返回下一话术节点的ID和所匹配的最相似语料。
10.一种电子设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述存储器中存储的所述计算机程序,且所述计算机程序被执行时,实现权利要求1-9中任意一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010919459.7A CN112131359A (zh) | 2020-09-04 | 2020-09-04 | 一种基于图形化编排智能策略的意图识别方法及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010919459.7A CN112131359A (zh) | 2020-09-04 | 2020-09-04 | 一种基于图形化编排智能策略的意图识别方法及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112131359A true CN112131359A (zh) | 2020-12-25 |
Family
ID=73848850
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010919459.7A Pending CN112131359A (zh) | 2020-09-04 | 2020-09-04 | 一种基于图形化编排智能策略的意图识别方法及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112131359A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112784024A (zh) * | 2021-01-11 | 2021-05-11 | 软通动力信息技术(集团)股份有限公司 | 一种人机对话的方法、装置、设备以及存储介质 |
CN113076758A (zh) * | 2021-03-19 | 2021-07-06 | 中山大学 | 一种面向任务型对话的多域请求式意图识别方法 |
CN113782022A (zh) * | 2021-09-17 | 2021-12-10 | 平安消费金融有限公司 | 基于意图识别模型的通信方法、装置、设备及存储介质 |
CN114154501A (zh) * | 2022-02-09 | 2022-03-08 | 南京擎天科技有限公司 | 一种基于无监督学习的中文地址分词方法及系统 |
CN114528386A (zh) * | 2022-01-14 | 2022-05-24 | 北京健康之家科技有限公司 | 机器人的外呼控制方法、装置、存储介质和终端 |
CN114708047A (zh) * | 2022-06-06 | 2022-07-05 | 上海荣数信息技术有限公司 | 一种基于知识图谱的外呼策略运营方法与系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019153522A1 (zh) * | 2018-02-09 | 2019-08-15 | 卫盈联信息技术(深圳)有限公司 | 智能交互方法、电子装置及存储介质 |
CN110209793A (zh) * | 2019-06-18 | 2019-09-06 | 佰聆数据股份有限公司 | 一种用于智能识别文本语义的方法 |
CN110597963A (zh) * | 2019-09-23 | 2019-12-20 | 腾讯科技(深圳)有限公司 | 表情问答库的构建方法、表情搜索方法、装置及存储介质 |
CN110659360A (zh) * | 2019-10-09 | 2020-01-07 | 初米网络科技(上海)有限公司 | 一种人机对话方法、装置和系统 |
CN110942769A (zh) * | 2018-09-20 | 2020-03-31 | 九阳股份有限公司 | 一种基于有向图的多轮对话应答系统 |
CN111128126A (zh) * | 2019-12-30 | 2020-05-08 | 上海浩琨信息科技有限公司 | 多语种智能语音对话的方法及系统 |
-
2020
- 2020-09-04 CN CN202010919459.7A patent/CN112131359A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019153522A1 (zh) * | 2018-02-09 | 2019-08-15 | 卫盈联信息技术(深圳)有限公司 | 智能交互方法、电子装置及存储介质 |
CN110942769A (zh) * | 2018-09-20 | 2020-03-31 | 九阳股份有限公司 | 一种基于有向图的多轮对话应答系统 |
CN110209793A (zh) * | 2019-06-18 | 2019-09-06 | 佰聆数据股份有限公司 | 一种用于智能识别文本语义的方法 |
CN110597963A (zh) * | 2019-09-23 | 2019-12-20 | 腾讯科技(深圳)有限公司 | 表情问答库的构建方法、表情搜索方法、装置及存储介质 |
CN110659360A (zh) * | 2019-10-09 | 2020-01-07 | 初米网络科技(上海)有限公司 | 一种人机对话方法、装置和系统 |
CN111128126A (zh) * | 2019-12-30 | 2020-05-08 | 上海浩琨信息科技有限公司 | 多语种智能语音对话的方法及系统 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112784024A (zh) * | 2021-01-11 | 2021-05-11 | 软通动力信息技术(集团)股份有限公司 | 一种人机对话的方法、装置、设备以及存储介质 |
CN112784024B (zh) * | 2021-01-11 | 2023-10-31 | 软通动力信息技术(集团)股份有限公司 | 一种人机对话的方法、装置、设备以及存储介质 |
CN113076758A (zh) * | 2021-03-19 | 2021-07-06 | 中山大学 | 一种面向任务型对话的多域请求式意图识别方法 |
CN113782022A (zh) * | 2021-09-17 | 2021-12-10 | 平安消费金融有限公司 | 基于意图识别模型的通信方法、装置、设备及存储介质 |
CN113782022B (zh) * | 2021-09-17 | 2023-11-03 | 平安消费金融有限公司 | 基于意图识别模型的通信方法、装置、设备及存储介质 |
CN114528386A (zh) * | 2022-01-14 | 2022-05-24 | 北京健康之家科技有限公司 | 机器人的外呼控制方法、装置、存储介质和终端 |
CN114154501A (zh) * | 2022-02-09 | 2022-03-08 | 南京擎天科技有限公司 | 一种基于无监督学习的中文地址分词方法及系统 |
CN114708047A (zh) * | 2022-06-06 | 2022-07-05 | 上海荣数信息技术有限公司 | 一种基于知识图谱的外呼策略运营方法与系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111128126B (zh) | 多语种智能语音对话的方法及系统 | |
CN112131359A (zh) | 一种基于图形化编排智能策略的意图识别方法及电子设备 | |
CN111312245B (zh) | 一种语音应答方法、装置和存储介质 | |
US10347244B2 (en) | Dialogue system incorporating unique speech to text conversion method for meaningful dialogue response | |
Odell | The use of context in large vocabulary speech recognition | |
CN109155132A (zh) | 说话者验证方法和系统 | |
CN111339278B (zh) | 训练话术生成模型、生成应答话术的方法和装置 | |
CN111583909A (zh) | 一种语音识别方法、装置、设备及存储介质 | |
CN114678014A (zh) | 意图识别方法、装置、计算机设备及计算机可读存储介质 | |
CN114005446B (zh) | 情感分析方法、相关设备及可读存储介质 | |
CN114818649A (zh) | 基于智能语音交互技术的业务咨询处理方法及装置 | |
Kumar et al. | Machine learning based speech emotions recognition system | |
JP2024502946A6 (ja) | 音声認識トランスクリプトの句読点付け及び大文字化 | |
CN113488026B (zh) | 基于语用信息的语音理解模型生成方法和智能语音交互方法 | |
CN113822506A (zh) | 一种用于电力调控的多轮次语音交互智能检索系统及方法 | |
CN114373443B (zh) | 语音合成方法和装置、计算设备、存储介质及程序产品 | |
CN115827854A (zh) | 语音摘要生成模型训练方法、语音摘要生成方法及装置 | |
CN115457938A (zh) | 识别唤醒词的方法、装置、存储介质及电子装置 | |
CN112131343B (zh) | 一种中文小说对话人物识别方法 | |
CN113823265A (zh) | 一种语音识别方法、装置和计算机设备 | |
CN1753083B (zh) | 语音标记方法、系统及基于语音标记的语音识别方法和系统 | |
Gilbert et al. | Intelligent virtual agents for contact center automation | |
CN116825095A (zh) | 语音识别方法、设备和存储介质 | |
CN112150103B (zh) | 一种日程设置方法、装置和存储介质 | |
CN113936660B (zh) | 具有多个语音理解引擎的智能语音理解系统和交互方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |