[go: up one dir, main page]

CN111739519A - 基于语音识别的对话管理处理方法、装置、设备及介质 - Google Patents

基于语音识别的对话管理处理方法、装置、设备及介质 Download PDF

Info

Publication number
CN111739519A
CN111739519A CN202010550379.9A CN202010550379A CN111739519A CN 111739519 A CN111739519 A CN 111739519A CN 202010550379 A CN202010550379 A CN 202010550379A CN 111739519 A CN111739519 A CN 111739519A
Authority
CN
China
Prior art keywords
voice
preset
dialogue
corpus
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010550379.9A
Other languages
English (en)
Other versions
CN111739519B (zh
Inventor
叶怡周
马骏
王少军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202010550379.9A priority Critical patent/CN111739519B/zh
Publication of CN111739519A publication Critical patent/CN111739519A/zh
Priority to PCT/CN2020/122422 priority patent/WO2021135534A1/zh
Application granted granted Critical
Publication of CN111739519B publication Critical patent/CN111739519B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)

Abstract

本申请实施例提供了一种基于语音识别的对话管理处理方法、装置、计算机设备及计算机可读存储介质。本申请涉及人工智能技术领域,通过对话管理系统接收用户语音,使用第一预设语音识别模型对用户语音进行识别,根据识别结果对用户语音进行回应,形成对话语音语料,发送对话语音语料至语料标注系统,语料标注系统对对话语音语料进行标注以得到标注语音语料,模型训练系统获取标注语音语料,使用标注语音语料对第二预设语音识别模型进行训练,判断训练后的第二预设语音识别模型是否满足预设对话完成率条件,若满足预设对话完成率条件,采用训练后的第二预设语音识别模型以供对话管理系统调用而完成新对话,能提高对话完成率。

Description

基于语音识别的对话管理处理方法、装置、设备及介质
技术领域
本申请涉及人工智能技术领域,尤其涉及一种基于语音识别的对话管理处理方法、装置、计算机设备及计算机可读存储介质。
背景技术
随着语音识别技术的发展,尤其是语音识别技术应用于自助服务等机器人上面,对语音识别的识别效果提出了更高的要求,尤其对于各类客服机器人,在各种应用场景下所对应的专业服务上,需要对用户的语音识别准确。
进行语音识别,一般通过语音识别模型进行识别,比如通过ASR(英文为AutomaticSpeech Recognition,语音识别)模型进行识别。ASR模型识别率,主要由声学模型和语言模型决定,通过声学模型,产生词序列后,再经过语言模型,选择最符合正常说法的一组词序列,作为最终的音转字结果。传统技术中,对ASR模型训练,主要是采用已积累的训练样本语料进行训练,对ASR模型识别训练经开发环境和测试环境验证满足要求后,投入到生产环境中。因此,传统ASR技术中,由于是采用预先已积累的有限语料训练的ASR模型,但在实际的生产环境中,用户的询问语音是千变万化的,针对用户的询问语音,回答语音不能覆盖所有询问语音的情形,而针对训练ASR模型时未覆盖的询问语音模型,ASR模型不能实现准确语音识别。因此,传统的ASR训练系统中,即使对ASR模型进行训练时,ASR模型的训练效果能够满足要求,在生产环境中,也存在着由于语音识别准确率较低而导致回答不准确的问题,需要定期根据生产环境中产生的语料反复的去训练ASR模型,才能实现ASR模型的更新。
由于传统技术中ASR模型不能实现及时更新,无形中延长了ASR训练周期,降低了对ASR模型的训练效率,而对ASR模型的训练效率较低,导致不能及时提高生产环境中ASR模型在对话管理中,通过提高语音识别的准确性而实现提高对话回答的完成率,降低了各种机器人的自助服务质量。
发明内容
本申请实施例提供了一种基于语音识别的对话管理处理方法、装置、计算机设备及计算机可读存储介质,能够解决传统技术中对ASR模型的训练效率较低而导致降低了各种机器人的自助服务质量的问题。
第一方面,本申请实施例提供了一种基于语音识别的对话管理处理方法,所述方法包括:通过对话管理系统接收用户语音,以使所述对话管理系统调用第一预设语音识别模型对所述用户语音进行识别以得到识别结果,并根据所述识别结果对所述用户语音进行回应以完成对话,将所述对话形成对话语音语料;通过第一预设消息中间件将所述对话语音语料发送至语料标注系统,以使所述语料标注系统通过预设语音语料标注工具对所述对话语音语料进行标注,以得到标注语音语料;通过第二预设消息中间件将所述标注语音语料发送至语音识别模型训练系统,以使所述语音识别模型训练系统使用所述标注语音语料对第二预设语音识别模型进行训练;判断训练后的第二预设语音识别模型是否满足预设对话完成率条件,其中,对话完成率为该预设时间段内基于语音识别所完成的对话数量占该预设时间段内所有对话数量的比例;若所述训练后的第二预设语音识别模型满足所述预设对话完成率条件,采用所述训练后的第二预设语音识别模型替换所述第一预设语音识别模型以供所述对话管理系统调用而完成新的对话。
第二方面,本申请实施例还提供了一种基于语音识别的对话管理处理装置,包括:对话单元,用于通过对话管理系统接收用户语音,以使所述对话管理系统调用第一预设语音识别模型对所述用户语音进行识别以得到识别结果,并根据所述识别结果对所述用户语音进行回应以完成对话,将所述对话形成对话语音语料;标注单元,用于通过第一预设消息中间件将所述对话语音语料发送至语料标注系统,以使所述语料标注系统通过预设语音语料标注工具对所述对话语音语料进行标注,以得到标注语音语料;训练单元,用于通过第二预设消息中间件将所述标注语音语料发送至语音识别模型训练系统,以使所述语音识别模型训练系统使用所述标注语音语料对第二预设语音识别模型进行训练;判断单元,用于判断训练后的第二预设语音识别模型是否满足预设对话完成率条件,其中,对话完成率为该预设时间段内基于语音识别所完成的对话数量占该预设时间段内所有对话数量的比例;替换单元,用于若所述训练后的第二预设语音识别模型满足所述预设对话完成率条件,采用所述训练后的第二预设语音识别模型替换所述第一预设语音识别模型以供所述对话管理系统调用而完成新的对话。
第三方面,本申请实施例还提供了一种计算机设备,其包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现所述基于语音识别的对话管理处理方法的步骤。
第四方面,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器执行所述基于语音识别的对话管理处理方法的步骤。
本申请实施例提供了一种基于语音识别的对话管理处理方法、装置、计算机设备及计算机可读存储介质。本申请实施例通过对话管理系统接收用户语音,使用第一预设语音识别模型对所述用户语音进行识别以得到识别结果,并根据识别结果对所述用户语音进行回应,以形成交互的对话语音语料,通过消息中间件发送所述对话语音语料至语料标注系统,语料标注系统接收所述对话语音语料,对所述对话语音语料进行标注以得到标注语音语料,模型训练系统获取所述标注语音语料,使用所述标注语音语料对第二预设语音识别模型进行训练,判断训练后的第二预设语音识别模型是否满足预设对话完成率条件,若所述训练后的第二预设语音识别模型满足所述预设对话完成率条件,采用所述训练后的第二预设语音识别模型替换所述第一预设语音识别模型以供所述对话管理系统调用而完成新的对话,由于语音识别准确率与其采用的对语言模型进行训练的语音语料有直接关系,而在本申请实施例中,由于将对话管理系统、语料标注系统及语音识别模型训练系统进行了耦合,能将对话管理系统产生的真实语音语料及时的发送给语料标注系统进行标注,并且使模型训练系统使用标注后的真实语音语料对第二预设语音识别模型进行实时训练,相比传统技术中将对话管理系统、语料标注系统及语音识别模型训练系统割裂以分别处理的方式,本申请实施例由于能够采用每一个业务场景下产生的真实语音语料对语音识别中的语言模型进行及时的训练,能够提高训练语音识别模型时的识别准确性,以提高对话管理中语音识别的准确性,从而提高对话完成率,尤其能够提升智能客服机器人的自助服务完成率。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的基于语音识别的对话管理处理方法的一个流程示意图;
图2为本申请实施例提供的基于语音识别的对话管理处理方法中一个具体实施例的示意图;
图3为本申请实施例提供的基于语音识别的对话管理处理方法的一个子流程示意图;
图4为本申请实施例提供的基于语音识别的对话管理处理装置的一个示意性框图;以及
图5为本申请实施例提供的计算机设备的示意性框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
请参阅图1,图1为本申请实施例提供的基于语音识别的对话管理处理方法的一个流程示意图。如图1所示,该方法包括以下步骤S101-S105:
S101、通过对话管理系统接收用户语音,以使所述对话管理系统调用第一预设语音识别模型对所述用户语音进行识别以得到识别结果,并根据所述识别结果对所述用户语音进行回应以完成对话,将所述对话形成对话语音语料。
具体地,语音识别模型训练系统需要真实的语境语料,才能提高语音识别模型训练的准确性,而对话管理系统可以提供用户办理业务所对应场景的真实对话,通过对话管理系统接收用户语音,所述对话管理系统调用第一预设语音识别模型对所述用户语音进行识别以得到识别结果,比如,所述对话管理系统调用第一ASR(英文为Automatic SpeechRecognition,语音识别)模型和第一NLU模型(英文为Natural Language Understanding,NLU))(均为当前使用的模型)对用户语音进行识别以得到用户语音所对应的识别结果,并根据所述识别结果对所述用户语音进行回应以完成对话,从而实现用户与智能语音计算机设备的交互,最后将所述对话形成对话语音语料。
S102、通过第一预设消息中间件将所述对话语音语料发送至语料标注系统,以使所述语料标注系统通过预设语音语料标注工具对所述对话语音语料进行标注,以得到标注语音语料。
其中,语音语料标注为自然语言处理中为语音识别模型提供符合语音识别模型进行识别所需要的语音语料而对语音语料进行的标注,语音语料标注包括ASR标注方式对所述对话语音语料进行标注,及NLU标注方式对话语音语料进行标注,其中,实现ASR标注方式包括采用Praat工具、Transcriber工具及Transcriber工具等实现语音语料进行标注,NLU标注方式可以采用语料标注工具Brat语料标注工具、Prodigy工具或者YEDDA工具等方式对语音语料进行标注。
具体地,对话管理系统通过和用户进行交互得到对话语音语料后,通过第一预设消息中间件将所述对话语音语料发送至语料标注系统,语料标注系统获取所述对话语音语料,通过预设语音语料标注工具对所述对话语音语料进行标注,以得到标注语音语料,并发送至文件服务器上。比如,请参阅图2,图2为本申请实施例提供的基于语音识别的对话管理处理方法中一个具体实施例的示意图,如图2所示,在该实施例中,每进行一次人机交互后,对话管理系统会将此次交互的人机对话的文字、AsrSessionID(即ASR对话ID)、交互的时间点、交互结果信息(是否成功及转接人工等)和辅助信息(例如办理的业务流程名称、电话的区号及性别等非敏感信息)通过MQ(英文为Message Queue,消息队列,简称MQ,又称为消息中间件)发送给语料标注系统,语料标注系统会根据对话进行标注,目前针对ASR语言模型的语料和NLU模型的语料分别进行标注。相对于传统技术中很多语料标注中将ASR产品和对话管理系统分离开来,而导致ASR模型和对话管理系统并没有形成一体协作,本申请实施例通过将ASR产品和对话管理系统进行解耦,形成一体协作,由于直接通过对话管理系统产生的真实语音语料进行语音识别模型的训练,能够提高语音识别模型进行训练的效率和语音识别的准确性。
进一步地,接收对所述标注语音语料进行的操作,所述操作包括修订和确认。针对标注语料,可以采用半自动化,首先将用户的录音通过ASR引擎转写成文字进行标注后,然后标注人员去看检查这些结果是否符合要求,如果准确就无需操作,如果有误,需要标注人员修改为正确文字,然后经标注人员确认无误后,针对该确认语料进行语音识别模型的训练,从而保证标注的准确性,提高语音识别的准确性。
S103、通过第二预设消息中间件将所述标注语音语料发送至语音识别模型训练系统,以使所述语音识别模型训练系统使用所述标注语音语料对第二预设语音识别模型进行训练。
其中,所述第二预设语音识别模型和所述第一预设语音识别模型可以相同,也可以不同,可以基于相同的语音识别模型进行构建,也可以基于不同的语音识别模型进行构建。
具体地,语料标注系统针对标注好的语料推到文件服务器上,然后模型训练系统从文件服务器上获取所述标注语音语料,即可使用所述标注语音语料针对语音识别模型进行训练,其中,包括针对ASR模型进行训练和针对NLU模型进行训练。针对ASR的语言模型进行训练,ASR的语言模型采用神经网络语言模型,ASR模型需要参考上下文,也即需要参考机器的问话,该模型对语意的表达更为准确,例如音转字的结果为“信用卡急活”,通过神经网络语言模型快速修正为“信用卡激活”,同时语言模型的领域较强,因此不同的业务会采用不同的语言模型,而本申请的语音语料正是直接实时的来源于对话管理系统,这样采用真实业务语境中所产生的真实语音语料对语音识别模型进行训练,会大大提供语音识别模型对该业务场景下的语音识别率,实现语音识别模型和真实业务场景紧密结合,使训练出来的语音识别模型和真实业务场景具有一致的匹配性,对语音识别模型进行训练具有针对该业务场景的针对性。同时,也会给NLU模型进行训练,针对NLU模型的训练更是需要上下文的结合,从而符合语音识别模型中所采用的语言模型和业务领域关联性特别强的特点,可以实现根据不同的业务场景去训练语音识别中的语言模型,能够提高语音识别的准确性和效率,从而尤其提高自主服务的完成率。
请继续参阅图2,在本申请实施例中,通过对话管理系统接收用户语音,使用第一语音识别模型(比如,第一语音识别模型包括第一ASR模型和第一NLU模型)对所述用户语音识别以得到识别结果,并根据识别结果进行回应,从而形成交互过程中的对话语音语料,发送所述对话语音语料至语料标注系统,语料标注系统接收所述对话语音语料,对所述对话语音语料进行标注以得到标注语音语料,并发送至文件服务器上,模型训练系统从文件服务器上获取所述标注语音语料,使用所述标注语料进行第二语音识别模型(比如,第二语音识别模型包括第二ASR模型和第二NLU模型)进行训练,对话管理系统与语料标注系统之间利用MQ进行通信,语料标注系统与模型训练系统之间利用MQ进行通信,由于对话管理系统所产生的对话语音语料,属于办理一个完整业务的场景(如申请信用卡固定额度等),该对话语音语料中的语义上下文紧密相关,对语音识别模型进行训练的对话语音语料中包含有上下文的关系,业务诉求是客户每一次进线都能办理完成,由于语料有内在的上下文所对应的内涵关系,通过办理过程中产生的语料和结果及时反馈给NLP中的ASR系统和NLU模型,能够使模型训练系统及时的采用真实的有上下文关系的语境语料训练ASR模型和NLU模型,能够及时的提高ASR模型和NLU模型的语音识别准确率,能够及时根据该对话管理系统所应用的业务场景进行调整,从而能够及时的提高语音识别的准确率,因此,本申请实施例应用于自助服务时,能够提高客户办理业务的成功率,避免业务办理资源的浪费。
在传统技术中,由于对话管理系统、语料标注系统和模型训练系统都是割裂的,通过人工去导数据、做标注,效率比较低下,时效性也滞后,而本申请实施例中通过将对话管理系统,语料标注系统和模型训练系统这三个系统通过MQ进行解耦,在实现各自运行互不干涉的同时,实现对话管理系统,语料标注系统和模型训练系统的一体化,能够做到一种业务场景对应的业务模型有对应的真实语音语料,并且这些业务场景如果是新的,通过对话管理去生产环境运作,有真实的客户来办理之后才会有真实场景的语料,这些语料才可能作为语音识别模型进行训练的语料,从而保证语音识别模型相对于业务场景的可靠性,避免传统技术中语音识别模型进行训练时压根就不存在这些新场景的语料,没有形成这样一个反馈闭环,从而传统技术中只能属于问答类的机器人,只能做到一问一答类型。
S104、判断训练后的第二预设语音识别模型是否满足预设对话完成率条件,其中,对话完成率为该预设时间段内基于语音识别所完成的对话数量占该预设时间段内所有对话数量的比例。
S105、若所述训练后的第二预设语音识别模型满足所述预设对话完成率条件,采用所述训练后的第二预设语音识别模型替换所述第一预设语音识别模型以供所述对话管理系统调用而完成新的对话,若所述训练后的第二预设语音识别模型不满足所述预设对话完成率条件,继续采用步骤S101产生的新对话语音语料对所述第二预设语音识别模型进行训练,直至所述训练后的第二预设语音识别模型满足所述预设对话完成率条件。
其中,对话完成率为该预设时间段内基于语音识别所完成的对话数量占该预设时间段内所有对话数量的比例,预设对话完成率条件指第二预设语音识别模型在预设时间段内自助完成的对话比例是否满足预期,例如,该对话比例是否大于或者等于预设比例值,或者第二预设语音识别模型在预设时间段内自助完成对话比例是否大于原来使用的语音识别模型在同样的预设时间段内自助完成的对话比例等。
具体地,采用对话管理系统所产生的用户办理业务的真实场景所产生的语音语料,对第二预设语音识别模型进行训练一个预设周期后,比如一个月或者半年后,判断训练后的第二预设语音识别模型是否满足预设对话完成率条件,若所述训练后的第二预设语音识别模型满足所述预设对话完成率条件,采用所述训练后的第二预设语音识别模型替换所述第一预设语音识别模型,对话管理系统再接收到用户办理业务的语音服务时,调用第二预设语音识别模型对用户办理业务的语音进行识别,即所述对话管理系统调用训练后的第二预设语音识别模型而完成新的对话。由于训练后的第二预设语音识别模型采用对话管理系统实时产生的用户办理业务的真实场景所产生的语音语料,更能符合真实的办理业务的实际需要,训练出来的第二语音识别模型也更能适应办理业务的真实场景,从而能提高办理业务中语音识别的准确性,提高对话质量,从而提高对话完成率。
本申请实施例通过对话管理系统接收用户语音,使用第一预设语音识别模型对所述用户语音进行识别以得到识别结果,并根据识别结果对所述用户语音进行回应,以形成交互的对话语音语料,通过消息中间件发送所述对话语音语料至语料标注系统,语料标注系统接收所述对话语音语料,对所述对话语音语料进行标注以得到标注语音语料,模型训练系统获取所述标注语音语料,使用所述标注语音语料对第二预设语音识别模型进行训练,判断训练后的第二预设语音识别模型是否满足预设对话完成率条件,若所述训练后的第二预设语音识别模型满足所述预设对话完成率条件,采用所述训练后的第二预设语音识别模型替换所述第一预设语音识别模型以供所述对话管理系统调用而完成新的对话,由于语音识别准确率与其采用的对语言模型进行训练的语音语料有直接关系,而在本申请实施例中,由于将对话管理系统、语料标注系统及语音识别模型训练系统进行了耦合,能将对话管理系统产生的真实语音语料及时的发送给语料标注系统进行标注,并且使模型训练系统使用标注后的真实语音语料对第二预设语音识别模型进行实时训练,相比传统技术中将对话管理系统、语料标注系统及语音识别模型训练系统割裂以分别处理的方式,本申请实施例由于能够采用每一个业务场景下产生的真实语音语料对语音识别中的语言模型进行及时的训练,能够提高训练语音识别模型时的识别准确准确性,以提高对话管理中语音识别的准确性,从而提高对话完成率,尤其能够提升智能客服机器人的自助服务完成率。
在一个实施例中,所述对话语音语料包括若干次对话各自对应所形成的若干个语音语料,每次对话所形成的语音语料包括该次对话所对应的交互结果,所述交互结果包括转接人工,所述通过预设语音语料标注工具对所述对话语音语料进行标注,以得到标注语音语料的步骤包括:
识别出所述交互结果为转接人工的语音语料;
将所述对话语音语料中交互结果为转接人工的语音语料进行剔除,以得到筛选后的对话语音语料;
通过预设语音语料标注工具对所述筛选后的对话语音语料进行标注以得到标注语音语料。
具体地,一般由于提供自助服务的计算机设备处理不了的问题,才会转接人工,因此,凡是转接人工的自助服务都是计算机设备无法完成的服务,表明对该语音识别模型的训练中存在没有覆盖到的业务场景,可能是对该业务场景的语义理解有误,或者是对该业务场景不支持,因此,对于没有完成自助服务的语音识别,不适合直接作为训练模型的语音语料,而将交互结果为交互成功的语音语料作为训练模型的语料,只有将交互结果为交互成功的语音语料作为训练语音识别模型的语料,才能进一步提高语音识别模型的训练效率和训练准确性。针对交互结果为转接人工的业务场景需要后续业务人员去核查原因并采用人为方式重新训练语音识别模型。其中,交互结果是否转接人工,可以通过为字段赋值的方式进行判断,比如,交互结果转接人工,交互结果所对应的字段“R”赋值为“0”,交互结果未转接人工,自助服务和客户交互成功,交互结果所对应的字段“R”赋值为“1”等。
请参阅图3,图3为本申请实施例提供的基于语音识别的对话管理处理方法的一个子流程示意图,如图3所示,在该实施例中,所述对话管理系统调用第一预设语音识别模型对所述用户语音进行识别以得到识别结果,并根据所述识别结果对所述用户语音进行回应以完成对话,将所述对话形成对话语音语料的步骤包括:
S301、接收用户语音所对应的第一次语音,生成所述用户语音所对应对话的预设对话编码标识,其中,预设对话编码标识可以为对话流水号,包括该对话的日期及时间、对话顺序编号、接入的自助服务机器编号等对话涉及的机器设备元素、时间元素及用户元素,按照第一预设顺序生成包含该对话的日期及时间、对话顺序编号、接入的自助服务机器编号等对话涉及的机器设备元素、时间元素及用户元素的字符串即可生成所述用户语音所对应对话的预设对话编码标识。
S302、根据所述预设对话编码标识,调用第一预设ASR模型,以通过所述第一预设ASR模型将所述第一次语音转换成用户文字,并基于所述预设对话编码标识生成该次调用所对应的ASR对话编码标识,其中,ASR对话编码标识为调用该ASR模型的流水号,包括所述预设对话编码标识、进行调用的日期及时间、属于第几次调用等所对应的调用次数,按照第二预设顺序生成包括所述预设对话编码标识、进行调用的日期及时间、属于第几次调用等所对应的调用次数的字符串即可生成ASR对话编码标识。
S303、调用第一预设NLU模型对所述用户文字进行理解以得到用户语义。
S304、根据所述用户语义,从预设数据库中通过预设语义匹配方式筛选出与所述用户语义所对应的预设对答,其中,所述语义匹配包括语义精确匹配和语义模糊匹配,语义精确匹配为数据库中的预设对答中包含与用户语音中识别出来的语义存在完全相同语义的语义匹配方式,语义模糊匹配为数据库中的预设对答中包含与用户语音中识别出来的语义存在相同或者相似的语义匹配方式。
S305、将所述预设对答转换成回应语音,将所述回应语音发送至用户以对所述第一次语音进行回应。
S306、判断所述用户语音是否结束。
S307、若所述用户语音未结束,接收所述用户语音所对应的第二次语音,迭代执行根据所述预设对话编码标识,调用第一预设ASR模型的步骤,直至所述用户语音结束,以完成对话,进入步骤S308。
S308、若所述用户语音结束,完成对话。
S309、将所述用户语音和所述预设对答形成对话语音语料,其中,所述对话语音语料中包括预设对话编码标识和所述ASR对话编码标识。
其中,自动语音识别,英文为Automatic Speech Recognition,简称“ASR“),可分为“传统”识别方式与“端到端”识别方式,其主要差异就体现在声学模型上,其中,“传统”方式的声学模型一般采用隐马尔可夫模型(英文简写为HMM),而“端到端”方式一般采用深度神经网络(英文简写为DNN)。
具体地,在用户办理业务的对话中,需要用户和自助语音服务不断的进行交互,比如通过一问一答的形式进行交互,对话管理系统开始接受用户语音时,接收该用户语音的第一次语音,生成该次通话的预设对话编码标识,预设对话编码标识用于跟踪该次办理业务的通话,根据所述预设对话编码标识,调用第一预设ASR模型,以通过所述第一预设ASR模型将所述第一次语音转换成第一用户文字,并生成第一次语音所对应的第一ASR对话编码标识,第一ASR对话编码标识用于描述针对于第一次语音所对应的调用ASR模型,调用第一预设NLU模型对所述第一用户文字进行理解以得到第一用户语义,根据所述第一用户语义,从预设数据库中通过预设语义匹配方式筛选出与所述第一用户语义所对应的第一预设对答,将所述第一预设对答转换成第一回应语音,以对所述第一次语音进行回应,判断所述用户语音是否结束,若所述用户语音未结束,接收该用户语音的第二次语音,继续调用第一预设ASR模型,以通过所述第一预设ASR模型将所述第二次语音转换成第二用户文字,并生成第二次语音所对应的第二ASR对话编码标识,第二ASR对话编码标识用于描述针对于第二次语音所对应的调用ASR模型,继续调用第一预设NLU模型对所述第二用户文字进行理解以得到第二用户语义,根据所述第二用户语义,继续从预设数据库中通过预设语义匹配方式筛选出与所述第二用户语义所对应的第二预设对答,将所述第二预设对答转换成第二回应语音,以对所述第二次语音进行回应,再次判断所述用户语音是否结束,若所述用户语音未结束,继续接收该用户语音的第三次语音,再次迭代执行根据所述预设对话编码标识,调用第一预设ASR模型的步骤,直至用户语音结束,以完成对话,若所述用户语音结束,则完成对话,将该次通话中所包含的若干次语音和每次语音各自所对应的预设对答形成对话语音语料,其中,所述对话语音语料中包括预设对话编码标识和所述ASR对话编码标识。比如,当用户拨打语音通话办理自助服务的时候,对话管理系统可以通过产生一个UniqueID,这个UniqueID是用于标记一通对话的ID,对话管理系统会记录每一次用户说的话和对话管理系统的回答,并且每一次调用ASR模型将用户说的话进行音转字的过程会产生一个AsrSessionID,这个AsrSessionID是用于标记一次ASR交互,ASR系统将音转字的结果给到对话管理系统,对话管理系统会将文字调用NLU模型进行理解,根据理解结果,从数据库中选择预先设置的对应回答进行回应,从而实现用户与语音服务自助计算机设备的交互,并将交互过程中的对话形成对话语音语料,因此,在这整个过程中,ASR模型和NLU模型至关重要,针对一通对话和每一次ASR调用分别设置对话标识,才能通过对话标识将一通对话的上下文关联起来形成一个完整的交互过程,从而方便后续ASR和NLU模型根据上下文实现学习,从而提高语音识别模型训练的准确性。
在一个实施例中,所述语料标注系统通过预设语音语料标注工具对所述对话语音语料进行标注,以得到标注语音语料的步骤包括:
使用预设ASR标注方式对所述对话语音语料进行标注,以得到ASR标注语音语料;
使用预设NLU标注方式对所述对话语音语料进行标注,以得到NLU标注语音语料;
所述语音识别模型训练系统使用所述标注语音语料对第二预设语音识别模型进行训练的步骤包括:
语音识别模型训练系统获取所述ASR标注语音语料和所述NLU标注语音语料;
使用所述ASR标注语音语料对第二预设ASR模型进行训练,使用所述NLU标注语音语料对第二预设NLU模型进行训练。
其中,ASR模型为声学模型,是将声学和发音学的知识进行整合,从而将声音转换为文字。在进行语音识别以将声音转换为文字的时候,由于声音所发出的语音是连续性的声音,计算机设备不知道语音的哪一个部分对应的是哪一个音素或者词,需要首先通过ASR标注方式对所述对话语音语料进行标注,从而对语音能够自动切分音素或者词,进而将语音的因素或者词对应转换为文字,以实现通过ASR模型将语音转换为文字,ASR标注方式为对所述对话语音语料进行语音标注的方式,可以通过语音标注工具实现ASR标注,其中,语音标注工具包括Praat工具、Transcriber工具及Transcriber工具等。
NLU模型为语言模型,是用于通过训练语料学习词与词之间的相互关系,来估计假设词序列的可能性,又叫语言模型分数,体现的是由字组成词,由词组成句,从而表达语言文字内容的字及词之间的关系,语言模型通常可以实现对语言更准确的估计。语言模型包括SRILM、IRSTLM、MITLM及BerkeleyLM等。要通过NLU模型将文字转换为通常描述含义的词及句子,需要对得到的文字进行标注,从而将标注后的文字通过NLU模型组成具有含义的词及句子。因此,在将语音转换为文字后,需要对得到的文字通过预设NLU标注方式进行标注,以得到NLU标注语音语料,从而使用NLU模型将NLU标注语音语料转换为具有含义内容的词及句子,最终实现将语音转换为通常使用的文字语言。其中,对ASR标注语音语料所包含的文字进行标注的NLU标注方式可以通过语料标注工具对语音语料进行标注,语料标注工具包括Brat语料标注工具、Parker语料标注工具、YEDDA语料标注工具、Snorkel语料标注工具及Prodigy语料标注工具等。
具体地,在本申请实施中,通过对话管理系统接收用户语音,使用第一ASR模型和第一NLU模型对所述用户语音进行识别以得到识别结果,并根据识别结果进行回应,以形成对话语音语料,发送所述对话语音语料至语料标注系统,语料标注系统接收所述对话语音语料,对所述对话语音语料进行标注以得到标注语音语料,使用预设ASR标注方式对所述对话语音语料进行标注,以得到ASR标注语音语料,使用预设NLU标注方式对所述对话语音语料进行标注,以得到NLU标注语音语料,并发送至文件服务器上,模型训练系统从文件服务器上获取所述标注语音语料,使用所述ASR标注语音语料和所述NLU标注语音语料分别对第二ASR模型和第二NLU模型进行训练,从而使用真实的语料实时的训练ASR模型和NLU模型,由于语音识别准确率与语言模型采用的语音语料有很大的关系,针对每一个业务,使用各自业务场景所产生的真实语音语料训练各自业务所对应的ASR模型,能够提高ASR模型对语音识别的准确率,由于ASR模型对语音识别准确率提高了,也会促进NLU模型的理解正确率,最终提升整个语音识别的准确率,从而最终实现提升智能客服机器人的自助服务完成率。
在一个实施例中,所述判断训练后的第二预设语音识别模型是否满足预设对话完成率条件的步骤之前,还包括:
所述对话管理系统调用所述第二预设ASR模型和所述第二预设NLU模型对接收的新用户语音进行识别,并对所述新用户语音进行回应以完成对话;
统计预设时间段内所述第一预设ASR模型和所述第一预设NLU模型对所述用户语音进行识别所完成对话的第一完成率;
统计所述预设时间段内所述第二预设ASR模型和所述第二预设NLU模型对所述新用户语音进行识别所完成对话的第二完成率;
所述判断训练后的第二预设语音识别模型是否满足预设对话完成率条件的步骤包括:
判断所述第二完成率是否大于所述第一完成率;
若所述第二完成率大于所述第一完成率,判定所述训练后的第二预设语音识别模型满足预设对话完成率条件。
具体地,针对预设时间段内所述第一预设ASR模型和所述第一预设NLU模型,及所述预设时间段内所述第二预设ASR模型和所述第二预设NLU模型,分别统计各自在相同时间段内的完成率,判断所述第二完成率是否大于所述第一完成率,若所述第二完成率大于所述第一完成率,判定所述训练后的第二预设语音识别模型满足预设对话完成率条件,将所述第二预设ASR模型替换所述第一预设ASR模型,将所述第二预设NLU模型替换所述第一预设NLU模型。对于对话管理系统在预设时间段内提供的自助语音服务,然后对每一种自助语音服务的完成率进行统计,即统计交互结果为成功而不需要转接人工的自助语音服务结果所对应的对话,如果采用训练好的所述第二预设ASR模型和所述第二预设NLU模型之后,自助语音服务完成率得到了提升,就会采用所述第二预设ASR模型和所述第二预设NLU模型所对应的新模型,反之,如果采用训练好的所述第二预设ASR模型和所述第二预设NLU模型之后,自助语音服务完成率未得到提升,则继续沿用所述第一预设ASR模型和所述第一预设NLU模型所对应的老模型,针对所述第二预设ASR模型和所述第二预设NLU模型继续进行训练。比如,对话管理系统每一个月会对每一种自助语音服务的完成率进行统计,如果采用训练好的第二预设语音识别模型之后,完成率得到了提升,就会采用第二预设语音识别模型,反之,则继续使用第一预设语音识别模型完成用户办理业务的对话,针对第二预设语音识别模型则继续训练。
由于语音识别准确率与其采用的语言模型有很大的关系,而语言模型的训练又与所采用的语音识别语料有直接关系,本申请实施例针对每一个业务均采用该业务所对应的真实语音识别语料,从而训练出不同ASR神经网络语言模型,语音识别准确率提高了,也会促进NLU模型的理解正确率,从而能够构建有业务针对性的语料标注系统和模型训练系统,尤其对于客服机器人,通过构建有业务针对性的语料标注系统和模型训练系统,进而提升语音识别的准确性和效率显得格外重要,才能在各种类型的专业服务上识别准确,最终提升智能客服机器人的自助服务完成率。
需要说明的是,上述各个实施例所述的基于语音识别的对话管理处理方法,可以根据需要将不同实施例中包含的技术特征重新进行组合,以获取组合后的实施方案,但都在本申请要求的保护范围之内。
请参阅图4,图4为本申请实施例提供的基于语音识别的对话管理处理装置的一个示意性框图。对应于上述所述基于语音识别的对话管理处理方法,本申请实施例还提供一种基于语音识别的对话管理处理装置。如图4所示,该基于语音识别的对话管理处理装置包括用于执行上述所述基于语音识别的对话管理处理方法的单元,该基于语音识别的对话管理处理装置可以被配置于计算机设备中。具体地,请参阅图4,该基于语音识别的对话管理处理装置400包括对话单元401、标注单元402、训练单元403、判断单元404及替换单元405。
其中,对话单元401,用于通过对话管理系统接收用户语音,以使所述对话管理系统调用第一预设语音识别模型对所述用户语音进行识别以得到识别结果,并根据所述识别结果对所述用户语音进行回应以完成对话,将所述对话形成对话语音语料;
标注单元402,用于通过第一预设消息中间件将所述对话语音语料发送至语料标注系统,以使所述语料标注系统通过预设语音语料标注工具对所述对话语音语料进行标注,以得到标注语音语料;
训练单元403,用于通过第二预设消息中间件将所述标注语音语料发送至语音识别模型训练系统,以使所述语音识别模型训练系统使用所述标注语音语料对第二预设语音识别模型进行训练;
判断单元404,用于判断训练后的第二预设语音识别模型是否满足预设对话完成率条件,其中,对话完成率为该预设时间段内基于语音识别所完成的对话数量占该预设时间段内所有对话数量的比例;
替换单元405,用于若所述训练后的第二预设语音识别模型满足所述预设对话完成率条件,采用所述训练后的第二预设语音识别模型替换所述第一预设语音识别模型以供所述对话管理系统调用而完成新的对话。
在一个实施例中,所述对话语音语料中包括若干次对话各自对应所形成的若干个语音语料,每次对话所形成的语音语料包括该次对话所对应的交互结果,所述交互结果包括转接人工,所述标注单元402包括:
识别子单元,用于识别出所述交互结果为转接人工的语音语料;
剔除子单元,用于将所述对话语音语料中交互结果为转接人工的语音语料进行剔除,以得到筛选后的对话语音语料;
标注子单元,用于通过预设语音语料标注工具对所述筛选后的对话语音语料进行标注以得到标注语音语料。
在一个实施例中,所述对话单元401包括:
第一接收子单元,用于接收用户语音所对应的第一次语音,生成所述用户语音所对应对话的预设对话编码标识;
第一调用子单元,用于根据所述预设对话编码标识,调用第一预设ASR模型,以通过所述第一预设ASR模型将所述第一次语音转换成用户文字,并基于所述预设对话编码标识生成该次调用所对应的ASR对话编码标识;
第二调用子单元,用于调用第一预设NLU模型对所述用户文字进行理解以得到用户语义;
筛选子单元,用于根据所述用户语义,从预设数据库中通过预设语义匹配方式筛选出与所述用户语义所对应的预设对答;
回应子单元,用于将所述预设对答转换成回应语音,将所述回应语音发送至用户以对所述第一次语音进行回应;
第一判断子单元,用于判断所述用户语音是否结束;
第二接收子单元,用于若所述用户语音未结束,接收所述用户语音所对应的第二次语音,迭代执行根据所述预设对话编码标识,调用第一预设ASR模型的步骤,直至所述用户语音结束,以完成对话;
形成对话子单元,用于若所述用户语音结束,完成对话,并将所述用户语音和所述预设对答形成对话语音语料,其中,所述对话语音语料中包括所述预设对话编码标识和所述ASR对话编码标识。
在一个实施例中,所述标注单元402包括:
第一标注子单元,用于使用预设ASR标注方式对所述对话语音语料进行标注,以得到ASR标注语音语料;
第二标注子单元,用于使用预设NLU标注方式对所述对话语音语料进行标注,以得到NLU标注语音语料;
所述训练单元403包括:
获取子单元,用于语音识别模型训练系统获取所述ASR标注语音语料和所述NLU标注语音语料;
训练子单元,用于使用所述ASR标注语音语料对第二预设ASR模型进行训练,使用所述NLU标注语音语料对第二预设NLU模型进行训练。
在一个实施例中,所述基于语音识别的对话管理处理装置400还包括:
调用单元,用于所述对话管理系统调用所述第二预设ASR模型和所述第二预设NLU模型对接收的新用户语音进行识别,并对所述新用户语音进行回应以完成对话;
第一统计单元,用于统计预设时间段内所述第一预设ASR模型和所述第一预设NLU模型对所述用户语音进行识别所完成对话的第一完成率;
第二统计单元,用于统计所述预设时间段内所述第二预设ASR模型和所述第二预设NLU模型对所述新用户语音进行识别所完成对话的第二完成率;
所述判断单元404包括:
第二判断子单元,用于判断所述第二完成率是否大于所述第一完成率;
判定子单元,用于若所述第二完成率大于所述第一完成率,判定所述训练后的第二预设语音识别模型满足预设对话完成率条件。
需要说明的是,所属领域的技术人员可以清楚地了解到,上述基于语音识别的对话管理处理装置和各单元的具体实现过程,可以参考前述方法实施例中的相应描述,为了描述的方便和简洁,在此不再赘述。
同时,上述基于语音识别的对话管理处理装置中各个单元的划分和连接方式仅用于举例说明,在其他实施例中,可将基于语音识别的对话管理处理装置按照需要划分为不同的单元,也可将基于语音识别的对话管理处理装置中各单元采取不同的连接顺序和方式,以完成上述基于语音识别的对话管理处理装置的全部或部分功能。
上述基于语音识别的对话管理处理装置可以实现为一种计算机程序的形式,该计算机程序可以在如图5所示的计算机设备上运行。
请参阅图5,图5是本申请实施例提供的一种计算机设备的示意性框图。该计算机设备500可以是台式机电脑或者服务器等计算机设备,也可以是其他设备中的组件或者部件。
参阅图5,该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505,其中,存储器可以包括非易失性存储介质503和内存储器504。
该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032被执行时,可使得处理器502执行一种上述基于语音识别的对话管理处理方法。
该处理器502用于提供计算和控制能力,以支撑整个计算机设备500的运行。
该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境,该计算机程序5032被处理器502执行时,可使得处理器502执行一种上述基于语音识别的对话管理处理方法。
该网络接口505用于与其它设备进行网络通信。本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备500的限定,具体的计算机设备500可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。例如,在一些实施例中,计算机设备可以仅包括存储器及处理器,在这样的实施例中,存储器及处理器的结构及功能与图5所示实施例一致,在此不再赘述。
其中,所述处理器502用于运行存储在存储器中的计算机程序5032,以实现如下步骤:通过对话管理系统接收用户语音,以使所述对话管理系统调用第一预设语音识别模型对所述用户语音进行识别以得到识别结果,并根据所述识别结果对所述用户语音进行回应以完成对话,将所述对话形成对话语音语料;通过第一预设消息中间件将所述对话语音语料发送至语料标注系统,以使所述语料标注系统通过预设语音语料标注工具对所述对话语音语料进行标注,以得到标注语音语料;通过第二预设消息中间件将所述标注语音语料发送至语音识别模型训练系统,以使所述语音识别模型训练系统使用所述标注语音语料对第二预设语音识别模型进行训练;判断训练后的第二预设语音识别模型是否满足预设对话完成率条件,其中,对话完成率为该预设时间段内基于语音识别所完成的对话数量占该预设时间段内所有对话数量的比例;若所述训练后的第二预设语音识别模型满足所述预设对话完成率条件,采用所述训练后的第二预设语音识别模型替换所述第一预设语音识别模型以供所述对话管理系统调用而完成新的对话。
在一实施例中,所述对话语音语料包括若干次对话各自对应所形成的若干个语音语料,每次对话所形成的语音语料包括该次对话所对应的交互结果,所述交互结果包括转接人工,所述处理器502在实现所述通过预设语音语料标注工具对所述对话语音语料进行标注,以得到标注语音语料的步骤时,具体实现以下步骤:
识别出所述交互结果为转接人工的语音语料;
将所述对话语音语料中交互结果为转接人工的语音语料进行剔除,以得到筛选后的对话语音语料;
通过预设语音语料标注工具对所述筛选后的对话语音语料进行标注以得到标注语音语料。
在一实施例中,所述处理器502在实现所述对话管理系统调用第一预设语音识别模型对所述用户语音进行识别以得到识别结果,并根据所述识别结果对所述用户语音进行回应以完成对话,将所述对话形成对话语音语料的步骤时,具体实现以下步骤:
接收用户语音所对应的第一次语音,生成所述用户语音所对应对话的预设对话编码标识;
根据所述预设对话编码标识,调用第一预设ASR模型,以通过所述第一预设ASR模型将所述第一次语音转换成用户文字,并基于所述预设对话编码标识生成该次调用所对应的ASR对话编码标识;
调用第一预设NLU模型对所述用户文字进行理解以得到用户语义;
根据所述用户语义,从预设数据库中通过预设语义匹配方式筛选出与所述用户语义所对应的预设对答;
将所述预设对答转换成回应语音,以对所述第一次语音进行回应;
判断所述用户语音是否结束;
若所述用户语音未结束,接收所述用户语音所对应的第二次语音,迭代执行根据所述预设对话编码标识,调用第一预设ASR模型的步骤,直至所述用户语音结束,以完成对话;
若所述用户语音结束,完成对话,并将所述用户语音和所述预设对答形成对话语音语料,其中,所述对话语音语料中包括所述预设对话编码标识和所述ASR对话编码标识。
在一实施例中,所述处理器502在实现所述语料标注系统通过预设语音语料标注工具对所述对话语音语料进行标注,以得到标注语音语料的步骤时,具体实现以下步骤:
使用预设ASR标注方式对所述对话语音语料进行标注,以得到ASR标注语音语料;
使用预设NLU标注方式对所述对话语音语料进行标注,以得到NLU标注语音语料;
所述处理器502在实现所述语音识别训练系统使用所述标注语音语料对第二预设语音识别模型进行训练的步骤时,具体实现以下步骤:
语音识别模型训练系统获取所述ASR标注语音语料和所述NLU标注语音语料;
使用所述ASR标注语音语料对第二预设ASR模型进行训练,使用所述NLU标注语音语料对第二预设NLU模型进行训练。
在一实施例中,所述处理器502在实现所述判断训练后的第二预设语音识别模型是否满足预设对话完成率条件的步骤之前,还实现以下步骤:
所述对话管理系统调用所述第二预设ASR模型和所述第二预设NLU模型对接收的新用户语音进行识别,并对所述新用户语音进行回应以完成对话;
统计预设时间段内所述第一预设ASR模型和所述第一预设NLU模型对所述用户语音进行识别所完成对话的第一完成率;
统计所述预设时间段内所述第二预设ASR模型和所述第二预设NLU模型对所述新用户语音进行识别所完成对话的第二完成率;
所述处理器502在实现所述判断训练后的第二预设语音识别模型是否满足预设对话完成率条件的步骤时,具体实现以下步骤:
判断所述第二完成率是否大于所述第一完成率;
若所述第二完成率大于所述第一完成率,判定所述训练后的第二预设语音识别模型满足预设对话完成率条件。
应当理解,在本申请实施例中,处理器502可以是中央处理单元(CentralProcessingUnit,CPU),该处理器502还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific IntegratedCircuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程,是可以通过计算机程序来完成,该计算机程序可存储于一计算机可读存储介质。该计算机程序被该计算机系统中的至少一个处理器执行,以实现上述方法的实施例的流程步骤。
因此,本申请还提供一种计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时使处理器执行如下步骤:
一种计算机程序产品,当其在计算机上运行时,使得计算机执行以上各实施例中所描述的所述基于语音识别的对话管理处理方法的步骤。
所述计算机可读存储介质可以是前述设备的内部存储单元,例如设备的硬盘或内存。所述计算机可读存储介质也可以是所述设备的外部存储设备,例如所述设备上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述计算机可读存储介质还可以既包括所述设备的内部存储单元也包括外部存储设备。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的设备、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
所述存储介质为实体的、非瞬时性的存储介质,例如可以是U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、磁碟或者光盘等各种可以存储计算机程序的实体存储介质。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的。例如,各个单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
本申请实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本申请实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。
该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台电子设备(可以是个人计算机,终端,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。
以上所述,仅为本申请的具体实施方式,但本申请明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种基于语音识别的对话管理处理方法,其特征在于,所述方法包括:
通过对话管理系统接收用户语音,以使所述对话管理系统调用第一预设语音识别模型对所述用户语音进行识别以得到识别结果,并根据所述识别结果对所述用户语音进行回应以完成对话,将所述对话形成对话语音语料;
通过第一预设消息中间件将所述对话语音语料发送至语料标注系统,以使所述语料标注系统通过预设语音语料标注工具对所述对话语音语料进行标注,以得到标注语音语料;
通过第二预设消息中间件将所述标注语音语料发送至语音识别模型训练系统,以使所述语音识别模型训练系统使用所述标注语音语料对第二预设语音识别模型进行训练;
判断训练后的第二预设语音识别模型是否满足预设对话完成率条件,其中,对话完成率为该预设时间段内基于语音识别所完成的对话数量占该预设时间段内所有对话数量的比例;
若所述训练后的第二预设语音识别模型满足所述预设对话完成率条件,采用所述训练后的第二预设语音识别模型替换所述第一预设语音识别模型以供所述对话管理系统调用而完成新的对话。
2.根据权利要求1所述基于语音识别的对话管理处理方法,其特征在于,所述对话语音语料包括若干次对话各自对应所形成的若干个语音语料,每次对话所形成的语音语料包括该次对话所对应的交互结果,所述交互结果包括转接人工,所述通过预设语音语料标注工具对所述对话语音语料进行标注,以得到标注语音语料的步骤包括:
识别出所述交互结果为转接人工的语音语料;
将所述对话语音语料中交互结果为转接人工的语音语料进行剔除,以得到筛选后的对话语音语料;
通过预设语音语料标注工具对所述筛选后的对话语音语料进行标注以得到标注语音语料。
3.根据权利要求1或者2所述基于语音识别的对话管理处理方法,其特征在于,所述对话管理系统调用第一预设语音识别模型对所述用户语音进行识别以得到识别结果,并根据所述识别结果对所述用户语音进行回应以完成对话,将所述对话形成对话语音语料的步骤包括:
接收用户语音所对应的第一次语音,生成所述用户语音所对应对话的预设对话编码标识;
根据所述预设对话编码标识,调用第一预设ASR模型,以通过所述第一预设ASR模型将所述第一次语音转换成用户文字,并基于所述预设对话编码标识生成该次调用所对应的ASR对话编码标识;
调用第一预设NLU模型对所述用户文字进行理解以得到用户语义;
根据所述用户语义,从预设数据库中通过预设语义匹配方式筛选出与所述用户语义所对应的预设对答;
将所述预设对答转换成回应语音,将所述回应语音发送至用户以对所述第一次语音进行回应;
判断所述用户语音是否结束;
若所述用户语音未结束,接收所述用户语音所对应的第二次语音,迭代执行根据所述预设对话编码标识,调用第一预设ASR模型的步骤,直至所述用户语音结束,以完成对话;
若所述用户语音结束,完成对话,并将所述用户语音和所述预设对答形成对话语音语料,其中,所述对话语音语料中包括所述预设对话编码标识和所述ASR对话编码标识。
4.根据权利要求3所述基于语音识别的对话管理处理方法,其特征在于,所述语料标注系统通过预设语音语料标注工具对所述对话语音语料进行标注,以得到标注语音语料的步骤包括:
使用预设ASR标注方式对所述对话语音语料进行标注,以得到ASR标注语音语料;
使用预设NLU标注方式对所述对话语音语料进行标注,以得到NLU标注语音语料;
所述语音识别模型训练系统使用所述标注语音语料对第二预设语音识别模型进行训练的步骤包括:
语音识别模型训练系统获取所述ASR标注语音语料和所述NLU标注语音语料;
使用所述ASR标注语音语料对第二预设ASR模型进行训练,使用所述NLU标注语音语料对第二预设NLU模型进行训练。
5.根据权利要求4所述基于语音识别的对话管理处理方法,其特征在于,所述判断训练后的第二预设语音识别模型是否满足预设对话完成率条件的步骤之前,还包括:
所述对话管理系统调用所述第二预设ASR模型和所述第二预设NLU模型对接收的新用户语音进行识别,并对所述新用户语音进行回应以完成对话;
统计预设时间段内所述第一预设ASR模型和所述第一预设NLU模型对所述用户语音进行识别所完成对话的第一完成率;
统计所述预设时间段内所述第二预设ASR模型和所述第二预设NLU模型对所述新用户语音进行识别所完成对话的第二完成率;
所述判断训练后的第二预设语音识别模型是否满足预设对话完成率条件的步骤包括:
判断所述第二完成率是否大于所述第一完成率;
若所述第二完成率大于所述第一完成率,判定所述训练后的第二预设语音识别模型满足预设对话完成率条件。
6.一种基于语音识别的对话管理处理装置,其特征在于,包括:
对话单元,用于通过对话管理系统接收用户语音,以使所述对话管理系统调用第一预设语音识别模型对所述用户语音进行识别以得到识别结果,并根据所述识别结果对所述用户语音进行回应以完成对话,将所述对话形成对话语音语料;
标注单元,用于通过第一预设消息中间件将所述对话语音语料发送至语料标注系统,以使所述语料标注系统通过预设语音语料标注工具对所述对话语音语料进行标注,以得到标注语音语料;
训练单元,用于通过第二预设消息中间件将所述标注语音语料发送至语音识别模型训练系统,以使所述语音识别模型训练系统使用所述标注语音语料对第二预设语音识别模型进行训练;
判断单元,用于判断训练后的第二预设语音识别模型是否满足预设对话完成率条件,其中,对话完成率为该预设时间段内基于语音识别所完成的对话数量占该预设时间段内所有对话数量的比例;
替换单元,用于若所述训练后的第二预设语音识别模型满足所述预设对话完成率条件,采用所述训练后的第二预设语音识别模型替换所述第一预设语音识别模型以供所述对话管理系统调用而完成新的对话。
7.根据权利要求6所述基于语音识别的对话管理处理装置,其特征在于,所述对话语音语料中包括若干次对话各自对应所形成的若干个语音语料,每次对话所形成的语音语料包括该次对话所对应的交互结果,所述交互结果包括转接人工,所述标注单元包括:
识别子单元,用于识别出所述交互结果为转接人工的语音语料;
剔除子单元,用于将所述对话语音语料中交互结果为转接人工的语音语料进行剔除,以得到筛选后的对话语音语料;
标注子单元,用于通过预设语音语料标注工具对所述筛选后的对话语音语料进行标注以得到标注语音语料。
8.根据权利要求6或者7所述基于语音识别的对话管理处理装置,其特征在于,所述对话单元包括:
第一接收子单元,用于接收用户语音所对应的第一次语音,生成所述用户语音所对应对话的预设对话编码标识;
第一调用子单元,用于根据所述预设对话编码标识,调用第一预设ASR模型,以通过所述第一预设ASR模型将所述第一次语音转换成用户文字,并基于所述预设对话编码标识生成该次调用所对应的ASR对话编码标识;
第二调用子单元,用于调用第一预设NLU模型对所述用户文字进行理解以得到用户语义;
筛选子单元,用于根据所述用户语义,从预设数据库中通过预设语义匹配方式筛选出与所述用户语义所对应的预设对答;
回应子单元,用于将所述预设对答转换成回应语音,将所述回应语音发送至用户以对所述第一次语音进行回应;
第一判断子单元,用于判断所述用户语音是否结束;
第二接收子单元,用于若所述用户语音未结束,接收所述用户语音所对应的第二次语音,迭代执行根据所述预设对话编码标识,调用第一预设ASR模型的步骤,直至所述用户语音结束,以完成对话;
形成对话子单元,用于若所述用户语音结束,完成对话,并将所述用户语音和所述预设对答形成对话语音语料,其中,所述对话语音语料中包括所述预设对话编码标识和所述ASR对话编码标识。
9.一种计算机设备,其特征在于,所述计算机设备包括存储器以及与所述存储器相连的处理器;所述存储器用于存储计算机程序;所述处理器用于运行所述计算机程序,以执行如权利要求1-5任一项所述方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时可实现如权利要求1-5中任一项所述方法的步骤。
CN202010550379.9A 2020-06-16 2020-06-16 基于语音识别的对话管理处理方法、装置、设备及介质 Active CN111739519B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202010550379.9A CN111739519B (zh) 2020-06-16 2020-06-16 基于语音识别的对话管理处理方法、装置、设备及介质
PCT/CN2020/122422 WO2021135534A1 (zh) 2020-06-16 2020-10-21 基于语音识别的对话管理处理方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010550379.9A CN111739519B (zh) 2020-06-16 2020-06-16 基于语音识别的对话管理处理方法、装置、设备及介质

Publications (2)

Publication Number Publication Date
CN111739519A true CN111739519A (zh) 2020-10-02
CN111739519B CN111739519B (zh) 2024-08-02

Family

ID=72649914

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010550379.9A Active CN111739519B (zh) 2020-06-16 2020-06-16 基于语音识别的对话管理处理方法、装置、设备及介质

Country Status (2)

Country Link
CN (1) CN111739519B (zh)
WO (1) WO2021135534A1 (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112233665A (zh) * 2020-10-16 2021-01-15 珠海格力电器股份有限公司 模型训练的方法和装置、电子设备和存储介质
CN112347768A (zh) * 2020-10-12 2021-02-09 出门问问(苏州)信息科技有限公司 一种实体识别方法及装置
CN112653798A (zh) * 2020-12-22 2021-04-13 平安普惠企业管理有限公司 智能客服语音应答方法、装置、计算机设备及存储介质
CN112837683A (zh) * 2020-12-31 2021-05-25 苏州思必驰信息科技有限公司 语音服务方法及装置
WO2021135534A1 (zh) * 2020-06-16 2021-07-08 平安科技(深圳)有限公司 基于语音识别的对话管理处理方法、装置、设备及介质
CN113608664A (zh) * 2021-07-26 2021-11-05 京东科技控股股份有限公司 智能语音机器人交互效果优化方法、装置及智能机器人
CN113901186A (zh) * 2021-09-29 2022-01-07 深圳壹账通智能科技有限公司 电话录音标注方法、装置、设备及存储介质
CN114441029A (zh) * 2022-01-20 2022-05-06 深圳壹账通科技服务有限公司 语音标注系统的录音噪音检测方法、装置、设备及介质
CN114615379A (zh) * 2022-02-09 2022-06-10 北京佳讯飞鸿电气股份有限公司 一种话务员训练方法、装置、存储介质及系统
CN114764436A (zh) * 2021-01-15 2022-07-19 北京猎户星空科技有限公司 一种数据处理方法、装置、电子设备和存储介质
CN116108373A (zh) * 2023-04-17 2023-05-12 京东科技信息技术有限公司 话单数据分类标注系统、电子设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103000052A (zh) * 2011-09-16 2013-03-27 上海先先信息科技有限公司 人机互动的口语对话系统及其实现方法
CN107945792A (zh) * 2017-11-06 2018-04-20 百度在线网络技术(北京)有限公司 语音处理方法和装置
CN110059170A (zh) * 2019-03-21 2019-07-26 北京邮电大学 基于用户交互的多轮对话在线训练方法及系统
CN110263322A (zh) * 2019-05-06 2019-09-20 平安科技(深圳)有限公司 用于语音识别的音频语料筛选方法、装置及计算机设备
CN110265001A (zh) * 2019-05-06 2019-09-20 平安科技(深圳)有限公司 用于语音识别训练的语料筛选方法、装置及计算机设备
CN110503143A (zh) * 2019-08-14 2019-11-26 平安科技(深圳)有限公司 基于意图识别的阈值选取方法、设备、存储介质及装置
CN111143535A (zh) * 2019-12-27 2020-05-12 北京百度网讯科技有限公司 用于生成对话模型的方法和装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11145291B2 (en) * 2018-01-31 2021-10-12 Microsoft Technology Licensing, Llc Training natural language system with generated dialogues
CN110120221A (zh) * 2019-06-06 2019-08-13 上海蔚来汽车有限公司 用于车机系统的用户个性化离线语音识别方法及其系统
CN110377911B (zh) * 2019-07-23 2023-07-21 中国工商银行股份有限公司 对话框架下的意图识别方法和装置
CN110543552B (zh) * 2019-09-06 2022-06-07 网易(杭州)网络有限公司 对话交互方法、装置及电子设备
CN110765270B (zh) * 2019-11-04 2022-07-01 思必驰科技股份有限公司 用于口语交互的文本分类模型的训练方法及系统
CN111739519B (zh) * 2020-06-16 2024-08-02 平安科技(深圳)有限公司 基于语音识别的对话管理处理方法、装置、设备及介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103000052A (zh) * 2011-09-16 2013-03-27 上海先先信息科技有限公司 人机互动的口语对话系统及其实现方法
CN107945792A (zh) * 2017-11-06 2018-04-20 百度在线网络技术(北京)有限公司 语音处理方法和装置
CN110059170A (zh) * 2019-03-21 2019-07-26 北京邮电大学 基于用户交互的多轮对话在线训练方法及系统
CN110263322A (zh) * 2019-05-06 2019-09-20 平安科技(深圳)有限公司 用于语音识别的音频语料筛选方法、装置及计算机设备
CN110265001A (zh) * 2019-05-06 2019-09-20 平安科技(深圳)有限公司 用于语音识别训练的语料筛选方法、装置及计算机设备
CN110503143A (zh) * 2019-08-14 2019-11-26 平安科技(深圳)有限公司 基于意图识别的阈值选取方法、设备、存储介质及装置
CN111143535A (zh) * 2019-12-27 2020-05-12 北京百度网讯科技有限公司 用于生成对话模型的方法和装置

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021135534A1 (zh) * 2020-06-16 2021-07-08 平安科技(深圳)有限公司 基于语音识别的对话管理处理方法、装置、设备及介质
CN112347768A (zh) * 2020-10-12 2021-02-09 出门问问(苏州)信息科技有限公司 一种实体识别方法及装置
CN112233665A (zh) * 2020-10-16 2021-01-15 珠海格力电器股份有限公司 模型训练的方法和装置、电子设备和存储介质
CN112653798A (zh) * 2020-12-22 2021-04-13 平安普惠企业管理有限公司 智能客服语音应答方法、装置、计算机设备及存储介质
CN112837683A (zh) * 2020-12-31 2021-05-25 苏州思必驰信息科技有限公司 语音服务方法及装置
CN114764436A (zh) * 2021-01-15 2022-07-19 北京猎户星空科技有限公司 一种数据处理方法、装置、电子设备和存储介质
CN113608664A (zh) * 2021-07-26 2021-11-05 京东科技控股股份有限公司 智能语音机器人交互效果优化方法、装置及智能机器人
CN113608664B (zh) * 2021-07-26 2024-06-18 京东科技控股股份有限公司 智能语音机器人交互效果优化方法、装置及智能机器人
CN113901186A (zh) * 2021-09-29 2022-01-07 深圳壹账通智能科技有限公司 电话录音标注方法、装置、设备及存储介质
CN114441029A (zh) * 2022-01-20 2022-05-06 深圳壹账通科技服务有限公司 语音标注系统的录音噪音检测方法、装置、设备及介质
CN114615379A (zh) * 2022-02-09 2022-06-10 北京佳讯飞鸿电气股份有限公司 一种话务员训练方法、装置、存储介质及系统
CN114615379B (zh) * 2022-02-09 2025-07-08 北京佳讯飞鸿电气股份有限公司 一种话务员训练方法、装置、存储介质及系统
CN116108373A (zh) * 2023-04-17 2023-05-12 京东科技信息技术有限公司 话单数据分类标注系统、电子设备及存储介质

Also Published As

Publication number Publication date
CN111739519B (zh) 2024-08-02
WO2021135534A1 (zh) 2021-07-08

Similar Documents

Publication Publication Date Title
CN111739519B (zh) 基于语音识别的对话管理处理方法、装置、设备及介质
CA2826116C (en) Natural language classification within an automated response system
US8914294B2 (en) System and method of providing an automated data-collection in spoken dialog systems
EP1602102B1 (en) Management of conversations
CN113239147B (zh) 基于图神经网络的智能会话方法、系统及介质
EP2282308B1 (en) Multi-slot dialog system and method
US7907705B1 (en) Speech to text for assisted form completion
CN112202978A (zh) 智能外呼系统、方法、计算机系统及存储介质
CN111696558A (zh) 智能外呼方法、装置、计算机设备及存储介质
CN112084317A (zh) 预训练语言模型的方法和装置
CN115022471B (zh) 一种智能机器人语音交互系统和方法
CN117648408A (zh) 基于大模型的智能问答方法、装置、电子设备及存储介质
CN114328867A (zh) 一种人机对话中智能打断的方法及装置
CN113782022A (zh) 基于意图识别模型的通信方法、装置、设备及存储介质
CN111985934B (zh) 智能客服对话模型构建方法及应用
CN112860873A (zh) 智能应答方法、装置及存储介质
CN110047473A (zh) 一种人机协作交互方法及系统
CN113111157B (zh) 问答处理方法、装置、计算机设备和存储介质
CN115602172A (zh) 一种智能外呼方法及系统
CN113887554A (zh) 处理反馈语的方法以及装置
KR20220140301A (ko) 인공지능을 통해 학습자 식별이 가능한 화상 학습 시스템 및 그 방법
CN113539245B (zh) 语言模型自动训练方法及系统
CN118283182A (zh) 基于ai的智能语音呼叫预测方法、程序产品、设备及介质
CN118410162A (zh) 摘要提取方法、装置、设备、介质及程序产品
CN114064875A (zh) 一种应答方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant