[go: up one dir, main page]

CN118782026B - 一种智能语音助手的控制方法及装置 - Google Patents

一种智能语音助手的控制方法及装置 Download PDF

Info

Publication number
CN118782026B
CN118782026B CN202410940488.XA CN202410940488A CN118782026B CN 118782026 B CN118782026 B CN 118782026B CN 202410940488 A CN202410940488 A CN 202410940488A CN 118782026 B CN118782026 B CN 118782026B
Authority
CN
China
Prior art keywords
intention
voice
matching
sentence
parameters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202410940488.XA
Other languages
English (en)
Other versions
CN118782026A (zh
Inventor
杜达亮
王华华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Yunzhidachuang Technology Co ltd
Original Assignee
Guangzhou Yunzhidachuang Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Yunzhidachuang Technology Co ltd filed Critical Guangzhou Yunzhidachuang Technology Co ltd
Priority to CN202410940488.XA priority Critical patent/CN118782026B/zh
Publication of CN118782026A publication Critical patent/CN118782026A/zh
Application granted granted Critical
Publication of CN118782026B publication Critical patent/CN118782026B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及人工智能技术领域,公开了一种智能语音助手的控制方法及装置。该方法当接收到第一语音时,结合语音识别纠偏模型对第一语音进行语音转文字操作,形成第一句子;结合意图识别纠偏模型对第一句子进行意图匹配,得到第一意图,并获取第一意图对应的第一意图处理函数;结合参数纠偏模型在第一句子中提取与第一意图相关的若干个第一参数;根据若干个第一参数,执行第一意图处理函数,并得出语音响应结果。本发明利用语音输入简化了用户与各个系统之间的交互流程;通过采用纠偏模型提高了意图匹配的准确性;通过多个算法串联调用,有效控制数据流通,从而打破了数据孤岛,降低了使用门槛。

Description

一种智能语音助手的控制方法及装置
技术领域
本发明涉及人工智能技术领域,特别是涉及一种智能语音助手的控制方法及装置。
背景技术
在目前的人工智能交互中,都采用一个系统实现一种功能的形式。当前市面上的各种营销系统,都会使得营销人员陷入一个普遍的难题,即系统各自独立运作,缺乏协同性。用户需在不同系统中切换,这会导致交互繁琐,影响用户体验。而且,每个独立的系统都局限于特定的应用场景,且面向不同部门的工作人员,若同时串联使用这些系统,则需要较高的使用门槛,因为只有当用户深入了解每个系统的操作方式和特性后,才能有效地串联使用它们。再者,各个系统运行于独立的数据环境,难以实现信息的共享和交叉利用。这导致用户个性化服务的局限性,用户的需求无法在系统之间无缝传递和响应。这种数据孤立状态既限制了服务的广度,也影响了系统对于全局信息的深度理解,阻碍了系统提供更为智能、个性化服务的潜力。
因此,当前人工智能交互的营销系统,存在系统分散,交互繁琐;串联使用的门槛过高;存在数据孤岛,信息割裂的问题,迫切得到一种解决方案。
发明内容
本发明提供了一种智能语音助手的控制方法及装置,可以通过整合独立系统优化交互体验,通过语音输入降低了智能服务的使用门槛;通过纠偏模型提高语音识别匹配的准确性。
为了解决上述技术问题,本发明提供了一种智能语音助手的控制方法,包括:
当接收到第一语音时,结合语音识别纠偏模型对所述第一语音进行语音转文字操作,形成第一句子;
结合意图识别纠偏模型对所述第一句子进行意图匹配,得到第一意图,并获取所述第一意图对应的第一意图处理函数;
结合参数纠偏模型在第一句子中提取与所述第一意图相关的若干个第一参数;
根据若干个所述第一参数,执行所述第一意图处理函数,并得出语音响应结果。
进一步地,所述当接收到第一语音时,结合语音识别纠偏模型对所述第一语音进行语音转文字操作,形成第一句子,具体为:
利用语音识别技术对第一语音进行语音转文字操作,形成待处理句子;
将待处理句子进行文字转拼音操作,形成待处理拼音;
将所述待处理拼音与语音识别纠偏模型中预存的品牌映射表中进行比对,获得若干个匹配词;
根据若干个所述匹配词对所述待处理句子进行校正,获得第一句子。
进一步地,所述结合意图识别纠偏模型对所述第一句子进行意图匹配,得到第一意图,并获取所述第一意图对应的第一意图处理函数,具体为:
利用意图识别纠偏模型中预存的若干条意图匹配规则,对第一句子进行第一意图匹配;
当通过第一意图匹配得出第一意图匹配结果时,将所述第一意图匹配结果确定为第一意图;
当通过第一意图匹配无法得出第二意图匹配结果时,利用AI大模型对第一句子进行意图匹配;
将通过第二意图匹配得出的第二意图匹配结果确定为第一意图。
进一步地,所述结合参数纠偏模型在第一句子中提取与所述第一意图相关的若干个第一参数,具体为:
利用AI大模型在第一句子中提取与所述第一意图相关的若干个意图参数;
利用参数纠偏模型中预存的若干条参数纠偏规则,对若干个所述意图参数进行校正,获得若干个第一参数。
进一步地,所述根据若干个所述第一参数,执行所述第一意图处理函数,并得出语音响应结果,具体为:
当第一意图为指数搜索时,基于若干个所述第一参数执行指数搜索函数进行数据筛选,得出数据筛选结果,并将所述数据筛选结果确定为语音响应结果;
当第一意图为创意生成时,基于若干个所述第一参数执行创意生成函数,生成若干个创意,并将若干个所述创意确定为语音响应结果;
当第一意图为创意评分时,基于若干个所述第一参数执行创意评分函数,得出若干个创意对应的创意分数,并将若干个所述创意分数确定为语音响应结果;
当第一意图为笔记生成时,基于若干个所述第一参数执行笔记生成函数,生成笔记生成结果,并将所述笔记生成结果确定为语音响应结果;
当第一意图为笔记优化时,基于若干个所述第一参数执行笔记优化函数,生成笔记优化结果,并将所述笔记优化结果确定为语音响应结果;
当第一意图为达人推荐时,基于若干个所述第一参数执行达人筛选函数,生成达人筛选名单,并将所述达人筛选名单确定为语音响应结果;
当未匹配到意图或所述第一参数中缺少执行第一意图处理函数所需的参数时,形成提醒回复语言,并将所述提醒回复语言确定为语音响应结果。
进一步地,在所述根据若干个所述第一参数,执行所述第一意图处理函数,并得出语音响应结果后,还包括:
当第一意图为指数搜索时,利用支持筛选过滤的页面展示语音响应结果;
当第一意图为创意生成、笔记生成或笔记优化时,利用页面弹框展示语音响应结果;
当第一意图为创意评分时,利用创意评分tab展示语音响应结果;
当第一意图为达人推荐时,结合页面弹框和表格展示语音响应结果;其中,所述表格包含有各达人的推荐理由。
进一步地,在所述当接收到第一语音时,结合语音识别纠偏模型对所述第一语音进行语音转文字操作,形成第一句子前,还包括:
利用监听器实时采集声音信号;
当在所述声音信号中识别到预设关键词时,启动语音输入功能。
本发明提供了一种智能语音助手的控制方法,当接收到第一语音时,结合语音识别纠偏模型对第一语音进行语音转文字操作,形成第一句子;结合意图识别纠偏模型对第一句子进行意图匹配,得到第一意图,并获取第一意图对应的第一意图处理函数;结合参数纠偏模型在第一句子中提取与第一意图相关的若干个第一参数;根据若干个第一参数,执行第一意图处理函数,并得出语音响应结果。本发明利用语音输入替换掉手动输入和筛选的繁琐操作,简化了用户与各个系统之间的交互流程;在处理用户语音的过程中采用纠偏模型,提高了意图匹配的准确性;通过多个算法串联调用,有效控制数据流通,从而打破了数据孤岛,降低了使用门槛。
相应的,本发明提供了一种智能语音助手的控制装置,包括:语音识别模块、意图匹配模块、参数提取模块和响应模块;
所述语音识别模块用于当接收到第一语音时,结合语音识别纠偏模型对所述第一语音进行语音转文字操作,形成第一句子;
所述意图匹配模块用于结合意图识别纠偏模型对所述第一句子进行意图匹配,得到第一意图,并获取所述第一意图对应的第一意图处理函数;
所述参数提取模块用于结合参数纠偏模型在第一句子中提取与所述第一意图相关的若干个第一参数;
所述响应模块用于根据若干个所述第一参数,执行所述第一意图处理函数,并得出语音响应结果。
进一步地,所述语音识别模块,包括:转文字单元、转拼音单元、比对单元和校正单元;
所述转文字单元用于利用语音识别技术对第一语音进行语音转文字操作,形成待处理句子;
所述转拼音单元用于将待处理句子进行文字转拼音操作,形成待处理拼音;
所述比对单元用于将所述待处理拼音与语音识别纠偏模型中预存的品牌映射表中进行比对,获得若干个匹配词;
所述校正单元用于根据若干个所述匹配词对所述待处理句子进行校正,获得第一句子。
进一步地,所述意图匹配模块,包括:第一匹配单元、第一确定单元、第二匹配单元和第二确定单元;
所述第一匹配单元用于利用意图识别纠偏模型中预存的若干条意图匹配规则,对第一句子进行第一意图匹配;
所述第一确定单元用于当通过第一意图匹配得出第一意图匹配结果时,将所述第一意图匹配结果确定为第一意图;
所述第二匹配单元用于当通过第一意图匹配无法得出第二意图匹配结果时,利用AI大模型对第一句子进行意图匹配;
所述第二确定单元用于将通过第二意图匹配得出的第二意图匹配结果确定为第一意图。
本发明提供了一种智能语音助手的控制装置,以模块间的有机结合为基础,当接收到第一语音时,结合语音识别纠偏模型对第一语音进行语音转文字操作,形成第一句子;结合意图识别纠偏模型对第一句子进行意图匹配,得到第一意图,并获取第一意图对应的第一意图处理函数;结合参数纠偏模型在第一句子中提取与第一意图相关的若干个第一参数;根据若干个第一参数,执行第一意图处理函数,并得出语音响应结果。本发明利用语音输入替换掉手动输入和筛选的繁琐操作,简化了用户与各个系统之间的交互流程;在处理用户语音的过程中采用纠偏模型,提高了意图匹配的准确性;通过多个算法串联调用,有效控制数据流通,从而打破了数据孤岛,降低了使用门槛。
附图说明
图1为本发明提供的智能语音助手的控制方法的一种实施例的流程示意图;
图2为本发明提供的智能语音助手的控制方法的另一种实施例的流程示意图;
图3为本发明提供的智能语音助手的控制装置的一种实施例的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
附图中所示的流程图仅是示例说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解、组合或部分合并,因此实际执行的顺序有可能根据实际情况改变。
下面结合附图,对本发明的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
实施例1
参见图1,是本发明提供的智能语音助手的控制方法的一种实施例的流程示意图,该方法包括步骤101至步骤104,各步骤具体如下:
步骤101:当接收到第一语音时,结合语音识别纠偏模型对所述第一语音进行语音转文字操作,形成第一句子。
进一步地,在本发明第一实施例中,在所述当接收到第一语音时,结合语音识别纠偏模型对所述第一语音进行语音转文字操作,形成第一句子前,还包括:
利用监听器实时采集声音信号;
当在所述声音信号中识别到预设关键词时,启动语音输入功能。
在本发明第一实施例中,用户通过语音唤醒智能语音助手,具体的,利用监听器实时采集智能语音助手周围的声音信号,并检测采集到的声音信号,当检测到声音信号中存在预设关键词时,唤醒智能语音助手的语音输入功能,使得智能语音助手接收用户的语音输入,并根据用户的语音输入实现用户需求。本发明通过设定唤醒智能语音助手的预设关键词,可以防止智能语音助手在未唤醒时接收到关键词,在用户无需使用智能语音助手时自动运行,造成资源浪费。
进一步地,在本发明第一实施例中,当接收到第一语音时,结合语音识别纠偏模型对所述第一语音进行语音转文字操作,形成第一句子,具体为:
利用语音识别技术对第一语音进行语音转文字操作,形成待处理句子;
将待处理句子进行文字转拼音操作,形成待处理拼音;
将所述待处理拼音与语音识别纠偏模型中预存的品牌映射表中进行比对,获得若干个匹配词;
根据若干个所述匹配词对所述待处理句子进行校正,获得第一句子。
在本发明第一实施例中,当用户口语化描述需求时,通常会携带一些专有的特殊词汇,如品牌词等,若语音识别的API没有提前设置这些专有词汇,会导致转文字之后不符合用户的预期。比如:当用户用语音输入“帮我查一下脆升升的种草投放情况”时,若语音识别API并没有内置“脆升升”这个品牌词,则可能会得到语音转文字结果为“帮我查一下脆生生的种草投放情况”,产生错误的文字信息。因此,通过在语音识别纠偏模型中设置品牌映射表,以拼音为key,以品牌词为value,可以进一步提高语音转文字的准确性。本发明通过将语音文件转换成文字,并通过建立品牌映射表对转换的文字进行智能化校正,能够及时识别并处理用户提及的特殊品牌,避免出现误解,不仅提高了语音识别系统的精准度,也能准确地识别用户的口语需求,提升用户体验,为用户提供了更加个性化、细致的服务体验。
作为本发明第一实施例的一种举例,当接收到用户输入的第一语音时,利用语音识别技术将第一语音转换成待处理句子,再将该待处理句子转换成待处理拼音,然后将这段拼音在设置好的品牌映射表中进行查询,如果在品牌映射表中找到了目标品牌词,则会将匹配到的品牌词与待处理句子中的词语进行比对,若两者相同,则不对待处理句子进行修改;若两者不同,则将匹配到的品牌词替换掉待处理句子中的词语。假设语音识别纠偏模型中的品牌映射表记载有“cuishengsheng-->脆升升;yagao-->牙高”等。待处理句子中的词语包括脆生生和牙膏医生,则这两个词的校正过程是“脆生生-->cuishengsheng-->脆升升”,以及“牙膏医生-->yagaoyisheng-->牙高医生”。
在本发明第一实施例中,当用户开启智能语音助手的语音输入功能后,口语化读出自己想查询的问题,智能语音助手能接收到完整语音信号,并调用语音识别接口,对语音片段进行语音转文字操作,再经过语音识别纠偏模型进行文字校正,此时智能语音助手能显示转换纠偏之后的文字信息,用户可以对此进行查看和编辑操作,当用户确认信息无误之后,这段语音转换后的文字信息将作为下一步骤的参数,用于后续的意图匹配。本发明通过语音驱动的方式,用户无需登录各个不同的系统进行操作,只要对着智能语音系统描述自己的问题,即可翻译用户需求并借助自建的语音识别纠偏模型进行文字校正,以便后续理解并匹配用户期望调用的系统,从而解决系统分散、交互繁琐的问题,构建了统一的服务体系。
步骤102:结合意图识别纠偏模型对所述第一句子进行意图匹配,得到第一意图,并获取所述第一意图对应的第一意图处理函数。
进一步地,在本发明第一实施例中,结合意图识别纠偏模型对所述第一句子进行意图匹配,得到第一意图,并获取所述第一意图对应的第一意图处理函数,具体为:
利用意图识别纠偏模型中预存的若干条意图匹配规则,对第一句子进行第一意图匹配;
当通过第一意图匹配得出第一意图匹配结果时,将所述第一意图匹配结果确定为第一意图;
当通过第一意图匹配无法得出第二意图匹配结果时,利用AI大模型对第一句子进行意图匹配;
将通过第二意图匹配得出的第二意图匹配结果确定为第一意图。
在本发明第一实施例中,用户描述自己需求的时候,表达形式多种多样,甚至有可能会出现描述过于简单或出现其他意图的关键词汇,导致AI在匹配用户意图的时候不准确。本发明通过在意图识别纠偏模型中设置意图匹配规则解决这一问题。本发明同时采用AI大模型和意图识别纠偏模型中的自建意图匹配规则对用户意图进行匹配,若两次匹配的结果一致,则确定该匹配结果为用户的意图,若两次匹配的结果不一致,则将通过意图识别纠偏模型匹配得出的匹配结果为用户的意图。若利用意图识别纠偏模型无法匹配得出用户意图时,将利用AI大模型得出的匹配结果确定为用户的意图。本发明采用了双重策略进行意图匹配,能有效地提高了意图匹配的准确性,以及确保了系统对用户意图的理解与反馈的一致性。
作为本发明第一实施例的一种举例,在意图识别纠偏模型中设置一系列意图匹配规则,用于对AI大模型的意图匹配进行补充和校验。比如,当用户的语音的识别结果中同时包含“生成”和“创意”两个词时候,可以认为用户的意图是想要进行创意生成操作。根据类似逻辑可以建立一系列意图匹配规则,以确保对用户意图的准确理解。其中,意图识别纠偏模型中的意图匹配规则包括但不限于以下几种情况的映射关系:
"种草"or"投放"or"大盘"or"营销"->指数搜索;
"过滤"or"筛选"or"找出"or"只看"->指数筛选;
"生成"or"推荐"or"给出"and"创意"->创意生成;
"对比"or"比较"and"创意"->创意评分;
"生成"or"创作"and"笔记"or"文章"->笔记生成;
"SEO"or"优化"->SEO优化;
"推荐"or"找出"or"筛选"and"达人"or"博主"->推荐达人。
步骤103:结合参数纠偏模型在第一句子中提取与所述第一意图相关的若干个第一参数。
进一步地,在本发明第一实施例中,结合参数纠偏模型在第一句子中提取与所述第一意图相关的若干个第一参数,具体为:
利用AI大模型在第一句子中提取与所述第一意图相关的若干个意图参数;
利用参数纠偏模型中预存的若干条参数纠偏规则,对若干个所述意图参数进行校正,获得若干个第一参数。
在本发明第一实施例中,在通过意图匹配获取用户的意图后,在用户语音转换的第一句子中提取必要参数,并利用参数纠偏模型进行参数校验,使得智能语音助手能够更全面、深度地理解用户的意图,确保每次匹配都基于详实的信息,而且用户无需进行繁琐的手动操作来进行输入参数信息和条件筛选,进一步解决了交互流程繁琐,使用门槛过高的问题。
作为本发明第一实施例的一种举例,假设语音转换后的第一句子是“帮我查一下去年乐事薯片的种草投放情况”,通过意图匹配能得出用户的意图是“种草投放情况查询”,可以得出此时的意图处理函数是指数搜索算法,从第一句子中提取出品牌为“乐事”、产品为“薯片”,时间区间为“去年”等参数,然后利用参数纠偏模型中的参数纠偏规则参数纠偏模型进行参数校验和纠正从而完成后续的算法调用执行。比如,参数纠偏模型中的映射关系包括“去年上半年->当前年份的上一年的1月1日至当前年份的上一年的6月30日”、“今年->当前年份的1月1日至当天”等。
步骤104:根据若干个所述第一参数,执行所述第一意图处理函数,并得出语音响应结果。
进一步地,在本发明第一实施例中,根据若干个所述第一参数,执行所述第一意图处理函数,并得出语音响应结果,具体为:
当第一意图为指数搜索时,基于若干个所述第一参数执行指数搜索函数进行数据筛选,得出数据筛选结果,并将所述数据筛选结果确定为语音响应结果;
当第一意图为创意生成时,基于若干个所述第一参数执行创意生成函数,生成若干个创意,并将若干个所述创意确定为语音响应结果;
当第一意图为创意评分时,基于若干个所述第一参数执行创意评分函数,得出若干个创意对应的创意分数,并将若干个所述创意分数确定为语音响应结果;
当第一意图为笔记生成时,基于若干个所述第一参数执行笔记生成函数,生成笔记生成结果,并将所述笔记生成结果确定为语音响应结果;
当第一意图为笔记优化时,基于若干个所述第一参数执行笔记优化函数,生成笔记优化结果,并将所述笔记优化结果确定为语音响应结果;
当第一意图为达人推荐时,基于若干个所述第一参数执行达人筛选函数,生成达人筛选名单,并将所述达人筛选名单确定为语音响应结果;
当未匹配到意图或所述第一参数中缺少执行第一意图处理函数所需的参数时,形成提醒回复语言,并将所述提醒回复语言确定为语音响应结果。
在本发明第一实施例中,在通过意图匹配得出用户的意图后,同时得到了与该意图对应的意图处理函数和该函数所需的参数,基于获取的参数执行对应的意图处理函数,能实现用户的意图。其中,根据意图的不同,处理的方式也不尽相同。智能调用意图处理函数不仅仅是简单的命中算法,而是一个深度计算的过程。在调用意图处理函数时有时会需要用到上一次意图匹配中用到的算法和必要参数,结合之前调用上一个算法时积累下来的丰富数据集合,完成深入的计算工作。这个过程涉及到多方面的智能决策,包括但不限于:
上下文关联:函数调用不仅仅看当前的匹配参数,还会考虑到用户交互的整体上下文,确保一次调用都基于全面的信息。
历史学习:在积累了用户的历史行为、喜好等数据后,通过深度学习技术,从历史数据中挖掘规律,为当前算法的调用提供更有针对性的建议。
动态调整:根据实时的用户反馈和变化的环境,动态调整算法的权重和参数,以保持系统的适应性和灵活性。
因此,本发明的算法调用是一种深度计算的过程,不仅确保了算法调用不单纯是机械的匹配,更是一种富有智能的决策。通过上下文关联的查询方式,数据在整个过程中不断积累并传递下来,有效解决了以往独立系统之间数据难以共享、信息割裂的问题,增强了系统的可用性和适用性,从而为用户提供了更加个性化、智能化、全面化的服务。
作为本发明第一实施例的一种举例,当调用创意生成函数时,需要用到通过调用指数搜索函数得出的品牌、产品等指数搜索数据,结合在用户语音中获取的关键词参数生成若干个创意。当调用创意评分函数时,需要用到通过创意生成函数得出的若干个创意,对这些创意进行评分。当调用笔记生成函数时,需要结合通过创意评分函数得出的创意评分,在其中选取创意,并基于该创意生成笔记。当调用笔记优化函数时,需要用到通过调用笔记生成函数得出的笔记,对该笔记进行笔记优化。当调用达人推荐函数时,需要用到通过调用指数搜索函数得出的品牌、产品等指数搜索数据,以及通过调用笔记优化函数得出的优化笔记,对达人进行筛选排序。
进一步地,在本发明第一实施例中,在所述根据若干个所述第一参数,执行所述第一意图处理函数,并得出语音响应结果后,还包括:
当第一意图为指数搜索时,利用支持筛选过滤的页面展示语音响应结果;
当第一意图为创意生成、笔记生成或笔记优化时,利用页面弹框展示语音响应结果;
当第一意图为创意评分时,利用创意评分tab展示语音响应结果;
当第一意图为达人推荐时,结合页面弹框和表格展示语音响应结果;其中,所述表格包含有各达人的推荐理由。
在本发明第一实施例中,执行不同意图处理函数,会得到不同数据形式的语音响应结果。因此针对根据不同意图处理函数得出的语音响应结果,采用不同的展示方式展示语音响应结果,使得用户对所获取的信息更加易于理解和接受。本发明通过灵活选择不同的结果展示形式向用户提供个性化、智能化的体验,从而满足用户的多样化需求,提升用户满意度,进一步地提高智能语音助手的可用性和用户黏性。
作为本发明第一实施例的一种举例,通过指数搜索算法得到的是一批数据的汇总,此时用户可能更希望看到简明扼要的数据摘要,所以可以采用当前页面展示数据结果,该页面可以实现筛选过滤,用户可以从中快速获取精准信息。通过创意生成算法、笔记生成算法和笔记优化算法得到的是一段经过AI大模型处理的文案,此时用户可能更加关心文案的质量和准确性,因此将当前页面进行弹框形式展示,直观呈现多样化的内容信息,如生成的创意、生成的笔记、优化后的笔记及优化的参考依据等。执行创意评分算法时涉及到新开的tab,打开其他的页面,因此可以利用预先设置的集成创意评分系统、新开tab栏展示多维度评分结果。执行达人推荐算法涉及到表格展示,因此可以采用弹框结合表格形式,并配合推荐理由,为用户提供更全面、具体的推荐信息。本发明针对不同的数据形式,采用了不同的结果呈现形式,更好地满足用户的多样化需求,提供更加个性化、智能化的服务体验,从而提升了用户体验。
作为本发明第一实施例的一种举例,参见图2,是本发明提供的智能语音助手的控制方法的另一种实施例的流程示意图,当监听器接收到用户发出的关键词语音后,唤醒智能语音助手的语音输入功能,接收用户后续的语音输入,使用语音识别API将语音文件转换成文字,并调用模型匹配用户意图,基于匹配出的不同用户意图,选择性调用指数搜索算法、创意生成算法、创意评分算法、笔记生成算法、笔记优化算法以及达人推荐算法中的一个或多个意图处理函数,生成语音响应结果,并根据语音响应结果的不同数据形式采用不同的展示方式进行展示。本发明通过整合多种算法,并通过语音识别和意图匹配,简化了用户操作流程,提高了用户体验的便捷性,降低了使用门槛,为用户提供了更为全面、个性化的语音交互服务。
综上,本发明第一实施例提供了一种智能语音助手的控制方法,当接收到第一语音时,结合语音识别纠偏模型对第一语音进行语音转文字操作,形成第一句子;结合意图识别纠偏模型对第一句子进行意图匹配,得到第一意图,并获取第一意图对应的第一意图处理函数;结合参数纠偏模型在第一句子中提取与第一意图相关的若干个第一参数;根据若干个第一参数,执行第一意图处理函数,并得出语音响应结果。本发明利用语音输入替换掉手动输入和筛选的繁琐操作,简化了用户与各个系统之间的交互流程;在处理用户语音的过程中采用纠偏模型,提高了意图匹配的准确性;通过多个算法串联调用,有效控制数据流通,从而打破了数据孤岛,降低了使用门槛。
实施例2
参见图3,是本发明提供的智能语音助手的控制装置的一种实施例的结构示意图,该装置包括语音识别模块、意图匹配模块、参数提取模块和响应模块;
语音识别模块201用于当接收到第一语音时,结合语音识别纠偏模型对所述第一语音进行语音转文字操作,形成第一句子;
意图匹配模块202用于结合意图识别纠偏模型对所述第一句子进行意图匹配,得到第一意图,并获取所述第一意图对应的第一意图处理函数;
参数提取模块203用于结合参数纠偏模型在第一句子中提取与所述第一意图相关的若干个第一参数;
响应模块204用于根据若干个所述第一参数,执行所述第一意图处理函数,并得出语音响应结果。
进一步地,在本发明第二实施例中,语音识别模块201,包括:整合单元、生成单元、请求单元和展示单元;
转文字单元用于利用语音识别技术对第一语音进行语音转文字操作,形成待处理句子;
转拼音单元用于将待处理句子进行文字转拼音操作,形成待处理拼音;
比对单元用于将所述待处理拼音与语音识别纠偏模型中预存的品牌映射表中进行比对,获得若干个匹配词;
校正单元用于根据若干个所述匹配词对所述待处理句子进行校正,获得第一句子。
进一步地,在本发明第二实施例中,意图匹配模块202,包括:第一匹配单元、第一确定单元、第二匹配单元和第二确定单元;
第一匹配单元用于利用意图识别纠偏模型中预存的若干条意图匹配规则,对第一句子进行第一意图匹配;
第一确定单元用于当通过第一意图匹配得出第一意图匹配结果时,将所述第一意图匹配结果确定为第一意图;
第二匹配单元用于当通过第一意图匹配无法得出第二意图匹配结果时,利用AI大模型对第一句子进行意图匹配;
第二确定单元用于将通过第二意图匹配得出的第二意图匹配结果确定为第一意图。
进一步地,在本发明第二实施例中,参数提取模块203,包括:参数提取单元和参数校正单元;
参数提取单元用于利用AI大模型在第一句子中提取与所述第一意图相关的若干个意图参数;
参数校正单元用于利用参数纠偏模型中预存的若干条参数纠偏规则,对若干个所述意图参数进行校正,获得若干个第一参数。
进一步地,在本发明第二实施例中,响应模块204,包括:第一响应单元、第二响应单元、第三响应单元、第四响应单元、第五响应单元、第六响应单元和第七响应单元;
第一响应单元用于当第一意图为指数搜索时,基于若干个所述第一参数执行指数搜索函数进行数据筛选,得出数据筛选结果,并将所述数据筛选结果确定为语音响应结果;
第二响应单元用于当第一意图为创意生成时,基于若干个所述第一参数执行创意生成函数,生成若干个创意,并将若干个所述创意确定为语音响应结果;
第三响应单元用于当第一意图为创意评分时,基于若干个所述第一参数执行创意评分函数,得出若干个创意对应的创意分数,并将若干个所述创意分数确定为语音响应结果;
第四响应单元用于当第一意图为笔记生成时,基于若干个所述第一参数执行笔记生成函数,生成笔记生成结果,并将所述笔记生成结果确定为语音响应结果;
第五响应单元用于当第一意图为笔记优化时,基于若干个所述第一参数执行笔记优化函数,生成笔记优化结果,并将所述笔记优化结果确定为语音响应结果;
第六响应单元用于当第一意图为达人推荐时,基于若干个所述第一参数执行达人筛选函数,生成达人筛选名单,并将所述达人筛选名单确定为语音响应结果;
第七响应单元用于当未匹配到意图或所述第一参数中缺少执行第一意图处理函数所需的参数时,形成提醒回复语言,并将所述提醒回复语言确定为语音响应结果。
进一步地,在本发明第二实施例中,在所述根据若干个所述第一参数,执行所述第一意图处理函数,并得出语音响应结果后,还包括:
当第一意图为指数搜索时,利用支持筛选过滤的页面展示语音响应结果;
当第一意图为创意生成、笔记生成或笔记优化时,利用页面弹框展示语音响应结果;
当第一意图为创意评分时,利用创意评分tab展示语音响应结果;
当第一意图为达人推荐时,结合页面弹框和表格展示语音响应结果;其中,所述表格包含有各达人的推荐理由。
进一步地,在本发明第二实施例中,在所述当接收到第一语音时,结合语音识别纠偏模型对所述第一语音进行语音转文字操作,形成第一句子前,还包括:
利用监听器实时采集声音信号;
当在所述声音信号中识别到预设关键词时,启动语音输入功能。
综上,本发明第二实施例提供了一种智能语音助手的控制装置,以模块间的有机结合为基础,当接收到第一语音时,结合语音识别纠偏模型对第一语音进行语音转文字操作,形成第一句子;结合意图识别纠偏模型对第一句子进行意图匹配,得到第一意图,并获取第一意图对应的第一意图处理函数;结合参数纠偏模型在第一句子中提取与第一意图相关的若干个第一参数;根据若干个第一参数,执行第一意图处理函数,并得出语音响应结果。本发明利用语音输入替换掉手动输入和筛选的繁琐操作,简化了用户与各个系统之间的交互流程;在处理用户语音的过程中采用纠偏模型,提高了意图匹配的准确性;通过多个算法串联调用,有效控制数据流通,从而打破了数据孤岛,降低了使用门槛。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步的详细说明,应当理解,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围。特别指出,对于本领域技术人员来说,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种智能语音助手的控制方法,其特征在于,包括:
当接收到第一语音时,结合语音识别纠偏模型对所述第一语音进行语音转文字操作,形成第一句子;
结合意图识别纠偏模型对所述第一句子进行意图匹配,得到第一意图,并获取所述第一意图对应的第一意图处理函数;
结合参数纠偏模型在第一句子中提取与所述第一意图相关的若干个第一参数;
根据若干个所述第一参数,执行所述第一意图处理函数,并得出语音响应结果;
其中,所述根据若干个所述第一参数,执行所述第一意图处理函数,并得出语音响应结果,具体为:
当第一意图为指数搜索时,基于若干个所述第一参数执行指数搜索函数进行数据筛选,得出数据筛选结果,并将所述数据筛选结果确定为语音响应结果;
当第一意图为创意生成时,基于若干个所述第一参数执行创意生成函数,生成若干个创意,并将若干个所述创意确定为语音响应结果;
当第一意图为创意评分时,基于若干个所述第一参数执行创意评分函数,得出若干个创意对应的创意分数,并将若干个所述创意分数确定为语音响应结果;
当第一意图为笔记生成时,基于若干个所述第一参数执行笔记生成函数,生成笔记生成结果,并将所述笔记生成结果确定为语音响应结果;
当第一意图为笔记优化时,基于若干个所述第一参数执行笔记优化函数,生成笔记优化结果,并将所述笔记优化结果确定为语音响应结果;
当第一意图为达人推荐时,基于若干个所述第一参数执行达人筛选函数,生成达人筛选名单,并将所述达人筛选名单确定为语音响应结果;
当未匹配到意图或所述第一参数中缺少执行第一意图处理函数所需的参数时,形成提醒回复语言,并将所述提醒回复语言确定为语音响应结果。
2.根据权利要求1所述的智能语音助手的控制方法,其特征在于,所述当接收到第一语音时,结合语音识别纠偏模型对所述第一语音进行语音转文字操作,形成第一句子,具体为:
利用语音识别技术对第一语音进行语音转文字操作,形成待处理句子;
将待处理句子进行文字转拼音操作,形成待处理拼音;
将所述待处理拼音与语音识别纠偏模型中预存的品牌映射表中进行比对,获得若干个匹配词;
根据若干个所述匹配词对所述待处理句子进行校正,获得第一句子。
3.根据权利要求1所述的智能语音助手的控制方法,其特征在于,所述结合意图识别纠偏模型对所述第一句子进行意图匹配,得到第一意图,并获取所述第一意图对应的第一意图处理函数,具体为:
利用意图识别纠偏模型中预存的若干条意图匹配规则,对第一句子进行第一意图匹配;
当通过第一意图匹配得出第一意图匹配结果时,将所述第一意图匹配结果确定为第一意图;
当通过第一意图匹配无法得出第二意图匹配结果时,利用AI大模型对第一句子进行意图匹配;
将通过第二意图匹配得出的第二意图匹配结果确定为第一意图。
4.根据权利要求1所述的智能语音助手的控制方法,其特征在于,所述结合参数纠偏模型在第一句子中提取与所述第一意图相关的若干个第一参数,具体为:
利用AI大模型在第一句子中提取与所述第一意图相关的若干个意图参数;
利用参数纠偏模型中预存的若干条参数纠偏规则,对若干个所述意图参数进行校正,获得若干个第一参数。
5.根据权利要求1所述的智能语音助手的控制方法,其特征在于,在所述根据若干个所述第一参数,执行所述第一意图处理函数,并得出语音响应结果后,还包括:
当第一意图为指数搜索时,利用支持筛选过滤的页面展示语音响应结果;
当第一意图为创意生成、笔记生成或笔记优化时,利用页面弹框展示语音响应结果;
当第一意图为创意评分时,利用创意评分tab展示语音响应结果;
当第一意图为达人推荐时,结合页面弹框和表格展示语音响应结果;其中,所述表格包含有各达人的推荐理由。
6.根据权利要求1所述的智能语音助手的控制方法,其特征在于,在所述当接收到第一语音时,结合语音识别纠偏模型对所述第一语音进行语音转文字操作,形成第一句子前,还包括:
利用监听器实时采集声音信号;
当在所述声音信号中识别到预设关键词时,启动语音输入功能。
7.一种智能语音助手的控制装置,其特征在于,包括:语音识别模块、意图匹配模块、参数提取模块和响应模块;
所述语音识别模块用于当接收到第一语音时,结合语音识别纠偏模型对所述第一语音进行语音转文字操作,形成第一句子;
所述意图匹配模块用于结合意图识别纠偏模型对所述第一句子进行意图匹配,得到第一意图,并获取所述第一意图对应的第一意图处理函数;
所述参数提取模块用于结合参数纠偏模型在第一句子中提取与所述第一意图相关的若干个第一参数;
所述响应模块用于根据若干个所述第一参数,执行所述第一意图处理函数,并得出语音响应结果;
其中,所述根据若干个所述第一参数,执行所述第一意图处理函数,并得出语音响应结果,具体为:
当第一意图为指数搜索时,基于若干个所述第一参数执行指数搜索函数进行数据筛选,得出数据筛选结果,并将所述数据筛选结果确定为语音响应结果;
当第一意图为创意生成时,基于若干个所述第一参数执行创意生成函数,生成若干个创意,并将若干个所述创意确定为语音响应结果;
当第一意图为创意评分时,基于若干个所述第一参数执行创意评分函数,得出若干个创意对应的创意分数,并将若干个所述创意分数确定为语音响应结果;
当第一意图为笔记生成时,基于若干个所述第一参数执行笔记生成函数,生成笔记生成结果,并将所述笔记生成结果确定为语音响应结果;
当第一意图为笔记优化时,基于若干个所述第一参数执行笔记优化函数,生成笔记优化结果,并将所述笔记优化结果确定为语音响应结果;
当第一意图为达人推荐时,基于若干个所述第一参数执行达人筛选函数,生成达人筛选名单,并将所述达人筛选名单确定为语音响应结果;
当未匹配到意图或所述第一参数中缺少执行第一意图处理函数所需的参数时,形成提醒回复语言,并将所述提醒回复语言确定为语音响应结果。
8.根据权利要求7所述的智能语音助手的控制装置,其特征在于,所述语音识别模块,包括:转文字单元、转拼音单元、比对单元和校正单元;
所述转文字单元用于利用语音识别技术对第一语音进行语音转文字操作,形成待处理句子;
所述转拼音单元用于将待处理句子进行文字转拼音操作,形成待处理拼音;
所述比对单元用于将所述待处理拼音与语音识别纠偏模型中预存的品牌映射表中进行比对,获得若干个匹配词;
所述校正单元用于根据若干个所述匹配词对所述待处理句子进行校正,获得第一句子。
9.根据权利要求7所述的智能语音助手的控制装置,其特征在于,所述意图匹配模块,包括:第一匹配单元、第一确定单元、第二匹配单元和第二确定单元;
所述第一匹配单元用于利用意图识别纠偏模型中预存的若干条意图匹配规则,对第一句子进行第一意图匹配;
所述第一确定单元用于当通过第一意图匹配得出第一意图匹配结果时,将所述第一意图匹配结果确定为第一意图;
所述第二匹配单元用于当通过第一意图匹配无法得出第二意图匹配结果时,利用AI大模型对第一句子进行意图匹配;
所述第二确定单元用于将通过第二意图匹配得出的第二意图匹配结果确定为第一意图。
CN202410940488.XA 2024-07-15 2024-07-15 一种智能语音助手的控制方法及装置 Active CN118782026B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410940488.XA CN118782026B (zh) 2024-07-15 2024-07-15 一种智能语音助手的控制方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410940488.XA CN118782026B (zh) 2024-07-15 2024-07-15 一种智能语音助手的控制方法及装置

Publications (2)

Publication Number Publication Date
CN118782026A CN118782026A (zh) 2024-10-15
CN118782026B true CN118782026B (zh) 2025-02-28

Family

ID=92983834

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410940488.XA Active CN118782026B (zh) 2024-07-15 2024-07-15 一种智能语音助手的控制方法及装置

Country Status (1)

Country Link
CN (1) CN118782026B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108021554A (zh) * 2017-11-14 2018-05-11 无锡小天鹅股份有限公司 语音识别方法、装置以及洗衣机
CN113707300A (zh) * 2021-08-30 2021-11-26 康键信息技术(深圳)有限公司 基于人工智能的搜索意图识别方法、装置、设备及介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6877001B2 (en) * 2002-04-25 2005-04-05 Mitsubishi Electric Research Laboratories, Inc. Method and system for retrieving documents with spoken queries
US7194455B2 (en) * 2002-09-19 2007-03-20 Microsoft Corporation Method and system for retrieving confirming sentences
CN111753046A (zh) * 2020-03-16 2020-10-09 北京京东尚科信息技术有限公司 控制智能设备的方法及装置、电子设备、以及介质
CN112417210A (zh) * 2020-10-29 2021-02-26 深圳Tcl新技术有限公司 健身视频的查询方法、装置、终端和存储介质
CN114639385A (zh) * 2020-12-01 2022-06-17 深圳Tcl新技术有限公司 一种基于语音识别的推荐方法和计算机设备
US12124508B2 (en) * 2022-07-12 2024-10-22 Adobe Inc. Multimodal intent discovery system
CN115862615A (zh) * 2022-11-15 2023-03-28 海信视像科技股份有限公司 一种显示设备、语音搜索方法及存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108021554A (zh) * 2017-11-14 2018-05-11 无锡小天鹅股份有限公司 语音识别方法、装置以及洗衣机
CN113707300A (zh) * 2021-08-30 2021-11-26 康键信息技术(深圳)有限公司 基于人工智能的搜索意图识别方法、装置、设备及介质

Also Published As

Publication number Publication date
CN118782026A (zh) 2024-10-15

Similar Documents

Publication Publication Date Title
US20240419659A1 (en) Method and system of classification in a natural language user interface
US11894140B2 (en) Interface for patient-provider conversation and auto-generation of note or summary
US11442614B2 (en) Method and system for generating transcripts of patient-healthcare provider conversations
US20210232763A1 (en) Graphical systems and methods for human-in-the-loop machine intelligence
Johnson et al. A systematic review of speech recognition technology in health care
US11295071B2 (en) Graphical systems and methods for human-in-the-loop machine intelligence
US10403393B2 (en) Voice-assisted clinical note creation on a mobile device
US20150302850A1 (en) Email-like user interface for training natural language systems
US20150348565A1 (en) Determining domain salience ranking from ambiguous words in natural speech
CN107239665B (zh) 医疗信息查询系统及方法
CN111930948B (zh) 一种信息收集和分级方法、装置、计算机设备及存储介质
WO2013173352A2 (en) Crowd sourcing information to fulfill user requests
US20160140228A1 (en) Reformatting queries for search engines and data repositories
CN109243549B (zh) 一种智能随访方法、装置及服务器
CN105608091A (zh) 一种动态医疗知识库的构建方法及装置
US10528671B1 (en) System and method for actionizing comments using voice data
AU2017216520A1 (en) Common data repository for improving transactional efficiencies of user interactions with a computing device
CN102510375A (zh) 语音记事的标题展示方法及系统
WO2021063089A1 (zh) 规则匹配方法、规则匹配装置、存储介质及电子设备
CN114840671A (zh) 对话生成方法、模型的训练方法、装置、设备及介质
CN118504679B (zh) 构建垂域知识图谱的方法及相关装置
US20200143270A1 (en) Virtual assistant negotiation system and method thereof
US20230359932A1 (en) Classification process systems and methods
CN118782026B (zh) 一种智能语音助手的控制方法及装置
CN113870998A (zh) 问诊方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant