[go: up one dir, main page]

CN115376513B - 语音交互方法、服务器及计算机可读存储介质 - Google Patents

语音交互方法、服务器及计算机可读存储介质 Download PDF

Info

Publication number
CN115376513B
CN115376513B CN202211276398.2A CN202211276398A CN115376513B CN 115376513 B CN115376513 B CN 115376513B CN 202211276398 A CN202211276398 A CN 202211276398A CN 115376513 B CN115376513 B CN 115376513B
Authority
CN
China
Prior art keywords
voice
information
state machine
state
matching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211276398.2A
Other languages
English (en)
Other versions
CN115376513A (zh
Inventor
韩传宇
易晖
翁志伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Xiaopeng Motors Technology Co Ltd
Original Assignee
Guangzhou Xiaopeng Motors Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Xiaopeng Motors Technology Co Ltd filed Critical Guangzhou Xiaopeng Motors Technology Co Ltd
Priority to CN202211276398.2A priority Critical patent/CN115376513B/zh
Publication of CN115376513A publication Critical patent/CN115376513A/zh
Application granted granted Critical
Publication of CN115376513B publication Critical patent/CN115376513B/zh
Priority to PCT/CN2023/125013 priority patent/WO2024083128A1/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60RVEHICLES, VEHICLE FITTINGS, OR VEHICLE PARTS, NOT OTHERWISE PROVIDED FOR
    • B60R16/00Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for
    • B60R16/02Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements
    • B60R16/037Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements for occupant comfort, e.g. for automatic adjustment of appliances according to personal settings, e.g. seats, mirrors, steering wheel
    • B60R16/0373Voice control
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mechanical Engineering (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Machine Translation (AREA)
  • Navigation (AREA)

Abstract

本发明公开了一种语音交互方法,包括:接收车辆转发的在车辆语音功能被唤醒后的用户语音请求;根据用户语音请求加载状态机配置模板以解析状态机配置模板得到解析器;根据解析器进行逻辑计算得到匹配状态;根据匹配状态更新车辆座舱内各个音区的拒识处理以完成语音交互。本发明中,将车辆座舱划分为多个音区,针对接收到车辆转发的语音请求,来加载状态机配置模板,从而能够解析状态机配置模板得到解析器。解析器能够判断当前所处的状态与状态机配置模板的规则的匹配情况,从而根据匹配情况,确认状态机状态的切换或改变。状态机中的可配置模板方便用户根据具体需求进行设置或改变,具有较强的伸缩性,用户体验较佳。

Description

语音交互方法、服务器及计算机可读存储介质
技术领域
本发明涉及语音技术领域,特别涉及一种语音交互方法、服务器及计算机可读存储介质。
背景技术
随着自动驾驶技术的发展,车辆可以支持语音控制服务,如语音控制车窗开启等。在实际用车场景中,用户可能从车内多个音区发出语音,且发出的语音并不都是对车载系统的请求,这就要求车载语音处理器能够在所有语音中拒绝识别无用信息,提取针对自己的语音请求并做出响应。
相关技术中,对于语音请求的拒识处理通常仅能够针对单音区场景,通过结合当前文本信息、自动语音识别技术、置信度表征语音特征等实现在单音区场景下对无关语音请求的拒识,无法满足对于车辆内多音区语音交互的需求。
发明内容
本发明提供了一种语音交互方法、服务器及计算机可读存储介质。
本发明的语音交互方法,包括:
接收所述车辆转发的在车辆语音功能被唤醒后的用户语音请求;
根据所述用户语音请求加载状态机配置模板以解析所述状态机配置模板得到解析器;
根据所述解析器进行逻辑计算得到匹配状态;
根据所述匹配状态更新车辆座舱内各个音区的拒识处理以完成语音交互。
如此,本发明中,将车辆座舱划分为多个音区,针对接收到车辆转发的语音请求,来加载状态机配置模板,从而能够解析状态机配置模板得到解析器。解析器能够判断当前所处的状态与状态机配置模板的规则的匹配情况,从而根据匹配情况,确认状态机状态的切换或改变。状态机中的可配置模板方便用户根据具体需求进行设置或改变,具有较强的伸缩性,用户体验较佳。
所述根据所述用户语音请求加载状态机配置模板以解析所述状态机配置模板得到解析器,包括:
根据所述用户语音请求在预先编写的状态机配置模板中确定目标状态机配置模板;
通过模板解析类加载所述目标状态机配置模板并解析目标状态机配置模板得到所述解析器。
如此,模板加载类可将语音请求的各项具体信息填写进状态机配置模板中,并定义加载和处理的方法得到相应状态和逻辑配置下的解析器,以便后续的逻辑计算或更多模板的引入。
所述根据所述用户语音请求在预先编写的状态机配置模板中确定目标状态机配置模板,包括:
确定所述用户语音请求对应的匹配轮次信息、唤醒音区信息、对话音区信息、拒识子标签信息、拒识子标签置信度信息和状态机的当前拒识模式状态信息;
根据所述匹配轮次信息、所述唤醒音区信息、所述对话音区信息、所述拒识子标签信息、所述拒识子标签置信度信息和所述当前拒识模式状态信息在预先编写的所述状态机配置模板中进行匹配以确定所述目标状态机配置模板。
如此,确定用户语音请求对应的匹配轮次信息、唤醒音区信息、对话音区信息、拒识子标签信息、拒识子标签置信度信息和状态机的当前拒识模式状态信息,并根据语音请求的上述信息在预先编写的状态机配置模板中进行匹配,以确定与当前状态信息符合的状态机配置模板。
所述根据所述匹配轮次信息、所述唤醒音区信息、所述对话音区信息、所述拒识子标签信息、所述拒识子标签置信度信息和所述当前拒识模式状态信息在预先编写的所述状态机配置模板中进行匹配以确定所述目标状态机配置模板,包括:
根据所述匹配轮次信息、所述唤醒音区信息、所述对话音区信息、所述拒识子标签信息、所述拒识子标签置信度信息和所述当前拒识模式状态信息在预先编写的状态描述模板进行匹配以确定目标状态描述模板。
如此,将具体语音请求的相关信息与预先编写的状态描述模板中进行匹配,以确定与当前状态信息符合的状态描述模板。
所述根据所述匹配轮次信息、所述唤醒音区信息、所述对话音区信息、所述拒识子标签信息、所述拒识子标签置信度信息和所述当前拒识模式状态信息在预先编写的所述状态机配置模板中进行匹配以确定所述目标状态机配置模板,包括:
根据所述匹配轮次信息、所述唤醒音区信息、所述对话音区信息、所述拒识子标签信息、所述拒识子标签置信度信息和所述当前拒识模式状态信息在预先编写的逻辑描述模板进行匹配以确定目标逻辑描述模板。
如此,将具体语音请求的相关信息与预先编写的状态描述模板中进行匹配,以确定与当前状态信息符合的逻辑描述模板。
所述根据所述解析器进行逻辑计算得到匹配状态,包括:
通过逻辑计算类对所述解析器解析的所述状态描述模板和所述逻辑描述模板进行映射处理并计算得到所述匹配状态。
如此,逻辑计算类模块可对解析器解析的当前实际状态描述模板与已构建的逻辑描述模板进行对比计算,得到匹配状态,以便后续状态机跳转。
所述根据所述匹配状态更新车辆座舱内各个音区的拒识处理以完成语音交互,包括:
通过状态机动作类在所述匹配状态为匹配成功的情况下,更新所述车辆座舱内各个音区的拒识处理以完成语音交互。
如此,状态机动作类根据逻辑计算类输出确定当前状态信息和逻辑规则匹配,可以转换状态机状态,更新车辆座舱内各个音区的拒识处理,完成语音交互过程。
所述根据所述匹配状态更新车辆座舱内各个音区的拒识处理以完成语音交互,包括:
通过状态机动作类在所述匹配状态为未匹配成功的情况下,保持所述车辆座舱内各个音区的拒识处理以完成语音交互。
如此,状态机动作类根据逻辑计算类输出确定当前状态信息和逻辑规则不匹配,可以不转换状态机状态,保持车辆座舱内各个音区的拒识处理,完成语音交互过程。
本发明的服务器,包括存储器和处理器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,实现上述的方法。
本发明的计算机可读存储介质,存储有计算机程序,当所述计算机程序被一个或多个处理器执行时,实现上述的方法。
本发明的实施方式的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实施方式的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施方式的描述中将变得明显和容易理解,其中:
图1是本发明语音交互方法的流程示意图;
图2是本发明车辆座舱的示意图。
具体实施方式
下面详细描述本发明的实施方式,实施方式的示例在附图中示出,其中,相同或类似的标号自始至终表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明的实施方式,而不能理解为对本发明的实施方式的限制。
请参阅图1,本发明提供一种语音交互方法,包括:
01:接收车辆转发的在车辆语音功能被唤醒后的用户语音请求;
02:根据用户语音请求加载状态机配置模板以解析状态机配置模板得到解析器;
03:根据解析器进行逻辑计算得到匹配状态;
04:根据匹配状态更新车辆座舱内各个音区的拒识处理以完成语音交互。
本发明还提供了一种服务器,服务器包括存储器和处理器。本发明的语音交互方法可以由本发明的服务器实现。具体地,存储器中存储有计算机程序,处理器用于接收车辆转发的在车辆语音功能被唤醒后的用户语音请求,以及根据用户语音请求加载状态机配置模板以解析状态机配置模板得到解析器,以及根据解析器进行逻辑计算得到匹配状态,以及根据匹配状态更新车辆座舱内各个音区的拒识处理以完成语音交互。
具体地,车载系统的语音助手为座舱内的用户提供诸多便利,用户可以通过语音交互实现对软件或座舱内车辆零部件的控制。为了交互便利,语音助手可支持连续对话,由于车内空间属于共享环境,语音助手可能会面临接收到来自不同用户与语音助手之间的对话,不同用户之间的对话等。通过设置语义拒识规则,可满足语音助手对再次出现的相同语音请求给出相同的反馈,同时希望语音助手对具体语音请求产生反馈规则能够尽可能方便地按用户需求进行修改,从而能够更好地为用户服务,提升用户进行语音交互的使用体验。
可以理解,在多音区连续对话的场景中,也即是,在语音助手被唤醒后,支持座舱内不同位置处的用户共同与语音助手进行多轮对话的场景。多个用户可能围绕同一主题进行自由度较高的交互,相较于单一音区的情况更为复杂,语义拒识规则的设置需更为细致。
唤醒车辆语音功能也即是唤醒车辆的语音助手,唤醒语音请求可以是由厂商设定或用户自定义的唤醒词。在语音助手被唤醒后,座舱内用户可与语音助手进行连续多轮对话。在对话达到设定的轮次阈值,或在预定时间内没有接收到用户的语音请求等情况后,对话结束。
唤醒音区也即是发出唤醒语音请求的用户所在的音区位置。如,主驾唤醒语音助手,那么唤醒音区就是主驾音区。唤醒音区信息也即是唤醒音区对应的音区位置信息。
对话音区也即是语音助手获取到的正在进行语音交互的用户所在的音区位置,正在进行对话的音区即为对话音区。如,在某一场景中,在语音助手被唤醒后,主驾用户与副驾用户先后与语音助手进行交互,则在该场景中,主驾用户和副驾用户发出的语音请求先后被语音助手获取,主驾用户和副驾用户所在音区都属于对话音区。对话音区与唤醒音区可以相同或不同。
拒识处理用于在交互过程中甄别出用户的语音请求哪些是对语音助手说的,将其进行召回并执行,哪些不是对语音助手说的,将其作为噪声过滤。本发明中,提供两种拒识程度不同的拒识处理,其中,拒识程度高,仅召回相关度高的语音请求的拒识处理为第一拒识处理,拒识程度低的拒识处理为第二拒识处理。
本发明中,引入状态机,状态机用于记录在语音交互过程中各个音区的拒识模式,并不断地在本发明的语音交互过程中根据接收到的对应音区信息和用户的语音请求进行状态机的更新。实际用车场景中,用户对语音助手的拒识规则要求不一定是一成不变的。当语音助手被唤醒后,各音区的拒识处理需要跟随语音交互的进程更新。用户会根据自己需求的改变从而修改语音助手的拒识规则,模块化的状态机配置模板保证用户方便添加、删减或修改语音助手的具体拒识规则。
综上所述,本发明中,将车辆座舱划分为多个音区,针对接收到车辆转发的语音请求,来加载状态机配置模板,从而能够解析状态机配置模板得到解析器。解析器能够判断当前所处的状态与状态机配置模板的规则的匹配情况,从而根据匹配情况,确认状态机状态的切换或改变。状态机中的可配置模板方便用户根据具体需求进行设置或改变,具有较强的伸缩性,用户体验较佳。
步骤02包括:
021:根据用户语音请求在预先编写的状态机配置模板中确定目标状态机配置模板;
022:通过模板解析类加载目标状态机配置模板并解析目标状态机配置模板得到解析器。
处理器用于根据用户语音请求在预先编写的状态机配置模板中确定目标状态机配置模板,以及用于通过模板解析类加载目标状态机配置模板并解析目标状态机配置模板得到解析器。
具体地,本发明中,提供状态机配置模板供用户进行配置,包括状态描述模板和逻辑描述模板。在状态机配置模板完成后,模板解析类变量加载目标状态机配置模板并解析目标状态机配置模板得到解析器。能够从计算机存储器中加载对应逻辑模块和状态机跳转模块,使状态机得以完成后续逻辑判断。
以第一拒识处理为例,配置项"tight_state_template" 为键值队列表(dict)类型条件集合,即状态模板,其中存在可填入的关于语音请求的各类标签信息,包括业务规则、响应轮数、拒识子标签及其置信度等信息。配置项"tight_logical_template" 为键值队列表(dict)类型条件集合,即逻辑模板,其中存在可填入的关于语音请求的部分相关信息的条件判断规则语句。填写好的状态模板和逻辑模板会归入可被模板解析类解析的"self.state_template" 和"self.state_template" 模块中,模板解析类定义函数"load_state_template" 和"load_logical_template"加载用户输入的状态模板"tight_state_template"和逻辑模板"tight_logical_template",最后处理状态和逻辑的对应关系并定义处理函数"process_logical_template"作为输出的解析器。
可以理解地,模板解析类形成的解析器可以方便逻辑处理类进行进一步计算。并且除状态模板和逻辑模板外,解析器可以打包处理两个以上甚至更多的类型模板,更方便状态和逻辑的解析。
如此,模板加载类可将语音请求的各项具体信息填写进状态机配置模板中,并定义加载和处理的方法得到相应状态和逻辑配置下的解析器,以便后续的逻辑计算或更多模板的引入。
步骤021包括:
0211:确定用户语音请求对应的匹配轮次信息、唤醒音区信息、对话音区信息、拒识子标签信息、拒识子标签置信度信息和状态机的当前拒识模式状态信息;
0212:根据匹配轮次信息、唤醒音区信息、对话音区信息、拒识子标签信息、拒识子标签置信度信息和当前拒识模式状态信息在预先编写的状态机配置模板中进行匹配以确定目标状态机配置模板。
处理器用于确定用户语音请求对应的匹配轮次信息、唤醒音区信息、对话音区信息、拒识子标签信息、拒识子标签置信度信息和状态机的当前拒识模式状态信息,并根据匹配轮次信息、唤醒音区信息、对话音区信息、拒识子标签信息、拒识子标签置信度信息和当前拒识模式状态信息在预先编写的状态机配置模板中进行匹配以确定目标状态机配置模板。
座舱内根据用户可能发声的区域划分为不同的音区,请参阅图2,以五座车辆为例,车辆座舱内可划分为包括主驾音区、副驾音区、后排左侧即左后音区、后排中间即中间音区以及后排右侧即右后音区等在内的5个音区。在配置状态机模板时,可选择一个或多个音区作为状态条件配置内容,座舱内可设置有多个语音拾取装置,从而根据获取到的语音请求的状态信息判断发出语音请求的用户所在的音区位置信息。
具体地,状态机配置模板中需要存在条件变量以便将具体变量的静态描述填入,形成状态触发器。状态触发器名称可设为"triggerName",类型为字符串(str)类。还可建立键值队列表(dict)类型条件集合,名称可设置为"triggerDetail",可在表内填入无序并列的状态变量信息。
其中,匹配轮次信息表征语音助手唤醒后音区内用户发出语音请求的次数。变量名称可设置为"turns",数据类型为整型(int)。
唤醒音区信息即是唤醒音区对应的音区位置信息,唤醒音区也即是发出唤醒语音请求的用户所在的音区位置。变量名称可设置为"soundLocation",如上所述,类型为整型(int)类。
对话音区也即是语音助手获取到的正在进行语音交互的用户所在的音区位置,正在进行对话的音区即为对话音区。变量名称可设置为"soundArea",如上所述,类型为字符串(str)类。
拒识子标签信息包括有效语音请求和无效语音请求,判断语音请求的有效或无效由状态机的拒识模式确定。变量名称可设置为"rejSublabel",类型为字符串(str)类。
拒识子标签置信度信息表征拒识子标签的可信程度。变量名称可设置为"rejSublabel",类型为浮点(float)类。
拒识模式状态信息即是用于表示状态机对于任意语音请求的拒识处理状态的信息,包括当前状态和目标状态。变量名称可分别设置为"source"和"dest",类型为字符串(str)类。
将获取的语音请求与预先编写的状态机配置模板进行匹配,确定对应当前语音请求的目标状态机配置模板。
在一个示例中,用户需求为“前排唤醒,后排进入第一拒识处理”,状态机设置模板需要具体配置的变量有唤醒音区信息"soundLocation",对话音区信息"soundArea",及目标拒识处理的状态信息"dest",而拒识子标签,拒识子标签置信度,匹配轮次信息及当前拒识处理可不设置或设置为任意状态。具体来说,即{"source":"*","triggerDetail":{"turns":null, "rejSublabel":null, "rejConf":null}}。其中"source":"*"代表不限定当前拒识模式的状态; "turns":null, "rejSublabel":null, "rejConf":null代表匹配轮次、拒识子标签和拒识子标签置信度信息规则均不设置。
如此,确定用户语音请求对应的匹配轮次信息、唤醒音区信息、对话音区信息、拒识子标签信息、拒识子标签置信度信息和状态机的当前拒识模式状态信息,并根据语音请求的上述信息在预先编写的状态机配置模板中进行匹配,以确定与当前状态信息符合的状态机配置模板。
步骤0212包括:
02121:根据匹配轮次信息、唤醒音区信息、对话音区信息、拒识子标签信息、拒识子标签置信度信息和当前拒识模式状态信息在预先编写的状态描述模板进行匹配以确定目标状态描述模板。
处理器用于根据匹配轮次信息、唤醒音区信息、对话音区信息、拒识子标签信息、拒识子标签置信度信息和当前拒识模式状态信息在预先编写的状态描述模板进行匹配以确定目标状态描述模板。
具体地,状态机配置模板中需要将当前场景下各状态变量具体的静态描述填入,形成状态触发器,即当状态触发器中填入具体的状态变量的静态描述条件后,可以判断当前场景状态是否满足状态机跳转条件。状态触发器的名称可设为"triggerName",类型为字符串(str)类。还可建立键值对列表(dict)类型数据集合,名称可设置为"triggerDetail",可在表内填入无序并列的状态变量信息。
其中,匹配轮次信息表征语音助手唤醒后音区内用户发出语音请求的次数。变量名称可设置为"turns",数据类型为整型(int),即变量可取所有自然数。
特别地,为了区分唤醒音区和对话音区,对于唤醒音区和对话音区可用不同标识方法,如本发明中,对于主驾、副驾、左后、中间、右后五个音区,若音区为唤醒音区,则可分别用整型(int)1、2、3、4、5表示;若音区为当前对话音区,则可分别用字符串(str)LF、RF、LR、MR、RR来表示。
唤醒音区信息即是唤醒音区对应的音区位置信息,唤醒音区也即是发出唤醒语音请求的用户所在的音区位置。变量名称可设置为"soundLocation",如上所述,类型为整型(int)类。具体地,如主驾唤醒语音助手,那么唤醒音区就是主驾音区,在状态机中可表示为"soundLocation":"1"。可以理解地,在配置同一个状态机模板时,还选择多个音区作为唤醒音区条件,例如,若需设置条件为主驾或副驾作为唤醒音区,即只要是前排唤醒都能满足用户需求,则状态机中可表示为"soundLocation":"1/2"。
对话音区也即是语音助手获取到的正在进行语音交互的用户所在的音区位置,正在进行对话的音区即为对话音区。变量名称可设置为"soundArea",如上所述,类型为字符串(str)类。具体地,如左后、中间、右后音区同时进行对话,则对话音区为后排所有音区,在状态机中可表示为"soundArea":"LR/MR/RR"。
拒识子标签信息包括有效语音请求和无效语音请求,判断语音请求的有效或无效由状态机的拒识处理确定。变量名称可设置为"rejSublabel",类型为字符串(str)类。如在本发明中,存在有效语音请求"clear"和无效语音请求"noise"两种。
拒识子标签置信度信息表征拒识子标签的可信程度。变量名称可设置为"rejSublabel",类型为浮点(float)类。在本发明中,可取0.00至1.00的浮点数。
拒识模式状态信息即是用于表示状态机对于任意语音请求的拒识处理状态的信息,包括当前状态和目标状态。变量名称可分别设置为"source"和"dest",类型为字符串(str)类。如在本发明中,存在有效语音请求"clear"和无效语音请求"noise"两种。
将获取的语音请求与预先编写的状态机配置模板进行匹配,确定对应当前语音请求的目标状态机配置模板。
在一个示例中,用户需求为“如前排唤醒,则后排进入第一拒识处理”具体配置为{"triggerName":"front_wakeup","source":"*","triggerDetail":{"soundLocation":"1/2","soundArea":"LR/RR/MR","turns":null, "rejSublabel":null, "rejConf":null},"dest":"tight"}。其中"soundLocation":"1/2"代表前排唤醒; "soundArea":"LR/RR/MR"代表当前说话人是后排;"turns":null, "rejSublabel":null, "rejConf":null代表规则不设置;"source":"*"代表当前可以是任意状态;"dest":"tight"代表目标状态是第一拒识处理。
在交互过程中,根据获取的前排唤醒的语音请求,就可以匹配到根据“如前排唤醒,则后排进入第一拒识处理”的需求所编写的模板作为目标状态机配置模板。
如此,将具体语音请求的相关信息与预先编写的状态描述模板中进行匹配,以确定与当前状态信息符合的状态描述模板。
步骤02121包括:
021211:根据匹配轮次信息、唤醒音区信息、对话音区信息、拒识子标签信息、拒识子标签置信度信息和当前拒识模式状态信息在预先编写的逻辑描述模板进行匹配以确定目标逻辑描述模板。
处理器用于根据匹配轮次信息、唤醒音区信息、对话音区信息、拒识子标签信息、拒识子标签置信度信息和当前拒识模式状态信息在预先编写的逻辑描述模板进行匹配以确定目标逻辑描述模板。
具体地,逻辑描述模板中需要将具体逻辑规则变量的静态描述填入,规则变量的静态描述应与状态变量项一一对应,形成状态触发器,即当状态触发器中填入具体的状态变量的静态描述条件后,可以判断当前场景状态是否满足状态机跳转条件。状态触发器名称可设为"triggerName",类型为字符串(str)类。还可建立键值对列表(dict)类型数据集合,名称可设置为"triggerDetail",可在表内填入无序并列的逻辑规则信息。
其中匹配轮次信息、唤醒音区信息、对话音区信息、拒识子标签信息、拒识子标签置信度信息和当前拒识模式状态信息的变量名称参见步骤02121公开内容,在此不作赘述。
特别地,逻辑描述模板中键值对列表(dict)所含所有规则,应均为逻辑判断语句,故将语音请求的各类逻辑规则判断结果均设置为字符串(str)类型变量,并且可设置存在"exist"、少于"less_than"、不少于"more_than"和等于"exist"四种逻辑判断结果,其中,少于"less_than"和不少于"more_than"仅支持数值类型判断,包括整型(int)和浮点型(float),存在"exist"和等于"exist"则同时支持数值类型和字符串类型的判断。
将获取的语音请求与预先编写的状态机配置模板进行匹配,确定对应当前语音请求的目标状态机配置模板。
在一个示例中,用户需求为“如前排唤醒,则后排进入第一拒识处理”具体配置为{"triggerName":"front_wakeup","source":null,"triggerDetail":{"soundLocation":"exist","soundArea":"exist","turns":null, "rejSublabel":null,"rejConf":null},"dest":null}。其中"soundLocation":"exist"代表当前唤醒音区存在状态模板的"soundLocation":"1/2"中;"soundArea":"exist"代表当前说话人音区存在状态模板的"soundArea":"LR/RR/MR"中;"turns":null, "rejSublabel":null, "rejConf":null代表规则不设置;"source":null代表规则不设置,即当前可以是任意状态;"dest":"tight"代表当前目标状态是第一拒识处理。
在交互过程中,根据获取的前排唤醒的语音请求,就可以匹配到根据“如前排唤醒,则后排进入第一拒识处理”的需求所编写的模板作为目标状态机配置模板。
如此,将具体语音请求的相关信息与预先编写的状态描述模板中进行匹配,以确定与当前状态信息符合的逻辑描述模板。
步骤03包括:
031:通过逻辑计算类对解析器解析的状态描述模板和逻辑描述模板进行映射处理并计算得到匹配状态。
处理器用于通过逻辑计算类对解析器解析的状态描述模板和逻辑描述模板进行映射处理并计算得到匹配状态。
具体地,本发明中,逻辑计算类存在与逻辑描述模板中将解析器解析的状态描述模板和逻辑描述模板根据一一对应的原则进行映射处理,并进行逻辑计算,得到匹配状态。
以需求为“前排唤醒,后排进入第一拒识处理”的第一拒识处理跳转为例,首先获取逻辑描述模板"tight_logical_template"的"triggerDetail"表中不为"null"的规则,即为唤醒音区"soundLocation"变量和对话音区"soundArea"变量。逻辑计算类可定义函数"exist"、"less_than"、"more_than"、"equal"进行逻辑判断,并将状态模板和逻辑模板按一一对应的原则进行映射处理。此例中,即判断当前系统实际的"soundLocation"和"soundArea"变量的值是否存在于逻辑描述模板"tight_logical_template"的限定值范围之内。若都满足,则可将输出结果"match"存入字符串(str)类型数据"self.result"中;若不满足,则输出其他结果或不输出任何结果直接跳出处理进程。
进一步地,逻辑计算类的计算方法会随着处理项目增加而增加。
如此,逻辑计算类模块可对解析器解析的当前实际状态描述模板与已构建的逻辑描述模板进行对比计算,得到匹配状态,以便后续状态机跳转。
步骤04包括:
041:通过状态机动作类在匹配状态为匹配成功的情况下,更新车辆座舱内各个音区的拒识处理以完成语音交互。
处理器通过状态机动作类在匹配状态为匹配成功的情况下,更新车辆座舱内各个音区的拒识处理以完成语音交互。
具体地,状态机动作类在匹配状态为匹配成功的情况下,更新车辆座舱内各个音区的拒识处理以完成语音交互。
以需求为“前排唤醒,后排进入第一拒识处理模式”的第一拒识处理跳转为例,状态机动作类可定义函数"get_parser","get_transition"和"get_trigger"分别得到解析器、当前跳转动作和跳转状态,在匹配状态为匹配成功,即逻辑运算类输出结果"self.result"为"match"的情况下,状态机动作类可通过"get_transition"函数更新车辆座舱内各个音区的拒识处理以完成语音交互。
进一步地,"get_transition"函数所进行的状态机跳转可以使用Python自带的transition工具包Machine类实现。
如此,状态机动作类根据逻辑计算类输出确定当前状态信息和逻辑规则匹配,可以转换状态机状态,更新车辆座舱内各个音区的拒识处理,完成语音交互过程。
步骤04包括:
042:通过状态机动作类在匹配状态为未匹配成功的情况下,保持车辆座舱内各个音区的拒识处理以完成语音交互。
处理器用于通过状态机动作类在匹配状态为未匹配成功的情况下,保持车辆座舱内各个音区的拒识处理以完成语音交互。
具体地,状态机动作类在匹配状态为未匹配成功的情况下,不进行各个音区的拒识处理更新,状态机保持现状,完成语音交互。
以需求为“前排唤醒,后排进入第一拒识处理”的第一拒识处理跳转为例,状态机动作类可定义函数"get_parser","get_transition"和"get_trigger"分别得到解析器、当前跳转动作和跳转状态,在匹配状态为未匹配成功,即逻辑运算类输出结果"self.result"不为"match"的情况下,不进行各个音区的拒识处理更新,状态机保持现状,完成语音交互。
进一步地,在匹配状态为未匹配成功,逻辑运算类输出结果"self.result"不为"match"的情况下,可以通过输出其他匹配结果以达到状态机不发生跳转目标,也可以不输出结果直接跳出跳转流程,从而完成语音交互。
如此,状态机动作类根据逻辑计算类输出确定当前状态信息和逻辑规则不匹配,可以不转换状态机状态,保持车辆座舱内各个音区的拒识处理,完成语音交互过程。
本发明的计算机可读存储介质,存储有计算机程序,当计算机程序被一个或多个处理器执行时,实现上述的方法。
以下通过两个场景示例对状态模板和逻辑模板的配置进行图示辅助说明:
示例一:用户需求和具体配置如表1。状态模板设置中,"soundLocation":"1/2"代表前排唤醒;"soundArea":"LR/RR/MR"代表当前说话人在后排,即对话音区为左后、中间和右后音区;"turns":2代表2轮匹配,即后排对话音区发出语音请求的次数为2次;"rejSublabel":"clear"代表仅有效语音请求被纳入语音助手计数;"source":"*"代表当前语音助手可以处在任意拒识模式状态;"dest":"loose"代表当前语音助手目标状态是第二拒识处理,即无论当前语音助手处在什么拒识处理下,如果当前状态符合模板要求都需要保持或跳转至第二拒识处理。逻辑模板配置中,"soundLocation":"exist"代表当前唤醒音区存在状态模板的"soundLocation":"1/2"中,即当前唤醒音区在前排;"soundArea":"exist"代表当前说话人音区存在状态模板的"soundArea":"LR/RR/MR"中,即当前对话音区在后排;"turns":more_than代表不少于匹配,即当前状态下后排进行对话轮次需要达到状态模板中设置的2次及以上;"rejSublabel":equal代表完全匹配,即仅识别有效语音请求;"source":null代表规则不设置,即不对现有拒识处理做任何限定;"dest":"loose"代表当前目标状态是第二拒识处理,即无论当前语音助手处在什么拒识处理下,如果当前状态符合模板要求都需要保持或跳转至第一拒识处理。
Figure 505864DEST_PATH_IMAGE001
表1
示例二:用户需求和具体配置如表2。状态模板设置中,"soundLocation":"1/2"代表前排唤醒;"soundArea":"LR/RR/MR"代表当前说话人在后排,即对话音区为左后、中间和右后音区;"turns":3代表3轮匹配,即后排对话音区发出语音请求的次数为3次;"rejSublabel":"noise"代表无效语音请求被语音助手识别计数;"source":"*"代表当前语音助手可以处在任意拒识处理状态;"dest":"tight"代表当前语音助手目标状态是第一拒识处理,即无论当前语音助手处在什么拒识处理下,如果当前状态符合模板要求都需要保持或跳转至第一拒识处理。逻辑模板配置中,"soundLocation":"exist"代表当前唤醒音区存在状态模板的"soundLocation":"1/2"中,即当前唤醒音区在前排;"soundArea":"exist"代表当前说话人音区存在状态模板的"soundArea":"LR/RR/MR"中,即当前对话音区在后排;"turns":more_than代表不少于匹配,即当前状态下后排进行对话轮次需要达到状态模板中设置的2次及以上;"rejSublabel":equal代表完全匹配,即仅对无效语音请求进行计数;"source":null代表规则不设置,即不对现有拒识处理做任何限定;"dest":"tight"代表当前目标状态是第一拒识处理,即无论当前语音助手处在什么拒识处理下,如果当前状态符合模板要求都需要保持或跳转至第一拒识处理。
Figure 901074DEST_PATH_IMAGE002
表2
在本说明书的描述中,参考术语“上述”、“具体地”、“可以理解地”、“进一步地”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施方式或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行请求的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
尽管上面已经示出和描述了本发明的实施方式,可以理解的是,上述实施方式是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施方式进行变化、修改、替换和变型。

Claims (10)

1.一种语音交互方法,其特征在于,包括:
接收车辆转发的在车辆语音功能被唤醒后的用户语音请求;
根据所述用户语音请求加载状态机配置模板以解析所述状态机配置模板得到解析器,所述状态机配置模板存在能够填入的包括业务规则、响应轮数、唤醒音区、对话音区、拒识子标签及其置信度的关于语音请求的各类标签信息和能够填入的关于语音请求的部分相关信息的条件判断规则语句;
根据所述解析器进行逻辑计算得到匹配状态;
根据所述匹配状态更新车辆座舱内各个音区的拒识处理以完成语音交互。
2.根据权利要求1所述的语音交互方法,其特征在于,所述根据所述用户语音请求加载状态机配置模板以解析所述状态机配置模板得到解析器,包括:
根据所述用户语音请求在预先编写的状态机配置模板中确定目标状态机配置模板;
通过模板解析类加载所述目标状态机配置模板并解析目标状态机配置模板得到所述解析器。
3.根据权利要求2所述的语音交互方法,其特征在于,所述根据所述用户语音请求在预先编写的状态机配置模板中确定目标状态机配置模板,包括:
确定所述用户语音请求对应的匹配轮次信息、唤醒音区信息、对话音区信息、拒识子标签信息、拒识子标签置信度信息和状态机的当前拒识模式状态信息;
根据所述匹配轮次信息、所述唤醒音区信息、所述对话音区信息、所述拒识子标签信息、所述拒识子标签置信度信息和所述当前拒识模式状态信息在预先编写的所述状态机配置模板中进行匹配以确定所述目标状态机配置模板。
4.根据权利要求3所述的语音交互方法,其特征在于,所述根据所述匹配轮次信息、所述唤醒音区信息、所述对话音区信息、所述拒识子标签信息、所述拒识子标签置信度信息和所述当前拒识模式状态信息在预先编写的所述状态机配置模板中进行匹配以确定所述目标状态机配置模板,包括:
根据所述匹配轮次信息、所述唤醒音区信息、所述对话音区信息、所述拒识子标签信息、所述拒识子标签置信度信息和所述当前拒识模式状态信息在预先编写的状态描述模板进行匹配以确定目标状态描述模板。
5.根据权利要求4所述的语音交互方法,其特征在于,所述根据所述匹配轮次信息、所述唤醒音区信息、所述对话音区信息、所述拒识子标签信息、所述拒识子标签置信度信息和所述当前拒识模式状态信息在预先编写的所述状态机配置模板中进行匹配以确定所述目标状态机配置模板,包括:
根据所述匹配轮次信息、所述唤醒音区信息、所述对话音区信息、所述拒识子标签信息、所述拒识子标签置信度信息和所述当前拒识模式状态信息在预先编写的逻辑描述模板进行匹配以确定目标逻辑描述模板。
6.根据权利要求5所述的语音交互方法,其特征在于,所述根据所述解析器进行逻辑计算得到匹配状态,包括:
通过逻辑计算类对所述解析器解析的所述状态描述模板和所述逻辑描述模板进行映射处理并计算得到所述匹配状态。
7.根据权利要求6所述的语音交互方法,其特征在于,所述根据所述匹配状态更新车辆座舱内各个音区的拒识处理以完成语音交互,包括:
通过状态机动作类在所述匹配状态为匹配成功的情况下,更新所述车辆座舱内各个音区的拒识处理以完成语音交互。
8.根据权利要求6所述的语音交互方法,其特征在于,所述根据所述匹配状态更新车辆座舱内各个音区的拒识处理以完成语音交互,包括:
通过状态机动作类在所述匹配状态为未匹配成功的情况下,保持所述车辆座舱内各个音区的拒识处理以完成语音交互。
9.一种服务器,其特征在于,所述服务器包括存储器和处理器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,实现权利要求1-8任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,当所述计算机程序被一个或多个处理器执行时,实现如权利要求1-8任意一项所述的方法。
CN202211276398.2A 2022-10-19 2022-10-19 语音交互方法、服务器及计算机可读存储介质 Active CN115376513B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202211276398.2A CN115376513B (zh) 2022-10-19 2022-10-19 语音交互方法、服务器及计算机可读存储介质
PCT/CN2023/125013 WO2024083128A1 (zh) 2022-10-19 2023-10-17 语音交互方法、服务器及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211276398.2A CN115376513B (zh) 2022-10-19 2022-10-19 语音交互方法、服务器及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN115376513A CN115376513A (zh) 2022-11-22
CN115376513B true CN115376513B (zh) 2023-05-12

Family

ID=84072707

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211276398.2A Active CN115376513B (zh) 2022-10-19 2022-10-19 语音交互方法、服务器及计算机可读存储介质

Country Status (2)

Country Link
CN (1) CN115376513B (zh)
WO (1) WO2024083128A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115376513B (zh) * 2022-10-19 2023-05-12 广州小鹏汽车科技有限公司 语音交互方法、服务器及计算机可读存储介质

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6480823B1 (en) * 1998-03-24 2002-11-12 Matsushita Electric Industrial Co., Ltd. Speech detection for noisy conditions
US6671669B1 (en) * 2000-07-18 2003-12-30 Qualcomm Incorporated combined engine system and method for voice recognition
CN103186416B (zh) * 2011-12-29 2016-06-22 比亚迪股份有限公司 构建多任务多分支过程的方法、状态机及执行方法
US10462619B2 (en) * 2016-06-08 2019-10-29 Google Llc Providing a personal assistant module with a selectively-traversable state machine
CN107665708B (zh) * 2016-07-29 2021-06-08 科大讯飞股份有限公司 智能语音交互方法及系统
CN107316643B (zh) * 2017-07-04 2021-08-17 科大讯飞股份有限公司 语音交互方法及装置
CN111008532B (zh) * 2019-12-12 2023-09-12 广州小鹏汽车科技有限公司 语音交互方法、车辆和计算机可读存储介质
CN111063350B (zh) * 2019-12-17 2022-10-21 思必驰科技股份有限公司 基于任务栈的语音交互状态机及其实现方法
CN112164401B (zh) * 2020-09-18 2022-03-18 广州小鹏汽车科技有限公司 语音交互方法、服务器和计算机可读存储介质
CN112927692B (zh) * 2021-02-24 2023-06-16 福建升腾资讯有限公司 一种自动语言交互方法、装置、设备和介质
CN113330513B (zh) * 2021-04-20 2024-08-27 华为技术有限公司 语音信息处理方法及设备
CN114267347A (zh) * 2021-11-01 2022-04-01 惠州市德赛西威汽车电子股份有限公司 一种基于智能语音交互的多模态拒识方法和系统
CN114155853A (zh) * 2021-12-08 2022-03-08 斑马网络技术有限公司 一种拒识方法、装置、设备及存储介质
CN113990300B (zh) * 2021-12-27 2022-05-10 广州小鹏汽车科技有限公司 语音交互方法、车辆、服务器和计算机可读存储介质
CN115376513B (zh) * 2022-10-19 2023-05-12 广州小鹏汽车科技有限公司 语音交互方法、服务器及计算机可读存储介质

Also Published As

Publication number Publication date
WO2024083128A1 (zh) 2024-04-25
CN115376513A (zh) 2022-11-22

Similar Documents

Publication Publication Date Title
CN115376513B (zh) 语音交互方法、服务器及计算机可读存储介质
CN113239178A (zh) 意图生成方法、服务器、语音控制系统和可读存储介质
CN115457959B (zh) 语音交互方法、服务器及计算机可读存储介质
CN112200889A (zh) 样本图像生成、图像处理、智能行驶控制方法及装置
CN115457951B (zh) 一种语音控制方法、装置、电子设备以及存储介质
CN108882202A (zh) 一种基于智能手机的车载交互方法及装置
CN118153657A (zh) 网络模型的训练方法、数据处理方法及装置
CN117558277A (zh) 语音交互方法、服务器及计算机可读存储介质
CN115509572A (zh) 动态配置业务逻辑的方法、云平台、车辆及存储介质
CN111858865B (zh) 一种语义识别方法、装置、电子设备及计算机可读存储介质
US20120021783A1 (en) Telecommunications services apparatus and methods
CN115662400A (zh) 车机语音交互数据的处理方法、装置、设备及存储介质
CN116486815A (zh) 车载语音信号处理方法及装置
CN117316159A (zh) 车辆语音控制方法、装置、设备及存储介质
CN116069842A (zh) 数据转储方法及装置
CN116010572A (zh) 人机对话的处理方法、装置、存储介质及电子设备
CN111291889B (zh) 一种知识库的构建方法及装置
JP2019145002A (ja) 情報処理方法、プログラム、情報処理装置、及び情報処理システム
CN114115790A (zh) 语音对话提示方法、装置、设备及计算机可读存储介质
CN114120983A (zh) 音频数据处理方法及装置、设备、存储介质
CN113704422A (zh) 一种文本推荐方法、装置、计算机设备和存储介质
CN112863514B (zh) 一种语音应用的控制方法和电子设备
CN116030811B (zh) 语音交互方法、车辆及计算机可读存储介质
CN117454885B (zh) 一种语音文本的意图识别方法、装置及存储介质
CN115565532B (zh) 语音交互方法、服务器及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant