CN119744416A

CN119744416A - 用于检测语音助理的唤醒命令的系统和方法

Info

Publication number: CN119744416A
Application number: CN202380063658.4A
Authority: CN
Inventors: R·K·萨马尔
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2022-09-05
Filing date: 2023-08-24
Publication date: 2025-04-01
Also published as: US20240079007A1; EP4519873A1

Abstract

提供了一种用于检测语音助理的唤醒命令的方法。该方法包括从一个或多个源接收音频信号，并且确定用户的声学参数或环境背景中的至少一个。此外，该方法包括生成与所接收的音频信号相关联的嵌入向量表示，并将所生成的嵌入向量表示与一个或多个预先存储的嵌入向量表示进行比较。此外，该方法包括检测所接收的音频信号中的唤醒命令。

Description

用于检测语音助理的唤醒命令的系统和方法

技术领域

本公开涉及音频处理。更具体地，本公开涉及用于检测在电子设备处实现的语音助理的唤醒命令的系统和方法。

背景技术

随着技术的进步，语音助理已经彻底改变了用户与技术交互的方式。语音助理已经成为我们日常生活的不可或缺的一部分，提供了便利性、效率和免提（hands-free）手段来访问信息和执行任务。语音助理是使用语音识别和自然语言处理（NLP）技术来通过语音命令为用户提供信息和执行任务的数字助理。此外，语音助理通常在诸如智能电话、智能扬声器、电视等的电子设备中实现。语音助理可以执行广泛的任务，诸如提供天气更新、回答问题、播放音乐、设置闹钟和提醒、发送消息、拨打电话、控制智能家庭设备等。例如，语音助理可以是Bixby®。

通常，唤醒命令，也称为唤醒词或激活短语，用于触发语音助理开始收听和响应用户命令。当用户说出唤醒命令时，语音助理变为活动的并准备好接收指令并相应地执行任务。唤醒命令一般是通过语音或长按键的单模态输入。

图1A示出了根据相关技术的用于在环境中执行语音助理的唤醒命令的框图100。

参考图1A，唤醒命令主要由两个组件执行，即关键词检测器102和关键词分类器104。关键词检测器102包括模块集合，诸如梅尔频率倒谱系数（MFCC）计算106、帧缓冲器108、小深度神经网络（DNN）110和隐马尔可夫模型（HMM）评分器112。通常，关键词检测器102总是活动的并且收听环境中的语音信号114。关键词检测器102对应于低计算数字信号处理（DSP）模型。此外，关键词分类器104包括模块集合，诸如大DNN 116和HMM评分器118。关键词分类器104是在唤醒检测中更精确和准确的大模块。此外，表1示出了关键词检测器102和关键词分类器104的输入和输出的各种示例。

通常，语音助理在周围环境中容易受到噪声、干扰和交谈，这影响唤醒命令识别的准确性或可靠性。过多的背景噪声或环境因素（诸如背景交谈、大声的音乐或电器）可能干扰语音助理准确识别唤醒命令的能力。噪声可能使得实现语音助理的电子设备难以识别（pick up）唤醒短语。在一些情况下，语音助理可能错误地将类似于唤醒命令的声音或词解释为实际命令，从而导致假阳性（false positive）。语音助理的这种激活可能由于语音模式的误解、不相关声音的无意触发或环境噪声而发生。此外，类似于唤醒词的声学信号导致语音助理的激活，这通常被称为虚假唤醒。每次在电子设备周围出现相同或相似的噪声时，实现语音助理的电子设备都无法丢弃或拒绝错误激活。在电子设备中完成使用声学词嵌入（acoustic word embeddings, AWE）或等效技术的本地唤醒指纹（wakeup fingerprint）识别。在AWE中，针对声学词信号生成嵌入向量。使用语音助理唤醒服务来完成本地学习的虚假唤醒，并且将稳健的全局唤醒模型发送到电子设备。该唤醒词（声学语音词）包含环境噪声。所生成的嵌入向量指示用户的声学语音特征和环境噪声。此外，所生成的嵌入向量连同来自唤醒服务的全局嵌入被用于构建设备个性化模型，如图1B中进一步解释的。

图1B示出了描绘根据相关技术的设备上唤醒指纹识别的框图120。

参考图1B，122表示唤醒音频信号，并且124表示从用户接收的唤醒触发信号。在本公开的实施例中，可以被分类为真阳性、真阴性、假阳性和假阴性唤醒的唤醒声学信号被称为唤醒音频样本（唤醒音频信号）。在本公开的实施例中，唤醒触发信号是类似于唤醒音频样本但在实时环境中使用的声学信号。唤醒触发信号对应于来自真实用户的唤醒尝试。此外，从假阳性和假阴性分析接收的唤醒音频信号122通过设备上唤醒指纹识别单元126。此外，设备上唤醒指纹识别单元126从唤醒音频信号122中提取特征。更具体地，设备上唤醒指纹识别单元126从唤醒音频信号122中提取包括频谱特征126A、基于能量的特征126B和声学词嵌入126C的特征。在本公开的实施例中，频谱特征126A对应于存在于使用若干类型的傅里叶变换提取的声学信号中的频率信息。此外，基于能量的特征对应于给定声学信号中的能量的导出。在本公开的实施例中，声学词嵌入对应于声学信号中的嵌入向量表示。提取的特征存储在用户本地指纹数据库（DB）128中。此外，匹配器模块130将唤醒触发124与用户本地指纹数据库128进行匹配，并生成标记真实唤醒或虚假唤醒131的结果。

此外，用户本地指纹DB将提取的特征发送到服务器集中式唤醒服务132以进行全局学习。服务器集中唤醒服务132包括自定义（custom）唤醒模型生成器132A、模型同步132B和唤醒指纹132C。在本公开的实施例中，集中式唤醒服务132对应于负责通过使用来自日志服务器的用户语音记录来生成AWE模型的服务。此外，集中式唤醒服务132将自定义AWE模型从服务器按需同步到设备。集中式唤醒服务132生成与用户语音记录相对应的嵌入向量和特征，并将它们存储到全局指纹声音数据库中。在本公开的实施例中，自定义唤醒模型生成器132A对应于将用户语音记录分成与说出的词对齐的语音片段的模块。此外，自定义唤醒模型生成器132A将语音片段分类为来自词汇表的词。自定义唤醒模型生成器132A根据来自词汇表的词的子集执行AWE或等效嵌入模型的无监督训练。在本公开的实施例中，模型同步132B在客户端设备和唤醒服务之间通信。此外，模型同步132B基于从客户端设备接收的规范针对特定用户构建自定义唤醒模型。在本公开的实施例中，对于从用户的语音记录中提取的每个语音片段，唤醒指纹132C生成特征，诸如频谱特征、能量信息、过零计数等。将所有生成的特征存储到全局指纹vocab数据库中。此外，全局指纹vocab数据库还包含语音片段与词的关联。

此外，设备上个性化模型生成器134将从多个用户学习的服务器生成的全局模型下载到电子设备上。设备上个性化模型生成器134使用全局模型来递增地学习用户的个性化输入。此外，全局指纹词汇表DB 136包括来自可以用于对唤醒进行建模的高分辨率词的特征。在本公开的实施例中，全局指纹词汇表DB 136存储与从用户的语音记录中提取的声学词相对应的特征和嵌入向量。高分辨率词是干净的声学信号片段，从中可以容易地感知对应词。此外，经由一个或多个工具140从用户日志服务器138提取自定义唤醒词的用户特定音频片段以用于模型生成。工具140包括个性化词提取142和高分辨率（hi-res）词音频信号144。

图2示出了描绘根据相关技术的环境中的语音助理的虚假唤醒的场景的图形表示200。

参考图2，如图所示，202表示用户环境中的媒体设备。在当前环境中，语音助理可能经历由于媒体设备202（诸如收音机、电视和/或人类交谈204）引起的噪声。在人类交谈204中，人类可以使用类似于语音助理的唤醒词/命令的词/短语。例如，人类交谈204可以是“Bigs Bee是非常有天赋的”。在本文中，术语“Bigs Bee”类似于术语“Bixby®”，其使得语音助理（在这种情况下为Bixby®）基于虚假唤醒词（即“Bigs Bee”）唤醒。206描述了Bixby®使能设备，其中在没有来自用户的实际语音唤醒触发的情况下Bixby®唤醒。

图3示出了描绘根据相关技术的真实唤醒拒绝的场景300的图形表示。

参考图3，在诸如交通、餐馆、商场人群等嘈杂环境中，语音助理通常无法识别来自电子设备的用户的唤醒词。302描绘了嘈杂环境。用户使用唤醒词“嘿Bixby®”。语音助手无法识别在嘈杂环境中说出的真实唤醒词。304表示Bixby®使能设备，其中Bixby®未能识别唤醒词。

图4示出了描绘根据相关技术的用于学习唤醒词识别的场景400的图形表示。

参考图4，AI使能的冰箱学习识别嘈杂环境中的真实唤醒情况。402表示AI使能的冰箱与用户之间的交互。用户使用唤醒词（即，嘿Bixby®）来触发Bixby®。用户处于搅拌器运行的嘈杂环境中。Bixby®基于学习到的知识对用户进行响应。当搅拌器运行时，唤醒词识别在厨房中随着一段时间的推移得到改善。因此，即使当搅拌器正在运行时，AI使能的冰箱也可以识别唤醒词。404表示智能电话与用户之间的交互。用户使用唤醒词（即，嘿Bixby®）来触发Bixby®。用户处于搅拌器运行的嘈杂环境中。然而，在相同的嘈杂环境中，智能电话中的Bixby®无法识别唤醒词，因为来自AI使能的冰箱的学习知识未被传送到智能电话中。

因此，实现语音助理的相关技术的解决方案在检测语音助理的唤醒命令时遇到多个问题。具体地，相关技术的解决方案未能识别真实唤醒和虚假唤醒。此外，用于语音助理的设备上唤醒模型不是针对每个用户专门调整（tune）的，这导致由于各种噪声信号（诸如环境噪声、交谈或环境中存在的电气设备噪声）引起的虚假唤醒。自定义唤醒模型在唤醒词识别方面较弱。

因此，需要一种克服上述问题的技术。

上述信息仅作为背景信息呈现以帮助理解本公开。关于上述内容中的任何内容是否可用作关于本公开的现有技术，没有做出确定，并且没有做出断言。

发明内容

问题的解决方案

本公开的各方面旨在至少解决上述问题和/或缺点，并且至少提供下面描述的优点。因此，本公开的方面是提供一种用于检测语音助理的唤醒命令的系统和方法。

另外的方面将部分地在下面的描述中阐述，并且部分地将从描述中显而易见，或者可以通过实践所呈现的实施例来学习。

根据本公开的方面，提供了一种在用户设备（UE）中实现的用于检测语音助理的唤醒命令的方法。该方法包括从一个或多个源接收音频信号。一个或多个源包括UE的用户或一个或多个环境元素（element）中的至少一个。此外，该方法包括基于所接收的音频信号来确定用户的声学参数或环境背景（environmental context）中的至少一个。此外，该方法包括通过使用基于机器学习（ML）的嵌入生成器模型、基于确定的声学参数和确定的环境背景中的至少一个来生成与所接收的音频信号相关联的嵌入向量表示。该方法还包括将所生成的嵌入向量表示与一个或多个预先存储的嵌入向量表示进行比较。此外，该方法包括基于确定的环境背景以及所生成的嵌入向量表示与一个或多个预先存储的嵌入向量表示的比较来检测所接收的音频信号中的唤醒命令。

根据本公开的另一方面，提供了一种在UE中实现的用于检测语音助理的唤醒命令的系统。该系统包括被配置为从一个或多个源接收音频信号的一个或多个处理器。一个或多个源包括UE的用户或一个或多个环境元素中的至少一个。一个或多个处理器还被配置为基于所接收的音频信号来确定用户的声学参数或环境背景中的至少一个。此外，一个或多个处理器被配置为通过使用基于ML的嵌入生成器模型、基于确定的声学参数或确定的环境背景中的至少一个来生成与所接收的音频信号相关联的嵌入向量表示。一个或多个处理器被配置为将所生成的嵌入向量表示与一个或多个预先存储的嵌入向量表示进行比较。此外，一个或多个处理器被配置为基于确定的环境背景以及所生成的嵌入向量表示与一个或多个预先存储的嵌入向量表示的比较来检测所接收的音频信号中的唤醒命令。

通过以下结合附图公开了本公开的各种实施例的详细描述，本公开的其它方面、优点和显著特征对于本领域技术人员将变得显而易见。

附图说明

通过以下结合附图的描述，本公开的某些实施例的上述和其它方面、特征和优点将变得更加明显，其中：

图1A示出了根据相关技术的用于在环境中执行语音助理的唤醒命令的框图；

图1B示出了描绘根据相关技术的设备上唤醒指纹识别的框图；

图2示出了描绘根据相关技术的环境中的语音助理的虚假唤醒的场景的图形表示；

图3示出了描绘根据相关技术的真实唤醒拒绝的场景的图形表示；

图4示出了描绘根据相关技术的用于学习唤醒词识别的场景的图形表示；

图5示出了根据本公开的实施例的用于检测语音助理的唤醒命令的系统的框图；

图6示出了根据本公开实施例的用户设备（UE）处的用于检测语音助理的唤醒命令的系统的多个模块的框图；

图7示出了描绘根据本公开的实施例的用于检测语音助理的唤醒命令的系统的操作的框图；

图8示出了描绘根据本公开的实施例的用于检测语音助理的唤醒命令的系统的操作的框图；

图9示出了表示根据本公开的实施例的用于在嘈杂环境中检测唤醒命令的场景的图形描绘；

图10示出了表示根据本公开实施例的用于将一个或多个预先存储的嵌入向量表示从UE发送到一个或多个其它UE的场景的图形描绘；

图11示出了表示根据本公开实施例的在不同位置使用一个或多个预先存储的嵌入向量表示的场景的图形描绘；

图12示出了表示根据本公开的实施例的用于检测虚假唤醒的场景的图形描绘；

图13示出了表示根据本公开的实施例的用于推荐替代唤醒词的场景的图形描绘；

图14示出了根据本公开的实施例的用于推荐替代唤醒词的过程流程图；

图15示出了用于描绘根据本公开实施例的与唤醒命令集中的每一个唤醒命令相关联的预测得分的趋势的曲线图；和

图16示出了描绘根据本公开的实施例的用于检测语音助理的唤醒命令的方法的处理流程。

在整个附图中，相同的附图标记将被理解为指代相同的部件、组件和结构。

具体实施方式

提供参考附图的以下描述以帮助全面理解由权利要求及其等同物限定的本公开的各种实施例。它包括各种具体细节以帮助理解，但是这些细节仅被认为是示例性的。因此，本领域普通技术人员将认识到，在不脱离本公开的范围和精神的情况下，可以对本文描述的各种实施例进行各种改变和修改。此外，为了清楚和简明起见，可以省略对公知功能和结构的描述。

以下描述和权利要求中使用的术语和词语不限于书面含义，而是仅由发明人使用以使得能够清楚且一致地理解本公开。因此，对于本领域技术人员显而易见的是，提供本公开的各种实施例的以下描述仅用于说明目的，而不是用于限制由所附权利要求及其等同物限定的本公开的目的。

应当理解，除非上下文另有明确说明，否则单数形式“一”、“一个”和“该”包括复数指示物。因此，例如，对“组件表面”的引用包括对一个或多个这样的表面的引用。

贯穿本说明书对“方面”、“另一方面”或类似语言的引用意味着结合实施例描述的特定特征、结构或特性包括在本公开的至少一个实施例中。因此，贯穿本说明书的短语“在实施例中”、“在另一个实施例中”和类似语言的出现可以但不一定都指代相同的实施例。

术语“包括（comprises）”、“包括（comprising）”或其任何其它变型旨在涵盖非排他性的包括，使得包括步骤列表的过程或方法不仅包括那些步骤，而且可以包括未明确列出的或这种过程或方法固有的其它步骤。类似地，在没有更多约束的情况下，由“包括……”开头的一个或多个设备或子系统或元件或结构或部件不排除其它设备或其它子系统或其它元件或其它结构或其它部件或附加设备或附加子系统或附加元件或附加结构或附加组件的存在。

图5示出了根据本公开的实施例的用于检测语音助理的唤醒命令的系统502的框图500。

参考图5，在本公开的实施例中，语音助理是数字助理，其使用语音识别和自然语言处理（NLP）技术来通过语音命令针对用户提供信息和执行任务。例如，任务可以包括但不限于提供天气更新、回答问题、播放音乐、设置闹钟和提醒、发送消息、拨打电话、控制智能家庭设备等。在本公开的实施例中，系统502在用户装备（UE）504中实现。

在本公开的实施例中，UE 504可以对应于其中实现语音助理的电子设备。UE 504的示例可以包括但不限于冰箱、电视、智能电话、膝上型计算机、扬声器、智能手表等。在本公开的实施例中，用户可以在一个或多个对象506位于UE 504附近的环境中操作UE 504。一个或多个对象506产生音频信号508，其可以被认为是在UE 504处实现的语音助理的噪声。例如，一个或多个对象506可以包括研磨机、电视、收音机、扬声器等。此外，UE 504附近的一个或多个活动也可以产生音频信号508。例如，一个或多个活动可以包括人们交谈、雷声、交通噪声等。

系统502可以包括一个或多个处理器/控制器510、输入/输出（I/O）接口512、多个模块514和存储器516。

在本公开的实施例中，一个或多个处理器/控制器510可以可操作地耦合到相应的I/O接口512、多个模块514和存储器516中的每一个。在本公开的一个实施例中，一个或多个处理器/控制器510可以包括用于执行虚拟存储区域网络中的过程的至少一个数据处理器。一个或多个处理器/控制器510可以包括专用处理单元，诸如集成系统（总线）控制器、存储器管理控制单元、浮点单元、图形处理单元、数字信号处理单元等。在本公开的一个实施例中，一个或多个处理器/控制器510可以包括中央处理单元（CPU）、图形处理单元（GPU）或两者。一个或多个处理器/控制器510可以是一个或多个通用处理器、数字信号处理器、专用集成电路、现场可编程门阵列、服务器、网络、数字电路、模拟电路、其组合或其它现在已知或以后开发的用于分析和处理数据的设备。一个或多个处理器/控制器510可以执行软件程序，诸如手动生成（即，编程）的代码，以执行期望的操作。在本公开的实施例中，处理器/控制器可以是通用处理器（诸如CPU、应用处理器（AP）等）、仅图形处理单元（诸如GPU）、视觉处理单元（VPU）和/或人工智能（AI）专用处理器（诸如神经处理单元（NPU））。

此外，一个或多个处理器/控制器510根据存储在非易失性存储器和易失性存储器中的预定义操作规则或机器学习（ML）模型来控制输入数据的处理。通过训练或学习提供预定义操作规则或ML模型。

这里，通过学习提供意味着通过将学习技术应用于多个学习数据，制作预定义的操作规则或期望特性的ML模型。学习可以在其中执行根据实施例的ML的设备本身中执行，和/或可以通过单独的服务器/系统来实现。

此外，ML模型可以由多个神经网络层组成。每个层具有多个权重值，并且通过前一层的计算和多个权重的运算来执行层运算。神经网络的示例包括但不限于卷积神经网络（CNN）、深度神经网络（DNN）、递归神经网络（RNN）、受限玻尔兹曼机（RBM）、深度信念网络（DBN）、双向递归深度神经网络（BRDNN）、生成对抗网络（GAN）和深度Q网络。

学习技术是用于使用多个学习数据来训练预定目标设备（例如，机器人）以使得、允许或控制目标设备进行确定或预测的方法。学习技术的示例包括但不限于监督学习、无监督学习、半监督学习或强化学习。

一个或多个处理器/控制器510可以被布置为经由相应的I/O接口512与一个或多个输入/输出（I/O）设备通信。I/O接口512可以采用通信码分多址（CDMA）、高速分组接入（HSPA+）、全球移动通信系统（GSM）、长期演进（LTE）、WiMax等。

一个或多个处理器/控制器510可以被布置为经由网络接口与通信网络通信。在本公开的实施例中，网络接口可以是I/O接口。网络接口可以连接到通信网络以实现UE 504与一个或多个其它UE的连接。网络接口可以采用连接协议，包括但不限于直接连接、以太网（例如，双绞线10/100/1000 基带T型（twisted pair 10/100/1000 Base T））、传输控制协议/互联网协议（TCP/IP）、令牌环网、IEEE 802.11 a/b/g/n/x等。通信网络可以包括但不限于直接互连、局域网（LAN）、广域网（WAN）、无线网络（例如，使用无线应用协议）、互联网等。关于一个或多个其它UE的细节至少参考图6在本公开的进一步段落中阐述。

在本公开的实施例中，一个或多个处理器510被配置为从一个或多个源接收音频信号。一个或多个处理器510还被配置为基于所接收的音频信号确定用户的声学参数、环境背景或其组合。此外，一个或多个处理器510被配置为通过使用基于ML的嵌入生成器模型、基于确定的声学参数、确定的环境背景或其组合来生成与所接收的音频信号相关联的嵌入向量表示。一个或多个处理器510被配置为将所生成的嵌入向量表示与一个或多个预先存储的嵌入向量表示进行比较。此外，一个或多个处理器510被配置为基于确定的环境背景以及所生成的嵌入向量表示与一个或多个预先存储的嵌入向量表示的比较来检测所接收的音频信号中的唤醒命令。

在本公开的一些实施例中，存储器516可以通信地耦合到一个或多个处理器/控制器510。存储器516可以被配置为存储数据以及可由一个或多个处理器/控制器510执行的指令。存储器516可以包括但不限于非暂时性计算机可读存储介质，诸如各种类型的易失性和非易失性存储介质，包括但不限于随机存取存储器、只读存储器、可编程只读存储器、电可编程只读存储器、电可擦除只读存储器、闪存、磁带或磁盘、光学介质等。在一个示例中，存储器516可以包括用于一个或多个处理器/控制器510的高速缓存或随机存取存储器。在替代示例中，存储器516是一个或多个处理器/控制器510的一部分，诸如处理器的高速缓存存储器、系统存储器或其它存储器。在本公开的一些实施例中，存储器516可以是用于存储数据的外部存储设备或数据库。存储器516可以是可操作的，以存储可由一个或多个处理器/控制器510执行的指令。附图中示出或描述的功能、动作或任务可以由用于执行存储在存储器516中的指令的编程的处理器/控制器来执行。功能、动作或任务独立于特定类型的指令集、存储介质、处理器或处理策略，并且可以由单独或组合操作的软件、硬件、集成电路、固件、微代码等执行。同样，处理策略可以包括多处理、多任务、并行处理等。

在本公开的一些实施例中，多个模块514可以包括在存储器516内。存储器516还可以包括用于存储数据的数据库518。多个模块514可以包括指令集，该指令集可以被执行以使系统执行本文公开的方法/过程中的任何一个或多个。多个模块514可以被配置为使用存储在数据库518中的用于检测语音助理的唤醒命令的数据来执行本公开的步骤，如本文所讨论的。在本公开的实施例中，多个模块514中的每一个可以是可以在存储器516外部的硬件单元。此外，存储器516可以包括用于执行系统502的一个或多个任务的操作系统520，如由通信域中的通用操作系统执行的。在本公开的一个实施例中，数据库518可以被配置为存储多个模块514和一个或多个处理器/控制器510用于检测语音助理的唤醒命令所需的信息，。

在本公开的实施例中，多个模块514中的至少一个可以通过ML模型来实现。可以通过非易失性存储器、易失性存储器和一个或多个处理器510来执行与ML相关联的功能。

在本公开的实施例中，I/O接口512可以使用合适的设备实现输入到系统502和从系统502输出，合适的设备诸如但不限于显示器、键盘、鼠标、触摸屏、麦克风、扬声器等。

此外，本公开还设想了一种计算机可读介质，其包括指令或响应于传播的信号而接收并执行指令。此外，可以经由通信端口或接口或使用总线（未示出）通过网络发送或接收指令。通信端口或接口可以是一个或多个处理器/控制器510的一部分，或者可以是单独的组件。通信端口可以在软件中创建，或者可以是硬件中的物理连接。通信端口可以被配置为与网络、外部介质、显示器、或UE 504中的任何其它组件、或其组合连接。与网络的连接可以是物理连接，诸如有线以太网连接，或者可以无线地建立。同样地，与UE 504的其它组件的附加连接可以是物理的或者可以无线地建立。网络可以替代地直接连接到总线。为了简洁起见，没有详细讨论操作系统520、存储器516、数据库518、一个或多个处理器/控制器510和I/O接口512的架构和标准操作。

图6示出了根据本公开的实施例的UE处的用于检测语音助理的唤醒命令的系统的多个模块的框图600。

参考图6，在本公开的实施例中，多个模块514可以包括但不限于接收模块602、确定模块604、生成模块606、比较模块608、检测模块610、发送模块612、训练模块614、存储模块616和推荐模块618。多个模块可以通过合适的硬件和/或软件应用来实现。

在本公开的实施例中，系统502的接收模块602可以被配置为从一个或多个源接收音频信号/声学信号。在本公开的实施例中，一个或多个源可以包括但不限于UE 504的用户、一个或多个环境元素或其组合。在本公开的实施例中，音频信号包括唤醒信号、噪声信号或其组合。唤醒信号促进语音助理的激活以执行用户的任务。此外，噪声信号可以指不想要的信号，其干扰唤醒信号以使得UE 504难以识别唤醒信号来激活语音助理。在本公开的实施例中，噪声信号由一个或多个环境元素生成。例如，环境元素对应于产生噪声信号的一个或多个对象/电器506。例如，一个或多个对象506可以包括研磨机、电视、收音机、扬声器等。此外，一个或多个环境元素还包括在UE 504附近发生的一个或多个活动。该一个或多个活动的其它实例可以包括但不限于人们交谈、雷声、交通噪声等。在本顾客的另一实施例中，一个或多个对象506还可以包括能够产生人类声音的人工语音设备。例如，电视和收音机可以产生一个或多个人类对话。

此外，确定模块604可以被配置为基于所接收的音频信号来确定用户的声学参数、环境背景或其组合。与用户和/或用户的环境相关联的声学参数可以包括但不限于所接收的音频信号的音高、强度、幅值或其任何组合。此外，所确定的环境背景包括与位于UE 504附近的一个或多个对象506以及产生音频信号的UE 504附近的一个或多个活动的发生相关联的信息。信息包括标识信息、位置信息和状态信息。在本公开的实施例中，标识信息包括一个或多个对象506的类型。例如，一个或多个对象506的类型可以是冰箱、电视等。此外，状态信息对应于与一个或多个对象506的状态相关联的信息。在本公开的实施例中，一个或多个对象506的状态对应于开启状态和/或关闭状态。位置信息包括与用户环境中的一个或多个对象506的位置相关联的信息。例如，与研磨机相关联的位置信息是研磨机位于厨房内部。在本公开的另一实施例中，一个或多个对象506的位置可以被定义为地理位置、兴趣点（point of interest, POI）、室内地图位置等。

此后，生成模块606可以被配置为通过使用基于机器学习（ML）的嵌入生成器模型、基于所确定的声学参数、所确定的环境背景或其组合来生成与所接收的音频信号相关联的嵌入向量表示。在本公开的实施例中，基于ML的嵌入生成器模型被离线训练并部署到UE504中。此后，可以通过动态学习来微调基于ML的嵌入生成器模型。在训练期间，基于ML的嵌入生成器模型基于噪声的源类别来最大化每个聚类（cluster）之间的间隙/余量。

此外，比较模块608可以被配置为将所生成的嵌入向量表示与一个或多个预先存储的嵌入向量表示进行比较。在本公开的实施例中，一个或多个预先存储的嵌入向量表示对应于与真实唤醒集合和用户的一个或多个环境背景的组合、虚假唤醒集合和用户的一个或多个环境背景的组合或其组合相关联的向量表示。该真实唤醒集合对应于其中在不需要来自用户的任何手动发起的情况下语音助理被激活并响应语音命令的实例。此外，该虚假唤醒集合对应于其中在用户不意图与语音助理交互的情况下语音助理错误地激活并响应命令或查询的实例。当语音助理将来自环境的声音或词误解为唤醒命令时，发生虚假唤醒，促使语音助理激活并收听进一步的指令或问题。

检测模块610可以被配置为基于所确定的环境背景以及所生成的嵌入向量表示与一个或多个预先存储的嵌入向量表示的比较来检测所接收的音频信号中的唤醒命令。在检测所接收的音频信号中的唤醒命令时，检测模块610可以被配置为通过使用训练的基于ML的分类模型来将所接收的音频信号分类为真实唤醒实例或虚假唤醒实例。在本公开的实施例中，所训练的基于ML的分类模型是轻权重ML或深度学习模型，其可以参考基于噪声源聚类的滤波的嵌入向量表示。在本公开的实施例中，ML模型（诸如随机森林）可以用于执行设备上训练。此外，随着聚类的嵌入向量表示之间的余量的增加，可以改善所接收的音频信号到真实唤醒实例或虚假唤醒实例的设备上分类。因此，给定嘈杂环境，唤醒命令检测的准确性增加。

在本公开的实施例中，发送模块612被配置为经由一种或多种已知技术将与UE504相关联的一个或多个预先存储的嵌入向量表示从UE 504发送到与用户相关联的一个或多个其它UE。在本公开的实施例中，一个或多个其它UE是不包括其中实现语音助理的UE504的电子设备。例如，一个或多个其它UE可以是冰箱、电视、智能电话、膝上型计算机等。因此，该一个或多个其它UE现在可基于该UE的学习来检测音频信号中的唤醒命令。在本公开的实施例中，一种或多种技术可以对应于基于有线的通信技术、基于无线的通信技术等。

此外，训练模块/链接器（linker）模块614可以被配置为经由语音助理来确定针对所生成的嵌入向量表示的真实唤醒实例或虚假唤醒实例的发生。在确定真实唤醒实例或虚假唤醒实例中的一个的发生时，训练模块614可以被配置为从用户接收唤醒命令集。该唤醒命令集可以用于激活UE 504上的语音助理以执行用户的任务。例如，唤醒命令集可以是“唤醒”、“你好”等。此外，训练模块614可以被配置为预测唤醒命令集中的每一个唤醒命令的得分。训练模块614可以被配置为确定所预测的得分是否小于预定义阈值得分。在本公开的实施例中，得分通常是0.0至1.0范围内的概率值。该范围内的预定义阈值可以确定唤醒词是否可能被拒绝或接受。例如，对于0.9的阈值，任何大于0.9的生成的预测得分将导致唤醒被接受，否则被拒绝。此外，训练模块614可以被配置为在确定所预测的得分小于预定义阈值得分时拒绝该唤醒命令集。训练模块614可以被配置为基于所生成的得分和预定义阈值得分来识别与得分的预测和唤醒命令集的拒绝相关联的模式。此外，训练模块614可以被配置为基于所识别的模式来确定用户用于唤醒语音助理的尝试次数。

此后，训练模块614可以被配置为基于预测的尝试次数对与所接收的唤醒命令相关联的音频信号执行声学操作集合达预定义时间段。在本公开的实施例中，该声学操作集合包括噪声抑制、语音增强、语音滤波等。此外，训练模块614可以被配置为在执行声学操作集合时监测与得分的预测相关联的所识别的模式以评估音频信号。在本公开的实施例中，在预测尝试次数的时间点评估音频信号。训练模块614还可以被配置为通过使用基于信号检测的ML模型、基于音频信号的评估结果来确定唤醒信号是否存在于所接收的唤醒命令集中。训练模块614可以被配置为在确定唤醒信号存在于所接收的唤醒命令集中时，生成与音频信号相关联的嵌入向量表示。此外，训练模块614可以被配置为将真实唤醒实例与所生成的嵌入向量表示相关联。训练模块614可以被配置为在将真实唤醒实例与所生成的嵌入向量表示相关联时将所生成的嵌入向量表示存储在嵌入向量储存库中。

此外，训练模块614可以被配置为将所确定的真实唤醒实例或虚假唤醒实例与所生成的嵌入向量表示、所确定的声学参数和所确定的环境背景相关联。训练模块614还可以被配置为在将所确定的真实唤醒实例或虚假唤醒实例中的一个与所生成的嵌入向量表示、所确定的声学参数和所确定的环境背景相关联时，将所生成的嵌入向量表示存储在嵌入向量储存库中。训练模块614可以被配置为在将所生成的嵌入向量表示存储在嵌入向量存储库中时，通过使用嵌入向量存储库来训练基于ML的分类模型。此外，表2和表3是由训练模块614基于将所确定的真实唤醒实例或虚假唤醒实例中的一个与所生成的嵌入向量表示、所确定的声学参数和所确定的环境背景相关联而生成的表。此外，表4示出了存储在嵌入向量储存库中的样本输入。

在本公开的实施例中，存储模块616可以被配置为确定语音助理不能获得音频信号的所生成的嵌入向量表示的自然标签。此外，存储模块616可以被配置为基于唤醒尝试次数、嵌入向量表示、用户的声学参数和环境背景来生成音频信号中的唤醒命令的得分。存储模块616还可以被配置为将所生成的得分与嵌入向量表示、唤醒命令、声学参数和环境背景相关联。此外，存储模块616可以被配置为在将所生成的得分与嵌入向量表示、唤醒命令、声学参数和环境背景相关联时，将所生成的嵌入向量表示存储在嵌入向量储存库中。

此外，推荐模块618可以被配置为确定语音助理不能确定针对音频信号的嵌入向量表示的真实唤醒实例或虚假唤醒实例的发生。推荐模块618还可以被配置为基于嵌入向量表示、与音频信号相关联的声学参数、环境背景和所生成的得分来从嵌入向量储存库获得替代唤醒命令。推荐模块618可以被配置为经由一个或多个模式向用户推荐所获得的替代唤醒命令。例如，当用户使用“唤醒”短语作为唤醒命令并且语音助理未能确定真实唤醒实例或虚假唤醒实例的发生时，用户可以使用“你好”短语代替“唤醒”短语作为替代唤醒命令。在本公开的实施例中，一个或多个模式可以对应于在UE的用户界面屏幕上显示替代唤醒命令、以语音提示的形式输出替代唤醒命令等。此外，至少参考图13和图14，已经在本说明书的后续段落中阐述了关于向用户推荐替代唤醒命令的细节。

此外，已经至少参考图7和图8在本说明书的后续段落中阐述了关于系统502的操作的细节。此外，已经至少参考图9至图13在本说明书的后续段落中阐述了关于系统502的用例场景的细节。

图7示出了描绘根据本公开的实施例的用于检测语音助理的唤醒命令的系统的操作的框图。

图8示出了描绘根据本公开的实施例的用于检测语音助理的唤醒命令的系统的操作的框图。为了简洁起见，一起解释图7和图8。参考图5和图6描述用于检测语音助理的唤醒命令的系统502。

参考图7和图8，如所描绘的，702表示语音信号（即，由用户产生的真实唤醒信号或由人工语音设备产生的虚假唤醒信号）。此外，704表示从一个或多个环境元素生成的噪声信号。在本公开的实施例中，表示叠加的语音信号和环境噪声的音频/声学信号706被输入到系统502中。如所描绘的，708表示环境背景，其包括与位于UE 504附近的一个或多个对象506相关联的信息以及产生音频信号的UE 504附近的一个或多个活动的发生。在本公开的实施例中，环境背景708可以是：产生噪声的电气设备可以是搅拌机，电气设备的位置可以是厨房，并且电气设备的状态是开启。在本公开的实施例中，数据709与噪声信号704相关联，并且声学信号706对应于音频数据和采样率。例如，音频数据可以是字节缓冲器，并且采样率可以是16KHz梅尔频率倒谱系数（MFCC）频谱图。

此外，710表示系统502的学习流水线（pipeline），712表示系统502的推断流水线。生成模块606针对与语音和环境噪声相关联的所接收的音频信号生成嵌入向量表示713。在本公开的实施例中，语音可以与用户或人工语音设备相关。此外，语音助理714用于确定针对所生成的嵌入向量表示的真实唤醒实例或虚假唤醒实例。语音助理714使用词汇外（outof vocabulary, OOV）和虚假警报（false alarm, FA）。在本公开的实施例中，OOV对应于与真实唤醒不同的所有种类的声学。在本公开的实施例中，FA对应于声音与真实警报情况类似的声学词。此外，链接器模块/训练模块614从音频信号中去除噪声，并将所确定的真实唤醒实例或所确定的虚假唤醒实例与所生成的嵌入向量表示、声学参数和环境背景708相关联。此外，表716表示具有位置和噪声目标的表，并且表718表示具有嵌入向量和唤醒实例的类型的表（自然标签，如图所示）。这些表由链接器模块614生成。此外，在将所确定的真实唤醒实例或所确定的虚假唤醒实例与所生成的嵌入向量表示、声学参数和环境背景708相关联时，链接器模块614将所生成的嵌入向量表示存储在嵌入向量储存库720中。在本公开的实施例中，存储在嵌入向量存储库720中的一个或多个预先存储的嵌入向量表示由722表示。与所生成的嵌入向量表示、声学参数和环境背景相关联的所确定的真实唤醒实例或所确定的虚假唤醒实例由724表示。

此外，在推断流水线712中，生成模块606基于声学参数、环境背景或其组合来生成与音频信号相关联的嵌入向量表示。检测模块610通过使用所训练的基于ML的分类模型来将所接收的音频信号分类为唤醒决策725，即真实唤醒实例或虚假唤醒实例。

在本公开的实施例中，唤醒推荐器726用于确定与现有唤醒词相比具有更多机会激活语音助理的替代唤醒词728。至少参考图14和图15提供关于替代唤醒词的操作的细节。

图9示出了表示根据本公开的实施例的用于在嘈杂环境中检测唤醒命令的场景的图形描绘。

参考图5和图6描述用于检测语音助理的唤醒命令的系统502。

参考图9，如所描绘的，902对应于咖啡机正在运行，从而在用户的环境中产生噪声。904对应于用户向语音助理提供唤醒命令以收听最新新闻。此外，在906处，由于咖啡机引起的环境中的噪声，语音助理未能识别唤醒命令。此外，系统502在学习流水线710中执行多个过程，如参考图7所解释的。例如，学习流水线中的多个过程可以包括生成嵌入向量表示，将真实唤醒实例或虚假唤醒实例与嵌入向量表示和环境背景相关联，以及将嵌入向量表示、唤醒实例的类型（即，真实唤醒实例或虚假唤醒实例）、环境背景等以表的形式存储在嵌入向量存储库中，如908所示。在当前场景中，环境背景包括电气设备是咖啡机，位置是厨房，并且状态是开启。嵌入向量储存库包括一个或多个预先存储的嵌入向量表示910，诸如用于扬声器的真实唤醒嵌入、用于咖啡机的真实唤醒嵌入、用于空调的真实唤醒嵌入、用于搅拌机的真实唤醒嵌入等。

此外，912对应于咖啡机在用户的环境中产生噪声。914对应于向语音助理提供唤醒命令以用于阅读最新新闻的用户。此外，916对应于语音助理。语音助理通过在推断流水线712中执行多个过程来在嘈杂环境中将唤醒命令成功地识别为唤醒决定918，如参考图7所解释的。

图10示出了根据本公开实施例的表示用于将一个或多个预先存储的嵌入向量表示从UE发送到一个或多个其它UE的场景的图形描绘。

参考图5和图6描述了用于将一个或多个预先存储的嵌入向量表示从UE 504发送到一个或多个其它UE的系统502。

在当前场景中，用户驾驶汽车以及具有智能电话。智能电话已经学习了在交通中的鲁棒的唤醒检测。对于野餐计划，用户在汽车中随身携带扬声器。在高峰交通中，用户与扬声器交互，试图唤醒扬声器中的语音助手。然而，扬声器无法识别真实的预期唤醒信号。

参考图10，1002对应于用户。用户向智能电话提供唤醒命令以查看到家的替代路线。1004对应于智能电话上的语音助理。语音助理基于由智能电话执行的学习搜索替换路线并将其显示给用户，以在一段时间内在交通中进行唤醒识别。

此外，1006对应于用户。用户将唤醒命令提供到扬声器以查看到家的替代路线。1008对应于扬声器上的语音助手。即使智能手机已经在一段时间内学习了，语音助理也无法识别交通噪声中的预期唤醒信号。此外，系统502基于背景需求来执行学习的嵌入向量表示从智能电话到说话者的传送，如1010所示。在本公开的实施例中，背景需求对应于背景自适应。交通中的UE需要在交通环境中适配唤醒检测。为此，需要将嵌入传送到其它UE设备。

此外，1012对应于用户。用户再次向扬声器提供唤醒命令以查看到家的替代路线。此外，1014对应于扬声器。在将学习的嵌入向量表示从智能手机传送到扬声器时，扬声器识别交通噪声中的唤醒信号。

在另一场景中，多个UE被配置用于相同的用户账户。在下一步骤中，针对多个UE中的每个UE生成声学参数以及环境背景。在下一步骤中，多个UE中的每个UE的嵌入向量表示被存储在嵌入向量储存库中，按环境背景进行分类。此外，嵌入向量表示被上传到公共服务器以进行聚合。在下一步骤中，聚合的嵌入向量表示被下载到多个UE中的每个UE的设备储存库中。因此，多个UE可以使用彼此的所学习的嵌入向量表示。

图11示出了表示根据本公开实施例的在不同位置使用一个或多个预先存储的嵌入向量表示的场景的图形描绘。

参考图5和图6描述用于检测语音助理的唤醒命令的系统502。图11描绘了在不同位置处使用一个或多个预先存储的嵌入向量表示来检测语音助理的唤醒命令。

参考图11，在当前场景中，咖啡机位于用户的家庭厨房中。在操作1102处，系统502在咖啡机被打开时在家中接收真实唤醒信号。此外，系统502执行学习流水线710的多个过程，用于基于环境背景来学习家中具有咖啡机噪声的唤醒检测。在当前场景中，环境背景可以包括电气设备是咖啡机，电气设备的位置是厨房，并且状态是开启。

在操作1104处，系统502在咖啡机被打开时在用户办公室接收真实唤醒信号。此外，系统502基于学习家中具有咖啡机噪声的唤醒检测的结果来执行推断流水线712的多个过程。推断流水线的多个过程基于用户的环境背景来执行。在当前场景中，环境背景可以包括电气设备是咖啡机，电气设备的位置是办公室茶歇式，并且状态是开启。此外，1106表示一个或多个预先存储的嵌入向量表示以及办公室处的推断嵌入向量。

图12示出了表示根据本公开的实施例的用于检测虚假唤醒的场景的图形描绘。

参考图6描述了用于检测虚假唤醒的系统502。

参考图12，在当前场景中，用户正在观看电视节目，其中节目主持人谈论语音助理。节目主持人在他的讲话期间多次说出语音助手。这导致用户智能手机中的语音助手被唤醒若干次。1202表示电视机。电视中的主持人正在谈论语音助理，即“语音助理是非常强大的工具”。在操作1204处，表示语音助理。语音助理被激活并响应“我不明白”。此外，系统502基于用户的环境背景在学习流水线710中执行多个过程，如参考图7所解释的。在当前场景中，环境背景可以包括电气设备是电视，电气设备的位置是起居室，并且状态是开启。

此外，1206描绘了电视上的主持人正在谈论语音助理，即“语音助理是非常强大的工具”。1208描绘了语音助理不再通过基于环境背景执行推断流水线712的多个过程而唤醒到由TV扬声器触发的虚假唤醒。因此，系统502使用环境背景来学习虚假唤醒，并且因此拒绝类似的唤醒声学信号。

图13示出了表示根据本公开的实施例的用于推荐替代唤醒词的场景的图形描绘。

参考图6描述了用于推荐替代唤醒词的系统502。

在当前场景中，用户在家庭厨房中，其中一个或多个电器（诸如咖啡机、搅拌机等）被打开。在这种嘈杂的情况下，用户尝试发起与语音助理的语音交互。由于环境噪声，语音助理无法识别唤醒信号，因为它拒绝了语音交互的请求。在本公开的实施例中，系统由于一个或多个原因拒绝用户的请求，诸如语音助理的自动语音识别模块未能生成语音转文本、语音助理的自然语言理解模块拒绝无效话语以及语音助理响应中的部分信息。系统502检测连续尝试并推荐替代唤醒词以激活语音助理。

参考图13，如所描绘的，1302描绘了咖啡机正在运行并且在用户的环境中产生噪声。1304表示用户。用户向语音助理提供唤醒命令以用于收听最新新闻。例如，唤醒命令为“嘿语音助手”。此外，1306表示语音助理。由于咖啡机引起的环境中的噪声，语音助理未能识别连续尝试的唤醒命令。此外，系统502在学习流水线710中执行多个过程，如参考图7所解释的。在当前场景中，系统502检测用户激活语音助理的连续尝试，并且通过使用推荐模块618来推荐可以基于环境背景起作用的替代唤醒词。在当前场景中，环境背景包括电气设备是咖啡机，位置是厨房，并且状态是开启。在本公开的实施例中，学习流水线的推荐模块618生成表1308，表1308包括嵌入向量表示、唤醒词、与每个唤醒词相关联的得分、唤醒实例的类型、噪声源、位置等。此外，1310表示与环境背景匹配的聚类。在聚类匹配环境背景中，系统502从嵌入向量储存库获得替代唤醒命令。嵌入向量储存库包括对应于唤醒词和环境背景的多个向量表示。例如，多个向量表示包括“嘿语音助理嵌入咖啡机”1312、“你好语音助理嵌入咖啡机”1314、“嘿语音助理嵌入混合器”1316和“嘿折叠（fold）嵌入AC”1318。

在从嵌入向量储存库获得替代唤醒命令时，系统502确定连续失败的真实唤醒尝试。此外，系统502确定连续失败的真实唤醒尝试的次数是否超过预定义阈值。在确定连续失败的真实唤醒尝试的次数超过预定义阈值时，系统502从多个向量表示中识别一个或多个向量可能表示。最后，系统502从一个或多个向量表示中识别向量表示，并推荐与所识别的向量表示相关联的替代唤醒词。在本公开的实施例中，替代唤醒词来自与环境背景完全或部分相关的聚类。例如，替代唤醒命令可以是“你好语音助理”。1320表示“嘿语音助理”参考向量；失败的尝试位于远离“嘿语音助理”关键词。1322表示推断嵌入向量。

此外，1324描绘了咖啡机正在运行，从而在用户的环境中产生噪声。1326表示用户向语音助理提供替选唤醒命令以用于读取最新新闻。此外，1328表示语音助理通过在推断流水线712中执行多个过程来在嘈杂环境中成功识别唤醒命令，如参考图7所解释的。

在本公开的另一实施例中，用户还可以针对特定唤醒词手动设置一个或多个替代唤醒词，使得用户可以在先前使用的唤醒词不起作用的情况下使用一个或多个替代唤醒词来激活语音助理。此外，系统从嵌入向量储存库中消除与先前使用的唤醒词相关联的信息。此外，一个或多个替代唤醒词被存储在嵌入向量储存库中，以对用于识别唤醒词的新自定义唤醒模型进行建模。使用来自在与虚拟助理的交互期间记录的每个用户的唤醒命令的声学信号来生成自定义唤醒模型。此类声学信号在使用和与虚拟助理交互的时段内累积，并且表示广泛范围的词汇。对应于与词汇表列表匹配的自定义唤醒词的声学信号可以用于构建自定义唤醒模型。

图14示出了根据本公开的实施例的用于推荐替代唤醒词的过程流程图。

参考图6和图13描述了用于推荐替代唤醒词的系统502。

参考图14，在操作1402处，系统502从用户接收嘈杂环境中的唤醒命令集，并预测唤醒命令集中的每个唤醒命令的得分。系统502确定预测的得分是否小于预定义阈值得分。此外，在操作1404处，系统502在确定预测的得分小于预定义阈值得分时拒绝该唤醒命令基。此外，在操作1406处，系统502基于所生成的得分和预定义阈值得分来识别与得分的预测和唤醒命令集的拒绝相关联的模式。在操作1408处，系统502基于所识别的模式来确定用户对唤醒语音助理的尝试次数。

在操作1410处，系统502基于预测的尝试次数对与所接收的唤醒命令相关联的音频信号执行声学操作集合达预定义时间段。在操作1412处，系统502在执行声学操作集合时监测与得分的预测相关联的所识别的模式，以评估音频信号。在尝试次数被预测的时间点评估音频信号。在操作1414处，系统502通过使用基于信号检测的ML模型、基于音频信号的评估结果来确定唤醒信号是否存在于所接收的唤醒命令集中。在本公开的实施例中，系统502使用时间切片的音频信号来确定唤醒信号的存在。在本公开的实施例中，基于信号检测的ML模型是精确且消耗资源的深度神经网络（DNN）模型。在操作1416处，系统502在确定唤醒信号存在于所接收的唤醒命令集中时，通过使用没有声学合成的时间切片的原始音频信号来生成嵌入向量表示。嵌入向量表示被存储在嵌入向量储存库中，用于与即将到来的尝试进行匹配。此外，在操作1416处，系统502推荐与现有唤醒词相比具有更多机会激活语音助理的替代唤醒词。在操作1418处，系统502恢复到其默认操作以在未检测到有效唤醒的情况下监测唤醒词。

图15示出了用于描绘根据本公开的实施例的与唤醒命令集中的每一个唤醒命令相关联的预测得分的趋势的曲线图。

参考图6和图14描述了关于预测与唤醒命令集中的每一个唤醒命令相关联的得分的细节。图15描绘了预测得分的趋势。

参考图15，如图所示，1502表示用户的唤醒尝试。在本公开的实施例中，真实唤醒阈值为0.9。

参考图16，方法1600可以由在用户装备（UE）504中实现的系统502来执行，如图5中所示。

在操作1602处，方法1600包括从一个或多个源接收音频信号。在本公开的实施例中，一个或多个源包括UE 504的用户、一个或多个环境元素或其组合。音频信号包括唤醒信号、噪声信号或其组合。在本公开的实施例中，噪声信号由一个或多个环境元素生成。

在操作1604处，方法1600包括基于所接收的音频信号确定用户的声学参数、环境背景或其组合。在本公开的实施例中，与用户和用户的环境相关联的声学参数包括所接收的音频信号的音高、强度、幅值或其任何组合。在本公开的实施例中，所确定的环境背景包括与位于UE附近的一个或多个对象以及在UE附近产生音频信号的一个或多个活动的发生相关联的信息。例如，信息包括识别信息、位置信息和状态信息。

在操作1606处，方法1600包括通过使用基于机器学习（ML）的嵌入生成器模型、基于所确定的声学参数、所确定的环境背景或其组合来生成与所接收的音频信号相关联的嵌入向量表示。

在操作1608，方法1600包括将所生成的嵌入向量表示与一个或多个预先存储的嵌入向量表示进行比较。在本公开的实施例中，一个或多个预先存储的嵌入向量表示对应于与真实唤醒集合和用户的一个或多个环境背景的组合、虚假唤醒集合和用户的一个或多个环境背景的组合或其组合相关联的向量表示。

在操作1610处，方法1600包括基于所确定的环境背景以及所生成的嵌入向量表示与一个或多个预先存储的嵌入向量表示的比较来检测所接收的音频信号中的唤醒命令。在检测所接收的音频信号中的唤醒命令时，方法1600包括通过使用训练的基于机器学习（ML）的分类模型将所接收的音频信号分类为真实唤醒实例或虚假唤醒实例。

在本公开的实施例中，方法1600包括经由一种或多种技术将与UE相关联的一个或多个预先存储的嵌入向量表示从UE发送到与用户相关联的一个或多个其它UE。

此外，方法1600包括经由语音助理确定针对所生成的嵌入向量表示的真实唤醒实例或虚假唤醒实例的发生。在确定真实唤醒实例或虚假唤醒实例的发生时，方法1600包括从用户接收唤醒命令集。方法1600还包括预测唤醒命令集中的每个唤醒命令的得分。此外，方法1600包括确定预测的得分是否小于预定义阈值得分。方法1600包括在确定预测的得分小于预定义阈值得分时拒绝该唤醒命令集。方法1600还包括基于所生成的得分和预定义阈值得分来识别与得分的预测和唤醒命令集的拒绝相关联的模式。此外，方法1600包括基于所识别的模式来确定用户对唤醒语音助理的尝试次数。

此外，方法1600包括基于预测的尝试次数对与所接收的唤醒命令相关联的音频信号执行声学操作集合达预定义时间段。在本公开的实施例中，该声学操作集合包括噪声抑制、语音增强和语音滤波。方法1600包括在执行声学操作集合时监测与得分的预测相关联的所识别的模式以评估音频信号。在尝试次数被预测的时间点评估音频信号。方法1600包括通过使用基于信号检测的ML模型、基于音频信号的评估结果来确定唤醒信号是否存在于所接收的唤醒命令集中。此外，方法1600包括在确定唤醒信号存在于所接收的唤醒命令集中时，生成与音频信号相关联的嵌入向量表示。方法1600包括将真实唤醒实例与所生成的嵌入向量表示相关联。此外，方法1600包括在将真实唤醒实例与所生成的嵌入向量表示相关联时，将所生成的嵌入向量表示存储在嵌入向量储存库中。

此外，方法1600包括将所确定的真实唤醒实例或所确定的虚假唤醒实例与所生成的嵌入向量表示、所确定的声学参数和所确定的环境背景相关联。方法1600包括在将所确定的真实唤醒实例或虚假唤醒实例中的一个与所生成的嵌入向量表示、所确定的声学参数和所确定的环境背景相关联时，将所生成的嵌入向量表示存储在嵌入向量储存库中。方法1600还包括在将所生成的嵌入向量表示存储在嵌入向量储存库中时，通过使用嵌入向量储存库来训练基于ML的分类模型。

方法1600包括确定语音助理不能获得用于音频信号的所生成的嵌入向量表示的自然标签。此外，方法1600包括基于唤醒尝试次数、嵌入向量表示、用户的声学参数和环境背景来生成音频信号中唤醒命令的得分。方法1600包括将生成的得分与嵌入向量表示、唤醒命令、声学参数和环境背景相关联。此外，方法1600包括在将所生成的得分与嵌入向量表示、唤醒命令、声学参数和环境背景相关联时，将所生成的嵌入向量表示存储在嵌入向量储存库中。

此外，方法1600包括确定语音助理不能确定针对音频信号的嵌入向量表示的真实唤醒实例或虚假唤醒实例的发生。方法1600包括基于嵌入向量表示、与音频信号相关联的声学参数、环境背景和所生成的得分，从嵌入向量存储库获得替代唤醒命令。方法1600还包括经由一个或多个模式向用户推荐所获得的替代唤醒命令。

虽然以特定顺序描述了图16中所示的上述步骤，但是根据本公开的各种实施例，这些步骤可以以顺序的变型发生。此外，为了简洁起见，这里不再讨论与图16的各个步骤相关的细节，这些细节已经覆盖在与图6至图15相关的描述中。

本公开提供了基于上面讨论的关键特征的各种技术进步。此外，本公开通过使用环境背景来检测嘈杂环境中的唤醒命令。本公开改进了一段时间内在不同环境背景中的唤醒识别。此外，来自一个背景中的一个设备的学习可以应用于类似或相同背景中的另一设备。此外，本公开还改善了对虚假唤醒检测的拒绝，并减少了设备侧的虚假唤醒次数。从而减少服务器自动语音识别（ASR）模型上确定唤醒事件的负载。系统从用户的语音中学习，而不需要通过登记过程明确地路由用户。此外，嵌入向量储存库指示不同环境背景中的真/虚假唤醒事件。嵌入向量库用于提高唤醒识别的准确性。系统减少了假阴性情况（即，用户说出唤醒命令但系统未能识别唤醒词的情况）的数量。此外，本公开还将唤醒改进学习从一个设备传送到另一设备。随着时间的推移，嵌入向量库的大小增加。在该时间段内，来自用户的唤醒触发学习的嵌入可以用于对模型进行个性化。这样，用户可以更多地使用该模型以用于在用户特定环境中调用唤醒。例如，如果用户主要在厨房中使用唤醒触发，则系统可以适应来自厨房的唤醒触发。该系统通过使用环境背景来促进自定义唤醒识别。

多个模块514可以由任何合适的硬件和/或指令集来实现。此外，实施例可以根据要求包括步骤的添加/省略。在本公开的一些实施例中，由多个模块514执行的一个或多个操作可以由处理器/控制器基于要求来执行。

虽然已经参考本公开的各种实施例示出和描述了本公开，但是本领域技术人员将理解，在不脱离由所附权利要求及其等同物限定的本公开的精神和范围的情况下，可以在其中进行形式和细节上的各种改变。

Claims

1.一种在用户设备（UE）中实现的用于检测语音助理的唤醒命令的方法，所述方法包括：

从一个或多个源接收音频信号，其中，所述一个或多个源包括UE的用户或一个或多个环境元素中的至少一个；

基于所接收的音频信号来确定用户的声学参数或环境背景中的至少一个；

通过使用基于机器学习（ML）的嵌入生成器模型、基于所确定的声学参数和所确定的环境背景中的至少一个来生成与所接收的音频信号相关联的嵌入向量表示；

将所生成的嵌入向量表示与一个或多个预先存储的嵌入向量表示进行比较；以及

基于所确定的环境背景以及所生成的嵌入向量表示与所述一个或多个预先存储的嵌入向量表示的比较来检测所接收的音频信号中的唤醒命令。

2.根据权利要求1所述的方法，

其中，音频信号包括唤醒信号或噪声信号中的至少一个，以及

其中，噪声信号是由所述一个或多个环境元素生成的。

3.根据权利要求1所述的方法，其中，与用户和用户的环境相关联的声学参数包括所接收的音频信号的音高、强度或幅值中的至少一个。

4.根据权利要求1所述的方法，

其中，所确定的环境背景包括与位于UE附近的一个或多个对象以及在UE附近产生音频信号的一个或多个活动的发生相关联的信息，以及

其中，信息包括标识信息、位置信息和状态信息。

5.根据权利要求1所述的方法，其中，所述一个或多个预先存储的嵌入向量表示对应于与真实唤醒集合和用户的一个或多个环境背景的组合、或者虚假唤醒集合和用户的所述一个或多个环境背景的组合中的至少一个相关联的向量表示。

6.根据权利要求5所述的方法，还包括：

经由一种或多种技术将与UE相关联的所述一个或多个预先存储的嵌入向量表示从UE发送到与用户相关联的一个或多个其它UE。

7.根据权利要求1所述的方法，还包括：

经由语音助理确定针对所生成的嵌入向量表示的真实唤醒实例或虚假唤醒实例中的一个的发生；

将所确定的真实唤醒实例或虚假唤醒实例中的一个与所生成的嵌入向量表示、所确定的声学参数和所确定的环境背景相关联；

在将所确定的真实唤醒实例或虚假唤醒实例中的一个与所生成的嵌入向量表示、所确定的声学参数和所确定的环境背景相关联时，将所生成的嵌入向量表示存储在嵌入向量储存库中；以及

在将所生成的嵌入向量表示存储在嵌入向量储存库中时，通过使用嵌入向量储存库来训练基于ML的分类模型。

8.根据权利要求7所述的方法，其中，确定真实唤醒实例或虚假唤醒实例中的一个的发生包括：

从用户接收唤醒命令集；

预测唤醒命令集中的每个唤醒命令的得分；

确定所预测的得分是否小于预定义阈值得分；

在确定所预测的得分小于预定义阈值得分时拒绝唤醒命令集；

基于所生成的得分和预定义阈值得分来识别与得分的预测和唤醒命令集的拒绝相关联的模式；以及

基于所识别的模式来确定用户对唤醒语音助理的尝试次数。

9.根据权利要求8所述的方法，其中，确定真实唤醒实例或虚假唤醒实例中的一个的发生包括：

基于预测的尝试次数，对与所接收的唤醒命令相关联的音频信号执行声学操作集合达预定义时间段，其中，声学操作集合包括噪声抑制、语音增强和语音滤波；

在执行声学操作集合时监测与得分的预测相关联的所识别的模式以评估音频信号，其中，在尝试次数被预测的时间点评估音频信号；

通过使用基于信号检测的ML模型、基于音频信号的评估结果，确定唤醒信号是否存在于所接收的唤醒命令集中；

在确定唤醒信号存在于所接收的唤醒命令集中时，生成与音频信号相关联的嵌入向量表示；

将真实唤醒实例与所生成的嵌入向量表示相关联；以及

在将真实唤醒实例与所生成的嵌入向量表示相关联时，将所生成的嵌入向量表示存储在嵌入向量储存库中。

10.根据权利要求7所述的方法，还包括：

确定语音助理不能获得所生成的音频信号的嵌入向量表示的自然标签；

基于唤醒尝试次数、嵌入向量表示、用户的声学参数和环境背景来生成音频信号中的唤醒命令的得分；

将所生成的得分与嵌入向量表示、唤醒命令、声学参数和环境背景相关联；以及

在将所生成的得分与嵌入向量表示、唤醒命令、声学参数和环境背景相关联时，将所生成的嵌入向量表示存储在嵌入向量储存库中。

11.根据权利要求10所述的方法，还包括：

确定语音助理不能确定针对音频信号的嵌入向量表示的真实唤醒实例或虚假唤醒实例中的一个的发生；

基于嵌入向量表示、与音频信号相关联的声学参数、环境背景和所生成的得分，从嵌入向量储存库获得替代唤醒命令；以及

经由一个或多个模式向用户推荐所获得的替代唤醒命令。

12.根据权利要求1所述的方法，其中，检测所接收的音频信号中的唤醒命令包括：

通过使用训练的基于ML的分类模型将所接收的音频信号分类为真实唤醒实例或虚假唤醒实例中的一个。

13.一种在用户设备（UE）中实现的用于检测语音助理的唤醒命令的系统，所述系统包括一个或多个处理器，所述一个或多个处理器被配置为：

从一个或多个源接收音频信号，其中，所述一个或多个源包括UE的用户或一个或多个环境元素中的至少一个，

基于所接收的音频信号来确定用户的声学参数或环境背景中的至少一个，

通过使用基于机器学习（ML）的嵌入生成器模型、基于所确定的声学参数和所确定的环境背景中的至少一个来生成与所接收的音频信号相关联的嵌入向量表示，

将所生成的嵌入向量表示与一个或多个预先存储的嵌入向量表示进行比较，以及

14.根据权利要求13所述的系统，

其中，噪声信号是由所述一个或多个环境元素生成的。

15.根据权利要求13所述的系统，其中，与用户和用户的环境相关联的声学参数包括所接收的音频信号的音高、强度或幅值中的至少一个。