[go: up one dir, main page]

CN115428067A - 用于提供个性化虚拟个人助理的系统和方法 - Google Patents

用于提供个性化虚拟个人助理的系统和方法 Download PDF

Info

Publication number
CN115428067A
CN115428067A CN202080099916.0A CN202080099916A CN115428067A CN 115428067 A CN115428067 A CN 115428067A CN 202080099916 A CN202080099916 A CN 202080099916A CN 115428067 A CN115428067 A CN 115428067A
Authority
CN
China
Prior art keywords
user
audio
vpa
computing system
users
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202080099916.0A
Other languages
English (en)
Inventor
J.米斯特里
A.D.伊尔卡尔
A.贾哈
A.蒂布雷瓦尔
N.坦登
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harman International Industries Inc
Original Assignee
Harman International Industries Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harman International Industries Inc filed Critical Harman International Industries Inc
Publication of CN115428067A publication Critical patent/CN115428067A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)

Abstract

公开了经由计算系统提供与个性化虚拟个人助理(VPA)的对接的实施方案。示例性方法包括将多个虚拟个人助理(VPA)实例分配给多个用户,所述多个VPA实例中的每个VPA实例同时操作。举例来说,将所述多个VPA实例分配给所述多个用户可包括基于多个音频样本来为所述多个用户中的每个用户检索个性化VPA配置,所述多个音频样本中的每一者对应于所述多个用户中的一个用户。

Description

用于提供个性化虚拟个人助理的系统和方法
技术领域
本公开涉及包括虚拟个人助理的计算系统领域。
背景技术
许多计算系统(诸如,智能扬声器和车辆娱乐信息系统)可被配置成为用户提供与一个或多个虚拟个人助理的对接。举例来说,计算系统的用户可经由语音命令与至少一个虚拟个人助理(VPA)进行交互,并且所述计算系统可经由扬声器(例如,包括用于将电音频信号转换成声音的电声换能器的装置)广播来自VPA的响应。提供对虚拟个人助理的访问的计算系统可通过提高易用性、提供免手动对接并且允许个性化体验来提高客户满意度。举例来说,VPA可针对用户的特定偏好(诸如,音乐偏好和音频设置)而定制,并且可使得用户能够与其它数字应用程序对接。具体来说,个性化的VPA可提高客户满意度并精简交互。然而,现有的计算系统无法同时向多个用户提供个性化VPA体验,这可降低客户满意度。举例来说,第一用户可在VPA交互期间无意地打扰第二用户。
发明内容
公开了用于计算系统的方法的实施方案,所述方法包括将多个虚拟个人助理(VPA)实例分配给多个用户,所述多个VPA实例中的每个VPA实例同时操作。举例来说,将所述多个VPA实例分配给所述多个用户可包括基于多个音频样本为所述多个用户中的每个用户检索个性化VPA配置,所述多个音频样本中的每一者对应于所述多个用户中的一个已知用户。
在另一实施方案中,一种用于计算系统的方法包括:基于第一语音命令将第一个性化虚拟个人助理(VPA)实例分配给第一用户;基于第二语音命令将第二个性化VPA实例分配给第二用户,所述第一个性化VPA实例和所述第二个性化VPA实例中的每一者在所述计算系统上同时操作;以及经由所述计算系统的至少一个扬声器和至少一个传声器提供与所述第一个性化VPA实例和所述第二个性化VPA实例中的每一者的对接。
还公开了用于计算系统的系统。一种示例性计算系统包括:多个扬声器和多个传声器;VPA系统,所述VPA系统包括多个虚拟个人助理(VPA)实例,每个VPA实例同时操作;多个音频区,每个音频区包括所述多个扬声器中的至少一个扬声器和所述多个传声器中的至少一个传声器;处理器,所述处理器通信地耦接到所述计算系统;以及存储装置,所述存储装置存储指令,所述指令能够由所述处理器执行以:将所述多个VPA实例分配给多个用户。
附图说明
参考附图阅读以下对非限制性实施方案的描述,可更好地理解本公开,在以下附图中:
图1示出根据本公开的一个或多个实施方案的车辆驾驶室的示例性部分视图;
图2示出根据本公开的一个或多个实施方案的车辆的示例性车载计算系统的框图;
图3示出图2中所示的车载计算系统的用户辨识系统(URS)和虚拟个人助理(VPA)的框图;
图4示出包括多个音频区的示例性车辆驾驶室的示意图,所述示例性车辆驾驶室包括多个扬声器和传声器;
图5示出图解说明向至少一个用户提供个性化VPA的示例性方法的高级流程图;
图6示出多个车辆用户与车载计算系统之间的示例性交互的示意性图示,所述车载计算系统包括图3中所示的URS和VPA;
图7示出图解说明用于基于所提取的音频特征来识别已注册用户的示例性神经网络的框图;并且
图8示出图解说明用于训练神经网络(诸如,图7中所示的神经网络)以基于所提取的音频特征来识别已注册用户的示例性方法的高级流程图。
具体实施方式
如上文所述,计算系统可将多个虚拟个人助理(VPA)实例分配给多个已知用户,而所述多个VPA实例中的每一者同时操作。举例来说,所述计算系统可基于神经网络的输出来识别所述多个用户中的每一者,并且可基于用户偏好来对每个VPA实例进行配置。以这种方式,可将个性化VPA提供给计算系统的多个用户。在一些示例中,所述计算系统可包括在具有至少一个扬声器的车辆系统(诸如图1中所描绘)中,以使得多个车辆乘客可与独有的VPA实例交互以获得更个性化的体验。在其它示例中,所述计算系统可以是独立智能扬声器、更大音频系统等。如本文中所使用,术语扬声器指代包括用于将电音频信号转换成声音的至少一个电声换能器的装置。
图1示出用于将个性化VPA实例分配给用户的计算系统的一种类型的环境(车辆102的驾驶室100的内部)的示例性部分视图,驾驶员和/或一个或多个乘客可就座于所述环境中。图1的车辆102可以是包括驱动轮(未示出)和内燃机104的机动车辆。内燃机104可包括一个或多个燃烧腔室,所述一个或多个燃烧腔室可经由进入通路接收进入空气并且经由排出通路排出燃烧气体。车辆102可以是道路汽车以及其它类型的车辆。在一些示例中,车辆102可包括混合推进系统,所述混合推进系统包括能量转换装置,所述能量转换装置可操作以从车辆运动和/或发动机吸收能量并将所吸收的能量转换成适合于由能量存储装置存储的能量形式。车辆102可包括全电动车辆,所述全电动车辆具有燃料电池、太阳能捕获元件和/或为车辆提供动力的其他能量存储系统。
如图所示,仪表面板106可包括能够由车辆102的驾驶员(也被称为用户)访问的各种显示器和控件。举例来说,仪表面板106可包括车载计算系统109(例如,娱乐信息系统)的触摸屏108、音频系统控制面板和仪表组110。在一些示例中,车载计算系统109可以是在车辆102的组件上运作的本地计算系统,而在其它示例中,车载计算系统109的一些或所有组件可托管在远程服务器上,诸如云服务器。虽然图1中所示的示例性系统包括可经由车载计算系统109的用户界面实行的音频系统控件(诸如,不具有单独音频系统控制面板的触摸屏108),但在其它实施方案中,车辆可包括音频系统控制面板,所述音频系统控制面板可包括用于传统车辆音频系统的控件,诸如无线电、光盘播放器、MP3播放器等。音频系统控件可包括用于经由车辆计算系统的扬声器112来控制音频输出的一个或多个方面的特征。举例来说,车载计算系统或音频系统控件可控制音频输出的音量、车辆计算系统的个别扬声器间的声音分布、音频信号的均衡和/或音频输出的任何其它方面。在其它示例中,车载计算系统109可基于经由触摸屏108直接接收到的用户输入或基于经由外部装置150和/或移动装置128接收到的关于所述用户的数据(诸如,用户的身体状态和/或环境)来调整无线电台选择、播放列表选择、音频输入源(例如,来自无线电或CD或MP3)等。
在一些实施方案中,车载计算系统109的一个或多个硬件元件(诸如,触摸屏108、显示屏、各种控制拨号盘、旋钮和按钮、存储器、处理器以及任何接口元件(例如,连接件或端口))可形成安装在车辆的仪表面板106中的集成头部单元。所述头部单元可固定地或可移除地附接在仪表板106中。在附加或替代实施方案中,车载计算系统的一个或多个硬件元件可以是模块化的并且可安装在车辆的多个位置中。
驾驶室100可包括用于监测车辆、用户和/或环境的一个或多个传感器。举例来说,驾驶室100可包括:一个或多个椅装式压力传感器,所述椅装式压力传感器被配置成测量施加到座椅的压力以确定用户是否存在;门传感器,所述门传感器被配置成监测门活动;湿度传感器,所述湿度传感器测量驾驶室的湿气含量;传声器,所述传声器接收语音命令形式的用户输入以使得用户能够进行电话呼叫和/或测量驾驶室100中的周围噪声等。应理解,上述传感器和/或一个或多个附加或替代传感器可位于车辆的任何适合的位置中。举例来说,传感器可位于发动机室中、位于车辆的外表面上和/或位于其它适合的位置中以提供关于车辆的操作、车辆的周围条件、车辆的用户等的信息。关于车辆的周围条件、车辆状态或车辆驾驶员的信息也可从在车辆外部/与车辆分离的传感器(即,并非车辆系统的一部分,诸如耦接到外部装置150和/或移动装置128的传感器)接收。作为另一示例,车载计算系统109可诸如通过寄存来自用户的语音命令(例如,表达)并经由车辆计算系统的一个或多个扬声器提供来自多个VPA实例中的一者的响应来与包括所述多个VPA实例的虚拟个人助理(VPA)系统对接。
驾驶室100还可包括在行驶之前、期间和/或之后存储在车辆中的一个或多个用户对象,诸如移动装置128。移动装置128可包括智能电话、平板电脑、膝上型计算机、便携式媒体播放器和/或任何适合的移动计算装置。移动装置128可经由通信链路130连接到车载计算系统。通信链路130可以是有线的(例如,经由通用串行总线[USB]、移动高分辨率链路[MHL]、高分辨率多媒体接口[HDMI]、以太网等)或无线的(例如,经由蓝牙、WIFI、WIFI直连近场通信[NFC]、蜂窝连通性等)并且被配置成提供移动装置与车载计算系统之间的双向通信。移动装置128可包括连接到一个或多个通信链路(例如,上文所述的示例性通信链路中的一者或多者)的一个或多个无线通信接口。所述无线通信接口可包括:一个或多个物理装置(诸如,天线或端口),所述一个或多个物理装置耦接到数据线以载送所传输或所接收的数据;以及一个或多个模块/驱动器,所述一个或多个模块/驱动器用于根据移动装置中的其它装置来操作所述物理装置。举例来说,通信链路130可将来自各种车辆系统(诸如,车辆音频系统、气候控制系统等)以及触摸屏108的传感器信号和/或控制信号提供到移动装置128并且可将来自移动装置128的控制信号和/或显示信号提供到车载系统和触摸屏108。通信链路130也可将电力从车载电源提供给移动装置128以便为移动装置的内部电池充电。
车载计算系统109也可通信地耦接到由用户操作和/或访问但位于车辆102外部的附加装置,诸如一个或多个外部装置150。在所描绘的实施方案中,外部装置位于车辆102外,但将了解,在替代实施方案中,外部装置可位于驾驶室100内。所述外部装置可包括服务器计算系统、个人计算系统、便携式电子装置、电子腕带、电子头带、便携式音乐播放器、电子活动跟踪装置、计步器、智能手表、导航系统等。外部装置150可经由通信链路136连接到车载计算系统,所述通信链路可以是有线的或无线的(如参考通信链路130所讨论的)并且被配置成提供外部装置与车载计算系统之间的双向通信。举例来说,外部装置150可包括一个或多个传感器,并且通信链路136可将传感器输出从外部装置150传输到车载计算系统109和触摸屏108。外部装置150也可存储和/或接收关于情况数据、用户行为/偏好、操作规则等的信息,并且可将所述信息从外部装置150传输到车载计算系统109和触摸屏108。
车载计算系统109可分析从外部装置150、移动装置128和/或其它输入源接收到的输入并且基于评估为各种车载系统(诸如,气候控制系统或音频系统)选择设置,经由触摸屏108和/或扬声器112提供输出,与移动装置128和/或外部装置150进行通信和/或实行其它动作。在一些实施方案中,所述评估的全部或一部分可由移动装置128和/或外部装置150来实行。
在一些实施方案中,外部装置150中的一者或多者可经由移动装置128和/或外部装置150中的另一者间接通信地耦接到车载计算系统109。举例来说,通信链路136可将外部装置150通信地耦接到移动装置128以使得将来自外部装置150的输出中继到移动装置128。接着,可在移动装置128处将从外部装置150接收到的数据与移动装置128所收集的数据聚合,接着经由通信链路130将所聚合的数据传输到车载计算系统109和触摸屏108。类似的数据聚合可在服务器系统处进行并且接着经由通信链路136/130传输到车载计算系统109和触摸屏108。
图2示出配置和/或集成在车辆102内的车载计算系统200的框图。车载计算系统200可以是图1的车载计算系统109的示例,和/或可实行本文中在一些实施方案中所述的方法中的一者或多者。在一些示例中,车载计算系统可以是车辆娱乐信息系统,所述车辆娱乐信息系统被配置成将基于信息的媒体内容(音频和/或视觉媒体内容,包括娱乐内容、导航服务等)提供给车辆用户以增强操作者的车内体验。车辆娱乐信息系统可包括或耦接到各种车辆系统、子系统、硬件组件以及集成在车辆102中或可集成到车辆102中的软件应用程序和系统以便增强驾驶员和/或乘客的车内体验。此外,在一些示例中,车载计算系统200可至少部分地托管在基于云的远程服务器上,以使得方法和功能或车载计算系统200在基于云的远程服务器中发生。举例来说,车载计算系统200可仅经由基于云的远程服务器托管。作为另一示例,车载计算系统200的一些组件可在基于云的远程服务器上运行,而其它组件可包括在车辆102中。车载计算系统200可被配置成经由用户输入件(诸如,用户界面218的按钮、触摸屏等)接收输入。确切来说,用户界面218可包括触摸屏262。举例来说,车载计算系统200的用户界面218可直接耦接到车辆102,而车载计算系统的操作系统处理器214可托管在基于云的远程服务器上。
车载计算系统200可包括一个或多个处理器,所述一个或多个处理器包括操作系统处理器214。操作系统处理器214可在车载计算系统上执行操作系统,并且控制车载计算系统的输入/输出、显示、播放和其它操作。
此外,非易失性存储装置208可包括在车载计算系统200中从而以非易失形式存储数据,诸如能够由处理器214执行的指令。存储装置208可存储应用程序数据以使得车载计算系统200能够运行用于连接到基于云的服务器和/或收集信息以供传输到基于云的服务器的应用程序。所述应用程序可检索由车辆系统/传感器、输入装置(例如,用户界面218)、与车载计算系统通信的装置(例如,经由蓝牙链路连接的移动装置)等搜集的信息。车载计算系统200还可包括易失性存储器216。易失性存储器216可以是随机存取存储器(RAM)。非暂时性存储装置(诸如,非易失性存储装置208和/或易失性存储器216)可存储指令和/或代码,所述指令和/或代码在由处理器(例如,操作系统处理器214)执行时控制车载计算系统200实行本公开中所述的动作中的一者或多者。
车载计算系统200中可包括传声器202以从用户接收语音命令、测量车辆中的周围噪声、确定是否根据车辆的声环境调谐来自车辆的扬声器的音频等。话音处理单元204可处理语音命令,诸如从传声器202接收到的语音命令。在一些实施方案中,车载计算系统200也可能能够使用车辆的音频系统中所包括的传声器来接收语音命令并对周围车辆噪声进行取样。确切来说,车载计算系统200可经由传声器202接收语音命令,所述语音命令可由虚拟个人助理(VPA)系统220来处理。下文将参照图3更详细地描述VPA系统220。
车载计算系统200的传感器子系统210中可包括一个或多个附加传感器。举例来说,传感器子系统210可包括相机,诸如用于辅助用户停泊车辆的后视相机和/或用于识别用户的驾驶室相机(例如,使用面部辨识和/或用户手势)。车载计算系统200的传感器子系统210可与各种车辆传感器通信并从所述各种车辆传感器接收输入并且还可接收用户输入。举例来说,由传感器子系统210接收到的输入可包括变速箱齿轮位置、变速箱离合器位置、油门输入、制动器输入、变速箱选择器位置、车辆速度、发动机转速、通过发动机的空气质量流量、周围温度、进气温度等、以及来自气候控制系统传感器的输入(诸如传热流体温度、防冻液温度、风扇速度、乘客室温度、期望的乘客室温度、周围湿度等)、来自检测用户发出的语音命令的音频传感器的输入、来自从车辆的钥匙扣接收命令并任选地跟踪车辆的钥匙扣的地理位置/接近度的钥匙扣传感器的输入等。虽然某些车辆系统传感器可单独地与传感器子系统210通信,但其他传感器可与传感器子系统210和车辆控制系统230两者通信,或者可经由车辆控制系统230间接与传感器子系统210通信。车载计算系统200的导航子系统211可生成和/或接收导航信息,诸如位置信息(例如,经由传感器子系统210的GPS传感器和/或其它传感器)、路线引导、交通信息、兴趣点(POI)识别;和/或为驾驶员提供其它导航服务。
车载计算系统200的外部装置接口212可能能够耦接到在车辆201外部的一个或多个外部装置240和/或与所述一个或多个外部装置240进行通信。虽然外部装置被图解说明为位于车辆201外部,但应理解,所述外部装置可暂时容纳在车辆201中,诸如当用户在操作车辆201的同时操作所述外部装置时。换句话说,外部装置240并非车辆201的组成部分。外部装置240可包括移动装置242(例如,经由蓝牙、NFC、Wi-Fi直连或其他无线连接进行连接)或替代的具有蓝牙功能的装置252。移动装置242可以是可经由有线和/或无线通信与车载计算系统进行通信的移动电话、智能电话、可穿戴装置和/或传感器、或其他便携式电子装置。其他外部装置包括外部服务246。举例来说,外部装置可包括与车辆分离并且位于车辆外部的车辆外装置。其它外部装置包括外部存储装置254,诸如固态驱动器、随身碟、USB驱动器等。
外部装置240可无线地或经由连接件与车载计算系统200进行通信,而不背离本公开的范围。举例来说,外部装置240可通过外部装置接口212经由网络260、通用串行总线(USB)连接、直接有线连接、直接无线连接和/或其它通信链路与车载计算系统200进行通信。
外部装置接口212可提供通信接口以使得车载计算系统能够与和驾驶员的接触相关联的移动装置进行通信。举例来说,外部装置接口212可使得能够建立电话呼叫和/或将文本消息(例如SMS、MMS等)发送(例如,经由蜂窝通信网络)到与驾驶员的接触相关联的移动装置。另外或替代地,外部装置接口212可提供无线通信接口以使得车载计算系统能够经由WIFI直连与车辆中的一个或多个装置(例如,驾驶员的移动装置)同步数据。
一个或多个应用程序244可能能够在移动装置242上运作。举例来说,可操作移动装置应用程序244以聚合关于用户与移动装置的交互的用户数据。举例来说,移动装置应用程序244可聚合关于以下各项的数据:用户在移动装置上收听的音乐播放列表、电话呼叫日志(包括用户接受的电话呼叫的频率和持续时间)、包括用户常去的位置在内的位置信息和在每个位置处花费的时间量等。应用程序244可经由网络260将所收集的数据传送到外部装置接口212。另外,可在移动装置242处经由外部装置接口212从车载计算系统200接收特定用户数据请求。特定数据请求可包括确定用户地理位置、用户位置处的周围噪声水平和/或音乐类别、用户位置处的周围天气条件(温度、湿度等)等的请求。移动装置应用程序244可将控制指令发送到移动装置242的组件(例如,传声器等)或其它应用程序(例如,导航应用程序)以使得能够将所请求的数据收集在移动装置上。接着,移动装置应用程序244可将所收集的信息中继回到车载计算系统200。
同样地,一个或多个应用程序248可能能够在外部服务246上运作。举例来说,可操作外部服务应用程序248以聚合和/或分析来自多个数据源的数据。举例来说,外部服务应用程序248可聚合来自用户的一个或多个社交媒体账号的数据、来自车载计算系统的数据(例如,传感器数据、日志文件、用户输入等)、来自因特网查询的数据(例如,天气数据、POI数据)等。可将所收集的数据传输到另一装置和/或由应用程序分析以确定驾驶员、车辆和环境的情况并基于所述情况来实行行动(例如,请求数据/将数据发送到其它装置)。此外,一个或多个应用程序248可向车载计算系统200提供对一个或多个虚拟个人助理应用程序的访问权限,下文将对此加以详述。
扬声器206可包括一个或多个声再现装置,包括诸如扬声器等电磁换能器。扬声器206可以是无源的或诸如通过包括功率放大器而是有源的。在一些示例中,车载计算系统200可以是声再现装置的唯一音频源,或可存在连接到音频再现系统的其它音频源(例如外部装置,诸如移动电话)。任何所述外部装置与音频再现装置的连接可以是模拟的、数字的或模拟技术与数字技术的任何组合。
车载计算系统200还可包括天线226。天线226可以是单个天线,或在一些实施方案中可包括一个或多个天线。车载计算系统可经由天线226获得宽带无线因特网接入,并且还可接收广播信号,诸如无线电信号、电视信号、天气信号、交通信号等。车载计算系统可经由一个或多个天线226接收定位信号,诸如GPS信号。车载计算系统也可经由RF(诸如,经由天线206)或者经由红外线或其它方式通过适当接收装置接收无线命令。另外,天线226可经由外部装置接口212将AM/FM无线电信号提供到外部装置240(诸如,移动装置242)。
用户可经由用户界面218控制车载计算系统200的一个或多个元件。用户界面218可包括呈现在触摸屏(诸如,图2的触摸屏108)上的图形用户界面、和/或用户致动按钮、开关、旋钮、拨号盘、滑块等。举例来说,用户致动元件可包括方向盘控件、门和/或窗控件、仪表面板控件、音频系统设置、气候控制系统设置等。用户也可经由用户界面218与车载计算系统200和移动装置242的一个或多个应用程序交互。除了在用户界面218上接收用户的车辆设置偏好之外,还可在用户界面218上向用户显示由车载控制系统选择的车辆设置。可在用户界面的显示器上向用户显示通知和其它消息(例如,接收到的消息)以及导航辅助。可经由用户界面的用户输入实行对用户偏好/信息和/或所呈现消息的响应。此外,用户可经由VPA系统220控制车载计算系统200的元件,所述VPA系统可使得用户能够经由语音命令控制车载计算系统的一个或多个方面。举例来说,用户可使用语音命令来改变扬声器音量、音频源、车辆驾驶室照明等。此外,当车辆驾驶室包括多于一个用户时,每个用户可访问个性化VPA实例以便提高客户满意度。举例来说,第一用户可发出语音命令,并且可得到针对所述第一用户个性化的第一VPA实例的应答。此外,第二用户可发出语音命令,并且可得到针对第二用户个性化的第二VPA实例的应答。此外,每个VPA实例可同时操作,以使得每个用户可基本上同时地与个性化VPA实例对接。在一些示例中,每个用户可经由不同的扬声器和传声器与VPA实例交互,下文将参照图4对此加以详述。
接下来,图3示出URS 301和VPA系统305的示例性框图,所述URS和VPA系统可用于计算系统中以向多个用户提供个性化VPA实例。举例来说,URS 301可用作图2中所示的计算系统200的URS 204,并且VPA系统305可用作图2中所示的计算系统200的VPA系统220。举例来说,如图3中所示,URS 301包括梅尔频率倒谱系数(Mel Frequency CepestralCoefficient,MFCC)特征提取器302以用于从音频样本(诸如,来自车辆用户的语音命令或其它口头输入)提取MFCC特征。举例来说,MFCC特征可基于频率的非线性梅尔标度描述梅尔频率倒谱的系数,所述梅尔频率倒谱是声波的短期功率谱的表示。所述梅尔标度基于感知到的频率(例如,感知到的音高)来调整频域,此举可调整声波以使得嗓音差异更容易分辨。举例来说,MFCC可表示由用户的声道独特塑造的音位。因此,对于每个用户而言,包括用户表达的音频文件的MFCC可有所不同,并且因此可用于识别用户。举例来说,熟悉语音辨识技术的人员可了解,MFCC特征提取器302可经由对音频文件的信号处理来提取MFCC特征。此外,URS 301包括基于从音频样本提取的MFCC特征来识别用户的神经网络304。举例来说,神经网络304可接收由MFCC特征提取器302从一个或多个用户语音命令提取的MFCC特征,并且可基于所述MFCC特征来识别用户。以这种方式,URS 204可响应于音频样本(诸如,语音命令)而识别用户。
此外,VPA系统305可包括并行(例如同时)运作的多个VPA实例,以使得可将车辆系统的每个用户分配给不同的VPA实例。因此,用户可基本上同时地与所分配的VPA实例交互而不被打断。举例来说,通过为车辆系统的每个用户提供独有的的VPA实例,用户可与第一个性化VPA交互而不会打断另一用户与第二个性化VPA的交互。图3中示出VPA系统305的第一VPA实例312,所述第一VPA实例可表示所述多个VPA实例中的每个VPA实例。举例来说,所述多个VPA实例中的每一者可被配置成与图3中所示的第一VPA实例312类似。如图所示,第一VPA实例312包括话音转文本(STT)引擎306、语言处理器308和文本转话音(TTS)引擎310。STT引擎306可将话音输入转换成文本以供处理。举例来说,STT引擎306可包括用于将话音转换成文本的经训练的神经网络或此项技术中已知的将话音转换成文本的任何其它方法。此外,语言处理器308可根据预测用户的定制而将诸如由STT引擎306所产生的输入文本转换成其对应的意图并针对所生成的意图来产生输出。举例来说,语言处理器308可分析来自用户的语音命令的由STT引擎306转换的文本,并确定有意图的用户输入。举例来说,由于自然语言具有固有变异性,因此用户可采用各种措词来做出功能上相同的请求。因此,语言处理器308可将用户所采用的自然语言翻译成第一VPA实例312可读取的离散请求。在一些示例中,语言处理器308包括基于多个用户表达训练的神经网。此外,可基于URS 301所确定的已识别用户来调整语言处理器308的操作。确切来说,可基于用户偏好或其它学习到的用户行为来调整语言处理器308的一个或多个设置。接下来,第一VPA实例312包括TTS310,所述TTS用于将来自VPA实例的文本输出转换成话音以供传输给用户。举例来说,TTS引擎310可将VPA实例的文本输出转换成声波,以便重现人类语音从而对用户请求做出响应。
举非限制性图解说明性示例,VPA系统305可将所述多个VPA实例中的不同VPA实例分配给URS 301所识别的每个用户。举例来说,所述多个VPA实例中的每个VPA实例可包括STT引擎、语言处理器和TTS引擎。举例来说,URS 301可基于第一语音命令通过利用神经网络304分析第一语音命令的MFCC特征(例如,由MFCC特征提取器302提取)来识别第一用户。因此,可将第一用户分配给第一VPA实例312。此外,VPA系统305可经由STT引擎306将第一语音命令转换成文本,经由语言处理器308确定有意图的用户输入,并经由TTS引擎310将来自第一VPA实例312的第一适当VPA响应转换成音频。接下来,URS 301可基于第二语音命令通过利用神经网络304分析所述第二语音命令的MFCC特征来识别第二用户,并可将所述第二用户分配给所述多个VPA实例中的第二VPA实例(未示出)。接着,VPA系统305可经由第二VPA实例的STT引擎将第二语音命令转换成文本,经由第二VPA实例的语言处理器确定有意图的用户输入,并经由第二VPA实例的TTS引擎将来自第二VPA实例的响应转换成音频。除了提供响应之外,所述多个VPA实例中的每个VPA实例可使得计算系统诸如通过改变计算系统播放的音频流、调整音频音量、调整照明装置、调整导航系统设置等来调整一个或多个系统设置。举例来说,URS 301和VPA系统305可与诸如图2中所示的车载系统结合使用,以便向多个车辆用户中的每一者提供个性化VPA实例。
以这种方式,计算系统可使用语音辨识向用户提供个性化VPA实例。举例来说,系统可被配置成辨识多个已知用户,以使得URS 301可被训练成辨识所述多个已知用户中的每一者,并且响应于来自已知用户的语音命令而将(例如,VPA系统305的)个性化VPA实例分配给所述已知用户。举例来说,URS 301的神经网络304可被训练成基于语音样本来辨识用户,下文将参照图7对此加以详述。
如上文所详述,这种计算系统可包括在车辆系统中,诸如图1的车辆102中的车载计算系统200。此外,在一些示例中,计算系统可包括与所述多个用户交互的多个音频区,以便减小所述多个用户中的每个用户之间的声波干扰。举例来说,所述多个音频区可界定计算系统中所包括的多个扬声器和多个传声器的空间位置。在图4中所示的示例中,车辆400(可以是图1中所示的车辆102)耦接到计算机系统,所述计算机系统包括第一音频区410、第二音频区412、第三音频区414和第四音频区416。车辆400还包括前侧434和后侧436。此外,第一音频区410、第二音频区412、第三音频区414和第四音频区416中的每一者可包括至少一个传声器和至少一个扬声器。如图所示,第一音频区410包括传声器418和扬声器420。此外,第二音频区412包括传声器422和扬声器424。此外,第三音频区414包括传声器426和扬声器428。此外,第四音频区416包括传声器430和扬声器432。此外,车辆400的第一座椅402可位于第一音频区410中,第二座椅404可位于第二音频区412中,第三座椅406可位于第三音频区414中,并且第四座椅408可位于第四音频区416中。换言之,图3中所示的车辆400包括具有四个音频区的计算系统,其中每个音频区具有至少一个传声器和至少一个扬声器。在一些示例中,音频区的扬声器或传声器中的一者或多者可固定地耦接到音频区的座椅。举例来说,扬声器420和/或传声器418可耦接到座椅402。另外或替代地,扬声器420和/或传声器418可不耦接到座椅402,并且例如可安装到车辆400的底盘。此外,可基于车辆运作条件来调整扬声器中的每一者和传声器中的每一者的操作以便调整车辆噪声。举例来说,基于车辆速度、车辆加速度和感测到的周围噪声,可针对车辆的每个扬声器调整扬声器音量。此外,可基于每个音频区中的周围噪声对每个扬声器做出不同调整。
基于URS(例如,图3的URS 301)实行的语音识别,计算系统可确定用户位于四个音频区中的哪一者中。举例来说,基于来自车辆系统的每个传声器的相对音频信号,车载计算系统测量用户距每个传声器的距离,并可确定用户位于四个音频区中的哪一者中。举例来说,用户可位于第一音频区中。当第一音频区中的用户发出语音命令时,计算系统可分析来自第一传声器418、第二传声器422、第三传声器426和第四传声器432中的每一者的音频增益,以便确定由所述语音命令生成的相对信号强度。举例来说,计算系统可基于由第一传声器的语音命令生成的相对信号强度确定相对于其它传声器来说第一音频区410中的用户最接近第一传声器418。
此外,在一些示例中,可将两个或更多个音频区组合成单个音频区。举例来说,计算系统可基于来自音频区中的每一者的传声器的音频信号的相对强度来组合两个或更多个音频区。举例来说,计算系统可将来自计算系统的每个传声器的音频信号的相对信号强度进行比较。如果来自用户的音频信号的信号强度仅超过单个音频区中的传声器的阈值信号强度,则计算系统可确定用户处于所述单个音频区中。然而,如果来自用户的音频强度的信号强度超过多个音频区中的传声器的阈值信号强度,则计算系统可确定将相关音频区组合。举例来说,用户可位于两个音频区的边界处,并且可与第一音频区的传声器和第二音频区的传声器基本上等距。举例来说,控制器可推测用户正在使用多于一个传声器做出请求,并且可将音频区组合。举例来说,控制器可将第三音频区414与第四音频区416组合,以使得组合音频区包括第三传声器426、第三扬声器428、第四传声器430和第四扬声器432。在一些示例中,可响应于用户输入而将两个或更多个音频区组合。举例来说,用户可输入将两个邻近音频区组合的请求,以使得用户可与附加的扬声器和传声器交互。
注意,图4中所示的音频区配置是非限制性的示例性音频区配置。在本公开的其它实施方案中,车辆可具有更多或更少的音频区,并且所述音频区可具有不同的布置。在一些示例中,车辆可仅具有一个音频区。此外,如先前所述,用于将多个VPA实例分配给多个已知用户的这种计算系统可包括在车辆系统外的扬声器中。举例来说,房间可被划分成至少一个音频区。举例来说,智能扬声器(例如,包括传声器)可具有单个音频区,并且可为用户提供多个个性化VPA实例。作为另一示例,非车辆结构(诸如房子)可被划分成多个音频区。举例来说,房子的每个房间可包括音频区,并且可包括至少一个扬声器和至少一个传声器以用于提供与VPA实例的对接。
接下来,图5中示出将多个个性化VPA实例提供给多个用户的示例性方法500的高级流程图。确切来说,参照图1及图2的包括车载计算系统200的车载娱乐系统来描述方法500。然而,在其它示例中,方法500可由其它计算系统施行。用于施行方法500的指令可存储在车载计算系统的非暂时性存储器(例如,图2中所示的存储装置208)中。因此,可由处理器(例如,图2的操作系统处理器214)基于存储的指令并且结合从车辆系统的传感器(诸如,上文中参考图2和图3所述的传感器)接收到的信号来执行方法500。
在步骤502处,方法400包括监测车辆音频区以获取用户请求(例如,语音命令)。举例来说,控制器可监测计算系统的传声器以获取语音命令。举例来说,控制器可分析传声器检测到的任何用户表达以确定用户是否已发出语音命令。确切来说,一些用户表达可能不是语音命令,并且可不被解译为用户请求。
在步骤504处,方法400包括确定是否检测到用户请求。举例来说,当经由耦接到车辆计算系统的一个或多个传声器检测到语音命令时,控制器可确定检测到用户请求。
如果在步骤504处未检测到用户请求(“否”),则方法500继续进行到506并且包括不将VPA分配给用户。举例来说,控制器可基于语音识别而不选择VPA实例以分配给用户。在506之后,方法500可返回。举例来说,方法500可返回并且继续监测车辆驾驶室以获取语音命令。
如果在步骤504处检测到用户请求(“是”),则方法500继续进行到508并且包括基于音频特征(诸如,MFCC特征)来识别用户。举例来说,控制器的URS(例如,诸如图2和图3中所示)可处理用户请求。举例来说,URS的MFCC提取器可处理与语音命令相关联的音频信号以便提取表征所述音频信号的多个MFCC特征。此外,可将MFCC特征输入到URS的神经网络中,所述URS的神经网络可将音频信号的所提取MFCC特征与多个已知用户中的一者进行匹配。举例来说,神经网络可基于来自所述多个已知用户中的每一者的音频样本加以训练,并且可将音频信号的所提取MFCC特征与已获悉的所述多个已知用户的MFCC特征进行比较,下文参照图8对此加以详述。如果神经网络未将音频样本与所述多个已知用户中的一者匹配起来,则所述神经网络可输出未识别到用户的错误消息或另一指示。此外,控制器可确定用户请求来自于哪个音频区。
在步骤510处,方法500包括确定是否识别到用户。举例来说,控制器可基于来自神经网络的输出确定是否识别到用户。举例来说,如果神经网络输出已识别用户,则控制器可确定识别到用户。然而,如果神经网络输出未识别到用户的错误消息或指示,则控制器可确定未识别到用户。举例来说,神经网络可被训练成基于所提取的MFCC特征来识别一组已知用户。然而,神经网络可能无法响应于来自所述一组已知用户中并不包括的用户的语音命令而识别所述用户。
如果方法500确定在步骤510处未识别到用户(“否”),则方法500继续到步骤512并且包括将错误消息传回给用户。举例来说,错误消息可提示用户利用个性化VPA系统来寄存其用户语音。举例来说,控制器可经由在车辆系统中的显示器上弹出通知来通知用户,或可输出未识别到用户的音频警示。举例来说,控制器可提示用户通过提供音频样本来寄存其语音以训练URS的神经网络,从而辨识所述用户是所述一组已知用户中的一者。
如果方法500确定在步骤510处识别到用户(“是”),则方法500继续到步骤514并且包括确定是否已将VPA实例分配给已识别用户。举例来说,控制器可确定已识别用户是否已发出语音命令并已被分配VPA实例。举例来说,控制器可查询VPA的每个VPA实例以便确定任何VPA实例是否已被分配给用户。
如果方法500在步骤514处确定VPA尚未被分配给用户(“否”),则方法500继续到步骤522并且包括将新VPA实例分配给用户。举例来说,控制器可选择多个VPA实例中的第一VPA实例并且将所述VPA实例分配给用户。
在步骤524处,方法500包括向用户提供VPA接口。举例来说,基于所存储的用户偏好和语音命令的特征,控制器可将用户请求提供到所分配的VPA实例并且经由车辆系统的一个或多个扬声器广播VPA响应。确切来说,控制器可经由用户的音频区的扬声器广播VPA响应。在524之后,方法500可结束。
如果方法500在步骤514处确定VPA实例已被分配给用户(“是”),则方法500继续到516并且包括将用户请求转发到所分配的VPA实例。举例来说,控制器可将用户请求转发到已被分配给用户的VPA实例。
在步骤518处,方法500包括相对于最后用户请求确定用户是否处于不同音频区中。举例来说,来自已识别用户的先前请求可能来自于第一音频区,而来自已识别用户的当前请求可能来自于第二音频区。
如果方法500在步骤518处确定用户请求来自于不同的音频区,则方法500继续到步骤520并且包括调整音频区配置。举例来说,控制器可将第一音频区与第二音频区合并在一起,以使得用户可与两个音频区中的每一者的传声器和扬声器对接,以便与其被分配的VPA实例交互。作为非限制性示例,如果用户已从第一音频区和第二音频区发出语音命令,则控制器可调整音频区配置以使得第一音频区与第二音频区形成单个组合音频区,所述单个组合音频区包括第一音频区和第二音频区中的每一者的扬声器和传声器。方法500可接着继续进行到上文所详述的步骤524。
如果方法500在步骤518处确定用户不位于不同的音频区中(“否”),而是位于同一音频区中,则方法500继续进行到步骤524并且包括向用户提供VPA接口,如上文所述。在步骤524之后,方法500可结束。
接下来,图6示出计算系统600的示意性图示,所述计算系统根据图5的方法500将个性化VPA实例提供给多个用户。举例来说,计算系统600包括四个音频区,诸如图4中所示。因此,图4中所示的音频区组件将具有相同的编号并且不再赘述。举例来说,第一用户602可位于包括第一传声器418和第一扬声器420的第一音频区中;第二用户604可位于包括第二传声器422和第二扬声器424的第二音频区中;第三用户606可位于包括第三传声器426和第三扬声器428的第三音频区中;并且第四用户608可位于包括第四传声器430和第四扬声器432的第四音频区中。
计算系统600包括图3的URS 301,所述URS可通信地耦接到系统的每个传声器。此外,计算系统600包括图3的VPA系统305,所述VPA系统包括用于从远程服务器630检索个性化用户配置的认证块628以及四个VPA实例,所述四个VPA实例包括第一VPA实例312、第二VPA实例634、第三VPA实例636和第四VPA实例638。所述多个VPA实例的每个VPA实例可包括STT引擎、语言处理器和TTS引擎。举例来说,如图3中所示,第一VPA实例312包括STT引擎306、语言处理器308和TTS引擎310。可将来自四个传声器中的每一者的音频输入引导到URS301,所述URS可在将音频输入发送到VPA系统305之前基于所提取的音频特征来识别用户。举例来说,音频输入可以是对VPA的语音命令,诸如音乐请求、导航命令、信息请求、日程请求等。
在图6的示例中,第一用户602(例如,U1)做出第一请求(例如,U1请求1),所述第一请求经由第一传声器418传输到URS 301。URS 301可基于第一请求的音频特征(例如,诸如所提取的MFCC特征)识别第一用户是多个已知用户中的一者,并且可将请求路由到VPA系统301的认证块628。举例来说,认证块确定VPA实例尚未被分配给第一用户602,并且从远程服务器630为第一用户检索个性化VPA配置。接下来,VPA系统301可将第一用户602分配给第一VPA实例312。举例来说,可基于从远程服务器630为第一用户检索的个性化VPA配置来调整第一VPA实例312。接下来,响应于第一请求(实线640),第一VPA实例312可做出响应(例如,U1响应),并将所述响应路由到第一扬声器420。第一扬声器420可将VPA响应广播给第一用户,因此为第一用户提供个性化VPA实例。VPA响应还可包括调整计算系统600的一个或多个设置,诸如扬声器音量、选定音频流、导航路径等。
此外,第一用户做出第二请求(例如,U1请求2),所述第二请求可被第一传声器418捕获并路由到URS 301。举例来说,URS 301基于第二请求的音频特征辨识出第二请求是由第一用户做出。此外,由于第一用户已通过认证块628认证(例如,响应于第一请求),因此第二请求可被直接路由到第一VPA实例312,从而绕过认证块628和云服务器630。即使在附加车辆用户发起与VPA的交互时,第一用户与第一VPA实例之间的这种请求与响应型式仍可继续进行。
举例来说,如图所示,第三用户606(例如,U3)做出请求(例如,U3请求1),所述请求被第三传声器426捕获到并路由到URS 301。举例来说,第三用户606可与第一用户602做出第二请求基本上同时地做出请求,以使得每个请求被同时处理。与第一请求(例如,U1请求1)类似,可在URS 301识别到用户之后将来自第三用户的请求(例如,U3请求1)传递到认证块628。认证块628可从远程服务器630为第三用户检索VPA配置,并且可将第三用户606分配给第二VPA实例634。响应于来自第三用户606的请求,第二VPA实例634做出响应(例如,U3响应),经由扬声器428将所述响应广播给第三用户606。此外,VPA系统301可基于来自第三用户606的请求来调整计算系统600的一个或多个设置。以这种方式,如图6中所示,计算系统可为多个用户提供多个VPA实例,每个VPA实例同时操作。举例来说,第一用户可与所分配的VPA实例交互而不会打断第二用户的VPA交互。
此外,图7示出用于基于音频样本(诸如语音命令)来识别计算系统的用户的用户识别过程700的实施方案的示意图。举例来说,车载计算系统可执行用户识别过程700以识别用户,以便将个性化VPA实例分配给用户。举例来说,用户识别过程700可由处理器(诸如,图2的操作系统处理器214)以及用户辨识系统(诸如,图2和图3的URS 301)来执行。如图7中所示,用户识别过程700接收音频样本作为输入。举例来说,音频样本可以是经由传声器接收到的语音命令或其它口头用户请求。在其它示例中,音频样本可以是由新用户记录以用于训练神经网络以辨识所述用户的音频样本。此外,用户识别过程700包括从音频样本提取MFCC特征的MFCC特征提取器704。举例来说,MFCC特征提取器704可以是参照图3所述的MFCC特征提取器302。举例来说,MFCC特征提取器704从音频样本702提取特征,并将这些特征输入到神经网络706。
如图所示,神经网络706接收音频样本702的MFCC特征作为输入,并识别用户(例如,已识别用户712)作为输出。因此,将输入(例如,音频样本702)映射到已识别用户712。神经网络706包括已学习的卷积滤波器708(在训练模式期间学习和/或更新)和已学习的解卷积滤波器710(在训练模式期间学习和/或更新)。通过经由神经网络706的卷积层和解卷积层传播输入,输出已识别用户712。举例来说,可基于来自一组离散已知用户的音频样本来训练神经网络,并且可将从音频样本702提取的MFCC特征与所述一组离散已知用户的用户中的一者进行匹配。如果神经网络未从所述一组离散已知用户识别到一个用户,则神经网络706可替代地向用户输出错误消息。神经网络706还可包括一个或多个密集连接层(未示出)以及一个或多个池化层(未示出)、一个或多个上取样层(未示出)和一个或多个ReLU层(未示出)或机器学习领域中常有的任何层。
此外,虽然用户识别过程700以训练模式操作,但可将已识别用户712与已知用户进行比较以便确定系统的错误714。举例来说,可通过神经网络706的卷积滤波器和解卷积滤波器后向传播错误714,从而调整滤波器的权重和平衡,以便提高神经网络准确性直到错误714收敛为止。举例来说,下文参照图8示出以训练模式操作用户识别过程700以便训练神经网络706的方法。
因此,图8示出用于训练神经网络以基于来自车辆系统用户的音频来识别用户的示例性方法800的高级流程图。方法800可由上文所讨论的系统中的一者或多者执行。举例来说,在一些实施方案中,可由参照图2所示的车载通信系统200实施方法800,所述车载通信系统包括参照图3所示的神经网络304。
在步骤802处,方法800包括获取训练音频。举例来说,用户可将多个音频样本(诸如用于训练神经网络的样本语音命令的记录)提供到车辆系统。举例来说,用户界面可提示车辆系统的新用户记录多个音频样本。举例来说,可选择音频样本以高效地训练神经网以基于语音命令来识别用户。可使所述多个音频样本中的每一者与新用户的识别符挂钩。
在步骤804处,方法800包括经由MFCC提取器(诸如,参照图3所述的MFCC提取器302)从训练音频提取MFCC特征。举例来说,MFCC提取器可经由一种或多种信号处理技术从所述多个音频样本中的每一者提取MFCC特征。举例来说,MFCC提取器可输出多组MFCC特征,每一组MFCC特征与新用户的识别符挂钩。
在步骤806处,方法800包括将MFCC特征输入到神经网络中。举例来说,所述多组MFCC特征中的每个MFCC特征可输入到神经网络,并且可映射到已识别用户。
在步骤808处,方法800包括将实际神经网络输出与预期输出进行比较。举例来说,针对每个音频样本输入,方法800可将已识别用户(例如,在806处识别的)和与音频样本输入挂钩的新用户的识别符进行比较。
在步骤810处,方法800包括在神经网络中后向传播错误。举例来说,通过神经网络计算所预测的已识别用户与新用户的识别符之间的差异测度,因此确定所预测的已识别用户相对于实际已识别用户的错误。在一些实施方案中,差异测度可包括DICE得分、均方误差、绝对距离误差和角度误差中的一者或多者或其加权组合。在一些实施方案中,训练深度神经网络还包括确定来自深度神经网络的每个输出神经元的每个输出与基准真值图像中的对应值之间的差异。此外,基于所述差异测度来调整深度神经网络的权重和偏倚。可通过深度神经网络的各个层后向传播所述差异测度以更新所述层的权重(和偏倚)。在一些实施方案中,可根据梯度下降算法或此项技术中已知的另一后向传播方法进行损耗的后向传播。
在步骤810之后,方法800返回。将注意,可重复进行步骤810直到神经网络的权重和偏倚收敛、获得阈值差异测度(对于训练数据而言或基于单独验证数据集)或深度神经网络在每次迭代时的权重和/或偏倚的改变率低于阈值为止。因此,方法800使得能够训练URS的深度神经网络以基于音频样本(例如,诸如语音命令)来识别用户。
以这种方式,计算系统可将多个个性化VPA实例分配给多个已知用户,所述多个VPA实例中的每个VPA实例同时操作。举例来说,由于为每个已知用户分配与其它VPA实例同时操作的独立VPA实例,因此用户可与所分配的VPA实例交互而不会被另一用户打断,此可提高易用性和客户满意度。确切来说,每个用户可经由包括经训练的神经网络的用户辨识系统来识别,并且可被分配给独有的VPA实例。通过为每个用户提供个性化VPA实例,可为每个个别用户专门调适VPA交互,诸如音乐偏好、数字账号、话音型式、日程、所保存信息等。在一些示例中,计算系统可包括在车辆系统中。通过在车辆系统中包括用于分配个性化VPA实例的计算系统,用户可免手动地控制车辆功能,此可提高客户满意度和产品合意性。
本公开的技术效果包括多个用户控制计算系统。举例来说,通过将多个VPA实例分配给多个用户而每个VPA实例同时操作,多个用户可在不被打断的情况下经由语音命令控制计算系统,每个用户与针对所述用户配置的个性化VA实例交互。
举例来说,一种用于计算系统的方法包括:将多个虚拟个人助理(VPA)实例分配给多个用户,所述多个VPA实例中的每个VPA实例同时操作。在前述示例中,另外或任选地,将所述多个VPA实例分配给所述多个用户包括基于多个音频样本为所述多个用户中的每个用户检索个性化VPA配置,所述多个音频样本中的每一者对应于所述多个用户中的一个已知用户。在前述示例中的一者或两者中,另外或任选地,基于所述多个音频样本为所述多个用户中的每个已知用户检索所述个性化VPA配置包括:基于所述多个音频样本来识别所述多个用户中的每个用户;以及响应于识别到所述多个用户中的一个用户,从一组存储的VPA配置检索与已识别用户对应的所述VPA配置。在前述示例中的任一示例或所有示例中,所述方法另外或任选地还包括:响应于未识别到用户,经由用户界面输出错误消息。在前述示例中的任一示例或所有示例中,另外或任选地,所述多个音频样本包括来自所述多个用户的多个语音命令。在前述示例中的任一示例或所有示例中,另外或任选地,基于所述多个音频样本来识别所述多个用户中的每个用户包括:从所述多个音频样本中的每一者提取多个梅尔频率倒谱系数(MFCC)特征;以及将所述多个音频样本中的每一者的所述多个MFCC特征输入到经训练的深度神经网络中。在前述示例中的任一示例或所有示例中,另外或任选地,所述多个用户中的每一者位于多个音频区中的一者中,每个音频区包括至少一个扬声器和至少一个传声器。在前述示例中的任一示例或所有示例中,另外或任选地,将所述多个VPA实例分配给所述多个用户包括基于经由用户界面进行的至少一个用户输入来识别所述多个用户中的每个用户。
作为另一示例,一种用于计算系统的方法包括:基于第一语音命令来将第一个性化虚拟个人助理(VPA)实例分配给第一用户;基于第二语音命令将第二个性化VPA实例分配给第二用户,所述第一个性化VPA实例和所述第二个性化VPA实例中的每一者在计算系统上同时操作;以及经由所述计算系统的至少一个扬声器和至少一个传声器提供与所述第一个性化VPA实例和所述第二个性化VPA实例中的每一者的对接。在前述示例中,另外或任选地,基于所述第一语音命令将所述第一个性化VPA实例分配给所述第一用户包括:经由经训练的神经网络将所述第一语音命令映射到多个已知用户中的一者;以及响应于将所述第一语音命令映射到所述多个已知用户中的第一已知用户,获取所述第一已知用户的VPA配置。在前述示例中的一者或两者中,另外或任选地,基于所述第二语音命令将所述第二个性化VPA实例分配给所述第二用户包括:经由所述经训练的神经网络将所述第二语音命令映射到所述多个已知用户中的一者;以及响应于将所述第二语音命令映射到所述多个已知用户中的第二已知用户,获取所述第二已知用户的VPA配置。在前述示例中的任一示例或所有示例中,另外或任选地,所述计算系统包括第一音频区和第二音频区,所述第一音频区包括第一传声器和第一扬声器,并且所述第二音频区包括第二传声器和第二扬声器。在前述示例中的任一示例或所有示例中,所述方法另外或任选地还包括:测量与所述第一传声器的来自所述第一语音命令的音频信号对应的第一音频信号强度和与所述第二传声器的来自所述第一语音命令的音频信号对应的第二音频信号强度;响应于所述第一音频信号强度超过阈值并且所述第二音频信号强度不超过所述阈值,将所述第一用户分配给所述第一音频区;响应于所述第一音频信号强度不超过所述阈值并且所述第二音频信号强度超过所述阈值,将所述第一用户分配给所述第二音频区;以及响应于所述第一音频信号强度和所述第二音频信号强度中的每一者均超过所述阈值,将所述第一音频区与所述第二音频区组合。在前述示例中的任一示例或所有示例中,所述方法另外或任选地还包括:测量与所述第一传声器的来自所述第二语音命令的音频信号对应的第三音频信号强度和与所述第二传声器的来自第二语音命令的音频信号对应的第四音频信号强度;响应于所述第三音频信号强度超过所述阈值并且所述第四音频信号强度不超过阈值,将所述第二用户分配给所述第一音频区;响应于所述第三音频信号强度不超过所述阈值并且所述第四音频信号强度超过所述阈值,将所述第二用户分配给所述第二音频区;以及响应于所述第三音频信号强度和所述第四音频信号强度中的每一者超过所述阈值,将所述第一音频区与所述第二音频区组合。在前述示例中的任一示例或所有示例中,另外或任选地,所述计算系统耦接到车辆系统,并且基于来自所述车辆系统的诸如车辆速度、周围噪声和车辆位置等输入来调整所述计算系统的一个或多个扬声器设置。
作为又一个示例,一种计算系统包括:多个扬声器和多个传声器;VPA系统,所述VPA系统包括多个虚拟个人助理(VPA)实例,每个VPA实例同时操作;多个音频区,每个音频区包括所述多个扬声器中的至少一个扬声器和所述多个传声器中的至少一个传声器;处理器,所述处理器通信地耦接到所述计算系统;以及存储装置,所述存储装置存储指令,所述指令能够由所述处理器执行以:将所述多个VPA实例分配给多个用户。在前述示例中,另外或任选地,所述计算系统还包括:用户辨识系统(URS),所述URS包括用于基于音频样本识别用户的MFCC特征提取器和神经网络;虚拟个人助理(VPA)系统,所述VPA系统包括话音转文本(STT)引擎、语言处理器和文本转话音(TTS)引擎以及所述多个VPA实例。在前述示例中的一者或两者中,另外或任选地,所述处理器还含有存储在非易失性存储器中的指令,所述指令在被执行时使得所述处理器:基于语音命令将所述多个VPA实例中的第一VPA实例分配给所述多个用户中的第一用户;从远程服务器为所述第一用户检索VPA配置;以及经由所述多个扬声器中的一个扬声器广播来自所述第一VPA实例的响应。在前述示例中的任一示例或所有示例中,另外或任选地,所述计算系统通信地耦接到至少一个外部装置。在前述示例中的任一示例或所有示例中,另外或任选地,所述至少一个外部装置包括基于云的服务、移动电话、平板计算机、膝上型计算机、台式计算机、智能手表、一副智能眼镜和托管一个或多个专属应用程序的服务器中的一者。
已出于图解说明和描述目的而呈现对实施方案的说明。对实施方案进行的适合修改和变化可鉴于以上描述实行或可从所述方法的实践中获取。举例来说,除非另外指出,否则所述方法中的一者或多者可通过适合的装置和/或装置组合(诸如,参考图1所述的远程信息处理单元30)来实行。可将一个或多个逻辑装置(例如,处理器)与一个或多个附加硬件元件(诸如存储装置、存储器、硬件网络接口/天线、开关、致动器、时钟电路等)组合以执行所存储的指令来实行所述方法。所述方法和相关联动作也可按照除本申请中所述的次序之外的各种次序、并行地和/或同时地实行。所述系统本质上是示例性的,并且可包括附加元件和/或省略元件。本公开的主题包括所公开的各种系统和配置的所有新颖且非显而易见的组合和子组合、其他特征、功能和/或性质。
如本申请中所使用,以单数形式引述并且前面有词语“一(a/an)”的元件或步骤应被理解为不排除复数个所述元件或步骤,除非陈述了所述排除。此外,提及本公开的“一个实施方案”或“一个示例”并不旨在被解释为排除也包含所引述特征的附加实施方案的存在。术语“第一”、“第二”和“第三”等仅用作标记,并不旨在对其对象强加数值要求或特定位置次序。所附权利要求依据被视为新颖且非显而易见的以上公开内容特别指出主题。

Claims (15)

1.一种用于计算系统的方法,所述方法包括:
将多个虚拟个人助理(VPA)实例分配给多个用户,所述多个VPA实例中的每个VPA实例同时操作。
2.如权利要求1所述的方法,其中将所述多个VPA实例分配给所述多个用户包括:基于多个音频样本来为所述多个用户中的每个用户检索个性化VPA配置,所述多个音频样本中的每一者对应于所述多个用户中的一个已知用户。
3.如权利要求2所述的方法,其中基于所述多个音频样本来为所述多个用户中的每个用户检索所述个性化VPA配置包括:
基于所述多个音频样本来识别所述多个用户中的每个用户;以及
响应于识别到所述多个用户中的每个用户,从一组存储的个性化VPA配置检索与所述所识别用户对应的所述个性化VPA配置。
4.如权利要求3所述的方法,所述方法还包括:
响应于未识别到所述多个用户中的一个用户,经由用户界面输出错误消息。
5.如权利要求3所述的方法,其中所述多个音频样本包括来自所述多个用户的多个语音命令,所述多个语音命令中的每个语音命令对应于所述多个用户中的一个用户。
6.如权利要求3所述的方法,其中基于所述多个音频样本来识别所述多个用户中的每个用户包括:
从所述多个音频样本中的每一者提取多个梅尔频率倒谱系数(MFCC)特征;以及
将来自所述多个音频样本中的每一者的所述多个MFCC特征输入到经训练的深度神经网络中。
7.如权利要求1所述的方法,其中所述多个用户中的每一者位于多个音频区中的一者中,每个音频区包括至少一个扬声器和至少一个传声器。
8.如权利要求7所述的方法,其中所述多个音频区包括第一音频区和第二音频区,所述第一音频区包括第一传声器和第一扬声器,并且所述第二音频区包括第二传声器和第二扬声器。
9.如权利要求8所述的方法,所述方法还包括:
测量与所述第一传声器的来自第一语音命令的第一音频信号对应的第一音频信号强度和与所述第二传声器的来自所述第一语音命令的第二音频信号对应的第二音频信号强度;
响应于所述第一音频信号强度超过阈值并且所述第二音频信号强度不超过所述阈值,将第一用户分配给所述第一音频区;
响应于所述第一音频信号强度不超过所述阈值并且所述第二音频信号强度超过所述阈值,将所述第一用户分配给所述第二音频区;
响应于所述第一音频信号强度和所述第二音频信号强度中的每一者均超过所述阈值,将所述第一音频区与所述第二音频区组合;
测量与所述第一传声器的来自第二语音命令的第三音频信号对应的第三音频信号强度和与所述第二传声器的来自所述第二语音命令的第四音频信号对应的第四音频信号强度;
响应于所述第三音频信号强度超过所述阈值并且所述第四音频信号强度不超过所述阈值,将第二用户分配给所述第一音频区;
响应于所述第三音频信号强度不超过所述阈值并且所述第四音频信号强度超过所述阈值,将所述第二用户分配给所述第二音频区;以及
响应于所述第三音频信号强度和所述第四音频信号强度中的每一者均超过所述阈值,将所述第一音频区与所述第二音频区组合。
10.如权利要求9所述的方法,其中所述计算系统耦接到车辆系统,并且基于来自所述车辆系统的诸如车辆速度、周围噪声和车辆位置等输入来调整所述计算系统的一个或多个扬声器设置。
11.一种计算系统,所述计算系统包括:
多个扬声器和多个传声器;
VPA系统,所述VPA系统包括多个虚拟个人助理(VPA)实例,每个VPA实例同时操作;
多个音频区,每个音频区包括所述多个扬声器中的至少一个扬声器和所述多个传声器中的至少一个传声器;
处理器,所述处理器通信地耦接到所述计算系统;以及
存储装置,所述存储装置存储指令,所述指令能够由所述处理器执行以:
将所述多个VPA实例分配给多个用户。
12.如权利要求11所述的计算系统,其中所述计算系统还包括:
用户辨识系统(URS),所述URS包括MFCC特征提取器和神经网络以用于基于音频样本识别用户;
虚拟个人助理(VPA)系统,所述VPA系统包括话音转文本(STT)引擎、语言处理器和文本转话音(TTS)引擎以及所述多个VPA实例。
13.如权利要求12所述的计算系统,其中所述处理器还含有存储在非易失性存储器中的指令,所述指令在被执行时使得所述处理器:
基于语音命令将所述多个VPA实例中的第一VPA实例分配给所述多个用户中的第一用户;
从远程服务器为所述第一用户检索VPA配置;以及
经由所述多个扬声器中的一个扬声器广播来自所述第一VPA实例的响应。
14.如权利要求13所述的计算系统,其中所述计算系统包括在机动车辆中,并且通信地耦接到至少一个外部装置。
15.如权利要求14所述的计算系统,其中所述至少一个外部装置包括基于云的服务、移动电话、平板计算机、膝上型计算机、台式计算机、智能手表、一副智能眼镜和托管一个或多个专属应用程序的服务器中的一者。
CN202080099916.0A 2020-04-17 2020-06-23 用于提供个性化虚拟个人助理的系统和方法 Pending CN115428067A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
IN202041016604 2020-04-17
IN202041016604 2020-04-17
PCT/US2020/039189 WO2021211150A1 (en) 2020-04-17 2020-06-23 Systems and methods for providing a personalized virtual personal assistant

Publications (1)

Publication Number Publication Date
CN115428067A true CN115428067A (zh) 2022-12-02

Family

ID=71528111

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080099916.0A Pending CN115428067A (zh) 2020-04-17 2020-06-23 用于提供个性化虚拟个人助理的系统和方法

Country Status (4)

Country Link
US (1) US11928390B2 (zh)
CN (1) CN115428067A (zh)
DE (1) DE112020007096T5 (zh)
WO (1) WO2021211150A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024131127A1 (zh) * 2022-12-23 2024-06-27 广州汽车集团股份有限公司 一种车辆智能钥匙控制方法、系统、车辆智能钥匙及非暂时性计算机可读存储介质

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US12175970B2 (en) * 2020-12-24 2024-12-24 Cerence Operating Company Speech dialog system for multiple passengers in a car
US12238486B2 (en) * 2022-08-10 2025-02-25 GM Global Technology Operations LLC Management of audio performance in a vehicle
US11930082B1 (en) * 2022-12-15 2024-03-12 Amazon Technologies, Inc. Multiple zone communications and controls
US12169663B1 (en) 2022-12-16 2024-12-17 Amazon Technologies, Inc. Multi-zone content output controls
US12204742B1 (en) * 2023-07-18 2025-01-21 Adeia Guides Inc. Beamforming systems for personalized in-vehicle audio delivery to multiple passengers simultaneously

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100035663A1 (en) * 2008-08-07 2010-02-11 Nuance Communications, Inc. Hands-Free Telephony and In-Vehicle Communication
US20140310001A1 (en) * 2013-04-16 2014-10-16 Sri International Using Intents to Analyze and Personalize a User's Dialog Experience with a Virtual Personal Assistant
WO2015086493A1 (en) * 2013-12-09 2015-06-18 Accenture Global Services Limited Virtual assistant interactivity platform
US20150169336A1 (en) * 2013-12-16 2015-06-18 Nuance Communications, Inc. Systems and methods for providing a virtual assistant
US9711148B1 (en) * 2013-07-18 2017-07-18 Google Inc. Dual model speaker identification
CN109154900A (zh) * 2016-03-17 2019-01-04 纽昂斯通讯公司 两个或更多个虚拟助理之间的会话处理交互
JP2019068237A (ja) * 2017-09-29 2019-04-25 株式会社デンソーテン 会話支援装置、会話支援システムおよび会話支援方法
WO2019130282A1 (en) * 2017-12-29 2019-07-04 Harman International Industries, Incorporated Acoustical in-cabin noise cancellation system for far-end telecommunications
US20190303095A1 (en) * 2018-03-27 2019-10-03 Ford Global Technologies, Llc Voice activation system of a vehicle
CN110371024A (zh) * 2019-07-18 2019-10-25 上汽通用汽车有限公司 一种汽车娱乐系统及控制方法
CN110400566A (zh) * 2019-06-27 2019-11-01 联想(北京)有限公司 识别方法和电子设备
US20190349683A1 (en) * 2018-05-14 2019-11-14 International Business Machines Corporation Adjusting audio volume for a plurality of zone speakers, separately, within a plurality of zones in real-time

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7725307B2 (en) * 1999-11-12 2010-05-25 Phoenix Solutions, Inc. Query engine for processing voice based queries including semantic decoding
US20100057465A1 (en) * 2008-09-03 2010-03-04 David Michael Kirsch Variable text-to-speech for automotive application
US10032453B2 (en) * 2016-05-06 2018-07-24 GM Global Technology Operations LLC System for providing occupant-specific acoustic functions in a vehicle of transportation
US10957321B2 (en) * 2016-07-21 2021-03-23 Samsung Electronics Co., Ltd. Electronic device and control method thereof
US10433094B2 (en) * 2017-02-27 2019-10-01 Philip Scott Lyren Computer performance of executing binaural sound
US10083006B1 (en) * 2017-09-12 2018-09-25 Google Llc Intercom-style communication using multiple computing devices
EP3732679A1 (en) * 2017-12-29 2020-11-04 Harman International Industries, Incorporated Acoustical in-cabin noise cancellation system for far-end telecommunications
CN110874202B (zh) * 2018-08-29 2024-04-19 斑马智行网络(香港)有限公司 交互方法、设备、介质和操作系统
DE102020128721A1 (de) * 2019-12-27 2021-07-01 Harman International Industries, Incorporated Systeme und verfahren zur verwaltung von infotainment-puffer in einem fahrzeug
US11645566B2 (en) * 2020-03-09 2023-05-09 International Business Machines Corporation Methods and systems for graph computing with hybrid reasoning
US20220101829A1 (en) * 2020-09-29 2022-03-31 Harman International Industries, Incorporated Neural network speech recognition system
US12087280B2 (en) * 2021-06-11 2024-09-10 Harman International Industries, Incorporated System and method for robust wakeword detection in presence of noise in new unseen environments without additional data

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100035663A1 (en) * 2008-08-07 2010-02-11 Nuance Communications, Inc. Hands-Free Telephony and In-Vehicle Communication
US20140310001A1 (en) * 2013-04-16 2014-10-16 Sri International Using Intents to Analyze and Personalize a User's Dialog Experience with a Virtual Personal Assistant
US9711148B1 (en) * 2013-07-18 2017-07-18 Google Inc. Dual model speaker identification
WO2015086493A1 (en) * 2013-12-09 2015-06-18 Accenture Global Services Limited Virtual assistant interactivity platform
US20150169336A1 (en) * 2013-12-16 2015-06-18 Nuance Communications, Inc. Systems and methods for providing a virtual assistant
CN109154900A (zh) * 2016-03-17 2019-01-04 纽昂斯通讯公司 两个或更多个虚拟助理之间的会话处理交互
JP2019068237A (ja) * 2017-09-29 2019-04-25 株式会社デンソーテン 会話支援装置、会話支援システムおよび会話支援方法
WO2019130282A1 (en) * 2017-12-29 2019-07-04 Harman International Industries, Incorporated Acoustical in-cabin noise cancellation system for far-end telecommunications
US20190303095A1 (en) * 2018-03-27 2019-10-03 Ford Global Technologies, Llc Voice activation system of a vehicle
US20190349683A1 (en) * 2018-05-14 2019-11-14 International Business Machines Corporation Adjusting audio volume for a plurality of zone speakers, separately, within a plurality of zones in real-time
CN110400566A (zh) * 2019-06-27 2019-11-01 联想(北京)有限公司 识别方法和电子设备
CN110371024A (zh) * 2019-07-18 2019-10-25 上汽通用汽车有限公司 一种汽车娱乐系统及控制方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024131127A1 (zh) * 2022-12-23 2024-06-27 广州汽车集团股份有限公司 一种车辆智能钥匙控制方法、系统、车辆智能钥匙及非暂时性计算机可读存储介质

Also Published As

Publication number Publication date
US11928390B2 (en) 2024-03-12
WO2021211150A1 (en) 2021-10-21
US20230325146A1 (en) 2023-10-12
DE112020007096T5 (de) 2023-03-16

Similar Documents

Publication Publication Date Title
US10290300B2 (en) Text rule multi-accent speech recognition with single acoustic model and automatic accent detection
US11928390B2 (en) Systems and methods for providing a personalized virtual personal assistant
US11003414B2 (en) Acoustic control system, apparatus and method
JP6543460B2 (ja) 音声認識問い合わせ応答システム
US11938820B2 (en) Voice control of vehicle systems
US20180350366A1 (en) Situation-based conversation initiating apparatus, system, vehicle and method
EP3482344A1 (en) Portable personalization
JP2017090612A (ja) 音声認識制御システム
US20200320997A1 (en) Agent apparatus, agent apparatus control method, and storage medium
JP2020154994A (ja) エージェントシステム、エージェントサーバ、エージェントサーバの制御方法、およびプログラム
US12081990B2 (en) Systems and methods for bluetooth authentication using communication fingerprinting
CN116259320A (zh) 基于语音的车辆控制方法及装置、存储介质、电子装置
JP2020144264A (ja) エージェント装置、エージェント装置の制御方法、およびプログラム
US11797261B2 (en) On-vehicle device, method of controlling on-vehicle device, and storage medium
US11902767B2 (en) Combining prerecorded and live performances in a vehicle
US20250061881A1 (en) Interactive karaoke application for vehicles

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination