CN105340006A - 用于向语音操作功能分配关键字模型的方法和装置 - Google Patents
用于向语音操作功能分配关键字模型的方法和装置 Download PDFInfo
- Publication number
- CN105340006A CN105340006A CN201480034623.9A CN201480034623A CN105340006A CN 105340006 A CN105340006 A CN 105340006A CN 201480034623 A CN201480034623 A CN 201480034623A CN 105340006 A CN105340006 A CN 105340006A
- Authority
- CN
- China
- Prior art keywords
- key word
- keyword
- model
- keyword model
- specific objective
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
Landscapes
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Telephonic Communication Services (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Telephone Function (AREA)
- Information Transfer Between Computers (AREA)
Abstract
揭示一种在电子装置中执行的用于向功能分配目标关键字的方法。在此方法中,经由通信网络在所述电子装置处接收多个目标关键字的列表,并且从所述目标关键字的列表选择特定目标关键字。此外,所述方法可包含经由所述通信网络接收用于所述特定目标关键字的关键字模型。在此方法中,向所述电子装置的功能分配所述特定目标关键字,使得响应于基于所述关键字模型在于所述电子装置处收到的输入声音中检测出所述特定目标关键字而执行所述功能。
Description
相关申请案之交叉参考
本申请主张在2013年7月8日提交的共同拥有的美国临时专利申请号61/843,650和在2014年12月10日提交的美国非临时专利申请号14/101,869的优先权,上述专利申请中的每个的全部内容通过引用明确并入本文。
技术领域
本公开大体涉及电子装置中的语音识别,并且更具体地涉及为在电子装置中执行功能识别目标关键字。
背景技术
近年来,使用移动装置诸如智能手机和平板计算机已变得普遍。这些装置通常通过无线网络提供语音和/或数据通信功能。另外,此些移动装置通常包含提供经设计提高用户方便性的多种功能的其它特征。
越来越多地使用的移动装置中的特征中的一个特征是语音识别功能。当识别出来自用户的语音命令(例如,关键字)时,此功能允许移动装置执行各种功能。例如,移动装置可响应于来自用户的语音命令激活语音助手应用程序、播放音频文件或拍摄图片。
在常规的移动装置中,制造商或运营商往往为装置配备可用于检测相关联的关键字的声音模型。然而,此些装置一般包含数量有限的声音模型和关键字。因此,用户可能被限制仅使用装置中初始设置的关键字和声音模型。在一些装置中,用户可通过基于新关键字的许多说话方式训练声音模型来生成用于检测关键词的声音模型。响应于用户输入所生成的此些声音模型可能由于例如关键字的不充分采样,而在检测新关键字中不是很准确。
发明内容
本公开提供用于向功能分配目标关键字,以便当基于和所述目标关键字相关联的关键字模型检测到所述目标关键字时执行所述功能的方法和设备。
根据本公开的一个方面,揭示一种用于向功能分配目标关键字的方法。在该方法中,经由通信网络在电子装置收到多个目标关键字的列表,并且所述目标关键字从收到的多个目标关键字的列表选择。进一步地,所述方法可包含经由通信网络接收用于所选择目标关键字的关键字模型,并向电子装置的功能分配目标关键字,使得所述功能响应于基于所述关键字模型在所述电子装置收到的输入声音中检测出所述目标关键字而被执行。本公开还描述涉及该方法的设备、装置、系统、装置的组合以及计算机可读介质。
根据本公开的另一方面,揭示一种用于向应用程序分配目标关键字的方法。在该方法中,经由通信网络收到多个应用程序的列表,并且,应用程序从收到的应用程序的列表选择。进一步地,所述方法可包含经由通信单元接收用于所选择应用程序的应用程序文件,所述应用程序文件包含用于目标关键字的关键字模型,从所述应用程序文件提取关键字模型,并向所述应用程序分配目标关键字用于当基于所述关键字模型检测出输入声音中的所述目标关键字时激活所述应用程序。本公开还描述涉及该方法的设备、装置、系统、装置的组合以及计算机可读介质。
根据本公开的另一方面,揭示了一种用于提供数据文件的方法。在该方法中,多个目标关键字的列表经由通信网络传送至电子装置,并且经由通信网络收到用于所选择目标关键字的请求。进一步地,所述方法可包含经由通信网络向电子装置传送用于所选择目标关键字的关键字模型。关键字模型适于在输入声音中检测所选择的目标关键字。本公开也描述涉及该方法的设备、装置、系统、装置的组合以及计算机可读介质。
根据本公开的另一方面,电子装置包含下载管理单元和关键字设定单元。下载管理单元经配置经由通信网络接收用于从多个目标关键字的列表选择的特定目标关键字的关键字模型。关键字设定单元经配置向电子装置的功能分配所述特定目标关键字,使得所述功能响应于基于关键字模型在电子装置收到的输入声音中检测出特定目标关键字而被执行。
根据本公开的另一方面,电子装置包含下载管理单元、提取单元和关键字设定单元。下载管理单元经配置经由通信网络接收从多个应用程序的列表选择的用于应用程序的应用程序文件。应用程序文件包含用于目标关键字的关键字模型。提取单元经配置从应用程序文件提取关键字模型。关键字设定单元经配置向所选择应用程序指定目标关键字用于当基于关键字模型在输入声音中检测出所述目标关键字时执行所述应用程序。
根据本公开的另一方面,服务器包含数据库、通信单元和控制单元。数据库经配置存储至少一个目标关键字和至少一个关键字模型。关键字模型适于在输入声音中检测相关联的目标关键字。通信单元经配置向电子装置传送至少一个目标关键字的列表,并从所述电子装置接收从所述至少一个目标关键字的列表选择的用于目标关键字的请求。控制单元经配置响应于请求经由通信单元访问数据库,并向电子装置传送与至少一个关键字模型中的所选择目标关键字相关联的关键字模型。
附图说明
本公开的发明方面的实施例将在结合阅读附图时参考下面的具体实施方式来理解。
图1示出根据本公开的一个实施例,用于在服务器中提供用于检测目标关键字的多个关键字模型的系统,所述多个关键字模型可由电子装置经由通信网络下载。
图2示出根据本公开的一个实施例的电子装置的框图,所述电子装置经配置访问多个目标关键字并下载关键字模型用于从输入声音流检测所选择目标关键字。
图3示出根据本公开的一个实施例的在电子装置的显示屏上的目标关键字的列表,该目标关键字的列表可经选择并下载至电子装置用于检测所选择的目标关键字。
图4示出根据本公开的一个实施例的示范性关键字数据文件,该关键字数据文件包含标头、关键字模型、Ack声音数据、语调模型和误差校验数据。
图5示出根据本公开的一个实施例的电子装置中的控制单元的更详细框图,所述控制单元经配置向所选择功能分配目标关键字并当检测出目标关键字时执行所选择的功能。
图6示出根据本公开的一个实施例的在电子装置中执行的用于从服务器接收用于检测与关键字模型相关联的目标关键字的所述关键字模型的示范性方法的流程图。
图7示出根据本公开的一个实施例的在电子装置中执行的用于从服务器接收应用程序文件并从所述应用程序文件提取关键字模型的示范性方法的流程图。
图8示出根据本公开的一个实施例的在电子装置中的显示屏,所述显示屏示出用于向功能分配目标关键字的菜单。
图9示出根据本公开的一个实施例的将多个目标关键字映射至多个功能的示范性关键字-功能数据库。
图10A示出根据本公开的一个实施例的在电子装置中执行的用于向功能分配目标关键字并更新关键字-功能数据库的示范性方法的流程图。
图10B示出根据本公开的一个实施例的在电子装置中执行的用于向功能分配目标关键字并更新关键字检测模型的示范性方法的流程图。
图11示出根据本公开的一个实施例的包含多个关键字模型的示范性关键字检测模型。
图12示出根据本公开的一个实施例的电子装置,所述电子装置经配置响应于在输入声音中检测出相关联的目标关键字来执行多个功能。
图13示出根据本公开的一个实施例的电子装置,所述电子装置经配置基于与目标关键字相关联的语调模型从文本生成语音数据。
图14示出根据本公开的一个实施例的在电子装置中执行的用于执行与在输入声音中检测出的目标关键字相关联的功能的示范性方法的流程图。
图15示出根据本公开的一些实施例的无线通信系统中的移动装置的框图,其中,可在所述装置中实施用于为了操作功能设定目标关键字的方法和设备。
图16示出根据本公开的一些实施例的服务器系统的框图,其中,可在所述服务器系统中实施用于为了检测相关联的目标关键字提供关键字模型的方法和设备。
具体实施方式
图1示出根据本公开的一个实施例用于在服务器110中提供多个关键字模型的系统100。系统100包含服务器110、电子装置140和关键字模型提供商130,它们经由通信网络150通信。服务器110包含控制单元112、数据库114、支付管理单元116、数据库更新单元118和通信单元120。
用于检测目标关键字的关键字模型可以由电子装置140经由通信网络150下载。如本文所使用的,术语“目标关键字”是指可以用作关键字以激活或执行电子装置140中的功能的一或多个词语或声音的任何数字或模拟表示。“关键字模型”是指可以由电子装置140用于检测目标关键字的数据。在具体实施例中,关键字模型不是用户指定的并且不包含全语言模型。例如,关键字模型可包含对少于目标关键字的语言的所有音位建模的数据。在该实例中,关键字模型包含检测目标关键字的语言的音位的子集的数据。因此,关键字模型可明显小于全语言模型。为了说明,关键字模型可使用存储器的1和500千比特位(KB)之间,而存储全语言模型可使用1或多个兆比特位(MB)。
在服务器110中,控制单元112控制服务器110的整体操作。服务器110中的数据库114存储由关键字模型提供商130上传的多个关键字数据文件。关键字数据文件中的每个可包含用于检测目标关键字的关键字模型、用于输出表示检测到目标关键字的确认声音或响应声音的Ack声音数据(或响应声音数据)、适于更改从文本生成的语音的语调的语调模型,或它们的组合。由关键字模型提供商130上传的关键字模型可基于大量的关键字录音的训练来生成,以便关键字模型可以经优化用于检测相关联的目标关键字。因此,电子装置140的用户可通过下载关键字模型使用基于大量关键字录音的关键字模型。因此,通过用大量的关键字录音训练关键字模型而无需用户记录关键字录音以训练关键字模型,用户获得提高的准确度的好处。在具体实施例中,电子装置140可包含关键字检测引擎,其经配置连续监测用户输入的输入声音。在该实施例中,用户希望电子装置140具有高的检测率(例如,在90%以上)和低误检率(例如,低于0.01%)。具有低误检率能改善用户体验并可降低功耗。例如,错误检测可导致电子装置140激活用户不期望活跃的功能,这可以是烦心事并可以增加电子装置140的功耗。实现此些高检测率和低误检率可能需要关键字模型的大量训练。例如,在一些情况下,实现小于0.01%误检率的90%检测率的关键字检测模型可使用数千个关键字录音和数万个非关键字录音。
数据库114也可包含涉及关键字模型的信息,诸如额定值、下载次数、关键字模型的提供商等等。在一个实施例中,数据库114也可存储用于在电子装置140中安装应用程序的应用程序文件。在该实施例中,应用程序文件可包含可用于检测目标关键字和在检测到所述目标关键字时激活应用程序的关键字模型。
在一些实施例中,服务器110可经配置经由通信网络150托管用于向各种电子装置提供目标关键字的在线商店。在线商店可以是用于提供关键字模型的专用商店或可实施为一般应用程序商店的一部分。在线商店也可提供用于定位用户可能感兴趣的目标关键字的搜索功能。
服务器110中的支付管理单元116允许用户从服务器110选择和购买关键字模型。在一个实施例中,支付管理单元116可与第三方计费服务诸如电话计费服务、互联网计费服务等集成。在另一实施例中,支付管理单元116可实施为经由通信网络150与服务器110通信的单独支付服务器。
服务器110经配置经由通信单元120与电子装置140和关键字模型提供商130通信,通信单元120充当通信网络150的网络接口。在该配置中,服务器110可从关键字模型提供商130接收包含用于检测新目标关键字的新关键字模型的新关键字数据文件。新关键字数据文件也可包含新Ack声音数据和与新目标关键字相关联的新语调模型。在接收新关键字数据文件时,数据库更新单元118可通过添加新关键字数据文件来更新数据库114。在另一实施例中,数据库更新单元118可从关键字模型提供商130接收新关键字模型以及相关联的Ack声音数据,并生成新关键字数据文件。
电子装置140的用户可经由通信网络150访问服务器110中的可用目标关键字的列表。当用户从可用目标关键字的列表选择目标关键字时,电子装置140经由通信网络150向服务器110传送与所选择目标关键字相关联的关键字模型的请求。响应于所述请求,服务器110向电子装置140传送包含与所选择目标关键字相关联的关键字模型的关键字数据文件。在接收关键字模型后,用户可向电子装置140的功能分配目标关键字,使得当基于关键字模型在输入声音中检测出所述目标关键字时,所述功能被执行。
图2示出根据本公开的一个实施例的电子装置140的框图,所述电子装置经配置访问多个目标关键字并下载用于从输入声音流检测所选择目标关键字的关键字模型。如本文所使用的,术语“声音流”是指一或多个声音信号或声音数据的顺序。电子装置140包含通信单元210、TTS(文本-语音)转换单元220、扬声器230、存储单元240、控制单元250、输入/输出(I/O)单元260(例如,用户界面单元)、声音传感器270、语音检测器280和关键字检测单元290。电子装置140可以是配有声音采集和处理能力的任何合适装置,诸如蜂窝电话、智能电话、个人计算机、便携式计算机、平板计算机、智能电视、游戏装置、多媒体播放器等。
电子装置140可经由通信单元210与服务器110通信,通信单元210充当通信网络150的网络接口。在这个过程中,电子装置140可访问服务器110中的多个目标关键字。当用户经由I/O单元260在电子装置140上从多个目标关键字的列表选择目标关键字时,电子装置140向服务器110传送所选择目标关键字的请求。作为响应,服务器110向电子装置140传送包含与所选择目标关键字相关联的关键字模型的关键字数据文件。关键字数据文件也可包含与所选择目标关键字相关联的Ack声音数据和语调模型。
电子装置140中的控制单元250经配置接收关键字数据文件并从关键字数据文件提取关键字模型、Ack声音数据和语调模型。所提取的关键字模型、Ack声音数据和语调模型随后存储在存储单元240中。存储单元240可使用任何合适的存储或存储器装置实施,诸如RAM(随机存取存储器)、ROM(只读存储器)、EEPROM(电可擦可编程只读存储器)、快擦写存储器或SSD(固态驱动器)。这样,用户可下载用于检测相关联的目标关键字的多个关键字模型。存储单元240也可存储初始设置在电子装置140中的一或多个其它关键字和相关联的关键字模型。
一旦包含关键字模型的关键字数据文件已下载和存储,用户可经由I/O单元260向电子装置140中的所选择功能分配与所述关键字模型相关联的目标关键字。作为响应,控制单元250将用于目标关键字的关键字模型与所选择功能相关联,使得所选择功能在基于所述关键字模型在输入声音流中检测出所述目标关键字时被执行。应当理解,电子装置140可包含多个功能(例如,应用程序、特征等),并且所述功能中的任一个可经选择并与用于执行所选择功能的目标关键字相关联。例如,此功能可以是激活语音助手应用程序、拍摄照片、解锁电子装置140、激活语音记录器应用程序、激活照相机应用程序、激活音乐播放器应用程序等中的一种。
电子装置140可基于用于目标关键字的关键字模型检测输入声音流中的目标关键字。电子装置140中的声音传感器270经配置接收可包含目标关键字的输入声音流并向语音检测器280提供所述输入声音流。声音传感器270可包含一或多个麦克风或可以用于接收、采集、感测和/或检测输入至电子装置140的声音的任何其它类型的声音传感器。另外,声音传感器270可采用用于执行此些功能的任何合适软件和/或硬件。
在一个实施例中,声音传感器270可经配置根据占空比定期接收输入声音流。在这种情况下,声音传感器270可确定输入声音流的所收到部分是否超出阈值声音强度。当声音流的所收到部分超出阈值强度时,声音传感器270激活语音检测器280并向语音检测器280提供所收到部分。另选地,声音传感器270可定期接收输入声音流的一部分(例如,根据占空比)并激活语音检测器280以向语音检测器280提供所收到部分(例如,不管声音强度)。作为进一步的替代形式,声音传感器270可连续接收输入声音流(例如,根据100%占空比),并当输入声音的所收到部分超出阈值声音强度时激活语音检测器280。
语音检测器280经配置从声音传感器270接收输入声音流的部分。在一个实施例中,语音检测器280从所收到的部分提取多个声音特征,并通过使用任何合适的声音分类方法诸如基于高斯混合模型(GMM)的分类器、神经网络、隐马尔可夫模型(HMM)、图形模型和支持向量机(SVM)技术,确定所提取的声音特征是否表示感兴趣的声音诸如语音。如果所收到的部分经确定是感兴趣的声音,则语音检测器280激活关键字检测单元290,并且输入声音流的所收到部分和剩余部分被提供给关键字检测单元290。在一些其它实施例中,语音检测器280可在电子装置140中省略。在这种情况下,当所收到部分超出阈值强度时,声音传感器270激活关键字检测单元290并向关键字检测单元290直接提供输入声音流的所收到部分和剩余部分。在替代形式中,当语音检测器280被省略时,声音传感器270可向关键字检测单元290直接提供几乎所有的输入声音流(例如,不管声音强度)。
当激活时,关键字检测单元290经配置接收输入声音流并基于关键字模型检测目标关键字。当在输入声音流中检测到目标关键字时,关键字检测单元290生成表示已检测到目标关键字的检测信号并将所述检测信号传送至控制单元250。响应于所述检测信号,控制单元250执行与检测到的目标关键字相关联的功能。关键字检测单元290可经配置基于多个关键字模型检测多个目标关键字。在这种情况下,多个关键字模型可在关键字检测模型中组合(例如,组合的关键字模型),这将在下面详细描述。
控制单元250也可从存储单元240检索与目标关键字相关联的Ack声音数据和语调模型。在这种情况下,控制单元250可从所检索的Ack声音数据生成表示检测到目标关键字的确认声音供经由扬声器230输出。TTS转换单元220经配置从控制单元250接收语调模型并基于所收到的语调模型更改TTS转换单元220的语调。接着TTS转换单元220将可输出给用户的文本转换为具有更改的语调的语音并经由扬声器230输出所述语音。
图3示出根据本公开的一个实施例的电子装置140的显示屏310上的目标关键字的列表,所述目标关键字的列表可经选择并下载至电子装置140用于检测所选择的目标关键字。关键字商店提供来自服务器110的目标关键字的列表。在关键字商店的上部中,可显示多个菜单标签诸如“排名”、“新的”和“搜索”。在图3的实施例中,当菜单标签“排名”通过用户输入(例如,显示屏310上的触摸输入)选择时,如在“排名”菜单标签的底部的粗线所指示的,电子装置140显示基于它们的等级被分类的目标关键字的列表。在这种情况下,具有较高等级的目标关键字(例如,“嗨,助手”)在具有较低等级(例如,“说茄子”)的目标关键字之前显示。
在一些实施例中,目标关键字的列表可用下载它们的价格来显示。在图3的实施例中,目标关键字“嗨,助手”和“芝麻开门”免费下载并因此在它们的右边部分中表示为“免费”。另一方面,目标关键字“说茄子”和“开始录音”的下载价格分别是$0.99和$1.99,并且它们的价格在目标关键字的右边部分中显示。当用户从目标关键字的列表选择目标关键字时,电子装置140下载包含用于检测所选择目标关键字的关键字模型的关键字数据文件(如果需要,则在支付处理后)。关键字数据文件也可包含与所选择目标关键字相关联的Ack声音数据和语调模型。
在另一实施例中,菜单标签“新的”可经选择以目标关键字上传至服务器110的顺序来显示它们的列表。另选地,当选择菜单标签“搜索”时,通过显示搜索窗口或搜索框来提供搜索功能,用于定位用户可能感兴趣的目标关键字。在这种情况下,用户可将搜索术语输入至搜索窗口或搜索框中,并且电子装置140响应于所述搜索术语在显示屏310上显示一或多个目标关键字。
图4示出根据本公开的一个实施例的示范性关键字数据文件400,其包含标头410、关键字模型420、Ack声音数据430、语调模型440和误差校验数据450。标头410可包含涉及关键字模型420的信息,诸如提供商信息、数据大小、数据类型、创建日期等。标头410可进一步包含用于兼容性检查的兼容性信息或版本信息。在这种情况下,兼容性或版本信息可表示关键字模型420的类型(例如,基于HMM方法生成的模型)、用于关键字模型420的可用识别算法等。
如图4所示,关键字模型420包含目标关键字422、关键字模型参数424和阈值426。目标关键字422可以是文本字符串或一或多个字组。关键字模型参数424表示目标关键字422的声音特性并且可基于大量关键字录音的训练来生成,以便关键字模型420可以经优化用于检测目标关键字422。例如,来自许多人的关键字录音可用于训练。在具体实施例中,关键字模型420是非指定用户的并且包含对少于目标关键字422的语言的所有音位建模的信息(例如,关键字模型参数424)。
在一些实施例中,关键字模型参数424包含与目标关键字的多个部分相关联的多个状态的状态信息。在一个实施例中,目标关键字422可划分为声音的多个基本单位,诸如音素、音位或它们的子单位,并且表示目标关键字422的多个部分可基于声音的基本单位生成。随后在马尔可夫连锁模型下(诸如隐马尔可夫模型(HMM)或半马尔可夫模型(SMM)),目标关键字的每个部分与状态、递归神经网络的节点或它们的组合相关联。状态信息可包含从状态中的每个至下一状态(包含所述状态自身)的变换信息。关键字模型参数424也包含用于确定输入声音的观察得分的概率模型。例如,概率模型可以是任何合适的模型,诸如GMM、神经网络和SVM。阈值426是用于确保输入声音包含目标关键字的最小置信度值。阈值426可确定为合适的值,使得不会从不包含目标关键字的输入声音错误检测出所述目标关键字。
Ack声音数据430可用于输出表示检测到目标关键字的确认声音。如果Ack声音数据430是音频数据,则电子装置140可转换所述音频数据以生成确认声音并输出所述确认声音。另一方面,如果Ack声音数据430是文本字符串或一或多个字组而不是音频数据,则电子装置140可基于与目标关键字422相关联的语调模型440,通过将文本字符串或字组转换为语音来生成确认声音并输出所述确认声音。
语调模型440适于更改从文本生成的语音的语调。误差校验数据450可用于检查关键字数据文件400的数据完整性和/或检测偶然的变化。例如,误差校验数据450可以是循环冗余校验(CRC)码。
图5示出根据本公开的一个实施例的电子装置140中的控制单元250的更详细框图,所述控制单元经配置向所选择功能分配目标关键字并当检测出所述目标关键字时执行所选择的功能。控制单元250包含下载管理单元510、验证单元520、提取单元530、关键字设定单元540和功能管理单元550。下载管理单元510可经配置下载任何类型的文件,诸如文本文件、音频文件、视频文件、关键字数据文件、应用程序文件等。
当下载管理单元510下载包含用于检测目标关键字的关键字模型的关键字数据文件时,验证单元520接收所述关键字数据文件,并基于所下载的关键字数据文件的标头中的兼容性信息或版本信息来验证所述关键字模型是否可以用在关键字检测单元290中。验证单元520也可通过解码所下载的关键字数据文件的误差校验数据来检查所下载的关键字数据文件的数据完整性。如果验证单元520证实所下载的关键字模型与关键字检测单元290兼容,则提取单元530从所下载的关键字数据文件提取关键字模型并在存储单元240中存储所提取的关键字模型。在具体实施例中,如果验证单元520确定关键字数据文件不与关键字检测单元290兼容,则控制单元250可尝试将所述关键字模型转换为与关键字检测单元290兼容的版本。在另一具体实施例中,如果验证单元520确定关键字数据文件不与关键字检测单元290兼容,则下载管理单元510可尝试下载关键字模型的另一版本。例如,下载管理单元510可向图1的服务器110发送关键字模型的第二版本的请求,其中所述关键字模型的第二版本与关键字检测单元290兼容。在另一实例中,下载管理单元510可促使图2的通信单元210向服务器110发送涉及电子装置140的信息。涉及电子装置140的信息可包含例如装置类型标识符、模型名称标识符、模型类型标识符、关键字检测单元版本标识符、其它信息或它们的组合。服务器110可使用涉及电子装置140的信息以选择与关键字检测单元290兼容的关键字模型并传送所述关键字模型。提取单元530从第二次下载的关键字数据文件提取关键字模型的第二版本并在存储单元240中存储所提取的关键字模型的第二版本。当关键字数据文件也包含Ack声音数据和语调模型时,提取单元530从所下载的关键字数据文件提取Ack声音数据和语调模型并将它们存储在存储单元240中。
电子装置140可在存储单元240中存储将多个目标关键字映射至多个功能的关键字-功能数据库。关键字-功能数据库可由制造商或运营商设置在电子装置140中或响应于用户输入而创建。关键字设定单元540经配置创建新的关键字-功能数据库或更新现有的关键字-功能数据库。
关键字设定单元540允许用户在电子装置140中选择目标关键字和功能用于在输入声音中检测出所选择目标关键字时执行所选择功能。在选择目标关键字和功能时,关键字设定单元540向所选择功能分配所选择的目标关键字。如果未发现现有的关键字-功能数据库,则关键字设定单元540生成将所选择目标关键字映射至所选择功能的新关键字-功能数据库。另一方面,如果关键字-功能数据库已经存在,则现有数据库用所选择目标关键字和功能的映射更新。关键字设定单元540可响应于目标关键字和功能的添加选择或删除在数据库中的现有条目来更新关键字-功能数据库。
电子装置140也可在存储单元240或关键字检测单元290中存储关键字检测模型,其包含用于检测与多个关键字模型相关联的目标关键字的多个关键字模型。在向所述功能分配所选择目标关键字时,关键字设定单元540可从存储单元240检索用于所选择目标关键字的关键字模型。如果未发现现有的关键字检测模型,则关键字设定单元540可向存储单元240或关键字检测单元290发送检索到的关键字模型作为关键字检测模型。另一方面,如果关键字检测模型已经存在,则现有模型通过添加检索到的关键字模型来更新。例如,当存在用于第一目标关键字的关键字检测模型时,用户可下载用于第二目标关键字的关键字数据文件。在该实例中,在关键字数据文件由验证单元520证实后,提取单元530从关键字数据文件提取用于第二目标关键字的关键字模型。关键字设定单元540合并或组合(例如,连接)所提取的用于第二目标关键字的关键字模型和现有关键字检测模型以形成更新的关键字检测模型(例如,用于第一目标关键字和第二目标关键字的组合关键字检测模型)。关键字设定单元540向存储单元240或关键字检测单元290提供用于检测输入声音流中的目标关键字的更新关键字检测模型。关键字设定单元540也可响应于目标关键字和功能的添加选择或删除在关键字-功能数据库中的现有条目来更新关键字检测模型。
当关键字检测单元290基于关键字检测模型检测出目标关键字时,关键字检测单元290生成表示已检测出目标关键字的检测信号。响应于所述检测信号,功能管理单元550访问关键字-功能数据库以识别与检测到的目标关键字相关联的功能。接着功能管理单元550执行所识别的功能。
另外,功能管理单元550可从存储单元240检索与检测出的目标关键字相关联的Ack声音数据和语调模型。在这种情况下,功能管理单元550可基于检索到的Ack声音数据生成确认声音并输出所述确认声音以指示检测到目标关键字。功能管理单元550也可向TTS转换单元220传送用于更改由TTS转换单元220生成的语音的语调的语调模型。
图6示出根据本公开的一个实施例的在电子装置140中执行的用于从服务器110接收用于检测与关键字模型相关联的目标关键字的所述关键字模型的示范性方法600的流程图。在初始时,在610,电子装置140访问服务器110中的多个目标关键字并且用户在电子装置140上从所述多个目标关键字选择目标关键字。响应于用户的选择,电子装置140在620从服务器110接收用于所选择目标关键字的关键字数据文件。关键字数据文件包含用于检测所选择目标关键字的关键字模型。关键字数据文件也可包含Ack声音数据和语调模型。
在630,电子装置140验证所收到的用于关键字检测的关键字数据文件。在一个实施例中,电子装置140基于关键字数据文件的标头中的兼容性信息或版本信息,验证所收到的关键字数据文件中的关键字模型是否可以用在关键字检测单元290中。如果电子装置140在640证实关键字模型兼容于关键字检测单元290,则电子装置140从所收到的关键字数据文件提取关键字模型。如果电子装置140确定关键字模型不兼容于关键字检测单元290,则控制单元250可尝试将关键字模型转换为兼容版本,或电子装置140可自动下载与关键字检测单元290兼容的关键字模型的不同版本。当关键字数据文件也包含Ack声音数据和语调模型时,电子装置140也从所收到的关键字数据文件提取Ack声音数据和语调模型。
接着在650,电子装置140在存储单元240中存储所提取的关键字模型。如果Ack声音数据和语调模型也从所收到的关键字数据文件提取,则电子装置140在存储单元240中存储所提取的Ack声音数据和语调模型。如果涉及另一目标关键字的关键字检测模型已经由关键字检测单元290使用,则电子装置140可合并或组合(例如,连接)所提取的关键字模型和由关键字检测单元290使用的所述关键字检测模型,以形成更新的关键字检测模型(例如,用于所选择目标关键字和其它目标关键字的组合关键字检测模型)。关键字设定单元540向存储单元240或关键字检测单元290提供用于检测输入声音流中的一或多个目标关键字的更新关键字检测模型。在660,方法600确定另一目标关键字是否要被选择。例如,电子装置140可等待接收来自用户的输入,其表示用户是否选择另一目标关键字。如果确定要选择另一目标关键字,则方法600返回至610以选择下一个目标关键字。否则,方法600终止。
图7示出根据本公开的一个实施例的在电子装置140中执行的用于从服务器110接收应用程序文件并从该应用程序文件提取关键字模型的示范性方法700的流程图。在初始时,电子装置140在710访问服务器110中的多个应用程序,以及用户在电子装置140上从多个应用程序选择应用程序供下载和安装。响应于用户选择,电子装置140在720接收用于安装所选择应用程序的应用程序文件。应用程序文件可包含可用于检测目标关键字并在检测到所述目标关键字时激活应用程序的关键字模型。在这种情况下,应用程序文件也可包含与目标关键字相关联的Ack声音数据和语调模型。
在730,方法700确定关键字模型是否存在于所收到的应用程序文件中。如果在780确定关键字模型不存在于所收到的应用程序文件中,则应用程序安装在电子装置140中。在安装应用程序后,方法700进行到790。
否则,如果确定关键字模型存在于所收到的应用程序文件中,则方法700进行到740以验证用于检测关键字的关键字模型。在一个实施例中,电子装置140基于应用程序文件的标头中的兼容性或版本信息,验证所述应用程序文件中的关键字模型是否可以在关键字检测单元290中用于检测目标关键字。如果电子装置140在750证实关键字模型兼容于关键字检测单元290,则电子装置140从所收到的应用程序文件提取关键字模型并在存储单元240中存储所提取的关键字模型。如果电子装置140确定关键字模型不兼容于关键字检测单元290,则电子装置140可自动下载与关键字检测单元290兼容的关键字模型的不同版本。当应用程序文件也包含Ack声音数据和语调模型时,从所收到的应用程序文件提取Ack声音数据和语调模型并将它们存储在存储单元240中。
在760,在提取关键字模型后,使用所收到的应用程序文件将所述应用程序安装在电子装置140中。接着,在770,在基于所述关键字模型检测出目标关键字时,应用程序文件中与所述关键字模型相关联的所述目标关键字被分配给所述应用程序用于激活所安装的应用程序。在790,方法700确定另一应用程序是否要被选择。如果确定要选择另一应用程序,则方法700返回至710以选择另一应用程序。否则,方法700终止。
图8示出根据本公开的一个实施例的电子装置140中的显示屏310,其示出用于向功能分配目标关键字的菜单810和820。在初始时,用于从多个功能的列表选择功能的菜单810可在显示屏310上显示。如图所示,多个功能的列表包含激活语音助手应用程序、拍摄照片、解锁电子装置140、激活语音录音应用程序等。
电子装置140上的用户可从菜单810选择功能。例如,用户可选择功能“激活语音助手”。作为响应,电子装置140显示菜单820以允许用户选择用于执行所选择功能,即激活语音助手应用程序的目标关键字。
用于选择目标关键字的菜单820显示与存储在电子装置140中的关键字模型相关联的目标关键字的列表。用户可从菜单820选择目标关键字以向功能“激活语音助手”分配所选择的目标关键字。例如,目标关键字“嗨,助手”可被分配给所选择的功能,即,激活语音助手应用程序。用于选择目标关键字的菜单820也可提供用于下载新目标关键字的菜单项。例如,用户可通过选择菜单项“下载新关键字”启动在图3中示出的关键字商店并从服务器110下载新目标关键字和相关联的关键字模型。
当目标关键字“嗨,助手”被分配给功能“激活语音助手”时,电子装置140通过将所选择关键字“嗨,助手”映射至所选择功能“激活语音助手”来更新关键字-功能数据库。电子装置140也检索用于所选择关键字“嗨,助手”的关键字模型并通过添加所检索的关键字模型来更新关键字检测模型。基于所更新的关键字检测模型,电子装置140可在输入声音中检测目标关键字“嗨,助手”并通过访问所更新的关键字-功能数据库来激活语音助手应用程序。
图9是根据本公开的一个实施例的将多个目标关键字映射至多个功能的示范性关键字-功能数据库900。在所示实施例中,目标关键字“说茄子”、“芝麻开门”、“嗨,助手”和“开始录音”分别映射至功能“拍摄照片”、“解锁装置”、“激活语音助手”和“激活录音机”。关键字-功能数据库900也可将目标关键字(例如,“说茄子”)映射至相关联的Ack声音数据(例如,哔哔声)和语调模型(例如,机械声)。关键字-功能数据库900可实施为查询表或将多个目标关键字与多个功能相关联的任何其它数据结构。
如上面参考图5所述,当电子装置140基于目标关键字(例如,“说茄子”)的关键字模型检测出所述目标关键字时,电子装置140访问关键字-功能数据库900以识别出与检测出的目标关键字相关联的功能(例如,拍摄照片)。接着,电子装置140执行识别出的功能(例如,拍摄照片)。另外,电子装置140可从存储单元240检索Ack声音数据(例如,哔哔声)和语调模型(例如,机械声),它们在关键字-功能数据库900中与检测到的目标关键字(例如,“说茄子”)相关联。
在检索Ack声音数据时,电子装置140可转换检索到的Ack声音数据(例如,哔哔声)以生成表示已检测出目标关键字(例如,“说茄子”)的确认声音并输出所述确认声音。如果Ack声音数据是文本字符串或者一或多个字组而不是音频数据,则电子装置140可通过基于与目标关键字相关联的语调模型将文本字符串或字组转换为语音来生成确认声音并输出所述确认声音。例如,当电子装置140检测出目标关键字“嗨,助手”时,它执行功能“激活语音助手”并以“女性语音2”的语调生成确认声音“我可以帮助你吗?”。
电子装置140也可向TTS转换单元220传送与目标关键字相关联的语调模型(例如,机械声),其用于更改由TTS转换单元220生成的语音的语调。一旦已设定语调模型,TTS转换单元220基于与检测到的目标关键字相关联的语调模型执行文本-语音转换。例如,在检测出目标关键字“说茄子”后,电子装置140可确定照明不足以拍摄照片。在这种情况下,电子装置140可基于语调模型“机械声”执行文本-语音转换以生成音频消息诸如“光线不足”。
图10示出根据本公开的一个实施例的在电子装置140中执行的用于向功能分配目标关键字并更新关键字-功能数据库的示范性方法1010的流程图。在初始,电子装置140的用户在1012从多个功能的列表选择用于分配目标关键字的功能。随后,用户在1014选择用于所选择功能的目标关键字以向所选择功能分配所选择的目标关键字。选择所述功能和目标关键字可以以上面参考图8所述的方式执行。
作为响应,电子装置140在1016向所选择功能分配所选择的目标关键字。当目标关键字被分配给所述功能时,方法1010确定是否存在关键字-功能数据库。如果确定已经存在关键字-功能数据库,则方法1010进行到1020以所选择目标关键字和所选择功能的映射更新现有数据库。另一方面,如果未发现现有的关键字-功能数据库,则方法1010进行到1022以创建将所选择目标关键字映射至所选择功能的新关键字-功能数据库。在更新或创建关键字-功能数据库后,方法1010进行到图10B中的1032以检索用于所选择目标关键字的关键字模型,这将在下面详细描述。
图10B示出根据本公开的一个实施例的在电子装置140中执行的用于向所述功能分配目标关键字并更新关键字检测模型的示范性方法1030的流程图。在初始,在图10A的方法1010中在更新或创建关键字-功能数据库后,电子装置140在1032从存储单元240检索用于所选择目标关键字的关键字模型。所检索的关键字模型可包含目标关键字、关键字模型参数和阈值。
当检索出关键字模型时,方法1030在1034确定是否已存在关键字检测模型(例如,关键字检测单元290是否已使用关键字检测模型)。如果未发现现有的关键字检测模型,则方法1030进行到1040向关键字检测单元290发送作为关键字检测模型的检索到的关键字模型。另一方面,如果确定已存在关键字检测模型,则方法1030进行到1036以更新现有的关键字检测模型。例如,电子装置140可通过向现有关键字检测模型添加检索到的关键字模型来更新所述关键字检测模型(例如,通过合并检索到的关键字模型和所述关键字检测模型以形成组合的关键字检测模型)。随后,电子装置140在1038向关键字检测单元290发送用于检测所选择目标关键字的更新的关键字检测模型。
图11示出根据本公开的一个实施例的包含多个关键字模型的示范性关键字检测模型1100。关键字检测模型1100包含用于关键字模型的目标关键字1110、关键字模型参数1120和阈值1130。在所示实施例中,目标关键字1110、关键字模型参数1120和阈值1130根据它们的分类单独安排在关键字检测模型1100中。当新目标关键字被分配给另一功能时,与新目标关键字相关联的关键字模型可与关键字检测模型1100中的关键字模型组合。
如上面参考图5所述,关键字检测单元290可经配置基于关键字检测模型1100检测输入声音中的目标关键字1110。当关键字检测单元290检测出目标关键字1110中的一个时,它生成表示已检测出目标关键字的检测信号并向控制单元250传送所述检测信号。响应于所述检测信号,控制单元250通过访问关键字-功能数据库执行与检测到的目标关键字相关联的功能。虽然图11中的关键字检测模型1100包含目标关键字1110、关键字模型参数1120和阈值1130,但是它可包含作为任选选项的目标关键字1110。
图12示出根据本公开的一个实施例的电子装置140,所述电子装置经配置响应于在输入声音中检测出相关联的目标关键字来执行多个功能。在所示实施例中,用户1210在不同时间向电子装置140说三种不同目标关键字“说茄子”、“开始录音”和“嗨,助手”。响应于输入声音,电子装置140可基于关键字检测模型1100检测出目标关键字。在检测出目标关键字“说茄子”的情况下,电子装置140访问关键字-功能数据库900并执行拍摄照片的相关联功能。另外,电子装置140可基于与目标关键字“说茄子”相关联的Ack声音数据生成哔哔声并输出所述哔哔声。
类似地,当检测出目标关键字“开始录音”时,电子装置140基于关键字-功能数据库900执行激活录音机应用程序的相关联功能。电子装置140也可基于与目标关键字“开始录音”相关联的Ack声音数据生成铃声并输出所述铃声。在检测出目标关键字“嗨,助手”的情况下,电子装置140访问关键字-功能数据库900并执行激活语音助手应用程序的相关联功能。另外,电子装置140通过使用与目标关键字“嗨,助手”相关联的Ack声音数据和语调模型,以“女性语音2”的语调生成确认声音“我可以帮助你吗?”并输出所述确认声音。
图13示出根据本公开的一个实施例的电子装置140,所述电子装置经配置基于与目标关键字相关联的语调从文本生成语音数据。如上面参考图12所述,当检测出目标关键字“嗨,助手”时,电子装置激活与所述目标关键字相关联的语音助手应用程序并以“女性语音2”的语调输出确认声音“我可以帮助你吗?”。作为响应,用户1310可通过说出语音命令通过语音助手应用程序执行各种操作。
在所示实施例中,用户1310可通过说出声音命令“今天的天气怎么样?”查询天气预报。随后,电子装置140可基于电子装置140的GPS(全球定位系统)信息通过通信网络150访问天气信息,并在显示屏310上显示收到的天气信息。另外,电子装置140也可通过将文本消息“圣迭戈现在天气晴朗并且温度是74度”转换为具有与目标关键字“嗨,助手”相关联的语调“女性语音2”的语音。
图14示出根据本公开的一个实施例的在电子装置140中执行的用于执行与在输入声音中检测出的目标关键字相关联的功能的示范性方法1400的流程图。在初始,电子装置140在1410通过声音传感器270接收输入声音。随后,电子装置140在1420基于关键字检测模型检测来自输入声音的目标关键字。
在1430,在检测出目标关键字时,电子装置140访问关键字-功能数据库以识别出与检测到的目标关键字相关联的功能。通过访问关键字-功能数据库,电子装置140也可识别出与检测出的目标关键字相关联的Ack声音数据和语调模型。随后,方法1400进行至1440以执行与检测出的目标关键字相关联的功能。另外,在1450,确认声音基于与检测到的目标关键字相关联的Ack声音数据来输出。在1460,在执行所述功能后,电子装置140基于识别出的语调模型更改TTS转换单元220的语调。
图15示出根据本公开的一些实施例的无线通信系统中的移动装置1500的框图,其中,可在所述装置中实施用于为操作功能设定目标关键字的方法和设备。移动装置1500可以是蜂窝电话、终端、手机、个人数字助理(PDA)、无线调制解调器、无绳电话、平板计算机等等。无线通信系统可以是码分多址(CDMA)系统、全球移动通信(GSM)系统、宽带CDMA(W-CDMA)系统、长期演进(LTE)系统、高级LTE系统等等。
移动装置1500能够经由接收路径和发送路径提供双向通信。在接收路径上,通过基站传送的信号由天线1512接收并提供给接收器(RCVR)1514。接收器1514调节并数字化收到的信号并向数字部1520提供已调节和数字化的信号供进一步处理。在传送路径上,发送器(TMTR)接收从数字部1520传送的数据、处理并调节所述数据并生成已调制信号,所述已调制信号经由天线1512传送至基站。接收器1514和发送器1516是支持CDMA、GSM、W-CDMA、LTE、高级LTE等等的收发器的一部分。
数字部1520包含各种处理、接口和存储器单元,诸如例如调制解调器处理器1522、精简指令集计算机/数字信号处理器(RISC/DSP)1524、控制器/处理器1526、内部存储器1528、通用音频编码器1532、通用音频解码器1534、图形/显示处理器1536和/或外部总线接口(EBI)1538。调制解调器处理器1522执行数据传送和接收的处理,例如编码、调制、解调和解码。RISC/DSP1524执行移动装置1500的通用和专用处理。控制器/处理器1526控制各种处理的操作和数字部1520内的接口单元。内部存储器1528存储用于数字部1520内的各个单元的数据和/或指令。
通用音频编码器1532执行来自音频源1542、麦克风1543等等的输入信号的编码。通用音频解码器1534执行已编码音频数据的解码并向扬声器/耳机1544提供输出信号。应指出,通用音频编码器1532和通用音频解码器1534不一定是具有音频源的接口、麦克风1543和扬声器/耳机1544所需的,并因此未在移动装置1500中示出。图形/显示处理器1536执行呈现给显示单元1546的图形、视频、图像和文本的处理。EBI1538促进在数字部1520与主存储器1548之间的数据的传输。
数字部1520用一或多个处理器、DSP、微处理器、RISC等实施。数字部1520也在一或多个专用集成电路(ASIC)和/或一些其它类型的集成电路(IC)上制成。
一般来说,本文所述的任何装置表示各种类型的装置,诸如无线电话、蜂窝电话、便携式计算机、无线多媒体装置、无线通信个人计算机(PC)卡、PDA、外部或内部调制解调器、通过无线信道通信的装置等等。装置可具有各种名称,诸如接入终端(AT)、接入单元、用户单元、移动站、客户端装置、移动单元、移动电话、汽车、远程站、远程终端、远程单元、用户装置、用户设备、手持装置等。本文所述的任何装置可具有用于存储指令和数据的存储器以及硬件、软件、固件或它们的组合。
图16示出根据本公开的一些实施例的服务器系统1600的框图,在所述服务器系统中可实施用于为了提供检测相关联目标关键字提供关键字模型的方法和设备。服务器系统1600可包含一或多个处理单元(CPU)1602、一或多个网络或其它通信网络接口1610、存储器1612以及用于互连这些部件的一或多个通信总线1614。服务器系统1600也可包含具有显示装置和键盘的用户界面(未示出)。
存储器1612可以是任何合适的存储器,诸如高速随机存取存储器(例如,DRAM、SRAM、DDRRAM或其它随机存取固态存储器件)。存储器1612可包含或可另选是非易失性存储器(例如,一或多个磁盘存储装置、光盘存储装置、闪存存储器装置或其它非易失性固态存储装置)。在一些实施例中,存储器1612可包含远离一或多个CPU1602定位和/或远距离地位于多个位点中的一或多个存储装置。
由存储器1612表示的上述存储器装置中的任一种可存储任何数量的对应于一组指令的模块或程序,所述一组指令用于实行和/或执行先前所述过程、操作和方法中的任一种。例如,存储器1612可包含经配置存储指令的操作系统1616,所述指令包含用于处理各种基本系统服务和用于执行硬件相关任务的程序。存储器1612的网络通信模块1618可经由一或多个通信网络接口1610(有线或无线)和一或多个通信网络诸如互联网、其它广域网、局域网、城域网等等将服务器系统1600连接至其它计算机。
存储器1612也可包含数据库1620,所述数据库经配置存储服务器系统1600的操作所必需的各种数据和/或信息。例如,数据库1620存储用于多个目标关键字的关键字数据文件。在该配置中,关键字数据文件中的每个可包含关键字模型、Ack声音数据和语调模型。
应当理解,上述已识别的模块或程序(即,指令集)不需要实施为单独的软件程序、规程或模块,并因此在各种实施例中,这些模块的各种子集可组合或以其它方式重新排列。此外,存储器1612可存储未在上面描述的另外模块和数据结构。
图15和16更多旨在作为客户端系统和服务器系统的各种特征的功能描述,而不是作为本文所述实施例的结构示意图。在实施过程中,并且如本领域的普通技术人员所理解的,单独示出的项可以组合以及一些项可以被分开。例如,在图16中单独示出的一些项可以在单个服务器上实施以及单个项可以由一或多个服务器实施。此外,数据库1620可在一组不同的服务器上或服务器系统1600的其它部件中实施。用于实施服务器系统1600的服务器的实际数量以及在所述服务器之间分配的特征可在不同的具体实施中改变。
本文所述的技术通过各种装置实施。例如,这些技术在硬件、固件、软件或它们的组合中实施。应当进一步理解,在本文中结合本公开描述的各种说明性逻辑块、模块、电路和算法步骤可以实施为电子硬件、计算机软件或两者的组合是可能的。为了清楚说明硬件和软件的这种可互换性,各种说明性部件、块、模块、电路和步骤已大体上就它们的功能在上面进行了描述。此些功能被实施为硬件还是软件取决于施加在整个系统上的特定应用和设计约束条件。所述功能可以为每个特定应用以各种方式实施,但是此些实施决策不应理解为导致偏离本公开的范围。
对于硬件实施,用于执行所述技术的处理单元可在一或多个ASIC、DSP、数字信号处理器件(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器、电子装置、经设计执行本文所述功能的其它电子单元、计算机或它们的组合内实施。
如果在软件中实施,则先前所述的方法、操作和过程可作为一或多个指令或代码存储在计算机可读介质上或通过所述计算机可读介质传送。计算机可读介质包含计算机存储介质和通信介质两者,所述通信介质包含便于计算机程序从一个地方传送至另一地方的任何介质。存储介质可以是可通过计算机访问的任何可用介质。借助实例并且没有限制,此些计算机可读介质可以包含RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁存储装置,或可用于以指令或数据结构的形式承载或存储期望的程序代码并可以通过计算机访问的任何其它介质。另外,任何连接适当称为计算机可读介质。例如,如果软件通过使用同轴电缆、光缆、双绞线、数字用户线(DSL)或无线技术诸如红外、射频和微波从网站、服务器或其它远端源传送,则所述同轴电缆、光缆、双绞线、DSL或无线技术诸如红外、射频和微波包含在介质的定义中。如本文所使用的,盘和碟包含压缩盘(CD)、激光盘、光盘、数字通用光盘(DVD)、软盘和蓝光光盘,其中,盘通常磁再现数据,而碟用激光光学地再现数据。上述的组合也应被包含在计算机可读介质的范围内。
提供本公开的前面描述以使本领域的任何技术人员能够实践或使用本公开。本公开的各种更改对于本领域的技术人员来说是显而易见的,并且在没有偏离本公开的实质或范围的情况下,本文所定义的一般原则应用于其它变体。因此,本公开并不旨在局限于本文描述的实例,而是符合与本文揭示的原理和新颖特征相一致的最广义范围。
虽然本主题以特定于结构特征和/或方法行为的语言描述,但应当理解,在所附权利要求中定义的主题不一定局限于上述的特定特征或行为。相反,上述的特定特征和行为揭示为实施权利要求的实例形式。
Claims (30)
1.一种方法,其包括:
在电子装置处接收多个目标关键字的列表,所述列表经由通信网络收到;
从所述多个目标关键字的所述列表选择特定目标关键字;
经由所述通信网络接收用于所述特定目标关键字的关键字模型;以及
向所述电子装置的功能分配所述特定目标关键字,使得所述功能响应于基于所述关键字模型在于所述电子装置处收到的输入声音中检测出所述特定目标关键字而被执行。
2.根据权利要求1所述的方法,进一步包括接收响应声音数据,其中所述电子装置响应于在所述输入声音中检测出所述特定目标关键字而基于所述响应声音数据输出响应声音。
3.根据权利要求1所述的方法,其中在包含所述关键字模型和兼容性信息的关键字数据文件中收到所述关键字模型,并且所述方法进一步包括:
基于所述兼容性信息确定所述关键字数据文件是否兼容于所述电子装置的关键字检测单元;以及
如果所述关键字数据文件兼容于所述关键字检测单元,则从所述关键字数据文件提取所述关键字模型并存储所述提取的关键字模型。
4.根据权利要求3所述的方法,其进一步包括如果所述关键字数据文件不兼容于所述关键字检测单元,则下载所述关键字模型的第二版本,其中所述关键字模型的所述第二版本兼容于所述关键字检测单元,并存储所述关键字模型的所述第二版本。
5.根据权利要求3所述的方法,其进一步包括如果所述关键字数据文件不兼容于所述关键字检测单元,则:
经由所述通信网络向服务器发送描述所述电子装置、所述关键字检测单元或两者的信息,其中,所述服务器基于所述信息选择所述关键字模型的第二版本,其中所述关键字模型的所述第二版本兼容于所述关键字检测单元;
从所述服务器接收所述关键字模型的所述第二版本;以及
存储所述关键字模型的所述第二版本。
6.根据权利要求3所述的方法,其进一步包括如果所述关键字数据文件不兼容于所述关键字检测单元,则将所述关键字模型转换为第二版本,其中所述关键字模型的所述第二版本兼容于所述关键字检测单元,并存储所述关键字模型的所述第二版本。
7.根据权利要求1所述的方法,其中向所述功能分配所述特定目标关键字包括组合所述关键字模型和与第二特定目标关键字相关联的至少一个其它关键字模型以形成组合的关键字模型,其中所述第二特定目标关键字与所述电子装置的至少一个其它功能相关联。
8.根据权利要求7所述的方法,其进一步包括:
接收所述输入声音;
基于所述组合的关键字模型响应于在所述输入声音中检测出所述特定目标关键字来执行所述功能;以及
基于所述组合的关键字模型响应于在所述输入声音中检测出所述第二特定目标关键字来执行所述至少一个其它功能。
9.根据权利要求1所述的方法,其中在应用程序文件中收到所述关键字模型,并且所述方法进一步包括从所述应用程序文件提取所述关键字模型,其中所述特定目标关键字被分配到的所述功能包含激活所述应用程序。
10.根据权利要求1所述的方法,其进一步包括接收与所述特定目标关键字相关联的语调模型,其中所述语调模型适于更改由所述电子装置输出的语音的语调。
11.根据权利要求10所述的方法,其中所述语调模型适于更改从文本转换的语音的语调,并且所述方法进一步包括:
接收所述输入声音;
基于所述关键字模型在所述输入声音中检测所述特定目标关键字;以及
如果在所述输入声音中检测出所述特定目标关键字,则基于与所述特定目标关键字相关联的所述语调模型更改从所述文本转换的所述语音的所述语调。
12.根据权利要求1所述的方法,其进一步包括:
接收所述输入声音;
基于所述关键字模型在所述输入声音中检测所述特定目标关键字;以及
如果在所述输入声音中检测出所述特定目标关键字,则执行所述功能。
13.根据权利要求1所述的方法,其中所述功能是激活语音助理、激活照相机、激活音乐播放器、激活录音机、拍摄照片和解锁所述电子装置中的一个。
14.根据权利要求1所述的方法,其中所述关键字模型是非用户特定的并且包含对少于所述特定目标关键字的语言的所有音位建模的信息。
15.一种电子装置,其包括:
用户界面单元,所述用户界面单元接收从多个目标关键字的列表选择特定目标关键字的输入;
下载管理单元,所述下载管理单元经配置经由通信网络接收用于所述特定目标关键字的关键字模型;以及
关键字设定单元,所述关键字设定单元经配置向所述电子装置的功能分配所述特定目标关键字,使得所述功能响应于基于所述关键字模型在于所述电子装置处收到的输入声音中检测出所述特定目标关键字而被执行。
16.根据权利要求15所述的电子装置,其中所述下载管理单元进一步经配置接收响应声音数据,以生成表示在所述输入声音中检测出所述特定目标关键字的响应声音。
17.根据权利要求16所述的电子装置,其进一步包括:
经配置接收所述输入声音的声音传感器;
关键字检测单元,所述关键字检测单元经配置基于所述关键字模型在所述输入声音中检测所述特定目标关键字;以及
功能管理单元,所述功能管理单元经配置当在所述输入声音中检测出所述特定目标关键字时基于与所述特定目标关键字相关联的所述响应声音数据生成所述响应声音。
18.根据权利要求15所述的电子装置,其中所述下载管理单元进一步经配置接收适于更改从文本转换的语音的语调的语调模型。
19.根据权利要求18所述的电子装置,其进一步包括:
经配置接收所述输入声音的声音传感器;
关键字检测单元,所述关键字检测单元经配置基于所述关键字模型在所述输入声音中检测所述特定目标关键字;以及
TTS(文本-语音)转换单元,所述TTS转换单元经配置响应于在所述输入声音中检测出所述特定目标关键字而基于所述语调模型更改从所述文本转换的所述语音的所述语调。
20.根据权利要求15所述的电子装置,其中所述关键字设定单元进一步经配置组合所述关键字模型和与第二特定目标关键字相关联的至少一个其它关键字模型以形成组合的关键字模型,其中所述第二特定目标关键字与所述电子装置的至少一个其它功能相关联。
21.根据权利要求20所述的电子装置,其进一步包括:
经配置接收所述输入声音的声音传感器;
关键字检测单元,所述关键字检测单元经配置基于所述组合的关键字模型在所述输入声音中检测关键字;以及
功能管理单元,所述功能管理单元经配置当基于所述组合的关键字模型在所述输入声音中检测出所述特定目标关键字时执行所述功能,并且当基于所述组合的关键字模型在所述输入声音中检测出所述第二特定目标关键字时执行所述至少一个其它功能。
22.根据权利要求15所述的电子装置,其中所述下载管理单元经配置经由所述通信网络接收应用程序文件,其中所述应用程序文件包含用于所述特定目标关键字的所述关键字模型,并且所述电子装置进一步包括经配置从所述应用程序文件提取所述关键字模型的提取单元,其中所述关键字设定单元经配置响应于基于所述关键字模型在所述输入声音中检测出所述特定目标关键字而向所述应用程序分配所述特定目标关键字以用于激活所述应用程序。
23.根据权利要求22所述的电子装置,其进一步包括:
经配置接收所述输入声音的声音传感器;
关键字检测单元,所述关键字检测单元经配置基于所述关键字模型在所述输入声音中检测所述特定目标关键字;以及
功能管理单元,所述功能管理单元经配置响应于在所述输入声音中检测出所述特定目标关键字来激活所述应用程序。
24.根据权利要求15所述的电子装置,其进一步包括:
经配置接收所述输入声音的声音传感器;
关键字检测单元,所述关键字检测单元经配置基于所述关键字模型在所述输入声音中检测所述特定目标关键字;以及
功能管理单元,所述功能管理单元经配置响应于在所述输入声音中检测出所述特定目标关键字来执行所述功能。
25.一种电子装置,其包括:
用于接收从多个目标关键字的列表选择特定目标关键字的输入的装置;
用于经由通信网络接收用于所述特定目标关键字的关键字模型的装置;以及
用于向功能分配所述特定目标关键字使得所述功能响应于基于所述关键字模型在于所述电子装置处收到的输入声音中检测出所述特定目标关键字而被执行的装置。
26.根据权利要求25所述的电子装置,其中所述用于接收所述关键字模型的装置经配置接收响应声音数据,并且所述电子装置进一步包括:
用于接收所述输入声音的装置;
用于基于所述关键字模型在所述输入声音中检测所述特定目标关键字的装置;以及
用于响应于在所述输入声音中检测出所述特定目标关键字而基于与所述特定目标关键字相关联的所述响应声音数据生成响应声音的装置。
27.根据权利要求25所述的电子装置,其中在包含所述关键字模型和兼容性信息的关键字数据文件中收到所述关键字模型,并且所述电子装置进一步包括:
用于在所述输入声音中检测关键字的装置;
用于基于所述兼容性信息确定所述关键字数据文件是否与所述用于在所述输入声音中检测关键字的装置兼容的装置;以及
用于在所述关键字数据文件兼容于所述用于在所述输入声音中检测关键字的装置的情况下从所述关键字数据文件提取所述关键字模型的装置。
28.根据权利要求27所述的电子装置,其中所述用于接收所述关键字模型的装置经配置在所述关键字数据文件不兼容于所述用于在所述输入声音中检测关键字的装置的情况下接收所述关键字模型的第二版本。
29.一种存储用于向功能分配目标关键字的指令的非暂时性计算机可读存储介质,所述指令促使处理器执行下列操作:
在电子装置处接收多个目标关键字的列表,所述列表经由通信网络收到;
从所述多个目标关键字的所述列表选择特定目标关键字;
经由所述通信网络接收用于所述特定目标关键字的关键字模型;以及
向所述电子装置的功能分配所述特定目标关键字,使得所述功能响应于基于所述关键字模型在于所述电子装置处收到的输入声音中检测出所述特定目标关键字而被执行。
30.根据权利要求29所述的非暂时性计算机可读存储介质,其中所述关键字模型是非用户特定的并且包含对少于所述特定目标关键字的语言的所有音位建模的信息。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201361843650P | 2013-07-08 | 2013-07-08 | |
US61/843,650 | 2013-07-08 | ||
US14/101,869 US9786296B2 (en) | 2013-07-08 | 2013-12-10 | Method and apparatus for assigning keyword model to voice operated function |
US14/101,869 | 2013-12-10 | ||
PCT/US2014/045193 WO2015006116A1 (en) | 2013-07-08 | 2014-07-02 | Method and apparatus for assigning keyword model to voice operated function |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105340006A true CN105340006A (zh) | 2016-02-17 |
CN105340006B CN105340006B (zh) | 2019-05-03 |
Family
ID=52133403
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201480034623.9A Active CN105340006B (zh) | 2013-07-08 | 2014-07-02 | 用于向语音操作功能分配关键字模型的方法和装置 |
Country Status (6)
Country | Link |
---|---|
US (1) | US9786296B2 (zh) |
EP (1) | EP3020040B1 (zh) |
JP (1) | JP6373985B2 (zh) |
KR (1) | KR101922782B1 (zh) |
CN (1) | CN105340006B (zh) |
WO (1) | WO2015006116A1 (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106898352A (zh) * | 2017-02-27 | 2017-06-27 | 联想(北京)有限公司 | 语音控制方法及电子设备 |
CN107221325A (zh) * | 2016-03-22 | 2017-09-29 | 华硕电脑股份有限公司 | 有向性关键字验证方法以及使用该方法的电子装置 |
CN107221332A (zh) * | 2017-06-28 | 2017-09-29 | 上海与德通讯技术有限公司 | 机器人的交互方法及系统 |
CN107230475A (zh) * | 2017-05-27 | 2017-10-03 | 腾讯科技(深圳)有限公司 | 一种语音关键词识别方法、装置、终端及服务器 |
CN109151155A (zh) * | 2017-06-27 | 2019-01-04 | 北京搜狗科技发展有限公司 | 一种通信处理方法及装置 |
CN111640429A (zh) * | 2019-02-14 | 2020-09-08 | 三星电子株式会社 | 提供语音识别服务的方法和用于该方法的电子装置 |
Families Citing this family (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10770075B2 (en) * | 2014-04-21 | 2020-09-08 | Qualcomm Incorporated | Method and apparatus for activating application by speech input |
CN105404625A (zh) * | 2014-09-03 | 2016-03-16 | 富泰华工业(深圳)有限公司 | 应用程序的查找方法与系统 |
CN105845125B (zh) * | 2016-05-18 | 2019-05-03 | 百度在线网络技术(北京)有限公司 | 语音合成方法和语音合成装置 |
US10276161B2 (en) * | 2016-12-27 | 2019-04-30 | Google Llc | Contextual hotwords |
CN107564517A (zh) | 2017-07-05 | 2018-01-09 | 百度在线网络技术(北京)有限公司 | 语音唤醒方法、设备及系统、云端服务器与可读介质 |
JP6752870B2 (ja) * | 2017-12-18 | 2020-09-09 | ネイバー コーポレーションNAVER Corporation | 複数のウェイクワードを利用して人工知能機器を制御する方法およびシステム |
KR102079979B1 (ko) * | 2017-12-28 | 2020-02-21 | 네이버 주식회사 | 인공지능 기기에서의 복수의 호출 용어를 이용한 서비스 제공 방법 및 그 시스템 |
KR102361458B1 (ko) * | 2018-01-25 | 2022-02-10 | 삼성전자주식회사 | 사용자 발화 응답 방법 및 이를 지원하는 전자 장치 |
KR102715536B1 (ko) | 2018-03-29 | 2024-10-11 | 삼성전자주식회사 | 전자 장치 및 그 제어 방법 |
CN108665900B (zh) | 2018-04-23 | 2020-03-03 | 百度在线网络技术(北京)有限公司 | 云端唤醒方法及系统、终端以及计算机可读存储介质 |
US11815936B2 (en) | 2018-08-22 | 2023-11-14 | Microstrategy Incorporated | Providing contextually-relevant database content based on calendar data |
US11238210B2 (en) | 2018-08-22 | 2022-02-01 | Microstrategy Incorporated | Generating and presenting customized information cards |
US11714955B2 (en) | 2018-08-22 | 2023-08-01 | Microstrategy Incorporated | Dynamic document annotations |
US11682390B2 (en) * | 2019-02-06 | 2023-06-20 | Microstrategy Incorporated | Interactive interface for analytics |
US11217243B2 (en) * | 2019-07-17 | 2022-01-04 | Google Llc | Systems and methods to verify trigger keywords in acoustic-based digital assistant applications |
KR102433964B1 (ko) * | 2019-09-30 | 2022-08-22 | 주식회사 오투오 | 관계 설정을 이용한 실감형 인공지능기반 음성 비서시스템 |
KR20210044606A (ko) | 2019-10-15 | 2021-04-23 | 삼성전자주식회사 | 웨이크업 모델 생성 방법 및 이를 위한 전자 장치 |
KR20210045241A (ko) | 2019-10-16 | 2021-04-26 | 삼성전자주식회사 | 전자 장치 및 전자 장치의 음성 명령어 공유 방법 |
KR20210094251A (ko) * | 2020-01-21 | 2021-07-29 | 삼성전자주식회사 | 디스플레이 장치 및 그 제어방법 |
US11082487B1 (en) | 2020-09-22 | 2021-08-03 | Vignet Incorporated | Data sharing across decentralized clinical trials using customized data access policies |
CN115334030B (zh) * | 2022-08-08 | 2023-09-19 | 阿里健康科技(中国)有限公司 | 语音消息显示方法及装置 |
WO2024072036A1 (ko) * | 2022-09-30 | 2024-04-04 | 삼성전자 주식회사 | 음성인식 장치 및 음성인식 장치의 동작방법 |
US11790107B1 (en) | 2022-11-03 | 2023-10-17 | Vignet Incorporated | Data sharing platform for researchers conducting clinical trials |
US12007870B1 (en) | 2022-11-03 | 2024-06-11 | Vignet Incorporated | Monitoring and adjusting data collection from remote participants for health research |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6128482A (en) * | 1998-12-22 | 2000-10-03 | General Motors Corporation | Providing mobile application services with download of speaker independent voice model |
CN1522432A (zh) * | 2001-07-03 | 2004-08-18 | 用于语音应用分布式系统中提高语音识别性能的方法和装置 | |
CN101145341A (zh) * | 2006-09-04 | 2008-03-19 | 美商富迪科技股份有限公司 | 改善语音辨识的方法与装置以及语音辨识系统 |
US7831431B2 (en) * | 2006-10-31 | 2010-11-09 | Honda Motor Co., Ltd. | Voice recognition updates via remote broadcast signal |
CN102016502A (zh) * | 2008-03-07 | 2011-04-13 | 谷歌公司 | 基于场境的语音识别语法选择 |
US8234120B2 (en) * | 2006-07-26 | 2012-07-31 | Nuance Communications, Inc. | Performing a safety analysis for user-defined voice commands to ensure that the voice commands do not cause speech recognition ambiguities |
US20130085753A1 (en) * | 2011-09-30 | 2013-04-04 | Google Inc. | Hybrid Client/Server Speech Recognition In A Mobile Device |
Family Cites Families (35)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5054082A (en) | 1988-06-30 | 1991-10-01 | Motorola, Inc. | Method and apparatus for programming devices to recognize voice commands |
JPH1078952A (ja) | 1996-07-29 | 1998-03-24 | Internatl Business Mach Corp <Ibm> | 音声合成方法、音声合成装置、ハイパーテキストの制御方法及び制御装置 |
US6092192A (en) * | 1998-01-16 | 2000-07-18 | International Business Machines Corporation | Apparatus and methods for providing repetitive enrollment in a plurality of biometric recognition systems based on an initial enrollment |
US6442519B1 (en) | 1999-11-10 | 2002-08-27 | International Business Machines Corp. | Speaker model adaptation via network of similar users |
US7451085B2 (en) * | 2000-10-13 | 2008-11-11 | At&T Intellectual Property Ii, L.P. | System and method for providing a compensated speech recognition model for speech recognition |
US6885735B2 (en) * | 2001-03-29 | 2005-04-26 | Intellisist, Llc | System and method for transmitting voice input from a remote location over a wireless data channel |
US20030005412A1 (en) * | 2001-04-06 | 2003-01-02 | Eanes James Thomas | System for ontology-based creation of software agents from reusable components |
US6810378B2 (en) | 2001-08-22 | 2004-10-26 | Lucent Technologies Inc. | Method and apparatus for controlling a speech synthesis system to provide multiple styles of speech |
US7054817B2 (en) * | 2002-01-25 | 2006-05-30 | Canon Europa N.V. | User interface for speech model generation and testing |
EP1490864A4 (en) | 2002-02-26 | 2006-03-15 | Sap Ag | Intelligent personal assistants |
US7099825B1 (en) | 2002-03-15 | 2006-08-29 | Sprint Communications Company L.P. | User mobility in a voice recognition environment |
JP2004164466A (ja) * | 2002-11-15 | 2004-06-10 | Sony Corp | 情報更新システム、情報処理装置および情報更新方法 |
US7603276B2 (en) | 2002-11-21 | 2009-10-13 | Panasonic Corporation | Standard-model generation for speech recognition using a reference model |
US7437294B1 (en) * | 2003-11-21 | 2008-10-14 | Sprint Spectrum L.P. | Methods for selecting acoustic model for use in a voice command platform |
US8160884B2 (en) | 2005-02-03 | 2012-04-17 | Voice Signal Technologies, Inc. | Methods and apparatus for automatically extending the voice vocabulary of mobile communications devices |
US7706510B2 (en) | 2005-03-16 | 2010-04-27 | Research In Motion | System and method for personalized text-to-voice synthesis |
JP4843987B2 (ja) * | 2005-04-05 | 2011-12-21 | ソニー株式会社 | 情報処理装置、情報処理方法、およびプログラム |
US7949529B2 (en) * | 2005-08-29 | 2011-05-24 | Voicebox Technologies, Inc. | Mobile systems and methods of supporting natural language human-machine interactions |
US7941316B2 (en) * | 2005-10-28 | 2011-05-10 | Microsoft Corporation | Combined speech and alternate input modality to a mobile device |
JP5208104B2 (ja) * | 2006-05-12 | 2013-06-12 | ニュアンス コミュニケーションズ オーストリア ゲーエムベーハー | 第1の適応化データ処理バージョンから第2の適応化データ処理バージョンに切り替えるための方法 |
US8886537B2 (en) | 2007-03-20 | 2014-11-11 | Nuance Communications, Inc. | Method and system for text-to-speech synthesis with personalized voice |
US20090132920A1 (en) * | 2007-11-20 | 2009-05-21 | Microsoft Corporation | Community-based software application help system |
JP5266761B2 (ja) * | 2008-01-10 | 2013-08-21 | 日産自動車株式会社 | 情報案内システムおよびその認識辞書データベース更新方法 |
US8626511B2 (en) * | 2010-01-22 | 2014-01-07 | Google Inc. | Multi-dimensional disambiguation of voice commands |
US8468012B2 (en) * | 2010-05-26 | 2013-06-18 | Google Inc. | Acoustic model adaptation using geographic information |
US9484018B2 (en) * | 2010-11-23 | 2016-11-01 | At&T Intellectual Property I, L.P. | System and method for building and evaluating automatic speech recognition via an application programmer interface |
JP5494468B2 (ja) * | 2010-12-27 | 2014-05-14 | 富士通株式会社 | 状態検出装置、状態検出方法および状態検出のためのプログラム |
WO2013005248A1 (ja) * | 2011-07-05 | 2013-01-10 | 三菱電機株式会社 | 音声認識装置およびナビゲーション装置 |
WO2013050958A1 (en) * | 2011-10-07 | 2013-04-11 | Predictive Analytics Solutions Pvt.Ltd. | A method and a system to generate a user interface for analytical models |
JP2013254483A (ja) * | 2012-05-11 | 2013-12-19 | Ricoh Co Ltd | 情報処理装置、情報処理装置の制御プログラム、画像形成装置 |
US20150088523A1 (en) * | 2012-09-10 | 2015-03-26 | Google Inc. | Systems and Methods for Designing Voice Applications |
US8935167B2 (en) * | 2012-09-25 | 2015-01-13 | Apple Inc. | Exemplar-based latent perceptual modeling for automatic speech recognition |
US8719229B1 (en) * | 2012-10-12 | 2014-05-06 | Autodesk, Inc. | Cloud platform for managing design data |
WO2014171915A1 (en) * | 2013-04-15 | 2014-10-23 | Nuance Communications, Inc. | System and method for acoustic echo cancellation |
US9767799B2 (en) * | 2013-05-21 | 2017-09-19 | Mitsubishi Electric Corporation | Voice recognition system and recognition result display apparatus |
-
2013
- 2013-12-10 US US14/101,869 patent/US9786296B2/en active Active
-
2014
- 2014-07-02 JP JP2016525380A patent/JP6373985B2/ja active Active
- 2014-07-02 EP EP14742119.2A patent/EP3020040B1/en active Active
- 2014-07-02 KR KR1020167002208A patent/KR101922782B1/ko active Active
- 2014-07-02 WO PCT/US2014/045193 patent/WO2015006116A1/en active Application Filing
- 2014-07-02 CN CN201480034623.9A patent/CN105340006B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6128482A (en) * | 1998-12-22 | 2000-10-03 | General Motors Corporation | Providing mobile application services with download of speaker independent voice model |
CN1522432A (zh) * | 2001-07-03 | 2004-08-18 | 用于语音应用分布式系统中提高语音识别性能的方法和装置 | |
US8234120B2 (en) * | 2006-07-26 | 2012-07-31 | Nuance Communications, Inc. | Performing a safety analysis for user-defined voice commands to ensure that the voice commands do not cause speech recognition ambiguities |
CN101145341A (zh) * | 2006-09-04 | 2008-03-19 | 美商富迪科技股份有限公司 | 改善语音辨识的方法与装置以及语音辨识系统 |
US7831431B2 (en) * | 2006-10-31 | 2010-11-09 | Honda Motor Co., Ltd. | Voice recognition updates via remote broadcast signal |
CN102016502A (zh) * | 2008-03-07 | 2011-04-13 | 谷歌公司 | 基于场境的语音识别语法选择 |
US20130085753A1 (en) * | 2011-09-30 | 2013-04-04 | Google Inc. | Hybrid Client/Server Speech Recognition In A Mobile Device |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107221325A (zh) * | 2016-03-22 | 2017-09-29 | 华硕电脑股份有限公司 | 有向性关键字验证方法以及使用该方法的电子装置 |
CN107221325B (zh) * | 2016-03-22 | 2020-02-28 | 华硕电脑股份有限公司 | 有向性关键字验证方法以及使用该方法的电子装置 |
CN106898352A (zh) * | 2017-02-27 | 2017-06-27 | 联想(北京)有限公司 | 语音控制方法及电子设备 |
CN107230475A (zh) * | 2017-05-27 | 2017-10-03 | 腾讯科技(深圳)有限公司 | 一种语音关键词识别方法、装置、终端及服务器 |
CN107230475B (zh) * | 2017-05-27 | 2022-04-05 | 腾讯科技(深圳)有限公司 | 一种语音关键词识别方法、装置、终端及服务器 |
CN109151155A (zh) * | 2017-06-27 | 2019-01-04 | 北京搜狗科技发展有限公司 | 一种通信处理方法及装置 |
CN109151155B (zh) * | 2017-06-27 | 2021-03-23 | 北京搜狗科技发展有限公司 | 一种通信处理方法、装置及机器可读介质 |
CN107221332A (zh) * | 2017-06-28 | 2017-09-29 | 上海与德通讯技术有限公司 | 机器人的交互方法及系统 |
CN111640429A (zh) * | 2019-02-14 | 2020-09-08 | 三星电子株式会社 | 提供语音识别服务的方法和用于该方法的电子装置 |
CN111640429B (zh) * | 2019-02-14 | 2024-05-03 | 三星电子株式会社 | 提供语音识别服务的方法和用于该方法的电子装置 |
Also Published As
Publication number | Publication date |
---|---|
CN105340006B (zh) | 2019-05-03 |
KR101922782B1 (ko) | 2018-11-27 |
KR20160030199A (ko) | 2016-03-16 |
US9786296B2 (en) | 2017-10-10 |
EP3020040A1 (en) | 2016-05-18 |
JP2016532146A (ja) | 2016-10-13 |
EP3020040B1 (en) | 2018-12-19 |
US20150012279A1 (en) | 2015-01-08 |
JP6373985B2 (ja) | 2018-08-15 |
WO2015006116A9 (en) | 2015-05-21 |
WO2015006116A1 (en) | 2015-01-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105340006A (zh) | 用于向语音操作功能分配关键字模型的方法和装置 | |
US12010597B2 (en) | Routing queries based on carrier phrase registration | |
US12169624B2 (en) | Voice-based device operation mode management | |
CN113939792B (zh) | 用于机器语言模型创建的用户界面 | |
CN106663430B (zh) | 使用用户指定关键词的说话者不相依关键词模型的关键词检测 | |
CN103443759B (zh) | 提供媒体文件的不同版本 | |
CN107430859B (zh) | 将输入映射到表单域 | |
CN101292282B (zh) | 支持自然语言人机交互的移动系统和方法 | |
CN103035240B (zh) | 用于使用上下文信息的语音识别修复的方法和系统 | |
US10217462B2 (en) | Automating natural language task/dialog authoring by leveraging existing content | |
CN112527353B (zh) | 用于增强对话系统的插件的在线市场 | |
US11217244B2 (en) | System for processing user voice utterance and method for operating same | |
CN103095910B (zh) | Nfc应用的话音接口 | |
CN102292765B (zh) | 用于利用多个识别器来基于标记语言文档处理发言的方法和系统 | |
CN107039038A (zh) | 学习个性化实体发音 | |
CN104299623B (zh) | 语音应用中用于自动确认和消歧模块的方法和系统 | |
CN100576171C (zh) | 步进式标记语言与面向对象开发工具组合使用的系统和方法 | |
CN104282302A (zh) | 用于识别语音和文本的设备和方法 | |
US10885910B1 (en) | Voice-forward graphical user interface mode management | |
CN101589427A (zh) | 语音应用程序装备和记入 | |
CN108351876A (zh) | 用于兴趣点识别的系统和方法 | |
CN103474063B (zh) | 语音辨识系统以及方法 | |
CN116403573A (zh) | 一种语音识别方法 | |
CN101989285A (zh) | 数据的查询和提供方法、查询系统及其可携式装置与服务器 | |
TW201102841A (en) | Data search method, data providing method, data search system, portable apparatus and server |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |