CN107016999B - 热词识别 - Google Patents
热词识别 Download PDFInfo
- Publication number
- CN107016999B CN107016999B CN201610825577.5A CN201610825577A CN107016999B CN 107016999 B CN107016999 B CN 107016999B CN 201610825577 A CN201610825577 A CN 201610825577A CN 107016999 B CN107016999 B CN 107016999B
- Authority
- CN
- China
- Prior art keywords
- hotword
- audio
- audio data
- utterance
- computing device
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/08—Use of distortion metrics or a particular distance between probe pattern and reference templates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3343—Query execution using phonetics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/68—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/683—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/30—Authentication, i.e. establishing the identity or authorisation of security principals
- G06F21/31—User authentication
- G06F21/32—User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G07—CHECKING-DEVICES
- G07C—TIME OR ATTENDANCE REGISTERS; REGISTERING OR INDICATING THE WORKING OF MACHINES; GENERATING RANDOM NUMBERS; VOTING OR LOTTERY APPARATUS; ARRANGEMENTS, SYSTEMS OR APPARATUS FOR CHECKING NOT PROVIDED FOR ELSEWHERE
- G07C9/00—Individual registration on entry or exit
- G07C9/20—Individual registration on entry or exit involving the use of a pass
- G07C9/22—Individual registration on entry or exit involving the use of a pass in combination with an identity check of the pass holder
- G07C9/25—Individual registration on entry or exit involving the use of a pass in combination with an identity check of the pass holder using biometric data, e.g. fingerprints, iris scans or voice recognition
-
- G—PHYSICS
- G07—CHECKING-DEVICES
- G07C—TIME OR ATTENDANCE REGISTERS; REGISTERING OR INDICATING THE WORKING OF MACHINES; GENERATING RANDOM NUMBERS; VOTING OR LOTTERY APPARATUS; ARRANGEMENTS, SYSTEMS OR APPARATUS FOR CHECKING NOT PROVIDED FOR ELSEWHERE
- G07C9/00—Individual registration on entry or exit
- G07C9/20—Individual registration on entry or exit involving the use of a pass
- G07C9/22—Individual registration on entry or exit involving the use of a pass in combination with an identity check of the pass holder
- G07C9/25—Individual registration on entry or exit involving the use of a pass in combination with an identity check of the pass holder using biometric data, e.g. fingerprints, iris scans or voice recognition
- G07C9/257—Individual registration on entry or exit involving the use of a pass in combination with an identity check of the pass holder using biometric data, e.g. fingerprints, iris scans or voice recognition electronically
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/285—Memory allocation or algorithm optimisation to reduce hardware requirements
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/018—Audio watermarking, i.e. embedding inaudible data in the audio signal
-
- G—PHYSICS
- G07—CHECKING-DEVICES
- G07C—TIME OR ATTENDANCE REGISTERS; REGISTERING OR INDICATING THE WORKING OF MACHINES; GENERATING RANDOM NUMBERS; VOTING OR LOTTERY APPARATUS; ARRANGEMENTS, SYSTEMS OR APPARATUS FOR CHECKING NOT PROVIDED FOR ELSEWHERE
- G07C9/00—Individual registration on entry or exit
- G07C9/30—Individual registration on entry or exit not involving the use of a pass
- G07C9/32—Individual registration on entry or exit not involving the use of a pass in combination with an identity check
- G07C9/37—Individual registration on entry or exit not involving the use of a pass in combination with an identity check using biometric data, e.g. fingerprints, iris scans or voice recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Acoustics & Sound (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Signal Processing (AREA)
- Computer Hardware Design (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- Library & Information Science (AREA)
- Artificial Intelligence (AREA)
- User Interface Of Digital Computer (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Telephone Function (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及热词识别。方法、系统以及装置,包括编码在计算机存储介质上的计算机程序,用于接收对应于话语的音频数据,确定所述音频数据对应于热词,生成被确定为对应于所述热词的所述音频数据的热词音频指纹,将所述热词音频指纹与先前被确定为对应于所述热词的音频数据的一个或多个所存储的音频指纹相比较,基于所述比较是否指示所述热词音频指纹与先前被确定为对应于所述热词的音频数据的一个或多个所存储的音频指纹中的一个之间的相似度满足预先确定的阈值,检测所述热词音频指纹是否匹配所存储的音频指纹,以及响应于检测到所述热词音频指纹匹配所存储的音频指纹,禁止对向其说出了所述话语的计算设备的访问。
Description
相关申请的交叉引用
本申请要求于2015年10月16日提交的美国临时专利申请号62/242,650的权益,其内容通过引用并入于此。
技术领域
本说明书一般地涉及语音识别。
背景技术
自动语音识别是计算设备中使用的重要技术。电子设备的语音识别服务通常接收包括来自用户的说出词的发音话语,并且将该说出词转录为文本。发音话语可以包括热词,即预先确定的保留词,其使得系统或设备执行对应的动作。
发明内容
本公开的实施方式涉及热词识别,例如使用热词来经由话音解锁或启用对移动设备的访问,并且抑制重放攻击。重放攻击是一种过程,未经授权的用户通过该过程捕捉由设备的所有者或授权的用户说出的热词的音频并且将其重放以便获得对该设备的某种等级的未经授权的访问。根据本公开的实施方式,可以通过验证每个话语的独特性来抑制热词或任何基于语音的重放攻击。特别地,可以记录并存储针对特定设备或者针对特定用户而识别的最近、最后N个或所有热词话语。可以生成音频指纹并且将其针对每个热词话语存储,并且可以在从新的话语生成的音频指纹之间执行与每个先前记录的音频指纹的比较以检查先前是否已经使用指示重放的相同的话语音频。此外,在某些实施方式中,其它信号,例如超声波音频注入和跨话语验证,可被用于进一步限制重放攻击的有效性。
在本说明书中所述的主题的一个创造性方面体现在包括以下动作的方法中:接收对应于话语的音频数据;确定所述音频数据对应于热词;生成被确定为对应于所述热词的所述音频数据的热词音频指纹;确定所述热词音频指纹与先前被确定为对应于所述热词的音频数据的一个或多个所存储的音频指纹之间的相似度;基于所述热词音频指纹与所述一个或多个所存储的音频指纹中的一个之间的所述相似度是否满足预先确定的阈值,检测所述热词音频指纹是否与先前被确定为对应于所述热词的音频数据的所存储的音频指纹相匹配;以及响应于检测到所述热词音频指纹与所存储的音频指纹相匹配,禁止对向其说出了所述话语的计算设备的访问。
通常,在本说明书中所述的主题的另一方面体现在包括以下动作的方法中:接收对应于附加话语的附加音频数据;使用所述附加音频数据辨识说话者辨识d-向量;确定来自所述附加音频数据的所述说话者辨识d-向量与来自对应于所述话语的所述音频数据的热词d-向量之间的相似度;基于来自对应于所述话语的所述音频数据的所述热词d-向量与来自所述附加音频数据的所述说话者辨识d-向量之间的所述相似度是否满足特定阈值,检测对应于所述热词的所述音频数据是否匹配所述附加音频数据;以及响应于检测到对应于所述热词的所述音频数据不匹配所述附加音频数据,禁止对所述计算设备的访问。
根据在本说明书中所述的主题的另一方面,所述热词可以是特定词项,所述特定词项触发对跟在所述特定词项之后的一个或多个词项中的附加词项的语义解释。跟在所述特定词项之后的一个或多个词项中的附加词项可以与查询或命令相关联。
在本说明书中所述的主题的另一方面可以体现在包括以下动作的方法中:接收对应于话音命令或查询的附加音频数据,以及确定所述话音命令或查询的类型。此外,所述预先确定的阈值可以基于所述话音命令或查询的所确定的类型来调整。
这些以及其它实施方式可以各自可选地包括以下特征中的一个或多个。例如,确定所述音频数据对应于热词可以包括:辨识所述音频数据的一个或多个声学特征;将所述音频数据的所述一个或多个声学特征跟与存储在数据库中的一个或多个热词相关联的一个或多个声学特征相比较;以及基于所述音频数据的所述一个或多个声学特征跟与存储在所述数据库中的一个或多个热词相关联的所述一个或多个声学特征的比较,确定所述音频数据对应于存储在所述数据库中的所述一个或多个热词中的一个。
在一些实施方式中,确定所述音频数据对应于热词包括:确定所述音频数据的初始部分对应于所述热词的初始部分;以及响应于确定所述音频数据的所述初始部分对应于所述热词的所述初始部分,使得多个独特超声波音频样本中的一个在所述音频数据的所述初始部分被接收以后被输出。
在本说明书中所述的主题的另一方面可以体现在包括以下动作的方法中:确定所接收的音频数据包括对应于所述多个独特超声波音频样本中的一个的音频数据;以及响应于确定所接收的音频数据包括对应于所述多个独特超声波音频样本中的一个的音频数据,禁止对所述计算设备的访问。
这些方面的其它实施方式包括对应的系统、装置以及计算机程序,其被配置成执行编码在计算机存储设备上的方法的动作。
在附图和以下的说明中阐明了本发明的一个或多个实施方式的细节。本发明的其它特征和优势将根据说明、附图以及权利要求而变得显而易见。
附图说明
图1描绘根据本发明的实施方式用于检测并验证热词的示例系统。
图2A和图2B描绘根据本发明的实施方式用于检测并验证热词的示例过程的图。
图3描绘根据本发明的实施方式用于检测并验证热词的示例流程图。
图4描绘可以用于实施本文所述的技术的计算机设备和移动计算机设备。
在各个附图中,相似的参考数字和名称指示相似的元素。
具体实施方式
图1描绘根据本发明的实施方式用于检测并验证热词的示例系统100。这样的系统100可以抑制重放攻击。在一些实施方式中,系统100包括音频子系统120、热词检测器130、音频指纹生成器140以及重放攻击引擎150。在一些示例中,系统100可以体现在计算设备中,例如,智能电话、膝上型计算机、台式计算机或个人计算机、平板电脑等或其组合。计算设备可以包括用于检测来自用户的话语的任何音频检测装置,例如,麦克风。
本公开的实施方式实现热词识别,例如使用热词来经由话音解锁或启用对移动设备的访问。实现对热词的使用的一种方式通过总是开启(always-on)的热词识别。总是开启的热词识别是连续聆听预定义短语例如“OK computer(好的,计算机)”以便唤醒计算设备并且发起行动的过程。热词检测相比于运行全语音识别器的一个优势在于热词检测允许高效率且稳健的识别,因为只需要识别固定的触发短语。此外。热词识别可以涉及将输入语音的音频特征与热词的已知话语的音频特征相比较,而不需要执行对输入话语的语音识别。可以以比实施语音识别器大幅减少的计算成本来执行这样的操作。
由于说出的热词提供对设备的访问,该热词是特定的话语,并且该热词被大声说出,对热词识别的使用可能易受重放攻击。重放攻击是一种过程,未经授权的用户通过该过程捕捉由设备的所有者或授权的用户说出的热词的音频并且将其重放以便获得对该设备的某种等级的未经授权的访问。根据本公开的实施方式,可以通过验证每个话语的独特性来抑制热词或任何基于语音的重放攻击。
在某些实施方式中,总是开启的热词识别可以与说话者验证相结合地使用来过滤出不是由设备的所有者说出的话语。说话者验证与热词识别的结合是有利的,因为热词识别是依赖于文本的,即对于给定热词说出的话语是相同的。
在一些实施方式中,用户可以说计算设备检测为话语的一个或多个词。该话语可以包括一个或多个热词或部分热词,所述热词或部分热词使得计算设备执行动作。
在某些实施方式中,当计算设备被锁定时,热词可以充当获取对该设备的部分或完全访问的方式。例如,如果当屏幕关闭和/或设备被锁定时用户说“OK Computer”,并且该说话者简档被成功验证,可以允许访问私人或敏感数据的某些查询,诸如“when is mynext meeting(我的下一个会议在什么时候)”,“send a message to Boss(给Boss发送消息)”等。在一些实施方式中,热词可以允许用户这行话音动作,诸如“send an email(发送邮件)”,或者热词可以用于完全解锁设备,特别是在与诸如位置的附加场境信号相结合使用时。
如在所阐述的示例中所描绘的,例如,用户可以说“OK Computer”。计算设备可以检测话语“OK Computer”110,其中音频子系统120适当地接收话语“OK Computer”110的音频数据。
在所阐述的示例中,音频子系统120可以接收与话语“OK Computer”110相关联的音频数据。所接收的音频数据可以包括话语的一系列音频帧或者与话语相关联的音频数据的预先确定的时间量。在一些实施方式中,音频子系统120可以处理该话语以生成包括该话语的一部分或者基本上包括该话语的整个部分的波形数据。
在一些实施方式中,音频子系统120可以适当地处理所接收的音频数据。例如,音频子系统120可以辨识音频数据的一个或多个声学特征。在所阐述的示例中,音频子系统120可以辨识与关联于话语“OK Computer”的音频数据相关联的声学特征。
在一些实施方式中,音频子系统120可以向热词检测器130提供经处理的音频数据。例如,音频子系统120可以向热词检测器130提供与话语“OK Computer”相关联的经处理的音频数据。在一些实施方式中,经处理的音频数据可以包括与话语“OK Computer”相关联的声学特征、与话语“OK Computer”相关联的音频数据、与话语“OK Computer”相关联的转录或其任何组合。
热词检测器130可以接收经处理的音频数据。在所阐述的示例中,热词检测器130可以接收与话语“OK Computer”相关联的经处理的音频数据。热词检测器130可以确定所接收的音频数据对应于热词。具体地,热词可以确定音频数据对应于热词。在所阐述的示例中,热词检测器可以确定与话语“OK Computer”相关联的音频数据对应于热词“OKComputer”。
在一些实施方式中,所接收的音频数据可以包括相关联的声学特征,例如,如由音频子系统120辨识的声学特征。热词检测器130可以将与话语“OK Computer”相关联的音频数据的声学特征跟与存储在数据库中的一个或多个热词相关联的声学特征相比较。具体地,每个热词可以与一个或多个声学特征相关联,所述声学特征例如热词的语音学。数据库或表可以存储热词与相关联的声学特征之间的映射。在一些实施方式中,热词可以与两个或更多个声学特征相关联。在一些实施方式中,声学特征可以与两个或更多个热词相关联。
基于对声学特征的比较,可以确定与话语“OK Computer”相关联的音频数据对应于存储在数据库中的热词。例如,基于话语“OK Computer”的声学特征与热词“OKComputer”的声学特征的比较可以确定与话语“OK Computer”相关联的音频数据的声学特征对应于热词“OK Computer”。可以根据本公开的实施方式使用的示例性热词识别技术在美国专利公开号2015/0279351A1中描述,其通过引用并入于此;并且更具体地,图6的过程,其细节在图2至图5中描绘,其全部通过引用并入于此。
热词检测器130可以向音频指纹生成器140提供音频数据对应于热词的确定的结果。具体地,在所阐述的示例中,热词检测器130可以向音频指纹生成器140提供热词“OKComputer”或者与热词“OK Computer”相关联的信号。
音频指纹生成器140可以从热词检测器130接收音频数据对应于热词的确定的结果。具体地,在所阐述的示例中,音频指纹生成器140可以从热词检测器130接收对应于热词“OK Computer”的音频数据或者与热词“OK Computer”相关联的信号。该信号可以包括与话语“OK Computer”相关联的音频数据对应于热词的指示。
音频指纹生成器140可以生成与热词的话语相关联的音频数据的指纹。特别地,在所阐述的示例中,音频指纹生成器140可以处理与对应于热词的话语“OK Computer”相关联的音频数据,以生成话语“OK Computer”的音频指纹。
在一些实施方式中,音频指纹可以被设计为允许在存在诸如音高偏移和时间延展的极端噪音或其它失真时的精确匹配。此外,每个相应的音频指纹是独特的。例如,来自在相同环境下的相同说话者的多个热词话语仍具有不同的指纹。除说出话语,音频指纹可以包括任何背景噪音。
可以根据本发明的实施方式使用任何类型的音频指纹。例如,在美国专利号8,411,977B1中所述的音频指纹,其通过引用并入于此。音频指纹可以提供抗噪性、音高和时间偏移,其是可由重放攻击者应用的变换。可以通过检测在音频信号中的时间-频率峰值来生成指纹,该峰值可以被组合成三元组并且特征在于频率比,以提供高音的不变性。
可替代地,可以使用其它特征来生成指纹。例如,指纹可以由过滤器组能量的一系列帧组成。该一系列帧可以使用诸如L2距离的距离函数来正规化并且与来自另一话语的帧相比较。根据另一个替代,用于生成指纹的特征可以是对于近准确匹配任务所训练的神经网络中的中间层的激活。
在一些实施方式中,音频指纹生成器140可以向重放攻击引擎150提供热词话语的音频指纹。具体地,在所阐述的示例中,音频指纹生成器140可以向重放攻击引擎150提供话语“OK Computer”的音频指纹。
重放攻击引擎150可以接收由音频指纹生成器140生成的热词话语的音频指纹。在一些实施方式中,重放攻击引擎可以访问热词指纹数据库160。该热词指纹数据库160可以是存储最近的、最后的N个或所有的与特定设备或与特定用户或二者相关联的热词话语的数据库。最近的热词话语可以根据特定时间段确定。热词指纹数据库160可以是存储例如最可能易受重放攻击的热词话语的特定子集的数据库。例如,热词指纹数据库160可以例如基于位置、背景噪音等或其任何组合存储在公共场所进行的热词话语,或者存储在受信环境外进行的热词话语,所述受信环境例如用户的家、车、办公室等。热词指纹数据库160可以存储热词话语的特定子集的最近的、最后的N个或所有的热词话语。
重放攻击引擎150可以将由音频指纹生成器140生成的热词话语的音频指纹与存储在热词指纹数据库160中的热词指纹相比较。通过将由音频指纹生成器140生成的热词话语的音频指纹与存储在热词指纹数据库160中的热词指纹相比较,重放攻击引擎150可以确定由音频指纹生成器140生成的热词话语是否匹配存储在热词指纹数据库160中的热词指纹中的一个或多个。
通过将在两个话语(即,所接收的热词话语和所存储的热词话语中的每一个)中的所有时间对x和y处的指纹或特征相比较,可以确定一对指纹相匹配。例如,可以使用相似度函数诸如L2相似度或者使用对三个描述符的重叠的测量或者使用对兴趣点和其它导出特征的重叠的测量来比较指纹。相似度函数可以用于生成图形热图(heatmap)。可以基于在热图中沿着对角线的强相似度来检测匹配。该线可以垂直或水平偏移以允许该匹配开始处的可变起始偏移量。可以通过针对所有的(x-y)聚集相似度分数来检测相似度的强度。在得到的直方图中的强峰值指示在某个偏移处两者之间的匹配。如果话语已经在时间上被延展,在直方图中的峰值也可以具有宽峰值。可替代地,热图可以作为输入提供给分类器,该分类器可以确定该对指纹是否匹配。总之,重放攻击引擎150可以基于满足预先确定的相似度阈值确定匹配。例如,重放攻击引擎150可以生成相似度分数或值,并且可以确定该相似度分数或值是否满足预先确定的阈值分数或值。
在一些实施方式中,重放攻击引擎150确定由音频指纹生成器140生成的热词话语的音频指纹匹配存储在热词指纹数据库160中的热词指纹指示重放攻击。特别地,由音频指纹生成器140生成的的话语“OK Computer”的音频指纹匹配存储在热词指纹数据库160中的音频指纹指示:相同的话语“OK Computer”先前已被接收到并且正在被重放以试图由未经授权的用户访问或使用该设备。
响应于确定由音频指纹生成器140生成的热词话语的音频指纹匹配存储在热词指纹数据库160中的热词指纹,重放攻击引擎可以输出防止该设备被解锁、锁定该设备、禁止对该设备的访问、发起二次认证过程等的信号。响应于确定由音频指纹生成器140生成的热词话语的音频指纹不匹配存储在热词指纹数据库160中的热词指纹,重放攻击引擎可以输出允许在该设备上执行动作的信号。
图2A描绘根据本发明的实施方式用于检测并验证热词的示例过程的图。该图示出状态201至219,其可能或者可能没有以特定顺序图示。
在201,音频子系统220可以接收对应于话语“OK Computer”这一部分的音频数据。该音频子系统220可以处理对应于话语“OK Computer”的所接收的音频数据并且向热词检测器230提供该音频数据。在202,热词检测器230可以接收对应于话语“OK Computer”的音频数据并且例如基于如上所述的对声学特征的比较来确定该话语“OK Computer”是否对应于针对该设备的热词。
如果热词检测器230确定所接收的话语不对应于针对该设备的热词,热词检测器230可以提供指示还没有接收到热词的信号,并且该过程可以以音频子系统220聆听话语来重新开始。然而,响应于热词检测器230确定话语“OK Computer”对应于针对该设备的热词,音频指纹生成器240可以在203生成话语“OK Computer”的音频指纹。由音频指纹生成器240生成的话语“OK Computer”的该音频指纹可以在204存储。
在205,重放攻击引擎250可以接收由音频指纹生成器240生成的话语“OKComputer”的该音频指纹并且将所生成的音频指纹与例如存储在数据库中的热词指纹相比较。特别地,重放攻击引擎250可以在206访问所存储的热词指纹以进行与由音频指纹生成器240生成的话语“OK Computer”的该音频指纹的比较。
如果重放攻击引擎250确定在由音频指纹生成器240生成的话语“OK Computer”的该音频指纹与所存储的热词指纹中的一个或多个之间不匹配208,则可以准予对该设备的访问或者可以在209启用对跟在该热词之后的查询或命令的处理。如果重放攻击引擎250确定了在由音频指纹生成器240生成的话语“OK Computer”的该音频指纹与所存储的热词指纹中的一个或多个之间的匹配207,则可以在210禁止或限制对该设备的访问或者可以防止该设备被解锁或唤醒等。
在一些实施方式中,由于热词话语可能后面跟有查询或命令话语,可以确定从热词话语提取的d-向量是否近似匹配从查询或命令话语提取的d-向量。热词话语与查询或命令话语之间的比较可以抑制未经授权的用户重放所记录的热词或者以其自己的话音发出新的查询或命令的能力。
在211,音频子系统220可以接收跟在热词的话语之后的查询或命令话语。在所阐述的示例中,音频子系统220可以在热词话语“OK Computer”以后接收命令话语“Call Mom(打电话给妈妈)”。音频子系统220可以处理对应于话语“Call Mom”的所接收的音频数据并且向热词检测器230提供该音频数据。
在212,热词检测器230可以接收对应于话语“Call Mom”的音频数据并且例如基于如上所述的对声学特征的比较来确定话语“Call Mom”是否对应于针对该设备的热词。在所阐述的示例中,热词检测器230可以确定话语“Call Mom”不对应于针对该设备的热词。如果热词检测器230确定所接收的话语不对应于针对该设备的热词,热词检测器230可以提供指示还没有接收到热词的信号。
在一些实施方式中,当确定还没有接收到热词时,可以确定接收到查询或命令。例如,响应于确定已经接收到热词并且验证没有与先前接收的所存储的热词的匹配,可以针对跟在该热词话语之后的话语启用查询或命令处理。在所阐述的示例中,音频指纹生成器240可以在213生成话语“Call Mom”的音频指纹。
在一些实施方式中,查询或命令的音频指纹可以被用于执行对热词的跨话语验证。特别地,在214,重放攻击引擎250可以接收从话语“Call Mom”生成的说话者辨识d-向量,并且将所生成的话语“Call Mom”的说话者辨识d-向量与所生成的话语“OK Computer”的热词d-向量相比较。在一些实施方式中,重放攻击引擎250可以将话语“Call Mom”的说话者辨识d-向量与例如存储在数据库中的话语“OK Computer”的热词d-向量相比较。
如果重放攻击引擎250确定对应于话语“OK Computer”的音频数据与对应于话语“Call Mom”的音频数据之间的匹配215,则可以准予对该设备的访问或者可以在219执行对跟在该热词之后的查询或命令的处理。如果重放攻击引擎250确定对应于话语“OKComputer”的音频数据与对应于话语“Call Mom”的音频数据之间的不匹配208,则在218,可以不执行该查询或命令,可以禁止或限制对该设备的访问、可以发起二次认证过程或者可以防止该设备被解锁或唤醒等或其任何组合。可替代地,在相似过程中,对应于热词话语的音频数据可以与所接收并存储的任何先前话语相比较。
如上所述,重放攻击引擎250可以生成相似度分数或值以用于将话语“Call Mom”的所生成的音频指纹与话语“OK Computer”的所生成的热词指纹相比较,并且确定该相似度分数或值是否满足预先确定的阈值分数或值。在一些实施方式中,可以确定该查询或命令的场境。该查询或命令的所确定的场境例如可以用于对相似度分数或值加权或者用于调整预先确定的阈值分数或值。
例如,如果命令或查询的场境指示关于个人或私人数据的较低水平的敏感度,则相似度分数或值可以被加权或者预先确定的阈值分数或值可以被调整为更经常允许执行该查询或命令,而不管话语“Call Mom”的所生成的音频指纹与话语“OK Computer”的所生成的热词指纹之间的高相似度。相反,如果命令或查询的场境指示较高水平的敏感度,则相似度分数或值可以被加权或者预先确定的阈值分数或值可以被调整为不太经常允许执行该查询或命令,例如要求话语“Call Mom”的所生成的音频指纹与话语“OK Computer”的所生成的热词指纹之间更高的相似度。因此,热词话语与查询或命令话语之间的比较可以抑制未经授权的用户重放所记录的热词并且以其自己的话音发出新的查询或命令的能力。
可以检测部分热词,例如,如在美国专利8,768,712B1中所述,其通过引用并入于此;并且更具体地,如在图3的过程中所述,其一些细节在图2A中所描绘,其中的每一个通过引用并入于此。在一些实施方式中,在检测到部分热词以后或者在跟在热词之后的话语期间,设备可以例如使用频移键控来输出独特超声波音频片段,该频移键控可以编码独特令牌以用于识别。如果先前令牌被识别作为热词的一部分,可以拒绝该热词。可以采用一组独特频率来编码每个令牌,以便在设备正输出新的令牌时可以检测到该令牌。可替代地,取代设备检测已编码的令牌,设备可以在该设备正在针对该新令牌使用的频带之外检测任何显著的超声波音频。如果检测到任何显著的超声波音频,可以拒绝该热词。
例如,如在图1中所描绘的,热词检测器130可以包括部分热词检测器135。此外,音频子系统120可以包括超声波音频子系统125。该超声波音频子系统125可以被配置为输出独特超声波音频片段。该超声波音频子系统125可以被配置为接收并处理超声波音频样本。
图2B描绘根据本发明的实施方式用于检测并验证热词的示例过程的图。例如,如图2B中所描绘的,音频子系统220可以在281接收与话语“OK”相关联的音频数据的初始部分。音频数据的该初始部分可以包括话语的第一多个音频帧或者与该话语相关联的音频数据的第一几百毫秒。在一些示例中,音频子系统220处理该话语以生成包括该话语的一部分或者基本上包括该话语的整个部分的波形数据。音频子系统220可以辨识音频数据的一个或多个声学特征。在所阐述的示例中,音频子系统220可以辨识与关联于话语“OK”的音频数据的初始部分相关联的声学特征。
在所阐述的示例中,热词检测器230初始接收与例如音频数据的初始部分的话语“OK”相关联的经处理的音频数据。热词检测器230可以确定所接收的音频数据对应于热词的初始部分。具体地,热词检测器230包括部分热词检测器225。该部分热词检测器225可以确定音频数据的初始部分对应于热词的初始部分。在所阐述的示例中,部分热词检测器225可以确定与话语“OK”相关联的音频数据的初始部分对应于热词“OK Computer”的初始部分。在一些实施方式中,热词的初始部分包括少于整个热词。例如,初始部分“OK”少于整个热词“OK Computer”。部分热词检测器225可以将与话语“OK”相关联的音频数据的初始部分的声学特征跟与存储在数据库中的一个或多个热词相关联的声学特征相比较。
基于对声学特征的比较,可以将与话语“OK”相关联的音频数据的初始部分确定为对应于存储在数据库中的热词的初始部分。例如,热词检测器230可以在282基于话语“OK”的声学特征与热词“OK Computer”的声学特征的比较确定与话语“OK”相关联的音频数据的初始部分的声学特征对应于热词“OK Computer”的初始部分。
在一些实施方式中,响应于确定与话语相关联的音频数据的初始部分对应于热词的初始部分,超声波音频子系统225可以在283输出独特超声波音频片段。在一些实施方式中,超声波音频子系统225可以在已经接收到完全热词以后输出该独特超声波音频片段。
在284,音频子系统220可以接收对应于话语“Computer”的部分的音频数据。音频子系统220可以处理对应于话语“Computer”的所接收的音频数据并且向热词检测器230提供该音频数据。在285,除了先前接收的对应于话语“OK”的音频数据以外,热词检测器230可以接收对应于话语“Computer”的音频数据,并且例如基于如上所述的对声学特征的比较确定话语“OK Computer”是否对应于针对该设备的热词。
如果热词检测器230确定所接收的话语不对应于针对该设备的热词,热词检测器230可以提供指示还没有接收到热词的信号,并且该过程可以以音频子系统220聆听话语来重新开始。然而,响应于热词检测器230确定话语“OK Computer”对应于针对该设备的热词,音频指纹生成器240可以在286生成话语“OK Computer”的音频指纹。由音频指纹生成器240生成的话语“OK Computer”的该音频指纹可以在287存储。
在288,重放攻击引擎250可以接收由音频指纹生成器240生成的话语“OKComputer”的该音频指纹并且将所生成的音频指纹与例如存储在数据库中的热词指纹相比较。特别地,重放攻击引擎250可以在289访问所存储的热词指纹以进行与由音频指纹生成器240生成的话语“OK Computer”的该音频指纹的比较。
如果重放攻击引擎250确定在由音频指纹生成器240生成的话语“OK Computer”的该音频指纹与所存储的热词指纹中的一个或多个之间的不匹配291,则可以准予对该设备的访问或者可以在292启用对跟在该热词之后的查询或命令的处理。如果重放攻击引擎250确定在由音频指纹生成器240生成的话语“OK Computer”的该音频指纹与所存储的热词指纹中的一个或多个之间的匹配290,则可以在293禁止或限制对该设备的访问或者可以防止该设备被解锁或唤醒等。
因此,根据本公开的实施方式,可以通过验证每个话语的独特性来抑制热词或任何基于语音的重放攻击。特别地,可以记录并存储由特定设备或者由特定用户识别的最近、最后N个或所有热词话语。可以针对每个热词话语生成音频指纹并且将其存储,并且可以在从新的话语生成的音频指纹与每个先前记录的音频指纹之间执行比较以检查同一个话语音频先前是否已经被使用过,其指示重放。例如,当识别出热词时,可以生成热词话语的音频指纹并且可以将导出的指纹与来自热词的先前话语的指纹相比较。如果确定匹配,该话语可能先前已被使用过,其指示可能的重放,并且可被拒绝。响应于该话语被拒绝,可以采取附加动作,例如关闭该设备、提醒该设备所有者、显示报警等或其任何组合。此外,在某些实施方式中,其它信号,例如超声波音频注入和跨话语验证可以用于进一步限制重放攻击的有效性。
图3描绘根据本发明的实施方式用于检测并验证热词的示例流程图。如图3中所描绘的,过程300可以包括在310接收对应于话语的音频数据。在320,所接收的音频数据可以被处理并且然后用于确定与该话语相关联的音频数据是否对应于热词。例如,可以在所接收的话语的音频特性和针对该设备的热词话语的音频特性之间进行比较。特别地,可以从对应于话语的所接收的音频数据生成向量的序列,并且可以将该向量的序列与关联于该设备的热词的话语的向量相比较。
在330,可以针对所接收的话语生成音频指纹。例如,对应于所接收的话语的音频数据可以用于生成或计算所接收的热词话语的热词音频指纹。在340,可以将该热词音频指纹与所存储的热词音频指纹相比较。例如,可以访问所存储的热词音频指纹的数据库,并且可以将热词音频指纹与所存储的热词音频指纹相比较,例如,确定所生成的热词音频指纹与所存储的热词音频指纹中的每一个之间的相似度。
在350,所生成的热词音频指纹与所存储的热词音频指纹之间的比较可以用于确定在所存储的热词音频指纹中的任何一个与所生成的热词音频指纹之间是否存在匹配。例如,可以确定所生成的热词音频指纹与所存储的热词音频指纹中的一个或多个之间的相似度是否满足预先确定的阈值。
如果确定所生成的热词音频指纹与所存储的热词音频指纹中的一个或多个匹配(“是”),则可以在360禁止或阻止对该设备的访问。例如,匹配可以指示未经授权的用户正在重放由授权的用户先前讲出的热词的所记录的音频,以试图获得对该设备的未经授权的访问。
如果确定所生成的热词音频指纹与所存储的热词音频指纹中的一个或多个不匹配(“否”),则可以在370启用对该设备的访问或者执行动作。例如,不匹配的确定可以指示该话语是该热词的新的独特话语而不是由授权的用户先前讲出的热词的所记录的音频的重放。
根据本公开的实施方式,可以在硬件或软件或在硬件和软件二者的组合中执行热词检测和说话者验证。基于指纹的热词验证可以在单个设备的等级上应用或者在多个设备上应用。
如果热词验证在单个设备的等级上应用,来自先前话语的指纹集合可以被本地存储在该设备上。如果来自先前话语的指纹集合被本地存储在该设备上,可以在唤醒该设备以前例如在设备的数字信号处理器上在热词检测以后发生指纹和匹配过程和功能。
如果热词验证在多个设备上应用,来自先前话语的指纹集合可以被存储在服务器上。如果来自先前话语的指纹集合被存储在服务器上,热词可以唤醒该设备,并且该热词话语或者该热词话语的音频指纹可以被发送至用于执行对后续查询或命令的识别的相同的服务器。该服务器可以验证该热词话语的独特性,并且可以返回指示应该允许还是应该拒绝该查询或命令的状态。可替代地,如果热词验证在多个设备上应用,来自先前话语的指纹集合可以在多个设备上被同步以使能待在客户端设备上执行的验证。
图4示出通用计算机设备400和通用移动计算设备450的示例,可通过本文所述技术来使用它们。计算设备400意欲表示各种形式的数字计算机,诸如膝上型、桌上型、工作站、个人数字助理、服务器、刀片服务器、主机、以及其他适当的计算机。计算设备450意欲表示各种形式的移动设备,诸如个人数字助理、蜂窝电话、智能电话、以及其他类似的计算设备。本文所示的组件、它们的连接和关系、以及它们的功能只是作为示例,并非要限制本文献所述和/或所要求保护的发明的实施方式。
计算设备400包括处理器402、存储器404、存储设备406、连接存储器404和高速扩展端口410的高速接口408、以及连接低速总线414和存储设备406的低速接口412。组件402、404、406、408、410和412中的每个组件使用各种总线互连,并且可以安装在公共主板上,或者视情况以其他方式安装。处理器402可以处理在计算设备400中执行的指令,包括存储器404中或者存储设备406上存储的指令,从而在外部输入/输出设备诸如耦接到高速接口408的显示器416上显示用于GUI的图形信息。在其他实施方式中,可以视情况连同多个存储器和多种存储器一起使用多个处理器和/或多个总线。此外,可将多个计算设备400与提供必要操作部分的每个设备相连接(例如,作为服务器群、刀片服务器群、或者多处理器系统)。
存储器404将信息存储在计算设备400中。在一个实施方式中,存储器404是易失性存储器单元或多个单元。在另一个实施方式中,存储器404是非易失性存储器单元或多个单元。存储器404也可以是其他形式的计算机可读介质,诸如磁盘或光盘。
存储设备406能够为计算设备400提供大容量存储。在一个实施方式中,存储设备406可以是计算机可读介质或包含计算机可读介质,诸如软盘设备、硬盘设备、光盘设备、或磁带设备,闪存或其他类似的固态存储器设备,或者设备的阵列,包括存储区域网络或其他配置中的设备。可以在信息载体中有形地具体实施计算机程序产品。计算机程序产品也可以包含指令,该指令在执行时进行诸如上述的一个或多个方法。信息载体是计算机可读介质或机器可读介质,诸如存储器404、存储设备406、或处理器402上的存储器。
高速控制器408管理用于计算设备400的带宽密集型操作,而低速控制器412管理较低的带宽密集型操作。这种功能分配只是示例性的。在一个实施方式中,高速控制器408耦接到存储器404、显示器416(例如通过图形处理器或加速器),并耦接到高速扩展端口410,该高速扩展端口410可接受各种扩展卡(未示出)。在该实施方式中,低速控制器412耦接到存储设备406和低速扩展端口414。可包括各种通信端口(例如,USB、蓝牙、以太网、无线以太网)的低速扩展端口可以例如通过网络适配器耦接到一个或多个输入/输出设备,诸如键盘、点击设备、扫描仪、或网络设备,诸如交换机或路由器。
计算设备400可通过多种不同形式实施,如图所示。例如,可将其实施为标准服务器420,或者在这种服务器的群组中实施多次。也可将其实施为机架服务器系统424的一部分。此外,可将其实施在个人计算机中,诸如膝上型计算机422。或者,可将来自计算设备400的组件与移动设备中的其他组件(未示出)组合,诸如设备450。这些设备中的每个设备都可包含计算设备400、450中的一个或多个,并且整个系统可以由相互通信的多个计算设备400、450组成。
除了其他组件之外,计算设备450包括处理器452、存储器464、输入/输出设备诸如显示器454、通信接口466、以及收发器468。也可以向设备450提供存储设备,诸如微型驱动器或其他设备,以提供额外的存储。组件450、452、464、454、466和468中的每个组件使用各种总线互连,并且可将若干组件安装在公共主板上,或者视情况以其他方式安装。
处理器452可以执行计算设备640中的指令,包括存储器464中存储的指令。可将处理器实施为芯片的芯片组,包括独立的多个模拟处理器和数字处理器。例如,处理器可以提供设备450的其他组件的协调,诸如用户界面的控制、设备450运行的应用、以及设备450的无线通信。
处理器452可通过控制接口648以及耦接到显示器454的显示接口456与用户通信。显示器454例如可以是TFT LCD(薄膜晶体管液晶显示器)或OLED(有机发光二极管)显示器,或其他适当的显示器技术。显示接口456可包括用于驱动显示器454的适当电路,以向用户呈现图形信息和其他信息。控制接口458可接收来自用户的命令并将它们转化,用于提交给处理器452。此外,可提供外部接口462与处理器452通信,从而实现设备450与其他设备的近区域通信。外部接口462例如在一些实施方式中提供有线通信,在其他实施方式中提供无线通信,并且还可以使用多个接口。
存储器464将信息存储在计算设备450中。可将存储器464实施为计算机可读介质或媒体、易失性存储器单元或多个单元、或者非易失性存储器单元或多个单元中的一个或多个。此外,可提供扩展存储器454并通过扩展接口452连接到设备450,该扩展接口452例如可包括SIMM(单列直插式内存模块)卡接口。这种扩展存储器454可以为设备450提供额外的存储空间,或者还可以存储用于设备450的应用或其他信息。具体而言,扩展存储器454可包括执行或补充上述过程的指令,并且还可包括安全信息。因此,例如,可以提供扩展存储器454作为用于设备450的安全模块,并且可通过允许安全使用设备450的指令编程。此外,可经由SIMM卡连同附加信息一起提供安全应用,诸如按照不可破解的方式将识别信息放入SIMM卡。
存储器例如可包括闪存和/或NVRAM存储器,如下所述。在一个实施方式中,在信息载体中有形地具体实施计算机程序产品。计算机程序产品包含指令,该指令在执行时进行如上所述的一个或多个方法。信息载体是计算机可读介质或机器可读介质,例如存储器464、扩展存储器454、处理器452上的存储器、或者例如可通过收发器468或外部接口462接收的传播信号。
设备450可通过通信接口466无线地通信,在必要时候通信接口466可包括数字信号处理电路。除了别的之外,通信接口466可以在各种模式或协议下提供通信,诸如GSM语音呼叫、SMS、EMS、或MMS消息、CDMA、TDMA、PDC、WCDMA、CDMA2000或GPRS。这种通信例如可通过射频收发器468发生。此外,短距通信诸如可使用蓝牙、WiFi、或其他这种收发器(未示出)发生。此外,GPS(全球定位系统)接收器模块450可将附加导航数据以及位置相关无线数据提供给设备450,它们可以视情况通过设备450上运行的应用来使用。
设备450也可使用音频编译码器460有声地通信,该音频编译码器460可以接收来自用户的说出的信息,并将其转化为可用的数字信息。同样,音频编译码器460可以为用户生成可听的声音,诸如通过扬声器,例如在设备450的耳机中。这种声音可包括来自话音电话呼叫的声音,可包括所记录的声音(例如话音消息、音乐文件等等),还可包括通过设备450上操作的应用所生成的声音。
可通过多种不同形式来实施计算设备450,如图所示。例如,可将其实施为蜂窝电话480。也可将其实施为智能电话482、个人数字助理、或其他类似移动设备的一部分。
描述了多个实施方式。但是应当理解,在不脱离本公开精神和范围的情况下可以进行各种修改。例如,可以使用上述流程的各种形式,将步骤重新排序,增加步骤,或去除步骤。因此,其他实施方式也落入所附权利要求书的范围内。
本发明的实施方式已经在说明书中所述的所有功能操作可以在数字电子电路中实施,或者在计算机软件、固件或硬件中实施,包括在本说明书中公开的结构及其结构等同物,或者在其一个或多个的组合中实施。本发明的实施方式可以被实施为一个或多个计算机程序产品,即,编码在计算机可读介质上的计算机程序指令的一个或多个模块,以用于由数据处理装置执行或者控制数据处理装置的操作。该计算机可读存储介质可以是机器可读存储设备、机器可读存储基底、存储器设备、产生机器可读传播信号的组合物或者其一个或多个的组合。术语“数据处理装置”涵盖用于处理数据的所有装置、设备和机器,例如,包括可编程处理器、计算机或多个处理器或多个计算机。装置除了硬件以外还可以包括代码,其创建用于所讨论的计算机程序的执行环境,例如构成处理器固件、协议栈、数据库管理系统、操作系统或者其一个或多个的组合的代码。传播信号是人工生成的信号,例如,机器生成的电学、光学或电磁信号,其被生成以编码信息以传输到合适的接收机装置。
计算机程序(又称为程序、软件、软件应用、脚本或代码)可以以任何形式的编程语言编写,包括编译或解释语言;并且其可以以任何形式部署,包括作为独立程序或作为模块、组件、子例程、或适合于在计算环境中使用的其它单元。计算机程序不必对应于文件系统中的文件。程序可以存储在保存其它程序或数据的文件的一部分中(例如,存储在标记语言文档中的一个或多个脚本)、在专用于所讨论的程序的单个文件中或者多个协同文件中(例如存储一个或多个模块、子程序或代码的部分的文件)。计算机程序可以被部署为在一个计算机上执行或者在位于一地或者跨多地分布并通过通信网络互连的多个计算机上执行。
计算机程序(又称为程序、软件、软件应用或代码)包括用于可编程处理器的机器指令,并且可以以高级程序语言和/或面向对象的编程语言和/或汇编/机器语言实施。如同本文使用的,术语“机器可读介质”、“计算机可读介质”表示用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备和/或设备(例如,磁盘、光盘、存储器、可编程逻辑器件(PLD)),包括接收机器指令作为机器可读信号的机器可读介质。术语“机器可读信号”表示用于将机器指令和/或数据提供给可编程处理器的任何信号。
在本说明书中所述的过程和逻辑流可以由执行一个或多个计算机程序的一个或多个可编程处理器执行以通过对输入数据执行操作并生成输出来执行功能。所述过程和逻辑流也可以由专用逻辑电路执行,或者装置也可以被实施为专用逻辑电路,所述专用逻辑电路例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)。
适合于执行计算机程序的处理器例如包括通用微处理器和专用微处理器二者,以及任何类型的数字计算机的任何一个或多个处理器。通常,处理器将接收来自只读存储器或随机存取存储器或二者的指令和数据。计算机的基本元件是用于执行指令的处理器和用于存储指令和数据的一个或多个存储器设备。通常,计算机也将包括用于存储数据的一个或多个大容量存储设备,例如磁盘、磁光盘或光盘,或者可以可操作地耦接到一个或多个大容量存储设备以从其接收数据或向其输送数据。然而,计算机不需要具有这样的设备。此外,计算机可以嵌入另一设备中,例如平板计算机、移动电话、个人数字助理(PDA)、移动音频播放器、全球定位系统(GPS)接收机,等等。适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储器设备,例如包括半导体存储器设备,例如EPROM、EEPROM以及闪存设备;磁盘,例如内部硬盘或可移除盘;磁光盘;以及CD ROM和DVD-ROM盘。处理器和存储器可以通过专用逻辑电路补充或并入专用逻辑电路中。
为了提供与用户的交互,可以在计算机上实施本发明的实施方式,该计算机具有用于向用户显示信息的显示设备,例如CRT(阴极射线管)或LCD(液晶显示器)监视器;以及用户由其向计算机提供输入的键盘和点击设备,例如鼠标和轨迹球。也可以使用其他类型的设备来提供与用户的交互;例如,向用户提供的反馈可以是任何形式的感觉反馈,例如,视觉反馈、听觉反馈、或触觉反馈;并且可以按照任何形式接收来自用户的输入,包括声学、语音、或触觉输入。
可以在计算系统中实施本发明的实施方式,该计算系统包括后端组件,例如作为数据服务器;或者包括中间件组件,例如应用服务器;或者包括前端组件,例如具有图形用户界面或web浏览器的客户端计算机,用户由其可与本发明的实施方式交互;或者包括一个或多个这些后端组件、中间件组件、或前端组件的任何组合。系统的组件可通过任何形式或介质的数字数据通信例如通信网络来互连。通信网络的示例包括局域网(“LAN”)以及广域网(“WAN”),例如,互联网。
计算系统可包括客户端和服务器。客户端和服务器通常相互远离,且一般通过通信网络来交互。客户端与服务器的关系由于在相应计算机上运行并且相互具有客户端-服务器关系的计算机程序而出现。
虽然本公开包含许多特例,但是这些特例不应解释为对本发明的范围或者要求保护的范围的限制,而是作为对本发明的特定实施方式所特有的特征的描述。在独立实施方式的背景下本说明书所述的某些特征也可以在单个实施方式中组合实施。相反,在单个实施方式的背景下描述的不同特征也可以单独地或者按照任何合适的子组合在多个实施方式中实施。此外,虽然上面可将特征描述为在某些组合中起作用,甚至一开始就这样要求保护,但是在有些情况下可将来自所要求保护的组合的一个或多个特征从组合中删除,并且所要求保护的组合可以指向子组合或者子组合的变型。
类似地,虽然按照特定顺序在附图中描绘了操作,但是这不应理解为要求按照所示特定顺序或者按照依次顺序进行这些操作,或者要求进行全部所示的操作,以实现期望的结果。在某些情况下,多任务和并行处理可能是有利的。此外,在上述实施方式中各种系统组件的分离不应理解为在所有实施方式中都要求这种分离,并且应当理解,所述程序组件和系统通常可以集成在单个软件产品中或者封装在多个软件产品中。
在其中提及HTML文件的每个实例中,可以代之以其它文件类型或格式。例如,HTML文件可以由XML、JSON、纯文本或其它类型的文件来替代。此外,在提及表或哈希表的情况下,可以使用其它数据结构(诸如,电子表格、关系数据库或结构化文件)。
本文所述的系统和技术的各种实施方式可以在数字电子电路、集成电路、专门设计的ASIC(专用集成电路)、计算机硬件、固件、软件和/或其组合中实现。这些各种实施方式可以包括一个或多个计算机程序中的实施方式,所述计算机程序可在可编程系统上执行和/或解释,所述可编程系统包括至少一个可编程处理器、存储系统、至少一个输入设备以及至少一个输出设备,所述可编程处理器可以是专用的或通用的,其耦接以从所述存储系统接收数据和指令并向其传送数据和指令。
因此,描述了本公开的特定实施方式。其他实施方式落入所附权利要求书的范围内。例如,权利要求中列举的动作可以按照不同的顺序进行,并且仍然实现期望的结果。描述了多个实施方式。但是应当理解,在不脱离本公开精神和范围的情况下可以进行各种修改。例如,可以使用上述流程的各种形式,将步骤重新排序,增加步骤,或去除步骤。因此,其他实施方式也落入所附权利要求书的范围内。
Claims (38)
1.一种用于热词检测的计算机实施的方法,包括:
接收对应于话语的音频数据,所述话语是在计算设备在锁定模式下操作期间被接收的,所述计算设备被配置为基于确定所述音频数据对应于热词而退出所述锁定模式;
确定所述音频数据对应于所述热词,包括:
确定所述音频数据的初始部分对应于所述热词的初始部分,以及
响应于确定所述音频数据的所述初始部分对应于所述热词的所述初始部分,使得多个独特超声波音频样本中的一个在所述音频数据的所述初始部分被接收以后被输出;
生成被确定为对应于所述热词的所述音频数据的热词音频指纹;
确定所述热词音频指纹与先前被确定为对应于所述热词的音频数据的一个或多个所存储的音频指纹之间的相似度;
基于所述热词音频指纹与所述一个或多个所存储的音频指纹中的一个之间的所述相似度是否满足预先确定的阈值,检测所述热词音频指纹是否与先前被确定为对应于所述热词的音频数据的所存储的音频指纹相匹配;以及
响应于检测到所述热词音频指纹匹配所存储的音频指纹,虽已确定所述音频数据对应于所述热词,仍然阻止向其说出了所述话语的所述计算设备退出所述锁定模式。
2.根据权利要求1所述的计算机实施的方法,其中,确定所述音频数据对应于所述热词还包括:
辨识所述音频数据的一个或多个声学特征;
将所述音频数据的所述一个或多个声学特征跟与存储在数据库中的一个或多个热词相关联的一个或多个声学特征相比较;以及
基于所述音频数据的所述一个或多个声学特征跟与存储在所述数据库中的一个或多个热词相关联的所述一个或多个声学特征的比较,确定所述音频数据对应于存储在所述数据库中的所述一个或多个热词中的一个。
3.根据权利要求1所述的计算机实施的方法,进一步包括:
接收对应于附加话语的附加音频数据;
使用所述附加音频数据辨识说话者辨识d-向量;
确定来自所述附加音频数据的所述说话者辨识d-向量与来自对应于所述话语的所述音频数据的热词d-向量之间的相似度;
基于来自所述附加音频数据的所述说话者辨识d-向量与来自对应于所述话语的所述音频数据的所述热词d-向量之间的所述相似度是否满足特定阈值,检测对应于所述热词的所述音频数据是否匹配所述附加音频数据;以及
响应于检测到对应于所述热词的所述音频数据不匹配所述附加音频数据,禁止对所述计算设备的访问。
4.根据权利要求1所述的计算机实施的方法,其中,所述热词是特定词项,所述特定词项触发对跟在所述特定词项之后的一个或多个词项中的附加词项的语义解释。
5.根据权利要求1所述的计算机实施的方法,进一步包括:
接收对应于话音命令或查询的附加音频数据;以及
确定所述话音命令或查询的类型,
其中,所述预先确定的阈值基于所述话音命令或查询的所述类型来调整。
6.根据权利要求1所述的计算机实施的方法,进一步包括:
确定所接收的音频数据包括对应于所述多个独特超声波音频样本中的一个的音频数据;以及
响应于确定所接收的音频数据包括对应于所述多个独特超声波音频样本中的一个的音频数据,禁止对所述计算设备的访问。
7.一种包括一个或多个计算机以及一个或多个存储设备的系统,所述存储设备存储指令,所述指令当由所述一个或多个计算机执行时,使得所述一个或多个计算机执行操作,所述操作包括:
接收对应于话语的音频数据,所述话语是在计算设备在锁定模式下操作期间被接收的,所述计算设备被配置为基于确定所述音频数据对应于热词而退出所述锁定模式;
确定所述音频数据对应于所述热词,包括:
确定所述音频数据的初始部分对应于所述热词的初始部分,以及
响应于确定所述音频数据的所述初始部分对应于所述热词的所述初始部分,使得多个独特超声波音频样本中的一个在所述音频数据的所述初始部分被接收以后被输出;
生成被确定为对应于所述热词的所述音频数据的热词音频指纹;
确定所述热词音频指纹与先前被确定为对应于所述热词的音频数据的一个或多个所存储的音频指纹之间的相似度;
基于所述热词音频指纹与所述一个或多个所存储的音频指纹中的一个之间的所述相似度是否满足预先确定的阈值,检测所述热词音频指纹是否与先前被确定为对应于所述热词的音频数据的所存储的音频指纹相匹配;以及
响应于检测到所述热词音频指纹匹配所存储的音频指纹,虽已确定所述音频数据对应于所述热词,仍然阻止向其说出了所述话语的所述计算设备退出所述锁定模式。
8.根据权利要求7所述的系统,其中,确定所述音频数据对应于所述热词还包括:
辨识所述音频数据的一个或多个声学特征;
将所述音频数据的所述一个或多个声学特征跟与存储在数据库中的一个或多个热词相关联的一个或多个声学特征相比较;以及
基于所述音频数据的所述一个或多个声学特征跟与存储在所述数据库中的一个或多个热词相关联的所述一个或多个声学特征的比较,确定所述音频数据对应于存储在所述数据库中的所述一个或多个热词中的一个。
9.根据权利要求7所述的系统,其中,所述操作进一步包括:
接收对应于附加话语的附加音频数据;
使用所述附加音频数据辨识说话者辨识d-向量;
确定来自所述附加音频数据的所述说话者辨识d-向量与来自对应于所述话语的所述音频数据的热词d-向量之间的相似度;
基于来自所述附加音频数据的所述说话者辨识d-向量与来自对应于所述话语的所述音频数据的所述热词d-向量之间的所述相似度是否满足特定阈值,检测对应于所述热词的所述音频数据是否匹配所述附加音频数据;以及
响应于检测到对应于所述热词的所述音频数据不匹配所述附加音频数据,禁止对所述计算设备的访问。
10.根据权利要求7所述的系统,其中,所述热词是特定词项,所述特定词项触发对跟在所述特定词项之后的一个或多个词项中的附加词项的语义解释。
11.根据权利要求7所述的系统,其中,所述操作进一步包括:
接收对应于话音命令或查询的附加音频数据;以及
确定所述话音命令或查询的类型,
其中,所述预先确定的阈值基于所述话音命令或查询的所述类型来加权。
12.根据权利要求7所述的系统,其中,所述操作进一步包括:
确定所接收的音频数据包括对应于所述多个独特超声波音频样本中的一个的音频数据;以及
响应于确定所接收的音频数据包括对应于所述多个独特超声波音频样本中的一个的音频数据,禁止对所述计算设备的访问。
13.一种存储指令的计算机可读存储设备,所述指令当由一个或多个计算机执行时,使得所述一个或多个计算机执行操作,所述操作包括:
接收对应于话语的音频数据,所述话语是在计算设备在锁定模式下操作期间被接收的,所述计算设备被配置为基于确定所述音频数据对应于热词而退出所述锁定模式;
确定所述音频数据对应于所述热词,包括:
确定所述音频数据的初始部分对应于所述热词的初始部分,以及
响应于确定所述音频数据的所述初始部分对应于所述热词的所述初始部分,使得多个独特超声波音频样本中的一个在所述音频数据的所述初始部分被接收以后被输出;
生成被确定为对应于所述热词的所述音频数据的热词音频指纹;
确定所述热词音频指纹与先前被确定为对应于所述热词的音频数据的一个或多个所存储的音频指纹之间的相似度;
基于所述热词音频指纹与所述一个或多个所存储的音频指纹中的一个之间的所述相似度是否满足预先确定的阈值,检测所述热词音频指纹是否与先前被确定为对应于所述热词的音频数据的所存储的音频指纹相匹配;以及
响应于检测到所述热词音频指纹匹配所存储的音频指纹,虽已确定所述音频数据对应于所述热词,仍然阻止向其说出了所述话语的所述计算设备退出所述锁定模式。
14.根据权利要求13所述的计算机可读存储设备,其中,确定所述音频数据对应于所述热词还包括:
辨识所述音频数据的一个或多个声学特征;
将所述音频数据的所述一个或多个声学特征跟与存储在数据库中的一个或多个热词相关联的一个或多个声学特征相比较;以及
基于所述音频数据的所述一个或多个声学特征跟与存储在所述数据库中的一个或多个热词相关联的所述一个或多个声学特征的比较,确定所述音频数据对应于存储在所述数据库中的所述一个或多个热词中的一个。
15.根据权利要求13所述的计算机可读存储设备,其中,所述操作进一步包括:
接收对应于附加话语的附加音频数据;
使用所述附加音频数据辨识说话者辨识d-向量;
确定来自所述附加音频数据的所述说话者辨识d-向量与来自对应于所述话语的所述音频数据的热词d-向量之间的相似度;
基于来自所述附加音频数据的所述说话者辨识d-向量与来自对应于所述话语的所述音频数据的所述热词d-向量之间的所述相似度是否满足特定阈值,检测对应于所述热词的所述音频数据是否匹配所述附加音频数据;以及
响应于检测到对应于所述热词的所述音频数据不匹配所述附加音频数据,禁止对所述计算设备的访问。
16.根据权利要求13所述的计算机可读存储设备,其中,所述热词是特定词项,所述特定词项触发对跟在所述特定词项之后的一个或多个词项中的附加词项的语义解释。
17.根据权利要求13所述的计算机可读存储设备,其中,所述操作进一步包括:
接收对应于话音命令或查询的附加音频数据;以及
确定所述话音命令或查询的类型,
其中,所述预先确定的阈值基于所述话音命令或查询的所述类型来加权。
18.根据权利要求13所述的计算机可读存储设备,其中,确定所述音频数据对应于所述热词还包括:
确定所接收的音频数据包括对应于所述多个独特超声波音频样本中的一个的音频数据;以及
响应于确定所接收的音频数据包括对应于所述多个独特超声波音频样本中的一个的音频数据,禁止对所述计算设备的访问。
19.一种用于热词检测的计算机实施的方法,包括:
由移动计算设备接收对应于热词的初始部分的话语的初始音频输入,其中所述移动计算设备(1)正在对一个或多个资源的访问被禁止的模式下操作、并且(2)被配置为一旦检测到热词的话语则退出对所述一个或多个资源的访问被禁止的所述模式;
在所述热词的剩余部分正被讲出的同时并且在所述热词被完全讲出以前,由所述移动计算设备提供验证音频以通过所述移动计算设备的扬声器输出;以及
在所述热词被完全讲出以后选择性地退出对所述一个或多个资源的访问被禁止的所述模式。
20.根据权利要求19所述的计算机实施的方法,其中,所述验证音频包括多个独特超声波音频样本中的一个。
21.根据权利要求19所述的计算机实施的方法,其中,所述热词是特定词项,所述特定词项触发对跟在所述特定词项之后的一个或多个词项中的附加词项的语义解释。
22.根据权利要求19所述的计算机实施的方法,进一步包括:
由所述移动计算设备接收对应于热词的所述剩余部分的话语的附加音频输入;
确定对应于热词的初始部分的话语的所述初始音频输入或者对应于热词的所述剩余部分的话语的所述附加音频输入中的任一个包括对应于与被提供以通过所述移动计算设备的所述扬声器输出的所述验证音频不同的验证音频的音频数据;以及
禁止对所述移动计算设备的一个或多个资源的访问。
23.根据权利要求22所述的计算机实施的方法,其中,禁止对所述移动计算设备的一个或多个资源的访问包括以下中的一个或多个:防止所述移动计算设备被解锁、锁定所述移动计算设备、发起认证过程以及防止所述移动计算设备唤醒。
24.根据权利要求19所述的计算机实施的方法,进一步包括:
由所述移动计算设备接收对应于热词的所述剩余部分的话语的附加音频输入;
确定对应于热词的初始部分的话语的所述初始音频输入和对应于热词的所述剩余部分的话语的所述附加音频输入共同地对应于整个所述热词,
其中,选择性地退出所述模式至少部分地基于确定对应于热词的初始部分的话语的所述初始音频输入和对应于热词的所述剩余部分的话语的所述附加音频输入共同地对应于整个所述热词。
25.根据权利要求19所述的计算机实施的方法,其中,所述验证音频与对应于热词的初始部分的话语的所述初始音频输入相关联地存储在数据库中。
26.一种包括一个或多个计算机以及一个或多个存储设备的系统,所述存储设备存储指令,所述指令当由所述一个或多个计算机执行时,使得所述一个或多个计算机执行操作,所述操作包括:
由移动计算设备接收对应于热词的初始部分的话语的初始音频输入,其中所述移动计算设备(1)正在对一个或多个资源的访问被禁止的模式下操作、并且(2)被配置为一旦检测到热词的话语则退出对所述一个或多个资源的访问被禁止的所述模式;
在所述热词的剩余部分正被讲出的同时并且在所述热词被完全讲出以前,由所述移动计算设备提供验证音频以通过所述移动计算设备的扬声器输出;以及
在所述热词被完全讲出以后选择性地退出对所述一个或多个资源的访问被禁止的所述模式。
27.根据权利要求26所述的系统,其中,所述验证音频包括多个独特超声波音频样本中的一个。
28.根据权利要求26所述的系统,其中,所述热词是特定词项,所述特定词项触发对跟在所述特定词项之后的一个或多个词项中的附加词项的语义解释。
29.根据权利要求26所述的系统,其中所述操作进一步包括:
由所述移动计算设备接收对应于热词的所述剩余部分的话语的附加音频输入;
确定对应于热词的初始部分的话语的所述初始音频输入或者对应于热词的所述剩余部分的话语的所述附加音频输入中的任一个包括对应于与被提供以通过所述移动计算设备的所述扬声器输出的所述验证音频不同的验证音频的音频数据;以及
禁止对所述移动计算设备的一个或多个资源的访问。
30.根据权利要求29所述的系统,其中,禁止对所述移动计算设备的一个或多个资源的访问包括以下中的一个或多个:防止所述移动计算设备被解锁、锁定所述移动计算设备、发起认证过程以及防止所述移动计算设备唤醒。
31.根据权利要求26所述的系统,其中所述操作进一步包括:
由所述移动计算设备接收对应于热词的所述剩余部分的话语的附加音频输入;
确定对应于热词的初始部分的话语的所述初始音频输入和对应于热词的所述剩余部分的话语的所述附加音频输入共同地对应于整个所述热词,
其中,选择性地退出所述模式至少部分地基于确定对应于热词的初始部分的话语的所述初始音频输入和对应于热词的所述剩余部分的话语的所述附加音频输入共同地对应于整个所述热词。
32.根据权利要求26所述的系统,其中,所述验证音频与对应于热词的初始部分的话语的所述初始音频输入相关联地存储在数据库中。
33.一种存储指令的计算机可读存储设备,所述指令当由一个或多个计算机执行时,使得所述一个或多个计算机执行操作,所述操作包括:
由移动计算设备接收对应于热词的初始部分的话语的初始音频输入,其中所述移动计算设备(1)正在对一个或多个资源的访问被禁止的模式下操作、并且(2)被配置为一旦检测到热词的话语则退出对所述一个或多个资源的访问被禁止的所述模式;
在所述热词的剩余部分正被讲出的同时并且在所述热词被完全讲出以前,由所述移动计算设备提供验证音频以通过所述移动计算设备的扬声器输出;以及
在所述热词被完全讲出以后选择性地退出对所述一个或多个资源的访问被禁止的所述模式。
34.根据权利要求33所述的计算机可读存储设备,其中,所述验证音频包括多个独特超声波音频样本中的一个。
35.根据权利要求33所述的计算机可读存储设备,其中,所述热词是特定词项,所述特定词项触发对跟在所述特定词项之后的一个或多个词项中的附加词项的语义解释。
36.根据权利要求33所述的计算机可读存储设备,其中所述操作进一步包括:
由所述移动计算设备接收对应于热词的所述剩余部分的话语的附加音频输入;
确定对应于热词的初始部分的话语的所述初始音频输入或者对应于热词的所述剩余部分的话语的所述附加音频输入中的任一个包括对应于与被提供以通过所述移动计算设备的所述扬声器输出的所述验证音频不同的验证音频的音频数据;以及
禁止对所述移动计算设备的一个或多个资源的访问。
37.根据权利要求36所述的计算机可读存储设备,其中,禁止对所述移动计算设备的一个或多个资源的访问包括以下中的一个或多个:防止所述移动计算设备被解锁、锁定所述移动计算设备、发起认证过程以及防止所述移动计算设备唤醒。
38.根据权利要求33所述的计算机可读存储设备,其中所述操作进一步包括:
由所述移动计算设备接收对应于热词的所述剩余部分的话语的附加音频输入;
确定对应于热词的初始部分的话语的所述初始音频输入和对应于热词的所述剩余部分的话语的所述附加音频输入共同地对应于整个所述热词,
其中,选择性地退出所述模式至少部分地基于确定对应于热词的初始部分的话语的所述初始音频输入和对应于热词的所述剩余部分的话语的所述附加音频输入共同地对应于整个所述热词。
Applications Claiming Priority (8)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201562242650P | 2015-10-16 | 2015-10-16 | |
US62/242,650 | 2015-10-16 | ||
US14/943,287 | 2015-11-17 | ||
US14/943,287 US9747926B2 (en) | 2015-10-16 | 2015-11-17 | Hotword recognition |
US15/176,482 US9934783B2 (en) | 2015-10-16 | 2016-06-08 | Hotword recognition |
US15/176,830 US9928840B2 (en) | 2015-10-16 | 2016-06-08 | Hotword recognition |
US15/176,830 | 2016-06-08 | ||
US15/176,482 | 2016-06-08 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107016999A CN107016999A (zh) | 2017-08-04 |
CN107016999B true CN107016999B (zh) | 2022-06-14 |
Family
ID=58550238
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610825577.5A Active CN107016999B (zh) | 2015-10-16 | 2016-09-14 | 热词识别 |
Country Status (4)
Country | Link |
---|---|
US (1) | US10650828B2 (zh) |
JP (1) | JP6463710B2 (zh) |
KR (3) | KR101918696B1 (zh) |
CN (1) | CN107016999B (zh) |
Families Citing this family (81)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10509626B2 (en) | 2016-02-22 | 2019-12-17 | Sonos, Inc | Handling of loss of pairing between networked devices |
US10264030B2 (en) | 2016-02-22 | 2019-04-16 | Sonos, Inc. | Networked microphone device control |
US9772817B2 (en) | 2016-02-22 | 2017-09-26 | Sonos, Inc. | Room-corrected voice detection |
US10095470B2 (en) | 2016-02-22 | 2018-10-09 | Sonos, Inc. | Audio response playback |
US9978390B2 (en) | 2016-06-09 | 2018-05-22 | Sonos, Inc. | Dynamic player selection for audio signal processing |
US10134399B2 (en) | 2016-07-15 | 2018-11-20 | Sonos, Inc. | Contextualization of voice inputs |
US10115400B2 (en) | 2016-08-05 | 2018-10-30 | Sonos, Inc. | Multiple voice services |
US9942678B1 (en) | 2016-09-27 | 2018-04-10 | Sonos, Inc. | Audio playback settings for voice interaction |
US10181323B2 (en) | 2016-10-19 | 2019-01-15 | Sonos, Inc. | Arbitration-based voice recognition |
US10079015B1 (en) * | 2016-12-06 | 2018-09-18 | Amazon Technologies, Inc. | Multi-layer keyword detection |
US11183181B2 (en) | 2017-03-27 | 2021-11-23 | Sonos, Inc. | Systems and methods of multiple voice services |
US10170112B2 (en) | 2017-05-11 | 2019-01-01 | Google Llc | Detecting and suppressing voice queries |
US10395650B2 (en) * | 2017-06-05 | 2019-08-27 | Google Llc | Recorded media hotword trigger suppression |
WO2019002831A1 (en) | 2017-06-27 | 2019-01-03 | Cirrus Logic International Semiconductor Limited | REPRODUCTIVE ATTACK DETECTION |
GB2563953A (en) | 2017-06-28 | 2019-01-02 | Cirrus Logic Int Semiconductor Ltd | Detection of replay attack |
GB201801526D0 (en) | 2017-07-07 | 2018-03-14 | Cirrus Logic Int Semiconductor Ltd | Methods, apparatus and systems for authentication |
GB201801527D0 (en) | 2017-07-07 | 2018-03-14 | Cirrus Logic Int Semiconductor Ltd | Method, apparatus and systems for biometric processes |
GB201801532D0 (en) | 2017-07-07 | 2018-03-14 | Cirrus Logic Int Semiconductor Ltd | Methods, apparatus and systems for audio playback |
US10475449B2 (en) | 2017-08-07 | 2019-11-12 | Sonos, Inc. | Wake-word detection suppression |
US10048930B1 (en) | 2017-09-08 | 2018-08-14 | Sonos, Inc. | Dynamic computation of system response volume |
KR102087202B1 (ko) * | 2017-09-13 | 2020-03-10 | (주)파워보이스 | 인공 지능 비서 서비스 제공 방법, 및 이에 사용되는 음성 인식 장비 |
US10446165B2 (en) | 2017-09-27 | 2019-10-15 | Sonos, Inc. | Robust short-time fourier transform acoustic echo cancellation during audio playback |
US10051366B1 (en) | 2017-09-28 | 2018-08-14 | Sonos, Inc. | Three-dimensional beam forming with a microphone array |
US10482868B2 (en) | 2017-09-28 | 2019-11-19 | Sonos, Inc. | Multi-channel acoustic echo cancellation |
US10466962B2 (en) | 2017-09-29 | 2019-11-05 | Sonos, Inc. | Media playback system with voice assistance |
CN107799120A (zh) * | 2017-11-10 | 2018-03-13 | 北京康力优蓝机器人科技有限公司 | 服务机器人识别唤醒方法及装置 |
CN108109619B (zh) * | 2017-11-15 | 2021-07-06 | 中国科学院自动化研究所 | 基于记忆和注意力模型的听觉选择方法和装置 |
US10276175B1 (en) * | 2017-11-28 | 2019-04-30 | Google Llc | Key phrase detection with audio watermarking |
US10880650B2 (en) | 2017-12-10 | 2020-12-29 | Sonos, Inc. | Network microphone devices with automatic do not disturb actuation capabilities |
US10818290B2 (en) | 2017-12-11 | 2020-10-27 | Sonos, Inc. | Home graph |
US11475899B2 (en) | 2018-01-23 | 2022-10-18 | Cirrus Logic, Inc. | Speaker identification |
US11735189B2 (en) | 2018-01-23 | 2023-08-22 | Cirrus Logic, Inc. | Speaker identification |
US11264037B2 (en) | 2018-01-23 | 2022-03-01 | Cirrus Logic, Inc. | Speaker identification |
JP7186375B2 (ja) | 2018-03-29 | 2022-12-09 | パナソニックIpマネジメント株式会社 | 音声処理装置、音声処理方法および音声処理システム |
US11175880B2 (en) | 2018-05-10 | 2021-11-16 | Sonos, Inc. | Systems and methods for voice-assisted media content selection |
CN112689871B (zh) * | 2018-05-17 | 2024-08-02 | 谷歌有限责任公司 | 使用神经网络以目标讲话者的话音从文本合成语音 |
GB2573809B (en) | 2018-05-18 | 2020-11-04 | Emotech Ltd | Speaker Recognition |
US10692496B2 (en) * | 2018-05-22 | 2020-06-23 | Google Llc | Hotword suppression |
US10959029B2 (en) | 2018-05-25 | 2021-03-23 | Sonos, Inc. | Determining and adapting to changes in microphone performance of playback devices |
JP6786018B2 (ja) * | 2018-07-18 | 2020-11-18 | 三菱電機株式会社 | 音声認識装置、車載用ナビゲーション装置、自動音声対話装置、及び音声認識方法 |
US10692490B2 (en) | 2018-07-31 | 2020-06-23 | Cirrus Logic, Inc. | Detection of replay attack |
US11076035B2 (en) | 2018-08-28 | 2021-07-27 | Sonos, Inc. | Do not disturb feature for audio notifications |
US10915614B2 (en) | 2018-08-31 | 2021-02-09 | Cirrus Logic, Inc. | Biometric authentication |
CN110875058A (zh) * | 2018-08-31 | 2020-03-10 | 中国移动通信有限公司研究院 | 一种语音通信处理方法、终端设备及服务器 |
US10587430B1 (en) | 2018-09-14 | 2020-03-10 | Sonos, Inc. | Networked devices, systems, and methods for associating playback devices based on sound codes |
US11024331B2 (en) | 2018-09-21 | 2021-06-01 | Sonos, Inc. | Voice detection optimization using sound metadata |
CN119028321A (zh) * | 2018-09-25 | 2024-11-26 | 谷歌有限责任公司 | 使用说话者嵌入和所训练的生成模型的说话者日志 |
US10811015B2 (en) * | 2018-09-25 | 2020-10-20 | Sonos, Inc. | Voice detection optimization based on selected voice assistant service |
US11100923B2 (en) | 2018-09-28 | 2021-08-24 | Sonos, Inc. | Systems and methods for selective wake word detection using neural network models |
US10692518B2 (en) | 2018-09-29 | 2020-06-23 | Sonos, Inc. | Linear filtering for noise-suppressed speech detection via multiple network microphone devices |
US11899519B2 (en) | 2018-10-23 | 2024-02-13 | Sonos, Inc. | Multiple stage network microphone device with reduced power consumption and processing load |
KR102102387B1 (ko) * | 2018-10-29 | 2020-04-21 | 주식회사 사운드잇 | 다채널오디오스트리밍에서 화자의 발화구간을 검출하는 방법 및 시스템 |
EP3654249A1 (en) | 2018-11-15 | 2020-05-20 | Snips | Dilated convolutions and gating for efficient keyword spotting |
CN118609546A (zh) * | 2018-12-03 | 2024-09-06 | 谷歌有限责任公司 | 文本无关的说话者识别 |
US11183183B2 (en) | 2018-12-07 | 2021-11-23 | Sonos, Inc. | Systems and methods of operating media playback systems having multiple voice assistant services |
JP7271925B2 (ja) * | 2018-12-07 | 2023-05-12 | コニカミノルタ株式会社 | 音声操作システム、音声操作方法および音声操作プログラム |
US11132989B2 (en) | 2018-12-13 | 2021-09-28 | Sonos, Inc. | Networked microphone devices, systems, and methods of localized arbitration |
US10602268B1 (en) | 2018-12-20 | 2020-03-24 | Sonos, Inc. | Optimization of network microphone devices using noise classification |
CN109448725A (zh) * | 2019-01-11 | 2019-03-08 | 百度在线网络技术(北京)有限公司 | 一种语音交互设备唤醒方法、装置、设备及存储介质 |
JP6635394B1 (ja) | 2019-01-29 | 2020-01-22 | パナソニックIpマネジメント株式会社 | 音声処理装置および音声処理方法 |
US10867604B2 (en) | 2019-02-08 | 2020-12-15 | Sonos, Inc. | Devices, systems, and methods for distributed voice processing |
US10992297B2 (en) | 2019-03-29 | 2021-04-27 | Cirrus Logic, Inc. | Device comprising force sensors |
US11120794B2 (en) | 2019-05-03 | 2021-09-14 | Sonos, Inc. | Voice assistant persistence across multiple network microphone devices |
US10871943B1 (en) | 2019-07-31 | 2020-12-22 | Sonos, Inc. | Noise classification for event detection |
US11138969B2 (en) | 2019-07-31 | 2021-10-05 | Sonos, Inc. | Locally distributed keyword detection |
US11189286B2 (en) | 2019-10-22 | 2021-11-30 | Sonos, Inc. | VAS toggle based on device orientation |
CN110765239B (zh) * | 2019-10-29 | 2023-03-28 | 腾讯科技(深圳)有限公司 | 热词识别方法、装置及存储介质 |
US11200900B2 (en) | 2019-12-20 | 2021-12-14 | Sonos, Inc. | Offline voice control |
US11562740B2 (en) | 2020-01-07 | 2023-01-24 | Sonos, Inc. | Voice verification for media playback |
US20210224078A1 (en) * | 2020-01-17 | 2021-07-22 | Syntiant | Systems and Methods for Generating Wake Signals from Known Users |
US11556307B2 (en) | 2020-01-31 | 2023-01-17 | Sonos, Inc. | Local voice data processing |
US11308958B2 (en) | 2020-02-07 | 2022-04-19 | Sonos, Inc. | Localized wakeword verification |
KR20220151660A (ko) * | 2020-04-08 | 2022-11-15 | 구글 엘엘씨 | 노이즈에 강건한 키워드 스포팅을 위한 캐스케이드 아키텍처 |
RU2767962C2 (ru) | 2020-04-13 | 2022-03-22 | Общество С Ограниченной Ответственностью «Яндекс» | Способ и система для распознавания воспроизведенного речевого фрагмента |
US11308962B2 (en) | 2020-05-20 | 2022-04-19 | Sonos, Inc. | Input detection windowing |
US11482224B2 (en) | 2020-05-20 | 2022-10-25 | Sonos, Inc. | Command keywords with input detection windowing |
US11698771B2 (en) | 2020-08-25 | 2023-07-11 | Sonos, Inc. | Vocal guidance engines for playback devices |
US11984123B2 (en) | 2020-11-12 | 2024-05-14 | Sonos, Inc. | Network device interaction by range |
US11948565B2 (en) * | 2020-12-11 | 2024-04-02 | Google Llc | Combining device or assistant-specific hotwords in a single utterance |
US11915711B2 (en) | 2021-07-20 | 2024-02-27 | Direct Cursus Technology L.L.C | Method and system for augmenting audio signals |
CN114067836A (zh) * | 2021-10-28 | 2022-02-18 | 歌尔科技有限公司 | 违规内容检测方法、装置、耳机设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1291324A (zh) * | 1997-01-31 | 2001-04-11 | T-内提克斯公司 | 检测录制声音的系统和方法 |
CN103327158A (zh) * | 2012-03-19 | 2013-09-25 | 上海博路信息技术有限公司 | 一种语音识别的锁定和开锁方法 |
CN103366745A (zh) * | 2012-03-29 | 2013-10-23 | 三星电子(中国)研发中心 | 基于语音识别保护终端设备的方法及其终端设备 |
CN103477342A (zh) * | 2011-03-21 | 2013-12-25 | 苹果公司 | 使用话音验证的装置存取 |
CN103714813A (zh) * | 2012-10-05 | 2014-04-09 | 阿瓦亚公司 | 短语辨认系统和方法 |
Family Cites Families (40)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5265191A (en) | 1991-09-17 | 1993-11-23 | At&T Bell Laboratories | Technique for voice-based security systems |
US6330672B1 (en) | 1997-12-03 | 2001-12-11 | At&T Corp. | Method and apparatus for watermarking digital bitstreams |
JPH11231895A (ja) * | 1998-02-17 | 1999-08-27 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識方法及びその装置 |
US7013301B2 (en) | 2003-09-23 | 2006-03-14 | Predixis Corporation | Audio fingerprinting system and method |
US7444353B1 (en) | 2000-01-31 | 2008-10-28 | Chen Alexander C | Apparatus for delivering music and information |
US6963975B1 (en) | 2000-08-11 | 2005-11-08 | Microsoft Corporation | System and method for audio fingerprinting |
US20040059922A1 (en) | 2002-09-20 | 2004-03-25 | Harris Rodney C. | Continuous voice recognition for user authentication by a digital transmitting device |
US7516074B2 (en) | 2005-09-01 | 2009-04-07 | Auditude, Inc. | Extraction and matching of characteristic fingerprints from audio signals |
KR100711094B1 (ko) | 2005-11-29 | 2007-04-27 | 삼성전자주식회사 | 분산 통신 환경에서의 이동체들 간의 자원 할당 방법 |
US20070239675A1 (en) | 2006-03-29 | 2007-10-11 | Microsoft Corporation | Web search media service |
US8411977B1 (en) | 2006-08-29 | 2013-04-02 | Google Inc. | Audio identification using wavelet-based signatures |
GB2456731B (en) | 2006-12-22 | 2011-02-16 | Apple Inc | Communicating and storing information associated with media broadcasts |
US20080222105A1 (en) | 2007-03-09 | 2008-09-11 | Joseph Matheny | Entity recommendation system using restricted information tagged to selected entities |
US20080275846A1 (en) | 2007-05-04 | 2008-11-06 | Sony Ericsson Mobile Communications Ab | Filtering search results using contact lists |
US8375131B2 (en) | 2007-12-21 | 2013-02-12 | Yahoo! Inc. | Media toolbar and aggregated/distributed media ecosystem |
WO2010027847A1 (en) | 2008-08-26 | 2010-03-11 | Dolby Laboratories Licensing Corporation | Robust media fingerprints |
US20100070488A1 (en) | 2008-09-12 | 2010-03-18 | Nortel Networks Limited | Ranking search results based on affinity criteria |
DE102008058883B4 (de) * | 2008-11-26 | 2023-07-27 | Lumenvox Corporation | Verfahren und Anordnung zur Steuerung eines Nutzerzugriffs |
GB2466242B (en) * | 2008-12-15 | 2013-01-02 | Audio Analytic Ltd | Sound identification systems |
US8180765B2 (en) | 2009-06-15 | 2012-05-15 | Telefonaktiebolaget L M Ericsson (Publ) | Device and method for selecting at least one media for recommendation to a user |
US8402533B2 (en) | 2010-08-06 | 2013-03-19 | Google Inc. | Input to locked computing device |
GB2483370B (en) | 2010-09-05 | 2015-03-25 | Mobile Res Labs Ltd | A system and method for engaging a person in the presence of ambient audio |
US9093120B2 (en) | 2011-02-10 | 2015-07-28 | Yahoo! Inc. | Audio fingerprint extraction by scaling in time and resampling |
US9087182B2 (en) | 2011-03-02 | 2015-07-21 | Blackberry Limited | Password-based operation of a locked computing device |
WO2013029838A1 (en) | 2011-08-29 | 2013-03-07 | Telefonica, S.A. | A method to generate audio fingerprints |
US20130117259A1 (en) | 2011-11-04 | 2013-05-09 | Nathan J. Ackerman | Search Query Context |
US20130124371A1 (en) | 2011-11-15 | 2013-05-16 | Verizon Patent And Licensing Inc. | Determining local catalog of digital content |
US9665643B2 (en) | 2011-12-30 | 2017-05-30 | Microsoft Technology Licensing, Llc | Knowledge-based entity detection and disambiguation |
US8484017B1 (en) | 2012-09-10 | 2013-07-09 | Google Inc. | Identifying media content |
JP2014081441A (ja) * | 2012-10-15 | 2014-05-08 | Sharp Corp | コマンド判定装置およびその制御方法、コマンド判定プログラム |
US9378733B1 (en) | 2012-12-19 | 2016-06-28 | Google Inc. | Keyword detection without decoding |
EP2989807A4 (en) | 2013-05-03 | 2016-11-09 | Digimarc Corp | WATERMARK MARKING AND SIGNAL RECOGNITION FOR ADMINISTERING AND DIVISION OF INTEGRATED CONTENT, METADATA RECORDING AND RELATED ARRANGEMENTS |
US9258425B2 (en) | 2013-05-22 | 2016-02-09 | Nuance Communications, Inc. | Method and system for speaker verification |
JP6179337B2 (ja) * | 2013-10-17 | 2017-08-16 | 富士通株式会社 | 音声認証装置、音声認証方法及び音声認証プログラム |
US8768712B1 (en) | 2013-12-04 | 2014-07-01 | Google Inc. | Initiating actions based on partial hotwords |
US9424841B2 (en) | 2014-10-09 | 2016-08-23 | Google Inc. | Hotword detection on multiple devices |
US9769564B2 (en) * | 2015-02-11 | 2017-09-19 | Google Inc. | Methods, systems, and media for ambient background noise modification based on mood and/or behavior information |
US9704488B2 (en) | 2015-03-20 | 2017-07-11 | Microsoft Technology Licensing, Llc | Communicating metadata that identifies a current speaker |
US9928840B2 (en) | 2015-10-16 | 2018-03-27 | Google Llc | Hotword recognition |
US9747926B2 (en) | 2015-10-16 | 2017-08-29 | Google Inc. | Hotword recognition |
-
2016
- 2016-09-14 CN CN201610825577.5A patent/CN107016999B/zh active Active
- 2016-09-14 JP JP2016179290A patent/JP6463710B2/ja active Active
- 2016-10-11 KR KR1020160131573A patent/KR101918696B1/ko active Active
- 2016-10-11 KR KR1020160131558A patent/KR101917790B1/ko active Active
- 2016-10-11 KR KR1020160131571A patent/KR101917791B1/ko active Active
-
2019
- 2019-03-25 US US16/362,990 patent/US10650828B2/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1291324A (zh) * | 1997-01-31 | 2001-04-11 | T-内提克斯公司 | 检测录制声音的系统和方法 |
CN103477342A (zh) * | 2011-03-21 | 2013-12-25 | 苹果公司 | 使用话音验证的装置存取 |
CN103327158A (zh) * | 2012-03-19 | 2013-09-25 | 上海博路信息技术有限公司 | 一种语音识别的锁定和开锁方法 |
CN103366745A (zh) * | 2012-03-29 | 2013-10-23 | 三星电子(中国)研发中心 | 基于语音识别保护终端设备的方法及其终端设备 |
CN103714813A (zh) * | 2012-10-05 | 2014-04-09 | 阿瓦亚公司 | 短语辨认系统和方法 |
Also Published As
Publication number | Publication date |
---|---|
KR20170045123A (ko) | 2017-04-26 |
JP2017076117A (ja) | 2017-04-20 |
CN107016999A (zh) | 2017-08-04 |
KR101917791B1 (ko) | 2018-11-13 |
KR20180040028A (ko) | 2018-04-19 |
KR20180040027A (ko) | 2018-04-19 |
US20190287536A1 (en) | 2019-09-19 |
KR101918696B1 (ko) | 2018-11-14 |
US10650828B2 (en) | 2020-05-12 |
KR101917790B1 (ko) | 2018-11-13 |
JP6463710B2 (ja) | 2019-02-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107016999B (zh) | 热词识别 | |
US10262659B2 (en) | Hotword recognition | |
US9934783B2 (en) | Hotword recognition | |
CN110060694B (zh) | 用于说话者验证的动态阈值 | |
US9792914B2 (en) | Speaker verification using co-location information |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: California, USA Applicant after: Google limited liability company Address before: California, USA Applicant before: Google Inc. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |