CN111475206B - 用于唤醒可穿戴设备的方法及装置 - Google Patents
用于唤醒可穿戴设备的方法及装置 Download PDFInfo
- Publication number
- CN111475206B CN111475206B CN201910007365.XA CN201910007365A CN111475206B CN 111475206 B CN111475206 B CN 111475206B CN 201910007365 A CN201910007365 A CN 201910007365A CN 111475206 B CN111475206 B CN 111475206B
- Authority
- CN
- China
- Prior art keywords
- wearer
- sound signal
- detected
- wearable device
- sound
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/4401—Bootstrapping
- G06F9/4418—Suspend and resume; Hibernate and awake
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
- G06F3/015—Input arrangements based on nervous system activity detection, e.g. brain waves [EEG] detection, electromyograms [EMG] detection, electrodermal response detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
- G06V40/169—Holistic features and representations, i.e. based on the facial image taken as a whole
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
- G06V40/176—Dynamic expression
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/70—Multimodal biometrics, e.g. combining information from different biometric modalities
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2460/00—Details of hearing devices, i.e. of ear- or headphones covered by H04R1/10 or H04R5/033 but not provided for in any of their subgroups, or of hearing aids covered by H04R25/00 but not provided for in any of its subgroups
- H04R2460/13—Hearing devices using bone conduction transducers
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Biomedical Technology (AREA)
- Dermatology (AREA)
- Neurology (AREA)
- Neurosurgery (AREA)
- Computer Security & Cryptography (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- User Interface Of Digital Computer (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
Abstract
本发明公开涉及用于唤醒可穿戴设备的方法及装置。该方法包括:基于所检测到的声音信号,确定所述声音信号是否来自于可穿戴设备的佩戴者;基于所述声音信号,利用语音分类模型来确定所述声音信号是否属于所述佩戴者与所述可穿戴设备之间的对话;以及在所述声音信号来自于所述佩戴者且所述声音信号属于所述佩戴者与所述可穿戴设备之间的对话时,唤醒所述可穿戴设备。该方法及装置利用该方法及装置能够在佩戴者与可穿戴设备的正常交互过程中唤醒可穿戴设备,从而能够实现自然的唤醒过程,提高可穿戴设备的用户体验。
Description
技术领域
本公开涉及电子设备领域,具体地,涉及用于唤醒可穿戴设备的方法及装置。
背景技术
随着科技的发展,可穿戴设备正逐步在人们的生活中占据重要的地位。考虑到功耗以及电池续航等问题,可穿戴设备通常不会一直处于正常工作状态。在用户需要使用时,可以通过一定手段将可穿戴设备唤醒至正常工作状态。
现有技术中,唤醒可穿戴设备的方式(例如有唤醒词方法)都不够自然。利用唤醒词来唤醒可穿戴设备时,由用户说出某个特定唤醒词,可穿戴设备监听到唤醒词后进行相应的语音处理,从而唤醒可穿戴设备。现有技术中唤醒可穿戴设备的方式过于机械,不能达到自然流畅的体验效果。因此,亟需一种能够实现自然唤醒可穿戴设备的唤醒方法。
发明内容
鉴于上述,本公开提供了一种用于唤醒可穿戴设备的方法及装置,利用该方法及装置能够在佩戴者与可穿戴设备的正常交互过程中唤醒可穿戴设备,从而能够实现自然的唤醒过程,提高可穿戴设备的用户体验。
根据本公开的一个方面,提供了一种用于唤醒可穿戴设备的方法,包括:基于所检测到的声音信号,确定所述声音信号是否来自于可穿戴设备的佩戴者;基于所述声音信号,利用语音分类模型来确定所述声音信号是否属于所述佩戴者与所述可穿戴设备之间的对话;以及在所述声音信号来自于所述佩戴者且所述声音信号属于所述佩戴者与所述可穿戴设备之间的对话时,唤醒所述可穿戴设备。
可选地,在一个示例中,基于所检测到的声音信号,确定所述声音信号是否来自于可穿戴设备的佩戴者可以包括:获取所述佩戴者在所述声音信号被检测到时的时间点起向后或向前预定时间段内的所述佩戴者的与发声相关的生物特征信息;以及基于所述生物特征信息确定所述声音信号是否来自于所述佩戴者。
可选地,在一个示例中,获取所述佩戴者在所述声音信号被检测到时的时间点起向后或向前预定时间段内的所述佩戴者的与发声相关的生物特征信息可以包括:获取所述佩戴者在所述声音信号被检测到且所述声音信号达到第一阈值时的时间点起向后或向前预定时间段内的所述佩戴者的与发声相关的生物特征信息。
可选地,在一个示例中,所述生物特征信息可以包括所述佩戴者的肌肉肌电信号,基于所述生物特征信息确定所述声音信号是否来自于所述佩戴者可以包括:在所获取到的所述肌肉肌电信号不低于预定肌电阈值时,确定所述声音信号来自于所述佩戴者。
可选地,在一个示例中,所述生物特征信息可以包括所述佩戴者的面部肌肉运动信息,基于所述生物特征信息确定所述声音信号是否来自于所述佩戴者包括:在所述佩戴者的面部肌肉运动信息表明所述佩戴者的与发声相关的面部肌肉发生运动时,确定所述声音信号来自于所述佩戴者。
可选地,在一个示例中,获取在所述声音信号被检测到时的时间点起向后或向前预定时间段内的所述佩戴者的与发声相关的生物特征信息可以包括:获取在所述声音信号被检测到时的时间点起向后或向前预定时间段内的所述佩戴者的面部图像;以及基于所述面部图像识别所述佩戴者的与发声有关的面部肌肉的面部肌肉运动信息。
可选地,在一个示例中,获取在所述声音信号被检测到时的时间点起向后或向前预定时间段内的所述佩戴者的生物特征信息可以包括:获取在所述声音信号被检测到时的时间点起向后或向前预定时间段内的所述佩戴者的面部结构信息;基于所述面部结构信息建立所述佩戴者的面部3D模型;以及基于所述面部3D模型检测所述佩戴者的与发声有关的面部肌肉的面部肌肉运动信息。
可选地,在一个示例中,所述生物特征信息包括所述佩戴者的与发声相关的肌肉震动信息,以及基于所述生物特征信息确定所述声音信号是否来自于所述佩戴者可以包括:在所述与发声相关的肌肉震动信息表明所述佩戴者的与发声有关的肌肉存在震动时,确定所述声音信号来自于所述佩戴者。
可选地,在一个示例中,基于所检测到的声音信号,确定所述声音信号是否来自于可穿戴设备的佩戴者可以包括:识别所检测到的声音信号的声纹信息;基于所述佩戴者的声纹特征和所识别的声纹信息,确定所述声音信号是否来自于所述佩戴者。
可选地,在一个示例中,所述声音信号可以为骨传导声音信号,所述骨传导声音信号是利用贴附在所述佩戴者的头部或颈部的骨传导声音检测装置检测得到的,基于所检测到的声音信号,确定所述声音信号是否来自于可穿戴设备的佩戴者可以包括:在所述骨传导声音信号不低于预定声音阈值时,确定所述声音信号为来自于可穿戴设备的佩戴者的声音信号。
根据本公开的另一方面,还提供一种用于唤醒可穿戴设备的方法,包括:获取可穿戴设备的佩戴者的与发声相关的生物特征信息;当所述生物特征信息表明所述佩戴者发声时,检测在所述佩戴者发声过程中的声音信号;基于所述声音信号,利用语音分类模型来确定所述声音信号是否属于所述佩戴者与所述可穿戴设备之间的对话;以及当在佩戴者发声过程中检测到的声音信号属于所述佩戴者与所述可穿戴设备之间的对话时,唤醒所述可穿戴设备。
可选地,在一个示例中,所述生物特征信息可以包括以下中的至少一者:所述佩戴者的肌肉肌电信号;所述佩戴者的面部肌肉运动信息;以及所述佩戴者的骨传导声音信号。
根据本公开的另一方面,还提供一种用于唤醒可穿戴设备的装置,包括:声音来源确定单元,被配置为基于所检测到的声音信号,确定所述声音信号是否来自于可穿戴设备的佩戴者;声音信号分类单元,被配置为基于所述声音信号,利用语音分类模型来确定所述声音信号是否属于所述佩戴者与所述可穿戴设备之间的对话;以及设备唤醒单元,被配置为在所述声音信号来自于所述佩戴者且所述声音信号属于所述佩戴者与所述可穿戴设备之间的对话时,唤醒所述可穿戴设备。
可选地,在一个示例中,所述声音来源确定单元可以包括:生物特征信息获取模块,被配置为获取所述佩戴者在所述声音信号被检测到时的时间点起向后或向前预定时间段内的所述佩戴者的与发声相关的生物特征信息;以及声音信号来源确定模块,被配置为基于所述生物特征信息确定所述声音信号是否来自于所述佩戴者。
可选地,在一个示例中,所述生物特征信息获取模块可以被配置为:获取所述佩戴者在所述声音信号被检测到且所述声音信号达到第一阈值时的时间点起向后或向前预定时间段内的所述佩戴者的与发声相关的生物特征信息。
可选地,在一个示例中,生物特征信息获取模块可以包括:肌肉肌电检测子模块,被配置为获取所述佩戴者在所述声音信号被检测到时的时间点起向后或向前预定时间段内的所述佩戴者的肌肉肌电信号,所述声音信号来源确定模块被配置为:在所获取到的所述肌肉肌电信号不低于预定肌电阈值时,确定所述声音信号来自于所述佩戴者。
可选地,在一个示例中,所述生物特征信息包括所述佩戴者的面部肌肉运动信息,所述声音信号来源确定模块可以被配置为:在所述佩戴者的面部肌肉运动信息表明所述佩戴者的与发声相关的面部肌肉发生运动时,确定所述声音信号来自于所述佩戴者。
可选地,在一个示例中,所述生物特征信息获取模块可以包括:面部图像获取子模块,被配置为获取在所述声音信号被检测到时的时间点起向后或向前预定时间段内的所述佩戴者的面部图像;以及肌肉运动信息识别子模块,被配置为基于所述面部图像识别所述佩戴者的与发声有关的面部肌肉的面部肌肉运动信息。
可选地,在一个示例中,所述生物特征信息获取模块可以包括:面部结构信息获取子模块,被配置为获取在所述声音信号被检测到时的时间点起向后或向前预定时间段内的所述佩戴者的面部结构信息;面部3D模型建立子模块,被配置为基于所述面部结构信息建立所述佩戴者的面部3D模型;以及肌肉运动信息识别子模块,被配置为基于所述面部3D模型检测所述佩戴者的与发声有关的面部肌肉的面部肌肉运动信息。
可选地,在一个示例中,所述生物特征信息包括所述佩戴者的与发声相关的肌肉震动信息,所述声音信号来源确定模块可以被配置为:在所述与发声相关的肌肉震动信息表明所述佩戴者的与发声有关的肌肉存在震动时,确定所述声音信号来自于所述佩戴者。
可选地,在一个示例中,所述声音来源确定单元可以包括:声纹信息识别模块,被配置为识别所检测到的声音信号的声纹信息;声音信号来源确定模块,被配置为基于所述佩戴者的声纹特征和所识别的声纹信息,确定所述声音信号是否来自于所述佩戴者。
可选地,在一个示例中,所述装置还包括:声音检测单元,被配置为检测声音信号。
可选地,在一个示例中,所述声音信号可以为骨传导声音信号,声音检测单元可以包括:骨传导声音检测单元,被配置为当所述佩戴者佩戴所述可穿戴设备时,能够贴附在所述佩戴者的头部或颈部,以检测骨传导声音信号。声音信号来源确定模块,被配置为:在所述骨传导声音信号不低于预定声音阈值时,确定所述声音信号为来自于可穿戴设备的佩戴者的声音信号。
根据本公开的另一方面,还提供一种用于唤醒可穿戴设备的装置,包括:生物特征信息获取单元,被配置为获取可穿戴设备的佩戴者的与发声相关的生物特征信息;声音检测单元,被配置为当所述生物特征信息表明所述佩戴者发声时,检测在所述佩戴者发声过程中的声音信号;声音信号分类单元,被配置为基于所述声音信号,利用语音分类模型来确定所述声音信号是否属于所述佩戴者与所述可穿戴设备之间的对话;以及设备唤醒单元,被配置为当在佩戴者发声过程中检测到的声音信号属于所述佩戴者与所述可穿戴设备之间的对话时,唤醒所述可穿戴设备。
可选地,在一个示例中,所述生物特征信息获取单元可以包括以下中的至少一者:肌肉肌电检测模块,被配置为检测所述佩戴者的肌肉肌电信号;肌肉运动检测模块,被配置为检测所述佩戴者的面部肌肉运动信息;以及骨传导声音检测模块,被配置为所述佩戴者的骨传导声音信号。
根据本公开的另一方面,还提供计算设备,包括:至少一个处理器;以及存储器,所述存储器存储指令,当所述指令被所述至少一个处理器执行时,使得所述至少一个处理器执行如权利要求如上所述的方法。
根据本公开的另一方面,还提供非暂时性机器可读存储介质,其存储有可执行指令,所述指令当被执行时使得所述机器执行如上所述的方法。
利用本公开的方法及装置,通过在检测到的声音信号来自于佩戴者且该声音信号属于人机交互语音时唤醒可穿戴设备,不需要用户特意做出唤醒操作,而是在用户与可穿戴设备的正常交互过程中唤醒可穿戴设备,从而能够自然地实现唤醒,进而能够带给用户自然流畅的体验。
利用本公开的装置和系统,通过基于声音信号被检测到时的时间点起向后或向前预定时间段内的佩戴者的与发声相关的生物特征信息来确定声音信号是否来自于佩戴者,由于生物特征信息能够准确反应出佩戴者是否进行了发声动作,因而能够准确识别出所检测到的声音信号是否是佩戴者发出的。
利用本公开的装置和系统,基于声音信号被检测到且声音信号达到第一阈值时的时间点起向后或向前预定时间段内的生物特征信息来确定声音信号是否来自于佩戴者,能够避免环境噪音的干扰,从而避免对声音的来源的误判。
利用本公开的装置和系统,可以基于佩戴者的与发声相关的肌肉运动信息、面部肌肉震动信息等生物特征信息来确定声产时信号是否来自于佩戴者,从而提供了多种可用于自然地唤醒可穿戴设备的实现方式。
利用本公开的装置和系统,通过从所检测到的声音信号中识别声纹信息并基于所识别出的声纹信息和佩戴者的声纹特征来确定声音信号是否来自于佩戴者,由于佩戴者的声纹特征是独一无二的,因而能够准确判断出声音信号的来源。
利用本公开的装置和系统,利用骨传导检测装置获取的骨传导声音信号来判断声音信号是否来自于佩戴者,能够在准确地确定声音信号的来源的前替下,不仅提供了容易实现的唤醒方案,而且不需要配置额外的检测硬件,节省了硬件成本。
附图说明
通过参照下面的附图,可以实现对于本公开内容的本质和优点的进一步理解。在附图中,类似组件或特征可以具有相同的附图标记。附图是用来提供对本发明实施例的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开的实施例,但并不构成对本公开的实施例的限制。在附图中:
图1是根据本公开的一个实施例的用于唤醒可穿戴设备的方法的流程图;
图2是根据本公开的一个实施例的用于唤醒可穿戴设备的方法中的声音来源确定过程的一个示例的流程图;
图3是根据本公开的一个实施例的用于唤醒可穿戴设备的方法中的声音来源确定过程的另一示例的流程图;
图4是根据本公开的一个实施例的用于唤醒可穿戴设备的方法中的声音来源确定过程的另一示例的流程图;
图5和图6是根据本公开的实施例的用于唤醒可穿戴设备的方法中的面部肌肉运动信息获取过程的示例的流程图;
图7是根据本公开的一个实施例的用于唤醒可穿戴设备的方法中的声音来源确定过程的另一示例的流程图;
图8是根据本公开的另一实施例的用于唤醒可穿戴设备的方法的流程图;
图9是根据本公开的另一实施例的用于唤醒可穿戴设备的方法的流程图;
图10是根据本公开的一个实施例的用于唤醒可穿戴设备的装置的结构框图;
图11是图10所示的用于唤醒可穿戴设备的装置中的声音来源确定单元的一个示例的结构框图;
图12和图13是图10的唤醒可穿戴设备的装置中的生物特征信息获取模块的示例的结构框图;
图14是图10所示的的用于唤醒可穿戴设备的装置中的声音来源确定单元的另一示例的结构框图;
图15是根据本公开的另一实施例的用于唤醒可穿戴设备的装置的结构框图;
图16是根据本公开的一个实施例的用于实现用于唤醒可穿戴设备的方法的计算设备的结构框图;以及
图17是根据本公开的一个实施例的用于实现用于唤醒可穿戴设备的方法的计算设备的结构框图
具体实施方式
以下将参考示例实施方式讨论本文描述的主题。应该理解,讨论这些实施方式只是为了使得本领域技术人员能够更好地理解从而实现本文描述的主题,并非是对权利要求书中所阐述的保护范围、适用性或者示例的限制。可以在不脱离本公开内容的保护范围的情况下,对所讨论的元素的功能和排列进行改变。各个示例可以根据需要,省略、替代或者添加各种过程或组件。另外,相对一些示例所描述的特征在其它例子中也可以进行组合。
如本文中使用的,术语“包括”及其变型表示开放的术语,含义是“包括但不限于”。术语“基于”表示“至少部分地基于”。术语“一个实施例”和“一实施例”表示“至少一个实施例”。术语“另一个实施例”表示“至少一个其他实施例”。术语“第一”、“第二”等可以指代不同的或相同的对象。下面可以包括其他的定义,无论是明确的还是隐含的。除非上下文中明确地指明,否则一个术语的定义在整个说明书中是一致的。
现在结合附图来描述本公开的用于实现用于唤醒可穿戴设备的方法及装置。
图1是根据本公开的一个实施例的用于唤醒可穿戴设备的方法的流程图。
如图1所示,在块102,检测声音信号,并在块104判断是否检测到了声音信号。对于本公开的方法,块102至块104的过程并不是必要要素,该过程也可以是独立于本公开的方法而执行的过程。
在检测到声音信号时,在块106,基于所检测到的声音信号,确定声音信号是否来自于可穿戴设备的佩戴者。所检测到的声音信号可能是可穿戴设备的佩戴者发出的,也可能是可穿戴设备所处环境中的环境噪音或其他人发生的声音。在该实施例中,仅在所检测到的声音信号来自于可穿戴设备时,允许唤醒可穿戴设备,以避免可穿戴设备被错误唤醒。
在一个示例中,在检测到声音信号时,可以识别声音信号中的声纹信息,进而根据声纹信息和佩戴者的声纹特征来确定所检测到的声音信号是否来自于可穿戴设备的佩戴者。例如,可以采集声音信号样本来训练声纹识别模型,在佩戴者使用可穿戴设备之前,可以由佩戴者多次录入自己的声音。当佩戴者的声音被录入后,录入的声音用来再次训练已训练过的声纹识别模型,从而对佩戴者的声音进行特征提取。当佩戴者使用可穿戴设备时,声纹识别模型可以基于所提取的佩戴者的声纹特征来识别所检测到的声音信号是否来自于佩戴者。例如,声纹识别模型可以识别检测到的声音信号与佩戴者的声纹特征的相似度,当相似度不低于某一阈值时确定该声音信号来自于佩戴者。
当确定所检测到声音信号来自于可穿戴设备的佩戴者时,在块108,基于所检测到声音信号,利用语音分类模型来确定声音信号是否属于佩戴者与可穿戴设备之间的对话。可以通过确定所检测的声音信号是否属于人机交互对话来确定该声音信号是否属于佩戴者与可穿戴设备之间的对话。
当人与机器之间进行人机交互时,讲话的节奏、响度、音调、用词、句式、泛音强度等特征通常与人与人对话时不同。因而可以采集包括人与人对话的语音数据样本和人机交互对话的语音数据样本,进而利用这些语音数据样本来训练语音分类模型。当检测到声音信号时,可以将声音信号输入经过训练的语音分类模型,以对该声音信号进行分类预测。在一个示例中,语音分类模型可以输出所检测到的声音信号属于人机交互对话的概率。此时,可以在语音分类模型所输出的概率不低于预定概率阈值时,确定该声音信号为佩戴者与可穿戴设备之间的对话。
在声音信号来自于佩戴者且声音信号属于佩戴者与可穿戴设备之间的对话时,在块110,唤醒可穿戴设备。由此,能够在佩戴者向可穿戴设备发出任意语音指令时,自然地唤醒可穿戴设备。佩戴者在使用可穿戴设备时不需要特地进行唤醒操作,从而能为佩戴者带来自然流畅的使用体验。
图2是根据本公开的一个实施例的用于唤醒可穿戴设备的方法中的声音来源确定过程的一个示例的流程图。
如图2所示,在块202,获取佩戴者在声音信号被检测到时的时间点起向后或向前预定时间段内的佩戴者的与发声相关的生物特征信息。在一个示例中,可以在所检测到的声音信号达到第一阈值时,获取该时间点向前或向后预定时间段内的生物特征信息。例如,可以获取在检测声音信号的过程中的生物特征信息,并存储在数据库中。当所检测到的声音信号达到第一阈值时,获取在声音信号达到第一阈值的时间点之前预定时间段的生物特征信息。还可以在声音信号达到第一阈值时,检测从该时间点起向后预定时间段的生物特征信息。由此,能够获取在检测声音信号过程中的佩戴者的生物特征信息。
然后,在块204,基于生物特征信息确定声音信号是否来自于佩戴者。当佩戴者讲话时,佩戴者的面部、喉咙等部位的生物特征将会发生变化,因而可以基于与发声相关的生物特征信息的变化来识别在检测声音信号的过程中佩戴者有没有发声,当生物特征信息表明在检测声音信号的过程中佩戴者发声时,可以确定声音信号来自于佩戴者。
生物特征信息例如可以是肌肉肌电信号、面部肌肉运动信息、肌肉震动信息等。以下参考图3-图6,说明基于所获取到的生物特征信息来确定佩戴者是否发声,进而确定声音来源的示例。
图3是根据本公开的一个实施例的用于唤醒可穿戴设备的方法中的声音来源确定过程的另一示例的流程图。
如图3所示,在块302,获取佩戴者在声音信号被检测到时的时间点起向后或向前预定时间段内的佩戴者的与发声相关的肌肉肌电信号。例如可以利用肌电检测装置来检测佩戴者的面部、头皮或颈部等部位的肌肉肌电信号。肌肉肌电信号可以利用肌电检查(EMG)装置来获取。
在获取到肌肉肌电信号时,在块304,判断所获取的肌肉肌电信号是否不低于预定肌电阈值。
当所获取的肌肉肌电信号不低于肌电阈值时,在块306,确定声音信号来自于佩戴者。当佩戴者发出声音时,这些相关的肌肉肌电信号会出现峰值波动。因而可以在所获取到的肌肉肌电信号不低于肌电阈值时,确定在检测到声音信号时佩戴者正在讲话,此时可确定声音信号来自于佩戴者。
图4是根据本公开的一个实施例的用于唤醒可穿戴设备的方法中的声音来源确定过程的另一示例的流程图。
如图4所示,在块402,获取佩戴者在声音信号被检测到时的时间点起向后或向前预定时间段内的佩戴者的面部肌肉运动信息。面部肌肉运动信息可以利用图5和图6所示的示例来获取。
在图5所示的示例中,在块502,获取在声音信号被检测到时的时间点起向后或向前预定时间段内的佩戴者的面部图像。例如,可以利用设置于佩戴者前额处的单目RGB摄像头,来获取面部图像。
在块504,基于面部图像识别所述佩戴者的与发声有关的面部肌肉的面部肌肉运动信息。例如,可以通过检测面部图像中的面部、嘴部是否有运动。在一个示例中,可以将人讲话时的面部图像和未讲话时的面部图像作为训练样本来训练图像分类模型,然后利用训练过的图像分类模型来对所获取的面部图像进行预测分类,从而通过识别面部肌肉信息来识别佩戴者是否进行了讲话动作。
在图6所示的示例中,在块602,获取在声音信号被检测到时的时间点起向后或向前预定时间段内的佩戴者的面部结构信息。例如,面部结构信息可以是面部ToF(飞行时间)信息、面部超声波扫描信息、面部结构光信息等。可以利用设置于佩戴者前额处的ToF 3D模块、超声波传感器、结构光扫描模块、双目RGB摄像头等装置来获取面部结构信息。
在块604,基于面部结构信息建立所述佩戴者的面部3D模型。
在获得面部3D模型之后,在块606,基于面部3D模型检测佩戴者的与发声有关的面部肌肉的面部肌肉运动信息。
在通过上述方式获取到肌肉运动信息之后,在块404,基于面部肌肉运动信息确定佩戴者的面部肌肉是否发生运动。例如,可以基于面部3D模型来检测佩戴者的嘴部肌肉是否发生运动。
当佩戴者的面部肌肉发生运动时,说明在检测到声音信号时佩戴者进行了讲话动作,因而可以在块406,确定声音信号来自于佩戴者。例如,当佩戴者的嘴部或脸部发生运动时,可以确定佩戴者进行了讲话动作,由此可确定在检测声音信号时佩戴者进行了讲话,因而可以确定声音信号来自于佩戴者。
图7是根据本公开的一个实施例的用于唤醒可穿戴设备的方法中的声音来源确定过程的另一示例的流程图。
如图7所示,在块702,获取佩戴者在声音信号被检测到时的时间点起向后或向前预定时间段内的佩戴者的与发声相关的肌肉震动信息。肌肉震动信息可以利用贴附在与发声相关的肌肉上的运动传感器(例如,惯性测量单元(IMU))来检测。
然后在块704,基于肌肉震动信息确定佩戴者的与发声相关的面部肌肉是否发生震动。
当确定面部肌肉发生了震动时,在块706,确定声音信号来自于可穿戴设备的佩戴者。当佩戴者讲话时,面部肌肉会产生震动,因而可以在面部肌肉发生震动时,确定佩戴者的面部存在讲话动作,进而基于此确定声音信号来自于可穿戴设备。
图8是根据本公开的另一实施例的用于唤醒可穿戴设备的方法的流程图。
如图8所示,在块802,利用贴附在佩戴者的头部或颈部的骨传导声音检测装置检测骨传导声音信号。骨传导声音检测装置例如可以是骨传导麦克风。骨传导麦克风可以贴附于头部或颈部的任意位置,以检测骨传导声音。
然后在块804,确定骨传导声音信号是否不低于预定声音阈值。
当骨传导声音信号不低于预定声音阈值时,在块806,确定声音信号来自于佩戴者。当人发声时,声音能够通过头部或颈部的骨头进行传导,利用骨传导声音检测装置检测声音信号时,来自佩戴者自身的骨传导声音信号比来自于除佩戴者自身之外的环境的声音信号要强。因而可以在骨传导声音信号不低于预定声音阈值时,确定所检测到的声音信号来自于佩戴者。预定声音阈值可以通过实验获取以验值,还可以由佩戴者调整。
在确定声音信号来自于佩戴者时,可以在块810确定声音信号是否属于人机交互对话。当该声音信号来源于佩戴者且属于人机交互对话时,在块812,唤醒可穿戴设备。
图9是根据本公开的另一实施例的用于唤醒可穿戴设备的方法的流程图。
如图9所示,在块902,获取可穿戴设备的佩戴者的与发声相关的生物特征信息。生物特征信息可以是如上所述的与发声相关的肌肉肌电信号、面部肌肉运动信息、骨传导声音信号等中的任意一种或多种。
在块904,根据生物特征信息确定佩戴者是否发声。确定佩戴者是否发声的过程例如可以通过参照上述图3-图8所描述的发声确定过程来进行。例如,可以利用贴附于佩戴者头部或颈部的骨传导麦克风来检测骨传导声音信号,当骨传导声音信号达到预定声音阈值时,确定佩戴者正在发声。
当生物特征信息表明佩戴者发声时,在块906,检测在佩戴者发声过程中的声音信号。例如,可以利用肌肉肌电检测装置来检测佩戴者面部肌肉的肌肉肌电信号,当肌肉肌电信号不低于预定肌电阈值时,确定佩戴者正在发声,可以在肌肉肌电信号达到该预定肌电阈值时开始检测声音信号。再例如,可以利用贴附在与发声相关的肌肉上的运动传感器(例如,惯性测量单元(IMU))来检测与发声相关的肌肉是否发生震动,当发生震动时可以确定此时佩戴者正在发声,此时可以开始检测声音信号。在一个示例中,还可以通过如上参照图4-6所描述的方法来获取佩戴者的面部肌肉动动信息,当面部肌肉运动信息表示佩戴者正在发声时,开始检测声音信号。
然后,在块908,基于声音信号,利用语音分类模型来确定声音信号是否属于所述佩戴者与所述可穿戴设备之间的对话。可以利用包括人与人对话的语音数据样本和人机交互对话的语音数据样本来训练语音分类模型,从而利用该语音分类模型来对所检测到的声音信号进行分类。
当在佩戴者发声过程中检测到的声音信号属于佩戴者与可穿戴设备之间的对话时,在块910,唤醒可穿戴设备。
图10是根据本公开的一个实施例的用于唤醒可穿戴设备的装置(下称可穿戴设备唤醒装置)1000的结构框图。如图10所示,可穿戴设备唤醒装置1000包括声音检测单元1010、声音来源确定单元1020、声音信号分类单元1030和设备唤醒单元1040。
声音检测单元1010被配置为检测声音信号。声音来源确定单元1020被配置为基于所检测到的声音信号,确定声音信号是否来自于可穿戴设备的佩戴者。声音信号分类单元1030被配置为基于所检测到的声音信号,利用语音分类模型来确定声音信号是否属于佩戴者与可穿戴设备之间的对话。在声音信号来自于佩戴者且声音信号属于佩戴者与可穿戴设备之间的对话时,设备唤醒单元1040被配置为唤醒可穿戴设备。
需要说明的是,虽然图10中示出了声音检测单元,但应当理解的是,本公开的可穿戴设备唤醒装置可以不包括声音检测单元。声音检测单元也可以是独立于可穿戴设备唤醒装置的元素。
在一个示例中,声音信号可以为骨传导声音信号,声音检测单元1010可以是骨传导声音检测单元。骨传导声音检测单元被配置为当佩戴者佩戴所述可穿戴设备时,能够贴附在所述佩戴者的头部或颈部,以检测骨传导声音信号。例如,在可穿戴设备唤醒装置应用于可穿戴设备时,骨传导声音检测装置可以是能够戴在佩戴者的耳部的骨传导麦克风,骨传导声音检测装置所检测到的声音信号可以通过有经或无线的方式发送至声音来源确定单元和声音信号分类单元。再例如,骨传导声音检测装置可以被设计成悬挂在可穿戴设备上,在佩戴者使用可穿戴设备时可以将其贴附在靠近头部骨骼或颈部骨骼的任意位置。在该示例中,声音信号来源确定模块可以在骨传导声音信号不低于预定声音阈值时,确定声音信号为来自于可穿戴设备的佩戴者的声音信号。
图11是根据本公开的一个实施例的可穿戴设备唤醒装置1000中的声音来源确定单元1020的一个示例的结构框图。如图11所示,声音来源确定单元1020包括生物特征信息获取模块1021和声音来源确定模块1022。
生物特征信息获取模块1021被配置为获取佩戴者在声音信号被检测到时的时间点起向后或向前预定时间段内的佩戴者的与发声相关的生物特征信息。生物特征信息获取模块1021还可以被配置为获取佩戴者在声音信号被检测到且声音信号达到第一阈值时的时间点起向后或向前预定时间段内的佩戴者的与发声相关的生物特征信息。生物特征信息可以是与发声相关的肌肉肌电信号、面部结构信息、面部肌肉运动信息、面部肌肉震动信息等。
在获取到佩戴者的生物特征信息之后,声音信号来源确定模块1022可以基于生物特征信息确定声音信号是否来自于佩戴者。在一个示例中,生物特征信息可以包括佩戴者的与发声相关的肌肉震动信息。在该示例中,生物特征信息获取模块1021可以包括肌肉震动信息获取子模块,以用于检测与发声相关的肌肉震动信息。此时,声音信号来源确定模块1022可以被配置为在与发声相关的肌肉震动信息表明佩戴者的与发声有关的肌肉存在震动时,确定声音信号来自于佩戴者。
在一个示例中,生物特征信息获取模块1021可以包括肌肉肌电检测子模块。肌肉肌电检测子模块被配置为获取佩戴者在声音信号被检测到时的时间点起向后或向前预定时间段内的佩戴者的肌肉肌电信号。在该示例中,声音来源确定模块被配置为在所获取到的肌肉肌电信号不低于预定肌电阈值时,确定声音信号来自于佩戴者。
在一个示例中,生物特征信息包括佩戴者的面部肌肉运动信息。在该示例中,声音信号来源确定模块可以被配置为在佩戴者的面部肌肉运动信息表明佩戴者的与发声相关的面部肌肉发生运动时,确定声音信号来自于佩戴者。肌肉运动信息可以基于面部图像或面部3D模型来检测。
图12和图13是图11所示的实施例中的可穿戴设备唤醒装置1000中的生物特征信息获取模块的示例的结构框图。
如12所示,生物特征信息获取模块1021可以包括:面部图像获取子模块10211和肌肉运动信息识别子模块10212。面部图像获取子模块10211被配置为获取在声音信号被检测到时的时间点起向后或向前预定时间段内的所述佩戴者的面部图像。肌肉运动信息识别子模块10212被配置为基于面部图像识别佩戴者的与发声有关的面部肌肉的面部肌肉运动信息。
如图13所示,所述生物特征信息获取模块可以包括面部结构信息获取子模块10214、面部3D模型建立子模块10215和肌肉运动信息识别子模块10216。面部结构信息获取子模块10213被配置为获取在声音信号被检测到时的时间点起向后或向前预定时间段内的所述佩戴者的面部结构信息。然后,面部3D模型建立子模块10214基于面部结构信息建立佩戴者的面部3D模型。在建立面部3D模型之后,肌肉运动信息识别子模块10216可以基于面部3D模型检测佩戴者的与发声有关的面部肌肉的面部肌肉运动信息。
图14是图10所示的可穿戴设备唤醒装置1000中的声音来源确定单元1020的另一示例的结构框图。如图13所示,声音来源确定单元可以包括声纹信息识别模块1023和声音来源确定模块1024。声纹信息识别模块1023被配置为识别所检测到的声音信号的声纹信息。声音来源确定模块1024被配置为基于佩戴者的声纹特征和所识别的声纹信息,确定声音信号是否来自于佩戴者。
图15是根据本公开的另一实施例的可穿戴设备唤醒装置1500的结构框图。如图15所示,可穿戴设备唤醒装置1500包括生物特征信息获取单元1510、声音检测单元1520、声音信号分类单元1530以及设备唤醒单元1540。
生物特征信息获取单元1510被配置为获取可穿戴设备的佩戴者的与发声相关的生物特征信息。当生物特征信息表明佩戴者正在进行发声动作时,声音检测单元1520检测在佩戴者进行发声动作过程中的声音信号。声音信号分类单元1530被配置为基于声音信号,利用语音分类模型来确定声音信号是否属于佩戴者与可穿戴设备之间的对话。在佩戴者发声过程中检测到的声音信号属于佩戴者与可穿戴设备之间的对话时,设备唤醒单元1540唤醒可穿戴设备。
在一个示例中,生物特征信息获取单元1510可以包括肌肉肌电检测模块、肌肉运动检测模块和骨传导声音检测模块中的至少一者。肌肉肌电检测模块被配置为检测佩戴者的肌肉肌电信号。肌肉运动检测模块被配置为检测佩戴者的面部肌肉运动信息。骨传导声音检测模块被配置为检测佩戴者的骨传导声音信号。
以上参考图1-15说明了本公开的用于唤醒可穿戴设备的方法及装置。需要说明的是,以上对方法实施例的细节说明同样适用于装置实施例。本公开的识别终端设备上显示的应用程序控件的装置可以采用硬件实现,也可以采用软件或者硬件和软件的组合来实现。在本公开中,识别终端设备上显示的应用程序控件的装置例如可以利用计算设备实现。
图16是根据本公开的一个实施例的用于实现用于唤醒可穿戴设备的方法的计算设备1600的结构框图。根据一个实施例,计算设备1600可以包括至少一个处理器1610,该至少一个处理器1610执行在计算机可读存储介质(即,存储器1620)中存储或编码的至少一个计算机可读指令(即,上述以软件形式实现的元素)。
在一个实施例中,在存储器1620中存储计算机可执行指令,其当执行时使得至少一个处理器1610:基于所检测到的声音信号,确定声音信号是否来自于可穿戴设备的佩戴者;基于声音信号,利用语音分类模型来确定声音信号是否属于佩戴者与可穿戴设备之间的对话;以及在声音信号来自于佩戴者且声音信号属于佩戴者与可穿戴设备之间的对话时,唤醒可穿戴设备。
应该理解,在存储器1620中存储的计算机可执行指令当执行时使得至少一个处理器1610进行本公开的各个实施例中以上结合图1-8、10-14描述的各种操作和功能。
图17是根据本公开的一个实施例的用于实现用于唤醒可穿戴设备的方法的计算设备1700的结构框图。根据一个实施例,计算设备1700可以包括至少一个处理器1710,该至少一个处理器1710执行在计算机可读存储介质(即,存储器1720)中存储或编码的至少一个计算机可读指令(即,上述以软件形式实现的元素)。
在一个实施例中,在存储器1720中存储计算机可执行指令,其当执行时使得至少一个处理器1710:获取可穿戴设备的佩戴者的与发声相关的生物特征信息;当生物特征信息表明所述佩戴者发声时,检测在佩戴者发声过程中的声音信号;基于声音信号,利用语音分类模型来确定声音信号是否属于佩戴者与可穿戴设备之间的对话;以及当在佩戴者发声过程中检测到的声音信号属于佩戴者与可穿戴设备之间的对话时,唤醒可穿戴设备。
应该理解,在存储器1720中存储的计算机可执行指令当执行时使得至少一个处理器1710进行本公开的各个实施例中以上结合图9和15描述的各种操作和功能。
根据一个实施例,提供了一种例如非暂时性机器可读介质的程序产品。非暂时性机器可读介质可以具有指令(即,上述以软件形式实现的元素),该指令当被机器执行时,使得机器执行本公开的各个实施例中以上结合图1-8、10-14描述的各种操作和功能。在一个示例中,非暂时性机器可读介质可以具有指令(即,上述以软件形式实现的元素),该指令当被机器执行时,使得机器执行本公开的各个实施例中以上结合图9和图15描述的各种操作和功能。
具体地,可以提供配有可读存储介质的系统或者装置,在该可读存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码,且使该系统或者装置的计算机或处理器读出并执行存储在该可读存储介质中的指令。
在这种情况下,从可读介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能,因此机器可读代码和存储机器可读代码的可读存储介质构成了本发明的一部分。
可读存储介质的实施例包括软盘、硬盘、磁光盘、光盘(如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RAM、DVD-RW、DVD-RW)、磁带、非易失性存储卡和ROM。可选择地,可以由通信网络从服务器计算机上或云上下载程序代码。
需要说明的是,上述各流程和各系统结构图中不是所有的步骤和单元都是必须的,可以根据实际的需要忽略某些步骤或单元。各步骤的执行顺序不是固定的,可以根据需要进行确定。上述各实施例中描述的装置结构可以是物理结构,也可以是逻辑结构,即,有些单元可能由同一物理实体实现,或者,有些单元可能分由多个物理实体实现,或者,可以由多个独立设备中的某些部件共同实现。
上面结合附图阐述的具体实施方式描述了示例性实施例,但并不表示可以实现的或者落入权利要求书的保护范围的所有实施例。在整个本说明书中使用的术语“示例性”意味着“用作示例、实例或例示”,并不意味着比其它实施例“优选”或“具有优势”。出于提供对所描述技术的理解的目的,具体实施方式包括具体细节。然而,可以在没有这些具体细节的情况下实施这些技术。在一些实例中,为了避免对所描述的实施例的概念造成难以理解,公知的结构和装置以框图形式示出。
以上结合附图详细描述了本公开的实施例的可选实施方式,但是,本公开的实施例并不限于上述实施方式中的具体细节,在本公开的实施例的技术构思范围内,可以对本公开的实施例的技术方案进行多种简单变型,这些简单变型均属于本公开的实施例的保护范围。
本公开内容的上述描述被提供来使得本领域任何普通技术人员能够实现或者使用本公开内容。对于本领域普通技术人员来说,对本公开内容进行的各种修改是显而易见的,并且,也可以在不脱离本公开内容的保护范围的情况下,将本文所定义的一般性原理应用于其它变型。因此,本公开内容并不限于本文所描述的示例和设计,而是与符合本文公开的原理和新颖性特征的最广范围相一致。
Claims (25)
1.一种用于唤醒可穿戴设备的方法,包括:
基于所检测到的声音信号,确定所述声音信号是否来自于可穿戴设备的佩戴者;其中,基于所检测到的声音信号,确定所述声音信号是否来自于可穿戴设备的佩戴者包括:获取所述佩戴者在所述声音信号被检测到时的时间点起向后或向前预定时间段内的所述佩戴者的与发声相关的生物特征信息,基于所述与发声相关的生物特征信息的变化来识别在检测所述声音信号的过程中所述佩戴者是否发声,来确定所述声音信号是否来自于所述佩戴者;其中,所述与发声相关的生物特征信息包括以下中的至少一者:所述佩戴者的肌肉肌电信号,所述佩戴者的面部肌肉运动信息,所述佩戴者的肌肉震动信息;
基于所述声音信号,利用语音分类模型对所述声音信号是否属于人机交互对话进行分类预测,来确定所述声音信号是否属于所述佩戴者与所述可穿戴设备之间的对话,所述语音分类模型利用人与人对话的语音数据样本和人机交互对话的语音数据样本进行训练得到,所述人机交互对话的节奏、响度、音调和泛音强度与所述人与人对话不同;
在所述声音信号来自于所述佩戴者且所述声音信号属于所述佩戴者与所述可穿戴设备之间的对话时,唤醒所述可穿戴设备。
2.如权利要求1所述的方法,其中,获取佩戴者在所述声音信号被检测到时的时间点起向后或向前预定时间段内的所述佩戴者的与发声相关的生物特征信息包括:
获取佩戴者在所述声音信号被检测到且所述声音信号达到第一阈值时的时间点起向后或向前预定时间段内的所述佩戴者的与发声相关的生物特征信息。
3.如权利要求1或2所述的方法,其中,所述生物特征信息包括所述佩戴者的肌肉肌电信号时,于所述与发声相关的生物特征信息的变化来识别在检测所述声音信号的过程中所述佩戴者是否发声,来确定所述声音信号是否来自于所述佩戴者包括:
在所获取到的所述肌肉肌电信号不低于预定肌电阈值时,确定在检测到所述声音信号时所述佩戴者正在讲话,确定所述声音信号来自于所述佩戴者。
4.如权利要求1或2所述的方法,其中,所述生物特征信息包括所述佩戴者的面部肌肉运动信息时,于所述与发声相关的生物特征信息的变化来识别在检测所述声音信号的过程中所述佩戴者是否发声,来确定所述声音信号是否来自于所述佩戴者包括:
在所述佩戴者的面部肌肉运动信息表明所述佩戴者的与发声相关的面部肌肉发生运动时,确定在检测到所述声音信号时所述佩戴者进行了讲话动作,确定所述声音信号来自于所述佩戴者。
5.如权利要求4所述的方法,其中,获取在所述声音信号被检测到时的时间点起向后或向前预定时间段内的所述佩戴者的与发声相关的生物特征信息包括:
获取在所述声音信号被检测到时的时间点起向后或向前预定时间段内的所述佩戴者的面部图像;
基于所述面部图像识别所述佩戴者的与发声有关的面部肌肉的面部肌肉运动信息。
6.如权利要求4所述的方法,其中,获取在所述声音信号被检测到时的时间点起向后或向前预定时间段内的所述佩戴者的与发声相关的生物特征信息包括:
获取在所述声音信号被检测到时的时间点起向后或向前预定时间段内的所述佩戴者的面部结构信息;
基于所述面部结构信息建立所述佩戴者的面部3D模型;
基于所述面部3D模型检测所述佩戴者的与发声有关的面部肌肉的面部肌肉运动信息。
7.如权利要求1或2所述的方法,其中,所述生物特征信息包括所述佩戴者的肌肉震动信息时,于所述与发声相关的生物特征信息的变化来识别在检测所述声音信号的过程中所述佩戴者是否发声,来确定所述声音信号是否来自于所述佩戴者包括:
在所述与发声相关的肌肉震动信息表明所述佩戴者的与发声有关的肌肉存在震动时,确定在检测到所述声音信号时所述佩戴者进行了讲话动作,确定所述声音信号来自于所述佩戴者。
8.如权利要求1所述的方法,其中,基于所检测到的声音信号,确定所述声音信号是否来自于可穿戴设备的佩戴者包括:
识别所检测到的声音信号的声纹信息;
基于所述佩戴者的声纹特征和所识别的声纹信息,确定所述声音信号是否来自于所述佩戴者。
9.如权利要求1所述的方法,其中,所述声音信号为骨传导声音信号,所述骨传导声音信号是利用贴附在所述佩戴者的头部或颈部的骨传导声音检测装置检测得到的,基于所检测到的声音信号,确定所述声音信号是否来自于可穿戴设备的佩戴者包括:
在所述骨传导声音信号不低于预定声音阈值时,确定所述声音信号为来自于可穿戴设备的佩戴者的声音信号。
10.一种用于唤醒可穿戴设备的方法,包括:
获取可穿戴设备的佩戴者的与发声相关的生物特征信息,其中,所述与发声相关的生物特征信息包括以下中的至少一者:所述佩戴者的肌肉肌电信号,所述佩戴者的面部肌肉运动信息,所述佩戴者的肌肉震动信息,所述佩戴者的骨传导声音信号;
当所述与发声相关的生物特征信息的变化表明所述佩戴者发声时,检测在所述佩戴者发声过程中的声音信号,所述声音信号被检测到时的时间点在所述声音信号被检测到时的时间点被获取的时间点起向后预定时间段内;
基于所述声音信号,利用语音分类模型对所述声音信号是否属于人机交互对话进行分类,预测来确定所述声音信号是否属于所述佩戴者与所述可穿戴设备之间的对话,所述语音分类模型利用人与人对话的语音数据样本和人机交互对话的语音数据样本进行训练得到,所述人机交互对话的节奏、响度、音调和泛音强度与所述人与人对话不同;
当在佩戴者发声过程中检测到的声音信号属于所述佩戴者与所述可穿戴设备之间的对话时,唤醒所述可穿戴设备。
11.一种用于唤醒可穿戴设备的装置,包括:
声音来源确定单元,被配置为基于所检测到的声音信号,确定所述声音信号是否来自于可穿戴设备的佩戴者;
声音信号分类单元,被配置为基于所述声音信号,利用语音分类模型对所述声音信号是否属于人机交互对话进行分类预测,来确定所述声音信号是否属于所述佩戴者与所述可穿戴设备之间的对话,所述语音分类模型利用人与人对话的语音数据样本和人机交互对话的语音数据样本进行训练得到,所述人机交互对话的节奏、响度、音调和泛音强度与所述人与人对话不同;
设备唤醒单元,被配置为在所述声音信号来自于所述佩戴者且所述声音信号属于所述佩戴者与所述可穿戴设备之间的对话时,唤醒所述可穿戴设备,
其中,所述声音来源确定单元包括:生物特征信息获取模块,被配置为获取所述佩戴者在所述声音信号被检测到时的时间点起向后或向前预定时间段内的所述佩戴者的与发声相关的生物特征信息,基于所述与发声相关的生物特征信息的变化来识别在检测所述声音信号的过程中所述佩戴者是否发声,来确定所述声音信号是否来自于所述佩戴者;其中,所述与发声相关的生物特征信息包括以下中的至少一者:所述佩戴者的肌肉肌电信号,所述佩戴者的面部肌肉运动信息,所述佩戴者的肌肉震动信息。
12.如权利要求11所述的装置,其中,所述生物特征信息获取模块被配置为:
获取所述佩戴者在所述声音信号被检测到且所述声音信号达到第一阈值时的时间点起向后或向前预定时间段内的所述佩戴者的与发声相关的生物特征信息。
13.如权利要求11或12所述的装置,其中,生物特征信息获取模块包括:
肌肉肌电检测子模块,被配置为获取所述佩戴者在所述声音信号被检测到时的时间点起向后或向前预定时间段内的所述佩戴者的肌肉肌电信号;
所述声音信号来源确定模块,被配置为在所获取到的所述肌肉肌电信号不低于预定肌电阈值时,确定在检测到所述声音信号时所述佩戴者正在讲话,确定所述声音信号来自于所述佩戴者。
14.如权利要求11或12所述的装置,其中,所述生物特征信息包括所述佩戴者的面部肌肉运动信息时,所述声音信号来源确定模块被配置为:
在所述佩戴者的面部肌肉运动信息表明所述佩戴者的与发声相关的面部肌肉发生运动时,确定在检测到所述声音信号时所述佩戴者进行了讲话动作,确定所述声音信号来自于所述佩戴者。
15.如权利要求14所述的装置,其中,所述生物特征信息获取模块包括:
面部图像获取子模块,被配置为获取在所述声音信号被检测到时的时间点起向后或向前预定时间段内的所述佩戴者的面部图像;
肌肉运动信息识别子模块,被配置为基于所述面部图像识别所述佩戴者的与发声有关的面部肌肉的面部肌肉运动信息。
16.如权利要求14所述的装置,其中,所述生物特征信息获取模块包括:
面部结构信息获取子模块,被配置为获取在所述声音信号被检测到时的时间点起向后或向前预定时间段内的所述佩戴者的面部结构信息;
面部3D模型建立子模块,被配置为基于所述面部结构信息建立所述佩戴者的面部3D模型;
肌肉运动信息识别子模块,被配置为基于所述面部3D模型检测所述佩戴者的与发声有关的面部肌肉的面部肌肉运动信息。
17.如权利要求11或12所述的装置,其中,所述生物特征信息包括所述佩戴者的肌肉震动信息时,所述声音信号来源确定模块被配置为:
在所述与发声相关的肌肉震动信息表明所述佩戴者的与发声有关的肌肉存在震动时,确定在检测到所述声音信号时所述佩戴者进行了讲话动作,确定所述声音信号来自于所述佩戴者。
18.如权利要求11所述的装置,其中,所述声音来源确定单元包括:
声纹信息识别模块,被配置为识别所检测到的声音信号的声纹信息;
声音信号来源确定模块,被配置为基于所述佩戴者的声纹特征和所识别的声纹信息,确定所述声音信号是否来自于所述佩戴者。
19.如权利要求11所述的装置,其中,所述装置还包括:
声音检测单元,被配置为检测声音信号。
20.如权利要求19所述的装置,其中,所述声音信号为骨传导声音信号,所述声音检测单元包括:
骨传导声音检测单元,被配置为当所述佩戴者佩戴所述可穿戴设备时,能够贴附在所述佩戴者的头部或颈部,以检测骨传导声音信号,
声音信号来源确定模块,被配置为:
在所述骨传导声音信号不低于预定声音阈值时,确定所述声音信号为来自于可穿戴设备的佩戴者的声音信号。
21.一种用于唤醒可穿戴设备的装置,包括:
生物特征信息获取单元,被配置为获取可穿戴设备的佩戴者的与发声相关的生物特征信息,其中,所述与发声相关的生物特征信息包括以下中的至少一者:所述佩戴者的肌肉肌电信号,所述佩戴者的面部肌肉运动信息,所述佩戴者的肌肉震动信息,所述佩戴者的骨传导声音信号;
声音检测单元,被配置为当所述与发声相关的生物特征信息的变化表明所述佩戴者发声时,检测在所述佩戴者发声过程中的声音信号,所述声音信号被检测到时的时间点在所述声音信号被检测到时的时间点被获取的时间点起向后预定时间段内;
声音信号分类单元,被配置为基于所述声音信号,利用语音分类模型对所述声音信号是否属于人机交互对话进行分类,预测来确定所述声音信号是否属于所述佩戴者与所述可穿戴设备之间的对话,所述语音分类模型利用人与人对话的语音数据样本和人机交互对话的语音数据样本进行训练得到,所述人机交互对话的节奏、响度、音调和泛音强度与所述人与人对话不同;
设备唤醒单元,被配置为当在佩戴者发声过程中检测到的声音信号属于所述佩戴者与所述可穿戴设备之间的对话时,唤醒所述可穿戴设备。
22.一种计算设备,包括:
至少一个处理器;以及
存储器,所述存储器存储指令,当所述指令被所述至少一个处理器执行时,使得所述至少一个处理器执行如权利要求1到9中任一所述的方法。
23.一种非暂时性机器可读存储介质,其存储有可执行指令,所述指令当被执行时使得所述机器执行如权利要求1到9中任一所述的方法。
24.一种计算设备,包括:
至少一个处理器;以及
存储器,所述存储器存储指令,当所述指令被所述至少一个处理器执行时,使得所述至少一个处理器执行如权利要求10所述的方法。
25.一种非暂时性机器可读存储介质,其存储有可执行指令,所述指令当被执行时使得所述机器执行如权利要求10所述的方法。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910007365.XA CN111475206B (zh) | 2019-01-04 | 2019-01-04 | 用于唤醒可穿戴设备的方法及装置 |
US17/420,465 US20220084529A1 (en) | 2019-01-04 | 2019-12-27 | Method and apparatus for awakening wearable device |
EP19907267.9A EP3890342B1 (en) | 2019-01-04 | 2019-12-27 | Waking up a wearable device |
PCT/CN2019/129114 WO2020140840A1 (zh) | 2019-01-04 | 2019-12-27 | 用于唤醒可穿戴设备的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910007365.XA CN111475206B (zh) | 2019-01-04 | 2019-01-04 | 用于唤醒可穿戴设备的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111475206A CN111475206A (zh) | 2020-07-31 |
CN111475206B true CN111475206B (zh) | 2023-04-11 |
Family
ID=71407287
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910007365.XA Active CN111475206B (zh) | 2019-01-04 | 2019-01-04 | 用于唤醒可穿戴设备的方法及装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20220084529A1 (zh) |
EP (1) | EP3890342B1 (zh) |
CN (1) | CN111475206B (zh) |
WO (1) | WO2020140840A1 (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20210009596A (ko) * | 2019-07-17 | 2021-01-27 | 엘지전자 주식회사 | 지능적 음성 인식 방법, 음성 인식 장치 및 지능형 컴퓨팅 디바이스 |
US12216749B2 (en) | 2021-08-04 | 2025-02-04 | Q (Cue) Ltd. | Using facial skin micromovements to identify a user |
US11908478B2 (en) | 2021-08-04 | 2024-02-20 | Q (Cue) Ltd. | Determining speech from facial skin movements using a housing supported by ear or associated with an earphone |
WO2024018400A2 (en) * | 2022-07-20 | 2024-01-25 | Q (Cue) Ltd. | Detecting and utilizing facial micromovements |
CN113782038A (zh) * | 2021-09-13 | 2021-12-10 | 北京声智科技有限公司 | 一种语音识别方法、装置、电子设备及存储介质 |
CN115035886B (zh) * | 2021-09-17 | 2023-04-14 | 荣耀终端有限公司 | 声纹识别方法及电子设备 |
CN113724699B (zh) * | 2021-09-18 | 2024-06-25 | 优奈柯恩(北京)科技有限公司 | 设备唤醒识别模型训练方法、设备唤醒控制方法及装置 |
JP7632424B2 (ja) | 2022-09-14 | 2025-02-19 | カシオ計算機株式会社 | 電子機器、電子機器の制御方法及びプログラム |
CN117135266B (zh) * | 2023-10-25 | 2024-03-22 | Tcl通讯科技(成都)有限公司 | 一种信息处理方法、装置及计算机可读存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103279734A (zh) * | 2013-03-26 | 2013-09-04 | 上海交通大学 | 新型的智能手语翻译与人机交互系统及其使用方法 |
CN106251870A (zh) * | 2015-06-08 | 2016-12-21 | 罗伯特·博世有限公司 | 识别语音控制用的语境的方法、求出语音控制用的语音控制信号的方法及实施该方法的设备 |
CN107112026A (zh) * | 2014-10-20 | 2017-08-29 | 奥迪马科斯公司 | 用于智能语音识别和处理的系统、方法和装置 |
CN107438398A (zh) * | 2015-01-06 | 2017-12-05 | 大卫·伯顿 | 移动式可穿戴的监控系统 |
CN107730211A (zh) * | 2017-10-29 | 2018-02-23 | 佛山市凯荣泰科技有限公司 | 采用可穿戴设备的睡眠提醒方法以及系统 |
CN107808659A (zh) * | 2017-12-02 | 2018-03-16 | 宫文峰 | 智能语音信号模式识别系统装置 |
CN107972028A (zh) * | 2017-07-28 | 2018-05-01 | 北京物灵智能科技有限公司 | 人机交互方法、装置及电子设备 |
CN108074310A (zh) * | 2017-12-21 | 2018-05-25 | 广东汇泰龙科技有限公司 | 基于语音识别模块的语音交互方法及智能锁管理系统 |
Family Cites Families (74)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001525716A (ja) * | 1997-05-19 | 2001-12-11 | クリエイター・リミテッド | プログラム可能な組立玩具 |
JP4809212B2 (ja) * | 2003-04-01 | 2011-11-09 | メドテック エイ/エス | 筋活動を監視する方法および装置 |
CN100535806C (zh) * | 2007-11-16 | 2009-09-02 | 哈尔滨工业大学 | 基于双数字信号处理器的嵌入式多自由度肌电假手控制系统 |
CN101246687A (zh) * | 2008-03-20 | 2008-08-20 | 北京航空航天大学 | 一种智能语音交互系统及交互方法 |
US8359020B2 (en) * | 2010-08-06 | 2013-01-22 | Google Inc. | Automatically monitoring for voice input based on context |
CN102999154B (zh) * | 2011-09-09 | 2015-07-08 | 中国科学院声学研究所 | 一种基于肌电信号的辅助发声方法及装置 |
US9214157B2 (en) * | 2011-12-06 | 2015-12-15 | At&T Intellectual Property I, L.P. | System and method for machine-mediated human-human conversation |
US9257115B2 (en) * | 2012-03-08 | 2016-02-09 | Facebook, Inc. | Device for extracting information from a dialog |
US9704486B2 (en) * | 2012-12-11 | 2017-07-11 | Amazon Technologies, Inc. | Speech recognition power management |
DE102013007502A1 (de) * | 2013-04-25 | 2014-10-30 | Elektrobit Automotive Gmbh | Computer-implementiertes Verfahren zum automatischen Trainieren eins Dialogsystems und Dialogsystem zur Erzeugung von semantischen Annotationen |
CN103458056B (zh) * | 2013-09-24 | 2017-04-26 | 世纪恒通科技股份有限公司 | 自动外呼系统基于自动分类技术的语音意图判定系统 |
CN103853071B (zh) * | 2014-01-20 | 2016-09-28 | 南京升泰元机器人科技有限公司 | 基于生物信号的人机面部表情交互系统 |
CN103956164A (zh) * | 2014-05-20 | 2014-07-30 | 苏州思必驰信息科技有限公司 | 一种声音唤醒方法及系统 |
CN105575395A (zh) * | 2014-10-14 | 2016-05-11 | 中兴通讯股份有限公司 | 语音唤醒方法及装置、终端及其处理方法 |
US9786299B2 (en) * | 2014-12-04 | 2017-10-10 | Microsoft Technology Licensing, Llc | Emotion type classification for interactive dialog system |
KR102324735B1 (ko) * | 2015-01-19 | 2021-11-10 | 삼성전자주식회사 | 생체 정보를 이용하여 적응적 제어가 가능한 웨어러블 장치, 이를 포함하는 시스템, 및 이의 동작 방법 |
CN204537060U (zh) * | 2015-04-23 | 2015-08-05 | 宁波市美灵思医疗科技有限公司 | 一种基于肌电流和多传感器协同作用的人机交互设备 |
US9485733B1 (en) * | 2015-05-17 | 2016-11-01 | Intel Corporation | Apparatus, system and method of communicating a wakeup packet |
US10747861B2 (en) * | 2015-06-02 | 2020-08-18 | Lg Electronics Inc. | Mobile terminal and method for controlling same |
KR20170029390A (ko) * | 2015-09-06 | 2017-03-15 | 정경환 | 음성 명령 모드 진입 방법 |
US9824287B2 (en) * | 2015-09-29 | 2017-11-21 | Huami Inc. | Method, apparatus and system for biometric identification |
CN105487661A (zh) * | 2015-11-27 | 2016-04-13 | 东莞酷派软件技术有限公司 | 一种终端控制方法及装置 |
US9913050B2 (en) * | 2015-12-18 | 2018-03-06 | Cochlear Limited | Power management features |
EP3185244B1 (en) * | 2015-12-22 | 2019-02-20 | Nxp B.V. | Voice activation system |
CN105501121B (zh) * | 2016-01-08 | 2018-08-03 | 北京乐驾科技有限公司 | 一种智能唤醒方法及系统 |
CN105810200A (zh) * | 2016-02-04 | 2016-07-27 | 深圳前海勇艺达机器人有限公司 | 基于声纹识别的人机对话装置及其方法 |
US9972322B2 (en) * | 2016-03-29 | 2018-05-15 | Intel Corporation | Speaker recognition using adaptive thresholding |
CN105912092B (zh) * | 2016-04-06 | 2019-08-13 | 北京地平线机器人技术研发有限公司 | 人机交互中的语音唤醒方法及语音识别装置 |
CN105869637B (zh) * | 2016-05-26 | 2019-10-15 | 百度在线网络技术(北京)有限公司 | 语音唤醒方法和装置 |
CN107665708B (zh) * | 2016-07-29 | 2021-06-08 | 科大讯飞股份有限公司 | 智能语音交互方法及系统 |
CN107767861B (zh) * | 2016-08-22 | 2021-07-02 | 科大讯飞股份有限公司 | 语音唤醒方法、系统及智能终端 |
US10566007B2 (en) * | 2016-09-08 | 2020-02-18 | The Regents Of The University Of Michigan | System and method for authenticating voice commands for a voice assistant |
JP6515897B2 (ja) * | 2016-09-28 | 2019-05-22 | トヨタ自動車株式会社 | 音声対話システムおよび発話意図理解方法 |
CN106569607A (zh) * | 2016-11-08 | 2017-04-19 | 上海交通大学 | 一种基于肌电及运动传感器的头部动作识别系统 |
EP4202840A1 (en) * | 2016-11-11 | 2023-06-28 | Magic Leap, Inc. | Periocular and audio synthesis of a full face image |
KR20180055661A (ko) * | 2016-11-16 | 2018-05-25 | 삼성전자주식회사 | 전자 장치 및 그 제어 방법 |
CN106558308B (zh) * | 2016-12-02 | 2020-05-15 | 深圳撒哈拉数据科技有限公司 | 一种互联网音频数据质量自动打分系统及方法 |
US10692485B1 (en) * | 2016-12-23 | 2020-06-23 | Amazon Technologies, Inc. | Non-speech input to speech processing system |
CN106714023B (zh) * | 2016-12-27 | 2019-03-15 | 广东小天才科技有限公司 | 一种基于骨传导耳机的语音唤醒方法、系统及骨传导耳机 |
CN106653021B (zh) * | 2016-12-27 | 2020-06-02 | 上海智臻智能网络科技股份有限公司 | 语音唤醒的控制方法、装置及终端 |
KR20180084392A (ko) * | 2017-01-17 | 2018-07-25 | 삼성전자주식회사 | 전자 장치 및 그의 동작 방법 |
CN106952646A (zh) * | 2017-02-27 | 2017-07-14 | 深圳市朗空亿科科技有限公司 | 一种基于自然语言的机器人交互方法和系统 |
US10468032B2 (en) * | 2017-04-10 | 2019-11-05 | Intel Corporation | Method and system of speaker recognition using context aware confidence modeling |
US11250844B2 (en) * | 2017-04-12 | 2022-02-15 | Soundhound, Inc. | Managing agent engagement in a man-machine dialog |
US10313782B2 (en) * | 2017-05-04 | 2019-06-04 | Apple Inc. | Automatic speech recognition triggering system |
CN108229283B (zh) * | 2017-05-25 | 2020-09-22 | 深圳市前海未来无限投资管理有限公司 | 肌电信号采集方法及装置 |
GB201801526D0 (en) * | 2017-07-07 | 2018-03-14 | Cirrus Logic Int Semiconductor Ltd | Methods, apparatus and systems for authentication |
CN107644641B (zh) * | 2017-07-28 | 2021-04-13 | 深圳前海微众银行股份有限公司 | 对话场景识别方法、终端以及计算机可读存储介质 |
CN107704275B (zh) * | 2017-09-04 | 2021-07-23 | 百度在线网络技术(北京)有限公司 | 智能设备唤醒方法、装置、服务器及智能设备 |
US10395655B1 (en) * | 2017-09-13 | 2019-08-27 | Amazon Technologies, Inc. | Proactive command framework |
CN107679042B (zh) * | 2017-11-15 | 2021-02-05 | 北京灵伴即时智能科技有限公司 | 一种面向智能语音对话系统的多层级对话分析方法 |
US10488831B2 (en) * | 2017-11-21 | 2019-11-26 | Bose Corporation | Biopotential wakeup word |
US11140450B2 (en) * | 2017-11-28 | 2021-10-05 | Rovi Guides, Inc. | Methods and systems for recommending content in context of a conversation |
KR102469753B1 (ko) * | 2017-11-30 | 2022-11-22 | 삼성전자주식회사 | 음원의 위치에 기초하여 서비스를 제공하는 방법 및 이를 위한 음성 인식 디바이스 |
CN108134876A (zh) * | 2017-12-21 | 2018-06-08 | 广东欧珀移动通信有限公司 | 对话分析方法、装置、存储介质及移动终端 |
CN111492357A (zh) * | 2017-12-21 | 2020-08-04 | 三星电子株式会社 | 用于生物识别用户认证的系统和方法 |
CN108337362A (zh) * | 2017-12-26 | 2018-07-27 | 百度在线网络技术(北京)有限公司 | 语音交互方法、装置、设备和存储介质 |
CN108200509A (zh) * | 2017-12-27 | 2018-06-22 | 中国人民解放军总参谋部第六十研究所 | 一种用于噪杂环境下的录音装置 |
US10424186B2 (en) * | 2017-12-28 | 2019-09-24 | Sony Corporation | System and method for customized message playback |
CN108039171A (zh) * | 2018-01-08 | 2018-05-15 | 珠海格力电器股份有限公司 | 语音控制方法及装置 |
CN108306797A (zh) * | 2018-01-30 | 2018-07-20 | 百度在线网络技术(北京)有限公司 | 声控智能家居设备方法、系统、终端以及存储介质 |
KR102515023B1 (ko) * | 2018-02-23 | 2023-03-29 | 삼성전자주식회사 | 전자 장치 및 그 제어 방법 |
US20200410987A1 (en) * | 2018-03-08 | 2020-12-31 | Sony Corporation | Information processing device, information processing method, program, and information processing system |
US10878825B2 (en) * | 2018-03-21 | 2020-12-29 | Cirrus Logic, Inc. | Biometric processes |
CN108694942A (zh) * | 2018-04-02 | 2018-10-23 | 浙江大学 | 一种基于家居智能服务机器人的智能家居交互问答系统 |
CN108962240B (zh) * | 2018-06-14 | 2021-09-21 | 百度在线网络技术(北京)有限公司 | 一种基于耳机的语音控制方法及系统 |
CN108735218A (zh) * | 2018-06-25 | 2018-11-02 | 北京小米移动软件有限公司 | 语音唤醒方法、装置、终端及存储介质 |
CN108920639B (zh) * | 2018-07-02 | 2022-01-18 | 北京百度网讯科技有限公司 | 基于语音交互的上下文获取方法及设备 |
KR102599607B1 (ko) * | 2018-08-21 | 2023-11-07 | 구글 엘엘씨 | 자동화된 어시스턴트를 호출하기 위한 다이내믹 및/또는 컨텍스트 특정 핫워드 |
US11016968B1 (en) * | 2018-09-18 | 2021-05-25 | Amazon Technologies, Inc. | Mutation architecture for contextual data aggregator |
US10861444B2 (en) * | 2018-09-24 | 2020-12-08 | Rovi Guides, Inc. | Systems and methods for determining whether to trigger a voice capable device based on speaking cadence |
US11423885B2 (en) * | 2019-02-20 | 2022-08-23 | Google Llc | Utilizing pre-event and post-event input streams to engage an automated assistant |
CN109712646A (zh) * | 2019-02-20 | 2019-05-03 | 百度在线网络技术(北京)有限公司 | 语音播报方法、装置和终端 |
EP4174850A4 (en) * | 2020-09-09 | 2023-12-06 | Samsung Electronics Co., Ltd. | ELECTRONIC VOICE RECOGNITION DEVICE AND CONTROL METHOD THEREFOR |
-
2019
- 2019-01-04 CN CN201910007365.XA patent/CN111475206B/zh active Active
- 2019-12-27 WO PCT/CN2019/129114 patent/WO2020140840A1/zh unknown
- 2019-12-27 EP EP19907267.9A patent/EP3890342B1/en active Active
- 2019-12-27 US US17/420,465 patent/US20220084529A1/en active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103279734A (zh) * | 2013-03-26 | 2013-09-04 | 上海交通大学 | 新型的智能手语翻译与人机交互系统及其使用方法 |
CN107112026A (zh) * | 2014-10-20 | 2017-08-29 | 奥迪马科斯公司 | 用于智能语音识别和处理的系统、方法和装置 |
CN107438398A (zh) * | 2015-01-06 | 2017-12-05 | 大卫·伯顿 | 移动式可穿戴的监控系统 |
CN106251870A (zh) * | 2015-06-08 | 2016-12-21 | 罗伯特·博世有限公司 | 识别语音控制用的语境的方法、求出语音控制用的语音控制信号的方法及实施该方法的设备 |
CN107972028A (zh) * | 2017-07-28 | 2018-05-01 | 北京物灵智能科技有限公司 | 人机交互方法、装置及电子设备 |
CN107730211A (zh) * | 2017-10-29 | 2018-02-23 | 佛山市凯荣泰科技有限公司 | 采用可穿戴设备的睡眠提醒方法以及系统 |
CN107808659A (zh) * | 2017-12-02 | 2018-03-16 | 宫文峰 | 智能语音信号模式识别系统装置 |
CN108074310A (zh) * | 2017-12-21 | 2018-05-25 | 广东汇泰龙科技有限公司 | 基于语音识别模块的语音交互方法及智能锁管理系统 |
Also Published As
Publication number | Publication date |
---|---|
EP3890342A4 (en) | 2022-01-19 |
EP3890342B1 (en) | 2024-09-11 |
WO2020140840A1 (zh) | 2020-07-09 |
EP3890342A1 (en) | 2021-10-06 |
CN111475206A (zh) | 2020-07-31 |
US20220084529A1 (en) | 2022-03-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111475206B (zh) | 用于唤醒可穿戴设备的方法及装置 | |
CN108320733B (zh) | 语音数据处理方法及装置、存储介质、电子设备 | |
US10665129B2 (en) | Haptic communication system using broad-band stimuli | |
US10433052B2 (en) | System and method for identifying speech prosody | |
US10242666B2 (en) | Method of performing multi-modal dialogue between a humanoid robot and user, computer program product and humanoid robot for implementing said method | |
CN108573695B (zh) | 语音处理装置及其方法、机器人及计算机可读取记录介质 | |
JP5323770B2 (ja) | ユーザ指示取得装置、ユーザ指示取得プログラムおよびテレビ受像機 | |
US12105876B2 (en) | System and method for using gestures and expressions for controlling speech applications | |
JP2004310034A (ja) | 対話エージェントシステム | |
CN112102850A (zh) | 情绪识别的处理方法、装置、介质及电子设备 | |
JP2008139762A (ja) | プレゼンテーション支援装置および方法並びにプログラム | |
CN111326152A (zh) | 语音控制方法及装置 | |
JP2019217122A (ja) | ロボット、ロボットの制御方法及びプログラム | |
CN109074809B (zh) | 信息处理设备、信息处理方法和计算机可读存储介质 | |
CN113724699B (zh) | 设备唤醒识别模型训练方法、设备唤醒控制方法及装置 | |
CN108648758B (zh) | 医疗场景中分离无效语音的方法及系统 | |
KR20170029390A (ko) | 음성 명령 모드 진입 방법 | |
Yau | Video analysis of mouth movement using motion templates for computer-based lip-reading | |
CN118212917A (zh) | 语音助手唤醒方法、装置、设备及存储介质 | |
JP2025051665A (ja) | システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |