CN109671438A - 一种利用语音提供辅助服务的装置及方法 - Google Patents
一种利用语音提供辅助服务的装置及方法 Download PDFInfo
- Publication number
- CN109671438A CN109671438A CN201910082510.0A CN201910082510A CN109671438A CN 109671438 A CN109671438 A CN 109671438A CN 201910082510 A CN201910082510 A CN 201910082510A CN 109671438 A CN109671438 A CN 109671438A
- Authority
- CN
- China
- Prior art keywords
- voice
- voiceprint
- service content
- content
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/08—Network architectures or network communication protocols for network security for authentication of entities
- H04L63/0861—Network architectures or network communication protocols for network security for authentication of entities using biometrical features, e.g. fingerprint, retina-scan
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Computer Hardware Design (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Computer Security & Cryptography (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Telephonic Communication Services (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本发明涉及一种利用语音提供辅助服务的装置及方法,其中装置包括:语音信息采集模块,采集其接收范围内的音频内容;身份识别模块,响应于采集的音频内容中出现多人的声纹,获取所述多人的声纹信息;以及基于所述多人的声纹信息和预先形成的场景声纹数据集,确定各人所属的身份类型,将所述各人所属的身份类型集合成所述多人的身份类型组合;语音分析模块,对采集的音频内容进行语音识别获取语音内容,并对获取的语音内容进行语义识别,获取关键信息;以及服务内容提供模块,基于所述多人的身份类型组合对应的权限级别、所述关键信息以及预设的用户偏好,提供服务内容进行展示。本发明实施例提出的技术方案无需用户专门与智能终端进行交互。
Description
技术领域
本发明属于人机交互技术领域,具体涉及一种利用语音提供辅助服务的装置及方法。
背景技术
随着人脸识别技术和语音识别技术的发展,它们的应用场景也在不断拓展。在目前的人机交互场景中,普遍存在的是用户与智能机器人一对一对话交互,首先智能机器人通过人脸识别技术验证用户与其提供的身份证信息是否一致,在验证通过后,用户发出语音指令表达需求,智能机器人通过语音识别技术识别语音信息,利用可视化技术和语音展示用户需要的产品;然后用户通过语音确认该产品是否满足需求,完成交互。识别客户下达的语音指令,并按照并且智能机器人按照客户的指令进行的目前的人脸识别技术。申请人发现,目前的交互方式需要用户专门与智能终端进行交互。
发明内容
为了解决上述的目前的交互方式需要用户专门与智能终端进行交互的技术问题,本发明实施例提出了一种利用语音提供辅助服务的装置及方法。
在本发明的第一方面,提供一种利用语音提供辅助服务的装置。该装置包括:语音信息采集模块、身份识别模块、语音分析模块和服务内容提供模块;其中,
语音信息采集模块,采集其接收范围内的音频内容;
身份识别模块,响应于语音信息采集模块采集的音频内容中出现多人的声纹,对所述语音信息采集模块采集的音频内容进行声纹识别,获取所述多人的声纹信息;以及基于获取的所述多人的声纹信息和预先形成的场景声纹数据集,确定各人所属的身份类型,将所述各人所属的身份类型集合成所述多人的身份类型组合;所述场景声纹数据集表征人的声纹信息与身份类型的关联关系;
语音分析模块,对语音信息采集模块采集的音频内容进行语音识别获取语音内容,并对获取的语音内容进行语义识别,获取关键信息;以及
服务内容提供模块,基于所述多人的身份类型组合对应的权限级别、所述关键信息以及预设的用户偏好,提供服务内容进行展示。
在某些实施例中,所述服务内容提供模块根据身份识别模块确定的所述多人的身份类型组合,确定所述身份类型组合拥有的权限级别;根据语音分析模块获取的关键信息,给出满足所述权限级别的备选服务内容;按照所述预设的用户偏好,从备选服务内容中确定服务内容,并提供所述确定的服务内容进行展示。
在某些实施例中,所述装置还包括外部控制接口,所述外部控制接口用于接收用户下达的语音指令或者硬件指令,并基于所述语音指令或硬件指令改变所述提供的服务内容或者改变所述展示的服务内容。
在某些实施例中,所述语音信息采集模块持续采集其接收范围内的音频内容,或者按照用户的指示开始或停止采集其接收范围内的音频内容。
在某些实施例中,所述服务内容提供模块包括具有输入输出互动功能的电子设备,通过电子设备输出所述提供的服务内容,并且能够接收用户向电子设备输入的信息,按照所述输入的信息对所述输出的服务内容进行操作。
在某些实施例中,如果获取的人的声纹信息已经保存在所述场景声纹数据集中,则所述场景声纹数据集中保存的与所述获取的人的声纹信息关联的身份类型确定为该人所属的身份类型;如果获取的人的声纹信息未保存在所述场景声纹数据集中,则确定该人所属的身份类型为陌生人。
在某些实施例中,所述提供的服务内容中包括需要重新验证身份类型才准予执行的功能,响应于身份类型验证通过,执行所述功能;
和/或,
所述提供的服务内容设置有保密等级,在所述保密等级需要对相关人员进行身份核查时,仅对该相关人员的声纹信息进行确认。
在本发明的第二方面,提供一种利用语音提供辅助服务的方法。该方法包括:
响应于采集的音频内容中出现多人的声纹,对所述采集的音频内容进行声纹识别,获取所述多人的声纹信息;
基于获取的所述多人的声纹信息和预先形成的场景声纹数据集,确定各人所属的身份类型,将所述各人所属的身份类型集合成所述多人的身份类型组合;所述场景声纹数据集表征人的声纹信息与身份类型的关联关系;
对采集的音频内容进行语音识别,并对识别的语音内容进行语义识别,获取关键信息;以及
基于所述多人的身份类型组合对应的权限级别、所述关键信息以及预设的用户偏好,提供服务内容进行展示。
在某些实施例中,所述基于所述多人的身份类型组合对应的权限级别、所述关键信息以及预设的用户偏好,提供服务内容进行展示,包括:根据所述多人的身份类型组合,确定所述身份类型组合拥有的权限级别;根据获取的关键信息,给出满足所述权限级别的备选服务内容;按照所述预设的用户偏好,从备选服务内容中确定服务内容,并提供所述确定的服务内容进行展示。
在某些实施例中,所述方法还包括:接收用户下达的语音指令或者硬件指令,改变所述提供的服务内容或者改变所述展示的服务内容。
本发明的有益效果:本发明实施例提出的利用语音提供辅助服务的装置及方法,针对多人会话的应用场景,通过声纹识别形成多人的身份类型组合,并获取多人会话中的关键信息,根据多身份类型的组合对应的权限级别和获取的关键信息以及预设的用户偏好,提供服务内容,无需用户专门与智能终端进行交互,并且无需采集视频内容,也无需进行人脸识别,只需采集音频信息即可实现辅助服务的功能。并且本发明实施例提出的技术方案不需要与用户通过一问一答的方式来提供服务,因此不会影响会话的正常进行。另外,本发明实施例提出的技术方案提供了用户的外部控制接口,可以快速为用户提供辅助服务。
附图说明
图1是本发明实施例提出的利用语音提供辅助服务的装置的结构示意图;
图2是本发明实施例提出的利用语音提供辅助服务的方法的一实施方式的流程图;
图3是本发明实施例提出的利用语音提供辅助服务的装置在一应用场景中的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。但本领域技术人员知晓,本发明并不局限于附图和以下实施例。
本发明实施例提出了一种利用语音提供辅助服务的装置,如图1所示,包括:语音信息采集模块、身份识别模块、语音分析模块和服务内容提供模块。
语音信息采集模块,采集其接收范围内的音频内容。
在一个实施例中,语音信息采集模块包括麦克风。本领域技术人员知晓,语音信息采集模块也可以采用其他采集音频内容的设备,例如语音信息采集模块包括拾音器。
身份识别模块,响应于语音信息采集模块采集的音频内容中出现多人的声纹,对所述语音信息采集模块采集的音频内容进行声纹识别,获取所述多人的声纹信息;以及基于获取的所述多人的声纹信息和预先形成的场景声纹数据集,确定各人所属的身份类型,将所述各人所属的身份类型集合成所述多人的身份类型组合。
在一实施例中,所述身份识别模块包括声纹识别单元和身份类型确定单元,所述声纹识别单元人脸识别单元响应于语音信息采集模块采集的音频内容中出现多人的声纹,对所述语音信息采集模块采集的音频内容进行声纹识别,获取所述多人的声纹信息;所述身份类型确定单元基于获取的所述多人的声纹信息和预先形成的场景声纹数据集,确定所述多人所属的身份类型,将所述各人所属的身份类型集合成所述多人的身份类型组合。
在本实施例中,采用场景声纹数据集表征人的声纹信息与身份类型的关联关系。在确定所述识别的声纹所属的身份类型之前,预先形成的场景声纹数据集中已经保存了人的声纹信息,并且赋予了各人所属的身份类型。可以理解,预先形成的场景声纹数据集中保存的人的声纹信息,可以从现场采集的音频内容中获取,例如通过所述语音信息采集模块或者其他语音信息采集模块(例如拾音器)采集的音频内容;还可以从上传的音频资料中获取。在一个实施例中,可以从已经采集的音频内容中选取一时间段的音频内容,也可以通过触发起止操作实时采集一时间段的音频内容,通过识别所述时间段的音频内容,获取人的声纹信息。在一个实施例中,可以从已经采集的视频内容中选取一时间段的视频内容,也可以通过触发起止操作实时采集一时间段的视频内容;识别所述时间段的视频内容中的人的声纹信息,并赋予该人所属的身份类型;将人的声纹信息和该人所属的身份类型关联地保存在场景声纹数据集中。
在本实施例中,所述身份类型用来表示不同工作、职务和/或地位。在一实施例中,所述身份类型包括按照职务划分的身份类型,例如,董事长、总经理、部门经理、普通员工、实习员工、勤杂人员等。在另一实施例中,所述身份类型包括按照工作划分的身份类型,例如,A项目负责人、A项目研发技术人员、A项目测试技术人员、A项目市场开发人员等等。
在一个实施例中,如果获取的人的声纹信息已经保存在所述场景声纹数据集中,则所述场景声纹数据集中保存的与所述获取的人的声纹信息关联的身份类型确定为该人所属的身份类型;如果获取的人的声纹信息未保存在所述场景声纹数据集中,则确定该人所属的身份类型为陌生人。
在一实施例中,场景声纹数据集包括表示已确定所属身份类型的第一场景声纹子数据集和表示待补充所属身份类型的第二场景声纹子数据集,其中,已赋予了所属身份类型的人的声纹信息和其已赋予的所属身份类型相关联地保存在第一场景声纹子数据集中,陌生人的声纹信息因需要补充陌生人所属身份类型,保存在第二场景声纹子数据集中。所述预先形成的场景声纹数据集属于所述第一场景声纹子数据集。
语音分析模块,对语音信息采集模块采集的音频内容进行语音识别,以及对语音识别单元识别的语音内容进行语义识别,获取关键信息。在一个实施例中,所述语音分析模块包括语音识别单元和语义识别单元,其中,语音识别单元对语音信息采集模块采集的音频内容进行语音识别,语义识别单元对语音识别单元识别的语音内容进行语义识别,获取关键信息。
服务内容提供模块,基于所述多人的身份类型组合对应的权限级别、所述关键信息以及预设的用户偏好,提供服务内容进行展示。
所述用户可以为所述多人中的一个,也可以是不属于所述多人的其他人,例如所述多人中的某人的委托人,所述委托人委托或指派所述某人代为出现在所述多人的场景中。
在一个实施例中,所述服务内容提供模块根据身份识别模块确定的所述多人的身份类型组合,确定所述身份类型组合拥有的权限级别;根据语音分析模块获取的关键信息、所述权限级别以及预设的用户偏好,提供服务内容进行展示。在一实施例中,所述服务内容提供模块可以根据语音分析模块获取的关键信息,给出满足所述权限级别的备选服务内容;按照所述预设的用户偏好,从备选服务内容中确定服务内容,并提供所确定的服务内容进行展示。在一实施例中,所述提供的服务内容为多个时,所述多个服务内容按照对应的关键信息的排序或者按照所述预设的用户偏好依序展示。可以理解,关键信息的排序可以与该关键信息出现的频率、出现的时间有关;预设的用户偏好可以与多人中的一个人员的个性化设置有关,所述人员可以是多人中重要性最高的人,也可以是多人中作为主持人的人。
在一实施例中,所述装置还包括外部控制接口,所述外部控制接口用于接收用户下达的语音指令或者硬件指令。所述外部控制接口接收用户下达的语音指令可以通过所述语音信息采集模块或者其他语音信息采集模块接收,所述外部控制接口接收用户下达的硬件指令可以通过所述装置提供的虚拟按键或实体按键接收。所述语音指令可以通过特定术语触发,特定术语例如可以是表示某种实物的名称,也可以是虚构的词语,只要尽量保证语音指令与会话场景中的语言不会发生混淆。所述硬件指令可以通过特定按键触发,特定按键例如可以是所述装置在展示画面上设置的悬浮键,也可以是所述装置具有的按键,该按键在展示服务内容的场景中作为外部控制接口使用。在某些应用场景中,例如所述提供的服务内容在展示时,可以响应于用户的语音指令或按键指令切换所展示的内容,也可以响应于用户通过语音指令或按键指令输入的关键词,重新提供服务内容进行展示。
在一个实施例中,服务内容提供模块可以包括显示屏,通过显示屏展示所述提供的服务内容。在另一实施例中,服务内容提供模块包括具有输入输出互动功能的电子设备,通过电子设备输出所述提供的服务内容,并且能够接收用户向电子设备输入的信息(例如语音指令或硬件指令),按照所述输入的信息对所述输出的服务内容进行操作。所述输入信息例如可以是指示对所述输出的服务内容进行放大、缩小、滑动、旋转等页面操作,也可以是指示对所述输出的服务内容中提供的链接进行点选等激活操作,还可以是指示对所述输出的服务内容中提供的选择或确认问询进行回复的操作等。
在一个实施例中,所述场景声纹数据集中还保存与人的声纹信息关联的联系工具的账号。所述联系工具至少可以包括手机、微信或QQ。可以理解,所述联系工具还可以包括其他能够实现信息交互的方式。进一步地,在一实施例中,所述提供的服务内容发送给所述联系工具的账号,并提示用户查看,从而可单独在用户设备上进行服务内容的展示。在另一实施例中,所述提供的服务内容以主题的形式发送给所述联系工具的账号,并且在所述主题为多个时,按顺序(例如按照关键信息的排序或者按照预设的用户偏好)显示所述主题供用户了解。
在一实施例中,所述服务内容可以从单位的内部服务器获取,也可以通过网络从外部服务器获取。进一步地,在一实施例中,所述服务内容提供模块可以包括存储供选择的服务内容的资料库的内部服务器。所述服务内容提供模块可以自动更新所述内部服务器中的服务内容并标注所述更新的服务内容供用户核实,也可以按照用户的指示更新所述内部服务器中的服务内容。
在一实施例中,身份识别模块、语音分析模块和服务内容提供模块可以集成在服务终端中。
在某些应用场景中,所述语音信息采集模块可以持续采集其接收范围内的音频内容,也可以按照用户的指示开始或停止采集其接收范围内的音频内容。
另外,在一实施例中,考虑到提供服务内容的方式主要是基于关键信息引发和权限级别筛查的机制,因此可以单独设置关键词接口、权限级别接口、备选服务内容展示接口等,通过后续不断更新数据库来丰富备选服务内容,不断强化本发明实施例的辅助服务功能。
可以理解的是,所述提供的服务内容可以按照循环播放的方式来呈现,也可以按照预先的设置或外部的指令以自动播放的方式来呈现,还可以按照新的关键信息或者新的身份类型组合,不断更新所呈现的服务内容。在一实施例中,可以在已提供的服务内容中,按照新的关键信息或者新的身份类型组合,插播相关的服务内容。
应当理解,展示的服务内容应该具有向当前人员播放的播放权限。
另外,如果展示的服务内容中包括需要特定身份类型才能执行的功能,可以在所述功能执行前,再重新做一次身份类型验证。例如,如果通过展示的服务内容调用出订票服务功能,那么在执行订票服务之前,再次进行声纹识别,并提示相关人员确认其身份类型,必要时,可以要求相关人员提供姓名信息。
再者,在一实施例中,还可以对展示的服务内容设置保密等级,在所述保密等级需要对相关人员进行身份核查时,则重新对该人员的声纹信息进行确认,而不对其他人员进行确认。例如,如果要展示跟本企业商业秘密有关的企业融资资料时,会给出需要对相关人员进行身份核查的提示,响应于在指定的语音信息采集模块采集到了特定人员的声纹信息,提供对应的服务内容。在所述实施例中,可以理解,可以通过多个语音信息采集模块,分别安设在不同位置,例如在一个会议室内,分别在会议室的进出口,角落等地安装语音信息采集模块,语音信息采集模块采集到的音频内容中所识别出来的声纹信息,都会归集到同一个场景声纹数据集中;当进行身份核查时,用来身份核查的语音信息采集模块是固定位置的语音信息采集模块,例如,用来身份核查的语音信息采集模块设置在会议室内的会议桌上的特定位置,甚至用来身份核查的语音信息采集模块可以设置在会议室外的其他场所,或者可以通过相关人员的移动设备(例如相关人员的手机、笔记本电脑、台式机、平板电脑等)来完成。
本发明实施例还提供一种利用语音提供辅助服务的方法,如图2所示,包括:
响应于采集的音频内容中出现多人的声纹,对所述采集的音频内容进行声纹识别,获取所述多人的声纹信息;
基于获取的所述多人的声纹信息和预先形成的场景声纹数据集,确定各人所属的身份类型,将所述各人所属的身份类型集合成所述多人的身份类型组合;所述场景声纹数据集表征人的声纹信息与身份类型的关联关系;
对采集的音频内容进行语音识别,并对识别的语音内容进行语义识别,获取关键信息;以及
基于所述多人的身份类型组合对应的权限级别、所述关键信息以及预设的用户偏好,提供服务内容进行展示。
在一实施例中,所述响应于采集的视频内容中出现多人的声纹,对所述采集的音频内容进行声纹识别,获取所述多人的声纹信息,可以通过语音信息采集模块实现;所述基于获取的所述多人的声纹信息和预先形成的场景声纹数据集,确定各人所属的身份类型,可以通过身份识别模块实现;所述对采集的音频内容进行语音识别,以及对语音识别单元识别的语音内容进行语义识别,获取关键信息,可以通过语音分析模块实现;以及所述所述多人的身份类型组合对应的权限级别和所述关键信息以及预设的用户偏好,提供服务内容进行展示,可以通过服务内容提供模块实现。
所述音频内容可以通过语音信息采集模块进行采集。在一个实施例中,语音信息采集模块包括麦克风。本领域技术人员知晓,语音信息采集模块也可以采用其他采集音频内容的设备,例如语音信息采集模块包括拾音器。
所述基于所述多人的身份类型组合对应的权限级别、所述关键信息以及预设的用户偏好,提供服务内容进行展示,包括:
根据所述多人的身份类型组合,确定所述身份类型组合拥有的权限级别;
根据获取的关键信息,给出满足所述权限级别的备选服务内容;
按照所述预设的用户偏好,从备选服务内容中确定服务内容,并提供所述确定的服务内容进行展示。
在一实施例中,所述提供的服务内容为多个时,所述多个服务内容按照对应的关键信息的排序或者按照所述预设的用户偏好依序展示。可以理解,关键信息的排序可以与该关键信息出现的频率、出现的时间有关;预设的用户偏好可以与多人中的一个人员的个性化设置有关,所述人员可以是多人中重要性最高的人,也可以是多人中作为主持人的人。
在一实施例中,所述方法还包括:接收用户下达的语音指令或者硬件指令,改变所述提供的服务内容或者改变所述展示的服务内容。
本发明实施例涉及的利用语音提供辅助服务的方法与利用语音提供辅助服务的装置对应的内容,按照前述对利用语音提供辅助服务的装置的描述理解,在此不再赘述。
下面结合具体的应用场景,以利用语音提供辅助服务的装置为例,对本发明实施例提出的技术方案进行示例性说明。
在本实施例中,服务内容提供模块是设置在某企业公共会议场所的服务终端,该服务终端至少包括一个可触摸式显示屏以备与用户互动。
当该服务终端根据根据所述身份类型组合,获得当前的身份类型组合是本企业员工A(作为主持人)、本企业员工B以及陌生人C时,确定该组合的权限级别为一般权限;然后根据获取的关键信息,例如获得的关键词包括企业名称、企业所从事多项主营业务中的无线通信业务名称、某省地名时,则服务内容提供模块调用数据库中存储的与上述关键词对应的资料作为第一类型备选服务内容,例如,企业对外介绍宣传PPT、企业的公司介绍、企业无线通信业务当年情况总结等服务内容;同时,服务内容提供模块调用数据库中存储的本企业所在地到某省地名的火车班次、飞机航班次查询入口等内容作为第二备选服务内容;再根据主持人即本企业员工A预设的用户偏好,选择第一类型备选服务内容和/或第二备选服务内容中的部分或者全部,作为确定的服务内容,提供所述确定的服务内容进行展示。
就本企业员工A(主持人)的体验来看,该场景其实是本企业员工A连同本企业员工B一起向客户C介绍该企业概况,推销本企业业务的场景,在本企业员工A和本企业员工B在所述服务终端前开放式聊天的过程中,该服务终端的主界面上例如会循环播放一些本企业的展示信息,同时在该服务终端的可操作界面处,随着本企业员工A、本企业员工B和客户C的不断交谈,自然出现了一些可以点击打开的服务内容备选项。比如本企业员工A提到本企业的名称及最近发展的时候,可以很自然的通过在可触摸式显示屏上自动展现出来的企业对外介绍宣传PPT,来加强展示效果,并且当与客户C的交流中,自然提及到了某省地名时,同样可以很自然的通过可触摸式显示屏上自动展现出来的企业在某省分公司介绍,来转入下一个话题的介绍和沟通。并且一旦在判断产生了实际赴某省地名拜访开展业务需求的时候,可以通过所述服务终端自动提供的火车班次、航班班次查询入口来查询确定时间,甚至当场订票。
可以理解,如果采集的音频内容中出现了本企业董事长等较高级别的人的声纹,则当前的所属身份类型的组合对应的权限级别可以是最高级别。还可以了解到,当当前的身份类型组合中包括本企业的CFO(首席财务官),那么提供的多个备选服务内容中,也可以包含把跟企业近期财务状况有关的资料设置为备选服务内容之一。
在一应用场景中,本发明实施例提出的一种利用语音提供辅助服务的装置为一终端机,如图3所示,包括:壳体、第一语音信息采集设备、第二语音信息采集设备、声纹识别设备、身份验证设备和显示设备。
第一语音信息采集设备安装在壳体内部并靠近壳体正面,采集其接收范围内的第一音频内容,壳体对应于所述第一语音信息采集设备的位置开设有多个第一通孔。第一语音信息采集设备的所述接收范围位于成年人的嘴部附近,方便尽可能全面地采集多人会话的音频内容。所述第一语音信息采集设备可以为一个或者多个,第一语音信息采集设备的数量可以视终端机所在的空间大小而定。
第二语音信息采集设备设置在壳体内部并靠近壳体背面,壳体对应于所述第二语音信息采集设备的位置开设有多个第二通孔。第二语音信息采集设备采集其接收范围内的第二音频内容。在一实施例中,所述第二通孔周缘设置收音部,所述收音部从所述第二通孔向所述第二语音信息采集设备延伸形成渐缩的锥形结构。所述第二语音信息采集设备为一个。
在一个实施例中,第一语音信息采集设备和第二语音信息采集设备分别包括麦克风。本领域技术人员知晓,第一语音信息采集设备和第二语音信息采集设备也可以采用其他采集音频内容的设备,例如第一语音信息采集设备和第二语音信息采集设备分别包括拾音器。
声纹识别设备,设置在壳体内部,与所述第一语音信息采集设备和所述第二语音信息采集设备连接,响应于第一语音信息采集设备采集到第一音频内容并且采集的第一音频内容中出现多人的声纹,对所述第一语音信息采集设备采集的第一音频内容进行声纹识别,获取所述多人的第一声纹信息;响应于所述第二语音信息采集设备采集到第二音频内容,对所述第二语音信息采集设备采集的第二音频内容进行声纹识别,获取采集到的第二音频内容中的第二声纹信息。在本实施例中,所述声纹识别的技术属于已有技术,因此不作具体描述。
身份验证设备,设置在壳体内部,与所述声纹识别设备连接,根据所述第二声纹信息进行身份验证。在本实施例中,根据声纹信息进行身份验证的技术属于已有技术,因此不作具体描述。
显示设备,设置在壳体正面,与所述声纹识别设备和所述身份验证设备连接,显示与所述第一声纹信息对应的服务内容,并且响应于所述第二声纹信息通过身份验证,显示与所述第一声纹信息和所述第二声纹信息对应的服务内容。
在一实施例中,所述终端机还包括与所述显示设备连接的外部控制接口,所述外部控制接口用于接收用户下达的语音指令或者硬件指令。所述外部控制接口接收用户下达的语音指令可以通过所述语音信息采集设备或者其他语音信息采集设备接收,所述外部控制接口接收用户下达的硬件指令可以通过所述终端机提供的虚拟按键或实体按键接收。所述语音指令可以通过特定术语触发,特定术语例如可以是表示某种实物的名称,也可以是虚构的词语,只要尽量保证语音指令与会话场景中的语言不会发生混淆。所述硬件指令可以通过特定按键触发,特定按键例如可以是所述终端机在显示画面上设置的悬浮键,也可以是所述终端机具有的按键,该按键在显示服务内容的场景中作为外部控制接口使用。在某些应用场景中,例如显示服务内容时,可以响应于用户的语音指令或按键指令切换所显示的内容,也可以响应于用户通过语音指令或按键指令输入的关键词,重新提供服务内容进行显示。
在一个实施例中,显示设备可以包括显示屏,通过显示屏显示所述服务内容。在另一实施例中,显示设备包括具有输入输出互动功能的电子设备,通过电子设备显示所述服务内容,并且能够接收用户向电子设备输入的信息(例如语音指令或硬件指令),按照所述输入的信息对所述显示的服务内容进行操作。所述输入信息例如可以是指示对所述显示的服务内容进行放大、缩小、滑动、旋转等页面操作,也可以是指示对所述显示的服务内容中提供的链接进行点选等激活操作,还可以是指示对所述显示的服务内容中提供的选择或确认问询进行回复的操作等。在某些应用场景中,所述显示屏为触控屏。
在一实施例中,所述服务内容可以从装置包括的内部服务器获取,也可以通过网络从外部服务器获取。进一步地,在一实施例中,所述终端机可以包括存储供显示的服务内容的资料库的内部服务器,在所述内部服务器中,所述服务内容与所述第一声纹信息或者与所述第一声纹信息和所述第二声纹信息相关联的存储。在另一实施例中,所述显示设备还包括收发单元,所述收发单元将所述第一声纹信息发送给外部服务器或者在所述第二声纹信息通过身份验证时将所述第一声纹信息和所述第二声纹信息发送给外部服务器,并从外部服务器获取对应的服务内容,在显示设备的显示屏上显示,在所述外部服务器中,所述服务内容与所述第一声纹信息或者与所述第一声纹信息和所述第二声纹信息相关联的存储。在所述另一实施例中,所述第一语音信息采集设备与所述显示设备连接(未图示),显示设备从所述第一语音信息采集设备获取所述第一音频内容,并将所述第一音频内容发送给所述外部服务器,所述外部服务器根据第一音频内容的信息和所述第一声纹信息(或者所述第一声纹信息和所述第二声纹信息)提供所述服务内容。
在某些应用场景中,所述第一语音信息采集设备和所述第二语音信息采集设备可以持续采集其接收范围内的音频内容,也可以按照来自用户或者显示设备的指示开始或停止采集其接收范围内的音频内容。
应当理解,显示的服务内容应该具有可以向当前人员播放的播放权限。
在某些应用场景中,所述服务内容中出现了需要身份验证后才能执行的功能,在所述功能执行前,通过第二语音信息采集设备、声纹识别设备和身份验证设备进行身份验证,首先,显示设备通知相关人员前往第二语音信息采集设备所在的位置,并向第二语音信息采集设备发送指示,第二语音采集设备接收到该指示,采集第二音频内容,声纹识别设备对所述第二音频内容进行声纹识别,获取第二音频内容中的第二声纹信息,身份验证设备对所述第二声纹信息进行身份验证,在身份验证通过后,将所述第二声纹信息发送给显示设备。
本发明实施例提出的终端机,不仅可以借助第一语音信息采集设备采集正常的多人会话内容,无需用户专门与智能终端进行人机交互;并且可以专门借助第二语音信息采集设备在不影响正常获取多人声纹信息的前提下进行身份核实,采用与人机交互相同的声纹识别方式,无需额外引入例如人脸识别的硬件架构,因此整体架构简单实用。
本发明实施例还提出一种计算机可读存储介质,存储有执行前述方法的计算机程序。
本发明实施例还提出一种计算机设备,包括处理器和操作上与所述处理器连接的上述计算机可读存储介质,所述处理器运行执行计算机可读介质中的计算机程序。
本领域技术人员可以理解,在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或它们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上,对本发明的实施方式进行了说明。但是,本发明不限定于上述实施方式。凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种利用语音提供辅助服务的装置,其特征在于,包括:语音信息采集模块、身份识别模块、语音分析模块和服务内容提供模块;其中,
语音信息采集模块,采集其接收范围内的音频内容;
身份识别模块,响应于语音信息采集模块采集的音频内容中出现多人的声纹,对所述语音信息采集模块采集的音频内容进行声纹识别,获取所述多人的声纹信息;以及基于获取的所述多人的声纹信息和预先形成的场景声纹数据集,确定各人所属的身份类型,将所述各人所属的身份类型集合成所述多人的身份类型组合;所述场景声纹数据集表征人的声纹信息与身份类型的关联关系;
语音分析模块,对语音信息采集模块采集的音频内容进行语音识别获取语音内容,并对获取的语音内容进行语义识别,获取关键信息;以及
服务内容提供模块,基于所述多人的身份类型组合对应的权限级别、所述关键信息以及预设的用户偏好,提供服务内容进行展示。
2.根据权利要求1所述的装置,其特征在于,所述服务内容提供模块根据身份识别模块确定的所述多人的身份类型组合,确定所述身份类型组合拥有的权限级别;根据语音分析模块获取的关键信息,给出满足所述权限级别的备选服务内容;按照所述预设的用户偏好,从备选服务内容中确定服务内容,并提供所述确定的服务内容进行展示。
3.根据权利要求1所述的装置,其特征在于,所述装置还包括外部控制接口,所述外部控制接口用于接收用户下达的语音指令或者硬件指令,并基于所述语音指令或硬件指令改变所述提供的服务内容或者改变所述展示的服务内容。
4.根据权利要求1或3所述的装置,其特征在于,所述语音信息采集模块持续采集其接收范围内的音频内容,或者按照用户的指示开始或停止采集其接收范围内的音频内容。
5.根据权利要求1所述的装置,其特征在于,所述服务内容提供模块包括具有输入输出互动功能的电子设备,通过电子设备输出所述提供的服务内容,并且能够接收用户向电子设备输入的信息,按照所述输入的信息对所述输出的服务内容进行操作。
6.根据权利要求1所述的装置,其特征在于,如果获取的人的声纹信息已经保存在所述场景声纹数据集中,则所述场景声纹数据集中保存的与所述获取的人的声纹信息关联的身份类型确定为该人所属的身份类型;如果获取的人的声纹信息未保存在所述场景声纹数据集中,则确定该人所属的身份类型为陌生人。
7.根据权利要求1所述的装置,其特征在于,所述提供的服务内容中包括需要重新验证身份类型才准予执行的功能,响应于身份类型验证通过,执行所述功能;
和/或,
所述提供的服务内容设置有保密等级,在所述保密等级需要对相关人员进行身份核查时,仅对该相关人员的声纹信息进行确认。
8.一种利用语音提供辅助服务的方法,其特征在于,包括:
响应于采集的音频内容中出现多人的声纹,对所述采集的音频内容进行声纹识别,获取所述多人的声纹信息;
基于获取的所述多人的声纹信息和预先形成的场景声纹数据集,确定各人所属的身份类型,将所述各人所属的身份类型集合成所述多人的身份类型组合;所述场景声纹数据集表征人的声纹信息与身份类型的关联关系;
对采集的音频内容进行语音识别,并对识别的语音内容进行语义识别,获取关键信息;以及
基于所述多人的身份类型组合对应的权限级别、所述关键信息以及预设的用户偏好,提供服务内容进行展示。
9.根据权利要求8所述的方法,其特征在于,所述基于所述多人的身份类型组合对应的权限级别、所述关键信息以及预设的用户偏好,提供服务内容进行展示,包括:
根据所述多人的身份类型组合,确定所述身份类型组合拥有的权限级别;
根据获取的关键信息,给出满足所述权限级别的备选服务内容;
按照所述预设的用户偏好,从备选服务内容中确定服务内容,并提供所述确定的服务内容进行展示。
10.根据权利要求8所述的方法,其特征在于,所述方法还包括:
接收用户下达的语音指令或者硬件指令,改变所述提供的服务内容或者改变所述展示的服务内容。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910082510.0A CN109671438A (zh) | 2019-01-28 | 2019-01-28 | 一种利用语音提供辅助服务的装置及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910082510.0A CN109671438A (zh) | 2019-01-28 | 2019-01-28 | 一种利用语音提供辅助服务的装置及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109671438A true CN109671438A (zh) | 2019-04-23 |
Family
ID=66149875
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910082510.0A Pending CN109671438A (zh) | 2019-01-28 | 2019-01-28 | 一种利用语音提供辅助服务的装置及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109671438A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111223485A (zh) * | 2019-12-19 | 2020-06-02 | 深圳壹账通智能科技有限公司 | 智能交互方法、装置、电子设备及存储介质 |
CN111767805A (zh) * | 2020-06-10 | 2020-10-13 | 云知声智能科技股份有限公司 | 多模态数据自动清洗与标注方法与系统 |
CN112233471A (zh) * | 2020-10-21 | 2021-01-15 | 艾迪安逊国际投资(广州)有限公司 | 一种智能教育机器人用教学资料调取系统 |
CN112652301A (zh) * | 2019-10-12 | 2021-04-13 | 阿里巴巴集团控股有限公司 | 语音处理方法和分布式系统、及语音交互设备和方法 |
CN112863511A (zh) * | 2021-01-15 | 2021-05-28 | 北京小米松果电子有限公司 | 信号处理方法、装置以及存储介质 |
CN113205819A (zh) * | 2021-04-22 | 2021-08-03 | 苏州知轶信息科技有限公司 | 基于地面机器人的智能陪护方法、设备、介质及产品 |
CN113253964A (zh) * | 2021-06-24 | 2021-08-13 | 武汉中科瑞华生态科技股份有限公司 | 数据管理方法、装置、设备及存储介质 |
CN113885462A (zh) * | 2021-10-25 | 2022-01-04 | 首钢京唐钢铁联合有限责任公司 | 息屏监控系统 |
CN114035533A (zh) * | 2021-09-24 | 2022-02-11 | 合众新能源汽车有限公司 | 车辆智能化测试方法及装置 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130317827A1 (en) * | 2012-05-23 | 2013-11-28 | Tsung-Chun Fu | Voice control method and computer-implemented system for data management and protection |
CN105810200A (zh) * | 2016-02-04 | 2016-07-27 | 深圳前海勇艺达机器人有限公司 | 基于声纹识别的人机对话装置及其方法 |
WO2016151193A1 (en) * | 2015-03-20 | 2016-09-29 | Aplcomp Oy | Audiovisual associative authentication method, related system and device |
CN106455274A (zh) * | 2016-12-08 | 2017-02-22 | 宁夏大学 | 语音控制照明系统、方法及装置 |
CN107507612A (zh) * | 2017-06-30 | 2017-12-22 | 百度在线网络技术(北京)有限公司 | 一种声纹识别方法及装置 |
CN107528755A (zh) * | 2017-09-30 | 2017-12-29 | 百度在线网络技术(北京)有限公司 | 智能设备的控制方法、装置、设备和存储介质 |
CN108174012A (zh) * | 2017-12-25 | 2018-06-15 | 维沃移动通信有限公司 | 一种权限控制方法及移动终端 |
CN108882032A (zh) * | 2018-06-08 | 2018-11-23 | 百度在线网络技术(北京)有限公司 | 用于输出信息的方法和装置 |
CN108924218A (zh) * | 2018-06-29 | 2018-11-30 | 百度在线网络技术(北京)有限公司 | 用于推送信息的方法和装置 |
CN108958810A (zh) * | 2018-02-09 | 2018-12-07 | 北京猎户星空科技有限公司 | 一种基于声纹的用户识别方法、装置及设备 |
CN109080567A (zh) * | 2018-08-21 | 2018-12-25 | 上海博泰悦臻电子设备制造有限公司 | 基于声纹识别的车辆控制方法与云端服务器 |
CN109215643A (zh) * | 2017-07-05 | 2019-01-15 | 阿里巴巴集团控股有限公司 | 一种交互方法、电子设备及服务器 |
-
2019
- 2019-01-28 CN CN201910082510.0A patent/CN109671438A/zh active Pending
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130317827A1 (en) * | 2012-05-23 | 2013-11-28 | Tsung-Chun Fu | Voice control method and computer-implemented system for data management and protection |
WO2016151193A1 (en) * | 2015-03-20 | 2016-09-29 | Aplcomp Oy | Audiovisual associative authentication method, related system and device |
CN105810200A (zh) * | 2016-02-04 | 2016-07-27 | 深圳前海勇艺达机器人有限公司 | 基于声纹识别的人机对话装置及其方法 |
CN106455274A (zh) * | 2016-12-08 | 2017-02-22 | 宁夏大学 | 语音控制照明系统、方法及装置 |
CN107507612A (zh) * | 2017-06-30 | 2017-12-22 | 百度在线网络技术(北京)有限公司 | 一种声纹识别方法及装置 |
CN109215643A (zh) * | 2017-07-05 | 2019-01-15 | 阿里巴巴集团控股有限公司 | 一种交互方法、电子设备及服务器 |
CN107528755A (zh) * | 2017-09-30 | 2017-12-29 | 百度在线网络技术(北京)有限公司 | 智能设备的控制方法、装置、设备和存储介质 |
CN108174012A (zh) * | 2017-12-25 | 2018-06-15 | 维沃移动通信有限公司 | 一种权限控制方法及移动终端 |
CN108958810A (zh) * | 2018-02-09 | 2018-12-07 | 北京猎户星空科技有限公司 | 一种基于声纹的用户识别方法、装置及设备 |
CN108882032A (zh) * | 2018-06-08 | 2018-11-23 | 百度在线网络技术(北京)有限公司 | 用于输出信息的方法和装置 |
CN108924218A (zh) * | 2018-06-29 | 2018-11-30 | 百度在线网络技术(北京)有限公司 | 用于推送信息的方法和装置 |
CN109080567A (zh) * | 2018-08-21 | 2018-12-25 | 上海博泰悦臻电子设备制造有限公司 | 基于声纹识别的车辆控制方法与云端服务器 |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112652301A (zh) * | 2019-10-12 | 2021-04-13 | 阿里巴巴集团控股有限公司 | 语音处理方法和分布式系统、及语音交互设备和方法 |
CN111223485A (zh) * | 2019-12-19 | 2020-06-02 | 深圳壹账通智能科技有限公司 | 智能交互方法、装置、电子设备及存储介质 |
CN111767805A (zh) * | 2020-06-10 | 2020-10-13 | 云知声智能科技股份有限公司 | 多模态数据自动清洗与标注方法与系统 |
CN112233471A (zh) * | 2020-10-21 | 2021-01-15 | 艾迪安逊国际投资(广州)有限公司 | 一种智能教育机器人用教学资料调取系统 |
CN112233471B (zh) * | 2020-10-21 | 2021-10-01 | 西藏典赫教育科技有限责任公司 | 一种智能教育机器人用教学资料调取系统 |
CN112863511A (zh) * | 2021-01-15 | 2021-05-28 | 北京小米松果电子有限公司 | 信号处理方法、装置以及存储介质 |
CN112863511B (zh) * | 2021-01-15 | 2024-06-04 | 北京小米松果电子有限公司 | 信号处理方法、装置以及存储介质 |
CN113205819A (zh) * | 2021-04-22 | 2021-08-03 | 苏州知轶信息科技有限公司 | 基于地面机器人的智能陪护方法、设备、介质及产品 |
CN113253964A (zh) * | 2021-06-24 | 2021-08-13 | 武汉中科瑞华生态科技股份有限公司 | 数据管理方法、装置、设备及存储介质 |
CN114035533A (zh) * | 2021-09-24 | 2022-02-11 | 合众新能源汽车有限公司 | 车辆智能化测试方法及装置 |
CN113885462A (zh) * | 2021-10-25 | 2022-01-04 | 首钢京唐钢铁联合有限责任公司 | 息屏监控系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109671438A (zh) | 一种利用语音提供辅助服务的装置及方法 | |
CN108346034B (zh) | 一种会议智能管理方法及系统 | |
US11955125B2 (en) | Smart speaker and operation method thereof | |
CN109920436A (zh) | 一种提供辅助服务的装置及方法 | |
EP2880834B1 (en) | Using the ability to speak as a human interactive proof | |
WO2021175019A1 (zh) | 音视频录制引导方法、装置、计算机设备及存储介质 | |
US8290951B1 (en) | Unstructured data integration with a data warehouse | |
CN107430858A (zh) | 传送标识当前说话者的元数据 | |
US20140222995A1 (en) | Methods and System for Monitoring Computer Users | |
US20040064322A1 (en) | Automatic consolidation of voice enabled multi-user meeting minutes | |
CN111626061A (zh) | 会议记录生成方法、装置、设备及可读存储介质 | |
CN109857505A (zh) | 操作的执行方法、装置、终端及存储介质 | |
CN112653902A (zh) | 说话人识别方法、装置及电子设备 | |
CN111756930A (zh) | 通信控制方法、通信控制装置、电子设备和可读存储介质 | |
CN109739354A (zh) | 一种基于声音的多媒体交互方法及装置 | |
CN109729067A (zh) | 语音打卡方法、装置、设备和计算机存储介质 | |
CN110516426A (zh) | 身份认证方法、认证终端、装置及可读存储介质 | |
CN111223487B (zh) | 一种信息处理方法及电子设备 | |
CN111913627A (zh) | 录音文件显示方法、装置及电子设备 | |
CN209086961U (zh) | 一种用于人机交互的信息亭及其系统 | |
CN114125494B (zh) | 内容审核辅助处理方法、装置及电子设备 | |
CN117198281A (zh) | 语音交互方法、装置、电子设备及车辆 | |
CN114363547A (zh) | 一种双录装置、双录交互控制方法 | |
CN112562690A (zh) | 基于物品配送的业务处理方法、装置、设备和存储介质 | |
CN118134409A (zh) | 一种多功能的会议管理系统、方法、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
AD01 | Patent right deemed abandoned | ||
AD01 | Patent right deemed abandoned |
Effective date of abandoning: 20240927 |