[go: up one dir, main page]

CN111653284B - 交互以及识别方法、装置、终端设备及计算机存储介质 - Google Patents

交互以及识别方法、装置、终端设备及计算机存储介质 Download PDF

Info

Publication number
CN111653284B
CN111653284B CN201910119857.8A CN201910119857A CN111653284B CN 111653284 B CN111653284 B CN 111653284B CN 201910119857 A CN201910119857 A CN 201910119857A CN 111653284 B CN111653284 B CN 111653284B
Authority
CN
China
Prior art keywords
voiceprint
sound
intelligent
users
library
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910119857.8A
Other languages
English (en)
Other versions
CN111653284A (zh
Inventor
张平
肖兵兵
邢冬杰
秦京
孙尧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201910119857.8A priority Critical patent/CN111653284B/zh
Publication of CN111653284A publication Critical patent/CN111653284A/zh
Application granted granted Critical
Publication of CN111653284B publication Critical patent/CN111653284B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/14Use of phonemic categorisation or speech recognition prior to speaker recognition or verification
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/06Protocols specially adapted for file transfer, e.g. file transfer protocol [FTP]

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明实施例提供了一种交互以及识别方法、装置、终端设备及计算机存储介质,交互方法包括:获取智能设备采集的声音,并确定与智能设备关联的声纹库,声纹库中用于存储智能设备的用户对应的声纹模板;根据声纹库中存储的声纹模板,对采集的声音的声纹进行识别,以从智能设备的用户中确定采集的声音对应的用户,使得智能终端提供与用户对应的服务内容。本发明实施例提供的方案,通过与智能设备关联的声纹库,存储智能设备的用户对应的声纹模板,以减小用于识别的声纹模板的数量,提高识别效率,并从智能设备的用户中准确地确定采集的声音对应的用户,避免了识别错误的情况。

Description

交互以及识别方法、装置、终端设备及计算机存储介质
技术领域
本发明实施例涉及数据处理技术领域,尤其涉及一种交互以及识别方法、装置、终端设备及计算机存储介质。
背景技术
近年来,随着智能技术的发展,智能家居在人们的生活中越来越普及。同时,由于与人交互最为直接的方法为通过语音进行交互,因此,音箱成为现代智能家居的主要切入点。
用户在使用音箱时,大多会先通过音箱注册本人对应的声纹模板,在后续交互的过程中使得音箱可以通过声纹模板识别出声音对应的用户,以针对该用户提供定制化服务。通常,通过音箱注册声纹模板时,音箱会将声纹模板存储在音箱对应的服务端,使得服务端有一个存储有所有音箱的所有声纹模板的大数据库。
但是,在识别声音对应的用户时,需要将音箱采集的声音上传到服务端,并与大数据库中的所有声纹模板逐一进行匹配,由于数据库中存储的声纹模板较多,导致匹配的效率较差。
另外,由于所有的声纹模板均存储在服务端的一个大数据库中,因此在音箱使用时,会存在由于多个音箱的使用距离较近导致的识别错误的情况。例如,例如大数据库中存储有a、b两个用户的声纹模板,且在使用时两个用户的音箱距离较近,则可能出现用户a的音箱识别到的用户为用户b,用户b的音箱识别到的用户为用户a,即出现识别错误,进而导致通过音箱向用户提供的定制化服务错误,使得用户的体验较差。
发明内容
有鉴于此,本发明实施例提供一种交互以及识别方法、装置、终端设备及计算机存储介质,以解决上述问题中的任一种。
根据本发明实施例的第一方面,提供了一种交互方法,其包括:获取智能设备采集的声音,并确定与所述智能设备关联的声纹库,所述声纹库中用于存储所述智能设备的用户对应的声纹模板;根据所述声纹库中存储的所述声纹模板,对采集的声音的声纹进行识别,以从所述智能设备的用户中确定采集的声音对应的用户,使得智能终端提供与所述用户对应的服务内容。
根据本发明实施例的第二方面,提供了一种识别方法,其包括:获取智能设备采集的声音,并确定与所述智能设备关联的声纹库,所述声纹库中用于存储所述智能设备的用户对应的声纹模板;根据所述声纹库中存储的所述声纹模板,对采集的声音的声纹进行识别,以从所述智能设备的用户中确定采集的声音对应的用户。
根据本发明实施例的第三方面,提供了一种交互装置,其包括:获取模块,用于获取智能设备采集的声音,并确定与所述智能设备关联的声纹库,所述声纹库中用于存储所述智能设备的用户对应的声纹模板;交互模块,用于根据所述声纹库中存储的所述声纹模板,对采集的声音的声纹进行识别,以从所述智能设备的用户中确定采集的声音对应的用户,使得智能终端提供与所述用户对应的服务内容。
根据本发明实施例的第四方面,提供了一种识别装置,其包括:获取模块,用于获取智能设备采集的声音,并确定与所述智能设备关联的声纹库,所述声纹库中用于存储所述智能设备的用户对应的声纹模板;识别模块,用于根据所述声纹库中存储的所述声纹模板,对采集的声音的声纹进行识别,以从所述智能设备的用户中确定采集的声音对应的用户。
根据本发明实施例的第五方面,提供了一种终端设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如上所述的交互方法对应的操作或如上所述的识别方法对应的操作。
根据本发明实施例的第六方面,提供了一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上所述的交互方法或如上所述的识别方法。
根据本发明实施例提供的方案,通过与智能设备关联的声纹库,存储所述智能设备的用户对应的声纹模板,以减小用于识别的声纹模板的数量,提高识别效率,并从所述智能设备的用户中准确地确定采集的声音对应的用户,避免了识别错误的情况。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明实施例中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1为本发明实施例一的交互方法的步骤流程图;
图2为本发明实施例二的交互方法的步骤流程图;
图3为本发明实施例三提供的一种注册声纹模板的步骤流程示意图;
图4为本发明实施例三提供的一种交互方法的步骤流程示意图;
图5为本发明实施例四提供的一种识别方法的步骤流程图;
图6为本发明实施例五的一种交互装置的结构框图;
图7为本发明实施例六的一种识别装置的结构框图;
图8为本发明实施例七的一种终端设备的结构示意图。
具体实施方式
为了使本领域的人员更好地理解本发明实施例中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明实施例一部分实施例,而不是全部的实施例。基于本发明实施例中的实施例,本领域普通技术人员所获得的所有其他实施例,都应当属于本发明实施例保护的范围。
下面结合本发明实施例附图进一步说明本发明实施例具体实现。
实施例一
参照图1,示出了根据本发明实施例一的交互方法的步骤流程图。
所述方法包括如下步骤:
S102、获取智能设备采集的声音,并确定与所述智能设备关联的声纹库。
本实施例中,智能设备具体可以为任意能够采集声音的智能设备,例如,智能电视、手机、智能汽车、家居设备、通过声控的洗衣机、电冰箱、摄像头、灯泡、车载声控导航仪、声控的音箱等,本实施例对此不进行限定。
下述以智能设备为音箱进行举例说明,但并不作为本申请的限定,本领域的技术人员可根据下述针对音箱的描述,直接确定将本申请的技术方案应用于其他智能设备的方案,这也在本申请的保护范围内。
本实施例中,音箱具体可以为智能音箱,其还具有连接wifi、获取并播放歌曲、通过与用户的语音交互提供天气查询、问答、播放新闻等功能。
在一具体使用场景中,采集的声音可以为在音箱与用户的交互过程中音箱采集到的声音。一个音箱可以对应多个用户,在某个用户与音箱进行交互时,用户向音箱输入声音,音箱采集到声音后可以通过本方案识别出采集的声音对应的用户,并提供与用户对应的服务内容。
本实施例中,声纹模板为用户使用音箱前进行注册时录入的声纹模板,即声纹模板与用户一一对应,其可以作为用户的身份标识。
声纹模板录入后会进行存储,以形成声纹库,在通过声纹库存储声纹模板时,可以将与同一音箱匹配的声纹模板存储在一个声纹库内,从而形成与音箱关联的声纹库,即声纹库中用于存储音箱的用户对应的声纹模板。
例如,在注册声纹模板时,会通过音箱录入声纹模板,此时,可以将通过同一个音箱录入的声纹模板存储在同一个声纹库内,以形成与该音箱关联的声纹库。
另外,在实际生活中,音箱的数量为多个,则声纹库的数量也为多个,则针对某一个音箱而言,其在识别采集的声音对应的用户之前,需要先确定该音箱关联的声纹库,才能通过步骤S104在声纹库中准确地确定采集的声音对应的声纹模板。
另外,针对步骤S102中的“获取智能设备采集的声音”以及“确定与所述智能设备关联的声纹库”的先后顺序,本实施例不进行限定,只要其能在步骤S104前执行即可。
S104、根据所述声纹库中存储的所述声纹模板,对采集的声音的声纹进行识别,以从所述智能设备的用户中确定采集的声音对应的用户,使得智能终端提供与所述用户对应的服务内容。
本实施例中,每个音箱均关联有一个声纹库,但是,一个声纹库可以由多个音箱共享。确定与音箱关联的声纹库后,即可在与音箱匹配的声纹模板中进行识别,从而确定采集的声音对应的用户。在确定采集的声音对应的用户后,可以根据采集的声音的语义内容以及识别到的声音对应的用户,提供与所述用户对应的服务内容,例如向用户播放与用户对应的反馈语音,从而完成交互。
另外,由于声纹库中仅存储有音箱的用户对应的声纹模板,因此,本实施例提供的关联于音箱声纹库中存储的声纹模板的数量,远远小于现有技术中的大数据库中存储的声纹模板的数量,从而提高了采集的声音的识别速度。
且,根据上述可知,每个音箱均关联有一个声纹库,声纹库中仅存储有匹配于该音箱的声纹模板,并不存储与该音箱无关的声纹模板,因此,在进行识别时,可以仅在与音箱关联的用户中进行识别,从而准确地确定用户,以避免现有技术中由于所有的声纹模板均存储在服务端的一个大数据库中,以及多个音箱的使用距离较近,导致的识别错误的情况。
本实施例提供的方案,通过获取智能设备采集的声音,并确定与所述智能设备关联的声纹库,所述声纹库中用于存储所述智能设备的用户对应的声纹模板;根据所述声纹库中存储的所述声纹模板,对采集的声音的声纹进行识别,以从所述智能设备的用户中确定采集的声音对应的用户,使得智能终端提供与所述用户对应的服务内容。本实施例提供的方案,通过与智能设备关联的声纹库,存储所述智能设备的用户对应的声纹模板,以减小用于识别的声纹模板的数量,提高识别效率,并从所述智能设备的用户中准确地确定采集的声音对应的用户,避免了识别错误的情况。
实施例二
参照图2,示出了根据本发明实施例二的交互方法的步骤流程图。
所述方法包括如下步骤:
S202、通过音箱采集声音。
本实施例中,音箱可以通过其上设置的麦克风装置,以及其内部署的声音采集算法来采集声音。
本实施例中,不同型号的音箱,其上设置的麦克风装置的类型可能不同,例如音箱产品X1的麦克风装置的类型为六麦、音箱产品C1的麦克风装置的类型为两麦、音箱产品M1的麦克风装置的类型为三麦。
进一步地,多个音箱可以共用一个服务端,不同的音箱也可以对应不同的服务端,本实施例对此不进行限定。服务端可以存储有与多种类型的麦克风装置分别对应的声音采集算法。则在音箱使用前,可以通过音箱对应的服务端,根据麦克风装置的类型,为对应的音箱部署对应的声音采集算法。
另外,本实施例中,根据所述智能设备采集声音时的场景,调整采集声音时的声音采集阈值,从而提高采集的声音的准确性,使得根据采集的声音确定的声纹更加准确,进而通过后续步骤S208在所述声纹库中确定与采集的声音的声纹匹配的所述声纹模板时,更容易命中,识别结果更加准确。
具体地,调整采集声音时的声音采集阈值可以例如:一个家庭中共包括“爸”、“妈”、“宝1”、“宝2”四个人,其中音箱产品M1可以设置在“爸”、“妈”所在的卧室,则根据音箱的采集场景,确定被音箱采集的用户为成年男性或女性,其声音清晰且音量较大,则可以提高与音量对应的声音采集阈值;或者,音箱产品X1可以设置在“宝1”、“宝2”所在的卧室,则如果根据音箱的采集场景,确定被音箱采集的用户为儿童,其音量小且说话不清晰,则可以降低与音量对应的声音采集阈值。
S204、为所述音箱采集的声音添加所述音箱的设备标识。
本实施例中,所述音箱的设备标识用于标识所述音箱的设备类型,例如图3所示,其中包括三种音箱产品X1、C1、M1,则三种音箱产品可以对应三种不同的设备标识。具体地,可以直接将音箱的产品编号作为音箱的设备标识。
本实施例中,通过添加的设备标识可以验证与音箱关联的声纹库的准确性,添加的设备标识还可以用来确定与该音箱共享声纹库的其他音箱;若音箱的本地存储器中没有存储声纹库,而是与其他音箱共用声纹库,则可以通过添加的设备标识确定音箱关联的声纹库;如果声纹库存储在服务端,还可以在步骤S206中通过添加的设备标识确定音箱关联的声纹库等。
S206、通过所述设备标识确定所述音箱关联的声纹库。
本实施例中的一种实现方式中,在预先存储声纹库时,可以将与音箱关联的声纹库存储于音箱的本地存储器中,以通过所述音箱将所述音箱对应的声纹库与除与所述音箱匹配的声纹模板之外的声纹模板隔离。在执行步骤S206时,可以直接从音箱的本地存储器中读取所述声纹库,并通过设备标识确定读取的声纹库是否准确,以通过设备标识确定音箱关联的声纹库。当然,也可以直接从本地存储器中读取声纹库,但不通过设备标识进行验证,本实施例对此不进行限定。通过将所述声纹库存储于与其关联的所述音箱的本地存储器中,使得确定声纹库的方式更加便捷,还可以降低用户的声纹泄露的可能性,保护了用户的隐私;同时,与现有技术中将声纹库存储在服务端形成的大数据库相比,将声纹库存储在音箱的本地存储器中,无需服务端再提供的管理大数据库的冗余信息的管理服务,节省了服务端的资源。
本实施例的另一种实现方式中,可以将与音箱关联的声纹库存储在服务端,则在执行步骤S206时,可以从服务端通过设备标识确定声纹库。例如,用户在音箱使用时,可以在服务端存储有用户创建的账号信息,则在确定音箱关联的声纹库时,可以根据用户的账号信息确定所述音箱关联的声纹库,并通过设备标识确定读取的声纹库是否准确,以通过设备标识确定音箱关联的声纹库。若同一个账号对应多个音箱,则可以预先对多个音箱进行编号,并在服务端存储有该账号信息下的音箱编号以及音箱编号与声纹库的对应关系数据,从而根据账号信息以及音箱的编号确定音箱关联的声纹库。
另外需要说明的是,用户本身拥有的声纹是唯一的,而由于不同类型的音箱的声音采集装置不同,不同的声音采集装置针对同一声音采集到的声纹不同,使得相同的用户在类型不同的音箱中的声纹模板不同,即用户相同但型号不同的智能设备对应的多个所述声纹库中,同一用户对应的声纹模板不同。例如图3所示,一个家庭中共存在三个音箱产品X1、C1、M1,家庭成员包括“爸”、“妈”、“宝宝1”、“宝宝2”四个人,则这四个人均为这三个音箱产品的用户,而在这三个音箱产品关联的声纹库中,“爸”这个用户的声纹模板不同。
进一步地,本实施例中,用户相同且型号相同的多个所述音箱可以共享一个所述声纹库。在具体使用时,若用户更换音箱,如果其更换前后的音箱的型号相同,则可以直接将更新前的音箱的声纹库作为更新后的音箱的声纹库,使得用户无需再次进行注册,即可正常使用音箱,提高了用户体验。
S208、调用所述音箱对应的服务端的计算资源,通过所述计算资源在所述声纹库中确定与采集的声音的声纹匹配的所述声纹模板,以从与所述音箱匹配的用户中确定采集的声音对应的用户。
本实施例中,通过调用服务端的计算资源进行识别,可以降低音箱本身制作时所要求的计算资源下限,进而降低了音箱的制作成本。
另外,若所述声纹库存储于其关联的所述音箱的本地存储器中,则S208执行前,还包括:通过所述音箱对应的密钥,对存储于所述音箱本地存储器中的声纹库进行加密;将所述采集的声音以及加密后的所述声纹库上传至所述服务端,以调用所述服务端的计算资源,从而通过所述计算资源在所述声纹库中确定与采集的声音的声纹匹配的所述声纹模板。通过音箱对应的密钥加密后再上传至服务端,可以进一步降低用户的声纹模板泄露的可能性。
进一步地,本实施例中,在将采集的声音上传至服务端前,可以通过音箱对采集的声音进行处理,确定采集的声音对应的声纹信息并将其上传至所述服务端,以减小上传的信息量,提高上传速度。
本实施例提供的方案,通过与音箱关联的声纹库存储音箱的用户对应的声纹模板,以减小用于识别的声纹模板的数量,提高识别效率,并从音箱的用户中准确地确定采集的声音对应的用户,避免了识别错误的情况;以及,通过根据音箱采集声音时的场景,调整采集声音时的声音采集阈值,提高了采集的声音的准确性;通过调用服务端的计算资源,降低了音箱的制作成本。
实施例三
本发明实施例结合图3、图4,对本发明实施例提供的交互方案的具体使用场景进行说明。本实施例中,使用场景具体为一个家庭中包括多个音箱的使用场景。
首先,参见图3,示出了本发明实施例三提供的一种注册声纹模板的步骤流程示意图。
如图3所示,图3左侧示出了一个家庭中的人包括“爸”、“妈”、“宝1”、“宝2”四个人,这四个人均为用户。
进行注册时,每人在每个音箱中录入语音,音箱的麦克风装置采集到录入的语音,家庭中包括多个音箱,每个音箱对应不同的麦克风装置,例如图3所示,音箱产品X1对应六麦型麦克风,音箱产品C1对应两麦型麦克风,音箱产品M1对应三麦型麦克风。麦克风装置采集到录入的语音后,会将语音传输至对应的音箱,音箱对录入的语音进行处理确定用户对应的声纹模板,并将确定的声纹模板保存至音箱的本地存储器中的声纹库中,从而完成用户声纹模板的注册;每个音箱的声纹库中均存储有“爸”、“妈”、“宝1”、“宝2”四个人对应的声纹模板。声纹模板存储至声纹库后即注册过程执行完毕。
其次,参见图4,示出了本发明实施例三提供的一种交互的步骤流程示意图。
如图4所示,在实际使用时,一个或多个音箱采集到了声音,具体为音箱产品M1通过两麦型的麦克风装置采集到了声音、音箱产品X1通过六麦型的麦克风产品采集到了声音。
采集到声音后,音箱产品M1通过调用服务端的计算资源,在与关联的M1音箱本地声纹库中进行识别,确定与采集的声音的声纹匹配的声纹模板为“宝1”对应的声纹模板;音箱产品X1通过调用服务端的计算资源,在与关联的X1音箱本地声纹库中进行识别,并未确定任何与采集的声音的声纹匹配的声纹模板。则,可以确定采集到的采集的声音的用户为“宝1”。
确定采集到的声音对应的用户为“宝1”后,即可通过音箱提供与“宝1”户对应的服务内容,例如,用户“宝1”要求播放歌曲,则可以通过音箱为“宝1”播放儿歌。
上述实施例一至三中的交互方法可以由任意适当的具有数据处理能力的智能终端设备执行,包括但不限于:移动终端(如平板电脑、手机等)和PC机。
实施例四
参见图5,示出了本发明实施例四提供的一种识别方法的步骤流程图。
所述方法包括如下步骤:
S302、获取智能设备采集的声音,并确定与所述智能设备关联的声纹库,所述声纹库中用于存储所述智能设备的用户对应的声纹模板。
S304、根据所述声纹库中存储的所述声纹模板,对采集的声音的声纹进行识别,以从所述智能设备的用户中确定采集的声音对应的用户。
本实施例的具体实现方式与上述实施例一、二类似,本实施例在此不再赘述。
另外,本实施例提供的识别方案,不仅可以用于上述实施例中,使得智能终端提供与用户对应服务内容,同样还可以用于其他方面,例如通过声纹验证用户的身份是否准确从而提供对应的权限等,本实施例对此不进行限定。
本实施例提供的方案,通过获取智能设备采集的声音,并确定与所述智能设备关联的声纹库,所述声纹库中用于存储所述智能设备的用户对应的声纹模板;根据所述声纹库中存储的所述声纹模板,对采集的声音的声纹进行识别,以从所述智能设备的用户中确定采集的声音对应的用户。本实施例提供的方案,通过与智能设备关联的声纹库,存储所述智能设备的用户对应的声纹模板,以减小用于识别的声纹模板的数量,提高识别效率,并从所述智能设备的用户中准确地确定采集的声音对应的用户,避免了识别错误的情况。
实施例五
参照图6,示出了根据本发明实施例五的一种交互装置的结构框图。
本实施例提供的装置包括:获取模块402、交互模块404。
获取模块402用于获取智能设备采集的声音,并确定与所述智能设备关联的声纹库,所述声纹库中用于存储所述智能设备的用户对应的声纹模板。
识别模块404用于根据所述声纹库中存储的所述声纹模板,对采集的声音的声纹进行识别,以从所述智能设备的用户中确定采集的声音对应的用户,使得智能终端提供与所述用户对应的服务内容。
在一种可选的实施方式中,用户相同且型号相同的多个所述音箱共享一个所述声纹库。
在一种可选的实施方式中,用户相同但型号不同的音箱对应的多个所述声纹库中,同一用户对应的声纹模板不同。
在一种可选的实施方式中,将与所述智能设备关联的声纹库存储于所述智能设备的本地存储器中。
在一种可选的实施方式中,所述装置还包括:设备标识添加模块,用于为所述智能设备采集的声音添加所述智能设备的设备标识,以通过所述设备标识确定所述智能设备关联的声纹库。
在一种可选的实施方式中,所述装置还包括:调整模块,用于根据所述智能设备采集声音时的场景,调整采集声音时的声音采集阈值。
本实施例提供的交互方案,通过与智能设备关联的声纹库,存储所述智能设备的用户对应的声纹模板,以减小用于识别的声纹模板的数量,提高识别效率,并从所述智能设备的用户中准确地确定采集的声音对应的用户,避免了识别错误的情况。
实施例六
参照图7,示出了根据本发明实施例六的一种识别装置的结构框图。
本实施例提供的装置包括:获取模块502、识别模块504。
获取模块502,用于获取智能设备采集的声音,并确定与所述智能设备关联的声纹库,所述声纹库中用于存储所述智能设备的用户对应的声纹模板。
识别模块504,用于根据所述声纹库中存储的所述声纹模板,对采集的声音的声纹进行识别,以从所述智能设备的用户中确定采集的声音对应的用户。
本实施例提供的识别方案,通过与智能设备关联的声纹库,存储所述智能设备的用户对应的声纹模板,以减小用于识别的声纹模板的数量,提高识别效率,并从所述智能设备的用户中准确地确定采集的声音对应的用户,避免了识别错误的情况。
实施例七
一种终端设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如上所述的交互方法对应的操作。
另外,所述可执行指令还可以使所述处理器执行如上所述的交互方法对应的操作或如上所述的识别方法对应的操作。
具体地,参照图8,示出了根据本发明实施例七的一种终端设备的结构示意图,本发明具体实施例并不对终端设备的具体实现做限定。
如图8所示,该终端设备可以包括:处理器(processor)602、通信接口(Communications Interface)604、存储器(memory)606、以及通信总线608。
其中:
处理器602、通信接口604、以及存储器606通过通信总线608完成相互间的通信。
通信接口604,用于与其它终端设备或服务器进行通信。
处理器602,用于执行程序610,具体可以执行上述实施例中的相关步骤。
具体地,程序610可以包括程序代码,该程序代码包括计算机操作指令。
处理器602可能是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。终端设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器606,用于存放程序610。存储器606可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
程序610具体可以用于使得处理器602执行以下交互方法操作:获取智能设备采集的声音,并确定与所述智能设备关联的声纹库,所述声纹库中用于存储所述智能设备的用户对应的声纹模板;根据所述声纹库中存储的所述声纹模板,对采集的声音的声纹进行识别,以从所述智能设备的用户中确定采集的声音对应的用户,使得智能终端提供与所述用户对应的服务内容。
在一种可选的实施方式中,用户相同且型号相同的多个所述智能设备共享一个所述声纹库。
在一种可选的实施方式中,用户相同但型号不同的智能设备对应的多个所述声纹库中,同一用户对应的声纹模板不同。
在一种可选的实施方式中,将与所述智能设备关联的声纹库存储于所述智能设备的本地存储器中。
在一种可选的实施方式中,所述根据所述声纹库中存储的所述声纹模板,对采集的声音的声纹进行识别,以从所述智能设备的用户中确定采集的声音对应的用户包括:调用所述智能设备对应的服务端的计算资源,通过所述计算资源在所述声纹库中确定与采集的声音的声纹匹配的所述声纹模板,以从所述智能设备的用户中确定采集的声音对应的用户。
在一种可选的实施方式中,还包括:通过所述智能设备对应的密钥,对存储于所述智能设备本地存储器中的声纹库进行加密;将采集的声音以及加密后的所述声纹库上传至所述服务端,以调用所述服务端的计算资源。
在一种可选的实施方式中,还包括:通过智能设备对采集的声音进行处理,确定采集的声音对应的声纹信息并将其上传至所述服务端。
在一种可选的实施方式中,还包括:为所述智能设备采集的声音添加所述智能设备的设备标识,以通过所述设备标识确定所述智能设备关联的声纹库。
在一种可选的实施方式中,还包括:根据所述智能设备采集声音时的场景,调整采集声音时的声音采集阈值。
程序610中各步骤的具体实现可以参见上述交互方法实施例中的相应步骤和单元中对应的描述,在此不赘述。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的设备和模块的具体工作过程,可以参考前述方法实施例中的对应过程描述,在此不再赘述。
程序610具体还可以用于使得处理器602执行以下识别方法对应的操作:获取智能设备采集的声音,并确定与所述智能设备关联的声纹库,所述声纹库中用于存储所述智能设备的用户对应的声纹模板;根据所述声纹库中存储的所述声纹模板,对采集的声音的声纹进行识别,以从所述智能设备的用户中确定采集的声音对应的用户。
程序610中各步骤的具体实现可以参见上述识别方法实施例中的相应步骤和单元中对应的描述,在此不赘述。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的设备和模块的具体工作过程,可以参考前述方法实施例中的对应过程描述,在此不再赘述。
当本实施例的终端设备中的程序610中执行上述交互方案或识别方案时,通过与智能设备关联的声纹库,存储所述智能设备的用户对应的声纹模板,以减小用于识别的声纹模板的数量,提高识别效率,并从所述智能设备的用户中准确地确定采集的声音对应的用户,避免了识别错误的情况。
需要指出,根据实施的需要,可将本发明实施例中描述的各个部件/步骤拆分为更多部件/步骤,也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤,以实现本发明实施例的目的。
上述根据本发明实施例的方法可在硬件、固件中实现,或者被实现为可存储在记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码,或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码,从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解,计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如,RAM、ROM、闪存等),当所述软件或计算机代码被计算机、处理器或硬件访问且执行时,实现在此描述的收藏对象的调整方法。此外,当通用计算机访问用于实现在此示出的收藏对象的调整方法的代码时,代码的执行将通用计算机转换为用于执行在此示出的收藏对象的调整方法的专用计算机。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及方法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明实施例的范围。
以上实施方式仅用于说明本发明实施例,而并非对本发明实施例的限制,有关技术领域的普通技术人员,在不脱离本发明实施例的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本发明实施例的范畴,本发明实施例的专利保护范围应由权利要求限定。

Claims (15)

1.一种交互方法,其特征在于,包括:
获取智能设备采集的声音,并确定与所述智能设备关联的声纹库,所述声纹库中用于存储所述智能设备的用户对应的声纹模板;
根据所述声纹库中存储的所述声纹模板,对采集的声音的声纹进行识别,以从所述智能设备的用户中确定采集的声音对应的用户,使得智能终端提供与所述用户对应的服务内容;
其中,用户相同且型号相同的多个所述智能设备共享一个所述声纹库;用户相同但型号不同的智能设备对应的多个所述声纹库中,同一用户对应的声纹模板不同。
2.根据权利要求1所述的方法,其特征在于,将与所述智能设备关联的声纹库存储于所述智能设备的本地存储器中。
3.根据权利要求2所述的方法,其特征在于,所述根据所述声纹库中存储的所述声纹模板,对采集的声音的声纹进行识别,以从所述智能设备的用户中确定采集的声音对应的用户包括:
调用所述智能设备对应的服务端的计算资源,通过所述计算资源在所述声纹库中确定与采集的声音的声纹匹配的所述声纹模板,以从所述智能设备的用户中确定采集的声音对应的用户。
4.根据权利要求3所述的方法,其特征在于,还包括:
通过所述智能设备对应的密钥,对存储于所述智能设备本地存储器中的声纹库进行加密;
将采集的声音以及加密后的所述声纹库上传至所述服务端,以调用所述服务端的计算资源。
5.根据权利要求4所述的方法,其特征在于,还包括:通过智能设备对采集的声音进行处理,确定采集的声音对应的声纹信息并将其上传至所述服务端。
6.根据权利要求1所述的方法,其特征在于,还包括:为所述智能设备采集的声音添加所述智能设备的设备标识,以通过所述设备标识确定所述智能设备关联的声纹库。
7.根据权利要求1所述的方法,其特征在于,还包括:
根据所述智能设备采集声音时的场景,调整采集声音时的声音采集阈值。
8.一种识别方法,其特征在于,包括:
获取智能设备采集的声音,并确定与所述智能设备关联的声纹库,所述声纹库中用于存储所述智能设备的用户对应的声纹模板;
根据所述声纹库中存储的所述声纹模板,对采集的声音的声纹进行识别,以从所述智能设备的用户中确定采集的声音对应的用户;
其中,用户相同且型号相同的多个所述智能设备共享一个所述声纹库;用户相同但型号不同的智能设备对应的多个所述声纹库中,同一用户对应的声纹模板不同。
9.一种交互装置,其特征在于,包括:
获取模块,用于获取智能设备采集的声音,并确定与所述智能设备关联的声纹库,所述声纹库中用于存储所述智能设备的用户对应的声纹模板;
交互模块,用于根据所述声纹库中存储的所述声纹模板,对采集的声音的声纹进行识别,以从所述智能设备的用户中确定采集的声音对应的用户,使得智能终端提供与所述用户对应的服务内容;
其中,用户相同且型号相同的多个所述智能设备共享一个所述声纹库;用户相同但型号不同的智能设备对应的多个所述声纹库中,同一用户对应的声纹模板不同。
10.根据权利要求9所述的装置,其特征在于,将与所述智能设备关联的声纹库存储于所述智能设备的本地存储器中。
11.根据权利要求9所述的装置,其特征在于,还包括:设备标识添加模块,用于为所述智能设备采集的声音添加所述智能设备的设备标识,以通过所述设备标识确定所述智能设备关联的声纹库。
12.根据权利要求9所述的装置,其特征在于,还包括:调整模块,用于根据所述智能设备采集声音时的场景,调整采集声音时的声音采集阈值。
13.一种识别装置,其特征在于,包括:
获取模块,用于获取智能设备采集的声音,并确定与所述智能设备关联的声纹库,所述声纹库中用于存储所述智能设备的用户对应的声纹模板;
识别模块,用于根据所述声纹库中存储的所述声纹模板,对采集的声音的声纹进行识别,以从所述智能设备的用户中确定采集的声音对应的用户;
其中,用户相同且型号相同的多个所述智能设备共享一个所述声纹库;用户相同但型号不同的智能设备对应的多个所述声纹库中,同一用户对应的声纹模板不同。
14.一种终端设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求1-7任一项所述的交互方法对应的操作或如权利要求8所述的识别方法对应的操作。
15.一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现如权利要求1-7任一项所述的交互方法或如权利要求8所述的识别方法。
CN201910119857.8A 2019-02-18 2019-02-18 交互以及识别方法、装置、终端设备及计算机存储介质 Active CN111653284B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910119857.8A CN111653284B (zh) 2019-02-18 2019-02-18 交互以及识别方法、装置、终端设备及计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910119857.8A CN111653284B (zh) 2019-02-18 2019-02-18 交互以及识别方法、装置、终端设备及计算机存储介质

Publications (2)

Publication Number Publication Date
CN111653284A CN111653284A (zh) 2020-09-11
CN111653284B true CN111653284B (zh) 2023-08-11

Family

ID=72346081

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910119857.8A Active CN111653284B (zh) 2019-02-18 2019-02-18 交互以及识别方法、装置、终端设备及计算机存储介质

Country Status (1)

Country Link
CN (1) CN111653284B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112201254B (zh) * 2020-09-28 2024-07-19 中国建设银行股份有限公司 无感语音认证方法、装置、设备及存储介质
CN112614494A (zh) * 2020-11-25 2021-04-06 中国能源建设集团广东省电力设计研究院有限公司 应用于集装箱数据中心的监控方法、装置及系统
CN116312513B (zh) * 2023-02-13 2024-08-13 陕西君凯科技集团有限公司 一种智能语音控制系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002247666A (ja) * 2001-02-20 2002-08-30 Seiko Epson Corp 機器制御方法および機器制御システム
WO2016151193A1 (en) * 2015-03-20 2016-09-29 Aplcomp Oy Audiovisual associative authentication method, related system and device
CN206672635U (zh) * 2017-01-15 2017-11-24 北京星宇联合投资管理有限公司 一种基于图书服务机器人的语音交互装置
CN107863098A (zh) * 2017-12-07 2018-03-30 广州市艾涛普电子有限公司 一种语音识别控制方法和装置
CN108260248A (zh) * 2018-01-12 2018-07-06 广东小天才科技有限公司 一种用于智能终端外置麦克风的提醒方法及装置
CN108320752A (zh) * 2018-01-26 2018-07-24 青岛易方德物联科技有限公司 应用于社区门禁的云声纹识别系统及其方法
CN108877790A (zh) * 2018-05-21 2018-11-23 江西午诺科技有限公司 音箱控制方法、装置、可读存储介质及移动终端
CN108922528A (zh) * 2018-06-29 2018-11-30 百度在线网络技术(北京)有限公司 用于处理语音的方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10127911B2 (en) * 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002247666A (ja) * 2001-02-20 2002-08-30 Seiko Epson Corp 機器制御方法および機器制御システム
WO2016151193A1 (en) * 2015-03-20 2016-09-29 Aplcomp Oy Audiovisual associative authentication method, related system and device
CN206672635U (zh) * 2017-01-15 2017-11-24 北京星宇联合投资管理有限公司 一种基于图书服务机器人的语音交互装置
CN107863098A (zh) * 2017-12-07 2018-03-30 广州市艾涛普电子有限公司 一种语音识别控制方法和装置
CN108260248A (zh) * 2018-01-12 2018-07-06 广东小天才科技有限公司 一种用于智能终端外置麦克风的提醒方法及装置
CN108320752A (zh) * 2018-01-26 2018-07-24 青岛易方德物联科技有限公司 应用于社区门禁的云声纹识别系统及其方法
CN108877790A (zh) * 2018-05-21 2018-11-23 江西午诺科技有限公司 音箱控制方法、装置、可读存储介质及移动终端
CN108922528A (zh) * 2018-06-29 2018-11-30 百度在线网络技术(北京)有限公司 用于处理语音的方法和装置

Also Published As

Publication number Publication date
CN111653284A (zh) 2020-09-11

Similar Documents

Publication Publication Date Title
CN111653284B (zh) 交互以及识别方法、装置、终端设备及计算机存储介质
US11257497B2 (en) Voice wake-up processing method, apparatus and storage medium
CN110267248B (zh) Ble通信方法、装置、设备及存储介质
CN110889009A (zh) 一种声纹聚类方法、装置、处理设备以及计算机存储介质
CN110474879B (zh) 身份识别预处理方法、身份识别方法,及其设备和系统
CN105827581A (zh) 一种登陆账号的方法和终端
CN111182390A (zh) 音量数据处理方法、装置、计算机设备及存储介质
WO2021232213A1 (zh) 一种声纹识别、注册装置、及跨设备声纹识别方法
CN111627431B (zh) 语音识别方法、装置、终端及存储介质
CN113010139A (zh) 一种投屏方法、装置及电子设备
WO2018166367A1 (zh) 一种实时对话中的实时提醒方法、装置、存储介质及电子装置
WO2016124008A1 (zh) 一种语音控制方法、装置及系统
WO2020087336A1 (zh) 一种移动平台的控制方法及控制设备
US20180182393A1 (en) Security enhanced speech recognition method and device
CN109063430A (zh) 一种数据存储以及身份验证的方法、装置及设备
CN109005469B (zh) 一种消息格式的转换方法、装置、存储介质及安卓终端
CN105282658B (zh) 一种音频播放设备的控制方法、系统及装置
CN105471593B (zh) 一种群组会话方法、装置及系统
CN115879841A (zh) 数据处理方法、装置、电子设备和存储介质
CN112799929A (zh) 报警日志的根因分析方法及系统
CN111556406A (zh) 音频处理方法、音频处理装置及耳机
CN116204152A (zh) 控制方法、装置、终端及存储介质
CN113079257B (zh) 设备关联、网络通信、信息处理方法、装置以及设备
CN112449059A (zh) 语音交互设备、基于语音交互设备实现通话的方法及系统
CN112767965B (zh) 噪声识别模型的生成/应用方法、系统、介质及服务/终端

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant