CN114093369B - 一种话者分离方法、装置、电子设备与存储介质 - Google Patents
一种话者分离方法、装置、电子设备与存储介质 Download PDFInfo
- Publication number
- CN114093369B CN114093369B CN202111227476.5A CN202111227476A CN114093369B CN 114093369 B CN114093369 B CN 114093369B CN 202111227476 A CN202111227476 A CN 202111227476A CN 114093369 B CN114093369 B CN 114093369B
- Authority
- CN
- China
- Prior art keywords
- voice
- segments
- groups
- long
- processed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Signal Processing (AREA)
- Telephonic Communication Services (AREA)
Abstract
本申请实施例在于一种话者分离方法、装置、电子设备与存储介质,属于语音识别技术领域。所述方法包括:获取多个待处理语音片段,将所述多个待处理语音片段划分为两种语音堆;从两种语音堆中分别筛选出语音时长在第一预设时长以上的两组第一长语音片段;将所述两组第一长语音片段分别注册成两种声纹样本,其中,不同的声纹样本表征不同的语音用户;将所述两种声纹样本,与语音时长小于第二预设时长的两组短语音片段分别进行匹配,以确定所述两组短语音片段各自所属的声纹样本,其中,所述第二预设时长小于或等于所述第一预设时长。使用本申请提供的一种话者分离方法,可以提升识别短语音片段的准确性。
Description
技术领域
本申请实施例涉及语音识别技术领域,具体而言,涉及一种话者分离方法、装置、电子设备与存储介质。
背景技术
话者分离,也称为话者识别,是一种与语音识别处理技术类似的一种识别技术,通常用于在一段至少有两人的音频当中,将至少两人进行分离,以识别不同的说话者。
传统的话者分离技术是采取聚类的思想,来分离不同的说话者,然而采取聚类的思想,在对音频中说话时间较短的语音片段进行说话者识别时,所识别的说话者的准确性较低。
发明内容
本申请实施例提供一种话者分离方法、装置、电子设备与存储介质,旨在解决面对短语音片段识别时,所带来的说话者识别准确性较低的问题。
本申请实施例第一方面提供一种话者分离方法,所述方法包括:
获取多个待处理语音片段,将所述多个待处理语音片段划分为两种语音堆;
从两种语音堆中分别筛选出语音时长在第一预设时长以上的两组第一长语音片段;
将所述两组第一长语音片段分别注册成两种声纹样本,其中,不同的声纹样本表征不同的语音用户;
将所述两种声纹样本,与语音时长小于第二预设时长的两组短语音片段分别进行匹配,以确定所述两组短语音片段各自所属的声纹样本,其中,所述第二预设时长小于或等于所述第一预设时长。
可选地,将所述两组第一长语音片段分别注册成两种声纹样本,包括:
根据所述两组第一长语音片段各自的ivector特征,对所述两组第一长语音片段进行二次聚类,以得到两组第二长语音片段;
将所述两组第二长语音片段分别注册成两种声纹样本。
可选地,根据所述两组第一长语音片段各自的ivector特征,对所述两组第一长语音片段进行二次聚类,以得到两组第二长语音片段,包括:
利用plda模型,对每两个第一长语音片段的ivector特征进行打分,以得到每两个第一长语音片段之间的plda分数;
依据所述plda分数,对所述第一长语音片段进行二次聚类,以得到两组第二长语音片段。
可选地,获取多个待处理语音片段,将所述多个待处理语音片段划分为两种语音堆,包括:
对所述多个待处理语音片段分别进行特征提取,得到所述多个待处理语音片段各自的mfcc特征;
根据所述多个待处理语音片段各自的mfcc特征,对所述多个待处理语音片段进行一次聚类,以将所述多个待处理语音片段划分成两种语音堆。
可选地,根据所述多个待处理语音片段各自的mfcc特征,对所述多个待处理语音片段进行一次聚类,以将所述多个待处理语音片段划分成两种语音堆,包括:
对所述多个待处理语音片段的mfcc特征进行vad静音检测,提取出所述待处理语音片段中,多个语音活动片段的mfcc特征;
根据所述多个语音活动片段的mfcc特征,对所述多个语音活动片段进行一次聚类,以将所述多个语音活动片段划分成两种语音堆。
可选地,所述方法还包括:
根据所述二次聚类的准确度,设置所述第一预设时长;其中,所述第一预设时长与所述二次聚类的准确度之间呈正比关系。
本申请实施例第二方面提供一种话者分离装置,所述装置包括:
划分模块,用于获取多个待处理语音片段,将所述多个待处理语音片段划分为两种语音堆;
筛选模块,用于从两种语音堆中分别筛选出语音时长在第一预设时长以上的两组第一长语音片段;
注册模块,用于将所述两组第一长语音片段分别注册成两种声纹样本,其中,不同的声纹样本表征不同的语音用户;
匹配模块,用于将所述两种声纹样本,与语音时长小于第二预设时长的两组短语音片段分别进行匹配,以确定所述两组短语音片段各自所属的声纹样本,其中,所述第二预设时长小于或等于所述第一预设时长。
可选地,所述注册模块包括:
二次聚类模块,用于根据所述两组第一长语音片段各自的ivector特征,对所述两组第一长语音片段进行二次聚类,以得到两组第二长语音片段;
第一注册子模块,用于将所述两组第二长语音片段分别注册成两种声纹样本。
可选地,所述二次聚类模块包括:
第一打分模块,用于利用plda模型,对每两个第一长语音片段的ivector特征进行打分,以得到每两个第一长语音片段之间的plda分数;
二次聚类子模块,用于依据所述plda分数,对所述第一长语音片段进行二次聚类,以得到两组第二长语音片段。
可选地,所述划分模块包括:
特征提取模块,用于对所述多个待处理语音片段分别进行特征提取,得到所述多个待处理语音片段各自的mfcc特征;
一次聚类模块,用于根据所述多个待处理语音片段各自的mfcc特征,对所述多个待处理语音片段进行一次聚类,以将所述多个待处理语音片段划分成两种语音堆。
可选地,所述一次聚类模块包括:
静音检测模块,用于对所述多个待处理语音片段的mfcc特征进行vad静音检测,提取出所述待处理语音片段中,多个语音活动片段的mfcc特征;
一次聚类子模块,用于根据所述多个语音活动片段的mfcc特征,对所述多个语音活动片段进行一次聚类,以将所述多个语音活动片段划分成两种语音堆。
可选地,所述装置还包括:
设置模块,用于根据所述二次聚类的准确度,设置所述第一预设时长;其中,所述第一预设时长与所述二次聚类的准确度之间呈正比关系。
本申请实施例第三方面提供一种电子设备,包括:
一个或多个处理器;和
其上存储有指令的一个或多个机器可读介质,当由所述一个或多个处理器执行时,使得所述电子设备执行如本申请实施例第一方面所述的话者分离方法。
本申请实施例第四方面提供一个或多个机器可读存储介质,其上存储有指令,当由一个或多个处理器执行时,使得所述处理器执行如本申请实施例第一方面所述的话者分离方法。
采用本申请提供的一种话者分离方法,可以在获取到待处理语音之后,将待处理语音划分成多个语音片段,并将多个语音片段划分成两种语音堆,再将两种语音堆中的第一长语音片段进行注册,将两种语音堆中的短语音片段分别与第一长语音片段进行匹配,以确定所述两组短语音片段各自所属的声纹样本,进而识别不同话者。
在这个过程中,由于所注册的声纹样本是两组第一长语音片段,并非多个待处理语音片段的所有声纹样本,也非多个待处理语音片段的短语音片段,所以所注册的声纹样本中并不包括短语音片段,所注册的声纹样本中包含的是信息量丰富且含义明确的第一长语音片段,其不会受到短语音片段的影响,因此可以提高声纹识别的准确性,相应地,即使将语音时长较短的短语音片段与两组第一长语音片段进行匹配时,也能够准确地识别出短语音片段所对应的话者。
另外,本申请实施例中,是将声纹识别技术应用到话者分离的场景之中,相较于现有技术中将声纹识别技术应用至声纹解锁场景中而言,是将用户在同一语音环境下短语音片段与的第一长语音片段进行匹配,而非将一种语音环境下的语音片段注册成样本,将另一种语音环境下的语音片段与该样本进行匹配,从而减少了不同的语音环境所带来的干扰,进一步提升了话者识别分离的准确性。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一实施例提出的一种话者分离方法的一种步骤流程图;
图2是本申请一实施例提出的一种话者分离方法的另一种步骤流程图;
图3是本申请一实施例提出的划分为两种语音堆的逻辑示意图;
图4是本申请一实施例提出的一种话者分离方法的逻辑示意图;
图5是本申请一实施例提出的一种话者分离装置的结构框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
请参阅图1,本申请实施例提供一种话者分离方法,所述方法包括以下步骤:
步骤101:获取多个待处理语音片段,将所述多个待处理语音片段划分为两种语音堆。
本申请实施例中,待处理语音片段是从待处理音频中划分而来,将待处理音频划分成多个待处理语音片段时,可以将待处理音频划分为多个待处理语音片段,使得每个待处理语音片段中只包括一个说话者的语音,或者只包括噪音等环境语音,从而提高后续二次聚类的准确度。
其中,在将待处理音频划分成多个待处理语音片段之后,由于待处理语音片段中包括了两个话者的语音片段,所以需要对多个待处理语音片段进行初步的划分,以划分为两种语音堆,来初步分离出两个不同的话者。
本申请实施例可以应用于需要分离两个不同话者输入语音的场景,其中,话者可以为电话会议、视频会议下的发言人。
具体应用于双人说话场景中时,先获取到双人说话的待处理视频,再通过语音分帧技术,将待处理音频划分成多个待处理语音片段,例如划分成“喂”、“你好”、“最近过的还好吗”、“我过的挺好的你呢”等等多个待处理语音片段,再将“喂”、“最近过的还好吗”这两个待处理语音片段划分为第一个语音堆,将“你好”、“我过的挺好的你呢”这两个待处理语音片段划分为第二个语音堆。
如此,在划分为两个语音堆之后,可以初步识别出第一个语音堆是用户A所发出的,第二个语音堆是用户B所发出的,从而初步实现对话者的识别。
步骤102:从两种语音堆中分别筛选出语音时长在第一预设时长以上的两组第一长语音片段。
本申请实施例中,两种语音堆中所包含的待处理语音片段的时长各有不同。具体地,两种语音堆中包含有长语音片段与短语音片段,而在“嗯”、“你好”等短语音片段中,短语音片段所包含的的信息量比较少,语句表示的信息不太明确,所以若将短语音片段连同“最近过的还好吗”、“我过的挺好的你呢”等长语音片段一起进行声纹注册之后,所注册得到的声纹样本之中则会包含信息量较少的短语音片段,而由于注册的短语音片段的声纹样本本身信息量较少,若再将话者所发出的短语音与本身信息量较少的声纹样本进行声纹匹配,会导致所识别出的话者的准确度较低。
因此,本申请实施例中,在注册第一长语音片段之前,会进行第一长语音片段的筛选。具体地,从第一个语音堆中筛选出语音时长在第一预设时长以上的第一长语音片段,从第二个语音堆中筛选出语音时长在第一预设时长以上的第一长语音片段,而位于第一个语音堆与第二个语音堆中的长语音片段组合成两组第一长语音片段。
具体应用时,从“喂”、“最近过的还好吗”所对应的第一个语音堆中筛选出在1S以上的“最近过的还好吗”这一第一长语音片段;从“你好”、“我过的挺好的你呢”对应的第二个语音堆中筛选出“我过的挺好的你呢”这一第一长语音片段,如此,使得筛选出的第一长语音片段均是语音时长较长的、语义明确的、信息量较多的语音片段,其不会受到较少的语音时长较短的短语音片段的影响,从而提升了声纹识别的准确性。
其中,第一预设时长可以为1-2S中的任意预设时长。
其中,声纹注册指的是将多个说话人的语音特征进行注册保存,再对一段有一人说话的语音进行识别,识别其属于多个说话人中的哪一人,其运用于声纹密码场景。例如,在手机中注册保存有用户A、用户B与用户C的语音特征,用户A是手机的持有者,当用户A面对手机说话时,由于手机中注册有用户A的语音特征,所以可以对手机进行解锁。
步骤103:将所述两组第一长语音片段分别注册成两种声纹样本,其中,不同的声纹样本表征不同的语音用户。
本申请实施例中,在获取到提前录制的待处理语音之后,立即将待处理语音划分为多个待处理语音片段,再将多个待处理语音片段划分为两种语音堆,并将两种语音堆中语音时长在第一预设时长以上的两组第一长语音片段注册成两种声纹样本,从而使得客户端中存储有不同用户的声纹样本。
传统的声纹注册识别技术中,是事先在客户端注册好用户在一种语音环境下(例如图书馆等安静场所)的语音片段,在进行声纹解锁时,同一用户在另一种环境下(例如菜市场等嘈杂场所)发出语音,即可对客户端进行声纹解锁。
而本申请中,相较于传统的声纹注册识别技术而言,所获取到的是完整的待处理语音,因此,需要在获取到待处理语音之后,是实时地将待处理语音处理成两组第一长语音片段进行注册,而非事先将用户的语音片段进行注册,因此本申请可以实时地识别出一段待处理语音中的不同话者。
另外,本申请是将用户在同一语音环境下(例如图书馆等安静场所)所发出的待处理语音划分为短语音片段与第一长语音片段,因此,将同一语音环境下的短语音片段与的第一长语音片段进行匹配,可以减少不同语音环境所带来的差异性,减少不同语音环境所带来的话者识别的干扰,提升话者识别的准确性。
其中,两种声纹样本中包含了两个不同用户大量的第一长语音片段,所以两种声纹样本可以表征不同的语音用户的语音特征。
步骤104:将所述两种声纹样本,与语音时长小于第二预设时长的两组短语音片段分别进行匹配,以确定所述两组短语音片段各自所属的声纹样本,其中,所述第二预设时长小于或等于所述第一预设时长。
本申请实施例中,可以语音时长在第一预设时长以上的两组长语音片段注册成两种声纹样本,以提升声纹识别的准确性;再将语音时长小于第二预设时长的两组短语音片段分别与两种样本进行匹配,以确定两组短语音片段各自所属的声纹样本。如此,由于本申请实施例将短语音片段与去除短语音片段后信息量较为丰富、语音时长较长、信息含义明确的声纹样本进行声纹匹配,而非是将短语音片段与用户所有的声纹样本进行匹配,从而提高了识别不同话者的准确度。
其中,用户所有的声纹样本包括语音时长在第一预设时长以上的声纹样本,以及语音时长小于第二预设时长的声纹样本。
其中,第二预设时长小于或等于第一预设时长,例如第二预设时长与第一预设时长可以均为1S,或者第一预设时长为2S,第二预设时长为1S。
具体应用时,将第一个语音堆中的第一长语音片段“最近过的还好吗”与第二个语音堆中的第一长语音片段“我过的挺好的你呢”分别注册成两种样本,第一个语音堆是用户A所发出的,第二个语音堆是用户B所发出的。
再将第一个语音堆中的“喂”分别与两种样本进行匹配,确定“喂”所对应的短语音片段的语音特征与用户A发出的“最近过的还好吗”的语音特征相适配,则可以确定“喂”所对应的话者是用户A。
再将第二个语音堆中的“你好”分别与两种样本进行匹配,确定“你好”所对应的短语音片段的语音特征与用户B发出的“我过的挺好的你呢”相适配,则可以确定“你好”所对应的话者是用户B。
如此,本申请实施例中,可以在获取到待处理语音之后,将待处理语音划分成多个语音片段,并将多个语音片段划分成两种语音堆,再将两种语音堆中的第一长语音片段进行注册,将两种语音堆中的短语音片段分别与第一长语音片段进行匹配,来识别不同话者。
在这个过程中,由于所注册的声纹样本是两组第一长语音片段,并非多个待处理语音片段的所有声纹样本,也非多个待处理语音片段的短语音片段,所以所注册的声纹样本中并不包括短语音片段,所注册的声纹样本中包含的是信息量丰富且含义明确的第一长语音片段,其不会受到短语音片段的影响,因此可以提高声纹识别的准确性,相应地,即使将语音时长较短的短语音片段与两组第一长语音片段进行匹配时,也能够准确地识别出短语音片段所对应的话者。
另外,本申请实施例中,将先注册声纹样本,再将声纹样本与话者语音进行匹配所对应的声纹识别技术应用到话者分离的场景之中,相较于现有技术中将声纹识别技术应用至声纹解锁场景中而言,是将用户在同一语音环境下短语音片段与的第一长语音片段进行匹配,而非将一种语音环境下的语音片段注册成样本,将另一种语音环境下的语音片段与该样本进行匹配,从而减少了不同的语音环境所带来的干扰,进一步提升了话者识别分离的准确性。
请参阅图2示出了本申请实施例提供的一种话者分离方法,以及图4提供的一种话者分离方法的逻辑示意图,所述方法包括以下步骤:
步骤201:对所述多个待处理语音片段分别进行特征提取,得到所述多个待处理语音片段各自的mfcc特征。
本申请实施例中,请参阅图3,可以先使用语音分帧技术,将待处理语音划分为多个待处理语音片段,再将待处理语音片段依次经过加窗、快速傅里叶变换、三角带通滤波器、计算每个带通滤波器组输出的对数能量、离散余弦变换等等步骤来得到mfcc特征(Mel-scale Frequency Cepstral Coefficients,梅尔倒谱系数)。
其中,mfcc特征为计算机可以识别的语音特征。
步骤202:根据所述多个待处理语音片段各自的mfcc特征,对所述多个待处理语音片段进行一次聚类,以将所述多个待处理语音片段划分成两种语音堆。
本申请实施例中,在得到两张语音堆的过程中,是通过一次聚类过程来实现的,一次聚类为层次聚类(agglomerative-cluster)中的自底向上的聚类算法。请参阅图3,具体包括以下子步骤:
子步骤2021:对所述多个待处理语音片段的mfcc特征进行vad静音检测,提取出所述待处理语音片段中,多个语音活动片段的mfcc特征。
在本步骤中,由于待处理语音中不仅仅包括说话者的语音,还可能出现说话者的停顿、切换不同的说话者所带来的静音期,因此可以通过vad静音检测技术(VoiceActivity Detection,VAD),又称语音端点检测或语音边界检测等等,来从待处理语音片段中消除长时间的静音期,提取出多个语音活动片段。
其中,语音活动片段指的是待处理语音片段中说话者说话的语音片段,而非并不存在说话者说话的语音片段。
通过从待处理语音片段中提取出语音活动片段,可以对静音期进行识别与消除,以获得更加准确的语音片段。
子步骤2022:根据所述多个语音活动片段的mfcc特征,对所述多个语音活动片段进行一次聚类,以将所述多个语音活动片段划分成两种语音堆。
在本步骤中,请参阅图3,首先采取训练好的ubm模型对多个语音活动片段的mfcc特征进行处理,提取多个语音活动片段的ivector特征;其次可以采取训练好的plda模型对多个语音活动片段中,每两个语音活动片段的ivector特征进行打分,得到plda分数,依据plda分数,对多个语音活动片段进行一次聚类,得到两种语音堆。
其中,ivector特征是语音活动片段中提取的能够代表语音特征的信息,具体可以包括语音活动片段的短时平均能量、短时平均幅度、短时平均过零率、共振峰、声门波、语速等等,只要能够代表不同语音活动片段的语音特征即可。
其中,plda分数指的是各个ivector特征之间的维度距离,plda分数越大,两个ivector特征之间的差别越大,plda分数越小,两个ivector特征之间的差别越小。
具体地,在依据plda分数,对多个语音活动片段进行一次聚类时,可以利用plda模型对多个语音活动片段中的每两个语音活动片段分别进行打分,将得分小于阈值的两个语音活动片段聚类到一种语音堆中,将得分大于或等于阈值的两个语音活动片段聚类到不同的语音堆中。阈值可以为10分、20分等等,本申请在此不做限制。
具体运用时,例如有语音活动片段1、2、3、4、5,由于打分是将每两个语音活动片段进行打分,因此上面5个语音活动片段则会有(1与2)、(1与3)、(1与4)、(1与5)、(2与3)、(2与4)、(2与5)、(3与4)、(3与5)这7个组合。
在进行一次聚类时,先利用plda模型对上面7个组合分别进行打分,最后得到(1与2)、(1与5)、(2与5)的plda分数均小于10分;(3与5)的plda分数小于10分,(1与4)、(2与3)、(2与4)、(3与4)的plda分数均大于90分,则可以将语音活动片段1、2、5初步划分为第一个语音堆;将语音活动片段3与4初步划分为第二个语音堆。
如此,第一个语音堆中的语音活动片段1、2、5初步确定为用户A所发出的语音片段;第二个语音堆中语音活动片段3与4初步确定为用户B发出的语音片段。
步骤203:从两种语音堆中分别筛选出语音时长在第一预设时长以上的两组第一长语音片段。
在本申请实施例中,由于在进行一次聚类之后,第一个语音堆与第二个语音堆中均可能会包含短语音片段,而将短语音片段注册成声纹样本无疑会降低声纹识别的准确率。
因此,可以从第一个语音堆中筛选出语音时长在第一预设时长以上的第一长语音片段,例如第一长语音片段2与5;还会从第二个语音堆中筛选出语音时长在第一预设时长以上的第一长语音片段,例如第一长语音片段3与4。
通过步骤203步骤的筛选,可以从第一个语音堆与第二个语音堆中初步筛选出两组第一长语音片段,使得注册成样本的第一长语音片段尽可能不包含短语音片段,如此来提高声纹识别的准确率。
其中,由于会从两种语音堆中初步筛选出语音时长在第一预设时长以上的两组第一长语音片段的过程中,第一预设时长的大小会影响后续步骤204二次聚类的准确性以及声纹注册的质量,因此,需要对第一预设时长的大小进行设置。
具体地,当第一预设时长较大时,被筛选出注册成声纹样本的第一长语音片段的数量更少。如此,虽然使得声纹注册的样本中能够包含语音时长更长的第一长语音片段,来保证了二次聚类的准确性;但是由于注册成样本的第一长语音片段的数量较小,所以会导致声纹注册的质量下降。
当第一预设时长较小时,被筛选出注册成声纹样本的第一长语音片段的数量更多。如此,虽然使得注册成声纹样本的第一长语音片段的数量较多,提升了声纹注册质量;但是所注册的声纹样本中包含了更多的语音时长较短的第一长语音片段,会导致二次聚类的准确性下降。
因此,本申请实施例中,是根据所述二次聚类的准确度,设置所述第一预设时长;其中,所述第一预设时长与所述二次聚类的准确度之间呈正比关系。
例如,将第一预设时长设置在1-2S之内,如此,可以使得筛选出的第一长语音片段不会导致声纹注册的质量下降,也不会导致二次聚类的准确性下降。
步骤204:根据所述两组第一长语音片段各自的ivector特征,对所述两组第一长语音片段进行二次聚类,以得到两组第二长语音片段。
其中,在步骤202中进行一次聚类时,由于一次聚类的过程中会受到短语音片段的影响,导致聚类的准确性较低,那么所划分出的第一个语音堆中可能会包含本属于第二个语音堆中的待处理语音片段,同理,第二个语音堆中也可能会包含本属于第一个语音堆中的待处理语音片段,相应地,从第二个语音堆演变而来的两组第一长语音片段中,也会存在相互混合的情况,进而导致所注册的两种声纹样本相互混合,影响了声纹识别的准确性。因此,为了使得两组第一长语音片段的划分能够更加准确,本申请实施例还进行了二次聚类。
具体进行二次聚类时,包括以下子步骤:
子步骤2041:利用plda模型,对每两个第一长语音片段的ivector特征进行打分,以得到每两个第一长语音片段之间的plda分数。
在本步骤中,与子步骤2022类似,可以采取训练好的plda模型,对第一个语音堆中的每两个第一长语音片段的ivector特征进行打分;对第二个语音堆中的每两个第一长语音片段的ivector特征进行打分。
例如,再次利用plda模型对步骤203中利用第一预设时长所筛选出的第一长语音片段2、3、4、5进行打分时,4个第一长语音片段可以有(2与3)、(2与4)、(2与5)、(3与4)、(3与5)这5个组合。
利用plda模型对每两个第一长语音片段的ivector特征进行打分之后,得到(2与3)、(2与4)、(3与4)的plda分数小于10分,(2与5)、(3与5)的plda分数大于90分。
子步骤2042:依据所述plda分数,对所述第一长语音片段进行二次聚类,以得到两组第二长语音片段。
在本步骤中,在对两种语音堆中的每两个第一长语音片段的ivector特征进行打分之后,则可以将分数低于阈值的两个第一长语音片段再次聚类成一个语音堆,而将分数高于阈值的两个第一长语音片段再次划分到不同的语音堆中。
例如,将第一长语音片段(2与3)、(2与4)、(3与4)聚类成第一个语音堆,将第一长语音片段5聚类成第二个语音堆。
通过二次聚类的设置,可以将两组第一长语音片段进行二次划分,以划分成两组第二长语音片段,从而使得两组第一长语音片段中所划分的语音片段不会相互混合,即,不会使得第一个语音堆中的第一长语音片段中的语音片段,被划分至第二个语音堆中的第一长语音片段中,反之亦然,从而使得所注册得到的两种声纹样本是能够精准地属于两个不同用户的,自然,在后续将短语音片段与两个样本分别进行匹配时,也能够基于准确的声纹样本,来提升声纹识别的准确性。
其中,两组所述第二长语音片段为两组所述第一长语音片段通过二次聚类得到。
步骤205:将所述两组第二长语音片段分别注册成两种声纹样本。
步骤206:将所述两种声纹样本,与语音时长小于第二预设时长的两组短语音片段分别进行匹配,以确定所述两组短语音片段各自所属的声纹样本,其中,所述第二预设时长小于或等于所述第一预设时长。
通过本申请实施例提供的一种话者分离方法,可以将筛选出的两组第一长语音片段进行二次聚类,以划分出两组第二长语音片段,在利用准确的第二长语音片段分别注册成两种声纹样本之后,可以提升声纹识别的准确性。
基于同一发明构思,本申请实施例还提供一种话者分离装置,所述装置包括:
划分模块,用于获取多个待处理语音片段,将所述多个待处理语音片段划分为两种语音堆;
筛选模块,用于从两种语音堆中分别筛选出语音时长在第一预设时长以上的两组第一长语音片段;
注册模块,用于将所述两组第一长语音片段分别注册成两种声纹样本,其中,不同的声纹样本表征不同的语音用户;
匹配模块,用于将所述两种声纹样本,与语音时长小于第二预设时长的两组短语音片段分别进行匹配,以确定所述两组短语音片段各自所属的声纹样本,其中,所述第二预设时长小于或等于所述第一预设时长。
可选地,所述注册模块包括:
二次聚类模块,用于根据所述两组第一长语音片段各自的ivector特征,对所述两组第一长语音片段进行二次聚类,以得到两组第二长语音片段;
第一注册子模块,用于将所述两组第二长语音片段分别注册成两种声纹样本。
可选地,所述二次聚类模块包括:
第一打分模块,用于利用plda模型,对每两个第一长语音片段的ivector特征进行打分,以得到每两个第一长语音片段之间的plda分数;
二次聚类子模块,用于依据所述plda分数,对所述第一长语音片段进行二次聚类,以得到两组第二长语音片段。
可选地,所述划分模块包括:
特征提取模块,用于对所述多个待处理语音片段分别进行特征提取,得到所述多个待处理语音片段各自的mfcc特征;
一次聚类模块,用于根据所述多个待处理语音片段各自的mfcc特征,对所述多个待处理语音片段进行一次聚类,以将所述多个待处理语音片段划分成两种语音堆。
可选地,所述一次聚类模块包括:
静音检测模块,用于对所述多个待处理语音片段的mfcc特征进行vad静音检测,提取出所述待处理语音片段中,多个语音活动片段的mfcc特征;
一次聚类子模块,用于根据所述多个语音活动片段的mfcc特征,对所述多个语音活动片段进行一次聚类,以将所述多个语音活动片段划分成两种语音堆。
可选地,所述装置还包括:
设置模块,用于根据所述二次聚类的准确度,设置所述第一预设时长;其中,所述第一预设时长与所述二次聚类的准确度之间呈正比关系。
基于同一发明构思,本申请实施例还提供一种电子设备,包括:
一个或多个处理器;和
其上存储有指令的一个或多个机器可读介质,当由所述一个或多个处理器执行时,使得所述电子设备执行如上述的一种话者分离方法。
基于同一发明构思,本申请实施例还提供一个或多个机器可读存储介质,其特征在于,其上存储有指令,当由一个或多个处理器执行时,使得所述处理器执行如上述的一种话者分离方法。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本申请实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本申请所提供的一种话者分离方法、装置、电子设备与存储介质,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (10)
1.一种话者分离方法,其特征在于,所述方法包括:
获取多个待处理语音片段,将所述多个待处理语音片段划分为两种语音堆;
从两种语音堆中分别筛选出语音时长在第一预设时长以上的两组第一长语音片段;
将所述两组第一长语音片段分别注册成两种声纹样本,其中,不同的声纹样本表征不同的语音用户;
将所述两种声纹样本,与语音时长小于第二预设时长的两组短语音片段分别进行匹配,以确定所述两组短语音片段各自所属的声纹样本,其中,所述第二预设时长小于或等于所述第一预设时长。
2.根据权利要求1所述的方法,其特征在于,将所述两组第一长语音片段分别注册成两种声纹样本,包括:
根据所述两组第一长语音片段各自的ivector特征,对所述两组第一长语音片段进行二次聚类,以得到两组第二长语音片段;
将所述两组第二长语音片段分别注册成两种声纹样本。
3.根据权利要求2所述的方法,其特征在于,根据所述两组第一长语音片段各自的ivector特征,对所述两组第一长语音片段进行二次聚类,以得到两组第二长语音片段,包括:
利用plda模型,对每两个第一长语音片段的ivector特征进行打分,以得到每两个第一长语音片段之间的plda分数;
依据所述plda分数,对所述第一长语音片段进行二次聚类,以得到两组第二长语音片段。
4.根据权利要求1所述的方法,其特征在于,获取多个待处理语音片段,将所述多个待处理语音片段划分为两种语音堆,包括:
对所述多个待处理语音片段分别进行特征提取,得到所述多个待处理语音片段各自的mfcc特征;
根据所述多个待处理语音片段各自的mfcc特征,对所述多个待处理语音片段进行一次聚类,以将所述多个待处理语音片段划分成两种语音堆。
5.根据权利要求4所述的方法,其特征在于,根据所述多个待处理语音片段各自的mfcc特征,对所述多个待处理语音片段进行一次聚类,以将所述多个待处理语音片段划分成两种语音堆,包括:
对所述多个待处理语音片段的mfcc特征进行vad静音检测,提取出所述待处理语音片段中,多个语音活动片段的mfcc特征;
根据所述多个语音活动片段的mfcc特征,对所述多个语音活动片段进行一次聚类,以将所述多个语音活动片段划分成两种语音堆。
6.根据权利要求2所述的方法,其特征在于,所述方法还包括:
根据所述二次聚类的准确度,设置所述第一预设时长;其中,所述第一预设时长与所述二次聚类的准确度之间呈正比关系。
7.一种话者分离装置,其特征在于,所述装置包括:
划分模块,用于获取多个待处理语音片段,将所述多个待处理语音片段划分为两种语音堆;
筛选模块,用于从两种语音堆中分别筛选出语音时长在第一预设时长以上的两组第一长语音片段;
注册模块,用于将所述两组第一长语音片段分别注册成两种声纹样本,其中,不同的声纹样本表征不同的语音用户;
匹配模块,用于将所述两种声纹样本,与语音时长小于第二预设时长的两组短语音片段分别进行匹配,以确定所述两组短语音片段各自所属的声纹样本,其中,所述第二预设时长小于或等于所述第一预设时长。
8.根据权利要求7所述的装置,其特征在于,所述注册模块包括:
二次聚类模块,用于根据所述两组第一长语音片段各自的ivector特征,对所述两组第一长语音片段进行二次聚类,以得到两组第二长语音片段;
第一注册子模块,用于将所述两组第二长语音片段分别注册成两种声纹样本。
9.一种电子设备,其特征在于,包括:
一个或多个处理器;和
其上存储有指令的一个或多个机器可读介质,当由所述一个或多个处理器执行时,使得所述电子设备执行如权利要求1-6任一项所述的话者分离方法。
10.一个或多个机器可读存储介质,其特征在于,其上存储有指令,当由一个或多个处理器执行时,使得所述处理器执行如权利要求1-6任一项所述的话者分离方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111227476.5A CN114093369B (zh) | 2021-10-21 | 2021-10-21 | 一种话者分离方法、装置、电子设备与存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111227476.5A CN114093369B (zh) | 2021-10-21 | 2021-10-21 | 一种话者分离方法、装置、电子设备与存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114093369A CN114093369A (zh) | 2022-02-25 |
CN114093369B true CN114093369B (zh) | 2025-03-14 |
Family
ID=80297315
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111227476.5A Active CN114093369B (zh) | 2021-10-21 | 2021-10-21 | 一种话者分离方法、装置、电子设备与存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114093369B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114464194A (zh) * | 2022-03-12 | 2022-05-10 | 云知声智能科技股份有限公司 | 声纹聚类方法、装置、存储介质及电子装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110853666A (zh) * | 2019-12-17 | 2020-02-28 | 科大讯飞股份有限公司 | 一种说话人分离方法、装置、设备及存储介质 |
CN112951242A (zh) * | 2021-02-02 | 2021-06-11 | 华南理工大学 | 一种基于孪生神经网络的短语音说话人匹配方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006145848A (ja) * | 2004-11-19 | 2006-06-08 | Kenwood Corp | 音声合成装置、音片記憶装置、音片記憶装置製造装置、音声合成方法、音片記憶装置製造方法及びプログラム |
KR101864925B1 (ko) * | 2016-02-05 | 2018-06-05 | 전자부품연구원 | 글로벌 모델 기반 오디오 객체 분리 방법 및 시스템 |
CN113053365B (zh) * | 2021-03-12 | 2023-03-24 | 云知声智能科技股份有限公司 | 语音分离方法、装置、设备和存储介质 |
CN113327622B (zh) * | 2021-06-02 | 2024-08-06 | 云知声(上海)智能科技有限公司 | 一种语音分离方法、装置、电子设备和存储介质 |
-
2021
- 2021-10-21 CN CN202111227476.5A patent/CN114093369B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110853666A (zh) * | 2019-12-17 | 2020-02-28 | 科大讯飞股份有限公司 | 一种说话人分离方法、装置、设备及存储介质 |
CN112951242A (zh) * | 2021-02-02 | 2021-06-11 | 华南理工大学 | 一种基于孪生神经网络的短语音说话人匹配方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114093369A (zh) | 2022-02-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11488605B2 (en) | Method and apparatus for detecting spoofing conditions | |
US10878824B2 (en) | Speech-to-text generation using video-speech matching from a primary speaker | |
WO2021012734A1 (zh) | 音频分离方法、装置、电子设备及计算机可读存储介质 | |
CN104835498B (zh) | 基于多类型组合特征参数的声纹识别方法 | |
CN105161093B (zh) | 一种判断说话人数目的方法及系统 | |
CN111429935B (zh) | 一种语音话者分离方法和装置 | |
CN105938716A (zh) | 一种基于多精度拟合的样本复制语音自动检测方法 | |
JP2005530214A (ja) | メガ話者識別(id)システム及びその目的に相当する方法 | |
Cho et al. | Enhanced voice activity detection using acoustic event detection and classification | |
CN111081223A (zh) | 一种语音识别方法、装置、设备和存储介质 | |
CN114093369B (zh) | 一种话者分离方法、装置、电子设备与存储介质 | |
Nicolson et al. | On training targets for deep learning approaches to clean speech magnitude spectrum estimation | |
CN113744742B (zh) | 对话场景下的角色识别方法、装置和系统 | |
CN112599114A (zh) | 一种语音识别方法及装置 | |
US20130297311A1 (en) | Information processing apparatus, information processing method and information processing program | |
Kwon et al. | A method for on-line speaker indexing using generic reference models. | |
US7454337B1 (en) | Method of modeling single data class from multi-class data | |
CN114203180A (zh) | 会议纪要的生成方法、装置、电子设备及存储介质 | |
Tzudir et al. | Low-resource dialect identification in Ao using noise robust mean Hilbert envelope coefficients | |
Arango-Sánchez et al. | An enhanced conv-TasNet model for speech separation using a speaker distance-based loss function | |
CN119007711B (zh) | 一种基于深度学习的语音识别和人机交互系统及方法 | |
US20250029616A1 (en) | Method and apparatus for registering and updating audio information associated with a user | |
CN114547568A (zh) | 一种基于语音的身份验证方法、装置及设备 | |
Li | Speaker Diarization System for Call-center data | |
Maka | Change point determination in audio data using auditory features |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |