CN113593604A - 检测音频质量方法、装置及存储介质 - Google Patents
检测音频质量方法、装置及存储介质 Download PDFInfo
- Publication number
- CN113593604A CN113593604A CN202110831738.2A CN202110831738A CN113593604A CN 113593604 A CN113593604 A CN 113593604A CN 202110831738 A CN202110831738 A CN 202110831738A CN 113593604 A CN113593604 A CN 113593604A
- Authority
- CN
- China
- Prior art keywords
- audio
- power
- detected
- audio frame
- human voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/60—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Circuit For Audible Band Transducer (AREA)
- Telephonic Communication Services (AREA)
Abstract
本申请公开了一种检测音频质量方法、装置及存储介质,属于计算机技术领域。所述方法包括:根据目标干声音频的每个待检测音频帧对应的功率谱,确定每个待检测音频帧对应的人声基频估计值;对于每个待检测音频帧,对待检测音频帧的功率谱中每个频点的功率值进行乘权处理;根据每个待检测音频帧对应的功率谱和乘权处理后的功率谱,确定每个待检测音频帧的人声存在概率;根据每个待检测音频帧对应的人声存在概率,在目标干声音频的待检测音频帧中,检测人声音频帧和非人声音频帧;根据人声音频帧对应的功率谱和非人声音频帧对应的功率谱,确定目标干声音频的音频质量信息。采用本申请,可以更加准确的判定干声音频的音频质量。
Description
技术领域
本申请涉及音频数据处理领域,特别涉及一种检测音频质量方法、装置及存储介质。
背景技术
K歌应用程序是人们常用的一种娱乐应用程序。用户可以通过K歌应用程序进行K歌,在K歌过程中,终端录制麦克风采集的音频,此音频一般称作干声音频。用户可以进一步操作将干声音频上传至服务器存储,后续在播放自己的演唱作品时,会将此干声音频下载下来,与伴奏音频进行合并播放。
在K歌应用程序运营的过程中,会有数以亿计的干声音频在服务器存储,而且,随着时间延续,服务器存储的干声音频会越来越多,这对服务器的存储能力是一个非常大的考验,所以,在服务器一般会设置一定的删除机。例如,对于太久没有登录的用户的干声音频进行删除,还有,对质量偏低的音频进行删除,等等。一般对干声音频进行音频质量评估时,就是简单的检测一下干声音频的总功率,由总功率确定音频质量信息,如果功率过低(可能是因为用户没有对着麦克风歌唱),则判定该干声音频的质量低下,进而可以对其删除。
在实现本申请的过程中,发明人发现相关技术至少存在以下问题:
上述方案仅通过总功率来判断音频质量,然而,总功率并不能很全面准确的反映音频质量,导致最终确定的音频质量信息准确度较差。
发明内容
本申请实施例提供了一种检测音频质量方法、装置及存储介质,能够解决音频质量信息准确度较差的问题。所述技术方案如下:
第一方面,提供了一种检测音频质量的方法,所述方法包括:
根据目标干声音频的每个待检测音频帧对应的功率谱,确定每个待检测音频帧对应的人声基频估计值,其中,所述功率谱包括各频点的功率值;
对于每个待检测音频帧,对所述待检测音频帧的功率谱中每个频点的功率值进行乘权处理,得到乘权处理后的功率谱,其中,所述待检测音频帧对应的人声基频估计值的正整数倍的频点的权值大于其他频点的权值;
根据每个待检测音频帧对应的功率谱和乘权处理后的功率谱,确定每个待检测音频帧的人声存在概率;
根据每个待检测音频帧对应的人声存在概率,在所述目标干声音频的待检测音频帧中,检测人声音频帧和非人声音频帧;
根据所述人声音频帧对应的功率谱和所述非人声音频帧对应的功率谱,确定所述目标干声音频的音频质量信息。
在一种可能的实现方式中,所述根据目标干声音频的每个待检测音频帧对应的功率谱,确定每个待检测音频帧对应的人声基频估计值,包括:
根据每个待检测音频帧对应的功率谱和预设的人声频率特征信息,确定每个待检测音频帧对应的人声基频估计值。
在一种可能的实现方式中,所述人声频率特征信息为人声基频频率范围,所述根据每个待检测音频帧对应的功率谱和预设的人声频率特征信息,确定每个待检测音频帧对应的人声基频估计值,包括:
对每个待检测音频帧对应的功率谱进行预设窗长度的平滑处理;
将每个待检测音频帧对应的平滑处理后的功率谱在所述人声基频频率范围内的最小的波峰频率,分别确定为每个待检测音频帧对应的人声基频估计值。
在一种可能的实现方式中,所述对于每个待检测音频帧,对所述待检测音频帧的功率谱中每个频点的功率值进行乘权处理,得到乘权处理后的功率谱,包括:
根据每个待检测音频帧对应的人声基频估计值,构建每个待检测音频帧对应的权系数函数,其中,所述权系数函数用于表示不同频点对应的权值,所述权系数函数的波形存在多个波峰,所述多个波峰分别与所述人声基频估计值的正整数倍相对应;
对于每个待检测音频帧,将所述待检测音频帧对应的功率谱与权系数函数相乘,得到乘权处理后的功率谱。
在一种可能的实现方式中,所述权系数函数为三角函数。
在一种可能的实现方式中,所述根据每个待检测音频帧对应的功率谱和乘权处理后的功率谱,确定每个待检测音频帧的人声存在概率,包括:
对于每个待检测音频帧,确定乘权处理后的功率谱的总功率与未乘权处理的所述功率谱的总功率的比值,根据预设的比值上限和比值下限,对所述比值进行归一化处理,得到归一化的比值,作为所述待检测音频帧对应的人声存在概率。
在一种可能的实现方式中,所述根据每个待检测音频帧对应的人声存在概率,在所述目标干声音频的待检测音频帧中,检测人声音频帧和非人声音频帧,包括:
根据每个待检测音频帧对应的人声存在概率和人声检测概率阈值,在所述目标干声音频的待检测音频帧中检测人声音频帧;
根据每个待检测音频帧对应的人声存在概率和非人声检测概率阈值,在所述目标干声音频的待检测音频帧中检测非人声音频帧。
在一种可能的实现方式中,所述方法还包括:根据所述非人声音频帧对应的功率谱,确定所述目标干声音频的噪声惩罚参数;根据每个待检测音频帧对应的功率谱,确定所述目标干声音频的功率惩罚参数;
所述根据所述人声音频帧对应的功率谱和所述非人声音频帧对应的功率谱,确定所述目标干声音频的音频质量信息,包括:
根据所述人声音频帧对应的功率谱和所述非人声音频帧对应的功率谱,确定所述目标干声音频的人声质量信息;
根据所述人声质量信息、所述噪声惩罚参数和所述功率惩罚参数,确定所述目标干声音频的音频质量信息。
在一种可能的实现方式中,所述根据所述人声音频帧对应的功率谱和所述非人声音频帧对应的功率谱,确定所述目标干声音频的人声质量信息,包括:
根据所述人声音频帧对应的功率谱和所述非人声音频帧对应的功率谱,确定所述目标干声音频的信噪比估计值;
根据所述人声音频帧对应的人声存在概率,确定所述目标干声音频的人声清晰度;
将所述信噪比估计值与所述人声清晰度的乘积,确定为所述目标干声音频的人声质量信息。
在一种可能的实现方式中,所述根据所述人声音频帧对应的功率谱和所述非人声音频帧对应的功率谱,确定所述目标干声音频的信噪比估计值,包括:
确定每个人声音频帧对应的功率均值和每个非人生音频帧对应的功率均值,其中,所述功率均值根据各频点的功率值的平均值确定;
确定所有人声音频帧对应的功率均值的第一中值,并确定所有非人声音频帧对应的功率均值的第二中值;
根据所述第一中值与所述第二中值的比值,计算信噪比估计值。
在一种可能的实现方式中,所述根据所述人声音频帧对应的人声存在概率,确定所述目标干声音频的人声清晰度,包括:
将所有人声音频帧对应的人声存在概率的中值,确定所述目标干声音频的人声清晰度。
在一种可能的实现方式中,所述方法还包括:
如果未检测出人声音频帧,则根据每个待检测音频帧对应的功率谱,确定所述目标干声音频的功率惩罚参数;确定所有待检测音频帧对应的人声存在概率的平均值;
根据所述人声存在概率的平均值和所述功率惩罚参数,确定所述目标干声音频的音频质量信息。
在一种可能的实现方式中,所述方法还包括:
如果未检测出非人声音频帧,则根据每个待检测音频帧对应的功率谱,确定所述目标干声音频的功率惩罚参数;确定所有待检测音频帧对应的人声存在概率的中值;
根据所述人声存在概率的中值和所述功率惩罚参数,确定所述目标干声音频的音频质量信息。
在一种可能的实现方式中,所述根据所述非人声音频帧对应的功率谱,确定所述目标干声音频的噪声惩罚参数,包括:
确定每个非人生音频帧对应的功率均值,其中,所述功率均值根据各频点的功率值的平均值确定;
确定所有非人声音频帧对应的功率均值的中值;
根据所述功率均值的中值,确定所述目标干声音频的噪声惩罚参数,其中,所述噪声惩罚参数与所述功率均值的中值负相关。
在一种可能的实现方式中,所述待检测音频帧是所述目标干声音频中功率均值大于静音功率阈值的音频帧,其中,所述功率均值根据各频点的功率值的平均值确定;
所述根据每个待检测音频帧对应的功率谱,确定所述目标干声音频的功率惩罚参数,包括:
确定每个待检测音频帧对应的功率均值,其中,所述功率均值根据各频点的功率值的平均值确定;
确定所有待检测音频帧对应的功率均值的平均值,得到所述目标干声音频的总功率均值;
根据所述总功率均值和所述待检测音频帧的数量在所述目标干声音频的音频帧的总数量中的占比,确定所述目标干声音频的功率惩罚参数。
在一种可能的实现方式中,所述根据所述待检测音频帧的数量在所述目标干声音频的音频帧的总数量中的占比和所述总功率均值,确定所述目标干声音频的功率惩罚参数,包括:
根据所述待检测音频帧的数量在所述目标干声音频的音频帧的总数量中的占比与预设的占比阈值,确定第一功率惩罚子参数,其中,在所述占比小于或等于所述占比阈值时,所述第一功率惩罚子参数与所述占比阈值减所述占比的差值负相关,在所述占比大于所述占比阈值时,所述第一功率惩罚子参数为固定数值;
根据所述总功率均值和预设的功率上限、功率下限,确定第二功率惩罚子参数和第三功率惩罚子参数,其中,在所述总功率均值大于或等于所述功率上限时,所述第二功率惩罚子参数与所述总功率均值减所述功率上限的差值负相关,在所述总功率均值小于或等于所述功率下限时,所述第三功率惩罚子参数与所述功率上限减所述总功率均值的差值负相关,在所述总功率均值小于所述功率上限且大于所述功率下限时,所述第二功率惩罚子参数和所述第三功率惩罚子参数均为固定数值;
将所述第一功率惩罚子参数、所述第二功率惩罚子参数和所述第三功率惩罚子参数的乘积,确定为所述目标干声音频的功率惩罚参数。
第二方面,提供了一种检测音频质量的装置,所述装置包括:
确定模块,用于根据目标干声音频的每个待检测音频帧对应的功率谱,确定每个待检测音频帧对应的人声基频估计值,其中,所述功率谱包括各频点的功率值;
乘权模块,用于对于每个待检测音频帧,对所述待检测音频帧的功率谱中每个频点的功率值进行乘权处理,得到乘权处理后的功率谱,其中,所述待检测音频帧对应的人声基频估计值的正整数倍的频点的权值大于其他频点的权值;
概率模块,用于根据每个待检测音频帧对应的功率谱和乘权处理后的功率谱,确定每个待检测音频帧的人声存在概率;
检测模块,用于根据每个待检测音频帧对应的人声存在概率,在所述目标干声音频的待检测音频帧中,检测人声音频帧和非人声音频帧;
质量模块,用于根据所述人声音频帧对应的功率谱和所述非人声音频帧对应的功率谱,确定所述目标干声音频的音频质量信息。
在一种可能的实现方式中,所述确定模块,用于:
根据每个待检测音频帧对应的功率谱和预设的人声频率特征信息,确定每个待检测音频帧对应的人声基频估计值。
在一种可能的实现方式中,所述人声频率特征信息为人声基频频率范围,所述确定模块,用于:
对每个待检测音频帧对应的功率谱进行预设窗长度的平滑处理;
将每个待检测音频帧对应的平滑处理后的功率谱在所述人声基频频率范围内的最小的波峰频率,分别确定为每个待检测音频帧对应的人声基频估计值。
在一种可能的实现方式中,所述乘权模块,用于:
根据每个待检测音频帧对应的人声基频估计值,构建每个待检测音频帧对应的权系数函数,其中,所述权系数函数用于表示不同频点对应的权值,所述权系数函数的波形存在多个波峰,所述多个波峰分别与所述人声基频估计值的正整数倍相对应;
对于每个待检测音频帧,将所述待检测音频帧对应的功率谱与权系数函数相乘,得到乘权处理后的功率谱。
在一种可能的实现方式中,所述权系数函数为三角函数。
在一种可能的实现方式中,所述概率模块,用于:
对于每个待检测音频帧,确定乘权处理后的功率谱的总功率与未乘权处理的所述功率谱的总功率的比值,根据预设的比值上限和比值下限,对所述比值进行归一化处理,得到归一化的比值,作为所述待检测音频帧对应的人声存在概率。
在一种可能的实现方式中,所述检测模块,用于:
根据每个待检测音频帧对应的人声存在概率和人声检测概率阈值,在所述目标干声音频的待检测音频帧中检测人声音频帧;
根据每个待检测音频帧对应的人声存在概率和非人声检测概率阈值,在所述目标干声音频的待检测音频帧中检测非人声音频帧。
在一种可能的实现方式中,所述质量模块,还用于:根据所述非人声音频帧对应的功率谱,确定所述目标干声音频的噪声惩罚参数;根据每个待检测音频帧对应的功率谱,确定所述目标干声音频的功率惩罚参数;
所述质量模块,用于:
根据所述人声音频帧对应的功率谱和所述非人声音频帧对应的功率谱,确定所述目标干声音频的人声质量信息;
根据所述人声质量信息、所述噪声惩罚参数和所述功率惩罚参数,确定所述目标干声音频的音频质量信息。
在一种可能的实现方式中,所述质量模块,用于:
根据所述人声音频帧对应的功率谱和所述非人声音频帧对应的功率谱,确定所述目标干声音频的信噪比估计值;
根据所述人声音频帧对应的人声存在概率,确定所述目标干声音频的人声清晰度;
将所述信噪比估计值与所述人声清晰度的乘积,确定为所述目标干声音频的人声质量信息。
在一种可能的实现方式中,所述质量模块,用于:
确定每个人声音频帧对应的功率均值和每个非人生音频帧对应的功率均值,其中,所述功率均值根据各频点的功率值的平均值确定;
确定所有人声音频帧对应的功率均值的第一中值,并确定所有非人声音频帧对应的功率均值的第二中值;
根据所述第一中值与所述第二中值的比值,计算信噪比估计值。
在一种可能的实现方式中,所述质量模块,用于:
将所有人声音频帧对应的人声存在概率的中值,确定所述目标干声音频的人声清晰度。
在一种可能的实现方式中,所述质量模块,还用于:
如果未检测出人声音频帧,则根据每个待检测音频帧对应的功率谱,确定所述目标干声音频的功率惩罚参数;确定所有待检测音频帧对应的人声存在概率的平均值;
根据所述人声存在概率的平均值和所述功率惩罚参数,确定所述目标干声音频的音频质量信息。
在一种可能的实现方式中,所述质量模块,还用于:
如果未检测出非人声音频帧,则根据每个待检测音频帧对应的功率谱,确定所述目标干声音频的功率惩罚参数;确定所有待检测音频帧对应的人声存在概率的中值;
根据所述人声存在概率的中值和所述功率惩罚参数,确定所述目标干声音频的音频质量信息。
在一种可能的实现方式中,所述质量模块,用于:
确定每个非人生音频帧对应的功率均值,其中,所述功率均值根据各频点的功率值的平均值确定;
确定所有非人声音频帧对应的功率均值的中值;
根据所述功率均值的中值,确定所述目标干声音频的噪声惩罚参数,其中,所述噪声惩罚参数与所述功率均值的中值负相关。
在一种可能的实现方式中,所述待检测音频帧是所述目标干声音频中功率均值大于静音功率阈值的音频帧,其中,所述功率均值根据各频点的功率值的平均值确定;
所述质量模块,用于:
确定每个待检测音频帧对应的功率均值,其中,所述功率均值根据各频点的功率值的平均值确定;
确定所有待检测音频帧对应的功率均值的平均值,得到所述目标干声音频的总功率均值;
根据所述总功率均值和所述待检测音频帧的数量在所述目标干声音频的音频帧的总数量中的占比,确定所述目标干声音频的功率惩罚参数。
在一种可能的实现方式中,所述质量模块,用于:
根据所述待检测音频帧的数量在所述目标干声音频的音频帧的总数量中的占比与预设的占比阈值,确定第一功率惩罚子参数,其中,在所述占比小于或等于所述占比阈值时,所述第一功率惩罚子参数与所述占比阈值减所述占比的差值负相关,在所述占比大于所述占比阈值时,所述第一功率惩罚子参数为固定数值;
根据所述总功率均值和预设的功率上限、功率下限,确定第二功率惩罚子参数和第三功率惩罚子参数,其中,在所述总功率均值大于或等于所述功率上限时,所述第二功率惩罚子参数与所述总功率均值减所述功率上限的差值负相关,在所述总功率均值小于或等于所述功率下限时,所述第三功率惩罚子参数与所述功率上限减所述总功率均值的差值负相关,在所述总功率均值小于所述功率上限且大于所述功率下限时,所述第二功率惩罚子参数和所述第三功率惩罚子参数均为固定数值;
将所述第一功率惩罚子参数、所述第二功率惩罚子参数和所述第三功率惩罚子参数的乘积,确定为所述目标干声音频的功率惩罚参数。
第三方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由所述处理器加载并执行以实现第一方面所述的检测音频质量的方法所执行的操作。
第四方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现第一方面所述的检测音频质量的方法所执行的操作。
本申请实施例提供的技术方案带来的有益效果是:
本申请实施例,通过干声音频中音频帧的功率谱识别音频帧的人声存在概率,进而识别人声音频帧和非人声音频帧,基于人声音频帧和非人声音频帧的功率谱确定干声音频的音频质量信息,因为高质量的干声音频在非人声的部分应该是接近静音的,所以基于人声音频帧和非人声音频帧的功率情况能更加准确的判定干声音频的音频质量。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种检测音频质量的方法流程图;
图2是本申请实施例提供的一种检测音频质量的方法流程图;
图3是本申请实施例提供的一种确定人声存在概率的方法流程图;
图4是本申请实施例提供的一种功率谱的波形示意图;
图5是本申请实施例提供的一种功率谱的波形示意图;
图6是本申请实施例提供的一种功率谱的波形示意图;
图7是本申请实施例提供的一种功率谱的波形示意图;
图8是本申请实施例提供的一种检测音频质量的方法流程图;
图9是本申请实施例提供的一种检测音频质量的装置结构示意图;
图10是本申请实施例提供的一种服务器的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
本申请实施例提供的一种检测音频质量的方法,该方法的执行主体可以为服务器。该服务器可以是某应用程序的后台服务器,该应用程序可以是具有音频录制功能的应用程序,如K歌应用程序、视频应用程序、录音应用程序等。该服务器可以是一个单独的服务器也可以是一个服务器组,如果是单独的服务器,该服务器可以负责下述方案中的所有处理,如果是服务器组,服务器组中的不同服务器分别可以负责下述方案中的不同处理,具体的处理分配情况可以由技术人员根据实际需求任意设置,此处不再赘述。
服务器可以包括处理器、存储器和通信部件等部件。处理器分别与存储器、通信部件连接。
处理器可以为CPU(Central Processing Unit,中央处理器)。
存储器可以包括ROM(Read-Only Memory,只读存储器)、RAM(Random AccessMemory,随机存取存储器)、CD-ROM(Compact Disc Read-Only Memory,光盘只读存储器)、磁盘、光数据存储设备等。存储器可以用于检测音频质量过程中需要预存的数据、产生的中间数据和产生的结果数据等。如干声音频、各种惩罚参数、音频质量信息等。
通信部件可以是有线网络连接器、WiFi(Wireless Fidelity,无线保真)模块、蓝牙模块、蜂巢网通信模块等。通信部件可以用于与其他设备进行数据传输,其他设备可以是其他服务器、也可以是终端等。例如,通信部件可以接收终端发送的干声音频。
图1是本申请实施例提供的一种检测音频质量的方法的流程图。参见图1,该实施例包括:
101,根据目标干声音频的每个待检测音频帧对应的功率谱,确定每个待检测音频帧对应的人声基频估计值。
其中,功率谱包括各频点的功率值。
102,对于每个待检测音频帧,对待检测音频帧的功率谱中每个频点的功率值进行乘权处理,得到乘权处理后的功率谱。
其中,待检测音频帧对应的人声基频估计值的正整数倍的频点的权值大于其他频点的权值。
103,根据每个待检测音频帧对应的功率谱和乘权处理后的功率谱,确定每个待检测音频帧的人声存在概率。
104,根据每个待检测音频帧对应的人声存在概率,在目标干声音频的待检测音频帧中,检测人声音频帧和非人声音频帧。
105,根据人声音频帧对应的功率谱和非人声音频帧对应的功率谱,确定目标干声音频的音频质量信息。
本申请实施例,通过干声音频中音频帧的功率谱识别音频帧的人声存在概率,进而识别人声音频帧和非人声音频帧,基于人声音频帧和非人声音频帧的功率谱确定干声音频的音频质量信息,因为高质量的干声音频在非人声的部分应该是接近静音的,所以基于人声音频帧和非人声音频帧的功率情况能更加准确的判定干声音频的音频质量。
图2是本申请实施例提供的一种检测音频质量的方法的流程图。参见图2,该实施例包括:
201,获取目标干声音频的待检测音频帧对应的功率谱。
其中,功率谱包括各频点的功率值。待检测音频帧的选取方法可以多种多样,例如,按照固定间隔选取,或者选取满足一定功率要求的音频帧,等等。
在实施中,在终端进行音频录制的过程中,常见的音频数据采样率为44.1kHz(android系统)或48kHz(ios系统)。一般对采集到的的音频数据做16kHz降采样处理,可以使后续处理降低算力。可以使用对人声音频最为友好的开源工具libresample做降采样处理。降采样后得到相应的干声音频。
服务器存储有大量的干声音频,对于任一干声音频(即目标干声音频),可以计算其每个音频帧的功率谱,计算过程可以如下:
(1)分帧
每个音频帧的音频数据可以表示为xn(i)=x(n·M+i)。
其中,n表示第n帧音频数据,M表示帧移,即后一个帧相对于前一个帧移动的样点数目,i表示第n帧内采样点数据的索引,i的取值范围为0,1,2,…,L-1,其中L表示帧长,即一个音频帧内样点的数目。此处M对应的时长可以为tfrmhop=0.01s(秒),tfrmhop可称作帧间隔时长,L对应的时长可以为0.03s。
(2)加窗:
加窗过程的计算公式可以为xwn(i)=xn(i)·w(i)。
其中,w(i)表示窗函数,可以使用汉宁(hanning)窗,表达式如下:
(3)离散傅里叶变换:
第n帧音频数据xwn(i)的傅里叶变换结果如下:
其中,N表示傅里叶变换的点数,可以设置L和N相等。
(4)计算功率谱:
P(n,k)=||X(n,k)||2,n=0,1,...,Nraw-1,其中Nraw表示当前信号经过STFT(Short Time Fourier Transform,短时傅里叶变换)后的总帧数。
其中,k标识频点索引,P(n,k)表示第n帧第k个频点的功率谱。
在确定每个音频帧的功率谱之后,可以基于每个音频帧的功率谱筛选待检测音频帧。待检测音频帧可以是目标干声音频中功率均值大于静音功率阈值的音频帧,其中,功率均值根据各频点的功率值的平均值确定。下面或者中详细介绍带检测音频帧的选取过程。
Pwr(n)中每个有效功率对应的音频帧则为待检测音频帧。
202,根据每个待检测音频帧对应的功率谱,确定每个待检测音频帧对应的人声存在概率。
根据目标干声音频的每个待检测音频帧对应的功率谱,确定每个待检测音频帧对应的人声基频估计值。对于每个待检测音频帧,对待检测音频帧的功率谱中每个频点的功率值进行乘权处理,得到乘权处理后的功率谱。其中,待检测音频帧对应的人声基频估计值的正整数倍的频点的权值大于其他频点的权值。根据每个待检测音频帧对应的功率谱和乘权处理后的功率谱,确定每个待检测音频帧的人声存在概率。
确定人声存在概率的处理可以按照如图3所示的步骤执行如下。
2021,根据每个待检测音频帧对应的功率谱和预设的人声频率特征信息,确定每个待检测音频帧对应的人声基频估计值。
首先,对每个待检测音频帧对应的功率谱进行预设窗长度的平滑处理。
后续步骤是要检测基频的波峰,平滑处理的目的是为了滤除基频、倍频的主波峰上分布的毛躁的小波峰。
然后,将每个待检测音频帧对应的平滑处理后的功率谱在人声基频频率范围内的最小的波峰频率,分别确定为每个待检测音频帧对应的人声基频估计值。
对每个待检测音频帧对应的平滑处理后的功率谱,查找波峰位置的计算如下:
其中,arg函数是查找函数。进一步,可以在所有kpeak中找到第一个范围在内的kpeak,如果在该范围内存在多个,则取其中最小的kpeak,记做kf0,其对应的频率值作为人声基频估计值,具体可以利用频率分辨率参数得到基音频率,即基频f0可表示为:
2022,根据每个待检测音频帧对应的人声基频估计值,构建每个待检测音频帧对应的权系数函数。
其中,权系数函数用于表示不同频点对应的权值,权系数函数的波形存在多个波峰,多个波峰分别与人声基频估计值的正整数倍相对应。
可选的,权系数函数可以为三角函数。
2023,根据每个待检测音频帧对应的功率谱和权系数函数,确定每个待检测音频帧的人声存在概率。
在实施中,对于每个待检测音频帧,将待检测音频帧对应的功率谱与权系数函数相乘,得到乘权处理后的功率谱,确定乘权处理后的功率谱的总功率与未乘权处理的功率谱的总功率的比值,根据预设的比值上限和比值下限,对比值进行归一化处理,得到归一化的比值,作为待检测音频帧对应的人声存在概率。
可以设置比值下限为pL=0.2、比值上限为pU=0.8,对上述人声存在参数进行归一化得到人声存在概率如下:
基于上述构造的权系数函数可知:如果音频帧是人声音频帧,Ps(n,k)和Wsin(k)可以如图4所示,可见,因为在人声音频帧中,波峰出现在基频和倍频(基频的整数倍)的位置,所以波峰是均匀分布的,上述的构建权系数函数的方式,Ps(n,k)的波峰也是出现在基频和倍频的位置,这样可以使Ps(n,k)和Wsin(k)的波峰与波峰位置相对应波谷与波谷位置相对应,相乘之后得到的P1(n,k)可以如图5所示,可见,Wsin(k)的作用是对Ps(n,k)的峰值进行放大、谷值进行缩小,虽然总功率会缩小,但是缩小的幅度较小;如果音频帧是非人声音频帧,Ps(n,k)和Wsin(k)可以如图6所示,可见,因为在非人声音频帧中,波峰不是均匀分布的,然而,上述的构建权系数函数的方式,Ps(n,k)的波峰是均匀分布的,可以使Ps(n,k)和Wsin(k)的很多波峰、波谷都是不对应的,相乘之后得到的P1(n,k)可以如图7所示,可见,Wsin(k)对Ps(n,k)的总功率缩小的幅度会比较大。所以,基于以上特点,上述归一化的比值,可以反映音频帧的人声存在概率。为了方便浏览上述4个函数图使用连续函数图像示意,并未采用离散函数图像。
203,根据每个待检测音频帧对应的人声存在概率,在目标干声音频的待检测音频帧中,检测人声音频帧和非人声音频帧。
基于人声存在概率检测人声音频帧和非人声音频帧的方法可以有很多种,例如,可以设置一个阈值,待检测音频帧的人声存在概率大于阈值则判定为人声音频帧,小于阈值则判定为非人声音频帧。
或者也可以按照如下的方式检测:根据每个待检测音频帧对应的人声存在概率和人声检测概率阈值,在目标干声音频的待检测音频帧中检测人声音频帧;根据每个待检测音频帧对应的人声存在概率和非人声检测概率阈值,在目标干声音频的待检测音频帧中检测非人声音频帧。
这种方法将人声音频帧的检测和非人声音频帧的检测分为两个过程进行,每个检测过程可以采用一个阈值,也可以采用两个阈值,下面给出了采用两个阈值的检测方法。
检测人声音频帧的过程:(其中,人声检测概率阈值包括第一阈值和第二阈值,第一阈值大于第二阈值)
按时间由先至后的顺序逐个获取待检测音频帧对应的人声存在概率。
当获取到的第一人声存在概率大于第一阈值,且不存在第一人声存在概率之前获取的小于第二阈值的或大于第一阈值的人声存在概率时,将第一人声存在概率对应的待检测音频帧确定为人声开始音频帧。
在获取到的第二人声存在概率小于第二阈值,且不存在第二人声存在概率之前获取的小于第二阈值的或大于第一阈值的人声存在概率之后,当连续获取的第一预设数目个人声存在概率均大于第一阈值时,将第二人声存在概率对应的待检测音频帧确定为人声开始音频帧,其中,第二人声存在概率是第一预设数目个人声存在概率中最先获取的人声存在概率。
每当确定人声开始音频帧之后,当连续获取的第二预设数目个人声存在概率均小于第二阈值时,将第三人声存在概率对应的待检测音频帧确定为人声结束音频帧,其中,第三人声存在概率是第二预设数目个人声存在概率中最先获取的人声存在概率前一个获取的人声存在概率。
每当确定人声结束音频帧之后,当连续获取的第一预设数目个人声存在概率均大于第一阈值时,将第四人声存在概率对应的待检测音频帧确定为人声开始音频帧,其中,第四人声存在概率是第二预设数目个人声存在概率中最先获取的人声存在概率。
根据确定出的人声开始音频帧和人声结束音频帧,确定所有待检测音频帧中的人声音频帧。
检测人声音频帧的过程:(其中,非人声检测概率阈值包括第三阈值和第四阈值,第三阈值小于第四阈值)
按时间由先至后的顺序逐个获取待检测音频帧对应的人声存在概率。
当获取到的第五人声存在概率小于第三阈值,且不存在第五人声存在概率之前获取的大于第四阈值的或小于第三阈值的人声存在概率时,将第五人声存在概率对应的待检测音频帧确定为非人声开始音频帧。
在获取到的第六人声存在概率大于第四阈值,且不存在第六人声存在概率之前获取的大于第四阈值的或小于第三阈值的人声存在概率之后,当连续获取的第三预设数目个人声存在概率均小于第三阈值时,将第六人声存在概率对应的待检测音频帧确定为非人声开始音频帧,其中,第六人声存在概率是第三预设数目个人声存在概率中最先获取的人声存在概率。
每当确定非人声开始音频帧之后,当连续获取的第四预设数目个人声存在概率均大于第四阈值时,将第七人声存在概率对应的待检测音频帧确定为非人声结束音频帧,其中,第七人声存在概率是第四预设数目个人声存在概率中最先获取的人声存在概率前一个获取的人声存在概率。
每当确定非人声结束音频帧之后,当连续获取的第三预设数目个人声存在概率均小于第三阈值时,将第八人声存在概率对应的待检测音频帧确定为非人声开始音频帧,其中,第八人声存在概率是第四预设数目个人声存在概率中最先获取的人声存在概率。
根据确定出的非人声开始音频帧和非人声结束音频帧,确定所有待检测音频帧中的非人声音频帧。
上述的第一阈值和第四阈值可以相等,可以设置为0.6,第二阈值和第三阈值可以相等,可以设置为0.5。
人声段内最短静音时长可以设置为对应的帧数为此即为第二预设数目。最短人声时长(小于该时长视为短时噪声)可以设置为对应帧数为此即为第一预设数目。静音内偶发的异常声音最长时长可以设置为对应的帧数此即为第四预设数目。最短静音时长(大于该时长视为进入静音区域)可以设置为对应的帧数为此即为第三预设数目。
在进行上述检测处理之前,也可以先对人声存在概率的序列进行平滑处理,以实现去噪,然后在进行检测。可以利用样条曲线Sb(m)进行平滑处理,得到平滑后的概率序列:
上述检测到的人声音频帧的集合可以记作Segvoc,检测到的非人声音频帧的集合可以记作Segsil。
204,根据人声音频帧对应的功率谱和非人声音频帧对应的功率谱,确定目标干声音频的信噪比估计值。
首先,确定每个人声音频帧对应的功率均值和每个非人生音频帧对应的功率均值,其中,功率均值根据各频点的功率值的平均值确定。
然后,确定所有人声音频帧对应的功率均值的第一中值,并确定所有非人声音频帧对应的功率均值的第二中值。
最后,根据第一中值与第二中值的比值,计算信噪比估计值。
因为在干声音频中非人声音频帧中的声音均可以认为是噪声,所以通过上述的人声音频帧和非人声音频帧的功率信息的比值,可以近似表征干声音频的信噪比。
205,根据人声音频帧对应的人声存在概率,确定目标干声音频的人声清晰度。
具体可以将所有人声音频帧对应的人声存在概率的中值,确定目标干声音频的人声清晰度。也就是说人声音频帧的人声存在概率越大,人声清晰度就越高。
206,将信噪比估计值与人声清晰度的乘积,确定为目标干声音频的人声质量信息。
其中,人声质量信息可以认为是音频质量信息中的主体分值。
207,根据非人声音频帧对应的功率谱,确定目标干声音频的噪声惩罚参数。
其中,噪声惩罚参数由噪声强度决定,噪声越大则噪声惩罚参数越大,可以是一个0~1范围内的数值。本方案可以参考各种各样的噪声,如常见的环境噪声。
背噪的计算过程可以如下:首先,确定每个非人生音频帧对应的功率均值。其中,功率均值根据各频点的功率值的平均值确定。然后,确定所有非人声音频帧对应的功率均值的中值。最后,根据功率均值的中值,确定目标干声音频的噪声惩罚参数,其中,噪声惩罚参数与功率均值的中值负相关。
当非人声能量过大(大于下限时视为不可忽略),计算噪声惩罚参数:
在计算噪声惩罚参数的时候,可以将所有非人声音频帧分成多段,对每段均按照上述方式计算噪声惩罚参数,然后在各段对应的噪声惩罚参数中,选取最大的噪声惩罚参数作为目标干声音频的噪声惩罚参数。
在分段时可以基于预设帧数分割,也可以将连续的非人声音频帧分为一段。
208,根据每个待检测音频帧对应的功率谱,确定目标干声音频的功率惩罚参数。
具体处理可以如下:
首先,确定第一功率惩罚子参数。
待检测音频帧可以是目标干声音频中功率均值大于静音功率阈值的音频帧。根据待检测音频帧的数量在目标干声音频的音频帧的总数量中的占比与预设的占比阈值,确定第一功率惩罚子参数,其中,在占比小于或等于占比阈值时,第一功率惩罚子参数与占比阈值减占比的差值负相关,在占比大于占比阈值时,第一功率惩罚子参数为固定数值。
可以定义最小有效音频长度为Tmin=1s,计算对应的帧数获取有效功率序列Pwr(n)的帧数Na,若Na<Nfrmmin则整个音频视为输入能量过低(有效高能量音频数据不足),可以直接判定音频质量信息为0。
若占比太少,低于占比阈值,如0.1,则确定第一功率惩罚子参数βa=ra+0.9,否则此处无惩罚,即第一功率惩罚子参数βa=1。
然后,确定第二功率惩罚子参数和第三功率惩罚子参数。
确定每个待检测音频帧对应的功率均值,其中,功率均值根据各频点的功率值的平均值确定。确定所有待检测音频帧对应的功率均值的平均值,得到目标干声音频的总功率均值。根据总功率均值和预设的功率上限、功率下限,确定第二功率惩罚子参数和第三功率惩罚子参数,其中,在总功率均值大于或等于功率上限时,第二功率惩罚子参数与总功率均值减功率上限的差值负相关,在总功率均值小于或等于功率下限时,第三功率惩罚子参数与功率上限减总功率均值的差值负相关,在总功率均值小于功率上限且大于功率下限时,第二功率惩罚子参数和第三功率惩罚子参数均为固定数值。
计算过程可以如下:
(1)功率过大判断
(2)功率过小判断
最后,将第一功率惩罚子参数、第二功率惩罚子参数和第三功率惩罚子参数的乘积,确定为目标干声音频的功率惩罚参数βW=βa·βU·βL。
在计算功率惩罚参数时,可以只选用第一功率惩罚子参数、第二功率惩罚子参数、第三功率惩罚子参数中的一个子参数或者选用其中两个子参数的乘积。功率惩罚参数为一个0~1范围内的数值,第一功率惩罚子参数、第二功率惩罚子参数、第三功率惩罚子参数也均为0~1范围内的数值。
可选的,在确定功率惩罚参数的时候,也可以只使用上述三种功率惩罚子参数中的一种或两种,还可以使用上述三种功率惩罚子参数之外的其他功率惩罚子参数。
209,根据人声质量信息、噪声惩罚参数和功率惩罚参数,确定目标干声音频的音频质量信息。
在确定噪声惩罚参数和功率惩罚参数之后,可以将噪声惩罚参数和功率惩罚参数相乘,得到最终的惩罚参数为:β=βW·βbkn。
目标干声音频的音频质量信息可以表示为:pclean=β·rsnr·rc。
可选的,方案也可以不考虑噪声惩罚参数和功率惩罚参数,直接将人声质量信息作为干声音频的音频质量信息。
图8是上述音频质量信息的检测过程的示意图。
另外,本申请实施例在上述人声音频帧和非人声音频帧的检测过程中,还存在两种可能的情况,相应的音频质量信息的计算过程可以如下:
情况一,未检测出人声音频帧
根据每个待检测音频帧对应的功率谱,确定目标干声音频的功率惩罚参数。确定所有待检测音频帧对应的人声存在概率的平均值。根据人声存在概率的平均值和功率惩罚参数,确定目标干声音频的音频质量信息。由于人声音频分布相对比较稳定(具有短时平稳特性),所以可以采用处理效率更高的均值。当然也可以采用中值。
这种情况可以认为整体音质较差,用户可能并未歌唱,得到的音频数据均为伴奏或其他噪声等。此种情况仍可以按照上述方式计算功率惩罚参数,另外,基于非人声音频帧(待检测音频帧均为非人生音频帧)的人声存在概率计算主体分值,将功率惩罚参数与主体分值相乘,得到音频质量信息。音频质量信息计算公式可以如下:
情况二,未检测出非人声音频帧
根据每个待检测音频帧对应的功率谱,确定目标干声音频的功率惩罚参数。确定所有待检测音频帧对应的人声存在概率的中值。根据人声存在概率的中值和功率惩罚参数,确定目标干声音频的音频质量信息。非人声音频帧可能存在一些变化异常的概率参数,为了防止个别极端概率值对最终结果的影响过大,此处使用中值。
这种情况可以认为待检测音频帧均为人声音频帧,不过实际歌唱过程中往往存在非人声成分,所以实际上可能是因为存在误检。此种情况仍可以按照上述方式计算功率惩罚参数,另外,基于非人声音频帧(待检测音频帧均为非人生音频帧)的人声存在概率计算主体分值,将功率惩罚参数与主体分值相乘,得到音频质量信息。音频质量信息计算公式可以如下:
pclean=βW·0.9·(Q1/2(probs(n)))。
基于上述流程对数据库中存储的用户上传的干声音频计算音频质量信息,然后基于音频质量信息分别决定每个干声音频是否需要删除。具体的删除判定机制可以根据需求任意设置,例如,对音频质量信息低于预设阈值的干声音频进行删除,又例如,对于超过第一预设时长没有登录的账户,获取其超过第二预设时长未被访问的干声音频,如果该干声音频的音频质量信息低于预设阈值,则将其删除,再例如,基于音频质量信息、访问量、账户活跃度等多个维度的信息对干声音频进行加权评分,将评分低于预设分数阈值的干声音频删除。
另外,音频质量信息可以存储下来,在对干声音频进行推荐时,可以将音频质量信息作为一个参考属性。具体可以干声音频将音频质量信息和其他属性信息,输入第一特征提取模型,得到干声音频的特征信息,并将目标用户账户的账户属性输入第二特征提取模型,得到用户账户的特征信息,然后将干声音频的特征信息和用户账户的特征信息,输入打分模型,得到干声音频与用户账户的匹配度分值,进而基于各干声音频的匹配度分值,确定向用户账户推荐的干声音频。
本申请实施例,通过干声音频中音频帧的功率谱识别音频帧的人声存在概率,进而识别人声音频帧和非人声音频帧,基于人声音频帧和非人声音频帧的功率谱确定干声音频的音频质量信息,因为高质量的干声音频在非人声的部分应该是接近静音的,所以基于人声音频帧和非人声音频帧的功率情况能更加准确的判定干声音频的音频质量。
上述所有可选技术方案,可以采用任意结合形成本公开的可选实施例,在此不再一一赘述。
本申请实施例还提供了一种检测音频质量的装置,该装置可以应用于上述实施例中的服务器,如图9所示,该装置包括:
确定模块910,用于根据目标干声音频的每个待检测音频帧对应的功率谱,确定每个待检测音频帧对应的人声基频估计值,其中,所述功率谱包括各频点的功率值;
乘权模块920,用于对于每个待检测音频帧,对所述待检测音频帧的功率谱中每个频点的功率值进行乘权处理,得到乘权处理后的功率谱,其中,所述待检测音频帧对应的人声基频估计值的正整数倍的频点的权值大于其他频点的权值;
概率模块930,用于根据每个待检测音频帧对应的功率谱和乘权处理后的功率谱,确定每个待检测音频帧的人声存在概率;
检测模块940,用于根据每个待检测音频帧对应的人声存在概率,在所述目标干声音频的待检测音频帧中,检测人声音频帧和非人声音频帧;
质量模块950,用于根据所述人声音频帧对应的功率谱和所述非人声音频帧对应的功率谱,确定所述目标干声音频的音频质量信息。
在一种可能的实现方式中,所述确定模块910,用于:
根据每个待检测音频帧对应的功率谱和预设的人声频率特征信息,确定每个待检测音频帧对应的人声基频估计值。
在一种可能的实现方式中,所述人声频率特征信息为人声基频频率范围,所述确定模块910,用于:
对每个待检测音频帧对应的功率谱进行预设窗长度的平滑处理;
将每个待检测音频帧对应的平滑处理后的功率谱在所述人声基频频率范围内的最小的波峰频率,分别确定为每个待检测音频帧对应的人声基频估计值。
在一种可能的实现方式中,所述乘权模块920,用于:
根据每个待检测音频帧对应的人声基频估计值,构建每个待检测音频帧对应的权系数函数,其中,所述权系数函数用于表示不同频点对应的权值,所述权系数函数的波形存在多个波峰,所述多个波峰分别与所述人声基频估计值的正整数倍相对应;
对于每个待检测音频帧,将所述待检测音频帧对应的功率谱与权系数函数相乘,得到乘权处理后的功率谱。
在一种可能的实现方式中,所述权系数函数为三角函数。
在一种可能的实现方式中,所述概率模块930,用于:
对于每个待检测音频帧,确定乘权处理后的功率谱的总功率与未乘权处理的所述功率谱的总功率的比值,根据预设的比值上限和比值下限,对所述比值进行归一化处理,得到归一化的比值,作为所述待检测音频帧对应的人声存在概率。
在一种可能的实现方式中,所述检测模块940,用于:
根据每个待检测音频帧对应的人声存在概率和人声检测概率阈值,在所述目标干声音频的待检测音频帧中检测人声音频帧;
根据每个待检测音频帧对应的人声存在概率和非人声检测概率阈值,在所述目标干声音频的待检测音频帧中检测非人声音频帧。
在一种可能的实现方式中,所述质量模块950,还用于:根据所述非人声音频帧对应的功率谱,确定所述目标干声音频的噪声惩罚参数;根据每个待检测音频帧对应的功率谱,确定所述目标干声音频的功率惩罚参数;
所述质量模块950,用于:
根据所述人声音频帧对应的功率谱和所述非人声音频帧对应的功率谱,确定所述目标干声音频的人声质量信息;
根据所述人声质量信息、所述噪声惩罚参数和所述功率惩罚参数,确定所述目标干声音频的音频质量信息。
在一种可能的实现方式中,所述质量模块950,用于:
根据所述人声音频帧对应的功率谱和所述非人声音频帧对应的功率谱,确定所述目标干声音频的信噪比估计值;
根据所述人声音频帧对应的人声存在概率,确定所述目标干声音频的人声清晰度;
将所述信噪比估计值与所述人声清晰度的乘积,确定为所述目标干声音频的人声质量信息。
在一种可能的实现方式中,所述质量模块950,用于:
确定每个人声音频帧对应的功率均值和每个非人生音频帧对应的功率均值,其中,所述功率均值根据各频点的功率值的平均值确定;
确定所有人声音频帧对应的功率均值的第一中值,并确定所有非人声音频帧对应的功率均值的第二中值;
根据所述第一中值与所述第二中值的比值,计算信噪比估计值。
在一种可能的实现方式中,所述质量模块950,用于:
将所有人声音频帧对应的人声存在概率的中值,确定所述目标干声音频的人声清晰度。
在一种可能的实现方式中,所述质量模块950,还用于:
如果未检测出人声音频帧,则根据每个待检测音频帧对应的功率谱,确定所述目标干声音频的功率惩罚参数;确定所有待检测音频帧对应的人声存在概率的平均值;
根据所述人声存在概率的平均值和所述功率惩罚参数,确定所述目标干声音频的音频质量信息。
在一种可能的实现方式中,所述质量模块950,还用于:
如果未检测出非人声音频帧,则根据每个待检测音频帧对应的功率谱,确定所述目标干声音频的功率惩罚参数;确定所有待检测音频帧对应的人声存在概率的中值;
根据所述人声存在概率的中值和所述功率惩罚参数,确定所述目标干声音频的音频质量信息。
在一种可能的实现方式中,所述质量模块950,用于:
确定每个非人生音频帧对应的功率均值,其中,所述功率均值根据各频点的功率值的平均值确定;
确定所有非人声音频帧对应的功率均值的中值;
根据所述功率均值的中值,确定所述目标干声音频的噪声惩罚参数,其中,所述噪声惩罚参数与所述功率均值的中值负相关。
在一种可能的实现方式中,所述待检测音频帧是所述目标干声音频中功率均值大于静音功率阈值的音频帧,其中,所述功率均值根据各频点的功率值的平均值确定;
所述质量模块950,用于:
确定每个待检测音频帧对应的功率均值,其中,所述功率均值根据各频点的功率值的平均值确定;
确定所有待检测音频帧对应的功率均值的平均值,得到所述目标干声音频的总功率均值;
根据所述总功率均值和所述待检测音频帧的数量在所述目标干声音频的音频帧的总数量中的占比,确定所述目标干声音频的功率惩罚参数。
在一种可能的实现方式中,所述质量模块950,用于:
根据所述待检测音频帧的数量在所述目标干声音频的音频帧的总数量中的占比与预设的占比阈值,确定第一功率惩罚子参数,其中,在所述占比小于或等于所述占比阈值时,所述第一功率惩罚子参数与所述占比阈值减所述占比的差值负相关,在所述占比大于所述占比阈值时,所述第一功率惩罚子参数为固定数值;
根据所述总功率均值和预设的功率上限、功率下限,确定第二功率惩罚子参数和第三功率惩罚子参数,其中,在所述总功率均值大于或等于所述功率上限时,所述第二功率惩罚子参数与所述总功率均值减所述功率上限的差值负相关,在所述总功率均值小于或等于所述功率下限时,所述第三功率惩罚子参数与所述功率上限减所述总功率均值的差值负相关,在所述总功率均值小于所述功率上限且大于所述功率下限时,所述第二功率惩罚子参数和所述第三功率惩罚子参数均为固定数值;
将所述第一功率惩罚子参数、所述第二功率惩罚子参数和所述第三功率惩罚子参数的乘积,确定为所述目标干声音频的功率惩罚参数。
本申请实施例,通过干声音频中音频帧的功率谱识别音频帧的人声存在概率,进而识别人声音频帧和非人声音频帧,基于人声音频帧和非人声音频帧的功率谱确定干声音频的音频质量信息,因为高质量的干声音频在非人声的部分应该是接近静音的,所以基于人声音频帧和非人声音频帧的功率情况能更加准确的判定干声音频的音频质量。
需要说明的是:上述实施例提供的检测音频质量的装置在检测音频质量时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的检测音频质量的装置与检测音频质量的方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图10是本申请实施例提供的一种服务器的结构示意图,该服务器1000可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器1001和一个或一个以上的存储器1002,其中,所述存储器1002中存储有至少一条指令,所述至少一条指令由所述处理器1001加载并执行以实现上述各个方法实施例提供的方法。当然,该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该服务器还可以包括其他用于实现设备功能的部件,在此不做赘述。
在示例性实施例中,还提供了一种计算机可读存储介质,例如包括指令的存储器,上述指令可由终端中的处理器执行以完成上述实施例中检测音频质量的方法。该计算机可读存储介质可以是非暂态的。例如,所述计算机可读存储介质可以是ROM(Read-OnlyMemory,只读存储器)、RAM(Random Access Memory,随机存取存储器)、CD-ROM、磁带、软盘和光数据存储设备等。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本申请的较佳实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (18)
1.一种检测音频质量的方法,其特征在于,所述方法包括:
根据目标干声音频的每个待检测音频帧对应的功率谱,确定每个待检测音频帧对应的人声基频估计值,其中,所述功率谱包括各频点的功率值;
对于每个待检测音频帧,对所述待检测音频帧的功率谱中每个频点的功率值进行乘权处理,得到乘权处理后的功率谱,其中,所述待检测音频帧对应的人声基频估计值的正整数倍的频点的权值大于其他频点的权值;
根据每个待检测音频帧对应的功率谱和乘权处理后的功率谱,确定每个待检测音频帧的人声存在概率;
根据每个待检测音频帧对应的人声存在概率,在所述目标干声音频的待检测音频帧中,检测人声音频帧和非人声音频帧;
根据所述人声音频帧对应的功率谱和所述非人声音频帧对应的功率谱,确定所述目标干声音频的音频质量信息。
2.根据权利要求1所述的方法,其特征在于,所述根据目标干声音频的每个待检测音频帧对应的功率谱,确定每个待检测音频帧对应的人声基频估计值,包括:
根据每个待检测音频帧对应的功率谱和预设的人声频率特征信息,确定每个待检测音频帧对应的人声基频估计值。
3.根据权利要求2所述的方法,其特征在于,所述人声频率特征信息为人声基频频率范围,所述根据每个待检测音频帧对应的功率谱和预设的人声频率特征信息,确定每个待检测音频帧对应的人声基频估计值,包括:
对每个待检测音频帧对应的功率谱进行预设窗长度的平滑处理;
将每个待检测音频帧对应的平滑处理后的功率谱在所述人声基频频率范围内的最小的波峰频率,分别确定为每个待检测音频帧对应的人声基频估计值。
4.根据权利要求1所述的方法,其特征在于,所述对于每个待检测音频帧,对所述待检测音频帧的功率谱中每个频点的功率值进行乘权处理,得到乘权处理后的功率谱,包括:
根据每个待检测音频帧对应的人声基频估计值,构建每个待检测音频帧对应的权系数函数,其中,所述权系数函数用于表示不同频点对应的权值,所述权系数函数的波形存在多个波峰,所述多个波峰分别与所述人声基频估计值的正整数倍相对应;
对于每个待检测音频帧,将所述待检测音频帧对应的功率谱与权系数函数相乘,得到乘权处理后的功率谱。
5.根据权利要求4所述的方法,其特征在于,所述权系数函数为三角函数。
6.根据权利要求1所述的方法,其特征在于,所述根据每个待检测音频帧对应的功率谱和乘权处理后的功率谱,确定每个待检测音频帧的人声存在概率,包括:
对于每个待检测音频帧,确定乘权处理后的功率谱的总功率与未乘权处理的所述功率谱的总功率的比值,根据预设的比值上限和比值下限,对所述比值进行归一化处理,得到归一化的比值,作为所述待检测音频帧对应的人声存在概率。
7.根据权利要求1所述的方法,其特征在于,所述根据每个待检测音频帧对应的人声存在概率,在所述目标干声音频的待检测音频帧中,检测人声音频帧和非人声音频帧,包括:
根据每个待检测音频帧对应的人声存在概率和人声检测概率阈值,在所述目标干声音频的待检测音频帧中检测人声音频帧;
根据每个待检测音频帧对应的人声存在概率和非人声检测概率阈值,在所述目标干声音频的待检测音频帧中检测非人声音频帧。
8.根据权利要求1所述的方法,其特征在于,所述方法还包括:根据所述非人声音频帧对应的功率谱,确定所述目标干声音频的噪声惩罚参数;根据每个待检测音频帧对应的功率谱,确定所述目标干声音频的功率惩罚参数;
所述根据所述人声音频帧对应的功率谱和所述非人声音频帧对应的功率谱,确定所述目标干声音频的音频质量信息,包括:
根据所述人声音频帧对应的功率谱和所述非人声音频帧对应的功率谱,确定所述目标干声音频的人声质量信息;
根据所述人声质量信息、所述噪声惩罚参数和所述功率惩罚参数,确定所述目标干声音频的音频质量信息。
9.根据权利要求8所述的方法,其特征在于,所述根据所述人声音频帧对应的功率谱和所述非人声音频帧对应的功率谱,确定所述目标干声音频的人声质量信息,包括:
根据所述人声音频帧对应的功率谱和所述非人声音频帧对应的功率谱,确定所述目标干声音频的信噪比估计值;
根据所述人声音频帧对应的人声存在概率,确定所述目标干声音频的人声清晰度;
将所述信噪比估计值与所述人声清晰度的乘积,确定为所述目标干声音频的人声质量信息。
10.根据权利要求9所述的方法,其特征在于,所述根据所述人声音频帧对应的功率谱和所述非人声音频帧对应的功率谱,确定所述目标干声音频的信噪比估计值,包括:
确定每个人声音频帧对应的功率均值和每个非人生音频帧对应的功率均值,其中,所述功率均值根据各频点的功率值的平均值确定;
确定所有人声音频帧对应的功率均值的第一中值,并确定所有非人声音频帧对应的功率均值的第二中值;
根据所述第一中值与所述第二中值的比值,计算信噪比估计值。
11.根据权利要求9所述的方法,其特征在于,所述根据所述人声音频帧对应的人声存在概率,确定所述目标干声音频的人声清晰度,包括:
将所有人声音频帧对应的人声存在概率的中值,确定所述目标干声音频的人声清晰度。
12.根据权利要求1所述的方法,其特征在于,所述方法还包括:
如果未检测出人声音频帧,则根据每个待检测音频帧对应的功率谱,确定所述目标干声音频的功率惩罚参数;确定所有待检测音频帧对应的人声存在概率的平均值;
根据所述人声存在概率的平均值和所述功率惩罚参数,确定所述目标干声音频的音频质量信息。
13.根据权利要求1所述的方法,其特征在于,所述方法还包括:
如果未检测出非人声音频帧,则根据每个待检测音频帧对应的功率谱,确定所述目标干声音频的功率惩罚参数;确定所有待检测音频帧对应的人声存在概率的中值;
根据所述人声存在概率的中值和所述功率惩罚参数,确定所述目标干声音频的音频质量信息。
14.根据权利要求8-13任一项所述的方法,其特征在于,所述根据所述非人声音频帧对应的功率谱,确定所述目标干声音频的噪声惩罚参数,包括:
确定每个非人生音频帧对应的功率均值,其中,所述功率均值根据各频点的功率值的平均值确定;
确定所有非人声音频帧对应的功率均值的中值;
根据所述功率均值的中值,确定所述目标干声音频的噪声惩罚参数,其中,所述噪声惩罚参数与所述功率均值的中值负相关。
15.根据权利要求8-13任一项所述的方法,其特征在于,所述待检测音频帧是所述目标干声音频中功率均值大于静音功率阈值的音频帧,其中,所述功率均值根据各频点的功率值的平均值确定;
所述根据每个待检测音频帧对应的功率谱,确定所述目标干声音频的功率惩罚参数,包括:
确定每个待检测音频帧对应的功率均值,其中,所述功率均值根据各频点的功率值的平均值确定;
确定所有待检测音频帧对应的功率均值的平均值,得到所述目标干声音频的总功率均值;
根据所述总功率均值和所述待检测音频帧的数量在所述目标干声音频的音频帧的总数量中的占比,确定所述目标干声音频的功率惩罚参数。
16.根据权利要求15所述的方法,其特征在于,所述根据所述待检测音频帧的数量在所述目标干声音频的音频帧的总数量中的占比和所述总功率均值,确定所述目标干声音频的功率惩罚参数,包括:
根据所述待检测音频帧的数量在所述目标干声音频的音频帧的总数量中的占比与预设的占比阈值,确定第一功率惩罚子参数,其中,在所述占比小于或等于所述占比阈值时,所述第一功率惩罚子参数与所述占比阈值减所述占比的差值负相关,在所述占比大于所述占比阈值时,所述第一功率惩罚子参数为固定数值;
根据所述总功率均值和预设的功率上限、功率下限,确定第二功率惩罚子参数和第三功率惩罚子参数,其中,在所述总功率均值大于或等于所述功率上限时,所述第二功率惩罚子参数与所述总功率均值减所述功率上限的差值负相关,在所述总功率均值小于或等于所述功率下限时,所述第三功率惩罚子参数与所述功率上限减所述总功率均值的差值负相关,在所述总功率均值小于所述功率上限且大于所述功率下限时,所述第二功率惩罚子参数和所述第三功率惩罚子参数均为固定数值;
将所述第一功率惩罚子参数、所述第二功率惩罚子参数和所述第三功率惩罚子参数的乘积,确定为所述目标干声音频的功率惩罚参数。
17.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由所述处理器加载并执行以实现如权利要求1至权利要求16任一项所述的检测音频质量的方法所执行的操作。
18.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现如权利要求1至权利要求16任一项所述的检测音频质量的方法所执行的操作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110831738.2A CN113593604B (zh) | 2021-07-22 | 2021-07-22 | 检测音频质量方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110831738.2A CN113593604B (zh) | 2021-07-22 | 2021-07-22 | 检测音频质量方法、装置及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113593604A true CN113593604A (zh) | 2021-11-02 |
CN113593604B CN113593604B (zh) | 2024-07-19 |
Family
ID=78249051
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110831738.2A Active CN113593604B (zh) | 2021-07-22 | 2021-07-22 | 检测音频质量方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113593604B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115295024A (zh) * | 2022-04-11 | 2022-11-04 | 维沃移动通信有限公司 | 信号处理方法、装置、电子设备及介质 |
CN117476040A (zh) * | 2023-12-25 | 2024-01-30 | 深圳市鑫闻达电子有限公司 | 一种音频识别方法及识别系统 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08221092A (ja) * | 1995-02-17 | 1996-08-30 | Hitachi Ltd | スペクトルサブトラクションを用いた雑音除去システム |
CN104269180A (zh) * | 2014-09-29 | 2015-01-07 | 华南理工大学 | 一种用于语音质量客观评价的准干净语音构造方法 |
EP2830064A1 (en) * | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for decoding and encoding an audio signal using adaptive spectral tile selection |
CN106653048A (zh) * | 2016-12-28 | 2017-05-10 | 上海语知义信息技术有限公司 | 基于人声模型的单通道声音分离方法 |
WO2017147951A1 (zh) * | 2016-03-01 | 2017-09-08 | 邦彦技术股份有限公司 | 网络电话语音质量客观评估处理的方法和装置 |
US20190313187A1 (en) * | 2018-04-05 | 2019-10-10 | Holger Stoltze | Controlling the direction of a microphone array beam in a video conferencing system |
CN110619885A (zh) * | 2019-08-15 | 2019-12-27 | 西北工业大学 | 基于深度完全卷积神经网络的生成对抗网络语音增强方法 |
CN110867194A (zh) * | 2019-11-05 | 2020-03-06 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频的评分方法、装置、设备及存储介质 |
CN112233689A (zh) * | 2020-09-24 | 2021-01-15 | 北京声智科技有限公司 | 音频降噪方法、装置、设备及介质 |
CN112967738A (zh) * | 2021-02-01 | 2021-06-15 | 腾讯音乐娱乐科技(深圳)有限公司 | 人声检测方法、装置及电子设备和计算机可读存储介质 |
-
2021
- 2021-07-22 CN CN202110831738.2A patent/CN113593604B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08221092A (ja) * | 1995-02-17 | 1996-08-30 | Hitachi Ltd | スペクトルサブトラクションを用いた雑音除去システム |
EP2830064A1 (en) * | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for decoding and encoding an audio signal using adaptive spectral tile selection |
CN104269180A (zh) * | 2014-09-29 | 2015-01-07 | 华南理工大学 | 一种用于语音质量客观评价的准干净语音构造方法 |
WO2017147951A1 (zh) * | 2016-03-01 | 2017-09-08 | 邦彦技术股份有限公司 | 网络电话语音质量客观评估处理的方法和装置 |
CN106653048A (zh) * | 2016-12-28 | 2017-05-10 | 上海语知义信息技术有限公司 | 基于人声模型的单通道声音分离方法 |
US20190313187A1 (en) * | 2018-04-05 | 2019-10-10 | Holger Stoltze | Controlling the direction of a microphone array beam in a video conferencing system |
CN110619885A (zh) * | 2019-08-15 | 2019-12-27 | 西北工业大学 | 基于深度完全卷积神经网络的生成对抗网络语音增强方法 |
CN110867194A (zh) * | 2019-11-05 | 2020-03-06 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频的评分方法、装置、设备及存储介质 |
CN112233689A (zh) * | 2020-09-24 | 2021-01-15 | 北京声智科技有限公司 | 音频降噪方法、装置、设备及介质 |
CN112967738A (zh) * | 2021-02-01 | 2021-06-15 | 腾讯音乐娱乐科技(深圳)有限公司 | 人声检测方法、装置及电子设备和计算机可读存储介质 |
Non-Patent Citations (1)
Title |
---|
王文益;伊雪;: "基于改进语音存在概率的自适应噪声跟踪算法", 信号处理, no. 01, 25 January 2020 (2020-01-25) * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115295024A (zh) * | 2022-04-11 | 2022-11-04 | 维沃移动通信有限公司 | 信号处理方法、装置、电子设备及介质 |
CN117476040A (zh) * | 2023-12-25 | 2024-01-30 | 深圳市鑫闻达电子有限公司 | 一种音频识别方法及识别系统 |
CN117476040B (zh) * | 2023-12-25 | 2024-03-29 | 深圳市鑫闻达电子有限公司 | 一种音频识别方法及识别系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113593604B (zh) | 2024-07-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101266894B1 (ko) | 특성 추출을 사용하여 음성 향상을 위한 오디오 신호를 프로세싱하기 위한 장치 및 방법 | |
US10504539B2 (en) | Voice activity detection systems and methods | |
CN106486131B (zh) | 一种语音去噪的方法及装置 | |
CN111128213B (zh) | 一种分频段进行处理的噪声抑制方法及其系统 | |
EP3689002B1 (en) | Howl detection in conference systems | |
WO2022012195A1 (zh) | 音频信号处理方法和相关装置 | |
EP2828856B1 (en) | Audio classification using harmonicity estimation | |
US20060253285A1 (en) | Method and apparatus using spectral addition for speaker recognition | |
CN110880329A (zh) | 一种音频识别方法及设备、存储介质 | |
CN108847253B (zh) | 车辆型号识别方法、装置、计算机设备及存储介质 | |
CN112151055B (zh) | 音频处理方法及装置 | |
CN113593604A (zh) | 检测音频质量方法、装置及存储介质 | |
CN112712816A (zh) | 语音处理模型的训练方法和装置以及语音处理方法和装置 | |
CN113393852B (zh) | 语音增强模型的构建方法及系统、语音增强方法及系统 | |
CN104036785A (zh) | 语音信号的处理方法和装置、以及语音信号的分析系统 | |
CN111755025B (zh) | 一种基于音频特征的状态检测方法、装置及设备 | |
JP6724290B2 (ja) | 音響処理装置、音響処理方法、及び、プログラム | |
CN112233693B (zh) | 一种音质评估方法、装置和设备 | |
CN115206345B (zh) | 基于时频结合的音乐人声分离方法、装置、设备及介质 | |
CN114512141B (zh) | 音频分离的方法、装置、设备、存储介质和程序产品 | |
CN118248152A (zh) | 一种基于语音的身份识别方法及相关设备 | |
CN119694328A (zh) | 一种基于声音特征的录音除噪方法、系统、设备及介质 | |
EP2760022B1 (en) | Audio bandwidth dependent noise suppression | |
Andersen | Wind noise reduction in single channel speech signals |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |