CN114283823A

CN114283823A - 机器人声音实时转换方法、装置、计算机设备及存储介质

Info

Publication number: CN114283823A
Application number: CN202111654146.4A
Authority: CN
Inventors: 彭宁
Original assignee: Shenzhen Wondershare Software Co Ltd
Current assignee: Shenzhen Wondershare Software Co Ltd
Priority date: 2021-12-30
Filing date: 2021-12-30
Publication date: 2022-04-05
Anticipated expiration: 2041-12-30
Also published as: CN114283823B

Abstract

本发明公开了机器人声音实时转换方法、装置、计算机设备及存储介质，该方法包括：对实时音频进行采集，并将实时音频转换为帧级单位的实时音频；通过声码器对实时音频提取基频特征；对基频特征提取频谱包络特征，以及对基频特征提取非周期性特征；对基频特征进行特征调整，并将特征调整后的值设置目标基频值；将频谱包络特征、非周期性特征和目标基频值结合为转换目标，利用解码器将转换目标解码为声音。本发明通过对实时音频进行基频特征提取，并进一步提取频谱包络特征和非周期性特征，然后将频谱包络特征和非周期特征以及特征转换后的目标基频值结合并解码，以实现声音的高自然度转换，从而为用户提供不同类型的机器人声音选择。

Description

机器人声音实时转换方法、装置、计算机设备及存储介质

技术领域

本发明涉及计算机软件技术领域，特别涉及机器人声音实时转换方法、装置、计算机设备及存储介质。

背景技术

用户在创造视频时出于某些原因可能不太愿意发出自己真正的声音，因此希望使用其他声音来替换自己的声音，而机器人声音可以消除绝大部分自身声音信息，同时可以丰富用户的视频创造的多样性，故机器人声音在视频创造过程中被大量采用。

目前机器人声音转换存在于部分音视频编辑软件中，如audio director、iMyFoneFilme等音视频编辑软件，但是不同编辑软件对机器人声音的定义不同，因而机器人声音产生的效果也不相同。现有技术中，实现机器人声音转换的方式通常与短时傅里叶变换做法类似，即首先通过分帧提取每一帧音频，对该帧音频进行加窗操作，然后对该帧使用快速傅里叶变换并且取绝对值，将零频点移到频谱的中间，接着使用快速傅里叶逆变化，并加窗，最后帧移一段距离重复上述操作，将当下结果与上述结果按照一定比例进行叠加。但是上述方法在实施后会产生嘶嘶的电流声又或者是不具备机器特点，且不具备实时性。

发明内容

本发明实施例提供了一种机器人声音实时转换方法、装置、计算机设备及存储介质，旨在实现声音的高自然度转换，以为用户提供不同类型的机器人声音选择。

第一方面，本发明实施例提供了一种机器人声音实时转换方法，包括：

对实时音频进行采集，并将所述实时音频转换为帧级单位的实时音频；

通过声码器对所述实时音频提取基频特征；

对所述基频特征提取频谱包络特征，以及对所述基频特征提取非周期性特征；

对所述基频特征进行特征调整，并将特征调整后的值设置目标基频值；

将所述频谱包络特征、非周期性特征和目标基频值结合为转换目标，利用解码器将所述转换目标解码为声音。

第二方面，本发明实施例提供了一种机器人声音实时转换装置，包括：

音频采集单元，用于对实时音频进行采集，并将所述实时音频转换为帧级单位的实时音频；

第一特征提取单元，用于通过声码器对所述实时音频提取基频特征；

第二特征提取单元，用于对所述基频特征提取频谱包络特征，以及对所述基频特征提取非周期性特征；

特征调整单元，用于对所述基频特征进行特征调整，并将特征调整后的值设置目标基频值；

结合解码单元，用于将所述频谱包络特征、非周期性特征和目标基频值结合为转换目标，利用解码器将所述转换目标解码为声音。

第三方面，本发明实施例提供了一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如第一方面所述的机器人声音实时转换方法。

第四方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面所述的机器人声音实时转换方法。

本发明实施例提供了一种机器人声音实时转换方法、装置、计算机设备及存储介质，该方法包括：对实时音频进行采集，并将所述实时音频转换为帧级单位的实时音频；通过声码器对所述实时音频提取基频特征；对所述基频特征提取频谱包络特征，以及对所述基频特征提取非周期性特征；对所述基频特征进行特征调整，并将特征调整后的值设置目标基频值；将所述频谱包络特征、非周期性特征和目标基频值结合为转换目标，利用解码器将所述转换目标解码为声音。本发明实施例通过对实时音频进行基频特征提取，并进一步提取频谱包络特征和非周期性特征，然后将频谱包络特征和非周期特征以及特征转换后的目标基频值结合并解码，以实现声音的高自然度转换，从而为用户提供不同类型的机器人声音选择。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种机器人声音实时转换方法的流程示意图；

图2为本发明实施例提供的一种机器人声音实时转换方法的子流程示意图；

图3为本发明实施例提供的一种机器人声音实时转换装置的示意性框图；

图4为本发明实施例提供的一种机器人声音实时转换装置的子示意性框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

下面请参见图1，图1为本发明实施例提供的一种机器人声音实时转换方法的流程示意图，具体包括：步骤S101～S105。

S101、对实时音频进行采集，并将所述实时音频转换为帧级单位的实时音频；

S102、通过声码器对所述实时音频提取基频特征；

S103、对所述基频特征提取频谱包络特征，以及对所述基频特征提取非周期性特征；

S104、对所述基频特征进行特征调整，并将特征调整后的值设置目标基频值；

S105、将所述频谱包络特征、非周期性特征和目标基频值结合为转换目标，利用解码器将所述转换目标解码为声音。

本实施例中，对于采集到的实时音频，首先将其转换为帧级单位的实时音频，然后通过声码器提取其中的基频特征，并进一步的对基频特征提取频谱包络特征和非周期性特征。同时，对基频特征进行特征调整，并将特征调整后的基频特征(即所述目标基频值)与所述频谱包络特征和非周期性特征进行结合，再通过解码器对结合后的转换目标进行解码，从而能够得到对于实时音频进行实时转换后的机器人声音。

本实施例通过对实时音频进行基频特征提取，并进一步提取频谱包络特征和非周期性特征，然后将频谱包络特征和非周期特征以及特征转换后的目标基频值结合并解码，以实现声音的高自然度转换，从而为用户提供不同类型的机器人声音选择。

在一实施例中，所述步骤S102包括：

利用不同的截止频率的低通率波获取所述实时音频不同的正弦波；

计算所有正弦波的基频值和可信度，并选取可信度最高的基频值作为所述实时音频的基频特征。

本实施例中，使用WORLD声码器中DIO函数实时提取音频基频特征，具体为：首先使用不同截止频率的低通率，找到不同的正弦波，然后计算这些正弦波的基频与可信度，并选取可信度最高的基频作为最终的基频特征。

在一实施例中，如图2所示，所述步骤S103包括：步骤S201～S204。

S201、按照下式，使用3倍周期长度T₀的汉宁窗口与基频特征进行加窗操作并计算功率：

式中，N为窗口长度，n＝1,2,3,…,N，y(t)表示第t个基频特征采样点值；

S202、对加窗后的窗口进行快速傅里叶变换，以及对非0值取对数，并按照下式，采用三角窗进行平滑处理：

式中，w₀＝2π/T₀，表示频率，P_s(w)表示功率；

S203、按照下式，对平滑处理后的基频特征进行快速傅里叶逆变换，并采用sinc函数得到低频特征：

式中，τ表示时间，ls(τ)表示用于平滑对数功率谱并去除时变分量的变化函数；

S204、按照下式消除平滑后的畸变，并进行频谱恢复得到所述频谱包络特征：

式中，l_q表示用于频谱恢复的变化函数。

本实施例中，在提取频谱包络特征时，首先通过汉宁窗口对基频特征进行加窗操作，接着对加窗后的窗口进行快速傅里叶变换，并采用三角窗进行平滑处理。然后对基频特征进行快速傅里叶逆变换，并利用sinc函数获取基频特征对应的低频特征。随后通过一用于频谱恢复的变化函数来消除平滑处理后的畸变，使频谱进行恢复，从而得到所述频谱包络特征。

在一实施例中，所述步骤S103还包括：

基于相位变化和频率变化计算群延时；

根据群延时对所述基频特征的参数进行修正；

按照下式提取得到所述非周期特征ap(w_c)：

ap(w_c)＝-log₁₀(P_s(2w_bw,w_c))

式中，w_bw表示窗函数的主瓣宽度。

本实施例中，通过WORLD声码器中的D4C函数提取非周期性特征。具体步骤为：计算群延迟、修正参数和计算非周期性特征。

在一实施例中，所述机器人声音转换方法还包括：

对帧级单位的实时音频提取多个帧级点，并对应进行插值，以对帧级单位的实时音频进行平滑处理。

本实施例中，为使得实时音频的每一帧级联更加平滑，提取多个帧级点并进行插值使其变得更加平滑。具体的，提取3个点并进行插值处理，这3个点分别为上一帧级结尾处倒数第25个采样点、最后一个采样点和下一帧级联开始处前220个采样点内与上一帧最后一个采样点最相近的点。当然，这里所选取的3个点实质为趋势性质点，因而也可以将3个点切换其他的任意值。

在一实施例中，所述步骤S104包括：

判断所述基频特征是否为0；

若所述基频特征为0，则将所述基频特征直接作为目标基频值；

若所述基频特征不为0，则将所述基频特征设置为一固定值，并将所述固定值作为所述目标基频值。

本实施例中，如果基频特征为0，则维持不变。如果基频特征不为0，则将其调整为一固定值，例如100。在这里，本实施例将基频特征调整为固定值的目标基频值，是为了使实时音频不存在方差，从而使机器人声音更加平滑。

在一实施例中，所述步骤S104还包括：

对所述基频特征取对数，并将取对数后的基频特征设置为目标基频值。

本实施例中，为了使机器人声音能够具备一种沙哑感，因此对基频特征取对数，然后将取对数后的基频特征与所述频谱包络特征和非周期性特征进行结合并解码。在这里，由于对基频特征取对数，因此基频数值变小，方差变小，从而使声音更加低沉感。当然，在其他实施例中，还可以选择不对基频特征进行平滑处理以及不对基频特征进行特征调整，而是直接将基频特征与频谱包络特征和非周期性特征进行结合并解码，如此也可以产生沙哑感觉的机器人声音。

图3为本发明实施例提供的一种机器人声音实时转换装置300的示意性框图，该装置300包括：

音频采集单元301，用于对实时音频进行采集，并将所述实时音频转换为帧级单位的实时音频；

第一特征提取单元302，用于通过声码器对所述实时音频提取基频特征；

第二特征提取单元303，用于对所述基频特征提取频谱包络特征，以及对所述基频特征提取非周期性特征；

特征调整单元304，用于对所述基频特征进行特征调整，并将特征调整后的值设置目标基频值；

结合解码单元305，用于将所述频谱包络特征、非周期性特征和目标基频值结合为转换目标，利用解码器将所述转换目标解码为声音。

在一实施例中，所述第一特征提取单元302包括：

正弦波获取单元，用于利用不同的截止频率的低通率波获取所述实时音频不同的正弦波；

可信度计算单元，用于计算所有正弦波的基频值和可信度，并选取可信度最高的基频值作为所述实时音频的基频特征。

在一实施例中，如图4所示，所述第二特征提取单元303包括：

加窗单元401，用于按照下式，使用3倍周期长度T₀的汉宁窗口与基频特征进行加窗操作并计算功率：

傅里叶变换单元402，用于对加窗后的窗口进行快速傅里叶变换，以及对非0值取对数，并按照下式，采用三角窗进行平滑处理：

式中，w₀＝2π/T₀，表示频率，P_s(w)表示功率；

傅里叶逆变换单元403，用于按照下式，对平滑处理后的基频特征进行快速傅里叶逆变换，并采用sinc函数得到低频特征：

频谱恢复单元404，用于按照下式消除平滑后的畸变，并进行频谱恢复得到所述频谱包络特征：

式中，l_q表示用于频谱恢复的变化函数

在一实施例中，所述第二特征提取单元303还包括：

群延时计算单元，用于基于相位变化和频率变化计算群延时；

参数修正单元，用于根据群延时对所述基频特征的参数进行修正；

非周期特征提取单元，用于按照下式提取得到所述非周期特征ap(w_c)：

ap(w_c)＝-log₁₀(P_s(2w_bw,w_c))

式中，w_bw表示窗函数的主瓣宽度。

在一实施例中，所述机器人声音转换装置300还包括：

插值单元，用于对帧级单位的实时音频提取多个帧级点，并对应进行插值，以对帧级单位的实时音频进行平滑处理。

在一实施例中，所述特征调整单元304包括：

判断单元，用于判断所述基频特征是否为0；

第一设置单元，用于若所述基频特征为0，则将所述基频特征直接作为目标基频值；

第二设置单元，用于若所述基频特征不为0，则将所述基频特征设置为一固定值，并将所述固定值作为所述目标基频值。

在一实施例中，所述特征调整单元304还包括：

第三设置单元，用于对所述基频特征取对数，并将取对数后的基频特征设置为目标基频值。

由于装置部分的实施例与方法部分的实施例相互对应，因此装置部分的实施例请参见方法部分的实施例的描述，这里暂不赘述。

本发明实施例还提供了一种计算机可读存储介质，其上存有计算机程序，该计算机程序被执行时可以实现上述实施例所提供的步骤。该存储介质可以包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本发明实施例还提供了一种计算机设备，可以包括存储器和处理器，存储器中存有计算机程序，处理器调用存储器中的计算机程序时，可以实现上述实施例所提供的步骤。当然计算机设备还可以包括各种网络接口，电源等组件。

说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请权利要求的保护范围内。

还需要说明的是，在本说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的状况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。