[go: up one dir, main page]

CN112908351A - 一种音频变调方法、装置、设备及存储介质 - Google Patents

一种音频变调方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN112908351A
CN112908351A CN202110083776.4A CN202110083776A CN112908351A CN 112908351 A CN112908351 A CN 112908351A CN 202110083776 A CN202110083776 A CN 202110083776A CN 112908351 A CN112908351 A CN 112908351A
Authority
CN
China
Prior art keywords
frequency conversion
processing
signal
audio
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110083776.4A
Other languages
English (en)
Inventor
张超鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Music Entertainment Technology Shenzhen Co Ltd
Original Assignee
Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Music Entertainment Technology Shenzhen Co Ltd filed Critical Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority to CN202110083776.4A priority Critical patent/CN112908351A/zh
Publication of CN112908351A publication Critical patent/CN112908351A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch

Landscapes

  • Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Electrophonic Musical Instruments (AREA)

Abstract

本申请公开了一种音频变调方法、装置、设备及计算机可读存储介质,该方法包括:对输入音频信号进行变频处理,得到变频信号;提取输入音频信号对应的第一共振峰包络和变频信号对应的第二共振峰包络,并利用第一共振峰包络和第二共振峰包络生成频谱系数;利用频谱系数对变频信号的变频频谱分布进行加权变调输出处理,得到输出音频;该方法利用频谱系数进行加权变调输出,即以加权的形式,基于输入音频信号对变频信号进行修正,进而使得得到的输出音频能够保持与输入音频信号一致的音色,避免在变调后出现音色无法保持,音频质量变差的情况。

Description

一种音频变调方法、装置、设备及存储介质
技术领域
本申请涉及音频处理技术领域,特别涉及一种音频变调方法、音频变调装置、音频变调设备及计算机可读存储介质。
背景技术
音频(Audio)通常是指人耳可以听到的,声音频率在20HZ~20kHz之间的声波。对于某些音频(音乐、歌曲等)来说,可以在需要时对其进行变调处理,以便将该音频的音调调高或调低,使得音频听感更好。相关技术在对音频进行变调后,得到的音频与输入的音频相比音色较差,音色保持效果不佳。
发明内容
有鉴于此,本申请的目的在于提供一种音频变调方法、音频变调装置、音频变调设备及计算机可读存储介质,基于输入音频信号对变频信号进行修正,使得到的输出音频能够保持与输入音频信号一致的音色,避免输出音频的音色变差。
为解决上述技术问题,第一方面,本申请提供了一种音频变调方法,包括:
对输入音频信号进行变频处理,得到变频信号;
提取所述输入音频信号对应的第一共振峰包络和所述变频信号对应的第二共振峰包络,并利用所述第一共振峰包络和所述第二共振峰包络生成频谱系数;
利用所述频谱系数对所述变频信号的变频频谱分布进行加权变调输出处理,得到输出音频。
可选地,所述利用所述第一共振峰包络和所述第二共振峰包络生成频谱系数,包括:
利用所述第一共振峰包络与所述第二共振峰包络做差,得到所述频谱系数。
可选地,所述利用所述第一共振峰包络和所述第二共振峰包络生成频谱系数,包括:
利用所述共振峰包络生成初始频谱系数;
对所述初始频谱系数进行卷积平滑处理和/或基于基频的线性抑制处理和/或相邻系数平滑处理,得到所述频谱系数。
可选地,所述利用所述频谱系数对所述变频信号的变频频谱分布进行加权变调输出处理,得到输出音频,包括:
利用所述频谱系数与所述变频频谱分布相乘,得到加权后频谱;
对所述加权后频谱进行基于窗函数的时域转换处理,得到时域输出音频;
对所述时域输出音频进行重叠相加处理,得到所述输出音频。
可选地,所述提取所述输入音频信号对应的第一共振峰包络和所述变频信号对应的第二共振峰包络,包括:
分别对所述输入音频信号和所述变频信号进行基于基频的分帧处理和频域转换处理,得到各个帧对应的所述变频频谱分布和输入频谱分布;
分别对所述变频频谱分布和所述输入频谱分布进行功率谱计算和平滑处理,得到变频功率谱和输入功率谱;
分别对所述变频功率谱和所述输入功率谱进行对数倒谱处理,得到变频倒谱和输入倒谱;
分别利用倒谱提升窗对所述变频倒谱和所述输入倒谱进行倒谱加窗和频谱恢复处理,得到所述第一共振峰包络和所述第二共振峰包络。
可选地,所述对输入音频信号进行变频处理,得到变频信号,包括:
对所述输入音频信号进行分帧处理,并获取每个输入帧对应的变调系数;
利用所述变调系数确定执行顺序,并根据所述执行顺序先后对所述输入帧进行采样处理和变速处理,得到变频帧;
对所述变频帧进行拼接处理得到所述变频信号。
可选地,所述利用所述变调系数确定执行顺序,包括:
获取处理当前周期内的多个所述变调系数,并确定各个所述变调系数的中值;
根据所述中值与预设阈值的大小关系,确定所述处理周期内各个所述输入帧对应的所述执行顺序。
可选地,所述对所述变频帧进行拼接处理得到所述变频信号,包括:
将各个所述变频帧进行拼接,得到初始变频信号;
利用渐入渐出加权窗对所述初始变频信号进行平滑处理,得到所述变频信号。
第二方面,本申请提供了一种音频变调装置,包括:
变频模块,用于对输入音频信号进行变频处理,得到变频信号;
频谱系数生成模块,用于分别提取所述输入音频信号和所述变频信号对应的共振峰包络,并利用所述共振峰包络生成频谱系数;
输出音频生成模块,用于利用所述频谱系数对所述变频信号的变频频谱分布进行加权变调输出处理,得到输出音频。
第三方面,本申请提供了一种音频变调设备,包括存储器和处理器,其中:
所述存储器,用于保存计算机程序;
所述处理器,用于执行所述计算机程序,以实现上述的音频变调方法。
第四方面,本申请提供了一种计算机可读存储介质,用于保存计算机程序,其中,所述计算机程序被处理器执行时实现上述的音频变调方法。
本申请提供的音频变调方法,对输入音频信号进行变频处理,得到变频信号;提取输入音频信号对应的第一共振峰包络和变频信号对应的第二共振峰包络,并利用第一共振峰包络和第二共振峰包络生成频谱系数;利用频谱系数对变频信号的变频频谱分布进行加权变调输出处理,得到输出音频。
可见,该方法在对输入音频信号进行变频处理得到变频信号后,提取输入音频信号和变频信号的共振峰包络。共振峰是在声音的频谱中能量相对集中的一些区域,是音色的决定因素,共振峰包络即为表征共振峰的信息。利用共振峰包络生成频谱系数,并利用频谱系数进行加权变调输出,即以加权的形式,基于输入音频信号对变频信号进行修正,进而使得得到的输出音频能够保持与输入音频信号一致的音色,避免在变调后出现音色无法保持,音频质量变差的情况,解决了变调后的音频质量变差,音色保持效果不佳的问题。
此外,本申请还提供了一种音频变调装置、音频变调设备及计算机可读存储介质,同样具有上述有益效果。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例提供的一种音频变调方法所适用的硬件组成框架示意图;
图2为本申请实施例提供的另一种音频变调方法所适用的硬件组成框架示意图;
图3为本申请实施例提供的一种音频变调方法的一种流程示意图;
图4为本申请实施例提供的一种变频信号获取过程的一种流程示意图;
图5为本申请实施例提供的一种变频信号获取过程的一种逻辑示意图;
图6为本申请实施例提供的一种共振峰包络提取过程的一种流程示意图;
图7为本申请实施例提供的一种信号曲线与对应的共振峰包络曲线的一种曲线示意图;
图8为本申请实施例提供的一种倒谱函数曲线和倒谱曲线的一种曲线示意图;
图9为本申请实施例提供的一种频谱系数获取过程的一种流程示意图;
图10为本申请实施例提供的一种输出音频获取过程的一种流程示意图;
图11为本申请实施例提供的一种音频变调装置的一种结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
当前,用户在对音频(例如语音、纯音乐、歌曲等)进行变调时,一般采用world或TSMtoolbox等工具。其中world采用合成变调的方式对音频进行分析合成,实现变调的效果。然而,完成变调后得到的信号,其质量在很大程度上受到基频参数、频谱特征以及非周期性特性参数的影响,音色保持效果较差。TSMtoolbox利用HPS(Harmonic PercussionSeparation)分别对打击声和和谐声做变速处理(WSOLA/PV,Overlap-Add TechniqueBased On Waveform Similarity/Phase Vocoder),然后利用重采样模块(Resample)实现变频,并利用倒谱多次迭代的方式提取变频信号的共振峰包络,利用共振峰包络得到输出音频。整个过程计算量大,且输出音频的音色较差,音色保持效果不佳。本申请实施例提供的一种音频变调方法,在对输入音频信号进行变频处理得到变频信号后,提取输入音频信号和变频信号的共振峰包络。共振峰是在声音的频谱中能量相对集中的一些区域,是音色的决定因素,共振峰包络即为表征共振峰的信息。利用共振峰包络生成频谱系数,并利用频谱系数进行加权变调输出,即以加权的形式,基于输入音频信号对变频信号进行修正,进而使得得到的输出音频能够保持与输入音频信号一致的音色,避免在变调后出现音色无法保持,音频质量变差的情况。
为了便于理解,先对本申请实施例提供的音频变调方法对应的方案所使用的硬件组成框架进行介绍。请参考图1,图1为本申请实施例提供的一种音频变调方法所适用的硬件组成框架示意图。其中音频变调设备100可以包括处理器101和存储器102,还可以进一步包括多媒体组件103、信息输入/信息输出(I/O)接口104以及通信组件105中的一种或多种。
其中,处理器101用于控制音频变调设备100的整体操作,以完成音频变调方法中的全部或部分步骤;存储器102用于存储各种类型的数据以支持在音频变调设备100的操作,这些数据例如可以包括用于在该音频变调设备100上操作的任何应用程序或方法的指令,以及应用程序相关的数据。该存储器102可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,例如静态随机存取存储器(Static Random Access Memory,SRAM)、电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,EEPROM)、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,EPROM)、可编程只读存储器(Programmable Read-Only Memory,PROM)、只读存储器(Read-OnlyMemory,ROM)、磁存储器、快闪存储器、磁盘或光盘中的一种或多种。在本实施例中,存储器102中至少存储有用于实现以下功能的程序和/或数据:
对输入音频信号进行变频处理,得到变频信号;
提取所述输入音频信号对应的第一共振峰包络和所述变频信号对应的第二共振峰包络,并利用所述第一共振峰包络和所述第二共振峰包络生成频谱系数;
利用频谱系数对变频信号的变频频谱分布进行加权变调输出处理,得到输出音频。
多媒体组件103可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏,音频组件用于输出和/或输入音频信号信号。例如,音频组件可以包括一个麦克风,麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器102或通过通信组件105发送。音频组件还包括至少一个扬声器,用于输出音频信号。I/O接口104为处理器101和其他接口模块之间提供接口,上述其他接口模块可以是键盘,鼠标,按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件105用于音频变调设备100与其他设备之间进行有线或无线通信。无线通信,例如Wi-Fi,蓝牙,近场通信(Near Field Communication,简称NFC),2G、3G或4G,或它们中的一种或几种的组合,因此相应的该通信组件105可以包括:Wi-Fi部件,蓝牙部件,NFC部件。
音频变调设备100可以被一个或多个应用专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、数字信号处理器(Digital Signal Processor,简称DSP)、数字信号处理设备(Digital Signal Processing Device,简称DSPD)、可编程逻辑器件(Programmable Logic Device,简称PLD)、现场可编程门阵列(Field ProgrammableGate Array,简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行音频变调方法。
当然,图1所示的音频变调设备100的结构并不构成对本申请实施例中音频变调设备的限定,在实际应用中音频变调设备100可以包括比图1所示的更多或更少的部件,或者组合某些部件。
其中,图1中的音频变调设备100可以为终端(如手机、平板电脑等移动终端,或PC机等固定终端)或者服务器。在一种具体的实施方式中,音频变调设备100可以利用通信组件105通过网络接收其它设备或终端发送的音频;在另一种具体的实施方式中,音频变调设备100可以利用多媒体组件103获取输入的音频;在另一种具体的实施方式中,音频变调设备100可以从存储器102中获取输入的音频。
可以理解的是,本申请实施例中并不对音频变调设备的数量进行限定,其可以是多个音频变调设备共同协作完成音频变调方法。在一种可能的实施方式中,请参考图2,图2为本申请实施例提供的另一种音频变调方法所适用的硬件组成框架示意图。由图2可知,该硬件组成框架可以包括:第一音频变调设备11和第二音频变调设备12,二者之间通过网络13连接。
在本申请实施例中,第一音频变调设备11与第二音频变调设备12的硬件结构可以参考图1中音频变调设备100。即可以理解为本实施例中具有两个音频变调设备100,两者进行数据交互,实现对音频进行变调的效果。进一步,本申请实施例中并不对网络13的形式进行限定,即,网络13可以是无线网络(如WIFI、蓝牙等),也可以是有线网络。
其中,第一音频变调设备11和第二音频变调设备12可以是同一种电子设备,如第一音频变调设备11和第二音频变调设备12均为服务器;也可以是不同类型的电子设备,例如,第一音频变调设备11可以是终端或智能电子设备,第二音频变调设备12可以是服务器。在一种可能的实施方式中,可以利用计算能力强的服务器作为第二音频变调设备12来提高数据处理效率及可靠性,进而提高音频变调的处理效率。同时利用成本低,应用范围广的终端或智能电子设备作为第一音频变调设备11,用于实现第二音频变调设备12与用户之间的交互。可以理解的是,对输入音频信号进行音频变调处理,必然存在先获取输入音频信号,因此该交互过程可以为:终端在获取输入音频信号后,将该输入音频信号发送给服务器,服务器在接收到该输入音频信号后,对该输入音频信号进行处理,得到输出音频。在另一种实施方式中,用户可以在终端设置变频处理的相关参数,此时该交互过程可以为:终端利用该变频处理的相关参数对输入音频信号进行变频后,将变频信号和输入音频信号发送给服务器,以便服务器执行其他步骤。
基于上述说明,请参考图3,图3为本申请实施例提供的一种音频变调方法的一种流程示意图。该实施例中的方法包括:
S101:对输入音频信号进行变频处理,得到变频信号。
输入音频信号可以为任意格式的音频,例如WAV、MP3、MPEG-4等格式,本实施例对此不做限定。被处理的输入音频信号可以为一个,即在一个时刻仅对一个输入音频信号进行变频处理,在得到该输入音频信号的变频信号后获取新的输入音频信号;在另一种实施方式中,可以获取多个输入音频信号,并同时对多个输入音频信号进行变频处理,得到变频信号。例如可以设置多个并行通道,在每个通道中可以对一个输入音频信号进行变频处理,当一个通道中的输入音频信号被处理完毕,则可以获取一个新的输入音频信号并在该通道中进行变频处理,直到不存在输入音频信号为止。各个通道之间相互独立,互不影响。在获取输入音频信号后,可以直接利用其进行变频处理得到变频信号,或者可以对输入音频信号进行必要的处理,在处理完毕后利用处理后的输入音频信号进行变频处理,得到对应的变频信号。
可以理解的是,由于需要对输入音频信号进行变频处理,因此需要获取该输入音频信号。本实施例并不限定输入音频信号的具体获取方式,例如可以通过音频获取设备获取,例如该音频获取设备可以为智能终端上的麦克风;在另一种具体的实施方式中,可以从存储介质中读取指定的音频,并将该指定的音频作为输入音频信号。需要说明的是,存储介质可以为本地存储介质,或者可以为便携式的存储介质,例如可以为U盘或移动硬盘;在另一种具体的实施方式中,输入音频信号可以由其它设备或终端发送,例如可以由智能手机、服务器等通过有线或无限的方式发送得到。
本实施例并不限定变频处理的具体处理方式,可以理解的是,变频的过程为对信号进行时域范围内的压缩或扩展,因此在一种具体的实施方式中,变频处理可以为先进行变速处理(即时域压缩或扩展),再进行重采样处理;在另一种具体的实施方式中,可以先进行重采样处理,再进行变速处理。进一步,需要说明的是,本实施例并不限定重采样的具体采样方式,例如可以为升采样,或者可以为降采样,具体采样方式可以依据变频处理的需求进行选择。本实施例并不限定变频处理的处理次数和处理范围,需要说明的是,处理次数用于统计对整个输入音频信号的处理总数,处理范围用于规定对输入音频信号的哪个部分进行变频处理。处理次数与处理范围之间具有相关关系,每次处理的范围越大,处理次数越少;每次处理的范围越小,处理次数越多。在本实施例中,每次处理的范围可以被称为帧,在对输入音频信号进行处理时,可以先对其进行分帧,并对每个帧进行变频处理。进一步,在一种可能的实施方式中,每个帧的处理方式不同,即可以对不同的帧进行不同的变频处理,以便根据实际需要对输入音频信号的各个部分进行不同的变频处理,最后将各个帧进行拼接,得到对应的变频信号。
S102:提取输入音频信号对应的第一共振峰包络和变频信号对应的第二共振峰包络,并利用第一共振峰包络和第二共振峰包络生成频谱系数。
共振峰是在声音的频谱中能量相对集中的一些区域,是音色的决定因素,共振峰包络即为表征共振峰的信息。需要说明的是,本实施例中的共振峰包络并不是包络曲线本身,而是包络曲线对应的曲线信息,具体的,共振峰包络可以为对数功率谱形式。在得到输入信号和变频信号后,分别提取输入信号和变频信号的共振峰包络,即分别将输入信号和变频信号作为被提取信号进行共振峰包络的提取,得到与输入音频信号对应的第一共振峰包络和与变频信号对应的第二共振峰包络。本实施例并不限定共振峰包络的具体提取方式,例如可以采用倒谱多次迭代的方式提取共振峰包络,或者可以采用其他方式进行提取。在得到第一共振峰包络和第二共振峰包络后,利用其生成频谱系数。
频谱系数可以体现输入音频信号和变频信号之间的差别,且其基于共振峰包络得到,因此可以体现二者间包络的区别,而包络的区别即为音色的区别。利用频谱系数参与输出音频的生成,可以基于输入音频信号对变频信号进行修正,进而使得得到的输出音频能够保持与输入音频信号一致的音色,避免在变调后出现音色无法保持,音频质量变差的情况。本实施例并不限定输入音频信号和变频信号分别对应的共振峰包络和频谱系数的个数,在一种具体的实施方式中,输入音频信号和变频信号可以分别对应一个共振峰包络,在此情况下频谱系数的个数也为一个。例如当输入音频信号较短时,可以直接提取其对应的第一共振峰包络和对应的变频信号对应的第二共振峰包络,并利用两个共振峰包络得到对应的频谱系数。在另一种具体的实施方式中,为了实现对输入音频信号不同的部分进行不同程度的变调的效果,在提取共振峰包络时,可以分别提取输入音频信号的各个帧的共振峰包络,因此共有多个第一共振峰包络,分别对应于输入音频信号中不同的帧。相应的,在提取变频信号对应的第二共振峰包络时,可以对变频信号的各个帧提取第二共振峰包络。可以理解的是,变频信号和输入音频信号应当采用相同的分帧方式,这样获取到的输入音频信号各个帧的第一共振峰包络和变频信号各个帧的第二共振峰包络才能一一对应,利用对应的第一共振峰包络和第二共振峰包络才能得到正确对应的频谱系数。
需要说明的是,在一种实施方式中,直接利用第一共振峰包络和第二共振峰包络得到的系数即可以被确定为频谱系数。在另一种实施方式中,还可以对直接得到的系数进行优化处理,在优化处理过后得到对应的频谱系数。优化处理的具体方式不做限定,例如可以为卷积平滑处理、或者可以为线性抑制处理、或者可以为相邻系数平滑处理。
S103:利用频谱系数对变频信号的变频频谱分布进行加权变调输出处理,得到输出音频。
在得到频谱系数后,可以利用频谱系数对变频信号的变频频谱分布进行加权变调输出处理。变频频谱分布即为变频信号在频域中的分布,通过加权变调输出,可以在频域中对变频频谱分布进行加权调整,即通过加权的方式实现基于输入音频信号对变频信号进行修正的效果,在修正完毕后,将其从频域转换为时域,完成变调输出。需要说明的是,与S102步骤对应的,若存在多个频谱系数,则分别利用各个频谱系数对变频信号中各个帧对应的变频频谱分不进行加权变调输出处理,在处理后进行信号重建,即可得到对应的输出音频。本实施例对信号重建的具体方式不做限定,例如可以采用重叠相加的方式进行信号重建,进而得到输出音频。
应用本申请实施例提供的音频变调方法,在对输入音频信号进行变频处理得到变频信号后,提取输入音频信号和变频信号的共振峰包络。共振峰是在声音的频谱中能量相对集中的一些区域,是音色的决定因素,共振峰包络即为表征共振峰的信息。利用共振峰包络生成频谱系数,并利用频谱系数进行加权变调输出,即以加权的形式,基于输入音频信号对变频信号进行修正,进而使得得到的输出音频能够保持与输入音频信号一致的音色,避免在变调后出现音色无法保持,音频质量变差的情况,解决了变调后的音频质量变差,音色保持效果不佳的问题。
在一种具体的实施方式中,本申请实施例提供了一种具体的变频处理过程。请参考图4,图4为本申请实施例提供的一种变频信号获取过程的一种流程示意图,其中包括:
S1011:对输入音频信号进行分帧处理,并获取每个输入帧对应的变调系数。
在本实施例中,可以对输入音频信号进行分帧处理,得到多个输入帧,并对每个输入帧进行不同程度的变频处理。分帧处理的具体方式不做限定,例如可以预设每帧的长度,按照该长度对输入音频信号进行分帧;或者可以预设输入音频信号对应的帧数,依据该帧数对输入音频信号进行分帧。对各个输入帧进行何种程度的变频处理,可以通过变调系数进行体现,变调底数可以用γ表示。变调系数可以由用户手动输入,或者可以由其他设备或终端发送得到,或者可以在本地预存。变调系数用于与预设阈值进行比对,以便确定如何进行变调,即进行升调处理或进行降调处理,本实施例并不限定预设阈值的具体大小,例如可以为1。当变调系数大于1时,可以确定需要对该输入帧进行升调处理;当变调系数小于1时,可以确定需要对该输入帧进行降调处理。在另一种实施方式中,变调系数的大小还可以与升调或降调的程度相关,例如可以限制变调系数的范围为[0,2],在该范围内大于1的程度越大,则升调的程度越大。相应的,在该范围内小于1的程度越大,则降调的程度越大。
S1012:利用变调系数确定执行顺序,并根据执行顺序先后对输入帧进行采样处理和变速处理,得到变频帧。
在本实施例中,利用对输入帧进行重新采样的采样处理和时域压缩或扩展的变速处理的方式实现对输入帧的变频处理。需要说明的是,为了保证变频后的信号等够保持音质,可以为不同的变调处理对应设置不同的变频处理方式。具体的,在得到变调系数后,可以利用变调系数确定执行顺序,以便按照执行顺序对输入帧先后进行采样处理和变速处理,得到对应的变频帧。例如当变调系数小于1时,说明需要进行降调处理,具体的,可以先对输入帧进行升采样,然后再进行时域压缩(即变速处理)得到对应的变频帧。或者当变调系数大于1时,说明需要进行升调处理,此时先对输入帧进行时域扩展处理,并在扩展后进行降采样,得到对应的变频帧。
请参考图5,图5为本申请实施例提供的一种变频信号获取过程的一种逻辑示意图。(a)情况适用于变调系数小于1的情况,先对输入帧(或整个输入音频信号)对应的信号xin(n)进行采样处理(即resample,重采样),得到中间信号xr(k,l),再对中间信号进行变速处理(即PV/PSOLA,Phase Vocoder/pitch synchronous overlap,相频声码器/基频同步叠加处理),得到变频帧(或整个变频信号)xfs(n)。(b)情况适用于变调系数大于1的情况,先对输入音频信号对应的信号进行变速处理得到中间信号xts(k,l),再对中间信号进行采样处理,得到变频帧xfs(n)。其中,n表示帧序号。
S1013:对变频帧进行拼接处理得到变频信号。
在得到输入音频信号对应的全部变频帧后,对各个变频帧进行拼接,得到变频信号。本实施例并不限定拼接的具体方式,例如可以直接将各个变频帧进行时域拼接,或者可以在直接拼接后进行一定的处理,得到变频信号。
应用本申请实施例提供的音频变调方法,通过对输入音频信号进行分帧并为每个输入帧设置变调系数的方式,可以对输入音频信号中的不同部分进行不同程度的变调。同时,根据变调系数可以为对应的部分选择合适的变频方式,以便于最大程度的保持音质,进而最大程度上地为后续变调后音色的保持进行准备。
基于上述实施例,在一种可能的实施方式中,相邻的输入帧对应的变调系数所处的区间不同,即在大于1和小于1两种状态间来回切换,这样会导致听感上的不联系,具体表现为在两个变频帧的切换处出现“咔哒”声。为了解决上述问题,S1013步骤可以包括:
步骤11:将各个变频帧进行拼接,得到初始变频信号。
拼接的具体方式本实施例不做限定,例如可以直接进行拼接,即将多个变频帧按照对应的输入帧的先后顺序进行连接,即可得到初始变频信号。
步骤12:利用渐入渐出加权窗对初始变频信号进行平滑处理,得到变频信号。
渐入渐出(cross fade)加权窗可以对信号进行渐入渐出处理,避免在帧的切换处因信号的不连续而出现“咔哒”声。具体的,例如渐入渐出加权窗对初始变频信号进行平滑处理,本实施例并不限定平滑处理的具体处理方式,例如可以对初始变频信号中的一部分进行平滑处理,由于只有在两个帧的切换处才会出现信号不连续的问题,可以利用渐入渐出加权窗对信号的拼接位置,即两个帧的切换位置进行抑制,实现对初始变频信号的平滑处理。
应用本申请实施例提供的音频变调方法,通过利用渐入渐出加权窗对直接拼接得到的初始变频信号进行平滑处理,可以避免出现因信号不连续而造成的听感上的不连续问题。
在另一种实施方式中,还可以通过确定处理周期内各个输入帧对应的执行顺序的方式避免出现信号的不连续,进而避免出现听感上的不连续问题,S1013步骤可以包括:
步骤21:获取处理当前周期内的多个变调系数,并确定各个变调系数的中值。
本实施例中设置有处理周期,各个处理周期相连,每个处理周期内包括若干个相连的变频帧(也包括对应的输入帧)。在确定某个输入帧对应的执行顺序时,可以获取其所处的处理周期(即当前处理周期)内所有的输入帧对应的变调系数,并确定各个变调系数的中值。中值可以表现当前处理周期对应的各个变调系数的主要其中区域。本实施例并不限定处理周期的具体设置方式,例如可以为每个处理周期设置预设个数的输入帧,或者可以为每个输入音频信号设置预设个数的处理周期。在另一种实施方式中,还可以检测是否存在多个连续的输入帧对应的变调系数在大于1和小于1两种状态间来回切换,若存在,则将这些输入帧划分至同一个处理周期。
步骤22:根据中值与预设阈值的大小关系,确定处理周期内各个输入帧对应的执行顺序。
将中值与预设阈值进行比较,可以确定中值与预设阈值的大小关系,该大小关系可以用于表征当前处理周期内大部分输入帧对应的执行顺序,将该执行顺序确定为当前处理周期内各个输入帧对应的执行顺序,可以对当前处理周期内各个输入帧采用相同的执行顺序进行变频处理,使得在处理后得到的变频帧在信号上连续,进而使得其在听感上连续。
应用本申请实施例提供的音频变调方法,不需要对变频处理后直接得到的信号进行其他处理,即可避免出现信号上的不连续,避免听感上的不连续。
需要说明的是,在另一种可能的实施方式,可以将上述两种方式进行结合,即在对当前处理周期内的输入帧采用相同的执行顺序进行处理后,还可以利用渐入渐出加权窗对各个处理周期的切换位置进行处理。
基于上述实施例,在一种具体的实施方式中,本申请实施例提供了一种具体的共振峰包络提取过程。请参考图6,图6为本申请实施例提供的一种共振峰包络提取过程的一种流程示意图,其中包括:
S1021:分别对输入音频信号和变频信号进行基于基频的分帧处理和频域转换处理,得到各个帧对应的变频频谱分布和输入频谱分布。
具体的,基于基频的分帧处理即为利用基频确定分帧窗口,按照该分帧窗口对输入音频信号和变频信号进行分帧,并在分帧后进行频域转换处理,将是与信号转换为频域信号,得到各个帧对应的变频频谱分布和输入频谱分布。具体的,基频为输入信号的基频,其具体获取方式不做限定,例如可以利用基频提取工具进行提取,或者可以获取基频信息,该基频信息用于指定基频的具体大小。基频提取工具的具体形式不做限定,例如可以为harvest工具、Pyin工具或Crepe工具等。
具体的,基频周期序列的长度可以为T0,在进行分帧处理时,可以以3T0作为窗长,具体为以左右各1.5T0的长度对输入音频信号和变频信号进行分帧。并以hanning窗(汉宁窗)为窗函数得到分帧后的帧信号序列,同时通过STFT(短时傅立叶变换)进行频域转换处理,得到信号的变频频谱分布和输入频谱分布。本实施例并不限定窗函数的具体内容,例如以汉宁窗为窗函数,在其他实施方式中,还可以采用其他窗函数。具体的,当输入音频信号为xin(t)时,变频信号为xfs(t)时,对应的变频频谱分布和输入频谱分布为:
Figure BDA0002910073840000151
Figure BDA0002910073840000152
其中,n表示分帧之后的帧序号,F为短时傅立叶变换,whann为汉宁窗处理,ω表示该帧的数字角频率变量,Xin(ω,n)为输入频谱分布,Xfs(ω,n)为变频频谱分布,t为时间。
S1022:分别对变频频谱分布和输入频谱分布进行功率谱计算和平滑处理,得到变频功率谱和输入功率谱。
利用功率谱公式分别对输入频谱分布和变频频谱分布进行功率谱计算,并在计算后按照预设长度进行平滑处理。本实施例并不限定预设长度的具体大小,例如可以以基频对应的数字角频率的2/3为预设长度对功率谱线性平滑。具体的,功率谱公式为:
Figure BDA0002910073840000153
其中P(ω)为对信号FT(ω)进行功率谱计算后直接得到的功率谱,可以被称为初始功率谱,对初始功率谱进行平滑处理后即可得到功率谱。其中,FT(ω)具体可以为Xin(ω,n)或Xfs(ω,n),即可以为输入音频信号被分帧后得到的任意帧对应的输入频谱分布,或者为变频信号被分帧后得到的任意帧对应的变频频谱分布。
具体的,可以利用如下公式进行平滑处理:
Figure BDA0002910073840000154
其中Ps(ω)为功率谱,具体的,可以利用Ps_in(ω)表示输入功率谱,利用Ps_fs(ω)表示变频功率谱,ω0为基频在频域对应的长度,基频特性使用长度为2ω0/3的矩形窗对功率谱做线性平滑。在其他的实施方式中,还可以采用其他长度的矩形窗进行平滑处理。
S1023:分别对变频功率谱和输入功率谱进行对数倒谱处理,得到变频倒谱和输入倒谱。
对数倒谱处理即为先求对数,再对其进行倒谱处理,具体的,可以利用:
Figure BDA0002910073840000161
进行对数处理,其中,log为对数函数,Ps(ω)具体可以为Ps_in(ω),也可以为Ps_fs(ω),
Figure BDA0002910073840000162
为中间对数数据。并利用:
Figure BDA0002910073840000163
进行倒谱处理。其中,
Figure BDA0002910073840000164
为倒谱。根据输入信号的不同,本实施例中可以利用
Figure BDA0002910073840000165
表示输入倒谱,
Figure BDA0002910073840000166
表示变频倒谱。其中F-1为傅立叶逆变换,τ为自变量。
S1024:分别利用倒谱提升窗对变频倒谱和输入倒谱进行倒谱加窗和频谱恢复处理,得到第一共振峰包络和第二共振峰包络。
在得到输入倒谱和变频倒谱后,可以构建倒谱提升窗,并利用倒谱提升窗对输入倒谱和变频倒谱进行倒谱加窗处理,并进行频谱恢复处理,使数据恢复频域以便执行后续步骤。具体的,可以按照:
Figure BDA0002910073840000167
构建倒谱提升窗,其中sin c表示抽样函数,q为常数,根据经验,一般取q=-0.09。Is为采样函数,Iq为升余弦函数,w(τ)为倒谱提升窗函数,cos为余弦函数。
在得到倒谱提升窗后,利用:
Figure BDA0002910073840000168
进行倒谱加窗处理,并利用:
Figure BDA0002910073840000169
进行频谱恢复处理,得到信号对数共振峰包络
Figure BDA00029100738400001610
本实施例中,可以利用
Figure BDA00029100738400001611
表示输入音频信号对应的第一信号对数共振峰包络,利用
Figure BDA00029100738400001612
表示变频信号对应的第二信号对数共振峰包络。在得到信号对数共振峰包络后,还需要利用:
Figure BDA00029100738400001613
Figure BDA00029100738400001614
得到对应的第一共振峰包络和第二共振峰包络。其中,LEnin(ω)为第一共振峰包络,LEnfs(ω)为第二共振峰包络。需要说明的是,由于对输入音频信号和变频信号进行了分帧,因此得到的第一共振峰包络对应于一个输入音频信号的帧,第二共振峰包络对应于上述输入音频信号的帧对应的变频信号的帧。在对各个帧进行上述处理后,可以得到整个输入音频信号对应的第一共振峰包络和整个变频信号对应的第二共振峰包络。
请参考图7,图7为本申请实施例提供的一种信号曲线与对应的共振峰包络曲线的一种曲线示意图。其具体为功率谱对应的曲线在经过平滑处理前后的对比,横坐标为频点(bin)的分布,纵坐标为频谱功率分贝值。以采样率(fs)为48000Hz,基频频率(f0)为586Hz的浊音信号为例,其对应的频点(bin)为bin=fs/f0=82。图7中的三条曲线分别表示:原始信号对数功率谱曲线(power spectrum)
Figure BDA0002910073840000171
经过线性平滑后得到的平滑后对数谱曲线(smoothed spectrum)
Figure BDA0002910073840000172
和通过谱提升处理(即倒谱加窗和频谱恢复处理)得到的信号对数谱包络曲线(spectrum envelope)
Figure BDA0002910073840000173
请参考图8,图8为本申请实施例提供的一种倒谱函数曲线和倒谱曲线的一种曲线示意图。其具体为倒谱提升前后的曲线对比,图8上方的波形图的横坐标为频点,纵坐标为函数幅度值。图8下方的波形图的横坐标为倒谱点(quefrency),纵坐标为倒谱对数对数的值。图8上方波形图中的曲线分别为采样函数曲线ls,即ls(τ),升余弦曲线lq,即lq(τ);倒谱提升窗曲线(ls.*lq),即w(τ)。同样以采样率(fs)为48000Hz,基频频率(f0)为586Hz的浊音信号为例,其对应的频点(bin)为bin=fs/f0=82。w(τ)曲线理想情况下在基频(bin=82)及其倍频处取值为零,从而可以去掉激励脉冲序列对信号包络提取的影响。图8下方的波形图依次为586Hz浊音信号的倒谱(cepstrum)曲线,其中包括信号原始倒谱(raw cepstrum)曲线,和经过谱提升后的加权后倒谱曲线(weighted(lifted)cepstrum)。
应用本申请实施例提供的音频变调方法,利用上述方式仅需一轮计算即可对输入音频信号和输出音频对应的共振峰包络,不需要采用多次迭代提取的方式获取共振峰包络,提高了计算速度和计算效率,减少了计算资源和时间的消耗。
基于上述实施例,在一种具体的实施方式中,为了得到准确的频谱系数,利用共振峰包络生成频谱系数的步骤可以包括:
步骤31:利用第一共振峰包络与第二共振峰包络做差,得到频谱系数。
本实施例中,可以利用Mask(ω)表示频谱系数。为了得到准确的频谱系数,即准确地表示变频信号与输入信号在音色之间的差异,可以采用相减的方式计算频谱系数。具体的,按照:
Mask(ω)=LEnin(ω)-LEnfs(ω)
得到频谱系数。
需要说明的是,步骤31并不是计算频谱系数的唯一方式,本申请提供的音频变调方法可以采用其他计算方式计算频谱系数,例如可以采用加权后相减、相除等方式计算频谱系数,只要可以体现变频信号与输入信号在音色之间的差异即可。
在另一种实施方式中,利用共振峰包络直接计算得到的为初始频谱系数,对数时频谱系数进行优化后可以得到对应的频谱系数。具体的,请参考图9,图9为本申请实施例提供的一种频谱系数获取过程的一种流程示意图。利用共振峰包络生成频谱系数的步骤可以包括:
S1025:利用第一共振峰包络和第二共振峰包络生成初始频谱系数。
需要说明的是,在本实施例中,利用第一共振峰包络和第二共振峰包络直接生成的并不是频谱系数,而是初始频谱系数。初始频谱系数需要经过优化处理才能得到频谱系数。
S1026:对初始频谱系数进行卷积平滑处理和/或基于基频的线性抑制处理和/或相邻系数平滑处理,得到频谱系数。
本实施例中,优化处理可以包括卷积平滑处理、基于基频的线性抑制处理和相邻系数平滑处理中的一个或若干个,既可以选择其中的一项或多项作为优化处理的具体处理方式对初始频谱系数进行优化,进而得到频谱系数。其中,卷积平滑处理可以防止频谱系数抖动过大,其可以利用三角窗卷积实现对初始频谱系数的平滑。具体的,按照:
M(ω)=conv(Mask(ω),Wtri(ω))
进行卷积平滑处理,其中,conv为卷积计算,M(ω)为经过卷积平滑处理的初始频谱系数,其可以直接作为频谱系数,或者可以作为中间数据以便执行后续处理。其中,Wtri(ω)表示三角窗函数,其为使用三个数据点构成的窗函数,例如可以为Wtri(ω)=[0.25,0.50,0.25]。
基于基频的线性抑制处理用于对初始频谱系数(或经过其他优化处理的中间数据)中频率小于基频的频率段进行抑制(即渐入处理),可以防止由于加权处理(即加权变调输出处理中的加权部分)对低频信号能量带来的不稳定影响。例如当对经过卷积平滑处理的初始频谱系数进行基于极品的线性抑制处理时,可以按照:
Figure BDA0002910073840000191
进行基于基频的线性抑制处理。其中ω0为基频,otherwise即为ω≥ω0。需要说明的是,上述公式中的输入值为经过卷积平滑处理的初始频谱系数M(ω),在其他的实施方式中,可以直接以初始频谱系数或经过其他优化处理的中间数据作为输入值。上述公式中的输出值Ma(ω)可以直接作为频谱系数,或者可以作为中间数据以便执行其他优化处理。
为了保证频谱系数在时域上平滑过渡,还可以利用各个帧的相邻帧的频谱系数对当前各个帧的频谱系数进行进一步平滑。具体的,可以按照:
Mak(ω,n)=α·Ma(ω,n-1)+β·Ma(ω,n)+ξ·Ma(ω,n+1)
进行相邻系数平滑处理,其中,α,β,ξ为取值在[0,1]的实数,且满足α+β+ξ=1。α、β和ξ的具体大小不做限定,例如可以均为1/3,或者可以依次为0.25、0.5、0.25。需要说明的是,上述公式以左右各一帧的形式进行相邻系数平滑处理,在其他实施方式中,还可以以左右各两帧、三帧或更多帧的形式进行相邻系数平滑处理,本实施例对此不做限定。本实施例中,相邻系数平滑处理为最后一项优化处理,在其他实施例中,还可以采用其他的执行顺序执行三项或任意两项优化处理完成对初始频谱系数的优化,得到频谱系数。
应用本申请实施例提供的音频变调方法,可以对频谱系数进行优化,使得在后续利用频谱系数得到的输出音频能够更好的保持音色。
基于上述实施例,本实施例将说明一种具体的加权变调输出处理过程。请参考图10,图10为本申请实施例提供的一种输出音频获取过程的一种流程示意图,S103步骤包括:
S1031:利用频谱系数与变频频谱分布相乘,得到加权后频谱。
本实施例中,可以以Ma(ω)作为频谱系数。具体的,将频谱系数作用到变频信号的频谱,即变频频谱分布上,以加权的形式,基于输入音频信号对变频信号进行修正。可以理解的是,由于频谱系数为变频信号中的某一个变频帧对应的频谱系数,因此与其相乘的变频频谱分布同样为该变频帧对应的频谱。具体的,可以按照
Xps(ω,n)=Ma(ω)·Xfs(ω,n)
得到加权后频谱,其中Xps(ω,n)为加权后频谱,Xfs(ω,n)为变频频谱分布。
S1032:对加权后频谱进行基于窗函数的时域转换处理,得到时域输出音频。
由于加权后频谱仍为频域信号,因此需要将其转化为时域信号,并采用窗函数(例如汉宁窗)作为系数实现变调后输出,得到时域输出音频。具体的,可以按照:
Figure BDA0002910073840000201
得到时域输出音频。其中,t表示时域序列,n表示帧序列,即帧序号。按照上述过程对各个输入帧对应的加权后频谱进行转换处理,即可得到各个输入帧对应的时域输出音频xps(t,n)。
S1033:对时域输出音频进行重叠相加处理,得到输出音频。
在得到全部的时域输出音频后,需要对其进行拼接得到输出音频,本实施例中,可以利用重叠相加处理得到输出音频。具体的,可以按照:
xps(t)=OLA{xps(t,n)}
得到输出音频。其中,OLA为overlap addition,重叠相加处理。
应用本申请实施例提供的音频变调方法,可以在输入音频信号被分为多个输入帧,变频信号被对应分为多个变频帧时得到各个变频帧对应的时域输出音频,并通过重叠相加处理将各个时域输出音频进行拼接得到输出音频。利用该方法可以允许用户对输入音频信号的不同部分进行不同程度的变调处理,提高了变调处理的灵活程度。
下面对本申请实施例提供的音频变调装置进行介绍,下文描述的音频变调装置与上文描述的音频变调方法可相互对应参照。
请参考图11,图11为本申请实施例提供的一种音频变调装置的一种结构示意图,包括:
变频模块110,用于对输入音频信号进行变频处理,得到变频信号;
频谱系数生成模块120,用于提取所述输入音频信号对应的第一共振峰包络和所述变频信号对应的第二共振峰包络,并利用所述第一共振峰包络和所述第二共振峰包络生成频谱系数;
输出音频生成模块130,用于利用所述频谱系数对所述变频信号的变频频谱分布进行加权变调输出处理,得到输出音频。
在一种实施方式中,频谱系数生成模块120,包括:
差值处理单元,用于利用所述第一共振峰包络与所述第二共振峰包络做差,得到所述频谱系数。
在一种实施方式中,频谱系数生成模块120,包括:
初始频谱系数生成单元,用于利用所述共振峰包络生成初始频谱系数;
优化单元,用于对所述初始频谱系数进行卷积平滑处理和/或基于基频的线性抑制处理和/或相邻系数平滑处理,得到所述频谱系数。
在一种实时方式中,输出音频生成模块130,包括:
加权单元,用于利用所述频谱系数与所述变频频谱分布相乘,得到加权后频谱;
时域转换处理单元,用于对所述加权后频谱进行基于窗函数的时域转换处理,得到时域输出音频;
重叠相加处理单元,用于对所述时域输出音频进行重叠相加处理,得到所述输出音频。
在一种实施方式中,频谱系数生成模块120,包括:
频域生成单元,用于分别对所述输入音频信号和所述变频信号进行基于基频的分帧处理和频域转换处理,得到各个帧对应的所述变频频谱分布和输入频谱分布;
频谱平滑处理单元,用于分别对所述变频频谱分布和所述输入频谱分布进行功率谱计算和平滑处理,得到变频功率谱和输入功率谱;
倒谱处理单元,用于分别对所述变频功率谱和所述输入功率谱进行对数倒谱处理,得到变频倒谱和输入倒谱;
提升处理单元,用于分别利用倒谱提升窗对所述变频倒谱和所述输入倒谱进行倒谱加窗和频谱恢复处理,得到第一共振峰包络和第二共振峰包络。
在一种实施方式中,变频模块110,包括:
分帧单元,用于对所述输入音频信号进行分帧处理,并获取每个输入帧对应的变调系数;
变频处理单元,用于利用所述变调系数确定执行顺序,并根据所述执行顺序先后对所述输入帧进行采样处理和变速处理,得到变频帧;
拼接处理单元,用于对所述变频帧进行拼接处理得到所述变频信号。
在一种实施方式中,变频处理单元,包括:
终值确定子单元,用于获取处理当前周期内的多个所述变调系数,并确定各个所述变调系数的中值;
顺序确定子单元,用于根据所述中值与预设阈值的大小关系,确定所述处理周期内各个所述输入帧对应的所述执行顺序。
在一种实施方式中,拼接处理单元,包括:
初始变频信号获取子单元,用于将各个所述变频帧进行拼接,得到初始变频信号;
平滑处理子单元,用于利用渐入渐出加权窗对所述初始变频信号进行平滑处理,得到所述变频信号。
下面对本申请实施例提供的计算机可读存储介质进行介绍,下文描述的计算机可读存储介质与上文描述的音频变调方法可相互对应参照。
本申请还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现上述的音频变调方法的步骤。
该计算机可读存储介质可以包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本领域技术人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件的方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应该认为超出本申请的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系属于仅仅用来将一个实体或者操作与另一个实体或者操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语包括、包含或者其他任何变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (10)

1.一种音频变调方法,其特征在于,包括:
对输入音频信号进行变频处理,得到变频信号;
提取所述输入音频信号对应的第一共振峰包络和所述变频信号对应的第二共振峰包络,并利用所述第一共振峰包络和所述第二共振峰包络生成频谱系数;
利用所述频谱系数对所述变频信号的变频频谱分布进行加权变调输出处理,得到输出音频。
2.根据权利要求1所述的音频变调方法,其特征在于,所述利用所述第一共振峰包络和所述第二共振峰包络生成频谱系数,包括:
利用所述第一共振峰包络与所述第二共振峰包络做差,得到所述频谱系数。
3.根据权利要求1所述的音频变调方法,其特征在于,所述利用所述第一共振峰包络和所述第二共振峰包络生成频谱系数,包括:
利用所述第一共振峰包络和所述第二共振峰包络生成初始频谱系数;
对所述初始频谱系数进行卷积平滑处理和/或基于基频的线性抑制处理和/或相邻系数平滑处理,得到所述频谱系数。
4.根据权利要求1所述的音频变调方法,其特征在于,所述利用所述频谱系数对所述变频信号的变频频谱分布进行加权变调输出处理,得到输出音频,包括:
利用所述频谱系数与所述变频频谱分布相乘,得到加权后频谱;
对所述加权后频谱进行基于窗函数的时域转换处理,得到时域输出音频;
对所述时域输出音频进行重叠相加处理,得到所述输出音频。
5.根据权利要求1所述的音频变调方法,其特征在于,所述提取所述输入音频信号对应的第一共振峰包络和所述变频信号对应的第二共振峰包络,包括:
分别对所述输入音频信号和所述变频信号进行基于基频的分帧处理和频域转换处理,得到各个帧对应的所述变频频谱分布和输入频谱分布;
分别对所述变频频谱分布和所述输入频谱分布进行功率谱计算和平滑处理,得到变频功率谱和输入功率谱;
分别对所述变频功率谱和所述输入功率谱进行对数倒谱处理,得到变频倒谱和输入倒谱;
分别利用倒谱提升窗对所述变频倒谱和所述输入倒谱进行倒谱加窗和频谱恢复处理,得到所述第一共振峰包络和所述第二共振峰包络。
6.根据权利要求1至5任一项所述的音频变调方法,其特征在于,所述对输入音频信号进行变频处理,得到变频信号,包括:
对所述输入音频信号进行分帧处理,并获取每个输入帧对应的变调系数;
利用所述变调系数确定执行顺序,并根据所述执行顺序先后对所述输入帧进行采样处理和变速处理,得到变频帧;
对所述变频帧进行拼接处理得到所述变频信号。
7.根据权利要求6所述的音频变调方法,其特征在于,所述利用所述变调系数确定执行顺序,包括:
获取处理当前周期内的多个所述变调系数,并确定各个所述变调系数的中值;
根据所述中值与预设阈值的大小关系,确定所述处理周期内各个所述输入帧对应的所述执行顺序。
8.根据权利要求6所述的音频变调方法,其特征在于,所述对所述变频帧进行拼接处理得到所述变频信号,包括:
将各个所述变频帧进行拼接,得到初始变频信号;
利用渐入渐出加权窗对所述初始变频信号进行平滑处理,得到所述变频信号。
9.一种音频变调设备,其特征在于,包括存储器和处理器,其中:
所述存储器,用于保存计算机程序;
所述处理器,用于执行所述计算机程序,以实现如权利要求1至8任一项所述的音频变调方法。
10.一种计算机可读存储介质,其特征在于,用于保存计算机程序,其中,所述计算机程序被处理器执行时实现如权利要求1至8任一项所述的音频变调方法。
CN202110083776.4A 2021-01-21 2021-01-21 一种音频变调方法、装置、设备及存储介质 Pending CN112908351A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110083776.4A CN112908351A (zh) 2021-01-21 2021-01-21 一种音频变调方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110083776.4A CN112908351A (zh) 2021-01-21 2021-01-21 一种音频变调方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN112908351A true CN112908351A (zh) 2021-06-04

Family

ID=76118172

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110083776.4A Pending CN112908351A (zh) 2021-01-21 2021-01-21 一种音频变调方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN112908351A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113782050A (zh) * 2021-09-08 2021-12-10 浙江大华技术股份有限公司 声音变调方法、电子设备及存储介质
CN114067784A (zh) * 2021-11-24 2022-02-18 云知声智能科技股份有限公司 基频提取模型的训练方法及装置、基频提取方法及装置
CN114121029A (zh) * 2021-12-23 2022-03-01 北京达佳互联信息技术有限公司 语音增强模型的训练方法和装置以及语音增强方法和装置
CN114520006A (zh) * 2022-01-27 2022-05-20 北京声智科技有限公司 信号修正方法、装置、设备、存储介质及计算机程序产品

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101354889A (zh) * 2008-09-18 2009-01-28 北京中星微电子有限公司 一种语音变调方法及装置
US20130044889A1 (en) * 2011-08-15 2013-02-21 Oticon A/S Control of output modulation in a hearing instrument
CN109410973A (zh) * 2018-11-07 2019-03-01 北京达佳互联信息技术有限公司 变声处理方法、装置和计算机可读存储介质
CN111383646A (zh) * 2018-12-28 2020-07-07 广州市百果园信息技术有限公司 一种语音信号变换方法、装置、设备和存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101354889A (zh) * 2008-09-18 2009-01-28 北京中星微电子有限公司 一种语音变调方法及装置
US20130044889A1 (en) * 2011-08-15 2013-02-21 Oticon A/S Control of output modulation in a hearing instrument
CN109410973A (zh) * 2018-11-07 2019-03-01 北京达佳互联信息技术有限公司 变声处理方法、装置和计算机可读存储介质
CN111383646A (zh) * 2018-12-28 2020-07-07 广州市百果园信息技术有限公司 一种语音信号变换方法、装置、设备和存储介质

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
徐欣;李枚亭;: "基于频谱包络算法的语音转换研究", 数字技术与应用, no. 09 *
潘涛等: "基于不同算法的语音信号共振峰提取研究与实现", 《甘肃科技》, 30 November 2019 (2019-11-30) *
潘涛等: "基于不同算法的语音信号共振峰提取研究与实现", 甘肃科技, vol. 35, no. 22, 30 November 2019 (2019-11-30) *
赵力: "《语音信号处理》", 30 April 2003, 机械工业出版社 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113782050A (zh) * 2021-09-08 2021-12-10 浙江大华技术股份有限公司 声音变调方法、电子设备及存储介质
CN114067784A (zh) * 2021-11-24 2022-02-18 云知声智能科技股份有限公司 基频提取模型的训练方法及装置、基频提取方法及装置
CN114121029A (zh) * 2021-12-23 2022-03-01 北京达佳互联信息技术有限公司 语音增强模型的训练方法和装置以及语音增强方法和装置
CN114520006A (zh) * 2022-01-27 2022-05-20 北京声智科技有限公司 信号修正方法、装置、设备、存储介质及计算机程序产品

Similar Documents

Publication Publication Date Title
CN112908351A (zh) 一种音频变调方法、装置、设备及存储介质
RU2552184C2 (ru) Устройство для расширения полосы частот
CN100440314C (zh) 基于语音分析与合成的高品质实时变声方法
JP4892021B2 (ja) 信号帯域拡張装置
US20210193149A1 (en) Method, apparatus and device for voiceprint recognition, and medium
TR201810466T4 (tr) Özellik çıkarımı kullanılarak konuşmanın iyileştirilmesi için bir ses sinyalinin işlenmesine yönelik aparat ve yöntem.
US20140019125A1 (en) Low band bandwidth extended
TW201308316A (zh) 適應性聲音清晰度處理器
US10141008B1 (en) Real-time voice masking in a computer network
CN104538011A (zh) 一种音调调节方法、装置及终端设备
CN113421584B (zh) 音频降噪方法、装置、计算机设备及存储介质
CN113077806B (zh) 音频处理方法及装置、模型训练方法及装置、介质和设备
WO2015129465A1 (ja) 音声明瞭化装置及びそのためのコンピュータプログラム
RU2411595C2 (ru) Улучшение разборчивости речи в мобильном коммуникационном устройстве путем управления работой вибратора в зависимости от фонового шума
CN111739544A (zh) 语音处理方法、装置、电子设备及存储介质
CN112289343A (zh) 音频修复方法、装置及电子设备和计算机可读存储介质
CN113113033A (zh) 一种音频处理方法、设备及可读存储介质
CN119360830B (zh) 基于大模型的语音风格识别系统
JP2009223210A (ja) 信号帯域拡張装置および信号帯域拡張方法
CN112397087B (zh) 共振峰包络估计、语音处理方法及装置、存储介质、终端
CN112309425A (zh) 一种声音变调方法、电子设备及计算机可读存储介质
JP2019074580A (ja) 音声認識方法、装置およびプログラム
JP6333043B2 (ja) 音声信号処理装置
CN114495908A (zh) 一种基于时序卷积的语音驱动口型的方法和系统
JP6232710B2 (ja) 録音音声の明瞭化装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210604