CN101609667B

CN101609667B - Pmp播放器中实现卡拉ok功能的方法

Info

Publication number: CN101609667B
Application number: CN200910112224A
Authority: CN
Inventors: 陈长海; 方赛鸿
Original assignee: Fuzhou Rockchip Electronics Co Ltd
Current assignee: Rockchip Electronics Co Ltd
Priority date: 2009-07-22
Filing date: 2009-07-22
Publication date: 2012-09-05
Anticipated expiration: 2029-07-22
Also published as: CN101609667A

Abstract

本发明提供一种PMP播放器中实现卡拉OK功能的方法，包括同时进行的音乐背景音的获取步骤和人声混响音获取步骤，以及之后进行的音乐背景音与人声混响音的混缩步骤。本发明的优点在于：不仅能够实现卡拉OK功能，还设置有消音等级，而且能利用普通的音视频文件产生伴奏带，并会给用户渲染不同的K歌场景，极大的增加了卡拉OK功能的使用性。

Description

PMP播放器中实现卡拉OK功能的方法

【技术领域】

本发明涉及一种PMP播放器系统，尤其涉及一种PMP播放器中实现卡拉OK功能的方法。

【背景技术】

PMP播放器(Portable Media Player，即“便携式媒体播放器”)。成为使用广泛的便捷式电子产品，由于其体积小，便于携带，随时随地的音乐享受等特点，已成为现实生活中的人们，特别是受年轻潮流一代的喜爱。但是，仅仅具有音乐播放功能还是不能跟上现代快节奏生活的步伐，不能满足人们主动参与式的音乐体验，因此，具有卡拉OK功能的PMP播放器也随之诞生。这种便捷式的卡拉OK，使用户可以随时随地享受主动式参与音乐的感觉，而且还可以当练唱机，进一步提高自己的演唱水平。

但是现有的具有卡拉OK功能的PMP播放器仍然具有不足之处，伴奏音乐必需是通过外部PC软件进行转换或者下载特殊格式的文件，不能给用户带来随时随地的便利，同时，单一的K歌模式不能让用户体验到不同的KTV感觉。对于卡拉OK的用户来说，不仅仅需要的是卡拉OK功能，而且更需要的是体验到不同K歌模式带来的乐趣。

美国专利第6690799B1号公开了与人声消除电路相关的“立体声信号处理设备”，其是运用传统人声消除的方法，即当人声分量位于音频信号的中心通道时，用左声道和右声道之间的差值以消除人声分量，同时获取消除人声后的信号加上原声的低频和高频成分而获得的最后的背景音，当人声未位于中心位置，或者左右声道与人耳敏感的频带即200Hz到4KHz的信号相近时，该信号就输出与原始声音相比非常生硬的声音。

中国专利第200610159501.X号，公开了与卡拉OK系统中相关的“用于消除音频信号中的人声分量的设备和方法”。其方法包括：延迟左和右声道输入信号，并对所延迟的左和右声道输入信号与右和左声道输入信号进行前馈交叉混合，以从左和右声道输入信号中消除第一人声分量，从而生成左和右声道信号；延迟所述左和右声道信号，并对所延迟的左和右声道信号与右和左声道信号进行前馈交叉混合，以加宽音场，从而生成第二左和右声道信号；和对所述第二左和右声道信号进行低通滤波，并对低频分量的经过低通滤波的左和右声道信号与第二左和右声道信号之间的差值的高频分量进行混合以消除人声分量，从而生成最终的左和右声道信号即以生成最终的伴奏乐。但该人声消除方法最终输出的信号的频段只有高频分量跟低频分量，中间人耳敏感的频段很少或消除掉，影响了伴奏带效果，同时也存在人声不位于中心时，效果不理想的问题。

因此，上述两个专利中涉及的人声消除方法，在某些音频文件可以得到很好的效果，没有考虑的普遍性，高等级人声消除后会残留人的唇音跟齿音。同时，没有设置消音等级、混响模式不能满足市场上不同人群的需要。

【发明内容】

本发明要解决的技术问题，在于提供一种PMP播放器中实现卡拉OK功能的方法，不仅能够实现卡拉OK功能，还设置有消音等级，而且能利用普通的音视频文件产生伴奏带，并会给用户渲染不同的K歌场景，极大的增加了卡拉OK功能的使用性。

本发明是这样实现的：一种PMP播放器中实现卡拉OK功能的方法，其特征在于：包括同时进行的音乐背景音的获取步骤和人声混响音获取步骤，以及之后进行的音乐背景音与人声混响音的混缩步骤，其中，

所述音乐背景音的获取步骤包括：

步骤110、获取PMP播放器中音视频文件解码后的音频流数字信号；

步骤120、对步骤110中的解码后的音频流数字信号的人声进行消除；

步骤130、对步骤110中的解码后的音频流数字信号进行原歌曲低频成分保留；

步骤140、将步骤120的人声消除后的音频流数字信号与步骤130的低频保留过的音频流数字信号进行混缩得到音乐背景音；

所述人声混响音获取步骤包括：

步骤210、通过麦克获取用户的人声数字音频信号；

步骤220、人声数字音频信号经过混响数字信号处理算法后形成人声混响音；

所述音乐背景音与人声混响音的混缩步骤具体为：

步骤300、将步骤140中的音乐背景音与步骤220的人声混响音进行混缩后形成输出音频信号。

上述的技术方案中，

所述音乐背景音的获取步骤在所述步骤120之后还包括：

步骤150、将音乐背景音通过低频信号增强滤波器和齿唇音消除的至少一种处理后得到最终的背景音乐。

所述在步骤120具体是同时进行左、右声道的等级消音，其中，所述右声道的等级消音包括：

步骤121、将110的解码立体音频流信号的左声道信号反相；

步骤122、将121中的反相信号乘以一个消音因子，该消音因子的值为0～1之间，值越大，等级越高；

步骤123、将122音频信号与110音频信号的右声道相加得到消音后的右声道信号；

所述左声道的等级消音包括：

步骤125、将110的解码立体音频流信号的右声道信号反相；

步骤126、将125中的反相信号乘以一个消音因子，该消音因子的值为0～1之间，值越大，等级越高；

步骤127、将126音频信号与110音频信号的左声道相加得到消音后的左声道信号。

在高等级的消音模式中，是用带阻滤波器消除消音后所引起的齿音和唇音。

所述步骤210中，通过麦克获取的用户人声信号是经过A/D单元转换成具有与所述步骤110中的音频流数字信号相等采样率的人声信号。

所述步骤220中的混响是模拟大厅、中厅、小厅的K歌模式进行混响。

所述步骤220中的输出音频信号是经过设置干声和湿声的比例进行混缩后获得。

本发明具有如下优点：不仅能够实现卡拉OK功能，还设置有消音等级，而且能利用普通的音视频文件产生伴奏带(通过步骤120至步骤150实现)，并会给用户渲染不同的K歌场景，极大的增加了卡拉OK功能的使用性。

【附图说明】

下面参照附图结合实施例对本发明作进一步的说明。

图1是实现本发明方法的流程框图。

图2是本发明方法的系统框图。

图3a和图3b是实现本发明方法左、右声道的等级消音步骤流程框图。

图4是本发明方法产生伴奏带实现结构示意图。

图5是实现本发明方法混响步骤的混响模块结构示意图。

【具体实施方式】

请参阅图2所示，是实现本发明方法的系统框图。该系统包括音视频文件解码模块1、人声消除模块2、低频保留模块3、第一混合缩音模块4、后期处理模块5、声音采集转换模块6、混响处理模块7以及第二混合缩音模块8。所述音视频文件解码模块1分别通过所述人声消除模块2、低频保留模块3与所述第一混合缩音模块4连接后再连接至所述后期处理模块5；所述声音采集转换模块6与所述混响处理模块7连接后与所述后期处理模块5一并连接至所述第二混合缩音模块8。

如图1所示，本发明PMP播放器中实现卡拉OK功能的方法，包括同时进行的音乐背景音的获取步骤100和人声混响音获取步骤200，以及之后进行的音乐背景音与人声混响音的混缩步骤300，请结合图1和图2所示，所述音乐背景音的获取步骤100包括：

步骤110、通过所述音视频文件解码模块1获取PMP播放器中音视频文件解码后的音频流数字信号，左、右声道的音频信号。

步骤120、通过所述人声消除模块2对步骤110中的解码后的音频流数字信号的人声进行消除。

步骤130、同时通过所述低频保留模块3对步骤110中的解码后的音频流数字信号进行原歌曲低频成分保留。该步骤为可选步骤，在伴乐均为低频的情况下需选。所述低频保留模块3是将所述音视频文件解码模块1产生的双声道音频信号经过低通滤波器保留了原声中的低频成分的信号。

步骤140、通过所述第一混合缩音模块4将步骤120的人声消除后的音频流数字信号与步骤130的低频保留过的音频流数字信号进行混缩得到音乐背景音。其主要是将所述人声消除模块2消除人声后的双声道信号与所述低频保留模块3进行低频保留的双声道信号进行对应声道的混合缩音，保证混合后的信号不会产生饱和溢出。如果对伴奏背景音质量要求不高的情况下，所述第一混合缩音模块4输出的信号可以当做伴奏音。如果对现有的伴奏音不满意，可以进一步进行后期的处理。

步骤150、通过后期处理模块5将音乐背景音通过低频信号增强滤波器和齿唇音消除的至少一种处理后得到最终的背景音乐。所述后期处理模块5进行的后期处理包括了低频加强和减弱齿唇音干扰两个模块，该两个模块可以做任何组合，可以只进行其中任一模块，或者两个模块都进行。根据人耳感知特性，可知人耳对低频信号比较敏感，因此低频加强目的在于掩盖由人声消除引起的音频信号高频成分损失，在人声消除后，某些歌曲会残留人的齿音跟唇音，会导致伴奏音中伴有“嘶嘶”的噪音，此时，必需降低噪声的干扰。

所述人声混响音获取步骤200包括：

步骤210、通过所述声音采集转换模块6用麦克获取用户的人声数字音频信号，该步骤是通过麦克获取的用户人声信号是经过A/D单元转换成具有与所述步骤110中的音频流数字信号相等采样率的人声信号(单、双声道亦可)。

步骤220、通过所述混响处理模块7将人声数字音频信号经过混响数字信号处理算法后形成人声混响音，模拟在不同的场景下进行K歌。该步骤中的混响是模拟大厅、中厅、小厅的K歌模式进行混响，其输出音频信号是经过设置干声和湿声的比例进行混缩后再输出。

所述音乐背景音与人声混响音的混缩步骤300具体为：

步骤300、所述第二混合缩音模块8将步骤150中的音乐背景音与步骤220的人声混响音进行混缩后形成输出音频信号。

本发明方法中所述步骤120具体是同时进行左、右声道的等级消音，其通过所述人声消除模块2将所述音视频文件解码模块1产生的左(右)声道反相后乘以消音因子，与原来的右(左)声道进行相加，等到消除人声后的右(左)声道音频信号：

请参阅图3a所示，该右声道的等级消音包括：

步骤121、将110的解码立体音频流信号的左声道信号反相；

请参阅图3b所示，该左声道的等级消音包括：

步骤125、将110的解码立体音频流信号的右声道信号反相；

步骤127、将126音频信号与110音频信号的左声道相加得到消音后的左声道信号。且在高等级的消音模式中，是用带阻滤波器消除消音后所引起的齿音和唇音。

再请参阅图4所示，是本发明方法产生伴奏带(即上述步骤120至步骤150)实现结构示意图，图中，加号是进行混缩、PR为反相器、LPF为低通滤波器、LFE为低频加强滤波器、BSF为带阻滤波器，其中虚线框是后期处理模块5。以下具体解释伴奏音产生的方法，因立体声存在双声道，而产生伴奏音中对两声道所进行的处理方法都是相同，在此只以左声道为例：

图中Lin为解码后的左声道音频信号，它是脉冲调制(PCM)信号。Lin信号要分三路走，一路是进行LPF滤波得到Lin信号的低频成分，一路是经过PR反相器后得到Lre再乘以消音因子G2对右声道消除人声提供参考信号Lre*G2，一路保留直通。然后将直通信号与右声道的参考信号Rre*G1进行混缩得到L，在将低频成分信号加上上述的L得到初步的消除人声的左声道信号L1。再对L1信号进行后期处理，具体流程是L1信号经过LFE低频加强滤波器和、或BSP带阻滤波器得到最后的伴奏音的左声道信号。其中LFE以及BSP是可选的。

图5是实现本发明方法混响步骤的混响模块结构示意图。图中，A为人声的音频信号，A1、B1为大厅模式的入口和出口，A2、B2为中厅模式的入口和出口，A3、B3为小厅模式的入口和出口，B为混响后的音频信号。

根据用户所选择的K歌模式，系统自动会将人声信号A送入对应模式的混响算法，具体可以采用现有文献中公开的某些混响算法，如“一种Schroeder的混响算法”(曾荣，华中科技大学硕士研究生学位论文，2003年4月，P21-P26)，在保证质量的前提下，选择低运算量的算法易于在PMP播放器系统中实现。

Claims

1.一种PMP播放器中实现卡拉OK功能的方法，其特征在于：包括同时进行的音乐背景音的获取步骤和人声混响音获取步骤，以及之后进行的音乐背景音与人声混响音的混缩步骤，其中，

所述音乐背景音的获取步骤包括：

所述人声混响音获取步骤包括

步骤210、通过麦克获取用户的人声数字音频信号；

所述音乐背景音与人声混响音的混缩步骤具体为：

2.根据权利要求1所述的PMP播放器中实现卡拉OK功能的方法，其特征在于：所述音乐背景音的获取步骤在所述步骤140之后还包括：

3.根据权利要求1所述的PMP播放器中实现卡拉OK功能的方法，其特征在于：所述在步骤120具体是同时进行左、右声道的等级消音，其中，

所述右声道的等级消音包括：

步骤121、将110的解码立体音频流信号的左声道信号反相；

所述左声道的等级消音包括：

步骤125、将110的解码立体音频流信号的右声道信号反相；

4.根据权利要求3所述的PMP播放器中实现卡拉OK功能的方法，其特征在于：在高等级的消音模式中，是用带阻滤波器消除消音后所引起的齿音和唇音。

5.根据权利要求1所述的PMP播放器中实现卡拉OK功能的方法，其特征在于：所述步骤210中，通过麦克获取的用户人声信号是经过A/D单元转换成具有与所述步骤110中的音频流数字信号相等采样率的人声信号。

6.根据权利要求1所述的PMP播放器中实现卡拉OK功能的方法，其特征在于：所述步骤220中的混响是模拟大厅、中厅、小厅的K歌模式进行混响。

7.根据权利要求6所述的PMP播放器中实现卡拉OK功能的方法，其特征在于：所述步骤220中的输出音频信号是经过设置干声和湿声的比例进行混缩后获得。