[go: up one dir, main page]

CN107895580B - 一种音频信号的重建方法和装置 - Google Patents

一种音频信号的重建方法和装置 Download PDF

Info

Publication number
CN107895580B
CN107895580B CN201610879165.XA CN201610879165A CN107895580B CN 107895580 B CN107895580 B CN 107895580B CN 201610879165 A CN201610879165 A CN 201610879165A CN 107895580 B CN107895580 B CN 107895580B
Authority
CN
China
Prior art keywords
compressed data
audio signals
channel
frequency domain
audio signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610879165.XA
Other languages
English (en)
Other versions
CN107895580A (zh
Inventor
蒋三新
应忍冬
文飞
江晓波
刘佩林
金文宇
肖玮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN201610879165.XA priority Critical patent/CN107895580B/zh
Priority to PCT/CN2017/086390 priority patent/WO2018058989A1/zh
Publication of CN107895580A publication Critical patent/CN107895580A/zh
Application granted granted Critical
Publication of CN107895580B publication Critical patent/CN107895580B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/06Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明实施例提供一种音频信号的重建方法和终端,涉及通信领域,能够解决信号重建精度差和速度慢的问题。其方法为:在对至少两个音频信号进行压缩采样时,将至少两个音频信号根据至少两个音频信号间的相关性进行分组,并将分组信息传递给远程终端,远程终端可以根据分组信息将至少两个音频信号对应的压缩数据进行分组,在信号重建时采用分组间并行重建,分组内联合重建。本发明实施例用于音频信号的压缩采样和重建。

Description

一种音频信号的重建方法和装置
技术领域
本发明涉及通信领域,尤其涉及一种音频信号的重建方法和装置。
背景技术
在音频信号压缩采样与重建的过程中,重建算法需要同时满足精度与速度的要求,精度过差或速度过慢都无法满足实际的应用需求。信号的压缩采样是通过将原始信号与一个测量矩阵相乘实现,测量矩阵需要传递给信号重建端以实现压缩信号的恢复。与传统的音频编解码方案相似,音频信号的压缩采样也是以“帧”为单位进行的。
对于多麦克风阵列信号处理的特殊情况,多通道的海量数据对重建算法的运算速度提出了更高的要求。同时,各个通道的接收信号之间由于存在强相关性,也给提高重建精度带来更多的可能性。对于多通道压缩采样的音频数据,可以通过并行处理的方式来提高运算速度。但并行处理要求并行的单元之间相互独立,这意味着通道之间并行将导致通道之间的相关性无法得到利用,从而使得重建精度受限。反之,对多个通道进行联合重建将导致通道之间相互耦合,无法实现并行加速。
发明内容
本发明实施例提供一种音频信号的重建方法和终端,能够解决信号重建精度差和通道间无法并行加速的问题。
一方面,提供一种音频信号的重建方法,包括:获取至少两个通道的至少两个音频信号对应的压缩数据,至少两个通道与至少两个音频信号一一对应;获取至少两个音频信号对应的通道所在的组的分组信息;根据分组信息,将至少两个音频信号对应的压缩数据进行分组,从而得到压缩数据组;获取测量矩阵,根据压缩数据组内的压缩数据和测量矩阵,联合重建压缩数据组内的压缩数据对应的频域系数;对频域系数进行频域到时域的变换,从而获得压缩数据组内的压缩数据对应的音频信号。于是,对于音频信号的重建端来说,在接收到至少两个通道的至少两个音频信号对应的压缩数据后,可根据至少两个音频信号对应的通道所在组的分组信息将至少两个音频信号对应的压缩数据进行分组,这样可对得到的压缩数据组内的压缩数据进行联合重建,可提升组内联合重建的精度,各组间进行联合重建可提升联合重建的速度。
在一种可能的设计中,所述方法还包括:获取至少两个音频信号的语乐音标签信息,语乐音标签信息用于指示至少两个音频信号为语音信号或乐音信号;获取至少两个通道的至少两个音频信号对应的压缩数据包括:根据语乐音标签信息,获取语乐音标签信息对应的帧长;根据帧长,提取至少两个音频信号对应的测量数据;对测量数据进行反量化,从而获得至少两个音频信号对应的压缩数据。于是,对于乐音信号这种时变特性相对缓慢的信号,一方面,可以通过增加信号帧长来提升信号重建的精度,另一方面,对于相同长度的信号,信号帧长的增加减少了需要处理的信号帧的数量,也进一步降低了信号处理算法的运行时间。
在一种可能的设计中,根据压缩数据组内的压缩数据和测量矩阵,联合重建压缩数据组内的压缩数据对应的频域系数包括:根据压缩数据组内一个通道对应的压缩数据对应的频域系数、压缩数据组内另一个通道对应的压缩数据以及测量矩阵,计算压缩数据组内另一个通道对应的压缩数据对应的频域系数。其计算方法可以为近似信息传递(Approximate Message Passing,AMP)算法,也可以为其他的算法,本申请不做限定,可以得到精度较高的压缩数据对应的频域系数。
在一种可能的设计中,根据压缩数据组内一个通道对应的压缩数据对应的频域系数、压缩数据组内另一个通道对应的压缩数据以及测量矩阵,计算压缩数据组内另一个通道对应的压缩数据对应的频域系数包括:根据压缩数据组内第i个通道对应的压缩数据对应的频域系数、压缩数据组内第i+1个通道对应的压缩数据以及测量矩阵,计算第i+1个通道对应的压缩数据对应的频域系数,直至计算得到压缩数据组内第k个通道对应的压缩数据对应的频域系数,i为小于k的正整数,k为压缩数据组内的通道总数。也即对于同一压缩数据组内的压缩数据,可对分组内的各个通道的压缩数据进行联合重建,提升频域系数的精度。
在一种可能的设计中,方法还包括:根据压缩数据组内第j个通道对应的压缩数据对应的频域系数、压缩数据组内第j-1个通道对应的压缩数据以及测量矩阵,计算第j-1个通道对应的压缩数据对应的频域系数,直至计算得到压缩数据组内第1个通道对应的压缩数据对应的频域系数,j为小于或者等于k,并且大于1的正整数。也就是说,对于同一压缩数据组内的压缩数据来说,可以从第i个通道开始计算直至得到第k个通道对应的压缩数据对应的频域系数,再从第k个通道开始计算直至得到第j个通道对应的压缩数据对应的频域系数,该过程可以称为一个算法迭代,直至得到的压缩数据对应的频域系数达到预设要求,即通过组内的压缩数据进行联合重建得到该分组的频域系数。
在一种可能的设计中,方法还包括:根据预设的初始化频域系数、第1个通道对应的压缩数据以及测量矩阵,计算第2个通道对应的压缩数据对应的频域系数。即压缩数据组内的第1个通道对应的频域系数可进行预设。
在一种可能的设计中,根据压缩数据组内一个通道对应的压缩数据对应的频域系数、压缩数据组内另一个通道对应的压缩数据以及测量矩阵,计算压缩数据组内另一个通道对应的压缩数据对应的频域系数包括:根据一个通道对应的压缩数据对应的频域系数,确定另一个通道对应的压缩数据对应的先验频域系数;将先验频域系数作为另一个通道对应的压缩数据对应的频域系数的先验,并根据另一个通道对应的压缩数据以及测量矩阵,计算压缩数据组内另一个通道对应的压缩数据对应的频域系数。也就是说,将上一通道得到的压缩数据对应的频域系数作为下一个通道对应的压缩数据对应的先验频域系数,以先验频域系数为先验,计算下一个通道对应的压缩数据对应的频域系数,以得到该压缩数据组精度较高的频域系数。
另一方面,提供一种音频信号的压缩采样方法,包括:获取至少两个通道的至少两个音频信号,至少两个通道与至少两个音频信号一一对应;计算至少两个音频信号之间的相关性,根据相关性对至少两个音频信号进行分组,从而得到至少两个通道中的通道所在的组的分组信息;对至少两个音频信号进行时域到频域的变换,从而获得至少两组频域系数,至少两组频域系数与至少两个音频信号一一对应;获取测量矩阵,根据测量矩阵对至少两组频域系数进行采样,从而获得至少两个音频信号对应的压缩数据。这样当压缩采样后的压缩数据传输至音频信号的重建装置时,重建装置可根据压缩数据携带的分组信息对至少两个音频信号的压缩数据进行分组,以便于对相关性高的通道的压缩数据进行联合重建,分组间并行重建,得到至少两个通道的音频信号,以提升信号重建的精度和速度。
在一种可能的设计中,在获取测量矩阵之前,方法还包括:确定至少两个音频信号的语乐音标签信息,语乐音标签信息用于指示至少两个音频信号为语音信号或乐音信号;根据语乐音标签信息,确定至少两个音频信号的帧长。于是,对于乐音信号这种时变特性相对缓慢的信号,一方面,可以通过增加信号帧长来提升信号重建的精度,另一方面,对于相同长度的信号,信号帧长的增加减少了需要处理的信号帧的数量,也进一步降低了信号处理算法的运行时间。
在一种可能的设计中,获取测量矩阵包括:根据帧长,获得帧长对应的测量矩阵。也即,对于语音信号和乐音信号,根据不同的帧长可生成相应的测量矩阵。例如对于乐音信号,可生成乐音结构化测量矩阵,对于语音信号,可生成语音信号结构化测量矩阵。
在一种可能的设计中,计算至少两个音频信号之间的相关性,根据相关性对至少两个音频信号进行分组包括:获取至少两个音频信号中的第一音频信号,获取除第一音频信号外其余音频信号中与第一音频信号相关性最高的前m个音频信号,并将第一音频信号和与第一音频信号相关性最高的前m个音频信号作为一组音频信号,m为大于或等于1的正整数;从除第一音频信号和与第一音频信号相关性最高的前m个音频信号外其余音频信号中继续选取第二音频信号并获取除第一音频信号、第二音频信号和与第一音频信号相关性最高的前m个音频信号外其余通道中与第二音频信号相关性最高的前m个通道,并将第二音频信号和与第二音频信号相关性最高的前m个音频信号作为另一组音频信号,直至至少两个音频的分组完成。其中,计算两个音频信号之间的相关性可以通过欧氏距离算法获取,也可以通过其他的方式获取,本申请不做限定。
在一种可能的设计中,至少两个音频信号之间的相关性包括至少两个音频信号之间的距离。也就是说,两个音频信号之间的相关性可以理解为音频信号在空间上的相关性。
再一方面,提供一种音频信号的重建装置,包括:获取单元,用于获取至少两个通道的至少两个音频信号的压缩数据,至少两个通道与至少两个音频信号一一对应;获取单元,还用于获取至少两个音频信号对应的通道所在的组的分组信息;分组单元,用于根据分组信息,将至少两个音频信号的压缩数据进行分组,从而得到压缩数据组;重建单元,用于获取测量矩阵,根据压缩数据组内的压缩数据和测量矩阵,联合重建压缩数据组内的压缩数据对应的频域系数;变换单元,用于对频域系数进行频域到时域的变换,从而获得压缩数据组内的压缩数据对应的音频信号。
在一种可能的设计中,获取单元还用于:获取至少两个音频信号的语乐音标签信息,语乐音标签信息用于指示至少两个音频信号为语音信号或乐音信号;获取单元,用于:根据语乐音标签信息,获取语乐音标签信息对应的帧长;根据帧长,提取至少两个音频信号对应的测量数据;对测量数据进行反量化,从而获得至少两个音频信号对应的压缩数据。
在一种可能的设计中,重建单元用于:根据压缩数据组内一个通道对应的压缩数据对应的频域系数、压缩数据组内另一个通道对应的压缩数据以及测量矩阵,计算压缩数据组内另一个通道对应的压缩数据对应的频域系数。
在一种可能的设计中,重建单元用于:根据压缩数据组内第i个通道对应的压缩数据对应的频域系数、压缩数据组内第i+1个通道对应的压缩数据以及测量矩阵,计算第i+1个通道对应的压缩数据对应的频域系数,直至计算得到压缩数据组内第k个通道对应的压缩数据对应的频域系数,i为小于k的正整数,k为压缩数据组内的通道总数。
在一种可能的设计中,重建单元还用于:根据压缩数据组内第j个通道对应的压缩数据对应的频域系数、压缩数据组内第j-1个通道对应的压缩数据以及测量矩阵,计算第j-1个通道对应的压缩数据对应的频域系数,直至计算得到压缩数据组内第1个通道对应的压缩数据对应的频域系数,j为小于或者等于k,并且大于1的正整数。
在一种可能的设计中,重建单元还用于:根据预设的初始化频域系数、第1个通道对应的压缩数据以及测量矩阵,计算第2个通道对应的压缩数据对应的频域系数。
在一种可能的设计中,重建单元用于:根据一个通道对应的压缩数据对应的频域系数,确定另一个通道对应的压缩数据对应的先验频域系数;将先验频域系数作为另一个通道对应的压缩数据对应的频域系数的先验,并根据另一个通道对应的压缩数据以及测量矩阵,计算压缩数据组内另一个通道对应的压缩数据对应的频域系数。
又一方面,提供一种音频信号的压缩采样装置,包括:获取单元,用于获取至少两个通道的至少两个音频信号,至少两个通道与至少两个音频信号一一对应;分组单元,用于计算至少两个音频信号之间的相关性,根据相关性对至少两个音频信号进行分组,从而得到至少两个通道中的通道所在的组的分组信息;变换单元,用于对至少两个音频信号进行时域到频域的变换,从而获得至少两组频域系数,至少两组频域系数与至少两个音频信号一一对应;获取单元,还用于获取测量矩阵;采样单元,用于根据测量矩阵对至少两组频域系数进行采样,从而获得至少两个音频信号对应的压缩数据。
在一种可能的设计中,还包括确定单元,用于:确定至少两个音频信号的语乐音标签信息,语乐音标签信息用于指示至少两个音频信号为语音信号或乐音信号;根据语乐音标签信息,确定至少两个音频信号的帧长。
在一种可能的设计中,获取单元用于:根据帧长,获得帧长对应的测量矩阵。
在一种可能的设计中,分组单元用于:获取至少两个音频信号中的第一音频信号,获取除第一音频信号外其余音频信号中与第一音频信号相关性最高的前m个音频信号,并将第一音频信号和与第一音频信号相关性最高的前m个音频信号作为一组音频信号,m为大于或等于1的正整数;从除第一音频信号和与第一音频信号相关性最高的前m个音频信号外其余音频信号中继续选取第二音频信号并获取除第一音频信号、第二音频信号和与第一音频信号相关性最高的前m个音频信号外其余通道中与第二音频信号相关性最高的前m个通道,并将第二音频信号和与第二音频信号相关性最高的前m个音频信号作为另一组音频信号,直至至少两个音频的分组完成。
在一种可能的设计中,至少两个音频信号之间的相关性包括至少两个音频信号之间的距离。
由此一来,在本发明实施例中,音频信号的压缩采样装置根据至少两个音频信号之间的相关性对至少两个音频信号进行分组,从而得到至少两个通道中的通道所在组的分组信息,而后对至少两个音频信号进行时域到频域的变换,从而获得至少两组频域系数,至少两组频域系数与至少两个音频信号一一对应,获取测量矩阵,根据测量矩阵对至少两组频域系数进行采样,从而获得至少两个音频信号对应的压缩数据,这样将至少两个通道的至少两个音频信号对应的压缩数据传输至音频信号的重建装置时可携带至少两个音频信号对应的通道所在的组的分组信息,以便重建装置可根据分组信息将至少两个音频信号的压缩数据进行分组,从而得到压缩数据组,从而根据压缩数据组内的压缩数据和测量矩阵,联合重建压缩数据组内的压缩数据对应的频域系数,而后对频域系数进行频域到时域的变换,从而获得压缩数据组内的压缩数据对应的音频信号,也就是说,重建装置在进行联合重建是,是对压缩数据组内的压缩数据进行联合重建,由于压缩采样装置在对音频信号进行分组时是根据至少两个音频信号之间的相关性对至少两个音频信号进行分组的,也就是说相关性强的音频信号分为一组,这样,重建装置在重建音频信号时可根据组内相关性强的压缩数据进行联合重建,可以提升音频信号重建的精度,多个分组可以并行进行联合重建,从而可提升联合重建的速度。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种远程电话会议系统的示意图;
图2为本发明实施例提供的一种音频信号的压缩采样方法的流程示意图;
图3为本发明实施例提供的一种音频信号的重建方法的流程示意图;
图4为本发明实施例提供的一种音频信号压缩和重建方法的流程示意图;
图5为本发明实施例提供的一种终端的结构示意图;
图6为本发明实施例提供的一种终端的结构示意图;
图7为本发明实施例提供的一种终端的结构示意图;
图8为本发明实施例提供的一种计算设备的结构示意图;
图9为本发明实施例提供的一种计算设备的结构示意图;
图10为本发明实施例提供的一种计算设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明实施例中,音频信号压缩采样与重建可应用于多种应用场景,例如远程电话会议系统,如图1所示,该系统可包括包括麦克风阵列的计算设备和远程终端,该包括麦克风阵列的计算设备可对说话人对应的音频信号进行压缩采样,并通过有线或无线的方式传输至远程终端,远程终端可以对接收到的数据进行重建,得到原始的音频信号,以便麦克风阵列侧的用户与远程终端侧的用户实时进行电话会议。
在本发明实施例中,麦克风阵列可以是按一定距离排列放置的一组麦克风,通过声波抵达阵列中每个麦克风之间的微小时差的相互作用,麦克风阵列可以得到比单个的麦克风更好地指向性。计算设备可以包括至少两个麦克风、声源处理模块和音频数据输出模块。声源处理模块用于对麦克风采集到的音频进行压缩采样,音频数据输出模块用于对压缩采样后的数据进行量化后传输至远程终端。与计算设备通信的远程终端可以为个人电脑(Personal Computer,PC)、智能手机、多媒体终端等。
本发明为了解决多通道联合重建时信号重建精度差的问题,提出了一种音频信号的压缩采样方法,通过至少两个通道的至少两个音频信号之间的相关性对多个音频信号进行分组,从而得到至少两个通道中的通道所在组的分组信息,以便于在远程终端进行信号重建时将组内相关性高的音频信号之间进行联合重建,提升信号重建的精度,相应地,本发明实施例还提供一种音频信号的重建方法,终端在接收到至少两个通道的至少两个音频信号的压缩数据时,可根据分组信息对至少两个音频信号的压缩数据进行分组,以对每个组内的压缩数据进行联合重建,由于组内音频信号间相关性高,可有效提升信号的重建精度,多个分组通道并行进行重建,可提升信号的重建速度。
本发明实施例提供一种音频信号的压缩采样方法,如图2所示,包括:
201、计算设备获取至少两个通道的至少两个音频信号,至少两个通道与至少两个音频信号一一对应。
计算设备中的麦克风阵列可在人说话时采集到至少两个通道的至少两个音频信号,通道与音频信号一一对应。
202、计算设备计算至少两个音频信号之间的相关性,根据相关性对至少两个音频信号进行分组,从而得到至少两个通道中的通道所在的组的分组信息。
例如多麦克风阵列的通道之间的相对时延不同,使得不同通道的音频信号之间的相关程度有差别,也使得所有通道的音频信号联合重建精度受到影响。因此,本发明可以从每个通道的音频信号中各取一帧数据获取通道之间的相关性,进而可将相关性强度大的音频信号分为一组,可以理解为将多麦克风阵列划分为多个子阵列,以便在联合重建时在子阵列内联合重建,可提升子阵列之间并行加速和子阵列内通道间的音频信号联合重建的精度,同时对多个子阵列进行重建,可提升联合重建的速度。
分组信息可以用不同的标识区别不同的分组,即每个通道对应自身所属的组的分组标识。
203、计算设备对至少两个音频信号进行时域到频域的变换,从而获得至少两组频域系数,至少两组频域系数与至少两个音频信号一一对应。
计算设备可对各通道对应的音频信号的一帧数据进行从时域变换到频域的变换,得到一帧数据对应的频域系数,这样至少两个音频信号的分别对应的一帧数据从时域变换到频域,可得到至少两组频域系数。这是由于时域可以直观的观测到信号的形状,但是不能用有限的参数对信号进行准确的描述,而频域分析可以将复杂信号分解为简单的信号的叠加,可以更加精确的了解信号的“构造”。具体可以通过修正离散余弦变换(ModifiedDiscrete Cosine Transform,MDCT)算法将音频信号的一帧数据从时域变换到频域,也可以采用其它的算法,本申请不做限定。
204、计算设备获取测量矩阵,根据测量矩阵对至少两组频域系数进行采样,从而获得至少两个音频信号对应的压缩数据。
压缩数据可以理解为压缩采样后的数据。
计算设备可以根据预设的帧长确定待生成的测量矩阵的列数,例如帧长为4096,那么待生成的测量矩阵的列数为4096,根据预设的压缩率可获知待生成的测量矩阵的行数,例如预设的压缩率为1/3,则待生成的测量矩阵的行数为列数4096乘以1/3取整得到,而后,再根据预设的测量矩阵的类型和所获得的行数和列数生成测量矩阵。而后,计算设备可以将测量矩阵与至少两组频域系数相乘进行压缩采样,得到至少两个音频信号的压缩数据。
而后,可以对采样后得到的至少两个音频信号对应的压缩数据进行量化,得到量化后的值。其中量化是用有限个幅度值近似原来连续变化的幅度值,把模拟信号的连续幅度变为有限数量的有一定间隔的离散值,从而可以对量化后的值进行编码,得到用于传输的信号,传输至远程终端。
因此,本发明实施例提供的音频信号的压缩采样方法,能够在压缩采样时根据音频信号之间的相关性将至少两个音频信号进行分组,得到至少两个通道中的通道所在组的分组信息,可以使得音频信号在重建装置中根据分组信息实施组间并行重建,由于组内的音频信号相关性高,组内的音频信号可以联合重建,从而提升音频信号重建的速度与精度。
在上述音频信号压缩采样的基础上,本发明实施例提供一种音频信号的重建方法,如图3所示,在上述步骤204之后,该方法还包括:
205、终端获取至少两个通道的至少两个音频信号对应的压缩数据,至少两个通道与至少两个音频信号一一对应。
当与终端无线或有线连接的计算设备中的麦克风阵列采集到声音时,终端可接收到计算设备发送的至少两个通道的至少两个音频信号对应的压缩数据,至少两个通道与至少两个音频信号一一对应。压缩数据可以理解为压缩采样后的数据,终端在接收到的音频信号的数据时,需要对音频信号的测量数据进行反量化,得到至少两个音频信号压缩采样后的数据,即压缩数据。
206、终端获取至少两个音频信号对应的通道所在的组的分组信息。
至少两个通道的至少音频信号中可以携带用于重建音频信号的参数,参数可以包括音频信号的信号帧长、测量矩阵、稀疏基以及通道的分组信息。
其中信号帧长即为每个通道的一帧数据对应的帧长,测量矩阵为音频信号在压缩采样过程中生成的用于压缩采样的矩阵,稀疏基是压缩采样过程中从时域到频域进行稀疏变换所使用的算法,通道的分组信息则是压缩采样过程中根据音频信号间的相关性确定的音频信号的分组情况,分组信息中可以包括至少两个音频信号对应的通道所在的组的标识。
207、终端根据分组信息,将至少两个音频信号的压缩数据进行分组,从而得到压缩数据组。
终端可以根据至少两个音频信号对应的通道所在组的标识对至少两个音频信号的压缩数据进行分组,即向组的标识相同的音频信号分为一组。
208、终端获取测量矩阵,根据压缩数据组内的压缩数据和测量矩阵,联合重建压缩数据组内的压缩数据对应的频域系数。
终端可以根据压缩数据组内一个通道对应的压缩数据对应的频域系数、压缩数据组内另一个通道对应的压缩数据以及测量矩阵,计算压缩数据组内另一个通道对应的压缩数据对应的频域系数。计算方法可以采用近似信息传递AMP算法,也可以采用其它算法,本申请不做限定,同时,各压缩数据组间可以并行进行联合重建,即采用的是组内联合重建,不同组之间并行处理的策略。
209、终端对频域系数进行频域到时域的变换,从而获得压缩数据组内的压缩数据对应的音频信号。
终端在得到的每个通道的压缩数据的频域系数后,可以对该压缩数据的频域系数进行频域到时域的变换。例如压缩采样过程中,从时域到频域的变换采用的是MDCT算法,终端得到的参数中的稀疏基即为MDCT算法的指示信息,那么终端在对数据的频域系数进行频域到时域的逆变换时则采用逆MDCT算法,得到计算设备采集到的音频信号。
因此,本发明实施例提供的音频信号的重建方法中,终端可根据分组信息对至少两个音频信号的压缩数据进行分组,以便根据测量矩阵和压缩数据组内的压缩数据进行组间并行重建和组内联合重建,由于组间并行重建,且压缩数据组内的压缩数据具有强的相关性,可以提升信号重建的速度和精度。
下面对本发明的实施例进一步详细说明,本发明实施例提供一种音频信号的压缩采样和重建方法,以k=32通道的音频信号为例,如图4所示,该方法包括:
401、计算设备获取至少两个通道的至少两个音频信号,至少两个通道与至少两个音频信号一一对应。
计算设备中的麦克风阵列可在人说话时采集到至少两个通道的至少两个音频信号,通道与音频信号一一对应。
402、计算设备确定至少两个音频信号的语乐音标签信息,语乐音标签信息用于指示至少两个音频信号为语音信号或乐音信号。
乐音信号包括管乐器、弦乐器以及打击乐器等发出的信号。
本发明实施例中,计算设备可以从32个通道中任选一通道,以帧长为4096从该通道取一帧音频信号,检测该帧音频信号中是否包含语音成分,如果包含,则确定语乐音标签信息指示至少两个音频信号为语音信号,如果不包含,则确定语乐音标签信息指示至少两个音频信号为乐音信号。
403、计算设备根据语乐音标签信息确定至少两个音频信号的帧长。
由于乐音信号变化平缓,语音信号变化快,可以预设乐音信号的帧长较长,语音信号的帧长较短。于是,对于乐音信号这种时变特性相对缓慢的信号,一方面,可以通过增加信号帧长来提升信号重建的精度,另一方面,对于相同长度的信号,信号帧长的增加减少了需要处理的信号帧的数量,也进一步降低了信号处理算法的运行时间。
以乐音信号的帧长MuLen=4096,语音信号的帧长SpLen=1024为例,如果确定语乐音标签信息指示至少两个音频信号为乐音信号,则确定音频信号的帧长为4096,如果确定语乐音标签信息指示至少两个音频信号为语音信号,则确定音频信号的帧长为1024。
404、计算设备计算至少两个音频信号之间的相关性,根据相关性对至少两个音频信号进行分组,从而得到至少两个通道中的通道所在的组的分组信息。
若计算设备确定帧长为4096,则从32个通道中分别取帧长为4096的一帧音频信号,并根据所取的每帧音频信号计算至少两个音频信号之间的相关性。
示例性的,计算设备获取至少两个音频信号中的第一音频信号,获取除第一音频信号外其余音频信号中与第一音频信号相关性最高的前m个音频信号,并将第一音频信号和与第一音频信号相关性最高的前m个音频信号作为一组音频信号,m为大于或等于1的正整数;从除第一音频信号和与第一音频信号相关性最高的前m个音频信号外其余音频信号中继续选取第二音频信号并获取除第一音频信号、第二音频信号和与第一音频信号相关性最高的前m个音频信号外其余通道中与第二音频信号相关性最高的前m个通道,并将第二音频信号和与第二音频信号相关性最高的前m个音频信号作为另一组音频信号,直至至少两个音频的分组完成。
其中,至少两个音频信号之间的相关性包括至少两个音频信号之间的距离,即音频信号在空间上相关,该距离可以是欧氏距离,因此在计算两个音频信号的相关性强度时,可以利用欧式距离公式进行计算。
示例性的,若两个音频信号为第一音频信号和第二音频信号,第一音频信号的一帧数据x=(X1,X2,…,Xn),第二音频信号的一帧数据为y=(y1,y2,…,yn),则第一音频信号与第二音频信号的相关性表示为:
Figure GDA0002670109690000141
R(x,y)表示第一音频信号和第二音频信号的相关性,x1,x2,…xn表示第一音频信号对应的一帧数据中各时间点对应的音频强度,y1,y2,…yn表示第二音频信号对应的一帧数据中各时间点对应的音频强度,n表示帧长。
当R(x,y)值越大,表示两个音频信号的相关性强度越小,反之,表示两个音频信号的相关性强度越大。
示例性的,麦克风阵列有32个麦克风,则对应32个通道,首先任取一第1个通道的一帧音频信号,假设音频信号为乐音信号,则一帧音频信号的帧长为4096,该第1个通道的一帧音频信号x=(X1,X2,…,Xn),n表示帧长,也对应采集到的n个时间点的音频强度,xn表示第1个通道的音频信号在时域上的第n个时间点的音频强度,同理,每个通道的一帧音频信号的帧长相同,当第2个通道的一帧音频信号y=(y1,y2,…,yn)时,yn表示第2个通道的音频信号在时域上的第n个时间点的音频强度,在根据欧氏距离公式获取第1个通道的音频信号与第2个通道的音频信号相关性之后,继续获取第1个通道的音频信号与第3个通道的音频信号的相关性,直至获取第1个通道的音频信号与第32个通道的的音频信号相关性,然后选取第1个通道的音频信号与其它31个通道的音频信号的相关性强度最强的前3个通道的音频信号,将第1个通道与该前3个通道分为一组,而后再从剩余的28个通道的音频信号中任选一个通道的音频信号,计算这个通道的音频信号与剩余的27个通道的音频信号中相关性强度最强的前3个通道的音频信号,以此类推,将32个通道每4个分为一组,共分为8组。
由于音频信号的相关性是音频信号间在空间域中的相关程度,因此,当取每个通道中的一帧的音频信号并将通道进行分组之后,通道的分组即确定不变。在确定通道的分组情况时,可将通道标示分组标识,以得到至少两个通道中的通道所在的组的分组信息。
405、计算设备对至少两个音频信号进行时域到频域的变换,从而获得至少两组频域系数,至少两组频域系数与至少两个音频信号一一对应。
计算设备在获取到通道的分组情况后,可以对各通道对应的音频信号添加窗函数,即加Hann窗,这是由于音频信号在传输时需要从时域变换到频域后传输至远程终端,当实现工程测试信号处理时,不可能在时域上对无限长的信号进行测量和运算,而是取其有限的时间片段进行分析,然后用截取的信号时间片段进行周期延拓处理,得到虚拟的无限长的信号,然后就可以对信号进行相关分析等数学处理。但是无限长的信号被截断以后,其频谱发生了畸变,会产生频谱能量泄漏,可采用不同的截取函数对信号进行截断,截断函数称为窗函数,简称为窗。
由于计算设备是对一帧音频信号处理并传输至远程终端后再处理下一帧音频信号,因此,这里的加窗函数是对各通道的一帧音频信号进行加窗。在加窗函数之后,将每个通道的一帧加窗后的音频信号实施从时域至频域的稀疏变换,得到一帧音频信号对应的稀疏变换系数向量,即频域系数。每一帧音频信号对应一组频域系数,即至少两个频域系数与至少两个音频信号一一对应。这里除可以采用MDCT算法得到的频域系数为MDCT系数以外,也可以采用其它的算法,比如离散小波变换(Discrete Wavelet Transform,DWT)等,本申请不做限定。
406、计算设备获取测量矩阵,根据测量矩阵对至少两组频域系数进行采样,从而获得至少两个音频信号对应的压缩数据。
计算设备可以根据帧长和压缩率确定待生成的测量矩阵的列,例如音频信号为乐音信号,帧长为4096,那么待生成的测量矩阵的列数为4096。例如压缩率预设为1/3,则可以根据压缩率和确定的测量矩阵的列数确定行数,行数为4096*(1/3)取整,即为1365。在确定测量矩阵的行数和列数后,进而根据行数、列数和预设的测量矩阵的类型生成测量矩阵。在本发明实施例中,测量矩阵采用结构化测量矩阵,例如结构化测量矩阵的类型可以为部分傅里叶矩阵、部分离散余弦变换DTC矩阵或部分伯努利随机矩阵中的任一种。
以测量矩阵的类型为部分傅里叶矩阵为例,生成测量矩阵的实现方式可以为:首先对单位矩阵I4096×4096做傅里叶变换,即,对单位矩阵I4096×4096的每一列做傅里叶变换得到傅里叶矩阵Φ4096×4096,然后随机抽取傅里叶矩阵Φ4096×4096的1365行得到部分傅里叶矩阵Φ1365×4096
对于任一通道的一帧音频信号对应的一组频域系数,将该频域系数与测量矩阵相乘,得到该帧音频信号压缩采样后的值,进而对采样后的值进行量化,得到发送给远程终端的信号,并传输至远程终端。
407、终端接收计算设备发送的重建音频信号的参数,参数包括测量矩阵、稀疏基、通道的分组信息、音频信号的语乐音标签信息以及语乐音标签信息对应的信号帧长,语乐音标签信息用于指示至少两个音频信号为语音信号或乐音信号。
终端在接收到计算设备发送的信号时,该信号中携带有音频信号的参数,用于使终端根据该参数进行信号重建。测量矩阵用于终端在通道间联合重建的算法时使用;稀疏基表示计算设备进行时域到频域的稀疏变换算法,例如可以为MDCT算法、DWT算法等,终端可以根据该稀疏基确定终端进行频域到时域的逆变换时的算法,相应地可以为逆MDCT算法、逆DWT算法等;通道的分组信息可以包括每个通道对应的组标识;音频信号的语乐音标签信息可以指示音频信号的类型,可以包括语音信号和乐音信号,该参数还包括音频信号的类型对应的信号帧长,例如语音信号的信号帧长为1024,乐音信号的信号帧长为4096。
408、终端获取至少两个通道的至少两个音频信号对应的压缩数据。
终端根据语乐音标签信息获取语乐音标签信息对应的帧长。若确定为语音信号,则终端确定帧长为语音信号对应的帧长;若确定为乐音信号,则终端确定帧长为乐音信号对应的帧长。例如当终端确定音频信号为语音信号时,其对应的帧长为语音信号对应的1024,当终端确定音频信号为乐音信号时,其对应的帧长为乐音信号对应的4096。
而后,根据帧长,提取至少两个音频信号对应的测量数据。例如多音频信号为乐音信号时,确定的帧长为4096,终端在每个通道接收到的信号中各取一帧长度为4096的测量数据,以获取到至少两个通道对应的至少两个音频信号对应的测量数据,至少两个通道与至少两个音频信号一一对应,进而对每个通道对应的测量数据进行反量化,得到至少两个音频信号的压缩数据,即至少两个音频信号的压缩采样后的数据。
409、终端获取至少两个音频信号对应的通道所在的组的分组信息。
终端可根据参数中携带的分组信息获取至少两个音频信号对应的通道所在的组的分组信息,分组信息可指示每个通道对应一个组标识。例如有32个通道,共分为8组,每组4个通道,分组信息指示每4个通道携带相同的组标识。
410、终端根据分组信息,将至少两个音频信号的压缩数据进行分组,从而得到压缩数据组。
终端可以根据每个通道对应的组标识,将至少两个通道对应的至少两个音频信号的压缩数据进行分组,从而得到压缩数据组。例如32个通道对应32个音频信号的压缩数据,根据每个通道对应一组标识,共4个组标识,将8个相同组标识下的通道的音频信号的压缩数据分为一组,得到4个压缩数据组。
411、终端获取测量矩阵,根据压缩数据组内的压缩数据和测量矩阵,联合重建压缩数据组内的压缩数据对应的频域系数。
终端从接收到的参数中获取测量矩阵,根据压缩数据组内一个通道对应的压缩数据对应的频域系数、压缩数据组内另一个通道对应的压缩数据以及测量矩阵,计算压缩数据组内另一个通道对应的压缩数据对应的频域系数。
具体地,终端可以根据压缩数据组内第i个通道对应的压缩数据对应的频域系数、压缩数据组内第i+1个通道对应的压缩数据以及测量矩阵,计算第i+1个通道对应的压缩数据对应的频域系数,直至计算得到压缩数据组内第k个通道对应的压缩数据对应的频域系数,i为小于k的正整数,k为压缩数据组内的通道总数。其计算方法可以采用AMP算法,当终端从每个压缩数据组中的第1个通道计算至第k个通道,以获取第k个通道对应的压缩数据对应的频域系数,可以称为一次前向AMP算法迭代过程。进而可以根据压缩数据组内第j个通道对应的压缩数据对应的频域系数、压缩数据组内第j-1个通道对应的压缩数据以及测量矩阵,计算第j-1个通道对应的压缩数据对应的频域系数,直至计算得到压缩数据组内第1个通道对应的压缩数据对应的频域系数,j为小于或者等于k,并且大于1的正整数。这样当从每个压缩数据组中的第k个通道计算至第1个通道,以获取第1个通道对应的压缩数据对应的频域系数,可以称为一次后向AMP算法迭代过程。
具体地,当实现根据压缩数据组内一个通道对应的压缩数据对应的频域系数、压缩数据组内另一个通道对应的压缩数据以及测量矩阵,计算压缩数据组内另一个通道对应的压缩数据对应的频域系数时,若采用AMP算法,其具体算法可以为:根据一个通道对应的压缩数据对应的频域系数,确定另一个通道对应的压缩数据对应的先验频域系数;将先验频域系数作为另一个通道对应的压缩数据对应的频域系数的先验,并根据另一个通道对应的压缩数据以及测量矩阵,计算压缩数据组内另一个通道对应的压缩数据对应的频域系数。可以理解为,当获取到任一通道对应的压缩数据对应的频域系数时,同时可得到该通道对应的压缩数据对应的频域系数的后验边缘概率,将上一通道对应的压缩数据对应的频域系数作为下一个通道对应的压缩数据对应的先验频域系数,即该先验频域系数为下一个通道对应的压缩数据对应的频域系数的先验,若根据下一个通道对应的压缩数据以及测量矩阵,计算压缩数据组内下一个通道对应的压缩数据对应的频域系数时,同时也得到下一个通道对应的压缩数据对应的频域系数的后验边缘概率,若通过前向AMP算法迭代过程和后向AMP算法迭代过程中,计算至任一通道对应的压缩数据对应的频域系数的后验边缘概率达到预设值,则确定当前通道对应的压缩数据对应的频域系数最为精准,将该通道对应的压缩数据对应的频域系数作为该通道对应的压缩数据组内的压缩数据对应的频域系数。
需要说明的是,本发明在音频信号压缩采样过程中采用结构化的测量矩阵,例如部分傅里叶矩阵、部分DCT矩阵和部分伯努利随机矩阵等。对于非结构化的测量矩阵如随机高斯矩阵等,矩阵乘法的时间复杂度为ab(a,b分别为矩阵的行和列),而采用结构化的测量矩阵,可以在保证重建精度的前提下显著地降低算法复杂度,可以使得矩阵乘法的时间复杂度降为nlog(n)。此外,由于非结构化矩阵的乘法运算时间与信号帧长并非线性关系,而是平方关系,会导致信号帧长选择受到限制,帧长越长,时间复杂度越大,对于乐音信号这种时变特性相对平缓的信号,不能通过增加信号帧长来提升信号的重建精度。而本申请采用结构化的测量矩阵,可以使得信号帧长的选择更加灵活,从而在降低运算时间的同时可以提升重建精度。
412、终端对频域系数进行频域到时域的变换,从而获得压缩数据组内的压缩数据对应的音频信号。
在得到每个压缩数据组内的压缩数据对应的频域系数后,根据稀疏基确定从频域到时域的逆变换的算法,例如稀疏基为MDCT算法,那么逆变换就采用逆MDCT算法,即采用逆MDCT算法对每个压缩数据组被的压缩数据的频域系数进行逆变换,逆变换后得到的信号就为重建后压缩数据组内的压缩数据对应的时域信号,即音频信号。
因此,对于音频信号的重建终端来说,在接收到至少两个通道的至少两个音频信号的压缩数据后,可根据至少两个音频信号对应的通道所在组的分组信息将至少两个音频信号的压缩数据进行分组,这样可对得到的压缩数据组内的压缩数据进行联合重建,可提升组内联合重建的精度,各组间进行联合重建可提升联合重建的速度。
上述主要从各个网元之间交互的角度对本发明实施例提供的方案进行了介绍。可以理解的是,各个网元,例如计算设备、终端等为了实现上述功能,其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,本发明能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
本发明实施例可以根据上述方法示例对计算设备、终端进行功能模块的划分,例如,可以对应各个功能划分各个功能模块,也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。需要说明的是,本发明实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
在采用对应各个功能划分各个功能模块的情况下,图5示出了上述实施例中所涉及的终端的一种可能的结构示意图,终端包括:获取单元501、分组单元502、重建单元503、变换单元504。获取单元501用于支持终端执行图3中的过程205,206,208,图4中的过程408,409,411,分组单元502用于支持终端执行图3中的过程207,图4中的过程410,重建单元503用于支持终端执行图3中的过程208,图4中的过程411,变换单元504用于支持终端执行图3中的过程209,图4中的过程412。其中,上述方法实施例涉及的各步骤的所有相关内容均可以援引到对应功能模块的功能描述,在此不再赘述。
在采用集成的单元的情况下,图6示出了上述实施例中所涉及的终端的一种可能的结构示意图。终端包括:处理模块602和通信模块603。处理模块602用于对终端的动作进行控制管理,例如,处理模块602用于支持终端执行图3中的过程205、206、207、208、209,图4中的过程408、409、410、411、412,通信模块603用于支持终端执行图4中的过程407,和/或用于本文所描述的技术的其它过程。通信模块603用于支持终端与其他网络实体的通信,例如与图1、图2、或4中示出的计算设备的通信。终端还可以包括存储模块601,用于存储终端的程序代码和数据。
其中,处理模块602可以是处理器或控制器,例如可以是中央处理器(CentralProcessing Unit,CPU),通用处理器,数字信号处理器(Digital Signal Processor,DSP),专用集成电路(Application-Specific Integrated Circuit,ASIC),现场可编程门阵列(Field Programmable Gate Array,FPGA)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本发明公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等等。通信模块603可以是收发器、收发电路或通信接口等。存储模块601可以是存储器。
当处理模块602为处理器,通信模块603为收发器,存储模块601为存储器时,本发明实施例所涉及的终端可以为图7所示的终端。
参阅图7所示,该终端包括:处理器712、收发器713、存储器711以及总线714。其中,收发器713、处理器712以及存储器711通过总线714相互连接;总线714可以是外设部件互连标准(Peripheral Component Interconnect,PCI)总线或扩展工业标准结构(ExtendedIndustry Standard Architecture,EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,图7中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
在采用对应各个功能划分各个功能模块的情况下,图8示出了上述实施例中所涉及的计算设备的一种可能的结构示意图,计算设备包括:获取单元801、分组单元802、变换单元803、采样单元804、确定单元805。获取单元801用于支持计算设备执行图2中的过程201,204,图4中的过程401,分组单元802用于支持计算设备执行图2中的过程202,图4中的过程404,变换单元803用于支持计算设备执行图2中的203,图4中的过程405,采样单元804用于支持计算设备执行图2中的204,图4中的过程406,确定单元805用于支持计算设备执行图4中的402,403。其中,上述方法实施例涉及的各步骤的所有相关内容均可以援引到对应功能模块的功能描述,在此不再赘述。
在采用集成的单元的情况下,图9示出了上述实施例中所涉及的计算设备的一种可能的结构示意图。计算设备包括:处理模块902和通信模块903。处理模块902用于对计算设备的动作进行控制管理,例如,处理模块902用于支持计算设备执行图2中的过程202、203、204,图4中的过程401,402,403,404,405,406,通信模块903用于支持计算设备执行图2中的过程201,和/或用于本文所描述的技术的其它过程。通信模块903用于支持计算设备与其他网络实体的通信,例如与图1、图3、或4中示出的终端的通信。计算设备还可以包括存储模块901,用于存储计算设备的程序代码和数据。
其中,处理模块902可以是处理器或控制器,例如可以是中央处理器CPU,通用处理器,数字信号处理器DSP,专用集成电路ASIC,现场可编程门阵列FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本发明公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等等。通信模块903可以是收发器、收发电路或通信接口等。存储模块901可以是存储器。
当处理模块902为处理器,通信模块903为收发器,存储模块901为存储器时,本发明实施例所涉及的计算设备可以为图10所示的计算设备。
参阅图10所示,该计算设备包括:阵列麦克风101、声源处理模块102和音频数据输出模块103,阵列麦克风、声源处理模块和音频数据输出模块通过总线104相互连接;总线104可以是外设部件互连标准PCI总线或扩展工业标准结构EISA总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,图10中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
结合本发明公开内容所描述的方法或者算法的步骤可以硬件的方式来实现,也可以是由处理器执行软件指令的方式来实现。软件指令可以由相应的软件模块组成,软件模块可以被存放于随机存取存储器(Random Access Memory,RAM)、闪存、只读存储器(ReadOnly Memory,ROM)、可擦除可编程只读存储器(Erasable Programmable ROM,EPROM)、电可擦可编程只读存储器(Electrically EPROM,EEPROM)、寄存器、硬盘、移动硬盘、只读光盘(CD-ROM)或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质耦合至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。另外,该ASIC可以位于核心网接口设备中。当然,处理器和存储介质也可以作为分立组件存在于核心网接口设备中。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质,其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。

Claims (20)

1.一种音频信号的重建方法,其特征在于,包括:
获取至少两个通道的至少两个音频信号对应的压缩数据,所述至少两个通道与所述至少两个音频信号一一对应;
获取所述至少两个音频信号对应的通道所在的组的分组信息;
根据所述分组信息,将所述至少两个音频信号对应的压缩数据进行分组,从而得到压缩数据组;
获取测量矩阵,根据所述压缩数据组内的压缩数据和所述测量矩阵,联合重建所述压缩数据组内的压缩数据对应的频域系数;
对所述频域系数进行频域到时域的变换,从而获得所述压缩数据组内的压缩数据对应的音频信号;
所述根据所述压缩数据组内的压缩数据和所述测量矩阵,联合重建所述压缩数据组内的压缩数据对应的频域系数包括:
根据压缩数据组内一个通道对应的压缩数据对应的频域系数、所述压缩数据组内另一个通道对应的压缩数据以及所述测量矩阵,计算所述压缩数据组内所述另一个通道对应的压缩数据对应的频域系数。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取所述至少两个音频信号的语乐音标签信息,所述语乐音标签信息用于指示所述至少两个音频信号为语音信号或乐音信号;
所述获取至少两个通道的至少两个音频信号对应的压缩数据包括:根据所述语乐音标签信息,获取所述语乐音标签信息对应的帧长;
根据所述帧长,提取所述至少两个音频信号对应的测量数据;
对所述测量数据进行反量化,从而获得所述至少两个音频信号对应的压缩数据。
3.根据权利要求1所述的方法,其特征在于,根据压缩数据组内一个通道对应的压缩数据对应的频域系数、所述压缩数据组内另一个通道对应的压缩数据以及所述测量矩阵,计算所述压缩数据组内所述另一个通道对应的压缩数据对应的频域系数包括:
根据压缩数据组内第i个通道对应的压缩数据对应的频域系数、所述压缩数据组内第i+1个通道对应的压缩数据以及所述测量矩阵,计算所述第i+1个通道对应的压缩数据对应的频域系数,直至计算得到所述压缩数据组内第k个通道对应的压缩数据对应的频域系数,i为小于k的正整数,k为所述压缩数据组内的通道总数。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
根据压缩数据组内第j个通道对应的压缩数据对应的频域系数、所述压缩数据组内第j-1个通道对应的压缩数据以及所述测量矩阵,计算所述第j-1个通道对应的压缩数据对应的频域系数,直至计算得到所述压缩数据组内第1个通道对应的压缩数据对应的频域系数,j为小于或者等于k,并且大于1的正整数。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
根据预设的初始化频域系数、所述第1个通道对应的压缩数据以及所述测量矩阵,计算所述第2个通道对应的压缩数据对应的频域系数。
6.根据权利要求3-5任一项所述的方法,其特征在于,根据压缩数据组内一个通道对应的压缩数据对应的频域系数、所述压缩数据组内另一个通道对应的压缩数据以及所述测量矩阵,计算所述压缩数据组内所述另一个通道对应的压缩数据对应的频域系数包括:
根据所述一个通道对应的压缩数据对应的频域系数,确定所述另一个通道对应的压缩数据对应的先验频域系数;
将所述先验频域系数作为所述另一个通道对应的压缩数据对应的频域系数的先验,并根据所述另一个通道对应的压缩数据以及所述测量矩阵,计算所述压缩数据组内所述另一个通道对应的压缩数据对应的频域系数。
7.一种音频信号的压缩采样方法,其特征在于,包括:
获取至少两个通道的至少两个音频信号,所述至少两个通道与所述至少两个音频信号一一对应;
计算所述至少两个音频信号之间的相关性,根据所述相关性对所述至少两个音频信号进行分组,从而得到所述至少两个通道中的通道所在的组的分组信息;
所述计算所述至少两个音频信号之间的相关性,根据所述相关性对所述至少两个音频信号进行分组包括:
获取所述至少两个音频信号中的第一音频信号,获取除所述第一音频信号外其余音频信号中与所述第一音频信号相关性最高的前m个音频信号,并将所述第一音频信号和与所述第一音频信号相关性最高的前m个音频信号作为一组音频信号,m为大于或等于1的正整数;
从除所述第一音频信号和与所述第一音频信号相关性最高的前m个音频信号外其余音频信号中继续选取第二音频信号并获取除所述第一音频信号、第二音频信号和与所述第一音频信号相关性最高的前m个音频信号外其余通道中与所述第二音频信号相关性最高的前m个通道,并将所述第二音频信号和与所述第二音频信号相关性最高的前m个音频信号作为另一组音频信号,直至所述至少两个音频的分组完成;
对所述至少两个音频信号进行时域到频域的变换,从而获得至少两组频域系数,所述至少两组频域系数与所述至少两个音频信号一一对应;
获取测量矩阵,根据所述测量矩阵对所述至少两组频域系数进行采样,从而获得所述至少两个音频信号对应的压缩数据。
8.根据权利要求7所述的方法,其特征在于,在获取测量矩阵之前,所述方法还包括:
确定所述至少两个音频信号的语乐音标签信息,所述语乐音标签信息用于指示所述至少两个音频信号为语音信号或乐音信号;
根据所述所述语乐音标签信息,确定所述至少两个音频信号的帧长。
9.根据权利要求8所述的方法,其特征在于,所述获取测量矩阵包括:
根据所述帧长,获得所述帧长对应的所述测量矩阵。
10.根据权利要求7所述的方法,其特征在于,所述至少两个音频信号之间的相关性包括所述至少两个音频信号之间的距离。
11.一种音频信号的重建装置,其特征在于,包括:
获取单元,用于获取至少两个通道的至少两个音频信号对应的压缩数据,所述至少两个通道与所述至少两个音频信号一一对应;
所述获取单元,还用于获取所述至少两个音频信号对应的通道所在的组的分组信息;
分组单元,用于根据所述分组信息,将所述至少两个音频信号对应的压缩数据进行分组,从而得到压缩数据组;
重建单元,用于获取测量矩阵,根据所述压缩数据组内的压缩数据和所述测量矩阵,联合重建所述压缩数据组内的压缩数据对应的频域系数;
变换单元,用于对所述频域系数进行频域到时域的变换,从而获得所述压缩数据组内的压缩数据对应的音频信号;
所述重建单元用于:
根据压缩数据组内一个通道对应的压缩数据对应的频域系数、所述压缩数据组内另一个通道对应的压缩数据以及所述测量矩阵,计算所述压缩数据组内所述另一个通道对应的压缩数据对应的频域系数。
12.根据权利要求11所述的装置,其特征在于,所述获取单元还用于:
获取所述至少两个音频信号的语乐音标签信息,所述语乐音标签信息用于指示所述至少两个音频信号为语音信号或乐音信号;
所述获取单元,用于:
根据所述语乐音标签信息,获取所述语乐音标签信息对应的帧长;
根据所述帧长,提取所述至少两个音频信号对应的测量数据;
对所述测量数据进行反量化,从而获得所述至少两个音频信号的压缩数据。
13.根据权利要求11所述的装置,其特征在于,所述重建单元用于:
根据压缩数据组内第i个通道对应的压缩数据对应的频域系数、所述压缩数据组内第i+1个通道对应的压缩数据以及所述测量矩阵,计算所述第i+1个通道对应的压缩数据对应的频域系数,直至计算得到所述压缩数据组内第k个通道对应的压缩数据对应的频域系数,i为小于k的正整数,k为所述压缩数据组内的通道总数。
14.根据权利要求13所述的装置,所述重建单元还用于:
根据压缩数据组内第j个通道对应的压缩数据对应的频域系数、所述压缩数据组内第j-1个通道对应的压缩数据以及所述测量矩阵,计算所述第j-1个通道对应的压缩数据对应的频域系数,直至计算得到所述压缩数据组内第1个通道对应的压缩数据对应的频域系数,j为小于或者等于k,并且大于1的正整数。
15.根据权利要求14所述的装置,其特征在于,所述重建单元还用于:
根据预设的初始化频域系数、所述第1个通道对应的压缩数据以及所述测量矩阵,计算所述第2个通道对应的压缩数据对应的频域系数。
16.根据权利要求13-15任一项所述的装置,其特征在于,所述重建单元用于:
根据所述一个通道对应的压缩数据对应的频域系数,确定所述另一个通道对应的压缩数据对应的先验频域系数;
将所述先验频域系数作为所述另一个通道对应的压缩数据对应的频域系数的先验,并根据所述另一个通道对应的压缩数据以及所述测量矩阵,计算所述压缩数据组内所述另一个通道对应的压缩数据对应的频域系数。
17.一种音频信号的压缩采样装置,其特征在于,包括:
获取单元,用于获取至少两个通道的至少两个音频信号,所述至少两个通道与所述至少两个音频信号一一对应;
分组单元,用于计算所述至少两个音频信号之间的相关性,根据所述相关性对所述至少两个音频信号进行分组,从而得到所述至少两个通道中的通道所在的组的分组信息;
所述分组单元还用于:
获取所述至少两个音频信号中的第一音频信号,获取除所述第一音频信号外其余音频信号中与所述第一音频信号相关性最高的前m个音频信号,并将所述第一音频信号和与所述第一音频信号相关性最高的前m个音频信号作为一组音频信号,m为大于或等于1的正整数;
从除所述第一音频信号和与所述第一音频信号相关性最高的前m个音频信号外其余音频信号中继续选取第二音频信号并获取除所述第一音频信号、第二音频信号和与所述第一音频信号相关性最高的前m个音频信号外其余通道中与所述第二音频信号相关性最高的前m个通道,并将所述第二音频信号和与所述第二音频信号相关性最高的前m个音频信号作为另一组音频信号,直至所述至少两个音频的分组完成;
变换单元,用于对所述至少两个音频信号进行时域到频域的变换,从而获得至少两组频域系数,所述至少两组频域系数与所述至少两个音频信号一一对应;
所述获取单元,还用于获取测量矩阵;
采样单元,用于根据所述测量矩阵对所述至少两组频域系数进行采样,从而获得所述至少两个音频信号对应的压缩数据。
18.根据权利要求17所述的装置,其特征在于,还包括确定单元,用于:
确定所述至少两个音频信号的语乐音标签信息,所述语乐音标签信息用于指示所述至少两个音频信号为语音信号或乐音信号;
根据所述所述语乐音标签信息,确定所述至少两个音频信号的帧长。
19.根据权利要求18所述的装置,其特征在于,所述获取单元用于:
根据所述帧长,获得所述帧长对应的所述测量矩阵。
20.根据权利要求17所述的装置,其特征在于,所述至少两个音频信号之间的相关性包括所述至少两个音频信号之间的距离。
CN201610879165.XA 2016-09-30 2016-09-30 一种音频信号的重建方法和装置 Active CN107895580B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201610879165.XA CN107895580B (zh) 2016-09-30 2016-09-30 一种音频信号的重建方法和装置
PCT/CN2017/086390 WO2018058989A1 (zh) 2016-09-30 2017-05-27 一种音频信号的重建方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610879165.XA CN107895580B (zh) 2016-09-30 2016-09-30 一种音频信号的重建方法和装置

Publications (2)

Publication Number Publication Date
CN107895580A CN107895580A (zh) 2018-04-10
CN107895580B true CN107895580B (zh) 2021-06-01

Family

ID=61763093

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610879165.XA Active CN107895580B (zh) 2016-09-30 2016-09-30 一种音频信号的重建方法和装置

Country Status (2)

Country Link
CN (1) CN107895580B (zh)
WO (1) WO2018058989A1 (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110874626B (zh) * 2018-09-03 2023-07-18 华为技术有限公司 一种量化方法及装置
WO2020211017A1 (zh) * 2019-04-17 2020-10-22 深圳市大疆创新科技有限公司 音频信号处理方法、设备及存储介质
CN111345047A (zh) * 2019-04-17 2020-06-26 深圳市大疆创新科技有限公司 音频信号处理方法、设备及存储介质
CN111128230B (zh) * 2019-12-31 2022-03-04 广州市百果园信息技术有限公司 语音信号重建方法、装置、设备和存储介质
CN116709112B (zh) * 2022-02-24 2024-10-29 比亚迪股份有限公司 音频数据处理方法、系统、数据处理设备及存储介质

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6345246B1 (en) * 1997-02-05 2002-02-05 Nippon Telegraph And Telephone Corporation Apparatus and method for efficiently coding plural channels of an acoustic signal at low bit rates
WO2007011083A1 (en) * 2005-07-18 2007-01-25 Lg Electronics Inc. Apparatus and method of encoding and decoding audio signal
CN101055721A (zh) * 2004-09-17 2007-10-17 广州广晟数码技术有限公司 多声道数字音频编码设备及其方法
CN101281749A (zh) * 2008-05-22 2008-10-08 上海交通大学 可分级的语音和乐音联合编码装置和解码装置
CN101447190A (zh) * 2008-06-25 2009-06-03 北京大学深圳研究生院 基于嵌套子阵列的后置滤波与谱减法联合语音增强方法
CN102047564A (zh) * 2008-05-30 2011-05-04 微软公司 将重叠变换因式分解成两个块变换
CN102089803A (zh) * 2008-07-11 2011-06-08 弗劳恩霍夫应用研究促进协会 用以将信号的不同段分类的方法与鉴别器
US8190425B2 (en) * 2006-01-20 2012-05-29 Microsoft Corporation Complex cross-correlation parameters for multi-channel audio
JP4983845B2 (ja) * 2009-04-17 2012-07-25 株式会社Jvcケンウッド 音声信号伝送装置、音声信号受信装置及び音声信号伝送システム
CN102982805A (zh) * 2012-12-27 2013-03-20 北京理工大学 一种基于张量分解的多声道音频信号压缩方法
CN103745724A (zh) * 2014-01-13 2014-04-23 电子科技大学 一种应用于多声道音频解码的时频混合缩混方法
CN104240712A (zh) * 2014-09-30 2014-12-24 武汉大学深圳研究院 一种三维音频多声道分组聚类编码方法及系统
CN104934032A (zh) * 2014-03-17 2015-09-23 华为技术有限公司 根据频域能量对语音信号进行处理的方法和装置
CN105518775A (zh) * 2013-07-22 2016-04-20 弗朗霍夫应用科学研究促进协会 使用自适应相位校准的多声道降混的梳型滤波器的伪迹消除

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030169886A1 (en) * 1995-01-10 2003-09-11 Boyce Roger W. Method and apparatus for encoding mixed surround sound into a single stereo pair
US7240001B2 (en) * 2001-12-14 2007-07-03 Microsoft Corporation Quality improvement techniques in an audio encoder
US7502743B2 (en) * 2002-09-04 2009-03-10 Microsoft Corporation Multi-channel audio encoding and decoding with multi-channel transform selection
CN100538821C (zh) * 2006-03-23 2009-09-09 北京东方利优科技发展有限公司 快变音频信号的编解码方法
JP5483813B2 (ja) * 2007-12-21 2014-05-07 株式会社Nttドコモ マルチチャネル音声音響信号符号化装置および方法、並びにマルチチャネル音声音響信号復号装置および方法
US20090210222A1 (en) * 2008-02-15 2009-08-20 Microsoft Corporation Multi-Channel Hole-Filling For Audio Compression
CN102081926B (zh) * 2009-11-27 2013-06-05 中兴通讯股份有限公司 格型矢量量化音频编解码方法和系统
TWI618050B (zh) * 2013-02-14 2018-03-11 杜比實驗室特許公司 用於音訊處理系統中之訊號去相關的方法及設備
CN103714825A (zh) * 2014-01-16 2014-04-09 中国科学院声学研究所 基于听觉感知模型的多通道语音增强方法

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6345246B1 (en) * 1997-02-05 2002-02-05 Nippon Telegraph And Telephone Corporation Apparatus and method for efficiently coding plural channels of an acoustic signal at low bit rates
CN101055721A (zh) * 2004-09-17 2007-10-17 广州广晟数码技术有限公司 多声道数字音频编码设备及其方法
WO2007011083A1 (en) * 2005-07-18 2007-01-25 Lg Electronics Inc. Apparatus and method of encoding and decoding audio signal
US8190425B2 (en) * 2006-01-20 2012-05-29 Microsoft Corporation Complex cross-correlation parameters for multi-channel audio
CN101281749A (zh) * 2008-05-22 2008-10-08 上海交通大学 可分级的语音和乐音联合编码装置和解码装置
CN102047564A (zh) * 2008-05-30 2011-05-04 微软公司 将重叠变换因式分解成两个块变换
CN101447190A (zh) * 2008-06-25 2009-06-03 北京大学深圳研究生院 基于嵌套子阵列的后置滤波与谱减法联合语音增强方法
CN102089803A (zh) * 2008-07-11 2011-06-08 弗劳恩霍夫应用研究促进协会 用以将信号的不同段分类的方法与鉴别器
JP4983845B2 (ja) * 2009-04-17 2012-07-25 株式会社Jvcケンウッド 音声信号伝送装置、音声信号受信装置及び音声信号伝送システム
CN102982805A (zh) * 2012-12-27 2013-03-20 北京理工大学 一种基于张量分解的多声道音频信号压缩方法
CN105518775A (zh) * 2013-07-22 2016-04-20 弗朗霍夫应用科学研究促进协会 使用自适应相位校准的多声道降混的梳型滤波器的伪迹消除
CN103745724A (zh) * 2014-01-13 2014-04-23 电子科技大学 一种应用于多声道音频解码的时频混合缩混方法
CN104934032A (zh) * 2014-03-17 2015-09-23 华为技术有限公司 根据频域能量对语音信号进行处理的方法和装置
CN104934032B (zh) * 2014-03-17 2019-04-05 华为技术有限公司 根据频域能量对语音信号进行处理的方法和装置
CN104240712A (zh) * 2014-09-30 2014-12-24 武汉大学深圳研究院 一种三维音频多声道分组聚类编码方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Downmix and coding of multichannel signals based on spatial correlation;Baozhen Wu等;《2015 8th International Congress on Image and Signal Processing (CISP)》;20160218;全文 *
多通道立体声虚拟重建技术研究;王超;《中国优秀硕士学位论文全文数据库》;20111215;全文 *
数字声音压缩编码的进展;郭柯;《通信学报》;19950930;全文 *

Also Published As

Publication number Publication date
WO2018058989A1 (zh) 2018-04-05
CN107895580A (zh) 2018-04-10

Similar Documents

Publication Publication Date Title
CN107895580B (zh) 一种音频信号的重建方法和装置
US20210089967A1 (en) Data training in multi-sensor setups
Adavanne et al. Direction of arrival estimation for multiple sound sources using convolutional recurrent neural network
Lin et al. Speech enhancement using multi-stage self-attentive temporal convolutional networks
CN104285390B (zh) 压缩和解压缩高阶高保真度立体声响复制信号表示的方法及装置
CN110223708B (zh) 基于语音处理的语音增强方法及相关设备
CN105321525B (zh) 一种降低voip通信资源开销的系统和方法
CN111429939B (zh) 一种双声源的声音信号分离方法和拾音器
CN108564963A (zh) 用于增强语音的方法和装置
CN106847301A (zh) 一种基于压缩感知和空间方位信息的双耳语音分离方法
CN112992172A (zh) 一种基于注意力机制的单通道时域鸟鸣声分离方法
CN105580074B (zh) 信号处理系统和方法
CN102598120B (zh) 多信道信号的编码
KR20170120645A (ko) 채널 간 시간차 파라미터를 결정하기 위한 방법 및 디바이스
CN113889135A (zh) 一种估计声源波达方向的方法、电子设备及芯片系统
CN113345465B (zh) 语音分离方法、装置、设备及计算机可读存储介质
CN110544485A (zh) 一种利用cnn的se-ed网络进行远场语音去混响的方法
Casebeer et al. Deep tensor factorization for spatially-aware scene decomposition
US20120215788A1 (en) Data Processing
CN114495974B (zh) 音频信号处理方法
Al-Jouhar et al. Feature combination and mapping using multiwavelet transform
CN112863525B (zh) 一种语音波达方向的估计方法、装置及电子设备
Gburrek et al. On source-microphone distance estimation using convolutional recurrent neural networks
CN115116460A (zh) 音频信号增强方法、装置、设备、存储介质及程序产品
WO2020066542A1 (ja) 音響オブジェクト抽出装置及び音響オブジェクト抽出方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant