[go: up one dir, main page]

CN104823237A - 用于修复压缩音频信号的系统、计算机可读存储介质和方法 - Google Patents

用于修复压缩音频信号的系统、计算机可读存储介质和方法 Download PDF

Info

Publication number
CN104823237A
CN104823237A CN201380061356.XA CN201380061356A CN104823237A CN 104823237 A CN104823237 A CN 104823237A CN 201380061356 A CN201380061356 A CN 201380061356A CN 104823237 A CN104823237 A CN 104823237A
Authority
CN
China
Prior art keywords
signal
audio signal
components
processor
sample components
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201380061356.XA
Other languages
English (en)
Other versions
CN104823237B (zh
Inventor
G.A.J.索洛德雷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Crown Audio Inc
Original Assignee
Crown Audio Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Crown Audio Inc filed Critical Crown Audio Inc
Publication of CN104823237A publication Critical patent/CN104823237A/zh
Application granted granted Critical
Publication of CN104823237B publication Critical patent/CN104823237B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • G10L19/0208Subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • G10L19/025Detection of transients or attacks for time/frequency resolution switching
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G7/00Volume compression or expansion in amplifiers
    • H03G7/007Volume compression or expansion in amplifiers of digital or coded signals
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G9/00Combinations of two or more types of control, e.g. gain control and tone control

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)

Abstract

本发明公开了一种用于处理压缩音频的系统,所述系统包括被配置成生成一个或多个信号处理的信号增强器模块。所述一个或多个信号处理可以由所述信号增强器模块基于对所述引入的音频信号的分析来生成。可替代地或另外,可以将所述引入的音频信号的特性提供至所述信号增强器模块以便在生成所述一个或多个信号处理时使用。所述一个或多个信号处理可以被添加至所述音频信号。

Description

用于修复压缩音频信号的系统、计算机可读存储介质和方法
相关申请的交叉引用
本申请要求2012年11月26日提交的美国临时申请序列号61/730,053的权益,并且要求2013年3月15日提交的美国申请序列号13/842,479的优先权,所述申请的公开内容以引用方式整体并入本文。
技术领域
本发明涉及音频信号处理,并且更具体地,涉及音频信号的增强和恢复。
背景技术
压缩音频信号是已经历由感知音频编解码器完成的某种形式的数据压缩的信号。感知音频编解码器通过将音频信号的被感知为可听度较低或感知上较不重要的分量丢弃来减少用于存储、传递或传输音频信号的数据量。数据压缩过程常常在原始(未压缩)音频信号与压缩音频信号之间引入不希望有的可听见的差异。不同的感知音频编解码器可以采用用于将原始音频信号的部分丢弃的不同策略,但可听见的差异的感知特性通常是类似的。
发明内容
一种用于压缩音频信号的感知增强和恢复的系统包括信号增强器系统,所述信号增强器系统修改压缩音频信号以使得可能已在压缩过程中被丢弃或更改的信号分量和特性在处理后的输出信号中被感知为得到增强或恢复。信号增强器的一些方面包括:它可以延长压缩音频信号的带宽;它可以恢复缺失的或丢失的带内信号谐波;它可以增强瞬态;它可以恢复干信号分量;它可以恢复混响信号分量;它可以恢复被掩蔽的信号分量;并且它可以使谐波信号分量相位对准。另外,信号增强器可以对源自立体声或多声道音频信号的单独空间片进行操作。信号增强器还可以对立体声信号的中-侧分量进行操作。
对于本领域的技术人员来说,在研究以下附图和详细说明之后,其它系统、方法、特征和优点将是或将变得明显。本发明的意图是,所有此类额外的系统、方法、特征和优点都包括在本说明书内、在本发明的范围内并且受随附的权利要求书保护。
附图说明
参照以下附图和说明可以更好地理解本发明的系统。附图中的部件不必按比例绘制,替代地重点在于示出本发明的原理。此外,在附图中,相同的参考数字遍及不同视图指代对应的部分。
图1是包括与感知音频编码器和解码器结合使用的示例性信号增强器系统的框图。
图2是包括集成到信号增强器系统中的感知音频解码器的实例的框图。
图3是信号增强器系统的实例的框图。
图4是对立体声信号的中-侧部分进行操作的信号增强器系统的实例的框图。
图5是对音频信号的个别空间片进行操作的单独信号增强器模块的实例的框图。
图6以基于块的分解的表示描绘示例性脉冲响应的分量。
图7是图3中所示的混响填充模块的示例性框图。
图8是在给定频率下的一系列输入混响样本的样本分量的示例性估计。
图9是信号质量分析器、处理水平调节器和显示器模块的示例性框图。
图10是具有带宽增强信号处理的输出信号的示例性显示。
图11a和图11b描绘用于示出由信号增强器系统进行的压缩的示例性频谱视图(频域)。
图12a和图12b描绘用于示出由信号增强器系统进行的瞬态增强的示例性频谱视图。
图13是示例性计算系统。
具体实施方式
压缩音频信号是包含音频内容的信号,所述信号已经历诸如由感知音频编解码器完成的某种形式的数据压缩。感知音频编解码器的常见类型包括MP3、AAC、杜比数字(Dolby Digital)和DTS。这些感知音频编解码器通过将音频信号的大部分丢弃而减小音频信号的大小。感知音频编解码器可以用于减少存储音频信号所需的空间(存储器)的量,或减少传输或传递音频信号所需的带宽的量。将音频信号压缩90%或更多并不少见。感知音频编解码器可以采用人类听觉系统如何感知声音的模型。以这种方式,感知音频编解码器可以将音频信号的被认为收听者听不见或与收听者所感知的声音关联最小的那些部分丢弃。因此,感知音频编解码器能够减小音频信号的大小,同时利用剩余的信号仍然维持相对良好的感知音频质量。一般来说,压缩音频信号的感知质量可取决于压缩信号的比特率。较低的比特率可以指示原始音频信号的较大部分被丢弃,且因此,一般来说,压缩音频信号的感知质量可能较差。
存在众多类型的感知音频编解码器,并且每种类型在确定原始音频信号的哪些部分在压缩过程中将丢弃时可以使用一组不同的标准。感知音频编解码器可以包括编码和解码过程。编码器接收原始音频信号并且可以确定信号的哪些部分将被丢弃。随后,编码器可以将剩余的信号设置成适于压缩存储和/或传输的格式。解码器可以接收压缩的音频信号,将其解码,并且随后可以将解码的音频信号转换成适于音频回放的格式。在大部分感知音频编解码器中,编码过程(其可以包括感知模型的使用)可以确定所得压缩音频信号的质量。在这些情况下,解码器可以充当将信号从压缩格式(通常是某种形式的频域表示)转换成适于音频回放的格式的格式转换器。
信号增强器系统可以修改已由感知音频编解码器处理的压缩音频信号,以使得可能已在压缩过程中被丢弃或更改的信号分量和特性被感知为在处理后的输出信号中得到恢复。如本文所使用,术语音频信号可以指代表示音频内容的电信号或可听声音,除非另有说明。
当音频信号已使用感知音频编解码器被压缩时,不可能检索到已丢弃信号分量。然而,信号增强器系统可以对压缩音频信号中的剩余信号分量进行分析,并且生成用于感知上代替已丢弃分量的新信号分量。
图1是包括信号增强器系统110的实例的框图。信号增强器系统110可以在频域或时域中进行操作。信号增强器系统110可以包括采样器模块112。采样器模块112可以实时地接收输入信号(X),并且将输入信号(X)分成样本。在频域中的操作期间,采样器模块112可以收集顺序的时域样本,应用合适的窗口函数(诸如root-Hann窗口),并且诸如使用FFT(快速傅里叶变换)将加窗样本转换成频域中的顺序区段(bin)。类似地,作为信号增强器系统110中的最后一个步骤,可以使用逆FFT(逆快速傅里叶变换)通过采样器模块112将增强的频域区段转换到时域,并且应用合适的互补窗口(诸如root-Hann窗口)以产生增强的时域样本块。预定量诸如至少50%的重叠可以用于在将时域样本转换到频域之前添加时域样本和对时域样本进行加窗。在信号增强器系统110的输出线路105上的输出端,在从频域到时域的转换之后构建增强的时域样本时,可以使用类似的预定重叠量诸如至少50%。可替代地,信号增强器系统110可以使用时域样本的顺序块来在时域中进行操作,并且转换器可以从采样器模块112中消除。为了简化讨论和附图,省略了对采样器模块112以及时间频率转换和频率时间转换的进一步讨论和图解。因此,如本文所描述,顺序样本或样本序列可交替地指代时间系列的时域样本序列,或对应于接收的已由采样器模块112进行采样的输入信号(X)的时间系列的时间系列的频域区段序列。
在图1中,信号增强器110被示出为与感知音频编码器101和感知音频解码器103结合使用。原始音频信号(Z)可以在音频信号输入线路100上被提供到感知音频编码器101。感知音频编码器101可以丢弃音频信号分量以在压缩比特流线路102上产生压缩音频比特流(Q)。感知音频解码器103可以将压缩音频比特流(Q)解码以在输入信号线路104上产生输入信号(X)。输入信号(X)可以是呈适于音频回放的格式的音频信号。信号增强器系统110可以操作以将输入信号(X)分成样本序列以增强输入信号(X),从而在输出信号线路105上产生输出信号(Y)。侧链数据可以包含与输入信号(X)的处理相关的信息,诸如以下各项的指示:所使用的音频编解码器的类型、编解码器制造商、比特率、立体声对联合立体声编码、采样率、独特输入声道的数量、编码块大小以及歌曲/音轨标识符。在其它实例中,关于音频信号(X)或编码/解码过程的任何其它信息可以包括作为侧链数据的一部分。可以在侧链数据线路106上将侧链数据从感知音频解码器103提供到信号增强器系统110。可替代地或另外,侧链数据可以包括作为输入信号(X)的一部分。
图2是与感知音频编码器和解码器结合使用的信号增强器系统110的实例的框图。在这种情况下,感知音频解码器103可以并入作为信号增强器系统110的一部分。因此,信号增强器系统110可以直接对在压缩比特流线路102上接收到的压缩音频比特流(Q)进行操作。可替代地,在其它实例中,信号增强器系统110可以包括在感知音频解码器103中。在这种配置中,信号增强器系统110可以访问压缩音频比特流(Q)102的细节。
图3是信号增强器系统110的实例的框图。在图3中,信号增强器系统110包括可以在输入信号线路104上接收输入信号(X)的信号处理模块300。信号处理模块300可以在对应的信号处理线路310上产生许多单独且独特的信号处理(ST1、ST2、ST3、ST4、ST5、ST6和ST7)。虽然示出七个信号处理,但是在其它实例中更少或更多数量(n)的信号处理是可能的。每个信号处理(STn)的相对能级可以在于第一求和框321处加在一起以产生总信号处理(STT)323之前通过处理增益(g1、g2、g3、g4、g5、g6和g7)315单独地进行调节。总信号处理(STT)323的水平可以在于第二求和框322处被添加到输入信号(X)104之前通过总处理增益(gT)320进行调节。
信号处理模块300可以包括一个或多个处理模块(301、302、303、304、305、306和307),这些处理模块对输入信号(X)的顺序样本的单独样本分量进行操作以便逐个样本顺序地产生针对每个相应分量的信号处理(310)。顺序样本的单独样本分量可以与音频信号的不同特性相关。可替代地或另外,信号处理模块300可以包括额外的或更少的处理模块300。所示模块可以是独立的,或可以是以各种组合方式中的任何一种形成以创建模块的子模块。
图4是对输入信号(X)的中-侧分量进行操作(诸如通过中-侧分量模块400进行提取)的信号增强器系统110的实例。术语“中-侧”是指立体声音频信号中的音频信息,其中左立体声声道和右立体声声道所共有的音频信息被认为是音频信息的“中”信号分量,并且音频信息的“侧”信号分量是在左立体声声道与右立体声声道之间不同的音频信息。感知音频编解码器可以对音频信号的中-侧分量进行操作以改进感知音频编解码器的性能。在这种情况下,编码器可以丢弃更多的侧信号分量而保留更多的中信号分量。因此,在这种情况下,可以改进对信号增强器系统110的操作的优化,条件是信号增强器系统110对立体声输入信号(X)的中-侧信号分量进行操作而不是直接对立体声信号的左声道和右声道进行操作。
在图4中,立体声至中-侧模块400可以将立体声输入信号X转换成中-侧信号配置Xms,所述中-侧信号配置Xms继而可以被提供到信号增强器系统110以便在中-侧信号线路401上进行处理。信号增强器系统110可以对中-侧信号Xms进行操作以产生增强的中-侧信号(Yms)。增强的中-侧信号(Yms)可以在增强的中-侧信号线路402上被供应到中-侧至立体声模块403。中-侧至立体声模块403可以将增强的中-侧信号(Yms)转换成在输出线路105上供应的立体声(左声道和右声道)输出信号(Y)。
图5是对空间片流线路501上的一组“n”个空间片流(XSS1、XSS2、XSS3……XSSn)进行操作的一组“n”个信号增强器系统110的实例,所述“n”个空间片流可来源于空间片分解模块500。空间片分解模块500可以在输入信号线路104上接收立体声或多声道音频输入信号(X)并且产生一组空间片流。空间片流可以包含空间滤波器组的输出,所述空间滤波器组基于音频信号源在感知立体声或多声道声场(soundstage)内的空间位置来分解输入信号。用于将输入信号分解成空间片以产生空间片流501的一种可能方法在标题为“SYSTEM FOR SPATIAL EXTRACTION OF AUDIO SIGNALS(用于音频信号的空间提取的系统)”美国专利申请号12/897,709中进行描述,所述申请以引用方式整体并入本文。
在图5中,“n”个信号增强器110中的每一个在增强的输出流线路502上产生增强的输出流(YSS1、YSS2、YSS3……YSSn)。“n”个输出流在求和模块503处结合以在输出线路105上产生输出信号(Y)。当使单独的信号增强器系统110对单独空间片流进行操作时可以获得系统的改进性能,这是因为每个信号增强器系统110都可以对音频输入信号104的更多隔离的样本分量进行操作,且因此能够更好地导出针对每个空间片流(XSSn)的适当信号处理(ST1、ST2、ST3、ST4、ST5、ST6和ST7)。可以针对每个相应空间片流(XSSn)的样本中包括的不同样本分量独立地导出任何数量的不同信号处理(ST1、ST2、ST3、ST4、ST5、ST6和ST7)。
在图3中,信号处理模块300可以包括一个或多个处理模块(301、302、303、304、305、306和307),用于导出针对音频信号或从音频信号产生的空间片流的相应顺序样本的单独样本分量的信号处理(ST1、ST2、ST3、ST4、ST5、ST6和ST7)。处理模块(301、302、303、304、305、306和307)中的每一个均可以针对与音频信号或空间流相关的不同特性导出信号处理(ST1、ST2、ST3、ST4、ST5、ST6和ST7)。示例性音频信号特性包括带宽、谐波、瞬态、扩张、混响、掩蔽和谐波相位对准。在其它实例中,可以针对与音频信号相关的额外的或更少的特性来导出信号处理。可以针对音频信号的对应于相应处理模块的特性的缺失部分导出信号处理。因此,信号处理可以有效地供应音频信号的各种不同特性的替代部分,所述替代部分被识别为是从一系列样本的单独样本分量中缺失的。因此,在其中识别到感知特性的丢失部分的系列中的一些样本分量可以应用了信号处理,而在其中没有识别到相应特性的缺失部分的序列中的其它样本分量可能未应用信号处理。
关于作为音频信号的缺失部分的带宽的特性,一些感知音频编解码器(包括在相对低的比特率下操作的那些)是:它们可以通过丢弃在某预定阈值之上的信号分量来限制压缩信号的带宽。例如,感知音频编解码器可以将在预定频率之上(诸如在12kHz之上)的所有频率分量视为感知上不太重要的,并且因此将它们丢弃。带宽扩展模块301可以对输入信号(X)进行操作以生成在这种预定截止频率(Fx)之上的信号分量或信号处理(ST1)。带宽扩展模块301可以分析输入信号(X)以确定输入信号的截止频率(Fx),如果截止频率(Fx)存在的话。截止频率(Fx)的知识可用于引导信号处理流(ST1)的生成,其中在预定截止频率(Fx)之上的新信号分量用于补偿这种特性在音频信号的对应样本分量中的缺失。
可替代地或另外,在侧链信息106从感知音频解码器103可用(如图1中所示)的情况下,可以将截止频率(Fx)提供至带宽扩展模块301。在其它情况下,其中感知音频解码器103和信号增强器系统110是集成的(诸如在图2的实例中),感知音频解码器103可以将截止频率(Fx)直接提供至带宽扩展模块301。
关于作为音频信号的缺失或丢失部分的谐波的特性,一些感知音频编解码器(包括在相对低的比特率下操作的那些)可以在信号内的给定时间点将压缩信号内的某些“中间谐波”丢弃。例如,在某个时间点,感知音频编解码器可以保留特定声音源的基频分量以及若干较低阶谐波。感知音频编解码器还可以保存信号的一些或所有最高阶谐波,同时丢弃声音源的一个或多个中间谐波。带内谐波填充模块302可以分析输入信号(X)104以搜索感知音频编解码器已丢弃音频信号的一个或多个中间谐波特性的事件。带内谐波填充模块302可以操作来生成信号处理流(ST2),其中新中间谐波用于响应于这种特性从音频信号的样本分量中缺失而应用于音频信号。
关于作为音频信号的缺失部分的瞬态的特性,一些感知音频编解码器(包括在相对低的比特率下操作的那些)可以引起瞬态信号的“拖尾效应(smearing)”。这种类型的编码伪迹可以被描述为“前回声”,并且在瞬态信号具有急剧上升(attack)并且在瞬态事件发生时相对于其它信号分量是相对大声的情况下可能最容易被听到。前回声趋向于引起瞬态信号分量的感知钝化。瞬态增强模块303可以试图将这种特性识别为从音频信号的分量样本中缺失,并且导出信号处理以恢复瞬态信号分量的感知急剧上升。瞬态增强模块303可以分析输入信号(X)并且可以识别瞬态事件和瞬态信号分量,从而识别缺失的特性。瞬态增强模块303可以操作来生成包含新瞬态信号分量的信号处理流(ST3),所述新瞬态信号分量用于应用于音频信号以增强对现有瞬态信号分量的起始(onset)的感知。
用于检测音频信号中的瞬态的示例性方法可以包括以下活动。计算用于时域输入信号样本的当前块的FFT区段的幅度并且将其存储在历史缓冲器中。将当前组的FFT区段的幅度与过去组的FFT区段的幅度逐个区段地进行比较,其中当前组和过去组表示一系列相应样本的一系列样本分量。过去组的FFT区段的幅度先前被存储在历史缓冲器中并且被检索出以用于这种比较。对当前FFT区段的幅度超过过去FFT区段的幅度一个预定阈值(诸如幅度阈值)所对应的区段的数量进行计数。如果计数超过所确定的计数阈值,那么所确定的是,时域样本的当前块包含瞬态事件。预定值诸如20dB可适合于用于检测瞬态的幅度阈值。过去FFT区段可以取自样本的当前块之后的一个或两个块。也就是说,历史缓冲器可以表示样本的样本分量的顺序处理中的一个或两个处理块的延迟。
关于作为音频信号的缺失或丢失部分的扩展的特性,一些感知音频编解码器(包括在相对低的比特率下操作的那些)在音频信号产生为可听声音时可以引起由收听者感知到的立体声声场的感知变窄。也就是说,被感知为位于原始未压缩音频信号中的极左边或极右边的声音在压缩过程期间可以相对于其它声音减弱。因此,所得的音频信号可以被感知为更像“单声道的”且更不像“立体声的”。声场增强模块304可以识别一系列样本分量中的与这个特性相关的音频信号的缺失或丢失部分,并且将被感知为位于输入信号(X)的极左边或极右边的信号分量放大为生成的信号处理。例如,声场增强模块304可以操作来提取极左边或极右边信号分量并且生成包含这些信号分量的放大版本的信号处理流(ST4)。用于提取极左边或极右边信号分量的一种可能方法在标题为“SYSTEM FOR SPATIAL EXTRACTION OF AUDIOSIGNALS(用于空间提取音频信号的系统)”的美国专利申请号12/897,709中进行描述,所述申请以引用方式整体并入本文。
关于作为音频信号的缺失或丢失部分的混响的特性,一些感知音频编解码器(包括在相对低的比特率下操作的那些)是:它们可以引起音频信号中的“氛围”或“混响”特性的感知减少。混响特性的这种减少可能导致整体声音的感知“钝化”、以及由于音频信号的丢失部分而引起的声音中的细节的感知丢失。混响的减少还可能减少整体声场的感知大小和宽度。混响填充模块305可以操作来将输入信号(X)分解为干信号分量和混响信号分量。随后,混响填充模块305可以操作来识别对应样本分量中的音频信号的缺失部分,增加样本分量中的混响的感知水平,并且生成信号处理流(ST5),所述信号处理流(ST5)可包含新的混响信号分量并且可以包含放大的混响信号分量,所述放大的混响信号分量仅应用于音频信号的部分被确定为缺失的样本序列的那些样本分量。
用于将输入信号(X)分解成干信号分量和混响信号分量的一种可能方法在标题为“SYSTEM FOR SELECTIVELY EXTRACTING COMPONENTSOF AN AUDIO INPUT SIGNAL(用于选择性地提取音频输入信号的分量的系统)”的美国专利号8,180,067和标题为“SYSTEM FOR EXTRACTINGAND CHANGING THE REVERBERANT CONTENT OF AN AUDIO INPUTSIGNAL(用于提取和改变音频输入信号的混响含量的系统)”的美国专利号8,036,767中进行描述,所述两个专利均以引用方式整体并入本文。
关于作为音频信号的缺失或丢失部分的掩蔽信号的特性,一些感知音频编解码器(包括在相对低的比特率下操作的那些)可以引起信号中的清晰度和低水平细节的感知减少。这可能是由感知音频编解码器丢弃信号分量引起的,所述信号分量根据例如感知模型被认为对于大多数收听者而言是听不见的。通常,如果存在可能掩蔽第一信号分量的其它占主导的信号分量,那么感知模型将某些第一信号分量识别为听不见的。也就是说,由于人类听觉系统的掩蔽特性,占主导的信号分量可能(掩蔽)使得第一信号分量听不见。然而,每个收听者的掩蔽特性有所不同,并且感知音频编解码器中的感知模型仅可以近似一个收听者的掩蔽特性。因此,感知音频编解码器可能丢弃对于一些收听者而言可听见的某些信号分量。
掩蔽信号填充模块306可以操作来识别音频信号的对应样本分量的缺失部分,并且将低水平信号分量放大,以使得它们正好在被掩蔽的阈值处。掩蔽信号填充模块306可以接收输入信号(X)并且应用感知模型来确定针对每个频率的“同时掩蔽阈值”。同时掩蔽阈值指示感知模型确定某个频率下的信号分量被其它频率下的信号分量掩蔽的水平。例如,如果在1000Hz下存在足够大声的信号分量,那么在1100Hz下的信号分量可能听不见。在这个实例中,同时掩蔽阈值指示在其它频率(诸如1100Hz)下的信号分量将被1000Hz下的信号分量掩蔽的水平。因此,如果在1100Hz下的信号分量的水平低于同时掩蔽阈值,那么感知模型确定这个信号分量将被掩蔽(听不见)。
继续这个实例,如果掩蔽信号填充模块306确定在1100Hz下的信号分量低于同时掩蔽阈值并且因此识别音频信号的对应样本分量的丢失部分,那么掩蔽信号填充模块306可以生成可以包含在1100Hz下的信号分量的放大版本的信号处理流(ST6),以使得在1100Hz下的信号分量达到同时掩蔽阈值。类似地,掩蔽信号填充模块306可以针对在所有频率下的信号分量执行这个操作来识别对应样本分量的缺失部分,以使得它可以生成包含在各种频率下的放大信号分量的信号处理流(ST6),因此在所有频率下的信号分量都可以达到同时掩蔽阈值。
用于确定同时掩蔽阈值的感知模型的实例在标题为“SYSTEM FORSELECTIVELY EXTRACTING COMPONENTS OF AN AUDIO INPUTSIGNAL(用于选择性地提取音频输入信号的分量的系统)”的美国专利号8,180,067和标题为“SYSTEM FOR EXTRACTING AND CHANGING THEREVERBERANT CONTENT OF AN AUDIO INPUT SIGNAL(用于提取和改变音频输入信号的混响含量的系统)”的美国专利号8,036,767中进行描述,所述两个专利均以引用方式整体并入本文。一般来说,感知模型可以在随时间推移生成分量样本期间基于基于时间的听觉掩蔽估计和基于频率的听觉掩蔽估计中的至少一个执行平滑化(诸如在一系列样本的分量样本的许多快照上)。
富含谐波的信号的基波和谐波分量的相位可以趋于随时间推移而相互追踪。也就是说,富含谐波的信号的基波和谐波分量可以趋向于以某种方式对准。关于作为音频信号的缺失或丢失部分的谐波相位对准的特性,一些感知音频编解码器(包括在相对低的比特率下操作的那些)可以引起给定声音源的谐波的相位失去它们相对于相位的对准。作为样本分量的缺失部分的这种相位对准丢失可发生在信号的至少较高阶谐波上。这种相位对准丢失可以由收听者以不同方式感知。相位对准丢失的一个常见结果是“哗哗的”声音,其通常在较高频率下可听见。谐波相位对准模块307可以操作来强制谐波相关的信号分量随时间推移而相位对准。谐波相位对准模块307可以分析输入信号(X)并且寻找音调信号分量(与瞬态或噪声类信号分量相反)并且确定音调分量是否是谐波相关的。另外,谐波相位对准模块307可以确定任何谐波相关的音调分量的相位随时间推移是否对准。在对应样本分量中的特性被识别为音频信号的缺失部分(即谐波相关的音调分量的相位对准)的情况下,任何谐波的未对准的相位都可以得到调节。谐波相位对准模块307可以生成信号处理流(ST7),所述信号处理流(ST7)可以包含这些未对准的音调分量的相位对准版本。可替代地或另外,谐波相位对准模块307可以提供某种其它形式的音调分量对准。
如果输入信号(X)104是立体声或多声道的,那么它可以在由信号增强器110进行处理之前被分解成空间片501,如参照图5所描述的。用于将信号分解成空间片的系统和方法在标题为“SYSTEM FOR SPATIALEXTRACTION OF AUDIO SIGNALS(用于音频信号的空间提取的系统)”美国专利申请号12/897,709中进行描述,所述申请以引用方式整体并入本文。将输入信号分解成空间片可以允许各种处理(301、302、303、304、305、306和307)更精确地应用于包含在每个空间片(XSS1、XSS2、XSS3……XSSn)501中的信号分量。例如,如果瞬态信号位于给定的空间片内,那么瞬态增强处理303可以仅应用在那个空间片中,同时不影响其它空间片中的非瞬态信号分量。
一旦适当的处理已应用于每个空间片,来自每个空间片的增强输出流(YSS1、YSS2、YSS3……YSSn)502可以在求和模块503处结合来在输出线路105上产生合成输出信号(Y)。
应用于给定空间片中的信号分量的各种处理随时间推移可以随着输入信号(X)的内容的改变而变化。使用以上实例,在已在给定空间片中检测到瞬态信号分量的时间期间,瞬态增强处理303可以仅应用于那个空间片中的一些样本分量。
音频信号诸如音乐或讲话通常包含一定量的混响。这种混响可能是由于记录音频信号的房间(例如,音乐厅),或它可以是以电子方式增加的。混响的来源被称为混响系统。混响的特性由混响系统的脉冲响应确定。可以将混响系统的脉冲响应分为一组块。脉冲响应估计器910对输入信号进行操作以产生对脉冲响应的频域表示的感知相关估计。一般来说,脉冲响应估计器可以对输入信号进行操作以产生脉冲响应的基于块的估计。脉冲响应的基于块的估计是由对应于脉冲响应的频域估计的多个块估计组成的。
图6是脉冲响应的实例。第一竖直线表示直接声音分量602,而其余的线表示回声(reflection)。每条线的高度指示其振幅并且其在间轴线(t)上的位置指示其在声音测量设备诸如麦克风处的到达时间。随着时间的推移,回声的数量增加到不再可能识别单独回声的点。最后,回声演变成以指数方式扩散的衰减系统。这通常被称为脉冲响应的混响尾部604。
所谓的早期回声606在直接声音分量602之后不久到达,并且具有与混响尾部不同的感知效果。这些早期回声提供关于声学空间的大小以及音频信号源与麦克风之间的距离的感知线索。早期回声606也是重要的,原因在于它们能够提供对声音的改进的清晰度和可懂度。混响尾部还提供关于声学空间的感知线索。
脉冲响应也可以通过计算其傅里叶变换(或某种其它变换)而在频域中查看,并且因此混响系统可以在其频域表示方面进行完全描述。变量指示频率。脉冲响应的傅里叶表示提供幅度响应和相位响应。一般来说,幅度响应提供关于脉冲响应中的不同频率分量的相对水平的信息,而相位响应提供关于频率分量的时间方面的信息。
混响填充模块305可以产生对输入信号中的混响能量的幅度的估计的频域估计。将对混响能量的幅度的这种估计从输入信号中减去,从而提供对输入信号的干音频信号分量的幅度的估计。混响输入信号的相位用于近似原始干信号的相位。如本文所使用,术语“干信号”、“干信号分量”、“干音频信号分量”或“直接信号分量”是指几乎不具有存在于音频信号中的混响能量的音频信号或音频信号的一部分。因此,原始干信号可以几乎不具有混响能量,因为它几乎完全是由直接声音脉冲602组成的。如本文所使用,术语“混响能量”、“混响输入信号”、“混响的分量”、“混响的信号分量”、“混响分量”或“混响信号分量”是指早期回声和音频信号的混响尾部。另外,如本文相对于音频信号所使用,术语“分量”或“多个分量”是指一个或多个分量。
如果混响输入信号的相位用于近似原始干信号的相位(使用整个脉冲响应作为整体),那么可能的是,在处理过的信号中将可听见严重的时域伪迹。因此,混响填充模块305可以将对整个脉冲响应的估计分成块608,并且处理可以以基于块的方式执行。块608的预定长度可以是足够短的,以使得人耳感知不到由于处理过的输出信号的相位中的误差而产生的任何时域伪迹。
两个因素结合来确定混响输入信号在给定频率下衰减的速率。第一因素是干(即,非混响)声音源的衰减率,并且第二因素是混响系统的衰减率。虽然混响系统在给定频率下的衰减率随时间推移是相当恒定的,但是干声音源的衰减率连续变化。对于输入信号(X)可能的最快衰减率发生在干声音源在给定频率下停止时,并且信号的衰减完全是由于混响系统的衰减。在图6的实例中,干声音源可在例如早期回声606的时间处停止。混响系统在给定频率下的衰减率可以由混响系统在那个频率下的脉冲响应直接确定。因此,输入信号(X)不应当以比由混响系统的脉冲响应指示的速率更快的速率衰减。
图7示出混响填充模块305的更详细视图。混响填充模块305接收输入信号(X)104并且可以提供信号处理310ST5作为输出。脉冲响应估计器710、混响漏失检测器模块711和混响漏失填充模块712以及分解处理器模块713可以包括在混响填充模块305中。在其它实例中,可以描述更少或更多数量的模块以完成所讨论的功能。
脉冲响应估计器710可以用于导出对输入信号(X)的混响系统的脉冲响应的估计。用于估计输入信号(X)的混响系统的脉冲响应的一种可能方法在标题为“SYSTEM FOR SELECTIVELY EXTRACTING COMPONENTSOF AN AUDIO INPUT SIGNAL(用于选择性地提取音频输入信号的分量的系统)”的美国专利号8,180,067和标题为“SYSTEM FOR EXTRACTINGAND CHANGING THE REVERBERANT CONTENT OF AN AUDIO INPUTSIGNAL(用于提取和改变音频输入信号的混响含量的系统)”的美国专利号8,036,767中进行描述,所述两个专利均以引用方式整体并入本文。
图8是对音频信号的混响分量的估计的实例,所述估计可以由混响填充模块305进行。分解处理器模块713可以对输入信号(X)进行操作以导出输入混响分量802,所述输入混响分量802是先前所讨论的输入信号的样本分量之一。输入混响分量802可以由输入信号的混响分量(混响)或特性的估计组成。用于导出输入信号(X)的输入混响分量802的一种可能方法在标题为“SYSTEM FOR SELECTIVELY EXTRACTING COMPONENTS OFAN AUDIO INPUT SIGNAL(用于选择性地提取音频输入信号的分量的系统)”的美国专利号8,180,067和标题为“SYSTEM FOR EXTRACTING ANDCHANGING THE REVERBERANT CONTENT OF AN AUDIO INPUTSIGNAL(用于提取和改变音频输入信号的混响含量的系统)”的美国专利号8,036,767中进行描述,所述两个专利均以引用方式整体并入本文。可以针对来自由分解处理器模块713产生的脉冲响应的每个顺序样本直接确定预期衰减率806。在图8中,输入混响分量802被示出为在一段时间(t)内、在给定频率下的样本分量序列。可以看出,输入混响分量802在某些时间点增长(增加)并且在其它时间点衰减。
参照图7和图8,混响漏失检测器711可以在不同的时间点将输入混响分量802的衰减率与预期衰减率806进行比较。混响漏失检测器711可以在单独样本分量中将一个或多个混响漏失804识别为音频信号的缺失或丢失部分,其中输入混响分量802低于预期衰减率806。混响漏失填充模块712可以操作来产生混响填充处理作为信号处理,以补偿由于混响漏失804导致的丢失能量。如图8中所示,信号处理仅应用于音频信号的部分缺失的那些样本分量。因此,由于样本分量序列是顺序地进行处理的,所以信号处理可以选择性地仅应用于被识别为具有输入信号的缺失或丢失部分的那些样本分量。
图9是与增强控制器模块900耦接的信号增强器模块110的实例的框图。增强控制器模块900可以包括处理水平调节器模块901、信号质量分析器模块902和显示器模块906。在操作期间,信号处理模块300可以向信号质量分析器902提供处理要求指标。处理要求指标可以提供来自各种处理模块(301、302、303、304、305、306和307)的关于因输入信号(X)的所识别的缺失部分而需要的信号处理的量的相关信息。
作为可能的处理要求指标的一个实例,带宽扩展模块301(图3)可以提供对输入信号(X)的截止频率(Fx)的估计。截止频率的较低值可表明感知音频编码器101更积极地作用于原始音频信号(Z)100(图1),并且因此输入信号(X)可能缺失信号的高频部分的大部分,从而导致在回放音频信号时较差的收听者感知质量。可替代地或另外,带宽扩展处理模块301可以提供对在截止频率之上、由感知音频编码器101丢弃的信号缺失能量与被保留的信号能量的比率的估计。用于这个比率的较大值可表明原始音频信号(Z)100的较大部分是缺失的(被丢弃),并且因此在回放音频信号时,输入信号(X)可能具有较差的收听者感知质量。
作为另一个实例,带内谐波填充模块302(图3)可以提供对中间(带内)谐波已被丢弃和从音频信号中缺失的频率的指示。可替代地或另外,带内谐波填充模块302可以提供对丢弃谐波的能量的估计。较大水平的缺失(丢弃的)带内谐波能量可指示:在回放音频信号时,输入信号(X)具有较差的收听者感知质量。
作为另一个实例,混响填充模块305可以提供对输入信号(X)的混响能量的测量、以及对由感知音频编码器101丢弃的丢失混响能量的估计。较大水平的缺失混响能量可指示:在回放音频信号时,输入信号(X)具有较差的收听者感知质量。
作为又一个实例,声场扩展模块304(图3)可以提供对由感知音频编码器101丢弃的缺失或丢失的侧(左减右)能量和中间(左加右)能量的量的估计。可替代地或另外,声场扩展模块304可以提供相对于输入信号(X)的总能量对极左边或极右边信号分量的能量的测量。较低水平的极左边或极右边信号能量可指示:部分从输入信号104中缺失导致在回放音频信号时较差的收听者感知质量。
作为另一个实例,瞬态增强模块303可以通过指示瞬态在输入信号(X)104中的发生频率来提供对音频信号的缺失部分的指示。作为另一个实例,掩蔽信号填充模块306可以检查输入信号(X)并且提供对在同时掩蔽阈值之下的信号分量被丢弃并且因此从音频信号中缺失的频率的指示。如果信号分量频繁地缺失(被丢弃),那么这可指示在回放音频信号时输入信号(X)可能具有较差的收听者感知质量。
作为另一个实例,谐波相位对准模块307(图3)可以检查输入信号(X)并且提供对谐波相关信号分量未相位对准的频率的指示。可替代地或另外,谐波相位对准模块307可以提供对未相位对准的谐波分量的能量的测量。较高水平的未相位对准的谐波分量可表明输入信号(X)104的部分丢失,所述部分在回放音频信号时可能具有较差的收听者感知质量。
信号质量分析器902可以接收处理要求指标并且导出信号质量指标。可替代地或另外,信号质量分析器902可以从元数据缓冲器905接收元数据。元数据可以提供对输入信号(X)的感知质量的直接指示。包括在元数据缓冲器905中的元数据可以由感知音频解码器103、音频信号或某个其它源来提供。可替代地,元数据可以直接被提供至信号质量分析器902,并且元数据缓冲器905可以省略。元数据可以提供关于输入信号的起源和特性的信息,包括但不限于截止频率(Fx)、由感知音频编码器101使用的当前处理块的长度、输入信号(X)的比特率和/或输入信号(X)的采样率。
使用接收到的处理要求指标中的一个或多个和/或元数据,信号质量分析器902可以导出对输入信号(X)的整体感知质量的估计。可替代地或另外,信号质量分析器902可以导出相对于单独信号处理对输入信号的感知质量的估计。
信号增强器模块110应用于输入信号(X)的信号处理310的相对能量水平可以根据输入信号的相对质量和/或输入信号的样本分量而变化。例如,在输入信号(X)的质量相对良好的情况下,那么可降低信号处理310的相对能量水平。类似地,在输入信号(X)的质量相对差的情况下,那么可相应地增加信号处理310的相对能量水平。处理水平调节器901可以通过增大或减小一个或多个处理增益(g1、g2、g3、g4、g5、g6和g7)315而独立地更改信号处理310的相对能量水平。可替代地或另外,处理水平调节器901可以通过增大或减小总处理增益(gT)320来更改信号处理310的总相对能量水平。
处理水平调节器901可以从信号质量分析器902接收一个或多个信号质量指标作为参数。处理水平调节器901可以使用一个或多个可用的信号质量指标903来独立地确定用于单独处理增益(g1、g2、g3、g4、g5、g6和g7)315中的每一个的适当值、以及用于总处理增益(gT)320的适当值。可替代地或另外,信号质量分析器1002可以使用元数据来确定用于单独处理增益(g1、g2、g3、g4、g5、g6和g7)315中的每一个的适当值、以及用于总处理增益(gT)320的适当值,所述元数据可以提供对输入信号(X)的感知质量的直接指示。以这种方式,各种信号处理310的水平可以进行自动调节以匹配输入信号(X)的要求。
处理水平调节器模块901在确定单独处理增益和总处理增益时还可以考虑其它参数。因此,例如,由处理水平调节器模块901基于参数可以减小某些单独处理增益并且可以增大某些其它单独处理增益。此类参数可以包括输入信号的元数据,诸如产生的音频信号的类型,以使得例如对于摇滚音乐类型,可以增大瞬态处理水平增益以强调鼓声,而对于经典音乐类型,可以增大混响处理水平增益以强调音乐厅效果。在另一个实例中,可以在输入信号是谈话对音乐时调节处理增益。在其它实例中,可以使用任何数量的处理水平增益和参数。由处理水平调节器模块901进行的增益调整还可以是基于规则的,诸如当存在对在预定阈值之上的混响的特性的处理时,用于瞬态增强特性的增益可以基于例如比率而相应地减小。用户设置也可以应用于处理水平调节器模块901,以实现在某些操作条件或操作模式下选择性地应用的处理增益的量。
显示器模块906可以提供对输入信号(X)的质量、输出信号(Y)的质量、以及信号增强器模块110的性能和/或操作的不同方面的视觉表示。如图9中所示,显示器模块906可以接收并且显示一个或多个信号处理(ST1、ST2、ST3、ST4、ST5、ST6和ST7)310。例如,显示器模块906可以显示由于带宽扩展模块301完成的信号处理ST1。在这种情况下,显示器模块906可以产生已由带宽扩展模块301生成的在截止频率(Fx)之上的新信号分量的频谱表示的视觉显示。可替代地或另外,显示器模块906可以显示输出信号(Y)的频谱表示或时域表示,所述频谱表示或时域表示包括所有应用的信号处理310。可替代地或另外,显示器模块906可以从信号质量分析器902接收一个或多个信号质量指标。显示器模块906继而可以产生输入信号(X)的质量的视觉表示。显示器模块906还可以产生被应用于输入信号(X)的信号处理310的整体水平的视觉表示。显示器模块906还可以产生输出信号(Y)的质量的视觉表示。因此,观看显示器的用户可以被提供输入信号(X)的质量的视觉指示,并且还被提供应用处理信号的程度或水平。
图10是输出信号(Y)的示例性显示,其中显示带宽增强的信号处理。在图10中,在约12kHz的截止频率之上,输入信号(X)1002的一部分在先前的编码期间已被丢弃,如由输入信号(X)1002的在-120dB至-150dB的范围内的那部分所指示。带宽扩展模块301可以识别音频信号的缺失或丢失的部分,并且提供在相同频率范围之内的信号处理1004。信号处理1004可以应用于输入信号(X)1002的未处理部分。因此,用户可以观看显示器并且不仅被提供未处理的输出信号将看起来的质量的指示,而且还被提供由信号增强器系统110提供的处理的水平和程度。在其它实例中,可以创建其它形式的显示以指示所应用的一个或多个处理中的任何一个。
图11a和图11b示出带宽扩展模块301的操作的示例性结果。图11a示出在音频信号由感知音频编解码器压缩之前和之后音频信号的短块的频谱视图(频域)。示出原始信号的曲线,其中可以看出大量的信号能量持续直到奈奎斯特频率。压缩音频信号曲线示出这个相同信号在其已由感知音频编解码器压缩之后的情况。在图11a中,可以看出,在特定的截止频率(Fx)之上,信号分量已被丢弃,并且剩余的仅为低水平噪声。
图11b示出在压缩音频信号由带宽扩展模块301处理之前和之后压缩音频信号的短块的实例的频谱视图。此处,示出压缩音频信号,其中在截止频率(Fx)之上的信号分量已丢弃。图11b中包括相同的压缩音频信号在其由带宽扩展模块301处理之后的曲线。可以看出,已生成在截止频率(Fx)之上的新信号分量。已基于和/或使用截止频率(Fx)之下的信号分量中的至少一些生成这些新信号分量。
图12a和图12b示出瞬态增强模块303的示例性操作。图12a示出瞬态信号分量的时域视图。图12a的上面板示出原始信号。可以看出,起始信号几乎是静音的,并且随后是急剧的瞬态信号,所述瞬态信号随时间推移衰退。图12a的下面板示出类似的瞬态信号分量在其已由感知音频编解码器压缩之后的情况。可以看出,瞬态不再是急剧限定的。此外,压缩音频信号现在使能量在实际瞬态之前到达。这是前面所述的所谓的“前回声”的实例。
图12b示出示例性瞬态信号分量在其由瞬态增强模块303处理之前和之后的时域视图。图12b的上面板示出具有随时间推移具有大量瞬态的压缩音频信号。可以看出,瞬态在信号中并不是非常明显。图12b的下面板示出相同的瞬态信号在其已由瞬态增强模块303处理之后的情况,其中单独瞬态的起始现在是急剧限定的且容易可见的。
图13是示例性计算系统1300。计算机系统1300可以包括指令集,所述指令集可以被执行来引起计算机系统1300执行所描述的方法或基于计算机的功能中的任何一个或多个。计算机系统1300可以操作为独立的设备,可以是另一个设备的一部分,或可以诸如使用网络连接至其它计算机系统或外围设备。
在联网部署中,计算机系统1300可以作为服务器-客户端用户网络环境下的服务器或客户端用户计算机进行操作,作为对等式(或分布式)网络环境下的对等计算机系统进行操作,或以各种其它方式进行操作。计算机系统1300还可以实施为各种设备或并入各种设备中,例如交通工具中的诸如远程信息处理系统。在其它实例中,可以使用能够执行指令集(顺序的或以其它方式)的任何其它机器,所述指令集指定将由那个机器采取的动作。计算机系统1300可以使用提供语音、音频、视频或数据通信的电子设备来实施。虽然示出单个计算机系统1300,但是术语“系统”可以包括单独或联合地执行一个或多个指令集以便执行一个或多个计算机功能的任何系统或子系统的集合。
计算机系统1300可以包括处理器1302,诸如中央处理单元(CPU)、图形处理单元(GPU)、数字信号处理器(DSP)或不同的或相同的处理器的某种组合。处理器1302可以是多个系统中的部件。例如,处理器1302可以是交通工具中的音响单元(head unit)或放大器的一部分。处理器1302可以是一个或多个通用处理器、数字信号处理器、专用集成电路、现场可编程门阵列、数字电路、模拟电路、它们的组合、或用于分析和处理数据的其它现在已知的或稍后开发的设备。处理器1302可以实现软件程序,诸如手动或编程生成的代码。
处理器1302可以操作和控制系统的至少一部分。术语“模块”可以被定义为包括一个或多个可执行模块。模块可以包括可由处理器诸如处理器1302执行的软件、硬件、固件或它们的某种组合。软件模块可以包括存储在存储器(诸如存储器1304)或另一个存储设备中的指令,所述指令可以由处理器1302或其它处理器执行。硬件模块可以包括由处理器1302可执行、指导或控制用于性能的各种设备、部件、电路、门、电路板等。
计算机系统1300可以包括存储器1304,诸如可经由总线1308进行通信的存储器1304。存储器1304可以是主存储器、静态存储器或动态存储器。存储器1304可以包括但不限于计算机可读存储介质,诸如各种类型的易失性和非易失性存储介质,包括但不限于随机存取存储器、只读存储器、可编程只读存储器、电可编程只读存储器、电可擦只读存储器、快闪存储器、磁带或磁碟、光学介质等。在一个实例中,存储器1304包括用于处理器1302的高速缓存或随机存取存储器。在替代实例中,存储器1304可以是与处理器1302分开的,诸如处理器的高速缓存存储器、系统存储器或其它存储器。存储器1304可以包括用于存储数据的外部存储设备或数据库。实例包括硬盘驱动、光盘(“CD”)、数字视频盘(“DVD”)、存储卡、存储棒、软盘、通用串行总线(“USB”)存储设备或可操作来存储数据的任何其它设备。
计算机系统1300还可以或可以不包括显示单元1310,诸如液晶显示器(LCD)、有机发光二极管(OLED)、平板显示器、固态显示器、阴极射线管(CRT)、投影仪或用于输出确定信息的其它现在已知的或稍后开发的显示设备。显示器1310可以充当用于用户控制处理器1302的功能的界面,或特定地充当具有存储在存储器1304中的软件的界面。
计算机系统1300可以包括被配置成允许用户与计算机系统的任何部件进行交互的输入设备1312。输入设备1312可以是用于接收语音命令的麦克风、小键盘、键盘或光标控制设备(诸如鼠标或操纵杆)、触摸屏显示器、远程控件或可操作来与计算机系统1300进行交互的任何其它设备。所述系统的用户可以例如输入将由所述系统和/或远程信息处理系统进行考虑的标准或条件。
计算机系统1300可以包括计算机可读介质,其包含指令或响应于传播信号接收和执行指令,以使得连接至网络1326的设备可以通过网络1326传达语音、视频、音频、图像或任何其它数据。可通过网络1326经由通信端口或接口1320或使用总线1308来传输或接收指令。通信端口或接口1320可以是处理器1302的一部分或可以是单独的部件。通信端口1320可以形成于软件中或可以是硬件中的物理连接部。通信端口1320可以被配置成与网络1326、外部介质、显示器1310或计算机系统1300中的任何其它部件、或它们的组合连接。与网络1326的连接可以是物理连接诸如有线以太网连接,或可以是无线建立的。与计算机系统1300的其它部件的额外连接可以是物理连接或可以是无线建立的。可替代地,网络1326可以直接连接至总线1308。
网络1326包括有线网络、无线网络、以太网AVB网络或它们的组合。无线网络可以是蜂窝电话网络、802.11、802.16、802.20、802.1Q或WiMax网络。此外,网络1326可以是公共网络(诸如互联网)、私人网络(诸如内联网)或它们的组合,并且可以利用现在可用的或稍后开发的多种联网协议,包括但不限于基于TCP/IP的联网协议。所述系统的一个或多个部件可以通过或经由网络1326彼此通信。
虽然已描述了本发明的各种实施例,但是对于本领域的技术人员将明显的是,可以有更多的实施例和实现方式落在本发明的范围内。因此,本发明仅受随附权利要求书及其等效物的限制。

Claims (23)

1.一种用于修复压缩音频信号的系统,所述系统包括:
处理器;
采样器模块,所述采样器模块可由所述处理器执行来将音频信号分成一系列顺序样本;
信号增强器模块,所述信号增强器模块可由所述处理器执行来顺序地接收和分析所述音频信号的一个或多个样本分量,以便识别相应顺序样本的所述一个或多个样本分量中的所述音频信号的丢失部分;
所述信号增强器模块还可由所述处理器执行来生成针对具有对应识别到的丢失部分的相应顺序样本的所述一个或多个样本分量中的每一个的对应信号处理。
2.如权利要求1所述的系统,其中所述样本分量是频率分量,并且所述对应信号处理是应用于具有在截止频率阈值之上的缺失的频率分量的样本分量的频率分量。
3.如权利要求1所述的系统,其中所述样本分量是瞬态分量,并且所述对应信号处理是应用于具有缺失的瞬态的样本分量的瞬态分量以增强存在于所述音频信号中的现有瞬态的起始。
4.如权利要求1所述的系统,其中所述样本分量是混响分量并且所述对应的信号处理被应用于具有缺失的混响的样本分量以减小所述音频信号的衰减率。
5.如权利要求1所述的系统,其中所述信号增强器模块被配置成基于随所述音频信号接收到的侧链数据来分析所述一个或多个样本分量。
6.如权利要求1所述的系统,其中所述对应的信号处理是包括带宽扩展处理、瞬态增强处理和混响填充处理的多个信号处理。
7.如权利要求1所述的系统,其中所述信号增强器模块是多个信号增强器模块,并且其中所述信号增强器模块中的每一个对收听者感知声场的空间片独立地进行操作以添加至少一个信号处理,所述收听者感知声场是由收听者在所述音频信号的回放期间感知的。
8.如权利要求1所述的系统,其中所述信号增强器模块被配置成生成多个对应的信号处理,所述对应的信号处理添加到所述音频信号。
9.一种存储可由处理器执行来修复压缩音频信号的计算机可读指令的计算机可读存储介质,所述计算机可读介质包括:
可由所述处理器执行来创建音频信号的样本序列的指令;
可由所述处理器执行来将所述序列中的所述样本中的每一个分成与所述音频信号的不同特性相关的样本分量的指令;
可由所述处理器执行来识别包括在所述样本序列中的一系列样本分量内的样本分量中的所述音频信号的缺失部分的指令;以及
可由所述处理器执行来响应于识别到所述样本分量中的所述音频信号的所述缺失部分而生成针对包括在所述系列样本分量内的所述样本分量的信号处理并且将所述信号处理应用于所述音频信号的指令。
10.如权利要求9所述的计算机可读存储介质,其中所述样本分量是第一样本分量并且所述计算机可读存储介质还包括可由所述处理器执行来随后响应于没有识别到包括在所述系列样本分量内的第二样本分量中的所述音频信号的缺失部分而不将所述信号处理应用于所述第二样本分量的指令。
11.如权利要求9所述的计算机可读存储介质,其还包括可由所述处理器执行来基于与所述音频信号相关的参数确定所述音频信号的质量的指令、以及用于根据所述音频信号的所确定质量调节所述信号处理的增益的指令。
12.如权利要求9所述的计算机可读存储介质,其中所示音频信号的所述不同特性包括频率范围特性、瞬态特性和混响特性。
13.如权利要求9所述的计算机可读存储介质,其中所述音频信号的所述样本序列中的每个样本在一定时间段期间被连续地接收,并且所述样本分量包括在所述顺序样本中的每一个中。
14.如权利要求9所述的计算机可读存储介质,其中可由所述处理器执行来识别样本分量中的所述音频信号的缺失部分的指令包括用于识别在频率截止值之上的缺失频率分量的指令,以及可由所述处理器执行来生成信号处理并且将所述信号处理应用于所述音频信号的指令包括用于生成在所述频率截止值之上的频率分量的指令以及用于将所述频率分量应用于所述音频信号的指令。
15.如权利要求9所述的计算机可读存储介质,其中可由所述处理器执行来识别样本分量中的所述音频信号的缺失部分的指令包括用于识别所述样本分量中的缺失瞬态分量的指令,以及可由所述处理器执行来生成信号处理并且将所述信号处理应用于所述音频信号的指令包括用于生成瞬态分量的指令以及用于将所述瞬态分量应用于所述音频信号的指令。
16.如权利要求9所述的计算机可读存储介质,其中可由所述处理器执行来识别样本分量中的所述音频信号的缺失部分的指令包括用于基于所述音频信号的最大衰减率来识别缺失的混响分量的指令,以及可由所述处理器执行来生成信号处理并且将所述信号处理应用于所述音频信号的指令包括用于生成混响分量的指令以及用于将所述混响分量应用于所述音频信号的指令。
17.如权利要求9所述的计算机可读存储介质,其还包括可由所述处理器执行来仅将所述信号处理应用于所述系列样本分量中的具有所述音频信号的缺失部分的那些样本分量的指令。
18.如权利要求9所述的计算机可读存储介质,其还包括可由所述计算机执行来在显示器上输出所述音频信号的质量的指示和所应用的所述信号处理的水平的指示的指令。
19.一种修复压缩音频信号的方法,所述方法包括:
使用处理器将音频信号分离成样本;
利用所述处理器将所述样本中的每一个分成样本分量,其中所述样本分量表示所述音频信号的特性;
利用所述处理器对所述音频信号的特性的一系列样本分量顺序地进行分析以识别具有所述音频信号的丢失部分的样本分量;以及
所述处理器仅将信号处理应用于所述系列样本分量中的被识别为具有所述音频信号的丢失部分的那些样本分量。
20.如权利要求19所述的方法,其还包括所述处理器利用所述信号处理将能量填充在所述音频信号的所述丢失部分中。
21.如权利要求19所述的方法,其还包括所述处理器不将信号处理应用于所述系列样本分量中的被识别为不具有所述音频信号的丢失部分的那些样本分量。
22.如权利要求19所述的方法,其还包括利用所述处理器确定所述音频信号的质量,以及所述处理器基于所确定的质量改变信号处理的水平。
23.如权利要求22所述的方法,其还包括将所述音频信号的所述质量的指示和所述信号处理水平输出到显示器。
CN201380061356.XA 2012-11-26 2013-11-01 用于修复压缩音频信号的系统、计算机可读存储介质和方法 Active CN104823237B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201261730053P 2012-11-26 2012-11-26
US61/730,053 2012-11-26
US13/842,479 US9135920B2 (en) 2012-11-26 2013-03-15 System for perceived enhancement and restoration of compressed audio signals
US13/842,479 2013-03-15
PCT/US2013/067981 WO2014081548A1 (en) 2012-11-26 2013-11-01 System, computer-readable storage medium and method for repair of compressed audio signals

Publications (2)

Publication Number Publication Date
CN104823237A true CN104823237A (zh) 2015-08-05
CN104823237B CN104823237B (zh) 2019-06-11

Family

ID=50774017

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201380061356.XA Active CN104823237B (zh) 2012-11-26 2013-11-01 用于修复压缩音频信号的系统、计算机可读存储介质和方法

Country Status (7)

Country Link
US (3) US9135920B2 (zh)
EP (1) EP2923355B1 (zh)
JP (1) JP6212567B2 (zh)
KR (1) KR101825507B1 (zh)
CN (1) CN104823237B (zh)
BR (1) BR112015011820B1 (zh)
WO (1) WO2014081548A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109767760A (zh) * 2019-02-23 2019-05-17 天津大学 基于振幅和相位信息的多目标学习的远场语音识别方法
CN112565124A (zh) * 2021-03-01 2021-03-26 中国人民解放军国防科技大学 基于重叠加窗的无失真信号处理方法、存储介质和系统
CN112735454A (zh) * 2020-12-30 2021-04-30 北京大米科技有限公司 音频处理方法、装置、电子设备和可读存储介质

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9135920B2 (en) * 2012-11-26 2015-09-15 Harman International Industries, Incorporated System for perceived enhancement and restoration of compressed audio signals
EP2830054A1 (en) 2013-07-22 2015-01-28 Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, audio decoder and related methods using two-channel processing within an intelligent gap filling framework
US10020000B2 (en) * 2014-01-03 2018-07-10 Samsung Electronics Co., Ltd. Method and apparatus for improved ambisonic decoding
KR102340151B1 (ko) * 2014-01-07 2021-12-17 하만인터내셔날인더스트리스인코포레이티드 신호 품질-기반 압축 오디오 신호 향상 및 보상
US9782672B2 (en) 2014-09-12 2017-10-10 Voyetra Turtle Beach, Inc. Gaming headset with enhanced off-screen awareness
US10057705B2 (en) 2015-01-13 2018-08-21 Harman International Industries, Incorporated System and method for transitioning between audio system modes
WO2016142002A1 (en) 2015-03-09 2016-09-15 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder, method for encoding an audio signal and method for decoding an encoded audio signal
WO2017157427A1 (en) 2016-03-16 2017-09-21 Huawei Technologies Co., Ltd. An audio signal processing apparatus and method for processing an input audio signal
CA3018039C (en) * 2016-03-24 2023-08-29 Harman International Industries, Incorporated Signal quality-based enhancement and compensation of compressed audio signals
CN109643555B (zh) 2016-07-04 2024-01-30 哈曼贝克自动系统股份有限公司 自动校正包含语音信号的音频信号中的响度级
DE102017204181A1 (de) 2017-03-14 2018-09-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Sender zum Emittieren von Signalen und Empfänger zum Empfangen von Signalen
EP3382700A1 (en) * 2017-03-31 2018-10-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for post-processing an audio signal using a transient location detection
EP3382701A1 (en) 2017-03-31 2018-10-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for post-processing an audio signal using prediction based shaping
CN107452398B (zh) * 2017-08-09 2021-03-16 深圳创维数字技术有限公司 回声获取方法、电子设备及计算机可读存储介质
KR102551359B1 (ko) 2017-10-24 2023-07-04 삼성전자주식회사 기계학습을 이용한 오디오 복원 방법 및 장치
CN111201569B (zh) 2017-10-25 2023-10-20 三星电子株式会社 电子装置及其控制方法
CN110033781B (zh) * 2018-01-10 2021-06-01 盛微先进科技股份有限公司 音频处理方法、装置及非暂时性电脑可读媒体
US11264017B2 (en) * 2020-06-12 2022-03-01 Synaptics Incorporated Robust speaker localization in presence of strong noise interference systems and methods

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003017555A2 (en) * 2001-08-17 2003-02-27 Broadcom Corporation Improved bit error concealment methods for speech coding
US20030187663A1 (en) * 2002-03-28 2003-10-02 Truman Michael Mead Broadband frequency translation for high frequency regeneration
KR100754439B1 (ko) * 2003-01-09 2007-08-31 와이더댄 주식회사 이동 전화상의 체감 음질을 향상시키기 위한 디지털오디오 신호의 전처리 방법
US8180067B2 (en) 2006-04-28 2012-05-15 Harman International Industries, Incorporated System for selectively extracting components of an audio input signal
CN101518098B (zh) * 2006-09-14 2013-10-23 Lg电子株式会社 用于对话增强技术的控制器和用户界面
US8036767B2 (en) 2006-09-20 2011-10-11 Harman International Industries, Incorporated System for extracting and changing the reverberant content of an audio input signal
JP2008158302A (ja) * 2006-12-25 2008-07-10 Sony Corp 信号処理装置、信号処理方法、再生装置、再生方法、電子機器
EP1947642B1 (en) * 2007-01-16 2018-06-13 Apple Inc. Active noise control system
US7885819B2 (en) * 2007-06-29 2011-02-08 Microsoft Corporation Bitstream syntax for multi-process audio decoding
CN102017402B (zh) * 2007-12-21 2015-01-07 Dts有限责任公司 用于调节音频信号的感知响度的系统
JP4940158B2 (ja) * 2008-01-24 2012-05-30 株式会社東芝 音補正装置
CA2720636C (en) * 2008-04-18 2014-02-18 Dolby Laboratories Licensing Corporation Method and apparatus for maintaining speech audibility in multi-channel audio with minimal impact on surround experience
EP2226794B1 (en) * 2009-03-06 2017-11-08 Harman Becker Automotive Systems GmbH Background noise estimation
JP5265008B2 (ja) * 2009-06-29 2013-08-14 三菱電機株式会社 オーディオ信号処理装置
EP2486737B1 (en) * 2009-10-05 2016-05-11 Harman International Industries, Incorporated System for spatial extraction of audio signals
US20110317841A1 (en) 2010-06-25 2011-12-29 Lloyd Trammell Method and device for optimizing audio quality
US9135920B2 (en) * 2012-11-26 2015-09-15 Harman International Industries, Incorporated System for perceived enhancement and restoration of compressed audio signals

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109767760A (zh) * 2019-02-23 2019-05-17 天津大学 基于振幅和相位信息的多目标学习的远场语音识别方法
CN112735454A (zh) * 2020-12-30 2021-04-30 北京大米科技有限公司 音频处理方法、装置、电子设备和可读存储介质
CN112565124A (zh) * 2021-03-01 2021-03-26 中国人民解放军国防科技大学 基于重叠加窗的无失真信号处理方法、存储介质和系统
CN112565124B (zh) * 2021-03-01 2021-04-23 中国人民解放军国防科技大学 基于重叠加窗的无失真信号处理方法、存储介质和系统

Also Published As

Publication number Publication date
EP2923355B1 (en) 2018-07-04
JP2016502139A (ja) 2016-01-21
KR101825507B1 (ko) 2018-02-05
US20150379999A1 (en) 2015-12-31
EP2923355A1 (en) 2015-09-30
US20140149126A1 (en) 2014-05-29
KR20150088253A (ko) 2015-07-31
BR112015011820B1 (pt) 2021-11-09
US9135920B2 (en) 2015-09-15
JP6212567B2 (ja) 2017-10-11
CN104823237B (zh) 2019-06-11
US20170162208A1 (en) 2017-06-08
WO2014081548A1 (en) 2014-05-30
US10311880B2 (en) 2019-06-04
US9576584B2 (en) 2017-02-21
BR112015011820A2 (pt) 2017-07-11

Similar Documents

Publication Publication Date Title
US10311880B2 (en) System for perceived enhancement and restoration of compressed audio signals
JP6576934B2 (ja) 圧縮済みオーディオ信号の信号品質ベース強調及び補償
JP6778781B2 (ja) エンコードされたオーディオ拡張メタデータベースのダイナミックレンジ制御
CN110379434B (zh) 用于参数化多声道编码的方法
US10332529B2 (en) Determining the inter-channel time difference of a multi-channel audio signal
AU2017310759B2 (en) Multi-channel signal encoding method and encoder
RU2600527C1 (ru) Система компандирования и способ для снижения шума квантования с использованием усовершенствованного спектрального расширения
EP3602552B1 (en) Apparatus and method for determining a predetermined characteristic related to an artificial bandwidth limitation processing of an audio signal
US10741196B2 (en) Signal quality-based enhancement and compensation of compressed audio signals
Tsilfidis et al. Blind single-channel suppression of late reverberation based on perceptual reverberation modeling
JP2011508897A (ja) 音声コーデックの品質向上装置およびその方法

Legal Events

Date Code Title Description
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant