CN101014997B

CN101014997B - 用于生成用于自动语音识别器的训练数据的方法和系统

Info

Publication number: CN101014997B
Application number: CN200580005136.0A
Authority: CN
Inventors: A·菲舍尔; R·D·比普斯
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2004-02-18
Filing date: 2005-02-10
Publication date: 2012-04-04
Anticipated expiration: 2025-02-10
Also published as: EP1719114A2; JP5230103B2; US8438026B2; CN101014997A; WO2005083677A2; JP2007523374A; US20080215322A1; WO2005083677A3

Abstract

本发明描述了用于生成用于以特定第一采样频率(f_H)操作的自动语音识别器(2)的训练数据(D_T)的方法和系统，包括步骤：由以低于第一采样频率(f_H)的第二采样频率(f_L)采样的音频数据(D_L)导出频谱特性(S_L)；通过从密码本(6)检索带宽扩展信息(I_BE)扩展频谱特性(S_L)的带宽；以及处理带宽扩展频谱特性(S_LE)以便产生所需训练数据(D_T)。此外，描述了用于生成将用于以第二采样频率(f_L)采样的音频数据(D_L)的频谱特性(S_L)的带宽扩展到用于高于第二采样频率(f_L)的第一采样频率(f_H)的频谱特性(S_H)的密码本(6)的方法和系统(5)。

Description

用于生成用于自动语音识别器的训练数据的方法和系统

技术领域

本发明通常涉及用于生成用于以特定采样频率操作的自动语音识别器的训练数据的方法和系统。此外，本发明涉及用于训练自动语音识别系统的方法，以及用于生成用在用于生成训练数据的方法中的密码本的方法和系统。

背景技术

自动语音识别器用于各种应用，诸如控制界面、自动导航系统、对话系统等等，其中，识别和解释语音输入。通常，这种自动语音识别器(ASR)的用户向麦克风说话，其中，模拟语音输入通过用于窗口化和采样输入模拟信号，即以连续速率测量模拟信号的振幅以便提供离散采样集的常用技术，转换成数字形式。采样信号的速率称为采样速率或采样频率。离散样本的最终顺序提供模拟信号的时域描述。例如通过在采样输入信号上执行快速傅立叶变换，将该输入信号的时域描述转换成频域描述，其中，执行各种处理步骤以便提取用于输入信号的特征，通常以特征向量的形式。通过将这些特征与模板或其他模型进行比较，在下文中称为“模型”，以及确定最适当的匹配，ASR能分析语音输入以便确定用户说了什么以及最终将执行哪些动作。

通常使用训练数据计算由自动语音识别器使用的模型，训练数据通常是所说话语，诸如词、句子或整个会话的集合。将训练数据输入自动语音识别器的前端，即第一处理级，并处理来计算用于自动语音识别器的模型。为增加自动语音识别器在操作期间正确地识别和理解输入语音的成功率，通常将多个扬声器用于训练自动语音识别器，通过区分重音或声调来提供尽可能宽的话语的选择。可用于训练自动语音识别器的话语越多，其性能越好。如果在类似于意图操作自动语音识别器的条件的声学条件下，记录训练数据，甚至能获得更好性能。

将每一模拟信号视为不同频率的许多分量正弦波的合成。根据样本的所需质量，选择采样频率。高采样速率确保将更高频率分量包括在采样信号中。根据Nyquist，采样频率必须是最高所需频率分量的频率的至少二倍，因为在采样中丢失低于采样速率的一半的任何分量频率。因此，由于在提高语音识别的更高频带中的另外的信息，自动语音识别器将从用于该输入语音的较高采样速率受益。例如，在汽车中操作的自动语音识别器能以较高采样速率更好地执行。为训练以较高采样速率操作的这种自动语音识别器，有必要首先收集以该采样速率获得的训练音频数据。

用于自动语音识别器的训练数据应当包含尽可能宽的多个所说话语，例如单词、整个语句，或甚至整个会话。理想地，所说词来自具有不同重音或清晰度质量的多个扬声器。因此，为收集计算用于自动语音识别器的鲁棒性能的所需多个模型的足够的原始数据，将要求许多人在实际条件下录制多个测试词来反映典型的汽车的嘈杂环境。通过话语的适当不同集合，训练数据能确保自动语音识别器的鲁棒操作，以及在实际工作条件下可靠识别语音。然而，用于在较高采样频率操作的自动语音识别器，例如用于用在汽车应用中的自动语音识别器的训练语音数据不易于得到，因为在不利环境中，诸如在嘈杂汽车中收集数据非常耗时，因此造价昂贵。并且，每种自动语音识别器要求以其自己的特定格式，以特征模型的形式的训练数据。以用于特定ASR品牌的格式的训练数据可能非常不适合于不同类型的ASR。

发明内容

因此，本发明的目的是提供用于生成自动语音识别器的训练数据的简单和廉价方法和系统。

为此，本发明提供用于生成用于为特定第一采样频率所构成的自动语音识别器的训练数据的方法-通过从以低于第一采样频率的第二采样频率采样的音频数据导出频谱特性，通过检索带宽扩展信息，扩展频谱特性的带宽，以及处理带宽扩展频谱特性以便提供所需训练数据。

信号频谱是指在其不同频率分量上分布的信号中的线路能量(wayenergy)。能使用频谱的各种特性来描述频域中的信号。这些特性在下文中称为“频谱特性”或“频谱表示”，以及可以用多种方法计算。

该方法的固有优点在于用来生成训练数据的训练音频数据可以是已经用在其他、不同应用中的数据，以及可以以低于训练数据所需的频率采样。因此，例如，可以实现可用电话音频数据的数据库，因为这些数据库已经可获得，通常相当大，以及包含通常来自不同扬声器集的各种所说词和/或整个语句。因为4KHz的带宽通常满足电话使用，通常以8KHz采样音频电话数据。使用根据本发明的方法，该8KHz数据可以用来训练汽车自动语音识别器，由于性能质量原因，可以以相当高频率，诸如11KHz或甚至更高的频率操作。

用于生成用于以特定第一采样频率操作的自动语音识别器的训练数据的适当系统包括用于从以低于第一采样频率的第二频率采样的音频数据导出频谱特性的转换器，检索单元，用于从密码本检索用于频谱特性的带宽扩展信息，以及处理模块，用于处理带宽扩展频谱特性以便给出所需训练数据。

根据本发明，扩展以较低采样频率可获得的数据的频谱特性的带宽以致输入似乎以更高频率采样。从存储它的适当源，以适当形式检索带宽扩展信息。这里，这种源通常称为“密码本”。因此，密码本是以能与以相同形式的其他数据比较的模板或某一形式的随机混合模型的集合。数据形式通常相当复杂，例如，用于典型的ASR的特征向量可以是n维向量，其中，n通常是相当大的数，以及数据与模板的比较通常包含定位“最佳匹配”。用来生成用于自动语音识别器的训练数据的该密码本不与可以用在自动语音识别器的稍后阶段中的不同类型的密码本混淆，并且不相关。

能在下一步骤中处理带宽扩展频谱特性以便提供以自动语音识别器的另外的阶段所需的形式的训练数据。

为实现此，需要允许带宽扩展的适当密码本。因此，本发明的另一目的是提供用于生成这种密码本的方法和系统。

根据本发明，生成用在上述系统中的密码本包含用于将以较低采样频率采样的音频数据的频谱特性的带宽扩展到用于较高采样频率的频谱特性的项-包括用于该密码本的每一项的多个步骤。在第一步骤中，由以第一采样频率采样的音频数据导出第一频谱特性集。然后，在该音频数据上执行到第二采样频率的采样速率变换，以及导出相应的第二频谱特性集。因此，第一和第二频谱特性集均描述相同的音频样本，但以不同采样频率。对于第二频谱特性集，计算密码本项，以及增加来自第一频谱特性集的另外的较高频率信息。然后，将该项存储在密码本中。

用于生成用于将以第二采样频率采样的音频数据的频谱特性集的带宽扩展到用于以高于第二采样频率的第一采样频率的频谱特性集的密码本的适当设备，包括用于从以第一采样频率采样的音频数据导出第一频谱特性集的转换器，用于在音频数据上执行到第二采样频率的采样速率变换以及导出用于第二采样频率的相应第二频谱特性集的模块，以及密码本项生成器，用于基于第二频谱特性集生成用于密码本的项，以及用于使密码本项增加来自相应的第一频谱特性集的另外的更高频率信息。

后续说明书具体公开了本发明的有利实施例和特征。

在两种情况-生成用于ASR的训练数据和生成密码本中-通过在音频数据上首先执行时间/频率域变换，将音频数据转换成频谱特性集，以便提供频域系数集。在要求从较高采样频率到较低采样频率的下采样的步骤的情况下，可以在已经窗口化和采样的输入音频数据上直接执行下采样，或可以在音频数据的时间-频率域变换后执行。另外，可以通过用适当的低通滤波器过滤音频数据以便修剪上述频率，实现下采样效果。

时间/频率域变换最好是快速傅立叶变换(FFT)，因为这种变换允许快速和有效获得采样信号的离散傅立叶变换。通过DFT或FFT确定的系数表示音频信号的频率分量的每一个的振幅以及描述音频信号的频谱。根据需要，同样可以实现不同类型的时间/频率域变换，例如离散余弦变换(DCT)。

由时间/频率域变换产生的系数能用作频谱特性。然而，由于它们的使用意味着在生成密码本中的更多努力，通常执行另外的处理步骤以便在稍后阶段省去麻烦。例如，能通过滤波器组过滤时间/频率域变换的输出以便提供滤波器组功率值集。

这种滤波器组的一个优点是最终频谱描述要求相当少的数据，以及如果需要，能失真或翘曲(warp)频率轴。

通常在计算频谱后执行频率轴的翘曲以便模拟人类耳蜗的性能，因为耳蜗中的声音分析以非线性频率比例，称为Bark或mel比例发生。该比例近似地线性达约1000Hz并且此后近似为对数的。在本发明的具体优选实施例中，构造滤波器组中的滤波器以便实现频率轴的所需翘曲。

然后，可以将滤波器组输出功率值用作频谱特性。

也可以通过在另一处理步骤中，计算滤波器组功率值的对数，以便提供对数频谱系数集，获得频谱特性。在根据mel比例，在滤波器组中实现频率轴的翘曲的情况下，能将最终系数称为mel频率系数。通常这种对数频谱系数是用于生成用在诸如自动语音识别器的系统中的特征向量的基础。对数频谱系数也可以使用不同的、同样适当的技术计算。

在本发明的具体优选实施例中，对数频谱系数用作用于生成用于用在生成用于自动语音识别器的训练数据的系统中的带宽扩展密码本的项的频谱特性。通过在对数频谱系数上执行DCT，能将这些变换成对数倒谱系数，特别适合于在自动语音识别器的另外的处理步骤中的应用，诸如语音识别和理解。

在用于训练自动语音识别器的适当方法中，使用以较低频率采样并增加从密码本检索的带宽扩展信息的音频数据，提供似乎以更高采样频率获得的训练数据，足以生成所需训练数据。不必说，以较低频率采样的训练数据能与以所需频率采样的训练数据一起使用。

通过使用以更高频率采样的相对小的高质量音频数据集，构建用在从以较低频率采样的音频数据生成训练数据中的密码本。分别对较高频率的音频数据，和下采样到较低频率的音频数据计算第一和第二频谱特性集。因此，第一和第二频谱特性集均有效地描述相同的输入音频数据样本。然而，第一集包含在第二集合中不存在的另外的高频信息。因此，使用相应的第一频谱特性集，增加为第二频谱特性集计算的密码本项。

在本发明的一个实施例中，每一密码本项可以包括来自第一和第二频谱特性集的信息，最好以两个集合彼此相关，而且保持分离的方式存储。

在另一实施例中，每一密码本项可以包括来自第二频谱特性集的信息，以及从第一频谱特性集提取的另外的带宽扩展信息。

根据用来构建密码本的较高频率的音频数据的质量，有必要通过移除某些不希望的频谱分量，诸如背景噪声，修改音频数据的频谱。为此，对第二频谱特性集，连续地计算平均值或平均频谱。然后，在计算密码本项前，从音频数据的频谱特性减去或消除平均频谱。用这种方式，相对“清洁(cL，Ean)”的数据用于构建密码本。

类似地，以较低频率采样并用来生成用于自动语音识别器的训练数据的音频数据也可以要求频谱改进以便消除不希望的噪声或沟道效应。在音频数据中存在的这种频谱特征当包含在训练数据中时，可能具有反面效果，以及最好通过由音频数据连续地计算平均值或平均频谱以及在从密码本检索带宽扩展信息前，从音频数据的频谱特性减去平均频谱来消除。这确保为自动语音识别器生成的训练数据基本上无不希望的噪声或沟道效应。

由于用于自动语音识别器的训练数据应当真实地反映期望操作的环境的典型的音频质量，可以期望增加或插入适当的背景噪声信息，或其他类似的频谱特征。为此，可以调整带宽扩展频谱特性的频谱以便在可选处理步骤中修改其频谱属性。为计算方便，最好在线性域中执行该处理步骤。这使得计算频谱特性的反对数成为必要，这些应当以对数形式。然后，通过增加所需特征，修改音频数据的频谱。然后，根据需要，再次计算频谱的对数，以便将频谱返回到对数域中。

本发明的其他目的和特征从结合附图考虑的下述详细说明变得显而易见。然而，应理解到仅为示例目的设计了附图，而不是本发明的限制的定义。

附图说明

图1是表示在自动语音识别器的前端中的普通处理步骤的框图；

图2是根据本发明的实施例，用于生成密码本的系统的框图；

图3是根据本发明的实施例，用于生成用于自动语音识别器的训练数据的系统的框图；

图4是表示用于在导出用于由图2和3描述的系统的频谱特性的模块中的处理步骤的框图；

图5是表示在用于导出用于由图2描述的系统的频谱特性的模块中的处理步骤的框图。

具体实施方式

在图1中，简化表示示处了包含在处理输入模拟音频信号A以便生成用于在语音识别的后续阶段中使用的音频信号的特征向量V中的自动语音识别器的典型前端中的阶段。首先窗口化和以采样频率f采样模拟音频信号A，可以包括语音和噪声分量，以便提供数字音频样本集。对每一数字样本集执行快速傅立叶变换(FFT)，提供相应的傅立叶系数集。将这些依次转送到滤波器组，其中，根据Bark或mel比例，以非线性方式构造滤波器，以便计算信号的各个频率分量的能量，提供滤波器组能量值集。以对数单位，对滤波器组能量值计算对数，以提供对数滤波器系数集。在对数滤波器组系数上执行长期规格化(LTN)，以便规格化沟道效应。然后，通过在对数频谱系数上执行离散余弦变换(DCT)，进一步处理LTN输出，以便提供特征向量V，在这种情况下为倒谱系数(cepstral coefficient)。在自动语音识别器的另外的阶段中，在该图中未示出，特征向量V用于语音识别和语音理解。

图2表示用于生成用在根据图3的用于生成用于为采样频率f_H构建的以及将使用以较低频率f_L采样的数据训练的自动语音识别器2的训练数据的系统中密码本的系统。通过模块9，处理已经以较高频率f_H采样的音频数据DC_H，部分与在图1中所述的自动语音识别器的前端类似。同时，通过类似的模块10，处理音频数据。能分别在图4和5中详细看见模块9和10。

图4表示为从已经通过窗口化和以所需采样频率f采样模拟信号获得的输入音频数据30，提取频谱特性34构建的模块9。在块41中处理样本30以便计算FFT系数31，然后，在滤波器组单元42中过滤以便提供滤波器组功率值32，在对数块43中计算其对数频谱值33。在块44中，在对数频谱值33上执行长期规格化以便提供频谱特性集34。

图5中的处理步骤的顺序基本上与图4相同，但具有在下采样块46中，下采样输入音频数据30以便提供较低采样频率f_L样本的另一步骤。已经使用相同的输入样本计算分别为音频数据DC_H计算并从块9和10输出的频谱特性，即SC_H和SC_L，但SC_H包含在SC_L中不存在的较高频率信息。

在可选单元20中，在它们与用来生成带宽扩展数据的音频数据D_L(图3)相差不可忽略的量的情况下，能规格化沟道或附加噪声特性。该单元20能包括沟道规格化或附加噪声补偿的任何适当的装置。在图2中，例如，在平均频谱计算块17中，计算用于对数频谱特性SC_L的对数平均频谱18，以及在平均减法块19中，从对数频谱特性SC_L减去。能适当地合并块10和12以避免处理步骤重复，例如，在另外的噪声/沟道补偿要求在线性频谱域中处理(在计算对数前)的情况下。如果在其频谱表示SC_L中显示出的音频数据DC_H的沟道和噪声特性的低频部分非常接近音频数据D_L的那些，该可选单元20能省略。否则，使用该单元20来消除或规格化存在于音频数据DC_H中的沟道和噪声效应。

在密码本项生成单元11中，对频谱特性SC_L集，计算用于密码本6的密码本项12。通过使用存在于相应的频谱特性SC_H集并存储在密码本6中的较高频率分量，增加或扩展这些项12。因此，使用实际上已经以较高频率f_H采样，并包含否则将在向下采样中丢失的一些或全部较高频率信息的音频数据，汇编包括用于以f_L采样的音频数据的项的密码本6。

能在图3中看到如何使用该密码本来生成用于构造成在采样频率f_H操作的自动语音识别器2(f_H)的训练数据。用于训练自动语音识别器2(f_H)的输入音频数据D_L可在较低频率f_L获得。在模块3中首先处理输入音频数据D_L，部分与已经在图1中所述的自动语音识别器的前端类似，以提供频谱特性集S_L。以与用来在图2所述的密码本生成过程中处理音频数据的模块9相同的方式，构建模块3。这表示在两种情况下，以相同的方式处理较高采样频率的音频数据。

可选单元16表示图2中的单元20的对应单元。该单元16也能包括对应于单元20，用于沟道规格化或另外的噪声补偿的任何适当的装置。因此，在该例子中，在平均频谱计算块13中，对对数频谱特性S_L计算对数平均频谱14以及在平均减法块15中，从对数频谱特性S_L中减去。如果音频数据D_L的沟道和噪声特性与用来训练密码本6的音频数据DC_H非常类似，也能省略该可选单元16。否则，使用ASR训练数据生成系统1的单元16和图2的密码本生成系统5的单元20来分别规格化音频数据D_L和DC_H的沟道和噪声特性。该步骤的原因是确保不会由于训练和使用密码本间的沟道和/或背景噪声不匹配，不利地引起密码本查找的过程。

现在，通过从密码本6检索带宽扩展信息I_BE，扩展每一频谱特性集S_L的带宽以便包括更高频率分量。该带宽扩展信息I_BE能从最接近匹配频谱特性集S_L的密码本6中的项或模板获得或经加权内插从所有项计算(见下文)。

将频谱特性与密码本中的模板匹配的过程很大程度上取决于构成密码本的方式。

在其最通用版本中，“随机混合模型”用在密码本中，用于模拟由以特定采样频率采样的输入数据获得的频谱特性的概率分布。混合模型是单峰概率密度函数的加权和。最通常和最简单的处理单峰函数是高斯分布。总和加权表示用于混合分布的每一单个单峰分布(模式)的先验概率。为带宽扩展目的，混合模型的每一模式具有相关输出向量。对每一输入向量，对能导出每一模式的概率的每一混合模式，计算概率密度值。通过附属于所计算的概率用作加权(加权内插)的每一模式的输出向量的加权总和，计算输出向量(来自更高频带的输入或另外部分的带宽扩展型)。

能将其他类型的密码本和模板匹配方法(“密码本查找”)视作上述混合模型的特殊情形或近似，诸如例如：

1.高斯混合模型，将高斯分布用于每一模式；

2.将具有单位矩阵的高斯用作协方差矩阵。这些仅由它们的平均值表示。概率密度计算总计计算输入向量和平均值间的“距离”；

3.通过将其设置成对于具有最高概率的模型为1.0(“最接近”模式)和对于所有其他的为0.0，计算用于每一输入向量的概率的近似值。

其中，输出向量对应于用来代替或扩展频谱特性S_L的带宽扩展信息I_BE以便提供频谱特性集S_L，E，似乎已经通过以较高频率f_H采样获得。

在最终处理模块7中，在块23中，在对数频谱上执行离散余弦变换以便提供由自动语音处理器2所需的特征向量或训练数据D_T。训练数据D_T能直接转发到自动语音处理器2的下一阶段，或能存储在数据库21中，用于以后使用。

为反映自动语音识别器2将操作的环境，能在可选块8中，相应地修改频谱特性S_L，E。该可选块8在此示为最终处理模块7的一部分，位于DCT前。例如，能将噪声添加到频谱上以便反映汽车中的噪声环境。由于这种类型的操作应当在线性频域中执行，在再次增加噪声频谱和计算用于频谱特性S_L，E的对数前，首先计算用于频谱特性S_L，E的反对数。

尽管以优选实施例和变形的形式公开了本发明，将理解到在不背离本发明的范围的情况下，能做出各种另外的改进和改变。用来描述输入音频的属性的频谱特性可以用作FFT系数、滤波器组功率值、对数频谱系数或任何其他适当的频谱描述(诸如小波等等)。可以选择将执行带宽扩展的点以便最适合实现。同样地，可以选择相对于其他阶段，设置LTN、DCT或其他处理阶段的顺序来适合实现的需求。

为清楚起见，还应理解到在整个申请中使用“一”或“一个”不排除多个，以及“包括”不排除其他步骤或元件。“单元”或“模块”可以包括多个块或设备，除非清楚地描述为单一实体。以硬件的形式和/或通过实现软件模块，本领域的技术人员可以实现单元、模块、块和设备。术语“频谱”和“频谱的”也表示“倒谱”和“倒谱的”，根据Bark或mel比例，其指的是在翘曲后对数频谱的FFT或DCT变换。

Claims

1.一种用于生成用于以特定第一采样频率操作的自动语音识别器(2)的训练数据的方法，包括下述步骤：

-从以低于第一采样频率的第二采样频率采样的音频数据导出频谱特性；

-通过从密码本(6)检索带宽扩展信息扩展频谱特性的带宽；

-处理带宽扩展的频谱特性以便产生所需训练数据，

所述方法进一步包括生成密码本(6)的步骤，用于将用于以第二采样频率采样的音频数据的频谱特性的带宽扩展到用于高于第二采样频率的第一采样频率的频谱特性，其中所述生成密码本(6)的步骤包括用于密码本(6)的每一项的下述步骤：

-从以第一采样频率采样的音频数据导出第一频谱特性集；

-在音频数据上执行到第二采样频率的采样速率变换，以及导出相应的第二频谱特性集；

-基于第二频谱特性集生成密码本项(12)以及向密码本项(12)增加来自第一频谱特性集的另外的较高频率信息。

2.如权利要求1所述的方法，其中，将音频数据转换成频谱特性集包括计算音频数据的FFT以便产生FFT系数(31)集以及用滤波器组(22)过滤FFT的输出以便产生滤波器组功率值(32)集。

3.如权利要求2所述的方法，其中，将音频数据转换成频谱特性集包括处理FFT系数(31)或滤波器组功率值(32)以便产生对数频谱系数集(33)。

4.如权利要求1至3的任何一个所述的方法，其中，处理带宽扩展的频谱特性包括改变频谱以便调整音频数据的信号属性的步骤。

5.如权利要求4所述的方法，其中，在线性域中执行改变频谱以便调整音频数据的信号属性的步骤。

6.如权利要求1至3的任何一个所述的方法，其中，从音频数据导出频谱特性后面跟随着从频谱特性减去平均频谱的步骤。

7.如权利要求1所述的方法，其中，增加密码本项(12)包括从属于高于第二采样频率的频率的相应的第一频谱特性集抽取信息，以及将该信息附加到密码本(6)的密码本项(12)。

8.如权利要求1或7所述的方法，其中，导出第二频谱特性集后面跟随着背景降噪和/或沟道规格化步骤。

9.如权利要求8所述的方法，其中，频谱特性包括对数频谱表示，以及通过从对数频谱特性减去平均对数频谱，执行沟道规格化。

10.如权利要求8所述的方法，其中，频谱特性包括线性频谱表示，以及通过从线性频谱特性减去背景噪声频谱，执行背景降噪。

11.如权利要求9或10所述的方法，其中，通过从线性频谱特性减去背景噪声频谱，接着，计算对数，然后从对数频谱特性减去平均对数频谱，执行背景降噪。

12.一种用于训练自动语音识别系统(2)的方法，其中，用于训练的数据至少部分使用根据权利要求1至11的任何一个的方法生成。

13.一种用于生成用于以特定第一采样频率操作的自动语音识别器(2)的训练数据的系统(1)，包括：

-转换器(3)，用于由以低于第一采样频率的第二采样频率采样的音频数据导出频谱特性；

-检索单元(4)，用于从密码本(6)检索用于频谱特性的带宽扩展信息；

-处理模块(7)，用于处理带宽扩展的频谱特性以便产生所需训练数据，

所述系统(1)还包括用于生成密码本(6)的系统(5)，用于将用于以第二采样频率采样的音频数据的频谱特性集的带宽扩展到用于高于第二采样频率的第一采样频率的频谱特性集，其中，所述用于生成密码本(6)的系统(5)包括：

-转换器(9)，用于从以第一采样频率采样的音频数据导出第一频谱特性集；

-模块(10)，用于在音频数据上执行到第二采样频率的采样速率变换，以及用于导出用于第二采样频率的相应的第二频谱特性集；

密码本项生成器(11)，用于基于第二频谱特性集生成用于密码本(6)的项(12)以及用于向密码本项(12)增加来自相应的第一频谱特性集的另外的较高频率信息。