CN1741132A

CN1741132A - 口头发音检索所用的基于格点搜索的系统和方法

Info

Publication number: CN1741132A
Application number: CNA2005100915764A
Authority: CN
Inventors: 穆拉特·萨拉克拉尔; 理查德·威廉姆·斯普罗特
Original assignee: AT&T Corp
Current assignee: AT&T Corp
Priority date: 2004-08-23
Filing date: 2005-08-23
Publication date: 2006-03-01
Also published as: US20180253490A1; US8670977B2; US7912699B1; CA2515613A1; KR20060050578A; US20140188474A1; EP1630705A2; US20160179947A1; JP2006058899A; US9286890B2; EP1630705A3; US20110173226A1; US9965552B2

Abstract

公开了用于从口头文档检索音频片段的系统和方法。优选情况下，所述口头文档是具有中等错字率的文档，比如电话交谈或电话会议。本方法包括把与口头文档相关联的语音转换为格点表示，以及对语音的格点表示编制索引。典型情况下，这些步骤离线进行。收到用户发出的查询后，本方法进一步包括搜索编制了索引的语音格点表示，以及返回从所述口头文档检索的与用户查询匹配的音频片段。

Description

口头发音检索所用的基于格点搜索的系统和方法

技术领域

本发明涉及口头文档的检索，更确切地说，涉及进行口头发音检索所用的基于格点搜索的系统和方法。

背景技术

在最近十年对大量口头通信编制索引、归档、搜索和浏览所用的自动系统已经变为现实。大多数此类系统使用自动语音识别(ASR)组件把语音转换为文本，然后用作标准的基于文本的信息检索(IR)组件的输入。如果语音识别输出大部分正确，或者所述文档足够长所以查询术语的某些出现被正确识别，这种策略的效果令人满意。这个领域中的大多数研究集中在广播新闻型口头文档的检索，其中语音相对纯净而且文档相对较长。此外，有可能发现大量内容类似的文本以便建立更好的语言模型，以及通过使用类似的文档增强检索。

不过，如果需要口头文档检索但是不具有纯净语音的有利条件，信息检索变得更加困难。例如，要是某人要记录电话会议，然后希望进行所述会议若干部分的搜索即信息检索，问题就变得更加困难。这是由于以下事实：电话会议很可能包含多个音频短片段，它们可能包括许多错字且冗余度低。另外，与新闻广播相反，在电话会议中可能有许多发言者，每个人都为整体口头文档提供若干语音小片段。

所以，如果任务是检索错字率(WER)可能高达50％之处的语音短片段，对广播新闻使用同样的方法不会提供满意的结果。这正是电话会议语音的情况，其中任务就是发现参与者是否以及何时发出特定短语。

业内需要的技术是对电话交谈或电话会议等产生的口头文档提供改进的口头文档检索系统。

发明内容

在以下的说明中，将会阐述本发明另外的特性和优点，其中一部分从说明中显而易见，或者可以从本发明的实践中学会。利用附带的权利要求书中具体指出的若干装置及组合，就可以实现本发明的特性，获得本发明的优点。从以下的说明和附带的权利要求书，本发明的这些和其他特性将会显现得更加全面，或者说可以由本文阐述的、本发明的实践而学会。

本文公开的是口头发音检索所用的编制索引过程，它面对若干格点而不仅仅是单一最优的文本。对于错字率不良且冗余度低的任务，这个过程与单一最优检索相比，能够使F得分改进不止5分。表达方式灵活，所以字格点和音素格点都可以表达，在对包含着词汇表以外(OOV)字的短语进行搜索时，后者对改进效能很重要。

本发明包括系统、方法和计算机可读的介质，以便提供口头发音检索所用的、基于格点的搜索。优选情况下，如本文所称的口头文档是具有中等错字率的文档，比如电话交谈或电话会议。本方法包括把与口头文档相关联的语音转换为格点表示，以及对语音的格点表示编制索引。典型情况下，这些步骤离线进行。收到用户发出的查询后，本方法进一步包括搜索编制了索引的语音格点表示，以及返回从所述口头文档检索的与用户查询匹配的音频片段。

附图简要说明

为了介绍能够获得本发明的上述和其他优点和特性的方式，通过参考附图中展示的若干特定实施例，对以上简单介绍的本发明将提供更加具体的说明。理解了这些附图仅仅描绘了本发明的典型实施例所以不视为限制其范围，将通过使用附图更具体和详细地介绍和讲解本发明，其中：

图1展示了根据本发明一个实施例的系统；

图2A展示本发明的一个方法实施例；

图2B展示了根据本发明一个实施例的另一种方法；

图3显示了对电话会议使用字格点的精确恢复所涉及的实验结果；

图4显示了对电话会议字格点与字/音素混合策略的对比；

图5显示了对电话会议使用字/音素混合策略时最小发音长度的效应；

图6显示了对于电话交谈多种识别词汇表规模的对比；

图7显示了多种技术在不同任务中的精度与恢复对比。

具体实施方式

通过本发明多种实施例的以下说明，可以理解本发明。本发明把音频片段检索技术扩展到比如电话交谈和电话会议应用的情形。任务是在口头交谈中定位查询的出现处以助于浏览。方式涉及口头文档检索和字定位。在一种情况下，所述过程包括识别音频短片段，它可以称为一大组音频片段之内的“文档”。同样，每个音频片段都可以称为一个文档。

尽管对于中等(～20％)错字率的任务，使用最优的ASR假设也能够获得合理的检索效能，但是更高(40-50％)错字率的任务需要使用多个ASR假设。本发明的一个方面是增加若干ASR格点，它们使系统对识别错误更加稳健。字格点可以一般地称为若干字和它们之间链接的有向图，它们能够对大量可能句子进行简洁的编码。每个字都以其观察似然度增大，所以通过所述格点的任何具体路径都能够与从其他语言模型获得的先验概率相结合。典型情况下，在字格点中也提供了计时信息。参见如Huang，Acero and Hon，Spoken LanguageProcessing，Prentice Hall PTR，2001，664-673页。本领域的技术人员进一步理解字格点的细节和结构，所以本文不提供更多的细节。

几乎所有ASR系统都具有封闭的词汇表，它们涉及具体的领域即主题内容。这种限制来自运行时的需求以及训练ASR系统的语言模型时所用的数据量有限。典型情况下识别词汇表取为语言模型训练语料库中出现的字。所述词汇表常常进一步缩减为仅仅包括所述语料库中频度最高字。不在这个封闭词汇表中的字——所述词汇表以外(OOV)的字——将不被所述ASR系统识别，变成识别误差。使用语音学研究成果有助于检索OOV字。

图1展示了本发明装置实施例的基本系统10。向ASR模块14提供语音12。所述语音12可以产生自电话交谈、电话会议或者具有高错字率的任何其他来源。尽管本发明不具体要求，但是应当理解，所提供的语音12的错字率高于从受到更多控制的来源获得的语音，比如广播新闻。ASR模块14把语音转换为所述语音的格点表示。ASR模块14也提供格点之内的或者与格点分开存储的计时信息入口。索引模块16为了高效检索而对格点表示编制索引。优选情况下，把语音转换为格点表示和对所述格点编制索引的这两个步骤离线进行。搜索/匹配模块18从用户22接收语音或其他类型的输入20，它表示一项查询。所述搜索和匹配模块18接收所述查询，并且搜索所述编制了索引的格点表示，定位匹配的音频片段24，将它们返回给所述用户。

在许多情形中都可以使用图1所示的基本系统。例如，所述模块可以在单一的计算机服务器上或一个分布式网络上编程和运行。对所述模块编码并不需要特定的编程语言。所述语音输入设备20可以是电话或者能够从用户22接收语音或其他多模态输入的其他计算设备。在本发明的多种组件之间可以有多种无线的和有线的连接。

作为本发明益处的实例，假设从建筑队、建筑师和承包商有关将要建筑之房屋细节的电话会议向ASR模块14提供语音12，会议除了其他议题以外，还包括修改计划，增加一个家庭影院房间。进一步假设购房者需要收到交谈中所述家庭影院部分的细节。电话会议结束并经过根据本发明的处理之后，口头文档经过编码并且可检索，人员22就可以通过计算设备来电，对与所述家庭影院相关联的音频片段提交请求。所述查询(它可以是语音、文本或语音和文本的组合或者其他输入模态)经过处理并且用于识别、检索和向所述用户22返回所述家庭影院有关的音频部分。

本发明过程的多种特性都有优选的方式。例如，优选情况下所述ASR模块14使用一流的基于HMM的大词汇表连续语音识别(LVCSR)系统。以ASR所用的音响模型优选情况下包括决策树状态集束的三音素(triphones)，输出分布为高斯分布的混合。语言模型优选情况下是缩减的补偿三字母组(trigram)统计模型。发音辞典优选情况下包含少数几种替代发音。不在基准发音辞典(包括OOV查询字)中的发音优选情况下使用文本-语音(TTS)前端(未显示)产生，它产生文本的语音表示。所述TTS前端能够产生多种发音。所述ASR系统可以是也可以不是单步系统。识别网络优选情况下表示为加权的有限状态机(FSM)。应当承认，上述方法表示了本发明实践的最优模式。也有现有的和预期发明范围之内的替代方式为本领域的技术人员所公知。

ASR模块14的输出优选情况下可以表示为FSM，也可以采用最优假设串或替代假设格点的形式。FSM的弧上标签可以是字，也可以是音素，使用FSM合成不难完成这二者之间的转换。弧上的成本是似然度的负对数。另外，输出中也能够包含计时信息。

图2A展示本发明的方法实施例之一。这涉及检索口头文档的一种方法，所述方法包括把与口头文档相关联的语音转换为格点表示(202)，以及对格点表示编制索引(204)。收到用户发出的查询后，本方法包括搜索编制了索引的语音格点表示(206)，以及返回来自所述口头文档的与用户查询匹配的音频片段(208)。

在格点的情况下，本发明的一个方面涉及存储一组索引，每个弧标签(字或音素)l对应一个，它记录着格点号L[a]、每个格点中以l标注的每条弧a的输入状态k[a]，一起的还有群体趋向(mass leading)该状态的概率f(k[a])、弧本身的概率p(a|k[a])和下一个状态的索引。为了从表示语音语料库的一组格点中检索单一标签，只要按所述标签索引检索每个格点中的所有弧。所述格点可以首先由推进权重归一化，所以从所述弧趋向最终状态的全部路径的组的概率为1。推进权重归一化后，对于给定的弧a，包含该弧的全部路径的组的概率由下式给出：

p (a) = \underset{πϵL : aϵπ}{Σ} p (π) = f (k [a]) p (a | k [a])

换言之，趋向该弧之全部路径的概率乘以所述弧本身的概率。对于格点L，使用所述索引I(l)中存储的信息对给定标签l构建“总数”如下：

C (l | L) = \underset{πϵL}{Σ} p (π) C (l | π)

= \underset{πϵL}{Σ} (p (π) \underset{aϵπ}{Σ} δ (a, l))

= \underset{aϵL}{Σ} (δ (a, l) \underset{πϵL : aϵπ}{Σ} p (π))

= \underset{aϵl (l) : L [a] = L}{Σ} p (a)

= \underset{aϵl (l) : L 9 a) = L}{Σ} f (k [a] p (a | k [a])

其中C(l|π)为在路径π见到l的次数，如果弧a具有标签l，δ(a，l)为1，否则为0。检索能够设定阈值，所以不返回低于特定总数的匹配。

为了检索多标签表达(如多字短语)w₁w₂…w_n，系统搜索表达中的每个标签，然后对于每个(w_l，w_l+1)，使w_l的输出状态与匹配的W_l+1的输入状态结合；系统以这种方式仅仅检索每个格点中符合整个多标签表达的那些路径片段。每次匹配的概率都定义为f(k[a₁])p(a₁|k[a₁])p(a₂|k[a₂])…p(a_n|k[a_n])，其中p(a_i|k[a_i])为所述表达中从弧a₁算起第i段弧的概率。所述格点的全体“总数”按以上定义计算。

注意，在每个格点都是不加权单一路径——即一串标签——的有限情况下，上述方案退化为标准的逆索引。为了应对包含OOV字的查询，本发明使用亚字单位编制索引。一种亚字成分可以是音素。有两种方法用于获得输入发音的语音表示。

首先，在识别单位是音素时使用ASR系统识别音素。实现这一点是通过使用音素级别的语言模型而不是基准ASR系统中使用的字级别语言模型。其次，另一个方面是把所述发音的字级别表示转换为音素级别表达。实现这一点是通过使用基准ASR系统以及将所述输出中的每个字按照音素由其发音取代。

音素识别可以不如字识别准确。另一方面，第二种方法能够仅仅产生音素串，它们是词汇表中字串之发音的子串。为了改进这些方法中每一种的限制，一种替代方案是使用OOV字检测所用的混合语言模型。

为了检索，每个查询字都通过使用其发音转换为音素串。然后可以对每个音素串搜索音素索引。注意，这种方法将产生许多假警报，尤其是对于短的查询字，它们很可能是长字的子串。为了控制这种情况，可以采用最小发音长度的限制。由于大多数短字在词汇表中，这种限制对恢复影响不大。

本发明的另一个方面显示在图2B中，用于有字索引和亚字索引的情形。这个方面为了改进所述过程，两种索引都采用。收到用户查询后(220)，搜索字索引(222)和亚字索引(224)都包括在本方法中，并且结合所述结果以从口头文档中检索与用户查询匹配的音频片段(226)。

作为替代，收到用户查询后(220)，本方法也可以包括对词汇表内查询搜索字索引(228)，对OOV查询搜索亚字索引(230)。再一种替代是收到用户查询后(220)，本方法包括搜索字索引，如果没有结果返回，则搜索亚字索引(232)。

在第一种情况下，如果索引是从ASR最优假设获得，那么结果的结合就是分开的结果组的简单合并。不过，如果索引是从格点获得，那么除了采取结果的合并以外，还可以使用合并得分进行检索。给定查询q，令C_w(q)和C_p(q)分别为从字索引和音素索引获得的格点总数。对于音素索引定义归一化格点总数为

C_{p}^{norm} (q) = {(Cp (q))}^{\frac{1}{| pron (q) |}}

其中|pron(q)|为查询q的发音长度。结合的得分然后定义为

C_{wp} (q) = C_{w} (q) + λ C_{p}^{norm} (q)

其中λ为经验确定的比例因子。在其他情况下，检索期间不是使用两个不同的阈值，而是可以对C_w(q)和C_p ^norm(q)使用单一阈值。

为了评价ASR性能，标准错字率(WER)可以用作度量。由于检索是目标，按类型使用OOV率度量OOV字特征。为了评价检索性能，使用与手工抄录相比的精度和恢复。令正确(q)为查询q被发现正确的次数，回答(q)为对查询q回答的次数，参考(q)为q被发现在参考中的次数。

系统对每次查询计算精度和恢复率，并且报告对全部查询的平均值。查询组Q包括除了100个最常见字的非用词表以外参考中见到的全部字。

对于基于格点的检索方法，通过改变阈值可以获得不同的操作点。在这些操作点的精度和恢复可以绘制为曲线。除了各个精度-恢复值以外，系统还计算F度量，定义为

并且报告最大F度量(maxF)，以归纳精度-恢复曲线中的信息。

三个不同的语料库用于评估不同检索技术的有效性。第一个语料库是DARPA广播新闻语料库，内含TV和广播节目的选录，包括多种音响条件。试验集为1998 Hub-4广播新闻(hub4e98)评价试验集(可取自LDC目录号LDC2000S86)，它有三小时长并由人工划分为940个片段。它包含着32411个字标记和4885个字类型。对于ASR，可以使用实时系统。由于系统是为SDR而设计，系统的识别词汇表具有超过200,000字。

第二个语料库是交换机语料库，内含若干双方电话交谈。试验集为RT02评价试验集，它有5小时长，具有120个交谈方并由人工划分为6266个片段。它包含着65255个字标记和3788个字类型。对于ASR，使用评价系统的第一步。系统的识别词汇表具有超过45,000字。

第三个语料库称为电话会议，因为它包含多种话题的多方电话会议。来自会议若干分支的音频汇合并记录为单一通道。转录了六个电话会议(大约3.5小时)的试验集。它包含着31106个字标记和2779个字类型。在ASR之前使用检测音响中变化的算法，将电话自动划分为总共1157个片段。对于ASR使用交换机评价系统的第一步。

表1显示了这三项任务的ASR性能以及所述语料库的按类型OOV率。这个表展示了多种LVCSR任务的错字率(WER)和按类型OOV率。重要的是注意到对于交换机和电话会议任务识别词汇表相同，而且建立ASR系统时没有使用来自电话会议任务的数据。

表1

任务	错字率	按类型OOV率
任务	错字率	按类型OOV率	广播新闻	～20％	0.6％
交换机	～40％	6％	广播新闻	～20％	0.6％
交换机	～40％	6％	电话会议	～50％	12％

作为基准，ASR系统的最优字假设用于编制索引和检索。这种基准系统的性能在表1中给出。如同期望，对广播新闻语料库获得了很好的性能。令人关注的是注意到从交换机变为电话会议时，精度-恢复的退化与错字率的退化相同。

表2

任务	错字率	精度	恢复
任务	错字率	精度	恢复	广播新闻	～20％	92％	77％
交换机	～40％	74％	47％	广播新闻	～20％	92％	77％
交换机	～40％	74％	47％	电话会议	～50％	65％	37％

第二组实验研究ASR字格点的使用。为了减少存储需求，把格点减少到仅仅包含其成本(即负对数似然度)对于最优路径在阈值之内的路径。这个成本阈值越小，格点和索引文件就越小。图3展示了在电话会议任务中对不同缩减阈值时的精度-恢复曲线302。

表3显示了最终的索引规模和最大F度量值。在电话会议任务中观察到成本＝6产生了好结果，所以对实验的其余部分使用这个数值。

注意，与ASR单一最优情况相比，对于广播新闻这使索引规模增加为3倍，对于交换机增加为5倍，对于电话会议增加为9倍。

表3

任务	缩减	规模(MB)	maxF
任务	缩减	规模(MB)	maxF	广播新闻	nbest＝	29	84.0
广播新闻	成本＝6	91	84.8	广播新闻	nbest＝	29	84.0
广播新闻	成本＝6	91	84.8	交换机	nbest＝	18	57.1
交换机	成本＝6	90	58.4	交换机	nbest＝	18	57.1
交换机	成本＝6	90	58.4	电话会议	nbest＝	16	47.4
电话会议	成本＝2	29	49.5	电话会议	nbest＝	16	47.4
电话会议	成本＝2	29	49.5	电话会议	成本＝4	62	50.0
电话会议	成本＝6	142	50.3	电话会议	成本＝4	62	50.0
电话会议	成本＝6	142	50.3	电话会议	成本＝12	3100	50.1

下一步对于仅仅使用音素格点的检索，使用以上讨论的两种语音抄录方法——音素识别和字至音素转换——进行对比研究。在表4中呈现了产生最大F度量的精度和恢复以及最大F度量。这些结果清楚地表明音素识别不如其他方法。

表4

索引来源	精度	恢复	maxF
索引来源	精度	恢复	maxF	音素识别	25.6	37.3	30.4
从字转换	43.1	48.5	45.6	音素识别	25.6	37.3	30.4

如果搜索音素索引时没有返回结果，那么搜索字索引的策略优先于其他策略。表5对比了使用字和音素索引时三种策略的最大F数值。

表5

策略	maxF
策略	maxF	结合	50.5
词汇表级联	51.0	结合	50.5
词汇表级联	51.0	搜索级联	52.8

图4呈现了这种策略对电话会议语料库的结果402。在这些实验中使用的音素索引是过去通过把字格点转换为音素格点而获得的。使用由音素识别获得的音素索引给出的结果差得多。

当搜索音素索引中短发音的字时，系统将产生许多假警报。减少假警报数目的一种方法是不允许以短发音查询。图5显示了对查询强加最小发音长度的效果502。对于将要回答的查询，其发音必须具有多于最小音素数的音素，否则不返回回答。使用最小音素数＝3获得了最优的最大F度量结果。因此，这幅图显示了对电话会议使用字/音素混合策略时最小发音长度的效果。

图6呈现了不同的识别词汇表规模(5k、20k、45k)对交换机语料库的结果602。按类型OOV率分别为32％、10％和6％。错字率分别为41.5％、40.1％和40.1％。对于20,000和45,000词汇表规模，精度-恢复曲线几乎相同。

迄今为止，在全部实验中查询列表包括单字。为了观察多种方法在面对更长的查询时的表现，在研究中使用了一组字对查询。不是使用参考抄录中见到的全部字对，而是选择比其他字更加容易出现在一起的字对。为此目的，按照字对(w₁，w₂)的逐点互信息

\log \frac{p (w_{1}, w_{2})}{p (w_{1}) p (w_{2})}

对它们进行排序，在我们的实验中使用前面的若干对作为查询。

结果，系统对这种类型的查询，精度非常高。由于这种原因，更加令人关注的是看每种技术实现最大F度量的运行点，在这种情况下它与产生最高恢复的点一致。表6呈现了对交换机语料库使用1004个字对查询的结果。使用字格点有可能使系统的恢复提高16.4％而精度的降低仅有2.2％。使用音素格点能够在精度损失1.2％时使恢复实现再提高3.7％。最终的系统仍然具有95％的精度。

表6

系统	精度	恢复	F度量
系统	精度	恢复	F度量	字单一最优	98.3％	29.7％	45.6％
字格点	96.1％	46.1％	62.3％	字单一最优	98.3％	29.7％	45.6％
字格点	96.1％	46.1％	62.3％	字+音素格点	94.9％	65.4％	65.4％

最后，多种技术对不同任务的对比显示在表7中，其中给定了最大F度量(maxF)。使用字格点在maxF中比使用最优字假设产生了3-5％的相对提高。对于字和音素格点都使用的最终系统，对基准的相对提高增加至8-12％。

图7呈现了精度-恢复曲线702。对于采用字和音素格点的较好的技术，使用它们获得的提高随着检索性能变差而增加。图7显示了多种技术对不同任务的精度-恢复关系。所述任务是广播新闻(+)、交换机(X)和电话会议(o)。这些技术使用最优字假设(单点)、使用字格点(实线)和使用字和音素格点(虚线)。

表7

任务	系统
	系统			单一最优	字格点	字+音素格点
	广播新闻	84.0	84.8	单一最优	字格点	字+音素格点	86.0
交换机	广播新闻	84.0	84.8	57.1	58.4	60.5	86.0
交换机	电话会议	47.4	50.3	57.1	58.4	60.5	52.8

本文公开的是一个编制索引过程，用于口头发音检索，它面对若干ASR格点而不仅仅是单一最优的文本。

本文公开的是口头发音检索所用的编制索引过程，它面对若干ASR格点而不仅仅是单一最优的文本。已经表明对于错字率不良且冗余度低的任务，这个过程与单一最优检索相比，能够使最大F度量改进不止5分。表达方式灵活，所以字格点和音素格点都可以表达，在对包含着OOV字的短语进行搜索时，后者对改进效能很重要。重要的是注意到常规语音的口头发音检索与广播新闻的口头文档检索具有不同的性质。尽管在包括广播新闻的多种任务中观察到一致的改进，但是此处提议的过程对于更加困难的常规语音比如交换机和电话会议最有益。

本发明范围之内的实施例也可以包括计算机可读的介质，以便携带或者说带有其中存储的计算机可执行的指令或数据结构。此类计算机可读的介质可以是通用或专用计算机能够存取的任何可用的介质。举例而言，并非限制，此类计算机可读介质可以包括RAM、ROM、EEPROM、CD-ROM或其他光盘存储器、磁盘存储器或其他磁性存储设备，或者能够用于以计算机可执行的指令或数据结构的形式携带或存储所需程序代码装置的任何其他介质。在通过网络或另一种通信连接(或者是有线的、无线的，或者其组合)向计算机传递或者说提供信息时，所述计算机恰当地把所述连接视为计算机可读的介质。因此，任何此类连接都恰当地称为计算机可读的介质。上述连接也应当包括在计算机可读介质的范围之内。

计算机可执行的指令包括例如使通用计算机、专用计算机或专用处理设备执行某个功能或一组功能的指令和数据。计算机可执行的指令也包括计算机在独立的或网络的环境中执行的若干程序模块。一般说来，程序模块包括例程、程序、对象、组件和数据结构等等，它们执行特定的任务或者实施特定的抽象数据类型。计算机可执行的指令、相关联的数据结构以及程序模块表示了执行本文公开之方法步骤所用的程序代码装置的实例。此类可执行指令或相关联的数据结构的具体序列表示了实施这些步骤中介绍之功能的对应动作的实例。

本领域的技术人员将会认同，本发明的其他实施例可以实施在具有许多类型的计算机系统配置的网络计算环境中，包括个人计算机、手持设备、多处理器系统、基于微处理器的或可编程的消费电器、网络PC、小型计算机、大型计算机等等。实施例也可以实施在分布式计算环境中，其中若干任务由本地和远程处理设备执行，它们通过通信网络连接(或者是硬布线的连接、无线连接，或者是其组合)。在分布式计算环境中，在本地和远程存储设备中都可以具有程序模块。

尽管上述说明中可能包含若干特定细节，但是它们不应当解释为以任何方式限制权利要求书。本发明所介绍实施例的其他结构是本发明范围的一部分。所以，所附带的权利要求书及其法律等效内容应当仅仅定义本发明，而不是给出的任何特定实例。

Claims

1.一种检索口头文档的方法，所述方法包括：

把与口头文档相关联的语音转换为格点表示；

对所述语音的格点表示编制索引；

收到用户发出的查询后：

搜索所述编制了索引的语音的格点表示；以及

返回来自所述口头文档的与所述用户查询匹配的音频片段。

2.根据权利要求1的方法，其特征在于，转换语音和对语音的格点表示编制索引的所述步骤是离线进行的。

3.根据权利要求1的方法，其特征在于，所述转换语音的步骤进一步包括在所述格点表示中提供计时信息。

4.根据权利要求1的方法，其特征在于，所述转换语音的步骤通过自动语音识别执行。

5.根据权利要求4的方法，其特征在于，所述自动语音识别是基于HMM的。

6.根据权利要求5的方法，其特征在于，所述自动语音识别是大词汇表连续语音识别。

7.根据权利要求5的方法，其特征在于，所述自动语音识别中使用的音响模型是决策树状态集束的三音素。

8.根据权利要求7的方法，其特征在于，所述自动语音识别中使用的语言模型是缩减的补偿三字母组统计模型。

9.根据权利要求1的方法，其特征在于，不在基准发音辞典中的发音，包括词汇表以外的字，通过文本至语音模块产生。

10.根据权利要求1的方法，其特征在于，对所述格点表示编制索引进一步包括：

存储一组索引，所述一组索引包括：每个弧标签所用的一个、所述格点号所用的一个、每个格点中每条标注的弧的输入状态所用的一个、群体趋向该状态的概率所用的一个、所述弧本身的概率所用的一个；以及

在所述格点中存储下一个状态所用的索引。

11.根据权利要求10的方法，其特征在于，搜索所述编制了索引的语音的格点表示以及返回来自所述口头文档的与所述用户查询匹配的音频片段进一步包括：

通过按所述标签索引检索每个格点中的所有弧，从表示所述口头文档的一组格点中检索单一标签；

通过概率分析判断哪个标签符合所述用户查询；以及

返回与所述匹配的标签相关联的音频片段。

12.根据权利要求10的方法，其特征在于，在从所述格点组检索所述单一标签之前，所述格点组由推进权重归一化，所以从某条弧趋向最终状态的全部路径的组的概率为1。

13.根据权利要求10的方法，其特征在于，概率低于一定阈值时不返回音频片段。

14.根据权利要求1的方法，其特征在于，所述方法进一步包括：通过使用其中所述识别单位是音素的ASR系统的音素识别，获得与所述口头文档相关联的所述口头发音的语音表示，其中所述ASR系统使用音素级别的语言模型。

15.根据权利要求1的方法，其特征在于，所述方法进一步包括通过使用基准ASR系统把所述发音的字级别表示转换为音素表示，并且将所述输出中的每个字按照音素由其发音取代，获得与所述口头文档相关联的所述口头发音的语音表示。

16.根据权利要求1的方法，其特征在于，所述方法进一步包括对词汇表以外字检测通过使用混合语言模型，获得与所述口头文档相关联的所述口头发音的语音表示。

17.根据权利要求16的方法，其特征在于，所述混合语言模型是音素级别语言模型和字级别语言模型的组合。

18.根据权利要求1的方法，其特征在于，所述口头文档根据音素编制索引，而且所述方法进一步包括：

通过使用所述查询字发音把每个查询字转换为音素串；以及

在基于音素的语音的格点表示的索引中搜索每个音素串。

19.根据权利要求18的方法，其特征在于，采用最小发音长度的限制。

20.一种检索口头文档的方法，其特征在于，存在着与所述口头文档有关的字索引和亚字索引，所述方法包括，在收到用户发出的查询后：

根据所述用户查询搜索所述字索引；

根据所述用户查询搜索所述亚字索引；以及

结合所述结果从所述口头文档检索与所述用户查询匹配的音频片段。

21.根据权利要求20的方法，其特征在于，检索所述音频片段进一步包括：采用来自格点计数的组合分数检索所述音频片段，所述格点计数是从所述字索引和所述亚字索引获得的。

22.根据权利要求21的方法，其特征在于，在计算所述组合分数时，使用所述用户查询的发音长度对所述亚字索引格点计数进行归一化。

23.一种检索口头文档的方法，其特征在于，存在着与所述口头文档有关的字索引和亚字索引，所述方法包括，在收到用户发出的查询后：

如果所述用户查询在词汇表中，则根据所述用户查询搜索所述字索引；

如果所述用户查询不在词汇表中，则根据所述用户查询搜索所述亚字索引。

24.一种检索口头文档的方法，其特征在于，存在着与所述口头文档有关的字索引和亚字索引，所述方法包括，在收到用户发出的查询后：

根据所述用户查询搜索所述字索引，如果没有返回结果，则根据所述用户查询搜索所述亚字索引。

25.一种检索口头文档的系统，所述系统包括：

用于把与口头文档相关联的语音转换为格点表示的装置；

用于对所述语音的格点表示编制索引的装置；

收到用户发出的查询后：

用于搜索所述编制了索引的语音的格点表示的装置；以及

用于返回来自所述口头文档的与所述用户查询匹配的音频片段的装置。

26.一种计算机可读的介质，存储的指令用于控制计算设备检索口头文档，所述指令包括以下步骤：

把与口头文档相关联的语音转换为格点表示；

对所述语音的格点表示编制索引；

收到用户发出的查询后：

搜索所述编制了索引的语音的格点表示；以及

返回来自所述口头文档的与所述用户查询匹配的音频片段。