[go: up one dir, main page]

CN1741132A - 口头发音检索所用的基于格点搜索的系统和方法 - Google Patents

口头发音检索所用的基于格点搜索的系统和方法 Download PDF

Info

Publication number
CN1741132A
CN1741132A CNA2005100915764A CN200510091576A CN1741132A CN 1741132 A CN1741132 A CN 1741132A CN A2005100915764 A CNA2005100915764 A CN A2005100915764A CN 200510091576 A CN200510091576 A CN 200510091576A CN 1741132 A CN1741132 A CN 1741132A
Authority
CN
China
Prior art keywords
lattice point
word
voice
index
spoken documents
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2005100915764A
Other languages
English (en)
Inventor
穆拉特·萨拉克拉尔
理查德·威廉姆·斯普罗特
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AT&T Corp
Original Assignee
AT&T Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by AT&T Corp filed Critical AT&T Corp
Publication of CN1741132A publication Critical patent/CN1741132A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • G06F16/632Query formulation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/197Probabilistic grammars, e.g. word n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/085Methods for reducing search complexity, pruning

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Telephonic Communication Services (AREA)

Abstract

公开了用于从口头文档检索音频片段的系统和方法。优选情况下,所述口头文档是具有中等错字率的文档,比如电话交谈或电话会议。本方法包括把与口头文档相关联的语音转换为格点表示,以及对语音的格点表示编制索引。典型情况下,这些步骤离线进行。收到用户发出的查询后,本方法进一步包括搜索编制了索引的语音格点表示,以及返回从所述口头文档检索的与用户查询匹配的音频片段。

Description

口头发音检索所用的 基于格点搜索的系统和方法
技术领域
本发明涉及口头文档的检索,更确切地说,涉及进行口头发音检索所用的基于格点搜索的系统和方法。
背景技术
在最近十年对大量口头通信编制索引、归档、搜索和浏览所用的自动系统已经变为现实。大多数此类系统使用自动语音识别(ASR)组件把语音转换为文本,然后用作标准的基于文本的信息检索(IR)组件的输入。如果语音识别输出大部分正确,或者所述文档足够长所以查询术语的某些出现被正确识别,这种策略的效果令人满意。这个领域中的大多数研究集中在广播新闻型口头文档的检索,其中语音相对纯净而且文档相对较长。此外,有可能发现大量内容类似的文本以便建立更好的语言模型,以及通过使用类似的文档增强检索。
不过,如果需要口头文档检索但是不具有纯净语音的有利条件,信息检索变得更加困难。例如,要是某人要记录电话会议,然后希望进行所述会议若干部分的搜索即信息检索,问题就变得更加困难。这是由于以下事实:电话会议很可能包含多个音频短片段,它们可能包括许多错字且冗余度低。另外,与新闻广播相反,在电话会议中可能有许多发言者,每个人都为整体口头文档提供若干语音小片段。
所以,如果任务是检索错字率(WER)可能高达50%之处的语音短片段,对广播新闻使用同样的方法不会提供满意的结果。这正是电话会议语音的情况,其中任务就是发现参与者是否以及何时发出特定短语。
业内需要的技术是对电话交谈或电话会议等产生的口头文档提供改进的口头文档检索系统。
发明内容
在以下的说明中,将会阐述本发明另外的特性和优点,其中一部分从说明中显而易见,或者可以从本发明的实践中学会。利用附带的权利要求书中具体指出的若干装置及组合,就可以实现本发明的特性,获得本发明的优点。从以下的说明和附带的权利要求书,本发明的这些和其他特性将会显现得更加全面,或者说可以由本文阐述的、本发明的实践而学会。
本文公开的是口头发音检索所用的编制索引过程,它面对若干格点而不仅仅是单一最优的文本。对于错字率不良且冗余度低的任务,这个过程与单一最优检索相比,能够使F得分改进不止5分。表达方式灵活,所以字格点和音素格点都可以表达,在对包含着词汇表以外(OOV)字的短语进行搜索时,后者对改进效能很重要。
本发明包括系统、方法和计算机可读的介质,以便提供口头发音检索所用的、基于格点的搜索。优选情况下,如本文所称的口头文档是具有中等错字率的文档,比如电话交谈或电话会议。本方法包括把与口头文档相关联的语音转换为格点表示,以及对语音的格点表示编制索引。典型情况下,这些步骤离线进行。收到用户发出的查询后,本方法进一步包括搜索编制了索引的语音格点表示,以及返回从所述口头文档检索的与用户查询匹配的音频片段。
附图简要说明
为了介绍能够获得本发明的上述和其他优点和特性的方式,通过参考附图中展示的若干特定实施例,对以上简单介绍的本发明将提供更加具体的说明。理解了这些附图仅仅描绘了本发明的典型实施例所以不视为限制其范围,将通过使用附图更具体和详细地介绍和讲解本发明,其中:
图1展示了根据本发明一个实施例的系统;
图2A展示本发明的一个方法实施例;
图2B展示了根据本发明一个实施例的另一种方法;
图3显示了对电话会议使用字格点的精确恢复所涉及的实验结果;
图4显示了对电话会议字格点与字/音素混合策略的对比;
图5显示了对电话会议使用字/音素混合策略时最小发音长度的效应;
图6显示了对于电话交谈多种识别词汇表规模的对比;
图7显示了多种技术在不同任务中的精度与恢复对比。
具体实施方式
通过本发明多种实施例的以下说明,可以理解本发明。本发明把音频片段检索技术扩展到比如电话交谈和电话会议应用的情形。任务是在口头交谈中定位查询的出现处以助于浏览。方式涉及口头文档检索和字定位。在一种情况下,所述过程包括识别音频短片段,它可以称为一大组音频片段之内的“文档”。同样,每个音频片段都可以称为一个文档。
尽管对于中等(~20%)错字率的任务,使用最优的ASR假设也能够获得合理的检索效能,但是更高(40-50%)错字率的任务需要使用多个ASR假设。本发明的一个方面是增加若干ASR格点,它们使系统对识别错误更加稳健。字格点可以一般地称为若干字和它们之间链接的有向图,它们能够对大量可能句子进行简洁的编码。每个字都以其观察似然度增大,所以通过所述格点的任何具体路径都能够与从其他语言模型获得的先验概率相结合。典型情况下,在字格点中也提供了计时信息。参见如Huang,Acero and Hon,Spoken LanguageProcessing,Prentice Hall PTR,2001,664-673页。本领域的技术人员进一步理解字格点的细节和结构,所以本文不提供更多的细节。
几乎所有ASR系统都具有封闭的词汇表,它们涉及具体的领域即主题内容。这种限制来自运行时的需求以及训练ASR系统的语言模型时所用的数据量有限。典型情况下识别词汇表取为语言模型训练语料库中出现的字。所述词汇表常常进一步缩减为仅仅包括所述语料库中频度最高字。不在这个封闭词汇表中的字——所述词汇表以外(OOV)的字——将不被所述ASR系统识别,变成识别误差。使用语音学研究成果有助于检索OOV字。
图1展示了本发明装置实施例的基本系统10。向ASR模块14提供语音12。所述语音12可以产生自电话交谈、电话会议或者具有高错字率的任何其他来源。尽管本发明不具体要求,但是应当理解,所提供的语音12的错字率高于从受到更多控制的来源获得的语音,比如广播新闻。ASR模块14把语音转换为所述语音的格点表示。ASR模块14也提供格点之内的或者与格点分开存储的计时信息入口。索引模块16为了高效检索而对格点表示编制索引。优选情况下,把语音转换为格点表示和对所述格点编制索引的这两个步骤离线进行。搜索/匹配模块18从用户22接收语音或其他类型的输入20,它表示一项查询。所述搜索和匹配模块18接收所述查询,并且搜索所述编制了索引的格点表示,定位匹配的音频片段24,将它们返回给所述用户。
在许多情形中都可以使用图1所示的基本系统。例如,所述模块可以在单一的计算机服务器上或一个分布式网络上编程和运行。对所述模块编码并不需要特定的编程语言。所述语音输入设备20可以是电话或者能够从用户22接收语音或其他多模态输入的其他计算设备。在本发明的多种组件之间可以有多种无线的和有线的连接。
作为本发明益处的实例,假设从建筑队、建筑师和承包商有关将要建筑之房屋细节的电话会议向ASR模块14提供语音12,会议除了其他议题以外,还包括修改计划,增加一个家庭影院房间。进一步假设购房者需要收到交谈中所述家庭影院部分的细节。电话会议结束并经过根据本发明的处理之后,口头文档经过编码并且可检索,人员22就可以通过计算设备来电,对与所述家庭影院相关联的音频片段提交请求。所述查询(它可以是语音、文本或语音和文本的组合或者其他输入模态)经过处理并且用于识别、检索和向所述用户22返回所述家庭影院有关的音频部分。
本发明过程的多种特性都有优选的方式。例如,优选情况下所述ASR模块14使用一流的基于HMM的大词汇表连续语音识别(LVCSR)系统。以ASR所用的音响模型优选情况下包括决策树状态集束的三音素(triphones),输出分布为高斯分布的混合。语言模型优选情况下是缩减的补偿三字母组(trigram)统计模型。发音辞典优选情况下包含少数几种替代发音。不在基准发音辞典(包括OOV查询字)中的发音优选情况下使用文本-语音(TTS)前端(未显示)产生,它产生文本的语音表示。所述TTS前端能够产生多种发音。所述ASR系统可以是也可以不是单步系统。识别网络优选情况下表示为加权的有限状态机(FSM)。应当承认,上述方法表示了本发明实践的最优模式。也有现有的和预期发明范围之内的替代方式为本领域的技术人员所公知。
ASR模块14的输出优选情况下可以表示为FSM,也可以采用最优假设串或替代假设格点的形式。FSM的弧上标签可以是字,也可以是音素,使用FSM合成不难完成这二者之间的转换。弧上的成本是似然度的负对数。另外,输出中也能够包含计时信息。
图2A展示本发明的方法实施例之一。这涉及检索口头文档的一种方法,所述方法包括把与口头文档相关联的语音转换为格点表示(202),以及对格点表示编制索引(204)。收到用户发出的查询后,本方法包括搜索编制了索引的语音格点表示(206),以及返回来自所述口头文档的与用户查询匹配的音频片段(208)。
在格点的情况下,本发明的一个方面涉及存储一组索引,每个弧标签(字或音素)l对应一个,它记录着格点号L[a]、每个格点中以l标注的每条弧a的输入状态k[a],一起的还有群体趋向(mass leading)该状态的概率f(k[a])、弧本身的概率p(a|k[a])和下一个状态的索引。为了从表示语音语料库的一组格点中检索单一标签,只要按所述标签索引检索每个格点中的所有弧。所述格点可以首先由推进权重归一化,所以从所述弧趋向最终状态的全部路径的组的概率为1。推进权重归一化后,对于给定的弧a,包含该弧的全部路径的组的概率由下式给出:
p ( a ) = Σ πϵL : aϵπ p ( π ) = f ( k [ a ] ) p ( a | k [ a ] )
换言之,趋向该弧之全部路径的概率乘以所述弧本身的概率。对于格点L,使用所述索引I(l)中存储的信息对给定标签l构建“总数”如下:
C ( l | L ) = Σ πϵL p ( π ) C ( l | π )
= Σ πϵL ( p ( π ) Σ aϵπ δ ( a , l ) )
= Σ aϵL ( δ ( a , l ) Σ πϵL : aϵπ p ( π ) )
= Σ aϵl ( l ) : L [ a ] = L p ( a )
= Σ aϵl ( l ) : L 9 a ) = L f ( k [ a ] p ( a | k [ a ] )
其中C(l|π)为在路径π见到l的次数,如果弧a具有标签l,δ(a,l)为1,否则为0。检索能够设定阈值,所以不返回低于特定总数的匹配。
为了检索多标签表达(如多字短语)w1w2…wn,系统搜索表达中的每个标签,然后对于每个(wl,wl+1),使wl的输出状态与匹配的Wl+1的输入状态结合;系统以这种方式仅仅检索每个格点中符合整个多标签表达的那些路径片段。每次匹配的概率都定义为f(k[a1])p(a1|k[a1])p(a2|k[a2])…p(an|k[an]),其中p(ai|k[ai])为所述表达中从弧a1算起第i段弧的概率。所述格点的全体“总数”按以上定义计算。
注意,在每个格点都是不加权单一路径——即一串标签——的有限情况下,上述方案退化为标准的逆索引。为了应对包含OOV字的查询,本发明使用亚字单位编制索引。一种亚字成分可以是音素。有两种方法用于获得输入发音的语音表示。
首先,在识别单位是音素时使用ASR系统识别音素。实现这一点是通过使用音素级别的语言模型而不是基准ASR系统中使用的字级别语言模型。其次,另一个方面是把所述发音的字级别表示转换为音素级别表达。实现这一点是通过使用基准ASR系统以及将所述输出中的每个字按照音素由其发音取代。
音素识别可以不如字识别准确。另一方面,第二种方法能够仅仅产生音素串,它们是词汇表中字串之发音的子串。为了改进这些方法中每一种的限制,一种替代方案是使用OOV字检测所用的混合语言模型。
为了检索,每个查询字都通过使用其发音转换为音素串。然后可以对每个音素串搜索音素索引。注意,这种方法将产生许多假警报,尤其是对于短的查询字,它们很可能是长字的子串。为了控制这种情况,可以采用最小发音长度的限制。由于大多数短字在词汇表中,这种限制对恢复影响不大。
本发明的另一个方面显示在图2B中,用于有字索引和亚字索引的情形。这个方面为了改进所述过程,两种索引都采用。收到用户查询后(220),搜索字索引(222)和亚字索引(224)都包括在本方法中,并且结合所述结果以从口头文档中检索与用户查询匹配的音频片段(226)。
作为替代,收到用户查询后(220),本方法也可以包括对词汇表内查询搜索字索引(228),对OOV查询搜索亚字索引(230)。再一种替代是收到用户查询后(220),本方法包括搜索字索引,如果没有结果返回,则搜索亚字索引(232)。
在第一种情况下,如果索引是从ASR最优假设获得,那么结果的结合就是分开的结果组的简单合并。不过,如果索引是从格点获得,那么除了采取结果的合并以外,还可以使用合并得分进行检索。给定查询q,令Cw(q)和Cp(q)分别为从字索引和音素索引获得的格点总数。对于音素索引定义归一化格点总数为
C p norm ( q ) = ( Cp ( q ) ) 1 | pron ( q ) |
其中|pron(q)|为查询q的发音长度。结合的得分然后定义为
C wp ( q ) = C w ( q ) + λ C p norm ( q )
其中λ为经验确定的比例因子。在其他情况下,检索期间不是使用两个不同的阈值,而是可以对Cw(q)和Cp norm(q)使用单一阈值。
为了评价ASR性能,标准错字率(WER)可以用作度量。由于检索是目标,按类型使用OOV率度量OOV字特征。为了评价检索性能,使用与手工抄录相比的精度和恢复。令正确(q)为查询q被发现正确的次数,回答(q)为对查询q回答的次数,参考(q)为q被发现在参考中的次数。
Figure A20051009157600134
Figure A20051009157600135
系统对每次查询计算精度和恢复率,并且报告对全部查询的平均值。查询组Q包括除了100个最常见字的非用词表以外参考中见到的全部字。
Figure A20051009157600137
对于基于格点的检索方法,通过改变阈值可以获得不同的操作点。在这些操作点的精度和恢复可以绘制为曲线。除了各个精度-恢复值以外,系统还计算F度量,定义为
Figure A20051009157600138
并且报告最大F度量(maxF),以归纳精度-恢复曲线中的信息。
三个不同的语料库用于评估不同检索技术的有效性。第一个语料库是DARPA广播新闻语料库,内含TV和广播节目的选录,包括多种音响条件。试验集为1998 Hub-4广播新闻(hub4e98)评价试验集(可取自LDC目录号LDC2000S86),它有三小时长并由人工划分为940个片段。它包含着32411个字标记和4885个字类型。对于ASR,可以使用实时系统。由于系统是为SDR而设计,系统的识别词汇表具有超过200,000字。
第二个语料库是交换机语料库,内含若干双方电话交谈。试验集为RT02评价试验集,它有5小时长,具有120个交谈方并由人工划分为6266个片段。它包含着65255个字标记和3788个字类型。对于ASR,使用评价系统的第一步。系统的识别词汇表具有超过45,000字。
第三个语料库称为电话会议,因为它包含多种话题的多方电话会议。来自会议若干分支的音频汇合并记录为单一通道。转录了六个电话会议(大约3.5小时)的试验集。它包含着31106个字标记和2779个字类型。在ASR之前使用检测音响中变化的算法,将电话自动划分为总共1157个片段。对于ASR使用交换机评价系统的第一步。
表1显示了这三项任务的ASR性能以及所述语料库的按类型OOV率。这个表展示了多种LVCSR任务的错字率(WER)和按类型OOV率。重要的是注意到对于交换机和电话会议任务识别词汇表相同,而且建立ASR系统时没有使用来自电话会议任务的数据。
              表1
  任务   错字率  按类型OOV率
  广播新闻   ~20%   0.6%
  交换机   ~40%   6%
  电话会议   ~50%   12%
作为基准,ASR系统的最优字假设用于编制索引和检索。这种基准系统的性能在表1中给出。如同期望,对广播新闻语料库获得了很好的性能。令人关注的是注意到从交换机变为电话会议时,精度-恢复的退化与错字率的退化相同。
                 表2
  任务   错字率   精度   恢复
  广播新闻   ~20%   92%   77%
  交换机   ~40%   74%   47%
  电话会议   ~50%   65%   37%
第二组实验研究ASR字格点的使用。为了减少存储需求,把格点减少到仅仅包含其成本(即负对数似然度)对于最优路径在阈值之内的路径。这个成本阈值越小,格点和索引文件就越小。图3展示了在电话会议任务中对不同缩减阈值时的精度-恢复曲线302。
表3显示了最终的索引规模和最大F度量值。在电话会议任务中观察到成本=6产生了好结果,所以对实验的其余部分使用这个数值。
注意,与ASR单一最优情况相比,对于广播新闻这使索引规模增加为3倍,对于交换机增加为5倍,对于电话会议增加为9倍。
                  表3
  任务  缩减   规模(MB)   maxF
  广播新闻 nbest=   29   84.0
  广播新闻 成本=6   91   84.8
  交换机 nbest=   18   57.1
  交换机 成本=6   90   58.4
  电话会议 nbest=   16   47.4
  电话会议 成本=2   29   49.5
  电话会议 成本=4   62   50.0
  电话会议 成本=6   142   50.3
  电话会议 成本=12   3100   50.1
下一步对于仅仅使用音素格点的检索,使用以上讨论的两种语音抄录方法——音素识别和字至音素转换——进行对比研究。在表4中呈现了产生最大F度量的精度和恢复以及最大F度量。这些结果清楚地表明音素识别不如其他方法。
                    表4
  索引来源   精度   恢复   maxF
  音素识别   25.6   37.3   30.4
  从字转换   43.1   48.5   45.6
如果搜索音素索引时没有返回结果,那么搜索字索引的策略优先于其他策略。表5对比了使用字和音素索引时三种策略的最大F数值。
      表5
  策略   maxF
  结合   50.5
  词汇表级联   51.0
  搜索级联   52.8
图4呈现了这种策略对电话会议语料库的结果402。在这些实验中使用的音素索引是过去通过把字格点转换为音素格点而获得的。使用由音素识别获得的音素索引给出的结果差得多。
当搜索音素索引中短发音的字时,系统将产生许多假警报。减少假警报数目的一种方法是不允许以短发音查询。图5显示了对查询强加最小发音长度的效果502。对于将要回答的查询,其发音必须具有多于最小音素数的音素,否则不返回回答。使用最小音素数=3获得了最优的最大F度量结果。因此,这幅图显示了对电话会议使用字/音素混合策略时最小发音长度的效果。
图6呈现了不同的识别词汇表规模(5k、20k、45k)对交换机语料库的结果602。按类型OOV率分别为32%、10%和6%。错字率分别为41.5%、40.1%和40.1%。对于20,000和45,000词汇表规模,精度-恢复曲线几乎相同。
迄今为止,在全部实验中查询列表包括单字。为了观察多种方法在面对更长的查询时的表现,在研究中使用了一组字对查询。不是使用参考抄录中见到的全部字对,而是选择比其他字更加容易出现在一起的字对。为此目的,按照字对(w1,w2)的逐点互信息
log p ( w 1 , w 2 ) p ( w 1 ) p ( w 2 )
对它们进行排序,在我们的实验中使用前面的若干对作为查询。
结果,系统对这种类型的查询,精度非常高。由于这种原因,更加令人关注的是看每种技术实现最大F度量的运行点,在这种情况下它与产生最高恢复的点一致。表6呈现了对交换机语料库使用1004个字对查询的结果。使用字格点有可能使系统的恢复提高16.4%而精度的降低仅有2.2%。使用音素格点能够在精度损失1.2%时使恢复实现再提高3.7%。最终的系统仍然具有95%的精度。
                 表6
  系统   精度   恢复   F度量
 字单一最优   98.3%   29.7%   45.6%
 字格点   96.1%   46.1%   62.3%
 字+音素格点   94.9%   65.4%   65.4%
最后,多种技术对不同任务的对比显示在表7中,其中给定了最大F度量(maxF)。使用字格点在maxF中比使用最优字假设产生了3-5%的相对提高。对于字和音素格点都使用的最终系统,对基准的相对提高增加至8-12%。
图7呈现了精度-恢复曲线702。对于采用字和音素格点的较好的技术,使用它们获得的提高随着检索性能变差而增加。图7显示了多种技术对不同任务的精度-恢复关系。所述任务是广播新闻(+)、交换机(X)和电话会议(o)。这些技术使用最优字假设(单点)、使用字格点(实线)和使用字和音素格点(虚线)。
                  表7
  任务               系统
  单一最优   字格点  字+音素格点
  广播新闻   84.0   84.8   86.0
  交换机   57.1   58.4   60.5
  电话会议   47.4   50.3   52.8
本文公开的是一个编制索引过程,用于口头发音检索,它面对若干ASR格点而不仅仅是单一最优的文本。
本文公开的是口头发音检索所用的编制索引过程,它面对若干ASR格点而不仅仅是单一最优的文本。已经表明对于错字率不良且冗余度低的任务,这个过程与单一最优检索相比,能够使最大F度量改进不止5分。表达方式灵活,所以字格点和音素格点都可以表达,在对包含着OOV字的短语进行搜索时,后者对改进效能很重要。重要的是注意到常规语音的口头发音检索与广播新闻的口头文档检索具有不同的性质。尽管在包括广播新闻的多种任务中观察到一致的改进,但是此处提议的过程对于更加困难的常规语音比如交换机和电话会议最有益。
本发明范围之内的实施例也可以包括计算机可读的介质,以便携带或者说带有其中存储的计算机可执行的指令或数据结构。此类计算机可读的介质可以是通用或专用计算机能够存取的任何可用的介质。举例而言,并非限制,此类计算机可读介质可以包括RAM、ROM、EEPROM、CD-ROM或其他光盘存储器、磁盘存储器或其他磁性存储设备,或者能够用于以计算机可执行的指令或数据结构的形式携带或存储所需程序代码装置的任何其他介质。在通过网络或另一种通信连接(或者是有线的、无线的,或者其组合)向计算机传递或者说提供信息时,所述计算机恰当地把所述连接视为计算机可读的介质。因此,任何此类连接都恰当地称为计算机可读的介质。上述连接也应当包括在计算机可读介质的范围之内。
计算机可执行的指令包括例如使通用计算机、专用计算机或专用处理设备执行某个功能或一组功能的指令和数据。计算机可执行的指令也包括计算机在独立的或网络的环境中执行的若干程序模块。一般说来,程序模块包括例程、程序、对象、组件和数据结构等等,它们执行特定的任务或者实施特定的抽象数据类型。计算机可执行的指令、相关联的数据结构以及程序模块表示了执行本文公开之方法步骤所用的程序代码装置的实例。此类可执行指令或相关联的数据结构的具体序列表示了实施这些步骤中介绍之功能的对应动作的实例。
本领域的技术人员将会认同,本发明的其他实施例可以实施在具有许多类型的计算机系统配置的网络计算环境中,包括个人计算机、手持设备、多处理器系统、基于微处理器的或可编程的消费电器、网络PC、小型计算机、大型计算机等等。实施例也可以实施在分布式计算环境中,其中若干任务由本地和远程处理设备执行,它们通过通信网络连接(或者是硬布线的连接、无线连接,或者是其组合)。在分布式计算环境中,在本地和远程存储设备中都可以具有程序模块。
尽管上述说明中可能包含若干特定细节,但是它们不应当解释为以任何方式限制权利要求书。本发明所介绍实施例的其他结构是本发明范围的一部分。所以,所附带的权利要求书及其法律等效内容应当仅仅定义本发明,而不是给出的任何特定实例。

Claims (26)

1.一种检索口头文档的方法,所述方法包括:
把与口头文档相关联的语音转换为格点表示;
对所述语音的格点表示编制索引;
收到用户发出的查询后:
搜索所述编制了索引的语音的格点表示;以及
返回来自所述口头文档的与所述用户查询匹配的音频片段。
2.根据权利要求1的方法,其特征在于,转换语音和对语音的格点表示编制索引的所述步骤是离线进行的。
3.根据权利要求1的方法,其特征在于,所述转换语音的步骤进一步包括在所述格点表示中提供计时信息。
4.根据权利要求1的方法,其特征在于,所述转换语音的步骤通过自动语音识别执行。
5.根据权利要求4的方法,其特征在于,所述自动语音识别是基于HMM的。
6.根据权利要求5的方法,其特征在于,所述自动语音识别是大词汇表连续语音识别。
7.根据权利要求5的方法,其特征在于,所述自动语音识别中使用的音响模型是决策树状态集束的三音素。
8.根据权利要求7的方法,其特征在于,所述自动语音识别中使用的语言模型是缩减的补偿三字母组统计模型。
9.根据权利要求1的方法,其特征在于,不在基准发音辞典中的发音,包括词汇表以外的字,通过文本至语音模块产生。
10.根据权利要求1的方法,其特征在于,对所述格点表示编制索引进一步包括:
存储一组索引,所述一组索引包括:每个弧标签所用的一个、所述格点号所用的一个、每个格点中每条标注的弧的输入状态所用的一个、群体趋向该状态的概率所用的一个、所述弧本身的概率所用的一个;以及
在所述格点中存储下一个状态所用的索引。
11.根据权利要求10的方法,其特征在于,搜索所述编制了索引的语音的格点表示以及返回来自所述口头文档的与所述用户查询匹配的音频片段进一步包括:
通过按所述标签索引检索每个格点中的所有弧,从表示所述口头文档的一组格点中检索单一标签;
通过概率分析判断哪个标签符合所述用户查询;以及
返回与所述匹配的标签相关联的音频片段。
12.根据权利要求10的方法,其特征在于,在从所述格点组检索所述单一标签之前,所述格点组由推进权重归一化,所以从某条弧趋向最终状态的全部路径的组的概率为1。
13.根据权利要求10的方法,其特征在于,概率低于一定阈值时不返回音频片段。
14.根据权利要求1的方法,其特征在于,所述方法进一步包括:通过使用其中所述识别单位是音素的ASR系统的音素识别,获得与所述口头文档相关联的所述口头发音的语音表示,其中所述ASR系统使用音素级别的语言模型。
15.根据权利要求1的方法,其特征在于,所述方法进一步包括通过使用基准ASR系统把所述发音的字级别表示转换为音素表示,并且将所述输出中的每个字按照音素由其发音取代,获得与所述口头文档相关联的所述口头发音的语音表示。
16.根据权利要求1的方法,其特征在于,所述方法进一步包括对词汇表以外字检测通过使用混合语言模型,获得与所述口头文档相关联的所述口头发音的语音表示。
17.根据权利要求16的方法,其特征在于,所述混合语言模型是音素级别语言模型和字级别语言模型的组合。
18.根据权利要求1的方法,其特征在于,所述口头文档根据音素编制索引,而且所述方法进一步包括:
通过使用所述查询字发音把每个查询字转换为音素串;以及
在基于音素的语音的格点表示的索引中搜索每个音素串。
19.根据权利要求18的方法,其特征在于,采用最小发音长度的限制。
20.一种检索口头文档的方法,其特征在于,存在着与所述口头文档有关的字索引和亚字索引,所述方法包括,在收到用户发出的查询后:
根据所述用户查询搜索所述字索引;
根据所述用户查询搜索所述亚字索引;以及
结合所述结果从所述口头文档检索与所述用户查询匹配的音频片段。
21.根据权利要求20的方法,其特征在于,检索所述音频片段进一步包括:采用来自格点计数的组合分数检索所述音频片段,所述格点计数是从所述字索引和所述亚字索引获得的。
22.根据权利要求21的方法,其特征在于,在计算所述组合分数时,使用所述用户查询的发音长度对所述亚字索引格点计数进行归一化。
23.一种检索口头文档的方法,其特征在于,存在着与所述口头文档有关的字索引和亚字索引,所述方法包括,在收到用户发出的查询后:
如果所述用户查询在词汇表中,则根据所述用户查询搜索所述字索引;
如果所述用户查询不在词汇表中,则根据所述用户查询搜索所述亚字索引。
24.一种检索口头文档的方法,其特征在于,存在着与所述口头文档有关的字索引和亚字索引,所述方法包括,在收到用户发出的查询后:
根据所述用户查询搜索所述字索引,如果没有返回结果,则根据所述用户查询搜索所述亚字索引。
25.一种检索口头文档的系统,所述系统包括:
用于把与口头文档相关联的语音转换为格点表示的装置;
用于对所述语音的格点表示编制索引的装置;
收到用户发出的查询后:
用于搜索所述编制了索引的语音的格点表示的装置;以及
用于返回来自所述口头文档的与所述用户查询匹配的音频片段的装置。
26.一种计算机可读的介质,存储的指令用于控制计算设备检索口头文档,所述指令包括以下步骤:
把与口头文档相关联的语音转换为格点表示;
对所述语音的格点表示编制索引;
收到用户发出的查询后:
搜索所述编制了索引的语音的格点表示;以及
返回来自所述口头文档的与所述用户查询匹配的音频片段。
CNA2005100915764A 2004-08-23 2005-08-23 口头发音检索所用的基于格点搜索的系统和方法 Pending CN1741132A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/923,915 US7912699B1 (en) 2004-08-23 2004-08-23 System and method of lattice-based search for spoken utterance retrieval
US10/923,915 2004-08-23

Publications (1)

Publication Number Publication Date
CN1741132A true CN1741132A (zh) 2006-03-01

Family

ID=35456192

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2005100915764A Pending CN1741132A (zh) 2004-08-23 2005-08-23 口头发音检索所用的基于格点搜索的系统和方法

Country Status (6)

Country Link
US (5) US7912699B1 (zh)
EP (1) EP1630705A3 (zh)
JP (1) JP2006058899A (zh)
KR (1) KR20060050578A (zh)
CN (1) CN1741132A (zh)
CA (1) CA2515613A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102436812A (zh) * 2011-11-01 2012-05-02 展讯通信(上海)有限公司 会议记录装置及利用该装置对会议进行记录的方法
CN101510222B (zh) * 2009-02-20 2012-05-30 北京大学 一种多层索引语音文档检索方法
CN107430616A (zh) * 2015-03-13 2017-12-01 微软技术许可有限责任公司 语音查询的交互式再形成
CN108874904A (zh) * 2018-05-24 2018-11-23 平安科技(深圳)有限公司 语音消息搜索方法、装置、计算机设备及存储介质

Families Citing this family (215)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
NO325191B1 (no) * 2005-12-30 2008-02-18 Tandberg Telecom As Sokbar multimedia strom
US8510109B2 (en) 2007-08-22 2013-08-13 Canyon Ip Holdings Llc Continuous speech transcription performance indication
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US7272558B1 (en) 2006-12-01 2007-09-18 Coveo Solutions Inc. Speech recognition training method for audio and video file indexing on a search engine
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US9973450B2 (en) 2007-09-17 2018-05-15 Amazon Technologies, Inc. Methods and systems for dynamically updating web service profile information by parsing transcribed message strings
EP2137641B1 (en) * 2007-04-13 2015-11-04 Massachusetts Institute of Technology Speech data retrieval apparatus, speech data retrieval method, speech data retrieval program and computer usable medium having computer readable speech data retrieval program embodied therein
US9405823B2 (en) * 2007-07-23 2016-08-02 Nuance Communications, Inc. Spoken document retrieval using multiple speech transcription indices
US8831946B2 (en) * 2007-07-23 2014-09-09 Nuance Communications, Inc. Method and system of indexing speech data
US8165877B2 (en) * 2007-08-03 2012-04-24 Microsoft Corporation Confidence measure generation for speech related searching
US8209171B2 (en) * 2007-08-07 2012-06-26 Aurix Limited Methods and apparatus relating to searching of spoken audio data
US8060494B2 (en) 2007-12-07 2011-11-15 Microsoft Corporation Indexing and searching audio using text indexers
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
WO2010067118A1 (en) * 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
JP2010277036A (ja) * 2009-06-01 2010-12-09 Mitsubishi Electric Corp 音声データ検索装置
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10255566B2 (en) 2011-06-03 2019-04-09 Apple Inc. Generating and processing task items that represent tasks to perform
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
CN102023995B (zh) * 2009-09-22 2013-01-30 株式会社理光 语音检索设备和语音检索方法
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US8977584B2 (en) 2010-01-25 2015-03-10 Newvaluexchange Global Ai Llp Apparatuses, methods and systems for a digital conversation management platform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8880399B2 (en) * 2010-09-27 2014-11-04 Rosetta Stone, Ltd. Utterance verification and pronunciation scoring by lattice transduction
US8831947B2 (en) * 2010-11-07 2014-09-09 Nice Systems Ltd. Method and apparatus for large vocabulary continuous speech recognition using a hybrid phoneme-word lattice
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US9093061B1 (en) * 2011-04-14 2015-07-28 Canyon IP Holdings, LLC. Speech recognition with hierarchical networks
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8805869B2 (en) 2011-06-28 2014-08-12 International Business Machines Corporation Systems and methods for cross-lingual audio search
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US9201876B1 (en) * 2012-05-29 2015-12-01 Google Inc. Contextual weighting of words in a word grouping
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US8515745B1 (en) * 2012-06-20 2013-08-20 Google Inc. Selecting speech data for speech recognition vocabulary
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9672815B2 (en) * 2012-07-20 2017-06-06 Interactive Intelligence Group, Inc. Method and system for real-time keyword spotting for speech analytics
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US9542936B2 (en) * 2012-12-29 2017-01-10 Genesys Telecommunications Laboratories, Inc. Fast out-of-vocabulary search in automatic speech recognition systems
US9646605B2 (en) * 2013-01-22 2017-05-09 Interactive Intelligence Group, Inc. False alarm reduction in speech recognition systems using contextual information
KR102516577B1 (ko) 2013-02-07 2023-04-03 애플 인크. 디지털 어시스턴트를 위한 음성 트리거
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
AU2014233517B2 (en) 2013-03-15 2017-05-25 Apple Inc. Training an at least partial voice command system
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
US9390708B1 (en) * 2013-05-28 2016-07-12 Amazon Technologies, Inc. Low latency and memory efficient keywork spotting
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
KR101959188B1 (ko) 2013-06-09 2019-07-02 애플 인크. 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
KR101809808B1 (ko) 2013-06-13 2017-12-15 애플 인크. 음성 명령에 의해 개시되는 긴급 전화를 걸기 위한 시스템 및 방법
CN105453026A (zh) 2013-08-06 2016-03-30 苹果公司 基于来自远程设备的活动自动激活智能响应
KR101537370B1 (ko) * 2013-11-06 2015-07-16 주식회사 시스트란인터내셔널 녹취된 음성 데이터에 대한 핵심어 추출 기반 발화 내용 파악 시스템과, 이 시스템을 이용한 인덱싱 방법 및 발화 내용 파악 방법
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
JP6400936B2 (ja) * 2014-04-21 2018-10-03 シノイースト・コンセプト・リミテッド 音声検索方法、音声検索装置、並びに、音声検索装置用のプログラム
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
TWI566107B (zh) 2014-05-30 2017-01-11 蘋果公司 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
EP3051437A1 (en) 2015-01-27 2016-08-03 Západoceská Univerzita V Plzni Method for query processing for search in multilingual audio-archive and device for search of that processed query
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
RU2610241C2 (ru) * 2015-03-19 2017-02-08 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Способ и система синтеза текста на основе извлеченной информации в виде rdf-графа с использованием шаблонов
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
JP6680008B2 (ja) * 2016-03-15 2020-04-15 カシオ計算機株式会社 検索インデクス生成装置、検索インデックス生成方法、音声検索装置、音声検索方法及びプログラム
JP6680009B2 (ja) * 2016-03-15 2020-04-15 カシオ計算機株式会社 検索インデクス生成装置、検索インデックス生成方法、音声検索装置、音声検索方法及びプログラム
GB2549117B (en) * 2016-04-05 2021-01-06 Intelligent Voice Ltd A searchable media player
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
US12223282B2 (en) 2016-06-09 2025-02-11 Apple Inc. Intelligent automated assistant in a home environment
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10217458B2 (en) * 2016-09-23 2019-02-26 Intel Corporation Technologies for improved keyword spotting
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
DK201770429A1 (en) 2017-05-12 2018-12-14 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US11488602B2 (en) 2018-02-20 2022-11-01 Dropbox, Inc. Meeting transcription using custom lexicons based on document history
US10467335B2 (en) 2018-02-20 2019-11-05 Dropbox, Inc. Automated outline generation of captured meeting audio in a collaborative document context
US10657954B2 (en) 2018-02-20 2020-05-19 Dropbox, Inc. Meeting audio capture and transcription in a collaborative document context
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US11076039B2 (en) 2018-06-03 2021-07-27 Apple Inc. Accelerated task performance
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
DK201970510A1 (en) 2019-05-31 2021-02-11 Apple Inc Voice identification in digital assistant systems
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. User activity shortcut suggestions
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11689379B2 (en) 2019-06-24 2023-06-27 Dropbox, Inc. Generating customized meeting insights based on user interactions and meeting media
US11183194B2 (en) 2019-09-13 2021-11-23 International Business Machines Corporation Detecting and recovering out-of-vocabulary words in voice-to-text transcription systems
WO2021056255A1 (en) 2019-09-25 2021-04-01 Apple Inc. Text detection using global geometry estimators
TWI742446B (zh) * 2019-10-08 2021-10-11 東方線上股份有限公司 詞句庫擴展系統及其方法
US11038934B1 (en) 2020-05-11 2021-06-15 Apple Inc. Digital assistant hardware abstraction

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19534888A1 (de) * 1995-09-20 1997-03-27 Bosch Gmbh Robert Schaltungsanordnung zur Mehrfachausnutzung eines Übertragerkerns
US5870706A (en) * 1996-04-10 1999-02-09 Lucent Technologies, Inc. Method and apparatus for an improved language recognition system
US6317712B1 (en) * 1998-02-03 2001-11-13 Texas Instruments Incorporated Method of phonetic modeling using acoustic decision tree
US6757652B1 (en) * 1998-03-03 2004-06-29 Koninklijke Philips Electronics N.V. Multiple stage speech recognizer
WO2000045375A1 (en) * 1999-01-27 2000-08-03 Kent Ridge Digital Labs Method and apparatus for voice annotation and retrieval of multimedia data
CA2366057C (en) * 1999-03-05 2009-03-24 Canon Kabushiki Kaisha Database annotation and retrieval
US6963837B1 (en) * 1999-10-06 2005-11-08 Multimodal Technologies, Inc. Attribute-based word modeling
US6882970B1 (en) 1999-10-28 2005-04-19 Canon Kabushiki Kaisha Language recognition using sequence frequency
US7113910B1 (en) * 2000-02-18 2006-09-26 At&T Corp. Document expansion in speech retrieval
US6574595B1 (en) * 2000-07-11 2003-06-03 Lucent Technologies Inc. Method and apparatus for recognition-based barge-in detection in the context of subword-based automatic speech recognition
GB0023930D0 (en) * 2000-09-29 2000-11-15 Canon Kk Database annotation and retrieval
US7451085B2 (en) * 2000-10-13 2008-11-11 At&T Intellectual Property Ii, L.P. System and method for providing a compensated speech recognition model for speech recognition
US20030093419A1 (en) * 2001-08-17 2003-05-15 Srinivas Bangalore System and method for querying information using a flexible multi-modal interface
US7181398B2 (en) * 2002-03-27 2007-02-20 Hewlett-Packard Development Company, L.P. Vocabulary independent speech recognition system and method using subword units
US6877001B2 (en) * 2002-04-25 2005-04-05 Mitsubishi Electric Research Laboratories, Inc. Method and system for retrieving documents with spoken queries
GB2394347A (en) * 2002-10-15 2004-04-21 Canon Kk Lattice encoding
GB2399983A (en) * 2003-03-24 2004-09-29 Canon Kk Picture storage and retrieval system for telecommunication system
EP1654727A4 (en) * 2003-07-23 2007-12-26 Nexidia Inc INTERROGATIONS FOR THE DETECTION OF WORDS
US20060036438A1 (en) * 2004-07-13 2006-02-16 Microsoft Corporation Efficient multimodal method to provide input to a computing device

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101510222B (zh) * 2009-02-20 2012-05-30 北京大学 一种多层索引语音文档检索方法
CN102436812A (zh) * 2011-11-01 2012-05-02 展讯通信(上海)有限公司 会议记录装置及利用该装置对会议进行记录的方法
CN102436812B (zh) * 2011-11-01 2013-05-01 展讯通信(上海)有限公司 会议记录装置及利用该装置对会议进行记录的方法
CN107430616A (zh) * 2015-03-13 2017-12-01 微软技术许可有限责任公司 语音查询的交互式再形成
CN108874904A (zh) * 2018-05-24 2018-11-23 平安科技(深圳)有限公司 语音消息搜索方法、装置、计算机设备及存储介质
CN108874904B (zh) * 2018-05-24 2022-04-29 平安科技(深圳)有限公司 语音消息搜索方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
US20180253490A1 (en) 2018-09-06
US8670977B2 (en) 2014-03-11
US7912699B1 (en) 2011-03-22
CA2515613A1 (en) 2006-02-23
KR20060050578A (ko) 2006-05-19
US20140188474A1 (en) 2014-07-03
EP1630705A2 (en) 2006-03-01
US20160179947A1 (en) 2016-06-23
JP2006058899A (ja) 2006-03-02
US9286890B2 (en) 2016-03-15
EP1630705A3 (en) 2006-10-04
US20110173226A1 (en) 2011-07-14
US9965552B2 (en) 2018-05-08

Similar Documents

Publication Publication Date Title
CN1741132A (zh) 口头发音检索所用的基于格点搜索的系统和方法
CN1130688C (zh) 基于新字建模的语音识别方法和装置
Mamou et al. System combination and score normalization for spoken term detection
CN1303582C (zh) 自动语音归类方法
US6873993B2 (en) Indexing method and apparatus
US6877001B2 (en) Method and system for retrieving documents with spoken queries
CN110797027B (zh) 多识别器语音识别
CN1269102C (zh) 用于压缩字典数据的方法和装置
JP5214461B2 (ja) インプットデータに対するワードクラスタリング
EP2252995B1 (en) Method and apparatus for voice searching for stored content using uniterm discovery
US20070106512A1 (en) Speech index pruning
CN1667699A (zh) 为字母-声音转换生成有互信息标准的大文法音素单元
US20080130699A1 (en) Content selection using speech recognition
US20070143110A1 (en) Time-anchored posterior indexing of speech
CN1295705A (zh) 基于语言模型的信息检索和语音识别
CN106205613B (zh) 一种导航语音识别方法及系统
CN1190772C (zh) 语音识别系统及用于语音识别系统的特征矢量集的压缩方法
CN101937450B (zh) 在由粒子表示的信息检索数据库中进行条目检索的方法
CN1773606A (zh) 一种基于混淆网络的语音解码方法
CN1284134C (zh) 一种语音识别系统
US12223953B2 (en) End-to-end automatic speech recognition system for both conversational and command-and-control speech
CN1126052C (zh) 采用多个文法网络的语音识别的方法
CN1259648C (zh) 语音识别系统
CN1835077A (zh) 中文人名自动语音辨识输入方法及系统
Enarvi et al. A novel discriminative method for pruning pronunciation dictionary entries

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Open date: 20060301