CN1667699A - 为字母-声音转换生成有互信息标准的大文法音素单元 - Google Patents
为字母-声音转换生成有互信息标准的大文法音素单元 Download PDFInfo
- Publication number
- CN1667699A CN1667699A CNA2005100527542A CN200510052754A CN1667699A CN 1667699 A CN1667699 A CN 1667699A CN A2005100527542 A CNA2005100527542 A CN A2005100527542A CN 200510052754 A CN200510052754 A CN 200510052754A CN 1667699 A CN1667699 A CN 1667699A
- Authority
- CN
- China
- Prior art keywords
- phoneme
- word
- gram
- gram phoneme
- letter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000006243 chemical reaction Methods 0.000 title description 6
- 238000000034 method Methods 0.000 claims abstract description 33
- 238000012549 training Methods 0.000 claims description 14
- 239000004615 ingredient Substances 0.000 claims 2
- 230000008569 process Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000002093 peripheral effect Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 3
- 238000007476 Maximum Likelihood Methods 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000005055 memory storage Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 230000000712 assembly Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
Abstract
提供了一种把单词分割成组成部分的方法和装置。在本发明中,确定在一组单词中发现的文法音素单元对的互信息得分。每个文法音素单元包括至少一个字母。一对文法音素单元的文法音素单元基于所述互信息得分被组合。这形成新的文法音素单元。在本发明的一个实施例中,音节n字母组模型基于使用互信息已经被分割成音节的单词来训练。音节n字母组模型用于把新单词的语音表示分割成音节。类似地,使用互信息形成词素库,并训练词素n字母组,从而可以用于把新单词分割成词素序列。
Description
技术领域
本发明涉及字母-声音转换系统,尤其涉及生成用于字母-声音转换的文法音素(graphoneme)。
背景技术
在字母-声音转换中,字母序列被转换成表征该字母序列的发音的音素序列。
在近几年中,基于n字母组(n-gram)的系统已经被用于字母-声音转换。n字母组系统使用“文法音素(graphoneme)”,它是表征字母和那些字母的语音发音两者的联合单元。在每个文法音素中,在文法音素的字母部分中可以有零个或多个字母,而在文法音素的音素部分中可以有零个或多个音素。一般而言,文法音素用l*:p*表示,其中l*表示零个或多个字母,而p*表示零个或多个音素。例如,“tion:sh&ax&n”表示有四个字母(tion)和三个音素(sh、ax、n)的文法音素。定界符“&”被加到音素之间,因为音素名可能比一个字符长。
文法音素n字母组模型是基于具有单词的拼写条目和每个单词的音素发音的词典来训练的。该词典被称为训练词典。如果给定训练词典中字母-音素映射,则该训练词典可以被转换成文法音素发音词典。例如,假定
phone ph:f o:ow n:n e:#
以某种方式被给出。每个单词的文法音素定义就被用来估算“n”文法音素序列的似然性。例如,在文法音素三字母组中,三个文法音素序列的概率Pr(g3|g1g2),是根据有文法音素发音的训练词典来估算的。
在使用文法音素的现有技术的许多系统中,当新单词被提供给字母-声音转换系统时,最佳第一搜索算法被用来基于n字母组得分寻找最佳或n-最佳发音。要完成这个搜索,从包含文法音素n字母组模型的起始符号的根节点开始,该起始符号通常被表示为<s>。<s>指示文法音素序列的开始。与根节点相关联的得分(对数概率)是log(Pr(<s>)=1)=0。另外,搜索树中的每个节点跟踪输入单词中的字母位置。我们称它为“输入位置”。<s>的输入位置是0,因为输入单词中还没有字母被使用。概括地说,搜索树中的节点包含最佳第一搜索的下列信息:
struct node{
int score,input_position;
node*parent;
int graphoneme_id;
};
同时,堆结构被维护,其中搜索节点的最高得分在堆的顶部出现。最初在堆中只有一个元素。这个元素指向搜索树的根节点。在搜索的任一迭代中,堆的顶部元素被除去,它给出到目前为止搜索树中的最佳节点。然后通过在文法音素库(inventory)中查找其字母部分是输入单词中从最佳节点的输入位置开始的剩余字母的前缀的那些文法音素,从这个最佳节点延伸子节点。每个这样的文法音素生成当前最佳节点的子节点。子节点的得分是父节点(即当前最佳节点)的得分加上到该子节点的n字母组音素得分。子节点的输入位置被前进到父节点的输入位置加上子节点中相关联的文法音素的字母部分的长度。最后,子节点被插入到堆中。
在所有输入字母被用完后必须特别注意。如果当前最佳节点的输入位置已经到达输入单词的末端,将到n字母组模型的终止符号的过渡</s>添加到搜索树和堆上。
如果从堆中除去的最佳节点包含</s>作为其文法音素id,就得到了对应于输入单词的完整拼写的语音发音。为了标识该发音,从最后的最佳节点</s>一路回到根节点<s>的路径被跟踪,而沿着这条路径的文法音素单元的音素部分就是输出。
按照文法音素n字母组模型,有</s>的第一最佳节点是最佳发音,因为剩余的搜索节点的得分比这个得分差,而从剩余的搜索节点的任一个到</s>的已有或将有的路径只会得到更差的得分(因为log(概率)<0)。如果元素继续从堆中被除去,第二最佳、第三最佳等等发音可以被标识,直到堆中没有元素,或者第n最佳发音比顶部第一发音差一个阈值。然后n最佳搜索停止。
有多种方法来训练n字母组音素模型,例如最大似然、最大熵等等。文法音素本身也可以用不同方式生成。例如,一些已有技术使用隐型马尔可夫模型来生成训练词典的字母和音素的初始对齐,随后把这些l:p文法音素时常出现的对归并成更大的文法音素单元。或者,文法音素库也可以由把某些字母序列与特定音素序列相关联的语言学家生成。这花费大量时间并易于出错而且有些任意,因为语言学家在把字母和音素组成文法音素时并没有使用严密的技术。
发明内容
提供了一种把单词和语音发音分割成文法音素序列的方法和装置。在本发明中,较小文法音素单元对的互信息被确定。每个文法音素单元包括至少一个字母。在每次迭代中,有最大互信息(mutual information)的最佳对被组合,以形成新的较长的文法音素单元。当合并算法停止时,得到单词的词典,其中,每个词被分割成文法音素单元的最终组中的文法音素序列。
用相同的基于互信息的贪婪算法而不考虑字母,语音发音可以被分割成音节发音。类似地,单词也可以通过将单词的“发音”分配为拼写并再次忽略文法音素单元的字母部分被而分割成词素(morpheme)。
附图说明
图1是可在其中实现本发明的实施例的通用计算环境的框图。
图2是在本发明的一个实施例中生成大文法音素单元的方法的流程图。
图3是用于把单词“phone”分割成文法音素序列的示例解码网格。
图4是基于互信息训练和使用音节n字母组的方法的流程图。
具体实施方式
图1示出可以在其中实现本发明的合适的计算系统环境100的例子。计算系统环境100只是合适的计算环境的一个例子,但不意味着是本发明的使用范围或功能的任何限制。计算环境100也不应该被解释为对示例性操作环境100中所示的元件的任何一个或组合有任何依赖或要求。
本发明可以在许多其它通用或专用计算系统环境或配置上运作。适合使用本发明的众所周知的计算系统、环境和/或配置的例子包括但不限于个人计算机、服务器计算机、手持或膝上设备、多处理器系统、基于微处理器的系统、机顶盒、可编程消费者电子设备、网络PC、小型机、大型计算机、电话系统、包括任何上述系统或设备的分布式计算环境等等。
本发明可以在例如由计算机执行的程序模块等计算机可执行的指令的通用上下文中描述。一般而言,程序模块包括完成特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等。本发明被设计成在由通过通信网络连接的远程处理设备完成任务的分布式计算环境中实现。在分布式计算环境中,程序模块可以位于本地和远程计算机存储媒质两者中,包括存储器存储设备。
参考图1,实现本发明的示例性系统包括计算机110形式的通用计算设备。计算机110的组件可以包括但不限于处理单元120、系统存储器130和把包括系统存储器在内的各种系统元件耦合到处理单元120的系统总线121。系统总线121可以是多种总线结构的任何一种,包括存储器总线或存储器控制器、外围总线和使用任何一种总线体系结构的局部总线。作为例子但不是限制,这样的体系结构包括工业标准体系结构(ISA)总线、微通道体系结构(MCA)总线、增强型ISA(EISA)总线、视频电子标准协会(VESA)局部总线和外设部件互连(PCI)总线(即Mezzanine总线)。
计算机110通常包括各种计算机可读媒质。计算机可读媒质可以是可以由计算机110访问的任何可用媒质,包括易失和非易失媒质、可移动和不可移动媒质。作为例子但不是限制,计算机可读媒质可以包括计算机存储媒质和通信媒质。计算机存储媒质包括以任何方法或技术实现来存储诸如计算机可读指令、数据结构、程序模块或其它数据这样的信息的易失和非易失、可移动和不可移动媒质。计算机存储媒质包括但不限于RAM、ROM、EEPROM、闪存或其它存储技术、CD-ROM、数字多功能盘(DVD)或其它光盘存储、磁盒、磁带、磁盘存储或其它磁存储设备、或可以用来存储所需信息并可以由计算机110访问的其它任何媒质。通信媒质通常在诸如载波或其它传输机制这样的已调制数据信号中包含计算机可读指令、数据结构、程序模块或其它数据,并包括任何信息传递媒质。术语“已调制数据信号”是指其一个或多个特征以在信号中编码信息的方式被设置或改变的信号。作为例子但不是限制,通信媒质包括诸如有线网络或直接有线连接这样的有线媒质,和诸如声学、射频、红外或其它无线媒质这样的无线媒质。上面任何媒质的组合也应该被包括在计算机可读媒质的范围内。
系统存储器130包括易失和/或非易失存储器形式的计算机存储媒质,例如只读存储器(ROM)131和随机存取存储器(RAM)132。基本输入/输出系统133(BIOS),包含例如在启动时帮助在个人计算机110中的元件之间传输信息的基本例程,被存储在ROM131中。RAM132通常包含处理单元120立刻可以访问和/或正在操作的数据和/或程序模块。作为例子但不是限制,图1示出操作系统134、应用程序135、其它程序模块136和程序数据137。
计算机110也可以包括其它可移动和不可移动、易失和非易失计算机存储媒质。只是作为例子,图1示出对不可移动非易失磁媒质进行读写的硬盘驱动器141、对可移动非易失磁盘152进行读写的磁盘驱动器151和对诸如CD-ROM或其它光媒质这样的可移动非易失光盘156进行读写的光盘驱动器155。可以被用在示例性操作环境中的其它计算机存储媒质包括但不限于磁带盒、闪存卡、数字多功能盘、数字视频带、固态RAM、固态ROM等等。硬盘驱动器141通常通过接口140这样的不可移动存储接口被连接到系统总线121,而磁盘驱动器151和光盘驱动器155通常通过接口150这样的可移动存储接口被连接到系统总线121。
如上所述并如图1所示的驱动器及其相关联计算机存储媒质,为计算机110提供计算机可读指令、数据结构、程序模块和其它数据的存储。例如,在图1中,示出硬盘驱动器141存储操作系统144、应用程序145、其它程序模块146和程序数据147。注意这些组件可以和操作系统134、应用程序135、其它程序模块136和程序数据137相同或不同。操作系统144、应用程序145、其它程序模块146和程序数据147在这里被给以不同标号来说明它们至少是不同的副本。用户可以通过诸如键盘162、麦克风163和定点设备161(例如鼠标、跟踪球或触摸板)这样的输入设备向计算机110输入命令和信息。其它输入设备(未示出)可以包括操纵杆、游戏垫、圆盘式卫星天线和扫描仪等。这些和其它输入设备通常通过耦合到系统总线的用户输入接口160连接到处理单元120,但也可以通过其它接口和总线结构连接,例如并行端口、游戏端口或通用串行总线(USB)。显示器191或其它类型的显示设备也通过视频接口190这样的接口被连接到系统总线121。除了显示器之外,计算机也可以包括其它外围输出设备,例如扬声器197和打印机196,它们可以通过输出外围接口195被连接。
计算机110可以在使用到一个或多个远程计算机,例如远程计算机180的逻辑连接的联网环境中操作。远程计算机180可以是个人计算机、手持设备、服务器、路由器、网络PC、对等设备或其它公用网络节点,并通常包括上面相对计算机110描述的许多或全部元件。图1中描述的逻辑连接包括局域网(LAN)171和广域网(WAN)173,但也可以包括其它网络。这些联网环境在办公室、企业范围计算机网络、内联网和因特网中很常见。
当在LAN联网环境中使用时,计算机110通过网络接口或适配器170连接到LAN171。当在WAN联网环境中使用时,计算机110通常包括调制解调器172或用于通过诸如因特网这样的WAN173建立通信的其它装置。调制解调器172可以是内置的或外置的,可以通过用户输入接口160或其它合适机制连接到系统总线121。在联网环境中,相对计算机110描述的程序模块或其中一部分可以被存储在远程存储器存储设备中。作为例子但不是限制,图1示出远程应用程序185驻留在远程计算机180中。可以理解,所示的网络连接是示例性的,也可以使用在计算机之间建立通信链路的其它装置。
在本发明的一个实施例中,可以用于字母-声音转换的文法音素是使用互信息标准形成的。图2提供了在本发明的一个实施例中形成这种文法音素的流程图。
在图2的步骤200中,词典中的单词被分割成单个字母,而各个字母的每一个和与该单词相关联的音素序列中的单个音素对齐。在一个实施例中,这个对齐是通过整个单词从左到右进行的,使得第一字母和第一音素对齐、第二字母和第二音素对齐,依此类推。如果字母比音素多,则剩余字母映射到静音,静音用“#”表示。如果音素比字母多,则最后一个字母映射到多个音素。例如,单词“phone”和“box”如下作初始映射:
phone: p:f h:ow o:n n:# e:#
box: b:d o:aa x:k&s
这样,每个初始文法音素单元正好有一个字母和零个或多个音素。这些初始单元可以普遍地用l:p*表示。
在初始对齐之后,图2的方法在步骤202为每个字母确定对齐概率。对齐概率可以如下计算:
其中,p(p*|l)是音素序列p*和字母l对齐的概率,c(p*|l)是音素序列p*和字母l在词典中对齐的次数的计数,而c(s*|l)是音素序列s*和字母l对齐的次数的计数,其中分母中的和是对词典中与字母l对齐的所有可能的音素序列s*进行的。
在确定了对齐概率后,在步骤204形成新的对齐,再次为有与每个文法音素相关联的零个或多个音素的每一文法音素分配一个字母。这个新的对齐是基于在步骤202确定的对齐概率的。在一个特定实施例中,使用维特比解码系统,其中通过维特比栅格的路径,例如图3所示的示例栅格,从对齐概率中被识别。
图3的栅格用于有语音序列f&ow&n的单词“phone”。栅格包括每个字母的单独状态索引和初始静音状态索引。在每个状态索引,有贯穿音素序列的进程的单独状态。例如,对字母“p”的状态索引,有静音状态300、/f/状态302、/f&ow/状态304和/f&ow&n/状态306。在两个状态之间的每一转移表示可能的文法音素。
对每个状态索引处的每个状态,进入该状态的单个路径是通过确定通向该状态的每一条完整路径的概率来选择的。例如,对状态308,维特比解码选择路径310或路径312。路径310的得分包括路径314对齐p:#的概率和路径310对齐h:f的概率。类似地,路径312的得分包括路径316对齐p:f的概率和路径312对齐h:#的概率。进入每个状态的有最高概率的路径被选中,而其它路径被剪除不作更多考虑。通过这个解码过程,词典中的每个单词都被分割成文法音素序列。例如,在图3中,文法音素序列:
p:f h:# o:ow n:n e:#
可以作为最可能的对齐被选中。
在步骤206,本发明的方法确定是否应当执行更多对齐迭代。如果要执行更多对齐迭代,则过程返回到步骤202,以基于在步骤204形成的新对齐确定对齐概率。步骤202、204和206一直被重复,直到执行了所要求的迭代次数。
步骤202、204和206的迭代的结果是词典中每个单词被分割成文法音素单元序列。每个文法音素单元正好包含拼写部分中的一个字母和音素部分中的零个或多个音素。
在步骤210,为在对齐步骤204之后在词典中发现的文法音素单元的每个连续对确定互信息。在一个实施例中,两个连续的文法音素单元的互信息如下计算:
其中MI(u1,u2)是文法音素单元对u1和u2的互信息。Pr(u1,u2)是文法音素单元u2直接在文法音素单元u1之后出现的联合概率。Pr(u1)是文法音素单元u1的一元概率(unigram probability),而Pr(u2)是文法音素单元u2的一元概率。等式2的概率如下计算:
其中count(u1)是文法音素单元u1在词典中出现的次数,count(u2)是文法音素单元u2在词典中出现的次数,count(u1u2)是文法音素单元u2紧随文法音素单元u1之后在词典中出现的次数,count(*)是词典中所有文法音素单元的实例的数目。
严格地说,等式2并不是两个分布之间的互信息,因此不能保证是非负数。但是,它的公式类似于互信息公式,因而在文献中被错误地称为互信息。所以,在本发明的上下文中,我们继续称等式2的计算是互信息计算。
在步骤210对词典中每对相邻文法音素单元计算了互信息后,在步骤212确定每个新的可能文法音素单元u3的强度。新的可能文法音素单元通过合并两个已有的较小文法音素单元来产生。但是,两对不同的文法音素单元可以产生相同的新文法音素单元。例如,文法音素对(p:f,h:#)和文法音素对(p:#,h:f)在它们被合并到一起时都形成同一个较大文法音素单元(ph:f)。所以,我们定义新的可能文法音素单元u3的强度为通过合并产生同一个新单元u3的不同文法音素单元对而形成的所有互信息的总和:
其中,strength(u3)是可能的新单元u3的强度,而u1u2=u3意味着合并u1和u2将产生u3。所以,等式6的总和是在产生u3的所有这样的单元对u1和u2上完成的。
在步骤214,创建有最大强度的新单元。然后通过用新形成单元替代较小单元对,更新包括形成所选中的新单元的组成对的词典条目。
在步骤218,该方法确定是否应该创建更多文法音素单元。如果是,过程返回到步骤210并再次计算文法音素单元对的互信息。注意,在前一次合并后,词典现在可能不再需要一些旧单元(即count(u1)=0)。步骤210、212、214、216和218一直被重复,直到构造了足够大的文法音素单元组。现在词典被分割成文法音素发音。
然后,在步骤222,经分割的词典被用来训练文法音素n字母组。构造n字母组的方法可以包括基于最大熵的训练或基于最大似然的训练等等。构建n字母组领域内的技术人员理解,构建n字母组语言模型的任一合适方法都可用于本发明。
通过使用互信息构造较大文法音素单元,本发明为任何拼写语言提供了生成大文法音素单元的自动技术,而不需要语言学家手工标识文法音素单元。
一旦在图2的步骤222生成了文法音素n字母组,我们然后就可以使用文法音素库和n字母组来导出给定拼写的发音。它们也可以用于把有自己的语音发音的拼写分割成库中文法音素序列。这通过应用一强制对齐来实现,该强制对齐要求文法音素的字母和音素与搜索树中每个节点的剩余字母和音素之间的前缀匹配。然后n字母组中提供最高概率并且与字母和音素都匹配的文法音素序列被标识为给定拼写/发音的文法音素分段。
用相同的算法,也可以通过生成音节库、训练音节n字母组以及在单词的发音上执行强制对齐把语音发音分割成音节发音。图4提供生成并使用音节n字母组以标识单词的音节的方法。在一个实施例中,文法音素用作算法的输入被使用,即使算法忽略每个文法音素的字母端,而只使用每个文法音素的音素。
在图4的步骤400,为词典中的每个音素对确定互信息得分。在步骤402,有最高互信息得分的音素对被选中,并生成由两个音素组成的新“音节”单元。在步骤404,包括该音素对的词典条目被更新,这样音素对作为词典条目中单个音节单元来处理。
在步骤406,本方法确定是否有更多的迭代要进行。如果有更多迭代,过程返回到步骤400,对词典中的每个音素对生成互信息得分。步骤400、402、404和406一直被重复,直到形成合适的一组音节单元。
在步骤408,现在已经被分割成音节单元的词典用于生成音节n字母组。音节n字母组模型提供词典中发现的音节序列的概率。在步骤410,音节n字母组用于在给定新单词的发音时标识新单词的音节。具体地说,使用强制对齐,其中发音的音节基于音节n字母组被组合成最可能的音节单字母组序列。步骤410的结果是单词的音素组合成音节单元。
相同的算法可以被用来把单词分割成词素。作为使用单词的音素的替代,单词的各个字母被用作单词的“发音”。为了直接使用上面描述的贪婪算法,各个字母被用来取代文法音素中的音素,而文法音素中的字母端被忽略。这样在步骤400,训练词典中字母对的互信息被标识,而在步骤402有最高互信息的对被选中。然后为这个对形成新词素单元。在步骤404,用新词素单元更新词典条目。当创建了合适数量的词素单元后,在词典中发现的词素单元被用来训练n字母组词素模型,后者在后来可以被用来用上述强制算法从单词的拼写中标识单词的词素。使用这种技术,象“transition”这样的单词可以被分割成“tran si tion”的词素单元。
虽然本发明是参考特定实施例来描述的,然而本领域的技术人员会理解,可以进行形式和细节上的改动而不脱离本发明的精神和范围。
Claims (17)
1.一种把单词分割成组成部分的方法,其特征在于,所述方法包括:
确定文法音素单元的互信息得分,每个文法音素单元包括单词的拼写中的至少一个字母;
使用所述互信息得分以将文法音素单元组合成较大的文法音素单元;以及
把单词分割成组成部分以形成文法音素序列。
2.如权利要求1所述的方法,其特征在于,组合文法音素包括组合每个文法音素的字母以产生所述较大文法音素单元的字母序列,并组合每个文法音素的音素以产生所述较大文法音素单元的音素序列。
3.如权利要求1所述的方法,其特征在于,还包括使用所分割的单词生成模型。
4.如权利要求3所述的方法,其特征在于,所述模型描述给定单词内上下文时文法音素的概率。
5.如权利要求4所述的方法,其特征在于,还包括使用所述模型在给定单词的拼写时确定所述单词的发音。
6.如权利要求1所述的方法,其特征在于,使用所述互信息得分包括对为单个较大文法音素确定的至少两个互信息得分求和以形成强度。
7.一种有计算机可执行的指令的计算机可读媒质,所述指令用于执行以下步骤:
为在一组单词中发现的文法音素单元对确定互信息得分,每个文法音素单元包括至少一个字母;
基于所述互信息得分组合一文法音素单元对的文法音素单元,以形成一新的文法音素单元;以及
部分地基于所述新的文法音素单元标识单词的一组文法音素单元。
8.如权利要求7所述的计算机可读媒质,其特征在于,组合文法音素包括组合所述文法音素的字母以形成所述新的文法音素单元的字母序列。
9.如权利要求8所述的计算机可读媒质,其特征在于,组合文法音素还包括组合所述文法音素的音素以形成所述新的文法音素单元的音素序列。
10.如权利要求7所述的计算机可读媒质,其特征在于,还包括为词典中的每个单词标识一组文法音素。
11.如权利要求10所述的计算机可读媒质,其特征在于,还包括使用为词典中的单词标识的各组文法音素来训练模型。
12.如权利要求11所述的计算机可读媒质,其特征在于,所述模型描述在单词中出现的文法音素的概率。
13.如权利要求12所述的计算机可读媒质,其特征在于,所述概率基于单词中的至少一个其它文法音素。
14.如权利要求11所述的计算机可读媒质,其特征在于,还包括使用所述模型在给定单词的拼写时确定所述单词的发音。
15.如权利要求7所述的计算机可读媒质,其特征在于,基于所述互信息得分组合文法音素包括对与新文法音素单元相关联的至少两个互信息得分求和。
16.一种把单词分割成音节的方法,其特征在于,所述方法包括:
使用互信息得分把一组单词分割成语音音节;
使用所分割的单词组训练音节n字母组模型;以及
使用所述音节n字母组模型,通过强制对齐把单词的语音表示分割成音节。
17.一种把单词分割成词素的方法,其特征在于,所述方法包括:
使用互信息得分把一组单词分割成词素;
使用所分割的单词组训练词素n字母组模型;以及
使用所述词素n字母组模型,通过强制对齐把单词分割成词素。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/797,358 | 2004-03-10 | ||
US10/797,358 US7693715B2 (en) | 2004-03-10 | 2004-03-10 | Generating large units of graphonemes with mutual information criterion for letter to sound conversion |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1667699A true CN1667699A (zh) | 2005-09-14 |
CN1667699B CN1667699B (zh) | 2010-06-23 |
Family
ID=34827631
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2005100527542A Expired - Fee Related CN1667699B (zh) | 2004-03-10 | 2005-03-10 | 为字母-声音转换生成有互信息标准的大文法音素单元 |
Country Status (7)
Country | Link |
---|---|
US (1) | US7693715B2 (zh) |
EP (1) | EP1575029B1 (zh) |
JP (1) | JP2005258439A (zh) |
KR (1) | KR100996817B1 (zh) |
CN (1) | CN1667699B (zh) |
AT (1) | ATE508453T1 (zh) |
DE (1) | DE602005027770D1 (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105590623A (zh) * | 2016-02-24 | 2016-05-18 | 百度在线网络技术(北京)有限公司 | 基于人工智能的字母音素转换模型生成方法及装置 |
CN108962218A (zh) * | 2017-05-27 | 2018-12-07 | 北京搜狗科技发展有限公司 | 一种文字发音方法和装置 |
CN113257234A (zh) * | 2021-04-15 | 2021-08-13 | 北京百度网讯科技有限公司 | 生成词典与语音识别的方法、装置 |
Families Citing this family (225)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2001013255A2 (en) * | 1999-08-13 | 2001-02-22 | Pixo, Inc. | Displaying and traversing links in character array |
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
JP3662519B2 (ja) * | 2000-07-13 | 2005-06-22 | シャープ株式会社 | 光ピックアップ |
ITFI20010199A1 (it) | 2001-10-22 | 2003-04-22 | Riccardo Vieri | Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US7633076B2 (en) | 2005-09-30 | 2009-12-15 | Apple Inc. | Automated response to and sensing of user activity in portable devices |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
JP4769223B2 (ja) * | 2007-04-26 | 2011-09-07 | 旭化成株式会社 | テキスト発音記号変換辞書作成装置、認識語彙辞書作成装置、及び音声認識装置 |
US9053089B2 (en) | 2007-10-02 | 2015-06-09 | Apple Inc. | Part-of-speech tagging using latent analogy |
US8620662B2 (en) * | 2007-11-20 | 2013-12-31 | Apple Inc. | Context-aware unit selection |
US7991615B2 (en) * | 2007-12-07 | 2011-08-02 | Microsoft Corporation | Grapheme-to-phoneme conversion using acoustic data |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8065143B2 (en) | 2008-02-22 | 2011-11-22 | Apple Inc. | Providing text input using speech data and non-speech data |
US20090240501A1 (en) * | 2008-03-19 | 2009-09-24 | Microsoft Corporation | Automatically generating new words for letter-to-sound conversion |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US8464150B2 (en) | 2008-06-07 | 2013-06-11 | Apple Inc. | Automatic language identification for dynamic text processing |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8768702B2 (en) | 2008-09-05 | 2014-07-01 | Apple Inc. | Multi-tiered voice feedback in an electronic device |
US8898568B2 (en) | 2008-09-09 | 2014-11-25 | Apple Inc. | Audio user interface |
US8712776B2 (en) | 2008-09-29 | 2014-04-29 | Apple Inc. | Systems and methods for selective text to speech synthesis |
US8583418B2 (en) | 2008-09-29 | 2013-11-12 | Apple Inc. | Systems and methods of detecting language and natural language strings for text to speech synthesis |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US9959870B2 (en) | 2008-12-11 | 2018-05-01 | Apple Inc. | Speech recognition involving a mobile device |
KR101057191B1 (ko) * | 2008-12-30 | 2011-08-16 | 주식회사 하이닉스반도체 | 반도체 소자의 미세 패턴 형성방법 |
US8862252B2 (en) * | 2009-01-30 | 2014-10-14 | Apple Inc. | Audio user interface for displayless electronic device |
US8380507B2 (en) | 2009-03-09 | 2013-02-19 | Apple Inc. | Systems and methods for determining the language to use for speech generated by a text to speech engine |
US10540976B2 (en) | 2009-06-05 | 2020-01-21 | Apple Inc. | Contextual voice commands |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US10255566B2 (en) | 2011-06-03 | 2019-04-09 | Apple Inc. | Generating and processing task items that represent tasks to perform |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
CN101576872B (zh) * | 2009-06-16 | 2014-05-28 | 北京系统工程研究所 | 一种中文文本处理方法及装置 |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
KR101083455B1 (ko) * | 2009-07-17 | 2011-11-16 | 엔에이치엔(주) | 통계 데이터에 기초한 사용자 질의 교정 시스템 및 방법 |
US8682649B2 (en) | 2009-11-12 | 2014-03-25 | Apple Inc. | Sentiment prediction from textual data |
US20110110534A1 (en) * | 2009-11-12 | 2011-05-12 | Apple Inc. | Adjustable voice output based on device status |
US8600743B2 (en) | 2010-01-06 | 2013-12-03 | Apple Inc. | Noise profile determination for voice-related feature |
US8381107B2 (en) | 2010-01-13 | 2013-02-19 | Apple Inc. | Adaptive audio feedback system and method |
US8311838B2 (en) | 2010-01-13 | 2012-11-13 | Apple Inc. | Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US8977584B2 (en) | 2010-01-25 | 2015-03-10 | Newvaluexchange Global Ai Llp | Apparatuses, methods and systems for a digital conversation management platform |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US8639516B2 (en) | 2010-06-04 | 2014-01-28 | Apple Inc. | User-specific noise suppression for voice quality improvements |
US8713021B2 (en) | 2010-07-07 | 2014-04-29 | Apple Inc. | Unsupervised document clustering using latent semantic density analysis |
US8719006B2 (en) | 2010-08-27 | 2014-05-06 | Apple Inc. | Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis |
US8719014B2 (en) | 2010-09-27 | 2014-05-06 | Apple Inc. | Electronic device with text error correction based on voice recognition data |
US20120089400A1 (en) * | 2010-10-06 | 2012-04-12 | Caroline Gilles Henton | Systems and methods for using homophone lexicons in english text-to-speech |
US10515147B2 (en) | 2010-12-22 | 2019-12-24 | Apple Inc. | Using statistical language models for contextual lookup |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US8781836B2 (en) | 2011-02-22 | 2014-07-15 | Apple Inc. | Hearing assistance system for providing consistent human speech |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
WO2012134488A1 (en) * | 2011-03-31 | 2012-10-04 | Tibco Software Inc. | Relational database joins for inexact matching |
US9607044B2 (en) | 2011-03-31 | 2017-03-28 | Tibco Software Inc. | Systems and methods for searching multiple related tables |
US20120310642A1 (en) | 2011-06-03 | 2012-12-06 | Apple Inc. | Automatically creating a mapping between text data and audio data |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US8812294B2 (en) | 2011-06-21 | 2014-08-19 | Apple Inc. | Translating phrases from one language into another using an order-based set of declarative rules |
US8706472B2 (en) | 2011-08-11 | 2014-04-22 | Apple Inc. | Method for disambiguating multiple readings in language conversion |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US8762156B2 (en) | 2011-09-28 | 2014-06-24 | Apple Inc. | Speech recognition repair using contextual information |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US8775442B2 (en) | 2012-05-15 | 2014-07-08 | Apple Inc. | Semantic search using a single-source semantic model |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US10019994B2 (en) | 2012-06-08 | 2018-07-10 | Apple Inc. | Systems and methods for recognizing textual identifiers within a plurality of words |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US20140067394A1 (en) * | 2012-08-28 | 2014-03-06 | King Abdulaziz City For Science And Technology | System and method for decoding speech |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
US8935167B2 (en) | 2012-09-25 | 2015-01-13 | Apple Inc. | Exemplar-based latent perceptual modeling for automatic speech recognition |
DE212014000045U1 (de) | 2013-02-07 | 2015-09-24 | Apple Inc. | Sprach-Trigger für einen digitalen Assistenten |
US9977779B2 (en) | 2013-03-14 | 2018-05-22 | Apple Inc. | Automatic supplementation of word correction dictionaries |
US10642574B2 (en) | 2013-03-14 | 2020-05-05 | Apple Inc. | Device, method, and graphical user interface for outputting captions |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US10572476B2 (en) | 2013-03-14 | 2020-02-25 | Apple Inc. | Refining a search based on schedule items |
US9733821B2 (en) | 2013-03-14 | 2017-08-15 | Apple Inc. | Voice control to diagnose inadvertent activation of accessibility features |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
AU2014227586C1 (en) | 2013-03-15 | 2020-01-30 | Apple Inc. | User training by intelligent digital assistant |
US9922642B2 (en) | 2013-03-15 | 2018-03-20 | Apple Inc. | Training an at least partial voice command system |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
WO2014168730A2 (en) | 2013-03-15 | 2014-10-16 | Apple Inc. | Context-sensitive handling of interruptions |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
JP6259911B2 (ja) | 2013-06-09 | 2018-01-10 | アップル インコーポレイテッド | デジタルアシスタントの2つ以上のインスタンスにわたる会話持続を可能にするための機器、方法、及びグラフィカルユーザインタフェース |
EP3008964B1 (en) | 2013-06-13 | 2019-09-25 | Apple Inc. | System and method for emergency calls initiated by voice command |
AU2014306221B2 (en) | 2013-08-06 | 2017-04-06 | Apple Inc. | Auto-activating smart responses based on activities from remote devices |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
WO2015184186A1 (en) | 2014-05-30 | 2015-12-03 | Apple Inc. | Multi-command single utterance input method |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US10152299B2 (en) | 2015-03-06 | 2018-12-11 | Apple Inc. | Reducing response latency of intelligent automated assistants |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US9972300B2 (en) * | 2015-06-11 | 2018-05-15 | Genesys Telecommunications Laboratories, Inc. | System and method for outlier identification to remove poor alignments in speech synthesis |
US20160378747A1 (en) | 2015-06-29 | 2016-12-29 | Apple Inc. | Virtual assistant for media playback |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US11227589B2 (en) | 2016-06-06 | 2022-01-18 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179588B1 (en) | 2016-06-09 | 2019-02-22 | Apple Inc. | INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
US10474753B2 (en) | 2016-09-07 | 2019-11-12 | Apple Inc. | Language identification using recurrent neural networks |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US11281993B2 (en) | 2016-12-05 | 2022-03-22 | Apple Inc. | Model and ensemble compression for metric learning |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
US11204787B2 (en) | 2017-01-09 | 2021-12-21 | Apple Inc. | Application integration with a digital assistant |
DK201770383A1 (en) | 2017-05-09 | 2018-12-14 | Apple Inc. | USER INTERFACE FOR CORRECTING RECOGNITION ERRORS |
US10417266B2 (en) | 2017-05-09 | 2019-09-17 | Apple Inc. | Context-aware ranking of intelligent response suggestions |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
US10395654B2 (en) | 2017-05-11 | 2019-08-27 | Apple Inc. | Text normalization based on a data-driven learning network |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
US11301477B2 (en) | 2017-05-12 | 2022-04-12 | Apple Inc. | Feedback analysis of a digital assistant |
DK201770429A1 (en) | 2017-05-12 | 2018-12-14 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK179549B1 (en) | 2017-05-16 | 2019-02-12 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US20180336275A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Intelligent automated assistant for media exploration |
US20180336892A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Detecting a trigger of a digital assistant |
US10403278B2 (en) | 2017-05-16 | 2019-09-03 | Apple Inc. | Methods and systems for phonetic matching in digital assistant services |
US10311144B2 (en) | 2017-05-16 | 2019-06-04 | Apple Inc. | Emoji word sense disambiguation |
US10657328B2 (en) | 2017-06-02 | 2020-05-19 | Apple Inc. | Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling |
US10445429B2 (en) | 2017-09-21 | 2019-10-15 | Apple Inc. | Natural language understanding using vocabularies with compressed serialized tries |
US10755051B2 (en) | 2017-09-29 | 2020-08-25 | Apple Inc. | Rule-based natural language processing |
US10636424B2 (en) | 2017-11-30 | 2020-04-28 | Apple Inc. | Multi-turn canned dialog |
US10733982B2 (en) | 2018-01-08 | 2020-08-04 | Apple Inc. | Multi-directional dialog |
US10733375B2 (en) | 2018-01-31 | 2020-08-04 | Apple Inc. | Knowledge-based framework for improving natural language understanding |
US10789959B2 (en) | 2018-03-02 | 2020-09-29 | Apple Inc. | Training speaker recognition models for digital assistants |
US10592604B2 (en) | 2018-03-12 | 2020-03-17 | Apple Inc. | Inverse text normalization for automatic speech recognition |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
US10909331B2 (en) | 2018-03-30 | 2021-02-02 | Apple Inc. | Implicit identification of translation payload with neural machine translation |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
US10984780B2 (en) | 2018-05-21 | 2021-04-20 | Apple Inc. | Global semantic word embeddings using bi-directional recurrent neural networks |
DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS |
DK179822B1 (da) | 2018-06-01 | 2019-07-12 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
US11386266B2 (en) | 2018-06-01 | 2022-07-12 | Apple Inc. | Text correction |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
US10496705B1 (en) | 2018-06-03 | 2019-12-03 | Apple Inc. | Accelerated task performance |
CN108877777B (zh) * | 2018-08-01 | 2021-04-13 | 云知声(上海)智能科技有限公司 | 一种语音识别方法及系统 |
US11010561B2 (en) | 2018-09-27 | 2021-05-18 | Apple Inc. | Sentiment prediction from textual data |
US10839159B2 (en) | 2018-09-28 | 2020-11-17 | Apple Inc. | Named entity normalization in a spoken dialog system |
US11170166B2 (en) | 2018-09-28 | 2021-11-09 | Apple Inc. | Neural typographical error modeling via generative adversarial networks |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
US11475898B2 (en) | 2018-10-26 | 2022-10-18 | Apple Inc. | Low-latency multi-speaker speech recognition |
US11638059B2 (en) | 2019-01-04 | 2023-04-25 | Apple Inc. | Content playback on multiple devices |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
US11423908B2 (en) | 2019-05-06 | 2022-08-23 | Apple Inc. | Interpreting spoken requests |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
US11475884B2 (en) | 2019-05-06 | 2022-10-18 | Apple Inc. | Reducing digital assistant latency when a language is incorrectly determined |
DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
US11496600B2 (en) | 2019-05-31 | 2022-11-08 | Apple Inc. | Remote execution of machine-learned models |
US11289073B2 (en) | 2019-05-31 | 2022-03-29 | Apple Inc. | Device text to speech |
DK180129B1 (en) | 2019-05-31 | 2020-06-02 | Apple Inc. | User activity shortcut suggestions |
DK201970511A1 (en) | 2019-05-31 | 2021-02-15 | Apple Inc | Voice identification in digital assistant systems |
US11360641B2 (en) | 2019-06-01 | 2022-06-14 | Apple Inc. | Increasing the relevance of new available information |
US11488406B2 (en) | 2019-09-25 | 2022-11-01 | Apple Inc. | Text detection using global geometry estimators |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0283594A (ja) * | 1988-09-20 | 1990-03-23 | Nec Corp | 形態素合成形英単語辞書構成方式 |
US6067520A (en) * | 1995-12-29 | 2000-05-23 | Lee And Li | System and method of recognizing continuous mandarin speech utilizing chinese hidden markou models |
JPH09281989A (ja) * | 1996-04-09 | 1997-10-31 | Fuji Xerox Co Ltd | 音声認識装置および方法 |
JP3033514B2 (ja) * | 1997-03-31 | 2000-04-17 | 日本電気株式会社 | 大語彙音声認識方法及び装置 |
CN1111811C (zh) * | 1997-04-14 | 2003-06-18 | 英业达股份有限公司 | 计算机语音信号的发音合成方法 |
US6185524B1 (en) * | 1998-12-31 | 2001-02-06 | Lernout & Hauspie Speech Products N.V. | Method and apparatus for automatic identification of word boundaries in continuous text and computation of word boundary scores |
JP2001249922A (ja) * | 1999-12-28 | 2001-09-14 | Matsushita Electric Ind Co Ltd | 単語分割方式及び装置 |
US6505151B1 (en) * | 2000-03-15 | 2003-01-07 | Bridgewell Inc. | Method for dividing sentences into phrases using entropy calculations of word combinations based on adjacent words |
JP3881155B2 (ja) * | 2000-05-17 | 2007-02-14 | アルパイン株式会社 | 音声認識方法及び装置 |
US6973427B2 (en) | 2000-12-26 | 2005-12-06 | Microsoft Corporation | Method for adding phonetic descriptions to a speech recognition lexicon |
GB0118184D0 (en) * | 2001-07-26 | 2001-09-19 | Ibm | A method for generating homophonic neologisms |
US20030088416A1 (en) * | 2001-11-06 | 2003-05-08 | D.S.P.C. Technologies Ltd. | HMM-based text-to-phoneme parser and method for training same |
US20050256715A1 (en) * | 2002-10-08 | 2005-11-17 | Yoshiyuki Okimoto | Language model generation and accumulation device, speech recognition device, language model creation method, and speech recognition method |
WO2005071663A2 (en) * | 2004-01-16 | 2005-08-04 | Scansoft, Inc. | Corpus-based speech synthesis based on segment recombination |
-
2004
- 2004-03-10 US US10/797,358 patent/US7693715B2/en not_active Expired - Fee Related
-
2005
- 2005-03-08 EP EP05101790A patent/EP1575029B1/en not_active Not-in-force
- 2005-03-08 DE DE602005027770T patent/DE602005027770D1/de not_active Expired - Lifetime
- 2005-03-08 JP JP2005063646A patent/JP2005258439A/ja not_active Ceased
- 2005-03-08 AT AT05101790T patent/ATE508453T1/de not_active IP Right Cessation
- 2005-03-10 CN CN2005100527542A patent/CN1667699B/zh not_active Expired - Fee Related
- 2005-03-10 KR KR1020050020059A patent/KR100996817B1/ko not_active IP Right Cessation
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105590623A (zh) * | 2016-02-24 | 2016-05-18 | 百度在线网络技术(北京)有限公司 | 基于人工智能的字母音素转换模型生成方法及装置 |
CN105590623B (zh) * | 2016-02-24 | 2019-07-30 | 百度在线网络技术(北京)有限公司 | 基于人工智能的字母音素转换模型生成方法及装置 |
CN108962218A (zh) * | 2017-05-27 | 2018-12-07 | 北京搜狗科技发展有限公司 | 一种文字发音方法和装置 |
CN113257234A (zh) * | 2021-04-15 | 2021-08-13 | 北京百度网讯科技有限公司 | 生成词典与语音识别的方法、装置 |
Also Published As
Publication number | Publication date |
---|---|
JP2005258439A (ja) | 2005-09-22 |
ATE508453T1 (de) | 2011-05-15 |
DE602005027770D1 (de) | 2011-06-16 |
KR20060043825A (ko) | 2006-05-15 |
KR100996817B1 (ko) | 2010-11-25 |
EP1575029A2 (en) | 2005-09-14 |
US7693715B2 (en) | 2010-04-06 |
EP1575029A3 (en) | 2009-04-29 |
CN1667699B (zh) | 2010-06-23 |
US20050203739A1 (en) | 2005-09-15 |
EP1575029B1 (en) | 2011-05-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1667699A (zh) | 为字母-声音转换生成有互信息标准的大文法音素单元 | |
JP6916264B2 (ja) | 切断アテンションに基づくリアルタイム音声認識方法、装置、機器及びコンピュータ読み取り可能な記憶媒体 | |
CN110534095B (zh) | 语音识别方法、装置、设备以及计算机可读存储介质 | |
CN107016994B (zh) | 语音识别的方法及装置 | |
CN109313896B (zh) | 可扩展的动态类语言建模方法、用于生成话语转录的系统、计算机可读介质 | |
CN1285068C (zh) | 使用上下文无关文法的文本规范化方法 | |
CN1571013A (zh) | 从文本中预测误词率的方法和设备 | |
CN1159662C (zh) | 连续语音识别中的标点符号自动生成装置及方法 | |
CN1256714C (zh) | 语音识别方法及语境模型分级结构生成方法 | |
US7860719B2 (en) | Disfluency detection for a speech-to-speech translation system using phrase-level machine translation with weighted finite state transducers | |
US9292487B1 (en) | Discriminative language model pruning | |
CN1667700A (zh) | 使用发音图表来改进新字的发音学习 | |
WO2011096015A1 (ja) | 認識辞書作成装置及び音声認識装置 | |
WO2018207390A1 (en) | Speech recognition system and method for speech recognition | |
CN1301379A (zh) | 语音识别系统的动态可配置声模型 | |
CN1419184A (zh) | 用于调试与语言模型一起使用的类实体词典的方法和设备 | |
CN1169199A (zh) | 产生和利用上下文相关子音节模型来识别有调语言的系统和方法 | |
CN117099157A (zh) | 用于端到端自动语音识别置信度和删除估计的多任务学习 | |
CN104050255B (zh) | 基于联合图模型的纠错方法及系统 | |
WO2007005884A2 (en) | Generating chinese language couplets | |
CN116757184B (zh) | 融合发音特征的越南语语音识别文本纠错方法及系统 | |
Chen et al. | Discriminative training on language model | |
CN1760974A (zh) | 用于语音分类和语音识别的隐藏条件随机场模型 | |
CN1673997A (zh) | 以apra标准格式表示经删除插值n字母语言模型 | |
CN1224954C (zh) | 含有固定和可变语法块的语言模型的语音识别装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C17 | Cessation of patent right | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20100623 Termination date: 20130310 |