CN101004806B

CN101004806B - 用于对合成数据进行语音呈现的方法和系统

Info

Publication number: CN101004806B
Application number: CN200610143704XA
Authority: CN
Inventors: 威廉·克雷斯·博丁; 德拉尔·C·索尔森; 杰里·韦恩·雷德曼; 戴维·贾拉米尔洛
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2005-11-03
Filing date: 2006-11-02
Publication date: 2011-11-02
Anticipated expiration: 2026-11-02
Also published as: US8694319B2; KR100861860B1; US20070100628A1; KR20070048118A; CN101004806A

Abstract

公开了用于对合成数据进行语音呈现的动态韵律调节的方法、系统和产品，包括：检索将要语音呈现的合成数据；为将要语音呈现的合成数据识别特定韵律设置；根据将要语音呈现的合成数据以及关于其中将要语音呈现合成数据的上下文的上下文信息，来确定将要呈现的合成数据段；以及根据所识别的特定韵律设置，来呈现合成数据段。

Description

用于对合成数据进行语音呈现的方法和系统

技术领域

本发明的领域是数据处理，或者更具体地说，是用于对合成数据进行语音呈现的动态韵律调节的方法、系统和产品。

背景技术

尽管已有更多对数据的访问手段并且已有更多的设备来访问该数据，但是用户常常受时间约束。这种时间约束的一个原因是：用户通常必须利用数据类型专用应用来访问来自数据类型专用设备上异构数据源的异构数据类型的数据。由于存在任意多个外部环境，一种或多种这样的数据类型专用设备对于某一特定时刻的使用可能会变得麻烦。可能使数据类型专用设备的使用变得麻烦的外部环境的例子包括：拥挤的场所、诸如火车或汽车等的不舒适的场所、诸如步行等的用户活动、诸如驾驶等的视觉上需要专注的活动、以及如本领域技术人员所能想到的其它外部环境。因此，现在需要对于异构数据类型的数据管理和数据呈现，用于提供对统一数据类型的访问以及对来自异构数据源的内容的访问。

发明内容

为将要语音呈现的合成数据识别特定韵律设置还可包括：从将要语音呈现的合成数据中检索韵律标识，或根据用户指令来识别特定韵律。为将要语音呈现的合成数据识别特定韵律设置还可包括：根据用户韵律历史记录来选择特定韵律设置，或者确定用户的当前语音特征并根据用户的当前语音特征来选择特定韵律设置。

根据将要语音呈现的合成数据以及关于其中将要语音呈现合成数据的上下文的上下文信息来确定将要呈现的合成数据段还可包括：确定关于其中将要语音呈现合成数据的上下文的上下文信息；根据上下文信息来识别段长度；以及根据所识别的段长度来选择将要呈现的合成数据段。段长度可以是合成内容的数量。根据上下文信息来识别段长度还可包括：根据上下文信息来识别呈现时间；以及根据韵律设置和呈现时间来确定将要呈现的段长度。

从以下如附图中所示出的本发明示范性实施例的更详细描述，本发明的上述及其它目的、特征和优点将变得显而易见，其中相同的附图标记一般代表本发明示范性实施例的相同部件。

附图说明

图1阐述了示出根据本发明实施例的用于异构数据类型的数据管理和数据呈现的示范性系统的网络图。

图2阐述了自动计算机器的框图，该自动计算机器包括可用在根据本发明实施例的异构数据类型的数据管理和数据呈现中的示范性计算机。

图3阐述了描述根据本发明的用于异构数据类型的数据管理和数据呈现的系统的框图。

图4阐述了示出根据本发明实施例的用于异构数据类型的数据管理和数据呈现的示范性方法的流程图。

图5阐述了示出根据本发明实施例的用于从异构数据源聚集异构数据类型的数据的示范性方法的流程图。

图6阐述了示出根据本发明实施例的用于从识别的数据源中检索所请求的数据的示范性方法的流程图。

图7阐述了示出根据本发明的用于从异构数据源聚集异构数据类型的数据的示范性方法的流程图。

图8阐述了示出根据本发明的用于从异构数据源聚集异构数据类型的数据的示范性方法的流程图。

图9阐述了示出根据本发明的用于将异构数据类型的聚集数据合成为统一数据类型的数据的示范性方法的流程图。

图10阐述了示出根据本发明的用于将异构数据类型的聚集数据合成为统一数据类型的数据的示范性方法的流程图。

图11阐述了示出根据本发明的用于根据合成数据来识别动作的示范性方法的流程图。

图12阐述了示出根据本发明实施例的用于对合成数据进行通道化的示范性方法的流程图。

图13阐述了示出根据本发明实施例的用于对合成数据进行语音呈现的示范性方法的流程图。

图14A阐述了示出根据本发明实施例的用于识别特定韵律设置的备选示范性方法的流程图。

图14B阐述了示出根据本发明实施例的用于识别特定韵律设置的备选示范性方法的流程图。

图14C阐述了示出根据本发明实施例的用于识别特定韵律设置的备选示范性方法的流程图。

图14D阐述了示出根据本发明实施例的用于识别特定韵律设置的备选示范性方法的流程图。

图15阐述了根据本发明实施例的用于根据将要语音呈现的合成数据以及关于其中将要语音再现合成数据的上下文的上下文信息来确定将要呈现的合成数据段的示范性方法的流程图。

具体实施方式

用于异构数据类型的数据管理和数据呈现的示范性体系结构

从图1开始，参考附图来描述根据本发明实施例的用于来自异构数据源的异构数据类型的数据管理和数据呈现的示范性方法、系统和产品。图1阐述了示出根据本发明实施例的用于异构数据类型的数据管理和数据呈现的示范性系统的网络图。图1的系统一般操作用以通过以下方式根据本发明实施例来管理和呈现异构数据类型的数据：通过从异构数据源聚集异构数据类型的数据，将异构数据类型的聚集数据合成为统一数据类型的数据，根据合成数据识别动作，以及执行所识别的动作。

异构数据类型是不同种类和形式的数据。即，异构数据类型是不同种类的数据。定义异构数据类型的数据差别可以包括数据结构、文件格式、数据传输协议的差别，以及如本领域技术人员所能想到的其它差别。异构数据类型的例子包括MPEG-1音频层3(“MP3”)文件、可扩展标记语言(“XML”)文档、电子邮件文档以及如本领域技术人员所能想到的类型等等。异构数据类型通常必须在数据类型专用设备上呈现。例如，MPEG-1音频层3(“MP3”)文件通常通过MP3播放器来播放，无线标记语言(“WML”)文件通常通过无线设备进行访问，等等。

术语“异构数据源”是指异构数据类型的数据源。这种数据源可以是能够提供对异构数据类型的数据的访问的任何设备或网络位置。异构数据源的例子包括提供(serving up)文件的服务器、网站、蜂窝电话、个人数字助理(PDA)、MP3播放器以及如本领域技术人员所能想到的等等。

图1的系统包括为在网络中进行数据通信而连接的操作为异构数据源的多个设备。图1的数据处理系统包括广域网(“WAN”)110和局域网(“LAN”)120。LAN是“局域网”的缩写。LAN是覆盖较小区域的计算机网络。许多LAN被限制在单个建筑物或一组建筑物范围内。然而，一个LAN可以经由电话线和无线电波跨过任何距离而连接到其它LAN。以这种方式连接的LAN系统称为广域网(WAN)。因特网是WAN的一个例子。

在图1的例子中，服务器122操作为LAN120和WAN110之间的网关。图1体系结构的网络连接方面只是说明性的而非限制性的。实际上，可以把根据本发明实施例的用于异构数据类型的数据管理和数据呈现的系统连接为LAN、WAN、内联网、互联网、因特网、环球网、万维网自身或本领域技术人员所能想到的其它连接。这种网络是可用于在整个数据处理系统内连在一起的各种设备和计算机之间提供数据通信连接的媒体。

在图1的例子中，多个设备分别连接到LAN和WAN，每个设备都实现数据源，并且每个设备都在其上存储有特定数据类型的数据。在图1的例子中，服务器108通过有线连接126连接到WAN。图1的服务器108是RSS摘要(RSS feed)的数据源，其中服务器以XML文件的形式传送该RSS摘要。RSS是被新闻网站和网络日志用于网络信息聚合(syndication)的一系列XML文件格式。缩写用于指以下标准：丰富站点摘要(Rich Site Summary)(RSS0.91)、资源描述框架(RDF)站点摘要(RSS0.9、1.0和1.1)以及简易信息聚合(Really Simple Syndication)(RSS2.0)。RSS格式提供网络内容或网络内容摘要以及到网络内容完整版本的链接，以及其它元数据。该信息作为被称为RSS摘要、Webfeed、RSS流或RSS通道的XML文件来传送。

在图1的例子中，另一服务器106通过有线连接132连接到WAN。图1的服务器106是被存储为Lotus NOTES文件的数据的数据源。在图1的例子中，个人数字助理(“PDA”)102通过无线连接130连接到WAN。PDA是以XHTML移动描述(XHTML MP)文档的形式存储的数据的数据源。

在图1的例子中，蜂窝电话104通过无线连接128连接到WAN。蜂窝电话是被存储为无线标记语言(“WML”)文件的数据的数据源。在图1的例子中，输入板(tablet)计算机112通过无线连接134连接到WAN。输入板计算机112是以XHTML MP文档的形式存储的数据的数据源。

图1的系统还包括数字音频播放器(“DAP”)116。DAP116通过有线连接192连接到LAN。图1的数字音频播放器(“DAP”)116是被存储为MP3文件的数据的数据源。图1的系统还包括便携式计算机124。便携式计算机通过有线连接190连接到LAN。图1的便携式计算机124是被存储为图形交换格式(“GIF”)文件的数据的数据源。图1的便携式计算机124也是可扩展超文本标记语言(“XHTML”)文档形式的数据的数据源。

图1的系统包括便携式计算机114和智能电话118，它们每一个都在其上装有数据管理和呈现模块，用于提供对可从异构数据源得到的异构数据类型的数据的统一访问。图1的示范性便携式计算机114通过无线连接188连接到LAN。图1的示范性智能电话118也通过无线连接186连接到LAN。图1的便携式计算机114和智能电话118在其上安装有并运行通常能够通过以下方式实现异构数据类型的数据管理和数据呈现的软件：从异构数据源聚集异构数据类型的数据，将异构数据类型的聚集数据合成为统一数据类型的数据，根据合成数据识别动作，以及执行所识别的动作。

聚集数据是异构类型的数据在单个位置的聚积。聚集数据的这个位置可以是物理的，例如在包含聚集数据的单台计算机上，或者是逻辑的，例如用于提供对聚集数据的访问的单个接口。

合成数据是已被合成为统一数据类型的数据的聚集数据。可以把统一数据类型实现为从聚集数据转换的文本内容和标记。合成数据还可以包含被插入文本内容中的附加语音标记，用于添加附加语音能力。

作为选择，图1系统中被描述为源的任何设备还都可以支持根据本发明的数据管理和呈现模块。例如，如上所述的服务器106能够支持数据管理和呈现模块，该数据管理和呈现模块提供对可从异构数据源得到的异构数据类型的数据的统一访问。例如，如上所述的图1中的任何设备，如PDA、输入板计算机、蜂窝电话或如本领域技术人员所能想到的其它任何设备，能够支持根据本发明的数据管理和呈现模块。

构成图1所示示范性系统的服务器和其它设备的布置是说明性的而非限制性的。如本领域技术人员所能想到的，根据本发明各个实施例可用的数据处理系统可以包括图1中未示出的附加服务器、路由器、其它设备和对等体系结构。这种数据处理系统中的网络可以支持许多数据通信协议，包括例如传输控制协议(TCP)、网际协议(IP)、超文本传输协议(HTTP)、无线访问协议(WAP)、手持设备传输协议(HDTP)以及如本领域技术人员所能想到的其它协议。在除了图1所示硬件平台以外，也可以在多种硬件平台上实施本发明的各种实施例。

一般地，利用计算机即自动计算机器来实施根据本发明的用于异构数据类型的数据管理和数据呈现的方法。例如，在图1的系统中，在某种程度上将所有节点、服务器和通信设备至少实现为计算机。因此，为进一步说明，图2阐述了自动计算机器的框图，该自动计算机器包括可用在根据本发明实施例的异构数据类型的数据管理和数据呈现中的示范性计算机152。图2的计算机152包括至少一个计算机处理器156或中央处理器(“CPU”)，以及通过系统总线160连接到处理器156和计算机其它部件的随机存储器(“RAM”)168。

RAM168中存储了数据管理和数据呈现模块140，它是用于异构数据类型的数据管理和数据呈现的计算机程序指令，一般能够从异构数据源聚集异构数据类型的数据，将异构数据类型的聚集数据合成为统一数据类型的数据，根据合成数据来识别动作，以及执行所识别的动作。异构数据类型的数据管理和数据呈现有利地向用户提供以下能力：高效地访问和操纵从异构数据类型专用资源所收集的数据。异构数据类型的数据管理和数据呈现也提供统一数据类型，使得用户可以在单个设备上访问从异构数据类型专用资源所收集的数据。

图2的数据管理和数据呈现模块140还包括以下计算机程序指令：这些计算机程序指令用于检索将要语音呈现的合成数据；为将要语音呈现的合成数据识别特定的韵律设置；根据将要语音呈现的合成数据以及关于其中将要语音呈现合成数据的上下文的上下文信息来确定将要呈现的合成数据段；以及根据所识别的特定韵律设置来呈现该合成数据段。

RAM168中还存储了聚集模块144，它是用于从异构数据源聚集异构数据类型的数据的计算机程序指令，一般能够从聚集过程接收数据请求，响应该数据请求而识别两个或更多异构数据源中的一个作为数据源，从所识别的数据源检索所请求的数据，以及将所请求的数据返回给聚集过程。从异构数据源聚集异构数据类型的数据有利地提供了从多个源收集数据以便合成的能力。

RAM中还存储了合成引擎145，它是用于将异构数据类型的聚集数据合成为统一数据类型的数据的计算机程序指令，一般能够接收异构数据类型的聚集数据，并将异构数据类型的聚集数据的每个数据转换为由文本内容及与文本内容关联的标记所组成的转换数据。将异构数据类型的聚集数据合成为统一数据类型的数据有利地提供了能够被单个设备所访问和操纵的统一数据类型的合成数据。

RAM168中还存储了动作发生器模块159，它是用于根据合成数据以及常常根据用户指令来识别动作的一组计算机程序指令。根据合成数据来识别动作有利地提供了与合成数据交互并管理合成数据的能力。

RAM168中还存储了动作代理158，它是用于控制一个或多个所识别的动作的执行的一组计算机程序指令。如本领域技术人员所能想到的，可以一旦识别出来就立即执行这种执行，在识别之后周期地执行这种执行，或者在识别之后排定(schedule)这种执行。

RAM168中还存储了作为计算机程序指令的调度器146，用于从聚集过程接收数据请求；响应该数据请求而识别多个异构数据源之一作为数据源，从所识别的数据源检索所请求的数据，以及将所请求的数据返回给聚集过程。从聚集过程接收数据请求、响应该数据请求而识别多个异构数据源之一作为数据源、从所识别的数据源检索所请求的数据、以及将所请求的数据返回给聚集过程有利地提供了访问异构数据源以便聚集和合成的能力。

图2的调度器146还包括多个插件模块148、150，它们是用于从与插件关联的数据源检索供聚集过程之用的所请求的数据的计算机程序指令。这种插件将调度器的一般动作和特定类型的检索数据所需的专用要求隔离开。

RAM168中还存储了浏览器142，它是用于向用户提供合成数据的接口的计算机程序指令。向用户提供合成数据的接口有利地提供了对从异构数据源检索的数据内容的用户访问，而不必使用数据源专用设备。图2的浏览器142能够实现多模交互，所述多模交互能够接收多模输入并通过多模输出与用户交互。这种多模浏览器通常支持多模网页，多模网页通过可以语音驱动的分级菜单来提供多模交互。

RAM中还存储了在Java虚拟机(JVM)155上运行的OSGi服务框架157。OSGi指的是开放服务网关组织，它是开发服务包传送规范的工业组织，该服务包是通过服务网关来提供顺应性(compliant)数据通信和服务的软件中间件。OSGi规范是一种基于Java的应用层框架，它向服务提供商、网络运营设备制造商及设备制造商的供货商提供中间应用和设备层应用程序接口(API)及函数。OSGi与多种连网技术一起工作，如以太网、蓝牙、“家庭视听互操作性标准”(HAVI)、IEEE1394、通用串行总线(USB)、WAP、X-10、Lon Works、HomePlug及其它各种连网技术。OSGi规范可从OSGi网站www.osgi.org免费下载得到。

OSGi服务框架157是用Java语言编写的，因此通常在Java虚拟机(JVM)155上运行。在OSGi中，服务框架157是用于运行“服务”的主平台。根据上下文，本公开中的术语“服务”一般是指遵循OSGi的服务。

服务是用于生成按照OSGi的应用的主构件。服务是实现某一特征的一组Java类和接口。OSGi规范提供了多个标准服务。例如，OSGi提供了标准HTTP服务，该标准HTTP服务用于生成能够响应来自HTTP客户机的请求的网络服务器。

OSGi还提供一组被称为设备访问规范(Device Access Specification)的标准服务。设备访问规范(“DAS”)提供以下服务：识别连接到服务网关的设备，搜索该设备的驱动程序，并安装该设备的驱动程序。

OSGi中的服务以“包(bundle)”的形式与为执行服务所需的其它文件、图像及资源一起封装。包是包括一个或多个服务实现、激活程序类或清单文件的Java存档或“JAR”文件。激活程序类是服务框架用来开始和停止包的Java类。清单文件是描述包内容的标准文本文件。

OSGi中的服务框架157还包括服务注册表。服务注册表包括服务注册，该服务注册包括用于实现框架上所安装的并向服务注册表注册了的每个包的服务的服务名及类实例。包可以请求包中未包括的但在框架服务注册表中注册了的服务。为找到服务，包在框架的服务注册表上执行查询。

根据本发明实施例的数据管理和数据呈现可以有用地调用一项或多项OSGi服务。把OSGi包括进来是用于说明性的而非限制性的。实际上，根据本发明实施例的数据管理和数据呈现可以有用地采用许多不同技术，并且所有这些技术都在本发明的范围内。

RAM168中还存储了操作系统154。可用于根据本发明实施例的计算机中的操作系统包括UNIX_TM、Linux_TM、Microsoft Windows NT_TM、AIX_TM、IBM的i5/OS_TM以及如本领域技术人员所能想到的其他操作系统。RAM168中示出了图2例子中的操作系统154和数据管理和数据呈现模块140，但是非易失性存储器166中通常还存储了这种软件的许多部件。

图2的计算机152包括通过系统总线160耦合到处理器156和计算机152的其它部件的非易失性计算机存储器166。可以把非易失性存储器166实现为硬盘驱动器170、光盘驱动器172、电可擦除可编程只读存储器空间(所谓的“EEPROM”或“快闪”存储器)174、RAM驱动器(未示出)、或如本领域技术人员所能想到的其它任何种类计算机存储器。

图2的示例计算机包括一个或多个输入/输出接口适配器178。计算机中的输入/输出接口适配器通过例如软件驱动器或计算机硬件来实现面向用户的输入/输出，用以控制到显示设备180(比如计算机显示屏)的输出以及来自用户输入设备181(比如键盘和鼠标)的用户输入。

图2的示例计算机152包括通信适配器167，用于实现与其它计算机182的数据通信184。可以通过RS-232连接、通过外部总线(比如USB)、通过数据通信网络(比如IP网络)以及如本领域技术人员所能想到的其它方式，来串行地实施这种数据通信。通信适配器实现数据通信的硬件级，借此一台计算机直接地或通过网络向另一台计算机发送数据通信。可用于根据本发明实施例的来自异构数据源的异构数据类型的数据管理和数据呈现的通信适配器例子包括：用于有线拨号通信的调制解调器、用于有线网络通信的以太网(IEEE802.3)适配器、以及用于无线网络通信的802.11b适配器。

为进一步说明，图3阐述了描述根据本发明的用于异构数据类型的数据管理和数据呈现的系统的框图。图3的系统包括聚集模块144，它是用于从异构数据源聚集异构数据类型的数据的计算机程序指令，一般能够从聚集过程接收数据请求，响应该数据请求而识别两个或更多异构数据源中的一个作为数据源，从所识别的数据源检索所请求的数据，以及将所请求的数据返回给聚集过程。

图3的系统包括合成引擎145，它是用于将异构数据类型的聚集数据合成为统一数据类型的数据的计算机程序指令，一般能够接收异构数据类型的聚集数据，并将异构数据类型的聚集数据的每个数据转换为由文本内容及与文本内容关联的标记所组成的转换数据。

合成引擎145包括VXML构造器222模块，它是用于将异构数据类型的聚集数据的每个数据转换为文本内容以及与文本内容关联的标记的计算机程序指令。合成引擎145还包括语法构造器224模块，它是用于产生与文本内容关联的语音标记的语法的计算机程序指令。

图3的系统包括合成数据仓库226，它是合成引擎以X+V格式所生成的合成数据的数据存储器。图3的系统还包括X+V浏览器142，它是一般能够将来自合成数据仓库226的合成数据表示给用户的计算机程序指令。表示合成数据可以包括合成数据的图形显示和音频表示。如以下参考图4所讨论的，向用户表示合成数据的一种方式是通过一个或多个通道来表示合成数据。

图3的系统包括作为计算机程序指令的调度器146模块，用于从聚集过程接收数据请求，响应该数据请求而识别多个异构数据源之一作为数据源，从所识别的数据源检索所请求的数据，并将所请求的数据返回给聚集过程。调度器146模块访问来自异构数据源的异构数据类型的数据，以供聚集模块144、合成引擎145和动作代理158之用。图3的系统包括如下所述被调度器用来访问数据的数据源专用插件148-150、234-236。

在图3的系统中，数据源包括本地数据216和内容服务器202。本地数据216是自动计算机器的存储器或寄存器中所包含的数据。在图3的系统中，数据源还包括内容服务器202。内容服务器202通过网络501连接到调度器146模块。图3的RSS服务器108是RSS摘要的数据源，服务器以XML文件的形式传送RSS摘要。RSS是被新闻网站和网络日志用于网络信息聚合的一系列XML文件格式。缩写用于指以下标准：丰富站点摘要(RSS0.91)、RDF站点摘要(RSS0.9、1.0和1.1)以及简易信息聚合(RSS2.0)。RSS格式提供网络内容或网络内容摘要以及到网络内容完整版本的链接，以及其它元数据。该信息作为被称为RSS摘要、Webfeed、RSS流或RSS通道的XML文件来传送。

在图3的系统中，电子邮件服务器106是电子邮件的数据源。服务器以Lotus NOTES文件的形式传送该电子邮件。在图3的系统中，日历服务器107是日历信息的数据源。日历信息包括排程(calendared)事件及其它相关信息。服务器以Lotus NOTES文件的形式传送该日历信息。

在图3的系统中，IBM点播工作站(204)是一种对点播工作平台(“ODW”)提供支持的服务器，ODW提供开发工具和用来共享思想和专业知识、与他人合作以及寻找信息的虚拟空间。

图3的系统包括数据源专用插件148-150、234-236。对于以上列出的每个数据源，调度器都使用专用插件来访问数据。

图3的系统包括与运行RSS应用的RSS服务器108关联的RSS插件148。图3的RSS插件148为用户从RSS服务器108检索RSS摘要，并以XML文件形式将RSS摘要提供给聚集模块。

图3的系统包括与运行排程应用的日历服务器107关联的日历插件150。图3的日历插件150为用户从日历服务器107检索排程事件，并将排程事件提供给聚集模块。

图3的系统包括与运行电子邮件应用的电子邮件服务器106关联的电子邮件插件234。图3的电子邮件插件234为用户从电子邮件服务器106检索电子邮件，并将电子邮件提供给聚集模块。

图3的系统包括与运行点播工作站(“ODW”)应用的ODW服务器204关联的ODW插件236。图3的ODW插件236为用户从ODW服务器204检索ODW数据，并将ODW数据提供给聚集模块。

图3的系统还包括动作发生器模块159，它是用于根据合成数据来从动作仓库240识别动作的计算机程序指令，一般能够接收用户指令、响应该用户指令而选择合成数据、以及根据该用户指令和所选定数据来选择动作。

动作发生器模块159包含嵌入式服务器244。嵌入式服务器244通过X+V浏览器142接收用户指令。一旦从动作仓库240识别了动作，动作发生器模块159就利用动作代理158来执行该动作。图3的系统包括动作代理158，它是用于执行动作的计算机程序指令，一般能够执行动作。

异构数据类型的数据管理和数据呈现

为进一步说明，图4阐述了示出根据本发明实施例的用于异构数据类型的数据管理和数据呈现的示范性方法的流程图。图4的方法包括从异构数据源404、410聚集(406)异构数据类型的数据402、408。如上所述，异构数据类型的聚集数据是异构类型数据在单个位置的聚积。聚集数据的这个位置可以是物理的，例如在包含聚集数据的单个计算机上，或者是逻辑的，例如用于提供对聚集数据的访问的单个接口。

如以下参考图5更详细论述的，通过以下方式来实施根据图4的方法从异构数据源404、410聚集(406)异构数据类型的数据402、408：从聚集过程接收数据请求；响应该数据请求而识别两个或更多异构数据源中的一个作为数据源；从所识别的数据源检索所请求的数据；以及将所请求的数据返回给聚集过程。

图4的方法还包括将异构数据类型的聚集数据412合成(414)为统一数据类型的数据。统一数据类型的数据是已被生成为或已被转换为预定类型格式的数据。即，统一数据类型是可以在能够呈现统一数据类型的数据的设备上进行呈现的单一种类数据。将异构数据类型的聚集数据412合成(414)为统一数据类型的数据有利地导致了对于从异构数据源检索的异构数据聚集内容的单一访问点。

可用在将异构数据类型的聚集数据412合成(414)为统一数据类型的数据之中的统一数据类型的一个例子是XHTML加语音。XHTML加语音(X+V)是一种网络标记语言，用于利用语音标记来支持表示层中的语音，而来开发多模应用。X+V利用语音和视觉元素在小移动设备中提供基于语音的交互。X+V由三个主要标准组成：XHTML、VoiceXML和XML事件。假定网络应用环境是事件驱动的，则X+V结合了XML事件标准中所使用的文档对象模型(DOM)事件框架。利用该框架，X+V从HTML定义了常见事件类型，以生成视觉与语音标记之间的相关。

如以下参考图9更详细论述的，可以通过以下方式来实施将异构数据类型的聚集数据412合成(414)为统一数据类型的数据：接收异构数据类型的聚集数据，并将异构数据类型的聚集数据的每个数据转换为文本内容以及与文本内容关联的标记。在图4的方法中，可以通过将聚集数据转换为X+V或如本领域技术人员所能想到的其它任何标记语言，来实施将异构数据类型的聚集数据412合成为统一数据类型的数据。

图4的数据管理和数据呈现方法还包括根据合成数据416来识别(418)动作。动作是当被执行时实现预定义任务的一组计算机指令。可以立即或在稍后某一规定时间，根据合成数据来执行动作。可以通过以下方式来实施根据合成数据416识别(418)动作：接收用户指令，响应该用户指令而选择合成数据，以及根据该用户指令和所选择的数据来选择动作。

用户指令是响应用户的行动而接收的事件。示范性用户指令包括：接收作为用户利用键盘或小键盘输入按键组合的结果的事件，从用户接收语音，接收作为利用鼠标在可见显示器上点击图标的结果的事件，接收作为用户在触板上压按图标的结果的事件，或如本领域技术人员所能想到的其它用户指令。可以通过从用户接收语音、将语音转换为文本、并根据文本和语法确定用户指令，来实施接收用户指令。作为选择，可以通过从用户接收语音并根据语音和语法来识别用户指令，来实施接收用户指令。

图4的方法还包括执行(424)所识别的动作420。可以通过以下方式来实施执行(424)所识别的动作420：根据合成数据来调用所识别的动作对象中的成员方法，执行实现所识别的动作的计算机程序指令，以及如本领域技术人员所能想到的执行所识别的动作的其它方式。执行(424)所识别的动作420还可包括：确定为实施动作所需的通信网络的可用性，并且只有当通信网络可用时才执行动作，并且如果通信网络连接不可用则推迟执行动作。如果通信网络连接不可用则推迟执行动作可以包括：将所识别的动作排到动作队列中，存储动作直到通信网络可用为止，然后执行识别的动作。等待执行识别的动作420的另一种方式是：将描绘动作的条目插入容器中并且稍后处理容器。容器可以是适于存储描绘动作的条目的任何数据结构，如XML文件。

执行(424)所识别的动作420可以包括修改异构数据源之一的数据的内容。例如，考虑被称为deleteOldEmail()的动作，当deleteOldEmail()被执行时，它不仅删除从电子邮件转换的合成数据，而且还删除为进行数据通信而与按照本发明操作的数据管理和数据呈现模块耦合的电子邮件服务器上所存储的原始源电子邮件。

图4的方法还包括对合成数据416进行通道化(channelize)(422)。通道是要用于表示给用户的数据内容的逻辑集合。可以通过以下方式来实施对合成数据416进行通道化：识别合成数据的属性，表征(characterize)合成数据的属性，并根据表征的属性和通道分配规则来将数据分配给预定通道。对合成数据进行通道化有利地提供了向用户表示相关内容的工具。这种通道化数据的例子可以是提供工作相关内容的通道的‘工作通道’、提供娱乐内容的通道的‘娱乐通道’以及本领域技术人员所能想到的通道等。

图4的方法还可包括通过一个或多个通道向用户表示(426)合成数据416。通过一个或多个通道向用户表示(426)合成数据416的一种方式是：表示可用通道的摘要或标题。可以经由该表示来访问通过那些通道表示的内容，以便访问合成数据416。通过一个或多个通道向用户表示(426)合成数据416的另一种方式可以通过显示或播放通道中所包含的合成数据416来实现。可以在视觉上显示文本，或者可以将文本转换为模拟的语音并为用户播放该模拟语音。

聚集异构数据类型的数据

为进一步说明，图5阐述了示出根据本发明实施例的用于从异构数据源聚集异构数据类型的数据的示范性方法的流程图。在图5的方法中，从异构数据源404、522聚集(406)异构数据类型的数据402、408包括：从聚集过程502接收(506)数据请求508。可以把数据请求实现为从聚集过程去往调度器的消息，以指示调度器开始检索所请求的数据、并将所请求的数据返回给聚集过程。

在图5的方法中，从异构数据源404、522聚集(406)异构数据类型的数据402、408还包括：响应数据请求508而识别(510)多个异构数据源404、522之一作为数据源。可以用多种方式来实施响应数据请求508而识别(510)多个异构数据源404、522之一作为数据源。如以下参考图7更详细论述的，识别(510)多个异构数据源404、522之一作为数据源的一种方式可以通过以下来实现：从用户接收异构数据源的标识；以及根据该标识来为聚集过程识别异构数据源。

如以下参考图8更详细论述的，为聚集过程502识别异构数据源的另一种方式通过以下来实现：从数据请求中识别数据类型信息，并从数据源表中识别与该数据类型对应的数据源。如以下参考图8更详细论述的，识别多个数据源之一的又一种方式通过以下来实现：从数据请求中识别数据类型信息；根据该数据类型信息来搜索数据源；以及从数据源搜索所返回的搜索结果中识别与该数据类型对应的数据源。

本说明书中所描述的识别多个数据源之一的三种方法是说明性而非限制性的。实际上，有多种识别多个数据源之一的方式，并且所有这些方式都在本发明范围内。

图5的聚集(406)数据的方法包括：从识别的数据源522中检索(512)所请求的数据514。如以下参考图6更详细论述的，从识别的数据源522中检索(512)所请求的数据514包括：确定识别的数据源是否需要数据访问信息来检索所请求的数据；如果识别的数据源需要数据访问信息来检索所请求的数据，则根据数据请求中所包含的数据元素来检索数据访问信息；以及将数据访问信息表示给识别的数据源。可以通过以下方式来实施按照图5的方法检索(512)所请求的数据：在本地从存储器检索数据，从网络位置下载数据，或本领域技术人员所能想到的检索请求的数据的其它任何方式。如上所述，可以通过被设计用来从特定数据源或特定类型数据源检索数据的数据源专用插件，来实施从识别的数据源522中检索(512)所请求的数据514。

在图5的方法中，从异构数据源404、522聚集(406)异构数据类型的数据402、408还包括：将所请求的数据514返回(516)给聚集过程502。可以通过以下方式来实施将所请求的数据514返回(516)给聚集过程502：以消息形式把所请求的数据返回给聚集过程，在本地存储数据并将指向存储的数据的位置的指针返回给聚集过程，或本领域技术人员所能想到的返回所请求的数据的其它任何方式。

如以上参考图5所论述的，图5的聚集(406)数据包括从识别的数据源中检索所请求的数据。因此，为进一步说明，图6阐述了示出根据本发明实施例的用于从识别的数据源522中检索所请求的数据514的示范性方法的流程图。在图6的方法中，从识别的数据源522中检索所请求的数据514包括：确定(904)识别的数据源522是否需要数据访问信息914来检索所请求的数据514。如以上参考图5所论述的，数据访问信息是为了从某些异构数据源访问某些类型的数据所需的信息。示范性数据访问信息包括帐户名、帐号、密码或本领域技术人员所能想到的其它任何数据访问信息。

可以通过尝试从识别的数据源中检索数据并从数据源接收对于为检索数据所需的数据访问信息的提示，来实施确定(904)识别的数据源522是否需要数据访问信息914来检索所请求的数据514。作为选择，不是每当从数据源检索数据时都从数据源接收提示，而是例如可以通过用户来一次实施确定(904)识别的数据源522是否需要数据访问信息914来检索所请求的数据514，并将该确定提供给调度器，使得可以在无提示的情况下将所需的数据访问信息提供给具有任何数据请求的数据源。这种数据访问信息可以存储在例如数据源表中，该数据源表识别为从识别的数据源访问数据所需的任何对应的数据访问信息。

在图6的方法中，从识别的数据源522检索(512)所请求的数据514还包括：如果识别的数据源需要数据访问信息来检索所请求的数据908，则根据数据请求508中所包含的数据元素910来检索(912)数据访问信息914。数据请求508中所包含的数据元素910通常是数据请求508的属性值。这种值可以包括用于识别将要访问的数据类型的值，用于识别请求的数据的异构数据源位置的值，或者数据请求的属性的其它任何值。

数据请求508中所包含的这种数据元素910可用于检索为从异构数据源检索数据所需的数据访问信息。可以把用户访问数据源所需的数据访问信息有用地存储在这样的记录中，该记录与来自数据源的所有数据请求中所发现的数据元素所索引(indexed)的用户关联。因此，可以通过以下方式来实施根据图6的根据数据请求508中所包含的数据元素910来检索(912)数据访问信息914：根据数据请求中的一个或多个数据元素来从数据库中检索包含数据访问信息的记录，并从该记录中提取数据访问信息。可以把这种数据访问信息提供给数据源以检索数据。

如果识别的数据源需要数据访问信息914来检索所请求的数据908则根据数据请求508中所包含的数据元素910来检索(912)数据访问信息914可以通过以下方式来实施：识别数据请求508中所包含的数据元素910，分析这些数据元素以识别为检索请求的数据908所需的数据访问信息914，识别数据访问表中的正确数据访问信息，以及检索数据访问信息914。

图6的用于从识别的数据源522中检索所请求的数据514的示范性方法还包括：向识别的数据源522表示(916)数据访问信息914。可以通过把数据访问信息作为请求中的参数提供给请求、或者响应数据源的这种数据访问信息的提示提供数据访问信息，来实施根据图6的方法向识别的数据源522表示(916)数据访问信息914。即，可以通过调度器的选定数据源专用插件来实施向识别的数据源522表示(916)数据访问信息914，该选定数据源专用插件响应这种数据访问信息的提示而为识别的数据源522提供数据访问信息914。作为选择，可以通过调度器的选定数据源专用插件来实施向识别的数据源522表示(916)数据访问信息914，该选定数据源专用插件在无提示的情况下把用于识别的数据源522的数据访问信息914作为参数传送给请求。

如上所述，根据本发明实施例从异构数据源聚集异构数据类型的数据通常包括：为聚集过程识别异构数据源。即，在从特定数据源请求数据之前，通常为聚集过程识别该数据源。因此，为进一步说明，图7阐述了示出根据本发明实施例的用于从异构数据源404、522聚集异构数据类型的数据404、522的示范性方法的流程图，该方法包括为聚集过程502识别(1006)异构数据源1008。在图7的方法中，为聚集过程502识别(1006)异构数据源1008包括：从用户接收(1002)异构数据源的选择1004。用户通常是使用根据本发明管理和呈现来自异构数据源1008的异构数据类型数据(402、408)的数据管理和数据呈现系统的人。可以通过以下方式来实施从用户接收(1002)异构数据源的选择1004：通过数据管理和数据呈现应用的用户界面从用户接收包含异构数据源选择的用户指令，并根据该选择1004来为聚集过程502识别(1009)异构数据源404、522。用户指令是响应用户动作而接收的事件，如作为以下用户动作的结果而生成的事件：用户利用键盘或小键盘输入按键组合，从用户接收语音，接收利用鼠标对可见显示器上图标的点击，压按触板上的图标，或本领域技术人员所能想到的其它用户动作。数据管理和数据呈现应用中的用户界面可以有用地提供用于接收特定异构数据源的用户选择的工具。

在图7的例子中，由用户来实施为聚集过程识别异构数据源。也可以通过需要有限用户交互或不需要用户交互的过程，来实施识别异构数据源。为进一步说明，图8阐述了示出用于从异构数据源聚集异构数据类型的数据且需要很少或不需要用户动作的示范性方法的流程图，该示范性方法包括为聚集过程502识别(1006)异构数据源1008，包括从数据请求508中识别(1102)数据类型信息1106。异构数据类型识别不同种类和形式的数据。即，异构数据类型是不同种类的数据。定义异构数据类型的数据差别可以包括数据结构、文件格式、数据传输协议的差别，以及如本领域技术人员所能想到的其它差别。数据类型信息1106是代表定义异构数据类型的这些数据差别的信息。

可以通过从数据请求508中提取数据类型码，来实施根据图8的方法从数据请求508中识别(1102)数据类型信息1106。作为选择，可以通过推断从请求本身所请求的数据的数据类型，如通过从请求中提取数据元素并从这些数据元素来推断所请求的数据的数据类型，或通过本领域技术人员所能想到的其它方式，来实施从数据请求508中识别(1102)数据类型信息1106。

在图8的聚集方法中，为聚集过程502识别(1006)异构数据源还包括：从数据源表1104中识别(1110)与数据类型对应的数据源1116。数据源表是一种包含由从那些异构数据源检索得到的数据的数据类型所索引的异构数据源标识的表。可以通过根据所识别的数据类型对数据源表1104执行查找，来实施从数据源表1104中识别(1110)与数据类型对应的数据源1116。

在某些情况下，可能没有为数据类型找到这种数据源，或者没有这种数据源表可用于识别异构数据源。因此，在图8的方法中，包括一种为聚集过程502识别(1006)异构数据源的备选方法，该备选方法包括：根据数据类型信息1106来搜索(1108)数据源，并从数据源搜索所返回的搜索结果1112中识别(1114)与数据类型对应的数据源1116。可以通过根据数据类型信息来生成搜索引擎查询并利用所生成的查询执行搜索引擎查询，来实施根据数据类型信息1106搜索(1108)数据源。可以利用通过例如HTTP GET或HTTP POST函数传送给搜索引擎的统一资源定位符(URL)编码数据，来实施搜索引擎查询。URL编码数据是封装在URL中用于数据通信(在该情况下是用于向搜索引擎传送查询)的数据。在HTTP通信的情况下，HTTP GET和POST函数常常用于传输URL编码数据。在该上下文中，记住URL所做的并不仅仅在于请求文件传送是有用的。URL识别服务器上的资源。这种资源可以是具有文件名的文件，但是URL所识别的资源还包括例如数据库查询。这种查询的结果不必驻留在文件中，但是它们仍然是由URL和搜索引擎所识别的数据资源以及产生这种资源的查询数据。URL编码数据的例子是：

http://www.example.com/searchfield1＝value1&field2＝value2

URL编码数据的这个例子代表通过网络提交给搜索引擎的查询。更具体地说，以上例子是承载代表搜索引擎查询的编码数据的URL，并且该查询是字符串“field1＝value1&field2＝value2”。示范性编码方法是由‘&’和‘＝’分开的字符串字段名和字段值，并通过将“search(搜索)”包括在URL中来将编码指定为查询。示范性URL编码搜索查询是说明性的而非限制性的。实际上，不同的搜索引擎可以使用不同的句法来表示数据编码的URL中的查询，因此数据编码的特定句法可以随所查询的特定搜索引擎而变。

可以通过从搜索引擎所返回的搜索结果页中的超级链接检索数据源的URL，来实施从数据源搜索所返回的搜索结果1112中识别与数据类型对应的数据源(1116)。

对聚集数据进行合成

如上所述，异构数据类型的数据管理和数据呈现包括：将异构数据类型的聚集数据合成为统一数据类型的数据。为进一步说明，图9阐述了示出用于将异构数据类型的聚集数据41合成(414)为统一数据类型的数据的方法的流程图。如上所述，异构数据类型的聚集数据412是异构类型的数据在单个位置的聚积。聚集数据的这个位置可以是物理的，例如在包含聚集数据的单个计算机上，或者是逻辑的，例如用于提供对聚集数据的访问的单个接口。同样如上所述，异构数据类型是不同种类和形式的数据。即，异构数据类型是不同种类的数据。统一数据类型的数据是已被生成为或已被转换为预定类型格式的数据。即，统一数据类型是可以在能够呈现统一数据类型的数据的设备上进行呈现的单一种类数据。将异构数据类型的聚集数据412合成(414)为统一数据类型的数据有利地使得能够在单个设备上呈现异构数据内容。

在图9的方法中，将异构数据类型的聚集数据412合成(414)为统一数据类型的数据包括：接收(612)异构数据类型的聚集数据。可以通过从聚积了异构数据的聚集过程接收来自异构数据源的用于合成为统一数据类型的异构数据类型的数据，来实施接收(612)异构数据类型的聚集数据412。

在图9的合成方法中，将异构数据类型610的聚集数据406合成(414)为统一数据类型的数据还包括：将异构数据类型610的聚集数据的每个数据都转换为文本617内容以及与文本内容关联的标记619。根据图9的方法将异构数据类型610的聚集数据的每个数据都转换为文本617内容以及与文本内容关联的标记619包括：用文本和标记来表示聚集数据的内容，使得在聚集数据被合成之前，能够呈现文本和标记的浏览器可以从转换的数据来呈现聚集数据中所包含的相同内容。

在图9的方法中，如以下将参考图10更详细论述的，可以通过为聚集数据生成包括文本、标记、语法等的X+V文档，来实施将异构数据类型的聚集数据610的每个数据都转换(614)为文本617内容以及与文本内容关联的标记619。X+V的使用是说明性的而非限制性的。实际上，在根据本发明将异构数据类型610的聚集数据406合成(414)为统一数据类型的数据中，可以使用其它标记语言，如XML、VXML或如本领域技术人员所能想到的其它任何标记语言。

将异构数据类型的聚集数据610的每个转换(614)为文本617内容和标记619使得在聚集数据被合成之前能够呈现文本和标记的浏览器可以从转换的数据来呈现聚集数据中所包含的相同内容可以包括：在转换过程中以某种方式增加内容。即，将聚集的数据类型转换为文本和标记可能导致对数据内容的某种修改，或者可能导致对某些不能正确转换的的内容的删除。如本领域技术人员所能想到的，这种修改和删除量将随被转换的数据类型以及其它因素而变。

可以通过将聚集数据转换为文本和标记并根据数据类型对转换的内容进行分析，来实施将异构数据类型的聚集数据610的每个数据都转换(614)为文本617内容以及与文本内容关联的标记619。根据数据类型分析转换的内容意味着：识别转换的内容的结构和识别内容本身的各个方面，并生成代表所识别的结构和内容的标记619。

为进一步说明，考虑以下描述president(总统)的音频剪辑片断的标记语言描述。

<head>original file type＝‘MP3’keyword＝‘president’number＝‘50’，

Keyword＝‘airforce’number＝‘1’keyword＝‘white house’number＝

‘2’>

<head>

关于总统的某些内容

</content>

在以上例子中，MP3音频文件被转换为文本和标记。在以上例子中，标题识别作为从MP3音频文件转换得到的转换的数据。示范性标题还包括被包含在转换的文档的内容中的关键字、以及那些关键字出现的频率。示范性转换的数据还包括被识别为‘关于总统的某些内容’的内容。

如上所述，用于合成数据的一种有用统一数据类型是XHTML加语音(X+V)。X+V是一种网络标记语言，用于通过利用语音标记支持语音来开发多模应用。X+V利用语音和视觉元素在设备中提供基于语音的交互。通常，通过为合成数据的文本内容生成语法集，来实施支持用于根据本发明实施例的数据管理和数据呈现的合成数据的语音。语法是可以口语表达出的一组字，可以口语表达出那些字的模式，或定义被语音识别引擎所识别的语音的其它语言元素。这种语音识别引擎可用于数据管理和呈现引擎中，以便向用户提供合成数据的语音导航以及与合成数据进行语音交互。

因此，为进一步说明，图10阐述了示出用于将异构数据类型的聚集数据412合成(414)为统一数据类型数据的方法的流程图，该方法包括：为合成数据的文本内容动态地生成语法集，以便与用户进行语音交互。根据图10的方法将异构数据类型的聚集数据412合成(414)为统一数据类型的数据包括：接收(612)异构数据类型的聚集数据412。如上所述，可以通过从聚积了异构数据的聚集过程接收来自异构数据源的用于合成为统一数据类型的异构数据类型的数据，来实施接收(612)异构数据类型的聚集数据412。

图10的用于将异构数据类型的聚集数据412合成(414)为统一数据类型的数据的方法还包括：将异构数据类型的聚集数据412的每个数据转换(614)为包括文本内容以及与文本内容关联的标记的转换的数据1204。如上所述，将异构数据类型的聚集数据412的每个数据都转换(614)为文本内容以及与文本内容关联的标记包括：用文本和标记来表示聚集数据的内容，使得在聚集数据被合成之前，能够呈现文本和标记的浏览器可以从转换的数据来呈现聚集数据中所包含的相同内容。在某些情况下，将异构数据类型的聚集数据412转换(614)为文本内容和标记使得能够呈现文本和标记的浏览器可以包括：以本领域技术人员所能想到的某种方式增加或删除被转换的内容中的某些内容。

如以下将更详细论述的，在图10的方法中，可以通过为合成数据生成包括文本、标记、语法等的X+V文档，来实施将异构数据类型的聚集数据412的每个数据都转换(1202)为包括文本内容和标记的转换的数据1204。X+V的使用是说明性的而非限制性的。实际上，如本领域技术人员所能想到的，在将异构数据类型的聚集数据412的每个数据转换(614)为包括文本内容以及与文本内容关联的标记的转换的数据1204中，可以使用其它标记语言。

图10的用于将异构数据类型的聚集数据412合成(414)为统一数据类型的数据的方法可以包括：为文本内容动态地生成(1206)语法集1216。如上所述，语法是可以口语表达出的一组字、可以口语表达出那些字的模式、或定义被语音识别引擎所识别的语音的其它语言元素。

在图10的方法中，为文本内容动态生成(1206)语法集1216还包括：识别转换的数据1204中决定内容或逻辑结构的关键字1210，并将所识别的关键字包括在与转换的数据关联的语法中。决定内容的关键字是定义数据内容主题和所表示的数据内容的信息的字和短语。决定逻辑结构的关键字是建议表示数据内容信息的形式的关键字。逻辑结构的例子包括版式(typographic)结构、分层结构、关系结构以及如本领域技术人员所能想到的其它逻辑结构。

可以通过在转换的文本中搜索比某一预定义阈值更频繁出现在文本中的字，来实施识别(1208)在转换的数据1204中决定内容的关键字1210。超过该阈值的字出现频率指示该字与转换的文本的内容相关，因为预定阈值被确立为预期不仅仅是偶然出现的使用频率。作为选择，也可以把阈值确立为函数、而不是一个静态值。在这些情况下，可以利用统计测试来动态确立转换的文本中的字出现频率的阈值，该统计测试将转换的文本中的字出现频率与从更大的文集(corpus)统计得到的预期出现频率进行比较。这种更大的文集用作通用语言使用的引用。

可以通过在转换的数据中搜索决定结构的预定义字，来实施识别(1208)转换的数据1204中决定逻辑结构的关键字1210。决定逻辑结构的这种字的例子包括‘引言’、‘内容表’、‘章’、‘节’、‘索引’以及如本领域技术人员所能想到的其它许多字。

在图10的方法中，为文本内容动态生成(1206)语法集1216还包括：根据所识别的关键字1210和语法生成规则1212来生成(1214)语法。语法生成规则是用于产生语法的一组预定义指令和语法形式。可以利用来自转换的数据的脚本框架，如Java服务器页(JavaServer page)、活动服务器页(Active Server Pages)、PHP、Perl、XML，来实施根据所识别的关键字1210和语法生成规则1212来生成(1214)语法。可以在外部存储这种动态生成的语法，并在例如用于引用外部语法的X+V<grammar src＝″″>标签中引用这种动态生成的语法。

图10的用于将异构数据类型的聚集数据412合成(414)为统一数据类型的数据的方法包括：使语法集1216和文本内容关联(1220)。使语法集1216和文本内容关联(1220)包括：把定义所生成的语法的标记1224插入(1218)转换的数据1204中。可以通过生成定义动态生成的语法的标记并将所生成的标记插入转换的文档中，来实施将标记插入(1218)到转换的数据1204中。

图10的方法还包括：使动作420和语法关联(1222)。如上所述，动作是当被执行时实现预定义任务的一组计算机指令。由此使动作420和语法关联(1222)提供了动作的语音启动，使得响应对语法的一个或多个字或短语的识别来调用关联的动作。

根据合成数据来识别动作

如上所述，异构数据类型的数据管理和数据呈现包括：根据合成数据来识别动作。为进一步说明，图11阐述了示出用于根据合成数据416来识别动作的示范性方法的流程图，该示范性方法包括：接收(616)用户指令620并根据合成数据416和该用户指令来识别动作。在图11的方法中，可以通过从动作列表中检索动作标识(ID)来实施识别动作。在图11的方法中，从动作列表中检索动作ID包括：根据用户指令和合成数据来从列表中检索将要执行的动作的标识(“动作ID”)。例如，可以把动作列表实现为Java列表容器、随机存储器中的表、存储在硬盘驱动器或只读光盘(CD ROM)上的结构化查询语言(SQL)数据库表，以及按本领域技术人员所能想到的其它方式来实施动作列表。如上所述，动作本身包括软件，因此可以被实现为具体动作类，例如包含在编译时导入数据管理和数据呈现模块中的Java包中的具体动作类，因此在运行期间这些具体动作类总是可用。

在图11的方法中，接收(616)用户指令620包括：从用户接收(1604)语音1502，将语音1502转换(1506)为文本1508；根据文本1508和语法1510来确定(1512)用户指令620，并根据文本1508和语法1510来确定(1602)用户指令620的参数1604。如以上参考图4所论述的，用户指令是响应用户的动作而接收的事件。用户指令的参数是进一步定义指令的附加数据。例如，用户指令‘删除电子邮件’可能包括参数‘2005年8月11日’，用于定义2005年8月11日的电子邮件是要对其执行用户指令所调用的动作的合成数据。可以通过并入到根据本发明的数据管理和数据呈现模块中的语音识别引擎来实施：从用户接收(1504)语音1502，将语音1502转换(1506)为文本；根据文本1508和语法1510来确定(1512)用户指令620，并根据文本1508和语法1510来确定(1602)用户指令620的参数1604。

根据图11的根据合成数据416来识别动作还包括：响应用户指令620而选择(618)合成数据416。可以通过选择由用户指令620所识别的合成数据，来实施响应用户指令620而选择(618)合成数据416。还可以通过根据用户指令620的参数1604选择合成数据416，来实施选择(618)合成数据416。

可以通过选择合成数据上下文信息1802，来实施响应用户指令620而选择(618)合成数据416。上下文信息是用于描述接收用户指令的上下文的数据，如当前显示的合成数据的状态信息、一天中的时刻、一周中的天、系统配置、合成数据的特性或本领域技术人员所能想到的其它上下文信息。可以有用地改为使用上下文信息，或者把上下文信息和语音中所识别的用户指令的参数相关联而使用。例如，识别出从电子邮件文档转换而来的合成数据当前正在被显示的上下文信息可以用于补充语音用户指令“删除电子邮件”，以便识别要对那个合成数据执行删除邮件动作。

根据图11的方法根据合成数据416来识别动作还包括：根据用户指令620和选择的数据622来选择(624)动作420。可以通过选择由用户指令所识别的动作，来实施根据用户指令620和选择的数据(622)选择动作420。还可以通过根据用户指令620的参数1604选择动作420，以及通过根据上下文信息1802选择动作420，来实施选择(624)动作420。在图11的例子中，通过根据一个或多个用户指令、参数或上下文信息从动作数据库1105中检索动作，来实施选择(624)动作420。

可以利用数据管理和数据呈现模块的动作代理中的switch()语句来实施执行所识别的动作。这种switch()语句可以根据动作ID进行操作，并且例如可以如以下伪代码段所示的那样来实现switch()语句：

Switch(actionID){

Case1:actionNumber1.take_action()；break；

Case2:actionNumber2.take_action()；break；

Case3:actionNumber3.take_action()；break；

Case4:actionNumber4.take_action()；break；

Case5:actionNumber5.take_action()；break；

//and so on

}//end switch()

该示范性switch()语句选择要对合成数据执行的动作，用以根据动作ID来执行。在该例子中，switch()所控制的任务是被命名为actionNumber1、actionNumber2等的具体动作类，每个具体动作类都具有名为‘take_action()’的可执行成员方法，可执行成员方法执行由每个动作类所实现的实际工作。

在这些实施例中，还可以利用数据管理和数据呈现模块的动作代理中的散列表，来实施执行动作。如以下伪代码例子中所示，这种散列表可以存储对动作ID所指定(keyed)的动作对象的引用。在该例子中，首先动作服务生成动作的散列表，它是对与用户指令关联的具体动作类的对象的引用。在许多实施例中，是动作服务来生成这种散列表，用与特定用户指令有关的动作对象的引用来填充该散列表，并将该散列表的引用返回给调用动作代理。

Hashtable ActionHashTable=new Hashtable()；

ActionHashTable.put(″1″,new Action1())；

ActionHashTable.put(″2″,new Action2())；

ActionHashTable.put(″3″,new Action3())；

然后，可以按照以下伪代码来实施执行特定的动作：

Action anAction＝(Action)ActionHashTable.get(″2″)；

If(anAction!＝null)anAction.take_action()；

也可以利用列表来实施执行动作。列表的功用常常类似于散列表。例如，可以按照以下伪代码来实施执行特定的动作：

List ActionList＝new List()；

ActionList.add(1，new Action1())；

ActionList.add(2，new Action2())；

ActionList.add(3，new Action3())；

然后，可以按照以下伪代码来实施执行特定的动作：

Action anAction＝(Action)ActionList.get(2)；

If(anAction!＝null)anAction.take_action()；

以上三个例子利用switch()语句、散列表和列表对象来说明根据本发明实施例执行动作。这些例子中的switch()语句、散列表和列表对象的使用是说明性的而非限制性的。实际上，如本领域技术人员所能想到的，有多种执行根据本发明实施例的动作的方式，并且所有这些方式都在本发明的范围内。

为进一步说明根据合成数据来识别动作，考虑以下用户指令例子：该用户指令识别动作、动作的参数、以及将要对其执行动作的合成数据。用户当前正在观看从电子邮件转换而来的合成数据，并发出以下语音指令：“删除2005年8月15日的电子邮件”。在当前例子中，通过以下方式来实施根据合成数据识别动作：根据用户指令来选择用于删除合成数据的动作；识别删除电子邮件动作的参数，该参数确定只有一个电子邮件要删除；以及响应用户指令而选择从2005年8月15日的电子邮件转换而来的合成数据。

为进一步说明根据合成数据来识别动作，考虑以下用户指令例子，该用户指令不具体确定将要对其执行动作的合成数据。用户当前正在观看从一系列电子邮件转换而来的合成数据，并发出以下语音指令：“删除当前电子邮件”。在当前例子中，通过根据用户指令而选择用于删除合成数据的动作，来实施根据合成数据识别动作。然而，根据使用上下文信息的以下数据选择规则，来实施该例子中的选择将要对其执行动作的合成数据。

如果合成数据被显示；

则合成数据是“当前的”；

如果合成数据包括电子邮件类型代码；

则合成数据是电子邮件。

以上的示范性数据选择规则识别：如果合成数据被显示、则所显示的合成数据是‘当前的’；如果合成数据包括电子邮件类型代码，则合成数据是电子邮件。上下文信息用于识别从电子邮件转换而来的并带有电子邮件类型代码的当前显示的合成数据。因此，将数据选择规则应用于示范性用户指令“删除当前电子邮件”导致了删除具有电子邮件类型代码的当前显示的合成数据。

对合成数据进行通道化

如上所述，异构数据类型的数据管理和数据呈现常常包括对合成数据进行通道化。对合成数据416进行通道化有利地导致将合成数据分割成逻辑通道。通道被实现为合成数据的逻辑聚积，该逻辑聚积共享具有相似特性的公共属性。这种通道的例子是，用于与娱乐相关的合成数据的‘娱乐通道’、用于与工作相关的合成数据的‘工作通道’、用于与用户家庭相关的合成数据的‘家庭通道’等。

因此，为进一步说明，图12阐述了示出根据本发明实施例对合成数据(416)进行通道化(422)的示范性方法的流程图，该示范性方法包括识别(802)合成数据的属性804。合成数据的属性804是可以用于表征合成数据416的数据的各方面。示范性属性804包括数据类型、数据中存在的元数据、数据的逻辑结构、数据内容中特定关键字的存在、数据源、生成数据的应用、源的URL、作者、主题、所生成的数据等。可以通过将合成数据的内容804和预定义属性的列表进行比较，来实施识别(802)合成数据的属性804。识别合成数据的属性804的另一种方式可以通过以下来实施：把与合成数据804关联的元数据和预定义属性的列表进行比较。

图12的对合成数据416进行通道化(422)的方法还包括：表征(characterizing)(808)合成数据的属性804。可以通过评价被识别的合成数据的属性，来实施表征合成数据的属性804。评价所识别的合成数据的属性可以包括，将表征规则806应用于所识别的属性。为进一步说明，考虑以下表征规则：

如果合成数据是电子邮件；且

如果电子邮件发往“Joe”；且

如果电子邮件来自“Bob”；

则电子邮件是‘工作电子邮件’。

在以上例子中，表征规则指出：如果合成数据是电子邮件且如果电子邮件发往“Joe”且如果电子邮件发自“Bob”，则示范性电子邮件被表征为‘工作电子邮件’。

此外，可以通过为每个所识别的属性生成一个代表所识别的属性的表征的特征标签，来实施表征(808)合成数据属性804。为进一步说明，考虑以下从其中插入了特征标签的电子邮件转换而来的合成数据的例子。

<head>

original message type＝‘email’to＝‘joe’from＝‘bob’re＝‘我明天将

迟到’</head>

Characteristic＝‘工作’

<body>

一些主体内容

</body>

在以上例子中，合成数据是从由‘Bob’发给Joe的电子邮件转换而来的，该电子邮件具有包括文本‘明天我将迟到’的主题行。在以上例子中，<characteristic>标签识别具有‘工作’值的特征字段，该‘工作’值将电子邮件表征为与工作相关。特征标签通过识别可用于对数据进行通道化的数据特征来帮助对合成数据进行通道化。

图12的对合成数据416进行通道化(422)的方法还包括：根据表征的属性810和通道分配规则812来把数据分配(814)给预定通道816。通道分配规则812是用于根据表征的属性810来将合成数据416分配到通道中的预定指令。为进一步说明，考虑以下通道分配规则：

如果合成数据是‘电子邮件’；且

如果表征为‘工作相关电子邮件’；

则通道为‘工作通道’。

在以上例子中，如果合成数据是从电子邮件转换而来的且如果该电子邮件被表征为‘工作相关电子邮件’，则把合成数据分配给‘工作通道’。

也可以根据用户偏爱以及如本领域技术人员所能想到的其它因素，来实施将数据分配(814)给预定通道816。用户偏爱是用户对于配置的选择的集合，且常常被保持在和商业逻辑分开的数据结构中。用户偏爱提供用于根据本发明对合成数据进行通道化的附加粒度。

在某些通道分配规则812下，可以把合成数据416分配给多个通道816。即，相同的合成数据实际上可应用于多个通道。因此，可以对合成数据的单个部分多次实施将数据分配(814)给预定通道816。

图12的对合成数据416进行通道化(422)的方法还可以包括：通过一个或多个通道816向用户表示(426)合成数据416。通过一个或多个通道816向用户表示(426)合成数据416的一种方式可以通过以下来实施：在用户界面中表示可用通道的摘要或标题，以允许用户访问那些通道的内容。可以通过这种表示来访问这些通道，以便访问合成数据416。另外，通过显示或播放通道中所包含的合成数据416，来通过选择的通道向用户附加地表示合成数据。

用于对合成数据进行语音呈现的动态韵律调节

如上所述，常常根据合成数据来识别和执行动作。可用在异构数据类型的数据管理和数据呈现中的一个这种动作包括：向用户表示合成数据。可以通过对合成数据进行语音呈现来实施向用户表示合成数据，这有利地导致了用户访问合成数据的改善。对合成数据进行语音呈现允许提高常常在以下环境下访问合成数据的用户灵活性：在这些环境下，访问数据的视觉方法可能麻烦。访问数据的视觉方法可能是麻烦的环境的例子包括：在诸如火车或者汽车等的拥挤或不舒适的场所工作、从事诸如步行或者驾驶等的需要视觉上专注的活动、以及如本领域技术人员所能想到的其它环境。

因此，为进一步说明，图13阐述了示出对合成数据进行语音呈现的示范性方法的流程图，该示范性方法包括检索将要语音呈现的合成数据。如以上参考图3所论述的，可以通过从本地存储器中检索合成数据，例如从合成数据仓库中检索合成数据，来实施根据图13的方法检索(304)将要语音呈现的合成数据302。合成数据仓库是合成数据的数据存储器。

将要语音呈现的合成数据302是来自异构数据源的并已被合成为合成数据的聚集数据。合成数据的统一格式通常是一种被设计用来支持语音呈现的格式，如XHTML加语音(X+V)格式。如上所述，X+V是一种网络标记语言，用于利用语音标记来支持表示层中的语音，由此开发多模应用。X+V由三个主要标准组成：XHTML、VoiceXML和XML事件。

图13的对合成数据进行语音呈现的示范性方法还包括：为将要语音呈现的合成数据302识别(308)特定的韵律设置。韵律设置是一个或多个个性设置的集合，所述个性设置用于控制由语音引擎所实现的独特语音特征，如音节重音、声调和口语定时的变化，字间音调、语速、语音响度和停顿持续时间的变化，以及如本领域技术人员所能想到的其它独特语音特征。可以把韵律设置实现为将要呈现的合成数据中的文本和标记，实现为配置文件中的设置，或者用本领域技术人员所能想到的其它任何方式来实施韵律设置。通常，按照为语音合成标记语言而颁布的标准，如由环球网联盟所颁布的语音合成标记语言(“SSML”)、Java语音API标记语言规范(JSML)以及本领域技术人员所能想到的其它标准，用这些语音合成标记语言来实现被实现为文本和标记的韵律设置。韵律设置通常由个性语音属性组成，但是也可以把韵律设置选择为被称为语音的个性语音属性的命名集合。支持语音合成标记语言的语音合成引擎常常提供通用语音，该通用语音基于性别和年龄的模仿语音类型。这种语音合成引擎通常还支持定制语音的生成。语音合成引擎按照如上所述的韵律设置对文本进行语音呈现。这种语音合成引擎的例子包括：例如IBM的ViaVoice文本到语音(ViaVoice Text-to-speech)、Acapela多媒体TTS(Acapela Multimedia TTS)、AT&T NaturalVoices ^TM文本到语音引擎，以及如本领域技术人员所能想到的其它语音合成引擎。

可以用多种方式来实施识别(308)特定的韵律设置。例如，可以通过以下方式来实施识别(308)特定的韵律设置：从将要语音呈现的合成数据302中检索韵律标识；根据用户指令来识别特定韵律；根据用户韵律历史记录来选择特定韵律设置；以及确定用户的当前语音特征，并根据用户当前语音特征来选择特定韵律设置。以下参考图14A至14D，来更详细论述上述为将要语音呈现的合成数据302识别特定韵律设置的每一种方法。

图13的对合成数据进行语音呈现的方法还包括：根据将要语音呈现的合成数据302和上下文信息306，来确定(312)将要呈现的合成数据段314。合成数据段是直到且包括全部合成数据的合成数据的任何一小部分或子元素，包括：例如合成数据中的单个合成电子邮件；合成数据中的RSS摘要的头两行；来自合成数据中的RSS摘要的单个项目；来自RSS摘要的单个项目中包含关键字的两个句子；日历描述的头50个字；合成数据中的每个合成电子邮件的“To(去往)：”、“From(来自)：”、“Subject(主题)：”和“Body(主体)”段的头50个字符；通道中的所有数据(如以上参考图12所描述的)；以及如本领域技术人员所能想到的合成数据其它任何段。

上下文信息(306)是描述其中将要语音呈现合成数据的上下文的数据，例如，当前显示的合成数据的状态信息、一天中的时刻、一周中的天、系统配置、合成数据的特性或本领域技术人员所能想到的其它上下文信息306。上下文信息306常常用于确定要呈现的合成数据段314。例如，描述便携式计算机上下文的上下文信息识别出便携式计算机的盖子当前是闭合的。该上下文信息可用于确定将要语音呈现的且适于当前上下文的合成数据段。例如，与便携式计算机盖子打开时包括“To：”行、“From：”行、“Subject：”行、“Data Received(接收数据)：”行、“Priority(优先级)：”行和内容的整个合成电子邮件相反，这种段可以只包括合成数据中每一合成电子邮件的“From:”行和内容。

如以下将参考图15更详细论述的，根据将要语音呈现的合成数据302和上下文信息306来确定(312)将要呈现的合成数据段314例如可以包括：确定其中将要语音呈现合成数据的上下文信息306；根据上下文信息306来识别段长度；以及根据所识别的段长度来选择要呈现的合成数据段。

图13的对合成数据进行语音呈现的方法还包括：根据所识别的特定韵律设置310来呈现(316)合成数据段314。可以通过按照所识别的特定韵律设置314把合成数据段314内容作为语音进行播放，来实施根据所识别的特定韵律设置310呈现(316)合成数据段314。可以采用适于被呈现的段以及其中呈现段的上下文的方式，来向特定用户呈现这种段。

如上所述，对合成数据进行语音呈现常常包括：为将要语音呈现的合成数据302识别(308)特定韵律设置。韵律设置是一个或多个个性设置的集合，所述个性设置用于控制由语音引擎所实现的独特语音特征，如音节重音、声调和口语定时的变化，字间音调、语速、语音响度和停顿持续时间的变化，以及如本领域技术人员所能想到的其它独特语音特征。

因此，为进一步说明，图14A至14D阐述了为将要语音呈现的合成数据302识别(308)特定韵律设置的四种备选示范性方法的流程图。在图14A的方法中，为将要语音呈现的合成数据302识别(308)特定韵律设置包括：从将要语音呈现的合成数据中检索韵律标识318。这种韵律标识318可以包括：用在呈现合成数据中的个性语音属性的指定，在对合成数据进行语音呈现中将要模仿的语音的指定，语音和个性语音属性的任何组合的指定，或本领域技术人员所能想到的其它韵律标识318。个性语音属性的例子包括速率、音量、音调、范围以及如本领域技术人员所能想到的其它个性语音属性。

合成数据可以包含用于指定韵律标识的文本和标记，韵律标识常常包括个性语音属性。例如，VoiceXML2.0格式(部分地包括X+V格式的VXML版本)支持在韵律元素下个性语音属性的指定。可以用标记标签<prosody>和</prosody>来表示韵律元素，并且可以通过把属性名和对应值包括在<prosody>标签中来指定个性语音属性，如轮廓(contour)、持续时间、音调、范围、速率和音量。VoiceXML2.0格式也支持韵律标识318中所包括的但没有用<prosody>标签来表示的其它个性化语音属性，如由<emphasis>和</emphasis>标记标签表示的重音属性，该重音属性表示应该着重呈现文本。

为进一步说明，考虑以下包含用于实现按照特定韵律对合成数据进行语音呈现的文本和标记的语音支持合成数据的伪代码例子：

<head>

<block>

<prosody速率＝“慢”音量＝“大声”>

头条报道

</prosody>

</block>

</head>

<body>

<h1>地球是圆的</h1>

<p>科学家们现在发现了地球是圆的，而不是平的.</p>

<block>

<prosody速率＝“中等”>

科学家们现在发现了地球是圆的，而不是平的。

</prosody>

</block>

</body>

在以上示范性语音支持合成数据中，通过把文本“头条报道”包括在<title>和</title>标记标签之间，来将该文本表示为标题。通过再次把该文本包括在<block>和</block>标记标签之间，来实现对该文本的语音支持。当用语音支持的浏览器进行呈现时，将把文本“头条报道”语音呈现为模拟语音。利用韵律元素来为将要语音呈现的文本指定个性语音属性。把将受影响的文本“头条报道”放在<prosody速率＝“慢”音量＝“大声”>和</prosody>标记标签之间。通过把短语‘速率＝“慢”’和‘音量＝“大声”’包括在<prosody速率＝“慢”音量＝“大声”>标记标签中，来指定慢速和大音量的个性语音属性。指定‘速率＝“慢”’和‘音量＝“大声”’的个性语音属性将导致以缓慢语速和大音量来呈现文本‘头条报道’。

在以上例子的下一部分中，通过把文本‘地球是圆的’包括在<h1>和</h1>标记标签之间，来把该文本表示为题目。该文本未被语音支持。

在以上例子的下一部分中，通过把文本‘科学家们现在发现了地球是圆的，而不是平的’包括在<p>和</p>标记标签之间，来把该文本表示为一段。通过再次把该文本包括在<block>和</block>标记标签之间，来实现对该文本的语音支持。当用语音支持的浏览器进行呈现时，将把文本‘科学家们现在发现了地球是圆的，而不是平的’语音呈现为模拟语音。利用韵律元素来为将要语音呈现的文本指定个性语音属性。把将受影响的文本‘科学家们现在发现了地球是圆的，而不是平的’放在<prosody速率＝“中等”>和</prosody>标记标签之间。通过把短语‘速率＝“中等”’包括在<prosody速率＝“中等”>中，来指定中等速率的个性语音属性。指定‘速率＝“中等”’的个性语音属性将导致以中等语速来呈现文本‘科学家们现在发现了地球是圆的，而不是平的’。

如以上所指出的，韵律标识318还可以包括在对合成数据进行语音呈现中将要模仿的语音的指定。语音的指定是被封装在一起作为用于模拟被指定语音的‘语音’的个性语音属性集合的指定。语音的指定可以包括在对合成数据进行语音呈现中将要模仿的性别和年龄的指定，性别或年龄指定的变化的指定，性别和年龄组合的变化的制定，以及一组预定义个性属性的名字的指定。

合成数据可以包含用于指定在对合成数据进行语音呈现中将要模仿的语音的文本和标记。例如，Java语音API标记语言(“JSML”)支持在其语音元素下在对合成数据进行语音呈现中将要模仿的语音的指定。JSML是一种基于XML的应用，它定义一组专用元素来标记要口语表达的文本，并定义那些元素的解释、以支持文档的语音呈现。JSML元素集包括由标签<voice>和</voice>来表示的语音元素。通过把语音属性(如‘性别’和‘年龄’)以及语音命名属性(如‘变化’和‘名字’)及对应值包括在<voice>标签中，来实施指定在对合成数据进行语音呈现中将要模仿的语音。

为进一步说明，考虑以下包含用于支持合成数据语音呈现的文本和标记的语音支持合成数据的伪代码例子：

<item>

<block>

<voice性别＝“男”年龄＝“老年成年人”名字＝“Roy”>

头条报道.

</voice>

</block>

</item>

<item>

<block>

<voice性别＝“男”音量＝“中年成年人”>

体育.

</voice>

</block>

</item>

<item>

<block>

<voice性别＝“女性”年龄＝“30”>娱乐.

</voice>

</block>

</item>

在以上示范性语音支持合成数据中，利用<item>和</item>标记标签来表示来自RSS形式摘要的三个项目。在第一项目中，通过把文本‘头条报道’包括在<title>和</title>标记标签之间，来把该文本表示为标题。通过再次把该文本包括在<block>和</block>标记标签之间，来实现该文本的语音支持。当用语音支持浏览器进行呈现时，将把文本‘头条报道’语音呈现为模拟语音。利用语音元素来为将要语音呈现的文本指定语音。把将受影响的文本“头条报道”放在<voice性别＝“男”年龄＝“老年成年人”名字＝“Roy”>和</voice>标记标签之间。通过把短语‘性别＝“男”’和‘年龄＝“老年成年人”’包括在<voice性别＝“男”，年龄＝“老年成年人”名字＝“Roy”>标记标签中，来指定老年成年男人的语音。指定老年成年男人的语音将导致利用预定义的老年成年男人个性语音属性来呈现文本‘头条报道’。<voice性别＝“男”，年龄＝“老年成年人”，名字＝“Roy”>中所包括的短语‘名字＝“Roy”’命名供以后使用的语音设置。

在下一项目中，通过把文本‘体育’包括在<title>和</title>标记标签之间，来把该文本表示为标题。通过再次把该文本包括在<block>和</block>标记标签之间，来实现该文本的语音支持。当用语音支持浏览器进行呈现时，将把文本‘体育’语音呈现为模拟语音。利用语音元素来为将要语音呈现的文本指定语音。把将受影响的文本‘体育’放在<voice性别＝“男”，年龄＝“中年成年人”>和</voice>标记标签之间。通过把短语‘性别＝“男”’和‘年龄＝“中年成年人”’包括在<voice性别＝“男”，年龄＝“中年成年人”>标记标签中，来指定中年成年男人的语音。指定中年成年男人的语音将导致利用预定义的中年成年男人个性语音属性来呈现文本‘体育’。

在以上例子的最后一项中，通过把文本‘娱乐’包括在<title>和</title>标记标签之间，来把该文本表示为标题。通过再次把该文本包括在<block>和</block>标记标签之间，来实现该文本的语音支持。当用语音支持浏览器进行呈现时，将把文本‘娱乐’语音呈现为模拟语音。利用语音元素来为将要语音呈现的文本指定语音。把将受影响的文本‘娱乐’放在<voice性别＝“女”年龄＝“30”>和</voice>标记标签之间。通过把短语‘性别＝“女”’和‘年龄＝“30”’包括在<voice性别＝“女”年龄＝“30”>标记标签中，来指定30岁女人的语音。指定30岁女人的语音将导致利用预定义的30岁女人的个性语音属性来呈现文本‘娱乐’。

现在转到图14B，图14B阐述了识别(308)用于对合成数据进行语音呈现的特定韵律设置的另一示范性方法的流程图。在图14B的方法中，识别(308)特定韵律设置包括：根据用户指令340来识别(342)特定韵律。用户指令是响应用户动作而接收的事件。示范性用户指令包括：接收作为用户利用键盘或小键盘输入按键组合的结果的事件，接收作为来自用户的语音的结果的事件，接收作为利用鼠标在可见显示器上点击图标的结果的事件，接收作为用户在触板上压按图标的结果的事件，或如本领域技术人员所能想到的其它用户指令。

可以通过以下方式来实施根据用户指令340识别(342)特定韵律：接收用户指令，从用户指令340来识别特定韵律设置；以及当呈现合成数据时实现特定韵律设置。例如，当在合成数据的语音呈现期间用户大声说出短语‘快速读’时，可以接收该短语‘快速读’，并将它和语法进行比较，以解释用户指令。匹配的语法可以具有这样的关联动作，即当该关联动作被调用时，它在语音引擎中建立特定的韵律设置‘快’，以命令语音引擎快速呈现合成数据。

现在转到图14C，图14C阐述了识别(308)用于对合成数据进行语音呈现的特定韵律设置的另一示范性方法的流程图。在图14C的方法中，识别(308)特定韵律设置还包括：根据用户韵律历史记录332来选择(338)特定韵律设置336。用户韵律历史记录332通常被实现为包括若干条目的数据结构，这些条目代表用户对合成数据进行语音呈现所使用的不同韵律设置以及其中使用这些不同韵律设置的上下文。其中使用不同韵律设置的上下文包括：在使用供合成数据语音呈现之用的不同韵律设置时周围的环境，如一天中的时刻、一周中的天、一年中的天、被语音呈现的合成数据的原始数据类型等。

用户韵律历史记录可用于在先前没有为合成数据段指定韵律设置的情况下选择韵律设置。因此，可以通过以下方式来实施根据用户韵律历史记录332来选择(338)特定韵律设置336：识别用户韵律历史记录332中最经常使用的韵律设置；并且当没有为合成数据选择其它韵律设置时，把所述最经常使用的韵律设置作为默认的韵律设置应用于合成数据的语音呈现中。

为进一步说明，考虑以下在没有韵律设置的情况下识别供合成数据语音呈现之用的特定韵律设置的例子：

IF ProsodySetting＝none；

AND MostUsedProsodySettingInProsodyHistory＝rate medium；

THEN Render(synthesized data)＝rate medium。

在以上例子中，不存在用于呈现合成数据的韵律设置。记录了韵律设置使用的用户韵律历史记录指示当前最经常使用的韵律设置是中速语音的韵律设置。因为不存在用于对合成数据进行语音呈现的韵律设置，所以利用来自用户韵律历史记录的最经常使用的韵律设置(中速语音)，来对合成数据进行语音呈现。

现在转到图14D，图14D阐述了识别(308)用于对合成数据进行语音呈现的特定韵律设置的另一示范性方法的流程图。在图14D的方法中，识别(308)特定韵律设置还包括：确定(326)用户的当前语音特征328，并根据用户当前语音特征328来选择(330)特定韵律设置310。用户语音特征包括：音节重音的变化、声调、口语定时、字间音调的变化、语速、语音响度和停顿持续时间的变化、以及如本领域技术人员所能想到的其它独特语音特征。

可以通过从用户接收语音并将语音的个性特征与具有关联韵律设置的预定语音模式描述(profile)进行比较，来实施确定(326)用户当前语音特征328。语音模式描述是被转换为值范围的如速率、重音、音量等语音特征的个性方面的集合。这种语音模式描述也具有用于语音描述的关联韵律设置。

如果用户当前语音特征328落入语音模式描述的个性范围内，则确定当前语音特征与语音模式描述相匹配。然后，选择与语音模式描述关联的韵律设置，用以对合成数据段进行语音呈现。

在没有语音模式描述的情况下，也可以通过以下方式来实施根据用户当前语音特征328选择(330)特定韵律设置310：确定语音特征的个性方面，如语速；并选择最接近地匹配用户语音特征的每个对应方面的个性特定韵律设置。换句话说，选择最接近地匹配用户语音的特定韵律设置。

如上所述，根据本发明的对合成数据进行语音呈现还包括：确定要呈现的合成数据段。合成数据段是直到且包括全部合成数据的合成数据的任一小部分或子元素。将要呈现的合成数据段不必是合成数据的连续部分。将要呈现的合成数据段可以包括合成数据的不相邻片断。通常，根据将要呈现的合成数据以及描述其中将要语音呈现合成数据的上下文的上下文信息，来实施确定将要呈现的合成数据段。

为进一步说明，图15阐述了根据将要语音呈现的合成数据302以及关于其中将要语音呈现合成数据的上下文的上下文信息306来确定(312)将要呈现的合成数据段314的示范性方法的流程图。图15的方法包括：确定(350)关于其中将要语音呈现合成数据的上下文的上下文信息306。可以通过从设备上运行的其它进程、从硬件或者从本领域技术人员所能想到的其它任何上下文信息306源接收上下文信息306，来实施确定(350)关于其中将要语音呈现合成数据的上下文的上下文信息(306)。

根据图15的方法确定(312)将要呈现的合成数据段314还包括：根据上下文信息306来识别(354)段长度362。段长度通常被实现为合成内容的数量364，如合成数据的特定字节数、文本的特定行数、文本的特定段数、内容的特定章数、或本领域技术人员所能想到的合成内容的任何其它数量364。

可以通过在段长度表中执行查找，来实施根据上下文信息306识别(354)段长度362，该段长度表包括由上下文以及常常由将要呈现合成数据的原始数据类型所索引的预定段长度。为进一步说明，考虑以下例子：当用户的便携式计算机在用户通常开车去上班的早上8点关闭时，用户说单词‘读电子邮件’。可以通过在上下文信息表中执行查找以选择用于在早上8点阅读合成电子邮件的上下文ID，来实施识别段长度。对于合成电子邮件，所选择的上下文ID具有5行的预定段长度。

可以通过以下方式来实施根据上下文信息306来识别(354)段长度362：根据上下文信息306来识别(356)呈现时间358；并根据韵律设置334和呈现时间358来确定(360)将要呈现的段长度362。呈现时间是指示为呈现合成数据段而分配的时间的值。呈现时间和韵律设置一起确定可以进行语音呈现的内容量。例如，与快语速的韵律设置相比，较慢语速的韵律设置需要较长的呈现时间来对相同数量的内容进行语音呈现。

可以通过在呈现时间表中执行查找，来实施根据上下文信息306识别(356)呈现时间358。这种呈现时间表中的每个条目都具有由韵律设置、上下文信息以及常常由合成数据的原始数据类型所索引的呈现时间。

为进一步说明，考虑呈现时间表的单个条目中所包含的示范性呈现时间表信息：

Prosody_Settings；速率＝慢；

Context_Information；便携式计算机关闭

Native_Data_Type；电子邮件

Rendering_Time；30秒

在以上的示范性呈现时间表条目信息中，当将要呈现的数据的韵律设置为慢语速、便携式计算机关闭、将要呈现的合成数据的原始数据类型是电子邮件时，预先确定30秒的呈现时间用于呈现合成数据段。

根据图15的方法确定(312)将要呈现的合成数据段314还包括：根据所识别的段长度362来选择(366)将要呈现的合成数据段302。这样选择的段是具有所识别的段长度的段。如上所述，段不必是合成数据的连续段长度。将要呈现的合成数据段可以包括合成数据的非相邻段，所述非相邻段一起形成具有所识别段长度的段。

可以通过将段选择规则应用于合成数据，来实施根据所识别的段长度362来选择(366)将要呈现的合成数据段302。段选择规则是控制合成数据的选择以形成用于语音呈现的合成数据段的规则。

为进一步说明，考虑以下的示例段选择规则：

如果合成数据的原始数据类型是电子邮件，

且段长度等于5行，

则选择FROM：行，

且选择头4行内容。

在以上示例段选择规则中，如果合成数据的原始数据类型是电子邮件且段长度为5行，则将要呈现的合成数据段包括：合成电子邮件的‘FROM:’行以及合成电子邮件的头4行内容。

主要在用于管理和呈现异构数据类型的数据的全功能计算机系统的上下文信息下，描述了本发明的示范性实施例。然而，本技术领域的读者应该认识到，也可以在供任何合适数据处理系统使用的信号承载介质上所设置的计算机程序产品中体现本发明。这种信号承载介质可以是传输介质或用于机器可读信息的可记录介质，包括磁介质、光介质或其它合适介质。可记录介质的例子包括：硬盘驱动器中的磁盘或软盘、用于光驱的光盘、磁带，以及本领域技术人员所能想到的其它介质。传输介质的例子包括用于语音通信的电话网以及数字数据通信网络，例如以太网^TM以及与网际协议和环球网进行通信的网络。本领域技术人员应该立即认识到，具有合适编程装置的任何计算机系统都将能够执行如程序产品中体现的本发明方法的步骤。本领域技术人员应该立即认识到，虽然本说明书中所描述的某些示范性实施例是面向安装在计算机硬件上并在计算机硬件上执行的软件，然而，被实现为固件或硬件的备选实施例也在本发明的范围内。

从上述描述应该理解，在不脱离本发明真实精神的情况下、可以对本发明各实施例进行修改和变动。本说明书中的描述仅仅是用于说明性的，而不应被认为是限制性的。本发明的范围仅受以下权利要求的语言所限制。

Claims

1.一种用于对合成数据进行语音呈现的计算机实现的方法，该方法包括：

检索将要语音呈现的合成数据；

为所述将要语音呈现的合成数据识别特定韵律设置；

根据所述将要语音呈现的合成数据以及关于其中将要语音呈现所述合成数据的上下文的上下文信息，来确定将要呈现的合成数据段，其中该确定步骤包括：

确定关于其中将要语音呈现所述合成数据的上下文的所述上

下文信息；

根据所述上下文信息来识别段长度；以及

根据所识别的段长度来选择要呈现的合成数据段；以及

根据所识别的特定韵律设置，来呈现所述合成数据段。

2.根据权利要求1所述的方法，其中为所述将要语音呈现的合成数据识别特定韵律设置进一步包括：从所述将要语音呈现的合成数据中检索韵律标识。

3.根据权利要求1所述的方法，其中为所述将要语音呈现的合成数据识别特定韵律设置进一步包括：根据用户指令来识别特定韵律。

4.根据权利要求1所述的方法，其中为所述将要语音呈现的合成数据识别特定韵律设置进一步包括：根据用户韵律历史记录来选择所述特定韵律设置。

5.根据权利要求1所述的方法，其中为所述将要语音呈现的合成数据识别特定韵律设置进一步包括：

确定用户的当前语音特征；以及

根据所述用户的所述当前语音特征来选择所述特定韵律设置。

6.根据权利要求1所述的方法，其中所述段长度包括合成内容的数量。

7.根据权利要求1所述的方法，其中根据所述上下文信息来识别段长度进一步包括：

根据所述上下文信息来识别呈现时间；以及

根据所述韵律设置和所述呈现时间来确定将要呈现的段长度。

8.一种用于对合成数据进行语音呈现的设备，包括：

用于检索将要语音呈现的合成数据的装置；

用于为所述将要语音呈现的合成数据识别特定韵律设置的装置；

用于根据所述将要语音呈现的合成数据以及关于其中将要语音呈现合成数据的上下文的上下文信息、来确定将要呈现的合成数据段的装置，包括：

用于确定关于其中将要语音呈现所述合成数据的上下文的所述上下文信息的装置；

用于根据所述上下文信息来识别段长度的装置；以及

用于根据所识别的段长度来选择要呈现的合成数据段的装置；以及

用于根据所识别的特定韵律设置，来呈现所述合成数据段的装置。

9.根据权利要求8所述的设备，还包括：用于从所述将要语音呈现的合成数据中检索韵律标识的装置。

10.根据权利要求8所述的设备，还包括：用于根据用户指令来识别特定韵律的装置。

11.根据权利要求8所述的设备，还包括：用于根据用户韵律历史记录来选择所述特定韵律设置的装置。

12.根据权利要求8所述的设备，还包括：

用于确定用户的当前语音特征的装置；以及

用于根据所述用户的所述当前语音特征来选择所述特定韵律设置的装置。

13.根据权利要求8所述的设备，其中所述段长度包括合成内容的数量。

14.根据权利要求8所述的设备，还包括：

用于根据所述上下文信息来识别呈现时间的装置；以及

用于根据所述韵律设置和所述呈现时间来确定将要呈现的段长度的装置。