CN109712605B

CN109712605B - 一种应用于车联网的语音播报的方法及装置

Info

Publication number: CN109712605B
Application number: CN201811645642.1A
Authority: CN
Inventors: 皮碧虹
Original assignee: Shenzhen Tongxingzhe Technology Co ltd
Current assignee: Shenzhen Tongxingzhe Technology Co ltd
Priority date: 2018-12-29
Filing date: 2018-12-29
Publication date: 2021-02-19
Anticipated expiration: 2038-12-29
Also published as: CN109712605A

Abstract

本发明提供了一种应用于车联网的语音播报的方法及装置，所述方法包括：接收语音播报指令；根据所述指令中的播报内容，判断是否存在于本地缓存；若存在于本地缓存，则直接播报缓存中对应内容；若所述播报内容不存在于缓存，则继续判断车联网使用场景是否为固定反馈类场景、或特定本地场景、或云端场景；根据所述车联网使用场景不同，对应地使用不同的语音合成模式进行播报、并将对应的播报数据进行缓存。本发明解决了现有技术无法结合车联网的使用场景，在不同场景下使用不同的语音合成模式进行播报的问题，并实现提升语音自然度、以及降低了功耗。

Description

一种应用于车联网的语音播报的方法及装置

技术领域

本发明属于车联网技术领域，尤其涉及一种应用于车联网的语音播报的方法及装置。

背景技术

目前在车联网技术领域，播报语音的合成技术主要有离线合成方式与在线合成方式。语音离线合成方式的主要优点是不需要网络支持，可直接在设备端合成需要播报的语音；其不足主要有：1)支持的组词发音有限；2)依赖本地标注和终端运算器/存储资源能力限制；3)算法模型基于单一码率构建，音质难以保证；4)算法需要占用设备端较多的资源消耗，可能出现语音播报卡顿。语音在线合成方式的主要优点有：1)模型标注在云端，可以快速迭代更新词库和标注；2)依赖云服务的强大计算能力，带入播报语音的用户场景，提升语音的自然度；3)可实现高品质码率、语音高保真；其不足主要是网络传输带来的不确定性，有额外的流量消耗以及传输导致的语音播报延迟或抖动。

基于离线合成和在线合成的特点，由于车联网的移动网络环境存在一定的波动，目前车联网设备采用的语音合成主要是离线语音合成。现有技术无法结合车联网的使用场景，在不同场景下使用不同的语音合成模式进行播报。

发明内容

鉴于此，本发明实施例提供了一种应用于车联网的语音播报的方法及装置，以解决现有技术无法结合车联网的使用场景，在不同场景下使用不同的语音合成模式进行播报的问题，并实现提升语音自然度、以及降低了功耗。

第一方面，提供了一种应用于车联网的语音播报的方法，所述方法包括：

接收语音播报指令；

根据所述指令中的播报内容，判断是否存在于本地缓存；

若存在于本地缓存，则直接播报缓存中对应内容；

若所述播报内容不存在于缓存，则继续判断车联网使用场景是否为固定反馈类场景、或特定本地场景、或云端场景；

根据所述车联网使用场景不同，对应地使用不同的语音合成模式进行播报、并将对应的播报数据进行缓存。

进一步地，所述根据所述车联网使用场景不同，对应地使用不同的语音合成模式进行播报、并将对应的播报数据进行缓存具体包括：

若所述车联网使用场景为固定反馈类场景，则直接使用内置录音、并判断该内置录音是否经过压缩或编码；

若该内置录音未经过压缩或编码，则直接播报录音；

若该内置录音经过压缩或编码，则对该内置录音进行解压或解码，同时边解码边播报，在播报完成或播报过程中将解码后的播报数据进行缓存。

进一步地，所述根据所述车联网使用场景不同，对应地使用不同的语音合成模式进行播报、并将对应的播报数据进行缓存具体还包括：

若所述车联网使用场景为特定本地场景，则对所述指令中的播报内容进行拆解；

对播报内容中的非变量部分则直接使用内置录音、播报录音；

对播报内容中的变量部分则采用离线合成方式或在线合成方式、进行语音播报，并且在使用在线合成方式时将导入变量部分的播报数据进行缓存。

若所述车联网使用场景为云端场景，则对所述指令中的播报内容进行云端合成，使用在线合成方式按流式传输将语音回传并进行播报；在播报过程中采用动态码率，根据实时计算的网络带宽、实时调整传输码率和压缩比；并且在在线合成方式完整合成语音时将播报数据进行缓存。

进一步地，所述在播报过程中采用动态码率，根据实时计算的网络带宽、实时调整传输码率和压缩比具体包括：

判断网络带宽是否充足稳定；

当判定出网络带宽充足稳定时，使用较高的传输码率、以及损失率较低的有损压缩或无损压缩；

当判定出网络带宽不足时，使用较低的传输码率、以及损失率较高的有损压缩；

当判定出网络带宽严重不足或出现异常时，中断在线合成方式、自动切换到离线合成方式。

第二方面，提供了一种应用于车联网的语音播报的装置，所述装置包括：

指令接收模块，用于接收语音播报指令；

缓存判断模块，用于根据所述指令中的播报内容，判断是否存在于本地缓存；

缓存播报模块，用于若存在于本地缓存，则直接播报缓存中对应内容；

使用场景判断模块，用于若所述播报内容不存在于缓存，则继续判断车联网使用场景是否为固定反馈类场景、或特定本地场景、或云端场景；

语音播报及缓存模块，用于根据所述车联网使用场景不同，对应地使用不同的语音合成模式进行播报、并将对应的播报数据进行缓存。

进一步地，所述语音播报及缓存模块具体包括：

内置录音使用及判断模块，用于若所述车联网使用场景为固定反馈类场景，则直接使用内置录音、并判断该内置录音是否经过压缩或编码；

内置录音直接播报模块，用于若该内置录音未经过压缩或编码，则直接播报录音；

内置录音解码及缓存模块，用于若该内置录音经过压缩或编码，则对该内置录音进行解压或解码，同时边解码边播报，在播报完成或播报过程中将解码后的播报数据进行缓存。

进一步地，所述语音播报及缓存模块具体还包括：

内容拆解模块，用于若所述车联网使用场景为特定本地场景，则对所述指令中的播报内容进行拆解；

非变量部分播报模块，用于对播报内容中的非变量部分则直接使用内置录音、播报录音；

变量部分播报及缓存模块，用于对播报内容中的变量部分则采用离线合成方式或在线合成方式、进行语音播报，并且在使用在线合成方式时将导入变量部分的播报数据进行缓存。

进一步地，所述语音播报及缓存模块具体还包括：

云端合成模块，用于若所述车联网使用场景为云端场景，则对所述指令中的播报内容进行云端合成；

云端语音播报及缓存模块，用于使用在线合成方式按流式传输将语音回传并进行播报，在播报过程中采用动态码率，根据实时计算的网络带宽、实时调整传输码率和压缩比；并且在在线合成方式完整合成语音时将播报数据进行缓存。

进一步地，所述云端语音播报及缓存模块具体还包括：

网络带宽判断单元，用于判断网络带宽是否充足稳定；

第一传输码率和压缩比调整单元，用于当判定出网络带宽充足稳定时，使用较高的传输码率、以及损失率较低的有损压缩或无损压缩；

第二传输码率和压缩比调整单元，用于当判定出网络带宽不足时，使用较低的传输码率、以及损失率较高的有损压缩；

中断及切换单元，用于当判定出网络带宽严重不足或出现异常时，中断在线合成方式、自动切换到离线合成方式。

与现有技术相比，本发明实施例通过对语音播报指令中的播报内容，判断是否有存在于本地缓存，如果有则直接播报本地缓存中的内容；如果无则根据所述车联网使用场景不同，对应地使用不同的语音合成模式进行播报、并将对应的播报数据进行缓存，使得历史有过语音合成的记录可直接播报，避免再次合成的资源消耗；本发明提出了一种新的应用于车联网的语音合成方式，实现了结合车联网的使用场景，在不同场景下使用不同的语音合成模式进行播报，提升了语音自然度并且降低了功耗。

附图说明

图1是本发明实施例提供的一种应用于车联网的语音播报的方法的实现流程图。

图2是本发明实施例提供的一种应用于车联网的语音播报的装置的组成结构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明实施例通过对语音播报指令中的播报内容，判断是否有存在于本地缓存，如果有则直接播报本地缓存中的内容；如果无则根据所述车联网使用场景不同，对应地使用不同的语音合成模式进行播报、并将对应的播报数据进行缓存，使得历史有过语音合成的记录可直接播报，避免再次合成的资源消耗；本发明提出了一种新的应用于车联网的语音合成方式，实现了结合车联网的使用场景，在不同场景下使用不同的语音合成模式进行播报，提升了语音自然度并且降低了功耗。本发明实施例还提供了相应的装置，以下分别进行详细的说明。

图1示出了本发明实施例提供的一种应用于车联网的语音播报的方法的实现流程图。

在本发明实施例中，所述应用于车联网的语音播报的方法还可以应用于其它任何设备、或任何软件中需要语音合成、语音播报的场景。

参阅图1，所述应用于车联网的语音播报的方法包括：

在步骤S1中，接收语音播报指令。

在步骤S2中，根据所述指令中的播报内容，判断是否存在于本地缓存。

在步骤S3中，若存在于本地缓存，则直接播报缓存中对应内容。

本发明具体实施时，为车联网设备进行语音交互过程中，需要进行语音播报时，接收到语音播报的相关指令，判定播报内容是否存在于本地缓存，当存在缓存时，直接使用播报缓存中的内容，直接缓存播报降低了设备性能消耗、并且快速给出播报响应，结束播报。

在步骤S4中，若所述播报内容不存在于缓存，则继续判断车联网使用场景是否为固定反馈类场景、或特定本地场景、或云端场景。

本发明具体实施时，若播报内容不存在于本地缓存时，对车联网设备的语音交互场景进行判定：是否为固定反馈类场景、或特定本地场景、或云端场景。

具体地，固定反馈类场景如本地的功能性语音指令，譬如“打开空调->将为您打开空调”、“关闭网络->将为您关闭网络”等语音指令，这类语音场景的特征是：场景有限，本地固定化的功能数量有限，并且反馈语也是固定的。

具体地，特定本地场景如本地的语音拨号功能，区别于固定反馈类场景，固定反馈类场景是不带任何的用户变量信息，并且在出厂前已经预知。而本地的语音拨号功能则包含用户通讯录信息，这在设备生产或出厂时是不可预知的。

具体地，云端场景是通过云端返回语音播报的内容，如语音查询当前的股票信息，股票信息是实时变化的，股票的数据必须来源于云端。

在步骤S5中，根据所述车联网使用场景不同，对应地使用不同的语音合成模式进行播报、并将对应的播报数据进行缓存。

本发明具体实施时，根据三种车联网使用场景不同，给出对应的三种处理模式。并且各种模式下为保持一致体验，则可以使用同一个发音人的录音模型，也可以根据不同的使用场景采用不同的发音人录音模型。

具体地，当车联网使用场景为固定反馈类场景时，执行以下步骤：

S501、若所述车联网使用场景为固定反馈类场景，则直接使用内置录音、并判断该内置录音是否经过压缩或编码。

S502、若该内置录音未经过压缩或编码，则直接播报录音。

S503、若该内置录音经过压缩或编码，则对该内置录音进行解压或解码，同时边解码边播报，在播报完成或播报过程中将解码后的播报数据进行缓存。具体实施时，缓存的目的是当下次需要播报时，可以快速的使用缓存进行播报。

S504、结束播报。

具体地，当车联网使用场景为特定本地场景时，执行以下步骤：

S511、若所述车联网使用场景为特定本地场景，则对所述指令中的播报内容进行拆解。

S512、对播报内容中的非变量部分则直接使用内置录音、播报录音。

S513、对播报内容中的变量部分则采用离线合成方式或在线合成方式、进行语音播报，并且在使用在线合成方式时将导入变量部分的播报数据进行缓存。缓存的目的是当下次需要播报时，可以快速的使用缓存进行播报。

S514、结束播报。

在车联网的特定本地场景下，结合使用语音离线合成方式和语音在线合成方式，使得语音播报自然度体验达到最佳。并且变量部分语音在变量导入时使用在线合成方式缓存在本地，无需再使用离线合成引擎，以获得更高的性能和自然度体验，如在同步用户通讯录时，直接将联系人名单全部合成并缓存一份。如果通过在线合成方式失败、保存缓存失败时，可以继续使用离线合成方式播报语音。在播报完成或播报过程中将解码后的播报数据缓存，当下次需要播报时，可以快速的使用缓存进行播报。本发明的技术方案充分考虑了用户变量的特定语境场景，通过将变量在云端进行预合成，并在本地缓存，采用的合成缓存模式，使历史有过合成的记录可直接播报，避免再次合成的资源消耗。

具体地，当车联网使用场景为云端场景时，执行以下步骤：

S521、若所述车联网使用场景为云端场景，则对所述指令中的播报内容进行云端合成。

S522、使用在线合成方式按流式传输将语音回传并进行播报；在播报过程中采用动态码率，根据实时计算的网络带宽、实时调整传输码率和压缩比；并在在线合成方式完整合成语音时将播报数据进行缓存。具体实施时，从云端将合成语音回传给车联网设备客户端进行播报，同时设备客户端计算实时网络带宽，并根据网络带宽实时调整传输码率和压缩比。

S523、结束播报。

在本发明具体实施时，在播报过程中采用动态码率，根据实时计算的网络带宽、实时调整传输码率和压缩比过程中，具体还包括以下步骤：

S5221、判断网络带宽是否充足稳定。

S5222、当判定出网络带宽充足稳定时，使用较高的传输码率、以及损失率较低的有损压缩或无损压缩。

S5223、当判定出网络带宽不足时，使用较低的传输码率、以及损失率较高的有损压缩。

S5224、当判定出网络带宽严重不足或出现异常时，中断在线合成方式、自动切换到离线合成方式。

在车联网的云端场景下，其在线合成方式采用了动态码率，根据网络环境实时对传输码率和压缩比做出调整，在网络带宽不足时还可以切换到语音离线合成方式保证语音播报的流畅度；并且采用合成缓存模式，使历史有过合成的记录可直接播报，避免再次合成的资源消耗。并且有效地提升了车联网媒体网络带宽的利用率，不浪费用户的流量，同时获得流畅的语音播放体验。

综上所述，本发明实施例通过对语音播报指令中的播报内容，判断是否有存在于本地缓存，如果有则直接播报本地缓存中的内容；如果无则根据所述车联网使用场景不同，对应地使用不同的语音合成模式进行播报、并将对应的播报数据进行缓存，使得历史有过语音合成的记录可直接播报，避免再次合成的资源消耗；本发明提出了一种新的应用于车联网的语音合成方式，实现了结合车联网的使用场景，在不同场景下使用不同的语音合成模式进行播报，提升了语音自然度并且降低了功耗。

应理解，在上述实施例中，各步骤的序号的大小并不意味着执行顺序的先后，各步骤的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

图2示出了本发明实施例提供的一种应用于车联网的语音播报的装置的组成结构图，为了便于说明，仅示出了与本发明实施例相关的部分。

在本发明实施例中，所述装置用于实现上述图1实施例中所述的应用于车联网的语音播报的装置，可以是内置于任何车联网设备、或计算机、或服务器的软件单元、硬件单元或者软硬件结合的单元。

参阅图2，所述装置包括：

指令接收模块21，用于接收语音播报指令；

缓存判断模块22，用于根据所述指令中的播报内容，判断是否存在于本地缓存；

缓存播报模块23，用于若存在于本地缓存，则直接播报缓存中对应内容；

使用场景判断模块24，用于若所述播报内容不存在于缓存，则继续判断车联网使用场景是否为固定反馈类场景、或特定本地场景、或云端场景；

语音播报及缓存模块25，用于根据所述车联网使用场景不同，对应地使用不同的语音合成模式进行播报、并将对应的播报数据进行缓存。

进一步地，所述语音播报及缓存模块具体包括：

进一步地，所述语音播报及缓存模块具体还包括：

进一步地，所述云端语音播报及缓存模块具体还包括：

网络带宽判断单元，用于判断网络带宽是否充足稳定；

需要说明的是，本发明实施例中的装置可以用于实现上述方法实施例中的全部技术方案，其各个功能模块的功能可以根据上述方法实施例中的方法具体实现，其具体实现过程可参照上述实例中的相关描述，此处不再赘述。

综上所述，本发明实施例通过对语音播报指令中的播报内容，判断是否有存在于本地缓存，如果有则直接播报本地缓存中的内容；如果无则根据所述车联网使用场景不同，对应地使用不同的语音合成模式进行播报、并将对应的播报数据进行缓存，使得历史有过语音合成的记录可直接播报，避免再次合成的资源消耗。

本发明的技术方案充分考虑了用户变量的特定语境场景，通过将变量在云端进行预合成，并在本地缓存，采用的合成缓存模式，使历史有过合成的记录可直接播报，避免再次合成的资源消耗。

进一步地，在车联网的云端场景下，其在线合成方式采用了动态码率，根据网络环境实时对传输码率和压缩比做出调整，在网络带宽不足时还可以切换到语音离线合成方式保证语音播报的流畅度；并且采用合成缓存模式，使历史有过合成的记录可直接播报，避免再次合成的资源消耗。并且有效地提升了车联网媒体网络带宽的利用率，不浪费用户的流量，同时获得流畅的语音播放体验。

本发明提出的一种新的应用于车联网的语音合成方式，实现了结合车联网的使用场景，在不同场景下使用不同的语音合成模式进行播报，提升了语音自然度并且降低了功耗。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法及装置，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块、单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元、模块单独物理存在，也可以两个或两个以上单元、模块集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种应用于车联网的语音播报的方法，其特征在于，所述方法包括：

接收语音播报指令；

根据所述指令中的播报内容，判断是否存在于本地缓存；

若存在于本地缓存，则直接播报缓存中对应内容；

根据所述车联网使用场景不同，对应地使用不同的语音合成模式进行播报、并将对应的播报数据进行缓存；

2.如权利要求1所述的应用于车联网的语音播报的方法，其特征在于，所述根据所述车联网使用场景不同，对应地使用不同的语音合成模式进行播报、并将对应的播报数据进行缓存具体包括：若所述车联网使用场景为固定反馈类场景，则直接使用内置录音、并判断该内置录音是否经过压缩或编码；

若该内置录音未经过压缩或编码，则直接播报录音；

3.如权利要求1所述的应用于车联网的语音播报的方法，其特征在于，所述根据所述车联网使用场景不同，对应地使用不同的语音合成模式进行播报、并将对应的播报数据进行缓存具体还包括：

4.如权利要求3所述的应用于车联网的语音播报的方法，其特征在于，所述在播报过程中采用动态码率，根据实时计算的网络带宽、实时调整传输码率和压缩比具体包括：

判断网络带宽是否充足稳定；

5.一种应用于车联网的语音播报的装置，其特征在于，所述装置包括：

指令接收模块，用于接收语音播报指令；

语音播报及缓存模块，用于根据所述车联网使用场景不同，对应地使用不同的语音合成模式进行播报、并将对应的播报数据进行缓存；

所述语音播报及缓存模块具体包括：

6.如权利要求5所述的应用于车联网的语音播报的装置，其特征在于，所述语音播报及缓存模块具体包括：

7.如权利要求5所述的应用于车联网的语音播报的装置，其特征在于，所述语音播报及缓存模块具体还包括：

8.如权利要求7所述的应用于车联网的语音播报的装置，其特征在于，所述云端语音播报及缓存模块具体还包括：

网络带宽判断单元，用于判断网络带宽是否充足稳定；