CN114220421B

CN114220421B - 字级别的时间戳的生成方法、装置、电子设备和存储介质

Info

Publication number: CN114220421B
Application number: CN202111547980.3A
Authority: CN
Inventors: 范红亮; 李轶杰; 梁家恩
Original assignee: Unisound Intelligent Technology Co Ltd
Current assignee: Unisound Intelligent Technology Co Ltd
Priority date: 2021-12-16
Filing date: 2021-12-16
Publication date: 2025-02-07
Anticipated expiration: 2041-12-16
Also published as: CN114220421A

Abstract

本申请涉及一种字级别的时间戳的生成方法、电子设备和存储介质，该方法包括：在逐帧解码过程中，确定每个字的概率峰值；根据每个字的概率峰值确定每个字的尾端点对应的时间；根据每个字的尾端点对应的时间确定每个字的首端点对应的时间；根据每个字的首端点对应的时间和每个字的尾端点对应的时间生成字级别的时间戳。本申请通过基于深度神经网络的输出分数，以及解码过程中输出每个字时打分的变化规律，确定每个字的概率峰值，根据每个字的概率峰值确定每个字的首端点对应的时间和每个字的尾端点对应的时间，提供了获取字级别时间戳的方法，能够输出字级别上精确的时间戳信息，从而得到高精度的边界信息，提升了用户体验。

Description

字级别的时间戳的生成方法、装置、电子设备和存储介质

技术领域

本申请涉及时间戳技术领域，特别是涉及一种字级别的时间戳的生成方法、装置、电子设备和存储介质。

背景技术

传统基于kaldi的语音识别系统能够基于网格得到每个词的边界信息。而目前业界流行的端到端语音识别系统，虽然在识别率方面，超过了传统系统，但是很多没有提供时间戳信息，或者只是给出了很粗糙的时间戳如直接根据神经网络打分判断词的边界信息，目前还没有一套相对成熟的算法能够获得每个字的时间戳信息。

发明内容

基于当前一套相对成熟的算法能够获得每个字的时间戳信息的问题，本申请提供一种字级别的时间戳的生成方法、电子设备和存储介质。

第一方面，本申请实施例提供一种字级别的时间戳的生成方法，包括：

在逐帧解码过程中，确定每个字的概率峰值；

根据每个字的概率峰值确定每个字的尾端点对应的时间；

根据每个字的尾端点对应的时间确定每个字的首端点对应的时间；

根据每个字的首端点对应的时间和每个字的尾端点对应的时间生成字级别的时间戳。

进一步地，上述一种字级别的时间戳的生成方法中，根据每个字的概率峰值确定每个字的尾端点对应的时间，包括：

比较每个字的概率峰值与每个字的当前概率值；

若比较结果为每个字的概率峰值与每个字的当前概率值之差大于等于预设阈值；

确定当前概率值对应的时间为尾端点对应的时间。

若当前字持续结束后，是一段静音片段，且每个字的概率峰值与每个字的当前概率值之差小于预设阈值；

将每个字的概率峰值对应的时间往后延第一预设时间，确定每个字的尾端点对应的时间。

进一步地，上述一种字级别的时间戳的生成方法中，每个字的尾端点确定每个字的首端点对应的时间，包括：

将每个字的尾端点对应的时间往前延第二预设时间，确定每个字的首端点对应的时间。

进一步地，上述一种字级别的时间戳的生成方法，还包括：

根据每个字的概率峰值确定每个字的首端点对应的时间。

进一步地，上述一种字级别的时间戳的生成方法中，根据每个字的概率峰值确定每个字的首端点对应的时间，包括：

将每个字的概率峰值对应的时间往前延第一预设时间，确定每个字的首端点对应的时间。

进一步地，上述一种字级别的时间戳的生成方法中，概率峰值是log概率。

第二方面，本申请实施例提供一种字级别的时间戳的生成装置，包括：

第一确定模块：用于帧解码过程中，确定每个字的概率峰值；

第二确定模块：用于根据每个字的概率峰值确定每个字的尾端点对应的时间；

第三确定模块：用于根据每个字的尾端点对应的时间确定每个字的首端点对应的时间；

第四确定模块：用于根据每个字的首端点对应的时间和每个字的尾端点对应的时间生成字级别的时间戳。

第三方面，本申请实施例还提供一种电子设备，其特征在于，包括：处理器和存储器；

所述处理器通过调用所述存储器存储的程序或指令，用于执行上述一种字级别的时间戳的生成方法。

第四方面，本申请实施例还提供一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储程序或指令，所述程序或指令使计算机上述一种字级别的时间戳的生成方法。

本申请实施例的优点在于：本申请涉及一种字级别的时间戳的生成方法、电子设备和存储介质，该方法包括：在逐帧解码过程中，确定每个字的概率峰值；根据每个字的概率峰值确定每个字的尾端点对应的时间；根据每个字的尾端点对应的时间确定每个字的首端点对应的时间；根据每个字的首端点对应的时间和每个字的尾端点对应的时间生成字级别的时间戳。本申请通过基于深度神经网络的输出分数，以及解码过程中输出每个字时打分的变化规律，确定每个字的概率峰值，根据每个字的概率峰值确定每个字的首端点对应的时间和每个字的尾端点对应的时间，提供了获取字级别时间戳的方法，能够输出字级别上精确的时间戳信息，得到高精度的边界信息，提升了用户体验。

附图说明

为了更清楚地说明本申请实施例或传统技术中的技术方案，下面将对实施例或传统技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种字级别的时间戳的生成方法示意图一；

图2为本申请实施例提供的一种字级别的时间戳的生成方法示意图二；

图3为本申请实施例提供的一种字级别的时间戳的生成方法示意图三；

图4为本申请实施例提供的一种字级别的时间戳的生成装置示意图；

图5是本申请实施例提供的一种电子设备的示意性框图。

具体实施方式

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图对本申请的具体实施方式做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本申请内涵时做类似改进，因此本申请不受下面公开的具体实施的限制。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。

下文首先介绍一下本申请的技术背景：

端到端语音识别引擎的神经网络模型一般会输出一个T x M的矩阵。其中T表示音频的帧数，M表示词典的大小。矩阵中的元素ixj表示i时刻模型输出j的概率，一般使用log概率。后续在该矩阵的基础上，使用一个解码算法(如CTC Prefix Beam Search、Time SyncDecoding、Align length Sync Decoding等)，就能拿到最终的识别结果，每个字的边界信息时间戳就是在解码过程中得到的。

在逐帧解码的过程中，每帧都有一条最佳的路径，它的分数为其径途经所有时刻的log概率之和。正常情况下，一个字会覆盖若干帧，它从开始出现到完全出现，整条路径的概率会有一个大致的规律：从小到大，然后平稳或跳变到下一个字。因为一开始信息很少，与这个字匹配的概率不会很大，随着解码时间的推进，会变得越来越“像”这个字，即概率逐渐增大。后续的概率可能会相对平稳遇到静音或发生跳变遇到下一个字。

图1为本申请实施例提供的一种字级别的时间戳的生成方法示意图一。

第一方面，本申请实施例提供一种字级别的时间戳的生成方法，结合图1，包括S101至S104四个步骤：

S101：在逐帧解码过程中，确定每个字的概率峰值。

具体的，本申请实施例中，在逐帧解码过程中，确定每个字的概率峰值，是确定每个字作为最新字出现时最大的log概率打分。

S102：根据每个字的概率峰值确定每个字的尾端点对应的时间。

具体的，本申请实施例中，确定了每个字最大的log概率打分后，根据每个字最大的log概率打分确定每个字的尾端点对应的时间，下文结合具体的步骤介绍每个字的尾端点对应的时间。

S103：根据每个字的尾端点对应的时间确定每个字的首端点对应的时间。

具体的，本申请实施例中，确定了每个字的尾端点对应的时间后，可以把每个字的尾端点对应的时间向前移大概一个字的时间，就可以确定每个字的首端点对应的时间，下文结合具体的例子介绍。

S104：根据每个字的首端点对应的时间和每个字的尾端点对应的时间生成字级别的时间戳。

具体的，本申请实施例中，确定了每个字的首端点对应的时间和每个字的尾端点对应的时间，根据首端点和尾端点之间的时间就可以确定每个字的时间戳。

图2为本申请实施例提供的一种字级别的时间戳的生成方法示意图二。

进一步地，上述一种字级别的时间戳的生成方法中，根据每个字的概率峰值确定每个字的尾端点对应的时间，结合图2，包括S201至S202两个步骤：

S201：比较每个字的概率峰值与每个字的当前概率值；

S202：若比较结果为每个字的概率峰值与每个字的当前概率值之差大于等于预设阈值；

S203：确定当前概率值对应的时间为尾端点对应的时间。

具体的，本申请实施例中，如当前字持续一段时间，然后立即跳转到下一个字。此时需要找到当前字的跳转点，比较每个字的概率峰值与每个字的当前概率值设置一个相对0.1％的阈值，当前字的概率值与概率峰值相比，若比较结果为每个字的概率峰值与每个字的当前概率值之差大于等于预设阈值；如差值为预设阈值如0.1％，确定当前概率值对应的时间为尾端点对应的时间。

图3为本申请实施例提供的一种字级别的时间戳的生成方法示意图三。

进一步地，上述一种字级别的时间戳的生成方法中，根据每个字的概率峰值确定每个字的尾端点对应的时间，结合图3，包括S301至S302两个步骤：

S301：若当前字持续结束后，是一段静音片段，且每个字的概率峰值与每个字的当前概率值之差小于预设阈值；

S302：将每个字的概率峰值对应的时间往后延第一预设时间，确定每个字的尾端点对应的时间。

具体的，本申请实施例中，如当前字持续结束后开启一段静音片段。此时打分比概率峰值相比，降低不超过预设阈值0.1％，且会持续较长时间，则将概率峰值的时刻往后延第一预设时间如120ms，大概是半个字的时间，以此确定每个字的尾端点对应的时间。

具体的，本申请实施例中，在确定了每个字的尾端点对应的时间后，还可以将尾端点对应的时间前移第二预设时间如240ms，大概是一个字的时间，就可以确定每个字的首端点对应的时间。

进一步地，上述一种字级别的时间戳的生成方法，还包括：

根据每个字的概率峰值确定每个字的首端点对应的时间。

具体的，本申请实施例中，除了上文介绍的比较每个字的概率峰值与每个字的当前概率值，还可以通过每个字的概率峰值对应的时间确定每个字的首端点对应的时间。

具体的，本申请实施例中，以将每个字的概率峰值对应的时间前移第一预设时间120ms，半个字的时间确定每个字的首端点对应的时间。

具体的，本申请实施例中，端到端语音识别引擎的神经网络模型一般会输出一个Tx M的矩阵。其中T表示音频的帧数，M表示词典的大小。矩阵中的元素ixj表示i时刻模型输出j的概率，一般使用log概率，所以概率峰值是log概率。

图4为本申请实施例提供的一种字级别的时间戳的生成装置示意图。

第二方面，本申请实施例提供一种字级别的时间戳的生成装置，结合图4，包括：

第一确定模块401：用于帧解码过程中，确定每个字的概率峰值。

具体的，本申请实施例中，在逐帧解码过程中，第一确定模块401确定每个字的概率峰值，是确定每个字作为最新字出现时最大的log概率打分。

第二确定模块402：用于根据每个字的概率峰值确定每个字的尾端点对应的时间。

具体的，本申请实施例中，确定了每个字最大的log概率打分后，第二确定模块402根据每个字最大的log概率打分确定每个字的尾端点对应的时间，上文结合具体的步骤已介绍每个字的尾端点对应的时间。

第三确定模块403：用于根据每个字的尾端点对应的时间确定每个字的首端点对应的时间。

具体的，本申请实施例中，确定了每个字的尾端点对应的时间后，可以把每个字的尾端点对应的时间向前移大概一个字的时间，第三确定模块403就可以确定每个字的首端点对应的时间，上文结合具体的例子已做介绍。

第四确定模块404：用于根据每个字的首端点对应的时间和每个字的尾端点对应的时间生成字级别的时间戳。

具体的，本申请实施例中，确定了每个字的首端点对应的时间和每个字的尾端点对应的时间，第四确定模块404根据首端点和尾端点之间的时间就可以确定每个字的时间戳。

图5是本公开实施例提供的一种电子设备的示意性框图。

如图5所示，电子设备包括：至少一个处理器501、至少一个存储器502和至少一个通信接口503。电子设备中的各个组件通过总线系统504耦合在一起。通信接口503，用于与外部设备之间的信息传输。可理解，总线系统504用于实现这些组件之间的连接通信。总线系统504除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但为了清楚说明起见，在图5中将各种总线都标为总线系统504。

可以理解，本实施例中的存储器502可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。

在一些实施方式中，存储器502存储了如下的元素，可执行单元或者数据结构，或者他们的子集，或者他们的扩展集：操作系统和应用程序。

其中，操作系统，包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序，包含各种应用程序，例如媒体播放器(Media Player)、浏览器(Browser)等，用于实现各种应用业务。实现本申请实施例提供的一种字级别的时间戳的生成方法中任一方法的程序可以包含在应用程序中。

在本申请实施例中，处理器501通过调用存储器502存储的程序或指令，具体的，可以是应用程序中存储的程序或指令，处理器501用于执行本申请实施例提供的一种字级别的时间戳的生成方法各实施例的步骤。

在逐帧解码过程中，确定每个字的概率峰值；

根据每个字的概率峰值确定每个字的尾端点对应的时间；

本申请实施例提供的一种字级别的时间戳的生成方法中任一方法可以应用于处理器501中，或者由处理器501实现。处理器501可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器501中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器501可以是通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本申请实施例提供的一种字级别的时间戳的生成方法中任一方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件单元组合执行完成。软件单元可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器502，处理器501读取存储器502中的信息，结合其硬件完成一种字级别的时间戳的生成方法的步骤。

本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本申请的范围之内并且形成不同的实施例。

本领域的技术人员能够理解，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种字级别的时间戳的生成方法，其特征在于，包括：

在逐帧解码过程中，确定每个字的概率峰值，确定每个字的概率峰值是确定每个字作为最新字出现时最大的log概率打分；

根据所述每个字的概率峰值确定每个字的尾端点对应的时间；

根据所述每个字的尾端点对应的时间确定每个字的首端点对应的时间；

根据所述每个字的首端点对应的时间和所述每个字的尾端点对应的时间生成字级别的时间戳。

2.根据权利要求1所述的一种字级别的时间戳的生成方法，其特征在于，所述根据所述每个字的概率峰值确定每个字的尾端点对应的时间，包括：

比较所述每个字的概率峰值与每个字的当前概率值；

若比较结果为所述每个字的概率峰值与所述每个字的当前概率值之差大于等于预设阈值；

确定所述当前概率值对应的时间为尾端点对应的时间。

3.根据权利要求1所述的一种字级别的时间戳的生成方法，其特征在于，所述根据所述每个字的概率峰值确定每个字的尾端点对应的时间，包括：

若当前字持续结束后，是一段静音片段，且所述每个字的概率峰值与每个字的当前概率值之差小于预设阈值；

将所述每个字的概率峰值对应的时间往后延第一预设时间，确定每个字的尾端点对应的时间。

4.根据权利要求1所述的一种字级别的时间戳的生成方法，其特征在于，根据所述每个字的尾端点确定每个字的首端点对应的时间，包括：

将所述每个字的尾端点对应的时间往前延第二预设时间，确定每个字的首端点对应的时间。

5.根据权利要求1所述的一种字级别的时间戳的生成方法，其特征在于，所述方法还包括：

根据所述每个字的概率峰值确定每个字的首端点对应的时间。

6.根据权利要求5所述的一种字级别的时间戳的生成方法，其特征在于，所述根据所述每个字的概率峰值确定每个字的首端点对应的时间，包括：

将所述每个字的概率峰值对应的时间往前延第一预设时间，确定每个字的首端点对应的时间。

7.根据权利要求1所述的一种字级别的时间戳的生成方法，其特征在于，所述概率峰值是log 概率。

8.一种字级别的时间戳的生成装置，其特征在于，包括：

第一确定模块：用于帧解码过程中，确定每个字的概率峰值，确定每个字的概率峰值是确定每个字作为最新字出现时最大的log概率打分；

第二确定模块：用于根据所述每个字的概率峰值确定每个字的尾端点对应的时间；

第三确定模块：用于根据所述每个字的尾端点对应的时间确定每个字的首端点对应的时间；

第四确定模块：用于根据所述每个字的首端点对应的时间和所述每个字的尾端点对应的时间生成字级别的时间戳。

9.一种电子设备，其特征在于，包括：处理器和存储器；

所述处理器通过调用所述存储器存储的程序或指令，用于执行如权利要求1至7任一项所述一种字级别的时间戳的生成方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储程序或指令，所述程序或指令使计算机执行如权利要求1至7任一项所述一种字级别的时间戳的生成方法。