CN110798733A - 一种字幕生成方法、装置及计算机存储介质、电子设备 - Google Patents
一种字幕生成方法、装置及计算机存储介质、电子设备 Download PDFInfo
- Publication number
- CN110798733A CN110798733A CN201911047803.1A CN201911047803A CN110798733A CN 110798733 A CN110798733 A CN 110798733A CN 201911047803 A CN201911047803 A CN 201911047803A CN 110798733 A CN110798733 A CN 110798733A
- Authority
- CN
- China
- Prior art keywords
- text data
- characters
- determining
- standard manuscript
- operation steps
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
- H04N21/4394—Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/488—Data services, e.g. news ticker
- H04N21/4884—Data services, e.g. news ticker for displaying subtitles
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/81—Monomedia components thereof
- H04N21/8126—Monomedia components thereof involving additional data, e.g. news, sports, stocks, weather forecasts
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/83—Generation or processing of protective or descriptive data associated with content; Content structuring
- H04N21/845—Structuring of content, e.g. decomposing content into time segments
- H04N21/8455—Structuring of content, e.g. decomposing content into time segments involving pointers to the content, e.g. pointers to the I-frames of the video stream
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Document Processing Apparatus (AREA)
Abstract
一种字幕生成方法、装置及计算机存储介质、电子设备,包括:确定节目的音频文件;将所述音频文件转写为文字,得到音频文件对应的带有时间码信息的文本数据;将所述文本数据与所述节目的标准文稿进行匹配;根据匹配后的结果将所述文本数据的时间码信息附加给所述标准文稿,得到带时间码信息的字幕文件。采用本申请中的方案,通过对音频做语音识别实现电视节目字幕和语音内容的自动匹配,使得音频与文本时间码同步,字幕文本具有时码信息。
Description
技术领域
本申请涉及节目制作技术,具体地,涉及一种字幕生成方法、装置及计算 机存储介质、电子设备。
背景技术
在传媒行业的音视频后期字幕制作环节,电视节目的字幕和语音内容无法 自动匹配,但是电视节目播出时需要将音频和字幕同步。目前,在字幕制作时, 工作人员需要通过字幕软件进行时间轴拍打,制作字幕的过程包括:
第一步:工作人员需要先将听写好的字幕文件导入字幕软件;
第二步:然后再导入相对应的音视频文件;
第三步:打开时间轴制作;
第四步:拍打确定第一句话时间码的开始时间;
第五步:拍打确定第一句话时间码的结束时间;
第六步:核对第一句话时间码的开始时间和结束时间是否正确;
第七步:重复上述第四、五、六步,拍打第二句话以及后面句子的时间码;
...
第N步:导出srt文件。
从上面过程可以看出,时间码轴环节是最为细小且最为繁琐的环节。工作 人员需要一边听音频、一边看视频中人物的口型、一边拍打时间轴,并且在每 拍打完一句话的时间轴时候需要重新播放当前音视频片段进行核对。在这种情 况下,一旦其中某句话的时间码拍打错误或处于某些原因需要进行修改,将直 接影响后面关联的句子的时间轴的修改。
现有技术中存在的问题:
目前传媒行业,特别是广电行业需要播出海量的音视频节目,每一档节目 都需要工作人员进行“纯手工”的匹配字幕。以视频的字幕为例,工作人员在 进行手工匹配时需要视频、音频、字幕三方同时兼顾,并且需要反复听写、反 复校对,过程繁琐且效率低下。而且,如果工作人员发现其中一句需要重新修 改时间码,需要重新修改后面受关联影响的时间码。
发明内容
本申请实施例中提供了一种字幕生成方法、装置及计算机存储介质、电子 设备,以解决上述技术问题。
根据本申请实施例的第一个方面,提供了一种字幕生成方法,包括如下步 骤:
确定节目的音频文件;
将所述音频文件转写为文字,得到音频文件对应的带有时间码信息的文本 数据;
将所述文本数据与所述节目的标准文稿进行匹配;
根据匹配后的结果将所述文本数据的时间码信息附加给所述标准文稿,得 到带时间码信息的字幕文件。
根据本申请实施例的第二个方面,提供了一种字幕生成装置,包括:
音频确定模块,用于确定节目的音频文件;
文本生成模块,用于将所述音频文件转写为文字,得到音频文件对应的带 有时间码信息的文本数据;
匹配模块,用于将所述文本数据与所述节目的标准文稿进行匹配;
附时码模块,用于根据匹配后的结果将所述文本数据的时间码信息附加给 所述标准文稿,得到带时间码信息的字幕文件。
根据本申请实施例的第三个方面,提供了一种计算机存储介质,其上存储 有计算机程序,所述计算机程序被处理器执行时实现如上所述字幕生成方法的 步骤。
根据本申请实施例的第四个方面,提供了一种电子设备,包括存储器、以 及一个或多个处理器,所述存储器用于存储一个或多个程序;所述一个或多个 程序被所述一个或多个处理器执行时,实现如上所述的字幕生成方法。
采用本申请实施例中提供的字幕生成方法、装置及计算机存储介质、电子 设备,在确定节目的音频文件之后,通过对音频文件进行语音识别,得到带有 时间码信息的文本数据,然后将该文本数据与所述节目的标准文稿进行匹配, 并根据匹配后的结果将所述文本数据的时间码信息附加给所述标准文稿,得到 带时间码信息的字幕文件,使得音频与字幕文件时间码同步。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分, 本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限 定。在附图中:
图1示出了本申请实施例一中字幕生成方法实施的流程示意图;
图2示出了本申请实施例二中字幕生成装置的结构示意图;
图3示出了本申请实施例四中电子设备的结构示意图。
具体实施方式
针对现有技术存在的技术问题,本申请实施例中提供了一种字幕生成方法、 装置及计算机存储介质、电子设备,通过对音频做语音识别实现电视节目字幕 和语音内容的自动匹配,使得音频与文本时间码(或简称时码)同步,字幕文 本具有时码信息。
本申请实施例中的方案可以采用各种计算机语言实现,例如,面向对象的 程序设计语言Java和直译式脚本语言JavaScript等。
为了使本申请实施例中的技术方案及优点更加清楚明白,以下结合附图对 本申请的示例性实施例进行进一步详细的说明,显然,所描述的实施例仅是本 申请的一部分实施例,而不是所有实施例的穷举。需要说明的是,在不冲突的 情况下,本申请中的实施例及实施例中的特征可以相互组合。
实施例一
图1示出了本申请实施例一中字幕生成方法实施的流程示意图。
如图所示,所述字幕生成方法包括:
步骤101、确定节目的音频文件;
步骤102、将所述音频文件转写为文字,得到音频文件对应的带有时间码 信息的文本数据;
步骤103、将所述文本数据与所述节目的标准文稿进行匹配;
步骤104、根据匹配后的结果将所述文本数据的时间码信息附加给所述标 准文稿,得到带时间码信息的字幕文件。
在节目现场录制时通常可以同时录制主持人和嘉宾等人物的音频文件、或 视频文件,并将所述音频文件和/或视频文件存储至计算机中以便后续节目制作 之用。
在确定节目的音频文件之后,可以进一步将所述音频文件转写为文字,得 到音频文件对应的带有时间码信息的文本数据。具体的,可以利用现有的语音 转写技术或者语音识别技术将音频文件转写为文字,具体的转写过程本申请在 此不做赘述。
通常,在节目录制前会有所述节目的标准文稿,所述标准文稿通常可以包 括节目名称、表演形式、表演者、以及按照时间先后顺序组织的具体节目内容。 本申请实施例具体实施时,对于“节目名称”、“表演形式”、“表演者”等信息 可能不会被录制声音,所以本申请实施例所述的音频文件可以仅对应于所述按 照时间先后顺序组织的具体节目内容。
在得到所述音频文件对应的文本数据之后,本申请实施例可以进一步将所 述文本数据与该节目的标准文稿进行匹配。由于节目录制时可能人物所说的话 没有完全按照标准文稿的内容进行,或者音频文件转写时音频转写错误等原因 的存在,可能导致所述音频文件的文本数据与所述节目的标准文稿不完全一致, 本申请实施例可以在文本数据与节目的标准文稿中的文字进行匹配,匹配后的 结果通常为文本数据与节目的标准文稿中相对应的文字建立关系。例如:音频 文件转写得到的文本数据为“我爱背景展览馆”,标准文稿为“我爱北京展览 馆”,本申请实施例将所述文本数据中的“我爱”与标准文稿中“我爱”进行 匹配、将所述文本数据中的“展览馆”与标准文稿中“展览馆”进行匹配。
最终根据匹配后的结果,将所述文本数据的时间码信息附加给所述标准文 稿,得到带时间码信息的字幕文件。例如:所述音频文件转写得到的文本数据 的时间码信息为:
我爱背景展览馆
023 031 036 058
附加给所述标准文稿后,得到字幕文件如下:
我爱北京展览馆
023 031 036 058
采用本申请实施例中提供的字幕生成方法,在确定节目的音频文件之后, 通过对音频文件进行语音识别,得到带有时间码信息的文本数据,然后将该文 本数据与所述节目的标准文稿进行匹配,并根据匹配后的结果将所述文本数据 的时间码信息附加给所述标准文稿,得到带时间码信息的字幕文件,使得音频 与字幕文件时间码同步。
在一种实施方式中,所述将文本数据与所述节目的标准文稿进行匹配,包 括:
确定将所述文本数据中的字符与所述节目的标准文稿中的字符进行匹配 的最小操作次数以及操作步骤;
按照所述最小操作次数的操作步骤将所述文本数据中的字符与所述节目 的标准文稿中的字符进行匹配。
具体实施时,本申请实施例所述的将音频文件转写得到的文本数据与所述 节目的标准文稿进行匹配,具体可以指将音频文件转写得到的文本数据中的字 符与所述节目的标准文稿中的字符进行匹配。
由于音频文件转写得到的文本数据与所述节目的标准文稿可能存在不一 致的字符,因此需要进行一些操作使得所述文本数据中能够进行匹配的字符均 可以与标准文稿中对应的字符完成匹配。
所述的需要进行的操作可以有多种方式,例如将所述文本数据全部替换为 标准文稿、或者将所述文本数据中部分字符替换为标准文稿中对应位置的字符 等。
本申请实施例首先要确定将所述文本数据中的字符与所述节目的标准文 稿中的字符进行匹配的最小操作次数以及操作步骤,然后按照所述最小操作次 数的操作步骤将所述文本数据中的字符与所述节目的标准文稿中的字符进行 匹配,得到匹配后的结果。
在一种实施方式中,所述确定将所述文本数据中的字符与所述节目的标准 文稿中的字符进行匹配的最小操作次数以及操作步骤,包括:
对于所述文本数据中第i个字符,确定所述文本数据中的字符串s[1~i]== 所述标准文稿的字符串t[1~j]时的操作次数min(d[i,j])以及对应的操作步骤; 其中,1≤i≤所述文本数据的字符总数N,1≤j≤所述标准文稿中的字符总数 M;
i加1,重复执行上一步骤,直至遍历完所述文本数据中所有字符;
确定所述文本数据中的字符与所述节目的标准文稿中的字符进行匹配的 最小操作次数为min(d[N,M])以及min(d[N,M])对应的操作步骤。
具体实施时,假设所述文本数据中有N个字符,匹配过程可以如下:
对于文本数据中的第1个字符,若所述文本数据中的字符串s[1]=所述标 准文稿的字符串t[1],那么确定操作次数为0,不需要进行操作;
若所述文本数据中的字符串s[1]≠所述标准文稿的字符串t[1],那么,可 以有以下几种情况:
A1)将所述文本数据中的字符串s[1]替换为所述标准文稿的字符串t[1], 确定操作次数为1、操作步骤为将所述文本数据中的第1个字符替换为所述标 准文稿的第1个字符;
B1)判断所述文本数据中的字符串s[2]是否等于所述标准文稿的字符串 t[1];
若所述文本数据中的字符串s[2]=所述标准文稿的字符串t[1],则将所述文 本数据中的字符串s[1]替换为空字符,确定操作次数为1、操作步骤为将所述 文本数据中的第1个字符替换为空字符;
若所述文本数据中的字符串s[2]≠所述标准文稿的字符串t[1],则又可以 包括以下几种情况:
B11)判断所述文本数据中的字符串s[3]是否等于所述标准文稿的字符串 t[1];
B12)判断所述文本数据中的字符串s[2]是否等于所述标准文稿的字符串 t[2];
...
C1)判断所述文本数据中的字符串s[1]是否等于所述标准文稿的字符串 t[2];
在所述文本数据中的字符串s[1]=所述标准文稿的字符串t[2]时,确定操作 次数为1、操作步骤为在所述文本数据的第1个字符前增加一个替补字符;
若所述文本数据中的字符串s[1]≠所述标准文稿的字符串t[2],则可以继 续划分为以下几种情况:
C12)将所述文本数据中的字符串s[1~1]替换为所述标准文稿的字符串 t[1~2],确定操作次数为2、操作步骤为将所述文本数据中的第1、2个字符替 换为所述标准文稿的第1、2个字符;
C22)判断所述文本数据中的字符串s[3]是否等于所述标准文稿的字符串t[1]或t[2];
...
通过上述动态调整的过程,逐渐将文本数据与标准文稿存在对应关系的字 符进行匹配成功。
对于文本数据中的第1个字符,确定所述文本数据中的字符串s[1]==所述 标准文稿的字符串t[1~j]时的操作次数min(d[1,j])以及对应的操作步骤;
对于文本数据中的第2个字符,确定所述文本数据中的字符串s[1~2]==所 述标准文稿的字符串t[1~j]时的操作次数min(d[2,j])以及对应的操作步骤;
...(对于每个字符的操作确定时,标准文稿中的j值可以不同)
最终遍历完所述文本数据中的字符N和/或所述节目的标准文稿中的字符 M,得到所述文本数据中的字符与所述节目的标准文稿中的字符进行匹配的最 小操作次数为min(d[N,M])以及min(d[N,M])对应的操作步骤。
在一种实施方式中,所述对于所述文本数据中第i个字符,确定所述文本 数据中的字符串s[1~i]==所述标准文稿的字符串t[1~j]时的操作次数min(d[i,j]) 以及对应的操作步骤,包括:
若在k个操作步骤内可将s[1~i]可转换为t[1~j-1],则确定所述文本数据中 的字符串s[1~i]==所述标准文稿的字符串t[1~j]时的操作次数为k+1,操作步骤 包括所述k个操作步骤以及将t[j]加上s[1~i]的步骤;
若在k个操作步骤内可将s[1~i-1]可转换为t[1~j],则确定所述文本数据中 的字符串s[1~i]==所述标准文稿的字符串t[1~j]时的操作次数为k+1,操作步骤 包括所述k个操作步骤以及将s[i]移除的步骤;
若在k个操作步骤内可将s[1~i-1]可转换为t[1~j-1]且s[i]≠t[j],则确定所述文本数据中的字符串s[1~i]==所述标准文稿的字符串t[1~j]时的操作次数为 k+1,操作步骤包括所述k个操作步骤以及将s[i]替换为t[j]的步骤;
若在k个操作步骤内可将s[1~i-1]可转换为t[1~j-1]且s[i]=t[j],则确定所述 文本数据中的字符串s[1~i]==所述标准文稿的字符串t[1~j]时的操作次数为k,操作步骤包括所述k个操作步骤;
根据上述情况确定所述文本数据中的字符串s[1~i]==所述标准文稿的字符串t[1~j]时的最小操作次数min(d[i,j])以及对应的操作步骤。
对于每个字符串的匹配过程中,均可以包括多种情况(即多种操作方式, 对应于不同的操作次数和操作步骤),本申请实施例通过动态规划、或动态调 整的过程,最终确定出完成所有字符匹配的最小操作次数和操作步骤。
在一种实施方式中,在确定最小操作次数之后,进一步包括:
对错误位置的词前后没有匹配记录的关联词根据模糊音节进行判断;通过 发音确定该错误位置的词是否为由于模糊音节导致的错误;
在确定所述错误位置的词为由于模糊音节导致的错误时,根据模糊音节对 所述错误位置的词进行修正。
具体实施时,假设标准文稿中的文本为“今年的你很好”,而经过音频转 写得到的文本数据为“今年的你和好”,错误的位置为“你”后面,在错误位 置的词前后没有匹配记录的关联词为“和”,前后音节(“jin nian de ni”和“hao”) 一致且分别在全文中的位置相对应,此时,本申请实施例对于这种情况按照模 糊音节处理“和”这个字(没有匹配记录的词),确定中间音节“he”是由于 模糊音节导致的错误,将“he”改成“hen”。
具体实施时,未有匹配记录的关联词,需要按照顺序进行检索判断。
在一种实施方式中,所述的操作步骤包括对所述文本数据中与所述节目的 标准文稿中的字符不匹配的位置进行增加字符、删除字符和/或替换字符。
具体实施时,增加字符可以指在所述文本数据中与所述节目的标准文稿中 的字符不匹配的位置增加一个空字符,例如:在文本数据中缺少标准文稿中的 某个字符时,可以在相应位置增加一个空字符代替。
删除字符可以指在文本数据中存在所述标准文稿中没有的字符,此时可以 将该字符从所述文本数据中删除。
替换字符可以指文本数据中存在与所述标准文稿中的字符拼音相同、但文 字不同的字符,此时可以将所述文本数据中的所述字符替换为标准文稿中的字 符。
在一种实施方式中,所述将所述音频文件转写为文字,得到音频文件对应 的带有时间码信息的文本数据,包括:
将所述音频文件的每帧语音识别成状态序列;
根据所述音频文件中每帧语音的状态序列得到多个音素;
根据所述多个音素生成一个或多个单词;
将所述一个或多个单词与每帧语音内容匹配,得到每个词语对应的语音片 段在时间轴上的相对时间位置;
根据所述每个词语对应的语音片段在时间轴上的相对时间位置确定每个 词语的时间戳。
具体实施时,本申请实施例可以将语音的每帧识别成状态,再将每帧语音 对应的状态组合成音素,接着,再将多个音素组合成单词。
由于语音是一个连续的音频流,通常由大部分的稳定态和部分动态改变的 状态混合构成。所述将音频文件的每帧语音识别成状态,可以利用现有技术中 的维特比解码等技术对该音频文件进行解码,得到状态序列,所述状态序列可 以对应有多个音素。
人类的语言通常包括语音、词汇和语法三部分要素,基本词汇和语法构造 决定了每一种语言的基本面貌,本申请实施例侧重于语音的处理。语音可以理 解为语言用声音表达出来的形式,即人说话时发出的声音。而声音包括响度、 音调和音色三个基本属性,本申请实施例所述的音素可以理解为从音色的角度 划分出来的最小的语音单位。
音素又可以根据在发音过程中气流是否受到阻碍被分为元音音素和辅音 音素,例如:a、o、e等元音;b、p、f等辅音。
通常在汉语中,2~4个音素可以构成一个音节(例如:mei),一个音节对 应一个汉字(例如:美),即,2~4个音素可以组成一个词语/单词(例如:m、e、i三个音素组成一个词语/单词“美”)。
音频文件通常是按照一个时间轴播放的,在得到所述一个或多个单词之后, 可以将所述一个或多个单词与每帧语音内容匹配,得到每个词语对应的语音片 段在所述音频文件的时间轴上的相对时间位置,从而根据所述每个词语对应的 语音片段在时间轴上的相对时间位置确定每个词语的时间戳。
实施例二
基于同一发明构思,本申请实施例提供了一种字幕生成装置,该装置解决 技术问题的原理与一种字幕生成方法相似,重复之处不再赘述。
图2示出了本申请实施例二中字幕生成装置的结构示意图。
如图所示,所述字幕生成装置包括:
音频确定模块201,用于确定节目的音频文件;
文本生成模块202,用于将所述音频文件转写为文字,得到音频文件对应 的带有时间码信息的文本数据;
匹配模块203,用于将所述文本数据与所述节目的标准文稿进行匹配;
附时码模块204,用于根据匹配后的结果将所述文本数据的时间码信息附 加给所述标准文稿,得到带时间码信息的字幕文件。
采用本申请实施例中提供的字幕生成装置,在确定节目的音频文件之后, 通过对音频文件进行语音识别,得到带有时间码信息的文本数据,然后将该文 本数据与所述节目的标准文稿进行匹配,并根据匹配后的结果将所述文本数据 的时间码信息附加给所述标准文稿,得到带时间码信息的字幕文件,使得音频 与字幕文件时间码同步。
在一种实施方式中,所述匹配模块,包括:
操作确定单元,用于确定将所述文本数据中的字符与所述节目的标准文稿 中的字符进行匹配的最小操作次数以及操作步骤;
匹配单元,用于按照所述最小操作次数的操作步骤将所述文本数据中的字 符与所述节目的标准文稿中的字符进行匹配。
在一种实施方式中,所述操作确定单元,包括:
字符操作子单元,用于对于所述文本数据中第i个字符,确定所述文本数 据中的字符串s[1~i]==所述标准文稿的字符串t[1~j]时的操作次数min(d[i,j]) 以及对应的操作步骤;其中,1≤i≤所述文本数据的字符总数N,1≤j≤所述 标准文稿中的字符总数M;i加1,重复执行上一步骤,直至遍历完所述文本 数据中所有字符;
操作确定子单元,用于确定所述文本数据中的字符与所述节目的标准文稿 中的字符进行匹配的最小操作次数为min(d[N,M])以及min(d[N,M])对应 的操作步骤。
在一种实施方式中,所述字符操作子单元具体用于:
若在k个操作步骤内可将s[1~i]可转换为t[1~j-1],则确定所述文本数据中 的字符串s[1~i]==所述标准文稿的字符串t[1~j]时的操作次数为k+1,操作步骤 包括所述k个操作步骤以及将t[j]加上s[1~i]的步骤;
若在k个操作步骤内可将s[1~i-1]可转换为t[1~j],则确定所述文本数据中 的字符串s[1~i]==所述标准文稿的字符串t[1~j]时的操作次数为k+1,操作步骤 包括所述k个操作步骤以及将s[i]移除的步骤;
若在k个操作步骤内可将s[1~i-1]可转换为t[1~j-1]且s[i]≠t[j],则确定所述文本数据中的字符串s[1~i]==所述标准文稿的字符串t[1~j]时的操作次数为 k+1,操作步骤包括所述k个操作步骤以及将s[i]替换为t[j]的步骤;
若在k个操作步骤内可将s[1~i-1]可转换为t[1~j-1]且s[i]=t[j],则确定所述 文本数据中的字符串s[1~i]==所述标准文稿的字符串t[1~j]时的操作次数为k,操作步骤包括所述k个操作步骤;
根据上述情况确定所述文本数据中的字符串s[1~i]==所述标准文稿的字符串t[1~j]时的最小操作次数min(d[i,j])以及对应的操作步骤。
在一种实施方式中,所述装置进一步包括:
模糊音修正模块,用于在确定最小操作次数之后,对错误位置的词前后没 有匹配记录的关联词根据模糊音节进行判断;通过发音确定该错误位置的词是 否为由于模糊音节导致的错误;在确定所述错误位置的词为由于模糊音节导致 的错误时,根据模糊音节对所述错误位置的词进行修正。
在一种实施方式中,所述的操作步骤包括对所述文本数据中与所述节目的 标准文稿中的字符不匹配的位置进行增加字符、删除字符和/或替换字符。
在一种实施方式中,所述文本生成模块,包括:
第一处理单元,用于将所述音频文件的每帧语音识别成状态序列;
第二处理单元,用于根据所述音频文件中每帧语音的状态序列得到多个音 素;
第三处理单元,用于根据所述多个音素生成一个或多个单词;
第四处理单元,用于将所述一个或多个单词与每帧语音内容匹配,得到每 个词语对应的语音片段在时间轴上的相对时间位置;
第五处理单元,用于根据所述每个词语对应的语音片段在时间轴上的相对 时间位置确定每个词语的时间戳。
实施例三
基于同一发明构思,本申请实施例还提供一种计算机存储介质,下面进行 说明。
所述计算机存储介质,其上存储有计算机程序,所述计算机程序被处理器 执行时实现如实施例一所述字幕生成方法的步骤。
采用本申请实施例中提供的计算机存储介质,在确定节目的音频文件之后, 通过对音频文件进行语音识别,得到带有时间码信息的文本数据,然后将该文 本数据与所述节目的标准文稿进行匹配,并根据匹配后的结果将所述文本数据 的时间码信息附加给所述标准文稿,得到带时间码信息的字幕文件,使得音频 与字幕文件时间码同步。
实施例四
基于同一发明构思,本申请实施例还提供一种电子设备,下面进行说明。
图3示出了本申请实施例四中电子设备的结构示意图。
如图所示,所述电子设备包括存储器301、以及一个或多个处理器302, 所述存储器用于存储一个或多个程序;所述一个或多个程序被所述一个或多个 处理器执行时,实现如实施例一所述的字幕生成方法。
采用本申请实施例中提供的电子设备,在确定节目的音频文件之后,通过 对音频文件进行语音识别,得到带有时间码信息的文本数据,然后将该文本数 据与所述节目的标准文稿进行匹配,并根据匹配后的结果将所述文本数据的时 间码信息附加给所述标准文稿,得到带时间码信息的字幕文件,使得音频与字 幕文件时间码同步。
实施例五
为了便于本申请的实施,本申请实施例以一具体实例进行说明。
在电视台进行节目字幕制作时,可以包括以下过程:
首先,准备好节目的音频文件和节目的标准文稿。
音频文件和标准文稿通常可以一一对应。
然后,可以开始制作。
步骤1、先将音频文件进行转写,得到带时码的文本数据。
音频文件可以使用离线引擎转写得到该音频文件对应的带时码的文本数 据(或称为识别结果),音频转写具体可以基于深度全序列卷积神经网络,将5 小时以上的长段音频数据转换为文本数据,为后续的处理提供基础。
步骤2、将识别结果与标准文稿匹配
具体的,本申请实施例将识别结果与标准文稿匹配,以标准文稿的文字和 断句为准,将识别结果的文字和断句全部转化为标准文稿,按照预设算法处理 后的识别结果即等同于附好时码的标准文稿。
本申请实施例的算法可以理解为,利用字符操作,将字符串A转换为字符 串B所需要的最少操作数,本次操作即为将识别结果转化为标准文稿。一般来 说,两个字符串的最少操作数越小,则它们越相似。如果两个字符串相等,则 它们的最少操作数为0(不需要任何操作)。
假设标准文稿的字符串为A、识别结果的字符串为B,将识别结果的字符 串B转化为标准文稿的字符串A的最小操作数下,将识别结果的字符串B的 文字所携带的时间码附加给标准文稿的字符串A。
具体算法可以为:先通篇比对,再进行增加、删除、替换操作,选择操作 步骤最少的方案,在此方案下,将识别结果的时码信息附加给标准文稿。若出 现连续的文本不一致时,本申请实施例可以从拼音维度将识别结果的拼音与标 准文稿的拼音进行对比,在连续拼音一致时,将识别结果的时码信息附加给匹 配后的标准文稿的对应文本部分。
假设使用d[i,j]个步骤表示将串s[1…i]转换为串t[1…j]所需要的最 少步骤个数,那么,在最基本的情况下,即在i等于0时,也就是说串s为空, 那么对应的d[0,j]就是增加j个字符,使得s转化为t,在j等于0时,也就是 说串t为空,那么对应的d[i,0]就是减少i个字符,使得s转化为t。
具体实施时,可以使用一个二维数组保存d[i,j]这个值。
接下来,本申请实施例在此基础上增加一点动态规划的思想,要想得到将 s[1..i]经过最少次数的增加、删除、或者替换操作就转变为t[1..j],那么就必须 在之前可以以最少次数的增加、删除、或者替换操作,使得现在串s和串t只 需要再做一次操作或者不做就可以完成s[1..i]到t[1..j]的转换。所谓的“之前” 分为下面三种情况:
1)在k个操作内将s[1…i]转换为t[1…j-1];
2)在k个操作内将s[1..i-1]转换为t[1..j];
3)在k个步骤内将s[1…i-1]转换为t[1…j-1];
针对第1种情况,只需要在最后将t[j]加上s[1..i]就完成了匹配,这样总 共就需要k+1个操作。
针对第2种情况,只需要在最后将s[i]移除,然后再做这k个操作,所以 总共需要k+1个操作。
针对第3种情况,只需要在最后将s[i]替换为t[j],使得满足s[1..i]==t[1..j], 这样总共也需要k+1个操作。而如果在第3种情况下,s[i]刚好等于t[j],那可 以仅仅使用k个操作就完成这个过程。
最后,为了保证得到的操作次数总是最少的,本申请实施例可以从上面三 种情况中选择消耗最少的一种作为将s[1..i]转换为t[1..j]所需要的最小操作次数。
由于在音频文件中可能有模糊音的存在,因此,在得到最小的操作次数后, 还可以进一步对错误位置的词前后未有匹配记录的关联词,基于模糊的音节进 行判断,通过发音进行确定该词是否是由于模糊音导致错误,从而对操作次数 进行进一步的修正。
具体的,未有匹配记录的关联词,需要按照顺序进行检索判断。
举例说明:
A(标准文稿):大家过年好 今年冬天的雪下得是真大 所谓瑞雪兆丰年 是 个好兆头啊
B(识别结果):过年好 今年冬天的雪下的是真大 瑞雪兆丰年啊 是个好 兆头
第一种匹配方式如下:增加、删除、替换并存(□:代表改错地方)
A(标准文稿):大家过年好 今年冬天的雪下得是真大 所谓瑞雪兆丰年 是 个好兆头啊
B(识别结果):□□过年好 今年冬天的雪下□是真大 □□瑞雪兆丰年□ 是个好兆头□
错误数:7
第二种匹配方式如下:纯替换(倾斜字体代表改错地方)
A(标准文稿):大家过年好 今年冬天的雪下得是真大 所谓瑞雪兆丰年 是 个好兆头啊
错误数:25,全部替换,原始文字无保留,无法附加时码
本申请实施例最终选择错误数最少的进行修改操作,确定最终结果:
操作步骤数7;未修改位置的时码均保留;输出本申请实施例匹配处理后 的结果;
步骤3、附加时间码
在步骤2计算的最少操作步骤数的方案下,将识别结果所包含的文字信息 (时间码)附加给标准文稿,附时码结果如下(有下划线的字为带有时码信息 的文字):
A(标准文稿):大家过年好 今年冬天的雪下得是真大 所谓瑞雪兆丰年 是个好兆 头啊
B(识别结果):□□过年好 今年冬天的雪下□是真大 □□瑞雪兆丰年□ 是个好 兆头□
步骤4、人为容差
节目制作人员可以进行整体的偏移修改、细节调整、字幕停留时间延长、 应广电要求的文字进行断句优化等操作。
步骤5、输出结果
输出srt+txt字幕文件,进一步可以按照时间码信息播出字幕内容。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计 算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结 合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包 含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产 品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和 /或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/ 或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入 式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算 机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一 个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设 备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中 的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个 流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使 得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处 理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个 流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基 本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要 求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申 请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及 其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (16)
1.一种字幕生成方法,其特征在于,包括如下步骤:
确定节目的音频文件;
将所述音频文件转写为文字,得到音频文件对应的带有时间码信息的文本数据;
将所述文本数据与所述节目的标准文稿进行匹配;
根据匹配后的结果将所述文本数据的时间码信息附加给所述标准文稿,得到带时间码信息的字幕文件。
2.根据权利要求1所述的方法,其特征在于,所述将文本数据与所述节目的标准文稿进行匹配,包括:
确定将所述文本数据中的字符与所述节目的标准文稿中的字符进行匹配的最小操作次数以及操作步骤;
按照所述最小操作次数的操作步骤将所述文本数据中的字符与所述节目的标准文稿中的字符进行匹配。
3.根据权利要求2所述的方法,其特征在于,所述确定将所述文本数据中的字符与所述节目的标准文稿中的字符进行匹配的最小操作次数以及操作步骤,包括:
对于所述文本数据中第i个字符,确定所述文本数据中的字符串s[1~i]==所述标准文稿的字符串t[1~j]时的操作次数min(d[i,j])以及对应的操作步骤;其中,1≤i≤所述文本数据的字符总数N,1≤j≤所述标准文稿中的字符总数M;
i加1,重复执行上一步骤,直至遍历完所述文本数据中所有字符;
确定所述文本数据中的字符与所述节目的标准文稿中的字符进行匹配的最小操作次数为min(d[N,M])以及min(d[N,M])对应的操作步骤。
4.根据权利要求3所述的方法,其特征在于,所述对于所述文本数据中第i个字符,确定所述文本数据中的字符串s[1~i]==所述标准文稿的字符串t[1~j]时的操作次数min(d[i,j])以及对应的操作步骤,包括:
若在k个操作步骤内可将s[1~i]可转换为t[1~j-1],则确定所述文本数据中的字符串s[1~i]==所述标准文稿的字符串t[1~j]时的操作次数为k+1,操作步骤包括所述k个操作步骤以及将t[j]加上s[1~i]的步骤;
若在k个操作步骤内可将s[1~i-1]可转换为t[1~j],则确定所述文本数据中的字符串s[1~i]==所述标准文稿的字符串t[1~j]时的操作次数为k+1,操作步骤包括所述k个操作步骤以及将s[i]移除的步骤;
若在k个操作步骤内可将s[1~i-1]可转换为t[1~j-1]且s[i]≠t[j],则确定所述文本数据中的字符串s[1~i]==所述标准文稿的字符串t[1~j]时的操作次数为k+1,操作步骤包括所述k个操作步骤以及将s[i]替换为t[j]的步骤;
若在k个操作步骤内可将s[1~i-1]可转换为t[1~j-1]且s[i]=t[j],则确定所述文本数据中的字符串s[1~i]==所述标准文稿的字符串t[1~j]时的操作次数为k,操作步骤包括所述k个操作步骤;
根据上述情况确定所述文本数据中的字符串s[1~i]==所述标准文稿的字符串t[1~j]时的最小操作次数min(d[i,j])以及对应的操作步骤。
5.根据权利要求2所述的方法,其特征在于,在确定最小操作次数之后,进一步包括:
对错误位置的词前后没有匹配记录的关联词根据模糊音节进行判断;
通过发音确定该错误位置的词是否为由于模糊音节导致的错误;
在确定所述错误位置的词为由于模糊音节导致的错误时,根据模糊音节对所述错误位置的词进行修正。
6.根据权利要求2所述的方法,其特征在于,所述的操作步骤包括对所述文本数据中与所述节目的标准文稿中的字符不匹配的位置进行增加字符、删除字符和/或替换字符。
7.根据权利要求1所述的方法,其特征在于,所述将所述音频文件转写为文字,得到音频文件对应的带有时间码信息的文本数据,包括:
将所述音频文件的每帧语音识别成状态序列;
根据所述音频文件中每帧语音的状态序列得到多个音素;
根据所述多个音素生成一个或多个单词;
将所述一个或多个单词与每帧语音内容匹配,得到每个词语对应的语音片段在时间轴上的相对时间位置;
根据所述每个词语对应的语音片段在时间轴上的相对时间位置确定每个词语的时间戳。
8.一种字幕生成装置,其特征在于,包括:
音频确定模块,用于确定节目的音频文件;
文本生成模块,用于将所述音频文件转写为文字,得到音频文件对应的带有时间码信息的文本数据;
匹配模块,用于将所述文本数据与所述节目的标准文稿进行匹配;
附时码模块,用于根据匹配后的结果将所述文本数据的时间码信息附加给所述标准文稿,得到带时间码信息的字幕文件。
9.根据权利要求8所述的装置,其特征在于,所述匹配模块,包括:
操作确定单元,用于确定将所述文本数据中的字符与所述节目的标准文稿中的字符进行匹配的最小操作次数以及操作步骤;
匹配单元,用于按照所述最小操作次数的操作步骤将所述文本数据中的字符与所述节目的标准文稿中的字符进行匹配。
10.根据权利要求9所述的装置,其特征在于,所述操作确定单元,包括:
字符操作子单元,用于对于所述文本数据中第i个字符,确定所述文本数据中的字符串s[1~i]==所述标准文稿的字符串t[1~j]时的操作次数min(d[i,j])以及对应的操作步骤;其中,1≤i≤所述文本数据的字符总数N,1≤j≤所述标准文稿中的字符总数M;i加1,重复执行上一步骤,直至遍历完所述文本数据中所有字符;
操作确定子单元,用于确定所述文本数据中的字符与所述节目的标准文稿中的字符进行匹配的最小操作次数为min(d[N,M])以及min(d[N,M])对应的操作步骤。
11.根据权利要求10所述的装置,其特征在于,所述字符操作子单元具体用于:
若在k个操作步骤内可将s[1~i]可转换为t[1~j-1],则确定所述文本数据中的字符串s[1~i]==所述标准文稿的字符串t[1~j]时的操作次数为k+1,操作步骤包括所述k个操作步骤以及将t[j]加上s[1~i]的步骤;
若在k个操作步骤内可将s[1~i-1]可转换为t[1~j],则确定所述文本数据中的字符串s[1~i]==所述标准文稿的字符串t[1~j]时的操作次数为k+1,操作步骤包括所述k个操作步骤以及将s[i]移除的步骤;
若在k个操作步骤内可将s[1~i-1]可转换为t[1~j-1]且s[i]≠t[j],则确定所述文本数据中的字符串s[1~i]==所述标准文稿的字符串t[1~j]时的操作次数为k+1,操作步骤包括所述k个操作步骤以及将s[i]替换为t[j]的步骤;
若在k个操作步骤内可将s[1~i-1]可转换为t[1~j-1]且s[i]=t[j],则确定所述文本数据中的字符串s[1~i]==所述标准文稿的字符串t[1~j]时的操作次数为k,操作步骤包括所述k个操作步骤;
根据上述情况确定所述文本数据中的字符串s[1~i]==所述标准文稿的字符串t[1~j]时的最小操作次数min(d[i,j])以及对应的操作步骤。
12.根据权利要求9所述的装置,其特征在于,进一步包括:
模糊音修正模块,用于在确定最小操作次数之后,对错误位置的词前后没有匹配记录的关联词根据模糊音节进行判断;通过发音确定该错误位置的词是否为由于模糊音节导致的错误;在确定所述错误位置的词为由于模糊音节导致的错误时,根据模糊音节对所述错误位置的词进行修正。
13.根据权利要求9所述的装置,其特征在于,所述的操作步骤包括对所述文本数据中与所述节目的标准文稿中的字符不匹配的位置进行增加字符、删除字符和/或替换字符。
14.根据权利要求8所述的装置,其特征在于,所述文本生成模块,包括:
第一处理单元,用于将所述音频文件的每帧语音识别成状态序列;
第二处理单元,用于根据所述音频文件中每帧语音的状态序列得到多个音素;
第三处理单元,用于根据所述多个音素生成一个或多个单词;
第四处理单元,用于将所述一个或多个单词与每帧语音内容匹配,得到每个词语对应的语音片段在时间轴上的相对时间位置;
第五处理单元,用于根据所述每个词语对应的语音片段在时间轴上的相对时间位置确定每个词语的时间戳。
15.一种计算机存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一所述方法的步骤。
16.一种电子设备,其特征在于,包括存储器、以及一个或多个处理器,所述存储器用于存储一个或多个程序;所述一个或多个程序被所述一个或多个处理器执行时,实现如权利要求1至7任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911047803.1A CN110798733A (zh) | 2019-10-30 | 2019-10-30 | 一种字幕生成方法、装置及计算机存储介质、电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911047803.1A CN110798733A (zh) | 2019-10-30 | 2019-10-30 | 一种字幕生成方法、装置及计算机存储介质、电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110798733A true CN110798733A (zh) | 2020-02-14 |
Family
ID=69442217
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911047803.1A Pending CN110798733A (zh) | 2019-10-30 | 2019-10-30 | 一种字幕生成方法、装置及计算机存储介质、电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110798733A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111863043A (zh) * | 2020-07-29 | 2020-10-30 | 安徽听见科技有限公司 | 音频转写文件生成方法、相关设备及可读存储介质 |
CN111970257A (zh) * | 2020-08-04 | 2020-11-20 | 腾讯科技(深圳)有限公司 | 一种文稿显示控制方法、装置、电子设备和存储介质 |
CN113066498A (zh) * | 2021-03-23 | 2021-07-02 | 上海掌门科技有限公司 | 信息处理方法、设备和介质 |
CN116193162A (zh) * | 2023-03-01 | 2023-05-30 | 中国工商银行股份有限公司 | 数字人视频的字幕添加方法、装置、设备和存储介质 |
US11763099B1 (en) | 2022-04-27 | 2023-09-19 | VoyagerX, Inc. | Providing translated subtitle for video content |
CN117707394A (zh) * | 2023-07-12 | 2024-03-15 | 荣耀终端有限公司 | 文本显示方法、存储介质及电子设备 |
WO2025055642A1 (zh) * | 2023-09-13 | 2025-03-20 | 北京字跳网络技术有限公司 | 数据校正方法、系统、设备和存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102801925A (zh) * | 2012-08-08 | 2012-11-28 | 无锡天脉聚源传媒科技有限公司 | 一种字幕加配的方法及装置 |
CN103559214A (zh) * | 2013-10-11 | 2014-02-05 | 中国农业大学 | 视频自动生成方法及装置 |
CN104038804A (zh) * | 2013-03-05 | 2014-09-10 | 三星电子(中国)研发中心 | 基于语音识别的字幕同步装置和方法 |
CN105244022A (zh) * | 2015-09-28 | 2016-01-13 | 科大讯飞股份有限公司 | 音视频字幕生成方法及装置 |
CN106604125A (zh) * | 2016-12-29 | 2017-04-26 | 北京奇艺世纪科技有限公司 | 一种视频字幕的确定方法及装置 |
-
2019
- 2019-10-30 CN CN201911047803.1A patent/CN110798733A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102801925A (zh) * | 2012-08-08 | 2012-11-28 | 无锡天脉聚源传媒科技有限公司 | 一种字幕加配的方法及装置 |
CN104038804A (zh) * | 2013-03-05 | 2014-09-10 | 三星电子(中国)研发中心 | 基于语音识别的字幕同步装置和方法 |
CN103559214A (zh) * | 2013-10-11 | 2014-02-05 | 中国农业大学 | 视频自动生成方法及装置 |
CN105244022A (zh) * | 2015-09-28 | 2016-01-13 | 科大讯飞股份有限公司 | 音视频字幕生成方法及装置 |
CN106604125A (zh) * | 2016-12-29 | 2017-04-26 | 北京奇艺世纪科技有限公司 | 一种视频字幕的确定方法及装置 |
Non-Patent Citations (1)
Title |
---|
BAODREAM: "最小编辑距离算法 dit Distance(经典DP)", 《CSDN》 * |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111863043A (zh) * | 2020-07-29 | 2020-10-30 | 安徽听见科技有限公司 | 音频转写文件生成方法、相关设备及可读存储介质 |
CN111863043B (zh) * | 2020-07-29 | 2022-09-23 | 安徽听见科技有限公司 | 音频转写文件生成方法、相关设备及可读存储介质 |
CN111970257A (zh) * | 2020-08-04 | 2020-11-20 | 腾讯科技(深圳)有限公司 | 一种文稿显示控制方法、装置、电子设备和存储介质 |
CN111970257B (zh) * | 2020-08-04 | 2022-01-11 | 腾讯科技(深圳)有限公司 | 一种文稿显示控制方法、装置、电子设备和存储介质 |
CN113066498A (zh) * | 2021-03-23 | 2021-07-02 | 上海掌门科技有限公司 | 信息处理方法、设备和介质 |
US11763099B1 (en) | 2022-04-27 | 2023-09-19 | VoyagerX, Inc. | Providing translated subtitle for video content |
US11770590B1 (en) | 2022-04-27 | 2023-09-26 | VoyagerX, Inc. | Providing subtitle for video content in spoken language |
US11947924B2 (en) | 2022-04-27 | 2024-04-02 | VoyagerX, Inc. | Providing translated subtitle for video content |
US12099815B2 (en) | 2022-04-27 | 2024-09-24 | VoyagerX, Inc. | Providing subtitle for video content in spoken language |
CN116193162A (zh) * | 2023-03-01 | 2023-05-30 | 中国工商银行股份有限公司 | 数字人视频的字幕添加方法、装置、设备和存储介质 |
CN116193162B (zh) * | 2023-03-01 | 2025-03-25 | 中国工商银行股份有限公司 | 数字人视频的字幕添加方法、装置、设备和存储介质 |
CN117707394A (zh) * | 2023-07-12 | 2024-03-15 | 荣耀终端有限公司 | 文本显示方法、存储介质及电子设备 |
WO2025055642A1 (zh) * | 2023-09-13 | 2025-03-20 | 北京字跳网络技术有限公司 | 数据校正方法、系统、设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110798733A (zh) | 一种字幕生成方法、装置及计算机存储介质、电子设备 | |
JP4987623B2 (ja) | ユーザと音声により対話する装置および方法 | |
US8155958B2 (en) | Speech-to-text system, speech-to-text method, and speech-to-text program | |
JP5330450B2 (ja) | テキストフォーマッティング及びスピーチ認識のためのトピック特有のモデル | |
CN110740275B (zh) | 一种非线性编辑系统 | |
US20020065653A1 (en) | Method and system for the automatic amendment of speech recognition vocabularies | |
CN111986656B (zh) | 教学视频自动字幕处理方法与系统 | |
JP2012128188A (ja) | テキスト修正装置およびプログラム | |
EP1430474A1 (en) | Correcting a text recognized by speech recognition through comparison of phonetic sequences in the recognized text with a phonetic transcription of a manually input correction word | |
CN106856091A (zh) | 一种多语言文本的自动播报方法及系统 | |
US20130191125A1 (en) | Transcription supporting system and transcription supporting method | |
CN108305611B (zh) | 文本转语音的方法、装置、存储介质和计算机设备 | |
CN110870004A (zh) | 基于音节的自动语音识别 | |
CN110781649A (zh) | 一种字幕编辑方法、装置及计算机存储介质、电子设备 | |
JP5271299B2 (ja) | 音声認識装置、音声認識システム、及び音声認識プログラム | |
Van Bael et al. | Automatic phonetic transcription of large speech corpora | |
JP4436087B2 (ja) | 文字データ修正装置、文字データ修正方法および文字データ修正プログラム | |
CN115455946A (zh) | 语音识别纠错方法、装置、电子设备和存储介质 | |
JP5273844B2 (ja) | 字幕ずれ推定装置、字幕ずれ補正装置、再生装置および放送装置 | |
Alharbi et al. | Sada: Saudi audio dataset for arabic | |
US11341961B2 (en) | Multi-lingual speech recognition and theme-semanteme analysis method and device | |
KR102217621B1 (ko) | 사용자 발화의 오류를 교정하는 방법 및 장치 | |
JP2010164918A (ja) | 音声翻訳装置、および方法 | |
JP2014134640A (ja) | 文字起こし装置およびプログラム | |
Santos et al. | CORAA NURC-SP Minimal Corpus: a manually annotated corpus of Brazilian Portuguese spontaneous speech |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200214 |
|
RJ01 | Rejection of invention patent application after publication |